使用 Metal 构建实时神经网络渲染管线

探索如何使用 Metal 4 将机器学习整合到实时渲染管线中。我们将介绍利用 MetalFX 神经网络降噪实现生产级效果的实用模式和最佳做法，并分享来自 Maxon Redshift Live 的真实经验。了解如何使用 ML 命令编码器，在图形工作流程中训练和部署神经网络色调映射器。最后，深入探索新的张量 API，直接在着色器中构建并评估小型专用神经网络。

章节

0:00 - Introduction
2:16 - MetalFX Denoising
9:57 - Deploy custom ML networks with Metal 4
13:40 - Inline neural networks with tensorOps
20:55 - Next steps

资源

相关视频

WWDC25

你好我是Yulia Apple的GPU软件工程师今天我将分享如何引入机器学习到你的实时渲染管线结合Metal 4 你将学到将机器学习集成到渲染器的实用方法以及构建高性能管线的最佳实践还有两种可以立即采用的技术机器学习正从研究领域迈入实时渲染的生产实践在整个渲染管线中许多传统上依赖解析方法的成熟技术同样可以用机器学习来实现神经去噪神经纹理学习色调映射以及许多其他技术都可以借助机器学习在管线的每个阶段这些方法都可以提升质量性能或内存占用我将介绍这在 Metal中是如何实现的在Apple平台上你拥有完整的机器学习工具集满足你的渲染需求在最高层次 MetalFX 提供即用的神经去噪和超分辨率API 作为完全集成的黑盒解决方案 Metal 4 ML命令编码器让你在命令缓冲区中直接运行预训练模型让你对集成和调度有更多控制在最灵活的层次 TensorOps API 提供了构建模块用于直接在着色器中设计和运行自定义模型让你充分利用神经加速器这是在我们M5和 A19 Pro Apple silicon GPU中引入的今天我将依次介绍所有这些内容

这是今天的计划我将介绍如何采用MetalFX 并达到生产级质量结果在你的渲染管线中以Maxon的Redshift Live为例这是一款现代实时路径追踪视口它采用了MetalFX Denoising 遵循Apple最佳实践接下来我将介绍如何训练神经色调映射器并用Metal 4部署它最后我将介绍如何直接在着色器中使用TensorOps API 构建一个小型网络从MetalFX开始在你的路径追踪器中帧预算可能只允许你每像素一或几个采样以保持交互性但每像素一个采样噪声自然很大

为保证质量请使用MetalFX Denoising 它专为实时视口的低延迟要求而设计 MetalFX Denoising是神经超分辨率与去噪的结合这是针对Apple silicon 优化的平台集成解决方案你可以轻松地将它集成到你的管线中你需要生成一些额外的辅助输入如漫射反照率深度值及其他内容根据你的渲染器你可能已经生成了这些你将所有这些输入提供给MetalFX 它会生成精美的去噪图像之后你完成管线进行后处理并显示输出结果这是Redshift Live Maxon的现代实时路径追踪器在Cinema 4D中渲染他们的高质量3D资产运行在Apple silicon上你可以直接在视口中获得路径追踪的所有优势但在相机移动时你会看到一些噪声来自每像素一个采样的渲染启用MetalFX去噪器图像变得更加稳定几乎无噪声 Redshift Live现在可以提供清晰接近最终质量以交互帧率呈现图像具有实时光线追踪照明阴影和全局光照现在艺术家可以在视口中实时看到光照效果变化就像这棵树被移动一样当你将硬件加速光线追踪与MetalFX神经去噪结合时这一切成为可能这是每像素一个采样帧的示例由Redshift Live渲染通过同时利用空间和时间技术 MetalFX能够将嘈杂的每像素一个采样转化为图像接近最终质量实时完成要了解有关输入的所有详情以及如何在你的应用中利用MetalFX 请查看 "Go further with Metal 4 games"讲座我将概述三个关键最佳实践 Maxon用它们从MetalFX 获得最佳质量从去噪器输入和噪声开始

去噪器的输出质量直接取决于你输入的质量通常你的辅助输入是无噪声的尽力保持这种状态在所有输入中漫射反照率是去噪最强的信号如有疑问尽量使其接近无噪声版本即你希望在屏幕上看到的最终结果考虑直接在你的引擎中为每个输入构建调试视图使用GPU捕获逐帧检查纹理这将让你验证你的输入确保它们看起来符合模型的预期

你的场景中可能有一些无噪声的图层或者一些你不想强烈去噪的部分你有两个工具可用透明度叠加层和去噪器强度遮罩使用它们将帮助你在这些场景中最大化质量粒子雾体积效果和天空是没有有意义表面的效果基于你的渲染管线可能已经是无噪声的 MetalFX将对含噪输入进行去噪和超分辨率

对于这些无噪声效果你可以利用 MetalFX透明度叠加层输入叠加层输入只会被超分辨率并合成到最终结果中对于已无噪声的区域如天空你可以配置MetalFX 跳过这些像素的去噪使用去噪器强度遮罩我来分享一个例子天空已被标记为不进行去噪处理该值可从零开始调节表示不去噪一直到一表示以最大强度去噪具体取决于你的使用场景这让你可以控制场景中的去噪效果到目前为止 MetalFX 应已产生出色的输出但反射和透射存在一些棘手的情况这第二条最佳实践将帮助你解决这些问题镜子本身没有颜色观看者看到的是被反射的表面如前所述你的输入尤其是漫射反照率应当代表尽可能接近期望的最终输出将反射几何属性如反照率法线和粗糙度存储在镜面类对象中

玻璃建立在相同的基础概念上并将其进一步延伸观看者看到的是反射内容的组合和透射内容这可能包含噪声一种方法是通过菲涅耳项混合几何属性如漫射反照率大幅减少输入中的噪声菲涅耳项用于告知在给定交点处有多少光会被反射以及折射左侧显示的是主表面反照率而右侧则替换为合并的反射与折射反照率

这是一种名为主表面替换的成熟技术正确处理这一点将保持反射清晰且锐利现在你的材质效果丰富反射和折射也清晰锐利让我们深入第三条最佳实践正确设置运动向量正确的运动向量对时间稳定性至关重要运动向量是每像素屏幕空间位移从当前帧到上一帧对于每个像素运动向量应回答这个问题这个像素在上一帧位于哪里运动向量一直是现代渲染技术的基石正确设置运动向量决定了运动中的结果是模糊还是锐利模型使用运动向量来理解运动中的场景以及时间上的变化 MetalFX需要去抖动的运动向量即不含子像素偏移若没有这个 MetalFX 可能收到误差达一个像素的运动向量导致边缘闪烁以下是正确计算它们的方法这是计算静态对象仅相机运动向量的代码首先计算当前顶点的投影位置然后通过上一帧的矩阵对相同位置进行投影运动向量就是两者之差但由于相机矩阵经过了抖动从当前帧中减去抖动增量和上一帧最终得到干净的无抖动运动向量对于移动的对象和变形几何体仅相机路径无法感知位移存储每个顶点的上一帧世界坐标或蒙皮两次并计算实际运动向量对于运动真正不可靠的对象如快速运动如Alpha混合粒子请使用响应式遮罩有关响应式遮罩的更多信息请查看"Go further with Metal 4 games" 这是实际效果的样子 Maxon的Redshift Live 采用了我刚才介绍的所有最佳实践充分发挥MetalFX Denoising的性能运行在Apple silicon上并提供接近最终的图像质量现在我将带你超越平台解决方案分享如何构建你自己的机器学习驱动解决方案神经渲染远不止去噪越来越多的管线技术正在转向基于机器学习借助Metal 4 你拥有工具来构建和部署你自己的 Metal 4为你提供两种方式来引入自己的机器学习技术到管线中机器学习命令编码器让你部署训练好的模型直接在命令缓冲区的同一管线中无需上下文切换 TensorOps API让你构建小型硬件加速网络直接在着色器中有关两个API的更多详情请查看 "Combine Metal 4 machine learning and graphics" 今天我将专注于色调映射大多数渲染器都有扩展的后处理管线将HDR图像正确映射到可显示内容并符合艺术愿景如色调映射色彩分级或胶片仿真该管线由多个阶段组成每个阶段都有其参数并将输出级联传递管线可能变得任意复杂最佳结果来自于理解图像的内容而这正是神经网络能够学习的思路很简单取你现有的整个色彩管线或其一部分用单个神经网络替换它网络将学习色彩变换此类工作流的一个例子叫做HDRNet 这是Gharbi及其同事在2017年提出的架构以下是它工作原理的宏观概述网络在图像的小型降采样版本上工作它进行两种类型的分析全局和局部分析以捕获场景级别和细节此过程让网络能够创建色彩变换用于图像的16x16图块这些局部变换被应用采用智能的边缘感知技术生成精美的色调映射最终结果

要创建此解决方案你首先需要开发并在你选择的框架中训练网络例如PyTorch 训练数据可来自手动色调映射的历史项目或你的渲染器生成的大量色调映射图像模型训练完成后将其导出为MTLPackage 为了在Metal 4中执行你的网络在设置和实际执行阶段各有几个步骤需要完成以及实际执行阶段首先你需要通过加载MTLPackage来设置管线使用函数描述符指定网络函数并创建机器学习管线描述符此过程与加载常规管线非常相似下一步是调度你的网络执行为此你需要创建一个编码器创建包含输入和输出的参数表最后调度命令缓冲区这将启动执行你将看到计算机器学习和渲染工作同时进行这是更新后的管线首先你的路径追踪器产生采样接着是MetalFX去噪和新的神经色调映射器全部编码在同一命令缓冲区在同一帧中执行 ML编码器替换了你整个多阶段后处理链用单次神经评估代替我已介绍了如何训练和部署你的网络现在深入一个层次构建小型网络直接在着色器中使用TensorOps API 到目前为止你探索了大型通用网络在非常大的数据集上离线训练现在我将展示相反的方法针对单一任务的微型网络参数量几千或更少在你的场景数据上训练有时甚至每隔几帧在线训练网络只处理一种场景无需泛化到目前为止你已学会如何执行ML 作为独立步骤在同一命令缓冲区中这里它与计算和渲染并行执行然而一个小型网络可以内联在你的着色器中夹杂在其余代码中 ALU和纹理采样指令之间关键的使能技术是TensorOps 可在渲染管线的任意阶段使用所有这些结合起来开启了新的可能性和工作流其中涉及在线训练这里有一个例子用于基于图像光照的天空盒天空盒为场景中的几何体投射光线产生自然的柔和照明柔和照明是以下结果来自特定点所有可见方向的平均光线通常此结果在离线预计算并在运行时采样然而场景很少是静态的你可能有动态的昼夜循环你的离线学习信号可能不同步这对神经网络来说是一个可学习的函数这正是在线训练发挥作用的地方以下是你可以重现此技术的方法基于你目前所学的关于机器学习编码器的知识简化的渲染循环可能如下所示首先你更新你的世界确保所有信息都是最新的以便渲染接下来你调度机器学习编码器对模型运行推理并生成所需的光照信息你稍后将用于着色在线训练颠覆了这一模式通过创建你自己的训练和推理例程你可以每帧运行一次或多次训练迭代以提高模型精度这是在线训练循环针对天空照明模型的样子你首先生成一个你想采样的方向并对你的模型运行推理以获得结果然后你能够计算解析解用于天空照明问题以此计算误差最后运行反向传播以逐步提升模型这与你离线训练时使用的流程完全相同但这次是在多个帧上重复训练迭代

现在你正在运行自己的推理和训练例程这让你能够运行推理过程内联在你的着色过程中 TensorOps将让你非常高效地实现这一点你现在拥有一个每帧都会适应新世界状态的模型并可立即使用此信息进行着色这用以下方式是不可能实现的标准的离线训练工作流此概念可推广到任何能够学习信号的技术以下是如何开始构建你自己的解决方案从高层次看神经网络由以下部分组成三个主要构建模块输入层处理网络输入也称为输入特征输出层生成网络的最终预测最后是隐藏层学习的魔法在此发生天空探针是一个小型网络隐藏层组由两个各含四个神经元的隐藏层组成网络以三个浮点数作为输入来编码一个方向并生成三个浮点数作为输出代表来自该方向的平均照明以颜色形式表示这被称为全连接多层感知机简称MLP 即3-4-4-3网络你可以尝试不同的输入大小层的数量和大小以获得你应用程序的最佳结果为了能够评估你的网络你需要准备输入张量最好同时批量处理多个输入使其成为二维矩阵对于天空探针示例这将是一个二维矩阵包含一批你希望评估的输入方向但输入可以包含对网络有用的任何数据如位置或材质数据同样的原则适用于输出张量对于天空探针将其设为批量颜色的二维矩阵现在你已了解 MLP的结构以下是如何在着色器中实现它并在前向传递中评估它现在你已准备好开始评估你有输入张量和第一个隐藏层权重张量你可以使用二维矩阵乘法张量操作将两者相乘你将获得预激活结果你需要对其应用激活函数在此之前你需要存储矩阵乘法结果我将介绍如何高效地做到这一点你可能熟悉线程执行范围单个线程将负责执行整个张量操作这非常适合执行分支工作或在管线阶段中你无法完全控制线程组的情况下然而当你拥有完全控制时新的可能性就会出现在计算阶段你可以使用 SIMD组执行范围所有参与线程将共同完成相同的矩阵乘法此执行模式还将让你访问协作张量协作张量的存储是分布式的分布在线程组中的多个线程之间避免了昂贵的主内存往返通过将协作张量用作第一次乘法的输出结果将保留在快速线程存储内存中然后你可以就地应用激活函数现在你可以对矩阵乘法重复相同操作以及下一层的激活以及所有后续层一直到输出层在那里你可以存储结果张量并立即或在后续阶段在计算着色器中利用结果左侧是使用光线追踪计算的真值渲染右侧是神经渲染版本这个小型神经网络能够高效地学习信号这是如何构建MLP 的高级概述并使用TensorOps 在着色器中评估它完全相同的构建模块可用于创建高效的反向传播过程用于在线训练步骤有关所有代码详情请查看"Metal Performance Primitives (MPP) Programming Guide" 总结一下今天我介绍了渲染管线中机器学习的三个层次首先 MetalFX提供平台集成的神经去噪遵循三条最佳实践保持输入干净存储观看者所见的内容正确设置运动向量其次 MTLPackage让你导出你的离线训练模型并在运行时部署你学会了如何替换整个后处理管线用一次神经评估最后我介绍了 TensorOps API 它让你直接在着色器中构建微型网络运行在神经加速器上每个层次都给你更多控制选择最适合你App的那个下载Xcode并探索 Metal 4示例代码如果你的App有实时要求如专业App或游戏中的视口采用MetalFX Denoising和Upscaling 尝试使用你自己的后处理管线训练神经色调映射器并使用Tensor API 尝试小型专用网络查看我们往年的讲座获取更多详情

我迫不及待地想看到你构建的成果

8:46 - Compute camera-only motion vectors

#include <metal_stdlib>
using namespace metal;

// Compute camera-only motion vectors
float4 clipCurrent = viewProjCurrent * float4(worldPos, 1.0);
float2 ndcCurrent = clipCurrent.xy / clipCurrent.w;

float4 clipPrevious = viewProjPrevious * float4(worldPos, 1.0);
float2 ndcPrevious = clipPrevious.xy / clipPrevious.w;

float2 motion = ndcPrevious - ndcCurrent;

// Get subpixel offset for current and previous frames
float2 jitterCurrent = getJitter(frameIndex);
float2 jitterPrevious = getJitter(frameIndexPrevious);
motion -= jitterPrevious - jitterCurrent;

0:00 - Introduction
An overview of how machine learning is transforming real-time rendering pipelines on Apple platforms, and a preview of three levels of ML integration: MetalFX Denoising, deploying custom networks with Metal 4, and building tiny networks inline in shaders with tensorOps.
2:16 - MetalFX Denoising
How to integrate MetalFX Denoising into a path tracer running at one sample per pixel. Covers auxiliary inputs (albedo, depth, motion vectors), best practices for clean inputs, transparency overlays, the denoiser strength mask, and primary surface replacement for mirrors and glass — illustrated with Redshift Live from Maxon.
9:57 - Deploy custom ML networks with Metal 4
How to train a neural tone mapper offline (e.g., HDRNet), export it to Metal Performance Shaders Graph, and execute it inside a Metal 4 command buffer alongside your existing rendering passes to replace complex post-processing pipelines with a single network.
13:40 - Inline neural networks with tensorOps
How to build and run small multilayer perceptrons directly inside Metal shaders using the TensorOps API and cooperative tensors. Demonstrates an online-trained sky visibility probe that adapts to dynamic scenes each frame — enabling ML inference and training that runs alongside your existing compute and render work.
20:55 - Next steps
A recap of the three levels of ML integration in rendering pipelines, and guidance on where to start: download Xcode, explore Metal 4 sample code, and adopt MetalFX denoising for real-time applications first.

探索“入门汇总”

及时了解最新动态

探索“平台”

精选

探索“技术”

精选

探索“社区”

精选

探索“文档”

发布说明

探索“下载”

精选

探索“支持”

精选

快速链接

使用 Metal 构建实时神经网络渲染管线

章节

资源

相关视频

WWDC25