NVIDIA最新绘图研究推动生成式AI前瞻发展

透过与美国、欧洲和以色列十几所大学合作的20 篇推动生成式 AI 和神经图形的 NVIDIA Research研究论文将於 8 月 6 日至 10 日在美国洛杉矶举行的电脑绘图专业盛会SIGGRAPH 2023 上发表。

这些论文包括将文字转换为个性化图像的生成式人工智慧模型、将静止图像转换为 3D 物件的逆向渲染工具、使用 AI 以惊人的真实感模拟复杂 3D 元素的神经物理模型、和可解锁生成实时、AI 驱动的视觉细节的神经渲染模型。

NVIDIA 研究人员的创新定期在 GitHub 上与开发人员分享，并整合到产品中，包括用於构建和操作元宇宙应用程式的 NVIDIA Omniverse平台和近日发表用於视觉设计的定制生成式 AI 模型代工厂NVIDIA Picasso。 NVIDIA 多年的绘图形研究帮助将电影风格的渲染带入游戏，例如最近发布的《电驭叛客2077 光线追踪：Overdrive 模式》，这是世界上第一款路径追踪的 AAA 游戏。

今年在 SIGGRAPH 上展示的研究进展将帮助开发人员和企业快速生成合成资料，以填充用於机器人和自动驾驶车辆培训的虚拟世界。它们还可以让艺术、建筑、平面设计、游戏开发和电影创作人更快地制作出用於分镜、预视和甚至影片制作的高品质视觉效果。

具有个人风格的 AI：定制的文字到图像模型

将文字转换为图像的生成式 AI 模型是创造概念艺术和对於电影、游戏和 3D 虚拟世界制作分镜表的强大工具。文字到图像的 AI 工具可以将像是「儿童玩具」之类的提示变成几??无限的视觉效果，创作者可以从中获得灵感  产生绒毛动物玩具、积木或拼图的图像。

然而，艺术家可能有一个特定的主题。例如，某玩具品牌创意总监可能正在围绕一只新款泰迪熊策划一项广告活动，并希??在不同情况下形象化该玩具，例如泰迪熊茶会。为了在生成式 AI 模型的输出中实现这种级别的特异性，特拉维夫大学和 NVIDIA 的研究人员撰写了两篇 SIGGRAPH 论文，让使用者能够提供让模型可以快速学习的图像范例。

一篇论文描述了一种需要单一个示例图像来自定义其输出技术，在单个 NVIDIA A100 Tensor Core GPU 上将个性化过程从几分钟加速到大约 11 秒，比以前的个性化方法快 60 倍以上。

第二篇论文介绍了一种名为 Perfusion 的高度紧凑模型，它采用少量概念图像，允许用户将多个个性化元素（例如特定的泰迪熊和茶壶）组合成一个人工智慧生成的视觉效果。

提供3D世界内的服务：逆向渲染和角色创建的进展

一旦创作者构思出虚拟世界的概念艺术，下一步就是渲染环境并使用3D物体和角色进行填充。NVIDIA Research正在发明人工智慧技术，透过自动将2D图像和影像转换为3D来加速这个耗时的过程，让创作者可以将其导入绘图应用程式进一步编辑。

与加州大学圣地亚哥分校的研究人员共同创作的第三篇论文，讨论了可以基於单张 2D 肖像进而生成和渲染出逼真的 3D 头肩模型的技术，这是一个重大突破，可以让使用AI进行3D头像创建和3D视讯会议变得更加容易。该方法在消费者电脑桌面上实时运行，并且可以仅使用传统的网路摄影机或智慧手机摄影功能就生成逼真的或风格化的 3D遥现（Telepresence）远端临场)。

第四个专案是与史丹佛大学合作，为3D角色带来逼真的动作。研究人员建立了一个AI系统，该系统能够从真正的网球比赛的2D影片记录中学习一系列网球技巧，并将动作应用於3D角色。模拟的网球选手可以精确地将球打到虚拟球场上的目标位置，甚至可以与其他角色进行长时间的回合比赛。

除了网球的测试案例外，这篇SIGGRAPH文章还探讨了如何在不使用昂贵的运动捕捉资料的情况下，创造出具有多种技能、并能进行真实运动的3D角色。

不失一根头发：神经物理学实现逼真的模拟

当3D角色生成後，艺术家可以添加像是头发这样逼真的细节，这对动画师来说是一个复杂且需要大量运算的挑战。

人类平均有100,000根头发，每一根都会随着个人动作和周围环境而动态变化。传统上，创作者使用物理公式来计算头发的运动，根据可用资源来简化或近似头发的运动。这就是为什麽大制作电影中的虚拟角色拥有比即时游戏中的角色更仔细的头发细节。

第五篇论文展示了一种使用神经物理学的方法，可以高解析度模拟数万根头发。神经物理学是一种人工智慧技术，它教导神经网路预测物体在现实世界中的运动方式。

该团队为实现完整规模头发的准确模拟提出了一种新颖的方法，专门针对现代GPU进行优化。与最先进基於CPU的解算器相比，它提供了显着的效能提升，将模拟时间从多天减少到仅需几小时，同时提高了即时的头发模拟品质。这种技术终於实现了物理精确与互动的头发造型。

神经渲染为实时绘图带来电影品质的细节

当一个虚拟环境被填充了动画3D物体和角色後，实时渲染会模拟光线通过虚拟场景反射的物理过程。NVIDIA最近的研究显示，纹理、材料和体积的AI模型可以在实时渲染中提供电影等级的逼真视觉效果，可用於游戏和数位孪生。

NVIDIA二十年前就发明了可程式化的着色技术，使开发人员可以自定义绘图管道。在这些最新的神经渲染发明中，研究人员透过运行在NVIDIA实时绘图管道内的AI模型来扩展可程式化着色代码。

在第六篇SIGGRAPH论文中，NVIDIA将呈现神经纹理压缩，在不占用额外GPU记忆体的情况下，提供高达16倍的纹理细节。神经纹理压缩可以大幅提升3D场景的真实感，如下图所示，这说明神经压缩纹理（右）如何捕捉比先前格式更清晰的细节，在先前格式中文本保持模糊（居中）。

第七篇论文介绍的是NeuralVDB，这是一种AI驱动的资料压缩技术，可使表示烟、火、云和水等体积资料所需的记忆体减少100倍。

NVIDIA今天还发布了关於更多神经材料细节的研究，这些细节在最新的NVIDIA GTC主题演讲中已展示。该研究描述了一个AI系统，它学习光如何从真实的多层材料反射，将这些资产的复杂性降低到实时运行的小型神经网路，使阴影处理速度提高10倍。

从这个神经网路渲染的茶壶中可以看出其逼真度，它准确地呈现了陶瓷、不完美的清釉、指纹、污迹甚至灰尘。