今日视点：单卡 30 秒跑出虚拟 3D 老婆！Text to 3D 生成看清毛孔细节的高精度数字人，无缝衔接 Maya、Unity 等制作工具

2023-05-09 15:19:07 来源：量子位

ChatGPT 给 AI 行业注入一剂鸡血，一切曾经的不敢想，都成为如今的基操。

正持续进击的Text-to-3D，就被视为继 Diffusion（图像）和 GPT（文字）后，AIGC 领域的下一个前沿热点，得到了前所未有的关注度。

这不，一款名为 ChatAvatar 的产品低调公测，火速收揽超 70 万浏览与关注，并登上抱抱脸周热门（Spaces of the week）。

(资料图片仅供参考)

△ChatAvatar 也将支持从 AI 生成的单视角 / 多视角原画生成 3D 风格化角色的 Image to 3D 技术，受到了广泛关注

有够酷的，感觉能很便捷地生成自己的数字孪生了。

由此吸引不少网友纷纷试用并贡献脑洞。有人拿这款产品和 ControlNet 结合，发现效果细腻写实到有些出乎意料。这款使用起来几乎零门槛的 Text-to-3D 工具名叫ChatAvatar，由国内 AI 初创公司影眸科技团队打造。

据了解，这是全球首款 Production-Ready 的 Text to 3D 产品，通过简单的文本，例如一个明星的名字、或是某个想要的人物长相，就能生成影视级的 3D 超写实数字人资产。

效率也非常高，平均仅需 30 秒，就能做出一张以假乱真的脸——甚至是你自己的。

未来，生成领域还将拓展到其他三维资产。

并且该模型带有规整的拓扑、带有 4k 分辨率的 PBR 材质，同时带有绑定，可以直接接入 Unity、Unreal Engine 和 Maya 等制作引擎的生产管线中。

所以，ChatAvatar 到底是怎样一个 3D 生成工具？背后究竟用到了什么技术？

30 秒完成一次 " 画皮 "

亲身体验 ChatAvatar 的玩法发现，可以说是真 · 零门槛。

具体而言，只需以对话的形式，在官网上用大白话向 ChatBot 描述自己的需求，就能按需生成 3D 人脸，并覆盖一张贴合模型的真实 " 人皮 "。

对话全流程里，根据用户需求，ChatBot 会进行引导，尽可能细节地了解用户对所需模型的想法。

体验过程中，我们向 ChatBot 描述了这样一个想要生成的 3D 形象：点击左侧的 Generate 按钮，平均 10s 不到，屏幕上就出现根据描述生成的 9 种不同 3D 人脸的初始雏形。

随意选择其中一种后，会基于选择继续优化模型和材质，最后出现覆盖皮肤后的模型渲结果，并展现不同光影下的渲染效果——这些渲染在浏览器内实时完成：

用鼠标拖动，还能旋转头部，并放大看更细节的局部效果，毛孔和痘痘都清晰可见：值得一提的是，如果用户是个提示工程高手，直接在左侧框中输入 prompt，同样可以完成生成。

虽然 beta 版本还没上线发型功能，但整体而言，最后生成的 3D 数字人资产与描述内容已经有高匹配度。

官网上还陈列了许多 ChatAvatar 用户的生成资产，不同人种、不同肤色、不同年龄，喜怒哀乐，美丑胖瘦，各式相貌应有尽有。

总结一下 ChatAvatar 这款产品生成 3D 数字人资产的效果亮点：

首先是使用简便；其次是生成跨度大，且五官可改，还能生成与面部贴合的面具、纹身等，譬如这样：

根据官方宣传片介绍，ChatAvatar 甚至可以进一步生成超出人类范畴的角色，如阿凡达等影视作品中的角色：最重要的是，ChatAvatar解决了 3D 模型与传统渲染软件存在的兼容性问题。

这意味着，ChatAvatar 生成的 3D 资产可以直接接入游戏和影视生产流程。

当然，在正式接入工业流程之前，首轮公测，ChatAvatar 已经吸引了数千名艺术家和专业美术人员参与，推特相关话题受到近百万的浏览与关注。

随随便便一条推文，浏览量都能破 50k。

积攒了大批 " 自来水 " 不是没有原因，看看 3D 的爱因斯坦之脸，试问谁不说一句真的很像？要是和 ControlNet 结合，生成效果不亚于单反相片直出：已经有不少用户体验后，开始畅想将这个 Text-to-3D 工具大规模应用在游戏、影视等工业应用上了。

据了解，用户反馈会成为 ChatAvatar 团队快速迭代和更新的重要依据，形成数据飞轮，以便及时提供更加完整和贴近需求的功能。

事实上，对于此前的 3D 行业设计师或公司来说，大部分 AI 文字转 3D 应用并非效果不好，但实际落地到工业设计流程上，还是有不少难度。

这次 ChatAvatar 能如此出圈，背后究竟有什么技术上的原因？

符合产业要求的 3D 资产生成，究竟难在哪？

都说 AI 要替代人类，事实上仅仅就 Text-to-3D 领域，就并非那么容易替代。

最大的难点，在于让 AI 生成的东西从标准上符合产业对 3D 资产的要求。

这里面的产业标准怎么理解？从专业 3D 美工设计的视角来说，至少有三个方面——

质量、可控性和生成速度。

首先是质量。尤其是对于强调视觉效果的影视、游戏行业来说，要想生成符合管线要求的 3D 资产，拓扑规整度、纹理贴图的精度等 " 行业潜规则 "，都是 AI 产品第一道必须迈过去的坎。

以拓扑结构的规整度为例，这里本质上指的是 3D 资产布线的合理度。

对于 3D 资产来说，拓扑的规整度，往往直接影响物体的动画效果、修改处理效率和贴图绘制速度：

据行内 3D 美工设计介绍，手工重拓扑的时间成本往往比制作 3D 模型本身更高，甚至按倍数以计。这意味着即使 AI 模型生成的 3D 资产再炫酷，如果生成的拓扑规整度达不到要求，成本就无法从根本上得到降低。更别提纹理精度。

△影眸科技的 ChatAvatar 项目在生成质量、速度以及标准兼容上相比先前的工作都有明显的提升

以目前游戏、影视行业普遍要求的 PBR 贴图为例，包含的反射率贴图、法线贴图等一系列贴图，相当于 2D 图像 PSD 文件的 " 图层 "，是 3D 资产流水线生产必不可少的条件之一。

然而，目前 AI 生成的 3D 资产往往是一个 " 整体 "，少有能按要求单独生成符合产业环境的 PBR 贴图的效果。

其次是可控性，对于生成式 AI 而言，如何让生成的内容更加 " 可控 "，是 CG 产业对于这项技术提出的又一大要求。

以大众所熟知的 2D 产业为例，在 ControlNet 出现之前，2D AIGC 行业一直处在一种 " 半摸黑前进 " 的状态。

也就是说，AI 能生成指定类别的物体画面，却无法生成指定姿态的物体，生成效果全靠提示工程和 " 玄学 "。

而在 ControlNet 出现后，2D AI 图像生成的可控性获得了突飞猛进的提升，然而对于 3D AI 而言，要想生成对应效果的资产，很大程度上依旧得依靠专业的提示工程。

最后是生成速度。相比 3D 美工设计而言，AI 生成的优势在于速度，然而如果 AI 渲染的速度和效果无法与人工匹敌的话，那么这项技术依旧无法给产业带来收益。

以当前在 AI 技术上颇受欢迎的 NeRF 为例，其产业化落地就面临速度和质量的兼容性难题。

在生成质量较高的情况下，基于 NeRF 的 3D 生成往往需要相当漫长的时间；然而如果追求速度，即使是 NeRF 生成的 3D 资产便完全无法投入产业使用。

但即使解决了这个问题，如何在不损失精度的前提下让 NeRF 与传统 CG 行业的主流引擎兼容仍然是一个巨大的问题。

从上面的产业标准化流程不难发现，大部分 AI 文本转 3D 应用落地存在两大瓶颈：

一个是需要手动完成提示工程，对于非 AI 专业人士、或不了解 AI 的设计师来说不够友好；另一个是生成的 3D 资产往往不符合产业标准，即使再好看也无法投入使用。

针对这两点，ChatAvatar 给出了两点具体有效的解决方案。

一方面，ChatAvatar 实现了除手动输入提示工程外的第二条道路，也是更适合普通人的一条捷径：通过 " 甲方模式 " 直接对话描述需求。

团队官方推特介绍称，为了实现这一特性，ChatAvatar 基于 GPT 的能力，开发了一种对话描述转人像特征的方法。

设计师只需要不断和 GPT 聊天，描述自己想要的 " 感觉 "：

GPT 就能自动帮忙完成提示工程，将结果输送给 AI：换而言之，如果说 ControlNet 是 2D 行业的 "Game Changer"，那么对于 3D 产业来说，能实现文本转 3D 的 ChatAvatar，无异于行业的游戏规则改变者。

另一方面更为重要，那就是 ChatAvatar 能完美兼容 CG 管线，即生成的资产在拓扑结构、可控性和速度上都符合产业要求。

同时，生成的模型和高精度材质贴图，还能在后期的渲染中达到极为逼真的渲染效果。

为了实现这样的效果，团队为 ChatAvatar 自研了一个渐进式 3D 生成框架 DreamFace。

其中的关键，在于训练该模型用的底层数据，即影眸科技基于 " 穹顶光场 " 采集到的世界首个大体量、高精度、多表情的人脸高精度数据集。

基于这个数据集，DreamFace 可以高效地完成产品级三维资产的生成，即生成的资产带有规整的拓扑、材质，带有绑定。

通过引入外部 3D 数据库，DreamFace 能够直接输出符合 CG 流程的资产。

△生成的资产驱动渲染的效果

上述两大技术瓶颈的解决，本质上进一步加速了 AIGC 洪流下，" 生成 " 将取代 " 搜索 " 的时代趋势——

影眸团队认为，" 生成 " 将成为新一代数字资产的获取方式。

此前，我们需要找到一张符合需求的图片或者资产时，通常会使用搜索引擎进行查询。

ChatAvatar 项目主页上展示的巨大的 " 搜索框 " 和整齐的资产卡片，看似搜索引擎，但实际上是一种与搜索截然不同的资产查找方式。

△ChatAvatar 项目主页

影眸科技 CTO 张启煊对此介绍：

以前，如果我们需要一张插图，可能要在多个图库中反复搜索，或是通过 Photoshop 合成、手绘等较复杂的方式才能得到结果。但在 Stable Diffusion 等技术出现后，你只需要通过文字描述想要的图像，就能直接生成符合需求的结果。

这对于传统的资产库来说是一个巨大的冲击。而 ChatAvatar 的目标，正是用 3D 生成替代传统的搜索式 3D 资产库。

AIGC 领域的下一个前沿热点

ChatGPT 一石激起千层浪，进入 AI 2.0 时代之后，人们的目光也投向包含图像、视频、3D 等信息的多模态 AI。

仅就 3D 生成领域而言，无论是影视还是游戏行业，3D 内容生产和消费市场已经拥有足够大的规模，但在制作层面却因技术难度遭遇掣肘。

譬如，文本领域大行其道的 Transformer，在 3D 生成领域的使用还相对有限。

去年夏天，当文生图领域因 Diffusion Model 取得成绩后，人们开始期待文字生成 3D有同样惊艳的表现。一旦生成式 AI 的 3D 创作技术成熟，VR、视频等的内容创作都将起飞。

△扩散模型 Midjourney5.1 生成的 " 梵高风摄影 "

事实上，无论是科技巨头还是初创公司，的确都在朝 Text-to-3D 这个方向暗暗发力。

去年 9 月，谷歌发布了基于文本提示生成 3D 模型的 FreamFusion，声称不需要 3D 训练数据，也不需要修改图像扩散模型。紧随其后，Meta 也推出可以从文本一键生成视频的 Make-A-Video 模型。

后来的 Text-to-3D 的 AI 模型队伍中，还先后出现了英伟达 Magic3D、OpenAI 最新开源项目 Shap-E 等，今年 8 月将举办的计算机图形顶会 SIGGRAPH 2023 所展示的论文，也有多篇与 Text-to-3D 有关。

影眸科技有关文本指导的渐进式 3D 生成框架 DreamFace 的论文，就是其中之一。

而 ChatAvatar，也是目前为止最集中在 3D 数字人资产方向的生成式模型产品。

其背后的 AI 初创公司影眸科技，2020 年孵化自上海科技大学 MARS 实验室，成立后获得奇绩创坛与红杉种子的两轮投资。

公司专注于专注于计算机图形学、生成式 AI 的研究与产品化。2021 年，AIGC 还未掀起巨浪之时，公司就已经推出国内首个 AIGC ToC 绘画应用 Wand，产品一度登顶 AppStore 分区榜首。

而这个颇具前瞻性，且已在业内小有名气的团队，平均年龄只有 25 岁。

将首个商业化场景具体锚定在数字人后，ChatAvatar 是他们乘 AIGC 东风在该方向的最新进展。

作为一个新推出的产品，ChatAvatar 在兼容性、完成度和精度等产品效果层面，都超出了影眸团队预期。然而在吴迪口中，行至此处的过程 " 很狼狈 "。

主要原因不外乎 " 缺人 " 一事。目前，影眸已经在多类别 3D 生成技术上取得了进展，下一步还计划推出 "3D 生成大模型 "。

△影眸科技将于 5 月上线首个多模态跨平台 3D 搜索引擎 Rodin，打通 Sketchfab 等多个 3D 资产平台，支持以文搜 3D、以图搜 3D 甚至以 3D 搜 3D。搜索引擎只是 Rodin 的初级形态，影眸将把 Rodin 打造为 3D 生成大模型。

需要持续向前推进，就需要更多的工程化团队、技术美术和拥抱生成式 AI 的产品人才加入团队。作为一个以研发为背景主基调的团队，这样的人才仍然紧缺。

" 人是万物的尺度，" 吴迪表示道，" 我们需要更多志同道合的人加入，共同推动 3D 领域的创新发展。"

可以看到，ChatAvatar 背后技术从无到有的搭建，揭示了一家 AI 初创公司的不断创新；而从这家公司对人才的渴望以小见大，更揭示着 AIGC 浪潮下，每一个细分领域想要从水下浮出水面的心。

你愿意拥抱生成式 AI，成为 Text-to-3D 领域的 Game Changer 吗？

— 联系作者—

— 完—

点这里关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

今日视点：单卡 30 秒跑出虚拟 3D 老婆！Text to 3D 生成看清毛孔细节的高精度数字人，无缝衔接 Maya、Unity 等制作工具

相关阅读

瞄股最新