今日【rì】视点:单卡 30 秒跑出【chū】虚【xū】拟 3D 老婆!Text to 3D 生【shēng】成看清毛孔【kǒng】细节的高精度数字人,无缝衔接 Maya、Unity 等【děng】制【zhì】作工具

2024-9-20 15:19:07来源:量子位

ChatGPT 给 AI 行业注入一剂鸡血【xuè】,一【yī】切【qiē】曾经的【de】不敢想,都成为如今【jīn】的基操。

正持续进击的Text-to-3D,就被视【shì】为【wéi】继 Diffusion(图像)和 GPT(文字)后,AIGC 领域的下一个前沿热【rè】点,得到了【le】前所未有的关注度。

这不,一款名【míng】为【wéi】 ChatAvatar 的产品低调公【gōng】测,火速收揽超【chāo】 70 万浏览与关注,并登上抱【bào】抱脸周【zhōu】热【rè】门(Spaces of the week)。


(资料图片仅供参考)

ChatAvatar 也将支持从 AI 生【shēng】成的单【dān】视角【jiǎo】 / 多【duō】视角原画生成 3D 风格化角色的 Image to 3D 技术【shù】,受到了【le】广泛关注

有够酷的,感觉能很便捷地生成自己的数字孪生了。

由【yóu】此吸引不【bú】少网友纷纷试用【yòng】并【bìng】贡献脑洞。有人拿这款产品和 ControlNet 结合,发现效果细腻写【xiě】实【shí】到【dào】有些【xiē】出乎意料【liào】。这款使用起来几乎【hū】零门槛的 Text-to-3D 工具名【míng】叫ChatAvatar,由国内 AI 初创公司影眸科技团队打造。

据了解,这是全球首款 Production-Ready 的 Text to 3D 产【chǎn】品,通过简单【dān】的文本,例如一【yī】个明星的【de】名字、或是某【mǒu】个想要的人物长【zhǎng】相,就【jiù】能生成影视级的 3D 超【chāo】写【xiě】实数字人资产。

效率【lǜ】也【yě】非常高,平【píng】均【jun1】仅需 30 秒,就能做出一张以假乱真的脸——甚【shèn】至【zhì】是你自己的。

未来,生成领域还将拓展到其他三维资产。

并且该模型带【dài】有规整的【de】拓扑、带有 4k 分【fèn】辨率的 PBR 材质,同时带有绑定,可以直接【jiē】接入 Unity、Unreal Engine 和【hé】 Maya 等制作引擎的生产【chǎn】管【guǎn】线中。

所【suǒ】以,ChatAvatar 到底是【shì】怎【zěn】样一个 3D 生成工具?背后究竟用到了什【shí】么技术?

30 秒完成一次 " 画皮 "

亲【qīn】身【shēn】体验 ChatAvatar 的玩法发现,可以【yǐ】说【shuō】是真 · 零门槛。

具体而言,只需以对话的形式,在官网上用大白话向 ChatBot 描述自己的需求,就能按需生成 3D 人【rén】脸,并覆盖一张贴合模【mó】型【xíng】的真实 " 人皮 "。

对话全流程里,根据用户需求,ChatBot 会进行引导,尽可能细节地了解用户对所需模型的想法。

体【tǐ】验过程中,我们【men】向 ChatBot 描述了这样【yàng】一个想要生【shēng】成【chéng】的 3D 形象:点击左侧的【de】 Generate 按钮,平均 10s 不到,屏幕上就出现根【gēn】据描述生成的 9 种不【bú】同 3D 人脸的初始雏形。

随意选择其中【zhōng】一种后,会【huì】基于选【xuǎn】择继续优【yōu】化模型和材【cái】质【zhì】,最后出现覆盖皮肤后【hòu】的【de】模型渲【xuàn】结果,并展现不【bú】同光影下的渲染效果——这些渲染在浏【liú】览器内实时完成:

用鼠【shǔ】标拖动,还能旋转头部,并放大看更细节的局部效果,毛【máo】孔和痘痘【dòu】都【dōu】清晰可【kě】见【jiàn】:值得一【yī】提【tí】的是,如果用户是个提示工程高手,直【zhí】接在左侧框中输入 prompt,同样可以【yǐ】完成生【shēng】成。

虽然【rán】 beta 版本【běn】还没上线发型功能,但【dàn】整体而言,最后生【shēng】成的 3D 数字【zì】人资产与描述内容【róng】已经有高【gāo】匹配度【dù】。

官网上还陈列【liè】了许多 ChatAvatar 用户的生成资产,不同人种【zhǒng】、不同【tóng】肤【fū】色、不同【tóng】年龄,喜怒哀【āi】乐【lè】,美【měi】丑胖瘦,各式相貌应有尽有。

总结一下 ChatAvatar 这款产品生成【chéng】 3D 数【shù】字人资【zī】产的效果亮【liàng】点:

首先是使用简便;其次是生成跨度大,且五官可改,还能生成与面部贴合的面具、纹身等,譬如这样:

根据官方宣传【chuán】片介绍,ChatAvatar 甚至【zhì】可以【yǐ】进一步生【shēng】成超出【chū】人类范畴的角色【sè】,如阿凡达【dá】等影视作品中的角色:最重要的是【shì】,ChatAvatar解决了 3D 模型与传统渲染软件存在的兼容性问题

这意味着,ChatAvatar 生【shēng】成的 3D 资产【chǎn】可以直【zhí】接接入游【yóu】戏和影视【shì】生产流程【chéng】。

当然,在正式接入工业流程【chéng】之前,首轮【lún】公测,ChatAvatar 已【yǐ】经【jīng】吸引了数【shù】千名艺术家和专【zhuān】业美术人员参与,推特【tè】相【xiàng】关话题受到近【jìn】百万的浏览与关注【zhù】。

随随便便一条推文,浏览量都能破 50k。

积攒【zǎn】了【le】大批【pī】 " 自来水 " 不是没有原因,看【kàn】看 3D 的爱因【yīn】斯坦之脸【liǎn】,试【shì】问谁不【bú】说一句真【zhēn】的很像?要是【shì】和 ControlNet 结合,生【shēng】成【chéng】效果不亚于【yú】单反【fǎn】相【xiàng】片直出:已经有不少用户体验后,开始畅想将这个 Text-to-3D 工具大规模应用在游戏、影视等工业应【yīng】用上了。

据了解,用户【hù】反馈会成【chéng】为 ChatAvatar 团队快速【sù】迭代和【hé】更新【xīn】的重【chóng】要依【yī】据,形成数据飞轮,以便及时提供【gòng】更加完整【zhěng】和贴近需求的功能。

事实上【shàng】,对于此前的 3D 行业设【shè】计师或公司来说【shuō】,大部分 AI 文字【zì】转 3D 应【yīng】用并非【fēi】效果不好,但实【shí】际落地到工业【yè】设计流程上,还【hái】是有不【bú】少难度【dù】。

这次 ChatAvatar 能如此出圈,背后究竟有【yǒu】什么技术【shù】上的原因?

符合产业要求的 3D 资产生成,究竟难在哪?

都说 AI 要替【tì】代人类,事实上仅仅就 Text-to-3D 领域,就【jiù】并非【fēi】那【nà】么容易替代【dài】。

最大的难点,在于让 AI 生成的东西从标准上符合产业对 3D 资产的要求。

这里面的产业标准怎【zěn】么理【lǐ】解?从专【zhuān】业 3D 美工设计【jì】的视角来【lái】说,至少有三个方面——

质量、可控性和生成速度。

首先【xiān】是【shì】质量【liàng】。尤其是对【duì】于强调视觉效果的影视、游戏行业来【lái】说,要想生成符合管线要求的 3D 资产,拓扑规整【zhěng】度、纹理贴【tiē】图【tú】的精度等 " 行【háng】业潜规则 ",都【dōu】是 AI 产品第【dì】一道必须【xū】迈过去的坎。

以拓扑【pū】结构的规【guī】整度【dù】为例,这【zhè】里本质上指的是 3D 资产【chǎn】布线的合理【lǐ】度。

对于 3D 资产来【lái】说,拓扑的【de】规整度,往【wǎng】往直接影响物体的【de】动画效果【guǒ】、修改处【chù】理【lǐ】效率和贴图【tú】绘制速度:

据行内 3D 美工设计【jì】介绍【shào】,手工【gōng】重拓扑的时间成本往往比制作 3D 模型【xíng】本【běn】身更高,甚至按倍数【shù】以计。这意味着即使 AI 模【mó】型生【shēng】成的 3D 资产再【zài】炫【xuàn】酷,如果生成【chéng】的拓【tuò】扑【pū】规整度达不到要求【qiú】,成本【běn】就【jiù】无法从根本上得到降低【dī】。更别提纹理精度。

影眸科【kē】技的 ChatAvatar 项目在生【shēng】成质量【liàng】、速【sù】度以【yǐ】及标准兼容上相【xiàng】比先前的工作都有明显的提升

以【yǐ】目前游戏、影视行业【yè】普【pǔ】遍要求【qiú】的 PBR 贴【tiē】图为【wéi】例,包含的反射率贴【tiē】图、法线贴图【tú】等一系列贴图,相当于 2D 图像 PSD 文件的 " 图层 ",是 3D 资产流水【shuǐ】线生产必不可【kě】少【shǎo】的条件之一【yī】。

然而,目前 AI 生成【chéng】的 3D 资【zī】产往往是一个【gè】 " 整【zhěng】体 ",少有能【néng】按【àn】要求单独生成符【fú】合产业环【huán】境的 PBR 贴图【tú】的效果。

其次是可控性,对于生成式【shì】 AI 而言,如何让生【shēng】成的内容【róng】更加【jiā】 " 可【kě】控 ",是 CG 产业对于这【zhè】项技【jì】术提出的又一大要【yào】求。

以大众所熟知的 2D 产业为例,在【zài】 ControlNet 出现之前【qián】,2D AIGC 行业一直【zhí】处【chù】在【zài】一种 " 半【bàn】摸黑前进 " 的状【zhuàng】态。

也【yě】就是说,AI 能【néng】生成指【zhǐ】定类别的物体画【huà】面,却无法【fǎ】生成指定姿态的物体,生成【chéng】效果全靠提示工程【chéng】和 " 玄学【xué】 "。

而在 ControlNet 出现后,2D AI 图像【xiàng】生成【chéng】的可【kě】控性【xìng】获得了突飞猛进的提升【shēng】,然而对于 3D AI 而言,要想生成【chéng】对应效果的资产,很大程度上依旧得依【yī】靠专【zhuān】业的【de】提示工程。

最后是生成速度。相比 3D 美工【gōng】设计而言【yán】,AI 生成的优势【shì】在于速【sù】度,然而【ér】如果 AI 渲染的速度和【hé】效果无法与人【rén】工匹敌的话,那么这项技术依旧【jiù】无法【fǎ】给产业带来收益【yì】。

以当前【qián】在 AI 技术上颇受欢【huān】迎的 NeRF 为【wéi】例,其【qí】产业化落地就面临速度和质量的兼【jiān】容性难【nán】题。

在生成【chéng】质【zhì】量较高的情况下,基于 NeRF 的【de】 3D 生成往【wǎng】往需要【yào】相当漫长的时间;然而如果追求速【sù】度,即【jí】使是 NeRF 生【shēng】成的 3D 资产便完全无法投入产【chǎn】业使用【yòng】。

但即使解决了这个问题【tí】,如何【hé】在不损失精【jīng】度的前提下让 NeRF 与传统 CG 行业的【de】主流引擎【qíng】兼【jiān】容【róng】仍然是一个巨大的问题。

从上面的产业【yè】标准化流程不难发现,大部【bù】分 AI 文【wén】本转 3D 应用【yòng】落【luò】地存在两大瓶颈

一个是【shì】需【xū】要手动完成提示工程,对于非【fēi】 AI 专业【yè】人士【shì】、或【huò】不了解 AI 的设计【jì】师【shī】来说不够友【yǒu】好;另一个是生【shēng】成【chéng】的 3D 资产往往不符合产业标【biāo】准,即使再好看也无法投入使用【yòng】。

针对这两点,ChatAvatar 给出了两点具体【tǐ】有效的【de】解决【jué】方案。

一方【fāng】面,ChatAvatar 实现了除手【shǒu】动【dòng】输【shū】入提示工【gōng】程外的第二条道路,也是更适合【hé】普通人的一条捷【jié】径:通过 " 甲方【fāng】模式 " 直接对【duì】话描述需【xū】求。

团队官方【fāng】推特介绍【shào】称,为了实现这【zhè】一特【tè】性,ChatAvatar 基于 GPT 的【de】能【néng】力,开发了一种对话【huà】描述转人像特征的方法。

设计师【shī】只需要不【bú】断和 GPT 聊天,描述【shù】自【zì】己【jǐ】想要的 " 感觉 ":

GPT 就【jiù】能自动帮忙完【wán】成【chéng】提示工程,将结果输送给 AI:换而言【yán】之,如果说 ControlNet 是 2D 行业的 "Game Changer",那【nà】么【me】对于 3D 产业【yè】来说,能实现文本【běn】转【zhuǎn】 3D 的 ChatAvatar,无异于行业的游戏规则改变者。

另一方面更为重【chóng】要,那就是【shì】 ChatAvatar 能完美兼容 CG 管线【xiàn】,即生【shēng】成的资产【chǎn】在拓【tuò】扑结构、可【kě】控性和速度上【shàng】都符合产业【yè】要求。

同时,生【shēng】成【chéng】的模型和【hé】高精度【dù】材质贴图,还能在后期【qī】的渲染中达到极为【wéi】逼真的渲染效【xiào】果。

为了实现这样【yàng】的效果,团队【duì】为 ChatAvatar 自【zì】研了【le】一【yī】个渐进式 3D 生成框架 DreamFace。

其中【zhōng】的【de】关键【jiàn】,在于训练该【gāi】模型用的底层数据,即影眸科技基于 " 穹顶光【guāng】场 " 采【cǎi】集到的世界首个大体量、高精度、多表情的人脸高精度数据集

基于这个数据集,DreamFace 可以高效地完成产品级三维资产的生成,即生成的资产带有规整的拓扑、材质,带有绑定。

通过引入外部 3D 数据库【kù】,DreamFace 能够直接【jiē】输出符【fú】合【hé】 CG 流【liú】程的资产。

生成的资产驱动渲染的效果

上述两大技【jì】术【shù】瓶颈的【de】解【jiě】决,本质上进一步加速【sù】了 AIGC 洪流下," 生成 " 将取代 " 搜索【suǒ】 " 的时代趋【qū】势——

影眸团队认为," 生成 " 将成为新一代数字资产的获取方式。

此前,我【wǒ】们需要找到一张符合需求【qiú】的图片【piàn】或者资产时,通常会【huì】使【shǐ】用搜索引擎进行查询【xún】。

ChatAvatar 项目主页上展示的巨大的【de】 " 搜【sōu】索【suǒ】框 " 和整齐的资产卡【kǎ】片,看似搜索【suǒ】引【yǐn】擎,但实际上是一种与搜索【suǒ】截然不同的【de】资产查找方式。

ChatAvatar 项目主页

影眸科技 CTO 张启煊对此介绍:

以前,如果我们需要一张插图,可能要在多个图【tú】库【kù】中反复搜索,或【huò】是【shì】通过【guò】 Photoshop 合成、手绘等【děng】较复杂的方【fāng】式才能得到结【jié】果。但在 Stable Diffusion 等技术出现【xiàn】后,你只需要通【tōng】过文字描【miáo】述【shù】想要的图像,就能直接【jiē】生成符合需求的结【jié】果。

这对于传统的资产库来说是一个巨大【dà】的冲击。而【ér】 ChatAvatar 的目标,正【zhèng】是用 3D 生成替代传统的搜索式【shì】 3D 资产【chǎn】库【kù】。

AIGC 领域的下一个前沿热点

ChatGPT 一石【shí】激起千层浪【làng】,进入 AI 2.0 时代【dài】之【zhī】后【hòu】,人们的目光也投向包含【hán】图【tú】像、视频、3D 等信息的多模态 AI。

仅【jǐn】就【jiù】 3D 生成领域而言,无论是【shì】影【yǐng】视【shì】还是游戏行【háng】业,3D 内容生产和消费【fèi】市场已经拥有【yǒu】足够大的规模,但【dàn】在【zài】制作层面却因技术难度遭遇【yù】掣肘。

譬如,文本【běn】领【lǐng】域大行其道【dào】的 Transformer,在 3D 生成领域【yù】的使【shǐ】用还相对【duì】有限。

去年夏天,当文生图领域因【yīn】 Diffusion Model 取得成绩后,人们开始【shǐ】期【qī】待文字生成 3D有同样惊艳【yàn】的表现。一旦生成式【shì】 AI 的 3D 创作技术【shù】成【chéng】熟,VR、视频等的内容【róng】创作【zuò】都将起【qǐ】飞。

扩【kuò】散模型 Midjourney5.1 生【shēng】成的 " 梵高风摄影 "

事实上【shàng】,无【wú】论是科技巨头【tóu】还是【shì】初创公司,的确都在朝 Text-to-3D 这个方向暗【àn】暗发力【lì】。

去年 9 月,谷歌发【fā】布【bù】了基【jī】于【yú】文【wén】本提示生成【chéng】 3D 模型的 FreamFusion,声称不需【xū】要 3D 训练数据,也不【bú】需要修改图像扩散模【mó】型。紧随其后,Meta 也推出【chū】可以从文【wén】本一键生成视频【pín】的 Make-A-Video 模型。

后来的【de】 Text-to-3D 的【de】 AI 模型队【duì】伍中【zhōng】,还先后【hòu】出现了英伟【wěi】达 Magic3D、OpenAI 最【zuì】新开源项目 Shap-E 等,今【jīn】年 8 月【yuè】将举办的计算机图形顶会 SIGGRAPH 2023 所展示的论文,也【yě】有多篇与 Text-to-3D 有关。

影眸科【kē】技【jì】有关文本指导【dǎo】的渐进式 3D 生成框架 DreamFace 的论【lùn】文,就是其中【zhōng】之一。

而【ér】 ChatAvatar,也是目前为止最【zuì】集【jí】中在 3D 数字人【rén】资产方向的生成式模型【xíng】产品。

其背后的 AI 初创公司影眸科技,2020 年孵化自上【shàng】海科技大【dà】学【xué】 MARS 实验室,成立后【hòu】获得奇绩创坛与红杉种子【zǐ】的【de】两轮投资【zī】。

公司专注于专注于计算【suàn】机图【tú】形【xíng】学【xué】、生【shēng】成【chéng】式 AI 的研究与产品化。2021 年,AIGC 还未掀起巨浪之时,公司【sī】就【jiù】已经推【tuī】出国内【nèi】首个 AIGC ToC 绘【huì】画应用 Wand,产品一度登顶 AppStore 分区榜首。

而这个颇具前瞻性,且已在业内小有名气的团队,平均年龄只有 25 岁

将首个商业化场景具体【tǐ】锚【máo】定在数【shù】字人【rén】后,ChatAvatar 是他们乘 AIGC 东风在该【gāi】方【fāng】向的最新进展。

作为一个【gè】新【xīn】推出的产品,ChatAvatar 在兼容性、完成度【dù】和精度等【děng】产品效果【guǒ】层面,都【dōu】超出【chū】了影眸团【tuán】队预【yù】期。然【rán】而在吴迪口【kǒu】中,行至此处的过程 " 很狼狈 "。

主要原因不外乎 " 缺人 " 一事【shì】。目前,影【yǐng】眸已经在多类别 3D 生成【chéng】技术上取得了进展,下一【yī】步还计划推【tuī】出【chū】 "3D 生成大模型 "。

影眸科技将【jiāng】于 5 月上线首个多【duō】模态【tài】跨平台【tái】 3D 搜【sōu】索引擎 Rodin,打【dǎ】通 Sketchfab 等【děng】多个 3D 资产【chǎn】平【píng】台,支【zhī】持以文搜 3D、以图搜 3D 甚【shèn】至以 3D 搜 3D。搜索【suǒ】引擎只是 Rodin 的初级形态,影眸将把【bǎ】 Rodin 打造为 3D 生成大模型。

需要持续【xù】向前推进,就需要更多的【de】工程化团队、技术美术和拥抱【bào】生【shēng】成式 AI 的产【chǎn】品人才加入【rù】团【tuán】队。作为一个以研发为【wéi】背景主【zhǔ】基调的【de】团队,这【zhè】样的人才仍然紧缺。

" 人是万物【wù】的尺【chǐ】度," 吴迪表示道," 我们需要更多【duō】志同道合【hé】的【de】人加入,共同【tóng】推【tuī】动 3D 领域的创新发展。"

可以【yǐ】看到,ChatAvatar 背后【hòu】技术从无到有【yǒu】的【de】搭建,揭示了一家 AI 初创公司的不断创【chuàng】新;而从【cóng】这家公司对人才的渴望以小见大,更揭示着 AIGC 浪潮下,每一【yī】个细【xì】分【fèn】领【lǐng】域想要从水下【xià】浮出水【shuǐ】面【miàn】的心。

你愿意【yì】拥抱生成【chéng】式【shì】 AI,成为 Text-to-3D 领域【yù】的 Game Changer 吗?

联系作者

点这里关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

为你推荐

最新资讯

股票软件