英伟达进入 ai 生成模型领域的研究,直接比别人多一个次元:一句描述生成 3d 模型。
我们生活在三维的世界里,尽管目前大多数应用程序是 2d 的,但人们一直对 3d 数字内容有很高的需求,包括游戏、娱乐、建筑和机器人模拟等应用。
然而,创建专业的 3d 内容需要很高的艺术与审美素养和大量 3d 建模专业知识。人工完成这项工作需要花费大量时间和精力来培养这些技能。
需求大又是「劳动密集型行业」,那么有没有可能交给 ai 来做?上周五,英伟达提交到预印版论文平台 arxiv 的论文引起了人们的关注。
和现在流行的 novelai 差不多,人们只需要输入一段文字比如「一只坐在睡莲上的蓝色箭毒蛙」,ai 就能给你生成个纹理造型俱全的 3d 模型出来。
stable diffusion 的论文在 2022 年 8 月才首次提交,几个月就已经进化到这样的程度,不禁让人感叹科技发展的速度。
英伟达表示,你只需要在这个基础上稍作修改,生成的模型就可以当做游戏或 cgi 艺术场景的素材了。
3d 生成模型的方向并不神秘,其实在 9 月 29 日,谷歌曾经发布过一款文本到 3d 的生成模型 dreamfusion,英伟达在 magic3d 的研究中直接对标该方法。
类似于 dreamfusion 用文本生成 2d 图像,再将其优化为体积 nerf(神经辐射场)数据的流程,magic3d 使用两阶段生成法,用低分辨率生成的粗略模型再优化到更高的分辨率。
英伟达的方法首先使用低分辨率扩散先验获得粗糙模型,并使用稀疏 3d 哈希网格结构进行加速。用粗略表示作为初始,再进一步优化了带纹理的 3d 网格模型,该模型具有与高分辨率潜在扩散模型交互的高效可微分渲染器。
magic3d 可以在 40 分钟内创建高质量的 3d 网格模型,比 dreamfusion 快 2 倍(后者平均需要 1.5 小时),同时还实现了更高的分辨率。统计表明相比 dreamfusion,61.7% 的人更喜欢英伟达的新方法。
连同图像调节生成功能,新技术为各种创意应用开辟了新途径。
论文链接:https://arxiv.org/abs/2211.10440
技术细节
magic3d 可以在较短的计算时间内根据文本 prompt 合成高度详细的 3d 模型。magic3d 通过改进 dreamfusion 中的几个主要设计选择来使用文本 prompt 合成高质量的 3d 内容。
具体来说,magic3d 是一种从粗到精的优化方法,其中使用不同分辨率下的多个扩散先验来优化 3d 表征,从而生成视图一致的几何形状以及高分辨率细节。magic3d 使用监督方法合成 8 倍高分辨率的 3d 内容,速度也比 dreamfusion 快 2 倍。
magic3d 的整个工作流程分为两个阶段:在第一阶段,该研究优化了类似于 dreamfusion 的粗略神经场表征,以实现具有基于哈希网格(hash grid)的内存和计算的高效场景表征。
在第二阶段该方法切换到优化网格表征。这个步骤很关键,它允许该方法在高达 512 × 512 的分辨率下利用扩散先验。由于 3d 网格适用于快速图形渲染,可以实时渲染高分辨率图像,因此该研究利用基于光栅化的高效微分渲染器和相机特写来恢复几何纹理中的高频细节。
基于上述两个阶段,该方法可以生成高保真的 3d 内容,并且很容易在标准图形软件中导入和可视化。
此外,该研究展示了用文本 prompt 对 3d 合成过程的创造性控制能力,如下图 1 所示。
为了对比实际应用效果,英伟达的研究人员把 magic3d 和 dreamfusion 在 397 个文本提示生成的内容上进行了比较。平均的粗略模型生成阶段花费 15 分钟,精细阶段训练了 25 分钟,所有运行时间均在 8 块英伟达 a100 gpu 上测得。
虽然论文和 demo 只是第一步,但英伟达已经为 magic3d 想好了未来的应用方向:给游戏和元宇宙世界提供制作海量 3d 模型的工具,而且让所有人都可以上手使用。
当然,最早上线这项功能的可能会是英伟达自己的 omniverse。
雷士照明上半年营收同比微幅增长,达19.74亿
短波/中波/长波红外热像仪助力高温过程监控
科普:VR产品常见名词解析 看懂就能出去吹了
苹果将于今年发布三款新设备:后置三摄并显著优化AR性能
MatePad Pro正式首发 华为平板正式升级
NVIDIA提出Magic3D:高分辨率文本到3D内容创建
凌力尔特聚焦细分市场,打造低功耗电源管理芯片
大画头戴电视到底值不值得买
BTB/FC连接器用大电流弹片微针模组可提高测试效率
化工厂4G+蓝牙+GPS/北斗RTK人员定位系统解决方案
分布式文件系统的设计原理是什么?
以色列央行表示数字货币应该被视为一种金融资产
为什么联发科可以卖给华为
2021 RISC-V CON China研讨会「818 RISC-V如何成为芯主流」聚焦RISC-V产业应用及客户开发实例
华鼎供应链冷链数字孪生平台获评2023冷链技术创新案例
用英特尔视频Pro分析仪优化HEVC
在安防监控行业中模拟与数字解决方案的对比
TCL目标:在未来超越三星成为全球第一
OPPO可能转单 联发科在2017年将采取“先守后攻”战术
中继器和集线器的区别是什么