高分工作!Uni3D:3D基础大模型,刷新多个SOTA!

我们近期的工作:3d视觉大模型uni3d在iclr 2024的评审中获得了688分,被选为spotlight presentation
在本文中,我们第一次将3d基础模型成功scale up到了十亿(1b)级别参数量,并使用一个模型在诸多3d下游应用中取得sota结果。代码和各个scale的模型(从6m-1b)均已开源,欢迎大家关注和使用:
论文:https://https://arxiv.org/pdf/2310.06773
代码:https://https://github.com/baaivision/uni3d
我们主要探索了3d视觉中scale up模型参数量和统一模型架构的可能性。在nlp / 2d vision领域,scale up大模型(gpt-4,sam,eva等)已经取得了很impressive的结果,但是在3d视觉中模型的scale up始终没有成功。我们旨在将nlp/2d中scale up的成功复现到3d表征模型上。
在这项工作中,我们提出了一个3d基础大模型uni3d,直接将3d backbone统一为vit(vision transformer),以此利用丰富和强大的2d预训练大模型作为初始化。uni3d使用clip模型中的文本/图像表征作为训练目标,通过学习三个模态的表征对齐(点云-图像-文本)实现3d点云对图像和文本的感知。同时,通过使用vit中成功的scale up策略,我们将uni3d逐步 scale up,训练了从tiny到giant的5个不同scale的uni3d模型,成功地将uni3d扩展到10亿级别参数。
uni3d模型不同scale下的参数量和zero-shot分类结果
uni3d在多个3d任务上达到sota,如:zero-shot classification, few-shot classification,open-world understanding, open-world part segmentation.
zero-shot classification
real-world zero-shot recognition
由于学到了强大的多模态表征能力,uni3d还能够做一些有意思的应用,如point cloud painting(点云绘画),text/image-based 3d shape retrieval(基于图像/文本的3d模型检索),point cloud captioning(点云描述):
point cloud painting
image-based 3d shape retrieval
text-based 3d shape retrieval
point cloud captioning.

总投资50亿元,和熠AMOLED高端显示模组项目开工
惠普战99商务本评测 一款颜值和性能兼备的高端商务笔记本
IBM 新款高能效 AI 芯片:能效比高过 NVIDIA A100
加速推进3D打印技术的未来
2月性价比之争:红米Note4X、360N5、魅蓝5S、华为荣耀V9,绝不忽悠值得选购!
高分工作!Uni3D:3D基础大模型,刷新多个SOTA!
国内首款具有完全知识产权的车规级AI智能驾驶芯片发布
二极管组成的稳压电路分析
直流无刷电机转子位置传感器特点/工作原理/分类
一加7 Pro皓月金版正式开售搭载骁龙855移动平台支持边玩边闪充
Intel将发布全新的Agilex FPGA芯片
华米科技 Amazfit GTS 2 颜值最高的智能手表
路由器设置大揭秘
MAX5949A/MAX5949B热插拔控制器
不同操作系统间QoR性能存在差异
如何用OpenCL实现FPGA上的大型卷积网络加速?
毫米波雷达用于监测生命体征信号的技术解析
交易所黑马CoinAll竟抢上火币、币安投资的项目意欲何为
基于CAN总线的RS-232串口设备远程通信
晶振的测试电路,Crystal test circuit