读者理解:LEAP泛化到新的物体类别和场景

摄像机姿态对于多视角三维建模是否必要?现有的方法主要假设可以获得准确的摄像机姿态。虽然这个假设对于密集视图可能成立,但对于稀疏视图,准确估计摄像机姿态常常是困难的。作者的分析显示,噪声估计的姿态会导致现有稀疏视图三维建模方法的性能下降。为了解决这个问题,作者提出了leap,一种新颖的无姿态方法,挑战了摄像机姿态不可或缺的普遍观念。leap舍弃了基于姿态的操作,从数据中学习几何知识。leap配备了一个神经体积,该体积在场景之间共享,并且通过参数化编码几何和纹理先验。对于每个输入的场景,作者通过按特征相似性驱动的方式聚合2d图像特征来更新神经体积。更新后的神经体积被解码为辐射场,从而可以从任意视点合成新的视图。通过对物体为中心和场景级别的数据集进行实验,作者展示了leap在使用最先进的姿态估计器预测的姿态时显著优于先前的方法。值得注意的是,leap的性能与使用真实姿态的先前方法相当,同时比pixelnerf运行速度快400倍。作者还展示了leap泛化到新的物体类别和场景,并且学习的知识与极线几何密切相关。
读者理解:
leap方法:一种新的三维建模方法,可以从稀疏的视图中重建高质量的三维模型,而不需要知道相机的姿态(位置和方向)。这种方法利用了深度神经网络和几何约束,可以处理任意数量和分布的视图,甚至是单张图片。
与现有的三维建模方法相比,leap有以下优势:
不需要相机姿态信息,可以处理任意视角的图片。
可以从极少量的视图中重建出高质量的三维模型,甚至是单张图片。
可以处理不同尺度、不同光照、不同背景的图片,具有很强的泛化能力。
可以实现实时的三维建模,只需要几秒钟就可以生成三维模型。
leap实验:作者在多个数据集上进行了实验,包括shapenet、pascal3d+、pix3d和自采集数据集。实验结果表明,leap在三维重建质量、运行速度和泛化能力方面都优于现有的方法。作者还展示了一些leap生成的三维模型的可视化效果。
1 引言
本文介绍了一种基于神经辐射场的3d建模方法leap,其与传统方法不同的是摒弃了使用摄像机姿态的操作,并通过学习数据中与姿态相关的几何知识和表示来进行建模。leap使用神经音量来初始化辐射场,并通过聚合方式更新神经音量。而在聚合2d图像特征时,leap采用注意力机制而非摄像机姿态来确定待聚合的像素。此外,leap还通过多视角编码器来提高非规范视角图像特征的一致性。训练中,leap使用真实的摄像机姿态生成2d渲染图像,并通过2d重建损失进行优化。实验结果表明leap在多种数据集上表现出了优越的性能、快速的推理速度、强大的泛化能力以及易解释的先验知识。这里也推荐「3d视觉工坊」新课程彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进》。
2 相关工作
本文主要介绍了两个与nerf(neural radiance fields)相关的工作,分别是针对稀疏视角输入的nerf变体和稀疏视角相机姿态估计。针对nerf的稀疏视角输入,有两种不同的方法:一种是针对特定场景的nerf,通过从头开始优化辐射场来实现;另一种是通用的nerf变体,通过预测2d图像特征条件下的辐射场来实现。然而,这些方法在推理3d点之间关联性和假设获取地面真实相机姿态方面存在一些局限性。而leap方法具有3d推理能力,在没有姿态的情况下可以处理图像。稀疏视角相机姿态估计是一个具有挑战性的问题,相比于密集视角,由于图像之间的最小或缺失重叠,对于准确的相机姿态估计来说,跨视角对应线索的形成十分困难。除了传统的基于密集视角的相机姿态估计技术的局限性外,还有一些方法通过引入能量模型、多视图信息和预训练模型等方法来提高姿态估计的准确性。然而,leap方法不需要专门的相机姿态估计模块,不受相机姿态估计的影响,可以更接近使用地面真实姿态的结果。对于没有准确或没有相机姿态的nerf建模,有一些方法通过将相机姿态作为可调参数,并与辐射场一起进行优化来解决该问题。而leap方法通过3d感知的设计和基于特征相似性的2d-3d信息映射来消除对相机姿态的依赖,从而得到与使用地面真实姿态更接近的结果。
3 方法
本文介绍了leap方法的任务形式化和概述。给定一组k个场景的2d图像观测值,表示为{ |i = 1,..., k},leap预测了一个神经辐射场,可以从任意目标视点合成一张2d图像。需要注意的是,在我们的稀疏源视图设置中,由于宽基线相机拍摄的视图数量通常小于5,并且这些视图在推理过程中没有任何相关的相机姿态信息。
3.1 模型架构
leap首先从所有视角提取2d图像特征,使用一个dinov2初始化的vit作为特征提取器,以建模跨视角相关性。然后,leap引入了一个可学习的神经体积,对几何和纹理先验进行编码,并在所有场景中充当初始的3d表示。对于每个场景,leap通过查询多视图特征,将2d信息映射到3d领域,更新了神经体积,并预测了辐射场。具体来说,leap通过多视图图像编码器实现了对规范视图选择的感知,并通过捕捉交叉视角相关性来改善特征的一致性。接下来,leap引入了一个2d-3d信息映射模块,使用transformer层对特征进行更新和整合,并进行了多次的2d-3d信息映射,以粗到细的方式重建对象的潜在体积。最后,leap使用更新后的神经体积预测了基于体素的神经辐射场,然后利用体积渲染技术生成渲染图像和对象掩码。总体来说,leap的模型架构可以在没有姿态信息的情况下,通过特征一致性和2d-3d信息映射来实现对场景的建模和图像合成。
3.2 leap的训练与推理
leap通过光度损失函数在没有任何3d监督的情况下对渲染结果和输入之间进行训练。首先定义了应用于rgb图像的损失函数li,其中 = (ˆ, ) + (ˆ, )。其中l_{mse}i_{i}(ˆ分别表示原始图像和渲染后的图像,λp是用于平衡损失函数的超参数,lp是感知损失函数(johnson等,2016)。然后定义了应用于密度掩模的损失函数lm,即 = (ˆ, ),其中ˆ和分别表示原始和渲染后的密度掩模。最终损失函数定义为l = + ˆ,其中是用于平衡权重的超参数。如果掩模不可用,则只使用 。推断和评估。在推断过程中,leap在不依赖于任何姿态的情况下预测辐射场。为了评估新视角合成的质量,作者使用测试相机姿态在特定视点下渲染辐射场。
4 实验
本文介绍了leap方法在不同类型的数据集上进行的评估实验,并给出了实现细节和数据集说明。在实验中,leap表现出相对于其他基线模型的更好性能,包括更高的psnr和更低的lpips值。此外,leap还展示了强大的泛化能力,能够适应不同几何和纹理特性的对象。leap还在场景级别数据集上取得了较好的结果,在性能上超过了pixelnerf和与sparf相媲美。该研究还进行了消融实验,探索了leap模型中各个组成部分的影响,并对leap的解释进行了可视化展示。结果表明,leap方法有效地利用多视角信息进行3d建模。这里也推荐「3d视觉工坊」新课程彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进》
5 总结
本文提出了一种名为leap的无姿势方法,用于从一组非定姿稀疏视图图像进行三维建模。通过适当设置三维坐标并聚合二维图像特征,leap展示了令人满意的新视角合成质量。在我们的实验中,leap在从物体居中到场景级别,从合成图像到真实图像,以及从小规模到大规模数据的范围内,与使用估计姿势或噪声姿势的先前基于姿势的方法相比,始终表现出更好的性能。leap还与使用基准真实姿势的先前方法的版本取得了可比较的结果。此外,leap展示了强大的泛化能力,快速推理速度和可解释的学习知识。

硅终端金刚石半导体与场效应管器件研究进展
全球AI专利排名:美国领先,中国紧随其后,欧盟排名第三
华为缺芯供应链困局未解,分拆手机业务是最好办法?
苹果13发布会直播入口 苹果13发布会直播地址
ARM对 Carbon Design Systems进行资产收购
读者理解:LEAP泛化到新的物体类别和场景
智能镜面显示屏让智能家居生活变得触手可及
阿里:让物联网成大数据杀手级应用场景
AR与AI、区块链结合后,如何更新供应链?
整板短路测试原理
浅谈48节AA电池和20美元的微处理器卫星
全球3D打印机出货量与日俱增 将超45.5万台
无线路由器的设置优化指南
实施串口FIFO的双数据指针-Implementing a
新型手持式3D皮肤打印机亮相 可打印“皮肤”且加速创伤的愈合过程
臻鼎自动化生产大步走每片PCB都有身份证
新能源汽车高压连接器的三种失效模式
ETL认证是什么和UL认证有哪些区别?
疫情之下,哪些应用领域迎来了机遇?
中国5G基站和用户数量位居全球第一,引发多家外媒关注