介绍一种对标Tesla Occupancy的开源3D语义场景补全⽅法

一、背景
在 2022 年的 tesla ai day 上， tesla 将 bev（鸟瞰图）感知进⼀步升级，提出了基于 occupancy network 的感知⽅法。这种基于 occupancy grid mapping 的表示⽅法，⼜叫体素(voxel)占据，在 3d 重建任务中已经是一个“老熟人”了。
它将世界划分成为⼀系列 3d ⽹格单元，然后定义哪个单元被占⽤，哪个单元是空闲的，并且每个占据单元同时也包含分类信息，⽐如路⾯、⻋辆、建筑物、树⽊等。在⾃动驾驶感知中，相⽐普通的 3d 检测⽅法，这种基于体素的表示可以帮助预测更精细的异形物体。如下图 tesla demo 中所展示的那样，对于空间感知更精细。
左图：使用固定的矩形框标记车辆；右图：使用体素占据来精细表示车辆
在这种在线重建的⽅法中，⼀般使⽤ ssc ( semantic scene completion)任务评判预测的准确性，即利⽤图像、点云或者其他 3d 数据作为输⼊，预测空间中的体素占据和类别信息，并与 gt 标注相⽐较。在权威的⾃动驾驶 semantic-kitti ssc 任务中，可以根据输⼊分成纯图像和基于 3d (点云、 tsdf、体素等)的两类不同的⽅法。
使⽤纯图像⽅案恢复 3d 结构是⼀个⽐较困难的问题，旷视研究院提出了 occdepth 的⽅法，将纯图像输⼊⽅法的精度⼤幅提升，获得了视觉⽅法的 sota，其中 sc iou 从 34.2 增⻓为 45.1， miou 从 11.1 增⻓为15.9。同时可视化结果表明 occdepth 可以更好地重建出近处和远处的⼏何结构。下⾯将带⼤家介绍 occdepth 具体的⽅法。
二、任务困难和解决动机
仅从视觉图像估计场景中完整的⼏何结构和语义信息，这是⼀项具有挑战性的任务，其中准确的深度信息对于恢复 3d⼏何结构是⾄关重要的。之前的很多⼯作，都是利⽤点云、 rgbd 、tsdf[1]等其他 2.5d 、3d 形式[2-8]作为输⼊，来预测体素占据，这也需要较昂贵的设备来采集 3d 信息。基于纯图像的⽅案更便宜，同时也可以提供更为丰富且稠密场景表示， monoscene[9]提出了纯视觉的 baseline。但相较于上述的 3d ⽅法，在⼏何结构恢复⽅⾯，表现有⼀定的差距。
本项工作借鉴了“人类使用双眼能比单眼更好地感知3d世界中的深度信息”的思想，提出了名为 occdepth 的语义场景补全⽅法。它分别显式和隐式地利⽤图像中含有的深度信息，以帮助恢复良好的 3d ⼏何结构。在 semantickitti 和 nyuv2 等数据集上的⼤量实验表明，与当前基于纯视觉的 ssc ⽅法相⽐，我们提出的 occdepth ⽅法均达到了 sota，在 semantickitti 上整体实现了+4.82% miou 的提升，其中+2.49% miou 的提升来⾃隐式的深度优化，+2.33% miou 提升来⾃于显式的深度蒸馏。在nyuv2 数据集上，与当前基于纯视觉的 ssc ⽅法相⽐， occdepth 实现了+4.40% miou 的提升。甚⾄相⽐于所有 2.5d 、3d 的⽅法， occdepth 仍然实现了 +1.70% miou 的提升。
三、具体方法
上图是 occdepth 的主要流程。3d 场景语义补全可以根据输⼊的双⽬图像所推理出来，其中连接了⼀个双⽬特征软融合(stereo-sfa )模块⽤于隐式地将特征提升到 3d 空间，⼀个占⽤深度感知(oad) 模块⽤于显式地增强深度预测，后续接上 3d u-net ⽤于提取⼏何和语义信息。其中双⽬深度⽹络仅在训练的时候使⽤，⽤蒸馏的⽅法帮助 oad 模块提升深度预测能⼒。
双目特征软融合模块
占用感知的深度蒸馏模块
四、实验
指标对比
在不同数据集上和 2.5d/3d 数据作为输入的方法的对比表。occdepth 的结果在一些室内场景上和 2.5d/3d 的方法接近甚至有所超越，在室外场景上和某些 2.5d/3d 方法相媲美。* 表示结果引用自 monoscene。“/”表示缺失结果。
我们还将 occdepth 与原始 2.5d/3d 作为输入的基础方法进行了比较，结果列在上表中。在 semantickitti 数据集的隐藏测试集中，虽然 occdepth 只使用水平视野比激光雷达（ 82°vs. 180°）小得多的双目图像，但 occdepth 取得了和使用 2.5d/3d 基础方法可比的结果。
这个结果表明 occdepth 具有相对较好的补全能力。在 nyuv2 的测试集中，因为没有双目图像，我们的 occdepth 将 rgb 图像和深度图生成虚拟双目图像作为输入。结果显示， occdepth 取得了比所有 2.5d/3d 方法更好的 miou 和 iou（[+0.8 iou，+1.7 miou]）。
在提出的仿真数据集 semantictartanair 的测试集中，我们在这里使用深度真值作为这些 2.5d/3d 方法的输入，所以 2.5d/3d 方法的准确率非常高。另一方面，与 2.5d/3d 输入方法相比， occdepth 具有较为接近的 miou 结果，并且 occdepth 没有使用深度真值。与纯视觉推理的方法相比，occdepth 具有更高的 iou 和 miou ([+17.6 iou, +10.9 miou])。
定性对比
在 semantictartanair 和semantickitti 上的可视化结果。最左侧是输入的图像，最右侧是语义体素真值，中间为各种方法的可视化结果。这里显示了 occdepth 在两个数据集中有较好结果场景。
在室内场景 semantictartanair 数据集上，虽然所有方法都正确获得了正确的场景表示，但 occdepth 对物体边缘具有更好的还原效果，例如沙发（图(a)的第 1 行）和天花板灯（图(a)的第 2 行）和地毯（图(a)的第 3 行）。而在室外场景的 semantickitti 数据集上，与基础方法相比，occdepth 的空间和语义预测结果明显更好。例如，通过 occdepth 可以实现路标(图(b)的第 1 行)、树干(图(b)的第 2 行)、车辆(图(b)的第 2 行)和道路(图(b)的第 3 行)的准确识别。
消融实验
对提出的模块进行消融实验。(a) stereo-sfa 模块的消融实验。(b) oad 模块中深度蒸馏数据源的消融实验。(c)oad 模块中深度蒸馏数据源的消融实验。“w/o depth”表示不使用深度蒸馏，lidar depth 是指激光雷达点云生成的深度图，stereo depth 是指 leastereo 模型生成的深度图。以上实验都在 semantickitti 的 08 号轨迹上进行测试。(a)，(b)，(c)的消融实验结果证明了提出的每个模块的有效性。
五、总结
在这项工作中，我们提出了一种有效利用深度信息的 3d 语义场景补全方法，我们将其命名为 occdepth 。我们在 semantickitti（室外场景）和 nyuv2（室内场景）数据集等公共数据集上训练了 occdepth，实验结果表明，本工作提出的 occdepth 在室内场景和室外场景上都可与某些以 2.5d/3d 数据作为输入的方法相媲美。特别地是，occdepth 在所有场景体素类别分类上都优于当前基于纯视觉推理的方法。

V锥流量计的优点与缺点
荣耀Magic2手机的AI生态升维将引领智能手机走向下一站
连接器中小企业目前的发展现状是怎么样的
51单片机之矩阵键盘的驱动实现
我国传感器和仪器仪表元器件市场分析
介绍一种对标Tesla Occupancy的开源3D语义场景补全⽅法
黑芝麻芯片技术大有进展为ADAS及自动驾驶提供了完整的商业落地方案
iPhone11新配色，是不是在暗示一些新的功能呢？
工业物联网产业“泡沫”过大，该如何抢占高点？
宁德时代整体装机量仍然呈现上涨趋势已在国内动力电池市场上取得较大规模发展
绝缘橡胶板
手机性能排行榜公布,米9位居榜首,小米5G新机即将开售,售价4560元
无线降噪蓝牙耳机排名，口碑最好的降噪蓝牙耳机品牌
采用传感器技术建设大气污染热点网格监管系统
中航光电荣获江汽集团“质量领先奖”
关于增量配电网配电价格的指导性意见的内容
租用bluehost美国站群服务器需要注意哪些因素
荣耀9即将上市：华为荣耀9今天上午十点火热开抢！这性能与颜值与良心的售价，急死友商！
可编程控制器plc的结构组成
“全球双千兆第一区”开通仪式在上海市虹口区举行