如何利用3D点编码提升PETRV1/V2及StreamPETR性能

自动驾驶系统需要准确感知和理解周围道路环境中的障碍物。通过3d障碍物检测，系统能够获取3d坐标系下的障碍物坐标、尺寸、朝向、速度等信息，从而准确感知和建模道路环境。这有助于系统做出合理的规划和决策，避免与障碍物碰撞，并选择最佳路径和行驶策略。
近年来，相对于成本较高的雷达感知方案而言，纯视觉的低成本3d障碍物检测方案受到越来越多关注。尽管配备辅助自动驾驶功能的车辆一直装有多个环视相机，但早期的纯视觉方案主要通过在后处理中融合来自多个相机的单目3d障碍物检测结果来进行道路环境感知，这导致了大量逻辑操作以及对跨相机截断物体的挑战。
自特斯拉ai-day提出bev感知的思路后，端到端中融合环视3d感知成为业界争相落地的热点。与此同时，后摩智能与悉尼大学、苏黎世联邦理工大学以及阿德莱德大学的学者合作研究提出了3d点编码(3d point position embedding, 3dppe)，该方案旨在解决当前基于transformer范式的环视3d障碍物检测中存在的图像与锚点位置编码不一致以及沿射线方向的误检导致后处理逻辑复杂等问题，在获得卓越性能的同时进一步降低了后处理的复杂度，同比petr-v1/2以及streampetr均取得显著提升，已收录于计算机视觉顶会iccv2023。
内容简介
方法架构：
图 1. 3dppe框架图
如图1所示，3dppe基于transformer结构。模型的输入是环视图像，经过主干网处理后得到图像特征，该特征送入深度检测头后得到对应的深度预测信息，再结合相机内外参，可以得到对应的3d点云。这个3d点云继续送入3d点编码器中用于构建对应图像特征的位置编码；与此同时，随机初始化的3d锚点同样经过共享的3d点编码器，由此构建对应的初始目标索引特征。将上述图像特征、图像位置编码以及初始索引特征送入解码器后即可得到环视系统下3d障碍物的检测框信息。
由于3dppe在构建图像特征的位置编码时引入了显式的深度信息，使得对应的位置先验与真实物理世界的分布更为一致，从而有效的减缓了沿射线方向的误检。具体差异如下图所示，之前的3d相机射线编码无法建模物体的物理真实深度(图2.a)，而3dppe中构建3d点编码构建时用到的深度信息都是符合物理世界分布的，深度点都是相机射线和车体表面相交的点(图2.b)。此外，改进后的图像位置编码与锚点分布同源，因此性能更好。
图 2. 3d相机射线编码和3d点编码的图示说明
实验表明不论在验证集还是测试集上，我们方法在同比条件下都取得了最优的性能。
表 1. nus验证集上的性能
表 2. nus测试集上的性能
下图对位置编码的相似度进行可视化，可以看出3d点编码具有更好的相似度聚焦能力。
图 3. 位置编码的相似度可视化
总结与展望
3dppe初步探索了位置编码对环视3d障碍物检测的影响，这将为如何在gpu和cpu算力均有限的端上芯片上部署模型提供理论及技术支撑，如何探索具有极致优化潜力的模型将是未来重要研究方向。

将LCD显示器读数读入单片机的接口电路
了解一下实际Space Station的PFD值
曝索尼PS5将在3月份开启预购标配版售价499美元
安路科技科创板IPO申请已于4月30日获得受理
一文纵览全球36个AI会议：机器学习十年发展回顾
如何利用3D点编码提升PETRV1/V2及StreamPETR性能
睿思科技发布发布一系列新一代USB Type-C™ 与USB Power Delivery 3.0产品
怎样提高PCB速度
四个方面解读射频电路4大基础特性
使用NVIDIA DeepStream在Fyma解锁视频管道
电力交易：“省间壁垒”正在逐步打破，弃风弃光问题得到了改善
苹果PowerbeatsPro国行价格公布售价1888元
一文解析In-Context Learning
中兴通讯亮相2022年世界移动大会
首尔半导体进入全球家居照明市场
CMMB移动数字电视终端设计
析塔SITA金属表面清洁度检测仪在激光焊接空调压缩机的应用
综合布线系统工程学习笔记
蓄电池对UPS电源寿命有何影响
放大器测试与数学知识结合得以使巴伦运转