自动驾驶数据集的生成模型之WoVoGen框架原理

1. 写在前面
最近自动驾驶数据集的生成模型很火，主要包括nerf和扩散模型两类。其中扩散模型的难点在于保持世界范围内的一致性和传感器间的一致性。今天笔者为大家推荐一篇复旦大学最新的开源方案wovogen，可以根据车辆控制输入生成街区视频，还可以做场景编辑。
下面一起来阅读一下这项工作~
2. 摘要
生成多摄像头的街景视频对于增加自动驾驶数据集至关重要，解决了对广泛而多样的数据的迫切需求。由于多样性的限制和处理光照条件的挑战，传统的基于渲染的方法越来越多的被基于扩散的方法所取代。然而，基于扩散的方法的一个重要挑战是确保生成的传感器数据同时保持世界范围内的一致性和传感器间的一致性。为了解决这些挑战，我们结合了一个额外的显式世界体素，并提出了世界体素感知多摄像头驱动场景生成器( wovogen )。该系统专门用来利用4d世界体素作为视频生成的基础元素。我们的模型运行在两个不同的阶段：( i )基于车辆控制序列来设想未来的4d时间世界体素，( ii )生成多摄像机视频，由这个设想的4d时间世界体素和传感器互连性知识。4d世界体素的加入使得wovogen不仅可以根据车辆控制输入生成高质量的街景视频，而且可以方便场景编辑任务。
3. 效果展示
wovogen可以预测周围环境并产生合理的视觉反馈，以响应自车的驾驶操作。为了发挥快速发展的生成模型的能力，wovogen将结构化的交通信息编码到一个规则的网格框架中，即世界体素，并设计了一种新的基于潜在扩散的世界模型来自回归地执行世界体素预测。
wovogen可以很好得生成具有时间一致性的未来世界体素(前两行)。然后，利用世界模型输出的世界体素感知的2d图像特征，合成同时具有多相机一致性和时间一致性的驾驶视频(最下面两行)。
4. 具体原理是什么？
wovogen的总体框架。top：世界模型分支。作者对autoencoderkl进行微调，从头开始训练4d扩散模型，根据过去的世界体素和自车动作生成未来世界体素。bottom：世界体素感知合成分支。利用生成的未来量作为输入，通过世界编码器得到fw。随后的采样产生fimg，然后进行聚合。该过程通过应用全景扩散来产生未来的视频来完成。
5. 和其他sota方法对比如何？
nuscenes验证集上图像/视频生成质量的定量比较。wovogen同时实现了多视角和多帧生成，在所有方法中fid和fvd得分最低。
6. 总结
这篇文章提出了wovogen，利用4d世界体素将时间和空间数据结合起来，在保证一致性的同时解决了从多传感器数据创建内容的复杂性。这种两阶段系统不仅可以基于车辆控制产生高质量的视频，还可以实现复杂的场景编辑。

电流反馈运放电路设计
MS8601/MS8602/MS8604、精密、CMOS、轨到轨输入/输出、宽带运算放大器
nfc属于RFID吗 nfc和rfid的区别与联系 NFC能复制射频卡吗
基于AiP8P003H芯片开发的LED屏驱动方案，通讯协议可定制（如串口通讯，比例码通讯），可替代飞凌的FM8PE53
什么是电动机的温升限度？怎么确定？
自动驾驶数据集的生成模型之WoVoGen框架原理
3D扫描仪助力大尺寸汽车钣金件模具加工检测
如何选择合适的示波器探头
OPPOR11什么时候上市最新消息：OPPOR11拍照神器即将发布，九大城市广告预热，续写销售神话！
中国联通混改方案终出炉!混改到底有啥影响?联通可以重回巅峰吗
积木易搭Magic Swift Plus为雕刻工艺品精雕复刻提供三维数字化解决方案
如何通过GPU架构改善功耗问题，避开英伟达主战场寻找蓝海
AEE防爆执法记录仪，黑科技加持，凭实力出圈
苹果iPhone 12 Pro Max主板电池拆解 L 型电池容量缩水仅 3687mAh
“光伏+储能”或将成最便宜能源
安规电容的分类与安全等级
沃尔玛也玩区块链还申请“包裹递送追踪系统”区块链技术专利
航顺芯片产品有哪些航顺家族介绍
仓库之中如何使用物联网等技术
二十大未来最有潜力的新材料