仅仅通过在照片上训练模型,机器学习(ml)的最新技术就已经在许多计算机视觉任务中取得了卓越的准确性。在这些成功的基础上,进一步提高对3d对象的理解,这将极大地促进更广泛的应用,例如增强现实,机器人技术,自主性和图像检索。
今年早些时候,我们发布了mediapipe objectron,这是一套针对移动设备设计的实时3d对象检测模型,这些模型在经过完全注释(annotated)的真实3d数据集上进行了训练,可以预测对象的3d边界框。
然而,由于与2d任务(例如imagenet,coco和open images)相比,因为缺少大型真实数据集,所以了解3d对象仍然是一项具有挑战性的任务。为了使研究社区能够不断提高三维实体的理解,迫切需要发布以对象为中心的视频数据集,该数据集可以捕获对象的更多3d结构,同时匹配用于许多视觉任务的数据格式(例如视频或摄像机流),以帮助训练和确定机器学习模型的基准。
今天,我们很高兴发布objectron数据集,这是一个短的,以对象为中心的视频剪辑的集合,可以从不同的角度捕获更大的一组公共对象。每个视频剪辑都随附有ar会话元数据,其中包括相机姿势和稀疏点云。除此之外,数据还包含每个对象手工标注的3d边框,用来描述对象的位置,方向和尺寸。数据集包括15k带注释的视频剪辑,并补充了从不同地理区域的样本中收集的超过4m带注释的图像(覆盖五大洲的10个国家/地区)。
三维实体检测解决方案
除了和数据集一起之外,我们还将共享一个针对四类对象的三维实体检测解决方案-鞋子,椅子,杯子和照相机。这些模型在mediapipe中发布,mediapipe是google的跨平台可定制ml解决方案的开源框架,适用于实时和流媒体,该解决方案还支持设备上的实时手部,虹膜和身体姿势跟踪等ml解决方案。
在移动设备上运行的3d对象检测解决方案的示例结果
与以前发布的单阶段objectron模型相反,这些最新版本使用两级架构。第一阶段采用tensorflow对象检测模型来查找实体的2d裁剪。然后,第二阶段使用图像裁剪来估计3d边框,同时为下一帧计算实体的2d裁剪,因此实体检测器不需要运行每个帧。第二阶段3d边框预测器在adreno 650移动gpu上以83 fps运行。
参考3d对象检测解决方案图
3d对象检测的评估指标
借助ground truth annotations,我们使用3dintersection over union(iou)相似度统计信息(一种用于计算机视觉任务的常用度量标准)来评估三维实体检测模型的性能,该度量标准衡量边框与地面真相的接近程度。
我们提出了一种算法,可为通用三维面向盒计算准确的3d iou值。首先,我们使用sutherland-hodgman多边形裁剪算法计算两个盒子的面之间的交点。这类似于用于计算机图形学的视锥剔除技术。相交的体积由所有修剪的多边形的凸包计算。最后,根据两个框的交点的体积和并集的体积计算iou。我们将在发表数据集的同时发布评估指标的源代码。
使用多边形裁剪算法计算并集的三维交点(左):通过对方框裁剪多边形计算每个面的交点。右:通过计算所有交点的凸包计算交点的体积(绿色)。
数据集格式
数据集的技术细节,包括用法和教程,可在数据集网站上找到。数据集包括自行车,书籍,瓶子,照相机,谷物盒,椅子,杯子,笔记本电脑和鞋子,并存储在google cloud存储上的objectron存储桶中,具有以下资源:
视频片段
注释标签(实体的3d边框)
ar元数据(例如照相机姿势,点云和平面)
已处理的数据集:带注释帧的改编版本,图像的格式为tf.example,视频的格式为sequenceexample。
支持脚本以基于上述指标运行评估
支持脚本以将数据加载到tensorflow,pytorch和jax中并可视化数据集,包括“ hello world”示例
有了数据集,我们还将开放数据管道,以在流行的tensorflow,pytorch和jax框架中解析数据集。还提供了示例colab笔记本。
通过发布此objectron数据集,我们希望使研究界能够突破三维实体几何理解的极限。我们还希望促进新的研究和应用。例如视图合成,改进的三维表达和无监督学习。加入我们的邮件列表并访问我们的github页面,请随时关注未来的活动和发展。
致谢
这篇文章中描述的研究是由adel ahmadyan, liangkai zhang, jianing wei, artsiom ablavatski, mogan shieh, ryan hickman, buck bourdon, alexander kanaukou, chuo-ling chang, matthias grundmann, and tom funkhouser完成的。我们感谢aliaksandr shyrokau,sviatlana mialik,anna eliseeva和注释团队的高质量注释。我们还要感谢jonathan huang和vivek rathod对tensorflow对象检测api的指导。
荣耀8Pro海外发布,任正非:赚外国人的钱去!
硬件实现模拟带宽达32GHz的实时示波器Infiniium
喧嚣与宁静兼得 巧妙改装爱车为可变阀门排气系统
华为汪涛:因聚而生,众志有为,与伙伴携手共迎智能化浪潮!
ST-Ericsson推出创新型电源管理解决方案
三维实体检测解决方案
实时频谱分析仪FFT功能如何采集信号?
无感支付是什么,生活中经常用的无感支付有哪些
微电脑时控开关、时控开关接线图
ESP32-C2 8682芯片开发板开发演示
电路板电容怎么测量
开关量设备驱动模块的plc程序设计方法剖析
工业互联网典型安全解决方案案例汇编
从卷王做起!走进合宙智能工厂——合佳科技
学子专区—ADALM2000实验:调节基准电压源
Innoviz宣布符合关键汽车级标准 Innovusion与蘑菇车联达成战略合作
研发波导光栅以提升增强现实的实际使用效果
【鉴定案例】光伏电站遭受冰雹袭击隐裂损失程度鉴定
过来人谈模拟电子学习历程
MAX2831/MAX2832直接变频,零IF,RF收发器