一种用于自监督单目深度估计的轻量级CNN和Transformer架构

摘要
 大家好,今天为大家带来的文章: lite-mono:a lightweight cnn and transformer architecture for self-supervised monocular depth estimation 自监督单目深度估计不需要地面实况训练,近年来受到广泛关注。
设计轻量级但有效的模型非常有意义,这样它们就可以部署在边缘设备上。许多现有的体系结构受益于以模型大小为代价使用更重的主干。
在本文中,我们实现了与轻量级ar结构相当的结果。具体来说,我们研究了cnn和transformer的有效结合,并设计了一个混合架构lite-mono。提出了连续扩展卷积(cdc)模块和局部全局特征交互(lgfi)模块。
前者用于提取丰富的多尺度局部特征,后者利用自注意机制将长范围的全局信息编码到特征中。实验证明,我们的完整模型在精度上优于monodepth2,可训练参数减少了80%左右。
图1 我们的完整模型lite-mono的参数比monodepth2[15]和r-msfm[44]少,但生成的深度图更准确。
主要工作与贡献
综上所述,我们的贡献如下:
我们提出了一种新的轻量级架构,称为lite-mono,用于自监督单目深度估计。我们证明了它的有效性与模型大小和flops
与竞争较大的模型相比,所提出的架构在kitti[13]数据集上显示出更高的精度。它用最少的可训练参数达到了最先进的水平。在make3d[31]数据集上进一步验证了模型的泛化能力。为了验证不同设计方案的有效性,还进行了额外的消融实验
在nvidia titan xp和jetson xavier平台上测试了该方法的推理时间,验证了该方法在模型复杂度和推理速度之间的良好平衡。
算法流程
1.总体结构
多篇论文证明,一个好的编码器可以提取更多有效的特征,从而改善最终结果[15,17,42]。本文着重设计了一种轻量级编码器,可以对输入图像中的有效特征进行编码。图2显示了建议的体系结构。它由一个编解码器depthnet(章节3.2)和一个posenet(章节3.3)组成。depthnet估计输入图像的多尺度反深度图,posenet估计两个相邻帧之间的相机运动。然后生成重建目标图像,计算损失以优化模型(章节3.4)。
增强局部特特征:使用较浅的网络而不是较深的网络可以有效地减小模型的大小。如前所述,浅层cnn的接受野非常有限,而使用扩张卷积[41]有助于扩大接受野。通过叠加提出的连续扩张卷积(cdc),网络能够在更大的区域“观察”输入,同时不引入额外的训练参数。
图2 拟议的lite-mono概述。我们的lite-mono有一个用于深度预测的编码器-解码器depthnet,以及一个常用的posenet[15,44]来估计相邻单目帧之间的姿势。深度网络的编码器由四个阶段组成,我们提出使用连续扩张卷积(cdc)模块和局部全局特征交互(lgfi)模块来提取丰富的层次特征。这些模块的详细信息如图3所示。
低计算量的全局信息:增强的局部特征不足以在没有transform的帮助下学习输入的全局表示来建模远程信息。原transformer[8]中的mhsa模块的计算复杂度与输入维数呈线性关系,因此限制了轻量化模型的设计。局部全局特征交互(local-global features interaction, lgfi)模块采用跨协方差注意力[1]来计算沿特征通道的注意力,而不是跨空间维度计算注意力
图3 所提出的连续扩展卷积(cdc)模块和局部全局特征交互(lgfi)模块的结构。在每个阶段,不同扩张速率的cdc模块重复n次。
2.depthnet
2.1 编码器
深度编码器。lite-mono在四个阶段聚合了多尺度特征。大小为h ×w ×3的输入图像首先被输入到卷积干中,在那里图像被3 ×3卷积向下采样。接下来进行两个额外的3个×3卷积(stride =1)进行局部特征提取,我们得到大小为h2 ×w2 ×c1的特征映射。
在第二阶段,将特征与池化后的三通道输入图像进行拼接,再使用stride =2的3 ×3卷积对特征图进行下采样,得到大小为h 4 h 4 ×w4 ×c2的特征图。在下采样层中,将特征与平均池化的输入图像进行拼接,可以减少特征尺寸减小所造成的空间信息损失,这是受到espnetv2[3]的启发。然后,我们使用提出的连续扩张卷积(cdc)模块和局部-全局特征交互(lgfi)模块来学习丰富的分层特征表示。
2.2 连续扩张卷积(cdc
连续扩张卷积(cdc)。提出的cdc模块利用扩张卷积提取多尺度局部特征。不同于只在网络的最后一层使用并行扩张卷积模块[6],我们在每个阶段插入几个连续的不同扩张速率的扩张卷积,以实现足够的多尺度上下文聚合。
2.3 局部全局特征交互(lgfi)
给定一个维度为h的输入特征映射x ×w ×c,我们可以将其投影到相同维度的查询q =xwq,键k =xwk,值v =xwv,其中wq、wk和wv是权重矩阵。我们使用交叉协方差注意[1]来增强输入x:
2.4 解码器
不同于使用复杂的上采样方法[44]或引入额外的注意模块[3],我们使用了从[15]改编而来的深度解码器。作为 如图2所示,它使用双线性上采样来增加空间维度,并使用卷积层来连接编码器的三个阶段的特征。每个向上采样块跟随一个预测头,分别以全分辨率、12分辨率和14分辨率输出逆深度图。
图3 网络结构表
实验结果
表1我们的模型与kitti基准上使用特征分割[9]的一些最近的代表性方法的比较。除非另有说明,否则所有输入图像都将调整为640 ×192。最佳和次优结果分别用粗体和下划线突出显示。”m”:kitti单目视频,“m+se”:单目视频+语义分割,“*”:输入分辨率1024 ×320,“my”:未经imagenet预训练[7]。
图4 kitti的定性结果。我们分别展示了monodepth2 [15],r-msfm3 [44],r-msfm6 [44],lite-mono-small(我们的)和lite-mono(我们的)生成的一些深度图。monodepth2和r-msfm的接受域有限,因此它们的深度预测有些不准确。相反,我们的模型可以产生更好的结果
图5 make3d数据集上的定性结果。我们比较monodepth2[15]和r-msfm[44]。我们的模型可以感知不同大小的物体 图3kitti数据集上的draft预测示例。从(a)输入的rgb图像中,我们显示(b)光流估计,(c)深度估计,和(d)从深度和场景流估计中预测的光流 。


硬件产品升级时的兼容性问题
中兴通讯:共筑5G产业创新之路
光影时尚大片也能DIY?这样自拍突破脑洞异次元
华为公布全新品牌“非凡大师”!MatePad 13.2等新品亮相,两款秘密新车剧透
智慧安全用电监控系统公司_电猫猫_闽泰科技陕西分公司
一种用于自监督单目深度估计的轻量级CNN和Transformer架构
钽电解电容是什么,有什么作用
国内高压连接器机械性能亟待提高德索分享
长光华芯的VCSEL技术及产品进展处于什么状态?目前业务开展情况如何?
5G iPhone或于2020上市 三星折叠屏手机存缺陷
化工园区空气监测站的技术参数介绍
运营商的时代之旅:种下5.5G的魔豆,攀上数字化的天空花园
不能忽略的LED显示屏省电常识
隔离式双向I2C收发器的应用及特性的介绍
人工智能的发展是否一直很顺利
位置传感器的工作原理及类型
新能源汽车深入二三线城市 岳阳首块新能源车号牌上路
移动数据的编程示例
卜蜂莲花卖“水货”电池 如属实退1赔1
兆芯KX-U6780A处理器的CPU、游戏与功耗测试