加法网络再突破—NeurIPS 2020 Spotlight

华为诺亚方舟实验室联合悉尼大学发布论文《kernel based progressive distillation for adder neural networks》,提出了针对加法神经网络的蒸馏技术,resnet-34和resnet-50网络在imagenet上分别达到了68.8%和76.8%的准确率,效果与相同结构的cnn相比持平或超越,该论文已被neurips2020接收。 开源链接:
huawei-noah/addernet​github.com
论文链接:
https://arxiv.org/pdf/2009.13044.pdf​arxiv.org
研究背景
深度卷积神经网络(cnn)被广泛应用于诸多计算机视觉领域的实际任务中(例如,图片分类、物体检测、语义分割等)。然而,为了保证性能,神经网络通常是过参数化的,因此会存在大量的冗余参数。近期提出的加法神经网络(ann),通过将卷积操作中的距离度量函数替换为l1距离,极大减少了神经网络中的乘法操作,从而减少了网络运行所需的功耗和芯片面积。
然而,ann在准确率方面和同结构的cnn相比仍然有一定差距,在某种程度上限制了ann在实际应用中对cnn的替换。为了提高ann的性能,我们提出了一种基于核的渐进蒸馏方法。具体的,我们发现一个训练好的ann网络其参数通常服从拉普拉斯分布,而一个训练好的cnn网络其参数通常服从高斯分布。因此,我们对网络中间层的特征图输出进行核变换后,使用距离度量函数估计教师网络(cnn)和学生网络(ann)之间的损失。对于最后一层,我们使用传统的kl散度估计两个网络之间的损失。同时,在训练中我们使用随机初始化的教师网络,与学生网络同时训练,以减少两个网络之间参数分布的差异性。
实验表明,我们的算法得到的ann能够在cifar-10,cifar-100,imagenet等标准图片分类数据集上达到或超越同结构cnn的准确率。
对网络中间层特征图输出进行核变换
ann本身精度不好的原因是原始ann在反向传播时,使用的是近似的梯度,导致目标函数无法向着最小的方向移动。传统kd方法应用到ann上效果不佳的原因,在于ann的权重分布是拉普拉斯分布,而cnn的权重分布为高斯分布,因此分布不同导致无法直接对中间层的feature map使用kd方法。本方法首先将核变换作用于教师网络和学生网络的中间层输出,并使用1x1卷积对新的输出进行配准。之后,结合最后一层的蒸馏损失与分类损失,得到整体的损失函数。
渐进式蒸馏算法
传统的蒸馏方法使用固定的,训练好的教师网络来教学生网络。这样做会带来问题。由于教师网络和学生网络处于不同的训练阶段,因此他们的分布会因为训练阶段的不同而不同,所以会导致kd方法效果不好。因此我们采用渐进式蒸馏方法,让教师网络和学生网络共同学习,有助于kd方法得到好的结果。即目标函数变为:
其中b为当前的step。
实验结果
我们在cifar-10、cifar-100、imagenet三个数据集上分别进行了实验。
下表是在cifar-10和cifar-100数据集上的结果,我们使用了vgg-small、resnet-20与resnet-32作为教师网络,同结构的ann作为学生网络。可以看到,使用了本方法得到的ann在分类准确率上相比原始的ann有大幅度的提升,并且能够超过同结构的cnn模型。表格中#mul表示网络中乘法操作的次数。#add表示加法操作次数,#xnor表示同或操作的次数。
下表展示了在imagenet数据集上的结果,我们使用resnet-18与resnet-50网络作为教师网络,同结构的ann作为学生网络。结果显示我们的方法得到的ann在分类准确率上相比同结构cnn基本相同或能够超越。
最后,我们展示了resnet-20,ann-20与通过本方法得到的pkkd ann-20模型在cifar-10与cifar-100数据集上的训练精度曲线与测试精度曲线。
图中的实线表示训练精度,虚线表示测试精度。在两个数据集中,cnn的训练和测试准确率都超过了原始的ann模型。这是因为在训练原始ann时,反向传播的梯度使用的是l2 norm来近似,因此梯度方向是不准确的。当使用本方法后,cnn的训练过程可以指导ann的训练,因此可以得到更好的结果。同时,知识蒸馏方法能够帮助学生网络防止过拟合,这也是我们的方法有最低的训练精度和最高的测试精度的原因。
推荐阅读
突破谷歌dropout专利|华为诺亚开源disout|多项ai任务超越dropout 华人团队首创协同进化压缩算法,cyclegan线上加速三倍以上!已开源
文章首发知乎,更多深度模型压缩相关的文章请关注深度学习压缩模型论文专栏。


华为荣耀V9开箱:荣耀V8和华为荣耀8的继承者
AI时代来临 群联推出可客制化企业级SSD解决方案FX系列
行波超声电动机驱动控制系统设计
特斯拉在2025年利润或将达到200亿美元
安耐美推出新版一体式360冷排水冷,大尺寸有大实力
加法网络再突破—NeurIPS 2020 Spotlight
Smart Eye和意法半导体带来高灵敏、低成本的单LED驾驶监控系统
万用表电压档故障
解答为什么要测量谐波
CES2020期间NOLO VR推出6DoF Cloud VR解决方案
Windows10 将开始正式支持WSL 2发行版
利用硬件加速器提高处理器的性能
浅谈智能马桶的市场竞争
哪些科技可以推进智慧医疗的发展
AI上色对比人工调色 结果令人难以置信
利用电容触控传感技术让智能手机变得更加智能
交通运输行业推进自动驾驶和新能源汽车的发展分析
爱立信已经开展了160多个5G试验项目其中近100个处于绝对领先的地位
芯动科技加入UCIe产业联盟 助力Chiplet标准化
虚拟现实技术将走向何方?