神经网络以其强大的非线性表达能力而获得人们的青睐,但是将网络层数加深的过程中却遇到了很多困难,随着批量正则化,relu 系列激活函数等手段的引入,在多层反向传播过程中产生的梯度消失和梯度爆炸问题也得到了很大程度的解决。然而即便如此,随着网络层数的增加导致的拟合能力退化现象依然存在,如下图所示
可以看到,训练误差和测试误差都随网络层数的增加而增加,可以排除过拟合造成的预测性能退化。所以这里存在一个逻辑上讲不通的问题,通常来说,我们认为神经网络可以学习出任意形状的函数,具体到这个问题上来,假如浅层网络可以获得一个不错的效果,那么理论上深层网络增加的额外层只需要学会恒等映射,即可获得与浅层网络相同的预测精度
但实际情况根本不是这么回事儿,那么问题出在哪儿了呢?我们一厢情愿的认为中间层能够学会恒等映射,但事与愿违,这一假设不成立,也就是说,具有很强的非线性拟合能力的传统神经元结构却连最简单的恒等映射都模拟不了,抓住这一要点后,新的优化方向便映入眼帘了,既然这种交叉连接的神经元无法实现恒等映射,那么再增加一路恒等映射的连接不就行了
这样一来,假如两层之间的恒等映射是最优解,就像之前提到的那种情况,那么只需要权重层,即图中的 weight layer,学会把所有的权重都设为 0 就行了,而这种学习任务是很简单的。
所以可以总结道,resnet 的提出是因为发现了普通的神经网络连接方式无法实现有效的恒等映射,于是额外增加了一路恒等连接层来辅助学习。体现在最终效果上就是说普通神经网络的连接方式更容易学习到残差,所以这种方式就被称为残差学习。
仪器总线性能——理解仪器控制中的竞争的总线技术
GreyOrange完成了工业机器人公司史上最大规模的一轮融资1.4亿美元
如何打牢基础,从实现端推进“中国制造2025”?
变频器串行通信接口
半导体二极管型号命名方法
深度解读对残差网络动机的理解
ATM LANE的概念,ATM局域网的优点
电器超龄服役的隐患到底有多大
水位监测系统施工方案
“刷脸”给生活提速
iphone8什么时候上市?国产iphone8已经发布,这个外观你怎么看?离真的iphone8还有多远?
三相异步电动机的两种接线方法
GalaxyFold修复工作已经进行到尾声,可能将于6月再次上市
Insight Medical联手Onkos共同探索开发AR和ARVIS
新型固态电池研发成功,其性能大大超过了锂离子电池
中国移动发布的5G OpenUPF白皮书助力5G赋能垂直行业迈出了重要一步
苏州维信获东山精密4000万美元资助,电路板业务迈向新阶
利用MCU和FPGA设计车载信息娱乐系统的系统架构与应用
鸿海集团MIH电动汽车平台即将交付
佛山照明与哈尔滨文旅集团合作将共同打造冰雪专用灯光系统及设计