Hinton的那篇Capsule论文终于揭下了神秘的面纱

近日,hinton的那篇capsule论文终于揭下了神秘的面纱,也因为该篇论文,他被刊进了各大媒体的头版头条。
在论文中,capsule被hinton大神定义为这样一组神经元:其活动向量所表示的是特定实体类型的实例化参数。
他的实验表明,鉴别式训练的多层capsule系统,在mnist手写数据集上表现出目前最先进的性能,并且在识别高度重叠数字的效果要远好于cnn。
该论文无疑将是今年12月初nips大会的重头戏。
不过,对于这篇论文的预热,hinton大神可是早有准备。
一个月前,在多伦多接受媒体采访时,hinton大神断然宣称要放弃反向传播,让整个人工智能从头再造。不明就里的媒体们顿时蒙圈不少。
8月份的时候,hinton大神还用一场“卷积神经网络都有哪些问题?”的演讲来介绍他手中的capsule研究,他认为“cnn的特征提取层与次抽样层交叉存取,将相同类型的相邻特征检测器的输出汇集到一起”是大有问题的。
当时的演讲中,hinton大神可没少提cnn之父yann lecun的不同观点。毕竟,当前的cnn一味追求识别率,对于图像内容的“理解”帮助有限。
而要进一步推进人工智能,让它能像人脑一样理解图像内容、构建抽象逻辑,仅仅是认出像素的排序肯定是不够的,必须要找到方法来对其中的内容进行良好的表示……这就意味着新的方法和技术。
而当前的深度学习理论,自从hinton大神在2007年(先以受限玻尔兹曼机进行训练、再用有监督的反向传播算法进行调优)确立起来后,除了神经网络结构上的小修小改,很多进展都集中在梯度流上。
正如知乎大v“siy.z”在《浅析hinton最近提出的capsule计划》时所举的例子。 (https://zhuanlan.zhihu.com/p/29435406)
sigmoid会饱和,造成梯度消失。于是有了relu。
relu负半轴是死区,造成梯度变0。于是有了leakyrelu,prelu。
强调梯度和权值分布的稳定性,由此有了elu,以及较新的selu。
太深了,梯度传不下去,于是有了highway。
干脆连highway的参数都不要,直接变残差,于是有了resnet。
强行稳定参数的均值和方差,于是有了batchnorm。
在梯度流中增加噪声,于是有了 dropout。
rnn梯度不稳定,于是加几个通路和门控,于是有了lstm。
lstm简化一下,有了gru。
gan的js散度有问题,会导致梯度消失或无效,于是有了wgan。
wgan对梯度的clip有问题,于是有了wgan-gp。
而本质上的变革,特别是针对当前cnn所无力解决的动态视觉内容、三维视觉等难题……进行更为基础的研究,或许真有可能另辟蹊径。
这当然是苦力活,hinton大神亲自操刀的话,成功了会毁掉自己赖以成名的反向传播算法和深度学习理论,失败了则将重蹈爱因斯坦晚年“宇宙常数”的覆辙。
所以,李飞飞对他在这里的勇气大为赞赏:
如今capsule的论文刚刚出来,深度学习的各路大神并没有贸然对其下评论,深夜中的外媒亦尚未就此发稿,甚至就连技术圈内一向口水不断的hacker news,今天也是静悄悄地一片。
不过,可以肯定的一点是,一个月后的nips大会,capsule更进一步的效果必定会有所显现。
至于hinton此举对于深度学习和整个人工智能界的后续影响,包括yann lecun在内的各路大神恐怕都不敢冒下结论,咱们还是静等时间来验证hinton大神的苦心孤诣到底值不值得吧。
这正如hinton大神在接受吴恩达采访时所说的:
如果你的直觉很准,那你就应该坚持,最终必能有所成就;反过来你直觉不好,那坚不坚持也就无所谓了。反正你从直觉里也找不到坚持它们的理由。
当然,营长肯定是相信hinton大神的直觉的,更是期待人工智能能在当前的水平上更进一步。
尽管意义不同,hinton大神此举却让营长想到了同在古稀之年的开尔文勋爵,他1900年那场关于物理学“两朵乌云”的演讲可是“预言”得贼准:
“紫外灾难”让年近不惑的普朗克为量子力学开创了先河,“以太漂移”让刚刚毕业的爱因斯坦开始思考狭义相对论,经典物理学的大厦就此崩塌。
那么,人工智能上空所飘荡的到底是一朵“乌云”呢?还是一个新的时代?让我们拭目以待。


购买性价比高的LED强光手电筒,需要考虑哪些因素呢?
德赛西威:“融合型全自动泊车系统”
三星宣布量产第二代10nm级别1y-nm 8Gb DDR4颗粒,高频内存3600MHz起步
32位单片机RX671实现触控式按键、语音识别和云连接功能
监控系统点数的不同具体的连接方式
Hinton的那篇Capsule论文终于揭下了神秘的面纱
新能源电机绝缘系统关键参数-PDIV(一)
华为手机,雨中的禅定欢喜
芯片短缺为什么
谷歌详细解答华为禁止安装谷歌设备
石墨类碳负极材料具有哪些优点及其缺点呢
多待测设备测试架构的介绍
ES9023发烧级音频DAC声卡解码器资料
MS1656蓝牙芯片智慧停车场应用方案
树的递归结构和树的存储结构分析
小米MIUI9发布会在即:MIUI9开始内测,告别卡顿、死机,增强续航,首批适配机型只有小米6和红米Note4X
ASL芯片CS366TypeC转HDMI4K60HZ加HUB多口方案|CS5366带PD拓展方案原理图
WIFI蓝牙角逐智能家居,无线大战竞争激烈
64G的iPadmini6容量不够用:一招解决扩容难题
Zynq-7000系列可编程逻辑PL是什么?