这是我最近才看到的一篇论文,它提出了动态relu (dynamic relu, dy-relu),可以将全局上下文编码为超函数,并相应地调整分段线性激活函数。
与传统的relu相比,dy-relu的额外计算成本可以忽略不计,但表示能力明显增强,并且实现简单,所以可以非常简单的对我们现有的模型进行修改。
dynamic relu (dy-relu)
对于给定的输入向量(或张量)x,dy-relu被定义为具有可学习参数θ(x)的函数fθ(x)(x),该参数适应于输入x,它包括两个功能:
超函数θ(x):用于计算激活函数的参数。
激活函数fθ(x)(x):使用参数θ(x)生成所有通道的激活。
1、函数定义
设传统的或静态的relu为y = max(x, 0)。relu可以推广为每个通道c的参数分段线性函数。
其中coeffcients ( akc , bkc )是超函数(x)的输出,如下:
其中k是函数的个数,c是通道的个数。论文中k=2。
2、超函数θ(x)的实现
使用轻量级网络对超函数进行建模,这个超函数类似于senet中的se模块(稍后会介绍)。
输出有2kc个元素,对应于a和b的残差。2σ(x)-1用于对-1到1之间的残差进行归一化,其中σ(x)表示s型函数。最终输出计算为初始化和残差之和,如下所示:
其中λ是标量,这个公式也就是我们上面的图
3、与先前研究的关系
可以看到dy-relu的三种特殊情况相当于relu、leaky relu和prelu。
4、dy-relu的变体
dy-relu-a:激活函数是空间和通道共享的。
dy-relu-b:激活函数是空间共享和通道相关的。
dy-relu-c:激活的是空间和通道分开的。
结果展示1、消融研究
所有三种变化都比基线有所改善,但通道分开的dy-relu(变化b和c)明显优于通道共享的dy-relu(变化a)。
所以根据上面结果,使用dy-relu-b进行imagenet分类,使用dy-relu-c进行coco关键点检测。
2、imagenet分类
使用mobilenetv2 (×0.35和×1.0), 用不同的激活函数代替relu。所提出的方法明显优于所有先前的工作,包括具有更多计算成本的maxout。这表明dy-relu不仅具有更强的表示能力,而且计算效率高。
上图绘制了5万张验证图像在不同区块(从低到高)的dy-relu输入输出值。可以看到学习到的dy-relu在特征上是动态的,因为对于给定的输入x,激活值(y)在一个范围内(蓝点覆盖的范围)变化。
下图分析dy-relu中两段之间的夹角(即斜率差|a1c-a2c|)。激活函数在较高水平上具有较低的弯曲。
3、coco关键点估计
当使用mobilenetv3作为骨干时,删除senet模块,使用dy-relu替代relu和h-swish后,结果也有提高。
总结可以看到,只是使用dy-relu替换现有的激活函数,模型的表现明显优于基线模型。
室温超导材料:将改变我们所知道的世界
Luna收购光纤传感方案商OptaSense 具有里程碑意义
IC设计正面临着持续不断上涨的代工成本
保护备份数据免受勒索病毒攻击的方法
共享单车智能管控技术手段探讨
Dynamic ReLU:根据输入动态确定的ReLU
模拟电路网络课件 第二十六节:差分式放大电路
如何实现STM8L151G6U6超低功耗
CDMA2000 1X EV-DV有什么特点?
杠杆合约交易系统开发_永续合约系统开发
2019年新能源汽车补贴退坡政策焦点问题分析
大联大世平集团推出基于ON Semiconductor产品的小型工业电源供应器方案
苹果6.1英寸入门级iPhone高清渲染图:对比iPhone X
你知道0510色环电感封装尺寸如何测量吗gujing
三环集团《产品百科·陶瓷插芯》(第一期)
小米正式启动香港IPO路演 618京东大促荣耀线上销售完胜小米
星环科技推出湖仓一体解决方案满足个性化数据分析需求
不只卖芯片,英特尔还想攻网络TV
下一代internet路由器---太比特路由器的发展状况分析
哈工智能与现代重工合作建设工厂,计划年产2万台机器人