算法创新分为三种方式
第一种:面目一新的创新,比如yolov1、faster-rcnn、centernet等,开创出新的算法领域,不过这种也是最难的。
第二种:守正出奇的创新,比如将图像金字塔改进为特征金字塔。
第三种:各种先进算法集成的创新,比如不同领域发表的最新论文的tricks,集成到自己的算法中,却发现有出乎意料的改进。
对象检测网络的通用架构:
1)backbone -形成图像特征。
2)neck:对图像特征进行混合和组合,生成特征金字塔
3)head:对图像特征进行预测,应用锚定框,生成带有类概率、对象得分和边界框的最终输出向量。
【yolov5网络结构图】
可视化结构图:
不同网络的宽度:
v5x: 367mb,v5l: 192mb,v5m: 84mb,v5s: 27mb,yolov4: 245 mb
四种yolov5结构在不同阶段的卷积核的数量都是不一样的,因此直接影响卷积后特征图的第三维度
yolov5s第一个focus结构中:最后卷积操作时,卷积核的数量是32个,特征图的大小变成304×304×32。
而yolov5m:卷积操作使用了48个卷积核,特征图变成304×304×48。
…后面卷积下采样操作也是同样的原理
不同网络的深度:
四种网络结构中每个csp结构的深度都是不同的
csp1结构主要应用于backbone中:
yolov5s的csp1:使用了1个残差组件,csp1_1。
yolov5m:使用了2个残差组件,csp1_2。
yolov5l,使用了3个残差组件,
yolov5x,使用了4个残差组件。
主要的不同点:
(1)输入端:mosaic数据增强、自适应锚框计算、自适应图片缩放
(2)backbone:focus结构,csp结构
(3)neck:fpn+pan结构
(4)prediction:giou_loss
【输入端】
①数据增强:
mosaic数据增强
②自适应锚定框auto learning bounding box anchors
网络在初始锚框的基础上 基于训练数据 输出预测框,因此初始锚框也是比较重要的一部分。见配置文件*.yaml, yolov5预设了coco数据集640×640图像大小的锚定框的尺寸:
每次训练时,自适应的计算不同训练集中的最佳锚框值。如果觉得计算的锚框效果不是很好,也可以在代码中将自动计算锚框功能关闭。具体操作为train.py中下面一行代码,设置成false
③自适应图片缩放
在常用的目标检测算法中,一般将原始图片统一缩放到一个标准尺寸,再送入检测网络中。yolo算法中常用416416,608608等尺寸。因为填充的比较多,会存在信息冗余,所以yolov5对原始图像自适应的添加最少的黑边。
【backbone】
①focus结构
以yolov5s的结构为例,原始608x608x3的图像输入focus结构,采用切片操作,先变成304x304x12的特征图,再经过一次32个卷积核的卷积操作,最终变成304x304x32的特征图。
②csp结构
作者认为推理计算过高的问题是由于网络优化中的梯度信息重复致,cspnet(cross stage paritial network, 跨阶段局部网络),主要从网络结构设计的角度解决推理中计算量很大的问题。
yolov5中设计了两种csp结构,以yolov5s网络为例,csp1_x结构应用于backbone主干网络,另一种csp2_x结构则应用于neck中。
【neck】
fpn+pan,网络特征融合的能力更强
pan(路径聚合网络)借鉴了图像分割领域panet的创新点
该作者认为在对象检测中,特征融合层的性能非常重要,根据谷歌大脑的研究,[bifpn]才是特征融合层的最佳选择。谁能整合这项技术,很有可能取得性能大幅超越。
【输出端】
①activation function
在 yolo v5中,中间/隐藏层使用了 leaky relu 激活函数,最后的检测层使用了 sigmoid 形激活函数
②nms非极大值抑制
在同样的参数情况下,将nms中iou修改成diou_nms。对于一些遮挡重叠的目标,会有一些改进。
③optimization function
yolo v5的作者为我们提供了两个优化函数adam和sgd,并都预设了与之匹配的训练超参数。默认为sgd。
④cost function
loss = objectness score+class probability score+ bounding box regression score
yolo v5使用 giou loss作为bounding box的损失。
yolo v5使用二进制交叉熵和 logits 损失函数计算类概率和目标得分的损失。同时我们也可以使用fl _ gamma参数来激活focal loss计算损失函数。
TDK推出一系列适合工业以太网 (SPE)应用的电感器
在OFC 2019上展示了用于大规模5G连接的光网络技术
Gowild公布“AI虚拟生命”大战略 推新一代智能音箱
Lidar BA方案在后端部分的差异对比
LTC2978 凌力尔特推出电源监视器和控制器
Yolov5理论学习笔记
优恩RJ45网络端口-100M- 以太网口静电放电及雷击浪涌防护 II
人工智能落地之路 从概念验证到产品
今日看点丨消息称华为海思正开发麒麟 8 系和 9 系新平台,后者采用 N+2 工艺;蔚来将与蜂巢能源组建合资公
什么是CC (Common Criteria)
数字音频D类耳机放大器芯片NJU8721及其应用
福特锐际Escape:SYNC+智行信息娱乐系统和智行驾驶辅助系统
在AI大模型时代如何重估算力
世界上最快的相机,可观察飞秒激光移动
中国赶追日韩,计划3年建15家半导体工厂
Vayyar新款传感器上市,这款技术绝对让你意想不到
基于SOPC在FPGA平台的时标嵌入式语音信号录取系统的设计
简谈Altera和Xilinx的FPGA区别
基于MEMS技术的可调控超材料的发展
关于USB Type-C和PD充电口在汽车上的应用的分析和介绍