继2015的yolo后,2016年作者对yolo升级到yolo2,另外一个版本yolo9000是基于wordtree跨数据集达到检测9000个分类,卷积层模型称为darknet-19,达到速度和效果的双提升,文章里充满了作者的自豪,也值得自豪;
作者正视了yolo的两个大问题:回归框不精准和召回不够;一般的解决思路都是把网络加深加宽,不过本文不屑,作者反而要通过优化网络学习在准确率不降的情况下提升精度和召回!
升级点
batch normalization:每个卷积层加了bn,正则都不要了,droupout也省了,过拟合也没了,效果还好了,+2%map;
high resolution classifier - 高分辨率分类:模型训练时经典做法都是先在imagenet上pre-train,然而imagenet上的图片是低分辨率小于256*256的,而要检测的图片是高分辨率448*448的,这样模型需要同时在高分辨的图片上做fine-tune和检测,所以作者提出了三步骤 1) 在imagenet低分辨率上pre-train;2) 在高分辨率数据集上fine-tune;3) 在高分辨率数据集上检测;使得模型更容易学习,+4%map
convolution with anchor boxer - 加anchor机制:yolo是通过最后的全连接层直接预估绝对坐标,而fasterrcnn是通过卷积层预估相对坐标,作者认为这样更容易学习,因此yolov2去掉了全连接层,在最后一层卷积层下采样后用anchor,yolo有7*7*2 = 98个框,而yolov2有超过1k的anchor,最终效果上虽然map略有下降3个千分点,但是召回提升7个百分点,值了!
dimension clusters - 维度聚类: anchor的尺寸faster rcnn里人工选定的,yolov2通过k-mean聚类的方法,将训练数据里gt的框进行聚类,注意这里不能直接用欧式距离,大框会比小框影响大,我们的目标是iou,因此距离为: d(box, centroid) = 1 iou(box, centroid);下图是结果,左图是k和iou的trand-off,右图是5个中心的框尺寸,明显看出和人工指定的差异很大;
direct location prediction - 直接预测位置:直接预测x,y会导致模型训练不稳定,本文预测如下tx,ty,tw,th,to,通过sigmolid归一化到(0,1),结合dimension clusters,+5%map
fine-grained freture - 细粒度特征:引入passthrough layer,将低维度特征传递给高维度,类似于resnet的shortcut,+1%map;
multi-scale training - 多尺度训练:这里的多尺度是图片的尺寸,多了迫使模型适应更大范围的尺寸,每隔一定的epoch就强制改变输入图片的尺寸;
效果
如下是在voc数据集上效率(每秒处理帧数)和效果(map)空间里不同算法的变现,其中yolov2为蓝色,有不同的trade-off,效率和效果都超过已有的方法;
如下是更多的实验结果:
如下是coco上的效果,看得出coco数据集还是很难的,小物体上yolo2依然是差一些;
yolo9000: better, faster, stronger
中兴通讯与陕西移动共同开启5G+赋能各垂直行业数字化转型
博世推出新款气压传感器BMP390,精确的室内定位可挽救数千人的生命
博世家电推出维他鲜动力多门冰箱,可避免设置不当引起的食物保存不良
双子猫智能音箱体验 孩子的良师益友
台式放大器电路解析
卷积神经网络 物体检测 YOLOv2
像素高就画质好吗?
变压器容量和功率
三星GearIconX2018评测 最近一年中推出的最好用的分体式耳机
柔性传感之水果冷害
iPhone12外形设计或更加方正 并可能成为苹果首款四摄手机
单结晶体管构成晶闸管触发电路
滴滴发布"群雁"智能出行开放平台 开放平台AI能力
林本坚宣判“干式”微影技术死刑,ASML下注崛起
在5G的支持下,企业内部互联设备的数量和种类都将激增
蓝光LED光引擎设计思考
澳柯玛-40℃深冷速冻 重新定义家用冰箱
创客火推出新款积木无人机 LiteBee Brix Ⅲ积木无人机
西门子入局!将在美国生产太阳能逆变器
日本UGS优肌诗美容仪:高端品质备受追捧