yolo-v2
darknet,yolov2 中提出,取缔所有的全连接层
两种卷积 33(借鉴于 VGG,小卷积,感受视野大)和 11(省参数)
fast-rcnn 3 中不同尺度,每种尺度下有 3 种尺寸比例,共 9 种框;先验尺寸比列未必适合数据集。yolov2 对其改进,对真实框进行聚类提取先验框:
k-means 聚类,k=5. 欧式距离尺度敏感(大框欧式误差更大,小框更小),因此替换为下述距离,
为何要引入先验框 yolo-v2-anchor box
先验框未必都是正确的框,因此 MAP 提升不多,甚至略有下降;但是有先验框后,捕捉到的正确框会更全面,查全率 有上升
如何对先验框进行调整来预测位置
天才般的想法
yolo-v1 直接预测偏移量,这样中心点很容易飘,跨度大,甚至飘到图的外面去
yolo-v2 预测相对格子的偏移量,相对值在 0-1 之间,对应于 sigmoid 函数输出,这样中心点永远在一个格子内调整
多尺度
yolov2 没有全连接层了,全是卷积层,因此可以调整输入大小。在训练阶段调整尺寸,适应不同尺寸输入
yolo-v3
多尺度
前面的层感受野小,预测小目标;后面的层感受野大,预测大目标
三种尺度,每种尺度 3 种候选框
Scale 变化
图像金字塔:同一张图不同尺寸 resize
yolov1: CNN,单一尺度
特征融合
加入 残差连接--resnet
不加残差,更深的 VGG 效果反而更差
核心网络--darknet53(理解为 resnet 也可以)
V2 去掉了全连接
V3 去掉了池化;下采样通过卷积层的 stride 为 2 来实现。全部使用卷积层
先验框设计
依然选用了 V2 中的聚类。
大的先验框分配给大视野的 13*13
小的先验框分配给小视野的 52*52
下图蓝色部分,表示特征图下对应三个框
欢迎来到这里!
我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。
注册 关于