"); //-->
每个特征点对应多个预定义宽高比的 anchor
模型学习的是:在某个 anchor 基础上做偏移回归
不再使用预定义 anchor
每个特征点直接回归 bbox(如 l, t, r, b)
不依赖 anchor 的形状
每个特征点都会预测一个候选框
多尺度特征图(P3 / P4 / P5)都会输出
这 9 个位置都可能成为正样本
都会回归出一个高质量框
同一个目标 → 多个高分框
推理阶段必须用 NMS 去重
一个 GT 可以匹配多个预测
多个位置都会学习这个目标
推理阶段会产生多个高分框
必须使用 NMS
一个分支使用 One-to-Many(保证精度与收敛稳定)
一个分支使用 One-to-One(学习唯一匹配)
只保留 One-to-One 分支
每个目标只输出一个框
自然不需要 NMS
固定数量 object queries(例如 100 个)
每个 query 输出一个 bbox
使用 Hungarian Matching 做全局一对一匹配
一个目标只会有一个预测
不需要 NMS
DETR 是 结构上避免重复
YOLOv10 是 训练策略上避免重复
Anchor-Based
One-to-Many
需要 NMS
Anchor-Free
仍然 One-to-Many
仍然需要 NMS
One-to-One
不需要 NMS
YOLOv10:密集检测 + One-to-One 分配
DETR:Query-Based 集合预测
允许 → 必须 NMS
不允许 → 不需要 NMS
*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。