You Only Look Once: Unified, Real-Time Object Detection

1. 来源

CVPR 2016

2. 作者信息

Joseph Redmon⇤, Santosh Divvala⇤†, Ross Girshick¶, Ali Farhadi⇤† University of Washington⇤, Allen Institute for AI†, Facebook AI Research¶ http://pjreddie.com/yolo/

3. 概要

本文提出了一种统一的目标检测模型，YOLO。模型中使用一个神经网络处理输入的图片，并预测得到bounding box和对应的类别概率，由于整个模型中使用了一个神经网络，整个模型可以进行端到端的优化。

模型的速度非常快，能够实时处理图片（45 fps），一个使用更小的神经网络的模型，Fast YOLO，能够达到155fps的处理速度

4. 介绍

R-CNN等基于region proposal的方法通常包含以下步骤：首先从图片中产生候选区域，然后对候选区域进行分类，最后对候选区域进行修正。这种复杂的流水线过程速度很慢，并且由于每个部分都是单独训练，因此很难进行优化。

而在本文提出的模型YOLO中，目标检测问题被看作一个统一的回归问题，直接从图像输入到bounding box以及对应的类别概率。

YOLO的过程非常简单，如下图所示

从图中可见，其过程主要有3个部分

将图片放缩为神经网络所需的大小
使用神经网络对图片进行处理，得到bounding box以及类别标签

通过NMS对bounding boxes进行处理，得到最终的输出

YOLO有以下的优点

YOLO的速度特别快。由于在测试阶段，只需要使用卷积网络对图片处理一次，因此，速度非常快
YOLO利用整个图片的信息来进行预测，相比之下，基于sliding window和region proposal的方法只使用了局部的信息，因此不容易将背景识别为物体。
YOLO能够学习得到物体的泛化表示。当使用自然中的图片进行训练，但是用艺术图片进行测试时，YOLO的效果显著好于DPM以及R-CNN

YOLO相对于其他实时的目标检测系统来说，准确率有很大的提升，但是相比于非实时的目标检测系统，准确率还有一定的差距