首页 > 编程语言> 文章详细

目标检测算法的总结（R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD、FNP、ALEXnet、RetianNet、VGG Net-16）

2019-10-23 20:57:38 阅读：842 来源： 互联网

标签：RoI Faster ROI 特征检测 VGG 目标 CNN

目标检测解决的是计算机视觉任务的基本问题：即What objects are where？图像中有什么目标，在哪里？这意味着，我们不仅要用算法判断图片中是不是要检测的目标，还要在图片中标记出它的位置，用边框或红色方框把目标圈起来。如下图

目前存在的一些挑战在于：除了计算机视觉任务都存在的不同视角、不同光照条件以及类内差异等之外，还存在目标旋转和尺度变化(如小目标)，如何精确的目标定位，密集和遮挡条件下的目标检测，以及如何加快检测速度等。

下图是目标检测的发展历程：

以2014年为界，目标检测分为传统目标检测时期(区域选择,特征提取,分类)和基于深度学习的目标检测时期(目标分类和目标定位)

　　比较流行的算法可以分为两类:（two-stage和one-stage，前者是由粗到精的过程，而后者则一步到位。）

目前对于One-Stage算法的主要创新主要集中在如何设计CNN结构、如何构建网络目标以及如何设计损失函数上

　一类是基于Region Proposal的R-CNN系算法（R-CNN，Fast R-CNN, Faster R-CNN等），它们是two-stage的，需要先通过算法产生目标候选框，也就是目标位置，然后再对候选框做分类与回归。

　而另一类是Yolo，SSD这类one-stage算法，其仅仅使用一个卷积神经网络CNN直接预测不同目标的类别与位置。

　　比较：第一类方法是准确度高一些，但是速度慢，但是第二类算法是速度快，但是准确性要低一些。这可以在下图中看到。

一、基于候选区域的目标检测器

滑动窗口检测器

自从 AlexNet 获得 ILSVRC 2012 挑战赛冠军后，用 CNN 进行分类成为主流。一种用于目标检测的暴力方法是从左到右、从上到下滑动窗口，利用分类识别目标。为了在不同观察距离处检测不同的目标类型，我们使用不同大小和宽高比的窗口。

选择性搜索

　　我们不使用暴力方法，而是用候选区域方法（region proposal method）创建目标检测的感兴趣区域（ROI）。在选择性搜索（selective search，SS）中，我们首先将每个像素作为一组。然后，计算每一组的纹理，并将两个最接近的组结合起来。但是为了避免单个区域吞噬其他区域，我们首先对较小的组进行分组。我们继续合并区域，直到所有区域都结合在一起。

二、基于CNN的Two-stage目标检测器：

R-CNN（Regions with CNN features）

过程：

（1）输入一张图片，通过指定算法从图片中提取 2000 个类别独立的候选区域,使用选择性搜索（selective search）。

（2）对于每个候选区域利用卷积神经网络来获取一个特征向量,（每个proposal rescale到固定尺寸）。

（3）对于每个区域相应的特征向量，利用支持向量机SVM 进行分类（线性SVM分类器用于预测每个区域内目标的存在，并识别其类别），并通过一个bounding box regression调整目标包围框的大小.

贡献：主要分为两个方面：

（1）使用了卷积神经网络进行特征提取

（2）使用bounding box regression进行目标包围框的修正

问题： 1) 耗时的selective search，对一张图像，需要花费2s

2) 耗时的串行式CNN前向传播，对于每一个候选框，都需经过一个AlexNet提取特征，为所有的候选框提取特征大约花费47s

3) 三个模块（CNN特征提取、SVM分类和边框修正）是分别训练的，并且在训练的时候，对于存储空间的消耗很大

缺点：对大量重叠proposal的冗余特征计算(一张图像超过2000个框)导致检测速度极慢(使用GPU每张图像14秒)。

R-CNN 利用候选区域方法创建了约 2000 个 ROI。这些区域被转换为固定大小的图像，并分别馈送到卷积神经网络中（将原始图像根据ROI切割、reshape再送进NN学习）。该网络架构后面会跟几个全连接层，以实现目标分类并提炼边界框。

以下是 R-CNN 整个系统的流程图：

通过使用更少且更高质量的 ROI，R-CNN 要比滑动窗口方法更快速、更准确。

SPPNet（Spatial Pyramid Pooling Networks）

背景：R-CNN速度慢，且需要固定尺寸的输入（比如AlexNet的224x224）

贡献：引入了空间金字塔池层(Spatial Pyramid Pooling)，它使CNN能够生成固定长度的表示，而不需要重新调整图像/感兴趣区域的大小。

利用SPPNet进行目标检测时，只需要对整个图像进行一次计算得到特征图，就可以生成任意区域的定长表示来训练检测器，避免了卷积特征的重复计算。

SPPNet的速度是R-CNN的20多倍，并且没有牺牲任何检测精度(VOC07 mAP=59.2%)。

缺点

（1）训练仍然是多阶段的

（2）SPPNet只对其全连接层进行微调，而忽略了之前的所有层。

Fast R-CNN（RCNN和SPPNet的结合）

过程：

首先还是采用selective search提取2000个候选框RoI
使用一个卷积神经网络对全图进行特征提取
使用一个RoI Pooling Layer在全图特征上摘取每一个RoI对应的特征
分别经过为21和84维的全连接层（并列的，前者是分类输出，后者是回归输出） Fast R-CNN通过CNN直接获取整张图像的特征图，再使用RoI Pooling Layer在特征图上获取对应每个候选框的特征，避免了R-CNN中的对每个候选框串行进行卷积（耗时较长）。

RoI Pooling Layer

对于每个RoI而言，需要从共享卷积层获取的特征图上提取对应的特征，并且送入全连接层进行分类。

因此，RoI Pooling主要做了两件事，第一件是为每个RoI选取对应的特征，第二件是为了满足全连接层的输入需求，将每个RoI对应的特征的维度转化成某个定值。

RoI Pooling示意图如下所示：

如上图所示，对于每一个RoI，RoI Pooling Layer将其映射到特征图对应位置，获取对应特征。另外，由于每一个RoI的尺度各不相同，所以提取出来的特征向量region proposal维度也不尽相同，因此需要某种特殊的技术来做保证输入后续全连接层的特征向量维度相同。

ROI Pooling的提出便是为了解决这一问题的。其思路如下：

将region proposal划分为目标H×W大小的分块
对每一个分块中做MaxPooling（每个分块中含有多个网格，每个分块获取一个特征值）
将所有输出值组合起来便形成固定大小为H×W的feature map

贡献：

取代R-CNN的串行特征提取方式，直接采用一个CNN对全图提取特征(这也是为什么需要RoI Pooling的原因)。
除了selective search，其他部分都可以合在一起训练。

缺点：耗时的selective search还是依旧存在，速度较慢，可否替换为CNN

R-CNN与Faster R-CNN的比较：

R-CNN 需要非常多的候选区域以提升准确度，但其实有很多区域是彼此重叠的，因此 R-CNN 的训练和推断速度非常慢。如果我们有 2000 个候选区域，且每一个都需要独立地馈送到 CNN 中，那么对于不同的 ROI，我们需要重复提取 2000 次特征。（R-CNN很多卷积运算是重复的）

Fast R-CNN 使用特征提取器（CNN）先提取整个图像的特征，而不是从头开始对每个图像块提取多次。然后，我们可以将创建候选区域的方法直接应用到提取到的特征图上。例如，Fast R-CNN 选择了 VGG16 中的卷积层 conv5 输出的 Feture Map 来生成 ROI，这些关注区域随后会结合对应的特征图以裁剪为特征图块，并用于目标检测任务中。我们使用 ROI 池化将特征图块转换为固定的大小，并馈送到全连接层进行分类和定位。因为 Fast-RCNN 不会重复提取特征，因此它能显著地减少处理时间。

将候选区域直接应用于特征图，并使用 ROI 池化将其转化为固定大小的特征图块

以下是 Fast R-CNN 的流程图：

Fast R-CNN 最重要的一点就是包含特征提取器、分类器和边界框回归器在内的整个网络能通过多任务损失函数进行端到端的训练，这种多任务损失即结合了分类损失和定位损失的方法，大大提升了模型准确度。

ROI 池化

　　因为 Fast R-CNN 使用全连接层，所以我们应用 ROI 池化将不同大小的 ROI 转换为固定大小。

　　为简洁起见，我们先将 8×8 特征图转换为预定义的 2×2 大小。

下图左上角：特征图。
右上角：将 ROI（蓝色区域）与特征图重叠。
左下角：将 ROI 拆分为目标维度。例如，对于 2×2 目标，我们将 ROI 分割为 4 个大小相似或相等的部分。
右下角：找到每个部分的最大值，得到变换后的特征图。
输入特征图（左上），输出特征图（右下），ROI (右上，蓝色框)
按上述步骤得到一个 2×2 的特征图块，可以馈送至分类器和边界框回归器中。
Faster R-CNN
- - Faster R-CNN 取代selective search，直接通过一个Region Proposal Network (RPN)生成待检测区域，这么做，在生成RoI区域的时候，时间也就从2s缩减到了10ms。
  - 下图是Faster R-CNN整体结构。
由上图可知，Faster R-CNN由共享卷积层、RPN、RoI pooling以及分类和回归四部分组成：
1. 首先使用共享卷积层为全图提取特征feature maps
2. 将得到的feature maps送入RPN，RPN生成待检测框(指定RoI的位置),并对RoI的包围框进行第一次修正
3. RoI Pooling Layer根据RPN的输出在feature map上面选取每个RoI对应的特征，并将维度置为定值
4. 使用全连接层(FC Layer)对框进行分类，并且进行目标包围框的第二次修正。尤其注意的是，Faster R-CNN真正实现了端到端的训练(end-to-end training)。Faster R-CNN最大特色是使用了RPN取代了SS算法来获取RoI，以下对RPN进行分析
RPN

经典的检测方法生成检测框都非常耗时，如OpenCV adaboost使用滑动窗口+图像金字塔生成检测框；或如R-CNN使用SS(Selective Search)方法生成检测框。而Faster R-CNN则抛弃了传统的滑动窗口和SS方法，直接使用RPN生成检测框，这也是Faster R-CNN的巨大优势，能极大提升检测框的生成速度。
首先来看看RPN的工作原理：

上图展示了RPN网络的具体结构。可以看到RPN网络实际分为2条支线，上面一条支线通过softmax来分类anchors获得前景foreground和背景background（检测目标是foreground），下面一条支线用于计算anchors的边框偏移量，以获得精确的proposals。而最后的proposal层则负责综合foreground anchors和偏移量获取proposals，同时剔除太小和超出边界的proposals。其实整个网络到了Proposal Layer这里，就完成了相当于目标定位的功能。anchor：简单地说，RPN依靠一个在共享特征图上滑动的窗口，为每个位置生成9种预先设置好长宽比与面积的目标框(即anchor)。这9种初始anchor包含三种面积(128×128，256×256，512×512)，每种面积又包含三种长宽比(1:1，1:2，2:1)。示意图如下所示：

Faster R-CNN 使用更多的锚点。它部署 9 个锚点框：3 个不同宽高比的 3 个不同大小的锚点框。每一个位置使用 9 个锚点，每个位置会生成 2×9 个 objectness 分数和 4×9 个坐标。
由于共享特征图的大小约为40×60，所以RPN生成的初始anchor的总数约为20000个(40×60×9)。其实RPN最终就是在原图尺度上，设置了密密麻麻的候选anchor。进而去判断anchor到底是前景还是背景，意思就是判断这个anchor到底有没有覆盖目标，以及为属于前景的anchor进行第一次坐标修正。

判断前景或背景：对于所有的anchors，首先需要判断anchor是否为前景。对于第一个问题，RPN的做法是使用SoftmaxLoss直接训练，在训练的时候排除掉了超越图像边界的anchor；边框修正：如图绿色表示的是飞机的实际框标签(ground truth)，红色的表示的其中一个候选区域(foreground anchor)，即被分类器识别为飞机的区域，但是由于红色区域定位不准确，这张图相当于没有正确检测出飞机，所以我们希望采用一种方法对红色的框进行微调，使得候选区域和实际框更加接近：

对于目标框一般使用四维向量来表示(x,y,w,h) 。(x,y,w,h) 分别表示目标框的中心点坐标、宽、高，我们使用AA 表示原始的foreground anchor，使用GG 表示目标的ground truth，我们的目标是寻找一种关系，使得输入原始的Anchor AA 经过映射到一个和真实框GG 更接近的回归窗口G′G′ ，即：
给定：
寻找一种变换F ，使得
那么如何去计算F 呢？这里我们可以通过平移和缩放实现
平移：
缩放：
上面公式中，我们需要学习四个参数，分别是

其中
表示的两个框中心距离的偏移量
当输入的anchor A与G相差较小时，可以认为这种变换是一种线性变换，那么就可以用线性回归来建模对目标框进行微调（注意，只有当anchors A和G比较接近时，才能使用线性回归模型，否则就是复杂的非线性问题了）。接下来就是如何通过线性回归获得

线性回归就是给定输入的特征向量X ，学习一组参数W，使得线性回归的输出WX和真实值Y 的差很小。对于该问题，输入X是特征图，我们使用ϕ 表示，同时训练时还需要A到G变换的真实参数值：

输出是

那么目标函数可以表示为：

其中ϕ(A) 是对应anchor的特征图组成的特征向量，ww 是需要学习的参数，d(A) 是得到预测值(表示x,y,w,h，也就是每一个变换对应一个上述目标函数)，为了让预测值和真实值差距最小，代价函数如下：

函数优化目标为：

需要说明，只有在G和A比较接近时，才可近似认为上述线性变换成立，下面对于原文中，A与G之间的平移参数和尺度因子为：

在得到每一个候选区域anchor A的修正参数之后，我们就可以计算出精确的anchor，然后按照物体的区域得分从大到小对得到的anchor排序，然后提出一些宽或者高很小的anchor(获取其它过滤条件)，再经过非极大值抑制抑制，取前Top-N的anchors，然后作为proposals(候选框)输出，送入到RoI Pooling层。那么，RPN怎么实现呢？这个问题通过RPN的本质很好求解，RPN的本质是一个树状结构，树干是一个3×3的卷积层，树枝是两个1×1的卷积层，第一个1×1的卷积层解决了前后景的输出，第二个1×1的卷积层解决了边框修正的输出。
分类和定位

Faster R-CNN中的RoI Pooling Layer与 Fast R-CNN中原理一样。在RoI Pooling Layer之后，就是Faster R-CNN的分类器和RoI边框修正训练。分类器主要是分这个提取的RoI具体是什么类别(人，车，马等)，一共C+1类(包含一类背景)。RoI边框修正和RPN中的anchor边框修正原理一样，同样也是SmoothL1 Loss，值得注意的是，RoI边框修正也是对于非背景的RoI进行修正，对于类别标签为背景的RoI，则不进行RoI边框修正的参数训练。对于分类器和RoI边框修正的训练，可以损失函数描述如下：

上式中u>=1表示RoI边框修正是对于非背景的RoI而言的，实验中，上式的λ取1。
在训练分类器和RoI边框修正时，步骤如下所示：
1) 首先通过RPN生成约20000个anchor(40×60×9)。
2) 对20000个anchor进行第一次边框修正，得到修订边框后的proposal。
3) 对超过图像边界的proposal的边进行clip，使得该proposal不超过图像范围。
4) 忽略掉长或者宽太小的proposal。
5) 将所有proposal按照前景分数从高到低排序，选取前12000个proposal。
6) 使用阈值为0.7的NMS算法排除掉重叠的proposal。
7) 针对上一步剩下的proposal,选取前2000个proposal进行分类和第二次边框修正。
总的来说，Faster R-CNN的loss分两大块，第一大块是训练RPN的loss(包含一个SoftmaxLoss和SmoothL1Loss)，第二大块是训练Faster R-CNN中分类器的loss(包含一个SoftmaxLoss和SmoothL1Loss)
Faster R-CNN的总的loss函数描述如下：
贡献

Region Proposal Network (RPN)，几乎没有消耗的生成proposal

从R-CNN到Faster RCNN，一个目标检测系统的大部分独立模块，如proposal生成、特征提取、边界框回归等，都逐渐集成到一个统一的端到端学习框架中。
Faster R-CNN 采用与 Fast R-CNN 相同的设计，只是它用内部深层网络代替了候选区域方法。新的候选区域网络（RPN）在生成 ROI 时效率更高，并且以每幅图像 10 毫秒的速度运行。
性能比较
　　如下图所示，Faster R-CNN 的速度要快得多。
基于区域的全卷积神经网络（R-FCN）
R-FCN&&Light-head RCNN

解决Faster RCNN的计算冗余
假设我们只有一个特征图用来检测右眼。那么我们可以使用它定位人脸吗？应该可以。因为右眼应该在人脸图像的左上角，所以我们可以利用这一点定位整个人脸。

　　如果我们还有其他用来检测左眼、鼻子或嘴巴的特征图，那么我们可以将检测结果结合起来，更好地定位人脸。

　　现在我们回顾一下所有问题。在 Faster R-CNN 中，检测器使用了多个全连接层进行预测。如果有 2000 个 ROI，那么成本非常高。

　　R-FCN 通过减少每个 ROI 所需的工作量实现加速（去掉了全连接层）。上面基于区域的特征图与 ROI 是独立的，可以在每个 ROI 之外单独计算。剩下的工作就比较简单了，因此 R-FCN 的速度比 Faster R-CNN 快。

　　现在我们来看一下 5 × 5 的特征图 M，内部包含一个蓝色方块。我们将方块平均分成 3 × 3 个区域。现在，我们在 M 中创建了一个新的特征图，来检测方块的左上角（TL）。这个新的特征图如下图（右）所示。只有黄色的网格单元 [2, 2] 处于激活状态。

在左侧创建一个新的特征图，用于检测目标的左上角

　　我们将方块分成 9 个部分，由此创建了 9 个特征图，每个用来检测对应的目标区域。这些特征图叫作位置敏感得分图（position-sensitive score map），因为每个图检测目标的子区域（计算其得分）。

生成 9 个得分图

　　下图中红色虚线矩形是建议的 ROI。我们将其分割成 3 × 3 个区域，并询问每个区域包含目标对应部分的概率是多少。例如，左上角 ROI 区域包含左眼的概率。我们将结果存储成 3 × 3 vote 数组，如下图（右）所示。例如，vote_array[0][0] 包含左上角区域是否包含目标对应部分的得分。

将 ROI 应用到特征图上，输出一个 3 x 3 数组

　　将得分图(Feature Map)和 ROI 映射到 vote 数组的过程叫作位置敏感 ROI 池化（position-sensitive ROI-pool）。该过程与前面讨论过的 ROI 池化非常接近。

将 ROI 的一部分叠加到对应的得分图上，计算 V[i][j]

　　在计算出位置敏感 ROI 池化的所有值后，类别得分是其所有元素得分的平均值。

ROI 池化

　　假如我们有 C 个类别要检测。我们将其扩展为 C + 1 个类别，这样就为背景（非目标）增加了一个新的类别。每个类别有 3 × 3 个得分图，因此一共有 (C+1) × 3 × 3 个得分图。使用每个类别的得分图可以预测出该类别的类别得分。然后我们对这些得分应用 softmax 函数，计算出每个类别的概率。

　　以下是数据流图，在我们的案例中，k=3。

二、单次目标检测器

　　第二部分，我们将对单次目标检测器（包括 SSD、YOLO、YOLOv2、YOLOv3）进行综述。我们将分析 FPN 以理解多尺度特征图如何提高准确率，特别是小目标的检测，其在单次检测器中的检测效果通常很差。然后我们将分析 Focal loss 和 RetinaNet，看看它们是如何解决训练过程中的类别不平衡问题的。

　　Faster R-CNN 中，在分类器之后有一个专用的候选区域网络。

Faster R-CNN 工作流

　　基于区域的检测器是很准确的，但需要付出代价。Faster R-CNN 在 PASCAL VOC 2007 测试集上每秒处理 7 帧的图像（7 FPS）。和 R-FCN 类似，研究者通过减少每个 ROI 的工作量来精简流程。
```
　　作为替代，我们是否需要一个分离的候选区域步骤？我们可以直接在一个步骤内得到边界框和类别吗？
```
```
　　让我们再看一下滑动窗口检测器。我们可以通过在特征图上滑动窗口来检测目标。对于不同的目标类型，我们使用不同的窗口类型。以前的滑动窗口方法的致命错误在于使用窗口作为最终的边界框，这就需要非常多的形状来覆盖大部分目标。更有效的方法是将窗口当做初始猜想，这样我们就得到了从当前滑动窗口同时预测类别和边界框的检测器。
```
　　单次检测器通常需要在准确率和实时处理速度之间进行权衡。它们在检测太近距离或太小的目标时容易出现问题。在下图中，左下角有 9 个圣诞老人，但某个单次检测器只检测出了 5 个。
SSD (Single Shot MultiBox Detector)
贡献

与之前检测器的主要区别在于，SSD在网络的不同层检测不同尺度的对象，而后者仅在其顶层进行检测。
　　SSD 是使用 VGG19 网络作为特征提取器（和 Faster R-CNN 中使用的 CNN 一样）的单次检测器。我们在该网络之后添加自定义卷积层（蓝色），并使用卷积核（绿色）执行预测。

同时对类别和位置执行单次预测

　　然而，卷积层降低了空间维度和分辨率。因此上述模型仅可以检测较大的目标。为了解决该问题，我们从多个特征图上执行独立的目标检测。采用多尺度特征图独立检测。

使用多尺度特征图用于检测

　　以下是特征图图示。

　　SSD 使用卷积网络中较深的层来检测目标。如果我们按接近真实的比例重绘上图，我们会发现图像的空间分辨率已经被显著降低，且可能已无法定位在低分辨率中难以检测的小目标。如果出现了这样的问题，我们需要增加输入图像的分辨率。

YOLO（You Only Look Once）
以上目标检测模型都是two-stage算法，针对于two-stage目标检测算法普遍存在的运算速度慢的缺点，Yolo创造性的提出了one-stage，也就是将物体分类和物体定位在一个步骤中完成。Yolo直接在输出层回归bounding box的位置和bounding box所属类别，从而实现one-stage。通过这种方式，Yolo可实现45帧每秒的运算速度，完全能满足实时性要求（达到24帧每秒，人眼就认为是连续的）。整个系统如下图所示。
- 主要分为三个部分：卷积层，目标检测层，NMS筛选层
  
  卷积层
  
  采用Google inceptionV1网络，对应到上图中的第一个阶段，共20层。这一层主要是进行特征提取，从而提高模型泛化能力。但作者对inceptionV1进行了改造，他没有使用inception module结构，而是用一个1x1的卷积，并联一个3x3的卷积来替代。（可以认为只使用了inception module中的一个分支，应该是为了简化网络结构）
  
  目标检测层
  
  先经过4个卷积层和2个全连接层，最后生成7x7x30的输出。先经过4个卷积层的目的是为了提高模型泛化能力。Yolo将一副448x448的原图分割成了7x7个网格，然后每个单元格负责去检测那些中心点落在该格子内的目标，如下图所示，可以看到狗这个目标的中心落在左下角一个单元格内，那么该单元格负责预测这个狗。每个单元格会预测个边界框（bounding box）以及边界框的置信度（confidence score）。所谓置信度其实包含两个方面，一是这个边界框含有目标的可能性大小，二是这个边界框的准确度。前者记为，当该边界框是背景时（即不包含目标），此时。而当该边界框包含目标时，。边界框的准确度可以用预测框与实际框（ground truth）的IOU（intersection over union，交并比）来表征，记为。因此置信度可以定义为。很多人可能将Yolo的置信度看成边界框是否含有目标的概率，但是其实它是两个因子的乘积，预测框的准确度也反映在里面。边界框的大小与位置可以用4个值来表征：
  
  （x,y,w,h）其中是边界框的中心坐标，而和h是边界框的宽与高。还有一点要注意，中心坐标的预测值是相对于每个单元格左上角坐标点的偏移值，并且单位是相对于单元格大小的，单元格的坐标定义如图6所示。而边界框的和h预测值是相对于整个图片的宽与高的比例，这样理论上4个元素的大小应该在范围。这样，每个边界框的预测值实际上包含5个元素：，其中前4个表征边界框的大小与位置，而最后一个值是置信度。
  1. bounding box坐标: 如上图，7x7网格内的每个grid（红色框），对应两个大小形状不同的bounding box（黄色框）。每个box的位置坐标为（x,y,w,h), x和y表示box中心点坐标，w和h表示box宽度和高度。通过与训练数据集上标定的物体真实坐标（Gx,Gy,Gw,Gh)进行对比训练，可以计算出初始bounding box平移和伸缩得到最终位置的模型。
  2. bounding box置信度confidence：这个置信度只是为了表达box内有无物体的概率，并不表达box内物体是什么。
  其中前一项表示有无人工标记的物体落入了网格内，如果有则为1，否则为0。第二项代表bounding box和真实标记的box之间的重合度。它等于两个box面积交集，除以面积并集。值越大则box越接近真实位置。每个网格还需要预测它属于20分类中每一个类别的概率。分类信息是针对每个网格的，而不是bounding box。故只需要20个，而不是40个。而confidence则是针对bounding box的，它只表示box内是否有物体，而不需要预测物体是20分类中的哪一个，故只需要2个参数。虽然分类信息和confidence都是概率，但表达含义完全不同。
  
  NMS筛选层
  
  筛选层是为了在多个结果中（多个bounding box）筛选出最合适的几个，这个方法和faster R-CNN 中基本相同。都是先过滤掉score低于阈值的box，对剩下的box进行NMS非极大值抑制，去除掉重叠度比较高的box（NMS具体算法可以回顾上面faster R-CNN小节）。这样就得到了最终的最合适的几个box和他们的类别。
  
  5.4 Yolo损失函数
  
  yolo的损失函数包含三部分，位置误差，confidence误差，分类误差。具体公式如下
  
  Yolo算法开创了one-stage检测的先河，它将物体分类和物体检测网络合二为一，都在全连接层完成。故它大大降低了目标检测的耗时，提高了实时性。但它的缺点也十分明显
  1. 每个网格只对应两个bounding box，当物体的长宽比不常见（也就是训练数据集覆盖不到时），效果很差。
  2. 原始图片只划分为7x7的网格，当两个物体靠的很近时，效果很差
  3. 最终每个网格只对应一个类别，容易出现漏检（物体没有被识别到）。
  4. 对于图片中比较小的物体，效果很差。这其实是所有目标检测算法的通病。
最大的特点就是速度快

完全摒弃了之前proposal+refine的思路，对整张图片应用单个神经网络该网络将图像分割成多个区域，同时预测每个区域的边界框和置信度。

缺点

相比two-stage检测器，定位精度差，尤其是对于小目标，随后的v2、v3版本及SSD都在尝试解决这个问题
　　然而，它并没有使用多尺度特征图来做独立的检测。相反，它将特征图部分平滑化，并将其和另一个较低分辨率的特征图拼接。例如，YOLO 将一个 28 × 28 × 512 的层重塑为 14 × 14 × 2048，然后将它和 14 × 14 ×1024 的特征图拼接。之后，YOLO 在新的 14 × 14 × 3072 层上应用卷积核进行预测。

　　YOLO（v2）做出了很多实现上的改进，将 mAP 值从第一次发布时的 63.4 提高到了 78.6。YOLO9000 可以检测 9000 种不同类别的目标。

图源：https://arxiv.org/pdf/1612.08242.pdf

　　以下是 YOLO 论文中不同检测器的 mAP 和 FPS 对比。YOLOv2 可以处理不同分辨率的输入图像。低分辨率的图像可以得到更高的 FPS，但 mAP 值更低。

　　YOLOv3 使用了更加复杂的骨干网络来提取特征。DarkNet-53 主要由 3 × 3 和 1× 1 的卷积核以及类似 ResNet 中的跳过连接构成。相比 ResNet-152，DarkNet 有更低的 BFLOP（十亿次浮点数运算），但能以 2 倍的速度得到相同的分类准确率。

　　YOLOv3 还添加了特征金字塔，以更好地检测小目标。以下是不同检测器的准确率和速度的权衡。
RetinaNet

背景

单阶段检测器效果比两阶段检测器差，本文认为主要问题在于单阶段检测器训练时正负样本的极度不平衡。

贡献

提出Focal Loss，通过对标准交叉熵损失的重构，使检测器在训练过程中更加关注难分类的样本，解决正负样本不平衡问题。
特征金字塔网络（FPN）
背景

在FPN之前的大部分检测模型，都是使用单层Top Layer进行检测（当然也有SSD）

虽然CNN较深层的特征有利于分类，但不利于对象的定位。

贡献

为此，在FPN中构建了一种具有横向连接的自顶向下的结构，用于在所有尺度上获取高层语义。由于CNN通过前向传播自然形成了一个特征金字塔，所以FPN在检测具有多种尺度的目标时显示出了很大的进步。
检测不同尺度的目标很有挑战性，尤其是小目标的检测。特征金字塔网络（FPN）是一种旨在提高准确率和速度的特征提取器。它取代了检测器（如 Faster R-CNN）中的特征提取器，并生成更高质量的特征图金字塔。

FPN 结合 Fast R-CNN 或 Faster R-CNN

　　在 FPN 中，我们生成了一个特征图的金字塔。用 RPN（详见上文）来生成 ROI。基于 ROI 的大小，我们选择最合适尺寸的特征图层来提取特征块。

推断过程中的非极大值抑制

　　检测器对于同一个目标会做出重复的检测。我们利用非极大值抑制来移除置信度低的重复检测。将预测按照置信度从高到低排列。如果任何预测和当前预测的类别相同并且两者 IoU 大于 0.5，我们就把它从这个序列中剔除。

标签：RoI,Faster,ROI,特征,检测,VGG,目标,CNN
来源： https://www.cnblogs.com/81816ly/p/11726493.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

目标检测算法的总结（R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD、FNP、ALEXnet、RetianNet、VGG Net-16）

一、基于候选区域的目标检测器

滑动窗口检测器

二、基于CNN的Two-stage目标检测器：

R-CNN（Regions with CNN features）

SPPNet（Spatial Pyramid Pooling Networks）

Fast R-CNN（RCNN和SPPNet的结合）

RoI Pooling Layer

Faster R-CNN

RPN

分类和定位

贡献

R-FCN&&Light-head RCNN

二、单次目标检测器

SSD (Single Shot MultiBox Detector)

YOLO（You Only Look Once）

卷积层

目标检测层

NMS筛选层

5.4 Yolo损失函数

RetinaNet

特征金字塔网络（FPN）

FPN 结合 Fast R-CNN 或 Faster R-CNN

推断过程中的非极大值抑制