摘要

最新的物体检测网络依靠区域提议算法来假设物体的位置。像SPPnet^[7]和Fast R-CNN^[5]之类的进步已经减少了这些检测网络的运行时间，这就使计算区域提议成为瓶颈。本文中，我们介绍了一个区域提议网络(Region Proposal Network, RPN)，该区域提议网络与检测网络共享全图像卷积特征，从而让区域提议几乎不花计算时间。RPN是一种全卷积网络，可以同时预测每个位置的对象范围和对象得分。对RPN进行了端到端的训练，以生成高质量的区域提议框，Fast R-CNN使用这些提议框进行检测。通过简单的交替优化，可以训练RPN和Fast R-CNN共享卷积特征。对于非常深入的VGG-16模型^[19]，我们的检测系统在GPU上具有5fps的帧速率（包括所有步骤），同时在PASCAL VOC 2007上实现了最新的对象检测精度（mAP为73.2％）和2012年（70.4％的mAP），每个图片使用300个提议框。代码已公开。

1 引言

区域提议方法（例如[22]）和基于区域的卷积神经网络(Region-based Convolutional Neural Networks, R-CNN)^[6]的成功推动了对象检测的最新进展。基于区域的CNN在[6]中刚提出时在计算上消耗很大，所幸后来这个消耗通过提议框之间共享卷积[7,5]大大降低了。最近的Fast R-CNN[5]用非常深的网络[19]实现了近实时检测的速率，注意它忽略了生成区域提议框的时间。现在，提议框是最新检测系统中的计算瓶颈。

区域提议方法通常依赖于消耗小的特征和经济的获取方案。选择性搜索(Selective Search, SS)^[22]是最流行的方法之一，它根据设计好的低级特征贪婪地合并超像素。与高效的检测网络相比^[5]，选择性搜索的速度要慢一个数量级，在CPU应用中检测每张图像耗时2s。EdgeBoxes^[24]为提议框质量和生成速度之间提供了目前为止最佳的权衡，检测每张图像的耗时为0.2s。尽管如此，区域提议步骤仍然消耗与检测网络差不多的运行时间。

有人可能会注意到，基于R-CNN充分利用了GPU的优势，而研究中使用的区域提议方法则是在CPU上实现的，因此这种运行时间比较是不公平的。加速提议框计算时间的一种直接的方法是通过GPU运算实现它。这可能是一种有效的工程解决方案，但是这个方法会忽略后面的检测网络，因此会错过共享计算的重要机会。

在这篇文章中，我们改变了算法——用深度网络计算提议框——这可以得到一个简洁有效的解决方案，其中提议框几乎不会给检测网络的计算带来消耗。为此，我们引入了新的提议区域网络(RPN)，它与最先进的目标检测网络共享卷积层^[7,5]。通过在测试时共享卷积，计算提议的边际成本很小(例如，每幅图像10ms)。

我们观察到，基于区域的检测器(如Fast R-CNN)使用的卷积(conv)特征映射也可以用于生成区域提议。这些卷积特性之上,我们通过添加两个额外的卷积层来构建RPN:一个层把每个卷积映射位置编码为一个短的(例如256 - d)特征向量；第二个在每个卷积映射位置,输出这个位置上多种尺度和长宽比的k个区域建议的objectness得分和回归边界(k = 9是一个典型值)。

因此，我们的RPN是一种全卷积网络(Fully-convolutional Network, FCN)^[14]，可以针对生成检测提议框的任务进行端到端地训练。为了将RPNs与快速R-CNN^[5]目标检测网络统一起来，我们提出了一种简单的训练方案，该方案在保持提议框不变的情况下，在对提议区域任务进行微调和对目标检测进行微调之间交替进行。该方案收敛速度快，并产生一个统一的网络，具有卷积特性，在两个任务之间共享。

我们在PASCAL VOC检测基准^[4]上评估了我们的方法，其中，快速R-CNNs的RPN比快速R-CNNs结合选择性搜索的检测精度更好。同时，我们的方法在测试时几乎免除了SS的所有计算负担——提议框的有效运行时间只有10毫秒。使用[19]中网络非常深的深度模型，我们的检测方法在GPU上仍然有5fps的帧率(包括所有步骤)，因此在速度和精度上都是一个实用的对象检测系统(在PASCAL VOC 2007上有73.2%mAP，在2012年有70.4%mAP)。

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

以上是毕业论文文献综述，课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。

注册

找回密码

更快的区域深度卷积神经网络：通过区域提议网络实现实时目标检测文献综述

1 引言

您可能感兴趣的文章

登录

1 引言

您可能感兴趣的文章