摘 要
最新的物体检测网络依靠区域提议算法来假设物体的位置。像SPPnet[7]和Fast R-CNN[5]之类的进步已经减少了这些检测网络的运行时间,这就使计算区域提议成为瓶颈。本文中,我们介绍了一个区域提议网络(Region Proposal Network, RPN),该区域提议网络与检测网络共享全图像卷积特征,从而让区域提议几乎不花计算时间。RPN是一种全卷积网络,可以同时预测每个位置的对象范围和对象得分。对RPN进行了端到端的训练,以生成高质量的区域提议框,Fast R-CNN使用这些提议框进行检测。通过简单的交替优化,可以训练RPN和Fast R-CNN共享卷积特征。对于非常深入的VGG-16模型[19],我们的检测系统在GPU上具有5fps的帧速率(包括所有步骤),同时在PASCAL VOC 2007上实现了最新的对象检测精度(mAP为73.2%)和2012年(70.4%的mAP),每个图片使用300个提议框。代码已公开。
1 引言
区域提议方法(例如[22])和基于区域的卷积神经网络(Region-based Convolutional Neural Networks, R-CNN)[6]的成功推动了对象检测的最新进展。基于区域的CNN在[6]中刚提出时在计算上消耗很大,所幸后来这个消耗通过提议框之间共享卷积[7,5]大大降低了。最近的Fast R-CNN[5]用非常深的网络[19]实现了近实时检测的速率,注意它忽略了生成区域提议框的时间。现在,提议框是最新检测系统中的计算瓶颈。
区域提议方法通常依赖于消耗小的特征和经济的获取方案。选择性搜索(Selective Search, SS)[22]是最流行的方法之一,它根据设计好的低级特征贪婪地合并超像素。与高效的检测网络相比[5],选择性搜索的速度要慢一个数量级,在CPU应用中检测每张图像耗时2s。EdgeBoxes [24]为提议框质量和生成速度之间提供了目前为止最佳的权衡,检测每张图像的耗时为0.2s。尽管如此,区域提议步骤仍然消耗与检测网络差不多的运行时间。
有人可能会注意到,基于R-CNN充分利用了GPU的优势,而研究中使用的区域提议方法则是在CPU上实现的,因此这种运行时间比较是不公平的。加速提议框计算时间的一种直接的方法是通过GPU运算实现它。这可能是一种有效的工程解决方案,但是这个方法会忽略后面的检测网络,因此会错过共享计算的重要机会。
在这篇文章中,我们改变了算法——用深度网络计算提议框——这可以得到一个简洁有效的解决方案,其中提议框几乎不会给检测网络的计算带来消耗。为此,我们引入了新的提议区域网络(RPN),它与最先进的目标检测网络共享卷积层[7,5]。通过在测试时共享卷积,计算提议的边际成本很小(例如,每幅图像10ms)。
我们观察到,基于区域的检测器(如Fast R-CNN)使用的卷积(conv)特征映射也可以用于生成区域提议。这些卷积特性之上,我们通过添加两个额外的卷积层来构建RPN:一个层把每个卷积映射位置编码为一个短的(例如256 - d)特征向量;第二个在每个卷积映射位置,输出这个位置上多种尺度和长宽比的k个区域建议的objectness得分和回归边界(k = 9是一个典型值)。
因此,我们的RPN是一种全卷积网络(Fully-convolutional Network, FCN)[14],可以针对生成检测提议框的任务进行端到端地训练。为了将RPNs与快速R-CNN[5]目标检测网络统一起来,我们提出了一种简单的训练方案,该方案在保持提议框不变的情况下,在对提议区域任务进行微调和对目标检测进行微调之间交替进行。该方案收敛速度快,并产生一个统一的网络,具有卷积特性,在两个任务之间共享。
我们在PASCAL VOC检测基准[4]上评估了我们的方法,其中,快速R-CNNs的RPN比快速R-CNNs结合选择性搜索的检测精度更好。同时,我们的方法在测试时几乎免除了SS的所有计算负担——提议框的有效运行时间只有10毫秒。使用[19]中网络非常深的深度模型,我们的检测方法在GPU上仍然有5fps的帧率(包括所有步骤),因此在速度和精度上都是一个实用的对象检测系统(在PASCAL VOC 2007上有73.2%mAP,在2012年有70.4%mAP)。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。