文献综述(或调研报告):
目前用于物体检测的检测器可分为基于区域的和不基于区域的两种类型。基于区域的检测器有R-CNN,fast R-CNN,faster R-CNN以及本选题所关注的R-FCN。不基于区域的检测器有SSD和YOLO。
1.基于区域的物体检测器。深度学习早期的物体检测,大都使用滑动窗口的方式进行窗口提取,这种方式本质是穷举法 R-CNN。后来加入了候选区域的提取算法,将R-CNN网络的骨干架构完善成四个步骤:选择性搜索(selective search)选出候选区域,然后将每一个候选框调整至固定的尺寸大小,送入CNN网络特征提取,然后进行分类与边界回归。然而这些候选框直接本身存在重合,在计算特征图这一阶段造成了相当大的计算重复和浪费。并且CNN中存在的完全连接层限制了输入的数据的大小,只能处理固定尺寸的图片,在对候选框调整尺寸的过程中很有可能造成精度的损失。在得到特征图和候选区域后,R-CNN独立进行分类和边界框的回归问题。由于需要分别存储特征向量来计算两个问题,空间资源被极大的占用,大量的中间结果需要存储。
Fast R-CNN[1](Girshick R.,2015)成功解决了这些问题。Fast R-CNN首先应用了SPP net(空间金字塔池化网络)[2](Lazebnik S et al.,2006)思想,SPP net用不同大小的块来提取特征图进行池化然后拼接成具有固定长度的特征向量。在 fast R-CNN中,将整张图输入CNN网络得到完全的特征图(feature map),然后找到对应的候选框的位置提取相应特征,基于SPP net方法,加入了一个ROI pooling层[3](He et al.,2014)来提取到固定长度的特征向量。这极大地简化了计算量提高了运行速度和计算的精度。在结构上,R-CNN的处理流程是先提出候选区域,然后CNN提取特征向量,送入SVM分类器,最后再做边界框的位置精修。而在Fast R-CNN中,Girshick巧妙的把边界框的回归放进了CNN网络内部,与候选框的分类问题合并成为了一个多任务模型[4](Girshick R et al.,2014)。对每一个ROI使用多任务损失函数进行分类和边界框回归的联合训练,整合了深度网络模型并提高了学习的精度。ROI池化层从特征图中抽取出特征向量后送入一系列全连接层(fc),在最后一个全连接层后分裂成两个并行输出层。一个用于产生K 1类(1代表背景)的softmax概率,另一个针对每个候选框输出四个实数值编码对应类别约束框的位置。这样的结构使两个任务能够共享计算的卷积特征图,并相互促进。
Fast R-CNN大大削减了检测网络的时间开销,但区域推荐的计算成了瓶颈。在此之前最受欢迎的区域推荐算法是选择性搜索[5]( Uijlings et al.,2013)。基于颜色、纹理、尺寸和空间交叠四个方面的相似度进行合并得出推荐区域,与检测网络相比,该算法慢了了一个数量级。2015年,Girshick R提出了faster R-CNN[6]算法。他在卷积层的特征图上,添加一些额外的卷积网络引入(region proposal networks)网络来进行区域推荐。RPN网络是一种全卷积的可以端到端训练的网络[7]( Long J et al.,2015)。RPN网络可以与fast R-CNN网络共享卷积得到的特征图,在卷积层之后和物体打分及边界框回归相并列进行。RPN的核心是对滑窗和anchor:用一个小网络在最后一个卷积层得到的特征图上滑动,对的每一个位置,[6]中考虑9种形状和面积不同的anchor候选窗口。然后由分类层(cls_score)输出每一个位置上,9个anchor属于k 1个类别的概率,窗口回归层(bbox_pred)输出每一个位置上,9个anchor对应窗口应该平移缩放的参数。得到W*H(特征图尺寸)*9个anchor,根据得分排序,将最高的一部分进行Non-Maximum Suppression。在训练中,Girshick R提出了4步交替训练方法,交替训练RPN和训练R-FCN网络,在两个网络间共享公有参数,交替更新私有参数从而达到共享计算的目的。
Fast R-CNN 和Faster R-CNN的缺点在于在ROI pooling层之后连接了完全连接层,运用计算成本很高的每区域子网络数百次,需要对每一个ROI区域进行运算。R-FCN[8](Dai et al.,2016)去掉了CNN中的完全连接层,使用全卷积结构,在整张图上几乎共享所有计算。目前最先进的图像分类网络,如残留网络(ResNets)[9]( He et al.,2016)和GoogLeNets被设计为完全卷积的。同理,自然想到使用完全卷积层在物体检测结构中建立共享的卷积子网络,使得RoI的子网络没有隐藏层。但是这个简单的想法在物体检测上取得了相当差的结果,与其图像分类的优秀性能项矛盾。Dai认为根本性的问题在于图像分类问题中的平移不变形和在物体检测中的平移敏感性之间的矛盾。完全卷积结构可以在图像分类上取得优秀结果也正是因为它具有平移不变性,但在物体检测任务中需要平移敏感性来描述候选框和真实标定有多好程度上的重叠。Dai根据[10]( J. Dai et al.,2016)提出了位置敏感分数图的概念,为每一个类别生成个位置敏感分数图来编码相对位置信息。个位置敏感分数图对应于K*K的空间网格,结合位置敏感的ROI池化,打破了平移不变性,并且在ROI池化层后的卷积层在不同区域评估是也将不再是平移不变的了。
2.不基于区域的物体检测器。YOLO[11]( Redmon J et al,2016)是不基于区域的物体检测器。它将物体检测问题看作是一个单一的回归问题,用单独网络结构来解决(以[12]Googlenet图像分类网络为主要架构)。这不同于R-CNN和fast R-CNN使用分离的selective search模块来提出ROI区域,也不同于faster R-CNN,后者虽然利用RPN网络来提出ROI区域,把RPN网络整合到了fast R-CNN网络内部,但在训练时两个网络还需交替进行来共享参数。由于YOLO把问题看做单一问题,在推断时,只需一次便可得到物体的位置和属于各类的置信概率,而不像其他方法需要分类和回归两个步骤,这提高了检测的速度,可以实时检测。由于输出层为全连接层,YOLO支持固定分辨率的输入图像。同时虽然每个格子输出B个边界框,但最后只选取IoU(交并比)最高测一个。当一个格子内有多个物体存在时,只会有一个被检出。
参考文献:
- Girshick R Fast R-CNN[J].2015: arXiv:1504.08083 [cs.CV]
- Lazebnik S,Schmid C and Ponce J. Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories.In CVPR,2006
- He K,Zhang X,Ren S,et al.Spatial pyramid pooling in deep convolutional networks for visual recognition.In ECVV,2014
- Girshick R,Donahue J,Darrell T et al.Rich feature hierarchies for accurate object detection and semantic segmentation in CVPR 2014
- Uijlings J.R,K.E.van de Sande,Gevers T,and A.W.Smeulders.Selective search for object recognition.In IJCV,2013
- Ren S, He K, Girshick R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis amp; Machine Intelligence, 2015: 1-13.
- Long J,Shelhamer E,and Darrel T.Fully convolutional networks for semantic segmatation. In IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2015
- Dai J, Li Y, He K, et al. R-FCN: Object Detecion via Region-based Fully Convolutional Networks[J]. 2016: 238-247.
- K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In CVPR, 2016.
- J. Dai, K. He, Y. Li, S. Ren, and J. Sun. Instance-sensitive fully convolutional networks. arXiv:1603.08678, 2016.
- Redmon J, Divvala S, Girshick R, Farhadi, A .You Only Look Once: Unified, Real-Time Object Detection.eprint arXiv:1506.02640 2016
- Szegedy C,Liu W,Jia Y,Sermanet P,Reed S,Anguelov D,Erhan D,Vanhoucke V and Rabinovich A.Going deeper with convolutions.CoRRR,abs/1409.4842,2014.2
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。