基于小型局部特征模型的图像分类研究文献综述

 2023-08-10 09:21:48

文献综述(或调研报告):

神经网络是实现机器学习的重要方式,图像分类又是机器学习的经典任务。学界在这一领域提出了深度神经网络(DNN)[1]、卷积神经网络(CNN)[2]等基本网络,又在此基础上不断提升,提出了AlexNet[3]、GoogleNet[4]、VGG[5]等网络架构应用于图像分类。卷积神经网络(CNN)主要是模拟人的视觉神经系统提出的,它通过学习卷积核权重汇集局部特征,然后进行空间上的池化就能提取出图像的深层语义特征。每一个卷积层都在广泛的特征空间内汇集低层次的信息,在此基础上生成更高级的信息。

网络的深度对模型的性能至关重要,当增加网络层数后,网络可以进行更加复杂的特征模式的提取,所以当模型更深时理论上可以取得更好的结果。然而网络的深度提升不能通过层与层的简单堆叠来实现,由于臭名昭著的梯度消失问题,随着网络的层数更深,其性能趋于饱和,甚至开始迅速下降。有研究者应用了19层的深度卷积神经网络用于大规模图像分类,它使用了极小的3*3卷积滤波器来增加网络的深度[5]。可以证实VGG-16/19可以很好地推广到大多数图像分类任务,这一研究证明了视觉表示中深度的重要性。上述网络在ImageNet数据集上得到了较高的准确率。

为了解决梯度消失问题与深度CNN模型难训练的问题,同时为了进一步构建深层网络,有学者提出了深度残差网络(ResNet)[6], ResNet的核心思想是引入一个所谓的「恒等快捷连接」,直接跳过一个或多个层。ResNet不仅是靠网络深度取胜,还靠架构上的技巧——残差学习。ResNet网络参考了VGG-19网络,在其基础上进行了修改,并通过短路机制加入了残差单元,可以达到152层的深度。

康奈尔大学的研究者提出了另一种新架构密集卷积网络(DenseNet)[7],进一步利用快捷连接,将所有层直接连接在一起。在这种新型架构中,每层的输入由所有之前层的特征映射组成,其输出将传输给每个后续层。这些特征映射通过深度级联聚合。DenseNets具有如下优势:减轻了梯度消失问题,加强了特征传播,鼓励了特征重用,明显减少了参数数量。DenseNets可以自然地扩展到几百层,并且没有优化困难。

深度学习的研究者们都相信目前的深度卷积网络能够聚集全局信息,最终产生有用的高级信息,但是有学者的研究表明,限制网络只能从图像的局部获取信息后,由此产生的BagNets[8]在ImageNet数据集上的准确率不亚于传统的高性能神经网络。这表明深度神经网络(DNN)可能遵循着极为简单的分类策略——不考虑全局空间信息,不考虑空间顺序,基于小型局部特征,仅检查本地统计规律。此外,BagNets还在可解释性上有所突破,改进了困扰DNN已久的不透明决策问题。

尽管DNN在一些视觉任务上性能优于人类,它不透明的决策过程却限制了一些应用,尤其是在高风险情况下。之前的BagNets测试主要针对自然图像,它们有丰富的纹理和色彩信息。荷兰的学者利用BagNets对手绘草图的数据集进行分类,这样的数据集色彩有限且没有纹理信息,最终量化结果。实验证明BagNets能够很好地定位有较明显形状和边缘的对象部分,表现良好,超过了VGG网络,仅仅3%的水平落后于DenseNet和ResNet[9]

人们通常认为CNN通过学习物体的形状来识别对象,但有研究表明物体的纹理信息也很重要。研究者用ImageNet预训练ResNet,网络成功分类了一幅印度象的纹理类图像和一只猫的普通图像,但当二者结合为一幅具有印度象纹理的猫图像时,网络错误地将它识别为印度象。VGG-16,GooleNet,AlexNet,ResNet-50这些经典的CNN网络均在一定程度上表现出倾向于纹理而非形状,这与人类的识别过程形成了对比[10]

在网络参数方面,有学者系统地评估了imagenet深度卷积网络中架构上不同选择的影响[11]:非线性(ReLu、ELU、maxout、批处理规范化的兼容性),池化变量(随机,最大,平均,混合),网络宽度,分类器设计(卷积,全连接,SPP),图像预处理hellip;hellip;以及一些学习参数:学习率、批尺寸。这些参数的评估结果有利于网络构架的进一步优化调整。

本课题拟使用ImageNet与Pascal VOC两类图像数据集:

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。