文 献 综 述
一、摘要
对灰度图像彩色化,可以捕捉到更多的信息。图像着色作为一种计算机辅助技术,在影视处理、生物医学应用、电子显微镜和考古学等方面有着广泛的应用前景,因此研究图像着色算法具有非常重要的意义。本课题利用卷积神经网络方法,建立图像着色的数学模型,通过大量的彩色化神经网络训练及优化,实现快速精准地自动化图像着色。
关键词:图像处理、卷积神经网络、激活函数、颜色空间、评价指标。
二、引言
在多数场景中,彩色图像比灰度图像具有更丰富的信息,现有的彩色化方法大致可以分为基于参考图像的颜色迁移方法[1-3],基于着色线条的颜色传播方法[4-6],以及基于卷积神经网络的深度学习彩色化网络模型三种方法[7,8]。前两种算法因本身特点有限性,其适应性和可大规模运用能力不佳[9]。第三类算法中,早期的基于实例图像参考法及类比法大规模适应性不佳,对设备要求极高。随着机器学习及图像计算设备(GPU等)性能的提升,基于深度学习的灰度图像着色算法性能优异,脱颖而出。该类方法利用神经网络,搭建不同的网络架构,利用大规模数据集进行训练,通过卷积操作对图像的内容和特征进行提取及分析,寻找灰度图像到彩色图像之间的映射关系,从而训练出相应的模型,实现着色[10,11]。
Lecun等[12]在1998年首次提出使用CNN对手写数字进行识别,从此开启了深度学习进行图像识别的篇章。Hinton.G.E等[13]在2006年提出深度网络和深度学习概念,提出基于深度学习的图像识别系统。通过实验证明,多层神经网络可以学习复杂特征,而且通过多层神经网络学习到的特征更具有代表性,而且使用逐层训练的方式解决了传统神经网络中在训练数据集时收敛困难的问题。自此之后深度学习成为了图像处理学术界的宠儿,学者们并尝试用此类思想来解决其他的一些实际问题。在2012年Krizhevsky.A等[14]创建了新的深度学习网络AlexNet,AlexNet使用的是8层的网络结构,并且创造性地使用了特殊的平滑层,使得网络的训练效果很好,并在ILSVRC-2012竞赛中刷新了识别准确率的记录。以此往后,越来越多的学者把精力投入到深度学习的研究中,使得图像识别比赛的准确率记录不断被刷新。Simonyan.K等[15]提出VGG网络,增加了网络的层次,深化了网络的结构,其中16层即VGG-16的网络结构受到了广泛的使用。Srivastava.PK等[16]提出Highway网络,创新性地提出了捷径连接,使得梯度下降不再是按网络层次顺序进行,梯度下降可以跨越一些层次,成为了创建更深层次的网络的理论基础。Szegedy在2014年创造性地设计了inception[17]网络结构,他用稀疏连接将全连接与卷积都进行替换,这样网络既能保持结构的稀疏性,又能使得密集矩阵的高计算性能得到充分的发挥。Girshick.R等人在2014年和2015年提出目标检测方法R-CNN[18],Fast-RCNN[19],此种方法成为了近些年来深度学习对图像识别网络设计的模板。Ren等人在Fast-RCNN基础上进行了改进,提出了Faster-RCNN[20],此方法对检测网络的运行时间进行了进一步的缩减,他们创造性的提出了在Fast-RCNN中加入区域建议网络(region proposal network,RPN)的思想,RPN的核心思想是使用CNN卷积神经网络直接产生建议区域(Region Proposal)而不是使用传统的选择性搜索产生建议区域的方法,从而使得全图的卷积特征能在整个检测网络中共享使用,使用上述方法大大减少了生产建议区域的时间Redmon J[21]等提出了You Only Look Once(YOLO)算法,使用网格划分,粗略定位目标,缩小目标的范围,可以进行实时的目标检测。2016年出现了多种基于卷积神经网络的全自动彩色化方法,Iizuka等提出了结合图像全局和局部先验进行端对端学习来同时进行自动彩色化和分类的方法[22]。近两年我国国内成梓锐在前人的基础上提出了基于残缺神经网络的图像着色算法[23],张娜采用基于密集神经网络的灰度图像着色方法,均得到了令人满意的着色效果[10]。
三、使用工具
激活函数:在CNN中除了输入层神经元外,所有的神经元都可以拥有激活函数作为神经元的传递函数来传递信息。CNN通过使用激活函数的方式对网络层中各个神经元提取出特征进行选择,此种方法避免了线性选择表达能力不足的问题,在设计CNN时我们通常使用饱和非线性函数(例如Sigmoid、Tanh函数)和不饱和非线性函数(RELU、Leaky RELU函数)作为激活函数[9]。
卷积神经网络:卷积神经网络主要由输入层、卷积层、池化层、全连接层和输出层构成,如图1所示。卷积层主要使用指定数量和指定感受野大小的卷积核对输入图像或上一层的输出特征进行卷积操作,计算整个卷积核和输入图像或特征图的相应位置的内积,并加上一个偏置项来提取相关图像特征图,再将提取的特征图输入至非线性激活函数上得到激活后的特征图并作为卷积层的输出[24]。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。