基于神经网络的手写体数字识别文献综述

 2022-03-14 20:33:14

  1. 研究背景

1943年,由麦卡洛克(W.S.McCilloch) 和数学家皮兹(W.Pitts)在《数学生物物理学公告》上发表论文《神经活动中内在思想的逻辑演算》(A Logical Calculus of the Ideas Immanent in Nervous Activity)。建立了神经网络和数学模型,称为MCP模型。人工神经网络的大门由此开启。计算机科学家罗森布拉特( Rosenblatt)在那之后提出了两层神经元组成的神经网络,称之为“感知器”(Perceptrons)。第一次将MCP用于机器学习分类。在该方法被证明为能够收敛时,理论与实践效果引起第一次神经网络的浪潮。但由于其本质上是一个线性模型,只能处理线性分类问题,却连简单的XOR问题都无法正确分类。因此,神经网络的研究陷入了近二十年的停滞时期。

1986年,杰弗里·辛顿(Geoffrey Hinton)发明了适用于多层感知器(MLP)的BP(Backpropagation)算法,并采用Sigmoid进行非线性映射,有效解决了非线性分类和学习的问题。该方法引起了神经网络的第二次热潮。但由于在后续研究中发现,BP算法存在梯度消失问题,并且随着支持向量机算法(SVM)等各种浅层机器学习模型的提出,进一步限制了神经网络在90年代末的发展。直到2006年,辛顿和他的学生Ruslan Salakhutdinov 在顶尖学术刊物《科学》上发表了一篇文章,该文章提出了深层网络训练中梯度消失问题的解决方案,无监督预训练对权值进行初始化加上有监督训练微调,之后relu激活函数的提出,都有效的解决了BP算法梯度消失的问题。

2012年,辛顿带领他的团队在ImageNet图像识别比赛中,使用AlexNet(基于DNN网络模型)击败了使用SVM算法的第二名,夺得了冠军,并证明了神经网络在计算机视觉领域中的巨大潜力,也使得人们开始关注并挖掘神经网络在图像识别领域的价值。随后的几年,通过ImageNet图像识别比赛,DL(Deep Learning深度学习)的网络结构,训练方法,GPU硬件的不断进步,促使其在其他领域也在不断的征服战场。例如谷歌(Google)旗下DeepMind公司开发的AlphaGo(基于深度学习)。

AlexNet的创新点在于,首次采用ReLU激活函数,极大增大收敛速度且从根本上解决了梯度消失问题。由于ReLU方法可以很好抑制梯度消失问题,AlexNet抛弃了“预训练加微调”的方法,完全采用有监督训练。也正因为如此,DL的主流学习方法也因此变为了纯粹的有监督学习。扩展了LeNet-5结构,添加Dropout层减小过拟合,LRN层增强泛化能力,减小过拟合。第一次使用GPU加速模型计算。

神经网络仍处于发展阶段,无论是理论还是实践都存在大量亟待解决的问题,但其在图像识别、语音识别、自动驾驶等领域的潜力仍是不可估量的。

  1. 研究的目的和意义

研究的目的:采用神经网络算法,主要使用Lenet神经网络,在Linux环境下,实现计算机对手写体字符的识别,识别精度达到百分之九十八以上。

研究的意义:文字的出现,打破了时空的限制,加快了文明的传播。即使随着计算机以及信息技术的高速发展,手写体字符也有着其不可替代的作用,例如身份识别、机器翻译、自动化办公等,所以使用计算机处理识别人类的文字信息也具有了重要的研究意义。本次项目识别的主要对象是手写体数字,因为它大量被运用于现实生活中,工厂生产中,技术研究中,所以研究识别手写体数字的技术具有了重要的现实意义。经过对其长久的研究发展,手写体数字识别不仅在应用上具有强大的发展潜力,在市场效益以及经济发展方面也会带来巨大的收益。人工神经网络是一种模仿生物神经网络而建立的数据处理模型,具有良好的自学习和自适应性等优点。区别于传统的逻辑性专家系统处理技术,它需要大量的数据来调整参数进行自学习,但得益于互联网技术的发展,一个良好的数据集变得唾手可得,例如MINIST手写体数字字符集,并且也体现出人工神经网络在并行处理上的优点。随着大数据技术的发展,良好的数据平台的建立,以及计算机的价格和性能随着摩尔定律的发展(计算机的性能以两年的频率翻一番,价格也更便宜),对人工神经网络的研究也具有长足的现实意义。

  1. 国内外研究现状

数据集基本都是使用的MINIST数据集,由美国国家标准与技术研究所( National Institute of Standards and Technology ,简写NIST)制作。它收集了250个不同人的手写数字(0-9),其中50%是高中生,50%来自人口普查局(the Census Bureau)的工作人员。MNIST数据集一共有7万张图片,其中6万张是训练集,1万张是测试集。每张图片是 28 times; 28 28\times 28 28times;28的 0 minus; 9 0-9 0minus;9的手写数字图片组成。每个图片是黑底白字的形式,黑底用0表示,白字用0-1之间的浮点数表示,越接近1,颜色越白。

由于此数据集具有简单易用易得的优点,基本上每个研究神经网络的人员都会使用它作为入门的案例或是研究的数据集,并且就我目前所了解的,现在的很多算法在测试集上的识别率最高都可达到99.6%,尤其是近几年来,成为研究热点的用于深度学习的卷积神经网络(CNN),其对于图像识别的精度几乎完胜以往传统的图像识别算法,尤其是在ImageNet挑战大赛上的出色表现以及在计算机视觉领域中实现的突破,所以国内外研究基本着眼于测试对比不同算法的识别精度以及通过调整CNN模型中的不同层的参数来追求高的识别准确率,并由此提出对于算法的改良建议。而对比的算法基本是BP算法以及深度卷积神经网络(CNN)。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。