基于Universum支持向量机的手写体数字识别研究文献综述

 2022-03-14 20:02:06

1 研究背景

阿拉伯数字作为唯一被世界各国通用的符号,其在各行 各业的地位是无可取代的。随着科技的发展,越来越多的数 据信息需要被录入于计算机之中随后进行处理,通过人工识 别纸张上数字的方法由于效率低下已不适用于海量数据的 识别。 作为光学字符识别技术的一个分支,手写体数字识别主 要研究内容为如何利用计算机自动辨认手写在纸张上的阿 拉伯数字。其可分为脱机手写数字识别和联机手写数字识 别,前者无需特定的输入设备,只需将书写好的文字采集到 本地机器中,对该图像进行处理,因此占一定的本地空间, 识别速度快,但由于缺少笔划顺序等信息因此识别精度较 低;而后者则为对书写数字的实时识别,需要通过特定的输 入设备,其可记录笔划的顺序等信息。相比于前者,由于 获取的信息较多其识别精度较高,但识别速度慢。目前手写 体数字识别技术对各行各业发展的影响也越来越大。银行票 据、财务报表、邮政编码等都可以通过手写体数字识别进行 数字识别,从而提高效率,节省大量的人力、物力和财力。 同时,由于手写数字识别实现相对简单,其可作为其他复杂 问题、复杂算法的试金石。 虽然阿拉伯数字只有 0-9 共 10 个数字,且笔画相对简 单,但由于各国、各人的手写习惯的不同,以及数字之间的 差异性较小,导致手写数字识别的通用性不佳。除此之外, 阿拉伯数字常用于银行、财务等方面,因此对其识别的准确 性具有很高的要求。综上所述,如何准确、高效、低拒识率 地识别出手写体数字一直是研究领域内的热点问题之一。

2 国内外研究现状

手写体数字的识别是光学字符识别的一个分支,早 在 1929 年,Tausheck 就 利 用 光 学 模 板 匹 配 方 法 识 别 数 字,1995 年 Vapnik 等 人 建 立 了 支 持 向 量 机 (Support VectorMachines.SVM) 的知识体系,SVM 的出现为基于 模式识别的字符识别领域提供了新的工具 [1]。在国内,将 SVM 应用于手写数字识别领域并进行优化的研究也一直在 进行,2005 年杭州电子工业学院的蒙庚祥、方景龙在实验 中用基于支持向量机的 SMO 的改进算法解决了大训练样本 的问题得到了识别速度快、识别效率高的效果 [2]。同年长沙 理工大学计算机与通讯工程学的张鸽、陈书开用穿越次数特 征让识别率有所提高,并且比较了 SVM 和 bp 神经网络进 行手写体数字识别的速度,发现 SVM 可以解决 bp 神经网 络的局部极值问题 [3]。2006 年山东师范大学的吴琳琳为解 决找到适合多类分类方法和大规模数据集的训练算法设计了 SVM.HDR 软件系统,将手写数字的识别过程流程化,再选 择合适的核函数,实现了验证 SVM 算法的有效性和识误率 低的目标 [4]。由此可见,目前国内外针对 SVM 的手写数字 识别的研究内容主要集中于如何利用特征提取、优化 SVM 算法等方法,提高 SVM 识别的准确性以及高效性。

3 基于支持向量机的手写数字识别

3.1 支持向量机简介

支持向量机方法属于经典的有监督机器学习方法,它包 含了多种技术知识,如最大间隔超平面、Mercer 核、凸二 次规划和松弛变量等,可用于解决二分类问题。针对于样本 线性可分的情况,可采用间隔最大化法进行分类。具体内容 为,假设给定训练样本集中有 n 个样本,即: D xy xy x y y = {( 11 2 2 , , , , , 1, 1 ) ( )hellip;hellip; isin; minus; ( nn i )} { } 其中 i x 表示由 m 维特征构成的第 i 个样本, i y 则表示 第 i 个样本的分类结果。SVM 的基本思想为在已知的训练样 本集 D 的样本空间中找到一个超平面 0 T wx b = ,该超平 面可以将不同的样本分开,同时使得支持向量(即距离超平 面最近的训练样本)到超平面的距离最大化,具有上述特点 的超平面则被称为具有“最大间隔”的超平面。求该最大间 隔的超平面即找到满足 ( ) 1 T i i y wx b ge; 约束的 w 和 b,并使 得 2 w 最大。 当原始样本线性不可分时,则可采用合适的核函数将样 本特征空间映射到更高维度的样本特征空间中,使得样本在 更高维的特征空间内线性可分。SVM 的分类精度会受核函 基于 SVM 的手写数字识别 陈虹州 (杭州师范大学附属中学,浙江杭州,310030)

3.2 支持向量机优势

支持向量机拥有诸多优点,主要包括: (1)切分平面间隔最大化的基本思想使得支持向量机 避免了对数据规模,数据分布的依赖,因此对于小样本的机 器学习问题有较好的效果。 (2)SVM 将低维的特征维数空间转化为高维维数空间, 虽然看似计算更为复杂,但将分类任务的非线性问题转化 为线性问题。通过只由少数的支持向量所确定的核函数, 不仅解决了维数灾难的问题,同时使得样本维数与算法复 杂度解耦。 (3)传统方法会产生过拟合和局部最小等问题,而理 论上,SVM 优化方法得到的结果为全局最优解。 此外,SVM 在鲁棒性、学习能力、泛化能力方 面均较为优秀。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。