- 文献综述(或调研报告):
手势识别主要分为两种方法:(1)基于传感器数据设备的手势识别方法;(2)基于计算机视觉研究技术的手势识别方法。近年来,更加侧重于基于计算机视觉 技术的手势识别方法,因为此方法不必过度依赖于其他硬件设备,在人机交互的应用中,用户体验更加的自然方便。
目标检测及物体识别的方法特别多,主要将其分为两个阶段:第一个阶段是基于人工提取特征和分类器结合的方法,第二个阶段是基于机器学习提取特征结合分类器的阶段。早期如Dalal[1]等人提出HOG算法。基于HOG算法提取图片中目标的特征,再结合SVM分类器实现行人的检测。Felzenszwalb[2]等人提出DPM算法实现目标检测,是一种混合型的多尺度的目标检测框架。此模型的优点是不需要目标的各个小部件信息,仅仅只是需要目标的整体信息,最后训练好的模型具有很高的精确度。
在手势检测方面,Lee[3]等人提出利用熵分析算法将手势从复杂背景的视频流中分割出来达到检测的目的,并且进行手势识别任务。但是此算法只能完成6中不同手势识别,手势的平均识别率在95%。Ong[4]等人利用Boosted算法进行手势检测。他主要的步骤是,首先对图像进行判断,既判断图像中是否有手存在,如若有手存在,再继续判断出手的不同种形态,通过这种先判断是否有手存在的方式,可以使得后续检测和识别率更高。
手势识别分为二维手势识别和三维手势识别,二维手势识别基本不含深度信息,停留在二维的层面上。这种技术不仅可以识别手型,还可以识别一些简单的二维手势动作,比如对着摄像头挥挥手。其代表公司是来自以色列的PointGrab,EyeSight和ExtremeReality。
二维手势识别拥有了动态的特征,可以追踪手势的运动,进而识别将手势和手部运动结合在一起的复杂动作。这样一来,我们就把手势识别的范围真正拓展到二维平面了。我们不仅可以通过手势来控制计算机播放/暂停,我们还可以实现前进/后退/向上翻页/向下滚动这些需求二维坐标变更信息的复杂操作了。
三维手势识别需要的输入是包含有深度的信息,可以识别各种手型、手势和动作。相比于前两种二维手势识别技术,三维手势识别不能再只使用单个普通摄像头,因为单个普通摄像头无法提供深度信息。要得到深度信息需要特别的硬件,目前世界上主要有3种硬件实现方式。加上新的先进的计算机视觉软件算法就可以实现三维手势识别了。
在手势识别研究中,研究者们利用先验知识(如基于肤色特征,Haar-like特征等)对手势图像进行分割得到一个二值图像[5],再对二值图像进行边缘曲率或者包络检测的计算,再完成手势的检测识别以及跟踪任务,Gorce[6]等人提出基于生成模型及单目摄像头对 3D 手势进行跟踪及识别的算法,首先对手进行 3D 建模,再通过着色模型、骨架自然度等实现手势的跟踪及识别。Pisharady[7]通过模拟大脑视觉皮层及视觉选择性注意规则再结合 gabor 滤波器及贝叶斯网络进行手势的分割及识别,在 NUS-II手势数据集识别率达到 94%。
近年来深度学习掀起一股热潮。深度卷积神经网络提取出图像中的浅层特征,再将浅层的特征经过一系列的非线性变化后得到图像的高层特征信息,之后再进行目标的识别和检测任务,CNN 是端到端的模型。大量的研究表明基于 CNN 算法在不同的目标识别和目标检测任务中都能够得到很好的结果。对于如同人体姿态估计、人体行为识别、人脸识别、人脸检测、视频分类等领域中,表现出非常好的效果。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。