基于深度学习的手势识别算法研究文献综述

 2022-11-29 16:17:02

手是人类的主要操作工具。因此,它在空间中的位置、方向和清晰度对于许多潜在的应用是至关重要的,例如,物体切换机器人、从演示中学习、手语和手势识别,以及使用手作为人机交互的输入设备。因此,手势识别日趋重要。在计算机科学中,手势识别是通过数学算法来识别人类手势的一个议题。手势识别可以来自人的身体各部位的运动,但一般是指脸部和手的运动。用户可以使用简单的手势来控制或与设备交互,让计算机理解人类的行为。其核心技术为手势分割、手势分析以及手势识别。基于HOG、SWF等传统特征的手势识别方法识别准确率不高,而且很难识别图片中的多个手势目标。深度学习模型是一种复杂的、多层的人工神经网络结构。深度学习模型具有强大的非线性建模能力,使用通用的学习过程从数据中学习到特征。与传统的人工设计的特征相比,深度学习模型能够表达更高层次的、更加抽象的内部特征。深度学习中的深度卷积神经网络是一种有效的图片特征提取方法,因其对图像信息具有平移、旋转不变性,成为图像处理、目标识别领域热门方法。

本项目主要基于Christian Zimmermann等人的研究,使用其提供的手势分割网络和特征点识别网络,利用其特征点来对手势进行分类和识别。

1.1 国外研究现状

早期的大部分方法都是基于复杂的人工制作特征。Stamer和Pentl[1]首先利用隐马尔科夫模型(HMM)进行美国手语的相关研究;Elmezain[2]等利用HMM模型对手势的动态轨迹进行了识别;Sgouropoulos等人[3]将神经网络 方法和HMM方法结合使用,可提高动态手势的识别效果,并且该方法具有光照鲁棒性。Wan等人将尺度不变特征变换(SIFT)特征加以扩充,得到3D增强动作SIFT(EMoSIFT)[4]和3D稀疏动作SIFT(SMoSIFT)[5],并通过稀疏关键点混合特征(MFSK)[6]来进行手势识别。随着近来深度学习技术的蓬勃发展,利用深度神经网络实现手势识别受到了研究者的广泛关注,且相对于传统手工特征方法,在识别率上也取得了重大突破 。 Karpathy 等人[7]利用卷积神经网络(CNN)来实现手势行为识别 ;Simonyan和Zisserman[8]利用一个双流 CNN网络同时提取手势视频中的时 域和空域的特征;Tran等人[9]提出了 一个3DCNN模型——C3D模型,解决了基于视频的手势识别需要同时处理时域和空域的特征这一问题。JongShill Lee、YoungJoo Lee 等人用熵分析法从背景复杂的视频流中分割出手势区域并进行手势识别[10],使用链码的方法检测手势区域的轮廓,最后计算出从手势区域的质心到轮廓边界的距离。印度研究者Meenakshi Panwar[11]在视觉手势识别的基础上提出了一种基于结构特征的手势识别算法,通过背景去除、方向检测、拇指检测和手指数量检测,来最终识别手势Chenglong Yu[12]等人采用基于视觉的组合特征进行手势识别,将手的面积、周长、重心、面积比和长宽比等特征结合,使得识别率得以提 高。微软研发机构的微软研究院(Microsoft Research,MSR)与华盛顿大学合作,开发出一种可利用笔记本电脑内置麦克风和扬声器进行手势识别的技术;该项技术被称为Sound Wave,利用了多普勒效应识别接近计算机的任何动作和手势。

1. 2 国内手势识别研究现状

国内的手势识别研究主要集中在各大高校和研究院等。清华大学计算机科学与技术系祝远新等人提出了一种新的基于表观的手势识别技术[13-15]。提出一种基于运动分割的帧间图像运动估计方法,并指出了一条如何将运动、形状、颜色和纹理等信息统一起来进行手势识别的途径;且实现了对12种手势进行在线识别的实验系统,识别率超过 90 %。王凯[16]等人提出了基于AdaBoost算法和光流匹配的实时手势识别方案:只需连接计算机的摄像头读取二维手势视频片段便可对手势作出较为准确的识别。其中,采用 AdaBoost 算法遍历图像,完成静态手势的识别工作。而在动态手势的识别过程中,运用了光流法结合模板匹配的方法[17 ]。中国科学技术大学和哈尔滨工业大学的滕达,刘岩等人研究了基于“大小手”的徒手手势实时识别,将双手划分成大手和小手,双手重叠按照一只手处理。应用背景差分法将背景去除,利用文中的大小手特征提取算法检测出手势,最终利用动态时间进行手势识别,该系统对17个常用手势试验识别率可达 94. 1 %。北方交通大学的王延江等人提取手势轨迹中关键点的运动方向[18],将之与标准手势中所有可能的特征码进行匹配,从而实现识别于势轨迹。中科院软件所的王西颖等结合 HMM 与模糊神经网络提出了一种基于 HMM-FNN 模型的结构[19],能够识别出复杂背景下的动态手势。上海交通大学的刘江华[20]等过跟踪双手的运动识别的动态手势,采用光流法和稠合隐马尔科夫模型,所能达到的识别率为96.7%。张习文和王西颖[20]等利用一组工维手势模型来替代三维模型,其过程是先利用贝叶斯分类器对静态手势进行识别,然后动态跟踪图像中的手指和指尖。由于该方法结合了基于模型和表观方法的特点,因此大大地减少了计算量[21]。中科院自动化所的方亦凯提出一种快速的尺度空间特征检测方法,通过对于势图像中的Blob Ridge结构的检测,得到手掌与手指的结构描述,进而完成手势识别[22]

参考文献:

[1] STARNER T, PENTL A. Visual Recognition of American Sign Language Using Hidden Markov Models[J]. International Workshop on Automatic Faceamp;Gesture Recognition, 1995(2):189-194

[2] ELMEZAIN M, HAMADI A, MICHAELIS B. Hand Trajectory-Based Gesture Spotting and Recognition using HMM[C]//The 16th IEEE International Conference on Image Processing (ICIP). USA:IEEE,2009:35773580. DOI: 10.1109/ICIP.2009.5414322

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。