文献综述(或调研报告):
(1)人脸识别的前景与应用
随着人工智能的快速发展,全球范围内越来越看好人脸识别技术的应用。人脸识别是通过从静态图像或者动态视频中检测出的人脸图像与数据库中的人脸图像进行比对,找到与之匹配的人脸的过程[1]。目前基于机器学习的人脸识别方法已经取得了丰硕的成果,甚至超过了人眼的识别率。目前已经可以通过深度学习识别由人脸的位置、表情、年龄以及是否有遮盖物等因素类内变化和外界引起的类外变化。可以预见,深度学习是未来人脸识别的主要发展方向,在深度学习的加持下,人脸识别技术的应用将会越来越普遍。
(2)人脸检测技术
人脸检测技术业界常用的有三种,MTCNN[2]中提出了一个深度联级多任务框架,利用它们之间内在联系来提高人脸检测的性能。MTCNN提出的CNN由三个阶段组成。在第一个阶段,图片通过一个浅的CNN快速产生候选窗口。然后它通过一个更复杂的CNN进行优化,去掉大量的非面部窗口。最后用一个更加强大的CNN来优化结果并输出面部特征位置。三个阶段的详情如下:首先,给定一个图像,我们初始将它调整到不同比例,以构建一个图像金字塔。它是接下来三阶段级联框架的输入:第一阶段:我们实现一个完全卷积的网络,叫做提案网络(P-Net),用以获取候选窗口以及它们的边界框回归向量。然后我们用估计的边界框回归向量来校准候选边框向量。之后,我们采用非极大值抑制(NMS)来合并高度重叠的候选框。第二阶段:所有候选边框都被送到另一个CNN,叫做提取网络(R-Net),进一步拒绝大量假候选框,用边界框回归执行校准,并用NMS候选框合并。第三阶段:这个阶段跟第二阶段很相似,但是在这个阶段我们目标是更详细的描述面部。特别地,该网络将输出五个面部特征位置。
CascadeCNN[3]是对经典的Violajones方法的深度卷积网络实现,是一种检测速度较快的人脸检测方法。方法采用的是3阶级联。级联结构中有6个CNN,3个CNN用于人脸非人脸二分类,另外3个CNN用于人脸区域的边框校正。给定一幅图像,12-net密集扫描整幅图片,拒绝90%以上的窗口。剩余的窗口输入到12-calibration-net中调整大小和位置,以接近真实目标。接着输入到NMS中,消除高度重叠窗口。这三个网络用于矫正人脸检测框的边界,往往得分最高的边界框并非最佳结果,经过校准后其能更好的定位人脸,其矫正原理其实很简单,就是对原图做45次变换,然后每个变换后的边界框都有一个得分,对于得分高于某个设定的阈值时,将其累加进原边界,最后结果取平均,就是最佳边界框。
PyramidBox[4]是当前效果最好的人脸检测算法,它从三个方面提高对环境信息的利用。第一,它设计了新的环境 anchor 来监督用半监督方法学习到的高层级的环境特征,称为 PyramidAnchors。第二,它提出低层级特征金字塔网络来充分结合高层级环境语义特征和低层级面部特征,也让 PyramidBox 能够用单步预测所有尺度的面部。第三,它阐述了一个环境敏感的结构来提升预测网络的能力和最终输出的准确度。实验证明 PyramidBox 在常用的人脸检测基准上达到了顶尖的水平,尤其对于难于检测的人脸有极佳的效果。
(3)人脸识别技术
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。