基于谱减的语音增强算法研究文献综述

 2023-11-21 08:57:35

文献综述

本课题的现状及发展趋势:

语音增强就是对带噪语音进行处理,从噪声背景中提取、增强有用的语音信号,降低噪声干扰,以改善语音质量[1]。最早由StevenBoll提出的谱减法是一种发展较早且应用较为成熟的语音增强算法。谱减法结合其他算法产生了许多有效的语音增强方法,这些方法能在一定程度上解决谱减法残留噪声大的问题,有较好的语音增强效果[2]。传统语音增强算法中因为谱减法算法简单易于实现而得到广泛研究,谱减法的原理是将带噪语音幅度与估计的噪声幅度进行相减,并叠加带噪语音相位,进而重构增强语音谱[3]。该方法在低信噪比(6dB)下因为没有进行相位估计,会存在较大的估计误差,并且因为对噪声估计的不准确,会产生“音乐噪声”[4 ]。

经过几十年的发展,语音增强已经有许多成熟有效的算法,这些算法大致可分为基于谱减的语音增强方法、基于统计模型的语音增强方法、基于信号子空间的语音增强方法以及基于维纳滤波的语音增强方法[5]。

传统语音增强算法在平稳噪声及较高信噪时能取得较好的效果,然而,在非平稳噪声及低信噪比下增强效果由于语音失真和残留噪声的影响而不能令人满意[6]。为了减少语音失真和残留噪声对听觉效果的影响,基于人耳掩蔽效应的语音增强方法近年来得到了研究。人耳掩蔽效应是指语音信号能够掩蔽与其同时进入听觉系统的一部分能量较小的噪声信号,使其不为人耳所感知[4]。

最具代表性的算法是boll提出的谱减法,其思想简单直观、易于实现,但该方法假设在有声段噪声是固定的,且依赖话音激活检测技术,在非平稳噪声环境和低信噪比条件下,效果并不理想[6]。多带谱减法是将噪声频谱划分为互不重叠的频带,分别在不同频带采用不同的谱减参数进行增强处理。该算法效果要明显好于传统谱减法,但仍需要VAD过程[7]。基于非负矩阵分解的语音增强算法是通过训练构造语音和噪声的字典并将其组合成一个联合字典,利用非负矩阵分解更新带噪语音在联合字典下的投影系数,实现语音和噪声的分离[8]。然而,非负矩阵分解算法只是在频域进行字典学习,学习得到的字典中的原子通常只是一维信号,缺乏有效表征原始信号的结构特征,也没有考虑帧与帧之间的相关性[9]。利用CNMF算法分解语音信号,得到的时频字典能够更好地保留语音信号中的个人特征信息及帧间相关性。孙健等率先将该算法运用到语音转换中,提出一种基于卷积非负矩阵分解的语音转换方法,获得了较好的转换效果[10]。随后,黄建军等人将该算法运用到语音增强中,提出了一种时频学习单通道语音增强算法。虽然该算法取得了较好的增强效果,但是对语音信号中的一些时频特征描述仍不够完善[11]。

本课题的价值:

语音增强技术是数字语音信号处理的重要分支,已经广泛应用于无线电话,电话会议等领域。并成为许多语音编码和识别系统的预处理不分,通过增强处理可以大大改善原系统在含噪条件下的性能,提高系统的抗噪能力,研究前景十分广泛[12]。

实际环境中的噪声总会使语音识别和语音通信受到不同程度的影响,使语音识别和语音通信的质量下降,严重时甚至使得正常的语音被淹没在噪声中无法被识别[13]。语音增强就是改进语音质量,尽可能的消除带噪语音中的噪音成分,提高语音的可懂度[14]。谱减法是一种很常用的语音增强技术,其特点就是运算量较小[15]。容易实时计算,实践证明谱减法的语音增强效果很好,可以有效地去掉背景噪声。并且假设语音信号与噪声是相互独立的条件下,从带噪语音的功率谱中减去噪声功率谱[16]。得到较为纯净的语音频谱,实验结果表明这种方法的增强效果很好。可以大大地去除背景噪声。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。