几种常见乐器及自然界的声音与语音特征对比分析文献综述

 2022-11-26 13:08:46

  1. 文献综述

本次毕业设计课题的核心是对比分析几种常见乐器及自然界的声音与人类语音在频谱、倒谱及语谱图上的不同特点,具体采取的方法是用傅里叶变换对WAV格式声音信号进行频谱、倒谱和语谱图分析,并用倒谱峰值提取基音周期,采用VC 编程实现。本文献综述主要针对课题中涉及到的几个核心概念进行简要介绍。

  1. 语音信号的语谱图:语音信号的时域分析和频域分析是语音分析的两种重要方法。这两种单独分析方法均有局限性:时域分析对语音信号的频率特性没有直观的了解;而频域分析出的特征中又没有语音信号随时间的变化关系。语音信号是时变信号,所以其频谱也是随时间变化的。但是由于语音信号随时间变化是很缓慢的,因而在一段短时间内(如10~30ms之间,即所谓的一帧之内)可以认为其频谱是固定不变的,这种频谱又称为短时谱。短时谱只能反映语音信号的静态频率特性,不能反映语音信号的动态频率特性。因此,人们致力于研究语音的时频分析特性,把和时序相关的傅里叶显示图形称为语谱图(Sonogram或者Spectrogram)。语谱图是一种三维频谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定频率成分在给定时刻的强弱用相应点的灰度或者色调的浓淡来表示。用语谱图分析语音又称为语谱分析。语谱中显示了大量与语音的语句特性有关的信息,它综合了频谱图和时域波形的特点,明显地显示出语音频谱随时间的变化情况,或者说是一种动态的频谱。
  2. 语音信号的时域分析:语音信号的时域分析就是分析和提取语音信号的时域参数。进行语音分析时,最先接触到并且也是最直观的是它的时域波形。语音信号本身就是时域信号,因而时域分析是最早使用,也是最广泛的一种分析方法,这种方法直接利用语音信号的时域波形。时域分析通常用于最基本的参数分析及应用,如语音的分割、预处理、大分类等。这种分析方法的特点是:(1)表示语音信号比较直观、物理意义明确;(2)实现起来比较简单,运算量少;(3)可以得到语音的一些重要的参数;(4)只使用示波器等通用设备,使用较为简单等。语音信号的时域参数有短时能量、短时过零率、短时自相关函数和短时平均幅度差函数等,这是语音信号的一组最基本的短时参数,在各种语音信号数字处理技术中都要应用。在计算这些参数时使用的一般是方窗或汉明窗。
  3. 语音信号的频域分析:语音信号的频域分析就是分析语音信号的频域特征。从广义上来讲,语音信号的频域分析包括信号的频谱、功率谱、倒频谱、频谱包络分析等,而常用的分析方法有带通滤波器组法、傅里叶变换法、线性预测法等几种。对于语音信号的傅里叶分析法,因为语音波是一个非平稳过程,因此适用于周期、瞬变或平稳随机信号的标准傅里叶变换不能用来直接表示语音信号,而应该用短时傅里叶变换对语音信号的频谱进行分析,相应的频谱称为“短时谱”。
  4. 语音信号的倒谱分析:语音信号的倒谱分析就是求取语音倒谱特征参数的过程,它可以通过同态处理来实现。同态信号处理也成为同态滤波,它实现了将卷积关系变换为求和关系的分离处理,即解卷。对语音信号进行解卷,可将语音信号的声门激励信息及声道响应信息分离开来,从而求得声道共振特征和基音周期,用于语音编码、合成、识别等。对语音信号进行解卷,求取倒谱特征参数的方法有两种,一种是线性预测分析,另一种是同态分析处理。
  5. 语音信号的线性预测分析:1947年维纳首次提出了线性预测(Linear Prediction)这一术语,而板仓等人在1967年首先将线性预测技术应用到了语音分析和合成中。线性预测是一种很重要的技术,几乎普遍地应用于语音信号处理的各个方面。

线性预测分析的基本思想是:由于语音样点之间存在相关性,所以可以用过去的样点值来预测现在或未来的样点值,即一个语音的抽样能够用于过去若干个语音抽样或它们的线性组合来逼近。通过使实际语音抽样和线性预测抽样之间的误差在某个准则下达到最小值来决定唯一的一组预测系数。而这组预测系数就反映了语音信号的特性,可以作为语音信号特征参数用于语音识别、语音合成等。

将线性预测应用于语音信号处理,不仅是因为它的预测功能,而且更重要的是因为它能提供一个非常好的声道模型及模型参数估计方法。线性预测的基本原理和语音信号数字模型密切相关。

  1. 语音信号的小波分析:把复杂函数分解成一系列简单基函数的表示,是调和分析的中心课题,这无论是在理论上还是实际应用中都具有重要意义。傅里叶分析是最早的调和分析工具,也是调和分析发展的一个重要分支。它把函数在正交三角函数系下展开,从而将复杂的函数分解为一系列基函数的线性叠加形式的思想,深受工程技术人员的欢迎。小波分析是在傅里叶分析的基础上发展起来的另外一个有效的调和分析工具,与傅里叶分析相比,它是时间和频率的局域变换,因而能有效地从信号中提取局部信息。小波分析使用小波基函数的伸缩和平移对函数或信号进行多尺度细化分析,解决了傅里叶分析不能解决的许多困难问题。
  2. 基音周期估计:基音是指发浊音时声带振动引起的周期性,而基音周期是指声带振动频率的倒数。基音周期是语音信号最重要的参数之一,它描述了语音激励源的一个重要特征。基音周期信息在多个领域上有着广泛的应用,如:语音识别、说话人识别、语音分析与综合以及低码率语音编码、发音系统疾病诊断、听觉残障者的语言指导等。因为汉语是一种有调语言,基音的变化模式称为声调,它携带着非常重要的具有辨意作用的信息,有区别意义的功能,所以,基音的提取和估计对汉语更是一个十分重要的问题。

尽管基音检测有许多困难,但因为它的重要性,基音的提取一直是一个研究的课题,为此提出了各种各样的基音检测算法,如自相关函数(ACF)法、峰值提取算法(PPA)、平均幅度差函数(AMDF)法、并行处理技术、倒谱法、SIFT、谱图发、小波法等等。

  1. WAV文件:WAV文件是在PC机平台上很常见的、最经典的多媒体音频文件,最早于1991年8月出现在Windows3.1操作系统上,文件扩展名为WAV,是WaveForm的简写,也称为波形文件,可直接存储声音波形,还原的波形曲线十分逼真。WAV文件格式简称WAV格式是一种存储声音波形的数字音频格式,是由微软公司和IBM联合设计的,经过了多次修订,可用于Windows,Macintosh,Linux等多种操作系统。WAV支持多种音频数字、取样频率和声道,标准格式化的WAV文件和CD格式一样,也是44.1kHz的取样频率,16位量化数字,因此声音文件质量和CD相差无几。WAV的特点如下:真实记录自然声波形,基本无数据压缩,数据量大。

一般来说,由WAV文件还原而成的声音的音质取决于声音卡采样样本的尺寸,采样频率越高,音质就越好,但开销就越大,WAV文件也就越大。

  1. 参考文献
  2. 韩纪庆,张磊,郑铁然.语音信号处理(第二版)[M].北京:清华大学出版社,2013
  3. 赵力.语音信号处理(第3版)[M].北京:机械工业出版社,2016
  4. 胡航.现代语音信号处理[M]. 北京:电子工业出版社,2014
  5. 张雄伟,陈亮,杨吉斌.现代语音处理技术及应用[M].北京:机械工业出版社,2009
  6. 张雪英.数字语音处理及MATLAB实现[M] .北京:电子工业出版社,2010
  7. 易克初,田斌,付强.语音信号处理(第一版)[M] .北京:国防工业出版社,2000
  8. 朱晓农.语音学[M] .北京:商务印书馆,2010
  9. 周同春.汉语语音学 [M] .北京:北京师范大学出版社,2003
  10. 吕士楠,初敏,许洁萍等.汉语语音合成原理和技术 [M] .北京:科学出版社,2012
  11. 游大涛. 基于听觉机理的鲁棒特征提取及在说话人识别中的应用[D]. 哈尔滨工业大学,2013
  12. Miyazaki R, Saruwatari H, Inoue T, et al. Musical-Noise-Free Speech Enhancement Based on Optimized Iterative Spectral Subtraction[J].IEEE Transactions on Audio, Speech ,and Language Processing,2012.20(7), 2080-2094
  13. Reynolds D, Quatieri T, Dunn R. Speaker verification using adapted Gaussian mixture models[J]. Digital signal processing, 2000, 10(3):19-41.
  14. Yuxuan Wang, Kun Han, DeLiang Wang. Exploring Monaural Features for Classification-Based Speech Segregation[J]. IEEE Transactions on Audio, Speech, and Language Processing. 2013,21(2):270-279.
  15. M Heckmann; F Joublin; E Korner. Sound source separation for a robot based on pitch. IEEE/RSJ International Conference on Intelligent Robots and Systems[C],2005:2197-2202
  16. Bhaykar M, Yadav J, Rao K S. Speaker dependent, speaker independent and cross language emotion recognition from speech using GMM and HMM[C], 2013 National Conference on. IEEE, 2013: 1-5
  17. 本课题要研究或解决的问题和拟采用的研究手段(途径)
  18. 本课题要研究或解决的问题

本课题主要研究的问题是常见声音信号的特点,如钢琴、胡琴、笛子、古筝的乐声,以及白噪声、水流声、蟋蟀叫声、鸟叫音等几种典型声音的特点,并编写软件进行特征展示。具体涉及以下问题:

  1. 音频文件的读取

输入为WAV格式的音频文件,应将其进行解析和预处理,方便下一阶段的特征分析。

  1. 声音信号的特征分析

通过对声音信号进行频谱、倒谱和语谱图分析、基音周期提取等手段,对声音信号进行特征分析。

  1. 程序的编写

编写可实际应用的图形界面程序,方便对比不同声音信号的特征。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。