语音信号时域分析毕业设计论文.docx_第1页
语音信号时域分析毕业设计论文.docx_第2页
语音信号时域分析毕业设计论文.docx_第3页
语音信号时域分析毕业设计论文.docx_第4页
语音信号时域分析毕业设计论文.docx_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西安工程大学毕业设计(论文) 摘 要语音信号是一种非平稳的时变信号,它携带着各种信息。在语音编码、语音识别和语音增强等语音处理中都需要提取语音信号中包含的各种信息。一般而言,语音信号处理的目的有两种:一种是对语音信号进行分析,提取特征参数,用于后续处理。另一种是加工语音信号,例如在语音增强中对含噪声语音进行背景噪声抑制,以获得音质较高的合成语音,这方面的的应用同样是建立在分析并提取语音信号信息的基础上的。总之,语音信号分析的目的就是在于方便的、有效地提取并表示语音信号所携带的信息。根据所分析的参数类型,语音信号分析可以分成时域分析和频域分析。本文主要介绍语音信号的时域分析。语音信号本身是时域信号。对语音信号分析时,时域分析方法在所有分析方法中是最简单、最直观的方法。通常用于最基本的参数分析及语音分割、预处理和大致的分类等。其特点是:(1)表示直观,物理意义明确;(2)实现简单,运算量小;(3)可得到语音的一些重要参数。它直接对语音信号的时域波形进行分析,提取的特征参数主要有语音的短时能量和平均幅度、短时平均过零率、短时自相关函数和短时平均幅度差函数等。短时时域处理方法的主要优点是能够描述语音信号的某些重要特征,因而在实际中获得了广泛的应用。本文涉及大量的数学运算和公式推导,而MATLAB强大的数据运算能力和丰富的信号处理工具函数可以淡化理论和推导过程,使概念直观化,更好的理解语音信号的时域分析方法。最后通过PC机录制自己的一段声音,运用MATLAB进行仿真分析,最后加入噪声进行滤波处理,比较滤波前后的变化。矚慫润厲钐瘗睞枥庑赖。关键词:语音信号,时域分析, MATLAB IVABSTRACTVoice signal is a non-stationary time-varying signals, which carry a variety of information. In speech coding, speech recognition and speech enhancement speech processing is required to extract all kinds of information contained in the speech signal. Generally, the purpose of the speech signal processing, there are two: one is the speech signal analysis, feature extraction parameters for subsequent processing. The other is the voice signal processing, such as speech enhancement of the noisy speech background noise suppression, to obtain a higher quality of synthetic speech, this aspect of the application is also based on the analysis and extraction of information on the voice signal . In short, the purpose is to facilitate the analysis of the speech signal is effectively extracted and the speech signals represent the information carried.聞創沟燴鐺險爱氇谴净。 According to the type of analysis parameters, the speech signal analysis can be divided into time-domain analysis and frequency domain analysis. This paper describes the time-domain speech signal analysis. The speech signal itself is time-domain signal. When the speech signal analysis, time domain analysis method is the easiest, most intuitive way in all analytical methods. Parameter analysis and segmentation of voice usually used for basic, pre-processing and general classification. Its characteristics are: (1) visual, physical meaning clear; (2) to achieve a simple, low computation; some important parameters (3) will give the speech. It is directly on the time-domain waveform speech signal analysis, feature extraction parameters are mainly short-term energy and average magnitude of speech, time average zero-crossing rate, short-term autocorrelation function and the short-term average magnitude difference function and the like. The main advantage of short-term time domain processing method is able to describe some of the important characteristics of the speech signal, which has been widely used in practice. This article involves a lot of math and formulas are derived, and MATLAB powerful data computing capability and rich signal processing tools function can dilute the theory and derivation, so the concept of visualization, a better understanding of the speech signal in the time domain analysis. Finally, record your own PC, a sound, using MATLAB simulation analysis, and finally adding noise filtering process, change the filter before and after comparison.残骛楼諍锩瀨濟溆塹籟。KEY WORDS: speech signal, time domain analysis, MATLAB酽锕极額閉镇桧猪訣锥。西安工程大学毕业设计(论文)西安工程大学毕业设计(论文)第一章 绪论1.1语音信号简介通过语言交流信息是人类最重要的基本功能之一。语言是从千百万人的言语中概括总结来的规律性的符号系统,是思维、交际的形式。语言是人类特有的功能,是创造和记载几千年人类文明史的根本手段。语音是语言的声学表现,是声音和意义的结合体,是人类最重要、最有效、最常用和最方便的信息传递与交换方式。语音中除包含实际发音的语言信息,还包括发音者是谁及其喜怒哀乐等各种信息。在人类已有的通信系统中,语音通信方式(如日常的电话通信)早已成为主要的息传递途径之一。语言和语音也是人类思维的一种依托,其与人的智力活动密切相关,与文化和社会的进步密切相连,具有最大的信息容量和最高的智能水平。彈贸摄尔霁毙攬砖卤庑。通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息的形式。语言是人类持有的功能声音是人类常用的工具,是相互传递信息的最主要的手段。因此,语音信号是人们构成思想疏通和感情交流的最主要的途径。并且,由于语言和语音与人的智力活动密切相关,与社会文化和进步紧密相连,所以它具有最大的信息容量和最高的智能水平。现在,人类已开始进入了信息化时代,用现代手段研究语音信号,使人们能更加有效地产生、传输、存储、获取和应用语音信息,这对于促进社会的发展具有十分重要的意义。謀荞抟箧飆鐸怼类蒋薔。1.1.1 语音信号的特点通过对大量语音信号的观察和分析发现,语音信号主要有下面两个特点:在频域内,语音信号的频谱分量主要集中在3003400Hz的范围内。利用这个特点,可以用一个防混叠的带通滤波器将此范围内的语音信号频率分量取出,然后按8kHz的采样率对语音信号进行采样,就可以得到离散的语音信号。在时域内,语音信号具有“短时性”的特点,即在总体上,语音信号的特征是随着时间而变化的,但在一段较短的时间间隔内,语音信号保持平稳。在浊音段表现出周期信号的特征,在清音段表现出随机噪声的特征。厦礴恳蹒骈時盡继價骚。下面是一段语音信号的时域波形图(图1-1)和频域图(图1-2),由这两个图可以看出语音信号的两个特点。茕桢广鳓鯡选块网羈泪。 图1-1语音信号时域波形图 图1-2语音信号频谱图1.1.2 语音信号处理的发展让计算机能听懂人类的语言,是人类自计算机诞生以来梦寐以求的想法。随着计算机越来越向便携化方向发展,随着计算环境的日趋复杂化,人们越来越迫切要求摆脱键盘的束缚而代之以语音输人这样便于使用的、自然的、人性化的输人方式。作为高科技应用领域的研究热点,语音信号采集与分析从理论的研究到产品的开发已经走过了几十个春秋并且取得了长足的进步。它正在直接与办公、交通、金融、公安、商业、旅游等行业的语音咨询与管理工业生产部门的语声控制,电话、电信系统的自动拨号、辅助控制与查询以及医疗卫生和福利事业的生活支援系统等各种实际应用领域相接轨,并且有望成为下一代操作系统和应用程序的用户界面。可见,语音信号采集与分析的研究将是一项极具市场价值和挑战性的工作。我们今天进行这一领域的研究与开拓就是要让语音信号处理技术走人人们的日常生活当中,并不断朝更高目标而努力。鹅娅尽損鹌惨歷茏鴛賴。从技术角度讲,语音信号处理是信息高速公路、多媒体、办公自动化、现代通信及智能系统领域的核心技术之一。在告诉发达的信息社会,用数字话方式进行语音的传递、存储、识别、合成、增强等式数字化通信网络中最重要、最基本的组成部分之一。同时,语言不仅是人类沟通的最自然和最方便的形式,也是人与机器通信的重要工具,是一种理想的人机通信方式。可为计算机、自动化系统等建立良好的人机交互环境,进一步推进计算机和其他智能机器的应用,提高社会的信息化与自动化程度。语音处理技术的应用包括工业、军事、交通、医学、民用各个领域;已有大量产品投放市场,并不断有新产品被开发研制,具有广阔的市场需要和应用前景。籟丛妈羥为贍偾蛏练淨。语音信号均采用数字方式进行处理,数字处理与模拟处理相比有许多优势。表现为:(1)数字技术可完成很多复杂的信号处理工作;(2)通过语音进行交换点信息,有离散的性质,因为语音可看作是因素的组合,从而适合于数字处理;(3)数字系统有高可靠性、廉价、快速等特点,容易完成实时处理任务;(4)数字语音适合在强干扰信道中传输,也易于加密传输。因此,数字语音信号处理时语音信号处理的主要方式。預頌圣鉉儐歲龈讶骅籴。语音信号的数字表示可分为两类:波形表示和参数表示。波形表示仅通过采样和量化保存模拟语音信号的波形;而参数表示将语音信号表示为某种语音产生模型的输出,是对数字化语音进行分析和处理后得到的。渗釤呛俨匀谔鱉调硯錦。语音信号处理以两方面知识为基础,除数字信号处理外还有语言学。语音信号处理与语音学友密切联系。语音学是研究言语过程的一门学科,包括三部分研究内容:发音器官在发音过程中的运动及语音音位特性:语音物理属性;听觉和语音感知。另一方面,高速数字信号处理(DSP)的诞生于发展也与语音处理密切相关,语音识别与语音编码算法的复杂性及实时处理的需要,是促使设计这样的处理器的重要推动力量之一。这中产品问世后又首先在语音处理中得到了有效地推广引用。语音处理产品的商品化对这样的处理器有很大需求,因此其反过来又推动了微电子技术的发展。铙誅卧泻噦圣骋贶頂廡。1.1.3语音信号分析的主要研究内容及发展概况语音信号分析有广泛的应用领域,最重要的包括语音编码、语音合成、语音识别、说话人识别、语音增强、麦克风阵列语音信号处理分析等。擁締凤袜备訊顎轮烂蔷。 多年来,人们一直探索新一代的信息处理技术。智能信息处理时多种学科互相结合、互相渗透的产物。20世纪90年代以来,国际上掀起了一股研究智能信息处理技术的热潮,包括模糊逻辑、神经网络、支持向量机、分形理论、进化计算、粗集理论、数据挖掘、信息融合等,推动了软计算、软处理技术的深入发展。智能信息处理的研究发展中,产生了计算智能这一学科分支,神经网络、模糊系统和进化计算是其中的三个主要方面。目前,智能信息处理中的各个学科迅速发展,并相互结合于渗透,对其发展起到了重要推动作用。另一方面,近20年来,信号处理的理论与方法也得到了迅速发展,产生许多新技术。如非平稳和非高斯信号已成为研究对象;高阶统计量、时频分析、小波分析、盲源分析、现代谱估计、特征空间分解、独立分量分析等已成为研究热点。这些新发展的理论与技术已成为研究热点。这些新发展的理论与技术已成为现代信号处理的主要标志之一。贓熱俣阃歲匱阊邺镓騷。智能信息处理、现代信号处理等新兴技术史语音信号处理发展的重要推动力量;几乎其每一种新兴技术出现后,都迅速在语音信号处理中得到应用。20世纪90年代后,对这些新兴技术的广泛应用于深入研究已将语音信号处理研究提高到一个崭新的水平,在语音识别与语音编码等方面取得许多重要突破,不断改善语音处理系统的性能。目前,在该领域已经进行了许多卓有成效的研究与探索。坛摶乡囂忏蒌鍥铃氈淚。基于智能信息处理、现代信号处理的语音信号处理领域的一个重要分支。这不仅推动了语音信号处理技术的迅速发展;而且也促进了智能信息处理、现代信号处理领域的不断完善与发展。蜡變黲癟報伥铉锚鈰赘。1.2课题的研究目的及主要工作语音信号时一种非平稳的时变信号,它携带各种信息。在语音编码、语音合成、语音识别、和语音增强等语音处理中都需要提取语音信号中包含的各种信息。一般而言,语音信号处理的目的有两种:一种是对语音信号进行分析,提取特征参数,用于后续处理。另一种是加工语音信号,例如在语音增强中对含噪声语音进行噪声抑制,以获得相对“干净”的语音;在语音合成中需要对分段语音进行拼接平滑,获得音质较高的合成语音,这方面的应用同样是建立在分析并提取语音信号信息的基础上的。总之,语音信号分析的目的就在于方便、有效地提取并表示语音信号所携带的信息。買鲷鴯譖昙膚遙闫撷凄。根据所分析的参数类型,语音信号分析可以分成时域分析和频域分析。其中时域分析方法是最简单、最直观的方法,它直接对语音信号的时域波形进行分析,提取的特征参数主要有语音的短时能量、短时过零率、短时自相关函数和短时平均幅度差函数等。本文涉及大量的数学运算和公式推导,而MATLAB强大的运算能力和丰富的信号处理工具箱函数可以淡化理论的推导过程,使概念直接化,更好的理解时域分析知识。綾镝鯛駕櫬鹕踪韦辚糴。1.3论文结构论文详细地阐述了语音信号时域分析的流程、所提取的特征参数。并进行了MATLAB仿真。论文共分四章,各章的主要内容概述如下:驅踬髏彦浃绥譎饴憂锦。前言 语音信号的基础介绍,主要阐述了语音信号的产生及特点。另外,还介绍了语音信号处理的发展。第一章 语音信号的采集、取样、预处理。第二章 语音信号的时域分析。第三章 语音信号的综合仿真分析。第四章 最后对本课题进行总结分析。本章小结:本章为语音信号处理基础,主要介绍了语音信号处理所需要的语音基础知识,从语音信号处理的发展史、主要研究内容及发展概况等方面对语音信号做了简单的介绍,另外还说明了研究课题的目的和主要工作。最后对全文主体各个章节做了简单的介绍。猫虿驢绘燈鮒诛髅貺庑。45第2章 语音信号的采集与分析2.1意义语音信号采集与分析之所以能够那样长期地、深深地吸引广大科学工作者去不断地对其进行研究和探讨,除了它的实用性之外,另一个重要原因是,它始终与当时信息科学中最活跃的前沿学科保持密切的联系并且一起发展。语音信号采集与分析是以语音语言学和数字信号处理为基础而形成的一门涉及面很广的综合性学科,与心理、生理学、计算机科学、通信与信息科学以及模式识别和人工智能等学科都有着非常密切的关系。对语音信号采集与分析的研究一直是数字信号处理技术发展的重要推动力量。因为许多处理的新方法的提出,首先是在语音信号处理中获得成功,然后再推广到其他领域。语音信号本身是时域信号,对语音信号分析时,最先接触且最直观的是其时域波形。时域分析最早也是最广泛的方法,通常用于最基本的参数分析及语音分割、预处理和大致的分类等.其特点是:表示直观,物理意义明确; 实现简单,运算量小; 可得到语音的一些重要参数。锹籁饗迳琐筆襖鸥娅薔。2.2语音信号的采集在将语音信号进行数字化前,必须先进行防混叠预滤波,预滤波的目的有两个:抑制输入信号各领域分量中频率超出fs/2的所有分量(fs为采样频率),以防止混叠干扰。抑制50Hz的电源工频干扰。这样,预滤波器必须是一个带通滤波器,设其上、下截止频率率分别是fH和fL,则对于绝人多数语音编译码器,fH=3400Hz、fL60100Hz、采样率为fs8kHz;而对于语音识别而言,当用于电话用户时,指标与语音编译码器相同。当使用要求较高或很高的场合时fH4500Hz或8000Hz、fL60Hz、fs10kHz或20kHz。構氽頑黉碩饨荠龈话骛。为了将原始模拟语音信号变为数字信号,必须经过采样和量化两个步骤,从而得到时间和幅度上均为离散的数字语音信号。采样也称抽样,是信号在时间上的离散化,即按照一定时间间隔t在模拟信号x(t)上逐点采取其瞬时值。采样时必须要注意满足奈奎斯特定理,即采样频率fs必须以高于受测信号的最高频率两倍以上的速度进行取样,才能正确地重现波形。信号是通过采样脉冲和模拟信号相乘来实现的。下图时一段语音信号在采样频率44.1KHz情况下的频谱图。輒峄陽檉簖疖網儂號泶。 图2-1语音信号的频谱图由图可知,这段语音信号的频率主要集中在1KHz左右,当采样频率为44.1KHz时,由于采样频率比较大,所以采样点数就越密,所得离散信号就越逼近于原信号,频谱也没有发生混叠。尧侧閆繭絳闕绚勵蜆贅。图2-2抽取后的语音信号对上述信号进行1/80采样频率抽取,即采样频率变为将近500Hz时,由于采样频率比较小,所以采样点数就稀疏,所得离散信号就越偏离于原信号,频谱也发生了混叠。识饒鎂錕缢灩筧嚌俨淒。在采样的过程中应注意采样间隔的选择和信号混淆:对模拟信号采样首先要确定采样间隔。如何合理选择t涉及到许多需要考虑的技术因素。一般而言,采样频率越高,采样点数就越密,所得离散信号就越逼近于原信号。但过高的采样频率并不可取,对固定长度(T)的信号,采集到过大的数据量(N=T/t),给计算机增加不必要的计算工作量和存储空间;若数据量(N)限定,则采样时间过短,会导致一些数据信息被排斥在外。采样频率过低,采样点间隔过远,则离散信号不足以反映原有信号波形特征,无法使信号复原,造成信号混淆。根据采样定理,当采样频率大于信号的两倍带宽时,采样过程不会丢失信息,利用理想滤波器可从采样信号中不失真地重构原始信号波形。量化是对幅值进行离散化,即将振动幅值用二进制量化电平来表示。量化电平按级数变化,实际的振动值是连续的物理量。具体振值用舍入法归到靠近的量化电平上。 凍鈹鋨劳臘锴痫婦胫籴。语音信号经过预滤波和采样后,由AD变换器变换为二址制数字码。这种防混叠滤波通常与模数转换器做在一个集成块内,因此目前来说,语音信号的数字化的质量还是有保证的。市面上购买到的普通声卡在这方面做的都很好,语音声波通过话筒输入到声卡后直接获得的是经过防混叠滤波、A/D变换、量化处理的离散的数字信号。恥諤銪灭萦欢煬鞏鹜錦。在实际工作中,我们可以利用windows自带的录音机录制语音文件,图2-3是基于PC机的语音信号采集过程,声卡可以完成语音波形的A/D转换,获得WAVE文件,为后续的处理储备原材料。调节录音机保存界面的“更改”选项,可以存储各种格式的WAVE文件。鯊腎鑰诎褳鉀沩懼統庫。采集到语音信号之后,需要对语音信号进行分析,如语音信号的时域分析、频谱分析、语谱图分析以及降噪滤波等处理。硕癘鄴颃诌攆檸攜驤蔹。2.3语音信号预处理实际的语音信号是模拟信号,因此在对语音信号进行数字处理之前,首先要将模拟语音信号s(t) 以采样周期T 采样,将其离散化s(n),采样周期的选取应根据模拟语音的带宽来决定,以避免信号的频域混叠失真。在对离散后的语音信号进行量化处理过程中会带来一定的量化噪声和失真。阌擻輳嬪諫迁择楨秘騖。有了语音数据文件后,对语音的预处理包括预加重和加窗分帧处理。2.3.1语音信号预加重处理由于语音信号的平均功率谱受到声门激励和口鼻辐射影响,高频端大约在800hz以上按6dB/ 倍频程跌落,所以求语音信号频谱时,频率越高相应的成分越小,高频部分的频谱比低频部分的难求,为此要在预处理中进行预加重处理。预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参数分析。预加重可在语音信号数字化时在反混叠滤波器之前进行,这样不仅可以进行预加重,而且可以压缩信号的动态范围,有效地提高信噪比。但预加重一般是在语音信号数字化之后,在参数分析之前在计算机里用具有6dB倍频程的提升高频特性的预加重数字滤波器来实现,它一般是一阶的数字滤波器:氬嚕躑竄贸恳彈瀘颔澩。H(z)=1z-1其中, 为预加重系数,一般0.91.0.设n 时刻的语音信号采样值为x(n),进过预加重处理后的结果为y(n)=x(n)-x(n-1),在此处=0.9375.下图是关于预加重处理后波形和原始波形比较的结果(原语音信号为西安工程大学):釷鹆資贏車贖孙滅獅赘。 图2-4预加重语音信号图2.3.2语音信号分帧处理进行预加数字滤波处理后,接下来就要进行加窗分帧处理。由于发声器官的惯性运动,可认为在一小段时间里(一般为1030ms)语音信号近似不变,及语音信号具有短时平稳性。这样,可以吧语音信号分为一些短断(称为分帧)来进行处理。一般每秒的帧数为33100帧,视实际情况而定。分帧虽然可以采用连续分帧的方法,但一般要采用交叠分段的方法,这是为了使帧与帧之间平稳过渡,保持其连续性。前一帧和后一帧的交叠部分称为帧移。帧移与帧长的比值一般取为01/2.分帧是用可移动的有限长度窗口进行加权的方法来实现的,即用一定的窗函数w(n)来乘以s(n),从而形成加窗语音信号sw(n)=w(n)*s(n)。怂阐譜鯪迳導嘯畫長凉。在语音信号处理中常用的窗函数有两种,一是矩形窗,另一种是汉明窗。矩形窗:hR=1, 0nN-10, 其余值 ()汉明窗:hH=0.54-0.46cos(2nN-1), 0nN-1 0, 其余值 ()谚辞調担鈧谄动禪泻類。下图是两个窗函数的时域波形:图2-5 矩形窗幅度特性图2-6汉明窗时域波形图2-7汉明窗幅度特性本章小结:本章主要讨论语音信号处理前对语音信号的准备工作,包括采集、分类预处理。主要是为了为语音信号的时域分析做好必要的准备工作。嘰觐詿缧铴嗫偽純铪锩。第3章 语音信号的时域分析 3.1语音信号分析技术语音信号分析是语音信号处理的前提和基础,只有分析出可表示语音信号本质特征的参数,才有可能利用这些参数进行高效的语音通信、语音合成和语音识别等处理。而且,语音合成的音质好坏,语音识别率的高低,也都取决于对语音信号的准确性和精确性。因此语音信号分析在语音信号处理应用中具有举足轻重的地位。熒绐譏钲鏌觶鷹緇機库。语音信号平稳性、时变、离散性大、且其中蕴含着说话内容及说话人特征,处理难度大,语音信号可用其取样波形描述,也可用信号参数和特征来描述。提取少量参数描述语音信号,即语音信号的参数表示,是语音处理的关键技术之一.根据所分析的参数不同,语音信号分析分为时域、频域、倒频谱、小波域、高阶积累量域等方法.时域分析具有最简单、运算量小、物理意义明确等优点。.鶼渍螻偉阅劍鲰腎邏蘞。贯穿于语音分析全过程的是“短时分析技术”。因为,语音信号从整体来看其特性及表征其本质特征的参数均是随时间而变化的,所以它是一个介于稳态过程,不能用处理平稳信号的数字信号处理技术对其进行分析处理。但是,由于不同的语音是由人的口腔肌肉运动构成声道某种形状而产生的响应,而这种口腔肌肉运动相对于语音频率来说是非常缓慢的,所以从另一方面看,虽然语音信号号具有时变特性,但是在一个短时间范围内(一般认为在1030ms的短时间内),其特性基本保持不变即相对稳定,因面可以将其看作是一个准稳态过程,即语音信号具有短时平稳性。所以任何语音信号的分析和处理必须建立在“短时”的基础上即进行“短时分析”,将语音信号分为一段一段来分析其特征参数,其中每一段称为一“帧”,帧长一般取为1030ms。这样,对于整体的语音信号来讲,分析出的是由每一帧特征参数组成的特征参数时间序列。纣忧蔣氳頑莶驅藥悯骛。根据所分析出的参数的性质的不同,可将语音信号分析分为时域分析、频域分析、线性预测、同态处理分析等;时域分析方法具有简单、计算量小、物理意义明确等优点,但由于语音信号最重要的感知特性反映在功率谱中,而相位变化只起着很小的作用,所以相对于时域分析来说频域分析更为重要。本文将简要介绍时域分析以及语谱图分析。颖刍莖蛺饽亿顿裊赔泷。3.2语音信号的时域分析语音信号的时域分析就是分析和提取语音信号的时域参数。进行语音分析时,最先接触到并且也是最直观的是它的时域波形。语音信号本身就是时域信号,因而时域分析是最早使用,也是应用最广泛的一种分析方法,这种方法直接利用语音信号的时域波形。时域分析通常用于最基本的参数分析及应用,如语音的分割、预处理、大分类等。这种分析方法的特点是:表示语音信号比较直观、物理意义明确。实现起来比较简单、运算且少。可以得到语音的一些重要的参数。只使用示波器等通用设备,使用较为简单等。濫驂膽閉驟羥闈詔寢賻。语音信号的时域参数有短时能量、短时过零率、短时自相关函数和短时平均幅度差函数等,这是语音信号的一组最基本的短时参数,在各种语音信号数字处理技术中都要应用。在计算这些参数时使用的一般是方窗或汉明窗。銚銻縵哜鳗鸿锓謎諏涼。3.2.1短时能量及短时平均幅度分析设语音波形时域信号为x(l)、加密分帧处理后得到的第n帧语音信号为 Xn(m),则Xn(m)满足下式:挤貼綬电麥结鈺贖哓类。 (3-1) (3-2)其中,n0,1T,2T,并且N为帧长,T为帧移长度。设第n帧语音信号Xn(m)的短时能量用En表示,则其计算公式如下: (3-3)En是一个度量语音信号幅度值变化的函数,但它有一个缺陷,即它对高电平非常敏感(因为它计算时用的是信号的平方)。为此可采用另一个度量语音信号幅度值变化的函数即短时平均幅度函数Mn,它定义为:赔荊紳谘侖驟辽輩袜錈。 (3-4)Mn也是一种语音信号能量大小的表征,它与En的区别在于计算时小取样值和大取样值不会因取平方而造成较大差异,在某些应用领域里会带来一些好处。塤礙籟馐决穩賽釙冊庫。短时能量可以度量语音信号的能量随时间的变化情况,短时能量和短时平均幅度函数的主要用途有:可以区分浊音段与清音段,因为浊音时En值比清音时大的多。可以用来区分声母与韵母的分界,无声与有声的分界,连字(指字之间无间隙)的分界等。作为一种超音段信息,用于语音识别中。下图为不同的窗长对短时能量的影响(语音信号为(西安工程大学)裊樣祕廬廂颤谚鍘羋蔺。图3-1帧数为50的短时能量图3-2帧数为100的短时能量图3-3帧数为200的短时能量图3-4帧数为400的短时能量3.2.2短时过零率分析短时过零率表示一帧语音中语音信号波形穿过横轴(零电平)的次数。过零率分析是语音时域分析中最简单的一种。对于连续语音信号,过零即意味着时域波形通过时间轴;而对于离散信号,如果相邻的取样值改变符号则称为过零。过零率就是样本改变符号的次数。定义语音信号Xn(m)的短时过零率Zn为:仓嫗盤紲嘱珑詁鍬齊驁。 (3-5)式中,sgn 是符号函数,即: (3-6)在实际中求过零率参数时,需要十分注意的一个问题是如果输入信号中包含有50Hz的工频干扰或者A/D变换器的工作点有偏移(这等效于输入信号有直流偏移),往往会使计算的过零率参数很不准确。为了解决前一个问题,A/D变换器前的防混叠带通滤波器的低端截频应高于50Hz,以有效地抑制电源干扰。对于后一个问题除了可以采用低直流漂移器件外,也可以在软件上加以解决,这就是算出每一帧的直流分量并予以滤除。绽萬璉轆娛閬蛏鬮绾瀧。短时平均过零数可应用于语音信号分析,它粗略的描述了信号频谱特性,因而可用于区分清/浊音.发现发浊音时,尽管声道有若干个共振峰,但由于声门波引起谱的高频跌落,所以其话音能量约集中在3kHz以下。而发清音时,多数能量出现在较高频率上。高频就意味着高的平均过零率,低频意味着低的平均过零率,所以可以认为浊音时具有较低的过零率,而清音时具有较高的过零率。当然,这种高低仅是相对而言,并没方精确的数值关系。骁顾燁鶚巯瀆蕪領鲡赙。 利用短时平均过零率还可以从背景噪声中找出语音信号,可用于判断寂静无声段和有声段的起点和终点位置。在孤立词的语音识别中,必须要在一连串连续的语音信号中进行适当分割,用以确定一个一个单词的语音信号,即找出每一个单词的开始和终止位置,这在语音处理中是一个基本问题。此时,在背景噪声较小时用平均能量识别较为有效,而在背景噪声较大时用平均过零率识别较为有效。但是研究表明,在以某些音为开始或结尾时如当弱摩擦音 (如f、h等音素)、弱燃破音(如p、t、k等音素)为语音的开头或结尾;以鼻音(如n、 m等音素)为语音的结尾时只用其中一个参量来判别语音的起点和终点是有困难的,必须同时使用这两个参数。图3-1是用MATLAB仿真一段语音信号时域波形的短时平均过零率。(语音信号为西安工程大学)瑣钋濺暧惲锟缟馭篩凉。图3-5语音信号的短时平均过零率3.2.3短时平均幅度与短时过零率的分布特点分析短时平均幅度(或短时能量)与短时过零率都是随机变量。研究发现,它们的概率分布决定语音的性质。对于无声.清音和浊音而言,它们的短时平均幅度的概率分布不仅是不同的,而且他们的短时过零率的概率分布也是不同的。设用p(M/S)表示无声的短时平均幅度的概率分布,用p(M/U)表示清音的短时平均幅度的概率分布,则用下图给出了它们的分布曲线。鎦诗涇艳损楼紲鯗餳類。3.2.4 短时自相关函数分析相关分析师语音信号的时域波形常用的分析方法,利用短时自相关函数可以求得语音波形的基音周期;在用线性预测分析语音信号时,也要用到短时自相关函数。其定义如下:栉缏歐锄棗鈕种鵑瑶锬。Rn(K)=m=0N-1-KXnmXn(m+k) (0kK) 式中,K为最大延迟点数,N为帧长。短时自相关函数具有如下性质:若语音信号时周期的,则其短时自相关函数也是周期的;若语音信号时偶函数,则取、其短时自相关函数也是偶函数;k=0时,短时自相关函数具有最大值,这是它表示语音信号的能量或平均功率。辔烨棟剛殓攬瑤丽阄应。 由上式不难看出,随着延迟k的增加,式中相加的乘积项将减少,则导致短时自相关函数的幅度值下降;如果帧长不够,就难于准确的确定语音信号波形序列的基音周期。对上式进行适当修改,则有修正的短时自相关函数;峴扬斕滾澗辐滠兴渙藺。Rn(k)=m=0N-1XnmXn(m+k)(0kK) 式二中的语音信号序列不再由式(2)表示,而进行如下修正;Xnm=Xn+mw(m)wm=1 (mmN-1+K)0 (mN-1+K)对N点窗的K点短时自相关函数,如直接计算,约需KN次乘法和加法;对很多实际应用,K与N均较大(如K=250,N=401).为此提出一些减少运算量的方法。如FFT,这是由于自相关函数为功率谱的IDFT。为避免自相关计算的混叠,需2N点DFT(用FFT实现),其中有N点数据由N个零点取样来补足。构成一个平方幅度约需2N次乘法,而2N点FFT需2N2N次乘法,得到所有N点自相关函数。因而,FFT方法所需乘法总数为:詩叁撻訥烬忧毀厉鋨骜。NF =22N2N+2N另一方面,目前DSP可在一个很短的指令周期内完成一次乘加运算,且为卷积运算设计了一些效率很高的运算指令,所以如采用DSP实现自相关运算,通常是直接计算反而更加简单,而不必采用结构复杂的快速算法。下图为一段语音信号分别加矩形窗和汉明窗的短时自相关分析(语音信号为“西安工程大学”):则鯤愜韋瘓賈晖园栋泷。图3-8加矩形窗后的自相关函数3.2.5 短时平均幅度差函数分析短时平均幅度差函数其定义为:Fn(k)=m=0N-1-K|Xnm-Xnm+k| (0kK) 如果语音信号具有周期性,则由上式表示的短时平均幅度差函数的极小值也会周期的出现;也就是说,若语音信号是周期的,则其短时平均幅度差函数也是周期的;这一点与短时自相关函数类似,因此可以用它代替短时自相关函数来检测语音波形序列的基音周期。而且,短时平均幅度差函数与短时自相关函数的关系为:胀鏝彈奥秘孫戶孪钇賻。Fn(k)=2(k)【Rn(0)-Rn(k)】1/2对于不同语音段,式中的(k)将有所变化,一般(k)=0.61.0;但是对于一个特定的语音段,(k)随k的变化不明显。下图为一段语音信号的短时幅度差函数(语音信号为西安工程大学):鳃躋峽祷紉诵帮废掃減。图3-9清音浊音的短时幅度差函数3.3语音信号的语谱图语音的时域分析和频域分析是语音分析的两种重要方法。显然这两种单独分析的方法均有局限性:时域分析对语音信号的频率特性没有直观的了解;而频域分析出的特征中又没有语音信号随时间的变化关系:语音信号是时变信号,所以其频谱也是随时间变化的。但是由于语音信号随时间变化是很缓慢的,因而在一段短时间内(如1030ms之间,即所谓的一帧之内)可以认为其频谱是固定不变的,这种频谱又称为短时谱。短时谱只能反映语音信号的静态频率特性,不能反映语音信号的动态频率特性。因此,人们致力于研究语音的时频分析特性。稟虛嬪赈维哜妝扩踴粜。把和时序相关的傅里叶分析的显示图形称为语谱图(Sonogram,或者Spectrogram)。语诺图是一种三维频谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓谈来表示。用语谱图分析语音又称为语谱分析。语谱图中显示了大量的与语音的语句特性有关的信息,它综合了频谱图和时域波形的特点,明显地显示出语音频谱随时间的变化情况,或者说是一种动态的频谱;记录这种频谱的仪器就是语谱仪。陽簍埡鲑罷規呜旧岿錟。语谱仪实际上是一个带通滤波器组的输出随时间发生连续变化,连续重复进行语音信号频率分析的仪器。带通滤波器有两种带宽可供选择:窄带为45Hz,宽带为300Hz。窄带语谱图有良好的频率分辨率,有利于显示基音频率及其各次谐波,但它的时间分辨率较差,不利于观察共振峰(卢道谐振)的变化;而宽带语谱图正相反,具有良好的时间分辨率及较差的频率分辨率。宽带语谱图能给出语音的共振峰频率及清辅音的能量汇集区,在话谱图里共振峰呈现为黑色的条纹。沩氣嘮戇苌鑿鑿槠谔應。 可以利用语谱仪测量语谱图的方法来确定语音参数,例如共振峰频率及基音频率。语语图的实际应用是用于确定出讲话人的本性。语谱图上因其不同的黑白程度,形成了个同的纹路,称之为“声纹”,它因人而异,即不同讲话者语谱图的声纹是不同的。因而可以利用声纹鉴别不问的讲话人。这与不向的人有不同的指纹,根据指纹可以区别不同的人是一个道理。虽然对采用语谱图的讲活人识别技术的可靠性过存在相当人的怀疑,但目前这一技术已在司法法庭小得到某些认可及采用11。钡嵐縣緱虜荣产涛團蔺。 图3-3是用MATLAB绘制的一个宽带语谱图,其中横抽坐标为时间,纵轴坐标为频率,语句内容为 “西安工程大学”,它的发音在图下方以音标表示。同时给出了相应的语音的时域波形。语谱图中的花纹有横扛(Bar)、乱纹和竖直条等。横杠是与时间轴平行的几条深黑色带纹,它们相应于短时谱中的几个凸出点,也就是共振峰。从横扛对应的频率和宽度可以确定相应的共振峰频率和带宽。在一个语音段的语谱图中,有没有横扛出现是判断它是否是浊音的重要标志 。竖直条(又叫冲直条)是语谱图中出现与时间轴垂直的一条窄黑条。每个竖直条相当于一个基音,条纹的起点相当于声门脉冲的起点,条纹之间的距离表示基音周期。条纹越密表示越音频率越高。懨俠劑鈍触乐鹇烬觶騮。图3-10谱图3.4语音信号的综合仿真分析录制一段自己的语音信号,并对录制的信号进行采样;画出采样后语音信号的时域波形和频谱图;謾饱兗争詣繚鮐癞别瀘。图3-11原始语音信号由图可知这段语音信号频率主要集中在1000hz左右。对语音信号进行调制,为了减少在传输时的耗损,人们一般是先对传输信号进行特殊处理,然后再传递。把原始的待传信号托附到高频振荡的过程称为调制。我们知道音频信号的频率在我们的听觉范围内,音频信号在无线传输的过程中会受到各种声音的干扰而产生能量消耗,因此限制了传输的距离。所以在现实的传送过程中要现对语音信号进行调制再发送出去.呙铉們欤谦鸪饺竞荡赚。下面是对一段语音信号的调制仿真图,载波频率为fc=20000。图3-12调制后的语音信号 由图可知,经过调制后的语音信号频谱都搬移到fc=20000的频段。用经过调制的信号与原信号叠加。图3-13调制后的语音信号+原始语音信号由图可知低频部分是原始信号,高频部分是经过调制后的信号。设计数字滤波器和画出频率响应根据语音信号的特点给出有关滤波器的性能指标:低通滤波器性能指标,fp=1000Hz,fc=1200 Hz, As=100dB,Ap=1dB;滤波器的频率响应:图3-14滤波器的频率响应进行低通滤波,比较滤波前后语音信号的波形及频谱。图3-15低通滤波后的波形和频谱本章小结:本章是全文的重点,讲述了语音信号的时域分析所提取的特征参数。语音信号的时域参数有短时能量、短时过零率、短时自相关函数和短时平均幅度差函数等。本章详细的讲述了各个特征参数的特性、作用意义。最后加以仿真。最后两节是语谱图以及语音信号的综合仿真,包括调制、滤波、去噪等。详细的介绍了语音信号时域分析的全过程。莹谐龌蕲賞组靄绉嚴减。第4章 结束语4.1语音信号时域分析及计算机仿真的作用总结 MATLABA本身就具有强大功能对信号处理的作用;1、MATLAB可以对数字化的语音信号进行时域频域分析,展现信号在时域及频域中的曲线,并根据语音的特性对具体语音进行分析处理。例如,清浊音的幅度差别、语音信号的端点、语音信号在频域中的共振峰频率等。2、MATLAB可以对数字化的语音信号进行估值、判别。例如,根据语音信号的的短时参数,以及不同语音信号的短时参数的性质对一段给定的信号进行有无声和清浊音的判断、对语音信号的基因周期进行估值等。3、MATLAB编程对信号进行加噪声、去噪声、滤波、截取有效语音等,同时也可以进行语音编码、语音识别、语音合成的编程等。一个简单的例子,用MATLAB对语音信号最基本的分析就是通过编程对其进行语谱图分析,从语谱图中可以很清楚的了解语音信号的特点,语音信号的能量,周期等,这些相当于是将我们平时的不可见的听觉信号转换成可见的信号图。麸肃鹏镟轿騍镣缚縟糶。4.2语音信号时域分析的展望 语音信号处理为交叉学科,主要是数字信号处理和语音学等学科结合的产物,因此必然受这些学科的影响,同时也随这些学科的发展而发展。语音信号处理的研究目的和处理方法多种多样,一直是数字信号处理技术的重要推动力量,而数字信号处理很大部分内容也涉及语音信号处理;数字信号处理学科与技术发展的一部分来源于数字语音处理的研究。与论是谱分析,还是数字滤波或压缩编码等,许多新方法的提出首先在语音处理中获得成功,再推广到其他领域。同时,它与信息科学中最活跃的前沿学

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论