版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、摘要语言是人类最为重要的交流工具, 它具有简易方便, 准确自然等其他工具所 无法替代的特点。 随着信息社会的迅速发展, 计算机已经渗透进人类生活工作的 每一个角落, 因此人机交互显得尤其重要。 在人机交互的各种通信方式中, 语音 通信又是最好的交流方式, 而声音信号的特征参数的精确度就会直接影响着语音 通信的质量和准确度。 因此,声音信号的特征检测在语音信号处理中是一项非常 重要的工作。本文利用 MATLAB 软件检测声音信号的特征参数,以语音信号为主,首先 讨论了声音信号的基本特性,包括声音信号的产生,传播,声学特性等等。然后 又分别讨论了声音信号在时域, 变换域的特征参数。 最后详细研究了
2、声音信号的 特征参数的检测提取。第一章 声音信号的基本特征1.1 声音信号的产生声音是一种波,它是由物体振动产生的,能被人耳听到,它的振动频率在 2020000Hz 之间。自然界中有各种各样的声音,如雷声,树叶被风吹时发出的 “飒飒”声,大海波涛汹涌的翻滚声,机械工作时发出的声音等等。语音也是声 音的一种,它是由人的发声器官发出的,语音的振动频率最高可达15000Hz。语音信号的产生过程分为如下几个阶段: 首先,说话人在头脑中产生想要用 语言表达的信息; 然后将这些信息转换成语言编码, 即将这些信息用其所包含的 音素序列、韵律、响度。基音周期的升降等表示出来。一旦对这些信息编码完成 后,说话人
3、会用一些神经肌肉命令在适当的时候控制声带震动, 并塑造声道的形 状以便发出编码中指定的声音序列。 神经肌肉命令必须同时控制调音运动中涉及 的各个部位:唇、腭、舌头以及控制气流进入鼻腔的软腭。 一旦产生了语音信号, 并将这些信息传递到听者时, 语音的感知过程也就开始了。 听者内耳的基底膜对 语音信号进行动态的频谱分析, 神经传感器将基底膜输出的频谱信号转换成对听 觉神经的触动信号, 这一过程和后面将要介绍的特征提取过程有些类似。 作用在 听觉神经上的活动信号, 在大脑更高层的中枢转化成语言编码, 并由此产生具有 语义的信息。人类的语音是由人体发声器官在大脑控制下的生理运动产生的。 人的发声器 官
4、包括肺、气管、喉、咽、鼻腔和口腔等,如图 1-1 所示。喉以上的部分称为声 道,发出声音的不同会导致其形状的变化,所以听到的声音 也不同;而喉(包括声带)的部分称为声门,呼吸时左右两声带打开,讲话时则合拢。声带每开启和闭合一次的时间即振动周期称为音调周期或者基音周期,其倒数称为基因频率,简称基频。基因频率取决于声带的尺寸和特性,也决定于它 所受的张力。声带振动的频率决定了声音频率的高低,频率快则音频高,频率慢 则音调低。基音的范围约为80-500HZ左右,它随发音人的性别、年龄及具体情 况而定,老年男性偏低,小孩和青年女性偏高。现在我们来讨论一下声音的产生过程。其原理图如图1-2所示。根据声带
5、是否震动,语音又分为浊音和清音。在发声的过程中,肺当声带处于收紧状态时, 流经的气流使声带振动,这时产生的声音成为浊音,没有声带振动的音称为清音。 当声带处于松弛状态时,有两种方式能发出声音:一种方式是通过舌头,在声道 的某一部分形成狭窄部位,也称为收紧点,当气流经过这个收紧点时会产生湍流, 形成噪声型声音。这时对应的收紧点的位置不同及声道形状的不同, 形成不同的 摩擦音。另一种方式是声带处于松懈状态, 利用舌头和嘴唇关闭声音,暂时阻止 气流。当气流压力非常高时,突然放开舌与唇,气流被突然释放产生短暂脉冲音。对 应 于 声 道 闭 紧 点 的 不 同 位置 和肺活量主声it:声门惊上.经咽舉
6、腔的营直取& 道 :经力i舌和揖的管道称为鼻道。 次声门舷 经肺、气官和支气営的琶道。声道的形状,形成不同的爆破音。综上所述,声道是气流自声门之后最为重要的器官,它是一个具有分布参 数系统的谐振腔,因而有许多谐振频率。谐振频率由瞬态的声道外形所决定。 人 在说话的时候舌和唇连续运动,使得声道发生外形和尺寸上的改变,随即改变了 谐振频率。谐振频率发生在Fn = 4L)Gn = 1,2,3,C为声速,空气中c=340m/s。L为声道长度,n表示谐振频率的序号。这些 谐振频率称为共振峰频率,简称为共振峰,它是声道的重要声学特性。声道对于 一个激励信号的响应,可以用一个含有多对极点的线性系统来近似描述
7、。每对极点都对应一个共振峰频率。这个线性系统的频率响应特性称为共振峰特性,它决 定信号频谱的总轮廓或者谱包络。声音的频率特性也主要是由共振峰决定的。 其 中共振峰特性和元音的音色密切相关。1.2声音信号的特征1.2.1声音信号的基本特性声音是一种波,它具有以下几种物理特征:音质。它是一种声音区别于其 他声音的基本特征。C2音调。就是声音的高低。音调取决于声波的频率,频率快音调就高,频率慢音调就低。03响度。响度表示声音的强弱,它是由声波振动幅度决定的。04音长。它表示声音的长短,是由发音持续时间的长短决定的。 除了有物理特征外,它还具有另一个重要的性质,这就是声音总是能表达一定的意义和思想内容
8、。 而且不仅如此, 它还能表达出一定的语气、 情感。因此, 声音中所包含的信息是丰富多彩的。我们平时说话的时候很自然地一次发出来的、有一个响亮的中心的、听的 时候也很自然地感到是一个小的语音片段的, 称为音节。 音节是构成语音的最小 单位,是发声的最小单位。 而一个音节又是由一个或若干个音素构成, 音素是语 音的最小、 最基本的组成单位。 各种音素组合到一起构成了不同的音节, 各种音 节组合到一起又构成了更大的单位词, 词是文章的基础, 是有意义的语言的 最小单位。任何语音都有元音和辅音两种音素。一个音节由元音和辅音构成。元音是 由声带的振动发出的声音, 它是一个音节的主要部分。 每个元音的特
9、点是由声道 的形状和尺寸决定的。 所有元音都是浊音。 辅音则是由呼出的气流克服发音器官 的阻碍而产生的。 发辅音时如果声带不振动, 称为清辅音; 发辅音时如果声带振 动,则称为浊辅音。1.2.2声音信号的时域波形及特性 在进行声音信号数字化处理时,能最为直观的了解声音信号的方式便是看 它的时域波形。 下面我们利用计算机声卡录音, 看一下这段声音的时域波形。 要 求采样频率为8kHz,每个采样点用16位进行量化,录音时间为1s,内容为“你 好”图中横轴为时间,纵轴为信号的幅度。从图1-3(a)中可以看出声音能量的起伏,以及声音信号随时间变化的过程。图1-3 (b)是将“好”的元音部分laol拉长
10、后的形状。图1-3 (c)是“好”的辅音lhl的波形图。4语音波形44图1-3 (a)语音信号“你好”的时域波形44图 1-3 (b)元音部分/ao/的波形语音波形200015001000500 0-500 -1000 -1500 -2000100020003000400050006000700080002500-25000图1-3 (c)辅音部分/h/的波形可以看出,元音/ao/的波形具有很强的准周期性并且有较强的振幅。它的周 期对应的就是基音频率。而/h/的波形类似于白噪声,并且振幅也弱一些。1.2.3声音信号的频域波形及特性前面我们所研究的时域波形虽然简单直观,但是对于一些复杂的声音信号
11、一些特性只有在频域中才能体现出来;并且频谱是表征语音特征的基本参数。共振峰即是一个典型的频域参数,它决定了信号频谱的包络。在声音的发音过程 中,声道通常都处于运动状态,但是这个运动状态的时变过程同振动过程相比要 缓慢得多,因此我们研究声音信号的时候都要假设其为一种短时平稳信号,一般都假定在10ms30ms之内是相对平稳的,但在长时间的周期中声音信号的特性 会发生变化,这种变化的不同决定了声音的不同。 根据声音信号这种短时平稳的 特点,在每一时刻都可以用该时刻附近的一短段语音信号分析得到一个频谱。图1-4给出了“你好”的频谱特性。124语谱图前面的频谱分析只能反映出信号的频率变化,而不能表示信号
12、的时间变化特性。由于语音信号是一种短时平稳信号,可以在每个时刻用其附近的短时段语音 信号分析得到一种频谱,将语音信号连续地进行这种频谱分析, 可以得到一种二 维图谱,横坐标表示时间,纵坐标表示频率,每个像素的灰度值大小反映相应时 刻和相应频率的能量。这种视频图称为语谱图。能量功率谱的表达式为1 2Px n, 3 =时 |X n, CD |2其中,X(n, 3)= t 乂 x k 3 n- k e-j wk; n是一个长度为2N+1的窗函数,X(n, 3)表示在时域以n点为中心的一帧信号的傅里叶变换在 3处的大小。在实 际情况下,一般不用对每个可能的频率和时间计算相应的能量。对于频率轴,-般计算
13、2N+1点就足够;对于时间轴,取 N个点也足够了。Vr- _f1fl *-,IbJ!I2or451I 500024( me图1-5 一段语音的语谱图I图1-5给出了一段语音的语谱图。图中横轴表示时间,纵轴表示频率,颜色 的深浅表示该处能量的大小,一般用能量的对数表示。巧0(】 jnrn I3CM)U20001(X30500第二章声音信号的特征分析对于声音信号的分析所采用的主要技术是“短时分析技术”。声音信号的特征是随时间变化的,是一个非稳态的过程。但即便如此,由于发声时人的口腔肌 肉运动频率相对于语音频率来讲是相对缓慢的, 所以在一个短时间范围内,它的 基本特征是可以被认为是保持不变的,那么我
14、们就可以将其视为一个准稳态过程。 因此,对于一段较长的语音我们必须将其分为一段一段的“帧”进行处理,帧长 一般取 10ms30ms对声音信号进行特征分析之前,首先需要对信号进行数字化处理,这一部 分我们只做简单讨论。2.1声音信号的数字化2.1.1采样与量化声音信号在时间和幅度上都是连续变化的模拟信号, 如果想在计算机上对其 处理必须先进行采样和量化,将它变成在时间和幅度上都离散的数字信号。 所谓 采样,就是把模拟信号在时域上进行等间隔抽样,其中两相邻抽样点之间的间隔称为采样周期,倒数为采样频率。根据奈奎斯特采样定理,采样频率必须大于声音信号最高频率的2倍,只有这样,在恢复信号的时候才能确保原
15、始信号被完整 地重构。在实际语音信号处理中,米样频率一般为8kHz10kH z.采样后的信号在时间上是离散的,但在幅度上仍然保持连续,所以要进行 量化处理。量化就是将信号的幅度分成若干个有限的区间,并且把同一区间的样本点都用一个幅度值表示,这个幅度值称为量化值。量化有3种方式:零记忆量 化、分组量化和序列量化。其中零记忆量化是最简单的一种,它的输入-输出特性采用阶梯型函数的形式。信号经过量化后,一定存在一个量化误差。其定义为e n =(n) -x(n)式中,e(n)为量化误差;xi(n)为量化后的采样值,即量化的输出; x( n)为未量化的采样值,即量化的输入。经过采样和量化后,一般还要对信号
16、进行预加重。其实质就是提升高频部分,使信号的频谱变得平坦,便于进行频谱分析或声道参数的分析。预加重滤波器一 -般是一阶的形式如下H(z)=1-uz-1式中,u值接近于1,一般取值在0.940.97之间。预加重后的信号在分析处理后, 需要进行去加重处理。2.1.2短时加窗处理为了得到短时声音信号,要对声音信号进行加窗处理。窗函数在声音信号 上滑动,将声音信号分成帧。分帧可以连续,也可以采用交叠分段的方法,交叠 部分称为帧移,一般为窗长的一半。在加窗的时候,不同的窗口选择将会得到不 同的分析结果。在选择窗函数时,需要考虑两个问题。(1)窗函数形状窗函数可以选择矩形窗,其表达式为1, 0 ? ?-
17、10,其他也可以选择汉明窗,表达式为2 nn0.54 - 0.46 cos 丁丁,0 ? ? ?- 1N- 10,其他或汉宁窗的)2 m0.51 - cos?ni,0 n N - 10,其他式中,N为窗口长度虽然这些窗函数的频率响应都具有低通特性, 但不同的窗函数形状将影响分帧后短时特征的特性。我们拿矩形窗和汉明窗作比较。图2-1( a)给出了 N=51时的矩形窗及其频率响应的对数幅度。51点汉明窗的频率响应如图2-1 (b)所示。可以看出,汉明窗的第一个零值频率位置比矩形窗要大一倍 左右,也就是说,汉明窗的带宽大约是同样宽度矩形窗带宽的两倍。从两个 图中也可以看出在通带外,汉明窗的衰减比矩形
18、窗大得多。矩形窗的傅里叶变换-20-40jW1J-60-8000.2归一化频率pi图2-1(a)矩形窗-100Hamming的傅里叶变换0-10-1000-20-30-40-50-60-70-80-900.2归一化频率piHamming的傅里叶变换0-10图2-1(b)汉明窗(2)窗函数长度窗函数长度对能否反映声音信号的幅度变化其决定性的作用。如果N特别大,即等于几个基音周期量级,则窗函数等效于很窄的低通 滤波器,此时信号短时信息将和慢地变化,因而也就不能充分反映波形变化的细 节;反之,如果N特别小,即等于或小于一个基音周期的量级,则信号的能量 将按照信号波形的细微状况而很快地起伏。如果N太小
19、,滤波器的通带变宽,则不能得到较为平滑的短时信息,因此窗函数的长度要选择合适。窗函数的衰减 基本上与窗的持续时间无关,因此当改变宽度 N时,只会使带宽发生变化。综上所述,矩形窗的频谱平滑性较好,但波形细节容易丢失,并且矩形窗 会产生泄露现象;而汉明窗可以有效地克服泄漏现象,应用更为广泛。2.2声音信号的时域参数分析2.2.1短时能量分析声音信号的能量分析是基于声音信号能量所时间有相当大的变化,特别是 清音段的能量一般比浊音段的小得多这一特性。 声音信号的短时能量分析给出了 反映这些幅度变化的一个合适的描述方法。对于信号x(n),短时能量的定义如下:En = m = - 乂 x m 3 n- m
20、 2二 m = - 乂 h(n - m)x2(m)=x2 ? h(n)式中,h(n)=32(n), Ep表示在信号的第n个点开始加窗函数时的短时能量。根据 定义式可以看出,窗函数加权的短时能量相当于声音信号的平方经过一个线性滤 波器的输出,该线性滤波器的单位冲击响应为h(n)。冲激响应h(n)的选择,或者说窗函数的选择决定了短时能量表示方法的特点。为了反映窗函数选择对短时能 量的影响,假设h(n)非常长,且为恒定幅度,那么En随时间的变化将变为很小, 这样的窗就等效为很窄的低通滤波器。我们要求的是对声音信号进行低通滤波, 但还不是很窄的低通滤波,至少短时能量应能反映声音信号的幅度变化。因此出
21、现了窗长选取上的矛盾,这种矛盾将在声音信号的短时表示方法的研究中反复出 现。即希望有一个短时窗(冲激响应),以响应快速的幅度变化。但是,太窄的 窗将得不到平滑的能量函数,并且窗函数的形状和长短直接影响着短时能量的性 质。如果用x 3(n)表示x(n)经过加窗处理后的信号,窗函数的长度为N,贝U短时能量可表示为En= m+n 1 x 32(m)短时能量En反映了声音能量随着时间缓慢变化的规律,它的主要用途有:首 先可以从清音中区分出浊音来,因为浊音的能量要比轻音的能量大得多;其次可以用来确定声母与韵母,无声与有声,连字等的分界。除此之外短时能量还可以 作为一种超音段信息用于语音识别。短时能量由于
22、是对信号进行平方运算,因而人为增加了高低信号之间的差 距,在一些应用场合不太适用。解决这个问题的简单方法是采用短时平均幅值来 表示能量的变化,其公式为sn+N - 1Mn = m= - x m 3 n - m = m=n | x (m)|图2-2 (a)加矩形窗的声音文件“你好”的短时平均能量222短时平均过零率短时平均过零率是声音信号时域分析中最简单的一种特征,它是指每帧内信号通过零值的次数。对于连续声音信号,可以考察其时域波形通过实践轴的情况。 而对于离散时间信号,如果相邻的取样值改变符号则称为过零,由此可计算过零 率。过零率就是样本改变符号的次数。 单位时间内的过零率称为平均过零率。 如
23、果信号是正弦信号,它的平均过零率就是信号的频率除以两倍的采样频率,采样频率是固定的,因此过零率在一定程度上可以反映出频率的信息。因为声音信号不是简单的正弦序列,所以平均过零率的表示方法就不那么确切。 然而短时平均 过零率仍然可以在一定程度上反映其频谱性质,可以通过短时平均过零率获得谱 特性的一种粗略估计,短时平均过零率的公式为Zn=1 m= -乂 |sgnx m - sgnx m - 1 | w n- m =11, ?n) o2 m=n-1 |sgnx 3(m)-sgnxw (m-1 川式中,sgnx(n)是符号函数,即sgnx(n)=根据公式可以看出,首先对声音信号序列x(n)进行成对处理,检查是否有过 零现象,若有符号变化,则表示又一次过零现象;然后进行一阶差分计算,取绝 对值;最后进行低通滤波。短时平均过零率可以用于声音信号分析。发浊音时,声带振动,因而声门激 励是频率为基频的声压波,它在经过声道时产生共振。尽管声道由若干个共振峰, 但由于声门的影响,其能量分布主要集中在 3kHz频率范围内;反之,在发清音 时,声带不振动声道的某部分收到阻塞产生类白噪声的激励, 该激励通过声道后 能量集中在比浊音时更高的频率范围内。 因此,浊音时的能量集中
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年1月南京市溧水区教育局所属事业单位公开招聘教师71人考试参考试题及答案解析
- 2026春季云南昆明市卫生学校学期招聘18人考试参考试题及答案解析
- 2026民丰特种纸股份有限公司招聘(浙江)考试参考题库及答案解析
- 2026国家统计局余姚调查队招聘编外工作人员1人考试参考题库及答案解析
- 2026中信银行招聘3人考试参考题库及答案解析
- 2026教育部海洋微生物资源库(中国海洋大学)工程技术人员招聘笔试模拟试题及答案解析
- 2026年上海科技大学附属学校教师招聘考试备考试题及答案解析
- 2026年蚌埠怀远县乡镇卫生院公开招聘工作人员14名考试备考题库及答案解析
- 2026浙江台州市计量技术研究院招聘编外人员1人考试备考题库及答案解析
- 2026广东中山一中教育集团铁城中学教师招聘考试参考试题及答案解析
- 2026年货物运输合同标准模板
- 2026年广州市民政局直属事业单位第一次公开招聘工作人员25人备考题库及1套参考答案详解
- 广西壮族自治区南宁市2025-2026学年七年级上学期期末语文综合试题
- 2024VADOD临床实践指南:耳鸣的管理解读课件
- 2025中国航空集团建设开发有限公司高校毕业生校园招聘5人笔试参考题库附带答案详解(3卷合一)
- 2025年山东畜牧兽医职业学院单招职业适应性测试题库附答案
- 贵州国企招聘:2026贵州贵阳花溪智联数智科技服务有限公司招聘9人参考题库附答案
- 1104报表基础报表、特色报表填报说明v1
- 铝材销售沟通话术技巧
- 第一单元写作:考虑目的和对象 教学课件
- 危化品无仓储经营培训
评论
0/150
提交评论