语音信号处理第13章

上传人：5*** IP属地：湖北上传时间：2021-06-29 格式：PPT 页数：38 大小：512KB 积分：25 举报 版权申诉

已阅读5页，还剩33页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、13.113.1概述概述 13.213.2耳语音的声学特征分析耳语音的声学特征分析 13.313.3耳语音增强耳语音增强 13.413.4耳语音转换正常音耳语音转换正常音 13.513.5耳语音识别耳语音识别 13.613.6今后的研究方向今后的研究方向 13.1 13.1 概述概述 v耳语语音通常称为耳语音，它是人们常见的语言交耳语语音通常称为耳语音，它是人们常见的语言交流方式之一，在会场、音乐厅、图书馆等禁止大声流方式之一，在会场、音乐厅、图书馆等禁止大声喧哗的场所被广泛应用；在移动通信系统广泛发展喧哗的场所被广泛应用；在移动通信系统广泛发展的今天，人们也常常采用耳语的方式来保证通话

2、的的今天，人们也常常采用耳语的方式来保证通话的保密性并防止打扰他人。因此，耳语音的研究具有保密性并防止打扰他人。因此，耳语音的研究具有广泛的应用前景。广泛的应用前景。 v随着科学技术的发展，近年来对耳语音的研究逐渐随着科学技术的发展，近年来对耳语音的研究逐渐走向多领域和实际应用，例如耳语音转换为正常音、走向多领域和实际应用，例如耳语音转换为正常音、耳语音的语音识别和说话人识别、耳语音的语音增耳语音的语音识别和说话人识别、耳语音的语音增强等等。强等等。耳语语音信号处理将综合多年来语音语言学、生理学、心理学、认知科学等多学科对耳语音的研究成果，更深层次的揭示耳语音的发音机理和听觉

3、关于耳语音信息的感知过程和处理机制；进一步揭示耳语音声学特性的变化特点和变化规律；建立和完善耳语语音信号处理的理论基础。同时在应用方面,对耳语音的研究可以应用于喉部切除的失音患者的语音交流以及安全场所的身份识别、犯罪鉴定等多个方面；在公安、司法等领域，耳语语音研究将有利于破译语音内容，识别罪犯身份等。 13.213.2耳语音的声学特征分析耳语音的声学特征分析 v汉语的音节一般由一个元音前后附加一个或两个辅音构成，汉语的音节一般由一个元音前后附加一个或两个辅音构成，音节前部的辅音称为声母，声母后面的部分称为韵母。音节前部的辅音称为声母，声母后面的部分称为韵母。任何任何语言的语音都

4、有语言的语音都有元音元音和和辅音辅音两种音素，根据发音机理的不同，两种音素，根据发音机理的不同，辅音又可以分为清辅音和浊辅音。辅音又可以分为清辅音和浊辅音。 v耳语音的清擦音、塞擦音和塞音声母部分与正常音的发音方耳语音的清擦音、塞擦音和塞音声母部分与正常音的发音方式没有大的差异。而韵母部分发音时，声门保持半开状态，式没有大的差异。而韵母部分发音时，声门保持半开状态，声门前部完全靠拢，后部的气声门有一个宽三角裂隙，声带声门前部完全靠拢，后部的气声门有一个宽三角裂隙，声带不振动，从肺部出来的气流通过开放区产生摩擦噪声，故声不振动，从肺部出来的气流通过开放区产生摩擦噪声，故声源为噪声。源为

5、噪声。由于发耳语音时，伪声带区域变窄，声门保持半开状态，使由于发耳语音时，伪声带区域变窄，声门保持半开状态，使得声道增加了气管和肺部分，产生附加的零极点，改变了声得声道增加了气管和肺部分，产生附加的零极点，改变了声道传输函数，所以耳语音的韵母部分与正常音的韵母部分有道传输函数，所以耳语音的韵母部分与正常音的韵母部分有较大的差异。图为耳语音与正常音发音时声门状态的比较。较大的差异。图为耳语音与正常音发音时声门状态的比较。正常音声门状态正常音声门状态耳语音声门状态耳语音声门状态 v由于韵母部分的发音方式不同，耳语音的声学特征表现在：由于韵母部分的发音方式不同，耳语音的声学特征表现在：

6、1.1.激励源是噪声，声带不振动，韵母部分和浊声母部分没有激励源是噪声，声带不振动，韵母部分和浊声母部分没有基频，又由于耳语音是气声发音，其能量比正常发音大约基频，又由于耳语音是气声发音，其能量比正常发音大约低低20dB20dB，信噪比更低，而且发音时需要大量气流，因而语，信噪比更低，而且发音时需要大量气流，因而语速较慢，音长较长。速较慢，音长较长。 2.2.声道传输函数改变，耳语音韵母共振峰的位置和带宽发生声道传输函数改变，耳语音韵母共振峰的位置和带宽发生变化。耳语音的频谱较正常音平坦，变化。耳语音的频谱较正常音平坦，500Hz500Hz以下被衰减，以下被衰减，对耳语识别感知起重要

7、作用的频率段主要集中在对耳语识别感知起重要作用的频率段主要集中在500500 4000Hz4000Hz之间。之间。 v正常音与耳语音的时域波形图和语谱图的比较正常音耳语音 v由于耳语音的元音和浊辅音在发音时不产生声带振动，没有基频，所以此前一些适用于正常音识别的特征参数就需要重新评估或者寻找新的替代参数。就目前而言，对耳语音声学特性分析研究的对象主要包括：音长、音高、声调和共振峰等。 13.2.1 音长音长这里的音长即为所发音音节的时长。根据研究，不同语言的耳语音语速都比正常音语速要慢。通过对汉语耳语音为实验对象的验证实验指出汉语耳语音平均每秒钟比正常音慢0.63个音节，如

8、表所示。而对汉语辅音的音长的早期研究也证明汉语耳语音的声韵母音长比正常音的都要长。耳语音的音长发音人观测数均值标准差最小值最大值均值标准差 HHK10218631703873237 JF103273328438660-9 GL102142518324850 SZQ1017924157238-1-6 WLT1020721172240226 WYS1020134138255-112 XB1022230166268318 XH102262117524923-5 YT102522421128669-28 ZSP102461821627040-13 ZW1019518163213404 To

9、tal11022648138387288 13.2.2 音高音高虽然耳语音的元音和浊辅音没有基频，但是人们在用耳语交流时，还是可以感受到声音的高低，即音高。研究发现对后元音u、o、a，音高频率接近后元音的第一共振峰频率，前元音、e、i，音高接近其第二共振峰频率，而其它元音的音高更接近第二共振峰。表2和表3即为不同元音下基频及前三个共振峰值比较。人们通过改变第一、第二共振峰频率值发现，对音高的感知随共振峰的提高而提高，随共振峰的下降而下降，尤其第二共振峰的改变对音高感知的影响更大，第一共振峰和第二共振峰同时改变时对音高感知的影响最大。表2男性耳语音元音基频及前三个共振峰值

10、 VowelPerceived pitchF1F2F3 i232035023002750 I187043018902300 185061018702230 166080016202210 136089014102120 a1220100012502110 o112088010902190 U9204609102250 u900370870 表3女性耳语音元音基频及前三个共振峰值 VowelPerceived pitch F1F2F3 i273035027003330 I225070022902950 228089022602900 202092020402710 156097015802610

11、 a1320109013402680 o122095012202430 U127065013002810 u840390870 13.2.3 声调声调 1958年Jensen对挪威语、瑞典语、斯洛文尼亚语和中国普通话这四种有声调特性的语音进行了一系列的声调辨认实验，有人也对28 个耳语音节的声调进行测听实验，结果都表明孤立字词耳语音是含有声调信息的，这为耳语音的孤立字识别提供一定依据。而声调信息主要由音节中的元音部分决定，所以主要考虑韵母部分的相关参数。研究表明在重构语音过程中发现幅值包络和音长对三声、四声的声调识别有着重要作用，同时加大幅值包络和音长可以提高人们对声调的感知，

12、后来许多研究者对音长和幅值包络的研究进一步证实了这两个参数的有效性。此外还发现共振峰也在一定程度上提供了声调信息。 13.2.4 共振峰共振峰各国研究者对英语、塞尔维亚语、日语和汉语耳语音的主要元音研究表明，不同人、不同语种和不同元音的共振峰偏移量都不同，但也有相同的规律：耳语音的第一、二共振峰频率高于正常音，第三共振峰频率和正常音差不多，耳语音的共振峰带宽变宽。目前大多数耳语音共振峰估计算法都是对正常音算法的改进。例如将共振峰估计分为三步：自相关函数（ACF）、分段线性预测滤波（Segment the ACF spectrum）、逆滤波(IFC)，最终根据逆滤波系数直接得到

13、共振峰值。算法流程自相关函数自相关函数谱分段线性预测滤波得到逆滤波系数并行逆滤波语音信号共振峰频率除了共振峰的估计，修改和偏移共振峰也对耳语音到正常音的转化起着重要作用。由于耳语音转换正常音研究的需要，常要将共振峰进行修改，方法主要有直接法和间接法：前者先求出共振峰值，然后对其进行修改；后者通过极点位置或线谱对频率的改变间接修改共振峰值。通过比较直接法和极点间接修改法的性能，发现极点法更灵活、更有效，而线谱对修改法则可避免极点法中的极点交叉问题。 13.2.5 耳语音美尔频率倒谱特征参数分析耳语音美尔

14、频率倒谱特征参数分析考虑到耳语音发音的特殊性，目前的研究大多集中在对正常语音特征参数的修正上。例如采用特征弯折将MFCC、 LPCC和小波参数的分布转换为正态分布，用改进的GMM进行耳语音识别，可获得较好的识别率。徐柏龄等人基于对耳语音共振峰位置、能量以及人耳对耳语音听觉模型的研究提出了修正MFCC参数MFCCM 和MFCCExp-log。通过分析发现共振峰频率F1、F3较之其他共振峰参数对说话人识别更具有重要作用，通过对现有三种频域尺度下 LPCC、MFCC和ASCC（Accent Sensitive Scale Coefficient，口音敏感尺度系数）的研究，提出一种新的

15、频域尺度WSS （Whisper Sensitive Scale, 耳语敏感尺度），并在此尺度下提取新的特征参数WSSC（Whisper Sensitive Scale Coefficient, 耳语敏感尺度系数）用于基于HMM的说话人识别系统。 WSS尺度与线性尺度关系如下式： HzfHz f Hzf f f f w 40002000 310/3000exp1 2000 4100 20000 1220 2478 44 4 13.313.3耳语音增强耳语音增强耳语音的信噪比很低，因此在对其进行识别和转换时，耳语音的信噪比很低，因此在对其进行识别和转换时，必须进行耳语音的增强。虽然正常语

16、音的增强方法也适用于必须进行耳语音的增强。虽然正常语音的增强方法也适用于耳语音，但由于耳语音更容易受背景噪声的干扰，所以需要耳语音，但由于耳语音更容易受背景噪声的干扰，所以需要寻求更适合耳语音的增强方法。传统的正常语音增强方法如寻求更适合耳语音的增强方法。传统的正常语音增强方法如维纳滤波和谱减法对提高信噪比有很好的效果，但都残留了维纳滤波和谱减法对提高信噪比有很好的效果，但都残留了很大的很大的“音乐噪声音乐噪声”，对耳语音来说无法很好适用。因此苏，对耳语音来说无法很好适用。因此苏州大学的赵鹤鸣提出两种增强耳语音信噪比的算法，州大学的赵鹤鸣提出两种增强耳语音信噪比的算法，“基于基于 A

17、D AD 神经网络的耳语音增强神经网络的耳语音增强”和和“基于基于LMS LMS 自适应滤波的耳自适应滤波的耳语音增强语音增强”。 v“基于基于AD AD 神经网络的耳语音增强神经网络的耳语音增强”利用神经网络利用神经网络具有模仿人脑结构来处理信息的自适应线性神经元具有模仿人脑结构来处理信息的自适应线性神经元（ADAptiveADAptive LINearLINear Neuron, ADLINE Neuron, ADLINE）网络的线性）网络的线性预测来自适应地消除由谱减法产生的预测来自适应地消除由谱减法产生的“音乐噪声音乐噪声” 。ADALINE ADALINE 是线性神经网络的典

18、型代表是线性神经网络的典型代表, , 它以它以LMS LMS 为学习算法，使均方误差最小，获得具有较强抗噪为学习算法，使均方误差最小，获得具有较强抗噪能力网络。能力网络。 FFTG()S1()IFFT 相位 s1(n) s1(n-1) s2(n-2) sk(n-k) ADALINE X(n) y + _ 耳语音增强系统原理框图 v“基于基于LMS LMS 自适应滤波的耳语音增强算法自适应滤波的耳语音增强算法”也采用也采用谱减法得到一个增强耳语音信号，得到较好的谱包谱减法得到一个增强耳语音信号，得到较好的谱包络之后对增强信号进行络之后对增强信号进行LMSLMS自适应滤波

19、，消除由谱自适应滤波，消除由谱减法产生的音乐噪声。这种方法在低信噪比的情况减法产生的音乐噪声。这种方法在低信噪比的情况下，信噪比可以提高下，信噪比可以提高20dB20dB左右。左右。 s(n-1) s(n-2) s(n-k) LMS 自适应滤波器 x=s+n + - e y L M S 自适应噪声对消原理 13.413.4耳语音转换正常音耳语音转换正常音 v由于耳语音独特的发音机理和声学特性，使得耳语音的变换由于耳语音独特的发音机理和声学特性，使得耳语音的变换不同于正常音下不同说话人之间的语音变换，也不同于气管不同于正常音下不同说话人之间的语音变换，也不同于气管食管语音

20、的增强。后两种语音变换都是在基频存在的情况下食管语音的增强。后两种语音变换都是在基频存在的情况下进行相应处理，而耳语音的变换是从无基频到有基频的转变进行相应处理，而耳语音的变换是从无基频到有基频的转变，因此有两个关键问题需要解决。一是如何添加基频，二是，因此有两个关键问题需要解决。一是如何添加基频，二是如何修正声道传输函数。如何修正声道传输函数。汉语耳语音转换为正常音的系统框图预处理声韵分割同态信号处理系统提取声道相应函数同态信号处理逆系统低频提升低频提升后处理耳语音声母韵母正常音

21、基频上图是汉语耳语音转换为正常音的系统框图。首先把8KHz， 16bit采集的耳语音进行预加重去除噪声，然后分帧加海明窗，窗长20ms，窗移10ms。通过计算各帧信号的对称相对熵进行声韵分割，分别获得耳语音的声母部分和韵母部分。韵母部分通过同态信号处理正系统后，用短时窗提取声道响应序列的复倒谱，然后通过同态信号处理逆系统恢复出声道传递时序序列，再把汉语普通话的归一字调模型根据音调加入基频。将处理过的韵母和声母连接起来就可基本恢复出正常音。 v因为耳语音声道传输函数相对于正常音发生了改变，使得韵因为耳语音声道传输函数相对于正常音发生了改变，使得韵母母500Hz500Hz以下

22、的谱被衰减，所以需要一个低频提升滤波器对以下的谱被衰减，所以需要一个低频提升滤波器对韵母部分进行低频提升。考虑到合成语音的自然度，对耳语韵母部分进行低频提升。考虑到合成语音的自然度，对耳语音的声母也要适当提升。由于耳语音音量比较小，语速比较音的声母也要适当提升。由于耳语音音量比较小，语速比较慢，所以对合成出的正常音还要进行音量加强和语速提升。慢，所以对合成出的正常音还要进行音量加强和语速提升。 v利用该系统对汉语耳语音利用该系统对汉语耳语音“零零”到到“九九”进行转换，恢复出进行转换，恢复出正常音，人耳可以对其正常分辨。但是它只是实现了孤立字正常音，人耳可以对其正常分辨。但是它只是实现

23、了孤立字的变换，而且其中一些重要的具体问题还有待于进一步研究的变换，而且其中一些重要的具体问题还有待于进一步研究，如精确的声韵分割、基音周期的确定、声音的自然度等。，如精确的声韵分割、基音周期的确定、声音的自然度等。 13.513.5耳语音识别耳语音识别 v13.5.1 孤立字词的耳语音识别孤立字词的耳语音识别孤立字词识别是耳语音识别的一个重要分支，目前相关的研究还较少。孤立字词识别系统在语音识别领域中存在的问题最少，而且孤立字词识别的许多技术是可以用到字词挑选和连续语音识别中去的。因为字词之间有停顿,孤立单词的端点检测比较容易，而且单词之间的协同发音影响也可减至最低。 v正常

24、音的孤立字识别方法大致有：（1）采用判别函数或准则方法；（2）DTW方法；（3）矢量量化（VQ）；（4）人工神经网络；（5）HMM；（6）以上方法的混合技术。 13.5.2 13.5.2 耳语音的说话人识别耳语音的说话人识别徐柏龄等人设计了说话人识别系统框图。系统主要分为预处理、特征提取、建模与模型匹配3个部分。其中预处理主要是对耳语音进行端点检测、语音增强、高通滤波（500Hz）和谱相减降噪。提取的特征矢量为20阶传统MFCC参数、 MFCCM和MFCCExp-Log及其各自的一阶差分系数（）。模型则采用的是标准隐马尔可夫模型和改进隐马尔可夫模型。实验中采用的样本库由

25、20个人（10男10女）的汉语耳语音数字（0-9）构成，每人将十个数字依次读10遍，合计2000音。用400个音进行训练，1600个音用于识别，识别结果见表特征参量与模型起止频率 0-4000Hz500-4000 MFCC+（标准HMM ） 85.12%88.25% MFCCM+（标准HMM ） 87.94%88.88% MFCCExp-Log+（标准 HMM） 90.50%91.37% MFCCExp-Log+ MFCCM（改进HMM） 90.13%92.31% 从结果可以看出采用MFCCM 和MFCCExp-Log参数的说话人识别系统的效能都优于采用传统的MFCC 参数的系统。

26、而且采用MFCCExp-Log的优势尤为明显，这是由于考虑到人耳敏感区域的偏移，与实际情况最为吻合。采用MFCCM 的结果虽然没有MFCCExp-Log的效果好，但是它对现有系统的改动较小，系统在处理正常音时性能接近传统MFCC参数，而且计算量明显小于MFCCExp-Log ，因此在某些应用情况下采用 MFCCM 效果更好。 13.613.6今后的研究方向今后的研究方向 v关于耳语音的研究是一个综合了听觉生理学、心理学、认知科学以及信号和信息处理的多领域跨学科的课题，有着极其广阔的应用前景。但是相关的研究才刚刚开始，许多问题有待解决。如耳语音的韵律问题，目前是各国研究者非常兴趣的课题，现在仍处于初级研究阶段；耳语音的情感识别研究还没有展开；在已有的正常语音研究成果基础上，寻找适用于耳语语音的信号处理方法的研究，做为一个新兴课题，它还有许多问题需要去探讨。 1 1. . 耳语音的声学特征分析与提取耳语音的声学特征分析与提取以语音学的分析研究为基础，从工程信息处理角度去研究耳语语音信号处理的关键技术和方法。包括耳语语音信号中的特征分析和提取方法；研究新的耳语语音信息

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

语音信号处理第13章

文档简介

温馨提示

最新文档

评论

语音信号处理第13章

文档简介

温馨提示

最新文档

评论

相关文档