




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
13.1概述13.2耳语音的声学特征分析13.3耳语音增强
13.4耳语音转换正常音13.5耳语音识别13.6今后的研究方向
第十三章耳语语音信号处理13.1概述耳语语音通常称为耳语音,它是人们常见的语言交流方式之一,在会场、音乐厅、图书馆等禁止大声喧哗的场所被广泛应用;在移动通信系统广泛发展的今天,人们也常常采用耳语的方式来保证通话的保密性并防止打扰他人。因此,耳语音的研究具有广泛的应用前景。随着科学技术的发展,近年来对耳语音的研究逐渐走向多领域和实际应用,例如耳语音转换为正常音、耳语音的语音识别和说话人识别、耳语音的语音增强等等。 耳语语音信号处理将综合多年来语音语言学、生理学、心理学、认知科学等多学科对耳语音的研究成果,更深层次的揭示耳语音的发音机理和听觉关于耳语音信息的感知过程和处理机制;进一步揭示耳语音声学特性的变化特点和变化规律;建立和完善耳语语音信号处理的理论基础。同时在应用方面,对耳语音的研究可以应用于喉部切除的失音患者的语音交流以及安全场所的身份识别、犯罪鉴定等多个方面;在公安、司法等领域,耳语语音研究将有利于破译语音内容,识别罪犯身份等。13.2耳语音的声学特征分析
汉语的音节一般由一个元音前后附加一个或两个辅音构成,音节前部的辅音称为声母,声母后面的部分称为韵母。任何语言的语音都有元音和辅音两种音素,根据发音机理的不同,辅音又可以分为清辅音和浊辅音。耳语音的清擦音、塞擦音和塞音声母部分与正常音的发音方式没有大的差异。而韵母部分发音时,声门保持半开状态,声门前部完全靠拢,后部的气声门有一个宽三角裂隙,声带不振动,从肺部出来的气流通过开放区产生摩擦噪声,故声源为噪声。
由于发耳语音时,伪声带区域变窄,声门保持半开状态,使得声道增加了气管和肺部分,产生附加的零极点,改变了声道传输函数,所以耳语音的韵母部分与正常音的韵母部分有较大的差异。图为耳语音与正常音发音时声门状态的比较。 正常音声门状态
耳语音声门状态
由于韵母部分的发音方式不同,耳语音的声学特征表现在:
激励源是噪声,声带不振动,韵母部分和浊声母部分没有基频,又由于耳语音是气声发音,其能量比正常发音大约低20dB,信噪比更低,而且发音时需要大量气流,因而语速较慢,音长较长。
声道传输函数改变,耳语音韵母共振峰的位置和带宽发生变化。耳语音的频谱较正常音平坦,500Hz以下被衰减,对耳语识别感知起重要作用的频率段主要集中在500~4000Hz之间。
正常音与耳语音的时域波形图和语谱图的比较
正常音 耳语音
由于耳语音的元音和浊辅音在发音时不产生声带振动,没有基频,所以此前一些适用于正常音识别的特征参数就需要重新评估或者寻找新的替代参数。就目前而言,对耳语音声学特性分析研究的对象主要包括:音长、音高、声调和共振峰等。13.2.1音长
这里的音长即为所发音音节的时长。根据研究,不同语言的耳语音语速都比正常音语速要慢。通过对汉语耳语音为实验对象的验证实验指出汉语耳语音平均每秒钟比正常音慢0.63个音节,如表所示。而对汉语辅音的音长的早期研究也证明汉语耳语音的声韵母音长比正常音的都要长。
耳语音的音长
发音人观测数均值标准差最小值最大值△均值△标准差HHK10218631703873237JF103273328438660-9GL102142518324850SZQ1017924157238-1-6WLT1020721172240226WYS1020134138255-112XB1022230166268318XH102262117524923-5YT102522421128669-28ZSP102461821627040-13ZW1019518163213404Total1102264813838728813.2.2音高
虽然耳语音的元音和浊辅音没有基频,但是人们在用耳语交流时,还是可以感受到声音的高低,即音高。研究发现对后元音[u]、[o]、[a],音高频率接近后元音的第一共振峰频率,前元音[]、[γ]、[e]、[i],音高接近其第二共振峰频率,而其它元音的音高更接近第二共振峰。表2和表3即为不同元音下基频及前三个共振峰值比较。人们通过改变第一、第二共振峰频率值发现,对音高的感知随共振峰的提高而提高,随共振峰的下降而下降,尤其第二共振峰的改变对音高感知的影响更大,第一共振峰和第二共振峰同时改变时对音高感知的影响最大。表2男性耳语音元音基频及前三个共振峰值VowelPerceivedpitchF1F2F3i232035023002750I187043018902300ε185061018702230æ166080016202210136089014102120a1220100012502110o112088010902190U9204609102250u900370870\表3女性耳语音元音基频及前三个共振峰值VowelPerceivedpitchF1F2F3i273035027003330I225070022902950ε228089022602900æ202092020402710156097015802610a1320109013402680o122095012202430U127065013002810u840390870\13.2.3声调
1958年Jensen对挪威语、瑞典语、斯洛文尼亚语和中国普通话这四种有声调特性的语音进行了一系列的声调辨认实验,有人也对28个耳语音节的声调进行测听实验,结果都表明孤立字词耳语音是含有声调信息的,这为耳语音的孤立字识别提供一定依据。而声调信息主要由音节中的元音部分决定,所以主要考虑韵母部分的相关参数。研究表明在重构语音过程中发现幅值包络和音长对三声、四声的声调识别有着重要作用,同时加大幅值包络和音长可以提高人们对声调的感知,后来许多研究者对音长和幅值包络的研究进一步证实了这两个参数的有效性。此外还发现共振峰也在一定程度上提供了声调信息。13.2.4共振峰
各国研究者对英语、塞尔维亚语、日语和汉语耳语音的主要元音研究表明,不同人、不同语种和不同元音的共振峰偏移量都不同,但也有相同的规律:耳语音的第一、二共振峰频率高于正常音,第三共振峰频率和正常音差不多,耳语音的共振峰带宽变宽。目前大多数耳语音共振峰估计算法都是对正常音算法的改进。例如将共振峰估计分为三步:自相关函数(ACF)、分段线性预测滤波(SegmenttheACFspectrum)、逆滤波(IFC),最终根据逆滤波系数直接得到共振峰值。算法流程
除了共振峰的估计,修改和偏移共振峰也对耳语音到正常音的转化起着重要作用。由于耳语音转换正常音研究的需要,常要将共振峰进行修改,方法主要有直接法和间接法:前者先求出共振峰值,然后对其进行修改;后者通过极点位置或线谱对频率的改变间接修改共振峰值。通过比较直接法和极点间接修改法的性能,发现极点法更灵活、更有效,而线谱对修改法则可避免极点法中的极点交叉问题。
13.2.5耳语音美尔频率倒谱特征参数分析
考虑到耳语音发音的特殊性,目前的研究大多集中在对正常语音特征参数的修正上。例如采用特征弯折将MFCC、LPCC和小波参数的分布转换为正态分布,用改进的GMM进行耳语音识别,可获得较好的识别率。徐柏龄等人基于对耳语音共振峰位置、能量以及人耳对耳语音听觉模型的研究提出了修正MFCC参数MFCCM和MFCCExp-log。 通过分析发现共振峰频率F1、F3较之其他共振峰参数对说话人识别更具有重要作用,通过对现有三种频域尺度下LPCC、MFCC和ASCC(AccentSensitiveScaleCoefficient,口音敏感尺度系数)的研究,提出一种新的频域尺度WSS(WhisperSensitiveScale,耳语敏感尺度),并在此尺度下提取新的特征参数WSSC(WhisperSensitiveScaleCoefficient,耳语敏感尺度系数)用于基于HMM的说话人识别系统。WSS尺度与线性尺度关系如下式:13.3耳语音增强
耳语音的信噪比很低,因此在对其进行识别和转换时,必须进行耳语音的增强。虽然正常语音的增强方法也适用于耳语音,但由于耳语音更容易受背景噪声的干扰,所以需要寻求更适合耳语音的增强方法。传统的正常语音增强方法如维纳滤波和谱减法对提高信噪比有很好的效果,但都残留了很大的“音乐噪声”,对耳语音来说无法很好适用。因此苏州大学的赵鹤鸣提出两种增强耳语音信噪比的算法,“基于AD神经网络的耳语音增强”和“基于LMS自适应滤波的耳语音增强”。
“基于AD神经网络的耳语音增强”利用神经网络具有模仿人脑结构来处理信息的自适应线性神经元(ADAptiveLINearNeuron,ADLINE)网络的线性预测来自适应地消除由谱减法产生的“音乐噪声”。ADALINE是线性神经网络的典型代表,它以LMS为学习算法,使均方误差最小,获得具有较强抗噪能力网络。
耳语音增强系统原理框图“基于LMS自适应滤波的耳语音增强算法”也采用谱减法得到一个增强耳语音信号,得到较好的谱包络之后对增强信号进行LMS自适应滤波,消除由谱减法产生的音乐噪声。这种方法在低信噪比的情况下,信噪比可以提高20dB左右。
LMS自适应噪声对消原理13.4耳语音转换正常音
由于耳语音独特的发音机理和声学特性,使得耳语音的变换不同于正常音下不同说话人之间的语音变换,也不同于气管食管语音的增强。后两种语音变换都是在基频存在的情况下进行相应处理,而耳语音的变换是从无基频到有基频的转变,因此有两个关键问题需要解决。一是如何添加基频,二是如何修正声道传输函数。
汉语耳语音转换为正常音的系统框图 上图是汉语耳语音转换为正常音的系统框图。首先把8KHz,16bit采集的耳语音进行预加重去除噪声,然后分帧加海明窗,窗长20ms,窗移10ms。通过计算各帧信号的对称相对熵进行声韵分割,分别获得耳语音的声母部分和韵母部分。韵母部分通过同态信号处理正系统后,用短时窗提取声道响应序列的复倒谱,然后通过同态信号处理逆系统恢复出声道传递时序序列,再把汉语普通话的归一字调模型根据音调加入基频。将处理过的韵母和声母连接起来就可基本恢复出正常
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 资源重组对经济发展的推动作用试题及答案
- 北京市石景山区2025届高三一模考试数学试题 含解析
- 2025届江苏省南京市、盐城市高三下学期3月一模政治试题 含解析
- 公司火灾扑救应急预案(3篇)
- 计算机考试备考工具试题及答案
- 森林火灾应急扑救预案(3篇)
- 2025年国际市场中的战略风险分析试题及答案
- 开源社区参与与贡献试题及答案
- 消防火灾应急预案是什么(3篇)
- 行政法学考试难点试题及答案揭秘
- DL∕T 5161.5-2018 电气装置安装工程质量检验及评定规程 第5部分:电缆线路施工质量检验
- 煤矿重要岗位人员《水泵司机》复训机考题库(含答案)
- AQ 1020-2006 煤矿井下粉尘综合防治技术规范(正式版)
- 绿化养护服务投标方案(技术标)
- 2024年小学六年级下册数学期末考试卷附完整答案(历年真题)
- 信访事项约谈方案
- 健康行为干预的成本效益分析
- DB32T3916-2020建筑地基基础检测规程
- 2024年广东深圳市检察机关招录劳动合同制书记员招聘笔试参考题库附带答案详解
- 2024年贵州省铜仁市公共资源交易中心(市产权交易中心)引进2人历年高频考题难、易错点模拟试题(共500题)附带答案详解
- Ivy-League美国常春藤大学
评论
0/150
提交评论