




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、13.1概述13.2耳语音的声学特征分析13.3耳语音增强13.4耳语音转换正常音13.5耳语音识别13.6今后的研究方向 第十三章 耳语语音信号处理13.1 概述耳语语音通常称为耳语音,它是人们常见的语言交流方式之一,在会场、音乐厅、图书馆等禁止大声喧哗的场所被广泛应用;在移动通信系统广泛发展的今天,人们也常常采用耳语的方式来保证通话的保密性并防止打扰他人。因此,耳语音的研究具有广泛的应用前景。 随着科学技术的发展,近年来对耳语音的研究逐渐走向多领域和实际应用,例如耳语音转换为正常音、耳语音的语音识别和说话人识别、耳语音的语音增强等等。 耳语语音信号处理将综合多年来语音语言学、生理学、心理学
2、、认知科学等多学科对耳语音的研究成果,更深层次的揭示耳语音的发音机理和听觉关于耳语音信息的感知过程和处理机制;进一步揭示耳语音声学特性的变化特点和变化规律;建立和完善耳语语音信号处理的理论基础。同时在应用方面,对耳语音的研究可以应用于喉部切除的失音患者的语音交流以及安全场所的身份识别、犯罪鉴定等多个方面;在公安、司法等领域,耳语语音研究将有利于破译语音内容,识别罪犯身份等。 13.2耳语音的声学特征分析 汉语的音节一般由一个元音前后附加一个或两个辅音构成,音节前部的辅音称为声母,声母后面的部分称为韵母。任何语言的语音都有元音和辅音两种音素,根据发音机理的不同,辅音又可以分为清辅音和浊辅音。耳语
3、音的清擦音、塞擦音和塞音声母部分与正常音的发音方式没有大的差异。而韵母部分发音时,声门保持半开状态,声门前部完全靠拢,后部的气声门有一个宽三角裂隙,声带不振动,从肺部出来的气流通过开放区产生摩擦噪声,故声源为噪声。 由于发耳语音时,伪声带区域变窄,声门保持半开状态,使得声道增加了气管和肺部分,产生附加的零极点,改变了声道传输函数,所以耳语音的韵母部分与正常音的韵母部分有较大的差异。图为耳语音与正常音发音时声门状态的比较。正常音声门状态 耳语音声门状态 正常音与耳语音的时域波形图和语谱图的比较 正常音 耳语音 由于耳语音的元音和浊辅音在发音时不产生声带振动,没有基频,所以此前一些适用于正常音识别
4、的特征参数就需要重新评估或者寻找新的替代参数。就目前而言,对耳语音声学特性分析研究的对象主要包括:音长、音高、声调和共振峰等。 耳语音的音长 发音人观测数均值标准差最小值最大值均值标准差HHK10218631703873237JF103273328438660-9GL102142518324850SZQ1017924157238-1-6WLT1020721172240226WYS1020134138255-112XB1022230166268318XH102262117524923-5YT102522421128669-28ZSP102461821627040-13ZW101951816321
5、3404Total1102264813838728813.2.2 音高 虽然耳语音的元音和浊辅音没有基频,但是人们在用耳语交流时,还是可以感受到声音的高低,即音高。研究发现对后元音u、o、a,音高频率接近后元音的第一共振峰频率,前元音 、e、i,音高接近其第二共振峰频率,而其它元音的音高更接近第二共振峰。表2和表3即为不同元音下基频及前三个共振峰值比较。人们通过改变第一、第二共振峰频率值发现,对音高的感知随共振峰的提高而提高,随共振峰的下降而下降,尤其第二共振峰的改变对音高感知的影响更大,第一共振峰和第二共振峰同时改变时对音高感知的影响最大。表2男性耳语音元音基频及前三个共振峰值 VowelP
6、erceived pitchF1F2F3i232035023002750I187043018902300185061018702230166080016202210136089014102120a1220100012502110o112088010902190U9204609102250u90037087013.2.3 声调 1958年Jensen对挪威语、瑞典语、斯洛文尼亚语和中国普通话这四种有声调特性的语音进行了一系列的声调辨认实验,有人也对28 个耳语音节的声调进行测听实验,结果都表明孤立字词耳语音是含有声调信息的,这为耳语音的孤立字识别提供一定依据。而声调信息主要由音节中的元音部分决定
7、,所以主要考虑韵母部分的相关参数。研究表明在重构语音过程中发现幅值包络和音长对三声、四声的声调识别有着重要作用,同时加大幅值包络和音长可以提高人们对声调的感知,后来许多研究者对音长和幅值包络的研究进一步证实了这两个参数的有效性。此外还发现共振峰也在一定程度上提供了声调信息。 13.2.4 共振峰 各国研究者对英语、塞尔维亚语、日语和汉语耳语音的主要元音研究表明,不同人、不同语种和不同元音的共振峰偏移量都不同,但也有相同的规律:耳语音的第一、二共振峰频率高于正常音,第三共振峰频率和正常音差不多,耳语音的共振峰带宽变宽。目前大多数耳语音共振峰估计算法都是对正常音算法的改进。例如将共振峰估计分为三步
8、:自相关函数(ACF)、分段线性预测滤波(Segment the ACF spectrum)、逆滤波(IFC),最终根据逆滤波系数直接得到共振峰值。 除了共振峰的估计,修改和偏移共振峰也对耳语音到正常音的转化起着重要作用。由于耳语音转换正常音研究的需要,常要将共振峰进行修改,方法主要有直接法和间接法:前者先求出共振峰值,然后对其进行修改;后者通过极点位置或线谱对频率的改变间接修改共振峰值。通过比较直接法和极点间接修改法的性能,发现极点法更灵活、更有效,而线谱对修改法则可避免极点法中的极点交叉问题。 13.2.5 耳语音美尔频率倒谱特征参数分析 考虑到耳语音发音的特殊性,目前的研究大多集中在对正
9、常语音特征参数的修正上。例如采用特征弯折将MFCC、LPCC和小波参数的分布转换为正态分布,用改进的GMM进行耳语音识别,可获得较好的识别率。徐柏龄等人基于对耳语音共振峰位置、能量以及人耳对耳语音听觉模型的研究提出了修正MFCC参数MFCCM 和MFCCExp-log。 通过分析发现共振峰频率F1、F3较之其他共振峰参数对说话人识别更具有重要作用,通过对现有三种频域尺度下LPCC、MFCC和ASCC(Accent Sensitive Scale Coefficient,口音敏感尺度系数)的研究,提出一种新的频域尺度WSS(Whisper Sensitive Scale, 耳语敏感尺度),并在此
10、尺度下提取新的特征参数WSSC(Whisper Sensitive Scale Coefficient, 耳语敏感尺度系数)用于基于HMM的说话人识别系统。 WSS尺度与线性尺度关系如下式: 13.3耳语音增强耳语音的信噪比很低,因此在对其进行识别和转换时,必须进行耳语音的增强。虽然正常语音的增强方法也适用于耳语音,但由于耳语音更容易受背景噪声的干扰,所以需要寻求更适合耳语音的增强方法。传统的正常语音增强方法如维纳滤波和谱减法对提高信噪比有很好的效果,但都残留了很大的“音乐噪声”,对耳语音来说无法很好适用。因此苏州大学的赵鹤鸣提出两种增强耳语音信噪比的算法,“基于AD 神经网络的耳语音增强”和
11、“基于LMS 自适应滤波的耳语音增强”。 “基于AD 神经网络的耳语音增强”利用神经网络具有模仿人脑结构来处理信息的自适应线性神经元(ADAptive LINear Neuron, ADLINE)网络的线性预测来自适应地消除由谱减法产生的“音乐噪声”。ADALINE 是线性神经网络的典型代表, 它以LMS 为学习算法,使均方误差最小,获得具有较强抗噪能力网络。 耳语音增强系统原理框图 LMS自适应噪声对消原理 13.4耳语音转换正常音 由于耳语音独特的发音机理和声学特性,使得耳语音的变换不同于正常音下不同说话人之间的语音变换,也不同于气管食管语音的增强。后两种语音变换都是在基频存在的情况下进行
12、相应处理,而耳语音的变换是从无基频到有基频的转变,因此有两个关键问题需要解决。一是如何添加基频,二是如何修正声道传输函数。 上图是汉语耳语音转换为正常音的系统框图。首先把8KHz,16bit采集的耳语音进行预加重去除噪声,然后分帧加海明窗,窗长20ms,窗移10ms。通过计算各帧信号的对称相对熵进行声韵分割,分别获得耳语音的声母部分和韵母部分。韵母部分通过同态信号处理正系统后,用短时窗提取声道响应序列的复倒谱,然后通过同态信号处理逆系统恢复出声道传递时序序列,再把汉语普通话的归一字调模型根据音调加入基频。将处理过的韵母和声母连接起来就可基本恢复出正常音。 因为耳语音声道传输函数相对于正常音发生
13、了改变,使得韵母500Hz以下的谱被衰减,所以需要一个低频提升滤波器对韵母部分进行低频提升。考虑到合成语音的自然度,对耳语音的声母也要适当提升。由于耳语音音量比较小,语速比较慢,所以对合成出的正常音还要进行音量加强和语速提升。利用该系统对汉语耳语音“零”到“九”进行转换,恢复出正常音,人耳可以对其正常分辨。但是它只是实现了孤立字的变换,而且其中一些重要的具体问题还有待于进一步研究,如精确的声韵分割、基音周期的确定、声音的自然度等。 13.5耳语音识别13.5.1 孤立字词的耳语音识别 孤立字词识别是耳语音识别的一个重要分支,目前相关的研究还较少。孤立字词识别系统在语音识别领域中存在的问题最少,
14、而且孤立字词识别的许多技术是可以用到字词挑选和连续语音识别中去的。因为字词之间有停顿,孤立单词的端点检测比较容易,而且单词之间的协同发音影响也可减至最低。 正常音的孤立字识别方法大致有:(1)采用判别函数或准则方法;(2)DTW方法;(3)矢量量化(VQ);(4)人工神经网络;(5)HMM;(6)以上方法的混合技术。 13.5.2 耳语音的说话人识别 徐柏龄等人设计了说话人识别系统框图。系统主要分为预处理、特征提取、建模与模型匹配3个部分。其中预处理主要是对耳语音进行端点检测、语音增强、高通滤波(500Hz)和谱相减降噪。提取的特征矢量为20阶传统MFCC参数、MFCCM和MFCCExp-Lo
15、g及其各自的一阶差分系数()。模型则采用的是标准隐马尔可夫模型和改进隐马尔可夫模型。 实验中采用的样本库由20个人(10男10女)的汉语耳语音数字(0-9)构成,每人将十个数字依次读10遍,合计2000音。用400个音进行训练,1600个音用于识别,识别结果见表 特征参量与模型起止频率0-4000Hz500-4000MFCC+(标准HMM)85.12%88.25%MFCCM+(标准HMM)87.94%88.88%MFCCExp-Log+(标准HMM)90.50%91.37%MFCCExp-Log+ MFCCM(改进HMM)90.13%92.31%从结果可以看出采用MFCCM 和MFCCExp-
16、Log参数的说话人识别系统的效能都优于采用传统的MFCC 参数的系统。 而且采用MFCCExp-Log的优势尤为明显,这是由于考虑到人耳敏感区域的偏移,与实际情况最为吻合。采用MFCCM 的结果虽然没有MFCCExp-Log的效果好,但是它对现有系统的改动较小,系统在处理正常音时性能接近传统MFCC参数,而且计算量明显小于MFCCExp-Log ,因此在某些应用情况下采用MFCCM 效果更好。 13.6今后的研究方向 关于耳语音的研究是一个综合了听觉生理学、心理学、认知科学以及信号和信息处理的多领域跨学科的课题,有着极其广阔的应用前景。但是相关的研究才刚刚开始,许多问题有待解决。如耳语音的韵律
17、问题,目前是各国研究者非常兴趣的课题,现在仍处于初级研究阶段;耳语音的情感识别研究还没有展开;在已有的正常语音研究成果基础上,寻找适用于耳语语音的信号处理方法的研究,做为一个新兴课题,它还有许多问题需要去探讨。1. 耳语音的声学特征分析与提取以语音学的分析研究为基础,从工程信息处理角度去研究耳语语音信号处理的关键技术和方法。包括耳语语音信号中的特征分析和提取方法;研究新的耳语语音信息特征参数的提取、记述、变换、加工和表现方法。重点研究韵律学以外的耳语语音信息特征参数,如声管特征、气息特征等。由于耳语语音不同于正常语音的无基音和低声级发音模式,使得目前正常语音采用的韵律特征对于耳语语音来讲效果可
18、能就不太明显。所以此前一些适用于正常语音识别的特征参数需要重新评估或者寻找新的参数。耳语语音的特点是声管变化与正常语音不同,而且是气声发音模式,所以还需要研究频谱的相关特征以及语音音质、气息等超音段特征的分析与提取。这些研究对于正常语音也具有参考研究价值。 2耳语音的听觉感知特性的研究耳语音是一种变异音,对于这种变异音人耳存在不同于正常音的感知特性,对此的解释是对于变异语音,人耳可以单独将变异信息分离出来送到大脑某一神经中枢来判读,而将剩余信息提交大脑语言神经中枢,最后综合两方面的信息得到完整的信息。因此人耳对于耳语音的听觉感知会发生那些不同于正常语音的变化、有什么特征参数可以有效的描述人们对耳语音的这种感知特性?在模式识别方面,传统方法是否依然有效,如果效果不佳,如何改进?上述问题都有待于各国学者的研究和证明。 3耳语音信号处理的应用研究耳语音信号处理是多领域跨学科的研究课题,有着极其广阔的应用前景,例如电子人工喉的发音带有金属声,发声越大,噪声越大,并且
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 河北省省级联测2024-2025学年高二下学期6月期末考试地理试卷(含答案)
- 部编版四年级上册第五单元《麻雀》教案
- 山东考生历史题目及答案
- 日语会话类题目及答案
- 平面与立体相交2
- 2023-2024学年湖北省武汉市武昌区高二下学期6月期末考试数学试题(解析版)
- 2025届广东省广州市高三下学期一模考试语文试题(解析版)
- 环境工程经济分析课件
- 合成树脂乳液内墙涂料产品质量河南省监督抽查实施细则
- 拖拉机产品质量监督抽查实施细则
- 《物流运输实务》课件
- 在幼儿园中打造有趣的数学学习环境
- 食品小作坊应急预案范本
- 2023全屋定制家具合同范文正规范本(通用版)
- 兰州市新初一分班英语试卷含答案
- 吾心可鉴 澎湃的福流
- ZPW-2000A无绝缘轨道电路演示幻灯片
- 黄平县旧州飞机场红砖厂原址改扩建项目环评报告
- 统计预测与决策-南京财经大学中国大学mooc课后章节答案期末考试题库2023年
- 零星材料采购合同
- 天津市大港区2023年数学五下期末学业质量监测模拟试题含解析
评论
0/150
提交评论