版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、13.113.1概述概述 13.213.2耳语音的声学特征分析耳语音的声学特征分析 13.313.3耳语音增强耳语音增强 13.413.4耳语音转换正常音耳语音转换正常音 13.513.5耳语音识别耳语音识别 13.613.6今后的研究方向今后的研究方向 13.1 13.1 概述概述 v耳语语音通常称为耳语音,它是人们常见的语言交耳语语音通常称为耳语音,它是人们常见的语言交 流方式之一,在会场、音乐厅、图书馆等禁止大声流方式之一,在会场、音乐厅、图书馆等禁止大声 喧哗的场所被广泛应用;在移动通信系统广泛发展喧哗的场所被广泛应用;在移动通信系统广泛发展 的今天,人们也常常采用耳语的方式来保证通话
2、的的今天,人们也常常采用耳语的方式来保证通话的 保密性并防止打扰他人。因此,耳语音的研究具有保密性并防止打扰他人。因此,耳语音的研究具有 广泛的应用前景。广泛的应用前景。 v随着科学技术的发展,近年来对耳语音的研究逐渐随着科学技术的发展,近年来对耳语音的研究逐渐 走向多领域和实际应用,例如耳语音转换为正常音、走向多领域和实际应用,例如耳语音转换为正常音、 耳语音的语音识别和说话人识别、耳语音的语音增耳语音的语音识别和说话人识别、耳语音的语音增 强等等。强等等。 耳语语音信号处理将综合多年来语音语言学、 生理学、心理学、认知科学等多学科对耳语音的研 究成果,更深层次的揭示耳语音的发音机理和听觉
3、关于耳语音信息的感知过程和处理机制;进一步揭 示耳语音声学特性的变化特点和变化规律;建立和 完善耳语语音信号处理的理论基础。同时在应用方 面,对耳语音的研究可以应用于喉部切除的失音患者 的语音交流以及安全场所的身份识别、犯罪鉴定等 多个方面;在公安、司法等领域,耳语语音研究将 有利于破译语音内容,识别罪犯身份等。 13.213.2耳语音的声学特征分析耳语音的声学特征分析 v汉语的音节一般由一个元音前后附加一个或两个辅音构成,汉语的音节一般由一个元音前后附加一个或两个辅音构成, 音节前部的辅音称为声母,声母后面的部分称为韵母。音节前部的辅音称为声母,声母后面的部分称为韵母。任何任何 语言的语音都
4、有语言的语音都有元音元音和和辅音辅音两种音素,根据发音机理的不同,两种音素,根据发音机理的不同, 辅音又可以分为清辅音和浊辅音。辅音又可以分为清辅音和浊辅音。 v耳语音的清擦音、塞擦音和塞音声母部分与正常音的发音方耳语音的清擦音、塞擦音和塞音声母部分与正常音的发音方 式没有大的差异。而韵母部分发音时,声门保持半开状态,式没有大的差异。而韵母部分发音时,声门保持半开状态, 声门前部完全靠拢,后部的气声门有一个宽三角裂隙,声带声门前部完全靠拢,后部的气声门有一个宽三角裂隙,声带 不振动,从肺部出来的气流通过开放区产生摩擦噪声,故声不振动,从肺部出来的气流通过开放区产生摩擦噪声,故声 源为噪声。源为
5、噪声。 由于发耳语音时,伪声带区域变窄,声门保持半开状态,使由于发耳语音时,伪声带区域变窄,声门保持半开状态,使 得声道增加了气管和肺部分,产生附加的零极点,改变了声得声道增加了气管和肺部分,产生附加的零极点,改变了声 道传输函数,所以耳语音的韵母部分与正常音的韵母部分有道传输函数,所以耳语音的韵母部分与正常音的韵母部分有 较大的差异。图为耳语音与正常音发音时声门状态的比较。较大的差异。图为耳语音与正常音发音时声门状态的比较。 正常音声门状态正常音声门状态 耳语音声门状态耳语音声门状态 v由于韵母部分的发音方式不同,耳语音的声学特征表现在:由于韵母部分的发音方式不同,耳语音的声学特征表现在:
6、1.1.激励源是噪声,声带不振动,韵母部分和浊声母部分没有激励源是噪声,声带不振动,韵母部分和浊声母部分没有 基频,又由于耳语音是气声发音,其能量比正常发音大约基频,又由于耳语音是气声发音,其能量比正常发音大约 低低20dB20dB,信噪比更低,而且发音时需要大量气流,因而语,信噪比更低,而且发音时需要大量气流,因而语 速较慢,音长较长。速较慢,音长较长。 2.2.声道传输函数改变,耳语音韵母共振峰的位置和带宽发生声道传输函数改变,耳语音韵母共振峰的位置和带宽发生 变化。耳语音的频谱较正常音平坦,变化。耳语音的频谱较正常音平坦,500Hz500Hz以下被衰减,以下被衰减, 对耳语识别感知起重要
7、作用的频率段主要集中在对耳语识别感知起重要作用的频率段主要集中在500500 4000Hz4000Hz之间。之间。 v正常音与耳语音的时域波形图和语谱图的比较 正常音 耳语音 v由于耳语音的元音和浊辅音在发音时不产生声带振 动,没有基频,所以此前一些适用于正常音识别的 特征参数就需要重新评估或者寻找新的替代参数。 就目前而言,对耳语音声学特性分析研究的对象主 要包括:音长、音高、声调和共振峰等。 13.2.1 音长音长 这里的音长即为所发音音节的时长。根据研究,不 同语言的耳语音语速都比正常音语速要慢。通过对 汉语耳语音为实验对象的验证实验指出汉语耳语音 平均每秒钟比正常音慢0.63个音节,如
8、表所示。而 对汉语辅音的音长的早期研究也证明汉语耳语音的 声韵母音长比正常音的都要长。 耳语音的音长 发音人观测数均值标准差最小值最大值均值 标准 差 HHK10218631703873237 JF103273328438660-9 GL102142518324850 SZQ1017924157238-1-6 WLT1020721172240226 WYS1020134138255-112 XB1022230166268318 XH102262117524923-5 YT102522421128669-28 ZSP102461821627040-13 ZW1019518163213404 To
9、tal11022648138387288 13.2.2 音高音高 虽然耳语音的元音和浊辅音没有基频,但是人们在用耳语交 流时,还是可以感受到声音的高低,即音高。研究发现对后 元音u、o、a,音高频率接近后元音的第一共振峰频 率,前元音 、e、i,音高接近其第二共振峰 频率,而其它元音的音高更接近第二共振峰。表2和表3即为 不同元音下基频及前三个共振峰值比较。人们通过改变第一、 第二共振峰频率值发现,对音高的感知随共振峰的提高而提 高,随共振峰的下降而下降,尤其第二共振峰的改变对音高 感知的影响更大,第一共振峰和第二共振峰同时改变时对音 高感知的影响最大。 表2男性耳语音元音基频及前三个共振峰值
10、 VowelPerceived pitchF1F2F3 i232035023002750 I187043018902300 185061018702230 166080016202210 136089014102120 a1220100012502110 o112088010902190 U9204609102250 u900370870 表3女性耳语音元音基频及前三个共振峰值 VowelPerceived pitch F1F2F3 i273035027003330 I225070022902950 228089022602900 202092020402710 156097015802610
11、 a1320109013402680 o122095012202430 U127065013002810 u840390870 13.2.3 声调声调 1958年Jensen对挪威语、瑞典语、斯洛文尼亚语和中国普通 话这四种有声调特性的语音进行了一系列的声调辨认实验, 有人也对28 个耳语音节的声调进行测听实验,结果都表明 孤立字词耳语音是含有声调信息的,这为耳语音的孤立字识 别提供一定依据。而声调信息主要由音节中的元音部分决定, 所以主要考虑韵母部分的相关参数。研究表明在重构语音过 程中发现幅值包络和音长对三声、四声的声调识别有着重要 作用,同时加大幅值包络和音长可以提高人们对声调的感知,
12、后来许多研究者对音长和幅值包络的研究进一步证实了这两 个参数的有效性。此外还发现共振峰也在一定程度上提供了 声调信息。 13.2.4 共振峰共振峰 各国研究者对英语、塞尔维亚语、日语和汉语耳语音的 主要元音研究表明,不同人、不同语种和不同元音的共振峰 偏移量都不同,但也有相同的规律:耳语音的第一、二共振 峰频率高于正常音,第三共振峰频率和正常音差不多,耳语 音的共振峰带宽变宽。目前大多数耳语音共振峰估计算法都 是对正常音算法的改进。例如将共振峰估计分为三步:自相 关函数(ACF)、分段线性预测滤波(Segment the ACF spectrum)、逆滤波(IFC),最终根据逆滤波系数直接得到
13、 共振峰值。 算法流程 自 相 关 函 数自 相 关 函 数 谱分 段 线 性 预 测 滤 波 得 到 逆 滤 波 系 数 并 行 逆 滤 波 语 音 信 号 共 振 峰 频 率 除了共振峰的估计,修改和偏移共振峰也对耳语音到正常音 的转化起着重要作用。由于耳语音转换正常音研究的需要, 常要将共振峰进行修改,方法主要有直接法和间接法:前者 先求出共振峰值,然后对其进行修改;后者通过极点位置或 线谱对频率的改变间接修改共振峰值。通过比较直接法和极 点间接修改法的性能,发现极点法更灵活、更有效,而线谱 对修改法则可避免极点法中的极点交叉问题。 13.2.5 耳语音美尔频率倒谱特征参数分析耳语音美尔
14、频率倒谱特征参数分析 考虑到耳语音发音的特殊性,目前的研究大多集中在对 正常语音特征参数的修正上。例如采用特征弯折将MFCC、 LPCC和小波参数的分布转换为正态分布,用改进的GMM进行 耳语音识别,可获得较好的识别率。徐柏龄等人基于对耳语 音共振峰位置、能量以及人耳对耳语音听觉模型的研究提出 了修正MFCC参数MFCCM 和MFCCExp-log。 通过分析发现共振峰频率F1、F3较之其他共振峰参数对 说话人识别更具有重要作用,通过对现有三种频域尺度下 LPCC、MFCC和ASCC(Accent Sensitive Scale Coefficient, 口音敏感尺度系数)的研究,提出一种新的
15、频域尺度WSS (Whisper Sensitive Scale, 耳语敏感尺度),并在此尺 度下提取新的特征参数WSSC(Whisper Sensitive Scale Coefficient, 耳语敏感尺度系数)用于基于HMM的说话人识 别系统。 WSS尺度与线性尺度关系如下式: HzfHz f Hzf f f f w 40002000 310/3000exp1 2000 4100 20000 1220 2478 44 4 13.313.3耳语音增强耳语音增强 耳语音的信噪比很低,因此在对其进行识别和转换时,耳语音的信噪比很低,因此在对其进行识别和转换时, 必须进行耳语音的增强。虽然正常语
16、音的增强方法也适用于必须进行耳语音的增强。虽然正常语音的增强方法也适用于 耳语音,但由于耳语音更容易受背景噪声的干扰,所以需要耳语音,但由于耳语音更容易受背景噪声的干扰,所以需要 寻求更适合耳语音的增强方法。传统的正常语音增强方法如寻求更适合耳语音的增强方法。传统的正常语音增强方法如 维纳滤波和谱减法对提高信噪比有很好的效果,但都残留了维纳滤波和谱减法对提高信噪比有很好的效果,但都残留了 很大的很大的“音乐噪声音乐噪声”,对耳语音来说无法很好适用。因此苏,对耳语音来说无法很好适用。因此苏 州大学的赵鹤鸣提出两种增强耳语音信噪比的算法,州大学的赵鹤鸣提出两种增强耳语音信噪比的算法,“基于基于 A
17、D AD 神经网络的耳语音增强神经网络的耳语音增强”和和“基于基于LMS LMS 自适应滤波的耳自适应滤波的耳 语音增强语音增强”。 v“基于基于AD AD 神经网络的耳语音增强神经网络的耳语音增强”利用神经网络利用神经网络 具有模仿人脑结构来处理信息的自适应线性神经元具有模仿人脑结构来处理信息的自适应线性神经元 (ADAptiveADAptive LINearLINear Neuron, ADLINE Neuron, ADLINE)网络的线性)网络的线性 预测来自适应地消除由谱减法产生的预测来自适应地消除由谱减法产生的“音乐噪声音乐噪声” 。ADALINE ADALINE 是线性神经网络的典
18、型代表是线性神经网络的典型代表, , 它以它以LMS LMS 为学习算法,使均方误差最小,获得具有较强抗噪为学习算法,使均方误差最小,获得具有较强抗噪 能力网络。能力网络。 FFTG()S1()IFFT 相位 s1(n) s1(n-1) s2(n-2) sk(n-k) ADALINE X(n) y + _ 耳 语 音 增 强 系 统 原 理 框 图 v“基于基于LMS LMS 自适应滤波的耳语音增强算法自适应滤波的耳语音增强算法”也采用也采用 谱减法得到一个增强耳语音信号,得到较好的谱包谱减法得到一个增强耳语音信号,得到较好的谱包 络之后对增强信号进行络之后对增强信号进行LMSLMS自适应滤波
19、,消除由谱自适应滤波,消除由谱 减法产生的音乐噪声。这种方法在低信噪比的情况减法产生的音乐噪声。这种方法在低信噪比的情况 下,信噪比可以提高下,信噪比可以提高20dB20dB左右。左右。 s(n-1) s(n-2) s(n-k) LMS 自适应滤波器 x=s+n + - e y L M S 自 适 应 噪 声 对 消 原 理 13.413.4耳语音转换正常音耳语音转换正常音 v由于耳语音独特的发音机理和声学特性,使得耳语音的变换由于耳语音独特的发音机理和声学特性,使得耳语音的变换 不同于正常音下不同说话人之间的语音变换,也不同于气管不同于正常音下不同说话人之间的语音变换,也不同于气管 食管语音
20、的增强。后两种语音变换都是在基频存在的情况下食管语音的增强。后两种语音变换都是在基频存在的情况下 进行相应处理,而耳语音的变换是从无基频到有基频的转变进行相应处理,而耳语音的变换是从无基频到有基频的转变 ,因此有两个关键问题需要解决。一是如何添加基频,二是,因此有两个关键问题需要解决。一是如何添加基频,二是 如何修正声道传输函数。如何修正声道传输函数。 汉语耳语音转换为正常音的系统框图 预 处 理 声 韵 分 割 同 态 信 号 处 理 系 统 提 取 声 道 相 应 函 数 同 态 信 号 处 理 逆 系 统 低 频 提 升 低 频 提 升 后 处 理 耳 语 音 声 母 韵 母 正 常 音
21、 基 频 上图是汉语耳语音转换为正常音的系统框图。首先把8KHz, 16bit采集的耳语音进行预加重去除噪声,然后分帧加海明 窗,窗长20ms,窗移10ms。通过计算各帧信号的对称相对熵 进行声韵分割,分别获得耳语音的声母部分和韵母部分。韵 母部分通过同态信号处理正系统后,用短时窗提取声道响应 序列的复倒谱,然后通过同态信号处理逆系统恢复出声道传 递时序序列,再把汉语普通话的归一字调模型根据音调加入 基频。将处理过的韵母和声母连接起来就可基本恢复出正常 音。 v因为耳语音声道传输函数相对于正常音发生了改变,使得韵因为耳语音声道传输函数相对于正常音发生了改变,使得韵 母母500Hz500Hz以下
22、的谱被衰减,所以需要一个低频提升滤波器对以下的谱被衰减,所以需要一个低频提升滤波器对 韵母部分进行低频提升。考虑到合成语音的自然度,对耳语韵母部分进行低频提升。考虑到合成语音的自然度,对耳语 音的声母也要适当提升。由于耳语音音量比较小,语速比较音的声母也要适当提升。由于耳语音音量比较小,语速比较 慢,所以对合成出的正常音还要进行音量加强和语速提升。慢,所以对合成出的正常音还要进行音量加强和语速提升。 v利用该系统对汉语耳语音利用该系统对汉语耳语音“零零”到到“九九”进行转换,恢复出进行转换,恢复出 正常音,人耳可以对其正常分辨。但是它只是实现了孤立字正常音,人耳可以对其正常分辨。但是它只是实现
23、了孤立字 的变换,而且其中一些重要的具体问题还有待于进一步研究的变换,而且其中一些重要的具体问题还有待于进一步研究 ,如精确的声韵分割、基音周期的确定、声音的自然度等。,如精确的声韵分割、基音周期的确定、声音的自然度等。 13.513.5耳语音识别耳语音识别 v13.5.1 孤立字词的耳语音识别孤立字词的耳语音识别 孤立字词识别是耳语音识别的一个重要分支,目前相关 的研究还较少。孤立字词识别系统在语音识别领域中存在的 问题最少,而且孤立字词识别的许多技术是可以用到字词挑 选和连续语音识别中去的。因为字词之间有停顿,孤立单词 的端点检测比较容易,而且单词之间的协同发音影响也可减 至最低。 v正常
24、音的孤立字识别方法大致有: (1)采用判别函数或准则方法; (2)DTW方法; (3)矢量量化(VQ); (4)人工神经网络; (5)HMM; (6)以上方法的混合技术。 13.5.2 13.5.2 耳语音的说话人识别耳语音的说话人识别 徐柏龄等人设计了说话人识别系统框图。系统主要分为预处 理、特征提取、建模与模型匹配3个部分。其中预处理主要 是对耳语音进行端点检测、语音增强、高通滤波(500Hz) 和谱相减降噪。提取的特征矢量为20阶传统MFCC参数、 MFCCM和MFCCExp-Log及其各自的一阶差分系数()。模型 则采用的是标准隐马尔可夫模型和改进隐马尔可夫模型。 实验中采用的样本库由
25、20个人(10男10女)的汉语耳语音数 字(0-9)构成,每人将十个数字依次读10遍,合计2000音 。用400个音进行训练,1600个音用于识别,识别结果见表 特征参量与模型 起止频率 0-4000Hz500-4000 MFCC+(标准HMM ) 85.12%88.25% MFCCM+(标准HMM ) 87.94%88.88% MFCCExp-Log+(标准 HMM) 90.50%91.37% MFCCExp-Log+ MFCCM( 改进HMM) 90.13%92.31% 从结果可以看出采用MFCCM 和MFCCExp-Log参数的说话 人识别系统的效能都优于采用传统的MFCC 参数的系统。
26、 而 且采用MFCCExp-Log的优势尤为明显,这是由于考虑到人耳 敏感区域的偏移,与实际情况最为吻合。采用MFCCM 的结果 虽然没有MFCCExp-Log的效果好,但是它对现有系统的改动 较小,系统在处理正常音时性能接近传统MFCC参数,而且计 算量明显小于MFCCExp-Log ,因此在某些应用情况下采用 MFCCM 效果更好。 13.613.6今后的研究方向今后的研究方向 v关于耳语音的研究是一个综合了听觉生理学、心理学、认知 科学以及信号和信息处理的多领域跨学科的课题,有着极其 广阔的应用前景。但是相关的研究才刚刚开始,许多问题有 待解决。如耳语音的韵律问题,目前是各国研究者非常兴趣 的课题,现在仍处于初级研究阶段;耳语音的情感识别研究 还没有展开;在已有的正常语音研究成果基础上,寻找适用 于耳语语音的信号处理方法的研究,做为一个新兴课题,它 还有许多问题需要去探讨。 1 1. . 耳语音的声学特征分析与提取耳语音的声学特征分析与提取 以语音学的分析研究为基础,从工程信息处理角度去研究耳 语语音信号处理的关键技术和方法。包括耳语语音信号中的 特征分析和提取方法;研究新的耳语语音信息
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- AI博士培养路径
- 泌尿系统感染辩证
- 2025 高中语文必修上册《哦香雪》香雪的乡村文化传承与创新课件
- 养蚕技术考试题库及答案
- 血型鉴定护理试题及答案
- 2025年临床执业医师《外科护理学》专项训练卷
- 医保基金使用内部管控培训试题及答案
- 徐州钳工考试题库及答案
- 医疗器械广告审查办法培训试题及答案
- 医疗争议第三方调解衔接制度
- 2026年国网江苏省电力有限公司高校毕业生招聘约825人(第二批)笔试模拟试题及答案解析
- 2026年春人音版(简谱)(新教材)小学音乐二年级下册教学计划及进度表
- 【四年级】【数学】【春季下】开学家长会:与数同行共话梦想【课件】
- 2026年陕西航空职业技术学院单招职业技能测试模拟测试卷学生专用
- 2026年及未来5年中国面粉加工行业市场发展现状及投资方向研究报告
- 2026年春季统编版小学道德与法治四年级下册教学计划
- 2026年春季北师大版(2024)小学数学二年级下册教学计划
- 2026年内蒙古建筑职业技术学院单招职业技能考试题库及参考答案详解(新)
- 互联网企业网络安全管理制度(标准版)
- 1.1时代为我搭舞台(课件)-中职思想政治《心理健康与职业生涯》高教版2023基础模块
- 打击诈骗犯罪 警民同心发力 (课件)
评论
0/150
提交评论