语音信号处理文献翻译

上传人：o*** IP属地：湖北上传时间：2022-03-12 格式：DOC 页数：9 大小：998.40KB 积分：30 举报 版权申诉

已阅读5页，还剩4页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、利用扬声器元音的特征进行情感语音合成卡努仆太郎浅田川端康成吉富正义田卧勇太摘要：近来，情感语音合成方法已经在语音合成领域的研究中受到相当的重视。我们先前提出了一种基于案例的方法，通过利用最大振幅和元音的发声时间，和情感语音的基频特性产生情绪合成语音。在本研究中，我们提出了一种方法，其中，我们报告的方法是通过控制情绪合成语音的基频进一步提高。作为一个初步调查，我们采用一个语义是中性的日本名字的话语。使用该方法，从一个男性受试者带有情绪的讲话做出的情感合成语音，其平均可辨别度达到了83.9，18名受试者听取了情感合成话语“生气”、“快乐”、“中性”、“悲伤”或者“惊讶”时的发声是日本人“Taro”

2、，或“Hiroko”。在提出的方法中对基频的进一步调整使情感合成语音项目更清楚。关键词：情感语音特征参数合成语音情感合成语音元音中图分类号：Ó ISAROB 20131. 介绍近来，情感语音合成方法已经在语音合成领域的研究中受到相当的重视。为了产生情感合成语音，有必要控制该话语的韵律特征。自然语言主要由元音和辅音组成。日语有五个元音字母。元音比辅音留给听者的印象更深，主要是因为元音的发音时间比辅音更长，幅度比辅音更大。我们之前提出了一种基于实例的方法来产生情感合成语音，就是利用了元音的最大幅度和发音时间，这两个元素可以通过语音识别系统和情感语音的基频得到。在本研究中，我们提出

3、了一种方法，其中，我们报告的方法是通过控制情绪合成语音的基频进一步提高。我们的研究在报告研究中的优势是在情感语音中利用了元音的特征来产生情感合成语音。2. 提出的方法在第一阶段中，我们得到的情感语音的音频数据为WAV文件，受试者讲话时用了特意的情绪“愤怒”、“快乐”、“中性”、“难过”和“感到吃惊”。那么，对于每一种情绪讲话，我们测量每个元音发声的时间和波形的最大幅值，和情感语音的基频。在第二阶段中，我们把受试者的话语音素按序列进行综合。这个阶段包括的以下五个步骤：第1步对于一个元音前面出现一个辅音的情况，用中性情感进行语音分析的话，元音和辅音的总发声时间被转换成受试者中性情感语音的发声时间。

4、总前元音的发声持续时间和辅音是变换到时的语音与中性情感由人受试者。通过这个过程获得的合成语音在下文中被叫做“中性合成语音”。第2步对于一个元音前面出现一个辅音的情况，用以下情感“愤怒”、“快乐”、“难过”和“惊讶”进行语音合成的话，元音和辅音总发声持续时间被设定为一个值，这个值在中性合成语音中的比例等于元音发声持续时间在情感语音发声时间中的比例，等于在中性语音中元音的持续时间。第3步合成语音的基频，由第2步获得，首先被基于情感语音的基频调整。第4步由第三步获得的合成语音中如果辅音出现在元音之前，该幅度通过两次乘以比例被变换成最终值，其中，和分别表示情感语音和中性语音中元音的最大振幅。由步

5、骤1-4获得的合成语音在下文中被称为“情感合成语音”。第5步由第4步处理获得的情感合成语音的基频，被基于情感语音的基频进一步调整。如果没有出现辅音，在步骤1-5中描述的过程仅适用于元音。在本研究中，该在步骤5中描述的处理被添加到9中报道的方法。方法10使用重采样时对于第5步。3. 实验3.1状况我们使用了一个名为朱利11的语音识别系统保存语音开始的定时位置，和元音。一个男性受试者(A)在他50多岁时用每一种特意的情绪说出了语义上是中性的日本姓“Taro”和“Hiroko”其中的情绪包括“生气”、“高兴”、“中性”、“伤心”和“吃惊”。他的音频数据被记录为WAV文件。当发元音的时候，我们测量元

6、音的发音时间和波形振幅的最大绝对值。表1和2分别显示出受试者用每一种情感发出每个元音的发声时间和最大振幅。表1 受试者发元音的发声时间表2 受试者发出元音的最大振幅我们进行了主成分分析（PCA），来揭示情感语音中“愤怒”、“幸福”、“中性”、“难过”和“惊讶”的韵律特征，通过使用归一化的发声时间和第一个和最后元音的归一化最大振幅作为特征参数9。这里，发声时间和最大振幅的归一化通过设定五个情绪的进行时间和最大振幅的平均值为零，并为每一个情绪设置标准偏差。根据我们报道研究中的主成分分析9，“Taro”被选中是因为“愤怒”、“快乐”、“中性”、“难过”和“惊讶”的特征向量在每对情绪中间有很大的距离。

7、另一方面，“Hiroko”被选中的原因是它的“愤怒”、“快乐”、“中性”、“难过”和“惊讶”的特征向量在每对情绪中间没有很大的距离。图1所示为对“Taro”和“Hiroko”的五种情感语音进行主要成分分析获得的第一个和第二个元素所表达的特征向量空间。于是，日本姓“Taro”和“Hiroko”的五种情感“愤怒”、“快乐”、“中性”、“难过”和“惊讶”的情感语音的基频被测量了。之所以选择基频，是因为它是语音中众所周知的特征参数。如图2和3中所示，“Taro”和“Hiroko”对于每种情感分别有基频的特征时间依赖性。语音侍酒师Neo（高级版本;日立商务解决方案有限公司，日本横滨）12在第二部分的步骤

8、1-3中被用作语音合成器。在第二部分的步骤4中，数字音频编辑器被用于转换每个元音和辅音。然后使用重采样的方法10被用于第二部分的步骤5中。当我们在以上案例中使用第二部分描述的方法时，我们使用了语音侍酒师Neo的男性1模式。在“Taro”中，每个元音是/a/和/ o /，然后辅音在元音之前，为/ ta /和/ro/。在“Hiroko”中，每个元音为/ i /，/ o /和/ o/，然后辅音在元音之前为/hi/，/ ro /和/ko/。没有经过第二部分步骤5描述的处理过程的情感合成语音在下文中被称作“情感合成语音1”，而经过处理的情感合成语音被称作“情感合成语音2”。情感合成语音1被 9中报道的方

9、法得到，并且对第二部分的步骤5作出评估。这是一种在已经提到的方法中的一种新处理过程。参与试验的18名受试者由以下人员组成：两个50多岁的男性（包括受试者A），一个30多岁的男性，11个20多岁的男性，4个20多岁的女性。受试者听完以下排序的五种语音后对它们的情感分类作出判断，分别是：受试人A的情感语音、情感合成语音1、受试人A的情感语音、情感合成语音2。图1 第一个（水平）和第二个（垂直）元素的特征空间 a/taro/ b/hiroko/图2 受试者A说“Taro”的波形基频图3 受试者A说“Hiroko”的波形基频图4 用情感合成语音1合成的“Taro”波形基频图5 用情感合成语音2合成的“

10、Taro”波形基频图6 用情感合成语音1合成的“Hiroko”波形基频图7 用情感合成语音2合成的“Hiroko”波形基频3.2结果与讨论图4 9和5分别显示出了情感合成语音1、2对于“Taro”的基频，图6和图7分别显示出了情感合成语音1、2对于“Hiroko”的基频。图2和图3分别显示出了“Taro”和“Hiroko”的每种类型的情感合成语音的特征。相比较运用了9中所提到的方法得出的图4和图6的结果，经过上述方法的处理，图5和图7能更精确地反映出结果。如图8和图9所示，我们分别对“Taro”和“Hiroko”的情感语音波形的差异进行观察。在某种程度上，波形的差异也反映在每个情感合成语音上（

11、图8和图9）。图8 受试者A和情感合成语音1、2生成的“Taro”波形比较图9 受试者A和情感合成语音1、2生成的“Hiroko”波形比较语音侍酒师Neo在用第二部分的步骤3控制合成语音的频率时有一些限制，所以很难充分地调整基频。图8和图9所示分别为“Taro”和“Hiroko”的“中性”情感语音波形和合成语音波形的波形之间的差异。正如预期的那样，情感合成语音不可避免地与相应的情感讲话有一些波形差异。表3和表4所示分别为对“Taro”和“Hiroko”的主观评价结果。表3和表4为情感语音的结果被计算为所有18名受试者中的两组听力获得的平均值。如表3所示情感语音的平均准确度，情感合成语音1，和情

12、感语音合成2的准确度分别为95.0，70.0，“Taro”的准确度为90.0。情感语音、情感合成语音1和情感语音合成2的平均准确度为96.7、61.1，“Hiroko”的准确度为77.8 %（表4）。对于“Taro”和“Hiroko”，情感语音、情感合成语音1、情感合成语音2的平均准确度分别为95.9、65.6和83.9 %。第二部分的步骤5对“Taro”和“Hiroko”的情感合成语音平均准确度提高了主观评价结果18.3（=83.9-65.6）。同样对于“Taro”和“Hiroko”，情感合成语音2比情感合成语音1的优势在于该方法在情感合成语音项目中对进一步调整基频做了一个更清晰的印象。表3 “Taro”的主观评价结果表4 “Hiroko”的主观评价结果表4 “Hiroko”的主观评价结果4结论我们之前提出了一种基于实例的方法来产生情感合成语音，就是利用了元音的最大幅度和发音时间，这两个元素可以通

人人文库> 全部分类> 教育资料 > 备课教案

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

语音信号处理文献翻译

文档简介

温馨提示

最新文档

评论

语音信号处理文献翻译

文档简介

温馨提示

最新文档

评论

相关文档