使用HTS进行中文语音合成的研究_第1页
使用HTS进行中文语音合成的研究_第2页
使用HTS进行中文语音合成的研究_第3页
使用HTS进行中文语音合成的研究_第4页
使用HTS进行中文语音合成的研究_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

使用HTS进行中文语音合成的研究大纲简介语料更换说明训练资料训练资料处理成果展示结论未来研究方向语音合成概观单元选取合成可从语料库取得正确的单元音质较好合成的语音易有不连续的问题不易改变合成语音的特性基于隐藏式马可夫模型合成从统计模型产生语音参数由参数经编码合成语音合成的语音较平滑与稳定容易改变合成语音的特性HTS简介HMM-basedSpeechSynthesisSystem(HTS)约开始于1995年,由NagoyaInstituteofTechnology发展,主要参与者为KeiichiTokuda等人。训练阶段以隐藏式马可夫模型(HiddenMarkovModels)和决策树对语音频谱(spectrum)、音高(pitch)、音长(stateduration)建立模型。合成阶段根据给定的文字将其HMM串接起来,透过MLSA(MelLogSpectrumApproximation)滤波器合成音档。HTS系统概观语料更换说明安装Cygwin环境及相关工具可参考先前的说明文件.tw/users/heycat/cygwin下前置作业.txtHTS-demo_CMU-ARCTIC-SLT音档 ..\data\rawquestions档 ..\data\questions\questions_qst001.hedlabel档 ..\data\labels\full ..\data\labels\mono ..\data\labels\gen训练资料盲友会有声书--视障者视窗XP作业系统入门录音者:陆瑜音档总数:1153个音档时间长度:4小时33分50秒取样频率:16

kHz句数:3923句字数:48423字训练资料处理将训练的音档透过forcedalignment取得音长、音素和声调等信息将训练音档的文字送到中研院中文断词系统取得断词信息结合以上信息产生所需的label档训练资料A语料B语料C语料内容盲友会有声书视障者视窗XP作业系统入门新闻短句口语短句新闻口语短句录音者陆瑜(女)不详(男)不详(女)声道单声道单声道单声道取样频率16kHz16kHz16kHz取样分辨率16-bit16-bit16-bit时间长度4小时22分40秒1小时43分54秒4小时10分24秒句数3,976句2,601句4,873句字数46,237字27,816字62,572字音素种类Biphone模型ㄅㄚ b_a a_sil

ㄅㄛ b_u u_o o_silㄅㄧㄝ b_i i_e e_silㄅㄧㄠ b_i i_a a_u u_sil静音(,。!?:;、)sil共有165种A语料:146种 125,531个B语料:156种

79,053个C语料:156种 162,375个Label档的格式

1/3u1^u2-u3+u4=u5/T:t1+t2-t3=t4^t5/P:p1-p2@p3-p4

/C:c1-c2#c3-c4!c5/M:m1+m2/W:w1-w2$w3;w4/N:n1+n2@n3+n4/S:s1-s2u1~u5:前前一个音素、前一个音素、目前的音素、

下一个音素、下下一个音素t1~t5:前前一个声调、前一个声调、目前的声调、

下一个声调、下下一个声调p1:目前的音素在字里的顺序(正序)p2:目前的音素在字里的顺序(倒序)p3:目前的音素在词里的顺序(正序)p4:目前的音素在词里的顺序(倒序)Label档的格式

2/3u1^u2-u3+u4=u5/T:t1+t2-t3=t4^t5/P:p1-p2@p3-p4

/C:c1-c2#c3-c4!c5/M:m1+m2/W:w1-w2$w3;w4/N:n1+n2@n3+n4/S:s1-s2c1:目前的字在词里的顺序(正序)c2:目前的字在词里的顺序(倒序)c5:目前的字含有几个音素m1:前一个字含有几个音素m2:下一个字含有几个音素Label档的格式

3/3u1^u2-u3+u4=u5/T:t1+t2-t3=t4^t5/P:p1-p2@p3-p4

/C:c1-c2#c3-c4!c5/M:m1+m2/W:w1-w2$w3;w4/N:n1+n2@n3+n4/S:s1-s2w1:目前的词在句子里的顺序(正序)w2:目前的词在句子里的顺序(倒序)w3:目前的词含有几个音素w4:目前的词含有几个字n1:前一个词含有几个音素n2:下一个词含有几个音素n3:前一个词含有几个字n4:下一个词含有几个字s2:目前的句子共有几个词Label档自序

ㄗˋㄒㄩˋsilz_iiii_silx_yuyu_silsil07900000 nil^nil-sil+z_ii=ii_sil/T:5+5-5=4^4/P:1-1@1-6/C:1- 4#1-4!1/M:0+2/W:1-1$6;4/N:0+0@0+0/S:4-179000009100000 nil^sil-z_ii+ii_sil=x_yu/T:5+5-4=4^4/P:1-2@2-5/C:2- 3#2-3!2/M:1+2/W:1-1$6;4/N:0+0@0+0/S:4-1910000012100000 sil^z_ii-ii_sil+x_yu=yu_sil/T:5+4-4=4^4/P:2-1@3- 4/C:2-3#2-3!2/M:1+2/W:1-1$6;4/N:0+0@0+0/S:4-11210000014700000 z_ii^ii_sil-x_yu+yu_sil=sil/T:4+4-4=4^5/P:1-2@4- 3/C:3-2#3-2!2/M:2+1/W:1-1$6;4/N:0+0@0+0/S:4-11470000016900000 ii_sil^x_yu-yu_sil+sil=nil/T:4+4-4=5^5/P:2-1@5- 2/C:3-2#3-2!2/M:2+1/W:1-1$6;4/N:0+0@0+0/S:4-11690000025900000 x_yu^yu_sil-sil+nil=nil/T:4+4-5=5^5/P:1-1@6-1/C:4- 1#4-1!1/M:2+0/W:1-1$6;4/N:0+0@0+0/S:4-1Questions档记载一系列的资料分群规则(questionsets),使程序在建立决策树时,能应用label档中所订的各项特征进行资料分群。音素相关C-a_iC-a_C-_i声调相关0、1、2、3、4、5(silence)韵律相关成果展示1/2周杰伦(周董)赞前女友侯佩岑是完美的女人与情人,「周侯恋」分手两年,至今还没遇到可进攻追求的对象,江语晨也只是绯闻名单中的过客。(2008/10/18中国时报)WebTTS HTS发挥想象力,夜空真的像展露笑颜;只不过,就天文的角度来说,看起来像眼睛的,其实是太阳系的两大行星,左边比较白,比较亮的是金星,右边稍微红一点的则是木星,宛如双星拱月一般。(2008/12/01TVBS)WebTTSHTS成果展示2/2看到流落街头的小猫咪,会不会动了恻隐之心带回家呢?家住新疆的张培伟,今年五月在峡谷放牧时,看到一对全身溼答答冻得发抖的小动物,原本以为它们是草原班猫,当下决定带回家饲养,却怎么也没想到猫咪越养越大只,而且不吃干粮只吃肉,觉得事情不对劲了,张

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论