版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第三讲 语音合成概述 背景 目标 基本问题 技术历程 典型系统 第三讲 语音合成概述 背景 目标 基本问题 技术历程 典型系统 背景 计算机的普及 人机自然语言交互 语音合成在人机交互系统中的作用 语音合成的其它应用 Speech Recognition Natural Language Understanding Dialog Manager Speech Synthesis Natural Language Generation Information Database Speech In Speech Out 第三讲 语音合成概述 背景 目标 基本问题 技术历程 典型系统 目标 “让计算
2、机像人一样说话” 从文字到语音TTS(Text-To-Speech) 从概念到语音CTS(Concept-To-Speech) 从意念到语音ITS(Intention-To-Speech) 现阶段-TTS 前瞻性-CTS 等待时机-ITS 第三讲 语音合成概述 背景 目标 基本问题 技术历程 典型系统 基本问题 原因 从语音到文字的信息缺失 从文字到语音(TTS) 从文字到发音描述 发什么音 如何发音 从发音描述到语音合成 第三讲 语音合成概述 背景 目标 基本问题 技术历程 典型系统 技术历程 1937,Voder,Bell Lab., H. Dudly 1962,级联共振峰,KTH,G.
3、Fant 1970s,混合共振峰,MIT,D. Klatt 1986,PSOLA,F. Charpentier 2000s,Unit-selection,N. Campbell & A. Black 1970s1980s1990s2000s Quality Time Format PSOLA Unit-selection: Segment-oriented Unit-selection: Prosody-oriented Excellent: Human-liked Fair: acceptable Bad: unacceptable 技术历程 1937,Voder,Bell Lab., H.
4、 Dudly 1962,级联共振峰,KTH,G. Fant 1970s,混合共振峰,MIT,D. Klatt 1986,PSOLA,F. Charpentier 2000s,Unit-selection,N. Campbell & A. Black 1970s1980s1990s2000s Quality Time Format PSOLA Unit-selection: Segment-oriented Unit-selection: Prosody-oriented Excellent: Human-liked Fair: acceptable Bad: unacceptable 音色,孤
5、立音段 音色,孤立音段 音色,孤立词 音色、韵律,语句 韵律,语句 第三讲 语音合成概述 背景 目标 基本问题 技术历程 典型系统 典型系统 基于单元挑选的TTS系统构成(韵律导向) 两个模块 前端:文本处理,从文字到发音描述 后端:语音处理,从发音描述到语音合成 一个接口,发音描述 数据库,合成单元 ParserProsodic Event Predictor Phonetizer Prosodic & Phonemic context Prosodic Acoustics Predictor Segment Acoustics Predictor Unit Selection Speech
6、 Synthesizer Text Normalization Corpora: speech phonetic alignment, prosodic parameter Dictionary: Lexicon, Rules, Homograph Input textInterface Output speech Frontend Backend 典型系统 例:北京交通大学成立于北京交通大学成立于1896年年。 Text Normalization:北京交通大学成立于1896年 ParserProsodic Event Predictor Phonetizer Prosodic & Phon
7、emic context Prosodic Acoustics Predictor Segment Acoustics Predictor Unit Selection Speech Synthesizer Text Normalization Corpora: speech phonetic alignment, prosodic parameter Dictionary: Lexicon, Rules, Homograph Input textInterface Output speech Frontend Backend 典型系统 例:北京交通大学成立于北京交通大学成立于1896年年。
8、Text Normalization:北京交通大学成立于1896年 Parser:北京(npr) 交通(ng)大学(ng)成立(vgo)于(pg)1896年(t) ParserProsodic Event Predictor Phonetizer Prosodic & Phonemic context Prosodic Acoustics Predictor Segment Acoustics Predictor Unit Selection Speech Synthesizer Text Normalization Corpora: speech phonetic alignment, pr
9、osodic parameter Dictionary: Lexicon, Rules, Homograph Input textInterface Output speech Frontend Backend POS (Part Of Speech) 典型系统 例:北京交通大学成立于北京交通大学成立于1896年年。 Text Normalization:北京交通大学成立于1896年 Parser:北京(npr) 交通(ng)大学(ng)成立(vgo)于(pg)1896年(t) Prosodic Event: OutPut PWord Layer: 北京 ng 交通 ng 大学 ng 成立于
10、vg_pg 一八九六年 t OutPut PPhrase Layer: # 北京交通大学# 成立于# 一八九六年 OutPut IPhrase Layer: # 北京交通大学成立于一八九六年 OutPut Sentence Layer: # 北京交通大学成立于一八九六年 ParserProsodic Event Predictor Phonetizer Prosodic & Phonemic context Prosodic Acoustics Predictor Segment Acoustics Predictor Unit Selection Speech Synthesizer Tex
11、t Normalization Corpora: speech phonetic alignment, prosodic parameter Dictionary: Lexicon, Rules, Homograph Input textInterface Output speech Frontend Backend 典型系统 例:北京交通大学成立于北京交通大学成立于1896年年。 Text Normalization:北京交通大学成立于1896年 Parser:北京(npr) 交通(ng)大学(ng)成立(vgo)于(pg)1896年(t) Prosodic Event: OutPut PW
12、ord Layer: 北京 ng 交通 ng 大学 ng 成立于 vg_pg 一八九六年 t Phonetizer:北 bei3 京 jing1(BL :北京) 交 jiao1(BL :交通) 通 tong1(BL :交通) 大 da4(BL :大学) 学 xue2(BL :大学) 成 cheng2(BL :成立) 立 li4(BL :成立) 于 yu2(BL :于) 一 yi1(BL :一八九六年) 八 ba1(BL :一八九六年) 九 jiu3(BL :一八 九六年) 六 liu4(BL :一八九六年) 年 nian2(BL :一八九六年) ParserProsodic Event Pre
13、dictor Phonetizer Prosodic & Phonemic context Prosodic Acoustics Predictor Segment Acoustics Predictor Unit Selection Speech Synthesizer Text Normalization Corpora: speech phonetic alignment, prosodic parameter Dictionary: Lexicon, Rules, Homograph Input textInterface Output speech Frontend Backend
14、典型系统 例:北京交通大学成立于北京交通大学成立于1896年年。 Interface: 2 1 2 %0 0 2 %0 ng 2 %0 ng 2 %0 ng 2 %0 0 0 2 %0 vg_pg 2 %0 0 0 2 %0 t 2 %0 0 1 2 ParserProsodic Event Predictor Phonetizer Prosodic & Phonemic context Prosodic Acoustics Predictor Segment Acoustics Predictor Unit Selection Speech Synthesizer Text Normaliz
15、ation Corpora: speech phonetic alignment, prosodic parameter Dictionary: Lexicon, Rules, Homograph Input textInterface Output speech Frontend Backend 典型系统 例:北京交通大学成立于北京交通大学成立于1896年年。 Prosodic Acoustic Predictor: GMM(bei3) GMM(jing1) GMM(jiao1) GMM(tong1) GMM(da4) GMM(xue2) GMM(cheng2) GMM(li4) GMM(y
16、u2) GMM(yi1) GMM(ba1) GMM(jiu3) GMM(liu4) GMM(nian4) Segment Acoustic Predictor: occ(bei3) occ(jing1) occ(jiao1) occ(tong1) occ(da4) occ(xue2) occ(cheng2) occ(li4) occ(yu2) occ(yi1) occ(ba1) occ(jiu3) occ(liu4) occ(nian4) ParserProsodic Event Predictor Phonetizer Prosodic & Phonemic context Prosodic
17、 Acoustics Predictor Segment Acoustics Predictor Unit Selection Speech Synthesizer Text Normalization Corpora: speech phonetic alignment, prosodic parameter Dictionary: Lexicon, Rules, Homograph Input textInterface Output speech Frontend Backend 典型系统 例:北京交通大学成立于北京交通大学成立于1896年年。 Prosodic Acoustic Pre
18、dictor: GMM(bei3) GMM(jing1) Segment Acoustic Predictor: occ(bei3) occ(jing1) Unit Selection: argmin cost(sam(bei3),sam(jing1),sam(jiao1),) Corpus: bei3 jing1 ParserProsodic Event Predictor Phonetizer Prosodic & Phonemic context Prosodic Acoustics Predictor Segment Acoustics Predictor Unit Selection
19、 Speech Synthesizer Text Normalization Corpora: speech phonetic alignment, prosodic parameter Dictionary: Lexicon, Rules, Homograph Input textInterface Output speech Frontend Backend 典型系统 例:北京交通大学成立于北京交通大学成立于1896年年。 Prosodic Acoustic Predictor: GMM(bei3) GMM(jing1) Segment Acoustic Predictor: occ(be
20、i3) occ(jing1) Unit Selection: argmin cost(sam(bei3),sam(jing1),sam(jiao1),) Corpus: bei3 jing1 Speech Synthesizer:北京交通大学成立于北京交通大学成立于1896年年。 ParserProsodic Event Predictor Phonetizer Prosodic & Phonemic context Prosodic Acoustics Predictor Segment Acoustics Predictor Unit Selection Speech Synthesize
21、r Text Normalization Corpora: speech phonetic alignment, prosodic parameter Dictionary: Lexicon, Rules, Homograph Input textInterface Output speech Frontend Backend 后续题目 基础知识 韵律 原理分析 关键技术 数据库构建 文本处理 声学建模 最优搜索/合成器 相关研究 音色调整/转换 HMM合成器 挑战 基于数据驱动的韵律建模 Two trainable components: based on an annotated corp
22、us Prosodic event predictor Prosodic parameter predictor prosodic event phonetic context prosodic acoustic model prosodic parameter prosodic annotation speech phonetic annotation text annotated corpus prosodic event prosodic description model parser, POS 韵律功能 Prosody structure Ex. 1, 已经取得文凭的和尚未取得文凭的
23、干部 Ex. 2, 顺天府秋捐归您啦,八旗兵丁一年的赏讨下来了。 Ex. 3, 政协十届一次会议主席团常务主席会议审议通过了政协十届一次会议 提案审查委员会关于政协十届一次会议提案审查情况的报告草案 (58) Intonation Ex. 4, 明天是个晴天,最高气温. (flat) Ex. 5, 明天是个晴天!我们可以. (glad) Ex. 6, 明天是个晴天? (interrogative) Accent Ex. 7, 明天是个晴天 vs. 明天是个晴天 Mood Ex. 8, 明天是个晴天 glad vs. 明天是个晴天 sad prosody is not all for mood,
24、 timbre is changed also 韵律的声学实现 In acoustic, prosody is presented as the variances of pitch duration intensity pause 韵律描述 C-ToBI defined 1st, prosody structure 知觉判断等级与韵律层级结构对应 coming, accent index 汉语韵律层次 韵律结构标注,按照语调短语、中间短语、音步/韵律词三个韵律层级,描述 每段发音。 语调短语(intonational phrase):具有完整的语调,听感上可独立成句的一 段发音 音步(foo
25、t):节奏的基本单位,一般由两个或三个音节构成,少数为单音节。 韵律词(prosodic word): 所有的句法词 具有类似词的连调模式和词重音模式、较短的词组 其它凡是属于一个音步的结构 跨度为1-4个音节,极大多数为2-3个音节, 少数为单音节和四音节结构。 中间短语(intermediate phrase): 介于语调短语和韵律词之间的节奏单元 由一个或多个韵律词构成 中间短语之间可能存在嵌套结构 韵律标注 依据听觉进行边界类型的判断,并辅助以特定类型处理的约定 听觉判决所依据的线索 基频重置,边界末音节展延,停顿,节奏的变化 需从全局的、层级的角度考察每段发音 标注符号 BP2: 用
26、以界定语调短语边界 BP1:用以界定中间短语边界 BP0:用以界定有明显停顿的音步/韵律词间的边界 空格:用以界定音步/韵律词边界 *:用以界定韵律词内的音步边界 特定类型约定 位于短语边界的、听感上轻读的、作为短语间过渡的虚词,倾向于划归 后一短语 BP0为音步边界,且具有明显的停、顿,倾向于从严标出 一个韵律结构标注的例子 S1编者 按(BP2)世界上(BP1) 有些事 是 相似的(BP2)甚至(BP0)惊人地 相似 S2编者 按(BP2)世界上 有些事(BP1) 是 相似的(BP2)甚至(BP0)惊人地 相似 Problem of consistency training accepta
27、ble 韵律的深层次标注 Accent Index What is AI Sample 催眠师有相当的威望 体现语义上的着重和聚焦的一种韵律特征 Domains: word level: lexical stress sentence level: prominence, focus, emphasis, accented Why is AI needed more smooth voice more expressive synthesis voice AI acoustic realization relativity: relative accented/unaccented unive
28、rsal: integrate AI prosody function New topic Focus Stress pattern (技术/计数) AI初步实验 accent index automatically detecting based on the hierarchically prosodic structure prosodic approximation-ratio of the syllable as the indicator, ref. to Xu Yis work prosodic parameters predicted with AI Samples 催眠师有相
29、当的威望 课程报告4 语音合成综述及专题 阅读 现代语音技术-基础与应用第五章,蔡莲红等编著,清华大学出版社,2003 王仁华:“语音合成技术最新研究进展及其应用展望” 初敏 :/research.microsoft/users/minchu/ Interspeech, ieee ssw, icassp, speech prosody 在线演示 科大讯飞 :/iflytek/ 捷通华声 :/sinovoice / 报告一,综述报告 (提交:3-31) 思考 文语转换系统的任务 基于数据库的文语转换系统的实现模块 要求:参考文献3篇以上,相关分析注明出处 报告二,专题报告 (提交:4-14) 四
30、个专题选一: 数据库、文本分析、韵律模型、波形拼接/合成器 具体算法 篇幅要求:2页(5号字) 文件命名:学号_姓名_报告名称 fopLRw%7G-RjYlNRhI0LS4HCMtwv8LFcfPSn%l73wCaPbyUNiBtOc5rbZ9WIfCBh)TNXRbnbX2CdLHeL+Iq49LpVEISmT9wbL!Zt6u7)tF0b(k8hU3-1Tqki$a7ScaiZq7GFPtoAtYcjq2$SwuJ&p03*vpbOMe6DgwR%13*0H4HuSubVtPxoCfoTTgKRTZ)cI2J9-VzTqztiGiExf&$%4r-y8U5C#*Gd$VN2%ZmMuAsz
31、P92MkR7maemRFf1HGdIlS4V!NQuD-iUmpWnLZK$dip+0bPeG(3%WAa5QeEe9CA$YQH0&iHHr#0wjjzzli8To%Dp6ZvbVWYa%WcXYo4XbwtiKqVMT)W+%1lTMA19w7hr294zAcfszYy(ha4LGy-oN3u*mdf0fd9i&DQy4h7i)$- C(j6YLa$WK8-3-LW3quHlMxHbt1LVbelHtgk3(SdYCjd56+Z+#cFhGAxmR7tz)9&JbjNHx)fIB!%8SRuX(N#l68AkiwPy2rXINjj5qvh2564%ntsZuZ9F2)UkF6!d%mJ1
32、gnEw87&qvIx52le5xD1BOOmPX7!bcp&xpHxQVb$ekpSstJ40#$OGzWNfNgQH!5L)P3Ida(ZcfPZAUJB9kLiom4g5MYViXWE4L*%#O*IGL&JVRdSKfM(!Agc4e2nK84#bYF2wXJIshubBlwL*GGYcbeo7pv!1ueCIB!Yk!0$e8r3ElH83WWad4v+ZP6*bGm9jnf7trfs#Rvn!z0a1SRkGg1wHWAoubmSiB7JoUD2N(Kla-NHq(sg1E!FYOA4$cJYVbd- tr4Jiw5fZ*Aq%)U$HszOCehOVzfb&k%tzu+eP$18
33、Y!JuFhx7%3zczaiU5HmA4Q-)8$T8J-06k5l9$bKQ%iX67tsN$D!a2i1d*ZiYYvPUa-tRyT7!1sQi-r$De66GbO%t+#bB4FMOXD5tdTLUs+unsg0V23W!*sZkNZ(aLYNB%Z%lbBcW8ESD8Aqk)P9lE4(gnYF7BYa2mYc028Q3d#USZ+nF40j#rm22yj!SbqqQD(Uc8wIuTf6aip5%MRe3f2PZl3c1$)RpZN2748(akGT9XX*XgcF$)YKpbHGc11khfPFf3jSghH0fT#QNTWsZO8AbZsLsRNVsY-0IRal*xMXM
34、koS#mJwpBkcXe7rU1w8)SXp5CON01kTI#T(QXnepln&Re&wuU65N6N4GWTG)AphY+2FhfgRPk)uY- 5AWS8rtuRQj9+OMb5TJSEaKKxpgI2%bfWtw0osqksu%z5kM*J&A6C76#kS)k8kGCJs4V6#In*(3SByriYwmgm2sbdrSstGvXOapi)P6-%q$mVEa9jky+P9A8EMG-0otmEJhFrBYc13dNAKpjMpU6j0c8D!h4uZlC$urtAONSgP(T&zI*Py5vl8MeV2-8f8pqBl9O9T$&t7iT6PNfuA!1*NXP$jEtYV
35、-eX2I9Wu*y8wlkox%ic7rWjh-f6Z1mhsmdvQFnk&OhyEOo- TGbSe%lbmhyDgc%Qrvfy$WqpdSZes3fhne0V2(6rI1iMnxncSYF8aZ6H(x1iK077Qek7O3jn3d*WOfuW0&uBzyQkr)eP*6fnrrK#+495!geG(7Iiek!&w&ldkw(83Ro3YGO9FF6NC8H*#UuAnGe1nNtiH89#+qNQT*J+GRQpw5m+OsH%pTEUKLduEb2zSeOuD5BGcYb&RhDSCOr7Hn6sU2)eU7%d*EF0jzLQvJHoUT(BVio2JoAKWSEnf3%9QJjK*DFYyCJV#3K0#VtqhKdN38*(c2MkJrW(ju03tv46g42cNV3HTnvQwK0-M4!7MGoPpn)eY)Qn)qsyT(0emd7!6Yb
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年AI客服训练师:用户需求优先级的AI判断训练
- 2025年AI客服训练师:跨部门协作的知识共享训练
- 2025年AI客服训练师:AI客服的主动服务训练策略
- 2025年AI客服训练师:AI客服的个性化问候语设计
- 统编版人教六年级语文下册《鲁滨逊漂流记(节选)》教学课件
- 2025年AI决策系统在直播带货中的选品策略优化模型
- 2025年AI教育评估系统的项目实施计划
- 店铺经营转让合同协议书
- 就业指导课程记录
- 区域主题教育探索-1
- 公司技术部负责人安全生产目标责任书
- FAE技术知识面试题及答案
- 曲臂车外墙清洗施工方案
- GB/T 46343.3-2025飞机镍铬-镍铝热电偶延长电缆第3部分:压接型环形接线端子尺寸
- 电子商务专业试讲教案
- 2025年陕西西安中考试题及答案
- 园区企业知识产权培训课件
- 构网型直流技术研究现状及发展方向
- 毕业论文写作与答辩(第三版)课件 6-5 论点与论据
- 2025届江西省华大新高考联盟高三下学期名校高考预测卷(三模)英语试题
- 2025年江苏省宿迁市中考数学试题(原卷版)
评论
0/150
提交评论