（信号与信息处理专业论文）面向语音合成的文本处理技术的改进.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-08 格式：PDF 页数：73 大小：2.42MB 积分：0 举报 版权申诉

已阅读5页，还剩68页未读，继续免费阅读

（信号与信息处理专业论文）面向语音合成的文本处理技术的改进.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

，il 学位论文版权使用授权书本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索，提供阅览服务，并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名：墓溷竞纽签字日期：山l o 年占月愚日翩签名舆杉差月多阳够啤柳 f - _ 一球 ji 中图分类号：t n 3 9 1 1 u d c ：6 2 1 3 学校代码：1 0 0 0 4 密级：公开北京交通大学硕士学位论文面向语音合成的文本处理技术的改进 t h ei m p r o v e m e n to ft e x tp r o c e s s i n gt e c h n o l o g yf o rs p e e c h s y n t h e s i s 作者姓名：李晓红学号：0 8 1 2 0 4 1 4 导师姓名：梁满贵朱维彬职称：教授副教授学位类别：工学学位级别：硕士学科专业：信号与信息处理研究方向：自然语言处理北京交通大学 2 0 1 0 年6 月致谢本论文的工作是在我的导师梁满贵教授和朱维彬副教授的悉心指导下完成的，朱维彬老师严谨的治学态度和科学的工作方法给了我极大的帮助和影响。他不仅在学术研究上给予了我很多帮助，把自己在学术上的积累分享给我们，也在做事态度上让我受益匪浅，也使我养成了良好的学习习惯，在此衷心感谢两年来朱维彬老师对我的关心和指导，他的严谨态度、踏实作风，时刻影响着我。朱维彬老师悉心指导我完成了实验室的科研工作，对于我的科研工作和论文都提出了许多的宝贵意见，在学习上和生活上都给予了我很大的关心和帮助，在此向朱维彬老师表示衷心的谢意。在实验室工作及撰写论文期间，车丹丹、李成、谢朝强、梁清华、张诣等同学对我论文中的程序编写工作给予了热情帮助，我们共同讨论和研究，使我的科研能力有了很大的提高，在此向他们表达我的感激之情。最后感谢我的家人和朋友，是她们在我的学习和生活上给予帮助，她们无私的亲情和友情是我快乐的源泉，没有她们，研究生的生活不会如此丰富多彩，是她们陪我度过了无数个难忘的日子，她们的理解和支持使我能够在学校专心完成我的学业。中文摘要中文摘要摘要：为解决汉语语音合成系统中目前普遍存在的、影响合成语音可懂度和自然度的发音及韵律结构等问题，并提高合成语音表现力，尤其要使其具有准确、生动的语义表现能力，需要文本分析模块能够输出更为丰富的语言学信息，并利用这些信息合成出更为准确、生动的语音。为此，本文围绕：言语数据库及其韵律标注，以及合成系统的前端模块，展开研究。本文研究一方面将语音合成所处理的文本对象由语句层面上升到篇章层面，构建了篇章级的新闻播报数据库；另一方面把语音合成的前端文本处理模块进行了一定程度的改进。主要工作内容如下： 1 选取新闻播报语料为研究力日工素材，综合考虑计算建模需求及样本的特点，在前人工作的基础上，制定了一套篇章级的韵律标注规范。韵律标注的内容包括：韵律层级结构、重音、语气和语调，丰富和完善了现有的韵律描述；并依据制定的规范实施了标注，构建了篇章级的新闻播报数据库。 2 依据原有文本处理模块的工作流程，从其组成部分入手，在原有文本处理模块的分词模块与其它分词模块对比分析的基础上，进行了分词模块的替换；采用二元文法训练了新的文本处理模块，其核心是训练新的韵律结构预测模块；通过集内和集外测试的实验，证明新的模块实现了更好的韵律结构预测，进而使文本处理效果在一定程度上得到了改进。关键词：言语数据库；韵律标注；文本处理；分词：二元文法塑璺堂璺! 一一一 a bs t r a c t a b s t r a c t ：i na d d i t i o nt or e s o l v et h ec u r r e n t l yw i d e s p r e a d ，a f f e c t i n gs y n t h e s i z e d s p e e e l ii n t e l l i g i b i l i t ya n dn a t u r a l n e s so fs o u n d a n dr h y t h ms t r u c t u r ep r o b l e m sm c t l i n e s e s p e e c hs y n t h e s i ss y s t e m ，a n di m p r o v e t h ep e r f o r m a n c eo fs y n t h e s i z e ds p e e c h , e s p e c i a l l y m a k ci t 诵t ha c c u r a t e ，v i v i ds e m a n t i ce x p r e s s i v e n e s s ，n e e dt e x ta n a l y s i sm o d u l e c a l l o u t p u tm o r er i c hl i n g u i s t i ci n f o r m a t i o n , a n du s et h i si n f o r m a t i o nt os y n t h e s i z e am o r e a c c u r a t ea i l d 、，i v i dv o i c e t h e r e f o r e ，t h i s a r t i c l ef o c u so n ：s p e e c hd a t a b a s ea n di t s r b v t h ma n n o t a t i o n , a n dt h es y n t h e s i so f t h ef r o n t - e n dm o d u l e ，t os t a r tt h e 咖d y 0 nt h eo n el m d ，t h i sp a p e r w i l lr a i s et e x t0 b j e c to ft h es p e e c hs y n t h e s i sf r o mt h e s t a l 朐e n tl e v e lu pt oc h a p t e rl e v e l ，a n db u i l dt h ec h a p t e rl e v e lb r o a d c a s t n e w sr e p o r t i n g d 眈如吼s e ：o n 也e0 1 h e rh a n d ，i m p r o v et h ef r o n t - e n ds p e e c hs y n t h e s i s ：t e x tp r o c e s s m g m o ( 1 u l et os o m ee x t e n t t h em a i nw o r k a sf o l l o w s ： 1 s e l e c tt h en e w sb r o a d c a s tc o r p u sf o rr e s e a r c h p r o c e s s i n gm a t e r i a l ，c o n s i d e r i n g t h e d e i n m l do fc a l c u l a t i o nm o d e l ea n dt h ec h a r a c t e r i s t i c so ft h es a m p l e ，b a s e d o i lt h e p r c 啊o u sw 0 止d e v e l o p as e to fp r o s o d ya n n o t a t i o ns c h e m eo fc h a p t e r - l e v e l ，枷c h m a k e 恤n e wr h y t h md e s c r i p t i o ni n c l u d e ：p r o s o d i ch i e r a r c h y , s t r e s s ，m o o da n d t o n e ，即d c ha n di i n p r o v et h ee x i s t i n gr h y t h md e s c r i p t i o n ；a n di m p l e m e n t t h ea n n o t a t i o n w o r ka c c o r d i n gt ot h es c h e m e ，a n dt h e nb u i l dt h ec h a p t e rl e v e lb r o a d c a s tn e w 8 r e p o r t i n gd a t a b a s e 2 b a s e do n 也ew o r kf l o wo fo r i g i n a lt e x tp r o c e s s i n gm o d u l ea n dt h ep a r to f t h et e x t p r o c e s s i i l gm o d u l e ，c o m p a r e i t sw o r ds e g r n e n t i o nm o d u l e w i t ho t h e rm o d u l e s ，l e n r e p l a c et h ew o r ds e g m e n t i o nm o d u l e b a s e do nt h ec o m p a r i s o n ，a n dt h e n 咖a 蜊 t e x t p r o c e s s 吨m o d e lb a s e do nt h eb i n a r yg r a m m a r , t h ec o r e i st r a i n i n gan e w r h l i m 】ms t r u c t u r ep r e d i c t i o nm o d u l e t h e n , t h r o u g ht h e w i t h i na n do u to ft e s t e x p e r i m e n t s ，p r o v et h en e wm o d e lt oa c h i e v ea b e t t e re f f e c to fr h y t h m 咖腑 p r e d i c t i o n , a n dt e x t - p r o c e s s i n g e f f e c t sh a v eb e e ni m p r o v e dt os o m e e x t e n t k e y w o r d s ：s p e e c hd a t a b a s e ；r h y t h ma n n o t a t i o n ；t e x tp r o c e s s i n g ；w o r ds e g m e n t a n o n ； b i n a r yg r a m m a r v 序序本论文的研究工作是从2 0 0 8 年1 1 月开始的。针对如何进一步提高合成语音自然度这一目标，本文分两个阶段进行研究。第一阶段是完成资源建设；第二阶段是在m i c r o s o rv i s u a lc + + 6 0 开发平台下采用c + + 编码，应用二元文法完成文本处理模块的初步改进。当然，在文本处理模块改进过程中还可以对其算法进行改进，也可以把篇章级的韵律描述应用进来，这些需要在以后的研究中不断探索。本课题在完成过程中得到以下项目的支持：国家8 6 3 课题“面向汉语语音合成的言语语义计算模型研究 ( 2 0 0 7 a a 0 1 2 1 9 8 ) 目录目录中文摘要i i i a b s t r a c t 。v - lo 序、，i i 1 引言1 1 1选题背景和意义一l 1 1 1 语音合成及其文本处理技术的发展现状l 1 1 2 选题的意义4 1 2本论文的研究内容与结构4 1 2 1 研究内容5 1 2 2 论文结构5 2新闻播报言语数据库构建及韵律标注7 2 1韵律标注内容7 2 1 1 停顿( 韵律边界) 7 2 1 2 重音一1 0 2 1 3 语气( 基调) 11 2 1 4 语调。1 1 2 2新闻播报言语数据库的构建1 2 2 2 1 语料选取13 2 2 2 数据库初加工1 4 2 2 3 言语数据库设计1 6 2 2 4 录音。16 2 2 5 韵律标注的实施。l7 2 3 小结2 0 3语音合成的典型系统及文本处理模块2 1 3 1典型系统。2 1 3 2文本处理模块2 1 3 2 1 自动分词器的实现2 5 3 2 2 自动注音的实现3 0 3 2 3 韵律结构预测的实现3 1 3 - 3小结一3 3 4文本处理模块设计与实现3 5 北京交通大学硕士学位论文 4 1文本处理模块设计方案3 5 4 1 1 原有模块工作流程3 5 4 1 2 韵律结构预测模型设计方案3 8 4 2 韵律结构预测模型实现3 8 4 2 1 分词模块对比3 8 4 2 2 训练韵律结构预测模型。4 0 4 3 模型测试4 1 4 3 1 集内和集外测试4 1 4 3 2 实验数据分析。4 4 4 4 小结。4 5 5总结与展望4 7 5 1全文总结4 7 5 2 未来工作展望一4 7 参考文献4 9 作者简历5 3 独创性声明5 5 学位论文数据集5 7 引言 1 引言 1 1选题背景和意义 1 1 1 语音合成及其文本处理技术的发展现状随着信息技术的飞速发展，计算机已经逐渐成为人们日常工作和生活中不可缺少的一部分，人们需要经常与计算机之间进行信息交互。自然语言是人类进行信息交流最主要、最自然的手段，如果人类和计算机之间也能通过自然语言来交流，必将大大提高人机交流的效率和自然度。创造一个会说话的机器是人类早就有的梦想。“语音合成”是指一种用机械的或电子的手段，产生人造语音的技术 3 2 】。其目的就是让计算机说话，以搭建人类和计算机之间沟通的桥梁。因此，语音合成是当前语音领域里一个非常热门的方向。马大猷院士曾指出：古希腊人相信语言是神赐予的，“会说话”的神像引起不少人的顶礼膜拜；我国唐朝也有利用木和尚“说话来化缘的故事。唐朝木和尚说话化缘的故事要比语音合成史料记载的k r a t z e n s t e i n ( 1 7 8 6 年) 发明元音共鸣腔早1 0 0 0 多年。追溯语音合成的历史，除了中国的木和尚以外，最早的讲话机诞生于1 7 9 1 年，由w v o nk e m p e l e n 发明。随后，d u d l e y 于1 9 3 9 年发明了电子式语音合成器v o d e r 。这两件作品向世人证明了语音是可以合成的 3 2 】。语音合成技术的研究已有2 0 0 多年的历史，但真正有实用意义的近代语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的，主要是让计算机能产生高清晰度、高自然度的连续语音。近几十年来，国际和国内的研究主要集中在按规则的文语转换t t s ( t e x tt os p e e c h ) ，即将书面语言转换成口头语言。在语音合成技术的发展中，早期的研究主要是采用参数合成方法。值得提及的是h o l m e s 的并联共振峰合成- 器r ( 1 9 7 3 年) 9 】和k l a t t 的串并联共振峰合成器( 1 9 8 0 年) 4 2 】，只要精心调整参数，这2 个合成器都能合成出自然的语音。最具代表性的t t s 系统是美国d e c 公司的d e c t a l k ( 1 9 8 7 年) 【l 】，该系统采用k l a t t 的串并联共振峰合成器，可通过标准的接口和计算机连网或单独接到电话网上提供各种语音信息服务，它的发音清晰，并可产生7 种不同音色的声音供用户选择。但多年的研究与实践表明，由于准确提取共振峰参数较困难，虽然利用共振峰合成器可得到许多逼真的合成语音，但整体合成语音的音质难以达到t t s 系统的实用要求 3 6 】。最近几年，一种新的基于数据库的语音合成方法正引起人们的注意。在这个北京交通大学硕士学位论文方法中，合成语句的语音单元是从一个预先录下的庞大的语音数据库中挑选出来的。不难想象只要语音数据库足够大，包括了各种可能语境下的语音单元，理论上讲有可能拼接出任何语句。由于合成的语音基元都是来自自然的原始发音，合成语句的清晰度和自然度都将会非常高 4 0 】。国内的汉语语音合成研究起步较晚些，但从2 0 世纪8 0 年代初就基本与国际研究同步发展。大致也经历了共振峰合成、l p c 合成至应用p s o l a 技术的过程。在国家8 6 3 计划、国家自然科学基金委、国家攻关计划、中国科学院有关项目等支持下，汉语t t s 系统研究近年来取得了令人举目的进展，其中不乏成功的例子：如中国科学院声学所的k x - - p s o l a ( 1 9 9 3 年) ，联想佳音( 1 9 9 5 年) ；清华大学的 t h 年) ；中国科技大学年) 等系统。这些系统基本上_ s p e e c h ( 1 9 9 3的k d t a l k ( 1 9 9 5 都是采用基于p s o l a 方法的时域波形拼接技术，其合成汉语普通话的可懂度、清晰度达到了很高水平 4 0 】。目前，国内主要研究院所有：中国科技大学、中科院声学所、社科院语言所、清华大学、微软亚洲研究院、i b m 研究院等；主要厂商有：科大讯飞、炎黄新星、 m i c r o s o f t 、i b m 、捷通华声等。并且都在语音合成领域做出了重大的贡献。然而同国外其他语种的t r s 系统一样，这些系统合成的句子及篇章语音机器味较浓，其自然度还不能达到用户可广泛接受的程度，从而制约了这项技术大规模进入市场【3 7 】。近些年，语音合成技术虽然已经在计算方法和技术实现等方面取得了显著进步，但合成语音的质量仍存在着缺陷【4 8 】，如语调单一、自然度低等，并且几乎所有的文语转换系统计算所涉及的最大语言单位都是单句，对应的最大语音单位为语句，即便输入的文本可能会是篇章或段落。语音合成系统的输出语音不限于单个音节，而是连续语句。在这样的系统中，输入是文字，包括词汇、语句或篇章，输出的是语音流。当前，文语转换系统的典型系统可分为文本处理与声学处理两个模块。前端模块是文本处理，主要功能是将输入文本转化为发音的符号化描述：发什么音，如何发音。后端模块是声学处理，主要功能是将符号化的发音描述转化为语言的声学形态：语音。这里，语音转化的实质是语音样本挑选，也就是在发音描述的约束下，从数据库中找到每个合成单元的最优样本，然后将这些样本的波形片断拼接起来，形成完整的合成语音。由于合成单元一般采用较大的( 音素以上的) 单位，音段层面的清晰度得到相当程度的保留；合成语音发音是否准确，以及语句层面能否也具有较高的清晰度和自然度，首先取决于发音描述的准确性与完备性。目前，文本处理模块输出的发音描述中，常采用注音符号用以表述发音音位，而描述如何发音则大都采用韵律符号系统。但现阶段，在实际应用中，对于韵律的符号描述并不完备，其中得到普遍应用、也是最为核心的是韵律 2 引言层级结构。而在文本处理过程中，由于文本分析计算所利用的皆为语句之下的分词及p o s ( p a r to fs p e e c h ) 信息，所分析的结果也只能是语句及之下的韵律层级结构。但具有更准确、生动语义表现能力的合成语音的实现，依赖于更精准的韵律描述，除了韵律层级结构之外，还需要体现语义焦点的重音，实现特定语用功能的语调，表达情感立场的语气，与之相对应的是文本分析计算需要涉及合成文本的篇章结构、话题演变、主题与焦点、内在立场等更高层面的语言学信息。自2 0 世纪8 0 年代以来，随着语料库语言学的发展，在语言研究的各个领域运用语料库的方法已变得十分普遍【8 】。例如，在口语研究中，一方面语料能提供空前广泛的言语素材，使对口头语言的概括和对特定语言内方言变异的研究成为可能，另一方面，现代口语语料所提供的是自然的而不是人工诱导出的言语，这意味着语料研究更有可能反应实际生活中真正使用的语言的特点【2 4 】。所以，语料库为语言研究不仅提供了前所未有的先进方法和丰富的语言资源，而且，语料库的方法已经并正在改变着传统的语言研究方法和观念，使语言研究日趋深入、精细 2 6 】。而任何语料库研究均开始于语料库体的建立，语料库的设计及选材几乎控制以后所要做的一切基于语料库的研究工作，研究结果的好坏只与语料库的建设质量有关 7 】。王仁华f 4 1 1 指出，近年来流行的基于大语料库的合成系统采用自然语音波形直接拼接的方法，进行拼接的语音单元是从一个预先录下的自然语音数据库中挑选出来的，因此有可能最大限度地保留语音的自然度。可见构建合理的语料库对合成语音的质量有直接的影响。并且，在语料库的建设中，只有设计一个科学、完备的语音语料库，才能为不同需求的用户服务。语料库的科学设计表现在语料内容的选取和合理的选取方法两个方面。语料库应尽量涵盖音段和超音段的音联现象。汉语是声调语言，词调、语调模式对识别和合成的影响很大。语句能充分反映本语言的韵律结构，特别是语调信息、音变现象。语句的选取可分为独自体和对话体。独自体考虑主要句型。对话体考虑那些有语言学意义的现象：不同的语气；语句中的着重点和重音；语句的韵律结构；语流中的音变现象，语料库还应包括一套完整的标注系统，对语音进行韵律标注和音段标音。韵律结构与从文字信息中得到的句法结构不一定一致。韵律反映的信息是文字无法直接传递的，但它对语义理解( 包括歧义的消除) 、对语气等语用意义、对提示语篇结构、说话人的情感等都有贡献。语音携带了韵律特征，只有对它进行标注才能为他人所用【2 0 。基于对语料库的要求和对更丰富韵律描述的需要，本文选取新闻播报语料作为合成语音的参照目标和言语数据库的基础数据，将语音合成所处理的文本对象上升到篇章层面，在篇章层面上进行相关的言语数据库的构建、韵律描述内容的丰北京交通大学硕士学位论文富及标注规范的制定。计算机语音合成技术经历了一个飞速发展的过程，近年来陆续出现了英语、日语、西班牙语和法语等语种的基于语音合成技术的文语转换系统，尤其是英语文语转换系统的研究开发时间长，其成果已应用在多语种语音翻译系统中。目前，汉语语音合成系统已经较为成熟并已大量应用在不同场合，如主页和电子邮件的阅读、文稿校对、人机对话、信息查询等等。但应用的场合越多，需要合成语音的种类就越多，不同场合说话人的情感也随之变化，致使文本分析得到的结果也纷繁复杂、丰富多变，给汉语文语转换系统带来许多挑战。要应对挑战，获得高质量的自然语音，一方面取决于语音层如何由恰当的韵律知识和适当的生成算法产生自然流畅的语音；另一方面取决于对目标语言自身的了解，包括具体环境下特定文本的内部语法结构、韵律层级结构等相应信息，这些都需要通过文本处理得到。增强文本处理能力是改善语音合成系统输出语音质量的一个重要步骤。因此本文还将从文本处理模块的组成部分入手，进行组成模块的替换或者重新训练，以初步改进文本处理技术，从而为语音合成服务。 1 1 2 选题的意义语音合成是语音技术的一个重要组成部分，目前仍然面临着很多挑战，如合成语音语调单一、自然度低等。我们依据面向语音合成这一应用目标选定了此课题。本课题的研究意义主要体现在以下几个方面： 1 )目前几乎所有文语转换系统计算所涉及的最大语言单位仅仅是语句，而实际研究工作中经常遇到输入文本是篇章或段落的情况。本文将韵律研究对象由孤立语句扩展到语篇，以解决此问题。 2 ) 文本处理模块输出的韵律符号描述并不完备，现阶段主要是韵律层级结构。本文除将韵律层级结构扩展到篇章外，还将引入篇章级的重音、语气和语调，以丰富和完善现有的韵律描述。 3 ) 本文将构建韵律描述更完备、篇章级的语音合成专用语音数据库，为语音合成的相关研究提供基础资源。 4 ) 本文将改进韵律层级结构预测模型的预测效果，增强文本处理的能力，为改进语音合成系统奠定基础。 1 2本论文的研究内容与结构 4 引言 1 2 1 研究内容本论文的研究具有明确的应用目标，就是面向语音合成。基于语音合成发展的现状及其存在的问题，找准切入点：语料库的合理建设和更丰富的韵律标注；训练文本处理模块的实验模型，有针对性的把工作分成了两个部分。第一部分是完成基础资源建设。根据韵律标注方面已有的工作及实际需要，将韵律研究对象由孤立语句扩展到语篇，解决了由此产生的篇章韵律现象描述问题，制定了一个篇章级的韵律标注规范，将韵律层级结构之外的韵律描述：重音、语气和语调引入到规范。选取2 6 4 9 段新闻播报语料，作为合成语音的参照目标和言语数据库的基础数据；依据发音方式和语用功能等的打分制对上述语料进行标注，列于初加工表中；依据初加工表，从发音风格( 语用功能) 、发音内容( 篇章分类) 、文本长度这三个角度出发，从大的语料中挑选出6 0 0 篇文本，以完成新闻播报言语数据库的设计；校对选取的6 0 0 篇语料，并把校对后的文本拿到专业的言语声学录音室进行录音；待标注人员熟悉制定的篇章级标注规范和标注顺序后，进行韵律标注的实施，以完成新闻播报言语数据库的构建；刻盘保存新闻播报言语数据库的相关文件。第二部分是从工程角度探索改进文本处理技术的方法。首先依据原有文本处理模型工作流程，从原有模型的分词模块入手，将原有分词模块和中科院计算所的分词模块进行对比，分析优劣后替换掉原有分词模块，从而提高了分词的准确性；然后采用二元文法训练新的文本处理模块，其核心是训练新的韵律结构预测模块，以提高韵律结构预测的准确性；最后利用集内和集外测试，测试新的韵律结构预测模块的改进效果，进而达到初步改进文本处理技术的目的。 1 2 2 论文结构本论文的结构如下：第一章主要介绍课题的选题背景、目的及其研究意义。讨论了国内和国外语音合成和文本处理技术的发展历史和现状，以及目前语音合成存在的问题，揭示了本文研究的价值和意义。从改进语音合成系统合成语音的质量的角度出发，将本论文的工作分为了两个阶段，一是语料库的建设和标注，二是训练文本处理模块的实验模型。同时还介绍了论文的主要研究内容和全文的组织结构。第二章主要是介绍了本论文第一阶段的工作：基础资源建设。首先对韵律标注方面已取得的成果进行了总结，在此基础上，针对语篇级文本，制定了相应的韵律标注规范；其次是新闻播报言语数据库的构建，并侧重于依据本文的规范进 5 北京交通大学硕士学位论文行篇章级的韵律标注实施。第三章具体阐述了语音合成典型系统的原理，以及前端文本处理模块的各个组成部分及其作用，为其后的改进工作奠定了理论基础。第四章是根据原有模型的设计流程，从文本处理模块三个计算模型：自动分词器、自动注音器和韵律预测器入手，首先取原有模型的分词模块与计算所分词模块进行对比，由于对比得知，原有模型的分词模块性能差，故对其进行了替换；然后利用二元文法模型训练出了新的韵律结构预测模块；最后通过集内、集外交叉测试的实验，证明新模型在一定程度上得到了改进。第五章对本论文的工作进行了系统的总结，对研究中的特点进行了详细的说明，并讨论了将来研究工作的方向，以及可能采取的实施方案。 6 新闻播报言语数据库构建及韵律标注 2 新闻播报言语数据库构建及韵律标注目前随着计算机性能的发展，特别是对存储空间限制的突破，语音合成的发展越来越趋向于基于大型语料库的波形拼接方法。语料库在语音结构和诸多语音单元在参数空间的有效覆盖，及合成阶段对拼接单元的合理选择成为提高合成语音质量的关键。对数据库进行详细的韵律层级标注是检查语音库数据覆盖率和建立合成端选音规则的基础 2 5 】。可见构建合理的语料库，并且对数据库进行详细的韵律标注，都将对合成语音有很大的影响，本章针对新闻播报的篇章级语料库制订更丰富的韵律标注规范，且构建相应的数据库。 2 1韵律标注内容韵律标注的实质就是对语音信号中具有语言学功能的韵律特征进行定性描写 5 0 。而汉语的韵律标注系统已有相当多的工作。陈玉东 2 2 将语段标注为六层：拼音层、语调构造层、小句类型层、重音等级层、语段单元层和单元边界层；l i j t m 1 0 所指的韵律标注系统是将每个句子分五层进行标注：正则发音层 ( o r t h o g r a p h i ct i e r ) 、声调和语调层( t o n ea n di n t o n a t i o nt i e r ) 、语句功能层( s e n t e n c e f u n c t i o n t i e r ) 、停顿指数层( b r e a k i n d e x t i e r ) 和重音突显层( s t r e s s p r o m i n e n c e t i e r ) 。由于新闻播报语料全是基于语篇的，所以本文标注的是语篇之下的停顿( 韵律边界) 、重音、语调和语气四个方面的内容。其中，停顿和陈玉东 2 2 所指的单元边界层相似，和l i i i j u n 1 0 所指的停顿指数层相似，只是具体的层级结构不同：重音和陈玉东 2 2 所指的重音等级层相似，和l ia i j u n 1 0 所指的重音突显层相似；语调和陈玉东 2 2 所指的语调构造层及l ia i j u n 1 0 所指的语句功能层相似；而语气的标注规范则是基于语篇的需要，采取的一个有别于其它标注系统的标注内容。 2 1 1 停顿( 韵律边界) 英语每个单词之间都有一个空格作为标志，但汉语不同于英语，词与词之间没有明显的边界标志。而在词与词之间、句子之间、段落之间以及遇到某些特殊符号时适当地插入停顿，可以提高合成语音输出的自然度和可理解性。故韵律标注的第一项就是标注韵律边界。韵律边界主要标记言语的韵律结构。韵律结构是层级组织结构，从小到大可以分为：音节、音步、韵律词、韵律短语、语调短语、 7 北京交通大学硕士学位论文语调组群和意合群等。已有研究中的停顿指数层和本文所指的韵律层级结构相似，如：l ia i j u n 1 0 】所指的停顿指数层分为：m i n o rp h r a s e 、m a j o rp h r a s e 和s e n t e n c eb r e a k 三层；z h u w e i b i n 1 9 所指的层级结构分为：p r o s o d i cw o r d ( t h em i n o rr h y t h m i cu n i t ) 、p r o s o d i c p h r a s e ( t h ei n t e r m e d i a t er h y t h m i cc h u n k ) 和i n t o n a t i o np h r a s e ( t h em a j o rr h y t h m i c g r o u p ) 三层；t s e n gc h i u y u 1 6 所指的停顿指数层分为：s y l l a b l e s ( s y l ) 、p r o s o d i c w o r d ( p w ) 、p r o s o d i cp h r a s e ( p p h ) 、b r e a t hg r o u p ( b g ) 和p r o s o d i cp h r a s eg r o u p s ( p g ) 五层。这些分法都是基于一定的语料的，并且各有不同和相似之处。陈玉东 2 2 对韵律单元的切分也依据了话语中有无明显无声段和听觉上有无明显的停顿，但是还参考音高的变化。单元边界和韵律单元的切分基本对应。韵律单元确定之后，各韵律单元之间的边界要依据韵律单元的大小和层级确定。单元边界一般有四种类型：语节级边界、跨语节级边界、小句级边界、语段级边界和无声段。语段是有声语言的一个重要层级 2 2 ，多个语段构成语篇，语篇同样是有声语言的重要层级，本文采用的言语数据库的文本是基于篇章的，我们将其标注为六个层级：韵律词、复合韵律词、韵律短语、语调短语、语句和段落，具体的界定和标注如下：段落( 对应于“意合群 ) ：用以标注语势连贯、语义关联的语句组块；段落之间有大的停顿；一个段落通常由一个或多个语句组成；段落是语义相对完整、语音处理相对独立的有声语言段落，这里强调语义的完整性和语音的凝聚力 2 2 ；标注时采用“+ 双回车( 双空行) 。语句( 对应于“语调组群”) ：用以标注语调连续的语调短语组块；语句之间有较大停顿；一个语句通常由若干个基频曲线依次递降的语调短语组成：标注时采用“+ 单回车( 换行) 。语调短语：用以标注具有完整的语调，听感上可独立成句的韵律短语组块；语调短语间有明显停顿，边界处感知到的停顿较韵律短语边界处的停顿长；边界前后的连接较松散，而且有基频重设等现象；标注时采用“ 。韵律短语：用以标注由若干韵律词构成、之间没有明显停顿的组块；韵律短语间有停顿；韵律短语是介乎韵律词和语调短语之间的中等节奏组块，( 韵律短语一般由7 2 个音节构成 2 ，但在新闻播报语料中，韵律短语的作用范围有时候会超过7 + 2 个音节的限制) ；韵律短语分为简单韵律短语和复合韵律短语，后者专指含有嵌套结构的韵律短语；标注时采用“ 。复合韵律词：用以标注超过一个音步、结合紧密的韵律词组合；韵律词间没有明显的停顿；标注时采用“木( 词间) ，标注明显的节奏边界。在这个层级的标注中，复合韵律词的类型较为广泛，现举一例。 8 新闻播报言语数据库构建及韵律标注例1由于主题鲜明、时效性强，社区文化活动得到居民的积极参与，韵律词：用以标注节奏的基本单位，以两音节构成的音步为主，跨度在l 4 音节；韵律词内没有明显停顿；标注时采用“空格。按下列顺序实施层级结构规范的标注： 1 ) 根据听到的读音、读法、断句、语调来分析句子，给出相应的分界点。 2 ) 根据词的重音进行分界。 3 ) 观察句子的长度平衡、语法完整性、名意等辅助项来判断边界。特例： 1 ) 遇到“在、“和、“反倒”、“或”、“与等词语的时候，大多是强调前面半句，因此在这类词语前给一个边界，此词归于后面短语。例2 促进影响社会主义新农村建设实际问题的解决和整改任务的落实。例3 中国广播网银河台与全球知名饮料厂商可口可乐联合主办“我的舞台、我最精彩”活动。 2 ) 由于读音轻重引起的像是边界的，一般不在此处标记边界，如人名。饲4 胡锦涛三月三十一号在北京会见了日本日中友好七团体负责人。 3 ) 不能确定是否加边界时，要根据句子长短、意思完整性、语法完整性等因素来综合考虑。 4 ) 此外，我们选择的资深播音员在读到并列句时，习惯在倒数第二个词与后面的并列关系的词处停顿稍大，在判断边界时应根据具体句子读法来划分语调短语的边界。例5 此外他们还将承诺人、承诺事项、承诺措施、承诺实现等列入承诺备案表中，指定监督人督促落实。例6 未来六周，银河台将进驻校园，开展银河台主持人选拔、主持人访谈、网络歌手见面会等上百场活动。在标注韵律短语的边界时，需要根据以下线索：句中停顿语调上扬语调下倾末音节拖长仿当事人口气说话例7中国证监会昨天宣布已于近日批准( 末尾音节拖长) 上海期货交易所上市黄金期货。这是继锌( 并列结构) 、菜籽油( 句中停顿) 、现行低密度聚乙烯期货成功 9 北京交通大学硕士学位论文推出之后，今年证监会批准的( 简短停顿) 第四个期货新品种。例8 即使在为儿子治病( 重音，表强调) 很需要钱的情况下，他仍然坚持理想( 并列结构) ，接受学校返聘( 并列结构) ，奉献教育事业，在回答妻子( 仿当事人口气说话) “辛辛苦苦一辈子你得到了什么”这个问题时，甘兰佑动情地说( 仿当事人口气说话) ，能为孩子们做点事( 句中停顿) 我很快乐另外需要说明的是韵律结构和句法结构并不一定一一对应。例如：按句法结构的标注可以是：例9 并在实践中创造了一问二听三看四帮五到位六勤七心的李瑞i 作法| | 依据韵律结构的标注则是：例1 0 并在实践中创造了一问二听三看四帮五到位六勤七心确| 孥瑞i 作法| i 2 1 2 重音汉语是声调语言，不是重音语言，但是我们认为，一个语言片断中的各个音节的轻重程度不是完全一样的，也就是汉语中存在重音。重音是一个非常重要的韵律特征，在传媒有声语言中，强调的是依据语句目的来确定语句重音，强调的是重音与具体的思想感情变化相结合 5 0 】。王蓓 3 8 】是从重音音节和时长的关系的角度来考察重音的，并得出音节重音级别是随重读程度的提高、时长延长量增加而增加的结论；重音的层级问题是实现标注的关键，朱维彬 4 6 在语调短语和韵律词这两个层级上设定重音指数，每个层级上又分三个级别：重、中、轻，并且在实施重音级别标注时，综合利用了听觉感知和音高曲线两方面的线索；林茂灿 2 9 ，3 0 的重音层级划分为词重音、韵律短语重音和语句重音；王韫佳 4 3 是从语句中韵律词的重音和词所在的韵律边界的关系、词的重音感知与音节之间的高音点差和时长差的关系、双音节词的调类组合和重音感知的关系三个方面来考察重音的；从重音的表达功能出发，一般都将汉语的语句重音分为节奏重音和语义重音两类，王韫佳 4 4 分别从语句和短语两个层次对普通话语句中的语义重音分布进行了考察：陈玉东 2 2 考察重音主要着眼于音高和音长特征方面，并将其分为语节级、跨语节级、小句级和语段级四个级别，按照级别进行标注。本文针对基于语篇的新闻播报语料，将语句级之上的重音引入到韵律标注，其分为三个级别：语句重音、段落重音和篇章重音，分别用于标注句子级重音、段落级重音和语篇级重音，且在实施标注时，主要利用听觉上的突显度，并结合 1 0 新闻播报言语数据库构建及韵律标注语篇的语义理解。语句重音是语句中的突显成分，用“( ) 标定听感上的突显音节；段落重音是段落的语义焦点，用“ 标定听感上的突显音节；篇章重音是篇章的文眼，用“ ) ”标定听感上的突显音节。 2 1 3 语气( 基调) 本文将情感语音的标注列入了标注内容，主要通过语气标注来体现。张颂 4 5 指出，基调是指作品的基本基调，即作品的总的态度感情，总的色彩和分量。而基调的色彩、分量，既包括态度分寸，又包括感情色彩。其中的态度分寸包括：肯定和否定、严肃和亲切、祈求和命令、客观和直露、坚定和犹豫五个方面；感情色彩包括：挚爱和憎恨、悲哀和喜悦、惊惧和欲求、焦急和冷漠、愤怒和疑惑五个方面。张颂 4 5 同时又指出语气的色彩包括：爱和憎、悲和喜、惧和欲、急和冷、怒和疑五个方面，这是和感情色彩相对应的；语气的分量包括：重度分量、中度分量和轻度分量三个方面。本文主要从语用功能角度来

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（信号与信息处理专业论文）面向语音合成的文本处理技术的改进.pdf

文档简介

温馨提示

最新文档

评论

（信号与信息处理专业论文）面向语音合成的文本处理技术的改进.pdf

文档简介

温馨提示

最新文档

评论

相关文档