（模式识别与智能系统专业论文）面向高自然度的汉语文语转换系统的研究.pdf

上传人：伐*** IP属地：宁夏上传时间：2019-12-16 格式：PDF 页数：56 大小：2.09MB 积分：0 举报 版权申诉

（模式识别与智能系统专业论文）面向高自然度的汉语文语转换系统的研究.pdf_第2页

（模式识别与智能系统专业论文）面向高自然度的汉语文语转换系统的研究.pdf_第3页

（模式识别与智能系统专业论文）面向高自然度的汉语文语转换系统的研究.pdf_第4页

（模式识别与智能系统专业论文）面向高自然度的汉语文语转换系统的研究.pdf_第5页

已阅读5页，还剩51页未读，继续免费阅读

（模式识别与智能系统专业论文）面向高自然度的汉语文语转换系统的研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

面向高自然度的汉语文语转换系统的研究摘要随着社会的发展，计算机日益成为人类生活必不可少的一个部分。如何才能方便的与计算机进行交流就成为人们需要解决的一个重要的问题。语言是人类最方便的交流方式。因此人们希望能够采用语言与计算机直接进行交流，也就是实现人机之间的真正的语声通讯。作为这一要求的计算机自然语言输出部分，各种语言的语音合成系统近几年来得到了十分迅速的发展，涌现出了大量的新技术和新设计。在语音合成系统中，韵律模型是必不可少的。它将前面的文本分析和后面的语音生成联系起来，实际上起着一个重要的桥梁作用。好的韵律模型，使之能够更加贴近自然语言中的各种各样的韵律现象，是高自然度语音合成系统中的一个重要的组成部分。本文以此为目的，对建立韵律模型中的基音周期的提取、基频模式的获取方面进行了深入的研究。本文首先介绍了汉语语音中的一些基本知识，重点放在基音周期估计算法的研究和基频模式的获取。研究了频域上的基频周期估值算法，如：自相关算法、l p c 残差算法、倒谱法等：时域上的基于波形外观的基音估值算法。并总结以上算法的优缺点提出了取初值步进式寻找极值点的基音周期估值算法。为了更准确的提取基音周期，设计实现了音节标注工具s p e e c ha s s i s t a n t ，并使用该工具进行基音周期数据的采集工作。研究了聚类算法，克服传统的k 均值算法的缺点选择改进的自组织数据分析方法( i s o d a t a ) 进行基频模式的提取。对聚类的基频序列数据进行了基频序列规整、滑动平均、零均值化等预处理。在此基础上进行聚类得到了相应的基频模式，并对其结果进行了分析。最后本文对整个论文进行了总结，并提出了进一步工作内容。关键字：语音合成，韵律标注，韵律模型，聚类 s t u d yo fh i g h n a t u r a l i t y t e x tt os p e e c h s y s t e m a b s t r a c t w i t ht h ed e v e l o p m e n to f t h eh u m a n s o c i e t y , t h ec o m p u t e r h a sb e c o m eo n eo f 血e i n d i s p e n s a b l ep a r t s o fh u m a nl i v e s h e n c eh o wt oc o m m u n i c a t ew i t hc o m p u t e r s b e c o m e sav e r yi m p o r t a mp r o b l e m v o i c ei so n eo f t h em o s te f f i c i e n tc o m m u n i c a t i o n m e t h o d so fh u m a n s s op e o p l eh o p et oc o m m u n i c a t ed i r e c t l yw i t hc o m p u t e rw i t hi t w h i c hi sc a l l e dt h eh u m a n - m a c h i n ev o i c ec o m m u n i c a t i o n a st h e o u t p u t o f h u m a n m a c h i n ev o i c ec o m m u n i c a t i o n ，m a n yt y p e so fs p e e c hs y n t h e s i sm o d u l ef o r d i f f e r e n tl a n g u a g e sa r eb o o m i n g r e c e n t l y i nt h es p e e c hs y n t h e s i ss y s t e m t h ef u n c t i o no f p r o s o d ym o d e li st oc o n v e r tt h e r e s u l to ft h et e x t a n a l y s i si n t ot h ea c o u s t i cp a r a m e t e r su s e df o rg e n e r a t i n gs y n t h e s i z e d s p e e c h t h ei m p o r t a n c eo f p r o s o d y m o d e li so b v i o u s s oh o wt og e n e r a t et h ep r o s o d y m o d e it or e f l e c tt h ep r o s o d yp h e n o m e n o nc o s e i yi so n eo ft h em o s ti m p o r t a n t c o m p o n e n t so fas p e e c hs y n t h e s i ss y s t e m t h i st h e s i sm a k e sad e e pr e s e a r c ho nt h e p r o s o d ym o d e l ，i n c l u d i n ge x t r a c t i n gp i t c hp e r i o d ，p i t c hp a t t e r na n a l y s i s f i r s t ，t h et h e s i si n t r o d u c e ss o m eb a s i ck n o w l e d g eo fm a n d a r i ns p e e c hs y s t e m ， w i t he m p h a s i so nt h er e s e a r c ho fa l g o r i t h mo fe x t r a c t i n gp i t c hp e r i o da n dp i t c h p a t t e ma n a l y s i s s o m ea l g o r i t h m so fe x t r a c t i n gp i t c hp e r i o dw e r es t u d i e di nt h i s 廿l e s i s i n c l u d i n ga u t o c o r r e l a t i o nm e t h o d ，l p cr e s i d u a lm e t h o da n dc e p s t r u mm e t h o d a n d t h ea l g o r i t h mo fe x t r a c t i n gp i t c hp e r i o db a s e do nt i m e - d o m a i nw a v e f o r mw a sa l s o s t u d i e d t h et h e t i sc o n c l u d e dt h e a d v a n t a g e s a n dd i s a d v a n t a g e so f 也ea b o v e a l g o r i t h m sa n dp r o p o s e dan e wa l g o r i t h mo fe x t r a c t i n gp i t c hp e r i o d at o o l f o r l a b e l i n gm a n d a r i ns y l l a b l ew a sd e v i s e da n di m p l e m e n t e d n a m e da ss p e e c ha s s i s t a n t a n dw eu s e dt h i st o o lt oo b t a i nt h e p i t c hp e d o d d a t a i na d d i t i o n m ec l u s t e r i n ga l g o r i t h mw a ss t u d i e d w es t u d i e dt h ed i s a d v a n t a g e s o ft r a d i t i o n a lk - m e a n sc l u s t e r i n ga l g o r i t h ma n ds e l e c t e dt h ei s o d a 工aa l g o r i t h mt o a n a l y z et h ep i t c hp e r i o dp a t t e r n a n dw ep r o c e s s e dt h ec l u s t e r e dt h ep i t c hp e r i o dd a t a i n c l u d i n ga l i g n m e n t ，m o v i n ga v e r a g ea n dt 0o n w eo b t a i n e dt h ep r o m i s e dp i t c h p e r i o dp a a e r n sb a s e do n t h ea b o v e p r o c e s s i n g a n da n a l y z e d 也er e s u l t s t h ef i l l a ls e c t i o ni st om a k eac o n c l u s i o no ft h ew h o l et h e s i sa n d p r o p o s es o m e p o s s i b l ei m p r o v e m e n t s o nt h ep r o s o d ym o d e l g e n e r a t i o n k e y w o r d s ：s p e e c hs y n t h e s i s ，p r o s o d yl a b e l i n g ，p r o s o d ym o d e l ， c l u s t e r i n g 独创性( 或创新性) 声明本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢中所罗列的内容以外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得北京邮电大学或其他教育机构的学位或证书两使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。申请学位论文与资料若有不实之处，本人承担一切相关责任。本人签名：壁噬型日期：地垡：垡：! 关于论文使用授权的说明学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定，即：研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘，允许学位论文被查阅和借阅；学校可以公布学位论文的全部或部分内容，可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释：本学位论文属于保密在一年解密后适用本授权书。非保密论文注释：本学位论文不属于保密范围，适用本授权书。本人签名：金蟋趣日期：丝垡：笆：导师签名：垒：登日期： 2 丝堡生i 北京邮电大学硕士学位论文第一章概述文语转换( t e x t t o s p e e c h ) 是指把文本通过语音合成转换成为语音输出的过程，并尽量使得输出的语音具有良好的自然度与可懂度。通过文语转换计算机能够将自己产生的或外部输入的文字信息，比如文本文件内容、w o r d 文档内容等，转换成为语音信号输出，使计算机流利地读出文字信息，也就是说，使计算机具有了“说”的能力。文语转换技术涉及声学、语言学、数字信号处理、多媒体技术等多个领域。 1 1 文语转换技术的发展现状自二十世纪9 0 年代以来，计算机和多媒体技术得到了飞速的发展。人们拥有了更快的 c p u 和更多的内存，同时也要求计算机界面更加的“有声有色”。这些因素共同推动了文语转换系统的发展，文语转换系统已逐渐显示了其巨大的应用前景和广泛的应用领域，因而也成为了一个热门的研究课题。国外很早就开始了文语转换的研究。二十世纪6 0 年代英文t t s ( t e s tt os p e e c h ) 系统已经被研制出来。目前已经研制成功的文语转换系统有英语、法语、德语、日语等。b e l l 实验室、a t r 和s i e m e n s 公司已经研制出多语种的t t s 系统，法国的c n e t 实现的多语种 n s 已用于电话网中的公共话音服务。虽然国内在文语转换的研究方面起步较晚，但自二十世纪8 0 年代起已和世界先进水平同步。国内在普通话语音合成方面的研究取得了令人瞩目的成就，如中国科学院声学研究所的k x p s o l a ( 1 9 9 3 ) 、联想佳音( 1 9 9 5 ) ，清华大学的t hs p e e c h ( 1 9 9 3 ) ，中国科技大学的) t a l k ( i 9 9 5 ) 、k d 一8 6 3 ( 1 9 9 8 ) 、k d - 2 0 0 0 ( 2 0 0 0 ) 等系统，其合成汉语普通话的可懂度、清晰度达到了很高的水平。联想公司与中国科学院声学所合作开发的“联想佳音”是已经商业化的中文电脑朗读系统，虽然仍有一些“机器昧”，但其发音已比较接近人类的自然语音。中国科技大学研制的k d - 8 6 3 汉语文语转换系统，对汉语语音合成进行了一系列的大胆创新，提出了基于l 姒声道模型的语音合成器设计，该合成器在合成音质和韵律参数调整能力上均优于各种传统方法，提高了合成语音自然度；提出了听感量化的语音库设计方法，提高了合成语音音质；可以将数据库中的文本及数字信息动态转化为语音，而无需对大量信息进行人工录音已北京郏电大学硕士学位论文经达到了实用阶段。在进行普通话文语转换研究的同时，我国还展开了一些以方言为转换对象的研究，如粤语文语转换系统、天津话语音合成系统，还有一些以民族语言为对象的语音合成系统，如蒙语文语转换系统、纳西语语音合成系统等。 1 2 文语转换技术的应用前景文语转换系统的应用前景广阔，归纳起来主要有以下用途：一、基于p c 的办公、教学、及娱乐等智能多媒体软件随多媒体技术的日益发展，计算机的更新换代，特别是当今计算机的广泛普及，人们对计算机提出了越来越高的要求，能够让计算机象人一样“能昕会说”，是人们多年以来的目标。从9 6 年开始，i b m 推出了i b m v i a v o i c e 语音识别系统，一时间风靡全国。v i a v o i c e 解决的仅仅是人机语音交流的一半，即机器的“能听”问题。而语音合成系统正是要解决另半，即机器的“会说”问题。这项技术不仅本身在文稿校对、语言学习、语音秘书等方面具有巨大的市场前景，而且在与语音识别技术结合后，更将大大提高计算机的人性化魅力。二、声讯服务领域内的智能电话查询系统当今社会处在一个信息的时代，如何快速准确的获取所关心的信息，对人们的日常工作和生活已经具有越来越重要的影响。在电话高度普及的今天，如果打电话就能查询到所有需要的信息，无疑将给人们的日常生活带来极大的方便。以往，人们曾利用数字录音回放技术实现对轮船、码头或电话号码等简单场合下的电话查询。但是这种数字录音回放技术无法解决信息量异常庞大的海量查询场合和查询内容经常变化的动态查询场合，而正式这些场合才迫切需要迅速、准确的电话语音查询。汉语语音合成技术，可以利用不到3 0 m b y t e s 的容量合成出任意的汉语连续语音，且合成语音连续、可懂、自然。这样就很好的解决了海量资料和动态查询的需求。在这种查询系统中，一台普通的计算机可以支持几十路以上的电话信道昼夜不停的用户查询，且反应迅速、准确无误，无疑将成为未来信息服务行业的发展趋势。由上看，汉语语音合成技术的应用还可涉及到声讯服务领域内，对现有的电话查询系统的不足产生革命性的影响。因此，随着无联网信息项目的增多和实效性要求的逐步提高，建立一个实事双向的全国性声讯业务网的时机已经成熟，例如股票交易、航班动态查询、电话报税业务等。这些业务都将全面应用到汉语语音合成技术，通过这种技术彻底解决了韭塞塑皇奎兰堡圭鲎垡堡塞传统数字录音回放技术所无法解决的海量信息库和动态变化信息的实时点播、全国各机场、车站和航班、列车到达动态信息查询，电话购物系统、工商信息查询系统等等。 1 3 文语转换技术的发展方向 1 _ 提高语音合成的自然度，达到更加流利和自然的程度提高合成语音的自然度仍然是高性能文语转换的当务之急。就中文语音合成来说，目前在单字和词组一级上，合成语音的可懂度和自然度已基本解决，但是到句子乃至篇章一级时，其自然度问题就比较大。基于语音数据库的语音合成方法有望进一步提高语音合成的自然度。因为这是一种采用备然语音波形直接拼接的方法，进行拼接的语音革元是扶一个预先录下的自然语音数据库中挑选出来的，因此有可能最大限度地保留语音的自然度。但由此产生了一系列新的需要研究的问题，包括：如何确定语音合成的基元，根据什么准则去挑选合适的基元；韵律参数定量化问题，对数据库进行定标问题；以及如何将统计的方法和规则方法相结合使机器能自动发现和找出所需的语音单元。保证最高的合成语句自然度等等。无论用哪种合成方法韵律规则的总结，特别是连续语音的韵律规则总结，尽可能将定性的规则描述定量化，对自然度始终有最重要的影响。还有前端文本处理，对合成语音的自然度也具有举足轻重的影响，完整全面的解决，需要自然语言理解的突破。 2 丰富合成语音的表现力目前国内外大多数语音合成研究是针对文语转换系统，且只能解决以某种朗读风格将书面语言转换成口语输出，缺乏不同年龄、性别特征及语气、语速的表现，更不用说赋予个人的感情色彩。随着信息社会的需求发展，对人机交互提出了更高的要求，人机口语对话系统的研究也提到了日程上。即语音合成研究已开始从文字到语音的转换阶段向概念到语音的转换阶段发展。这不仅对语音合成技术提出了更高的要求，而且涉及到计算机语言生成，涉及人类大脑的高级神经活动。但就语音合成来说，仍是一个要丰富合成语音的表现力问题。相对来说采用波形拼接方法来增强合成语音表现力比较困难，尽管也可阻通过增加音库容量和音库个数来达到改变合成语音的特性，但毕竟它对韵律的控制能力非常有限。更为有效的办法是采用参数合成法，分析参数特征，通过对相关参数的调整来实现对年龄、性别特征的改变，迸一步实现语气、语调的变化，由于这种改变是连续的，对象特征可以千千万万，显得更有生命力。近年来提出的基于l m a ( 对数振幅近似) 技术的语音合成器，h y b r i dh a r m o n i c s t o c h a s t i c 模型，s i n u s o i d a l 模型等已被证实是一些新颖的能合北京邮电大学硕士学位论文成出高质量语音的参数合成方法，为此应继续深入这方面的研究，以期在参数合成技术上取得突破。 3 降低语音合成技术的复杂度语音合成技术正在走向市场。为了适应社会的需求，扩大文语合成的应用场合，除了解决好上面几个问题提高合成语音的质量和增强语音合成的表现力以外，在其他实用化方面也有要加以改进的地方。就目前汉语文语转换系统而言，减小音库容量就是一个重要课题。目前高质量的汉语文语转换系统一般需要几兆字节到几十兆，甚至几百兆字节的存储容量，这在以p c 机或工作站为硬件平台的应用中是没有问题的。而对于象h p c ，p d a 及无线通信手机，商务通等资源有限的设备上就无法承受。解决的方法可以是通过语音压缩编码的方法来压缩音库所需的容量，或者采用更小的合成基元，例如用声母、韵母或双音素、半音节，以及减少合成语音所需的音节基元数等等。然而又不能增加算法的复杂度，因为运算量及系统开销同样会直接影响汉语语音合成的应用。既要提高语音合成的质量，又要降低语音合成的复杂度，这始终是一对矛盾的两个方面。 4 多语种的语音合成语言是人们交流的工具，不同民族有自己不同的语言，不同语言之间的交流在今天开放的信息社会和网络时代显得十分重要，多语种的文语合成有着独特的应用价值。例如在自动电话翻译，有声的电子邮件等中都提出多语种的合成，即使是对汉语合成也有多方言文语转换的需求。理想的多语种合成系统最好是各种语言都用一种合成算法或语音合成器，但是现有的语音合成系统大多是针对某一种语言或若干种语言开发出来的，所采用的算法及规则都是和某种语言密切相关的，因此很难推广到其他的语种。例如汉语就和西方语言有很大的差异，国内的系统都是做汉语文语转换，它的一套韵律控制规则完全不适合于英语，而且主要是合成汉语普通话，即使推广到广东话和上海话都有相当的难度。可见要真正解决多语种的文语合成，从文本处理到语音合成都必须有新的思路。可以预料，随着t t s 技术的进步和t t s 与其它各种新技术的相结合，语音合成技术必将在更为广泛的范围内得到推广和应用。 1 4 文语转换系统的结构语音合成技术是实现人机语音通信，建立一个有听说能力的系统所必需的关键技术之一。与语音识别相比，语音合成的技术相对来说要成熟，是该领域中近期最有希望产生突破并形成产业化的一项技术。北京邮电大学硕士学位论文按照人类言语功能的不同层次，语音合成也可分成三个层次，它们是：从文字到语音的合成( t e x t t o - s p e e c h ) ：从概念到语音的合成( c o n c e p t t o s p e e c h ) ；从意向到语音的合成( i n t e n t i o n t o s p e e c h ) 。这三个层次反映了人类大脑中形成说话内容的不同过程，涉及人类大脑的高级神经活动。不难想象，即使是按规则的文字到语音合成( 文语转换) 也已经是相当困难的任务。为了合成出高质量的语言，除了依赖于各种规则，例如语义学规则、词汇规则、语音学规则外，还必须对文字的内容有很好的理解，这将涉及自然语言理解的问题。从这一点讲，文语转换系统实际上也可看作一个人工智能系统。一般来说，t t s 系统统包括三个主要的组成部份：文本分析模块、韵律控制模块和语音合成模块。图卜1 显示了一个完整的文语转换系统框图。文语转换过程是先将文字序列转换戚音韵序列，再由语音台成器生成语晋渡形。其中第一步涉及语言学处理，例如分词、字音转换等，以及一整套有效的韵律控制规则；第二步需要先进的语音合成技术，能按要求实时合成出高质量的语音流。因此一般来说，文语转换系统都需要一套复杂的文字序列到音素序列的转换程序，也就是说，文语转换系统不仅要应用数字信号处理技术，而且必须有大量的语言学知识的支持。当然其中语音合成是最基本的部分，它相当于“人工嘴巴”，任何语音合成系统包括文语转换系统，都离不开语音合成器。 1 4 1 文本分析图1 - 1 文语转换系统框图语音合成系统首先处理的是文字，也就是它要说的内容。文本分析的主要功能是使计算机能从这些文本中认识文字，进而知道要发什么音、怎么发音，并将发音的方式告诉计算机。另外，还要让计算机知道，在文本中，哪些是词，哪些是短语或句子，发音时应该到哪里停顿及停顿多长时间等。其工作过程可以分为三个主要步骤：北京邮电大学硕士学位论文将输入的文本规范化。在这个过程中，要查找拼写错误，并将文本中出现的一些不规范或无法发音的字符过滤掉。分析文本中词或短语的边界，确定文字的读音，同时分析文本中出现的数字、姓氏、特殊字符、专有词语以及各种多音字的读音方式。文本的结构、组成和不同位置上出现的标点符号，确定发音时语气的变换以及不同音的轻重方式。最终，文本分析模式将输入的文字转换成计算机能够处理的内部参数，便于后续模块进步处理并生成相应的信息。传统的文本分析主要是基于规则( r u l e b a s e d ) 的实现方法。其主要思路是尽可能地将文字中的分词规范、发音方式罗列起来，并总结出规则，依靠这些规则进行文本处理，以获得需要的参数。具有代表性的方法有：最大匹配法、最佳匹配法等。这些方法的优点在于结构较为简单、直观、易于实现；缺点是需要大量的时闯去总结规则，且模块性能的好坏严重依赖于设计人员的经验以及他们的背景知识。由于这些方法能取得较好的分析效果，因此，直到目前，他们依然被广泛使用。但是近几年来，随着计算机领域中数据挖掘技术的发展，许多统计学方法以及人工神经网络技术在计算机数据处理领域中获得了成功的应用，计算机从大量资料中自动提取规律已完全可能并正在实现。在此背景下，出现了基于数据驱动( d a t a - d r i v e n ) 的文本分析方法，具有代表性的有：二元文法法( d i g r a m m a rm e t h o d ) 、三元文法法( t r i g r a m m a r m e t h o d ) 、隐马尔可夫模型法( h m mm e t h o d ) 和神经网络法( n e u r a ln e t w o r km e t h o d ) 等。一些比较著名的系统，如i b m 的语音产品就采用了隐马尔可夫模型法。这类方法的特点是，设计人员根据统计学或人工神经网络方面的知识，设计出一种可训练的模型，并用大量已经存在的数据去训练，将训练得到的模型用于文本分析，而系统设计人员并不需要太多的语言学背景知识。对于工程技术人员来说，这类方法无疑减轻了他们研究语言学的负担。目前，这类方法在文本分析精度上，己达到或部分超过了基于规则系统的分析结果，且容易实现多语种的混合，因而越来越广泛地被接受并使用。这类方法的缺点在于，尽管系统容易获得文本信息的共同特征，但忽略了一些个性，而往往这些个别因素对最终的发音方式影响很大。因此，有些系统采用了两类方法相结合的方式。 1 4 2 韵律控制任何人说话都有韵律特征，例如在汉语中，音节有不同的声调、语气和停顿方式，发音长短也各不相同，这些都属于韵律特征。韵律参数则包括了能影响这些特征的声学参数，如基频、时长、音强等。北京邮电大学硕士学位论文文本分析的结果只是告诉了计算机发什么音，以及以什么方式发音，这种发音方式还只是抽象的。而要发音的声调是二声还是三声，是重读还是轻读，到哪里停顿，等等，这些最终系统用来进行声音信号合成的具体韵律参数还要依靠韵律控制模块。与文本分析的实现方法相类似，韵律的生成方法也分为基于规则和数据驱动两种方法。早期的韵律生成方法均采用基于规则的方法。这种方法要求研究人员有大量的音韵学背景知识，需要对在各种特定的情况下，如声音在句子中的不同位置、不同声调及句子的不同语气甚至是不同的词性下，对基频、时长和音强等各个声学参数变化的详细情况加以总结、归纳。由于各个语种的韵律特征不同，因此，针对不同的语种，必须找出与该语种相关联的韵律特征。目前，基于规则的方法仍然被认作是行之有效的方法，大部分汉语语音合成系统依然采用这种方法。虽然经过研究者的努力，这种方法能达到较好的韵律生成效果，但它也受到很多限制。如前所述，基于规则的方法要求系统设计人员花费大量的时间和精力去研究不同语种酱遍存在的韵律特征，而这是一个非常耗时的工作，且由于规则的复杂性，其生成语音的自然度也受到较多的限制，也就限制了它的一些性能。另外，基于规则的方法往往只追求发音的自然，而掩盖了人的个性。如让系统模拟某一特定人的发音，就显得无力，除非是针对专人设计的一些专用模型。 1 4 3 语音合成语音合成从技术上讲主要分参数合成和波形合成。语音合成技术经历了一个逐步发展的过程，从参数合成到拼接合成再到两者的逐步结合，其不断发展主要是人们认知水平以及要求的不断提高的结果。目前，常用的语音合成技木主要有：共振峰合成技术、l p c 合成技卡p s o l a 拼接合成技术和l m a 声道模型技术。各种合成技术各有自己的优缺点，人们在应用的过程中往往将多种技术有机的结合在一起，或者将一种技术的优点运用到另一种技术上，以克服另一种技术的不足。这些方面，都己经有了不少成功的应用范例。系统产生的合成语音是通过一个声学模块来具体实现的。早期语音合成系统的声学模型多是通过模拟人的口腔的声道特性来产生的。其中比较著名的有k l a t t 的共振峰( f o r m a n t ) 合成系统，后来又产生了基于l p c 、l s p 和l m a 等声学参数的合成系统，这些都可以归结为参数合成系统。使用这些方法建立声学模型的过程是：首先录制声音，这些声音涵盖了人发音过程中所有可能出现的读音：然后，提取出这些声音的声学参数，并整合成一个完整的语音库。参数合成方法的优点是语音库一般较小，并且整个系统能适应的韵律特征的范围较宽，但其合成语音的音质却往往受到一定的限制。近l o 年来，采用波形拼接( p s o l a ) 合成语音的方法越来越被广泛应用。这种方法的核心思想是直接对存储语音库的语音运用p s o l a 算法进行拼接，从而整合成完整的语音。 9 北京邮电大学硕士学位论文有别于传统概念中只是将不同的语音单元进行简单拼接，该系统首先要在大量语音库中，选择最合适的语音单元用于拼接，并且在选音过程中往往采用多种复杂的技术，包括多项统计学上的技术或神经网络技术，最后在拼接时，使用p s o l a 算法，对其合成语音的韵律特征进行修改，而使合成的语音达到了很高的音质。如日本a t r 推出的多种语音合成系统，就采用了统计学上的隐马尔可夫模型来进行选音。其它的一些主要语音产品，如s i e m e n s 的p a p a g e n o 系统，也采用了类似或相关的技术。但基于波形拼接方法的系统仍存在一些问题，即它的语音库往往非常庞大，需要占据较大的存储空间。这对将系统推广到掌上型计算机或一些小的终端设备上非常不利。另外，在拼接时，两个相邻的声音单元之间的不连续，也容易造成合成音质的下降。 1 5 本文研究内容及论文结构 1 5 1 本文研究内容目前的语音合成技术有了很大的发展，许多公司、科研机构都推出了自己的中文语音合成产品例如；北京捷通公司、科达汛飞等。当前文语转换的研究，提出了很多语音合成的算法，但是无论这些算法效果如何，其目的都是为了输出接近自然的语音，因此，如果没有关于人类自然语言准确的韵律模型，再好的算法也不可能实现很好的效果。建立韵律模型而对语音库所进行的韵律标注以及对韵律标注数据所做的预处理和聚类工作是文语转换的基础工作，而基础工作往往需要进行枯燥的、繁琐的数据计算和统计，如果全靠人工，既费时费力又很可能出错。在韵律标注方面目前还没有一套有效的算法来代替人工的劳动，而聚类方面有很多算法。针对以上情况，本文研究的目的是通过建立韵律模型实现高清晰、高自然度的t t s 系统。本文主要完成了以下工作：分析语音合成的发展现状，总结语音合成的技术思想，重点对建立韵律模型进行研究。对基音周期的标注算法进行研究，针对基音周期的特点使用了手工和计算机相结合提取基音周期的算法，并在此基础上研制了韵律标注工具s p e e c h a s s i s t a n t 。基于语音合成语料库c o s s - l ，对c o s s 1 包括的1 2 6 8 个有调音节和6 4 0 个两字词2 5 6 个句子用s p e e c ha s s i s t a n t 进行韵律标注。对基频序列进行预处理，长度规整、平滑、零均值化等处理。 o 北京邮电大学硕士学位论文对聚类算法进行研究，针对各种聚类算法的特点，选择t s o d a t a ( 动态自组织) 算法对预处理后基频序列进行聚类，得到基频模式。 1 5 2 论文的结构第一章概述：介绍文语转换技术的发展状况及其应用。第二章汉语语音学：介绍与文语转换系统相关的语音学的基础知识，为后面的章节做准备。第三章音节数据库基音自动标注工具的研究：分析基音周期标注的几种算法，总结其优缺点，并提出改进的基音周期标注算法。介绍了基音标注工具s p e e c h a s s i s t a n t 。第四章汉语句子中音节的基频模式的提取：对基频序列进行预处理，并分析了几种聚类算法。用改进的迭代自组织数据分析方法( i s o d a t a ) 对预处理后的基频序列进行聚类，并对实验结果进行分析。第五章结束语：对本论文进行总结并提出进一步的工作。北京邮电大学硕士学位论文 2 1 实验语音学第二章汉语语音学语言中的个音，其发声过程中的器官运动是生理上的现象；从口( 或翼) 中发出声音到空气中的传播，是物理( 声学) 上的现象：语音从空气中传到耳朵里，激发神经冲动传到大脑，使人能够听清、听懂，并能理解说话人要表达的意思，则是心理、听感上的现象。这三个现象，是语音学研究的三个对象。要想弄清楚语音的本质特性，须得从这三方面人手：生理语音学、物理语音学和感知语音学。 2 1 1 生理语音学语音是由发音器官发出的。人的发音器官由下而上按照气流运送的三个阶段分为三个区域：( 1 ) 动力区，包括肺、横隔膜和和气管。( 2 ) 声源区，包括声门、声带和喉头。( 3 ) 成音区，包括口腔、彝腔和咽腔，统称为声腔。如图所示：北京邮电大学硕士学位论文图2 - 1 发音器官的三个区域 6 】肺部产生呼吸，在发音时，用胸部和横隔膜的动作压出气流，通过气管到喉头，迫使关闭着的声带颤动丽出声。声带的形状象一对后形的肌肉，声带肌的外面还覆盖着厚厚的粘膜层。声带的这种分层结构以及各层负荷力的强弱不同，决定了声带在发声振动时，并不是一种简单的左右横向开闭的动作，而是像一面旗帜那样飘动的。声带的这种复杂振动在物理上产生的结果之一，就是声门波是包含着许多不同频率的复合波，在频谱上可以观察到，声带振动产生的声门波是一种准周期波，由基频波和它的能量递减的各次谐波组成。声带的状态直接决定了语音的音高。我们知道，乐器里同样粗细的琴弦，绷得越紧，张力越大，音调也就越高：而同样张力的弦，则弦线越细，音调越高；此外，弦线短则振动块，音调就高：长则振动快，音调就低。语音的音调高低，也是如此，受声带的松紧、厚薄、长短等因素制约。童声又高又尖，因为小孩的声带较短较薄；成年后由于内分泌腺的不同，男性的喉腔比原来增大约1 5 倍，声带也随之变厚变长，声音比原来降低8 度左右；而女性的喉腔则只比原来增大约1 3 ，声带较男性要短些薄些，声音的比童声降低3 度：到了老年，声带和喉头的肌肉都变得松弛了，无论男女，声音都比成年时要粗而低。北京邮电大学硕士学位论文成年男女的基频范围约为6 0 2 0 0 h z 和2 0 0 , - 4 5 0 h z 。人 ( - 声案分费 ( b ) 薯镌嚣嚣囹2 2喉部的解剖结构【6 声带是造成个人语音特征的一个重要因素。每个人的声带各不相同，因而声门波的基频和谐被组成方式也各不相同，所以即使两个人发相同的音，我们也能分别出是谁在讲话。语音的声音按其激励形式的不同可以分为三类：以声带振动为声源，经共鸣腔( 咽腔、口腔、鼻腔) 调制的声波构成了我们听到的语音中能量最强的一个部分，这种声音称作浊音( 图2 3 ( a ) ) ：发音时声门松开而声带不颤动，肺中气流通过，但声腔中某两部分( 如舌根、舌面、舌尖等部分和相对应的器官如咽壁、软腭、硬腭等部分) 的距离收小，使气流产生摩擦作用而发出的芦音，称为擦音( 图2 3 ( b ) ) ；发音器官的某一部分紧绣到完全不让气流通过，使气流受阻而积聚，形成渐强的压力，压力达到一定的阀值，气流就会猛然冲破阻碍，爆发成声，称为塞音( 图2 - 3 ( c ) ) 。相对于声带振动发声的浊音，擦音和塞音合称清音或噪音。 t 图2 - 3 浊音波形a ( a ) 北京邮电大学硕士学位论文图2 - 3 摩擦音波形s h ( b ) 一切语音都是由这三种声源构成的。元音一般都是浊音：辅音的声源一般都来自口腔的阻碍或摩擦，这是清辅音；如果声源既来自口腔，也来自声带，那就形成浊辅音。例如浊塞音是有浊音和塞音两种声源构成的，浊塞擦音则涉及全部三种声源。辅音里的鼻音较为特殊，它的声源来自声带，但又不同于元音，因为发元音时声腔通道完全没有阻碍，而发鼻音时口腔部分是有阻碍的，鼻音的不同音色就是口腔里的不同阻碍形成的，总之鼻音是一种乐音成分占优势的辅音。声带振动产生的音波往上通过咽腔、口腔，发鼻音时还有鼻腔的共鸣作用，使声音的能量加强，并且这个共鸣腔对声门波的基频波和各次谐波有着不同的共鸣加强作用。人们控制发音器官的运动，从而改变共鸣腔的共鸣特性，就能发出音色各不相同的各种音。一个元音也可以用不同的音高来发，只要声腔形状不变，音色可以始终如一。 2 1 2 物理语音学上面简述了人类发音的生理原理，这里将简要分析语音现象的物理特性。世界上所有的声音都包括四种物理特征：音色、音高、音强和音长。例如，语音中的 a 与i 、u 或t 与d 、b ，我们之所以能听出它们是不同的声音，是由于它们音色不同；又如汉语中的“发”与“罚”、“高”与“告”、“国”与“果”，虽然每组的辅音、元音都各自相同，但是听起来还是不同( 因此知道它们代表不同的意思) ，这里的区别是声调，也就是音高上的区别；英语中“o b j e c t ”和“o b j e c t ”( “物体”和“反对”) 虽然拼法相同，但意义不同，北京邮电大学硕士学位论文这是重音上的区别，也就是音强在起作用；还有，英语中“s h e e p ”和“s h i p ”的发音，辨别其不同要靠其中元音i 1 的音长区别。各种语音，无论是个音节、若干音节或若干句子，人们耳朵所听到的都是这四种要素的组合，人们辨音也就是对语音的这四个特征进行辨别。下面分别介绍：音色：两个音听起来不同，其中有许多因素，而其中最主要的是音色上的差剐。拿一种乐器来做比方，比如胡琴，弦被弓拉过而振动发声，这种声音具有胡琴所特有的音色。胡琴的弦就相当于声带，而下面的琴筒相当于共鸣腔( 声腔) 。琴弦振动时，如果没有琴筒的共鸣，声音就不会大，也就不具备这个乐器的特色了。琴简的共鸣特性决定了这个琴音的音色。具体地来说，浊音( 在语音中，就是声带振动产生的声门波) 具有周期性，可以把它看作系列频率为n f o 的正弦波的叠加。其中周期等于整个乐音的周期，也就是频率等于f o 的子波祢为基圾，其频翠f o 称作基频，其他各个子波称为谐波，它们的频率是f o 的整数倍。我们听见的语音却完全不是这种声门波，而是经声道共鸣腔调制过的声音。其过程如图所示：声t l t 墟鼙睁睾，、r p ，1 1 1 舳，口n h z 叶r 鼍r 勰削v ( 懋2 门i | l 谭r 万万1 。门嬲u 形图2 - 4 韵母的产生过程 3 j 线性时变系统的理论可以很好地描述这种调制现象。在时域上，共振腔的作用的表达式为( s ( t ) 是语音，e ( t ) 是声门波，v ( t ) 表达共振腔的作用，是卷积运算符) ： s ( t ) = e ( t ) $ v ( t )式( 2 - 1 ) 根据同态变换理论，时域上的卷积运算，同态于频域上的乘法： s ( f ) = e ( f ) v ( f )式( 2 - 2 ) 北京邮电犬学硕士学位论文 s ( f ) 、e ( f ) 、v ( f ) 分别是s ( t ) 、e ( t ) 、v ( t ) 的频谱。比较声门波和实际语音波的频谱，可以发现不同频率的谐波得到了不同比率的加强，这不同的比率就是v ( f ) ，v ( f ) 完全表达了语音的音色。实际语音波的各次谐波构成了一群一群的峰，称为“共振峰”，共振峰也对应着v ( o 的各个极值点。人们实际感知语音的音色，只是由少数几个共振峰的频率来决定的，一般是两三个共振峰就能代表音色特征。一个元音并不是只有三个共振峰，除了f 1 、f 2 和f 3 之外，还有f 4 、f 5 、f 6 等等。但是，语音合成的试验证实，元音的头两三个共振频率确定后，音色基本上就决定了，高次的共振峰对音色的影响十分有限。辅音的共振峰特征主要体现在所谓“强频区”上，强频区就是辅音能量相对集中的频率区域。语音实验研究发现，从听辨角度来说，辅音的音色光靠辅音本身的声学特征是难以辨别的。绝大部分辅音都要带上一个元音才能形成清晰的听觉上的区别。辅音和元音结合起采的语谱图上，可以看出，元音共振峰的起始段受辅音的影响，出现了一段尖劈状的弯头，见下图。图2 - 5 部分辅音的过渡音征 7 1 元音共振峰起始部分的这一小段高度动态性的弯头，实际上是辅音和元音结合时，辅音寄生在元音上的声学特性，它对辅音的听辨起着决定性的作用，称作过渡音征，简称音征。根据过渡音征的理论，因为后接辅音的不同，前面元音的共振峰在收尾的一小段，发北京邮电大学硕士学位论文生了不同的变化，产生了不同走向的过渡音征，人耳正是根据这个区别辨别出不同的辅音韵尾来的。音高：音高( p i t c h ) 也就是声调( t o n e ) 。是由声带振动的频率快慢决定的。例如，一个男子发“马”这个上声字的音，音高也就在1 0 0 赫兹左右：而发“妈”这个阴平字的音，声带的振动频率将达到2 0 0 m 赫兹上下。从上面对音色的讨论来看，一个音之所以成为它本身，是因为它的音色。比如，一个音，只要它的共振峰符合标准元音 a 】的音色特征，那么，不管音调高点低点、音长的长点短点、音强的强点弱点，它仍然是 a 】。因此，音色可以称作语音的主要参量；其它三个参量音高、音长、音强称作次要参量，这三个参量又统称为“韵律特征”，或者“超音段特征”。韵律特征在完成辅音、元音的发音动作的同时，还要加上声调的高低、用力的大小以及时间的延长等因素。这

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（模式识别与智能系统专业论文）面向高自然度的汉语文语转换系统的研究.pdf

文档简介

温馨提示

最新文档

评论

（模式识别与智能系统专业论文）面向高自然度的汉语文语转换系统的研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档