(电路与系统专业论文)神经网络汉语tts韵律模型的研究.pdf_第1页
(电路与系统专业论文)神经网络汉语tts韵律模型的研究.pdf_第2页
(电路与系统专业论文)神经网络汉语tts韵律模型的研究.pdf_第3页
(电路与系统专业论文)神经网络汉语tts韵律模型的研究.pdf_第4页
(电路与系统专业论文)神经网络汉语tts韵律模型的研究.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(电路与系统专业论文)神经网络汉语tts韵律模型的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

山东大学硕士学位论文 中文摘要 近年来,由于计算机技术、多媒体技术和信息技术的发展,语音技术迅猛发展 并取得了很大进步。为获得较好的人机交互环境,对t t s 技术的研究引发空前的兴 趣并得到广泛的应用。t t s 汉语文本到语音的转换是指通过软件和硬件将汉语文本 或字串转换为汉语输出语音。目前有常用的两种t t s 合成技术一基于规则合成和波 形拼接合成,本文重点介绍波形拼接技术一p s o l a 算法。p s o l a 算法可以在保持语 音自然度的情况下通过改变基频和时长从而改变给定信号的韵律和幅度生成语音语 料。 t t s 系统有三大模块一一文本处理、韵律分析和语音合成,文本处理和韵律分 析主要是提取语音合成所利用的各种韵律控制参数,如台成语音韵律短语的结构和 音节之间的韵律信息等。这些参数受韵律实现策略和语言学韵律规则的影响,对语 音合成自然度起关键作用。目前由于缺乏比较好的韵律处理算法,精确提取韵律参数 比较困难,合成效果较差,所以目前的研究主要集中在提高合成语音的自然度。 利用人工神经网络优良性能进行韵律处理可提高语音的自然度。由于汉语是不 同于其它语言的有调语言,在提取语音参数时有着自己的规律。汉语韵律是受语境 影响的层次结构,而神经网络的运行和学习速率也极大的受到语境信息的影响,语 境信息有着重要的作用。神经网络结构比传统模型更好地反映了汉语的韵律。 在汉语t t s 系统韵律模型中改善文本处理能力可提高汉语语音合成系统的语音 输出质量,针对上述问题,本文提出了竞争型神经网络在汉语t t s ( t e x t t os p e e c h ) 韵律建模中的应用,通过输入多个不同韵律特征的模板样本的竞争,最终选择与自 然语音最匹配的那个样本模板,听辨的结果证明,竞争型神经网络模型合成语音的 自然度得到进一步的提高。 目前,自然语言识别理解技术和数据挖掘技术在汉语t t s 系统中得到广泛应用, 语音技术与多媒体技术相结合促成了由文本到可视语音的转换( t e x t t o v i s u a l s p e e c h ,t t v s ) 的实现。 关键词:t t s ( 文本到语音的处理) :韵律模型;竞争型神经网络 山东大学硕士学位论文 a b s t r a c t i nr e c e n t y e a r s ,a s t h e p r o s p e r o u sd e v e l o p m e n t o ft h e c o m p u t e r m u l t i m e d i a t e c h n o l o g ya n di n f o r m a t i o ni n d u s t r y , v o i c et e c h n o l o g yb e g i n st od i s p l a ya ne n o r m o u s a p p l i c a t i o nb a c k g r o u n d t h e r e f o r e t h es t u d i e so nt t sb e c o m em o r ea n dm o r ea c t i v ea n d h a v ed c h i e v e d g r e a tp r o g r e s st t sh a v eb e e nw i l d l yu s e di n h u m a n b e i n g c o m p u t e r i n t e r a c t i o nt oo b t a i na f r i e n d l yi n t e r f a c eb e t w e e nh u m a n b e i n ga n dc o m p u t e rc h i n e s et e x t t os p e e c hi sa p r o c e d u r et h a tt r a n s f o m l st h ec h i n e s et e x to rs t r i n gi n t oc h i n e s es p e e c hb y s o m es o f t w a r ea n dh a r d w a r ea n dt h e n o h t r u t i t r u l e b a s e d s y n t h e s i s a n dw a v e c o n c a t e n a t i o n s y n t h e s i sa r et w om a i ns y n t h e s i sm e t h o d s t h i sp a 口e re m p h a s i so np s o l a s y n t h e s i st e c h n o l o g y p s o l a i sam e t h o du s e di nv o i c es y n t h e s i st oc r e a t es p e e c hm a t e r i a l w h i l er e t a i n i n gag o o dl e v e lo fn a t u r a l n e s s 1 h i sm e t h o dc a n c h a n g et h ep r o s o d ya n d a m p l i t u d es p e c t r u mo f ag i v e n s i g n a lb yc h a n g i n gp i t c ha n d d u r a t i o no fa nu t t e r a n c e c h i n e s et t sh a st h r e ee l e m e n t a r ys t e p s :t e x tp r o c e s s i n gf t h eu n d e r s t a n d i n go ft h e t e x tb yc o m p u t e r ) ,p r o s o d ya n a l y s ea n d s p e e c hs y n t h e s i s t h ef o r m e ri sr e s p o n s i b l ef o r e x t r a c t i n ga l lk i n d so fp r o s o d i cc o n t r 0 1i n f o r m a t i o n ( s u c ha st h ep r o s o d i cp h r a s es t r u c t u r e o ft h es y n t h e t i c , s p e e c ha n d p r o s o d i ci n f o r m a t i o ni ns y l l a b i cl e v e l ) t h a tw i l lb eu s e db yt h e l a t t e rt oi n s t r u c tt h es y n t h e s i so ft h es p e e c h t h e s ep a r a m e t e r sa r ec r u c i a lt on a t u r a l n e s so f t t s b u tt h e i rp r e c i s ee x t r a c t i o ni so n eo fd i f f i c u l t i e si nt t sf o rt h ei n f l u e n c eo f p r o s o d y r u l e s t h er e s u l t so fi ti ss t i l if a ra w a yf r o mt h eh i g hn a t u r a l n e s sc o m p a r e dw i t hh u m a n s b e i n gl a c ko ft h eg o o da l g o r i t h mo fp r o s o d i cp r o c e s s i n g t h er e s e a r c ho ft t sm a i n l y f o c u s e do nb o wt of u n h e r j m p r o v et h en a t u r a l n e s so f t h es y n t h e s i z e ds p e e c h a tp r e s e n t b e c a u s eo fa r t i f i c i a ln e u r a ln e t w o r k se x c e l l e n tp r o p e r t i e ss o m ea t t e m p t h a v eb e e n m a d eo np r o s o d i cp r o c e s s i n gi no r d e rt oa c h i e v eh i g h e rn a t u r a l n e s so ft t ss y s t e m f o r m a n d a r i ni sat o n a il a n g u a g ew h i c hi sd i f i e r e n tf r o mo t h e ri a n g u a g e s i th a si t so w n m e t h o dt og e n e r a t ep r o s o d i cp a r a m e t e r sf o rm a n d a r i nt t ss y s t e m m a n d a r i np r o s o d yi s c h a r a c t e r i z e db yi t sh i e r a c h i c a ls t r u c t u r ew h i c hi n f l u e n c e db y l i n g u i s t i ce n v i r o n m e n t s i ti s m o r ei m p o r t a n tt of i n do u tt h es u b s t a n t i a ll i n g u i s t i cp a r a m e t e r s s i n c et h ep e r f 0 1 t n a n c ea n d t h el e a r n i n gr a t eo ft h en e u r a ln e t w o r ka r ei n f l u e n c e db yt h e md e e p l ye x t e n s i v et e s t s s h o wt h a tt h es t r u c t u r eo ft h en e u r a in e t w o r kc h a r a c t e r i z e st h em a n d a r i np r o s o d ym o r e e x a c t l yt h a n t r a d i t i o n a lm o d e l s am e l i o r a t i o no ft e x t sd e a l i n ga b i l i t yc a l li m p r o v en a t u r a l n e s so fv o i c ei nm a n d a r i n p r o s o d i c m o d e li nt t ss y s t e m b a s e do nt h i s ac o m p e t e da r t i f i c i a ln e u r a ln e t w o r k t e c h n o l o g yw i t hs p e c i a l l yw e i g h e df a c t o r sa n do p t i m i z i n go u t p u t si sd e s c r i b e d a n d a p p l i e d t oc o n s t r u c tt h em a n d a r i np r o s o d i cm o d e li nt t ss y s t e m m a n yd i f i e r e n tp r o s o d y m o d e l s y m b o l sc o m p e t ei nt h ei n p u tp o r to ft h en e u r a ln e t w o r k t h es y s t e mc h o o s et h eo n e w h i c hm a t c ht h en a t u r a lv o i c ei nt h eo u t p u to ft h en e t w o r k t h e 3 , r e s u l t e di nn o t i c e a b l y b e t t e rs y n t h e t i cs p e e c ht h a l lt h et r a d i t i o n a ln e u r a l n e t w o r k b a s e da p p r o a c h w h i c hm a k e s t h ew h o l e p r o s o d i cm o d e l m o r ee f f i c i e n t n a t u r a l l a n g u a g er e c o g n i t i o n a n d u n d e r s t a n d i n gt e c h n o l o g y a n d d a t a - m i n i n g t e c h n o l o g ya r ea l s ow i d e l y u s e di nm a n d a r i nt t ss y s t e m t h ec o m b i n a t i o no ft h e s e t e c h n o l o g ya sw e l la sc o m p u t e rm u l t i m e d i aa n di n f o r m a t i o nt e c h n o l o g yr e s u l t e di nt h e r e a l i z a t i o no f t e x t t o v i s u a ls p e e c h k e yw o r d s :t t s ( t e x t t o s p e e c h ) ;p r o s o d ym o d e l ;c o m p e t e d a r t i f i c i a ln e u r a l n e t w o r k 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不 包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研 究作出重要贡献的个人和集体,均已在文中以明确方式标明。本人完 全意识到本声明的法律责任由本人承担。 论文作者签名:季虹 日 期:锰琴匕么 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同意学 校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论 文被查阅和借阅;本人授权山东大学可以将本学位论文的全部或部分 内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段 保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:鞯导师签名: 峄 山东大学硕士学位论文 1 1引言 第一章续论 我们处在一个信息爆炸的时代,侠速准确逝获取各种信息,对人们的日常工作和 生活具有重要的意义。语言是一种最方便最快捷的信息交流方式,如果所需信息能转 换为语音的形式,将给人们的生活带来极大方便。随着计算机技术、多媒体技术、网 络技术和信息处理技术的迅猛发展,人机之间的交互越来越重要,语音技术应运面生。 语音技术是人与计算机通过声音化的语言进行信息交互的一种技术。语音识别和语音 合成技术是人机语音通信的两项核心技术,二者相结合构成的人机通信系统可以使 电脑能听懂人说的话并具有类似人一样的说话能力,即使电脑更加智能化能听、 会说。使入机交互( 如图1 1 ) 亲切友好,目前已广泛应用于信息咨询、电话银行、 办工自动化等方面。 图1 1 人机语音交互界面 在信息科学和计算机科学飞速发展的今天,语言技术与许多学科相联系如通讯、 计算机、人工智能、语言学、心理学、声学等学科,已成为当今科学技术发展的一个 热点,语言技术的发展受到全世界的普遍关注,语音技术目前已成为智能计算机领域 的研究热点,但技术的成熟度、应用的广泛性与人们的需求还有较大的差距,无论从 技术的进步还是应用的开拓,都还需付出巨大的努力。汉语t t s ( t e x t t os l j e e c h 文本到语音的的转换) 语音合成系统是指通过软件和硬件将汉语文本或字串转换为汉 山东大学硕士学位论文 ! ! ! = ! = ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! j ! ! ! ! 语输出语音。目的是为了让计算机能够开口说话,使计算机合成语音清晰、自然、具 有表现力,也就是将计算机中任意出现的文字转换为自然流的语音输出,近年来,t t s 技术的研究引发空前的兴趣,目前主要集中在提高合成语音的自然度。 语音合成按照人类语言功能的不同可分成从文字到语音的合成 ( t e x t t o s p e e c h ) ;从概念到语音的( c o n c e p t t o s p e e c h ) 合成;从意向到语音 的合成( i n t e n t i o n t o s p e e c h ) 三个层次。反映了人类大脑中形成语言的过程,涉 及人类大脑的高级神经活动。现在的语音合成技术刚冈起步,即使是按规则的文字到 语音合成( 文语合成) 也相当困难。现在技术上的研究进展还没有达到语音合成的第 二层次。但是汉语语音合成的研究和开发中,突破性地运用了人工神经网络、决策树、 隐马尔可夫模型等方法。这些方法的运用,彻底改变了汉语语音合成研究的研究重点, 使汉语语音合成的研究突破了早期重点对单纯算法的研究,而变成一个系统工程的研 究。目前我国语音合成的整体研究和开发,迈上了一个全新的台阶,并处在了国际最 先进的行列。 1 2 本课题研究创新内容 汉语t t s 语音合成系统是人机交互技术不可缺少的重要环节,在人机通讯中充当 重要的角色。由于在t t s 系统中文本处理和韵律分析信息对语音合成自然度起关键作 用,提取语音合成文本分析和韵律处理信息( 如合成语音韵律短语的结构和音节之间 的韵律信息) 所利用的各种韵律控制参数显得尤为重要。在汉语中韵律特征的变化主 要是通过汉语音节的声学参数( 音长、音强、时长等) 表现出来的。所以对这些参数 进行优化,可以提高合成语音的可懂度和自然度,更易于理解,接近人的正常发音。 由于缺乏比较好的韵律处理算法,精确提取这些参数比较因难,其合成效果与正常发 音相去甚远。正是基于以上需要,利用神经网络进行语音合成受到极大重视,由于汉 语是不同于其它语言的有调语言,在提取语音参数时有着自己的规律,汉语韵律是受 语境影响的层次结构,神经网络的运行和学习速率也受到语境信息的影响。因此,利 用神经网络的自学习功能和参数映射的特点,通过韵律模块预测控制t t s 系统的发音 方式,可使系统发音方式自然好昕。进一步的测试表明,神经网络结构比传统模型更 好地反映了汉语的韵律。 本文研究了神经网、韵律模型理论及其在语音合成中的应用。主要做了以下几个 方面的工作:( 1 ) 由于神经网络适合于汉语韵律特征的处理,对汉语韵律模型提出了 更高的要求,对韵律模块的研究可提高t t s 系统的性能,本文详细描述了韵律修改算 法p s o l a 算法。( 2 ) 在汉语t t s 系统韵律模型中改善文本处理能力可提高汉语语音 合成系统的语音输出质量,针对上述问题,本文提出了竞争型神经网络在汉语t t s 山东大学硕士学位论文 韵律建模中的应用,这是本课题的创新点。通过输入多个不同韵律特征的模板样本的 竞争,最终选择与自然语音最匹配的那个样本模板,昕辨的结果证明,竞争型神经网 络模型合成语音的自然度得到迸一步的提高。 1 3 本课题内容安排 第一章引言部分,第二章筒述了语音合成的历史和现状,介绍了两大类t t s 合成技 术,着重介绍了拼接合成技术中最新出现的p s o l a ( 基音同步叠加) 技术描述了 t t s 系统的构造、影响因素,以及面临的问题。阐述了文本分析和处理理论方法。一 些语言学的韵律规则和实现策略,并对语调和重音进行了研究。第三章介绍了神经网络 理论方法及其在汉语t t s 系统中的应用。提出了竞争型神经网络在汉语韵律建模中的 应用。第四章简述了t t s 系统的广泛应用,出现语音新技术及发展前景。第五章对 论文进行了总结。 山东大学硕士学位论文 ! ! ! ! s e ! ! ! ! ! $ ! ! ! ! ! ! ! ! ! = e g 自! ! i ! ! 一! 第二章语音合成 2 1 语音合成t t s ( t e x t t o s p e e c h ) 的发展及现状 2 1 1 语音合成的发展 语言是人类交往,传递信息的主要方式,而语音,在人类社会的发展过程中,有 着举足轻重的作用。随着计算机人性化程度的提高,人机交互技术的发展,使计算机 能识别人的声音和发声成为其中必要的一环。从技术角度探讨语音合成可追溯到工业 革命后的欧洲,法国人m i e a l 早在1 7 7 8 年就做了一个能说话的装置,它可以说一个 长句子,1 7 8 3 年,他又做了一台能对话的装置,它能说下面一句话( 法语) r 国王给 欧洲带来了和平) ,c 和平荣誉地为国王加冕”) ,1 8 世纪k r a t z e n s t e i n 用共振锋共 振器合成了五个元音,k e m p e l e n ( 1 7 3 4 1 8 0 4 ) 用了2 0 年来研究:“说话机器”他 的机器用风箱,类似于一只单簧管,操作者用左手同时控制操作杆和开口,可发出元 音和辅音。如图2 1 所示: 图2 1k e m p e l e n 的会说话的机器( f l a n a g a n1 9 7 2 ) f a b e r ( 1 7 8 6 年) 的机器,现存于巴黎医药学校的地下室里,机器能用正常声音 哨音说话,能唱:“上帝拯救了皇后这句话”。 机械时代的语音合成研究者们,受技术手段的限制,只能通过对人类发声的生理 现象的机械模拟来让机器开口说话,由于人们当时的活性组织和组成机器的原料的声 学特性大不相同,并且无人对人的发音器官的柔性运动进行有效的模拟,不久,上述 技术得到了解决,而人的发音流是无限的,要想合成任意的人类语音流,包括真实的 表现对理解语义至关重要的语气变化,依然需要对语音的本质特点作深入的研究。 1 9 3 7 年,b e l l 公司研制了v o d e r ,它与f a b e r 的机器有些相似,但是它有两个里 程碑式的贡献,第一是关于振动现象的物理特性,声音通过电子模拟处理,第二是操 作者控制的参数,完全不考虑声道的生理及语音特性,而和基音及谱包络严格对应。 山东大学硕士学位论文 v o d e r 指明了语音合成的技术方向,使语音合成技术从机械模拟发展到电子模拟的新 时代。1 9 6 0 年,瑞典语言学家和言语工程学家g f a n t 教授所著的“a c o u s t i ct h e o r yo f s p e e c hp r o d u c t i o n ”一书系统阐述了语音产生的理论,标志着现代语音合成技术的开 端。2 0 世纪6 0 年代英文t t s 首先被研制出来。 7 0 年代后,随着l s i 和v l s i 的迅速发展,特别是数字信号处理与实验语音学、 现代音韵学的交叉发展,互相促进,推动了语音处理技术的长足进展。近代语音合成 技术是随着计算机技术和数字信号处理技术的发展而发展起来的,国内的科研机构和 相关企业在语音合成技术上的起步较晚,8 0 年代,我国开始介入汉字t t s 领域的研 究,清华大学、中科院等单位都在这一领域取得了很好的成绩。近年来,在国家“8 6 3 ” 智能计算机主题的支持下,汉语t 1 _ s 技术有了长足的进步。 对于利用l p c 合成技术来进行汉语文语转换的研究,中科院声学所1 9 8 7 年引进 了多脉冲激励l p c 技术,1 9 8 9 年又引入矢量量化,1 9 9 3 年,他们引入码激励技术, 这些工作对于l p c 合成技术在汉语合成方面的运用做出了重要的贡献。世界上其它 国家已研究出汉、英、法、日、德等多种语言的t t s 系统,如b e l l 实验室、a t r 和 s i e m e n s 公司等。法国c n e t 实现的多语种t t s 已用于电话网中的公共话音服务。1 9 9 9 年,在口语处理国际会议中语音合成系统评比中有十几个系统参加,其中有5 个汉语 t t s 系统。语音合成发展的历史可如图2 2 所示: v a r t i c u l a t o r ym o d e l1 9 5 0 拼接合成1 9 5 8 神经网p s o l a l 9 8 5 图2 2 语音合成发展里程 2 1 2语音合成的现状 近几十年来国际和国内的研究主要集中在按规则文语转换,即将书面语言转换成 口头语言。而最新的语音合成技术则是基于语境相关思想的大语料库合成技术。语 音计算的成功与否在很大程度上取决于语音资源的积累。目前,在比较先进的语音处 理方法中,无一例外都提到了采用基于数据的驱动方式,然而这种方式首先就需要大 量的语料数据,没有大语料,数据的驱动就无从谈起。因此,为了尽可能地覆盖各种 语言现象,需要长期积累各种语音资源,同时对于语音信号的处理也需要大量的语音 处理软件。现在语音合成已经广泛地应用于人机对话中,它也是第五代智能计算机的 山东大学硕士学位论文 重要功能之一,目前,已有些商业化的产品面世,但是合成语音的质量( 主要是清 晰度、自然度、和连续性) 还不能尽如人意。 2 2 语音合成技术 语音合成过程如图2 3 所示 语音参数数字信号模拟信号扬声器 图2 3 语音合成过程 存贮在只读存储器( r o m ) 中的是编码后的语音参数,由计算机控制将r o m 中的 数据取出并译码,根据不同的语音合成原理,由语音参数转换为数字语音信号,再 经d a 转换为模拟语音信号,送扬声器输出到人耳。目前,常用的语音合成技术主 要有:有基于规则和拼接合成两种技术。 2 2 1规则合成技术 基于规则的合成,主要是根据参数的轨迹,形成规则,完成语音的参数合成。 具体来说是采用数字信号处理的方法,将人类发声过程看作是一个模拟声门状态的 激励源( 定义了唇、舌、声带发音器官的相关参数) ,去激励一个表征声道谐振特 性的时变数字滤波器( 定义声道模型参数,基于声道截面积函数或声道谐振特性的 参数) ,这个源可能是浊音情况下的声带振动的周期脉冲序列( 此时需注意的一个 问题是语音从口唇辐射出去的声压与口腔体速度的微分成正比,使语音频谱的幅度 每倍频程有6 d b 的提升,为使声道滤波器不受辐射效应的影响,需采用每倍程有6 d b 滚降的脉冲序列作为激励频谱) 。或者是不出声的清音随机噪声序列,调整上述参 数,等效于改变口腔及声道形状,从而估计声道截面积函数,进而计算声波。因此, 只要正确控制激励源脉冲序列的周期或强度( 即调整发音器官参数) 将改变合成语 音的音调、重音,控制滤波器声道模型参数( 一般每隔i 0 3 0 m s 送一组) ,可以灵 活地合成出各种语句来,因此又称作为参数合成的方法。根据时变滤波器的结构形 式不同,又有l p c 合成和共振峰合成器等之分。后来又产生了基于l s p ( 行同步脉 冲) 和l 姒等声学参数的合成系统。 山东大学硕士学位论文 声学模型的构筑,多通过模拟入的口腔的声道特性来产生,以通过语音学规则 来产生任意语音为目的。建立声学模型的过程为:首先录制声音,这些声音涵盖了 人发音过程中所有可能出现的读音;按语音理论,对所有的合成单元的语音进行分 析,一帧一帧地提取有关这些声音的语音参数,这些参数经编码后整合成一个完整 合成音库。音库中存储的是较小的语音单位( 音素、双音素、半音节或音节) 的声 学参数,以及由音素组成音节,再由音节组成词或句子的各种规则。在发音过程中, 首先根据需要发的音,从音库中选择合适的声学参数,然后根据韵律模型中 ;导到的 韵律参数,经编辑和连接,通过合成算法一帧一帧地重新还原语音波形产生语音。 当输出语言符号流时,合成系统利用规则自动将它们转换为连续的语音流。这类合 成器的比特率低,音质适中,调整灵活,易于实现韵律修改。但由于语音中存在着 严重的协同发音效应,单独存在的元音和辅音与连续发音中的元音和辅音有着很大 的不同,故需归纳其规律而制定如共振峰频率规则、时长规则、声调和语调规则等。 规则合成方式的语音库的存储量较小,这是以音质为代价的。由于汉语是一种声调 语言,韵律规则的提取涉及到许多语言学和语音学模型,系统结构复杂。目前,合 成规则还不完善合成音质还差强人意 这种方式的数码率比波形编辑时小得多,但系统结构也复杂一些,合成音质也差 一些。对应的编码方法是参数编码,通过提取、编码语音的特征参数,保持重建语音 的可懂度。 参数合成技术,在语音合成技术的发展中,最具代表性的文语转换系统是串并 联共振峰合成器。这些系统通过标准的接口和计算机连网或单独接到电话网上提供 各种语音信息服务,如社科院语言所的s i f $ 合成器、中科院声学所的k x l 系统, h o l m e s 的并联共振峰合成器( 1 9 7 3 ) 和k l a t t 的串并联共振峰合成器( 1 9 8 0 ) 及基 于k l a t t 合成器的第二代共振峰合成器k x f s s 则。只要精心调整参数,这些合成器 都能合成出较自然的语音。其中最具代表性的文语转换系统是美国d e c 公司的 d e c t a l k ( 1 9 8 7 ) 。但是经过多年的研究与实践表明,由于准确提取共振峰参数比 较困难,整体合成语音的音质较差,虽然利用共振峰合成器可以得到许多逼真的合 成语音,但是整体合成语音的音质难以达到文语转换系统的实用要求。其后产生了 基于l p c 、i s p 等声学参数的合成系统,下面分别介绍这几中技术。 共振峰合成:语音由声带振动或不经过声带振动产生,声带振动时产生浊音,不 振动时产生清音。声带为语音提供主要的激励源,是对发音影响很大的器官,声道 是一根非均匀截面的声管,是一个分布参数系统,其外形式变化是时间的函数,发 不同的音时其形状变化复杂。它有很多的自然谐振频率,这些谐振频率称为共振锋 频率,语音的频率特性由这些共振锋决定。共振锋依次增加的多个频率,用f 1 ,f 2 一一 表示,称为第一共振锋,第二共振锋,一,在语音识别技术中要考虑至少三个共 山东大学硕士学位论文 振锋,语音合成时考虑五个。改变声道的形状可以发出不同的声音,所以元音和共 振锋之间存在着对应关系。 共振峰合成技术的基本原理:表示抽样语音信号的离散数学模型是重要的。此外, 通过语音数学模型来研究语音合成,声道参数、声道谐振特性在语音参数模型中非 常重要。在语音频率响应的极点处,声道传输频率响应的极大值对应的极点处就是共 振峰,语音的共振峰频率( 极点频率) 的分布特性决定着该语音的音色。由于语音 有不同的极点对应不同的共振峰模式,以多个共振峰频率及其带宽为参数形成的滤波 器组模拟声道的传输频率响应特性对发声信号进行调制,并通过辐射模型就可以得到 合成语音。共振峰合成器有级联型、并联型和混合型共振锋三种模型。在级联型共振 峰模型中,声道被认为是一组串联的二阶谐振器。如图2 4 所示: 增益f 图2 4 级连型共振峰图 共振峰滤波器首尾相接,整个声道具有多个谐振频率和反谐振频率,可采用零极 点模型,对于合成声源位于声道末端的语音( 大多数的元音) 此时可以认为是全极点 模型。级连型合乎语音产生的声学理论,并且无需为每一个滤波器分设幅度调节;但 是鼻化元音等非一般元音以及大部分辅音,级连型模型不能很好地加以描述和模拟, 因此,构筑和产生了并联型共振峰模型如图2 5 所示: j 1 厂l 上i 厂j r - j - 厂 言一共振峰1 1 1a 2 i 丙广l 激l l 工查引 l a 3 篁3 b w 3 j 图2 5 并联型共振峰图 并联型共振峰模型对于鼻化元音等非一般元音以及大部分辅音,输入信号先分别 山东大学硕士学位论文 通过幅度调节再加到每一个共振蜂滤波器上,然后将各路的输出叠加起来。由于鼻化 元音或鼻腔参与共振发塞音或擦音时,腔体具有反谐振特性,必需加入零点,采用零 极点模型。但对于合成声源位于声道中间的语音( 大多数清擦音和塞音) ,并联型不 再适合,其幅度调节很复杂。因此人们将两者结合在一起,提出了混和型共振峰模型。 如图2 6 所示: 激励 图2 6 混合型共振峰图 a 代表增益,f 代表共振峰,b w 代表带宽,共振峰模型可合成出自然度比较高的 语音,在实践中都得到了广泛的应用。共振峰模型是基于声道模拟的,不精确的模拟 会影响其合成质量。其次,共振锋模型不能表征影响语音自然度其他许多细微的语音 成分,影响合成语音的自然度。并且共振峰合成器控制参数较多,控制十分复杂,实 现起来十分困难。 l p c ( 线性预测控制编码) 参数合成波形拼接技术的发展与语音的编、解码技术的 发展密不可分,是一种简单的解码和拼接过程,合成基元是语音的波形数据,l p c 技 术推动了波形拼接技术发展。l p c 合成技术本质上是一种时间波形的编码技术( 波形 编码技术指对语音波形进行编码,尽量保持输入的波形不变,即将输入语音信号作为 一般的波形信号处理,具有适应能力强语音质量好的特点,可降低时域信号的传输速 率) ,l p c 合成技术的优点是简单直观,对于单个合成单元来说能够获得很高的自然 度。 山东大学硕士学位论文 在利用l p c 合成技术进行汉语语音合成和汉语文语转换的研究的基础上,又引进 了多脉冲激励l p c ( m p e l p c ) 术,矢量量化,码激励( c e l p ) 技术,这些技术对 于l p c 合成技术在汉语音合成方面应用起了很大的作用。 多脉冲激励l p c ( m p e l p c ) 技术,在此方案中首先规定激励脉冲序列在一定时 间内只能出现数目有限的非零脉冲,然后每个非零脉冲的位置和幅度用合成分析法和 感觉加权均方误差最小的判决准则进行优化,最后用优化的脉冲序列表示余量信号作 为激励源与l p 参数一起编码输入信道。这样压缩了编码速率,同时改善了合成语音 的质量。 码激励( c e l p ) 技术,用v q 码本的码字作为激励源的线性预测编码技术。码本 中的每一个码矢量都可以代替余量信号作为可能的激励信号源,在编码进对码本中的 码矢量逐个搜索,找到与输入语音误差最小的合成语音的激励码矢量。只要将该码矢 量的标号传送给收端,在接收端用储存的同样的码本根据收到的标号恢复出相应的码 矢量作为激励。 : 矢量和激励线性预测和码激励线性预测( c e l p 如图2 7 所示) 等的预测编码方 案采用的是参数编码和波形编码的混合编码形式,结合了上述两种方法的优点,能重 构高质量的语音。特点是首先进行线性预测分析,去掉语音的相关性,然后用合成分 析法及感觉加权均方误差最小准则分析出合适的替代余量信号的最佳激励信号源,最 后对线性预测参数和激励信号源进行编码和传送。 l i i 臣屯9 世一出 图2 7 矢量量化与线性预测l p c 语音合成系统 由于这些方案的激励模型和误差计算与时域波形有关,合成语音有较强的跟踪输 入语音变化的能力,从而改善了合成语音的质量和抗噪声性能,提高了合成语音的自 然度。 l m a 声道模型随着人们对语音合成的自然度和音质的要求越来越高,其它算法 表现出对韵律参数调整能力较弱和难以处理协同发音的缺陷,因此,人们又提出一种 山东大学硕士学位论文 基于l m a 声道模型的语音合成方法。这种方法具有传统的参数合成灵活调节韵律参数 的优点,同时又具有比其它算法更高的合成音质。 2 2 2 拼接合成技术 从八十年代末期开始,人们从波形的直接录制和播放得到启发,提出了基于波形 拼接的合成技术,直接把语音波形数据库中的波形级联起来,以语句、短语、词、或 音节为合成单元,语音波形取自自然语音的词或句子,以直观的波形替代参数,对波 形进行灵活多变的修改,得到所期望的韵律,输出连续语流。这些单元被分别录音后 直接进行数字编码,经适当的数据压缩,组成一个合成语音库,重放时,根据待输出 的信息,在语音库中取出相应的单元波形数据,串接或编辑在一起,经解码还原出语 音,这种语音合成技术用原始语音波形替代参数方式也叫录音编辑合成。合成单元越 大,合成的自然度越好,系统结构简单,价格低廉,但是合成语音的数码率较大,存 储量也大,合成词汇量有限。此技术在自动报时、报号、或报警等装置中得到了广泛 的应用。 目前已经开发出多种合成系统可供使用。采用波形编码方法,力图使重建语音的 波形保持原始语音的波形形状,如p c m ( p u l s ec o d em o d u l a t i o n 脉冲编码调制) 和 a d p c m ( a d a p t i v ep u l s ec o d em o d u l a r i o n 自适应音频脉冲编码) 波形拼接的语音合 成方法,采用数字存储技术,预先存入足够语音单元( 可以是音素、音节、词组或句 子) 它们来自于原始自然语音的样本,建立一个音库,根据语音合成的不同技术要求, 这些基元以某种参数的形式存储在计算机内,在合成时从音库中检索出相应的合成参 数,还根据音韵要求,按规则对这些参数进行调整,采用恰当的技术手段将所需的语 音单元平滑地连接起来形成合成参数序列,产生连续的语音输出,可生成高自然度的 语句,为了节省存储容量,在存入机器之前还可以对语音信号先进行数据压缩。l p c 合 成技术和p s o l a 合成技术是波形拼接的合成技术的代表。与共振峰合成技术不同, 波形拼接合成是基于对录制的合成基元的波形进行拼接而不是基于对发声过程的模 拟。波形拼接的方法音质好,自然度高,但受调整算法限制,只能作有限调整。 波形编辑语音合成技术需要解下列几个问题:选取语音波形数据库中拼接的基本 单位语音基元。合成时,根据某种规则或模型选择最为理想的基元。它可能是音素、 双音子( d i p h o n e ) 、三音子( t r i p h o n e ) 、半音节( 首音、尾音) 、音节、词语、语句 等。基元越小,语音数据库越小,拼接过程越复杂,拼接越灵活,韵律修饰的规则就 越复杂,语音基元的大小与算法的复杂性和变化的灵活度成反比,与数据库的大小成 正比;为减小韵律修饰的负担,建立多样板语音数据库。由于波形或频谱的不连续都 会产生噪声,而协同发音现象又使过渡段不可避免,因此,语音波形拼接过程需进行 平滑滤波。波形编辑语音合成能在频域波形上对韵律进行方便的修改,反映了语音在 基频、共振峰、能量及谱分布特性上的差异。使语气、语调、重音达到我们所要求的 山东大学硕士学位论文 ! ! ! = ! ! ! s ! = 自e ! _ e ! ! 1 2 1 ! _ e 自! ! 一! 一! - l 效果,也要进行一些语言学处理。 1 9 9 0 年基音同步叠加p s o l a ( p i t c h s y n c h r o n o u so v e r l a pa d d ) 方法的提出, 使语言合成技术有了新的进展。首先据上下文的要求,用p s o l a 算法对拼接单元的 韵律特征进行调整,使合成单元的韵律特征符合上下文的要求,从而获得较高的清晰 度和自然度。使基于时域波形拼接方法合成的语音的音色和自然度大大提高。这些系 统的自然度比以前基于( 线性预测编码技术) l p c 方法或共振峰合成器的文语合成系 统的自然度要高,并且基于p s o l a 方法的合成器结构简单易于实时实现,因此具备 了一定的商用前景。虽然大语料库合成技术采用原始语音片断作为合成单元,需要重 点处理原始语音片断的获取方法、挑选方法以及拼接算法,但由于各种机器学习和数 据挖掘的方法也应用在大语料库合成系统用于海量信息的处理方面。其合成语音的音 质较上述方法有质的提高,目前存在语料库的录制和制作工作量巨大、需要深厚的基 础研究积累等缺陷,然而系统的商业前景却是无可限量的。 这种语音波形编辑合成技术已广泛用于文语转换系统中,如日本的n t t 基于 波形文件实现日语规则合成系统,日本的a r t 的y t a l k 语音合成系统,则使用 了大小不规则的语音单元,采用单元集自动生成和快速构造算法,自动音调控制规则。 法国c n e t 以双音素作为语音基元,用基于h m m 的语音匹配法进行特性标注,实 现了法语文语转换系统。德国波恩大学的语音合成系统接收有重音标注的音素,以 半音节类似的时域拼接,输出语声流。 过去共振峰合成技术和基于p s o l a 算法的波形拼接合成技术这两种技术基本上 是互相独立发展的,现在许多学者开始研究它们两者之间的关系,试图将两者有效地 结合起来,从而合成出更加自然的语流。例如清华大学的研究人员进行了将共振峰修 改技术应用于p s o l a 算法的研究,并用于s o n i c 系统的改进,研制出了具有更高自然 度的汉语文语转换系统。 2 2 3 语音合成新技术一p s o l a 技术及应用 进入九十年代以来,波形拼接技术基音同步叠加p s o l a 方法的提出( 1 9 9 0 ) ,越 来越广泛的应用在语音合成系统中。p s o l a 算法是一种韵律修改算法,最先是在法国电 信发展起来的,其实它本身并不是种合成方法

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论