（电路与系统专业论文）基于文语转换技术的远程语音报警系统.pdf

上传人：伐*** IP属地：宁夏上传时间：2019-12-15 格式：PDF 页数：59 大小：1.83MB 积分：0 举报 版权申诉

已阅读5页，还剩54页未读，继续免费阅读

（电路与系统专业论文）基于文语转换技术的远程语音报警系统.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

中国科学技术人学颂l 论文摘要摘要 f 文语转换( t e x t t o s p e e c h ，简称t t s ) 技术是目前语音合成技术的主要研究热点，它的最终目标是能将任意的文字信息转换成清晰自然的语音输出，属于计算机人工智能的一个重要方面。随着信息技术的飞速发展，文语转换技术有了很大的进展，合成语音的清晰度与可懂度基本上能被大多数人所接受，而其自然度和表现力仍然不是十分令人满意，尽管如此，仍然有很多领域采用了基于t t s 技术的实用系统，以提高整体生产效率。因此，面向实用系统的语音合成技术的研究具有重大意义j 喀文以构建实用系统为目标，从提高合成语音自然度这一角度出发，围绕汉语语音合成技术的特点，对合成基元选择、基音标注算法等关键问题进行了深入的分析和研究，并给出了一种基于汉语t t s 技术的远程语音报警系统的实现方案。本文的主要研究内容与工作成果如下： 1 、提出了一种新的合成声音基元选取策略， ( 在目前汉语语音合成常用的波形编码合成方法中，通常是以单音节作为语音合成的声音基元。但是由于合成时音节连接处往往不能很好的过渡，导致合成语音自然度不是很好j 本文针对这个问题，对汉语中协同发音现象作了深入的研究，总结出相应的规律，提出了将自然语音中的某些音节连接段也作为合成单元的策略。主观试听与实验结果都表明，使用该策略结合p s o l a 算法进行语音合成，合成语音的自然度较通常的波形合成法有了较大的提高。4 2 、提出了一种新的基音周期检测算法， ( 在语音合成系统中，为了提高合成语音的自然度需要对合成语音进行韵律特征的修改与调整。由于语音信号的韵律特征主要由基音周期的变化决定，因此，研究语音信号的韵律特征，就需要提取语音信号的基频轮廓参数，即对基音周期进行检测；而对合成语音进行韵律修改，常用的韵律修改算法如p s o l a 算法则是通过对基音周期进行修改来实现，其要求对语音合成单元进行基音周期标注，也是建立在准确的基音周期检测基础之上。诛文对a m d f 算法进行改进，提出了子帧a m d f 、校正子纠错、确定帧起始点以及基于关键点求值等一系列改进方法。窿验结果表明，算法改进后在准确性与运算速度上都有了较大提高。而我、、们基于改进算法开发的基频轮廓提取工具和基音标注工具，取得了较好的效果心 3 、实现了基于文语转换技术的远程语音报警系统。陆合上述研究内容与实际应用场合，我们确定了文语转换模块的具体实现方、- 中周科学技术人学硕 j 论史摘要案，并利用调制解调器和m i c r o s o f tw i n d o w s 的垒型里墼，实现了整个语音报警系统。整个系统在b o l a n d 公司的d e l p h i 可视化编程环境下开发。与其它类似的语音报警系统相比，该系统具有成本低、灵活度高的特点。v 关键词：文语转蟛基音周期江m 明jp s o l 食。璺登堂垫查叁兰塑! ! 堡苎! ! 兰 a b s t r a c t t e x t - t o s p e e c h ( t t s 、t e c h n o l o g y i so n eo ft h eh o tf i e l d si ns p e e c hs i g n a lp r o c e s s i n g r e s e a r c h t h eu l t i m a t eg o a lo fw h i c hi st oc o n v e r ta n yt e x ti n t oc o r r e s p o n d i n gn a t u r a l s p e e c h t h et t st e c h n o l o g yi sa l li m p o r t a n t f i e l dt h a tb e l o n g st oc o m p u t e ra r t i f i c i a l i n t e l l i g e n c e w i t ht h er a p i dd e v e l o p i n go fi n f o r m a t i o nt e c h n o l o g y , r r st e c h n o l o g y h a sa l s oa c h i e v e dg r e a tp r o g r e s s t h ec l e a r n e s sa n da p p r e h e n s i b l e n e s so fs y n t h e s i s s p e e c hc a r lb ea c c e p t e db ym o s tp e o p l e ，w h i l et h en a t u r a l n e s sa n de x p r e s s i v ef o r c e s t i l ln e e di m p r o v e t o d a yv a r i o u sp r o d u c t s 。w h i c hi n t r o d u c et h et t st e c h n o l o g y , a r e u s e di nm a n y w o r k i n ga r e at ob o o s tp r o d u c t i v ee f f i c i e n c y s o ，t or e s e a r c ht h eo n t h e p r a c t i c a ls p e e c hs y n t h e s i st e c h n o l o g yh a sv e r yi m p o r t a n tv a l b e i nt h i st h e s i s ，w e d i s c u s st h es p e e c hs y n t h e s i st e c h n o l o g yf o c u s i n go ns y n t h e s i su n i ts e l e c t i o na n d p i t c hm a r k i n ga n dp r o p o s ean e wm a n d a r i nt t st e c h n o l o g y , b a s e do nw h i c hw e c o n s t r u c tar e m o t ev o i c e a l e r t i n gs y s t e m t h em a i nc o n t e n ta n dr e s u l t so f s t u d yi nt h i st h e s i sa r ea sf o l l o w s ： 1 、p m p o s e d 8n e w s y n t h e s i su n i ts e l e c t i o ns t r a t e g y i nm o s tm a n d a r i ns p e e c hs y n t h e s i sa p p r o a c hc u r r e n t l ya v a i l a b l e ，s u c ha sc o n c a t e n a t e s y n t h e s i s ，t h es y n t h e s i su n i ti su s u a l l yf ls i n g l es y l l a b l e i nt h e s ea p p r o a c h e s ，t h e r e h a v e d i s c o n t i n u i t yi nt h ej o i n to fs y n t h e s i su n i t sw h e ns y n t h e s i z i n g ，w h i c hl e a d st o u n c l e a ra n du n n a t u r a ls p e e c h a i ma tt h i sp r o b l e m ，w er e s e a r c h e do nt h ec o a r t i c u l a t e i s s u e si nm a n d a r i ns p e e c hp a r t i c u l a r l ya n dp r o p o s e dan e ws y n t h e s i su n i ts e l e c t i o n s t r a t e g y , w h i c hu s es o m es p e c i a lc o n c a t e n a t ef r a g m e n t sb e t w e e ns y l l a b l e sa ss y n t h e s i s u n i t w i t ht h i ss t r a t e g y ，w ec a ns y n t h e s i sm o r en a t u r a lm a n d a r i ns p e e c hc o m b i n e d w i t hp s o l a a l g o r i t h m 、 2 、p r o p o s e d an e w p i t c hd e t e c t i o na p p r o a c h i nag o o dt t ss y s t e m ，t h em o d i f i c a t i o n so f r h y t h m sa r ei n d i s p e n s a b l et os y n t h e s i s s p e e c h e sw i t hs o m en a t u r a l n e s s t h er h y t h m si nm a n d a r i ns p e e c hm a i n l yd e p e n do n t h ev a r i a t i o no fp i t c h t or e s e a r c ht h er h y t h m sc h a r a c t e r i s t i cn e e dt oe x t r a c tp i t c h c o n t o u r , i e d e t e c tt h ep i t c ha n di t sv a r i a t i o n i np s o l aa l g o r i t h m ，m o d i 母i n gt h e r h y t h mi s a c h i e v e d b ym o d i l y i n gt h ep i t c h ，w h i c h a l s on e e dd e t e c tt h e p i t c h t h e r e f o r e ，w ep r o p o s e dan e wp i t c hd e t e c t i o na l g o r i t h mb yi m p r o v i n ga m d f a l g o r i t h m t h ep r o p o s ep i t c hd e t e c t i o na l g o r i t h mh a sa l r e a d yb e e na p p l i e di n t o0 1 1 1 p i t c hc o n t o u r e x t r a c t i n gt 0 0 1a n d p i t c hm a r k i n gt 0 0 1 3 、d e v e l o p e d ar e m o t ev o i c e a l e r t i n gs y s t e mb a s e do n 刀西t e c h n o l o g y b a s e do na b o v er e s e a r c hr e s u l t s ，w ec o n s t r u c tar e m o t ev o i c ea l e r t i n gs y s t e m c o m p a r em a n y o t h e rs i m i l a rs y s t e m ，o u r s y s t e mh a v em a n ya d v a n c e ，s u c ha sl o wc o s t ， h i g ha d a p t a b i l i t ya n df l e x i b i l i t y t h ew h o l es y s t e mi sd e v e l o p e di nb o r l a n dd e l p h i w ei n t r o d u c e dr e a l i z a t i o no f t h ew h o l e s y s t e mi nt h el a s tp a r to f t h i st h e s i s k e yw o r d s ：t e x t t o - s p e e c h p i t c hp e r i o da m d fp s o l a 中国科学技术人学坝i j 论义第一章绪论论文研究背景和意义第章绪论随着科技的飞速发展，现代社会生产已经进入了大规模的自动控制时代，在许多生产企业都有监控机房，如果对监控机房实现无人值守则能够进一步优化生产效率，从而将有效的人力资源应用到研究和开发部门。远程语音报警系统因此应运而生，通过这个系统，监控计算机在检测到不同的设备故障信号以后，可以自动向维修部用语音报告发生故障的设备和相应的故障信息，以请求相应的维修，从而实现监控机房的无人值守。目前市场上已有不少类似的这种自动报警系统i l 。j ，实际应用比较广泛，其基本原理为：首先所有需要监控的设备与监控计算机相连接，当计算机监控程序检测到有设备出现故障时，根据出现故障的设备类型以及故障信息生成报警信息，此时报警系统从数据库中调用预先录制的语音，通过语音卡自动拨号向维修部门作电话语音报警。这类系统的不足之处在于：有的系统为了保证报警语音的清晰、自然，语音信息以句子的形式存放在数据库中，因此数据库容量庞大，且针对不同的应用场合需要建立不同的语音数据库，从而导致其灵活性与通用性不好；而有的系统将简单的单个汉字的发音存入数据库，在报警时把一个个汉字的发音连续播出，虽然数据库容量较小，灵活性也较强但是合成语音不自然，甚至影响听者的理解。我们不难想到，如果能让计算机像人一样“自动说话”，把 “想”到的文字用语言表达出来，而不是作为一台死板的录音机那该多好。所幸的是，文语转换技术恰好能实现这一目的。文语转换技术【4 l ( t e x t - t o s p e e c hc o n v e r s i o nt e c h n o l o g y ，或简称t t s 技术) 是一种集成了语言学处理和声学处理两部分的计算机语音合成技术，前者是对输入文本进行语言学分析，后者就是通常所说的语音合成。文语转换过程如图1 1 所示。文语转换技术属于计算机人工智能领域，对实现人机交互( h u m a n c o m p u t e r i n t e r a c t i o n ) 有重大意义，因而成为当前语音技术研究的热点问题，其研究目标是在计算机上将任意的文本信息通过语音合成技术实时转换成自然流畅的语音输出。显然t t s 技术具有高度的灵活性和广泛的应用前景。输入厂i i ：i j f 抽象底层的厂i ；否输出文本叫析程序r p语占学描写1 成程序卜_ + 语音中国科学技术大学顺i 论文第一章绪论针对这个问题，本文提出了一种基于文语转换技术的远程语音报警系统，可以较好的克服上述系统应用的局限性。系统框图如图1 2 所示，采用了t t s 技术的报警系统与普通报警系统相比，具有如下优势：用户自定义报警信息时可选择以文本方式添加，而无需请专业人员录制语音信息，由于采用了t t s 技术，语音数据库规模可控制在较小的范围，且通用性强，可适用于各个领域：由于t t s 系统为纯软件实现，因此只需调制解调器实现电话拨号功能即可，而无需价格昂贵的语音卡，系统成本得到了有效的降低；未来通过对调制解调器的数据传输功能的利用，可进一步扩展系统的功能，因此系统升级方便。由此可见，与传统的语音报警系统相比，该系统具有灵活性、适用性更好，成本低且扩展性强的特点。用户可自定义添加故障信息史奉方式语音方式苎竺塑图1 2 基于文语转换技术的报警系统框图二文语转换技术简介及其研究概况 1 、文语转换技术的历史发展概况在文语转换概念的提出之前，人们主要把精力集中在语音合成( s p e e c h s y n t h e s i s ) 技术的研究上，即如何使机器“开口说话”。语音合成的历史可以追述到公元1 7 世纪，而第一批有科学目的的合成器是1 8 世纪k r a t z e n s t e i n 的共振器、m i c a l 和k e m p e l e n 的“会说话的机器”。现在，“会说话的机器”这一术语已被更科学、更严格的“语音合成”词所代替。 1 9 3 7 年h o m e rd u l e y 与他的同事，b e l l 电话公司的工程师r i e s z 和w a t k i n s 2 中国科学技术人学预f ：论文笫一章绪论研制了一台语音合成机器v o d e r ( v o i c ed e m o n s t r a t o r ) ，v o d e r 具有两大特性，第一是关于振动现象的物理特性：声音通过电子模拟处理；第二是操作者控制的参数与基音和谱包络严格对应，完全不考虑声道的生理和语音特性，这两点特性使之具有了现代语音合成技术的雏形，因此v o d e r 的出现可以说是开创了一个新的时代。 1 9 6 0 年瑞典语言学家和言语工程学家q f a n t 教授在他所著的“a c o u s t i c t h e o r yo f s p e e c hp r o d u c t i o n ”一书【5 】中，系统的阐述了语音产生的理论，这本专著标志着现代语音合成技术的开始。另外，j l f l a n a g a n 的“s p e e c ha n a l y s i s ， s y n t h e s i sa n dp e r c e p t i o n ”1 6 被许多研究学者誉为“圣经”。d e n n i sk l m t 对语音学领域的贡献1 7 1 1 8 】则推动了语音合成科学和应用的发展，在缺少理论模型时，他收集了许多经验数据，并结合语音产生的过程，用系统的方法解决语音合成的问题。 7 0 年代以后，随着l s i 和v l s i 的迅速发展，特别是数字信号处理与实验语音学、现代音韵学的交叉发展、相互促进，推动了语音处理技术的长足进步。现在对语音合成技术的研究已从通用的语言合成技术的研究，转向结合本民族语言的特点，将语音合成技术和语音学、语言学的研究紧密的结合在一起，这就是文语转换技术。目前，t t s 技术的研究已成为世界各国语音合成领域研究学者的研究热点，并研究出了各种语言的t t s 系统，如k l m t 等人开发的英语t t s 系统m i t t a l k i 引，日本藤崎教授等人研制的日语t t s 系统【】0 1 等等。汉语t t s 技术的研究始于2 0 世纪8 0 年代，虽然起步较晚但发展很快，尤其是近些年来，在国家”8 6 3 ”智能计算机主题的支持下，汉语t t s 技术有了长足的进步，清华大学和声学所以及中国科学技术大学都已开发出采用波形编辑技术的汉语t t s 系统【l l l 1 2 1 ，合成语音都达到了较好的效果。但迄今为止，即使是对于研究历史较长的英语来说，也未能开发出一套相当满意的t t s 系统。t t s 技术的主要研究问题在于如何提高合成语音自然度，即合成语音与人们所说自然口语的仿真程度问题。在这一点上西方语系由于是无调语言，合成语音的自然度相对较好，而汉语普通话是有调语言，且其韵律特征对自然度影响很大，相比之下提高语音自然度的难度更大。 2 、文语转换技术的分类与研究现状文语转换技术从语音合成方式角度，可以归纳为两大类j ： ( 1 ) 编码合成方式：编码合成方式是采用语音编码技术对语音合成基元进行压缩编码，然后用这些基元编辑拼接成所需的短语、语句或段落。这类方法在合成语音段时所用的基 3 中困科学技术人学f 蜞1 j 论文笫一帝绪论元是不做大的修改的，最多只是对相对强度和时长做一点简单的调整。因此这类方法或者合成语音流畅度与自然度很差；或者必须选择比较大的语音单位作为合成基元，例如选择词、词组、短语、甚至语句作为合成基元，这样在合成语音段时基元之间的相互影响很小，容易达到较高的合成语音质量，但是付出的代价是存储合成基元所需存储容量较大。因此，这类方法，通常只能合成有限词汇的语音段，应用不够灵活。目前许多专门用途的语音合成器，如市面上广泛采用的的自动报时、报警系统大多也是采用此种技术。 ( 2 ) 按规则合成方式：按规则合成方式一般选用更小的语音单位( 如音素或音节) 作为合成基元，根据各种各样的韵律规则来合成词语和语句。所谓韵律，或称超音段特征，对于汉语来讲就是语句中各音节的声学特征的变化规律，这里所说的声学特征包括各音节的相对音长、短时能量曲线、基频轮廓曲线、共振峰特性的动态变化、音节间的停顿等。显然，按规则合成法主要是用于无限词汇的语音合成的，它要求对于待合成语句的韵律特征定量地进行描述，并且要求合成算法有较强的韵律调整能力。在按规则合成方式中，具体的语音合成方法，或者说合成器，又有许多种，如发音器官参数法、线性预测( l p ) 参数法、共振峰参数法和基音同步叠加法 ( p s o l a ) 1 5 1 ，以及同态处理法、基于短时傅罩叶变换重构语音信号法和j 下弦模型法等等。其中共振峰法和基音同步叠加法，是两种具有很强的韵律调整能力的合成算法，也是在按规则合成语音中应用最为成功的方法。这两种方法各有优缺点，本文后续章节将做详细介绍。三本文的主要研究内容与目标从目前t t s 技术的主要几种合成方式来看，基于波形修改技术的规则语音合成，对于汉语语音合成是比理想的方法，因此本文提出的报警系统，其文语转换模块采用的也是这种合成方式。当前主流的波形修改算法p s o l a 算法具有两大缺点，即基音周期难以准确检测问题和合成单元过渡段拼接是否能保持平稳的问题。本文针对这个问题做了进一步的研究，并提出了相应的解决方案。对于基音周期的精确标注问题，本文提出了种改进的a m d f ( 平均幅度差函数) 算法【l6 1 ，并采用该算法开发了一个用于基音标注的工具，在实际使用中实现了基音周期的精确标注；对于波形拼接的平稳过渡问题，本文针对汉语中协同发音现象作了深入的研究，总结出汉语语音中音节之间的几种过渡方式，并据此提出了一种新的合成单元选择策略，将、中周科学技术人学坝f j 论义第一章绪论部分音节间的过渡段作为合成单元，从而有效地避免了p s o l a 算法可能造成的频谱包络过渡不平稳的问题。本文后续章节主要内容如下：第二章给出了文语转换系统的组成，并分别对文本分析、韵律规则的生成以及语音的合成等几个部分作了系统的介绍。第三章详细介绍了p s o l a 算法原理，其在语音韵律调整中的应用，并通过对汉语中协同发音现象的研究，提出了一种新的合成声音单元选取策略，在单音节合成单元基础上增加了部分自然语音中的音节连接段作为合成单元，使用该策略结合p s o l a 算法进行语音合成，合成语音的自然度较通常的波形合成法有了较大的提高。第四章概要的阐述了基音检测对于语音合成的重要性，并介绍了常见的基于平均幅度差函数( a m d f ) 的基音周期检测方法。通过对a m d f 算法进行改进，文中提出了一种改进的基音周期检测算法，并讨论了将该算法应用到基频轮廓提取、基音标注以及实时语音编码等场合中的一些问题。第五章给出了基于文语转换技术的远程语音报警系统的具体实现。语音的采集由创新公司的声霸卡实现，语音数据为8 k h z 采样，1 6 b i t 量化；语音数据库用s y b a s e 公司的p o w e rb u i l d e r 建立：报警部分利用m i c r o s o f tw i n d o w s 的 a p i 函数，通过调制解调器实现。整个系统在p c 机上w i n d o w s 环境下运行，编程语言为b o l a n d 公司的d e l p h i 。第六章对本文的主要研究工作进行了总结，并对进一步的工作进行了展望。、中国科学技术大学倾士论文第二章史语转换系统概述一引言第二章文语转换系统概述顾名思义，文语转换( t e x t t o s p e e c h ，简称t t s ) ，就是将输入文本转换为的语音形式。基于t t s 技术的语音合成系统即t t s 系统，它的主要功能是将计算机中任意出现的文字转换成自然流畅的语音输出。这是当前语音技术研究的热点内容。 2 0 世纪6 0 年代，英语t t s 系统首先被研制成功。8 0 年代，我国开始介入汉语语音合成领域的研究。近些年来，在国家”8 6 3 ”智能计算机主题的支持下，汉语t t s 技术有了长足的进步。虽然目前语音合成技术已走向实用，但还有许多理论和应用问题有待解决。本章简要的介绍了t t s 系统的各个组成部分，并对各个组成部分相应的研究方法和问题进行了分析和讨论。二t t s 系统的组成 t t s 系统是一种集成了语言学处理和声学处理两部分的语音合成系统( 见图 1 1 ) 。语言学处理实际上是文本的分析过程。然后是由一组模型把这些语言学描述转化成相应的语音波广广- - r 1 形。这些过程与语言学理l 掣l 掣l 掣论、言语产生的模型、语 i 说话速度i 成份结构特别i 音素串言的声学、语音学以及朗 l 或强调重音f 边界位置)l 诵艺术等密切相关。 ij ，i l 一一，厂磊嘉再一。一 i 现在，语言学界趋向l t 吾鑫分段时长于用生成学的术语来描述j ，轻重音f o 曲线形一种语言，目的是确定此 l 语音特怔l 语言的任何一个合法句子i 壅辈型j 的生成规则【l ”。生图2 1 是语言学家认i 苎苎竿苎兰i 为的句子生成过程的框图 i 下压力变化的时长模型【4 1 ，可见，一个句子的语厂i 甄i 言学描述包括了语义成下件的时长模型分、句法成分和词汇成分，言语在变成声学波形前，还要图2 1 语言学家认为的句子的生成过程、中圈科学技术人学帧i ：论义第一章史语转换系统概述经各种各样的中间转换。由于普通话是一种音形义的结合体，有相对的独立性，所以，许多合成系统在以全部单音节及少量词组，作为合成单元建立语音库后，将汉字库与合成语音库联系起来，这样也能实现从文本到语音的转换，也冠名为“t t s 系统”。实验表明1 1 4 】，在这种系统的输出语句中，由于不作任何韵律调整，测试结果的句子可懂度不到7 0 ，且语音的连贯性和自然度都较差。因此，此类系统只能称为 “准t t s 系统”，通常用于电脑排版系统的文字较对。目前，市面上不少语音报警系统采用的就是此类准t t s 系统。而真正完备的t t s 系统，应包括三个主要的组成部分：文本分析模块、韵律生成模块和声学合成模块。 l 文本分析语音合成系统首先处理的是文字，也就是它要说的内容。文本分析的主要功能是使计算机能从这些文本中认识文字，进而知道要发什么音、怎么发音，并将发音的方式告诉计算机。另外，还要让计算机知道，在文本中，哪些是词，哪些是短语或句子，发音时应该到哪里停顿及停顿多长时间等。其工作过程可以分为三个主要步骤： ( 1 ) 将输入的文本规范化。在这个过程中，要查找拼写错误，并将文本中出现的一些不规范或无法发音的字符过滤掉。 ( 2 ) 分析文本中词或短语的边界，确定文字的读音，同时分析文本中出现的数字、姓氏、特殊字符、专有词语以及各种多音字的读音方式。 ( 3 ) 根据文本的结构、组成和不同位置上出现的标点符号，确定发音时语气的变换以及不同音的轻重方式。最终，文本分析模块将输入的文字转换成计算机能够处理的内部参数，便于后续模块进一步处理并生成相应的信息。传统的文本分析主要是基于规则( r u l eb a s e d ) 的实现方法。其主要思路是尽可能地将文字中的分词规范、发音方式罗列起来，并总结出规则，依靠这些规则进行文本处理，以获得需要的参数。具有代表性的方法有：正向最大匹配法、反向最大匹配法、最小匹配法、逐词遍历匹配法等【1 6 】。这些方法的优点在于结构较为简单、直观，易于实现：缺点是需要大量的时间去总结规则，且模块性能的好坏严重依赖于设计人员的经验以及他们的背景知识。由于这些方法能取得较好的分析效果，因此，直到目前，它们依然被广泛使用。中图科学技术人学颂l 论文第一章文语转换系统概述但是近几年来，随着计算机领域中数据挖掘技术的发展，许多统计学方法以及人工神经网络技术在计算机数据处理领域中获得了成功的应用，计算机从大量数据中自动提取规律已完全可能并正在实现。在此背景下，出现了基于数据驱动 ( d a t ad r i v e n l 的文本分析方法1 1 8 】，隐马尔可夫模型法( h m mm e t h o d ) ( 1 9 】和神经网络法( n e u r a ln e t w o r km e t h o d ) 1 2 0 1 等。这类方法的特点是，设计人员根据统计学或人工神经网络方面的知识，设计出一种可训练的模型，并用大量已经存在的数据去训练，将训练得到的模型用于文本分析，而系统设计人员并不需要太强的语言学背景知识。对于工程技术人员来说，这类方法无疑减轻了他们研究语言学的负担。目前，这类方法在文本分析精度上，已达到甚至部分超过了基于规则系统的分析结果，且容易实现多语种的混合，因而越来越广泛地被接受并使用。这类方法的缺点在于，需要极其庞大的训练数据库进行训练，不适合小规模的开发，此外，尽管系统容易获得文本信息的共同特征，但忽略了一些个性，而往往这些个别因素对最终的发音方式影响很大。因此，有些系统采取了两类方法相结合的方式。 2 韵律生成任何人说话都有韵律特征，比如在汉语中，音节有不同的声调、语气和停顿方式，发音长短也各不相同，这些都属于韵律特征。韵律参数则包括了能影响这些特征的声学参数，如基频、时长、音强等。文本分析的结果只是告诉了计算机发什么音，以及以什么方式发音，这种发音方式还只是抽象的。而要发音的声调是二声还是三声，是重读还是轻读，到哪里停顿，等等，这些最终系统用来进行声信号合成的具体韵律参数还要依靠韵律生成模块。与文本分析的实现方法相类似，韵律的生成方法也分为基于规则和数据驱动两种方法。早期的韵律生成方法均采用基于规则的方法。这种方法要求研究人员有大量的音韵学背景知识，需要对在各种特定的情况下，如声音在句子中的不同位置、不同声调及句子的不同语气甚至是不同的词性下，对基频、时长和音强等各个声学参数变化的详细情况加以总结、归纳。由于各个语种的韵律特征不同，因此，针对不同的语种，必须找出与该语种相关联的韵律特征。在日语、汉语等声调语言中，浊音的基音频率( f 0 ) 变化模式反映了语音的音调变化，因此对表达词法、句法、语义等重要的语言信息起着关键的作用。语音中基频的变化轨迹称之为基频轮廓( f 0c o n t o u r ) 口“。日本东京大学的藤崎教授以人说话时喉部的生理和机械运动机理为依据，推导出了生成基频轮廓的数学模型【2 引，并能够广泛应用于各种声调语言。虽然经过研究者的努力，基于规则的方法能达到较好的韵律生成、中周科学技术大学硕l 。论盅= 第二章义语转换系统概述效果，但它也受到很多限制。如日仃所述，基于规则的方法要求系统设计人员花费大量的时间和精力去研究不同语种普遍存在的韵律特征，而这是一个非常耗时的工作，且由于规则的复杂性，其生成语音的自然度也受到较多的限制，也就限制了它的一些性能。总的来说，基于规则的方法仍然被认作是行之有效的方法，大部分汉语语音合成系统也依然采用这种方法。目前，通过统计驱动或神经网络的方法进行韵律生成已获得成功的应用。 s i e m e n s 和m o t o r o l a 公司均采用或试验了此技术1 2 3 1 1 2 4 】。在国内，清华大学计算机系在这方面也进行了大量的研究l2 5 1 ，其研究成果已接近实用阶段。其实现步骤是：首先设计或收集一个包含大量语音和文本信息的数据，然后建立一个训练模型，并用从数据库中提取出的韵律参数对模型进行训练，通过训练而得到最终的韵律模型。这种模型的优点在于：在保持甚至增强了系统的韵律生成能力的同时，极大地改善了整个语音合成系统的灵活性，便于模拟某一特定人的韵律特征，且为在同一个语音合成系统中整合多语种创造了条件。事实上，有关研究人员正在尝试使用这一方法将汉语和其他西方语言整合到一套系统上。 3 声学合成系统知道了要说什么并掌握了韵律控制参数后，它是如何使计算机发声的呢? 系统产生的合成语音是通过一个声学合成模块来具体实现的，按照合成的基本方式，或者说基本策略，可以归纳为两大类：波形编码合成与规则合成。 3 1 波形编码合成方式：波形编码合成方式是采用语音编码技术对语音合成基元进行压缩编码，然后用这些基元编辑拼接成所需的短语、语句或段落。这类方法在合成语音段时所用的基元是不做大的修改的，最多只是对相对强度和时长做一点简单的调整。因此这类方法或者合成语音流畅度与自然度很差或者必须选择比较大的语音单位作为合成基元，例如选择词、词组、短语、甚至语句作为合成基元，这样在合成语音段时基元之间的相互影响很小，容易达到较高的合成语音质量，但是付出的代价是存储合成基元所需存储容量较大。因此，这类方法，通常只能合成有限词汇的语音段，应用不够灵活。目前许多专门用途的语音合成器，如市面上广泛采用的的自动报时、报警系统大多也是采用此种技术。 3 2 按规则合成方式：按规则合成方式一般选用更小的语音单位( 如音素或音节) 作为合成基元，根据各种各样的韵律规则来合成词语和语句。所谓韵律，或称超音段特征，对于汉语来讲就是语句中各音节的声学特征的变化规律，这里所说的声学特征包括各音主里型堂垫查查兰堡! ：笙兰一翌三! 二墨堕茎塑墨! ! 坠节的相对音长、短时能量曲线、基音轮廓曲线、共振峰特性的动态变化、音节问的停顿等。显然，按规则合成法主要是用于无限词汇的语音合成的，它要求对于待合成语句的韵律特征定量地进行描述，并且要求合成算法有较强的韵律调整能力。在按规则合成方式中具体的语音合成方法，或者说合成器，又有许多种，如发音器官参数合成法、线性预测( l p ) 参数合成法、共振峰参数合成法和基音同步叠加法( p s o l a ) ，以及同态处理法、基于短时傅里叶变换重构语音信号法和正弦模型法等等。下面分别介绍其中几种重要的方法a 3 2 1 共振峰合成法( f o r m a n ts y n t h e s i s ) 共振峰参数合成的理论基础是语音生成的数学模型。该模型语音生成过程是在激励信号的激励下，声波经谐振腔( 声道) ，由嘴或鼻辐射声波a 因此，声道参数、声道谐振特性一直是研究的重点。在图2 2 所示的某一语音的频率响应图中，标有f p l 、f p 2 、f p 3 处为频率响应的极点，此时，声道的传输频率响应有极大值。习惯上，把声道传输频率响应上的极点称之为共振峰，而语音的共振峰频率( 极点频率) 的分布特性决定着该语音的音色。 v o x 舾) o l f p l n 皿一致严v 圉2 2 语音的频率响应曲线音色各异的语音具有不同的共振峰模式，因此，以每个共振峰频率及其带宽作为参数，可以构成共振峰滤波器。再用若干个这种滤波器的组合来模拟声道的传输特性( 频率响应) ，对激励源发出的信号进行调制，再经过辐射模型就可以得到合成语音。这就是共振峰合成技术的基本原理。共振峰模型是基于对声道的一种比较准确的模拟，因而可以合成出自然度比较高的语音。最为典型也是最为成功的k l a t t 合成器就构筑在共振峰模型的基础之上。共振峰合成法有一个很大的优点，就是共振峰特性与基音轮廓线所包含的信息是完全相互分离的，这就是说，无论基音频率怎么改变，共振峰特性是几乎、中国科学技术大学钡土论文始_ 二章史语转换系统概述不受影响的，而其他合成法就不是这样。因此共振峰合成法具有最强的韵律修改能力，特别是对汉语基音轮廓线变化比较复杂的情况，这种合成方法是最有潜力的。但是，人们同时也发现共振峰参数合成技术有明显的弱点。首先由于它是建立在对声道的模拟上，因此，对于声道模型的不精确势必会影响其合成质量。另外，实际工作表明，共振峰模型虽然描述了语音中最基本最主要的部分，但并不能表征影响语音自然度的其他许多细微的语音成分，从而影响了合成语音的自然度。另外，共振峰合成器控制十分复杂，对于一个好的合成器来说，其控制参数往往达到几十个，实现起来十分困难。 3 2 2 线性预测参数合成法( l i n e a r p r e d i c t i o ns y n t h e s i s ) 与共振峰合成技术不同，l p 参数合成技术本质上仍是一种波形编码合成技术，而不是基于对发声过程的模拟。l p 参数合成以音节、半音节或音索为合成单元，首先按照语音理论，对所有合成单元的语音进行分析并提取l p c 参数，再将这些参数编码后组成一个合成语音库；输出时根据待合成的语音信息，从语音库中取出相应的l p c 参数，利用这些参数进行控制语音合成器，合成出所需语句。这种方式合成的音质较一般的波形编码合成方式稍差，但存储量大大减少。对于利用l p 参数合成技术来进行汉语语音合成和汉语文语转换的研究，中科院声学所在这方面做了大量的工作。1 9 8 7 年，他们引进了多脉冲激励l p c 技术，1 9 8 9 年又引入矢量量化，之后，1 9 9 3 年，他们引入码激励技术，他们的这些工作对于l p 参数合成技术在汉语合成方面的运用做出了重要的贡献。 l p 参数合成技术的优点是简单直观。其合成过程实质上只是一种简单的解码和拼接过程。另外，由于波形拼接技术的合成基元是语音的波形数据，保存了语音的全部信息，因而对于单个合成基元来说能够获得很高的自然度，但是，由于自然语流中的语音和孤立状况下的语音有着极大的区别，如果只是简单地把各个孤立的语音生硬地拼接在一起，其整个语流没有自然度。因此对于需要合成整个连续语流的t t s 系统，l p 参数合成技术的效果是不理想的，它必须和其他技术相结合，才能明显改善合成语音的质量。 3 2 _ 3 基音同步叠加法( p i t c hs y n c h r o n o u so v e r l a pa d d ，p s o l a ) 一般的波形编码合成方式，由于基本不对合成基元作调整，因而只能拼接大的语音单位，如词、短语、语句等，这就限制了它在无限词汇合成系统中的应用。然而这种方式所具有的良好的合成音质，使得研究者们一直没有放弃对它的改造。8 0 年代末，由e m o u l i n e s 和f c h a r p e n t i e r 等人提出的基音同步叠加法 ( p s o l a ) i l 5 】使得在做波形拼接时能够灵活地对小基元，如音素、音节等，进行基频、时长和短时能量等韵律特征的调整，也使得基于p s o l a 法的波形拼接、中国科学技术人学硕l 论史第一二章史语转换系统概述技术脱离了编码合成方式，实际上转变成了基于规则的合成方式a p s o l a 技术的主要特点是：在拼接语音波形片断之前，首先根据上下文的要求，用p s o l a 算法对拼接单元的韵律特征进行调整，使合成波形既保持了原始发音的主要音段特征，又能使拼接单元的韵律特征符合上下文的要求，从而获得很高的清晰度和自然度。p s o l a 技术保持了传统波形拼接技术的优点，简单直观，运算量小，而且还能方便地控制语音信号的韵律参数，具有合成自然连续语流的条件，得到了广泛的应用。目前至少已有七、八种语言用这种方法实现了无限词汇的语音合成。特别对汉语而言，一个音节就是汉语中的一个字的发音，汉语国标二级字库有6 7 6 3 个汉字，但其对应的单音节的发音仅为1 3 0 0 个左右，所以采用单音节作为合成声音基元进行拼接合成，理论上可实现汉语无限词汇的语音合成，且由于汉语中音节的音段特征比较稳定，而超音段特征( 即韵律特征) 变化比较复杂，很适合采用基于p s o l a 的按规则合成方法来合成。实验结果表明，采用p s o l a 方法能合成出清晰度、自然度都较好的汉语语音【2 6 】。但是，p s o l a 技术也有其缺点。首先，p s o l a 技术是一种基音同步的语音分析合成技术，首先需要精准确的确定基音周期以及对其起始点的标注，基音周期的错误标注将会影响p s o l a 技术的效果；其次，p s o l a 技术是一种波形映射拼接合成技术，它对与控制单音节的音调、音长等特征具有较好的效果，但是不能够在任何情况下都保持音节连接处的平稳过渡，并可能对过渡段的频域参数产生其他影响，因此在合成时会产生不理想的结果。近l o 年来，采用波形拼接( p s o l a ) 合成语音的方法被越来越广泛的采用。为了降低韵律调整的复杂性，以及实现对合成单元拼接的平稳过渡，研究人员在语音合成单元的选择策略上作了大量研究，以找到一种能选择最合适的语音单元用于拼接的方法。因此，有的t t

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（电路与系统专业论文）基于文语转换技术的远程语音报警系统.pdf

文档简介

温馨提示

最新文档

评论

（电路与系统专业论文）基于文语转换技术的远程语音报警系统.pdf

文档简介

温馨提示

最新文档

评论

相关文档