（控制理论与控制工程专业论文）语音合成及语音处理.pdf

上传人：扣*** IP属地：宁夏上传时间：2019-12-15 格式：PDF 页数：53 大小：1.43MB 积分：0 举报 版权申诉

已阅读5页，还剩48页未读，继续免费阅读

（控制理论与控制工程专业论文）语音合成及语音处理.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

中南大学硕士毕业论文摘要摘要语音合成是当今人工智能领域的研究热点，目前。它越来越广泛的应用于社会生活的各个方面，提高了人机交互性，发挥了很好的社会效益。但现阶段的语音合成存在的普遍问题是，合成语音的自然度不够高，韵律调整能力差。本论文在分析了语音合成现状的基础上，简要介绍了语音合成的发展史和已经出现的各种语音合成技术，并且对各种语音合成技术的优缺点进行了比较，重点介绍了目前普遍采用的中文合成方法即基音同步叠接相加法，通过这种方法对韵律进行调整，包括音长、频率、最小能量等。详细阐述了从文本到语音的整个转换过程，指出了语音合成的发展现状和发展方向以及难点等。为了改善合成语音的自然度，本文在传统分词的基础上提出了词的组合方法。介绍了实词间的组合方法和虚词在短语界分中的应用，通过研究和统计，总结了一些词的组合规则，例如：结构助词与其他词的组合，趋势动词同其他词的组合动词、名词、形容词之间的组合等。利用这些规则，从语音节奏上进一步逼近自然语音，改善合成效果。文中也借鉴了知网中的许多思想，如中文词汇的搭配、词与词之间的相互关系等，把这些思想融入到我们的组合方法中，完善了词的组合方法。文章最后阐述了利用微软提供的英文语音合成引擎进行中英文混合合成，解决了汉语文本中英文短语的合成问题。关键词：短语界定，语音自然度，基音同步叠接相加，韵律调整。中南大学硕士毕业论史摘要 a b s t r a c t s p e e c hs y n t l i e s i si sah o t s p o ti i lt h ea n i n c a li n t e l l i g e n c e i ti sp o p u l a r i l yu s e di n m a i l yf i e l d s ，w h i c hi m p r o v e sh u m a n c o m p u t e ri m e r a c t i o na n db r i n gg r e a tb e n e f i t st o u s b u tm eg e n e r a lp r o b l e mi n “i sw h i c ht l l en a t i l m i i t yo fs p e e c h 蚰dt h em o d i f i c a t i n g c a p a b l i t yo f p s o l o d yi sn o tg o o de i l o u 曲 b a s e do na l 】i a l y s i n gt l l es p e e c hs y n m e s i so fn o w ，t l l ep a p e r 商随l yi n t r o d u c e st h e d e v e l o p m e mo f7 i 、e x tt os p e e c h t h e ni ts h o wt h ea d v a n t a g e sa n dd i s a d v a n t a g e so fe a c h s y n 也e s i st e c h n o l o g yb yc o m p a r i n g t h e m e x c e p t t h a tt h ea r t i c l ed i s c u s s e st h e d e v e l o p m e n to ft b x tt os p e e c hi nt h em m r ca n dn a h 丑t e s 出ew h o l ep r o c e s so f 1 e x t t o s p e e c h 1 m s f b r s y s t e m i nt h ee n d ， i ti n t r o d u c e s t h e p i t c h s y n c h r o n o u s o v e r l a pa d dm e m o d t 1 1 r o u g hw h i c hw ec a nm o d i c a t i n gt h ep s o l 。d y ，f o re x a m p l e ，t h e v o i c el e n g t l l ，f e q u e n c c ，l e a s te n e 昭m i no r d e rt oi m p r o v et h es p e e c hn a t u r a l i t y ，t h ep a p e rp u t sf b n v a r dt h ec o m b i n a t o r i a l m e t h o dw h i c hb a s e so np a n i c i p l e w 色h a v cc o n c l u s e ds o m er u l e so fc o m b i n a t i o no f s u b s t a n t i v ea n dt h ea p p l i c a t i o no fe m p t yw o r di np t l r a s ep a n i t i o n ，f o re x a m p l et h e s t r u c t u r ea u x i l i a r yw o r da s s e m b l e dw i t ho t l l e rw o r d s ，t h et r c n dv e r ba s s e m b l e dw i t h o t l l e rw o r d sa n dt h ec o m b i n a t i o n s 锄o n gn o u i l ，v e r b ，a d j e c t i v e t h er e s u l to ft h et e s t p r o v e dm e t l l o di ni m p m v i n gm en a m r a ld e g r c eo fs y n m e s i sv o i c e w eq u o t e sm a n y i d e a sf r o mh o w n e t ，f o re x a m p l e ，t h ea s s e m b l i n go fw o r d sa j l dt 1 1 er e i a t i o n so f w o r d s ，t h e s ei d e a sa r eh e l p f u lf o ro u rs t u d y 、 t h ep a p e rs e t t l e st h ep r o b l e mo fh o wt od e a lw i t he n 9 1 i s ha m o n gc h i n e s ea p p l y i n g 、v i i hm i c r o s o rs p e e c hs d k k e y w o r d s ：p h r a s ep a n i t i o n ，s p e e c h sa n l r a l i 吼p i t c h s ”c h r o n o u so v e r l 印a d d ， p s o d i cm o d i f i c a t i 4 销一g槲述第一章概述 1 1 语音合成目的和意义作为智能计算机研究的主导方向和人机语音通信的关键技术，语音合成一直受剑各国科学界的j 1 泛关注。随着语音合成技术的研究发展，它对计算机发展和 t 会生活的重婴性日豁凸现出来。目前，语音台成广泛的应用丁基丁p c 的办公、教学、及娱乐等智能多媒体软r 平f 卢讯服务领域内的智能电活布洵系统中。 1 1 1 应用前景 1 荩1 ：p c 的办公、教学、及蛙乐等智能多姒体软什随着多媒体技术的日益发展计算机的更新换代特别是当今计算机的j 泛烀及，人们对计算机提出厂越米越高的要求能够止计算机象人一样“能听会说”，是人们多年以来梦寐以求的口标。从9 6 年开始，l b m 推出了i b m v i a v o i c e 语音识别系统，一时间风靡全国。v i a v o i c e 解决的仅仅是人机语音交流的一、h 即机器的“能昕”问题。而语音合成系统。止是耍解决另。、卜即机器的“会说”问题”。这项技术不仅本q 九文稿愤j 、mi 、：7 习、语音秘书等方面具有巨大的市场前景，而且往与语音识别技术结合斤彳，更将人k 提高计算机的人性化魅力。 2 卢讯服务领域内的智能电话夯洵系统当今会处在一个信息的日j 代如何快谜准确地获墩所父心的信息，州人们的u 带i “ 丰生活已经具有越米越重要的影响。住电活高嫂* 及的今人，如小于j 电l 舌就能a 向士0 _ 【j j i 嵩f 。息无疑将给人们的 1 常十活带来极人，便。以往，人们曾利州数字录音同放技术实现对轮船、码头域电活号码等简单场合f 的l l 诱商i 旬。但是这种数字录音h 放技术无法斛执信息量异常庞人的海鞋n 咖场合年a 咖内存经- i ：变化的动态南洵场台，而止是这些场合才迫切需要迅速、准确的电话语音肯旬。汉语语音合成技术可以利h 不剑3 0 m b ”e s 的容草台成i “任意的汉语连续语音，h 合成诰音迫绌、i r 瞒、口然。这样就艮妤地解决了海鼙资料年动态商洵的需求。彳j 这种奇洵系统中一台普通的计算机可以支持儿十路以上的电话信道昼夜不停的_ 【 j 户杏询，且反应趟速、准确无误，无疑将成为未米信息服务行业的发展趋势。由上看，汉语语音台成技术的应_ 【 j 还可涉及刽声讯服务领域内，对现自的l 乜| 舌a 啕系统的不足产生革命性的影响。冈此随着且迕恻信息项1 的增多千时做忭婴? k 的逐步抛南，让立个实时烈向的全国性卢讯业务网的时机已经成熟，例如股祟交易、航坍动态育啕、电话报税业务等。这些业务都将全面麻用到汉语语音合成技术，通过这种技术彻底解决了传统数字录音同放技术所无法解决的海鼙信息库羊动态变化信息的实时生成和存储难题，从而将汉语语音合成的麻用渗透到卢讯服务业务的方方面面。例如：1 y 日的实时点斋、仝同符机场、乍站的航目、州下剑达动态信息a 咖电“蚴物糸统、l 商信息a 咖系抚：j 。 1 1 2 经济和社会效益 1 经济效豁中南人学坝：毕业论文耸帚毗述汉诰诰音台成技术不但一方面可带动诰音应h j 的发胜，健进信息人众化卡计会化的进步，另面义可获得巨人的经济利润，e 1 造山连续发艘的诎开1 1j 场空川，m 础议【0 l “。0 成j 。小的产业化进度，为该技术t l ，领1 廿= 界市场奠定基础。据专家对未来国内市场预测，朱爿2 3 年山，诰音合成系统的配备率在个人计算机中将达到2 5 3 0 以上，音台成系统的个人_ l j 户巾场潜力为1 8 2 0 亿元人民币，而戍_ l j 于行业的电话语音奇询系统的市场份额将至少住3 0 5 0 亿元人民币以上【j “。 2 社会效益汉皓语音台成技术的推_ r 麻川不仅肜成巨人的经济效荫，同时也为礼金进步驯信息叫f e 发展提供了支持，其所产生的十会效益可罗列儿十条，但我们仅从以f 儿个重要方面加以小结。【lj 对，文训萍机? 7 及和推j 的意义汉语诏音台成技术的产、业化，从矮对十f 会影响的意义石，阿拊计c 扫文汁臂村i 厅州州f 垃川推广的贡献。基丁汉语语音技术的计算机厅i 州，将更适合同八对订并机撵什i _ 使hj f 门宁拇通过汉i 片浩齐合成披术内呶，i j 1 史多，迎 j 0 业列i ：；0 ，l j 1 。浅上，! j _ _ ，j ：j j 、得心应手地使川计算机。目前，利川汉浩诰音台成技术开发的诰音软什产，通过更全山的人机语音交流方式大大提高了计算机的人机交互性，满足了计算机刖户对计算机操作使赴雨实，l j 的要求，为中文计算机麻刚的普及和推起剑了积极深远的促进作t l f j 。而且汉语语音技术的酱及应h j ，住根人￥度上更将对l t 族文化的推平比旅软1 1 的笈胜起剑推波助洲的实效。 ( 2 ) 对网络时代的电话1 0i n t e m e t 网络结合的意义随着且连网信息项目的增多羊时效性要求的逐步提高目荔增k 的业务灯服务的实u j 肚午烈向性提山了更高的要求，例如股票交易、航班动态商旬、电话报税业务苫。建立一个实时舣向的信息网络冈此显得重要起米。网络技术及其应川的趟琏皮发腱，尤疑j j u 人丁1 jq ，芷流 l i 沟通的重要性，m 信息的获取平兆字更将为利会发展之必需。利h j 汉诰【 t 占台成j 小j 莨的 u i i “卉商伺系统，充咒地胪；：了洵：t 吖青0 ；| _ 功冬j j ：，皇掣j 夼j jj 题，。吏譬，、l ? 0 殳新和变化的掌握尽在瞬间，拉近j 7 信息时代与人们之间的距离。此，从根奉上浣，汉l 自瞄音合成技术的府h j ，避免丁矗息的川j ：白7 乎，朋娅j u ：j 人。，j 、，、：0 0 _ ，j 、永f z 。，：、：，、得对术来信息世界的把握上，国人完全可以拥有干信息发边国家人【t 一卡丫的机会：j 逆丁同人参与全球信息发展和竞争的优势，这将为中国社会信息网络的建吐争取一方大地。 3 ) 技术的带动性汉语语音合成技术的开发不仅本身有很大的产业化优势，它还可以同时形成带动力，推动并促进新型产业的发展，这将是对民族软什产业发展和刺激的最蚶支持。这方面t 要体现在：如以汉语语音合成技术为基础开发的电话语音布洵系统为基础，叫以发展一批一次升发公司争j 从事对邮政、金融、交通部门的卢讯服务以及卣货人楼物价卉询、远群医疗专家系统、法律顺问系统等人彗有声叱啸信息服务系统的开发和推心川i 以汉垴i 占占台拽址小为核一d ，可以开发荐种全新的语音教学软什域游戏软件，带动计算机辅助教育的发展：以中、英文词汇的语音识别和朗凄为基础，还可以设训引对中小j j 英浩学习的“宁- 卜。j j ”伟砒l 也 j 埂川| 殳计干制造的jl 同发展：以汉i m 昌。彳合成土术为丛j _ i j _ 1 ：n7 n i j l f j 皂化i - 上_ 、0 ，- ! 小j ；、什厂商神l 编科人员进行中文应刚软f ，l ：再开发，从而为加速比族软仆广，业的兴旺奠定坚实丛自； ! 塑茎堂竺：| 二堂些丝兰三! 主一丝堡以汉语语音合成技术所提供的网络导航、网络浏览等服务功能，将带动语音技术在网络中的全面应用，从而推动网络技术及其应用领域的更陕发展，为网络世界开创溪径迎异的新局面。 1 2 语音合成技术思想语音合成技术是实现人机语音通信，建立一个有听和讲能力的口语系统所必需的天键技术之一。和语音识别相比，语音合成的技术相对说米要成熟一些，是该领域中近剃最有希望产生突破并形成产业化的一项技术。按照人类言语功能的不同层次，语音合成也可分成二个层次它”j 是 ( 1 ) 从文字列语音的合成( t e x t t o s p e e c h ) ； ( 2 ) 从概念引语音的台成( c o n c e p t t o - s p e e c h ) ； ( 3 ) 从意向到语音的合成( i n t e n t l o n t 。s p e e c h ) 。这三个层：久反映了人类大脑中形成说请内霹的不同过程涉及人类人脑的高级神经活动，不难想象，岜口使是按规则的文字到语音合成( 文语合成) 也已经世相当困难钓任务、为了合成出高质量的语言，除了依赖于各种规则，包括语义学规则、词汇规则、语音学规则外- 还必须对文字的内容有很好的理解，这将涉及自然语言理解的问题a 从这一点讲t 文语转换系统实际上也可看作一个人上智能系筑。图1 1 显示了一个完整的文语转换系统示意斟。文语转换过程是先将文字序列转换成音约序列，再由语音合成器生成语音波形，其平第一步涉及语言学处理，例如分词、字音转换，以及一整套有效的韵律控制规则；第二步需要先进的语音合成技术，能按要求实时台成出鬲质量的语音流。冈此一般说米，文：普台成系统部需要一套复杂的文字序列到音素序列的转换程序，也就是说，文浯转换系统不【叉要应用数字信号处理技术，而且必颁有大量的诺言学知识的支持。当然其中语音台成终究还是最基本的部分，它相当于“人j 二嘴巴”任何语音合成系统包括文语转换系统，部离不开语音合成器。一三z 主键。琏州? 嚣数揣上艰，一寥：j ，。：止j 鳓图1 1文语转换系统示意图 1 ，2 1t t s 系统的文本分析模块一戥蒿圭苎r 一。：“ 语音合成系统首先处理的是文字，也就是它要说的内容。文本分析的主要功能是使计葬机能从这些文本中认识文字，进而知道要发什么音、怎么发音r 井将发音的方式告诉计算机。 7 j 凿一霪辩搴眦j 立另外，还要让计算机知道在文本中，哪些是词，哪些是短语或句子，发音时成_ 【幺i 0 哪里停顿及停顿多长时间等。其j 作过程可以分为二个主要步骤： ( 1 ) 将输入的文本规范化。在这个过h 中要卉找拼巧扯慢，片将文小中她的m ：4 规范或无法发音的字符过滤掉。 ( 2 ) 文本中词或短诰的边界确定文字的i 宴音，同叫分析文本中山蚬的数字、姓氏、孙殊字符、七有词诰以及各种多音亨的凄卉方式。 ( 3 ) 文本的结构、组成用【不同位置上山现的柏；点符号，确定发音时语气的变换以及1 ；h 音的轻重方式。毋终文本分析模式将输入的文字换成i f 算机能够处理的内部参数便丁盯上嵌块遄步处埋，t 中成中】心的估q 、。传统的文本分析士要是墓丁规i i ! | j ( r u i e _ b a s e d ) 的实现力法。其土要思路是尽u t 能地将文字中的分i 司规范、发音方，罗夕j 起来，斤总结山舰划，依靠这业规则进行文本处理，以获得需要的参数。具有代表性的方法有：最人匹配法、最佳匹配法等。这些方法的优点住r 结构牧为简单、直观，易r 实现：缺点是需要人姑的时间上总结规则且模块性能的女r 坏严匹依妆丁设计人员的经验以及他们的背景知识。由丁这些方法能取得较女，的分析效果，此，i 时i h 前它们依然微j 泛使h 。但是近儿年求随荇汁斡饥坝域巾资- | = = 挖舸j 主术的技厦n 多统 ! 。j 0 j j ：i 歧、 ”7 网络技术住计算机数据处理领域中获得了成功的鹿j 4 j ，计算机从人资：中f 】动提取枷律已完全可能并正在实现。在此背景f ，山现丁，基丁资料驱动( d a t a _ d r i v e n ) 的文本分忻方法，只订代表性的有：一二元文法法( d i g r a m m a r m e t h o d ) 、二元文法法( t r i g r a m m a r m e t h o d ) 、隐。尔可丈模l q 法( h m mm e t h o d ) 千神经网络法州e u r a ln e t w o r km e t h o d ) 等。一驰比较若名的系统，如i b m 的语音产鼎就采川了隐马自；可大模刑法。这类方法的特点是，设计人员根据统计学或人l ：种经网络力血的知u ! 改训出一种卅洲约m 模1 ij ，j 1 _ ：1 人啦l ；i 7 i 帕资1 、? 川：训约、得剑的横州川丁文本分析，而系统设人员亍f 小需要a 证的凸言j ，景土u 班。刘j n 技术人员米说这类方法无疑减轻了他们研究语言学的负担，目前这类方法住文本分忻析度h 己达剑或部分超过了基丁规则系统的分析结果，且容易实现多语种的混合，冈而越来越泛地做接受爿使_ 【 j 。这类方法的缺点在r 尽管系统容易获得文本信息的共打卅，仙忽略了一些个性，而往往这些个别冈素对最终的发音方式影响根人。冈此，有些系统采取了两类方法相结合的方式。 1 2 2t t s 系统的韵律生成模块任何人说话都舀韵律特祉比如住汉语中青”有小删的上i j 】、沿气和停坝方式发r 亨 k 短也各不相同这些都属1 ：韵律特征。韵律参数则包括了能影响这些特祉的声学参数，如基频、时长= 、音强等。文本分析的结果只是告诉了计算机发什么音，以及以什么方式发音这种发音方式还只是抽象的。而要发音的卢调是一：卢还是二，- ，是t 溃还是轻磺，划口昨口f = i ：t 一顺，j j j 3 儿! ：终系统j h 米进 i 声音信：合成的且体韵什参数还要依靠的件巾成嫂块 l ，文小， j 史- m0 法相类似韵律的十成方法也分为摹j i 龇则年数据驱动两种方法。 8 中南大学硕十毕业论立第章概述早期的韵律生成方法均采用基于规则的方法。这种方法要求研究人员有大量的音韵学背景知识，需要对在各种特定的情况下，如声音在句子中的不同位置、不同声调及句子的不同语气甚至是不同的词性f ，对基频、时长和音强等各个声学参数变化的详细情况加以总结、归纳。由于各个语种的韵律特征不同，因此针对不同的语种，必须找出与该语种相关联的韵律特征。目前，基于规则的方法仍然被认作是行之有效的方法。大部分汉语语音合成系统依然采用这种方法。虽然经过研究者的努力，这种方法能达到较好的韵律生成效果，但它也受到很多限制。如前所述基于规则的方法要求系统设计人员花费大量的时间和精力去研究不同语种普遍存在的韵律特征，而这是一个非常耗时的工作，且由丁规则的复杂性，其生成语音的自然度也受到较多的限制也就限制了它的一些性能。另外，基于规则的系统方法往往只追求发音的自然，而掩盖了人的个性。如让系统模拟某一特定人的发音，就显得无力，除非是针对专人设计的一些专用模型。 1 2 3t t s 系统的语音生成模块系统知道了要说什么并掌握了韵律控制参数后，它是如何使计算机发声的昵? 系统产生的合成语音是通过一个声学模块来具体实现的。甲期语音合成系统的声学模耍! 多是通过模拟人的口腔的卢道特性来产生的。其中比较著名的有k l a i t 的共振峰( f o 兀n a m ) 合成系统，后来义产生了基于l p c 、l s p 和l m a 等声学参数的合成系统，这些都可以j ，_ 】结为参数合成系统。使用这些方法建立声学模型的过程是：首先录制声音，这些声音涵盖了人发音过程中所有可能出现的读音：然后，提取出这些声音的声学参数并整合成一个完整的语音库。在发音过程中首先根据发音需要从语音库中选择合适的声学参数，然后根据从韵律模型中得到的韵律参数，通过合成算法产生语音。参数合成方法的优点是语音库一般较小，并且整个系统能适应的韵律特征的范围较宽，但其合成语音的音质却往往受到一定的限制。近1 0 年来采用波形拼接( p s o l a ) 合成语音的方法越来越被广泛应用。这种方法的核心思想是直接对存储语音库的语音运用p s o l a 算法进行拼接，从而整合成完整的语音。有别于传统概念中只是将不同的语音单元进行简单拼接，该系统首先要在大量语音库中，选择最合适的语音单元月j 于拼接，并且在选音过程中往往采用多种复杂的技术包括多项统计学上的技术或神经网络技术最后在拼接时，使_ i jp s o l a 算法，对其合成语音的韵律特征进行修改，而使合成的语音达到了很高的音质。如日本a t r 推出的多种语音合成系统就采用了统计学上的隐马尔可夫模型来进行选音。其它的一些主要语音产品，如s i e m e n s 的p a p a g e n o 系统，也采_ l j 了类似或相关的技术。但基于波形拼接方法的系统仍存在一些问题，即它的语音库往往1 f 常庞大，需要占据较大的存储空间。这对将系统推广到掌上型计算机或一些小的终端设备上非常不利。另外，在拼接时两个相邻的声音单元之间的不连续，也容易造成合成音质的卜降。 1 3 语音合成技术介绍语音合成技术经历了一个逐步发展的过程，从参数合成到拼接合成再到两者的逐步结合其不断发展主要是人们认知水平以及要求的不断提高的结果。目前，常用的语音合成技术土要有：拭振峰合成技术、l p c 合成技术、p s o l a 拼接合成技术和l m a 声道模型技术。各种合成技术各有自己的优缺点，人们在应用的过程中往往将多种技术有机的结合在一起，或者将一种技术的优点运用到另一种技术上，以克服另一种技术的不足。这些方面，都己经有了不少成功的应用范例。 9 中雨j 、学坝1r f 业论土讹帚慨述 l 块振峰合成语音合成的理论基础是语音生成的数学模1 1 ，该模【q 诒旨生成n 0 过程址赴融舰f j 。：jn 激励f ，卢波经谐振腔( 声道) ，由嘴或鼻辐射卢波j 。此声通参数、一一道i 片波札肚山是研究的重点。如幽l 一2 所示的某语音的频率响心剀巾托、f if p l 、f p ! 、f p 3处y ”。! 率响麻的极点，此时卢道的传输频率响麻有极人值。习惯上，把声道传输频率响廊上的极点称之为共振峰，按照频率从小到大，依次记为f l 、f 2 、f 3 。而语音的其振峰频率( 极点频率) 的分布特性决定着该诰音的青色。青色各异的语昌l 自1 ：吲的l 撤峰帙一，此，以每个共振峰频率及其带宽作为参数，可以构成共振峰滤波器。n 川占十个这种滤波器的 10 来模拟声道的传输特性( 频率响戍) 对激励源发出的信号进行调制，阿经过辐q 十雠_ o 社_ 以得到合成语音。这就是共振峰合成技术的基本原理。 v f f ( d 8 0 i 掣，印! o 一敝p 7 【k u 幽i 2 卢道频域特r 主幽【频率响j 、t 醢) ( 即f p l 、f p 2 、f p 3 对应1 ：共振峰糊率f 1 、f 2 、f 3 ) 共振峰模1 9 住实际中部得到了成功的戍_ l j 。例如：h o l m e s 合成器兆振峰摸刑kj a ic 合成器兴振峰投【u 。而住汉语浩音合成疗血丛r 共振峰的棋j w 也研制山了一些成助的麻川系统。比如： t 。科院浩苦行s i f s 台成器、中科院卢予：用i 制的k x l 系统斗一生jh o c 3n 0 托_ 。峰合成器模删的，而旧样由中科院卢学所灯发的第代j l 扯峰台战器k x r s s ，lj 。! jk 合成器的共振峰模型是基丁对卢道的一种比较准确的模拟，冈而呵以合成! l j 然度比较白j 的语音，另外由丁i 兆振峰参数育着明确的物理意义，直接对麻1 1 声道参数，此- 盯以布易利川共振峰描述白然语流中的箨种现豫升日总结声学规则，鼎终丁j ? 振峰合啦系纬1 但是。人们同时也发现该技术有明显的弱点。首先由丁它是建立住对卢道的模拟上洲此对r 声道模型的不精确势必会影响其台成质苗。另外实际表明，共振峰模型虽然描述r 语音中最基本最主要的部分，但是并不能表征影响语音自然度的其它许多细微的语音成分，从而影响了合成语音的臼然皮。另外共振峰合成器控制1 分复_ j 刘j i，、蚶f | 0 0 。蛐：- 、洗，其控制参数往往达到儿十个，实现起来十分凼难。基r 这些原冈，人们继续寻求羊发现其它新的合成技术。从波形的直接录制羊罱放得刮启发，人们提山了基丁波形拼接的合成技术。其q l p c 合成技术利p s o l a 台成技术_ u 以说是其fc 表。一，振峰台成j 直术4 i 同波形拼搂合成基一对录制的合成垦元的波形进行拼按，而不是基丁对发_ ，过牲的模拟。 0 中南人学邱j 毕业论义 2l p c 参数合成波形拼接技术的发展是和语音的编码、译码技术的发展密不可分的，其中l p c 技术( 线阵预洲编码技术j 的发展对波形拼妾技术r 生j l 人的影u m l p c 合成技术本质上是一种时间波形的编码技术，口的是为了阡低时间域信号的传输述率。对丁利h 】l p c 合成技术来进行汉语语音台成币i 汉诰义诰转换的训究中科院卢。j 所礼返方面进行了大量的，r 作。1 9 8 7 年崔成林、李昌立、莫福源等人引进了多脉冲激励l p c 技术 1 9 8 9 年莫祸源等引入向昔晕化1 9 9 3 年倪宏、车吕立等引入码激励j 支术，他们的返川? l j 于l p c 合成技术在汉语合成方面的运h j 作出了重要的贡献。 l p c 台成技术的优点是简单直观。其合成过秤实质上只是一种简单的译码平拼接的过拌。另外，由丁波形拼接技术的合成基元是语音的波形资料保存了语音的全部信息，冈而对丁单个合成基元米说能够获得 h 高的白然度。但是由丁口然诰流中的诰音利孤立状况f 的浩音宵着极人的博圳如小只是蔺单的化再个孤0 的语音生硬的拼接存一起，其鼙个语流的质苗辨必是不太珲想的而l p c j 术j 、本辱上来说只是一种录音+ 重放，对卜合成整个连续诰流l p c 合成技术的效果足小埋熄m 。此， l p c 合成技术必须和其它技术结合才能够明昂改善l p c 合成的质甘一种咀州的荩丁i p c 合成j 上术的文语s 换系统原理幽，如蚓】3 所示。幽1 3 基r 单音1 ，和v o l p c 技术的文语转换系统原理剧 3p s o i i a 合成技术丁8 0 年代末提出的p s o l a 合成技术( 基等同步瞽加技术) 给波形拼按合成点术注入了新的活力。p s o l a 技术着眼丁对语音信号超时段牛= i 祉的控制比如：最! 呻、时k 、卉i 曹一控制。而这些参数对丁| 语音的韵律控制以及修改是至关重要的因此p s o l a 技术比l p c 技术具有可修改性更强的优点可以合成高白然度的语音。p s 0 l a 技术的士要特点是：在拼按语音波形片断之前首先根据上r 卜文的要求，刖p s o l a 算法对拼接单元的韵律特征进行调整。使得合成波形既保持了原始发音的土要音段特征，而且能够使得拼接单元的韵律特征符合上f 文n 勺要求从而获得很南的消晰豆和f l | 然度，如何将p s o l a 技术应_ l i jr 汉语文语转换系统，国内许多学校和科研单位进行了人苗j 。泛深入的研究。清华大学、中国科人、中科院声学所等在对p s 0 l a 技术研究的革础r ，先后开发出了基于波形拼接的汉语文语转换系统，并且对于如何进一步完善该技术、如何进一步改善合成语音的白然度等部提山了一些措施。 p s o l a 技术保持了传统波形拼接技术的优点，简单直观运算茸小。而且它还能够方便的控制语音信号的韵律参数具有台成臼然连续语流的条什受到了j l 泛的府j u 。但是，p s o l a 技术也有其缺点。首先，p s o l a 技术是种基音同步的语音分忻合成技术，首先需要准确的基因周期以及其起始点的判定。基音周期或其起始点的判定误莘将会影响p s o l a 技术的效果。其次，p s o l a 技术是一种简单的波形映像拼接合成，这种拼接是台能够保持平稳过渡以及它对频域参数有什么影响等升没有得到解珧，冈此在合成时会产生不理想的绐果3 l 。 4l m a 卢道模，随着人们对沿高合成的 j 然度利卉质的要求越米越岛，p s o l a 剪；：太现】1 1 一j f 哆掣7 调擎能力较弱年难以处理协同发音的缺| 5 j ，人们义提了种基丁l m a ，o 道使一。的皓音1 成方法。这种方注l 有传统的参数合成可以灵活调1 ，韵律参数的仇小、，同时义旦仃【匕p s o l a 掉法史高的台成音质。 1 4 语音合成发展方向 1 提高台成语音的口然度提高合成语音的自然度仍然是高性能文语转换的当务之急。就汉诒出音台成来说，l j 川住单字雨l 词组一级上，台成语音的可情度平l l 白然度已基本解献，但是i 0 句j 乃至篇节级j 兑白然度问题就比较_ 人。基丁诰音数据库的诰音合成方法有望进一步提高语音合成的自然度。为这是一种米h u 热l 占占波j 髟立拼拔n ：j 力法进行拼垃的语音单，l 是从一个预九录r 的 j 然谱诌数据j 牛+ 挑选山爿的川此有可能最人限度地保留诰青的 | 然度。世出此j 生j 。糸，u 柳的高譬仙允的词题，包括：如俐确定语音台成的丛元，根捌什么准川上挑选台适的星；兀：韵律参数，e0 化题，对数据片进仃定标问题：以及如f h 将统计的力法和l 则n 浊州绵i j 使机器能l j 龇z 现和技出所需的诰音单元保证最高的合成语句亡j 然度i ：等。无论川哪种合成方法，韵律规! j l i j 的总结，特别是连续语音的韵律规| l ! | j 总结，尽u j 能将定性的舰则描述定鼙化，对自然度始终有最重要的影响。还有前端文本处理，对合成诰音的白然度也具有举足轻重的影响，完整全面的解决，需要白然诰言珲解的突破。 2 丰富合成诒音的表现力目前国内外人多数语音合成研究足针对文语转换系统，且只能解决以某种朗读风格将l i 面语言转换成口语输缺乏不同年龄、陛圳特：i e 及语气、i * 遮的表现，更不川说眦千个k 的感情色彩。随着信息社会的需求发展，对人机交且提出了更高的要求，人机【诰对丽糸统的研究也捉刮了日稃卜。即诰青台成研究己开始从文字刊语音的转换阶段向概念剑语音的轮换阶段发展。这不仅对话音合成技术提了更高的要求而且涉及剑计算机i 什青十成，涉及人类人脑的高级神经活动。但就语音台成来说，仍是一个要丰富合成语音的表现力问题a 相对来说采_ l j 波形拼按方法来增强台成浩音表现力比较幽施，尽管也可以通过增加诰音阵秤鲑和谐音库中语音基元个数米达到政变台成诰音的特性。世毕竟它刈韵伴的控h ，峋2 力n 仃k 。更为囱效的办法是采川参数合成法，分忻参数特彳| _ ，通过时棚天参数的【川絷米史j 吣- 午n ? 、性圳中= 扯的改变进一步实现语气、语惆的变化，甫j 1 这种改变是迎续的，刘象舶扯川“t 干7 j 万，显得更有生命力。近年来提山的基rl m a ( 对数振幅近似) 技术的语音合成器，中南大学硕士毕业论文第一章概述 h y b r i dh 跏o n 鹋t o c l l a 鲥c 模型，s i n o i d a l 模型等已被证实是一些新颖的能合成出高质量语音的参数合成方法为此应继续深入这方面的研究，以期在参数合成技术上取得突破。 3 降低语音合成技术的复杂度语音合成技术正在走向市场为了适应社会的需求，扩大文语合成的应用场合，除了解决好上面两个问题，提高合成语音的质量和增强语音合成的表现力以外，在其它实用化方面也有要加以改进的地方就目前汉语文语转换系统而言减小语音库容量就是一个重要课题目前高质量的汉语文语转换系统一股需要几兆字节到几十兆，甚至几百兆字节的存储容量，这在以p c 机或工作站为硬件平台的应用中是没有问题的，而对于象h p c ，p d a 及无线通信手机，商务通等资源有限的设备上就没法承受。解决的方法可以是通过语音压缩编码的方法来压缩语音库所需的容量，或者采用更小的合成基元，例如用声母、韵母或双音素、半音节，以及减少合成语音所需的音节基元数等等。然而又不能增加算法的复杂度，因为运算量及系统开销同样会直接影响汉语语音合成的应用。既要提高语音合成的质量，又要降低语音合成的复杂度，这始终是一个矛盾的两个方面。 4 多语种文语合成语言是人们交流的工具，不同民族有自己不同的语言，不同语言之间的交流在今天开放的信息社会和网络时代显得十分重要，多语种的文语合成有着独特的应用价值。例如在自动电话翻译有声的电子邮件等中都提出多语种的合成，即使是对汉语合成也有多方言文语转换的需求。理想的多语种合成系统最好是各种语言共享一种合成算法或语音台成器，但是现有的语音合成系统大多是针对某一种语言或若干种语言开发出来的，所采用的算法及规则都是和某种语言密切相关的，因此很难推广到其它的语种。例如汉语就和西方语言有很人的差异，国内的系统都是做汉语文语转换，它的一套韵律控制规j i j i j 完全不适合于英语，而且土要是合成汉语普通话，即使推广到广东话和上海话都有相当的难度。可见要真正解决多语种的文语合成，从文本处理到语音合成部必须有新的思路。 1 5 本论文要解决的问题：目前的语音合成技术有了很大的发展，许多公司、科研机构都推出了自己的中文语音合成产品例如：北京的捷通公司、科大汛飞等。但现在市场上的中文：吾音合成产品并不是尽善尽美，它们还存在一些不足： l 合成语音的自然度还不够高，市场上的许多产品合成的语速都比较快，目的是为了掩饰合成语音节奏性的不足，有些产品有明显的机器声： 2 还不能解决中文中出现的英文合成问题，有些产品把英文中的英文当作字母来处理，有些不予处理。 3 韵律调整能力不强。不能改变语速的快慢针对以上的情况，本论文重点解决以下问题： l 提高合成语音的自然度，文中在分词的基础上提出了词的组合方法，增强合成语音的节奏感用叠加过渡法来改善语音单元之间的过渡i 2 利用微软的英文语音合成引擎进行中英文混合合成： 3 采用p s o l a 法进行韵律调整。中南大学硕j 。毕业论文第_ 二亭分词 2 1 词典的建立和词典的维护第二章分词语音合成的第一步就是对文本进行分词，通过分词、组合和韵律的调整，我们才能合成出更接近人的抑扬顿挫的语音来。而建立一个完备的词典是语音合成的首要条件，否则会产生更多的不一致性它不仅是一个分词规范问题，而且是个按词条确认问题，可以说没有完备的词典，分词系统就无法成为真正的开放式系统。 1 对电子词典的要求词典静态地描述具体词的各种属性，它可以提供词条的各种信息，这些信息包括词的拼音、词性、属性、以及相关例句。无疑词典的组织情况将直接影响整个系统的分析效率，具体的要考虑到两个方面。 ( 1 ) 访问时间的考虑：由于在分词过程中，需要从词典中获取输入句子中所有词的信息后，才能进行r 一步处理所以，必须尽可能快速、准确地访问词典，查到所需要的各种信息。我们的词典保存了四万五千多个词条，要想快速查找到所要的词建立词典的索引库是必须的。索引库是按照汉字的内码顺序建立的索引。首先说明下什么叫汉字的内码。汉字内码就是用双字节来对汉字进行编码，国标g b 2 3 1 2 - 8 0 是国家公布的简体汉字编码方案。国标码对常用的7 4 4 5 个汉字或图符号进行了编码为了方便管理该编码将这些汉字及图形符号每9 4 个分成一组，每一组称为一个”区”，共分为8 7 个区编号为0 1 8 7 。在每一个区中的9 4 个汉字、图形符号又按照定的顺序进行排列，序号o l 9 4 ，每一序号称为一个位号，它表示某一汉字或i 璺l 形符号在该区中的位置。经过这样编码的7 4 4 5 个汉字或图符号都具有唯一的四位编码编码的前两位是区号，后两位是位号，这种编码称为”区位码”。g b 2 3 1 2 8 0 把汉字按使用频度分为一、二两级，一级汉字为常用汉字区号从1 6 区到 5 5 区，共3 7 5 5 个汉字：二级汉字为非常用汉字，区号从5 6 区剑8 7 区，共3 0 0 8 个汉字，共 6 7 6 3 个常用汉字。内码与区位码的存在一定的转换关系：内码高字1 y = 区号+ 0 x b o h 内码低字节= 位号+ o x a o h ( 2 ) 存储空间的考虑：由于存储空间问题贯穿在整个系统的设计过程中而词典义是系统中空间开销较大的部分。虽然现在计算机的内存容量已经相当大。这已经基本不成什么问题但如果在一台计算机中运行多个语音合成线程我们就需要考虑存储空间的问题，首先应该尽量使词典既具有完备的信息，又占用缓冲小，在分词的时候，不是把文件整个读进缓冲而是通过文件操作完成分词 ( 3 ) 词典结构的考虑：词典的数据结构应以占用尽量小的缓冲保存足够多的信息为标准，词典中的每个词条的一般形式如下：对于不同的方面的应用，由于需求的信息不同，词典的具体结构就会有筹异。 2 词库的建立 1 4 中南大学硕士毕业论文第= 章分词根据以上的要求，同时考虑我们的语音合成实际情况，我们建立了自己的词库。词库以词条为单位每个词条信息结构如下词条拼音声调词性词条就是指词库中的每个词词中每个字由区码和位码两个字节组成。例如：“我们” 这两个字的内码是c ed 2c 3c 7 ，后面是两个字的拼音和声调w 0 3 m e n 2 ，拼音声调后面是词的词性1 即名词。拼音中的每个字母占用一个字节，所以词的拼音部分就占用了很大一部分缓冲造成词库很太影响分词的速度针对该种情况我们对拼音进行了编码：新华字典中列出的拼音共有4 1 8 个，按照新华词典中拼音索引顺序每个拼音编码为其在新华字典中拼音索引中的位置，如拼音“a ”在拼音表中是第一个，所以它的编码就为i ，z u o 在拼音表中是最后一个，所以它的编码就为4 1 8 。编码后每个字的拼音都是两个字节。声调的编码很简单，声调的编码占用一个字节因为汉语音节的声调分为五种阴平、阳平、上声、圭声、轻声将其分别编码为1 、2 、3 、4 、5 。词的词性占用两个字节，两个字节共十六位两个字节中的每一位代表一个词性，如果该位是l ，说明这个词具有这个词性，很多词具有多个词性，就有多位是l 。词条在词库中的排列是按照汉字的区位码的大小排列的，我们可以认为每个汉字都具有一个区位值，汉字的区位值= ( 汉字区码一1 7 6 ) 9 4 + 汉字位码一1 6 1 。汉字的区位值越太，我们认为汉字就愈大，词的太小是由它所包含的各个宇的大小决定，两个词相比较，如果词的第一个字大说明该词就大，如果两个词的第一个字相同，就看第一二个字，哪个词的第二个字丈哪个词就大如果第二个字也

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（控制理论与控制工程专业论文）语音合成及语音处理.pdf

文档简介

温馨提示

最新文档

评论

（控制理论与控制工程专业论文）语音合成及语音处理.pdf

文档简介

温馨提示

最新文档

评论

相关文档