已阅读5页,还剩60页未读, 继续免费阅读
(模式识别与智能系统专业论文)嵌入式汉语文语转换系统的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
j t 豪郎龟大学疆圭学位论文 嵌入式汉语文语转换系统豹研究与实现 摘要 随着信息网络时代发展,人们对信息获取多样性需求不断增加, 对移动通信设备的智能化也有了越来越离的要求。语皆技术一意是嵌 入式入枣冗交互技术磷究的蒸赢,语音合成技术作为关键技术,在迓些 年的研究中取得了熏大进步,已经进入实用化产业化的阶段。在未来 几年内,语音合成的研究将随鬻移动终端的智能化潮流,向着小型化、 人性他的方彝发震。 本文的研究嗣的就是构建一个嵌入式汉语文语转换系统。要求系 统合成的语音具有较高的清晰度、自然度和可懂度,使其能应用于移 动手持设备。鉴于图标平台存储空间小、运算能力有限,本文在整个 设诗避程中都注重技术兹篱鲶。首先,在语音库懿设计上,采用了只 包含1 2 6 8 个有调单音节的小语音库,通过面向移动终端的标准语音 压缩,语音库的大小只有几兆。在信号合成方面,采用了t d p s o l a 波形拼接算法,该箨法只蓑露域诗算,运算量小,合藏效果努。为了 保证合成的语音自然流畅,本文重点研究了合成语裔的韵律建模方 法,采用了机器学习的方法,实现韵律规则的自动生成。基于上述工 作,本文开发了一个语音合成内孩,为了使其具有良好的可移掇性, 采用标准e + + 语言编写。为了灵活适应嚣标平台上多交的应用需求, 内核采用面向对象的软件设计方法,使最终的软件框架独立于算法实 现和系统平台。 基予该语音合成内孩,本文在w i n d o w s 平台上开发了一个t t s 系 统s p e e c h r e a d e r 。该系统不仅提供常用的t t s 功能,界面友好,而 且可以峦看和分析整个合成过程。本文所研究的典型合成例句,均在 s p e e c h r e a d e r 上遴行了暖感实验。 关键字:嵌入式语裔合成,文语转换( t t s ) ,p s o l a ,韵律模型 兹裘瓤毫大学矮圭学谯论文 t 珏嚣s 要u d ya n 验l m p l 嚣m 嚣n t a 翟l o no fa m a n d a r i nt e x t t o s p e e c hs y s t e mo n e m b e d d e ds y s t e 堙 a b s t r a c t w i t ht h ei n f o r m a t i o na g eg o e sf u r t h e r p e o p l eh a v ea h i g h e rd e m a n d o f i n t e l l i g e n t i z a t i o no n t h em o b i l ec o m m u n i c a t i o nd e v i c e ,w h i c hn o wi s t h em o s td a i l yu s e di n f o r m a t i o nc o m p u t i n gd e v i c e 。i nt h i sa r e a ,s p e e c h s y n t h e s i s i sa n i m p o r t a n tt e c h n o l o g y t o i m p r o v eh u m a n c o m p u t e r i n t e r a c t i o n a sad e s k t o pa p p l i c a t i o n ,i t sas om a t u r e t e c h n o l o g y t h a tw e c a r ls e ep r o d u c t sf o rb u s i n e s sp u r p o s e 。b u tf o rt h ee m b e d d e ds y s t e m , t h e r e ss t i l lal o to f w o f kt od o t h i sp a p e ri n t r o d u c e sm yr e s e a r c hw o r ko nae m b e d d e dm a n d a r i n t t s s y s t e m ,a n dt h ep r o j e c tw i l la i ma tb u i l d i n gah i 曲l ya r t i c u l a t ea n d n a t u r a lr 瑟s y s t e mb a s e do i las m a l lc o r p u s 。髓es y s t e mi n t r o d u c e sa p a r t i c u l a rd e s i g np t a nt oa d a p tt h ee m b e d d e dp l a t f o r mo f l i m i th a r d w a r e r e s o u r c e sl i k em e m o r ys i z ea n dc o m p u t i n gc a p a c i t y f i r s t l y , w ea d o p ta s m a l ls p e e c hc o r p u s ,w h i c ho n l yh a s1 2 6 8s i n g l es y l l a b l e sa n di t ss i z e w i l lb e1 mo r2 m i f , w eu s et h es t a n d a r ds p e e c hc o m p r e s sa l g o r i t h mo n t h em o b i l ep h o n e e v e nt h em o b i l ep h o n es o l di nt h i sd a yc a l la f f o r dt h a t s i z e a n dw ea l s oa d o p tt d - p s o l as y n t h e s i sm e t h o dt or e d u c et h e d e m a n do fh a r d w a r e c o m p u t i n gc a p a c i t y b e c a u s e t h em e t h o d o n l y c o m p u t et h es p e e c hs i g n a l i nt h et i m e f i e l d ,a n dt h e f i n a lr e s u l to f s y n t h e s i si s s t i l l g o o d t oe n s u r et h es y n t h e s i ss p e e c hf l u e n ta n dn a t u r e , w e s p e n d m o s to f t h et i m et os e t u p 曩p r o s o d i cp r e d i c t i n gm o d e l 。w e u s e d c l a s s i c a la l g o r i t h mo fm a c h i n e l e a r n i n gi np a t t e mr e c o g n i t i o na r e a f o ra s y s t e m i nar e a lw o r l d w em u s tc o n s i d e ri t s p o r t a b l i t y , s ow ea d o p tc + p r o g r a m m i n gl a n g u a g ew h i c h i sw i d e l ys u p p o r t e do ne m b e d d e d s y s t e m 。 a l s of o rap r o t o t y p e s y s t e m ,f l e x i b i l i t y i s i m p o r t a n tt o o ,s ow eu s e d 北京邮电大学硕士学位论文 o o d ( o b j e c t o r i e n t e dd e s i g n ) m e t h o d t oh a n d l et h es o f t w a r ee n g i n e e r i n g p r o b l e m ,t h ef i n a l f r a m e w o r ks y s t e mw i l lb ei n d e p e n d e n to fa l g o r i t h m i m p l e m e n t a n d t a r g e tp l a t f o r m t h i ss y s t e mh a sn o tb e e n t o t a l l yr e a l i z e da st h ep a p e r f i n i s h e dt i m e , b u ti t a l r e a d y c a r lw o r k p r o p e r l y aa p p l i c a t i o n s o f t w a r eh a sb e e n d e v e l o p e du n d e rt h ew i n d o w ss y s t e mb a s e do nt h i sf r a m e w o r k ,c a l l e d s p e e c h r e a d e r i tp r o v i d e ss p e e c hs y n t h e s i sf u n t i o n a l i t ya n df r i e n d l yu s e r i n t e r f a c e ,h e l p i n gr e s e a r c h e r si n s p e c ta n da n a l y z et h es p e e c hs i g n a l s a n d a l s o ,t oa l lt h ea l g o r i t h m sr e s u l t ,a c o u s t i c a lt e s t i n gh a v eb e e nd o n eu s i n g t h j ss o f t w a r e k e yw o r d s :e m b e d d e ds p e e c h s y n t h e s i ss y s t e m ,t t s ,p s o l a , p r o s o d i cm o d e l i n g l t 素辩壤大学旗士擎挝论文 独创性声明 零人声羁掰至交豹论文是本人在导雾器豢警下迸行懿磷究王律及敬褥懿磅究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表域撰写过的研究成果,也不包含为获得北京邮电大学或其他 教弯掘梭麴学爱或 委螯嚣使曩过瓣糖睾毒。与我一瓣工终数羁惑鬟重本磅究爨徽缝任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关费任。 本入签名:堂鍪! 塑!霞襄:2 型:垒:i 关予论交使用授权的说明 学能论文作者完念了解北京邮电大学有关保留和使用学德论文的规定,即: 磅究生糍校攻读学位嬲问论文工作的知识产权翠位属j e 京邮救穴学。学校凌权傈 餐并两鬻家有关帮门躐祝稳送交论文静复帮 孛帮磁蠢,竞许学位论文被套阕酾偌 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印溅其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 曝赛论文注释:零攀往论文震予绦襄在一霉麓密嚣逶罱零授毅书。 缳密论 文注释;本学位论文不属于保密范阐,适用本授权书。 本人签名:垡艇超1 霹麓: 垒塑主! 垒: 导i 币签名; 缎 日期:墨堑j 二:生:z f 嵌入式汉语文语转换系统的研究与实现 1 1 课题背景 第一章绪论 t t s 即语音合成按术( t e x tt os p e e c h ) ,它涉及语蠢学、语音学、声学、数 字信号处理、计算机科学、人工智能等多个学科技术,魁中文信息处理领域的一 瑗籍浍技零,实现把计算捉审任意爨现黪文字转换袋窭然滤赣靛语豢簸窭。 近年来,电信业的语音通信技术和计算机网络技术正逐步走向融合,语音合 成技术奁径会静各个鬏域都裔十分广泛的应用嚣景,黠语音合成系统鹩需求正迸 一步的扩大。而中文语音合成技术的成熟也是促进语音合成应用的蔫及的原因。 我豳在2 0 世纪8 0 年代开始汉语t t s 领域的研究,2 0 多年来在科研工作者的努 力下,汉谬t t s 技术毫经逐步走出了实验塞,进入了实月化竣除段。涟华大学、 中阉科大、中科院声学所、北京捷道等单位在这一领域的研究较深入,并已有投 入实嚣庭惩熬谮音产螽了。赉手孛文语音畿霞枣溺翡重穴,善芥熬公司对落音莓 别与合成的研究也加大了投入,如微软、i b m 、i n t e r 、松下、法国电信等公司都 设肖稻应的研究部门。 目兹,语音会成在各个镟域的发赐非裳广泛,按照终端魇产群不同,可以耀 结刹三个方面: 1 。褒瓣络傣患驻务孛戆疲嚣。语音会蔽援拳在蕤终信怠骚务中煞瘦爰主要 表现在呼日q 中心和各种计算机与电信集成系统( c t i ) 应用中,如中国电信 静1 6 0 1 6 8 声讯服务系统,证券公司的客服中心。这蓬系统的特点是需 要对存储的大规模的动态的海量信息进嚣检索,并即对的生成语音,露 传统的录音回放功能并不能够满足这种即时生成的需求,这时便需鬻采 是港音会残鼓拳。 2 在桌面系统上的应用。现代人在日常生活、办公及娱乐的过程中都离不 开个久毫蕊,瑟寨瑟系统上静语音波霜胃阻给焉户更入缝纯的雳户体验。 比如,w i n d o w s 操作系统提供了语鸯识别与金成的组件,并免费向应用程 序开发者提供谮音开发包,开发者可以利用开发包实现具有语音日程提 醒、聪惩援报、疑读嘲更、恕子书簿功能戆应建款终。 3 在移动终端和嵌入式设备上的应用。嵌入斌设备如p d a 、手机、m p 3 播放 撬、智玩吴、智髓窳窀、率载电子系统等,这些系统与焉户的交互往 获久式汉港变浯转换系统熬群究与实瑶 往需要多样憾,比如,车载电子系统向司机报告路况信息的时候,使用 瓣幕显示鲍方式会分散司枕酶注意力,这对便需要谬啻合成斡功缝了, 有语音静方式报告绘司机。尤萁是近掰年,嵌入式蓉统静发展迅速( 业 界称为后p c 时代) ,嵌入成终端系统的性能有很大掇升,嵌入式上的语 涛应用越来越广泛,也将怒以后语音应用的发展趋势。 滋较三个平台上豹会或技术疲霜,浚吴寿大疆模语辩霉豹耀络语音g 蠢务应爱 最为成熟,商用的语鬻服务器系统已经在市场上如现了。在懿面系统上,由于计 算机上配备的清晰的熙示器已经为用户提供了良好的交互条件,对于语音合成应 用的市场嚣求稷对少一些。在嵌入式没鍪上的皮矮蘸景刚簸被善好,特剐怒现在 的移动终臻正在向着智能他的方向发展,在未来将成为一个隧身携带的诗冀机私 人秘书。而语音合成作为终端设备上人机交互的最重要技术簪段,是当前终端智 能技术的研究热点,将向着小型化、人性化的方向发展。 1 2 研究的问题 语豢合成技术鲍嚣夔是使计算壤能稷握文字叁动懿生成霹孵鏖鲍、瀵濒豹、 自然豹,进一步讲其肖表现力静谮膏输出。为了合成凄高屡爨的语音,首兜面对 的问题鼹语言学上的问题。一个语音合成系统器想合成出舆有自然的语调的声 音,一个前提是系统必须对所合成的文本的内容寅一定的理瓣,这里所涉及技术 藩予餐辘僖惠楚瑾审豹鑫然诿言遴解熬范薅。瓣蠡然语言褒瓣的一个最丈豹难题 是,人们在交流时使用的自然语言襁表示形式和袭达意义方面都存在不同朦次的 模糊性。自然语言的这特性在汉语中表现的特别强烈,汉字及汉语词汇的组合 鸯无疆多耱,瑟甸子中夔语法终梭獠数,没毒擦豹定式。邀秘模凝瞧馒久类蠡 己在总缩语言学上的般规律变的丽难,也给阻数字符号表承和数据结构为基础 的计算机处理自然谮亩信息带来了巨大的困难。 另一个闫题语鸯学土鲍问题,我们知道不同兹人说话鲍语气秘语谰是不同 静,这帮每个人弱发裔习溪有关。这些发音特德我们可戳扫缡为一些韵镎特征, 它包括声调、语速、停顿和轻重酱等语音现象。在语音合成系统中,我们殿该能 控制这贱特征参量,才能正确表达匈子中的人的感情因素,否则系统发出的这是 蕊棱熬、不鑫然熬疆鬻,发塞兹港密是一个字一个字懿爨整采豹,诖久耀了缀不 舒服。丽且实践证明,少了语言的韵律信息也会影响人的理解速度,降低可懂度 和自然度。合成系统的任务是建立韵律模型,使系统的发音按照此模型的规则发 基耋然流畅豹语音。建立魏簿模型瓣难点是汉滋戆发音瑗象黢筑粼太多了,这镬 得产生如一个韵律模掇需要进行大爨的工作,如聚不借助计算机来帮助入炎去发 现和获取这些规则,熟工作量是不可想象的。解决这个问题的关键技术是人工智 2 嵌入斌汉语文讴转换系统的研党与实现 能范畴中的枫嚣学习的技术,而经常筒对的困境蕊,有时即便怒使用了这毖技术 工作量仍然很大。 蟊对这些趣惩,本文露签蘸天憨工律,共莱爝了一些经典熬模式识戥技术, 试豳实现一个在移动终蛹和嵌入式谈备上廒用殴蠡然语音合成蓉统。 1 3 主疑工你 本谍蹶的任务是谶向嵌入式终端平台,利用软件技术,实骥一个基于小诱音 霹的汉语文语转换( t 下s ) 琢翟系统,设计整个粼统的结构框懿,对各个横辘中 熬燕蕤技拳裙王终擐璎热鞋壤究,势搬鸷基础上辩系绫遵孬修改鼗突营,力擎楚 嵌入式设餐主实蕊一个藤宥菇菇酶胃燧径稻鑫然壤的谮啻合成系统。 在磋嶷壤星孛,本a 参与了搭然燕绞熬整个_ l 窭疆,从蘩蘩瓣数霆准备,剿系 统的分析与设计,再到关键技术的实现,最终完成了该框架系统,并在w i n d o w s 攥穆平螽上开发蠢了蕊予该系统载器嚣霾熏程穿。裂雳逮夺框絮系统襄雾覆戍建 程序,语帮合成研究人员可以方便她谶行算法测试。及时越对念成的结果进行评 估,详细撼对合成过程谶行观察:可以对语法分诩嗣韵律结构囱动标注的缩泶进 行芋毯嫠敬,势霹戳璨襻秘熬爨标注络鬃。 本文黧焦叙述了含成系统静设计过程,对系统番模块静关键技术傲7 详述, 对在实现率逡嚣豹趣麓稻解决方法纛簿落麓。 本文的主要研究工作总结如下: 设诗了基音序瓣糠滚文终格筑,巍爰s p e e c ha s s i s t a n t 誓兵露c o s s - l 合成语料鼯进行标注,键对慕音挝劫鄂蜘圜发者飘象对绩果逃抒了修正。 对t d * p s o l a 算法进行了研究和实现,觜重分析了分析窗窗长对含成 语誊戆影嫡。 从软件正程的角度,用面向对象方法分析和设计了嵌入式语费合成挺架 系统,并懿黻实蕊。 以食藏挺黎蓉缆必器型,糍w i n d o w s 曩绞嚣笈了其骞援户爨嚣熬嶷煺 程序,并瓣系统窳臻嬲鞋测试。 激翅经典模式识副技术孛麴c 4 。5 决繁樾舅浚露三燃 l 萋馊糟经爨络冀 法,分别辫决了系统中錾频模型预测酾时长模型预测阔题,达剿了预期的合成效 粟。 磷究了已有t t s 系统的标记语富标准,弗跟随语音念成技术酶最瓣发 展,设计了针对本系统的语法标记集、韵律层次标记集、韵律声学标记集。擞系 统整窦琵中撩a 黪蠢遴蕊戆,摄大鹣方霞了委蟊豹磷变王 睾; 嵌入式覆诲定语转换系统籍豺究与实瑗 2 。 掰变圆颗 第二章中文语音含成技术 历史上第一个合成人类语音的机器是在1 8 世纪下叶,c h g k r a t z e n s t e i n ,一 个哥本嗡棂斡凌理学教授,毽成功蕊豢造出了虫共鸣管羁菇琴警组成静,霹鞋发 元音韵机器。据说他的机器所模傍的五个元音a 、e 、i 、0 、u 还相当准确,并由 此获得了瑞典皇家学院奖。但第一个不仅能产舷一些语音片断,而且还对憋个的 单词和短旬进行合成的机器是由一个qk e m p e l e n 的匈牙剥人发明的。他为了治 疗静不说话懿聋疆久,致力手磺究a 酶发声瓿疆,基予耋纛碜 究或采穗发骥了 一部可以合成语音的机器。他设计的机器可以说多种语言,挝丁语、法语、意大 利语和德语,并且操作简便,据称一个人可以在3 个星期内熟练地掌握机器的操 终方法。逮蠢援器璃在存敷在德嚣慕尼黑薅黪镶孛。 在二十世纪的中期,随着电予工程技术的发展,使得翻用电子元件制作合成 器成为可能。第一个引起广泛关注的这类机器是v o d e r 含成器,出h o m e r d u d t e y 在1 9 3 9 年的缀约发表的,如图2 1 是v o d e r 合成系统盼图示。 图2 1v o d e r 系统的承意图 4 嵌入式淡谱文语转换系统熬辑究与实磊 v o d e r 有两个声源,一个是宽带的噪声源,一个是周期波蜂鸣振荡器。这两 穗声蠢透过“共振较糕箱”( 对声道懿模仿) 敕时候,音像发生改交。浚裁籍毒 l o 个楣邻的带通滤波器,包括溅常语言韵颡举范围。带邋滤波器的输爨通过1 0 个子键的单独操纵,进行增益调羧。还有三个附件操纵选择滤波器作为瞬时激励, 模仿产生三组塞音:t - d ,p b 和k g 。操作人员用一条转柄来选择噪音和蜂鸣声, 露一个麓路程控露l 蟓鸥振荡器熬密赛。虽然甏戳奏窭爵溪懿语音,不遗送台规器 的缺点还是显而易见的,操作人慑必须要经过长时间的训练才能操纵遮舒仪器。 现在采看,k e m p e l e n 和h o m e r 发明的机器都不具备实用性,在主要用于娱乐方 面。不过健们敛黪这些基稿性兹礤究工佟,戈缓茬静语音念成技术的发袋徽塞了 贡献。 早期的机械式语音合成器悬人们对语音产生机理的筒麟模拟,现代电子式的 语音合成的系统基本上者5 是采用语音模型来合成语音。2 0 缴纪5 0 年代,源一滤 波嚣筷鏊在一些舍袋系统中建溪广泛,这释模鍪是垂电子黟源逶逶滤波瓣产生声 音,目的在于频率谱上趋近人类谬音的特征。可以说v o d e r 合成器也鼹个源一 滤波器合成器,但怒它声源的生成是机械式的而不是电子声源,而且它襁滤波方 瑟匏凌缝是i 零鸯羧瓣,是毙说蹩源一滤波爨貘墼会残器熬零鬟雏形。褒1 9 3 2 年离本的科学家o b a t a 和t e s h i m a 发现了元音的3 个共振蜂现象。 1 9 5 3 年w a l t e rl a w r e n c e 制成了第一个共振峰合成器p a t 。它包括3 个并联的共 振峰振荡器,输入怒一个周欺信鼍或噪声,势鼠有一个玻璃滑冀来控制熬振峰的 颓率、疆度淤及基费频率、嗓声幅度。冗乎谯弼对g u n n a rf a n t 镧藏了率联式静 共振峰振荡的合成器o v e ,随后又推出了o v h i 和o v e i i i 。 而在6 0 年代中期,开始了关于l p c 的实验和研究,经过一些对这种模型的 骖改黧宠罄,已经麓在缀多实嚣系统孛。第一个英文戆文溪转挨系统翔麓疰 嚣本 人n o r i k ou m e d a 和蒸同伴于1 9 6 8 在电工实验赢( e l e c t r o t e h n i c a ll a b ) 研发而成, 它包含了一个复杂的语法分析模块。1 9 7 9 年,a l l e n 、h u n n i c u t t 和k l a t t 在麻省 理工学窿鹾剁成了m i t a l k 豹文潺转换系统,这是文语转羧系统第一次囊妲伍。 两年焉,k t a t t 蕹出了饱著名的k l a t t a l k 系统。v o t r a x 可能愚第一个语啻合成的集 成电路芯片。1 9 8 0 帮,德州仪器公司将l p c 技术引入了基于低代价线性预测合 成芯片的“说拼合成系统”( s p e a k 。n - s p e l ls y n t h e s i z e r ) 。1 9 8 3 颦,著名的d e c t a l k 箍斑了第一个蠢翌敝零,i a f o v o x 瞧箍窭了s a - 1 0 1 台戎器。 从八十年代中厢期,m o u l i n e s 和c h a r p e n t i e r 提出了基予时域波形修改的语 音合成算法p s o l a ( p i t c hs y n c h r o n o u s o v e r l a pa d d ) ,较好地解决了谮赘拼接 中毒震熬淹踅,麸落使语誊合成秘文语转换搜零送入了菇竣会或懿除段。丸年 代初,旗于p s o l a 技术的法语、德语、英语、嗣语等语种的文语转换系统都己 嵌入式汉语交蒜转挠系统瓣姘究与实瑶 经研制成功。这些系统的自然度比以前共振峰含成方式或基于l p c 方式合成系 统的鱼然度要毫,霹霹懂度则已缀遮妥实际应耀熬东平了。 2 2 含成技术介绍 总的说来,现代的语音合成的方法可以妇缩为三种: 1 ) 赢接模拟人发声过程的合成方法 2 ) 源一滤波器谱蛮合成; 3 ) 藻予波形攒接技术静语音合成; 在前面提到的合成方法中,k e m p e l e n 的发声机器属于崴接模拟人的发声过 程的方法;l p c 合成和共振峰合成都属于源一滤波器的合成的方法;p s o l a 属 于基予波形象接技术瓣诿音会成蔑零。 2 2 1 拟人发声合成方法 该方法是最直接的方法,因此研究的时间也最早。该方法首先对人的发音器 官在发胬过程中的运渤和变化进行研究,建立了声道的物理模型,还要根据定气 动力学瓣潺过声遂气滚特摄帮运动辘迹进行数学建模。 这种方法主要基予的是对入的发声机理进杼的研究。人的发音器官包括肺、 气管、喉( 包括声带) 、咽、鼻和阴。其中喉部以上的部分称为声道,声邋的形 状随着发爨语音黔不阕露不同。嗾帮称必声门。产生语音的戆璧来皇子瓣部蜉塞 酶稳定气流( 只有少数i 濒语言麓利用暖气气流来发音静) 。喉部熊声帮溉是一 个阀门又是一个振动部件,通常情况下声门是关闭的。发浊凿时,声门处的气流 冲击声带产生振动,然后通过声遒响应变成语啬。发清音时,宥两种发音方式, 一薅是声门蠡开,毽声遘菜楚浚繁褥形或漶滚,这耱毫速滚滚罨致发整瘴擦音; 另一种魑声门打开,但声道的某处完全阻塞,然艏突然放出。这种高压气流导致 发出阻塞音。 在潞声遴夔物迸建模中,声邋皴迓戗为一个横裁嚣获交识戆警i 薹,鼹声遂豹 进行假设酾简纯,通常用许多级联的横截面积不同的函柱体激近似声道。程不同 的发音情况下会有不同的声道模型,应建立起发街动作与一系列声道形状之间的 对应关系。 这秘袁接对a 发帮过程的穰撅方法静合戒燕撩当豹霞蘧瀚,并没畜产叟安角 的发音器。虽然理论上应当能合成出逼真的语音,但是实际中由于缺乏准确的用 6 嵌入式汉语文语转换系统黟辑究与实理 于机器模拟的控制参数,而人的缴音过程是一个很复杂的擞理过程,所以并不能 骰出缀好懿模拟蓉绕。 2 2 2 源一滤波器台威方法 溪一滤波器懿潺学会藏基予这捧一秘声学莲论,这癸爨谂谈凳久黪声音鑫振 动的声门产生的髑期性气流,经过声道产生滤波和谐振的效果后发出,所以,可 对人的这种发音本质进行建模,激励信号和相应的滤波器形成。其中激励主要分 为两种;一神是类似噪声的激励,主要形成 # 浊音语啻信蟹;是终一种怒周翘性 豹激麓,主要产生波音信号。这酒静激裁有瓣磁会英霹使麓,翔产生菜魏涟辅音 信号。如图2 - 2 所豸鼍为源一滤波器合成系统示意图。 图2 - 2 源一滤波器台成方法瓣系统示意圈 崧该方式熏,誊蓐串羲先存放各释语音会戏单元豹声邈参鼗,这些参数覆据 控制娥则的要求进行修正,以合成出各种语言环境下的语街。但是,由予准确提 取共振峰参数比较网难,虽然利用参数合成可以得到许多十分逼真的台成语音, 毽是穗会成菜些诿寮游锯达不刭鞭麓鳃啻震,从嚣影响整体添音合成效暴。在参 数合藏中,台成器鹃工作流程主爱可分成三步: ( 1 ) 首先根据待合成音节的声调特性构造出相应的声门波激励源; ( 2 ) 然后再根据协同发音、速度变换( 时长参数) 等啻变信息在原始声道鳇 基稿上稳遥出赣懿声暹参数模鍪; ( 3 ) 最后将声门波激励源送入新的声道模型中,其输出就是符合给定韵律特 性的合成语音。 l p c 合或帮共援蝰( f o m a n t ) 含残是簧绕参数会残孛,袋豢矮戆嚣耱方法。 它们实现原理上都怒上述源一滤波器型结构,只是所用声邋模型不同。同时,针 对声道模型的特性,在源的选取上略有差别。 7 嵌入式汉语文语转换系统的研究与实现 2 2 2 1 共振峰合成方法 把人的声道模型看成一个谐振腔,语音信号的共振峰特性由这个腔体的谐振 频率来表证,这种合成方法叫做共振峰合成。共振峰模型是基于对声道的一种比 较准确的模拟,该模型中语音生成过程是在激励信号的激励下,声波经谐振腔( 声 道) ,由嘴或鼻辐射声波。声道传输频率响应上的极点称之为共振峰,而语音的 共振峰频率( 极点频率) 的分布决定着该语音的音色。音色各异的语音具有不同 的共振峰模式,因此,以每个共振峰频率及其带宽作为参数,可以构成共振峰滤 波器。听辩实验表明,用前三个共振峰就能代表元音,对于较复杂的辅音或鼻音, 大概要用到5 个以上的共振峰才行。再用若干个这种滤波器的组合来模拟声道的 传输特性( 频率响应) ,对激励源发出的信号进行调制,再经过辐射模型就可以 得到合成语音。基于共振峰的理论有以下三种实用模型: ( 1 ) 级联型共振峰模型:在该模型中,声道被认为是一组串联的二阶谐振 器,共振峰滤波器首尾相接。该模型主要用于绝大部分元音的合成。 ( 2 ) 并联型共振峰模型:对于鼻化元音等非一般元音以及大部分辅音,上 述级联型模型不能很好地加以描述和模拟,因此,有研究者构筑了并联型共振峰 模型,输入信号先分别通过幅度调节再加到每一个共振峰滤波器上,然后将各路 的输出叠加起来 ( 3 ) 混合型共振峰模型:上述两种相比而言,对于合成声源位于声道末端 的语音( 大多数的元音) ,级联型合乎语音产生的声学理论,并且无需为每一个 滤波器分设幅度调节;而对于合成声源位于声道中间的语音( 大多数清擦音和塞 音) ,并联型则比较合适,但是其幅度调节很复杂。基于此种考虑,人们将两者 结合在一起,提出了混和型共振峰模型。 共振峰模型可以合成出自然度较高的语音,由于共振峰参数直接对应于声道 参数,因此,可以利用共振峰描述自然语流中的各种现象,并且总结声学规则, 最终用于共振峰合成系统。但是,该技术也有明显的弱点。首先由于它是建立在 对声道的模拟上,因此,声道模型的不精确势必会影响其合成质量。另外,实际 工作表明,它不能表征影响语音自然度的细微语音成分,从而影响了合成语音的 自然度。而且共振峰合成器控制十分复杂,为了合成逼真的语音,其控制参数往 往达到几十个,实现起来十分困难。 2 2 2 2 l p c 合成方法 l p c 指的是线形预测合成,以线形预测误差滤波器为基础来模拟声道。 8 嵌入武汉语文语转换系统的研兜与实现 由于语音信号存在对域上的相关性,可以考虑用信号x ( n ) 过去的p 个样本 来预测当前值x ( n ) ( 以下讨论中,x ( n ) 为加窗的语音信号) 。 ;瓣= 塞商x ( n 一囝 线性预测的误麓e ( n ) 一x ( n ) 一i 0 ) 奁最小鹤方误麓准剐下,帮e e 2 ( 狞) 】最,| 、,得到的预溺系数或就是我们通常所说 t :e f e 2 ( n ) * 一2 嫩咖一 。,p( 2 q 由2 - 2 式可得: 争 ,“) 一a ,一0 - - 0 i _ l ( 2 3 ) r ( j ) 为信号自相关函数,2 - 3 式是l p c 的正则方程组,可以借由托伯里兹矩阵 ( t o e l p i t zm a t r i x ) 求解。解出所有的预测系数a ,后,由x ( n ) 得到e ( n ) 的线性预测误 差滤波过程可知下图袭示: 若e ( n ) 为输入,刚通过传递韵数i a ( z ) 刚恢复出x ( n ) 来。用u ( n ) 代替e ( n ) 代表 滤波器的竣入激融信号,x ( 妨则戈输如的语啻信号,实骣中熬l p c 语寒合成系统 滤波过程图示如下图: 这熙 u r n 、r 1x f n 、 叫竺p 9 袭人式援语义语转换系统静群究每实现 再噬# ,。7 1 一五褒z “ ( 2 - 4 ) u ( n ) 为激励源,需要根据实际语音的清浊不同来艇成。 因为l p c 合成系统是由激励源信号经滤波嚣实现对原张语音的还朦,在语 音传输主编码主应麓较广。毽莛程语音舍藏系绫戆应曩土,本质上来漤,怒一释 简单的解码和拼接过稷。因而,它照然对于单个合成基元来说能够获得较高的自 然度,假是由于自然语流中的语音和孤立状况下的语音有着极大的区别,如果只 是麓攀圭| 鏊挺各个弧立戆语音生硬建攒接在一起,箕整个语漉款壤量势磐是不太理 想的,掰以l p c 合成技术需要与箕他技术相绪念,才能产玺出好的合成系统。 2 。2 。3 泼彩编辑疆鼗金或 采用语音编码技术,根据自然谣言的语音和韵律规律,存储适当的语脊基元, 使这些单元在确定鲍襻贮容量下其蠢爱大的语鸯秘熬律覆差攀。合成的瓣候,经 过单元选择、渡形拼按、平滑等处溅步骤蜃输出既瞧语音。邋过耩心设诗谚音库, 以及根据语音和韵律舰则( 直接使用这些规则或对这些规律进行建模) ,从酱库中 挑出最合适的声学单元,使文语转换系统输出离质量的语音。波形拼接语裔合成 孛戆合袋攀元是麸覆戆鑫然语音中镄分窭来静,僚整了垂然滠音戆一些麓簿特 征。虽然这种合成方法需要占用较大的存储空间,但计算量小,计算速度快。 早期的波形拼接技术,只是把语音单元的波彤简单地拼接起来连成句子,虽 然能较好缝僳持合成攀元豹啻段姆4 建,毽嚣法投攥上下文来调磐其懿律方嚣戆特 征。近年来,一些分布式的语音系统是基予大语齑语料库的采实现的,语齑库存 放着各种读法的音节缀语和句子,程合成过程中,经过韵律分析后,挑选出与合 成句子环境最相近的语音单位( 可能是萃字、诞、短语、甚溪是句子) ,拼接成 一萄话。这种方法垂予是壹然语音攀元静拱接,还能俸现出谬匈静蘸律特镊,在 专门领域的合成效果很好,自然度与可懂度都很离。但是对谮宵库的建立的工作 要求比较高,属于对衡单波形拼接技术的改进。 ,卡颦代寒壶ec h a r p e n t i e r ,e 。m o u l i n e s 等天挺塞戆蘧窘霹步叠麓蔽零 ( p s o l a ) 可以在一定澈围内调节语酱信号的基频斧时长,而对语音音质的损伤较 小,也成为近些年来的主流合成技术。特别是对语音库大小的要求不是很离,只 需要对豢节瑟毒素擎彼戆语音进行处理,在合成嚣誊谡整基频、霹长衣强度簿怒音 段特征,产生其有良好蜜然度豹谮酱。 根据薄法实现方法的不同p s o l a 算法又可分为:t d p s o l a 、l p p s o l a 1 0 裳a 式汉语变疆转换系统的研究专实嚣 和f dp s o l a 量种。t d p s o l a 直接对语音信号的时城波形进彳亍处理; l p - p s o l a 是黠信号熬l p c 激惫灏送孬处理;f d _ p s o l a 辩绩号静频域波澎进 行怒遴。箕中在箨于城上承实现簿法t d - p s o l a ,诗算篱摹,哭需在对域上进行诗 算,不用进行时频燮操,对硬件掰求低,合成效果好,对硬件要求低,愚我们优 先考虑熟算法。论文掩在以后章节对该算法馓潆缨套绍及实现,在这里勰不再赘 述。 2 3 文本分析技术 警麓韵孛文语裔台残系统鹣胃灌度、清澌震这餮了鞍搿魏承平。熬黼,其裔 然度逆不能达到用户可广泛接受的程度。所以,以后的中文t t s 系统的研究重 点是禽成具有高自然廉和表现力姚语音。其中文本分析的研巍是提高输出语音自 然震豹磷究方惫之_ 。文零分摄对予文语转爨系统熬重要羲鸯嚣方瑟骧因:其一, 要想计簿机能给出崮然流畅的汉语语音输出,分析理解任意输入的文本怒前提; 其二,文本分析和处理能力也是义语转换系统评测时用的质爨指标之一,其它四 个分裂淹膏萤瀵礅液、革运霹蠖炭、单每可懂嶷、言语垂然度。 文零分辑箨为定语转换系统的翁端楚毽,絮的任务是对程意输入韵文零进行 分析处理,提取语句的韵律信息。使得计算机能够和人一样鲋文本进行戚确的理 解,在忿基礁上生成熟语音右能与入说话具有棚褥的戆甸,蜉啜闻歇和诺气等等。 天翻奁疆究语言擎特蜒过遣褥到了大量麓藏簿筑弱,这些艇裂主要霜予对萄子嚣 轻重位鼹、各成分的对长分布、稀种节奏停顿、调等韵律特撼给出定量的韵律参 数。为丁得到抑扬顿挫、流畅自然的合成语音就必须依靠利用这些韵律规则。这 些工佟必矮墩文本分褥鹃终暴魏基麓,嚣魏只宥扶深层次上运薅诗箕语富学戆戆 识,垒谣分析文本的句法、语义等才能较为缨敞的划定鹚律参数。 在谮音合成系统中的文本分析技术和合成拽术有着紧鬻的联系。它程对文本 於漏法、语法窝语义分据孛,与一般系统的爨然语言楚理模块楚摇近静,但是蘧 还篷搔了与其魏赣壤斑雳戆不弱斡臻麓。宅煞研究方窝铡萋予为汉字在语简中静 读音撼供依据信息的分析方法。 2 。4 韵律研究方法 港裔含或孛鲳翡簿醪变毽搭,灭翡语音中重套、靖长、声溪、语键鞍侉顿茨 凡个方搿懿律特瑟。程实际翦窘然语音中,语音静音质和麴稼特征一莛决定了语 音的表现意义。因此猩语音合成絮统中,要根据文本分析的信息,确定韵棒模型, 嵌入式汉语文语转换系统的研究向实现 在对每个基元对威的韵律进行预测,由这些预测的信息对基元库中的发音单元进 行修改,戳达到增强自然度,提高可懂度的两的。韵律预测的内容包括:音节基 频麒残的预测( 声调模型) ,音节时长的预测( 时长模型) ,重音的颈测积箨领教 预测笛。 在t t s 系统中毂韵律覆测瓣实瑗策臻遴豢可敬爨绫麓三个步骤: 1 ) 从文字到商层面的韵律符号描述( 如韵律的层次结构和边界位擞,语脊的 重誊位置及等级,语调鞠语气等) 豹转换。 2 ) 从韵律的符号描述到韵律的声学参数( 如音离、音长、音强、停顿等) 的转 换,这是邋常所说的韵律模型的功能。 3 ) 在会成语蠢中实现韵律蛇声学参数 对韵律模型的研究的方法可以分为以下三类: 蒺于掇璺l l 豹方法:这秘方法是攀麓豹魏簿磷究方法,逶;窭已骞豹语音学知 识结合相关的实验来得到文本韵律结构和合成韵律参数的映射关系。但是这种方 法大多磁较零散翻简单,主要焱谲一缀静层蕊上进行研究。然雨自然谱音是千交 万化的,要从中提取音节、韵撼词、韵律短谬、呼吸群、句子等层蘑上的系绫蛇 韵律麓则,尽管魑一套详细的韵律规剿也不能把所有的情况都加以说明。 簇于数据驱动瓣方法:该方法一般是必梭造一个带窍魏律糠记秘瀚律将薤 信息的语音语料库,作为学习样本库,用来训练各试各样的统计模型,通过这些 统计模鍪完成韵镶分拆秽预铡豹任务。 具体的米说,数据驱动的方法还可以分为以下几类。类是基于概率模型的 方法,用各稀概率模型来描述韵律信息的统计规律。如用m a r k o v 模型和v i t e r b i 算法慰韵律短语款划分。另一类是基予决策瓣鲍方法;w a n g 瓤h i r s e h b e r g 最早 将决策树用于韵律短语的划分。另外还有神经网络法,它和以往的机器学习方法 蠢掰不同,窀逶遗对太羹麓称为耱经嚣的蕊攀楚毽摹元构成菲线性动力学系统, 对人脑的形象思维和联想记忆等进行模拟和抽象,实现与人脑相似的学习、识别、 记忆祷信怠经理熊力,英特点是归缩褴很强假解释性差。 嵌入式汉语文语转换系统的研究与实现 第三章系统分析与设计 这一章,我霄j 将把本课越的茸标嵌入式语音合成系统律为一个软件 项髓来设计,从软件工程的角度,按照需求分辑、系统分据、系统设计的h 步骤, 并结合语啬合成系统稳架结构及工作过程来详述麓个合成系统的工作原理。在有 了这个系统的嚣絮蓐,我们裁霹啦农会逶熬域方壤写实瑗豹雾法,蒡艇可以对试 验的算法对整个系统的贡献育个清楚的认识。 3 1 项目目标 本项飘的目标是设计一个针对嵌入式平台的、具有小语音痒的汉语普避话合 成的原型系统,向系统输入中文文本内容,输出的将是连续流畅的、舆有一定自 然发中文添音。 3 2 项目需求 一般的软件需求分析包攒功能性需求秘非功性需求,恧功能性需求在本系 统中就比较简单了,就是完成由文本到语音的转换,所以用户使用用例编写分析 都弼默卷赡了。下嚣主要谈谈零系统麴一些# 功g 性熬褥求: 1 酋先本项目组对于语音合成系统,还处于实验室中的研发阶段,本系统 除了为醣嚣鹃实际孛的语音寂蔫产菇开发旋供一个源鳘系统矫,还要为研究久员 提供一个框架系统,使他们不必为了仅仅测试一个关于食成算法的新的想法而重 新制造车轮。本系统的用户群是本项目组研发人员自己,和其宦语音应用系统的 硬发人员。瘊噬本系统必须为磅发人员提供对方馒螅手段,寒控制逶啻会或中戆 各个步骤,必须方便调节各个子模块参数细节,谯测试新的算法和实现方案时, 哥熬方便浆替换基寄方法,嚣不会影嫡系绕静框架结稼帮其德模块,不必大溪模 的改动已商代码。 2 。 幽于本系统没蠢固定在具体哪个壁标系统平台上实瑗,系统熬代码薅要 有良好的可移植性。所以我们需要采用在各个系统中都能很好的支特的编程语 言,瑟豆苓襞僮j 霹;特定平台黪程序露,努w i n d o ws d k 串靛a p i 释数据绪褐。 褒天式汉瓣定语转换系统豹磷赶与实瑰 而对于声音播放、文件访问等必须依靠操作系统的功能,则需幕采用软件设计的 方法来减轻系统对撩俘系统鲍依羧。 3 本系统以后在兵体的语胬产品中应用时,将作为一个大系统中的予系 统,而谯产品的开发人员需要根掇本系统作为原型进行二次歼发,为了方便开发 a 虽豹傻瑟窝蓬簿,系统必矮提供麓萃戆、菇嵇统一豹接麓,并辩关键代鹃送 行清晰的注释。 4 。零系统教最终蓬标平台愁嵌入式乎台,露嵌入式系绞戆一个最大镂约霞 索是其翁限的计算资源,通常的嵌入式系统酌处理器速度是运小于桌面系统的。 为了本系统的语音合成具有一定的实时性,要尽量的对代粥的运行效率嫩行优 化,减少不必要的运行时间开销。贯外,嵌入式系统的存储窝阕及内存有照,面 这些其体阕瑟霞要凌其俸平台上释决,嚣玲蔽熬嚣发工传审涛不会壤梵纛煮考 虑。 3 3 系统分析 3 3 1 系统设定 3 3 1 1 开发语言的选择 零系统穆会运行在嵌灭式系绕上,瑟蒸接戆嚣蠢平台瑗簌还不骥定,嚣筵我 们需要采用大多数平台都能支持的程序语言来编写,虽然c 语言是支持缀广的 语言,但是c + + 也是不错的选择。现今多数的嵌入式系统,如v x w o r k s 、e m b e d
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 外星文明信号搜寻器创新创业项目商业计划书
- 建筑与水暖零件媒体资源整合创新创业项目商业计划书
- 农产品快速冷冻技术创新创业项目商业计划书
- 2025年秋人教版小学数学六年级上册期中综合测试卷及答案
- 坚果深加工产品创新创业项目商业计划书
- 统编版(2024)一年级上册道德与法治15.我们不乱扔 教案(表格式)
- 2024年青藏铁路集团招聘真题
- 2024年岳阳湘阴县纪委监委和县委巡察办选调真题
- 2025年茂名辅警协警招聘考试真题含答案详解(培优)
- 2025年阿坝州辅警招聘考试真题及答案详解一套
- MBEC项目管理标准手册
- GB/T 700-2006碳素结构钢
- GB/T 6144-1985合成切削液
- GB/T 13277.4-2015压缩空气第4部分:固体颗粒测量方法
- 人保财险首台套重大技术装备综合保险条款
- 产品质量法-产品质量法课件
- 社会保障概论讲义课件
- 《有效沟通与实用写作教程》课件-(11)
- 北师大版数学五年级上册期中测试卷(5套)
- 部编版四年级上册语文 期中检测卷(二)
- IEC61850入门ppt课件
评论
0/150
提交评论