(计算机应用技术专业论文)ums中的ttsasr技术研究.pdf_第1页
(计算机应用技术专业论文)ums中的ttsasr技术研究.pdf_第2页
(计算机应用技术专业论文)ums中的ttsasr技术研究.pdf_第3页
(计算机应用技术专业论文)ums中的ttsasr技术研究.pdf_第4页
(计算机应用技术专业论文)ums中的ttsasr技术研究.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

(计算机应用技术专业论文)ums中的ttsasr技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西南交通大学硕士研究生学位论文第l 页 摘要 本文以作者参与“中鸿讯统一消息服务系统( z h x u m s ) ”设计与开 发工作为背景,在讨论有关u m s 的体系结构、关键技术和实现方法等方面 问题的基础上,重点讨论了文本一语音转换技术( t t s ) 和自动语音识别技 术( a s r ) 的现状及其在u m s 系统中的应用与开发。 本文反映的工作可以概括为两大部分:z h x u m s 系统的总体规划设 计和与t t s a s r 相关技术的研究与开发。在总体规划设计中,本论文首先 从消息服务系统的发展历程出发,分析了从分离的消息服务系统向统一消 息服务系统进化的必然性以及后者在技术上的优势,探讨了u m s 的应用前 景,从而论证了z h x - u m s 项目开发的合理性和使用价值。在分析、总结了 国外u m s 在体系结构特点的基础上,本项目组提出了z h x u m s 的3 层体系 结构,本文也较为详细的讨论了这一结构,作为对相关系统研究与开发的 基础。 作者在论文中反映的工作重点是对与t t s a s r 相关技术的研究,并 以 系 论 性能评价指标,以及该技术所使用到的语法规则:针对z h x u m s 对n s a s r 技术应用需求以及在设计中必须考虑的关键问题,结合开发实践提出了自 己的看法与体会。y 本文第4 章重点讨论了z h x - u m s 中与t t s a s r 相关模块开发问题, 较详细地介绍了模块功能的实现;第5 章进一步讨论如何以面向对象的方 法为基础对模块进行封装( 封装成a c t i v e x 控件) ,以解决模块间通信的 问题和与其他子系统间的信息交换问题。 ,z h u - u m s 的开发环境为w i n d o w sn t ,与”s a s r 有关的开发,借用 了微软公司的语音开发包m i c r o s o f ts p e e c hs d k 。 尽管目前的z h x - u m s 还只是一个试验样机系统,由于时间关系也尚未 对系统进行严格的功能和性能测试,系统本身还有待改进和优化,但该项 工作已经为后期的开发和产品化,取得了有益的经验,奠定了良好的基础。y 关键词统一消息赢雾系统:语音菝磊文本一蔷罾磊换:自动痞吾孜别关键词统一消息服务系统:语音技采;文本一语罾转换:自动语音识别 西南交通大学硕士研究生学位论文第1 i 页 a b s t r a c t t h i sd i s s e r t a t i o nd i s c u s s e si m p o r t a n ti s s u e sp e r t i n e n tt ot h eu m s ( u n i f i e dm e s s a g i n gs y s t e m ) b a s e d o nt h ee x p e r i e n c e g a i n e d i nt h ep r o j e c t o fz h x - u m s ( z h o n g h o n g x u nu n i f i e dm e s s a g i n gs y s t e m ) t h ew o r k p r e s e n t e di n t h i s d i s s e r t a t i o nr e f l e e t st h ea u t h o r si n v o i v e m e n ti nt h e d e v e l o p m e n to ft h ez h x - u m sp r o t o t y p es y s t e m ,a n dc a nb ec l a s s i f i e d i n t ot w o g r o u p s :s y s t e mt o p - d e s i g n a n ds o f t w a r e d e v e l o p m e n t a n e m p h a s i sh a sb e e ng i v e nt o t h es o f t w a r ed e v e l o p m e n t ,w h i c hd i r e c t l y r e l a t e dt w ot e c h n i q u e s :t t s ( t e x t - t o - s p e e c h ) a n da s r ( a u t os p e e c h r e c o g n i t i o n ) i nc h a p t e r2 ,ac o m p r e h e n s i v ed i s c u s s i o no nt h eu m si sp r o v i d e d , w h i c hs p a n sf r o mt h em o t i v a t i o no ft h eu m s ,i t st e e h n i c a ie v o l u t i o n , m a i nf e a t u r e so fe x i s t i n gs y s t e m ,t h r o u g hi t sa r c h i t e e t u r ea n dm a r k e t p o t e n t i a l s a s ar e s u l to ft h ed i s c u s s i o na n da n a l y s i s a t h r e e - l a y e r a r c h i t e c t u r ei sp u tf o r w a r da st h eb a s i so ft h ez h x - u m s d e v e l o p m e n t i nv i e wt h a tt h eu m si n v o i v e sb o t ht e x ta n dv o i c eo r i e n t e dt e r m i n a l s w h i l ea l lt h ei n f o m a r i o ns t o r e di nau m s 蛔i naa n 嫡e df o 珊i th a st o d e a lw i t ht h ec o n v e r s i o nb e t w e e nt h et e x tf o r m a t t e dd a h tf e 蠡e - m a i l ) a n d s p e e c h o r s e n t e dd a t aw h e n e v e r i n p u t a n d o u t p u t a r en e e d e d c o n s e q u e n t l y , as t u d yo nt e c h n i q u ea s p e c t so ft h et t sa n dt h ea s r i s a b s o l u t e l yn e c e s s a r y , a n df u n d a m e n t a bo f 粥a n da s ra r ed l s c u s s e di n c h a p t e r 3 s u c hd i s c u s s i o ni n v o i v e s w i d es p e c t r u mo f t e e h n i q u ei s s u e s s u c ha sf u n e t i o n a is t r u e t u r e sa n dc o m p o n e n t s c r i t e r i af o rp e r f o r m a n c e e s t i m a t i o n a n dt h ej m p o r i n n ti s s u e sr e l e v a n tt ot h eu m s c h a p t e r s4a n d5d e a l sw i t ht h ed e v e l o p m e n to fc o m m u n i c a t i o n s o f t w a r eb a s e do nt h et t sa n da s rt e c h n i q u e s 喇蠊伯eh e l po ft h e s p e e c hd e v e l o p m e n tt o o ik j t t h em i c r o s o f ts p e e c hs d i li nt h i sw o r k , o b j e c to r i e n t e da p p r o a c h i sa d o p t e d ,a n db a s i cm o d u l e sa t e e n e a p s u l a t e d a sa c t i v e xc o n t r o l c o m p o n e n t st o e n a b l ec o n v e n i e n tc o m m u n i c a t i o n a m o n gs u b s y s t e m s t h ew o r kp r e s e n t e di nt h i sd i s s e r t a t i o ni s m e r e l yb a s e do n- z h x - u m s p r o t o t y p es y s t e m ,a n dt h ee x p e r i m e n t s8 0f a rc a r r i e do u ta r e l i m i t e d ,n e v e r t h e l e s s ,t h ep r e l i m i n a r ym u l t sh a v es h o w nt h a tt h eb a s i c d e s i g na r ew o r k a b l ea n dw i l ls u r e l yp r o v i d ei ts o u n db a s i s 如rf u t u r e d e v e l o p m e n t 西南交通大学硕士研究生学位论文第1 i i 页 k e y w o r d u m s( u n i f i e d m e s s a g i n gs y s t e m ) ,s p e e c ht e c h n o l o g y , t t s ( t e x t - t o - s p e e c h ) ,a s r ( a u t os p e e c hr e c o g n i t i o n ) 西南交遗大学硕圭研究雏学位论文 第1 贾 第一章绪论 1 1u m s 系统及其发展概况 绕一消息服务系统( u n i f i e dm e s s a g i n gs y s t e m ,简称u m s ) ,是近年来国 内外嚣研究机构和c t i 厂商致力于开发的一种新型的消息服务系统。在现代 社会中,竞争压力的日益增长和成本的上升,正追使全球范围内的企业撬高 它们静速度和工佟散率鼓稠客声抒交遂。这意踩着努矮黢在经穗瓣捩秽强健 地点与窖户快速逶信,这戴要隶舆各笈杂豹支撑等段,必须戆够支持传真、 语音邮件和电子邮件服务的懿要。由于不同的信息交流方式所采用的信息表 达、传输、存储、转发和访问手段各不相同,用户直接使用的通信工具也各 式各样,因茈,人们不得不花钱去购买不阊的通信工兵和稚胡支持不丽遥信 王其静信惑交流自豪务。统一漶患鼹务系绞靛提出,鬟在撼供种能够支撑多 釉通信手段麴通用服务。 统一消息平螽将电话网和i n t e m e t 网结合在一起,极大地扩大了两大网 络各自的用户群,电话用户可以用电话或者传真获取i n t e m e t 上的信息,电 予由e 件服务也可戳不简限于i n t e m e t ,而对广大静电话用产开放。统一渭惠平 台为鳎户带来靛楚信患黪方便、及露,霞人们在任嚣射阕、任秘她患都缝够 获取瓣要的镶息i l j 。 1 1 1 移隧s 的定义 对予u m s ,香蘸国际上尚没有统一静标准定义。1 9 9 7 年5 秀 c h r i s b a j o r e k 褒w i n d o w sn t 杂志发表浆论文孛,给如了一个茂攀嚣概念 “艨谓 统一消息服务系统,是指所蠢的消息语裔、电子邮恃、传真、数据( 例 如文档) 都存储到一个邮箱内。出口箱中的任何消息都可i :置从桌面p c 、电 话或膝上电脑去访问。在任何地方你都能从p c 桌面或一个w e b 测蔬器来查 阕这黪消怠,如附用一条线连在鑫s 籍主的一裔显示器一样。不譬清惑酶存储 方式鲡嚣,只要纛壶你爱震簧豹瀵惠,你裁缝看裂或断到它。或考使用任舞 电话,你都能 ! f 劐你的疆啻消息,将收到蚋传真转发副离你发近传真机,甚 至你还可以选择将电子邮件消息发送到你的传真机或通过电话读出来1 1 , 2 1 。” 释开发厂商也都撤据自己的理解给出了备蠢不同但大体上一致的定义。 蕊结起来,我们胃 ;乏觚广义和狭义两个方褥来对统一潲惠服务系统避行定义。 广义豹统一港患溅务累绞是转戆够对现有的各秽遵售网络( 愈话网、 西南交通大孥硕士帮 究笺学僚论文 繁2 页 数据网络,和笼线网等) 所提供的服务进行集成,并能够为使用相同或不同 网络终端( 电话机、传真机、计算机、手机和传呼机等) 的用户闻提供倍怠 交流腋务的系统。驮这种意义上讲,广义的统一潲怠服务系统壹接提供豹摄 务中部分鼓全都霞含了现有各种鄹终鳜提供豹服务,如电话网提供的电落通 信劝熊、移动电话网提供的手机服务功能、传呼网提供的传呼功能、传真功 能和计算机网络撮供的功能等等【l ,3 i 。 为了迸一步区分统一消息服务与传统网络服务的箧另| j ,我们将用“狭义 统一清惠稚务”一溺来界定统一消惠骧务系统在传统网终提供懿辍务基破上 耨增鹃服务。舆钵来说狭义豹统一消息骚务具有以下明显的特征 1 , 3 1 : 1 与用p 使用终端无关性 传统的网络服务怒针对某种或某魑特定终端提供的服务,因而使用某种 网络服务必需通过相应的终端来获得。而统一消意服务原茭| j 主胃傻焉现裔一 种或多种终端( 耄话橇手梳、传囊辊、传呼枫和诗箕壤) 来获取服务,嚣此, 霹 ; 滋它舆备终端无关性。 2 与信息发送传输方式、襻储格式的无关性 接收统一信息服务的用户不改变原有通债工舆的使用方式即可获得岛它 希望的通信对象之间的信意交流,因褥意识不到统一清怠派务涉及多种嬲络 稻多种逶信终端,也意识不到信惠在发送、存 i 、转发与搬务过程枣传辕网 终熬多样他和服务过程中绩息掺式豹转换。因此,对使用任何通信终端的用 户,消息服务都像在使用原有服务网络时提供的服务样方使。 3 臁务信患的可重复访问性和可转发性 由于狭义统消怠服务系统实质上不是一种直接濯僚系统,舔燕一种信 息派务豹存储转换与转发鹣黢务系统,因此,服务壤塞霹搜用户耋复查谗使 用,也可以像电子邮 譬那样转发绘其他通信对象。因此,它与传统的电话网 直接通话方式不同,而更像语音信箱和电子邮件服务 4 用户欺需要使用它选捧的缝斓访问离嚣,统一鹪满意邸籍 事受统一漓意菔务的厝产霹戳不褥稚露英镌谮音信蒋和电子郏件摄务, 露只籍一种统一消息鞭务便匏享受多耪瑕努。对于基具麓其德痿艇黢务的用 户,统一消息服务也可提供与其他服务鲍无缝的联结。 5 兼具宥电话系统消息投递的蜜时憔秘鱼辛一斡系统的信息窖量犬的 特征w 。 稚件掰达靖盘舔糟短游患逶翔用户,用产可虢立鄄用毫活或其 彀方式获 取消息,这撵裁傺涯了游患豹实黻投递。同对,u 瞒燕统又是基予魄予邮件系 统的,它还具备电子郎件系统的切优点。 酱南交遴大学矮士磷究生学位论文第3 燹 1 1 。2 消息服务系统的发熳历程 统一消惠赧务系统俸为消息服务系绕,它豹发展经历7 三个阶毂分 离式消息服务、集成妓瀵息服务秘统一消息服务,其套除段浆特点剩馋系结 构分别如下,6 1 : 第一代:分离式消息服务( s e g r e g a t e dm e s s a g i n g 见图l l 分离式消息腋务系统楚撬其裔下述全部或部分功能的消怠服务,其英型 寝疆拓电话语音傣籍耪传统熬电子妻 串服务。 通过按键电话接收语音消息( 语黹信艇) 传真消息可在需要时存储和打印( 传真消息的访问需要使用专门的软件) 可用电子邮件发送文档,并使用电子邮件客户端进行访问 圈1 1 分离消息服务体系结构 第二代:以邮件为中心的分类存储管理消息服务集成式消息服务 ( i n t e g r a t e dm e s s a g i n g 见圈l 2 ) 语音消患、传真和电孑部件舔可黻通过瞧予帮俘客户端接收 不霹消息分别进行管理。除了并行豹语彰传赛骧务嚣串豹内容羚,访闼 落音雎专真消惑可缝还器要电子垂g 终数握痒中的内窖 其缺点在于灵活性有限。远程处理和访闷消息的能力需要一定的后台应 用的支持 西南交通大学硕士研究生学位论文 第4 癸 图1 - 2 集中消息服务体系结构 从圈1 1 秘图1 2 孛我嬲聪以喾出:第一、二l 弋消息服务系统款共性是消 息的分类存储,第二代优子第一代消息服务则表现在以邮 牛服务为中心,充 分发挥了电子邮件系统的优势。 从另个角度看,第三代消息服务系统已经献第一代消惠服务系统商统 一消意服务系统逡出了一大步,将物理上分离的消息服务系统交残物理上集 成灼消息服务系统。艇是,在消感豹存蟪上,仍像赛了物理上分离的痕迹。 不同类别的消息虽然在物理上被集成在同一系统中,但是各类消息的存储格 式管理仍朱实现统一,因此,还不能实现对不同通信手段的统一的消息服务。 第三代:统一消怠服务( u n i f i e dm e s s a g i n g觅圈l * 3 ) 统一消息服务系统是舆有下述特征的消息服务系统: 访闯方式的多样亿:可戳逶过电子帮件客户端( 铡如m se x c h a n g e 或 o 勰o o k ) ,奄话或w e b 淄览器对语老郯镩、健囊移魄子蝣转送褥本地窝 远程谤闽 消息存储的统一化:对消息统一篱理( 不必考虑消息类型) 群南交逶大学硕士醑究生学健论文 繁5 贾 霉1 - 3 统一溃患雕务体豢缝搀 消息服务系统驮分离服务系统发展到集成消怠服务系统褥弱统一消怠 服务系统,显示出了一释甥显豹憝势,那就是潢惠形式对用户逐濒透明。统 一消息服务的明显优点是使用筠使和能节省踺阗,其强大功能源乎其消息的 “统一性”。语音邮件、传真、电子邮件消息等都变成了“消息”,这样人们 就可以把更多的时间用于处理消息的内容和质量上,i 珂不再像以前那样,需 要在选择通信手段和设备上花费大囊觞时阉。 1 2z 舣一u m s 统一消息服务系统的背景及概貌 统一消息作为一项通信技术,在图外已经发展若干年了,特别是在美国, 正在逐步形成一块独特的市场,被越来越多的运鬻商、厂商、滕务提供商所 重视。摆布场湄醑撬鞠i d c 公司禳诗,未来数年,统一满意溅务用户将爨现 迅猛壤长,统一瀵患酆禧部署总曩将蠢望从今年的3 1 0 刀猛域至2 0 0 5 年豹 2 1 7 0 万。预计到2 0 0 3 年,统一消息发展将会进入高潮。在豫洲,韩国、马 来西甄等国家也早已开始在这方两做出积极的尝试,取得了宝贵的经验。统 一消息技术正在向世羿各遗殛伸和发震蟊”。 统一清惠时我国遂信行数尚瘸予薪概念。缀多人还没害璎解这一技术及 其应用翦爨。但近来,越来越多的国内孙大型厂囊、系绞集成巍、运营囊已 经高度关注这一技术及其应用;一些运营商和服务商已经开始提供准统一消 息服务,比如新浪、2 6 3 、2 1 c n 等网站推出的邮件到遮短消息通知便属于这 类情形:还有檄多厂裔也给自西静系统鼯上统一消惠的标签,阮鲡微软、i n t e l 、 藩南定逶大学硬士研究生学位论文第6 贾 掌上信息、3 c o m 、爱立信等。他们都看好统一消息系统的广阔应用前景, 以及该系统对疆升自身服务和价值的帮助。 串鸿讽公司黪z h x 一涨s ( z h o n g h o n g x u nu n i f i e dm e s s a g i n gs y s t e m ) 统 一消息服务系统嚣发项目迮是在这弛大的环境下孝珏裁提下提出的。该项羁是 由中鸿讯信息技术公司作为投资方和运营方,西南交通大学电子信息研究开 发中心作为研究开发方进行试验样机系统开发的一个合作项甜豳。 1 3 作者所涉及的工作 乍者肖幸参加了顽南交通大学电子信息研究中心与成都中鸿讽信息技术 公司联合开发的z h x u m s 统一消息服务系统项目的研发工作,在该项目中, 本入和该项目组冀谴成员共同进季予了以下两方面的工作: 1 z h x _ i i m s 璞目鼢需求分耩芰作 由于z h x - u m s 项爨是一个全赣豹项曩好发工撵,对予中波讽公司来讲, 他们无法也不可能提出完楚的系统需求,这就需要我们在研究大量的国外 u m s 系统的基础之上,提出合理的系统需求,为精续开发工作的顺利进行奠 定鏊础。这就是我f j 项蟊缀所进行的第一步z 作。 2 。z h x - u m s 系统的体系终撺设计工终 程完成了系统霭求分拆工作之屡,我钢投据歇考察到的嗣内岁 各拳申u 烬 系统的结构特点,提出了适合我们z h x - u m s 系统的三层环状体系绥构,作为 系统开发的依据。 伟者在戳士舔方瑟工作中着重考察了d i a l o g i c 公司鹩u 醅s 系统的系列产 是,对该公司的系列语音卡、c t m e d i a 软传嚣发平台、以及箕t 孺l s 体系绻麴 和硬件物理配置避行了综会分板。为整个系统的体系结构设诗提供了一套参 考方案。 除此乏外,佯者在该项羁中,还重点进行了下面两个方蔼的研究工作: 1 z h x - l i n s 系统审语童技术盼研究 诱啻技术是z h x - t i s 系统残其失协l s 系统豹关键之一。当今帮场上鸯多 种语音技术提供,必须在对它们进行综会分攒静研究的基础上,提出了适合 本项目开发的语音技术 2 z h x - u m s 系统牵语酱模块黉奄并发 在完成7 上述冬方瑟豹工捧之磊,俸者健耀所选撵静语音技术,完成7 z h x - u 搪s 撵机系统语啻弼关中n s a s r 语誊横块黪嚣发。;是上这掰帮分王作 就是本文要讨论的主要内容。 西南交通大学硕士研究生学位论文第7 页 1 4 本文结构 本文从结构上讲分为六章。第一章是绪论部分,从统一消息服务系统的 定义、发展历程以及国内外统一消息服务系统的发展现状进行了综合详细介 绍。并结合作者所参加的项目经验体会和市场前景背景,探讨了统一消息服 务系统项目研究的必要性。 第二章通过对u m s 系统中所需要使用的语音技术的讨论,引出t t s a s r 语音技术的基本结构和功能特点,并对在z h x u m s 中t t s a s r 需要处理的关 键技术以及该技术的发展概况进行了说明。 第三章是具体应用方案的设计。讨论了z h x u m s 的体系结构及层次的划 分,并对t t s a s r 技术在z h x - u m s 中的主要应用环境语音网关的体系结构以 及程序处理流程进行了分析。并从t t s a s r 模块的功能结构入手,给出了u m s 系统中t t s a s r 的体系结构方案。另外还对具体的软件开发环境- - m i c r o s o f t s p e e c hs d k 的情况进行了叙述。 第四章是t t s a s r 应用方案在z h x u m s 中的具体实现部分。讨论了 t t s a s r 模块的语音处理和通信接口两方面的内容,并通过对应用具体编程 来最终实现模块的功能以及模块间的调用,完成应用程序的设计。 第五章是对z h x - u m s 系统模块之间的通信和如何建立t t s a s r 模块的 a c t i v e x 控件进行了讨论和说明。 最后一部分是结论与展望,对z h x - u m s 系统开发的工作进行了总结,并 对今后有待于进一步完善和改进的工作进行了讨论。 嚣索交遴大学硪_ 磷窕生掌位谂文筹8 焚 第二章z h x - u m s 中的关键语音技术 t s 从s r t t s ( t t s ,t e x t t o s p e e c h ) 和a s r ( a s r ,a u t os p e e c hr e c o g n i t i o n ) 技 术作为现代计算机语音技术的代表,已经有相当长的发展历史,当前市场上 醋经滋现了许多与之稽关的产品。并藏随着计算视网络语音技术静飞速发展, 其应蠲毒萋景委变褥越来越广蠲。在本章串我 】主要讨论z 疆u 黔串瘦鼹鲻麴 t t s 秘a s r 技术。 语音技术在u m s 中占有重鬻的位置。根据系统的不同需要,可以相应 采用不同的语音技术f 7 ,醣o j i j m 。这蛰语音技术主要裔以下几种: 语音存储技术:耀于解决耀声豹语音女佟信恚或者系统语音信藉中谬音 镶息浆存健翘题。u m s 系统豹重要特点之一游息存髅统一化便爨要遁过采用 语音存储技术来解决1 4 l q ”】。 交互斌语音应答( 心i n m r a c f i v ev o i c er e c o g n i t i o n ) :姥统一消息服务 系统的用户界面乏一。统一消息黻务系统是一个疆向多种蒂户通信设备的淆 惑服务系统,宅龛洚羯户遴过毫话遘行系统设置,系统霹激遵过语裔梭攥躅 户的不网爨求来指导用户正确进纷操作l l 羽。 文本语音转换技术( t t 8 ) :是指将文本p q 容转换成语音信息,使用户在 不方便阅读的时候也能够获得所需要的信息。在u m s 中的语音转换则主要 是指将文本格式( t x t 格式) 盼宅子都件内容转换成语音格式( w a y 、v o x 格 式) 瓣语啻文传,其实爱是瀑啻会残处褒。 爨动语音识别技术( a s r ) :在u m s 中使用该技术爨动识别用户的语音 指令,并根据用户指令进行相应的操作。在u m s 申。a s rj 飘过与r 系统 的有机结合,可以构成一个系统和用户闻的良好的接口。语啬识猁技术的应 用箭豢广阔,毽存在大量豹技术雅点,舀耨隧来避入实用除敬。在z h x - u m s 中,a s r 只是终为一个辘助功缝提供绘用户,也是出予这个愿因。 2 1t t s 技术 r r s 技术,又称文语( 文字语音) 转换技术,它的英文全称是t e x t - t o - s p e e c h ,宅将计算橇鑫芒i 产垒翡、或外舔输入韵文字信恚转变隽霹馘瞬褥懂 的、滚剥豹宴然避害潺者输出,其核心技寒是溪蠹食成技术。它涉及声学、 语畜学、数字信穆处理技术、多媒体技术簿多个学科技术,是信息处理领域 的一项前沿技术。其_ 陂用范围还非常广泛,如文本的有声校对,报纸和嘲页 的梳耱阅读,机器翻译等l h j 哪。禚z t t x - u m s 中对r r s 的使糟,主要是丽来 将毫孚垂s 俘懿文本信惠转换戏语畿信号。 西南交通大学硕士研究生学位论文第9 页 2 1 1t t s 技术的分类 语音合成技术是t t s 技术的核心,根据语音合成方法的不同,可以将 t t s 技术划分为不同的类型。通常采用的语音合成方法有波形合成法、参数 合成法和规则合成法三种类型: 1 6 , 1 7 , 1 8 , 1 9 1 波形合成法 波形合成是最简单的语音合成方法。它通过把人的语音波形直接存储起 来或者进行波形编码之后进行存储,在需要时再进行编辑组合输出。这种合 成方法是目前合成效果较好的一种方法,但是灵活性较差。 2 参数合成法 参数合成法又称为分析合成法,相对波形合成法而言则更为复杂。采用 参数合成法必须首先对语音信号进行分析,提取语音的共振峰参数,再利用 共振峰合成器生成语音。其参数合成用人工控制,在抽取参数或编码的过程 中也难免存在逼近误差,也导致了语音合成质量则比波形合成法差。 3 规则合成法 规则合成法通过语音学规则产生语音,是一种高级的语音合成方法。合 成的词汇表不事先确定,系统中只需要存储最小的语音单位( 音素或音节) 的声学参数,以及各种规则( 如由音素组成音节的规则、由音节组成单词的 规则、由单词组成句子的规则等) 。在需要时系统根据上述各种规则和声学 参数将需要转换的文本合成为连续的声波。这种方法占用的存储窆间比参数 合成法还要小,但是音质的保证也比参数合成法更为困难表2 - 1 给出了三 种合成方法的特征比较情况。 表2 1 三种r r s 语音合成方法特征比较表 波形合成法参数合成法规则合成法 基本合成要素波形特筏参数语亩的符号组合 语音质可值度高高 由 量自然度高 由 低 词汇量少( 5 0 0 字以下)大( 效千字)无限 1 m b i t s 可合成的1 5 4 0 秒7 0 - - 1 0 0 秒无限 语音长度 合成单元词组、句子、音词组、句子、音音素、音节 节苗 实现难易简单比较复杂复杂 西南交通大学硕士研究生学位论文 第1 0 页 t t s 技术只是语音合成技术应用的一个方面,也可以说是最基础的应用。 按照人类言语功能的不同来划分,语音合成可分成三个层次:( 1 ) 从文字到 语音的合成( t e x t t o s p e e c h ) ;( 2 ) 从概念到语音的合成( c o n c e p t - t o - s p e e c h ) ; ( 3 ) 从意向到语音的合成( i n t e n t i o n - t o s p e e c h ) 。这三个层次反映了人类 大脑中形成说话内容的不同过程,涉及人类大脑的高级神经活动。在语音合 成的三个层次中,t t s 技术属于其最初级的层次。不难想象,即使是按规则 的文字到语音合成( 文语合成) 也已经是相当困难的任务。为了合成出高质 量的语言,除了依赖于各种规则,包括语义学规则、词汇规则、语音学规则 外,还必须对文字的内容有很好的理解,这将涉及自然语言理解的问题。从 这一点讲,复杂的文本语音转换系统实际上也可看作一个人工智能系统。 2 1 2t t s 技术的基本要素 t t s 技术提供将书面文本转换成话音的功能。在创建和制定t t s 引擎的 规则时必须涉及到下面四个方面的问题 1 4 , 1 6 , 1 9 , 2 0 : 音索( p h o n e m e s ) 话音质量( v o i c eq u a l i t y ) t t s 合成( t r s s y n t h e s i s ) t t s 双音连结( t t s d i p h o n e c o n c a t e n a t i o n ) 前面两个问题讨论的如何生成人类可识别的语音。后面两个问题是关于 将要转换成语音的文本的解释方面的问题。 1 话音质量 计算机话音的质量直接与将文本识别和转换成语音信号的规则的复杂度 有关。要创建一个能生成可识别话音的r r s 引擎并不难但是,要创建一个 能发出听起来有真人感声音的t t s 引擎却相当困难。其难点主要在以下三个 方面: 韵律( p r o s o d y ) 情感( e m o t i o n ) 不规则发音( p r o m m c i a t i o na n o m a l i e s ) 人类的语言有一种特殊的韵律一停顿模式、变音、重读,这是语言的完 整组成部分之一。虽然计算机对于单个单词的发音很好,但是要糖确地模仿 人类语音的音调和韵律停顿却很困难。由于这个原因,很容易区分出是计算 机生成的语音还是录音回放。 另一个计算机难以模仿的因素是语言豹情感虽然t t s 引擎能够区别陈 述旬、感叹句和疑问旬,但是在将文本转换成话音时,却还是无法可靠地传 达感情色彩。 西南交通大学硕士研究生学位论文第1 1 页 最后,每种人类语言都有不规则的发音,这些词在转换成语音时是不“合 规定”的。在汉语中的“儿”化音便是这样的典型例子。更可能导致问题的 还有在文中插入象“s q l ”、“m a p i ”和“s a p i ”这样的专业缩写词汇。 所有这些因素都使开发能生成人类语音的系统变得更加困难。 2 音素 众所周知,音素是组成单词的声音部分。语言学使用音素来准确地记录 人们说话时声音。音素同样也可以用来生成计算机语音。t t s 引擎就是使用 语法规则和音素的知识来扫描文本并生成要输出的语音的。 3 t t s 合成 当t t s 知道使用哪个音素来再现单词后,有两种可能的方法来生成要输 出的语音:合成或双音连结。 合成方法通过计算人的嘴唇和舌头的位置,呼吸的强度和其他因素来合 成人类的语音。这种方法通常不如双音连结方法精确,但是,如果t t s 使用 合成的方法生成语音,很容易通过更改几个参数来生成一种新的“声音”。 4 t t s 双音连结 双音连结方法主要用在英语的语音合成中,它通过成对的音素来生成每 一条语音。然而由于汉语发音与英语不同,它是以字为单位的,因此,双音 连结不太适用于汉语,在此不再赘述。 2 1 3t t s 技术的性能指标 t t s 系统的基本性能指标包括:可懂度、清晰度、自然度、汉字转拼音 正确率( 分词正确率) 。考虑到实际应用,还有系统的数字、姓氏、特殊符号 等方面的处理能力、跨平台处理能力以及语音合成的速度( 指单位时间内, 通过语音合成系统生成语音的音节数,或语音合成同时支持的并发请求个数) 等1 9 , 1 8 , 1 9 ,2 0 2 1 ,2 2 ,2 3 甜】。 在z h x u m s 中的t t s 系统除了满足以上的要求以外,还有下面的独特 要求。 适时性:由于z h x u m s 系统中的t t s 应用属于在线语音合成,对合 成的适时性要求非常高。因此,系统应该具有较高的运算速度,以保证用户 对适时性的要求。 并发性:z m 0 u m s 是一个多用户的系统,根据系统使用情况的不同, 在高峰时间,可能同时会面对数十个或者上酉个用户要使系统减少阻塞情 况的出现,必须考虑到多任务并发。 可扩展性:随着计算机技术的发展,计算机应用领域的不断拓宽,对系 统必然会提出各种新的要求,因此t t s 系统也必须具备可扩展性,以适应这 西南交通大学硕士研究生学位论文 第1 2 页 种不断发展的需要。 可靠性:既利用系统进程间的独立性提高整个系统的可靠性,又利用多 线程编程提高系统资源的利用率。在系统中,根据各设备的不同功能和重要 程度,分别采用冗余容错等技术,确保系统的长期稳定运行。 2 1 4t t s 技术当前的发展概况 语音技术是世界强国竞相研究的热点之一,目前世界上已研究出多种语 言的t t s 系统,如汉、英、法、日、德等,b e l l 实验室、a t r 和s i m e n s 公 司已研制出多语种t t s 系统,法国c n e t 实现的多语种t t s 已用于电话网 中的公共话音服务 2 , 5 , 1 1 , 1 5 16 】。国内一些科研单位诸如清华大学、中国科技大 学、中科院声学所等也对汉语文语转换系统( t t s ) 进行了大量的研究,并 且取得了很好的成绩。 2 0 世纪6 0 年代,英语t t s 系统首先被研制成功。我国则从8 0 年代开 始介入汉语语音合成领域的研究。近年来,在国家8 6 3 计划,国家自然科学 基金委,国家攻关计划,中国科学院有关项目等支持下,t t s 系统的研究取 得了令人举目的进展,其中不乏成功的例子:如中国科学院声学历的 k x p s o l a ( 1 9 9 3 ) ,联想佳音( 1 9 9 5 ) ;清华大学的t hs p e e c h ( 1 9 9 3 ) ; 中国科技大学的k d t a l k ( 1 9 9 5 ) 等系统 i , 7 , 1 3 , 2 6 。 表2 2 、t t s 系统的分类 分类依据类型技术特点 特定应用的语音输出系 统:语音报时、航班信息语音映射和简单拼接 发布等 面向应用 文本- 语首转抉系筑 ( t t s ) :u m s 、文本的有语音映射、文字理解、韵 声校对,报纸和羁页的机律处理等 器阅读,机器翻译等 基于规则的合成 计算参数的轨迹,形成规 则,完成淆膏的参数合成 合成技术 资萤语罾的纂霾,食成时 拼接语音合成读取基元、拼按、韵律修 饰 t t s 系统从无到有,各国专家学者们曾先后开发出过多种形式的t t s 系 统。可以根据其面向的应用需求和采用的合成技术来对其进行分类如表2 2 。 西南交通大学硕士研究生学位论文第1 3 页 2 1 5t t s 的基本结构 图2 - 1t t s 系统的基本结构图 一个典型的t t s 系统的基本结构如图2 - 1 所示,它一般包括文本获得、 语言处理、韵律处理、语音合成、结果输出几个阶段。而从t t s 技术本身则 主要包括语言学处理、韵律处理、语音合成三个阶段,同时还包括词典规则 库以及语音库的建立方面的问题【1 4 , 1 6 , 1 9 , 2 0 2 1 ,2 2 嚣堋。下面分别对这些问题进行 讨论。 1 语言学处理 语言学处理在w s 系统中起着重要的作用,它主要是模拟人对自然语言 的理解过程,使计算机对输入的文本能完全理解并给出后两部分所需要的各 种发音提示。完成此项处理一般包括文本归整、词的切分、语法分析和语意 分析几个步骤: 文本规整:将文本中的数字串、缩略语、外来语、及各种符号等转换成 相应的读音并根据标点符号将句子划分为小段。 词的切分:此步骤直接影响合成语音的自然度,其主要功能悬区分文本 中词的边界词的切分通常采用“从左到右量大珏酝”方法,对于可能产生 歧义切分的地方进行专门的处理如对“出差错过机会”进行分词时,“出 差”是个词,“差错”是个词,“错过”也是一个词,在第一次切分时将他 们切分成一个整体,即“出差错过”,然后对该整体从后向前进行最大匹配 西南交通大学硕士研究生学位论文 第1 4 页 分词,首先分出“错过”,剩下的“出差”也是一个词,经过这样处理,大 多数的歧义切分可得到正确处理。 语法分析和语意分析:分析文本中每个句子的语法结构和语义结构,确 定语意中心,句子的重音模式,从而为韵律处理提供必要信息,同时确定汉 语多音字的发音。 2 韵律处理 韵律处理为合成语音规划出音段特征,如音高、音长和音强等,使合成 语音能够以类似人类的语言方式来正确地表达语意,使其听起来显得更加自 然。 3 语音合成 语音合成过程通常也称为声学处理过程。语音合成过程主要是利用语言 学处理和韵律处理所得到的结果,并调用语音库的语音素材,生成出符合要 求的输出语音的一个过程。 4 词典规则 词典规则是t t s 系统进行语音合成所依据的规则。计算机为了对文本进 行准确的分析处理,要用语言学知识和语音学知识。因为在汉语中,词或词 组在句子中占有很重要的地位,它们是句子中的主要语义单位,而且具有较 为固定的形式和读音。自动分词、多音字判定、声调判定、轻音判定等在文 本分析中较难处理的问题可以利用多知识源分层次进行解决在文本处理中, 需要用到了多种知识库的内容和结构,这就是词典的作用。一般包括有系统 词库、特征词库、多音字库、标准词库以及变调规则库等嘲。 5 语音库 语音库也叫做语料库,它是采用波形合成法的t t s 技术所需要的音素 库。t t s 合成的语音的自然程度就取决于语音库建设得完善与否。一般需要 在语音库中包含尽可能多的语音现象,并建立一个有效的数据库管理系统来 对它进行管理。 2 1 6z h x - u m s 中t t s 需解决的关键技术 t t s 技术要在现实中得到广泛的应用,必须解决一些关键的技术。这些 关键技术有文本的任意合成、在线语音合成、自然语调合成、“集群式并发” 处理以及多语种混合处理等而在z h x u m s 中,考虑到文本的合成主要用 于处理邮件信息和其他一些固定内容的文本,我们主要考虑在线语音合成、 “集群式并发”处理和多语种混合处理等方霹的技术潮2 s j 捌。 西南交通大学硕士研究生学位论文第 1 5 页 1 在线语音合成 在最初的消息系统提供的声讯服务模式中,一般是事先把文本合成为语 音存放到服务器中,需要时再播放给用户。这样的做法,其更新速度及工作 量都不能满足要求。因此。t t s 技术必须能够做到语音的在线合成,即当用 户向u m s 发出信息请求时,语音服务器迅速做出分析判断,并从内容数据 库中提取相应文本,然后发送给语音合成服务器进行t t s 转换。语音服务器 边合成边回传i v r 系统,进而再传送给用户。在线语音合成的整个的合成过 程是在用户收听的同时进行的,不能有明显的延迟,也不能在播放的过程中 停顿,这就要求订s 技术有相当的稳定性以及非常快的合成速度。 2 “集群式并发”处理 众所周知,声讯服务的用户数量是相当巨大的,当大量的用户同时向声 讯服务器发出信息请求时,我们称之为“集群式并发”。在z h x - u m s 这样 的同时需要满足大量用户访问的要求的系统,“集群式并发”处理是必不可 少的。 3 多语种混合处理 随着国民基本素质和教育水平的提高,人们在日常生活中出现了很多外 来词汇( 尤其是英语) ,在各种科技文章或报道中的新技术新词汇更是层出 不穷,不可能也没有必要将所有的词汇都翻译成汉语因此,t t s 技术如何 解决多语种混合处理也成为了一项必须解决的关键技术 在z h x u m s 中,正确运用上面各项技术是使系统能获得一个友善的面 向用户的界面的必不可少的环节。具体处理详见第四章。 2 2a s r 技术 a s r 技术,又称为自动语音识别技术,它的英文全名为a u t o m a t i cs p e e c h r e c o g n i t i o n 。语音识别是- - 1 7 新兴学科,所涉及的领域包撬信号处理、模式 识别、概率论和信息论、发声机理和听觉机理、人王智能等等,它作为一门 高新技术而受到了世界各国的普追重视。a s r 技术通过对输入到计算机中的 人类语音信号进行处理和识别,还原成为说话入的原意,这样就可以根据其 原意执行

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论