(计算机科学与技术专业论文)基于voicexml的语音业务平台的设计与实现.pdf_第1页
(计算机科学与技术专业论文)基于voicexml的语音业务平台的设计与实现.pdf_第2页
(计算机科学与技术专业论文)基于voicexml的语音业务平台的设计与实现.pdf_第3页
(计算机科学与技术专业论文)基于voicexml的语音业务平台的设计与实现.pdf_第4页
(计算机科学与技术专业论文)基于voicexml的语音业务平台的设计与实现.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

(计算机科学与技术专业论文)基于voicexml的语音业务平台的设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于v o i c e ) 【池的语音业务平台的设计与实现 摘要 随着互联网的飞速发展,语音业务在生活中的应用越来越广泛。 但是原有的语音业务开发流程存在着开发速度慢,修改复杂等问题。 2 0 0 0 年,w 3 c 发布了v o i c e x m l1 0 标准,v o i c e ) ( 1 l 是一种基于 、e b 的标记语言,用来描述人与计算机进行语音对话的过程,同时该 标记语言可以用来描述语音业务。通过解释执行v o i c e x m l 文档完成 业务的使用成为开发语音业务的新思路,它不仅将程序员从繁重的开 发任务中解脱出来,而且加快了新业务的开发速度。 本文在分析了语音识别、语音合成等技术的基础上,完成了基于 v o i c e x m l 的语音业务平台的原型系统设计并对系统结构,设计思想 进行了详细介绍。本系统分为硬件平台,v o i c e x m l 解释器和文档服 务器三个部分同时集成了t t s 服务器。语音识别部分由于资源有限, 暂时由d t m f 代替。在文章的最后分析了系统的不足,并指出了下 一步改进的方向。 关键词:v o i c e 订l 、语音合成、语音识别、语音业务 i i l 北京邮电大学硕士论文 基于v o i x m l 的语音业务平台的设计与实现 d e s i g na n di m p l e m e n t a t i o no fv o i c e s e r v i c e sp l a t f o l 己mb a s e do nv o i c e x m l a b s t r a c t w n ht h eq u i c u yd e v e i o p h m n to fi n t e m 鸭v o i c es e r v i c 髑w e r eu s e dw i d e i y i no u r 喇f e b l l tt h e na r e 墨o m ep r o b l e m sw i t hv o i s e r “c e sd e v e l o p m e n t s u c ha 摹 s k wd e v e i 叩s p e e d ,d 蝴c u nt oc h a n g e ,a n ds oo n 2 0 0 0 w 3 c 弛i e a s e d 恤e v o i c e ) l 1 0e d i t i o n v o i c 删li sa 脚r k u pi 蛆g u a g eb a s e do nt l i ew e b n d e s c r i b em ep r o c e s so fv o i c ed i a l o g u eb e t w e e np e o p i ea n dc o m p u t e r m e a n w h i 峙 恤i s 啪r k 叩l 粕g 1 a g ec 粕b eu s e dt od e s c r i b ev o i c es e r v i c 稍t h e r e 缸an e w 埘e a t om m ev o i c es e r v i c e sb y 旺p l a i na n de x e c u t et h en l e v a n tv o i c e x m lm e s n n o to n i yc 柚f r e ep r o g r a 籼e r sf r o mt h eh e a v yp r o g r a m m i n g b u ta l s oq u i c kt h e n e wv o i c es er 1 一c e sd e v e l o p t h i st h e s i si m p l e m e n t e dap r o t o t ) r p es y s t e mb a s e do n 蛐a l y z et h ek e y t e c h n o l o 斟o ft e x tt os p e e c h ( t t s ) 蛐da u t o m a t e ds p c hr e c o 鲷i 咖n ( a s r ) i na d d i 廿o n ,恤et h e s i sd e e p i yi n t r o d u c e dt h es t n i c t i i r eo ft h es y s t e ma n dt h e d e s i g m e o i o 科t h ep m t o t y p es y s t e mc 粕b e 棚v i d e di n t ot h r 卵p a r i s :h a r d w a n p l a 怕m ,v o i c e x m li n t e r p r e t e ra n dd o c u m 吼ts e r v e r t h i ss y s t e mh a v em a i i z e d t h et t ss e r v i c e ,b u tf o ri a c ko fr e s o u r c ea s rs e r l 一c ew e r en p l a c e db yd t m f a tt h e 蛐do f 恤ep a p e r s o m e 娃p e r i e n i nt h ed e v e l o p m e n ta n dt h eu p g r a d i n g p l a n n i n go f 恤es y s t e mi sl od e s c r i b e k e yw o r d s :v o i c e x m l 、t t s 、a s r 、v o i c es e r v i c 鹤 北京邮电大学硕上论文 基于v 研l 的语音业务平吾的设计与实现 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:逝王盈日期:丝:! :! 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期问论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印,缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授 本人签名:监士亚同期: 导师签名:_ ! 午_ ? 头_ 一 日期: 囝北京邮电大学硕士论文基于v o i x m l 的语音业务平台的设计与实现 1 1 背景 第一章绪论 近年来,h n e n l e t 取得了飞速的发展并越来越多地渗透到人类生产生活的各 个方面。在极大地提高全社会运作效率的同时,其自身也在使用成本、可用性、 易操作性等方面不断进步。目前,互联网为用户提供了丰富多彩的个性化服务、 交互式服务,而电子商务的发展使企业与企业之间、企业与用户之间的沟通更为 密切、更为深入。在信息获取手段上,电话、传真、计算机、p d a 等各种多媒 体信息终端竞相崭露头角,人们接受信息的方式已多种多样。然而,由于地区的 差异和经济水平的限制,我国上网的企业和个人半数以上分布于沿海发达城市, 对于大多数普通百姓而言,计算机应用水平仍然很低,主动使用计算机上网获取 信息的意识还很薄弱,更有待加强。因此,让互联网给寻常百姓带来便利的信息 服务就存在着各种各样的障碍。而公用电话网( p s t n ) 经过这些年的发展,电 话终端的普及率已经达到了相当高的程度。鉴于上述原因,专家提出了将互联网 与电话网融合起来,利用语音输入的便捷性,通过友好的语音交互方式直接获取 信息和服务,使任何人可以在任何地点,通过电话用语言访问i n t c 订l e t 的内容或 进行电子商务活动。 语音业务不仅方便了我们的生活,而且为开发商带来了可观的收益。传统的 语音业务开发是将业务流程与具体操作联系在一起的,其开发过程如下: 1 根据具体业务需求定义业务流程。 2 根据流程的特点划分各个状态。 3 定义各状态之间的事件驱动方式,形成完整的状态流程。 4 根据具体的状态图进行程序编写,完成各个状态的底层操作。 传统的语音业务开发方式存在着开发周期长,开发成本高,系统灵活性差的 缺点。这是因为: 1 从开发过程分析:业务流程实现与底层的资源控制没有分开,每个语音 业务的开发都涉及到对大量底层资源的控制,因此,业务开发的程序量和开 发难度都比较大。 2 从业务修改角度分析:由于业务流程是固定的,业务流程的细微变化就 必须对整个系统的状态机进行修改,程序改造升级非常繁琐,它越来越不能 适应多变的实际需求。因此,如何实现业务流程的灵活配置和方便扩充就显 得尤为重要。 i b m 、l u c e n t 、m o t o r o l a 、a t & t 四家公司于1 9 9 9 年提出了一种应用于语 音浏览的标记语言v o i 洲l o i c ee x 僦l s i b l em a r k u pl a n g i l a g e ) 规范。该规范 建立在x m l ( e x t 饥s i b l em a r k u pl a n g 眦g e ) 规范的基础之上。v o i c e x m l 的设 计目的是实现类似于h m l 的人机对话。h t m l 是通过图形浏览器并且使用显 示终端、键盘、鼠标等设备来实现人机的交流,而v b i c 积m l 则是通过语音浏 览器,使用语音输出( 计算机语音合成或播放预先录制的数字语音) 和语音输入 ( 人们的语音或d t m 暇按键音) 来实现更人性化的人机会话。从某种意义上说, 它是一种语音数据交换标准。它可以与数据库、h t m l 、w m l 以及其他文档处 理和发布系统进行无缝数据交换,从而突破性的实现互联网与电话网的融合。 v o i c e x m l 的提出,也为语音业务的实现提供了新的思路,即将具体业务和资源 控制分开,具体的语音业务用v o i c e x m l 文档表示出来,资源控制则由统一的 平台实现。通过对v o i c e “l 文档的解释,根据解析结果操作资源控制平台就 可完成语音业务。因此,一旦建立起v o i c e l 的执行平台,开发人员在编写 新的语音业务时,只需设计出针对该业务的v o i c e 以l 文档,执行平台负责处 理底层的所有操作。这种开发模式将开发人员从最低级的编程和资源处理工作中 解放出来。不仅加快了新业务的开发速度、降低了开发难度,而且使业务流程的 修改变得更为简单。 1 2 国内外研究现状 1 2 1v o i c e x 札标准的发展状况 v ,t i w 3 c 接受v o k e x m l l 糟糕准 图卜lv o i c e 脚l 标准发展图 图1 1 表示了v o i c e “l 标准的发展历程。1 9 9 9 年3 月,m o t o r o l a 、l u c e m 、 a t & t 和i b m四家公司联合发起成立了v o i c e x m l 论坛 ( 蛳;垃酆丛! q i 墨盥! :q 型) ,目的在于为电话和移动设备提供一种便捷的访问 i i l t 黜e t 网络,获取服务和信息的手段。2 0 0 0 年3 月,v o i c e x m l 论坛发布了 2 北京邮电大学硕士论文基于、,o i 优x m l 的语音业务平台的设计与实现 v o i c c ) ( m l l 0 标准。5 月,w 3 c 接受了v o i c e x m l l o 。随后,w 3 c 于2 0 0 4 年3 月1 7 日通过了v o i c e x m l 2 o 标准。2 0 0 5 年1 2 月7 日,w 3 c 表示,它将起草 i c e x m l 3 o 标准的草案。新的i c e v i l 标准将包含针对说话者认证的标准。 v o i ) 。d l 通常被用于通过语音而非键盘发出命令,许多企业都利用这一技术, 通过将一些业务过程自动化、减少员工数量而增加利润。但是,用户和企业正在 越来越担心这些过程的安全。i c e x m l 论坛主席里霍在一份声明中说,说话者 认证和认别不仅仅是保护电话交易和通讯的最佳生物学检测技术,它还能够在 v o i c e “l 中与语音识别和语音合成无缝整合。w 3 c 语音浏览器工作组的联合主 席表示,w 3 c 已经完成了v o i c e l 3 0 的必要条件。除了v o i c e x m l 3 o 的说话 者识别要求外,w 3 c 还解决了将其“语音合成标记语言”( s s m l ) 功能扩展到 包括日语、朝鲜语在内的一些语言。 目前,由于v o i c e 讧l 技术和语音技术的快速发展,国内外共有1 5 0 多家公 司支持v o i c e 订l ,m o t o r o l a 、l u c e n t 等公司已开发出了基于v o i c e x m l 的产品。 语音技术不但让那些由于环境或生理限制无法使用图形化浏览器的人得以访问 w 曲,也为所有的用户提供了更为便捷的w 曲访问功能。 1 2 2 主要产品介绍 i b m :m m 主要开发了a i c e 和v o i x m l 的服务区,以及v o i c e x m l 的开发包,从而能与w 曲s p h e r e 结合,实现计算机网络与电话的完美结合。但是 该服务器只支持英语,法语和德语。 m o t o r 0 1 a :m o t o r o l a 也有自己的v o i c e x m l 网关和v o i c e v i l 的开发包,但 是也不支持中文。 n u a i l c e :n u a n c e 是一个专门开发语音的厂商。他有开发的框架和构架 v o i c 白m l 的一整套工具。其中包括v o i c ew 曲s e r v 盯,v - b u j l d e r ( 开发v o i c 积m l 的可视化工具) ,s e c u r e v 舐f i e r 。尤其是他对超过2 0 种语言( 包括中文和广东话) 的支持及其优良的稳定性赢得了很多市场份额。 1 3 本文的主要工作 本文的主要工作是在对语音识别、语音合成等关键技术进行分析的基础之上 完成一个基于、,o i c e x m l 的语音业务平台系统,并且对其进行相关的测试和优 化。本文的主要工作如下: 1 熟悉i c c v i l 标准,研究其应用的体系模型。 2 研究语音识别、语音合成、文档解析等相关技术。 。北京邮电大学硕士论文 基于v o i x m l 的语音业务平台的设计与实现 3 设计语音业务平台的系统结构,并对各个模块进行划分。 4 选用相关硬件,进行具体模块的详细设计。 5 完成编码工作,进行系统测试。 1 4 本文的组织 本文首先介绍了语音业务的发展状态,分析了原有语音业务开发流程的缺 点,并结合v o i c e “l 的特点介绍了基于v o i c e x m l 的语音业务开发平台。 第二章介绍了v o i c c 讧l 的基本概念及相关应用模型。 第三章分析了与v o i c e x m l 相关的关键技术,包括a s r 和t t s 等。 第四章详细介绍了平台的实现方案、模块设计以及模块问的交互过程等。 第五章详细介绍了平台的实现过程。 第六章介绍了一个具体的语音业务在平台中的使用过程及测试。 第七章进行了全文总结和展望。 1 5 本章小结 本章主要介绍了原有的开发语音业务的方法,分析了其中的不足,并且引入 了i c c x m l 语言的介绍。在本章的第二小节介绍了关于v o i c e x m l 标准发展历 程和国内外研究状况以及相关的产品介绍。最后简要介绍了本文的组织结构。 4 2 1v o i c e x 札简介 第二章v o i c e x m l 介绍 v o i c c x m l 是一种应用于语音互联的标记语言,它建立于) ( 】l 标记语言规 范的基础之上,是交互语音应用的核心。v o i c e x m l 确定为通过话音和电话使用 i n t 黜e t 内容的标准,用v o i c e x m l 解释程序取代h 1 m l 解释程序,以及用人的 语音取代鼠标和键盘等。 v o i c c x m l 定义了一系列的语音应用概念,元素及其对应的操作。v o i c e ) 叫l 以嘞l 文档的形式在实际应用系统中存在,珊l 文档由符合v o i c c x m l 规范的 解析器来解析。解析器通过建立应用( a p p l i c a t i o n ) 和会话( s e s s i o n ) ,获取包含控 制命令的文档,根据文档中的标志建立对话。从而解释各个对话,控制语音识别、 语音合成引擎以及语音通道的触发、开启和关闭、挂起等,实现与用户的会话式 的交互,并根据对用户反应的识别结果进行导向判断,进行文档之间的转移和应 用之问的转移。 2 1v o i c e x 札的特点 v - o i c 洲l 的特点如下: 1 v o i c e 饵l 通过每一文件里指定的多重的交互作用,最小化客户机服务器 之间的交互工作。 2 实现应用开发者与低层的软件及系统平台上的软、硬件细节无关。 3 将用户交互作用的代码从业务逻辑中分离出来。 4 能跨越不同的执行平台,促进服务的可移植性。对于内容服务商、工具 提供商和平台提供商来说,v o i c e x m l 是一个公共语言。 5 非常容易用于简单的( 人机) 交互,要求所提供的语音界面能支持复杂 的对话。 2 1 2v o i c e x 札的优点 灵活性 基于、b i c c x m l 的应用有着空前的灵活性。在v o i c e x m l 语音浏览器上开 发语音应用,如同开发w 曲应用一样轻松简单。只需要有对x m l 的知识,就 可以开发v o i c e “l 应用。基于v o i c e x m l 的语音应用系统可以很好的和其它 5 囝北京邮电大学硕士论文 基于v o i x m l 的语音业务平台的设计与实现 已有的w 曲应用系统或数据应用系统良好的结合。开发v o i c e “l 语音应用, 无须复杂的c c + + 等编程语言,无须专门的编程工具,基于订l 脚本描述,和 w e b 应用开发一样简单;利用j a v a s 谢p t 、a s p 、p e r l 等描述性语言与v o i c e “l 的结合,可以建立功能强大的网络应用系统。 重用性 现在的大企业一般都为用户提供了网站服务和呼叫中心服务,v o i c 积m l 重 用了i n t e m e t 基本结构和i v r 系统的资源,是对原有系统的综合,使得原有的资 源充分利用。基于v o i c e “l 的应用与传统i n t e m c t 应用系统的轻松集成,语音 网页取代了传统的c t i 流程机制,跨越各种操作系统平台的应用开发。应用模 块和语法模块可轻松定制和重用。 开放性 v o i c e “l 是v o i c 积m l 论坛提出的标准,现在已经被w 3 c 组织接受,得 到了众多企业的支持,所以只要是符合v o i c e x m l 规范的应用在不同企业的平 台上都可以运行。 2 1 3v o i ) 呲的语法 一个v o i c e 幢l 文档( 或一系列相关的文档) 构成了一个有限的会话状态。 用户一次只能在一个会话状态或d i a l o g 中。每个d i a l o g 都会确定要跳转的下一 个d i a l o g 。跳转通过u r i 指定,u r i 规定了下一个要用到的文档和d i a l o g 。如 果u r i 没有指向一个文档,则认为它指向当前文档。如果u r i 没有指向一个 d i a l o g ,则认为它指向那个文档的第一个d i a l o g 。如果一个d i a l o g 没有指定它的 下一个d i a i o g ,或者它有一个明确地退出会话的元素,则执行中断。图2 1 表示 了、,o i c 测l 规范的层次结构。 6 图2 1v o i c e 舭规范的层次结构图 s e s s i o n 会话从用户与v o i c e x m l 解释程序语境交互开始,持续进行文档的装载和处 理,直到由用户、文档或解释程序环境发出终止请求才结束。 a p p l i c a t i o n 应用是由共享同一个应用根文档的系列文档组成的。无论如何,只要用户 在跟应用里的文档交互,它的根文档都会被加载。当用户在同一应用的其他文档 中跳转时,应用根文档一直都被加载,直到用户跳转到一个不在这个应用里的文 档。当应用根文档被加载的时候,它的变量就像这个应用的变量一样,对这个应 用里所有的文档都是可用的,它的语法在这个应用的生命期内都是激活的。 d i a l o g s 锄ds u b d i a l o g s v b i c e x m l 中定义了两种类型的会话:表单( f o n l l ) 和选单( m 删) 。f o 加 定义了一个获取一组字段变量的值的交互过程。每一个字段可以指定一个文法, 定义了该字段的允许的输入值。m 锄u 提供选项供用户选择,然后根据选择的结 果转移到另一个会话。 子会话像函数调用,它引起一个新的交互作用并且返回给上一层的f o r n l 。 局部的数据、文法和状态信息被保存,当返回到调用文档时可以使用。例如,子 会话可以用于创建一个在数据库查询时需要的确认序列;创建在单一请求中的多 7 。北京邮电大学硕士论文 基于、,0 i c c x m l 的语音业务平台的设计与实现 个文档共享的一批组件;或创建一个在多个请求中共享的可重用的会话库。 ( ;i 鼍n m l a r 每一个会话有一个或多个语音和( 或) 删f 文法。在定向对话应用中,一 个会话的文法只有在使用者与此会话交互时才起作用。在混合主动式对话中,机 器和用户交替控制下一步的操作,一些会话被标记以使它们的文法即使当用户在 同一文档的其他会话时也起作用。在这种情况下,如果用户进行的操作与另一个 会话的有效文法匹配时,执行就会转移到另一个会话。混合主动式对话增加了语 音应用的适应性和能力。 e v t v o i c e “l 提供一种表单填充机制用来处理“正常”的用户输入。另外, v o i c c x m l 也定义了处理异常事件的机制。如用户在一定时间内没有作出应答, 请求系统帮助等情况下平台会产生事件。如果解释器在v b i c e x m l 文档中发现语 义性错误时,也会产生事件。 l i n k 链接支持混合主动式对话,当用户在链接的作用范围时它指定的文法就起作 用。如果用户的输入与链接的文法匹配,控制就转移到链接的目的u r l 。 可以用来产生一个事件跳转到目的u r l “。 2 1 4v o i c e x 札的标记 v o i c c x m l 是一种标记语言,它主要定义了4 3 种标记,如表2 1 所示: 表2 1v o i c e 舭元素1 元素作用 给变量赋值。 在p f o m p t 中播放一段音频。 没有人机交互的可执行代码的容器。 捕获事件。 定义一个m e l l ui t e m 。 清除一个或多个f o r r ni t e i i l 变量。 断开一个会话。 用于 i 伊元素中的e l s e 。 用于 元素中的e l s e i f 。 列举m c l l u 中的c h o i c e 的信息。 捕获 事件。 。北京邮电大学硕士论文基于v o i c e x m l 的语音业务平台的设计与实现 退出会话。 在f o m l 中声明一个输入域。 在输入域被填充后执行一些操作。 用于给出信息和收集数据的d i a l o g 。 在同一或不同文档中跳转。 指定语音识别或d t m f 语法。 捕获 事件。 简单的条件逻辑。 在进入一个混合主动式的f o m l 时声明初始的逻辑。 对所有在1 i i l l 【的作用域内的会话指定一个跳转。 生成调试信息。 提供可供选择的跳转。 以n 黝c v a l l l c 对的形式定义一个元数据项。 使用元数据方案定义元数据信息。 捕获 n o i 叩u 伊事件。 捕获 事件。 跟自定义的扩展功能进行交互。 在 中指定一个可选项。 o b j e c p 或 的参数。 h e l l ow o r l d ! ,v x m l 例1 是一个简单的h e l l o w o r l d 示例。示例最上层的元素是 啪,它主要 是作为d i a i o g 的容器。在v o i c e 订l 里有两种d i a l o g :f o m 和m e n u 。f o 咖用 来输出提示信息和收集输入信息,m e i i u 提供一些c h o i c e ,以决定下一步要做什 么。这个例子里有一个f o m ,它包含了一个b l o c k ,这个b i o c k 把“h e l l o w b r l d ! ” 合成语音,并输出给用户。由于这个f o 肌没有指定下一个d i a l o g ,因此,这次 会话结束。 例2 ? x m lv e f s i o n 一1 o ,e i l c o d i n g :“u t f - 8 w b u l dy o ul i k ec o f ,t e a ,m i l l 【,o rn o t h i n g ? p r o n l p 1 0 囝北京邮电大学硕士论文基于d o 洲l 的语音业务平台的设计与实现 示例2 要求用户选择一种饮料,然后把它提交给服务器。f i e l d 是一个输入域, 用户必须给f i e l d 提供一个值,否则就不可能进行到如n n 中的下一个元素。下面 是这个例子的一个简单的人机交互: c ( c o n l p u t 砷:w b u l dy o ul i k ec 0 仃e 岛t e a ,m i l l c o f n l i i l 驴 h o n m a l l ) :o 姐n g c j u i c e c :id i dn o t1 | i l d 哪t a l l dw h a ty o us a i d ( ap l a t 缸m 一雄 e c i f i cd e f a u l tm 鹤s a g e ) c :w b u l d y o u l i k e c 0 彘e ,t c a ,l i l i l l 【,o r l i n g ? h :1 抚 c :( c o m i n u e si nd o c 哪锄t 幽n k 2 a s p ) 2 2v o i c e x 札的体系结构 2 2 1v o i c e x 札体系结构模型 文档服务器 避 响 袭 应 v o i c e x m l 解释程序 咖k e x 斛l 懈释嚣溺境 执行平台 ( 语音实体) 图2 2v o i c e 拼l 体系结构模型 北京邮电大学硕士论文 基于v o i x m l 的语音业务平台的设计与实现 图2 2 是v o i c c x m l 的体系结构图,图中各部分说明如下: 文档服务器 文档服务器充当了w e b 服务器的角色,它负责处理执行平台发送的文档请求 消息,并与后台数据库进行交互,组织v o i c c x m l 文档并对该请求进行响应。 v o i 删l 解释程序 解释程序对文档中的标识进行分离,产生相应的数据或动作命令,引导和控 制用户与执行平台之间的交互作用。 v o i c c x m l 解释程序环境 v o i c e x m l 解释程序环境也是一个计算机程序,它和解释程序一起监控用户 的输入,并且可以与执行平台相互作用而与v o i c e x l l 解释程序无关。 执行平台 执行平台提供字符和语音的输入和音频输出,包括合成语音的输出t t s ( t c x t t 0s p e e c h ) 、音频文件的输出、话音输入的识别a s r ( a u t o m a t c ds p c h r e c o g n i t i o n ) 、d n 伍输入的识别、语音输入的录音以及电话功能( 如呼叫转 移) 等。执行平台是被v o i c c x m l 解释程序环境和v o i c e x m l 解释程序控制的。 例如,在一个交互式语音应答应用中,v o i c e x m l 解释程序环境能可靠地监测到 呼叫,获得初始的v o i c e x m l 文档,并且回答这一呼叫,在回答之后v o i c e “l 解释程序引导这一对话。执行平台产生事件响应用户的动作( 说话或者字符输入) 和系统事件( 例如计时器溢出) 。这些事件中的一部分依照相应的v b i c e x m l 文档按照v o i c e “l 解释程序的解释加以执行,其他的被v o i c c x m l 解释程序 环境控制。 2 2 2v o i c e x 札的工作流程 1 语音应用程序作为系列页存储在类似w 曲服务器的文档服务器上。如果 执行平台( 一台能支持v o i c e x m l 定义的交互作用的计算机) 接收到服务请求,则 通知解释程序环境,并将相关信息传递给它。 2 v b i c e x m l 解释程序环境启动一个解释程序。该解释程序向文档服务器发 出一个特定的u r l 请求,就像用户浏览网络时输入网站地址一样。 3 作为响应,文档服务器返回相应的v o i c e x m l 文档。 4 v o i c e l 解释程序解析文档语义,根据语义引导和控制用户与执行平台 之间的交互,其中包括通过平台向用户播放语音文件或播放文本合成语音,获 得用户的按键输入或语音输入等。v o i c e x m l 文档结束,解释程序结束工作。 1 2 。北京邮电大学硕士论文 基于v o i x m l 的语音业务平台的设计与实现 2 3v o i c e x 札的应用 2 3 1v o i c e ) 弧的应用特点 自由自在的流程 v o i c e x m l 语音应用系统中强调对话和导向,而不再有固定的流程结构限 制。如同用g u i 浏览器( 如i n t 锄c te x p l o r 凹) 浏览网页是以网页为单位、以链 接为导向的一样,v o i c e x m l 也是以同样的机制来完成整个应用的语音测览。 在v o i c e x m l 语音应用中,用户可以选择所有激活的链接,像浏览w e b 网页一 样任意跳转到其他语音网页中。根据用户的语音命令和对事件的捕获,可以跳转 到其他应用、文档,甚至其他对话中去。利用ja v a scr i p t 、a s p 、per l 等 描述语言,v o i c c 煳l 应用可以动态地根据用户的选择预先定制模板和其他数 据环境,动态地产生新的应用或文档及语法定义。这样,流程的动态生成可以使 v o i c e ) 似l 语音应用不再受预先制定好的流程规范的限制。 高效的数据整合 x m l 的机制决定了v o i c e x m l 脚本语言不仅可以描述数据的样式,也同样 可以描述数据的内容和含义。只要有共同规范的d t d 定义,v o i c e x m l 脚本就 可以轻松地与其它“l 脚本交换数据,理解其它x m l 脚本应用中数据的含 义。这意味着其它的基于x m l 脚本的w e b 应用、数据库系统、数据文档,都 可以轻松地与v o i c c x m l 脚本集成起来。v o i c e x m l 应用可以轻松地解释它们 的数据内容,并通过适当的表现形式体现出来。利用j a v as 耐p t 、a s p 、p c r l 等 描述语言所建立的程序,可以访问其它各种各样的数据来源,不仅可以产生动态 的浏览流程,还可以产生动态的内容。正如在w 西应用中a s p 所产生的动态网 页一样,动态v o i c e x m l 语音网页具有同样的浏览自由度和内容自由度。 个性定制的体现 传统语音应用系统对每个用户的服务方式都是完全一致的,丽v o i c e “l 应用可以根据用户自己的喜好定制所需的内容。根据已有用户的数据信息,如用 户的特征、用户选择的项目等,利用模板机制,v o i c e x m l 可以生成完全个性 化的应用流程和内容。在v o i c e x m l 语音应用系统中,用户不仅可以定制他们 各自喜好的服务项目,甚至可以定制他们期望的内容、格式和风格,完全体现个 性化。在基于、,o i c e x m l 的语音门户应用中,用户也可以自己开发和编写自己 的语音网页,建立个人语音网站,展示自我个性。 北京邮电大学硕士论文 基于v c d o e x m l 的语音业务平台的设计与实现 2 3 2v o i c e x t 的主要特性 、,o i c c x m l 的主要特性可以分为4 个方面:对话特性、电话特性、平台特性 和性能特性,具体描述如下。 对话特性 每个v o i c e ) 。讧l 文件由一次或多次对话( d i a l o g ) 组成。对话特性包括收按键 音( d t m f ) 输入、产生音频输出、异步事件的处理、编写客户端脚本以及对话交 互的多样性等。 v o i c e x m l 支持下面的输入格式:音频记录、自动语音识别和按键音。输出 可以是预先纪录的音频文件、t t s ( 文本到语音) 或者二者兼而有之。 v o i c e x m l 支持异步事件的处理。异步事件有两种:一是内部事件,如超时、 输入无法识别或者帮助事件;二是用户定义的事件。事件处理程序一般要确定内 部调用程序输出哪些内容,以及是否继续当前的对话或转换到别的对话中去。 为了尽量减少服务器的响应时间,i c c x m l 允许在一次对话中接收多个数 据段,并允许这种数据段编写客户端脚本。对话还可以根据用户的输入确定何时 将数据提交给另一个u r l 服务逻辑,以及何时转换到不同的对话。 v o i c c 订l 还支持传统的r 系统,支持语音菜单、定向菜单、以及混合驱 动式人机交互表单等多种交互方式。语音菜单交互方式允许程序从一系列的可选 项中选择几个选项;定向表单交互样式可以使用程序连续地接收数据集;混合驱 动式人机交互表单则是计算机和用户都可以引导对话的表单。 电话特性 v o i c c 以l 提供了对电话连接的基本控制功能,它允许文件编写者确定何时 拆除连接,何时转移呼叫。呼叫转移是一种跟随特性,即只要呼叫被成功的转移 并连接到被呼叫方即可;与被呼叫方的对话结束后,v o i c e v l l 对话可以继续进 行。这一特性可以节省呼叫转移时问,有利于在后续的u r l 请求中提交其它的 数据。 平台特性 v o i c e x m l 在描述标准的对话特性的同时,还可以兼容其它专有平台的某些 特性。例如,有的平台可以具有说话人身份验证组件,有些平台则可以具有定制 信用卡的功能,可以控制其专用的语音识别参数,无线环境里的客户程序还可以 提供主叫用户的位置。所有这些平台特性都可以借助v o i c e x m l 平台的一种或几 种特性得以实现。 性能特性 、,o i c e x m l 文件和这些文件所使用的资源,以及u r l 确定的每一种资源的 位簧都是基于w 曲的,这些资源包括音频文件、输入语法、脚本和对象。v o i c e x m l 4 囝北京邮电大学硕士论文基于v o i c e x m l 的语音业务平台的设计与实现 客户程序必须在使用这些资源之前查找和安装这些资源,这与普通的w 曲浏览 器类似,不过普通的w 曲浏览器在查找资源时,有( 耵i 浏览器的p c 用户可以 看到一个旋转图标,进而得知系统正在搜索有关的资源;但v o i c c 订l 语音浏览 过程中,与i c e 讧l 平台保持联系的主叫用户可能察觉不到资源搜索过程正在 进行,因而有可能错误地认为已经与系统失去了联系。 针对上述问题,v o i c e x m l 提供了几种消除或隐藏与查找w 曲资源有关的提 高查找性能的机制。像g u i 浏览器一样,、b i c e ) a 订l 客户程序可以使用高速缓存 来读取数据;与g u i 浏览器所不同的是,v o i c e 订l 可以让程序员确定是需要使 用高速缓存资源,还是查找新的资源拷贝。当必须查找新的资源拷贝时,程序员 可以指定查找需要等候的时间;对于某些资源还可以读取期间确定要播放的音频 文件。 2 4 本章小结 本章的第一部分介绍了v o i c e x m l 的基本概念,包括v o i c e x m l 的目标、优 点、相关语法、标记和相关的具体实例等,阐明了关于i c e x m l 语言的相关内 容。本章的第二部分介绍了v o i c c ) 。讧l 的体系结构,分析了基于v o i c e x m l 的开 发系统的具体组成及工作流程。最后,简要分析了v o i c e x m l 应用的特点和主要 特性分析。 1 5 北京邮电大学硕士论文 基于、b i 献m l 的语音业务平台的设计与实现 第三章平台结构及关键技术介绍 3 1 语音合成技术 3 1 1 语音合成技术介绍 语音合成t t s ( t e x tt os p e e c h ) ,又称之为正文语音合成,它是将文本数据 流转化为人类语言的过程。t t s 先对文本数据流进行分解和分析,根据分析的结 果从原始语音库中取出相应的语音基元,然后再使用特殊算法将语音基元合成语 音。语音合成涉及声学、语言学、数字信号处理技术、多媒体技术等多个学科技 术,是信息处理领域的一项前沿技术。评价一个t t s 引擎的优劣,主要有这么 几个方面,合成语音的自然度、合成语音的表现力、合成性能、多种文语合成等。 语音合成主要包括三个部分:语言学处理、韵律处理和声学处理1 “。分别 简单介绍如下: 语言学处理:语言学处理在文语转换系统中起着重要的作用,它主要模 拟人对自然语言的理解过程文本规整、词的切分、语法分析和语义 分析,使计算机对输入的文本能完全理解,并给出后两部分所需要的各 种发音提示。 韵律处理:韵律处理为合成语音规划出音段特征,如音高、音长和音强 等,使合成语音能正确表达语意,听起来更加自然。 声学处理:根据前两部分处理结果的要求输出语音,即合成语音。 3 1 2 语音合成技术在语音业务平台中的应用 在语音业务平台中,t t s 起着非常重要的作用。t t s 技术的成熟保证了v x m l 文档中需要播放的字段可以实时的合成语音文件并且播放,避免了只能播放原有 限定音乐的缺点。可以说,是t t s 技术的成功提供了语音业务平台实现的可能。 1 6 v o l c e x m l 解释黛j 确迩霈龆 进行氍行合成鹩义! 弘 l v o i x m l 解释嚣潘境辫渡 文字麓送绘4 r t s 0 l 警 i t 下s 诱蠢赍战搬务器对室字 i 蕴 l 潞爵台陵 i 媛幸h 艟 既w a v 谲髫文件 l | 执行平蠹通过禳静卡往嬉 邀巾播放话膏文件 图3 1t t s 合成流程图 。 图3 1 表示了t t s 在语音业务平台中的应用流程。在该系统中,t t s 引擎 配合v o i c e “l 解析器将文字

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论