




已阅读5页,还剩57页未读, 继续免费阅读
(计算机应用技术专业论文)基于voicexml的火车时刻自动语音查询系统的设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
浙江大学硕士学位论文 摘要 近年来,移动通信技术得到了空前迅速的发展,移动电话的用户出现 了爆炸式的增 乏。有人估计,到2 0 0 5 年,全球将有1 0 亿部手机投入使用。 由此人们对使用移动电话在任何时问和任何地点访问因特网产生了浓厚 的兴趣,并且这已经成为许多人的普遍愿望。可以预言,扁时,利用语音 技术通过移动电话来访问因特网将会成为一种非常流行的手段。 v o f c e x m l ( 语音扩展标记语言) 是一种基于x m l ( 扩展标记语言) 的 因特网标记语言,它可以用来开发语音用户界面。通过语音用户界面,用 户就可以通过电话来访问因特网上的内容,而不是通过计算机键盘和显示 器与应用程序进行交互操作。 本文在理解该规范的基础上,对v o i e e x m l 技术的系统结构、应用特 点、功能及特性进行了介绍,并以火车行业为导向,以语音应用为驱动,设 计并实现了基于v o i c e x m l 的火车时刻自动语音查询系统。本文主要工作如下: 研究了语音系统技术,设计并构建了基于v o i e e x v l l 技术的语音浏览器。 以u c d 方式提出并完成了火车时刻自动语音查询系统的v u i 设计。 结合j d b c 和j a v as e r v | e t ,实现了w e b 和数据库的访问。 在i b mw e b s p h e r e 平台下,最终实现了一个火车时刻自动语音查询原型 系统。 关键词: g o i c e x m l :x m i 。;e c m a s c r i p t ;g o i c e x m l 解释器;j a v a 口语语法:语 音系统;语音浏览:语音查询;语音用户界面。 浙江大学硕士学位论文 a b s t r a c t i nr e c e n ty e a r s ,m o b i l ei n f o r m a t i o nt e c h n o l o g yh a sb e e nm a d ea r a p i d p r o g r e s s t h ea l h o u n t o fm o b i l e p h o n eu s e r sh a s t u r n u p a e x p l o s i v e i n c r e a s i n g s o m e b o d ye s t i m a t e dt h a tt h e r ew i l lb e1b i l l i o nn o b i l ep h o n e s i nu s ei n2 0 0 5 u n d e rs u c h c i r c u m s t a n c e ,p e o p l eb e c o m em o r ea n dm o r e j n t r e s t e dj nc a p a b i eo fv i s i t i n gi n t e r n e tb ym o b i l ep h o n ei na n y w h e r ea n d a t a n y t i m e ,i th a sa l r e a d yb e c o m eag e n e r a l e x p e c t a t i o n ,t o o w ec a n p r e d i c tt h a ti tw i l lb eap o p u l a rw a yt ov i s i ti n t e r n e tb ym o b i l ep h o n e u n d e rt h eh e l po fv o ic e t e c h n o l o g y v o ic e x m lisak i n do fin t e r i l e t l a n g u a g eb a s e do n x m l itc a nh e l p p o e p l et od e v e l o pv o i c eu s e ri n t e r f a c e p o e p l ec a nv i s iti n t e r n e te a s i l y b ym o b i l ep h o n eb u tn o tt h ei n t e r a c t i o nb e t w e e nk e y b o a r d ,m o n i t o ra n dt h e a p p l i c a b l ep r o g r a mu n d e rt h eh e l po ft h i sk i n do fv o i e eu s e ri n t e r f a c e t h is p a p e rh a s ag e n e r a li n t r o d u c t i o n o fs y s t e n f r a m e w o r k 。 a p p l i c a t i o nf e a t u r ea n df u n c t i o i ls p e c i a l i t yb a s eo nc r i t e r l o no f v o i c e x m l a n do r i e n t e d b y t r a i n i n d u s t r y ,d r ir e d b y v o i c e a p p l i c a t i o n ,w ed e s i g na n di m p l e n e n tt h et r a i nt i n e t a b l ea u t ov o i c e q u e r ys y s t e nb a s e do nv o i c e x m l t h isp a p e rn a i n l yw o r k sa sb e l o w : r e s e a r c h t e c h n o l o g y o fv o i c es y s t e n ,d e s i g na n d c o n s t r u c t v o i c eb o w s e rb a s e do nv o i c e x m l p u tf o r w a r da n di n p l e m e n tv u id e s i g no ft r a i nt i n e t a b l ea u t o v o i c eq u e r ys y s t e mb a s e do i l v o i c e x m lb yu c dm e t h o d u t i l i z ej d b ca n dj a v a s e r v l e t ,i m p l e n e n tv is i to fw e ba n d d a t a b a s e f i h a l l yf i n i s hh a n g z h o ut r a i nt i m e t a b l ea u t ov o i c e q u e r y s y s t e mb a s e do nv o i c e x m lb yi b mw e b s p h e r e k e y w o r d s : v o i c e x m l ;x m l ;e c m a s c r i p t :v o ic ei n t e r p r e t e r ;j s g f ;v o i c es y s t e m : v o i c eb r o w s e r :v o i c eq u e r y ;v u i 。 2 浙江大学硕士学侥论文 1 1 弓l 言 第一章绪论 近年来,移动通信技术得到了空前迅速的发展,移动电话的用户出现了爆炸 式的增长。有人估计,到2 0 0 5 年,全球将有1 0 亿部手机投入使用。由此人们对 使用移动电话在任何时间和任何地点访问因特网产生了浓厚的兴趣,并且这已经 成为许多人的普遍愿望。可以预言,届时,利用语音技术通过移动电话来访问因 特网将会成为一种非常流行的手段。 v o i c e x m l ( 语音扩展标记语言) 是种基于x m l ( 扩展标记浯言) 的因特 网标记语言,它可以用来开发语音用户界面。通过语音用户界面,用户就可以通 过电岳来访问因特网上= 的内容,而不是通过计算机键盘和显示器与应用程序迸行 交互操作。为此我们可以将v o i e e x m l 视为用于电话的h t m l 语言。 语音浏览器允许每个人通过任何电话来享受基于w e b 的服务,从而使得人 们可以在任何时间和任何地点,无论是在家中,在路上,还是在办公室,都可以 访问w e b 。语音浏览器是驻留在网络上的一种应用程序,它位于语音、电话和因 特网组件之七,负责将v o i c e x m l 应用程序传递给用户。语音浏览器由负责解析 v o i c e x m l 文档的v o i c e x m l 翻译器以及连接语音和电话组件的界面组成。 语音浏览器的巨大潜力存在于无所不在的电话和独特的语音应用中。对于世 界上的许多人来说,也许他们无法做到人人拥有一台p c 机,但是在发达国家和 发展中囝家中,电话通常都被视为一种标准的家用电器设备。 在某些情况下,例如用户正在驾驶汽车时,如果他想要访问因特网,那么他 只有使用免提电话和像语音那样的免提界面,才能非常安全和舒适地上网。带有 某些残疾的用户也可以很好地利用语音服务系统。 语音系统在实际生活中有多种应用,我国有庞大的火车系统,如果能够提供 2 4 小时的火车时刻查询,必将绘旅客带来极大妁便利。于是,将语音测览器技 术应用于实际的火车时刻查询系统中,便成了此次研究的课题。 浙j 工大学硕士学位论文 1 2 研究背景、目的和意义 以互联网为代表的信息产业为中国带来了巨大的机会和挑战,中国社会开始 进入一个以信息为核心的时代。如何快速准确地获取所关心的信息,对人们的日 常工作和生活已经具有越来越重要的影响。 至今为止, n t c m c t 的访问模式逐渐从单一的p c 册m l 访问方式向多种用 户终端发展,如:移动电话、p d a 、机顶盒等。而我们知道,人类习惯于轻松简 单的说话,以语音的方式,通过友好的、人性的交互直接获取信息和服务,而并 不愿依靠键盘和鼠标。近年来语音技术的飞速发展和不断成熟,以及中文语音应 用技术的突破,为信息网络带来了一种极具诱惑的信息终端一电话。 图1 通过v o i o 曩舭访同i n t e r n e t 语音,是人类最为熟悉的交流方式。人有7 0 的信息获取是通过听,而9 0 的信息表达是通过说。语音是人们询问问题,交换观念、分享经验和建立关系的 最主要方式,人类通过语音传达着大量的信息。 语音应用技术( v o i c ea p p l i c a t i o nt e c h n o l o g y ) ,是指人们可以使用有线电话 或移动电话,以及p c 、p d a 和其它智能设备通过语音识别、语音合成的交互技 术,语音测览、智能信息处理等技术实现人们访问互联网络,以及实现个人服务 和商业服务的应用技术。 语音应用技术,是语音技术( a s r 和t t s ) 、语音浏览技术、智能文字信息 处理技术等技术的集合,其形成一个完整的技术应用规范体系,建立于已有的相 关技术协议标准上,着重于应用开发。 语音应用技术是跨接在以语音为核心的电话蹰络和以数据为核心的互联网 络两者之间的一座桥梁,有线电话和移动电话成为了豆联网络的信息终端,为人 们以自然语言交互的方式来逆游信息世界打开了一扇自由的大门。语音应用技术 浙江大学硕上学位论文 覆盖语音识别、语音合成、语音浏览、语音集成、语音交互、w e b 服务等技术领 域,可以轻松介入现有的网络信息系统,集成现有的各类信息处理技术,如w e b 、 w a p 、g p r s 等等。 语音应用技术,使人们可以自由的以对话( d i a l o g ) 的方式与机器和远端语音 服务器交谈,以语音( s p e e c h ) 的方式命令机器为自己服务。这是人类长久以来 的梦想,而这个梦想正是通过语音浏览技术而得以实现。 语音浏览技术,类似于w e b 浏览技术,它以一种x m l 标记语言为数据载体, 通过各种网络数据传输协议,而以c l i e n t s e r v e r 的方式为语音浏览器所解析,通 过语音的方式呈现给用户。这类似于w e b 与m 浏览器的概念,只不过i e 以图 象的方式在显示器上将信息呈现出来,而语音浏览器以语音的方式在电话、手机 或其它语音通道中呈现。m 接受用户的鼠标和键盘指令,而语音浏览器接受_ = j 户的说话为指令。 v o i c e x m l 是一种用来建立语音用户界面的语言,特别适用于各种电话服务 中。在用户输入方面,它同时支持按键输入( d t m f 键盘) 和自动的话音识别 ( a s r ) ,并且将预先录制完成的音频信息以及文字语音转化后的音频信息相综合 后输出。v o i c e x m l 主要基于可扩展标记语言( x m l ) 的基础上_ ,并且在应用开发 和实现中利用了网络的规范和标准。 通过v o i c e x m l ,互联网语音应用运营商能向电话用户发布他们感兴趣的信 息,就像管理w 曲页的网管人员向w e b 服务器发布网页内容那样,而且发布的 信息内容也与一般的垂直服务网站所提供的内容差不多,如订货信息、股票查询、 航班时刻等等。将语音浏览器技术应用于火车查询系统,其能相对传统方式带来 极大便利: 一、只需要手机或电话,可以实现任意地点查询,极大的便利性。 二、2 4 小时全天候查询,能够充分发挥出语音系统的优势。 三、计算机全自动服务无须人工,能同时接听多路电话。 本文仅以火车时刻查询系统语音浏览器的设计与实现,对v o i c e x m l 技 术进行了深入的研究,并在i b mw e b s p h e r ev o i c es e r v e r 平台下,结合j 心,a s e r v l e t 和j d b c 实现了火车时刻查询系统的初步构建。 浙江大学硕士学位论文 1 3 论文的组织 本文在总体上可以分为三个部分: 第一部分包括第一、二章,对火车时刻查询系统研究的目的、意义、内容以 及语音系统技术的发展和趋势做了简单的介绍。 第二部分包括第四、五章,以v o i c e x m l 技术的研究为核心,以v u i 为设 计思想,结合j a v as e r v l e t 和 d b c ,设计并最终实现了火车时刻查询系统。 第三部分,即第五章中,对全文进行总结,并且展望今后工作。 下面介绍一下每章的具体内容。 第一章绪论 阐述了本文的研究背景、内容、目的和意义。 第二章语音系统综述 对语音系统的发展和趋势进行了研究,综述了当前语音系统的情况,并对语 音技术的应用作了介绍。 第三章基于v o i c e x m l 的语音浏览器的设计与实现 重点研究了v o i c e x m l 技术,对相关技术进行了深入的探讨,同时设计和实 现了语音浏览器。 第四章火车时刻语音查询系统的设计与实现 以i 为设计思想,结合v o i c e x m l 和j a v a s e r v l e t ,详细论述火车语音查 询系统的设计与实现。 第五章总结和展望 对本文的工作进行了总结,介绍了本文主要的贡献,最后对语音浏览器的应 用发展作了展望。 浙江大学硕士学位论文 第二章语音系统综述 2 1 语音系统发展趋势 2 1 1 良好的市场预期 据权威机构预测,到2 0 0 5 年全球语音应用产值将达到4 5 0 亿美元。语音应 用之所以成为新一轮的市场焦点,是因为: 电话尤其是移动电话的日益普及 人们更需要及时、方便地得到信息 企业、服务提供商需要提供更完善的语音服务。 悠久的历史使电话无疑是最普及的通讯工具,其操作简易性更是老少皆宜。 如下图所示,尽管互联网方兴未艾,然而在全球范围内,电话用户的数量仍数倍 于互联网用户,在中国更是达到1 0 倍以上。特别是,近年来移动通讯发展迅猛, 移动电话的销售量已超过汽车和p c 机的总和,预计2 0 0 3 年末全球移动用户数 将突破1 0 亿。 图2 :全球2 0 0 2 年统计数据 信息技术革命将人类社会推进到信息社会,企业的经营管理、个人的休闲理 财都离不开信息。人们比以前的任何时期都更加渴望能够随时随地得到信息。而 语音作为人类最原始、最自然的交流方式,最受人们的青睐。e v a n sg r o u p r e s e a r c h 对2 5 0 个使用不同语音系统的用户进行的调查表明,8 3 的用户更喜欢 使用语音系统而不是按键式系统。 浙江大学硕士学位论文 在激烈的市场竞争中,企业、服务提供商一直在寻求完善客户服务的途径。 金融、电信等领域实施呼叫中心的成功经验,使企业、服务提供商体会到语音服 务带来的经济效益和社会效益。提供更为人性化、智能化的语音服务系统提供 2 4 小时全天候的自助服务系统,已成为企业和服务提供商重要的市场策略。 2 1 2 成熟的关键技术 语音技术在计算机领域中的关键技术:语音识别技术( a s r :a u t o m a t i cs p e e c h r e c o g n i t i o n ) 和语音合成技术( t t s :t e x tt os p e e c h ) 。语音识别技术,是指 将人说话的语音信号转换为可被计算机程序所识别的文字信息。从而识别说话人 的语音指令以及文字内容的技术。而语音合成技术,是指将文字信息转变为语音 数据,以语音的方式播放出来的技术。 电话的出现已经有1 2 0 多年的历史而使用在商业应用上相关的语音识别和 语音合成最近几十年才开始进行研究。事实上,语音识别产品进入大众视野只有 短短的4 年。1 9 9 8 年i b m 率先推出v i a v o i c e 引发了语音应用的热潮,研究机构 和企业厂家纷纷研制备具特色的语音产品。通过识别算法的改良,同时得益于硬 件能力的提高,今天优秀的语音识别系统的识别率高达9 5 以上,并实现了多种 语言、多种口音与说话人无关的连续语音识别,完全能够满足商业应用的需求。 在语音合成技术上,已经能够实现自然、流畅、智能型豹文字合成。随着各方面 的研究不断成熟,相信能令计算机乖乖听话的时代将很快来临,语音辨识技术也 不仅作为与互联网的存取界面,更是与各类智艟家电产品沟通的工具,这方面的 发展对未来将带来重大的影响及变革。 2 1 3 统一的语音标准规范 互联网标准委员会( w o r l dw i d ew e bc o n s o r t i u m ) 正式公布了v o i c e x m l2 ,0 标准,解决部分v o i e e x m l2 0 与x m l 及h t m l 的兼容阀题,可说是替话音的网站 内容传送及声控平台的开发建立根基。 v o i c e x m l 是建立语音辨识软件及互联网内容界面的标准语言,就像h t m l 为 网络内容的定义、显示及传送建立标准一样,v o i c e x m l 可以把具x m l 标记的网 络内容转换为支持语音的格式。 v o i c e x m l 是一个开放式的标准,于9 9 年由a t & t 、国际商业机器( i b m ) 、摩 浙江大学硕十学位论文 托罗拉及朗讯创立,其后迅速壮大,现在已有五百五十多家机构及公司会员参与。 2 1 4 正在展开的全面应用 电话是人类最普及的通讯工具,语音是人类最自然的交流方式。电话依旧是 用户向企业、服务提供商寻求服务的最主要方式之一。计算机语音识别、语音 合成以及语音浏览技术的涌现,掀起自图形界面之后新一轮的人机界而革命,实 现了人类通过对话与计算机进行交互的梦想。 随着语音技术的不断应用推广,人们将可以通过电话随时获得最新的信息和 体贴的服务。企业、服务提供商应该把握市场机遇,使自身在激烈的市场竞争中 脱颖而出。 2 2 语音系统技术介绍 2 2 1 语音技术的两大阵营 v o i c e x m l ( v o i c ee x t e n s i b l em a r k u p l a n g u a g e ,语音扩展标记语言) 和 s a i t ( s p e e c ha p p l i c a t i o nl a n g u a g et a g s ,语音应用语言标识) 则是最新的语 音集成技术,旨在帮助软件开发者使用类似的开发界面,避免做重复的无用功。 由于这两种技术标准都依赖于网络,因此能使语音集成技术的安装和应用更加容 易。 v o i c e x m l 是以x m l 语言规范为基础,专门供电话语音用户使用的界面。 这种规范允许语音技术开发者创造出能识别特定的单词或词组的直接对话语音 系统。这种模式非常适用于那些没有屏幕选项可选择的电话用户。v o i c e x m l1 0 版本是由a t t 、i b m 、l u c e n t 以及m o t o r o l a 等公司通过w 3 c 协会于2 0 0 0 年联合 推出的电话语音应用系统标准。这个标准彻底改变了传统语音集成系统的开发模 式和应用范围,将公用电话网、语音处理技术和互联网有机地结合为一体。目前 已正式推出v o i c e x m l2 0 版本。 s a 。t 规范则建立在w e b 语言基础上,主要是h t m i 和x h t m l 语言。s a i t 技术使得以图形用户界面为基础的设备( 如p c 、p d a 等) 也可以使用语音合成系 浙“大学硕士学位论文 统。例如,用户只要点击一下图标并说:“请显示周六f 午7 点以后从旧金山飞 往波士顿的航班”,浏览器即可显示相应的航班信息。 作为对通常使用的w e b 编程语言的扩充,s a ,t 规范定义了一组标记并且整 合了w 3 c 和i e t f 的现有标准。s a l t1 0 规范由s a l l 、论坛开发,并且于2 0 0 2 年 8 月提交到w 3 c 组织。s a l t 规范的目标应用领域是电话语音和多媒体w e b 应用程 序。有了它,p c 、有线电话、手机、p d a 以及t a b l e tp c 等设备都可以访问基于 w e b 的信息、程序和服务。 2 2 2v o i c e x m l 语言发展进程 v o i c e x m l 是由i b m 、l u c e n t 、m o t o r o l a 和a t & t 四家公司于2 0 0 0 年提出的 一种应用于语音浏览的标记语言。如下图所示,v o i c e x m l 是各厂商多年经验积 累的产物,v o i c e x m lf o r u m 更是得到业界广泛的支持,同时v o i c e x m l 由w 3 c 组 织标准化,成为事实上的工业标准。 1 钧5 哪伯盯删1 9 挪o洲a o 位 图3v o i x 札语言发展进程 2 2 3 冲刺的v o j c e x m l 2 0 “全球互联网联盟”w 3 c ( w o r l dw i d ew e bc o n s o r t i u m ) 于2 0 0 4 年1 月2 8 日将v o i c e x m l2 0 发布为“提议推荐”,这标志着v o i c e x m l2 0 距离成为业界 标准还有一步之遥。 v o i c e x m l 是基于x m l 利用语音来使用w 唧内容及服务的描述语言,它定义 r 通过语音浏览器向用户电话机等设备发送信息内容的结构。据称,利用 浙江大学硕士学位论文 v o i c e x m l2 0 标准能够制作出语音合成、语音数字化、语音识别、d t m f ( 按键 式电话音频信号) 输入、录音、通话以及通话转移等的语音对话框。 w 3 c 语音浏览器的倡导者d a v er a g g e t t 表示,v o i c e x m l2 0 有足够的力量 改变信息通讯的方式,客户服务也能因此得到改进。v o i c e i m l2 0 的发布不但 对视觉有创伤的用户来说是好消息,也为暂时无法用双手进行操作的人提供了方 便,如正在驾驶的司机。 w 3 c 从1 9 9 9 年开始就致力于一个名为“语音接口框架”( s p e e c hi n t e r f a c e f r a m e w o r k ) 标准的制定。v o i c e x m l2 0 就是当中的一部分。v o i c e x m l 主要用来 提供语音指令,着眼应用程序与用户的相互作用,这是与其它标准的不同之处。 在语音规范的开发中,有许多公司知名公司参与,包括:佳能、惠普、法国 电信、日立、t b m 、i n t e l 、微软、摩托罗拉以及n o k i a 。 2 2 4v o i t e x t 的优势和特点 1 、对企业用户 电话是最终用户联系企业的主要联系方式,v o i c e x m l 以其简洁易用性, 为企业提供语音门户,使企业可以提供更为丰富的2 4 小时客户服务、信息查询、 在线交易等自助服务,树立企业品牌形象,产生更为可观的经济效益和社会效益; v o i c e x m l 平台可以作为低成本的呼叫中心,或者作为以w e b 为中心的电 子商务平台的补充,使企业在充分保护现有投资的基础上,进一步开拓销售渠道、 完善客户服务、提高运作效率、降低运作成本: v o i c e x m l 符合国际标准,建立在x m l 和w e b 技术的基础上,使得企业用 户可以摆脱对专用语音系统厂商的依赖,利用企业自身技术力量,特别是利用企 业对自身客户需求的深刻理解,在最短的时间内推出满足市场需求、符合企业发 展目标的语音应用: 传统的语音应用主要以用户呼入为主,v o i c e x m l 由于其流程控制的简易 性,使企业可以方便地建立各类用户回访、电话确认、电话通知应用,从而更好 地体现企业“用户至上”的宗旨。 2 、对服务提供商 及时推出满足用户需求的服务是服务提供商在市场中赢得先机的关键,采 浙江大学硕士学位论文 用v o i c e x m l ,可以大大缩短应用开发周期,同时服务提供商完全可以依托臼身的 技术力量,推出独具特色的新业务; 服务提供商可以依托自身丰富的资源给中小型企业托管语音应用, v o i c e x m i 以其简洁性,大大降低了服务提供商项目管理、系统维护的支出,从 而降低运营成本; 由于v o i c e x m l 基于通用技术,相比专用i v r 系统,人员培训、系统维护 等费用将有所减少,同时语音应用可以运行在任何支持v o ic e x n l 的语音平台。 3 、对软件开发商 可以缩短语音应用开发周期。与传统的i v r 系统不同,即使在硬件设备尚 未就绪的情况下,也可以在集成开发环境中开发、调试业务应用,从而缩短项目 进度;据估汁,与传统的i v r 开发相比,业务流程编码时间可以缩短1 2 倍,而 整个项目开发进度可以缩短一半; 可以降低服务开支。由于传统的i v r 系统往往是专用的专业人员的培训、 用户培训等服务性开支较大,而v o i c e x m l 作为国际标准,特别是基于x m l 和w e b 等通用技术,服务性开支减少; 可以减少软件维护、升级的工作量。在整个产品的生命周期中,维护工作 将占很大的比例:作为一种脚本语音,v o i c e x m l 的维护工作量大大减少,而且 配置管理工作也相对简单,从而从整体上降低了项目管理的复杂度,以节省软件 开发成本、提高软件发布效率。 2 2 5v o i c e x m k 的产品介绍 1 、i b m 语音应答系统 i b m 主要开发了v i a v o i c e 的v o i c e x m l 的服务器,以及v o i c e x m l 的开发包, 从而能与w e b s p h e r e 结合,实现计算机网络与电话的完美结合。 i b m 通过i b mw e b s p h e r ev o i c es e r v e r 为电子商务带来了3 0 多年的语音 识别技术。i b mw e b s p h e r ev o i c es e r v e r 能够帮助开发和部署交谈电子商务解 决方案,使客户能够使用电话或移动设备来访问电话和w e b 应用程序。 w e b s p h e r ey o i c es e r v e r 集成了语音可扩展的标记语言( v o i c e x m l ) 、h 3 2 3 和 g o ic e o v e r i p 等标准,可简化交谈解决方案弓现有应用程序的集成。 浙江大学硕士学位论文 i b mw e b s p h e r ev o i c er e s p o n s e 是一种最新的语音处理平台,它所提供的 i v r 功能扩展了信息检索,远远超越了传统的“按i 键继续”菜单。构筑于i b m w e b s p h e r ev o i c er e s p o n s e 之上的应用程序结合了键盘输入和n l u 语言识别。 通过w e b s p h e r ev o i c er e s p o n s e ,可以轻松地开发客户关系管理( c r m ) 和电子关 系管理( e r m ) 应用程序。支持每周7 天每天2 4 小时通过电话或移动设备“了解您 的客户”和通过语音访问客户数据。 i b m 是支持语音的电子商务公司,利用它的语音服务器产品可以通过电话来 访问应用和数据。利用i b mw e b s p h e r v o i c es e r v e rf o rw i n d o w s2 0 0 0 和a i x v 3 1 ( 替代了v o i c es e r v e rv 2 0 ) 企业可以利用他们现有的w e b 基础架构来 支持通过有线和无线电话使用语音访问现有的w e b 应用。 2 、m o t o r o l a m o t o r o l a 是最早支持v o i c e x m l 的厂商之一,m o t o r o l a 的硬件设备是v o x 网 关,既是一个a s r 、t t s 并且也是一个电话界面用来呈现v o x m l ( 舯t o r o l a 版本) 。 它充当了电话和i n t e r n e t 文字之间进行语音指令与服务翻译的中介。语音网关 服务器中内置了语音浏览器,网关使用标准的i n t e r n e t 协议访问i n t e r n e t 。 同时m o t o r o l a 还提供一种移动应用开发工具l l a d k 。该工具使移动应用开发 能够在单一开发环境下创建多个终端用户界面,v o x m l 的语音界面,w m l 的数据 界面。在v o x m l 方面包含有h t t p 链接,便于仿真网络接入v o x m l 的应用;应 用仿真器负责管理基于代理的自动语音识别a s r 及t t s 灼合成引擎。通过m a d k 开发出的应用将运行在m o t o r o l a 公司新的移动互联网交换平台上( m i x ,m o b i l e i n t e r n e te x c h a n g e ) 。 3 、n u a n c e n u a n c e 是一个专门开发语音的厂商。他有开发和构架v o i c e x m l 的一熬套工 具。其中包括v o i c ew e bs e r v e r ,v - b u i l d e r ( 开发v o i c e x m l 的可使化工具) , s e c u r ev e r i f i e r 。尤其是他对超过2 0 种语言( 包括中文及广东话) 的支持及其 优良的稳定性赢得了很多市场分额,其中包括a = e r i c a na i r l i n e s ,b e l l a t l a n t i c ,u p s 等大公司都已成为他的客户。 1 6 浙江大学硕士学位论文 2 2 6 来自微软的挑战 微软的n e ts p e e c hs d k 是使用融语音及图像等为一体的界面来构筑w e b 应 用的开发环境。与该公司的开发工具“v i s u a ls t u d i o n e t ”配合使用,其特点 是即使开发人员不具备语音界面方面的特殊知识也能使用。 大多数w 唧语音应用基本都是使用w 3 c 制定的名为“v o i c e x m l ”的描述语言 进行开发的。而n e ts p e e c hs d k 则支持微软和美国s p e e c h w o r k s 等正在开发的 名为“s a l t ”的描述语言。 n e ts p e e c hs d k 包括设置w e b 应用的语音输入输出动作的工具、用于根据 不同的应用来限制终端用户语言的语音语法编辑器、语音即时编辑器、语音调试 工具以及嵌入到w 聊浏览器( 面向个人电脑的i e ) 中的试验用插件等。 这个语音平台包含微软公司的语音识别引擎、与电话系统相连接的中间设 备、语音应用语言标识( s a l t ) 解释程序、一个s a l t 语音浏览器和文本一语音引 擎。n e t 语音平台将使开发人员和客户具备设计单一应用软件的基本条件。该 软件能够在各种环境运行支持语音的软件,如电话、台式机和移动设备的多模式 格式。 虽然微软显然在挑起一场v o i c e x m l 和s a l t 的战争。 2 3 语音系统运用 2 3 1 语音门户和应用 1 1 ) 1 3 预测,到2 0 0 2 年,全世界将有5 万个提供语音服务业务的网站;k e s l e y g r o u p 预测,到2 0 0 5 年,将有1 2 8 亿的语音互联用户,语音服务年收入将达到 1 2 3 亿美元;截止到2 0 0 1 年1 0 月,a t & t 、a o l 、n t td o c o m o 、t e l lm e 、台湾和 讯电信、y a h o o 等相继发布了语音互联服务;语音互联网正在国际上迅速成为与 s m s 、i m o d e 并列的三个电信新业务。 语音应用必须注重个性化的服务,强调信息的精炼和时效,做到用户的细分 避免烦冗和大众化。 - 1 7 浙江大学硕士学位论文 图4 语音互联的应用 v o i c e x m l 主要用于电话语音系统的开发,典型的应用可以包括以下5 类: 信息提取:将信息分类提供给用户,通过电话以语音方式提取。如公用信息: 新闻、体育赛况、股票信息、天气预报、航班信息、旅游信息和餐饮信息等;企 业内部信息:订单查询、产品信息、日程安排和文件信息等。 电子商务:电子商务的应用可以提供对电话的支持,也称为语音电子商务。 可提供的服务包括:订机票、订车票、订房和购物等。使用电话可以提高电子商 务的用户数量和服务时间。 通信服务:利用v o i c e x m l 可以建立自动无人呼叫中心。以机器代替人服务, 用户以语音与系统交互。减少了企业成本,并且可以提供2 4 x 7 h 客户服务。 统一消息:利用v o i c e x m l 可以开发功能强大的统一消息服务,提供包括电 话读邮件、电话发邮件等统一消息服务。 语音门户:语音门户同传统的互联网门户网站类似。是一个访问其他语音信 息的统一入口,不同的是语音门户通过电话访问。目前,国外有很多语音门户服 务如t e l l m e 、b e v o c a l 、s p e e c h w o r k s 等,国内t o m 也在北京开通了语音门户服 务。语音门户除了提供访问其他语音信息的通道外。还提供一些公共的服务,如 新闻、股票、旅游、天气等信息服务。用户可以定制感兴趣的信息,语音门户可 以根据不同的用户需求提供个性化的服务。 语音门户系统必将成为一个全能的“翻译器”,将无穷的互联网资源通过电 话提供给用户,为用户提供全天候、全方位的服务。 1 1 浙江大学硕士学位论文 2 3 2v o i c e x m l 统一平台标准 基于v o i c e x m l 标准的语音数据互联将为声讯网、移动网、互联网的统一提 供技术保障。该业务将使得人们利用普遍存在的电话以自然语音交互的方式方便 简单地进行互联网上的商务活动,解决了真正的移动和方便。移动和方便可以吸 引更多的用户群,但更重要的还是服务和内容,如何提供更实用、更及时、更有 效的信息是互联网包括语音互联在内发展的关键。 只有统一平台标准规范,实现全网平台内容接口的统一,并利用电话计费代 收的机制,实现i c p 收费模式、服务内容发布、运营管理、系统维护等的统一和 价值链的平衡,才能在互惠、良性循环的产业链中互相促进,共同发展。 基于v o i c e x m ! ,的统一业务脚本、简单开放的业务发布机制、完善的计费代 收费体系、统一的平台接口、不同网络的统一构成了中国又一幕网络应用的宏观 景象。 性蜃信垤机制服备内客运蕾稹式 基于i n 蛔眈标准y o c e ) o v l l 同与i r d e m e t 实时交v - i c p 、,d s p 。 语音互联的交互语音应 页由全球v - i e p 共互的遵馐、檀皇、v j k q p 分工协 用 同撮供v i 挚全面 商务、犋乐荐作、多家蕉赢 j 一 基于独立数据由单个或部扮声讯有限的僖及撰乐独家负责接 、 传蜿声讯 库的交互语音台开发、提供,不履务,信息陈旧内窖爰服荐 应用共享或靠实时共享剖怍琏难咀推广共享 图5 :传统声迅与语音互联 有了统一、互联的业务脚本以及合作的计费清算、代收费机制,可以改变 c p 的盈利模式,但还必须有统一、开放、方便的发布管理体系才能方便众多的 1 c p 的合作参与,保证服务内容的丰富和优化。 1 、w e b 脚本的业务内容:系统采用v o i c e x m l 标准的语言进行业务流程和数 据的脚本生成管理。该脚本做到语音和数据在w e b 的融台满足电话、p c 等不 同终端的语音命令交互访问。方便、简单、统一的业务脚本,保证内容的丰富、 更新和优化。 2 、统一业务发布体系:系统提供简单、一致的业务发布和管理接口规范( 如 同网页发布一样) ,并建立业务目录库进行业务的导航搜索。该体系方便了系统 浙江大学顸士学位论文 运营者和第三方业务合作者如i c p 的业务发布和管理,也方便了业务访问者的交 互,为系统平台的出租、外包合作和业务内容的丰富提供保障。对于平台全国联 网实施后,无论任何平台、中心或各地市,只需要在w e b 上发布相关的业务脚本, 系统自动生成目录信息库就可以完成不同地市业务的共享。 3 、在线发布调试、维护管理:系统提供在线调试、维护、管理功能,用户 可以在正式发布之前进行业务的试运行、调试、修改,直至满足要求后在正式发 布。整个过程不影响平台的正常运营。 4 、完善的业务统计、分析、决策链:平台完善的统计管理系统为信g j i k 务 的运营、决策提供依据,结合客户关系管理和呼叫中心的业务统计分析功能,提 供闭环的、智能的信息优化决策链。充分考虑系统平台的客户价值( c u s t o m e r e c o n o m y ) 。这些功能为平台的运营、管理者提供全网的业务运营信息,便于全网 、眦务的监督、管理、控制。 5 、全网系统管理:系统提供安全可靠的系统网络管理、业务管理、安全认 证、计费结算等等相关的功能。保证网络的后台支持。 语音资讯将是信息发展的又一场信息革命。从m i s 、e r p 、c t i 、c r m 等到工 作流的管理系统等电子商务活动将无不用到语音技术,即语音技术是商务系统的 基本部件。电话最普及、最方便,技术的发展使电话信息交互更加友好。配 合多种终端设备,几乎所有信息( 我们统一提升到知识的高度认识) 都可处 理。借助v o i c e x m l 技术和语音应用标准规范,将更方便用户的语音交互操作和 语音商务( v - c o m m e r c e ) 应用系统的建立。 良性发展的产业链,统一开放的标准,为各行业的合作提供空问。经济的发 展必须依靠独立自主的技术,各大运营商、i c p 、系统提供商等等应共同参与, 积极联合,形成互惠统一的国家利益体,努力推动我国技术的发展和经济的繁荣。 2 3 3 中国语音应用的规范性标准 在语言方面,中文语音辨识也受到相当的重视,近年在语音技术上发展量价 极的大企业如i b m 及微软,都非常注重这个市场:例如中文语音辨识,是微软 除j r 英文及日文以外,重点发展的第三种语言,已推出市面的o f f i c ex p 其中 一个卖点就是能够支持语音输入以及语音操作。i b m 的语音辨识服务器软件也支 持普通话,i b m 已经与手机制造商合作,推出数款具有中文语音应用的手机。 浙江大学硕士学位论文 结合语音上网的趋势,国内的语音厂商们也积极推进v o i c e x m l 浏览器、解 释器的研发。目前,自主产权的中文v o i c e x m l 解释器已经发布,c m i s 正基于 v o i c e x m l 起草中国语音互联的技术标准及产品规范,可望成为中国语音应用的 规范性标准( v a p ) 。 语音互联网应用技术标准v a p ( v o i c ea p p l i c a t i o np r o t o c 0 1 ) 及产品,是 指在互联网络和通信网络进行自然语音交互技术应用开发、服务提供的技术标准 及相应设备的产品规范。互联网语音应用技术标准及产品制定了语音应用的架构 和网络协议,详细说明语音终端设备( 如电话、手机、内嵌语音浏览器的智能设 备、p c 等) 与网络的通信协议和技术规范。该协议扩展和协调了通信网络技术 ( 如网络数字通信标准) 和i n t e r n e t 技术( 如x m l 、w e b 以及多种的信息内容格 式等) 。该协议可以帮助网络的运营商、设备厂商、应用开发商等建立基于语音 方式的灵活、快捷、高效的服务。 中国移动互联应用协议特别组的中文汉语专家组对互联网语音应用技术标 准及产品从多个层次进行定义:应用层、会话层、事务层、安全层、控制层、信 号层。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年宁夏回族自治区农业农村厅自主公开招聘事业单位急需紧缺高层次人才模拟试卷及参考答案详解
- 2025家居装修合同范本适用于贷款装修
- 2025绿化工作人员劳动合同范本
- 2025阿勒泰市消防救援大队招聘编制外政府专职消防员(21人)考前自测高频考点模拟试题及答案详解(易错题)
- 2025年强化未成年人就业合同权益保障
- 2025年中共昆明市委党校引进高层次人才(5人)模拟试卷及答案详解(名校卷)
- 2025广西农垦集团第一批公开招聘381人模拟试卷及答案详解(网校专用)
- 2025江苏常州市钟楼金隆控股集团有限公司招聘第一批人员考前自测高频考点模拟试题及答案详解(夺冠)
- 2025北京建筑大学第二批招聘24人考前自测高频考点模拟试题及一套参考答案详解
- 个人购车用低月息借款合同8篇
- GB 15579.3-2014 弧焊设备 第3部分:引弧和稳弧装置
- 精选商务礼仪情景模拟情景
- 男生青春期健康教育(我)
- 重载铁路知识及我国重载铁路发展情况PPT通用课件
- 内蒙古宇腾纳光伏材料有限公司年产12万吨金属硅粉颗粒项目报告书
- 五年级上册英语课文翻译外研版
- 五星级酒店前厅部岗位职责
- 部编版《道德与法治》四年级下册第1课《我们的好朋友》优秀课件(视频可直接播放)
- 大钢模模板施工方案
- 九年级历史上册教材分析
- 配料间管理制度
评论
0/150
提交评论