




已阅读5页,还剩53页未读, 继续免费阅读
(计算机应用技术专业论文)asr与tts功能在语音增值业务平台中的设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
a s r 与t t s 功能在语音增值业务平台中的设计与实现 摘要 随着增值业务的不断发展和移动用户对内容需求的增大,传统的 使用数据业务提供内容的方式已不能满足需求。语音增值业务系统通 过以话音为主的方式向用户提供内容。作为语音增值业务系统的核 心,语音增值业务平台采用v x m l ( v o i c ee x t e n s i b em a r k u p l a n g u a g e ) 这一开放标准语言,给业务内容提供商的语音内容业务提 供执行平台,进而建立起全新的“运营商业务提供商内容提 供商”价值链。a s r ( a u t o m a t i cs p e e c hr e c o g n i t i o n ) 与t t s ( t e x tt o s p e e c h ) 是语音增值业务平台开展语音业务所需的极为重要的媒体资 源能力,它们优化了用户与语音增值业务平台的交互手段,提高了服 务质量,而且促使了新的业务的出现。 本文对作者攻读硕士学位期间的工作进行了回顾和总结。作者在 课题设计期间负责语音增值业务平台中a s r 和t t s 功能的设计和实 现。论文首先分别对语音增值业务系统与语音增值业务平台的概念和 结构、a s r 与t t s 的原理及其标准进行丫介绍。接着重点设计了a s r 和t t s 功能在v a p ( v o i c ev a l u e a d d e ds e r v i c ep l a t f o r m ) 中的一种基 于a p i 的实现方案。v a p 的t t s c ( t e x tt os p e e c hc l i e n t ) 模块和r n ( r e s o u r s en o t e ) 模块受控于v x m l 模块,通过引擎的a p i 与a s r 或t t s 服务器进行交互来提供a s r 与t t s 媒体资源。t t s c 模块实 现文本到语音文件的转换的功能,这种功能适用于对实时性无要求或 合成的文本较小的场合。结合t t s 引擎a p i 的特点,t t s c 模块采用 了线程池模式来实现消息的并发处理及资源的动态分配。r n 模块在 v a p 中负责提供各种媒体资源,它由消息分发模块r n m a n a g e r 、资 源节点功能模块r n f ( r e s o u r c en o t ef u n c t i o n ) 等组成。r n f 模块实 现了语音和d t m f 音信号的识别及文本的播放,其实现依赖于其它 由d s p ( d i g i t a ls i g n a lp r o c e s s ) 语音卡提供的媒体资源能力。论文在对 并发处理、实时性、资源协作、资源动态分配等关键问题的分析和解 决的基础上,完成了r n f 模块的设计和实现。论文分别在n m s 和 d d i a l o g i c 两种语音卡上对r n f 模块进行了实现,并对这两种实现进 行了比较。本文最后分析了基于a p i 的实现方式的缺陷,提出了一种 基于m r c p ( m e d i ar e s o u r c ec o n t r o lp r o t o c 0 1 ) 协议的改进方案。使 用m r c p 协议作为v a p 与a s r t t s 服务器的接口的好处是只需要进 行一次编码就可以集成所有支持该协议的引擎。论文基于m r c p 和 n i v l s 的f u s i o n 对r n f 进行了改进,并介绍了下一步的工作及对a s r 与t t s 的发展进行了展望。 关键词:语音增值业务平台,a s r ,i t s ,m r c p t h ed e s i g na n di m 口l e m e n t a t l 0 no f a s ra n dt t sf u n c t l 0 n si n v o i c ev a l u e a d d e ds e r v i c ep l a t f o r m a b s t r a c t w i t ht h ed e v e l o p m e n to fv a l u e a d d e ds e r v i c ea n dt h ei n c r e a s ei n r e q u i r e m e n to fm o b i l eu s e r sf o rc o n t e n t t h et r a d i t i o n a lw a yt h a ti t i st o p r o v i d ec o n t e n tu s i n gd a t as e r v i c ec a n tm e e tt h en e e d a sc o r eo fv o i c e v a l u e a d d e ds e r v i c es y s t e mw h i c hp r o v i d e sc o n t e n tm a i n l yt h r o u g h tv o i c e i n t e r a t i o n v a p ( v o i c ev a l u e a d d e ds e r v i c ep l a t f o r m lu s e sv x m l ( 、,o i c e e x t e n s i b l em a r k u pl a n g u a g e ) w h i c hi sa no p e na n ds t a r d a r dl a n g u a g e a n dp r o v i d eap l a t f o r mo nw h i c hv o i c ec o n t e n ts e r v i c eo fs e r v i c ea n d c o n t e n tp r o v i d e r sr u n s a n dt h e nf o r mt h en e wv a l u ec h a i nt h a ti s “t e l e c o m u n i c a t i no p e r a t o r s e r v i c ep r o v i d e r c o n t e n tp r o v i d e r ”i ti s n e c e s s a r yf o rv a pt ob ec o u p l e dw i t ha s r ( a u t o m a t i cs p e e c hr e c o n i t i o n ) a n dt t s ( t e x tt os p e e c h ) m e d i ar e s o u r c e s ,w h i c hp r o v i d eab e t t e rw a yf o r c u s t o m e r st oc o m m u n i c a t ew i t hp l a t f o r m a n de n a b l ev a pt oo f f e rb e t t e r s e r v i c ea n dr e a l i z en e ws e r v i c e t h i sp a p e rr e v i e w sa n di ss u m m a r i e df r o mt h es t u d ya n dd e v e l o p i n g w o r kd o n eb yt h ea u t h o ri nh i sg r a d u a t ey e a r s d u r i n gt h er e s e a r c h ,t h e a u t h o rw a si nc h a r g eo fd e s i g n i n ga n di m p l e m e n t i n ga s ra n dt t si n 溺尸i nt h eb e g i n n i n g 。t h i sp e ri n t r o c e dt h ec o n c e p ta n da r c h i t e c t u r eo f v o i c ev a l u e a d ds e r v i c es y s t e ma n dv a pa n dt h ep r i n c i p l ea n ds t a n d a r t s p e c i f i c a t i o n so fa s rm a dt t s t h e naw a yu s i n ga p it or e a l i z ea s r a n d t r si nv a pw a sd e s i g n e di nd e t a i l t t s c ( t e x tt os p e e c hc l i e n t l m o d u l ea n dr n ( r e s o u r c en o t e ) m o d u l eo fv a pi sc o n t r o l l e db yv x m l m o d u l ea n di n t e r a tw i t ha s ra n dt t ss e r v e rt h r o u g h ta p io fe n g i n et o p r o v i d ea s ra n dt t sm e d i ar e s o u r c e t t s cs y n t h e s i z e st e x ti n t oaf i l e a n dt h ef u n c t i o ni su s e di ns o m eo c c a s i o nw h e nr e a lt i m ei s n td e m a n d e d o rt h et e x ti ss m a l l a c c o r d i n gt oa p io ft t se n g i n e ,t t s cu s e st h e t h r e a dp o o lt or e a l i z e i n t e r c u r r e n tm e s s a g ep r o c e s s i n ga n dd y n a m i c d i s t r i b u t i o no fr e s o u r c e r nm o d u l ew h i c h c o n s i s to fm e s s a g e d i s t r i b u t i o nm o d u l er n m a n a g e ra n dr n f ( r e s o u c e n o t ef u n c t i o n ) m o d u l ee t ci si nc h a r g eo fo f f e r i n gm e d i ar e s o u r c e r n fs u p p l i e st h e f u n c t i o no fs p e e c ha n dd t m fs i g n a lr e c o g n i t i o na n dt e x tp l a y i n g ,w h i c h d e p e n d so no t h e rm e d i ar e s o u c ec a p a b i l i t ys u p p o r t e db yd s p ( d i d i t a l s p e e c hp r o c e s s ) v o i c ec a r d r n f ( r e s o u r c en o t ef u n c t i o n ) m o d u l ea r e d e s i g n e da n di m p l e m e n t e db a s e do n t h ea n a l y s i sa n ds o l u t i o no fs o m e k e yp r o b l e m si n v o l v i n g i n t e r c u r r e n ta n dr e a l t i m e p r o c e s s i n g , c o l l a b r a t i o na n dd y n a m i cd i s t r i b u t i o no fr e s o u r c e ,a n d s oo n r n f m o d u l ei si m p l e m e n t e di nn m sa n dd i a l o g i cv o i c ec a r d t h i sp a p e r c o m p a r et w oi m p l e m e n t i o n ,a ti a s t ,t h i s p a p e rp o i n t e d o u ts o m e d i s a d v a n t a g eo ft h ef o r m e rw a ya n db r i g h tf o r w a r dab e t t e rs o l u t i o n o f r e a l i z a t i o no fa s ra n dt t si nv a pv i am r c p ( m e d i ar e s o u r c ec o n t r o l p r o t o c 0 1 ) t h eg o o d o fu s i n gm r c pa st h ei n t e r f a c eo fv a pa n d a s r t t ss e r v e ri s t h a tt h ei n t e g r a t i o no fa l le n g i n es u p p o r t i n gm r c p j u s tn e e d st oc o d eo n c e t h i sp a p e ri m p r o v e sr n fm o d u l eb a s e do n m r c pa n dn m sf u s i o n ,a n dt h e ni n t r o d u c e st h e n e x ts t e pw o r ka n d m a k e sap r o s p e c tf o rt h ed e v e l o p m e n to f a s r a n dt t s k e yw o r d s :, c a p , t t s ,a s r ,m r c p 北京邮电火学碗l 学位论文a s p - 与丁t s 功能在语旨增值业务n 半台中的设计与实现 第一章绪论 1 1 移动增值业务与语音增值业务系统 增值业务是基本业务以外的业务。对运营商而言,增值业务是极其重要的。 因为它具有吸引新顾客、留住旧顾客和增加收益等许多好处,而这些都是运营商 的生命线。有效地、战略地配置增值业务可以使运营商在激烈的竞争中独树一帜。 通过向顾客提供全新的、高质量的增值业务,运营商除了可以扩大市场份额和增 加收益,还可以使其基础业务得到增长。 移动增值业务是移动运营商在移动基本业务的基础上,针对不同的用户群和 市场需求开通的可供用户选择使用的业务。目前移动增值业务主要分为移动数据 类增值业务和移动语音类增值业务。移动数据增值业务包括移动内容类业务、移 动商务类业务、移动位置类业务、移动终端类业务等几类。在移动,无线智能网 上成功开通的移动话音增值业务包括:预付费业务、移动虚拟专用网( v p m n ) 业务、动感地带业务、移动i p 电话业务、无线广告业务、移动主被叫付费业务、 亲情号码业务、移动语音信箱业务、移动秘书业务、多彩回铃音业务等。 图卜1 语音内容业务系统结构图 随着基于内容业务的不断发展和梦网模式的不断普及,移动用户对内容的需 求也逐步增大。目前,运营商主要通过数据业务( 短消息、g p r s 等) 向用户提供 内容。语音增值业务系统通过话音为主的方式向用户提供内容服务。如图卜l , 语音增值业务系统分为业务承载层和业务管理层两部分,业务承载层包括v a p 、 北京邮电大学网络r ,交换技术图家重点实验室 北京邮电大学坝士学位沧文 a s r 与t f s 功能往语音增值业务甲台中的设计与实现 m s c 平i j s p ( s e r v i c ep r o v i d e r ) 服务器等网元,s p 上的内容和应用经过v a p 的解释执 行,以语音的方式和用户进行交互;业务管理层包括v s m p ( v o i c es e r v i c e m a n a g e m e n tp l a t f o r m ) 、w e bp o r t a l 等网元,主要完成系统管理、s p 管理、用户 管理和业务发布管理等功能。 各个网元的功能如下: m s c - m s c 根据事先确定的路由原则,将用户呼叫接续习 v a p 平台。 v a p :v a p 实现呼叫处理、资源分配和回收、语音门户、业务解释执行、业务 流程和内容存储等功能,并向j v s m p * d 网管中心提供管理接口。 v s m p :v s m p 主要完成系统管理、用户管理、s p 管理、业务发布管理、鉴权管 理、资费管理和对v a p 管理等功能。 文件过滤器:文件服务器对s p 传送到脚本和内容进行过滤,检查是否包括敏 感或者不健康信息。该模块的功能可以由v s m p 完成。 应用s p :应用s p 提供业务流程,业务流程p 以v x m l 脚本的形式描述。应用s p 应保存用户对业务的定购关系,当提供下行业务时,应用s p 应通知v a p 运行脚本 并呼叫用户。 内容s p :内容s p 提供业务中需要的内容,包括文字、数据、声音等。当内容 发生变化、更新时,内容s p 应通v s m p 发起内容同步。 w e bp o r t a l :v s m p 通过w e bp o r t a l 。,向移动用户提供用户自助服务管理的w e b 界面,向s p 提供s p 自助服务管理的w e b 界面。 1 2 语音增值业务平台( v a p ) 简介 中国移动语音内容业务是在传统声讯业务的基础上,通过舌音、短信、彩信、 w a p 等多种接入方式,为中国移动终端用户提供以话音内容业务为主的业务。 它是一种融合了多种类型的话音和数据业务为一体的信息获取、信息互动的增值 业务。v a p 使用v x m l 这- - 1 1 放标准语言,给业务内容提供商的语音内容业务提 供统一执行平台。它是语音增值业务系统的核心,是个由增值业务提供商以先 进、成熟的语音技术在运营商和s p 之间建立的,一个终端客户进行信息消费的, 稳定、丌放的业务平台。从而以“客户一平台一信息”为结构拓展出全新的“服 务一技术一资源”增值业务提供模式,充分发挥各自在不同领域的优势,建立起 “运营商一增值业务提供商内容提供商”价值链,为移动梦网带来新的活力。 在中国移动的语音增值业务平台规范中,语音增值业务平台由语音接入管 理、v x m l 业务逻辑解释执行、专用资源模块、全局资源管理、计费管理、设备 操作维护管理、用户数据和业务逻辑与数据存储管理、s p c p 接口管理等功能模 块组成,通过v s m p 接口管理模块,接受v s m p 的管理。 北京邮电大学网络0 交换拉术闰家重点实验空3 北京邮电大学硕士学位论文a s r 与1 t s 功能在语音增值业务平台中的设计与实现 图t 一2 语音增值业务平台逻辑结构 语音增值业务平台系统逻辑结构如图1 2 。其中语音接入管理模块完成呼 叫控制功:v x m l 业务逻辑解释执行模块实现对v x m l 业务流程的解释执行,完 成和电话用户的交互;专用资源模块提供放音、收号、录音、传真、文语转换( t t s ) 、 自动语音识g j j ( a s r ) 、语音会议桥和人工话务员等专用资源功能,语音增值业务 平台的自动语音识别功能指的是,接收通路内语音信息或者d t m f n 号并对它进行 识别,用户以声音或按键输入命令或数据后系统将其转换成相应的信息,上报 给业务逻辑,语音增值业务平台的文本至语音转换的功能指的是,将存储在系统 中的指定文本信息自动、准确地转换成规定语言的语音信息,发送给电话用户; 全局资源管理实现对不二j s p 的不同业务使用专用资源进行统一调度和管理:计 费管理模块实现对内容计费的功能;设备操作维护管理模块提供设备操作维护管 理功能,并对上级网管中一t l 提供网管接口:用户的个性化定制数据、业务的费率 信息以及s p 的业务流程与内容、全局资源管理的配置数据存储在数据库中; s p c p 接口管理模块实现s p 接入管理和用户对栏目的个性化定制功能,当业务流 程和内容放在s p c p 上时,系统通过该接口模块到s p c p 获取业务流程和内容, 并对s p c p 的业务流程和内容进行检查和过滤。v a p 通过v s m p 接口管理模块接 受v s m p 的管理,实现业务逻辑与内容的发布和更新、费率数据和用户个性户定 制数据的同步和更新的功能;对从v s m p 来的s p 呼出请求进行调度管理;接受从 v s m p 来的全局专用资源配置管理指令,对业务使用专用资源情况进行配置;并 能根据v s m p 的请求,对话务统计原始数据加工后上报给v s m p 。 北京邮f i i 大学网络j 交换披术罔家重点实验空4 北京邮电大学硕卜学位论文 a s r 与t r s 功能柏:语音增值业务、f 台中的设汁与实现 2 1a s r 概述 第二章a s r 与t t s 概述 a s r ( a u t o m a t i cs p e e c hr e c o g n i t i o n ) 是一种使用计算机来识别人通过电话或 麦克说话产生的语音信号的语音技术。作为专门的研究领域,a s r 又是一门交 叉学科,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学 等众多学科紧密相连。 在a s r 中用到的最主要的技术是隐马尔可夫模型( h m m ) 。这种技术通过判 断每个相邻小区的语音信号最可能是哪一个音素来识别单词,因为词汇表旱的单 词其实就是音素的组合。通过一种叫做v i t e r b i 的搜索过程来决定最可能是哪一 个因素序列。搜索局限于词汇表的单词所对应的音素序列。标准的隐马尔可夫模 型使用高斯混合模型来计算可能性的值,而在h m m a n n 框架中,这些值是采 用人工神经网络( a n n ) 来计算的。 a s r 引擎的工作过程如图2 - 1 ,包括三个步骤: 应用程序 一f , f 语音 识别盔果 b 厂r l 黥薹h 删搜索h 识鬻 l j 1 l 图2 - 1a s r 引擎的工作) 无程 前端语音处理:完成端点( 话音的起始点和结束点) 检测,降噪等。 识别:根据声学模型、语言模型、语法进行识别。声学模型是语音识别系统 中最关键的部分,它的作用就是前面提到的确定音素序列。语言模型是指语言中 北京邮l 乜人学网络,交换投术罔永首点实验室 5 北京邮电大学硕l 一学位论义 a s r0 t t s 功能任语音增值业务平台中的、嫂汁与实现 的一些规则或语法结构,是表现字或词上下文之间的统计模型。语言模型可以预 测在句子中某个位置最可能出现是什么单词。语法对所有可能识别的语言进行描 述,简单的说,语法告诉识别器应该听什么。语法可以用有向图来描述,图中的 节点可以是一个单词或一个句子,如果识别成功,识别的结果将是图的一条路径。 产生识别结果:识别结果按照一定的文本结构返回。 a s r 分有两种:一种是独立与人的识别,即不管是谁,只要他说的话是一样 的,识别结果都是相同的。它主要应用于人机交互。使用语言作为输入的优势是 显而易见的,方便快捷。另一种是特定人的识别,又叫声纹校验,主要用来进行 身份验证。在本文中讨论的a s r 指的是第一种。 由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条 件下获得满意的性能,或者况只能应用于某些特定的场合。语音识别系统的性能 大致取决于以下4 类因素:1 识别词汇表的大小和语音的复杂性;2 语音信号 的质量:3 单个说话人还是多说话人;4 硬件平台。 以下是目前业界主要应用和产品的简介: 1 听写机应用。i b m 公司于1 9 9 7 年丌发出汉语v i a v o i c e 语音识别系统,次 年又开发出可以识别上海话、广东话和四川话等地方口音的语音识别系统 v i a v o i c e 9 8 。它带有一个3 2 ,0 0 0 词的基本词汇表,可以扩展到6 5 ,0 0 0 词,还包 括办公常用词条,具有“纠错机制”,其平均识别率可以达到9 5 。该系统对新 闻语音识别具有较高的精度,是目前具有代表性的汉语连续语音识别系统。此外, 比较著名的商用英语连续语音识别系统有:d r a g o nn a t u r a l l ys p e a k i n gp r e f e r r e d 4 0 、f r e es p e e c h2 0 0 0 、l & hv o i c ex p r e s sp r o f e s s i o n a lv e r s i o n4 0 和v i a v o i c ep r o m i l l e n n i u me d i t i o n 等。 2 电话查向与交易应用。s p e e c h w o r k s 公司是世界领先的电话自动语音识别 系统( a s r ) 解决方案的提供者,代表产品为s p e e c h w o r k s6 。利用该产品,用户 可以通过电话用自然语言与系统进行交互,进行旅游预约、股票交易、银行服务、 订票服务、宾馆服务和寻呼服务等,由于系统是自动的,无需服务人员的介入。 3 基于掌上电脑和d s p 的应用。通过简化识别算法,语音识别软件可以运 行在如掌上电脑和d s p 的平台上,实现语音导航、拨号和对家用电器的语音控 制等功能。目前市场上出现了语音识别电话、语音识别记事本等产品,如美国 v p t c 公司的v o i c eo r g a n i z e r 和法国的p a r r o t 等。此外,市场上还出现了语音识 别专用芯片,如美国d s pc o m m u n i c a t i o n 公司的d v c 3 0 6 和d 6 1 0 1 、日本o k i 半导体公司的m s m 6 6 7 9 和美国s e n s o r yc i r c u i t s 公司的r s c l 6 4 等。 北京i l gr 1 1 大学嘲络lj 交换技术困家蕈点实验室 北京邮电大学颂f 岸位论文a s r 与t t s 功能柚:语音增值业务平台中的殴计与实现 2 2t t s 概述 t t s 又叫语音合成( s p e e c hs y n t h e s i s ) ,是一种将输入的文本转换成语音的技 术。t t s 的输入的文本包括两部分:纯文本和标记。纯文本指的是语言的内容, 而标记可以用来改变话音的声调、速度、重读等。 t t s 引擎 文本 处理 合成 图2 - 2t t s 的引擎工作流程 t t s 引擎的处理过程如图2 2 。 文本处理:通过语言模型进行分词、消除单词的多义( 如确定多音字的发音) , 并处理标记。 合成:把单间转换成语音。合成主要有两种,一种是基于规则的合成,主要 是计算参数的轨迹,形成规则,完成语音的合成,采用的参数包括发音器官参数 和声道模型参数;另一种是基于拼接的合成,合成器按照语言规则把预先录制的 语音单元进行拼接,预先录制的语音单元的集合叫做音库,合成的语音的音质与 录音员的是一样的。表2 1 对两种方式进行了比较。 表2 一lt t s 合成方式的比较 合成方式基于规则 基于连接 资源需求( 占用硬盘和内 少大 存空间) 合成语音的质量比较僵硬比较自然 语音定制 语音的种类是有限的,需语音的种类是无限的。 根据需求定制各种音库。 语音合成技术主要有以下发展方向: 1 提高合成语音的自然度。提高合成语音的自然度仍然是高性能文语转换 北京邮电大学网络,交换技术同家晕点实验室 北京邮电大学硕士学位论文a s r 与t 丁s 功能订:语音增值业务平台中的设计与实现 的当务之急。就汉语语音合成来说,目前在单字和词组一级上,合成语音的可懂 度和自然度已基本解决,但是到句子乃至篇章一级时其自然度问题就比较大。 2 丰富合成语音的表现力。目前国内外大多数语音合成研究是针对文语转 换系统,且只能解决以某种朗读风格将书面语言转换成口语输出,缺乏不同年龄、 性别特征及语气、语速的表现,更不用说赋予个人的感情色彩。 3 多语种文语合成。语言是人们交流的工具,不同民族有自己不同的语言, 不同语言之间的交流在今天开放的信息社会和网络时代显得十分重要,多语种的 文语合成有着独特的应用价值。 2 3a s r 与t t s 在电信系统的集成及其相关标准 随着a s r 与t t s 的发展,很多电信业务都开始使用这些技术。这些技术一 方面为业务提供了更为友好的人机界面,提高了业务的服务质量,进而推动了业 务的发展。另一方面,这些电信业务也推动了a s r 和t t s 技术的发展。电信业 务里用到的媒体资源( 如放音、d t m f 采集、混音、传真等) 是通过电信网络的 资源节点( 如智能网的i p 、n g n 的媒体服务器、i m s 的m r f p ) 来提供的,这 些节点通过集成a s r 和t t s 引擎来提供a s r 和t t s 资源。此外,一些独立的 语音业务平台( 如i v r 、v a p ) 也会集成a s r 和t t s 引擎,使用a s r 和t t s 媒体资源来开展业务。目前,a s r 和t t s 引擎的主要集成方式是使用引擎提供 的s d k ,当然语音技术提供商也会相互合作提供更高层次的a p i 以方便开发商 的集成,如n m s 和n u a n c e 合作推出的n c e 。 a s r 与t t s 的标准主要包括语法、识别结果和输入文本标准。a s r 语法的 标准有w 3 c 的s r g s ( s p e e c hr e c o g n i t i o ng r a m m a rs p e c i f i c a t i o n ) 并 1s u n 的 j s g f ( j a v as p e e c hg r a m m a r f o r m a t ) 。s r g s 定义了两种语法格式,x m l 和a b n f ( 扩展巴克斯范式) 。x m l 格式的语法即g r x m l 语法使用x m l 元素来表示语 法结构,g r x m l 语法就是x m l 文档。a b n f 语法使用a b n f 来定义语法,它 是一种普通文本格式,与传统的b n f 语法及现有的类b n f 语法很类似,比 g r x m l 语法更简洁。两种语法格式是可以互相转化的。j s g f 是基于文本的语 法,它采用了j a v a 编程语言的样式,同时也使用了一些传统的语法标记。a s r 识别结果的标准有w 3 c 的n l s m l 和e x t e n s i b l em u l t i m o d a la n n o t a t i o n 。图2 - 4 是一个a s r 的g r x m e 语法的例子,这个语法用于识别数字一、二或三。该语法中 的 元素包含的内容用来作为语音语法或者d t m f 语法的语义解释。如当识别 出语音“一”时会返回一个“l ”的语义理解。s 1 s r ( t h es e m a n t i ci n t e r p r e t a t i o n f o rs p e e c hr e c o g n i t i o ns p e c i f c a t i o n ) 为 元素描述了一个句法和语义,并说 明了怎样使用被匹配的规则中 元素的内容来计算用户输入的语义解释。图 北京邮电人学刚绗o j 交换技术罔朱草点实验室8 北京邮电大学硕:l - 学位论义a s r 与- r r s 功能n 语音增值业务1 f 台中的设计与实现 2 4 是图2 3 显示得语法的一个n l s m i 。识别结果。识别结果的 标记的c o n f i d e n c e ( 信心指数) 属性用来表示识别结果准确的可能性 c o n f i d e n c e 的值的范围从0 到1 0 0 ,值越大,该结果的可能性越高。 是对识别结果的语义理解,它的值是“一”。应用程序根据语义解释而不是原始 结果进行操作的好处是程序的代码不用随着识别的内容改变而改变。t t s 的输入 文本标准主要是w 3 c 的s s m l ( s p e e c hs y n t h e s ism a r k u p 】a n g u a g e ) 。s s m l 定义了一套丰富的,基于x m l 的标记语言以支持在w e b 语音浏览器或者其它应用 程序中生成合成语音。这一标记语言的的主要作用在于提供给合成内容的作者一 个标准的方法来控制语音的各个方面,例如发音、音量、语速、基频等。图2 5 是t t s 的一个s s m l 例子。例子中的 标记用束标识停顿, 用来 控制语音输出的音量、音高和语速。r a t e 属性用来控制语速,“一2 0 ”是指比其 它合成文本的语速慢2 0 。 、。_ 。_ 。1 1 。,。_ x m lv e r s i o r = l0 ? e s u l t in t e r p r e t a t i 0 1 3g r a m m a r = ”d i g i t “c o n f id e n c e = ”9 l ” d i g i t c e t a t i o n 图2 - 4n l s m l 示例 北京邮电人学删络交换技术国家草点实验室 些室型生查兰塑主兰生堡苎a s r 与t t s 功能在语音增值业务平台中的设计与实现 另外,i e t f 正在制定a s r v f t s 服务器与客户端的接口标准m r c p 协议, 但该协议现在还是草案。使用m r c p 作为接口的好处是只需要进行一次编码就 可以把所有支持该协议标准的a s r t t s 服务器集成到现有系统。大部分的 a s r t t s 服务器都将支持m r c p 标准。目前也有些根据m r c p 草案实现的 m r c p 客户端产品,如n m s 的u n i v e r s a ls p e e c h a c c e s s 和a c l 】j a b 的m r c p c i i e n t , 通过它们提供的a p i 进行二次丌发,可以快速的实现与多种a s r f i t s 服务器相 通。 对于需要集成a s r 引擎的系统,需要集成的平台提供以下能力:录音:回 声消除;在一个语音通道同时进行录音和放音。后两种能力是为了支持a s r 的 打断( b a r g e - i n ) 模式打断模式指的是用户可以不用听完系统的提示音就呵以 开始说话让系统进行识别。打断模式是一种良好的服务的体现,因为当用户对业 务熟悉时,可以不再需要听完提示音就进行下一步操作,允许打断可以节省用户 的时| 1 白j e t ,而且用户对重复听同个声音也会感到厌烦。有些a s r 引擎还提供 d t m f 识别的功能,即把采集的d t m f 与d t m f 语法进行匹配,来得到这一串 d t m f 所代表的具体含义,为实现这种功能需要集成平台需要具备采集d t m f 信号的能力。 a s r 一般按照以下流程进行:语法加载,通知识别引擎需要识别的语法, 识别引擎会对语法进行编译并放入内存;播放提示音;识别,向识别器发送语音 数据,获得识别结果;删除语法。由于语法的编译时间比较长,一个大的语法要 北京邮电大学网络与交换技术国家重点实验室 塑型型堡型堂生塑兰堕些缝堂望堕些塑堂! 塑垦生壁型 可能要编译几个小时,所以对于一些语法固定的识别应用,可以在系统初始化的 时候进行加载。而对于语法经常改变,或者在识别前才能得到的语法,一般都是 到识别前才进行动态的加载,这种情况下的语法基本上都是小语法。 北京邮电大学网络+ ,交换投术周寐重点实验室 北京邮电大学顺- l 一学位论文a s r 与t t s 塑壁垄堕童堕堕些墨! 鱼! 塑苎生皇壅墨 第三章基于a p i 的设计与实现 3 1 印v a p 的系统结构与呼叫流程 在我们设计的e bv a p 系统中,主要包括以下模块:s a n 、1 7 s e r v e r 、 m a n a o e r 、v x m l 、r n 、o u t c a l l 、s d f 、t t s c 、d o c u m e n ts e r v e r 、a s rs e r v e r 、 t t ss e r v e r ,如图3 1 所示,其中灰色的部分是与a s r 、t t s 相关的功能实体。 日 7 、 一d o e u x 1 胛e n ,?、 ,? 、| _ i 。 j 啊j i l e d i as e t v e rf 一“ 图3 - ie bg a p 系统结构图 其中m s c 和前置交换机s a n 通过话路相连,m s c 与s a n 的i s u p 信令通 过s t p 相连( 也可以采用直连方式,即不通过s t p ) 。 在e bv a p 的内部,s a n 和1 7 s e r v e r 通过东信的内部信令相连,s a n 与r n 之 间有话路连接。m a n a g e r 与1 7 s e r v e r 、v x m l 、s d f 、o u t c a l l 、t t s c 和r n 分别相 连,都是内部信令,这些信令统一采用a s n 1 的编码方式。其m a n a g e 负责将消 息向其他模块转发。v x m l 负贵呼叫控制和v x m l 的解析与执行,它- 与d o c u m e n t s e e r 的是h t t p 协议的短连接它从d o c u m e n ts e r v e r 获取v x m l 脚本,另外, v x m l 还负责计费。s d f 负责v x m l 的全部数据库访问操作,在v x m l 使用内置 数据库访问方式时,则无需s d f 过t ! 程。o u t c a l l 实现定时主动呼叫功能,从而 把用户提前定制的点播业务按照用户要求的时间播放给特定用户接听,提供定时 触发v a p 、j k 务的机制。v a p 与v x m p 通过共享数据库的方式进行通信。t t s c 负 责t t s 资源的提供。资源节点r n 负责媒体资源的提供,包括放音、d t m f 音信号 的产生和采集、录音、混音、a s r 、t t s 、电路媒体格式与分组媒体格式的转换 北京岍电大学刚络j 交换投术国家重点实验室 北京邮屯大学硕一1 :学位论文a s r 与t t s 功能打:语音增值业务平台中的设计与实现 等,r n 是基于d s p 语音卡实现的,包括n m s 和d i a l o g i c 语音卡。s t r e a mm e d i a s e r v e r 流媒体服务器与v a p 的资源节点r n 相连,r n 使用r t s p 协议与流媒体服务 器建立r t p 连接,获取和控制流媒体服务器的媒体资源。 因为a s r 干i t t s 的运算刑系统资源消耗都是很大的,所以系统采用c s 的模 式进行a s r 和t t s 的集成。r n 和t t s c 采用a p i 对t t ss e r v e r 或a s rs e r v e r 进行控 制。r n 的a s r 能力包括两部分:对语音的识别和对d t m f 音信号的识别。r n 的 t t s 能力指的是播放文本。把a s r 和丌s 的功能在r n 实现,主要是因为a s r 和 t t s 操作与语音通道;阳d s p 资源有很紧密的关联,在一次a s r 或t t s 操作中,他 们会有很多的交互。r n 与t t s c 提供的t t s 能力是不一样的,t t s c 进行文本合成 并把合成的浯音数据写到文件,而r n 把合成的语音进行实时的播放,需要放音 功能的支持。把t t s c 分离出来主要是因为有些t t s 操作对实时性的无要求或者 合成的文本较小,这时它不再需要占用语音信道和d s p 资源,可以把这部分功能 独立出来。 图3 2 是v a p 的一个呼q 流程,y a p 执行的业务脚本是一个基本的i v r 业务。 提示音通过t t s 转换得到,用户根据提示说话,系统使用a s r 来得到输入信息。 下面对该流程进行具体地描述:m s c 接到用户拨打特服号码的请求后,查询路由 数据,即将i a m 消息通过s t p ( 或不通过s t p ) 发送到s a n 。s a n 在接到m s c 的 i a m 后,转换成东信的信令格式,通过s o c k e t 接口发送给1 7 s e r v e r 。 7 s e r v e r 在接到来自s a n 的i a m 后,再转换成内部信令之后发送给v x m l 。v x m l 收到此消 息之后,会立刻回一个a c k ,表示此消息已经收到。v x m l 继续处理i a m ,获得被 叫号码和主叫号码后,根据配置文件到相应的d o c u m e n
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度跨境贸易代理服务合同范本
- 2025版印刷设备维修保密协议
- 二零二五年度新型环保灰砂砖批量采购合同规范版
- 二零二五年度租赁房屋租赁押金及违约责任合同
- 2025版化工原材料采购与供应链管理合同
- 2025版环保企业安全生产管理与应急处理合同
- 2025版城市更新改造项目施工合同规范文本
- 二零二五年新型储能电站维护与保养服务协议
- 2025电梯维保安全协议书-高层住宅电梯全面保障合同
- 2025版钢结构厂房施工期道路通行与临时设施建设合同
- 农行招聘薪酬管理办法
- 危险废弃物及固体废物管理培训
- 2025至2030中国膜行业产业运行态势及投资规划深度研究报告
- 2025至2030中国物流园区行业产业运行态势及投资规划深度研究报告
- 2026年高考生物一轮复习:必背高频考点讲义(全)
- 2025年成人高考语文试题及答案
- 移动护理信息系统应用
- 乡镇密码电报管理制度
- 影视剧公司管理制度
- 村级络监控安装方案(3篇)
- 潜水员入场安全教育试卷(含答案)
评论
0/150
提交评论