(计算机应用技术专业论文)基于独立智能外设的彩铃平台中语音定制功能的设计与实现.pdf_第1页
(计算机应用技术专业论文)基于独立智能外设的彩铃平台中语音定制功能的设计与实现.pdf_第2页
(计算机应用技术专业论文)基于独立智能外设的彩铃平台中语音定制功能的设计与实现.pdf_第3页
(计算机应用技术专业论文)基于独立智能外设的彩铃平台中语音定制功能的设计与实现.pdf_第4页
(计算机应用技术专业论文)基于独立智能外设的彩铃平台中语音定制功能的设计与实现.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(计算机应用技术专业论文)基于独立智能外设的彩铃平台中语音定制功能的设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京邮电大学硕士学位论文 基于独立智能外设的彩铃平台中语音定制功能的设计与实现 基于独立智能外设的彩铃平台中语音定制功能 的设计与实现 摘要 近几年 以彩铃 c o l o r i n gr i n gb a c kt o n e c r b t 为代表的电 信增值业务发展迅速 中国移动在2 0 0 3 年成功推出彩铃业务 迅速 得到用户的喜爱和使用 随后各大运营商纷纷跟进 使得彩铃在短短 3 年时间取得了飞速的发展 成为运营商重要的收入来源 截至2 0 0 5 年底 总用户数已经突破6 0 0 0 万 市场规模超过2 0 亿元 为了继续保持彩铃市场较高的增长速度 运营商不得不考虑如何 留住现有彩铃用户以及如何发展新用户的问题 众所周知 电信网络 正在从技术主导型网络向业务主导型网络演进 不断推出丰富多彩 的 富有个性的新业务成为运营商吸引用户 提高a r p u a v e r a g e r e v e n u ep e ru s e r 值的重要手段 而对于彩铃这种已经具备一定规 模的业务 必须不断为其增加新的功能 不断给用户新的体验 才能 够延长它的生命力 目前 彩铃平台的管理接入方式主要是w e b 和i v r i n t e r a c t i v e v o i c e r e s p o n s e 方式 w e b 操作简单 功能强大 但是用户必须接 入i n t e m e t 才能实现 无法做到随时随地的操作 而i v r 方式虽然可 以随时随地进行接入管理 但是却比较繁琐 用户必须逐级菜单的进 行选择 定制一首歌曲往往需要几分钟的时间 正是基于上述考虑 我们提出了在现有彩铃平台中增加语音定制 s p e e c hc u s t o m i z a t i o n s c 功能 彩铃语音定制功能使用了先进 的自动语音识别 a u t o m a t i cs p e e c hr e c o g n i z e a s r 技术 取代了 传统i v r 的按键操作方式 用户只需直接说出歌手或歌曲名就可以 快速完成定制 用户在方便快捷完成铃音定制的同时还可以感受到语 音识别技术的奇妙 这将极大地刺激用户使用彩铃的积极性 有助于 继续推进彩铃市场的持续高速发展 本文详细介绍了基于独立智能外设 i n d e p e n d e n ti n t e l l i g e n t p e r i p h e r a l i i p 的彩铃平台上语音定制功能的设计和实现 北京邮电大学网络与交换技术国家重点实验室 北京邮电大学硕士学位论文基于独立智能外设的彩铃平台中语音定制功能的设计与实现 第一章介绍了a s r 的基本知识 以及语音定制 智能网 i n t e l l i g e n tn e t w o r k i n 和i i p 的基本概念 第二章对两款成功的语音识别软件进行了详细分析 并以此为基 础进行过程抽象 提出了具体的设计改造方案 第三章根据第二章的设计方案 进一步提出了更为实际的实现方 案 包括内部接口的设计 通道状态机的设计以及新增类的详细设计 第四章详细介绍了语音用户界面 v o i c eu s e ri n t e r f a c e v u i 的设 计原则以及注意事项 给出了一个具体的设计方案 第五章对语音定制功能的进一步发展进行了展望 关键词 语音识别语音定制彩铃独立智能外设移动智能网 北京邮电大学网络与交换披术国家重点实验室 北京邮电大学硕士学位论文幕于独立智能外设的彩铃平台中语音定制功能的设计与实现 t h ed e s i g na n di m p l e m e n t a t i o no fs p e e c h c u s t o m i z 气t i o nf u n c t i o nf o rc r b tp l a t f o r m b a s e do ni n d e p e n d e n ti n t e l l i g e n t p e r i p h e r a l a b s t r a c t i nr e c e n t y e a r s t e l e c o m m u n i c a t i o n v a l u e a d d e ds e r v i c ea r e d e v e l o p i n gr a p i d l y s i n c ec h i n am o b i l ep u tf o r w a r dt h ec r b tt ot h e m a r k e t t h i ss e r v i c eh a v eb e e na c c e p t e db ym a n yu s e r s o t h e rt e l e c o m o p e r a t o r sa l s of o l l o w e dt ot h i sm a r k e t t h ef a s td e v e l o p m e n to fc r b t m a k e si ti sam a i ni n c o m i n gs o u r c ef o ro p e r a t o r s s of a r2 0 0 5 t h e s u b s c r i b e rn u m b e rh a sb r e a kt h r o u g h6 0m i l l i o n sa n dt h em a r k e tv a l u ei s m o r et h a n2 0b i l l i o n s f o rk e e p i n gt h er a p i di n c r e a s eo fc r b 刀o p e r a t o r sm u s tt oc o n s i d e r h o wt os a t i s f yt h ec u r r e n tu s e r sa n dh o wt oa t t r a c tt h en e wu s e r s a sw e a l lk n o w t h et e l e c o mn e t w o r ki se v o l v i n gf r o mt e c h n o l o g y o r i e n t e dt o s e r v i c e o r i e n t e d t h ed i s t i n c t i v en e ws e r v i c e sb e c o m ea ni m p o r t a n tw a y f o ro p e r a t o r st oa t t r a c tu s e r sa n di n c r e a s ea r p u a v e r a g er e v e n u ep e r u s e r c i 氇th a sb e e nam a t u r es e r v i c e n e wf u n c t i o na n dn e wu s e r e x p e r i e n c ew i l lm a k ei th a sal o n gl i f ec y c l e f o rk e e p i n gt h er a p i di n c r e a s eo fc r b t o p e r a t o r sm u s tt oc o n s i d e r h o wt os a t i s f yc u r r e n tu s e r sa n dh o wt oa t t r a c tn e wu s e r s a sw ea l lk n o w t h e t e l e c o mn e t w o r k i s e v o l v i n g f r o m t e c h n o l o g y o r i e n t e d t o s e r v i c e o r i e n t e d t h ed i s t i n c t i v en e ws e r v i c e sa r eb e c o m i n ga ni m p o r t a n t w a yf o ro p e r a t o r st oa t t r a c tu s e r sa n di n c r e a s ea r p u c r b th a sb e e na m a t u r es e r v i c e n e wf u n c t i o na n de x p e r i e n c ew i l lm a k ei th a sal o n gl i f e c y c l e 北京邮电大学网络与交换技术国家重点实验室 3 北京邮电大学硕士学位论文 基于独立智能外设的彩铃平台中语音定制功能的设计与实现 n o w w e ba n di v ra r et w o m a i na c c e s sm e t h o d sf o ru s e r st o m a n a g et h e i rr i n g s w e bh a ss i m p l eo p e r m i o na n dp o w e r f u lf u n c t i o n b u t i fu s e rc o u l dn o ta c c e s si n t e r n e tt h e yc o u l dn o td oa n y t h i n g i v rc a nb e u s e da n yw h e r ea n da n yt i m e b u ti t sn o te a s yt oo p e r a t e u s e rm u s tt o s e l e c tm e n ub ym e n u i ti ss ob o r i n gt of i n do u tar i n gi naf e wm i n u t e s b a s eo nt h ec o n s i d e r a t i o n c u s t o m i z a t i o nf u n c t i o n s p e e c h a b o v e w ed e c i d e dt od e v e l o ps p e e c h c u s t o m i z a t i o nm a k e su s eo fa d v a n c e d a s rt e c h n o l o g ya n dc a nr e p l a c eo ft h et r a d i t i o n a ld t m fi v r t h eu s e r c o u l dn o to n l yf i n i s hc u s t o m i z a t i o nb ys a y i n gt h en a m eo fs i n g e ro rs o n g d i r e c t l y b u ta l s oc o u l df e e lt h ew o n d e r f u la s r t h i sn e wf u n c t i o nc o u l d s t i m u l a t et h eu s e r si n t e r e s t i n gf o ru s i n gc r b ta n di m p u l s et h ec r b t m a r k e tw i t hc o n t i n u o u sa n dr a p i dd e v e l o p m e n t t h i sa r t i c l es p e c i f i c a l l yi n t r o d u c e sh o wt od e s i g na n di m p l e m e n tt h e s e r v i c eb a s eo ni n d e p e n d e n ti n t e l l i g e n tp e r i p h e r a l f i r s t l y s o m eb a s i cc o n c e p t so fa s r s p e e c hc u s t o m i z a t i o n i n i i p a r ei n t r o d u c e d t h es e c o n dc h a p t e ra n a l y s e sa n da b s t r a c t st w ol e a d i n ga s rs o f t w a r e a n dg i v es p e c i f i cd e s i g nt h ei m p l e m e n ts c h e m eb a s eo nt h ea b s t r a c t i o n t h et h i r dc h a p t e re x p a t i a t eh o wt o o ni i pa c c o r d i n gt ot h e i m p l e m e n t i n c l u d i n gd e s i g no fi n t e r n a li n t e r f a c e c l a s s e s i m p l e m e n ts p e e c hc u s t o m i z a t i o n s c h e m eo ft h es e c o n dc h a p t e r c h a n n e ls t a t em a c h i n ea n dn e w i nt h ef o r t hc h a p t e r i n t r o d u c et h ep r i n c i p l eo fv u id e s i g na n dar e a l d e s i g ns c h e m e a tl a s tc h a p t e r w es u m m a r i z es o m ea d v i c ef o rn e x tw o r k k e yw o r d s a u t o m a t i cs p e e c hr e c o g n i z e s p e e c hc u s t o m i z a t i o n c r b t i n d e p e n d e n ti n t e l l i g e n tp e r i p h e r a l m o b i l ei n t e l l i g e n tn e t w o r k 北京邮电大学网络与交换投术国家重点实验室 4 北京邮电大学硕士学位论文基于独立智能外设的彩铃平台中语音定制功能的设计与实现 1 1 移动智能网 第1 章概述 1 1 1 移动智雒网及c a m e l 标准 移动智能网 m o b i l ei n t e l l i g e n tn e t w o r k m i n 是在移动通信网上快速 方 便 经济 有效地生成和实现智能业务的体系结构 它通过在移动网络中引入智 能网功能实体 完成对移动呼叫智能控制 移动智能网是现有的移动网与智能网 的结合 将移动网的交换中心改造为业务交换点 s e r v i c es w i t c h i n gp o i m s s p 使低层的移动网络与高层的智能网相关实体如业务控制点 s e r v i c ec o n t r o l p o i n t s c p 相连 从而将移动交换与业务分开实现 并配置智能网的业务管理 点 s e r v i c em a n a g e m e n tp o i n t s m p 业务生成环境 s e r v i c ec r e a t i o n e n v i r o n m e n t s c e 业务管理接入点 s e r v i c em a n a g e m e n ta c c e s sp o i n t s m a p 业务数据点 s e r v i c ed a t ap o i m s d p 等实体便形成了移动智能网 移动智能 网的引入 使移动网从单纯的传递信息和交换信息 逐步向存储和处理信息的智 能化方向发展 借助于先进的n o 7 信令网和大型集中式数据库的支持 移动智 能网通过将网络的交换功能与控制功能相分离 建立集中的业务控制点和数据 库 进而进一步建立集中的业务管理系统和业务生成环境来达到上述目的 移动智能网的特点有 有效地使用网络资源 网络功能的模块化 重复使用 标准的网络功能来生成和实施新的业务 网络功能可在物理实体中灵活分配 通 过独立于业务的接口 网络功能问实现标准的通信 业务用户可以控制由用户所 规定的业务属性 业务使用者可以控制由使用者所规定的业务属性 标准化的业 务逻辑 这些特点同时也是移动智能网的目标 即依靠独立于业务的功能块 功 能实体间的标准通信 有效地利用已有资源 快速 简便 灵活地提供各种新业 务 移动智能网的标准研究主要集中在g s m 和c d m a 网络上 g s m 技术标准 是由e t s i 负责研究和制订的 相应的 基于g s m 网络的移动智能网标准也由 e t s i 推出 在综合考虑了欧洲各运营者和设备厂商的需求建议后 e t s i 于1 9 9 7 年提出了g s m 移动智能网的标准一 a m e l c u s t o m i z e da p p l i c a t i o n sf o rm o b i l e n e t w o r ke n h a n c e dl o g i c 移动网络增强型逻辑的客户化应用 c a m e l 标准是 北京邮电大学网络与交换技术国家重点实验室1 北京邮电大学硕士学位论文基于独立智能外设的彩铃平台中语音定制功能的设计与实现 分阶段制定的 目前推出的标准或草案分为四个阶段一c a m e l p h a s e1 c a m e l p h a s e2 c a m e lp h a s e3 和c a m e lp h a s e4 以下简称c a m e l l c a m e l 2 c a m e l 3 和c a m e l 4 目前得以应用的最新成熟规范是c a m e l 2 标准 c a m e l 标准在g s m 网络上增加智能网的功能实体 重新规划网络体系结 构 并对原有的功能实体进行m a p m o b i l e a p p l i c a t i o np a r t 移动应用部分 协 议的升级 图1 2 给出了c a m e l 2 的网络体系结构图 h m n e t 州o 一 图1 2c a m e l 2 网络体系结构图 h l r 归属位置寄存器 存储发端和终端c a m e l 签约信息 o t c s i 当o c s i 被更新时 它将被送至v l r 当h l r 对请求路由 信息作出响应时 o t c s i 将被送至g m s c h l r 可以提供接口 以使 g s m s c f 可以在任意时间进行查询 g m s c 关口m s c 当处理用户呼叫过程需要c a m e l 的支持时 g m s c 从h l r 收到o t c s i 以便向g s m s s f 请求指示 g m s c 在处理 过程中会监视呼叫状态并通知g s m s s f g s m s s f 因此可以控制g m s c 中 呼叫的执行 m s c 当处理用户呼叫过程需要c a m e l 的支持时 m s c 从v l r 收 到o c s i 以便向g s m s s f 请求指示 m s c 在处理过程中会监视呼叫状 北京邮电大学网络与交换技术国家重点实验室 2 北京邮电大学硕士学位论文 基于独立智能外设的彩铃平台中语音定制功能的设计与实现 态并通知g s m s s f g s m s s f 因此可以控制m s c 中呼叫的执行 v l r 拜访位置寄存器 当用户漫游至v l r 区域时 0 一c s i 将作为 部分用户数据存放在v l r 中 g s m s s f g s m s e r v i c es w i t c h i n gf u n c t i o n g s m 业务交换功能 此 功能实体是m s c g s m c 与g s m s c f 间的接口 负责将m s c g m s c 报告 的呼叫状态信息进行转化 然后发给g s m s c f 或者接受g s m s c f 的指示 进行格式转化 再传递给m s c g s m s c f g s ms e r v i c ec o n t r o lf u n c t i o n g s m 业务控制功能 此 功能实体包含c a m e l 业务逻辑以实现运营者特定业务 它与g s m s s f 和 h l r 接口 g s m s r f g s ms p e c i a lr e s o u r c ef u n c t i o n g s m 专用资源功能 此功 能实体提供各种专用资源 与g s m s c f 和m s c 均有接口 如图1 2 在c a m e l 网络体系结构中 智能网功能实体 g s m s s f g s m s c f 和g s m s r f 之间通过c a p c a m e l a p p l i c a t i o np a r t c a p 消息进行交互 智 能网功能实体与移动网实体间通过m a p 消息进行交互 随着移动通信系统向3 g 的发展 在c a m e l 3 规范和c a m e l 4 规范草案中 分别将c a m e l 控制能力扩展到移动通信网络的分组交换域和i p 多媒体子系统 域 1 1 2 移动智能网在我国的发展 我国的g s m 移动智能网是遵循e t s ic a m e l 规范建设的 经过了7 年的发 展 已成为全球最大 技术最先进 业务种类最丰富的商用移动智能网系统 系 统上部署和提供了多种新业务 这些业务基本覆盖了国际上所有实现成功应用的 移动智能业务 目前 我国移动智能网系统上实现应用的移动智能业务可分为灵活计费类 预付费 亲情号码 亲情卡等 卡类 手机充值卡 银行卡充值等 呼叫控 制类 移动虚拟专用网 平等接入等 资源增强类 包括个性化回铃音即彩铃 会议电话等 移动梦网类 移动位置类 目前主要是分时分区业务 等几大类 在我国g s m 移动智能网的产生和发展过程中 国内移动智能网产品占据了 主导地位 c m i n 0 2 移动智能网系统就是其中之一 c m i n 0 2 系统是北京邮电大 北京邮电大学网络与交换技术国家重点实验索3 北京邮电大学硕士学位论文基于独立智能外设的彩铃平台中语音定制功能的设计与实现 学网络与交换国家重点实验室和东信北邮信息技术有限公司开发的具有完全自 主知识产权的移动智能网产品 该系统符合e t s ic a m e l 2 标准以及信息产业部 中国移动通信集团公司制定的移动智能网协议规范 业务规范和设备规范 能够 适应我国移动通信网上设备来自多个厂家的情况 提供多种全网漫游的移动智能 业务和本地智能业务 目前 该系统并已先后应用于江西移动 安徽移动 天津 移动 海南移动 四川移动等十多个省的移动通信网上 向4 0 0 0 多万现网移动 用户提供了近3 0 种移动智能业务 而且已经打入了国际市场 1 2 独立智能外设 1 2 1独立智能外设的出现及其在移动智能网中的位置 智能外设 i n t e l l i g e n tp e r i p h e r a l i p 是智能网中重要的实体之一 它实现 智能网特殊资源功能 s p e c i a lr e s o u r c ef u n c t i o n s r f 为智能业务提供各种专 用服务 这些服务是s s p 不能或不容易实现的 如快速语音加载和更新 语音 数据的存储 f a x 存储转发功能等等 在智能网发展初期 由于智能业务比较简单 s r f 的功能往往被集成在s s p 之中 由交换机向网络提供提示音和收集用户信息的设备 随着智能网业务的发 展 一些新业务的业务逻辑日趋复杂 同时要求有频繁而相对控制复杂的与用户 交互动作的支持 这就导致了对s r f 功能增强的需求 s r f 不再象过去那样仅 仅提供简单的提示音和d t m f 收号器 而是从两个方面增强其功能 一是提供 更多的吸引人的专用资源 诸如语音 数据 图像的接收 发送设备 语音识别 设备等 特别是象a d 业务 m a s 业务和其它声讯服务类业务 语音信箱 信息 咨询等 都要求s r f 具有灵活的对用户交互的控制能力以及大容量的话音处理 和存储能力 二是s r f 要具有执行部分业务逻辑的能力 这样就可以独立于s c p 的控制和用户进行复杂交互动作 因此 可以说在网络上使用独立i p 设备是智 能网发展的必然趋势 当i p 节点独立完成s r f 功能时 就称为独立智能外设 i n d e p e n d e n ti p l i p 独立智能外设在移动智能网系统中的位置如图1 3 所示 北京邮电大学网络与交换技术国家重点实验室 4 北京邮电大学硕士学位论文基于独立智能外没的彩铃平台中语音定制功能的设计与实现 图1 3 独立智能外设在移动智能网系统中的位置 如图 i i p 和三个网元实体有接口 分别是 s c p i i p 接口 该接口位于s c p 和i i p 之间 在c a m e l 移动智能网中 通 过c a p 信令进行交互 通过该接口 s c p 指示i i p 根据智能业务的需要提供特 殊资源 s m p i i p 接口 该接口位于s m p 和l i p 之间 该接口没有标准化 通过承载 在t c p i p 之上的厂家自定义协议进行交互 通过该接口 对i i p 进行各类业务 管理 m s c i i p 接口 该接口位于m s c s s p 和i i p 之间 通过i s u p 信令进行交互 通过该接口 在m s c 和i i p 间进行呼叫的建立 呼叫的维持 呼叫的拆除等操 作 两者之间除了有信令交互外 还有话路中继的连接 1 2 2c m i n 0 2 i i p v 2 独立智能外设系统 作为c m i n 0 2 系统的重要组成部分 c m l n 0 2 i i p v 2 依据c a m e l 2 规范和 i t u t 智能网c s 2 的相关建议进行 该系统采用灵活的分布式体系结构 支持多 种特殊资源功能的提供并具备用户交互机制 可以提供用户脚本执行能力 从而 有利于支持多种新颖复杂的业务和减少与s c p 间的信令交互 图1 4 1 5 分别 给出了c m i n 0 2 i i p v 2 的系统结构图和软件结构图 北京邮电大学网络与交换技术国家重点实验室 北京邮电大学硕二l 学位论文基于独立智能外设的彩铃平台中语音定制功能的设计与实现 图1 4c m i n 0 2 一i i p v 2 系统结构图 图1 5c m i n 0 2 一i i p v 2 软件结构图 本论文的设计和实现工作就是在c m i n 0 2 i i p v 2 系统的基础上进行的 北京邮电大学网络与交换技术国家重点实验室 6 北京邮电大学硕士学位论文基于独立智能外设的彩铃平台中语音定制功能的设计与实现 1 3 语音定制 1 3 1 语音定制功能简介 随着轰轰烈烈的产业大规模基础设施投资成为过去 随着通信技术日新月异 的发展 随着垄断的打破以及市场日趋饱和 电信行业的竞争越来越激烈 运营 商的利润也越来越低 整个电信行业正在不可避免的走向微利时代 电信网络开 始从技术主导型网络向业务主导网络演进 电信行业电信业务也从粗放型向精细 化转变 从单一的基础电信业务向多样化 个性化的增值业务发展 不断推出丰 富多彩的 富有个性的新业务成为运营商吸引用户 增加a r p u 值的一种重要 手段 近两年发展最为迅速的增值业务非彩铃莫属 它在带给用户全新的电话体验 的同时更带给了运营商巨大的收入 数据显示 2 0 0 4 年国内彩铃业务市场规模 突破1 0 亿元 到2 0 0 5 年已经超过2 0 亿元 2 0 0 5 年底 全国彩铃用户数已经突 破6 0 0 0 万 相比于超过3 亿的移动用户数 6 0 0 0 万只是不到2 0 的用户数 从 这一点看 彩铃仍然有很大的发展空间 预计在未来两三年内 彩铃仍将保持高 速的发展速度 成为电信运营商的核心增值业务 随着彩铃业务的广泛开展 彩铃管理的接入方式显得越来越重要 一个简单 易用有吸引力的接入方式对于提高彩铃业务普及率极为重要 目前较为普遍的彩 铃管理接入方式有w e b 语音i v r 短信 u s s d u n s t r u c t u r e ds u p p l e m e n t a r y s e r v i c e sd a t a 非结构化补充数据业务 等 其中w e b 方式功能强大 操作方便 但受环境约束严格 必须在能够访问i n t e r a c t 的终端上操作 彩铃用户通过手机 来管理自己的彩铃是最为方便的方式 目前手机接入都是传统的i v r 方式 用 户只能被动的接受繁琐的逐级菜单操作方式 被动的在系统提供的范围内对铃音 进行视听选择 定制一首歌曲往往需要几分钟的时间 而短信和u s s d 方式则要 比i v r 方式更加低效 因此很难在用户中推广使用 根据以上需求 我们提出彩铃语音定制方式 通过在现有的i v r 语音接入方 式融入最为先进的语音识别技术 用户拨入彩铃管理系统后 只需通过简单的语 音命令 导航操作 即可实现铃音的选择 试听 下载 分配 赠送 查询等 用户首先拨打i v r 接入号码进入语音管理流程 然后可以进一步选择进入彩铃 语音定制流程 系统通过识别用户的语音信息来确定用户选择彩铃的范围 该范 围可以灵活控制 如 用户可以选择按照铃音名称 歌手名称 铃音类型等方式 一步或逐步找到自己想要得铃音 例如 当用户按照提示说出歌手名称后 系统 北京邮电大学网络与交换技术国家重点实验室 北京邮电大学硕士学位论文基于独立智能外设的彩铃平台中语音定制功能的设计与实现 通过a s r 技术识别出名称 然后检索数据库 将系统中该歌手的所有歌曲提供 给用户进行进一步的选择 用户也可以直接通过说出铃音名称来确定需要定制的 具体铃音 如果没有重名歌曲即可一步到位完成定制 整个过程简洁流畅 真正 实现了人机之间流畅自然的交流 给人们带来更加轻松便捷的应用 为广大用户 提供时尚体验的渠道及个性张扬的平台 同时为电信增值业务赋予了全新的活 力 1 3 2 语音定制核心技术 1 3 2 1 语音处理技术概述 上世纪6 0 年代 i b m 最早开始从事语音识别研究 此后的数十年 美国众 多著名大学以及m i c r o s o f t i b m i n t e l 等计算机行业的知名公司都在语音处理 方面进行了大量的投入了 其目的只有一个 就是让计算机能够处理自然语言 能够和人进行更自然的沟通 国内在语音处理技术的研究起步略晚于国外 但是 在清华大学 中国科学院自动化研究所 中国科技大学 中国社会科学院语言研 究所等国内顶尖研究机构的带动下 已经取得了很大发展 逐步在国际上引起注 意 简单的说 语音处理技术是通过计算机对人的语言进行识别和处理 以及将 文字转化成人所能听懂的声音 主要包括下面几大研究领域 语音识别 a s r 把声音变成文字 语音合成 t t s t e x tt os p e e c h 把文字变成声音 一语言理解 n l u n a t u r a ll a n g u a g eu n d e r s t a n d i n g 给识别出的文字赋 予一定的语义 一 声纹识别 v p r v o i c ep r i n tr e c o g n i t i o n 通过声音对人的身份进行辨 别和确认 1 3 2 2 自动语音识别技术 支撑语音定制业务的核心技术基础就是a s r 技术 a s r 是指机器通过识别 和理解过程把语音信号转变为相应的文本或命令的技术 计算机语音识别过程与人对语音识别处理过程基本上是一致的 目前主流的 语音识别技术是基于统计模式识别的基本理论 一个完整的语音识别系统可大致 北京邮电大学网络与交换技术国家蕈点实验室 8 北京邮电大学硕士学位论文基于独立智能外设的彩铃平台中语音定制功能的设计与实现 分为三部分 语音特征提取 目的是从语音波形中提取随时间变化的语音特征序列 一 声学模型与模式匹配 识别算法 声学模型是识别系统的底层模型 并 且是语音识别系统中最关键的一部分 声学模型通常由获取的语音特征 通过训练产生 目的是为每个发音建立发音模板 在识别时将未知的语 音特征同声学模型 模式 进行匹配与比较 计算未知语音的特征矢量 序列和每个发音模板之间的距离 声学模型的设计和语言发音特点密切 相关 声学模型单元大小 字发音模型 半音节模型或音素模型 对语 音训练数据量大小 系统识别率 以及灵活性有较大影响 一语义理解 计算机对识别结果进行语法 语义分析 明白语言的意义并 相应的反应 通常是通过语言模型来实现 人们发展计算机语音技术的最终目标就是要实现人机之间无障碍的自然沟 通 广义上讲 a s r 技术适用于任何需要和计算机进行人机交互的场合 但是 实际上受技术发展的限制 这项技术更适合用于说话内容可控性较强的应用中 也就是说需要在一定程度内预测到说话内容或是在一定范围内限制说话内容 比 如呼叫中心 设备操作控制 查询系统以及本论文将要谈到的电信增值业务 j 1 3 2 3 自动语音识别产品 目前市场上的a s r 产品按不同分类方法可以分为 特定人 非特定人 是按照声学模型建立的方式来划分 特定人识别的声学模 型是针对某一特定用户训练的 一般来说用户需要先训练系统 然后才能识别该 用户的发音 而非特定人识别的声学模型是针对某一种特定的语言来训练的 发 音人不需要训练既可使用 虽然在建立模型时需要大量的语料 对用户来说却提 供了更大方便 他们甚至不需要了解该过程 嵌入式 客户服务器模式 嵌入式是将语言识别软件及模型 写在设备 如手 机 的存储器里 识别过程在终端完成 在服务器模式 终端只负责收集和传送 语音信号 有些时候也会对收集到的信号进行简单处理 然后由服务器负责完成 识别 因此 对于大规模 多用户和有大量识别需求的系统 服务器模式提供了 有效的方式 北京邮电大学网络与交换技术国家重点实验室 9 北京邮电大学硕士学位论文基于独立智能外设的彩铃平台中语音定制功能的设计与实现 第2 章基于l i p 的彩铃语音定制功能的系统设计 2 1设计原则 在系统设计时充分考虑了原有i i p 彩铃平台的系统结构以及软件结构 提出了 以下设计原则 开放性 所有对外界接口均基于业界开放标准 保证产品可以和其他厂商 互联互通 一扩展性 可以方便进行整体容量扩展和单点设备性能提升 不会影响整体 平台结构 一先进性 采用先进成熟的设备和技术 确保系统的技术先进性 保证投资 的有效性和延续性 可靠性 提供良好的安全可靠性策略 采用多种方式 多级策略 保证单 点设备故障不会影响整个系统正常运行 易用性 不但要充分利用现有系统 而且要能够方便快捷地开展业务 能 够根据用户需求随时对业务进行调整 平滑性 与彩铃系统无缝结合 无需改动现网设备 兼容性 在不改变上层结构的基础上 能够灵活兼容不同厂商的语音识别 软件和硬件板卡 2 2 软件选型 设计原则的制定只是给出了设计集成方案的指导方针 如果想要制定出符合 上述原则的优秀方案 首先需要对国内外商用语音识别软件进行充分调研 选择 出适合我们现有平台的软件产品 选定软件产品后还要更深层次的了解该软件的 详细特点和集成方式 经过考察 最终选定了n u a n c e 公司的n u a n c e8 5 以及 s c a n s o f t 公司的o s r o p e n s p e e c hr e c o g n i z e r 3 0 这两家公司均是国际知名 的语音处理软件公司 其产品占据了大部分国际及国内市场份额 在电信 金融 服务等行业有广泛的应用 两种软件具备以下共同特性 这些特性也恰恰满足了我们系统设计原则的要 求 一 分布式体系结构 具备客户i n 务器模式 适用于大容量 并发性强电信 北京邮电大学网络与交换技术国家重点实验室1 0 北京邮电大学硕士学位论文基于独立智能外设的彩铃平台中语音定制功能的设计与实现 级应用 一支持多服务器结构 可以根据系统容量需要随时扩充增加服务器数量 提供了良好的可扩展性 一强抗噪音性 可以降低背景噪音的影响 确保较高的识别率 很好的解 决了无线网络应用中话音质量不好的问题 具备独立于说话人的大词汇量识别能力 支持动态语法 为业务开发提供了极大的灵活性 一支持开放标准 如v o i c e x m l s a l t 以及v o l p 相关标准等 保证了系 统的开放性 灵活性 一支持中文识别 提供普通话和粤语识别包 一a p i 均是基于异步事件驱动模式 符合现有i i p r n 的设计模式 进一步 提高了集成的平滑性 在国内有技术实力较强的代理公司 确保能够得到及时有效的技术支持 2 2 1 1 系统结构 图2 1n u a n c e 系统结构图 北京邮电大学网络与交换技术国家重点实验室 北京邮电大学硕士学位论文 基于独立智能外设的彩铃平台中语音定制功能的设计与实现 图2 1 中给出了n u a n c e 8 5 的各个功能实体 它们的功能分别是 一n u a n c ea p i s n u a n c e 提供的用来集成开发的应用编程接口 针对不同 的应用和开发环境提供了四种接口 v o i c e x m l s p e e c h o b j e c t s j a v a s p e e c h c h a n n e l r c e n g i n ec 一r e c o g n i t i o nc l i e n t 识别客户端 完成如下功能 在应用程序矛l i n u a n c e 系统之间进行交互 将音频发给服务器 将服 务器的返回事件和识别结果返回给应用程序 获取音频 简单的音频预处理 r e c o g n i t i o ns e r v e r 识别服务器端 完成对音频的识别以及对结果的解 释 一r e s o u r c em a n a g e r 负责整个系统的实时负载均衡 d a t a b a s e s 不是n u a n c e 的必备组件 用来存储动态语法以及声纹识别时 的用户属性 支持o r a c l e 和o d b c 数据库 c o m p i l a t i o ns e r v e r 用于运行时对语法进行动态编译 只对使用动态语 法的系统有用 l i c e n s em a n a g e r n l m 负责对软件授权通道数的管理 一t e x t t o s p e e c hs e r v e r 在需要使用t t s 的系统中配置此组件 北京邮电大学网络与交换技术国家重点实验室 1 2 北京邮电大学硕士学位论文 基于独立智能外设的彩铃平台中语音定制功能的设计与实现 2 2 1 2 工作原理 圈圈闰 0 1 k鏊鎏篓鋈鍪 藿 隧i 鍪蓥霪誊鍪 油 飞i 誊黧 鬻透i 熬 阿麟i a u d i o 厂 嚣磊慧7 i 蘩蘩爨嘲诞a p 咖e e 融e n7 隆瑟羹矍雯囊i n p u t i 目目e m 目 a a 目 目女a 强 一一 一 一 j 一帆 r e c o g n i t i o nc l i e n tr e c o g n i t i o ns e n e f 图2 2n u a n c e 工作原理图 p r e p r o c e s s i n g 对接收到的音频进行预处理 主要回声消除和滤除前后静音 然后将处理过的音频发送到识别服务器进行识别 f r o n t e n dp r o c e s s i n g 是一个特征提取的过程 对波形进行一定的整形 同 乎时可以滤去背景噪音 r e c o g n i t i o ns e a r c h 对声音特征进行分析 分析过程需要三方面的支持 巷a c o u s t i cm o d e l s d i c t i o n a r i e s g r a m m a r s a c o u s t i cm o d e l s 声学模型 可以确定音频中的每一个音素 音素的组 合就是单词 d i c t i o n a r i e s 包含每一个单词的音素描述 不同的语言需要不同的词典 来支持 甚至可以将一些不存在的发音添加到词典中 对于一些中文方 言尤其有用 g r a m m a r s 词的组合就是短语或句子 语法就是用来定义可接受的识别 语句及其语义的 i n t e r p r e t a t i o n 将识别结果和语法对照 转换成文本形式的结果返回给客户 端 2 2 1 3 系统集成 n u a n c e 针对不同的上层应用提供了不同的开发接口 这里仅讨论其c 接口 r c e n g i n e r c e n g i n e 包含了一系列跟识别 录音 放音 呼叫控制有关的 北京邮电大学网络与交换技术国家重点实验室 1 3 北京邮电大学硕士学位论文基于独立智能外设的彩铃平台中语音定制功能的设计与实现 a p i 以及一个维持整个识别过程的状态机 通知机制 绝大多数的r c e n g i n ea p i 都是异步方式的 调用成功生成一个 确认通知 a c k n o w l e d g m e n t n o t i f i c a t i o n 执行完毕会返回一个事件通知 e v e n t n o t i f i c a t i o n 如果有错误发生则会返回异常通知 e x c e p t i o n n o t i f i c a t i o n 通知被封装成n o t i f c a t i o n 类 不同的通知派生出不同的子类 通过g e t c a t e g o r y 和g e t t y p e 函数可以获得该通知的具体类别和类型 两个最重要的通知子类就是 a c k n o w l e d g m e n t n o t i f i c a t i o n 和e v e n t n o t i f i c a t i o n 通知中会含有必要的信息来区 分来自不同应用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论