(计算机应用技术专业论文)多语言智能移动终端的研究与开发.pdf_第1页
(计算机应用技术专业论文)多语言智能移动终端的研究与开发.pdf_第2页
(计算机应用技术专业论文)多语言智能移动终端的研究与开发.pdf_第3页
(计算机应用技术专业论文)多语言智能移动终端的研究与开发.pdf_第4页
(计算机应用技术专业论文)多语言智能移动终端的研究与开发.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(计算机应用技术专业论文)多语言智能移动终端的研究与开发.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 北京2 0 0 8 年奥运会是中国历史上第一次主办的奥运会,届时来自世界各国 的有着不同文化背景、说不同语言的各类人员将云集北京。中国作为2 0 0 8 年奥 运会的主办国家,北京作为2 0 0 8 年奥运会的主办城市,世界各国的人民会愈来 愈关注中国,关注北京。那么如何让这些外国人士更好的了解北京,了解中 国,与中国人民友好的沟通,将是本文研究的课题。 课题主要的研究目的是利用“奥运多语言智能信息服务系统关键技术及示 范系统研究”和“欧盟面向电子政务的语音人机交互技术研究”的前期研究成 果,同时集成语音识别、语音合成、嵌入式数据库等关键技术,完成为国外来 京旅游者提供基于北京的地理信息和旅游信息的移动智能终端,使其提供多语 言人机界面支持,并最终服务于北京2 0 0 8 年奥运会、各种大型国际会议及国外 来华旅游业务,为上述人群提供多语言的特色服务。 本文首先介绍了研发多语言智能移动终端课题- - - c i t y g u i d e - b e i j i n g 的来源和 合作伙伴,以及此课题的研究目的和意义。然后结合用户和系统的实际需求, 选定具体使用的技术,对多语言智能移动终端的总体框架设计思想进行描述。 并对多语言智能终端的开发所涉及的几项关键技术( 如:语音识别,语音合成, v q l 语音中间件,嵌入式数据库技术等) 的原理、研究现状和实际应用的可行性 及限制条件做了阐述,在此基础上展现了多语言智能移动终端的实现。包括基 于嵌入式i e 控件系统的设计思想、重要数据结构和数据文件的定义与解析、对 话管理策略的设计、信息内容的选择和筛选、语音中间件技术的接口开发和集 成;基于m b u s i n e s s - a n y w h e r e 平台的c i t y g u i d e - b e i j i n g 系统设计思想和实现方 法、数据库的设计等。最后分析3 c i t y g u i d e - b 嘶i n g 系统应用示范中的用户反 馈。 关键词多语言;移动终端;嵌入式数据库;m - b u s i n e s s - a n y w h e r e ;s a f i r a b s t r a c t t h e2 0 0 8b e i j i n go l y m p i cg a m e si st h a tt h ef i r s tt i m eh o l db yc h i n a a tm a tt i m e t h e r ew i l lc o m ev a r i o u sp e o p l et h a ts p e a kd i f f e r e n tl a n g u a g e sa n dw i t hd i f f e r e n t c u l t u r eb a c k g r o u n d e v e r yc o u n t r yi nt h ew o r l dw i l lp a ym o r ea t t e n t i o nt oc h i n aa n d b e i i i n gf o rc h i n aa st h eh o s tc o u n t r ya n db e i j i n ga st h eh o s tc i t yf o rt h e2 0 0 8b e i j i n g o l y m p i cg a m e s t h e nh o w t om a k ef o r e i g n e r su n d e r s t a n db e i j i n ga n dc h i n a ,m a k i n g t h e mc o m m u n i c a t ew i t l lc h i n e s ef r i e n d l yw i l lb et h et a s ko f t h ep a p e r t h em a i np u r p o s eo f t h ep a p e ri su s et h ep r o p o t y p ec i t y g u i d e - b e i j i n gi n t e g r a t i n g s p e e c hr e c o g n i t i o n , v o i c es y n t h e s i sk e yt e c h n o l o g i e s t od e v e l o pt h em o b i l et e r m i n a l b a s e d0 1 1t r a v e li n f o r m a t i o na n dg e o g r a p l l i c a li n f o r m a t i o nf o rt h e2 0 0 8b e i j i n g o l y m p i cg a m e sa n df o r e i g nt r a v e l si nb e i j i n g , p r o v i d et h em u t i l a n g u a g es e r v i c e s t h i sa r t i c l ew i l li n t r o d u c et h eo r i g i n a lo ft h er e s e a r c ha n dd e v e l o p m e n to ft h e m u l t i l i n g u a lm o b i l et e r m i n a l s ,a sw e l la st h ep u r p o s ea n ds i g n i f i c a n c eo f t h i sr e s e a r c h s u b j e c t a n dt h e ni n t e g r a t i n gt h ea c t u a ln e e d so fu s e r sa n ds y s t e m st os e l e c tt h e t e c h n o l o g i e si m p l e m e n t i n gi nt h es y s t e m ,d e s c r i b et h ef r a m e w o r ka n dt h ed e s i g no f m u l t i l i n g u a lm o b i l et e r m i n a l s a n de x p o u n d i n gt h ep f i n e i p l e s ,t h es t a t u so fr e s e a r c h , t h ef e a s i b i l i t yo fp r a c t i c a la p p l i c a t i o na n dt h er e s t r i c t i o n so fs e v e r a lk e yt e c i m o l o g i e s i n v o l v e di nm u l t i l i n g u a lm o b i l et e r m i n a l s ,f o re x a m p l e :s p e e c hr e c o g n i t i o n ,v o i c e s y n t h e s i s ,v q lv o i c em i d d l e w a r e ,e m b e d d e dd a t a b a s e t h e n , b a s e do nt h ef o r m e r d e s i g n , i l l u s t r a t et h ei m p l e m e n t a t i o no fm u l t i l i n g u a lm o b i l et e r m i n a l s i n c l u d i n gt h e d 韶i g na n di m p l e m e n t a t i o no fm u l t i l i n g u a lm o b i l et e r m i n a l sb a s e do ni e ;i m p o r t a n t d a t as t r u c t u r ea n dt h ed e f i n i t i o n sa n dp a r s i n go fd a t af i l e s ;d e s i g na n di m p l e m e n t a t i o n o ft h ed i a l o g u em a n a g e m e n t ;c h o o s et h ei n f o r m a t i o nc o n t e n t ;d e v e l o p m e n ta n d i n t e g r a t i n go fv o i c em i d d l e w a r ei n t e r f a c e ;t h ed e s i g na n di m p l e m e n t a t i o no f m u l t i l i n g u a im o b i l et e r m i n a l sb a s e do nm b u s i n e s s - a n y w h e r ep l a t f o r m ;d e d i g uo f t h e d a t e b a s e f i n a l l ya n a l y z e dt h er e s u l to f c i t y g u i d eu s e t s e x p e r i e n c ei n v e s t i g a t i o n k e y w o r d sm u l t i l i n g u a l ;m o b i l et e r m i n a l ;m o b i l ed a t a b a s e ;m b u s i n e s s a n y w h e r e ; s a f i r i 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。 签名: 边丝 日期:塑z 型:! 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有 权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部 或部分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 繇边鏊翩繇趔塑慨 硼7 口占, 第1 章绪论 第1 章绪论 1 1 课题来源及研究目的和意义 1 1 1 本课题来源及研究目的 本课题来源于中欧科技合作项目“欧盟面向电子政务的语音人机交互技术 研究( s p e e c ha u t o m a t i cf r i e n d l yi n t e r f a c er e s e a r c h ,简称s a f i r ) ”项目 和国家八六三计划重大课题“奥运多语言智能信息服务系统关键技术及示范系 统研究”。 课题主要研究目的是利用“奥运多语言智能信息服务系统关键技术及示范 系统研究”和“欧盟面向电子政务的语音人机交互技术研究”的前期研究成 果,同时集成语音识别、语音合成、嵌入式数据库等关键技术,完成为国外来 京旅游者提供一款基于北京的地理信息和旅游信息的移动智能终端,使其提供 多语言人机界面支持,并且完成基于m - b u s i n e s s a n y w h e r e 平台的c i t y g u i d e b e i j i n g 系统的升级工作,开发面向所有在京公众用户的信息服务系统,为具有 p d a 终端的用户,提供终端嵌入式程序下载,并通过信息同步实现离线的信息 浏览功能。最终服务于2 0 0 8 年北京奥运、各种大型国际会议及国外来华旅游业 务,为上述人群提供多语言的特色服务。 1 1 2 研究多语言智能移动终端的重要意义 1 1 2 1 理论意义 本课题的研究范围涉及到嵌入式软件开发、语音识别、语音合成:嵌入式 数据库等一系列在计算机技术领域内的热点技术,为在资源受限的嵌入式产品 中实现语音识别、语音合成的功能提供了开发经验,深入研究了语音中间件的 原理及使用以及在旅游领域中对话管理策略的设计,对多语言技术的应用起到 了示范作用,同时研究了嵌入式数据库技术,为将来使用嵌入式数据库进行开 发提供了非常宝贵的经验。 1 1 2 2 现实意义 ( 1 ) 可以在北京2 0 0 8 年奥运会期间充当“虚拟志愿者”。 北京2 0 0 8 年奥运会是中国历史上第一次主办的奥运会,届时,来自世界各 地的奥林匹克大家庭成员包括国际奥委会委员,各国奥委会委员,国际、 国家和地区体育组织的成员,贵宾,北京奥组委成员,各国代表团成员,裁判 员,奥运会工作人员,都将云集北京,参与奥运会的比赛、工作和各项活动。 北京t 业人学丁学硕f 学位论文 其中,国际奥委会委员,各国奥委会委员,国际、国家和地区体育组织的 成员,贵宾参加奥运会的主要目的是指导、一视察、观摩和学习;北京奥组委则 领导奥运会工作人员和志愿者,作为奥运会的组织者、管理者和主要工作者, 承担奥运会期间的大部分工作,保证奥运会的顺利进行:运动员则是奥运会上 的主角,他们将在裁判员的配合下,向世界展示自己精湛的运动艺术,为自己 的国家取得最大的荣誉。尽管他们参加奥运会的目的和关注点不尽相同,但都 需要各种信息服务来完成工作和参加活动。比如,奥委会成员要出席开闭幕式 和l 临时的工作会议,因此必须随时获取奥运会赛程安排、同程变更等通知;要 视察、参观奥运场馆、信息服务中心就需要这些场馆、中心的情况介绍和内部 结构图;又如各国代表团成员要购置生活用品、购买纪念品以及进行外出就餐, 就医等活动都需要了解奥运村内,乃至整个北京有关生活方面的信息。 上述人群来自世界各地,使用多种语言。因此满足他们随时随地进行多语 言的互动的信息交流的需求将是本届奥运会的重要一环。同时,北京奥申委也 提出了“绿色奥运、科技奥运、人文奥运”的理念,以及“n 2 0 0 8 年,基本实 现任何人、在任何时间、任何场所都能够安全、方便、快捷、高效地获取可支 付得起的、丰富的、无语言障碍的、个性化的信息服务”的承诺。 本课题紧密结合奥运会期间奥林匹克大家庭成员需求,运用国家8 6 3 计划以 及中欧合作s a f i r 项目支持的各种先进技术研发了一款专用终端,利用移动终 端的方便性、灵活性等特性,提供多语言语音识别、语音合成等更为人性化的 交互方式。能够在2 0 0 8 年奥运会期问用中、英、法三种语言为奥运大家庭成员 提供各种移动信息服务和奥运领域多语言互译服务。 ( 2 ) 可为国外来华旅游者提供服务。 随着我国旅游业的不断发展,到我国观光旅游的外国游客越来越多。根据 国家旅游局的统计,2 0 0 6 年来到我国旅游外国旅游者超过8 ,0 0 0 万人次,旅游收 入达3 3 5 亿美元,为世界第4 位;北京入境游人数达到1 3 2 亿人次,其中外国旅 游者超过3 9 0 万人次,预计在2 0 0 7 年,外国来京旅游者人数将超过4 2 0 万人次,增 长7 6 。 而且借着北京2 0 0 8 年奥运会的契机,世界各地的媒体、不同国家和地区的 人民会愈来愈关注中国,关注北京。中国人民特别是北京市民,将与古老而现 代的北京一起,以极大的热情欢迎这些外国朋友,欢迎他们在北京登长城、游 故宫、听京剧、逛胡同、品尝中华美食:欢迎他们在中国各处游览观光;愿意 他们多了解北京,多了解中国。这些旅游者可能来自不同的国家和地区、有着 不同的文化背景、说不同的语言。 本课题将以外国人到北京的迫切需求为基础,不断收集、完善和精炼相关 信息,集成语音识别和语音合成等技术,完成便携式电子版的北京旅游指南。 2 第1 章绪论 帮助不同国籍、不同文化、不同语言的人在非母语、相对陌生的异国异地,使 用便携式终端( 如p d a 、智能手机等) ,有效地解决交通、住宿、饮食、健 康、安全、娱乐、购物、游览观光等相关领域的信息查询问题。 1 1 2 3 相关影响 课题的实验成果将可以直接在相关领域产生下述影响: ( 1 ) 为在资源受限的嵌入式产品中实现语音识别、语音合成的研究提供开发 经验: ( 2 ) 深入研究语音中间件的原理及使用。 ( 3 ) 对多语言技术的应用起到示范作用。 ( 4 ) 为嵌入式数据库的开发提供经验。 而且,软件产品将能够直接应用于各种基于语音识别和语音合成的服务系 统( 如旅游、国土调查和警务等领域) 和需要语音互译功能的特定应用。 此外,受体积及重量的限制,各种移动终端的按键越来越成为其同趋丰富功 能的使用瓶颈,采用语音解决方案则可以突破数字键盘的局限,使嵌入式移动 设备的操作及文字输入更加人性化和简便快捷,实现真正的自助服务。例如, 语音识别技术可以解放用户的双手,在开车、走路、工作忙碌时,免去按键的 不便和繁琐,只要说出需求,一切就可以轻松搞定;而语音合成让来自过各种 信息源的海量、动态信息实时转换成自然流畅的语音,使用户得到最新的资讯 和帮助。同时,这也极大方便了老年人以及残障人群对嵌入式移动产品的使 用。 1 2 国内外在该方向上的研究现状及分析 近几年来,随着软硬件的发展以及因特网技术的成熟、带宽的提高,智能 手机、p d a 等嵌入式电子设备的功能不再单一,开始支持同趋增长的功能密 度、灵活的网络联接、轻便的移动应用和多媒体的信息处理。这使得许多科研 机构和商家开始考虑在这些便携设备上实现面向旅游业的移动导游系统。 1 2 1 国内研究进展 ( 1 ) e a s y n a v 校园导航系统。这是清华大学语音技术中心的科研成果,它是 以提供清华校园内地点信息查询服务为背景的口语对话系统。用户可以询问特 定地点的信息,查询满足要求的地点,询问去特定地点的走法,或进行其它校 园信息的查询。目前已经实现的原型系统支持文本输入、文本输出和地图标 示,要求用户询问清华校园内与地点有关的问题,但不限定询问的句型。该系 统为旅游、导航领域的自然语言句法分析、语义分析以及利用句法分析帮助进 北京t 业人学t 学硕l 学位论文 行应答生成等方面做了很多探索,并取得了一定的成功。但毕竟只是实验室的 演示系统,离实用还有一段距离i ”。 ( 2 ) d y i 型导游服务机器人是海尔哈工大机器人技术公司推出的第一代智能 导游机器人,该机器人由伺服驱动系统,多传感器信息避障及路径规划系统, 语音识别及语音合成系统组成。导游机器人由蓄电池供电,可连续运行四小 时,在一定的环境下可自主行走,并且能识别出障碍物是人还是路障,发出不 同的反应,遇到人时机器人会说:“您好! 欢迎您来到机器人世界。”游客通过 语音识别系统可以和机器人进行简单的对话。该种机器人可应用于科技馆、商 店和旅游场所进行导游服务。 ( 3 ) 胜蓝无线导游导览系统可以为游客提供及时到位的服务。游客可以通过 手中的无线p d a 与博物馆内布置的无线接入点( a c c e s sp o i n t ) 实现联网,并从中 获得博物馆的电子地图以及最佳的导游方案。它可以为游客提供详细的,交互 性很强的各个场馆的介绍。当游客们在各个不同的场馆或不同的地点游玩时他 们手中的无线p d a 会自动连入现场的无线接入点( a c c e s sp o i n t ) ,游客就可以马 上了解到关于现场展品情况和相关知识。 ( 4 ) u 伴”移动多媒体智能导游服务系统是北京东方龙字信息技术有限公司 创新开发的新一代智能移动导游服务系统,以高科技手段为游客在旅游过程中 提供一种全新的旅游体验。它依靠g p s 全球卫星定位子系统,根据游客在旅游 过程中的行为模式,游客的所见所闻,自动、智能地为游客提供全面的旅游解 说服务;无论游客是架车疾驰还是随意漫步,它都能够在景区,城市甚至全球 范围内像一位私人导游那样提供智能、准确、到位的专业导游服务。系统由游 客随身携带,通过g p s 全球定位系统随时随地准确地感知游客所处的方位,采 用语音、图片、视频等手段,自动地对游客眼前的景观、景物、进行语种的导 游讲解。同时,它还提供电子地图、旅游相关信息查询等辅助功能。 2 2 国外研究进展 ( 1 ) 美国p h a r o s 公司推出了p o c k e tp cn a v i g a t o r 语音导航软件。这是一种全性 能的导航系统,它通过同时满足实时位置信息、移动导航和提供高精确度的街 道地图大大提高了移动用户的效率。而且用户在开车时还可以用语音来控制导 航软件。 ( 2 ) s p e e c h w o r k s 公司是世界领先的电话自动语音识别系统( a s r ) 解决方案的 提供者,代表产品为s p e e e h w o r k s6 。利用该产品,新加坡股票所、 s p e e c h w o r k s 际及肯特岗数码研究院( k r d l ) 三方联合推出“股票语音报价 系统( s p e e c h q u o t e s ) 。用户只须拨通指定的电话号码,就可以用英语或华语( 因 4 第l 章绪论 拨号而异) 跟有关系统交流。 1 2 3 现状分析 由以上的阐述可知,当前的电子导游领域,已经出现了很多相关的演示原 型或实用产品。本文的1 2 1 节和1 2 2 节分别介绍了几款代表性的作品,下面将对 这几款作品所提供的功能作一个大致的比较: ( 1 ) p h a r o s 公司的p o c k e tp cn a v i g a t o r 只具备单一的g i s 功能,如地图显示、 距离量算、用户标注、路径选择以及定位与导航等。其中,p o c k c tp cn a v i g a t o r 虽然可以用语音来控制导航,但事实上只能识别为数不多的几个导航命令词,由 于语音识别引擎的功能所限,无法提供更多的应用。 ( 2 ) e a s y n a v 校园导航系统支持多种语言,但是,并没有提供国外旅游者所 需要的比较全面的信息,例如宾馆、饭店和娱乐场所等信息,而且,它是一个 演示系统,距离成熟的商业应用还有很大的距离。 ( 3 ) 胜蓝公司的胜蓝无线导游系统虽然同网络紧密的结合起来,可以为用户 提供基于位置的信息服务,但是,它不支持语音应用,自然也无法很好的实现 同用户的交互。 1 3 主要研究内容 本论文围绕外国来京旅行者的实际需求,对多语言智能移动终端的总体框 架设计思想、所需要涉及的关键技术( 如:语音识别,语音合成,v q l 语音中问 件,嵌入式数据库技术等) 进行研究。在此基础上,详细地介绍了多语言智能移 动终端的实现,包括基于嵌入式i e 控件系统的设计思想、重要数据结构和数据 文件的定义与解析、对话管理策略的设计、信息内容的选择和筛选、语音中间 件技术的接口开发和集成,c i t y g u i d c - b 蜘i n g 用户使用体验调查;基于m b u s i n e s s - a n y w h e r e 平台的c i t y g u i d e b e i j i n g 系统设计思想和实现方法、数据库的 设计等。 、 1 4 论文的组织结构 本文的主要内容大体分为四个部分来阐述: 第一部分:本文的第一章。介绍选题的背景及意义,描述了目前多语言智 能移动终端和示范应用的现状,并说明本文的主要研究内容。 第二部分:此部分是论文的主题。本文的第二章,描述了开发多语言智能 移动终端所要用到的关键技术,包括语音识别、语音合成、及它们与嵌入式产 品结合应用的现状、嵌入式数据库的发展现状、嵌入式语音中间件、界面国际 化等。第三章包括需求、运行环境、框架和模块等部分,详细介绍研发多语言 北京t 业人学t 学硕i 学位论文 智能移动终端的总体框架设计。第四章则详细描述了多语言智能移动终端的详 细设计过程。第五章则对c i t y g u i d e - b e i j i n g 系统用户体验调查问卷进行了提炼和 总结,并在调研基础上对多语言智能移动终端提出了改进建议。 第三部分:全文总结。 6 第2 章多语言智能移动终端的关键技术 第2 章多语言智能移动终端的关键技术 2 1 语音识别 语音识别技术( a u t o m a t i cs p e e c hr e c o g n i t i o n ,a s r ) 是指将人说话的音频 信号转换为可被计算机所识别的文字信息,从而识别说话人的语音指令以及文 字内容的技术。语音识别系统的性能受许多因素的影响,包括不同的说话人、 说话方式、- 环境噪音、传输信道、语音库及语料库的容量等等。1 2 捌 语音识别的研究工作可以追溯到上个世纪。2 0 世纪5 0 年代出现了第一个可 以识别十个英文数字的语音识别系统a t & t 贝尔实验室的a u d r y 系统。8 0 年 代末,实验室识别的研究产生了巨大突破:一些小词汇量的识别系统具备了较 高的识别率;同时,人们终于突破了大词汇量、连续语音和非特定人这三大障 碍,第一次把这三个特性都集成在一个系统中。9 0 年代前期,许多著名的大公 司如i b m 、苹果、a t t 和n t t 都对语音识别系统的实用化研究投以巨资,使 得识别的准确率在9 0 年代中后期实验室研究中得到了不断的提高。然而,在实际 应用中,语音识别系统的鲁棒性( r o b u s t n e s s ) 、灵活性和自适应能力还远远不 能满足实际的需要,技术上也显得力不从心【4 j 。 2 1 1 语音识别方法简介 计算机语音识别过程与人对语音的识别处理过程基本上是一致的,目前主 流的语音识别技术是基于统计模式识别的基本理论。一个完整的语音识别系统 可大致分为三部分1 5 : ( 1 ) 录音并提取语音特征。其目的是从语音波形中提取出随时间变化的语音 特征序列。 ( 2 ) 利用声学模型进行模式匹配。声学模型由事先获取的语音特征库通过学 习算法产生,是识别系统的底层模型,并且是最关键的一部分。它的目的是提 供一种有效的方法计算语音的特征矢量序列和每个发音模板之间的距离,即计 算语音到音节的概率。声学模型的设计和语言发音特点密切相关。声学模型单 元大小( 字发音模型、半音节模型或音素模型) 对语音训练数据量大小、系统 识别率,以及灵活性有较大的影响。必须根据不同语言的特点、识别系统词汇 量的大小决定识别单元的大小。在识别时将输入的语音特征同声学模型( 模 式) 进行匹配与比较,得到最佳的识别结果【”。 ( 3 ) 利用语言模型进行语言处理。语言模型包括由识别语音命令构成的语法 7 北京下业= 学t 学硕f 学位论文 网络或由统计方法构成的语言模型,语言处理可以进行语法、语义分析。对 中、大词汇量的语音识别系统语言模型是特别重要的。当分类发生错误时可以 根据语言学模型、语法结构、语义学进行判断纠正,特别是一些同音字则必须 通过上下文结构才能确定词义。语法结构可以限定不同词之间的相互连接关 系,减少了识别系统的搜索空间,这有利于提高系统的识别。 目前比较成功的语言模型主要有规则模型和统计模型两种。统计语言模型 是用概率统计的方法来揭示语言单位内在的统计规律,其中n - g r a m 简单有效, 被广泛使用。该模型基于这样一种假设,第n 个词的出现只与前面n - 1 个词相 关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些 概率可以通过直接从语料中统计n 个词同时出现的次数得到。常用的是二元的 b i g r a m 和三元的t r i g r a m 。 一个典型的语音识别系统如图2 1 所示。 图2 1 典型的语音识别系统 f i g u r e2 - 1t y p i c a la s rs y s t e m 2 1 2 当前存在的问题及研究重点 随着语音识别技术从各个不同的突破口进行应用和产业化,更多的难点凸 现出来,成为当前的研究重点。 首先,方言或口音会降低语音识别率,而对于拥有八大方言区的中文来 说,应用的难度会更大。所以,方言语音或口音的声学特点,以及音系和词汇 特点,对语音识别系统至关重要,正成为前沿研究课题 6 1 。 其次是背景噪音。人多的公共场所巨大的噪音对语音识别影响自不用说, 就算在实验室环境下,敲击键盘、挪动麦克风都会成为背景噪音。它将破坏原 始语音的频谱,或者把原始语音部分或全部掩盖掉,造成识别率下降。实际应 第2 章多语言智能移动终端的关键技术 用中,噪音是无法避免的。研究将要解决的问题就是如何把原始语音从背景噪 音中分离出来,这将会使识别系统具有很强的适应性【”。 还有就是“口语”的问题。它既涉及到自然语言理解,又与声学有关。语 音识别技术的最终目的是要让用户在“人机对话”的时候,能够像进行“人人 对话”一样自然。而一旦用户以跟人交谈的方式来进行语音输入时,口语的语 法不规范和语序不正常的特点会给语义的分析和理解带来困难。另外,当人们 用口语交流时,即便是人的大脑分析认为是非常标准的发音,在语音识别的时 候上却变到了声学的角度。随意发音带来的问题是很大的。 以上三点是在语音识别技术的应用中对识别率影响最大的三个因素。除此 以外,由于语音在识别前需要传输,识别系统还需要适应不同类型的传输信 道。语音识别技术本身还有很大的发展空间【8 j 。 2 1 3 可能的应用 受目前识别技术的限制,在短期内还不可能造出具有和人相比拟的识别系 统。要建成这样一个系统仍然是人类面临的一个大的挑战,只能一步步朝着改 进语音识别系统的方向前进【”。所以现在的应用系统一般都不会去追求最完美 的应用如非特定人、连续语音、大词汇量的语音识别产品,而是把当前已 经成熟的那部分技术应用到实际的产品中,例如以中小词表为主的命令式语音 识别。在这类系统中,非特定人的识别精度已经大于9 8 ,特定人的识别精度 就更高。这些技术已经能够满足一定的应用要求【1 们。例如,一些电话机、手机 已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括 语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查 询有关的机票、旅游、银行信息,并且取得很好的结果。调查统计表明多达8 5 以上的人对语音识别的信息查询服务系统的性能表示满意【l “。 2 2 语音合成 语音合成技术( t e x tt os p e e c h , t t s ) 是指将文字信息转变为音频信息,以 语音的方式播放出来的技术【1 5 】。 2 2 1 语音合成方法简介 一般认为,语音合成系统包括三个主要的组成部分:文本分析模块、韵律 生成模块和语音生成模块。其中,语音生成是语音合成系统中最基本、最重要 的模块。概括起来说,语音合成的主要功能是:根据韵律建模的结果,从原始 9 北京t 业夫学t 学硕l 学位论文 语音库中取出相应的语音基元,利用特定的语音合成技术对语音基元进行韵律 特性的调整和修改,最终合成出符合要求的语音 1 6 , 1 7 。典型的语音合成过程如 图2 2 所示。 图2 - 2 语音合成示意i 墨| f i g u r e2 - 2t e x t - t o s p e e c hs y s t e m 语音合成可以包含两种可能实现的途径: ( 1 ) 使机器再生一个预先存入的语音信号,就像普通的录音机一样,不同之 处是采用了数字存储技术。如果简单地将预先存入的单音或词组拼接起来也能 做到让机器开口,但它是一字一蹦,机器味十足,人们很难接受;如果预先存 入足够的语音单元,在合成时采用恰当的技术手段挑选出所需的语音单元,将 它们拼接起来,也有可能生成高自然度的语句,这就是波形拼接的语音合成方 法。为了节省存储容量,在存入机器之前还可以对语音信号先进行数据压缩 【1 8 1 。 ( 2 ) 采用数字信号处理的方法,将人类发声过程看作是一个模拟声门状态的 源,去激励一个表征声道谐振特性的时变数字滤波器。这个源可能是周期脉冲 序列,它代表浊音情况下的声带振动,或者是随机噪声序列,代表不出声的清 音。调整滤波器的参数等效于改变口腔及声道形状,达到控制发不同音的目 的,而调整激励源脉冲序列的周期或强度,将改变合成语音的音调、重音等。 因此,只要正确控制激励源和滤波器参数( 一般每隔l o m s 3 0 m s 送一组) ,这 个模型就能灵活地合成出各种语句来,因此,又称为参数合成方法【1 蚣0 】。 语音合成技术经历了一个逐步发展的过程,从参数合成到拼接合成,再到 两者的逐步结合,其不断发展的动力是人们认知水平和需求的提高。 1 0 2 2 2 技术现状及发展方向 计算机输出的“合成语音”应该是可懂、清晰、自然、具有表现力,这是语 音合成追求的目标。2 0 世纪6 0 年代,英语t t s 系统首先被研制成功。九十年代 初,基于p s o l a 技术的法语、德语、英语、日语等语种的文语转换系统都已经 研制成功。8 0 年代,我国开始介入汉语语音合成领域的研究。近些年来,在国 家“8 6 3 ”智能计算机主题的支持下,汉语t t s 技术有了长足的进步。虽然目前语 音合成技术已走向实用,但还有许多理论和应用问题有待解决【2 l 】: ( 1 ) 提高合成语音的自然度。提高合成语音的自然度仍然是高性能文语转换 的当务之急。就汉语语音合成来说,目前在单字和词组一级上,合成语音的可 懂度和自然度已基本解决,但是到句子乃至篇章一级时其自然度问题就比较 大。 无论用哪种合成方法,韵律规则的总结,特别是连续语音的韵律规则总 结,尽可能将定性的规则描述定量化,对自然度始终有最重要的影响。还有前 端文本处理,对合成语音的自然度也具有举足轻重的影响,完整全面的解决,需要 自然语言理解的突破2 2 。 ( 2 ) 丰富合成语音的表现力。目前国内外大多数语音合成研究是针对文语转 换系统,且只能解决以某种朗读风格将书面语言转换成口语输出,缺乏不同年 龄、性别特征及语气、语速的表现,更不用说赋予个人的感情色彩。随着信息 社会的需求发展,对人机交互提出了更高的要求,丰富合成语音表现力逐渐被 提上日程。 相对来说采用波形拼接方法对韵律的控制能力非常有限,用来增强合成语 音表现力比较困难。更为有效的办法是采用参数合成法,分析参数特征,通过 对相关参数的调整来实现对年龄、性别特征的改变,进一步实现语气、语调的 变化,使用与内容相适合的风格以及语气语调来完成文本到语音的转换。由于 这种改变是连续的,对象特征可以千千万万,显得更有生命力。 ( 3 ) 降低语音合成技术的复杂度。就目前汉语文语转换系统而言,减小音库 容量就是一个重要课题。目前高质量的汉语文语转换系统一般需要几兆字节到 几十兆,甚至几百兆字节的存储容量,这在以p c 机或工作站为硬件平台的应用 中是没有问题的,而对于像h p c 、p d a 、手机及商务通等资源有限的设备就无 法承受。解决的方法可以是通过语音压缩编码的方法来压缩音库所需的容量, 或者采用更小的合成基元,例如用声母、韵母或双音素、半音节,以及减少合 成语音所需的音节基元数等等。然而又不能增加算法的复杂度,因为运算量及 系统开销同样会直接影响汉语语音合成的应用。既要提高语音合成的质量,又 要降低语音合成的复杂度,这始终是一个矛盾的两个方面1 2 3 1 。 北京丁业人学t 学硕l 学位论文 ( 4 ) 多语种文语合成。不同语言之间的交流在开放的信息社会和网络时代显 得十分重要,多语种的文语合成有着独特的应用价值。即使是对汉语合成也有 多方言文语转换的需求。理想的多语种合成系统最好是各种语言共用一种合成 算法或语音合成器,但是现有的语音合成系统大多是针对某一种语言或若干种 语言开发出来的,所采用的算法及规则都是和某种语言密切相关的,因此很难 推广到其他的语种。例如汉语的一套韵律控制规则完全不适合于英语,而且主 要是合成汉语普通话,即使推广到广东话和上海话都有相当的难度。可见要真 正解决多语种的文语合成,从文本处理到语音合成都必须有新的思路【2 ”。 2 2 3 嵌入式语音合成技术 嵌入式语音合成产品适用于体积受限、不宜采用传统显示的场合,典型的 应用环境包括以手机为代表的移动通信环境、以g p s 导航为代表的汽车环境和 以电子书和电子词典为代表的随身数码娱乐环境。 嵌入式语音合成技术的实现方式有硬件和软件两种方式,虽然其实现的功 能相同,但应用的场合存在一定的差别。硬件方式通用且整合简单,技术支持 少,适用于固定电话等物理空间有余地和设备中主芯片性能不高、存诸空问有 限的场合。而软件方式则相对灵活,节省物理空间和成本,缺点是软件移植周 期长、量少时成本大,适用于物理空问有限、但主芯片强大和有多余存储空间 的场合,如电子词典和手机【2 ”。 运算和存储资源有限一直是语音技术在嵌入式环境应用的最大壁垒,此外 由于嵌入式环境的硬件和软件平台千差万别,存在多种硬件平台、操作系统和 软件环境,传统的语音合成系统在适用性和移植性上也难以满足多样的嵌入式 环境的需求。因此,系统资源占用、语音合成效果和系统移植性等一直是嵌入 式语音合成厂商研发的重点。 而随着网络的普及,很多嵌入式应用已经拥有了网络通信能力,能够从远 端服务器获取数据( 这种通信能力往往受限于带宽的约束) 。基于这种背景, 分布式语音合成的思想应用而生。即将语音合成算法中复杂性较高的文本分 析、韵律预测等部分放在服务端处理,而将数据量较小( 与文本数据处于同一量 级) 的韵律数据传往设备端的合成器算法部分,在终端生成最终语音。这种方法 给资源受限的终端设备带来了非常高质量的合成语音可以在一定程度上解决上 述问题【。 2 3 嵌入式语音中间件 嵌入式语音中间件是在嵌入式语音应用程序和操作系统与硬件平台之间嵌 1 2 第2 苹多语岢智能移动终端的关键技术 入的中间层,通常定义成一组比较完整的、标准的程序接口。它主要为嵌入式 语音应用软件的开发提供跨操作系统和跨硬件平台,层次化和模块化的接口, 以及简单的对话管理策略,方便集成语音识别和语音合成引擎 2 7 1 。 v q l 就是一种典型的嵌入式语音中间件,它是v o i c e - - i n s i g h t 公司的专利技 术,能够和各种语音引擎( a s r ,t t s ) 集成在一起( 只要v q l 和语音引擎满 足接口要求) ,并提供了开发不同语音应用系统的接口。通常一个基于v q l 的 语音应用系统具有如下结构【2 8 】: 图2 - 3v q l 语音应用系统 f i g u r e2 - 3v o i c 2a p p l i c a t i o ns y s t e mo f v q l v q l 技术具有如下的优点: 独立于特定的语音识别引擎和语音合成引擎,并支持多种语言:美国英 语,英国英语以及主要的几个欧洲语言,比如法语,荷兰语。目前已经开发出 对于中文的支持。 独立于特定的设备,适用于手持设备,无线设备,( 比如电话,p d a ) , p c ,交互式电视等。 独立于应用,能够较少重复开发,并能够适应不同的应用需求。 支持当前主要的语音工业标准,比如s a p i ,x m l ,v o i c e l ,j s a p i , s a p i 。 v q l 的技术特征在于它的三层体系结构( 图2 - 4 ) ,分为一般领域,特定领 域,数据库应用模块这使得v o i c e i n s i g h t 既可以提供完整的v q l 解决方案,也可 以提供基于v q l 的开发工具包,由客户部署并开发出不同的语音应用系统。 v q l 的显著特点就是能够将现有的应用系统转变为语音驱动的应用系统【2 9 1 。 北京丁业大学t 学硕十学位论文 lv q l 语音中间件 t i 一 一般领域 i 图2 4v q l 的三层体系结构 f i g u r e2 - 4t h r e et i e r sa r c h i t e c t u r eo f v q l 2 4 嵌入式数据库 随着移动计算技术的发展,嵌入式数据库逐步走向应用,在嵌入式操作系 统中显示出了其独特的优越性。 数据库技术一直随着计算的发展而不断进步,随着移动计算时代的到来, 嵌入式操作系统对嵌入式数据库系统的需求为数据库技术开辟了新的发展空 间。嵌入式数据库技术目前已经从研究领域逐步走向广泛的应用领域。随着智 能移动终端的普及,人们对移动数据实时处理和管理要求的不断提高,嵌入式 数据库越来越体现出其优越性,从而被学界和业界所重视唧】。 移动计算是一种新型的技术,它使得计算机或其他信息设备在没有与固定 的物理连接设备相连的情况下能够传输数据。移动计算的作用在于,将有用、 准确、及时的信息与中央信息系统相互作用,分担中央信息系统的计算压力,使 有用、准确、及时的信息能提供给在任何时间、任何地点需要它的任何用户。 所谓嵌入式数据库是指支持移动计算环境的分布式数据库。由于嵌入式数 据库系统通常应用在诸如掌上电脑、p d a 、车载设备、移动电话等嵌入式设备 中,因此,它又被称为嵌入式数据库系统 3 l j 2 1 。 移动计算环境比传统的计算环境更为复杂和灵活。计算平台的移动性、连 接的频繁断接性、网络条件的多样性、网络通讯的非对称性、系统的高伸缩性 和低可靠性以及电源能力的有限性等因素对嵌入式数据库的性能提出了相当高 的要求。移动技术的发展必将对嵌入式数据库的发展起强大的推动作用,同时 嵌入式数据库的发展也能促进移动计算的广泛应用1 3 引。 嵌入式数据库在实际应用中必须解决好数据的一致性( 复制性) ,高效的 事务处理,数据的安全性等问题。4 1 。 1 4 第2 章多语占智能移动终端的天键技术 ( 1 ) 数据的一致性 一 嵌入式数据库的一个显著特点是移动终端之间以及与服务器之间的连接是 一种弱连接,即低带宽、长延迟、不稳定和经常性的断开。为了支持用户在弱 环境下对数据库的操作,现在普遍采用乐观复制方法( o p t i m i s t i c r e p l i c a t i o n 或l a z yr e p l i c a t i o n ) 允许用户对本地缓存上的数据副本进行操

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论