




已阅读5页,还剩91页未读, 继续免费阅读
(通信与信息系统专业论文)基于语音识别的旅游用语言检索翻译系统研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 基于语音识别的旅游用语言检索翻译系统,是一个以语音识别为技术支持, 旅游翻译系统为应用背景,机器翻译为目标的应用研究。 在语音识别技术方面,本论文提出了一种基于仿生模式识别的新的模式识 别方法,即基于矢量量化的仿生模式识别。仿生模式识别是一种先认识,后划 分的模式识别,区别于传统的先划分再识别的模式识别,它能做到单模板识别, 大大降低了误识率。仿生模式识别模拟人类认识事物的过程,对不能识别的样 本,做到了拒识,因此从某种程度上提高了识别率。且相对于语音识别中常用 的隐马尔可夫h m m 模型,它的识别速度较快,算法易于运行,便于在手机等小 型通用设备上集成。为了易于系统的集成本文在特征选取上,对传统的特征 量进行了变换,使用算法速度较快的特征进行样本训练,提高了系统整体的运 行速度。 在翻译系统方面,由于真正的机器翻译是集语音识别、机器翻译、语音合 成为体的,由于语种复杂多变,种类繁多,目前机器翻译仍旧是科技界的一 大难题。所以本文提出的语言检索翻译系统,是在语音识别技术的基础上,通 过数据库的检索,来达到关键语意翻译的目的。且本文的系统是应用于旅游, 因此也大大降低了数据库中词汇的容量。现今,旅游已成为人们休闲度假的首 选,日益增多的旅游胜地,多语种的交流使得语言沟通成为一大问题。如果能 够用手机等便携设备实现翻译,那将大大减少人们旅途中语言的障碍。因此本 文提出的所有技术,包括识别方法,特征提取的变换,数据库语言检索都是基 于能够让系统易于集成这个目的。 本论文的主要工作集中在以下几个方面:1 对语音识别预处理中的语音端 点检测,提出了一种新的方法,它使用图像处理来检测语音端点,并结合传统 的检测方法,提高了端点检测的精度。2 对语音识别的特征进行了改进,在使 用传统特征参数的基础上,增加了特征变换,在保证特征精确度的前提下使算 法的速度加快。3 通常的连续语音流中关键词识别采用的h m m ( 隐马尔克夫模 型) 来进行模式识别,本文根据仅仅提取关键词这特点,采用了基于矢量量 化的仿生模式识别的方法,对样本群先识别再划分,而不是传统意义上的直接 摘要 样本划分,提出了具体算法,从而提高了识别率。最后介绍了翻译系统,针对 目前直接翻译不能实现,本文采用了语言检索的方法来实现关键语意的检索翻 译。 关键词:语音识别,端点检测,矢量量化,仿生模式识别,机器翻译 i i a b s t r a c t a b s t r a c t t h el a n g u a g ei n d e xt r a n s l a t es y s t e mf o rt r a v e l i n gb a s e do ns p e e c hr e c o g n i t i o n i sa l l a p p l i c a t i o nr e s e a r c ht h a ts u p p o s e db ys p e e c hr e c o g n i t i o nt e c h n i q u e w i t l t r a v e l i n gt r a n s l a t es y s t e ma sa p p l i c a t i o nb a c k g r o u n da n dm a c h i n et r a n s l a t i o na sg o a l i nt h ef i e l do f s p e e c hr e c o g n i t i o n ,t h ep a p e rb r i n g so u tan e wm e t h o dt h a tb a s e d o nb i o n i cp a t t e r nr e c o g n i t i o nt h a ti sb i o n i cp a t t e r nr e c o g n i t i o nb a s e do nv e c t o r q u a n t i z a t i o n b i o n i cp a _ c t e mr e c o g n i t i o ni s ak i n do fp a t t e r nr e c o g n i t i o nw h i c hi s r e c o 掣a j z ef t r s tt h e nd i v i d e ,a n di sd i f f e r e n tf r o mt r a d i t i o n a lp a t t e mr e c o g n i t i o nw h i c h i sd i v i d ef i r s tt h e nr e c o g n i z e b i o n i cp a t t e r nr e c o g n i t i o nc a l lr e a l i z es i n g l ep a t t e r n r e c o g n i t i o nw h i c hc a nd e c r e a s ee r f o rr a t em o s t l y b i o n i cr e c o g n i t i o ns i m u l a t et h e r e c o g n i t i o np r o c e s so fh u m a n ,i tc a nr e f u s et or e c o g n i z ew h e ni t f i n d su n k n o w n s a m p l e s ,s oi ti n c r e a s et h er e c o g n i t i o nr a t et os o m ee x t e n t c o m p a r et ot h eh m m p a t t e r n ,i th a sf a s tr e c o g n i t i o ns p e e d ,a n dt h ea r i t h m e t i ci se a s yt oo p e r a t e ,w h i c hi s e a s yt oi n t e g r a t i o no nm o b i l ep h o n ea n do t h e rt i n t y p eg e n e r a lf a c i l i t i e s i no r d e rt o i n t e g r a t et h es y s t e m ,t h ep a p e rc o n v e r s et h et r a d i t i o n a lf e a t u r e ,a n du s e st h ef e a t u r e s w h i c hh a v ef a s ta r i t h m e t i ct os a m p l e st r a i n i n g ,s oi n c r e a s et h ew h o l es y s t e m s o p e r a t i o ns p e e d i nt h ef i e l do ft r a n s l a t i o n ,b e c a u s et h er e a lm a c h i n et r a n s l a t ei n t e g r a t e st h e s p e e c hr e c o g n i t i o n ,m a c h i n et r a n s l a t i o na n ds p e e c hs y n t h e s i z eo n 6i nw h o l e ,a n da s t h ek i n d so fl a n g u a g ei st e v i t ya n dt o t so f , s ot h em a c h i n et r a n s l a t ei sab i gd i f f i c u l t p r o b l e mi ns c i e n c ef i e l d s ot h ep a p e rb r i n g so u tt h el a n g u a g ei n d e xt r a n s l a t i o n s y s t e m ,w h i c hi s b a s e do ns p e e c hr e c o g n i t i o n , u s i n gd a m b a s ei n d e xt or e a l i z e k e y w o r d sm e a n i n gt r a n s l a t i o n a n dt h ep a p e r ss y s t e mi s u s e do nt r a v e l i n g ,s o d e c r e a s et h ew o r d si nd a t a b a s em o s t l y n o w a d a y s ,t r a v e lh a sb e e nt h ef i r s tc h o i c ei n p e o p l e sf r e et i m e ,a n dm o r ea n dm o r et r a v e l i n gp l a c e sb r i n ga l ls o r t so fl a n g u a g e c o m m u n i c a t i o nw h i c hc a u s eab i gp r o b l e m i fw ec a l lu s em o b i l ep h o n eo ro t h e r p o r t a b l ei n s t r u m e n t st or e a l i z et r a n s l a t i o n _ ,t h e ni tc a nd e c r e a s et h ec o m m u n i c a t i o n s o b s t a c l ei nt r a v e l i n gm o s t l y s oa l lt h em e t h o d si n c l u d i n gr e c o g n i t i o na p p r o a c h , i i i a b s t r a c t 1 。_ - - 。- _ _ - - 。_ 。_ 。_ 。- 。_ - _ - 。_ 。_ 。_ _ - 。_ 。1 。一 f e a t u r e sc o n v e r s i o na n dd a t a b a s ei n d e xt h ep a p e rb r i n g so u ti sb a s e do nh o wt om a k e i te a s yt oi n t e g r a t et h es y s t e m m o s t l yr e s e a r c h e sf o c u so nt h ef o l l o w i n ga s p e n :1 f o re n d p o i md e t e c t i o ni n p r e - t r e a t m e n to fk e y w o r ds p o t t i n g ,w eu s ean e wm e t h o do fi m a g ep r o c e s s ,t h a ti s u s i n gi m a g ep r o c e s s i n gt od e t e c tt h ee n d p o i n t ,t h e nc o m b i n et r a d i t i o n a lm e t h o d st o i m p r o v ed e t e c t i o nr a t e 2 ki m p r o v es p e e c hr e c o g n i t i o nf e a t u r e s a d d i n gf e a t u r e s c o n v e r s i o n 。i c r e a s et h es p e e do ft h ea r i t h m e t i ca n di n s u r et h ef e a t t i r e sp r e c i s i o n 3 u s u a l l yk e y w o r ds p o t t i n gi nu n c o n s t r a i n e dc o n t i n u o u ss p e e c hu s eh m m ( h i d d e n m a r k o vm o d e m ) t or e c o g n i z e ,t h i sp a p e ru s ec h a r a c t e r i s t i co fm e r e l yu s i n g k e y w o r d s ,t a k i n gb i o n i c ( t o p o l o g i c a l ) p a t t e nr e c o g n i t i o n b a s e do nv e c t o r q u a m i z a t i o l l ,t h a ti s f i r s t t o r e c o g n i z e ”s t y l e b o o kt h e n t o p a r t i t i o n ,u n l i k e t r a d i t i o n a lm e t h o d ,t h a ti sp l o ts t y l e b o o kd i r e c t l y a n dt h ep a p e rb r i r g so u tt h ed e t a i l a r i t h m e t i c t l l i sw a yi m p r o v er e c o g n i t i o nr a t e a tl a s t ,t h ep a p e ri n t r o d u c et h e t r a n s l a t i o ns y s t e m ,b e c a u s et h ed i r e c t l yt r a n s l a t ec a l ln o tb er e a l i z e ,t h ep a p e ru s e s l a n g u a g ei n d e xa p p r o a c ht or e a l i z et h et r a n s l a t i o no fk e y w o r d sm e a n i n g k e yw o r d s :s p e e c hr e c o g n i t i o n ,e n d p o i n td e t e c t i o n ,v e c t o rq u a n t i z a t i o n ,b i o n i c ( t o p o l o g i c a l ) p a t t e nr e c o g n i t i o n ,m a c h i n e t r a n s l a t e 1 v 第l 章概述 第1 章概述 1 1 旅游用语言检索翻译系统简述 随着人们生活水平的提高,出国游成为人们在闲暇时间里的首选。面对全 球村的趋势,我们可以前往的国家,也从原先单一的几个英美国家,扩展到世 界各个角落的其他旅游胜地。比如近期俄罗斯宣布全境对中国开放,并且免签 证。于是如此之多的旅游去处也使语言沟通成为了一个有待解决的闽题。 世界范围内的研究人员正在致力于机器翻译,机器翻译是集语音合成,语 音识别为一体的一体机,然而世界之大,语言之广,机器翻译的实现成为一大 难题。 本论文希望在语音识别这一领域里,使用快速,易于集成的识别方法来识 别关键词,通过场景关键词的语音识戤,找到相对应的旅游语句,然后通过语 言检索的办法来达到翻译的目的。 1 1 1 基于关键词识别的语言检索翻译系统的原理 我们知道传统意义上的翻译,就好比是对话一般,你说一句,我翻译一句。 因此如何让机器翻译系统交得更实用,更人性化是我们需要关注的。 本文之所以要使用语音识别来做为检索翻译系统的支撑工具,就是为了能 够达到对话式的翻译效果,使得翻译场景变得更真实,更简便。因此我们的检 索翻译系统也是以场景为基本框架的。 我们假设在一个异国他语的环境里,我们要到一个火车站买票,那么我们 就是以“火车站”为主场景,以“买票”为第二场景。语音识别就是对主场景 关键语义进行辨认。识别出场景后,接着我们在买票的时候,通常是以对话的 形式出现,为了让对话更容易进行,我们调节语言的语法结构,这也是通常机 器翻译中需要解决的问题。如:“我想买火车票。张x 、到x ”,对方一定 会告诉你有哪几个班次,你就可以根据你的时间来选择,你也可以询问“请1 6 - 这个班次的火车票,中途停哪几个站? ”或者“到xx ,请问火车票是多少钱? ”。 关键问题就是场景有很多,我们在出门旅游时,会碰到各种各样的事件, 一一 塑! 茎塑垄 因此,我们就需要用到语音识别这个工具,因为,你只要说出此时此刻你所在 的场景,系统自然会找跳转至这个场景所在的二级场景,而二级场景也是很繁 多的,如在“火车站”,就可能需要“买票”、“问路”、“订票”、“托运”、 “退票”、“进站”等等,我们同样可以使用语音识别的工具来调出二级场景, 这是十分方便的。 1 1 2 国内外研究水平及现状 国外研究现状 在语音识别的关键词识别领域中,其研究始于7 0 年代。1 9 7 3 年,b r i d l e 的文 章揭开了关键词识别研究的序幕,但那时只是称“给定词”的识别;c h r i s t i a n s e n 等的文章中有了“关键词”的叫法,他利用信号的l p c 表示对连续语音中的关键 词进行检测和定位,文章称该方法对4 个词和1 0 个数字取得很好的效果。 但真正的关键词识别研究应该说是在8 0 年代。m y e r s 等人利用基于d t w 的局 部最小算法对关键词识别和连接词识别进行了研究。美国1 1 v r ( 国际电话电报公 司) 国防通讯部的h i g g i n s 与w o h l f o r d 用模板连接的方法实现了k w s ,并提出了补 白( f i l l e r ) 模板( 该模板由词表以外的词的语音训练而得) 的概念。此后a t & t 的 b e l l 实验室w j l p o n 簪实现了一个基于h m m 的5 个电话用语的,可以实用的 k w s ,标志着k s 研究的崛起。美国b b n 系统和技术公司的r o h l i c e k 等也研究了非 特定人k w s 的连续h m m 建模问题,同时给出了k w s 系统的性能评价基准。 到9 0 年代,m i t 的l i n c o l n 实验室1 ,c m u 的计算机科学学院,。d r a g o n 系统公 司,以及日本的t o s h i b a 公司等,也相继报告了他们的研究成果。 将语音识别关键谣识别应用于实际系统中,例如现今手机的语音拨号, 好易通或文曲星的单词翻译技术已相对成熟,但还没有在手机或文曲星上实现 过语音翻译,而要实现直接的语音识别翻译其难度是目前技术所不能完成的。 而在机器翻译系统领域的研究,就传统意义上的语言翻译是从上世纪6 0 代 就开始了,但那都是非实时、需人工修改的,到8 0 年代开始采用中间语言来翻 译,8 0 年代末s y s t r a n ,l o g o s ,富士通的a l t a s 的大型系统实现“直接翻译”但那 都不是人机交互的。随后开发- i n t e m e t 上的机译系统。8 0 年代末,日本政府机 构出资支持开发用于亚洲语言之间的中间语言系统,有中国,泰国,马来西亚 和印度尼西亚等研究人员参加。同样,这一计划历经十年也未能开发成功。“” 第1 章概述 一个重要的大型“转换”型机译系统是m e t a l ,8 0 年代德国的西门子公司提 供了大部分资金支持。直到8 0 年代末m e t a l 才面市,但销售状况很不好。欧洲共 同体委员会提供基金的e u r o t r a 项目。曾有希望成为法国国家机译系统,人们有 曾计划把它集成进e u r o l a n g 翻译者工作站中,但最终无一实现。至于e u r o t r a , 无疑是最复杂的机译系统之一,但经过西欧许多国家几百个研究人员近十年的 努力,仍未能够开发成功成投资者希望的实用系统。“”真正做到口语式实时翻 译仍旧是无法达成的。 国内研究现状 早期,我国在关键词识别方面的研究几乎是空白,发表的文章更是寥寥无 几,甚至国内两年一次的全国人机语音通讯学术会议n c m m s c 上至今没有一篇 关于k w s 的文章。 至到最近九十年代我国的学者开始对关键词识别领域产生关注,并着手将 其应用到实际开发领域中。 中国直蛩j 1 9 9 6 年才开始这一方面的研究,故很少见到有关口语语音翻译的 文献。真正着手研究语音机器翻译系统已有两年的历史。但目前国际语音互译 计划的词汇量仅限于1 0 0 0 0 个字词,对话场景也仅仅初步定为预定旅馆、购机票、 餐馆对话、外币兑换等场所。 据科学家推测真正意义上的多国语言翻译系统可能要到2 0 3 0 年才能完成。 1 1 3 基于关键词识别的语言检索翻译系统的研究意义 随着全球化进程的快速发展,旅游业已经成为各国经济产业的一大组成部 分。我国目前出国旅游目的地总数已经突破1 0 0 个,可以说所到之处涵盖了多种 语系。语言学家统计现今全球语种就有6 8 0 9 种,面对日益发达的旅游业,如何 在旅游中克服语言障碍成为一个现实问题。 先是翻译、再是世界语,直到目前的机器翻译,甚至还有人提出随着语言 的逐渐消融,回归原初状态。科学家则认为三五十年内人类才能扫除语言障碍。 随着中国加入国际语音翻译协会项目,“语言翻译”受到越发的重视。 克服语言障碍的方法一一传统的方法,我们可以在旅游时带上翻译,或找 一位当地入作为旅游向导,僵这是一种成本高,不便捷的方法。现在人们已经 开始着手研究机器翻译。然而机器翻译要实现:实时、多语种、整句翻译、多 第1 章概述 领域等强大功能目前是无法实现的。因此我们的目标是实现种实用的,专用 翻译系统,能实现辅助的多国语言翻译的功能,从而使旅游翻泽成为可能,方 便人们使用。 语言翻译的第一步就是要语音识别,而语音识别又分孤立词、连接词、连 续语音识别,而对于翻译系统,在应用中通常是对一句话即连续语音进行翻译, 这将表明其词汇量是巨大的,而目前大词汇量的定义,仅在1 0 0 0 字,这与翻译 连续语音是相矛盾的。所以本论文针对旅游用翻译系统,选取旅游词汇作为关 键词,将其从连续语音中识别出来,既具有可行性又有实用性。 对旅游词汇进行关键词识别对于全球语言初步通用是非常有建设性作用 的。当然全世界语音有百多种,要用翻译机实现全球通正如科学家所言是需 要今后几十年研究才可能达成。所以本论文使用捡索翻译。先将中文旅游关键 词识别出,然后再使用数据库检索翻译成相对应的他国语言。其中关键词识别 率的高低是非常重要的,本论文研究的新的识别方法正是针对此点,因此具有 重要的意义。 在获得了较高的识别率后,通过语言检索翻译,可以形成一个实用通用的 旅游用翻译机,它可以进一步嵌入类似手机,文曲星等一类通讯或词典类产品, 在实际生活中获得良好的效果。 1 2 语音识别简述 作为智能计算枧研究的主导方向和人机语音通信的关键技术i 语音识别技 术一直受到各国科学界的广泛关注。如今,随着语音识别技术研究的突破,其 对计算机发展和社会生活的重要性日益凸现出来。以语音识别技术开发的产品, 应用领域非常广泛。 语音识别按照任务的不同可以分为四个方面:说话人识别、关键词识别、 语言辨识和连续语言识别。 说话人识别( s p e a k e rr e c o g n i t i o n ,s r ) 也称作声纹识别,该技术是以话音 对说话人进行区分,从而进行身份鉴别与认证的技术。说话人识别和语音识别 的区别在于,说话人识别不注重包含在语音信号中的文字符号以及语义内容信 息,而是着眼于包含在语音信号中的个人特种,提取说话人的这些个人信息, 以达到识别说话人的目的。 一 笙! 童竖姿 说话人识别分成两个方面,即说话人辨认( s p e a k e ri d e n t i f i c a t i o n ) 和说话人 确认( s p e a k e rv e r i f i c a t i o n ) 。前者以判断某段语音是若干人中的哪一个所说, 而后者用以确认某段语音是否是指定的某个人所说的。 关键词识别( k e y w o r ds p o t t i n g ) ,也称关键词检出,是一种重要的自动语 音识别( a u t o m a t i cs p e e c hr e c o g n i t i o n ) 技术。它的目的是在说话人的连续话语 中辨认和确定一些由具体应用决定的特定词,而这些话语可以包括许多其他的 词和其他各种非语音现象,例如,咳嗽声、呼吸声、砸舌声、音乐声、关门声、 背景噪声和传输噪声等。“” 语言辨识( l a n g u a g ei d e n t i f i c a t i o n ,l i d ) ,或称语种识别,与语音识别和说 话人识别有所不同,它是通过分析出来一个语音片断以判别其所属语言种类的 过程,本质上也是语音识别的一个方面。 连续语音识别是含有较完整语法信息的连续语句,最接近于人的自然讲话 的方式,但从非连续语音到连续语音的研究面临者很多完全不同的技术难点。 1 。3 连续语音识别与关键词识别的关系 关键词识别( k w s ,k e y w o r ds p o t t i n g o r w o r d s p o t t i n g ;k w r ,k e y w o r d r e c o g n i t i o n ) 与连续语音识别( c o n t i n u o u ss p e e c hr e c o g n i t i o n ) 有密切关系。 首先,关键词识别的任务是在连续的无限制的自然语音流中识别出给定的 词,因而它首先是种连续语音识别;但它又不要求把整个的语音流全部识别 出来,因此可以说关键词识别是连续语音识别的一个分支。其次,它无法对发 出自然语音流的发音人提出任何要求,因此关键词识别又不同于连续语音识别。 由于存在下列差别,基于词识别的k w s 与c s r 常常被当作两个完全不同的问题 来处理: ( 1 ) 模型的训| 练问题:c s r 模型往往要用不同发音人( 可以包括使用者在内) 的大量数据进行训练;k w s 则无法由被识别的入对模型进行一定的训练。 ( 2 ) 词表问题:c s r 要求每个待识别的词是一个有限词表中的一个;而k w s 允许输入语音流包含任何词,它的词表是开放的。 ( 3 ) 语法或词法问题:c s r 要求输入语音中的词的序列受限于一个有限状态 语法网络;而k w s 则无此要求。 ( 4 ) 发音人的态度:一般她讲,c s r 系统的使用者能够意识到他们正与机器 蔓! 重塑蕉 进行交流,他们希望自己所说的话被机器识别,因此他们一般持合作的态度; 但在k w s 系统中,说话人常常是毫无觉察的。 ( 5 ) 环境:c s r 系统由于用户的配合往往在比较好的环境中使用,而k w s 的环境则可能有很大噪音。“” 由于这些差异,c s r 的错误率用百分之几衡量,而k w s 的( 误警和漏识) 错 误率用百分之十几甚至百分之几十来衡量,其差距是很大的。 1 4 关键词识别简述 关键词识别是语音识别的一个分支,语音识别按照任务的不同可以分为四 个方面:说话人识别、关键词识别、语言辨识、连续语音识别。 关键词识别是语音识别的一个重要方面,关键词识别就是在连续的、无限 制的自然语音流中识别出一组给定词的语音识别。它可以应用于多种语音识别 任务。这些任务只识别系统感兴趣的语音,同时,拒识与系统无关的声音,无 关的声音包括与任务无关的语音、背景语音及背景噪声等。删 关键词识别应用予一些具有特定要求的场合,由于速度、高检出率或其他 特定的要求,人们并不需要系统识别出整个句子,更不需要理解整个句子,而 只关注那些包含特定词( 称为“关键词”) 的句子。比如,对一写特殊人名、 地名和词语进行电话监听,又比如通过人名进行自动分机接驳服务,等等。 根据一些应用的特殊需要,关键词识别有区别于其他自动语音识别的地方。 1 ) 有的应用需要限定或假设一个句子只能含有个关键词( 如自动分机接驳) , 而有的应用则不希望有这样的限定( 如电话监听) 。 2 ) 有的应用希望“宁错勿漏”( 如电话监听) ,而有的应用则希望“宁漏勿错” ( 如自动分机接驳) 。关键词集内的词没有被检出,称为“漏识”,而将关键 词集外的词识别成个集内的词,称为“误警”或“虚报”。对于一个特定 的关键词识别器,漏识率和误警率不可能同时达到最低点。因而相对于其他 语音识别器,关键词检出器需要在漏识率和误替率之间找到需要的平衡点。 一个较为理想关键词识别系统应该具有如下的特征: 1 ) 任意人。关键词识别系统对不同人的说话有一定的适应能力。 2 ) 词表可随意定制。开发者可以利用应用程序接口( a p p l i c a t i o np r o g r a m m i n g i n t e r f a c ea p i ) ,方便地提供词表定制工具,使得使用者无需具备专业知识就 蔓! 望塑姿 可以方便得定义自己的词表;对新定义的词表,系统无需重新训练,立刻可 以使用。 3 ) 单选或多选性。句中关键词个数可以设定,使用者可以根据具体的应用 情况,方便地指定一句话中是仅含该关键词,还是含多个关键词。 4 ) 良好的拒识性能。利用其良好的拒识性能,识别系统将根据具体情况报出所 识别出的关键词,不会因使用者设定的句子中可以含有的关键词数目而强行 虚报。 5 ) 关键词识别应具有很低的漏识率和误警率。 6 ) 良好的折中性。可以根据具体应用需要,方便地调整,以在漏识率和误警率 之间达到很好的平衡。【2 9 1 1 。4 + 1 关键词识别的应用背景 k 鹏宵着广泛的应用领域。 一个重要的应用是国防监听。在出于国家安全的考虑对电话网络进行监听 时,要耗费大量的入力和时闻;再者,由于人的精力是有限的,有时也会把极 其重要的内容忽略掉。但关键词识别器( k w s ,k e y w o r ds p o t t e r 或k w r ,k e y w o r d r e c o g n i z e r ) 可以日夜监控着电话网络,旦发现有某些关键词出现,及时预警、 跟踪目标。这可以节省人力,同时高性能的k w s 可以做到真正密切监控。“” 另外一个重要的应用是语音信箱的消息分类( m e s s a g ec l a s s i f i c a t i o n ) 。当接 收到语音消息时,通过对其关键词的检索与识别,把它们按关键词的性质分门 别类,r o s e 等人的技术正是为了这一目的的。这其实是一种基于主题识别或主 题确认( t o p i ci d e n t i f i c a t i o n ) 的问题。按内容检索c o n t e n t a d d r e s s e d 是关键词识别 又一重要应用。随着计算机硬件和多媒体技术飞速发展,信息的存储将采取越 来越自然的方式,比如以声音和图象的形式存储,但所需要的代价是存储量大 和检索缓慢。在硬件成本日益降低的前提下,存储量问题很容易得到解决;但 人工检索却是一个令人头痛的问题。关键词识别技术可以解决这一问题。我们 可以列出自己所关心领域的一组关键诃,k w s 就可以把所有相关的存储语音都 调出来。如果关键词的输入再由检索者以语音命令的形式给出,那么语音信息 的按内容检索就能够以完全自然的方式进行。1 早在2 0 世纪7 0 年代,美国军方和国家安全局即将关键词识别技术同说话人 第l 章概述 识别相结合共同应用于检测系统。随着语音识别技术的进一步和普及,2 0 世纪 8 0 年代中期以后关键词识别技术已延伸到通讯领域、计算机语音检索系统、自 动化控制方面,并已有使用系统问世。如智能转接系统,语音信箱的消患分类。 k w s 的应用远不止这些。几乎可以说,在所有语音识别的应用中都会用到 关键词识别中的一些技术。比如先识别出关键词,再根据语法或词法进行其他 语音的识别,最终达到自然语言理解;又如通过某些关键词识别中的预处理和 后处理技术,提高语音识别的顽健性。 1 5 关键词识别的原理 1 5 1 系统结构 关键词识别系统因为其任务的特殊性,系统组成的连续语音识别有一定区 别。汉语关键词识别系统的一般如图,1 所示: 图1 1 关键词识别系统一般结构图 这里确认类似于说话人识别中说话人确认,通过置信度计算决定是否拒识。 识别( 检测语音) 阶段变化较多,可以在它的基础上加上音节的端点检测。 这种模型,首先对输入语音进行粗略分段,利用能量信息和过零率信息等 大致分出音节端点。这种系统大多以音节为识别基元,而且系统的识别性自在 很大程度上取决于前端预处理的语音端点检测的结果。 因为关键词识别系统不需要识别出所有发音,除关键词以为的都称为填料 第l 章概述 或废料,所以大多数关键词识别系统的参考模版都采用关键词模版+ 填料模版 的形式。其语法网络结构如图z 2 1 所示: 1 。5 。2 搜索方法 圈1 2n 个关键词模型+ m 个填料模型 语音识别的一个基本问题是时间对准问题。时间对准的主要任务是如何把 音长不定的语音观察序列按某葶中“最好的”原则与模型对齐并计算匹配得分。 对连续语音而言,对准的目的不仅有模型内的最佳状态序列的确定,而且还有 识别基元的边界确定。类似于在连续语音中搜索出一条跨不同识别基元的最佳 状态序列。嘲 通常是用语音的能量特征和过零率特征进行粗分,然后用v i t e r b i 算法进行对 语音段解码。 本文采用了基于与图像相结合的端点检测方法,来确定边界,大大提高了 分割的准确性。 1 5 3 基本问题 关键词识别的基本闯题包括特征提取、模式划分和时间对准。 1 特征提取 众所周知,未经处理的语音信号的数据量非常之大,这就需要去除语音信 号的相关性,用较少的数据最有效地表征语音信号。正如许多系统需要将时域 第1 章概述 信号变换到频域后再对其分析一样,识别系统首先需要将语音信号变换到特征 空间中,然后再针对特征矢量序列进行训练和检测。因此,通过变换可以去掉 语音信号中的大量冗余,使其所携带的语义信息集中映射到特征空间,其次可 以将时域空间很难分开的模式样本变得更加线性可分。 2 模式划分问题 模式划分问题即选用什么参考模版,选择什么样的模版参数。 如同人类学习语言一样,要想让机器理解人类口述的语言,识别系统首先 需要机器通过某种方式识别它们。最直接的途径就是让机器集中关键词和填料 模型所对应的所以语音波形,因为存储量的原因这种方法显然是无法实现的。 即使是经过特征抽取后的语音信号数据量仍然很大,于是,人们很自然地想到 可以结合人的发声机理用少数几个参数来描述它们,即对关键词和填料建模来 有效表征语义信息,同时减少存储量。 目前比较流行的模式划分方法主要有两类:声学模型和分类模型。声学模 型的典型代表是h m m ,尤其是c h m m 更是占据重要位置。在c h m m 中对各状态 的输出观察概率密度有几种描述,常用的一种是高斯混合密度形式。分类模型 主要有a n n 和s v m 。因为分类模型不是时序模型,不容易反映输入语义的时序 特性,所以在模式划分中的作用一般是作为第二阶段的处理手段或其他模式划 分方法( h m m 、d p 、d t w 等) 的补充。目前,有许多关键词识别系统采用声学 模型和分类模型混合建模的方法,提高系统性能。由此,还可以得出关键词识 别系统的另一种常用结构图。如图,3 所示: 3 时间对准问题 图1 3 混合模型关键词识别系统结构圈 蔓! 童塑垄 每个人每次的发音是不可能完全相同的,如图,4 。很明显,由于两次发音 速度不同,使得它们相对于时间轴而言并不是一对应的,即存在时间对不准 问题,因而无法直接通过计算他们之间的欧氏距离得到其相似度( 或失真度) 。 通常,在识别系统中计算识别的语音与参考模型之间的失真测度时也存在这个 问题,因为首先说话人在i l i 练和识别阶段的说话速度不可能保持一致,其次通 常采用的参考模型并没有消除时间变量,而仍是一个与时间密切相关的序列或 模型。为了解决由于说话人语速的不确定性引起的时间对不准,使得识别语音 与参考模型之间能按最佳时序匹配计算失真测度,人们已经想了一些办法。 图1 4 不同语速“飞机”波形 目前,对于以特征模板作为参考模板的识别系统主要采用动态规整的思想 解决该问题,而隐马尔克夫模型( h m m ) 的状态分割思想就可以解决时间对准 问题s 4 结果检验问题 在关键词识别系统中,对识别结果的确认( 也称拒识) 是非常重要的。通 常,实用化的识别系统可以分成两个阶段:识别阶段和确认阶段。系统在识别 阶段为了保证最终效果有比较高的识别率,常常给出尽可能多的候选,以便把 正确的候选包含进来,所以确认单元必须实用有效的方法,拒识那些错误的候 选,以降低系统的虚警概率,同时也要保证识别率不受影响,而这些对关键词 识另l j 系统尤其重要。置信度就是这个问题的一神有效的解决方法。 利用置信度可以对识别结果的可靠性进行假设检验,定位识别结果中的错 误所在,提高系统的识别率和稳健性。一般所采用的声学置信度有两种:一种 利用反词模型得到该候选的似然比来完成对识别候选的确认,这种方法需要针 第1 章概述 对确认进行额外的建模和训练;另一种是利用识别模型自身的信息构造鼍信函 数。嘲 1 6 本论文的主要工作 主要的工作集中在以下几个方面; 1 语音识别中的关键词识别预处理中的语音端点检测,使用了 种新的方法,它使用图像处理的方法来检测,并结合传统的检 测方法,提高了端点检测的精度。 2 对语音识别的特征进行了改进,在使用传统特征参数的基础上 对特征进行了变换,提高了提取特征的时间。 3 通常的连续语音流中关键词识别采用的h m m ( 隐马尔克夫模 型) 来进行模式识别,本文根据仅仅提取关键词这一特点,采 用了基于矢量量化的仿生模式识别的方法,对样本群,先“识 别”再划分,而不是传统意义上的直接样本划分,提商了识别 率。 4 对于翻译系统,针对目前直接翻译不能实现,本文采用了语言 检索的方法,通过关键词识别检索到需翻译的语言。实验表明 用关键词识别进彳亍语言检索翻译,精度准,效率高。 第2 章语音识别中的语音的端点检测 2 1 引言 第2 章语音识别中语音的端点检测 在语音信号处理中,语音编码与语音识别的一个重要组成部分就是语音端 点检测,端点检测的准确与否,关系到语音编码比特数的数量级与语音识别正 确率。 语音识别的预处理,除处理数字化语音信号必要的预处理技术外,还要依 据识别任务的要求做一些特殊的处理。如识别单元的选取和端点检测技术。 在传统的研究中,人们运用语音自身的一些特征点来进行语音端点的检测, 如能量,过零率,短时平均幅度,能频积,倒谱等。但在实际的应用中,都不 能达到精准。 2 2 汉语的发音结构 汉语是音节性强的语言,一个汉字对应一个音节,而大部分音节具有确定 的语言含义。汉语是有调语言,每个音节都可能有4 种不同的声调,阴平。阳平, 上声,去声;但有些音节是独调的,如:您、暖、谬;有些只有两种声调,如: 缩、说、硕;有些只有三个调,如:三、伞等。这里值得注意韵是,不要把多 音字概念混淆了。还应当说明一点,汉语语音是丰富多彩的,轻声和儿化韵有 大量的语义信息,但目前处理起来还比较困难。” 汉语内的音节结果是典型的c v ( c o n s o n a l l t v o w e l ) 结构,其中c 是包括零声 母在内的声母所对应的辅音,v 为韵母对应的元音。2 2 个声母、3 8 个韵母和声调 构成t 1 2 8 2 个有调音节和4 1 2 个无调音节。另外,还有3 个单独有辅音构成的音 节 m 、 n 、 n g 。 汉语的生意结构:汉语的声母( i n i t i a l ) 有2 2 个 ( b ,p ,m ,f ;d , t , n ,1 ;g ,k ,h ;j ,q ,x ;z h ,c h ,s h ,r ;z , c ,s 和零声母) ,韵母( f i n a l ) 有3 8 个( a ,a i , a l l ,a n g ,a o ,e ,e i ,e n ,e n g ,e r ,o ,o n g ,o u , i ,i l ,i a ,i a n ,i a n g ,i a o ,i e ,i n ,m g ,l o n g ,l o u ,l l , l l a ,u a i ,u a n ,u a n g ,u e i ,u e n ,u e n g ,u o ,v ,v a i l ,v c ,v i i ,i o ) 。 笪! 童量置望型生墼量童笪塑皇趋型 声母除4 个有一定的元音特性的浊音声母( 浊鼻音m ,n ;浊边音1 :浊擦音r ) 外,大部分为清辅音,汉语没有复合辅音。韵母分为单元音韵母、双元音韵母 和三元音韵母。 在构成个汉语音节时声韵母之间的组合是有一定规则的见表3 ,1 表2 1 汉语普通话音节结构( 4 :可连接;:不
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高一奥数试题及答案
- 编程语言多样性试题及答案
- 管道施工试题及答案
- 企业财务战略设计试题及答案
- 近期地理试题及答案
- 湖北省武汉市十四中学2025届七年级数学第二学期期末监测试题含解析
- 工厂人格测试题及答案
- 风险管理在企业运营中的重要性试题及答案
- 计算机二级VB考试评估的试题及答案
- 行政法学对社会治理的理论指导功能试题及答案
- 2022版义务教育艺术课程标准美术新课标学习解读课件
- 注射泵操作使用课件
- 完整版青少年普法宣传教育全文课件
- 陕西省探矿权采矿权使用费和价款管理办法
- CB-Z-806-2016船舶动力定位模型试验规程
- 押安徽中考数学第21题(统计与概率)(原卷版+解析)
- 浙江省杭州市杭州第二中学2023-2024学年高一下数学期末达标检测试题含解析
- DZ∕T 0248-2014 岩石地球化学测量技术规程(正式版)
- 2023年下半年软件设计师上午真题试卷
- 2024年同等学力申硕-同等学力(哲学)笔试参考题库含答案
- 中医药文化进校园
评论
0/150
提交评论