(信号与信息处理专业论文)基于自然语言处理的语音识别后文本处理.pdf_第1页
(信号与信息处理专业论文)基于自然语言处理的语音识别后文本处理.pdf_第2页
(信号与信息处理专业论文)基于自然语言处理的语音识别后文本处理.pdf_第3页
(信号与信息处理专业论文)基于自然语言处理的语音识别后文本处理.pdf_第4页
(信号与信息处理专业论文)基于自然语言处理的语音识别后文本处理.pdf_第5页
已阅读5页,还剩78页未读 继续免费阅读

(信号与信息处理专业论文)基于自然语言处理的语音识别后文本处理.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京邮电大学硕士学位论文 基于自然语言处理的语音识别 后文本处理 摘要 目前对语音识别后处理的研究正呈现出多样化,语言学知识在研 究过程中越来越受到重视,应该更加深入地应用语言学知识,应用自 然语言理解方面的各种现有及正在兴起的方法来改善语音识别系统 的性能。 本课题以此为指导,主要针对“奥运多语言综合信息服务 项目 的典型示范系统“c i t y g u i d e ”,研究语音识别后语句检错纠错方法。 将采用基于自然语言理解方法,即主要从语法、语义和语用三个方面 出发,重点关注语用信息对识别正确率提高的贡献。本文的主要研究 工作和成果有: 1 ,在智能移动终端的语音识别引擎之后引入基于自然语言理解 模块,特别需要指出的是,在原有算法( 包括语法、语义算法) 基础 上增加了语用算法和一些辅助算法,使语音识别的正确率约从5 2 提 高到7 0 。 2 ,目前该演示系统已完成在智能手机上的实验性设计、实现与 测试,并尝试引入智能移动平台的语音引擎,实现语音识别及识别后 利用自然语言理解方法来进行纠错。目前系统主要支持单句语音输 入,所支持语种为中文英文两种语言。 3 ,提出了一种基于元搜索技术的在线语料知识库采集、学习、 构建和更新优化方案,特别针对语言本身存在一定的模糊性和不确定 性的特点,探讨了模糊理论在文本分类中的应用,提出了一种梯形隶 属度函数法将分类结果模糊化,以及引入模糊熵的概念来评估文本模 糊化分类的性能,克服了原有实验系统语料库规模小、领域局限性大、 来源不够丰富、缺乏时效性的缺点。 关键词自然语言理解语音识别后处理模糊文本分类语用信息 北京邮电大学硕士学位论文 t e x tc o i u 冱c t i o nf o ra s ri 己e s u i jo nt h e p l a t f o r m0 fi n t e l l i g e n tm o b 。ep h o n e a b s t r a c t a tp r e s e n tt h e p o s t p r o c e s s i n g o fs p e e c hr e c o g n i t i o nr e s e a r c hi s s h o w i n gad i v e r s i t yo fl i n g u i s t i ck n o w l e d g ei nt h ec o u r s eo ft h es t u d y , m o r ea n dm o r ea t t e n t i o ns h o u l db ep a i dt ot h ek n o w l e d g eo fa p p l i e d l i n g u i s t i c s ,i no r d e rt oi m p r o v et h ep e r f o r m a n c eo fs p e e c hr e c o g n i t i o n s y s t e m s ;w es h o u l du s ev a r i o u se x i s t i n ga n de m e r g i n gm e t h o d s o fn a t u r a l l a n g u a g eu n d e r s t a n d i n g a c c o r d i n g t ot h en a t i o n a l8 6 3 p r o j e c t o fo l y m p i c so r i e n t e d m u l t i l i n g u a li n t e l l i g e n ti n f o r m a t i o ns e r v i c es y s t e m ,t h i st h e s i ss t u d i e s m a i n l yo nt e x tc o r r e c t i o nf o ra s r ( a u t o m a t i cs p e e c hr e c o g n i t i o n ) r e s u l t i nad e m os y s t e mc a l l e dc i t y g u i d e a l li n f o r m a t i o nw i l lb eb a s e do nt h e t h e o r yo fn a t u r a ll a n g u a g eu n d e r s t a n d i n g ,t h a ti s ,m a i n l yf r o mt h es y n t a x , s e m a n t i c sa n dp r a g m a t i c so ft h et h r e ea s p e c t s ,f o c u s i n go nc o n t r i b u t i o no f t h ep r a g m a t i c si n f o r m a t i o nt oi n c r e a s et h ec o r r e c tr a t e t h em a i nr e s e a r c h w o r ka n da c h i e v e m e n t sa r e : 1 ,a n e wm o d u l eo fc ib a s e dn l ui sa d d e da f t e rt h ea s rm o d u l ei n i m eo r i g i n a lt e s t sh a v es h o w nt h a tt h i sm o d u l ec o u l di m p r o v et h e p r e c i s i o no fa s r r e s u l tt os o m ee x t e n t a st oc i t y g u i d ec o r p u st e s t i n g , a f t e rp r a g r n a t i c sa n do t h e ri n f o r m a t i o ni sa d d e d ,t h ep r e c i s i o no fa s r c o u l db ei m p r o v e df r o m5 2 t o7 0 2 ,ad e m os y s t e mf o rt h i sm o d u l ei si m p l e m e n t e di ni m p , a n d o r i g i n a lt e s t i n g i sf i n i s h e d m o r ee f f o r ti sm a d et oi m p o r ta na s r p r o g r a m i ni m pt oc o n n e c tt h ea s ra n dc o r r e c t i o nd i r e c t l y c u r r e n t l yt h e s y s t e ms u p p o r t so n es e n t e n c ev o i c ei n p u tat i m e c h i n e s ea n de n g l i s h l a n g u a g e s a r eb o t ha c c e p t a b l e 3 , b a s e do na p r o p o s e d o n l i n e s e a r c h t e c h n o l o g yc o r p u s k n o w l e d g e b a s ea c q u i s i t i o n ,l e a m i n g ,b u i l d i n ga n du p d a t i n go p t i m i z a t i o n i i i , 北京邮电大学硕上学位论文 p r o g r a m m e ,i np a r t i c u l a r f o rt h ea m b i g u i t ya n du n c e r t a i n t yo ft h e l a n g u a g e ,d i s c u s s e dt h ea p p l i c a t i o no ft h ef u z z yt h e o r y i nt h et e x t c l a s s i f i c a t i o n ,p r o p o s e dat r a p e z o i d a lm e m b e r s h i pf u n c t i o n ,a n dt h e c l a s s i f i c a t i o nr e s u l t sw i l lb ea m b i g u o u s ,a sw e l la st h ei n t r o d u c t i o no ft h e c o n c e p to ff u z z ye n t r o p yt oa s s e s st h ef u z z yt e x to ft h ec l a s s i f i c a t i o n p e r f o r m a n c e ,o v e r c o m et h es h o r t c o m i n g s ,t h o s e s a r et h e o r i g i n a l s m a l l - s c a l ee x p e r i m e n t a ls y s t e mc o r p u s ,t h el i m i t a t i o n so ft h ef i e l d ,t h e s o u r c ei sn o tr i c he n o u g h t h el a c ko fl i m i t a t i o n k e yw o r d sn a t u r a ll a n g u a g eu n d e r s t a n d i n g ,t e x tc o r r e c t i o nf o ra s r , f u z z yt e x tc l a s s i f i c a t i o n ,p r a g m a t i c si n f o r m a t i o n i v 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特i i i i 以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名: 日期:塑笙:兰:l 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。 本人签名:垃日期:递堑:墨二f 导师签名: zn j n饥 1f v 日期: 塑二堡二圣! 北京邮电大学硕士学位论文 1 1课题研究背景 第一章绪论 本论文的研究课题来源于国家8 6 3 项目“奥运多语言综合信息服务 的子课 题之一:基于自然语言理解的语音识别后文本处理研究( 子课题编号: 2 0 0 4 h a l l 7 0 1 0 1 4 ) 和国家8 6 3 项目“奥运多语言综合信息服务关键技术及核心 平台”的子课题之一:基于自然语言理解的语音识别后处理及离线浏览系统的研 究( 子课题编号:2 0 0 5 a a l l 7 0 1 0 0 6 ) 。这两个项目旨在在语音识别引擎以后引 入自然语言理解模块,综合语法、语义和语用信息对语音识别结果进行分析、检 错和纠错,并结合智能手机移动终端实现演示系统。本论文的研究工作就是以此 为背景进行的。 本文研究还得到国家自然科学基金项目信息一知识一智能转换的原理与算 法( 6 0 5 7 5 0 3 4 ) 的资助,它为本文提供了理论基础。 1 2 课题研究背景和意义 语音作为一种理想的人机通信方式具有自然、方便、快速的特点,让机器能 够理解人的语音一直是人们追求的理想。过去的二十多年中,语音识别技术发展 突飞猛进,并已有一些实用的语音识别系统投入商业运营。然而由于语音录入不 可避免地会受到噪声、衰落信道等多种因素的影响,目前的语音识别正确率距离 人们期望的实用水平仍有一定距离。为了解决这一瓶颈问题,研究者们进行了很 多工作,可以分为两大类:语言无关的和语言相关的。 语言无关的:例如现有的语音识别软件大多需要在使用之前进行语料训练, 以期提高识别正确率;此外,也有很多研究者专门针对噪声处理展开研究n 1 。然 而研究表明,传统语音识别的方法无论是基于统计的模型还是基于规则的模型, 主要是针对音节信号进行处理和识别,对识别的内容并不进行正确性分析。如用 户输入“c a l lad o c t o r ,结果显示却可能出现“c a l las a l t ”,由于d o c t o r 和s a l t 在发音上有一定的相似性,采用语音识别的方法很难做出正确的判断, 即使经过这些处理,识别过程中的错误率依然很高。尤其是一些没有被语音识别 引擎概念库涵盖的概念,其识别正确率就更低。究其原因,除了噪声、汉语的同 音词多、停顿、断句等声学因素之外,最重要的是语音识别引擎缺乏相关领域语 北京邮电大学硕士学位论文 言知识的支持。因此,需要开展与语言相关的研究。 语言相关的代表性工作有n - b e s t 方法和增加语言学知识等。n - b e s t 方法的 原理是产生一组语音假设,采用多种音节特征、语言学特征和数学模型对其评估 打分,最后选取其中分数最高的一个序列作为输出;此方法的一个重要前提是, 音字转换阶段的结果要正确,否则无论怎样重排序列,最终的结果都不会正确。 增加语言学知识则是在声学解码过程中添加了语言学知识,如音节距离、词性、 词组规则、特定用词、语音相关度、语义分析处理技术( 句类分析) 、语句主题 等国1 ;这种方法具有一定的容错能力,能够在一定程度上提高音字转换的正确率, 但是目前应用的语言学知识深度不够,还有很多问题不能解决。 我们认为,这是因为人们在应用语言的时候,总是伴随着特定目的。语音识 别在使用时也都是有一定的应用目的。如果参与交流的人没有目的相关的共同知 识基础,他们的交流只能是“对牛弹琴”,不会带来有意义的效果。正是因为现 在的机器缺乏人类的知识,人与机器的语音交流就远未令人满意。语音识别研究 者们经过了多年的努力,终于可以让机器具有了较好的接受人类声音的知识,但 是声音与自然语言之间还有很大距离,没有足够的自然语言知识,声音最终还是 不能转化成为正确的语言,成为影响机器与人类顺利沟通的障碍。 这些目标当然不可能一蹴而就。本课题的目标是采用自然语言处理的方法对 语音识别后的文本进行处理,提高输出结果的正确率,包含的语种是汉语和英语。 人类的声音首先输入到语音识别引擎,进行以音频特征分析为主的处理,进一步 根据应用目的不同,分别经过不同的自然语言理解模块,这主要是基于模糊语用 信息主导的自然语言知识来进行的。 基于模糊语用信息智能理论的最主要特色,在于它能够利用语用信息以及模 糊数学来解决问题。这表现在: ( 1 ) 在它给定的环境下搜索到达目标的途径时,对于所面临的各种可能途 径,不再是盲目的选择或系统地探索,而是先估计这些不同途径对于到达目标而 言的效用度,在比较它们效用度大小的基础上,选择最有希望的途径; ( 2 ) 因为语言和文字是人类描述客观世界的主要工具,稍加分析即可发现, 其中包含着很多模糊性,因此文本信息的分类和处理应该采用模糊方法,这样的 结果往往更真实,具有更多的信息。 因此利用模糊语用信息智能理论解决问题的盲目性比较小,成功的把握比较 大。 研究语用信息要以语义信息和语法信息为基础,在实际的问题中,为了获得 语用信息往往要付出一定的代价,要获得的语用信息越多,利用越充分,所付出 的代价也会越大。因此,从经济的角度来考虑,在一定的技术状态下,利用语用 北京邮电大学硕士学位论文 信息的程度要适可而止。不过,从发展的观点来看,随着技术本身的不断进步, 为了获得语用信息而需要付出的代价将会越来越小,而由此所带来的得益却会越 来越多。因此,从长远来看,尽可能充分地利用有关的语用信息来解决问题是一 个应当追求的目标。实际上可以认为这是人工智能理论发展的一个重要途径,也 是一个重要的方向。 1 3国内外研究现状及发展趋势 1 3 1语音识别后文本处理的研究 语音识别技术是指计算机对人们的语言信息进行时域或频域等的处理,识别 表达语言的语音内容,把语音信息转换成计算机内部的数字代码,以至理解语音 所表达的语言的意义。 语音识别领域的发展: 国外早在三四十年以前,美国贝尔实验室、i b m 等公司先后都开始建立了专 门的语音识别研究机构。i b m 率先推出的v i a v o i c e 中文连续语音识别系统,是 采用i b m 特有的非特定人连续语音识别系统的技术。它具有“自我学习”的特征, 可识别自由句式。v i a v o i c e 9 8 版本内含6 8 0 0 0 个语料,可再添加2 8 0 0 0 个词语。 增加了多媒体漫游、口述命令、直接听写、语言合成、语音纠错等功能,并能较 好地适应识别带有粤、沪、川三种地方口音的普通话。微软公司对语音识别也不 轻视,推出语音识别产品v o i c ee x p r e s s ,将原语音指令和控制程序与连续语音 识别技术结合在一起。l u c e n t 公司也开发了语音激励万维网浏览器原型。 国内方面,汉语语音识别主要沿着两条途径展开:孤立词的模式匹配识别和 有限词汇的连续识别。中国科学院声学研究所1 9 7 8 年研制成功通用实时语音识 别系统r t s r s ( 0 0 1 ) ,1 9 8 4 年清华大学研制出3 0 0 0 个孤立词的语音识别系统。 1 9 8 8 年清华大学利用矢量量化和隐马尔科夫模型研制成功能识别3 0 个城市名称 的非特定人语音识别系统。次年又研制出能识别2 0 0 多个汉语词汇的实时非特定 人语音识别系统。中科院声学研究所具有2 0 0 0 孤立词的实时语音识别系统,在 1 9 9 8 年西欧高技术博览会上,获国际大奖。“七五”期间,清华大学和中科院声 学所就对语音输入和语音识别进行了研究开发,并取得了一定的成果。北京汉王 科技公司将汉王笔与v i a v o i c e 捆绑开发出汉王手写输入系统。清华大学电子工 程系开发了“文通笔”三合一听读写系统也利用了基于i b mv i a v o i c e 的d u t t y + + 语音识别系统。华南理工大学电子与通信工程系在多年的研究基础上,研制 成功具有四万条词、可任意扩充词汇量、带有模糊检索及智能调整功能的实时汉 北京邮电大学硕士学位论文 语声控打字机不s ,。 语音识别还有着广阔的应用前景,它可以使得我们的生活和工作变得越来越 方便,b i l lg a t e s 在勾画i t 事业的发展宏图时,首先提出的就是下一代操作系 统和应用程序的用户界面将是语音识别。当然,今天的语音听写产品离十全十美 还很远,还不能达到人们说什么计算机就写什么。即使是较为完善的口授软件也 只有在用户特定的“训练”下才能较好地工作。但是尽管有这些局限,语音识别 已接近实用的阶段。 由前面的论述中可以看到,目前语音识别技术在实际应用中还处于起步阶 段,基本上集中在技术较为成熟的中、小字表和孤立词语音识别类型之中。近十 年来,基于连续语音识别、非特定人识别的自然语言处理,依然是重点研究方向。 在语音识别系统的研究过程中,人们逐渐感觉到,仅仅依靠对语音信号建立 声学模型进行匹配计算总不能达到人类对自然语声那样好的识别效果。对人类认 知机制的研究表明,这种不满意的效果并不仅仅是我们现有的信号处理和模型匹 配算法本身的不完善所造成的。在没有任何背景知识和心理准备的情况下,入耳 对于孤立语声的识别效果也不像人们想象的那样理想。这个现象引导人们发现, 人类自身在进行语音识别时,不仅仅是人耳对语声进行捕捉和辨认,同时我们还 利用了许多非声学的信息,诸如句法、语义、对话背景知识等方面的知识来帮助 我们进一步对话语做出识别和理解。因此人们想到,对这些高层次的非声学知识 建立适当的模型,结合到语音识别系统中,将有助于提高现有语音系统的识别能 力。这些非声学的知识模型就统称为语言模型( l a n g u a g em o d e l ) 。 应当指出,计算机技术特别是硬件技术的飞速发展,对语音识别的研究起了 相当重要的推动作用。i b m 公司的v i a v o i c e 系统对计算机的要求如表l 一1 所示, 可见计算机的存储量、响应速度和处理速度已不是目前语音识别研究的主要问题 和障碍。 计算机技术对语音识别研究的作用还体现在自然语言的处理同人工智能密 不可分。与人对自然语言的理解过程相似,为了使计算机能够分析处理自然语言 信息,我们需要首先给计算机识别系统建立有关的知识库。其方案包括基于规则 ( r u l eb a s e d ) 的方法和基于语料库( c o r p u sb a s e d ) 的方法。 北京邮电大学硕士学位论文 表i - iv i a v o i c c 系统对计算机的要求 操作系统处理器内存硬盘空间声卡输入设备光驱 w i n d o w s 91 6 6 m h z3 2 9 0 - 1 2 5 m b 1 6 位声消除噪音必须 5 n t4 0p e n t i u m 或4 8 m b 卡或完的头盔式 1 5 0 删z 删xr a m 全兼容麦克风 技术或更快 m w a v e 声卡 在过去的几十年中,人们曾把语言知识用规则的形式描述出来,编入计算机 中,开发了一些自然语言处理系统,这就是基于规则的自然语言处理。然而多年 的实践表明,单是基于规则的自然语言处理系统是难以应付现实世界中的自然语 言复杂多变的现象的。 由于上述原因,再加上计算机硬件技术的迅速提高,人们开始转向让计算机 处理大规模真实语言文本材料,以期从中获取知识,达到“取之于斯,用之于斯 的目的。这就是基于语料库的自然语言处理方法,大量有代表性的文本组成的语 言材料称为语料,对语料进行分析可包括各个层次上的分析,如词的切分、文本 注音、词性标注、句法分析、语义表达等。随着处理语料的不断增加,分析系统 的处理能力也不断加强,逐步达到能够处理大规模真实文本的能力。 大多数语音识别系统的最终目的是实现一个不依赖于讲话人的,并能够进行 连续的语音识别的系统。即系统能够识别任何讲话者的语言并能够识别正常语速 中的每一个词。语音识别作为“人一机通信系统 的一个重要组成部分,在办公 自动化、教育、通信、国防等方面都可以有广泛的应用,典型的有:计算机语音 声控输入、通信、数据库检索、特定环境下的控制用途等。 语音识别系统可以进行如下分类: ( 1 ) 按照语音识别的单元类型,可以分为孤立词语音识别系统和连续语音 识别系统; ( 2 ) 按照语音识别系统是否依赖发音人数,可以分成特定人识别系统和非 特定人识别系统,还出现介于这两者之间的自适应( s e l f - a d a p t i v e n e s s ) 识别 系统1 8 1 ; ( 3 ) 按照识别词汇表的大小,可以分为小字表( 1 - - 2 0 个字) 、中字表( 2 0 1 0 0 0 个字) 及大字表( 大于i 0 0 0 字) 的识别系统; ( 4 ) 按照识别处理过程先后和处理对象不同,可以分为前处理过程和后处 理过程。 由于本文主要研究重点是语音识别后文本处理技术,因此下面重点简述语音 识别前后处理过程的不同。语音识别的前处理过程主要是对输入的语音信号提取 北京邮电人学硕士学位论文 参数进行分析,其重点在语音信号处理方面。而后处理主要是完成音节到汉字的 转换,即将语音信息转换成计算机内码。这是一个小字符集映射到大字符集的问 题,其涉及的范畴属中文信息处理、自然语言理解及人工智能,它从语言学的角 度对前处理的结果作进一步的纠正识别,可能的话,还要提供定的反馈信息给 声学识别系统。语言信息处理系统是语音识别技术应用到实际中去的关键,后处 理在很大程度上借助了语言学知识。 在语音识别系统的性能评价中,语音识别的正确率是主要的;另外是语音识 别系统对发音人的要求高低、系统抗噪音能力的大小和系统训练量的大小。语音 识别的正确率,也叫识别率,是语音识别系统性能评价中最主要的指标,它衡量 了语音识别系统正确识别语音的百分率。 一个完整的语音识别系统可大致分为三部分: ( 1 ) 语音特征提取:其目的是从语音波形中提取出随时间变化的语音特征 序列。 ( 2 ) 声学模型与模式匹配( 识别算法) :声学模型通常是由学习语音特征的 算法产生。在识别时将输入的语音特征同声学模型( 模式) 进行匹配与比较,得 到最佳的识别结果。 ( 3 ) 语言模型与语言处理:语言模型包括由识别语音命令构成的语法网络 或由统计方法构成的语言模型,语言处理可以进行语法、语义分析。 语音识别系统的原理框图如图1 - 1 所示: 图1 - 1 语音识别系统的原理框图 经过如上图1 - 1 所示的语音识别系统后得出纯文本识别结果,其中输出的识 别结果作为语音识别后处理系统的输入,来纠正前级识别的结果,如下图卜2 所 示: 北京邮电大学硕士学位论文 图卜2 语音识别后处理系统 后处理系统建立了非声学的语言知识模型,并且利用这个模型来对这些拼音 串进行识别处理。具体来说,系统首先对拼音串进行切分,得到的结果允许存在 歧义和错误,这由随后的文本分析模块加以纠正,包括基于规则的和统计的方法。 在处理过程中,系统分析的依据是知识库,知识库采用静态库与动态库相结合的 方法。动态库是针对具体的文本建立的,它能使识别系统增强对特定问题的适应 能力和处理效率。在识别处理和人工干预过程中,还将要更新系统的知识库。 综上所述,目前对语音识别后处理的研究正呈现出多样化,语言学知识在研 究过程中越来越受到重视,主要是采用了语法、语义信息和一些其他策略,如限 制可接受的词等。应该更加深入地应用语言学知识,应用自然语言理解方面的各 种现有及正在兴起的方法来改善语音识别系统的性能。 本文中我们将采用基于自然语言理解方法,即主要从语法、语义和语用三个 方面出发,重点关注语用信息对识别正确率提高的贡献,设计开发相应的适用于 语音识别后处理的算法,并在智能手机平台下加以实现。 1 3 2 语用信息为主导的自然语言处理 本文主要侧重于探索语用信息在自然语言处理中的效用,因此下面将着重论 述语用信息。 早在1 9 3 8 年m o r r i s 就认为符号学( s e m i o t i c s ) 由符号关系学( s y n t a c t i c , 即句法学) 、语义学( s e m a n t i c s ) 和语用学( p r a g m a t i c s ) 三个部分组成。符号关 系学研究“符号之间的形式关系”;语义学研究“符号与符号所指对象的关系”; 语用学研究“符号与符号解释者的关系”。 语用学可以分为两大流派:其一是英美学派,将语用学看成是语言学的分相 研究,故称微观语用学( m i c r op r a g m a t i c s ) ,或是语用学的分相论;其二是欧 洲大陆学派,主张凡与语言的理解和使用有关的都是语用学的研究对象,将语用 学看成是语言功能的一种综观,故称宏观语用学( m a c r op r a g m a t i c s ) ,或者说 是语用学的综观论。 北京邮电大学硕士学位论文 语用学具有多个研究面: 第一个研究面着重研究特定语汇和语言结构的语用属性,所以属于语用一 语言学的研究领域,是介于语用学和语义学之间的跨面研究。 第二个研究面研究说话人意义; 第三个研究面是研究听话人意义; 第四个研究面研究语篇意义。 语用学也有很多的研究分支,如: 研究语言本身语用问题的语用语言学( p r a g m a t i c l i n g u i s t i c s ) ; 研究语言和心理认知关系的认知语用学( c o g n i t i r ep r a g m a t i c s ) ; 研究语言和社会关系的社会语用学( s o c i e t a lp r a g m a t i c s ) ; 研究母语语用能力习得的发展语用学( d e v e l o p m e n t a lp r a g m a t i c s ) ; 研究外语语用能力的语际语用学( i n t e r l a n g u a g ep r a g m a t i c s ) ; 研究语用与文化关系的跨文化语用学( c r o s s c u l t u r a lp r a g m a t i c s ) 。 当然,语用学研究并不仅仅局限于上述分支领域。比如,目前一个新的领域 正在引起人们的注意,那就是语用学同形式语言学相结合的形式语用学。这个领 域研究语用的形式化,涉及语用和逻辑的关系,探讨语用学理论在人工智能和计 算机处理自然语言方面所起的作用。 研究语用信息要以语义信息和语法信息为基础,因为“效用 是针对具体的 状态及其变化方式所具有的含义来说的。引入认识主体与客体事物之间的关系, 事物状态和状态变化方式的形式化关系是语法信息;这种形式化关系与它相应客 体的关联产生语义信息;而语法语义与主体的关联则形成语用信息。语义研究的 最大优势是细度,机器处理所需的逐类逐词的语义特征信息主要将靠语义平面的 研究来提供。语用优先则主要是针对汉语宏观体系建设而提出的。 因此我们要在宏观方面( 句子、话语) 加强句法一语用关系的研究,确定制 约句子构造的语用因素;在微观方面( 短语、形态) 加强句法一语用关系和语义 一语用关系的研究,确定制约词语组合和形态使用的语用因素。 基于语用信息智能理论的最主要特色,在于它能够利用语用信息来解决问 题。这表现在:在它给定的环境下搜索到达目标的途径时,对于所面临的各种可 能途径,不再是盲目的选择或系统地探索,而是先估计这些不同途径对于到达目 标而言的效用度,在比较它们效用度大小的基础上,选择最有希望的途径。因此, 语用信息智能理论解决问题的盲目性比较小,成功的把握比较大。当然,在实际 的问题中,为了获得语用信息往往要付出一定的代价,要获得的语用信息越多, 利用越充分,所付出的代价也会越大。因此,从经济的角度来考虑,在一定的技 术状态下,利用语用信息的程度要适可而止。不过,从发展的观点来看,随着技 北京邮电大学硕士学位论文 术本身的不断进步,为了获得语用信息而需要付出的代价将会越来越小,而由此 所带来的得益却会越来越多。因此,从长远来看,尽可能充分地利用有关的语用 信息来解决问题是一个应当追求的目标。实际上可以认为这是人工智能理论发展 的一个重要途径,也是一个重要的方向。阱1 1 4基于自然语言理解的语音识别后文本处理的研究 语音作为一种理想的人机通信方式具有自然、方便、快速的特点,让机器能 够理解人的语音一直是人们追求的理想,传统语音识别的方法无论是基于统计的 模型还是基于规则的模型,对识别的内容并不进行正确性分析。导致这种错误的 原因主要是语音模糊。例如将“c a l lad o c t o r 识别成“c a l las a l t 。如果 换一种处理思路,采用自然语言理解的方法分析结果的内容,则很容易判断出 “c a l las a l t 不符合人们的用法。为此我们提出如图1 3 所示的自然语言理 解与语音识别综合模型。 图卜3 自然语言理解与语音识别综合模型 这个模型的初步实验背景是8 6 3 课题面向“奥运多语言综合信息服务 项目 的典型示范系统“c i t y g u i d e 移动终端。“c i t y g u i d e 可以向新到北京的中外 旅游者提供常用的信息服务,包括交通、住宿、就餐、就医等。用户每次可向系 统输入一个中文或英文的自然语言语句,如“请给我一个单人间”、“i v eg o ta c o l d 刀。语音识别软件的结果文本作为本算法的输入,首先经过基于“形一价一 义 的自然语言分析、评估,找到可能出错的词汇,再经过错误纠正就可以得到 优化的结果输出。其中所需要的知识都来自于知识库。需要强调的是,知识库的 构建必须要以应用领域相关的目的为依据。具体的算法实现如图1 - 4 所示: 北京邮电大学硕士学位论文 图卜4 自然语言处理与语音识别综合模型的实现算法 由于系统需要同时支持中文和英文,因此首先要对结果文本进行语种判断, 这主要是基于字符编码原理实现的。接下来对于语句可信度的评估是以词语为基 本单元进行的,因此第一步对于中文的处理是分词,而英文则比较简单,以空格 作为分隔符即可。然后依次进行语法、语义和语用层次的分析,每一层次的分析 都会产生一个局部评估,在此基础上形成每个词语的可信度评估,从而找到可能 正确和可能错误的词语,为进一步纠错奠定基础,最终输出的是优化后的语句。 因此,本课题要研究的主要问题是:采用自然语言理解的方法论对人机对话 系统语音识别结果进行处理,发现并纠正其中的错误,从而提高识别的正确率和 可读性,并在智能手机上实现演示系统。具体包括以下几点: 1 在p c 机上完成其系统框架,并实现其基本功能,主要包括: 1 ) 建立语音识别文本常识知识库。 2 ) 语音识别输出结果语法、语义和语用错误的识别。 3 ) 语音识别输出结果错误的纠正。 2 把研究成果应用于项目“奥运多语言智能信息服务系统关键技术及其示 范系统研究 的终端部分,并与智能手机平台的语音引擎实现较好连接,最终提 高终端语音识别结果的正确性。 基于自然语言理解的语音识别后文本处理是一项前沿研究课题,国内外还没 有见到同类的研究,在研究和实现上都有重要的意义。 1 5本文的工作重点 在上述课题背景的论述下,本文的工作重点主要是以下几个方面: 北京邮电大学硕士学位论文 1 ) 主要将基于以语用信息为主导综合语法、语义信息的自然语言理解算法应用 于语音识别后文本处理系统的纠错过程中,改善现有语音识别系统的识别正 确率; 2 ) 采用在线语料库技术以及模糊文本分类技术解决目前知识库规模小,语言现 象简单,领域可移植性差的问题,大大提高语料库规模并且提高知识库文本 分类的准确率; 3 ) 综合语用算法与模糊理论的语音识别后处理在线语料知识库改善现有识别 正确率,扩大规模,提高领域可移植性; 4 ) 扩大训练语料,验证算法的有效性与可行性; 1 6 论文的结构框架 本论文的结构如图卜5 所示。第二章对以语用信息为主导的语音识别后文本 处理系统的总体框架进行论述。接下来的三章分别描述各个系统流程的具体实现 方法,其中第三章叙述基于模糊分类的文本处理过程,第四章提出了基于模糊关 联度的文本分类算法。第五章将已经实现的知识库与原有的语音识别后处理实验 系统相结合,对知识库的系统功能开展测试。最后,第六章对本文的主要工作和 创新之处进行总结,并提出未来研究工作的展望。 图i - 5 本文内容结构 北京邮电大学硕士学位论文 第二章语音识别后文本处理系统 2 1 现有平台的语音识别后处理系统概述 本课题针对“奥运多语言综合信息服务”项目的典型示范系统“c i t y g u i d e 移动终端研究实现了一个自然语言处理的容错模块。“c i t y g u i d e ”是在智能手机 平台上实现的一个信息服务终端,支持语音输入输出,可为奥运期间来北京的 参观旅游者提供住宿、交通、旅游等方面的信息服务。目前该演示系统主要支持 单句语音输入,如“今天晚上还有房间吗? 、“请问最近的车站在哪? ”。具体 的算法设计思想是,先找错后纠错。对语音识别后的每一文本语句进行多方面的 可信度评估,通过综合可信度的数值判断一句话是否有错以及可能出错的词汇 “点,从而为进一步纠错提供知识。简单的纠错算法可以是结合出错点、已经 得到确信的点、系统可识别的正确语句候选集来完成。更深入的纠错还需要借助 语言学知识库。初步从语法和语义两个方面对系统进行分析建立。 语法分析 语法分析主要考察词语语法方面的可信度。语法信息中的词性信息是研究者 们使用最多的一种,但是考虑到词性标注不仅费时费力,而且语音识别结果不同 于一般正确文本,错误文本本身就不符合常规词性规律,尤其是“兼类词”更难 处理,词性标注正确率很难保证,所以暂不使用词性信息。目前主要考虑了位置 信息和语音识别稳定度。 位置信息方面,我们考虑一些常识性的知识,如在信息服务的口语对话系统 中,位于句首的常有“请”、“能 、“我要”等祈使类词语,句末常有“吗 、“哪 、 “哪里 等疑问性词语。对于这些词语,在识别结果中一旦发现就予以纠正,其 正确率非常高,没有必要再为其作复杂的分析评估,同时还可以为该语句中其他 词语的检错纠错提供辅助性的信息。 语音识别稳定度方面,我们主要是考察语音识别引擎输出结果的统计特性, 通过比较正确的语句和大量的错误训练语句,我们可以集中发现其中比较稳定和 容易出错的部分,如发现一些出错较为频繁的词语或者词语串,举例: 正确语句: 请给我一个带淋浴的双人间 实际测试发现的可能错误语句举例: 北京邮电大学硕士学位论文 请给我一个大0 1 的双人间 请给我一个大厘米的双人间 情给我一个大领域的双人间 清给我一个大领域的双人间 请给我一个在离异的双人间 请给我一个大的双人间 请给我一万零一吨双人间 清给我一个大米的双人间 情给我一个在沐浴的双人间 行地位的这里的双人间 行给我一个大领域的双音节 易见,其中“给我一个 、“的 、“双人间”的语音识别正确率较高,而“带 淋浴”、“请 的识别正确率较低,这说明从声音特征角度来看,“双人间 作为 输入时比较稳定,也就是语音识别稳定度高。分析其主要原因是某些词语的发音 组合对于语音识别系统很容易确定,而另一些则容易造成错误,特别是对于汉语, 来自不同地域的人在某些音节发声的时候容易出现不规范的现象。对于这种现象 进行统计,可以得到不同词语的语音识别稳定度,用 0 ,1 】区间内的数值来表示, 定义如下: 语音识别稳定度= 毒芋镇嚣器 式( 2 - d 如果语句中出现了语音识别稳定度很高的词语,那么我们有充足的信心相信 他们是正确的词语,由此可以以他们为正确的出发点去为其他可信度较低的词语 找错和纠错。 语义分析 语义分析主要考察当前词语揭示所在语句含义的能力。通常一句话包括一个 或多个词汇,其中有些词汇是帮助构造语句的,属于功能性词语,如祈使词语、 代词、数量词、助词等;还有些词汇属于传达意义性词语,用来揭示语句的特定 含义。这两种词语相互补充、共同组成语句整体。 因此,我们将语句中的词汇分为核心词和普通词两类。核心词是某一类语句 中出现的能够揭示其含义的关键词。普通词则是在各个类别中都可能出现,不太 影响类别含义的词语。我们也可以用 o ,1 区间内的数值来表示这种语义度量值。 其数值可以通过规则与统计相结合的方法自动获得,统计方法原理类似于信息检 索中常用的t f i d f 算法,即考虑文本中的词频和词语的倒排文档频率。规则方 法如建立停用词表( 或称为禁用词表,即词语频率和文档频率都很高的功能词语, 如助词、介词、连词、感叹词等等) 、语法分析等。目前由于这部分内容所需要 北京邮电大学硕士学位论文 的大规模语料库条件暂不具备,就采用简单的人工构建方法完成。 我们根据“c i t y g u i d e 演示系统功能把语句含义分成了9 类:饭馆就餐、 购买衣服、讨价还价、旅馆住宿、问路、修理、打车、就医、寻人物。并且为 每一类语句建立了一个初始的核心词列表,以饭馆就餐为例,这个列表在增加新 的语料或者新的应用领域的时候可以通过学习与训练模块扩展,也可以添加语义 度量值。目前的核心词列表包括: 菜单、酒精、饮料、大蒜、菜、点菜、辣、打包、芥末、盐、酱油、醋、胡椒粉 图2 1 语音识别后处理系统框架图 因此具体的研究实施方案初步包括以下几个方面的内容: 1 ) 知识库的建立; 要想实现自然语言的理解,就必须同时研究语法、语义和语用信息。但是目 前普遍的研究都是以语法、语义信息为主,综合三者的研究很少。本子课题承担 单位在该领域已经进行了一些有益的探索,取得了一定的成绩,例如基于全信息 的自动文摘、基于全信息的邮件过滤等等,在国内外处于领先地位。因此,结合 本子课题的需求,课题组分别提炼面向语音识别文本的语法、语义和语用信息和 知识,建立知识库。与文献中查到的为数不多的同类系统相比,它们主要利用了 语音、语法信息的统计信息,而本系统全面引入了语法、语义、语用信息,这是 本课题完成的一个重要的创新性的工作。 2 )文本错误的识别; 发现错误是处理的第一步,只有识别出错误才能进行纠正。本课题利用知识 北京邮电大学硕十学位论文 库中的内容,分别从语法、语义和语用三个层次分析文本内容,对语音识别后的 每一文本语句进行多方面的可信度评估,通过可信度的数值判断一句话是否有错 以及可能出错的词汇“点,从而为进一步纠错提供知识准备。语法分析判断语 音识别后文本是否符合词汇、句法等语法规则,语义分析判断文本的逻辑真实度 和概念搭配合理性,语用分析通过建立文本中的上下文语境,从而发现语音识别 文本中不符合整体语用环境的错误。这种综合语法、语义、语用信息的语音识别 后文本错误识别方法也是本子课题的一个重要特色和创新点。 3 ) 文本错误的纠正; 根据文本错误识别出的可能错误的和可能正确的结果和数据,分析错误的类 型、研究错误的语法、语义和语用特点,结合“c i t yg u i d e 应用语料,综合给 出可能的修正方案,并把系统认为最优的修正结果提交给用户。 4 )移动终端应用; 本子课题模块可应用在“

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论