已阅读5页,还剩60页未读, 继续免费阅读
(计算机应用技术专业论文)基于条件随机场的口语规范化处理研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
硕t 论文基j 二条件随机场的口语规范化处理研究 摘要 自然人机接口是计算机能否受到更广泛应用的关键技术。语音翻译是自然人机接口 的典型应用,目前已经取得了一些成果,但仍存在许多问题有待进一步研究。尤其是由 于自然口语本身的灵活性与多变性,导致其中的重复、冗余、省略等非规范化现象大量 存在,加上在语音识别阶段无法完全避免的识别错误结果,这些都对语音翻译系统的后 续处理过程产生了很大的影响,进而使得翻译质量低下。本文以条件随机场模型 ( c o n d i t i o n a lr a n d o mf i e l d sm o d e l ) 为基础,开展对语音识别后的自然口语规范化及纠 错处理( 下文简称为口语规范化处理) 的研究,主要工作和特点如下: 1 、详细介绍了条件随机场模型的理论及其对自然语言处理的重要意义,分析并比 较了该模型相对于其它序列标注统计模型的优点。 2 、根据语音翻译系统目前存在的问题,专门开展了对自然口语中存在的非规范化 现象及语音识别错误纠正问题的研究。 3 、采用了规则与统计结合的方法应用于本问题的处理。根据自然口语的特点,本 文总结归纳了一些可以利用的语言规则。规则的引入解决了单纯基于统计方法存在的一 些弊端。实验结果表明,这种方法比单纯基于统计的方法效果要好。 4 、设计编程实现了条件随机场模型,解决了现有的模型实现工具存在的内存需求 过大的问题,也免除了使用现有工具时的中间环节,从而大幅度提高了工程效率。 5 、利用现有的语料库,设计了一个完整的实验系统。通过实验结果表明,基于条 件随机场模型的口语规范化处理效果良好。 关键词:语音翻译系统、口语规范化处理、条件随机场、特征 a b s t r a c t 硕十论文 a b s t r a c t n a t u r a lm a n u a l m a c h i n ei n t e r f a c ei st h ek e yt e c h n o l o g yw h i c hd e c i d e st h ec o m p u t e rc a nb e u s e dw i l d l yo rn o t a sat y p i c a la p p l i c a t i o no ft h en a t u r a lm a n u a l - m a c h i n ei n t e r f a c e , s p e e c h t o - s p e e c ht r a n s l a t i o nh a sa l r e a d ym a d es o m ea c h i e v e m e n t sa tp r e s e n t ,b u tt h e r ea r e s t i l lal o to fq u e s t i o n st ob es t u d i e df u r t h e r i np a r t i c u l a r ,b e c a u s eo ft h ev a r i a b i l i t ya n d f l e x i b i l i t yo fn a t u r a ls p o k e nl a n g u a g e s ,t h e r ea r eal a r g en u m b e ro fn o n 。s t a n d a r d i z a t i o n p h e n o m e n o n s ,s u c h a sr e p e t i t i o n ,r e d u n d a n c e ,e l l i p s i sa n ds oo n i ti si n e v i t a b l et h a tt h e r ea r e r e c o g n i t i o nf a u l t yr e s u l t sa f t e rs p e e c hr e c o g n i t i o n t h e s ea l lh a v eg r e a ti n f l u e n c eo nf o l l o w i n g t r e a t m e n tp r o c e s so fs p e e c ht r a n s l a t i o ns y s t e m ,a n dm a k el o w - q u a l i t yt r a n s l a t i o n t h i st h e s i s i sb a s e do nc o n d i t i o n a lr a n d o mf i e l d sm o d e l ,a n dd e v e l o p st h er e s e a r c ho nc l e a r i n gu p n o n s t a n d a r d i z a t i o np h e n o m e n o n s ,a n dr e c t i f i n gf a u l t yr e c o g n i t i o nr e s u l t s t h em a i nw o r k a n dc h a r a c t e r i s t i ca r ea sf o l l o w s : 1 t h ep a p e ri n t r o d u c e si nd e t a i lt h et h e o r yo fc o n d i t i o n a lr a n d o mf i e l d sm o d e la n di t s i m p a c to nt h en a t u r a ll a n g u a g ep r o c e s s i n g w ea n a l y z ea n dc o m p a r et h ea d v a n t a g e so f t h em o d e lc o m p a r e dw i t ht h eo t h e rs e q u e n c et a g g i n gs t a t i s t i c a lm o d e l s 2 a c c o r d a n c et ot h ep r o b l e m sw h i c he x i s ti ns p e e c h t o s p e e c ht r a n s l a t i o ns y s t e m ,w e s p e c i f i c a l l yc a r r yo u tr e s e a r c ho nc l e a r i n gu pn o n s t a n d a r d i z a t i o np h e n o m e n o na n d r e c t i f i n gf a u l t yr e c o g n i t i o nr e s u l t si nn a t u r a ls p o k e nl a n g u a g e s 3 i nt h ep a p e r , w eu s et h ec o m b i n a t i o no fr u l e sa n ds t a t i s t i c a lm e t h o d st od e a lw i t ht h i s i s s u e a c c o r d i n g t ot h ec h a r a c t e r i s t i c so fn a t u r a l s p o k e nl a n g u a g e ,t h i s a r t i c l e s u m m a r i z e ds o m eo ft h el a n g u a g er u l e sc a nb eu s e d t h ei n t r o d u c t i o no fr u l e ss o l v e sa n u m b e ro fd r a w b a c k sb a s e ds i m p l yo ns t a t i s t i c a lm e t h o d t h ee x p e r i m e n t a lr e s u l t ss h o w t h a tt h i sm e t h o di sb e t t e rt h a nt h ew a yb a s e ds i m p l yo ns t a t i s t i c a lm e t h o d 4 w e d e s i g na n dp r o g r a mt h ec o n d i t i o n a lr a n d o m f i e l d sm o d e l i ts o l v e st h ep r o b l e mt h a t t h em e m o r yd e m a n do fa v a i l a b l em o d e lt o o l si sv e r yl a r g e ,a n ds ot h a ti ti m p r o v e s e f f i c i e n c yo fp r o j e c t so b v i o u s l y 5 u s i n gt h ea v a i l a b l ec o r p u s ,t h i sp a p e rd e s i g n s a ni n t a c t e x p e r i m e n ts y s t e m t h e e x p e r i m e n t a lr e s u l t si n d i c a t et h a t e f f e c to fo r a ls t a n d a r d i z a t i o np r o c e s s i n gb a s e do n c o n d i t i o n a lr a n d o mf i e l d sm o d e li sg o o d k e y w o r d s :s p e e c h t o - s p e e c h t r a n s l a t i o n s y s t e m ,o r a l s t a n d a r d i z a t i o n p r o c e s s i n g , c o n d i t i o n a lr a n d o mf i e l d s ,f e a t h e r i i 声明尸l 刃 本学位论文是我在导师的指导下取得的研究成果,尽我所知,在 本学位论文中,除了加以标注和致谢的部分外,不包含其他人已经发 表或公布过的研究成果,也不包含我为获得任何教育机构的学位或学 历而使用过的材料。与我一同工作的同事对本学位论文做出的贡献均 已在论文中作了明确的说明。 研究生签名: 重金选 仰7 年月) 7 日 学位论文使用授权声明 南京理工大学有权保存本学位论文的电子和纸质文档,可以借阅 或上网公布本学位论文的部分或全部内容,可以向有关部门或机构送 交并授权其保存、借阅或上网公布本学位论文的部分或全部内容。对 于保密论文,按保密的有关规定和程序处理。 研究生签名:缝遮 妒p 月7 日 硕上论文基于条件随机场的u 语规范化处理研究 1 引言 1 1 背景及意义 1 1 1 口语规范化处理研究背景 随着整个世界现代信息化进程的快速发展,语言文字信息的计算机处理需求越来越 强烈,其重要性与紧迫性日益显现出来。而自然语言处理作为其中重要的一个方面,近 年来得到迅速发展。 自然语言处理是计算机科学领域和人工智能领域中的一个重要方向,它的研究内容 是人与计算机之间利用自然语言进行有效通信的各种理论和方法。具体包括自然语言人 机接口、机器翻译、文献检索、自动文摘、自动校对、语音识别与合成、字符识别等等。 而机器翻译是其中非常重要的一个分支,也是目前研究的热点领域。另外,近年来通信 和网络等领域的飞速发展加快了世界一体化的进程。几乎所有的人与机器进行信息交互 相关的需求和服务,例如自然口语对话、信息索取、数字图书馆、国际民航信息咨询、 国际会议( 包括体育运动会) 信息综合服务、旅游信息咨询、远程教育、语音翻译等, 都可以在网络上实现。而目前的人机交互和信息获取基本上是通过鼠标和键盘等辅助工 具进行的,而语音作为人类最普通、最方便、最有效的信息交互方式并没有得到有效的 应用。因此研究有效的语音翻译技术,使不同国籍的人在任何地方,任何时间,对任何 事物都能够通过自然语音的方式进行交互,以便于人们能够更加方便地享受到更多的社 会信息资源和现代化服务,将是目前亟待解决的问题。 语音自动翻译作为机器翻译的一个新兴分支,主要包括语音识别、机器翻译、语音 合成等几个方面。它以自然环境下的口语对话为主要研究对象,涉及到声学、语言学、 心理学、计算机科学、自然语言处理、模式识别以及通讯技术等多个学科。它的发展将 会有力地推动这些领域的研究,提高人们对大脑认知过程的理解,从而实现对人类语言 感知和思维机理的模拟与接近。因此,研究语音自动翻译具有重要的学术和社会价值。 而语音语言信息处理的技术水平和年处理信息量也已成为衡量一个国家现代化水平的 重要标志之一。 但是在我们日常的口语语句中,语气词、重复、冗余、省略等非规范现象常常出现, 并且经过语音识别后不可避免的存在许多识别错误。若将这样的句子直接输入机器翻译 系统,势必会对翻译系统的其它后续处理过程产生影响,最后翻译的效果往往不太理想。 因此对于语音识别的口语句子进行机器翻译之前,必须要对其进行规范化处理。这对于 当今信息正确交流、准确获取等具有重要的意义,这方面技术的突破将会极大地促进信 息产业的发展。 硕i j 论文 1 1 2 口语规范化处理基本概念 语言是人类进化到一定阶段的产物,并伴随着人类社会的发展日益丰富和复杂。它 不仅是一个复杂的自然现象,而且也是一个复杂的社会现象。语言与思维的关系极其密 切。现在人们对于自然语言理解存在以下共识i l l : ( 1 ) 语言传递的信息具有多层次的结构,而且不完全是显式表现的 ( 2 ) 自然语言是发展变化的,其中以词汇的丰富最为突出; ( 3 ) 自然语言的语句不都是符合语法规则的,总有例外存在,在1 2 1 语中尤其明显; ( 4 ) 由于场合等的变化,自然语言的模糊性本身也是相对的; ( 5 ) 自然语言有明显的个体差异和色彩意义; ( 6 ) 语句与所要表达的内容并不完全一致,存在“意在言外 之类的现象; 1 1 2 1 口语特点 口语作为人们相互交流的一种非常重要的表达方式,与书面语相比,具有多变性和 灵活性等不同的特点。深入研究和分析口语的特性,对于语音翻译研究具有重要的意义。 下面介绍一下口语的特点。 1 ) 口语的用词比较短 表1 1 显示了口语句子中的词语长度分布【5 】。结果显示,1 字词和2 字词占8 6 1 9 , 3 字词和4 字词占少数,而4 字以上词很少出现。根据统计结果,口语平均词长为1 8 7 个汉字,比书面语的平均词长( 约2 4 5 ) 短1 6 l 表1 1口语语句中词长分布 词长字 l234 比例 2 8 5 l 5 7 2 0 1 2 9 91 3 1 2 ) 1 :3 语语句长度较短,句式比较简单 表1 2 显示了口语句子长度分布【5 】。从中可以看出,l 字长的语句数最多,它们一般 是语气词或呼应性的单字词,如:啊、喂、噢、嗯等。1 5 字长的语句占接近一半( 4 8 9 6 ) , l l o 字长的语句占7 5 。 表1 3 显示了口语句子分析树深度分布【7 1 。从中可知,口语语句的句式和结构比较 简单,7 5 的句子可以用3 层和3 层以下的句法分析树表示,用5 层及以上表示的只占 很少一部分。 表1 2 语句长度分布 词长字 l23 4 567891 0 1 l 比例 1 5 1 28 3 49 2 88 5 47 6 86 7 85 2 75 2 74 7 84 0 92 4 8 5 2 硕上论文基于条件随机场的口语规范化处理研究 表1 3 短语句法分析树深度分布 深度层 234 - - 5 比例觞3 4 44 0 6 1 8 8 6 2 3 ) 口语用词的词义比较简单 口语是在某种背景下进行的对话,主要目的是方便简练地交流信息。因此每个词语 所表达的意思相对比较简单,一般就只有一个含义,只需要考虑与之相关的常识性知识 即可。 1 1 2 2 口语中的特殊语言现象 与书面语相比,自然口语受人类即时思维的影响,表达比较简洁,结构比较随便, 连贯性比较弱,非规范化语言现象大量存在。主要包括重复、冗余、省略、独词句和词 序颠倒等五种非规范现象。一般情况下,这些现象在书面语中很少出现。表1 4 显示了 这几种语言现象的比例1 5 j 。 表1 4 非规范语言现象比例 一: 语言现象重复冗余省略独词句词序颠倒现象并存 比例3 5 6 4 7 0 3 2 6 14 4 5 91 2 35 6 8 现象并存是指一个语句中至少含有五种非规范化现象中的两种。可以看出,独词句 和省略现象占大部分( 7 7 2 ) ,而这两种现象对于后面的处理步骤( 比如词性分析、实 体识别、句法分析等) 影响不是很大,另外三种语言现象则会对句法分析、语义分析带 来较大的影响f 8 】。“词序颠倒”现象几乎很少出现,这种现象主要体现在句子结构上,需 要分析整个句子的含义才能对此做出判断,而利用计算机实现语句的理解有一定的难 度。因此对这种现象我们暂时不予考虑,下面重点介绍一下其它情况。 1 ) 重复 重复主要指说话人由于思维过程的需要或者意外而导致的语句中含有不符合语法 规则的词语重复现象,并不包括“看看 “谢谢之类的情况。如下面的例句: a ) 我想问一下虫羞蕴中关村周围规模较大的医院都有哪些 b ) 乃艺疰下礼拜二三吧好吗 根据统计结果,w l l w l 和w l ,w 2 1 w l 这两种重复模式占绝大部分( 7 5 5 ) 【8 l 。其中 w l ,w 2 为语句中对应的词汇。 2 ) 冗余 冗余是口语中十分常见的一种非规范现象。当说话人思维不连贯而在话语中添加一 些辅助词语以增加语气的节奏感,这些多余的字或者词语造成了冗余,若去掉它们对整 个语句的原意并无影响。表1 5 显示了旅游信息咨询领域内冗余现象的统计结果【8 l 。 i 引言硕l :论文 表1 5 冗余现象统计情况 k 度字 123456 比例 7 7 21 4 45 61 11 20 5 例子唉,那,那个,就就是说,请问我想我想请问 啊,喂是,这个 比如说一下闯一下一下 可以看出,l 字词冗余占很大一部分比例,而且大部分是语气词,在口语中,它们 对于后续的句子分析并无影响。2 字词中,“那个”、“这个”在口语中大多数情况并不是 代词,而是为保持语句的连贯性添加的辅助性的词语,删除并不影响原意。3 及以下字 长的冗余多具有停顿性,主要用于描述,解释,举例等的情况。如下面的例句: a ) f 显老写m - - t 清华附近的堡麦当劳在哪 b ) 堡塑坠香山饭店的价位怎么样 3 ) 省略 省略现象主要指对话过程中,说话人根据上下文语境都明白而为了话语的方便性无 需再说出的字词信息。在翻译过程中,大多数这种情况无需添加省略的词汇,他们对于 翻译过程中的后续步骤一般影响不大。如下面的语句: a ) 航天桥附近那个( 加油站) b ) 十三班( 有没有人参加) 呢 4 ) 独词句 这类语句一般只含有一个词,从语言学角度讲,多是对对方的回应。这种情况一般 是省略了一条完整句子中的大部分成分,而仅保留它们并不会对语句的理解造成影响。 如下面的语句: 幻没问题 b ) 行 1 1 2 3 语音识别错误 同书面语相比,口语的声学特性有一定的特殊性,这类语音的音段特征( 即语音的 谱特性) 和超音段特性( 包括语速、语调、音强等) 随着表达的内容、感情色彩等的不 同,变化的范围比朗读语言大得多,同时还有非语言信号和噪声【2 1 。而且,讲话人往往 是在较强的背景噪声或多讲话人环境下发音的,如果是电话自动语音翻译系统,还存在 通讯干扰等其它因素的影响。此外,语言本身含有很多语音相同和相近的字词。所有这 些情况都导致了目前语音识别不可能1 0 0 正确,不可避免的存在一些甚至大量识别错 误信息,而这也将很大程度上影响翻译原文的质量。比如下面的句子: a ) 我想查询一下篮缝路附近的医院 原句:我想查询一下知春路附近的医院 4 硕上论文基于条件随机场的口语规范化处理研究 b ) 我想型人民大学体育馆的信息 原句:我想知道人民大学体育馆的信息 c ) 那个是你的 原句:哪个是你的 总之,语音识别后的口语与书面语相比有着自己的特点,在将其送入翻译系统 之前,必须进行必要的预处理以提高翻译质量。 1 1 3 研究意义 近年来,随着世界一体化进程的发展,不同母语的人们在商贸、旅游、文化、体育 等领域的国际交流同益频繁,语言上的障碍也变得日益突出。由此对语音自动翻译系统 的要求越来越强烈。据国际权威机构调查显示,2 0 0 5 年时世界翻译市场己达到2 2 7 亿美 元,其中中国为2 0 0 亿人民币。随着网络应用范围的扩大和国际电子商务的成熟,2 0 0 7 年全球网络翻译市场达1 7 亿美元。另外在欧盟委员会中,各机构每年的翻译费用就达 l o 亿多欧元,对于2 0 种官方语言,每种语言每天需要8 0 名口译人员。为此,许多国家 投入巨资开展全国性或多国性的联合研究。其中从1 9 9 3 年到2 0 0 0 年期间德国联邦教育 研究部( f e d e r a lm i n i s t r yo f e d u c a t i o na n dr e s e a r c h ,b m b f ) 共投入约1 1 6 亿马克用于对 多语言的自动语音翻译系统的研究。 而目前语音自动翻译的质量并不乐观,其主要原因之一是因为相对于书面语而言口 语本身存在的多变性与灵活性。由于语言本身含有大量的语音相同和相近字词,以及语 音识别时背景噪声的存在及个人说话习惯的不同,还有语音识别技术发展至今仍无法解 决的一些问题,导致识别错误结果大量存在。再加上口语中含有的语气词、重复、冗余、 省略等非规范现象,必会对机器翻译中的实体识别,词性分析,语义分析等过程带来严 重的影响,从而造成最后翻译质量的低下。因此这方面的研究不仅会加深对语言学的认 识,还会促进自然语言处理的发展,从而带动整个信息产业的进一步发展。可见其不仅 具有巨大的经济效益,也具有重要的学术价值。 1 2 发展现状分析 机器翻译( m a c h i n et r a n s l a t i o n ) ,又叫自动化翻译,其过程是通过计算机将一种自然 语言转变为另外一种自然语言,完成这个过程的软件称为机器翻译系统。机器翻译最早 起源可追溯到1 9 0 3 年,通用语言的历史一书中指出,德国人里格( w r i e g e o 曾提出 过一种数字语法( z i f f e m g r a m m a t i k ) ,根据这种语法再加上词典的辅助,可以利用机械装 置将一种语言翻译成其他多种语言,首次使用了“机器翻译 这一术语。1 9 3 3 年,当时 苏联人特洛扬斯基提出了借助于机械装置进行不同语言翻译的详细步骤,设计了由一块 5 l 引苦硕i :论文 台板和一条带根据机械原理进行翻译的样机。1 9 4 6 年,美国宾夕法尼亚大学的埃克特( j ee c k e r t ) 和莫希莱( j w m a u c h l y ) 制造出了世界第一台电子计算机e n i a c 。同一年, 英国工程师布斯( a d b o o t h ) 和美国洛克菲勒基金会副总裁韦弗( w w e a v e r ) 就提出 了利用计算机进行语言自动翻译的想法。1 9 5 4 年,美国乔治敦大学和i b m 首次联合试 验使用电脑翻译系统,将2 5 0 个词的俄文材料译成英文,这次试验的成功标志着机器翻 译系统的真j 下诞生。从6 0 年代中后期到整个7 0 年代,机器翻译处于一个平稳发展的时 期。进入8 0 年代,由于计算机科学、语言学研究的发展,特别是计算机硬件技术的大 幅度提高以及人工智能在自然语言处理上的应用,机器翻译研究工作在全世界范围内展 开,并在随后的9 0 年代取得了长足的进步。 然而此时的机器翻译的输入对象多是符合语法规则的标准语句。真正语音翻译技术 的研究则是从上个世纪8 0 年代末期开始的。语音翻译就是利用计算机实现从一种语言的 语音到另一种语言的语音翻译的过程。其基本设想是让计算机充当持不同语言的说话人 之间的“翻译官的角色。由于说话人实时交流都是使用日常生活中的口语,所以人们 也迫切希望机器翻译系统可以接收并且能够实现口语语句的翻译。因此,语音翻译又常 被称为1 2 1 语翻译( s p o k e nl a n g u a g et r a n s l a t i o n ) 。一般认为,1 9 8 9 年由美国卡内基梅隆 大学( c a r n e g i em e l l o nu n i v e r s i t y , c m u ) 开发的语音翻译原型系统s p e e c h t r a n s 是世界第 一个语音翻译实验系统,该系统因此而成为语音翻译研究的里程碑。在随后的十多年里, 尤其是近几年,随着相关技术和学科的迅猛发展,一批针对不同应用领域的语音翻译实 验系统相继问世。其中,德国联邦教育研究部组织研究的v e r b m o b i l 语音翻译系统从1 9 9 3 年至u 2 0 0 0 年期间,先后投入1 1 6 亿马克资金用于开展德、英、日等多语言的自动语音翻 译研究,总共有7 家公司( 其中包括p h i l i p s ,s i e m e n s ,g m b h 等) 、二十多所大学或研究所 ( 包括美国s t a n f o r d 大学的语言信息研究中心,德国k a r l s r u h e 大学等) ,共3 3 家研究机构, 9 0 0 多位全职研究人员和学生参与了该项目的研究和开发工作。2 0 0 0 年8 月该项目正式结 束,最后完成的v e r b m o b i l 系统为实现德语英语的语音翻译和德语日语音翻译共计运用 了2 3 0 0 0 条规则,德英翻译的词汇量达到1 0 0 0 0 个,德日翻译的词汇量为2 5 0 0 个1 2 j 。而 日本国际电气通信基础技术研究所( a d v a n c e dt e l e c o m m u n i c a t i o n sr e s e a r c hl a b o r a t o r i e s i n t e r n a t i o n a l ,a t r ) 自1 9 8 6 年成立以来,曾以每年2 4 亿日元的投入开展多语言的语音自 动翻译研究。美国卡内基梅隆大学、i b m 、德国s i e m e n s 公司、法国机器翻译研究所 ( g e t a c l i p s ) 、意大利的科学技术研究所( i t c i r s t ) 和韩国电子通讯研究院( e l e c t r o n i c t e l e c o m m u n i c a t i o n sr e s e a r c hi n s t i t u t e ,e t ) 等世界著名大学、研究机构和企业都是语 音自动翻译研究的重要的开拓者或参与者。目前的语音翻译系统由针对规范输入的语音 翻译逐渐转向针对非规范输入的口语对话翻译,从而将语音翻译研究带入一个更为实用 的新阶段。表1 6 列出了近十几年来比较有代表性的语音( 口语) 翻译系统1 2 j 。 6 硕上论文基十条件随机场的u 语规范化处理研究 表1 6 代表性的语音翻译系统 系统名称翻译语种代表机构研制时间应片j 领域识别词汇 s p e e c h t r a n s日英 c m u1 9 8 9 医生与病人 对话 s l t r a n s 日英 a t r i t l1 9 8 9 a t r 会议注 1 0 3 5 册 a t r m a t r i x 日英、韩等 a t r1 9 9 8 2 0 0 1 旅馆预订 2 0 0 0 j a n u s 1 1 i 德,英,日, c m u1 9 9 7 一 旅馆预订,航开放 西班牙,韩,空火车订 俄等票,旅游信息 查询等 h e a d 英汉英西 砥& t l a b s1 9 9 6 航空旅游信 1 2 0 0 1 3 0 0 t r a n s d u c e r s 班牙息 v e r b m o b i l 德,英、日等 k a r l s r u h e 大 19 9 3 2 0 0 0 会晤日程安 10 0 0 0 2 5 0 0 学、d f k i 等排 l o d e s t a r 汉日、英 c a s n l p r1 9 9 9 旅馆预订 2 0 0 0 1 9 9 0 年左右我国四川大学也曾研究并开发了一个面向航空订票和信息查询领域的 英汉语音翻译实验系统。限于某些条件,该系统可处理的词汇量只有1 5 0 个英语单词, 2 1 种句型,而且只能处理特定讲话人的规范语句【1 3 1 。中国科学院自动化研究所模式识 别国家重点实验室( n l p r ) 自1 9 9 6 年以来就开始口语处理技术的研究,并成为国际语 音翻译研究联盟( c o n s o r t i u mf o rs p e e c ht r a n s l a t i o na d v a n c e dr e s e a r c h ,c s t a r ) 的联 系成员,2 0 0 0 年1 0 月正式成为c s t a r 核心成员,参与c s t a r 七国语言( 英语、日 语、德语、法语、意大利语、韩语和中文) 的语音翻译联合研究。1 9 9 7 年当时的先进人 机通讯技术联合实验室( j d l ) 也建立了一个小词汇量的面向会议日程安排的语音翻译 实验系统i l 引。中国科学院声学研究所、东北大学、哈尔滨工业大学等单位也在该技术领 域进行了富有成效的探索。 然而正如1 2 j 文中指出,语音翻译是一项极具挑战性的高难度国际前沿技术,它涉 及多种学科和技术,尽管此项工作已经取得了令人可喜的阶段性成果,但仍面临许多困 难和障碍,仍存在大量的问题有待于进一步研究,其中问题之一就是从在语言学层面上 讲,口语句子中含有大量的修正、重复、口头语、省略等非规范语言现象,研究这些特 征,对语言模型进行完善,包括建摸、算法和训练等各个方面,将有助于提高翻译阶段 的正确率。另外由于语音识别器产生的错误的识别结果,若不加以修正,有可能在很大 程度上歪曲说话人的原意。而这也是研究语音翻译系统必须解决的一个问题。近年来, 国内相关人员也开展了对这一领域的研究。 陈建民1 5 4 1 、赵元任1 5 5 j 从语言学的角度对汉语的口语语法进行了分析和归纳,但是并 没有对真实口语对话语料中的一些具体语言现象进行定量的分析和统计。 曾淑娟等在论文【5 6 j 中选定了工作、休闲、购物、和政治等同常生活中的3 0 个领域, 并挑选了不同身份的人在尽可能自然的环境下进行语料的采集,然后对收集的语料进行 7 l 引言硕f :论文 标记,内容包括:说话人的信息,对话内容的领域,各种语音现象等。 宗成庆1 5 】和周云【7 】对旅馆预定领域真实场景下收集到的对话系统语料,从词类分布、 词长分布、对话语句长度等方面对口语中的语言现象进行了详细的统计和分析,并提出 了建立通用口语词典和适应不同应用领域可移植的词汇提取方法。但是他们对于语料的 分析方法是首先用录音电话将对话内容记录在磁带上,然后由人根据磁带记录的信息将 对话整理成文字f 5 】。这样虽然避免了语音识别错误,但是带来的是效率低下,而且无法 应用在语音自动实时翻译系统中。 解国栋【5 8 j 以限定领域汉语口语对话语料中的非规范化语言现象为研究对象,从冗余 现象中的词汇分布、冗余现象出现的特征、重复修正现象的出现模式等方面,对非规范 化语言现象进行分析归纳,为汉语自动分析研究提供了依据。 y x i a 等【5 7 】以网络聊天中的对话为研究对象,对网络聊天语言的动态性进行分析, 并提出了语音映射模型以实现聊天术语到标准词语的转换。但是网络聊天所使用的语言 跟人面对面时对话或电话对话在主题的随意性、内容的真实性和语言规范性方面都有较 大的差异。 刘智博等在论文【3 l 中开发了s d s ( 口语对话系统) 工具包s d sl i t e ,其核心是语法 分析模块,具有很强的在受限领域中提取语法规则的能力。这个工具包是基于文本输入, 对于语料中的一些常见语气助词采取直接手工删除的方法。 程葳在博士论文中 4 1 以旅馆预定领域口语对话为基础,利用人工归纳提取了语料库 中的大部分口语习语而对其进行固定的英语翻译。这样不仅提取效率低下,也无法避免 由于语音识别错误带来的错误归纳结果,而且无法根据具体的场景对相同的习语做不同 的翻译。 总体而言,上述论文或研究都是对正确的口语语料进行分析总结,只是在语料收集、 标注规范、语料数据统计以及语言学等方面进行了研究,对于非规范化现象或进行统一 而固定的翻译,或进行到标准词语的转换,或直接删除。而大多数语音翻译系统的研究 只是注重于机器翻译阶段,而忽略了翻译之前的语料的修正或者只是笼统地对语料进行 预处理。就目前而言,专门定位于语音识别后口语规范化处理的研究论文还没有出现。 尽管如此,我们仍需要报有十足的理由和信心,随着人们对这个问题的逐渐重视和研究 工作的展开,在未来不久开发出面向特定领域和特定任务的基本实用的语音自动翻译系 统并不是遥不可及。 1 3 研究内容及目标 目前的语音翻译虽然取得了一定的进展,但是效果仍不尽人意。其中一原因在于大 多数语音自动翻译系统在语音识别之后并没有对口语中的不规范化现象进行处理,或者 只是对频繁出现的非规范化情况简单处理。针对这种情况,本文开展了基于条件随机场 8 硕士论文基于条件随机场的口语规范化处理研究 模型的口语语句规范化处理,并对语音识别错误进行纠错。其中条件随机场模型是 l a f f e r t y 于2 0 0 1 提出的,它是一种条件概率模型,定义了整个标签序列的联合概率,而 不是为每一个状态都规定一个概率分布,从而解决了判别式模型( 比如最大熵马尔科夫 模型等) 的标记偏置问题( 1 a b e lb i a sp r o b l e m ) 。但是单纯基于统计方法的模型存在时空 开销大,数据稀疏问题严重,对语料库依赖性强等缺点,所以我们在实际处理中采用规 则与统计方法相结合的方法,主要完成下面几方面工作: 1 ) 模型比较选择 目前常用的序列标注模型有隐马尔可夫模型,最大熵模型,最大熵马尔科夫模型等。 但是隐马尔可夫模型和最大熵模型存在无法充分学习语料中包含信息等问题,最大熵马 尔科夫模型存在标注偏置问题。条件随机场模型结合了上面几个模型的优点,它是基于 观察序列的全局随机域,定义了整个标签序列的联合概率,而不是在每一个状态都归一 化,从而解决标注偏置问题。 2 ) 模型理论研究 这个部分主要介绍条件随机场模型相关理论,包括训练和解码两大过程。训练就是 求解模型的一系列特征函数的权重,多采用最大后验概率原则,反复迭代,收敛求解。 解码过程就是从所有可能的标注构成的一个空间中寻找一个最好的标注序列。 3 ) 模型与课题结合 本部分将会结合实际的语料,根据前后词语之间及标注结果之间的关系与一系列试 验确定模型的模板,并根据测试效果确定模型的参数。并从效果与效率对比中在解码部 分加入适当的高效的规则,以减少时空开销。 4 ) 模型代码实现与系统集成 这一部分将合作编程实现条件随机场模型,并且将规范化处理过程添加到机器翻译 中。其中输入内容是经过语音识别的口语句子,输出内容是经过规范化处理后的机器翻 译结果。 虽然,要完全解决规范化处理仍有一定难度,但对于这个方面做一定的学习研究工 作对于语音翻译质量的提高是很有帮助的。 1 4 论文的安排 本文的内容安排如下: 第一章主要阐述口语规范化处理研究的背景及重要性,介绍了语音识别后口语的特 点,分析了语音翻译系统及口语规范化处理的发展现状,从而确定本文的研究内容及其 目标。 第二章根据对语音识别后口语中存在问题的分析确定了解决的方法,介绍了当前常 用的统计模型,进而从理论上分析比较了这些模型的性能与优缺点,然后详细介绍了条 9 1 引言 硕i 二论文 件随机场模型理论知识,包括随机场的概念、数学表示,及参数估计等问题。 第三章根据条件随机场模型的相关理论详细介绍了口语规范化处理的具体方法。包 括语料库的收集、标注符号的选择,然后结合实例描述了条件随机场模型中的“特征” 概念及特征的选择,进而详细介绍了模型的训练和解码过程及常用算法。 第四章介绍了条件随机场模型的开发平台、程序实现结构,实验系统的设计步骤及 结构,然后通过大量的实验对标注结果进行详细分析比较。 第五章对本文进行总结,并对以后的研究工作和方向进行展望。 1 0 硕十论义基于条件随机场的u 语规范化处理研究 2 口语规范化处理分析及相关统计模型 目前而言,自然语言处理领域常用的方法主要有基于规则和基于统计的方法。下面 我们分析一下这几种方法在口语规范化处理任务中的适用性,并详细介绍一下常用的统 计模型。 2 1 基于规则的处理方法 基于规则的处理方法是指利用已有的相关领域的语言规则对相关问题进行处理。这 些规则必须高效、全面,这样才能处理遇到的各种问题。 程葳在她的博士论文中【4 】利用人工归纳提取了限定领域内语料库中的大部分口语习 语而对其进行固定的英语翻译。 刘智博等在论文【3 】中开发了s d s ( 口语对话系统) 工具包s d sl i t e ,对于语料中的 一些语气助词采取手工删除的方法。 这些方法都是利用规则来对口语进行一定的预处理,但是他们只是对口语中的出现 频率非常高的语气词或者习语进行单一的删除或者固定翻译,而对于出现频率较低的非 规范化现象并没有进行考虑。 在对口语语料进行充分的归纳和总结后,我们可以提取其中蕴含的规则来完成规范 化处理。比如下面的一些可以利用的规则: 1 ) s t a r t 喂你好专c 喂c 你好 2 ) 就是说专c 就是说c 3 ) s t a r t 对对e n d 专对c 对c 其中,专左右两侧分别表示处理前和处理后的内容,“s t a r t 表示一句话开始, “c c 表示两个c 之间内容删除,“e n d 表示一条语句结束。 在不存在语音识别错误的语料中我们可以通过对语料的研究分析,提取需要的规 则。 基于规则的方法又可以称为理性主义方法,好处是处理的原则严格遵守制定的规 则,极少出现意外情况。但是单纯依赖规则的方法需要大量的人力财力进行词典和规则 系统的开发,研究周期长,过于依赖语言规则开发者的知识和经验,规则库很难覆盖所 有的语言现象,移植性也比较差,而且大量的语言规则之间往往存在着不可避免的冲突, 而且并没有考虑到语音识别错误造成的影响。从总体上讲,基于规则的方法分析能力有 限,扩充性和适应性差。 2u 语规范化处理分析及相关统计模型硕l :论文 2 2 基于统计的相关模型描述 与规则方法相比,基于统计的方法可以称为经验主义方法。它需要的数据是语料库, 而语料库是比较容易获得的,而且它的健壮性和灵活性都比单纯基于规则的方法好,且 代价小。 自然语言处理领域的许多问题都可以转化为序列标注问题 9 1 ,例如命名实体识别、 词性标注,组块识别等。口语规范化处理也可以看作是一种序列标注问题。解决序列标 注问题的方法称为s e q u e n t i a ls u p e r v i s e dl e a r n i n g ,简称s s l 。令 ( 薯,咒) ) 竺i 为一个大小为 n 的训练样本集。每个样本为一个序列对( 薯,z ) ,其中 薯= ( 一,l ,2 ,五) ,以= ( 咒,l ,y j ,2 ,咒,巧) , 以词性标注为例,一个序列对可能是: x = y 啕a dv p n rvuvnl v nu nw 。 其中y 中的字符是x 中对应词语的词性。s s l 的任务就是寻找一个模型,可以在给定 输入序列x 的基础上预测标注序列y 。下面我们重点介绍隐马尔可夫模型、最大熵模型 和最大熵马尔可夫模型。 2 2 1 隐马尔可夫模型 马尔可夫模型是1 8 7 0 年由俄国有机化学家v l a d i m i rvm a r k o v n i k o v 第一次提出。 如果一个过程的“将来 仅依赖于“现在而不依赖于“过去,则称此过程为马尔可 夫过程,或者具有马尔可夫性。马尔可夫模型是马尔可夫过程的模型化,可以用图2 1 表示。 q lq 2q iq l l q t o 叫”叫o _ 划 吼s = h 屯,n 】 图2 。1 马尔可夫过程 马尔可夫模型把一个过程或者事件看成是一系列状态的不断转移。t 时刻的状态用 q t 表示,它可以是n 种状态集合s = 【s l ,s 2 ,s n 】中的任意一个。马尔可夫模型的 特性主要用“转移概率 来表示,某一时刻的状态出现的概率决定于其前面时刻出现过 的状态次序,即状态q t 出现的概率为p ( q ,q 。q :q h ) 。如果此概率只取决于前一个状态, 即p ( q ,q ) ,则称为一阶马尔可夫过程。 隐马尔可夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 是马尔可夫模型的进一步发展, 首先由b a u m 提出,后来被广泛应用于语音识别、音字转换、词性标注、基因分析等领 域。h m m 是一种用于描述随机过程统计特性的概率模型,是一个双重随机过程,由马尔 1 2 硕上论文基于条件随机场的口语规范化处理研究 可夫链和一般随机过程组成。其中马尔可夫链用来描述各个状态之间的转移,用转移概 率描述。一般随机过程用来描述状态与观察序列问的关系,用观察值概率描述。对于 h m m 模型,它的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高中2025年说课稿探索主题班会方案
- 初中2025年集体主义精神主题班会说课稿
- 耳鸣耳聋病人护理措施探讨
- 缩宫素的使用剂量与调整
- 上饶卫生健康职业学院《安全学原理》2025-2026学年第一学期期末试卷(A卷)
- 上海音乐学院《阿拉伯国家概况》2025-2026学年第一学期期末试卷(B卷)
- 上海音乐学院《安全检测技术》2025-2026学年第一学期期末试卷(B卷)
- 2025年动力电池回收材料再生技术创新方向探讨
- 上海震旦职业学院《安装工程估价》2025-2026学年第一学期期末试卷(A卷)
- 上海震旦职业学院《安全工程专业导论》2025-2026学年第一学期期末试卷(B卷)
- 上海市大数据中心招聘笔试真题2025
- 江苏省南通市暨苏北七市2026届高三5月模拟考试(三模)物理+答案
- 2026年甘肃省平凉工业园区管委会选聘15人笔试备考试题及答案解析
- 供应商付款管理制度及流程
- 2026药物临床试验质量管理规范(GCP)培训结业考核试题附答案
- 2026南非餐饮业市场现状供需分析及投资评估规划分析研究报告
- 浙江省宁波市2026届九年级中考一模数学试卷(含答案)
- GB/T 21001.2-2026制冷陈列柜第2部分:分类、要求和试验条件
- 上海上海市农业科学院2025年“尚农英才”全职人才引进(第一批)笔试历年参考题库附带答案详解
- (高清版)DB43∕T 1151-2016 页岩气地震勘探技术规程
- DL∕T 1084-2021 风力发电场噪声限值及测量方法
评论
0/150
提交评论