




已阅读5页,还剩58页未读, 继续免费阅读
(计算机应用技术专业论文)汉英机器翻译中趋向动词的处理.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
, i f l 独创性说明 f i i i iii ii ii r il liiilu l y 1812 8 21 作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究 工作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得 大连理工大学或其他单位的学位或证书所使用过的材料。与我一同工作 的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢 意。 作者签名:垒当羔聋 日期:丝垒! ;:3l - - 囊 皂 作补语确定性不强的情况,加入了相应的上下文信息,统计得到了趋向动词在上下文中 不同用法的概率;之后,建立了基于前述2 种概率的统计模型,对趋向动词的用法进行 识别。识别出趋向动词用法后,利用相应的规则和词典来确定趋向动词的词义,首先, 利用汉语趋向动词研究成果,总结出一些规则来处理趋向动词;其次,为了方便简捷地 获得趋向动词的词义,本文根据趋向动词跟谓词结合后词义变化情况,对词典进行了相 应的补充。封闭测试趋向动词用法识别精确率达9 9 0 1 ,召回率达9 6 6 7 ;开放测试 趋向动词用法识别精确率达9 8 1 4 ,召回率达9 6 1 9 9 6 ;实验结果表明本文提出的趋向 动词用法识别模型能有效识别出趋向动词用法。 关键词:机器翻译;趋向动词;词性标注;词典 汉英机器翻译中趋向动词处理的研究 p r o c e s s i n go fc h i n e s e q u x i a n g v e r bi nc h i n e s e - e n g l i s hm a c h i n e t r a n s l a t i o n a b s t r a c t w i t ht h ed e v e l o p m e n to fc o m p u t e rt e c h n o l o g y , i ti si n e v i t a b l et h a tl l a t u r el a n g u a g e sa r e u s e da sh u m a n - c o m p u t e ri n t e m e t i v el a n g u a g e s , w h i c hd e m a n d sd e e p e ra n db r o a d e rn a t u r e l a n g u a g ep r o c e s s i n g p a r t - o f - s p e e c ht a g g i n gi s af u n d a m e n t a lt h e m ei nn a t u r el a n g u a g e p r o c e s s i n g , a n ds y n t a c t i cc a t e g o r yd i s a m b i g u a t i o ni st h ek e yo fp a r t - o f - s i x t ht a g g i n g s o , s y n t a c t i cc a t e g o r yd i s a m b i g u a t i o ni ss i g n i f i c a t i o nt ot h et a g g i n go fc h i n e s ec o r p u s - b a s e d , m a c h i n et r a n s l a t i o na n di n f o r m a t i o nr e t r i e v a lo f l a r g es c a l et e x ta n ds o0 1 1 c h i n e s e q u x i a n g v e r bi so n eo f t h em o s tf r e q u e r e d yu s e ds y n t a c t i cc a t e g o r y , o n l yh a v e 2 5m e m b e r s t h e yc a na c ta sp r e d i c a l e a l s o ,t r e yc a na c ta sc o m p l e m e n ta r e ro t h e rv e r b s i n o r d e rt oi d e n t i f yt h e i r su s a g ea n dg e tt h e i ra c c e p t a t i o n , w ea n a l y z e dt h e 班 a g ea n dt h ec o n t e x t o fc h i n e s e q u x i a n g v e r bi nl a r g e - s c a l ec o r p u s ,g o tt h ep r o b a b i l i t yo fb e i n g q 1 i a n g c o m p l e m e n tw h e nt h e ya r eb e h i n dv e r b so ra d j e c t i v e s a l s o ,w eg o tt h ec o n t e x tw h e nt h e p r o b a b i l i t yo fb e i n g q u r a a n g c o m p l e m e n t 嗍b e l 阳,e e nt w os p e c i f i e dn u m b e r s t h e na c h i n e s e q u x i a n g v e r bt r e a t m e n ts y s t e mu s e dt oi d e n 碰c yt h eu s a g eo fc h i n e s e q u x i a n g v e r b i sp r o p o s e d , w h i c hw a sb u i l to nt h ep r o b a b i l i t yo fb e i n g q l 删c o m p l e m e n tw h e nt h e ya r e b e h i n dv e r b so ra d j e c t i v e s a f t e ri d e n t i f i e dt h eu s a g eo fc h i n e s e q j j a n g ,v e r b , w eu s e dr u l e s a n dd i c t i o n a r yt og e tt h e i ra c c e p t a t i o n f i r s t , w em a k i n gu s eo fc h i n e s e q l 删v e r br e s e a r c h i nc h i n e s e , c o n c l u d e daf e wo fr u l et od oi t s e c o n d , a c c o r d i n g 幻t h ea c c e p t a t i o nc h a n g eo f c h i n e s e q u x i a n 窖v e r bi n q u x i a n g c o m p l e m e n ta n di no r d e rt oo b t a i nt h ea c c e p t a t i o no f c h i n e s e “q u x i a n g v e r bc o n v e n i e n t l y , w er e i n f o r c e dt h ed i c t i o n a r y t h ee x p e r i m e n ta c h i e v e d 9 9 0 1 p r e c i s i o na n d9 6 6 7 r e c a l li nc l o s et e s t , a n da c h i e v e d9 8 1 4 p r e c i s i o na n d9 6 1 9 r e c a l li no p e nt e s t t h er e s u l to f 位t e s ts h o w st h a tt h em e t h o di se f f e c t i v et oi d e n t i f yt h eu s a g e o fc h i n e s e “q u x i a n g v e r b k e yw o r d s :m a c h i n et r a n s l a t i o n ;c h i n e s e “q u x i a n g v e r b ;p a r t - o f - s p e e c ht a g g i n g ; d i c t i o n a r y 0 , 1 簟 a 1 3 趋向动词处理的意义及面临的困难。3 1 4 兼类词特点5 1 5 趋向动词处理的研究现状7 1 6 本文问题的提出及所做的工作1 0 2 统计模型和趋向动词特点11 “ 2 1 统计模型概述1 l 2 1 1 上下文无关文法1 3 2 1 2n - 元( n - g r a m ) 统计模型1 3 2 2n - 元标准统计标注模型1 4 2 3 基于统计词性标注要解决的问题1 6 2 4 词汇概率和词性概率l7 2 5 趋向动词特点1 7 2 6 汉语趋向动词研究概况1 9 2 7 趋向动词用法j 2 1 2 8 趋向补语2 1 2 8 1 简单趋向补语2 l 2 8 2 复合趋向补语2 3 2 8 3 趋向补语的共同点2 4 3 趋向动词用法识别模型2 7 3 1 趋向动词用法统计2 7 汉英机器翻译中趋向动词处理的研究 3 2 趋向动词在上下文中用法统计2 8 3 3 趋向动词用法识别。2 9 4 趋向动词处理策略3 2 4 1 及物动词用法3 2 4 2 不及物动词用法3 2 4 3 趋向补语用法3 2 4 4 趋向动词处理策略3 4 5 趋向动词处理系统实现3 6 5 1 训练语料准备3 6 5 2 系统设计3 6 5 2 1 系统开发环境3 6 5 2 2 系统功能要求3 6 5 2 3 系统接口定义及其数据结构3 6 5 3 系统实现描述3 7 6 测试结果及分析4 0 6 1 测试结果4 0 6 2 模型比较4 2 6 3 错误分析4 3 结论4 6 参考文献4 8 附录a文中用到的词类代码表。5 0 附录b系统所用到的词典或数据表5 1 攻读硕士学位期间发表学术论文情况5 2 致谢。5 3 大连理工大学学位论文版权使用授权书5 4 自然语言处理一直是计算机科学中的一个引人入胜、富有挑战性的课题。随着社会 的日益信息化,人们越来越强烈地希望用自然语言同计算机交流:目前入同计算机进行 通讯时,所使用的语言仍然局限于程序设计语言、操作系统的命令语言以及使用数据库 以及窗口界面上的菜单。如果计算机能够“理解 自然语言,用户就能够通过自然语言 使用各种软件,使计算机的使用环境变得更加引人入胜。因此“自然语言处理 一直是 计算机科学中的一个重要而富有挑战性的课题。 自然语言处理是利用计算机技术研究和处理语言的- - i j 学科 1 】,即把计算机作为 语言研究的强大工具,在计算机的支持下对语言信息进行定量化的研究,并提供可供人 与计算机之间能共同使用的语言描写。它属于计算语言学的算法部分【2 ,并经过如下的 过程把需要研究的语言学问题加以形式化,使之能以一定的数学形式或者接近于数 学的形式,严格而规整地表示出来。这种严格而规整的数学形式表示为算法,根据算法 编写计算机程序,使之在计算机上加以实现。 自然语言的识别和处理是人工智能研究的最重要的课题之一,也是人工智能研究的 关键。从人工智能研究来讲,为了使人工智能系统更有效地获取人类知识,有更强的学 习功能,就必须具有相当高的人机对话能力,那么系统必须具有较强的自然语言识别和 处理能力。实际上,自然语言处理和人工智能的其他领域( 如定理证明、问题解答、模 式识别、机器博弈和机器人科学等) 的根本问题都是知识表达和利用问题。说的全面一 点就是如何去获取各种不同的知识,并以一种计算机可以使用和处理的方法表达知识。 实际上,一旦适当的知识结构和表达理论充分建立了,那么自然语言处理的瓶颈问题也 就消除了。 从计算机科学特别是从人工智能的观点看,自然语言理解的任务是建立一种计算机 模型,这种计算机模型能够给出像人那样理解、分析并回答自然语言( e p 人们日常使用 的各种通俗语言) 的结果。现在的计算机的智能还远远没有达到能够像人_ 样理解自然 语言的水平,而且在可预见的将来也达不到这样的水平。因此,关于计算机对自然语言 的理解一般是从实用的角度进行评判的。如果计算机实现了人机对话、机器翻译、自动 文摘、带有感情地朗读文章等语言信息处理功能,就认为计算机具备了一定程度的自然 语言处理的能力。 理解自然语言所面临的困难,主要由以下3 个因素引起的: 汉英机器翻译中趋向动词处理的研究 ( 1 ) 目标表示的复杂性。如语义的概念依存网表示,要从语句中提取这种表示的关 键字就相当复杂,同时还需要更多相关的客观世界的知识。 ( 2 ) 映射的类型。对于源语言到目标语言表示的映射,一对一类型是最理想的。但 现实中,自然语言到目标语言表示的映射极难达到一对一的要求。 ( 3 ) 成分间的交互程度。在语言中每个语句都是由多个成分组成的,若每个成分的 映射与其他成分无关,那么,映射过程就比较简单。遗憾的是,自然语言中的成分交互 程度相当高,句子中改变个成分,常常会大大改变句子的整体结构,这使得映射的复 杂程度大大增加。 自然语言处理研究在电子计算机问世之初就开始了,我国在1 9 5 7 年就开始进行机 器翻译的研究,主要以汉语作为主要研究对象,是世界上最早开展自然语言信息处理研 究的国家之一。 1 2 机器翻译及其处理过程 机器翻译又称机译( m d ,是利用计算机把一种自然语言转变成另一种自然语言的 过程,是自然语言理解的重要组成部分,早在7 0 年代机器翻译就列为人工智能功能的 重要研究课题。机器翻译系统是典型的、有明显实用价值的自然语言处理系统。这里专 指对文本的翻译,未涉及话语的翻译,因为话语翻译( 或称为口语翻译) 又要涉及语音 识别与合成,而这些是相对独立的研究领域。机器翻译先后发展了基于转换的机器翻译 方法和基于非转换的机器翻译方法。基于非转换的方法还可分为:( 1 ) 基于统计的机器 翻译;( 2 ) 基于实例的机器翻译;( 3 ) 基于中间语言的机器翻译。 图1 o l 表示了基于转换的机器翻译系统模型,从这个基本模型可以了解到,基于 转换的机器翻译系统要经过3 个处理阶段:分析、转换、生成。经过一系列的分析和转 换层次,使一个源句子经过不同的中间表达形式,最终达到目标语言句子的表示。其目 的是尽可能的加深对源语言定额理解,生成尽可能恰当的目标语言形式【3 】。其基本原理 是要素合成原理,首先将原文的句子分解成基本构成要素( 词、惯用语等) ,这样才可 以查词典,才能更好地运用语法规则找出句子的结构,这就是句法分析( 包括词法分 析) ,并通过语义分析及语境分析排除不适当的歧义,从而形成原文的机器内部表示。 于是可在结构层次上进行转换,得到译文句子的结构,并选择适当的译词,以后再进行 词序调整、虚词增删及形态变化,最终得到译文的句子。从图1 0 1 中还可以看出机器 翻译过程中词法分析是基础,而词性标注又是词法分析的一个重要环节。趋向动词处理 问题可理解为兼类词处理问题,即词性标注问题。 2 图1 0 1 机器翻译系统基本模型 f 唔1 0 1t h eb a s i cm o d e lo fm a c h i n et r a n s l a t i o n 1 3 趋向动词处理的意义及面临的困难 在汉语中,词性兼类现象普遍存在,给词性标注带来了很大困难。趋向动词可在旬 中作谓语,也可在谓词( 主要是动词和形容词) 后面作补语 4 - 1 0 】;在汉语学界,趋向 动词是不是兼类词还有很大的争议;撇开汉语上的争议,从自然语言处理角度考虑,趋 向动词可处理为兼类词,而兼类词处理是词性标注关键问题。 在语料库信息加工的过程中,词性标注是一项基础性课题。词性标注的任务就是在 具体的语言环境中正确地给出一个词的确切词性。如果词性标注错误,就会影响后面的 句法分析和语义分析,甚至导致自然语言处理的严重错误,因此词性标注对汉语语料库 标注、机器翻译和大规模文本的信息检索等都有重要的意义。具体说明如下: ( 1 ) 在机器翻译中我们不但要知道词义,还要知道词的用法,能根据不同的语言环 境选择最恰当的词义。标注词性就是注明词的用法的最有效的手段之一。 - 3 - 汉英机器翻译中趋向动词处理的研究 ( 2 ) 标注词性有助于词的义项分合的确定或发现新义项。词类划分以词的同一性为 基础,分析词性( 也就是充分考虑词的用法) 会为分析词义提供一个新的角度,弥补单 纯的词义分析的不足。 ( 3 ) 标注词性有助于准确地释义。释义是与词的词性相关的,不同词性的词应采取 不同的释义方式,一般情况下用来释义的词语应基本上与被释义的词的词性相同,即释 义应与词性协调,准确的释义离不开准确的词性分析。 总之,应做到释义、配例和词性的协调。考虑词性会为我们增加一个看问题的角 度,多一种眼光,其结果是使我们对义项分合、释义和举例有了新的认识。 在以前的词性标注系统中,没有区分作及物动词、不及物动词和作趋向补语的趋向 动词,均标注为“v ”( 即一般动词) 。然而,作行为动词的趋向动词和作趋向补语的 行为动词在旬中的意义和功能差别很大。趋向动词作行为动词表示某个动作,而趋向动 词作趋向补语般跟在别的谓词后面表示受事的方向改变或其它的引申意义。鉴于它们 不同用法时在功能和表达意义上的巨大差异,应当根据它们不同用法区别对待。 同时,汉语趋向动词与其前面谓词结合也不是简单地对应英语中动词加趋向动词所 表示的方向的介词结合,它们词义经常会经过转化或有其他引申意义。为了得到它们结 合后的对应的英文词义,应在词典的词条中把谓词和趋向动词结合后的词义标示出来。 下面举几个例子进行说明: 例1 0 1 来: ( a ) 听说你明天要来上海出差。 ( b ) 也需要理论界、学术界的有识之士尽早加入到体育产业的研究中来, ( c ) 委内瑞拉共和国外交部长米格尔里瓦斯向江主席发来了贺电。 第lf f , - 侈l j 旬中的“来”表示到某某地方的动作,标注为“v 。第2 个例旬中的 “来”是用在形如“到来”结构中,作趋向补语,标注为“v q 。第3 个例旬中的 鼻 “来 跟在“发后面作趋向补语,标注为“v q ”。 例1 0 2 起来: , ( a ) 使外资引进与国家经济发展规划有机地结合起来。 ( b ) 病发时连腰都直不起来。 ( c ) 它们打起架来了。 ( d ) 起来,不愿做奴隶的人们。 在第l 、2 例句中,起来跟在行为动词后面形成动趋式结构,作趋向补语用,标注为 “v q ;在第3 个例句中,是两个交叉离合词,“打架”和“起来”交叉离合了,表示 4 大连理工大学硕士学位论文 “打架”这个动作,“起来 在里面作趋向补语,标注为“v q ”;第4 个例旬中的竺起 来 是作不及物动词用,标注为“v i ”。 例1 0 3 想起 “想”本身的词义是“t h i n k 、m i s s ”或“w o u l dl i k et o ,它与“起”结合成“想 起 后英文对应的词义变为“r e c a l l ,而不是“t h i n ku p 、m i s su p 。 趋向动词处理面临的困难主要有: ( 1 ) 趋向动词用法比较复杂、功能比较多样、形式比较灵活,目前汉语语言学界对 趋向动词的范围、分类、功能等还有很大的争议,没有统一的认识。 9 0 年代中后期,随着对趋向动词研究的深入,汉语语言学家才开始讨论“上、 下、起、开、上去、上来、下去、起来 等表示趋向义的词的细分类问题【1 1 1 3 】,他们 主要的研究成果是把部分作趋向补语的上述词归为虚词,但是具体分类没有统一的认 识。早期的文献都把上述词统一称为趋向动词,为了方便起见,本文统一把上述表示趋 向义的词称为趋向动词。 加 ( 2 ) 有些趋向动词的用法比较特殊或很少见,且同一趋向动词在同一谓词后面既可 作补语,又可作行为动词,不能很好确定其用法。而且输入的句子如果有词性标注错 误,也会影响趋向动词用法的识别。 例1 0 4 出 民族工作要围绕西部大开发出思想、出政策、出措施、出成果。 “出 在“开发刀后面一般是作补语,但在此例子中“出 作行为动词用。 ( 3 ) 趋向动词作补语时意义比较多样,在翻译趋向动词时,有了一部经过补充的词 典并不能保证得到好的译文。 尽管有以上困难,但是,有些汉语上的争议并不会给自然语言处理带来困难,且其 中一些问题随着研究的深入可以得到解决。 1 4 兼类词特点 所谓兼类词就是在理论上指的具有两类或两类以上的句法分布特征的词。在汉语 中,词性的兼类现象普遍存在,给词性标注带来了很大困难,因此兼类词处理是词性标 注的关键所在。 汉语中的词性兼类现象有 1 4 - ( 1 ) 形同音不同,如:“好( h a 0 3 ,形容词) 、好( h a 0 4 ,动词) 。 ( 2 ) 同形、同音,但意义毫不相干,如:“会( 会议,名词) 、会( 能够、动 词) ”。 - 5 - 汉英机器翻译中趋向动词处理的研究 ( 3 ) 具有典型意义的兼类词,如:“典型( 名词或形容词) ”a ( 4 ) 上述情况的组合,如:“行( x i n 9 2 ,动词j 移容词:h 嬲醇,名词量词) 。 兼类词分为两类【1 5 】: ( 1 ) 无论分布如何,词义没有发生根本变化,即同形同音词在不同的分布中同义, 也叫单义兼类词。 ( 2 ) 当具有不同的分布时,词义有明显的区别,即同形同音词在分布不同时词义也 不同,也叫多义词类。 在计算机语言信息处理系统中,通常将这两类词都看成兼类词。兼类词的数量虽然 不多,但使用频率很高,兼类现象很复杂,因此,解决好兼类词的标注问题对于提高词 性标注的正确率具有重要意义。 理解兼类词的特点对于我们在运用统计方法进行自动标注中采取正确的策略有重要 的启示意义。文献【1 4 】通过对动词用法词典【1 6 】的约4 0 万字语料的切词结果进行统 计,得到了表1 0 l 的结果。 从这些统计结果中,不难发现以下特点: ( 1 ) 兼类词数量虽不多( 约占词条总数的4 2 8 ) ,但出现频度却很高( 约占总词 次的3 6 8 ) 。 ( 2 ) 越是常用的词歧义现象越严重。表1 舵中前2 0 个兼类词总共出现了4 7 1 8 7 次,占了兼类词总次数的4 3 9 。 ( 3 ) 同形异类现象错综复杂,但分布很不均匀,一些常见词类歧义组合占很大比 例。 表1 0 1 兼类词现象统计表 总词次2 9 1 6 2 3 ( 个) 总词条 兼类词词次 兼类词词条 兼类词现象 1 0 8 1 3 ( 个) 1 0 7 4 0 6 ( 个) 4 6 3 ( 个) 1 0 2 ( 种) 表1 0 2 、表1 0 3 分别列出了语料中出现频率最高的前2 0 个多类词和前1 0 种同形 异类现象。从表i 0 2 可以看出,出现频率最高的前2 0 个词中,趋向动词有7 仑,前5 个中有3 个是趋向动词,可见,趋向动词在兼类词中占有重要位置。 - 6 - 大连理工大学硕士学位论文 表1 0 2 多类词词表( 前2 0 个) 序号词类集频度序号词类集频度 1 v 啕 7 6 0 56v g n4 0 6 4 2脚- d - c6 3 7 17d - 1 】v3 4 4 7 3 p - v 6 3 2 58 p - q 3 2 3 9 4v - 1 16 0 1 59m - v3 1 8 5 5 q - n 4 7 9 21 0v - d2 8 5 4 了解语料中兼类词现象的分布规律,对我们在语料的自动词类标注中采取正确的策 略是有重要启示意义的。 目前,汉外机器翻译正在深入研究,任何工程化的汉语句法分析系统都不能回避汉 语词的兼类消除这一重要而又困难的问题。词性是一个词最重要的语法属性。如果一个 词的词性不确定下来,则汉语句法分析无法进行。如果一个词的词性选择错了,则会导 致句法分析的严重错误甚至失败。 1 。5 趋向动词处理的研究现状 趋向动词处理类似于多义兼类词处理,即词性标注。当前对兼类词处理的研究比较 深入,主要有以下三种方法:( 1 ) 基于规则的方法;( 2 ) 基于统计的方法;( 3 ) 规则和统 计相结合的方法。 ( 1 ) 基于规则的方法 国外7 0 年代初主要采用这种方法,著名的有c r r e e n o e 和r u b i n 开发的名叫 t a g g i t 的标注系统,利用3 3 0 0 条上下文规则,对1 0 0 万词的b r o w n 语料库标注的正 确率达到7 7 1 3 。9 0 年代以来,另一种基于规则的词性标注系统是采用b r i u 方法,这 7 汉英机器翻译中趋向动词处理的研究 种方法是使用基于转换、错误驱动的方法来进行词性标注,该方法可以用较小的训练集 达到较高的分析准确度。基于规则的词性标注模型的基本思想是:利用从真实语料中总 结出来的规则构建规则库,当进行词性标注的时候,遇到兼类词,就去规则库中查找, 如果规则库中存在以此兼类词为关键字的规则就取出相应规则,并根据上下文进行匹 配。如果匹配成功,并且没有产生规则冲突,则排歧成功;反之,规则方法失败。 基于规则的标注方法首先要获取能表达一定语言上下文关系及其相关语境的规则 库,规则知识库是基于规则处理的基础,它的构造需要考虑两个基本的问题:覆盖率和 正确率。一般而言,对于一条规则,这两种性能往往显示反比关系,因此,一个好的规 则库的获取是比较困难的,必须综合考虑两方面的因素,合理安排不同规划的分布,是 规则处理的整体效果达到最佳。 基于规则的兼类词处理方法最重要的就是规则库的构造,目前规则库的构造存在下 列问题:, ( a ) 规则的不完备性。若要将所有的兼类词抽象出规则来,是很困难的,因为规则 是通过特定语料总结出来的,很难做到覆盖活语料中出现的各种情况,此外有些语言现 象不能用规则语言来描述。 ( b ) 规则的不准确性。传统的规则的获取方法是利用人工从一定语料中总结得到 的,因而不能保证每条规则的准确率,如果规则的准确率偏低,就会使词性标注的正确 率下降。 ( c ) 对于一条规则而言,其覆盖率和正确率是成反比的。如果规则描述过粗,覆盖 率比较高,但精确率比较低;相反,如果对于一条规则描述太细,其正确率比较高,但 覆盖的语言现象就会比较少。 以上存在的不足是可以随着语料规模的增加而得到改进的,但改进的工作量是很大 的,而且规则不能描述所有语言现象,所以规则方法不能解决一切兼类问题,目前很少 单独使用词中方法,般是和统计方法结合起来 1 7 - 1 9 1 。 ( 2 ) 基于统计的方法 七十年代末到八十年代初,随着经验主义方法在计算语言学研究中的不断流行,基 于统计的兼类词处理方法开始得到应用:其中具有代表性的系统是1 9 8 3 年里奇( g l e e c h ) 和加塞德( r g a r s i d e ) 等人建立的c l a w s 系统,用概率统计的方法来进行自动词 性标注,该系统使用了1 3 3x1 3 3 的词类共现概率矩阵,通过统计模型来消除兼类词歧 义,自动标注的正确率达到了9 6 。后来,1 9 8 8 年德洛斯( s 。j d e r o s e ) 对c l a w s 系统 作了一些改进,主要是在标记选择过程中利用了动态规划算法,并考虑语料库中词和词 - 8 _ 性之间的统计关系,利用线性规划的方法来降低系统的复杂性,提出了v o l s i n 心i 算 法,大大地提高了系统处理效率,在没有使用任何规则情况下总的正确率达到9 6 以上 【2 1 】。矽。 统计方法是利用相邻词性同现概率和m a r k o v 语言模型,通过寻找最大概率的词性 标记序列来完成句子的标注的。它利用的知识主要是统计数据,可以从语料库中利用有 指导和无指导的学习得到,从而避免了人工获取规则的繁琐过程,同时,获取的知识具 有客观性好、一致性强、覆盖面高等特点,处理生词和不规范的句子较规则的方法有较 大的提高。 统计方法也存在着如下不足: ( a ) 统计方法的实质是选择概率高的词性标记,这只是一种最大的可能性,但并不 是唯一的可能,它是以舍弃概率低的词性标记为前提的,这必然会使词性标注的准确率 受到限制【1 7 】。 ( b ) 统计模型的选择、训练语料的选择和统计语料库的规模对统计方法的正确率影 响很大。如果统计语料库过小,就不能得到最贴近语言现象本质的参数,进而影响词性 标注的正确率;如果训练语料的内容和题材不够广泛,偏重于某一方面,会使得对这个 特定方面的测试语料标注效果很好,但对其他方面语料的标注正确率会比较低。 ( 3 ) 统计和规则相结合的方法 基于规则方法和基于统计的方法各有优势,基于统计的兼类词处理方法有抑制小概 率事件的发生,也会受到长距离搭配上下文的限制,通过规则可以很容易的实现,所以 就出现了第三种方法:统计和规则相结合的词性标注方法。 这种融合模型的好处是: ( a ) 结合了统计和规则方法各自的优势,利用规则方法排除那些最常见语言现象、 最明显的歧义。 ( b ) 用统计方法去处理频率较低的兼类歧义。较“纯统计”的方法,该模型效率更 高。 ( c ) 较“纯规则”的方法,处理能力强,鲁棒性提高,弥补了规则的不足。 近年来,人们对兼类词的处理进行了大量的研究,并提出了很多有效的方法,如针 对未知词的改进【2 2 】、可变存储的马尔可夫模型( v a r i a b l em e m o r ym a r k o vm o d e l ) 1 2 3 、 线性分离网络( n e t w o r ko fl i n e a r s e p a r a t o r s ) 标注模型 2 4 、非监督方法获取参数的 h m m ( i - - i i d em a r k o vm o d e l ) 2 5 - 2 8 、引入精简循环网络汉语词的兼类处理【2 9 】、基于机器 学习的兼类词词标注模型 3 0 】、h m m 和对数线性模型相结合【3 1 】等等。近年来,基于统 9 汉英机器翻译中趋向动词处理的研究 计的汉语词性标注方法逐渐流行并得到应用,国内如清华大学人工智能国家实验室、北 京大学计算语言学研究所和哈尔滨工业大学机器翻译研究室等对此都做了深入的研究 1 4 3 2 1 。 仅局限于趋向动词处理研究的文献只有厦门大学张玉敏等的汉英机器翻译中的趋 向动词处理研究,该文提出了一个基于规则的方法来处理趋向动词,但是文章最后没 有给出具体实验数据。 1 6 本文问题的提出及所做的工作 目前汉语中解决兼类词的词性标注的研究方法虽然有很多,但是主要的方法还是基 于规则的方法和基于统计的方法。基于规则的方法是一种传统的方法,其优势在于能充 分利用现有的语言学研究成果,对于某些特殊的歧义组合,可以通过对语境中的词语、 词类和词语的特征信息深入细致的描述,获得很高的排歧准确率。基于统计的方法,其 优势在于它的全部知识是通过对语料库的训练得到的,因此可以获得很好的一致性和很 高的覆盖率。 本文考虑到趋向动词的特殊性,针对基于统计模型的汉语兼类词处理方法进行研 究,利用统计出的趋向动词在谓词后面的作补语的概率、必要时的一些上下文信息来识 别趋向动词用法;之后,根据趋向动词作补语时的词义变化情况,对词典进行了相应的 补充。本文在以下几个方面进行了研究: ( 1 ) 统计了趋向动词的用法分布,得到了趋向动词在谓词后面作趋向补语的概率。 针对小概率作趋向补语( 即作趋向补语的概率介于两个阈值) 的趋向动词,引入了一定的 上下文信息,统计出它们在上下文中趋向动词各种用法的概率。 ( 2 ) 找出文本句子中的趋向动词,利用统计出的趋向动词在谓词后面作趋向补语的 概率和趋向动词小概率作趋向补语是在上下文中的用法概率建立了一个基于趋向动词在 谓词后面作趋向补语的概率模型来识别它们的用法,在文本用词性标注出来。 蠢 ( 3 ) 为了能方便简洁的从词典中获得趋向动词的词义,根据趋向动词补语用法时词 义变化情况对词典进行了相应的补充。 1 0 2 统计模型和趋向动词特点 2 1 统计模型概述 自然语言处理的研究方法主要有两种思路:基于规则的方法和基于统计的方法。前 者是先依据某种语言理论建立语言模型,再从语言模型构造规则系统。这种方法在很长 时间里曾经一直是自然语言处理的主流。后者是在调查和分析大规模语料的基础上,用 统计学的方法处理自然语言。统计方法自九十年代初提出以后得到了迅速的发展,已经 成为学科的主流之一。到2 0 0 0 年,统计方法在自然语言处理的许多分支领域得n t 应 用。 统计模型与规则模型比较具有如下特点: ( 1 ) 统计方法很大程度上依赖于训练语料库的完备性和正确性,是一种依靠“量” 来获取“质 的策略,是经验主义,而规则依赖建立语言模型时所依据的语言理论,是 理性主义。 ( 2 ) 统计方法处理自然语言能覆盖更大范围的语言现象,而规则灵活性较差,易忽 略语言中小粒度的知识。 ( 3 ) 统计方法在统计最初训练语料越多自然语言处理的质量越高,但当训练语料到 一定规模后再增加语料对处理的质量提高就不那么明显,而规则方法添加新的规则时, 须注意协调与已有规则的关系,避免规则之间的碰撞。 ( 4 ) 统计方法从语料库中存储的大规模真实文本中直接获取需要的语言知识。即使 是完全不用规则的基于统计的语言信息处理系统,也不可能完全避开语言表层的结构性 信息和结构规律。 一个基于统计的计算语言模型以概率分布的形式描述了任意语句( 字符串) 属于某 种语言集合的可能性。例如:p ( 他认真坏) 0 ,p ( 他认真学习) 0 0 2 , p ( 他认真读书) 0 0 3 等等。这里并不要求语句s 在语法上是完备的,该模型需对任 意的语句s 都给出个概率值。 假定词是一个句子的最小的结构单位,并假设一个语句s 由词,组成,那 么,不失般性,p ( s ) 可由下式计算: 汉英机器翻译中趋向动词处理的研究 p ( s ) = p ( w 1 ) p ( w 21w , ) p ( w 3im ) 。p ( im w 2 雌1 ) :n p ( 1 w 1 雌1 ) 2 埘 如果假设p ( miw i w 2 川_ 1 ) = p ( mim 1 ) ,( 1 i 刀) ,那么方程( 2 0 1 ) 为: 一 p ( s ) = 兀p ( w fi f 暑l ( 2 0 2 ) 为保证方程( 2 0 1 ) 和方程( 2 0 2 ) 的完备性,必须引进一个起始词,并且假定 p ( 嵋l ) = p ( m ) 。方程( 2 0 1 ) 和方程( 2 0 2 ) 满足p o ) = l 。 j 概率p ( i 川一。) 可以使用许多方法估算,一种被广泛采用的称为最大相似度估计 ( m a y 【i m :u ml i k e l i h o o de s t i m a t i o n ,简缩为m l e ) 的方法使用如下方程估算: p ( 咖q - 鬻 j :一、”j l ”, ( 2 0 3 ) 方程( 2 0 3 ) 中,c o u n t ( w , _ 1 w , ) 为词对m 一,在训练语料库中出现的次数。用于估算 基于统计的计算语言模型中的概率分布的训练语料库文本称为训练数据( t r a :u l i n gd a t a ) 。 根据训练数据估算p ( mi 一。) 这类概率分布的过程称为训练( 1 r a i n i n g ) 。 大量的低频词,无论训练数据的规模如何扩大,其出现频率仍旧很低甚至根本不出 现。如果采用m l e 估算它们的概率分布,将出现大量的p ( mi 一1 ) = 0 ,从而导致 p ( s ) = 0 的情况,这种情况大大削弱了该模型的描述能力。数据平滑技术( d a t a , s m o o t h i n g ) 能够解决这一类问题,它通过调整p ( lm q ) 这类概率分布的取值的方法, 从而避免p ( s ) = 0 这类情况的出现,达到使p ( s ) 的计算更加精确的目的。 “ 根据对上下文空间不同的划分方法,统计模型可分为如下几类:上下文无关模型, n 元文法模型,n - p o s 模型,基于决策树的语言模型和动态、自适应、基于缓存的语言 模型等。本文就是以上下文无关模型和n 元文法模型为基础的。 1 2 2 1 1 上下文无关文法 上下文无关模型仅仅考虑当前词本身的概率,而不考虑该词所对应的上下文环境。 一种最简单的上下文无关模型,是将所有的词视为具有相同的概率分布的随机变量的统 计模型。设给定的词表为矿,那么个词的概率由下式给出: p ( m = wi c ) = 高 ( 2 0 4 ) 如果根据在训练文本中词出现的频度估算出词的概率,而不考虑该词的上下文环 境,就可以给出一个能够更为精确反映词的统计特征的计算语言模型: p ( 嘭= wic ) = p ( 嵋= w ) 采用m l e ,p ( = w ) 由下式近似地给出: 砒= 叻= 等 ( 2 0 5 ) ( 2 0 6 ) 其中,玑表示词w 在训练文本中出现的总的次数,为训练文本的总词数。这类 模型十分简单,仅需估算出i 矿1 个词的概率。因为它是n 元文法模型当n = i 时的特殊 情形,所以它也被称为一元文法统计模型。 一元文法统计模型的优点是它仅仅需要非常少的训练数据,它的缺点是没有考虑上 下文信息,统计信息不充分,因而在实际应用中往往系统精确度不高。 2 1 2n - 元( n - g r a m ) 统计模型 前述的语言模型仅仅考虑了词本身的概率分布,而没有考虑该词的上下文环境。后 文将考察依赖于上下文环境的词的概率分布情况,由此构成依赖于上下文环境的统计计 算语言模型。 如下的方程,反映了这种条件依赖( 或约束) 关系: 夕( m = wlc ) = p ( = w i g e t 1 ) _ 1 3 - ( 2 0 7 ) 汉英机器翻译中趋向动词处理的研究 如果假定,在一个语句中第i 个词出现的概率,条件地依赖于它前面的n 1 个词, 即将一个词的上下文定义为该词前面出现的n 一1 个词,这样的语言模型就叫做元文 法统计模型( n - y a m ) 。由如下方程所示: p ( m = wlc ) = p ( w j = wlw f i 一- i + i ) ( 2 0 8 ) 在元文法统计模型中,对于系统词表中词的每一个一l 元组,都有一个概率分 布与其相对应。由于共有lyl 1 不同的一1 元组,因此这类统计模型有i 矿l
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 瓷砖五一活动宣传方案策划
- 建筑平台景观处理方案设计
- 长沙心理咨询方案
- 湖北水塔滑模施工方案
- 全面预算咨询方案书
- 学校读书角活动方案策划
- 设计咨询利润处理方案
- 五一美容活动促销方案策划
- 建筑方案设计现场勘察报告
- 咨询方案出错
- 45G互操作及信令流程
- 酿酒系统安全培训课件
- 2018年全国成人高考专升本政治试题答案
- htri手册HTRIExchanger使用手册
- 灭火器每月定期检查及记录表
- 卡西欧PRO-TREK-PRW-6000使用手册-基础操作
- 小学英语外研版5A Unit2 They sell many different things Module 2部优课件
- 档案职称考试培训练习题汇总(带答案)
- 9.10.11有机、酸碱一般排-盛剑
- 完整版:美制螺纹尺寸对照表(牙数、牙高、螺距、小径、中径外径、钻孔)
- 热学教学课件全套电子教案汇总整本书课件最全教学教程完整版教案(最新)
评论
0/150
提交评论