




已阅读5页,还剩68页未读, 继续免费阅读
(计算机应用技术专业论文)基于格框架的机器翻译.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 在机器翻译中加入语义知识已经成为机器翻译的研究热点,很多研究者也从 不同的角度尝试将语义信息添加到统计机器翻译模型中去,以期望更好的指导翻 译过程。但由于语义信息库的建设需要大量的人力物力,因此发展相对滞后,特 别是中文的语义资源更是稀缺,迫切需要自动的学习方法,以快速的构建出大量 的中英文语义资源,满足机器翻译的需要。 为了实现基于格框架的机器翻译,首先就要有双语格框架作为训练语料。本 文正是在这种应用背景下,通过对现有资源的研究,以f r a m e n e t 为基础,整合 了v e r b n e t 、w o r d n e t ,丰富了f r a m e n e t 的语义信息。同时在f r a m e n e t 的基础 上,开发了角色标注系统。利用角色标注系统从英汉双语语料提取了格框架,并 在格框架的基础上设计了一个英汉翻译系统。 语义角色是反映句子意义的某种形式化表示,语义角色含有浅层的语义信 息,在问答系统、信息抽取、机器翻译等领域有着广泛的应用。因此,本文以 f r a m e n e t 为训练语料,开发了一个基于最大熵分类器的角色标注系统。通过对 特征的筛选和组合,实验取得了正确率7 7 ,召回率7 3 5 ,f 1 值7 5 3 的成绩。 在双语格框架的提取方面,通过f r a m e n e t 与h o w n e t 语义对齐性,提取了 大量的对齐词元。同时又在角色标注的基础上,首先通过标注双语句对齐语料中 的英语语料获得角色标注结果,然后利用双语语料的对齐信息,给中文语料标上 角色,最后在获得的双语角色标注语料的基础上提取出双语格框架。 在机器翻译方面,本文在双语格框架的基础上开发了一个基于格框架的英汉 机器翻译系统,实验表明格框架的加入对提高翻译质量是有帮助的。 关键词:语义资源;语义角色标注;双语格框架;机器翻译 a b s t r a c t a d d i n gs e m a n t i ck n o w l e d g et om a c h i n et r a n s l a t i o nh a sb e c o m ea na c t i v ea r e a , m a n yr e s e a r c h e r st r yt oa d ds e m a n t i ci n f o r m a t i o nt ot h es y s t e mo fs t a t i s t i c a lm a c h i n e t r a n s l a t i o n ,a n dt h e yt l l i l l l ( s e m a n t i ci n f o r m a t i o ni su s e f u lt om a c h i n et r a n s l a t i o n h o w e v e r , t h ec o n s t r u c t i o no fs e m a n t i ci n f o r m a t i o nn e e d sal o to fh u m a nr e s o u r c ea n d m a t e r i a lr e s o u r c e ,m e a n w h i l ec h i n e s es e m a n t i cc o r p u si ss c a r c e ,s ot h ea u t o m a t i c l e a r n i n gm e t h o do fg e t t i n gc h i n e s ea n de n g l i s hs e m a n t i cc o r p u si sn e c e s s a r y i nt h i sc o n t e x t ,t h r o u g hi n t e g r a t i n gv e r b n e t 、w o r d n e tw i t hf r a m e n e t , e n r i c h i n g t h ef r a m e n e ts e m a n t i ci n f o r m a t i o n a tt h es a m et i m e ,d e v e l o p i n gas y s t e mo f s e m a n t i cr o l el a b e l i n gb a s e d0 1 1f r a m e n e tt oe x t r a c te n g l i s h c h i n e s eb i l i n g u a lc a s e t h e nu s i n gt h eb i c a s ef r a m et od e s i g nas y s t e mo fm a c h i n et r a n s l a t i o n s e m a n t i cr o l ec o n t a i n st h es h a l l o ws e m a n t i ci n f o r m a t i o n ,s oi th a sb e e nu s e di n q u e s t i o na n s w e r i n gs y s t e m 、i n f o r m a t i o ne x t r a c t i o n 、m a c h i n et r a n s l a t i o na n do t h e r f i e l d s h e r eu s i n gf r a m e n e tt od e v e l o pas y s t e mo fs e m a n t i cr o l el a b e l i n gb a s e do i l m a x i m u me n t r o p y t h es y s t e ma c c u r a c yr a t ei s7 7 、r e c a l lr a t ei s7 3 5 a n df 1i s 7 5 3 e x t r a c t i n gp a r a l l e ll e x i c a lu n i t sf r o mh o w n e ta n df r a m e n e t a tt h es a m et i m e , u s i n gt h es y s t e mo fs r l t ol a b e l i n gt h ee n g l i s hc o r p u so ft h eb i l i n g u a lp a r a l l e lc o r p u s , t h e nl a b e l i n gt h ec h i n e s ec o r p u sw i t hp a r a l l e li n f o r m a t i o n ,f i n a l l ye x t r a c t i n gb i - c a s e f r a m eb a s e do nt h eb i l i n g u a lp a r a l l e lc o r p u sw i t hr o l e e v e n t u a l l y , t h i sp a p e rd e p i c t e das y s t e mo fm a c h i n et r a n s l a t i o nb a s e do nt h e b i - c a s ef r a m e t h ee x p e r i m e n ts h o w e dt h a tt h es y s t e mc o u l di m p r o v et h eq u a l i t yo f t r a n s l a t i o nw h e na d d i n gt h eb i c a s ef r a m et oi t k e yw o r d s :s e m a n t i cc o r p u s ;s e m a n t i cr o l el a b e l i n g ;b i l i n g u a lc a s ef r a m e ; m a c h i n et r a n s l a t i o n ; 厦门大学学位论文原创性声明 本人呈交的学位论文是本人在导师指导下取得的研究成果。本人 在论文写作中参考其他个人或集体已经发表的研究成果,均在文中以 适当方式明确标明,并符合法律规范和厦门大学研究生学术活动规 范( 试行) 。 另外,该学位论文为() 课题( 组) 研究成果,获得() 课题( 组) 经费或实验室的资 助,在() 实验室完成。( 请在以上括号内填写 课题或课题组负责人或实验室名称,未有此项声明内容的,可以不作 特别声明。) 声明人( 签名) :新炎 7 年多月乡日 厦门大学学位论文著作权使用声明 本人同意厦门大学根据中华人民共和国学位条例暂行实施办 法等规定保留和使用此学位论文,并向主管部门或其指定机构送交 论文( 包括纸质版和电子版) ,允许论文进入厦门大学图书馆及其数 据库被查阅、借阅。本人同意厦门大学将学位论文加入全国博士、硕 士学位论文共建单位数据库进行检索,将学位论文的标题和摘要汇编 出版,采用影印、缩印或者其他方式合理复制。 本学位论文属于: () 1 、经厦门大学保密委审查核定的保密论文,于年 月日解密,解密后适用上述授权。 , ( 、) 2 、不保密,适用上述授权。 ( 请在以上相应括号内打“ 或填上相应内容。保密学位论文 应是已经校保密委审定过的,方可打“ 竹,未经审批均为公开论文。 此声明栏不填写的,默认为公开论文,均适用上述授权。) 作者签名: 导师签名: 、 移 乒既争 日期:沙t ,? 年彭月髟日 日期:加夕年歹月夕日 第一章绪论 1 1 格框架与机器翻译 第一章绪论 语义分析是自然语言处理的一个关键问题。所谓语义分析,是指根据自然语 言句子的句法结构和句中每个实词的词义推导出能够反映这个句子意义( 即句 义) 的某种形式化表示,即将人类能够理解的自然语言转化为计算机能够理解的 形式语言,做到人与机器的互相沟通。 几十年来,许多从事自然语言处理的学者们把如何对句子进行正确的语义分 析作为攻克的目标。格框架因为含有丰富的语义知识,一直以来也是研究的重点, 格框架的发展经历了三个阶段:格语法的提出,格语法的进一步解释,语义网络 理论和格框架的建立。 格语法( c a s eg r a m m a r ) 是美国语言学家菲尔摩( c f i l l m o r e ) 于1 9 6 6 年 提出的一种语言学理论。他对格语法的研究奠定了格语法的基础。格语法是一种 以语义为主,句法结构为辅的语法。它认为主语和宾语等只是表层中的关系,深 层中动词和名词的语义关系则是格关系。菲尔摩提出的格关系有施事、客体、承 受、工具、源点、终点等,他给每个动词规定一个格框架,即这个动词所处句中 主语和宾语具有的格特征,然后通过“转换”规则使一个格转换成主语,使别的 格转换成其它的表层句法关系。因此,表层的句法可以从深层的格推出【1 1 。格语 法的精华在于菲尔摩赋予了“格 以新的含义。格语法中的“格 指底层结构中 每一个名词与跟它有关的动词之间的句法语义关系【2 】。这种关系一经确定就固定 不变,不管它们经过什么转换操作。 2 0 世纪7 0 年代中期以后,格语法的发展进入了第二阶段。第二阶段的格语 法主要做了如下修改:菲尔摩把第一阶段表示格角色的结构叫做底层结构,底层 结构由格角色构成,经过转换就得到表层结构;而在第二阶段,由格角色构成的 底层结构,在转换之前还必须经过深层主语和深层宾语等语法关系的分配,从而 得到深层结构,深层结构进入转换部分,经过转换得到表层结构。这样一来,每 个句子就有格角色和语法关系两个分析平面,它们把句子和句子所描述的事件联 系起来,解释句子的语义和句法现象。 基于格框架的机器翻译 由于语言中旬法功能和语义结构之间的对应关系因单词的不同而不同,因 此,菲尔摩深切地认识到需要针对具体的单词来描述句法功能和语义结构之间的 对应关系,建立描述句法和语义结构的框架。基于这样的认识,在2 0 世纪末年, 菲尔摩提出了“框架语义学 ( f r a m es e m a n t i c s ) ,从格语法进一步走到了格框 架。格框架的理论基础是框架语义学。框架语义学是研究词义及句法结构意义的 一种理论方法。菲尔摩从计算机科学中引入“框架 的概念,建立语义框架 ( s e m a n t i cf r a m e ) 。框架语义学认为,要理解词语的意义,就必须首先具备概 念结构,即语义框架的知识。语义框架是有关概念结构、信仰、习俗、意象等模 式的图示化表征。此图示表征能够为某一语言团体提供意义交流的基础。词义是 用框架来描写的。词语可以通过其所在的语言结构,按照一定的原则或方式选择 和突出基本的语义框架的某些方面。要解释词语的意义和功能,就可以按照这样 的思路进行:首先描写词语的基本语义框架,然后对选择方式的特点加以详细刻 画。 在判断一个含多义词的句子意思时,我们首先必须确定在这个特定的上下文 中哪个框架是与该多义词相关的,然后从被激活的框架出发,推导多义词适合的 义项,这样方能得出准确的句子意思。 格框架在国内的发展也是经过一个漫长的过程的。吕叔湘先生在从主语、 宾语的分别谈国语句子的分析【3 】中对几种施事和受事分别充当主宾语的情况进 行了分析。他还提出了“关切补词 、“凭借补词”和“方所补词”等十四种补词, 大致相当于f i l l m o r e 提出的几种深层格。丁树声等的现代汉语语法讲话中 在对宾语进行分析时就指出:“有各种不同的动词,因此动词跟宾语也有各种不 同的关系”,“就是同一个动词也常带各种关系不同的宾语。 【4 】8 0 年代以后中 国学者对汉语的语义角色进行了更深入的讨论。朱德熙区分了句子中各成分的显 性语法关系和隐性语法关系,所谓隐性的语法关系就是指“施事”、“受事”、 “工具等语义角色。汉语与英语、俄语等屈折语不同,缺乏形态标志和形态变 化,在汉语里识别语义角色主要靠语序与介词【5 1 。李临定指出:“具有同一语义 角色的词语可以处在不同的句法位置上【6 p 。陈昌来根据格系统也将动词分为 了若干类,并详细讨论了判断动词语义角色的一些方法网。由丽萍,范开泰,刘 开瑛等人对汉语语义模型的进行了较为纤细的研究【8 】。 2 第一章绪论 在中文格框架建设方面,山西大学刘开瑛等人参照f r a m e n e t ,手工整理了 一批宝贵的中文f r a m e n e t ( c f n ) 资源,共对汉语1 7 6 0 个词元构建了1 3 0 个框 架,涉及动词词元1 4 2 8 个,形容词词元1 4 8 个,事件名词词元1 9 2 个,标注了 8 2 0 0 个句子。 机器翻译的研究已有半个多世纪的历史。在计算机发明之初,就有人想到利 用计算机来破解密码,当然也有人想到利用计算机来破解人与人之间沟通的密码 语言。所谓机器翻译,就是人类利用计算机实现自然语言中的相互翻译,利 用软件实现从一种自然语言到另一种自然语言的转换。 1 9 4 6 年,美国宾夕法尼亚大学的埃克特( j p e c k e r t ) 和莫希莱 ( j w m a u c h l y ) 设计并制造出了世界上第一台电子计算机e n i a c ,电子计算机 惊人的运算速度,启示着人们考虑翻译技术的革新问题。因此,在电子计算机问 世的同一年,英国工程师布斯( a d b o o t h ) 和美国工程师韦弗( w w e a v e r ) 在 讨论电子计算机的应用范围时,就提出了利用计算机进行语言自动翻译的想法。 1 9 4 9 年,韦弗发表了一份以翻译为题的备忘录,正式提出了机器翻译问题。 然而,虽然1 9 4 9 年就提出了这样的想法,但实际中的进展却非常曲折和缓 慢。 1 9 5 4 年美国的乔治伦敦大学和i b m 公司合作,公开演示了世界上第一个m t 系统。一直到2 0 世纪6 0 年代前期,欧美各国的机器翻译出现了不断上升的趋 势。1 9 6 4 年,美国科学院成立的语言自动处理咨询委员会( a u t o m a t i cl a n g u a g e p r o c e s s i n ga d v i s o r yc o m m i t t e e ) 经过两年的综合调查分析和测试,于1 9 6 6 年 发布了著名的a l p a c 报告,宣称:“在近期和可以预见的未来,开发出实用的机 器翻译系统是没有指望的。”报告还指出,机器翻译研究遇到了难以克服的“语 义障碍 ( s e m a n t i cb a r r i e r ) 。这一报告的发表给了正在蓬勃发展的机器翻译当 头一棒,m t 研究陷入了近乎停滞的僵局。 7 0 年代以来,随着科学技术的发展和各国科技情报的交流日趋频繁,国与 国之间的语言障碍显得更为严重,迫切地需要计算机来从事翻译工作。这样,m t 项目又开始发展起来,各种实用的以及实验的系统被先后推出,如w e i n d e r 系统、 e u r p o t r a 多国语翻译系统、t a u m - m e t e d 系统等。这一时期对语法和语义的研究 也开始了,翻译方法则开始普遍采用分析为主,辅之以语义分析的基于规则的方 基于格框架的机器翻译 法。另一方面,m t 系统的研发着眼点更实用了,机助人译( c o m p u t e r - a i d e d m a c h i n et r a n s l a t i o n ) 、人助机译( h u m a n - a i d e dt r a n s l a t i o n ) 、受限语言 ( r e s t r i c t e dl a n g u a g e ) 、子语言( s u b l a n g u a g e ) 的观点也为广大研发人员 所接受。进入8 0 年代后,研究的动向更趋向于实用化,在一些国家,m t 项目已 经开始作为国家研究项目进行。 一直到9 0 年代以前,机器翻译的主流方法一直是基于规则的方法,其主要 问题在于语言的表现形式是非常丰富的,构建知识库的规则需要训练有素的语言 学家来制定并维护;另一方面,语言并不是一个封闭的集合,规则之外还有新的 规则,但新的规则如何不与旧的规则冲突也是一个难题。知识的获取成为传统翻 译方法的瓶颈。 在2 0 世纪8 0 年代中后期,一些研究人员提出基于语料库的机器翻译方法: 与传统方法不同的是,基于语料库的方法不对语言进行深层次的分析,而是大规 模收集互为译文的双语语料并基于这些语料进行翻译。其中有两个主要分枝:一 种称为基于实例的机器翻译方法,主张通过在双语语料库中查找最为相似的翻译 实例的方法来获得语言的翻译;另一种称为基于统计的机器翻译方法,即统计机 器翻译,主张对翻译过程建立数学模型,利用双语语料库估计模型参数,进而根 据模型及经过调整的参数来执行翻译。 1 9 9 3 年,i b m 公司的b r o w n 等人提出的基于信源信道模型的方法【9 】【1 0 1 ,可以 说,它为现代统计机器翻译研究的蓬勃发展奠定了坚实的基础。信源信道模型将 统计机器翻译看成一个信息传输的过程:信道的输入是目标语言,在经过信道编 码以后,输出源语言,机器翻译的任务就是将源语言还原( 翻译) 为目标语言, 这一过程通常称之为解码。需要注意的是,这种模型与人们通常的认识有所区别, 就模型而言,信道的输入是目标语言,而输出则是源语言,实际上在翻译( 解码) 时,还是将源语言作为输入,输出为目标语言。 基于词对齐( w o r d t o w o r d ) 模型应该说是最早的统计翻译模型,是一种纯 粹从单词到单词的转录方法,而对于上下文的信息没有加以利用,在目标语言的 生成上重排序就显得异常困难和复杂;而且一般的习惯用语则很难通过单个词的 翻译拼接来完成较好的意义表达【l l 】【12 1 。 鉴于词模型的限制,学者们的研究对象从单词扩展到短语( p h r a s e ) 上来, 4 第一章绪论 这个短语并不是语言学意义上的短语,而是任意连续的词串;以短语为对象的翻 译系统其主要任务就转化为短语划分、短语重排序、短语直接翻译这样几个问题 上来;基于短语的翻译系统扩展了上下文的空间,对于相邻的单词串经常作为一 个整体来操作,一方面降低了翻译和调序的任意性,模型的复杂性降低;另一方 面,对于源语言的分块操作也符合人类的处理的语言直觉;虽然只是翻译单元的 粒度发生了变化( 在模型和解码器的设计方面,两者基本上是一脉相承的) ,但 是在翻译性能上却是前进了一大步,在语料库的容量达到一定程度的时候,就会 表现出其健壮的特点;从2 0 0 2 年到2 0 0 5 年,由f r a n zj o c h 开发的基于对齐 模板的统计机器翻译系统【1 3 】【1 4 】【1 5 】连续在n i s t 评测中独占鳌头,而其他基于短语 的系统也都排在前列,标志着基于短语的翻译模型已成为统计机器翻译的主流技 术。 然而翻译粒度的改变并没有从根本上解决短语翻译中全局信息缺失、远距离 重排序的弱点,近年来其性能的增长逐渐放缓,呈现平台期的趋势,在2 0 0 5 年 和2 0 0 6 年的n i s t 评测1 中并没有明显的进步。 在短语翻译中遇到的困难提示人们应该将更多的信息加入到翻译过程中,使 得机器能够使用到更多的上下文来指导翻译。2 0 0 1 年,y a m a d a 提出第一个基于 句法的统计机器翻译模型【1 6 】,该模型是以噪声通道模型为指导的、通过分析目标 语言句法树的到输入的源语言串的概率来进行翻译;从此翻译的目标也向着语言 的深层结构进行探究;这种结构即可以是符合语言学标准的具体的句法结构,也 可以是形式化的节点之间的依赖和组成关系。在句法结构的指引下,产生了许多 基于句法结构的翻译模型如d i n g 利用概率化同步依存插入语法 ( p r o b a b i l i s t i cs y n c h r o n o u sd e p e n d e n c yi n s e r t i o ng r a m m a r ,简称p s d i g ) 和非同构性随机树到树转录机( s t o c h a s t i ct r e e t o t r e et r a n s d u c e r ) 构建了 一个基于句法的统计机器翻译系绀17 】;q u i r k 同样使用依存分析提出了一种基于 依存分析的树到树的翻译模型【1 8 】;c h i a n g 提出层次化( h i e r a r c h i c a l ) 基于短 语的翻译模型1 9 1 ;2 0 0 6 年,刘洋提出了基于源语言树到目标语言串的翻译模型 2 0 l ;2 0 0 7 年熊德意提出的基于依存t r e e l e t s t r i n g 对应模型的统计机器翻译【2 1 】 等。 其中c h i a n g 的系统( h i e r o ) 在2 0 0 5 年和2 0 0 6 年的n i s t 评测中都取得 基于格框架的机器翻译 了极佳的成绩,超过了许多基于短语的系统,成为目前最好的基于句法的系统之 一o 基于句法的翻译系统,虽然取得了不错的成绩,但也应该看到句法的信息是 有限的,只是语义信息的浅层表示。因此众多学者们考虑是否能添加更多的语义 信息来改善基于句法的翻译系统,在句法和语义层面建立某种联系,甚至更进一 步开发出基于语义的机器翻译,这也符合统计机器翻译金子塔【2 2 1 所表达的意思, 如图1 1 - 1 。虽然如此,但由于现有的语义知识库还不完备,基于语义的机器翻 译大多还处于理论研究中,实际的系统很少,南京大学陈家骏【2 3 1 等在日语格基础 上开发了日汉翻译系统,在日汉翻译评测中取得了比较不错的成绩。基于语义翻 译系统的关键是建立_ 个完整的语义知识库。因此,构建英汉双语格框架,对搭 建基于格框架的机器翻译,甚至对将来基于语义的机器翻译的研究都具有十分重 要的意义。 中间语言 源语言 1 2 本文的工作 图1 1 1 统计机器翻译金子塔 语 单词 源语言 格框架因为具有丰富的语义知识,已经在很多领域得到了广泛的应用。比较 成熟的英文格框架有b e r k e l e yf r a m e n e t 。基于格框架的英汉翻译系统的关键是 构建完备的英汉双语格框架,但目前的中文格框架还不很完备,主要的矛盾在于 6 第一章绪论 格框架的建设还是依靠手工整理,需要大量的人力和物力。本文为了解决这个矛 盾,提出了一种基于角色标注的自动构建英汉双语格框架的方法,同时在构建的 格框架的基础上实现了一个英汉翻译系统。整个论文包含三个部分的工作: 1 ) 对现有语义资源的利用和开发,使用的英语语义资源有f r a m e n e t 、 y e r b n e t 、w o r d n e t ,以f r a m e n e t 为基础,整合了v e r b n e t ,w o r d n e t ,进一步丰 富了f r a m e n e t 的语义信息,为下一步自动构建英汉双语格框架做准备。 2 ) 设计了一个基于最大熵分类器的角色标注系统,系统使用f r a m e n e t 例句 做为训练语料,并在这一系统的基础上对中文双语语料进行标注和处理,自动构 建出英汉双语格框架,并实现格框架的对齐。 3 ) 在英汉双语格框架的基础上,设计了一个基于格框架语义信息的英汉双 语翻译模型,实验结果表明语义信息的加入有助于提高机器翻译的质量。 本文的组织结构如下: 第一章为绪论部分,主要简单介绍格框架与机器翻译的发展历史以及本文研 究的意义。 第二章介绍本文使用的语义资源以及语义资源的整合。 第三章描述目前角色标注的一些通用方法以及本文实现的角色标注系统。 第四章介绍了基于h o w n e t 的中文词元构建方法和英汉双语格框架的自动提 取步骤。 第五章介绍在提取的双语格框架的基础上实现的英汉翻译系统。 第六章为对本文工作的总结,以及对今后工作的一些设想。 7 第二章语义资源的整合 第二章语义资源的整合 双语格框架自动构建的基础就是要有一个比较完备的英语格框架,f r a m e n e t 相对来说还是比较成熟的,但为了自动构建的格框架更具覆盖性和全面性,因此 应当利用现有的多种语义资源来完备f r a m e n e t 。 w o r d n e t 、v e r b n e t 、f r a m e n e t 等语义型词典,在自然语言处理及其电子词典 编幕领域得到广泛应用。虽然这些语义型词典构建理论基础不同,形成各自明显 的特征,但是这几种语义类型的词典各自从不同侧面表达词汇概念及语义关系, 彼此之间互为补充,并且可以建立相互之间的映射,共同为语义分析提供丰富的 知识资源,以帮助词典使用者及语言信息处理人员更好地应用。因此充分利用这 几种语义资源并整合它们,将充实f r a m e n e t 的语义信息,为后期构建双语格框 架做准备。 2 1 各种语义资源的介绍 语义型词典作为语言信息处理的基础,广泛应用于机器翻译、人机问答系统、 文献检索、信息自动提取、语音识别与合成、文字识别、中文输入、词义消歧、 文本校对、语料库加工等多种处理领域。 当前国外有名的w o r d n e t 、v e r b n e t 、f r a m e n e t 等都属于此类语义型词典, 它们从单词、句法层面提取语义信息,并将这些信息以网状形式呈现,与传统的 按字母顺序组织词汇信息的词典相比,其更多地从词汇的概念角度出发,将具有 含义相同、相近或者具有一定关联度的词汇聚集在一起,使计算机能够像人类一 样理解自然语言中所含的信息,利用语义资源实现语义分析和理解。 2 1 1w o r d n e t w o r d n e t 的理论基础是心理语言学。其主要探讨和研究语言产生、理解的心 理活动中的有关现象、机制,关注语言能力的认知基础,因此2 0 世纪以来,语 言学家和心理学家开始从新的角度探索语言学知识结构以及词典结构,米勒 ( m i l l e r ) 等提出与语言的词法元素有关的研究应该称作心理词汇学。随着近十 9 基于格框架的机器翻译 几年来语言学理论的发展,语言学家们认识到,一部词典应该包括音位学、词法 学、语法学、句法学、语义学等诸多要素,它们共同作用于语言信息的生成与理 解,在人的大脑中所储存的词汇知识,就像一部词典所载有的信息一样,也规定 词的拼写形式和发音形式、词的意义。在普通词典中,用已知的词去定义一个生 词,通过对意义的解释把语言和客观世界联系起来,在人的语义记忆中也需要表 示这种词义及概念之间的关系【2 4 1 ,但是其组织方式又有所不同,词义的心理表征 比普通词典的词义表示更为复杂。通过开始于本世纪初关于词的关系的研究,以 及近几十年来心理学的研究,大量研究成果开始揭示出这种复杂的词汇语义关 系,如许多认知心理学家和计算语言学家以“网的形式来描述词语的意义。按 照上述思想,普林斯顿大学的一组心理词汇学家和语言学家于1 9 8 5 年承担起开 发w o r d n e t 的任务。图2 1 - 1 绘制了w o r d n e t 中部分词汇之间的层级关系。 叫表示i sak i n do f 专表示i s am e m b e r o f a n c e s t o r , 宇s e n d a n t ,r 。t ) p r o g e n n 。r ,p n m 。g e n t 。r ) f a t h e r ,m a l ep a r e n t ,b e g e t t e r h m o t h e r ,f e m a l ep a r e n t 图2 1 1w o r d n e t 中部分词汇之间的层级关系 2 1 2v e r b n e t c y ) v e r b n e t 的理论基础是l e v i n 的动词分类标准。可提供明确的句法和语义信 息的动词词汇库【2 5 】。其基本假设是一个动词的句法框架是语义的最基本最直接的 1 0 第二章语义资源的整合 反映。v e r b n e t 将动词分为若干个类,对于同一动词类,句法行为相同,则具有 共同的句法框架。l e v i n 认为句法框架会直接反映潜在的语义,因此对动词类成 员的句法行为进行详细研究,按照在成对的句法框架中出现或不出现的能力来划 分类,明确指出每一类的句法特征,而不考虑其语义构成。l e v i n 按照共享词义 和句法行为特征,对3 0 0 0 个英语动词词汇进行分类。v e r b n e t 按照l e v i n 的分 类来组织结构,但又将词类进行进一步的划分,将一个超级类划分为若干个子类, 这样提供了更多的句法和语义的连贯性。图2 1 - 2 是v e r b n e t 中a c c o m p a n y 这个 分类下的部分动词和语义句法行为。 a 咐观a s si d = 。a c c o m p a n y - 5 1 7 ” ( i e i b e rn a l e = 。a c c o m p a n y w n f 。a c c o m p a n y _ 2 :3 8 :0 07 a c c o m p a n y 2 :4 2 :0 1 。 理x p l e s j a c k i ea c c o m p a n i e dr o s e e x a i p l e ) 螂s q 潞t y p e = “t h e m r o l e 。v a l u e = “t h e m e 冷 f 啪j 图2 1 2v e r b n e t 中a c c o m p a n y 分类 基于格框架的机器翻译 2 1 3f r a m e n e t 框架网络是一项基于框架语义学的词库工程,使用者通过手工和自动的程 序,从大型电子文本语料库中提取英语单词相关的语义、句法特征等信息,并将 这些信息以多种形式展现于网络之中。框架网络f r a m e n e t 一词的产生是受到 w o r d n e t ( f e l l b a u m ,1 9 9 8 ) 一词的启发,表示该项目的理论基础是框架语义学, 且与单词的意义网络密切相关。框架网络的开发对词典学、自然语言处理、语义 研究等方面都有崭新的意义。框架网络概念的提出及框架网络数据库的建立始于 1 9 9 7 年。当时,美国b e r k e l e y 大学的f i l l m o r e 、a t k i n s 等人提议建立一个以 框架为基础,涵盖大部分英语单词的在线英语词库。第一阶段的工作主要是开发 一系列工具用于词库建设,并且开始建立框架网络数据库。第二阶段主要是补充 数据库的单词数量,并且添加注释性例句。在此阶段,建立框架网络的目的主要 是发挥数据库作为词汇资源库的作用,用于言语运用及语言技术。框架网络的理 论基础是框架语义学。框架语义学是研究词义及句法结构意义的一种理论方法。 f i l l m o r e 从计算机科学中引入“框架”的概念,建立语义框架( s e m a n t i cf r a m e ) 。 框架语义学认为,要理解词语的意义,就必须首先具备概念结构,即语义框架的 知识。语义框架是有关概念结构、信仰、习俗、意象等模式的图示化表征。此图 示表征能够为某一语言团体提供意义交流的基础。词义是用框架来描写的。词语 可以通过其所在的语言结构,按照一定的原则或方式选择和突出基本的语义框架 的某些方面。要解释词语的意义和功能,就可以按照这样的思路进行:首先描写 词语的基本语义框架,然后对选择方式的特点加以详细刻画。图2 卜3 是 f r a m e n e t 中表示身体动作的一个语义框架以及其对一个句子的标注实例。 n p- n pp p - e x t - o b j - c o m p 图2 1 3f r a m e n e t 框架以及句子标注 1 2 第二章语义资源的整合 2 2 语义资源的利用和整合 f r a m e n e t 框架网络本身有很多的优点,如它通过框架和语义角色提供了很 好的语义解释,但词汇的覆盖面有限,v e r b n e t 定义了动词的详细的句法一语义 关系,但它也有缺点如题元角色太过笼统而无法实现语义框架所表现的场景, w o r d n e t 拥有很丰富的词汇覆盖面,但没有提供句法和语义动词行为。h o w n e t 有 丰富的词汇语义知识,但没有缺少句法行为。针对这些语义资源本身的优缺点, 以f r a m e n e t 为基础,通过整合f r a m e n e t 和w o r d n e t 增加f r a m e n e t 词元数量, 整合v e r b n e t 和w o r d n e t ,增加v e r b n e t 的选择限制,为整合f r a m e n e t 和v e r b n e t 做出必要的补充,同时f r a m e n e t 和v e r b n e t 的整合引进了更多的动词词元和框 架语义信息。 2 2 1f r a m e n e t 和w o r d n e t 的整合 在f r a m e n e t 中,对于一个特定的词元来说,由于不同的义项分属于不同的 框架,从而拥有了不同的句法信息,表达了不同的语义信息;而该词元在w o r d n e t 中也存在多种义项,并将各种义项组成同义词集的形式。所以,可以将该词元在 f r a m e n e t 中所属的多个框架与在w o r d n e t 中相对应的同义词集相连接。例如: 对于“破碎( b r e a k ) 一词,它激活的框架有:破碎情景( f r a g m e n t a t i o n _ “ s c e n a r i o ) ,使成为碎片( c a u s e t o f r a g m e n t ) 。这些框架与w o r d n e t 中破碎 ( b r e a k ) 相对应的同义词集相连后如图2 2 1 所示。 破碎 ( b r a k ) 1 3 基于格框架的机器翻译 图2 2 1f r a m e n e t 与w o r d n e t 中同义词集的集成 通过将f r a m e n e t 中各框架与w o r d n e t 中相对应的不同义项进行连接,使得 f r a m e n e t 中特定框架下词元的数量剧烈增加,大大扩展了其词汇覆盖面。例如: 对于破碎情景( f r a g m e n t a t i o n框架,它下面有词元:破碎,scenario)(break) 使成为碎片( f r a g m e n t ) ,粉碎( s h a t t e r ) ,折断( s n a p ) ,裂成碎片 ( s p l i n t e r ) ,对于本例中特定的词元破碎( b r e a k ) ,它在w o r d n e t 中的第2 个 和第5 4 个义项能够与该框架联系,故包含在这两个义项下面的词元能够并入破 碎情景( f r a g m e n t a t i o n _ s c e n a r i o ) 框架进而增加了该框架下词汇的数量。对 于其他词元,如使成为碎片( f r a g m e n t ) ,粉碎( s h a t t e r ) ,折断( s n a p ) , 裂成碎片( s p l i n t e r ) ,仍然可以将其做为单个特定的词元按照上述方法与 w o r d n e t 连接。 f r a m e n e t 中语义类型是用来描述特定框架元素的具体类型,比如:指定施 事者( a g e n t ) 为人( h u m a n ) ,或者指定施事者( a g e n t ) 为工具( i n s t r u m e n t ) 、 车辆( v e h i c l e ) 等。但仅仅这样是不够的,不足以为进一步研究推理打好基础。 在标识语义类型后,计算机还需要知道具体是什么人、什么工具、什么车辆充当 施事者,这样计算机才能够进行语义推理,进而得出正确的具体的结果。这在 f r a m e n e t 的语义类型中是没有涉及的。如果将f r a m e n e t 中各个语义类型和 w o r d n e t 中特定的同义词集相连,该同义词集中的同义词、下位词等就可以做为 具体语义类型的实例,这样就使得各个语义类型下都包含具体的词汇。如对于语 义类型工具( i n s t r u m e n t ) ,它可以和w o r d n e t 中工具( i n s t r u m e n t ) 这一词 的第一个和第二个义项的同义词集进行连接,这样同义词“器具( t 0 0 1 ) 和第 一个义项的下位词“武器( w e a p o n ) ”和“鞭子( w h i p ) ”等就可以做为语义类型 工具( i n s t r u m e n t ) 的具体实例。 2 2 。2v e r b n e t 和w o r d n e t 的整合 v e r b n e t 与w o r d n e t 的整合和f r a m e n e t 没有直接的关系,但这步骤的整合 主要是为f r a m e n e t 和v e r b n e t 的整合做准备。在v e r b n e t 中有选择限制,所谓 选择限制指的就是对角色类型所属的语义范围进行限制。例如: 1 4 第二章语义资源的整合 ( 1 ) ib r e a kt h ew i n d o w 。 ( 2 ) t h eh a m m e rb r e a k st h ew in d o w 在( 1 ) 中i 被限制为p e r s o n ,( 2 ) 中h a m m e r 被限制为t o o l ,这就是v e r b n e t 中的选择限制。不过v e r b n e t 给定的p e r s o n ,t o o l 等只表示一定的语义范围, 并没有给出更多具体的词元,这时可以考虑和w o r d n e t 集成,充实这个限制范围。 例如,v e r b n e t 中的选择限制i n s t r u m e n t 对应于w o r d n e t 中的i n s t r u m e n t a l i t y , 那么w o r d n e t 中i n s t r u m e n t a l i t y 的下位词都可以添加到这个选择限制中来,然 而像b o y 不是i n s t r u m e n t a l i t y 的下位词,当它在句子中出现时,它的选择限制 就不是in s t r u m e n t 。 2 2 3f r a m e n e t 和v e r b n e t 的整合 首先将v e r b n e t 动词类中各词元的义项与f r a m e n e t 词元进行比较,如果词 的意义相同,则该词元所对应的框架及框架元素可用以描述v e r b n e t 对应的词, 那么v e r b n e t 动词类下其它词就可做为f r a m e n e t 框架下的补充词元。例如:对于 破碎( b r e a k ) 这一动词来说,因为v e r b n e t 中破碎( b r e a k ) 动词类下面的词元 如碰撞( c r a s h ) ,破裂( c r a c k ) ,裂开( s p l i t ) ,碎裂( f r a c t u r e ) 等与f r a m e n e t 中的框架破碎情景( f r a g m e n t a t i o n s c e n a r i o ) 和使成为碎片 ( c a u s e t of r a g m e n t ) 有直接联系,所以直接将其与这两个框架进行连接,把 这
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 玉林市福绵区特岗教师招聘笔试真题2024
- 昆明市公安局呈贡分局勤务辅警招聘笔试真题2024
- 石大学前儿童保育学课件1-2呼吸系统
- 生物打印再生组织-洞察阐释
- 对数函数及其性质(第一课时)教学设计教学设计
- 2025至2030年中国电力系统接线装置行业投资前景及策略咨询报告
- 2025至2030年中国玻璃专用金刚石锯片行业投资前景及策略咨询报告
- 第二节发生在肺内的气体交换教学设计
- 人工智能+教育论文
- 2025至2030年中国滚柱式单向超越离合器行业投资前景及策略咨询报告
- 走进西方音乐学习通超星期末考试答案章节答案2024年
- 国家开放大学电大《生产管理》2024-2024期末试题及答案试卷号
- “抢10”游戏(教学设计)-2024-2025学年一年级上册数学苏教版
- 农村建房的邻居协议书模板
- 服装技能大赛理论试题库题
- 浙江省杭州市上城区2023-2024学年八年级下学期期末科学试题(解析版)
- JGJ196-2010建筑施工塔式起重机安装、使用、拆卸安全技术规程
- 浙江省杭州市滨江区2023-2024学年八年级下学期期末科学试题(解析版)
- 大学武术智慧树知到期末考试答案章节答案2024年浙江大学
- 国家开放大学2022《土木工程力学(本)》形考作业1-5参考答案
- 河南省许昌市2023-2024学年高一下学期期末考试生物试题(无答案)
评论
0/150
提交评论