




已阅读5页,还剩52页未读, 继续免费阅读
(计算机应用技术专业论文)句法及语义联合标注方法的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 计算机的发展激起了人们对人工智能的渴望,互联网的飞速膨胀改变人们 对信息的理解。人们希望计算机能和人类用语言交流,能读懂互联网上的信息, 能帮助人们从海量的信息中准确地找到需要的信息。但是如何来做到这些呢? 首先得让计算机“学会 人类的语言。这也就是人工智能的一个重要分支一一 自然语言理解所要研究的内容。然而,这是一项非常艰巨的任务。在巨大的困 难和多次的失败面前,学者们开始将注意力集中在简单,但是实用、较小的任 务上。语义角色标注便是其中很有代表性的一个方向。它是浅层语义分析的一 种,对句子进行浅层次的分析和标注。其结果可以用于更深层次的语义分析, 从而逐步实现自然语言理解的目标。语义角色标注在句法和语义之间架起了一 座桥梁,是进行自然语言理解的基础性工作,具有很重要的意义。但是这座桥 还需要句法研究的支持。其中一个很重要的内容就是句法依赖解析的研究。 句法依赖解析和语义角色标注在经过多年的研究之后取得了不错的效果, 但是仍有较大的提升空间。本文就是从另外一个角度,研究联合标注方法,使 得不仅能够使用句法信息来帮助语义角色标注,也能使用语义信息来促进句法 解析和标注,达到互相促进相辅相成的效果。 本文主要工作和特色如下: 1 ) 设计并实现了一种基于概率评估模型的联合标注新方法。在生成多组较 优的候选结果基础上,再从全局的角度对这些候选结果进行评估,选出一个全 局较优的标注结果。从而克服了先句法后语义的传统流水线式标注方法中贪心 策略的一些不足。 2 ) 修改传统的基于要素的语义角色标注方法中使用的特征,使之适用于基 于依存表示的语义角色标注。 3 ) 设计并实现了一种基于迭代模型的联合标注方法。通过迭代,可以将语 义标注的信息反馈给句法解析模块,甚至反馈给语义角色标注模块,从而修正 标注结果,提升系统的整体标注效果。 4 ) 在基于迭代模型的联合标注系统中,针对句法和语义的相关标注,分别 设计了用于迭代标注的特征来扩充原有的特征,以便利用迭代模型反馈回来的 上一次迭代标注信息。 关键词:句法依存解析语义角色标注联合标注概率评估模型迭代模型 a b s t r a c t a b s t r a c t t h ed e v e l o p m e n to fc o m p u t e r sh a sa r o u s e dt h ed e s i r ef o ra r t i f i c i a li n t e l l i g e n c e t h er a p i de x p a n s i o no ft h ei n t e m e tc h a n g et h ew a y p e o p l eu n d e r s t a n dt h ei n f o r m a t i o n i ti sh o p e dt h a tt h ec o m p u t e rc a nc o m m u n i c a t ew i t hp e o p l eu s i n gn a t u r a ll a n g u a g e , r e a dt h ei n f o r m a t i o no nt h ei n t e m e t ,a n dh e l pp e o p l et of i n dt h ei n f o r m a t i o ne x a c t l y b u th o wc a nac o m p u t e rd ot h e s e ? f i r s to fa l l ,l e tt h ec o m p u t e r l e a r n t h el a n g u a g e o fh u m a n i t y t h i si st h ej o bo fn a t u r a ll a n g u a g eu n d e r s t a n d i n g a ni m p o r t a n tb r a n c h o fa r t i f i c i a li n t e l l i g e n c e h o w e v e r ,t h i si sav e r ya r d u o u st a s k s c h o l a r sb e g a nt of o c u s o ns i m p l e ,b u tp r a c t i c a la n ds m a l l e rt a s k sa f t e rm a n yf a i l u r e s s e m a n t i cr o l el a b e l i n g ( s r l ) i so n eo fr e p r e s e n t a t i v et a s k s i ti sas h a l l o ws e m a n t i cp a r s i n g t h er e s u l t sc a n b eu s e df o rad e e p e rs e m a n t i ca n a l y s i si no r d e rt oa c h i e v et h eg o a lo fn a t u r a ll a n g u a g e u n d e r s t a n d i n gg r a d u a l l y s e m a n t i cr o l el a b e l i n gi sv e r yi m p o r t a n ta si t i sab r i d g e b e t w e e ns y n t a c t i ca n ds e m a n t i c h o w e v e r ,t h i sb r i d g ea l s on e e d st h es u p p o r to f s y n t a c t i cr e s e a r c h ,s u c ha ss y n t a c t i cd e p e n d e n c yp a r s i n g ( s d p ) s y n t a c t i cd e p e n d e n c yp a r s i n ga n ds e m a n t i cr o l el a b e l i n gh a sb e e ns t u d i e dm a n y y e a r sa n dm a n yg o o dr e s u l t sh a v e b e e no b t a i n e d b u tt h e r es t i l le x i s t sm u c hs p a c e f o r i m p r o v e m e n t t h i st h e s i ss t u d i e sf r o mad i f f e r e n ta n g l eh o w t od e s i g na j o i n tl a b e l i n g s y s t e m t om u t u a l - i m p r o v es y n t a c t i ca n ds e m a n t i cl a b e l i n gp e r f o r m a n c e t h em a i nc o n t r i b u t i o n so ft h i st h e s i sa r ea sf o l l o w : f i r s t l y ,w ed e s i g na n di m p l e m e n ta n e w p r o b a b i l i s t i cb a s e djo i n tl a b e l i n gm o d e l t h i sm o d e lg e n e r a t e saf e wg r o u p so fc a n d i d a t er e s u l t sa n dt h e ne v a l u a t e se a c hr e s u l t t h er e s u l tw i t ht h eb e s te v a l u a t i o ni st h ef i n a lr e s u l t s e c o n d l y ,w em o d i f i e dt h ef e a t u r eu s e db yc o n v e n t i o n a la p p r o a c ho fs r l t o c o m p a t i b l ew i t hd e p e n d e n c y b a s e dr e p r e s e n t a t i o n t h i r d l y ,w ed e s i g na n di m p l e m e n tan e wi t e r a t i v ejo i n tl a b e l i n gm o d e l t h e r e s u l to fs r li su s e da saf e e d b a c kt os d pm o d u l ea n de v e nt os r lm o d u l ei t s e l f s u c hi n f o r m a t i o nc a nb eu s e dt oi m p r o v et h er e s u l t f i n a l l y ,f o rb o t hs d p m o d u l ea n ds r lm o d u l e ;w ed e s i g nn e wi t e r a t i v ef e a t u r e f o rt h e mt oe x t e n dt h eo r i g i n a lf e a t u r e si no r d e rt ou s et h ef e e d b a c ki n f o r m a t i o n k e yw o r d s :s y n t a c t i cd e p e n d e n c yp a r s i n g ,s e m a n t i cr o l el a b e l i n g ,j o i n tl a b e l i n g , p r o b a b i l i s t i cm o d e l ,i t e r a t i v em o d e l i i 中国科学技术大学学位论文相关声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作 所取得的成果。除己特别加以标注和致谢的地方外,论文中不包含任 何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究 所做的贡献均已在论文中作了明确的说明。 本人授权中国科学技术大学拥有学位论文的部分使用权,即:学 校有权按有关规定向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅,可以将学位论文编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 保密的学位论文在解密后也遵守此规定。 作者签名:孟鸳 川年j 月刁日 泐, | 一7 卜谚 第l 章绪论 第1 章绪论 互联网飞速膨胀,容纳了海量的信息,但是计算机并没有理解人们交给它 的这些信息代表什么;计算机的处理能力也准循着摩尔定律高速发展,完成了 无数的任务,但是计算机并不知道做了什么,更不能通过和人类通过交流,自 己去选择该做什么。如何才能让计算机能和人类用语言交流,能读懂互联网上 的信息,能帮助人们从海量的信息中准确地找到需要的信息呢? 这首先需要计 算机能够理解人类语言,这也就是自然语言理解所要研究的内容,是人工智能 的研究行列中一个很重要的分支。然而,这是一项非常艰巨的任务,在巨大的 困难和多次的失败面前,学者们开始将注意力集中在简单,但是实用、较小的 任务上。语义角色标注便是其中很有代表性的一个方向,它在句法和语义之间 架起了一座桥梁,是进行自然语言理解的基础性工作,具有很重要的意义。 经过多年的研究,学者们在语义角色标注领域取得了不错的成果。为了能 够进一步提高标注的效果,近两年来,学者们提出将句法分析和语义标注结合 的联合标注思路,希望不仅能用句法信息帮助语义标注,而且能用语义信息来 帮助句法分析。本文就是根据这个思路,设计并实现了两种联合标注的方法。 本章首先介绍了论文的研究背景以及意义,而后介绍了进行联合标注所需 的现有工作基础,在对国内外关于联合标注的研究现状进行阐述之后,给出了 本论文的研究方法年l f , j 新之处,以及论文的组织结构。 1 1 研究背景和意义 语言是信息的重要载体,是人与人之间进行交流的重要工具。为了实现人 类与计算机的交流,就必须使计算机能够分析自然语言。自然语言分析一般包 括三个层次:句法j 语义和语用。句法分析关心的是如何将词语排列组成正确 的句子,并决定每个词语在句子中充当的句法结构角色。语义分析则是将自然 语言句子转化为能够反映这个句子意义( 即句义) 的某种跨语种、与语法无关 的形式化表示。而语用分析则是研究影响语言行为( 如招呼、劝说等) 的标准 和支配轮流发言的规则。但是由于其复杂性,目前在这方面的研究还很少。 1 1 1句法 句法分析是自然语言分析的基础,它的主要任务是:对于一个给定的输入 句子,以语言的语法特征为主要知识源,生成一棵短语结构树,从而在语法层 次上指明输入句子各部分之间的关系。 第1 章绪论 句法分析是指分析短语和句子的语法结构。句法分析在自然语言分析中的 重要地位是近百年来取得的,因为在二十世纪以前的西方语法学中,句法不受 重视,讲语法总是以“词法”( 形态) 为主,许多句法现象和问题都放在词法 里讲。直到二十世纪初,才有些语法学家才开始把句法提到重要的位置上来。 此后无论是结构主义语言学派,还是转换生成语法学派,都将句法结构分析作 为语法研究的重心。另外,句法分析的过程可以解决自然语言处理过程中存在 的一部分歧义问题,比如:词性歧义、生词引起的歧义等。这些歧义问题的解 决无疑可以对进一步的自然语言处理提供强有利的帮助。因此对句法分析的研 究是自然语言处理的一个重要内容。 随着信息社会的到来,人们对自然语言处理的需求日益迫切,因而对句法 分析的研究也具有重要的实际意义,也取得了不少的研究成果( c 。d m a n n i n g , 1 9 9 9 ;f j e l i n e k ,1 9 9 7 ;r f s i m m o n s ,1 9 6 5 ) 。 对自然语言句法分析的研究将对自然语言处理的各种问题提供帮助,它是 解决自然语言理解的一个重要基础工作。 1 1 2 语义 一直以来,从事自然语言处理研究的学者们都将对句子进行深入的语义分 析作为追求的主要目标。例如,对于句子:“魈短倒7 张三膨一古逅。”和 “震三膨一寺透兹魈捌7 。”,它们的表述形式不同,但有相同的含义,可 以表示成相同的语义形式:“捡( ,魈,跣三彩一舌通) ”。语义分析是指根据 句子的句法结构和句中每个实词的词义推导出能够反映句子意义的某种通用的 形式化表示。多年来,国内外从事自然语言处理研究的学者们一直在探索有效 的自动语义分析方法,经历了许多的挫折,也取得了一定的研究成果。 近年来,一些学者开始研究使用统计方法来获取语义信息。如基于语料库 的词义消歧( w o r ds e n s ed i s a m b i g u a t i o n ,简称w s d ) 技术( n i d e ,e ta l ,1 9 9 8 ; h t n g ,e ta l ,1 9 9 7 ) ,它虽然涉及了语义问题,但这只是在理解单个词的层次 上,而没有对进行整个句子进行理解。对于信息抽取的研究也涉及到了一些语 义理解的问题,然而现有方法大多使用低水平的字符、句法等模式抽取方法来 获取特定的信息( d m b i k e l ,e ta l ,1 9 9 9 ;d f r e i t a g ,1 9 9 8 ;j c c a r d i e ,1 9 9 7 ) 。 随着计算机处理能力的提高和统计机器学习等理论的发展,浅层语义分析 ( s h a l l o ws e m a n t i cp a r s i n g ) 逐渐引起了学者们的重视( g i l d e a , 2 0 0 2 ) ,它可 以看作是一种通用的信息抽取技术,抽取的信息不再限定于某个类别( 如人名、 地名等) ,而是抽取句子中更广泛的语义信息,如:某一动词或者名词的施事、 受事等与领域无关的语义信息。语义角色标注就是浅层语义分析的一种实现方 式,它具有问题定义清晰,便于人工标注和评测等优点,因此目前学者们更多 2 第1 章绪论 的将注意力集中于语义角色标注上。它不对整个句子进行详细的语义分析,而 只是标注句子中某些词或短语作为给定谓词( 动词、名词、形容词等) 的语义 角色,这些词或短语作为此谓词的框架的一部分被赋予一定的语义含义。通过 这些谓词以及对应的语义角色来在表达一定的语义信息,从而为将来进行更复 杂的语义分析提供帮助。 1 2 研究内容 目前,学者们对句法分析和语义角色标注已经进行了大量的研究,并取得 了不错的成绩,但是语义角色标注的效果仍然还不够理想,还有很大的提升空 间。一方面是因为语义研究的复杂性,很难找到理想的方法来解决这个问题。 自然语言有着非常丰富的语法规则和表达方式,。可以非常灵活地进行变化。因 此,自然语言理解的研究一直都是学者们非常梦想解决却又非常困难的问题。 另一方面是因为进行语义角色标注是使用的句法信息仍然不够准确,而句法的 研究也到了一个瓶颈的阶段,要想取得更大的突破并不是一件容易的事情。 要想进行更高层次的语义分析,最终实现计算机能够理解自然语言的理想, 就必须要有更好的语义角色标注方法。从前面的分析可以看出,如果能有更好 的句法解析方法,也可以提高语义角色标注的效果。因此,对句法解析和语义 角色标注进行联合标注的想法在c o n l l2 0 0 8s h a r e dt a s k ( m s u r d e a n u 。e ta l ,2 0 0 8 ) 中被提出来了,作为比赛的内容,吸引了一大批学者来进行这种联合标注模型 的研究。 句法和语义的联合标注要完成的标注任务和传统的句法解析以及语义角色 标注是一致的,只是联合标注需要同时完成这两个任务,并且期望能够取得比 传统方法的简单组合更好的效果。在传统的语义角色标注方法中,通常都会使 用到句法信息。但是传统的句法解析方法鲜有使用语义角色标注信息的。因此 进行联合标注的一个重要研究方向就是如何让语义角色标注的信息反作用于句 法解析过程,从而提高句法解析的效果,最终达到互相促进的作用。本文设计 的两个联合标注系统就是在这个思想的指导下完成的,并且取得了比较不错的 效果。 1 3 国内外研究现状 由于拥有充足的语料资源,句法和语义的研究发展很快。特别是那些国际 评测活动,将很多的学者吸引到一起,在相同的数据基础下,用各种不同的方 法研究同一个问题,极大的加速了对这些问题的研究。在句法、语义、以及句 法语义联合标注方面也举行过多次的国际评测,吸引了大量的学者,产生了很 3 第l 章绪论 多新的研究方法。很多没有参加比赛的研究方法也大都是以这些比赛使用的数 据作为基础的。因此,本节主要通过介绍与句法、语义、以及句法语义联合标 注相关的国际评测来介绍学者们在这些领域的研究现状。 1 3 1 句法依存解析评测 句法的研究比语义的研究起步更早,也举行过很多的国际评测。这里我们 简要介绍一下最近几年举行的两次比较主要的句法评测。 c o n l l2 0 0 6s h a r e dt a s k ,是进行多语种的句法依存。包括英语、德语、日 语、葡萄牙语、荷兰语、汉语等1 0 中语言。一共有1 9 个队伍提交了比赛结果, m c d o n a l d 等人取得了最高的8 0 3 的l a s ( l a b e l e da t t a c h m e n ts c o r e ) ,8 6 6 的 u a c ( u n l a b e l e da t t a c h m e n ts c o r e ) 。 c o n l l2 0 0 7s h a r e dt a s k 对2 0 0 6 年的比赛进行了扩展,加入了对领域不相 关的测试数据,以此来检测算法对语料领域的依赖程度。一共有2 2 支队伍提交 了比赛结果,n i l s s o n 等人取得了最高8 0 3 2 的l a s ,8 6 5 5 的u a c 。 1 3 2 语义角色标注评测 近年来,国际上已经举行过多次语义角色标注的评测,分别为s e n s e v a l 3 , c o n l l ( c o n f e r e n c eo nc o m p u t a t i o n a ll i n g u i s t i c sl e a r n i n g ) 会议在2 0 0 4 年和 2 0 0 5 年主办的c o n l ls h a r e dt a s k ,以及s e m e v a l 2 0 0 7 。其中,s e n s e v a l 3 和 s e m e 2 0 0 7 是使用f r a m e n e t 作为训练和测试语料,而c o n l l 的历次语义角色 标注评测则是以p r o p b a n k 和n o m b a n k 作为语料库。在这些评测中,c o n l l 系 列评测以其参加队伍比较多,影响更为广泛,因而引起了学者们的普遍关注。 c o n l l2 0 0 4s h a r e dt a s k 提供的语料不提供人工标注的句法分析结果,而 是使用自动标注的c h u n k 结果,以及自动标注的命名实体结果等信息。共有世 界各地的l o 家单位参加了这次评测,他们使用了s v m ,w i n n o w ,最大熵, p e r c e p t r o n 等多种统计学习方法。其中来自c o l o r a d ou n i v e r s i t y 的h a c i o g l u 等人 ( 2 0 0 4 ) ,采取以短语为标注单元,语义角色识别和分类分步进行的策略,使 用s v m 算法在不使用全局特征的条件下,获得了最好的标注结果,对测试集标 注得到的肛l 达到了6 9 4 9 。 2 0 0 5 年,c o n l l 继续举行以语义角色标注为主题的s r ls h a r e dt a s k 。比 赛提供了大量的训练语料和完整的句法分析结果。参加此次评测的单位比2 0 0 4 年翻了一番,提交最终结果的单位达到了1 9 个。来自u i u c 的k o o m e n 等人使 用s n o w 分类器,综合多种深层句法分析的输出结果,加上使用整数线性规划 ( i n t e g e rl i n e a rp r o g r a m m i n g ) 的后处理方法,取得了最好的成绩,对测试集标 注得到的肛l 达到了7 9 4 4 。 4 第l 章绪论 1 3 3 联合标注评测 句法语义联合标注的起步比较晚,以前学者们大都将它们作为两个独立的 问题分别进行研究。直到c o n l l2 0 0 8s h a r e dt a s k ( m s u r d e a n ue ta l ,2 0 0 8 ) 将比 赛内容设定为对句法和语义的联合标注,才有大量的学者开始研究联合标注的 问题。到目前为止,这种联合标注的国际评测主要举行过两次,分别是c o n l l 2 0 0 8s h a r dt a s k 和c o n l l2 0 0 9s h a r e dt a s k 。下面我们将分别进行介绍。 c o n l l2 0 0 8s h a r e dt a s k 是对英语进行联合标注,使用的语料资源的句法 部分来自p e n nt r e e b a n k ,语义部分来自p r o p b a n k 和n o m b a n k ,并且都转换为 了基于依存表示的结构。在提交了封闭测试的结果的1 9 个队伍中只有6 个进行 了联合标注,其他的都只是简单地进行了先句法,后语义的流水线式的标注。 而且从整体上来讲,没有使用联合标注的提供的结果比使用联合标注系统的结 果更好。其中,j o h a n s s o n 等人( 2 0 0 8 ) 使用重新排名( r e r a n k ) 的思想进行联 合标注,取得了最好的成绩,但是排在后面的第2 5 名的系统都没有使用联合 标注。究其原因,一方面可能是因为联合标注才刚刚开始兴起,大家还没找到 合适的方法,另一方面则是因为联合标注必然以原有的句法和语义标注方法为 基础,因此联合标注的效果受基础系统的影响很大。 c o n l l2 0 0 9s h a r e dt a s k 与2 0 0 8 年的比赛类似,但是将单语种扩展到多语 种,数据结构也有一些细微的变化。虽然比赛已经结束,但是由于会议还没有 举行,无法知道各个参赛队的具体信息。但是从比赛结果来看,由于比赛任务 较2 0 0 8 年更为繁重,最终只有1 4 个队伍提交了封闭测试的结果,7 个队伍提交 了开放测试的结果。 我们实验室也参加了这两次比赛的封闭测试,并且分别设计了一个基于概 率评估模型的联合标注系统和基于迭代模型的联合标注系统。虽然最终成绩并 不十分理想,但我们的研究侧重于联合标注系统能比基础的流水线系统有更好 的提升,以体现联合标注系统的优势。实际结果也验证了这一点,相比于基于 概率评估模型的联合标注系统,基于迭代的联合标注方法对标注性能有更大的 提升。如果用更好的基础标注方法替换我们系统中使用的基础方法,再加上本 文联合标注方法,是有可能取得更好成绩的。 1 4 本文的主要工作 本文针对传统的句法和语义研究中的简单的流水线式的研究方式进行了细 致的研究和分析,在如何改进现有的研究方法,设计不同于传统流水线方法的 联合标注方法等方面进行了探索,从而取得更好的标注结果。本文的主要工作 和特色如下: 5 第1 章绪论 1 ) 设计并实现了一种基于概率评估模型的联合标注新方法。在生成多组较 优的候选结果基础上,再从全局的角度对这些候选结果进行评估,选出一个全 局较优的标注结果。从而克服了先句法后语义的传统流水线式标注方法中贪心 策略的一些不足。 2 ) 在对基于依存标注的语料进行标注时,修改传统的基于要素的语义角色 标注方法中使用的特征,使之适用于基于依存表示的语义角色标注。 3 ) 设计并实现了一种基于迭代模型的联合标注方法。通过迭代,可以将语 义标注的信息反馈给句法解析模块,甚至反馈给语义角色标注模块,从而修正 标注结果,提升系统的整体标注效果。针对迭代模型的特点,还设计了一种构 建迭代模型的方法。 4 ) 在基于迭代模型的联合标注系统中,针对句法和语义的相关标注,分别 设计了用于迭代标注的特征来扩充原有的特征,以便利用迭代模型反馈回来的 上一次迭代标注信息。这些特征有利于避免句法冲突,语义角色冲突等问题, 提高标注的效果。 1 5 本文组织结构 本文是在现有句法和语义标注工作基础上,基于联合标注的思想,设计并 实现了两种联合标注方法,并分别对进行了详细的实验分析。全文共分为五章, 各章节的内容安排如下: 第一章是绪论。介绍了句法和语义标注在信息技术发展过程中的重要作用, 介绍了进行句法和语义联合标注的背景和意义,以及国内外研究现状。还介绍 了本文在联合标注中的特色工作,以及全文的组织结构。 第二章介绍传统的句法解析和语义标注方法。介绍了进行句法和语义标注 的一些主要语料资源和一些常用机器学习方法。而后介绍了如何使用l r 分析 的方法来进行句法依存解析,如何使用最大熵模型来进行语义角色标注。 第三章介绍基于概率评估模型的联合标注方法。介绍了设计该联合标注方 法的背景,介绍了基于概率评估模型的联合标注方法的核心思想和系统结构, 以及联合标注方法的各个部分。并且通过实验,对系统进行了评估和分析。 第四章介绍了基于迭代标注的联合标注方法。介绍了设计该联合标注方法 的背景,详细介绍基于迭代的联合标注方法的核心思想和系统结构。并设计设 计了多组实验,对系统进行了评估和分析。 第五章结束语对全文的工作进行了概括,给出了本文主要贡献,并指出了 今后进一步的研究方向。 6 第2 章传统的句法语义标注 第2 章传统的句法语义标注 2 。1概述 对于句法结构解析和语义角色标注,学者们已经分别进行了大量的研究, 并且取得了不错的成绩。但是它们作为两个联系比较紧密的问题,却鲜有学者 将它们放在一起共同研究。本文将要提出的两种句法和语义标注的联合标注方 法就是基于这个思想设计出来的。 在介绍本文工作之前,我们首先对现有的方法进行介绍。这些方法也是我 们进一步工作的基础。为此,本章首先将介绍进行句法语义标注常用的语料资 源;然后介绍一个比较经典的基于l r 分析的句法依存解析方法;之后再介绍 一个语义角色标注中常用的基于最大熵模型的语义角色标注方法;最后是对全 章的一个小结。 2 2 语料资源 目前,针对英语的自然语言研究已经比较广泛,英语的标注资源也较为丰 富和成熟,比如:p e n nt r e e b a n k 、f r a m e n e t ( c f b a k e re ta l ,1 9 9 8 ) 、 p r o p b a n k ( m p a l m e re ta l ,2 0 0 5 ) 和n o m b a n k ( a m e y e r se ta l ,2 0 0 4 ) 。 p e n nt r e e b a n k 采用骨架分析的思想,增加了功能标记,突出中心依存关系, 标注句子中主要句法成分的语法功能,同时还包含了大量人工总结的匹配规则。 f r a m e n e t 是u c b e r k e l e y 开发的以框架语义为标注的理论基础对英国国家 语料库进行标注。它描述了每个谓词( 动词、以及部分名词和形容词) 的语义 框架,同时也试图描述这些框架之间的关系。从2 0 0 2 年6 月发布至今,共标注 了约1 3 5 ,0 0 0 句。每个句子都标注了目标谓词及其语义角色、该角色句法层面 的短语类型( 如n p ,v p 等) 以及句法功能( 如主语、宾语等) 。f r a m e n e t 目 前一共包含6 2 5 个框架和8 9 0 0 个词汇单元。图2 1 是f r a m e n e t 中表示身体动作 的一个语义框架以及对一个句子的标注实例。 p r o p b a n k 是宾夕法尼亚大学在p e n nt r e e b a n k 句法分析语料库的基础上标 注的语义角色标注语料库。与f r a m e n e t 不同的是,p r o p b a n k 只对动词进行标 注,这些动词被称作谓语动词。而且,p r o p b a n k 只包含2 0 多个语义角色,比 f r a m e n e t 少很多。其中核心的语义角色为a r 9 0 - 5 六种,a r g o 通常表示动作的 施事,a r g l 通常表示动作的影响,a r 薛5 则根据谓语动词不同会有不同的语义 含义,它们的具体含义通常由p r o p b a n k 中的f r a m e s ( 框架) 文件定义,例如 7 第2 t 传统1 - j p 法语义标注 “b u y ”的一个语义框架如图2 2 所示。它说明当“b u y 一取“o l 号语义框架, 作为“购买,( “p u r c h a s e ”) 的含义时,a r g o 代表购买者( “b u y e r ”) , a r g l 代表购买的东西( “t h i n gb o u g h t ) 等等 图2 1f r a m e n e t 框架中的句子标注示例 r o l e f r a m e b u y 01 p u r c h a s e : r o l e s : a r g o :b u y e r a r g l :t h i n gb o u g h t a r 9 2 :s e l l e r a r 9 3 :p r i c ep a i d a r 9 4 :b e n e f a c t i v e 图2 2f r a m e n e t 中,“b u y ”的语义框架不例 其余的语义角色为附加的起修饰作用的语义角色,使用a r g m ( 有时简写 为a m ) 表示,在这些参数后面,还需要加上附加标记来表示这些参数的语义 类别,比如:a r g m - d i r 表示方向,a r g m - t m p 表示时间。这些修饰角色往往 不包含在谓词的框架定义中。图2 3 是p r o p b a n k 中对一个句子的标注实例。 s 8 n p l s h e a r g o v p i 弋 v b dn pp p lli b o u g h tt h es i l k i nc h i n a v a r g la r g m - l o c 图2 3p r o p b a n k 中对一个句子的标注实例 第2 章传统的句法语义标注 p r o p b a n k 基于p e n nt r e e b a n k 手工标注的句法分析结果进行标注,因而标 注的结果几乎不受句法分析错误的影响,有比较高的准确率较。而且,它几乎 标注了p e n nt r e e b a n k 中的每个动词及其语义角色,覆盖范围更广,可学习性 更强。 一些学者发现,仅仅以动词作为谓词是不够的,一些名词也可以像动词一 样包含一个语义框架。为此,纽约大学的研究人员开发了n o m b a n k ,标注了 p e n nt r e e b a n k 中的名词性的谓词及其语义角色,作为对p r o p b a n k 一个补充。 例如:名词短语“j o h n sr e p l a c e m e n tb e n ”和“b e n sr e p l a c e m e n to fj o h n ”中, 名词“r e p l a c e m e n t 便是谓词,“b e n 是a r 鹳,表示替代者;“j o h n 是 a r g l 表示被替代者。另外n o m b a n k 容许角色出现相互覆盖的情况,这也是与 。p r o p b a n k 不同的。 除英语外,许多其它语言也建立了各自的标注库。在句法树库方面有:台 北中央研究院标注的s i n i c a 树库( 繁体) ,美国宾夕法尼亚大学p e n nc h i n e s e t r e e b a n k ( p e n n c t ) 树库,以及清华大学的汉语树库。这些树库大多采用了短 语结构的标注形式。较著名的依存树库有:捷克语的布拉格树库,英语的 p a r c 树库,以及俄语、意大利语等语言的树库。在语义标注库方面有: s a l s a ( k e r ke ta l ,2 0 0 3 ) 是基于f r a m e n e t 标注体系,大量标注的德语语料 库;p r a g u ed e p e n d e n c yt r e e b a n k ( e h a j i c o v a ,1 9 9 8 ) 项目进行了大量的句法和 语义标注( 捷克语) ,甚至包括指代消解的标注等;宾州大学的c h i n e s e p r o p b a n k ( n x u ea n dm p a l m e r ,2 0 0 3 ) 是基于c h i n e s ep e n nt r e e b a n k ( n x u e e ta l ,2 0 0 5 ) 标注的汉语语义角色标注资源,标注方法参考英语的p r o p b a n k ; c h i n e s en o m b a n k 也是宾州大学研制的,它是将英语的n o m b a n k 的标注框架, 扩展到对中文名词性谓词的语义标注;山西大学构建的c h i n e s ef r a m e n e t ( c f n ) ( l y o ua n dk l i u ,2 0 0 5 ) 是基于框架语义参考英语的f r a m e n e t 构建 的中文语义角色标注语料库。 2 3 机器学习方法 目前句法分析和语义标注问题常常被看作分类的问题来研究。以语义角色 标注为例来说,人们可以逐一判断每一个标注单元是否是句子中某一谓词的语 义角色,然后,可以预测它属于哪种具体的语义角色。 一开始,人们使用基于规则的方法来解决分类问题,但是,这种方法需要 领域专家构筑大规模的知识库,这不仅需要有专业技能的专家,也需要付出大 量劳动。而且,随着知识库的增加,不可避免的会产生一些矛盾和冲突的规则。 为了克服这些缺点,学者们开始使用机器学习的方法来解决分类问题。这种方 9 第2 章传统的句法语义标注 法的优点是不需要有专业技能的专家来书写知识库,只需要有一定专业知识的 人对任意一种语言现象做出适当的分类即可,从而降低了难度,提高了可操作 性。然后,以此为训练数据,使用各种机器学习方法来构造性能优异的分类器。 这种方法通常称为有指导学习( s u p e r v i s e dl e a r n i n g ) 方法。但是这种方法仍然 需要领域专家的协助,虽然它能够较好的解决一些己有大量正确标注语料库的 自然语言处理问题,但是通常来说,获得这种语料库的代价也是非常昂贵的。 为此,人们试图使用未标注的语料库直接进行学习,这种方法被称作无指导学 习( u n s u p e r v i s e dl e a r n i n g ) ( d k l e i n ,2 0 0 5 ) 。或者只借助少量标注语料, 利用大量未标注语料的半指导学习( s e m i s u p e r v i s e dl e a r n i n g ) 。然而,由于没 有或是只有少量的先验知识,而且其理论仍然不甚完备,这两种方法的效果远 不如有指导学习方法。因此,学者们通过艰辛的努力构建了比较丰富的语料库, 从而方便了更广大的学者进行有指导学习方法的研究。 待标注文集 预处理 标注 计算机标注的结果 图2 4 有指导机器学习一般过程 使用机器学习方法的句法分析和语义角色标注遇到的情况也是类似,到目 前为止,大多数工作集中在使用有指导学习方法,也有一些学者试图使用无指 导方法,但是性能与基于有指导的方法仍然相距甚远。 一般情况下,有指导的机器学习方法包括预处理、人工标注、训练和自动 标注等步骤,如图2 4 所示,描述了一个基于文本的有指导机器学习过程。 1 0 第2 章传统的句法语义标注 目前,学者们在进行句法分析和语义角色标注时,主要用到的有指导机器 学习方法有生成模型和判别模型两种。下面将分别进行介绍。 2 3 1生成模型 生成模型是最早用于语义角色标注的分类模型( d g i l d e a ,2 0 0 2 ) ,它假设 观察值( 词、短语、词性等) 是由一系列的隐藏值( 语义角色) 生成的,当使 它们的联合概率最大时,即r = a r gm a x r p ( w ,r ) ,其中w 是词序列,是语义 角色序列,这时可以获得最好的语义角色标注结果,。t h o m p s o 等人( 2 0 0 3 ) 后来又对这种方法进行了完善,使其更具通用性。该模型的最大优点是最终性 能对训练语料的依赖性不强,训练速度快。但是它的性能并不怎么好,主要是 它对数据的描述能力比较差,以及其较强的特征独立性假设。在自然语言处理 中经常采用的n a i v eb a y e s ( r o d u d a ,e ta l ,2 0 0 0 ) 分类方法也是一种联合概率 模型,同样具有上述的这些优缺点。 2 3 2 判别模型 判别模型直接估计分类的最终的优化目标一一条件概率。这一过程通常是 通过迭代的方法估计一些优化的组合系数来完成的。判别模型一般包括:线形 插值、支持向量机、s n o w 、b o o s t i n g 、最大熵、决策树模型等等。下面分别进 行简要介绍: 2 3 2 1 线性插值( l i n e a ri n t e r p o i a t i o n ) g i l d e a ( 2 0 0 2 ) 等人改进了其先前的工作,采用线形插值方法平滑概率模 型,其中的平滑参数通过训练语料统计获得。虽然该方法算法较为简单,其获 得性能也没有后面介绍的支持向量机( s u p p o r t e dv e c t o rm a c h i n e s ,s v m ) 等方 法高,但是作者使用的特征却对后来的语义角色标注的研究带来了比较重要的 影响,被广为借鉴。 2 3 2 2 支持向量机( s u p p o r t e dv e c t o rm a c hin e s 。s v m ) 支持向量机是基于v a p n i k ( 1 9 9 5 ) 提出的统计学习原理构建的一种线形分 类器。之后成功的应用于文本分类( t j o a c h i m s ,1 9 9 8 ) 等自然语言处理领域。 s v m 的基本思想是使构成的超平面分割训练数据能够获得最大的间隔( l a r g e m a r g i n ) 。由于s v m 具有理论完备、应用效果比较好的优点,因此经常被用作 分类器来处理各种自然语言处理问题。比较典型的是p r a d h a n 等人的工作 ( 2 0 0 5 ) ,他们使用s v m 获得了较好的语义角色标注效果。然而,s v m 存在 一些固有的缺点,一方面是其训练效率,另一个方面就是其不能从概率上解释 第2 章传统的句法语义标注 输出结果,也就不能准确地给出各个输出结果的概率分布,这就给一些利用概 率结果的后处理应用带来了麻烦。 2 3 2 3s n o w s n o w ( s p a r s en e t w o r ko fw i n n o w s ) ( d r o t he ta l ,1 9 9 8 ) ,即稀疏 w i n n o w 网络,它改进了原始的w i n n o w 算法,可以高速处理大数据量,多类别 问题。s n o w 的提出者,u i u
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025国家统计局横州调查队招聘编制外工作人员1人考试参考试题及答案解析
- 西藏旅游车辆租用合同协议书范本模板
- 口腔诊所护士聘用劳动合同书
- 2025年长沙市望城区人民医院面向社会招聘编外合同制专业技术人员20人备考练习试题及答案解析
- 2025年宁波北仑区妇幼保健院公开招聘编外用工人员1人备考练习题库及答案解析
- 二建市政真题及答案2025
- 2025年河北张家口怀来县硕博人才引进28名考试参考试题及答案解析
- 2025台州路桥区公开招聘中小学教师40人考试参考试题及答案解析
- 2025年6月英语四级真题及答案
- 2025河南思维自动化设备股份招工程师备考练习题库及答案解析
- 部编版五年级上册语文单元教学计划
- 产品经理绩效管理制度
- 2025年烟台市中考历史试卷真题(含答案)
- 2025四川产业振兴基金投资集团有限公司招聘12人笔试参考题库附带答案详解析集合
- 风湿免疫病患者结核病诊治及预防实践指南(2025版)解读课件
- 膜结构车棚安装合同协议
- 山东省2016年安装定额解释
- 2025-2030中国相变热界面材料行业市场现状供需分析及投资评估规划分析研究报告
- 《中华人民共和国公务员法概述》课件
- 华为公司财务报表分析案例
- 安徽省合肥市2025届高三下学期第二次教学质量检测 英语试题(含解析无听力音频有听力原文)
评论
0/150
提交评论