(计算机应用技术专业论文)基于依存分析的语义角色标注研究.pdf_第1页
(计算机应用技术专业论文)基于依存分析的语义角色标注研究.pdf_第2页
(计算机应用技术专业论文)基于依存分析的语义角色标注研究.pdf_第3页
(计算机应用技术专业论文)基于依存分析的语义角色标注研究.pdf_第4页
(计算机应用技术专业论文)基于依存分析的语义角色标注研究.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

(计算机应用技术专业论文)基于依存分析的语义角色标注研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于依存分析的语义角色标注研究 中文摘要 基于依存分析的语义角色标注研究 中文摘要 语义分析是自然语言理解的根本性问题,也是研究的重大难题。语义角色标注 ( s e m a n t i cr o l el a b e l i n g ,s r l ) 是语义分析的一种简化形式,因具有定义清晰、评测 容易等特点而成为目前的研究热点。目前主流的语义角色标注研究都是基于短语结构 句法分析,并取得一定的成功。自动句法分析性能对基于短语结构句法分析的语义角 色标注性能起着主导作用,是现阶段语义角色标注的瓶颈。而另一方面,基于依存的 句法分析由于其自身的特点日趋成为研究的热点。因此,本文从依存分析出发,实现 了基于依存分析的语义角色标注,研究内容主要包括以下几个方面: 首先,探索了谓词的自动识别和谓词词义识别。由于语义角色标注是以谓词为驱 动,这使得谓词自动标注是语义角色标注面向实际应用的前提。本文实现了基于机器 学习方法的谓词识别和谓词词义识别。实验表明,在c o n l l 2 0 0 8 测试集上谓词识别 和谓词词义消歧的性能f 1 值分别达到了8 9 9 和8 2 1 ,是目前已报告的在相同数 据集上取得的最好性能。 其次,研究了基于依存分析的语义角色标注。将语义角色标注分为以下三步实现: 剪枝、角色识别和角色分类。重点探索和分析了剪枝策略、特征选择对系统性能的影 响。同时,分析了自动依存句法分析和自动谓词标注对语义角色标注性能的影响。使 用c o n l l 2 0 0 8 的数据集,基于自动依存树和自动谓词标注,取得的语义角色标注性 能f 1 值为8 0 9 4 ,与c o n l l 2 0 0 8 评测的最优性能相当。 最后,首次尝试和探索了基于依存分析的中文语义角色标注。在将英文语义角色 标注方法移植于中文时,重点分析了中文的语言特点,探索有利于中文语义角色标注 的特征集,取得了较好的性能。作为基于中文语料的初次探索,为以后的研究打下了 基础。 关键词:语义角色标注,依存分析,最大熵模型,谓词标注 作者:汪红林 指导老师:周国栋王红玲 a b s t r a c tr e s e a r c ho nd e p e n d e n c y - b a s e ds e m a n t i cr o l el a b e l i n g r e s e a r c ho nd e p e n d e n c y - - b a s e ds e m a n t i cr o l el a b e l i n g a b s t r a c t s e m a n t i cp a r s i n gi saf u n d a m e n t a la sw e l la sat o u g hi s s u et on a t u r a ll a n g u a g e u n d e r s t a n d i n g d u e t ot h e d i f f i c u l t y i ns e m a n t i c p a r s i n g ,t h e w e l l - d e f i n e da n d e a s i l y e v a l u a t e ds e m a n t i cr o l el a b e l i n g ( s r l ) m a p san a t u r a ll a n g u a g es e n t e n c ei n t o a f o r m a lr e p r e s e n t a t i o no fi t sm e a n i n ga n dh a sb e e nd r a w i n gm o r ea n dm o r ea t t e n t i o n s m o s t p r e v i o u sw o r ko ns r lf o c u s e do nc o n s t i t u e n t b a s e dp a r s i n gt r e e sa n da c h i e v e dg o o d p e r f o r m a n c e h o w e v e r ,a u t o m a t i cp a r s i n gi sc r u c i a lt ot h ep e r f o r m a n c eo fs r l a n dm a k e s i tab o t t l e n e c kt oc o n s t i t u e n t - b a s e ds r l m e a n w h i l e ,d e p e n d e n c yp a r s i n gr e c e i v e sm o r e a n dm o r ea t t e n t i o nd u et oi t sc h a r a c t e r i s t i c t h e r e f o r e ,t h i sp a p e rf o c u s e s0 1 1 1 r e s e a r c ho n d e p e n d e n c y b a s e ds r lb yu s i n gd e p e n d e n c yp a r s et r e e s t h ec o n t r i b u t i o no ft h i sw o r k i n c l u d e s : f i r s t l y , t h i sp a p e rh a sa d d r e s s e dt h ei s s u eo fp r e d i c a t ei d e n t i f i c a t i o n ( p i ) a n ds e n s e c l a s s i f i c a t i o n ( s c ) s i n c ep r e d o m i n a t e ds r ls y s t e m sa r ep r e d i c a t e d r i v e n ,i tm a k e s p r e d i c a t el a b e l i n ga sa ne s s e n t i a lc o m p o n e n ti nr e a ls r la p p l i c a t i o n s t h i sp a p e rp r o p o s e s am a c h i n el e a r n i n g b a s e dm e t h o dt or e s o l v ep ia n ds c t h ee x p e r i m e n t so nc o n l l 2 0 0 8 t e s td a t a s e ts h o wo u rb e s ts y s t e mc a na c h i e v ef 1s c o r eo f8 9 9 a n d8 2 1 f o rp ia n ds c r e s p e c t i v e l y t oo u rk n o w l e d g e ,i ti st h eb e s ta c h i e v e dp e r f o r m a n c eb yu s i n gt h es a m e d a t a s e t s e c o n d l y , t h i sp a p e rh a sd e v e l o p e dad e p e n d e n c y b a s e ds r ls y s t e m t h es y s t e m a r c h i t e c t u r ei sd i v i d e da st h r e ec o n s e c u t i v ep h r a s e s :p r u n i n g ,a r g u m e n ti d e n t i f i c a t i o na n d a r g u m e n tc l a s s i f i c a t i o n t h i sp a p e rp r o p o s e sa n dc o m p a r e sd i f f e r e n tp r u n i n gs t r a t e g i e s w h i c hp l a ya ni m p o r t a n tr o l ei ns r l i ta l s oe x p l o r e sv a r i o u sf e a t u r e sa n dd e t a i l st h e i r i n f l u e n c eo ns r l m e a n w h i l e ,a u t o m a t i cd e p e n d e n c yp a r s i n ga n dp r e d i c a t el a b e l i n ga r e a l s oa p p l i e di ns r la st od e v e l o paf u l l ya u t o m a t i cs r ls y s t e m t h ee x p e r i m e n t so n i i r e s e a r c ho nd e p e n d e n c y b a s e ds e m a n t i cr o l el a b e l i n ga b s t r a c t c o n l l2 0 0 8d a t a s e ts h o wo u rb e s ts r ls y s t e mc a na c h i e v ef1s c o r eo f8 0 9 4 b yu s i n g a u t o m a t i cd e p e n d e n c yt r e e sa n da u t o m a t i cp r e d i c a t e s l a b e l i n g t h i sp e r f o r m a n c e i s c o m p a r a b l et ot h eb e s to n ea c h i e v e do nc o n l l 2 0 0 8t e s t f i n a l l y , t h i sp a p e rh a sm a d eap r e l i m i n a r yi n v e s t i g a t i o no ft h ed e p e n d e n c y b a s e ds r l f o rc h i n e s e a c c o r d i n gt ot h ec h a r a c t e r i s t i co fc h i n e s el a n g u a g e ,t h i sp a p e re x p l o r e s v a r i o u sc h i n e s e s p e c i f i cf e a t u r e sw h i c hb e n e f i t st h ep e r f o r m a n c e a sas e m i n a lw o r ko n d e p e n d e n c y - b a s e ds r l f o rc h i n e s e ,i te x h i b i t sa ni m p o r t a n tr e f e r e n c ev a l u et ot h ef u t u r e w o r ki nt h i sl i t e r a t u r e k e y w o r d :s e m a n t i cr o l el a b e l i n g ,d e p e n d e n c yp a r s i n g ,m a x i m u me n t r o p ym o d e l , p r e d i c a t el a b e l i n g i i i w r i t t e nb y w a n gh o n g l i n s u p e r v i s e db y z h o ug u o d o n g w a n gh o n g l i n g 苏州大学学位论文独创性声明及使用授权的声明 学位论文独创性声明 本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进 行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含 其他个人或集体已经发表或撰写过的研究成果,也不含为获得苏州大学 或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡 献的个人和集体,均已在文中以明确方式标明。本人承担本声明的法律 责任。 研究生签名: 附一:恤 学位论文使用授权声明 苏州大学、中国科学技术信息研究所、国家图书馆、清华大学论文 合作部、中国社科院文献信息情报中心有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本 人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文 外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分 内容。论文的公布( 包括刊登) 授权苏州大学学位办办理。 基于依存分析的语义角色标注序言 1 1 课题背景和意义 第一章序言 语义分析是自然语言处理的一个关键问题。所谓语义分析,是指根据自然语言句 子的句法结构和句中每个实词的词义推导出能够反映这个句子意义( 即句义) 的某种 形式化表示。即将人类能够理解的自然语言转化为计算机能够理解的形式语言,做到 人与机器的互相沟通。 对句子进行正确的语义分析,一直是从事自然语言理解研究的学者们追求的主要 目标。然而,限于目前的技术水平,经过几十年的发展,还没有太多使用机器学习的 方法来获取详细语义理解知识的研究,深层的语义分析较难做到。 g i l d e a 等【l 】使用统计的方法进行语义角色标注的研究是对语义理解的一种新的探 索。自此,研究者开始关心“浅层语义分析( s h a l l o ws e m a n t i cp a r s i n g ) ”,一种简化 了的语义分析方式。其语言学背景是题元一角色理论【2 】,用谓词一论元结构来表示浅 层语义分析的结果。由于动词对句义的理解起到很关键的作用,因此,以动词为中心 进行浅层语义分析。题元一角色理论认为,动词的论元可以被描述为不同的层次,通 过语义角色将论元分类。动作的施动者是做事情的人或物,受动者是接受某件事物的 人或物。其他的角色,例如工具或者目的,描述了语义关系的其他类别。不同的动词 和与之联系的实体( 人、动物和事物) 的数目是不一样的。 语义角色和语法功能间通常都有一定的关系【3 】,例如施动者通常是主语,但是也 有一些例外。在b i l lr e c e i v e da p a c k a g ef r o mt h em a i l m a n 中,m a i l m a n 是施动者。语义 角色和语法功能之间的关系也会随着语气( 主动语态或被动语态) 改变而改变。主动 语态对应表达一个动词论元的默认方式:施动者是主语,受动者是宾语。在被动语态 中,受动者成为了主语,施动者降格为一个间接角色。在英语中这意味着两个论元的 顺序颠倒了,而且主语用介词短语6 y 短语来表示。 语法学家们努力对动词的论元和附属语进行分类,主要体现在其区别上。主语、, 宾语和直接宾语都是论元,一般来说,论元表达了参与动词活动的中心实体。大多数 论元都用n p 表达,但是它们也可以表达成p p 、v p 或者从旬。附属语是那些与动词 序言基于依存分析的语义角色标注 联系不是很紧密的短语。它们一般是可选的,描述了动作或状态的时间、地点或方式。 由于语言学中题元一角色理论与句法分析的天然紧密联系,使得浅层语义分析对 句法分析也具有很强的依赖。但它不考虑时态信息,例如“他将来北京。”与“他来 北京了。”,虽然时态并不相同,但是浅层语义分析的结果是相同的,同为:“来( 他, 北京) i y o 同时,浅层语义分析也不考虑谓词改变但语义不变的情况,例如“他出生于 1 9 6 9 年3 月18 日。与“他的生日是1 9 6 9 年3 月1 8 日。”,虽然它们的语义相同, 但是浅层语义分析的表示结果并不一样,需要根据具体的应用进行更深入的处理。另 外,浅层语义分析不考虑人、物的指代等情况【4 】。 作为目前的热点研究课题之一,语义角色标注( s e m a n t i cr o l el a b e l i n g ,s r l ) 是浅层语义分析的一种实现方式,该方法并不对整个句子进行详细的语义分析,其实 质是在句子级别进行浅层的语义分析。所谓语义角色标注,就是对于给定句子,对句 中的每个谓词( 动词、名词等) 分析出其在句中的相应语义成分,并作相应的语义标 记,如施事、受事、工具或附加语等。具体而言,即标注句子中的一些成分为给定动 词谓词的语义角色,这些成分作为此谓词框架的一部分被赋予一定的语义含义。它具 有分析任务定义明确,便于评价等优点。 例如,“ 委员会a g 朗,】 明天t m p 将要 通过v 】 此议案p a t i t 】。 其中,“通过”为谓 词,“委员会”、“此议案 和“明天”分别是其施事、受事和发生的时间。这句话也 可以表示成: 明天t m p 委员会a g e n t 】将要【通过v 【此议案p a t i 。n 。】。 明天t m p 此议案p a t l e n d 将要被 委员会a g e n 。】 通过v 】。 此议案p a t i 。n t 明天t m p 将要被 委员会蛳t 】 通过v 】。 这些句子虽然句法形式不同,但是它们的含义是一样的,也就是说谓词“通过 的各个论元角色相同。 进行语义角色标注的基础技术,如词性标注、句法分析、命名实体识别和统计机 器学习等目前已经比较成熟。同时,其在问答系统、信息抽取【5 j 、机器翻译等领域有 着广泛的应用。以问答系统为例,语义角色标注指明某一活动发生的时间、地点等语 义角色,自然的可以对这些类问题进行回答。因此目前语义角色标注引起了越来越多 从事自然语言理解研究和应用的学者们的重视。 2 基于依存分析的语义角色标注 序言 1 2 研究现状 1 2 1 相关研究 目前,对当前论元进行语义角色标注,按标注单元不同,可以分为两种,分别是: 基于短语结构句法分析的s r l ( c o n s t i t u e n t b a s e ds r l ) 和基于依存句法分析的s r l ( d e p e n d e n c y b a s e ds r l ) ,前者已经盛行多年( 自从g i l d e a 等【i 】【_ 7 】) ,并且取得了不 错的性能,然而随着研究的深入,此方法遇到瓶颈( 例如:严重依赖于句法分析性能, 难发掘有效特征等) ,很难有新的突破。此后,基于依存分析的s r l 开始兴起,它采 用了全新的思路,也获得了和基于短语结构句法分析的s r l 相当的性能,并且还具 有很大提升空间,具体细节见第4 章。 无论采用何种标注方式,它们的研究方法分为两种:基于特征向量的方法和基于 核函数的方法。从目前而言,基于特征向量的方法,取得了较大的成功,速度和性能 都大大优于基于核函数的方法,基于特征向量的方法主要集中于特征工程和机器学习 模型的研究,所以本文采用了基于特征向量的方法。 对于基于短语结构句法分析的s r l 的代表性工作包括:g i l d e a 等【1 】【7 1 、s u r d e a n u 等【5 】【引、x u e 等【9 1 、p r a d h a n 等1 0 1 1 1 】【l2 1 、刘挺等【1 3 】【1 4 1 。 g i l d e a 等【1 】首次基于纯概率的统计模型实现了自动语义角色标注。他们使用基于 语义格的后退相对频率模型,从单一句法树中抽取各种语言学特征,在f r a m e n e t 语料 库上进行了实验来识别和分类给定谓词的语义角色。该文首次提出了使用机器学习的 方法进行语义角色标注,并提出了目前s r l 系统最常用的七个基本特征,包括:谓词、 句法类型、子类框架、路径、位置、语态和中心词等。后来的研究中都把这7 个基本 特征作为标准特征集用来形成基础系统,并扩展一些新特征以提高系统性能。在此基 础上,g i l d e a 等【7 】进一步在p r o p b a n k 语料库上做了同样的试验,并提出语义角色标注 需要句法分析的必要性。基于手工标注句法树,f 1 值达到了8 7 。 s u r d e a n u 5 】【8 】基于完全句法分析在p r o p b a n k 语料库上开始加入内容词、命名实体、 中心词词性和内容词词性等新特征使用感应决策树学习进行实验,取得了相对于 g i l d e a 等【l 】【7 1 ( 手工句法分析上的精确率8 2 8 ) 较高的性能( 手工句法分析上的精 确率8 3 7 4 ) ,并表明了高性能的语义角色标注系统对信息抽取的贡献。 3 序言基于依存分析的语义角色标注 x u e 等9 1 在基于单一句法树的基础上,详细验证了g i l d e a 等【1 】【7 】中各个基本特征 在s r l 各阶段的贡献,并提出了新的特征:句法框架、词汇成分类型、词汇中心词、 谓词与当前句法间的距离等,还有组合特征( 谓词+ 句法类型、谓词+ 中心词、语态+ 位置等) ,最后使用最大熵模型进行实验。在p r o p b a n k 语料库上的实验结果表明采用 新的特征后系统性能有了显著提高,基于手工标注句法树,对1 9 个角色进行分类, 已知论元上的精确率为9 2 9 2 ,包括n u l l 的分类f 1 为8 8 5 1 。该文提出了新的特 征并详细分析了各个特征的作用,表明特征还有很大的开发空间,识别和分类这样不 同的任务的性能提高需要不同的特征集,同时提出了一个有效的剪枝算法。这些观点 都被后来的研究广泛接受。 p r a d h a n 等【1 0 】【l l 】【1 2 】使用s v m 分类器,除了基本特征,选取了更多的特征( 动词聚 类、部分路径、谓词词意信息、介词短语的中心词、当前句法成分的首词和末词及其 词性、当前句法成分的父亲兄弟结点的句法类型和中心词及中心词词性、时间提示词、 命名实体、中心词词性、位置次序、成分树的距离、成分相对特征、和动态类上下文 等) 取得了很好的性能。其识别阶段在训练语料上进行二元训练并预测,进而删除高 概率为n u l l 的句法成分。保留下来的句法成分作为分类阶段的输入。在p r o p b a n k 语料库上,基于手工句法分析的结果是p r f i ( ) :8 9 8 5 8 7 ,基于c h a r n i a k 自动 句法分析的结果是p r f 1 ( ) :8 4 7 5 7 9 。他们对语义角色标注的深入研究极大的推 动了语义角色标注研究的发展。 刘挺等【4 】【1 3 】【1 4 】选取了较多的特征( 句法成分前后第一二个词,谓词词性,谓词后 缀、较多的组合特征) 使用最大熵分类器把识别和分类一步做训练,再做后处理的方 法,在基于p r o p b a n k 语料库的单一自动句法分析上报告了取得的最好结果 ( p r j f l ( ) :8 1 3 0 7 3 3 7 7 7 1 3 ) 。他们对语义角色标注的研究在国内是较成功的。 和基于短语结构句法分析的s r l 相比,基于依存分析的s r l 系统相对较少,h a c i o g l u 掣1 5 】首次采用基于依存分析的方法来实现语义角色标注,所使用的依存树是由句法树转 化而来,提出了一种比较有效的剪枝算法,采用s v m 分类器实现了角色的分类,提出了 1 2 个特征( 依存关系,位置,中心词,依赖词等) ,并且表明谓词相关信息的重组对性能 影响很大。最终在基于手工依存分析语料库d e p b a n k l 和c o n l l 2 0 0 4 s h a r e dt a s k 测试语料 1 l a c i o g l u 等自己整理的依存语料库,也是由宾州树库转换而来 4 基于依存分析的语义角色标注序言 库上的f 1 值分别为8 4 6 7 9 8 。虽然使用的信息比基于短语结构句法分析s r l 少,但 也取得了相似结果。 p r a d h a l l 等【16 】使用基于规则的依存分析结果进行s r l 实验,取得的结果比使用最新的 基于短语结构句法分析的性能要差很多,在w s js e c t i o n 2 3 2 上的f 1 值从7 8 4 下降到了 4 7 2 。类似的,s w a n s o n 掣r 7 】报告:从基于规则的依存分析中抽取的句法树特征不如从 短语结构句法分析上抽取的相同特征表现稳定。 而最新的基于依存分析的s r l 研究出现在c o n l l 2 0 0 8 评测中,代表作是j o h a n s s o n 等【1 8 】【1 9 】的工作。在j o h a n s s o n 等【1 9 】一文中,详细比较了基于短语结构句法分析和基于 依存结构句法分析的s r l 在f m m e n e t 语料库上的性能,结果表明使用现代基于统计 的依存句法分析,两者的性能几乎是相当的。文章还指出早期基于依存关系s r l 的 性能较差的原因是依存句法分析的准确率较低。他们的实验还表明,依存关系表示中 的语法功能信息影响了语义角色分类器的训练;而使用依存关系训练得到的角色分类 器对因跨领域而引起的词汇问题更具复原力。在j o h a n s s o n 等【4 6 l 中详细分析比较了两 种s r l 系统在p r o p b a n k 语料上的性能。这篇文章的贡献在于分别使用基于部分短语 的( s e g m e n t - b a s e d ) 和基于依存关系( d e p e n d e n c y - b a s e d ) 的衡量标准来公平的比较代 表当前最好性能的两类s r l 系统的性能。他们实现的基于依存句法的s r l 系统f l 值分别为7 7 9 7 ( w s j + b r o w n ) 和8 4 2 9 ( c 心儿l 2 0 0 8 测试集) 。实验结果表明,基 于依存分析的s r l 系统更偏向于查找角色头而不是角色的文字片断。这样的特性究 竟是优点还是缺点取决于具体的应用,如对于使用模板填充类的系统可能需要完整的 角色;而对于使用语义角色标注表示的文本分类则可能仅需要角色的头。 车万翔等【2 0 】在已有的自动依存分析器m s t p a r s e r 3 的基础上,为了改善依存分析性能 增加或改变了特征,比如增加的特征有:依存树上两节点所跨越的节点数目以及节点词性, 改变的特征有:单词词根( m c d o n a l d ( 2 0 0 6 ) 等使用的是单词的前缀) 。然后对谓词也进 行了自动标注,最终在c o n l l 2 0 0 8s h a r e dt a s kw s j 测试集4 上获得f l 值为8 0 。这是国 内获得最好的结果。 相比于英文的语义角色标注研究,中文s r l 的研究相对少很多,主要包括:s u n 2 p r o p b a n k 语料库的第2 3 部分 3m c d o n a l d ( 2 0 0 6 ) 等研究出来的依存分析器 4 除特殊说明外,本文后续简称的c o n l l 2 0 0 8 语料库都是指c o n l l - 2 0 0 8s h a r e dt a s kw s j 测试集 5 序言基于依存分析的语义角色标注 等【2 1 1 、x u e 等【2 2 】、刘怀军等【2 3 1 。 s u n 等在p r a d h a n 等的工作基础上,选择了1 0 个中文谓词和部分c h i n e s e p r o p b a n k 的数据进行实验。他们认为在中文语义角色标注中小的语料库就能取得较好 的性能;英文语义角色标注中使用的特征能较好的应用到中文;中文的语义角色标注 要比英文的语义角色标注容易些。 x u e 等【2 2 】比较和分析了中文和英文语义角色标注的性能以及影响因素,在c h i n e s e p r o p b a n k 上的实验表明,基于手工标注句法树,f 1 值可达9 1 3 ;基于单一自动标注 句法树,f 1 值大幅降为6 1 3 。该文通过实验发现,对于手工分析的句法树,实验结 果基本与英文的结果相当,甚至稍微高出一点;但对于自动产生的句法树,则结果要 比英文的差得多。 刘怀军等2 3 1 针对中文的特点,在英文语义角色标注特征的基础上,提出了一些有 效的新特征和组合特征。例如,句法成分后一个词、谓语动词和短语类型的组合、谓 语动词类别信息和路径的组合等,并在c h i n e s ep r o p b a n k 语料库上,基于手工标注句 法树,f 1 值同样达到了9 1 3 1 。 1 - 2 2 评价方法 语义角色标注通常采用信息检索中使用的f s c o r e 来评价系统的性能,其定义为: f s c o r e :2 p r e c i s i o n * r e c a l l p r e c i s i o n - i - r e c a l l 其中p r e c i s i o n 是准确率,r e c a l l 是召回率,其定义分别是: 。 正确标注为语义角色的个数 。、,正确标注为语义角色的个数 p e c l 8 1 0 n2 孑手j 匡i 喜亏i 霸员i 罗i 蔷吾j i 二孬i 歪耐k e c a 上1 2 习面i j 毳爵i i 吾 芦 吾:i _ 孬i 毛互两 在角色识别阶段,通常采用信息检索中的准确率( p r e c i s i o n ) 、召回率( r e c a l l ) 和f s c o r e 来评价系统的性能。而在角色分类阶段,由于此时输入的都是正确的承担 语义角色的论元,需要做的仅是将其划分成不同的类别,仅使用分类的精确率 ( a c c u r a c y ) 就可以衡量分类的效果。最终整体考虑识别和分类的结果时使用整体的 准确率、召回率和f s c o r e 。 6 基于依存分析的语义角色标注 序言 1 2 3 国际评测 对于语义角色标注,国际自然语言处理领域曾经举行过多次评测,分别为 s e n s e v a l 3 以及c o n l l ( c o n f e r e n c eo nc o m p u t a t i o n a ll i n g u i s t i c sl e a r n i n g ) 会议主办的 s r l ( s e m a n t i cr o l el a b e l i n g ) s h a r e dt a s k2 0 0 4 以及2 0 0 5 。其中s e n s e v a l 3 是以 f r a m e n e t 为训练和测试语料。c o n l ls h a r e dt a s k 则是以p r o p b a n k 为基准语料库。 这些国际评测会议的召开大大推动了语义角色标注的发展。 c o n l ls h a r e dt a s k2 0 0 4 【2 4 】【2 5 】主要基于自动浅层句法分析,共有1 0 个队参与评 测。来自c o l o r a d ou n i v e r s i t y 的h a c i o g l u 等2 6 1 ,采取以短语为标注单元,语义角色 识别和分类分步进行的策略,使用s v m 分类器在不使用全局特征的条件下,获得了 最好的标注结果,测试集合的f s c o r e 达到了6 9 4 9 。 c o n l ls h a r e dt a s k2 0 0 5 t 2 7 h 3 4 1 主要基于自动深层句法分析,共有1 9 个队参与了 评测。来自u i u c 的p u n y a k a n o k 等【3 2 】使用s n o w 分类器,综合多种深层句法分析 的输出结果,加上使用整数线性规划( i n t e g e rl i n e a rp r o g r a m m i n g ) 的后处理方法, 取得了最好的成绩,测试集合的f s c o r e 达到了7 9 4 4 。这也代表了当今最好的语义 角色标注效果。 在经过了c o n l l 2 0 0 6 t 3 5 】和c o n l l 2 0 0 7 3 6 】两年的基于依存关系的句法分析的评 测会议后,c o n l l 2 0 0 8 3 7 】 【5 0 1 将p r o p b a n k 和n o m b a n k 语料联合起来,将基于依存 关系的句法分析和语义角色标注一起进行评测。共有2 0 支代表队参加了封闭测试, n u g u e s 等【1 9 】获得了最佳成绩,在c o n l l 一2 0 0 8s h a r e dt a s kw s j 语料上f 1 达到了 8 5 9 5 ,比c o n l l 2 0 0 5s h a r e dt a s k 的最佳成绩( f 1 :7 9 4 4 ) 高了近六个百分点, 说明依存分析s r l 获得了成功。 而目前正在进行的c o n l l 2 0 0 9s h a r e dt a s k 5 ,主题仍然是依存句法分析与语义 角色标注的联合学习,但将语言扩充为多种,包括英语、中文、瑞典语、日语、德语 等。 5 h t t p :w w w c n t s u a a c b e c o n l l 2 0 0 9 7 序言基于依存分析的语义角色标注 1 3 研究内容 本文旨在对c o n l l 2 0 0 8s h a r e dt a s k 基于依存句法分析的语义角色标注作进 一步探索研究,以期提高语义角色标注的性能。采用c o n l l 2 0 0 8s h a r e dt a s k 提供的 修改完善后的语料库,机器学习方法使用了最大熵模型,标注单元为依存分析树上的 依存关系( 非终端结点) ,标注过程实现了剪枝、识别、分类和后处理的步骤。课题 主要研究探讨了以下几个问题: 1 ) 基于依存分析的原型系统的实验,初步探讨标注过程中剪枝、识别、分类和 后处理各步骤的作用,七个基本特征对系统性能的影响。 2 ) 基于贪心策略的特征组合对语义角色标注系统性能的影响。 3 ) 谓词标注算法的探讨与优化。 4 ) s r l 系统在中文语料库上的实现与分析。 1 4 论文结构 第一章序言 阐述了论文的研究背景及其意义、相关的研究现状、评价方法、国际评测和论文 的主要工作。 第二章对基于依存分析的语义角色标注中常见概念介绍 首先,介绍了当前语义角色标注常用的语料库,包括f r a m e n e t 、p r o p b a n k 和 n o r n b a n k 。其中主要介绍了本文使用的语料库p r o p b a n k 。其次,介绍了当前语义角 色标注系统采用的机器学习方法,主要介绍了本文实验采用的最大熵模型和支持向量 机的基础理论知识。最后介绍了依存语法的定义,并给出了实例,接着阐述了概率分 析模型,和寻找最大概率的依存分析树的方法,并且介绍了几种常见的依存分析工具, 主要有m s t p a r s e r 和m a l t p a r s e r 。 第三章谓词的自动标注 采用机器学习的方法,对句子中的谓词进行自动识别,并对其词义进行识别,为 第四章的s r l 系统提供前提条件。 第四章语义角色标注系统 8 基于依存分析的语义角色标注序言 首先,介绍了语义角色标注系统的基础,包括标注单元,标注步骤和基于特征向 量的统计学习。介绍了本文实验的基础系统中七个基本特征模板的实现与完善,及基 础系统在c o n l l 2 0 0 8s h a r e dt a s k 评测语料上的结果。 其次,对语义角色标注中特征组合做了研究,介绍了语义角色标注系统中比较重 要的特征模板的选取。主要有四类特征模板,包括与谓词相关特征、与当前分析的依 存关系相关的特征、谓词与当前分析依存关系的特征和以上特征的某些组合。并采用 基于贪心策略的特征选择方法,选取了部分优化特征,分别进行了手工谓词标注、自 动谓词谓词标注、手工依存分析、自动依存分析交叉实验。 最后,实验结果给出了各个优化特征的贡献度,详细分析了不同依存分析结果对 系统性能的影响,训练语料集变化对系统性能的影响。不仅将取得的最好系统性能与 同类系统进行比较,还与基于短语结构的s r l 作了详细的比较分析。 第五章基于依存分析的中文语义角色标注 首先利用依存分析器产生了中文依存语料库,然后经过谓词识别和词义识别,接 着对语料库进行预处理,采用了和英文s r l 相似的剪枝算法,并针对中文特点,开 发了一些有利于中文的特征,最终取得了不错的效果,为后来的研究做了铺垫。 第六章总结与展望 总结了本文所取得的研究成果,指出了存在的不足之处,并对今后的研究提出了 意见。 9 相关介绍基于依存分析的语义角色标注 第二章相关介绍 语义角色标注是一项复杂的任务,涉及的知识很广泛,有语言学,数学,计算机 学等领域的很多专业知识,如:概率统计,计算语言学,信息熵,机器学习等,本章 将介绍一些关键的专业知识,为后续章节的研究奠定基础。 2 1 语料库介绍 2 1 1 语料库概述 与其他基于统计的自然语言处理技术一样,进行语义角色标注,需要规模大、质 量高的语料资源的支持。目前,英语较为知名的浅层语义分析资源为f r a m e n e t 【5 1 1 、 p r o p b a n k 5 2 】和n o m b a n k 【5 3 】。 坐c l a p p e d h i sh a n d s f o rh a p p y -npnppp - e x t - o b j - - c o m p 图2 1f r a m e n e t 框架及句子的角色标注 f r a m e n e t 由u c b e r k e l e y 开发,它以框架语义为标注的理论基础,对英国国家 语料库( b n c ) 进行部分标注。框架语义学的中心思想是:词的意义的描述必须跟语 义框架相联系。框架是信仰、实践、制度、想象等概念结构或概念模式的图式表示, 是言语社团中人们相互交流的基础。他们把框架网项目的任务设定为【5 4 】: 1 ) 描述给定词项所隶属的概念结构,即框架; 2 ) 从语料库中抽取包含某个词的句子;并按照该词的义项选择句子加以示例; 3 ) 对所选的句子进行框架元素标注; 4 ) 汇总框架元素标注结果,显示每个词项在组合上的可能性,即“配价描述”。 1 0 基于依存分析的语义角色标注相关介绍 f r a m e n e t 试图描述一个词汇单元( 动词和部分名词以及形容词) 的框架,同时 也试图描述这些框架之间的关系。从2 0 0 2 年6 月发布开始到现在共标注了4 9 0 0 0 句。 其中,每个句子都标注了目标谓词( 包括动词、部分名词和形容词) 和其语义角色、 该角色句法层面的短语类型( 如n p ,v p 等) 以及句法功能( 如主语、宾语等) 。f r a m e n e t 现包含1 4 6 2 个谓词。图2 1 是f r a m e n e t 中表示身体动作的语义框架以及其对一个句 子的标注实例。f r a m e n e t 更像是一部语义词典。 p r o p b a n k 是u p e n n 在p e n nt r e e b a n k 句法分析的基础上,标注的浅层语义信息。 与f r a m e n e t 不同的是,p r o p b a n k 只对实义动词( 非系动词) 进行标注,相应的被称 作目标动词。而且只包含1 9 个语义角色,相同的语义角色由于目标动词不同会有不 同的语义含义。其中,核心的语义角色为a r g oa r 9 5 共6 种:a r g o 通常表示动作的 施事;a r g l 通常表示动作的影响等;其余的语义角色为附加语义角色,使用a r g m 表示,如a r g m - l o c 表示地点,a r g m - t m p 表示时间等。与f r a m e n e t 相比,p r o p b a n k 基于p e n nt r e e b a n k 手工标注的句法分析结果,因此标注的结果几乎不受句法分析错 误的影响,准确率较高;而且它几乎对p e n nt r e e b a n k 中的每个动词及其语义角色进 行了标注,因此覆盖范围更广,可学习性更强。更详细的p r o p b a n k 将在2 1 2 介绍。 p r o p b a n k 标注的谓词只是动词,而n o m b a n k 除了标注动词谓词外还标注了名词 谓词,论元的类别和表示同p r o p b a n k 是一样的。例如:名词短语“j o h n sr e p l a c e m e n t b e n ”和“b e n sr e p l a c e m e n to f j o h n ”中,名词r e p l a c e m e n t 承担谓词;b e n 是a r g o , 表示替代者;j o h n 是a r g l ,表示被替代者。 除英语外,许多其它语言也建立了各自的语义角色标注库,例如:s a l s a 是德 语版的f r a m e n e t ;p r a g u ed e p e n d e n c yt r e e b a n k 项目进行了大量的句法和语义标注( 捷 克语) ,甚至包括指代消解的标注等;c h i n e s ep r o p b a n k 5 5 】以及c h i n e s en o m b a n k 分 别是u p e n n 基于c h i n e s ep e n nt r e e b a n k 标注的,和p r o p b a n k 以及n o m b a n k 对应 的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论