(计算机应用技术专业论文)语义角色标注的集成策略的研究.pdf_第1页
(计算机应用技术专业论文)语义角色标注的集成策略的研究.pdf_第2页
(计算机应用技术专业论文)语义角色标注的集成策略的研究.pdf_第3页
(计算机应用技术专业论文)语义角色标注的集成策略的研究.pdf_第4页
(计算机应用技术专业论文)语义角色标注的集成策略的研究.pdf_第5页
已阅读5页,还剩68页未读 继续免费阅读

(计算机应用技术专业论文)语义角色标注的集成策略的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

学位论文数据集 中图分类号 t p 3 1 1 5 学科分类号 5 2 0 4 0 论文编号 1 0 0 1 0 2 0 1 10 7 6 0 密级公开 学位授予单位代码 1 0 0 1 0 学位授予单位名称北京化工大学 作者姓名郑培祥 学号 2 0 0 8 0 0 0 7 6 0 获学位专业名称计算机应用技术获学位专业代码 0 8 1 2 0 3 课题来源自然科学基金项目 研究方向自然语言处理 论文题目语义角色标注的集成策略的研究 关键词浅层语义角色标注;自然语言理解;c r f ;句法分析 论文答辩日期 2 0 1 1 5 2 6宰论文类型 基础研究 学位论文评阅及答辩委员会情况 姓名职称工作单位学科专长 指导教师赵瑞莲教授北京化工大学软件测试 评阅人1山岚教授北京化工大学网络信息获取技术 过程工业监控,编译技 评阅人2彭四伟副教授北京化工大学 术应用,并行计算 评阅人3 评阅人4 评阅人5 分布式系统,网格计算, 答辩委员会主席赵英教授北京化工大学 计算机网络 答辩委员1山岚教授北京化工大学网络信息获取技术 过程工业监控,编译技 答辩委员2彭四伟副教授北京化工大学 术应用,并行计算 智能信息处理,嵌入式 答辩委员3张杰副教授 北京化工大学 系统 答辩委员4 聂伟副教授北京化工大学通讯与信号处理 答辩委员5 压:一 四 论文类型:1 基础研究 2 应用研究3 开发研究4 其它 中图分类号在中国图书资料分类法查询。 学科分类号在中华人民共和国国家标准( g b t13 7 4 5 9 ) 学科分类与代码中 查询。 论文编号由单位代码和年份及学号的后四位组成。 摘要 语义角色标注的集成策略的研究 摘要 自然语言理解的目的之一就是让计算机能够理解人类的语言,能够和 人类进行无障碍的沟通。其中,语义角色标注的作为一种浅层的语义分析, 目标是分析句子的论旨结构,即在给定动词的基础上,识别出与该动词相 搭配的论元,并对识别出的论元进行语义分类。在很多高层的自然语言处 理的任务上,例如问答系统,信息抽取等,语义角色标注都得到了成功的 应用。 本文使用条件随机场作为机器学习的模型,针对原有句法分析的优 点和缺点,提出了一种集成策略。该策略在精确度和召回率较高、提供信 息相对简单的浅层句法分析的基础上,加入精确度、召回率较低但是提供 信息比较丰富的完全句法分析的信息,集成了两种句法分析的优点。同时 本文设计实现了浅层句法分析、语义角色标注和使用改进策略后的语义角 色标注三个子系统。 通过对子系统的实验结果对比分析后发现,语义角色标注系统在使用 了集成策略后,无论在自动的句法分析的基础上还是在完全正确的句法分 析的基础上,系统的性能都能取得明显的提高。尤其是在完全正确的句法 分析上,f 值提高1 0 以上,大大提高了系统的潜力。在句法分析性能进 一步提高的情况下,使用集成策略的新系统的性能提升幅度相对与传统的 系统会更大。 北京化丁人学硕上学位论文 关键词:语义角色标注;组块分析;随机梯度下降条件随机场;句法分 析; a b s t r a c t r e s e a r c h o ni n t e g r a t i o ns t r a t e g y f o r c h i n e s es e m a n t i cr o l el a b e l i n g a b s t r a c t am a i np u 印o s eo fn a t u r a l l a n g u a g eu n d e r s t a n d i n gi st h a tc o m p u t e r sc a n u n d e r s t a n dh u m a nl a n g u a g e sa n dc o m m u n i c a t ew i t hh u m a nb e i n g sw i t h o u t t r o u b l e a sas h a l l o ws e m a n t i ca n a l y s i sa i m i n ga ta n a l y z i n gt h es e m a n t i c s t m c m r e ,s e m a n t i cr o l el a b e l i n gr e c o g n i z e sa n dc l a s s i f i e st h ea 略u m e n t so fa g i v e nv e r b i th a sal o to fs u c c e s s 如1a c h i e v e m e n t si nh i g h l e v e lt a s k so f n a t u r a ll a n g u a g ep r o c e s s i n g ,s u c ha sq u e s t i o na n da n s w e rs y s t e m ,i n f o n n a t i o n e x t r a c t i o na n de t c t h i sp 印e rp r o p o s e sa ni n t e g r a t e ds t r a t e g yb a s e do nt h es t l l d yo ft h e o r i g i n a la d v a n t a g e sa n dd i s a d v a n t a g e so fs y l l t a c i t ca n a l y s i s c r f sa r ec h o s e n a st h em o d e lo fm a c h i n el e a m i n g s h a n o wp a r s i n gh a sh i g hp r e c i s i o na n d r e c a l lr a t ew h i l ep r o v i d i n gr e l a t i v e l ys i m p l ei n f o m a t i o nf o rs e m a t i cr o l e l a b e l i n g o u rs t r a t e g yp r o m o t e ss h a l l o wp a r s i n gb ya d d i n gm o r ef e a t u r e s e x t r a c t e d 矗o mf u up a r s i n gw h i c hh a sl o w e rp r e c i s i o na n dr e c a l lr a t eb u tc a n p r o v i d er i c hi n f o r m a t i o nf o rs e m a t i cr o l el a b e l i n g a n dt h et h r e es y s t e m s w h i c ha r es h a l l o wp a r s i n g ,s e m a n t i cr 0 1 el a b e l i n ga n dt h ei m p r o v e ds e m a n t i c r o l e1 a b e l i n g p r o p o s e di nt h i sp a p e r a r ei m p l e m e n t e d f r o mt h er e s u l t sac o n c l u s i o nc o u l db ed r a w nt h a tt h ep e r f o m a n c eo fa 北京化t 人学硕上学位论文 s e m a n t i cr o l e l a b e l i n gs y s t e mh a sg a i n e dag r e a tp r o m o t i o nb yu s i n gt h e i n t e g r a t e ds t r a t e g y ,w h e t h e rb a s e do na u t o m a t i cp a r s i n go rg o l d e np a r s i n g p a ,n i c u l a r l y ,t h efs c o r e 撕s e sb yo v e r1o u n d e rt h ec o n d i t i o no fg o l d e n p a r s i n g t h ei m p r o v e ds y s t e mu s i n gt h ei n t e g r a t e d s t r a t e g yc a no b t a i na b i g g e rr i s ei np e r f i o m a n c ew h e ns y n t a c t i cp a r s i n gi sd e v e l o p e d 1 ( e yw o i m s : s e m a n t i cr o l el a b e l i n g ;c h u n ka n a l y s i s ;s g d c r f ;s y n t a c t i c a n a l y s i s i v 目录 目录 第一章绪论。1 1 1 背景及意义1 1 1 1 课题背景。l 1 1 2 课题意义。4 1 2 本文的工作5 1 2 1 本文的工作。5 1 2 2 本文的组织结构6 第二章浅层语义角色标注的研究现状。7 2 1语义角色标注的基本概念7 2 1 1 语义角色标注的定义7 2 1 2 语义角色标注的语料7 2 2语义角色标注的研究现状1 0 2 2 1 基于短语句法分析的语义角色标注的基本方法l o 2 2 2 基于依存句法分析的语义角色标注的基本方法1 2 2 2 3 基于浅层句法分析的语义角色标注的基本方法1 3 2 3语义角色标注的评测方法1 4 2 4语义角色标注的国际评测1 5 第三章浅层句法分析系统1 7 3 1 系统背景。1 7 3 2 系统概述。2 l 3 3系统详细设计。2 3 3 3 1 序列标注模型2 3 3 3 2 语料以及特征2 3 3 4 实验结果与分析2 5 3 5 本章小结2 6 北京化t 大学硕 :学位论文 第四章基于浅层句法分析的浅层语义角色标注2 9 4 1 引言2 9 4 2 的浅层语义角色标注3 0 4 3 1 系统的结构3 0 4 3 2 问题的定义3 2 4 3 实验细节3 4 4 3 1 系统结构3 4 4 3 2 特征的选择3 6 4 3 3 实验结果以及结果分析3 7 4 4小结3 9 第五章一种浅层语义角色标注的集成策略4 1 5 1 引言4 1 5 2 浅层语义角色标注集成策略4 2 5 2 1 集成策略4 2 5 2 2 句法分析器4 3 5 2 3 特征系统4 4 5 3 实验结果及分析4 4 5 3 1 实验结果4 4 5 3 2 实验分析j 4 6 5 4 本章小结4 8 第六章结束语4 9 6 1 本文的主要工作4 9 6 2 进一步的工作4 9 参考文献。5 1 致 射。5 5 攻读学位期间发表的学术论文5 7 作者和导师简介。5 9 2 c o n t e n t s c o n t e n t s c h a p t e r li n t r o d u c t i o n 1 1 1b a c k g r o u n da n ds i 弘i f i c a n c e 1 1 1 1b a c k 肿u n d 1 1 1 2s i 霉皿i f i c a n c e 4 1 2p r i m a i vw 6 f ka n ds t m c t l l r e 5 1 2 1p r i m a r vw b r k 5 1 2 2s t l m c t l 】r e 6 c h a p t e r2 t h er e s e a r c ho nt h es h e m a n t i cr o l el a b e l i n g7 2 1c o n c 印to fs h e m a l l l t i cr o l el a b e l i n g _ 7 2 1 1d e f i n a t i o no f s e m a n t i cr 0 1 el a b e l i n g 7 2 1 2c o 印u so fs e m a n t i cr o l el a b e l i n g 7 2 2r e l a t e dw b r k 1o 2 2 1f u l lp a r s i n gb a s e ds e m a n t i cr o l el a b e l i n g 1 0 2 2 2d 印e i l d e i l c yp a r s i n gb a s e ds e m a n t i cr o l el a b e l i n g 1 2 2 2 3s h a l l o wp a r s i n gb a s e ds e m a n t i cr o l el 2 l b e l i n g 1 3 2 3e v a l u a t i o no fs e m a n t i cr o l el a b e l i n g1 4 2 4s h a r et a s ko fs e i i l a n t i cr o l el a b e l i n g l5 c h a p t e r3s h a l l o wp a r s i n g 1 7 3 1b a c k 田u n d 1 7 3 2s v s t e mi n t r o d u c t i o n 2 1 3 3d e t a i l e dd e s i 即2 3 3 3 1m o d u l eo f l l l es v s t e n l 2 3 3 3 2c o r p u sa n df e a t u r e 2 3 3 4e x p e r i n l e n t a lr e s u l t 2 5 3 5c o n c l u s i o n2 6 3 北京化r t 大学硕:卜学位论文 c h a p t e r 4s h a l l o wp a r s i n gb a s e ds e m a n t i cr o l el a b e i i n g 2 8 4 11 1 1 t r o d u c t i o n 2 9 4 2r e l a t e dw b r l ( 3 0 4 3 1s v s t e ma r c h i t e c t l l r e 3 0 4 3 2t a s kd e f i n a t i o n 3 2 4 3d e t a i l e de x p e r i m e n t 3 4 4 3 1a r c h i t e c t u r e 3 4 4 3 2f e a m r e 3 6 4 3 3e x p 嘶m e i l t a lr e s u l t 3 7 4 4c o n c l u s i o n 3 9 c h a p t e r5a ni n t e g r a t e ds t r a t e g yf l o rc h i n e s es e m a n t i c r 旬l el a b e l i n g 4 1 5 1i i l t r o d u c t i o n 4 1 5 21 1 1 t e 黟a t e ds t r a t e g yf o rc h i n e s es e m a n t i cr o l el a b e l i n g 4 2 5 2 1i n t e 伊a t e ds 把a t e g y 4 2 5 2 2s ”t a c t i cp a r s i n g 4 3 5 2 3f e a t u r e 4 4 5 3e x p e r i m e n t a l 4 4 5 3 1e x p e r i m e n t a lr e s u l t 4 4 5 3 2a n a l v s i s 4 6 5 4c o n c l u s i o n 4 8 c h a p t e r6 c o n c l u s i o n 。4 9 6 1p r i m a r yw b r k 4 9 6 2t h ef u r t h e rw 6 d ( 一4 9 r e f l e r e n c e s 。5 0 a c i m o w l e d g e m e n t s 5 5 c o n t e n t so fa c a d e m i cp a p e rp u b l i s h e da sag r a d u a t es u t d e n t p a p e r sp u b l i s h e di nt h e p e r i o do fp h d e d u c a t i o n 。5 7 i n t r o d u c t i o no fa u t h o ra n dt u t o r 。5 9 4 第一章绪论 1 1背景及意义 1 1 1 课题背景 第一章绪论 语言是人类传递信息的一种重要的媒介,同时语言也是区分人类和动物的重要特 征。有别于其他的人工语言,人类的语言是约定俗成的,以语音这种形式表现出来, 具体是由词汇和语法组成的。截止到今天,人类尚未发现任何一种其他的动物具有使 用语言表达自己的能力。自然语言理解就是一门使用模式识别,统计,规则等的方法 使计算机拥有处理人类语言能力的学科。人工智能是当今研究的一个热门课题,在此 领域任何的一小步,都能大大减轻人类的劳动的负担。要使任何形式的人工智能能够 无缝的融入人类社会,最重要的一点就是完成计算机对人语言的识别和理解。只有达 到了这一点,人机交互才变得自然,计算机才能无障碍的辅助人类工作,否则,任何 辅助工作都需要大量的、繁琐的设定,这样的设定让一般人无法享受到人工智能的服 务。 对于语言分析,一般可以分为句法层次上的分析、语义层次上的分析、语用层次 上的分析三个层面。其中句法层次的分析是属于比较底层的分析,这个方向研究的内 容是按照一定的顺序将短语、符号的组合成j 下确的句子,同时决定每个短语在句子中 充当什么样的句法结构角色。现在人们的研究主要集中在对句子进行短语结构,依存 结构和浅层的句法分析上,并且取得了积极的进展。语义层次上的分析,是指将自然 语言转化为用句义的形式表示,这个任务是比句法更高级一层的任务,最终目的是达 到计算机能够理解人的语言,从而达到人机沟通的目的。语用层次上的分析则研究人 类按照什么样的标准发生语言行为和按照什么样的规则支配发言的顺序,这个任务和 前一个任务可以看成一个相反的过程,目的是让计算机能够按照人类的形式表达自 己。现阶段常用图灵测试这种方式来评价语言分析的性能,具体步骤是让现实生活中 的人与待测试系统进行对话,如果人不能够判定对话的对方是机器系统还是现实生活 中的人,那么就认为该系统具有一定的语用水平。 现阶段的自然语言处理的研究,大部分集中在句法分析和语义分析这两个过程 上,对与后一个过程研究的人相对较少。 在中文自然语言处理的研究领域中,比较特殊的研究还有分词系统【l 】。由于没有 像拉丁文系的那样断词的语言习惯,中文中大量的词语以首尾相连的形式出现在一个 句子中。在切分词语的时候,难免产生二义性的问题。词语的自动切分,专有名词的 识别,人名地名的识别等任务是中文所必须的一项任务。同时也是其他语言分析任务 的基石。图1 1 表示了自然语言理解的基本结构图: 北京化工人学硕r l :学位论文 图1 1 自然语言理解的结构 f i g 1 lt h ea r c h i t e c t u r eo f n a t u r a ll a n g u a g eu n d e r s t a n d i n g 深层次、自动的语义分析,一直是自然语言理解研究者的追求目标之一,也是当 今社会亟待解决的问题。当今社会信息膨胀,尤其是随着互联网的诞生和发展,海量 的文本信息每天以惊人的速度产生。这些海量数据中不光蕴含着惊人的信息量,同时 也包含着非常多的冗余信息和垃圾信息。人类要对这些知识进行利用,必须对原有的 知识进行整理和索引。由于数据量的规模太大,单凭人工是无法完成对所有信息的处 理,只有依托计算机才能够完成如此规模的任务量。自然语言理解处理技术的发展水 平,直接关系到计算机在自动处理文本时候的精度和深度。 但是由于受机器学习模型,语料库,知识体系的限制,完美的语义分析在现阶段 是难以实现的。同时,在人类本身表达时所使用的语言中,二义性,歧义性的现象也 非常严重。鉴于上面两个因素,现阶段大部分的研究都退而求其次,将精力是集中在 相对简单的浅层的语义分析上。近年来,国内外的学者们一直没有停下对自动的语义 分析的研究,相应的也取得了相当多的成果。 在最早的研究过程中,迫于不能获得有效的语义自动分析,很多需要理解语言所 蕴含的意义的自然语言处理任务,主要是使用句法分析来替代语义分析,辅助自己完 成任务的目标。例如在面向特定领域的自动问答系统【2 】这一自然语言理解非常关键的 任务中,就是通过集成句法分析子模块来辅助分析问句。从2 0 世纪7 0 年丌始,越 2 第一章绪论 来越多的学者开始认识到语义分析的重要性,这也导致越来越多的任务开始转向语义 分析,例如简短的小故事理解【3 1 ,还有使用自然语言来进行大型关系数据库的检索【4 】 等等,都表明语义分析吸引着越来越多的学者投入研究。 这一个阶段的研究重点大部分都集中在理解文章意思,知识表示和推理等高复杂 性的研究上面。这些研究成果在小范围的数据集上能取得不错的成绩,但是系统的实 用性和领域适应性两方面上,还存在着不少的问题。由此导致,这些研究成果一旦应 用到实际上去,或者扩展到其他领域上去,比如说像在小说文体上研究的系统移植到 新闻文体上,性能下降非常严重。因为它们需要大量的,质量高的知识工程,同时, 他们也需要针对所有的文体,所有的情况,抽取出共同的语言规则,这样大大加大了 工作的挑战。因此这阶段的系统离实际应用太过遥远,对于语料太过依赖,局限性太 大。 由于这时候的瓶颈就是在知识工程的规模和质量上面,因此在从2 0 世纪8 0 年代, 研究人员的注意力开始转移到知识工程上去。 从9 0 年代,研究人员避开了复杂的,困难的语义理解,开始集中在简单,但是 适用性非常强的工作上。尤其是统计机器学习模型的成熟以及软硬件条件的进步,都 促使这些简单但是实用性强的工作上的研究取得相当大的进展,例如语音识别【5 】,词 性标注【6 1 ,句法分析【7 1 ,机器翻译【8 】以及汉语中头疼的分词问题,都使用统计的方法 得到了不错的成绩。 随着互联网的发展,产生了很多的基于自然语言理解的应用,很多自然语言理解 的工作重点从人工智能领域转移到信息检索领域。 在这个过程中,人们一直没有放下对语义分析的研究,随着知识工程研究的进步, 出现了一些使用统计方法来获取单个词的语义信息的研究,例如f j i 段时间吸引大量研 究者参与的基于语料库的词义消歧【9 j ,就是结合了统计方法和语料库对语言文本进行 简单的语义分析,它主要的方法是根据统计的上下文的信息,判断当前的词语到底属 于词典中的那个意思。这些工作主要还是集中在单个词的角度上,无法对整句进行分 析,分析的粒度还是过小,在实际应用中,能够提供的信息也太少。还有信息抽取、 本体构建【l m 的一些相关的研究,也触及了一些语义研究,使用一些蕴含语义的规则 抽取出特定的模式。但是现阶段的研究方法,大部分都是使用固定的模板,根据一些 迭代策略,抽取半结构化地语义,还是比较初级的语义分析研究。在这些分析中,需 要人工制定大量的模版,模版的数量直接影响这个系统的抽取能力,虽然有系统使用 自动的抽取模版方法,但是抽取的模版的复杂度远远小于人类在语言中表达信息方式 的复杂度,抽取的信息还是远远小于网页中所蕴含的信息。 随着机器学习模型和计算机硬件计算能力的进一步提升,语义分析的硬件瓶颈得 到进一步的缓解,浅层语义分析逐渐得到研究人员的重视。 浅层语义分析也可以看成一种信息抽取的方法,只不过他抽取的不再是原来特定 北京化工人学硕士学位论文 性非常强的地点,人名,或者位关系,而是抽取真正语义层次上的信息,例如某一个 动作的施事、受事等和领域无关的语义信息。浅层语义分析具有广泛的应用前途,在 文本中,区分出语句的语义信息,可以帮助人在灵活的自然语言中,更加模糊的匹配 上所需要的信息。这些信息可以给在热点事件追踪,新闻抽取等任务中提供更多的帮 助手段。 浅层语义角色标注是浅层语义分析的一种实现方式,是在深层语义分析无法获得 的情况下的一种折中的方案。由于前人做的大量的工作,让这项任务的语料更易于标 注,结果更容易标准化比较。由于抽取的信息领域无关,是的这种实现方式具有非常 广泛的前景。本文的主要工作就是开展在浅层语义角色标注上, 1 1 2 课题意义 自动的、深层的语义理解,一直是所有自然语言理解研究者奋斗的目标,同时也 是当今现阶段实际的自然语言理解任务的瓶颈。虽然现在很多自然语言理解的方向不 使用语义分析也能达到不错的结果,但是这些方向的成果应用到真正使用的领域,还 是会迎来很多问题,而且j 下确率也大大受影响。很多现阶段的分析都尝试绕开语义分 析直接进行抽取和标注,这些分析在短期内也能带来一些效果的提升,但是都不是达 到自然语言的真正理解。而且在自然语言理解进行到高层的阶段,达到语用的阶段, 还是少不了语义分析这一步骤。正因为如此,研究者一直没有放弃在这方面的研究。 深层的语义分析的研究,现阶段研究条件还不成熟,没有足以支撑起系统的先验知识 与人工语料,所以,当前研究的重点就转载浅层语义分析,这种具有研究的可行性的 领域中。 语义角色标注就是这样一种浅层语义分析,任务的目标和深层的完全的语义分析 不冲突,很有可能成为达到深层语义分析的桥梁。浅层语义角色标注有明确的定义, 明确的标准,明确的语料库。他既不像最早的语义分析任务一样,研究一些复杂度超 常、难度超常、不易实现的任务,也不像现在其他的一些任务一样,注重短期的性能 提升,偏向实用,而是在原有的研究基础上更深一步,提供更多更深层的语言分析。 而且在现阶段的软件硬件的条件下,在现阶段的语料库等人工经验集的条件下,浅层 语义角色标注完全有能力变成一向现实的工作。 浅层语义角色标注的过程是自然语言理解发展到现在的一个趋势。自然语言理解 从底层开始,先是分词问题( 分词的研究只有在几个国家的语种的分析中才有必要, 在拉丁文系等语言中,这个子问题不存在) ,将连续的汉字序列切分成一个个没有歧 义的词语,然后是进一步的词性标注,给上一步中切分出来的词语标注上相对应的词 性。再到后来就是命名实体识别以及句法分析,对前几步的成果进行一下深加工,从 自然的语句中抽取更多的信息结构。浅层语义角色标注则能够充分利用上面的资源, 4 第一章绪论 在上面的基础上再前进一步的抽取出更多的信息,这次抽取的信息不再是语法句法的 信息,而是真正载有语义内容的信息,同时还保证不会因为抽取的信息太多导致系统 的复杂度上升曲线太陡峭,也避免了因为抽取的信息过多导致系统无法实现。 自然语言分析的工作的最终的目的还是为人服务,最终要靠应用才能体现价值。 在很多应用层面的任务,语义角色标注都能够提供非常有力的支持,如果语义角色标 注问题得到解决,对于自然语言理解中那些应用的任务的研究,例如括信息抽取、自 动问答、机器翻译、信息检索、自动文摘都会产生巨大的促进作用。 1 2 本文的工作 1 2 1 本文的工作 本文主要工作如下: 1 构建了一个先进的浅层句法分析的系统,使用随机梯度下降的条件随机场来 充当分类器 2 构建了一个使用传统结构的浅层语义角色标注系统,同样使用随机梯度下降 的条件随机场作为分类器。 3 在分析传统结构的系统的性能瓶颈的基础上,提出了一种语义角色标注的集 成策略,该策略集成了两种句法分析的信息,从而达到性能优化的基础。 之前的语义角色标注,都是从分词开始,然后是词性标注,再送到下一层的句法 分析中去,从句法分析的结果中抽取特定的信息,再添加上一些可以依靠字典查询的 信息,送到下一次语义角色标注的系统中。其中在句法分析的部分,一般只采用一种 句法分析的结果,由于每种句法分析都有自己的优势和局限,这就造成了不管采用哪 种句法分析,都会给上层语义角色标注造成限制: a 基于组块分析等浅层句法分析的语义角色标注,虽然组块分析这种浅层句法 分析的技术已经比较成熟,正确率也很高,但是由于组块分析能够提供的结 构信息过于简单,组块分析之间的关联关系信息过少,造成语义角色标注的 整体性能低下。 b 基于短语结构等完全句法分析的语义角色标注,虽然完全句法分析能够提供 丰富的特征,但是由于自动的完全句法分析技术太不成熟,正确率不理想, 这一点完全制约了语义角色标注的性能,所以在自动的分析中,语义角色标 注正确率没有任何竞争力。 本文提出的集成策略,在句法分析的部分集成两种句法分析的优势,在f 确率相 对高的组块分析的基础上,加入具有更多信息的短语句法分析的结果,最终自动分析 的性能超过了两个单独的系统。 北京化t 人学硕上学位论文 1 2 2 本文的组织结构 第二章介绍了语义角色标注的基本研究方法和研究现状,第三章给出了构建的一 个基于随机梯度下降的浅层句法分析子系统的设计细节,第四章给出了一种基于浅层 句法分析的浅层语义角色标注器实现细节和实验结果,第五章给出集成策略的实现和 实验结果,最后第六章对本文方法和实验进行了总结。 6 第二章浅层语义角色标注的研究现状 第二章浅层语义角色标注的研究现状 2 1 语义角色标注的基本概念 2 1 1 语义角色标注的定义 现在对浅层语义分析的自动方法,最成功的,最实用的就是语义角色标注。与其 他的分析任务相比,语义角色标注的问题定义非常清晰,答案非常明确,无二义性的。 正因为这样,训练材料的标注工作相对与其他方法标注要相对简单。由于有固定的训 练材料,固定的语料,在最终的评测的阶段,人工的工作量大大减轻,系统的性能也 有可比较性。目前浅层语义角色标注方面的研究吸引了研究人员的大多数目光和精 力。 与完全的语义分析不一样,语义角色标注任务并不需要识别出整个句子中的所有 的主、谓、宾、定、状、补等所有的语义成分。语义角色标注的主要任务是在目标句 子给定谓词的情况下( 或者自动识别谓词) ,根据这些谓词的框架、使用情况和上下 文将该句子中担任一定语义成分的词语,短语或者分句识别出来。通常给定的谓词一 般是句子中的名词,动词或者形容词,其中使用动词作为谓词的情况更常见。因为在 一些语言学者的眼中,动词是句子的核心,动词支配着整个句子,句子其他的成分都 是围绕着句子中的动词来说明或者说是修饰说明意思的,所以现阶段的研究大部分都 是集中在给定动词作为谓词。这样一来,浅层语义角色标注任务的目标就变成了识别 出句子中那些修饰或者说明动词的施事,受事以及其他的用来浼明时间,地点等意义 的短语或者短语集合。例如下面这个例子: 中保财险公司a r g o 承保v 】 三峡二期工程最大标段a r g l l 。 上文的例子中,用方括号表示一个角色开始和结束,方括号中空格前的部分是原 始句子的词语集合,空格后的部分是前部分词语结合担任的角色类型。在这个句子中, “承包”是目标谓词,其他的所有角色都是围绕这这个动词发生作用的;“中保财险 公司”是谓词的施事,就是动作的主动者;“三峡二期工程最大标段”是谓词的受事, 是动作的发生对象。在对句子分析的过程中,如果目标语言是英文的句子,则不需要 区分句子的时态。如果同一个句子,给定的谓词发生变化,施事受事等成分也会发生 变化的,所以相同的一个句子,针对多个谓词,会有多个不同的标注结果。 2 1 。2 语义角色标注的语料 现阶段对语义角色标注的研究,都是使用机器学习的方法。与其他的机器学习的 方法一样,语义角色标注任务也需要语料库来构建训练集和测试集。高质量的语料库 7 北京化工人学硕士学位论文 对于训练结果的精度和泛化能力至关重要。中英文的语料库资源都非常丰富,其中英 文的语料库构建的历史更悠久一些,其中大家用的比较多的是f r 锄n e t 【1 2 1 、p r o p b a i l l ( 【1 3 1 和n o m b a l l k 【1 4 】三种。 f r 锄e n e t 是伯克利大学开发的,标注工作开始与2 0 0 2 年,直到现在标注工作仍 然再继续,语料库的规模仍然在进一步扩大。f r 锄e n e t 共有4 9 ,0 0 0 个句子,包含了 1 4 6 2 个谓词。语料库之所以质量高的原因是:语料库是人工在英国国家语料库上标注 的。标注的理论依据是框架语义学。他的主要的标注目的是给出每个谓词的语义框架, 同时也描述刻画框架之间的关系,他在每一个句子上都标注出目标动词,也标注出这 个目标动词的语义角色,同时给出了这个句子里面的短语类型和句法功能。下面就是 对动词u s e d 标注角色的一个实例: 【a g e n ti p r e m c a t i o nu s e d 】 p o r t i o nh a l f 】 r e s o u l eo fm eb a go fd i r t p u l p o s et o p l a i l t t l l e r o s e s 】 这里的每一个方括号里面是一个结构,方括号到第一个空格之前面的是结构的类 型,空格后面的是原句子中的句子成分。其中标注工作中给出的短语类型是句法分析 层次的,例如名词性短语,动词性短语;给出的句法功能是类似主语谓语一类的。 p r o p b a n k 是另一个更常用的语料库,他是宾夕法尼亚大学在p e i l nt r e e b a n k 【1 5 】的 基础上标注的语义角色语料库。p e r u lt r e e b a i l l 【是一个句法树库,他在给普通的句子 标注上了词性和句法结构图。由于现阶段的语言角色标注,大部分需要句法处理提供 信息,而p r o p b a n k 又是在句法树库的基础上标注的,所以当今的研究者把大多数的 精力投入到基于p r o p b a n k 的浅层语义角色标注的研究上。与其他的语料库不同之处 在于,p r o p b a n k 的谓词里面不包括名词和形容词,主要以动词为主,同时剔除动词中 的系动词。他标注的角色总共2 0 多种,其中主要的部分可以分为五类,分别为a o a 5 。 这五类角色都是围绕目标动词来的,分别担任动词的某些功能。例如a 0 用来刻画动 作的施事,通常是动作的发出者。a 1 用来刻画动作的受事,通常是动作的作用对象, 剩下的3 类角色代表的含义随着动词的不同而不同,具体代表的意思可以通过查阅 p r o p b a l l l ( 的动词的框架得出。p r o p b a n k 同时还刻画一些附加的语义角色,这些附加 的语义角色都是使用a m 作为前缀,a m 后边加上具体担任的角色类型。例如刻画动 作发生的地点的语义角色,用a m l o c 来标注,刻画动作发生的时间的语义角色, 用a m t m p 来表示,a m 后面总共可以跟2 2 类附加的语义角色类型,分别的含义如 表2 1 所示: 与f r a m e n e t 不同

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论