(计算机应用技术专业论文)基于依存关系的中文语义角色标注研究.pdf_第1页
(计算机应用技术专业论文)基于依存关系的中文语义角色标注研究.pdf_第2页
(计算机应用技术专业论文)基于依存关系的中文语义角色标注研究.pdf_第3页
(计算机应用技术专业论文)基于依存关系的中文语义角色标注研究.pdf_第4页
(计算机应用技术专业论文)基于依存关系的中文语义角色标注研究.pdf_第5页
已阅读5页,还剩68页未读 继续免费阅读

(计算机应用技术专业论文)基于依存关系的中文语义角色标注研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

苏州大学学位论文使用授权声明 本人完全了解苏州大学关于收集、保存和使用学位论文的规定, 即:学位论文著作权归属苏州大学。本学位论文电子文档的内容和纸 质论文的内容相一致。苏州大学有权向国家图书馆、中国社科院文献 信息情报中心、中国科学技术信息研究所( 含万方数据电子出版社) 、 中国学术期刊( 光盘版) 电子杂志社送交本学位论文的复印件和电子 文档,允许论文被查阅和借阅,可以采用影印、缩印或其他复制手段 保存和汇编学位论文,可以将学位论文的全部或部分内容编入有关数 据库进行检索。 涉密论文口 本学位论文属 在年一月解密后适用本规定。 非涉密论文口 论文作者签名:嚷端虹 e l期:垫! 全:;:! 三 导师签名:固亟坠日 ,、 期矽叫工 基于依存关系的中文语义角色标注研究 中文摘耍 基于依存关系的中文语义角色标注研究 中文摘要 作为自然语言理解的一项研究重点,语义分析旨在将人类的自然语言转化为计算 机能够理解的形式化语言。由于深层语义分析的复杂性,人们目前更关心浅层语义分 析,一种简化了的语义分析形式,分析句子中谓词( 动词或名词) 的语义角色成分, 包括施事者、受事者、时间、地点等。作为浅层语义分析的一种实现方式,语义角色 标注( s e m a n t i cr o l el a b e l i n g ,简称s r l ) 已被广泛应用于更高层次的自然语言处理 相关任务,如信息抽取、问答系统和机器翻译等。根据谓词词性的不同,通常可以将 语义角色标注分为动词性谓词语义角色标注和名词性谓词语义角色标注。 目前主流的语义角色标注研究都是基于短语结构句法分析进行的,并取得了一定 的成果。但这种研究方案中,短语句法分析性能对语义角色标注性能起着主导作用, 是现阶段语义角色标注的瓶颈。因此有研究者开始探索使用依存句法分析进行语义角 色标注。另从研究现状看,针对中文语义角色标注的研究要比英文的少得多,其中一 个主要原因是缺乏合适的标注语料。现阶段由于中文p r o p b a n k 和中文n o m b a n k 的发 布,使得对中文语义角色标注的研究成为可能。因此,本文从依存关系出发,研究中 文语义角色标注,主要研究内容有以下三个方面: 首先,探索了中文谓词标注,包括动词性谓词和名词性谓词。谓词标注是语义角 色标注的前提,是语义角色标注中的重要一步,其性能直接决定了语义角色标注的性 能。针对动词性谓词,本文实现了一个基于最大熵分类器的识别系统,并在 c o n l l 2 0 0 8 和c o n l l 2 0 0 9 评测数据上进行实验;对名词性谓词的识别,除了采用 基于最大熵分类器外,还采用了基于卷积树核的方法,并在中文n o m b a n k 的转换语 料上进行实验。 其次,研究了基于特征向量的中文s r l 。在构建一个通用的基于特征向量的中文 语义角色标注平台的基础上,重点探讨了特征选择对系统性能的影响,并分别针对动 词性谓词和名词性谓词制定不同的特征集合,分析各个特征对系统的贡献度。实验结 果表明,系统在中文名词性谓词上的p r f 1 值分别为:7 1 3 7 8 6 2 0 7 8 0 9 。 中文摘要基于依存关系的中文语义角色标注研究 最后,首次尝试采用基于卷积树核的方法对名词性谓词进行语义角色标注。其中 重点讨论了依存树的构造和剪枝,探索在结构信息本身就很少的依存树上,使得输入 的树中尽量少的包含噪音信息。实验表明,基于树核函数的s r l 结果与基于特征向 量的结果已经非常接近。本实验作为基于卷积树核的探索性实验,为今后研究提供了 有价值的参考。 本文的主要贡献在于对基于依存关系的中文语义角色标注进行了全面研究,包括 使用不同方法识别动词和名词性谓词;使用基于特征向量的方法构建语义角色标注平 台,分析各个特征的作用;并首次使用基于核函数的方法进行中文语义角色标注。这 些方法的研究及取得的成果对今后的研究具有重要的参考价值。 关键字:语义角色标注;依存关系;树核函数;谓词标注 作者:袁晓虹 指导老师:周国栋王红玲 i i c h i n e s ed e p e n d e n c y b a s e ds e m a n t i cr o l el a b e l i n g a b s t r a c t a sar e s e a r c hf o c u si nn a t u r a ll a n g u a g eu n d e r s t a n d i n ga r e a , t h ep u r p o s eo fs e m a n t i c a n a l y s i si st ot r a n s f e rt h em a n k i n d sn a t u r a ll a n g u a g ei n t of o r m a ll a n g u a g et h a tc o m p u t e r c a nu n d e r s t a n d d u et ot h ed i f f i c u l t yi nd e 印s e m a n t i ca n a l y s i s ,p r e v i o u sw o r km a i n l y f o c u s e so ns h a l l o ws e m a n t i ca n a l y s i s ,as i m p l i f i e da l t e r n a t i v et od e e ps e m a n t i ca n a l y s i s g i v e nas e n t e n c ea n dap r e d i c a t e ( e i t h e rav e r bo ran o u n ) i ni t ,t h et a s ko fs h a l l o w s e m a n t i ca n a l y s i si st or e c o g n i z ea n dm a pa l lt h ew o r ds e q u e n c e si nt h es e n t e n c ei n t ot h e i r c o r r e s p o n d i n gs e m a n t i ca r g u m e n t so rn o n - a r g u m e n t t h es e m a n t i cr o l e si n c l u d ea g e n t , p a t i e n t ,l o c a t i v e ,t e m p o r a l ,e t c a sap a r t i c u l a rc a s eo fs h a l l o ws e m a n t i ca n a l y s i s ,s e m a n t i c r o l el a b e l i n g ( s r l ) h a sb e e nd r a w i n gm o r ea n dm o r ea t t e n t i o nd u et oi t si m p o r t a n c ei n d e e pn a t u r a ll a n g u a g ep r o c e s s i n ga p p l i c a t i o n s ,s u c ha si n f o r m a t i o ne x t r a c t i o n , q u e s t i o n a n s w e r i n g ,a n dm a c h i n et r a n s l a t i o n a c c o r d i n gt o t h ep r e d i c a t et y p e s ,s r lc o u l db e d i v i d e di n t os r lf o rv e r b a lp r e d i c a t e s ( v e r b a ls r l ,i ns h o r t ) a n ds r lf o rn o m i n a l p r e d i c a t e s ( n o m i n a ls r l ,i ns h o r t ) m o s tp r e v i o u sw o r ko ns r lf o c u s e do nc o n s t i t u e n t - b a s e dp a r s i n gt r e e sa n da c h i e v e d g o o dp e r f o r m a n c e h o w e v e r , a u t o m a t i cp a r s i n gi sc r u c i a lt ot h ep e r f o r m a n c eo fs r l a n d b e c o m e sab o t t l e n e c kt oc o n s t i t u e n t - b a s e ds r l s o ,s o m er e s e a r c h e r sb e g i nt oe x p l o r e d e p e n d e n c y b a s e ds r l m o r e o v e r , p r e v i o u sr e s e a r c hh a ss h o w nt h a tt h es t u d yo nc h i n e s e s r li sm u c hl e s st h a nt h a to ne n g l i s hs r l o n em a j o rr e a s o ni st h el a c ko fa p p r o p r i a t e l a b e l i n gc o r p u s b u t ,a tt h ep r e s e n ts t a g e ,t h ec h i n e s ec o r p u s ( c h i n e s ep r o p b a n ka n d c h i n e s en o m b a n k ) h a v eb e e ni s s u e d s o ,i t sp o s s i b l et os t u d yo nc h i n e s es i l l t h i s p a p e ri m p l e m e n t sa nc h i n e s ed e p e n d e n c y - b a s e ds r ls y s t e m t h ec o n t r i b u t i o no ft h i s w o r ki n c l u d e s : f i r s t l y , t h i sp a p e rh a sa d d r e s s e dt h ei s s u eo fp r e d i c a t ei d e n t i f i c a t i o n ( p i ) a n dp r e d i c a t e c l a s s i f i c a t i o n ( p c ) p r e d i c a t el a b e l i n gi sa ne s s e n t i a lc o m p o n e n ti nr e a ls r la p p l i c a t i o n s a n di t sp e r f o r m a n c ed i r e c t l yd e t e r m i n e st h ep e r f o r m a n c eo fs r l t h i sp a p e ri m p l e m e n t sa i i i a b s t r a c t c h m e d e p e n d e n c y - b a s e ds e m a n t i cr o l el a b e l i n g m a x i m u me n t r o p yc l a s s i f i e r - b a s e ds y s t e mt or e s o l v ep ia n dp cf o rc h i n e s ev e r b a l p r e d i c a t e so nc o n l l 2 0 0 8a n dc o n l l 2 0 0 9c o r p u s i na d d i t i o nt om a x i m u me n t r o p y c l a s s i f i e rm e t h o d ,w ea l s op r o p o s eat r e ek e r n e l b a s e dm e t h o df o rn o m i n a lp r e d i c a t e s l a b e l i n go n t h et r a n s f e r r e dc o r p u sf r o mc h i n e s en o m b a n k s e c o n d l y ,w eh a v ed e v e l o p e daf e a t u r e - b a s e ds r ls y s t e m a n dt h ee m p h a s i so ft h i s p a p e ri so ne x p l o r i n gv a r i o u sf e a t u r e sa n dd e t a i l i n gt h e i ri n f l u e n c eo ns r l r e s p e c t i v e l y , f o rv e r b a lp r e d i c a t e sa n dn o m i n a lp r e d i c a t e s ,t h i sp a p e rs e l e c t sd i f f e r e n tf e a t u r es e ta n d a n a l y z e s e a c hf e a t u r e sc o n t r i b u t i o nt ot h es r ls y s t e m t h ee x p e r i m e n t so nn o m i n a l p r e d i c a t e ss h o w o u rs y s t e mc a na c h i e v e7 1 3 7 8 6 2 0 7 8 0 9o n p r e c i s i o n , r e c a l l ,a n dl a b e l e d f 1s c o r e f i n a l l y , t h i sp a p e rh a sm a d eap r e l i m i n a r yi n v e s t i g a t i o no ft h et r e ek e r n e l - b a s e ds r l f o rc h i n e s en o m i n a lp r e d i c a t e s ,谢t l lf o c u so nh o wt op r o p e r l ye x p r e s st h es t r u c t u r a l r e p r e s e n t a t i o nb e t w e e np r e d i c a t e sa n da r g u m e n t sa n dl e tt h ei n p u tt r e ec o n t a i nl e s sn o i s e i n f o r m a t i o n t h ee x p e r i m e n t ss h o wt h a tt h et r e ek e r n e l b a s e dm e t h o dp e r f o r m ss i m i l a rt o t h ef e a t u r e - b a s e dm e t h o d a sas e m i n a lw o r ko nt r e ek e r n e l b a s e ds r l ,i te x h i b i t sa l l i m p o r t a n tr e f e r e n c ev a l u et ot h ef u t u r ew o r ki nt h i sl i t e r a t u r e t h em a j o rc o n t r i b u t i o n so ft h i sp a p e rl i ei ns y s t e m a t i ca n di n - d e p t hr e s e a r c ho n s e m a n t i cr o l el a b e l i n gi nc h i n e s ef r o mt h ed e p e n d e n c yt r e es t r u c t u r e :1 ) t h ep r o p o s a lo f t w od i f f e r e n tm e t h o d si nv e r b a la n dn o m i n a lp r e d i c a t e sl a b e l i n g ;2 ) t h ef e a t u r e - b a s e ds r l s y s t e ma n dt h ea n a l y s i so ft h ev a r i o u sf e a t u r e s c o n t r i b u t i o n s ;3 ) t h ep r o p o s a lo ft r e e k e r n e l b a s e dm e t h o do nc h i n e s es r l o u rr e s e a r c h s i g n i f i c a n t l yi m p r o v e st h e p e r f o r m a n c eo fs r l a n dt h u se x h i b i t sa ni m p o r t a n tr e f e r e n c ev a l u et ot h ef u t u r ew o r ki n s e m a n t i cp a r s i n g k e y w o r d s :s e m a n t i cr o l el a b e l i n g ;d e p e n d e n c yr e l a t i o n s h i p ;t r e ek e r n e l ; p r e d i c a t el a b e l i n g i v w r i t t e nb y s u p e r v i s e db y y u a nx i a o h o n g z h o ug u o d o n g w a n gh o n g l i n g 目录 第一章绪论1 1 1 研究背景1 1 2 研究意义2 1 3 研究现状3 1 3 1 动词性谓词语义角色标注相关研究3 1 3 2 名词性谓词语义角色标注相关研究4 1 3 3 基于依存关系的国际评测5 1 4 本文研究内容5 1 5 组织结构6 第二章相关介绍8 2 1 语义角色标注概述8 2 1 1 语义角色标注定义8 2 1 2 语义角色标注语料9 2 1 3 语义角色标注评测1 l 2 2 依存句法分析简介1 2 2 3 分类器介绍。l5 2 3 1 最大熵分类器15 2 3 2 支持向量机1 7 2 4 本章小结19 第三章谓词标注2 l 3 1 引言2 l 3 2 相关工作2 l 3 3 动词性谓词标注2 2 3 3 1 标注步骤2 2 3 3 2 语料来源2 3 3 3 2 特征选择2 4 3 3 3 实验结果与分析2 5 3 4 名词性谓词识别2 7 3 4 1 :语料来源2 7 3 4 2 预处理2 8 3 4 3 基于特征向量的谓词识别2 8 3 4 4 基于树核函数的谓词识别2 9 3 4 5 实验结果与分析3 0 3 5 本章小结3 3 第四章基于特征向量的s r l 3 4 4 1 引言。3 4 4 2 系统描述3 4 4 2 1 标注单元3 4 4 2 2 标注步骤3 5 4 3 特征向量构造3 6 4 3 1 动词性谓词s r l 3 6 4 3 2 名词性谓词s r l 3 8 4 3 2 剪枝算法3 9 4 4 实验结果与分析4 0 4 4 1 动词性谓词s r l 结果。4 0 4 4 2 名词性谓词s r l 结果4 3 4 5 本章小结4 5 第五章基于树核函数的s r l 4 6 5 1 引言4 6 5 2 相关工作4 6 5 3 依存树构建4 7 5 3 1 完全依存树4 8 5 3 2 公共结点树( c t ) 。4 9 5 3 3 最短路径包含树( s p t ) 4 9 5 3 4 最小树( m t ) 5 0 5 4 实验结果分析51 5 5 同基于特征向量的s r l 相比5 2 5 6 本章小结5 4 第六章总结与展望5 5 6 1 本文研究工作总结5 5 6 2 未来工作展望。5 6 参考文献。5 7 攻读学位期间公开发表的论文6 1 至i 【谢6 2 基于依存关系的中文语义角色标注研究 第章绪论 1 1 研究背景 第一章绪论 随着信息社会的到来,人们对自然语言处理的需求日益迫切。所谓自然语言处理 就是运用计算机对自然语言进行分析和理解,从而使计算机在某种程度上具有像人的 语言处理能力。与自然语言处理密切相关的学科有自然语言理解,其研究侧重于对经 过深度加工处理的语言信息的理解,相当于语言处理技术在较高级语言单位上的应用 基础研究。 语义分析是自然语言理解的一个关键问题。语义分析的主要任务是根据输入句子 的句法结构和句中每个实词的词义进行分析,标示出一个句子中描述的事件以及与事 件相关的各个角色,从而推导出能够反映这个句子意义( 即句义) 的某种形式化表示。 浅层语义分析并不对整个句子进行详细的语义分析,而只是标注句子中的一些成分为 给定谓词的语义角色,这些成分作为此谓词框架的一部分被赋予一定的语义含义i lj 。 例如对同一个自然语言的输入,句法分析往往会得到若干不同的分析树,如例句 ( 1 1 ) 及三个句法分析结果: 指导研究生的工作是重要的例旬( 1 1 ) 1 ) 指导研究生的工作是重要的 2 ) 指导研究生的工作是重要的 3 ) 指导研究生的工作是重要的 从语义的角度来看,这句话的意思只能是1 ) 或者是2 ) ,而不会是3 ) 。因为在 汉语中不存在“指导研究生这个短语。如果把这句话中的“研究生 换成“教师”, 句法分析结果不变,但其意思大概是3 ) ,而不会是1 ) 和2 ) 。因此说明,语义分析 是非常重要的。语义分析就是要识别句子所表达的实际含义,说的明确些,就是要弄 清楚“干了什么 ,“谁干的 ,“这个行为的原因和结果是什么”以及“这个行为发生 的时间、地点、所使用的工具等等。 语义分析还有一个重要的内容,就是要能够进行推理,即从已知的事实和规则判 断出合理的结论。例如,从“鸟会飞这一大前提和“燕子是鸟这一小前提,根据 三段论发的推理规则可以得到“燕子会飞”的结论。 对句子进行正确的语义分析,一直是从事自然语言理解研究的学者们追求的主要 第一章绪论基于依存关系的中文语义角色标注研究 目标。尤其,随着通用领域句法分析等技术的发展,近年来语义分析开始触及更深层 次的通用领域,但是通用的深层语义分析仍然很难实现。因此目前人们更关心“浅层 语义分析 ( s h a l l o ws e m a n t i cp a r s i n g ) ,一种简化了的语义分析形式,只标注句子中 与谓词有关的语义角色,如施事、受事、时间和地点等。浅层语义分析并不对整个句 子进行详细的语义分析,其实质是在句子级别进行浅层的语义分析。如浅层语义分析 不考虑时态信息,例如“我将要去上海。”与“我去上海了。 ,虽然时态不同,但浅 层语义表示是相同的,同为:“去( 我,上海) 。其次,它也不考虑谓词改变但语义 相同的情况,例如“他昨晚失眠了。与“他昨晚睡不着觉。”,虽然它们的语义相同, 但是浅层句法分析的表示结果并不一样,需要根据具体的应用进行更深入的处理。最 后,浅层语义分析不考虑人、物的指代等情况。 本文所要研究的语义角色标注1 2 】( s e m a n t i cr o l el a b e l i n g ,s r l ) 属于浅层语义 分析。它具有分析任务定义明确,便于评价等优点【3 1 。这里把浅层语义分析看作是一 种通用的信息抽取技术,抽取的信息不再限定于某个类别( 如人名、地名等) ,而是 抽取句子中相对通用的语义信息,如某个动作的施事、受事等与领域无关的语义信息。 1 2 研究意义 现阶段使用机器学习的方法进行语义分析是自然语言处理领域的一个热门方向, 且取得了不错的成绩。而语义角色标注综合了自然语言处理领域的基础技术,如分词、 词性标注、句法分析等,因此研究语义角色标注也为研究机器学习方法和那些底层的 技术提供了很好的研究平台。当然作为自然语言处理的基础技术,语义角色标注在很 多应用中也发挥了很大的作用。目前语义角色标注已在问答系统【4 】1 5 】、信息抽取 6 11 7 、 自动文摘【8 1 、文本蕴涵【9 1 、机器翻译10 1 等领域成功应用。以问答系统为例,语义角色 标注指明某一活动发生的时间、地点等语义角色,自然的可以对这些类问题进行回答。 因此目前语义角色标注引起了越来越多从事自然语言理解研究和应用的学者们的重 视。 目前基于短语结构句法分析的语义角色标注已经比较完善,取得了很好的结果, 在基于自动句法分析的c o n l l 2 0 0 5 语料库上k o o m e n 等】取得的最好结果f 1 值达 到7 9 4 4 ,代表了当今最好的性能,然而伴随此方法的发展带来的瓶颈问题也日渐突 出,如:局部模型的机器学习方法很难有更大进展,数据的稀疏问题严重,更有效的 2 基于依存关系的中文语义角色标注研究第章绪论 特征难以抽取等等,导致了性能无法进一步提高。 依存句法分析相比于短语结构的句法分析,它表达的句法结构是单词与单词之间 的依赖关系图。从理论上分析,依存句法中的句法语义接口更简单、更直观,并提 供了更透明的谓词论元关系表达。因此在基于短语结构句法分析的语义角色标注系 统遭遇到发展瓶颈后,研究基于依存结构句法分析的语义角色标注更具有现实意义。 1 3 研究现状 1 3 1 动词性谓词语义角色标注相关研究 和基于短语结构的语义角色标注相比,基于依存关系的语义角色标注研究相对较 少。 英文方面,h a c i o g l u 等1 1 2 1 首次采用基于依存关系的方法来实现语义角色标注,使 用s v m 分类器,提出了1 2 个特征( 依存关系,位置等) ,并且表明谓词相关信息的 重组对性能影响很大。最终在基于手工依存分析语料库d e p b a n k 和c o n l l 2 0 0 4s h a r e d t a s k 语料库上得到8 4 6 和7 9 8 的f 1 值。 而在c o n l l 2 0 0 8 关于英文基于依存关系的语义角色标注评测中,j o h a n s s o n 等【1 3 】 【1 4 】在文中详细分析比较了两种语义角色标注系统在p r o p b a n k 语料上的性能,文章的 贡献在于分别使用基于短语结构的和基于依存关系的衡量标准来公平的比较代表当 前最好性能的两类语义角色标注系统的性能。他们实现的基于依存关系的语义角色标 注系统在上述两项衡量标准下f l 值分别为7 7 9 7 ( w s j + b r o w n ) 和8 4 2 9 ( c o n l l 2 0 0 8 测试集) 。 以上基于依存关系的研究主要是基于英文语料,已经结束评测的c o n l l 2 0 0 9 s h a r e dt a s k 是在c o n l l 2 0 0 8s h a r e dt a s k 的基础上,进行了基于依存关系的多语言语义 角色标注,其中以n u g u e s 等【”1 及z h a o 等的成绩比较显著,在中文依存关系语料 上分别取得7 8 6 0 和7 7 7 2 的f l 值。 n u g u e s 等【1 5 】的系统有三个部分组成,首先是一个基于贪心算法的局部分类模型 进行谓词消岐、角色的识别和分类,然后在第一步的基础上使用一个复杂的算法进行 全局优化,最后将局部模型和全局模型进行线性联合得到最好的结果。最终在 c o n l l 2 0 0 9 中文语料上取得最好性能7 8 6 0 的f 1 值。 第一章绪论基于依存关系的中文语义角色标注研究 z h a o 等【1 6 1 的系统是在z h a o 等( 2 0 0 8 ) 1 1 7 】的版本上进行改进的,采用高斯优先的 最大熵分类器,在五个方面的特征中进行联合学习,分别有:与词相关的特征;句法 特征;语义特征;路径相关特征;成员相关特征。基于1 0 0 0 个左右的特征范本进行 实验。最终在中文语料上取得7 7 7 2 的f l 值。 1 3 2 名词性谓词语义角色标注相关研究 相对动词性谓词语义角色标注的研究而言,名词性谓词语义角色标注的研究要少 得多,其原因在于基于名词性谓词的大规模标注语料的发布要晚于动词性谓词语义角 色标注语料。而关于中文名词性谓词的研究,都是在短语结构句法分析的基础上进行 的,现在还没有基于依存关系的中文名词性谓词语义角色标注的相关报告。 s u n 等【1 8 1 和p r a d h a n 等首次相继探索了中文动词性和名词性谓词的语义角色标 注,并在传统基于动词性谓词的特征的基础上,探索了一些新的适合于名词性谓词语 义角色标注的特征,不过其实验采用的都是作者手工标注的小规模语料。 x u e 等 2 0 1 2 1 】1 2 2 1 首次利用大规模语料库中文p r o p b a n k 和中文n o m b a n k ,展开了 中文动词性谓词和名词性谓词的语义角色标注。其中x u e 等【2 0 】实现了中文动词性谓 词语义角色标注系统,在使用正确和自动句法树情况下,性能f 1 值分别为9 1 3 和 6 1 3 。x u e 等【2 1 】进一步探索了中文名词性谓词语义角色标注,该文还尝试了借助动词 性谓词的标注实例,用来扩展名词性谓词的训练集规模,以期望提高名词性谓词标注 性能。不过实验结果并未如愿,其原因在于动词性谓词和名词性谓词标注实例中的特 征值差异非常明显。x u e 等 2 2 】通过使用性能更佳的自动分析句法树和制定一些新的特 征,进一步提高了动词性谓词和名词性谓词的语义角色标注性能。 “等1 2 3 】在使用传统基于动词性谓词的相关特征的基础上,进一步提出了名词性 谓词语义角色标注相关的特征集。此外,还探索了中文动词性谓词语义角色标注对中 文名词性谓词语义角色标注的影响,并且首次联合谓词自动识别实现了全自动的中文 名词性谓词语义角色标注系统。在中文n o m b a n k 上的实验表明,中文动词性谓词语 义角色标注的合理使用能够大大提高中文名词性谓词语义角色标注性能;同时还给出 了基于正确句法树和正确谓词识别的性能,f 1 值达到了7 2 6 7 ,基于自动句法树和自 动谓词识别,性能f 1 值为5 5 1 4 。 4 基于依存关系的中文语义角色标注研究 第一章绪论 1 3 3 基于依存关系的国际评测 基于依存关系的国际评测,主要有c o n l l ( c o n f e r e n c eo nc o m p u t a t i o n a l l i n g u i s t i c sl e a r n i n g ) 会议主办的s r l ( s e m a n t i cr o l el a b e l i n g ) s h a r et a s k2 0 0 8 2 0 0 9 。 c o n l l 2 0 0 8 的主题是在p r o p b a n k 和n o m b a n k 上进行依存句法分析与语义角色 标注的联合学习【2 4 1 ( j o i n tp a r s i n go fs y n t a c t i ca n ds e m a n t i cd e p e n d e n c i e s ) ,整个任务 可以分解为三部分,其中后两步可以考虑联合学习。 1 ) 谓词识别和词义标注:识别出句子中的动词性谓语和名词性谓语,并为它们 辨别词义; 2 ) 依存句法分析:为句子进行依存句法分析; 3 ) 语义分析:为识别出的谓词分配语义角色。 它的主要目的有以下三个:1 ) 使用基于依存分析的句法和语义分析模型进行语 义角色标注,并评测性能;2 ) 进一步提高依存句法模型;3 ) 提出依存句法和语义分 析联合学习的实用框架。 c o n l l 2 0 0 8 共有2 0 支代表队参加了封闭测试,n u g u e s 等获得了最佳成绩, 在c o n l l 2 0 0 8s h a r e dt a s kw s j 语料上f l 达到了8 5 9 5 ,比c o n l l 2 0 0 5s h a r e dt a s k 的 最佳成绩( f 1 :7 9 4 4 ) 高了近六个百分点,说明基于依存关系的语义角色标注获得 了成功。 c o n l l 2 0 0 9s h a r e dt a s k 2 5 1 是c o n l l 2 0 0 8s h a r e dt a s k 的一个扩展,进行包括中文 在内的7 种语言( 英语,加泰罗尼亚语,中文,捷克语,德语,日语和西班牙语) 的 依存句法和语义的联合学习,评测方法保持不变,采用c o n l l 2 0 0 8 的评测脚本,最 终结果显示在中文上使用c o n l l 2 0 0 9 评测语料达到的最好语义角色标注系统性能是 7 8 6 0 ( l a b e l e df 1 值) 。 1 4 本文研究内容 本文旨在探索基于依存关系的中文动词性谓词和名词性谓词语义角色标注,由于 中文的大规模语料库发布较晚,相对于英文来说,中文s r l 的研究比较少,并且由 于没有大规模基于依存关系的语料库,相关的研究大都是在短语结构句法分析的基础 上展开,本文除了使用c o n l l 2 0 0 9s h a r e dt a s k 提供的中文动词性谓词依存语料,还使 第一章绪论 基于依存关系的中文语义角色标注研究 用依存分析工具分别把中文p r o p b a n k 和中文n o m b a n k 转换为基于依存关系的语料, 进行研究,课题主要探讨了以下几个问题t 1 ) 语义角色标注的子任务谓词标注。分别对动词性谓词进行识别和分类, 对名词性谓词进行识别,并探讨了动词性谓词识别与名词性谓词识别的不同之处。其 中在名词性谓词识别中,除了使用特征向量的方法之外,还应用了卷积树核的方法, 并对结果进行分析。 2 ) 研究基于特征的语义角色标注,分析不同的特征对语义角色标注性能的影响。 特别地,分别针对中文动词性谓词和名词性谓词的不同语言现象,采用不同的特征方 案,并探索了基于不同自动依存分析树的语义角色标注的性能。 3 ) 采用卷积树核的方法对名词性谓词语义角色标注进行探索性研究,通过构造 包含不同结构化信息的依存树,提高系统性能。 1 5 组织结构 第一章绪论 阐述了本课题的研究背景和研究意义,然后分别简述了动词性谓词及名词性谓词 语义角色标注的研究现状,并详细描述了基于依存关系的两次国际评测 c o n l l 2 0 0 8 2 0 0 9 。 第二章相关介绍 首先对语义角色标注进行了简单介绍,包括语义角色标注的定义、语料、评测; 描述了依存句法分析的原理及使用的语法,介绍了几种常用的依存句法分析工具;同 时对本文采用的统计机器学习模型最大熵模型、支持向量机模型进行了介绍。 第三章谓词标注 本章主要对谓词标注进行了研究,首先介绍了动词性谓词的识别和词义分类工 作;然后分别采用基于特征向量的方法和基于卷积树核函数的方法对名词性谓词进行 识别,并简单论述了卷积树核原理、本文最小生成树的构造以及对名词性谓词识别进 行有效的预处理;最后探讨了在谓词识别工作上基于短语结构句法分析与基于依存关 系句法分析的区别。 第四章基于特征向量的s i 也 描述了一个基于特征向量的语义角色标注系统,首先对系统的标注单元和本文所 6 基于依存关系的中文语义角色标注研究第章绪论 使用的标准框架进行了详细的描述;然后介绍了本章系统分别在基于动词性谓词和名 词性谓词的语义角色标注中使用的特征,分别给出影响系统性能的特征贡献度,并详 细分析了各特征及特征组合对系统性能的影响。 第五章基于树核函数的s r l 以依存关系作为标注单元,实现了一个基于树核函数的中文名词性谓词语义角色 标注平台,详细介绍了如何在依存树上构造适合树核函数的输入,并分别构建了公共 节点树( c t ) 、最小路径包含树( s p t ) 和最小树( m t ) ,在中文n o m b a n k 语料上进 行实验,取得不错的性能,为以后进一步研究基于树核函数的语义角色标注做了铺垫。 第六章总结与展望 总结了本文所取得的研究成果,指出不足之处,并对今后的研究提出了建议。 7 第二章相关介绍 基于依存关系的中文语义角色标注研究 第二章相关介绍 近年来,随着语义角色标注语料库的发布,研究人员提出了许多不同的方法实现 语义角色标注。同时研究语义角色标注需要很多相关领域的知识,如统计学、语言学 等,本章主要介绍一些与本文研究有密切关系的语义角色标注相关知识,为后面的研 究实验奠定基础。 2 1 语义角色标注概述 2 1 1 语义角色标注定义 所谓语义角色标注,就是对于给定句子,对句中的每个谓词( 动词、名词等) 分 析出其在句中的相应语义成分,并作相应的语义标记,如施事、受事、工具或附加语 等2 6 儿2 7 1 。具体而言,即标注句子中的一些成分为给定谓词的语义角色,这些成分作 为此谓词框架的一部分被赋予一定的语义含义。 例如,“【委员会a g e n t b f j 天t r a p 将要【通过v 】 此议案p a t i e n t 。 其中,“通过 为谓词,“委员会 、“此议案 和“明天”分别是其施事、受事和发生的时间。这句 话也可以表示成: 明天t m p 】【委员会a g e n t 将要 通过v 】【此议案p a t i e n t 。 【明天t m p 】 此议案p a t i e n t 将要被 委员会a

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论