




已阅读5页,还剩125页未读, 继续免费阅读
(计算机应用技术专业论文)基于特征向量的中英文语义角色标注研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于特征向量的中英文语义角色标注 中文摘要 基于特征向量的中英文语义角色标注研究 中文摘要 对句子进行正确的语义分析,一直是从事自然语言理解研究的学者们追求的主要 目标。随着通用领域句法分析等技术的发展,近年来语义分析开始触及更深层次的通 用领域,但是通用的深层语义分析仍然很难实现。因此目前人们更关心“浅层语义分 析 ,一种简化了的语义分析形式,只标注句子中与谓词有关的语义角色,如施事、 受事、时间和地点等。语义角色标注是浅层语义分析的一种实现方式,己成功应用于 信息抽取、问答系统和机器翻译等任务,是目前自然语言理解领域中的一个热点和关 键研究方向。 尽管语义角色标注研究己经取得了一定的成绩,但仍有一些问题亟待解决,如: 语义角色标注的性能严重依赖于句法分析的性能,在中文的语义角色标注中尤其突 出;系统发展遇到瓶颈,性能难以进一步提高等。以往研究表明,提高语义角色标注 系统性能的主要方法是使用基于特征向量的方法。因此本文的研究仍采用基于特征向 量的方法,使用不同的句法分析结果,提出更丰富和有效的语言学特征,并对标注的 各个过程进行改进,提高系统的性能。 本文的研究内容主要包括三个方面: 1 研究基于短语结构句法分析的语义角色标注,重点探索改进语义角色标注的 各个部分,提高系统性能。除了进行细致的特征工程外,还提出新的语法结构搭配特 征、基于中心词的剪枝算法和新的后处理机制。实验结果表明,系统取得的性能是目 前己知的基于单棵最佳句法分析树的s r l 的最佳性能。 2 研究基于依存句法分析的语义角色标注。在构建基于依存关系的语义角色标 注系统上,提出和改进基于依存关系的特征与剪枝算法,探索使用依存句法分析进行 谓词识别,详细比较分析与基于短语结构句法分析的语义角色标注之间的差异。实验 结果表明,在标准依存关系上,系统取得了目前已知的最好性能。 中文摘要基于特征向量的中英文语义角色标注研究 3 研究中文语义角色标注。探索使用英文语义角色标注的研究方法,对中文进 行语义角色标注。对于基于短语结构句法分析的系统,重点探索针对中文语言特点, 提出更具中文语言特色的特征,分析基于中心词的剪枝算法和后处理机制在中文上 的使用效果。对于依存句法分析,重点探索基于依存关系的中文谓词识别方法和建立 完整的中文语义角色标注平台,为这个方向的研究奠定基础。实验结果表明,基于短 语结构句法分析的系统结果超过了目前己知的最好结果。 本文的主要贡献在于对基于特征向量的语义角色标注进行了系统而深入的研究 与探索。在基于短语结构句法分析的系统中,提出了优化特征组合和新的具有中英文 语言特色的语法特征、基于中心词的剪枝算法、基于共现概率的去除重复论元和论元 嵌套算法。在基于依存句法分析的系统中,提出和改进了基于依存关系的特征与剪枝 算法,探索了使用依存关系进行中英文谓词识别,建立了基于依存关系的中文语义角 色标注平台,比较分析了与基于短语结构语义角色标注之间的差异。这些方法的研究 和所取得的成果有效地提高了语义角色标注的性能,对今后的研究具有重要的参考价 值。 关键词:自然语言处理,语义角色标注,短语结构句法分析,依存结果句法分析,谓 词识别 h 作者:王红玲 指导老师:钱培德 r e s e a r c ho nf e a t u r e - b a s e ds e m a n t i cr o l el a b e l i n gf o re n g l i s ha n dc h i n e s e a b s t r a e t r e s e a r c ho nf e a t u r e - b a s e ds e m a n t i cr o l el a b e l i n gf o r e n g l i s ha n dc h i n e s e a b s t r a c t c o r r e c ta n da u t o m a t i cs e m a n t i cp a r s i n gh a sa l w a y sb e e no n eo fm a j o rg o a l si nn a t u r a l l a n g u a g eu n d e r s t a n d i n g w i t ht h es o l i dd e v e l o p m e n to fs y n t a c t i cp a r s i n gd u r i n gt h ep a s t d e c a d e ,s e m a n t i cp a r s i n gh a sb e e nd r a w i n gm o r ea n dm o r ea t t e n t i o nr e c e n t l y h o w e v e r , d u et od i f f i c u l t yi nd e e ps e m a n t i cp a r s i n g ,c u r r e n tr e s e a r c h e sf o c u so ns h a l l o ws e m a n t i c p a r s i n g w h i c ha t t e m p t st ol a b e lp r e d i c a t e r e l a t e dc o n s t i t u e n t si nas e n t e n c ew i t hs e m a n t i c r o l e s ,s u c ha sa g e n ta n dp a t i e n t ,a n dh a sb e e nw i d e l ya p p l i e di ni n f o r m a t i o ne x t r a c t i o n , q u e s t i o na n da n s w e r i n g ,m a c h i n et r a n s l a t i o ne r e t h i sp a p e rw i l lt a c k l es e m a n t i cr o l el a b e l i n g ,ar e p r e s e n t a t i v es h a l l o ws e m a n t i c p a r s i n g a l t h o u g hr e c e n ty e a r sh a v es e e nm u c hp r o g r e s si ns e m a n t i cr o l el a b e l i n g ,t h e r e e x i s t ss o m ek e yi s s u e s f i r s t ,t h ep e r f o r m a n c eo fc u r r e n ts e m a n t i cr o l el a b e l i n gs y s t e m s h e a v i l yd e p e n d so nt h ep e r f o r m a n c eo fs y n t a c t i cp a r s i n g ,e s p e c i a l l yi nc h i n e s e s e c o n d ,i t i sh a r dt of u r t h e ri m p r o v et h ep e r f o r m a n c eo fs e m a n t i cr o l el a b e l i n g t oa d d r e s sa b o v e i s s u e s ,t h i sp a p e rs y s t e m a t i c a l l ye x p l o r e sf e a t u r e - b a s e dm e t h o d si ns e m a n t i cr o l el a b e l i n g w r ef o c u so n : 1 ) c o n s t i t u e n t b a s e ds r l i np a r t i c u l a r , v a r i o u ss t r u c t u r a lf e a t u r e sa r ei n v e s t i g a t e d a n do p t i m i z e d ,ah e a d - d r i v e np r u n i n ga l g o r i t h mi sp r o p o s e da n dt w op o s t - p r o c e s s i n g m e c h a n i s m sa r ee x p l o r e d ,t of u r t h e ri m p r o v et h ep e r f o r m a n c e e x p e r i m e n t a lr e s u l t ss h o w t h a to u rs y s t e ma c h i e v e sb e s t r e p o r t e dp e r f o r m a n c ef o rs r lo nt h et o p - b e s tp a r s et r e e 2 ) d e p e n d e n c y r e l a t i o n b a s e ds r l t h i si sd o n e b yp o r t i n g t h ea b o v e c o n s t i t u e n t b a s e ds r ls y s t e mt ot h e d e p e n d e n c yt r e es t r u c t u r e ,w i t h f o c u so nt h e d e v e l o p m e n to fs p e c i f i c f e a t u r e sa n d i m p r o v e dp r u n i n ga l g o r i t h m s i n c a p t u r i n g d e p e n d e n c yr e l a t i o n s i na d d i t i o n ,s y s t e m a t i ca n a l y s i sa n dc o m p a r i s o na r ep e r f o r m e d i i i a b s t r a c tr e s e a r c ho nf e 咖陀- b 硒e ds e m a n t i cr o l el a b e l i n gf o re n g l i s ha n dc h i n e s e b e t w e e nc o n s t i t u e n ta n dd e p e n d e n c yr e l a t i o n b a s e ds r l e x p e r i m e n t a lr e s u l t st h a to u r s y s t e ma c h i e v e sb e s t r e p o r t e dp e r f o r m a n c e o nt h eg o l dp a r s et r e e 3 ) s r li nc h i n e s e t h i si sd o n eb yp o r t i n gt h ea b o v et w os r ls y s t e m si ne n g l i s ht o t h ec h i n e s el a n g u a g e ,w i t hf o c u so ne x p l o r i n gs p e c i f i cc h a r a c t e r i s t i c si nc h i n e s e e x p e r i m e n t a l r e s u l t so nc o n s t i t u e n t - b a s e ds r ls h o wt h a to u rs y s t e ma c h i e v e s b e s t r e p o r t e dp e r f o r m a n c ei nc h i n e s e i na d d i t i o n ,w ep i o n e e rt h ew o r ko fb u i l d i n gaf u l l y a u t o m a t i cd e p e n d e n c yr e l a t i o n b a s e ds r la n dp r e d i c a t ed e t e c t i o np l a t f o r mi nc h i n e s e t h ec o n t r i b u t i o n so ft h i sp a p e rl i ei ns y s t e m a t i ca n di n d e p t hr e s e a r c ho ns e m a n t i cr o l e l a b e l i n gi nb o t he n g l i s h a n dc h i n e s ef r o mb o t ht h ec o n s t i t u e n ts t r u c t u r ea n dt h e d e p e n d e n c yt r e es t r u c t u r e ,e g t h eh e a d - d r i v e np r u n i n ga l g o r i t h ma n dt h ep o s t - p r o c e s s i n g m e c h a n i s m o u rr e s e a r c hs i g n i f i c a n t l yi m p r o v e st h ep e r f o r m a n c eo fs r la n dt h u se x h i b i t s a l li m p o r t a n tr e f e r e n c ev a l u et ot h ef u t u r ew o r ki ns e m a n t i cp a r s i n g k e y w o r d :n a t u r a ll a n g u a g ep r o c e s s i n g ,s e m a n t i cr o l el a b e l i n g ,c o n s t i t u e n t - b a s e ds r l , d e p e n d e n c yr e l a t i o n - b a s e ds r l ,p r e d i c a t ed e t e c t i o n i v w r i t t e n b yw a n gh o n g l i n g s u p e r v i s e db yq i a np e i d e 苏州大学学位论文独创性声明及使用授权的声明 学位论文独创性声明 本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进 行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含 其他个人或集体已经发表或撰写过的研究成果,也不含为获得苏州大学 或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡 献的个人和集体,均已在文中以明确方式标明。本人承担本声明的法律 责任。 研究生签名:2 壬2 丝 日 期: 学位论文使用授权声明 苏州大学、中国科学技术信息研究所、国家图书馆、清华大学论文 合作部、中国社科院文献信息情报中心有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本 人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文 外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分 内容。论文的公布( 包括刊登) 授权苏州大学学位办办理。 研究生签名:差乏三曼童日 导师签名: 雄雒啤卸 基于特征向量的中英文语义角色标注研究第1 章绪论 第1 章绪论 随着计算机技术的发展,自然语言理解也得到了快速的发展。对语言的研究一般 有四个层面:词法层、句法层、语义层和语用层,其中最重要的是语义层研究。语义 角色标注是浅层语义分析的一种实现形式,其实质是对句子进行浅层的语义分析。自 动语义角色标注自2 0 0 2 年发展以来,在英文的研究上已经取得了很大的进展;而针 对中文的研究还刚刚起步,同时受制于中文分词、词性标注、句法分析等处理的性能, 基于自动句法分析的中文语义角色标注性能相比于英文的系统还有很大的差距。 本章在描述课题研究的背景和意义的基础上,详细介绍了语义角色标注的各项内 容,包括定义、标注语料、标注方法和评测方法等,并对目前中英文的研究现状作了 详细分析,最后给出了本文的研究内容和论文的组织情况。 1 1 课题背景和意义 1 1 1 课题背景 随着计算机技术的快速发展,自然语言处理也正进入到一个飞速发展的时代,其 核心内容是“自然语言理解”。自然语言理解是人工智能的重要研究方向,目的是使 机器能够在一定程度上理解人类的自然语言,它是语言学、认知学、信息学的交叉领 域,是一个具有广阔应用前景同时又存在众多研究难题的领域【l 】。信息检索、信息抽 取、数据挖掘、知识发现、文本分类、内容分析、信息监控、自动文摘、机器翻译、 问答系统、基于自然语言的人机合作等,都是自然语言理解的具体应用。 对自然语言进行分析是自然语言理解的基础。所谓语言的分析,就是将一个句子 分解成一些小的组成部分( 词、短语等) 并确定这些部分之间的关系,从而帮助我们 把握这个句子的意义。语言的研究,一般而言存在四个层面:词法层、句法层、语义 层和语用层【2 】。同样,语言的分析也存在四个层面:词法分析、句法分析、语义分析 和语用分析,其中最重要的是语义分析层面。词法分析是在词汇的层次进行分析,包 括词性标注、词义排歧等。句法分析( s y n t a c t i cp a r s i n g ) 是根据一定的语法,推导出 第1 章绪论基于特征向量的中英文语义角色标注研究 句子的语法结构,即句子所包含的句法单位以及这些句法单位之间的关系。所以,句 法分析的输入是一个词串( 可能含词性等属性) ,输出是句子的句法结构句法分析也 是自然语言处理研究中的关键技术之一,句法分析结果的好坏直接影响到对自然语言 句子的解释和理解,它早已引起研究者的广泛关注,并取得了积极的进展。所谓语义 分析是指在自然语言句子的句法结构和辨析旬中每个实词的词义的基础上,推导出能 够反映这个句子意义( 即句义) 的某种形式化表示,即将人类能够理解的自然语言转 化为计算机能够理解的形式语言,做到人与机器的相互交流。语义分析在问答系统、 信息抽取、机器翻译等领域的广泛应用,使得其越来越受到从事自然语言处理的学者 们的重视。而语用分析则研究在一定上下文里语言的应用,包括所产生的字面意义和 蕴涵意义,以及可能产生的效果,目前在自然语言处理领域还鲜有研究。 使用计算机进行语义分析,经历了几个阶段。早期( 2 0 世纪6 0 年代7 0 年代) 自然语言理解的任务主要集中在语义理解、知识表示和推理等复杂的问题上,需要大 量和应用有关的专家知识,因此系统具有明显的局限性,难以扩充至其他领域。2 0 世纪8 0 年代,人们的主要注意力就集中在知识工程上。到了2 0 世纪9 0 年代,随着 网络的发展及应用,要求能够处理各种通用的语言现象1 3 】,因此许多自然语言的研究 转向信息检索领埘4 儿5 1 ,简单语义分析则少量应用于该领域中,用于提高系统的智能。 近年来,随着统计方法和理论的进一步发展和提高,出现了越来越多的基于统计来获 得语义的研究,如基于语料库的浅层语义分析。 本文所要研究的语义角色标注【6 j ( s e m a n t i cr o l el a b e l i n g ,s r l ) 属于浅层语义 分析( s h a l l o ws e m a n t i cp a r s i n g ) 。浅层语义分析可以看作是一种通用的信息抽取技术, 抽取的信息不再限定于某个类别( 如人名、地名等) ,而是抽取句子中相对通用的语 义信息,如某个动作的施事、受事等与领域无关的语义信息。 1 1 2 课题意义 对句子进行正确的自动语义分析,一直是从事自然语言理解研究的学者们追求的 主要目标。然而限于目前的技术水平,语义分析一直局限于受限领域。随着通用领域 句法分析等技术的发展,近年来语义分析开始触及更宽层次的通用领域。但是通用的 深层语义分析仍然很难实现,因此目前人们更关心“浅层语义分析 ,即一种简化了 2 基于特征向量的中英文语义角色标注研究 第1 章绪论 的语义分析形式。其语言学背景是题元一角色理论【7 1 ,用谓词一论元 ( p r e d i c a t e a r g u m e n t ) 结构来表示浅层语义分析的结果。由于动词对句义的理解起到 很关键的作用,因此,通常以动词为中心进行浅层语义分析。题元一角色理论认为, 动词的论元可以被描述为不同的层次,通过语义关系将论元分类。动作的施动者是做 事情的人或物,受动者是接受某件事物的人或物,其他的角色,例如工具或者目的, 描述了语义关系的其他类别。不同的动词和与之联系的实体( 人、动物和事物) 的数 目是不一样的。 由于语言学中题元一角色理论与语法分析的天然紧密联系,使得浅层语义分析对 句法分析也具有很强的依赖。它的主要特点有:( 1 ) 不考虑时态信息。例如“委员会 将通过此议案。”与“委员会通过了此议案。”,尽管它们的时态不同,但浅层语义分 析的结果是一样的,同为:“通过( 委员会,此议案) 。( 2 ) 浅层语义分析不考虑谓 语动词改变而语义不变的情况,例如“他出生于1 9 6 9 年3 月1 8 日。 与“他的生日 是1 9 6 9 年3 月1 8 日。 ,虽然它们的语义相同,但是浅层句法分析的表示结果并不一 样( 3 ) 浅层语义分析不考虑人、物等的指代情况【引。 语义角色标注是浅层语义分析的一种实现方式,该方法并不对整个句子进行详细 的语义分析,其实质是在句子级别进行浅层的语义分析。它具有分析任务定义明确, 便于评价等优点咿j 。 现阶段使用机器学习的方法进行语言分析是自然语言处理领域的一个热门方向, 且取得了不错的成绩。而语义角色标注综合了自然语言处理领域的基础技术,如分词、 词性标注、句法分析等,因此研究语义角色标注也为研究机器学习方法和那些底层的 技术提供了很好的研究平台。当然作为自然语言处理的基础技术,语义角色标注在很 多应用中也发挥了很大的作用。目前语义角色语义角色标注已在问答系统【l o 】【1 1 1 、信 息抽取【1 2 】【1 3 】、自动文摘【1 4 1 、文本蕴涵【1 5 】、机器翻译【1 6 1 等领域成功应用。以问答系统 为例,语义角色标注指明某一活动发生的时间、地点等语义角色,自然的可以对这些 类问题进行回答。因此目前语义角色标注引起了越来越多从事自然语言理解研究和应 用的学者们的重视。 正是对语义角色标注研究的日益重视,国际自然语言处理领域曾经举行过多次评 测,这些国际评测会议的召开大大推动了语义角色标注的发展。有关的测评分别为 s e n s e v a l 一3 以及c o n l l ( c o n f e r e n c eo nc o m p u t a t i o n a ll i n g u i s t i c sl e a r n i n g ) 会 第1 章绪论基于特征向量的中英文语义角色标注研究 议主办的s h a r e dt a s k2 0 0 4 、2 0 0 5 、2 0 0 8 和2 0 0 9 。其中s e n s e v a l - 3 是以f r a m e n e t 为训练和测试语料。c o n l ls h a r e dt a s k 则是以p r o p b a n k 为训练和测试语料库。 c o n l ls h a r e dt a s k2 0 0 4 主题是语义角色标注n 7 1 ( s e m a n t i cr o l el a b e l i n g ) , 并主要基于自动浅层句法分析。例如,来自c o l o r a d ou n i v e r s i t y 的h a c i o g l u 等引, 采取以短语为标注单元,语义角色识别和分类分步进行的策略,使用s v m 算法在不使 用全局特征的条件下,在c o n l ls h a r e dt a s k2 0 0 4 上获得了最好的标注结果,f 值 达到了6 9 4 9 。而c o n l ls h a r e dt a s k2 0 0 5 主要基于自动深层句法分析口引,例如来 自u i u c 的k o o m e n 等啪3 使用s n o w 分类器,综合多种深层句法分析的输出结果,加上 使用整数线性规划( i n t e g e rl i n e a rp r o g r a m m i n g ) 的后处理方法,在c o n l ls h a r e d t a s k2 0 0 5 上取得了最好的成绩,f 值达到了7 9 4 4 。 在经过了c o n l l2 0 0 6 和c o n l l2 0 0 7 两年的基于依存关系的句法分析的评测会议 后,c o n l l2 0 0 8 瞳门和2 0 0 9 幢2 1 在p r o p b a n k 和n o m b a n k 上把基于依存关系的句法分析与 语义角色标注进行联合学习,一起进行评测。2 0 0 8 年的评测仅针对英语。而目前正 在进行的c o n l l2 0 0 9 ,主题仍然是依存句法分析与语义角色标注的联合学习,但将 语言扩充为多种,包括英语、中文、瑞典语、日语、德语等。 1 2 语义角色标注概述 本节系统地介绍了自动语义角色标注的定义、目前常用的标注语料资源、标注方 法和评测方法等。 1 2 1 语义角色标注定义 所谓语义角色标注,就是对于给定句子,对句中的每个谓词( 动词、名词等) 分 析出其在句中的相应语义成分,并作相应的语义标记,如施事、受事、工具或附加语 等乜3 儿2 引。具体而言,即标注句子中的一些成分为给定谓词的语义角色,这些成分作为 此谓词框架的一部分被赋予一定的语义含义。 例如,“【委员会a g e n t b f 天t m p 将要【通过v 【此议案p a t i e n t 。 其中,“通过” 为谓词,“委员会”、“此议案”和“明天 分别是其施事、受事和发生的时间。这句 话也可以表示成: 4 基于特征向量的中英文语义角色标注研究 第1 章绪论 【明天t m p 【委员会a g e n t 将要【通过v 】 此议案p a t i e n t 。 明天t m p 】【此议案p a t i e n t 将要被【委员会a g e n t 】【通过v 】。 【此议案p a t i e n t 】【明天t m p 将要被【委员会a g e n t 】 通过v 】。 这些句子虽然句法形式不同,但是它们的含义是一样的,也就是说谓词“通过 的各个论元角色相同。在上面的例子中,“通过的参数有a g e n t 、p a t i e n t 、t m p 等。 所以,语义角色标注的任务就是给出句子中词或词组相对于谓词的语义标签。 通常语义角色标注任务又可分为语义角色识别和语义角色分类两个子任务。下面 从形式化的角度给出了它们的定义: 定义1 语义角色标注( s e m a n t i cr o l el a b e l i n g ) :给定一个谓词p ,决定句 子s 中子串的语义标签。其中每个子串都能由一组单词表示,子串索引集合 c 冬 1 ,2 ,聊 ,m 为句子中单词个数。更加正式的,一个语义角色标签是一个从s 的 子串集合到标签集合l 的映射,即:2 2 州h 三。l 包括所有论元角色和空角色n o n e 。 定义2 语义角色识别( i d e n t i f i c a t i o n ) :从句子的子串集合中将论元角色子 串与其他子串区分出来,即:2 2 ”i - - 4 n o n e ,a r g 。研究表明,这是一个非常困 难的任务,一个句子中通常只有卜9 ( 平均2 9 ) 个子串具有语义标签,其余均为空 角色。 定义3 语义角色分类( c l a s s i f i c a t i o n ) :给定一个具有a r g 标签的子串集合, 决定集合中每个子串的确切的语义标签,即:2 2 _ 州h 扒 n o n e 。 1 2 2 语义角色标注语料 和其他有指导的自然语言处理技术一样,进行自动语义角色标注,需要规模大、 质量高的语料资源的支持。目前,英语较为知名的语义角色标注资源为f r a m e n e t 疆1 、 p r o p b a n k 2 5 3 和n o m b a n k 冽。 除英语外,许多其它语言也建立了各自的语义角色标注库,例如:s a l s a 是德语 版的f r a m e n e t :p r a g u ed e p e n d e n c yt r e e b a n k 项目针对捷克语语料进行了多层次的 句法和语义标注,甚至包括指代消解的标注等;中文的c h i n e s ep r o p b a n k 以及 c h i n e s en o m b a n k 分别是u p e n n 基于c h i n e s ep e n nt r e e b a n k 标注的,分别与英文的 第1 章绪论 基于特征向量的中英文语义角色标注研究 p r o p b a n k 以及n o m b a n k 相对应,使用动词和名词作为谓词的中文语义角色标注资 源。 f r a m e n e t f r a m e n e t 由u c b e r k e l e y 开发,它以框架语义为标注的理论基础,对英国国家 语料库( b n c ) 进行了部分标注。框架语义学的中心思想是:词的意义的描述必须跟 语义框架相联系。框架是信仰、实践、制度、想象等概念结构或概念模式的图式表示, 是言语社团中人们相互交流的基础。他们把框架网项目的任务设定为: ( 1 ) 描述给定词项所隶属的概念结构,即框架; ( 2 ) 从语料库中抽取包含某个词的句子;并按照该词的义项选择句子加以示例; ( 3 ) 对所选的句子进行框架元素标注; ( 4 ) 汇总框架元素标注结果,显示每个词项在组合上的可能性,即“配价描述”。 图1 1f r a m e n e t 框架及句子的角色标注 f r a m e n e t 试图描述一个词汇单元( 动词和部分名词以及形容词) 的框架,同时 也试图描述这些框架之间的关系。从2 0 0 2 年6 月发布开始到现在共标注了4 9 ,0 0 0 旬。其中,每个句子都标注了目标谓词( 包括动词、部分名词和形容词) 和其语义角 色、该角色句法层面的短语类型( 如n p ,v p 等) 以及句法功能( 如主语、宾语等) 。 f r a m e n e t 现包含l ,4 6 2 个谓词。图1 1 是f r a m e n e t 中表示身体动作的语义框架以及 其对一个句子的标注实例。显然,f r a m e n e t 更像是一部语义词典。 p r o p b a n k 和n o m b a n k p r o p b a n k ( p r o p o s i t i o nb a n k ) 是u p e n n 在宾州大学树库( p e n nt r e e b a n k ) 句法 分析的基础上,标注浅层语义信息,通过把句子转换成命题来统一语义的表现形式, 例如对句子“k r i s t i n ah i ts c o t t ”转换成h i t ( k r i s t i n a ,s c o t t ) 。具体做法是在 6 基于特征向量的中英文语义角色标注研究 第1 章绪论 p e n nt r e e b a n k 的句法结构上添加一层“谓词一论元”信息( 或语义角色标签) ,即 把语义角色指派到树库的句法树的有关结点上,来实现浅层的语义表示。不涉及指代 ( a n a p h o r aa n dc o r e f e r e n c e ) 、量化( q u a n t i f i c a t i o n ) 、体( a s p e c t ) 和模态 ( m o d a l i t y ) 等高阶的相对深层次的语义现象。p r o p b a n k 旨在提供一个覆盖面广的 用手工标注语义角色的语料库,使得开发更好的独立于领域的语言理解系统、对论元 结构句法实现时发生变化的原因和方式的计量研究等成为可能。他们为每一个动词定 义了一组底层的语义角色,并在树库中的每一次出现上进行角色标注。 p r o p b a n k 并不对产生句式变化的原因和方式进行理论解释,而是通过提供一种 有用的表示层次和一个具有标注材料的语料库,来使得上述这种经验研究成为可能。 他们尽可能地参考了l e v i n 的动词分类,以保证同一类动词被赋予一致的角色标签。 但是,命题库本身并不定义一组动词类别,也不企图对它所定义的角色的语义进行形 式化。鉴于定义一组普遍的、覆盖所有类型的谓词的语义( 或论旨) 角色的困难,命 题库以一个一个动词为基础来定义语义角色。每一个具体动词的语义论元被编了号 ( 从0 开始) 。对于一个特定的动词,a r g o 通常是表现出d o w t y 中的原型施事的有 关特征的论元,a r g l 则是原型受事和主事( t h e m e ) 。对于这种被编了号的高级论元, 无法做出适合于不同动词的具有一致性的概括。 此外,命题库还定义了几种适合于任何动词的比较普遍的附属角色。比如,类似 于状语的论元a r g m s ,具体的细目如表1 1 。其中,跟动词的特定用法相对应的一组 角色叫角色集合( r o l e s e t ) ,这组角色可以跟一组句法框架( s y n t a c t i cf r a m e ) 相 联系,这组句法框架显示了表达那组角色的各种可能的句法变化( s y n t a c t i c v a r i a t i o n ) 。带有相关联的框架的角色集合叫框架集合( f r a m e s e t ) 。标注规范中 为每一个角色建立的解说符字段( d e s c r i p t o rf i e l d ) ,诸如k i c k e r 或i n s t r u m e n t , 它们在标注过程中作为脚注来使用,但是不具有理论地位。此外,每一个框架集合都 配有一组例子,它们尽量覆盖动词的那种用法的一系列句法交替形式( s y n t a c t i c a l t e r n a t i o n s ) 。一个动词的框架集合条目的汇集,叫做这个动词的框架文档( f r a m e f i l e ) 。他们认为采用编号论元( 及其助记名称) 的好处是:这种编号论元在不同的 理论观点之间标定了一种中间位置,可以方便又一致地影射到任何论元结构理论中 去。 7 第1 章绪论基于特征向量的中英文语义角色标注研究 表1 1p r o p b a n k 中附加论元列表一a r g m s 标签描述例子 a r g m l o c位置t h em u s e u m ,i nw e s t b o r o u g h , m a s s a r g m t m p时间 n o w ,b yn e x ts u m m e r a r g m 【】、j r 方式 h e a v i l y , c l e a r l y , a tar a p i d r a t e a r g m d i r方向t om a r j c e t t ob a n g k o k a r g m c a u 理由 i nr e s p o n s et ot h er u l i n g a r g m d is 语篇f o re x a m p l e i np a r t , s i m i l a r l y a r g m e x t 程度 a t $ 3 8 3 7 5 , 5 0 p o i n t s a r g m p r p目的t op a y f o ,t h ep l a n t a r g m n e g 否定n o t , n ,f a r g m m o d 情态 c a n ,m i g h t , s h o u l d , w i l l a r g m i 之e c同指 e a c ho t h e r a r g m p r d 次谓词 l ob e c o m eat e a c h e r a r g m空a r g mw i t ha p o l i c ee s c o r t a r g m a d v状语 ( n o n eo f t h ea b o v e ) 他们区分框架集合的标准是同时基于句法和语义,当多义动词的不同的意义差别 足以要求不同的角色集合时,应该为每一个义项设立一个框架集合。但是,保持动词 意义的句式变异,诸如致使起始( c a u s a t i v e i n c h o a t i v e ) 或宾语删略都只看作是 一个框架集合。论元的句法类型的不同,不影响框架集合的分合。“动词+ 小品词 结构独立于相应的动词,不管它们在意义上是否接近。比如,c u t 和c u to f f 可以认 为是不同的动词。动词和小品词也可以不挨在一起。这样,框架集合可以看作是对动 词意义( 义项) 的粗粒度( c o a r s eg r a i n e d ) 的划分。 例如以下句子是p r o p b a n k 中的一个标注实例: “【a r g o p i m 甘w e a m - m o dw o 】 a m n e gn t 】【1 v 。e l bp u t 【a r 9 1 t l l i 。ga n yb u r d e n a r 9 2 、v h c 他o n f a r m e r s ,”h es a i d例句( 1 ) “【a r g l u n 咖w ew on tp u ta n yb u r d e no nf a r m e r s ,”【a r g o s 卵h e 】,c r bs a i d 】例句( 2 ) 在句中有两个动词谓词p u t 和s a i d ,所以有两个不同的标注角色。 例句( 1 ) 、( 2 ) 中两个动词谓词的论元集如下: p u t 0 1 l o c a t i o n ”的角色集: 8 基于特征向量的中英文语义角色标注研究 第l 章绪论 a r g o :p u t t e r :a r g l :t h i n gp u t :a r 9 2 一l o c :w h e r ep u t s a y 0 1 ”s a y ”的角色集: a r g o :s a y e r :a r g l :u t t e r a n c e :a r 9 2 :h e a r e r :a r 9 3 :a t t r i b u t i v e p u t 有3 个角色集,只列出实例词意的角色集。角色集中的角色在一个旬中不一 定全部出现。 与f r a m e n e t 不同的是,p r o p b a n k 只对实义动词( 非系动词) 进行标注,相应的 被称作目标动词。而且只包含1 9 个语义角色,相同的语义角色由于目标动词不同会 有不同的语义含义。与f r a m e n e t 相比,p r o p b a n k 基于p e n nt r e e b a n k 手工标注的句 法分析结果,因此标注的结果几乎不受句法分析错误的影响,准确率较高;而且它几 乎对p e n nt r e e b a n k 中的每个动词及其语义角色进行了标注,因此覆盖范围更广,可 学习性更强。 为了弥补p r o p b a n k 仅以动词作为谓词,存在标注过于粗略的缺点,纽约大学的 研究人员开发了n o m b a n k 。与p r o p b a n k 不同的是,n o m b a n k 标注了p e n nt r e e b a n k 中 的名词性的谓词及其语义角色,参数的类别和表示同p r o p b a n k 是一样的。例如:名 词短语“j o h n sr e p l a c e m e n tb e n 和“b e n sr e p l a c e m e n to fj o h n ”中,名词 r e p l a c e m e n t 承担谓词;b e n 是a r g o ,表示替代者;j o h n 是a r g i ,表示被替代者。 由于p r o p b a n k 规模较大,覆盖范围广,同时也广为研究者使用。为了便于结果 比较,在本文中英文语义角色标注实验均采用p r o p b a n k ,中文语义角色标注均采用 c h i n e s ep r o p b a n k 。 1 2 3 语义角色标注方法 1 2 3 1 标注单元 对于给定的句子,需要首先进行语法或句法分析。句法分析除了人工标注( 称为 g o l d 标注) 外也可使用现成的自动句法分析工具( 称为a u t o 标注) ,常用的工具有: 基于短语结构的句法分析,如c o l l i n s ,c h a r n i a k sp a r s e r 等的句法分析工 具; 浅层句法分析,如基于组块的句法分析; 依存关系分析,如m a l t p a r s e r ,m s t p a r s e r 等。 9 第1 章绪论基于特征向量的中英文语义角色标注研究 其他工具:语义知识源( 如w o r d n e t ) 和实体类别等。 根据对句子的不同标注情况,语义角色
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2021年人民警察节活动训练学习心得与体会五篇
- 2025年教师招聘之《幼儿教师招聘》题库必背100题含答案详解(精练)
- 教师招聘之《幼儿教师招聘》综合提升测试卷及答案详解(典优)
- 2025年教师招聘之《小学教师招聘》通关提分题库及完整答案详解【各地真题】
- 教师招聘之《幼儿教师招聘》考试彩蛋押题附答案详解【模拟题】
- 教师招聘之《幼儿教师招聘》自测题库及参考答案详解(模拟题)
- 2025年教师招聘之《小学教师招聘》通关提分题库附答案详解【培优】
- 实商务英语综合教程(第一册)-课件 Unit 9 Business Environment
- 2025年新能源商用车辆在电力运输中的应用场景分析报告001
- 教师招聘之《幼儿教师招聘》练习题(一)附参考答案详解【典型题】
- 品质异常处理流程培训
- 《陆上风电场工程概算定额》NBT 31010-2019
- CFG桩复合地基沉降及承载力自动计算
- 浅析加强物资采购质量的措施
- 青岛版二年级下册万以内数的加减法竖式计算300题及答案
- 2024年天津港集团有限公司招聘笔试参考题库附带答案详解
- 传统体育运动在小学课堂中的应用课件教案
- 类脑计算与神经网络
- 手术授权申请表
- 2023年度全国出版专业技术人员职业资格考试-基础知识(初级)试题
- 2023届高考语文备考之整句与散句变换(10道真题含答案)
评论
0/150
提交评论