已阅读5页,还剩61页未读, 继续免费阅读
(计算机应用技术专业论文)基于树核函数的中文实体语义关系抽取方法的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于树核函数的中文实体语义关系抽取方法的研究 中文摘要 基于树核函数的中文实体语义关系抽取方法的研究 中文摘要 实体语义关系抽取是信息抽取中的重要部分,其目的是从文本中找出实体对之间 的语义关系并对它们进行分类。现阶段在英文语料上的实体关系抽取研究已经开展的 比较全面和深入,取得的f 值达到7 5 以上,不过离实用化还有一段距离。与英文 关系抽取研究相比,中文的研究起步相对较晚,现阶段的研究方法大多是把英文中的 基于特征向量的方法移植到中文环境里面,取得的性能也比英文低。另一方面,基于 核函数的方法由于能捕获关系实例的结构化信息,在英文关系抽取中取得了较好的性 能,而在中文关系抽取中还需要深入的研究。 本文研究了基于树核函数方法的中文实体语义关系抽取,研究内容主要包括: 1 构建一个中文实体关系抽取原型系统,比较中英文语料资源的实体类型以及 关系类型的不同点,解决中文语料的预处理工作中所遇到的问题。 2 提出基于卷积树核函数的中文语义关系抽取方法,改进关系实例结构化信息 的表达形式,比较和分析中英文语义关系抽取中各类实体关系之间的差异。 3 研究实体语义信息在中文语义关系抽取中的作用,并将实体语义信息和句法 结构化信息结合成中文实体语义关系树,它能有效捕获关系实例的结构化信息和实体 的语义信息。 实验结果表明,同英文语义关系抽取一样,基于树核函数的方法在中文语义关系 抽取中也能取得合理的性能,并且实体语义信息的加入又明显提高了关系抽取的性 能,最终的f 值达到了6 4 2 ,为下一步的研究工作奠定了良好的基础。 关键字:实体关系抽取;卷积树核函数;实体语义信息;s 作者:庄成龙 指导老师:周国栋 钱龙华 a b s t r a c tr e s e a r c ho nt r e ek e r n e l b a s e ds e m a n t i cr e l a t i o ne x t r a c t i o nb e t w e e nc h i n e s en a m e de n d t i c s r e s e a r c h0 nt r e ek e r n e l b a s e ds e m a n t i cr e l a t i o n e x t r a c t i o nb e t w e e nc h i n e s en a m e de n t i t i e s a b s t r a c t s e m a n t i cr e l m i o ne x t r a c t i o ni sas u b t a s ko fi n f o r m a t i o ne x t r a c t i o n , w h i c ha i m st of i n d v a r i o u sp r e d e f i n e ds e m a n t i cr e l a t i o n sb e t w e e np a i r so fe n t i t i e si nt e x t 1 1 1 ec u r r e n tr e s e a r c h o ne n g l i s hr e l a t i o ne x t r a c t i o nh a sa c h i e v e db e t t e rp e r f o r m a n c e ,诵t l lfs c o r eg r e a t e rt h a n 7 5 n e v e r t h e l e s s ,t h e r es t i l le x i s t sab i gg a pb e t w e e nr e s e a r c ha n dp r a c t i c a la p p l i c a t i o n i nc o n t r a s tw i t he n g l i s hr e l a t i o ne x t r a c t i o n ,t h er e s e a r c ho nc h i n e s er e l a t i o ne x t r a c t i o ni s s t i l li ni t si n i t i a lp h a s e m a n yr e s e a r c h e r sh a v ea p p l i e df e a t u r e b a s e dm e t h o d sc h i n e s e r e l a t i o ne x t r a c t i o n , w h i c hl e a dt od i s a p p o i n t i n gp e r f o r m a n c e s o nt h eo t h e rh a n d , k e r n e l - b a s e dm e t h o d sh a v eo b t a i n e db e r e t p e r f o r m a n c ei ne n g l i s hr e l a t i o ne x t r a c t i o n , b e c a u s ei te f f e c t i v e l yc a p t u r e ss t r u c t u r a li n f o r m a t i o ni nr e l a t i o ni n s t a n c e s ,w h i l ei tn e e d s e x t e n s i v er e s e a r c hf o rc h i n e s er e l a t i o ne x t r a c t i o n t l l i sp a p e rp r o p o s e sat r e ek e r n e l - b a s e dm e t h o df o rc h i n e s es e m a n t i cr e l a t i o n e x t r a c t i o n , i n c l u d i n gt h ef o l l o w i n go b j e c t i v e s : 1 b u i l dae f f e c t i v ec h i n e s er e l a t i o ne x t r a c t i o np r o t o t y p es y s t e n ha n dc o m p a r et h e d i f f e r e n c eo nr e l a t i o na n de n t i t yt y p e sb e t w e e nc h i n e s ea n de n g l i s h i na d d i t i o n , w e a d d r e s st h et e c h n i c a l p r o b l e m se m e r g i n gd u r i n gt h e c o u r s eo fc h i n e s e c o r p u s p r e p r o c e s s i n g 2 p r o p o s ea c o n v o l u t i o nt r e ek e r n e l - b a s e dm e t h o df o rc h i n e s es e m a n t i cr e l a t i o n , a n dr e f i n et h es t r u c t u r a lr e p r e s e n t a t i o nf o rr e l a t i o ni n s t a n c e s 、ea l s oc o m p a r ea n da n a l y z e t h ed i f f e r e n c eo fv a r i o u sr e l a t i o nt y p e sb e t w e e nc h i n e s ea n de n g l i s h 3 i n v e s t i g a t et h ee f f e c to fe n t i t ys e m a n t i ci n f o r m a t i o no nc h i n e s es e m a n t i cr e l a t i o n e x t r a c t i o n f u r t h e r m o r e ,t h e s ep i e c e so fs e m a n t i ci n f o r m a t i o na r ec o m b i n e d 晰t hs y n t a c t i c s t r u c t u r a li n f o r m a t i o nt of o r mac h i n e s ee n t i t ys e m a n t i cr e l a t i o nt r e e ,w h i c hc a ne f f e c t i v e l y c a p t u r eb o t ht h es t r u c t u r a li n f o r m a t i o na n de n t i t ys e m a n t i ci n f o r m a t i o n e x p e r i m e n tr e s u l t si n d i c a t et h a tk e r n e l - b a s e dm e t h o da c h i e v e sr e a s o n a b l ep e r f o r m a n c e o l lc h i n e s er e l a t i o ne x t r a c t i o na si td i do ne n g l i s h m o r e o v e r , t h ea d d i t i o no fe n t i t y r e s e a r c ho nt r e ek e r n e l - b a s e ds e m a n t i cr e l a t i o ne x t r a c t i o nb e t w e e nc h i n e s en a m e de n t i t i e s s e m a n t i ci n f o r m a t i o ni n t ot h es t r u c t u r a ls y n t a c t i ci n f o r m a t i o nl e a d st os i g n i f i c a n t i m p r o v e m e n ti nt h ep e r f o r m a n c eo ft r e ek e r n e l - b a s e dr e l a t i o ne x t r a c t i o n , 、砘t 1 1t h ef i n a lf s c o r ee q u a l s6 4 2 ,t h u sl a y saf a i r l yg o o df o u n d a t i o nf o rf u r t h e rr e s e a r c h k e y w o r d s :s e m a n t i cr e l a t i o ne x t r a c t i o n ;t r e ek e r n e l ;s e m a n t i ci n f o r m a t i o n ;s v m 珊 w r i t t e n b y s u p e r v i s e db y z h u a n gc h e n g l o n g z h o ug u o d o n g q i a nl o n g h h a 苏州大学学位论文独创性声明及使用授权的声明 学位论文独创性声明 本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进 行研究工作所取得的成果。除文中己经注明引用的内容外,本论文不含 其他个人或集体已经发表或撰写过的研究成果,也不含为获得苏州大学 或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡 献的个人和集体,均己在文中以明确方式标明。本人承担本声明的法律 责任。 研究生签名:鸯。题立日 学位论文使用授权声明 苏州大学、中国科学技术信息研究所、国家图书馆、清华大学论文 合作部、中国社科院文献信息情报中心有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本 人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文 外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分 内容。论文的公布( 包括刊登) 授权苏州大学学位办办理。 研究生签名:礁亟么 日 导师签名: 基于树核函数的中文实体语义关系抽取方法的研究第一章绪论 第一章绪论 为适应信息爆炸带来的严重挑战,如何从海量信息源中迅速找到真正需要的信 息,是目前迫切需要解决的关键技术。信息抽取技术的研究正是在这种背景下而发展 起来的。 1 i 研究背景 进入二十一世纪以来,随着科技的不断进步,尤其是随着互联网技术的快速发展 和完善,为人们提供了一个较好信息交流的平台,信息获取途径更加广泛而且便捷。 然而这也使得现实世界中的信息量迅猛增加,甚至远远超出了人类阅读的能力。人们 面临着如何从这么庞大而杂乱的信息中准确而快速的选择自己所需信息的问题。比如 你想了解北京奥运会火炬传递在欧洲的情况,当我们在互联网上搜索时,浏览器会给 我们返回大量相关文章报道,这些文章报道有些是我们需要的而也有很多却不是,那 么如何从这些报道中更进一步过滤那些我们不需要的信息,使搜索结果更接近我们的 需求,从而减少读者的阅读量和时间昵? 信息抽取技术就是针对人们的这种迫切需求 而提出的解决方案。 信息抽取( i n f o r m a t i o ne x 订a c t i o n ) 的主要目的是:以用户需要的格式抽取指定 的信息,对传统信息检索的结果进行进一步加工和细化,从无结构的自然语言文本中 抽取特定的事件、事实等信息,再转化为结构化或半结构化的信息,然后储存在数据 库中,供查询以及进一步分析利用,为数据挖掘、问答系统、文本挖掘等应用系统提 供重要基础。例如从传统的搜索网页中检索矿难事件,然后编写模版把这些事件按照 时间发生的地点、时间、破坏影响程度以及伤亡人数等方面进行分类归档总结,如表 1 - 1 所示。 根据实际应用,信息抽取分为命名实体识别( n a m e de n t i t yr e c o g n i t i o n ) 、指代 消解( c o r c f c r c n c er e s o l u t i o n ) 以及关系抽取( r e l a t i o ne x t r a c t i o n ) 、事件抽取( e v e n t e x t r a c t i o n ) 等子任务,本文的研究主要涉及实体关系抽取领域。关系抽取的主要任 务是检测和识别实体对间的限定的类型关系,包括大类和子类。例如在“中国移动公 第一章绪论 基于树核函数的命名实体语义关系抽取方法的研究 司总裁王建宙赴瑞士参加2 0 0 9 年世界经济论坛。”这句话中的实体“中国移动公司” 和实体“王建宙”之间存在一种雇佣关系,表示后者受雇于前者。信息抽取任务的研究 首先由美国国防高级研究计划委员会资助的m u c ( m e s s a g eu n d e r s t a n d i n g c o n f e r e n c e ) 【l 】会议上引入,后来历经美国国家标准技术研究院( n i s t ) 组织的自动内 容抽取( a c e :a u t o m a t i cc o n t e n te x t r a c t i o n ) 【2 】评测竞赛,至今取得了较多技术成果 并成功应用到实际系统中。 表1 1 信息抽取实例 人民网临汾1 2 月8 日凌晨电( 记者王科、鲍丹) 1 2 月7 日2 l 时4 0 分,当最后 一班救援人员走出坑口时,山西洪洞“1 2 5 矿难”抢险工作全部结束。连续3 8 小时 的轮班搜救,救援人员救出1 5 名矿工,找到1 0 4 名遇难者尸体。 事件类型矿难 时间1 2 月7 日2 1 :4 0 地点山西洪洞 伤亡人数 1 0 4 1 2 研究内容 在m u c 会议和a c e 评测的推动下,基于英文语料的信息抽取的技术水平有了 长足的进步,一些技术也趋于成熟稳定,英文语料关系抽取的性能也达到了一个相对 较好而且稳定的水平,在基于卷积树核函数关系分类方面的f 值达到7 7 1 。可是由 于语料库缺乏,句法分析、命名实体识别等中文基础研究薄弱原因,中文关系抽取领 域的研究在我国才刚刚起步,现阶段针对中文关系抽取的性能还很低,落后于英文的 研究。因此尽快启动中文关系抽取的研究,改善中文抽取性能以缩小同英文的差距已 经迫在眉睫。由于我们关系抽取研究小组在英文语料的关系抽取方面也取得了不错的 成绩,有较好的基础平台,对中文关系抽取有很好的指导作用,本文研究的主要内容 为: 1 语料预处理:中文的基础工作不成熟,是造成中英文实体关系抽取性能差距的重 要原因。参考英文语料的预处理,针对中文自身的语言特点进行有针对性的基础 工作研究。例如,中文的分词,句法分析,不规则用语( 比如网络语言) 的处理 等。 2 基于树核函数的中文实体语义关系抽取方法的研究 第一章绪论 2 完善中文关系抽取平台,添加关系实例过滤等模块,通过对关系实例进行过滤来 优化分类器训练速度。 3 研究基于卷积树核函数的中文实体关系抽取的特点和结构化关系实例的表达方 式。 4 研究实体语义信息对中文实体语义关系抽取的作用,探寻可以提高关系抽取性能 的方法。 1 3 研究意义 本文的研究内容是基于树核函数的中文语料实体语义关系抽取的方法,其具有以 下重要研究意义: 1 基于核函数的方法起步相对晚,性能还有很大的提升空间。本文研究方法利 用关系实例的结构化信息和类型特征等平面信息,提高关系实例的区分度, 从而有效的提升关系抽取的性能。 2 中文的关系抽取研究刚刚起步,现阶段对中文实体关系抽取的研究还不全面, 大多是针对某些大类等细节,并且取得的性能比较低,数据不充分可比性差, 针对各类关系进行系统的抽取研究成果至今没有较系统的发表。 3 中文的关系抽取的实验取得的性能较低。一方面由于英文和中文的语言差异, 导致了国际上常用的关系抽取的方法移植到中文后,取得的性能很低。另一 方面是由于中文的基础工作与英文的差距较大,比如句法分析的性能等等, 由于关系抽取对句法分析的依赖性较大,直接导致了中文关系抽取的性能无 法提高。 以上几个问题反应了现阶段中文实体关系抽取的现状,如何解决这些问题是本文 研究的主要出发点,也是提高中文的关系抽取性能的关键所在。 1 4 信息抽取概述 信息抽取的研究经历了几十年的发展,已经成为自然语言处理研究领域重要分支 之一。本节首先介绍信息抽取的发展历史,然后描述一个实际的信息抽取系统的体系 结构,接着给出信息抽取系统的主要评测标准,最后指明信息抽取系统的若干关键技 第一章绪论基于树核函数的命名实体语义关系抽取方法的研究 术及其作用。 1 4 1 信息抽取发展历史 从自然语言文本中获取结构化信息的研究最早开始于2 0 世纪6 0 年代中期,该阶 段被看作是信息抽取技术的初始研究,它以两个长期的、研究性的自然语言处理项目 为代表。 美国纽约大学开展的l i n g u i s t i cs t r i n g 项引3 】开始于6 0 年代中期并直延续到8 0 年代。该项目的主要研究内容是建立一个大规模的英语计算语法,与之相关的应用是 从医疗领域的x 光报告和医院出院记录中抽取信息格式( i n f o r m a t i o nf o r m a t s ) ,这种 信息格式实际上就是模板( t e m p l a t e s ) 。 另一个相关的长期项目是由耶鲁大学r o g e r s c h a n k 及其同事在2 0 世纪7 0 年代开 展的有关故事理解的研究。由他的学生g e r a l dd ej o r l g 设计实现的f r u m p 系统1 4 1 是 根据故事脚本理论建立的一个信息抽取系统。该系统从新闻报道中抽取信息,内容涉 及地震、工人罢工等很多领域或场景。 在2 0 世纪8 0 年代,出现了三个用于商业目的的信息抽取系统。第一个用于商 业目的的信息系统是用于自动处理银行转账信息的a t r a n s 。不久,卡内基集团为 路透社开发了一个通过新闻分析公司收入和盈利的系统j a s p e r 。另外一个是通用公 司为了分析公司合并和盈利而开发的s c i s o r 系统。 从2 0 世纪8 0 年代末开始,信息抽取研究蓬勃开展起来,这主要得益于消息理解 系列会议m u c ( m e s s a g eu n d e r s t a n d i n gc o n f e r e n c e ) 【5 】【q 的召开。正是m u c 系列会 议使信息抽取发展成为自然语言处理领域一个重要分支,并一直推动这一领域的研究 向前发展。 从1 9 8 7 年开始至1 j 1 9 9 8 年,m u c 会议共举行了七届,它由美国国防高级研究计划委员 会资助。m u c 会议评测主要针对英文语料资源,后两届加入了中文语料资源,面向 新闻信息提取。在每次m u c 会议前,组织者首先向各参与者提供样例文本和有关抽 取任务的说明,然后让他们开发能够处理这种消息文本的信息抽取系统。在正式会议 前,由每位参与者运行各自的系统处理给定的测试消息文本集合,把各个系统的输出 结果与手工标注的标准结果相对照得到最终的评测结果。最后才是所谓的会议,由参 4 基于树核函数的中文实体语义关系抽取方法的研究第一章绪论 与者交流思想和感受。后来,这种评测驱动的会议模式得到广泛推广,如1 9 9 2 年开始 举行的文本检索会议t r e c l 等。m u c 的评测任务涉及命名实体识别、同指关系消解、 模板元素填充、模板关系确定等领域。 历届m u c 评测会议的概况如下表1 2 所示。 表1 2 历届m u c 会议评测内容概况 会议年份文本领域 m u c 11 9 8 7 海军军事情报 m u c 2 1 9 8 9 海军军事情报 m u c 31 9 9 1 恐怖袭击 m u c 41 9 9 2 恐怖袭击 m u c 51 9 9 3 公司合资、微电子芯片制造处理 m u c 61 9 9 5 人事职务变动 m u c 71 9 9 7 飞机失事、航天器发射 m u c 的信息提取评测的工作模式: 1 ) m u c 通过“信息提取模板”给出需要提取的信息; 2 ) 用户根据信息提取模板,生成一些信息提取规则; 3 ) 信息提取系统对文本中的候选语句进行浅层文本分析; 4 ) 信息提取系统根据信息提取规则从候选语句中提取出所需要的信息,填充“信 息提取”模板的槽; 5 ) 进行回指分析,确定信息的最终形式。 m u c 系列会议对信息抽取这一研究方向的确立和发展起到了巨大的推动作用。 m u c 定义的信息抽取任务的各种规范以及确立的评价体系已经成为信息抽取研究事 实上的标准。经过七届m u c 评测会议,英文系统在指定的命名实体识别方面基本达 到实用水平,在受限的实体关系识别方面也接近实用的水平。但在完整的信息抽取任 务( 场景抽取) 方面,则还有许多问题需要探索,这些问题大部分都涉及到自然语言 处理的核心难题。但是m u c 的这种信息提取方式有很大的领域局限性。根据信息提 取模板生成信息提取规则这个过程往往需要大量人工劳动,信息提取技术无法推广到 大规模、实用化的应用中;m u c 定义的信息抽取任务的各种规范以及确立的评价体 1 h t t p :t r e e n i s t g o v 5 第一章绪论 基于树核函数的命名实体语义关系抽取方法的研究 系己经成为信息抽取研究事实上的标准。 近几年,信息抽取技术的研究与应用更为活跃。在研究方面,主要侧重于以下几 方面:利用机器学习技术增强系统的可移植能力、探索深层理解技术、篇章分析技术、 多语言文本处理能力、w e b 信息抽取( w r a p p e r ) 以及对时间信息的处理等等。在应 用方面,信息抽取应用的领域更加广泛,除自成系统以外,还往往与其他文档处理技 术结合建立功能强大的信息服务系统。至今,已经有不少以信息抽取技术产品为主的 公司出现,比较著名的有:c y m f o n y 公司、b h a s h a 公司、r e v s o l u t i o n s 公司等。 目前,正在推动信息抽取研究进一步发展的动力主要来自美国国家标准技术研究 所( n i s t ) 2 组织的自动内容抽取a c e ( a u t o m a t i cc o n t e n te x t r a c t i o n ) 3 评测会议。 这项评测从1 9 9 9 年7 月开始酝酿,2 0 0 0 年7 月正式开始启动。这项评测旨在开发自 动内容抽取技术以支持对多种不同来源的语言文本的自动处理,研究的主要内容是自 动抽取新闻语料中出现的实体、关系、事件等内容,即对新闻语料中实体、关系、事 件的识别与描述。 与m u c 相比,目前的a c e 评测不针对某个具体的领域或场景,采用基于漏报 ( 标准答案中有而系统输出中没有) 和误报( 标准答案中没有而系统输出中有) 为基 础的一套评价体系,还对系统跨文档处理( c r o s s d o c u m e n t p r o c e s s i n g ) 能力进行评测。 这一新的评测会议将把信息抽取技术研究引向新的高度。 关系抽取任务首先在m u c 7 上被引入,随着a c e 评测会议的大力推广,关系 抽取日益成为自然语言处理( n a t u r a ll a n g u a g ep r o c e s s i n g ,n l p ) 研究的一个热门课 题。 1 4 2 信息抽取系统的体系结构 h o b b s 提出了一个信息抽取系统的通用体系结构,他将信息抽取系统抽象为“级 联的转换器或模块集合,利用手工编制或自动获得的规则在每一步过滤掉不相关的信 息,增加新的结构信息” 7 1 。 h o b b s 认为典型的信息抽取系统应当由依次相连的十个模块组成: 1 、文本分块:将输入文本分割为不同的部分块。 - 2h t l p :w w w i t l n i s t g o v 3h t t p :l l w w w 1 d c u p e n n e d u p r o j e c t s a c e 6 基于树核函数的中文实体语义关系抽取方法的研究 第一章绪论 2 、预处理:将得到的文本块转换为句子序列,每个句子由词汇项( 词或特定类 型短语) 及相关的属性( 如词类) 组成。 3 、。过滤:过滤掉不相关的句子。 4 、预分析:在词汇项( l e x i c a li t e m s ) 序列中识别确定的小型结构,如名词短 语、动词短语、并列结构等。 5 、分析:通过分析小型结构和词汇项的序列建立描述句子结构的完整分析树或 分析树片段集合。 6 、片段组合:如果上一步没有得到完整的分析树,则需要将分析树片段集合或 逻辑形式片段组合成整句的一棵分析树或其他逻辑表示形式。 7 、语义解释:从分析树或分析树片段集合生成语义结构、意义表示或其他逻辑 形式。 8 、词汇消歧:消解上一模块中存在的歧义得到唯一的语义结构表示。 9 、共指消解或篇章处理:通过确定同一实体在文本不同部分中的不同描述将当 前句的语义结构表示合并到先前的处理结果中。 1 0 、模板生成:由文本的语义结构表示生成最终的模板。 图1 - 1p r o t e u s 信息抽取系统体系结构 当然,并不是所有的信息抽取系统都明确包含所有这些模块,并且也未必完全遵 循以上的处理顺序,比如6 、7 两个模块执行顺序可能就相反。但一个信息抽取系统 应当包含以上模块中描述的功能。图1 1 给出了美国纽约大学p r o t e u s 信息抽取系统 7 第一章绪论基于树核函数的命名实体语义关系抽取方法的研究 【8 1 体系结构,它由词汇分析、实体识别、局部句法分析、场景模式、引用规则、篇章 分析和输出产生等相关步骤组成,其中很多步骤需要用到词典、模式库、层次语义概 念、演绎规则和模板格式等数据库,因此具有一定的代表性。 1 4 3 信息抽取系统的评测标准 在m u c 和a c e 中,衡量信息抽取系统的性能主要根据两个评价指标:召回率和准 确率。召回率等于系统正确抽取的结果占所有可能正确结果的比例;准确率等于系统 正确抽取的结果占所有抽取结果的比例。准确率( p r e c i s i o n ) 和召回率( r e c a l l ) 的 定义为: p r e c b s o n = c 一 丁 r e c a l l :c n ( 公式1 1 ) ( 公式1 2 ) 其中,c 为某类被正确分类的实例个数,为测试数据中某类实例总数,丁为分 类器预测的某类实例总数。为了综合评价系统的性能,通常还计算准确率( p ) 和召 回率( r ) 的加权几何平均值,即f l 指数,计算方法如公式1 3 所示: f l m e a s u r e = ! 兰墨兰! ! 呈:! p + r x8 1 ( 公式1 3 ) 其中,是召回率和准确率的相对权重。夕等于l 时,二者同样重要;夕大于l 时,准确率更重要一些;夕小于1 时,召回率更重要一些。在m u c 系列会议中,夕 的值一般为1 、1 2 、2 。在信息抽取领域中,如果没有特别指明,一般夕值取l ,即 准确率和召回率同等重要。 1 4 4 信息抽取系统的关键技术 信息抽取( i e ) 是指从一个给定的文档集合中自动识别出预先设定的实体、关系 和事件等类型信息,并将这些信息结构化存储的过程。比方说,我们可以从文档中识 别出人名、地名、机构名、数字、货币、时间、日期等类别的实体,这类工作称之为 命名实体识别( n e r ) ;从文档中识别出实体之间或实体及其属性之间的关系,称之 为关系信息抽取;从文档中识别出某个事件发生的时间、地点、事件的参与者、造成 8 基于树核函数的中文实体语义关系抽取方法的研究第一章绪论 的后果等信息,称之为事件信息抽取。 ( 一) 命名实体识别( n a m e de n t i t yr e c o g n i t i o n , n e r ) 。 命名实体是文本中基本的信息元素,因此命名实体识别是信息抽取中十分重要的 步,也是正确理解文本的基础。狭义地讲,命名实体是指现实世界中具体或抽象的 实体,如人、组织、地点等,通常用一个专有名词表示,如姓名、组织名、地名等。 广义地讲,命名实体还可以包含时间、数量等。至于命名实体的确切含义,通常只能 根据具体应用来确定。如在具体应用中,可能需要把地址、电话号码、产品名称等作 为命名实体。命名实体识别任务就是要找出文本中代表命名实体的词或词串,并加以 归类。在信息抽取研究中,命名实体识别相对简单,取得的研究成效也最为显著。在 m u c 6 和m u c 7 基准数据上,英文命名实体识别任务的f 指数达到了 9 4 9 7 1 9 1 1 0 1 1l 】【1 2 】。 命名实体识别( n a m e de n t i t yr e c o g n i t i o n ) :就是要判断一个文本串是否代表一 个命名实体,并确定它的类别,识别出文本中出现的专有名称和有意义的数量短语并 加以归类;一般指的是三大类( 实体类、时间类和数字类) 、七小类( 人名、地名、 机构名、时间、日期、货币和百分比) 命名实体。在面向新闻领域信息提取时,也涉 及武器、交通工具等特殊实体。 命名实体识别的难点在于: l 、在不同领域、场景下,命名实体的外延有差异; 2 、数量巨大,不能枚举,难以全部收录在词典中; 3 、某些类型的实体名称变化频繁,并且没有严格的规律可以遵循; 4 、表达形式多样; 5 、 首次出现后往往采用缩写形式; 命名实体识别对实体间语义关系抽取来说是至关重要的一个环节,因为只有正确 识别出命名实体及其类型等信息,才有可能进行实体间语义关系的抽取。并且命名实 体识别的性能越好,语义关系抽取的性能也就越好。我们采用a c e 基准语料库对不 同抽取方法进行训练和测试时,都假定命名实体的识别是完美的,这样做的目的是为 了便于单独考察语义关系抽取中的不同研究方法的优劣。 ( 二) 句法分析( s y n t a c t i cp a r s i n g ) 9 第一章绪论基于树核函数的命名实体语义关系抽取方法的研究 通过句法分析得到输入的某种结构表示,如完整的句法分析树或分析树片段集 合,是计算机理解自然语言的基础。在信息抽取领域,特别是关系抽取中,句法分析 同样起着至关重要的作用,因为语义关系同语句的结构化表达形式密切相关。 在过去一段时间里,部分分析技术在信息抽取系统中占据着主导地位。例如s k i 公司在其参加c _ 4 评测的f a s t u s ”】系统中采用层级的有限状态自动机 ( c a s c a d e df i n i t e s t a t ea u t o m a t a ) 分析方法,在m u c 评测中取得了较好的结果。这 主要是由于当时信息抽取的任务较简单,即需要抽取的信息通常只是某一领域中数量 有限的事件或关系。这样,文本中可能只有一小部分与抽取任务有关,因此只要识别 出部分片段间的某些特定关系就行了。另一个原因是过去的完全分析技术的鲁棒性以 及时空开销都难以满足信息抽取系统的需要。 不过,随着完全句法分析技术的日益成熟,其性能也逐渐提高,因此利用完全句 法树中的结构化信息来解决自然语言处理中的问题已成为可能。事实上,在信息抽取 领域的关系抽取和指代消解等任务中,近年来已经有这方面的研究工作了,并且也取 得了一定的进展。本文的第三章就是讨论如何利用完全句法树中的结构化信息来提高 关系抽取的性能。 ( 三) 指代消解( a n a p h o r ar e s o l u t i o n ) 指代( a n a p h o r a ) 是自然语言中广泛存在的一种现象。文本的概念关联性往往通 过指代关系来刻画。语言学中,我们把指代语( a n a p h o r ) 所指的对象和内容称为先 行语( a n t e c e d e n t ) ,并把确定指代语的先行语的过程称为指代消解( a n a p h o r a r e s o l u t i o n ) 【1 4 1 。指代语对先行语的依赖存在多种关系,如等价关系、上下位关系和 整体部分关系等。 指代消解是自然语言处理的关键问题之一,它不但在信息抽取中起着重要的作 用,而且在自然语言接口、机器翻译、文本摘要和问答系统等应用中也极为关键。由 于指代关系的重要性,第6 届和第7 届消息理解会议( m u c 6 ,1 9 9 5 t 5 】;m u c 7 ,1 9 9 8 t 6 】) 单独对指代消解进行了评测。目前的指代消解研究主要侧重于等价关系,即同指消解 ( c o r e f e r e n e er e s o l u t i o n ) 1 5 】【1 6 1 ,如人称代词的消解【1 刀。同指消解只考虑两个词或短 语是否指称现实世界中同一实体的问题。 在信息抽取的关系抽取中,用户关心的语义关系往往散布于文本的不同位置,其 1 0 基于树核函数的中文实体语义关系抽取方法的研究第一章绪论 中涉及到的实体通常可以有多种不同的表达方式,如有时某个关系中的实体是以代词 形式而非名词形式出现,这时我们就需要确定该关系中的确切实体。在这种情况下, 指代消解无疑可以为我们解决问题。 信息抽取研究的提出首先由m u c 系列会议中提出,伴随着m u c 和现在的a c e 评测会议不断发展和完善。信息抽取技术的发展离不开这两个会议,正是在m u c 和 a c e 评测活动的大力推动下,信息抽取技术的研究才有了今天的成果。下面介绍一 下这两个评测会议的相关情况。 1 5 本文组织结构 本文共六章,各章节的研究内容组织如下: 第一章绪论部分,首先简述了本文的研究背景和研究内容,然后阐述的中文关系 抽取的研究意义,最后讨论了信息抽取的发展历史、体系结构、评测标准和关键技术。 第二章首先介绍了a c e 2 0 0 5 语料库和其定义的评测任务,接着讨论了实体语义 关系抽取的概念,回顾了英文和中文实体关系抽取领域的国内外研究进展情况和现阶 段中文实体关系抽取研究存在的问题,最后介绍了s v m 分类器的原理。 第三章研究了基于树核函数的语义关系抽取方法。首先介绍了本文所采用的语料 库资源,其次论述了卷积树核函数方法原理。然后探索关系实例的结构化信息的最佳 表达形式,介绍了目前在关系抽取领域中常用的两种结构化信息,指出其所存在的问 题。接下来按照中文实体关系抽取系统的流程介绍了语料预处理、关系实例生成,研 究了中文实体关系抽取和英文的性能差异和造成这些差别的原因。最后探讨了优化分 类器训练和测试速度的方法。 第四章首先讨论了语义信息对实体关系抽取的作用,比较了各类语义属性对中文 和英文关系抽取的不同作用,寻找在中文实体关系抽取中最有效的实体语义属性,找 到对中文实体关系抽取最有效的实体属性集合。然后针对语料库中数据分布不均匀, 单个数据集的关系抽取性能不稳定的情况提出了五倍交叉验证法。 第五章是对本文工作的总结与展望。分析了本课题的主要特点和贡献,并且指出 进一步研究的方向以及今后工作的目标。 第二章关系抽取相关工作 基于树核函数的中文实体语义关系抽取方法的研究 第二章关系抽取相关工作 关系抽取是信息抽取的一个重要子任务,本章首先介绍了关系抽取使用的语料, 然后总结了当今关系抽取的研究现状和本文采用的分类器原理。 2 1a c e 语料 a c e ( a u t o m a t i cc o m e me x t r a c t i o n ) 圆是由美国标准技术研究所( n i s t ) 于2 0 0 0 年组织发起的评测比赛,评测的内容主要涉及新闻和广播领域的文本,后来扩充到网 络博客类文章。所涉及的语言也从最初的单纯英文发展到现在的英文、中文、西班牙 文等,任务主要为抽取文本中的实体、关系、事件。a c e 评测的目的是希望研究出 一些鲁棒性和自适应性较好的信息提取方法,并且按照这些方法建立关系抽取系统, 该系统能够在给定的语言数据文本中,快速准确的抽取出特定格式的需求信息。 a c e 与m u c 的区别: a c e 是以对象 o b j e c t ) 为单位进行信息抽取,而m u c 是以词语为单位进行信息 抽取。 用户信息提取的需求表示:m u c 表示方法是用户给定信息提取模板,信息提取 系统填充模板的槽;a c e 评测则是用户指定要检测的事实或事件的类别,信息提取系 统给出检测这文本中这些事实或事件的出现,并进行描述。 信息来源:m u c 语料资源来自书面文本;a c e 语料信息来源更宽,不只局限于 书面文本,还包括经过a s r 和o c r 生成的文本和网络博客资源的文本。 a c e 相关中的几个基本概念: 实体:指在资源语料中代表现实世界的人、地点或者事物的词。 数值:数值表明了附加的信息( 通常与关系和事件关联) 。 时间:事件表达式( 可能用作关系和事件的一个属性) 。 关系:a c e 语料中实体对间存在的关系( 同一个关系的两个实体叫做这个关系 的角色) 。 事件:包含零个或者多个实体、数值和事件表达式。 1 2 基于树核函数的中文实体语义关系抽取方法的研究 第二章关系抽取相关工作 提及:文本中对实体,关系、事件的引用表达式。 2 1 1a c e 评测任务 a c e 评测的任务分为:实体检测与跟踪( e n t i t yd e t e c t i o na n dt r a c k i n g ,e d t ) 、 关系检测与描述( r e l a t i o nd e t e c t i o na n dc h a r a c t e r i z a t i o n , l m c ) 、事件检测与描述 ( e v e n td e t e c t i o na n dc h a r a c t e r i z a t i o n , v d c ) 、数值检测和识别( v a l u ed e t e c t i o na n d r e c o g n i t i o n :v a l ) 、时间识别和规范化( t i m ee x p r e s s i o nr e c o g n i t i o na n dn o r m a l i z a t i o n , t e l ) 。其中实体检测、关系检测分类和事件检测的研究最为广泛,其他两种任务 是a c e 评测会议新引进的,研究还刚刚起步,下面简要介绍一下前两种任务,它们 也是本文的研究的主要内容。 ( 一) 实体检测与跟踪 实体检测与跟踪任务是:检测出文本中出现的每个实体,识别出这些实体的相关 信息( 类别、子类、提及) ,并将指向同一实体的所有提及连接起来;提及包括命名 性的、名词性的、代词性的三种类型。a c e 2 0 0 5 中文语料中标注的实体类型分为7 个大类4 5 个小类,具体类型如表2 1 所示: 表2 1a c e 一2 0 0 5 的e d t 任务检测的7 大类实体 类别子类 p e r s o n g r o u p ,i n d e t e r m i n a t e ,i n d e f i n i t e o r g a n i z a t i o n c o m m e r c i a l ,e d u c a t i o n a l ,e n t e r t a i n m e n t ,g o v e r n m e n t ,m e d i a , m e d i c a l - s c i e n c e ,n o n - g o v e r n m e n t a lo r g a n i z a t i
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年数字孪生技术应用研究可行性报告
- 押题宝典中级银行从业资格之中级公司信贷题库附答案(基础题)
- 2025年国外资产管理投资项目可行性研究报告及总结分析
- 2025年智能化书店经营模式创新项目可行性研究报告及总结分析
- 2025年城市安全管理系统建设项目可行性研究报告及总结分析
- 2025年社交网络电商平台开发项目可行性研究报告及总结分析
- 2025年绿色金融信息披露协议
- 2025年基因检测与个性化医疗服务项目可行性研究报告及总结分析
- 2025年5G智能制造应用项目可行性研究报告及总结分析
- 2025年新版实操考试题 a卷试题及答案
- 国家开放大学《财政与金融(农)》形考任务1-4参考答案
- 工程设计收费基价表(自动计算)
- 《流行音乐导论》知识考试题库(含答案)
- 消防常用器材维修材料单价表
- 建筑设备电气控制工程实验实训指导书
- 宣讲关于网络强国的重要思想专题课件ppt
- 区危化品运输车辆停车场专项应急预案
- 年度考核评分表实用文档
- dd5e人物卡可填充格式角色卡夜版
- 食品安全“周排查”记录表
- 大学英语学术阅读知到章节答案智慧树2023年南京大学
评论
0/150
提交评论