




已阅读5页,还剩62页未读, 继续免费阅读
(计算机科学与技术专业论文)基于svm和tsvm的中文实体关系抽取.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
国防科学技术大学研究生院学位论文 摘要 信息抽取技术自动将无结构文本转化为有结构文本,既可以自成系统满足人们的强烈 需求,同时还是其它应用如信息检索、文本分类、自动问题回答等的重要基础技术。实体 关系抽取是信息抽取技术中的重要环节,正成为越来越热门的研究课题。中文实体关系抽 取工作尚处于起步阶段,还有大量的工作需要完成。 本文针对中文实体关系的特点,设计了一系列的特征,包括词、词性标注、实体属性 和提及信息、实体间交迭关系和知网提供的概念信息等,以构成实体间关系的上下文特征 向量并使用s v m 分类器进行中文实体关系抽取。以a c e 2 0 0 4 的训练语料作为实验数据, 得到了较好的识别性能。同时根据分级实验的结果,详细考察了各种特征集和不同训练样 例数目对中文实体关系性能的影响。实验结果表明:不同细化程度的任务应该选取不同抽 象程度特征集组合。其中词性特征集较适合关系发现任务,知网概念特征集较适合关系大 类和子类识别任务,词特征集是最基本特征集,实体间交迭特征集对抽取性能贡献最大。 训练语料库规模的增加可以提高识别性能,开发较大规模的训练语料库对使用s v m 分类 器是很有必要的;但当语料库达到一定规模后,语料库规模的增加对性能的影响变弱,这 时则应该把主要的注意力放在特征集构造上。 在上述研究的基础上,针对s v m 对大规模训练语料库的依赖,将半监督学习方法 t s v m 引入到中文实体关系抽取工作中。实验结果显示,在训练向量数目非常小时t s v m 的性能远远超过s v m ,但在训练向量数目较大后,t s v m 的性能反而不如s v m 。在关系 发现这样相对简单的问题上,t s v m 分类器仅使用少量标注语料和大量未标注语料,就可 以得到不错的性能,降低了抽取系统的成本、改善了其可移植性;但在更复杂的关系类别 识别问题上,t s v m 分类器的性能仍不甚理想,应该考虑更多其他的半监督学习方法。同 时本文研究并实现了t s v m 多分类器构造。 进一步的工作包括两个方面,一是改善现有的特征集如将更多的特征如组块识别、知 网概念结构等加入到特征集以提高关系抽取性能和进行更精确的参数选择,二是定量研究 标注数据的选择对性能的影响以及s v m 和t s v m 要求的标注数据规模规律。 关键词:信息抽取、实体关系抽取、s v m 、t s v m 、特征选取、训练样例数目、多分 类器 第i 页 国防科学技术大学研究生院学位论文 a b s t r a c t i n f o r m a t i o ne x t r a c t i o n t e c h n o l o g ya u t o m a t i c a l l yt r a n s f o r m su n s t r u c t u r e dt e x t si n t o s t r u c t u r e do n e s ,w h i c hn o to n l yf o r m sas y s t e mt os a t i s f yt h es t r o n gr e q u e s t ,b u ta l s oa f f o r d sa b a s i sf o ro t h e ra p p l i c a t i o n ss u c ha si n f o r m a t i o nr e t r i e v a l ,t e x tc a t e g o r y ,q u e s t i o na n s w e r i n g e n t i t yr e l a t i o ne x t r a c t i o ni ss oi m p o r t a n ti ni n f o r m a t i o ne x t r a c t i o nt h a ti tr e c e i v e sm o r ea n d m o r ei n t e r e s tf r o mr e s e a r c h e r s t h et a s ko fc h i n e s ee n t i t yr e l a t i o ne x t r a c t i o ns t i l ln e e d sm u c h f u r t h e rs t u d y ,c a l l i n gf o ram a s so fw o r k t h i sp a p e rp r e s e n t st h ew o r ko fc h i n e s ee n t i t yr e l a t i o ne x t r a c t i o n w eh a v ed e s i g n e dt h e c o n t e x tv e c t o rb yu s i n gs e v e r a ln e wf e a t u r e si n c l u d i n gw o r d ,p a r to fs p e e c ht a g ,e n t i t ya n d m e n t i o n ,o v e r l a pa n dh o w n e tc o n c e p t s b a s e do nt h ec o n t e x ti n f o r m a t i o n ,w ea p p l ya ns v m c l a s s i f i e rt od e t e c ta n dc l a s s i f yt h er e l a t i o n sb e t w e e ne n t i t i e s w et a k et h et r a i n i n gd a t ao fa c e 2 0 0 4a so u re x p e r i m e n t a ld a t aa n dh a v eo b t a i n e de n c o u r a g i n gr e s u l t s t h ee x p e r i m e n t a lr e s u l t s a r ea n a l y z e di nd e t a i l ,w h i c hh e l p su si n v e s t i g a t et h ei m p a c to fv a r i o u sf e a t u r e sa n dt r a i n i n g e x a m p l eq u a n t i t i e so nt h ee x t r a c t i o np e r f o r m a n c e t h ee x p e r i m e n t a lr e s u l t si n d i c a t e :i tw o u l db e a d v i s a b l et oc h o o s ed i f f e r e n tf e a t u r e sf o rd i f f e r e n te x t r a c t i o nt a s k t h ew o r df e a t u r e sa r es u i t a b l e f o rr e l a t i o nd e t e c t i o nt a s k ,w h i l eh o w n e tc o n c e p tf e a t u r e sa r ea p p r o p r i a t ef o rr e l a t i o nt y p ea n d s u b t y p ec h a r a c t e r i z a t i o nt a s k s w o r df e a t u r e si sab a s i co n ea n do v e r l a pf e a t u r e sc o n t r i b u t em o s t t h ep e r f o r m a n c ew i l lr i s e 、析t ht h ei n c r e a s e m e n to ft r a i n i n ge x a m p l e s s oi tw i l lb en e c e s s a r yt o d e v e l o pl a r g ec o r p u si fy o uw a n t t ou s es v mc l a s s i f i e r b u ta f t e rt h ea m o u n to fc o r p u sa c h i e v e s c e r t a i nl e v e l ,t h eg a i nf r o ma d d i n gm o r et r a i n i n ge x a m p l e si ss ot r i v i a lt h a tw em u s tf i n do t h e r w a y t oe n h a n c ee x t r a c t i o np e r f o r m a n c e ,d e v e l o p i n gm o r ef e a t u r e sf o ri n s t a n c e a i m i n ga t t h ed e p e n d e n c eo fs v mm e t h o do nl a r g es c a l ec o r p u s ,w ep r o p o s et h e i n t r o d u c t i o no fs e m i - s u p e r v i s e dl e a r n i n gm e t h o dt s v mt or e l a t i o ne x t r a c t i o n t os e ew h e t h e ri t c a ni m p r o v et h ee x t r a c t i o np e r f o r m a n c eb yu s i n gb o t hl a b e l e da n du n l a b e l e dd a t u m r e s u l t s f r o me x p e r i m e n t ss h o wt h a t :t s v mp e r f o r m sm u c hb e t t e rt h a ns v mi nt h es a m ec o n t e x tw h e n l a b e l e de x a m p l e sa r ev e r yf e w ,w h i l es v mp e r f o r m sl i t t l eb e t t e rt h a nt s v mw h e nt h e r ea r e m a n yl a b e l e de x a m p l e s t s v mc a np e r f o r mw e l lo nr e l a t i o nd e t e c t i o nt a s k ,w h i c hm a k e si t p r a c t i c a b l eo nt h i sk i n do f t a s k b u to nt h et a s ko fr e l a t i o n st y p er e c o g n i t i o n ,t s v mp e r f o m sn o t v e r yg o o d ,f o r c i n gu st ol o o kf o ro t h e rs e m i s u p e r i s v e dl e a r n i n gm e t h o d s a nm u l t i t s v m c l a s s i f i e ri sa l s oc o n s t r u c t e d f u t u r ew o r k si n c l u d ed e v e l o p i n gm o r ef e a t u r e ss u c ha sc h u n k i n gi n f o r m a t i o n ,h o w n e t c o n c e p ts t r u c t u r et oi m p r o v et h ee x t r a c t i o np e r f o r m a n c e ,c h o o s i n gp a r a m e t e r sf o rt h ec l a s s i f i e r a n di n v e s i g a t i n gt h er u l eo fe x a m p l eq u a n t i t i e sn e e d e db ys v ma n dt s v m k e yw o r d s :i n f o r m a t i o ne x t r a c t i o n ,e n t i t yr e l a t i o ne x t r a c t i o n ,s v m ,t s v m ,f e a t u r e s e l e c t i o n ,t r a i n i n ge x a m p l eq u a n t i t i e s ,m u l t i - t s v m 第i i 页 国防科学技术大学研究生院学位论文 表目录 表3 1a c e 2 0 0 4 实体类别2 0 表3 2a c e 2 0 0 4 实体级别类别2 1 表3 3a c e 2 0 0 4 实体提及类别2 2 表3 4a c e 2 0 0 4 关系类别2 3 表4 1a c e 2 0 0 4 中文训练语料所有实例的详细分布信息3 6 表4 2 不同抽取任务实验结果3 8 表4 3 关系大类识别实验结果3 8 表4 4 关系发现任务的单个特征集实验结果3 9 表4 5 关系大类识别任务的单个特征集实验结果3 9 表4 6 关系子类识别任务的单个特征集实验结果3 9 表4 7 关系发现任务的w o r d b a s e l i n e 特征集实验结果4 0 表4 8 关系大类识别任务的w o r d b a s e l i n e 特征集实验结果4 0 表4 9 关系子类识别任务的w o r d b a s e l i n e 特征集实验结果4 0 表4 1 0 关系发现任务的特征集累加实验结果4 2 表4 11 关系大类识别任务的特征集累加实验结果4 2 表4 1 2 关系子类识别任务的特征集累加实验结果4 3 表4 1 3 特征集组合选择实验结果4 3 第1 l i 页 国防科学技术大学研究生院学位论文 图目录 图2 1 隐马尔可夫模型状态示意图9 图2 2 集成学习成功的原因1l 图2 2 产生式模型图示1 3 图2 3 产生式模型假设错误图示13 图2 4 协同训练:特征划分的条件独立假设1 4 图3 1m u c 7t r 任务参评系统结果1 9 图4 1 二维情况最优分类面示意图2 8 图4 2 关系发现任务中特征集累加学习曲线4 4 图4 3 关系大类识别任务中特征集累加学习曲线4 4 图4 4 关系子类识别任务中特征集累加学习曲线4 5 图5 1t s v m 原理4 9 图5 2 关系发现任务上t s v mv ss v m 5 3 图5 3 关系大类识别任务上t s v mv ss v m 5 4 图5 4 关系子类识别任务上t s v mv ss v m 5 4 第1 v 页 独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得 的研究成果尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示谢意。 学位论文题目:基王墨型垄! 墨! 丛壹洼史塞塞体差歪抽塑 ,“o 上 学位论文作者签名: ! 簦! 王日期:2 - 。s 年= 月b 日 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留、使用学位论文的规定。本人授权 国防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子 文档,允许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印缩印或扫描等复制手段保存、汇编学位论文。 ( 保密学位论文在解密后适用本授权书。) 学位论文题目:基王墨堕垒! 曼堕左洼鲍主塞塞佳差丕抽塑 学位论文作者签名:盘查 日期:2 、,v6 年2 月2 日 作者指导蝴摊:写毒i 吼炒d 年功咿 国防科学技术大学研究生院学位论文 第一章绪论 1 1 概述 “智慧在哪里? 我们在知识中湮没。知识在哪里? 我们在信息中迷失了自己。 已故 英国诗人t s 艾略特的诗句准确地表达出了人们在信息爆炸时代的窘境。随着计算机的广 泛使用和网络的蓬勃发展,信息量呈爆炸式增长。信息的过量增长带来一定负面影响,面 对巨量的信息,人们反而难以发现真正需要的知识。如何将大量无序的信息及时、准确地 进行提取、整理、组织,已成为研究开发的焦点。在这种背景下,信息抽取技术( i n f o r m a t i o n e x t r a c t i o n ) 应运而生,它是指直接从无结构的自然语言文本中抽取事实信息,并以结构化 的形式描述信息,既可以自成系统,又可以为信息检索、文本深层挖掘、自动回答问题等 应用提供基础,为人们提供有力的信息获取工具。 信息抽取既与信息检索、文本理解等应用相互关联,又有所不同。信息检索是指从所 有文档中找出相关的文档列表,而信息抽取是从文档集中直接抽取预定信息并以一定格式 输出。需求的不同直接导致了使用技术的不同,信息检索常采用关键字匹配等技术,而信 息抽取需要更深层次的自然语言处理技术。但同时这两者又紧密联系,传统的关键字匹配 技术已不能满足用户精确查询的需要,信息检索越来越依靠信息抽取的结果以提高检索精 度和效率;而信息抽取也常常在信息检索后得到的相关文档集上进行。信息抽取也不需要 真正的理解文本,它只抽取感兴趣的信息特别是事实,输出格式也是预先定义好的;而文 本理解关心的是全文所有信息,包括文本的意思、作者的观点,输出格式非常灵活丰富。 信息抽取和文本理解也可以相互补充,一些文本理解技术可以提高抽取精度,信息的抽取 也就是特定信息的格式化又反过来有利于文本理解。从某种程度上说,信息检索、信息抽 取、文本理解代表了自然语言理解从浅到深的三个阶段,信息抽取作为中间阶段,对文本 有一定理解从而满足了许多迫切需求,又没有复杂到难以实现,正成为最现实和最有前景 的应用。 早期的信息抽取任务主要是以m u c 评测为代表的面向特定领域的事件模板填充,随 后随着需求的变化逐渐往领域更通用、任务更细化的方向发展,目前主要有以a c e 评测 为代表的三个任务:实体发现与跟踪( e n t i t yd e t e c t i o na n dt r a c k i n g ,e d t ) 、关系发现与描 述( r e l a t i o nd e t e c t i o na n dc h a r a c t e r i z a t i o n ,r d c ) 、事件发现与描述( e v e n td e t e c t i o na n d c h a r a c t e r i z a t i o n ,e d c ) 。最基础的工作首先是e d t 任务,即把文本中特定种类的实体( 如人 名、地名等) 及特定的信息识别出来( 广义来讲,实体还包括数值、时间表达式) 。e d t 可以 有效提高文本检索、自动摘要生成等工作的效率,其性能也达到了实用水平。但只对实体 进行识别已经不能满足需求,首先对事件的抽取就难以完成,而对“谁是g o o g l e 的总裁? 第1 页 国防科学技术大学研究生院学位论文 这样的问题,e d t 任务也无法直接回答,对关系的抽取势在必行。r d c 任务旨在发现和 描述实体之间预先定义好的各种关系,这些类别通常为通用的社会关系如f a m i l y 、地理位 置关系如c i t i z e n r e s i d e n t 等。它与事件抽取任务、信息检索、问答系统、信息过滤有直接 的关联,如果只抽取实体而不考察或不能正确考察实体间的关系,文本信息的结构化根本 无从谈起。 文本中实体间的关系常常错综复杂,将它们全部识别出来任务艰巨,难以完成,研究 者于是将问题简化为识别一个句子内部两个实体间的关系。句子里所有的实体两两构成一 个实例,识别实例属于哪个类别,从而将关系抽取任务转化为分类问题。分类问题是人工 智能领域的一个经典问题,已经被研究了很长时间,有许多成熟的方法。这些方法从整体 上可被分为:基于知识工程的方法和基于机器学习的方法。基于知识工程的方法需要领域 专家制定详尽的“知识”,费时费力且移植性差。基于机器学习的方法只需要利用语料库 进行训练得到模型,然后运用到未标注文本上,既无需太多领域知识,系统移植性也大大 提高,研究趋势已经越来越多的倾向于使用机器学习方法进行关系抽取。机器学习方法按 其训练语料是否需要人工标注好又分为有监督学习、无监督学习和半监督学习。已经有很 多有监督学习方法被应用到关系抽取任务上并取得了不错的效果,其缺陷在于所需的大规 模标注语料库仍需花费不少时间精力并限制了系统的可移植性,无监督学习无需任何标注 语料,但性能因此不高,半监督通过充分利用无标注语料,只需要少量标注文本就可以获 得不错的性能,正受到大量研究者的关注。 针对英文文本的关系抽取已经成为一个热点,而在中文领域,研究才刚起步不久。本 文分别使用有监督学习方法s v m 和半监督学习方法t s v m ,开发了丰富的特征集,进行 实体关系抽取工作并对特征集作用做了详细的定量分析。实验结果显示,s v m 方法在用米 训练的标注语料充足的情况下有较好的性能,t s v m 方法则在只有少量标注语料的情况下 可以大大改善抽取性能,在较简单的关系发现任务上t s v m 方法利用少量标注语料足以胜 任;为使抽取系统达到最好的性价比,针对不同细化程度的中文实体关系抽取任务应该选 取不同抽象程度的特征集组合。 1 2 实体关系抽取的应用 信息抽取是一种“实用主义”的自然语言技术,尽管它仅有2 0 多年的历史,但是已 经在信息处理领域显示出广阔的应用前景。工业上的开发已经有很多尝试,不同程度的实 际应用已经成为现实。 信息抽取的目的是文本结构化,它还是文本挖掘、本体库构造与推理、篇章理解等应 用的基础。在信息抽取系统中,实体识别只是识别了一个个的点,需要实体关系这条线将 它们连接起来,才能构成一个完整的结构化数据库。举例来说,在“英国外交大臣库克的 第2 页 国防科学技术大学研究生院学位论文 发言人”这个句子中,有4 个命名实体“英国”、“英国外交大臣”、“库克”、“英国 外交大臣库克的发言人 ,它们之间需要2 个关系才能联系起来:组织与人之间的雇佣关 系 e m p l o y s t a f f ( “英国外交大臣 ,“英国 ) 】和人与人之间的商业关系 b u s i n e s s ( “英国 外交大臣库克的发言人”,“英国外交大臣库克 ) 】。 除了是信息抽取系统的必要环节,独立的实体关系识别对于信息检索、文本分类、问 答系统、篇章理解、机器翻译等方面的研究也有非常积极的意义。 1 信息检索 信息检索i r ( i n f o r m a t i o nr e t r i e v a l ) 是指帮助用户从大量文档中查找包含所需信息的文 档列表的过程,大型联机检索系统、图书情报检索系统、i n t e m e t 网页搜寻引擎等都是信息 检索的具体应用,给出的相关文档列表越多、不相关文档越少,则表示该系统性能越高。 对“谁是g o o g l e 的总裁? 这样的查询检索,传统的信息检索使用基于关键字匹配技 术,只会给出大量含有这些字的文献,文献是否真的包含所需信息不得而知。结合实体识 别技术,识别出 o r gg o o g l e 实体和 p e rg o o g l e 的总裁】实体,返回 p e r 实体和 o r g g o o g l e 实体在彼此附近的文档,可以提高检索效率,但这种做法仍然需要用户自己从返回 文档中寻找答案。结合关系识别技术,识别出 e m p l o y e x e c ( g o o g l e ,g o o g l e 的总裁) 关系, 匹配文档中的 e m p l o y e x e c ( g o o g l e ,e r i cs c h m i d t ) 关系,直接将答案“e r i cs c h m i d t ”返回 给用户,将节省用户大量的时间和精力。 2 自动问题回答 一 也许关系识别技术只是增强信息检索效率的补充手段,自动问题回答则完全要依靠关 系抽取技术。q a ( q u e s t i o n a n s w e r i n g ) 是指针对用户用自然语言语句所提出的问题,找出简 短精确答案的过程,这样的系统通常需要一个大的文档集合做知识库支撑。系统在进行一 次问题回答一般要经过三个处理阶段:问题分析阶段、相关文档查找阶段、答案抽取与排 序阶段。佩的发展趋势就是向q a 靠拢,上节的例子就反映了q a 的流程,也反殃了关系 抽取对q a 的贡献,q a 的问题分析阶段及答案抽取阶段都离不开关系抽取技术。 3 文本分类聚类 文本分类聚类的目标就是将语义相近的文本聚成一堆。有些文本虽然不含有相同的实 体,但如果它们所含的实体间具有关系,则很有可能还是在描述同一类事物,关系抽取有 利于提高文本分类的精度。 4 信息浏览 信息检索的结果最终要返回给用户浏览,用户在看到一篇拉登的报道时,可能很希望 了解下他所在的恐怖组织及这个组织所策划的恐怖事件,一遍一遍的输入关键词将是件繁 琐的事情。自动提供和某个实体相关的其它实体的链接就是件非常人性化的服务,实体关 系抽取则可以很轻松的完成这个任务。 第3 页 国防科学技术大学研究生院学位论文 1 3 实体关系抽取面临的主要问题 信息提取是其它应用的一项基础性研究,同时它本身又是一门综合的技术,需要比较 深入的语言处理基本理论和技术作为支撑,并可进一步促进相关语言处理领域的发展。 同为分类问题,相对于命名实体识别任务,实体关系抽取任务的难点表现在以下几个 方面: ( 1 ) 关系抽取任务为二元问题。关系是指两个实体间的关系,它首先涉及到两个变元, 还涉及到这两个变元周围的上下文,使问题复杂性指数级增长。 ( 2 ) 实体关系在文本中找不到任何明确的标示。实体和事件都在文本中有实际的文字 出现,而实体关系却没有。 ( 3 ) 文本中的关系可以有多种表达方式,如: e r i cs c h m i d t 是g o o g l e 的总裁; e r i cs c h m i d t ,g o o g l e 的总裁,昨天宣布; e r i cs c h m i d t 将带领g o o g l e 进军中国市场。 ( 4 ) 以上难点决定了关系抽取任务的复杂性,从而需要使用更丰富的资源如词性标注、 组块分析、语义分析、句法分析等。但实际情况是许多针对这些工作的自然语言处理工具 尤其是更深层的语义分析工具性能不高,低性能工具的引入反而有可能降低抽取性能。 而同英语相比,汉语在世界上属于汉藏语系,是一种孤立语,又给中文信息抽取工作 增加了难剧5 6 j : ( 1 ) 词语没有形态标记。汉语以字为基本单位,词之间没有明显的标记,词本身也没 有明显的形态标志。对中文的任何自然语言处理都需要先进行分词工作,一旦分词错误, 后续工作毫无疑问也会错误。 ( 2 ) 相比英文词,中文词的变形形式较少,这限制了对词法知识的运用。 ( 3 ) 与西方语言相比,中文句子的结构更灵活,句子元素之间的耦合度更松。在具体 的上下文中,各种成分都可以被省略。 ( 4 ) 语法灵活,即缺乏狭义的形态,汉语句子中各个成分之间的关系一靠词序,二靠 “意合”,三靠虚词【57 。 ( 5 ) 语义灵活,一方面语法的灵活主要来源于语义的灵活;另一方面同一结构可以表 达不同的意思,同一意思可以用不同结构表达。 ( 6 ) 可利用的中文自然语言处理工具更加稀少,其性能也较英文低。现有的自然语言 处理理论和技术大多都是以英语为研究对象语言发展起来的,而汉语无论在语音、文字表 示,还是在词汇、语法、语义及其语用等各个层面上,都与之存在着很大的差异,这使得 无法直接套用西方己成熟的理论和技术,汉语无疑是计算模型比较不发达的语言。 第4 页 国防科学技术大学研究生院学位论文 1 4 本文主要工作 本文的工作主要分为以下几个方面: 一基于s v m 方法的实体抽取 首先使用有监督学习方法支持向量机( s v m ,s u p p o r tv e c t o rm a c h i n e ) ,基于前面的工作 使用词、词性标注、实体属性、实体间交迭关系特征集,同时也新引入实体提及属性以及 知网概念信息特征集,在2 0 0 4 年a c e 评测的训练数据上,对a c e 定义的7 个实体关系 大类( t y p e ) 、2 2 个子类( s u b t y p e ) 进行抽取,取得了不错的抽取性能。 二对特征集的分析 根据实验结果,分析了各种特征集的选择和训练样例数目对抽取性能的影响。得出结 论是:识别任务要识别的类别越细,准确性越低;特征集的选择对识别效果影响很大,使 用特征集组合比使用单个特征集的性能高;不同细化程度的任务应该选取不同抽象程度特 征集组合,其中词性特征集较适合关系发现任务,知网概念特征集较适合关系大类和子类 识别任务,词特征集是最基本特征集,实体间交迭特征集对抽取性能贡献最大。训练语料 库规模的增加可以提高识别性能,开发一定规模的训练语料库是很有必要的;但当语料库 达到一定规模后,语料库规模的增加对性能的影响变弱,这时则应该把主要的注意力放在 特征集构造上以进一步提高性能。 三基于t s v m 方法的实体抽取 通过实验发现s v m 方法对大规模标注语料的依赖,但后者通常很难得到,本文进一 步引入半监督学习方法直推式支持向量机( t s v m ,t r a n s d u c t i v es u p p o r tv e c t o rm a c h i n e ) ,使 用相同的特征集和训练语料,完成相同的关系抽取任务。根据两次实验结果,分析了t s v m 在只有小规模训练样例情况下的性能优势,以及标注样例数目对性能的影响。实验结果显 示,在训练向量数目非常小时t s v m 的性能远远超过s v m ,但在训练向量数目较大后, t s v m 的性能反而不如s v m 。在关系发现这样相对简单的问题上,完全可用采用t s v m 方法,充分利用未标注语料,改善系统的成本和可移植性,但在更复杂的关系类别识别问 题上,t s v m 的优势并不明显,应该考虑更多其他的半监督学习方法。 四t s v m 多分类器构造 在实现的过程中,对分类器问题进行了研究,在使用t s v m 方法的具体情况下应该采 用“一对多 多分类解决办法,最终实现了t s v m 多分类器构造。 1 5 本文结构 本文的结构如下: 第一章为绪论,概要阐述了信息抽取的任务、应用及面临的主要问题,同时介绍了本 第5 页 国防科学技术大学研究生院学位论文 文的主要工作及文章结构。 第二章对相关方法进行研究和分析,主要介绍了基于机器学习的方法,首先是机器学 习的各种统计模型,接着是为解决统计模型依赖语料库问题而提出的半监督学习方法,最 后列出目前实体关系抽取的研究现状。 第三章主要介绍实体关系抽取任务,详细介绍了本文将要抽取的a c e 2 0 0 4 关系属性 及其涉及到的实体属性。 第四章主要介绍基于s v m 方法的实体关系抽取。首先介绍支持向量机s v m 的理论背 景、基本模型,然后详细描述了对性能有重要影响的因素:特征设计,最后是实验,并在 实验结果上分析了各种因素对实验性能的影响。 第五章是基于t s v m 方法的实体关系抽取。首先是直推式支持向量机t s v m 的基本 模型与算法,然后是多分类器的研究以及本文的多分类实现算法,最后是实验及对实验结 果进行分析。 最后是结束语,对全文进行了总结,并对将来进一步的研究工作提出了设想。 第6 页 国防科学技术大学研究生院学位论文 第二章相关方法介绍 2 1 概述 文本中实体间的关系常常错综复杂,将它们全部识别出来任务艰巨,难以完成,研究 者将问题简化为识别一个句子内部两个实体间的关系。句子里所有的实体两两构成一个实 例,识别实例属于哪个类别,从而将关系抽取任务转化为分类问题。理论上用于分类的方 法都可以用于关系抽取,主要有:基于知识工程的方法和基于机器学习的方法。 基于知识工程的方法【2 9 】【3 1 1 ,在某些领域取得了不错的效果,但这些规则往往依赖于具 体语言、领域,要求编制规则的知识工程师对该知识领域有深入的了解,直接导致了开发 过程耗时耗力,并且系统移植困难。 相比而言,基于机器学习的方法【1 0 】【2 3 】 【3 6 】【删【1 0 1 只需要一个语料库进行训练,通过对语 料的学习得到一个模型,再将模型直接运用到问题上。标注语料时不需要广博的语言学知 识,知识由机器从语料库中学得,客观性也较强。因此这类系统在用到新的领域时可以不 做或少做改动,只需要利用新语料重新训练,可移植性较好,但早期的机器学习方法性能 比不上知识工程方法。 混合方法【3 0 】【5 8 】是通过分析综合上述两种方法的优缺点,把基于知识库的方法和基于机 器学习的方法结合起来,取长补短,相互补充。这类方法在使用大量的语料进行统计训练 的同时,也收集提取尽可能多的语言知识和规则知识。具体的做法是,或者为机器学习提 供一些手工标注规则作为种子,或者首先使用机器学习算法再用规则对其进行改进。 在以上三种方法中,现代软硬件和大规模语料库的支持以及机器学习自身良好的可移 植性使其受到大量的关注,不断有新的方法和改进办法提出来,目前机器学习方法的性能 已经超过了知识工程方法,成为绝大多数研究者采用的方法。 早期的机器学习方法是基于特征向量的,后来发展出基于核函数的处理方式。基于特 征向量的算法需要显式地将语料构造成特征向量形式,然后使用各种机器学习算法器,这 一类机器学习算法相对简单,并且可以很好的扩展各种语义特征。基于核函数的机器学习 算法,使用核函数替代特征向量内积运算计算两个对象的相似度,不需要进行特征转化, 但扩展语义特征相对复杂,训练时间也较长。 机器学习方法按其训练语料是否人工标注好,又分为有监督学习、无监督学习和半监 督学习。已经有很多有监督学习方法应用到关系抽取任务上并取得了不错的效果,其缺陷 在于所需的大规模标注语料库仍然需要耗费人力物力并限制了系统的可移植性,无监督学 习无需任何标注语料,但性能因此不高,半监督通过充分利用无标注语料,只需要少量标 注文本就可以获得不错的性能,正成为又一个研究热点。 第7 页 国防科学技术大学研究生院学位论文 2 2 机器学习的各种统计模型 所谓机器学习,就是设计某些方法,使机器能够通过对已知数据的学习,找出数据内 在的相互依赖关系,从而对未知数据进行预测或对其性质进行判断。统计学在解决机器学 习问题中起着基础性的作用,但是,传统的统计学所研究的主要是渐近理论,即当样本趋 于无穷多时的统计性质,而实际的情况却是样本常常非常有限。2 0 世纪7 0 年代就建立了 基本体系的统计学习理论系统研究了机器学习的问题,尤其在有限样本情况下的统计学习 问题。统计学习理论有完备的理论基础和严格的理论体系,其出发点是更符合实际情况的 有限样本假设,并且有着良好的性能p 引。 统计方法和机器学习处理大规模文本的高效性极大的促进了人们将模式识别和统计 模型研究的成果应用到知识工程的热情。目前,一些经典的概率统计模型甚至一些最新的 模式识别的成果都已经在自然语言处理和信息抽取等领域里面取得了应用成果,如进行词 性标注、命名实体识别、实体关系抽取、文本分类和检索等等【5 9 1 。 统计机器学习方法通过学习训练语料得到一个模型,再利用模型对测试语料进行预 测。在建立模型时首先要考虑的是怎样构造模型。如果模型有太多的参数而太复杂,会导 致模型过分依赖训练数据集,而不能较好地预测其它数据集,这种现象称为“过拟合 ( o v e r f i t t i n g ) 。相反,如果模型过于泛化,也会使模型无法学习到足够知识以致不能预测任 何数据集,这种现象称为“欠拟合 ( u n d e r f i t t i n g ) 。 模型可以分为产生式模型( g e n e r a t i v em o d e l s ) 和判别式模型( d i s c r i m i n a t i v em o d e l s ) 。形 象地说,产生式模型主要用于求给定状态下产生下一状态的概率,而判别式模型主要是将 某种类别的实例和其它实例分别开来。产生式模型有隐马可夫模型h m m s 】、条件随机域 c r f 2 4 1 等,判别式模型有支持向量机s v m 7 】【4 8 1 等,最大熵模型m e 3 3 1 既不是产生式模型, 也不是判别式模型,它可以根据需要,通过不同的特征函数和训练方法成为产生式模型或 者判别式模型。根据模型本身的特点,h m m 、c r f 多用于求联合概率的情况,如词性标 注、命名实体识别等任务,而m e 、s v m 等更加适用于求某个事件的条件概率,如文本分 类、实体关系抽取等等。下面仅对适用于关系抽取的模型作简要介绍,本文中使用的支持 向量机模型,将在第四章中再做详细介绍。 2 2 1 隐马可夫模型( h m m ) 隐马尔可夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 是出现较早的统计模型,早期有人将其 运用到关系抽取中【1 8 】。h m m 是一个带随机状态转换和符号产生的有限状态自动机。它从 初始状态集开始,每个初始状态都可以转换到一个新的状态,直至到达最终状态,每次状 态转化时都生成一个由新状态选择的符号,如图2 1 。对每个h m m 给定一个有限状态集s , 第8 页 国防科学技术大学研究生院学位论文 一组观察值d ,和两个条件概率分布:状态j ,将转换到状态j 的概率p ( s h ) 和状态j 将 产生词汇w 的概率e ( w l0 ) 。每个观察值序列 对应一个状态序列 。 图2 1 隐马尔可夫模型状态示意图 在i e 任务中,观察值集合一般为字母或单词的组合,每个训练观察值序列 都有一个标签序列 。对新的观察值,目标就是为它找出概率最 大的标签序列,这需要为每个标签设计一个或多个状态。当然如果标签和状态间是一对一 关系,则对每个给定的训练序列,其状态序列就已知了。具体的过程就是:整篇文档被表 示成一组最终观察值,首先找出最可能产生该观察值的状态序列,再从状态序列的指定“目 标”状态中抽取符号。观察值和“目标状态是通过类别标签来表示的,状态序y d 贝, u 通过 v i t e r b i 算法的动态规划得到。 隐马尔可夫模型出现的时间较长,对该模型的研究比较透彻,算法成熟,在很多自然 语言处理任务中都有应用【1 8 1 1 4 7 1 。但它为了保证推导的正确性做出了严格的独立性假设,即: 当前状态仅由上一状态决定,状态与时间无关,输出仅与当前状态有关。而实际情况是大 多数序列数据都不满足这样的假设,反而存在着长距离依赖性。 2 2 2 最大熵模型( m e ) 最大熵模型( m a x i m u me n t r o p y ,m e ) t 3 3 】是一种概率估计方法。它具有较强的知识表达能 力,可以综合观察到的各种相关或不相关的概率知识,广泛应用在词性标注、命名实体识 别等自然语言处理领域。 最大熵原理由e t j a y n e s 于1 9 5 7 年提出,其主要思想是:只对所有已知的建模,假设 所有未知的都是无关紧要的。也就是,选择一种模型满足已知实例,并且对于未知实例尽 可能使其分布均匀。 实际上所有分类问题的问题空间都可以表示成特征形式,这些特征可能很复杂,但可 以把和分类问题相关的先验知识描述出来。每个特征对应于模型中的一个限制条件,根据 这些限制条件,选择一个满足最大熵条件的模型作为最后模型。之所以选择熵值最大的模 型,是因为熵定义是一个随机变量的不确定性,熵最大的时候说明随机变量最不确定。如 第9 页 国防科学技术大学研究生院学位论文 果我们选择一个熵值相对较小的模型,其结果相当于人为地在建立的模型上增加一些信息 限制条件,但导致这些限制条件的实验证据可能对于我们
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 天文考试试题及答案
- 新学期校长第一次在国旗下讲话:从“敢碰难事儿”开始
- 2025年公务员选调考试练习试题与参考题答案
- 2025年秋季开学第一周校长在国旗下讲话:以奋斗之姿绘金秋成长画卷
- 2025年高级经济师之工商管理真题附答案
- 武汉高考模拟试题及答案
- 医学毕业考试题及答案
- 甲烷便携仪管理办法
- 个人贸易资金管理办法
- 血站设备购买管理办法
- 旅游新媒体营销
- 地质调查员三级(区域地质、矿产地质、矿山地质)复习参考试题库(含答案)
- 人美版六年级上册美术教案完整版
- 乳牙根管治疗的护理配合
- 经编车间安全操作规程模版
- 《小学三年级英语开学第一课》课件
- 新入职教师安全培训
- 2023年gmp指南教学课件
- 突发性耳聋演示课件
- 中医基础理论9病机课件
- 2023年全国出版专业技术人员职业资格考试出版专业基础知识(中级)试题及参考答案
评论
0/150
提交评论