(计算机系统结构专业论文)基于半监督和主动学习的蛋白质关系抽取研究.pdf_第1页
(计算机系统结构专业论文)基于半监督和主动学习的蛋白质关系抽取研究.pdf_第2页
(计算机系统结构专业论文)基于半监督和主动学习的蛋白质关系抽取研究.pdf_第3页
(计算机系统结构专业论文)基于半监督和主动学习的蛋白质关系抽取研究.pdf_第4页
(计算机系统结构专业论文)基于半监督和主动学习的蛋白质关系抽取研究.pdf_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理工大学硕士学位论文 摘要 随着生物医学文献数量的急剧增长,海量的生物医学信息出现在生物医学研究者面 前。一方面,这使生物医学研究者很难快速地从这些文献中找到需要的信息;另一方面, 他们常常需要标注大量的样本进行研究或者实际工作,可是由于数据海量,标注的成本 是很高的。因此,为了提高工作效率,迫切地需要一些自动化的手段帮助他们在海量生 物医学文献中迅速地找到需要的信息,而且人们更加希望使用尽可能少的已标注样本就 能够有效地满足研究与实际需求。使用半监督学习及主动学习方法进行生物医学文献中 蛋白质关系抽取正是在这种背景下产生的。此外,从生物医学文献中抽取蛋白质关系具 有很高的应用价值,对蛋白质知识网络的建立、蛋白质关系的预测、新药的研制等均具 有重要的意义。 本文首先介绍了蛋白质关系抽取的相关知识和研究概况,然后介绍了半监督学习方 法中的自训练、协同训练以及主动学习方法,最后研究与实现了基于半监督学习与主动 学习方法的生物医学文献中的蛋白质关系抽取。该研究使用机器学习方法从两个不同的 角度进行蛋白质关系抽取,着眼与如何尽可能的减轻用户的标注负担。首先,使用了半 监督学习中的自训练( s e l f - t r a i n i n g ) 、协同训练( c o t r a i n i n g ) 两种方法进行蛋白质关系抽 取,探讨如何利用少量已标样本集、大量未标样本集进行蛋白质关系抽取,达到一个不 错的效果;其次,使用主动学习( a c t i v el e a r n i n g ) 方法进行蛋白质关系抽取,选择更有价 值的样本进行标注,探讨如何在保持效果的前提下,减少用户时标注负担。最后尝试将 半监督学习与主动学习方法结合在一起,寻求蛋白质关系抽取的效果与用户标注的平衡 点,使用户不但可以尽可能少的标注样本,又可以使蛋白质关系抽取的精度保持在较高 水平。本文在不同的数据集上进行了实验,最后根据实验结果做出了详细的讨论,并给 出了研究与实现的结论。 关键词:蛋白质关系抽取;半监督学习;主动学习 大连理工大学硕士学位论文 r e s e a r c ho fp r o t e i n p r o t e i ni n t e r a c t i o ne x t r a c t i o nb a s e do n s e m i s u p e r v i s e dl e a r n i n ga n da c t i v el e a r n i n g a b s t r a c t a st h eq u a n t i t yo fb i o m e d i c a ll i t e r a t u r e si s i n c r e a s i n gr a p i d l y , v a d o u sk i n d so f b i o m e d i c a li n f o r m a t i o na p p e a ri nf r o n to fb i o m e d i c a lr e s e a r c h e r s o no n eh a n d ,t h i sb r i n g s b i o m e d i c a lr e s e a r c h e r sah e a v yb u r d e na n dm a k e si td i f f i c u l tt of i n dn e e d e di n f o r m a t i o nf r o m t h e s el i t e r a t u r e sr a p i d l y ;o nt h eo t h e rh a n d ,t h e yu s u a l l yn e e dt ot a gm a n ys a m p l e st or e s e a r c h o rs p e c i f i cw o r k , w h i c hc o s t st o om u c hb e c a u s eo ft h em a j o r i t yo fd a t a i no r d e rt oi m p r o v e w o r ke f f i c i e n c y ,a na u t o m a t e df a c i l i t yi su r g e n t l yn e e d e dt of i n dn e e d e di n f o r m a t i o nr a p i d l y ; a l s o p e o p l eh o p e l e a s tl a b e ld a t ac a nm e e tt h ea c t u a ln e e do fr e s e a r c h r e s e a r c ho n p r o t e i n - p r o t e i ni n t e r a c t i o n ( p p i ) e x t r a c t i o n f r o mb i o m e d i c a ll i t e r a t u r e b yu s i n g s e m i - s u p e v i s e dl e a r n i n g a n da c t i v e l e a r n i n gm e t h o d se m e r g e su n d e rt h i sb a c k g r o u n d f u r t h e r m o r e ,t h e r ei sh i 曲a p p l i c a t i o nv a l u ei np p ia u t o m a t i ce x t r a c t i o nf r o mb i o m e d i c a l l i t e r a t u r e ,w h i c hc 锄h e l pt ob u i l dp r o t e i nr e l a t i o nn e t w o r k ,p r e d i c tp r o t e i nf u n c t i o na n d d e s i g nn e wd r u g s n ep a p e rf i r s ti n t r o d u c e st h er e l a t e dk n o w l e d g eo fp p ie x t r a c t i o na n dt h eg e n e r a l r e s e a r c h t h e ns e m i s u p e v i s e dl e a r n i n gm e t h o d si n c l u d i n gs e l f - t r a i n ga n dc o t r a i n i n ga r e s h o w nt o g e t h e rw i t ha c t i v el c a r n i n gm e t h o d s s o m eo ft h em e t h o d sa r ea p p l i e di n t op p i e x t r a c t i o n ,w h i c ht r yt os o l v et h et a s ki nt w od i f f e r e n tw a y st oa l l e v i a t et h et a gb u r d e na s m u c ha sp o s s i b l e f i r s t ,s e l f - t r a i n ga n dc o - t r a i n i n ga r ea p p l i e dr e s p e c t i v e l yt oe x p l o r eh o wt o u s et h ep l e n t yo fu n l a b e l e dd a t at oh a v ean i c ep p ie x t r a c t i o np e r f o r m a n c e ;s e c o n d l y ,a c t i v e l e a r n i n gm e t h o di su s e dt op i c ku pt h em o s ti n f o r m a t i v eu n l a b e l e ds a m p l e st os h o wh o wt o r e d u c et h ea m o u n to fh u m a nl a b e l i n ge f f o r tw h i l em a i n t a i n i n gt h ep p ie x t r a c t i o np e r f o r m a n c e a tl a s t ,t h et w ow a y sa r ec o m b i n e dt of i n dah a r m o n i cw a yw h e r eu s e r sc a nu s em u c hl e s s l a b e l e dd a t at oh a v eag o o dp e r f o r m a n c e n ep a p e rt e s t sa l lt h em e t h o d so nd i f f e r e n tc o r p r a a n dg i v e sd e t a i l e dd i s c u s s i o na n dc o n c l u s i o n k e yw o r d s :p p i ;s e m i - s u p e r v i s e dl e a r n i n g ;a c t i v el e a r n i n g 大连理工大学学位论文独创性声明 作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究 工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外, 本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请 学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献 均已在论文中做了明确的说明并表示了谢意。 若有不实之处,本人愿意承担相关法律责任。 学位论文题目:勘鹭:丝垃垒这蕴司盘幽蔓魁垂 作者签名: j 至堕垒日期:巡年兰月j 曼目 大连理工大学硕士研究生学位论文 大连理工大学学位论文版权使用授权书 本人完全了解学校有关学位论文知识产权的规定,在校攻读学位期间 论文工作的知识产权属于大连理工大学,允许论文被查阅和借阅。学校有 权保留论文并向国家有关部门或机构送交论文的复印件和电子版,可以将 本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印、或扫描等复制手段保存和汇编本学位论文。 学位论文题 作者签名: 导师签名: 大连理工大学硕士学位论文 1 绪论 1 1 研究背景 当前,生物医学文献的数量急剧增长,海量的生物医学文献给生物医学研究者带来 了巨大的潜力及沉重的工作负担,他们需要阅读这些生物医学文献以发现对他们的研究 有用的信息。从生物医学文献中抽取蛋白质关系具有很高的应用价值,对蛋白质知识网 络的建立、蛋白质关系的预测、新药的研制等均具有重要的意义。然而由于他们只能阅 读这其中的一部分,因此很多研究者迫切需要的信息可能不会被及时发现。伴随着生物 医学文献海量增长,相关的可用电子文档数量也在不断增加,许多在线版本的文献和杂 志都已经出版,比如在线生物医学文献数据库m e d l i n e ,作为现代生物医学研究发展 和高价值文献存储的代表资源,目前收录有自1 9 6 6 年以来7 0 多个国家4 3 种文字的生 物医学文献1 5 0 0 万篇以上。 从海量的在线生物医学文献获得知识的最直接的方法是通过检索系统,但生物医学 研究者要想获得他们想要的信息仍然需要阅读大量的生物医学文献,这让他们感到力不 从心。一方面,这使生物医学研究者很难快速地从这些文献中找到需要的信息;另一方 面,他们常常需要花费大量的时间与精力标注大量的样本进行研究或者实际工作。为了 提高工作效率,迫切地需要一些自动或者半自动的手段帮助他们进行这两方面的工作, 而利用机器学习方法进行这方面的工作就可以大大减轻研究者的负担。 机器学习方面,人们最开始通常使用监督学习方法,在已经标注大量样本的前提下 进行实际应用,可是随着在线文档的数量指数级增长,现有的已标样本已经不能满足日 益增长的实际需求,人们迫切的需要标注更多的样本,从而保证监督学习方法的有效性。 可是由于标注样本需要很多专家消耗较多的时间与精力,成本很高,因此人们希望使用 尽可能少的已标注样本就能够有效地满足研究与实际需求。半监督学习及主动学习方法 恰好可以从两个不同的角度解决这个问题。半监督学习方法旨在使用少量已标样本,借 助于大量的未标样本就可以满足相关工作;而主动学习方法旨在从大量的未标样本中选 择更有价值的有限样本进行标注。两种方法从两种角度减轻用户的负担。 1 2 应用领域 信息抽取的主要功能是从文本中抽取出特定的事实信息。比如,从新闻报纸中抽取 出恐怖事件的详细情况:时间、地点、作案者、受害者、袭击目标、使用的武器等;从 经济新闻中抽取出公司发布新产品的情况:公司名、产品名、发布时间、产品性能等; 基于半监督和主动学习的蛋白质关系抽取研究 从病人的医疗记录中抽取出症状、诊断记录、检验结果、处方等等。通常,被抽取出来 的信息以结构化的形式描述,可以直接存入数据库中,供用户查询以及进一步分析利用。 实体关系抽取是信息抽取的子任务,是指自动识别出用自然语言表达的两个实体之 间的关联,例如,“李明是新华公司的经理,在这个句子中,人物实体“李明 和组 织机构实体“新华公司 之间存在雇佣关系,即李明是新华公司的雇员,担任经理的职 位。 面向生物医学文献的蛋白质关系抽取的主要功能是从生物医学文献中抽取出特定 的事实信息,主要是生物实体间的关系,如蛋白质( 基因) 一蛋白质( 基因) 等。这些关系 对整个生物知识网络的建立,生物体关系的预测,新药的研制等均具有重要的意义。当 前对基因、蛋白质的研究是生命科学的研究重点,因此以抽取出生物医学文献中的蛋白 质关系信息为目的的关系抽取系统有着很高的应用价值。而生物医学专家面临的问题不 仅于此,海量的在线生物医学文献要求生物医学专家使用更加有效的办法加以利用。而 机器学习方法正是近年可以用来尝试解决这一问题的方法之一。通过已标样本可以有效 的判断文献中是否包含蛋白质关系。 1 3 本文的工作 本文将半监督学习和主动学习应用在蛋白质关系抽取领域,利用词特征、依存关系 分析树及支持向量机( s v m ) 对四个标准语料进行蛋白质关系抽取的相关实验。由于国内 基于文本的蛋白质关系抽取的研究较少,本文主要借鉴了国外蛋白质关系抽取的相关成 果,并且参考了国内外机器学习,尤其是半监督学习、主动学习以及s v m 的一些研究 成果,初步探讨了如何使用少量已标样本进行蛋白质关系抽取、如何选择有价值的样本 进行标注、如何使用尽可能少的已标样本取得尽可能好的效果。通过构建基于词特征及 依存树特征的s v m 模型,本文对生物医学文献中包含的蛋白质关系进行了抽取,验证 了使用机器学习的方法对蛋白质关系抽取的良好效果。它的研究领域隶属于信息抽取, 是信息抽取的任务之一。另外,蛋白质关系抽取又与文本挖掘有着密切关系。文本挖掘 中的许多算法与技术都可以应用到基于文本的蛋白质关系抽取领域。 本文的工作主要有三个组成部分。一是使用半监督学习方法,构建基于词特征及依 存树特征的s v m 模型,通过自训练及协同训练探讨如何利用少量已标样本和大量未标 样本进行有效的蛋白质关系抽取;二是使用主动学习方法,构建基于词特征及依存树特 征的s v m 模型,探讨如何选择更有价值的样本进行标注,在保证效果的前提下,尽可 能的减少用户的标注量;三是将半监督学习方法和主动学习方法相结合,取长补短,进 行更有效率的蛋白质关系标注及抽取。其中,对于机器学习模型的选取,本文选择了 大连理工大学硕士学位论文 s v m 是根据国内外关于这方面的研究和讨论,s v m 方法对蛋白质相互作用关系抽取的 效果最好1 1 j ;对于训练和测试语料的选择,本文使用了u 工、i e p a 、a i m e d 、h p r d 5 0 四种标准语料作为实验语料。它们是由多位权威专家标注而成,以句子为单位,不但标 注了具体的蛋白质实体,还标注了它们之间的关系。为了进行科学的评价,本文在实验 中进行了十倍交叉验证,经过实验证明,基于半监督学习和主动学习方法的蛋白质关系 抽取是有效的,不但可以减轻用户的标注及抽取负担,而且还能够保证不错的抽取效果。 本文的探讨是有实际意义的,取得了初步的成效。 本文的工作只是将多种机器学习方法应用在蛋白质关系抽取研究的一个初步尝试, 其成果是有限的,接下来还有很多的后续工作需要完成。比如,建立一个完整的应用系 统进行更加全面的考察及证明、在具体的半监督学习及主动学习方法上进行更深入的研 究等。 1 4 本文的结构 论文共分为五章,详细阐述了基于半监督学习和主动学习的蛋白质关系抽取方法、 实现和性能评估,具体章节安排如下。 第一章,绪论,综述了本研究课题的背景及应用领域,介绍了本文研究的主要工作 和论文的结构安排。 第二章,主要对蛋白质相互作用关系抽取的相关知识和研究现状做出了阐述确r 第三章,详细阐述了相关的概念,包括s v m 、词特征以及依存分析。 第四章,详细介绍了半监督学习方法,及其在四个语料的实验设计与结果分析。 第五章,详细介绍了主动学习方法,及其在四个语料的实验设计与结果分析。 第六章,详细介绍了半监督与主动学习结合的蛋白质关系抽取方法及结果分析。 论文的总结,介绍了本文的研究内容、主要工作及下一步的工作。 基于半监督和主动学习的蛋白质关系抽取研究 2蛋白质关系抽取相关知识及研究综述 2 1蛋白质关系抽取的相关知识 蛋白质关系抽取将关系抽取应用于生物医学领域,是特定领域的关系抽取。而关系 抽取又是信息抽取的任务之一,所以蛋白质关系抽取与关系抽取和信息抽取有着密切的 联系。下面,简要介绍一下信息抽取技术的相关知识以及关系抽取的研究历史和研究现 状。 2 1 1 信息抽取的定义 信息抽取( i n f o r m a t i o ne x t r a c t i o n ,i e ) 一般定义为从一段文本中抽取指定的预先想要 的信息( 事件、事实) ,表示为结构化的、统一的形式,供信息查询、文本深层挖掘、问 答系统、抽样统计等应用。信息抽取研究旨在为人们提供更有力的信息获取工具,以应 对信息爆炸带来的挑战。信息抽取将使信息以统一的形式集中在一起,将带来诸多优势, 例如,便于信息的查询和比较,便于自动化处理等。 信息抽取与信息检索( i n f o r m a t i o nr e t r i e v a l ,i r ) 是易于混淆的概念,信息检索的任务 是根据查询要求进行查找,返回相关文档,与信息抽取存在差异,其差异主要表现为以 下三个方面【l 】: ( 1 ) 功能不同。信息检索系统主要是从大量的文档集合中找到与用户需求相关的文 档列表;而信息抽取系统则旨在从文本中直接获得用户感兴趣的事实信息。 ( 2 ) 处理技术不同。信息检索系统通常利用统计及关键词匹配等技术,把文本看成 词的集合( b a g so fw o r d s ) ,不需要对文本进行深入分析理解;而信息抽取往往要借助自 然语言处理技术,通过对文本中的句子以及篇章进行分析处理后才能完成。 ( 3 ) 适用领域不同。由于采用的技术不同,信息检索系统通常是领域无关的,用户 只需输入简单的关键字,就可以查找到有关的文档;而信息抽取系统则是领域相关的, 只能抽取系统预先设定好种类的事实信息。 二者的本质不同是信息抽取将文本看作实体关系的集合,而信息检索将文本看作词 符号串的集合概率空间;与信息检索相比,信息抽取不仅查找信息,而且替用户理解 信息。 虽然信息抽取替用户理解信息,但同时,信息抽取与文本理解也存有差异,文本理 解致力于以清楚的方式表达一篇文章中的所有信息,虽然信息抽取需要文本理解,但理 解的层面不像文本理解那样深入,信息抽取的文本理解以抽取到所需信息为目的。一般 一4 一 大连理工大学硕士学位论文 只关心有限的感兴趣的事实信息,而不关心文本意义的细微差别以及作者的写作意图等 深层理解问题。 2 1 2 信息抽取的应用对象 信息抽取可以应用于处理无结构信息、结构化信息和半结构化信息。对于无结构信 息、结构化信息和半结构化信息的获取问题,可以考虑用信息抽取技术解决。 ( 1 ) 无结构信息 无结构信息包括新闻报道、研究报告等自由式文本。处理无结构信息的信息抽取系 统通常利用自然语言处理技术( n l p ) ,进行句法分析、语义标注、专有对象的识别( 如 人物、公司) 和构建抽取规则,其抽取规则建立在词或词类间句法关系的基础上,通过 人编制或者从人工标注的语料库中自动学习获得。虽然日前无结构信息抽取的水平还难 以达到人的能力,但是信息抽取技术还是可行的。 ( 2 ) 结构化信息 结构化信息如数据库中的结构数据,或其他形式的结构规整的数据。对于该类信息 的抽取,因为结构规整,通常不难实现。 ( 3 ) 半结构化信息 半结构化信息兼具无结构和结构信息的特征,即无法将其归类为无结构信息,又无 法将其归类为结构化信息,故归类为半结构化信息。对该类信息的抽取,可以充分利用 其结构化的特征。但这些信息的结构有些是隐含的,有些是不规则的或不完全的,有些 本身有结构,但是为了某些目的,而故意忽视了其结构。 通常,信息抽取用于处理自然语言文本信息尤其是非结构化文本信息。但广义上信 息抽取处理对象还可以是语音、图像、视频等其他媒体类型的数据。信息抽取的应用对 象可以总结如下: 信息抽取 无结构信息抽取 结构化信息抽取 半结构化信息抽取 语音、图像、视频等其他媒体类型数据信息抽取 2 1 3 关系抽取的历史 关系抽取最早是由美国国防高级研究计划委员会( d e f e n s ea d v a n c e dr e s e a r c h p r o j e c t sa g e n c y ) 资助的m u c ( m e s s a g eu n d e r s t a n d i n gc o n f e r e n c e ) 会议于1 9 9 8 年最后一 次m u c 一7 会议上引入。最初为模板关系( t e m p l a t er e l a t i o n ) 任务,意在确定实体之间与 特定领域无关的关系【2 1 。 基于半监督和主动学习的蛋白质关系抽取研究 随着m u c 会议的停办,美国国家标准技术研究院( n i s t ) 组织了自动内容抽取 ( a u t o m a t i cc o n t e n te x t r a c t i o n ) 评测,它从1 9 9 9 年开始继续进行信息抽取方面的评测。 a c e 评测1 9 9 9 年7 月开始酝酿,2 0 0 0 年1 2 月正式开始启动,迄今已经举办过六次评 测。其研究的主要内容是自动抽取自然语言文本语料中出现的实体、关系、事件等内容。 目前a c e 评测主要有3 大任务:实体识别( e n t i t yd e t e c t i o na n dr e c o g n i t i o n ) 、关系识别 ( r e l a t i o nd e t e c t i o na n dr e c o g n i t i o n ) 和事件识别( e v e n td e t e c t i o na n dr e c o g n i t i o n ) 。 2 1 4 关系抽取的研究现状 关系抽取是信息抽取的任务之一,关系抽取以实体识别( e n t i t yd e t e c t i o na n d r e c o g n i t i o n ) 为前提,即在实体识别已经完成之后,判断同一个句子中的任意两个实体是 否构成我们预先定义好的某种二元关系。 通常,将关系抽取问题转化为一个分类问题。即对一个句子中的任意两个实体e 1 和e 2 所构成的实体对( e 1 ,e 2 ) ,使用一个分类器来决定该实体对是否构成我们预先定 义的关系,即( e 1 ,e 2 ) 一c ,其中c 为某种我们预先定义好的类别标记。在a c e 2 0 0 4 评 测中一共定义了a r t ( a g e n t a r t i f a c t ) 、d i s c ( d i s c o u r s e ) 、e m p o r g ( e m p l o y m e n t m e m b e r s h i p s u b s i d i a r y ) 、 g p e a f f ( g p ea f f i l i a t i o n ) 、o t h e r a f f ( p e r s o ca f f i l i a t i o n ) 、p e r s o c ( p e r s o n a l s o c i a l ) 和p h y s ( p h y s i c a l ) 七大类关系。 与解决所有分类问题一样,人们最初使用基于知识库【3 】的方法来解决该问题。但是, 此方法需要领域专家构筑大规模的知识库,这不但需要有拥有专业技能的专家,也需要 付出大量劳动,耗费大量时间。为了避免基于知识库方法的这些缺陷,人们开始使用机 器学习的方法【4 】来解决该问题。这种方法不需要有拥有大量专业技能的专家来书写知识 库,只需要有一定专业知识技能的人员对一个句子中的任意两个实体之间的关系做出判 断,判断是不是预先定义好的关系即可。也就是,对自然文本中的实体对进行关系类别 标注。然后以标注好的数据为训练数据,使用各种学习方法构造分类器。经常使用的学 习算法有k - 近邻算法【5 】和w i n n o w 6 j 等。 与解决所有其他分类问题一样,在使用学习算法进行学习之前,必须针对关系抽取 这个特定问题进行特征提取。即将用于训练的自然的实例表达成可供学习算法使用的方 式,即确定自然实例的表达形式。在确定实例表达形式的同时还需要确定在这种表达形 式下的实例间的相似度计算公式。根据所使用的实例表达形式的不同,学习算法通常分 为基于特征向量的学习算法和基于核函数( k e r n e l ) 的学习算法,其实两者并无本质区别。 所谓特征向量,是实例的一种数值化的表示方式。特征向量的表达形式简单,基于 特征向量的学习算法具有使用方便、训练和预测速度快等优点。然而,由于自然界实际 大连理工大学硕士学位论文 问题的复杂性,构造个能够反映研究问题特征的好的特征向量是很困难的事情,它要 求研究人员对所研究的问题有深刻的认识,拥有大量的专业知识。这样便产生了基于核 函数( k e r n e l ) 的学习算法。 基于核函数的学习算法,它最早在支持向量机( s v m ) 算法中被引入,后来发现多种 学习方法可以使用k e r n e l 的形式来表示,例如k - 近邻算法、神经网络等等。核函数其 实就是满足一定条件的实例之间的一种相似度计算公式。在自然语言处理领域应用基于 k e r n e l 的学习算法 7 1 ,与基于特征向量的学习算法不同,它不需要显示的构造特征向量, 而是直接使用字符串、树、图等自然界实例的原始形式作为处理对象,需要做的只是计 算任何两个对象之间的k e r n e l ( s i m i l a r i t y ) 函数。k e r n e l 函数具有丰富的表达能力,能够 简洁地隐示地表达复杂的自然现象中所蕴含的丰富信息。由于k e r n e l 函数的这一特性, k e r n e l 函数在关系抽取中得到了广泛的研究和使用。 z e l e n k o 等人【8 j 构造了一种基于浅层句法分析树的递归核函数,用于抽取文本中的 p e r s o n a f f i l i a t i o n 和o r g a n i z a t i o n - l o c a t i o n 关系,在该算法中每个关系实例( 实体对) 被表 示成包含两个实体节点的最小公共子树。c u l o t t a 等人f 9 】以类似的方式描述了一种建立在 依存树上的核函数。为了获得更好的性能,作者在每个节点中都加入了更多的语义信息。 虽然核函数方法在表达信息方面有较大优势,但其也有一个致命缺点,那就是计算 复杂度高,训练和预测速度很慢,不适合处理数据量较大的数据。由于核函数不像特征 向量那样显式的表达信息,而是将信息隐含在核函数中,这样不利于实验者控制实验中 所使用的信息,可能将不必要的信息噪声引入到算法中,反而影响了算法的性能。 为了能够控制算法所使用的信息,研究人员开始以更加灵活的方式使用核函数,也 就是在使用核函数时引入更多领域知识,控制核函数的复杂程度,这样既能提高算法性 能,又能提高算法的训练和预测速度。z h a os h u b i n 等人【1 0 1 在文章中为不同层次的信息 建立不同的比较简单的核函数,然后综合使用,这样能综合利用各层次信息在关系抽取 中的作用。有些研究人员更是直接放弃了使用核函数,而是采用基于特征向量的方法。 z h o ug u o d o n g 等人1 1 1 j 综合考虑各种有用的语义、句法信息,取得了比核函数方法更好 的性能。在上面的算法中,无论是基于特征向量的学习算法还是基于核函数的学习算法 都需要综合考虑各种句法、语义信息以使算法达到比较好的性能。发掘更多的对关系抽 取有用的句法、语义信息并有效的使用已经成为关系抽取中的重要研究方向。 2 2 蛋白质关系抽取的研究现状 目前,蛋白质关系抽取使用的方法主要有三种,基于共现的方法f 1 2 】、基于规则的方 法【1 3 l 以及基于机器学习的方法。基于共现的方法就是通过计算两个蛋白质的共现次数来 基于半监督和主动学习的蛋白质关系抽取研究 判断它们之间的关系。但是使用这种方法只能抽取已出现的蛋白质关系,而不能发现新 出现的蛋白质关系。基于规则的方法利用预先定义好的模式规则来抽取蛋白质关系,但 这种方法在未知新关键词的情况下不能生成新的模式规则,从而限制了蛋白质关系抽取 的可拓展性。另外,一旦规则集达到了一定规模,便很难将新规则正确插入到现有的规 则集的对应位置,这样也同样限制了蛋白质关系抽取的效果。最后,当关系抽取系统被 应用到新领域的时候,基于规则的方法可能需要预先定义整个模式规则集以适应新领 域,从而降低了系统的可移植性。基于机器学习方法利用已标注样本建模,然后预测未 标样本。n a n d a 等人【1 4 j 于2 0 0 4 年提出了一种使用最大熵模型整合词典、语法和语义等 特征的方法,该方法在a c e 2 0 0 4 任务的新文本上进行关系抽取。在a c e 2 0 0 4 的语料集 上,n a n d a 的方法取得了较好的结果。在n a n d a 等人的方法启示下,研究人员开始使用 基于统计机器学习,比如:最大熵、条件随机域等方法,并且结合多种词典、语法和语 义特征进行关系抽取。比如:k a z u n a r is u g i y a m a 和k e n j ih a t a n o 等人【1 5 l 使用多种统计机 器学习方法,如:k n n 、决策树、神经网络和支持向量机,进行关系抽取。j u a nx i a o 等人【1 6 】使用最大熵结合多种特征的方法进行关系抽取,取得了较好的效果。 与基于共现的方法相比,基于机器学习方法在抽取新出现的蛋白质关系方面有很突 出的表现。与基于规则的方法相比,机器学习方法能够发现新的模式规则,并且能够融 合多种特征的语料统计量以达到较高的性能。另外,机器学习方法能够轻易地被应用于 其他领域的关系抽取,而不需要重新制定规则集。当前研究存在的一个问题是:大部分 关蛋白质系抽取采用的是自己制作的语料,缺乏统一的性能评价标准。 大连理工大学硕士学位论文 3 概念描述及评测方法 3 1支持向量机 支持向量机简称s v m ,是统计学习理论中最新的内容,也是最实用的部分。其核 心内容是在1 9 9 2 年到1 9 9 5 年间提出的【1 7 - 2 0 ,目前仍处在不断发展阶段。 3 1 1 广义最优分类面 s v m 是从线性可分情况下的最优分类面发展而来的,基本思想可用图3 1 的两维情 况说明。图中,实心点和空心点代表两类样本,h 为分类线,奶,飓分别为过各类中离 分类线最近的样本且平行于分类线的直线,它们之间的距离叫做分类间隔( m a r g i n ) ,所 谓最优分类线就是要求分类线不但能将两类正确分开( 训练错误率为o ) ,而且使分类间 隔最大。分类线方程为x w + 6 0 ,我们可以对它们进行归一化,使得对线性可分的样 h h t o 图3 1 线性可分情况下的最优分类线 f i g 3 1 o p t i m a ls e p a r a t i n gl i n eo fl i n e a r l ys e p a r a b l ec a s e 本集“,y f ) ,i 一1 ,以,x e r d , y + 1 一n ,满足式( 3 1 ) y j 【( w 。x i ) + 6 】一1 20 i = 1 ,n ( 3 1 ) 此时分类间隔等于2 l i 叫i ,使间隔最大等价于使忙u 2 最小。满足条件( 3 1 ) 且使三| l 叫1 2 最小的分类面就叫做最优分类面,皿,总上的训练样本点就称作支持向量。 一9 一 基于半监督和主动学习的蛋白质关系抽取研究 使分类间隔最大实际上就是对推广能力的控制,这是s v m 的核心思想之一。统计 学习理论指出,在n 维空间中,设样本分布在一个半径为r 的超球范围内,则满足条 件i i 叫is a 的正则超平面构成的指示函数集f ( x ,w ,6 ) zs g n ( w x ) + 舛的v c 维满足式 ( 3 2 ) 所示的界 hs m i n ( r 2 a 2 】,) + 1 ( 3 2 ) 因此使8 叫1 2 最小就是使v c 维的上晃最小,从而实现s r m 准则中对函数复杂性的 选择。 利用l a g r a n g e 优化方法可以把上述最优分类面问题转化为其对偶问题【2 5 1 ,即在约 束条件,如式( 3 3 a ) 所示 荟y 惩一o ( 3 3 a ) 和如式( 3 3 b ) 所示的 口i 0 i ;1 ,刀 ( 3 3 b ) 下对嚷求解式( 3 4 ) 所示函数的最大值 q ) 8 善n 口t 一言。荟a l a j y i y j “x j ) ( 3 “) 口。为与每个样本对应的l a g r a n g e 乘子。这是一个不等式约束下二次函数寻优的问 题,存在唯一解。容易证明,解中将只有一部分( 通常是少部分) 口。不为零,对应的样本 就是支持向量。解上述问题后得到的最优分类函数如式( 3 5 ) 所示 ,o ) i s 印 ( w x ) + 6 _ s 印 砉口? y t o q z ) + 6 ( 3 5 ) 式中的求和实际上只对支持向量进行。b 是分类阈值,可以用任意一个支持向量( 满 足( 3 1 ) 式中的等号) 求得,或通过两类中任意一对支持向量取中值求得。 在线性不可分的情况下,可以在式( 3 1 ) 所示的条件中增加一个松弛项f ,0 ,成为 式( 3 6 ) y i i ( w - x , ) + 6 】- 1 + l 乏0 ,i 一1 ,露 ( 3 6 ) 大连理工大学硕士学位论文 将目标改为求( 嵋勤l 扣w i l 2 + c ( 骞皇) 最小,即折衷考虑最少错分样本和最大分类 间隔,就得到广义最优分类面。其中,c 0 是一个常数,它控制对错分样本惩罚的程度。 广义最优分类面的对偶问题与线性可分情况下几乎完全相同。只是条件( 3 3 b ) 变成了条 件( 3 7 ) 0 s 口isc ,i 一1 ,刀 ( 3 7 ) 3 1 2 支持向量机 对于n 维空间中的线性函数,其v c 维为+ 1 ,但根据式( 3 2 ) 的结论,在0w i is a 的约束下其v c 维可能大大减小,即使在十分高维的空间中也可以得到较小v c 维的函 数集,以保证有较好的推广性。同时我们看到,通过把原问题转化为对偶问题,计算的 复杂度不再取决于空间维数,而是取决于样本数,尤其是样本中的支持向量数。这些特 点使有效地处理高维问题成为可能。 对非线性问题,可以通过非线性变换转化为某个高维空间中的线性问题,再变换空 间求最优分类面。这种变换可能比较复杂,因此这种思路在一般情况下不易实现。但是 注意到,在上面的对偶问题中,不论是寻优函数( 3 4 ) 还是分类函数( 3 5 ) 都只涉及训练 样本之间的内积运算“石,) ,这样在高维空间实际上只需进行内积运算,而这种内 积运算是可以用原空间中的函数实现的,我们甚至没有必要知道变换的形式。根据泛函 的有关理论,只要一种核函数k 瓴,x ,) 满足m e r c e r 条件,它就对应某一变换空间中的 内积【2 3 1 。 因此,在最优分类面中采用适当的内积函数k “,z ,) 就可以实现某一非线性变化后 的线性分类,而计算复杂度却没有增加,此时目标函数( 3 4 ) 变为式( 3 8 ) 所示 纰) 2 酗一言磊a i a j y l y j k ( x i , x j ) ( 3 舟) 而相应的分类函数也变为如式( 3 9 ) 所示 f ( x ) = s g n ( a ;y ,k ( x f ,x ) + 6 ) ( 3 9 ) 可 这就是支持向量机。概括地说,支持向量机就是首先通过内积函数定义的非线性变 换将输入空间变换到一个高维空间,在这个空间中求( 广义) 最优分类面。s v m 分类函 基于半监督和主动学习的蛋白质关系抽取研究 数形式上类似于一个神经网络,输出是中间节点的线性组合,每个中间节点对应一个支 持向量,如图4 2 所示。 图3 2 支持向量机示意图 f i g 3 2f i g u r eo fs u p p o r tv e c t o rm a c h i n e 3 1 3 核函数 s v m 中不同的内积核函数将形成不同的算法,目前研究最多的核函数主要有三类, 一是多项式核函数,如式( 3 1 0 ) 所示 k ( x ,x ;) - 【( x x 。) + 1 r ( 3 1 0 ) 所得到的是留阶多项式分类器;二是径向基函数( r b f ) ,如式( 3 1 1 ) 所示 冲x p 一呼 ( 3 1 1 ) 所得分类器与传统r b f 方法的重要区别是,这罩每个基函数中心对应一个支持向 量,它们及输出权值都是由算法自动确定的。也可以采用s i g m o i d 函数作为内积,如式 ( 3 1 2 ) 所示 大连理工大学硕士学位论文 k o ,t ) 一t a n h ( v ( x x j ) + c ) ( 3 1 2 ) 这时s v m 实现的就是包含一个隐层的多层感知器,隐层节点数是由算法自动确定的, 而且算法不存在困扰神经网络方法的局部极小点问题。 3 。1 4 用于函数拟合的s v m s v m 方法也可以很好地应用于函数拟合问题中【2 1 2 3 1 ,其思路与在模式识别中十分 相似。 首先考虑用线性回归函数厂o ) 一w z + 6 拟合数据 “,y , ,f - 1 ,疗,t 尺4 ,y 。e r 的问题,并假设所有训练数据都可以在精度下无误差 地用线性函数拟合,如式( 3 1 3 ) 所示 j y i w :一6 s f f 。1 ,万 ( 3 1 3 ) 【w 。t + d y ls 占 与最优分类面中最大化分类间隔相似,这里控制函数集复杂性的方法是使回归函数 最平坦,它等价于最小化l 剀叫1 2 。考虑到允许拟合误差的情况,引入松弛因子氧o 和 舅0 ,则条件( 3 1 3 ) 变成条件( 3 1 4 ) 优化目标变成最小化扣w i l 2 + c 砉( 参+ 占) ,常数c 。控制对超出误差的样本的惩 罚程度。采用同样的优化方法可以得到其对偶问题。在条件( 3 1 5 ) 善( 盱口? ) l o ( 3 1 5 ) 0s a j ,口? 量c ,i 一1 ,厅 下,对l a g r a n g e 因子,口? 最大化目标函数( 3 1 6 ) 形( 口,口) ;一砉 - 吒) + 砉儿( 口卜嚷) 一三1 ,妻( 乜- 口从口;一口,) “z ,) ( 3 1 6 ) 得回归函数,如式( 3 1 7 ) 所示 他) ;( w x ) + 62 善( 口;q ) ( t z ) + 6 ( 3 1 7 ) 孔 l - 知舅 + + 和 叫 q 譬 基于半监督和主动学习的蛋白质关系抽取研究 与模式识别中的s v m 方法一样,这里q ,口:也将只有小部分不为0 ,它们对应的 样本就是支持向量,一般是在函数变化比较剧烈的位置上的样本;而且这里也是只涉及 内积运算,只要用核函数k “,x ,) 替代式( 3 1 6 ) ,式( 3 1 7 ) 中的内积运算就可以实现非 线性函数拟合。 3 1 5 核函数主要成分分析 s v m 方法中一个重要启示是用内积运算实现某种非线性变换,这种思想也可以在 其它问题中得到应用,比较成功的例子就是用核函数实现非线性主成分分析【2 4 2 5 1 ,它是 传统主成分分析( p a u 方法的推广。 对于样本集“,z 。,主成分方向是矩阵c 一三罗而# 的特征向量。对x 进行非 j _ 线性变换驴 ) ,可得c 。寺著妒瓴) 驴( 而) r ,其特征向量v 就是原样本集的非线性主成分 方向,满足g v c v 。将每个样本与该式内积,得到式( 3 1 8 ) a 妒( 吒) y - 妒瓴) c v ,kt 1 ,以 ( 3 1 8 ) 可以证明,特征向量l ,可以写成驴善伊o t ) ,将它代入式( 3 1 8 ) q b ,并定义矩阵 ( 3 1 9 ) k t 卜 和o

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论