




已阅读5页,还剩52页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外,本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。若有不实之处,本人愿意承担相关法律责任。墓立垒童鱼宝鱼唆益垒盖垂丛亟日期: 大连理工大学专业学位硕士学位论文 基于篇章的蛋白质交互关系抽取 , 畐 癈” 窒蛄炕鶶全文关系抽取 基于篇章的蛋白质交互关系抽取 近些年来,由于互联网技术的快速发展以及数字信息化的广泛普及,不同研究领域由 基于篇章的蛋白质交互关系抽取 国内外研究现状章的摘要进行,对全文关系抽取的研究还有待进一步探索。 于通过蛋白质的名字构造词典的特例。这种方法表明,利用语料总结的词典,其适用性机器学习的方法,可以相对有效地避免模式匹配诠嬖虻姆椒的局限性。最直观的体现就是,机器学习它不需要人工总结规则。从而,在适用性方面,机器学习的方法是优于模式匹配的。机器学习是在专家系统之后又一个很重要的研究领域,也是人工智能以及神经计算的关键课题之一。并且,在关系抽取方面,机器学习方法把关系处理为“是或者不是”这样一个分类问题,同时也表现了不错的性能。 基于篇章的蛋白质交互关系抽取理想的效果,从而提高最终的抽取性能。他们的最终核包括:简单的平面特征核,静态务中,取得了第一名的成绩,其中,猄为热所使用的机器学习方法也使用了模式匹配。但是,他们是将模式匹配的结果作为机器学习的一个特征输入,也就是说,如果当前的实例,可以在规则的集合中找到,那么,该实例对应的这个特征值就为“保环裨颍梦!”。此外,他们还充分利用了蛋白质相关的数据库【进行后处理,即:数据库中是否记录了这个蛋白质对,利用这一特征,对蛋白质对进行过滤,充分考虑了蛋白质的自我交互作用鞍字首约汉妥约旱南嗷饔,从而使得交互关系抽取更完善。模式匹配的方法和机器学习的方法是从两种不同的角度对全文的蛋白质交互关系 关系抽取的难点目前,在摘要上面,对生物领域文献中蛋白质交互关系的抽取,获得了较为理想的性能。然而,将这些现有的方法用到实际的基于全文的关系抽取时,性能并没有预期的白质或者基因可能会以不同的形式表达。摘要,并没有提供全文,因此语料的匮乏,也直接导致了全文关系抽取的滞后。本文主要工作 基于篇章的蛋白质交互关系抽取攵匀挠锪隙烙械奶卣鳎弥窒蛄炕进行了不同的实验。因为摘要就只有摘要这一个部分,而一篇完整的文章是包括了标题、摘要、表格、图、结论等不同的部分。而两个蛋白质之间是不是有一定的关系,也跟这两个蛋白质在文章的哪个部分被描述出来直接关联。因此,利用这些全文特有的信息,并且通过与其他的特征结合,分别做了不同的实验,来说明全文特有的特征的作用。通过特征选择,可以通过减少冗余的特征来获取较好的性能。本文主要框架本文内的主要框架构成如下:第一章主要的内容:绪论第三章主要的内容:基于篇章的蛋白质交互关系抽取 结论部分的主要内容是对本文主要研究工作的总结,并且提出了后续规划。 基于篇章的蛋白质交互关系抽取信息抽取技术是一种自动化的工具,它是为了帮助人们对密集的信息进行快速分 依赖于文本挖掘的蛋白质交互关系抽取,是生物学和计算机科学一个创新性的交叉学科,它只是简单的判断的一个实例所包含的两个蛋白质,它们是不是存在着相互作用的关系,而这两个蛋白质的关联方式绲鞍字涫窍嗷种苹故谴邮舻墓叵档,并不是采用了文本挖掘技术的关系抽取所关心的。计算机学的专家只是提供了一种快速而有效地检索工具,可以在相对少的时间内检索或者给出关系的一种预测,至于两个蛋白质实体、基因实体、或者蛋白基因实体间是以怎样的方式进行相互作用,这些是生物学领域专家的研究工作。部分蛋白名字未被记录。而关系抽取是针对两个蛋白质实体的考虑,如果在一个实例中,存在一个己记录的蛋白质和一个未被记录的蛋白质,这将导致这个蛋白质关系对不会被发现,从而影响关系抽取的性能。因此,蛋白质实体或者基因实体的识别,其意义重大。而在识别的过程中,由于语言的复杂和多义性,以及对全文进行实体识别时语义更加复杂,基于全文的实体识别也面临着很大的挑战。统计学习 基于篇章的蛋白质交互关系抽取要实现统计机器学习的方法,一般步骤如下: 图支持向量模型应该尽可能的最小化,与此同时,被错误分类的点的个 基于篇章的蛋白质交互关系抽取将核技巧推广到支持向量机中,它的基本思路就是在非线性转换的基础下,将输入空间里面的元素和特征空间里面的元素一一对应,这样,将会使得输入空间里的超曲面对应到特征空间里的超平面,从而使得问题可解。核函数的定义如公式:可线性分开的数据,蚙是输入空间中的两个样例,”,用户可以在这个函数体内自由定义满足核石,疋。危树所共有的公共节点数目,它可以在多项式的时间内计算得到,计算方法如下描述: 。錟,如咒是其衰减因子,目的是为了保证核函数的稳定性。也广泛地吸引了生物信息学方面的研究人员以及跟数据库相关的人员参与,从而产生了的基于全文的文本挖掘的能力。虯 基于篇章的蛋白质交互关系抽取琒。在这些结构化的摘要中,给式给出。如图所示,是中所记录的标题为“共篇文献。并且,从中下载的篇带有结构化摘要的全文文献作为测试语料骯:,秛:立生盥篴,塑坌基堋阞琍图全文包含的结构化信息 最广泛。它提供了科学界中关于蛋白质的序列、蛋白质的功能等最全面的信息,并且这 菁校峁够男畔彩且訳和相对应的名字给出。此外,热恕提供了名为“”的接口,使得研究者能通过编程方便快捷地访用这个开源的工具包,构建与语料相关的词典,用来对识别阶段以及对识别回来的蛋白一隗緼一籶图 基于篇章的蛋白质交互关系抽取竺河样例的得分,蚇分别是测试集中的正负样例个数。是正例和负例得分之如果,; 基于篇章的蛋白质交互关系抽取这部分主要介绍了对已有的标注语料Q盗酚锪霞2馐杂锪霞,通质交互关系抽取的过程。预处理及构建关系实例这些关键词开始的段落。在这些部分中,分别描述了图和表的序号、在当前所考虑的文 大连理工大学专业学位硕士学位论文图 基于篇章的蛋白质交互关系抽取这些都属于无用的信息,因此被删除。删除句子中间出现的问号。简洁的方法而不是将这些对象一个一个列举出来。例如,“ 大连理工大学专业学位硕士学位论文 撑,将被转换为和籄蛔;晃狝图基于规则的后处理一一 基于篇章的蛋白质交互关系抽取关于“”的处理。如果识别回来的蛋白质名字在结尾处有“”这样的字符,该因此,我们把这样的蛋白质也识别回来,最终加以过滤。“”只是表示了单纯的连字符的含义,并不表示“”。例如,将被转换为;被转换为猯; 。 大连理工大学专业学位硕士学位论文这个规则主要是用来移除,字典匹配到的明显不是蛋白质名字以及在结构化信息中籭和上例所生成的基于蛋白质交互关系对的句子如下:籭籭全文关系抽取 基于篇章的蛋白质交互关系抽取是这些词本身。本文中,取。从语料中发现,很多表示两个蛋白质之间交互关系的词是以“一”形式连接的,例如, 大连理工大学专业学位硕士学位论文从语料中可以发现,如果蛋白质偷鞍字之间相隔的单词个数嗬越少,的取值,根据实际的单词个数按照 基于篇章的蛋白质交互关系抽取全文的蛋白质交互关系抽取中,全文结构的构成部分,有其完全异于摘要的特殊性。在全文中,除了文章的标题、摘要部分外,还有文章的主体、图的说明和表格的详细阐述等。在这些部分,有的会对蛋白质交互关系做出详细的描述和解释。例如,在文章标题和摘要中出现的蛋白质交互关系是真的蛋白质交互关系的几率比较大,这是因为摘要是一篇文章主体内容的简要概述。文章的作者往往会把最重要的信息在标题和摘要中描述出来。而图和表,也在适当的时候对蛋白质关系进行详细描述,帮助人们理解。根据文中所使用的具体语料以及语料的构成,将蛋白质交互关系所使用的篇章位置信息特征概括为:“薄癆薄癋薄癟”和“”。其中,“”是指除去其他四个部分,文章剩下的所有部分。根据每个蛋白质交互关系所对应的句子在文章中出现的位置以及它的上下文描述,将这个特征设置为对应的值。 大连理工大学专业学位硕士学位论文莊蛋白质:即蚉,表示的是当前句子中所考虑的两个蛋白质对。 基于篇章的蛋白质交互关系抽取 璦”这一特定结构,蔽兴得鳌渲邪恕癱和的取值。在本文的句法树中,首先利用对每个句子构造其最原始的句法树 大连理工大学专业学位硕士学位论文树 基于篇章的蛋白质交互关系抽取是因为,尽管热恕刻岢龅腟可以尽可能多地包含语法树中与实例相关的信 大连理工大学专业学位硕士学位论文当前兴慕诘闶啃诘扔时,当前妥钚耆鞑灰恢拢蚶刮U饪肧树的最小完全树;否则,选是当前所要考虑的蛋白质交互关系对。图中给出了这个实例的鳌树以及二采用二级怪螅道男畔菵更加丰富,交互词将被扩展进来。禗 基于篇章的蛋白质交互关系抽取特征选择 ,糏练分类嚣:; 基于篇章的蛋白质交互关系抽取此外,基本词特征是从词的角度考虑抽取,句法模式特征则是结合了语义描述的信息去考虑抽取,句法树核是从句子的结构部分进行考虑。它们从不同角度的刻画关系,在一定程度上是相互补充的;同时,在构建分类模型的过程中,它们对模型的构建所起的作用和影响并不完全一致。因此,使用甊对基本词特征以及模式特征进行特征优化,从而利用优化后的特征与树核组合,进行关系抽取。 篇全文作为测试集进行实验。基本词和句法模式验证 基于篇章的蛋白质交互关系抽取 大连理工大学专业学位硕士学位论文 基于篇章的蛋白质交互关系抽取表示这样的特征集合。 图特征选择的有效性 基于篇章的蛋白质交互关系抽取表不同扩展树的结果 大连理工大学专业学位硕士学位论文 基于篇章的蛋白质交互关系抽取表特征选择前后的结果对比到,特征选择之后的抽取性能优于包含所有特征时的性能。 本节分别给出了四组不同特征组合的实验,来说明本文所使用的频度特征对全文关了在针对全文关系抽取的实验中,一个蛋白质关系对在当前这篇文档中出现的次数越多,这两个蛋白质具有交互关系的可能性也就越大。:和;:禗虰二级; 基于篇章的蛋白质交互关系抽取蚖。最后,在分句的基础上进行关系抽取。 大连理工大学专业学位硕士学位论文 基于篇章的蛋白质交互关系抽取句法树,它是通过衡量两个句法树之间的相似程度从而
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论