




已阅读5页,还剩66页未读, 继续免费阅读
(计算机应用技术专业论文)基于机器学习的蛋白质相互作用关系抽取的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
苏州大学学位论文使用授权声明 本人完全了解苏州大学关于收集、保存和使用学位论文的规定, 即:学位论文著作权归属苏州大学。本学位论文电子文档的内容和纸 质论文的内容相一致。苏州大学有权向国家图书馆、中国社科院文献 信息情报中心、中国科学技术信息研究所( 含万方数据电子出版社) 、 中国学术期刊( 光盘版) 电子杂志社送交本学位论文的复印件和电子 文档,允许论文被查阅和借阅,可以采用影印、缩印或其他复制手段 保存和汇编学位论文,可以将学位论文的全部或部分内容编入有关数 据库进行检索。 涉密论文口 本学位论文属在 年一月解密后适用本规定 非涉密论文口 论文作者签名: 导师签名: e l 期:坐屿 日飙丑纠够 基于机器学习的蛋白质相互作用关系抽取的研究中文摘要 基于机器学习的蛋白质相互作用关系抽取的研究 中文摘要 随着生物医学领域文献的爆炸性增长,从生物医学文献中自动获取生物医学知识 已经成为生物信息学研究的重要领域。由于蛋白质相互作用关系对于生命科学有着特 殊的重要意义,因而蛋白质相互作用关系抽取成为当前生物信息学的热点问题。 由于生物医学文献的复杂性和多样性,从中抽取蛋白质相互关系是一个相当困难 的任务。本文应用机器学习的方法对蛋白质相互作用关系的抽取进行了深入的研究, 研究内容主要包括: 1 研究基于特征向量的蛋白质关系抽取方法,重点探索了如何从自由文本中提 取出各种表面特征和结构化特征,并分析了这些不同的特征对蛋白质关系抽取的贡 献; 2 提出基于卷积树核函数的蛋白质关系抽取方法,分析了结构化信息的表达形 式对蛋白质关系抽取的影响,为进一步的研究奠定良好的基础: 3 研究基于复合核函数的蛋白质关系抽取方法,通过线性复合和多项式复合的 方式将基于特征向量的方法和基于树核函数的方法有机结合起来,以期有效捕获关系 实例的平面特征和结构化特征。 在a i m e d 语料库上的蛋白质关系抽取实验表明,基于特征向量和卷积树核函数 的复合核函数方法取得了最高为5 3 7 的f 值,达到了目前较好的水平。本文的研究 和所取得的成果对今后蛋白质关系的研究具有一定的参考价值。 关键词文本挖掘;蛋白质关系抽取;机器学习 作者:虞欢欢 指导老师:周国栋 a b s t r a c tr e s e a r c ho nm a c h i n el e a r n i n g - b a s e dp r o t e i n - p r o t e i ni n t e r a c t i o ne x t r a c t i o n r e s e a r c ho nm a c h i n e l e a r n i n g - b a s e dp r o t e i n - p r o t e i n i n t e r a c t i o ne x t r a c t i o n a b s t r a c t w i t ht h ee x p l o s i v ei n c r e m e n to fb i o m e d i c i n el i t e r a t u r e ,h o wt oe x t r a c tt h e i n f o r m a t i o nf r o mb i o m e d i c i n el i t e r a t u r ei sb e c o m i n ga l li m p o r t a n tr e s e a r c ha r e ai nt h ef i e l d o fb i o i n f o r m a t i c s b e c a u s eo ft h es p e c i a ls i g n i f i c a n c eo fp r o t e i n p r o t e i ni n t e r a c t i o nt ol i f e s c i e n c e ,e x t r a c t i n gp r o t e i n p r o t e i ni n t e r a c t i o n s ( p p i ) h a sb e c o m e ah o t t o p i c d u et ot h ec o m p l e x i t ya n dv a r i a b i l i t yo fb i o m e d i c a lt e x t s ,p p ie x t r a c t i o nf r o mt h e m i sad i f f i c u l tt a s k t h i sp a p e rc a r r i e so u ti n - d e p t hr e s e a r c ho nt h et a s ko fp p ie x t r a c t i o n u s i n gm a c h i n el e a r n i n gm e t h o d s 、析t l lt h ee f f o r t sa n dg o a l so n : 1 f e a t u r e - b a s e dp p ie x t r a c t i o nm e t h o d s ,晰t l lt h ef o c u so nh o wt og e n e r a t es u r f a c e f e a t u r e sa n ds t r u c t u r a lf e a t u r e sf r o mf r e et e x t s f u r t h e r m o r e ,t h ec o n t r i b u t i o n so fv a r i o u s f e a t u r e st op p ie x t r a c t i o na r es y s t e m a t i c a l l ya n a l y z e d 2 c o n v o l u t i o nt r e ek e r n e l b a s e dp p im e t h o d s w ea n a l y z et h ei m p a c to fd i f f e r e n t s t r u c t u r a lr e p r e s e n t a t i o n so fr e l a t i o ni n s t a n c e so np p ie x t r a c t i o n , t h u sl a y i n gag o o d f o u n d a t i o nf o r f u r t h e rr e s e a r c h 3 c o m p o s i t ek e r n e l b a s e dm e t h o d s ,w h i c hc o m b i n eaf e a t u r e b a s e dk e r n e la n da c o n v o l u t i o nt r e ek e r n e l ,a i m i n ga tc a p t u r i n gb o t ht h ef l a tf e a t u r e sa n dt h es t r u c t u r a l f e a t u r e so fr e l a t i o ni n s t a n c e s e x p e r i m e n t so fp p ie x t r a c t i o no nt h ea i m e dc o r p u ss h o w t h a to r rc o m p o s i t ek e r n e l a c h i e v e st h ep r o m i s i n gr e s u l t s ,w i t ht h ef - m e a s u r ea sh i g ha s5 3 7 t h u s ,t h ea c h i e v e m e n t b yt h i sp a p e re x h i b i t sg r e a tr e f e r e n c ev a l u et ot h ef u t u r er e s e a r c hi np p i k e y w o r d s :t e x tm i n i n g ;p r o t e i n - p r o t e i ni n t e r a c t i o n ;m a c h i n el e a r n i n g w r i t t e nb yy uh u a n h u a n s u p e r v i s e db yz h o ug u o d o n g i l 目录 第1 章绪论1 1 1 研究背景。l 1 2 研究意义2 1 3 研究现状3 1 4 本文的研究内容5 1 5 论文的组织结构5 第2 章蛋白质关系抽取的相关知识7 2 1 生物医学文本挖掘技术。7 2 1 1 生物医学文本挖掘技术概述7 2 1 2 生物医学文本挖掘关键技术8 2 2 蛋白质关系抽取1 1 2 2 1 蛋白质关系抽取概述1 1 2 2 2 蛋白质关系抽取的评测标准1 2 2 2 3 蛋白质关系抽取的方法1 2 2 3 支持向量机( s v m ) 15 2 3 1 基本原理15 2 3 2 核函数1 9 2 3 3s v m 特点及优势2 0 2 4k 倍交叉验证法2 0 2 5 本章小结2 l 第3 章基于特征向量的蛋白质关系抽取2 2 3 1 蛋白质关系抽取流程2 2 3 2a i m e d 语料库2 4 3 2 1 语料库格式2 4 3 2 2 语料库的预处理2 5 3 3 特征抽取与向量构造2 7 3 3 1 特征抽取2 7 3 3 2 特征向量构造3 0 3 4 3 5 第4 章 4 1 4 2 4 3 4 4 4 5 第5 章 5 1 5 2 5 3 3 3 3 分类器的选择。3 2 实验结果与分析3 2 本章小结3 4 基于卷积树核函数的蛋白质关系抽取3 6 卷积树核函数3 6 p p i 实例的结构化信息。3 9 4 2 1 完全句法树( f p t ) 3 9 4 2 2 最小完全句法树( m c t ) 4 0 4 2 3 最短路径包含树( s p t ) 4 1 蛋白质相互作用关系实例的产生4 1 实验结果与分析。4 6 4 4 1 实验结果。4 6 4 4 2 错误分析4 8 本章小结5 0 基于复合核函数的蛋白质关系抽取5 1 复合核5l 线性复合和多项式复合5 1 实验及结果分析5 2 5 3 1 实验设置。5 2 5 3 2 实验结果分析5 3 5 4 与其他系统进行比较5 4 5 5 本章小结5 5 第6 章总结与展望5 6 6 1 研究工作总结5 6 6 2 下一步的工作设想。5 6 参考文献5 8 攻读硕士学位期间发表的论文。6 3 攻读硕士学位期间参与的项目6 3 至i 谢6 4 基于机器学习的蛋白质相互作用关系抽取的研究第l 章绪论 第1 章绪论 随着生物医学文献数量的急剧增长,海量的生物医学信息出现在生物医学研究者 面前。这使生物医学研究者很难快速地从这些文献中找到需要的信息。因此,为了提 高工作效率,迫切地需要一些自动化的手段帮助他们从海量生物医学文献中迅速地找 到需要的信息,生物医学领域文本挖掘技术应运而生。而由于蛋白质相互作用关系对 于生命科学有着特殊的重要意义,因而蛋白质相互作用关系抽取成为生物医学领域文 本挖掘的重点研究方向。本章首先介绍了课题的研究背景和意义,接着对当前蛋白质 关系抽取的现状作了一个全面而概括的描述,最后是本文的研究内容。 1 1 研究背景 随着高通量生物技术的发展,生物医学的实验手段和研究方法均发生了巨大的变 革,带来了领域内实验数据的“指数性增长、数据的存储与传输、数据的处理、理 解等一系列问题,得到了来自数学、化学、药学、统计学和计算机科学等领域专家广 泛关注并取得了大量成果。生物医学文献作为成果展示和学术交流的主要方式之一, 其数目之大,增长速度之快远远超过了其他学科领域。例如,美国医学图书馆的在线 生物医学文献数据库m e d l i n e 是现代生物医学研究发展和高价值文献存储表资源, 目前已收录自1 9 6 6 年以来7 0 多个国家,4 3 种文字的生物医学文献1 6 0 0 万篇以上,成为 生物学和医学科学研究的重要知识来源。 面对如此大规模、快速增长的科学文献数据,即便是领域内的专家也无法依赖手 工方式从中获取感兴趣的信息,做到完全掌握其领域研究现状和未来发展趋势。因而 利用文本挖掘技术从这座宝库中快速有效的提取生物医学知识的需求变得非常迫切。 生物医学文本挖掘技术使用计算机学方法挖掘和发现有价值的生物医学信息,从而开 辟了一个新领域,其研究不但为知识发现和获取开辟了一个新方向,其研究成果更为 疾病的诊断、预防和治疗,新药的发现提供依据和启发,其成果有着不可估量的社会 效益和经济效益。 当前生物医学文本挖掘研究热点主要集中在信息检索、文本分类、自动文摘、生 物医学命名实体识别、生物医学实体关系抽取、假设发现和信息集成。其中,生物学 第l 章绪论 基于机器学习的蛋白质相互作用关系抽取的研究 家最关心的问题是生物医学实体关系抽取。面向生物医学文献的实体关系抽取的主要 功能是从生物医学文献中抽取出特定的事实信息,主要是生物实体间的关系,如蛋白 质( 基因) 一蛋白质( 基因) 等。这些关系对整个生物知识网络的建立,生物体关系 的预测,新药的研制等均具有重要的意义。当前对基因、蛋白质的研究是生命科学的 研究重点,因此以抽取出生物医学文献中的蛋白质关系信息为目的的关系抽取系统有 着很高的应用价值。而生物医学专家面临的问题不仅于此,海量的在线生物医学文献 要求生物医学专家使用更加有效的办法加以利用。而机器学习方法正是近年来可以用 来尝试解决这一问题的方法之一。通过已标注的样本可以有效的判断文献中是否包含 蛋白质关系。 1 2 研究意义 随着后基因组时代的到来,蛋白质研究变得更加广泛和深入,同时蛋白质与蛋白 质相互作用的重要性也越来越受到重视。蛋白质相互作用是一种非常重要的实体关 系,它是细胞内在过程( 如细胞生长、细胞周期、代谢通路、信号传导) 的本质。从 原理上讲,基因变异_ 蛋白质作用混乱_ 疾病,因此我们可以通过理解蛋白质相互作 用网络进行药品设计和疾病机制研究,这无疑具有巨大的经济效益和社会效益。 首先,蛋白质是生命活动的主要执行者,从遗传物质复制到基因表达调控,从细 胞信号转导到新陈代谢,从生物体生长繁殖到细胞凋亡或坏死,蛋白质均在其中扮演 了重要角色。因此,研究蛋白质之间如何通过相互作用形成分子间调控网络,包括遗 传调控途径、新陈代谢途径和信号传导途径,具有重要的生物学意义,有助于从系统 角度进一步理解各种生物学过程。 其次,蛋白质相互作用的研究有助于揭示生命的本质,理解一个蛋白质如何与另 一个蛋白质相互作用以及它们如何行使功能是理解生命运动的基础。此外,任何一种 疾病在表现出可察觉症状之前,体内就已经有一些蛋白质发生了变化。确定疾病的关 键蛋白质和标志蛋白质及其相互作用有利于疾病的诊断和病理的研究,比如癌症、早 老性痴呆等人类重大疾病。因此,蛋白质相互作用关系的研究可以广泛应用于探索疾 病的发生机制,从而预测和评价相应的治疗手段,同时还可以寻找新的药物靶标,为 新药研发开辟道路( k i t a n o ,2 0 0 2 ) 【1 1 。 2 基于机器学习的蛋白质相互作用关系抽取的研究第l 章绪论 最后,蛋白质相互作用也是分子生物学研究的热点及难点。蛋白质作为最主要的 生命活动载体和功能执行者,对其复杂多样的结构功能、相互作用和动态变化进行深 入研究,有助于在分子、细胞和生物体等多个层次上全面揭示生命现象的本质。2 0 0 2 年k i t a n o 在n a n 鹏【l 】和s c i e n c e l 2 1 上发表关于系统生物学研究的综述,文章明确指出蛋 白质相互作用是生物体中众多生命活动过程的重要组成部分,是生物体生化反应的基 础,是后基因组时代的主要任务。细胞的许多重要生理或病理活动如信号转导、细胞 周期调控、癌症发生都是通过蛋白质相互作用及其网络来实现的。蛋白质相互作用在 生物体中几乎无所不在,对生命活动过程中蛋白质作用的研究有助于揭示生命过程的 许多本质问题。因此,研究蛋白质相互作用及其网络具有必要性和紧迫性。 1 3 研究现状 现有的蛋白质相互作用关系抽取系统所使用的方法可以粗略地分为三类:基于共 现的方法【3 】、基于规则的方法【4 】和基于机器学习的方法。 基于共现的方法就是简单地使用两个蛋白质的共现次数来预测两个蛋白质之间 的关系。使用这种方法只能抽取已出现的蛋白质相互作用关系,而不能发现新出现的 蛋白质相互作用关系。另一方面,基于规则的方法利用预先定义好的模式规则来抽取 蛋白质相互作用关系,最早使用规则方法的是和k o i k e 等( 2 0 0 3 ) 【4 】和o n o 等( 2 0 0 1 ) 【5 】,他们提出了基于浅层句法分析和正则表达式进行模式匹配的系统,生成一些表达 p p i 的句法模式。但是这种方法在未知新关键词的情况下不能生成新的模式规则,从 而限制了蛋白质相互作用关系的抽取。另外,一旦规则集的大小达到了一定规模,便 很难将新规则插入到现有的规则集中,这也同样限制了蛋白质相互作用关系的抽取。 最后,当蛋白质关系抽取系统被应用到新领域的时候,基于规则的方法可能需要预先 定义整个模式规则集以适应新领域,从而降低了系统的可移植性。 基于机器学习方法利用已标注样本建模,然后预测未标样本,又可分为基于特征 向量的方法和基于核函数的方法。基于特征向量方法的特点是需要将关系实例转换成 分类器可接受的特征向量。n a n d a 掣6 】于2 0 0 4 年提出了一种使用最大熵模型整合词 典、语法和语义等特征的方法,该方法在a c e 2 0 0 4 任务的新闻语料上进行关系抽取, 取得了较好的结果。在n a n d a 等人方法启示下,研究人员开始使用基于统计机器学习 3 第1 章绪论基于机器学习的蛋白质相互作用关系抽取的研究 方法,比如最大熵、条件随机域等方法,并且结合多种词典、语法和语义特征进行蛋 白质关系抽取。比如:k a z u n a r is u g i y a m a 和k e n j ih a t a n o 等【7 】使用多种统计机器学习 方法,如:k n n 、决策树、神经网络和支持向量机,进行蛋白质关系抽取。j u a nx i a o 等【8 】使用最大熵结合多种特征的方法进行蛋白质关系抽取,取得了较好的效果。然而 基于特征向量的关系抽取研究重点不在于机器学习方法本身,而在于如何获取各种有 效的词汇、句法和语义等特征,并把它们有效地集成起来,从而产生描述关系实例的 各种局部特征和简单的全局特征。与基于特征向量的方法不同,基于核函数的方法不 需要构造固有的特征向量空间,而是直接以结构树为处理对象,通过计算它们之间的 相似度获取关系模式的有关信息,再使用支持核函数的分类器进行关系抽取。用于蛋 白质关系抽取中常见的核函数有序列核1 9 ,依存树核1 0 1 ,图核川等,这些基于核函数 方法的p p i 系统都获得不错的性能,显示了核函数方法在蛋白质关系抽取中的巨大潜 力。 与基于共现的方法相比,基于统计机器学习的方法在抽取新出现的蛋白质相互作 用关系方面有很突出的表现。与基于规则的方法相比,基于统计机器学习的方法能够 发现新的模式规则,并且能够融合多种特征的语料统计量以达到较高的性能。另外, 基于统计机器学习的方法能够轻易地被应用于其他领域的关系抽取,而不需要重新制 定规则集。因此,基于统计机器学习的方法成了当前研究的热点。 在过去的近十年里,生物医学文献中的蛋白质关系抽取系统已从简单的基于规 则方法,发展到使用机器学习的方法。然而还存在许多问题需要解决: 性能有待提高:跟其他领域( 如新闻) 相比,生物医学文献中的实体关系抽取系 统性能尚不能满足实际用户的需要,有待提高。 蛋白质关系抽取系统的统一评价标准。新闻领域的经验表明,统一评价标准的确 定对关系抽取系统的发展有很大的推动作用。当前,生物医学文献中的蛋白质关 系抽取的性能评价标准尚未成熟,需要进一步的努力。 生物学家与计算科学家的合作需进一步加强,这对生物医学文献中的蛋白质关系 抽取技术的发展是至关重要的。当前从事该领域研究的主要是计算科学家,然而 生物医学知识是由生物学家掌握的。两者的合作对于定义评价标准、发现潜在的 应用、构建包含查询、可视化和数据分析功能的集成系统来说是所必需的。 4 基于机器学习的蛋白质相互作用关系抽取的研究 第1 章绪论 1 4 本文的研究内容 蛋白质相互作用关系抽取在国外是一个很热的研究方向,而在国内尚处于起步阶 段。本文对当前蛋白质相互作用关系抽取的主流方法进行了讨论和研究,在a i m e d 语料上进行了实验,实现了一个蛋白质相互作用关系抽取的系统。本文的研究内容主 要包括三个方面: 一研究基于特征向量的蛋白质关系抽取方法,揭示不同的语言特征( 词汇特征、 交叠特征、基本短语块特征等) 对蛋白质关系抽取性能的影响,分析基于特征方法所 存在的问题,并提出解决这些问题的初步设想和今后蛋白质关系抽取的重点研究方 向; 二研究基于卷积树核函数的蛋白质关系抽取方法,提出了三种不同的蛋白质关 系实例结构化表示方法( 完全句法树,最小完全树,最短路径树) ,探索蛋白质关系 实例结构化信息的最佳表达形式; 三将基于特征的方法和基于树核函数的方法通过复合核函数有效集成起来,进 一步提高了蛋白质关系抽取的性能,并验证了平面特征和结构化信息在蛋白质关系抽 取中的互补性。 1 5 论文的组织结构 本文研究的主要目的是通过对平面特征和结构化信息的探索来进一步提高蛋白 质关系抽取的性能,即准确率和召回率。具体的各章研究内容如下: 第一章,首先介绍了本文的研究背景,分析了研究意义,总结了研究现状,然后 引出本文的选题与研究内容,最后给出了本文的组织结构。 第二章,首先对生物医学文本挖掘进行了简介,接着对当前研究蛋白质关系抽取 的各种方法做了一个全面而概括的讨论,最后讨论了一下支持向量机的基本原理。 第三章,研究了基于特征向量的蛋白质关系抽取方法,首先介绍了蛋白质关系抽 取的流程以及本文所使用的a i m e d 基准语料库,然后描述了从自由文本及其语法结 构中抽取出各种语言特征,如词汇特征、交叠特征、基本短语块信息,并根据这些特 征构造特征矢量,最后采用s v m 分类器进行蛋白质关系的抽取。我们分析了在基于 第1 章绪论基于机器学习的蛋白质相互作用关系抽取的研究 特征的蛋白质关系抽取方法中,不同的语言特征对蛋白质关系抽取性能的影响,进而 希望找出提高蛋白质关系抽取性能的方法。 第四章,研究了基于卷积树核函数的蛋白质关系抽取方法,探索蛋白质关系实例 结构化信息的最佳表达形式。介绍了目前在蛋白质关系抽取领域内常用的几种结构化 信息,指出其所存在的问题。通过实验表明,最短路径包含树能较好地表达关系实例 的关键性结构化信息,其性能明显优于其它的结构化信息表达形式,最后分析了原因。 第五章,我们首先介绍了复合核函数的两种复合形式,然后通过实验分别采用两 种复合形式将基于特征的蛋白质关系抽取和基于树核的蛋白质关系抽取有机集成起 来,希望能进一步提高蛋白质关系抽取的性能,最后与其他蛋白质关系抽取系统进行 了比较。 第六章,总结与展望。总结了本文所取得的研究成果,并指出了其中的不足,最 后对蛋白质关系抽取今后的研究工作提出了建议。 6 基于机器学习的蛋白质相互作用关系抽取的研究第2 章蛋白质关系抽取的相关知识 第2 章蛋白质关系抽取的相关知识 蛋白质关系抽取是生物医学领域中文本挖掘技术的研究任务之一,本章首先简要 介绍一下生物医学领域中文本挖掘技术的研究,接着介绍了当前蛋白质关系抽取的几 种方法,最后介绍了支持向量机的原理。 2 1 生物医学文本挖掘技术 生物医学文本挖掘的目的是借助文本挖掘技术帮助生物医学研究者从海量文献 中有效的找到所需信息、发现隐藏的生物医学知识。下面简单介绍一下生物文本挖掘 以及其关键技术。 2 1 1 生物医学文本挖掘技术概述 生命科学的飞速发展,使得生物医学信息急剧增加,内容涉及到生物医学研究的 很多专业,为了便于交流和获取信息,国内外都建立了大量的专业数据库资源。许多 生物医学研究机构和信息公司相继推出生物医学信息检索引擎和指南,一些著名的生 物医学数据库也纷纷入网。i n t e m e t 上的生物医学信息资源越来越丰富。海量生物医学 文献的出现为文本挖掘技术提供了机遇和挑战。强有力的文本挖掘工具在现代生物科 学研究发展中扮演着相当重要的角色,文本挖掘技术在生物医学领域具有良好的研究 与应用前景。 文本挖掘通常包括信息检索、信息抽取、数据挖掘三个步骤。其中信息检索 ( i n f o r m a t i o nr e t r i e v a l ,m ) 用于识别相关文本,信息抽取( i n f o r m a t i o ne x t r a c t i o n , i e ) 用于识别实体、关系、事件等信息,数据挖掘( d a t am i n i n g ,d m ) 则从结构化 信息中识别出相互间的关联【1 2 】f 1 3 1 。生物医学文本挖掘的研究重点主要由信息抽取和 数据挖掘两方面的研究组成。具体来说,包括生物医学领域命名实体识别、关系抽取、 利用推理进行关系抽取的假设生成以及上述工作的集成框架等。该领域研究的主要方 法是通用的机器学习方法、领域知识、面向任务的前处理和后处理技术的相互结合。 生物医学文本挖掘的意义在于可以通过对文本分析研究帮助人们发现在文本中 隐含的知识,从文献中挖掘出实验假设和实验建议,以便生物学家验证得到新的科学 7 第2 章蛋白质关系抽取的相关知识基于机器学习的蛋白质相互作用关系抽取的研究 发现,从而提高人们对生物医学现象的认识。例如,运用分子生物学文献的信息抽取 技术来分析海量的生物医学数据,可以帮助分子生物医学专业人员理解分子生物学实 验数据,研究分析实验结果。 生物医学文本挖掘是生物信息学研究的分支之一,是生物学研究中不可缺少的环 节,它汇集着具有不同专业背景研究者的共同努力,推动和促进了生物医学的发展, 对实现疾病的辅助诊断、预防和治疗,新药的辅助发现等起到了重要的作用,为人类 对生命的探索做出了重要贡献。生物医学为文本挖掘技术提供了大量的验证数据,对 文本挖掘技术起到了反推动作用。这是一种跨学科性研究,涉及到自然语言处理、机 器学习、生物信息学等方面的技术,非常具有挑战性。 2 1 2 生物医学文本挖掘关键技术 生物医学文本挖掘的目的是借助文本挖掘技术帮助生物医学研究者从海量文献 中有效的找到所需信息、发现隐藏的生物医学知识。当前生物医学文本挖的研究热点 主要集中在信息检索、实体识别、实体关系抽取和假设发现等方面。其中信息检索、 实体识别、实体关系抽取是较成熟的技术,可以从其他领域移植过来,而假设发现需 要更多的生物医学知识,目前尚处于发展的初期,但它具有更大的产生生物医学新发 现的潜力。 ( 一) 信息检索 一 所谓信息检索就是根据用户提交的检索需求( 称为查询) ,在文档信息集合中快 速有效地查找到有用的信息,并返回给用户使用。生物医学信息检索有其特殊性:在 生物学文献中,由于文献作者对基因、蛋白质等生物体书写的无规则性,使得同一物 质以不同的书写方式出现在文档集合中的现象比较明显。例如:t n f a 、t n f - a l p h a 、 m f a l p h a 和t n f a l p h a 是同一基因的不同表示;j n k 、s a p k 和m a r p k 是同一基因的 一组别名。因此需要利用查询扩展技术减小查询与文档之间的不匹配。 在生物医学领域,国际上著名的p u b m e d 就是美国国家医学图书馆开发的生物医 学专业信息的免费在线检索工具,可以查找众多与医学健康主题密切相关信息。 p u b m e d 数据来自包括美国在内的7 0 多个国家出版的四千多种生物医学期刊,记录 从1 9 6 6 年至今已超过一千七百万条。p u b m e d 采用布尔模型和向量空间模型,并使 用词典进行自动查询扩展。由于专业化的信息检索将只涉及某一学科、某一领域的信 8 基于机器学习的蛋白质相互作用关系抽取的研究第2 章蛋白质关系抽取的相关知识 息,信息相对集中,且其编制通常有本专业的人员参与,因此它不仅可以提高检索速 度,还可以提高专指度,加大检索深度和检索力度,从而提高检全率和检准率。 许多生物医学领域信息检索系统如m e d m i n e r i l 4 1 和t e x t p r e s s o 1 5 】还引入实体识别 技术来更好的检索关于特定蛋白质和基因的相关文档。此外,由于单个查询可能会返 回许多文档,只是返回一个文档列表对用户来说并不友好,因此如何处理检索结果也 是目前研究的一个方向。 生物领域信息检索面临的主要挑战是如何结合生物背景知识,正确理解用户查询 和生物文献中出现的生物词汇缩写、异物同名词、同物异名词等。研究主要包括:应 用传统文本信息检索模型;引入高质量的生物领域词典、本体和词汇表用以查询扩展。 ( 二) 命名实体识别 对基因、蛋白质的研究是生命科学的研究重点,从医学文献中抽取基因、蛋白质 名称及其定义,进一步发现基因、蛋白质分子、疾病间联系和相互作用有着非常重要 的意义。要想得到基因、蛋白质以及疾病等之间的联系,必须首先能够在文献中识别 基因、蛋白质等生物实体。生物实体识别的目的是在分子生物学及医学领域对专业词 汇加以确认和分类,这类实体包括基因、蛋白质、d n a 和r n a 等。 生物实体命名很不规范,存在描述性的命名习惯、存在大量缩写、同一实体多种 变体、不同实体同名以及实体名嵌套等问题。因此,生物实体命名识别是当前研究的 一个难点和热点。在j n l p b a 2 0 0 4 生物实体识别任务测评中1 1 6 】,最好的系统达到 7 2 6 的综合分类率。在b i o c e a t i v e2 0 0 4t a s k1 a 测评中最好的系统获得7 4 3 的综合 分类率【1 7 】,这与可以实际应用的水平还有较大的差距。 命名实体识别的方法主要分为:基于规则的方法和基于统计的方法。一般来说, 基于规则的方法性能要优于基于统计的方法。但是这些规则往往依赖于具体语言、领 域、文本格式,编制过程耗时且容易产生错误,并且需要富有经验的语言学家才能完 成。相比而言,基于统计的方法利用人工标注的语料进行训练,标注语料时不需要广 博的生物学知识,并且可以在较短时间内完成。因此,这类系统在移植到新的领域时 可以不做或少做改动,只要利用新语料训练一遍即可。此外,基于统计的系统要移植 到其他自然语言文本也相对容易一些。 ( 三) 关系抽取 蛋白质相互作用在生命过程中扮演着重要角色,许多生物学家尝试寻找或预测与 9 第2 章蛋白质关系抽取的相关知识基于机器学习的蛋白质相互作用关系抽取的研究 蛋白质相互作用相关的重要信息。虽然研究者们已经建立了关于蛋白质相互作用信息 的数据库,但是更多的相关信息还是存在于以自然语言文本为主体的文献之中。蛋白 质相互作用关系抽取就是要实现自动地从生物医学的自然语言文本中抽取出蛋白质 相互作用的关系,是生物医学文本挖掘中关系抽取方向最重要的组成部分。 近几年来,研究人员提出了许多不同的方法来实现蛋白质关系的抽取,按照抽取 方法的智能性可以分为基于共现的方法、基于规则的方法和基于机器学习的方法,基 于共现的方法就是简单地使用两个蛋白质的共现次数来预测两个蛋白质之间的关系; 基于规则根据欲抽取蛋白质关系的特点预先手工设定一些词法、句法和语义模式规 则,然后再从自由文本中寻找相匹配的关系实例;基于机器学习方法,特别是统计机 器学习方法,先通过标注语料库训练得到一个关系抽取模型,然后再利用该模型对自 由文本中出现的蛋白质关系实例进行识别。在机器学习方法中,往往将蛋白质关系抽 取问题变换为一个分类问题,然后采用机器学习中常用的分类器来解决。与基于规则 的方法相比,基于统计机器学习的方法能够发现新的模式规则,并且能够融合多种特 征的语料统计量以达到较高的性能。另外,基于统计机器学习的方法能够轻易地被应 用于其他领域的关系抽取,而不需要重新制定规则集。 ( 四) 假设发现 随着科学技术的迅猛发展、科学综合发展程度的不断增强、科研领域的不断细分 和专业化程度的加深、以及科技文献的爆炸性增长,表面上没有任何联系的文献中, 可能存在着被人们忽视的某种可能导致新知识产生的潜在关联关系。同时,由于检索 系统自身具有不完备性以及人的阅读能力的有限性,某一学科领域的同一科研人员又 不可能同时看到这些隶属不同领域但又具有潜在联系的文献。 假设发现是“通过从不同的文本资源中自动提取的信息,发现前所未知的新信 息 。同从发表文献中提取确定信息相比,假设发现更注重未知信息的获取。对于生 物学这样一个实验科学来说,假设发现的目的在于从文献中挖掘出来实验假设和实验 建议,以便生物学家验证得到新的科学发现。目前的研究集中在基于逻辑推理方法间 接关系的获取。 基于逻辑推理方法获取生物体间接作用的思想可以概括为如果一组文献表明a 可以导致b 的发生,而另一组文献表明b 可以导致c 的发生,那么,通过逻辑递推 关系可得a 和c 具有某种关系。 1 0 基于机器学习的蛋白质相互作用关系抽取的研究第2 章蛋白质关系抽取的相关知识 s w a n s o n 教授是该领域的开创者之一,1 9 8 7 年就提出了医学研究中存在逻辑上 应该关联而实际上研究人员并没有作相关研究的科研问题【l 引。他通过分析m e d l i n e 相关文献得到了鱼油与雷诺氏病以及镁与偏头痛等多个医学假设。正是由于其出色的 研究成果,2 0 0 0 年美国科学技术信息学会授予他该学会的最高荣誉奖。继s w a n s o n 的开拓性研究之后,w e e b e r 等【1 9 】开发了一个基于自然语言处理的发现食物与疾病关 系的知识发现系统。p a d m i n is r i n i v a s a n 2 0 】使用m e d l i n e 摘要中的医学主题词m e s h ( m e d i c a ls u b j e c th e a d i n g s ) 词汇验证了的多个医学关系。 在基于同现统计的信息提取方法上,进行间接关系的推理所获得的结果并不令 人满意,主要受该提取方法自身不能区分作用类型和识别精度低等特点所制约。而在 基于自然语言处理的信息提取方法上,进行间接关系的推理,其可行性虽然得到初步 验证,但该方向仍有待深入的研究和探讨。 2 2 蛋白质关系抽取 蛋白质相互作用关系抽取是生物医学领域中文本挖掘技术的研究任务之一。下面 简单介绍一下蛋白质关系抽取的概念、评价标准以及现阶段主要采用的方法。 2 2 1 蛋白质关系抽取概述 生物医学可以看作是一个网络化的科学,多种生物医学实体( 如基因、蛋白质等) 在多个层次上( 如基因调控、细胞信号传导等) 的相互作用表现为网络形式,蛋白质 之间的关系抽取是生物学家非常关心的问题。在生物医学领域,关系特指一个对象( 命 名实体) 对另一个对象的动态行为,例如一种蛋白质抑制另一种蛋白质的行为,或者 指一个对象对另一个对象的从属关系,例如器官由细胞组成。大多数关系抽取系统主 要抽取特定命名实体之间的二元关系。目前二元关系抽取研究主要集中在抽取蛋白质 和蛋白质的关系、基因和蛋白质的关系、基因和基因的关系、蛋白质和疾病、蛋白质 和药物的关系等。其中研究最多,应用前景最广的就是蛋白质相互作用关系。蛋白质 关系抽取主要任务就是确定两个蛋白质实体之间是否存在关系。比如在这个句子 “t r 6s p e c i f i c a l l yb i n d sf a sl i g a n d 中表明两个蛋白质实体“t r 6 和“f a sl i g a n d ” 之间存在关系。 第2 章蛋白质关系抽取的相关知识基于机器学习的蛋白质相互作用关系抽取的研究 2 2 2 蛋白质关系抽取的评测标准 衡量蛋白质关系抽取系统的性能主要根据两个评价指标:召回率和准确率。召回 率等于系统正确抽取的结果占所有可能正确结果的比例,准确率等于系统正确抽取的 结果占所有抽取结果的比例。准确率( p r e c i s i o n ) 和召回率( r e c a l l ) 的定义为: , p r e c i s o n = ( 公式2 1 ) z ,1 r e c a l l = 二( 公式2 2 ) n 其中,c 为某类被正确分类的实例个数,为测试数据中某类实例总数,r 为分 类器预测的某类实例总数。为了综合评价系统的性能,通常还计算准确率( p ) 和召 回率( r ) 的加权几何平均值,即f l 指数,计算方法如公式2 3 所示: ,1 一m e a s u r e = 兰三竺:【! :拿:! p + rx8 2 ( 公式2 3 ) 其中,夕是召回率和准确率的相对权重。等于1 时,二者同样重要;大于1 时,准确率更重要一些;小于1 时,召回率更重要一些。在m u c 系列会议中, 的值一般为1 、1 2 、2 。在蛋白质关系抽取中,如果没有特别指明,一般卢值取1 , 即准确率和召回率同等重要。 2 2 3 蛋白质关系抽取的方法 在生物医学文本挖掘领域中,最热门的就是蛋白质关系抽取的研究,而目前对 于生物医学蛋白质关系抽取,主要有以下三种方法: ( 一) 基于共现的方法 基于共现方法的思想是:如果两个命名实体出现在同一个句子中或者同一个摘 要里,它们就有相关的可能性,如s t e p h e n s 等( 2 0 0 1 ) 2 h 。具体说: ( 1 ) 离得越近的命名实体越可能相关; ( 2 ) 越经常一起出现的命名实体越可能相关。 这是最早进行蛋白质关系抽取的一种方法。这种方法的局限性显而易见,这种方 法没有充分利用上下文信息,必然会导致产生大量误导信息。而且这种只简单统计两 个蛋白质共同出现的次数来预测它们之间关系的方法,只能抽取一些非常知名的 p p i ,而没有办法抽取一些新出现或较少出现的p p i 。对比其他方法,此种方法的准 1 2 基于机器学习的蛋白质相互作用关系抽取的研究 第2 章蛋白质关系抽取的相关知识 确率和召回率都较低。 p u b g e n e 系统使用共现方法建立了一个包含基因和基因交互关系的数据库。该 研究搜集了满足一定条件的m e d l i n e 摘要,即摘要中至少包含两个出现在给定人 类基因名称词典中的基因名称,然后在摘要中统计共现的基因名称,最后由专家评测 这些共现基因是否具有生物学意义。实验结果达到了6 0 的精确率和5 1 的召回 率。该研究还发现多次出现的基因对很可能互相作用,当仅考虑出现在5 篇或5 篇 以上文章中的基因对关系时,精确率上升到7 2 。在评测中,研究者发现几乎所有 漏识别的基因和基因的交互关系都是由于错误识别基因名称导致的 ( - - ) 基于规则的方法 所谓基于规则的方法是指首先由通晓生物学知识的专家根据蛋白质抽取任务的 要求设计出一些包含词汇、句法和语义特征的手工规则( 或称为模式) ,然后在文本 分析的过程中寻找与这些模式相匹配的实例,从而推导出蛋白质之间的关系。 最早使用本方法的是o n
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年事业单位工勤技能-湖南-湖南垃圾清扫与处理工一级(高级技师)历年参考题库含答案解析
- 2025年事业单位工勤技能-湖北-湖北家禽饲养员三级(高级工)历年参考题库含答案解析
- 工业互联网平台漏洞扫描技术在金融行业的风险防控报告
- 2025-2030中国端氨基聚醚行业应用趋势及竞争格局预测报告
- 2025年事业单位工勤技能-河北-河北计算机文字录入处理员一级(高级技师)历年参考题库含答案解析(5套)
- 2025年事业单位工勤技能-河北-河北堤灌维护工二级(技师)历年参考题库含答案解析
- 2025年事业单位工勤技能-河北-河北假肢制作装配工一级(高级技师)历年参考题库含答案解析
- 2025年事业单位工勤技能-江西-江西殡葬服务工二级(技师)历年参考题库含答案解析(5套)
- 2025年事业单位工勤技能-广西-广西理疗技术员四级(中级工)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-广西-广西堤灌维护工三级(高级工)历年参考题库典型考点含答案解析
- (2025年标准)委托他人要账协议书
- 2025-2030中国青少年无人机教育课程体系构建与创新能力培养研究
- 煤矿安全规程新旧版本对照表格版
- 2025山东“才聚齐鲁成就未来”水发集团高校毕业招聘241人笔试参考题库附带答案详解(10套)
- 中学2025年秋季第一学期开学工作方案
- 儿童急救流程
- GB 11122-2025柴油机油
- 私募薪酬管理办法
- 经营废钢管理办法
- 药品经营企业讲课课件
- 广东省深圳市海韵中学2026届中考押题语文预测卷含解析
评论
0/150
提交评论