(计算机科学与技术专业论文)蛋白质相互作用有向关系抽取的研究与实现.pdf_第1页
(计算机科学与技术专业论文)蛋白质相互作用有向关系抽取的研究与实现.pdf_第2页
(计算机科学与技术专业论文)蛋白质相互作用有向关系抽取的研究与实现.pdf_第3页
(计算机科学与技术专业论文)蛋白质相互作用有向关系抽取的研究与实现.pdf_第4页
(计算机科学与技术专业论文)蛋白质相互作用有向关系抽取的研究与实现.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(计算机科学与技术专业论文)蛋白质相互作用有向关系抽取的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

国防科学技术大学研究生院学位论文 摘要 生命科学的迅猛发展导致了生物医学文献的指数级增长,随着信息抽取技术 日益成熟,对生物医学文献信息抽取技术的研究越来越具有现实意义,而生物实 体关系抽取正是其中最重要的一环。生物实体关系抽取技术不仅本身具有重要的 应用价值,而且是生物实体关系数据库自动更新的有效手段,是构建生物实体知 识网络的必要前提,同时对生物实体关系预测和新药研制也具有不可替代的作用。 生物实体关系抽取已经成为当前的一个研究热点,但是关系抽取的效果还有待改 善,并且对于关系的方向、类型等重要的信息还缺少关注。 本文主要沿着两条思路开展研究:蛋白质相互作用关系抽取效果的改进和相 互作用关系信息的丰富。针对生物文献的特点,我们开发出了新的特征集合,实 验证明这些特征有效地改善了蛋白质相互作用关系抽取效果。另一方面,我们定 义了关系的方向并成功地抽取相关信息,而这些信息是前人的工作中很少涉及的。 在抽取蛋白质相互作用关系时,将关系抽取转化为分类问题,使用基于s v m 的方法进行处理,研究重点在于特征的设计。我们在词特征集、词性特征集等传 统特征集的基础上,根据生物医学文献的特点开发出了逻辑特征集和句法特征集。 在l l l 0 5 语料上的实验结果显示,抽取的f 值达到了8 0 左右,并且新开发的特 征集对实验结果具有较大的改善作用:依存句法特征集对准确率和召回率都有很 大的提高,即使单独使用时都具有很好的效果;而逻辑特征集虽然很简单,但是 可以较大幅度地提高召回率。 本文在蛋白质相互作用关系抽取的基础上进一步研究了如何判断关系的方 向,因为方向信息是构建完整的生物实体知识网络不可或缺的内容。这一步仍然 将方向判断转化为分类问题,在基本特征集的基础上,本文根据生物医学文献描 述蛋白质相互作用的文本的语言特点,开发出了上下文特征集、子树特征集和从 句特征集等,是分别针对两个蛋白质依赖于同一个交互词和两个蛋白质依赖于不 同交互词两种情况设计的。这些特征集在l l l 0 5 语料上进行了实验评估,以分析 不同特征集的作用,结果表明本文开发的特征集具有很好的效果。 下一步的工作包括:验证基于s v m 方法抽取生物实体交互关系的可扩展性; 进一步改善关系抽取效果;构建可视化生物实体知识网络等。 关键词:信息抽取,生物文献,生物实体关系,蛋白质相互作用,有向关系, s v m ,特征选取,依存句法特征 第i 页 国防科学技术大学研究生院学位论文 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fl i f es c i e n c e s ,t h eb i o m e d i c i n el i t e r a t u r eh a sb e e n g r o w i n gv e r yf a s t a sar e s u l t , t h er e s e a r c hi nb i o m e d i c i n ei n f o r m a t i o ne x t r a c t i o ni s b e c o m i n gm o r ea n dm o r ei m p o r t a n t ,a n dr e l a t i o ne x t r a c t i o ni so n eo ft h em o s ti m p o r t a n t p r o b l e m s e x t r a c t i n gt h er e l a t i o nb e t w e e nt h eb i o l o g i c a le n t i t i e sh a sg r e a tp r a c t i c a l i m p o r t a n c ei nb i o i n f o r m a t i c s i ti st h ef o u n d a t i o no ft h ee n t i t yr e l a t i o nd a t a b a s ea n dt h e b i o l o g i c a lk n o w l e d g en e t w o r k ,a n di ta l s op l a y sak e yr o l ei nt h er e l a t i o np r e d i c t i o na n d t h ed r u gp r o d u c i n g h o w e v e r , t h e r ea l s oe x i s ts o m ep r o b l e m s f o ri n s t a n c e ,t h er e s u l ti s n o tg o o de n o u g h ;s o m ei m p o r t a n ti n f o r m a t i o ns u c ha sd i r e c t i o na n dt y p ei si g n o r e d t h i sp a p e rc a r r i e do nt h er e s e a r c hf r o mt w oa s p e c t s :i m p r o v i n gt h ep r o t e i n p r o t e i n i n t e r a c t i o nr e l a t i o ne x t r a c t i o nr e s u l ta n de x t r a c t i n gm o r ei n f o r m a t i o na b o u tt h e i n t e r a c t i o n , s u c ha sd i r e c t i o n c o n s i d e r i n gt h ec h a r a c t e r so fb i o m e d i c i n el i t e r a t u r e t h i s p a p e rd e s i g n e ds o m en e wf e a t u r e s ,a n de x t r a c t e dr e l a t i o n 谢t l lt h eg o o dm a c h i n e l e a r n i n gm o d e ls v m a n dt h ee x p e r i m e n t ss h o w e dt h a tt h er e s u l t sw e r eg o o d w h e ne x t r a c t i n gt h ep r o t e i n p r o t e i ni n t e r a c t i o nr e l a t i o n ,t h i sp r o b l e mh a sb e e n t r a n s f o r m e di n t oc l a s s i f i c a t i o na n dt a c k l e dw i t hs v m b a s e do nt h et r a d i t i o n a lw o r d f e a t u r e sa n dp o sf e a t u r e s ,t h el o g i cf e a t u r e sa n dt h e s y n t a c t i cf e a t u r e sh a v eb e e n d e v e l o p e da c c o r d i n gt ot h el i t e r a t u r ec h a r a c t e r s t h ee x p e r i m e n t s0 1 1l l l 0 5c o r p u s s h o w e dt h a tt h efv a l u eh a sb e e na c h i e v e da s8 0 t h es y n t a c t i cf e a t u r e sh a di m p r o v e d b o t ht h ep r e c i s i o na n dt h er e c a l lw h i l et h el o g i cf e a t u r e sh a di m p r o v e dt h er e c a l l m o r e o v e r ,t h es y n t a c t i cf e a t u r e sc o u l dm a k eag o o dr e s u l te v e nb yi t s e l f a f t e rt h ep r o t e i n p r o t e i ni n t e r a c t i o ne x t r a c t i o n ,t h i sp a p e rf u r t h e rd e c i d e dd i r e c t i o n o ft h ei n t e r a c t i o nr e l a t i o n b e c a u s et h ed i r e c t i o ni si m p o r t a n tt oc o n s t r u c tab i o l o g i c a l n e t w o r k t h i sp r o b l e mh a sb e e na l s ot r a n s f o r m e di n t oc l a s s i f i c a t i o n b a s e do nt h eb a s i c f e a t u r e s ,c o n t e x tf e a t u r e s ,s u b t r e ef e a t u r e sa n dc l a u s ef e a t u r e sh a sb e e nd e s i g n e d a n d t h e s ef e a t u r e sw e r ef o rt w od i f f e r e n ts i t u a t i o n s :t w op r o t e i n sd e p e n d i n go nt h es a m e i n t e r a c t i v ew o r da n dt w op r o t e i n sd e p e n d i n go nd i f f e r e n ti n t e r a c t i v ew o r d s t h em e t h o d h a sb e e ne v a l u a t e do nl l l 0 5c o r p u sa n dt h ee f f e c to ft h ef e a t u r e sh a sb e e na n a l y z e d t h er e s u l t ss h o w e dt h a tt h en e wd e s i g n e df e a t u r e sh a de f f e c t i v e l yi m p r o v e dt h er e s u l t s f u t u r ew o r ki n c l u d e :v a l i d a t i n gt h es c a l a b i l i t yo ft h em e t h o d ,i m p r o v i n gt h e r e l a t i o ne x t r a c t i o ne f f e c ta n dc o n s t r u c t i n gt h ev i s i b l eb i o l o g i c a lk n o w l e d g en e t w o r k k e yw o r d s :r e l a t i o ne x t r a c t i o n ,b i o m e d i c i n el i t e r a t u r e ,b i o e n t i t yr e l a t i o n , p r o t e i n p r o t e i ni n t e r a c t i o n ,p p i ,d i r e c t i o n a lr e l a t i o n ,s v m ,f e a t u r e sd e s i g n i n g , d e p e n d e n c yf e a t u r e s 第i i 页 国防科学技术大学研究生院学位论文 表目录 表4 1 词特征的具体含义2 6 表4 2 词性特征的具体含义2 7 表4 3 逻辑特征集的具体含义2 8 表4 4 逻辑特征集的例子2 8 表4 5 依存句法特征集的含义3 1 表4 6 交互关系抽取的实验结果3 5 表4 7 反例抽取的实验结果3 6 表4 8 关系发现任务的单个特征集实验结果3 6 表4 9 反例的单个特征集实验结果3 7 表4 1 0 词特征基础上的单个特征集实验结果3 7 表4 1 1 特征集组合选择实验结果3 8 表4 1 2 三个特征集的组合实验结果3 9 表4 1 3 不同特征组合的最好实验结果3 9 表5 1 基本特征集的含义4 4 表5 2 上下文特征集的含义4 5 表5 3 子树特征集的含义4 6 表5 4 从句特征集的含义4 7 表5 5 单个特征集的实验结果4 9 表5 6 基本特征基础上单个特征集的实验结果4 9 表5 7 特征累加的实验结果5 0 第1 v 页 国防科学技术大学研究生院学位论文 图 目录 图1 1 生物信息抽取技术的发展2 图1 2 生物实体知识网络6 图1 3 生物实体关系抽取的流程8 图2 1 层次化结构的受控词汇表1 3 图3 1 隐马尔可夫模型状态示意图。1 9 图4 1 结构风险最小化思想2 4 图4 2s t a n f o r dp a r s e r 的短语结构语法分析树3 0 图4 3 依存句法依赖关系图3 0 图4 4l l l 0 5 评测语料的格式3 3 图4 5 关系抽取的实验过程3 4 图4 6 单个逻辑特征的效果3 8 图4 7 词特征的学习曲线4 0 图4 8 词性特征的学习曲线4 0 图4 9 逻辑特征的学习曲线4 l 图4 1 0 句法特征的学习曲线4 1 图5 1 词性标注与依存句法依赖关系图4 4 图5 2 语料预处理的结果4 6 图5 3 依存句法依赖关系图4 7 第v 页 独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得 的研究成果尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示谢意 学位论文题目:蛋自厦担亘笠周查自差丕抽塑鲍盟究生塞理 学位论文作者签名:壹l 噩垒 日期: z o o c l 年f 2 月z 叩日 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留、使用学位论文的规定。本人授权 国防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子 文档,允许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文 ( 保密学位论文在解密后适用本授权书。) 学位论文题目: 蛋鱼厦担亘佳周盔自差爱抽亟的珏究生塞理 学位论文作者签名:垂! ! 叠盘日期: z 订口c f 年i 月z l 日 作者指导教獬:立迢一 吼沙7 ”月嘞 国防科学技术大学研究生院学位论文 第一章绪论 1 1 概述 2 1 世纪是信息学的世纪,同时2 1 世纪又是生命科学的世纪。生命科学研究的 迅速发展、以及计算机在生物医学领域的应用导致了电子形式的生物医学文献的 飞速增长,如何将这些海量的非结构化的文献中所包含的信息抽取出来,并进行 结构化或者半结构化处理,已经成为一个重要课趔。生物文献的信息抽取是指从 大量的生物医学文献中抽取出潜在的、可用的知识并进行合理的组织以方便将来 使用的过程。这是一个信息学与生物学融合的领域,是自然语言处理技术和信息 抽取技术等在生物文献上的应用,内容主要包括:自动文摘,生物实体识别,生 物实体关系抽取【2 】,生物知识网络构建等。 1 1 1信息检索与抽取技术 随着信息时代的到来,各种形式的信息特别是以文本形式存在于互联网 中的信息呈现指数级增长,人们日益感觉到自己淹没在信息的海洋中。如何 在有限的时间内从海量的文本中获取需要的信息成为自然语言处理领域必须面对 的一个挑战。为了解决这个问题,首先必须对自动获取文本,并对文本内容进行 合理的压缩、存储、组织和检索。针对每个环节,研究人员采用了一系列不同技 术,如:搜索引擎技术、自然语言处理技术、数据库技术、机器学习技术等,目 前主要有两个大的研究方向信息检索和信息抽取。 g o o g l e 、b a i d u 等搜索引擎获得了巨大的成功,随着它们的广泛应用,信息检 索技术日益深刻地影响着人们的生活。现今多数人打开电脑的第一件事就是打开 浏览器,然后在搜索引擎中输入关键词,搜索任何自己想要的内容。搜索引擎是 如此的强大,以至于人们感觉的它无所不能,但是事实并非如此。首先,信息检 索技术是根据字符串进行检索的,并不涉及更深层次的语法和语义,因此它返回 的结果是一个半成品,需要用户在结果集合中再进行人工查找。再者,信息检索 技术只利用了关键字的出现频率这一特征,因此检索效果将大打折扣。 为了解决信息检索技术存在的问题,需要利用自然语言处理技术和机器学习 技术等技术对信息进行进一步的加工和处理,过滤掉无用的信息,并进行合理的 组织,而这些正是信息抽取技术的研究内容。信息抽取技术试图对文本的进行理 解,进而从海量的非结构化或者半结构化的文本中抽取信息,并组织成结构化的 形式。 第1 页 国防科学技术大学研究生院学位论文 当前,生命科学是一个十分热门的学科,其中的一个研究重点就是对基因、 蛋白质等生物实体的研究。这些生物实体自身的性质以及彼此之间的交互作用在 生命活动中发挥着至关重要的作用,对生物医学研究、新药的研制等都具有非常 重要的意义。生物医学领域的研究人员通过生化实验进行相关研究,并将研究结 果以文献形式发表。随着计算机在生物医学领域的广泛应用,以m e d l i n e 3 1 为代表 的生物医学文献资源激增,造成了研究人员难以及时、高效地发现已有的研究成 果,从而重复前人的研究,这是对有限的实验资源的一种浪费。 113 生物医学文献信息抽取 为了提高生物医学信息的利用效率,人们自然想到将信息检索技术和信息捕 取技术应用到生物医学领域。图1l 说明自从上个世纪九十年代以来,这二十年间 生物信息抽取的研究发展迅速,信息抽取技术在生物医学文献中有了越来越大的 应用1 4 】。当然目前也存在一些问题虽然这些技术在互联网信息处理上取得了巨大的 成功,但是由于生物医学文献自身的特点,这些技术在生物医学领域中并未取得 同样好的效果,原因在于生物医学文献具有不同于普通文献的特点。 图11 生物信息抽取技术的发展 因此,如何针对生物医学文献的特点,应用自然语言处理技术和信息抽取技 术,抽取生物实体及交互关系的信息,台理地进行组织,进而构建可视化的知识 网络,将极大地提高生物医学信息的检索效率和效果,对生命科学的发展无疑具 有巨大的推动作用。 第2 页 基胃 圆男固 r、2 国防科学技术大学研究生院学位论文 而生物实体关系的抽取是生物文献信息抽取的基础5 4 ,也是构建生物知识网络 的基本前提,因此具有重要的研究价值。随着生命科学的迅猛发展和关系抽取系 统商业价值的不断提高,国际著名的计算机公司和大学纷纷加大投入力度,国内 在这方面的相关研究随着近几年刚刚起步,但是发展很快。国际上以i b m 公司为 代表,2 0 0 4 年i b m 预测:1 0 年内生物文献信息抽取技术将成为改变制药行业的七 项革命性技术之一,提出采用生物文献信息抽取技术加快与药物相关的基因和蛋 白质的搜索速度,促进新药的开发。此外,o r a c l e 和s u n 公司也先后投入巨资 进行生物信息学领域的开发和研究。美国、英国的许多大学都有相关的研究,亚 洲的日本东京大学、韩国的釜山大学、新加坡的南洋理工大学也有一些论文发表。 国内方面,主要是清华大学、哈工大、大连理工大学大学发表了相关的文章。 1 2 生物信息抽取的内容 生物文献的信息抽取的目的是使用信息抽取技术,帮助生命科学领域的研究 者更加高效地从海量的文献中获取自己想要的信息,发现文献中潜在的知识。当 前生物文献信息抽取的主要研究内容包括:信息检索、分类与聚类、自动文摘、 实体识别、实体关系抽取、假设检验等。 1 信息检索 信息检索就是根据用户提交的查询条件,在海量的生物医学文献中快速查找 有用信息,并返回给用户。随着生命科学的迅猛发展,生物医学文献剧增,研究 者必须借助于类似与g o o g l e 的信息检索工具才能快速获取自己需要的文献。但是, 由于生物文献的特殊性,生物信息检索不同于一般的信息检索:首先,生物实体 名字往往具有歧义,词汇的缩写、一词多义和多词一义现象比较常见,例如:j n k 、 s a p k 和m a r p k 表示的是同一基因的名字,因此查询扩展的技术是必不可少的。 第二,生物文献的专业性高,比如用户需要根据蛋白质等实体或者实体关系来搜 索,所以生物文献的信息检索通常要结合实体识别和生物关系抽取技术。第三, 只返回一批文档显然不够友好,如何处理查询结果也是当前的重要研究内容。 美国国家图书馆开发的生物医学专业信息免费在线检索工具p u b m e d 就是典 型的生物信息检索技术的应用,可以查询与生物医学主题密切相关的信息。p u b m e d 的数据包括来自7 0 多个国家的4 0 0 0 多种期刊的,包含两千多万个条目。由于它 只涉及生物医学领域信息,专业化程度高,与通用信息检索工具相比,信息集合 小,检索速度更快,结果更准确。 2 文本分类与聚类 生物文献的庞大规模给研究者们带来的极大的困难,解决这一问题的主要方 法是利用自然语言处理技术和信息抽取技术对信息进行结构化处理,其中分类与 第3 页 国防科学技术大学研究生院学位论文 聚类技术是最重要的技术之一。 文本分类是指按照预先定义的类别,将每篇文档归入现有的类别中。文本聚 类与文本分类相似,区别在于聚类没有预先定义类别,根据文本之间的相似性将 文本聚集成簇。 文本的分类与聚类可以起到筛选信息的作用,缩小搜索的范围。这样,用户 可以方便的浏览与某一领域相关的信息,也可以通过限制搜索范围来提高检索效 率和效果。例如雅虎等门户网站就是按照类别来组织信息的,没有强大的自动分 类技术的支持这项分类任务是不可想象的。 3 自动文摘 文摘是对一篇文章的总结或者说摘要,自动文摘【6 】【7 】就是利用计算机自动地从 原始文献中提取文摘,以方便用户浏览。面对大规模的、快速增长的生物医学文 献,即使是领域内的专家也无法依赖手工方式高效地获取感兴趣的信息,做到完 全掌握其领域内的研究现状和未来的发展趋势。为了解决这种“信息爆炸”所带 来的问题,自动文摘技术应运而生了。自动文摘技术不仅可以方面用户浏览,使 得用户可以快速判断一篇文章是否是自己感兴趣的内容,同时也是g o o g l e 等浏览 器的基础。这些搜索引擎每天从全球各网站抓取大量网页,然后自动提取这些网 页的摘要并存储。如果没有自动摘要技术,g o o g l e 必须存储全世界的网页,这是 一件无法想象的任务。 当前,生物医学领域的自动文摘可以分为提取型文摘和摘要型文摘两种。提 取型文摘将文本视为句子的现行序列,将词语视为句子的线性序列。对每个句子 打分,提取出若干打分最高的句子,并按照其在原文中的顺序输出,从而行程摘 要。摘要型文摘则更复杂一些,它是利用人工智能特别是自然语言处理技术,首 先从文本中提取主要信息,然后利用提取的信息生成句子,进而生成摘要。 4 命名实体识别 命名实体识别【8 】f 9 1 是当前生物医学文献信息抽取的一个热点,这些生物实体包 括:基因、蛋白质【1 0 】、d n a 、r n a 、病毒、疾病、药物等。生物实体的识别是生 物实体关系抽取的前提,也是p u b m e d 等专业生物医学搜索引擎的基础。它不仅要 从文本中识别出生物实体,还要对这些生物实体进行分类。 生物实体不同于普通命名实体,通常命名很不规范,由于描述性的命名习惯 使得名字往往比较长,有时人们用名字的缩写来表示。这带来了一系列问题,如 大量缩写、同一实体具有多个不同的名字、同一名字表示不同实体、实体名彼此 嵌套等。这是由于生物实体的这些特点,命名实体识别当前是生物医学文献信息 抽取领域的一个重点和难点。 5 实体关系抽取 第4 页 国防科学技术大学研究生院学位论文 实体关系抽取1 1 1 2 是从生物文献中抽取出具有交互的实体关系对,这种交互 是实际存在于现实生活中的,不是简单的共现关系。实体关系抽取生物实体关系 的预测、生物实体知识网络的建立,新药的研制等均具有重要意义,因此生物实 体关系抽取系统具有极高的应用价值。 当前蛋白质相互作用关系抽取主要有三种方法【1 3 】:基于语法分析的方法、基 于规则匹配的方法、基于统计和机器学习的方法,三种方法有其各自的优缺点。 基于语法分析的方法适于简单的句子,对于复杂的句子必须进行深层语法分析, 性能和效果都不能令人满意。并且这种方法要求较高的语言知识背景,依赖于语 法分析的准确率,而事实上各种语法分析其在生物医学文献上的效果会有一定程 度的下降。相比之下,基于规则匹配的方法简单得多,它只需要将预先定义好的 规则与标注好的实体对进行匹配即可。但是,这些规则的提取往往需要较多人工 干预,并且系统严重依赖规则的数量和质量,对于实体之间距离较远和跨句子的 实体关系的抽取无能为力。机器学习方法近年比较热门,利用标注好的语料对机 器学习模型进行训练,训练好的模型即可用来抽取实体关系。 6 假设发现 随着科学技术的迅猛发展、科学综合发展程度的不断增强、科研领域的不断 细分和专业化程度的加深,表面上没有任何联系的文献中可能包含着被人们忽视 的潜在关联关系。同时,由于检索系统自身的不完备性以及人的阅读能力的有限 性,科研人员不可能同时看到这些隶属于不同领域的所有文献。 假设发现通过从不同文献中自动提取信息,通过彼此之间的关联发现潜在的 关联关系。与关系抽取相比,假设发现更侧重于潜在信息的获取。对于生物医学 文献来说,假设发现就是抽取可能有交互的生物实体关系,生命科学领域的研究 者提供实验假设和建议,通过实验验证就可以得到新的实体关系。例如:一篇文 档表明a 和b 有关系,另一篇文档表明b 和c 有关系,那么a 和c 也可能有关 系,a 和c 就是一对假设关系,它们之间是否有关系有待实验的验证。 1 3 生物实体关系的应用 生物实体关系抽取是从生物医学文本中抽取出具有交互的生物实体关系对的 过程,这些实体包括:基因、蛋白质、细胞、病毒、疾病、药物等。生物实体交 互关系不仅对我们弄清单个生物实体的性质、功能具有重要作用,对生物实体交 互数据库【1 4 】的扩充、生物实体知识网络f 1 5 】的构建、生物实体关系的预测、新药 的研制等都具有重要的意义。 1 扩充生物实体交互数据库 当前互联网上已存在许多商业的或者免费的生物实体交互数据库,例如:生 第5 页 国防科学技术大学研究生院学位论文 物分子交互网络数据痒( b i n d ) i l ”是一个广泛的网络,在一个面对对象数据库里 存放了蛋白质、d n a 、k n a 和各种生物分子之间的交互资料。此外,还有蛋白质 交互数据库d i p t ” i n t a c t l l4 j 1 1 9 1 和m i n t 2 0 等。这些数据库通常包含生物实体的信息、 交互的信息和检测交互的实验技术三个部分无论对生物学家还是对生物信息学 的学者都具有重要的应用价值。 但是,由于生命科学的快速发展,新的生物实体和实体交互关系不断被发现, 生物医学文献的数量剧增,使得仅仅依靠人工是很难及时、有效地更新这些数据 库的。我们可以利用生物实体关系抽取技术从最新的文献中提取交互关系,为了 提高准确度可以由专家对已提取的交互关系进行筛选,从而实现及时更新生物实 体交互数据库。 2构建生物实体知识网络 g e n eo n t o l o g y 是一个在互联网上开放的基因本体,已经包含超过2 3 0 0 0 个条 目,它是一个典型的生物实体知识网络,对生物学的研究具有重要的意义。如图 12 是一个生物实体网络的例子,中间是某种疾病,紧接着的外层是相关病毒等分 子,最外层是基因。为了构建类似的生物实体知识网络口”,首先必须提取实体交 互关系的信息包括实体信息、交互信息以及实验技术和条件等信息。 宁。立一 图i2 生物实体知识网络川 3生物实体关系的预测 就像从超市购物信息中挖掘出“啤酒与尿布”的关联一样,生物文献的信息 抽取也可以抽取出类似的具有潜在的生物实体交互关系,这主要包括两个方面。 一方面,利用机器学习等方法抽取出来的关系对可能是包含在文献中的潜在关系, 但是并未被论文作者注意到;另一方面,已经发现的交互关系可能具有传递关系, 因此经过几个节点间接联系的两个生物实体之间可能存在潜在的交互关系。例如: 1 9 8 7 年,美国的s w a n s o n 教授通过分析m e d l i n e 文献得出了“镁与偏头痛有关” 第6 页 国防科学技术大学研究生院学位论文 的预测,并最终得至0 证实。 4 新药的研制 将生物实体具体到病毒、疾病、药物等实体,可以抽取出它们彼此之间潜在 的交互关系。这种交互关系可以帮助了解致病原因、疾病特性和治疗药物,是研 制新药的基础。例如上面提到的“镁与偏头痛 的关系的发现,使得人们可以根 据这种关系开发新的药物。 1 4 当前的主要问题 近十年来,生物实体关系抽取发展较快,从最初的手工的或者半自动的规则 匹配方法发展到现在高级语法分析技术和机器学习技术的使用,关系抽取的效率 和准确率都有了很大的提高。但是,目前的关系抽取系统的抽取结果仍然不能令 人满意,和普通文本信息抽取相比还有很大的改善和提高的空间。 1 效果有待提高 在普通文本的生物命名实体关系【2 2 】抽取的报道中,f 值可以达到7 0 一8 0 , 但是生物实体关系抽取的f 值相对较低,除个别语料和系统,多数系统的f 值在 4 0 - - 6 0 之间。例如b i o c r e a f i v e2 0 0 6 e 2 3 l 的评测中,先识别生物实体再进行关系 抽取【2 4 j ,最好的系统的f 值还不到4 0 ,多数参赛系统的f 值在1 0 一2 0 之间。 可见生物文献的实体关系抽取效果还有待改进,原因主要在于生物医学文献与普 通文本不同,有许多自身的特点。 近几年最热门的方法是机器学习方法【2 5 1 ,从最初的共现和简单的统计方法已 经发展到了使用各种机器学习模型。国内在这方面可以说刚刚起步,只有清华、 哈工大、大连理工等几所学校发表了相关论文。可以说目前针对生物文献特征的 研究还不够充分,例如:有的文章仅仅只使用了词特征和词性特征,其它一些文 章进行了句法分析,但是只将分析结果作为一个布尔特征来使用,浪费了不少资 源,我们相信针对生物文献特征的研究对改善生物实体关系抽取的效果会具有很 大的帮助。 2 语料资源不完善 当前生物医学文献的信息抽取主要是基于m e d l i n e 摘要的,这是因为m e d l i n e 是当前最庞大的在线免费的生物医学文献资源。然而,由于多数文献的正文受到 版权的限制,我们很难获取大规模的正文。而相当多的生物实体关系并不包含在 摘要里,而是包含在正文中,这限制了生物实体关系抽取的进一步研究。 另一方面,目前已有的研究多数是基于自己的语料,这些语料是通过对 m e d l i n e 摘要进行人工标注得到的。因此,规模相对较小,通常只有几百个句子, 一般不超过两千个句子,而且不同的语料标注格式也相差很大,缺少同一的评价 第7 页 国防科学技术大学研究生院学位论文 标准,这造成了不同方法和不同语料上的实验不具有可比性1 26 l 。比如s a m p op y y s a l o 等人2 0 0 8 年的论文显示,同一个系统在五种最常用的语料上的f 值相差近3 0 个 百分点,他们使用基于语法分析方法开发的系统r e l e x ,在b i o l r r f e r 语料上的f 值 只有4 1 ,而在h p i m 5 0 语料上的f 值达到了6 9 。 3 实体关系的信息不充分 目前生物实体关系抽取的关注焦点在如何提高关系抽取的效果上,对实体关 系的方向、类型、实验条件等信息缺少重视。生物实体关系的抽取是生物实体网 络构建的一个必要步骤,而要构建这样一个网络,仅仅有生物实体关系是不够的, 还需要更丰富的信息。 例如,生物实体之间的交互关系是有向的,而这种有相关系往往能反映出某 种因果关系,因此生物实体关系的方向在生物医学领域具有重要的应用价值,是 生物实体关系的不可或缺的信息。而这些构建生物实体网络所必需的信息,目前 仍被许多研究人员所忽视。 4 学科融合不够 生物学家和计算机学者的合作需要进一步加强,这对生物医学文献中的实体 关系抽取技术的发展是至关重要的。当前从事生物实体关系抽取研究的主要是计 算机领域的研究者,但是这些研究者往往缺乏必要生物医学知识。生物学研究者 的参与是这个领域的研究必不可少的,因为只有生物学学者才具有评价方法有效 性、提出挖掘任务以及指出需要与文献集成的数据源的知识。 1 5 本文主要工作 图1 3 展示了当前生物实体关系抽取的主要流程,与本文相关的是第1 4 步, 重点在第三步生物实体交互关系提取和第四步中的对交互方向的判断。本文主要 抽取蛋白质相互作用关系,针对生物文献的特点设计了一系列特征,在此基础上 围绕句法分析结果提取了相关特征以进一步改善蛋白质相互作用关系抽取的效 果,最后对不同特征的效果进行分析和评价,具体工作分为以下几个方面: 资源嗣犀习躁飘慝a n t o 司l 翻l l y 过程l 帮| h 徽| h 淼| h 蠢搿l 阿醅 技术毽型 r 磁疆谤骈1 ;藐列弭怒; l 墼萼篓堑j 图1 3 生物实体关系抽取的流程 第8 页 国防科学技术大学研究生院学位论文 1 蛋白质相互作用关系抽取 本文主要抽取蛋白质相互作用关系,其它生物实体关系的抽取是类似的。首 先识别生物实体,对于同一个句子中的蛋白质,将其两两构成候选关系,通过判 断每个候选关系是否存在交互关系,可以达到交互关系抽取的效果,从而将蛋白 质相互作用关系抽取可以简化为一个二值分类问题。针对生物医学文献的特点提 取特征向量,对s v m 学习模型进行训练,训练好的模型就可以用来抽取蛋白质相 互作用关系了。 2 相互作用方向判断 在蛋白质关系抽取的基础上,进一步判断交互关系的方向。对于存在交互关 系的一对蛋白质,由于这种关系是有向的,所以必定存在施动者和受动者,根据 二者的位置关系可以将交互方向分为正向和反向,从而将交互方向判断转化为二 值分类问题。 3 特征集的开发 特征集的开发是蛋白质关系抽取与交互方向判断效果好坏的关键所在,也是 本文的研究重点。在抽取蛋白质关系对时,我们针对生物文献的特点提取几组特 征集合,并且借鉴语法分析方法的优点,围绕句法分析的结果,提取一组句法特 征集合,以进一步改善关系抽取的效果。 在判断交互关系的方向时,由于交互的方向主要体现在联系两个蛋白质的交 互词上,因此我们首先利用句法分析结果提取交互词,然后围绕交互词提取不同 的特征集合,并对不同特征集合的效果进行分析。 4 实验验证 好的思想需要好的实验方法验证,如何利用实验数据设计一套严谨的实验过 程进行实验分析,并从实验结果中发现问题,对于任何科学研究都是不可或缺的。 本文以严谨求实的态度,对所做的蛋白质相互作用关系抽取工作,进行了详细的 实验验证与评价,并明确下一步工作的方向。 1 6 本文结构 本文的结构如下: 第一章为绪论,概要阐述了生物实体交互关系抽取的背景、应用及面临的主 要问题,同时介绍了本文的主要工作及文章结构。 第二章描述了蛋白质相互作用关系抽取的主要任务,详细介绍了当前比较重 要的两个评测,并且明确了关系抽取任务的难点。 第三章对相关方法进行研究和分析,主要介绍了蛋白质相互作用关系抽取的 主要方法和当前比较热门的机器学习模型,并进行了小结。 第9 页 国防科学技术大学研究生院学位论文 第四章主要介绍基于s v m 方法的蛋白质相互作用关系抽取算法。分别从方法 的介绍、特征的选取、实验验证与分析等方面进行了详细介绍。 第五章主要介绍交互方向判断算法。分别从主要思想、特征选择、实验验证 与分析等方面进行了详细介绍。 第六章对全文进行了总结,并对将来进一步的研究工作提出了设想。 第1 0 页 国防科学技术大学研究生院学位论文 第二章蛋白质相互作用关系抽取的任务与难点 生物文献的信息提取的提出和兴起有特定的时代背景。上个世纪末,随着克 隆技术的成功、人类基因组计划的提出等一系列震动全球的重大事件的发生,生 命科学迅猛发展,特别是进入二十一世纪以来,生命科学和信息科学等已经变成 最热门的学科。而生物医学文献作为成果展示和学术交流的主要方式之一,其数 目之大,增长速度之快远远超过了其它学科领域。例如,美国国家医学图书馆提 供的在线生物医学文献数据库m e d l i n e 是现代医学研究发展和高价值文献存储的 代表资源。m e d l i n e 收录了1 9 6 6 年至今的4 3 种文字的两千多万篇文献,是生物学 和医学科学研究的重要知识来源。 在这种背景下,生物文献信息抽取技术受到广泛研究,为对其进行定量研究 和改进,专门的机构组织了各种评测活动,又进一步促进了自然语言处理研究与 生物学应用的紧密结合。本章通过介绍两个比较热门的评测来明确蛋白质相互作 用关系抽取的主要任务,并确定这个任务的主要难点所在。 2 1 关系抽取的任务 b i o c r e a t i v e 、l l l ( l e a r n i n gl a n g u a g ei nl o g i c ) 等都是非常著名的蛋白质相互 作用交互关系抽取评测,b i o c r e a t i v e 致力于生物信息的检索,面向自然语言处理与 生命科学的交叉研究,l l l 主要对抽取基因蛋白质相互作用关系的规则的抽取进 行评测。本节通过这两个评测的介绍,明确关系抽取的任务定义。 2 1 1b i o c r e a t i v e2 评测 b i o c r e a t i v e 2 0 0 4 评测包含生物实体识别任务和关系抽取任务,其中第二个任 务就是给定一个文档集合,要求从中抽取蛋白质之间的交互信息。2 0 0 6 年, b i o c r e a t i v e 组织了b i o c r e a t i v e2 ( 2 0 0 6 ) 评测,旨在促进i n t a c t 、m i n t 等蛋白质 交互数据库与生物信息学团体的合作,为研究者们提高标注良好的全文语料,推 动生物实体关系抽取技术的发展。 2 1 1 1 评测背景 对蛋白质相互作用关系的研究是当前最紧迫是生物学问题之一,它不仅对研 究单个蛋白质的功能有重要意义,对整个生命过程的组织的研究也是必不可少的。 大规模的文献使得利用生物信息学方法自动抽取蛋白质相互作用关系成为可能, 但是当前自动抽取的准确率还不能令人满意。 领域内的专家们构建了许多蛋白质相互作用关系数据库,用来组织整合零散 第1 1 页 国防科学技术大学研究生院学位论文 的信息,例如i n t a c t 和m i n t 等数据库就是将普通文献中的信息进行结构化处理, 为生物学家和生物信息学的研究者们提供资源和服务。但是,每天都有大量新的 蛋白质被发现,想要以手工方式及时更新数据库几乎是不可能的。 针对各种方法的统一的大规模评测仍然很少,目前的文章多种绝大多数都是 使用自己的语料进行评价的,这些语料一般是来自m e d l i n e 摘要。事

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论