(计算机软件与理论专业论文)生物数据整合若干技术的研究与实现.pdf_第1页
(计算机软件与理论专业论文)生物数据整合若干技术的研究与实现.pdf_第2页
(计算机软件与理论专业论文)生物数据整合若干技术的研究与实现.pdf_第3页
(计算机软件与理论专业论文)生物数据整合若干技术的研究与实现.pdf_第4页
(计算机软件与理论专业论文)生物数据整合若干技术的研究与实现.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

(计算机软件与理论专业论文)生物数据整合若干技术的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物数据整合若干技术的研究和实现摘要 【摘要】 近年来,生命科学研究蓬勃发展。各个生命科学领域产生了大量生物数据, 形成了众多大规模的生物数据库。如何利用这些生物数据,进行高效的生命科学 研究是生物信息学的主要工作之一,这离不开数据整合。如何有效地整合分布于 各个异构数据库中的生物数据,为生物研究者搭建方便高效的查询分析平台,已 成为当前生物信息学研究的热点。 生物数据的海量性、分散性、异构性、易变性、复杂性等特点,给整合工作 带来了困难和巨大的挑战。人们必须考虑寻求一种强有力的工具,能够对各个异 构生物数据源,在兼顾其现有配置与管理状况的条件下,实现高效集成。 本文基于生物数据库的研究现状,根据生物数据的特点,对生物数据整合技 术进行了研究,参与开发了一个生物信息整合系统b i o d w ,主要研究成果如 卜: ( 1 ) 提出了一种基于g e n eo n t o l o g y 的生物数据整合技术。该技术采用基因 本体( g e n eo n t o l o g y ) 注释数据源中的基因和基因产物,建立各数据库 术语之间的联系,使生物数据的整合建立在统一的语义基础上。 ( 2 ) 针对数据仓库的整合方法,提出了一种半结构化的生物数据增量更新技 术。该技术定义了“元树”、“元树类型”等结构,以半结构化的形式规 范元数据,建立了一个集中式元数据仓储结构,能够动态适应数据源的 变化,提高增量更新的效率。 ( 3 ) 提出了一种度量g e n e o n t o l o g y 术语间相似性的算法,实现了基于g e n e o n t o l o g y 的语义相似性查找。该算法根据g e n eo n t o l o g y 术语之间的语 义路径以及信息量,计算它们的相似程度。基于此算法实现的语义相似 性查找能够从语义角度推测基因产物功能的远近关系。 ( 4 ) 将上述研究结果和算法应用于生物信息整合系统b i o d w 中。b i o d w 整 合了g e n b a n k 、s w i s s p r o t 、k e g g 等多个数据源中的生物数据,提 供了各种数据查询方法,为生物研究者搭建了高效的信息分析平台。 关键词:生物信息学,数据整合,增量更新,异构性,元数据,g e n eo n t o l o g y , b i o d w 中图法分类号:t p 3 0 2 0 生物数据整合若干技术的研究和实现a b s t r a c t a b s t r a c t i nr e c e n ty e a r s ,w i t ht h ed e v e l o p m e n to fr e s e a r c ho nl i f es c i e n c e ,b i o l o g i c a ld a t ah a sb e e n g r o w i n ge x p o n e n t i a l l y , w h i c hg e n e r a t e sv a r i o u sl a r g e - s c a l eb i o l o g i c a ld a t a b a s e si ti so n eo fm a i n r e s e a r c hf o c u s e si nb i o i n f o r m a t i c sh o wt ou s eb i o l o g i c a ld a t ae f f i c i e n t l y s oi ti s u r g e n ta n d i m p o r t a n tt od e v e l o pas y s t e mt oi n t e g r a t ei m m e n s eb i o l o g i c a ld a t ae f f i c i e n t l yf r o mh e t e r o g e n o u s , d i s t r i b u t i n gd a t a b a s e s t h ec h a r a c t e r i s t i c so fb i o l o g i c a ld a t ab r i n gg r e a tc h a l l e n g et od a t ai n t e g r a t i o n ap o w e r f f d t o o ls h o u l db es e a r c h e do u tt oi n t e g r a t eh e t e r o g e n o u sb i o l o g i c a ld a t as o u r c e sw i t ha t t e n t i o nt ot h e c o n f i g u r a t i o n s t h i st h e s i sm a k e sc o r r e s p o n d i n gr e s e a r c ho nt h ei n t e g r a t i o nt e c h n o l o g yo f b i o l o g i c a ld a t a a b i o l o g i c a ld a t ai n t e g r a t i o ns y s t e m b i o d wi si n t r o d u c e d t h em a j o ri n n o v a t i o n sa r ea sf o l l o w s : ( 1 ) at e c h n o l o g y , w h i c hi su s e dt oi n t e g r a t eb i o l o g i c a ld a t ab a s e do ng e n eo n t o l o g y , i s p r o p o s e d g e n eo n t o l o g yi si n t r o d u c e dt oa n n o t a t eg e n e sa n dg e n ep r o d u c t si no r d e rt oe s t a b l i s h r e l a t i o n s h i pa m o n gb i o l o g i c a lt e r m si nd a t as o u r c e s s ob i o l o g i c a ld a t aa r ei n t e g r a t e db a s e do nt h e u n i f o r ms e m a n t i cs t a n d a r d ( 2 ) at e c h n o l o g y , w h i c hi su s e dt oi n c r e m e n t a l l yu p d a t eb i o l o g i c a ld a t a i sp r o p o s e d s e m i 。s t r u c t u r e df o r m a t s u c ha s “m e t a - t r e e a n d m e t a - t r e e t y p e i sd e f i n e dt os t a n d a r d i z e m e t a d a t a ac o n c e n t r a t e dm e t a d a t ar e p o s i t o r yi si m p l e m e n t e dt oa c c o m m o d a t et h ev a r i a b i l i t yo f d a t as o u r c e s ,a n dt oi m p r o v et h ee f f i c i e n c yo f i n c r e m e n t a lu p d a t i n g ( 3 ) a na l g o r i t h m ,w h i c hi su s e dt om e a s u r es e m a n t i cs i m i l a r i t yb e t w e e ng e n eo n t o l o g y t e r m s ,i sp r o p o s e d i tm e a s u r e ss e m a n t i cs i m i l a r i t yb e t w e e nt e r m sa c c o r d i n gt ot h es e m a n t i c p a t h sa n di n f o r m a t i o n as e m a n t i cs e a r c hi si m p l e m e n t e da m o n gb i o l o g i c a ld a t ab a s e do nt h e a l g o r i t h m ,w h i c hr e f l e c t st h ef l e x i b l er e l a t i o n s h i p so f f u n c t i o n si ng e n ep r o d u c t s ( 4 ) ab i o l o g i c a ld a t ai n t e g r a t i o ns y s t e m b i o d wi s d e s i g n e da n di m p l e m e n t e d b i o l o g i c a ld a t ai ng e n b a n k ,s w i s s p r o k e g ge ta la r ei n t e g r a t e di nb i o d wu s i n gt h e t e c h n o l o g i e sa n da l g o r i t h mp r o p o s e da b o v e m u l t i p l i c a t es e a r c hm e t h o d sa r ep r o v i d e di nb i o d w k e yw o r d s :b i o i n f o r m a t i c s ,i n t e g r a t i o n ,i n c r e m e n t a lu p d a t i n g ,h e t e r o g e n e i t y , m e t a d a t a ,g e n e o n t o l o g y , b i o d w c l cn u m b e r :t p 3 0 2 o o 生物数据整合若十技术的研究与实现 第1 章绪论 第1 章绪论 本章从课题产生的背景出发,指出了构建生物信息整合系统的重要性:总结 了目前生物数据整合技术的发展现状,简要分析了存在的局限性和不足;在此基 础上,阐述了论文的主要研究内容、研究成果以及论文的结构。 1 1 研究背景 随着人类基因组计划( h g p ) 的实施,以及其他新技术如快速序列测定、多 维核磁共振、同步辐射等技术的迅速发展和普及应用,近十年来,生物信息学蓬 勃发展,生物数据呈爆炸趋势增长。这些数据被分别收集在种类繁多的数据库中。 如何将这些数据源中的数据有效地整合起来,为生物研究者搭建方便而高效的查 询分析平台,已成为当前计算机界研究的热点。 1 1 1 生物数据源与生物数据总量增长迅猛 2 0 世纪9 0 年代以来,生物信息资源迅速增长。每年所发表的有关核酸、蛋 白质序列和结构的数据呈指数增长 b k l + 0 3 1 。迄今为止,科学家完成了包括人 类自身在内的约6 0 种模式生物的全基因组数据,产生了大量的数据信息。这些 信息被分别储存在各类数据库中,每个数据库都包含了大量数据。例如,目前 g e n b a n k1 4 9 0 数据库中的d n a 序列已达6 2 ,4 9 7 ,4 0 0 条,超过6 7 ,3 8 4 ,8 4 5 , 6 3 2 亿碱基对 d i d + 0 6 。与其同步增长的还有蛋白质序列,目前s w i s s p r o t 4 8 1 数据库中的记录已达2 0 0 ,4 2 0 条,包含5 4 ,0 9 3 ,1 5 4 个氨基酸的数目,其中 1 8 ,6 9 1 种蛋白质的空间结构以不同的分辨率被测定 c r a 0 6 。据统计,这些数 据库的数据总量以每1 4 个月翻一番的速度快速增长 d i d + 0 6 。 除了d n a 序列数据库、蛋白质序列数据库以外,还有蛋白质三维结构数据 库、文献数据库、菌种资源数据库、细胞资源数据库、种质资助数据库、代谢途 径数据库、疾病靶点数据库、酶学数据库、小分子配体化合物数据库、色谱学数 据库、蛋白质双向电泳数据库等等一系列大大, , j 、t j x 与生物学领域相关的各具特色 的数据库 蒋0 3 。目前,分布在互联网上的可利用生物数据源已达8 5 8 个 g a l 0 6 。 生物数据库的数量呈快速增长的念势。 。 生物数据整合若干技术的研究与实现第1 章绪论 1 1 2 生物信息学的产生与发展 生物数据急速和海量的积累,在人类科学研究历史中是空前的。但是,数据 只是信息和知识的来源,要将其转化为信息和知识,需要对这些大量而又复杂的 生物数据进行有效地管理、分析和利用,从中发现新的规律。二十世纪末期,一 门新兴交叉学科生物信息学( b i o i n f o n n a t i c s ) 在生物数据急剧增加、生命科 学技术迅猛发展的背景下应运而生。美国人类基因组计划实施五年后的总结报告 中,对生物信息学作了以下定义 r b 0 0 1 :生物信息学是一门交叉科学,包含了生 物信息的获取、处理、存储、分发、分析和解释等在内的所有方面,综合运用数 学、计算机科学和生物学的各种工具进行研究,阐明和理解大量数据所包含的生 物学意义。 生物信息学是生命科学和自然科学的重大前沿领域之一 钟0 1 。近年来,计 算机和互联网的发展更是为生物信息的传递提供了硬件基础和便利,大大地推动 了生物信息学的发展。 1 2 研究意义 目前,虽然大部分生物数据能够在线获取,但是它们分布在各类异构的数据 源中。在许多情况下,研究人员需要访问分布于网络各处的各个数据源,使用不 同的工具查询相关信息,汇集表达不一的查询结果。这无疑给研究工作带来了极 大的不便,容易使研究者迷失于众多数据源之中。并且,随着生物数据的迅猛增 长,手工汇集各种信息变得越来越困难。因此,需要一种有效的方法来完成这个 任务,这就需要数据整合。如何在异构的生物数据源之间实现数据整合是有效利 用生物信息资源的关键。生物数据的高效整合,可以使用户通过一个单一的平台, 获取各个数据源的信息,从而大大减轻研究人员的负担,为生物学的进一步研究 和发展奠定良好的数据基础。因此,生物数据的整合具有重要的理论价值和实际 意义。 由于生物数据量庞大,并且生物数据源具有分散性、异构性、易变性、复杂 性等特点,对生物数据进行整合并进行各种操作的过程中面i 临许多挑战,例如: ( 1 ) 由于不同研究机构关注不同层面的生物学问题,缺乏规范生物数据源的 统一标准,导致生物数据源在结构和语义等方面存在巨大的异构性。如 何从多个异构数据源集成和更新数据,实现生物数据的高效整合,是一 项新的挑战。 ( 2 ) 生物数据的格式和数据获取方法变化频繁,对于采用新格式的数据源, 。 生物数据整台若十技术的研究与实现 第1 章绪论 系统往往无法进行有效的数据整合,甚至还会引入一些意想不到的错 误。为了解决这个问题,生物数据整合系统的体系结构应浚比静态领域 丌发的系统具有更好的灵活性,包括以下几方面: 可伸缩性:系统能够整合不同规模的生物数据源,具有良好稳定的 表现。 可扩展性:系统既能充分利用现有的生物信息资源,又能有效整合 今后不断出现的新兴资源。 综合性:系统既能支持数据源的整合,又能支持服务和二 = 具的集成。 ( 3 ) 目前常用的生物序列比对工具仅通过对序列之间的相似区域、保守性位 点等的比较,推测基因产物功能的相似性,探索产生共同功能的序列模 式,寻求分子进化关系。如何对基因产物提供语义上的相似性比较,探 索物种问进化关系,是生物学研究的一项新挑战。 本文从语义相似性以及元数据维护的角度出发,对数据整合过程中存在的问 题进行了研究。针对生物数据源缺乏统一标准的问题,本文提出了一种基于g e n e o n t o l o g y ( 简称g o ) 【a b b 0 0 的生物数据整合技术,使生物数据的整合建立在 统一的语义基础上。针对生物数据源变化频繁的问题,本文提出了一种半结构化 的生物数据增量更新技术,以半结构化形式规范元数据,建立了一种集中式元数 据仓储结构,有效地实现了生物数据的增量更新。针对基因产物功能比较的问题, 本文提出了一种度量g o 术语间相似性的算法,实现了基于g o 的语义相似性查 找;能够从语义角度推测基因产物功能的远近关系,使生物研究者能够更好的寻 求物种进化关系。本文已用于构建国内第一个生物信息整合系统b i o d w ,详 情见h t t p :w w w s c b i t o r g b i o d w 。 1 3 研究现状 生物数据整合是对分散的异构的生物数据源,在兼顾信息资源的现有配置与 管理状况的条件下,实现数据的高效集成。 数据整合技术在数据库领域已有广泛的研究,根据整合系统所实现的策略进 行分类,可将生物数据的整合方法分为如下三种【h k 0 3 【d c b 0 1 】:联邦数据库的 整合方法( f e d e r a t i o n a p p r o a c h ) 、数据仓库的整合方法( d a t a w a r e h o u s e a p p r o a c h ) 和基于包装器协调器的整合方法( w r a p p e r m e d i a t o r a p p r o a c h ) 。 联邦数据库的整合方法:将所有组件数据库进行一对一的简单链接,并不要 求将数据迁移到中心数据库中,底层数据源的数据还是保留在原地。联邦数据库 的方法是数据整合的最简单结构。此方法的优点是用户能及时地得到最新的数 。 生物数据整含若干技术的研究l j i 实现 第1 章绪论 据;缺点是需要对异构数据源系统建立转换规则,可扩展性和移植性不好。 数据仓库的整合方法:将各个数据源的相关数据副本装入本地服务器,形成 具有全局模式的一个统一的系统,即数据仓库。这样,需要进行操作的应用数据 就来源于数据仓库。此方法的优点是访问速度快、效率高,且便于管理数据;缺 点是构造完整的数据仓库代价昂贵,并且难以保持数据的及时更新。 包装器协调器的整合方法:以包装器协调器 h g w + 9 5 为中心,依赖个 三层体系结构进行。数据保存在各个参加整合的数据源中,通过各数据源的“包 装器”将数据虚拟成公共数据模式,用户的查询是基于公共数据模式进行的。此 方法的优点是可扩展性好,能够方便地对数据源模式的变化进行处理。 国外在生物数据整合方面的研究和开发起步比较早,目前已有一些工作和商 业化产品。例如,英国的s r s ( s e q u e n c er e t r i e v a ls y s t e m ) e a 9 6 1 ,美国n c b i 的 e n t r e z 【s e 0 9 6 ,耶鲁大学的e c o l i 遗传信息数据库体系g e n e r a w c l 0 1 ,瑞十 的蛋白质知识库e x p a s y w c l 0 2 1 ,日本的基因组数据库网络体系g e n o m e n e t a b h 9 4 ,加拿大的人类基因组联邦数据库g d b 【p e a r 9 1 】等。近些年,先后产生 了更多的生物信息整合系统,例如,宾夕法尼亚大学计算机系的b i o k l e i s l i d o t 9 7 系统,i b m 研究院的d i s c o v e r y l i n k h s k + 0 1 】系统,曼彻斯特大学计算 机系的t a m b i s ( t r a n s p a r e ma c c e s st om u l t i p l eb i o i n f o r m a t i c si n f o r m a t i o n s o u r c e s ) f s b b 0 0 系统,g s k 公司和i b m 研究院的t 1 n e t e k l 0 1 系统。 然而,目前的一些生物数据库仅限于海量数据的存储体,查询处理能力还不 是很强。以上的生物信息整合系统除了t a m b i s 系统以外,还没有在概念和联 系层次上有效地整合数据源。 1 4 本文工作 1 4 1 研究内容和成果 本文对生物数据整合的研究注重于两方面:一方面,来自于不同数据源的生 物数据如何建立相互联系,从而尽可能紧密的集成到生物系统中,另一方面,对 于已经集成到系统中的数据如何实现数据更新。 本文总结了生物数据整合的研究现状,对生物数据仓库中的数据集成、增量 更新、语义相似性度量等问题作了深入的研究和探讨,开发了一个生物信息整合 系统b i o d w 。研究成果主要包括以下几个方面: ( 1 ) 提出了一种基于g o 的生物数据整合技术。该技术采用g o 注释数据源 中的基因和基因产物,建立各数据库术语之间的联系,使生物数据的整 。 生物数据整合若干技术的研究与实现 第1 章绪论 合建立在统一的语义基础上。 针对数据仓库的整合方法,提出了一种半结构化的生物数据增量更新技 术。该技术定义了“元树”、“元树类型”等结构,以半结构化的形式规 范元数据,建立了一个集中式元数据仓储结构,能够动态适应数据源的 变化,提高增量更新的效率。 提出了一种度量g o 术语间相似性的算法,实现了基于g o 的语义相似 性查找。该算法根据g o 术语之间的路径以及信息量,计算它们的相似 程度。基于此算法实现的语义相似性查找,能够从语义角度推测基因产 物功能的远近关系。 将上述研究结果和算法应用于生物信息整合系统b i o d w 中。b i o d w 整 合了g e n b a n k 、s w i s s p r o t 、k e g g 等多个数据源中的生物数据。与 现有的生物信息系统相比,b i o d w 实现了基于语义的数据整合,以及半 结构化的增量更新,提供了多种综合的查询方法,为生物研究者搭建了 高效的信息分析平台。 1 4 2 本文结构 本文共分为六章,每章的主要内容介绍如下: 第一章绪论本章简要介绍了课题的研究背景、研究意义、数据整合的研究 现状、本文的研究成果以及组织结构。 第二章生物数据整合的研究现状本章首先回顾了生物信息学的发展;然 后,详细分析了生物数据的特征;针对这些特征,介绍了目前生物数据整合的技 术及特点:最后,综述了现有的较有特色的生物信息整合系统,指出了目前生物 信息整合系统的特点和存在的一些问题。 第三章基于g e n eo n t o l o g y 的生物数据整合本章首先介绍了本体、生物本 体的概念和作用;然后,分析了传统的相似性度量算法,指出了它们的不足,在 此基础上,提出了一种度量g o 术语间相似性的算法;最后,结合此算法,提出 了一种基于g o 的生物数据整合技术。相关工作已分别发表于计算机工程和 计算机应用与软件。 第四章半结构化生物数据增量更新本章首先介绍了元数据的概念和管理 方法;然后,描述了生物元数据的内容,分析了在数据仓库整合方法中,元数据 在生物数据增量更新中所起的作用;在此基础上,对数据仓库中的元数据进行规 范和管理,建立了一个集中式元数据仓储结构,提出了一种半结构化的生物数据 增量更新技术;最后,实现了基于m d 5 的生物数据的增量更新。相关工作已发 表于计算机科学。 o 0 生物数据整合若干技术的研究与实现 第1 章绪论 第五章b i o d w :一个生物信息整合系统本章首先介绍了b i o d w 的系统结 构、主要功能模块;然后,详细介绍了b i o d w 中基于g o 的数据整合、以及半 结构化增量更新的实现;最后,介绍了b i o d w 中的各种查询功能,并对其效果 进行了讨论。 第六章结论与展望对本文的工作进行总结,并指出了未来的研究方向。 0 生物数据整合若干技术的研究与实现 第2 章生物数据整台的研究现状 第2 章生物数据整合的研究现状 本章主要介绍了生物数据整合的研究现状。首先回顾了生物信息学的发展; 然后,详细分析了生物数据的特征;针对这些特征,介绍了目前生物数据整合的 技术及特点,包括数据集成和数据更新两方面的内容;最后,综述了现有的较有 特色的生物信息整合系统,如s r s 、k 2 、d i s c o v e r y l i n k 、t a m b i s 、t i n e t 、g u s 等,指出了目| j i 生物信息整合系统的特点和存在的一些问题。 2 1 生物信息学 生物信息学是一门交叉学科,同时也是一种重要的研究开发工具【郝0 0 。通 过生物信息学的处理,我们可以从众多分散的生物数据中获得对生命运行机理的 详细的理解。 在生物数据爆炸性增长的时代,无法用实验方法去逐一确认蛋白质、核酸等 序列的功能。只有根据以往积累的数据和经验,对新序列进行分析和预测,找到 需要由实验决断的问题,从而加快研究的进程,节省人力和物力。诺贝尔获得者 g i l b e r tw 于1 9 9 1 年在自然( n a t u r e ) 撰写短文,针对生物学研究范式的变 化指出 g i l 9 1 】,“f 在兴起的新的范式在于,所有的基因将被知晓( 在可用 电子方式从数据库读取的意义上) ,今后生物学研究项目的起点将是理论的。一 位科学家将从理论猜测开始,然后才转向实验去继续或检验该假设。”基于生物 信息学对已有数据资料的分析处理、提供的理论指导和分析,我们才能选择正确 的研究方向。同样,我们需要选择j 下确的生物信息学分析方法,正确地处理和评 价新的观测数据,并得到准确的结论。 目前,生物信息学的主要研究领域有 赵0 2 :基因与基因组的信息学,基因 表达的信息学,生物大分子的结构信息学。 2 2 生物数据的特征 生物信息学的迅猛发展为生物研究创造了良好的条件。包含大量生物数据的 生物数据库是进行生物学研究和开发工作的基石。生物学家可以通过网络访问这 些数据库( 也称为数据源) ,从各种数据源中查询各种信息,并汇集表达不一的 查询结果。 0 生物数据整合若干技术的研究与实现 第2 幸生物数据整台的研究现状 从数据整合方面出发,我们首先对生物数据的特征进行简单介绍。生物数据 以及生物数据源本身的数量庞大,增长迅速。此外,生物数据源具有如下的主要 特征 c u i 0 3 h k 0 3 l a c 0 2 l a c 0 3 : 多样性 不同生物数据源描述不同的生物子领域,存储不同的生物数据。生物数据源 的类型呈现高度多样化。例如,各个数据源存储着各种不同的典型数据,包 括基因表达序列,病毒特征,分子结构,微排列数据核苷酸序列和蛋白质相 互作用等。 复杂性 生物数据源中数据对象的复杂程度不断增加。在一个数据源中可能包括序 列、注释、参考文献以及软件,甚至可能通过指针将相关内容链接到其他数 据库。此外,生物数据源中的数据对象往往具有多层嵌套结构,数据对象的 成分可以缺失、多次重复、有序出现或者无序出现,甚至在较高层次上是有 序的,在较低的层次上却是无序的( 即有序成分中包含着无序的子成分) 或 反之( 即无序成分中包含着有序的子成分) ,构成了有序成分和无序成分间 的复杂嵌套组合。这些特点构成了数据对象的复杂性。 异构性包括结构异构性和语义异构性。 夺结构的异构:不同的数据源采用不同的数据格式表示,即使对于相同类 型的信息也会使用不同格式进行表达。例如,基因组、基因表达谱以及 蛋白质组的数据通常使用电子数据表或者结构化的关系数据库系统进 行存储。科技文献、图像以及其他自由格式的文档通常使用非结构化或 半结构化的格式,例如,纯文本文件、h t m l 或x m l 文件、二进制文 件进行存储 夺语义的异构:不同数据源中相同或者相关的数据在含义、解释和用途方 面都有可能不同。同一个术语在不同的地方代表不同的含义,或者同一 个含义使用不同的术语来表示,这些都是语义上的异构。例如,相同的 蛋白质序列在g e n b a n k 和s w i s s p r o t 数据库中具有不同的名字和接收 号( 同义词) ;同一个基因在m g d 中可能表示为遗传图谱中的基因座, 在u n i g e n e 中是e s t 的序列集; 易变性 目前生物学的许多研究领域仍然处于发展阶段,生物数据源中的数据常常是 不完整的,并且经常发生前后不一致的情况。随着生物学研究的发展,生物 数据源的结构会不断发生变化。比如,修改数据源中一些标签的表达结构或 增加一些新标签。 生物数据整合若干技术的研究与实现 第2 章生物数据整合的研究现状 独立性 生物数据源是松散的、自治的w e b 站点的结合。每个数据源具有独立的数 据库构建标准,独立的数据注释标准,提供独立的用户界面以及查询方式。 大部分数据源在设计过程中并未考虑互操作性。 动态性 生物学的研究处于一个持续发展的阶段,生物数据源中收录的数据内容、数 据格式、数据获取方法不断发生变化。许多数据源的提供者大约每6 个月就 要扩展或更改数据源的数据格式,并以同样的频率修改数据库的使用界面。 2 3 生物数据整合的现有方法 本文对生物数据整合的研究注重于两方面:一方面,来自于不同数据源的生 物数据如何建立相互联系,尽可能紧密的集成到生物系统中,另一方面,对于已 经集成到系统中的数据如何实现数据更新。目前,生物数据集成和更新的方法丰 要有以下几种。 2 3 1 生物数据集成方法 数据集成的目的是为用户从多个自治的异构的数据源中得到集成的、实时的 数据。目前,数据集成有多种方式。对于结构化数据模型的异构数据集成主要有 基于语言的数据集成,基于逻辑试图的数据集成,基于联邦数据库的数据集成等; 对于半结构化数据的异构数据集成主要有基于数据仓库( d a t aw a r e h o u s e ) 的数 据集成,基于包装器协调器( w r a p p e r m e d i a t o r ) 的数据集成【w i e 9 2 h s 0 3 w o n 0 2 。 由于各个生物数据源存储的生物数据中存在着大量半结构化的数据文件,这 些数掘文件是由标签和相关的值所构成的,具有一定的规则。生物数据的集成主 要采用基于数据仓库的方法以及基于包装器协调器的方法。 数据仓库方法 数据仓库的方法是将各个数据源中的相关数据汇集到具有全局模式的统一 系统即数据仓库中。如图2 l 所示。该方法通过提取、转换、清理、传输和加载 异构数据源的数据,完成数据的集成和汇总。 这种方式的优点是:可以仔细的进行数据清理,允许系统或用户过滤、校验、 修改和注释从数据源获取的数据,提高了效率。缺点是:由于生物数据源的分布、 异构、动态变化等特点,构造任何一个包含各种不同的生物学信息的数据仓库系 统代价较大,并且数据集成到数据仓库中以后,系统必须定期检测数据源变化, 0 生物数据整合若干技术的研究与实现 第2 章生物数据整合的研究现状 进行数据更新。 用户 数据源 图2 - 1 基于数据仓库方法的体系结构 包装器协调器的方法 一般的基于包装器协调器的数据集成方法的结构,如图2 2 所示。 用户 数据源 图2 - 2 基于包装器协调器方法的体系结构 在包装器协调器方法的结构中,为每个局部数据源构建一个软件模块,称 为包装器( w r a p p e r ) 。包装器负责将局部数据源的数据转化为某种公共数据模 型,并提供对局部数据源的查询接口。对于一些不具有查询能力的非数据库数据 源,包装器必须实现对其的查询功能。而协调器( m e d i a t o r ) 负责为上层应用提 供基于全局视图的查询界面,并将用户提交的查询分解为针对各个局部数据源的 查询,分别交给相应数据源的包装器执行。包装器返回局部查询结果后,协调器 将局部查询结果进过处理后整合为全局的查询结果返回给用户。 这种方法的优点是:更为灵活,包装器能够方便地对数据源模式的变化进行 处理,而且只要简单地增加一个包装器,就能够将一个新的数据源增加到系统中。 缺点是:出于各数据源是自治的,需要复杂的查询优化与执行方法来保证足够的 性能。 目前,相当数量的生物学数据都以半结构化的形式存在。如何将这些半结构 化的数据根据特定的目标进行抽取、并以结构化的方式进行表示,是进行生物学 数据集成的关键。基于数据仓库的方法和基于包装器协调器的方法目前异构的 固 , 卜车霉 爹 o o 生物数据整台若干技术的研究与实现 第2 章生物数据整合的研究现状 生物数据源集成较为成功的模式。事实上,在生物信息学数据集成领域,已有 些基于数据仓库的方法和基于包装器协调器的方法相关工作。在下一节中会对 生物信息学中现有的数据整合系统进行综述。 2 3 2 生物数据更新方法 生物信息整合系统将异构数据源中的数据集成以后,需要定时进行数据更 新,确保数据的时效性。数据的更新包括定时从数据源获取数据,清理和转换数 据,将新数据加载入信息整合系统中,同时更新部分数据集市或数据视图 h k 0 1 。由于生物数据量庞大、复杂程度高,数据源存在异构性 h k 0 3 等特点, 数据更新的难度不断增加。目前,数据更新的方法主要有全量更新和增量更新两 种。全量更新需要对所有数据进行抽取、转换和装载,存在时间效率低、空间存 储容量大等缺陷,容易成为系统瓶颈。我们一般采用增量更新法,仅对增量数据 进行抽取、转换和装载,提高时空效率。 数据增量更新的方法很多,例如集合刷新法、聚集函数法等。目前,常用的 数据增量更新的方法有打时间戳、扫描增量文件、扫描日志、修改应用程序、前 后映像文件比较等方法 s p e 9 9 1 ,如图2 3 所示。 图2 3 数据增量更新的方法 。 生物数据整合若干技术的研究与实现第2 章生物数据整台的研究现状 打时间戳 系统中的记录最近一次被修改时,会被打h 时间戳。系统扫描到带时间 戳的记录,就进行数据更新。此方法的缺点是对无时间戳字段的系统数 据库,这种更新无法有效进行。 扫描增量文件 系统定时探测数据源,获取增量文件,扫描其中的相应记录,进行数据 更新。增量文件的生成可以由系统改造完成,如加触发器等。此方法的 缺点是会影响业务处理的性能。 扫描日志 系统扫描日志文件,得到系统装载数据的信息,进行相关数据更新。此 方法的效率和f 确性较高;缺点是日志文件的结构是针对系统用途构建 的,具有专用性,必须进行解析,通用性较弱。 修改应用程序 修改以往的应用程序代码,使这些程序做到数据更新。此方法的缺点是 许多的应用程序并无源代码或代码陈旧,难以修改。 “前”“后”映像文件比较 此方法的在第一次抽取时就对数据库进行快照( s n a p s h o t ) ,进行另外一 次抽取时,就进行另外一个快照。然后将两个快照逐次比较来确定增量 数据,实现增量更新。 目前,对生物信息整合系统的研究中,数据增量更新的研究不多。新加坡大 学计算机系的b i o w a r e 系统采用丢弃和添加列表的方式,对数据仓库的数据进行 更新。这种方法对新增加的异构数据源通用性不强。 2 。4 现有的生物数据整合系统 关于生物数据的整合,目前已有一些工作和产品。如欧洲生物信息研究所 ( e u r o p e a nb i o i n f o r a m t i c si n s t i t u t e 简称e b i ) 开发的s r s ,宾夕法尼亚大学计算 机系的b i o k l e i s l i 系统,i b ma l m a d e m 研究院的d i s c o v e r y l i n k 系统,曼彻斯特 大学计算机系的t a m b i s 系统,g s k 公司和i b m 研究院的t 1 n e t 系统等。 s r s s r s 是由欧洲生物信息研究所开发的,基于w w w 界面运行的数据库榆索 及导航系统,是目前生物信息界应用非常广泛的数据库系统。用户可以通过浏览 器输入编号、物种来源、组织器官、文献关键词等信息对已经建立索引的数据库 进行检索,得到所需的序列或相关内容。s r s 中的数据源通常要求为f l a tf i l e 格 。 生物数据整台若十技术的研究与实现第2 章生物数据整台的研究现状 式或关系数据库。当要将一个新的数据源加到s r s 系统中,首先用s r s 内带的 程序设计语言i c a r u s 对该数据源的模式或结构进行描述。然后用i c a r u s 描述的各 种字段对数据源建立索引。s r s 系统的缺点是,它只是基于简单的链接驱动方式 进行数据的整合,没有提供动态的分析工具,只能返回简单的条目集合,要进行 进一步的操作只能通过手工方式完成。 b i o k l e i s l i ,k l e i s i ,k 2 b i o k l e i s l i 系统采用m e d i a t o r 技术实现了多种数据源的整合。其后的 k 2 d c b 0 1 和k l e i s l i b d h + 9 5 】系统基于b i o k l e i s l i 系统开发,支持复杂数据类型 的模型,并且实现了o l a p ( o n l i n ea n a l y t i c a lp r o c e s s i n ) 技术。k 2 采用o q l ( o b j e c tq u e r yl a n g u a g e ) 语言。进行查询时,系统根据o q l 语言,对数据源 的元数据进行检查,分解成子查询,并进行查询优化,将产生的最大查询发送到 对应的数据源,得到子查询结果后进行重组优化,返回结果。缺点是系统奄询能 力相对较弱。 d i s e o v e r y l i n k d i s c o v e r y l i n k 是一个基于关系数据模型的生物信息学整合系统,建立在关 系数据库d b 2 基础上。用户可以使用s q l 语言来查询异构数据源( 包括关系数 据库、文本文件、x m l 数据源等) 。d i s c o v e r l i n k 系统基于w r a p p e r m e d i a t o r 实 现了信息源整合,提出了查询分解和基于代价的优化策略。与s r s 相比, d i s c o v e r l i n k 系统不仅能够使用s q l 查询多个数据源,而且能对查询结果作进 一步处理。缺点是d i s c o v e r y l i n k 系统整合的数据源数量还很少;采用的是关系 数据库模型,所处理的每一个数据必须是原子对象,如字符串和数字。然而,生 物数据源具有复杂性的特点,经常具有很深的嵌套结构,无法用原子对象表达: 因此,在数据源和d i s c o v e r y l i n k 之间存在着不匹配的问题。此外,d i s c o v e r y l i n k 查询分解也未从语义角度考虑。 t a m b i s t a m b i s 系统基于w r a p p e r m e d i a t o r 实现了信息源整合,借助b i o k l e i s l i 系 统中的c p l ( c o m b i n e dp r o g r a m m i n gl a n g u a g e ) 语言作为查询语言并给出了查 询优化的方法,通过t a o ( t a m b i so n t o l o g y ) 本体的定义,为用户浏览、查询 和处理提供领域知识。t a o 本体包括蛋白质结构、同源性、位点等内容,为用户 提供所需的相关概念,协助用户完成查询。t a m b i s 系统的查询基于t a o 本体, 将全局概念映射到局部数据源中的概念,提高了整合系统的数据源透明性。缺点 是t a m b i s 系统整合的数据源数量还很少。 t i n e t t i n e t 基于多数据库中间件o p m ( o b j e c t p r o t o c o lm o d e l ) 定义数据源的对 。 生物数据整合若干技术的研究与实现 第2 章生物数据整台的研究现状 象视图,其c o r b a ( c o m m o no b j e c tr e q u e s tb r o k e r a r c h i t e c t u r e ) 服务器使各数 据源的w r a p p e r 更加易于扩充。此外,t i n e t 系统不仅集成了数据源,还集成了 b l a s t 等服务。缺点是t i n e t 系统的查询处理能力不强。 g u s g u s 系统 d c b 0 1 由美国宾夕法尼亚大学研制,是采用数据仓库方法实现的 生物信息整合系统。该系统存在着几个缺点:首先,没有一套很好的数据更新机 制,数据源的变化不能及时地反映到数据仓库中;其次,虽然采用了本体技术来 统一生物组织的名称,但并没有从根本上解决数据条目间语义的异构问题。 目前,国内也已经出现了一些生物信息学平台,如中国科学院基因组信息学 中心维护的h t t p :w v c w b i o s i n o o r g ,北京大学生物信息中心维护的 h n :w w w c b j 逃u e 盘c n 。但是这些生物信息学平台都未能提供生物数据整合和生 物信息搜索引擎等方面的服务,目前,国内生物数据库数量较少,没有具有自主 产权的生物信息整合系统和生物信息数据引擎系统。 总之,目前生物数据源仅限于海量数据的存储体,除t a m b i s 系统外,其 他都还没有在概念和联系层次上整合信息源。此外,现有整合系统的查询处理能 力还不是很强,尤其是当多个数据库存在信息重叠时,缺乏动态生成优化检索方 案,选择最佳检索成员的能力。因此,希望能建立一套生物信息整合方法,整

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论