(农业昆虫与害虫防治专业论文)基于xml的异构生物信息数据整合系统研究.pdf_第1页
(农业昆虫与害虫防治专业论文)基于xml的异构生物信息数据整合系统研究.pdf_第2页
(农业昆虫与害虫防治专业论文)基于xml的异构生物信息数据整合系统研究.pdf_第3页
(农业昆虫与害虫防治专业论文)基于xml的异构生物信息数据整合系统研究.pdf_第4页
(农业昆虫与害虫防治专业论文)基于xml的异构生物信息数据整合系统研究.pdf_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中山大学硕士学位论文 基于x m l 的异构生物信息数据 整合系统研究 专业:农业昆虫与害虫防治 硕士生:刘亚利 导师:张文军 摘要 后基因组时代,生物信息数据指数增长,由此形成了数以百计的生物信息学 数据库。如何将这些异构的生物信息资源进行整合利用,成为当前生物信息学亟 待解决的问题。x m l 是互联网上数据表示和交换的标准。在生命科学领域,x m l 也已开始成为表示和储存复杂的生物学数据的一种标准。采用x m l 格式表达生 物数据,能够解决生物数据传输、发布以及整合的大部分问题。基于x m l 技术 进行生物信息的整合应用,是目前生物信息研究的热点及重点。 本研究采用v i l 和j a v a 技术构建了异构生物信息整合系统b l o & x j 。 b i o x j 结合关系数据库( r d b m s ) 和n a t i v e l 数据库( n x d ) 作为后台数据 库,存储和管理收集到的异构生物信息:利用j s p 技术构建网络数据库,以订l 形式的半结构化数据进行信息的动态发布。基于b i o x j ,对s a r s 相关的异构 生物信息进行了整合。 b i o x j 具有灵活性、可移植性、高效性和轻便性等特点,有利于方便、快 捷地整合利用各种异构生物信息资源为实现异构生物信息的存储、检索和传输 提供了一种新的解决方案。 关键词:x m l ;j a v a ;异构生物信息:整合 刘亚利基于x m l 的异构生物信息数据整合系统研究 一一一 a nx m l b a s e di n t e r g r a t i o ns y s t e mf o rh e t e r o g e n e o u s b i o i n f o r m a t i c sd a t a m a j o r :a g r i c u l t u r a ie n t o m o l o g ya n di p m n a m e :l i uy “i s u p e r v i s o r :z h a n gw e n j u n a b s t r a c t a st h e e x p o n e n t i a lg r o w t ho fb i o l o g i c a ld a t a ,h u n d r e d s o fb i o i n f o r m a t i c s d a ta _ b a s e sh a v eb e e n d e v e l o p e d i nr e c e n t y e a r s h o wt o s y n t h e s i z e t h e s e h e t e r o g e n e o u sa n dc o m p l e xb i 0 1 0 9 i c a l d a t ai si n u r g e n t n e e d o fs o i u t i o ni n b i o i n f o m a t i c s 丘e i d x m li st h es t a n d a r dt e c h n i q u ef o cd a t ar e p r c s e n t a t i o na n d e x c h a n g e o nt h ei n t e m e t i ni i f es c i e n c e ,x m lh a sb e c o m eac r i t e r i o nf o r r e p r e s e n t i n ga n ds t o r i n gc o m p l e xa n dh e t e r o g e n e o u sd a t a m a n yp r o b l e m so c c u r r e d i nd a t at r a n s m i s s i o n 、r e l e a s ea n di n c e 唱f a t i o nc a nb er e s o l v e du s i n gx m l t e c h n i q u e i n t e g r a t i o no fx m l b a s e dh e t e r o g e n e o u sb i o i o g i c a ld a t ai sb e c o m i n gar e s e a r c h f o c u si nt h eb i o i n f o m l a t i c sf i e i d t h i sr e s e a r c hf o c u s e do nt h e d e v e l o p m e n t o fa n i n c e 唱r a t i o ns y s t e m f o r h e t e r o g e n e o u sb i o i n f o r m a t i c sd a t a ,b 【o & x j ,b a s e do nx m la n dj a v at e c h n o i o g i e s b i o & i san e x i b i e 、仃a n s p l a n t a b i e 、h i g h e 陌c i e n ta n ds m a i is y t e m i tc o m b i n e sa r e i a t i o n a ld a t 曲a s em a n a g e m e n ts y s t e m ( r d b m s ) a n dan a t i v ex m ld a t a b a s e ( n x d ) a sa nu n d e r i y i n gd a t a b a s em a n a g e m e n ts y s t e m ,w h i c hi su s e df o rs t o r a g ea n d i n t e g r a t i o no fh e t e m g e n e o u sb i o i n f o m l a t i c sd a t a u s i n gj a v as e r v e rp a g e s ( j s p ) , b 【o & x jc r e a t e saw e bd a t a b a s ef o rd a t ar e m e v i n g b 【o & x jm a yd y n a m i c i y d i s p i a y t h er e t r i e v e dr e s u l t s 访x m lf o r m a t b a s e do nb i o x j ,w ec o n d u c t e d i n t e g r a t i o no n 山eh e t e m g e n e o u sb i o i n f 0 哪a t i c sd a t af r o ms a r s k e yw o r d s :x m l ;j a v a ;h e t e r o g e n e o u sd a t a :b i o i n f o r r n a t i c s ;i n t e g r a t i o n i 【 刘亚利基于x 帆的异构生物信息数据整合系统研究 第l 章引言 i 1 问题的提出 二十世纪九十年代,随着人类基因组计划的实施,生命科学研宄进入了后 基因组时代( 庄永龙等,2 0 0 5 ) 。各种“高通量”生物学实验技术的涌现,使得 生物信息数据呈指数增长,产生了数以百计的生物信息学数据库,新的数据库也 在不断建成( g a l p e r i n ,2 0 0 4 ) 。目前,专门收集生物数据库信息的d b c a t ( d i s c a i a e ta 1 ,2 0 0 0 ) 已收集的各种类型数据库已达5 1 1 个。d n a 序列数据库有g e n b a l l k , e m b l ,d d b j 等,蛋白质序列数据库有s w l s s p r o t ,p i r ,o w l ,n r l 3 d , t r e m b l 等,蛋白质结构数据库有p d b ,n d b ,b i o m a g r e s b a n k ,c c s d 等,与 蛋白质结构有关的数据库还有s c o p ,c a t h ,f s s p ,3 d 2 a l i ,d s s p 等,与基 因组有关的数据库有e s t d b ,o m i m ,g d b ,g s d b 等,文献数据库有m e d i i n e , u n c o v e r 等等。生物信息数据库的蓬勃发展为生物信息学研究带来了极大方便。 然而,人们对生物信息的解释分析远滞后于它的增长速度。目前绝大多数 的数据库只提供了生物系统的某一方面或部分信息,而且经常存在数据“噪音” 只有系统地综合异构生物信息才能更深刻更全面地理解生命现象的本质( h o n 2 e ta 1 ,2 0 0 4 ) 。因此,如何方便、快捷地将各种异构生物信息资源进行整合利用 是生物信息学领域中一个亟待解决的问题。 生物数据类型复杂多样,各个数据库存储格式不统数据描述缺乏语义和 标准,数据源广泛分布在众多的远程数据库,数据源更新不同步,所有这些使得 生物信息的整合变得异常困难。 x m l ( e x t e n s i b l em a r k u pl a n g l l a g e ,可扩展的标记语言) 的出现为这些问 题的解决带来了希望。x m l 是当前互联网上数据表示与交换的标准( 周傲英等, 2 0 0 0 ) 。因为它具有良好的数据存储格式、可扩展性、灵活性、自描述性、易于 网络传输等特性,x m l 在数据和信息管理、数据交换、w e b 应用、电子商务、 应用集成等诸多领域有着重要用途。在生物学领域,x m l 已逐渐成为表示和储 存复杂的生物学数据的一种标准,为异构生物信息数据库之间的信息交互和整合 应用提供了解决方案。 中山大学硕士学位论文 基于x m l 技术开发各种数据规范协议( d a t as p e c m c a t i o np r o t o c 0 1 s ) 、中间 件软件( s o 胁a r em i d d l e w a r e ) 和、v c bs e r v i c e s ,用来支持大规模的异构生物信息交 换、整合和计算,己成为当前生物信息领域的研究热点。 1 2 研究内容 目前实现异构生物信息数据整合的方法主要有两种:数据库联邦( d a t a b a s e f e d e r a t i o n ) 和数据仓库( d a t a w a r e h o u s i n g ) ( h o n ge ta 1 ,2 0 0 4 ) 。采用数据库联邦方 式已开发的整合异构数据的系统有b i o k l e i s l i t i n e t ,d i s c o v e r y l i n k ,s e m e d a 等,这种方式的特点是:提供统一的查询界面,更新及时,但查询分散的数据源 大部分要依赖于后台网络连接的稳定和速度,成为这种方式的瓶颈。而且各数据 源的结构和输出格式不一样,造成解析文件的困难。数据仓库维护的是一个集中 的本地化的数据源,不依赖于远程数据源,具有完全自主化,因而可以更高效的 提供大量异构数据的反复检索。这种方法的主要好处是查询处理性能高,主要缺 点是数据的更新和数据仓库的建立比较费时费力。采用数据仓库方法的系统有 t a m b i s ,s l a d ,b i o m o l q u e s t ,i n t e r p r o ts r s s o u r c e ta n n b u i i d e r ,c h i p i n f o , j x p 4 b 【g i 等,这些系统用来存储生物信息数据的数据库几乎都是大型的关系数 据库,或者考虑到使系统兼具支持x m l 的功能而采用x m l e n a b i e d 数据库,这 使得数据仓库的建立和维护花费代价高,将x m l 以二维关系表的方式存储和提 供检索,也使得查询处理性能有所降低。 本研究的系统设计采用数据仓库的思想,基于x m l 、结合h v a 技术开发一 个异构生物信息整合系统b 【o x j 使之可以方便、快捷地进行异构生物信息的 整合。与上述采用此方法开发的系统有所不同,我们在数据库的架构上进行了大 胆创新。结合关系数据库( r d b m s ) 和n a t i v ex m l 数据库x d ) 来存储和管理从 远程数据源下载到的异构生物信息,充分利用了关系数据库和n a t i v e n l 数据 库的优势,使得b i o x j 的后台数据库能够处理几乎所有形式的数据。我们选 择m y s q l + n e o c o r e 作为数据库服务器,前者支持结构化的查询语言s o l ,后 者支持功能强大的l 查询语言x p a t h 和x q u e r y ,且二者都具有简单、实用、 轻便、灵活、跨平台的特点,使得数据仓库的建立变得容易起来。再利用性能优 异的j s p 技术构建网络数据库,以x m l 形式的半结构化数据进行信息的动态发 刘亚利基于x 札的异构生物信息数据整台系统研究 布。最后,基于b i o & x j ,建立s a r s 异构生物信息整合系统。采用统一的页面 布局,为用户提供友好的检索界面,更高效的检索和更方便灵活的结果查看。 1 3 研究意义 目前,支持异构生物信息计算的数据规范协议、中间件软件和数据整合系统 的发展远远落后于数据的增长速度和生物信息研究的需求。本文基于x m l 、结 合j a v a 技术开发的异构生物信息整合系统,可以方便、快捷地对各种异构生物 信息资源进行整合利用,为实现异构生物信息的存储、检索和传输提供一种新的 解决方案。 中山大学硕士学位论文 第2 章x m l 概述 2 1x m l 简介 l ( e x t e n s i b l em a r k u pl a n g u a g e ,可扩展标记语言) 起源于s g m l ( s t a n d a r dg e n e r a l i z e dm a r k u pl a n g u a g e ,标准通用标记语言) ,是s g m l 的一 个优化子集( 瞿裕忠等,2 0 0 0 ) 。s g m l 是i s o ( 国际标准化组织) 在1 9 8 6 年推 出的一个用来创建标记语言的语言标准。但是复杂性使其难以直接应用到 i n t e m e c 上,而h t m l ( h y p e r ,r e x tm a r k u pl a n g u a g e ,超文本标记语言) 中有限 的标记已越来越难以满足网络时代信息的交互、传输和再现的需求。由此,互联 网联合组织( w 训dw i d ew c bc o n s o r t i u m ,w 3 c ) 于1 9 9 8 年2 月制定了一种新的 标记语言命名为l 。同s g m l 类似,l 是一种与特定领域有关的、具有 语义和结构化等特点的元标记语言。x m l 将文件的内容和外观进行分离,其所具 有的可扩展性及自我描述特性,使得w e b 文件可以在全球信息网或企业间的应 用程序中自动传输、处理及储存,不同厂商的电子商品目录可以共享,信息的搜 索变得更为准确快速,不同系统问的信息流通更加顺畅, 2 1 1x m l 的特点 x m l 以其良好的数据存储格式、可扩展性、高度结构化、便于网络传输等 优势,将会在许多领域一展身手,便于软件开发人员和内容创作者在网页上组织 信息,不仅能满足不断增长的网络应用需求,也能确保在通过网络进行交互合作 时,具有良好的可靠性与互操作性。总结起来,x m l 具有以下五个主要特点: ( 1 ) 可扩展性v i l 是一种元标记语言,用户可以创建自己的标记来定制 讧l 文档以满足特定领域的需求。 ( 2 ) 灵活性x m l 提供了一种结构化的数据表示方式,使得用户界面分离 于结构化数据。在x m l 中,可以使用x s l ( e x t e n s i b l es 哆l e s h e e cl a n g u a g e ,可 扩展样式表语言) 和c s s ( c a s c a d i n gs t y i es h e e t s ,层叠样式表) 将数据显示在 浏览器中。因此可以实现一个数据多种显示样式。 ( 3 ) 自描述性“l 的可扩展性允许定义具有语义性强的标记,而且x m l 文档具有良好的层次结构,使人类和机器都能更容易地阅读文档。 4 刘亚利基于x m l 的异构生物信息数据整合系统研究 ( 4 ) 跨平台性创建和处理x m l 文档与具体的编程语言、操作系统、计 算平台等无关。任何计算平台使用文本编辑器便可以开发x m l 文档。另外v n l 采用u n i c o d e 字符集,支持世界上几乎所有的主要语言,并且不同语言的文本可 以在同一文档中混合使用,x m l 兼容的软件能处理这些语言的任何组合。l 的跨平台特性和自描述性使得它成为了一种在不同的数据源之间进行数据交换 的公共标准( 栗松涛,1 9 9 9 ) , ( 5 ) 直接的数据处理x m l 提供了一个直接处理w 曲数据的通用方法。 订l 文档中的数据可以被任何能够对x m l 数据进行解析的应用所提取、分析、 处理并以所需格式显示,处理数据的方式真正做到了独立于应用系统,并且这些 数据能够重用。这样可使大部分数据处理在客户端完成,实现了数据的分布式处 理,从而降低了服务器的负担( 李薇等,1 9 9 9 ) 。 2 1 2x m l 文档 一篇x m l 文档就是一篇用x m l 标记语言,按照) ( m l 的语法规则书写的 包含数据的文本文件。元素( e i e m e n t ) 是组成x m l 文档的最小单位,一个元素 包含开始和结束标签( t a g ) 以及其中的内容。元素可以有若干个属性( a t t r i b u t c ) 并可以包含零个或多个子元素。所有x m l 文档的第一行都有一个札声明。 这个声明表示这个文档是一个x m l 文档,它遵循的是那个x m l 版本的规范。 x m l 文档有两种,一种是满足x m l 基本语法规则但不包含d t d 的x m l 文档,称为良构的“l 文档( w e l l f o r n l e d ) ;一种是带有d t d 的文档,如果这 类文档的语法合乎d t d 的定义和规定,就称为合法的x m l 文档。一个合法的 m 。文档一定是良构的x m l 文档,反过来则不一定。所以,一般不提倡前一 种做法。一个合法的x m l 文档其示例如下: f a b i oa r c i n i e g a s 划a u t h o r ( p r i c e 8 8 0 0 钟r i c e t 柏o o k 中山大学硕士学位论文 x m l 文档的d t d ( d o c u m e n tt y p ed e c i a r a t i o n ,文档类型定义) 定义了该 文档中各元素之间的关系及存放结构的语法规则( e c k s t e i n 2 0 0 1 ) 。一篇带有 d t d 的x m l 文档中的d t d 部分既可以是显式地写在该x m l 文档的头部,真 正的数据部分之前,也可以是通过一个链接指向某一个包含该d t d 定义的文件。 上述v i l 文档即采用后一种方式,其d t d 文件如下: 当某种d t d 经过多次修改变得比较完善了以后,就可以作为一种标准确定 下来。以后只需要在这种类型的文档中插入一个指向此d t d 的链接即可。我们 就拥有了一种新的格式的公共的数据文档。d t d 使得x m l 数据具有自解释性, 这使得它非常适合数据交换( 毛勇等,1 9 9 9 ) 。 2 2x m l 的相关规范 x m l 不是一项独立的技术,与x m l 相关的重要技术规范包括x m l s c h e m a 、x s l ( 样式表语言) 、x p a t h ( x m l 路径语言) 、x q u e 叫( x m l 查询语 言) 、d o m ( 文档对象模型) 等。 2 2 1x m ls c h e m a 由于d t d 沿用s g m l 的s c h e m a 机制,有自己的特殊语法,需要专用的解 析器,且存在提供数据类型有限及不支持名域等缺陷,因此有必要为x m l 建立 一个更全面的有效性约束机制,使x m l 处理器更好地进行有效性检验。这样就 产生了v 【ls c h e m al a n g u a g e 。v i ls c h 。m a 标准是一种描述信息结构的模型, 用来定义x m l 文档的文本结构和数据类型等) ( m l 文件描述规则,且规范了文 档中的标记和文本可能的组合形式。它不仅包括了d t d 能实现的所有功能,而 且它本身就是规范的x m l 文档。最重要的是,它能弥补d t d 的不足,提供一 系列新特色,如:( 1 ) 丰富的数据类型;( 2 ) 可以有用户自定义的数据类型;( 3 ) 属性分组:( 4 ) 原型可以更新;( 5 ) 名域的支持等( 栗松涛,1 9 9 9 ;吴敏等,2 0 0 1 ) 。 2 2 2x s 【, 6 刘亚利基于x 札的异构生物信息数据整合系统研究 x m l 的一个最重要的特性是把内容和显示格式分开。l 文档本身并没有 关于格式方面的信息,为文档提供“l 格式信息的是样式表。适用于文档的样 式表语言有x s l ( e x t e n s i b i es t y l e s h e e tl a n g u a g e 可扩展的样式表语言) 和c s s ( c a s c a d i n gs t y l es h e e t ,层叠样式表) 。c s s 浯言既可以用于h t m l 文档也可以 用于x m l 文档;而x s l 是专为x m l 设计的样式表语言,它直接架构在x m l 语法之上,共分为两部分:第一部分x s l t 负责将) ( m l 文档转换为另一种格式 第二部分x s l f o 提供大量的格式化命令,可用来配合印刷或屏幕显像,精确 地设定外观样式。v i l 优势在于它可以用于转换,一个x m l 文档可以根据不 同的表示要求有不同的表示形式。显示的媒介不仅限于浏览器还可以是印在纸上 的书和报告等( h t t p :,、v w w 3 o 唱t r x s l ,1 9 9 9 ) 。 2 2 3x p a t h x p a c h 是为x m i ,定义的路径查询语言,它提供在文档中选择结点子集的简 单语法,识别x m l 文档的某个部分,还提供了操纵字符串、数字和布尔值的函 数。x p a t h 将v 【l 文档看成带有结点的树状结构,利用x p a c h ,可以在x m l 文档的树状结构中找到任意的结点。 x p a t h 利用位置路径来为x m l 文档的不同部分进行寻址,位置路径类似于 操作系统的目录,提供了指令来定位到文档中任何地方。位置路径分为绝对位置 和相对位置,绝对位置指向文档结构中某个特定的位置,相对位置则指向文档中 某个依赖起始位置而定的位置。x p a t h 的数据模型包含了七种可能的结点类型: 根、元素、属性、命名空间、处理指令、批注与文字。利用x p a t h ,可以获取文 档中任何位置、任何结点的名字或内容值( h t p :w w w w 3 o r g t r x p a t h ,1 9 9 9 ) 。 2 2 4 x q u e r y 随着存储在x m l 文档中的信息量的增长,能有效并且高效地存取x m l 的 信息相应的也变得越来越重要。要做到这一点,必须要有一个让我们能够准确地 获得所需的信息、更新x m l 数据源中数据的可表达的查询语言。x q u e 呵正是 这样的语言。 x q u e r y 是万维网联盟( w 3 c ) 正在开发的一种查询语言规范,它设计用来从 x m l 格式的文档中获取数据。w 3 c 于2 0 0 5 年4 月4 日发布了x q u e r y 工作草 案的最新版本x q u e r y1 0 ,它是x p a t h2 o 的扩展。该版本使查询变得简洁、易 中山大学硕士学位论文 于理解,而且能够非常灵活地查询大量的x m l 信息源。每一个x q u e r y 查询包 括一个或多个查洵表达式。常用的x q u e r y 语法有:路径表达式( p a t h e x p r e s s i o n ) , 算术表达式与布尔表达式,f l w r 表达式,条件表达式( c o n d i t i o n a le x p r e s s i o n ) , 元素构造器( e l e m e n tc o n s t n l c t o r ) ,以及函数调用( f u n c t i o nc a l i ) 。f l w r 是 x q u e r y 最为有特色且是最为重要的的语法类型之一。它们看上去和s q l 的s e k c t 语句类似,并且具有相似的功能。x q u e r y 提供了从自然) ( m l 数据库( n a t i v ex m l d a t a b a s e ,n x d ) 以及关系型数据库中轻松而有效地提取信息的机制 ( h t t p :w w w w 3 o r g 厂r r x q u e r y ,2 0 0 5 ) 。 2 2 5d o m d o m ( d o c u m e n to b j e c tm o d e l ,文档对象模型) x m l 文档的一种解析机制。 它实际上是h t m l 文档以及x m l 文档的应用程序接口。w 3 c 提供了精确的、 语言无关、平台无关的d o m 接口规范可以用任何语言来实现d o m 接口 ( w “l i a m ,2 0 0 0 ) 。d o m 提供了h t m l 或x m l 文件的逻辑的、树状的架构, 给出了访问和处理文档的方法。利用d o m ,开发人员可以动态地创建文档,遍 历文档结构,增加、修改或删除元素和文档内容,改变文档的显示方式等等( 傅 海英等,2 0 0 3 ) 。 2 3 x m l 与数据库技术的结合 关系数据库是目前各类数据库中最重要、最流行的数据库,它应用数学方法 来处理数据库数据,是目前使用最为广泛的数据库系统。2 0 世纪7 0 年代以后开 发的数据库管理系统产品几乎都是基于关系的。在数据库发展的历史上最重要 的成就是关系模型。 9 0 年代以来,i n t e m e t 和w e b 的飞速发展使人类社会的信息量以指数膨胀, 而对信息管理和信息交换的需求更是空前强烈和迫切。这给数据库技术提出了一 个必须面对的重要问题:即如何有效地存储和管理w e b 上以指数增长着的数据 ( 文档) ,使它们既能被高效地操作和维护,又能在w e b 这个平台上方便地表示 和交换。l 与数据库技术相结合为这一问题带来了解决方案。 x m l 和数据库技术管理数据都采用了层次结构、父子关系的概念。肛, 能管理非常复杂、层次深的关系,而关系数据库处理复杂关系的能力比较差,两 刘亚利基于x 札的异构生物信息数据整合系统研究 者提供了相似的查询和操纵数据的能力,x m l 更加灵活强大,能处理半结构、 非结构的数据,而关系数据库善于处理结构化数据。x m l 缺少数据库的一些功 能比如有效的存储组织、索引结构、安全性、事务处理、数据完整性、触发器、 多用户机制等。因此,将x m l 与数据库技术结合就成为一个必然的趋势。 ) ( m l 数据库的模式有两种:一种是内部以x m l 格式存储数据的数据库,称 为“n a t i v e l 数据库”;另一种是能存储和处理x m l 文件,但内部不是以“l 格式存储的数据库,称为“x m l e n a b i e d 数据库”。n a t i v e x m l 数据库是以x m l 文档作为其基本( 逻辑) 存储单位的数据库( 李亚伟等,2 0 0 4 ) 。这些数据库刨 建一些索引,并将这些索引与x m l 文档一起存到资源库中以支持快速搜索资 源库来查找包含特定信息的文档。目前已经有一些n a t i v e x m l 数据库开始在实际 应用中受到重视,较具代表性的有:e x c e l o n 的e x t e n s i b i ei n f o m l a t i o ns e r v e r 、 s o r w a r ea g 的t a m i n ox m l s e r v e r 、q u i l o g i c 的s q l 压m l i m d b 、 i p e d o 的 i p e d ox m l d a t a _ b a s e 和n e o c o r e 的n e o c o r e x m s 等。x m l e n a b l e d 数据库处理 x m l 的重任由关系数据库和面向对象数据库担任,这些数据库在收到x m l 后 将其分解为字段并按通常的方式存储它们,当检索x m l 时,这些字段再被拼接 成原状。比较成功的x m l - c n a b l e d 数据库有l o t l i s 公司的d o m i n o 数据库和设在麻 省r e a d i n g 的x y v i s i o n 企业解决方案公司研制的一套内容管理系统c o n t e n t v i l 等( 黄晨,2 0 0 3 ) 。当前流行的数据库厂商也纷纷加入了x m l 功能。努力成为x m l 兼容的数据库( l e n a b l e d 数据库) ,如o r a c i e ( h 仕p :w w w o r a c l e c o “) 、r b m ( h t t p :w w w 3 0 6 1 b m c o m s o f t w a r “d a t “) 、m i c r o s o f t ( w w w m i c r o s o r c o m s q i d e f a u i t a s p ) 等。 2 4 x m l 与j a v a 技术的结合 j a v a 是可移植的代码,x m l 是可移植的数据( m c i a u 曲i i n ,2 0 0 1 ) 。x m l 与j a v a 技术有许多互补和协作的特性,两者的结合将形成一个强大的数据共享 和处理的平台。业界普遍认为x m l 与j a v a 是最理想的组台。一般来说,l 有助于独立平台、易提取信息的文档和数据;而j a v a 有助于独立于平台、易于 处理的面向对象的应用软件解决方案。在w e b 应用中,j a v a 使浏览器工作时就 象在通用的应用平台上,而平台与平台之间是相互独立的。在h t m l 语言中, 中山大学硕士学位论文 由于固定的t a g 集合和h t m l 语义上的贫瘠,使得j a v a 的应用受到了极大的限 制。而且,由于在h t m l 中不同的语义无法表现,故数据元中丰富的信息得不 到一种统一的表示,但v t l 却能很好地解决这个问题( 陶以政等,2 0 0 4 ) 。 j a v a 是一种简单的、面向对象的、分布式的、解释的、健壮的、安全的、 结构中立的、可移植的、性能优异的、多线程的、动态的语言( h o r t o n 。2 0 0 i ) 。 j a v a 语言提供了对l 强有力的支持提供了一系列a p i 和技术用于支持开发 x m i ,包括:( 1 ) j a x p ( j a v aa p if o r ) ( 1 lp r o c e s s i n g ) 一用于处理l 的a p i ( 2 ) t n 气x ( t r a n s f o m l a t i o n a p i f o r x m l ) 一用于x m l 的转换a p 【( 3 ) j d o m ( j a v a d a t ao b j e c tm o d e l ) 一扩展了标准文档对象模块( d o m ) 从而可以使用j a v a 对 象操纵) a l 文档 ( 4 ) j a x b ( j a v a a r c h i t c c t u r ef o rd a t ab i n d i n g ) 一用于x m l 绑定的j a v a 体系结构。应用开发者能够用j a v a 通过这些接口来获得和操作x m l 构件,从而使得j a v a 平台成为处理v i l 文档的普遍存在的运行环境。 j s p ( j a v a s e r v e rp a g e s ) 和s e r v l e t 是用于生成动态w e b 内容的两种强大的 j a v a 技术。s e r v i e t 和j s p 可以与任何其他执行业务逻辑的标准如e j b ( e n t e r pr i s e j a v a b e a n s ) 、j d b c ( j a v ad a t a b a s ec o n n e c t i v i t y ) 等交互。另外j s p 可以更好地 将数据与显示分离开,它可以根据请求的性质将生成的结果重定向到适当的j s p 页面。但是j s p s e r v i e t 技术在格式化输出方面提供的功能非常有限。而在格式 化输出方面是x m l 一大优势。可以用x m l 和x s l t 将s e r v i e t 的输出格式化为 一个h t m l 或) ( ! v i l 或文本文档等其他格式。x m l 格式统一的语法使得j s p 更 容易学习和使用。可以认为,l 使得j a v a 真正发挥了长处。 2 5 x m l 的应用现状 x m l 的应用非常广泛,已经渗透到了互联网的各个角落;x m l 的应用领域 包括:( 1 ) 设计标记语言:( 2 ) 媒体无关的发布:( 3 ) 智能代理和本地计算;( 4 ) 精确搜索:( 5 ) 文件保值;( 6 ) 数据交换和数据整合( 张炯等,2 0 0 3 ) 。例如, 应用于科研教育领域的c m l ( c h e m i c a im a r k u pl a n g u a g e ) 和m a t hm l ( m a t l l e m a t i c a l m a d c u pl a n g u a g e ) ;无线通讯的w m l ( w i r e l e s sm a f k u p l a n g u a g e ) :网络出版中,面向w e b 图形的v m l ( v e c t o rm a r k u pl a n g u a g e ) 、 面向多媒体的s m r l ( s y n c h r o n i z e dm u i t i m e d i a 【n t e g r a t i o nl a n g u a g 。) 、面向电子 刘亚利基于x m l 的异构生物信息数据整合系统研究 书和电子报纸的0 e b ( o p e ne b 0 0 ks t m c c l l r es p e c i n c a t i o n ) :医疗领域的通用x m l 电子病例交换格式m m l ( m e d i c a lm a r k u pl a n g u a g e ) 等,除此以外,x m l 还被 广泛应用于电子商务、政府文档、报表、司法、各种专业集成系统和数字化签名 等等。 2 6x m l 在生命科学领域的应用 l 的优良特性和广泛应用引起了生物信息学家和计算机学家的共同关 注,正如所言“可扩展的标记语言 e x t e n s i b i em a r k u pl a n g u a g e ( x m l ) 】犒成为 生物信息学的标准计算机语言”( n e u m a i l f l ,1 9 9 8 ) 。采用x m l 格式来表达生物 数据,能够解决生物数据传输、发布以及整合中的大部分问题,是当前生物信息 领域研究的热点和重点。 将v i l 应用于生物信息学,具有以下优点( a c h a r de ta i 2 0 0 l :g i l m o u r , 2 0 0 0 ) : ( 1 ) 易于定义复杂数据类型:使用x m l 可以定义不同型的复杂生物信息学 数据类型,无论是文件类型定义d t d 或者s c h e m a 都可以定义不同的复杂的数据 类型。x m ls c h e m a 的特性更适用于生物信息学的应用。 ( 2 ) v i l 的灵便性:使得容易修改各种复杂的数据类型,x m l 的数据与数 据类型定义的分离性,使得增加新的元素或者属性,只要在d t d 或者是s c h e m a 文件中进行修改,而不需要修改数据本身。 ( 3 ) 数据交换:l 可以成为不同的软件之间交换数据的标准,生物信息 学的分析方法和新软件层出不穷,通常一个分析方法会使用另一个分析方法的结 果作为输入。 ( 4 ) 数据整合:生物信息学数据库采用一套生物信息学的v i l 定义规则, 进行跨数据库查询整合查向后的结果,将变得更加方便。 ( 5 ) 数据互联:x m l 的x p o i n t e r ( h 即:w w w w 3 o 唱厂r r x p a t h ) 和x l i n k ( w w w 3 0 r g 厂r i v x l i n k n 技术可以提供更好的互联技术,使得不同对象之间的相互 夏杂引用和连接变得更加容易。一个元素可能对应多个引用和连接。 ( 6 ) 更容易与数据库融合:数据库可以直接使用x m l 类型的数据, o r a c l e 8 i 以上版本、d b 2 u d bv 8 以上版本和s q ls e r v e r 2 0 0 0 都提供了内嵌的 中山大学硕士学位论文 x m l 支持。 ( 7 ) ) 。l 是一个开放的、通用性的语言,不依赖于任何操作系统。 近年来,国外的生物信息研究机构开始采用x m l 作为数据格式,用来描述 生物信息,定义了各种数据规范协议。如: 用于序列信息和注释功能:a g a v e ,b s m l ,b 【o m l 以及d a s ,d d b j x m l x e m b l ,g a m e ,m a x m l ,r n a m l ,t i g r x m l 等; 用于蛋白质领域:p s a m l ,p r o m l ,p r o x i m l ,s p m l 等; 用于序列分析:b l a s t x m l ,b t k m l p i s e p h y i o m l 等; 用于生理学研究:c m l ,m o d l ,s b m l 等; 用于基因表达:g e m l ,e x p r e s s ml ,m a g e m l 等; 用于分类学:d a m l g o ,s t a r d o m 等。 其中,比较成功的例子有( a c h a r de ta 1 ,2 0 0 l :h o n 2e ta 1 ,2 0 0 4 ) : ( 1 ) t h eb i o i n f o r n l a t i cs e q u e n c em a 向pl a n g u a g e ( b s m l ) :该d t d 用来规 范对d n a 、r n a 和蛋白质序列以及它们的图像特征的注解( a c h a r de ta 1 ,2 0 0 1 ) 。 我们发现d t d 定义的文档结构与e m b l g e n e b a n “d d b j 数据库的信息结构非常 相似( h t t p :w w e b i a c u k e m b l h t m i ;h t t p :w w w n c b i n i m n i h g 。v :h t t p :,w w d d b j n i g a c j p ) 。 ( 2 ) t h eb i o p o l y m e r m a r k u pl a n g u a g e ( b i o m l ) :该方法与b s m l 有点不同。 如作者所言( f e n y d ,1 9 9 9 ) ,b i o m l 的目标足“a l i o wt h ee x p r e 蟠i o no fc o m p l e x a n n o t a t i o nf o rp r o t e i na n dn u c l e o t i d es e q u e n c ei n f b r n l a t i o n b i o m lw a sd e s i g n e dt o m i m i ct h eh i e r a r c h i c a ls t n i c n j r eo f a 1 i v i n go r g a n i s m ”。该d t d 在一定程度上定义了 不同来源信息的数据整合的标准。 ( 3 ) d i s t m u

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论