（计算机应用技术专业论文）基于xml的dna异构数据整合的研究.pdf

上传人：扣*** IP属地：宁夏上传时间：2019-12-13 格式：PDF 页数：46 大小：2.35MB 积分：12 举报 版权申诉

已阅读5页，还剩41页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

= ：硕士学位论文 m a s t e r st h e s l s 摘要 d n a 、r n a 及蛋白质数据，随人类基因组计划( 简称为h g p ) 在世界范围内的广泛开展而大量产生。人类基因组研究中一项必不可少的内容就是上述数据的分析与研究。但由于上述数据的数据源各不相同，如何从各异构数据库中较为高效的查询到分析研究工作所需要的数据信息，是d n a 、r n a 及蛋白质数据分析处理研究过程中所必须解决的一个问题。且随着后基因组时代的来临，系统生物学开始兴起，以整合的系统的观点分析生物学数据成为必然。本文研究一种基于x m l 的d n a 数据联邦模式集成方法，并对此方案进行了具体实施基于x m l 的d n a 数据联邦模式集成系统。具体内容主要包括：分析了d n a 数据整合问题巾的语法异构问题和语义异构问题，利用x m l 强大的数据描述能力，易于表达结构化数据及半结构化数据，特别适合用来做数据集成的中间格式等特点，解决了d n a 数据语法异构问题。针对d n a 数据的语义异构所带来的集成问题，提出了基于联邦数据库模式、基于x m l 数据集成技术的d n a 数据集成方法。具体包括：设计基于x m l 和联邦数据库模式的元数据模型，设计满足d n a 数据特点的联邦数据字典；设计联邦查询处理机制，对各类型的语义异构数据进行集成，解决d n a 数据的语义异构问题。本文最后给出了于x m l 的d n a 数据联邦数据库模式集成系统的设计思路，具体包括：系统的总体设计、系统的u i 设计、系统的关键技术，并给出了基于 x m l 的d n a 数据联邦数据库模式集成原型系统。关键词：d n a ；x m l ；联邦数据库模式；模式集成；语义异构；硕士学位论文 m a s t e r 。st h e s i s a b s t r a c t b e c a u s et h eh u m a ng e n o m ep r o j e c t ( h g pf o rs h o r t ) i nt h ew o r l dh a v em a d eg r e a t e f f o r t st od e v e l o p ，al a r g en u m b e ro fd n a ，r n aa n dp r o t e i nd a t ah a sb e e np r o d u c e d i t i sa l le s s e n t i a lt od oa n a l y s i sa n dr e s e a r c ho nt h ed a t am e n t i o n e da b o v e h o w e v e r , d u et o t h ea b o v e m e n t i o n e dd a t ah a sv a r i o u ss o u r c e s ，o n ep r o b l e mi nt h ed n a p r o c e s s i n ga n d a n a l y s i n gn e e db es o l v e di sh o wt oh i g h l y - e f f i c i e n tq u e r yt h ed a t ai n f o r m a t i o nt h e r e s e a r c hn e e d w i t l lt h ep o s t - g e n o m ee r ac o m i n g ，s y s t e m sb i o l o g yi st or i s ea n d d e v e l o p ，i ti si n e v i t a b l et oa n a l y s e sb i o l o g i c a ld a t aw i mi n t e g r a t e da n ds y s t e m a t i c p e r s p e c t i v e a ne f f e c t i v ep r o g r a m m ef o rh e t e r o g e n e o u sd n ad a t ai n t e g r a t i o n - - d n ad a t a f e d e r a ls c h e m ai n t e g r a t e db a s e do nx m lh a sb e e nr e s e a r c h e di nt h i sp a p e r , a n da sw e l l a st h es p e c i f i ci m p l e m e n t a t i o no ft h i sp r o g r a m - - d n ad a t af e d e r a ls c h e m ai n t e g r a t e d s y s t e mh a sb e e ns t u d i e d t h es p e c i f i cc o n t e n t si n c l u d i n g ：a l la n a l y s i so fd n ad a t ai n t e g r a t i o ni s s u e si nt h e s y n t a xi s o m e r i s m a n ds e m a n t i c si s o m e r i s m p r o b l e m s ，u s et h ep o w e r f u lc a p a c i t yo fx m l t od e s c r i b ed a t a ，e a s yt oe x p r e s ss t r u c t u r e dd a t aa n ds e m i s t r u c t u r e dd a t a ，i np a r t i c u l a r , u s e df o rd a t ai n t e g r a t i o ni n t e r m e d i a t ef o r m a t ，s u c ha st h ec h a r a c t e r i s t i c so ft h ed n a s o l v et h ep r o b l e mo fd a t as y n t a xi s o m e r i s m a i ma tt h ei n t e g r a t e dp r o b l e mb r o u g h tf r o mt h es e m a n t i ci s o m e r i s mo fd n ad a t a ，a d a t ai n t e g r a t e dm e t h o db a s e do nf e d e r a ld a t a b a s es c h e m aa n dx m l b a s e dd a t ai n t e g r a t e d t e c h n i ch a sb e e np r o p s e d i n c l u d i n gs p e c i f i ca s p e c t s ：t h ed e s i g no fm e t a d a t am o d e l b a s e do nx m la n df e d e r a ld a t a b a s es c h e m a ，d e s i g n e dt h ef e d e r a ld a t ad i c t i o n a r yf o r m e e t i n gt h ed n ad a t ac h a r a c t e r i s t i c s ；d e s i g n e dt od e a lw i t ht h ef e d e r a li n q u i r y m e c h a n i s mt od e a lw i t hc o m p l e t e l yd i f f e r e n tt y p e so fs e m a n t i ci s o m e r i s ma n dx m ld a t a i n t e g r a t i o n ，t or e s o l v es e m a n t i c sh e t e r o g e n e o u so fd n a d a t a f i n a l l y , t h ep a p e rd e s i g n e dx m l b a s e dd n a d a t ai n t e g r a t e df e d e r a ld a t a b a s e s c h e m as y s t e m ，i n c l u d i n gs p e c i f i ca s p e c t s ：s y s t e md e s i g n , s y s t e mu id e s i g n ，t h ek e y t e c h n i co ft h es y s t e m s a n dg i v et h ep r o t o t y p eo fx m l b a s e dd n ad a t ai n t e g r a t e d f e d e r a ld a t a b a s es c h e m as y s t e m k e y w o r d s ：d n a ；x m l , f e d e r a l d a t a b a s es c h e m a ；s c h e m ai n t e g r a t i o n ； s e m a n t i ci s o m e r i s m 硕士学位论文 m a s t e r st h e s i $ 华中师范大学学位论文原创性声明和使用授权说明原创性声明本人郑重声明：所呈交的学位论文，是本人在导师指导下，独立进行研究工作所取得的研究成果。除文中已经标明引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体，均己在文中以明确方式标明。本声明的法律结果由本人承担。作者签名：勺差吼叼年6 月c 7 r 日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，即：学校有权保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权华中师范大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同意华中师范大学可以用不同方式在不同媒体上发表、传播学位论文的全部或部分内容。作者签名：吩殇日期。尹6 月7 日导师签日期：本人已经认真阅读“c a l i s 高校学位论文全文数据库发布章程”，同意将本人的学位论文提交“c a l i s 高校学位论文全文数据库中全文发布，并可按“章程” 中的规定享受相关权益。作者签名：日期：侈羞 d 7 年6 月 f 硕士学位论文 m a s t e r st h e s i s 第一章绪论 d n a 、r n a 及蛋白质的数据，因人类基因组计划( 简称为h g p ) 这一计划在世界范围内的大力开展而大量产生。因为生命活动本质的揭示过程实际上是利用上述数据破译遗传密码的过程，于是可说上述数据的分析研究工作促进了以揭示生命活动过程本质为目的的生物信息科学的发展【l 】o 但由于上述数据的数据源各不相同，即上述数据是存放在各个异构数据库中的，如何从各个异构的数据库中较为高效的查询到分析研究工作所需要的数据信息，是d n a 、r n a 及蛋白质数据分析处理研究过程中所必须解决的一个问题，也是上述数据处理中的一个关键问题2 1 。 1 1 研究背景目前生物学的研究工作已经进入到了后基因的时代，后基凶时代的典型代表之一就是生物数据的大量涌现、生物数据存储方式的各异、生物数据库发展迅速。。但是，数据并不等价于信息，数据并不等价于知识。如何从海量数据中挖掘出有用的信息，进而对信息展开研究，得到有用的知识，使得这些数据真正发挥自己的作用，是研究生物学数据的具体含义所在。当前世界上权威的三个生物数据库分别是：e m b l 、d d b j 和g e n b a n k 【3 1 。这三个数据库中的数据是不断更新不断补充的，不断的从研究专家、基因序列中心、专利局等添加新数据入库。并不断的进行数据间的共享和交流。但是这三大主流数据库并没有使用统一的标准规范，存在着d n a 数据的异构问题。当前d n a 数据格式分成e m b l 风格和g e n b a n k 风格两种【4 】。两种风格的具体对照如表1 一l ：硕士学位论文 m a s t e r st t l e s i s 表1 1e m b l 风格和g e n b a n k 风格的具体对照 e 阮嗽别标记g 臼也a i 吐d 只别字意义 dl o c u s 标识字符串及其简短描述 a ca e c e s s l 0 n 唯一的提取号 d e d e f n 、i i t l 0 n 简单的描述 d t 建立日期 k wk e y w o r d s 关键字 r nr e f e r e n c e 引文编号特l 序列结束标志。空行标记格式的不同导致数据存储、交流过程中的失真。建立共同遵守的标准规范，用这一共同的标准规范来描述信息条目、内容及格式，可以保证三大主流数据库间信息的同步。由此，数据整合技术被应用至生物数据库技术中。数据整合主要完成对各异构数据的统一标识、统一存储、统一管理的工作。数据整合的根本任务是实现用户对多源异构数据的透明访问、实时访问。可以说，解决d n a 数据的异构问题i 实现d n a 数据的整合，是进行生物信息学方面研究的关键问题所在。 1 2d n a 数据整合的任务所谓数据整合，是说不同环境下的异构数据的一系列方面的整合。这里，不同环境下，是说异构数据有着不同的网络环境、不同的软硬件环境、不同的操作系统环境、不同的数据库管理系统、不同的应用软件。一系列方面，是说数据模型方面、数据库模式方面、查询语言方面、事务处理的不同协议方面、并发性控制与数据库状态的一致性维护方面等方面【5 】。现阶段，数据整合的任务从总体上说来是： ( 1 ) 数据整合技术的根本任务是将不同数据源的异构性屏蔽起来，屏蔽不同数据源的异构性，进而为用户方提供统一的数据浏览视图。 ( 2 ) 数据整合的目的是为了数据查询，数据整合的另一个根本任务是数据整合的结果要确保数据整合后用户提交的查询数据库能够为其查询出e 确的结果并 2 硕士学位论文 m a s t e r st h e s i s 返回。实现数据整合任务的最重要的一点，也是最大的技术难题就是要解决d n a 数据的异构问题【6 l 。d n a 数据的异构问题可以分为两个方面：d n a 数据的语法异构问题和d n a 数据的语义异构问题【7 j 。d n a 数据的语法异构是说，d n a 数据的数据类型不同所带来的异构。d n a 数据的数据类型有：结构化数据( 数据库) 类型、半结构化数据( h t m l 、x m l ) 类型、非结构化数据( 如文本、图片) 的数据类型。 d n a 数据的语义异构是说：d n a 数据的数据描述标识、d n a 数据的数据描述模式的不同所带来的异构。文档形式的描述是d n a 数据通常常用的描述形式，也并非有一个通用的结构。以文档形式来描述d n a 数据的主要理由是：d n a 数据库中，d n a 数据的描述一般由以下几个方面组成：原始的序列数据、上述序列的生物学注释。生物学注释中包括了序列数据的很多重要信息的注释。包括：数据来源、数据功能、数据特性。这些注释很难用固定的模式来描述，所以这些注释多半以以文档形式来描述，也就导致了d n a 数据多半以文档形式来描述。 d n a 数据整合就是要完成上述的两个关键问题，并解决上述整合过程中的关键技术难题，解决d n a 数据的异构问题。很好的实现d n a 异构数据的数据整合问题。 x m l 语言是一种可扩展的标识性语言，它是现阶段解决数据库语法异构问题的一种有效的技术，使用x m l 可以很大程度的解决d n a 数据的语法异构，然而语义异构问题仍然是重点和难点。 1 3d n a 数据语义异构研究现状现阶段，国内外较为通用的d n a 数据集成过程中如何消除数据间的语义异构的方法有如下几种： ( 1 ) 采用核心元数据的方式【8 l 所谓核心元数据，是说元数据内容的一个最小子集。元数据的作用是为不同表现形式的信息单元及资源集合提供统一规范的描述方法。而核心元数据的作用是用来描述生物信息的最为核心最为一般的信息，以便实现对生物信息资源的国际化统一化的集成。元数据可通俗的解释为是一种数据的数据。元数据是一种用来描述数据的结硕士学位论文 m a s t e r st h e s i s 构、数据的内容、数据的编码、数据的索引、等等各个方面的数据。生物数据统一描述和管理的一种较为常用的方法就是元数据技术的应用。生物信息领域中的很多研究机构还为此建立了一些元数据的标准，具体包括：r s l p 资源集合描述标准、海洋生物元数据标准、柏林元数据标准、中国科学院科学数据库核心元数据标准1 9 l 、动物多样性元数据标准、等等。但上述的元数据标准只是本小专业范围内的标准，对于整个生物信息资源并不具有全局性。于是，很多机构和专家给出了一个核心元数据的概念，即是采用一个统一的标准来表征、描述不同地域、不同领域的生物信息资源，为全球的生物信息资源建立起一个基础的、核心的数据描述标准，这一标准中涵盖了元数据的最一般的表征，涵盖了生物数据中最为核心最后抽象的描述，为全球所有的生物数据建立起一个最后普遍的表征方案。 ( 2 ) 生物信息置标语言的利用【1 0 j 建立本研究领域内的统一的数据描述标准，可解决数据整合方面的语义异构问题。现阶段，很多可适用于生物数据的生物信息置标语言都被推出来。很多的研究组织和研究机构多针对这一问题展开研究。这些研究组织和研究机构已经发布、实施了多个标准和规范，这些标准和规范包括：遗传表达置标语言( g e m l ) 、微序列和基因表达( m a g e ) 、微序列置标语言0 v i a m l ) 、蛋白质扩展置标语言( p r o x m l ) 、微序列基因表达数据库 ( m g e d ) 、生物信息学序列置标语言( b s m l ) 。使用上述置标语言可方便研究人员、基因组、生物体数据库间的信息交换。但有个问题也随之产生：多个研究机构会建议多个数据描述的标准，进而形成多个置标语言。而生物学研究往往并不是只是局限于某一方面的研究，如果不同的基因不同的代谢过程使用的数据描述标准不相同，就很难完成生物学研究过程中的很多要求要求。比如，例如研究蛋白质就会用到d n a 和r n a 的数据。如果我们只是有得到蛋白质数据的置标语言而没有d n a 、r n a 的置标语言，上述三种成分的置标语言不同意，就不能解决生物数据的语义异构问题。 ( 3 ) 对生物信息资源进行分类和编码l l l j 信息资源，即文献资源、数据资料及其他各种介质或形式所传播的信息的总和，如文件、信息集、数据库、等等。所谓生物信息资源，即是说生物学范畴内的各种介质或形式从传播的信息的总和。现代社会的各个行业的发展都离不丌本行业信息资源的丌发利用及共享，丌发利用适合于本行业的信息资源已经成为各个行业进一步发展的中心任务和核心目标，生物学技术领域办然。信息资源的= j l ： 4 硕士学位论文 m a s t e r st h e s i s 发利用和共享是是一个涉及到多个方面的复杂过程。这一过程包括：对多种类型的信息进行采集、处理，将采集处理后的多种类型的信息存储起来，在多种类型的信息间进行信息交换，共享多种类型信息间的信息数据，将多种类型的信息用于具体应用中。对生物信息资源开展分类与编码工作，通过对其分类、编码，可建立起一个生物信息资源的目录分类体系，进而实现对生物信息资源的检索、定位与识别，进而促进生物学的信息资源的共享、应用。调研表明，现有的一些生物信息资源分类规范，虽在其所在国度可满足其研究领域或研究机构的需要，但这些规范因为其自身的局限性并不能支持国际层面上的信息数据的整合。所以需进行进一步的研究，进行进一步的调整，进而形成国际化的信息标准，进而促进生物信息资源的整合，进而促进生物信息资源的利用。 1 4 论文主要研究内容通过对课题的立项依据、研究目的、国内外研究进展等方面的分析讨论，现明确本文的主要研究内容如下：总体来说，本文旨在研究一种可解决d n a 数据整合问题的有效方案，并研究此方案的具体实施。具体来说，首先研究d n a 数据整合过程中要解决的关键问题，针对d n a 数据异构这一关键问题选择适用于d n a 数据异构的整合技术和整合方法。并探讨整个方案的设计与实现，最后给出方案的具体实现结果和实验结果。奉文的主要研究内容可细化如下： ( 1 ) d n a 数据整合问题以及其中语法异构问题的研究 ( 2 ) d n a 数据整合问题以及其中语义异构问题的研究 ( 3 ) d n a 数据整合方法的设计与分析 ( 4 ) d n a 数据整合方法的关键技术和关键技术的实现 ( 5 ) 基于本文选择的关键技术和本文研究的整合方法的d n a 数据整合系统的设计与开发，并给出具体模拟实验结果。 1 5 论文的组织结构论文共分6 章，结构如下： 5 ：硕士学位论文 m a s t e r st h e s i s 第l 章为绪论，介绍了本文的研究背景，d n a 数据整合的任务，d n a 数据整合所要解决的问题，国内外的研究进展，给出了论文主要研究内容及本文的组织结构。第2 章讨论了d n a 数据的x m l 存储，介绍了d n a 数据的特点及d n a 数据的存储方式，x m l 技术在d n a 数据整合过程中的作用。第3 章讨论d n a 异构数据语义集成，介绍了d n a 数据模式的差异，异构数据集成的数据组织方式，并对不同的组织方式进行分析对比。第4 章首先介绍了目前主要的数据集成方法，并对这些方法一一进行分析，通过优势比较，选择联邦数据库模式作为本文研究的d n a 数据的数据集成方法，而后讨论了联邦数据库模式的具体模式结构，明确了设计联邦数据库模式所要解决的一系列关键技术问题，接下来讨论了联邦数据库模式下的公共数据模型，通过分析明确了选择x m l 作为d n a 数据的数据集成技术的优势和可行性，在选择出合适的集成方法和集成技术后，本章着重给出了基于联邦数据库模式这一数据集成方法、基于x m l 这一数据集成技术的d n a 数据集成方法。第5 章研究了基于x m l 的d n a 数据联邦数据库模式集成系统的总体设计、 u i 设计等方面的设计方案，探讨了基于x m l 的d n a 数据联邦数据库模式集成系统实现过程中的关键技术，进而给出了基于x m l 的d n a 数据联邦数据库模式集成系统的运行说明和运行过程。第6 章总结了全文工作，指出进一步研究目标。 6 第二章d n a 数据的x m l 存储 d n a 数据具有数据结构较为复杂、数据间的关键性较强、数据量比较巨大等特点。本章主要针对d n a 数据自身的特点展开研究，得到d n a 数据存储的方式，并研究了用x m l 技术解决d n a 数据的语法异构问题的方法。对上述几个方面进行了总结研究与分析。 2 1d n a 数据及其特点 d n a 数据是从大量的实验研究中得到的。从生物学角度上- 兑，d n a 数据属卡分子生物数据。对d n a 数据的研究现阶段也多停留在分子水平层面上。故此处所研究的d n a 数据足分子水平i 的d n a 数据，可以看成是狭义角度的定义。 d n a 分子广泛的存在于所有的真核细胞线粒体中，也存在于所有真核细胞的细胞核染色体中。d n a 分子是遗传信息的载体。d n a 分子的分子结构图如图2 - 1 所示。d n a 分子是由腺嘌呤( a ) 、胞嘧啶( c ) 、鸟嘌呤( g ) 、胸腺嘧啶( 日四种核苷酸组成的。d n a 分子是一种线性多聚体。d n a 分子是山两条互相平行的长链盘绕而成的，k 链上的分了是脱氧核苷酸。长链的外层是脱氧梭糖和磷酸，两种成分交替连接。长链的内层是碱基。两条氏链上的碱基是通过氢键相结台的而形成了碱基对。酗2 - ld n a 分f 结构 m f o 弋、：硕士学位论文 m a s t e r st l e s i s 根据碱基对互补原则可以通过d n a 序列中的一条链得出d n a 序列的另一条，如果我们知道d n a 序列中的一条链，就可以得出另外一条。因此我们通常都只拿d n a 的一条链进行研究。遗传信息的传递者是r n a ( 核糖核酸) ，遗传信息是通过d n a 将碱基序列转换成与d n a 相配的r n a 链传递的。还有一种另外的r n a 分子是信使r n a ( m e s s a g er n a ) ，信使r n a 的作用是用于携带来自d n a 的遗传信息，并将遗传信息携带到核糖体中，最终将转录到蛋白质中i ”l 。 d n a 数据源中的大部分数据都是半结构化的数据，其主要特点是数据量大、格式多样、结构复杂、数据缺失、结构变化、等等。d n a 数据的上述特点导致了d n a 数据异构问题的复杂性。 2 2d n a 数据的存储现在国际上主要有三个d n a 序列数据库，分别是：欧洲分子生物学实验室数据库( e u r o p e a nm o l e c u l a rb i o l o g yl a b o r a t o r y ，e m b l ) ( 位于英国剑桥) 【1 4 1 ，日本 d n a 数据库( d n ad a t a b a n ko fj a p a n ，d d b 0 i s j ，g e n b a n k 美国国家生物技术信息中j o ( n a t i o n a lc e n t e rf o rb i o t e c h n o l o g yi n f o r m a t i o n ，n c b i ) u 6 j 1 。19 8 2 年，这三个大型数据库组成合作联合体。这三个大型数据库通过每天交换信息来实现对数据库中d n a 数据的统一标准。三个数据库系统的管理机构分别负责收集各自所在地域的数据，三个数据库系统的数据信息最后被汇总在一起，供三个数据库共享并对整个世界丌放。上述三个数据库被称为公共序列数据库( p u b l i cs e q u e n c e d a t a b a s e ) 。理论上说上述三个数据库的d n a 数据的格式应完全相同。但在各种背景原因的作用下，上述三个数据库的d n a 数据采用不同的数据格式。当前d n a 数据格式分为e m b l 风格和g e n b a n k 风格两种。下面是g e n b a n k 风格的d n a 数据格式l l 引。 g b f f 作为g e n b a n k 数据库信息的基本单位，已成为当今使用最为广泛的 d n a 数据格式之一。g b f f 文件的一个实际例子如下：硕士学位论文 m a s t e r st h e s i s l o c u sa a u r r a1l8 b ps s f r n a 尉卜醴1 6 j u n 19 8 6 d e f m t l 0 n a a u d c u l a - j u d a e ( m u s h r o o r e ) 5 sr i b o s o t r a lf 乇n a a c c e s s i o nk 0 1 3 1 6 0 v 口路i o nk 叭3 1 6 0 1g l ：1 7 3 5 p 3 k e o r d s5 sr i b o s 优m lf 心i a ：r i b o s o n - a lf 心弧 s o u r c e a a u d c u l a - j u d a e ( m u s t r o o r e ) r i b o s o m a li 讣t a o r g a n i s ma 试i c u l a r i aa u r i c u l a - j u d a e r e 兀! r e n c e i ( b a s elt 01 1 8 、 a u t h o r s d a m s , e h u y s m a m 卫 t i t h et m d e o i t id es e q u c 葛o f5 s 承n ao ff o u rn m s h r 0 0 1 n sa n dt h e i ru s ei n s t u d y i n g t h ep h y l o g e n e t i cp o s i t i o no fb a s i d i 帆y c e t e sa m m gt h e j o i 乐n a l f e t u r e s o r i g i n 咖o t e s n u c l e ic a s i dr e s 1l ，2 8 71 - 2 8 8 0 ( 1 9 8 3 ) l 0 ：i i o n 门面i 丘贫s 1 1 1 8 n o t 一5 sf i b o s o r r 蔓dr n a “ 1a t c c a c g g c c a t a g g a d c tg a a a g c a c t gc a t c c c g t c c 61g t a c c g c c c a g t t a g t a c c ac g g t g g g g g ac c a c g c g g g a 其文件可划分为头部、中间部分、结尾部分。其中头部所包含的信息为：整个记录的信息( 描述符) 。中间部分所包含的信息为注释部分，例如这条记录的特性。结尾部分所包含的信息是核苷酸序列的信息。每个记录之间用分割。 2 3 基于x m l 解决d n a 数据语法异构 x m l 语言是一种可扩展的标识性语言，它是解决数据库语法异构问题的一种有效的技术。x m l 的特点之一是面向文档内容、注重逻辑结构【1 9 1 。用x m l 文档处理d n a 数据所具有的独特优势在于： ( 1 ) 用x m l 作为交换数据过程中的中间交换格式，既可以保证数据获取时 9 硕士学位论文 m a s t e r st h e s i s 候数据的完整性，又可以保证数据载入时候数据的完整性，进而保证数据可以被正确的解析、使用。 ( 2 ) x m l 是一种能够与数据库紧密结合的标识性语言，x m l 语言可以很好的利用x m l 语言自身的优势与数据库本身的优势，很好的确立真正适用于数据库系统的数据标准。 ( 3 ) x m l 是一种独立予操作系统之外的语言，当然其也是一种独立于应用程序之外的语言，这些特征决定了x m l 具有良好的通用性。同时，x m l 提供了一个开放的平台，所有人都可以在这个平台上定义标准和规范。任何私有数据格式转换为x m l 封装的统一描述格式的唯一要求就是要满足基本的语法要求。被x m l 封装后的数据格式可以在其它的平台上用某一相同方法还原出数据内容。可以说，如果所有d n a 数据库均将其数据格式以x m l 文档加以描述，上述数据库的检索和集成就会省去很多的麻烦。下面是用x m l 对d n a 数据加以描述的例子。用x m l 描述的g e n b a n kd n a 数据的例子如下所示： a a u r r a 118 b p r i b o s o r t a lr n a x m l 在相当程度上解决了异构d n a 数据集成和查询问题。同时x m l 具有跨平台性，可作为一种公共的标准来出现。针对复杂的异构数据集成工作，x m l 的下述特征可保证用x m l 技术进行数据集成不会引起冲突，此特征是：x m l 支持命名空问，不同x m l 方案问可很好的相互引用。使用x m l 基本上可解决d n a 数据的语法异构问题，但语义异构问题尚未解决。 l o ：，硕士学位论文 m a s t e r st h e s i s 第三章d n a 异构数据语义集成的研究异构数据源之间要共享数据不同于同构数据源，需特殊的处理方法才可达到数据共享的目的，数据集成是用于完成异构数据源数据共享的一大技术，同时也是用于实现数据整合的一大理想方案。其中，消除数据源间的语义异构是异构数据源数据集成的核心任务1 2 0 1 。 3 1d n a 数据模式差异分析任何一种数据的表征都足需要一个一般模式的，而用于描述d n a 数据的数据结构一般包括如下几部分的内容：d n a 数据的基本信息( 包括，序列位置、种属来源、序列长度、等等) 、d n a 数据的文献信息、d n a 数据的注释信息( 描述对象特性的信息、通过数据处理研究分析所捕获的信息) 。其中，d n a 数据的注释信息细化可知其包括如下几种信息：d n a 数据的结构信息、d n a 数据的产物信息、d n a 数据的功能特性、等等。因上述信息在不同的d n a 数据源中的描述不尽相同，d n a 数据的数据模式差异在所难免。不同描述下的d n a 数据被称为异构数据，进而存放不同描述下的d n a 数据的数据源被称为异构数据源。对存放不同描述下的d n a 数据的异构数据源进行转换，转换后使用统一的描述语言来描述，这样就可解决异构数据库信息整合中的语法异构问题后。但是除了语法异构外，另一个特别重要务必解决的异构问题是语义异构。语义异构是说，纵使各数据源所用的数据描述模式相同，但因各数据源中具体数据的描述方式并不完全不同，将各数据源间的信息进行整合时还是存在着问题，这一问题就是语义异构问题。其中语义异构问题主要包括两方面的内容：表达方式的差异、命名方式上的差异。表达方式上的差异是说，同一信息的描述方式因所在的数据源的不同，所采用的描述结构也不同。如a 数据库中描述基因序列的序列位置信息的时候，包括的基本信息项有五种，而数据库b 的设计者可能认为数据库a 中描述基因序列位置的第五项基本信息没有用途，于是数据库b 中描述基因序列位置的数据结构中就只有四项基本信息。这就给两个数据库间信息的整合带来了一定的难度。上述差异就是表达方式上的差异。硕士学位论文 m a s t e r st h e s i s 命名方式上差异是说，同一个概念或同一种数据，在不同的数据源中使用的名字各不相同。命名方式的差异会给数据源间信息整合增加一定难度。因为有些时候单单采用传统的数据库查询方式，查询方并不知道数据库a 中的数据t 和数据库b 中的数据t 1 是同样一种数据。消除命名方式上的差异，也是解决各异构数据库集成过程中的语义异构所必须要解决的一个问题。本文旨在设计出一种用于d n a 数据信息集成的方法，研究异构数据源的信息集成过程中的语义异构消除问题。 3 2 异构数据集成的方式 3 2 1 虚拟异构数据集成法虚拟异构数据集成法f 2 1 1 的基本思想是：不需要有新数据库生成，而只是当用户向系统提交查询请求时，系统根据查询命令操作数据源中的数据。虚拟异构数据集成法也成为虚拟集成方法，该方法中，成员数据库的数据不是存在本地的，本地只是建立着与成员数据库之间的逻辑映射关系。这一方式下，数据库的查询是基于查询分解的查询，即要把针对于全局模式的查询分解成一个一个的针对各个成员数据库的子查询，在各个成员数据库上完成各个子查询后，将子查询的结果送至全局模式下的本地系统，而后将查询结果整合成一个总体的结果。虚拟异构数据集成法主要有联邦数据库模式和m e d i a t o r w r a p p e r 模式两种。目前具有较大规模的大多数生物信息数据集成项目都采用的是此法。较具代表性的有：i b m 的d i s e o v e r y l i n k 、b i o e i s l i 2 2 1 、o p m 2 3 1 、p r o m o t o r l 2 4 1 等生物信息服务平台。 3 2 2 物化视图法物化视图法1 2 5 j 的基本思想是：在查询过程中，系统无需再对数据源进行访问，而是系统直接“组装”出一个语义上一致的数据存储，它是面向主题的、集成的、时变的和非易失的数据集合。物化视图法有被称为物理集成方法，4 1 节将针对物理集成方法的主要特点来分析物理集成方法的优点和缺点，这里不赘叙。物理集成方法的典型代表是数据仓库模式。数据仓库模式采用增量维护的数据维护方式。其数据真实的存储在本地。现如今，采用数据仓库的数据库系统很多，如 1 2 ：，硕士学位论文 m a s t e r st h e s i s 3 d i n s i g h t 、i d g 、b i o m o l q u e s t 、i n t e r p r o 2 6 1 、i x d b 等。数据仓库系统有着一个典型的缺点，也是目前在生物信息领域中所有的数据仓库型数据库系统所必须面对的一个问题，就是数据仓库型数据库系统都有着很严重的系统依赖，也就是说，数据仓库型数据库系统所提供的数据完全不适用于其他系统，因为其标准格式不相同，数据仓库型数据库系统仅仅能够提供个体应用上的方便，而不是通用型的方便。 3 2 3 两种集成方式的对比和分析上述两种数据组织方式的对比分析使得一个观点得以明确：对于数据量比较大、更新频率比较高、变化动态性比较频繁的网络环境下的d n a 数据的查询和组织，虚拟法是更为合适的一个方法。用虚拟法作为d n a 异构数据的数据整合的基本方法，是较为正确的一种选择。 3 3 数据模式集成异构数据源的集成模式是异构数据源数据集成过程中的核心内容。集成模式的建立要解决如下的两个基本问题l 2 7 j ：构造创建本地模式和集成模式之间的映射关系；处理用户在集成模式上所提出的查询请求。这一过程的基本思想是：将各成员数据库( 各数据源是集成模式下的虚拟数据库的“成员”，故可称为成员数据库) 按照某种映射方式建立起成员数据库与集成模式下的虚拟数据库之间的映射关系，查询方可以不必考虑底层成员数据库的具体数据模式数据细节而直接对集成模式下的虚拟数据库进行查询。集成模式下的虚拟数据库模式又可以成为全局模式，其可以看做是一个有着各个成员数据库间数据映射关系的虚拟关系集合。这一过程的框架图如图3 1 所示。硕士擘位论文 m a s t e r st h e s i s 图3 1 基于集成模式的数据库查询框架图在这一过程中，查询方所提供的查询是针对于全局模式的查询语句。这一全局模式可以理解成是由各成员数据库所组成的和谐统的虚拟视图。而后由数据集成系统处理查询方在全局模式下提出的查询请求，将查询请求转换成各成员数据库可执行的请求。数据集成过程中，全局模式和各成员数据库模式之间的差异，各个成员数据库模式间的差异，使得异构数据源数据的集成过程中需要一个中间模式。这一中间模式对各成员数据库进行统一，将异构的成员数据库数据源在模式转换的作用下转换成有着公共的标准的数据模式，即中间模式。而后再将各个分开的中间模式集成成一个统一的全局模式，如图3 2 所示。全局撰式上 i c o f s - 燠式 i i 成员模式图3 - 2 数据集成的基本过程 1 4 硕士学位论文 m a s t e r st h e s i s 3 4d n a 异构数据模式集成所以一般的异构数据源集成方法都必不可少的需要建立共同数据模式。在公共数据模型下，异构数据源的数据模式会依据模式匹配的转换原则，被转换成集成所用的目标数据库模式。用公共数据模型作为异构数据库的集成模型，用其统一来自不同数据源的各种数据，是解决d n a 异构数据模式集成问题的一大策略。公共数据模型是为了消除各成员数据库之间的语法异构现象而引入的，对于数据集成来说，集成采用同一数据模型描述的模式要简单的多。公共数据模型能够描述各个成员数据库。在模式集成前首先要翻译各个成员数据库的局部模式，将各成员数据库的局部模式映射到公共数据模型的公共模式，公共数据模型是解决各成员数据库间异构问题的基础。基于公共数据模式的异构数据源数据集成方法的流程示意图如图3 3 所示。图3 - 3 基于公共数据模式的异构数据源数据集成方法的流程基于d n a 数据的异构数据源数据的集成方法的具体过程在第四章中有具体的介绍，集成方法各个步骤、各个模块的具体设计方法也在第四章中有具体介绍，且为第四章的重点内容，此处不赘叙。硕士学位论文 m a s t e r st h e s i s 第四章基于x m l 的d n a 数据联邦数据库模式集成方法 4 1 基于虚拟集成的数据异构整合方法数据集成中有很多问题需要考虑。首先，来自多个数据源的不同表达下的多个实体如何才能匹配? 这是一个实体识别问题。而后，来自多个数据源的数据如何实现冗余的消除? 最后，数据集成中的第三个重要的问题如何解决数据冲突和数据异构的问题，如何进行数据冲突和数据异构的检测和处理? 虚拟集成法是说，不需要有新数据库生成，而只是当用户向系

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）基于xml的dna异构数据整合的研究.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）基于xml的dna异构数据整合的研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档