（计算机科学与技术专业论文）基于语义元数据的分布式异构数据库集成研究.pdf

上传人：伐*** IP属地：宁夏上传时间：2019-12-14 格式：PDF 页数：86 大小：4.16MB 积分：0 举报 版权申诉

（计算机科学与技术专业论文）基于语义元数据的分布式异构数据库集成研究.pdf_第2页

（计算机科学与技术专业论文）基于语义元数据的分布式异构数据库集成研究.pdf_第3页

（计算机科学与技术专业论文）基于语义元数据的分布式异构数据库集成研究.pdf_第4页

（计算机科学与技术专业论文）基于语义元数据的分布式异构数据库集成研究.pdf_第5页

已阅读5页，还剩81页未读，继续免费阅读

（计算机科学与技术专业论文）基于语义元数据的分布式异构数据库集成研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

国防科学技术大学研究生院硕士学位论文摘要随着生物工程领域各种技术的飞速发展，生物数据呈指数级增长。如何对这些分布、异构、自治的生物数据库进行快速有效的整合查询成为生物研究专家面临的一个难点。为了解决目前生物数据集成查询中遇到的问题，作者所在课题组提出了一个基于语义元数据的数据资源整合方案。该方案将要查询的各分布数据库的元数据按照统一的标准集成到一个元数据库中，使用一个领域本体与元仓库建立映射生成语义元数据，利用语义元数据解决异构数据库之间的结构异构和语义异构，实现对各生物数据库的集成查询。该方案的最终目标是通过对有关内容的研究，解决数据资源整合的共性问题，建立一个通用的数据共享与整合平台，形成面向特定主题的、元数据集中、基础数据分布的虚拟中心数据库，支持在多个领域的应用。目前课题组已经建立了相应的元数据库，开发了元数据导入与管理工具。在此基础上，本文主要对以下内容进行了研究： 1 ) 利用本体知识库与数据库e r 模型的相似性，提出把本体与元数据建立映射生成语义元数据，并把语义元数据用于数据集成，用于解决多个数据库间的结构异构和语义异构两个方面的难题。 2 ) 研究了如何利用本体构建知识库的推理功能，通过在生成语义元数据时建立的本体与元数据的映射，对用户的查询进行推理扩展，从而帮助提高系统的查全率和查准率。 3 ) 基于多个数据源的物理分布和逻辑分布性的特点，设计了有效的查询计划生成算法，根据此算法，可以把用户的查询转化为一个对多个数据源的查询计划，并通过执行这个计划，不仅能保证用户查询结果的精确性，而且能保证用户查询结果的完整性。通过以上研究，本文设计并实现了基于语义元数据的分布数据库集成原型系统s e m d i s ，用户使用此系统可以基于本体对分布的异构数据库实现透明访问。通过对系统的应用证明达到了研究目的，为课题下一步的研究打下了基础。主题词：数据集成，元数据，本体，语义元数据，语义异构第i 页国防科学技术大学研究生院硕士学位论文 a b s t r a c t w i t ht h ed e v e l o p m e n to fm a n yt e c h n o l o g i e si nb i o l o g i cr e s e a r c h ，b i o l o g i c a ld a t a s h o war a p i di n c r e a s eo ne x p o n e n t i a ls e r i e s t h ei n t e g r a t i o no ft h eq u e r yf o rd i s t r i b u t e d h e t e r o g e n e o u sa u t o n o m o u sd a t a b a s e sb e c o m e sam a j o rp r o b l e mt ob i o l o g i s t a ni n t e g r a ls c h e m eo fr e s o u r c ed a t ab a s e do ns e m a n t i cm e t a d a t ai sp r o p o s e d i n o r d e rt os o l v et h ec u r r e n tp r o b l e mi nq u e r yo fb i o l o g i cd a t a i no u ri n t e g r a ls c h e m e ，t h e m e t a d a t ad i s t r i b u t e di na l ld a t a b a s e sw i l lb ei n t e g r a t e dt oo n em e t a d a t ad a t a b a s ei na u n i f i e ds t a n d a r d ，a n ds e m a n t i cm e t a d a t aw i l lb eb u i l tb ym a p p i n ga no n t o l o g yt ot h e m e t a d a t ad a t a b a s e t h es e m a n t i cm e t a d a t aw i l lb eu s e dt os o l v et h es t r u c t u r a l h e t e r o g e n e i t ya n dt h es e m a n t i ch e t e r o g e n e i t ya m o n gt h e d i s t r i b u t e dh e t e r o g e n e o u s a u t o n o m o u sd a t a b a s e s t h ef i n a lg o a lo ft h es c h e m ei st os o l v et h ec o m m o np r o b l e mo f i n t e g r a t i n gd a t ar e s o u r c e sb yas h a r a b l ei n t e g r a t i n gd a t ap l a t f o r m t h i sp l a t f o r mh e l p st o f o r mav i r t u a lc e n t e rd a t a b a s et h a tf a c e st h es p e c i f i ct o p i c ，t h ef o c u s e dm e t a d a t aa n d d i s t u r b e db a s i cd a t a ，a n dt h u st os u p p o r tr e l a t i n gr e s e a r c h e si nv a r i o u sf i e l d s a tp r e s e n t ，o u rt e a mh a sb u i l tr e l a t i v em e t a d a t ad a t a b a s e s ，t a p p e dt h et o o l st o i m p o r ta n dm a n a g em e t a d a t a b a s e do nt h et e a mp r o j e c t ，t h i sp a p e r f o c u s e sm a i n l yo n t h ef o l l o w i n ga s p e c t s 1 r e s e a r c ho nt h ec o m p a r a b i l i t yb e t w e e nt h ek b ( k n o w l e d g eb a s e ) o ft h eo n t o l o g y a n dt h ee rm o d e lo ft h er e l a t i o n a ld a t a b a s ea n dp r o p o s et ob u i l dt h em a p p i n go ft h e m t op r o d u c es e m a n t i cm e t a d a t a ；t h eu s eo ft h es e m a n t i cm e t a d a t at os o l v et h es t r u c t u r a l h e t e r o g e n e i t ya n dt h es e m a n t i ch e t e r o g e n e i t ya m o n gt h ed i s t r i b u t e dh e t e r o g e n e o u s a u t o n o m o u sd a t a b a s e s ； 2 r e s e a r c ho nh o wt oe x p a n dt h eq u e r yt oi m p r o v et h eq u e r yr e c a l la n dq u e r y p r e c i s i o nb yu s i n gt h er e a s o n i n ga b i l i t yo fk b ； 3 t h ed e s i g no fah i g h p o w e r e da l g o r i t h mb a s e do nt h ep h y s i c a ld i s t r i b u t i n ga n d l o g i s t i cd i s t r i b u t i n go ft h ed a t a b a s e s ，w h i c hc a nc h a n g et h eq u e r yt oaq u e r yp l a na n d m a k et h eq u e r yr e s u l ti n t e g r a t e da n da c c u r a t e t h ea u t h o rh a sf i n i s h e dt h ed e s i g no fs e m d i s ( d a t a b a s ei n t e g r a t i o ns y s t e mb a s e d o ns e m a n t i cm e t a d a t a ) b yu s i n gs e m d i s ，t h eu s e r sc a nq u e r yt h ed i s t r i b u t e d h e t e r o g e n e o u sa u t o n o m o u sd a t a b a s e sp e l l u c i d l y i t sa p p l i c a t i o ns h o wt h a ts e m d i si s s i g n i f i c a n tt os o l v et h ep r o b l e mi nd a t ai n t e g r a t i o na n dm a k eag o o db a s e m e n tf o rt h e p r o g r e s so ft h et e a m k e yw o r d s ：d a t ai n t e g r a t i o n ，m e t a d a t a ，o n t o l o g y ，s e m a n t i cm e t a d a t a ， s e m a n t i ch e t e r o g e n e i t y 第i i 页国防科学技术大学研究生院硕士学位论文表目录表1 1数据源d 1 中的部分数据3 表1 2 数据源d 2 中的部分数据3 表6 1 三种用户权限对应表6 5 表6 2数据源d 1 中的表p r o t e i n 示例数据7 0 表6 3数据源d 2 中的表m o u s ep r o t e i n s 示例数据7 0 表6 4 数据源d 2 中的表m o u s ed n a 示例数据7 1 表6 5 数据源d 2 中的表t r a n s l a t i o n 示例数据7 1 表6 6 示例查询结果7 2 第1 v 页国防科学技术大学研究生院硕士学位论文图1 1 图2 1 图2 2 图2 3 图2 4 图2 图2 图2 图2 图2 9 图2 1 0 图2 1 1 图2 1 2 图3 1 图3 2 图3 3 图3 4 图3 5 图3 6 图3 7 图4 1 图4 2 图4 3 图4 4 图5 1 图5 2 图5 3 图5 4 图5 5 图5 6 图5 7 图5 8 图目录 g e n b a n k 数据增长趋势图1 数据仓库体系结构1 1 联邦数据库体系结构1 2 中间件体系结构1 2 基于元数据的数据集成体系结构1 4 一个生物本体示例l5 本体类与表之间的互相映射1 7 一个本体类与多个数据源的映射1 8 一个表与多个类的映射1 8 一个本体与同一数据源中的多个表的映射1 9 类的数据类型属性与元数据的映射1 9 对象属性映射情况一2 0 对象属性与元数据映射情况二2 l c w m 描述生物数据库的实例2 4 元数据库中部分表的结构和存储的信息2 5 一个简单的r d f 图示例2 6 j e n a 系统架构图3 0 r d fa p i 主要接口3 0 o n t o l o g ya p i 主要接口3l j e n a 推理机结构3 2 s e m d i s 应用示意图3 4 s e m d i s 的u s ec a s e 图3 5 s e m d i s 执行一个查询的s e q u e n c e 图一：3 5 s e m d i s 整体结构图3 6 c w m 部分实体类及类与类之间的关系4 l 连接本体库的类图4 2 获取本体树第一级子节点算法的流程图4 3 表o n t o l o g y _ m e t a _ m a p p i n g 与表c o r e m o d e l e l e m e n t 4 5 解析结果数据结构示意图4 8 对象属性值域类数据结构示意图4 8 s e m q l 示例解析结果4 9 本体与元数据的映射示例1 5 0 第v 页国防科学技术大学研究生院硕士学位论文图5 9 图5 1 0 图5 1l 图5 1 2 图5 1 3 图5 1 4 图6 1 图6 2 图6 3 图6 4 图6 5 图6 6 图6 7 图6 8 本体与元数据的映射示例2 5 0 查询推理扩展模块结构图5l 查询树示例5l 推理扩展算法流程图5 3 映射检查调整后的查询树5 4 查询转化及分配示意图6 0 本体与元仓库的映射建立界面6 6 查询构建界面6 7 查询属性选择窗口6 7 查询属性限制窗口6 8 数据类型属性限制窗口6 8 对象属性限制窗口6 9 对对象属性的进一步查询限制6 9 查询构建结果示例7 0 第v i 页独创性声明本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表和撰写过的研究成果，也不包含为获得国防科学技术大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名：主丝亟旦卫生日期：庐7 年，月日学位论文版权使用授权书本人完全了解国防科学技术大学有关保留、使用学位论文的规定。本人授权国防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子文档，允许论文被查阅和借阅；可以将学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密学位论文在解密后适用本授权书。) 学位论文作者签名：作者指导教师签名：日期：脚7 年i 月6 日日期：1 年1 1 月f 6 日国防科学技术大学研究生院硕士学位论文第一章引言 1 1 课题研究背景 1 1 1 生物工程领域的数据整合需求伴随着科技的不断进步，人类在生物工程领域进行了深入探索，并取得了飞快的发展。生物工程领域研究发展的一个突出特点就是生物数据的指数级增长。例如，随着人类基因组计划( h u m a ng e n o m ep r o j e c t ，h g p u ) 的实施，通过基因组测序、蛋白质序列测定和结构解析等实验，生物学家提供了大量有关生物分子的原始数据，同时通过对原始数据进行比对、分析、仿真及预测等工作，又产生了大量的解释数据，并且伴随着研究的深入，相应的生物信息数据爆炸性增长。图1 1 显示了美国国立卫生研究院维护的g e n b a n k 基因序列数据库1 2 】从1 9 8 2 年到2 0 0 8 年间的数据增长情况。生物信息数据的快速增长引起了各研究机构的高度重视，他们各自采取的有效的办法对本机构产生的实验数据进行管理。刚才提到的g e n b a n k 基因序列数据库就是采用关系数据库对基因序列数据进行管理存储；其他还有像 s w i s s p r o t 蛋白质序列数据库【3 】和p d b 生物大分子结构数据库【4 】等。伴随各种生物数据库产生的还出现了生物数据的不同格式的表现形式，比如f a s t a 、g b 、 a b i 等。 g r o w t ho fg e n b a n k 1 9 8 2 - 2 0 0 8 言甚譬 z o 屯芒葛 t 暑五图1 1g e n b a n k 数据增长趋势刚5 i 生物工程领域研究发展的另一个突出特点就是广泛的合作与资源共享。生物工程的研究是一个庞大的工程，单靠某一个实验室或者机构想在生物工程领域取第l 页国防科学技术大学研究生院硕士学位论文得一个全面的进展从当前的技术水平来看并不是非常现实。当前世界范围内的生物工程研究专家都关注了这一问题，从而产生了大到全球范围小到国家、区域范围的不同程度的多个生物工程合作计划。由美国科学家于1 9 8 5 年提出于1 9 9 0 年正式启动的人类基因组计划就是由美国、英国、法国、德国、日本和我国等六个国家共同参与完成的，其他的还有小范围内的合作，比如国内的几个实验室针对某一个专题开展合作研究等。多个机构实验室甚至国家之间的合作交流极大地提高了生物工程研究的进展速度。同时，为了更好更快的开展生物领域的研究，减少重复实验，多个国家机构之间实现资源共享，为生物工程研究提供了非常便利的条件。生物数据的爆炸性增长和广域的合作与资源共享是生物工程研究进展的两个突出特点，说明了生物工程研究的卓见成效以及在这一领域的良好的发展环境，但这两个特点对多个实验室间的数据资源共享带来了很大的挑战。由于每一个实验室的研究背景、研究水平及科研条件不尽相同，他们在管理自己的数据时都是立足自身条件采用各自的管理模式，导致了多个实验室之间在数据的存放形式、数据模式的定义等方面存在不同，即便都是以关系数据库系统进行管理数据也存在数据库管理系统、数据库模式以及使用术语的不同。从而就出现了多个彼此之间存在多种形式结构异构和语义异构的生物数据源。生物学家要想使用不同数据源中的数据，必须对各个数据源中的数据管理模式有一个清楚的了解，然后才能根据个人的查询需求制定相应的查询计划，最后还需要对从各个数据源中所得的查询结果进行合并、过滤等一系列操作，才能获得自己想要的信息，这样的查询过程不仅效率低下，浪费了大量的研究时间，而且由于生物学家不可能对每一个数据源都有一个非常清楚的了解，查准率和查全率不高。因此，如何对多个数据源进行整合，向生物学家提供一个统一的查询接口，生物学家根据这一接口实现对各个分布数据源的透明访问，从而使生物学家从分布数据资源具体、繁琐的查询细节中解脱出来，是一个需要深入探讨的问题。 1 1 2 本体在数据集成中的应用伴随着i n t e m e t 技术和数据库技术的飞速发展以及人们在各个领域的信息交流需求，数据集成技术应运而生。在过去的三十年间，数据集成技术取得飞速的发展，并在各行业领域都得到了广泛应用，对当前信息技术的发展起了很大的推动作用。追溯数据集成技术的发展轨迹，从小范围的分布式数据库技术【6 】、异构数据库集成技术【。7 】到广范围的网格计算技术【8 】、云计算技术【9 】，从主要用于解决数据库间的结构异构而采用的数据仓库技术1 1 0 】、联邦数据库技术【1 0 】到当前本体技术与多种第2 页国防科学技术大学研究生院硕七学位论文集成技术的结合，数据集成技术在往超大规模数据量级和智能化方向发展，而往智能化发展的一个关键技术就是对本体【1 1 1 的利用。文献【1 7 】【1 8 】【1 9 】【2 0 1 【5 0 】【5 l 】【5 2 】【5 3 】【5 4 】【5 5 l 中都把本体用于了数据集成领域，当前，数据集成领域对本体的使用主要在两个方面，一是使用本体解决数据间的语义冲突，二是使用本体解决数据源模式问的语义冲突。 1 1 2 1 使用本体解决数据间的语义异构多个数据源间的语义异构存在于两个方面，首先是数据间的语义异构。对于多个数据源来讲，由于使用了不同的术语规范，并且各个数据源对所包含数据定义的层次、量度都不尽相同，就导致了相同数据在不同数据源中的不同表示，产生数据间的语义异构，文献【1 2 】中的一个示例说明了这一问题。在表1 1 和表1 2 分别为数据源d 1 和d 2 中存放的均为相关生物的部分蛋白质数据，数据源d 1 对蛋白质数据的描述使用了e cn u m b e r 标准的分类模式，对每一个蛋白质数据都使用一个e cn u m b e r 词目进行描述，而数据源d 2 对蛋白质数据的描述相应的使用了 m i p sf u n c a t 分类模式进行描述。不同的分类模式导致了两个数据源描述的蛋白质数据间产生了语义异构，同一蛋白质p 3 5 6 2 6 在不同的数据源中因为分类模式的不同导致了无法根据同一分类模式进行查询。表1 1 数据源d 1 中的部分数据 p r o t e i ni dp r o t e i nn a m ep r o t e i ns e q u e n c ep r o s i t em o t i f se cn u m b e r b e t a - a d r e n e r g i c m a d l e a v l a dr g s2 7 1 1 2 6 p 3 5 6 2 6v s y l m a m e k sp r o tk n 、jd o mb e t a - a d r e n e r g i c r e c e p t o rk i n a s e2 p hd o m a i n r e c e p t o rk i n a s e a s p a r t y l a s p a r a g i n y l m a q r k n a k s s t p r1 1 4 1 1 1 6 q 1 2 7 9 7 g n s s s s g s g s t p r r e g i o np e p t i d e - a s p a r t a t e b e t a - h y d r o x y l a s e t p r b e t a - d i o x y g e n a s e 表1 2 数据源d 2 中的部分数据 a ng e n ea as e q u e n c e l e n g t h m l p sf u n c a t m a d l e a v l a d p 3 5 6 2 6s c e lv s y l m a m e k s5 7 816 olp r o t e i nb i n d i n g v s s l p k e s q a p 0 7 2 7 8b c y l e l q l f q n e i n 4 1 5 1 6 1 9 0 1c y c l i c n u c l e o t i d eb i n d i n g 目前解决数据问的语义异构的通用方法是使用一领域本体对产生语义异构的数据进行标注，利用领域本体的明确性和共享性屏蔽数据的语义异构，以满足对多个数据源数据的集成要求。针对这一应用，很多领域都构建了应用于解决数据第3 页国防科学技术大学研究生院硕士学位论文问语义异构的领域本体，比如生物领域的g o t l 3 】、p r o t l 4 】、m b o t l 5 j 等。f i i 例中，存在于两个数据源的相同的蛋白质由于使用了e cn u m b e r 和m i p sf u n c a t 两种不同的标准定义，导致不能使用一个标准查询两个数据源中的数据，带来了查询难度。数据源d 1 中p r o t e i ni d 为p 3 5 6 2 6 的蛋白质对应的e cn u m b e r 值为e c2 7 1 1 2 6 ，数据源d 2 中a n 值为p 3 5 6 2 6 的蛋白质的m i p sf u n c a t 值为m i p s1 6 0 1 ，仅使用 e cn u m b e r 或者m i p sf u n c a t 都不能获得存在于两个数据源中的信息。这种情况就可以使用g o 对两个数据源中数据进行标注，数据源d l 中的e c2 7 1 1 2 6 与g o 中的g o0 0 4 7 6 9 6 等价，可以用g o0 0 4 7 6 9 6 对数据源d 1 中的蛋白质p 3 5 6 2 6 进行标注，同样数据源d 2 中的m i p s1 6 0 1 与g o 中的g o0 0 4 7 6 9 6 等价，使用g o 0 0 4 7 6 9 6 对数据源d 2 中的蛋白质p 3 5 6 2 6 进行标注等等。标注后的两个数据源统一使用了g o 标准进行查询，解决了数据源数据间的语义异构。 1 1 2 2 使用本体解决数据源模式间的语义异构多个数据源间的语义异构另外一个方面，就是数据源模式间的语义异构。数据源模式间的语义异构不同于数据间的语义异构，它是指当数据源在构建实体模型时，相同类别个体在不同的数据源中采用了不同的命名规则，从而在多个数据源间产生的语义异构现象。使用本体解决数据源模式间语义冲突的主要思想是通过本体与各数据源模式间的映射，利用本体的明确性和共享性，把各数据源的局部模式集成为一个基于本体的全局模式，使用户可以不用考虑分布数据源的模式信息，而能够按照全局模式透明的访问各数据源。 1 1 3 国内外研究现状由于生物信息整合与共享的重要性，国内外许多组织和机构都投入了相当多的人力和物力对此进行了广泛的研究，相关的研究成果也已经投入了实际运用，如美国n c b i 的e n t r e z l l6 1 、美国爱荷华州立大学的i n d u s l l 2 】【17 1 、英国曼彻斯坦大学的t a m b i s t l8 】【1 9 1 、德国比勒费尔德大学的s e m e d a 2 0 】，以及国内复旦大学的 b i o d w l 2 1 1 和浙江大学的d a r t g r i d t 2 2 】等。下面主要介绍其中比较典型的基于本体做集成的三个系统： 1 i n d u s i n d u s 是美国爱荷华州立大学人工智能实验室开发的一个开源的生物信息集成系统，使用了中介器包装器的集成方式，用于从分布式语义异构数据源中进行知识获取的联邦查询中心系统。它通过使用本体对分布数据源中的数据进行标注解决各个分布生物数据源间的数据间的语义冲突，同时在集成层根据用户的不同需求构建用户模式，通过用户模式与单个数据源模式间的映射解决多个数据源模式间的语义冲突，使用户不必考虑分布数据源的位置、模式等细节，基于已经构第4 页国防科学技术大学研究生院硕士学位论文建的用户模式，就可以实现对各个数据源的访问。 i n d u s 很好的解决了分布数据源间在数据间和模式间两个方面语义异构，对于解决生物数据集成中的语义冲突问题提供了一个好的范例，特别是在面向特定应用的集成用户需求方面，只要根据用户需求构建好用户模式，就可以很方便地实现对多个数据源的访问。但是特定用户模式的构建又大大的限制了系统的灵活性，对面向多种需求的查询用户有所欠缺。 2 t a m b i s t a m b i s ( t r a n s p a r e n ta c c e s st om u l t i p l eb i o i n f o r m a t i c si n f o r m a t i o ns o u r c e s ) 是英国曼彻斯坦大学为实现对s w i s s p r o t ，c a t h ，p r o s i t e ，e n z y m e ，和b l a s t 等生物的集成而研发的一个生物数据源集成系统。t a m b i s 系统同样使用中介器包装器的集成方式实现对低层数据源的集成，他通过对每一个局部数据源建立一个包装器，包装器对不同的局部数据库系统进行包装并向中间层提供访问接口，再由中间层对多个全局数据源的访问接口进行统一，向全局用户提供基于统一访问接口，既保持局部数据库系统的安全等级不变，又实现了透明的访问控制。 t a m b i s 系统使用t a o ( t a m b i so n t o l o g y ) 2 3 】作为项层本体，使用t a o 描述可能要查询的知识和底层数据资源的模式，并把用户基于本体的查询翻译成一个或者多个对数据库的查询，从而解决了多个数据源模式间语义异构。查询用户不必关心分布数据源的细节，只需要根据系统基于t a o 构建的术语服务器构建用户查询，就可得到所需要的查询结果。 3 s e m e d a s e m e d a ( s e m a n t i cm e t a - d a t a b a s e ) 是德国比勒费尔德大学面向分子生物数据库的集成而开发的一个分布式数据源集成系统。s e m e d a 系统为了解决数据集成中模式间的语义异构、数据间的语义异构以及数据源中数据有关类别的语义缺失等三个问题提供了很好的解决办法。特别是在解决模式间语义异构问题方面， s e m e d a 系统使用一领域本体对各个数据源中的属性名进行标注，很好的解决了多个数据源属性间的同名异义及同义异名的现象，为我们展开此方面的研究提供了很好的参考。通过对i n d u s 、t a m b i s 和s e m e d a 三个生物数据集成系统研究现状的分析，我们可以看出，利用本体的明确性和共享性可以很好的解决数据集成中数据间语义异构及模式间的语义异构。三个系统对于解决模式层的语义异构各自采用了不同的方式，i n d u s 系统使用构建用户模式的方式面向特定应用比较有效，但又不够灵活；t a m b i s 和s e m e d a 都在数据源模式层使用了本体，但两者在对本体的利用上又有所区别，t a m b i s 重在把用户基于本体的查询翻译成一个或者多个对数据库的查询，而s e m e d a 系统重在使用本体术语对数据源中实体的属性进第5 页国防科学技术大学研究生院硕士学位论文行标注。三个系统均是着眼某方面的需求使用本体解决语义异构，但都没有把本体描述的知识库与数据的实体关系模型的相似性进行深入探讨。因此，在当前研究的基础上，利用本体知识库与数据的实体关系模型的相似性特征，使用本体对数据源的结构化元数据进行描述生成语义元数据并应用数据集成领域，从而解决数据集成中的结构异构和语义异构无疑是数据集成的一个新的研究契机。第6 页国防科学技术大学研究生院硕士学位论文 1 - 2 1 课题来源 1 2 课题研究内容本硕士课题来源于国家高技术研究发展计划( 8 6 3 计划) 重点课题“人类肝脏蛋白质组生物信息学研究的一个子课题“基于元数据的蛋白质组数据资源整合关键技术研究与应用平台开发。该子课题以疾病蛋白质组学多实验室合作研究为应用背景，针对面向主题的数据资源整合的共性问题，研究基于元数据，支持跨地域、跨数据库的蛋白质组学数据资源共享与整合平台。该平台通过将要查询的各数据库的元数据按相同标准集成到一个元数据库中，统一对数据的理解，解决各数据库结构异构的问题；利用本体丰富的知识，对元数据进行标注，解决各数据库语义异构问题，通过本体的概念、本体术语与元数据间的映射关系实现对各生物数据库的集成查询。研究的主要内容包括应用于蛋白质组学数据资源整合的公共元数据标准、蛋白质组学实验室数据资源的数据库元数据转换和生成技术、蛋白质组学数据资源元数据库及元数据管理功能、基于蛋白质组学本体的数据资源的语义描述和一致化映射、基于元数据的蛋白组学数据整合工具等方面，并将上述工作集成为通用的数据共享与整合平台，利用该平台可建立面向特定主题的、元数据集中、基础数据分布的虚拟中心数据库，支持在多个领域的应用。经过研究与实践，蛋白质组学数据资源元数据库已建立完成，元数据导入与管理工具也己投入使用，同时开发完成了基于用户模式的查询工具，为本文的研究工作打下了坚实的基础。 1 2 - 2 主要研究内容本硕士课题正是以课题组建立的元数据库为基础，研究实现了基于语义元数据的分布式异构数据库集成系统( s e m d i s ) ，利用根据本体与元数据的映射生成的语义元数据来解决分布数据源之间结构异构问题，实现对各分布数据源的整合查询。具体研究内容主要包括： 1 ) 语义元数据的生成与管理技术根据本体知识库与数据的e r 模型的相似性，本文对如何建立本体与元数据的映射进行了研究，并设计实现语义元数据生成工具，可以方便的实现本体的类与表的映射以及本体的类属性与表的字段的映射。 2 ) 基于本体的查询构建工具的设计与实现对多个数据源的查询都要提供给用户一个全局模式，以屏蔽底层数据源各种异构，本文利用本体的概念模型作为全局模式，设计实现了查询构建工具，可以第7 页国防科学技术大学研究生院硕士学位论文帮助用户方便的根据需要构建查询。 3 ) 用户查询语句和解析为了帮助用户构建查询，系统允许用户根据查询需要手工输入查询语句，也可以根据系统提供的查询构建工具构建查询。为了对用户的查询有一个良好的表示，本文参考s p a r q l 和s q l 设计了一种中间查询表示语言s e m q l ，用来对用户查询进行表示，并设计实现了一个解释器，可以对用户查询进行解析，以方便对用户查询的转化和扩展。 4 ) 基于本体的查询扩展由于用户对分布的数据源的信息了解不够，一般的集成方法中用户提出的查询通常不能充分的得到用户想要的数据。本文在利用本体对分布数据源的描述的基础上，利用本体构建知识的推理功能，来帮助提高用户的查全率和查准率。 5 ) 查询计划生成研究系统把用户的查询经过推理扩展生成一个查询集合，根据这个集合以及语义元数据结构，本文设计一个转化算法，首先把基于本体的查询转化为基于关系数据库的查询，然后，在考虑保证查询结果正确性和完整性的前提下，生成一个面向多个数据源的查询计划，这个计划不仅仅包括对每一个数据源查询，还包括对多个数据源间查询结果的关系运算。 6 ) 各集成数据库查询结果的整合与清理研究各数据源查询结果的保存与连接方法，优化性能，提高集成查询结果的准确性。 1 3 研究目的与意义为了能更好地集成生物数据，帮助生物学家进行数据整合的逻辑设计和对数据进行查询分析，本文设计并实现了基于元数据的分布式异构数据库集成查询工具，以提高集成查询的灵活性和准确性。本课题研究的意义主要表现在以下几个方面： 1 ) 研究了本体知识库与数据e r 模型的各自特点，针对他们之间的相似性，提出把本体与元数据建立映射生成语义元数据，并把语义元数据用于数据集成，解决了多个数据源间的结构异构和语义异构两个方面的难题。 2 ) 利用本体构建知识库的推理功能，通过语义元数据建立的本体与元数据的映射，对用户的查询进行推理扩展，提高了查全率。 3 ) 基于多个数据源的物理分布和逻辑分布性的特点，设计了有效的查询计划生成算法，根据此算法，可以把用户的查询转化为一个对多个数据源的查询计划，并通过执行这个计划，不仅能保证用户查询结果的精确性，而且能保证用户查询第8 页国防科学技术大学研究生院硕士学位论文结果的完整性。 1 4 论文结构组织本文共分为七章，每章的内容如下：第一章引言。以8 6 3 课题为背景，简要分析了当前生物蛋白质数据的集成需求，针对在生物蛋白质数据集成过程中所面临的各种难点，引出本课题所要解决的问题；比较了几种把本体用于数据集成的方法，分析了各自的特点和应用方向；介绍了课题的研究背景、研究内容和意义。第二章元数据、本体、语义元数据与数据集成。主要介绍了数据集成、元数据、本体的定义和数据集成常用方法，分析了本体与元数据在数据集成中的应用。在此基础上，提出了语义元数据的定义，并分析了语义元数据的组成及用于数据集成的意义。第三章与实现有关的技术研究。在第二章对元数据、本体和语义元数据的分析的基础上，主要讨论了基于c w m 的元数据管理方式，有关描述逻辑的智能推理理论、o w l 本体描述语言以及基于j e n a 的本体开发等s e m d i s 所应用到的技术，为s e m d i s 系统开发提供技术支持。第四章基于语义元数据的分布式异构数据库集成系统框架。主要对s e m d i s 的应用背景进行了需求分析，进而提出了系统整体设计方案，介绍了各个应用模块的功能，并从整体上对系统进行了技术分析。下一章将详细分析开发过程中使用的关键技术与算法。第五章s e m d i s 关键技术与算法的研究与设计。对s e m i d s 中的关键机制进行了分析与设计，重点分析了语义元数据的生成和管理、基于本体的查询构建、用户查询的定义、解析、分解、转换以及各数据源查询结果的连接等重要步骤，并分别设计了相应的算法。第六章s e m i d s 原型实现。在模块功能设计和关键技术研究的基础上，实现了集成查询工具的原型系统。本章介绍系统开发环境，并把几个关键模块的应用说明进行了简单介绍。第七章结束语。总结了已取得的成果，对本课题的下一步研究进行了展望。第9 页国防科学技术大学研究生院硕士学位论文第二章元数据、本体、语义元数据与数据集成 2 1 数据集成 2 1 1 数据集成概述随着信息化的快速发展和信息交流的日益广泛，数据集成技术走进了越来越多的应用领域。所谓数据集成，就是将若干个分散的数据源中的数据，逻辑或者物理地集中一个数据集合中的过程。数据集成的目标是实现数据共享和信息交流，其核心任务是要将互相关联的分布式异构数据源集成到一起，使用户尽量可以不过多的考虑数据源的细节信息而实现对分布数据源的透明访问。要构建一个优秀的数据集成系统必须保证用户能以低代价、高效率获取分布数据源中的数据，要实现这个目标，必须解决数据集成中的一些难题。数据集成中的难题主要包括以下几个方面： 1 异构性。被集成的数据源是独立开发的，并且数据源的开发背景、研究水平及科研条件不尽相同，就必然导致分布的数据源间存在着各种形式的异构。异构性是困扰数据集成系统的一个核心问题，数据源间的异构性主要体现在两个方面：一是结构异构。结构异构主要表现在不同的数据源可能使用不同的管理工具，部署在不同的操作系统上，结构异构主要导致了各个数据源的访问接口不同，对于结构异构当前有很多成熟的技术可以解决，比如o d b c 、j d b c 等都支持对多种数据库管理系统的访问，其他的如利用包装器技术也可以很好的解决数据源间的结构异构；二是语义异构。语义异构又包括两个方面，数据源模式间的语义异构，一般是指多个数据源数据命名规则及相应数据类型存在不同，而数据间的语义异构是指由于数据源在构建实体模型时，采用了不同的粒度划分、不同的实体间关系，以及不同的实体数据语义表示，造成了不同数据源间数据的不同描述。 2 分布性。集成数据源的分布性问题包括两个方面，一是物理上分布性，是指数据源在物理不是集中的，而分布在不同的多个地区，多个数据源间实现跨网络联接。二是逻辑上分布性，是指同一个体的不同属性可能分布不同的数据源中。集成数据源的分布性问题是影响集成效率和系统安全性的一个关键环节。 3 自治性。集成数据源的创建、修改、查询和维护是独立的，不受其他数据源的影响，单个集成数据源加入或者

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机科学与技术专业论文）基于语义元数据的分布式异构数据库集成研究.pdf

文档简介

温馨提示

最新文档

评论

（计算机科学与技术专业论文）基于语义元数据的分布式异构数据库集成研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档