




已阅读5页,还剩81页未读, 继续免费阅读
(计算机科学与技术专业论文)基于语义元数据的分布式异构数据库集成研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
国防科学技术大学研究生院硕士学位论文 摘要 随着生物工程领域各种技术的飞速发展,生物数据呈指数级增长。如何对这 些分布、异构、自治的生物数据库进行快速有效的整合查询成为生物研究专家面 临的一个难点。 为了解决目前生物数据集成查询中遇到的问题,作者所在课题组提出了一个 基于语义元数据的数据资源整合方案。该方案将要查询的各分布数据库的元数据 按照统一的标准集成到一个元数据库中,使用一个领域本体与元仓库建立映射生 成语义元数据,利用语义元数据解决异构数据库之间的结构异构和语义异构,实 现对各生物数据库的集成查询。该方案的最终目标是通过对有关内容的研究,解 决数据资源整合的共性问题,建立一个通用的数据共享与整合平台,形成面向特 定主题的、元数据集中、基础数据分布的虚拟中心数据库,支持在多个领域的应 用。 目前课题组已经建立了相应的元数据库,开发了元数据导入与管理工具。在 此基础上,本文主要对以下内容进行了研究: 1 ) 利用本体知识库与数据库e r 模型的相似性,提出把本体与元数据建立映 射生成语义元数据,并把语义元数据用于数据集成,用于解决多个数据库间的结 构异构和语义异构两个方面的难题。 2 ) 研究了如何利用本体构建知识库的推理功能,通过在生成语义元数据时建 立的本体与元数据的映射,对用户的查询进行推理扩展,从而帮助提高系统的查 全率和查准率。 3 ) 基于多个数据源的物理分布和逻辑分布性的特点,设计了有效的查询计划 生成算法,根据此算法,可以把用户的查询转化为一个对多个数据源的查询计划, 并通过执行这个计划,不仅能保证用户查询结果的精确性,而且能保证用户查询 结果的完整性。 通过以上研究,本文设计并实现了基于语义元数据的分布数据库集成原型系 统s e m d i s ,用户使用此系统可以基于本体对分布的异构数据库实现透明访问。 通过对系统的应用证明达到了研究目的,为课题下一步的研究打下了基础。 主题词:数据集成,元数据,本体,语义元数据,语义异构 第i 页 国防科学技术大学研究生院硕士学位论文 a b s t r a c t w i t ht h ed e v e l o p m e n to fm a n yt e c h n o l o g i e si nb i o l o g i cr e s e a r c h ,b i o l o g i c a ld a t a s h o war a p i di n c r e a s eo ne x p o n e n t i a ls e r i e s t h ei n t e g r a t i o no ft h eq u e r yf o rd i s t r i b u t e d h e t e r o g e n e o u sa u t o n o m o u sd a t a b a s e sb e c o m e sam a j o rp r o b l e mt ob i o l o g i s t a ni n t e g r a ls c h e m eo fr e s o u r c ed a t ab a s e do ns e m a n t i cm e t a d a t ai sp r o p o s e d i n o r d e rt os o l v et h ec u r r e n tp r o b l e mi nq u e r yo fb i o l o g i cd a t a i no u ri n t e g r a ls c h e m e ,t h e m e t a d a t ad i s t r i b u t e di na l ld a t a b a s e sw i l lb ei n t e g r a t e dt oo n em e t a d a t ad a t a b a s ei na u n i f i e ds t a n d a r d ,a n ds e m a n t i cm e t a d a t aw i l lb eb u i l tb ym a p p i n ga no n t o l o g yt ot h e m e t a d a t ad a t a b a s e t h es e m a n t i cm e t a d a t aw i l lb eu s e dt os o l v et h es t r u c t u r a l h e t e r o g e n e i t ya n dt h es e m a n t i ch e t e r o g e n e i t ya m o n gt h e d i s t r i b u t e dh e t e r o g e n e o u s a u t o n o m o u sd a t a b a s e s t h ef i n a lg o a lo ft h es c h e m ei st os o l v et h ec o m m o np r o b l e mo f i n t e g r a t i n gd a t ar e s o u r c e sb yas h a r a b l ei n t e g r a t i n gd a t ap l a t f o r m t h i sp l a t f o r mh e l p st o f o r mav i r t u a lc e n t e rd a t a b a s et h a tf a c e st h es p e c i f i ct o p i c ,t h ef o c u s e dm e t a d a t aa n d d i s t u r b e db a s i cd a t a ,a n dt h u st os u p p o r tr e l a t i n gr e s e a r c h e si nv a r i o u sf i e l d s a tp r e s e n t ,o u rt e a mh a sb u i l tr e l a t i v em e t a d a t ad a t a b a s e s ,t a p p e dt h et o o l st o i m p o r ta n dm a n a g em e t a d a t a b a s e do nt h et e a mp r o j e c t ,t h i sp a p e r f o c u s e sm a i n l yo n t h ef o l l o w i n ga s p e c t s 1 r e s e a r c ho nt h ec o m p a r a b i l i t yb e t w e e nt h ek b ( k n o w l e d g eb a s e ) o ft h eo n t o l o g y a n dt h ee rm o d e lo ft h er e l a t i o n a ld a t a b a s ea n dp r o p o s et ob u i l dt h em a p p i n go ft h e m t op r o d u c es e m a n t i cm e t a d a t a ;t h eu s eo ft h es e m a n t i cm e t a d a t at os o l v et h es t r u c t u r a l h e t e r o g e n e i t ya n dt h es e m a n t i ch e t e r o g e n e i t ya m o n gt h ed i s t r i b u t e dh e t e r o g e n e o u s a u t o n o m o u sd a t a b a s e s ; 2 r e s e a r c ho nh o wt oe x p a n dt h eq u e r yt oi m p r o v et h eq u e r yr e c a l la n dq u e r y p r e c i s i o nb yu s i n gt h er e a s o n i n ga b i l i t yo fk b ; 3 t h ed e s i g no fah i g h p o w e r e da l g o r i t h mb a s e do nt h ep h y s i c a ld i s t r i b u t i n ga n d l o g i s t i cd i s t r i b u t i n go ft h ed a t a b a s e s ,w h i c hc a nc h a n g et h eq u e r yt oaq u e r yp l a na n d m a k et h eq u e r yr e s u l ti n t e g r a t e da n da c c u r a t e t h ea u t h o rh a sf i n i s h e dt h ed e s i g no fs e m d i s ( d a t a b a s ei n t e g r a t i o ns y s t e mb a s e d o ns e m a n t i cm e t a d a t a ) b yu s i n gs e m d i s ,t h eu s e r sc a nq u e r yt h ed i s t r i b u t e d h e t e r o g e n e o u sa u t o n o m o u sd a t a b a s e sp e l l u c i d l y i t sa p p l i c a t i o ns h o wt h a ts e m d i si s s i g n i f i c a n tt os o l v et h ep r o b l e mi nd a t ai n t e g r a t i o na n dm a k eag o o db a s e m e n tf o rt h e p r o g r e s so ft h et e a m k e yw o r d s :d a t ai n t e g r a t i o n ,m e t a d a t a ,o n t o l o g y ,s e m a n t i cm e t a d a t a , s e m a n t i ch e t e r o g e n e i t y 第i i 页 国防科学技术大学研究生院硕士学位论文 表目录 表1 1数据源d 1 中的部分数据3 表1 2 数据源d 2 中的部分数据3 表6 1 三种用户权限对应表6 5 表6 2数据源d 1 中的表p r o t e i n 示例数据7 0 表6 3数据源d 2 中的表m o u s ep r o t e i n s 示例数据7 0 表6 4 数据源d 2 中的表m o u s ed n a 示例数据7 1 表6 5 数据源d 2 中的表t r a n s l a t i o n 示例数据7 1 表6 6 示例查询结果7 2 第1 v 页 国防科学技术大学研究生院硕士学位论文 图1 1 图2 1 图2 2 图2 3 图2 4 图2 图2 图2 图2 图2 9 图2 1 0 图2 1 1 图2 1 2 图3 1 图3 2 图3 3 图3 4 图3 5 图3 6 图3 7 图4 1 图4 2 图4 3 图4 4 图5 1 图5 2 图5 3 图5 4 图5 5 图5 6 图5 7 图5 8 图目录 g e n b a n k 数据增长趋势图1 数据仓库体系结构1 1 联邦数据库体系结构1 2 中间件体系结构1 2 基于元数据的数据集成体系结构1 4 一个生物本体示例l5 本体类与表之间的互相映射1 7 一个本体类与多个数据源的映射1 8 一个表与多个类的映射1 8 一个本体与同一数据源中的多个表的映射1 9 类的数据类型属性与元数据的映射1 9 对象属性映射情况一2 0 对象属性与元数据映射情况二2 l c w m 描述生物数据库的实例2 4 元数据库中部分表的结构和存储的信息2 5 一个简单的r d f 图示例2 6 j e n a 系统架构图3 0 r d fa p i 主要接口3 0 o n t o l o g ya p i 主要接口3l j e n a 推理机结构3 2 s e m d i s 应用示意图3 4 s e m d i s 的u s ec a s e 图3 5 s e m d i s 执行一个查询的s e q u e n c e 图一:3 5 s e m d i s 整体结构图3 6 c w m 部分实体类及类与类之间的关系4 l 连接本体库的类图4 2 获取本体树第一级子节点算法的流程图4 3 表o n t o l o g y _ m e t a _ m a p p i n g 与表c o r e m o d e l e l e m e n t 4 5 解析结果数据结构示意图4 8 对象属性值域类数据结构示意图4 8 s e m q l 示例解析结果4 9 本体与元数据的映射示例1 5 0 第v 页 国防科学技术大学研究生院硕士学位论文 图5 9 图5 1 0 图5 1l 图5 1 2 图5 1 3 图5 1 4 图6 1 图6 2 图6 3 图6 4 图6 5 图6 6 图6 7 图6 8 本体与元数据的映射示例2 5 0 查询推理扩展模块结构图5l 查询树示例5l 推理扩展算法流程图5 3 映射检查调整后的查询树5 4 查询转化及分配示意图6 0 本体与元仓库的映射建立界面6 6 查询构建界面6 7 查询属性选择窗口6 7 查询属性限制窗口6 8 数据类型属性限制窗口6 8 对象属性限制窗口6 9 对对象属性的进一步查询限制6 9 查询构建结果示例7 0 第v i 页 独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:主丝亟旦卫生 日期: 庐7 年,月日 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留、使用学位论文的规定。本人授权 国防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子 文档,允许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密学位论文在解密后适用本授权书。) 学位论文作者签名: 作者指导教师签名: 日期:脚7 年i 月6 日 日期:1 年1 1 月f 6 日 国防科学技术大学研究生院硕士学位论文 第一章引言 1 1 课题研究背景 1 1 1 生物工程领域的数据整合需求 伴随着科技的不断进步,人类在生物工程领域进行了深入探索,并取得了飞 快的发展。 生物工程领域研究发展的一个突出特点就是生物数据的指数级增长。例如, 随着人类基因组计划( h u m a ng e n o m ep r o j e c t ,h g p u ) 的实施,通过基因组测序、蛋 白质序列测定和结构解析等实验,生物学家提供了大量有关生物分子的原始数据, 同时通过对原始数据进行比对、分析、仿真及预测等工作,又产生了大量的解释 数据,并且伴随着研究的深入,相应的生物信息数据爆炸性增长。图1 1 显示了美 国国立卫生研究院维护的g e n b a n k 基因序列数据库1 2 】从1 9 8 2 年到2 0 0 8 年间的数 据增长情况。生物信息数据的快速增长引起了各研究机构的高度重视,他们各自 采取的有效的办法对本机构产生的实验数据进行管理。刚才提到的g e n b a n k 基因 序列数据库就是采用关系数据库对基因序列数据进行管理存储;其他还有像 s w i s s p r o t 蛋白质序列数据库【3 】和p d b 生物大分子结构数据库【4 】等。伴随各种 生物数据库产生的还出现了生物数据的不同格式的表现形式,比如f a s t a 、g b 、 a b i 等。 g r o w t ho fg e n b a n k 1 9 8 2 - 2 0 0 8 言 甚 譬 z o 屯 芒 葛 t 暑 五 图1 1g e n b a n k 数据增长趋势刚5 i 生物工程领域研究发展的另一个突出特点就是广泛的合作与资源共享。生物 工程的研究是一个庞大的工程,单靠某一个实验室或者机构想在生物工程领域取 第l 页 国防科学技术大学研究生院硕士学位论文 得一个全面的进展从当前的技术水平来看并不是非常现实。当前世界范围内的生 物工程研究专家都关注了这一问题,从而产生了大到全球范围小到国家、区域范 围的不同程度的多个生物工程合作计划。由美国科学家于1 9 8 5 年提出于1 9 9 0 年 正式启动的人类基因组计划就是由美国、英国、法国、德国、日本和我国等六个 国家共同参与完成的,其他的还有小范围内的合作,比如国内的几个实验室针对 某一个专题开展合作研究等。多个机构实验室甚至国家之间的合作交流极大地提 高了生物工程研究的进展速度。同时,为了更好更快的开展生物领域的研究,减 少重复实验,多个国家机构之间实现资源共享,为生物工程研究提供了非常便利 的条件。 生物数据的爆炸性增长和广域的合作与资源共享是生物工程研究进展的两个 突出特点,说明了生物工程研究的卓见成效以及在这一领域的良好的发展环境, 但这两个特点对多个实验室间的数据资源共享带来了很大的挑战。由于每一个实 验室的研究背景、研究水平及科研条件不尽相同,他们在管理自己的数据时都是 立足自身条件采用各自的管理模式,导致了多个实验室之间在数据的存放形式、 数据模式的定义等方面存在不同,即便都是以关系数据库系统进行管理数据也存 在数据库管理系统、数据库模式以及使用术语的不同。从而就出现了多个彼此之 间存在多种形式结构异构和语义异构的生物数据源。生物学家要想使用不同数据 源中的数据,必须对各个数据源中的数据管理模式有一个清楚的了解,然后才能 根据个人的查询需求制定相应的查询计划,最后还需要对从各个数据源中所得的 查询结果进行合并、过滤等一系列操作,才能获得自己想要的信息,这样的查询 过程不仅效率低下,浪费了大量的研究时间,而且由于生物学家不可能对每一个 数据源都有一个非常清楚的了解,查准率和查全率不高。因此,如何对多个数据 源进行整合,向生物学家提供一个统一的查询接口,生物学家根据这一接口实现 对各个分布数据源的透明访问,从而使生物学家从分布数据资源具体、繁琐的查 询细节中解脱出来,是一个需要深入探讨的问题。 1 1 2 本体在数据集成中的应用 伴随着i n t e m e t 技术和数据库技术的飞速发展以及人们在各个领域的信息交流 需求,数据集成技术应运而生。在过去的三十年间,数据集成技术取得飞速的发 展,并在各行业领域都得到了广泛应用,对当前信息技术的发展起了很大的推动 作用。 追溯数据集成技术的发展轨迹,从小范围的分布式数据库技术【6 】、异构数据库 集成技术【。7 】到广范围的网格计算技术【8 】、云计算技术【9 】,从主要用于解决数据库间 的结构异构而采用的数据仓库技术1 1 0 】、联邦数据库技术【1 0 】到当前本体技术与多种 第2 页 国防科学技术大学研究生院硕七学位论文 集成技术的结合,数据集成技术在往超大规模数据量级和智能化方向发展,而往 智能化发展的一个关键技术就是对本体【1 1 1 的利用。文献【1 7 】【1 8 】【1 9 】【2 0 1 【5 0 】【5 l 】【5 2 】【5 3 】【5 4 】【5 5 l 中都把本体用于了数据集成领域,当前,数据集成领域对本体的使用主要在两个 方面,一是使用本体解决数据间的语义冲突,二是使用本体解决数据源模式问的 语义冲突。 1 1 2 1 使用本体解决数据间的语义异构 多个数据源间的语义异构存在于两个方面,首先是数据间的语义异构。对于 多个数据源来讲,由于使用了不同的术语规范,并且各个数据源对所包含数据定 义的层次、量度都不尽相同,就导致了相同数据在不同数据源中的不同表示,产 生数据间的语义异构,文献【1 2 】中的一个示例说明了这一问题。在表1 1 和表1 2 分 别为数据源d 1 和d 2 中存放的均为相关生物的部分蛋白质数据,数据源d 1 对蛋 白质数据的描述使用了e cn u m b e r 标准的分类模式,对每一个蛋白质数据都使用 一个e cn u m b e r 词目进行描述,而数据源d 2 对蛋白质数据的描述相应的使用了 m i p sf u n c a t 分类模式进行描述。不同的分类模式导致了两个数据源描述的蛋白质 数据间产生了语义异构,同一蛋白质p 3 5 6 2 6 在不同的数据源中因为分类模式的不 同导致了无法根据同一分类模式进行查询。 表1 1 数据源d 1 中的部分数据 p r o t e i ni dp r o t e i nn a m ep r o t e i ns e q u e n c ep r o s i t em o t i f se cn u m b e r b e t a - a d r e n e r g i c m a d l e a v l a dr g s2 7 1 1 2 6 p 3 5 6 2 6v s y l m a m e k sp r o tk n 、jd o mb e t a - a d r e n e r g i c r e c e p t o rk i n a s e2 p hd o m a i n r e c e p t o rk i n a s e a s p a r t y l a s p a r a g i n y l m a q r k n a k s s t p r1 1 4 1 1 1 6 q 1 2 7 9 7 g n s s s s g s g s t p r r e g i o np e p t i d e - a s p a r t a t e b e t a - h y d r o x y l a s e t p r b e t a - d i o x y g e n a s e 表1 2 数据源d 2 中的部分数据 a ng e n ea as e q u e n c e l e n g t h m l p sf u n c a t m a d l e a v l a d p 3 5 6 2 6s c e lv s y l m a m e k s5 7 816 olp r o t e i nb i n d i n g v s s l p k e s q a p 0 7 2 7 8b c y l e l q l f q n e i n 4 1 5 1 6 1 9 0 1c y c l i c n u c l e o t i d eb i n d i n g 目前解决数据问的语义异构的通用方法是使用一领域本体对产生语义异构的 数据进行标注,利用领域本体的明确性和共享性屏蔽数据的语义异构,以满足对 多个数据源数据的集成要求。针对这一应用,很多领域都构建了应用于解决数据 第3 页 国防科学技术大学研究生院硕士学位论文 问语义异构的领域本体,比如生物领域的g o t l 3 】、p r o t l 4 】、m b o t l 5 j 等。f i i 例中, 存在于两个数据源的相同的蛋白质由于使用了e cn u m b e r 和m i p sf u n c a t 两种不同 的标准定义,导致不能使用一个标准查询两个数据源中的数据,带来了查询难度。 数据源d 1 中p r o t e i ni d 为p 3 5 6 2 6 的蛋白质对应的e cn u m b e r 值为e c2 7 1 1 2 6 , 数据源d 2 中a n 值为p 3 5 6 2 6 的蛋白质的m i p sf u n c a t 值为m i p s1 6 0 1 ,仅使用 e cn u m b e r 或者m i p sf u n c a t 都不能获得存在于两个数据源中的信息。这种情况就 可以使用g o 对两个数据源中数据进行标注,数据源d l 中的e c2 7 1 1 2 6 与g o 中的g o0 0 4 7 6 9 6 等价,可以用g o0 0 4 7 6 9 6 对数据源d 1 中的蛋白质p 3 5 6 2 6 进行 标注,同样数据源d 2 中的m i p s1 6 0 1 与g o 中的g o0 0 4 7 6 9 6 等价,使用g o 0 0 4 7 6 9 6 对数据源d 2 中的蛋白质p 3 5 6 2 6 进行标注等等。标注后的两个数据源统 一使用了g o 标准进行查询,解决了数据源数据间的语义异构。 1 1 2 2 使用本体解决数据源模式间的语义异构 多个数据源间的语义异构另外一个方面,就是数据源模式间的语义异构。数 据源模式间的语义异构不同于数据间的语义异构,它是指当数据源在构建实体模 型时,相同类别个体在不同的数据源中采用了不同的命名规则,从而在多个数据 源间产生的语义异构现象。使用本体解决数据源模式间语义冲突的主要思想是通 过本体与各数据源模式间的映射,利用本体的明确性和共享性,把各数据源的局 部模式集成为一个基于本体的全局模式,使用户可以不用考虑分布数据源的模式 信息,而能够按照全局模式透明的访问各数据源。 1 1 3 国内外研究现状 由于生物信息整合与共享的重要性,国内外许多组织和机构都投入了相当多 的人力和物力对此进行了广泛的研究,相关的研究成果也已经投入了实际运用, 如美国n c b i 的e n t r e z l l6 1 、美国爱荷华州立大学的i n d u s l l 2 】【17 1 、英国曼彻斯坦大 学的t a m b i s t l8 】【1 9 1 、德国比勒费尔德大学的s e m e d a 2 0 】,以及国内复旦大学的 b i o d w l 2 1 1 和浙江大学的d a r t g r i d t 2 2 】等。下面主要介绍其中比较典型的基于本体做 集成的三个系统: 1 i n d u s i n d u s 是美国爱荷华州立大学人工智能实验室开发的一个开源的生物信息集 成系统,使用了中介器包装器的集成方式,用于从分布式语义异构数据源中进行 知识获取的联邦查询中心系统。它通过使用本体对分布数据源中的数据进行标注 解决各个分布生物数据源间的数据间的语义冲突,同时在集成层根据用户的不同 需求构建用户模式,通过用户模式与单个数据源模式间的映射解决多个数据源模 式间的语义冲突,使用户不必考虑分布数据源的位置、模式等细节,基于已经构 第4 页 国防科学技术大学研究生院硕士学位论文 建的用户模式,就可以实现对各个数据源的访问。 i n d u s 很好的解决了分布数据源间在数据间和模式间两个方面语义异构,对 于解决生物数据集成中的语义冲突问题提供了一个好的范例,特别是在面向特定 应用的集成用户需求方面,只要根据用户需求构建好用户模式,就可以很方便地 实现对多个数据源的访问。但是特定用户模式的构建又大大的限制了系统的灵活 性,对面向多种需求的查询用户有所欠缺。 2 t a m b i s t a m b i s ( t r a n s p a r e n ta c c e s st om u l t i p l eb i o i n f o r m a t i c si n f o r m a t i o ns o u r c e s ) 是英国曼彻斯坦大学为实现对s w i s s p r o t ,c a t h ,p r o s i t e ,e n z y m e ,和b l a s t 等生物 的集成而研发的一个生物数据源集成系统。t a m b i s 系统同样使用中介器包装器 的集成方式实现对低层数据源的集成,他通过对每一个局部数据源建立一个包装 器,包装器对不同的局部数据库系统进行包装并向中间层提供访问接口,再由中 间层对多个全局数据源的访问接口进行统一,向全局用户提供基于统一访问接口, 既保持局部数据库系统的安全等级不变,又实现了透明的访问控制。 t a m b i s 系统使用t a o ( t a m b i so n t o l o g y ) 2 3 】作为项层本体,使用t a o 描 述可能要查询的知识和底层数据资源的模式,并把用户基于本体的查询翻译成一 个或者多个对数据库的查询,从而解决了多个数据源模式间语义异构。查询用户 不必关心分布数据源的细节,只需要根据系统基于t a o 构建的术语服务器构建用 户查询,就可得到所需要的查询结果。 3 s e m e d a s e m e d a ( s e m a n t i cm e t a - d a t a b a s e ) 是德国比勒费尔德大学面向分子生物数 据库的集成而开发的一个分布式数据源集成系统。s e m e d a 系统为了解决数据集 成中模式间的语义异构、数据间的语义异构以及数据源中数据有关类别的语义缺 失等三个问题提供了很好的解决办法。特别是在解决模式间语义异构问题方面, s e m e d a 系统使用一领域本体对各个数据源中的属性名进行标注,很好的解决了 多个数据源属性间的同名异义及同义异名的现象,为我们展开此方面的研究提供 了很好的参考。 通过对i n d u s 、t a m b i s 和s e m e d a 三个生物数据集成系统研究现状的分 析,我们可以看出,利用本体的明确性和共享性可以很好的解决数据集成中数据 间语义异构及模式间的语义异构。三个系统对于解决模式层的语义异构各自采用 了不同的方式,i n d u s 系统使用构建用户模式的方式面向特定应用比较有效,但 又不够灵活;t a m b i s 和s e m e d a 都在数据源模式层使用了本体,但两者在对本 体的利用上又有所区别,t a m b i s 重在把用户基于本体的查询翻译成一个或者多 个对数据库的查询,而s e m e d a 系统重在使用本体术语对数据源中实体的属性进 第5 页 国防科学技术大学研究生院硕士学位论文 行标注。三个系统均是着眼某方面的需求使用本体解决语义异构,但都没有把本 体描述的知识库与数据的实体关系模型的相似性进行深入探讨。因此,在当前研 究的基础上,利用本体知识库与数据的实体关系模型的相似性特征,使用本体对 数据源的结构化元数据进行描述生成语义元数据并应用数据集成领域,从而解决 数据集成中的结构异构和语义异构无疑是数据集成的一个新的研究契机。 第6 页 国防科学技术大学研究生院硕士学位论文 1 - 2 1 课题来源 1 2 课题研究内容 本硕士课题来源于国家高技术研究发展计划( 8 6 3 计划) 重点课题“人类肝脏 蛋白质组生物信息学研究 的一个子课题“基于元数据的蛋白质组数据资源整合 关键技术研究与应用平台开发 。该子课题以疾病蛋白质组学多实验室合作研究 为应用背景,针对面向主题的数据资源整合的共性问题,研究基于元数据,支持 跨地域、跨数据库的蛋白质组学数据资源共享与整合平台。该平台通过将要查询 的各数据库的元数据按相同标准集成到一个元数据库中,统一对数据的理解,解 决各数据库结构异构的问题;利用本体丰富的知识,对元数据进行标注,解决各 数据库语义异构问题,通过本体的概念、本体术语与元数据间的映射关系实现对 各生物数据库的集成查询。研究的主要内容包括应用于蛋白质组学数据资源整合 的公共元数据标准、蛋白质组学实验室数据资源的数据库元数据转换和生成技术、 蛋白质组学数据资源元数据库及元数据管理功能、基于蛋白质组学本体的数据资 源的语义描述和一致化映射、基于元数据的蛋白组学数据整合工具等方面,并将 上述工作集成为通用的数据共享与整合平台,利用该平台可建立面向特定主题的、 元数据集中、基础数据分布的虚拟中心数据库,支持在多个领域的应用。 经过研究与实践,蛋白质组学数据资源元数据库已建立完成,元数据导入与 管理工具也己投入使用,同时开发完成了基于用户模式的查询工具,为本文的研 究工作打下了坚实的基础。 1 2 - 2 主要研究内容 本硕士课题正是以课题组建立的元数据库为基础,研究实现了基于语义元数 据的分布式异构数据库集成系统( s e m d i s ) ,利用根据本体与元数据的映射生成 的语义元数据来解决分布数据源之间结构异构问题,实现对各分布数据源的整合 查询。具体研究内容主要包括: 1 ) 语义元数据的生成与管理技术 根据本体知识库与数据的e r 模型的相似性,本文对如何建立本体与元数据的 映射进行了研究,并设计实现语义元数据生成工具,可以方便的实现本体的类与 表的映射以及本体的类属性与表的字段的映射。 2 ) 基于本体的查询构建工具的设计与实现 对多个数据源的查询都要提供给用户一个全局模式,以屏蔽底层数据源各种 异构,本文利用本体的概念模型作为全局模式,设计实现了查询构建工具,可以 第7 页 国防科学技术大学研究生院硕士学位论文 帮助用户方便的根据需要构建查询。 3 ) 用户查询语句和解析 为了帮助用户构建查询,系统允许用户根据查询需要手工输入查询语句,也 可以根据系统提供的查询构建工具构建查询。为了对用户的查询有一个良好的表 示,本文参考s p a r q l 和s q l 设计了一种中间查询表示语言s e m q l ,用来对用 户查询进行表示,并设计实现了一个解释器,可以对用户查询进行解析,以方便 对用户查询的转化和扩展。 4 ) 基于本体的查询扩展 由于用户对分布的数据源的信息了解不够,一般的集成方法中用户提出的查 询通常不能充分的得到用户想要的数据。本文在利用本体对分布数据源的描述的 基础上,利用本体构建知识的推理功能,来帮助提高用户的查全率和查准率。 5 ) 查询计划生成研究 系统把用户的查询经过推理扩展生成一个查询集合,根据这个集合以及语义 元数据结构,本文设计一个转化算法,首先把基于本体的查询转化为基于关系数 据库的查询,然后,在考虑保证查询结果正确性和完整性的前提下,生成一个面 向多个数据源的查询计划,这个计划不仅仅包括对每一个数据源查询,还包括对 多个数据源间查询结果的关系运算。 6 ) 各集成数据库查询结果的整合与清理 研究各数据源查询结果的保存与连接方法,优化性能,提高集成查询结果的 准确性。 1 3 研究目的与意义 为了能更好地集成生物数据,帮助生物学家进行数据整合的逻辑设计和对数 据进行查询分析,本文设计并实现了基于元数据的分布式异构数据库集成查询工 具,以提高集成查询的灵活性和准确性。 本课题研究的意义主要表现在以下几个方面: 1 ) 研究了本体知识库与数据e r 模型的各自特点,针对他们之间的相似性, 提出把本体与元数据建立映射生成语义元数据,并把语义元数据用于数据集成, 解决了多个数据源间的结构异构和语义异构两个方面的难题。 2 ) 利用本体构建知识库的推理功能,通过语义元数据建立的本体与元数据的 映射,对用户的查询进行推理扩展,提高了查全率。 3 ) 基于多个数据源的物理分布和逻辑分布性的特点,设计了有效的查询计划 生成算法,根据此算法,可以把用户的查询转化为一个对多个数据源的查询计划, 并通过执行这个计划,不仅能保证用户查询结果的精确性,而且能保证用户查询 第8 页 国防科学技术大学研究生院硕士学位论文 结果的完整性。 1 4 论文结构组织 本文共分为七章,每章的内容如下: 第一章引言。以8 6 3 课题为背景,简要分析了当前生物蛋白质数据的集成需 求,针对在生物蛋白质数据集成过程中所面临的各种难点,引出本课题所要解决 的问题;比较了几种把本体用于数据集成的方法,分析了各自的特点和应用方向; 介绍了课题的研究背景、研究内容和意义。 第二章元数据、本体、语义元数据与数据集成。主要介绍了数据集成、元数 据、本体的定义和数据集成常用方法,分析了本体与元数据在数据集成中的应用。 在此基础上,提出了语义元数据的定义,并分析了语义元数据的组成及用于数据 集成的意义。 第三章与实现有关的技术研究。在第二章对元数据、本体和语义元数据的分 析的基础上,主要讨论了基于c w m 的元数据管理方式,有关描述逻辑的智能推 理理论、o w l 本体描述语言以及基于j e n a 的本体开发等s e m d i s 所应用到的技术, 为s e m d i s 系统开发提供技术支持。 第四章基于语义元数据的分布式异构数据库集成系统框架。主要对s e m d i s 的应用背景进行了需求分析,进而提出了系统整体设计方案,介绍了各个应用模 块的功能,并从整体上对系统进行了技术分析。下一章将详细分析开发过程中使 用的关键技术与算法。 第五章s e m d i s 关键技术与算法的研究与设计。对s e m i d s 中的关键机制进 行了分析与设计,重点分析了语义元数据的生成和管理、基于本体的查询构建、 用户查询的定义、解析、分解、转换以及各数据源查询结果的连接等重要步骤, 并分别设计了相应的算法。 第六章s e m i d s 原型实现。在模块功能设计和关键技术研究的基础上,实现 了集成查询工具的原型系统。本章介绍系统开发环境,并把几个关键模块的应用 说明进行了简单介绍。 第七章结束语。总结了已取得的成果,对本课题的下一步研究进行了展望。 第9 页 国防科学技术大学研究生院硕士学位论文 第二章元数据、本体、语义元数据与数据集成 2 1 数据集成 2 1 1 数据集成概述 随着信息化的快速发展和信息交流的日益广泛,数据集成技术走进了越来越 多的应用领域。所谓数据集成,就是将若干个分散的数据源中的数据,逻辑或者 物理地集中一个数据集合中的过程。数据集成的目标是实现数据共享和信息交流, 其核心任务是要将互相关联的分布式异构数据源集成到一起,使用户尽量可以不 过多的考虑数据源的细节信息而实现对分布数据源的透明访问。要构建一个优秀 的数据集成系统必须保证用户能以低代价、高效率获取分布数据源中的数据,要 实现这个目标,必须解决数据集成中的一些难题。 数据集成中的难题主要包括以下几个方面: 1 异构性。被集成的数据源是独立开发的,并且数据源的开发背景、研究水 平及科研条件不尽相同,就必然导致分布的数据源间存在着各种形式的异构。异 构性是困扰数据集成系统的一个核心问题,数据源间的异构性主要体现在两个方 面:一是结构异构。结构异构主要表现在不同的数据源可能使用不同的管理工具, 部署在不同的操作系统上,结构异构主要导致了各个数据源的访问接口不同,对 于结构异构当前有很多成熟的技术可以解决,比如o d b c 、j d b c 等都支持对多种数 据库管理系统的访问,其他的如利用包装器技术也可以很好的解决数据源间的结 构异构;二是语义异构。语义异构又包括两个方面,数据源模式间的语义异构, 一般是指多个数据源数据命名规则及相应数据类型存在不同,而数据间的语义异 构是指由于数据源在构建实体模型时,采用了不同的粒度划分、不同的实体间关 系,以及不同的实体数据语义表示,造成了不同数据源间数据的不同描述。 2 分布性。集成数据源的分布性问题包括两个方面,一是物理上分布性,是 指数据源在物理不是集中的,而分布在不同的多个地区,多个数据源间实现跨网 络联接。二是逻辑上分布性,是指同一个体的不同属性可能分布不同的数据源中。 集成数据源的分布性问题是影响集成效率和系统安全性的一个关键环节。 3 自治性。集成数据源的创建、修改、查询和维护是独立的,不受其他数据 源的影响,单个集成数据源加入或者
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 少年有梦教学课件爱迪生
- 2025年考研政治模拟题及答案解析版
- 2025年网络安全工程师应聘考试题库及标准答案
- 2025年物流仓储领域运输调度员招聘考试模拟试题及答案解析
- 2025年散料搬运装置设备项目提案报告模板
- 2025年特种作业类危险化学品安全作业重氮化工艺作业-加氢工艺作业参考题库含答案解析
- 2025年回转换热干燥技术与设备项目提案报告模板
- 2024-2025学年八年级下学期语文期中试题汇编《诗歌鉴赏》含答案解析
- 专题11 维护国家利益(河北专用)5年(2021-2025)中考1年模拟《道德与法治》真题分类汇编
- 2025年特种作业类危险化学品安全作业-硝化工艺作业参考题库含答案解析
- 现场施工环境保护应急预案
- 施工现场临电方案
- 防汛设备租赁合同
- FKYXII温控旋流风口
- 《共情的力量》课件
- 《实验数据分析方法》课件
- 反家庭暴力法演示课件
- 《小鸭子学游泳》
- 钢面镁质风管施工方案
- 洗衣店营销推广与发展策略分析
- 检验批通用表室内墙面腻子
评论
0/150
提交评论