已阅读5页,还剩58页未读, 继续免费阅读
(计算机应用技术专业论文)海量异构数据集成系统的设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名: 丝i 缦客。 日期: 丛f ! :f 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。 本人签名:至渔丝日期: 导师签名 北京邮电大学2 0 1 0 届硕士毕业设计( 论文) 海量异构数据集成系统的设计与实现 摘要 随着当代资讯的不断发展,人们获得的信息量与数据量都有极大 的增长,同时也使不同领域的信息量激增且共享要求不断提高。目前, 已经存在很多针对数据集成的先进技术,取得了瞩目的成果。然而, 如果涉及到存在大量分布松散的异构数据源,且这些数据源表达形式 各异,尚没有成熟的技术或应用能够有效地解决该类别的海量异构数 据集成问题。 本文以海量异构数据系统为研究对象,设计并实现了针对海量异 构数据进行有效集成的高效数据集成系统m a s s d i s 来解决上述问题。 主要研究工作包括以下几个方面: 1 调查研究了国内外主要的数据集成方案,通过比较综述了主 流数据集成方案的优缺点,并根据实际情况提出了解决本文所面临的 具体问题的海量异构数据集成系统模型; 2 调研了开发本海量异构数据集成系统所涉及的关键技术,针 对实际情况有选择的对本系统所采用的关键技术进行深入研究; 3 设计并实现了一种基于数据视图和人工神经网络的海量异构 数据集成系统,该系统可以对终端用户提供统一的查询视图。 系统的运行结果显示,本文中描述的海量异构数据集成系统在数 据处理效率,数据吞吐量,扩展性,安全性,准确性以及用户界面友 好性等方面都达到了较高水平。基本解决了海量异构数据集成中遇到 的诸多难题,为海量异构数据源及数据的快速共享提供了一种新颖的 解决思路。 关键词:异构数据集成数据视图数据映射特征抽取 d e s i g na n di m p l e m e n t a t i o no ft h em a s s i v e h e t e r o g e n e o u sd a t ai n t e g r a t i o ns y s t e m a b s t r a c t 晰t ht h ec o n t i n u o u sd e v e l o p m e n to ft h ei n f o r m a t i o na n dt h e i n c r e a s eo fd m a ,w eh a v ea c c u m u l a t e dm a s s i v ed a t ai nd i f f e r e n tf i e l d sa n d a tt h es a m et i m e ,t h er e q u i r e m e n to fs h a r i n gi n f o r m a t i o nh a sm o r ea n d m o r ei m p r o v e d b u th o w e v e r , i nd i f f e r e n tf i e l d so re n t e r p r i s e s ,t h e r em a y b es i g n i f i c a n td i f f e r e n c e si nt h eo r g a n i z a t i o n a lf o r mo ft h ed a t ab e t w e e n l o o s e d i s t r i b u t i n gd a t as o u r c e s ,w h i c hm a k e s t h es h a r i n go fd a t ag r e a t d i f f i c u l t t h ee m e 唱e n c eo fm a s s i v eh e t e r o g e n e o u sd a t ai n t e g r a t i o n s y s t e ms o l v e st h i sp r o b l e m i nt h i sp a p e r , w ec r e a t eap r o m p ti n t e g r a t i o ns y s t e mc a l l e dt h e m a s s d i su s i n gg r e a te f f e c t i v ed e s i g na n dr e a l i z a t i o n t h em a i nw o r k i n c l u d e st h ef o l l o w i n ga s p e c t s : 1 i n v e s t i g a t ea n ds t u d y t h em a i nd o m e s t i ca n df o r e i g nd a t a i n t e g r a t i o np r o g r a m s b yc o m p a r i n g t h ea d v a n t a g e sa n dd i s a d v a n t a g e so f d i f f e r e n td a t ai n t e g r a t i o ns o l u t i o n s ,w es u g g e s t e das o l u t i o nb a s e d o nt h e a c t u a ls i t u a t i o no ft h es p e c i f i cp r o b l e m s ; 2 s t u d yt h ed e v e l o p m e n to f t h i sm a s s i v eh e t e r o g e n e o u sd a t a i n t e g r a t i o ns y s t e m ,a n dc h o o s et h ek e yt e c h n o l o g i e si n v o l v e df o r t h e a c t u a ls i t u a t i o no ft h es y s t e mt ol e a r ni n d e p t h ; 3 d e s i g na n di m p l e m e n t am a s s i v eh e t e r o g e n e o u sd a t ai n t e g r a t i o n s y s t e mb a s e d o nt h ed a t av i e wa n da r t i f i c i a ln e u r a ln e t w o r k s ,w h i c hc a l l o r o v i d eau n i f i e de n d u s e rd a t av i e w t h er e s u l t sw h e nu s i n gt h i ss y s t e ms h o w e dt h a ti nt h ea s p e c t so f d a t ap r o c e s s i n ge f f i c i e n c y , d a t at h r o u g h p u t ,s c a l a b i l i t y , s e c u r i t y , a c c u r a c y a n du s e r - f r i e n d l yi n t e r f a c ed e s c r i b e di nt h i sa r t i c l e ,t h eh e t e r o g e n e o u s d a t ai n t e g r a t i o ns y s t e mh a sr e a c h e dah i g hl e v e la n da l s oe n l i g h t e n st h e w a yw ed i s p o s et h em a s s i v eh e t e r o g e n e o u sd a t ai n t e g r a t i o n 北京邮电人学2 0 1 0 届硕士毕业设计( 论文) k e yw o r d s :d a t a i n t e g r a t i o n d a t av i e wd a t am a p p i n gf e a t u r e e x t r a c t i o n 北京邮电大学2 0 1 0 届硕士毕业设计( 论文) 目录 第一章绪论1 1 1 研究背景与意义1 1 2 数据集成概述2 1 3 数据集成面临的困难与挑战2 1 4 论文的组织结构3 第二章国内外研究现状。4 2 1 主流集成方案4 2 1 1 模式集成方法4 2 1 2 数据复制方法6 2 1 3 综合型集成方法7 2 2 存在的问题和展望8 2 2 1 待解决的主要问题8 2 2 2 不确定性问题【3 1 8 2 2 3 技术展望:9 第三章关键技术研究。1 0 3 1 开发框架1 0 3 1 1j 2 e e 框架1 0 3 1 2s o a 与s a a s 1 1 3 1 3a o p 框架1 2 3 2 组件通信技术r m i 。1 3 3 3 设计模式1 4 3 4 数据挖掘和特征抽取。1 5 3 4 1 数据挖掘技术的基础。1 5 3 4 2 数据挖掘技术的发展1 5 3 4 3 特征抽取概述。1 6 第四章m a s s d i s 系统设计。1 7 4 1 系统需求分析1 7 4 1 1 对海量数据的处理能力。1 7 4 1 2 对异构数据的集成能力一1 7 4 1 - 3 对系统数据特点的分析1 8 4 1 4 数据集成系统与信息检索服务的关系。1 8 4 1 5 来自互联网的启示。1 9 4 2 设计原则f 9 j f 川2 0 4 2 1 单一职责原则( s r p ) 2 0 4 2 2 开放封闭原则( o c ) 2 0 4 2 3 里氏代换原则( l s p ) 2 0 4 2 4 依赖倒转原则( d 口) 2 1 4 2 5 迪米特法则( l o d ) 2 2 4 3 系统概要设计2 2 4 3 1 系统整体结构2 2 北京邮电人学2 0 1 0 届硕上毕业设计( 论文) 4 3 2 系统功能模块2 3 4 3 3 子系统的划分与设计。2 s 第五章m a s s d i s 系统实现与性能分析。3 7 5 1 主要困难及其解决方案3 7 5 1 1 归并算法的研究与实现。3 7 5 1 2 排序算法的研究与实现3 8 5 1 3 统一视图的研究与实现。4 0 5 1 4 索引算法的研究与实现。4 0 5 2 其他困难。4 l 5 2 1 负载均衡的瓶颈。4 1 5 2 2 特征抽取的凼难4 1 5 3 系统性能分析4 2 5 3 1 系统初始化状态描述。4 2 5 3 2 系统运行时状态描述一4 3 5 3 3 简单系统性能分析4 4 第六章总结与展望4 5 6 1 总2 :吉4 5 6 2 展望4 5 6 2 1 系统即服务。4 5 6 2 2 云计算模型4 6 6 2 3 物联网方向4 6 参考文献4 8 附录5 0 致谢5 2 攻读学位期间发表的学术论文目录5 3 北京邮电大学2 0 1 0 届硕士毕业设计( 论文) 1 1 研究背景与意义 第一章绪论 随着计算机技术和网络技术的迅猛发展,在企业内部都逐步实现了业务、办 公自动化等计算机管理。但是,各个机构或部门由于业务和功能归属不同,因此 采用了不同的软硬件环境,各部门基本上都有独立的业务系统,如审计部门有审 计系统、财务部门有财务系统等。这些系统之间相互交叉,有着重复的信息和数 据,相互之间却不能进行信息交流和共享,成为“信息孤岛 。数据源的异构导 致了系统间信息交互和互操作非常困难,数据更新不能同步,既给客户提供了一 些不一致的信息,又给信息的维护和管理增加了工作量。更加上企业的大量数据 源松散分布在地理位置各异的地方,数据源之间的数据组织形式又受经济文化等 因素影响而各异。因此,如何能够安全准确地实现企业间信息资源共享就成为一 个十分重要的问题。为了能对数据进行继承和一体化管理、实现网络环境下的信 息共享,必须解决海量异构数据集成的需求。 数据源异构性主要表现在: ( 1 ) 系统异构:数据源所依赖的业务应用系统、数据库管理系统、操作系统 乃至文件系统之间不同。 ( 2 ) 模式异构:数据源在逻辑结构或存储模式上不同。存储模式主要包括关 系模式、对象模式、对象关系模式和文档嵌套模式等几种。其中,关系模式( 关 系数据库) 为主流存储模式。对于同一类存储模式,它们的逻辑结构也可能存在 差异。例如,不同关系数据管理系统的数据可能存在命名、数据类型、意义、包 含内容等方面的不一致。 ( 3 ) 来源异构:内部数据源和外部数据源之间在产生时间、使用时间、使用 场所、使用用途、代码与协议等方面不一致。 关于数据源的异构问题已经涌现出许多优秀的解决方案。但是这些解决方案 对海量的分布松散的异构数据源系统或者数据源之间数据组织形式各异的数据 系统并没有提供有效的集成方案。分布松散这里指数据源在地理位置上分布广 泛;数据组织形式各异指每个数据源系统在开发的时候数据表达等相异。本文提 出一种基于数据视图映射的数据集成系统,取名为m a s s d i s ( m a s s i v e h e t e r o g e n e o u s d a t ai n t e g r a t i o ns y s t e m ) ,着重解决现实操作中遇到的海量松散数 据源系统以及数据组织形式相异的数据源系统的集成问题。 北京邮电大学2 0 1 0 届硕士毕业设计( 论文) 1 2 数据集成概述 上面讲到了“信息孤岛问题,就大型企业和政府部门的信息化而言,信息 系统建设通常具有阶段性和分布性的特点,这就导致“信息孤岛现象的存在。 “信息孤岛造成系统中存在大量冗余数据、垃圾数据,无法保证数据的一致性, 从而降低信息的利用效率和利用率。为解决这一问题人们开始关注数据集成研 究。数据集成的核心任务是要将互相关联的分布式异构数据源集成到一起,使用 户能够以透明的方式访问这些数据源。集成是指维护数据源整体上的数据一致 性、提高信息共享利用的效率;透明的方式是指用户无需关心如何实现对异构数 据源数据的访问,只关心以何种方式访问何种数据。 实现数据集成的系统称作数据集成系统( 图1 1 ) ,它为用户提供统一的数据 源访问接口,执行用户对数据源的访问请求。 天 图1 - 1 数据集成系统模型 1 3 数据集成面临的困难与挑战 数据集成的难点可以归纳为以下主要方面【l 】: ( 1 ) 异构性:被集成的数据源通常是独立开发的,数据模型异构,给集成带 来很大困难。这些异构性主要表现在:数据语义、相同语义数据的表达形式、数 据源的使用环境等。 ( 2 ) 分布性:数据源是异地分布的,依赖网络传输数据,这就存在网络传输 的性能和安全性等问题。 ( 3 ) 自治性:各个数据源有很强的自治性,它们可以在不通知集成系统的前 提下改变自身的结构和数据,给数据集成系统的鲁棒性提出挑战。 异构数据源的数据整合和集成的目的是为企业信息系统提供集成、统一、 安全、快捷的信息查询、数据挖掘和决策支持服务。企业应用系统要求从不同的 2 北京邮电大学2 0 1 0 届硕士毕业设计( 论文) 部门取得重要的生产数据,以保证实现计划与调度的协同优化,实现动态调度优 化。目前,企业根据各专业的需要实施了一些专业管理软件,以后将有更多的专 业管理软件在企业内应用。这些专业软件来自于不同的软件提供商,各自遵循不 同的信息编码规范和数据统计标准,数据格式不一致、数据统计标准不一致,即 使将不同应用系统的数据拷贝到同一个电子表格中,可对比性也很不好。并且, 不一致的信息不但不能给领导决策提供支持,还会造成新的困惑,影响决策的效 率和效果。如果全部采用同一个厂商的软件产品来解决数据一致性的问题,就会 削弱对专业需求的支持,将得不偿失。目的之二是希望基于现有系统构建上层新 系统。为了满足以上需求,整合、集成后的数据必须保证一定的集成性、完整性、 一致性和访问安全性。 为了解决这些难题,人们尝试了很多方法。但还没有完全解决数据集成中的 一些难题,这也是人们一直关注数据集成研究的原因。本文在前人研究的基础上 给出了一种高效解决海量异构数据集成的解决方案。 1 4 论文的组织结构 本文共分以下各部分: 第一章:绪论。介绍了本文的课题背景、数据集成的概念、目前数据集成领 域面临的挑战及论文的组织结构; 第二章:国内外研究现状。介绍当前主流的数据集成方法并分析其优缺点, 综述目前数据集成方法存在的问题并对数据集成未来的发展进行展望; 第三章:关键技术研究。介绍本课题设计与实现过程中所涉及到的关键技术: 第四章:m a s s d i s 系统设计。详细介绍与本课题相关的海量异构数据集成系 统的设计过程,包括系统的设计思想,各子系统的划分及其相应接口等; 第五章:m a s s d i s 系统实现与性能分析。通过对实现过程中遇到的难题如何 解决的方式对文章所设计系统的具体的实现进行阐述。 第六章:总结与展望。对本文的相关主题进行总结,指出本文的特点,同时 发掘需要改进之处。 3 北京邮电人学2 0 1 0 届硕士毕业设计( 论文) 2 1 主流集成方案1 1 l 第二章国内外研究现状 通过对国内外研究现状的分析和总结可以看出,主要的集成方式可以分为模 式集成方法、数据复制方法和将前两者结合的综合型集成方法。相比较而言,国 外对于数据集成的研究更加注重某些高效算法和解决思路的研究和应用,开发的 系统已相对成熟。国内对于数据集成的研究虽然也取得了一定成果,但在研究和 应用的深度上尚有一定差距。另外,一些基于x m l 和高效中间件的方法,以及 数据挖掘的兴起,也为数据集成提供了新的思路。总的来说,目前国内外的数据 集成普遍存在如下问题:系统稳定性差,不易扩展和推广;检索时间过长,效率 相对低下;很多系统未能对检索结果进行合并、去重等。 2 1 1 模式集成方法 模式集成是人们最早采用的数据集成方法。其基本思想是,在构建集成系统 时将各数据源的数据视图集成为全局模式,使用户能够按照全局模式透明地访问 各数据源的数据。全局模式描述了数据源共享数据的结构、语义及操作等。用户 直接在全局模式的基础上提交请求,由数据集成系统处理这些请求,转换成各个 数据源在本地数据视图基础上能够执行的请求。模式集成方法的特点是直接为用 户提供透明的数据访问方法。由于用户使用的全局模式是虚拟的数据源视图,一 些学者也把模式集成方法称作虚拟视图集成方法。 模式集成要解决两个基本问题:构建全局模式与数据源数据视图间的映射关 系;处理用户在全局模式基础上的查询请求。 模式集成过程需要将原来异构的数据模式作适当的转换,消除数据源间的异 构性,映射成全局模式。全局模式与数据源数据视图间映射的构建方法有两种: 全局视图法( g l o b a l a s v i e w ,也有称作g l o b a l c e n t r i c ) 和局部视图法 ( l o c a l a s v i e w ,也有称作s o u r c e c e n t r i c ) 。全局视图法中的全局模式是在数据源 数据视图基础上建立的,它由一系列元素组成,每个元素对应一个数据源,表示 相应数据源的数据结构和操作;局部视图法先构建全局模式,数据源的数据视图 则是在全局模式基础上定义,由全局模式按一定的规则推理得到。用户在全局模 式基础上查询请求需要被映射成各个数据源能够执行的查询请求,这一过程有很 多算法其中基于局部视图法的映射算法比较复杂,而基于全局视图法的映射算 法要简单许多。 联邦数据库和中间件集成方法是现有的两种典型的模式集成方法。 4 北京邮电大学2 0 1 0 届硕士毕业设计( 论文) 2 1 1 1 联邦数据库 这是早期人们采用的一种模式集成方法。联邦数据库中数据源之间共享自己 的一部分数据模式,形成一个联邦模式。 联邦数据库系统按集成度可分为两类:采用紧密耦合联邦数据库系统和采用 松散耦合联邦数据库系统。紧密耦合联邦数据库系统使用统一的全局模式,将各 数据源的数据模式映射到全局数据模式上,解决了数据源间的异构性。这种方法 集成度较高,用户参与少;缺点是构建一个全局数据模式的算法复杂,扩展性差。 松散耦合联邦数据库系统比较特殊,没有全局模式,采用联邦模式。该方法提供 统一的查询语言,将很多异构性同题交给用户自己去解决。松散耦合方法对数据 的集成度不高,但其数据源的自治性强、动态性能好,集成系统不需要维护一个 全局模式。 2 1 1 2 中间件集成方法 此集成方法是另一种典型的模式集成方法,它同样使用全局数据模式。 g w i e d e r h o l d 最早给出了基于中间件的集成方法的构架。与联邦数据库不同, 中间件系统不仅能够集成结构化的数据源信息,还可以集成半结构化或非结构化 数据源中的信息,如w e b 信息。斯坦福大学g a r c i a - m o l i n a 等人在1 9 9 4 年开发 了t s i m m i s 系统,就是一个典型的中间件集成系统。 图2 - 1 基于中间件的数据集成模1 2 1 典型的基于中间件的数据集成系统( 图2 1 ) 主要包括中间件和包装器,其中 每个数据源对应一个包装器,中间件通过包装器和各个数据源交互。用户在全局 数据模式的基础上向中间件发出查询请求。中间件处理用户请求,将其转换成各 个数据源能够处理的子查询请求,并对此过程进行优化,以提高查询处理的并发 5 北京邮电大学2 0 1 0 届硕十毕业设计( 论文) 性,减少响应时间。包装器对特定数据源进行了封装,将其数据模型转换为系统 所采用的通用模型,并提供一致的访问机制。中间件将各个子查询请求发送给包 装器,由包装器来和其封装的数据源交互,执行子查询请求,并将结果返回给中 间件。 中间件注重于全局查询的处理和优化,相对于联邦数据库系统的优势在于: 它能够集成非数据库形式的数据源,有很好的查询性能,自治性强;中间件集成 的缺点在于它通常是只读的,而联邦数据库对读写都支持。并且,中间件集成对 中间件系统的依赖程度非常高,几乎不能很好地扩展。 2 1 2 数据复制方法 数据复制方法将各个数据源的数据复制到与其相关的其它数据源上,并维护 数据源整体上的数据一致性、提高信息共享利用的效率。数据复制可以是整个数 据源的复制,也可以是仅对变化数据的传播与复制。数据复制方法可以减少用户 使用数据集成系统时对异构数据源的数据访问量,从而提高数据集成系统的性 能。 最常见的数据复制方法就是数据仓库方法。该方法将各个数据源的数据复制 到同一处数据仓库。用户则像访问普通数据库一样直接访问数据仓库。 数据复制方法可以从数据传输方式和数据复制触发方式两个方面来划分。 数据传输方式是指数据在发布数据的源数据源和订阅数据的目的数据源间 的传输形式,可分为数据推送和数据拉取。数据推送是指源数据源主动将数据推 送到目的数据源上。而数据拉取则是目的数据源主动向源数据源发出数据请求, 从源数据源获取数据到本地。在有些情况下,数据发布端传送到数据订阅端的数 据并不直接存储到目的数据源中,需要经过数据订阅端的本地化处理,这时通常 采用缓存来协调数据发布端和数据订阅端的异步。在数据推送的方式下,数据缓 存要构建在数据订阅端;而在数据拉取的方式下,数据缓存则要构建在数据发布 端。 数据复制触发方式是指集成系统调用数据复制的方式。集成系统通常预先定 义了一些事件,这些事件可以包括:对数据发布端引起的数据变化的某个操作、 数据发布端数据缓存累积到一定批量、用户对某个数据源发送访问请求、具有一 定间隔的时间点等。当这些事件被触发时执行相应的数据复制。因此,数据复制 触发方式按事件定义的不同可以分为:数据变化触发、批量触发、客户调用触发、 定时触发等。数据复制通常直接采用端到端方式,也有一些数据集成系统使用专 为数据周转服务的数据平台。数据复制时,数据发布者先将数据传送到这个数据 平台上,由数据平台处理后转发给数据订阅者。数据平台要处理好网络负担和并 6 北京邮电大学2 0 1 0 届硕士毕业设计( 论文) 发控制问题。使用数据平台的好处是单点控制、便于管理。但数据平台增加了系 统的复杂性,降低了系统的可靠性。 现在比较流行的基于x m l 的集成方案就在一定程度上采用了数据复制的思 想。首先用某种高效算法将数据转换为一定形式的结构性良好的x m l 文档,然 后,在访问具体数据的时候可以忽略数据库管理系统直接搜索x m l 文档。 这虽然给出了一种较新颖的集成思路,但是现阶段这种思想仍存在以下缺 陷: l 、数据转换效率不高。这种集成需要将所有需要的数据转换成x m l ,x m l 只是组织结构良好,但是搜索性能不是很高。并且相对于海量异构数据,这种方 式的集成会使得数据更加分散,艰于管理。 2 、数据更新、删除响应度偏低。对于需要大量修改的数据,这种文件操作 会耗费大量资源,即便是将文件进行拆分也将耗费大量时间。 2 1 3 综合型集成方法 以上两种数据集成方法各有优缺点及适用范围。模式集成方法为用户提供了 全局数据视图及统一的访问接口,透明度高;但该方法并没实现数据源间的数据 交互,用户使用时经常需要访问多个数据源,因此该方法需要系统有很好的网络 性能。数据复制方法在用户使用某个数据源之前,将用户可能用到的其它数据源 的数据预先复制过来,用户使用时仅需访问某个数据源或少量的几个数据源,这 会大大提高系统处理用户请求的效率;但数据复制通常存在延时,使用该方法时, 很难保障数据源之问数据的实时一致性。 模式集成方法适用于被集成的系统规模大、数据更新频繁、数据实时一致性 要求高的情况。当很难预测用户的查询需求时,也适合采用这种方法。在模式集 成方法中,人们通常采用中间件方法。由于联邦数据库在集成时需要为每个数据 源单独编写大量的通讯接口。因此现在单纯的联邦数据库方法已很少被采用。 数据复制则适用于数据源相对稳定、用户查询模式已知或有限的情况。当数 据分布性比较广,网络延迟较大,同时又需要有很短的处理时间时,也可考虑采 用数据复制集成方法。 有些应用场合需要对数据进行备份,这时通常采用数据复制方法;还有一些 场合,出于机密性的考虑,数据不允许复制,这时就要使用模式集成方法了。 为了突破两种方法的局限性,人们通常将这两种方法混合在一起使用,即所 谓的综合方法。综合方法通常是想办法提高基于中间件系统的性能,该方法仍有 虚拟的数据模式视图供用户使用,同时能够对数据源间常用的数据进行复制。对 于用户简单的访问请求,综合方法总是尽力通过数据复制方式,在本地数据源或 7 北京邮电大学2 0 1 0 届硕士毕业设计( 论文) 单一数据源上实现用户的访问需求;而对那些复杂的用户请求,无法通过数据复 制方式实现时,才使用虚拟视图方法。下表给出了上面两种数据集成方法的比较: 表2 - i 两种数据集成方法的比较【1 】 集成方法优点缺点 实时一致性好 执行效率低 模式集成方法网络依赖性强 透明度高 算法复杂 执行效率高 数据复制方法实时一致性差 网络依赖性弱 本文综合考虑数据源的因素,认为可以既保证数据实时性,也保证数据查询 的效率。这将在第四章给出介绍。 2 2 存在的问题和展望 2 2 1 待解决的主要问题 上面介绍了许多数据集成的具体方法。在这些方法中,对于海量数据源的松 散分布问题和数据源之间数据组织形式各异的问题这两个棘手的问题都没有进 行有效的解决。 所谓的海量数据源的松散分布,指的是在实际中,很多企业或组织的大量的 数据源松散的分布在地理位置各异的地方,或者多个分布松散企业或者组织之间 渴望共享各自的数据。例如大量分布在全国各地甚至世界各地的数据库管理系统 如何进行有效的集成就是很重要的一个问题。 数据源之间数据组织形式各异是指不同的企业组织或者同一个企业组织在 不同区域由于受当地经济文化、投入资金等等的影响和限制而形成的对同一类别 的数据,组织形式、命名含义等有所不同。例如不同国家或地区关于相同含义内 容的命名就会有所不同。 另外,系统对查询结果能够精确迅速的返回也是本文阐述的系统需要解决的 一个基本问题。这些问题在4 3 小节介绍m a s s d i s 系统的设计的时候会进行相应 的解决。 2 2 2 不确定性问题1 3 i 本文涉及的数据集成系统中的不确定性问题可以分为三个层次,即数据本身 的不确定性、模式匹配的不确定性和查询处理的不确定性。 首先,数据本身是不确定的。数据集成系统处理的数据多种多样,有些数据 8 北京邮电大学2 0 1 0 届硕上毕业设计( 论文) 本身就具有不确定性,例如通过信息抽取( i n f o r m a t i o ne x t r a c t i o n ) 系统技术以自 动的方式从文本或者半结构化的数据源中抽取的数据,由于抽取技术所限,这些 数据通常是不准确的;还有一些数据是从在线数据源中抽取的,数据集成系统很 难保证所抽取数据的可靠性和实时性。 其次,模式匹配( s c h e m am a p p i n g s ,也称为语义映射,即s c h e m am a t c h i n g ) 是不确定的。数据集成系统一般都是基于中介模式( m e d i a t e ds c h e m a ) 的,即先 建立中介模式与数据源之间的语义映射( s c h e m am a t c h i n g ) 关系,并通过这种语 义映射将用户提交到中介模式上的查询转换为具体数据源上的查询。遗憾的是, 中介模式与数据源之间的语义映射关系往往是不准确的,有些应用甚至不可能得 到准确的语义映射关系,例如生物信息领域,由于人们对该领域的认识有限,根 本就无法确定正确的语义映射。另外,模式匹配也可能是依赖于具体数据的,即 数据源与中介模式中介的模式匹配方式本身就是不确定的,需要根据具体数据的 特点来确定。 第三,查询的不确定性。数据集成的很多应用中查询通常都是以关键字的方 式提交的,这种查询方式不同于传统的结构化查询,其本身存在着不确定因素: 一是关键字表达的查询内容不确定,用户很难通过关键字清楚的表达自己的真实 意图,系统通常将关键词查询转化为一些可能的结构化查询,提交到具体的数据 源,这一转化过程是不确定的;第二,查询结果也是不确定的,关键字查询返回 的结果可能很多,究竟哪些结果是才是用户真正想要的,系统需要对查询结果给 出不确定程度的评价。 2 2 3 技术展望 数据集成经过多年的研究,已形成了几种典型的集成方法。虽然各种方法还 存在一定的缺陷,但随着一些关键问题的解决,依赖这些方法的数据集成方案被 越来越多地应用到各个领域。基于大量的调查与研究,作者认为,今后数据集成 的研究应该注重以下方面: ( 1 ) 关系数据模型与基于x m l 的半结构化数据间的映射。要保证映射前后数 据的完整性及一致性约束。 ( 2 ) 半结构化数据全局模式的构建方法和映射方法。同样要保证数据的完整 性和一致性约束能够在半结构化的数据间传递。 ( 3 ) 数据集成过程中安全可靠的数据传输。 ( 4 ) 依赖网格计算技术构建的数据集成解决方案。 我们相信,在x m l 、w e bs e r v i c e s 及网格计算等技术规范的推动下,数据 集成中的一些难题将会得到很好的解决,数据集成的应用也会更加广泛。 9 北京邮电大学2 0 1 0 届硕士毕业设计( 论文) 3 1 开发框架 3 1 1j 2 e e 框架 第三章关键技术研究 j 2 e ej a v a 2 平台企业版( j a v a2p l a t f o m ,e n t e r p r i s ee d i t i o n ) 核心是一组技术 规范与指南,其中所包含的各类组件、服务架构及技术层次,有共通的标准及规 格,让各种依循j 2 e e 架构的不同平台之间存在良好的兼容性,解决了过去企业 后端使用的信息产品彼此之间无法兼容,导致企业内部或外部难以互通的窘境。 3 111j 2 e e 的概念【4 】 j 2 e e 是一种利用j a v a2 平台来简化企业解决方案的开发、部署和管理相关 的复杂问题的体系结构。j 2 e e 技术的基础就是核心j a v a 平台或j a v a2 平台的标 准版,j 2 e e 不仅巩固了标准版中的许多优点,例如“编写一次、随处运行 的 特性、方便存取数据库的j d b ca p i 、c o r b a 技术以及能够在i n t e r n e t 应用中保 护数据的安全模式等等,同时还提供了对e j b ( e n t e r p r i s ej a v a b e a n s ) 、j a v as e r v l e t a p i 、j s p ( j a v as e r v e rp a g e s ) 以及x m l 技术的全面支持。其最终目的就是成为 一个能够使企业开发者大幅缩短投放市场时间的体系结构。 通过提供统一的开发平台,j 2 e e 降低了开发多层应用的费用和复杂性,同 时提供对现有应用程序集成强有力支持,完全支持e n t e r p r i s ej a v a b e a n s ,有良好 的向导支持打包和部署应用,添加目录支持,增强了安全机制,提高了性能。 3 112j 2 e e 的优势 j 2 e e 为搭建具有可伸缩性、灵活性、易维护性的商务系统提供了良好的机 制: 保留现存的1 1 r 资产:j 2 e e 架构可以充分利用用户原有的投资,每一个供应 商都对现有的客户提供了不用废弃已有投资,进入可移植的j 2 e e 领域的升级途 径。由于基于j 2 e e 平台的产品几乎能够在任何操作系统和硬件配置上运行,现 有的操作系统和硬件也能被保留使用。 高效的开发:j 2 e e 允许公司把一些通用的、很繁琐的服务端任务交给中间 件供应商去完成。这样开发人员可以集中精力在如何创建商业逻辑上,相应地缩 短了开发时间。 支持异构环境:j 2 e e 能够开发部署在异构环境中的可移植程序。基于j 2 e e 的应用程序不依赖任何特定操作系统、中间件、硬件。因此设计合理的基于j 2 e e 的程序只需开发一次就可部署到各种平台。这在典型的异构企业计算环境中是十 北京邮电大学2 0 1 0 届硕士毕业设计( 论文) 分关键的。j 2 e e 标准也允许客户订购与j 2 e e 兼容的第三方的现成的组件,把他 们部署到异构环境中,节省了由自己制订整个方案所需的费用。 可伸缩性:基于j 2 e e 平台的应用程序可被部署到各种操作系统上。例如可 被部署到高端u n i x 与大型机系统,这种系统单机可支持6 4 至2 5 6 个处理器。 ( 这是n t 服务器所望尘莫及的) j 2 e e 领域的供应商提供了更为广泛的负载平 衡策略。能消除系统中的瓶颈,允许多台服务器集成部署。这种部署可达数千个 处理器,实现可高度伸缩的系统,满足未来商业应用的需要。 稳定的可用性:一个服务器端平台必须能全天候运转以满足公司客户、合作 伙伴的需要。j 2 e e 部署到可靠的操作环境中,他们支持长期的可用性。一些j 2 e e 部署在w i n d o w s 环境中,客户也可选择健壮性能更好的操作系统如s u n s o l a r i s 、i b mo s 3 9 0 。最健壮的操作系统可达到9 9 9 9 9 的可用性或每年只需5 分钟停机时间。这是实时性很强商业系统理想的选择。 3 1 2s o a 与s a a s 3 121s o a 5 】 面向服务的体系结构( s e r v i c e o r i e n t e d a r c h i t e c t u r e ,s o a ) 是一个组件模型, 它将应用程序的不同功能单元( 称为服务) 通过这些服务之间定义良好的接口和 契约联系起来。接口是采用中立的方式进行定义的,它应该独立于实现服务的硬 件平台、操作系统和编程语言。这使得构建在各种这样的系统中的服务可以一种 统一和通用的方式进行交互。 这种具有中立的接口定义( 没有强制绑定到特定的实现上) 的特征称为服务 之间的松耦合。松耦合系统的好处有两点,一点是它的灵活性,另一点是,当组 成整个应用程序的每个服务的内部结构和实现逐渐地发生改变时,它能够继续存 在。而另一方面,紧耦合意味着应用程序的不同组件之间的接口与其功能和结构 是紧密相连的,因而当需要对部分或整个应用程序进行某种形式的更改时,它们 就显得非常脆弱。 对松耦合的系统的需要来源于业务应用程序需要根据业务的需要变得更加 灵活,以适应不断变化的环境,比如经常改变的政策、业务级别、业务重点、合 作伙伴关系、行业地位以及其他与业务有关的因素,这些因素甚至会影响业务的 性质。通常将能够灵活地适应环境变化的业务称为按需( o nd e m a n d ) 业务,在 按需业务中,一旦需要,就可以对完成或执行任务的方式进行必要的更改。 本系统采用了s o a 的思想,而不采用s o a 的具体实现。 3 1 2 2s a a s 6 j s a a s ( s o f t w a r e a sas e r v i c e ) 的意思是软件即服务,s a a s 的中文名称为软营 1 】 北京邮电大学2 0 1 0 届硕士毕业设计( 论文) 或软件运营。s a a s 是基于互联网提供软件服务的软件应用模式。作为一种在2 l 世纪开始兴起的创新的软件应用模式,s a a s 是软件科技发
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 山东可润新材料有限公司年产900万件EPP新材料制品水土保持报告表
- 阅武巷(规划一号路-大连路)新建道路工程水土保持报告表
- 第七师天北经济技术开发区社区综合服务设施项目水土保持报告表
- 紧急停机操作准则
- 某化工厂安全操作办法
- 铝型材厂挤压工艺细则
- 特种作业人员安全技术培训(初训)登记附表
- 2026宾大传媒面试题及答案
- 2026编辑策划面试题目大全及答案
- 卫生院处方点评登记本
- 24春国家开放大学《行政管理实务》形考任务1-4参考答案
- 湖南省长沙市周南梅溪湖中学2024届物理高二下期末综合测试试题含解析
- 膝关节患者护理课件
- (完整word版)中医病证诊断疗效标准
- GB/T 4761-1984家庭关系代码
- 第十一章公债
- GB/T 16895.6-2014低压电气装置第5-52部分:电气设备的选择和安装布线系统
- GB/T 13277.4-2015压缩空气第4部分:固体颗粒测量方法
- GB/T 11032-2020交流无间隙金属氧化物避雷器
- 仙剑奇侠传三外传之问情篇超级详细攻略
- 三菱J型自动扶梯维修工艺培训资料
评论
0/150
提交评论