




已阅读5页,还剩94页未读, 继续免费阅读
(计算机软件与理论专业论文)企业信息系统中的数据整合技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
西北工业人学硕士学位论文 摘要 当前,信息技术和网络技术飞 速发展,越来越要求企业对内和对外优化业 务流程管理,实现数据流和业务运作的自 动化。为了适应企业需要,有越来越 多的应用系统被开发和应用,周围可获取的信息越来越多,人们也越来越认识 到这些数据的价值,但是这些资源不能被有效的利用数据以不同的格式被 分散存放在不同的数据库、不同的系统中,很难把它们集中起来进行分析和展 现。于是,跨企业级数据整合应运而生。 论文分析了现有的典型数据整合方案及其技术特点,总结出完成良 好的数 据整合方案所需要解决的问题。重点研究了进行数据整合所依赖的一些基本理 论和技术,提出了一个基本的数据整合模型。该模型采用 c / s结构,数据整合 中心作为服务器端对资源元数据信息进行集中式管理,适配器作为客户端是本 地应用主体的平台代理,与数据整合中心之间进行资源元数据信息和资源信息 的交互,并完成本地数据源到平台所表现虚拟数据库的数据格式映射。论文给 出了基本数据整合模型中的元数据管理、数据融合、安全以及交换和共享引擎 四个关键问题的解决方案。在基本数据整合模型的基础上,论文从链接方式、 多服务器模型、全局数据、视图处理和语义处理等几个不同的角度对基本的数 据整合模型进行了扩展和完善并最终构成一个理想的数据整合模型。论文的最 后通过三个典型用例,验证了所提出数据整合模型的可行性和实用性。 关键词:数据整合;映射;发布/ 订阅:请求/ 5 1-1 应:元数据 西北丁业大 学硕 学位论文 ab s t r a c t t o d a y , w it h t h e h ig h - s p e e d d e v e lo p m e n t o f in f o r m a t io n t e c h n o lo g y a n d n e t w o r k t e c h n o lo g y , it s m o r e a n d m o r e n e c e s s a ry f o r e n t e r p r is e s t o o p t im iz e t h e r e e x t e r n a l a n d i n t e r n a l b u s i n e s s f lo w m a n a g e m e n t a n d r e a l i z e t h e a u t o m a t io n o f t h e d a t a f lo w a n d b u s in e s s o p e r a t io n s . t o b e a d a p t e d t o t h e e n t e r p r is e s r e q u ir e m e n t , m o r e a n d m o r e a p p lic a t io n s y s t e m a r e d e v e lo p e d a n d u s e d a n d t h e r e i s mo r e a n d mo r e a v a i l a b le i n f o r ma t io n a r o u n d u s wh i le m o r e a n d m o r e p e o p le r e a l iz e t h e s e d a t u m s v a lu e , b u t t h e s e r e s o u r c e s c a n n o t b e u s e d a v a i la b lyt h e s e d a t u m s p r e a d o v e r m a n y h e t e r o g e n e o u s d a t a b a s e s a n d m a n y h e t e r o g e n e o u s s y s t e m s w it h d iff e r e n t f o r m a t s . it s v e ry h a r d t o c o l le c t t h e m t o a n a ly z e a n d e x h ib it . i n t h e s e c o n d it i o n s , c r o s s - e n t e r p r is e d a t a in t e g r a t io n e m e r g e s a s t h e t im e s r e q u ir e . t h e f i r s t p a rt o f t h is p a p e r p o in t s o u t t h e m e a n in g o f d a t a in t e g r a t io n , a n a ly z e s s o m e e x is t in g d a t a in t e g r a t io n s o lu t io n s a n d s u m u p p r o b le m s t o b e s o lv e d in a n ic e r d a t a i n t e g r a t io n s o l u t io n . t h e n e x t p a rt i n t r o d u c e s s o m e t h e o r ie s a n d t e c h n o lo g ie s a s t h e f o u n d a t io n o f d a t a in t e g r a t io n . t h e n a b a s ic d a t a in t e g r a t i o n m o d e l is p r e s e n t e d . i t is a c / s m o d e l c o m p o s e d o f a n e x c h a n g e s e r v e r a n d s e v e r a l a d a p t e r s . t h e e x c h a n g e s e r v e r i s in c h a r g e o f m a n a g i n g a ll r e s o u r c e m e t a d a t a in f o r m a t io n . a d a p t e r s a s t h e in t e g r a t io n p l a t f o r m a g e n t f o r lo c a l a p p l ic a t io n s e x c h a n g e a r e in c h a r g e o f f i n i s h i n g t h e d a t a f o r m a t s m a p p i n g b e t w e e n t h e lo c a l d a t a s o u r c e a n d v irt u a l d a t a b a s e r e p r e s e n t e d b y t h e p la t f o r m a n d e x c h a n g i n g r e s o u r c e m e t a d a t a in f o r m a t io n a n d r e s o u r c e in f o r ma t io n w it h t h e e x c h a n g e s e r v e r . l a t e r , s o m e im p o rt a n t p r o b le ms s o lu t io n s o f t h e b a s ic m o d e l a r e p r o v id e d . t h e f o l lo w in g e x t e n d s a n d p e r f e c t s t h e b a s ic d a t a i n t e g r a t io n m o d e l f r o m s e v e r a l d iff e r e n t p o in t s o f v ie w s u c h a s t h e l i n k e s t a b l is h me n t , t h e mu lt is e r v e r mo d e l , t h e g lo b a l d a t u m a n d v ie w s h a n d l in g a n d t h e s e m a n t ic m o d e l . t h e p a p e r s la s t p a rt g iv e s t h r e e t y p ic a l e x a m p le s b a s e d o n t h is m o d e l t o v a lid a t e it s f e a s ib i lit y a n d p r a c t ic a b i lit y k e y w o r d s : d a t a i n t e g r a t i o n ; m a p p in g ; p u b l i s h / s u b s c r i b e ; r e q u e s t / r e s p o n s e ; m e t a d a t a 西北工业大学硕 卜 学位论文 第1 章绪论 , . ,选题背景和意义 在高速发展的现代信息社会,政府和企业对信息管理的需求更加复杂,市 场的压力要求决策层作更快、更准确的决策。为了适应企业需要,有越来越多 的应用系统被开发和应用,周围可获取的信息越来越多,人们也越来越认识到 这些数据的价值,但是这些资源不能被有效的利用一一数据以不同的格式分散 存放在不同的数据库、不同的系统中,很难把它们集中起来进行分析和展现, 查找和处理数据需花费大量的时间和人力,有效信息的整理和传递工作比以往 任何时候都要困难,系统多样、信息分散等问题也更为突显。面对数据资源 的急剧膨胀,人们面临更加严峻的挑战: . 大量的数据没有标准和规范的接口,无法共享通用的数据源,信息相 对封闭,共享程度低。 . 信息加工、处理还在采用半手工方式,影响信息质量。无法直接从各 信息系统业务系统采集数据并加以综合利用。 . 业务产生的大量数据无法提炼升华为信息,及时提供给决策部门。 . 已 有的业务信息系统平台及开发工具互不兼容, 无法在大范围内应用。 . 无法对分散异构的多数据源实现实时的统一访问。 面对大片分散的信息孤岛, 如何去改变呢?改变的途径当然不是推倒重来, 因为这不现实, 代价也太大。目前迫切需要的,是在以往建设所打下的基础上, 对现有的系统加以有效的整合和提升,其核心和基础就在于将各系统的数据进 行整合。什么是数据整合?就是对分散异构的多数据源实现统一的访问,实时 地、智能地将有价值的数据传递给分析系统或其他应用系统进行信息的进一步 加工。通过数据的整合,企业可以降低投入成本,充分利用现有系统,达到最 大的资源利用,从而提高企业人员的工作效率,提升企业自身的综合能力,强 化核心竞争力。 在如今的电子商务随需应变环境中,激烈的竞争要求必须将企业内 外的信 息加以集成。客户关系管理、供应链管理和业务智能等方案之所以能够顺利实 现, 离不开对来自多数据源 ( 包括结构化和非结构化数据源) 信息的成功集成。 由于组织结构或运营方面的限制,这些数据源通常不适合进行全盘复制或在一 个数据库中进行合并。因此,对分散的数据源实施联邦式访问的需求增加。 自, 9 9 9年起,全国一些主要城市已开始进行企业基础信息交换工作。这 些交换工作主要发生在工商局、地税局、质监局等单位之间,并已在税收征管 系统、企业信用信息系统应用中发挥了重要作用。 西北工业大学硕 卜 学位论文 第1 章绪论 , . ,选题背景和意义 在高速发展的现代信息社会,政府和企业对信息管理的需求更加复杂,市 场的压力要求决策层作更快、更准确的决策。为了适应企业需要,有越来越多 的应用系统被开发和应用,周围可获取的信息越来越多,人们也越来越认识到 这些数据的价值,但是这些资源不能被有效的利用一一数据以不同的格式分散 存放在不同的数据库、不同的系统中,很难把它们集中起来进行分析和展现, 查找和处理数据需花费大量的时间和人力,有效信息的整理和传递工作比以往 任何时候都要困难,系统多样、信息分散等问题也更为突显。面对数据资源 的急剧膨胀,人们面临更加严峻的挑战: . 大量的数据没有标准和规范的接口,无法共享通用的数据源,信息相 对封闭,共享程度低。 . 信息加工、处理还在采用半手工方式,影响信息质量。无法直接从各 信息系统业务系统采集数据并加以综合利用。 . 业务产生的大量数据无法提炼升华为信息,及时提供给决策部门。 . 已 有的业务信息系统平台及开发工具互不兼容, 无法在大范围内应用。 . 无法对分散异构的多数据源实现实时的统一访问。 面对大片分散的信息孤岛, 如何去改变呢?改变的途径当然不是推倒重来, 因为这不现实, 代价也太大。目前迫切需要的,是在以往建设所打下的基础上, 对现有的系统加以有效的整合和提升,其核心和基础就在于将各系统的数据进 行整合。什么是数据整合?就是对分散异构的多数据源实现统一的访问,实时 地、智能地将有价值的数据传递给分析系统或其他应用系统进行信息的进一步 加工。通过数据的整合,企业可以降低投入成本,充分利用现有系统,达到最 大的资源利用,从而提高企业人员的工作效率,提升企业自身的综合能力,强 化核心竞争力。 在如今的电子商务随需应变环境中,激烈的竞争要求必须将企业内 外的信 息加以集成。客户关系管理、供应链管理和业务智能等方案之所以能够顺利实 现, 离不开对来自多数据源 ( 包括结构化和非结构化数据源) 信息的成功集成。 由于组织结构或运营方面的限制,这些数据源通常不适合进行全盘复制或在一 个数据库中进行合并。因此,对分散的数据源实施联邦式访问的需求增加。 自, 9 9 9年起,全国一些主要城市已开始进行企业基础信息交换工作。这 些交换工作主要发生在工商局、地税局、质监局等单位之间,并已在税收征管 系统、企业信用信息系统应用中发挥了重要作用。 西北工业大学硕十学位论文 2 0 0 2年 a月 5日,在中共中央办公厅和国务院办公厅联合转发的 国家 信息化领导小组关于我国电子政务建设指导意见 ( 中共中央办公厅1 7号文件) 中强调指出:” 我国电子政务建设必须充分利用己有的网络基础、业务系统和信 息资源,加强整合,促进互联互通、信息共享,使有限的资源发挥最大效益。” 在这一方针政策引导下, 我国各级政府行政方式开始逐渐打破原有的条块壁垒, 向1一体化,一站式 方向发展, 越来越多的政府服务与监管职能需要跨地域、 跨 部门联合完成。这一发展趋势充分表明,目前我国电子政务建设的重点己逐渐 由业务信息化转向信息资源的整合共享和开发利用。数据整合正成为目前我国 各行业、各领域的基础设施建设重点。 . 电子政务领域 目前,电子政务经常面临信息孤岛问题,各业务系统间的互联互通,信息 共享,业务协同是电子政务深入发展最迫切需要解决的问题。解决这些问题的 关键在于如何在各系统间进行有效的数据交换。 数据交换平台为电子政务系统以及系统间的信息交互和共享提供了一个分 布式数据交互和共享空间,具有较好的开放性,应同时满足用户各类平台、数 据源及应用间的数据的交换需求。 . 电子商务领域 随着电子商务的兴起,以各种各样的门户站点为基础的网上交易在持续快 速发展。 在美国, 逐渐成为主要的交易方式。网上交易是2 0 世纪最主要的技术 成就之一,它将改写商业规则,引发2 1 世纪商业领域革命性的变化。 在b 2 c的应用中,大量的用户通过网站上网购买商品, 请求服务,订购书 籍,支付费用,企业为了谋取更大的利润,提供更好的个性服务,和内部业务 更好地配合,需要对不同种类的大量用户需求采用不同种类流程,及时作出响 应,没有共享数据流系统是不可能及时处理这样大量的个性化用户需求。 在b 2 b应用中,通过共享数据把企业与企业之间、企业内部的业务流程有 机地集成起来,使得企业与企业之间的业务往来畅通无阻,并在企业内部得到 及时有效的处理,做到零库存,按需生产和服务。不同企业有不同情况,这种 业务流程千差万别,这恰是共享数据的用武之地,能够快速地开发具有很大灵 活性的应用系统。数据交换平台在这一应用领域市场前景无限。 . 企业应用领域 在企业内部,各类信息管理系统,办公自 动化,海关,保险,电信,客户 服务等共享信息系统是数据整合的应用范畴,通过共享数据平台系统,企业的 业务流程将得到极大的自 动化,企业的运行效率将得到极大的提高。 供应链 (c s c m)系统是数据整合最擅长的应用领域之一,通过使用数据交 换平台,把企业内部业务流程和企业外部业务流程 ( 供应商)有机的整合在一 西北工业人学硕 _ 学位论文 起,使得企业在计划、生产和销售上成为有机的结合在一起。比如: 一个重型设 备制造厂家提供一组产生订单的 we b服务, 接受发货单, 监视供应链上的库存, 这组服务使用一组x ml模式和ws d l 服务定义, 这些模式和定义是由生产线和 财务系统客户化产生的。 如果厂家想添加一个新的供应商及其销售代表到它的供应链中, 厂家可以 提 供另外的特殊的we b 服务来接受供应上的帐户数据到厂家的c r m系统中, 或者 c r m系统的提供者可以提供预置的we b服务来做同样的事情。但是无论哪一 种情况, 供应商都必须实现另外的we n服务的客户端来传递这些供货信息的帐 务数据。 如果供应商为2 5 个厂家供货, , 他就要为同一种数据标准实现2 5 中不同 的这种客户端。 但是如果所有合作厂家的供应链使用一致的数据共享服务, 事情就变得简单 有效了。一套数据交换和共享的事务就可以传送, 联系,持续同步这些帐户数据。 数据整合也可以通过传输必须的x s d和ws d l 来配置供应商的we b服务客户 端, 从而服务那些特定的we b服务。 现在厂商和供应商的系统就可以以更小的 时间空间代价来实现数据交换和共享了。 客户关系管理 ( c r m)是现代企业最重视的一个系统,通过 c r m 把企业 与客户联系了 起来,共享数据平台系统在这一领域的运用,将极大地改善客户 服务的质量,为客户提供即时地个性化的服务。 1 . 2国内外发展现状 信息化建设过程中,各职能部门通常采用不同的技术和体系结构来构建自 身的信息系统,使得跨平台数据共享与访问成为困难。目前异构系统之间的数 据交换与共享主要有两种方式来实现, 比较常见的是使用消息中间件 ( m s m q . 旧m m q等) 或者类似j m s来实现在异构系统之间传递封装数据后的消息, 从 而达到数据的交互与共享。另外,随着 s o a p ( 简单对象访问协议) 和 we b s e r v i c 技术的出现,提供了一种简单通用的, 穿透力较强的, 在松祸合、 分 布式的系统之间的对象访问能力,在此基础之上进行数据的交换与共享。 以上两种实现方式的共同特点是强化对中心交换结点的依赖作用, 其优点 和缺点是相互依存的: 优点是容易建立交换过程全局的监控和全部交换数据的 视图,缺点是过分依赖中心结点的枢纽作用,很难达到数据交换的自 治管理和 系统分布式的特点,中心数据流量过大,尤其是在互联网飞速发展的今天,试 图在互连网上建立中心传输结点是不可能的,但是如何将互联网作为一 个共同 的传输总线,而且还要安全可靠的传输数据将是不得不思考的问题。 但当今的技术条件下,数据交换所面临的阻碍主要是: 西北工业人学硕 _ 学位论文 起,使得企业在计划、生产和销售上成为有机的结合在一起。比如: 一个重型设 备制造厂家提供一组产生订单的 we b服务, 接受发货单, 监视供应链上的库存, 这组服务使用一组x ml模式和ws d l 服务定义, 这些模式和定义是由生产线和 财务系统客户化产生的。 如果厂家想添加一个新的供应商及其销售代表到它的供应链中, 厂家可以 提 供另外的特殊的we b 服务来接受供应上的帐户数据到厂家的c r m系统中, 或者 c r m系统的提供者可以提供预置的we b服务来做同样的事情。但是无论哪一 种情况, 供应商都必须实现另外的we n服务的客户端来传递这些供货信息的帐 务数据。 如果供应商为2 5 个厂家供货, , 他就要为同一种数据标准实现2 5 中不同 的这种客户端。 但是如果所有合作厂家的供应链使用一致的数据共享服务, 事情就变得简单 有效了。一套数据交换和共享的事务就可以传送, 联系,持续同步这些帐户数据。 数据整合也可以通过传输必须的x s d和ws d l 来配置供应商的we b服务客户 端, 从而服务那些特定的we b服务。 现在厂商和供应商的系统就可以以更小的 时间空间代价来实现数据交换和共享了。 客户关系管理 ( c r m)是现代企业最重视的一个系统,通过 c r m 把企业 与客户联系了 起来,共享数据平台系统在这一领域的运用,将极大地改善客户 服务的质量,为客户提供即时地个性化的服务。 1 . 2国内外发展现状 信息化建设过程中,各职能部门通常采用不同的技术和体系结构来构建自 身的信息系统,使得跨平台数据共享与访问成为困难。目前异构系统之间的数 据交换与共享主要有两种方式来实现, 比较常见的是使用消息中间件 ( m s m q . 旧m m q等) 或者类似j m s来实现在异构系统之间传递封装数据后的消息, 从 而达到数据的交互与共享。另外,随着 s o a p ( 简单对象访问协议) 和 we b s e r v i c 技术的出现,提供了一种简单通用的, 穿透力较强的, 在松祸合、 分 布式的系统之间的对象访问能力,在此基础之上进行数据的交换与共享。 以上两种实现方式的共同特点是强化对中心交换结点的依赖作用, 其优点 和缺点是相互依存的: 优点是容易建立交换过程全局的监控和全部交换数据的 视图,缺点是过分依赖中心结点的枢纽作用,很难达到数据交换的自 治管理和 系统分布式的特点,中心数据流量过大,尤其是在互联网飞速发展的今天,试 图在互连网上建立中心传输结点是不可能的,但是如何将互联网作为一 个共同 的传输总线,而且还要安全可靠的传输数据将是不得不思考的问题。 但当今的技术条件下,数据交换所面临的阻碍主要是: 西北 工业大学硕士学位论文 一个组织中的用户身份如何才能够被另一个组织所共享 用户如何控制被其他的组织, 或者一个组织的特定的子集检索的用户资 料和关系数据的可用性。 数据的共享权限如何被一个网络中的所有用户进行管理。 新的,或更新后的数据如何传送到预定的组织而不跨越这个范围。 : 这些问题再次说明了分布式的数据共享并不是简单的技术上问题, 这个问 题的第四个方面:互操作的信任模型,可以通过简单地将现实世界的关系映射 到网络上来解决。 上面描述的分布式数据共享问题没有一个是新的:它们只是外观上像 we b 服务。可是单单we b 服务看起来是不提供一个解决方案的。例如,即使大部分 标准体系的成员在动态地址簿服务, 日历共享服务, 或者可信查找服务上对w e b 服务定义上达成一致,那么这些服务如何被采用?每个服务提供者是否需要各 自分别实现 w e b 服务?这些 w e b 服务如何共享它们之间的数据?如果 w e b 服 务定义与不同的标准体系定义冲突,那么结果是什么? 发展抽象的、 位置无关的标识模式用以支持i n t e r n e t 范围内的持续链接和数 据共享是解决分布数据共享的通用性问题的合理有效的途径。 目 前,国内外有很多数据交换和共享类的产品和解决方案,从产品的定位 和主要功能来看,大致可以分为这样几类: . 以企业应用集成为目标设计的产品, 在m q 等消息中间件的基础上,使用 对象技术和工作流合成进行业务数据的交换和共享, 各参与系统紧密祸 合,如工 b m工 。 t e g r a t l o n产品族; . 按照传输的数据类型和流量等, 定义不同的传输通道, 绑定不同的传输 组件。 这类产品如s y b a s e d x p 。 它根据数据交换技术对安全性、 开放型、 灵活性等技术特性的需求, 讲数据交换平台进一步细分为: 大量实时数 据传输和低带宽定时或批处理方式、 异构和同构数据交换、 企业间数据 交换, 并根据不同 类型数据交换平台的业务特色和技术特点, 量身定制 了相应高效的数据交换解决方案: . 结构化数据整合。 如“ 中关村数据平台” 。 它采用元数据管理形成的“ 虚 拟数据库” ,为用户屏蔽了下层分散异构的各种数据。虚拟数据库是物 理数据经由元数据定义, 映射而成的逻辑数据库。 虚拟数据库技术不需 改变原来的数据结构, 使得数据整合方案更简单经济: 同时获得的是实 时数据,更利于决策支持; . 以企业和政务应用集成为背景, 使用x m l , w e b 服务消息中间件技术。如 e s t a r c o n n e c t - ! t 。 它采用消息软总线技术, 通过提供基于w e b 服务的x m l 信息通讯、 支持松祸合的体系结构和多方位的信息传输、 控制多个应用 西北下业大学硕 卜 学位论文 系统之间的信息流通方式、 实现不同格式的数据转换、 安全可靠的保证 实时信息通讯, 将分散的应用系统连接起来实现信息共享和业务流程共 享, 在分散的信息孤岛之间建立一个信息通讯桥梁, 实现异构系统之间 信息的互通互连的全程 自动化; . 建立在数据的提供者和使用者的对数据的交换的方法和策略的一种共 识,并形成的一种约定,或者说契约之上的数据交换和共享。类似网络 上的协议, 是建立在双方形成的共同约定之上, 并不一定要有集中式的 传输控制。 链接契约式的数据交换与共享平台是一项通用的使用数据共 享和协调的新的服务, 链接契约式的数据交换与共享平台的目 标是使数 据从任意的数据源都可以被标识, 交换, 链接和同步到一个机器可读的 x ml 文档格式, 就像现在看到的使用h t ml 文档格式的人可读的we b 可 以链接到任何内容源一样。 由于控制所需的协调共享数据的存取和使用 可以 在每个链接中正确建立, 基于链接契约的数据交换的出 现对可信数 据交换具有很大的潜力。 , , 3课题内容 本课题的主要研究内容涵盖以下五个方面的内容: . 提取,转换和装载数据 以批处理或者实时的方式建造数据仓库和可运作的数据存储,使终端用户 通过商业智能或者a d h o c 查询工具。 . 数据共享 允许多个异构服务器和数据库实时共享海量数据。 . 数据交换和同步 允许服务器和远程设备之间在暂时连接 ( 只在偶尔需要) 时实现数据共享, 通过不停的数据交换保持各应用的数据同步。 . 数据库净化和移植 能够维护高质量数据并提供将数据快速融合至新系统的能力。 . 企业应用集成 通过一个数据整合的方法实现应用集成。 对多数i t团队来说, 这个方法是 很实际、有效并且很容易建立和实现。 西北下业大学硕 卜 学位论文 系统之间的信息流通方式、 实现不同格式的数据转换、 安全可靠的保证 实时信息通讯, 将分散的应用系统连接起来实现信息共享和业务流程共 享, 在分散的信息孤岛之间建立一个信息通讯桥梁, 实现异构系统之间 信息的互通互连的全程 自动化; . 建立在数据的提供者和使用者的对数据的交换的方法和策略的一种共 识,并形成的一种约定,或者说契约之上的数据交换和共享。类似网络 上的协议, 是建立在双方形成的共同约定之上, 并不一定要有集中式的 传输控制。 链接契约式的数据交换与共享平台是一项通用的使用数据共 享和协调的新的服务, 链接契约式的数据交换与共享平台的目 标是使数 据从任意的数据源都可以被标识, 交换, 链接和同步到一个机器可读的 x ml 文档格式, 就像现在看到的使用h t ml 文档格式的人可读的we b 可 以链接到任何内容源一样。 由于控制所需的协调共享数据的存取和使用 可以 在每个链接中正确建立, 基于链接契约的数据交换的出 现对可信数 据交换具有很大的潜力。 , , 3课题内容 本课题的主要研究内容涵盖以下五个方面的内容: . 提取,转换和装载数据 以批处理或者实时的方式建造数据仓库和可运作的数据存储,使终端用户 通过商业智能或者a d h o c 查询工具。 . 数据共享 允许多个异构服务器和数据库实时共享海量数据。 . 数据交换和同步 允许服务器和远程设备之间在暂时连接 ( 只在偶尔需要) 时实现数据共享, 通过不停的数据交换保持各应用的数据同步。 . 数据库净化和移植 能够维护高质量数据并提供将数据快速融合至新系统的能力。 . 企业应用集成 通过一个数据整合的方法实现应用集成。 对多数i t团队来说, 这个方法是 很实际、有效并且很容易建立和实现。 西北工业大学硕 卜 学位论文 第2 章数据整合相关技术 2 . 1 x ml及 s o a p技术 x m l ( e x t e n s i b l e m a r k u p l a n g u a g e ) 是w3 c定义的一个规范, 它定义了 用 于定义标记 语言的语法。 x m l 定义了使用标记 来组织文档结构的语法, 这些标 记将文档分成许多部件并对这些部件加以标识。它也是元标记语言,即定义了 用于定义其他与特定领域有关的、语义的、结构化的标记语言的句法语台。它 可以 被 描述为 标准通用标记 语a ( s g m l s t a n d a r d g e n e r a l i z e d m a r k u p l a n g u a g e ) 的一个子集,但是x m l比s g ml 简单, 因此撰写一个x ml文档变的非常容易。 2 . 1 . 1 x ml的产生背景及其意义 x m l 同h t m l一样 都来自s t a n d a r d g e n e r a l i z e d m a r k u p l a n g u a g e , 即标 准通用标记语言,简称s g ml ,早在we b 未发明之前,s g ml就早已存在。正 如它的名称所言,s g ml是一种用标记来描述文档资料的通用语台,它包含了 一系列的文档类型定义( 简称d t d ) , d t d中定义了 标记的含义, 因而s g m l 的 语法是可以扩展的。s g ml十分庞大,即不容易学,又不容易使用,在计算机 上实现也十分困难。鉴于这些因素,w e b的发明者欧洲核子物理研究中心 的研究人员根据当时( 1 4 8 4 年) 计算机技术的能力, 提出了h t m l 语言 。 h t ml只是s g ml中很小一部分标记,例如h t ml 3 . 2 定义了7 0 种标记。 为了便于在计算机上实现, h t ml 规定的标记是固定的, 即h t m l 语法是不可 扩展的, 它不需包含d t d . h t ml 这种固定的语法使它易学易用, 在计算机开 发的h t ml的浏览器也十分容易。正是由于h t ml的简单性,使w e b 技术从 计算机界走向全社会,走向千家万户,w e b的发展如日中天。 近年来, 随着 w e b 的应用越来越广泛和深入, 人们渐渐觉得h t ml不够用 了, h t ml过于简单的语法严重阻碍了用它来表现复杂的形式。尽管h t ml 推 出了一个又一个新版本,己经有了脚本、表格、帧等表达功能,但始终满足不 了不断增长的需求。另一方面,计算机技术的发展也十分迅速,己经可以实现 比当初发明创造 h t ml时复杂得多的 w e b 浏览器,所以开发一种新的w e b 页 面语言 既是必要的,也是可能的。 有人建议直接使用s g m l作为w e b 语言 , 这固 然能解决h t m l遇到的困 难。 但是s g ml太庞大了, 用户学、 用不方便尚且不说, 要全面实现s g ml 浏 览器就非常困难,于是自 然会想到仅使用s g ml的子集,使新的语言即方便使 西北工业大学硕 卜 学位论文 第2 章数据整合相关技术 2 . 1 x ml及 s o a p技术 x m l ( e x t e n s i b l e m a r k u p l a n g u a g e ) 是w3 c定义的一个规范, 它定义了 用 于定义标记 语言的语法。 x m l 定义了使用标记 来组织文档结构的语法, 这些标 记将文档分成许多部件并对这些部件加以标识。它也是元标记语言,即定义了 用于定义其他与特定领域有关的、语义的、结构化的标记语言的句法语台。它 可以 被 描述为 标准通用标记 语a ( s g m l s t a n d a r d g e n e r a l i z e d m a r k u p l a n g u a g e ) 的一个子集,但是x m l比s g ml 简单, 因此撰写一个x ml文档变的非常容易。 2 . 1 . 1 x ml的产生背景及其意义 x m l 同h t m l一样 都来自s t a n d a r d g e n e r a l i z e d m a r k u p l a n g u a g e , 即标 准通用标记语言,简称s g ml ,早在we b 未发明之前,s g ml就早已存在。正 如它的名称所言,s g ml是一种用标记来描述文档资料的通用语台,它包含了 一系列的文档类型定义( 简称d t d ) , d t d中定义了 标记的含义, 因而s g m l 的 语法是可以扩展的。s g ml十分庞大,即不容易学,又不容易使用,在计算机 上实现也十分困难。鉴于这些因素,w e b的发明者欧洲核子物理研究中心 的研究人员根据当时( 1 4 8 4 年) 计算机技术的能力, 提出了h t m l 语言 。 h t ml只是s g ml中很小一部分标记,例如h t ml 3 . 2 定义了7 0 种标记。 为了便于在计算机上实现, h t ml 规定的标记是固定的, 即h t m l 语法是不可 扩展的, 它不需包含d t d . h t ml 这种固定的语法使它易学易用, 在计算机开 发的h t ml的浏览器也十分容易。正是由于h t ml的简单性,使w e b 技术从 计算机界走向全社会,走向千家万户,w e b的发展如日中天。 近年来, 随着 w e b 的应用越来越广泛和深入, 人们渐渐觉得h t ml不够用 了, h t ml过于简单的语法严重阻碍了用它来表现复杂的形式。尽管h t ml 推 出了一个又一个新版本,己经有了脚本、表格、帧等表达功能,但始终满足不 了不断增长的需求。另一方面,计算机技术的发展也十分迅速,己经可以实现 比当初发明创造 h t ml时复杂得多的 w e b 浏览器,所以开发一种新的w e b 页 面语言 既是必要的,也是可能的。 有人建议直接使用s g m l作为w e b 语言 , 这固 然能解决h t m l遇到的困 难。 但是s g ml太庞大了, 用户学、 用不方便尚且不说, 要全面实现s g ml 浏 览器就非常困难,于是自 然会想到仅使用s g ml的子集,使新的语言即方便使 西北丁 业人学硕 学位论文 用又实现容易。 正是在这种形式下, w e b 标准化组织w3 c建议使用一种精简的 s g ml版本x ml应运而生了。 x m l 是e x t e n s i b l e m a r k u p l a n g u a g e ( 可扩展的置标语言 ) 的缩写。 1 9 9 6 年1 1 月, 波士顿s g m l 年会上, 新的数据描述语言x m l ( e x t e n s i b l e m a r k u p l a n g u a g e ) 可扩展标识语言 公布于世,并向w3 c ( w o r ld wid e w e b c o n s o rt i u m ) 正式提案。 w3 c 组织于1 9 9 8 年2 月正式发布了关于x ml 的标准。 相对于h t ml 只是s g ml 衍生出来的一种文件格式,x ml免除了s g ml的繁复但仍保持其威力,这使 s g ml的优秀品质能直接地用在w e b 开发上。 同时w3 c组织制定x ml的初衷 是:定义一种互联网上交换数据的标准。w3 c采取了简化 s g ml的策略, 在 s g ml 的基础上, 去掉语法定义部分, 适当简化d t d部分,并增加了部分互联 网的特殊成分。因此,x ml 也是一种标记 语言,基本上是s g m l的一个子集, x ml继承了s g ml具有的可扩展性、 结构性和可校验性, 与h t ml语言 相比, 区别主要在三方面: . 可扩展性方面: h t ml不允许用户自 行定义他们自己的标识或属性, 而 在x ml中,用户能够根据需要,自 行定义新的标识及属性名,以便更 好的从语义上修饰数据。 . 结构性方面:h t ml不支持深层次的结构描述,x ml的文件结构嵌套 可以复杂到任意程度,能表示面向对象的等级层次。 . 可校验性方面:h t ml没有提供规范文件以支持应用软件对 h t ml文 件进行校验,而x ml文件可以包括一个语法描述,使应用程序对此文 件进行结构确认。 表面上来看,x ml文件与 h t ml文件比较相似,都以一对相互匹配的起 始和结束标记符来标记信息, 但二者功能不同, h t ml用来显示数据, x ml则 是描述数据定义,后者可以多种方式显示,也可以由其他应用软件进行深入的 处理。在超链接方面,x ml不仅可以建立多重链接,找到多个目 标网页位置, 同时可提供如何从其他网址链接的信息,可以进一步指定目 标网址找到后的动 作,是否自 动显示或搬运到原有的文件内。 x ml是一个开放式的标准,它包括三个相互联系的标准: . x m l ( 可扩展的 标识语言, e x t e n s i b l e m a r k u p l a n g u a g e ) ; . x s l ( 可扩展的样式语台 , e x t e n s i b le s t y l e l a n g u a g e ) ; . x l l ( 可扩展的链接语言, e x t e n s i b l e l i n k i n g l a n g u a g e ) ; 这三个标准相辅相成, 使x ml语言 在数据标记、 显示风格和超文本链接方 面功能强大,对数据交换十分有利。 x ml 作为现代计算机发展的一种新兴技术,已经成为一种潮流和标准,尤 其在商业领域,随着各种主流的编程语言及软件平台纷纷提供对x ml的支持, 西北下业大学a r , 卜 学位论义 使得人们可以快速开发出基于x ml的各类商业应用。 具体在电子数据整合系统 开发中, 如果利用 x ml来传递与处理信息, 可以为开发者和使用者带来如下好 处: 1 ) x m l是经过检验的国际标准, 使用 x ml可以 放心使用与其相关的现 成技术: 2 ) x m l是面向数据的,与具体应用无关,因 此在一个应用领域模块中引 用x m l不会影响到其他应用; 3 )数据的定义与实际应用相互独立, 有利于模块化开发和a 1 试工作; 4 )在供应链系统中存在大量的货物单信息, 同一 份货物单可能在多个应用 模块间流转,使用 x ml可以简单的对货物单进行校验、转化、显示及 同步; 5 ) x m l的编程接口 是一套中 性的a p i , 常用的编程语言如j a v a , c 十 + 、 v b等都可以对x ml数据进行编辑, 检索, 如果用x ml 进行数据传递, 各应用模块就可以采用不同的编程语言 编写: 6 )通过外部定义的不同 规格的d t d或s c h e m a ,可以 对同一套x m l 数据 做出不同的与环境相适宜的解析; 7 )系统将来若要与外部另一使用不同 d t d定义的应用平台 进行数据交 换, 只要做一d t d d 丁 d的映射即可( 通过x s l t ) , x m l 数据至x m l 数据的转换较传统的结构化转换更便捷的多; 8 )目 前 所有的主 流 数据 库管 理 系 统都 开 始支 持x m l , 比 如o r a c l e 8 以上, d b 2 7 .0 以上, s q l s e r v e r 2 0 0 0 中, 都直接支持x m l 文档到数 据库的双向数据读写; 9 ) x ml采用了典型的树型结构,因 此对一个x m l对象的操作如遍历、 查询、删除、添加、重建等只要遵循经典的树操作便可; 1 0 ) 系统内部使用格式规范, 定义统一的数据集, 无需中间件的翻译, 从来 简化了数据流程、节约了系统资源。 2 . 1 .2 s o a p 技术 在x m l早期,人们就己 经意识到可以把x ml 作为在不同计算系统之间传 递信息的信封,否则就不可能进行通信。这就需要定义基于x ml的封装技术。 m i c r o s o ft和d e v e l o p m e n t o r 定义了 简单对象访问 协议 ( s i m p l e o b j e c t a c c e s s p r o t o c o l ,简称 s o a p )来提供这个功能。按照面向服务的体系结构,s o a p允 许应用程序绑定其他的应用程序,从而利用他们的功能。 s o a p ( s i m p l e o b j e c t a c c e s s p r o t o c o l ) 简单 对象访问 协议 是在分散 或分 布式 西北下业大学a r , 卜 学位
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 建筑沉降观测施工方案标准
- 餐饮企业2025年环保管理提升与绿色运营效率提升案例分析报告
- 能源领域2025年碳捕获与封存(CCS)技术应用案例解析报告
- 餐饮业供应链整合与2025年成本控制策略研究报告
- 社教线上活动方案
- 美容院营销方案活动方案
- 电梯促销活动方案
- 电影杀青活动方案
- 美术diy活动方案
- 石钢公司销售年会活动方案
- 2025年航空知识竞赛必考题库及答案(共140题)
- 【培训课件】网络安全培训
- 2024秋新沪粤版物理8年级上册教学课件 3.1 光的传播与色散
- 2020高考试题研究(工艺流程高考真题)备考建议及说题比赛课件
- 2025年广西公需科目考试题库及答案
- 数据安全技术应用职业技能竞赛理论考试题库500题(含答案)
- 使用错误评估报告(可用性工程)模版
- 话题阅读(十四):旅游与交通-小学英语阅读理解专项训练
- 教师师德师风的培训
- 11.9消防宣传日关注消防安全主题班会课件
- 中国商飞在线测评题
评论
0/150
提交评论