(信号与信息处理专业论文)基于工作流的分布式数据仓库模型的研究.pdf_第1页
(信号与信息处理专业论文)基于工作流的分布式数据仓库模型的研究.pdf_第2页
(信号与信息处理专业论文)基于工作流的分布式数据仓库模型的研究.pdf_第3页
(信号与信息处理专业论文)基于工作流的分布式数据仓库模型的研究.pdf_第4页
(信号与信息处理专业论文)基于工作流的分布式数据仓库模型的研究.pdf_第5页
已阅读5页,还剩67页未读 继续免费阅读

(信号与信息处理专业论文)基于工作流的分布式数据仓库模型的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

塑墨 i j i f i l l f l f i i l 删 i l f l 删 i i i 一 一 y 2 0 8 0 3 8 0 论文题目 基于工作流的分布式数据仓库模型的研究 专业 信号与信息处理 硕士生 李碉 指导教师 行刀 帅 签名 壅翻 签名 绡i 丑牢 摘要 计算机技术的飞速发展给信息产业带来了前所未有的繁荣但随着计算机技术的不断推广和使用的 深入 人们对它的要求也越来越高 特别是在信息高度发展的今天 面对着在时间 空间和结构上存 在着巨大差异的相关数据 人们希望计算机能够提供快速 准确 具有预见性的信息 企业通过快速 响应用户的需求来提高自身的竞争力 相继实施或自主开发了适合于自身业务的信息系统 通过使用 这些系统 企业或组织内逐渐积累起大量的数据 由此 出现了一个新的需求 即对大量已有的数据 进行分析挖掘以支持业务和高层决策的应用 随即 一系列用来实现数据的分析与挖掘的理论和技术 相继产生 包括数据挖掘技术 数据仓库以及分布式数据仓库等 这些理论和技术都可以被归结为数 据仓库 近年来引起了众多学者的兴趣与参与 已成为学术界跨学科的热门研究领域之一 数据仓库不仅包括对数据管理的数据库技术 而且还包括对数据进行分析挖掘的各种组件 是一 个综合的概念 而分布式数据库d d b d i s t r i b u t e dd a l ab 船e 是一组数据集 逻辑上它们属于同一系统 而物理上分散在用计算机网络连接的多个场地上 并统一由一个分布式数据库管理系统管理 分布式 数据库系统可以看成是数据库技术和计算机网络结合的产物 本论文通过对数据仓库和分布式数据仓库体系构架的分析 得出当前存在的缺点 不能进行灵活 的定制 易用性差 分布式数据仓库为了保持全局数据仓库和局部数据仓库的数据一致性需要购买大 量且昂贵的存储设备来保存两份相同的数据 针对这些缺点 本文所做的主要工作如下 1 改进了一种基于工作流的分布式数据仓库模型 模型的整体结构基于s o a s e r v i c e 哳i e n t e da r c h i t e c t u r e 面向服务的体系结构 分布式 2 引入了工作流技术来实现灵活定制数据提取需求 分析挖掘需求及结果可视化的需求 并将这 些功能封装成整体模型中的业务流程服务 在业务流程服务模型部分引入了数据仓库业务流程执行语 言 业务流程的可达性验证算法和优化算法 3 分布式数据仓库模型中包括虚拟全局数据仓库服务和虚拟全局多维数据仓库服务 以此避免在 全局和局部数据仓库中存储相同的两份数据 从而减少了在昂贵的存储设备上的开销 另外 在虚拟 全局数据仓库服务部分给出了两个虚拟全局服务的模型 并且集成了全局数据仓库 全局多维 的元数据 结构 全局 全局多维 查询算法以及优化策略 4 最后 将基于工作流的分布式数据仓库模型应用到了教育考试资源库项目中 山西师范大学学位论文 i i 关键词 数据挖掘 s o a 工作流 分布式数据仓库 论文类型 基础研究 a b s 仃a c t t i t l e r e s e a r c ho fw o r k f l o w b a s e dd i s 仃i b u t e dw a r e h o u s em o d e l m a j o r s i g n a la n d1 1 1 f o m a t i o np r o c e s s i n g n a m e l iy u e s u p e r v i s o r x i n g x i a o s h u a i s i g n a t l l r e s i g n a t l l r e a b s t r a c t c o m p u t e rt e c h n o i o g yh a se v o i v e dt ot h ei n f i a l r m a t i o ni n d u s t r yh a s b r o u g h ta b o u tu n p r e c e d e n t e dp r o s p e r t y b u ta sc o m p u t e rt e c h n o i o g y c o n t i n u e dt oe x t e n da n du s eo ft h ep e o p l et oi t sr e q u i r e m e n t si sa l s o h i g h nt o d a y si n c r e a s i n g i yc o m p e t i t i v es o c i e t y e n t e r p r i s e sr e s p o n d q u i c k i yt ot h en e e d so fu s e r st oi m p r o v et h e i ro w nc o m p e t i t i v e n e s s h a v e b e e ni m p i e m e n t e do rd e v e i o p e di n d e p e n d e n t i yf o rt h e i ro w nb u s j n e s s i n f o r m a t i o ns y s t e m s b yu s i n g 椭e s es y s t e m s e n t e r p r i s eo ro r g a n i z a t i o n g r a d u a ya c c u m u i a t e di a r g e a m o u n t so fd a t a t h u s t h e r ei san e w d e m a n d t h a tai a r g en u m b e ro fe x i s t i n ga n a i y s i so ft h ed a t am i n i n gt o s u p p o nb u s i n e s sa p p c a t i o n sa n dh i g h i e v e ld e c i s i o n m a k i n g t h e n a s e n e so ft h e o r ya n dt e c h n o i o g yf i a i ra n a l y s i sa n dd a t am i n i n gh a v e g e n e r a t e d i n c i u d i n gd a t am i n i n g d a t aw a r e h o u s ea n dd i s t r b u t e dd a t a w a r e h o u s e s t h e s et h e o r i e sa n dt e c h n i q u e sc a nb ea t t n b u t e dt o t h ed a t a w a r e h o u s e d a t aw a r e h o u s ei n c i u d e sn o to n i yd a t a b a s et e c h n o i o g yf i a i r d a t am a n a g e m e n t b u ta i s oa n a i y s i so ft h ed a t am i n i n go ft h ev a r i o u s c o m p o n e n t s i sac o m p r e h e n s i v ec o n c e p t t h et h e s i sa n a i y z et h ea r c h i t e c t u r eo ft h ed a t aw a r e h o u s ea n d d i s t r b u t e dd a t aw a r e h o u s es y s t e m a n dg e tt h ec u r r e n ts h o r t c o m i n g s n o t 订e x i b i ec u s t o m i z a t i o n p o o ru s ef i a i ru s e r s h a v i n gt op u r c h a s ei a r g ea n d e x p e n s i v es t o r a g ed e v i c et os t o r et h es a m ed a t ai nd u p c a t ei no r d e rt o m a i n t a i nd a t ac o n s i s t e n c yb e t w e e ng l o b a ia n di o c a ld a t aw a r e h o u s e n r e s p o n s et ot h e s ed r a w b a c k s t h em a i n o r kd o n eb yt h ef o o w i n g 1 i m p r o v e saw o r 时i o w b a s e dd i s t r m u t e dd a t aw a r e h o u s em o d e i t h em o d e i so v e r a s t r u c t u r ej sb a s e do ns e r v i c e o n e n t e da r c h i t e c t u r e s o a d i s t r b u t e d 2 j n t r o d u c e sw o r k 们o wt e c h n o i o g yt oa c h i e v ea 们e x i b i ed e m a n d o r c u s t o md a t ae x t r a c t i o n a n a i y s i sa n dv i s u a z a t i o no fm l n i n gd e m a n d n e e d s t h e s ef u n c t i o n sa r ew r a p p e di nb u s i n e s sp r o c e s ss e r v i c ew h i c hi s aw e b s e r v i c ei nt h ew h o i em o d e i i nt h ep a r to ft h eb u s i n e s sp r o c e s s s e r v i c e sm o d e i i tj n d u c t e db u s i n e s sp r o c e s se x e c u t i o nl a n g u a g ef o r w a r e h o u s e a c c e s s i b i i i t yv a i i d a t i o na l g o r i t h ma n do p t i m i z a t i o n a i g o n t h m 3 t h ed i s t r i b u t e dd a t aw a r e h o u s em o d e i n c i u d e sv i r t u a ig i o b a ld a t a s t o r a g es e r v i c e sa n dav i r t u a ig i o b a lm u i t i d i m e n s i o n a id a t aw a r e h o u s i n g s e r v i c e si no r d e rt oa v o i dt h eg l o b a ia n di o c a id a t aw a r e h o u s ed a t as t o r e d i nt h es a m et w o t h e r e b yr e d u c i n gt h ec o s t l yo v e r h e a do ft h es t o r a g e d e v i c e i na d d i t i o n p a r to fav i r t u a ig i o b a ld a t a v a r e h o u s i n gs e r v i c e s g i v e st y v ov i r t u a lg i o b a ls e r v i c em o d e a n dc o n g r e g a t e st h e g i o b a ld a t aw a r e h o u s e g i o b a lm u i t i d i m e n s i o n a i s t r u c t u r eo ft h em e t a d a t a g i o b a l g i o b a im u i t i d i m e n s i o n a i s e a r c h a i g o r i t h m sa n do p t i m j z a t i o ns t r a t e g i e s 4 f i n a y t h ed i s t r i b u t e dd a t aw a r e h o u s em o d e ii sa p p l i e dt ot h e e d u c a t i o n a it e s t i n gr e p o s i t o r yp r o j e c t i l k e yw o r d s d a t am i n i n g s o a w o r k n o w d i s t r i b u t e dw r a r e h o u s e 取p eo ft h e s i s b a s i cr e s e a r c h 绪论 第1 章绪论 1 1 研究的背景 在竞争日以激烈的当今社会 企业通过快速响应用户的需求来提高自身的竞争力 相继实 施或自主开发了适合于自身业务的信息系统 这些系统大体分为两类 一种是企业中通用的系统 如e r p c 跚等 另一种是专门行业的业务系统 例如教育考试领域中的中考管理系统 高考管 理系统等 通过使用这些系统 企业或组织内逐渐积累起大量的数据 由此 出现了一个新的需 求 即对大量已有的数据进行分析挖掘以支持业务和高层决策的应用 由于人们对从大量数据中找到有用的知识的需求日渐强烈 随即 一系列用来实现数据的分 析与挖掘的理论和技术相继产生 包括数据挖掘技术 数据仓库以及分布式数据仓库等 这些理 论和技术都可以被归结为数据仓库 数据挖掘以模糊数学 人工智能 统计学等学科为基础的一 门学科 简单地说 数据挖掘是从大量数据中提出取或 挖掘 知识n 1 数据仓库是一个面向主 题的 集成的 非易失的且随时间变化的数据集合 用来支持管理人员决策 2 1 数据仓库不仅包 括对数据管理的数据库技术 而且还包括对数据进行分析挖掘的各种组件 是一个综合的概念 因此 数据仓库是集数据管理 统计 分析 挖掘和数据可视化为一体的 它处于分析挖掘的核 心地位 也由此可以看出一种体系结构完整的数据仓库模型是至关重要的 本论文的研究的重点 在数据仓库的体系结构以及此模型中的关键技术的实现方式 数据仓库涉及的理论与技术非常的 广 泛 本论文主要研究的重点在数据仓库可定制性 易用性以及分布式数据仓库架构 1 2 研究现状 数据仓库在国外的应用已较为普遍 并呈现出应用较早 在电子化数据积累方面比较领先 业务应用较为丰富 业务人员i t 背景较强 有比较完善的管理和实施等特点 从目前看 处于 世界5 0 0 强的企业多数都在建设或已经建设完成数据仓库系统 由于国内数据仓库的建设和应 用起步较晚 与国外相比还有相当的差距 并呈现出投入大 产出大 应用处于起步阶段 人才 匮乏等特点 1 3 论文的选题 主要研究内容及存在问题 1 3 1 论文选题 为了解决当前分布式数据仓库存在的问题 在这里给出本论文的研究目标 改进一种基于工作 流的分布式数据仓库模型 此模型是分布式的 可以灵活定制数据提取需求 分析挖掘需求及结果 可视化需求 并且避免在局部数据仓库和全局数据仓库重复存储相同的数据 1 3 2 论文的主要研究内容 本文所做的主要工作如下 1 改进了一种基于工作流的分布式数据仓库模型 模型的整体结构基于s o a 面向服务的体系 结构 分布式 山两师范大学学位论文 2 引入了工作流技术来实现灵活定制数据提取需求 分析挖掘需求及结果可视化的需求 并将 这些功能封装成整体模型中的业务流程服务 在业务流程服务模型部分提出了数据仓库业务流程执 行语言 业务流程的可达性验证算法和优化算法 3 分布式数据仓库模型中包括虚拟全局数据仓库服务和虚拟全局多维数据仓库服务 以此避免 在全局和局部数据仓库中存储相同的两份数据 从而减少了在昂贵的存储设备上的开销 另外 在 虚拟全局数据仓库服务部分给出了两个虚拟全局服务的模型 并且集成了全局数据仓库 全局多维 的元数据结构 全局 全局多维 查询算法以及优化策略 4 改进了分布式数据仓库对应的模型架构 用户可以通过数据的浏览获取关于数据的w h e r e 讹a t a c c e s s c o m p a t i b l e 和r e z i a b l e 五个问题的答案 w h e r e 我所要找的信息或数据在哪里 w h a t 这个数据源记录了什么数据 a c c e s s 如何访问这个数据源 c o m p a t i b l e 这个数据源的格式与我的格式是否兼容 r e l i a b l e 这个数据源存放的是否是真实 可靠的数据 1 3 3 存在的问题 从软件的体系结构方面和易用性方面进行分析 1 从软件的体系结构方面分析 以上提到 的这些解决方案中都具有e t l e x 扛a c t i o n t r 觚s f o n i l a t i o n l o a d i n g 数据仓储 分析挖掘 结果 分析展示及p o r t a l 的功能 同时也提供分布式数据仓库的解决方案 这些分布式数据仓库的解 决方案都是在不同地域或不同的系统上建立局部数据仓库 然后建立统一的 公共的全局数据仓 库存储来自所有局部数据仓库的数据 因此 在局部数据仓库和全局数据仓库中存储相同的数据 双份 这样实施了这些方案的企业不得不购买更多的昂贵的存储设备 同时使用复杂的算法来定 时的维护全局数据仓库和局部数据仓库中的数据的一致性 2 从软件的易用性和自适应性方面 分析 在使用以上的数据仓库的软件时 用户需要深入的专业的背景知识 如对数据挖掘算法 数据库 数据仓库 o l a p o n l i i l e a n a l 如c a lp r o c e s s i l l g 乜1 和e t l 口1 等技术有非常深入的了解 时 才能够使用这些软件进行数据挖掘的建模 所以普通的用户是不可能使用这些软件进行自己 开发的 因此 在软件的易用性方面表现很差 通过从以上的两个方面对当前的分布式数据仓库的方案进行分析 得出存在的主要缺点在 于 不能进行灵活的定制 易用性差 分布式数据仓库为了保持全局数据仓库和局部数据仓库的 数据一致性需要购买大量且昂贵的存储设备来保存两份相同的数据 为了解决当前分布式数据 仓库存在的问题 在这里给出本论文的研究目标 改进一种基于工作流的分布式数据仓库模型 此模型是分布式的 可以灵活定制数据提取需求 分析挖掘需求及结果可视化需求 并且避免在 局部数据仓库和全局数据仓库重复存储相同的数据 2 基于工作流的分布式数据仓库模型的基本理论 第2 章基于工作流的分布式数据仓库模型的基本理论 2 1 数据挖掘的基本理论 简单地说 数据挖掘是从大量数据中提出取或 挖掘 知识 1 数据挖掘是从大量的 不完 全的 先前不知道的 模糊的 可能有污染的随机详细数据中提取隐含的 潜在有用的信息和知 识的过程 数据挖掘的最终目的就是从大量数据中获取有效的 新颖的 潜在有用的 模式的和 最终可理解的知识 数据挖掘的广义定义 数据挖掘就是从存放在数据库 数据仓库或其他信息 库中的数据中挖掘出知识的完整过程 许多人把数据挖掘视为另一个常用的术语数据库中的知识 发现或k d d k n o w l o d g ed i s c o v 盯y i n d a t a b 鹬嚣 的同义词 而另一些人只是把数据挖掘视为数据库 中知识发现过程的一个基本步骤 知识发现由以下步骤组成 数据清理 数据集成 数据选择 数据转换 数据挖掘 摸式评估 知识表示 挖掘的对象是数据库和数据仓库 其目的是通过对 数据的统计 分析 综合 归纳和推理 揭示事件间的相互关系 预测未来的发展趋势 起到辅 助实际工作问题求解 支持决策的作用口1 数据挖掘能够发现o l a p 处理过程所不能发现的更为 复杂的更有洞察力的答案 引 数据挖掘算法分为关联分析 聚类分析 分类 预测 时序模式和偏差分析等类别 下面就 对这些分类进行简述 1 关联分析 1 a s s o c i a t i o n a m a l y s i s 关联规则挖掘算法是由r a k e s h ya p w a l e 等人提出的 多个变量之间存在规律性称为关联 数据关联是数据库中一类可被发现的 重要的知识 关联分 析又可以细分为简单关联分析 时序关联分析和因果关联分析 关联分析的目的是找出数据库中 隐藏的关联知识 支持度和可信度来度量规则的相关性 兴趣度 相关性等参数使得规则更符合 用户需求 2 聚类分析晦1 c l u s t e r i i l g 聚类算法是把所有实例按照相似性分成若干类别 同一类中的 实例相似 不同类中的实例相异 聚类分析形成宏观的概念 发现数据的分布模式 以及可能的 实例属性间的相互关系 3 分类 1 c l a s s i f i c a t i o n 分类分析的最终目的就是形成类别的概念及描述 它代表了某类 实例的整体特点 即该类的内在特征 并用这种特征及描述来建立模型 常用规则或决策树模式 来表示 分类是利用训练实例集通过特定的算法最终得出分类规则 分类可被用于规则描述和预 测 4 预测 p r e d i c a t i o n 预测分析依据历史数据发现数据内在的规律 并建立预测模型 由 此预测模型对未来数据进行预测 预测的结果评价由预测的精度和确定性来衡量 5 时序模式哺1 t i m e s e r i e sp a t t 锄 时序模式是指利用时间序列搜索算法找出重复发生的 概率较高的模式 与回归分析一样 时序模式同样也是依据历史的数据预测未来的值 但它们的 区别是变量所处时间的不同 6 偏差分析旧1 d e v i a t i o n 利用偏差分析可以发现很多有用的知识 例如数据库中的数据 3 山西师范大学学位论文 存在很多异常 因此发现存在的异常情况是非常重要的 偏差分析的基本算法就是寻找被观测对 象与参照对象之间的差异 2 2 数据仓库的系统结构 2 2 1 数据仓库的概述 随着数据库技术的应用和发展 人们尝试对数据库中的数据进行再加工 形成一个综合的 面向分析的环境 以更好支持决策分析 从而形成了数据仓库技术 d a t a wa r e h o us i n g 通常 数 据仓库用多维数据库结构建摸 其中 每一维对应于模式中的一个或一组属性 每个单元存放某 个聚集度量值 如c o u n t 或s ai e s a m u n t 数据仓库的实际物理结构可以是关系数据存储或多 维数据立方体 d a t ac u b e 它提供数据的多维视图 并允许预计算和快速访问汇总的数据 数据仓库系统包括 数据仓库技术 联机分析处理技术 o n l i n ea n a l i c a lpr o c e s s i n g 简称o l a p 数据挖掘技术 d a t am i n i n gt e c h n o l o g 简称d m t 数据仓库弥补了原有的数据库的缺点 将 原来的以单一数据库为中心的数据环境发展为一种新环境 数据仓库是i 枷o n 首先提出的阳1 它 是数据库技术发展到一定阶段的产物 数据仓库是面向主题的 集成的 稳定的和随时间变化的 数据集合 l 与传统的操作环境相比 数据仓库环境为信息分析应用提供的数据具有4 个特征 数据仓库的数据是面向主题的 数据仓库的数据是集成的 数据仓库的数据是不可更新的 数据 仓库的数据是随时间不断变化的h 引 联机分析处理 o n l i i l ea n a l y t i c a lp 0 c e s s i l l g 简称o l a p 是 数据仓库上的重要的分析工具 o l ap 的目标是满足决策支持或多维环境特定的查询和报表需 求 它的核心技术是维 因此o l 也可以说是多维数据分析工具的集合 o l a p 的设计是基于 数据方c u b e 的计算 使用代数形式可以表示o l 心立方体的定义和计算 包括立方体的限制 聚集 迪卡尔积 连接 合并 差异 旋转等功能 而数据挖掘的本质就是发现数据实质与数据 间的关系的探索过程 找出潜在于数据中的现实事务的规律和趋势 进而把感觉转化为事实 数据 挖掘大致可分为3 类 关系发现 模式发现 趋势行为发现h 8 删 数据仓库的概念在1 9 9 1 年被美国著名信息工程专家w i l l i a mi n m o n 博士首次提出的 数据 仓库是面向主题的 集成的 非易失的有组织的数据集合 支持管理的决策过程 1 0 1 数据仓库 也是一种数据的长期存储 这些数据来自多数据源 是经过组织的 以便支持管理决策 这些数 据在一种一致的模式下存放 并且通常是汇总的 数据仓库提供一些数据分析能力 称作o l a p 联机分析处理 1 2 2 2 数据仓库的体系结构 数据仓库使用数据库技术管理大型数据 它的数据来自业务数据库 并且对这些数据进行分 析和挖掘为用户提供有用的知识 数据仓库存储综合多种数据资源 这些数据包括外部数据和数 据库中的数据 对这些数据进行提取 转换和装载 以形成一个综合的 面向主题的和面向分析 的环境 以便提供其决策支持 数据仓库的结构如图2 1 所示 4 基于工作流的分布式数据仓库模型的基本理论 应用层 数据仓库层 数据源层 天 最终用户 图2 一 数据仓库 数据存储 数据集成 从图2 1 可看出数据仓库的体系结构分为数据源 数据仓库和应用三层 1 数据源层 在这一层中不仅包括各种类型的数据源 还包括各种对数据进行提取 清洗 转换和装载到数据仓库的功能组件 其中该数据源的数据包括了多种类型数据源 数据库数据 文件 知识库 遗留系统等 2 数据仓库层 数据仓库层负责维护和管理 包括组织数据 维护数据 分发数据等 3 应用层 应用层属于数据仓库的前端 为不同类型的用户提供信息访问的功能 用户可 以使用应用层的各种组件查询信息和分析挖掘结果以此进行决策支持 这种组件包括可视化工 具 多维分析工具和数据挖掘工具等 这些应用层的组件可以无缝集成到数据仓库的体系结构中 去 2 2 3 分布式数据仓库 分布式数据仓库系统n 们 d d w s d i s t r i b u t e dd a t aw a r e h o u s es y s t e m 使用计算机网络将多 个物理上分散的数据仓库系统联接起来 形成了一个逻辑上相统一的数据仓库系统 以满足分析 挖掘的需要 典型的分布式数据仓库的体系结构 如图2 2 所示 分布式数据仓库体系结构是由多个局部数据仓库和一个全局数据仓库组成的 数据仓库的一 种形式是局部数据仓库 局部数据仓库仅包含对局部层有意义的数据 局部数据仓库u 甜存储局部 的业务系统的历史和当前数据 是一个典型的数据仓库 为局部的用户提供管理数据和分析挖掘 的服务 各局部数据仓库的数据结构可以不同 通常为各地域的用户建立局部数据仓库 局部数 据仓库除了存储的数据是局部的外 具有其他任何数据仓库的相同功能 换句话说 局部数据仓 5 山西师范人学学位论文 库包含的是在局部站点上的历史的和集成的数据 局部仓库间的数据或数据结构不要协调一致 塑2 2 分布式数据仓库 全局数据仓库的数据是各局部数据仓库数据的综合和集成 另外还包括外部数据源例如文 件 知识库等等 全局数据仓库的数据结构是为统一 综合各局部数据仓库的数据而设计的 全 局数据仓库和局部数据仓库的数据重叠部分或公共数据部分要保持一致性 全局数据仓库 训的数据来自所有的局部的数据仓库 并且对局部数据仓库的数据进行加工 转换 是一个公共和集成的数据环境 它成功建立分布式数据仓库的难点是如何将局部数据仓库 的数据映射到全局数据仓库 由于各局部数据仓库的数据结构或数据模型各不相同 所以对应到 全局数据仓库的映射规则是不同的 建立映射规则是一个细致和复杂的工作 所以在初始时映射 规则不会是特别准确 但是 随着不断的完善和用户的知识的反馈 映射逐步趋于完善 全局数 据仓库的范围涉及整个企业或组织 它内部的每个局部数据仓库也都有各自服务的局部站点范 围 全局数据仓库的范围是该企业 同局部数据仓库一样全局数据仓库也包含历史数据 研究不 同的局部数据仓库间的公用数据是一个很有意义的问题 在图2 3 中 局部层有相对较多的处理过程 就拿操作型处理来说 局部站点是自主的 仅偶然或某些特定的处理需要将数据和业务活动发送到总部处理 6 基于工作流的分布式数据仓库模型的基本理论 照 圈 局翻剽跨 处理 j 蚰天最乙l 二 回 局一二 回 全局璨作型处埋 j 圆 分布式数据仓库包括多种类型 大致可以将它们分为以下三种 1 业务分布在不同的地域或使用各种业务系统 1 企业内部使用了多种业务系统 每个系统 负责不同的业务 在每个地域或每个业务系统上 建立局部数据仓库 最终建立全局数据仓库 2 技术分布式数据仓库n 数据仓库存储了大量的数据 它们分布在多个处理器上的 物理 上 在每个处理器上都有一个数据仓库 逻辑上 只有一个数据仓库的 3 独立演进分布式数据仓库 数据仓库是以迭代方式建立起来的 首先 建立了一个数据仓库 然后 随着业务的需要或业务系统的管理 又建立了一个数据仓库 这时就需要建立全局数据仓库以协调全局和局部数据的一致性了 2 3 工作流技术 工作流就是工作流程的计算模型 它解决的主要问题是为了实现某个业务目标 在多个参与 者之间 利用计算机 按某种预定规则自动传递文档 信息或者任务 工作流建模工具 w o r k f l o w f o 珈a l i s mm o d e l i n gt 0 0 1 町的功能是定义工作流程逻辑的形式化工具 通常包括一组图标 标 签和规则 同时为用户提供友好和可视化界面 另外有些工作流建模工具还包括工作流仿真 优 化 正确性验证等功能 工作流建模工具不仅提供了建立工作流逻辑工具 而且还提供了统一的 语言以便于不同用户之间所进行交流 讨论 下面介绍当前流行的工作流建模工具 1 p e t r i 网 p e t r in e t n 引 著名的物理学家c a r la d 鲫p e t r i 在1 9 6 2 年发明了p e t r i 网 并以他的名字来命名的 p e t r i 网总是有一个起始状态和一个终止状态 p e t r i 网是一类特 殊的有向图的 它具有一系列的图标 变迁 库所 带箭头的弧 令牌等 除了这些图标 它还 有一系列的规则 由于p e t r i 网是基于有向图来定义的 所以它具有一系列严密的数据理论来 定义的 由于以上的特点p e t r i 网不仅能够用于工作流建模 另外还可以仿真和验证其工作流 的模型 2 有向无环图 d i r e c t e da c y c l i cg r a p h 幢训 它是基于基本图论来定义的 以图的节点表 7 山西师范大学学位论文 示一个任务 使用有向弧表示任务间的来执行依赖关系 有向无环图的特点是语义简洁明了 它 的缺点是只能够表示顺序和并发两种工作流执行顺序的 因此 它一般只适用于较简单的业务环 境下 3 统一模型定义语言 u n i f i e dm o d e l i n gl a n g u a g e 心 u l i l 包括多种类型的图 结构图 类图 组件图 对象图 活动图等 经过研究和发展 人们发现删l 中的活动图可以用来表示 工作流的逻辑 活动图的特点是简单直观 而且能够表示其它的工作流工具所不能够表示的工作 流模型 但是 它的缺点是有些常用的工作流模型使用活动图无法表示 因此需要对其进行进一 步的完善 4 业务流程建模图形标记 b u s i n e s sp r o c e s sm o d e l i n g t a t i o n 眩2 1 b p 心的特点是很容易的被具有不同背景的人员所快速认知和掌握 因此它就为分析人员 开发 人员和最终用户提供了一套统一的语术 b p m n 不同于其它工作流工具的特点是它支持事务的处 理 另外b p m n 还是和工作流定义语言无关的 它可以被直接翻译成b p e l 4 w s 语言和x p d l 语言 5 p i 演算模型 p ic a l 叫l u s 堙3 1 r o b i nn i l n e r 于1 9 世纪8 0 年代朱提出了此模型 并且将其应用于并发通信系统 在此模型中提出了可移动性的理论 随后 人们指出利用其移动 性的概念将其应用于工作流建模中 6 j b p m j a v ab u s i n e s sp r o c e s sm a n a g e m e n t h 引 它是一个灵活的 易扩展的开源工作 流管理系统 j b p m 的商务逻辑定义没有采用目前的一些规范 如w f m c 的x p d l b p m l e b 潮l 等 而是采用了它自己定义的j p d l j b o s sj b p mp r o c e s sd e f i n i t i o n1 a n g u a g e j p d l 可以 把一个商务流程看作是一个u m l 状态图 详细定义了这个状态图的每个部分 如起始 结束状态 状态之间的转换等 j b p m 使用h i b e r n a t e 来管理它的数据库 h i b e r n a t e 是目前j a v a 领域最流 行的一种数据持久层解决方案 流程档案被传送到j p d l 流程引擎加以执行 j p d l 流程引擎负责 遍历流程图 执行定义的动作 维持流程状态 并且记录所有流程事件 7 网格服务工作流定义语言 g r i ds e r v i c e sf l o wl a n g u a g e 心副 美国a r g o n n e 国家实验 室提出了g s f l 它同样也是基于 m l 语言规范 同时也符合0 g s a 框架 网格服务工作流定义 语言是用来描述网络服务的工作流语言 具有以下的4 个特点 1 服务提供者是一系列参与 工作流的服务 2 活动模型是工作流中的重要活动 3 组合模型是各原子服务间的交互模型 4 生命周期模型服务和活动的生命周期 8 w e b 服务业务流程执行语言 b u s i n e s sp r o c e s se x e c u t i o nl a n g u a g ef o r w e bs e r v i c e b p e l 4 w s 是基于 l 语言规范来定义的 并且参考了微软的面向流程的定义语言x l a n g 和i 酬 的面向图形的语言w s f l 它的语法包括了并发执行 流程控制 输入输出和补偿 错误处理等 工作流模型验证的目的是在工作流模型建立以后 对其进行验证以保证可以正确无误的被执 行的 验证可以发现模型中存在的各种问题 状态不可达 并发任务间的死锁等 在执行前 对 其验证可以发现这些问题 并且对其进行修改以免其错误的工作流执行造成了不必要损失 工作 流模型是基于不同的工作流工具 存在和具有的验证算法也是不尽相同的 8 基于工作流的分布式数据仓库模型的基本理论 2 4 业务流程服务 业务流程服务提供对其它的原子服务进行调用的功能 大体功能如下 1 新建业务流程 提供友好的界面或向导可以设定分析挖掘定制的主题名称 选择数据 数据转换算法选择 选择分析挖掘算法 结果展示方式 用户组对结果的权限 2 业务流程权限 可以设置各用户组对主题是否可以查看 如果用户自动继承用户组中的 权限 主题描述信息用户可以录入主题的描述信息 例如此分析主题的功能 使用说明等 3 执行业务流程 用户可以选择立即执行业务流程 执行周期短的主题可以立即看到此主 题的分析挖掘结果 4 删除业务流程 删除业务流程的所有记录的 如果此主题下还有子主题 则提示用户是 否可以一并删除 2 5s o a 面向服务体系结构n 2 1 2 5 1s o a 体系结构 s o a s e r v i c e o r i 铋t e d a r c l l i t e c n 鹏 体系结构架构中有三个主要对象 服务请求者 服务 服务 发现者 从图2 3 中可以看出 服务总线在s o a 架构中起着关键的作用 它负责服务请求者 服务和服务发现者的所有通信内容 请求服务 图2 一哇s o a 体系结构 2 5 2s o a 协议栈 s o a 的协议栈是服务总线的抽象架构 通过和上图2 4s o a 体系结构图相比 图2 5 是基于 w e b s e r v i c e 1 2 3 技术实现的s o a 的架构 通过将w e b s e r v i c e 的各种协议对应到s o a 的协议栈上 的相应块就实现了s o a 的抽象功能 同时 也就使用w e b s e r v i c e 的协议实现了s o a 的服务总线 9 山西师范大学学位论文 c 伽叩o s i t ep m l o c o l s a t o 咀l i c c o m 舯i n e n t s r e l i a b l e 轴僦溉i 燃 m e s s a g i n 窖 s e 蛐瘾哆 x m ln 0 l l x m l m e s s a gn g i n a l l s p o n st r a n s 聊s l 匿2 5 a 协议栈 在图2 5s o a 协议栈的每一层中 下层的协议是向上支持的 即h t t p s m t p 等协议支持 s o a p n 3 1 协议 s o a p 协议又支持w s d l 1 协议 这样一直到最上层 w e b s e r v i c e 的核心协议包括 s o a p w s d l 和u d d i u 引 s o a p 描述了所有实体间的通信协议 w s d l 为描述服务而定义的协议 u d d i 是为发现服务而制定的协议 下面依次介绍w e b s e r v i c e 实现s o a 的架构图的每层的内 容 1 t r a n s p o r t 传输层u 引 具体的实现w e b s e r v i c e 传输的协议 例如假如在m e s s a g i n g 层 使用的是s o a p 协议 那么s o a p 协议生成符合s o a p 协议的x m l n 6 1 文本 那么这个捌l 文本 可以使用传输层的t c p i p 协议或是s m t p h t t p 进行传输 在m e s s a g i n g 层的协议可以选择和 传输层的某个协议绑定 然后在传输时使用已绑定的协议去传输 2 m e s s a g i n g 消息层n 引 消息层为w e b s e r v i c e 架构提供了基本的消息传输协议 它主要包括s o a p 和 w s a d d r e s s i n g u 7 1 两个协议 s o a p 协议是基于x m l 的 它定义了s o a 的所有实体间进行数据和 消息传输的基本框架 所有的消息传输都必须符合s o a p 的基本框架 它定义了一个b o d y 和一 个h e a d 其它的协议 如w s a d r e s s i n g w s r e l i a b l em e s s a g i n g 等协议 必须嵌入到s o a p的 基本框架中 w s a d d r e s s i n g 协议是为描述服务的地址而制定的协议的 w s a d d r e s s i n g 规范定 义了一种将消息寻址信息综合到w e bs e r v i c e s 消息中的标准 w s a d d r e s s i n g 为以同步和 或 异步方式传输s o a p 消息提供了一种统一的寻址方法 此外 它还提供了寻址功能来帮助w e b s e r v i c e 开发人员在请求和响应的典型交换之外 围绕各种消息传递模式构建其应用程序 w s a d d r e s s i n g 还和w e bs e r v i c e sd e s c r i p t i o nl a n g u a g e1 1 w s d l 有着微妙联系 它扩展 l o 基于工作流的分布式数据仓库模型的基本理论 和综合了来自w s d l 的 些概念 但是两者之间没有明确的依赖性 w s a d d r e s s i n g 目前已经发 布三种不同的规范 w s a d d r e s s i n gc o r e w s a d d r e s s i n gs o a pb i n d i n g 和w s a d d r e s s i n gw s d l b i n d i n g 核心规范描述了抽象属性 而捆绑文档解释如何分别使用s o a p 和w s d l 来表示这些 属性 核心 捆绑文档分析在w e bs e r v i c e s 规范中是很常见 s 0 a p 不提供标准的方法 来指定 消息的目的地 如何返回响应或者在哪里报告错误 这些细节以前留在传输层中 举例来说 在 标准s o a p 请求通过h t t p 发送的时候 h t t p 请求的u r i 为消息的目的地 消息的响应保存 在h t t p 响应中去 客户端通过h t t p 连接来接收 通过j m s 异步发送s o a p 请求消息时 则 可以在j m s 消息标头中指定响应的目的地 将其合并在消息中 或者保留在服务实现中 在一 些传输层上的寻址对很多现有的服务来说已经够用的 但是在其他服务的开发中它却成了一种限 制因素 w s a d d r e s s i n g 定义了通过多种传输路由消息或者将响应直接传递到它的第三方的标准 方式 其中举例来说 客户端应用程序可以通过j m s 发送请求 并要求通过电子邮件接收响应 为了

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论