




已阅读5页,还剩81页未读, 继续免费阅读
(计算机软件与理论专业论文)构建基于工作流引擎和元数据驱动的数据仓库etl工具.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
四川大学硕士学位论文 矿1 3 5 t 1 7 5 s 构建基于工作流引擎和元数据驱动的数据仓库e t l 工具 计算机软件与理论专业 研究生:杜永友指导教师:常致全 摘要 随着互连网和数据库技术的不断发展,经济全球化带来的企业竞争不断加 剧,越来越多的企业想构建自己的数据仓库系统,对企业大量分散和异构的数 据进行整合,期望从中获得更多有用的信息,来提升企业的竞争力。但是,手 工编码实现的e t l 使构建数据仓库系统的周期拉长,数据仓库的数据质量不 高,针对这种情况,本文提出了构建基于工作流引擎和元数据驱动的数据仓库 e t l 工具的解决方案。这种解决方案大大缩短了数据仓库系统的开发周期, 确保了数据仓库的数据质量,使新的业务数据自动的源源不断的进入数据仓库。 这种基于工作流引擎和元数据驱动的数据仓库e t l 工具是由工作流引擎 负责抽取任务的管理、抽取任务的指派、抽取任务的依赖和约束关系检查,这 样解决了抽取任务之间的复杂调度关系。而且,该e t l 工具把所有跟数据抽 取有关的数据以元数据的形式保存在元数据库,以元数据驱动数据抽取,实现 了具体抽取程序跟具体业务的分离,使抽取程序灵活的适应具体业务逻辑的变 化,不会因为具体的业务发生变化而改变抽取程序。 本文首先在分析数据仓库的概念、特点及体系架构的基础上,指出了构建 数据仓库e t l 工具的必要性。接着对工作流和元数据技术进行介绍和分析, 并在对数据仓库e t l 工具分析的基础上提出了构建基于工作流引擎和元数据 驱动的数据仓库e t l 工具的解决方案。然后,对该e t l 工具的整体框架进行 了设计,并在该设计框架下,用j a v a 实现了该e t l 工具并进行了测试。最后 对该e t l 工具进行了总结,并对构建数据仓库e t l 工具的下步工作进行了 说明和展望。 关键词:数据仓库,e t l 工具,工作流引擎,元数据 安_ 四川大学硕士学位论文 b u i l d i n g t h ee t lt o o lo fd a t aw a r e h o u s eb a s e do n w o r k f l o w e n g i n ea n d d r i v e nb ym e t a d a t a m a j o rc o m p u t e rs 0 1 a r ea n dt h e o r y p o s t g r a d u a t e :y o n g y o u d u d i r e e t o r :z h i q u a nc h a n g a b s t r a e t w i t ht h ed e v e l o p m e n to ft h et e c h n o l o g yo fi n t e m e t ,d a t a b a s ea n dd a t a w a r e h o u s e ,t h es e v e r ec o m p e t i t i o nb e t w e e ne n t e r p r i s e sr e s u l t i n gf r o me c o n o m i c g l o b a l i z a t i o n ,m o r ea n dm o r ee n t e r p r i s e sw a n tt ob u i l dt h e i ro w n d a t aw a r e h o u s e s y s t e mw h i c hi n t e g r a t eag r e a td e a lo fe n t e r p r i s ed a t aw h i c h i sd i s p e r s i v ea n dh a s d i f f e r e n tf o r m a t ,a n dw a n tt og e tm o r eu s e f u li n f o r m a t i o nf r o mi tt oa d v a n c et h e i r c o m p e t i t i v ea b i l i t y b u ti m p l e m e n t i n gt h ee t lb yh a n dp r o l o n gt h ep e r i o d o f b u i l d i n g d a t aw a r e h o u s es y s t e ma n dr e s u l t i nt h e q u a l i t y o fd a t ai nd a t a w a r e h o u s ei sb a d t os o l v et h ep r o b l e ma b o v e ,t h et e x tp u tf o r w a r dt h es o l u t i o n b u i l d i n gt h ee t l t o o lo fd a t aw a r e h o u s eb a s e do nw o r k f l o we n g i n ea n dd r i v e n b y m e t a d a t a t h es o l u t i o ns h o r t e nt h ep e r i o do f b u i l d i n gd a t aw a r e h o u s es y s t e ma l o t ,i n s u r et h eq u a l i t yo f d a t ai nd a t aw a r e h o u s ea n dl o a dn e wb u s i n e s sd a t ai n t o d a t aw a r e h o u s ea u t o m a t i c a l l ya n d c o n t i n u o u s l y i nt h ee t lt o o lo f d a t aw a r e h o u s eb a s e do nw o r k f l o w e n g i n ea n d d r i v e n b y m e t a d a t a ,t h ew o r k f l o we n g i n ei sr e s p o n s i b l ef o rm a n a g i n gt h ee t lt a s k s , a s s i g n i n gt h ee t l t a s k sa n d c h e c k i n gt h er e s t r i c t i o na m o n g t h ee t l t a s k s ,w h i c h s o l v ec o m p l e x s c h e d u l i n ga m o n g t h ee t lt a s k s m o r e o v e r ,t h ee t lt o o ls a v e sa l l d a t aa b o u te t li n t om e t a d a t ad a t a b a s ea sm e t a d a t aa n dd r i v e sd a t ae t lb y m e t a d a t a ,w h i c hs e p a r a t et h ee t lp r o g r a mc o d ef r o mc o n c r e t eb u s i n e s sl o g i c ,l e t t h ee t l p r o g r a ma d a p tt h ec h a n g e so ft h ec o n c r e t eb u s i n e s sl o g i c ,a n dn e e dn o t 2 四川大学硕士学位论文 c h a n g et h ee t lp r o g r a mc o d ew h e n t h ec o n c r e 把b u s i n e s s l o g i cc h a n g e s t h et e x tp o i n to u tb u i l d i n gt h ee t lt o o lo fd a t aw a r e h o u s ei se s s e n t i a la f t e ra n a l y z i n g t h ec o n c e p t ,c h a r a c t e r i s t i ca n da r c h i t e c t u r eo fd a t aw a r e h o u s e t h e n ,t h et e x ti n t r o d u c ea n d a n a l y z et h ew o r k f l o wa n dm e t a d a t at e c h n o l o g y , a n dp u tf o r w a r dt h es o l u t i o nb u i l d i n gt h e e t lt o o lo fd a t aw a r e h o u s eb a s e do nw o r k l o we n g i n ea n dd r i v e nb ym e t a d a t a a f t e ra n a l y z i n gt h ee t lt o o lo fd a t aw a r e h o u s e a n dt h e n t h et e x td e s i g n st h e a r c h i t e c t u r eo ft h ee t lt o o l ,i m p l e m e n t st h ee t lt 0 0 l b y j a v au n d e rt h e a r c h i t e c t u r e ,t e s t st h ee t lt 0 0 1 a tl a s t ,t h et e x ts u m m a r i z e st h ee t lt o o l , e x p l a i n s a n d e x p e c t s t h en e x tw o r ka b o u t b u i l d i n g t h ee t lt o o lo fd a t a w a r e h o t l s e k e y w o r d s :d a t aw a r e h o u s e ,e t lt o o l ,w o r k f l o we n g i n e ,m e t a d a t a 四川大学硕士学位论文 1 绪论 1 1 数据仓库技术简介 1 1 1 数据仓库的发展历程 技术的发展源于市场的需求,数据库技术的发展再次映证了这一点。在数 据库应用的早期,一家企业如果拥有一个联机事物处理的计算机系统就可以获 得强大的市场竞争力。其次,当时单位容量的联机存储介质比现在昂贵得多, 相对于当时的市场竞争压力,将大量的历史业务数据长时间联机保存用于去分 析显然代价太高了。因此,联机事物处理只涉及当前数据,系统积累下来的历 史业务数据就转储到脱机的环境中。此外,在数据库技术应用的早期,还没有 积累大量的历史数据可供统计与分析。从而,联机事物处理系统就成为8 0 年 代直到9 0 年代初数据库应用的主流。 然而,随着互连网技术的发展和经济全球化,使各大企业之间的经营活动 日趋频繁,使企业间的竞争变得更为激烈,企业的运营环境也逐渐转化成以数 据库为中心的运营环境。企业经营活动的日趋频繁给企业经营管理带来了大量 格式异构且分布广泛的数据,而企业竞争的加剧又要求管理者对企业过去的经 营状况、管理状况和自身业务的运作及整个市场相关行业的发展态势做出准确 而全面的分析,从而做出有利的决策。事实上,企业面临着这样一个问题:如 何对大量格式各异、分布广泛的数据进行快速而有效的分析,通过分析来认识 企业经营管理的过去和现在,预测和规划未来,为企业管理者的决策提供信息 支持。 在努力寻求问题的解决方案过程中,人们发现利用传统的数据库技术来处 理大量格式各异、分布广泛的数据,效率很低。显然,单靠联机事物处理系统 已经难以满足市场的需求,也难以给企业带来竞争优势。原因在于:一、传统 的数据库技术主要是用来辅助商业处理的,对信息的获取和使用,多数情况下 仅限于对单个数据库的操作,而对于异构数据库的集成问题未加考虑。二、对 数据进行快速、准确、全面的分析建立在多年的历史数据基础上,数据量极大, 这就要求系统必须具有对海量数据进行管理的能力和快速地查询响应速度,而 婴纠盔兰堡主兰垡丝苎 传统数据库技术在这方面仍然存在不足。 数据仓库正是在这种情况下发展起来的一种新型的数据库管理系统。它的 主要任务是对企业的海量数据进行各种各样的分析,能够集成各种异构数据源 并能满足企业管理者对数据查询的快速响应,而且把事务型处理和分析型处理 相分离,其最终目的是为企业的管理者提供决策的支持信息。 1 1 2 数据仓库的概念及特征 关于数据仓库的定义有多种不同的看法。但业界公认的数据仓库概念创始 人w h i n m o n 将其定义为:“数据仓库1 是一个面向主题的、集成的、稳定的、 随时间变化的用来支持管理人员决策的数据集合。” 从以上对数据仓库的定义中,可以看出它的四个基本特征: 1 、数据仓库的面向主题性 操作型数据库的数据组织是面向事务处理任务,各个业务系统之间各自分 离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概 念,是在较高层次上对企业信息系统的数据进行综合、归类并分析利用的抽象。 面向主题的数据组织方式,就是在较高层次上对分析对象的数据的一个完整 的、统一的、一致的描述,能完整、统一地刻画各个分析对象所涉及的各项数 据,以及各项数据之间的关系。 如对一个保险公司来说,应用问题可能是汽车保险、健康保险、人寿保险 和意外伤亡保险,主要的主题域却可能是顾客、保险单、保险费与索赔。对一 个生产厂商来说,主要主题域可能是产品、定单、销售商、材料单与原货物。 对于公安系统来说,主要主题域可能是人、物、组织、事件和地点。 2 、数据仓库的集成性 在数据仓库的所有特性当中,这是最重要的。数据仓库中的数据是从多个 不同的数据源抽取上来的,但不是原有数据的简单拷贝,而是经过统一的转换、 综合按照一定的主题重新组织的。其一、各个源数据库的数据是按照各自的业 务需要进行记录的,它们不适合分析型处理,在进入数据仓库之前需要对它们 进行综合、计算,去掉一些分析处理不必要的数据,同时增加一些可能涉及的 ( 美) w hi n m o n 箸王志海、林友芳等译数据仓库机械工业出版社2 0 0 33 2 婴删查兰堡主堂垡堡塞 外部数据。其二、应用设计人员建立一个应用时没有考虑他们正在操作的数据 在将来的某一天将不得不与其它数据进行集成。这样做就导致了各个源数据库 之间在编码、命名习惯、物理属性、属性度量单位等方面不存在任何一致性。 当数据从异构数据库进入数据仓库之前,就必须经过数据转换、数据清洗,消 除异构数据之间的不一致性及错误的地方,以保证数据的质量。否则,按照不 正确的数据进行分析所得出的结果将不能指导科学决策。其三、各个源数据库 之间存在冗余数据,在进入数据仓库之前需要进行统一的处理,抛弃多余的数 据。对源数据的集成是数据仓库构建过程中最关键的一步,也是最复杂的一步。 3 、数据仓库的稳定性 数据仓库的稳定性是指数据仓库中的数据稳定性。数据仓库中的数据是面 向分析的,供企业决策分析之用,所涉及的数据操作主要是数据查询,一般情 况下不进行修改操作。数据仓库中的数据反映的是相当长一段时间内历史数据 的内容,是不同时间、地点数据库快照的集合,是基于这些快照数据进行统计、 综合和重组的导出数据,而不是o l t p 的数据。数据一旦写入数据仓库就不在 有变化了,但数据仓库存放的数据一旦超过数据仓库数据存储期限,这些数据 将从数据仓库中删去。实质上,数据仓库的稳定性所创建的是个虚拟的只读 数据库系统。 4 、数据仓库的时变性 数据仓库的时变性是指数据仓库中的数据要及时反映时间维。第一,根据 业务数据库中数据的添加、修改,要定期地对数据仓库进行增量维护,使数据 仓库中的数据能够反映、体现业务数据库中数据的变化,好让决策者有及时、 准确和全面的数据供他们分析。第二,数据仓库中包含大量的综合数据,这些 综合数据中很多跟时间有关,是较低细节级的数据按照一定的时间段进行综 合、统计和整合后导出的数据。第三,数据仓库中的数据是有生存周期的,这 些数据一旦超过数据存储期限,将从数据仓库中删去。第四,数据仓库中的每 个数据单元都只是在某时间是准确的。每条记录都包含某种形式的时间标志 用以说明数据在哪一时间是准确的。总之,数据仓库要不断增加新的数据,也 要删去过时的数据,还要根据时间段对较低细节级的数据进行综合、统计和重 新整合产生综合数据。 四川太学硕士学位论文 1 1 3 数据仓库系统的基本体系结构 与其说数据仓库是一个软件开发项目,还不如说它是一个系统集成项目。 因为它的主要工作是把数据仓库所需的数据集成和整合在一起,把所需的数据 仓库工具集成在一起,完成数据的抽取、转换和加载,o l a p 分析和数据挖掘 等。如图1 1 所示,它的典型结构由操作环境层、数据e t l 层、数据仓库层、 计算展现引擎层和业务应用层等组成。 人机交互界面( o l a p 分析界面、数据 应用层挖掘分析界面、综合查询界面等) t i 计算展现引擎( o l a p 服务器、数据挖 :展现引擎层 掘服务器、报表展现服务器等) 仓库层i 据主喜号手二二t 三事耋涂市 t l e t l 层数据e t l 工具( 数据抽 取、转换、清洗、装载) 一 么 。 圈1 1 数据仓库系统的基本体系结构 操作环境层:是数据仓库系统的基础,是整个系统的数据源泉。通常 包括企业内部信息和企业外部信息。企业内部信息是指企业内分布广 4 望型盔芏堡圭兰垡堡塞 泛的、异构的r d b m s 中包含的各种业务处理数据和各类文档数据。 外部信息包括跟企业有关的各类宏观经济政策、宏观经济形势、法律 规范、市场信息和竞争对手信息等等。 数据e t l 层:主要负责对企业内大量分布广泛的、异构的数据进行 抽取,对数据按照统一制定的转换规则进行转换、集成,并按照一定 的规则进行数据清洗,最后把经过转换、清洗的高质量数据装载到数 据仓库。 数据仓库层:主要是负责数据的组织和管理。数据仓库中的数据组织 是否合理、管理是否规范,对数据仓库的应用起了决定性的作用。一 个设计良好的数据仓库会给企业带来强大的竞争力,但一个设计不合 理的数据仓库只会给企业白白增加投入。 计算展现引擎层:主要为业务应用层的查询分析提供各种算法引擎和 展现引擎,对一些有规律的频繁应用可以先取出相关数据,按照一定 的算法进行计算,并把结果按照一定的展现方式进行存储,等下次查 询分析的时候,直接取结果就行。 业务应用层:主要包括各种查询分析界面,如o l a p 分析界面、数据 挖掘分析界面、语音查询界面、关联查询界面、综合查询界面等等。 1 2 构建数据仓库e t l 工具的必要性 e t l l 分别是三个单词首字母的缩写( e x t r a c tt r a n s f o r ml o a d ) ,也就是抽取、 转换、装载,但我们日常称它为数据抽取。e t l 包含了三个方面,首先是“抽 取”:将数据从各种原始的业务系统中读取出来,这是所有工作的前提。其次 是“清洗和转换”:按照预先设计好的规则将抽取出来的数据进行清洗和转换, 使不合法的数据被清洗掉,使本来合法异构的数据的格式能够统一起来。最后 是“装载”:将转换好的数据按计划一次性全部或增量的导入到数据仓库中去。 e t l 是数据仓库建立的核心过程。它按照统一的规则集成和整合并提高 数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是负责增 量维护数据仓库的驱动力,是保障数据仓库数据质量的关键,是实施数据仓库 吴悦,如何选择e t l 工具,! t t t p :w w w d w w a v c o m ,2 0 0 4 4 5 婴型茎兰塑主堂垡堡塞 的重要步骤。 数据仓库系统是在业务系统的基础上发展起来的,其内部存储的数据来自 于事物处理的业务系统和外部数据。由于业务系统的开发一般有一个较长的时 间跨度,而且企业的业务系统是在不同时期、不同背景、面对不同应用、不同 开发商等客观前提下建立起来的,其数据结构、存储平台、系统平台都存在很 大的异构性,这就导致了企业内各源数据缺少统一的标准。要提高这些不一致 性数据的价值,就需要为这些分布广泛的、异构的数据制定统一的清洗和转换 规则,保证数据源中的数据能够以统一的格式、高质量、源源不断的进入数据 仓库。 数据转换是e t l 中最令人头疼的问题,而转换规则的制定又是数据转换 的关键。通常情况下,我们遇到的转换要求包括:字段映射;映射的自动匹配; 字段的拆分;多字段的混合运算;跨异构数据库的关联;自定义函数;多数据 类型支持;复杂条件过滤;支持脏读;数据的批量装载;时间类型的转换;对 各种码表的支持:环境变量是否可以动态修改;去重复记录;抽取断点:记录 间合并或计算:记录拆分;抽取的字段是否可以动态修改;行、列变换:排序: 统计;度量衡等常用的转换函数;代理主键的生成;调试功能;抽取远程数据; 增量抽取的处理方式;制造样品数据:在转换过程中是否支持数据比较的功能: 数据预览;性能监控:数据清洗及标准化;按行、按列的分组聚合等。 由以上情况可知,我们制定转换规则的难度和工作量都是很大的。如果手 工编码实现e t l ,那么对各个异构数据源都要单独实现e t l ,这样对e t l 的 管理和维护难度就较大,实现e t l 的开发周期较长,工作量较重,e t l 的性 能和效率波动性较大,完全取决于开发者的水平。如果对各个异构数据源构建 统一的e t l 工具,那么前期投入较大,但后期的管理和维护容易,版本更新 方便,性能和效率稳定,开发周期较短,工作量较轻,可移植性、扩展性和健 壮性较好。可见,构建e t l 工具比手工编码实现e t l 有很大的优势。为了缩 短数据仓库的开发周期,适应数据仓库数据驱动的“螺旋式”开发方法,保障 数据仓库中数据的高质量,构建e t i 工具是很有必要的。 1 3 本文的结构 本文的结构是围绕e t l 工具来展开的。第一章在简单介绍和分析数据仓 6 璺删盔鲎塑圭堂垡堡茎 一 库的发展历程、特点和基本体系结构基础上,指出了构建e t l 工具的必要性。 第二章对工作流技术和元数据技术进行了简单的介绍和分析,这两项技术是本 文构建e t l 工具时要用到的重要技术。第三章从设计e t l 工具时要考虑的因 素、e t l 工具的发展现状、基于工作流引擎和元数据驱动的e t l 工具的优点 三个方面对e t l 工具进行了分析。第四章是对e t l 工具的体系结构进行设计, 并讲解了各个模块的功能。第五章是对e t l 工具如何实现、以什么样的方案 来实现进行论述,并进行了部分测试。第六章是对全文的一个总结。 四j i i 大学硕士学位论文 2 工作流和元数据技术介绍 2 1 工作流技术介绍 2 1 1 工作流技术的起源 工作流的概念起源于生产组织和办公自动化领域。它是针对日常工作中 具有固定程序的活动而提出的一个概念。提出的目的是通过将工作分解成定义 良好的任务、角色,按照一定的规则和过程来执行这些任务并对它们进行监控, 达到提高办事效率、降低生产成本、提高企业生产经营管理水平和企业竞争力 的目标。实际上,自从进入工业化时代以来,有关过程的组织管理与流程的优 化工作就一直在进行,它是企业管理的主要研究内容之一。只不过在没有引入 计算机信息系统的支持以前,这些工作是由人工来完成的。在计算机网络技术 和分布式数据库技术迅速发展、多机协同工作技术日臻成熟的基础上于2 0 世 纪8 0 年代中期发展起来工作流技术为企业更好地实现这些经营目标提供了先 进的手段。工作流技术一出现马上得到广泛的重视和研究。至今工作流管理技 术已成功地运用到图书馆、医院、保险公司、银行等行业,然而它更重要的应 用还是在工业领域,特别是制造业领域中。 在企业应用实际中,虽然工作流的概念相对于物料流、资金流、信息流等 概念要抽象一些,但是工作流从更高的层次上提供了实现物料流、资金流、信 息流及其涉及的相关过程与应用的集成机制,从而使得企业能够实现业务过程 集成、业务过程自动化与业务过程的管理。在工作流概念下实现业务过程集成 与业务过程自动化的集成机制是通过定义不同任务之间相互关系的工作流模 型来实现的。在工作流模型中,无论是具体的物料转移动作、实际物理装置的 操作动作、还是抽象的信息处理动作与决策过程,都可以用工作流的基本组成 元素任务( 也称为活动) 来统一地进行描述。同样,反映不同任务之间的 关系,无论是具体的车间中零件加工顺序关系、办公自动化中的文件批转、还 是抽象的决策流之间的关系都可以用工作流的基本组成元素连接弧来统 一地进行描述。连接弧反映了对企业业务经营过程的一种控制逻辑,它定义了 范玉顺,工作流管理技术基础清华大学出版社2 0 0 1 8 四川大学硕士学位论文 活动之间的连接关系和执行顺序。 企业传统的信息传递与处理方式是以纸张为载体的,这种方式效率很低, 需要相当的人力、物力来完成信息的处理、组织、存储以及查询检索,同时这 种方式降低了对客户需求的响应速度,给企业的生产经营都带来不利的影响。 随着计算机技术的发展和普及,企业业务人员希望能够以一种无纸的、计算机 使能的工作环境来开展其日常的业务工作。一些企业和公司就把图象扫描、复 合文档、结构化路由、实例跟踪、关键字索引、光盘存储以及报文自动转发等 功能结合在一起,形成了一种全面支持某些业务流程的集成化的软件,这便是 早期的工作流管理系统。它们的出现逐渐让企业走上了无纸化办公。很显然, 这种集成化软件系统为企业简化与重组自己的关键业务提供了一种非常好的 办法。 进入2 0 世纪9 0 年代,随着计算机与网络技术的迅速发展,特别是在 i n t e m e t 应用日益普及的情况下,现代企业的信息系统的分布性、异构性和自 治性的特征越来越显著,相应的企业信息资源也分布在异构的计算机环境中, 信息源之间的连接表现出松散藕合的特点,这样的信息系统环境简称h a d 环 境( 异构、自治、分布) 。企业物理位置的分散性和决策制定过程的分散性特 征日益明显、对日常业务活动详细信息的需求日益提高、c l i e n t s e r v e r 体系结 构、b r o w s e s e r v e r 体系结构和分布式处理技术的广泛应用,以上这些情况说 明大规模的异构分布式信息处理与应用执行环境将越来越重要。在这种大规模 的分布式环境下高效的运转相互关联的任务,并且对执行的任务进行密切监控 已成为一种发展趋势。在这种技术背景下,工作流管理系统也由最初的创建无 纸办公环境,转而成为同化企业复杂信息环境、实现业务流程自动执行的必要 工具。这样的一个转变,把工作技术带入了一个崭新的发展阶段,使得人们从 更深的层次、更广泛的领域上对工作流展开了研究。 目前,在全球范围内,对工作流的技术研究以及相关的产品开发进入了更 为繁荣的阶段,更多更新的技术被集成进来,文件管理系统、数据库、电子邮 件、移动式计算、i n t e r n e t 服务等都已被容纳到工作流管理系统之中。而且随 着计算机技术的发展,工作流产品的供应商又及时地将新的技术融入工作流 中,提高产品性能,使得工作流技术得到不断完善。作为支持企业经营过程重 9 璺纠盔堂夔主堂垡堡苎 组( b u s i n e s sp r o c e s sr e e n g i n e e r i n g - - b p r ) 、经营过程自动化( b u s i n e s sp r o c e s s a u t o m a t i o n - - b p a ) 的一种手段,工作流技术的研究应用日益受到学术界与企 业界的重视。许多大学和研究机构也致力于工作流技术的进一步发展。开展了 一系列研究项目,取得了显著的成果。 2 1 2 工作流的基本概念 1 9 9 3 年工作流管理联盟( w o r k f l o wm a n a g e m e n tc o a l i t i o n ,w f m c ) 的成 立标志着工作流技术开始进入相对成熟的阶段。为了实现不同工作流产品之间 的互操作性,w f m c 在工作流管理系统的相关术语、体系结构及应用编程接 口( w a p i ) 等方面制定了一系列标准。 不同的研究者和工作流产品供应商从不同的角度给出了工作流的定义。如 工作流管理联盟给出的工作流定义是:工作流是一类能够完全或者部分自动执 行的经营过程,它根据一系列过程规则,文档、信息或任务能够在不同的执行 者之间进行传递与执行。g e o r g a k o p o u l o s 给出的工作流定义是:工作流是将一 组任务( t a s k ) 组织起来完成某个经营过程。在工作流中定义了任务的出发顺 序和触发条件。每个任务可以由一个或多个软件系统完成,也可以由一个或一 组人完成,还可以是由一个或多个人与软件系统协作完成。任务的触发顺序和 触发条件用来定义并实现任务的触发、任务的同步和信息流( 数据流) 的传递。 p e o p l e s o f t 公司给出的定义是:工作流是一个用来实施经营过程实践的机制。 i b ma l m a d e n 的研究中心给出的工作流定义是:工作流是经营过程的一种计算 机化的表示模型,定义了完成整个过程所需用的各种参数。这些参数包括对过 程中每一个步骤的定义、步骤间的执行顺序、条件以及数据流的建立、每一步 骤由谁负责以及每个活动所需要的应用程序。 以上的这些工作流的定义,包括其它的一些工作流定义基本上都是用非形 式化语言对工作流所进行的描述,虽然表达方式略有不同,从不同角度和侧重 点给工作流下定义,但是基本上都说明这样一个问题,即工作流是经营过程的 一个计算机实现,而工作流管理系统则是这一实现的软件环境。使用工作流技 术作为经营过程的实现技术首先要求工作流管理系统能够反映经营过程的如 下几个方面的问题:即经营过程是什么( 由哪些活动、任务组成,也就是结构 堕型盔兰堡主兰堡堡塞 上的定义) 、怎么做( 活动间的执行条件、规则以及所交互的信息,也就是控 制流和信息流的定义) 、由谁来做( 人或者计算机应用程序,也就是组织角色 的定义) 、做得怎么样( 通过工作流管理系统对执行过程进行监控) 。 以上的一些定义从不同角度说明了工作流是具有广泛应用价值的计算机 软件技术,它更多的与经营过程发生关联,可以应用于经营过程的不同阶段。 在实际情况中可以更广泛地把凡是有计算机软件系统( 工作流管理系统) 控制 其执行的过程都称为工作流。工作流通常用于过程的自动化,通过将文档、信 息或任务按照预先定义好的规则和流程在参与者之间进行传递,从而帮助用户 实现或完成整个经营目标。在企业应用中,工作流经常与经营过程重组相联系, 它完成对一个组织或机构中核心经营过程的建模、评价分析和操作的实施。虽 然并非所有的b p r 过程都需要采用工作流的方式进行实施,但是工作流技术通 常是实施b p r 的一个较好的方法,因为工作流提供了经营过程逻辑与它的信息 支撑系统的分离,并实现了应用逻辑和过程逻辑分离,这种方式在进行企业实 际应用时具有显著的优点。它可以不修改具体功能模块实现方式( 如硬件环境、 操作系统、数据库系统、编程语言、应用开发工具、用户界面) 的情况下,通 过修改过程模型来改进系统性能,实现对生产经营过程部分或全部地集成管 理,有效地把人、信息和应用工具合理地组织在一起,提高软件的重用率,发 挥系统的最大效能。工作流技术可以支持企业实现对经营管理和生产组织的过 程控制咀及决策支持,它能够实现现代企业对“在适当的时间把适当的信息传 给适当的人”的要求。工作流系统还可以提供系统日志功能,这种日志记录对 于进行企业经营过程的运转情况的事后分析和流程优化提供了十分重要的数 据。 为了能够说明企业的经营过程,并且以计算机可以识别的方式建立企业经 营过程模型,在工作流中定义一系列的基本概念和术语用来描述模型的组成, 从而实现对企业经营过程的建模。首先是工作流的定义,工作流中两个最基本 的元素是活动和活动之间的连接关系。活动对应于经营过程中的任务,主要是 反映经营过程中的执行动作或操作。活动之间的连接关系代表了经营过程的规 则和业务流程。一个工作流就是一个用一组连接关系组合起来的一组活动组成 的一个反映企业业务过程的模型。执行活动和活动之间的关系说明了如何完成 婴业丕堂堡圭堂垡堕塞 企业的经营过程,包括完成经营过程需要完成哪些任务和采用的步骤。 当然描述一个企业的业务过程不是仅有活动和活动之间的连接关系就能 够描述清楚的。一个企业的经营过程中还要涉及参与操作的人员、组织、所操 作的数据、使用了哪些计算机应用程序等。在工作流模型中通过定义活动的角 色( 操作人员) 和组织单元( 组织结构、部门) 来描述企业的经营过程是由谁 来完成的。另外,通过定义工作流应用程序来说明采用了什么手段来完成经营 过程。下面就举个简单的例子来说明可以采用工作流建模方法进行描述的经营 过程。 例1 :某电脑公司计算机销售过程的工作流描述方法。图2 给出流程的具体 含义为用户通过i n t e m e t 向公司发出定单,用户在填写定单时提出计算机的基 本配置要求,并指出所需计算机的台数。整个流程通过以下活动完成销售业务 过程: 1 用户通过i n t e m e t 或其它方式向公司发出定单,指出所需的计算机基本配置 要求和数量: 2 公司收到用户定单; 3 公司对用户定单进行检查( 以下3 个活动属于并发活动,同时进行) : 1 ) 计算价格: 2 ) 检查零部件库存是否满足需求; 3 ) 进行配置检查,确认用户的定单技术上可行; 4 进行决策: 1 ) 如果通过检查,则继续进行; 2 ) 如果未通过检查,则向用户发出信笺,解释为什么定单不能完成,并 提出修改意见: 5 准备接收定单的确认通知并要求用户付款; 6 发出通知; 7 装配计算机; 8 送货。 凹删查堂堡主芏焦丝塞 图2 1 计算机销售过程的流程 四川大学硕士学位论文 上面这个例子中的方框表示经营过程中的任务,它们对应于工作流中的 活动。方框之间的连接弧表示了活动之间的关联。这个例子表明了工作流技术 具有广泛的应用背景,它可以用直观的、用户非常容易理解的方式来描述日常 的事物处理活动和企业的经营过程。 2 1 3 工作流管理系统 根据w i m c 给出的关于工作流管理系统的定义,工作流管理系统是一个 软件系统,它完成工作流的定义和管理,并按照计算机中预先定义好的工作流 逻辑推进工作流实例的执行。通常,工作流管理系统指运行在一个或多个称为 工作流机的软件上的用于定义、实现和管理工作流运行的一套软件系统,它和 工作流执行者交互,推进工作流实例的执行,并监控工作流的运行状态。在工 作流管理系统的支撑下,通过集成具体的业务应用软件和操作人员的界面操 作,才能够良好地完成对企业经营过程运行的支持。所以,工作流管理系统在 一个企业或部门的经营过程中的应用过程是一个业务应用软件系统的集成与 实施过程。 工作流管理系统可以用来定义与执行不同覆盖范围、不同时间跨度的经营 过程,这完全取决于实际应用背景的需求。按照经营过程以及组成活动的复杂 程度的不同,工作流管理系统可以采取许多种实施方式,在不同的实施方式中, 所应用的信息技术、通信技术和支撑系统结构会有很大的差别。工作流管理系 统管的实际运行环境可以是在一个工作组内部或者在全企业的所有业务部门。 虽然工作流理系统具有不同的应用范围和不同的实施方式,它们还是具有许多 共同的特性。从比较高的层次上来抽象地考察工作流管理系统,可以发现所有 的工作流管理系统都提供了3 种功能: 建立阶段功能:主要考虑工作流过程和相关活动的定义和建模功能, 完成经营过程的计算机化的定义: 运行阶段的控制功能:是工作流管理系统的神经中枢、核心,在一定 的运行环境下,执行工作流过程,并完成每个过程中活动的排序和调 婴丕鲎堡主兰垡丝茎 度功能,对每个过程的执行情况进行监控。 运行阶段的人机交互功能:实现各种活动执行过程中用户与i t 应用工 具之间的交互。 图2 2 给出了工作流管理系统三个主要功能之间的关系: 图2 2 工作流管理系统的特性 工作流管理系统是一个功能强大、复杂的业务支撑系统。市场上流行各种 各样的工作流管理系统,综合考察目前的工作流产品市场,可以根据实现业务 过程、底层实现技术及任务项传递机制这三种分类方法对工作流管理系统及岁 产品进行分类。根据所实现的业务过程,工作流管理系统可以分为四类: 管理型工作流:在这类工作流中活动可以预定义并且有一套简单的1 务协调规则。 设定型工作流:与管理型工作流相似,但一般用来处理异常或发生 会比较小的情况,有时甚至是只出现一次的情况,这与参与的用户 关。 些业查兰塑主兰篁堡兰 协作型工作流:参与者和协作的次数较多。在一个步骤上可能反复发 生几次直到得到某种结果,甚至可能返回到前一阶段。 生产型工作流:实现重要的业务过程的工作流,特别是与业务组织的 功能直接相关的工作流,与管理型工作流相比,生产型工作流一般应 用在大规模、复杂的和异构的环境下,整个过程会涉及许多人和不同 的组织。 根据底层实现技术,可将工作流产品分为三类: 以通讯为中心:以电子邮件为底层的通讯机制。这种类型的工作流管 理系统适合于协作型工作流和不确定型工作流,而不适合生产型工作 流。 以文档为中心:基于文档路由,它同外界应用的交互能力有限。许多 基于表的管理型工作流可以用以文档中心的工作流实现。 以过程为中心:这种工作流系统对应生产型工作流。它一般建立在数 据库之上,有自己专用的通信机制并且提供了同外部进行交互的接 口。 根据不同工作流系统所采用的任务项传递机制不同,市场上的工作流产品又可 以划分为四类: 基于文件的工作流系统:以共享文件的方式来完成任务项传递。这种 类型产品开发得最早、发展最成熟、其产品品种较多。代表产品有 f i l e n e t 的v i s u a lw o r k f l o 、m m 的f l o w m a r k 、i n c o n e r t 的i n c o n e r t 。 基于消息的工作流系统:通过用户的电子邮件系统来传递文档信息。 这种类型的产品一般都提供与一种或多种电子邮件系统的集成接口。 代表产品有n o v e l l 与f i l e n e t 台作开发的e n s e m b l e 、j e t f o r m 公司的 i n t e m p o 、k e y f i l e 公司的k e y f l o w 。 基于w e b 的工作流系统:通过n v w 来实现任务的协作。这一类产品起 步较晚,但是迅速,其市场前景十分看好。代表产品有a c t i o n t e c h n o l o g i e s 公司的a c t i o n w o r k sm e m o 、u l t i m u s 公司的u l t i m u s 。 群件与套件系统:虽然这一类产品与上面介绍的三种产品在任务传递 方式上有很大程度的重叠,但是在这里却有必要把它们单独划分成一 凹型丕堂堕主兰垡丝塞 类,因为这一类产品都需要依赖自己系统的应用基础结构,包括消息 传递、目录服务、安全管理、数据库与文档管理服务等,它们本身构 成了一个完整的应用开发环境。代表产品有i b m l o t u s 公司的l o t u s n o t e s 、m i c r o s o r 公司的o f f i c e 与e x c h a n g e 、n o v e l l 公司的g r o u p w i s e 。 从以上对工作流管理系统的分类可以看出,工作流管理系统支撑的范围比 较大、环境比较比较复杂、系统规模比较庞大、实现功能比较完善,所以有人 称工作流管理系统是业务操作系统( b o s - - b u s i n e s so p r e a t i n gs y s t e m ) 。 2 1 4 工作流管理系统的体系结构及参考模型 随着工作流产品的需求不断扩大,许多公司纷纷推出了不同的工作流产 品。这些工作流产品都有自己的特点,也有自己的协议和接口标准,它们在不 同的应用领域进行了应用。但是由于工作流管理技术与产品缺乏统一的标准, 这些不同的工作流产品从术语的定义和使用、系统结构的设计到与应用之间的 接口规范上都存在较大的差异,导致这些产品之间、产品与其它应用之间的集 成十分困难。按照对系统开放性的要求,这些工作流系统和产品的规范化程度 和开放性不够,导致它们之间不能够实现互操作。工作流管理系统的互操作是 指两个或多个工作流机之间通讯和协作工作的能力,具有通讯和协作的能力就 称为可以互操作,否则就称为不能互操作。不同工作流管理系统之间不能互操 作这种情况给开发商和用户都带来了很大的不方便,也在一定程度上阻碍了工 作流管理系统的推广和发展。 为了能够更好的支持企业经营过程建模、分析和实施,适应世界市场的多 元化趋势,需要建立工作流管理系统的相关标准,从系统结构、术语使用、接 口实施方面提供标准化与规范化的定义,并以此为基础实现不同工作流产品之 间的互操作性,方便与其它应用系统的集成。为此,w f m c ( 工作流管理联 盟) 国际组织提出了有关工作流管理系统的一些规范,定义了工作流管理系统 的结构及其与应用、管理工具和其它工作流管理系统之间的应用编程接口,其 主要目的是为了实现工作流技术的标准化和开放性,从而支持异构工作流管理 系统产品之间的互操作,并且使得其它的应用可以使用该结构和定义好的通用 a p i 访问不同工作流管理系统提供的服务,实现与其它应用的快速有效集成。 婴型查兰堕主芏垡笙三 n 2 3 3 2 作流管理系统的体系结构图就是w f m c 提出的工作流参考模型的体系 结构。这个参考模型的体系结构给出了抽象的工作流管理系统的功
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公司成型制作养护工岗位工艺作业技术规程
- 船舶木塑工安全操作规程背诵考核试卷及答案
- 2025合同模板设备租赁合同(设备有抵押)范本
- 公司养老护理员安全技术规程
- 2025企业用工劳动合同书
- 2025国际设备采购合同(2)
- 2025梧桐树买卖合同
- 专项法律知识培训合同课件
- 个人之间借款协议书
- 2026届江苏省苏北地区七年级数学第一学期期末复习检测模拟试题含解析
- 河堤护坡方案范本
- 2025机械设备购销合同样本模板
- 农机农艺融合培训课件
- 张掖辅警考试题目及答案
- 绩效考核模板:物流企业客户服务、仓储管理、运输配送绩效指标
- 施工吊篮专项施工方案
- 2025年时事政治考试题库及参考答案(100题)
- 护士输液PDA扫码流程课件
- 爱笑的虎鲸课件
- 九章怀沙全文课件
- 损失厌恶效应-洞察及研究
评论
0/150
提交评论