(计算机应用技术专业论文)面向中小企业的主动数据仓库.pdf_第1页
(计算机应用技术专业论文)面向中小企业的主动数据仓库.pdf_第2页
(计算机应用技术专业论文)面向中小企业的主动数据仓库.pdf_第3页
(计算机应用技术专业论文)面向中小企业的主动数据仓库.pdf_第4页
(计算机应用技术专业论文)面向中小企业的主动数据仓库.pdf_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

面向中小企业的主动数据仓库 面向中小企业的主动数据仓库 摘要 当今社会,越来越多的企业认识到,只有靠充分利用、挖掘其现有数据,才 能实现企业效益最大化。大多数企业并不缺乏数据,而是受阻于数据冗余和不一 致。传统的数据库应用系统是面向业务操作设计的,简化了具体操作人员的劳动 强度,而企业的中高层领导却没有相应的系统。企业需要新的技术来弥补原有数 据系统的不足,需要把已经广泛收集到的数据集成到数据仓库中,以便从业务数 据中提取有用的信息,帮助他们在业务管理和发展上做出及时、正确的判断。 本文在深入研究了传统的数据仓库方案后,认为当前的数据仓库系统无法满 足中小企业的需求,对于中小型的企业而言,由于入力资源和资金投入有限,企 业的人力资源和员工素质往往无法足以应付数据仓库管理与维护方面的处理需 求,同时传统的数据仓库通常只能分析历史数据,而且数据抽取周期相当长,一 般为一天甚至一周,难以反映瞬息万变的市场变化。从这个角度出发,针对中小 企业的工作特点,适时地为数据仓库增搬一些自动响应与处理能力将十分符合中 小企业的特点与需求。 本文在介绍了主动规则、分析规则、分布式a g e n t 、传统数据仓库的基础上 提出了面向中小企业的主动数据仓库系统,通过增加改进的e c a 规则、中间数 据仓库和分布式a g e n t ,克服了传统数据仓库存在的性能低下、处理粒度大、占 用空间大、处理不够及时等缺点,并使得数据仓库的数据采集和分析处理能力在 尽可能少地改动原有业务系统的基础上达到了双向实时主动性 最后,论文提出了面向中小企业主动数据仓库系统中有待解决的一些问题。 关键词:数据仓库;e c a 规则;分析规则;分布式a g e n t ; 面向中小企业的主动数据仓库 s 吼l s c a l e e n t e r p l u s e - o i u e n t e da c t i v e d a t a 憎。r e h o u s e a b s t r a c t c u r r e n ts o c i e t y , m o l ea n dm o r ee n t e r p r i s e sr e c o g i l i z et h a to n l yt h r o u g hf u l lu s eo f 甘溉fe x i s t i n gd a t ac a l lm a x i m i z et h e i rb e n e f i t s m o s te n t e r p r i s e sa l en o tl a c ko fd a t a , b u t d e l a yi n d a t a r e d u n d a n c y a n d i n c o n s i s t e n c y t r a d i t i o n a ld a t a b a s ei s a b u s i n e s s o r i e n t e dw h i c hd e s i g n e do n l yt os t r e a m l i n et h el a b o ri n t e n s i t yo fas p e c i f i c o p e r a t i o n ,a n dt h e r ei sn oc o r r e s p o n d i n gs y s t e mf o rt h et o pl e a d e r s h i p e n t e r p r i s e s n e e dn e wt e c h n i q u e st oc o m p e n s a t ef o rt h ei n a d e q u a c i e so ft h ee x i s t i n gd a t as y s t e m a n dn e e dt oh a v ea ne x t e n s i v ec o l l e c t i o no fd a t ai m e g r a t i o nt ot h ed a t aw a r e h o u s et o e x t r a c tu s e f u li n f o r m a t i o nf i o mb u s i n e s sd a t at oh e l pt h e mm a k et i m e l ya n dc o r r e c t j u d g m e n ti nb u s i n e s sm a n a g e m e n ta n dd e v e l o p m e n t i nt h i sp a p e r , i n - d e p t hs t u d yo ft r a d i t i o n a ld a t aw a r e h o u s ep r o g r a m ,t h a tt h e c u r r e n td a t as t o r a g es y s t e mc a nn o tm e e tt h en e e d so fs m a l l s c a l ee t e r p r i s e s f o r t h e m ,t h eq u a l i t yo fh u m a nr e s o u g c e ss t a f fa r eo f t e nu n a b l et om e e tt h em a n a g e m e n t a n dm a i n t e n a n c eo ft h ed a t aw a r e h o u s ep r o c e s s i n gn e e d sd u et ol i m i t e dm a n p o w e r a n df i n a n c i a l e s o l z l - c e s m e a n w h i l et h et r a d i t i o n a ld a t aw a r e h o u s eu s u a l l yo n l y h i s t o r i c a ld a t aa n a l y s i s ,d a t ae x t r a c t i o nc y c l ei st o ol o n g ( e v e no l l ed a yaw e e ki n g e n e r a l ) d i f f i c u l tt or e f l e c tm a r k e tc h a n g e s f r o mt h i sp e r s p e c t i v ea n dt h e c h a r a c t e r i s t i c so fs m a l l s c a l ee n t e r p r i s e s ,a d da u t o m a t i c a l l yr e s p o n s ea n dh a n d l i n g c a p a b i l i t yt i m e l yt od a t aw a r e h o u s ei si n l i n ew i t l lt h ec h a r a c t e r i s t i c sa n dn e e d so f t h e m t h i sp a p e ri n t r o d u c e ss m a l l - r s c a l e - e n t e r p r i s e - o r i e n t e da d a p t i v ed a t aw a r e h o u s e a f t e rd e s c r i b i n ge c ar u l e s ,a n a l y s i sr u l e s ,a n dd i s t r i b u t e da g e n t b ya d d i n gt h ee c a r u l e s ,i n t e r m e d i a t ed a t aw a r e h o u s ea n dd i s t r i b u t e da g e n t , t h es y s t e mo v e r c o m e s d i s a d v a n t a g e o ft r a d i t i o n a ld a t aw a r e h o u s ei nh a n d l i n g g r a n u l a r i t y , h a n d l i n g p e r f o r m a n c e , a n dm a k e st h em i n i n ga n da n a l y z i n gc a p a c i t yo fd a t aw a r e h o u s e h 面向中小企业的主动数据仓库 r e a c h i n gab i d i r 础o n a lr e a l - t i m ea d a p t i v e f i n a l l y , t h ep a p e rp u tf o r w a r ds o m ei s s u e so fs m a l l s c u d e - e n t e r p r i s c - o r i e n t e d a c t i v ed a t aw a r e h o u s ew h i c hs h o u l db er e s o l v e di i t _ f u t u r e k e y w o r d s :d a t aw a r e h o u s e ;e c ar u l e s ;a n a l y s i sr u l e s ;m u l t i a g e n ts y s t e m ; 1 1 1 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 本人为获得浙江工商大学或其它教育机构的学位或证书而使用过的 材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作 了明确的说明并表示谢意。 签名: 4 丝:虹兰日期:少矿7 年月7 日 关于论文使用授权的说明 本学位论文作者完全了解浙江工商大学有关保留、使用学位论文 的规定:浙江工商大学有权保留并向国家有关部门或机构送交论文的 复印件和磁盘,允许论文被查阅和借阅,可以将学位论文的全部或部 分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制 手段保存、汇编学位论文,并且本人电子文档的内容和纸质论文的内 容相一致。 保密的学位论文在解密后也遵守此规定。 签名:导师签名:血翌 e t 期:加刁年,月t 、日 期:加,年,月 日 面向中小企业曲主动数据仓库 第一章绪论 第一节课题研究的背景及意义 当今社会,越来越多的企业认识到,只有靠充分利用、挖掘其现有数据,才 能实现企业效益最大化。大多数企业并不缺乏数据,而是受阻于数据冗余和不一 致。传统的数据库应用系统是面向业务操作设计的,简化了具体操作人员的劳动 强度,而企业的中高层领导却没有相应的系统。企业需要新的技术来弥补原有数 据系统的不足,需要把已经广泛收集到的数据集成到数据仓库中,以便从业务数 据中提取有用的信息,帮助他们在业务管理和发展上做出及时、正确的判断。 然而将常规的数据仓库应用于中小企业确存在很多问题,如常规的数据仓库 是被动的。分析数据和做出决策支持都要用户手工参与,在用o l a p ( o nl i n e a n a l y t i c a lp r o c e s s i n g 联机分析处理) 技术进行多维分析时往往是由用户提出 分析要求再回答这些问题;常规的数据仓库实时性比较差,它的数据是从数据源 经过集成等一系列过程转载的,这个过程数据处理量大,一般是周期性进行。对 于中小型的企业而言,由于人力资源和资金投入有限,企业的人力资源和员工素 质往往无法足以应付数据仓库管理与维护方面的处理需求,并且市场竞争的压 力,企业为了适应竞争,决策也要不断的变化,数据仓库的漫长的周期,无法满 足企业决策快速变化的要求。从这个角度出发,针对中小企业的工作特点,适时 地为数据仓库增加一些自动响应与处理能力将十分符合中小企业的特点与需求。 我们在传统数据库的基础上研究引入主动分析规则和e c a 主动规则开发并建 立面向中小企业的主动数据仓库,该主动数据仓库系统是基于各予数据库的主动 将数据送往集成器来实现的,它是在不改变或作少量改变原有系统的基础上,让 数据仓库自动地完成一些常规和可常规化的半常规数据处理和分析任务。 第二节主动数据仓库的研究进展情况 主动数据仓库的概念早在2 0 0 1 就有学者提“1 1 ,传统的数据仓库是消极的, 所有的数据分析和决策制定的任务都必须有分析人员手工来执行。当今的数据仓 面向中小企业的主动数据仓库 库和o l a p 系统也仅仅对时常发生并且确定的决策过程提供部分自动化的决策 任务。自动化的决策支持可以通过引入分析规则来扩展传统的数据仓库体系结 构。分析规则是通过扩充e c a 主动规则而来的,它可以模拟分析人员的决策制 定,并且提供分析多维数据和决策制定的功能。这个主动数据仓库的主动性体现 在数据仓库主动策略制定,但对数据从数据源到数据仓库的过程还是采用原来的 数据仓库模型,数据仓库的实时性比较差。 一 国内有学者提出了基于多a g e n t 的主动数据仓库的概念1 2 1 ,通过a g e n t 对数 据源进行监控,将增加或改变地数据源及时反映给数据仓库系统,大大缩短了中 间环节地运作周期,从而实现了数据仓库系统地实时性和主动性。以此为基础提 出了基于多a g e n t 系统的四层数据仓库体系结构,一方面提高了数据仓库的主动 性和实时性,另一方面也增强了系统的伸缩性,能够更加有效地管理分布式集成 环境。系统中的a g e n t 是主动地、不停地检查各o l a p 的状态,当发现某事件发 生并满足条件时,就根据预先定义的规则主动地触发执行某个动作,但是a g e n t 毕竟是在数据源之外实现监控,对数据源地监控力度显得力不从心,比如数据操 作员把表中工作一年的员工工资加1 0 ,即使a g e n t 感应到了数据源的变化, 但想要准确知道是那些员工工资发生变化,难度很大,一种可行的方法,我们可 以给表做标记,一旦记录发生更新,那么新计算的标记值将和原来保存的标记值 不同,这样就可以判断那些记录发生变化,但对每条记录做标记,非常浪费空间。 第三节课题主要研究内容和论文组织 一、主要研究内容 目前的数据仓库的主动性和实时性不理想,无法满足中小企业需求快速变化 的要求。为满足中小企业对实时数据仓库决策支持功能和实施数据仓库的简易性 的要求,我们提出了面向中小企业的数据仓库的模型,即把原来数据库改造成主 动数据库,同时为这些主动数据库建立数据仓库,再在数据仓库上加入分析规则, 为提供企业主动的、实时的数据仓库,我们的项目还为数据仓库提供了规则管理 配置器,使得配置e c a 规则简单、容易。 2 面向中小企业的主动数据仓库 二、本文的创新点 传统主动数据仓库方案仅采用自上而下的数据采集方法,存在性能低下,处 理粒度大,占用空间大,处理不够及时等不足;本研究通过增加改进的e c a 引擎、 中问数据仓库和分布式r g e n t ,克服了以上缺点,并使得数据仓库的数据采集和 分析处理能力在尽可能少地改动原有业务系统的基础上达到了双向实时主动性。 三、本文的组织结构 论文的主体将分成以下六章进行: 第二章:对中小型企业中的数据仓库应用状况做介绍,提出本文研究的重要性; 第三章:对本论文所需要的相关理论、概念做简单的论述; 第四章:介绍主动数据仓库系统模型; 第五章:详细介绍主动数据仓库项目中规则管理配置器的设计和实现; 第六章:介绍了主动数据仓库和实际企业相结合的实践情况; 第七章:总结本文的创新点、对未来的工作给出展望。 3 面向中小企业的主动数据仓库 第二章中小型企业中的数据仓库应用现状 第一节建立数据仓库对企业的益处和必要性 中国加入w t o 后,企业完全进入市场经济,企业的决策者必须运用科学的经 济分析数据进行企业的经营决策,才能在市场经济中立于不败之地。然而科学的 经济活动分析依赖于强有力的数据分析能力,而当前的实际情况是( 多数企业的 数据分析能力远远不适应企业经济活动分析和经营决策的需要,大量宝贵的数据 资源没有得劲充分的开发和莉用,“数据丰富,信息贫乏”的现象十分普遍,由 此严重制约了企业经济活动分析效果和企业决策。迅速提高数据分析能力,为经 营决策提供更有力的支持是众多企业管理者的呼声,为此有必要在原有的生产业 务系统基础上,构建一个“企业级数据仓库系统”,以及构筑在其上的商务智能, 来管理和合理利用信息,使之成为战胜竞争对手的有力手段。 数据仓库可以帮助用户从繁杂的数据中获得有效的分析数据,并在此基础上 做出正确的决策。引入数据仓库系统,可以使激烈竞争中的企业迸一步扩大利润, 加大竞争实力,并在激烈的商业竞争中保持长久的竞争优势。建立数据仓库系统 能够带来的益处和收益: 实现产品销售的快速供需链管理,提升企业的竞争力; 及时有效的监控市场动态,对市场竞争做出快捷反应; 准确分析市场活动的回报,培育品牌挖掘市场卖点; 实施合作伙伴关系管理; 建立完善的客户资料档案库,实施科学的客户分类评价指标体系; 提高服务质量降低服务成本,以最小的代价留住最大价值的客户; 与企业其它信息系统无缝连接,信息共享相互促进。 第二节国内外数据仓库的应用状况 数据仓库在国外的应用已较为普遍,并呈现出应用较早、在电子化数据积累 方面比较领先、业务应用较为丰富、业务人员i t 背景较强、有比较完善的管理 4 面向中小企业的主动数据仓库 和实施等特点。从目前看,处于世界5 0 0 强的企业多数都在建设或已经建设完成 数据仓库系统,处于世界前列的电信运营企业均建设有数据仓库系统。 国外电信运营商数据仓库的建设起始于2 0 世纪9 0 年代中后期,如a t & t w i r e l e s s ,从1 9 9 7 年夏天开始建设数据仓库,一直到2 0 0 1 年8 月才完成,用了 近4 年时间,经过了多次改造,新增了1 8 个数据源,并进行了大规模的节点和 系统的扩展。西南贝尔的数据仓库建设开始于1 9 9 4 年,是当时最大的数据仓库, 到2 0 0 0 年9 月份时已达到1 7 8 个节点,7 1 2 0 个1 8 2 g 的磁盘,数据库容量达1 2 8 t b ,2 0 0 4 年9 月时达到3 1 4 个节点,数据库容量达2 4 2 t b 。 近几年来,随着中国市场竞争的加剧和企业信息化的需要,国内的数据仓库 建设得到了迅猛发展,如邮政行业引入数据仓库进行基本业务分析,铁道部门引 入数据仓库进行客流分析,零售业通过数据仓库进行产品管理分析等。但整体来 讲,由于国内数据仓库的建设和应用起步较晚,与国外相比还有相当的差距,并 呈现出投入大、产出大,应用处于起步阶段,人才匮乏等特点。 在中国的电信运营企业中,中国移动和中国联通都是较早引入数据仓库应用 的电信运营企业,中国电信和中国网通目前尚在着手建设标准,各项工作还在规 划部署中。相比之下,于2 0 0 2 年开始部署建设数据仓库的中国移动则取得了非 常不错的成绩,不仅建设了世界最大数据仓库系统,还建设性地提出了“分级式 数据仓库理论”,为我国移动通信数据仓库的建设与应用积累了不少经验。 第三节中小企业实施数据仓库方案的困难 我们可以看到,许多骨干企业已经开始新一轮信息化建设,它们充分利用企 业内部积累的大量业务数据,通过数据仓库、联机分析处理等当前先进的信息处 理技术,建立分析模型,挖掘数据内部规律,指导企业生产决策,取得了显著的 效果。然而,纵观目前企业的信息化建设,虽然大多数企业信息化建设已打下了 一定的基础,但当前的信息系统只是达到数据处理的初级水平,许多信息系统往 往只限于对数据的统计分析,而真正涉及到预测、决策及优化方面的工作还比较 少,结果是只能代替一部分繁重的手工劳动,并没有充分发挥信息系统的效益。 设计和实施数据仓库是一个复杂的过程,许多企业没有相应的经验和资源。 为此,必须提供了一个低风险、专业的解决方案,从而为企业开发数据仓库提供 5 面向中小企业的主动数据仓库 了一个坚实的基础。对于中小型韵企业而言,由于入力资源和资金投入有限,企 业的人力资源和员工素质往往无法足以应付数据仓库管理与维护方面的处理需 求。从这个角度出发,针对中小企业的工作特点,适时地为数据仓库增加一些自 动响应与处理能力将十分符合中小企业的特点与需求。为此本项目将在传统数据 仓库的基础上研究引入主动分析规则和面向对象机制开发并建立面向中小企业 的主动数据仓库模型,这样就可以让数据仓库自动地完成一些常规和可常规化的 半常规数据处理和分析任务。 一 6 面向中小企业的主动数据仓库 第三章主动数据仓库相关理论和技术 一、数据仓库概述 第一节数据仓库 数据仓库是数据库技术的发展和延伸,是在一个全新层面上的数据库应用系 统。数据仓库系统与传统的数据库应用系统最大的区别,在于它向用户最终展示 的不是企业过去已经具有的信息,丽是企业今后发展中可能出现的信息。数据仓 库创始人w h i n m o n 在建立数据仓库一书中指出:“数据仓库是面向主题 的、集成的、稳定的、随时间变化的数据集合,用以支持经营管理中的决策制定 过程。”虽然没有统一的定义,但上述观点指出了数据仓库具有以下几个特点: 数据仓库中的数据是面向主题的、集成的、稳定的、随时问不断变化的,建立数 据仓库的目的是为了更好的支持决策的制定。 ( 1 ) 面向主题。主题是指用户使用数据仓库进行决策所关心的重点方面,如销售 情况、人事情况、整个企业的利润状况等;所谓面向主题,是指数据仓库内的信 息是按主题进行组织的,为按主题进行决策的过程提供信息。 ( 2 ) 集成性。集成性是指数据仓库中存储的数据是从原来分散的各个子系统中提 取出来的,但并不是原有数据的简单拷贝,而是经过系统加工、汇总和修理,保证 数据仓库内的信息是关于整个企业的一致的全局信息。 ( 3 ) 稳定性。从数据的使用方式上看,数据仓库的数据是稳定的。这是指当数据 被存放到数据仓库中以后,用户只能通过分析工具进行查询、分析,而不能修改 其中存储的数据。也就是说,数据仓库的数据对用户而言是只读的。 ( 4 ) 可读性。数据仓库数据的稳定性是针对应用而言,其数据随时间定期更新, 每隔一段时间,新数据被抽取、转换后集成到数据仓库中,而历史数据仍被保留 在数据仓库中。随时间变化,数据以更高的综合层次被不断综合,以适应趋势分 析的要求。 计算机技术的发展来源于市场对计算机技术应用需求的推动。当年数据库技 术大发展的过程是伴隧着0 l t p 应用需求的推动。联杌事务处理最迫切的技术要求 7 面向中小企业的主动数据仓库 就是快速响应。 随着市场竞争的日趋激烈,决策支持系统的需求应运而生。支持决策就要进行 数据、信息的分析,这就产生了o l a p 的需求。最早的决策支持所进行的数据处理 是直接使用数据库中的数据。可称之为r o l a p ,即利用关系数据库的数据进行在线 分析处理。它往往是针对局部性问题进行决策支持数据分析。如果企业市场决策 涉及以下几个方面:同时启动大量的数据库表,并且需将众多表中的数据按一 定的规律拟合起来,形成针对所支持决策问题的数据内容:企业的数据分布在 若干个系统中进行整合;数据库表中的记录要按决策支持的需要进行数据筛 选;数据存储不能进行频繁修改。则实现以上需求,直接使用联机事务处理系 统中的数据进行决策支持数据的分析处理将产生许多麻烦,甚至实现不了。为适 应这一需求,数据仓库技术应运而生。 二、数据仓库体系结构 i b m 、o r a c l e 等厂商都提出了自己的数据仓库结构,但严格说来,任何一个 数据仓库结构都是从一个基本框架发展而来,实现时再根据分析处理的需要具体 增加一些部件。其中斯坦福大学“w h p s ”课题组提出的一个基本的数据仓库模型 如图3 - 1 所示。 豳 囱 图3 - 1数据仓库基本体系结构 8 面向中小企业的主动数据仓库 为了能够将已有的数据源提取出来,并组织成可用于决策分析所需的综合数 据的形式,一个数据仓库的基本体系结构中应有以下几个基本组成部分: 数据源:指为数据仓库提供最底层数据的运作数据库系统及外部数据。 监视器:负责感知数据源发生的变化,并按数据仓库的需求提取数据。 集成器:将从运作数据库中提取的数据经过转换、计算、综合等操作, 集成到数据仓库中。 数据仓库:存贮已经按企业级视图转换的数据,供分析处理用。根据不 同的分析要求,数据按不同的综合程度存储。数据仓库中还应存储元数 据,其中记录了数据的结构和数据仓库的任何变化,以支持数据仓库的 开发和使用。 客户应用:供用户对数据仓库中的数据进行访问查询,并以直观的方表 示分析结果的工具。 数据仓库的实现策略有:自顶向下模式、自底向上模式、平行开发模式、有 反馈的自顶向下模式、有反馈的自底向上模式、有反馈的平行开发模式。 数据仓库的体系结构分为源数据、数据抽取与转换、目标数据仓库、数据访 问与分析4 个层次( 如图3 1 ) 源数据层( s o u r c ed a t a ) 为数据仓库提供源数据,例如各种应用系统数据库, 联机事物处理系统的操作型数据、外部数据源等都可以作为数据仓库的源数据。 数据获取层把数据仓库所需要的数据( 当前的、历史的) ,从各种相关的业务 数据库或数据文件等源数据中抽取出来,进行各种必要的检验、整合和转换处理, 再将这些数据集成存储到数据仓库中。其中,核心仓储( c e n t r a lr e p o s i t o r y ) 用 于存储数据模型和元数据,元数据( m e t ad a t a ) 描述了源数据和目标数据的属性, 定义了从源数据到目标数据的转换过程。数据获取层在数据仓库的整体系统应用 中占有非常重要的地位。 数据存储层以一定的组织结构存储主题数据。数据仓库包括多个主题,一个 主题的数据通常存储在一个数据库中,包括该主题的一些综合性表,例如事实表 和维表,还有为数据挖掘生成的中间表等。作为数据仓库的目标数据库,既可以 选用传统的关系型数据库管理系统,也可以选用专用的多维数据库管理系统。 数据访问和分析层为分析和决策人员提供访问目标数据库中的数据,并作进 9 面向中小企业的主动数据仓库 一步的深入分析之用。 目前在设计数据仓库系统时虽然都有上述4 个层次,但因为每个层次采用的 技术架构不同,又可以细分为的4 种体系结构,分别是直接报表、独立数据集市、 h u ba n ds p o k e ( 集线器与车轮状) 结构的企业级数据仓库、统一企业级数据仓 库。 ( 1 ) 直接报表 这类系统之所以称为直接报表( d i r e c tr e p o r t i l l g ) ,是因为业务人员通过联机 分析处理工具( o l a p ) 或商业智能工具( b i ) 直接访问业务系统中的数据,并产生 所需要的报表或者进行相关的分析。这种结构非常简单,只要把o l a p 或b i 与业 务系统进行连接,能够进行联机信息访问就可以了。它能够很快地向业务人员提 供一定范围内灵活的多维分析报表,比传统的通过编程来生成报表的方式要快捷 得多。 这种方式的主要问题在于:数据访问内容有限,局限于业务处理系统中现有 的在线数据;无法提供统一的信息视图;降低业务处理性能。 ( 2 ) 独立数据集市 独立数据集市( i n d e p e n d e n td a t am a r t ) 也被称为部门级数据仓库。通过e t l ( e x t r a c t 、t r a n s f o r m 、l o a dd a t a ) 流程把业务系统中的数据经过抽取、转换后加 载到数据集市,通过o l a pt 具直接访问数据集市中的信息来生成多维报表或者 进行其它信息分析,把用于数据分析与决策支持的数据集市与业务处理系统物理 上分离。 在这种结构中,信息技术人员必须针对每个数据集设计独立的e t l 处理程序, 把各业务系统的操作数据按照需要分别转换到每个独立数据集市中。由于独立数 据集市结构存在系统复杂、难于维护的问题,人们在规划数据仓库时已经逐渐转 为实施企业级的数据仓库。 独立型数据集市是为满足部门级别的需求而建立的一种分析型环境,它能够 快速地解决某些具体的问题,而且投资规模也比数据仓库小很多。独立型数据集 市的存在会给人造成一种错觉,似乎可以先独立地构建数据集市,当数据集市达 到一定的规模再直接转换为数据仓库。但是多个独立的数据集市的累积,是不能 形成一个企业级的数据仓库的,这是由数据仓库和数据集市本身的特点决定的。 数据集市为各个部门或工作组所用,各个集市之间存在不一致性是难免的。当多 1 0 面向中小企业的主动数据仓库 个独立型数据集市增长到一定规模之后,由于没有统一的数据仓库协调,企业只 会又增加一些信息孤岛,仍然不能以整个企业的视图分析数据。 如果最终要建设一个全企业统一的数据仓库,要以整个企业的视图分析数据, 独立数据集市不是合适的选择。数据集市可以分为两种类型独立数据集市和 从属数据集市。独立数据集市直接从操作型环境获取数据,从属数据集市从统一 的企业级数据仓库获取数据。由于从属数据集市在体系结构上比独立型数据集市 更稳定,也更好地保持了数据的一致性,因此从属数据集市是未来建设的主要方 向。 ( 3 ) 从属数据集市 这种结构与独立数据集市的主要差别在于增加了一个企业级数据仓库,它需 要一个r d b m s 来驱动。e t l 流程首先将所有业务处理系统中的数据按照统一的存 储模型加载到中央数据仓库,然后再按照各部门特定的需求把相关数据复制到部 门数据集市。因为中央数据仓库汇集了来自各业务处理系统的数据,看上去像一 个h u b ( 集线器) 一样,同时也负责向各数据集市提供信息,这种连接看上去就像 s p o k e ( 车轮辐条) 。而业务人员在进行数据分析与信息访问时将根据需要连接到 不同的数据集市。 数据仓库要能满足所有最终用户的需求。然而,不同最终用户的需求侧重点 是不同的,这就要求数据仓库存储的数据要具有充分的灵活性,以适应各类用户 的查询和分析:另一方面,最终用户对信息检索要求是高性能越快越好。但是, 对数据仓库而言,灵活性和性能( 速度) 是一对矛盾体,要保障灵活性以满足尽可 能多用户的查询需求会影响整个数据仓库的性能。为了解决灵活性和性能之间的 矛盾,在数据仓库体系结构中增加了从属数据集市,从属数据集市存储为特定用 户预先计算好的数据,从而兼顾了灵活性和性能,“h u ba n ds p o k e ”结构解决了 统一数据存储模型、数据一致性的问题。但其缺陷主要体现在两方面:一个是业 务人员对信息的访问非常不方便,很难进行跨数据集市之间的信息分析。另一个 问题是当数据集市增加时,系统整体投资迅速增加,同时管理的复杂性也随之增 加。 ( 4 ) 统一的企业级数据仓库 与“h u ba n ds p o k e ”结构相比,统一的企业级数据仓库系统和它主要的差别 在于:数据集市分成物理与逻辑两种,物理数据集市设立在中央数据仓库之外, 面向中小企业的主动数据仓库 具有专门的软硬件设备,就是上面提到的“h u ba n ds p o k e ”结构。一般都使用 o l a p 服务器,按照特定需求组建多维立方体来提供多维信息分析。而统一的企 业级数据仓库采用逻辑数据集市,并设立在中央数据仓库之内,由在基础数据之 上形成的小结表或者逻辑视图组成。 中央数据仓库采用符合数据库范式理论( 一般为第三范式) 的存储模型来保 存基础数据,从而为整个企业提供一致的信息视图。数据集市主要针对粒度较粗、 预先定义的分析需求,对于动态的业务查询,粒度较细的或者针对基础数据的分 析则不能完成。 在中央数据仓库中还设立了一个数据转换与缓冲区( d a t as t a g i n ga r e a ) ,作 为e t l 处理的一部分。由于在很多数据仓库的e t l 处理流程中,增加了一个o d s ( o p e r a t i o n a ld a t as t o r e ) 层来进行数据的整理,但这将大大增加整体投资和管理 复杂性。理想的方法是,在中央数据仓库中设置一部分存储空间作为数据转换与 缓冲区,借助数据仓库引擎强大的复杂查询处理能力,通过s o l 实现数据的转换 与清洗。 这种数据仓库结构解决了“h u ba n ds p o k e ”结构中存在的诸多问题,是一种 比较理想的企业级数据仓库系统架构。但由于把详细数据分析、部分的数据转换 与清洗等复杂处理均集中在中央数据仓库,从而对作为数据仓库引擎的r d b m s 和相应的服务器带来了极大的挑战。选择这种数据仓库基础平台的基本要求是: 数据仓库引擎和相应的数据库服务器具有优良的线性扩展能力,系统具有非常好 的并行处理能力,能有效而简单地进行系统管理。 第二节e c a 规则 e c a 规则最早被应用于专家系统和主动式数据库研究中1 3 1 。传统的数据库系 统是“查询驱动”( q u e r y - d r i v a n ) 型的,它们仅仅承担信息存储和提取的任务。 被动地执行用户或应用程序规定的事务操作。随着应用程序需求的不断提高,这 种把数据库视作单纯的数据容器的观念已经不能适应实际需要。从而,有人提出 主动式数据库系统( a c t i v ed a t a b a s es y s t e m ) 的概念。所谓的主动式数据库系统, 也就是在没有用户或应用程序干预的情况下,能够“主动地”对特定情境做出反 应的数据库系统。 1 2 面向中小企业的主动数据仓库 实现主动式数据库系统的反应行为,必须要在传统数据库系统中引入规则。 e c a 规则模型将规则划分为事件( e v e n t ) 、条件( c o n d i t i o n ) 和动作( a c t i o n ) 三个部分,其含义是:当事件发生时,如果满足条件,则执行动作。在该模型下, 规则能够很容易地被整合为数据库系统的一部分,因此e c a 规则模型是实现主 动式数据库系统的重要方法:主动式数据库系统监视数据库的状态变化,状态改 变产生特定事件,从而触发并执行相应的动作。从事件触发到动作执行的整个过 程,主动式数据库系统能自动识别数据库内部或外部的特定情形并做出反应,而 不需要用户或外部应用程序的驱动,从而实现了主动式的反应。 一、e c a 语法 定义3 _ 1 ( e c a 规则) :e c a 规则是一个三元组f e v e n t ,c o n d i t i o n ,a c t i o n 。习 惯上,我们常用如下式的形式表示e c a 规则, o ne v e n ti fc o n d i t i o nd oa c t i o n( 3 1 ) 该规则形式包括以下3 个部分: 1 事件( e v e n t ) :e c a 规则的e v e n t 部分是形如e l ,c n 的表达式,其中每个 e i 都是一个事件原子,事件部分是这些事件原子的复合。事件原子是一个形如 郇1 ,柚的事件项。在这里,e 是具有n 个参数的事件符号,每个t i 是一个常量 或变量。我们把基事件项叫做事件的实例。事件包括粒度,类型,操作,解释模 式,角色等性质。事件的类型包括原始类型、复合类型,原始类型表示事件是由 低级别的事件源所引起的;复合类型事件是由原始事件复合而成的事件。 2 动作( a c t i o n ) ;e c a 规则的a c t i o n 部分是形如a l - ,a a 的表达式,其中 每个a t 都是一个形如a ( t 1 ,u 的动作原子,动作部分就是这些动作原予的“并”。 在这里,a 是具有n 个参数的动作符号,每个t 。都是一个常量或变量。一个动作 就是一个基动作项。给定一个由e c a 规则集r ,r 中出现的所有动作符号的集 合称为r 的动作集a c t i o n s e t ( r ) 。 3 条件( c o n d i t i o n ) :e c a 规则的c o n d i t i o n 部分是形如p a x m 的表达式, 其中逻辑运算符九 a ,v ,。每个p ;都是一个谓词,它常采用t 1 0 t :的形式, 关系运算符o - , 2 ) ,每个t i 都是一个常量、变量或函数。 定义3 - 2 ( 发生事件集) :在某一时刻,某个系统状态( 包括系统内部状态与 面向中小企业的主动数据仓库 外部环境状态) 下,对于由e c a 规则集r 定义的所有事件,其中有些事件的实 例会发生,而且发生的事件实例数量总是一个有限数。同时发生的事件实例的有 限集合叫做一个r 的一个发生事件集( o c c u r r e de v e n ts e t ) ,枥浇为o e s ( r ) 。如 果事件项郇i ,一柚的一个实例属于o e s ( r ) ,那么我们说e 在o e s ( r ) 中发生。r 的所有可能的发生事件集的集合标记为o e s s ( r ) 。 定义3 - 3 ( j r 发动作集) :由规则集r 的某个o e s ( r ) 触发的,并且相应规则 中的条件部分取值为真的动作的集合称为触发动作集( t r i g g e r e d a c t i o ns e t ) ,标 记为t a s ( r ) 。r 的所有触发动作集的集合标记为t a s s ( r ) 。 = 、e c a 语义 把规则集r 中每一条规则进行语义解释后,所得到的规则集合标记为兀r 。显 然,n r 是非递归h o r n 程序。r 的语义由下面的转换函数币r :o e s s ( r ) 一t a s s ( r ) 给出: 定义3 - 4 ( 规则引擘) :基于r 的函数p r :o e s s ( r ) - * t a s s ( r ) 。如果对每一个 发生事件集o e s ( r ) ,都有a e q x ( o e s ( r ) ) 当且仅当n r u o e s o ) = a e t a s ( r ) ,那 么辄称为r 的规则引擎。 图3 - 2e t a 规则触发机制 e c a 规则触发机制如图3 - 2 所示。发生事件集合是规见j f j i 擎的输入,而触发 动作集是规则引擎的输出。规则引擎负责响应发生的事件,并根据程序中的规则 触发相应的动作集。而修改业务逻辑,就是通过修改规则库中的e c a 规则来改 变规则引擎的触发规律。 1 4 面向中小企业的主动数据仓库 三、e c a 的使用 虽然e c a 规则最早的应用领域是主动式数据库,近年来又延伸到分布式数 据库和移动计算环境下的主动式数据库f 1 9 1 ,但现在e c a 规则的应用却不仅仅局 限于数据库领域。由于e c a 规则能灵活而有效的描述系统行为的一般规律,它 已经被广泛地应用于异构网络管理、电子商务、工作流建模、分布式环境下的应 用和模糊知识表示等众多领域。下面对其中一些应用领域做些简单介绍: 1 工作流过程建模 工作流的概念目前尚无统一、明确的定义。1 9 9 3 年8 月成立的工作流联盟 w f m c ( w o r k f l o wm a n a g e m e n tc o a l l 2 t i o n ,简称w f m c ) 是一个专门 促进工作流技术发展的国际组织。w f m c 将工作流定义为:业务流程的全部或部分 自动化,在此过程中,文档、信息或者任务按照一定的过程规则流转,实现组织成 员间的协调工作以期达到业务的整体目标。 w f m c 提出了一个工作流参考模型。该模型将工作流以一种过程的形式表现 出来,组成过程的单元也就是活动( a c t l t y ) 。活动是流程中的基本工作单元, 完成某种特定的功能。活动之间的迁移条件( t r a n s i t i o nc o n d m o n ) 决定 了活动之间的关系和工作流的执行过程。 用树型结构来定义工作流,使得工作流的执行过程简单、清晰、易结构化,根 据其组成节点以及各节点类型与嵌套关系,应用以定义的e c a 规则嗍。最后得到 的所有复合节点及其e c a 规则构成了该工作流的过程模型。基于e c a 规则的工 作流过程模型是一个基于事件触发规则的执行过程,有助于实现工作流活动的自 动路由。 2 敏捷供应链管理 随着全球化市场竞争的加剧,企业管理信息系统的总体规划也要站在供应链 管理的高度来进行,把供应链管理作为企业适应全球市场竞争的重要战略【2 8 捌。 因此,企业供应链系统需要有敏捷性技术支持3 0 1 。敏捷供应链区别于一般供应链 的主要特点是:敏捷供应链可以根据动态联盟的形成和解体( 企业重组) 进行快 速重构和调整。它的实施有助于促进企业间的合作和企业生产模式的转变,有助 于提高企业集团的综合管理水平和经济效益。 企业所希望的敏捷供应链管理系统,要能适应动态联盟从形成、消亡到再形 1 5 面向中小企业的主动数据仓库 成的不断交化的过程。软件代理技术的出现,为解决这一问题提供了很好的途径。 软件代理是一个软件实体,在一定的环境下,它能独立地完成给定的任务。软件代 理一般具有以下属性【3 1 1 :自治性、可适应性、合作性。 当企业的具体业务处理由一个个代理去完成时,这些代理就是可以重用的部 件,因而可以提高系统的可重用性。但是,由于这些软件代理组成多代理系统时, 常处于分布式状态,因此需要对这些代理的活动进行调度和控制。b a r b u c e a n u 等 人将软件代理应用于供应链管理之中,但其主要研究的是通过代理之问的协商策 略( 契约网等) ,以及代理之间协商的语言来构造供应链。s t a n f o r d 大学的k s l 实验室对代理之间进行信息交换的语言和格式进行了广泛的研究,并给出了代理 通信语言k 喇l ,这里,代理的通信语言采用的就是k 0 w t l t 琊孔。但是,这些系统未 能解决如何构造多代理系统适应供应链的动态变化性问题。通过建立事件一条件 一活动( e c a ) 规则模型,描述企业商务逻辑并调度功能代理的执行,这样,当

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论