




已阅读5页,还剩61页未读, 继续免费阅读
(计算机软件与理论专业论文)多维分析与数据挖掘技术在商务智能中的研究与应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不 包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研 究在做出重要贡献的个人和集体,均已在文中以明确方式标明。本人 完全意识到本声明的法律责任由本人承担。 论文作者签名: 立垄塞 e l 期:迎z 生互旦 关于学位论文使用授权的声明 本人完全了解贵州大学有关保留、使用学位论文的规定,同 意学校保留或向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅;本人授权贵州大学可以将本学位论 文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印或其他复制手段保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:左寸悫塞导师签名 摘要 信息化的浪潮在世界各地,各行各业掀起,信息化的层次也在不断演进从m r p i i 、 e r p 到c r m ,从数据仓库( d a t aw a r e h o u s e ) 、到数据挖掘( d a t am i n i n g ) ,每一次变革都极大 地推动着企业信息化的升级和企业管理水平的提高。随着信息技术的与时俱进,企业信息化 的热点也随之转变,据赛迪顾问在2 0 0 5 年中国数据管理技术应用年会上发布的2 0 0 4 2 0 0 5 中国数据管理技术应用软件市场研究年度报告报告显示,商业智能作为整体数据管理技术 已经在应用软件市场中成为发展最快的一个领域其在中国市场销售额的增长率已超过 4 0 。占到总体数据管理技术应用软件市场的4 4 3 6 。很明显,又一个信息化热点商业智 能在我国已经悄然兴起。但是,据市场反映在这一领域我们与国外仍有着不小的差距。本 文芷是基于这一历史背景进行立题研究。 本文围绕商业智能这一课题,对多维分析技术、数据挖掘这两大商业智能的核心支撑技 术进行了深入细致的研究与分析,并在对m i c r o s o f ta n a l y s i s 、p e n t a h o 、o p e n i 等已有商业智 能产品和市场详细调研的基础上实现了一个智能多维分析平台。本文所做的主要工作、技术 难点与创新处如下: 1 大量查阅了商业智能的相关资料,追溯了商业智能兴起的原因及其发展过程,认真 学习了商业智能的体系结构、架构过程及应用实施的知识,深入领会了商业智能的 概念及其核心支撑技术。 2 深入细致的学习了多维分析技术的概念、特点以及多维分析系统的体系结构并研 究了数据的切片、切块、下钻、上卷以及转轴操作,并对开源多维分析服务器m o d r i a n 的数据流程、体系结构、多维数据库的元数据格式以及将m o d r i a n 做为二次开发的 类库进行了详细的分析与研究,而且也从应用的角度对作为m o d r i a n 的前端展现开 源组件j p i v o t 的类库、常用标签组件做了深入的学习,并在此基础上对j p i v o t 和及 其所依赖的w c f 组件进行了全部汉化工作。 3 认真学习了数据挖掘的相关知识,分析了数据挖掘的算法以及如何进行数据挖掘, 并在此基础上对开源软件w e k a 的数据输入、分类、聚类、关联、元学习方案以及 属性、实例过滤算法进行了分析,并就如何利用w e k a 做= 次开发进行了深入细致 的研究。 4 在深入学习s t r u t s 开发框架,分析模型视图控制器( m o d e l v i e w c o n t r o l l e r ,m v c ) 设计模式,s t r u t s 的类库结构及t a g 库以及输入验证及错误处理艚t s r j 的基础上,充分 利用s t r u t s 的优点,扬长避短,不仅大大提高了生产效率,而且明晰了系统结构, 为系统进一步扩展提供了良好的前提条件。 5 基于上述原理和已有的研究成果,设计并实现了智能多维分析平台该平台具有的 特点与创新如下: 1 )本系统采用了b s 结构,系统的所有用户可以通过i n t e r n a t 远程使用本系统, 不受时问和地点的限制,而且系统基于w e b 的操作方式,对于有着庞大的互 联网用户数量的中国市场来说更加具有竞争力。 2 ) 与基于m o n d r i a n 和j p i v o t 开发的开源商业智能系统p c n t a h o 和o p e l l i 相比,本 系统的核心功能均提供了向导式的操作方式,而且增加了创建m o n d r i a n 多维 数据集的功能,进一步降低了对系统对用户的要求。 3 )基于开源软件构建商业软件,大大降低了开发成本,为进一步提升产品的竞争 力,提供了一利- 有效的商业软件产品开发模式。 4 )完全基于x m l 的数据存储,使得系统脱离了具体的数据库平台,提高了软件 的独立性及软件的访问速度,有效的降低了软件的实旌成本。 5 ) x m l 、x s d 、d i d 、x s l 、c s s 以及t a g l i b 技术的引入,不仅增强了系统的个性化, 而且一定程度上降低了界面显示与控制逻辑的耦合性为美工和程序员并行开 发系统奠定了基础。 6 )可定制的系统界面以及属性文件的应用。从一定程度上满足了用户的个性化需 求而且对软件的国际化有着良好的支持,使得系统在不修改代码的情况下就 可提供多语言版本。 7 )w e k s 持续快速的发展以及对分布式处理的支持,使得系统在数据挖掘应用扩 展及挖掘性能方面有着良好的支持。 目前本系统已经在北京市商业银行、西门子( 中国) a d 集团、营口市商业银行 等多家单位投入使用,效果良好。作者在校期间,参与的研发项目及所发表的文章见附 录。 关键宇:商业智能多维分析,数据挖掘,w e k s ,m o d r i a n 。j p i v o t ,s t r u t s 中图分类号:t p 3 1 1 5 2 6 a b s t r a c t t h ew a v eo fi n f o r m a t i o nt e c h n o l o g yl a u n c h e da r o u n dt h ew o r l d ,a l lb u s i n e s s e s ,t h el e v e l o fi n f o r m a t i o nt e c h n o l o g yi sa l s oe v o l v i n gf r o mm r p i i e r pt oc r m ,f r o mt h ed a t aw a r e h o u s e a t aw a r e h o u s e ) t ot h ed a t am i n i n g ( d a t am i n i n g ) ,e v e r yc h a n g eh a sg r e a t l yc o n t r i b u t e dt ot h e e n t e r p r i s ei n f o r m a t i o nm a n a g e m e n ta n de n t e r p r i s eu p g r a d i n gt oah i g h e rl e v e l a si n f o r m a t i o n t e c h n o l o g yi sa d v a n c i n gw i t ht h et i m e s ,e n t e r p r i s ei n f o r m a t i o ns p o t si nt h ee n s u i n gc h a n g e s a c c o r d i n gt ot h ea d v i s e ri n2 0 0 5 ,c h i n e s ed a t am a n a g e m e n tt e c h n o l o g y ,a n n o u n c e d ”i nc h i n a 。 2 0 0 4 - 2 0 0 5a c c o r d i n gt ot h em a n a g e m e n ts o f t w a r em a r k e tr e s e a r c hr e p o r t t h er e p o r ts h o w st h a t b u s i n e s si n t e l l i g e n c ea sp a r to ft h eo v e r a l ld a t am a n a g e m e n tt e c h n o l o g yi nt h ea p p l i c a t i o n s o f t w a r em a r k e ta so n eo ft h ef a s t e s t - g r o w i n ga i _ e a si t ss a l e si nt h ec h i n e s em a r k e tt og r o wi n e x c e s so f4 0 a c c o u n t e df o rt h eo v e r a l ld a t am a n a g e m e n tt e c h n o l o g ya p p l i c a t i o n ss o f t w a r e m a r k e t4 4 3 6 o b v i o u s l y ,t h ei n f o r m a t i o ni sah o tb u s i n e s si n t e l l i g e n c ei nc h i n ah a sb e e nr i s i n g q u i e t l y h o w e v e r , a st h em a r k e ti n t h i sf i e l d 谢t l lo t h e rc o u n t r i e sw es t i l lh a v eal a r g eg a p t h i s p a p e r i sb a s e do nt h eh i s t o r i c a lb a c k g r o u n do ft h ep r o b l e mo fl e g i s l a t i o n f o c u s s i n go nt h ei s s u eo fb u s i n e s si n t e l l i g e n c e ,m u l t i d i m e n s i o n a la n a l y s i st e c h n o l o g y , t h e s et w od a t am i n i n gb u s i n e s si n t e l l i g e n c et os u p p o r tt h ec o f et e c h n o l o g yo fi n - d e p t ha n d m e t i c u l o u sr e s e a r c ha n da n a l y s i s 。a n dt h er i g h tm i c r o s o f ta n a l y s i s ,p e n t a h o o p e h ih a v eu i l b u s i n e s s i n t e l l i g e n c ep r o d u c t s a n dd e t a i l e dm a r k e tr e s e a r c ho nt h eb a s i so fa n i n t e l l i g e n t m u l t i d i m e n s i o n a la n a l y s i sp l a t f o r m t h i sp a p e rh a sd o n em a j o rw o r k ,t e c h n i c a ld i f f i c u l t i e sa n d i n n o v a t i o nd e p a r t m e n ta sf o l l o w s : i a c c e s st oal a r g ea m o u n to fb u s i n e s si n t e l l i g e n c ei n f o r m a t i o n ,t r a c e dt h ed e v e l o p m e n t o fb u s i n e s si n t e l l i g e n c ea n dt h er e a s o n sf o rt h er i s e ,s e r i o u s l ys t u d yt h es t r u c t u r eo fb u s i n e s s i n t e l l i g e n c e ,a p p l i c a t i o np r o c e s sa n dt h es t r u c t u r eo fk n o w l e d g e ,d e p t hu n d e r s t a n d i n go ft h e c o n c e p to f b u s i n e s si n t e l l i g e n c et e c h n o l o g ya n di t sc o r es u p p o r t 2 t h o r o u g ha n dm e t i c u l o u ss t u d yo f t h ec o n c e p to fm u l t i d i m e n s i o n a l a n a l y s i s , m u l t i d i m e n s i o n a la n a l y s i so ft h ec h a r a c t e r i s t i c sa n ds y s t e ma r c h i t e c t u r e a n ds t u d yt h ed a t as l i c e d i n t oc u b e sa n dd r i l l i n g ,a sw e l la sv o l u m e so ns h a f to p e r a t i o n m o d r i a ns e r v e rr e v e n u ea l s o m u l t i d i m e n s i o n a la n a l y s i so fd a t af l o wa r c h i t e c t u r e ,a c c o r d i n gt ot h ed a t a b a s em e t a d a t af o r m a t a n dt h es e c o n d a r yd e v e l o p m e n to ft h el i b r a r ya sm o d r i a nc o n d u c tad e t a i l e da n a l y s i sa n d r e s e a r c h ,f r o mt h ea p p l i c a t i o np o i n to fv i e wb u ta l s ot h ef r o n t - e n dd i s p l a yo p e n - s o u r c e c o m p o n e n t sa sm o d r i a n j p i v o tt h el i b r a r y c o m m o nc o m p o n e n t sl a b e l sd oa ni n - d e p t hs t u d y ,j p i v o t a n d o n t h e b a s i s o f a l l t h ec o m p o n e n t sa r eb u i l t w c f f i n i s h e d w o r k 、 3 s e r i o u s l ys t u d yt h er e l e v a n tk n o w l e d g eo fd a t am i n i n g ,d a t am i n i n ga l g o r i t h m sa n d a n a l y s i so f h o wd a t am i n i n g ,a n db a s e do nt h eo p e ns o u r c es o f t w a r ew e k ad a t ao n 时,c l a s s i f i c a t i o n , c l u s t e r i n g ,a s s o c i a t i o n ,m e t a - l e a r n i n gp r o g r a m sa n da t t r i b u t e s ,e x a m p l e s f i l t e ra l g o r i t h m sf o r a n a l y s i s ,a n dt h es e c o n do nh o wt ou s et h ew e k ad o n ef o rt h ed e v e l o p m e n to fa ni n d e p t ha n d m e t i c u l o u sr e s e a r c h 4 s t r u t s d e p t hs t u d yo ft h ed e v e l o p m e n tf r a m e w o r k a n a l y s i so ft h em o d e l v i e w - c o n t r o l l e r ( m v c ) d e s i g np a r e m ,s t r u t st a gb a s e m e n ta n dt h el i b r a r ys t r u c t u r ea n di n p u tv e d f i c a l i o na n d e r r o rh a n d l i n gm e c h a n i s m s 7 5 b a s e do nt h ea b o v ep r i n c i p l e sa n dt h ee x i s t i n gr e s e a r c hr e s u l t s ,t h ed e s i g na n d i m p l e m e n t a t i o no fi n t e l l i g e n tm u l t i d i m e n s i o n a la n a l y s i sp l a t f o r m , t 1 圯p l a t f u r mh a sf e a t u r e sa n d i n n o v a t i o na r ea sf o u o w s : 1 ) b su s e di nt h es y s t e m ,t h es y s t e mo fa l lr e m o t eu s e r sc a l lu s et h es y s t e mv i at h e i n t e m e t f r e ef r o mt h er e s t r i c t i o n so ft i m ea n dp l a c e a n dw e b - b a s e do p e r a t i n g s y s t e m , f o rt h en u m b e ro fi n t e r a c tu s e r si n c h i n ah a sah u g em a r k e tm o r e c o m p e t i t i v e 2 ) c o n s t r u c t i o no fc o m m e r c i a ls o f t w a r eb a s e do no p e ns o u r c es o f t w a r e ,a n dg r e a t i y m d u c et h ec o s to fd e v e l o p m e n t ,i no r d e rt of u r t h e re n h a n c et h ec o m p e t i t i v e n e s so f t h e i rp r o d u c t s p r o v i d ea ne f f e c t i v ec o m m e r c i a ls o f t w a r ep r o d u c td e v e l o p m e n t 3 ) f u l yo i lt h ei m p l e m e n t a t i o no ft h ed a t as t o r a g e ,s ot h es y s t e mf r o mas p e c i f i c d a t a b a s ep l a t f o r m e n h a n c et h ei n d e p e n d e n c ea n ds o f t w a r e ,v i s i tt h es o f t w a r es p e e d , e f f e c t i v e l yl o w e r i n gt h ec o s to f t h es o f t w a r ei m p l e m e n t a t i o n 4 ) x m l ,x s d ,d t d 。x s l c s st a g l i bt e c h n o l o g ya n dt h ei n t r o d u c t i o no fn o to n l ye n h a n c e t h es y s t e m sp e r s o n a l i t y ,b u ta l s os h o w e dac e r t a i nd e g r e eo fi n t e r f a c ea n dc o n t r o l l o g l ct or e d u c et h ec o u p l i n g p a r a l l e lt ot h ed e v e l o p m e n to fh i ss y s t e ma n dl a i dt h e f o u n d a t i o nf o r p r o g r a m m e r s 5 ) t h cs y s t e mi n t e r f a c ec a nb ec u s t o m i z e dt ot h ea p p l i c a t i o na n dd o c u m e n ta t t r i b u t e s , f r o mac e r t a i ne x t e n t t om e e tt h en e e d so fi n d i v i d u a lu s e r s m o r e o v e r ,t h es o f t w a r e h a sag o o di n t e r n a t i o n a ls u p p o r t ,c o d ec h a n g e sm a d ei nt h ec a s ec o u l dn o tp r o v i d e m e r el a n g u a g ev e r s i o n s 6 ) w e k as u s t a i n e dr a p i dd e v e l o p m e n to fd i s t r i b u t e dp r o c e s s i n ga n ds u p p o r t m a d ei nt h e e x p a n s i o na n da p p l i c a t i o no f d a t am i n i n ge x c a v a t i o nh a v eag o o dp e r f o r m a n c e s u p p o r t a tp r e s e n t ,t h es y s t e mh a sb e e ni nt h eb c c b ,s i e m e n s ( c h i n a ) a dg r o u py i n g k o u c i t yc o m m e r c i a ib a n k ss e v e r a lu n i t sp u ti n t ou s e ,t h er e s u l t sw e r ev e r yg o o d a u t h o ra tt h es c h o o l t op a r t i c i p a t ei nt h er e s e a r c ha n dd e v e l o p m e n tp r o j e c t sa n dt h ep u b l i c a t i o no fa r t i c l e s ,s e e a p p e n d i x k e y w o r d s :b u s i n e s si n t e l l i g e n c e ,m u l t i d i m e n s i o n a la n a l y s i s d a t am i n i n g ,w e k a ,m o d d a n , j p i v o t ,s t r u t s c l a s a l f i c a t l o nn o :t p 3 11 5 2 8 1 1 商务智能的概念 第一章商务智能概述 商业智能( b u s i n e s si n t e l l i g e n c e ,简称b i ) 的概念最早是g a r t n e r g r o u p 于1 9 9 6 年提出 来的。当时将商业智能定义为一类由数据仓库( 或数据集市) 、查询报表、数据分析、数据 挖掘、数据备份和恢复等部分组成的、以帮助企业决策为目的技术及其应用。当时,g a r t n e r g r o u p 预测说:到2 0 0 0 年,信息民主( 注:指组织内信息共享的无差别性) 将在具有前瞻 性思维的企业中浮现。借助商业智能,员工、咨询员、客户、供应商以及公众能够有效地运 用信息。其实,商业智能所涉及的技术与应用,在g a r t n e rg r o u p 命名之前就有,起初被称 为经理信息系统( e i s ) ,在羽化成商业智能之前叫决策支持系统( d s s ) 。 目前,商业智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业 务经营决策的工具。这里所谈的数据包括来自企业业务系统的订单、库存、交易账目、客户 和供应商资料来自企业所处行业和竞争对手的数据以及来自企业所处的其他外部环境中的 各种数据。而商业智能能够辅助的业务经营决策,既可以是操作层的,也可以是战术层和战 略层的决策。为了将数据转化为知识,需要利用数据仓库、联机分析处理( o l a p ) 工具和 数据挖掘等技术。因此,从技术层面上讲,商业智能不是什么新技术,它只是数据仓库、 o l a p 和数据挖掘等技术的综合运用。为此,把商业智能看成是一种解决方案应该比较恰当。 b i 的关键是从许多来自不同的企业运作系统的数据中,提取出有用的数据,进行清理以保 证数据的正确性,然后经过抽取( e x t r a c t i o n ) 、转换( t r a n s f o r m a t i o n ) 和装载( l o a d ) ,即 e t l 过程,合并到一个企业级的数据仓库里,从而得到企业数据的一个全局视图,在此基 础上利用合适的查询和分析工具、数据挖掘工具、o l a p 工具等对其进行分析和处理( 这时 信息变为辅助决策的知识) ,最后将知识呈现给管理者,为管理者的决策过程提供支持。商 业智能的这个基本过程如图所示。 因此,b i 是涉及一个很宽领域的,集收集、合并、分析和提供信息存取功能为一身的 解决方案,包括e t l 软件、数据仓库、数据集市、数据查询和报告、多绀联机数据分析、 数据挖掘和可视化工具。 1 2 商务智能产生的原因 任何事物的出现都有其原因,商务智能的产生要归结于以下四个方面的因素: 其一、企业“数据监狱”( d a t aj a i l ) 现象的出现敦促企业寻找问题的解决方案。商务龉动 从早期办公自动化的出现就开始在其运作过程中收集大量的数据,包括销售、成本、质量控 制、库存、客户服务等方方面面与企业息息相关的数据,这些数据分别被存储在数据库、数 据集市、数据仓库、多维数据库、第三方的应用或其它文件中。因此对大部分企业来说数据 处理的问题不是数据缺乏,而是大量的数据冗余和数据不一致。庞大的数据量和传统数据管 理方法的缺陷,使大部分企业出现了“数据拥挤”( 数据监狱) 现象,这种现象既不利于企业 的管理也不利于信息的有效利用。因此,如何解决数据拥挤,同时又能使这些数据充分地发 挥作用这已成为企业商务发展的一个热点问题。 , 其二、“数据= 资产”新的企业观念的建立,给商务智能的应用提供了契机。在企业界, 数据资产的观念正在进入企业的资源规划( e r p ) 系统中,而把数据转换为资产的方法和技 9 术也正在成为企业投资信息化建设的热点。因为目前大部分大、中规模的企业都是信息丰富 的组织,而一个信息丰富的组织的绩效不仅仅依赖于产品、服务或地点等因素,而更重要的 是依赖知识。但是从数据信息一知识是一个并不简单的过程。商业智能的本质正是把数据 转化为知识,致力于知识发现和挖掘,使企业的数据资产能带来明显的经济效益,减少不确 定性因素的影响,使企业取得新的竞争优势。 其三、企业运营模式的变化,给商务智能提供了广阔的发展空间。电子商务正在改变着 全球商务活动的方式,信息在经济活动中越来越占据着重要的地位。对企业来说信息包括生 产、销售、市场、顾客和竞争对手的信息,信息是企业竞争的战略性资源。建立在i n t e m e t 之 上的企业经营模式电子商务:电子邮件、电子数据交换、电子支付系统、电子营销等技术的 发展和应用为商业智能系统提供了市场和生存环境。 其四、数据库和人工智能技术的发展,为商务智能提供了技术上的支持。商业智能的发 展也得益于相关技术的发展,并行处理系统、廉价数据存储、新数据挖掘算法、神经网络技 术、人工智能技术、决策支持技术、从大量数据中发现其后潜藏的商业机会等等技术的发展, 使企业能以更低的成本投资商业智能,并取得更高的r r 投资回报率。 1 3 商务智能的发展过程 商业智能的出现从根本上说离不开数据库、数据仓库、数据挖掘等技术的产生与发展。 上个世纪6 0 年代早期,第一个通用的d b m s ( 数据库管理系统) 由c h a f e sb e c h m a n 在通用 电器工作时设计,当时被称为集成数据存储。它奠定了网状、层次数据模型的基础,而这个 阶段也被看作是数据库历史中前关系型数据库时期。 7 0 年代,时任m m 研究员的e e c o d d 博士首次提出了关系型数据库的数据模式和理论, 后经过商务开发和论证,最终以今天风行世界的关系型数据库获得了大量的应用。到上个世 纪9 0 年代,关系型数据库应用已经非常普及,大型企业或部门积累了大量的原始数据,这为 以数据存储为目的的联机分析处理系统( o l t p ) 创造了良好的外部环境。 数据仓库( d 、) 的出现,给充分利用已有数据,进行复杂查询,提供更好的决策支持提 供了可能。数据仓库建立起来后。定期的数据装载( e t l ) 成为数据仓库系统一个主要的日常 工作,早期的商务智能应用已经初具雏形,也出现了专门做数据装载( e t l ) 的公司,如 a s c e n t i a l 、i n f o r m a t i c a 等。随着商业智能的普及应用,单纯的对历史数据进行整理、统计、 分析,已经不能满足企业对业务发展的需要,企业不但要求商业智能对历史数据进行准确展 现、查询、分析,更希望商业智能可以对历史数据做前瞻性分析,以预测自己的企业在未来 即将发生的状况。以电信行业为例,商业智能通过对历史数据的分析,以及不同客户群体的 消费数据的分析,将不同客户群体的消费特征知识化,并制定相关的促销和客户关怀方案, 从而达到更高的客户满意度,预测今后几年的客户发展情况和业绩增氏。传统的商业智能仅 仅停留在对历史数据的展现、查询、分析上,这成为商业智能发展的一个瓶颈。、 数据挖掘m ) 技术的出现在一定程度上可以认为是现代商务智能的第二个阶段将 装载的数据通过智能存储转变为知识。数据挖掘就是从大量数据中发现潜在规律、提取有用 知识的方法和技术。数据挖掘不但能够学习已有的知识,而且能够发现未知的知识;得到的 知识既能为非技术人员所看懂,又便于存储和应用,因此一出现就得到各个领域的重视。从 8 0 年代末的初鼹头角到9 0 年代末的广泛应用。以数据挖掘为核心的传统商务智能已经成为 r r 及其它行业中的一个新宠。 企业商业智能平台( e i p ) 的出现将商业智能推向了新的阶段。e i p 包含了数据收集、存 储、挖掘、分析及预测等全方位功能,构成一条完整的智能价值链,提供了统一的智能平台 和分析。针对未来,根据历史数据来预测未来发生的情况。 1 0 1 4 商务智能的体系结构 所谓体系结构( a r c h i t e c t u r e ) 是指一整套的规则和结构,为一个系统或产品的整体设计 提供主框架。而一个商业智能的体系结构是指通过识别和理解数据在系统中的流动过程和数 据在企业中的应用过程来提供商业智能系统应用的主框架。商务智能从体系结构上说一般分 为三层,第一层是数据采集整合层,第二层是数据存储管理层,第三层是应用展现层。具体 见图1 1 : 应 用 展 现 层 数 据 存 储 管 理 层巨星星 萋一1 - 一一一一一一一一一i f 一一一一一一一一一一一一1 丁一一一一一一一一一一一i 旺一一一一一一 图1 1 商业智能体系结构圜 数据采集整合层是解决数据采集以及对历史异构数据进行梳理,将分散的数据集中的过 程。一般情况下对于历史数据通常是采用数据转换系统,通过抽取、清洗、转换、装载,对 异构数据进行整合,统一装载到目标数据源( 数据仓库或数据库) 。 数据存储管理层是解决数据与数据、数据与业务之间关联关系及安全存储问题的层面。 通过该层,数据与业务之间将建立起逻辑映射关系,为应用层的展现打下基础。历史数据由 数据采集整合层的数据转换系统统一装载到数据存储管理层的数据仓库或数据集市中。 应用展现层是面向终端用户的数据展现,是终端用户能直接应用的层面。通常在该层主 要做一些即席查询、多维分析、数据挖掘、报表制作等对数据存储层的数据进行应用与展现。 1 5 商务智能的架构过程 商务智能的体系结构指导并确定了商业智能系统的建立,其过程如下: 首先,识别和确定数据源。商业智能的数据来自于多种数据源,包括电子商务数据、交 易处理数据以及相关的外部数据等。如从交易处理应用软件中获取订单信息、顾客信息和产 品信息,从电子商务网站中获取访问和点击信息,还可以从账务系统中获得账务信息,从市 场部门获得市场信息等。 其次,进行数据集成和存储管理。数据集成可以分为“懒散型”数据集成和“急切型”数据 集成。懒散型数据集成一般应用在数据库系统中,其显著特征是集成发生在查询产生之后。 用户提出一个查询后,系统确定查询所需的数据来源,为每一个来源产生子查询和命令,然 后从数据源中获取信息,执行一定的转换、过滤和合并后把最终结果返回给用户或客户系统。 数据在查询出现后才从原始资料中提取。急切型数据集成通常出现在数据仓库技术中,它提 前预测用户的需求,把可能会被用到的数据提前从数据源系统中抽取出来,经过变换、过滤 及与其它相关信息的合并,然后存储在集中的仓库中。当一个查询出现后,直接在仓库中运 行,不需要进入最初的数据源系统中去。这种急切型的数据集成方法使数据仓库中存储着大 量经过预先计算的总计数据和累加数据,在查询时能显著加快查询速度,满足用户对响应时 间的需求。 最后,数据分析和建模。商业智能建立的本质目的是获得高的投资回报率( r o d ,投资 回报主要体现在商业智能的应用状况上。通过数据分析和建模将数据转化为信息通常由数 据分析工具负责完成。在商业智能系统中,交互式信息分析、挖掘工具、数据分析软件、商 业智能工具与商业运营规则相结合对数据的模式和趋势进行分析,提供给用户企业商务的方 方面面的详细信息,以辅助商务活动决策获得更高的r o i 和利润。 总之,商务智能系统的核心目标是“数据整合、辅助决策”。数据采集是前端工作,数据 存储是中心环节,数据分析利用是关键所在,数据的维护管理是应用的辅助和扩展。 1 6 商务智能的应用实施 企业在实施商业智能技术时,有两种方法可供选择。一种较稳妥的方法是从企业中某一 个局部的商业需求开始,尝试着进行商业智能的实施。这种方法容易实现,回报快,三年 r o i ( 投资回报率) 较高。另一种方法则是在企业所有领域全面实施商业智能,以支持企业 的所有业务过程,满足跨企业的决策支持。这种方法较前一种方法更具挑战性,三年r o i 较低,收回投资的平均年限也较长。无论采用哪一种方法,企业要建立自己的商业智能系统, 都需要经历商业智能系统分析、系统设计和系统维护与管理三个阶段。 商业智能系统分析,又可分为企业需求分析、信息来源分析、逻辑信息模型设计、商 业智能系统结构设计步骤:企业需求分析可包含c r m 分析、经营分析、产品组合分析、产 品促销推广分析、财务风险分析与电子商务分析等等。信息来源分析要对可能的信息来源进 行调查,包括从顾客服务、商品销售、存货采购、会计财务、人力资源、推广促销、市场调 查与电子商务等相关系统中考察可以收集的信息源;逻辑信息模型设计主要的工作是从已经 联机的信息系统中,找寻可用于信息分析的相关资料档案,并且与企业各项业务分析中的系 统需求功能相比照,设计与汇集可符合企业需要的逻辑信息模型;商业智能系统结构设计包 括确定硬件与软件组成,设计信息从来源系统到商业智能系统数据库的处理流程。通常采用 o l a p 与数据挖掘工具进行分析预测,使终端用户存取数据更有效率。 商业智能系统设计,包括实体数据模型设计、e t l ( 抽取、转换雨j 装载) 设计、数据挖 1 2 掘方法设计、终端程序设计( o l a p 或e i s ) 等步骤。实体数据模型设计就是数据抽取 ( e x t r a c t i o n ) 、转换( t r a n s f o r m a t i o n ) 与装载( l o a d i n g ) 的功能设计。商业智能系统必须具备抽 取各种类型信息的能力,并且依照资料的特性与决策者的需求,能够自动、定时地到来源数 据库中抽取信息。数据转换则是将不一致的数据,根据规则转换为具有一致性的数据。装载 则在商业智能的转换程序服务器上自动进行。装载程序需要考虑白上一次资料抽取之后,来 源数据库内发生改变的项目,并对装载时产生的错误进行处理。数据挖掘方法设计即根据系 统数据的特点,选择适用的挖掘算法,如可采用货篮分析、时间序列分析、聚类分析、决策 树方法、遗传算法等。终端用户应用系统设计用于确定以何种形式将联机分析处理、数据挖 掘分析的结果呈现给用户。 商业智能系统维护与管理,包括商业智能整合性系统建立、数据库管理、安全管理与 效率管理等步骤。这里涉及两个层面,第一是维持与管理商业智能系统与其支持结构( 数据 库管理、安全管理、效能管理) 所需的基本功能。第二是从技术及商业的角度来探讨商业智 能系统配置是否达到最佳。从技术的角度而言,包括检查逻辑与实体数据库设计,以及所需 工作效率调整是否合适。从商业的角度而言,包括数据库稽核,亦即访问商业使用者,以考 察他们的需求是否获得满足,以及获得的投资报酬。为了使商业智能系统获得成功,组建数 据库管理小组是关键。数据库管理小组要负责建立实体数据模型、数据存储的d b m s 以及 备份与恢复程序,还要负责安全管理和效率管理。 2 1 历史背景 第二章多维分析技术 联机分析处理的概念最早由关系数据库之父e f t o d d 于1 9 9 3 年提出的。t o d d 认为联机 事务处理( o l t p ) 已不能满足终端用户对数据库查询分析的要求,s q l 对大数据库的简单查询 也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才能得到结 果,而查询的结果并不能满足决策者提出的需求。因此,c o d d 提出了多维数据库和多维分 析的概念,即o l a p 。o l a p 委员会对联机分析处理的定义为:使分析人员、管理人员或执行人 员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业 维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。 o l a p 的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概 念,因此o l a p 也可以说是多维数据分析工具的集合。 2 2 基本概念与特点 o l a p 相关基本概念包括维、维的层次、维的成员、多维数组、数据单元:维是人们观 察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维( 时间维、地理维等) : 维的层次是人们观察数据的某个特定角度( 即某个维) 还可以存在细节程度不同的各个描述 方面( 时间维:日期、月份、季度、年) ;维的成员是维的一个取值。是数据项在某维中位置 的描述。( “某年某月某日”是在时间维上位置的描述) :多维数组:维和变量的组合表示。一 个多维数组可以表示为:( 维1 ,维2 ,维n ,变量) 。( 时间,地区,产品,销售额) ;数 据单元( 单元格) :多维数组的取值。( 2 0 0 0 年1 月,上海,笔记本电脑,$ 1 0 0 0 0 0 ) o l a p 用于数据的联机分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年新能源汽车充电站充电设施布局优化与能源利用率提升
- 2.6 希腊罗马古典文化说课稿 2024-2025学年统编版九年级历史上册
- 2025年中国高粱属作物青贮接种剂行业市场分析及投资价值评估前景预测报告
- 《第16课 成果分享-网站的测试与发布》说课稿教学反思-2023-2024学年初中信息技术清华大学版2012八年级下册
- 作品创作需规划(教学设计)陕教版信息技术三年级上册
- 2025年中国甘油聚醚-5乳酸酯行业市场分析及投资价值评估前景预测报告
- 2025年新能源汽车电池回收与环保处理技术研究报告001
- 口腔前台医学知识培训课件
- 2023七年级道德与法治上册 第二单元 友谊的天空 第四课 友谊与成长同行 第1框 和朋友在一起说课稿 新人教版
- Unit 5 Do you want to watch a game show Section A 3a~3c 教学设计 -人教版英语八年级上册
- 门机控制器调试手册
- 湖北省武汉市外国语学校2024-2025学年上学期10月九年级物理试题(含解析)
- 2025年上海市青浦区中考英语一模试卷
- 初中生物教师培训讲座
- 知识付费合同协议范本
- 第一单元中国特色社会主义的开创、坚持、捍卫和发展单元测试-2023-2024学年中职高教版(2023)中国特色社会主义
- 学校体育学(唐炎-刘昕版)重点、知识点
- 骨折康复护理的常见问题和处理方法
- 实验室生物安全手册-
- 9.2 维护国家安全(分层作业)八年级道德与法治上册同步备课系列(部编版)
- 高位大直径大直径定向钻孔技术及其配套装备课件
评论
0/150
提交评论