(计算机软件与理论专业论文)商业智能在客户营销服务支撑系统中的应用研究.pdf_第1页
(计算机软件与理论专业论文)商业智能在客户营销服务支撑系统中的应用研究.pdf_第2页
(计算机软件与理论专业论文)商业智能在客户营销服务支撑系统中的应用研究.pdf_第3页
(计算机软件与理论专业论文)商业智能在客户营销服务支撑系统中的应用研究.pdf_第4页
(计算机软件与理论专业论文)商业智能在客户营销服务支撑系统中的应用研究.pdf_第5页
已阅读5页,还剩91页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

y 6 547 1 6 商业智能在客户营销服务支撑系统中的应用研究 计算机软件与理论专业 研究生曾涛指导教师唐宁九 科技的进步和信息技术的发展使世界进入了前所未有的全球化时代,未来 企业要想在竞争中立于不败之地,必须能够纵观历史和洞察未来趋势,以快速做 出决策,而快速决策来自于对市场、客户、企业营销状况等正确充分的分析。 但是原有的运营支撑系统作为一种管理系统难以做到这一点,以数据仓库为基 础的商业智能的建设则可以很好的解决这个问题。 商业智能( b i ) 是一种综合运用了数据仓库、联机分析和数据挖掘技术来 处理和分析数据的崭新技术,它使我们能够将数据转变为信息和知识。 本文结合软件工程的思想,通过研究硒世智能应用于客户营销服务支撑系 统建立的新方法,提_ 【j ;了一利,切实可行的柔性化,轻型化的商业智能建立技术, 并在客户营销服务支撑系统中得到应用和验证。 文中首先对商k 智能做了比较全而的综述介绍了商业智能的几个核心技 术:数据仓库,数据集市,联机分析处理和数据挖掘。然后对一个客户营销服 务支撑系统作了较为详实地需求分析,分析了系统中商业智能所应完成的功能 与模块。进艄根据需求分析对客户营销服务支撑系统中的商业智能应用进行_ r 系统分析,方案设计,系统选型等工作,通过问答方式给出了一般商业智能应 用的开发要点、原9 1 0 和方法。并按照设计要求实现了系统,文中也给出了部分 系统设计及实现后的一些样例图表。最后,在文章的结尾总结了案例工程实施的 要点和成功点。 关键词:商业智能,数据仓库,联机分析,业务支撑系统,软件工程 二磐黟二 a p p l i c a t i o n a n dr e s e a r c ho fb if o rc m s s z e n gt a o ( c o m p u t e rs o f t w a r e t h e o r y ) d i r e c t e db y t a n gn i n g j i u t h et e c h n i c a lp r o g r e s sa n dt h ed e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g yb r i n gt h e w o r l di n t oa u n p r e c e d e n t e dg l o b a l i z a t i o nt i m e i nt h ef u t u r e ,i fa e n t e r p r i s ew a n t st o s u r v i v eh i m s e l fi nt h ei n t e n s ec o m p e t i t i o n ,h eh a st ob ea b l et ol o o k o v e rt h eh i s t o r y a n df a s t st os e ec l e a r l yt h ef u t u r et e n d e n c yt h u st om a k et h ed e c i s i o n m a k i n g t h e f a s td e c i s i o n m a k i n gc a m ef r o mt h ec o r r e c tf u l la n a l y s i st ot h em a r k e t , t h ec u s t o m e r , t h ee n t e r p r i s em a r k e t i n gc o n d i t i o na n ds oo n h o w e v e rt h eo l do p e r a t i o ns u p p o r t s y s t e m c a l ln o tb e c o m p e t e n t f o rt h i st a s k o n l yt h eb ib a s eo nd a t aw a r e h o u s e w ) w i l ld o i t w e l l b ii san e w t e c h n o l o g y , w h i c h m a k e s i n t e g r a t i v e u s eo fd w , o n l i n ea n a l y t i c a l p r o c e s s i n g ( o l a p ) ,d a t am i n i n g ( d m ) a n d s oo n v i ab lw ec a nt r a n s f o r mr a w d a t a i n t ou s a b l ei n f o r m a t i o na n dk n o w l e d g e ht h ef i g h to ft h es o f t w a r ee n g i n e e r i n gt h o u g h t ,t h i sa r t i c l e ,b a s e do nt h ea c t u a l p r o j e c t o fc u s t o m e rm a n a g e rs u p p o r ts y s t e m ( c m s s ) ,p r o p o s e do n ek i n do f f e a s i b l ef l e x i b l ea n dl i g h tt e c h n o l o g yo fe s t a b l i s h i n gb lw h i c ha p p l i e dt ot h ec m s s s u c c e s s f u l l y , a n dg a v es o m e n e wt e n t a t i v ea n dc r e a t i v ei d e a s t h ea r t i c l eh a sf i r s tm a d eac o m p r e h e n s i v es u m m a r yt ot h eb i , e x p l a i n e dt h e b i ss e v e r a lc o r e st e c h n o l o g y :d w , d a t am a r t ,o l a pa n dd m ,t h e nt h i sp a p e rh a s g i v e nd e t a i l e dr e q u i r e m e n t sa n a l y s i st oac m s s ,a n d h a sl i s t e dt h ef u n c t i o na n dt h e m o d u l ew h i c hi nt h es y s t e mt h eb 1s h o u l dc o m p l e t e t h er e q u i r e m e n t sa n a l y s i sh a s c a r r i e do nt h ea n a l y s i so fs y s t e m ,t h ed e s i g no fb l u ep r i n t ,a n dt h ec h o i c eo fs y s t e m p a t t e r n t h e t h e s i ss h o w st h ef u n d a t i o n a l p r i n c i p l e a n dm e t h o dt h r o u g ht h e q u e s t i o n a n s w e rw a yt od e v e l o pag e n e r a la p p f i c a t i o n o fb i a d a p t i n gt ot h e s e p r i n c i p l ea n dm e t h o d ,w e r e a l i z e dt h es y s t e ma n ds m i s f i e dt h er e q u i r e m e n t sa n a l y s i s a tt h er e a re n d ,t h i sp a p e rd e m o n s t r a t e st h ep a r t i a ls y s t e md e s i g na n dr e a l i z a t i o na n d s o m eg r a p h i co rt a b l e e x a m p l e f i n a l l y , t h ea r t i c l e s u m m a r i z e ds o m em a i np o i n t a b o u tt h ei m p l e m e n t a t i o no ft | l i sp r o j e c t ,r e i t e r a t e dt h ef a c tt h a te t la n dm e t a d a t ai s e s s e n t i a lt ob i k e y w o r d s :b u s i n e s si n t e l l i g e n c e0 3 i ) ,d a t aw a r e h o u s e ( d w ) ,o n l i n ea n a l y t i c a l p r o c e s s i n g ( 0 l a p ) ,s o f t w a r ee n g i n e e r i n g 四川大学硕士学位论文 1 绪论 1 1 论文研究背景及意义 ( 1 ) 企业的“数据监狱”( d a t aj a i l ) 现象。 商务活动从办公自动化出现的早期开始就在其运作过程中收集大量的数据 包括销售、成本、质量控制、库存、客户服务等各方面息息相关的企业数据, 分别存储于数据库、数据集市、数据仓库、多维数据库、第三方的应用或其它 文件中。因此对大部分企业来说数据处理的问题不是数据缺乏,而是大量的数据 冗余和数据不一致。庞大的数据量和传统数据管理方法的缺陷,使大部分企业出 现_ :广“数据拥挤”( 数据临狱) 现象,既不利于企业的管理也不利于信息的有效利 用。因此,如何解决数据拥挤,同时又能使这些数据充分地发挥作用这已成为企业 商务发展的一个热点问题。 ( 2 ) “数据= 资产”新企业观念的建立。 在企业界,数据资产的观念正在进入企业的资源规划( e r p ) 系统中,而把数 据转换为资产的方法和技术也正在成为企业投资r r 的热点。因为目前大部分 大中规模的企业都是信息丰富的组织,而一个信息丰富的组织的绩效不仅仅依 赖于产品、服务或地点等因素,而更重要的是依赖知识。而从数据信息知识 是一个并不简单的过程。商业智能的本质正是把数据转化为知识,致力于知识发 现和挖掘,使企业的数据资产能带来明显的经济效益,减少不确定性因素的影响, 使企业取得新的竞争优势。 ( 3 ) 企业运营模式的变化。 电子商务正在改变着全球商务活动的方式,信息在经济活动中越来越占据 着重要的地位。对企业来说信息包括生产、销售、市场、顾客和竞争对手的信 息,信息是企业竞争的战略性资源。建立在i n t e m e t 之上的企业经营模式电子商 务:电子邮件、电子数据交换、电子支付系统、电子营销等技术的发展和应用为 商业智能系统提供了市场和生存环境。 四川大学硕士学位论文 ( 4 ) 数据库和人工智能技术的发展。 商业智能的发展也得益于相关技术的发展,并行处理系统、廉价数据存储、 新数据挖掘算法、神经网络技术、人工智能技术、决策支持技术、从大量数据 中发现其后潜藏的商业机会等等技术的发展,使企业能以更低的成本投资商业 智能,并取得更高的t r 投资回报率。 末来企业要想在竞争中立于不败之地,必须能够纵观历史与未来趋势陕速 的做出决策,而陕速决策来自于对市场、客户、企业营销状况等正确充分的分 析。然而原有的运营支撑系统作为一种管理系统做不到这一点。这是因为从传 统的数据库中提取决策者需要的高度综合的信息,不仅要投入昂贵的人力和机 器资源,而且时间较长。但是,这些长期积累的数据无疑对企业是一笔潜在的 财富,怎样合理的利用它们成了提高企业管理和决策水平的一个关键。以数据 仓库( d a t aw a r e h o u s e ) 为基础的商业智能( b u s i n e s si n t e l l i g e n c e ) 的建设则可以很 好的解央这个问题。商业智能利用现有的业务信息提取和组织有用的信息,能 够帮助用户在加强管理、促进营销和企业发展方面做出及时、正确的决策。 1 2 商业智能的概述和发展趋势 1 2 1 概述 商业智能( b i ) 是一种综台运用了数据仓库、联机分析和数据挖掘技术来 处理和分析数据的崭新技术。商业智能这一术语1 9 8 9 年由g a r t n e rc r o u p 的 h o w a r dd r e s n e r 首次提出,它描述了一系列的概念和方法,通过应用基于事实的 支持系统来辅助商业决策的制定。商业智能技术提供使签此迅速分析数据的技 术和方法,包括收集、管理和分析数据,将这些数据转化为有用的信息,然后分发 到企业各处。商业智能系统从企业运作的日常数据中开发出结论性的、基于事 实的和具有可实施性的信息,使企业能够更快更容易的做出更好的商业决策。使 企业管理者和决策者以一种更清晰的角度看待业务数据,提高企业运转效率、增 1 余长慧潘和平商业智能及其核心技术【j 计算机应用研究,2 0 0 2 ;9 :1 4 - 1 5 ,2 6 2 四川大学硕土学位论文 加利润并建立良好的客户关系,使企业以最短的时间发现商业机会捕捉商业机 遇。如何时何地进人何市场,如何选择和管理大客户联系,以及如何选择和有效地 推出商品优惠策略等。同时通过提供决策分析能力,使企业更有效地实现了财务 分析、风险管理、诈骗检测、分销和后勤管理,以及销售状况分析等。商业智能 系统可以说是一个智能决策支持系统,它不是一种产品或服务,从某种意义上商 0 t 智能是一种概念或者说是一种商业理念,它是在企业数据仓库的基础e ,利用 数据挖掘和信息挖掘工具获取商业信息,以辅助和支持商业决策的全过程。通过 商业智能技术,用户更充分地了解他们的产品、服务、客户以及销售趋势。目前 狂国外商业智能软件与o f f i c e 力公软件、浏览器一起已经成为企! 世必不可少的 桌面办公软件之一。商业智能在我国尚处于起步阶段,商业智能系统适合应用的 行业依次是:零售、保险、银行、通信、离散制造、政府、医疗、分销、流程制 造、教育。然而,从各种资料上看,商业智能、数据仓库和客户关系管理在我国只 在少数的银行、保险、电信行业有实施的案例。 i b 蚣司将其定义为“商业智能是企业对数据的搜集、管理和分析系统过程, 目的是使企业的各级决策者获得知识或洞察力,促使他们做出对企业更有利的 决策u :,m i c r o s o f t 把b i 看作“战略性的企业应用程序,b i 把全公司多个来源的 数据集成在一起,以提高竞争能力”3 ,c o g n o s 公司的定义是:“商业智能是列商 业信息的搜集、管理和分析过程,目的是使企业的各级决策者获得知识或洞察 力,促使他们做出划企业更有利的决策u 。无论怎样定义,都表达了一个意思, 即通过对数据进行抽取、清洗、转换、预测、挖掘等处理来产生可分析的各种 展示数据。这些数据可直观地显示分析者所要探询的某种经营属性或市场规律。 因此商业智能是伴随着数据仓库、在线分析处理和数据挖掘的发展而发展的。 2 i b m d b 2 通用数据库商业智能教程第七版i b m 公司内部资料,2 0 0 0 3 m i c r o s o f t s q l 2 0 0 0 数据仓库参考手册m i c r o s o f t 公司内部资料,2 0 0 2 4 c o g n o sc o g n o sd w v v h t ep a p e r c o g n o s 内部资料,2 0 0 2 3 四川大学硕士学位论文 1 2 2 商业智能的发展趋势 m i c r o s t r a t e g y 公司提出了第三代b j 平台的概念。该公司亚太区总裁j a m e s s h i n 认为:第一代b i 平台是在1 9 9 2 年1 9 9 3 年所开发的基于c l i e n t s e r v e r 模式的固定报表工具;第二代在c l i e n t s e r v e r b r o w s e 三层模式下的b i 工具, 尽管强化了查询功能,但各个工具之间仍相互独立;2 0 0 0 年之后出现了n 层模 式,用户的需求也越来越复杂。m i c r o s t r a t e g y 提出的第三代b i 是在报表、查询 的基础上,增加了用于分析的指标模型、整合信息孤岛平台的信息门户和全方 位满足用户的数据挖掘能力。这五个层次形成一个功能全面、操作简便的b i 门户平台。” 而b r i o 倡导b p 理论。b r i o s y l 为,商业决策要求决策系统要以最快的速度、 最简便的方式对各个层次的数据进行分析、查询等多种操作。而传统的b i 已经 不能为企业带来新的商机与业务模式。也就是说,企业要做的不仅仅是简单的 数据提取而是以经营业绩为导向,将信息从数据中提取出来,并及时地发布 出去。b f i o j ) 、为这个过程就是b i 提升到b p 的过程。 1 3 本文的组织方式 1 ) 2 、 3 ) 4 ) 5 ) 首先列商业智能进行了较为详实地综述,介绍了他的几个核心技术及 其对商业智能的作用。 按照软件工程的方法对一个客户营销服务支撑系统作了需求分析,分 析出系统中商业智能所应完成功能与模块。 根据实际需求对客户营销服务支撑系统中的商业智能应用进行了方案 设计,系统分析,系统选型等工作,给出了一种其它商业智能应用可 以复用的开发要点、原则和方法,并改进了一些技术。按照设计实现 了系统,给出了部分系统设计及实现后的部分样例图表。 对案例进行了性能分析并总结了成功点。 在文章的最后提出一些较新的想法和观点。 四川大学硕士学位论文 2 商业智能核心技术介绍 2 1 b l 的数据存储技术 2 1 1 数据仓库 有些文献把数据仓库当作商业智能的代替词。实际上,数据仓库系统是对数 据的处理技术的集成,而商业智能系统的核心是解决商业问题,它把数据处理技 术j 商务规则相结合以提高商业利润减少市场运营风险,是数据仓库技术、决策 处理技术和商、址运营规则的结合。 数据仓库一词尚没有一个统一的定义,在数据仓库的发展过程中,许多人 对此做出了贡献。其中,d e v f i n 和m u s h y 在1 9 8 8 年发表了一篇关于数据仓库 论述的最早文章。而w i l l i a mh i n m o n 在1 9 9 3 年所写的论著 b u i l d i n g t h ed a t a w a r e h o u s e 则首先系绕陛地阐述了关于数据仓库的思想、理论,为数据仓库 的发展奠定了历史基石。为此,w i l l i a mh n l t i o l l 被尊为数据仓库之父。在 ( ( b u i l d i n g t h e d a t a w a r e h o u s e ) ) 中,他将数据仓库定义为“一个面向主题的、 集成的随时间变化的非易失性数据的集合,用于支持管理层的决策过程”5 。关 于数据仓库的定义还有:“数据仓库是一种体系结构,一种独立存在的不影响 其他已经运行的业务系统的语义一致的数据仓储,可以满足不同的数据存取、 文档报告的需要”。数据仓库“是一个不断发展的过程,将多个异质的原始数 据融合在一起,用于支持结构化的在线查询、分析报告和决策支持”。 简而言之,数据仓库是一个面向主题的藻成的,时变的,非易失的数据集合: 面向主题:数据仓库围绕一些主题,排除对于决策无用的数据,提供特定主体 的简明视图; 5 ( 美) w h 联社l m o n 著王志海林友芳等译数据仓库北京:机械工业出版礼2 0 0 33 :2 1 页 5 四川大学硕士学位论文 集成的:构造数据仓库是将多个异种数据源集成在一起,确保命名约定,编码 结构,属性度量等一致性; 时变的:数据存储从历史的角度提供信息数据仓库的关键结构,隐式或显式 地包含时间元素; 非易失的:数据仓库总是物理地分离存放数据;由于这种分离,数据仓库不 需要事务处理蕨复和并发控制通常数据仓库只需要两种数据访问:数据的初始 化装入和数据访问。 对于数据仓库的概念我们可以从两个层次予以理解: ( 1 ) 数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操 作型数据库; 一 ( 2 ) 数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重 组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。 现在的企业在残酷的竞争环境中存在很大压力,传统的事先对数据进行提 取和整理的业务处理方式已经不再为人们所接受,相反企业需要通过对可预测 行为的分析和预测进行快速决策。数据仓库这些特点就能满足这一需求。 在数据仓库中最常用的有以下几种数据操作: 上卷( r o l l u p ) :沿着维的层次向上攀升聚合数据,即数据的概化; 下钻( d r i l l d o w n ) :上卷的逆操作,沿着维的层次向下探查更详细的数据, h p 数据的细化; 切片( s l i c e ) :选定多维数组的一个二维子集的动作叫作切片。 切块( d i c e ) :通过对两个或多个维执行选择,结果是个子方体; 旋转( p i v o t ) :是一种目视操作,它转动数据的视角( 维) 2 1 2 数据集市 数据仓库无疑是解决困扰企业的“数据监狱”和“数据贫乏”问题的好方 法。据市场研究机构m e t ag r o u p 的研究报告,当今全球最大2 0 0 0 家企业中的 9 0 都有开发企业数据仓库的计划。但是在开发的过程中人们发现了一些问题。 为了解决早期在建设数据仓库中所面临的问题,因而提出了数据集市( d a t a 6 四川i 大学硕士学位论文 m a r t ) 的概念。数据集市是支持某一部门或特定商业需求的决策支持系统 ( d s s ) 应用的数据集合。数据集市中的数据仍具有数据仓库中数据的特点。 只不过,数据集市中的数据是专为某一部门或某个特定商业需求所定制的。数据 集市的结构和数据仓库类似。一般认为数据集市中的数据来自数据仓库。 数据集市有以下优点: 1 ) 数据集市的建设周期短只需几个月) ,投资小,见效快j ( 2 ) 部门用户完全拥有自己的数据集市可以根据需要定制其中的数据; ( 3 ) 部门用户可以自由地选择适合自己的数据集市的决策分析工具; ( 4 ) 使用数据集市可以解决各部门对数据仓库资源的竞争,提高处理速度。 2 2 b i 的分析技术 2 2 】联机分析 2 2 1 1 概述 在2 0 世纪的6 0 年代末期,e ,e c o d d 提出关系数据模型以后,促进了关系 数据库与连机事务处理的发展。随着关系数据库的大规模应用,管理人员对数 据库中的数据查询要求越来越复杂,查询中所涉及的数据不是一张关系表中的 一两条记录,而是涉及多个关系中的成千上万条记录,数据量从早期的兆字节 ( m b ) 、千兆字节( g b ) 发展到兆兆字节f r b ) 、千兆兆字节) ,而且在查询中还 需要对各种数据进行综合分析处理。 为了满足这些要求,许多软件开发商就开发了各种关系型数据库的前端产 品。利用专门的数据综合引擎和直观的数据访问界面,以统一复杂查询中各种 混乱的应用逻辑,使系统在很短的时间内响应用户的复杂查询。e e c o d d 在1 9 9 3 年将这类技术称为o l a p 。c o d d 认为连机事务处理( o l t p ) p , 不能满足终端用户 对数据库查询分析的需要,s q l 对大数据库的简单查询也不能满足用户分析的 需求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而简单 四川大学硕士学位论文 查询的结果并不能满足决策者提出的需求。因此c o d d 提出了多维数据库和多 维分析的概念,即o l a p 。这一类技术也就与o l t p 有了完全的区分。 o l a p 主要针对特定问题的连机数据查询和分析。在查询分析中,系统首 先要列原始数据按照用户的观点进行转换处理,使这些数据真正反映用户眼中 问题某个真实方面( “维”) :然后以各种可能的方式对这些数据进行快速、稳 定、一致和交互式的存取,并且允许用户对这些数据按照需要进行深人的观察。 数据仓库是一种管理决策分析的基础。若要有效地利用数据仓库的信息资 源,须有强大的工具对数据仓库中的信息进行分析决策。在线分析处理或联机 分析处理( o l a p ,o nl i n e a n a l y t i c a lp r o c e s s i n g ) 就是个得到广泛应用的数据仓 库使用技术。 o l a p 专门用于支持复杂的决策分析,支持信息管理和业务管理人员决策 活动的一种决策分析工具。它可以根据分析人员的要求,迅速、灵活地对大量 数据进行复杂的查询处理,并且以直观的、容易理解的形式将查询结果提供给 各种决策人员,使他们迅速,准确地掌握企业的运静睛况,了解市场的需求。 o l a p 技术主要有两个特点:一是在线性( o n - l i n e ) ,表现为对用户请求的 快速响应和交互式操作,它的实现是由客户机馆展务器体系结构完成的;二是多 维分析( m u l t i a n a l y s i s ) ,这也是o l a p 技术的核j 心所在。 2 2 1 2 联机分析处理与数据仓库的关系 在数据仓库中,o l a p 和数据仓库是密不可分的,但是两者具有不同的概 念。数据仓库是一个包含企业历史数据的大规模数据库,这些历史数据主要用 于对企业的经营决策提供分析和支持。数据仓库中的数据是不能用于连机事务 处理系统( 0 l t p ) 的,而o l a p 技术则利用数据仓库中的数据进行联机分析,将 复杂的分析查询结果日8 基地返回用户。o l a p 利用多维数据集和数据聚集技术 对数据仓库中的数据进行组织和汇总,用联机分析和可视化工具对这些数据迅 速进行评价。从图2 - 1 中可以发现o l a p 用多维结构表示数据仓库中的数据, 创建组织和汇总数据的立方体,这样才能有效地提高用户复杂查询的要求。因 此数据仓库的结构将直接影响立方体的设计和构造,也就影响o l a p 的:工作 四j | l 大学硕士学位论文 效率。从o l a p 使用的效率角度考虑,在设计数据仓库时应该考虑这样一些因 素: 也务箍理系统望色培 箭_ :堪弟层 图2 - 1数据仓库与o l a p 关系图 尽可能的使用星形架构,如果采用雪花结构,就要最j , 4 9 9 实表底层维 度表以后的维度表数量: 为用户设计包含事实表的维度表,这些维度表应该包含有意义的、用户 希望了解的信息: 维度表的设计应该符合通常意义上的范式约束,维度表中不要出现无关 的数据; 事实表中不要包含汇总数据,事实表中所包含的用户需要访问的数据应 该具有必需的粒度,这些数据应该是同一层次的数据: 对事实表和维度表中的关键字必需创建索引,同一种数据尽可能使用一 个事实表; 保证数据的参考完整性,使事实表中的所有数据都出现在所有的维度表 中,避免事实表中的某些数据行在立方体进行聚集运算时没有参加进来。 望恩 四川大学硕士学位论文 2 2 1 3 联机分析服务器( o i a ps e r v e r ) 的分类 1 关系o l a p ( r o l a p ) 模型:使用关系或扩充关系d b m s 存放并管理数据仓库 2 多维o l a p ( m o i a p ) 服务器:这些服务器通过基于数组的多维存储,支持数 组的多维视图 3 混合o l a p ( t t o l a p ) 服务器:结合r o l a p 和m o l a p 技术,得宜于r o l a p 的叮伸缩性,和m o l a p 的快速计算 4 特殊的s q l 服务器:为了满足在关系数据库中日益增长的o l a p 需要,实现 了特殊的s q l 服务器,提供高级查询语言和查询处理,在星型和雪花模式上支 持s q l 查询, 2 22 数据挖掘 数据挖掘是人工智能和数据库中的重要研究领域,也是售鼠系统智能化的 手段之。简单的说,数据挖掘是“从大量数据中提取出隐含的、先前未知的、 对决策有潜在价值的知识和规则的过程”。这些规则蕴涵了数据库中一组对象之 间的特定关系,揭示出了一些有用的信息,为经营决策、市场策戈0 、金融预测 等提供了依据。通过数据挖掘,有价值的知识、规则或高层次的信息能从数据 库或数据仓库的相关数据集合中抽取出来,并以不同的角度显示。因此,数据 挖掘又被称为数据库中的知识发现( k d d ) 。 数据挖掘发现的知识通常以概念( c o n c e p t s ) 、规躲u l e s ) ,规律征罐u l 撕t i e s ) , 模式( p a t t e r n s ) 、约束( c o n s t r a i n s ) 、可视化( v i s u a l i z a t i o n s ) 等形式表示。这些知识 可以直接提供给决策者,用以辅助决策过程,也可以作为新知识存放到相应的 知识存储机构中,比如专家系统( e x c e p ts y s t e m ) 、知识库( 髓kb a s e ) 等。 数据挖掘能够处理的数据规模非常庞大,能自动寻找感兴趣的东西,对于 数据库的计时查询,往往不能提出精确的查询要求,所以通常通过数据挖掘技 术寻找其可能感兴趣的东西。 数据挖掘对决策支持的快速反应。数据挖掘不但要发现潜在的规则,还要 管理和维护规则,而规则是动态的,当前的规则只能反映当前数据库的特征, 1 0 心川大学硕士学位论文 随着数据不断更新,规则也需要随之更新。 数据挖掘i j “规则的发现”主要基于大样本的统计规律,发现的规j j l | j 小必 遵循所有的数据,当达到某可信度时就可以认为有此规则。 2 3 b i 的表示和发布技术 决策支持应用平台后端连接数据仓库模块,向决策支持系统用户提供 o l a p 分析、灵活查询、固定格式报表、灵活报表等不同层次的应用,满足电 信业务人员多种多样的信息需求,促进企业决策的科学化。决策支持应用平台 主要包括分析模块和报表模块等组成部分,一般用到数据可视化和w e b 技术。 ( 1 ) 分析模块:是决策支持系统的主要数据展现和分析手段,企业用户通 过客户端或浏览器与o l a p 服务器连接,快速、一致、交互地访问各种可能的 信息视图,洞察数据深处,掌握隐于其中的规律。分析模块能帮助企业中的决 策人员、业务分析人员、数据分析人员完成各种o l a p 需求。 ( 2 ) 报表模块:决策支持系统的总体需求中除对分析功能提出要求外,也 对完成各种固定格式或灵活的报表提出了需求。报表模块根据企业的需要生成 大量的企业内部使用或上报的规定格式报表,同时也可以根据需要生成用户临 时要求的不同格式的报表。这些报表的数据来源多种多样,报表的复杂程度也 各不相同。在报表生成周期上,既有年报、季报、月报、周报、日报等固定时 间间隔的报表,也有一次性或临时生成的报表。 其功能与接e l 和企业信息门户( e i p ) 的有部分重叠,所以可以推演,其发 展趋势将会与e 口等相结合,作为统完整的企业应用体系架构的一部分来实现 与运作。 列川大学硕士学f 讧论文 3 常见的商业智能构建模式 3 1 常见的商业智能体系结构 所谓体系结构( a r c h i t e c t u r e ) 是指一整套的规则和结构,为一个系统或产品 的整体设计提供主框架。而个商业智能的体系结构是指通过识别和理解数据 在系统中的流动过程和数据在企业中的应用过程来提供商业智能系统应用的主 框架。下面列出了常见的商业智能的体系结构示意图: 用户 网 l 二 四川大学硕士学位论文 3 2 常见的商业智能构建过程 商业智能的体系结构指导商业智能系统的建立,其建立步骤为: ( 1 ) 识别和确定数据源 商业智能的数据来自于多种数据源,包括电子商务数据、交易处理数据以及 相关的外部数据等。如从交易处理应用软件中获取订单信鼠、顾客信息和产品 信息,从电子商务网站中获取访问和点击信息,还可以从账务系统中获得账务信 息,从市场部门获得市场信息等。 ( 2 ) 进行数据集成和存储管理 数据集成可以分为“懒散型”数据集成和“急切型”数据集成。懒散型数 据集成一般应用在数据库系统中,其显著特征是集成发生在查询产生之后。用户 提出一个查询后,系统确定查询所需的数据来源,为每一个来源产生子查询和命 令,然后从数据源巾获取信息,执行一定的转换、过滤和合并后把最终结果返回给 用,或客户系统。数据在查询出现后才从原始资料中提取。急切型数据集成通 常出现在数据仓库技术中,它提前预测用户的需求,把可能会被用到的数据提前 从数据源系统中抽取出来,经过变换、过滤及与其它相关信息的合并,然后存储在 集巾的仓库中。当一个查询出现后,直接在仓库中运行 不需要进 最初的数据源 系统中去。这种急切型的数据集成方法使数据仓库中存储着大量经过预先计算 的总汁数据和累加数据,在查询时能显著加快查询速度,满足用户对响应时间的 需求。 ( 3 ) 数据分析和建模 商业智能建立的本质目的是获得高的投资回报率( r o d ,投资回报主要体现 在商业智能的应用状况上。通过数据分析和建模将数据转化为信息,通常由数据 分析工具负责完成。在商业智能系统中,交互式信息分析、挖掘工具、数据分析 软件、商业智能工具与商业运营规则相结合对数据的模式和趋势进行分析,提供 给用户企、世商务的方方面面的详细信息,以辅助商务活动决策获得更高的r o i 和利润。 四川大学硕士学位论文 3 3 商业智能中数据仓库设计 3 3 】 数据仓库的建模 3 3 1 1 概念模型 进行概念模型没计所要完成的工作是: c 1 ,界定系统边界 c 2 ,确定主要的主题域及其内容 概念模型设计的成果是,在原有的数据库的基础上建立了一个较为稳固的 概念模型。因为数据仓库是对原有数据库系统中的数据进行集成和重组而形成 的数据集合,所以数据仓库的概念模型设计,首先要对原有数据库系统加以分 析理解,看在原有的数据库系统中“有什么”、“怎样组织的”和“如何分布的” 等,然后再来考虑应当如何建立数据仓库系统的概念模型。一方面,通过原有 的数据库的设计文档以及在数据字典中的数据库关系模式,可以对企业现有的 数据库中的内容有一个完整而清晰的认识;另一方面,数据仓库的概念模型是 面向企业全局建立的,它为集成来自各个面向应用的数据库的数据提供了统一 的概念视幽。 概念模型的设计是在较高的抽象层次上的设计,因此建立概念模型时不用 考虑具体技术条件的限制。 一 1 界定系统的边界 数据仓库是面向决策分析的数据库,我们无法在数据仓库设计的最初就得 到详细而明确的需求,但是一些基本的方向性的需求还是摆在了设计人员的面 前: 要做的决策类型有哪些? 决策者感兴趣的是什么问题? 这些问题需要什么样的信息? 要得到这些信息需要包含原有数据库系统的哪些部分的数据? 1 4 四j i i 大学硕士学位论文 这样,我们可以划定一个当前的大致的系统边界,集中精力进行最需要的 部分的开发。因而,从某种意义上讲,界定系统边界的工作也可以看作是数据 仓库系统设计的需求分析,因为它将决策者的数据分析的需求用系统边界的定 义形式反映出来。 2 确定主要的主题域 在这一步中,要确定系统所包含的主题域,然后对每个主题域的内容进行 较明确的描述,描述的内容包括: 主题域的公共码键; 主题域之间的联系; 充分代表主题的属性组。 3 3 1 2 逻辑模型 在这一步里进行的工作主要有: 分析主题域,确定当前要装载的主题; 确定粒度层次划分; 确定数据分割策略; 关系模式定义; 记录系统定义 逻辑模型设叫。的成果是,对每个当前要装载的主题的逻辑实现进行定义, 并将相关内容记录在数据仓库的元数据中,包括: 适当的粒度划分; 合理的数据分割策略; 适当的表划分; 定义合适的数据来源等。 1 分析主题域 在概念模型设汁中,我们确定了几个基本的主题域,但是,数据仓库的设 计方法是个逐步求精的过程,在进行设计时,一般是一次一个主题或一次若 干个主题地逐步完成的。所以,我们必须对概念模型设计步骤中确定的几个基 四川大学硕士学位论文 本字题域进行分析,并选择首先要实施的主题域。选择第一个主题域所要考虑 的是它要足够大,以便使得该主题域能建设成为一个可应用的系统;它还要足 够小,以便于开发和较快地实施。如果所选择的主题域很大并且很复杂,我们 甚至可以针对它的个有意义的子集来进行开发。在每一一次的反馈过程中,都 要进行主题域的分析。 2 粒度层次戈1 分 数据仓库逻辑设计中要解决的个重要问题是决定数据仓库的粒度划分层 次,盘度层次划分适当与否直接影响到数据仓库中的数据量和所适合的查询类 型。确定数据仓库的粒度划分,可以使用在粒度划分一节中介绍的方法,通过 估算数据行数和所需的d a s d ( d i r e c t a c c e s s s t o r a g ed e v i c e ) 数,来确定是采用 单一粒度还是多重粒度,以及粒度划分的层次。 3 确定数据分割策略 在这一步里,要选择适当的数据分割的标准,一般要考虑以下几方面因素: 数据量( 而非记录行数) 、数据分析处理的实际清况、简单易行以及粒度划分策 略等。数据量的大小是决定是否进行数据分割和如何分割的主要因素;数据分 析处理的要求是选择数据分割标准的一个主要依据,因为数据分割是跟数据分 析处理的对象紧密联系的;我们还要考虑至u 所选择的数据分割标准应是自然的、 易于实施的:同时也要考虑数据分割的标准与粒度划分层次是适应的。 4 关系模式定义 数据仓库的每个主题都是由多个表来实现的,这些表之间依靠主题的公共 码键联系在一起,形成一个完整的主题。在概念模型设计时,我们就确定了数 据仓库的基本主题,并对每个主题的公共码键、基本内容等做了描述在这一步 里,我们将要对选定的当前实施的主题进行模式划分,形成多个表,并确定各 个表的关系模式。 3 3 1 3 物理模型 这一步所做的工作是确定数据的存储结构,确定索引策略,确定数据存放 位置,确定存储分配。 1 6 1 7 3 j lj 大学硕士学位论文 确定数据仓库实现的物理模型,要求设计人员必须做到以下几方面: 要全面了解所选用的数据库管理系统,特别是存储结构和存取方法。 了解数据环境、数据的使用频度、使用方式、数据规模以及响应时间 要求等,这些是对时间和空问效率进行平衡和优化的重要依据。 了解外部存储设备的特陛,如分块原则,块大小的规定,设备的t 0 特性等。 1 确定数据的存储结构 一个数据库管理系统往往都提供多种存储结构供设计人员选用,不同的存 储结构有不同的实现;d - s t ,各有各的适用范围和优缺点,设计人员在选择合适 的存储结构时应该权衡三个方面的主要因素:存取时间、存储空间利用率和维 护代价。 2 确定索引策略 数据仓库的数据量很大,因而需要对数据的存取路径进行仔细的设计和选 择。由于数据仓库的数据都是不常更新的,因而可以设计多种多样的索引结构 来提高数据存取效率。 在数据仓库中,设汁人员可以考虑对各个数据存储建立专用的、复杂的索 引,以获得最高的存取效率,因为在数据仓库中的数据是不常更新的,也就是 说每个数据存储是稳定的,因而虽然建立专用的、复杂的索引有定的代价, 但一旦建立就几乎不需维护索引的代价。 3 确定数据存放位置 我们说过,同一个主题的数据并不要求存放在相同的介质上。在物理设计 时,我们常常要按数据的重要程度、使用频率以及对响应时间的要求进行分类, 并将不同类的数据分别存储在不同的存储设备中。重要程度高、经常存取并对 响应时问要求高的数据就存放在高速存储设备上,如硬盘;存取频率低或对存 取响应时间要求低的数据则可以放在低速存储设备上,如磁盘或磁带。 数据存放位置的确定还要考虑到其它一些方法,如:决定是否进行合并表; 是否对一些经静l 生的应用建立数据序列;对常用的、不常修改的表或属性是否 冗余存储。如果采用了这些技术,就要记人元数据。 4 确定存储分配 四川i 大学硕士学位论文 许多数据库管理系统提供r 一些存储分配的参数供没计者进行物理优化处 理,如:块的尺寸、缓冲区的大小和个数等等,它们都要在物理没计时确定。 这同创建数据库系统时的考虑是一样的。 3 3 1 4 数据模型规范化设计 3 3 1 4 1 数据模型规范化处理 关系模式设计是数据仓库实施中的重要一环,因为它能直接反映出业务部 门的需求,同时对系统的物理实施有着重要的指导作用。目前较常用的两种建 模方法足所谓的第三范式( 3 n f ,即t h i r d n o r m a lf o r m ) 。范式是数据库逻辑模型 设计的基本理论,一个关系模型可以从第一范式到第五范式进行无损分解,这 个过程也称为规范化( n o r m a l i z e ) 。在数据仓库的模型设计中目前一般采用第三 范式。一个符合第三范式的关系必须具有以下三个条件: a ) 每个属性的值唯一,不具有多义性 b ) 每个非主属性必须完全依赖于整个主键,而非主键的一部分 c ) 每个非主属性不能依赖于其他关系中的属性 可以看到,第三范式的定义基本上是围绕主键与非主属性之间的关系而做 m 的。如果只满足第个条件,则称为第一范式:如果满足前面两个条件,则称 为第二范式,依此类推。因此,各级范式是向下兼容的。 3 3 1 4 2 数据仓库的反规范化处理 f一 用于业务数据处理系统的数据库设计目标与数据仓库的设计剐示有明显差 异。传统的数据库设计是基于某个范式的,具有规范化的特点,系统所需要的 是陕速响应和高效的数据存储。数据仓库为了高效地检

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论