(模式识别与智能系统专业论文)构建基于数据仓库支持的分析型crm系统.pdf_第1页
(模式识别与智能系统专业论文)构建基于数据仓库支持的分析型crm系统.pdf_第2页
(模式识别与智能系统专业论文)构建基于数据仓库支持的分析型crm系统.pdf_第3页
(模式识别与智能系统专业论文)构建基于数据仓库支持的分析型crm系统.pdf_第4页
(模式识别与智能系统专业论文)构建基于数据仓库支持的分析型crm系统.pdf_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

昆明理工大学硕士论文论文摘要2 0 0 5 年2 月 摘要 面临知识经济的挑战,市场竞争日趋激烈,发现、赢得并保持客户是企业 在知识经济下生存的必要的重要条件。企业的销售策略也从传统的“以产品为中 心”逐步向“以客户为核心”进行转变,为此,许多国内外公司开始提出和实施 客户关系管理方案( 以下简称c r m ) 。但是,面对企业领导层最关心的“重点客 户的发现、不同类型的客户购买分析、产品在不同时间和地方的销售状况”等等 这些决策分析问题,传统的运营型c r m 很难能给出客观的答案。 在这种情况下,在运营型c r m 中引入数据仓库( d a t a w a r e h o u s e 以下简称 d w ) 这一完整的、准确的、统一视角的数据平台从而使传统c r m 真正转变为可 以回答企业关心问题的分析型c r m 系统已成为必然。它能将c r m 中的间一粒度 级别的数据组成多维立方体( 以下简称c u b e ) ,并转化为知识,使其成为决策 的依据,从而也成为了分析型c r m 的基础和核心。本文通过对c r m 目标的分析, 研究了数据仓库的需求设计、建立数据仓库的关键流程以及如何构建面向c r m 的数据仓库系统,最后给予了一个实例实现。在这个实例中本文主要做了如下工 作:数据仓库的建造与维护、数据转换、联机分析处理( o n l i n e a n a l y s i s p r o c e s s 以下简称o l a p ) 多维分析结果的显示。 构建基于数据仓库的分析型c r m 系统,企业和商家可以广泛收集信息,采 用o l a p 和数据挖掘技术对这些信息进行多维度和层次的统计分析,有针对性 对不同类型和地区的客户采取不同销售策略,提供更加个性化,深入化的服务, 从而为企业赢得成功。 关键词:c r m :数据仓库;o l a p ;多维立方体 垦望里三查兰堡主堡皇= 笙塞垫鐾= 二 一型堕兰垦兰垦一 a b s t r a c t c o n s t r u c t i n ga n a l y t i c a lc r ms y s t e m b a s e d0 ns u p p o r to fd a t a 协r e h o u s e a b s 仃a c t : i nt h ef a c eo fc h a l l e n g eo fk n o w l e d g ee c o n o m y ,c o m p e t i t i o no fm a r k e ti s b e c o m i n gm o r ed r a s t i c ,d i s c o v e r i n g 、w i n n i n ga n dr e t a i n i n gc u s t o m e r s i sai m p o r t a n t a n dn e c e s s a r yc o n d i t i o nf o re n t e r p r i s es u r v i v i n gi nc i r c u m s t a n c eo fk n o w l e d g e e c o n o m y s a l es t r a t e g yo fe n t e r p r i s ei sa l s og r a d u a l l yc h a n g i n gf r o m “p r o d u c t sa s c e n t r e ”t o “c u s t o m e r sa sc o r e ”,t h e r e f o r em a n yd o m e s t i ca n do v e r s e a sc o m p a n i e s b e g i n t op u tf o r w a r da n di m p l e m e l a tc r mp r o j e c t 。a f f r o n t i n gt h e s ed e c i s i v ea n a l y t i c a l p r o b l e m ss u c ha sd e t e c t i n gi m p o r t a n tc u s t o m e r s 、p u r c h a s i n ga n a l y s i so fd i f f e r e n t k i n do fc u s t o m e r s 、s a l es t a t eo fd i f f e r e n tp r o d u c t sa n dd i s t r i c t st h a tl e a d e r s h i po f t e n p a ym o r ea a e n t i o nt o ,h o w e v e rc o n d i t i o n a lo p e r a t i o n a lc r m i sd i f f i c u l tt og i v e o b j e c t i v es o l u t i o n s i nt h ec a s e ,i n t r o d u c i n gt h ed a t aw a r e h o u s e ( d a t aw a r e h o u s e ,f o rs h o r td w ) t h a t i si n t a c t ,a c c u r a t ea n du n i f 舛t a gt h ev i s u a la n g l et h ed a t u mp l a t f o r mi nc r m ,a n d t r a n s l a t er e a l l yc o n d i t i o n a lc r mi n t oa n a l y t i c a lc r mt h a ta n s w e re n t e r p r i s ea t t e n t i v e p r o b l e m ,h a sa l r e a d yb e c o m ei n e v i t a b l e i tc a nm a k et h ed a t ao fr a n ko ft h es a m e g r a i ns i z ei nc r m b u i l dc u b e ,t u r ni n t ok n o w l e d g e ,m a k e si tr e a l l yb e c o m et h eb a s i s o fd e c i s i o n ,h a v eb e c o m ef o u n d a t i o na n dc o r eo fa n a l y t i c a lc r mt o o t h r o u g ha n a n a l y s i so fc r mg o a l ,t h i st e x tr e s e a r c hd e m a n da n dd e s i g no fd a t aw a r e h o u s e ,s e t u pk e yp r o c e d u r eo fd a t aw a r e h o u s ea n dh o w s t r u c t u r et h ed a t aw a r e h o u s es y s t e m f a c i n gc r m ,r e a l i z ea i n s t a n c ef m a l t y t h i st e x th a sd o n et h ef o l l o w i n gw o r km a i n l y i n t h i si n s t a n c e :c o n s t r u c t i n ga n dm a i n t a i n i n gd a t aw a r e h o u s e ,c h a n g i n gd a t ao f w a r e h o u s e ,o n l i n ea n a l y s i sp r o c e s s ( f o rs h o r to l a p ) m u l t i d i m e n s i o n a ld i s p l a yo f a n a l y s i sr e s d t c o n s t r u c t i n ga n a l y t i c a lc r m b a s e do i ld w , e n t e r p r i s e sa n dt r a d ec o m p a n yc a n i i 昆明理工大学硕士论文论文摘要2 0 0 5 年2 月 c o l l e c ti n f o r m a t i o ne x t e n s i v e l y , a d o p to l a pa n dt h ed a t ae x c a v a t et e c h n o l o g yt ot h e s t a t i s t i c a la n a l y s i so fc a r r y i n go nm u l t i d i m e u s i o nd e g r e ea n dl e v e lo fi n f o r m a t i o n , a d o p td i f f e r e n ts a l e st a c t i c st o t h ec u s t o m e ro ft h ed i f f e r e n tk i n d so fa n da r e a p o i n t e d l y , o f f e rm o r ei n d i v i d u a l i z e d ,t h es e r v i c eo fm e l t i n gt h o r o u g h l y ,t h u se a r i l s u c c e s sf o re n t e r p r i s e k e y w o r d s :c r m ;d a t aw a r e h o u s e ;o l a p ;c u b e u l 昆明理工大学硕士论文目录2 0 0 5 年2 月 图表目录 图2 1c r m 的内涵图5 图2 2c r m 系统体系结构图6 图2 3c r m 功能结构图7 图2 4 数据仓库中数据组织方式8 图2 5d w 的体系结构9 图2 6 星型模型1 0 图2 7 雪花模型1 0 表3 1 客户信息表部分字段2 0 表3 2 订单信息表部分字段2 0 表3 3 订单明细表部分字段2 0 表3 4 客户总体维度表2 1 表3 6 产品销售维度表2 1 图3 6 产品销售星型雪花模型2 2 图4 1c r m 源数据库e r 模型2 5 图4 2c r m 数据库表的关系图2 6 图4 3 客户管理2 7 图4 4 客户信息更新:“2 7 图4 5 客户产品星型雪花模型3 2 i 蛩4 6d t s 包3 3 图4 7 转换数据任务属性设置3 3 图4 8 衍生度量值属性设置3 4 图4 9d t s 包执行3 4 图4 1 0 多维数据集3 6 图4 。1 1c u b e t e s t 展示图3 7 圈4 1 2c u b e t e s t 在e x c e l 里展示图“3 8 闺4 1 3c u b e t e s t 在e x c e l 里展示柱图3 8 l 昆明理工大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下( 或 我个人) 进行研究工作所取得的成果。除文中已经注明引用的内 容外,本论文不合任何其他个人或集体已经发表或撰写过的研究成 果。对本文的研究做出重要贡献的个人和集体,均已在论文中作了明 确的说明并表示了谢意。本声明的法律结果由本人承担。 学位论文作者签名:;二瓣平移 日 期:三一,年,月5 日 关于论文使用授权的说明 本人完全了解昆明理工大学有关保留、使用学位论文的规定,即 学校有权保留、送交论文的复印件,允许论文被查阅,学校可以公布 论文的全部或部分内容,可以采用影印或其他复制手段保存论文。 ( 保密论文在解密后应遵守) 导师签名 连垒星丝 日 期: 垄翌s 生 ! 月! 妾 旦 注:此页放在封面后,目录前。 昆弱理工太学硕士论文第一章2 0 0 5 年2 胃 1 1 课题研究的背景 第一章绪论 随着信息科技的进步和网络、通讯技术的发达,使信息处理速度快速而成本 低廉。全球各地可以在几秒钟之内就完成信息的交换,促使全球成为一个经济体 系,即经济全球化。同时,各国竞相加入w t o 后。贸易壁垒相应减少和消除。 以上二点因素使得各国企业的竞争对手,不再限于国内同一产业的厂商,而是全 球的厂商,从而使得企业面临着前所未有的竞争压力。然而比较而言,发达国家 的企业具有更为雄厚的资金实力、丰富的管理经验和先进的技术手段;发展中的 国家的企业在资金实力、管理和技术手段上就逊色不少。但是,无论是发达还是 发展国家企业如果不借助先进的管理思想转变经营观念、深度把握最终消费者、 把握客户和渠道成员、深化服务内涵、改进服务手段,原有产品都将难以产生新 的吸引力,经营效益的持续增长将愈发困难。 在这种情况下,企业开始转变自己的销售策略,相应将传统“以产品为中 心”经营模式逐步转变为“以客户为核心”经营模式。为了满足这种经营模式, 许多机构和国内外公司开始提出客户关系管理方案( c u s t o m e rr e l a t i o n s h i d m a n a g e m e n t :c r m ) 。借助于c r m ,企业想实现“提供正确的产品( 服务) ,提 供给正确的客户,以正确的价格,在正确的时间,通过正确的渠道去满足客户的 需要和愿望”,从而想为企业赢得较高的客户保留度和客户盈利能力。 显而易见,c r m 蕴藏着无限商机,是企业生存和超速发展取之不尽、用之 不竭的动力源泉。因此,对c r m 准确理解及快速运用必将提高企业的核心竞争 力。事实上,国际上先期采用c r m 企业已获得极高的超额利润,国内企业已敏 锐地意识到这种紧追性与压力,迅速掀起了一场学习、研究、应用c r m 热潮【7 1 。 1 2 客户关系管理( c r m ) 国内外研究概况 客户关系管理概念,最早于1 9 9 7 年由美国计算杌技术咨询集团g a r 恤e 以r o u p 提出( 5 】成为企业界、r r 行业最热门的话题。然而,目前还没有个国际公认的 昆明理工大学硕士论文第一章= 2 0 0 5 年2 月 c r m 定义,但肯定的是c 州本质上还是管理学上的术语( 7 】。只是由于c r m 是由 i t 咨询机构提出并伴随大量的软件厂商的c r m 系统产品的市场运作,c r m 常被 习惯认为是一种软件系统,日p c r m = 软件,于是就出现了许多混乱的理解误区。 在此,笔者更愿意对c r m 作如下理解:c k m 是在管理理念下的一套商业应用程 序的集合,用于管理企业的客户管理、客户服务、市场销售和营销。 在c r m 研究领域,笔者从三个方面介绍当前的研究状况。 1 ) c r m 理论研究还没有形成学科体系。c r m 本身仍是一个i t 和管理界持 续争议的命题。c r m 理论提及的“客户为中心、客户的忠诚度和偏好度、客户 满意度”概念仍十分模糊。c r m 成败的绩效衡置系统仍有待研究。同时,包含 了员工关系管理、客户关系管理和供应商关系管理等新的概念如x r m ( e x t e n d e d r e l a t i o n s h i pm a n a g 锄e n t ) 即拓展关系管理不断出现。 2 ) c r m 系统设计方面日新月异。基于w e b 的应用和b s 结构成为主流, 开放式的技术架构、应用软件的整合、建立客户互动式的架构、灵活的可升级的 机制、可靠的商业智能等研究不断深入。 3 ) 目前c r m 系统许多架构在数据库的基础上。这种机制可以满足企业对客 户资源集中管理的需要,但是面对企业领导层最关心的“重点客户的发现、不同 类型的客户购买分析、产品在不同时间和地方的销售状况”等等这些决策分析问 题,以数据库为基础的c r m 很难能给出客观的答案。也就是说,当前许多c r m 仅是操作型c r m ,而不是分析型的c r m 。 1 3 数据仓库技术的研究和应用现状 1 3 1 数据仓库技术的研究现状 “数据仓库( d a t a w a r e h o u s e :d w ) ”这个名词首次出现在2 0 世纪8 0 年代中 期“数据仓库之父”w i l l i a mh i n m o n 的( b u i l d i n gt h ed a t a w a r e h o u s es y s t e m ) ) 一 二抟,并指出数据仓库的特点是“数据仓库中的数据是面向主题的、高度集成的、 不可更新的( 稳定) 并随时间不断变化的,建立数据仓库的目的是为了更好地支 持决策分析”囝。数据仓库技术是一个广义的概念,它包括数据仓库、o l a p 等 等。它们之间并没有明显的分界。由于数据仓库技术是适应决策分析系统的需要 2 昆明理工大学硕士论文第一章2 0 0 5 年2 月 而产生的,所以引起了学术界的极大兴趣,国际上许多重要的学术会议和学术机 构,如超大型数据库国际会议( v l d b ) ,数据挖掘组织( d a t a m i n i n gg r o u p ) 等,常 常专门来讨论、交流数据仓库( d a t aw a r e h o u s e 。简记为d w ) 、联机分析处理 ( o n l i n ea n a l y t i c a lp r o c e s s i n g ,简记为o l a p ) 技术【1 0 1 。目前,对于数据仓库的各 个领域的研究都很活跃。对数据转换、数据清理、异种数据源的处理、外部接口 的标准化以及数据可视化的应用成为了目前的研究热点1 3 。 1 3 2 数据仓库技术的应用现状 数据仓库技术是适应决策分析系统的需要而产生的,但是对数据仓库技术大 部分是以往都停留在理论研究上,在应用上的程度往往不够,直至u c r m 的出现 改变了一切【l1 。传统的操作型c r m 积累了大量的操作型数据,有较多的信息资 源,这也是数据仓库应用存在的理由:另一方面,传统操作型c r m 不能回答企 业领导层最关心的“大客户的发现、不同类型客户购买分析、产品在不同时间和 地方销售状况”等这些决策分析问题。这为数据仓库应用在c r m 中创造了条件。 在这种情况下,在c r a m 中引入完整韵、准确的、统一视角的数据仓库( d a t a w a r e h o u s e ) 解决方案已成为企业的呼声。因为它是c r m 的数据集成、客户分析、 面向客户的战略决策基础与前提。它能将c r m 中的同一粒度级别的数据转化为 知识,使其真正成为决策分析的依据,也成为了分析型c r m 的基础和核心。现 在国际上各大数据库厂商纷纷宣布产品支持数据仓库并提出一整套用以建立和 使用数据仓库的解决方案:比如s y b a s e 公司的交互式数据仓库解决方案: m i c r o s o f t 公司数据仓库解决方案等等【引。国内尚没有成熟的数据仓库解决方 案的推出,没有成熟的数据仓库产品f2 0 1 ,国内企业的应用主要在对数据仓库解 决方案的选择上。同时,国内企业在数据仓库应用上存在更大的误区是把数据仓 库当成一个现成的、可以直接买来使用的产品。而没有把它当作是在整个企业 范围内建立统一协调的全局信息环境的庞大工程【4 】 2 h 。在数据仓库技术分支技 术数据挖掘产品上,国外有i b m 的i n t e l l i g e n tm i n e r , s a s 的e n t e r p r i s em i n e r 等等, 形式各异,功能也有较大的差别,目前国内尚没有成熟的数据挖掘系统,但正处 于积极的完善和推广阶段,比如,复旦大学正在研究开发的d b m i n e 系统i 2 11 等等。 针对当前的c r m 和数据仓库的研究与应用现状,本论文首先采用主流的 昆明理工大学硕士论文第一章_ 2 0 0 5 年2 月 w e b 应用和b s 结构在j 2 e e 框架下设计了一个运营型c r m 系统,接着对如何 实现面向c r m 的数据仓库支持系统使之成为分析型c r i v l 进行了研究。 1 4 本研究的工作和意义 1 4 1 本研究的工作 在考虑到c i 蝴系统设计方面日新月异,基于w e b 的应用和b s 结构已成为主 流;研究开放式跨平台软件的集成和整合、建立客户互动式的架构、灵活的可升 级的机制、可靠的商业智能等不断深入下,本研究的工作就是首先构建一个基于 业界推荐j 2 e e 框架下b s 模式的c r m 系统的原型,接着通过对c r m 目标的分析, 研究了数据仓库的需求设计、建立数据仓库的关键流程以及如何构建面向c r m 的数据仓库系统,从而使操作型c r m 成为了架构在数据仓库基础之上的分析型 c r m ,最后。基于本研究给予了一个实馁实现。在这个实例中本文圭要做了如 下工作:数据仓库的建造与维护、数据转换、o l a p 多维分析结果的显示分析。 1 4 2 研究的意义 课题研究的琶抟和意义是数据仓库和o l a p 技术在c r m 中钓实际应用,实 现一定程度的商业智能。通过c r m 的实施,企业能够对销售的状况有更深层的 把握,在这个基础上,提出有效的措施。能够提高客户的保留度,提升企业的竞 争力,实现利润的最大化。 数据仓库弥补了原有的数据库的缺点,将原来的以单一数据库为中心的数 据环境发展为一种新的企业决策分析型环境,这点完全可以在2 2 节中数据仓 库与数据库区别、作用上得到体现。它使得数据的组织形式从传统关系型的二维 结构转变为数据立方体的多维结构,并提前汇总了大量的常用统计操作,以各统 计和分析。 o l a p 是基于d w 的信怠分析处理过程,是d w 的用户接口部分,它不象 o l t p 一样对响应时闰要求非常高,用户也不需要很深的s q l 知识就可使用。它 使得实时的多角度观察客户、销售数据成为可能,以满足需要实时把握数据动态 变化的循求。 4 昆明理工大学硕士论文第一章 2 0 年2 月 w e b 应用和b ,s 结构在j 2 e e 框架下设计了一个运营型c r m 系统,接着对如何 实现面向c r m 的数据仓库支持系统使之成为分析型c r m 进行了研究。 1 4 本研究的工作和意义 1 4 1 本研究的工作 在考虑捌c r m 系统设计方面日新月异,基于、b 的应用和b s 结构已成为主 流;研究开放式跨平台软件的集成和整合、建立客户互动式的架构、灵活的可升 级的机制、可靠的商业智能等不断深入下,本研究的工作就是首先构建一个基于 业界推荐j 2 e f a 框架下b 唇漠式的c r m 系统的原型,接着通过对c r m 且标的分析, 研究了数据仓库的需求设计、建立数据仓库的关键流程以及如何构建面向c r m 的数据仓库系统,从而使操作型c r m 成为了架构在数据仓库基础之上的分析型 c r m 。最后,基于本研究给予了一个实例实现。在这个实例中本文主要做了如 下工作:数据仓库的建造与维护、数据转换、o l a p 多维分析结果的显示分析。 1 4 2 研究的意义 课题研究的目的和意义是数据仓库和o l a p 技术在c r m 中的实际应用,实 现一定程度的商业智能。通过c r m 的实施,企业能够对销售的状况有更深层的 把捶,在这个基础上,提出有效的措施,能够提高客户的保留度,提升企业的竞 争力,实现利润的最大化。 数据仓库弥补了原有的数据库的缺点,将原来的以单一数据库为中心的数 据环境发展为一种新的企业决策分析型环境,遮一点完全可以在2 2 节中数据仓 库与数据库区别、作用上得到体现。它使得数据的组织形式从传统关系型的二维 结构转变为数据立方体的多维结构,并提前汇总了丈量的常用统计操作,以备统 计和分析。 o l a p 是基于d w 的信息分析处理过程,是d w 的用户接口部分它不象 o l t p 一样对响应时间要求非常高,用户也不需要很深的s q l 知识就可使用。它 使得实时的多角度观察客户、销售数据成为可能,以满足需要实时把握数据动态 使得实时的多角度观察客户、销售数据成为可能,以满足需要实时把握数据动态 变化的需求。 昆明理工大学硕士论文第二章 2 0 0 5 年2 月 第二章客户关系管理及数据仓库技术 2 1 客户关系管理( c r m ) 的简介 2 1 1c r m 的内涵 在第一章已经指出c r m 首先是一种管理理念,是一种由多种技术手段支持 的、通过以客户为中心达到提高企业竞争力的商业策略。其内涵指在合适的时间、 以合适的价格、将合适的产品或服务提供给合适的客户,以满足他们的需要【l ”, 如图2 1 所示。 2 1 2c r m 的目标 c r m 目标,是对客户资源以及起辅助作用的各种活动进行管理,达到了解 客户、分析客户、传递客户价值、其最终目标在于企业与目标客户建立一种长期 的、互惠互利的关系。c r m 系统是帮助实现c r m 目标的工具。 c r m 辅助企业全面改善客户关系【1 2 】【1 3 】 c r m 实现客户关系的业务自动化:c r m 的功能中包含了销售、服务、 客户管理,提供了自动化的业务处理能力。提高工作效率,是操作型c r m 的基 本目标。此外,c r m 的工作流机制,可减少因为工作交接造成的延误和误差, 提高企业对客户的响应速度。 c r m 实现了企业的协同工作:有了信息沟通和统一的业务信息数据库, 在员工之间减少了缺乏信息交流造成的重复工作:在部门之间,消除了信息孤岛, 各个部门协同工作,形成合力。将市场、销售和客户服务紧密的融合在一起。 c r m 帮助企业提升客户关系:c r m 用来存储各种客户信息,便于员工 快速查询客户信息,帮助企业识别出企业的价值客户及客户分类,从而有针对性 昆明理工太学颤士论文第二章二 2 0 0 5 年2 月 地采取相应的行动。分析型c r m 提供了客户统计分析功能。提供了解客户的多 维视角 1 ,帮助企业分析客户的销售行为特征,发现客户潜在的需求,让企业 “比客户自身更了解客户”,从而有的放矢进行销售,增加客户满意度。 2 1 3c r m 的系统体系结构 c r m 作为当今国内企业应用领域的最新热点之一,广泛采用了大量最新的 计算机技术,遵循软件分层及现代软件架构的特点【1 4 o 本研究的c r m 系统采用 j 2 e e 框架运用主流的基于w e b 的应用和b s 结构。整个系统分为四层:c l i e n t ( 客 户端卜p r e s e n t a t i o n ( 表现层卜一a p p l i c a t i o n ( 应用,业务层) 一d a t e b a s e ( 数据层) 。对应 这四层分成是b r o w s e 卜w 曲s e r v e r _ a p p l i c a t i o ns e r v e r - - d a t a b a s es e r v e r ,如图 2 2 所示。采用的技术数据层为m ss q l s e r v e r 2 0 0 0 ,应用层与表现层为w e b l o g i c 7 0 , 客户端为i e 6 0 ,使用e j b 、j s p 实现整个逻辑与展示。 捌盘2 = e i i | l l 系娩体系馅犄盟 2 1 4c r m 的功能结构分析 c r m 系统一般由客户管理子系统、销售管理子系统、服务管理子系统、市 场营销子系统等构成。其功能可以归纳三个方面:对客户管理、销售管理、服务 管理和市场营销等几部分业务流程的信息化;与客户进行沟通所需要的手段( 如 电话、传真、网络、e m a i l 等) 的集成和自动化处理:对上面两部分功能所积累 下的信息进行加工处理,产生客户统计、分析、决策等智能【1 5 l 。其功能结构图 如图2 3 所示。 从以上c r m 的内涵、目标、体系结构和功能结构可以看出,c r m 不仅是 要消除客户、销售部门之间的信息孤岛,来实现对客户、服务、销售资源的集中 管理,更重要的是能产生客户统计、分析、决策等智能。在传统以数据库为基础 6 昆明理工大学硕士论文第二章一 2 0 0 5 年2 胃 的操作型c r m 难以达到这方面要求时,为分析决策应运而生的数据仓库技术自 然吸引了人们的视线。 图2 3c 蹦功能结构图 2 2 数据仓库( d w ) 技术原理 数据仓库是在目前企业存在多个部门级不同的数据库环境而这些数据库环 境又不能解决管理层需要的决策分析问题情况下提出的。数据仓库的建立不是取 代数据库,两者的目标不同,即事务处理数据库在企业的信息环境中承担的是日 常操作型处理,而d w 是用于支持高层决策分析【2 】【1 6 】的,并能将原来以数据库 ( d a t a b a s e :d b ) 为中心的数据环境发展为一种新的企业决策分析型环境: 它可以将企业不同的存储方式和不同平台的数据源( 库) 集成为一体化的数据环 境,为企业管理层提供统一、准确、相同视角的平台:它在c r m 的数据查询、 图形表示、数据报表的分析易用性方丽比d b 而言更能满足管理层的要求;它 的数据组织方式是数据立方体的多维结构面非传统关系型的二维结构;对 c r m 某个主题的分析常涉及到d b 中2 5 以上的行,由于d w 提前汇总了大量 常用的统计操作和分析,因此d w 能节省了系统资源和计算时间。 2 2 1 数据组织和d w 的体系结构 ( 1 ) 数据组织 数据仓库中的数据是面向主题的、集成的、不可更新的( 稳定的) 并随时 间不断变化的数据集合【2 】。d w 可以将企业分布不同的平台和不同存储方式的数 据源建立一体化的数据环境,并且其面对是企业管理层而不是计算机领域人员, 7 昆明理工大学硕士论文第二章2 0 0 5 年2 月 前者必然对数据查询、查询界面、数据的表示方面比对数据库提出更高的要求。 因此,d w 中的数据组织也与数据库采用关系二维表数据组织方式不同,它是用 多种维度组成的立方体( c u b e ) 来对数据进行组织,图2 4 是一个三维的c u b e : 圈2 4 数据仓库中数据维织方式 维度c u b e 的数据组织方式一方面为用户提供了多维观察的视图,另一方面 还可以进行一维或多维集合运算,例如按城市计算总销售量和排序。同时,时间 维还是一个有特殊意义的维,它对决策的趋势分析很重要is 。针对c u b e ,运用 不同的o l a p 分析方法如旋转( p i v o t i n g ) 、切片( s l i c ea n dd i c e ) 、上钻( r o l lu p ) 和下钻( r o l ld o w n ) 等也比较方便。 ( 2 ) d w 的体系结构 数据仓库是一个企业数据管理环境,而不是一件可以直接购买的产品,d w 厂商提供的仅仅是d w 的解决方案,该方案了包括一系列的关键性信息,可以 用来管理并引导企业如何构建d w 从而走向最可能的获利之路。数据仓库的体 系结构一般由数据源、数据仓库管理系统、和分析工具三个部分组成,分别对应 了数据层面中的数据、信息以及决策三个层次,如图2 5 所示。 数据源:d w 的数据源并不是来自终端用户( e n du s c r ) 每天输入的数据, 而是企业长期经营下分布在不同异构环境下的如客户、销售、营销、服务等操作 型c r m 和e r p 的o l t p 数据。 数据仓库管理系统:1 ) d w 的数据管理,首先进行数据建模,确定主题 和数据源。2 ) 进行d w 的数据摘取、清理、转换和加载,最后划分维数,将无 关联的数据转换到数据仓库中有明确主题的统一数据视图中。3 ) 元数据管理, 元数据描述的是d w 的c u b e ,包括索引名、关键字、转换规则和控制信息等。 分析工具:用于完成实际决策问题所需要的过程中各种数据的查询、报 窨 昆明理工大学硕士论文第二章 2 0 0 5 年2 月 表工具;多维数据的o l a p 分析工具;d m 工具等,咀实现不同的d s s 的需求。 一,一。_ _ - 一一一一+ 一一一一一。一一。一一一一一一一。一一一一+ 一 一粤! :! d w 笪堡委塑j 2 2 2d w 的主题性 1 9 9 3 年“数据仓库之父”w i l l i a mh i n l :t l o n 就指出数据仓库是面向主题的数 据集合,指明了d w 主题性【l 2 1 。其实主题是一个抽象的概念( 如客户主题、销 售主题,这也是本研究的主题) ,是在较高层次上将企业信息系统中的数据综合、 归类后进行分析利用的抽象。在逻辑意义上,它是对应企业中某一宏观分析领域 所涉及的分析对象,是针对某一决策问题而设置的。面向主题的数据组织方式, 就是在较高层次上对分析对象数据的一个完整、一致的描述,能完整及统一地刻 茴各个分析对象所涉及的有关企业的各项数据,以及数据之间的联系。 目前,d w 主要在关系数据库基础上实现的。每个主题由一组关系表或逻辑 视图实现。这些表和视图的内容与原来各个运行系统数据源的数据本质是一致 的,只不过是按主题方式来对数据结构进行了重组,目的为了支持分析数据处理。 2 2 3 d w 的数据模型 进行关系型数据库设计时,一般采用实体关系( e r ) 模型,应用关系理论的 范式理论,对数据模式进行所谓的规范化处理,其目的是为了减少数据冗余,消 除关键数据操作( 如插入、删除和更新等) 可能引起的异常,提高数据插入、删 除和修改等操作的效率。而数据仓库环境中,数据一次性装入数据库中,一般不 9 昆明理工大学硕士论文第二章2 0 0 5 年2 月 再进行插入或更新等操作,而是根据系统对数据周期的要求,采用批处理方式进 行数据整理,对过时的数据进行粗粒度汇总,以支持复杂的分析查询决策的需要, 因此d w 在设计时不是运用e r 模型,而采用的是星型和雪花模型设计方式。 ( 1 ) 星型模型 大多数d w 都采用星型模型来表示多维概念模型。数据库包括一个“事实 表”,“事实表”中存放中事实数据,事实数据是指因为公司的经营而生成出来的, 而且这些数据是不会随着时间而改变1 1 7 】。每一个事实数据是一维,对应每一维 都有一个“维表”。事实表中的每条元组都包含有指向各个维表的外键和一些相 应的测量数据,维表中记录的是有关这一维的属性。图2 6 就是一个简易客户销 售情况的d w 的星型模型。 雏表 事实表 维表维表 事实表维表 圈2 6 星型模型圈2 7 雪花模型 从图2 6 中可以看出,事实表中的每一个元组只是包含了一些指针( 即外键) , 而对应的主键分别放在不同的表中。如“客户号”放在“客户地区维表”中。如 果对“客户收入状况”进行分析,还可以再建一个“客户收入维表”,同时把“客 户号”放在“客户收入维衰”中。在数据仓库模型中执行查询的分析过程,需要 花大量时间在相关各表中寻找数据。而星型模型使数据仓库的复杂查询可以童接 通过各维的层次比较、上钻及下钻等操作完成。在图2 6 事实表中还有数量、总 价度量值,这是一些已预处理的综合数据,其目的是以提高查询分析的速度。 ( 2 ) 雪花模型 雪花模型是对星型模型的扩展如果某个顶点有多个归类层次,就形成雪花 模型。它对星型模型的维表进一步层次化,原有的备维表可能被扩展为小的事实 表,形成一些局部的“层次”区域。它的优点是:通过最大限度地地减少数据存 储量以及联合较小的维表来改善查询性能。缺点是降低了系统的通用程度。图 l o 昆明理工大学硕士论文第二章 2 0 0 5 年2 月 2 7 就是一个雪花模型,它是在保持图2 7 星型模型的基础上,对“同期标识” 维、“产品”维进一步扩展,从而成为雪花片状。 2 2 4 d w 的元数据 在2 2 1 节中已简单提到元数据。元数据是关于数据的数据,是以主题、层 次等形式建立的信息结构,且记录数据对象的位置。 一般来讲,只要有程序和数据,元数据就应该是信息处理环境的一部分。在 d w 中,元数据的作用相当于d b 系统中的数据字典。但元数据的作用远不是数 据字典所能比拟的,有着举足轻重的作用。它能支持以下几种d w 管理功能。( 1 ) 数据仓库内容的描述:( 2 ) 定义数据抽取和转换;( 3 ) 基于商业事件的加载调度。 许多d w 研究者已经发现,元数据可以有效地处理各种各样的数据结构。 随着人们对数据仓库元数据的曰益关注,确实需要一种元数据标准来帮助管 理制造商进行元数据信息交换。元数据标准可以保证共享数据的一致性。美国技 术支持小组s c l 4 、a n s i 的x 3 l 8 等组织都涉及到了d w 的元数据标准,并试图 开发管理共享数据的元数据模型【矧。 2 2 5d w 的数据集成( e t l ) d w 需要广泛的数据来源,仅就企业内部的数据源而言,因企业业务系统是 在不同背景、面对不同应用、不同开发商等各种不同客观重要条件下建立的,缺 乏统一的标准,其数据结构、存储平台存在很大的异构性【2 4 】【2 5 】。因此,必须在 d w 中进行数据集成,也就是d w 体系结构图中的抽取、清理、转换、加载过程。 ( 1 ) e t l 是数据仓库建立中的核心过程 e t l 是指从源系统中抽取数据( e x t r a c t ) ,转换数据为一个标准格式 ( t r a n s f o r m ) ,加载数据到数据仓库( l o a d ) 中。e t l 的主要作用是屏蔽复杂的 业务逻辑,从而为各种建立在数据仓库基础上的分析和应用提供了一个统一的数 据接口,这也是构建d w 的意义所在3 9 1 。e t l 负责完成数据从数据源到目标数 据仓库转化的过程,是实施d w 最重要的步骤,它的规则设计与实施占了整个 d w 的工作量的6 0 左右 2 6 1 。 昆明理工夫学硕士论文第二章 2 0 0 5 年2 月 ( 2 ) e t l 过程中集中体现 规范化数据格式,可实现字段格式约束定义,对于数据源中的时间、数 值、字符等数据,可自定义数据格式。 拆分数据,依照业务需求可以对字段进行分解。例:主q 号为 8 6 1 0 2 3 4 5 6 7 8 9 ,可以进行区域号和电话号码分解。 合并数据,可以将两个字段合并为个字段。例:对外国人姓和名是两个 不同的字段,而在d w 中可以将姓和名合并为中国人习惯的姓名一个字段。 对数据进行运算,可以依靠分析与决策的需要,可以对多个数据组合起 来参与运算。例:在一个客户销售数据库中仅仅记录了单价和销售数量,而没有 销售总额,这时可以将单价和数量一起来计算不同地区客户的销售总额。 2 3 数据仓库使用技术 2 3 1o l a p 技术及其多维数据分析 由于联机事务处理( 0 l 1 p ) 己不能满足终端用户对数据查询分析的需要, 1 9 9 3 年关系数据库之父e ,e c o d d 提出了多维分析的概念,即o l a p t l 8 1 1 1 9 1 , o l a p 是一种针对特定问题对大容量数据进行联机数据访闯和数据分析的技术。它满足 从多角度对数据进行一致、快速、交互地分析,成为d w 的一种主要使用技术。 o l t p 与o l a p 之间有着完全不同的区别。前者是面向操作人员,支持日常 操作;原始的,细节的,当前的数据:是事务驱动:可更新;数据处理量不。而 后者恰好相反,是面向决簸人员,支持管理需要;导出其不意的,综合的,历史 的数据;是分析驱动的;不可更新,但它是周期性刷新;数据处理量大l3 1 。 ( 1 ) “多维分析”是o l a p 的灵魂 “维”( d i m e n s i o n ) 是人们观察客观世界的角度,是一种高层次的类型划分, 在d w 中,就是通过“维”来进行数据组织著成为c u b e 的。“维”是d w 与 o l a p 的核心概念。通过将事物的不同的多种属性定义为多个维,或者说是用多 个维来描述一个对象,每个维彼此垂直,数据的测量值发生在每个维的交叉点上, 使用户能运用o l a p 对不同维上的数据进行比较。 维有自己固有的属性,如层次结构( 年、季、月) 、排序等。同时,数据空 昆哽理工大学硕士论文第二章 2 0 q s 年2 月 间的各个部分都有相同的维属性,这种特点对进行决策分析时是非常有用的。 ( 2 ) o l a p 多维分析操作 对d w 中数据组织多维数据集c u b e ,有不同的o l a p 分析方法如旋

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论