(计算机软件与理论专业论文)商业智能技术在客户服务中心crm系统中的研究与实现.pdf_第1页
(计算机软件与理论专业论文)商业智能技术在客户服务中心crm系统中的研究与实现.pdf_第2页
(计算机软件与理论专业论文)商业智能技术在客户服务中心crm系统中的研究与实现.pdf_第3页
(计算机软件与理论专业论文)商业智能技术在客户服务中心crm系统中的研究与实现.pdf_第4页
(计算机软件与理论专业论文)商业智能技术在客户服务中心crm系统中的研究与实现.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(计算机软件与理论专业论文)商业智能技术在客户服务中心crm系统中的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

学位论文独创性声明 本人所呈交的学位论文是我在导师的指导下进行的研究工作及 取得的研究成果。据我所知,除文中已经注明引用的内容外,本论文 不包含其他个人已经发表或撰写过的研究成果。对本文的研究做出重 要贡献的个人和集体,均已在文中作了明确说明并表示谢意。 作者签名: 日期:竺阻 学位论文授权使用声明 本人完全了解华东师范大学有关保留、使用学位论文的规定,学 校有权保留学位论文并向国家主管部门或其指定机构送交论文的电 子版和纸质版。有权将学位论文用于非赢利目的的少量复制并允许论 文进入学校图书馆被查阅。有权将学位论文的内容编入有关数据库进 行检索。有权将学位论文的标题和摘要汇编出版。保密的学位论文在 解密后适用本规定。 学位论文作者签名: 日期: 摊嘲笔 吲m 1 日期:珥! 三,7 华东师范大学2 0 0 8 届硕士学位论文商业智能技术在客户服务中心c 跚系统中的研究与实现 摘要 实施客户关系管理对提高企业核心竞争力有着重要的作用,尤其是在专业为 客户提供服务的客户服务中心,c r m 系统的应用可以帮助提高企业工作效率, 增加服务竞争力。随着客户服务中心c r m 系统的逐步推广应用及客户数据的膨 胀发展,把商业智能融入其中成为了c r m 系统发展的必然趋势。依赖商业智能 技术中的数据仓库与数据挖掘技术,能够把这种面向日常应用的数据转化成对于 企业管理人员有价值的信息,并有效地处理大量数据信息,从中获得有关知识。 本文结合微软内部成功实施的一个全球合作伙伴商业智能项目的实际应用, 建立了一套基于现有c r m 的商业智能系统。系统整合了来源于7 个不同地区的 c r m 数据库系统以及其它6 个重要数据源,建立了以客户数据为中心的数据仓 库和o l a p 数据立方体,提供2 4 * 7 的准确可靠的o l a p 数据访问,从而极大地 减少了各地区业务部门用在手动整合分析数据上的时间,在短期内提高2 0 0 的 数据分析效率的同时,节约了6 0 的人力成本,并且在长期看来可以获得更大的 价值。数据的整合还使得全球合作伙伴部门业务负责人能够在同样的标准下观察 各地区的数据,在最短的时间内做出最准确的业务决策。 同时,本文还研究并开发了嵌入c r m 系统中的数据挖掘分类应用模块,使 用微软决策树算法,用于进行客户获取预测。在实际应用中,可以帮助售前支持 工程师在成千上万的注册合作伙伴中,迅速找到最有可能购买付费服务的公司, 从而更好地进行具有针对性的售前技术服务支持,为企业创造更多利润。 本文的核心是为企业构建切实可行的基于c r m 的商业智能平台,并把c r m 中客户服务和销售的概念融合到平台应用中。本文还探讨了一些在企业商业智能 实际开发过程中会遇到的问题和需要注意的关键点,并提出了一定可行且可靠的 解决方案和思路。 【关键词】商业智能,客户关系管理,以客户数据为中心的数据仓库,数据 挖掘,微软决策树算法 华东师范大学2 0 0 8 届硕士学位论文商业智能技术在客户服务中心c 剐系统中的研究与实现 a b s t r a c t i ti sn e c e s s a r yt oc a r r yo u tc u s t o m e rr e l a t i o n s h i pm a n a g e m e n t ( c r m ) t o i m p r o v ee n t e r p r i s e s c o r ec o m p e t i t i o na b i l i t y , e s p e c i a l l yi nc a l lc e n t e r , w h i c hp r o v i d e s t h es p e c i a lt h ec u s t o m e rs e r v i c e c r mc a l li m p r o v et h ew o r ke f f i c i e n c yf o rc a l lc e n t e r a n dr a i s et h es e r v i c 4 ec o m p e t i t i o n w i t ht h eg r a d u a l l yg r o w t ho fc r mi nc a l lc e r l t e r b u s i n e s s ,m o r ea n dm o r ec u s t o m e rd a t ai sb e i n gs t o r e db a c k e n dd a t a b a s e s ,a p p l y i n g b u s i n e s si n t e l l i g e n c e ( b di nc r mb e c o m e st h ei n e v i t a b l et r e n d d e p e n d i n go nd a t a w a r e h o u s ea n dd a t am i n i n gt e c h n o l o g yi nb i ,t h ed a t af a c e dt od a i l yo p e r a t i o nc a nb e c o n v e r t e di n t ot h ev a l u a b l ei n f o r m a t i o ne n t e r p r i s em a n a g e r sr e q u i r e a n de v e nt h e d a t av o l u m ei sh u g e ,i tc a np r o c e s se f f i c i e n t l ya n do b t a i nt h ep o t e n t i a lk n o w l e d g e f r o md a t a c o m b i n e dw i t l las u c c e s s f u le x p e r i e n c ei nag l o b a lp a r t n e rb ip r o j e c ti n m i c r o s o f t ,t h ep a p e rp r e s e n t sab is y s t e mb a s e do ne x i s t i n gc r m ,w h i c hi n t e g r a t e s c r md a t af r o m7r e g i o n sa n d6i m p o r t a n tm a j o rd a t as o u r c e s ,a n dc o n t a i n sa c u s t o m e r - o r i e n t e dd a t aw a r e h o u s ea n do l a pc u b e s t h r o u g hp r o v i d i n g2 4 + 7 a c c u r a t eo l a pd a t aa g c a 3 s i t 咖d e c r e a s et h ew o r k i n gt i m eo nm a n u a ld a t aa n a l y s i s f o re a c hr e g i o n s i ns h o r tt e r m , i tw i l li n c r e a s ed a t aa n a l y s i se f f i c i e n c yb y2 0 0 ,a n d a tt h es a n l et i m ec u tt h eh u m a nc o s tb y6 0 ,w h i l ei tm a yb r i n gm o r ep o t e n t i a lv a l u e i nl o n gt e r m t h ei n t e g r a t i o no fd a t aa l s ob e n e f i t sw wp a r t n e rb u s i n e s sl e a d e rt o o b s e r v ed a t af r o ma l lt h er e g i o n su n d e rt h es a m ec r i t e r i o n , a n dm a k er i g h td e c i s i o n w i t h i ns h o r t e rt i m e m e a n w h i l e ,t h ep a p e ra l s od e v e l o p sad a t am i n i n gc l a s s i f i c a t i o nm o d u l ei n t o c r m s y s t e mu s e dt op r e d i c tn e wc u s t o m e r sw i t l lm i c r o s o f td e c i s i o nt r e e i t 咖h e l p p r e - s a l es u p p o r te n g i n e e r sf i n dt h em o s tp o s s i b l ep a r t n e r sw h o a r ew i l l i n gt ob u yt h e s e r v i c ef o rf e ef r o mt h eh u g ev o l u m e t h u s ,t h e yc a np r o v i d em o r ea m i a b l et e c h n i c a l s u p p o r ts e r v i c e ,w h i c hw i l lb r i n gm o r ep r o f i t sf o re n t e q _ r i s e t h ec o r ec o n t e n to f t h i sp a p e ri st ob u i l daf e a s i b l es o l u t i o no nc r a m - f o c u s e db i p l a t f o r mf o re n t e r p r i s e ,a n db r i n gt h ec o n c e p to f c r m c u s t o m e rs e r v i c ea n ds a l e si n t o p l a t f o r ma p p l i c a f i o n b e s i d e st h a t , t h i sp a p e ra l s od i s c u s s e ss o m ep r o b l e m sd u r i n gt h e b id e v e l o p m e n ti ne n t e r p r i s e , a n di n t r o d u c e ss o m ep o s s i b l es o l u t i o n sa n dt h o u g h t s k e yw o r d s b u s i n e s si n t e l l i g e n c e ,c r m ,c u s t o m e r - o r i e n t e dd a t aw a r e h o u s e , d a t am i n i n g , m i c r o s o f td e c i s i o nt r e e 华东师范大学2 0 0 8 届硕士学位论文商业智能技术在客户服务中心c p , m 系统中的研究与实现 1 1 研究背景 第1 章绪论 近十几年来,企业利用信息技术生产和搜索数据的能力大幅度提高,数据库 技术的迅速发展以及数据库管理系统的3 广泛应用使得企业积累的数据越来越 多,但事实上呈指数增长的是数据量而不是信息。面对“人们被数据淹没,同时 却仍然感到知识饥渴”的挑战,企业不满足于仅仅利用数据的表层信息,更希望 能够对其进行更高层次的分析,以便更好地利用这些数据。 随着市场经济的飞速发展,物质的极大丰富,产品逐步由卖方市场转变为买 方市场,产品销售的竞争日益激烈,于是为了提高客户的忠诚度和满意度,企业 对于客户服务中心的重视程度也在与日俱增。目前在客户服务中心,企业面临着 前所未有的挑战,每个部门都有自己庞大的客户信息库,产生了大量的业务数据, 这些数据不是为了分析的目的而收集的,而是由于商业运作而产生。分析这些数 据也不是为了研究的需要,而是为商业决策提供真正有价值的信息,进而获得理 论。但目前客户服务中心面l 临的一个共同问题是:信息数据量巨大,而如何整合 有效的数据,获取真正有价值的信息,寻找数据间的关联,提供深层次的归类的 预测分析。客户服务中心急切需要从大量的数据中进行深层分析,从而获得有利 于商业运作、提高竞争力的信息,单纯使用数据库技术无法将隐藏在数据背后的 重要信息挖掘出来利用,所以如何迅速、准确、有效但适量地提供用户所需的信 息,发现信息之前的潜在联系,支持管理决策就成为需要解决的课题。 作为提供专业客户服务的行业为了保持自己的竞争优势,纷纷建立信息畅 通、行动协调、反映灵活的客户关系管理( c i t m ) 系统。c r m 是指对企业和客 户之间的交互活动进行管理的过程。它能为企业提供全方位的管理视角;赋予企 业更完善的客户交流能力,最大化客户的收益率。客户关系管理的过程,说到底 就是对客户信息进行分析处理并做出决策的过程。客户关系管理软件并非普通的 企业管理软件,纵观客户关系管理软件产品,可以明显地看到决策支持系统和商 业智能系统是构成企业决策智囊团与加速器的重要基础。在瞬息万变的市场中, 缺少了商业智能系统的支持,企业的决策是无法迅速反应和有效做出的,这已经 成为不争的事实。因此,加强商业智能技术在c r m 中的应用研究,具有十分重 要的理论和现实意义。 华东师范大学2 0 0 8 届硕士学位论文商业智能技术在客户服务中心c 删系统中的研究与实现 1 2 相关领域研究现状 商业智能( b i ) 是2 0 世纪9 0 年代美国分析师所创造出来的新名词,不过, 它并不是一个凭空冒出的东西。b i 是在企业资源计划系统( e i 冲) 等信息化管理 工具的基础上提出的,是基于信息技术构建的智能化管理工具,它实时地对e r p 、 c r m 、供应链管理( s c m ) 等管理工具生成的企业数据进行各种分析,并给出 报告,帮助管理者认识企业和市场的现状,做出正确的决策。 近年来,商业智能技术日趋成熟,越来越多的企业决策者意识到需要商业智 能来保持和提升企业竞争力。在美国,5 0 0 强企业里面已经有9 0 以上的企业利 用企业管理和商业智能软件帮助管理者做出决策。国外己经有很多成功实施商业 智能的案例。我国的商业智能处于导入期,商业智能应用的程度和实际效果都与 国外企业有很大差距【l 】。 但从2 0 0 6 年开始,中国商业智能应用市场发挥势头强劲,市场规模不断扩 大,作为日益庞大、潜力无限的1 1 r 市场,金融、电信、政府、零售、制造、烟 草等的等多个行业对商业智能产品应用的全面爆发。随着更多国外厂商的进入、 国内厂商的陆续崛起,推动了市场进一步分化,竞争形势进一步加剧。在旺盛的 市场需求促使,国内外商业智能厂商纷纷革新技术方案、并推出突出行业化、个 性化特点的产品。各类商业智能产品的技术应用从最初操作层面的数据仓库为基 础的数据资源整合、共享,拓展到以满足企业运营决策所需的数据挖掘与更高层 面的战略决策所需预测计算。各主要行业对商业智能产品的需求更加多样化、复 杂化。并对产品理念的先进性、技术应用的实操性、总体方案的合理性等方面有 了更深的需求【2 】。 1 2 1 商业智能的应用行业 商业智能的应用领域非常广泛,典型的有电信、银行、保险、医疗、零售、 政府等,以及所有建立了数据仓库的用户。我国的商业智能应用还处于起步阶段, 仅在信息化程度偏高的电信、银行、保险、医疗等有应用。这一方面因为商业智 能是建立在数据仓库基础上的,我国大部分企业的信息化程度偏低,缺乏数据的 积累,而数据的积累需要一个较长期的过程。 商业智能的应用与行业内信息化的基础状况密切相关,实施商业智能的企业 中,以电信、金融行业的使用率较高。商业智能能带来较大价值的企业中,以制 造型企业最多,超过5 0 ;其次是零售业,为4 1 2 ;而政府机构对商务智能产 品或技术的使用价值低于其他软件产品。以目前制造型企业和零售业的低使用率 和高预期值来比较,这两个领域将是商业智能不可忽视的新市场。但不论是哪个 华东师范大学2 0 0 8 届硕士学位论文商业智能技术在客户服务中心c i l l 系统中的研究与实现 行业领域,服务都是当今企业发展不可忽视的重要环节,因此拓展商业智能在行 业领域客户服务中的纵深研究是必不可少的。 1 2 2 商业智能在行业内的纵深应用 商业智能在客户关系管理、信息化、竞争与决策等方面的研究相对较多。著 名商业智能公司b u s i n e s so b j e c t 的专家p a u lc l a r k 在分析商业智能与c r m 的关 系时认为:客户知识是c r a m 重要的核心组成部分,而商业智能是c r m 的智慧 所在,客户知识的获取与保存依赖于商业智能,商业智能是整个c r m 的基础【3 】。 商业智能是架构在e r p 之上的,而决策支持是在商业智能基础上的再扩展。 从基础架构的角度上看,商业智能数据库和e r p 有许多共通之处。但商业智能 和e r p 绝对不是同一事物或是同一事物体的两个方面,它们是互补的系统。它 们最大的共性就是,它们使企业运行得更有效率、响应更及时并易于整合。商业 智能建设的主要目标是企业决策支持。商业智能通过信息技术的运用在不同层面 为战略决策提供新的支持:提升决策者洞察力;支持信息获取与分析。 商业智能系统可以从以下方面帮助企业获取更大的竞争优势:显著提升企业 决策水平;识别优质客户,改善企业与客户关系;降低企业经营成本;创新业务 模式。 1 2 3 商业智能厂商和软件 目前市场上的商业智能厂商一般分为三大类:一类专门做商业智能软件的厂 商如b u s i n e s so b j e c t 、b f i o 、c o g n o s ;第二类是继承性的数据库厂商和统计软件 厂商,这类公司包括n c r 、m i c r o s o f t 、c a 、o r a c l e 、s y b a s e 、m m 、s a s 等;第 三类是一些管理软件厂商,如s a p 、博科、用友、金蝶等公司。 不同的人对商业智能的理解仍然不同。数据库服务商( 如o r a c l e 、i b m 、 s y b a s e ) 往往认为数据仓库是商业智能的核心,数据展示服务商( 如h y p e r i o n 、 b o 、c o g n o s ) 则认为商业智能就是联机分析( o l a p ) ,而数据分析服务商( 如 s a s 、s p s s ) 则认为数据挖掘才是商业智能的核心。 一般认为,选择合适的商业智能软件和厂商需要根据业务的实际需要和愿意 投入的成本。比如某企业的企业管理软件都是基于s a p 的,在成本允许的情况 下,使用s a p 的商业智能软件无疑是最为合适的。再比如某企业数据库系统使 用的是o r a c l e 的,但是它所处的行业对数据挖掘要求比较高,比如金融行业等, 它可能就需要配置s a s 的数据挖掘解决方案;又或是某企业数据库系统不是很 大,但是业务成长性较强,需要灵活的体系结构和展现,就可以采用b u s i n e s s 华东师范大学2 0 0 8 届硕士学位论文商业智能技术在客户服务中心c r m 系统中的研究与实现 o b j e c t 的解决方案,或者使用m i c r o s o f t 的e x c e l 作为展现。因此在商业智能行 业领域没有所谓最好的产品,只有最适合的。 在本文中,笔者涉及的项目是微软全球技术支持中心的一个内部项目,因此 使用的是微软的商业智能解决方案,它包括以下几部分组成,如下图所示【4 】: 图1 - 1 微软商业智能产品家族 f i g u r ei - im i c r o s o f tb u s i n e s si n m l f i g e n c ep r o d u c tf a m i l y 本文会提及b i 平台这一部分的产品与m i c r o s o f t d y n a m i c s 系统中的c r m 产 品,但对于面向客户应用的o f f i c es e r v e r 和b s m 不做介绍。 1 3 本文研究内容与组织架构 本文结合微软全球技术中心实际使用的商业智能项目,分析并研究基于 c r m 的商业智能系统在大中型企业客户服务中心的应用,包含以下几点: 1 1 基于c r m 的商业智能系统系统框架及体系结构; 2 ) 典型的商业智能应用项目开发流程; 3 1 如何整合包括c r m 数据库在内的企业内部不同地区的数据库系统,建立以 客户为中心的商业智能数据平台; 4 ) 如何处理在数据仓库整合及转换过程中遇到的问题; 5 ) 如何构建基于企业内部权级管理的不同级别o l a p 安全访问; 6 ) 如何在商业智能应用项目中协同开发,统一管理; 乃如何开发嵌入c r m 系统中数据挖掘应用模块。 华东师范大学2 0 0 8 届硕士学位论文商业智能技术在客户服务中心c r m 系统中的研究与实现 本文分为六章。第一章绪论部分介绍了论文研究背景和相关领域的研究现 状,以及本文结构;第二章介绍了商业智能的概念、体系结构和相关技术,以及 典型商业智能应用项目的流程模型;第三章介绍了客户关系管理中的商业智能, 包括客户关系管理的概念、功能与组成,以及商业智能在分析型c r m 中的应用 和价值;第四章重点介绍了基于c r m 系统的商业智能平台的实现,包括系统框 架、体系结构、数据的预处理、数据仓库的建立、o l a p 数据立方体的建立以及 开发过程中的协同管理,其中比较详细地解释了在数据仓库整合时可能出现的问 题以及解决方案:第五章在前几章的基础上,具体介绍了一个基于商务智能平台 的,嵌入c r m 系统中的数据挖掘应用,采用微软决策树分类算法,并可以对输 入数据进行预测;第六章对本文的工作进行了总结和展望。 1 4 本章小结 本章首先介绍了本篇论文的研究背景,以及商业智能的行业横向和纵向应 用,然后介绍了一些商业智能厂商及其软件,最后概括了本篇论文的研究内容和 组织架构。 华东师范大学2 0 0 8 届硕士学位论文商业智能技术在客户服务中心c 删系统中的研究与实现 2 1 商业智能的定义 第2 章商业智能理论 g a r t n e r g r o u p 将商业智能定义为一类由数据仓库( 或数据集市) 、查询报表、 数据分析、数据挖掘、数据备份和恢复等部分组成的、以帮助企业决策为目的的 技术及其应用。 i b m 认为商业智能是一系列由系统和技术支持的以简化信息收集、分析的 策略的集合,它应该包括企业需要收集什么信息、谁需要去访问这些数据、如何 把原始数据转化为最终导致战略性决策的智能、客户服务和供应链管理。 简言之,商业智能的本质是多种技术的综合体,所包含的技术有:数据库 ( d a t a b a s e ) 、数据仓库( d a t aw a r e h o u s i n g ) 、在线分析处理( o l a p ) 、数据挖掘( d a t a m i n i n g ) 、决策支持系统( d s s ) 、知识管理( k n o w l e d g em a n a g e m e n t ) 、人工智能 ( a r t i f i c i a li n t e l l i g e n c e ) 等。对数据的有效利用,发现其中的决策依据是商业智能 的核心内容。现如今,商业智能的概念已经不仅仅是软件产品和工具,而是整体 应用的解决方案,甚至升华成为一种管理思想,体现的是一种理性的经营管理决 策的能力,即全面、准确、及时、深入地分析和处理数据与信息的能力。 2 2 商业智能的体系架构及相关技术 一个商业智能系统为了满足企业管理者的要求,从繁多的信息中找出其关心 的数据,必须包含以下几步: 1 1 数据预处理:为了整合各种格式的数据,清除原有数据中的错误记录; 2 ) 元数据( m e t ad a t a ) 和数据仓库的管理:应该统一集中预处理过的; 3 ) o l a p 和数据挖掘的需求:对于集中起来的庞大的数据集,还应进行相应的 专业统计,从中发掘出对企业决策有价值的新的机会。 所以,一个典型的商业智能体系架构应该包含这3 步所涉及的相关需求,其 中核心技术在于数据预处理、数据仓库的建立、联机分析处理和数据挖掘三个部 分,如下图所示。 华东师范大学2 0 0 8 届硕士学位论文商业智能技术在客户服务中心c 跚系统中的研究与实现 一 b l 战略应用 b l 应用系统 b i 系统基础 事务处理系统 图2 1 典型的商业智能体系架构 f i g u r e2 - 1t y p i c a lb ia r c h i t e c n a 2 2 1 数据预处理技术 数据预处理技术也称数据的抽取、转换、装载( e 1 乙) ,可以从企业许多不 同运作系统的数据中提取出有用的数据并进行清理,以保证数据的正确性,然后 经过抽取( e x t r a c t i o n ) 、转换( t r a n s f o r m a t i o n ) 和装载( l o a d ) ,即e t l 过程, 合并到一个企业级的数据仓库里,从而得到企业数据的一个全局视图。 当早期大型的在线事务处理系统( o l t p ) 问世后不久,就出现了一种用于“抽 取”处理的简单程序,其作用是搜索整个文件和数据库,使用某些标准选择合乎 要求的数据,将其复制拷贝出来,用于总体分析。因为这样做不会影响正在使用 的在线事务处理系统,降低其性能,同时,用户可以自行控制抽取出来的数据。 但是,现在情况发生了巨大的变化,企业同时采用了多个在线事务处理系统,而 这些系统之间的数据定义格式不尽相同,即使采用同一软件厂商提供的不同软件 产品,或者仅仅是产品版本不同,数据的定义格式也有少许差距。由此,必须先 定义一个统一的数据格式,把各个来源的数据按新的统一格式进行转换,然后集 中装载入数据仓库中。 其中,并不是各个来源的不同格式的所有数据都能被新的统一格式包容,在 数据预处理的过程中不可能强求非要把所有数据源的数据全部集中起来,必须考 虑结合业务实际需求进行转换处理。比如有可能原来录入的数据中,少量的记录 使用了错误的数据,这类数据如果无法校正,应该被舍去;比如某些数据记录是 华东师范大学2 0 0 8 届硕士学位论文商业智能技术在客户服务中心c r g 系统中的研究与实现 非结构化的,很难将其转化成新定义的统一格式,而且从中抽取信息必须读取整 个文件,效率极低,如大容量的二进制数据文件,多媒体文件等,这类数据如果 对企业决策不大,可以舍去等。 目前市场中专用的e t l 软件,包括:a r d e n td a t a s t a g e 、e v o l u t i o n a r y 、 t e c h n o l o g i 嚣i n c ( e t i ) e x t r a c t 、i n f o r m a t i o np o w e r m a r t 、s a g e n ts o l u t i o n 、s a s i n s t i t u t e 、o r a c l ew a r e h o u s eb u i l d e r 、m s s q ls e r v e r2 0 0 5i n t e g r a t i o ns e r v i c e 。 2 2 2 数据仓库技术 数据仓库概念是由号称“数据仓库之父 w i l l i a mh i n l t l o n 在上世纪8 0 年中期 撰写的建立数据仓库一书中首次提出,“数据仓库是一个面向主题的、集成 的、非易失性的,随时间变化的用来支持管理人员决策的数据集合”。数据仓库 和数据库是不一样的概念,它具有以下四个特点 f l : 1 ) 面向主题是数据仓库第一个显著特点,就是指在数据仓库中,数据按照不同 的主题进行组织,每一个主题中的数据都是从各操作数据库中抽取出来汇集 而成,这些与该主题相关的所有历史数据就形成了相应的主题域。 2 ) 数据仓库的第二个显著特点是集成。数据来源于不同的数据源,通过相应的 规则进行一致性转换,最终集成为一体。 3 ) 数据仓库的第三个特点是非易失性。一旦数据被加载到数据仓库中,数据的 值不会再发生变化,尽管运行系统中对数据进行增、删、改等操作,但对这 些数据的操作将会作为新的快照记录到数据仓库中,从而不会影响到已经进 入到数据仓库的数据。 舢数据仓库最后一个特点是它随时间变化。数据仓库中每一个数据都是在特定 时间的记录,每个记录都有着相应的时间戳。 与企业级的数据仓库相比,数据集市则是一种微型的数据仓库,它通常有更 少的数据,更少的主题区域,以及更少的历史数据,因此是部门级的,一般只能 为某个局部范围内的管理人员服务,因此也称之为部门级数据仓库。 数据集市有两种,即独立的数据集市( i n d e p e n d e n td a t am a r t ) 和从属的数 据集市( d e p e n d e n td a t am a r t ) 。所谓从属,是指它的数据直接来自于中央数据 仓库。显然,从属的数据集市的这种结构仍能保持数据的一致性。一般为那些访 问数据仓库十分频繁的关键业务部门建立从属的数据集市,这样可以很好地提高 查询的反应速度。独立数据集市,它的数据直接来源于各生产系统。许多企业在 计划实施数据仓库时,往往出于投资方面的考虑,最后建成的就是这种结构的独 华东师范大学2 0 0 8 届硕士学位论文商业智能技术在客户服务中心c 蹦系统中的研究与实现 立数据集市,用来解决个别部门比较迫切的决策问题。从这个意义上讲,它和企 业数据仓库除了在数据量大小和服务对象上有所区别外,逻辑结构并无多大区 别,这也是有人把数据集市称为部门数据仓库的主要原因。 一个典型的企业数据仓库系统,通常包含数据源、数据存储与管理、数据的 访问三个部分,其体系架构如下图所示。 数据存储与管理叶卜一数据访问 图2 - 2 典型的数据仓库体系架构 f i g u r e 2 - 2 t y p i c a l d a t a w a r e h o u s e a r c h i t e c t u r e 1 ) 数据源:是指企业操作型数据库中的各种生产运营数据、办公管理数据等内 部数据和一些调查数据、市场信息等来自外环境的数据总称。这些数据是构 建数据仓库系统的基础是整个系统的数据源泉。 2 ) 数据的存储与管理:数据仓库的存储主要由元数据的存储及数据的存储两部 分组成。 元数据是关于数据的数据,其内容主要包括数据仓库的数据字典、数据的定 义、数据的抽取规则、数据的转换规则、数据加载频率等信息。数据仓库对 外部数据源和操作型数据源的元数据,按照数据仓库模式设计要求进行归 类,并建成元数据库。各操作数据库中的数据按照元数据库中定义的规则, 经过抽取、清理、转换、集成,按照主题重新组织,依照相应的存储结构进 行存储。相对应的数据经过e t l 后加载到数据仓库中。当信息客户需要查询 数据时先通过信息展现系统了解元数据或者直接浏览元数据库,再发起数据 查询请求得到所需数据; 数据存储与管理也可以面向一些数据集市,数据集市可以看作是数据仓库的 圆圆圃圆 华东师范大学2 0 0 8 届硕士学位论文商业智能技术在客户服务中心c 刚系统中的研究与实现 一个子集,它含有较小的主题范围且历史时间更短数据量更少。 3 ) 数据的访问:由统计报表、即时查询、o l a p 、数据挖掘等几部分组成。为 了使数据仓库用户能有效的使用数据仓库中的信息,以实现深层次的综合分 析和决策。数据仓库系统要为用户提供一整套数据访问和分析工具,这些工 具不但要提供一般的数据访问功能,如查询、汇总和统计等,还要提供对数 据的深入分析功能,如数据的比较、趋势分析和模式识别等。而数据仓库的 数据访问和分析要在一定程度上面向企业的业务需求,所提供的数据是在业 务上有意义的信息,而不只是通用的数据查询和操作功能。 目前市场上主流数据仓库产品主要由b u s i n e s s o b j e c t s 、o r a c l e 、i b m 、s y b a s e 、 i n f o r m i x 、n c r 、m i c r o s o f t 、s a s 和c a 这九家软件公司包揽。 2 2 3 联机分析处理技术 联机分析处理( o l a p ) 的概念最早是由关系数据库之父e e c o d d 于1 9 9 3 年提出的,他同时提出了关于o l a p 的1 2 条准则。o l a p 的提出引起了很大的 反响,o l a p 作为一类产品同联机事务处理( o l t p ) 明显区分开来。 当今的数据处理大致可以分成两大类:联机事务处理o l t p ( o n - l i n e t r a n s a c t i o np r o c e s g n g ) 、联机分析处理o l a p ( o n l i n ea m l y t i c a lp r o c e s s i n g ) 。 o l t p 是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例 如银行交易。o l a p 是数据仓库系统的主要应用,支持复杂的分析操作,侧重决 策支持,并且提供直观易懂的查询结果。 o l a p 是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、 一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。o l a p 的目 标是满足决策支持或者满足在多维环境下特定的查询和报表需求,使使用者对企 业全方位状况理解和支持企业的决策。在数据仓库应用中,o l a p 应用一般是数 据仓库应用的前端工具,同时o l a p 工具还可以与数据挖掘工具、统计分析工具 配合使用,增强决策分析功能。o l a p 的技术核心是”维”这个概念【2 ”。 “维”是人们观察数据的特定角度,是一种高层次的类型划分。例如,一个 企业在考虑产品的销售情况时,通常从时间、地区和产品的不同角度来深入观察 产品的销售情况。这里的时间、地区和产品就是维。而这些维的不同组合和所考 察的度量指标构成的多维数组则是o l a p 分析的基础,可形式化表示为( 维l , 维2 ,维n ,度量指标) ,如( 地区、时间、产品、销售额) 。维”一般包 含着层次关系,这种层次关系有时会相当复杂通过把一个实体的多项重要的属 性定义为多个维度( d i m e n s i o n ) ,使用户能对不同维度上的数据进行比较。因此 华东师范大学2 0 0 8 届硕士学位论文商业智能技术在客户服务中心c r m 系统中的研究与实现 o l a p 也可以说是多维数据分析工具的集合。 o l a p 的基本多维分析操作有钻取( r o l lu p 、d r i l ld o w n 和d r i l lt h r o u g h ) 、切 片( s l i c e ) 和切块( d i c e ) 、以及旋转( p i v o t ) 、d r i l la j c l o s s 等。 1 ) 钻取是改变维的层次,变换分析的粒度。它包括向上钻取( r o l lu p ) 和向下 钻取( d r i l ld o w n ) 。r o l lu p 是在某一维上将低层次的细节数据概括到高层次 的汇总数据,或者减少维数;而d r i l ld o w n 则相反,它从汇总数据深入到细 节数据进行观察或增加新维。d r i l lt h r o u g h 使检索详细数据,表示多维数据 集单元中的数据从这些数据中汇总得到。 2 ) 切片和切块是在一部分维度上选定值后,关心度量数据在剩余维度上的分 布。如果剩余的维度只有两个,则是切片;如果有三个,则是切块。 3 、旋转是变换维的方向,即在表格中重新安排维的放置( 例如行列互换) 。通 过旋转可以使用不同的视角观察数据。 o l a p 有多种实现方法,根据存储数据的方式不同可以分为r o l a p 、 m o l a p 、h o l a p 。 1 ) r o l a p 表示基于关系数据库的o l a p 实现( r e l a t i o n a lo l a p ) 。以关系数据 库为核心,以关系型结构进行多维数据的表示和存储。r o l a p 将多维数据库 的多维结构划分为两类表:一类是事实表,用来存储数据和维关键字;另一 类是维表,即对每个维至少使用一个表来存放维的层次、成员类别等维的描 述信息。维表和事实表通过主关键字和外关键字联系在一起,形成了“星型 模式”。对于层次复杂的维,为避免冗余数据占用过大的存储空间,可以使用 多个表来描述,这种星型模式的扩展称为“雪花模式”。 2 ) m o l a p 表示基于多维数据组织的o l a p 实现( m u l t i d i m e n s i o n a l0 l a p ) 。以 多维数据组织方式为核心,也就是说,m o l a p 使用多维数组存储数据。多 维数据在存储中将形成“立方体( c u b e ) ”的结构,在m o l a p 中对“立方体” 的“旋转”、。切块”、“切片”是产生多维数据报表的主要技术。 3 ) h o l a p 表示基于混合数据组织的o l a p 实现( h y b r i do l a p ) 如低层是关 系型的,高层是多维矩阵型的。这种方式具有更好的灵活性。 4 ) 还有其他的一些实现o l a p 的方法,如提供一个专用的s q l s e r v e r 实例,对 某些存储模式( 如星型、雪片型) 提供对s q l 查询的特殊支持。 企业需要构建o l a p 模型,一般会遵循c o d d 博士提出的1 2 条准则,考虑 以下一些相关项卧6 】: 华东师范大学2 0 0 8 届硕士学位论文商业智能技术在客户服务中心c i c l l 系统中的研究与实现 表2 - 1o l a p 模型必要的项目及区分 t a b l e2 - 1n e c e s s a r yl t t n n si no l a pm o d e l 基本要素多维概念 提供直观的数据处理 存储能力 提供事前的计算 多样水准的o l a p 分析模型 c s 构造 透明性 多用户 特殊要素不规则的数据处理 o l a p 的结果可以存贮 提取大范围的价 处理大范围的价 提问要素问题的相关性 回答提问的一贯性 物理的水平自动修正 维维的同等性 没有限制的维和水平 没有限制的维的处理 主流的商业智能工具包括b o 、o r a c l eb i 、c o g n o s 、s a pn e t w e a v e rb i 、 b r i o 、s q ls e r v e ra n a l y s i ss e r v i c e 等。 2 2 4 数据挖掘技术 数据挖掘是数据库领域最重要的课题之一,国际上第一次关于数据挖掘与知 识发现的研讨会于1 9 8 9 年在美国的底特律召开,在此会议上第一次提出了知识 发现一次( k d d ,k n o w l e d g ed i s c o v e r yi nd a t a b a s e ) ,其描述定义是f a y y a d 等给 出的【7 】:数据库的知识发现是从数据库中识别出有效的、新颖的、潜在有用的、 以及最终可理解的模式的高级过程。但现在对如何定义数据挖掘存在着各种不同 的观点,一些学者认为数据挖掘和知识发现是等价的概念,两者的称呼不同只是 由于在不同的领域而己,人工智能领域习惯称之为k d d ,而数据库领域称之为 数据挖掘。但也有学者任务数据挖掘是知识发现过车观念中的一个步骤,这种观 点,只是把数据挖掘当作是知识发现过程的一部分。 华东师范大学2 0 0 8 届硕士学位论文商业智能技术在客户服务中心c 跚系统中的研究与实现 本文采用的是广义的定义,即数据挖掘( d a t a m i n i n g ) 就是从大量的、不完 全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的,人们事先不知道 的、但又是潜在有用的信息和知识的过程。这一过程是从数据当中发现趋势或模 式,目标是通过对大量数据的分类从而发现新的知识【1 9 】。 目前业内已有很多成熟的数据挖掘方法论,为实际应用提供了理想的指导模 型。其中,标准化的主要有三个:c r i s p d m ;p m m l ;o l ed bf o rd m 。 c r i s p d m ( c r o s s i n d u s t r ys t a n d a r dp r o c e s sf o rd a t am i n i n g ) 是目前公认的、 较有影响的方法论之一。c r i s p d m 强调,d m 不单是数据的组织或者呈现,也 不仅是数据分析和统计建模,而是一个从理解业务需求、寻求解决方案到接受实 践检验的完整过程。c r i s p d m 将整个挖掘过程分为以下六个阶段:商业理解 ( b u s i n e s su n d e r s t a n d i n g ) ,数据理解( d a t au n d e r s t a n d i n g ) ,数据准备( d a t a p r e p a r a t i o n ) ,建模( m o d e l i n g ) ,评估( e v a l u a t i o n ) 和发布( d e p l o y m e n t ) 。其框架流程 如下图所示i s : 图2 - 3c r i s p - d m 模型框架流程图 f i g u r e2 - 3c r i s p - d mm o d e lp r o c e s s 从技术层来看,数据挖

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论