(计算机软件与理论专业论文)数据挖掘在汽车经销企业crm中的应用研究.pdf_第1页
(计算机软件与理论专业论文)数据挖掘在汽车经销企业crm中的应用研究.pdf_第2页
(计算机软件与理论专业论文)数据挖掘在汽车经销企业crm中的应用研究.pdf_第3页
(计算机软件与理论专业论文)数据挖掘在汽车经销企业crm中的应用研究.pdf_第4页
(计算机软件与理论专业论文)数据挖掘在汽车经销企业crm中的应用研究.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

(计算机软件与理论专业论文)数据挖掘在汽车经销企业crm中的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 摘要 随着市场竞争的加剧,如何保持旧客户,发展新客户,是企业面临的新问题, 也是客户关系管理系统( c r m ) 面临的问题。汽车经销企业要与客户建立和保持一种 长期的、良好的伙伴关系,掌握客户资源、赢得客户信任、分析客户需求、提供 满意的客户服务,就要利用数据仓库、数据挖掘技术帮助汽车经销企业深层理解 客户及其购买行为。 本文根据数据仓库系统的物理结构和逻辑结构,深入分析了数据仓库系统的 结构和特点,分析了数据仓库系统中数据仓库的数据组织和一些相关的关键技术, 结合最新的数据仓库建模技术,建立完成了面向售后服务这一主题的数据仓库系 统,并给出了数据仓库多维数据集模型的详细设计,利用s q l s e r v e r 2 0 0 0 中的多 维数据集技术,方便地解决多维模型的数据结构。分析o l a p 原理和o l a p 的多 维数据的概念、结构和分析方法等,利用s q ls e r v e r2 0 0 0 中的a n a l y s i ss e r v i c e s 组件开发o l a p 系统,设计售后服务记录的多维数据集。利用m i c r o s o f to f f i c ew e b c o m p o n e n t s ( o w c ) 来实现对多维数据集的数据表现,然后对多维数据集进行分析。 利用数据仓库和数据挖掘技术帮助汽车经销企业深层理解客户及其购买行为, 缩短汽车经销企业的销售周期、降低销售成本、不断地满足客户更多的个性化的 服务。 关键词:客户关系管理;汽车经销企业;数据挖掘;数据仓库 英文摘要 t h er e s e a r c hb a s e d - o nt h ea p p l i c a t i o no fd mi nv e h i c l e d i s t r i b u t i o ne n t e r p r i s ec r m a b s t r a c t a l o n gw i t ht h em a r k e tc o m p e t i t i o ni n t e n s i f i e s ,h o wt ok e e po l dc l i e n t ,d e v e l o pn e w c l i e n t ,i ti san e wp r o b l e me n t e r p r i s ef a c e d a n di ti sa l s oap r o b l e mc r m ( c l i e n t r e l a t i o n s h i pm a n a g e ) f a c e d v e h i c l ed i s t r i b u t i o ne n t e r p r i s eh a v et oe s t a b l i s ha n dm a i n t a i na l o n g - t e r m ,b e t t e rp a r t n e r s h i pb e t w e e ne n t e r p r i s ea n dc u s t o m e r s ,a n dh a v et om a i n t a i n c l i e n t s r e s o u r c e s ,w i nc u s t o m e rc o n f i d e n c e ,a n a l y t i c a lc u s t o m e r sn e e d sa n dp r o v i d e s a t i s f a c t o r yc u s t o m e rs e r v i c e t h e yh a v et od e e p l yu n d e r s t a n dc u s t o m e r sa n dt h e i r p u r c h a s eb e h a v i o rt h r o u g hm a n a g e m e n tc u s t o m e ri n f o r m a t i o nb yd w ,d m t h i st h e s i sb a s e so i lt h ed a t aw a r e h o u s es y s t e m sp h y s i c a la n dl o g i c a lf r a m e w o r k , a n a l y z e st h ed a t aw a r e h o u s e sd a t ao r g a n i z a t i o na n dr e l a t e dt e c h n o l o g yi nt h ed a t a w a r e h o u s es y s t e m ,t h e nw eh a v ee s t a b l i s h e dt h ed a t aw a r e h o u s es y s t e mw h i c hv e h i c l e a f t e r s a l es e r v i c es u b j e c to r i e n t e d a n dt h i st h e s i sd r a w st h ed e t a i ld e s i g n a t i o na n d r e a l i z a t i o no nt h ed a t aw a r e h o u s em u l t i - d i m e n s i o nd a t as e t sb i n d i n gw i t hn e wd a t a w a r e h o u s em o d l i n gt e c h n o l o g y u s i n gs q ls e r v e r2 0 0 0i nt h em u l t i - d i m e n s i o n a ld a t a s e t s ,s o l u t i o nt h em u l t i d i m e n s i o n a ld a t as t r u c t u r em o d e lc o n v e n i e n t l y a n a l y z e st h e p r i n c i p l eo ft h eo i a pa n dm u l t i - d i m e n s i o n sc o n c e p t i o n ,s t r u c t u r e ,m e t h o d ,u s i n gs q l s e r v e r2 0 0 0a n a l y s i ss e r v i c e sc o m p o n e n ti nt h ed e v e l o p m e n to fo l a ps y s t e m s , d e s i g n e ds e r v i c er e c o r d so fm u l t i d i m e n s i o n a ld a t as e t s u s i n gm i c r o s o f to f f i c ew e b c o m p o n e n t s ( o w c ) t op e r f o r m a n c ed a t ao fm u l t i - d i m e n s i o n a ld a t as e t s ,t h e na n a l y z e t h em u l t i d i m e n s i o n v e h i c l ed i s t r i b u t i o ne n t e r p r i s eh a v et od e e p l yu n d e r s t a n dt h e i rc u s t o m e r sa n dt h e i r p u r c h a s eb e h a v i o rt h r o u g hm a n a g e m e n tc u s t o m e ri n f o r m a t i o nb yd w a n dd m ,s h o r t e n t h es a l e sc y c l e s ,r e d u c e dm a r k e t i n gc o s t s ,p r o v i d em o r ep e r s o n a l i z e ds e r v i c ef o rt h e i r 英文摘要 c u s t o m e r s k e yw o r d s :c u s t o m e rr e l a t i o n s h i pm a n a g e m e n t ( c r m ) ;v e h i c l ed i s t r i b u t i o n e n t e r p r i s e ;d a t am i n i n g ( d m ) ;d a t aw a r e h o u s e ( d w ) 大连海事大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:本论文是在导师的指导下,独立进行研究工作所取得的成果, 撰写成博d :硕士学位论文= = 麴握揎握垄遗奎经趟企些b 丛生的廛旦硒究:。 除论文中已经注明引用的内容外,对论文的研究做出重要贡献的个人和集体,均 已在文中以明确方式标明。本论文中不包含任何未加明确注明的其他个人或集体 已经公开发表或未公开发表的成果。 本声明的法律责任由本人承担。 论文作者签名:舒磊滩多月劬日 学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连海事大学研究生学位论文提交、 版权使用管理办法 ,同意大连海事大学保留并向国家有关部门或机构送交学位 论文的复印件和电子版,允许论文被查阅和借阅。本人授权大连海事大学可以将 本学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或 扫描等复制手段保存和汇编学位论文。 保密口,在年解密后适用本授权书。 本学位论文属于: 保密口 不保密口( 请在以上方框内打“”) 做作者签名锵 日期: 翩躲娟 臃习月) 汐日。 数据挖掘在汽:车经销企业c r m 中的应用研究 第1 章绪论 1 1 引言 随着我国加入w t o ,信息技术发展和网络化经济快速进步,传统的商业模式发生了 根本性的变化。受竞争同益激烈的商业环境影响,国家开始加大对企业信息化建设的支 持力度,越来越多的企业开始关注并实施信息化。有的企业是从头开始,有的企业是对 原有系统的升级改造。客户关系管理( c u s t o m e rr e l a t i o n s h i pm a n a g e m e n t ,c r m ) 是归 属于企业信息化建设的一个分支。c r m 之所以能受到重视,是因为良好的客户关系管理 对客户和企业都有益。客户从不断加强的c r m 中得到了更经济、快捷、周到的产品和服 务。优质的服务不仅令人愉悦,更能提高客户满意度、忠诚度。企业实施客户关系管理, 正是因为意识到了客户对企业的重要价值,企业只有不断地发现、吸引并留住有价值的 客户,才能在竞争中立于不败之地。 7 从前,企业以“产品为中心”的生存之道,弊端在于经营模式是主观的,缺少客观 的预测和对未来趋势的把握,过分强调产品的重要性,必然会忽略客户的价值,最后流 失的不仅仅是利润i 。而将“以客户为中心作为企业的发展战略,其原因显而易见, 只要企业发展就要有客户作为基础,无论是做产品还是为产品定位,最终面对的都是客 户。有了客户才可以树立企业形象,才能维系企业的发展和生存。尤其是新经济时代的 到来,客户已成为企业最重要的资产,是企业至关重要的成功因素和利润来源,谁把握 了客户谁就拥有了市场,促使企业战略从“以产品为中心”向“以客户为中心 转变【2 1 。 1 2 中国汽车市场现状 中国汽车市场不断扩大,汽车制造企业实力与日俱增,汽车经销商群体越来越庞大, 对于汽车销售行业来说,对客户及服务信息的管理越来越重要,主要原因有: ( 1 ) 汽车行业原有的等待式销售模式己经远远不能符合快速发展的汽车市场需要, 转变经营观念,变推销为营销,变被动等待客户为主动寻找客户,充分接触目标客户。 ( 2 ) 汽车整车销售利润下滑,逐渐转向后续汽车服务,包括汽车保险,上牌照,信 贷等等,以及汽车保养,维修等服务。客户管理可以以车主或汽车为单位建立客户档案, 第1 章绪论 记录其维护、维修以及配件更换历史,协助工程师工作,帮助公司实施客户忠诚度计划。 周全放心的服务使车主不会轻易更换汽车维护提供商,帮助汽车销售企业保障整体利润 来源。 根据国外的有关资料,汽车经销企业的利润来源中,售后服务占毛利大部分,而其 他的如汽车销售、零部件销售、二手车经营所得的利润却非常有刚3 4 1 。这说明售后服 务有很大的利润空间,而且由于销售整车终究受到市场容量的限制,而服务市场却有很 大的开拓余地。但汽车售后服务却存在着诸多的问题,如销售和服务脱节、维修保养价 格高、技术水平差、销售体制不规范等等。利用信息化提高汽车售后服务的水平和效率, 进行企业的成本控制和绩效考核,是汽车售后服务管理环节的重要内容。 ( 3 ) 伴随私人汽车拥有量的迅速增长,需要购买第二辆或者第三辆车的私人或者企 业客户越来越多。 随着汽车客户已经开始走向成熟,他们已经不仅满足于在经销商那里买到自己喜欢 的汽车,而更加关注于从他们第一次走进4 s 店开始的与销售人员的接触过程,或者是 第一次与呼叫中心进行的咨询性质的沟通,或是他们参加的车展活动以及试乘试驾活动 的质量等。对客户而言,他们选择和购买的汽车已经不只是代步工具,汽车更是展示其 身份地位与追求的象征。车子带给车主的不仅仅是方便,而是可以赢得别人羡慕和尊重 的物质载体,是自我价值的一种展现。有人这样说:“第一辆车是依靠销售人员卖给客 户的,第二辆车以及以后的产品是依靠优质的售后服务卖出去的【5 j 。” 因此,如何把握客户并提高售后服务是汽车经销企业的生存之本,如何更有效地把 握市场机遇,降低运营成本,维修成本,最大限度地满足客户的需求,为消费者提供完 善的售后服务也成为汽车经销企业关注的焦点。在行业竞争如此激烈的今天,只有既能 留住老客户、吸引潜在客户,又能管理好客户并服务于客户的汽车经销企业才能生存下 去。如何充分利用经销企业已有的宝贵信息实现这一目标,从而带来现实的经济效益和 良好的口碑,在行业中稳稳地站住脚跟呢? 数据仓库和数据挖掘技术成为解决这一问题的有效途径。 1 3 课题研究目标及内容 数据挖掘在汽车经销企业c r m 中的应用研究 通过对我国汽车行业的运作体系、以实现“以客户为中心”的客户关系管理系统进 行研究分析,并以最终更好地发展符合我国国情的汽车产业的目标。期望通过对国内外 的企业的客户关系管理的研究,及数据仓库和数据挖掘技术等相关领域的知识、理论的 学习研究的基础上,解决现实中的实际问题。如何充分运用日常经营中保存的宝贵数据 建立数据仓库、数据挖掘模块,如何在客户关系管理中的销售和售后环节充分利用现有 客户信息,帮助企业减少日常工作的成本,帮助高层管理者进行决策分析,甚至是对销 售人员进行销售和服务人员提供服务给予指导,以提高工作的效率。充分利用数据挖掘, 通过对以往经营数据的分析,挖掘出什么样的车型,什么样的配置,钟爱的客户群是哪 些,哪些客户喜欢哪种颜色的轿车,哪种客户更喜欢什么样的保养,挖掘在汽车装具方 面的应用,比如安装汽车座套和香水座之间的关联关系等等。充分挖掘可能的客户群体, 为广告宣传、投资去向做出支持,提高交叉销售的机会。 1 4 本文主要工作 根据以上提出的问题,本文做了如下工作: ( 1 ) 研究了有关建立数据仓库系统定义的详细说明、组成部分( 即体系结构) 以及所需 要的相关技术;利用这些技术提出针对具体的汽车售后服务系统中的售后服务这一主题 的解决方案。 ( 2 ) 利用s q ls e r v e r2 0 0 0 中的多维数据集技术,方便地解决多维模型的数据结构。 ( 3 ) 利用s q ls e r v e r2 0 0 0 中的a n a l y s i ss e r v i c e s 组件开发o l a p 系统,设计并产生 汽车售后服务记录的多维数据集。 ( 4 ) 利用m i c r o s o f to f f i c ew e bc o m p o n e n t s ( o w e ) 来实现对多维数据集的数据表现。 ( 5 ) 利用数据挖掘工具c l e m e n t i n e 对日常销售数据进行挖掘分析,以帮助找到提高 交叉销售的机会。 第2 章数据仓库与数据挖掘技术 第2 章数据仓库与数据挖掘技术 2 1 数据仓库技术 大家公认的数据仓库创始人w h i n m o n 在他所著的建立数据仓库一书中对数据 仓库所下的定义:数据仓库( d a t aw a r e h o u s e ,d w ) 是面向主题的( s u b j e c t o r i e n t e d ) 、集 成的( i n t e g r a t e d ) 、反映历史变化i 拘( t i m e v a r i a n t ) 、相对稳定( n o n v o l a t i l e ) l 拘数据集合, 用于支持管理决策。数据仓库中的数据其有以下基本特征: ( 1 ) 面向主题( s u b j e c t o r i e n t e d ) 数据仓库中的数据是面向主题的。主题是一个抽象的概念,是在较高层次上将企业 信息系统中的数据综合、归类并进行分析利用的抽象。主题是企业决策者进行决策所关 心的业务的重点方面。面向主题的数据组织方式是在较高层次上对分析对象的一个完整 的、一致的描述,能够完整统一的描述各个分析对象所涉及的各项数据及数据之间的关 系。数据仓库内数据是按主题进行组织,以支持用户在主题范围内的有效决策。 ( 2 ) 集成化( i n t e g r a t e d ) 数据仓库的数据是从原有分散的数据库数据中提取出来的。这些数据是对操作型数 据进行清理和归整的结果,而不是简单的归并和拷贝。数据在进入数据仓库之前,必然 先经过加工和集成将原数据结构作一个从面向应用到面向主题的转变。 ( 3 ) 历史化( h i s t o r i c a l ) 数据仓库中的数据不仅是关于企业某一时点的信息,而是记录企业有效的历史数 据,以用于决策。数据仓库以时间为基准管理数据,允许用户回顾并了解公司的过去和 现在。 ( 4 ) 稳定性( s t e a d y ) 数据仓库的数据主要是为企业决策分析提供依据。一般情况下并不对数据进行修 改,数据仓库的数据是不同时间数据库数据快照的集合,而不是联机处理的数据。数据 仓库的数据不可更新是相对于o l t p 的操作型数据的频繁变化而言,并非是在数据仓库 生命周期过程中一直保持不变。当数据仓库中的数据己经超过数据存储期限时将会把这 数据挖掘在汽车经销企业c r m 中的应用研究 些数据从数据仓库中清除出去。 ( 5 ) 动态数据( d y n a m i c ) 数据仓库的数据必须不断捕捉o l t p 数据库中的数据变化,经统一集成后增加到数 据仓库中形成历史数据;另外数据仓库中的数据超过储存期限后需要删除。数据仓库内 大量的综合数据都与时间有关,这些数据需要随时间变化不断进行重新综合。 2 1 1 数据仓库的体系结构 数据仓库系统( d w s ) 由数据源、仓库管理和分析工具三部分组成,其体系结构如 图1 1 所示。 图2 1 数据仓库体系结构 f i g 2 1s y s t e ms t r u c t u r eo f d a t aw a r e h o u s e 可以看到,在一个数据仓库中,源数据来源于已有的生产系统,是操作型数据。提 供源数据的数据源可以是各种数据库管理系统,或各种格式的数据文件或外部数据源。 为了满足决策支持和深入分析的需要,数据要经过特别整理、加工和重新组织,然后装 载到一个或多个数据仓库的数据库中。用于完成实际决策问题所需要的各种查询检索工 具、多维数据的0 l a p 分析工具、数据挖掘d m 工具等,可以实现决策支持系统的各种要 求。目前,普遍采用的形式是三层结构,即在客户与服务器之间增加一个多维数据分析 服务器。0 l a p 服务器能加强和规范决策支持的服务工作,集中和简化原客户端和d w 服 务器的部分工作,降低系统数据传输量,因此工作效率更副倒。 第2 章数据仓库与数据挖掘技术 2 1 2 数据仓库中的数据组织 典型的数据仓库数据结构门分为四个级别:早期细节级、当前细节级、轻度综合级、 高度综合级。源数据经过综合后,首先进入当前细节级。并根据具体需要进行进一步的 综合,从而进入轻度综合级乃至高度综合级。由此可见,数据仓库中存在着不同的综合 级别。一般称之为粒度。粒度越大,表示细节程度越低,综合程度越高。 数据仓库中常见的数据组织形式1 l : ( 1 ) 简单堆积文件,将每日由数据库提取并加工的数据逐天积累并存储起来。 ( 2 ) 轮转综合文件,数据存储单位被分为日、周、月、年等几个级别。在一星期的七 天中,数据被逐一记录在每日数据集中。然后,七天的数据被综合并记录在周数据集中。 接下去的一星期,日数据集被重新使用,以记录新数据。周数据集达到五个后,数据再 一次被综合并记入月数据集,依此类推。 ( 3 ) 简化直接文件类似于简单堆积文件,但它是间隔一定时间的数据库快, j 掇, , ( d a t a b a s e s n a p s h o t ) ,如每隔一星期或一个月做一次。对于各种文件结构的最终实现,在关系数据 库中仍然要依靠表这种最基本的结构。 2 1 3 数据仓库构建方法和步骤 数据仓库是一个面向分析型处理的数据环境,从数据组织到面向主题的数据处理与 传统数据库有较大的区别。数据仓库设计大体可以分以下几个步骤,如图2 2 所示: 1 总体分析设计 元数擀乍成及符理 2 数据建楔 3 数挺仓j 乍乍成4 膨明i 维护l :设计二嚣黝:,应,碰= 矧| | 确定系统边界 概念模型设计 | 确定二卜燧城 一- 逻辑模型设计 啼接口一净化援 丌厌;5 “o 订i l | - 技术环境准备 : 一蕺翘摇u l - 敦锱挖期l - 物理模塑醴计 完穆维护系统| 载入数据 图2 2 数据仓库建构步骤 f i g 2 2 s t e p so fc o n s t r u c td a t aw a r e h o u s e 数据挖掘在汽车经销企业c r m 中的应用研究 在操作型环境中,系统设计人员能够清晰了解应用的需求和数据流程,系统设计一 般采用生命周期法,而在分析型环境中,设计人员要在与用户不断交流的基础上,逐步 明确与完善系统要求,数据仓库采用c l d s ( c y c l el i f ed e v e l o p m e n ts y s t e m ) 方法【1 2 4 3 1 。 2 1 4 数据仓库的多维数据模型和建模 数据仓库多维数据模型【1 4 】是数据的多维视图,它直接影响到前端工具、数据存储的 设计和o l a p 的查询引擎。在多维数据模型中,一部分数据是数字测量值( 如销售量、 投资额、收入等) ,它们是依赖于一组“维”的,这些维提供了测量值的上下文关系。 一般来说,时间维是一个有特殊意义的维,它对决策中的趋势分析很重要。 针对多维模型产生的o l a p 分析方法,一般有旋转、上钻和下钻及切片3 种方法: ( 1 ) 旋转( p i v o t i n g ) 。将表格的横、纵坐标交换( x ,y ) 一( y ,x ) ; 、 ( 2 ) 上钻和下钻( r o l lu po rd r i l ld o w n ) 。根据维的层次提升所关心的数据或降低观 察层次; ( 3 ) 切片( s l i c ea n dd i c e ) 。主要根据维的限定做投影、选择等数据库操作,从而 获取数据。 数据仓库建模的许多技术已逐渐形成,并且还在继续发展。比较流行的有三种技术: ( 1 ) 星型模型 星型模型是一种由一点向外辐射的建模范例,中间有一单一对象沿半径向外连接到 多个对象。星型模型反映了最终用户对商务查询的看法:销售事实、赔偿、付款和货物 的托运都用一维或多维描述( 按月、产品、地理位置) 。星型模型中心的对象称为“事 实表 ,与之相连接的对象称为“维表。对事实表的查询就是获取指向维表的指针表, 当对事实表的查询与对维表的查询结合在一起时,就可以检索大量的信息。通过联合, 维表可以对查找标准细剖和聚集。 一个简单的逻辑星型模型由一个事实表和若干个维表组成。复杂的星型模式包含数 百个事实表和维表。事实表包含基本的商业措施,可以由成千上万行组成。维表包含可 用于s o l 查找标准的商业属性,一般比较小。图2 3 给出一个在数据仓库中经常采用的 星模模型的例子。 第2 章数据仓库与数据挖掘技术 大多数数据仓库都采用“星型模型”来表示多维概念模型。数据库中包括一张“事 实表”,对于每一维都有一张“维表”。“事实表”中的每条元组都包含有指向各个“维 表”的外键和一些相应的测量数据。“维表 中的记录的是有关一维的属性。 订货单事实表产品表 图2 3 星型模型 f i g 2 3s t a rt y p em o d e l 从上图中可以看出,事实表中的第一元组包含一些指针( 是外键,主键在其他表 中) ,每个指针指向一张维表,这就构成了数据库的多维联系。 ( 2 ) 雪花模型 雪花模型每一点都沿半径向外连接到多个点,是对星型的维表进一步标准化,它的 优点是通过最大限度的减少数据存储量以及把较小的标准化表( 而不是大的非标准化 表) 联合在一起改善查询性能。由于采取了标准化及维的较低的粒度,雪花模型增加了 应用程序的灵活性。但雪花模型也增加了用户必须处理的表的数量,增加了某些查询的 复杂性。图2 4 给出了一个雪花模型的具体例子。 雪花模型要对星型模型的维表作进一步层次化,原有的各维表可能被扩展为小的事 数据挖掘在汽车经销企业c r m 中的应用研究 实表,形成一些局部的“层次 区域。它的优点是通过最大限度的减少数据存储量以及 联合较小的维表来改善查询性能。 订货单事实表 产品表 图2 4 雪花型模型 f i g 2 4s n o w f l a k et y p em o d e l ( 3 ) 混合模型 混合模型是星型模型和雪花模型的一种折衷模式,其中星型模型由事实表和标准化 的维表组成,雪花模型的所有维表都进行了标准化。在混合模型中,只有最大的维表才 进行标准化,这些表一般包含一列列完全标准化的( 重复的) 数据。 2 1 5o l t p 与o l a f o l t p ( o n - l i n et r a n s a c t i o np r o c e s s i n g ,联机事务处理) 系统也称为生产系统,它是 事件驱动、面向应用的。如银行的储蓄系统就是一个典型的o l t p 系统。o l t p 的基本 特点是:对响应时间要求非常高;用户数量非常庞大,主要是操作人员;数据库的各种 操作基于索引进行。 第2 章数据仓库与数据挖掘技术 o l a p ( o n 1 i n ea n a l y t i c a lp r o c e s s i n g ,联机分析处理) 【1 5 】是基于数据仓库的信息分析 处理过程,是数据仓库用户接口部分。是信息技术领域近年来悄然兴起的一种决策支持 手段。如何使隐藏在纷繁复杂的数据后面的信息具体化、可视化,是所有决策支持系统 诞生的源动力和追逐的目标。在众多的决策支持技术中,o l a p 技术以其直观的数据操 作、灵活的分析功能、可视化的结果表达等特点,在数据仓库技术的支持下得以脱颖而 出。它将企业从前台业务管理( o l t p ) 转向后台的决策分析,为企业各层次的管理人员提 供了多角度的便捷地探察企业数据的手段【1 6 d 7 】。 o l a p 工具是数据仓库解决方案中不可缺少的一部分,市场上有许多这类成熟的产 品,如n c r 的q u e r y m a n 、a n d y n e 软件公司的图形查询语言g q l 、b f i ot e c h n o l o g y 公 司的b r i oq u e r y 等。这些产品大都运行在w i n d o w s 环境下,具有友好的用户界面,通 过o d b c 驱动程序和t c p f l p 与数据库相连,是一种典型的c l i e n t s e r v e r 结构。 这些o l a p 工具的特点是用户不需要掌握很深的s o l 知识就可使用。用户提出问 题后,这些工具能自动加以分析,根据数据库模型产生s q l ,通过数据连接接口对服务 器数据库提出交易请求,然后将主机返回的结果以用户指定的方式显示出来。一般在本 地维护一个多维数据库,把结果保存在本地库中,因此可以离线工作。 2 2 数据挖掘技术 数据挖掘( d m ,d a t am i n i n g ) 就是从存放在数据库、数据仓库或其他信息库中大 量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不 知道的、但又是潜在的有用信息和知识的过程【1 8 】。提取的知识表示为概念、规则、规 律、模式等形式。这种定义把数据挖掘的对象定义为数据库,而更广泛的说法是:数据 挖掘是在一些事实或观察数据的集合中寻找模式的决策支持过程,数据挖掘的对象不仅 是数据库,也可以是文件系统,或其他任何组织在一起的数据集合。 数据挖掘的主要特征是对商业数据库中的大量业务数据进行抽取分析和模式化处 理,从中挖掘出辅助商业决策的关键信息和知识,即从一个数据库中自动发现相关商业 模式【1 9 1 。 2 2 1 数据挖掘的功能 数据挖掘在汽车经销企业c r m 中的应用研究 数据挖掘通过预测未来趋势及行为,作出基于知识的决策。数据挖掘的目标是从数 据库中发现隐含的、有意义的知识,主要可以分为以下六类功能: ( 1 ) 自动预测趋势和行为 以往需要进行大量手工分析的问题,如今借助数据挖掘可自动在大型数据库中寻找 预测性信息,由数据本身得出结论。一个典型的例子是市场预测问题,数据挖掘使用过 去有关促销的数据来寻找未来投资中回报最大的客户,其它可预测的问题包括预报破产 以及认定事件最可能作出反映的群体【2 0 1 。 ( 2 ) 关联分析 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值 之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联 分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即 使知道也是不确定的,因此关联分析生成的规则一般带有一定的可信度。 ( 3 ) 分类 分类可以找出描述并区分数据类别或概念的属性或模型,以便能够使用模型预测未 知的对象,导出模型基于对训练数据集的分类分析。一般利用决策树、粗糙集、b a y e s 分类、神经网络、遗传算法等技术进行分类。 ( 4 ) 聚类 数据库中的数据记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对 客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识 别方法和数学分类学。8 0 年代初,m c h a l s k i 提出了概念聚类技术其要点是,在划分对象 时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技 术的某些片面性1 2 1 1 。 ( 5 ) 概念描述 概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述 分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之 间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描 述的方法很多,如决策树方法、遗传算法等。 第2 章数据仓库与数据挖掘技术 ( 6 ) 偏差检测 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义【2 2 】。偏差包 括很多潜在的知识,如分类中的反常事例、不满足规则的特例、模型预测值与观测结果 的偏差、量值随时间的变化等等。偏差检测的基本方法是寻找观测结果与参照值之间有 意义的差别【矧。 2 2 2 数据挖掘与传统分析方法的区别 数据挖掘与传统的数据分析( 如查询、报表、联机应用分析) 的本质区别是数据挖掘 是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先未 知,有效和可实用三个特征。 先前未知的信息是指该信息是预先未曾预料到的,既数据挖掘是要发现那些不能靠 直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料, 就可能越有价值。在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩 尿布和啤酒之间有着惊人的联系。即尿布和啤酒的销售量相互关联,啤酒和尿布表面看 起来风马牛不相及,借助于数据仓库系统,商家发现孩子的母亲通常会在家中照顾小孩, 而父亲在购买尿布的同时,常常顺便帮自己买一些啤酒,沃尔玛将它们并排摆放在一起, 结果是尿布与啤酒的销售量双双增长。从这个例子我们可以看到数据挖掘的惊人表现。 2 2 3 数据挖掘的分类 ( 1 ) 归纳学习类 归纳学习类可分为基于信息论方法挖掘类( 如决策树分类方法等) 和基于集合论方 法挖掘类( 如粗糙集理论方法等) 。 ( 2 ) 仿生物技术类 可分为神经网络方法类和遗传算法类。 ( 3 ) 公式发现类 在科学实验与工程数据库中,用人工智能方法寻找和发现连续属性之间的关系,建 立变量之间的公式,从而把大量的数据概括在公式中。 ( 4 ) 统计分析类 数据挖掘在汽车经销企业c r m 中的应用研究 由于统计分析能对数据库中数据求出各种不同的统计信息和知识,所以也构成了数 据挖掘中的一大类方法。 ( 5 ) 模糊数学类 模糊数学是反映人类思维方式的数学概念。将模糊数学应用于数据挖掘中,就形成 了模糊数据挖掘类。如模糊聚类、模糊分类和模糊关联规则等。 ( 6 ) 可视化技术类 可视化技术是一种图形显示技术。对数据的分布规律进行可视化显示或对数据挖掘 过程进行可视化显示,会明显提高人们对数据挖掘的兴趣和挖掘效果【2 4 l 。可视化工具的 问题是模型可能有很多维或变量,但是我们只能在二维的屏幕或纸上展示它。 2 2 4 数据挖掘所发现的知识 数据挖掘所发现的知识最常见的有以下四类: ( 1 ) 广义知识 广义知识指类别特征的概括性描述知识【捌。根据数据的微观特性发现其表征的、带 有普遍性的、较高层次概念的、中观和宏观的知识,反映同类事物共同性质,是对数据 的概括、精炼和抽象。 广义知识的发现方法和实现技术有很多,如数据立方体、面向属性的归约等。数据 立方体还有其他一些别名,如“多维数据库、“实现视图”、“o l a p 等。该方法 的基本思想是实现某些常用的代价较高的聚集函数的计算,诸如计数、求和、平均、最 大值等,并将这些实现视图储存在多维数据库中1 2 7 1 。另一种广义知识发现方法是加拿大 s i m o n f r a s e r 大学提出的面向属性的归约方法1 2 8 】。这种方法以类s q l 语言表示数据挖掘 查询,收集数据库中的相关数据集,然后在相关数据集上应用一系列数据推广技术进行 数据推广,包括属性删除、概念树提升、属性阈值控制、计数及其他聚集函数传播等。 ( 2 ) 关联知识 关联知识是反映一个事件和其他事件之间依赖或关联的知识。如果两项或多项属性 之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。最为著名的关 联规则发现方法是r a g r a w a l 提出的a p r i o r i 算法。关联规则的发现可分为两步【2 9 l 。第 一步是迭代识别所有的频繁项目集,要求频繁项目集的支持率不低于用户设定的最低值; 第2 章数据仓库与数据挖掘技术 第二步是从频繁项目集中构造可信度不低于用户设定的最低值的规则。识别或发现所有 频繁项目集是关联规则发现算法的核心,也是计算量最大的部分。 ( 3 ) 分类知识 分类知识反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。 最为典型的分类方法是基于决策树的分类方法。它是从实例集中构造决策树,是一种有 指导的学习方法【3 0 1 。该方法先根据训练子集( 又称为窗口) 形成决策树。如果该树不能对 所有对象给出正确的分类,那么选择一些例外加入到窗口中,重复该过程一直到形成正 确的决策集。最终结果是一棵树,其叶结点是类名,中间结点是带有分枝的属性,该分 枝对应该属性的某一可能值。最为典型的决策树学习系统是i d 3 ,它采用自顶向下不回 溯策略,能保证找到一个简单的树。算法c 4 5 和c 5 0 都是i d 3 的扩展,它们将分类领 域从类别属性扩展到数值型属性【3 l 】。 数据分类还有统计、粗糙集( r o u g h s e t ) 等方法。线性回归和线性辨别分析是典型的 统计模型。为降低决策树生成代价,人们还提出了一种区间分类器。最近也有人研究使 用神经网络方法在数据库中进行分类和规则提取。 ( 4 ) 预测型知识 预测型知识根据时间序列型数据,由历史的和当前的数据去推测未来的数据,也可 以认为是以时间为关键属性的关联知识。 目前,时间序列预测方法有经典的统计方法、神经网络和机器学习等。1 9 6 8 年b o x 和j e n k i n s 提出一套比较完善的时间序列建模理论和分析方法,这些经典的数学方法通 过建立随机模型,如自回归模型、自回归滑动平均模型、求和自回归滑动平均模型和季 节调整模型等,进行时间序列的预测【翊。由于大量的时间序列是非平稳的,其特征参数 和数据分布随时间的推移而发生变化。因此,仅通过对某段历史数据的训练,建立单一 的神经网络预测模型,还无法完成准确的预测任务。为此,人们提出基于统计学和精确 性的再训练方法,当发现现存预测模型不再适用于当前数据时,对模型重新训练,获得 新的权重参数,建立新模型,也有许多系统借助并行算法的计算优势进行时间序列预测。 ( 5 ) 偏差性知识 此外,还可以发现其他类型的知识,如偏差型知识( d e v i a t i o n ) ,它是对差异和极端 数据挖掘在汽车经销企业c r m 中的应用研究 特例的描述,揭示事物偏离常规的异常现象,如标准类外的特例,数据聚类外的离群值 等。所有这些知识都可以在不同的概念层次上被发现,并随着概念层次的提升,从微观 到宏观,以满足不同用户不同层次决策的需要。 2 2 5 数据挖掘的过程 数据挖掘是一个完整的过程,该过程从大型数据库中挖掘先前未知的、有效的、可 实用的信息,并使用这些信息做出决策或丰富的知识【3 3 l 。数据挖掘的主要过程【弘3 6 1 如下: ( 1 ) 确定业务对象 清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后 结构是不可预测的,但要探索的问题应是可预见的,为了数据挖掘而数据挖掘则带有盲 目性,是不会成功的。 ( 2 ) 数据准备 数据的选择:搜索所有与业务对象有关的内部和外部数据信息,并从中选择出 适用于数据挖掘应用的数据。 数据的预处理:研究数据的质量,为进一步的分析做准备,并确定将要进行的 挖掘操作的类型。 数据的转换:将数据转换成一个分析模型。这个分析模型是针对挖掘算法建立 的。建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。 ( 3 ) 数据挖掘 对所得到的经过转换的数据进行挖掘。除了完善从选择合适的挖掘算法外,其余一 切工作都能自动地完成。 ( 4 ) 结果分析 解释并评估结果。其使用的分析方法一般视数据挖掘操作而定,通常会用到可视化 技术。 第3 章汽车经销企业c r m 系统整体架构 第3 章汽车经销企业c r m 系统整体架构 3 1c r m 的定义与内涵 客户关系管理_ _ ( c u s t o m e rr e l a t i o n s h i pm a n a g e m e n t 简称c r m ) 实际上是一个理念,是 企业的商业策略,涉及到企业内部资源、业务流程和技术三个方面。c r m 是一种通过 选择和管理客户,以实现客户价值不断优化的企业战略。它需要在企业内部建立以客户 为中心的企业文化,改变传统的以产品为中心的思路,将以产品为导向的组织机构和业 务流程转变为以客户为中心的组织机构和业务流程,从而保证有效支持企业营销、销售 和服务流程。因此,c r m 并不仅仅是信息技术,必须从企业的战略规划入手,通过信 息技术的手段,实现优化业务流程、提升客户满意度,进而达到提升企业效益的目的。 从技术层面来看,c r m 是通过有效整合企业资源和流程,建立面向客户的业务和 流程的信息系统。它通过前端的以客户为中心的工作流和后端客户智能的整合,为提升 客户价值提供了一个信息支撑平台。从业务层面来看,c r m 系统是通过建立面向客户 的营销、销售和服务流程,从而实现与客户的有效互动。从客户层面来看,c r m 为保 持客户体验的一致性,通过持续监测、评估和改进与客户的互动过程,最大限度提高客 户满意度和忠诚度。 客户关系管理基本思想和方法,由来己久。然而,随着网络经济、知识经济的迅猛 发展和全球市场竞争的日益激烈,人们在大量研究和实践的基础上对网络经济时代的 c r m 又赋予了新的内涵。 首先:力求在企业与客户之间建立和保持一种长期、良好的合作关系。c r m 的核 心是企业与客户的关系。在网络经济时代,企业完全按照市场和客户的需求生产各种产 品。产品品种规格繁多且更新换代快,市场物质极大的丰富,客户选择商品具有很大的 自主权,整个市场处于买方市场。此时的c r m 以企业获取利润最大化为目标,不仅要 强调以市场为导向,以客户需求为中心的基本思想,而且还要努力提高服务质量和客户 满意度,力求在企业和客户之间建立和保持一种长期、良好的合作关系,加速企业和社 会的发展。 数据挖掘在汽车经销企业c r m 中的应用研究 其次:制造商与经销商关系的实质双赢原则。由于许多制造商缺乏直接销售的 人力和财力,也由于批发商和经销商所具有的销售网络以及推销和促销活动的优势,所 以能有效的降低制造商的销售成本。 再次:客户资源是现代企业的主要资源之一。这一点已经被越来越多的企业所逐渐 认识。客户资源,主要包括:企业与客户的关系、客户的经营发展战略、销售收入、核

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论