




已阅读5页,还剩53页未读, 继续免费阅读
(机械工程专业论文)数据挖掘在汽车制造企业的crm中应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 数据挖掘在汽车制造企业的c 跚中应用 研究生姓名:周粉妹导师姓名:汤文成 东南大学机械工程系2 0 0 7 1 本文以亚星集团营销公司为案例。针对该公司目前在客户关系管理方面存在的许多问题,利用 数据挖掘技术挖掘出隐藏在客户信息背后的有用模式,用以改善营销管理中存在的各种问题。本文 先从数据挖掘的定义、功能、步骤、常用的软件等基本原理入手,接着介绍了客户关系管理的基本 原理;然后阐述了亚星集团营销公司c r m 与数据挖掘的集成框架,并在此基础上详细分析了各种数 据挖掘技术在c r m 系统中不同方面的应用,具体应用如下: 1 、利用决策树方法营销公司就可以依据决策模型将客户群分类,针对不同的客户群展开有针对 性的营销,比如可以大力展开针对经营状况一般的客户群的宣传推广活动,提高整机租赁的业务量。 2 、利用遗传算法找到了最大收益的客户群,营销公司就可以将具有该客户群特征的客户作为公 司的重点客户予以积极对待,防止这类客户的流失,同时积极寻找符合该特征的新的潜在客户,从 而极大限度的提高公司的收益。 3 、利用粗糙集方法寻找流失客户的特征,公司就可以未雨绸缪,提早防止客户流失的发生,最 大限度地保持住现有客户,在此基础上再不断发展新的客户。 4 、利用神经网络方法得出用于公司客户信用分析的神经网络模型,公司可以利用该模型对租赁 业务进行有效地营销和管理,降低租赁业务的风险,提高租赁业务的收益。 5 、利用关联规则方法挖掘用于公司交叉销售的规则,营销公司就可以在销售活动中制定出合理 的销售匹配方式,从而实现零部件产品的促销以及零部件产品库存的合理安排。 【关键 司】:客户关系管理数据挖掘数据仓库 i i i 英文摘要 a p p l i c a n 0 n0 fd a i 、am m f gi nc r m0 fc a r m a n lm a c n 瓜i n g b yz h o uf e n m e is u p e r v i s e db yp r o f e s s o rt a n gw e n c h e n g d e p a r t m e n to f m e c h a n i c a le n g i n e e r i n g ,s o u t h e a s tu n i v e r s i t y a u g2 0 0 7 t h isp a p e rt a k e st h ey a x i n gg r o u pm a r k e t i n gc o m p a n ya sae a s e m a n yp r o b l e m se x i s ti n t h ec u s t o m e lr e l a t i o n s h i pm a n a g e m e n ta tp r e s e n t t h i sp a p e ri n t e n d st oe x c a v a t et h eu s e f u l m o d eb e h i n dt h ec u s t o m e ri n f o r m a t i o n ,u s i n gd a t am i n i n gt e c h n o l o g yt os o l v et h ep r o b l e m s s t a r t i n gf r o mt h ed e f i n i t i o n 、f u n c t i o n s 、s t e p sa n dc o m m o np r o g r a m m e s ,t h i sp a p e rd e a l sw i t h t h eb a s i cp r i n c i p l e si nm a n a g i n gc u s t o m e rr e l a t i o n s h i pa n dt h ei n t e g r a t e df r a m eo ft h ec p o ! i ny a x i n sg r o u pm a r k e t i n gc o m p a n ya n dd a t am i n i n g ,o nt h eb a s i so fw h i c ht h ea p p l i c a t i o n o fv a r i o u sk i n d so fd a t am i n i n gt e c h n o l o g yi nd i f f e r e n ta s p e c t so ft h ec r m : 1 、u s i n gt h ed e c i s i o nt r e em e t h o d ,t h em a r k e t i n gc o m p a n yc a nd i r e c tt h em a r k e t i n gt o w a r d s v a r i o u sg r o u p so fc u s t o m e r s ,b a s e do nt h ed e c i s i o a - m o d et oc l a s s i f yt h e m f o re x a m p l e ,t h e c o m p a n yc 8 im a k eac a m p a i g nw i t ha v e r a g ec u s t o m e r sa sat a r g e tt oi n c r e a s et h ev e l u mo f c a r r e n ti n g 2 、u s i n gt h eg e n e t i ca l g o r i t h m ,t h ec o m p a n yc a nf i n dt h o s ec u s t o m e r sw h i c hb r i n gt h e g r e a t e s tb e n e f i t s ,t h u st r e a t i n gt h e md i f f e r e n t l ya sk e yc u s t o m e r s ,a n da tt h es a m et i m ef i n d n e wc u s t o m e r so ft h es a m ek i n dw i t h o u tl o s i n gt h ee x i s t i n go n e s ,t h u sb r i n g i n gp r o f i t st o t h el a r g e s te x t e n t 3 、u s i n gt h er o u g hc o l l e c t i o nm e t b 。d t h ec o m p a n yc a nf i n do u tt h ec h a r a c t e r i s t i c so f l o s i n gc u s t o m e r s ,t h u sp r e p a r i n gf o rt h er a i n yd a y ,k e e p i n gt h ee x i s t i n gc u s t o m e r sa sm u c h a sp u s s i b l e ,a n dg e t t i n gn e wc u s t o m e r s 4 、u s i n gt h en e u r a ln e t w o r km o d e l ,t h ec o m p a n yc a nb u i l dt h en e u r a ln e t w o r ko fc u s t o m e r c r e d i ta n a l y s is ,t h u sm a r k e t i n ga n dm a n a g i n gt h er e n t i n gb u s i n e s s ,d e c r e a s i n gt h er i s ka n d i n c r e a s i n gt h ep r o f i t s 5 、u s i n gt h ec o n n e c t i o nm e t h o d ,t h ec o m p a n yc a nf i n dt h ea l t e r n a t es a l ep r i n c i p l e s ,t h u s c r e a t i n gs a l em a t c h i n gm o d ei nm a r k e t i n gc a m p a i g n ,r e a s o n a b l ya r r a n g i n gt h em a r k e t i n ga n d s t o r a g eo fs p a r ep a r t s k e yw o r d s :c u s t o m e rr e l a t i o n s h i pm a n a g e m e n t ,d a t am i n i n g ,d a t aw a r e h o u s e 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过 的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并 表示了谢意。 研究生签名:f 蛰猃生叁日期:塑2 :! 阳 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内 容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可 以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权东南大学研 究生院办理。 研究生签名:l 虱麴盗 导师签名: 衫移蠹畎 日期:阳口) j - 妒 第一章绪论 第一章绪论 1 1 论文研究的背景和意义 在当今的商业环境中,竞争对手的增加、业务的多样化和经济的全球化使企业之间的竞争日益 激烈。新经济时代的到来,使得客户成为企业至关重要的成功因素和利润来源,谁把握了客户,谁 就拥有了市场。企业的战略正从“以产品为中心”向“以客户为中心”转变。他们已经意识到,只 有不断通过各种渠道加强与客户之间冉勺交流,并且不欠时机地从中获取有用信息,才能改善客户关 系,提高客户满意度,从而增强自身的核心竞争力,在竞争中立于不败之地。 由丁业务操作流程的自动化,许多企业的数据库或数据仓库中都搜集和存储了人量关于客户的 宝贵数据,这些数据涵盖了从客户基本数据、购买记录及客户反馈的各个环节。充分利用这些数据, 深入分析、挖掘隐含在这些数据中的有用信息,将有助于企业更好地管理客户关系,实现c r m 的 功能和目标。然而。由于缺乏在_ 人量数据中发现深层次信息的能力,许多企业对于这些数据的利用 还只是停留在基础层的浏览、检索、查询和应用层的继承、组合、整理等方面,而无法将这些数据 转化为更加有用的知识。如何更加有效地管理企业数据j 苇中快速增长的海量数据,将数据资源的利 崩提高到知识创新的高级阶段,已经成为企业当前需要迫切解决的问题,数据挖掘( d a t am i n i n g 简称d m ) 技术的运用就可以帮助企业很好地解决这个问题。 1 2 国内外研究现状 数据挖掘技术在c r m 中的应用研究是当前的研究热点。目前在c r m 中进行有效数据挖掘的研 究主要集中在以下儿个方面: ( 1 ) 挖掘方法的研究。这主要集中在挖掘的知识类型、多个抽象层的交互知识挖掘、数据挖掘查 洵语言,以及并行挖掘、分布式挖掘和增量挖掘等算法的研究上; ( 2 ) 性能研究。主要包括挖掘算法的有效性和可伸缩性、模式的评估和兴趣度度量、挖掘应用的 效益等方面的研究; ( 3 ) 数据的研究。这主要包括数据库类型的多样性问题、复杂数据类型的处理、噪声数据和缺失 数据的处理,以及异种数据库和w e b 上的数据挖掘等: ( 4 ) 与用户交互的研究。这方面主要研究数据挖掘结果的表示和可视化,领域知识的运用,挖掘 过程的简化和可理解性等。 其他问题包括数据挖捌的应用开发和它们的社会影响。这些问题是数据挖掘技术未来发展的主 要需求,同时给数据挖掘也提出了许多挑战性的课题。 目前,国外数据挖掘的发展趋势其研究方面主要有:对知识发现方法的研究进步发展,如近 年来注重对b a y e s 方法咀及b o o s t i n g 方法的研究和提高:传统的统计学回归法在k d d ( 知识发现) 中的应用;k d d 与数据库的紧密结合。在应用方面包括:k d d 商业软件1 ,_ 具不断产生和完善,注 重建立解决问题的整体系统。而不是孤立的过群。用户主要集中在大型银行、保险公司、电信公司 和销售业。国外很多计算机公司非常重视数据挖掘的开发应用。i b m 和微软都成立了相应的研究中 心进行这方面的工作。许多著名的计算机公司开始尝试着k d d 软件的开发,比较典型的如s a s 公 司的e n t e r p r i s e m i n e l 、i b m 公司的i n t e l l i g e n t m i n e r 、s g 公司的s e t m i n e r 、s p s s 公司的c l e m e n t i n e , 还有k n o w l e d g ed i s c o v e r yw o r k b e n c h 、d bm i n e r 、q u e s t 等。w e b 数据挖掘产品有n e tp e r c e p t i o n s 、 东南大学硕士学位论文 a c c r u ei n s i g h t 和a c c r u eh nl i s t 、c o m m e r c et r e n d s 等1 1 1 - 7 目前,国内在该领域的研究和应片j 明显落后于国外。根据我国对c r m 的认知秽度和应用层次 咀及国情的需要,数据挖掘技术在c r m 中的应用研究应主要面向如下方面:p h “1 ( 1 ) 应用的探索:数据挖掘技术作为c r m 强有力的支撑上具,如何将其更深层次、更宽范围、 更多方向地应用到c r m 中去,是一个具有重要价值的研究方向; ( 2 ) 应用目标的转变:随着企业的战略目标的转变,c r m 中的数据挖掘的应用目标重点应从增 加企业收入转移到节约企业成本; ( 3 ) 应用的对象:从企业规模来看,中小型企业是企业类型中的主体,针对中小型企业的c r m , 应用相应的数据挖掘技术提升其决策支持的智能化水平对中国企业具有特别的意义: ( 4 ) 数据挖掘与数据库、数据仓库系统的有机结合:这将保证数据挖掘的高质量,提高数据挖掘 的性能和效率,从而极大提高客户关系管理的水平; ( 5 ) c r m 中复杂数据类型挖掘:由于c r m 应用深度和广度的有力延伸,针对复杂数据类型的 数据分析技术与数据挖掘方法的研究变得越来越重要; ( 6 ) w e b 挖掘:w e b 是当前c r m 的土要应用平台,包括w e b 内容挖掘、w e b 日志挖掘和i n t e r n e t 上的数据挖掘服务等内容是重要的研究领域; ( 7 ) c r m 中的隐私保护与信息安全:这是数据挖掘技术要面对的一个重要问题,需要进一步开 发有关方法以确保客户的隐私权和信息安全。 数据挖掘技术在c k m 中的应用必将越来越“泛,对这一领域的研究将会体现出越来越重要的 价值。随着数据挖掘技术的进步发展和深化,必然会带给c r m 更为j “泛的应用前景和市场价值, 这种价值对增强我国企业的核心竞争力将会发挥越来越大的作用。 1 3 论文研究内容与框架 论文在阐述了数据挖 鼬及c r m 的理论和方法的基础上,构建了皿星集团营销公司c r m 中应用数 据挖掘的基础,并在此基础上详细分析了多种数据挖掘技术和方法在亚星集团营销公司c r m 系统中 不同方而的应用。通过理论联系实际的论述,说明了数据挖掘技术应用到c r m 中的重要意义和广泛 前景。 论文共分五章,全文框架如卜: 第一章绪论。介绍了论文研究的背景和意义、国内外关于数据挖捌在c r m 应用的研究现状以 及论文的研究内容和框架布局; 第二章数据挖掘及c r m 的原理与方法。本章先介绍数据挖掘的定义、功能、挖掘过程和挖掘 方软件,然后介绍了c r m 的定义、特征、系统的结构以及系统的设计与实施,为f 一 步数据挖掘在距星集团营销公司c r m 中的应用研究奠定了理论基础。 第三章c r m 与数据挖掘的集成框架。本章主要研究了砸星集团营销公司c r m 与数据挖掘的集 成框架。成功实施数据挖掘应用的基础前提是建立一个完整的c r m 系统,本章详细阐 述了公司c r m 系统从设计到开发完成的全过程,讨论了分析层c r m 系统的构建以及在 其上应用数据挖掘的技术手段,为下一步在公司c r m 系统中开展数据挖掘应用奠定了 基础。 第四章数吲嵇尉e 哑星硎系统中的应h 抑究。本章分析了各种数据挖掘技术在亚星集团营销公司 c r m 系统中不同方面的应用,尽管所运用的应1 f j f j 示例稍显简单,数据也未必具有代表 性,但重要的是展示出了数据挖掘的技术、方法在c r m 中的具体运用过程以及可以 带给公司的效益。 第五章结束语。总结了作者在论文研究过程中得山的主要结论和取得的主要成果。 2 第一二章数据挖掘及c r m 的概述 第二章数据挖掘及c r m 的概述 2 i 数据挖掘的原理与方法 2 i 1 数据挖掘的定义 数据挖掘的定义现在很多,在不同的教科书上有不同的定义,虽然表达方式不同,但本质都是 一样的。这里主要从技术角度和商业角度给出数据挖掘的定义”1 。 从技术角度看,数据挖掘是从人量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其 中的、人们事先不知道的但又是潜在有片j 的信息和知识的过程,即从存放在数据库、数据仓库或其 他信息库中的大量数据中挖掘有崩知识的过程。它建立在数据库,尤其是数据仓库基础之上,面向 弗专业用户,定位于桌面,支持即兴的联机查洵。数据挖掘技术能自动分析数据,进行归纳性推理 和联想,寻找数据问内在的某些关联,发掘潜在的、对信息预测和决策行为起着十分重要作用的模 式,从而建立新的业务模型,帮助决策者制定市场策略,做山正确决策。 从商业应用角度看,数据挖掘是一种崭新的商业信息处理技术,其主要特点是对商业数据库中的大 量业务数据进行抽取、转化、分析和模式化处理,从中提取辅助商业决策的关键知识,即从个数 据库中自动发现相关商业模式。数据挖掘是涉及多学科技术的集成,其中包括数据库技术、统计学、 机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索、图像与信号处理利空间数 据分析等。数据挖掘可以从数据库中提取知识、规律或高层信息,并可以从不同角度观察或浏览, 发现的知识可用于决策、过程控制、信息、管理、查询处理等。因此,数据挖掘被信息产业界认为 是数据库系统最重要的前沿之一,是信息产业最有前途的交叉学科。 2 i 2 数据挖掘的功能 数据挖掘的功能用于指定数据挖掘任务中要找的模式类型,一般可以分为两类:描述型数据挖 掘和预测型数据挖捌。描述型主要用米刻画数据集合的一般特性;预测型主要是根据当前数据进行 分析推算,从而达到预测的目的。具体来讲,数据挖掘的功能主要包括以f 几个方面:概念描述、 关联分析、分类、聚类、偏差检测、时间序列分析和元数据挖掘。”1 1 、概念描述 概念描述就是通过对与某类对象关联数据的汇总、分析和比较,对此类对象的内涵进行描述, 并概括这类对象的有关特征。这种描述是汇总的、简洁的、精确的和非常有用的知识。概念描述分 为特征性描述和区别性描述,前者描述某类对象中所有对象的共同特征,后者描述目标类对象和对 比类对象之间的区别。特征性描述是目标类数据的一般特征或特性的汇总。其基本方法有两种:基 于数据立方体的o l a p 方法和面向属性a 0 1 的归纳方法。0 l a p 方法中涉及到对数据立方体的上卷操 作,其实质是一种交互的、由片j 户控制的、按照指定维的层次向上汇总的过程,从而发现汇总后的、 处于更高概念层次的目标类知识。a o i 方法的主要思想是,首先建立对象集属性的概念层次,然后 在较高层次上对原始数据进行抽象,并发现和表示知识,从而得到关于对象类的较高级的知识。a o i 方法与o l a p 方法主要不同之处在于a o i 方法不必每一步都与用户交互,并且可以自动建立静态或动 态的概念层次结构。区别性描述是将目标类数据的一般特性与一个或多个对比类数据的般特性进 行比较。而这种比较必须是在具有可比性的两个或多个类之间进行的。区别性描述所采用的方法与 特征性描述相似。 东南人学硕士学位论文 2 、关联分析 关联分析是发现一个事件和其他事什之间相互依赖或关联的知识。数据芙联是数据库中存在的 一类重要的可被发现的知识,关联分析可以从数据库的人量数据中发现项集之间有趣的关联、相关 关系以及项集的频繁模式。从不同的角度考察,关联分析所发现的关联规则有多种分类。1 根据规则中处理的值类型,关联规则可以分为布尔型和数值型。布尔型关联规则处理的值是离 散的、种类化的,它显示了不同属性之间的关系:数值型关联规则可以和多维关联或多层关联规则 结合起来,对数值型字段进行处理,将它动态地划分成不同的区间,或者直接对原始数据进行处理, 或者在规则中涉及除数值型数据之外的其他类型的数据。 根据规则中数据的维数,关联规则可以分为单维关联规则和多维关联规则。若一个规则中的项 ( 或属性) 仅涉及一个维,那么它就是一个单维关联规则;若一个规则涉及二个或更多维,那么它 就是一个多维关联规则。 根据规则描述内容所涉及的抽象层次,关联规则可以分为单层关联规则和多层关联规则。单层 关联规则的内容仅涉及单一层次的概念,没有考虑项( 或属性) 的现实数据所具有的层次性;而多 层关联规则的内容描述涉及多个不同抽象层次的概念。 此外,根据关联规则的各种扩展,还可分为相关分析、最大模式和频繁闭项集、添加约束等类 型。关联规则的挖掘算法很多,不同的算法可能适用于不同类型的关联规则。例如经典的a p r i o r i 算 法 4 1 就是一种最有影响力的可直接用于挖掘单维布尔关联规则频繁项集的算法。此外还有 f p g m 似h 口l 、d h p “, s t e m ,a 1 s 等算法。尽管算法各不相同,但是从逻辑上它们大都可概括 为两步:第一步是迭代识别所有的频繁项集,耍求频繁项集的支持率不低于用户设定的最低值;第 二步是从频繁项集中构造可信度不低于用户设定的最低值的规则。识别或发现所有频繁项集是关联 规则发现算法的核心,也是计算量最大的部分。在进行关联知识发现时,需要由用户输入最小置信 度c 和最小支持度s 。 3 、序列模式分析 序列模式分析和关联分析相似,其目的也是为了挖掘数据之间的联系,但序列模式分析的侧重 点在于分析数据间的前后序列关系。它能发现数据库中形如“在某一段时间内,顾客购买商品a , 接着购买商品b ,而后购买商品c ,即序列a b c 出现的频度较高”之类的知识,序列模式分析 描述的问题是:在给定交易序列数据库中,每个序列是按照交易时间排列的一组交易集,挖掘序列 函数作用在这个交易序列数据库上,返回该数据库中出现的高频序列。在进行序列模式分析时,同 样需要由用户输入晟小置信度c 和最小支持度s 。对于序列模式分析,目前研究较多的是a g r a w a l 和s r i k a n t 提山的以a p r i o r i 为基础的序列数据挖掘算法a p r i o r i a l l t i a p r i o r i s o m e 、g s p 和d w c h u e n g 提出的一种增量式算法。以a p r i o r i 为基础的序列数据挖掘算法都有两个共同的前提:交易数据库中 的原有数据不变:最低支持度预先指定且不变。序列模式挖掘的增量式算法1 采用d w c h u e n g 提 出的一种关联规则增量式更新技术j ,其主要思想是利用前次处理的结果加速本次挖掘过程,目前 相关的算法有:面向数据的增量式( 原数据库增加新元组但参数不变) 算法;面向参数的增链式( 原 数据库数据不变但参数发生变化) 算法。 4 、分类分析 分类分析( c l a s s i f i c a t i o n a n a l y s i s ) 就是通过分析训练数据集中的数据( 即其类标记己知的数据 对象) ,为每个类别做出准确的描述或建立分析模型或挖掘出分类规则,然后用这个分类规则对其它 数据库中的记录进行分类。分类模式的预测值可以是离散的( 如根据某种动物的特征来判断这种动 物是两栖动物还是哺乳动物) ,也可以是连续的( 如根据某人的受教育情况和工作经验来判断这个人 的1 资范围) 。分类分析是一个两步过程:第一步,建立一个模型,描述预定的数据类集或概念集。 通过分析由属性描述的数据库元组米构造模型。假定每一条记录都属于一个确定的类别,由一个称 作类标号的属性确定,为建立模型而被分析的数据元组形成训练数据集。训练数据集中的单个元组 称作训练样本。通常,学习模型用分类规则、判定树或数学公式的形式提供。第二步,使用模型进 4 第二苹数据挖掘及c 剐的概述 行分类。首先评估模型( 分类法) 的预测准确率。如果模型的准确率可以接受,就用它对类标号未 知的数据元组或对象进行分类。 分类分析的实现技术包括决策树、统计、粗糙集( r o u g h s e ) 、神经网络方法等。最为典型的决 策树学习系统是i d 3 i l ,它采用白顶向下不回溯策略,能保证找到一个简单的树。算法c 4 5 和c 5 0 都是 d 3 的扩展,它们将分类领域从类别属性扩展到数值型属性。线性回归和线性辨别分析是典型 的统计模型分析方法。 5 、聚类分析 聚类分析( c l u s t e r i n ga n a l y s i s ) 和分类分析是一个互逆的过程。在统计方法中,聚类分析是多 元数据分析的三大方法之一( 其它两种是回归分析和判别分析) 。在机器学习中,聚类分析被称作无 监督或无教师归纳。在人工智能文献中,聚类也称概念聚类。与分类分析不同,聚类分析输入的是 一组未分类记录,并且这些记录应分成儿类事先也不知道。聚类分析就是通过分析数据库中的记录 数据,根据一定的分类原则,合理地划分记录集合,确定每个记录所在的类别。数据库中的记录被 化分为一系列有意义的子集叫做簇。分类原则采用最大化类内的相似性、最小化类间的相似性原则, 即使得一个簇中的对象具有很高的相似性,而与其他簇中的对象很不相似。 聚类分析的实现方法包括统计方法、机器学习方法、神经网络方法和面向数据库的方法,比如, 系统聚类法、分解法、加入法、动态聚类法、有序样晶聚类、有重叠聚类、模糊聚类法、运筹方法 等。主要的聚类算法的类型可分为基丁划分方法、基于层次的方法、基于密度的方法、基于网格的 方法、基于模型的方法等。一个聚类算法通常包含了多种聚类方法的思想。 聚类分析和分类分析在实际应用中可以结合使用,例如在最初的分析中,分祈人员根据以往的 经验先利用聚类分析将要分析的数据进行标定,划分类别,然后用分类分析方法分析该数据集合, 挖掘出每个类别的分类规则;接着用这些分类规则重新对这个集合( 抛弃原米的划分结果) 进行划 分,以获得更好的分类结果。这样分析人员可以循环使用这两种分析方法直至得到满意的结果。 6 、演变分析 演变分析( e v o l a l i o a n a l y s i s ) 也称作时间序列分析,即根据时间序列型数据,由历史的和当前 的数据去推测未来的数据,可以认为演变分析就是以时间为关键属性的关联分析。演变分析用于描 述行为随时间变化的对象的规律或趋势。并对其建模。尽管这可能包括与时间相关数据的特征化、 区分、关联、分类或聚类,这类分析的不同特点包括时间序列数据分析、序列或周期模式匹配和基 于类似型的数据分析。演变分析的实现方法有经典的统计方法、神经网络方法和机器学习方法等。 7 、偏差检测 偏筹检测( d e v i a t i o nd e t e c t i o n ) 是对差异和极端特例j 荭行检测和分析,揭示了事物偏离常规的 异常现象。数据库中的数据常有一些异常记录,它们与其他数据的一般行为或模型不一致。这些数 据记录就是偏差,也叫孤立点,因此偏差检测有时也被u 傲孤立点检测。 偏差的产生可能是某种数据错误造成的,也可能是数据变异所固有的结果。偏差包括很多潜在 的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差。量值随时间的 变化等。偏差检测的关键问题是偏差点与常规数据之间不一致的标准如何确定,以及如何找到一个 有效的方法来发现这样的偏差点。偏差检测的基本方法可以分为统计的方法、基于距离的方法和基 于偏移的方法等。 8 、复杂类型的数据挖掘 通常的数据挖掘方法多用于对以结构化数据为主的关系数据库、事务数据库、数据仓库进行挖 掘,而随着数据处理工具、先进数据库系统以及i n t e m e t 技术的迅猛发展,大量的形式各异的复杂类 型的数据不断涌现,如复杂对象、空间数据、多媒体数据、文本数据和w e b 数据等。因此,复杂类 型的数据挖掘是当前数据挖掘技术的一个重要研究领域,极大提升了数据挖掘的深度和广度,主要 包括:多媒体数据挖掘、文本挖掘和w e b 挖掘等。 文本挖掘( t e x tm i n i n g ) 是信息挖掘的一个研究分支,用于基于文本信息的知识发现。文本挖 东南太学硕士学位论文 掘是利用智能算法,如神经网络、基丁- 案例的推理、可能性推理等,并结合文字处理技术,分析大 量的非结构化文本源如文档、电子表格、客户电子邮件、问题布询、网页等) ,抽取或标记关键字概 念,文字间的关系,并按照内容对文档进行分类,获取有用音勺知识和信息。文本挖掘研究的关键在 于文本内容的虽化表征。 w e b 数据挖掘可分为三类:内容挖捌,使用挖掘和结构挖掘。w e b 内容挖掘是对w e b 页面内容 进行挖掘;w e b 使用挖掘是对用户访问w e b 时在服务器方留下的访问记录进行挖掘;w e b 结构挖掘 是对页面之间的结构进行挖掘。w e b 数据挖掘的过挥可分为三个阶段:预处理、模式发现和模式分 析1 ”】。 2 1 3 数据挖掘的一般过程 目前,几乎每个数据挖掘软件提供商都提出了自己的数据挖掘过程模型,但它们因都与各自的 产品相关联而不具有通用性。尽管还没有一个通用的数据挖掘过程模型来指导人们如何实施数据挖 掘过程,但是概括地来看,数据挖掘过程一般由四个主要阶段组成:确定业务对象、数据准各、挖 插f 实施、结果表达和解释。这几个阶段在具体实旌中可能需要多次反复、重复、循环。 1 、确定业务目标 明确数据挖掘的业务目标是数据挖捌的第一步。尽管数据挖掘的最后结果大部分是不可预测的, 但是其所要探索的问题是有预见性的、有日标的,盲目地开展数据挖捌往往是不会成功的。挖掘对 象的确定要充分了解相关领域的有关情况,熟悉背景知识,弄清用户要求。 2 、数据准备 数据准备是数据挖掘过程中非常重要的一个阶段,数据准备的好坏将影响到数据挖掘的效率和 准确度以及最终挖掘模式的有效性。这个阶段又可细分为数据集成、数据选择、数据预处理和数据 转换4 个步骤。数据集成是将多个数据源中的数据进行合并、解决语义模糊性、处理数据中的遗漏 和清洗脏数据等:数据选择就是根据用户要求利用一些数据库操作对数据进行处理,从数据库中提 取山需要挖掘的数据集合:数据预处理就是对上述数据进行再加t ,检奁数据的完整性和一致性, 对其中的噪声数据进行处理,对丢失的数据利用统计方法进行填补,为进一步的分析做准备,并确 定将要进行的挖掘操作的类型,然斤根据数据挖掘的目标,通过投影等降维处理技术减少待处理的 数据量;数据转换就是根据挖掘的需要进行离散值数据与连续值数据之间的相互转换,数据值的分 组分类、数据项之间的计算组合等操作。l t 2 l - t 4 由于数据挖掘对数据的严格要求,使得数据准备阶段成为整个数据挖捌过程中l 作量最大的阶 段,儿乎r l 到全部上作鹫的5 0 一9 0 。但是如果数据挖掘是基丁数据仓库的,那么数据准备阶段 的工作量将会大人缩减,冈为数据仓库中的数据已经经过了清理、转换和集成等过程。 3 、挖掘实施 挖掘实施阶段进行实际的挖掘操作,主要完成的任务包括建立训练数据和测试数据,选择合适 的算法和工具作用于准备好的训练数据,选取相应参数,生成一个相对最优模型,并对此模型用业 务语言加以解释。模型的建立是一个反复的过程,需要利用测试数据仔细评估不同的模型以判断哪 个模型对丁要挖掘的业务问题最有用,而且在寻找最优模型的过程中可能会由于受到新的启发而需 要重新选择或修改原有的数据,甚至改变最初对业务问题的定义。 4 、结果表达和解释 结果表达和解释阶段的主要任务是数据挖掘模型投入使用屙,根据最终用户的决策目的对提取 的知识进行分析,把最有价值的信息区分出米并提交给用户。在这个过程中不仅要把知识以能被人 理解的方式表达出来,还要对其进行有效性评价,如果不能满足用户要求,则应重复上述数据挖掘 过程。 6 第= 章数据挖掘及衄h 的概述 2 1 4 常用的数据挖掘软件 随着数据挖掘技术的不断进步和应用的日益广泛,现在许多研究机构和企业开始抢占数据挖掘 软件市场,它们或是开发出新的专业数据挖掘软件,或是在其原有产品中加入数据挖掘功能。一时 间,形式多样的数据挖掘软件层出不穷。这方面推动了数据挖掘技术和应用的更快发展,但另一 方面也使得人们对这类软件的了解越米越凼难。因此,有必要对目前市场上主流数据挖掘软件的实 现技术及功能做一简单概述: l 、s a se n t e r p r is em i n e r s a s 公司产品,可以对o r a c l e 、i n f o r m i 、s y b a s e 和d b 2 的数据集进 行操作。特色是统计分析功能强大,还能实现神经网络、决策树、关联等。可以运行在多种操作 平台上。此外,s a s 研究所提出了数掘挖掘模型s e m m a ( s a m p l e ,e x p l o r e ,m o d i f y ,m o d e l ,a c c e s s ) , 结合s a se n t e r p r is em i n e r 进行数掘挖掘, 2 、o r a c l e d ”w i n 以数据库技术著称的o r e c l e 公司从t b i n k i n gm a c h i n e 公司获得了d a x w i n 产品米增强其数据挖掘功能。d a r w i n 从二进制文件和通过o d b c 导入数据。实现神经网络、k 邻 近、决策树和预测等,可以运行在w i n d o w s 和u n i x 上。 3 、a n s w e rt r e e 和c l e m e n t i n e 均为s p s s 公司产品,前者提供了建立最优模型的四个强有力 的算法,它们是c 卧i d ,穷极c h a i d ,c a r t 和q u e s t ,并以易丁理解的树形图表示挖掘结果;后 者集成了多种数据挖掘算法,如规则归纳、神经网络、多种统计方法和可视化t 具,特色是具有 面向对象的扩展模块接口和可视化的编稗环境。两者都可以运行在w i n d o w s 、u n i x 等平台上, 4 、m ss q ls e v e r 2 0 0 0 ,数据挖掘是s q ls e r v e r2 0 0 0 中最令人激动的新功能之一。数据挖掘是一个 能够自动分析数据以获取相关信息的过程数据挖掘可以和任一关系数据库或者o l a p 数据源集成 使用。 2 2c r m 的原理与方法 2 ,2 ,1 、c r m 的定义 c r m 是一个将客户信息转化成积极的客户关系的反复循环过程,它的核心就是以客户为中心, 通过富有意义的交流沟通,理解并影响客户行为,最终实现提高客户保留、客户忠诚和客户创利的 目的。具体的可以从理念、技术和应用三个角度来理解c r m 的定义。 从理念角度看。c r m 是一种管理理念其核心思想是将客户( 包括最终客户、分销两和合作伙 伴) 作为最重要的企业资源,强调对客户价值进行管理,通过完善舱客户服务和深入的客户分析来满 足客户的需求,保证实现客户的终身价值。它是以“一对一营销”理论为基础,通过将企业的市场、 销售、服务等部门业务流程以及所有涉及到客户的各个领域完美地进行整合,使得企业可以低成本、 高效率地满足客户的需求,按照客户的不同价值提供优质的服务,提高客户满意度和忠诚度,最终 提升企业的竞争能力,实现利润最大化。 从技术角度看,c r m 集合了当今最新的信息技术。它们包括i n t e r n e t 和电子商务、多媒体技术、 数据挖掘和数据仓库、专家系统和人工智能、呼叫中心以及相应的硬件环境,同时还包括与c r m 相 关的专业咨询等等。通过对这些技术的完美结合,c 胁为企业的销售、客户服务和决策支持等提供 了一个自动化的解决方案。 从应用角度看,c p & i 是一套对企业与客户有关的领域进行管理的应用软件。它为企业提供了一 个收集、分析和利用各种客户信息的系统,帮助企业充分利t i j 其客户关系资源,也为企业在电子商 务时代从容自如地面对客户提供了科学手段和方法。作为应用软件,c r m 利用先进的技术将晟佳的 客户关系管理理论具体化,在实现市场、销售、服务等领域t 作流程的同时,将注意力集中于满足 7 东南大学硕士学位论文 客户的需求。 2 2 2 、c r m 的基本特征 1 、一对一营销 “一对一营销”就是企业根据客户的特殊需求来相应调整自己的经营行为。“一对一营销”要求 企业与每一个客户建立一种学习型关系。所谓学习型关系是指,企业每一次与客户的交往都使企业 对该客户增长一份了解,客户不断地提出需求,而企业按此需求不断地改善产品和服务,从而使企 业不断提高令该客户满意的能力“。 2 、统一共享的信息资源 c r m 解决方案的全部数据都集中存储和管理,不同部门的客户信息与其它部门分享,形成统一 的,可实时供企业任何部门和个人提取信息的客户信息库。这种集中式的客户信息管理保证了不同 的业务部和不同的应用软件功能模块之间的数据连贯性和一致性“。 3 、高度集成的交流渠道 c r m 将多种与客户交流的渠道,如面对面、电话接洽、e - m a i l 、传真、信函以及w e b 访问协调 为一体,通过客户喜好的渠道与之进行交流,实现客户与企业的交流的无缝、连贯和高效。 4 、商业智能化的数据分析和处理 c r m 将最佳的商业实践与数据挖掘、数据仓库、一对一营销、销售白动化以及其它信息技术紧 密结合在一起,通过充分挖掘客户的商业行为个性和规律,米不断寻找和拓展客户的赢利点和赢利 空间,在实现商业流程自动化的同时,帮助管理者做出合理的决策”。 5 、对基于w e b 功能的支持 对基于w e b 功能的支持是c r m 解决方案中的关键因素。w e b 使得企业内外部的信息交流更加便 捷顺畅。利用w e b 在电子商务方面的优势,企业可以极大地扩展传统的营销、销售和服务渠道,进 行诸如自助服务、自助销售、合同续订、以及服务请求等更加快捷有效的业务方式。 c r m 的以上特征不是彼此孤立的,而是相互支持、高度融合的一个整体,共同组成了c r m 的强 大功能。 2 2 3 、c r m 系统的结构 1 、c r m 的体系结构 一般来说,整个c r m 系统可分为三个层次:界面层、功能层和支持层。其体系结构如图2 1 所 刁。 界面层是c 蹦系统同用户或客户进行交互、获取或输出信息的接口,通过提供直观的、简便易 用的界面,用户或客户可以方便地提出要求,得到所需的信息“。 功能层由执行c r m 基本功能的各个模块构成。c r m 系统应能实现对销售、营销、客户支持与服 务三人支柱功能的全面管理,还应该可以与c t i 软件相结合,实现对呼叫中心的管理功能。同时, 随着互联网和信息技术的b 速发展,c r m 系统还应该纳入对电子商务的管理功能。此外基下商业智 能管理的决策支持也是c r m 的重要功能之。因此,c r m 的功能模块包括销售管理模块、营销管理 模块、客户服务与支持模块、商业智能管理模块、呼叫中心管理模块和电子商务管理模块。 支持层则是指c r m 系统所用到的数据库管理系统、操作系统、网络通信协议等,是保证整个c r m 系统正常运作的基础1 。 8 第二章数据挖搦及c i n 的概述 界而层 数据库管理系统 网络与通信协议 异构计算机与操作系统 功能层 支持层 图2 - lc r m 的体系结构 2 、c r m 的功能结构 g i n 的功能可以归纳为三个层次:操作层次实现对销售、营销和客户服务三部分业务流程的信 息化;协作层次实现与客户进行沟通所需要的手段( 如电话、传真、网络、e m a i l 等) 的集成和自动 后 台 一一一。一一一一一一一一一一一一一一一一一一一一。一一一一一。一一一一一一一一一一一一一一。一一一一一。一一 困围困困团叵习 接触中心 图2 - 2c r m 的功能结构 9 东南大学硕士学位论文 化处理;分析层次则完成对上面两部分功能所积累下的信息进行的加工处理,产生客户智能,为企 业战略战术的决策作支持。般来讲,当前的c r m 产品所具有的功能都是如图2 - 2 所示功能结构的 子集。 c 肼系统一般包括6 个功能模块:销售模块、营销模块、客户服务与支持模块、呼叫中心模块、 商业智能模块和电子商务模块,下面分别就各模块的主要功能进行概括介绍。 ( t ) c 耐的销售模块的功能介绍 销售自动化s f h ( s a l e sf o r c ea u t o m a t i o n ) 是以白动化方法代替原有的销售过程这个自 动化方法即信息技术。有了销售自动化,可以缩短销售周期,并使销售人员及时掌握市场信息,获 取销售利润。 销售自动化可以通过向销售人员提供的计算机网络及各种通信工具,使
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高压电工考试题库:2025年高压试验技术操作典型题库
- 2025年大学国内安全保卫专业题库- 安全保卫专业学生的专业素质要求分析
- 2025年消防员职业技能考试:消防安全隐患识别与排除试题型
- 2025年大学劳动教育专业题库- 劳动教育与学生创新能力培养
- 2025年大学体育教育专业题库- 体育教学的理论研究与实践应用
- 2025年床边护理技能实操综合考核测试题答案及解析
- 2025年监理工程师职业能力测试卷:建筑工程施工监理进度控制标准试题
- 2025年大学武术与民族传统体育专业题库- 大学武术比赛的技战术与表演技能
- 2025年大学人文教育专业题库- 大学人文教育的跨学科视角
- 2025年高压电工技师考试:高压设备故障诊断与安全检查试题解析
- 【高二 拓展阅读-科技】Wind Energy
- 新版出口报关单模板
- 员工工资条模板
- 新教科版科学六年级上册知识点
- 初中历史小论文现状分析与写作探讨
- 新疆地方史课件
- 一粒种子旅行
- GB/T 9124-2010钢制管法兰技术条件
- GB 4287-1992纺织染整工业水污染物排放标准
- 腰椎间盘突出症课件
- 桂阳县中小幼教师资格定期注册工作指南专家讲座
评论
0/150
提交评论