(计算机应用技术专业论文)保险业crm系统中的数据挖掘技术研究与应用.pdf_第1页
(计算机应用技术专业论文)保险业crm系统中的数据挖掘技术研究与应用.pdf_第2页
(计算机应用技术专业论文)保险业crm系统中的数据挖掘技术研究与应用.pdf_第3页
(计算机应用技术专业论文)保险业crm系统中的数据挖掘技术研究与应用.pdf_第4页
(计算机应用技术专业论文)保险业crm系统中的数据挖掘技术研究与应用.pdf_第5页
已阅读5页,还剩67页未读 继续免费阅读

(计算机应用技术专业论文)保险业crm系统中的数据挖掘技术研究与应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 二十一世纪中嗣保险业取得了非凡的业绩,增长速度相当迅速,但随着垄断 格局的打破,保险业同样也面临着激烈的市场竞争,保险产品的同质化趋势越来 越强,保险企业t f 在从“以产品为中心”的模式向“以客户为中心”的模式转移。 客户关系管理( c r m ) 是基于先进信息技术平台和支持体系上的业务处理和决策 分析系统,通过先进的数据仓库技术和数据挖掘技术,分析现有客户和潜在客户 相关的需求、模式、机会、风险和成本,从而最大限度地赢得企业整体经济效益。 数据挖掘技术是c r m 系统的核心,是c r m 中实现客户数据分析的技术基础。 本文首先论述了c r m 、数据挖掘以及聚类分析的基本理沦,根据保险企业 的特点设计了一个保险 i k c r m 数据挖掘应用系统。详细地介绍了该系统的体系 结构、数据清洗、数据库设计、多维分析等设计过程,实践表明该系统具有较强 的通用性和可扩展性。 其次,本文针对保险业实施c r m 过程中的具体需求,在深入分析了保险 c r m 特点的基础上,重点研究了聚类分析技术在保除业c r m 应用中所要解决的 关键问题,并改进了k m e a n s 算法,减小了噪声和孤市点对聚类性能的影响。 最后,将改进的k - m e a n s 算法运用到保险c r m 系统的客户细分研究和实际 应用中,实现了对保险客户群的细分,得出了有价值的信息,从而达到了保险企 业针对不同的客户群进行差异化营销、差异化服务的目的,提高了保险企业核心 竞争力。 关键词:客户关系管理数据挖掘数据仓库客户细分聚类 a b s t r a c t i n21c e n t u r yt h ei n s u r a n c ec o m p a n i e sh a v eb e e nm a k i n gar a p i dp r o g r e s s t h e s u m m a r yo fi n s u r a n c ep r e m i u mi sm u c hl a r g e rt h a nb e f o r e t h ei n s u r a n c em a r k e t c o m p e t i t i o ni sm o r ea n dm o r ed r a s t i ca n dp r o d u c t sa r em o r ea n dm o r es i m i l a ri n q u a l i t y c u s t o m e rr e l a t i o n s h i pm a n a g e m e n t ( c r m ) i s at r a n s a c t i o np r o c e s s i n ga n d d e c i s i o ns u p p o r ts y s t e mw h i c hb a s e do nm o d e mi n f o r m a t i o nt e c h n o l o g y t h e i n s u r a n c ec o m p a n yo b t a i n st h em o s te c o n o m i cb e n e f i t sb ya n a l y z i n gr e q u i r m e n t so f c u s t o m e r sa n dp o t e n t i a lc u s t o m e r s m o d e sc h a n c e sc o s ta n dr i s ku s i n gd a t aw a r e h o u s e a n dd a t am i n i n gt e c h n o l o g y d a t am i n i n g ,w h i c hi sd e f i n e da st h ep r o c e s so f d i s c o v e r i n gp a t e m si nd a t a ,i sa f o c u s o f m u l t i d i s c i p l i n er e s e a r c h c r mi sa l la p p l i c a t i o nd o m a i no f d a t am i n i n g c l u s t e r i n gi st oc l a s s i f yt h i n g si nt e r mo fs o m ee s s e n t i a la t t r i b u t e s ,w h i c hm e a n s t h i n g so f o n ek i n dc o m et o g e t h e r i ti so n eo f t h em o s ti m p o r t a n td a t am i n i n g t e c h n i q u e s c l u s t e r i n gh a se x t e n s i v ea p p l i c a t i o n si nc r m a r e a s f i r s t ,t h i sp a p e rd e s c r i b e st h eb a s i ct h e o r i e si nc r m ,d a t am i n i n ga n dc l u s t e r s a n a l y s i s a n dt h e nt h i sp a p e ri n t r o d u c e si nd e t a i lac r ms y s t e m sd e s i g na n d i m p l e m e n t a t i o n af e wq u e s t i o n s a r er e s e a r c h e ds p e c i a l l y ,i n c l u d i n gs y s t e m sn e t w o r k s t r u c t u r e ,a p p l i c a t i o nl o g i s t i cs t r u c t u r e ,d a t aw a s h i n g ,d a t as h e e td e s i g n , m u l t i d i m e n s i o n a lr e l a t i o n s h i pa n l a y s i s t h er e s u l to f e x p e r i m e n ts h o w st h i ss y s t e mi s u n i v e r s a la n de x t e n s i v ei nc r m s y s t e mo l 、i n s u r a n c e s e c o n d ,t h i sp a p e ra n a l y s e st h ek - m e a n sf a s tc l u s t e r sa l g o r i t h mi nc l u s t e r sa n a l y s i s i sd e e p l ys t u d i e d t h i st h e s i si m p r o v e st h ek - m e a n sa l g o r i t h mt or e d u c et h ei n f l u e n c e o fn o i s e sa n di s o l a t e dp o i n to nc l u s t e r i n gr e s u l t f i n a l l y ,p r o v i d ea n da p p l yt h ei m p r o v e da l g o r i t h mt om o d e l i n gc o u r s et h a t i n s u r a n c ec u s t o m e rs u b d i v i d e s i th a sr e a l i z e dt h ea p p l i c a t i o no f e n t e r p r i s e si n s u r a n c e c u s t o r n e rs u b d i v i d e ,a n dh e l pi n s u r a n c eo p e r a t o r sc a r r y i n go nd i f f e r e n c em a r k e t i n gt o d i f f e r e n tc u s t o m e r sg r o u p ,i m p r o v e st h ee n t e r p r i s e 。sk e yc o m p e t i t i v e n e s so t j n s u r a n c e k e y w o r d s :c r m ,d a t am i n i n g ,d a t aw a r e h o u s e ,c u s t o m c rs u b d i v i d e s , c l u s t e r i n g 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得盘鲞盘堂或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 学位论文作者签名:7 书j 峡娟 签字日期:2 。5 年s 月7 。日 l 学位论文版权使用授权书 本学位论文作者完全了解苤鲞盘鲎有关保留、使用学位论文的规定。 特授权鑫洼盘堂可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名: 7 古;史寺确 签字日期:,即年多月j p 日 锄虢咄 签字日期:z 卯,年占月知同 天津大学硕士学位论文 第一章绪论 1 1 选题背景及研究意义 第一章绪论 当今社会企业间竞争日益加剧,信息技术和互联网的迅猛发展改变了企业 间传统的竞争规则,企业间在技术与营销方法方面的差距越来越小。在这种情况 下企业间的竞争焦点更主要的从技术和销售方面转到了服务层面上来。谁能掌握 客户需求趋势,加强与客户的关系,深入挖掘和有效管理客户资源,谁就获得 了竞争优势。在世界范围内,随着对c r m 理念认同程度的扩大和行业产品系统 的日趋成熟,一些大型保险公司纷纷将c r m 在保险领域的应用实施列入工作日 程,以客户为中心的客户关系管理( c r m ) 成为信息时代企业制胜的关键之一。 1 1 i c r m 的概念 客户关系管理是现代管理科学与信息技术结合的产物,是企业树立“以客户 为中心”的发展战略,从而在此基础上开展包括判断、选择、争取、发展和保持 客户所实施的全部商业过程;是企业以客户关系为重点,通过再造企业组织体系 和优化业务流程,展开系统的客户研究,提高客户满意度和忠诚度、提高运营效 率和利润收益的工作实践;也是企业为最终实现信息化运营目标所创造和使用的 技术、软硬件系统及集成的管理方法、解决方案的总和。c r m 是企业管理中信 息技术集成的管理方法和应用解决方案的总和,它既是帮助企业组织管理客户关 系的一系列信息技术、方法和手段,又是运用信息技术对企业涉及销售、客户服 务等业务流程自动化的软件乃至硬件系统,也就是说,c r m 系统是一套基于数 据仓库的客户资料分析系统。c r m 通过先进的数据仓库技术和数据挖掘技术, 分析现有客户和潜在客户相关的需求、模式、机会、风险和成本,从而最大限度 地赢得企业整体经济效益。就保险业来说,通过建立大型的数据仓库,对积聚于 保险业的大量数据进行综合分析,识别在市场竞争中最有利可图的客户群,确定 目标市场,将客户通过多种指标进行分类,针对不同的客户,实施不同的策略, 为目标客户群提供“一对一”式的、符合客户心理的服务。 天津大学硕士学位论文第二章客户关系管理与数据挖掘 1 1 2 保险公司c r m 系统开发动因 ( 1 ) 市场竞争空前激烈 中国人民财产保险股份有限公司( p i c cp r o p e r t ya n dc a s u a l t yc o m p a n y l i m i t e d ) 是中国非寿险市场最大的保险公司,占有市场份额7 0 以上。随着宏 观经济的不断发展以及中国加入w t o ,许多外资保险公司纷纷在中国设立子公 司和合资保险公司,保险市场的主体快速增多i 保险中介市场也是相当的活跃, 保险市场的竞争空前激烈。 ( 2 ) 企业内部管理需求 随着保费业务总量的逐年上升,客户总量也是快速增长,但是销售人员在从 事销售活动过程中,通常自己掌握着各种客户资料,他们一般会把它看成自己最 重要的财富,即使公司内部共享这些资料,销售人员也不会非常配合,这对公司 的管理是很不利的。因此通过c r m 系统,可以实现客户资料的共享,利于公司 的内部管理。 ( 3 ) 客户的消费价值观发生变迁 消费者的价值观已经从理性消费阶段向感性消费阶段过渡,消费者在消费的 过程中越来越注重情感的满足。对无形的价值如对服务提出了越来越高的要求。 光凭产品本身已经无法完全达到客户满意的要求。因此,这也促使中国人民财产 保险股份有限公司在营销理念上从“以产品为中心”向“以客户为中心”转变, 以客户满意作为公司经营成败的重要衡量指标。 1 1 3 数据挖掘技术在c r m 系统中应用的现状 保险行业在长期的运作过程中积累大量的客户数据,这些数据中蕴含着大量 的有用信息。在落后的管理条件下,这些数据难以共享,无法发挥决策支持作用。 要使客户的信息转化为知识,需通过数据挖掘等方法,了解客户需求和心理、预 测其行为,根据这些信息,公司能优化可利用的资源,集中服务于所挑选的客户 群体,提升公司效益。目前专门讨论数据挖掘技术在c r m 系统中的应用的论著 还很少,国内数据挖掘技术在保险企业c r m 系统中的应用主要还停留在理论阶 段,目前主要集中在单独应用数据挖掘对公司的数据库进行针对性的分析当中, 很少有实际的c r m 系统中应用到数据挖掘技术进行深入的客户分析。 在c r m 系统中,必不可少的要素是将海量的、复杂的客户行为数据集中起 来的,形成整合的、结构化的数据仓库( d a t aw e a r h o u s e ) ,这是数据挖掘的基础。 在此基础上,就需要借助大量的知识和方法,把表面的、无序的信息整合,揭示 天津大学硕士学位论文第二章客户关系管理与数据挖掘 出潜在的关联性和规律,从而用于指导决策。 1 1 4 数据挖掘技术在保险c r m 中应用的意义 中国人民财产保险股份有限公司的数据采集从综合业务处理系统、机动车辆 保险系统、收付费系统开始,大量的交易数据通过定时机制流向中间库,而客户 关系管理系统从中间库中抽取数据。随着时间的推移,客户关系管理系统中的数 据量已经达到海量。这些数据不是为了分析的目的而收集的,而是由于商业运作 而产生。分析这些数据也不是为了研究的需要,而是为商业决策提供真正有价值 的信息,进而获得利润。但企业面临着这样一个问题:信息数据量非常大,而其 中真正有价值的信息是哪些? 这些信息之间有哪些关联? 因此就需要从大量的数 据中经过深层分析,从而获得有利于商业运作、提高竞争力的信息,数据挖掘就 是从海量数据中挖掘出更有价值的信息,挖掘出隐含的、先前未知的、对决策有 潜在价值的知识和规则,并能够根据已有的信息对未发生行为做出结果预测,为 企业经营决策、市场策划提供依据。保险企业c r m 中使用数据挖掘的意义主要 表现在: ( 1 ) 对客户特征的把握更加深入。 通过数据挖掘,可以实现对客户的特征化和细分,将大的客户群体划分成多 个小的群体,实现市场分割,对不同群体的客户实现差异化的服务。及时发现有 流失倾向的客户,提高他们对企业的忠诚度。 ( 2 ) 使经营效益有明显的提高。 通过数据挖掘,可以发现盈利性的保险产品和亏损性的保险产品,发现为公 司带来利润的客户和为公司经营造成负面影响的客户。指导产品开发和销售过 程,避免高风险产品和高风险客户对企业的经营业绩造成不利影响。 ( 3 ) 有效预警和控制欺诈风险。 保险业的运行机制本来就是建立在对客户可能发生的意外事故的概率统计 和分析基础之上的。这种分析运用在客户关系管珲上便称之为客户行为分析,通 过数据挖掘,可以进行客户欺诈风险分析。分析哪些因素容易导致欺诈,如何预 测到町能发生的欺诈,采取何种措施可以减少欺诈的发生,从而帮助企业准确、 及时、有效地预测到保险公司可能发生的欺诈风险是非常有意义的。 1 2 本文的研究工作与创新 客户关系管理( c g m ) 中的客户聚类分析是一个新的研究领域,属于数据挖 天津大学硕士学位论文第二章客户关系管理与数据挖掘 掘的应用范畴。利用数据挖掘技术可以发现客户数据背后隐藏的、有用的、未曾 发现的知识,包括利用聚类方法对客户群细分。 本文的研究工作和创新点如下: 在详细分析了保险企业c r m 设计和实现的基础上,分析了针对客户数据 质量的数据清洗过程,为聚类分析提供了可靠、可信的数据来源。对正在设计或 建设c r m 的企业有一定的借鉴意义。 对数据挖掘的理论进行了研究和分析,深入分析了k - m e a n s 聚类算法的优 缺点,提出一种改进算法,通过实验分析得出结论,新算法减小了噪声和孤立点 对聚类性能的影响,有效地减少了迭代次数,提高了算法的效率。 实现了k - m e a n s 和论文提出的改进算法,并将新算法应用于保险c r m 的 客户群细分研究中,得出了有价值的信息,实现了对保险客户群的细分。 1 3 论文组织结构 本文研究了数据仓库、数据挖掘技术在保险企业c i l m 中的应用,根据保险 业的特点提出了对传统的k - m e a n s 算法的改进算法,并应用于保险业c r m 系统 数据挖掘中。 第一章介绍本文的选题背景和研究意义、主要研究工作和创新之处。 第二章阐述了数据挖掘及c r m 的基本理论,以明确本文理论认识角度,为 本文研究提供理论起点。 第三章概述了聚类分析,深入分析了常用算法k m e a n s 的优缺点,并提出了 一种改进算法,进行实验分析并得出结论,证明新算法减小了噪声和孤立点对聚 类性能的影响,有效地减少了迭代次数,提高了算法的效率。 第四章详细阐述了保险公司c r m 系统的体系结构、数据库设计、客户分析 主题设计、功能模块设计等。介绍了数据清洗过程,为聚类分析提供了可靠、可 信的数据来源,该系统对正在设计或建设c r m 的企业有一定的借鉴意义。 第五章以青海人保公司客户数据信息为背景,利用改进的k - m e a n s 算法对保 险客户数据进行聚类分析,达到了对客户群进行细分的目的,获得一定价值的信 息。 第六章是总结和对未来工作的展望。 天津大学硕士学位论文第二章客户关系管理与数据挖掘 第二章客户关系管理与数据挖掘 2 1 客户关系管理( c r m ) 2 1 1 客户关系管理概念的产生 c r m ( c u s t o m e rr e l a t i o n s h i pm a n a g e m e n t 客户关系管理) 这个概念最早是由 世界著名i t 系统项目论证与决策权威机构g a m l e r g r o u p 率先提出来的。g a r t n e r g r o u p 认为c r m 产生的背景是与新经济和新技术有关系。新经济的挑战包括经济 环境的自由化,打破了国家的垄断,打破了行业的垄断,打破了对资源的垄断。 带来的是竞争更加激烈。导致了产品的生命周期更短,客户的需求更加个性化。 企业如何保持竞争能力并求得发展,至关重要。 考察企业的生存环境,可以清楚地看到下述条件至关重要。一、有最好的产 品,这个好是由客户来评判的,并不是由企业来评判的。企业要考虑为哪些客户 提供更加好的产品。二、经营效率高,使得企业交付产品与服务的时候能够比竞 争对手价格更低。如何管理企业内部的流程才能够使企业的效率更高。三、能否 与客户建立亲密的关系,使客户对你依赖到不可分离的地步。能够做到这三个, 所付出的代价是非常高的。这三个部分都是与企业的客户密切相关的。对企业而 言,客户是最宝贵的资源,失去了客户就失去了一切。失去了老客户,就意味着 业务无法进行,失去了新的客户,即潜在客户,就意味着停滞不前,无法向前发 展i i l o c r m 目的在于建立一个系统,使企业在客户服务、市场竞争、销售及支持 方面形成彼此协调的全新的关系实体,为企业带来长久的竞争优势。它是以客户 为中心的企业流程自动化及重组,旨在改善企业与客户问的关系,它贯穿氽业的 市场营销、销售、服务与技术支撑等与客户有关的领域。它一方面通过优质高效 的服务吸引和保持更多的用户。另一方面通过对企业流稃的全而管理实现商业 规则的自动化和降低企业的经营成本。这种管理理念将客户视为企业最重要的资 产,企业的信息支持系统必须在给客户以信息自主权的前提下发展。成功的客户 自主权将提高客户的忠诚度并能进而提高企业的效益。 天津大学硕士学位论文第二章客户关系管理与数据挖掘 2 1 2 客户关系管理的定义 目前对于c r m 尚没有统一明确的定义,这里引用a m t 企业资源管理研究 中心c r m 专家小组定义:“c r m 是一种以客户为中心的经营策略,它以信息技 术为手段,对相关业务功能进行重新设计,并对相关工作流程进行重组,以达 到留住老客户、吸引新客户、提高客户利润贡献度的目的”p l 。 我国著名学者田同生先生归纳众多国外著名研究机构和跨国公司对c r m 的诠释,认为在现实当中c r m 的概念是从三个层面来表述的:一、c r m 是一种 现代的经营管理理念,即宏观概念;二,c r m 包含的是一整套解决方案,即中 观概念;三、c l t m 则意味着一套应用软件系统,即微观概念闭。 c r m 首先是一个建筑在市场经济相对发达基础之上的管理理念,其源于西 方的市场营销理论,强调一切以客户为中心,i t 技术只是c r m 理念的表现方式 而已。 c r a m 作为解决方案( s o l u t i o n ) ,它集合了当今最新的信息技术,它们包括: i n t e m e t 和电子商务、多媒体技术、数据仓库和数据挖掘、专家系统和人工智能、 呼叫中心以及相应的硬件环境,同时还包括与c r m 相关的专业咨询等等。 c r m 作为一个应用软件系统,它凝聚了市场营销等管理科学的管理理念。 市场营销、销售管理、客户关怀、服务和支持等构成了c r m 软件模块基石。 2 1 3 客户关系管理的功能与内涵 按照a t m 一企业资源管理研究中- t = c , c r m 专家小组定义,c r m 的功能和内涵可 以归纳为三个方面,见图2 1 川。 ( 1 ) 运作层次的c r m 。对销售、营销和客户服务三部分业务流程和管理进 行信息化。这方面的流程和技术的作用在于:提高日常的前台运作的效率和准确 性,主要是销售自动化、营销自动化和服务自动化。 天津大学硕士学位论文 第二章客户关系管理与数据挖掘 , 臣囹圆匝回 ( 2 ) 协作层次的c r m 。对于客户进行沟通所需手段( 如电话、传真、网络、 电子邮件) 的集成和自动化处理。这方面主要是语音技术、网上商店、邮件、会 展、面对面的沟通。 ( 3 ) 分析层次的c r m 。对上面两部分的应用所产生的信息进行加工处理,产 生客户智能,为企业的战略决策提供支持。主要是数据仓库、客户数据库、客户 细分系统、报表和分析系统,提供对客户数据和客户行为模式进行分析的能力。 2 1 4 客户关系管理的核心技术 分析型c r m 所需要的核心技术通常包括数据仓库、数据挖掘、联机分析处 理( o l a p ) 和先进的决策支持和报表工具。 在c r m 中数据和信息的基本流程中,最初,运营数据是从客户“接触点” 收集的,这些运营数据连同遗留下来的内部客户数据和外来的市场数据经过整合 和变换装载到数据仓库中之后,o l a p 工具和数据挖掘等技术被用来从数据中分 析和提取相关的规律、模式或趋势。最后利用报表工具把有关客户信息和知识在 在整个企业内得到有效的流通和共享。这些信息和知识将转化为企业的战略和战 术行动,用于提高在所有渠道上同客户交互的有效性和针对性。 c r m 的成功在于成熟的数据仓库、数据挖掘、联机分析处理技术以及先进 的决策支持技术的应用。数据仓库的建立给用户提供了一个统一、一致的分析环 境,数据仓库不仅仅是一个大型的数据存储机制,而且是进行客户资料分析、挖 掘客户潜力的基石。数据仓库的数据量非常庞大。有可能淹没其中的有用信息, 所以必须联合数据挖掘技术,才能更有效地支持企业管理人员的决策。把数据挖 掘技术应用到存储在数据仓库中的经过清理和关系化的数据时,就能产生有效的 天津大学硕士学位论文第二章客户关系管理与数据挖掘 客户关系管理。因此,从技术角度讲,建立以数据仓库为基础,以数据挖掘技术 和联机分析处理技术为实现手段的决策支持系统是一种有效实施c r m 思想的可 行性解决方案。 但现实情况下,c r m 在我国大多数企业中并未取得很好的效益,主要原因 就在于缺乏有效的工具,能从大量的看似无关的信息中挖掘和发现信息间的联 系,产生新的知识从而有助于企业获得竞争优势。能满足企业这一迫切需求的强 有力的工具就是数据挖掘,从图2 1 可以看出数据挖掘技术主要是运用在分析层 次的c r m 中,将数据挖掘技术应用于c r m 系统,一方面有利于c r m 系统功 能更好的实现,另一方面也能检验数据挖掘技术在实践中的应用效果。 2 2 数据挖掘 2 2 1 数据挖掘定义 ( 1 ) 技术角度的定义 数据挖掘( d a t am i n i n g ) ,就是从大量的、不完全的、有噪声的、模糊的、 随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有 用的信息和知识的非平凡过程i s - q 。 知识:从广义上理解,数据、信息也是知识的表现形式,但是人们更把概念、 规则、约束、模式和规律等看作知识。发现知识的方法可以是数学的,也可以是 非数学的;可以是演绎的,也可以是归纳的。发现的知识可以被用于信息管理, 查询优化,决策支持和过程控制等,还可以用于数据自身的维护。发现的知识是 可接受、可理解、可运用的;并不一定要求是放之四海皆准的真理,它也可以仅 支持特定需要发现的问题。 数据:是指一个有关事实的集合,它是用来描述事物有关方面的信息,是进 一步发现知识的原始数据。原始数据可以是结构化的,如关系数据库中的数据; 也可以是是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构 型数据。 事先未知的:要求发现的模式应该是新颖的、用户未知的或未预料到的。 潜在有用的:提取出的模式应该是有意义的,发现的知识将来具有实际效用。 可以被人理解:挖掘的目标就是将数据库中隐含的模式以容易被人理解的形 式表现出来,从而帮助人们更好地了解数据库中所包含的信息。 非平凡过程:挖掘过程包括数据准备、数据挖掘、知识评价等多个阶段,以 天津大学硕士学位论文第二章客户关系管理与数据挖掘 及上述过程的反复求精。非平凡的是指整个过程是自动的、智能的,对数据进行 更深层处理的过程,而不是仅仅对数据进行加减求和等简单运算或查询。因此说 它是一个非平凡的过程。 从数据挖掘的定义可以看出,作为一个学术领域,数据挖掘和数据库知识发 现k d d ( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ) 具有很大的重合度,一种观点认为数 据挖掘和知识发现是等价的概念,人工智能( a o 领域习惯称k d d ,而数据库领 域习惯称为数据挖掘,另一种观点把k d d 看作发现知识的完整过程,而数据挖 掘只是这个过程中的一个部分。现在大多学者倾向于前一种观点,认为它是“知 识发现”概念的深化,知识发现与数据挖掘是人工智能、机器学习与数据库技术 相结合的产物。数据挖掘从理论上和技术上继承了知识发现领域的成果,同时又 有着独特的内涵,数据挖掘更注重设计高效的算法以达到从巨量数据中发现知识 的目的。 数据挖掘涉及多学科技术的集成。包括数据库技术、机器学习、统计学、高 性能计算、模式识别、神经网络、数据可视化、信息检索、图像与信号分析和空 间数据分析。特别是机器学习被认为和数据挖掘的关系最密切。二者的主要差别 在于:数据挖掘的任务是发现可以理解的知识,而机器学习关心的是提高系统的 性能,因此训练神经网络来控制一根倒立棒是一种机器学习过程,但不是数据挖 掘;数据挖掘的对象是大型数据库,一般来说机器学习处理的数据集要小的多, 因此效率问题对数据挖掘来说是至关重要的。 数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提 升到从数据中挖掘知识,提供决策支持。在这种需求牵引下,汇聚了不同领域的 研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算 等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的 技术热点。 ( 2 ) 商业角度的定义 数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大 量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的 关键性数据。 简而言之,数据挖掘其实是一类深层次的数据分析方法。数据分析本身己经 有很多年的历史。只不过在过去数据收集和分析的日的是用于科学研究,另外, 由于当时计算能力的限制,对大数据量进行分析的复杂数据分析方法受到很大限 制。现在,由于各行业业务自动化的实现,商业领域产生了大量的业务数据,这 些数据不再是为了分析的口的而收集的,而是由f 纯机会( o p p o r t u n i s t i c ) 的商业 天津大学硕士学位论文第二章客户关系管理与数据挖掘 运作而产生。分析这些数据也不再是单纯为了研究的需要,更主要是为商业决策 提供真正有价值的信息,进而获得利润。但所有企业面临的一个共同问题是:企 业数据量非常大,而其中真正有价值的信息却很少,因此从大量的数据中经过深 层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数 据挖掘也因此而得名州。 数据挖掘商业定义可以描述为:按企业既定业务目标,对大量的企业数据进 行探索和分析,揭示隐藏的、未知的或验证己知的规律性,并进一步将其模型化 的先进有效的方法。 2 2 2 数据挖掘与数据仓库 按照晰l l i 枷h i n m o n 提出的数据仓库定义,数据仓库( d a t aw a r e h o u s e ) 是面 向主题的、集成的、非易失的并随时间变化的数据集合唧。一般情况下,来自于 异地、异构的数据源或数据库的数据经加工后在数据仓库中存储、提取和维护。 传统数据库主要面向业务处理,而数据仓库面向复杂数据分析、高层决策支持。 数据仓库提供来自种类不同的应用系统的集成化和历史化的数据,为有关部门或 业务进行全局范围的战略决策和长期趋势分析提供了有效的支持。数据仓库使用 户拥有任意提取数据的自由,而不干扰业务数据库的正常运行。 数据挖掘技术己经和数据仓库技术密不可分。数据挖掘需要从大量的数据中 发现有意义的模式,而大量的数据又经常保存在数据仓库中。一种基于数据仓库 的数据挖掘模型如图2 2 所示。 数据仓库的发展是促进数据挖掘发展的原因之一,数据仓库中的数据通常经 过数据清洗、数据变换、数据集成等数据预处理操作,数据的完整性、一致性较 好,数据质量高,而这正好符合数据挖掘对数据的要求。反之,数据仓库并不是 数据挖掘的先决条件,因为数据可以来源于其他非数据仓库结构数据源。 图2 2 基于数据仓库的数据挖掘模型 天津大学硕士学位论文 第二章客户关系管理与数据挖掘 总而言之,数据仓库在为数据挖掘提供了更广阔的活动空间。数据仓库完成 了数据的收集、集成、存储、管理等工作,数据挖掘面对的是经过初步加工的数 据,使得数据挖掘能更专注于知识的发现;另一方面,由于数据仓库所具有的新 的特点,又对数据挖掘技术提出了更高的要求。可以说,数据挖掘技术要充分发 挥潜力,就必须和数据仓库的发展结合起来。 2 2 3 数据挖掘与联机分析处理 联机分析处理o l a p ( o n l i n ea n a l y t i c a lp r o c e s s i n g ) 的目标是满足决策支持 或多维环境特定的查询和报表需求,其技术核心是“维”这个概念,因此,o l a p 也可以说是多维数据分析工具的集合。 维是相同数据的集合,一般指观察事物的角度,保险系统中指一组关于保险 业务某个主要方面的描述性数据,例如:日期、产品、机构、车辆类型等,如图 2 3 所示。 每一维针对每个属性都有一个层次结构。根据层次结构和多维特性我们可以 得到多种数据,除了常用的最大、最小、平均、总和等为决策支持、知识发现以 及其它应用服务的数据外,还可以通过以下方法得到各个角度的多种数据。 ( 1 ) 旋转( p i v o t i n g ) 即将表格的横、纵坐标交换( ) 【,y ) 一( y x ) ,使我们可以从不同的正反角 度观察分析性能。 ( 2 ) 上钻和下钻( d r i l lu pa n dd r i l ld o w n ) 根据维的限定做投影、选择等数据库操作从而获取数据。 ( 3 ) 切片( s l i c ea n d d i c e ) 根据维的层次提升所关心的数据或减低观察层次。 通过o l a p 我们可以灵活的得到从各个特定的角度对多维数据的提取。它构 成了知识发现的总体的、般的统计分析知识,而隐含的、先前未知的、对决策 有潜在价值的知识和规则,是通过数据挖掘的方法来得到的。 天津大学硕士学位论文第二章客户关系管理与数据挖掘 图2 - 3o l a p 的数据维结构 o l a p 属于验证分析,即用户需要事先建立假设,然后用o l a p 验证假设是 否成立。从本质上说,o l a p 分析过程是一个演绎推理的过程,而数据挖掘是一 个归纳过程,它是基于大量历史数据主动发现有用模式的过程,事先并不需要建 立任何假设。 o l a p 作为一种多维查询和分析工具,是数据仓库功能的自然扩展,也是数 据仓库中的大容量数据得以有效利用的重要保障。数据挖掘和o l a p 两种分析方 式是相辅相成的,具有一定的互补性。o l a p 可以帮助人们建立假设,也可以验 证挖掘产生的结果i 。 2 2 4 数据挖掘的研究内容 目前数据挖掘的主要研究内容包括基础理论、发现算法、数据仓库、可视化 技术、定性定量互换模型、知识表示方法、发现知识的维护和再利_ h j 、半结构化 和非结构化数据中的知识发现以及网上数据挖掘等。 数据挖掘所发现的知识最常见的有以下五种: ( 1 ) 广义知识:指类别特征的概括性描述知识。根据数据的微观特性发现 其表征的、带有普遍性的、较高层次概念的、中观和宏观的知识,反映同类事物 共同性质,是对数据的概括、精炼和抽象。 ( 2 ) 关联知识:它反映一个事件和其他事件之间依赖或关联的知识。如果 天津大学硕士学位论文第二章客户关系管理与数据挖掘 两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进 行预测。 ( 3 ) 分类知识:它反映同类事物共同性质的特征型知识和不同事物之间的 差异型特征知识。 ( 4 ) 预测型知识:它根据时间序列型数据,由历史的和当前的数据去推测 未来的数据,也可以认为是以时间为关键属性的关联知识。 ( 5 ) 偏差型知识:它是对差异和极端特例的描述,揭示事物偏离常规的异 常现象,如标准类外的特例,数据聚类外的离群值等。 2 2 5 数据挖掘的主要方法 目前,国外有许多研究机构、公司和学术组织在从事数据挖掘工具的研究和 开发。这些数据挖掘工具采用的主要方法包括决策树、相关规则、神经元网络、 遗传算法,粗糙集方法等i l l l 。 ( 1 ) 决策树 决策树是建立在信息论基础之上,对数据进行分类的一种方法。首先,通过 一批已知的训练数据建立一棵决策树。然后,利用建好的决策树,对数据进行预 测。决策树的建立过程可以看成是数据规则的生成过程,因此可以认为,决策树 实现了数据规则的可视化,其输出结果也容易理解。例如:在金融领域中将贷款 对象分为低贷款风险与高贷款风险两类。通过决策树,就可以很容易地确定贷款 申请者是属于高风险的还是低风险的。决策树方法精确度比较高,结果容易理解, 效率也比较高,因而比较常用。 ( 2 ) 神经网络 神经网络建立在自学习的数学模型基础之上。它可以对大量复杂的数据进行 分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析。 神经网络系统由一系列类似于人脑神经元一样的处理单元组成,并被称之为 节点( n o d e ) 。这些节点通过网络彼此互连,如果有数据输入,它们便可以进行 确定数据模式的工作。神经网络有相互连接的输入层、中间层( 或隐藏层) 、输 出层组成。中间层由多个节点组成,完成大部分网络工作。输出层输出数据分析 的执行结果。例如:可以指定输入层为代表过去的销售情况、价格及季节等因素, 输出层便可输出判断奉季度的销售情况的数据。 ( 3 ) 关联规则 关联规则是一种简单却很实用的关联分析规则,它描述了一个事物中某些属 性同时出现的规律和模式。例如:超级市场中通过p o s 系统收集存储了大量售 天津大学硕士学位论文第二章客户关系管理与数据挖掘 货数据,记录了什么样的顾客在什么时间购买了什么商品,这些数据中常常隐含 着诸如:购买面包的顾客中有9 0 的人同时购买牛奶的相关规则。 关联规则分析就是依据一定的可信度、支持度、期望可信度、作用度建立相 关规则的。 ( 4 ) 聚类 聚类是根据某种相似程度的度量,将数据对象分组成为多个类或簇,在同一 个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。相异度是根 据描述对象的属性来计算的,距离是经常采用的度量方式。与预测模型不同,聚 类中没有明显的目标变量作为数据的属性存在。聚类算法通过检测数据,判断其 “隐藏属性”。聚类分析源于许多研究领域,统计学、生物学,以及机器学习等 研究领域。在商务上,聚类能帮助市场分析人员从客户基本信息库中发现不同的 客户群,并且用购买模式来刻画不同的客户群的特征。 ( 5 ) 遗传算法 遗传算法是一种基于生物进化论和分子遗传学的搜索优化算法。它首先将问 题的可能的解按某种形式进行编码,编码后的解称为染色体;随机选取n 个染 色体作为初始种群,再根据预定的评价函数对每个染色体计算适应值,性能较好 的染色体有较高的适应值,选择适应值较高的染色体进行复制,并通过遗传算子, 产生一群新的更适应环境的染色体,形成新的种群,直至最后收敛到一个最适应 环境的个体,得到问题的最优化解。 ( 6 ) 粗糙集方法 粗糙集理沦是波兰z d z i s k e wp a w l a k 教授在1 9 8 2 年提出的,它是一种新的数 学工具。这一方法在数据挖掘中具有重要的作用,常用于处理含糊性和不确定性 的问题,发现不准确数据或噪声数据内在的结构联系,也可以用于特征归约和相 关分析。粗糙集可以看成是含糊概念的一个数学模式,其主要优点就是不需要任 何关于数据的初始的或附加的信息。因此广泛应用于不确定、不完整的信息分类 和信息获取。租糙集理论和技术的出现,大大地提高了数据挖掘和知识发现的效 率。 2 2 6 数据挖掘的过程 数据挖掘是一个从已知数据集合中发现各种模型、概要和导出值的过程,它 是一个反复迭代的过程,综合当今对数据挖掘的认识,可以将数据挖掘过程分为 以下几个步骤1 1 2 i ,参见图2 - 4 。 天津大学硕士学位论文 第二章客户关系管理与数据挖掘 图2 - 4 数据挖掘过程 ( 1 ) 确定分析和预测目标 进行数据挖掘,首先必须分析应用领域,包括应用中的各种知识和应用目标。 问题定义帮助了解相关领域的有关情况,熟悉背景知识,弄清用户需求。清晰地 定义出业务问题,认清数据挖掘的目的是数据挖掘重要的一步。开始真正的数据 挖掘之前最先也是最重要的就是了解用户的数据和业务问题。精确定义所要解决 的问题是数据挖掘成功的关键要素之一。要想充分发挥数据挖掘的价值,必须对 用户的目标有一个清晰明确的定义,有效的问题定义还应该包括一个对数据挖掘 的结果进行衡量的标准。 在确定用户需求后,对现有资源( 已有的历史数据) 进行评估,确定通过数 据挖掘技术,利用现有资源,能否解决用户的需求。在得到确定的答案后,再进 一步确定数据挖掘的目标和制定数据挖掘计划。 在数据挖掘过程中,面对不同的客户,制定不同的主题,主题是一个在较高 层次将数据归类的标准,每一个主题对应一个宏观的分析领域,即将不同的主题 按照一定的标准集成,将原始数据结构进行从面向应用向面向主题的转变。 ( 2 ) 数据准备 数据挖掘所面对的原始数据不仅有海量数据,而且还町能存在大量的噪声数 据、冗余数据、稀疏数据或不完全数据等。解决原始数据存在问题,提高挖掘数 据的质量,是挖掘技术应用的基础。 数据准备阶段包括数据清洗、集成、选择、变换、规约以及数据质量分析等 步骤。 天津大学硕士学位论文第二章客户关系管理与数据挖掘 ( 3 ) 建立模型 建立模型阶段是数据挖掘技术应用的关键阶段,有以下几个子步骤: 选择适用的数据挖掘技术:根据问题定义阶段所确定的问题,选择相应的 数据挖掘技术。 建立培训数据和测试数据:对基础数据必须分为两部分,一部分是供模型 建立的数据,另一部分是供模型建立后进行模型评估时用到的数据。 利用培训数据采用相应的算法建立模型:这个步骤就是采用相应的算法确 定输出和输入的关系,即函数y = f ( x i ,x 2 ,x 。) ,一旦函数确定,便表示模型已 建立。 模型解释:模型建立后必须对模型进行分析和解释,找出模型中的实际意 义。 ( 4 ) 模型评估与检验 模型的评估包括两个方面即模型的可信度和兴趣度。 可信度:利用测试数据对模型进行测试,计算误差率,以确定模型的可信度, 如果结果不能令人满意,那应必须对数据挖掘进程进行调整,如重新选取数据、 采用新的数据变换方法、设定新的参数值、产生新

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论