(计算机软件与理论专业论文)基于数据挖掘的客户忠诚度分析.pdf_第1页
(计算机软件与理论专业论文)基于数据挖掘的客户忠诚度分析.pdf_第2页
(计算机软件与理论专业论文)基于数据挖掘的客户忠诚度分析.pdf_第3页
(计算机软件与理论专业论文)基于数据挖掘的客户忠诚度分析.pdf_第4页
(计算机软件与理论专业论文)基于数据挖掘的客户忠诚度分析.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(计算机软件与理论专业论文)基于数据挖掘的客户忠诚度分析.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 数据挖掘( d a t am i n i n g ) 就是从大量的、不完全的、有噪声的、模糊的、随 机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的 信息和知识的过程。它是一门交叉学科,它把人们对数据的应用从低层次的简单查 询,提升到从数据中挖掘知识,提供决策支持。分类和预测是数据挖掘中的重要研 究方面,可以用于提取描述重要数据类的模型或预测未来的数据趋势。经过近2 0 年的发展,数据挖掘技术在理论研究上日趋成熟,正不断的扩展其应用范围,当前 数据挖掘已用于电信、金融、商业、气象预报、d n a 、股票市场、入侵检测和客户 分类等许多领域。 本文就分类分析和预测分析算法进行了深入研究,对相关算法作了改进:在此 基础上,对客户忠诚度变化趋势进行了预测分析。 首先研究了分类分析和预测分析的相关算法,重点探讨了线性回归分析和c a r t 分类器的原理,对c a r t 分类算法进行了改进;其次,以线性回归分析和c a r t 分类 算法为主并结合其它数据挖掘算法,针对企业中的客户忠诚度分析问题构建了客户 忠诚度分析系统,最后,根据海尔客户关系数据,对海尔集团的客户忠诚度进行预 测。得出了有效的结果。 论文的主要内容如下: 第一,阐述了课题的研究背景及其重要的研究意义;对当前数据挖掘的国内与 国外的研究动态进行分析;通过对知识发现一般过程的介绍,分析了一个典型的数 据挖掘系统中各模块的主要功能,并对其中采用的数据挖掘的技术作了详细阐述。 第二,介绍了决策树,贝叶斯网络,神经网络,遗传算法,线性回归等分类和 预测的方法。分析比较了其算法的优劣及其适用范围,并讨论了评价分类准确率的 方法。 第三,详细讨论了线性回归尤其是多元线性回归算法的基本思路及其参数估 计,利用多元线性回归思想构造了趋势预测函数;分析了c a r t 分类器的原理,以 及决策树的构建、修剪和验证过程的详细算法描述,并将c a r t 分类算法的建树过 程与修剪过程合并,得到了合并算法,从而提高了决策树的执行效率。 第四,完成了客户忠诚度分析系统。描述了客户忠诚度的概念,说明研究客户 忠诚度对企业的重要意义;介绍了系统的主要功能:数据预处理、重点客户发现以 及客户忠诚度预测;详细讨论了数据预处理模块所采用的预处理手段和方法;通过 客户忠诚度分析系统,就海尔集团所提供的相关数据对其客户忠诚度变化趋势进行 了预测分析。主要操作包括:针对海尔公司的客户关系数据,选取和处理客户忠诚 摘要 度分析数据;利用原始客户关系数据及趋势预测函数构造客户购买能力变化趋势影 响因子;结合其它影响因子运用分类分析对客户忠诚度的趋势进行预测。该系统通 过在分类分析中导入变化趋势影响因子,打破了以往的客户忠诚度分析系统中对客 户只进行类别上的划分。而不能预测忠诚度变化趋势的局限性。分析结果证明了忠 诚度趋势预测算法( l t p a ) 的实用性。 最后,对本文的工作进行了总结和对研究前景的展望。 关键词:知识发现,数据挖掘,分类,预测,回归,聚类,客户忠诚度 2 a b s t r a c t a b s t r a c t d a t a m i n i n g i sa n i m p o r t a n t r e s e a r c hs u b j e c ti nt h ef i e l do f i n f o r m a t i o n t e c h n o l o g y i t m e a n sap r o c e s so f e x t r a c tt h e i m p l i c i t ,p r e v i o u s l yu n k n o w n ,a n dp o t e n t i a l l yu s e f u l k n o w l e d g e f r o m v o l u m i n o u s , n o n - c o m p l e t e , f b z 碍s t o c h a s t i c d a t a i ti sa p p l i c a t i o nf o r c r o s s i n gc o u r s e ,i tp e o p l el o g a r i t h m sa c c o r d i n g t of r o mt h el o wl e v e la n d s i m p l es e a r c h , p r o m o t i n g t os c o o po u tt h ek n o w l e d g ef r o mt h ed a t a , p r o v i d i n gt h ed e c i s i o ns u p p o r t c l a s s i f i c a t i o na n d p r e d i c t i o n i si m p o r t a n tr e s e a r c ha s p e c tt h a tt w ok i n d so f d a t a a n a l y s i s f o r m ,a l s oi s ,i nd a t am i n i n g ,c a l lu s e df o rw i t h d r a w i n g t od e s c r i b e i m p o r t a n t d a t am o d e lo r f u t u r ed a t ai np r e d i c t i n gt r e n d s a f a r2 0 y e a r so f d e v e l o p m e n t ,o n t h e t h e o r y , d a t am i m n g t e c h n i q u e si sb e c o m i n g m o r ea n dm o r ec o n s u m m a t ea n di se x p a n d i n gi t sa p p l i c a t i o na r e a n o w , d a t am i n i n g h a sb e e nu s e di nt e l e e o m ,f i n a n c e ,b u s y n e s s ,w e a t h e r f o r e c a s t ,d n a , s t o c km a r k e t ,i n t r u s i o nd e t e c t i o na n dc u s t o m e r s e g m e n t a t i o n e t c t h i st e x ti sa r o u n dt h ea p p l i e dp r o b l e mi n p r e d i c t i o no f c u s t o m e r sl o y a l t yl a u n c h e st h e d i s c u s s i o n s t u d i e dt h ec l a s s i f i c a t i o nf i r s tw i t ht h er e l a t e dc a l c u l a t ew a yt h a t p r e d i c t ,l a i d e q u a l s t r e s so nt oo r d e rt od i s c u s st h el i n er e t u r nt or e t u r nt h ea n a l y s i st od i v i d ei n t os e c t i o n t h e p r i n t i p l eo f t h e m a c h i n ew i 廿lt h ec a r t ;t h en e x ti n o r d e r , a d o p t t w oa b o v eac a l c u l a t e w a y s c o m b i n ec o m b i n a t i v eo t h e rd a t ae x c a v a t i o n t e c h n i q u e ,a i m a tt h ec u s t o m e ri nt h e b u s i n e s se n t e r p r i s et h el o y a l t yt h ea n a l y s i st h ep r o b l e ms e tu pt h ec u s t o m e rt h el o y a l t yt h e a n a l y s i s t h es y s t e m ;f m a u y , a n a l y z ec u s t o m e r l o y a l t y o f h a i e r c o m p a n y b a s e di t sc u s t o m e r r e l a t i o n s h i pd a t a t h em a i nc o n t e n to f t h e t h e s i si sa sf o l l o w s : f i r s t 。w ed e s c r i b e dt h eb a c k g r o u n do f r e s e a r c ha n d p o i n t e do u t i t ss i g n i f i c a n c e t h e d o m e s t i ca n d f o r e i g ns i t u a t i o no f d a t am i i l i i l gr e s e a r c hw a sa n a l y z e df r o mt h e o r e t i c a la n d a p p l y i n ga s p e c t s ,a f t e ra n a l y z i n g t h e g e n e r a lp r o g r e s so f k n o w l e d g ed i s c o v e r y w e g a v e a c l a s s i cf r a m e w o r ko f ad a t e m i n i n gs y s t e m ,a n a l y t l ;dm a i n f u n c t i o no f e v e r ym o d u l ea n d e x p a t i a t eo n t h et e c h n i q u eo f d a t a m i n i n g s e c o n d ,i n t r o d u c et h ec o n l m o n m e a n so f c l a s s i f i c a t i o na n d p r e d i c t i o n ,s u c ha s d e c i s i o n t r e e ,b a y e sc l a s s i f i c a t i o n ,n e u r a ln e t w o r k , g e n e t i ca l g o r i t h m s ,r o u g hs e t se t c a n a l y z i n ga n dc o m p a r i n g t h ed i s a d v a n t a g e sa n d a d v a n t a g e so f t h i sa l g o r i t h m s a n d g i v i n gt h ev a l u a t i o nw i t h t h em e t h o dt h a ti n c r e a s e sa c c u r a t er a t ei nc l a s s i f i c a t i o n t h i r d l y ,d e t a i l e dd i s c u s s i n gt h el i n er e g r e s s i o n ,p a r t i c u l a r l y t h e p r i n c i p l ea n d i t s p a r a m e t e r s t h a tt h ed i v e r s el i n er e g r e s s i o n g i v e nt r e a dp r e d i c t i o nf u n c t i o n a c c o r d i n g t o 3 a b s t r a c t t h ed i v e r s el i n er e g r e s s i o n d e s c r i b et h et h e o r yo fc a r tc l a s s i f i c a t i o na n dg i v e sa n a l g o r i t h mw h i c hi n t e g r a t e s t h et r e eb u i l d i n g p h a s ea n dp r u n i n gp h a s e f o u r t h ,c o m p l e t et h ec u s t o m e rl o y a l t ya n a l y s i ss y s t e m g a v e t h e c o n c e p t o f c u s t o m e r l o y a l t y ,e x p l a i n t h ei m p o r t a n t m e a n i n g o f c u s t o m e r l o y a l t y t ot h eb u s i n e s s e n t e r p r i s e ;i n t r o d u c e d t h em a i nf u n c t i o no f t h e s y s t e m :p r e p a r e t h ed a t a , d i s c o v e rt h e m a i nc u s t o m e r sa n d p r e d i c tc u s t o m e rl o y a l t y ;t h ec u s t o m e rl o ya 1 _ 哆o f h a l e rc o m p a n y i s a n a l y z e db y t h ec u s t o m e r l o y a l t ya n a l y s i ss y s t e m i n o r d e rt oa n a l y z et h ec u s t o m e r l o y a l t yo f h a l e rc o m p a n y , t h ep r o c e s sa n dw a y , w h i c h w ec h o o s ea n dd e a lw i t ht h e a n a l y z e d d a t a , i s d i s c u s s e d p r e d i c t t h e 乜弓n d o f c u s t o m e r l o y a l t y b y u s i n gr e g r e s s i o n a n d c l a s s i f i c a t i o n c h a n g et h el o c a l i z a t i o no f t h ep a s tc u s t o m e rl o y a l t ys y s t e m w h i c hc a n o n l y c l a s s i f yt h e s o f to f t h ec u s t o m e r s ,b u tn o tp r e d i c tt h et r e n d s oi tp r o o f t h a tl t p a ( l o y a l t y t r e n dp r e d i c t i o na r i t h m e t i c ) i s p r a c t i c a b i l i t y f i n a l l y , a l lt h e r e s u l t sa r es u m m a r i z e d , a n dt h e s t u d yp r o s p e c t i sd i s c u s s e d k e y w o r d s :k n o w l e d g ed i s c o v e r y ;d a t am i n i n g ;c l a s s i f i c a t i o n ;p r e d i c t i o n ;r e g r e s s i o n ; c l u s t e r i n g ;c u s t o m e rl o y a l t y 4 第一章绪论 第一章绪论 随着计算机与信息技术的发展,在支配人类社会三大要素( 能源、材料和信息) 中,信息愈来愈显示出其重要性和支配性,而随着人类活动范围扩展,节奏加快, 以及技术的进步,人们能以更快速容易而廉价的方式获取和存储数据,这就使得数 据和信息量以指数形式向上增长,如何有效的对现有数据进行管理,如何通过已有 的历史数据预测未来的行为,或者说从这些海量数据中发现知识,这一切导致了数 据仓库和数据挖掘领域的出现“。1 。 1 1 选题的背景和意义 随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据 越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层 次的分析,以便更好地利用这些数据。目前的数据库系统可以高效地实现数据的录 入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数 据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸 但知识贫乏”的现象。面对这一挑战,数据开采和知识发现( d m k d ) 技术应运而生, 并显示出强大的生命力。 当前,通信、计算机和网络技术正改变着整个人类和社会,而网络技术带给人 们大量的信息,大量的信息在给人们带来方便的同时也带来了大堆问题:第一是 信息过量,难以消化;第二是信息真假难以辨识;第三是信息安全难以保证:第四 是信息形式不一致,难以统一处理。为了解决这些问题而产生了数据挖掘技术。现 在,数据挖掘技术已经成为网络之后的又一个技术热点。 数据仓库的出现,为更深入地对数据进行分析提供了条件,针对市场变化的加 速,人们提出了能进行实时分析和产生相应报表的在线分析工具o l a p ( o nl i n e a n a l y t i c a lp r o c e s s i n g ) 。1 。o l a p 能允许用户以交互方式浏览数据仓库内容,并 对其中数据进行多维分析,且能及时地从变化和不太完整的数据中提取出与企业经 营活动密切相关的信息。o l a p 是数据分析手段的一大进步,以往的分析工具所得到 的报告结果只能回答“什么”( w h a t ) ,而o l a p 的分析结果能回答“为什么”( w h y ) 。 但o l a p 分析过程是建立在用户对深藏在数据中的某种知识有预感和假设的前提下, 由用户指导的信息分析与知识发现过程。但由于数据仓库内容来源于多个数据源, 因此,其中埋藏着丰富的不为用户所知的有用信息和知识,而要使企业能及时准确 第一章绪论 地做出科学的经营决策,以适应变化迅速的市场环境,就需要有基于计算机与信息 技术的智能化自动工具,来帮助挖掘隐藏在数据中的各类知识。这类工具不应再基 于用户假设,而应能自身生成多种假设;再用数据仓库( 或大型数据库) 中的数据 进行检验或验证:然后返回用户最有价值的检验结果。此外,这类工具还应能适应 现实世界中数据的多种特性( 即量大、含噪声、不完整、动态、稀疏性、异质、非 线性等) 。要达到上述要求供借助于一般数学分析方法是不能达到的。多年来,数 理统计技术方法以及人工智能和知识工程等领域的研究成果,诸如推理、机器学习、 知识获取、模糊理论、神经网络、进化计算、模式识别、粗糙集理论等等诸多研究 分支,给开发满足这类要求的数据深度分析工具提供了坚实而丰富的理论和技术基 础。2 0 世纪9 0 年代中期以来,许多软件开发商,基于数理统计、人工智能8 1 、机 器学习“1 、神经网络“儿町、进化计算嘲和模式识别“”等多种技术和市场需求,开 发了许多数据挖据与知识发现软件工具,从而形成了近年来软件开发市场的热点。 目前数据挖掘工具已开始向智能化整体数据分析解决方案发展,这是从数据到知识 演化过程中的一个重要里程碑。 1 2 国内外研究现状 从数据库中发现知识( k d d ) 一词首次出现在1 9 8 9 年8 月举行的第1 1 届国际 联合人工智能学术会议上。迄今为止,由美国人工智能协会主办的k d d 国际研讨会 已经召开了7 次,规模由原来的专题讨论会发展到国际学术大会,人数由二三十人 到七八百人,研究重点也逐渐从发现方法转向系统应用,并且注重多种发现策略和 技术的集成,以及多种学科之间的相互渗透。其他内容的专题会议也把数据挖掘和 知识发现列为议题之一,成为当前计算机科学界的一大熟点。此外,数据库、人工 智能、信息处理、知识工程等领域的国际学术刊物也纷纷开辟了k d d 专题或专刊。 1 9 9 7 年亚太地区在新加坡组织了第一次规模较大的p a k d d 学术研讨会,很有特色。 从1 9 9 7 开始已经连续五年召开数据仓库于数据挖掘年会。此外,数据库、人工智 能、信息处理、知识工程等领域的国际学术刊物也纷纷开辟了k 3 0 专题或专刊。 数据挖掘在研究和应用方面发展迅速。尤其是在商业和银行领域,其应用比研 究的发展速度还要快。目前,根据国际上数据挖掘的发展趋势,其研究主要有:对 知识发现方法的研究迸一步发展,如近年来注重对b a y e s ( 贝叶斯) 方法“以及 b o o s t i n g “方法的研究和提高;传统的统计学回归法在数据挖掘中的应用;数据挖 掘与数据库、数据仓库的紧密结合。在应用方面包括:数据挖掘商业软件工具不断 产生和完善,注重建立织决问题的整体系统,面不是孤立的过程。用户主要集中在 大型银行、保险公司、电信公司和销售业,制造业的应用也正在逐渐展开。国外很 第一章绪论 多计算机和软件公司也非常重视数据挖掘的开发应用,i b m 和微软都成立了楣应的 研究中心进行这方面的工作。目前,世界上比较有影响的典型数据挖掘系统有:s a s 公司的e n t e r p r i s em i n e r 、i b m 公司的i n t e l l i g e n tm i n e r 、s g i 公司的s e tm i n e r 、 s p s s 公司的c l e m e n t i n e 、s y b a s e 公司的w a r e h o u s es t u d i o 、r u l eq u e s tr e s e a r c h 公司的s e e 5 、还有c o v e rs t o r y 、e x p l o r a 、k n o w l e d g ed i s c o v e r yw o r k b e n c h 、 d b m i n e r 、q u e s t 等。数据挖掘试验室( w w w d a t a m i n i n g l a b c o n l ) 网站提供了许多数 据挖掘系统和工具的性能测试报告。 与国外相比,国内对数据挖掘的研究稍晚,没有形成整体力量。1 9 9 3 年国家 自然科学基金首次支持对该领域的研究项目。目前,国内的许多科研单位和高等院 校竟相开展知识发现的基础理论及其应用研究,如清华大学、中科院计算技术研究 所、空军第三研究所、海军装备论证中心等。北京系统工程研究所对模糊方法在知 识发现中的应用进行了较深入的研究。北京大学也在开展对数据立方体代数的研 究;华中理工大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所、吉 林大学等单位开展了对关联规则开采算法的优化和改造;南京大学、四川联合大学 和上海交通大学等单位探讨、研究了非结构化数据的知识发现以及w e b 数据挖掘; 我校数据仓库与数据挖掘课题组在数据仓库与数据挖掘相结合方面的研究取碍了 较大的进展,目前正积极推进研究成果在金融、统计、商业和制造业领域的应用。 随着对数据挖掘技术的研究的不断深入,相应的数据挖掘的研究重点也在不断 的扩展,当前,有关数据挖掘研究的重点主要有以下几个方面: ( 1 ) 挖掘方法与用户交户问题。 这其中涉及所挖掘知识的类型,挖掘多细度的知识,领域知识的利用,定制挖 掘和知识挖掘的可视化。 ( 2 ) 性能问题。这其中包括效率、可扩展性和数据挖掘算法的并行化等问题。 ( 3 ) 数据库类型多样化所涉及的问题“叭“ 1 3 数据挖掘研究的内容及面临的挑战 1 3 1 数据挖掘定义 数据挖掘( d a t am i n i n g ) ,也称数据库的知识发现( k n o w l e d g ed i s c o v e r yi n d a t a b a s e ) 是指从大量的、不完全的、有噪声的、模糊的、随杌的实际应用数据中, 提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,就 是利用各种包括数据仓库在内的分析工具在海量数据中发现模型和数据问关系并 做出预测的过程 1 4 1 5 o 而更广义的说法是:数据挖掘意味着在一些事实或观察数据 第一章绪论 的集合中寻找模式的决策支持过程。数据挖掘作为- n 交叉性学科,涉及到机器学 习、模式识别、统计学、智能数据库、知识获取、数据可视化、高性能计算、专家 系统等多个领域。从数据库中发现出来的知识可以用在信息管理、过程控制、科学 研究、决策支持等许多方面。随着对这种技术进行支持的三种基础技术海量数 据集、强大的多处理器计算机、数据挖掘算法的逐渐成熟,数据挖掘技术的研究也 进入了一个迅猛发展的时期。 l - 3 2 知识发现的一般过程 一甸同一黧订 图1 1 知识发现的一般过程 ( 1 ) 数据预处理 k d d 的处理对象是大量的数据,这些数据一般存储在数据库系统中,是长期 积累的结果。但往往不适合直接在这些数据上面进行知识挖掘,需要做数据准备工 作,一般来说针对源数据进行的数据准备主要包括以下几方面的内容: 1 ) 数据选择 搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖 掘应用的数据。 2 ) 数据清理 现实世界的数据一般是脏的、不完整的和不一致的。数据清理例程试图填充空 缺的值,识别孤立点、消除噪声,并纠正数据中的不一致。 3 ) 数据转换 将数据转换成一个分析模型,这个分析模型是针对挖掘算法建立的,建立一个 真正适合挖掘算法的分析模型是数据挖掘成功的关键。 4 ) 数据归约 数据归约得到数据集的压缩表示,它通常比原数据集小得多,数据归约必然会 4 第一章绪论 损失数据集中的部分信息,当损失的信息与挖掘目的相关性不大时,采用归约后的 数据集能够产生同样的( 或几乎同样的) 分析结果。 数据预处理是k d d 的第一个步骤,也是比较重要的一个步骤。数据准备是否 做好将影响到数据挖掘的效率和准确度以及最终模式的有效性。 r 2 ) 数据挖掘 数据挖掘是k d d 最关键的步骤,也是技术难点所在。研究k d d 的人员中大 部分都在研究数据挖掘技术,采用较多的技术有决策树、分类、聚类、粗糙集、关 联规则、神经网络、遗传算法等。数据挖掘根据k d d 的目标,选取相应算法的参 数,分析数据,得到可能形成知识的模式模型。 ( 3 ) 评估、解释模式模型 上面通过数据挖掘得到的模式模型,有可能是没有实际意义或没有实用价值 的,也有可能是其不能准确反映数据的真实意义,甚至在某些情况下是与事实相反 的,因此需要评估,确定哪些是有效的、有用的模式。评估可以根据用户多年的经 验,有些模式也可以直接用数据来检验其准确性。这个步骤还包括把模式以易于理 解的方式呈现给用户。 ( 4 ) 巩固知识,运用知识 用户理解的、并被认为是符合实际和有价值的模式模型形成了知识。在发现知 识的同时还要注意对知识做一致性检查,解决与以前得到的知识互相冲突、矛盾的 地方,使知识得到巩固。发现知识是为了运用,如何使知识能被运用也是k d d 的 步骤之一。运用知识有两种方法:一种是只需看知识本身所描述的关系或结果,就 可以对决策提供支持:另一种是要求对新的数据运用知识,由此可能产生新的问题, 而需要对知识做进一步的优化。 k d d 过程可能需要多次的循环反复,每一个步骤一旦与预期目标不符,都要 回到前面的步骤,重新调整,重新执行。 1 3 3 数据挖掘系统架构 一个典型的数据挖掘系统如图1 2 所示,它主要包含以下主要部件: 数据库、数据仓库或其它信息库。它表示数据挖掘对象是由一个( 或一组) 数 据库、数据仓库、数据表或其它信息数据库组成。通常需要使用数据清洗和数据集 成操作,对这些数据对象进行初步的处理。 数据仓库服务器。这类服务器负责根据用户的数据挖掘请求,读取相关的数据。 知识库。此处存放数据挖掘所需要的领域知识,这些知识将用于指导数据挖掘 第一章绪论 的搜索过程,或者用于帮助对挖掘结果的评估。 数据挖掘引擎。这是数据挖掘系统的最基本部件,它通常包含一组挖掘功能模 块,以便完成定性归纳、关联分析、分类归纳、进化计算和偏差分析等挖掘功能。 模式评估模块。该模块可根据趣味标准( i n t e r e s t i n g n e s sm e a s u r e s ) ,协助 数据挖掘模块聚焦挖掘更有意义的模式知识,当然该模块能否与数据挖掘模块有机 结合,与数据挖掘模块所使用的具体挖掘算法有关。 可视化用户界面。该模块帮助用户与数据挖掘系统本身进行沟通交流。一方面 用户通过该模块将自己的挖掘要求或任务提交给挖掘系统,以及提供挖掘搜索所需 要的相关知识;另一方面系统通过该模块向用户展示或解释数据挖掘的结果或中间 结果。 从数据仓库的角度来看,数据挖掘可以 被认为是在线分析处理( o l a p ) 的高级阶段, 但是基于多种数据理解先进技术的数据挖 掘,其数据分析能力要远超过以数据汇总为 主的数据仓库在线分析处理功能。目前市场 有许多所谓“数据挖掘系统”,实际上它们仅 仅是一个基于统计的数据分析工具,或一个 机器学习工具。数据挖掘有机结合了来自多 学科技术,其中包括:数据库、数理统计、 机器学习、高性能计算、模式识别、神经网 络、数据可视化、信息检索、图像与信号处 理、空间数据分析等,这里强调数据挖掘所 处理的是大规模数据。且其挖掘算法应是高 圜1 , 效的和可扩展的。通过数据挖掘,可从数据 库中挖掘出有意义的知识、规律,或更高层次的信息,并可以从多个角度对其进行 浏览察看。所挖掘出的知识可以帮助进行决策支持、过程控制、信息管理、查询处 理等等。因此数据挖掘被认为是数据库系统最重要的前沿研究领域之一,也是信息 工业中最富有前景的数据库应用领域之一。 1 3 4 数据挖掘的分类 由于数据挖掘源于多个学科,因此数据挖掘研究产生了大量的、各种不同类型 的数据挖掘系统。因此,就需要对数据挖掘系统给出一个清楚的分类。其中,根据 6 第一章绪论 挖掘知识类型,可以分为关联分析、分类和预测、聚类分析、特征化和区分、孤立 点分析、演变分析等等“”“”。 特征提取 特征提取目的是对数据进行浓缩,给出它的紧凑描述。作为一种数据挖掘任务, 特征提取不是数据的简单枚举,而是产生数据的特征化和比较描述,其中的特征化 提供给定数据汇集的简洁汇总,而概念或类的比较则提供两个或多个数据汇集的比 较描述。 关联分析 关联分析是指在数据库的记录或对象间抽取关联性。它展示了数据间未知的 依赖关系。根据这种关联性就可从任一数据对象的信息来推断另一数据对象的信 息。关联性是一种统计意义上的关系,并以置信度因子衡量关联的程度。因此,为 了发现出有意义的关联规则,需要给定两个阈值:最小支持度和最小可信度。目前, 关联分析研究已经从单一概念层次关联规则的发现发展到多个概念层次的关联规 则的发现。 分类分析 分类是最基本的一种认知形式。数据分类就是对数据集中的每一类数据,挖掘 出关于该类数据的描述或模型。而这些数据库中的类是事先利用训练数据建立起来 的。作为数据挖掘的个重要主题、数据分类在统计学、机器学习、人工智能等领 域中得到了较早的研究,只是近些年来,人们才将它与数据库技术结合起来解决实 际问题。在数据挖掘中,分类算法的研究成果较多,常用的数据分类算法有:c a r t , c 4 5 ,i d 3 ,s l i q 等。 聚类分析 在机器学习中,数据分类称为监督学习,而数据聚类则称为非监督学习,两者 所采用的方法相差甚远。数据聚类是将物理的或抽象的对象分成几个群体。在每个 群体内部、对象之间具有较高的相似性,而在不同的群体之间,相似性则比较低。 一般地,一个群体也就是一个类,它与数据分类不同的是,聚类结果主要基于当前 所处理的数据,事先并不知道类耳结构及每个对象所属的类别。另外,数据聚类计 算量巨大,其时间复杂度也要比数据分类大很多。 在解决实际问题时,经常要同时使用多种模式。分类分析和特征提取是使用最 普遍的模式。分类模式、回归模式、时间序列模式也被认为是受监督知识。因为在 建立模式前数据的结果是已知的,可以直接用来检铡模式的准确性,模式的产生是 7 第一章绪论 在受监督的情况下进行的。一般在建立这些模式时,使用一部分数据作为样本,用 另一部分数据来检验、校正模式。聚类分析、关联分析、序列模式分析则是非监督 知识,因为在模式建立前结果是未知的,模式的产生不受任何监督。 t 3 5 数据挖掘研究和应用的挑战性 由于数据挖掘技术的研究还很不成熟,其应用还有较大的局限性目前数据挖 掘研究和应用所面临的主要挑战是 ( 1 ) 数据挖掘的对象 更大型的数据库、更高的维数和属性之间更复杂的关系。数据挖掘要处理的数 据量通常是十分巨大的。成百上千的表,上百万条记录,数据库容量达到若干g b ( 1 0 9 ) 字节,甚至t b ( i o ”) 字节。不仅如此,更多的属性意味着高维的搜索空间,从而导 致组合爆炸。属性值之间的关系变得更加复杂,比如表现为层次结构这些因素使 得搜索知识代价极高。目前的研究发展到用并行处理或抽样的方法处理大规模数 据,获得了较高的计算效率。根据问题的定义或相关知识可以选择出需要的属性从 而降低维数。而处理属性之间的复杂关系,往往需要一些背景知识,比如不同层次 的概念所构成的概念树。 ( 2 ) 多种形式的输入数据 目前数据挖掘工具能处理的数据形式有限。一般可以处理数值型的结构化数 据,但大多不能对文本、图形、数学公式、图象或* 珊资源等这些半结构、无结构 的数据形式进行采掘操作。另外的挑战是数据本身存在缺损或噪声,特别是在商业 数据库中。 ( 3 ) 用户参与和领域知识 有效的决策过程往往需要多次交互和多次反复。目前的数据挖掘系统或工具很 少能真正做到让用户参与到采掘过程中。用户的背景知识和指导作用可以加快采掘 的进程,并且保证发现的知识的有效性。将相关领域的知识融入数据挖掘系统中是 一个重要但没有很好解决的问题。 ( 4 ) 证实( v a l i d a t i o n ) 技术的局限 数据挖掘使用特定的分析方法或逻辑形式发现知识,比如归纳或演绎。但是系 统可能没有能力去交互证实( c r o s s v a l i d a t i o n ) 发现的知识,使得发现的知识没 有普适性而不能成为有用的知识。另一种情况是待采掘的数据本身就可能是存在错 误的,数据挖掘技术必须具有足够的鲁棒性,能够确定结论具有何种程度的有效性。 同样,还应该可以解释为什么存在与那些普遍规则不一致的例外情况。 ( 5 ) 知识的表达和解释机制 8 第一章绪论 许多应用中重要的是用户能够理解发现的知识。这要求知识的表达不仅限于数 字或符合,而是更容易理解的方式,如图形、自然语言和可视化技术等。数据挖掘 系统指出它发现了新的知识,并且能以关系、规则和概念等形式把知识表达出来, 但是用户不知道这种发现的基本原理。只有当数据挖掘系统能提供更好的解释机 制,用户才能更有效地评价这些知识。并且区分出哪些是真正有用的知识,哪些只 是常识往的知识或异常情况。 ( 6 ) 知识的维护和更新 新的数据积累可能导致以前发现的知识失效。这些知识需要动态维护和及时更 新。目前研究采用增量更新的方法来维护已有的知识,比如d w c h e u n g 等提出了 维护关联规则的增量算法。 ( 7 ) 支持的局限及与其他系统的集成 目前的数据挖掘系统尚不能支持多种平台。一些产品是基于p c 的,一些是面 向大型主机系统的,还有一些是面向客户机服务器环境的。有的系统对于数据库 中包含的域或记录是有限制的,例如要求数据文件为特定的大小,或者转化为特定 的数据库管理系统( d b m s ) 识别的格式。但是,数据重定义的费用可能是十分昂贵的。 另外的挑战是数据挖掘系统和其他决策支持系统的有机集成,特别是和一些用户已 经熟悉的系统结合在一起,这对于系统充分发挥作用是非常重要的。 1 4 论文的主要内容 本课题针对数据挖掘中用于预测的两种模式分类和回归进行研究;提出了 忠诚度趋势预测算法( l t p a ) ;在模式和算法研究的基础上,作为应用实例,针对 企业中的客户忠诚度分析阋题,构建了客户忠诚度分析系统,并利用该系统对海尔 的客户忠诚度进行分析。通过该系统的运行结果验证了忠诚度趋势预测算法对于企 业客户忠诚度的预测分析是有效的。 首先,通过对数据挖掘的产生发展的过程的分析,指出了课题的研究背景及其 重要的研究意义;从数据挖掘的理论研究和应用研究方面,对当前数据挖掘的国内 与国外的研究动态进行分析,并就当前数据挖掘研究重点问题作了详细介绍;分析 了知识发现一般过程中各模块的主要功能,并对其中采用的数据挖掘的技术作了详 细阐述。 其次,介绍分类和回归的相关算法,具体分析各个算法的主要内容,总结比较 各个算法的优劣及其适用范围,并重点对线性回归尤其是多元线性回归和c a r t 分 类算法进行研究,在此基础上构建客户忠诚度分析系统。 9 第一章绪论 然后,通过对海尔客户关系数据的分析,利用构建的客户忠诚度分析系统,对 海尔的客户忠诚度进行了分析。详细阐述了选取和处理客户忠诚度分析数据的过程 及方法,最终预测出客户的忠诚度变化趋势。 最后,对全文工作进行总结,指出本课题研究中存在的问题和对今后研究工作 的展望。 1 0 第二章分类和预测 第二章分类和预测 分类和预测“”是两种数据分析形式,可以用于提取描述重要数据类的模型或预 测未来的数据趋势。然而,分类是预测分类标号( 或离散值) ,而预测是建立连续 值函数模型。例如,可以建立一个分类模型,对银行贷款的安全或风险进行分类; 同时可以建立预测模型,给定潜在顾客的收入和职业,预测他们在计算机设备上的 花费。许多分类和预测方法已北机器学习、专家系统、统计学和神经生物学方面的 研究者提出。大部分算法是内存驻留算法,通常假定数据量很小。最近的数据库挖 掘研究建立在这些工作之上,开发了可伸缩的分类和预测技术,能够处理大量的、 驻留磁盘的数据。这些技术通常考虑并行和分布式处理。 2 1 什么是分类、预测 数据分类( d a t a c l a s s i f i c a t i o n ) 是一个两步过程。第一步,建立一个模型, 描述预定的数据类型或概念集。通过分析有属性描述的数据库元组来构造模型。假 定每个元组属于一个预定义的类,由一个称作类标号属性的属性确定。对于分类, 数据元组也称作样本、实例或对象。为建立模型而被分析的数据元组形成训练数据 集。训练数据集中的单个元组称作训练样本,并随机的由样本群选取。由于提供了 每个训练样本的类标号,该步也称作有指导的学习( 即模型的学习在被告知每个训 练样本属于哪个类的“指导”下进行) 。他不同于无指导的学习( 或聚类) ,那里每 个训练样本的类标号是未知的,要学习的类集合或数量也可能事先不知道。通常, 学习模型用分类规则、判定树或数学公式的形式提供。第二步,使用模型进行分类。 首先评估模型( 分类法) 的预测准确率。模型在给定测试集上的准确率是正确被模 型分类的测试样本的百分比。如果模型的准确率根据训练数据集评估,评估可能是 乐观的,因为学习模型倾向于过分适合数据,即它可能并入训练数据中某些特别的 异常,这些异常不出现总体样本群中,因此,使用测试集。如果认为模型的准确率 可以接受,就可以用它对类标号未知的数据元组或对象进行分类。 预测( p r e d i c t i o n ) 是构造和使用模型评估无标号样本类,或评估给定样本 可能具有的属性值或区间值。在这种观点下,分类和回归是两类主要预测问题。其 中分类是预测离散或标称值,而回归用于预测连续或有序值。 第二章分类和预测 2 2 决策树基本算法 2 2 1 决策树生成算法 作为分类器,决策树是一棵有向、无环树。本节以二叉决策树为例给出相关概 念的描述。树中的根结点没有副节点,所有其他节点都有且只有1 个父节点;1 个 节点可以有1 2 个或没有子节点。如果节点没有子节点,称其为叶节点( l e a f n o d e ) ;其他的称为内部节点( i n t e r n a ln o d e ) 。每个叶节点都对应一个类别标识c 的值:每个内部节点都对应一个用于分割数据集的属性墨,称为分割属性 ( s p l i t t i n ga t t r i b u t e ) ;每个内部节点都有一个分割判断规则g ,( s p l i t t i n g p r e d i c a t e ) :如果置是连续属性的,那么吼的形式为置。其中t d o n ( 置) ,葺 就是节点n 的分割点;如果一是离散属性,那么g ,的形式为五z ,其中i 就成为 节点n 的分割子集。节点n 的分割属性和分割判断规则组成了节点n 的分割标准。 决策树分类器算法通常分为两个阶段:决策树构建( b u i l d i n g ) 和决策树修剪 ( p r u n i n g ) 。 决策树构

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论