(系统工程专业论文)基于数据挖掘的智能客户关系管理系统研究.pdf_第1页
(系统工程专业论文)基于数据挖掘的智能客户关系管理系统研究.pdf_第2页
(系统工程专业论文)基于数据挖掘的智能客户关系管理系统研究.pdf_第3页
(系统工程专业论文)基于数据挖掘的智能客户关系管理系统研究.pdf_第4页
(系统工程专业论文)基于数据挖掘的智能客户关系管理系统研究.pdf_第5页
已阅读5页,还剩51页未读 继续免费阅读

(系统工程专业论文)基于数据挖掘的智能客户关系管理系统研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

哈尔滨理工大学工学硕士学位论文 基于数据挖掘的智能客户关系管理系统研究 摘要 智能客户关系管理系统( i c r m ) 是客户关系管理系统( c r m ) 引入人 工智能技术后的产物,是目前c r m 的前沿研究领域,数据挖掘是提高其决 策支持能力的一种重要工具和手段。研究数据挖掘的相关理论和方法及其在 c r m 中的应用具有重要的理论意义和实用价值。 数据挖掘是从大量的历史数据中发现隐含的、有潜在应用价值并最终能 被人理解的知识的过程。在决策领域,人们所面对的数据往往具有不确定性 和不完整性,从这类数据中发现知识是一个非常困难的问题。本文针对客户 关系管理系统的特征,分析了数据挖掘过程的步骤和特点;为适应当前客户 关系管理系统更依赖于商业智能分析的特点,提出了应用聚类算法和粗糙集 理论的解决方案;在深入研究模糊聚类算法的缺陷后,给出了其相应改进算 法,并应用于客户分类规则发现,在此基础上结合租糙集理论进行了更深层 次的决策规则挖掘。具体的研究内容如下: 1 本文对支持多数据集、多学习目标的数据挖掘处理过程进行了讨论。 数据处理过程模型化能更适合实际工作的需要,降低用户和数据挖掘人员之 间的影响因素,促进数据挖掘的应用。 2 通过对传统聚类算法的具体性能、缺点的分析研究,利用聚类有效性 函数来解决聚类效果最佳问题,采用自动循环迭代策略来生成聚类有效数 目,在f k m 算法基础上本文提出了新的改进算法一一f k m a 算法,并将其应用 与客户分类规则的挖掘。 3 在客户分类规则基础上,探讨了粗糙集用于不确定性和不完全性客户 信息系统中的知识约简、导出问题的决策或分类规则的具体步骤,设计了一 套用于粗糙集中相关数字量和集合量的计算方法,从而得到较高精度的决策 规则集合。 4 在上述工作的基础上,研究了基于数据挖掘数据分析( d m a ) 的智能 决策支持系统的体系结构,同时结合现代客户关系管理理念,研究了基于数 据挖掘分析的智能c r m 系统的体系,给出了功能结构设计方案。 本文在一定程度上解决了从确定性系统和不完全信息系统中发现知识的 哈尔滨理工大学工学硕士学位论文 伺题,为数据挖掘在客户关系管理系统中的应用提供了更加广阔的空间。 关键词数据挖掘;客户关系管理;模糊聚类;粗糙集 哈尔滨理工大学工学硕上学位论文 s t u o y o fi n t e l l i g e n tc u s t o m e rr e l a t i o n s h i pm a n a g e m e n t s y s t e mb a s e d o nd a t am i n i n g a b s t r a c t i n t e l l i g e n tc u s t o m e rr e l a t i o n s h i pm a n a g e m e n ts y s t e m ( i c r m ) ,w h i c h i s t h ec o m b i n a t i o no fc r m sa n da r t i f i c i a li n t e l l i g e n c e ,i sap r o m i s i n gr e s e a r c ha r e a d a t am i n i n gi sa ni m p o r t a n tt o o lt oi m p r o v ei t sa b i l i t i e so fm a n a g e m e n td e c i s i o n s u p p o i t d a t am i n i n gi st h ep r o c e s so fd i s c o v e r i n gc o n n o t a t i v e ,p r e v i o u s l yu n k n o w n , p o t e n t i a l l yu s e f u la n du n d e r s t a n d a b l ei n f o r m a t i o nf r o ml a r g ed a t a s e t s d a t af r o m t h ed a t a b a s eo fd e c i s i o nd o m a i ni so f t e nu n c e r t a i na n di n c o m p l e t e 。a n dr e s u l t i n g d i f f i c u l t yo fk n o w l e d g ed i s c o v e r yf r o mt h i sk i n do fd a t a t h i sp a p e ra i m e dt o t h ec h a r a c t e r i s t i co fc u s t o m e rr e l a t i o n s h i pm a n a g e m e n ts y s t e m ,i ti sa n a l y z e dt h a t t h e s t e p a n dc h a r a c t e r i s t i co ft h ed a t am i n i n gc o u r s e ;f o rm e e tc u s t o m e r r e l a t i o n s h i pm a n a g e m e n ts y s t e mw h i c hd e p e n do nb u s i n e s si n t e l l i g e n c ea n a l y s e s e0 e nm o r et h a nb e f o r e h a v ep u tf o r w a r dt h es o l u t i o nb a s e do nt h ec l u s t e r s c l g o r i t h ma n dr o u 曲s e tt h e o r y a f t e rf u r t h e ri n v e s t i g a t i n gt h ed e f e c to ft h ef u z z y a s t e r s a l g o r i t h m ,p r o v i d ei t s a n di m p r o v ea l g o r i t h m s c o r r e s p o n d i n g l y ,a n d ap p l i e dt ot h ec r m st of i n dc a t e g o r i z e dr u l e ,c o m b i n i n gt h er o u g hs e tt h e o r yo n t h eb a s i so ft h i sf o u n d a t i o nt om i n i n gt h ed e e p e rd e c i s i o nr u l e t h ec o n c r e t e r e s e a r c hc o n t e n t sa r ea sf o l l o w s : 1 、t h i sd i s s e r t a t i o nd i s c u s st h ed a t am i n i n gd i s p o s ep r o c e s sw h i c hc a n s u p p o r tm a n yd a t ac o l l e c t i o n sa n dm a n yg o a l s t h ec o u r s em o d e lo fd a t a p r o c e s s i n gc a nb em o r es u i t a b l ef o rt h en e e do ft h ep r a c t i c a lw o r k ,c a nr e d u c et h e i nf l u e n c ef a c t o rb e t w e e nt h eu s e ra n dd a t a m i n i n gp e o p l e ,p r o m o t i n gt h e a p p l i c a t i o no fd a t am i n i n g 2 、t h r o u g ht h ea n a l y s i sa n dr e s e a r c ho ft h ep e r f o r m a n c e ,s h o r t c o m i n go f t h et r a d i t i o n a lc l u s t e r sa l g o r i t h m ,u t i l i z ec l u s t e rv a l i d i t yf u n c t i o ns o l v et h eb e s t c l u s t e rr e s u l tp r o b l e m ,a d o p ta u t o m a t i cc i r c u l a t i o ns t r a t e g yt op r o d u c ec l u s t e r s v a li dn u m b e r s ,t h i sn o d u l e sh a sp u tf o r w a r dan e wi m p r o v e m e n ta l g o r i t h mo n - 1 1 1 童童董耋三奎兰三兰鎏老兰堡篓圣 t h eb a s i so ff k ma l g o r i t h m r f k m aa l g o r i t h m ,a p p l i e di tt ot h ec u s t o m e r c l a s s i f i e dr u l em i n i n g 3 、o nt h ef o u n d a t i o no ft h ec u s t o m e rc l a s s i f i e d r u l e ,p r o b ei n t o t h e k n o w l e d g er e d u c t i o nb yr o u g hs e ta p p l i e di n t ou n c e r t a i n t ya n di n c o m p l e t e n e s s c u s t o m e ri n f o r m a t i o ns y s t e ma n dt h ec o n c r e t ea p p r o a c hw h i c hc a ne d u c et h e p r o b l e md e c i s i o n so rc l a s s i f i e dr e g u l a t i o n s o n es e to fc o m p u t i n gm e t h o d sh a s b e e nd e s i g n e df o rr e l e v a n tn u m e r i ca m o u n ta n dc o l l e c t i o n sq u a n t i t yo fr o u g hs e t , t h u sr e c e i v e dt h em o r eh i g h - a c c u r a c yd e c i s i o nr u l es e t 4 、o at h eb a s eo fa b o v e - m e n t i o n e dw o r k ,r e s e a r c h e dt h es t r u c t u r eo fi d s s a s e do nt h ed m a ,c o m b i n i n gt h em o d e r nc i l s t o m e rr e l a t i o n s h i pm a n a g e m e n t a r e a ,e m p h a s e so nt h es y s t e mo fi n t e l l i g e n tc r m ,p r o v i d et h ep l a no fd e s i g n u n c t i o ns t r u c t u r e t h er e s e a r c hw o r ki nt h e d i s s e r t a t i o nh a sp a r t l ys o l v e dt h ep r o b l e m so f d i s c o v e r i n gk n o w l e d g ef r o mt h ed a t aw h i c hi sc e r t a i no ri n c o m p l e t e ,m a d ei t f o s s i b l ef o rt h ed a t am i n i n ga n a l y s i st e c h n i q u et ob ef u r t h e ra p p l i e dt oc u s t o m e r t h et i o n s h i pm a n a g e m e n td e c i s i o n k e y * o r d sd a t am i n i n g ;c r m ;f u z z yc l u s t e r i n g ;r o u g hs e t 【v 哈尔滨理工大学工学硕士学位论文 11 课题背景 第1 章绪论 1 1 客户关系管理企业利润的源泉 在目前竞争日益激烈的知识经济环境下,客户关系已不再是简单的电话关 怀或嘘寒问暖,一条信息一个决策都会影响到企业原有客户和潜在客户的去 留,可以决定企业的成败。如何挽留老客户,并拓展新客户,对任何企业都显 得至关重要。客户关系管理( c u s t o m e rr e l a t i o n s h i pm a n a g e m e n t ,简称c r m ) 指 企业通过富有意义的交流沟通,理解并影响客户行为,最终实现提高客户获 得、客户保留、客户忠诚和客户创利目的反复循环的过程,是一种旨在改善企 业与客户之间关系的新型管理机制【1 1 。它实施于企业的市场营销、销售、服务 与技术支持等与客户有关的商务领域。其核心思想是以“客户为中心”,提高 客户满意度,改善客户关系,从而提高企业的竞争力。c r m 实现了客户服务 的协同管理,一旦一个客户进入企业的视野,有关他的各种信息就进入到 c r m 系统内部,下次再接到他的消息时,销售人员就可以通过数据库,发现 该客户与公司以前的业务往来;何时购买过何种产品、配置如何、数量多少, 一目了然。这样销售人员就能马上响应客户的服务要求,有时甚至连客户自己 郡岔为销售人员对其需求了解之全面而感到惊讶。客户感到了企业对他的尊重 和关怀,对企业就会更加信任,这将有利于企业拓展产品线或服务范围。另 外,比响应服务更主动的方式是销售人员经常与客户保持沟通联络,主动询问 客户对产品和服务的使用感受、新的需求。c r m 的实质就是通过供应链客户 端的延伸,针对特定市场区段的客户来进行专门化的销售和服务,实现对客户 资源的服务增值。现在c r m 已成为业界最流行的术语。作为一种管理企业的 上帝客户的系统,c r m 是目前全球最炙手可热的市场之一。 2 数据挖掘技术信息时代的利器 e 世纪的来临加上互联网络的发达,使我们能够快速的取得资料,数据库 中存储的数据量急剧增大,在过去的二三十年里,无论是商业公司、科研机构 哈尔滨理工犬学工学硕士学位论文 还是工业企业、政府部门,计算机应用系统得到了迅速推广。系统所收集的数 据急剧膨胀,全球的信息量每2 0 个月就翻一倍嘶”。然而目前用于对这些数据 进行分析处理的工具却很少,这就造成了现代企业普遍面临的问题:资料太 多,信息不足。随着企业成长及规模的扩大,一般公司内部每天要处理的资料 量与日递增。快速、准确、高效地收集和分析信息是企业提高决策水平和增强 企业竞争力的重要的手段,作为管理人员,常常可能为了产生一张报表而花费 整整一个礼拜的时间来搜集、分析、处理各方的资料,最后再辛辛苦苦地将所 搜集到的原始资料转化成有用的信息。如此,在讲求速率的时代,企业即失去 了竞争力。在大量的企业数据背后隐藏着许多重要信息,但由于人们目前所使 用工具的局限性而无法将其快速有效地挖掘出来,而这些重要信息可以很好地 支持人们的决策。目前数据库系统所能做到的只是对数据库中己有的数据进行 存取,人们通过这些数据所获得的信息量仅仅是整个数据库所包含的信息量的 一部分,隐藏在这些数据之后的更重要的信息是关于这些数据的整体特征的描 述及对其发展趋势的预测,这些信息在决策生成的过程中具有重要的参考价 值。 现在任何商业成功的一个关键因素是企业有效利用信息的能力。要利用数 据作战略决策,就必须发现关于消费者、销售商和供应商那些隐藏的、以前未 发现的和经常出现的极有价值的情况,行业趋势和方向及其他有意义的因素。 了解这些信息,一个企业就可以系统地得出有效的商业、推销和销售策略;精 确定位促销活动的目标;发现和了解新的市场;在商业竞争中获胜。这种旨在 帮助制定策略的有前途的新技术就是数据挖掘。 数据挖掘方法的提出,让人们有能力最终认识数据的真正价值,即蕴藏在 数据中的信息和知识。数据挖掘指的是从大型数据库或数据仓库中提取人们感 兴趣的知识,这些知识是隐含的、事先未知的、有潜在用途的信息【4 1 。数据挖 掘是目前数据库和信息决策领域的最前沿研究方向之一,引起了学术界和工业 界的广泛关注。一些著名的工业研究实验室如i b ma l m a d e n 及g t e ,众多的学 术单位如u cb e r k e l e y ,都在此领域开展了各种各样的研究,研究的主要目标 是发展有关的方法论、理论和工具,以支持完成数据挖掘目标f 一。 使用数据挖掘技术的机构由于发现了分析人员发现不了的隐含的关系、模 式、出人意料但有价值的事实、趋势、例外和异常等,从而对各自的行业有了 更深的了解。这表明,虽然数据挖掘是一门新兴学科,但已在经济界显示出巨 大的潜在价值。 2 哈尔滨理工大学工学硕士学位论文 1 2c r m 的发展现状及前景 在世界范围内,c r m 自1 9 9 7 年以来一直处于爆炸式的快速发展之中,其 主要的应用领域集中在制造业、电信业、公共事业、金融服务业和零售业等行 业,许多新兴的企业如亚马逊( a m a z ) 和思科( c i s c o ) 等已率先成为c r m 的使 用者和受益者。客户关系管理系统也成为了管理软件厂商追逐的热点之一,以 o r a c l e ,s i e b e l ,i b m 等为代表的一批顶级r r 企业都表现出对c r m 前景坚 定的信心,已开始在此领域部署解决方案。o r a c l e ,s i c b e l 等软件巨头也己经 将c r m 视为未来的重要发展方向,成为c r m 应用中的主流厂商,近年来, 随着网络经济迅猛发展起来的软件公司,s y b a s e ,p e o p l es o f t ,o n y x 等在利用 互联网构建企业c r m 方面表现也十分卓越。连传统玎产业的代表l b m 公司 也表示将为c r m 的发展增砖添瓦,i b m 公司全球产业部总经理l i n d as a n f o r d 称嘲:“i b m 公司己经将c r m 作为一个主要领域,它将为c r m 提供专门的技 术。”而众多的c r m 渠道和咨询公司也在力争占领新市场的份额,安盛、德 勤、普华永道等咨询大公司己经开始提供c r m 的咨询,此外还迅速崛起了很 多i - c o n s u l t i n g 公司。因为对他们来说,这一潜在市场的服务收入将发展成其 收入增长的重要来源。 人们普遍认为,c r m 将成为现代企业提高竞争力,在成熟市场中高效动 作并获取稳定利润的法宝。来自国外的统计数据表明,c r m 正成为一个新兴 的产品和服务市场。据国际数据集团( i d c ) 对欧美3 0 0 家企业所做的调查显 示,不管美国还是欧洲的企业都正在增加对c r m 软件的预算,这3 0 0 家企业 1 9 9 8 年平均花费3 1 0 万美元在c r m 系统的硬件和软件上,计划每年的预算将 平均提高8 0i d c 还预期全球c r m 市场将以每年4 0 的成长率,从1 9 9 8 年 的1 9 亿美元增长到2 0 0 3 年的1 1 0 亿美元【l 。在美国,尽管目前美国的c r m 市场开发利用率目前尚不到2 5 ,但它将以4 4 的年复合率迅猛发展,根据 a m rr e s e a r c h 的研究和预测,美国到2 0 0 3 年用于实施c r m 的预算可能达到 1 6 8 亿美元,目前软件行业前五大c r m 厂商会则占领4 0 的市场份额嘲。最乐 观的预测来自专门从事市场研究的m e t a g r o u p 公司,其报告显示全球的 c r m 市场正以每年5 0 的速度增长,这意味着全球c r m 市场2 0 0 5 年的销售 额将跃升至6 7 0 亿美元。m e t ag r o u p 还指出,未来企业在c r m 上的投入将 赶上并超过e r p ,到2 0 0 4 年,分析、咨询和系统集成服务将成为c r m 市场 中的生力军,其年增长率将达到惊人的8 2 。 3 哈尔滨理工大学工学硕士学位论文 当c r m 日益成为国际软件市场新宠之际,在中国,尚属“新生事物”的 c r m ,其认知程度及受关注状况也正在加热过程中。可以预期,中国企业将在 未来不长的时间内,也将掀起新一轮的“c r m 波澜”。 总之,作为一种跨知识管理、业务运作和电子商务等系统的融合概念,客 户关系管理正在变革广大企业的营销观念,改善企业与客户之间的关系,在激 烈的市场竞争中,c r m 正在逐渐成为现代企业生存的根本和制胜的关键。 1 3c r m 所面临的问题 c r m 在国内还是一个比较新的概念。面对企业的巨大需求,许多公司形成 了多种多样的客户关系管理解决方案,但从总体上讲,目前的这些c r m 产品还 远未达到人们对数据访问、分析处理的期望。 任何c r m 系统都应该使每个人,包括从销售人员到客户代表、分析人员和 其他团体,很容易地得到数据。一般而言,企业的不同系统之间的数据流动很 少能达到无缝联结f 9 l 。例如,销售人员经常得不到自己服务地区客户的数据。 假设一个顾客给呼叫中心打电话,并与一个销售代表交谈,提出了某些意见或 者要求。尽管电话已得到记录,但外面的销售人员仍不可能得到谈话细节,他 也就不能对顾客做出相应的响应;或者,指派的销售人员只有在他下次访问顾 客时才能发现这些先前没有解决的问题。 随着数据库技术的迅速发展以及数据库管理系统的广泛应用,企业中积累 的数据越来越多。庞大的数据背后隐藏着许多重要的信息,人们希望能够快速 有效地对其进行更高层次的分析,以便更好地利用这些数据,有助于决策支 持。而目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,却 无法发现数据中存在和隐含的关系和规则,无法根据现有的数据预测未来的发 展趋势。 在客户关系管理的众多的研究领域中,数据挖掘技术研究已经受到越来越 广泛的重视。数据挖掘包含了一系列旨在从数据集中发现有用而尚未发现的模 式的技术,数据挖掘软件能自动地从庞大的数据集中找出好的预测客户购买行 为的模式,帮助企业确定客户的特点,从而可以为客户提供有针对性的服务 【埘。 现阶段,c r m 的研究仍处于一个方兴未艾的阶段。如何优化和完善现有的 c r m 系统,使其更好地为企业服务己成为客户关系管理未来研究的重要方向。 4 堕查鎏矍三查兰三兰璧圭兰竺鎏兰 1 4 基于数据挖掘的智能客户关系管理系统 c r mf c u s t o m e rr e l a t i o n s h i pm a n a g e m e n t ) 作为企业的一项商业决策,它按 照客户的分割情况有效地组织企业资源,培养以客户为中心的经营行为以及实 施以客户为中心的业务流程,并以此为手段来提高企业的获利能力、收入以及 客户满意度。c r m “以客户为中心”的理念要求企业对自己的客户有最全面深 入的了解,数据挖掘技术恰好可以为c r m 提供分析与决策的技术支持。数据挖 掘技术作为对客户信息进行深入分析的手段,是c r m 系统中的核心技术。挖掘 过程可以自动的,也可以是人工指导的。人工指导的系统缺点是待搜索的模式 由用户构想,不明显的模式发现不了。0 l a p 和查询与报表工具均属于人工指导 的系统,而数据挖掘工具是考虑到用户偏好的自动或半自动发现工具。 基于数据挖掘的智能客户关系管理系统具有以下几个明显的特点: ( 1 ) 获得的知识独立于问题本身; ( 2 ) 知识的获取主要通过数据挖掘实现; ( 3 ) 数据挖掘往往会产生意想不到的决策建议; ( 4 ) s o l 查询需要用户知道数据库结构,而数据挖掘面对的是进一步的抽 象,用户不需要对所操作的数据库精确知道,而是只需要定义一个基于数据挖 掘系统的抽象目标。 同时,数据挖掘的应用也带来了一些新问题。 ( 1 ) 数据本身具有权威性、客观性,但不具备知识性。因此选择恰当的方 法表示知识、描述知识的可靠性是数据挖掘的一项重要任务。 ( 2 ) 应用领域的数据大多是动态地随时间变化的,可能使得原先发现的知 识失去效用;但从另外一个角度看,数据的时序性又成为开发强有力的知识发 现系统提供了潜在的舞台。 ( 3 ) 目前许多知识发现系统和工具缺乏和用户的交互,在知识的发现过程 中,难以充分有效的利用领域知识。 ( 4 ) 当发现搜索空间很大时,就会获得许多发现结果,其中有些是偶然 的,盲目的,这时可以利用领域知识进一步精炼所发现的模式,从中提取有用 的知识。 ( 5 ) 技术问题:如数据存储状态、数据遗漏、具有噪音、信息不完整等。 5 哈尔滨理工大学工学硕士学位论文 1 5 本文的主要研究内容及结构安排 1 5 1 研究内容 本文针对客户关系管理系统研究中所遇到的困难,对数据挖掘领域中的聚 类分析算法、粗糙集数据分析算法进行了初步研究和探讨,研究了基于数据挖 掘算法的智能客户关系管理系统,该系统能够发现大量隐含在数据中的有价值 的客户知识并为管理决策者提供决策支持。针对此研究目的,本文重点研究以 下几方面的内容: 1 本文对支持多数据集、多学习目标的数据挖掘处理过程模型进行了讨 论。数据处理过程模型化能更适合实际工作的需要,并能使用户和数据挖掘人 员之间的影响尽量小,促进数据挖掘的应用。 2 考虑到聚类有效性函数通过紧密型和分离性间的关系能说明聚类的关 键含义“类内相似最大,类间相似最小”的原理,本文利用聚类有效性函数来 解决聚类效果最佳问题,采用自动循环迭代策略来生成聚类有效数目。在此基 础上本文提出了改进算法:f k m a 算法。研究实例表明,该算法可有效地进行客 户分类规则发现。 3 本文从粗糙集理论中定义和概念出发,系统地设计了一套求解粗糙集 理论所涉及的数字量和集合量算法;结合客户分类决策表应用设计的算法分析 了粗糙集导出精简的决策规则集的一般步骤。 4 本文针对数据挖掘算法的数据分析特点,研究了i d s s 的框架结构。 5 在上述研究的基础上,运用现代客户关系管理理论构建了一个基于数 据挖掘算法得智能客户关系管理系统,并设计了系统各个模块的功能组成。 1 5 2 结构安排 本文根据研究内容共分为五章。 第一章绪论 本章分析了决策支持系统的研究现状及其存在的问题,阐述了数据挖掘在 决策支持中的作用以及基于数据挖掘分析的智能决策系统得特点,针对本文的 研究目标确定了本文的研究内容。 第二章数据挖掘过程及方法 6 哈尔滨理工大学工学硕士学位论文 本章重点介绍了数据挖掘的概念、过程以及两种驱动策略,提出数据挖掘 是以数据为中心,用户、i t 工程师和领域专家共同参与的具有反馈、人机互动 的处理过程,最后总结了数据挖掘的目标。针对确定性和不确定性问题,概述 了各自的挖掘方法及其特点。 第三章数据挖掘中聚类模型的研究 本章首先介绍聚类算法基本理论及其拓展模型:给出了聚类算法的基本算 法,通过对聚类算法的深入分析和研究,本文提出了一种基于有效性函数的新 的改进算法:f k m a 。理论分析表明该算法能实现有效聚类,实现聚类数目的自 动优化。 第四章数据挖掘中粗糙集模型的研究 深入阐述了粗糙集基本原理,分析了粗糙集理论在实际应用中存在的困 难,本章还系统地分析了一套求解粗糙集理论所涉及的数字量和集合量的算 法,并结合客户关系管理中的客户分类规贝i j 设计了一个实例,从中我们可以清 楚地看到粗糙集数据分析的特点和过程。 第五章d m a - - i c r m 系统的结构与功能设计 在前面各章基础上,研究了基于数据挖掘分析的智能决策支持系统的结 构,设计了一个基于数据挖掘数据分析的智能决策支持系统d m a i d s s ,并将其 应用于客户关系管理系统中的方案优化。 7 哈尔滨理工大学工学硕士学位论文 第2 章数据挖掘过程及算法 在“数据挖掘”名词出现之前,统计学、机器学习、数据库、神经网络、 模式识别、经济计量学等领域的研究人员都各自开展这方面的研究,不同领域 的研究相互独立,而领域外的人很难学习和了解他们的技术。由于缺少一个名 词让学术外的潜在用户感兴趣。他们把研究成果应用到解决实际问题的努力并 未引起广泛的关注。“数据挖掘”将所有独立的研究工作统一在下列前提下: 数据库中存在许多有价值的知识,但由于数据量的巨大及其快速膨胀,在计算 机上运行高级算法来寻找知识比分析师靠手工搜索、查询获得知识有效。数据 挖掘的其他称呼有数据库中的知识发现( i ( d d ) 、数据考古、数据发掘及智能数 据分析。 2 1 数据挖掘概念及过程 定义2 1k d d 是从大量数据中提取可信的、新颖的、有效的并最终能被 人理解的模式的处理过程【1 1 j 。 按照f a y y a d 的定义,知识的概念是有量度的,它必须具有有用、正确或有 效、新颖、易懂等特点:其过程般包括试验、反复、用户的交互作用以及许 多初步的决策、定制等步骤;数据挖掘过程是复杂的、艰难的。 数据挖掘有以用户为中心的处理模型【1 5 】和多阶段处理模型j 【1 2 】【”】【“】。以用 户为中心的处理模型认为数据库中的数据挖掘应该更着重于对用户进行数据挖 掘的整个过程的支持,用户根据数据库中的数据,提出一种假设模型,然后选 择有关数据进行知识挖掘,并不断对模型的数据进行调整优化。对于多处理阶 段模型,用户将数据库中的数据挖掘看作是一个多阶段的处理过程,在整个数 据挖掘的过程中包括很多处理阶段,首先在问题的定义阶段,由于领域专家对 该领域内需要解决的问题非常清楚,由领域专家向数据挖掘人员解释要求解的 问题,数据挖掘人员将数据挖掘采用的技术及能解决问题的种类介绍给领域专 家。双方经过互相了解,对要解决的问题有一致的处理意见,包括问题的定义 及数据的处理方式。在数据挖掘人员得到准确的问题定义和分析后,开始收集 需要使用的数据,进行再加工以使得数据更适合后面的挖掘方法使用。根据解 决问题的需要选择合适的挖掘算法。提取出来的知识需要向领域专家进行解 释,以对知识及整个过程进行评价。图2 1 是典型的多阶段处理模型( 1 4 1 。 8 哈尔滨理工大学工学硕士学位论文 _ 口= 目e = = l - _ 口口目自e 日目1 1 1 日t e i i i i 日 定义问题 抽取数据净化致据数据工程算法工程运行挖掘算法, 析结果 圈2 - 1g e o r g e j o h n 模型 f 垮m2 - 1g e o r g e j o h n m o d e l 上述两种模型分别强调了对用户支持的重要性和数据挖掘专家与领域专家 在任务定义阶段及结果评价阶段合作的重要性,数据挖掘过程主要由i t 工程师 完成,忽略了用户与领域专家对中闽各个阶段的参与,这往往导致挖掘结果与 预期目标出现较大偏离。虽然我们希望挖掘过程能在不需要用户或领域专家干 预下自动执行。但实际情况是在算法执行过程中很多参数需要由用户或领域专 家给出、一些中间结果需要由用户或领域专家进行选择,因此,在数据挖掘过 程的各个阶段,都要有相应的人员参与其中,使挖掘过程有序地按目标执行。 因此本文给出的数据挖掘定义为: 定义2 2 数据挖掘是以数据为中心,利用各种分析工具,由用户、r r 工程 师及领域专家等人员共同参与,从海量历史数据集中发现隐含的( 预先未知、 新颖) 、有潜在应用价值并最终能被人理解的知识的具有人机互动的处理过 程。 通过对问题的定义,领域专家和数据挖掘专家起使问题足够具体以便能 够解决且所得结果可测。领域专家提出的问题对他自己来说可能是清楚的,关 键是要让数据挖掘人员理解且能选择恰当的解决方案。以选择减少客户流失方 案为例,专家提出的问题可能是“选择最佳减少客户流失方案”。而数据挖掘 人员在解决此闯题时认为对于给定的当前客户信息,能够建立一个模式预测某 个方案对该客户是否有效。然而即使能够建立一个非常精确的模型,但企业不 愿意采取相应的手段或无法采取该手段,该模型也就无任何实际意义。因此在 问题描述时要考虑多种因素:( 1 ) 领域瓶颈;( 2 ) 人机分工;( 3 ) 挖掘目标;( 4 ) 评 价标准:任务完成的标准,结果的可理解性、简单性、精确性。 图2 2 中描述了在以数据为中心的数据挖掘过程中领域专家在数据挖掘过 程中的作用,整个数据挖掘过程一般包括任务与人力资源确定、问题定义、数 据选择、数据预处理、数据转换、运行挖掘算法、结果评价:在整个过程中参 9 哈尔滨理工大学工学硕士学位论文 与的人力包括领域专家( 大多数情况下就是最终用户) 、数据处理人员、数据 挖掘人员。在不同的阶段,不同的人员需要相互协作完成各自的任务【嘲。 图2 2 以数据为中心的数据挖掘过程 f i g u r e2 - 2t h cd a t am i i l i l 瞎i s ew l l i * d l 砧g a r dd a t a 硒t h e n n e 2 2 数据挖掘的目标 被挖掘知识的类型在多数文献和d m 工具中被称为数据挖掘目标,下面分 析数据挖掘的目标,通常数据挖掘目标有:发现总结规则,关联规则,分类 ( 等价关系) 规则,聚类( 相容关系) 规则,时序规则,偏差观测,回归。 总结规则挖掘:它要做的是从用户指定的数据库中挖掘出( 以不同的角度 或在不同的层次上的) 平均最小最大值、总和、百分比等。挖掘结果用交叉 表,特征规则,统计的曲线图表等表示。 关联规则发现:在商业应用领域,数据挖掘最受关注的应用就是发现超市 商品销售之间的联系,这种应用也称为“篮子分析( b a s k e ta n a l y s i s ) ”,这 种知识发现的目标就是寻找数据中两个属性之间存在的关联关系。关联规则的 形势为妒一妒,其中妒和妒是信息系统中关于属性的逻辑公式,分别称为“前 件”和“后件”。最著名的就是美国一家超市发现的“尿布一啤酒”规则:星 期五来买尿布的人,都会买一些啤酒,写作关联规则的形式为: ( d a y = f r i d a y )a ( p r o d u c t = n a p p i e s ) - ( p r o d u c t = b e e r ) 。 虽然篮子分析是关联规则发现的典型应用,但不是唯一应用,实际上,关 联规则是最基本的规则类型,特征规则和分类规则是关联规则的特例。单纯的 妒一妒形式很难断定它是规则还是对数据的总结,因此必须定义一些相关特征 1 0 曼至鎏登三銮耋三耋筌圭三堡耋蚤 。- z 。- z - 。 数值来描述规则的可信度,常用的数值定义包括支持度、信度及兴趣度。 定义2 3 设妒一妒是信息系统s = 中的规则,则 。一。c a r d ( 1 6 0 妒i s ) 沏州1 磊意产 ,口j c a r d ( 旧 妒k ) 婚铡艘。、蔷蠢斌于 。c 口硝( 1 酬。) 分别称为支持度和信度。其中c a r d ( x ) 表示集合x 的基。若信度和支持度不小 于某个设定值口,则可将妒一妒看作是显而易见的知识,是一种常识:若信度 和支持度不大于某个设定值卢,则规则妒一妒可信度很低,可以当作噪音;若 信度大于a 而支持度小于卢,则规则妒一妒可能是某种新颖的知识,当然也可 能为噪音。兴趣度是描述专家对规则感兴趣程度, 无简单统一的形式化描述。兴趣度的计算通常考虑知识的新颖性、显著性以及 与期望值的偏离程度。 分类规则挖掘:它做的是已知训练数据的特征和分类结果,为每一个类找 到一个合理的描述或模型,然后再用这些分类的描述或模型来对未知的、新的 数据进行分类,它是一种有指导的学习方法。分类规则是判断某个对象属于某 类的充分条件即对象具有某类的属性时则表示该对象属于该类。 聚类规则挖掘:它又称为无指导的分类,其宗旨在于实事求是地而不是主 观认识按被处理对象的特征分类,有相同特征的对象被归为一类。他与分类规 则挖掘的区别在于分类是基于训练数据的,而聚类直接对数据进行处理。 时序规则:时序规则与关联规则相似,区别在于时序规则中事件的发生有 时间顺序。时间规则的一般形式为( 6 0 ) :;一( 妒) 。事件妒发生在事件妒之前, 即t i ,d 一似,d :,靠 ,则可将此客 户决策表分解为 m 个不同的单一客户决策表 一u ,c u 似) ,y , o 。1 ,2 ,小) 。 方法2 :若客户决策表盼t u ,a ,v ,d 一埘,d2 ,磊 ,则可构造一 新的客户决策表s ;c u ,c u 似) ,y ,f 1 ,其中对于任意 x ,y e u ,有d o ) 一d ( ) ,) 。 4 2 论域的划分及依赖度分析 定义4 2 令v a c a ,x u ,y ( x ,口) 亿,对于客户决策表中客户条件属性a 的任一子集8 能确定一个客户对象集上的二元关系i n d ( b ) :对于任意a e b , x l n d ) ) ,一a ( x ) t - ( y ) ;矗y e u ;则称i n d ( b ) 为不可分辨关系。显然,这样 定义的i n d ( b ) 是一种等价关系。 记i n d ( b ) 中的所有等价类的集合为c ,丑,含有元素x 的等价类记为 x l ,同一等价类中的元素是不可分辨的,称i n d ( b ) 等价类为初等集,它是客 户信息系统中知识库的基本结构单元即概念。若u b ;省b x :,孟 ,则 置= ( f = l 2 , ,1 ) 均为分类客户对象集上的初等集,且有 ( 五f 1 萄一i 争) aux i = u ( i ,j ;i ,i 1 ,2 ,1 ) u b 也被称为知识b ,它是论域的一种划分。若两个不可分辨客户对象属于 哈尔滨理工大学工学硕士学位论文 不同的类别,这就导致了不一致性。若不一致性较弱,则可以认为这种不一致 性是由于数据中存在少量噪音引

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论