(计算机应用技术专业论文)用数据挖掘技术构筑分析型crm的若干关键技术研究.pdf_第1页
(计算机应用技术专业论文)用数据挖掘技术构筑分析型crm的若干关键技术研究.pdf_第2页
(计算机应用技术专业论文)用数据挖掘技术构筑分析型crm的若干关键技术研究.pdf_第3页
(计算机应用技术专业论文)用数据挖掘技术构筑分析型crm的若干关键技术研究.pdf_第4页
(计算机应用技术专业论文)用数据挖掘技术构筑分析型crm的若干关键技术研究.pdf_第5页
已阅读5页,还剩112页未读 继续免费阅读

(计算机应用技术专业论文)用数据挖掘技术构筑分析型crm的若干关键技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

同济大学博士学位论文用数据挖掘技术构筑分析型c r m 的若干关键技术研究 摘 c 删和数据挖掘是目前计算机技术领域两个非常热门的话题。c 跚是企业信息化的重要 内容,它在电子商务中所起到的日益重要的作用,使其受到企业越来越多的重视。数据挖掘 是知识发现中的一个有力工具,随着人们对其理论日益广泛、深入的研究,其研究成果在实 际问题中的系统应用必将越来越广泛、具体和深入。数据挖掘技术为我们从大量数据中找到 有用的“知识”提供了强有力的技术支持和手段,利用数据挖掘技术,设计和开发具有分析 功能的c r m 系统,已经成为业界的共识。 论文对c 雕和数据挖掘的有关基本理论进行了综合的分析和阐述,在对现有理论进行 深入的理解和分析的基础上,指出了部分现有理论和算法中存在的不足并做了补充与改进。 论文的主要工作体现在: 夺 针对关联规则挖掘中只用支持度和置信度作为度量指标,来判断所得规则是 否为强关联规则,对于w e b 数据来说缺乏时效性这一问题,首次提出了增加 “时效性”作为关联规则用于w e b 数据挖掘时,衡量规则是否为强关联规则 的度量指标,使得规则的时效性得到了体现和加强: 针对k - m e a n s 算法预先对最终聚类类别数目进行确定这一不足,对k - m e a n s 算法进行了改进,论文提出了改进的k - m e a n s 算法,称之为x m e a n s 算法, 并设计、实现了x m e a r l s 算法。该算法克服了k - m e a n s 算法事先确定最终聚 类数目的限制,使得聚类的最终数目根据实际情况,按照算法进行聚类。 根据c r m 系统功能的实际应用需要,设计并实现了一种e m a i l 数据挖掘的相 关模型与算法。 设计并开发、实现了一个实用的数据合并工具。 这些成果均在实际应用中发挥了作用。此外,本文还利用对数据挖掘理论研究的 实际成果。实现了包括发现重要客户、发现潜在客户、预测即将流失的客户和为客户 提供个性化服务等c o 系统的几个重要的功能。 最后,本文在总结与展望中提出了开发w e b 内容挖掘应用于c p , m 系统,将数据挖 掘技术与c p , m 有机结合,进一步完善其功能的研究方向。 第i 页共i v 页 要 同济大学博士学位论文 用数据挖掘技术构筑分析型c 删的若干关键技术研究 关键字:c r m 、数据挖掘、知识发现、w e b 挖掘、关联规则挖掘、时效性、聚类分析、分类、 决策树、x - l l l e a 1 s 算法、e m a i l 数据挖掘、数据合并工具 第i i 页共i v 页 同济大学博士学位论文用数据挖掘技术构筑分析型c r m 的若干关键技术研究 a b s t r a c t c r ma n dk n o w l e d g ed i s c o v e r yi nd a t a b a s ea r et w oo f t h eh o tt o p i c sm e n t i o n e d i nt o d a y sc o m p u t e rt e c h n o l o g yf i e l d b e c a u s eo fi t si m p o r t a n c ei ne - b u s i n e s s c r m b e c o m e st h ee s s e n t i a lf a c t o ro ft h ee n t e r p r i s ei n f o r m a t i o na n d h a sb e e nl a i dm u c h e m p h a s i s m e a n w h i l e ,d a t am i n i n gi sap o w e r f u lt o o l f o rk n o w l e d g ed i s c o v e r yi n d a t a b a s e w i t ht h ed e e p e ra n ds o p h i s t i c a t e ds t u d i e so f t h et h e o r i e s ,jt s a c h i e v e m e n tw i1 1b eb r o u g h ti n t op r a c t i c ea n di t su s a g ew i l lb e c o m em o r ew i d e l y , d e t a il e da n dp r o f o u n d d a t am i n i n gt e c h n o l o g yp r o v i d e su sw i t hg r e a tm e a n sa n d s u p p o r to fs e a r c h i n gu s e f u l k n o w l e d g e a m o n gm a s sd a t aa n df u r t h e ro nd e s i g na n d d e v e l o pc r ms y s t e mt h a tc a r r i e sa n a l y s i sf u n c t i o n s ,w h i c ha l r e a d yb e c o m e sam u t u a l u n d e r s t a n d i n g sa n dr e c o g n i t i o n t h i se s s a ye x e r t sc o m p r e h e n s i v ea n a l y s i sa n dp r e s e n t a t i o no nt h eb a s i ct h e o r y o fd a t am i n i n g b a s e do nt h o r o u g hu n d e r s t a n d i n ga n da n a l y s i so ft h ec u r r e n tt h e o r y a n da l g o r i t h m ,i ta 1s om a k e ss o m ea m e n d m e n ta n di m p r o v e m e n t so nt h ei n a d e q u a c i e s , w h i c hisr e v e a l e da sf o ll o w s : a sf o r a s s o c i a t i o nr u l e m i n i n g ,t r a d i t i o n a l l ys p e a k i n g ,s u s t a i n a b i l i t y a n dc o n c e i v a b i l i t ya r et h ee v a l u a t i o ni n d e xt od e c i d ew h e t h e ro rn o t i t i sa s s o c i a t i o nr u l e y e tt h i si g n o r e st h ep r e s c r i p t i o nf a c t o ro f w e bd a t a i nt h i s e s s a y , w ef i r s tp r o p o s et h a tw ea d d t i m e v a l i d i t y a sa n o t h e ri n d e xo ft h ee v a l u a t i o no fa s s o c i a t i o n r u l eo nw e bd a t am i n i n g o fw h i c hr e v e a l sa n ds t r e n g t h e n st h er u l eo f t i m e v a li d i t y a sf o rk - m e a n sa l g o r i t h m ,t h ef i n a lc l u s t e rc l a s s i f i c a t i o nn u m b e rh a s t od e c i d ef i r s t t h ise s s a ym a k e si m p r o v e m e n to nt h ek - m e a n sa l g o r it h m , a n dt h e r e f o r ed e f i n e sd e s i g n sa n dr e a li z e sx - m e a n sa l g o r it h ma si t s r e p l a c e m e n t i tg o e sb e y o n dt h eli m i t a t i o no ft h ef a c tt h a tt h ef i n a l c l u s t e rc l a s s i f i c a t i o nn u m b e rh a st od e c i d ea tt h eb e g i n n i n g ,a n dm a k e s i tp o s s i b l et h a tt h ef i n a lc l u s t e rc l a s s i f i c a t i o nn u m b e rc a nb eg a i n e d 第i i i 页共i v 页 同济大学博士学位论文用数据挖掘技术构筑分析型c 跚的若干关键技术研究 i na c c o r d a n c ew i t ht h er e a ls i t u a t i o n 。a n dc l u s t e rc l a s s i f i c a t i o nc a n b em a d eb yf o l l o w i n gt h ea l g o r i t h m i na c c o r d a n c ew i t ht h en e e do fc r ms y s t e mf u n c t i o n s ar e l a t i v em o d u l e a n da l g o r i t h mo fe m a ild a t am i n i n gi sd e s i g n e d 令t h ed a t au n i o nt o o l sh a v e b e e nd e s i g n e d ,d e v e l o p e da n dp u ti n t o p r a c t l c e w h i c ha 1 1e x e r ts u b t l ei m p o r t a n c ei na p p l i c a t i o n s w h a ti sm o r e a sar e s u l t o ft h ea c h i e v e m e n to fd a t am i n i n gt h e o r i e s s t u d y ,s e v e r a li m p o r t a n tf u n c t i o n so f c l ms y s t e mg e tr e a li z e d ,t h e yi n c l u d ed i s c o v e r i n gi m p o r t a n tc l i e n t s ,d i s c o v e r i n g p o t e n t i a lc l i e n t s ,a n t i c i p a t i n gt h el o s i n gc l i e n t sa n dp r o v i d i n gc l i e n t sw i t h p e r s o n a li z e ds e r v i c e s ,e t c a t t h ee n do f t h ee s s a y ,w em a d eac o n c l u s i o na n dp r o s p e c ti o no f t h ef u t u r e d e v e l o p i n gt r e n d ,i e :u s ew e bd a t am i n i n gt e c h n o l o g yi n t oc r ms y s t e m ,a n di n t e g r a t e d a t am i n i n gt e c h n o l o g yw i t h c r ms y s t e m k e yw o r d s :c u s t o m e rr e l a t i o n s h i pm a n a g e m e n t ,d a t am i n i n g ,k n o w l e d g ed is c o v e r yi n d a t a b a s e s ,w e bd a t am i n i n g ,a s s o c i a t i o nr u l em i n i n g ,t i m e v a li d it y , c l u s t e ra n a l y s i s ,c 1 a s s i f i c a t i o n ,d e c i s i o nt r e ei n d u c t i o n ,x - m e a n s a l g o r i t h m ,e m a i ld a t am i n i n gd a t au n i o n t o o l s 第i v 页共i v 页 声明尸明 本人郑重声明,此论文中的创新点和关键技术均为作者在导师指导 下,独立进行研究工作所取得的研究成果。论文中除了特别加以标注和 说明的地方外,不包含他人的公开发表或未公开发表的研究成果。作者 承担本声明的法律责任。 签名: 日期:塑! :z 同济大学博士学位论文 用数据挖掘技术构筑分析型c r m 的若干关键技术研究 1 1c r m 相关背景综述 第一章绪论 1 1 1c r m 的含义 网络经济时代一个显著的特征就是信息技术在传统商业领域的应用,即电子 商务。c r m ( c u s t o m e rr e l a t i o n s h i pm a n a g e m e n t ,客户关系管理) 是电子商务 系统中不可缺少的重要组成部分,因其在企业辅助决策中所起的重要作用,曰益 受到青睐,不但是当今计算机界最热门的研究话题之一,也是众多企业目前研究 和实施的热点。 客户、供应商以及合作伙伴连成一片的价值链已经成为企业与企业之间竞争 的核心。对于现代企业来说,下面的问题至关重要:如何发现潜在客户,并对其 采取相应的销售与广告策略,使其成为企业的实际客户;如何发现重要客户,并 为其提供更加全面、及时周到的个性化服务,以维持并加强他们对企业的忠诚度; 如何及时地发现即将流失的客户,把握这部分客户的需求并迅速地做出响应,以 尽可能地留住他们。这一切,都是以客户为中心的c r i v l 系统所要解决的主要问 题。 在 6 2 中认为,c r m 的核心思想就是将企业的客户( 包括最终客户、分销商和 合作伙伴) 作为最重要的企业资源,通过完善的客户服务和深入的客户分析来不 断地满足客户的需求,保证实现客户的终生价值。 企业实旌c r i v l 的最终目的就是为企业赢得最大的利润,为此,c r m 要求 企业以客户为中心来组织和实施企业的构架,完善对客户需求的快速反应的组织 形式,规范以客户服务为核心的工作流程,建立客户驱动的产品服务设计,进 而培养客户对于企业的忠诚度,以扩大赢利份额。 1 1 2c r m 与e r p 的关系 与c r m 相比,e r p 在企业信息化系统中的位置处于后台,传统企业管理的着 眼点往往在后台。e r p 系统在帮助企业实现内部商业流程自动化,提高企业生产 效率方面发挥了积极的作用。c r m 系统作为企业信息化系统的前台,对于企业收 集、分析和利用各种客户的信息,帮助企业充分利用其客户管理资源,为企业在 第1 页共1 1 2 页 同济大学博士学位论文用数据挖掘技术构筑分析型c r m 的若十关键技术研究 电子商务时代从容地面对客户,争取最大赢利,提供了科学的管理与决策手段和 方法。同时,c r m 的研究与应用,对于c i m s 的进一步发展,加强企业综合竞争 能力,提高企业运作效率,增加经济效益具有重大意义。 1 1 3c r m 系统的发展和应用现状 1 1 3 1c r m 的提出 第一个提出了e r p ,又最早提出c r m 这一概念的是一家位于美国西雅图、致 力于开发下一代集成了强大的客户参与管理方案的c r m 系统的p a r 3 通讯公司。 它指出,c r m 是迄今为止规模最大的i t 概念,它将看待客户的概念从独立分散 的单个部门提升到了企业的层面,虽然与每个客户的具体交互行为是由每个部门 来完成的,但却是企业对客户负全面的责任。为了实现c r m ,企业与客户联系的 每一个环节都应实现自动化管理。营销自动化在此扮演着重要的角色,它是连接 企业前台和后台办公以及企业级共享客户信息的最根本环节,它与销售、客户服 务以及后台办公起构成了企业的c r m 。 1 1 3 2c r m 的主要功能及分类 c r m 的功能主要体现在市场营销、产品销售和为重要客户提供个性化服务等 三个方面。目前c r m 从结构上可分为三类:操作型c r m 、分析型c r m 和综合型c r m 。 操作型c r m 用于自动地集成商业过程,包括客户接触点( c u s t o m e rt o u c hp o i n t ) 、 渠道和前后方办事处的集成;分析型c r m 用于对企业数据的分析,产生出对企业 有实际商业价值的知识,为辅助决策提供支持;综合型c r m 用于广泛的合作伙伴 间的合作服务。 有数据表明,往往是2 0 的顾客为企业带来了8 0 的利润,但如何寻找这 2 0 的客户,并为他们提供更优质的服务,却成了企业管理者的一块心病。分析 性c r m 系统可以解决这个问题,它与数据库、数据分析( 如利用数据挖掘技术) 、 模型建立等技术相结合,必将有力地促进企业的经营决策,从而发现和巩固更加 有价值的重要客户,并为他们提供更好的服务。 1 1 3 3c r m 的国内外发展现状 据i d c 预测,全球c r m 市场到2 0 0 3 年将达到1 6 8 亿美元,到2 0 0 4 年,亚 太地区的c r m 市场额将达到1 2 亿美元。 国外,特别是以美国为代表的发达国家,c r m 在它们企业中的研究和应用已 第2 页共1 1 2 页 同济大学博士学位论文 用数据挖掘技术构筑分析型c p 4 t 的若干关键技术研究 经非常成熟。目前国外比较流行的c r m 系统有s i e b e l 9 9 、v a n t i v e e n t e r p r i s e 8 、 b a a n f r o n t o f f i c e 9 8 4 、o n y x c u s t o m e rc e n t e r 4 0 等。但这些c r m 系统基本不适 合于我国企业。主要原因有:( 1 ) 我国企业与国外企业的规模和运作方式有很大 的不同;( 2 ) 购买以及运行和维护这些系统所需的费用较高,这些系统的运行对 人员的素质也有一定的要求,很多企业,特别是众多的中小企业目前难以做到。 国内的c r m 研究和应用开发总的可分为也三类:一是具有研究和开发实力的 企业,如海尔集团,他们研发的c r m 系统不但实现了c r m 的一般功能,而且具有 并行工程的思想特点,真正地为企业的发展发挥着不小的作用;二是专门的软件 开发公司,目前有不少的软件公司在积极地开发具有分析功能的c r m 系统,时常 也有c r m 系统的产品展销,但事实上真正具有分析功能的c r m 系统少之又少,真 正能够把数据挖掘技术用在其中的产品更是凤毛麟角;三是科研机构,他们主要 是从c r m 系统的构筑模式、支撑技术等理论方面进行研究。 基于以上原因,c r m 在我国企业的实施大致有两种情况:一是一些有实力的 大型企业,如海尔等,自己设计并开发了适合本企业的分析型c r m 系统,并获得 了非常积极的效果。二是缺乏科研技术实力和财力的众多中小企业,他们即使购 买了c r m 系统,这些企业在实施过程中也会常常遇到各种问题,真正能够做到实 用的不多。总之,对于这些企业,c r m 系统的实施还处于探索和起步阶段。如何 加快研究和开发适合我国企业实际需求的分析型c r m 系统,加快c r m 系统在企业 的实施,已经成为企业自身生存和发展的迫切需求。 1 1 4c r m 的发展趋势 企业的应用需求和信息技术的发展是推动c r m 系统发展方向的重要因素,可 以肯定c r m 系统的技术架构发展将会呈现以下几种趋势 7 0 : 令c r m 系统将全面采用b s 技术 夺c r m 系统将全面集成各种信息交流技术 c r m 系统将更多的采用数据仓库和数据挖掘技术 以上是目前c r m 系统的一些技术发展趋势。随着c r m 管理理念的进一步完善、 客户管理手段的变革和i t 新技术的飞速发展,c r m 系统也将不断实现技术和应 用的最新结合,发展为企业最重要的前端业务支撑系统。 第3 页共1 1 2 页 同济大学博士学位论文用数据挖掘技术构筑分析型c 跚的若干关键技术研究 1 2 课题背景 c r m 在辅助企业决策中所起的日益重要的作用为现代企业所关注,企业实施 c r m 不但是贯彻我国政府关于“信息化带动工业化 的整体策略,更是现代企业 参与国际竞争和发展所应该依托的管理方式和手段。目前,在我国真正实施c r m 的企业并不多,许多企业在进行企业规划和决策时,主要依靠历史经验。如此, 主观判断的因素多,所做出的决策往往缺乏科学,更缺乏严谨,使得在w t o 环境 下参与国际竞争的企业,在管理和决策的方式以及手段上已经处于劣势,在参与 国际竞争时,更感困难。事实上,众多企业已经意识到实施c r m 的重要性和迫切 性,但是,它们遇到的实际问题是难以找到真正适合自己的、具有分析功能、能 够及时帮助企业从大量数据中得出对企业有用的“知识的c 购系统。 数据挖掘技术为我们从大量数据中找到有用的“知识 提供了有力的技术支 持和手段,利用数据挖掘技术,设计和开发具有分析功能的c r m 系统,已经成为 业界的共识。在此背景下,我们结合s t a n n i c 企业的实际运营情况,以数据挖掘 为技术支撑,设计并开发具有真正意义的分析型c r m 系统便成为我们的研究课 题。 1 3 论文要研究和实现的主要内容 在理论方面本文研究的主要内容包括以下两个方面: ( 1 ) 对数据挖掘技术的基本理论进行比较系统的学习和研究,通过相关书籍、 论文和i n t e r n e t 等途径,了解和跟踪目前该领域的发展现状和趋势。在对现有 理论和应用理解、分析的基础上,针对论文实现的实际需要,找出在实际应用中 现有理论存在的不足,并争取在理论和算法上有所创新与突破。 ( 2 ) 对c r m 的研究、应用现状以及发展趋势进行比较深入的调研,对如何利 用数据挖掘技术作为构筑分析型c r m 系统的技术支撑进行比较深入的研究,并利 用对数据挖掘相关技术的研究成果,实现分析型c r m 系统的若干主要功能。 在实现方面本文研究的主要内容包括以下几个方面: ( 1 ) 整合企业信息来源,如企业m i s 、w e b 、e - m a i l 等,为实现数据挖掘做好 充分的数据准备; ( 2 ) 研究和改进相关的数据挖掘算法,作为构造和实现分析型c r m 系统的关 键技术支撑; 第4 页共1 1 2 页 同济大学博士学位论文用数据挖掘技术构筑分析型c r u 的若干关键技术研究 ( 3 ) 利用研究所得到的数据挖掘技术成果,以s t a n n i c 企业为实际应用背景, 设计并实现其分析型c r m 系统的若干主要功能: 发现重要客户 令发现潜在客户 夺预测即将流失的客户 令为客户提供个性化服务 本文的创新点 ( 1 ) 时效度度量指标的提出 首次提出了增加“时效度 作为关联规则用于w e b 数据挖掘时,衡量规则 是否为强关联规则的指标。在关联规则中,衡量强关联规则有两个指标:支持度 和置信度,满足最小支持度和最小置信度的规则即为强关联规则。对于一般的数 据应用这两个指标是正确的,但对于w e b 数据则不够。因为w e b 数据的更新变 换是非常频繁的,系统根据前一段时间的数据挖掘得到的规则,对于后一阶段发 生的实际情况往往产生失误。如果考虑增加一个时间因素,则得到的规则的时效 性得到了体现和加强。 ( 2 ) 对k - m e a n s 算法进行了改进,设计并实现了x - m e a n s 算法 k - m e a n s 算法是进行聚类时最常用的数据分析方法,但k - m e a n s 算法在进行 聚类时对最终得到类别的数目进行了限定( 是k 类) ,这对于某些情况,特别是 w e b 数据,很不适合。对于那些事先不能确定最终会聚成几类的情况,k - m e a n s 算法表现出明显的不足。本文提出了改进的k - m e a n s 算法,称之为x - m e a n s 算法, 该算法克服了k - m e a n s 算法事先确定聚类数目的限制,使得聚类的最终数目根据 实际情况,按照算法进行聚类。 ( 3 ) 设计并实现了一种e m a i l 数据挖掘的相关模型与算法 e m a i l 数据在企业进行的商务活动中具有举足轻重的地位,通过对e m a i l 数 据进行挖掘,可以及时地发现客户的购买倾向、需要得到的服务、索赔情况以及 售后服务需求等信息,为企业及时地制定相关的营销策略,提供技术方面的支持。 ( 4 ) 设计并开发、实现了一个实用的数据合并工具 根据实际应用的需要,设计并开发、实现了一个实用的数据合并工具,不但 解决了困扰企业对分散于不同地域的数据进行合并、集成的实际需求,而且也作 第5 页共1 1 2 页 同济大学博士学位论文用数据挖掘技术构筑分析型c 硼的若干关键技术研究 为一个实用的数据挖掘数据源获取和集成的有利工具。 本论文的内容安排 本文除第一章绪论、第五章总结与展望外,其它各章节的内容安排如下: 第二章总结性地分析、阐述了数据挖掘的相关理论,指出了部分理论在实际 应用中表现的不足,并给出了改进的意见。第三章对c r m 系统的数据获取与集成 技术进行了论述与分析,特别是对于w e b 数据的获取,并详细地介绍了一个实用 的数据合并工具的设计与实现。第四章包含了比较重要的内容,比如关联规则中 “时效度”度量指标的具体思想、设计与实现的算法;对k - m e a n s 算法进行了改 进,设计并实现了x - m e a n s 算法:一种e m a i l 挖掘的设计与实现等。同时,利用 对数据挖掘理论和应用研究的成果,实现了包括发现重要客户、发现潜在客户、 预测即将流失的客户、为客户提供个性化服务等分析型c r m 系统的若干主要功 能。 第6 页共1 1 2 页 同济大学博上学位论文 用数据挖掘技术构筑分析型c r m 的若干关键技术研究 第二章数据挖掘的相关理论 2 1 数据挖掘的背景及其含义 2 1 1 数据挖掘的背景 信息时代的数据爆炸是我们不得不面对的一个问题,激增的数据背后往往又 隐藏着许多重要的信息。如何从堆积如山的数据中发现有用的信息:如何发现数 据间存在的关系和规则,如何根据现有的数据预测未来的发展趋势,如何为 了解决这种“数据丰富,但信息贫乏”的问题,人们进行了大量有益的探索和研 究,数据挖掘就是应运这样一种需求而生的,它为解决上述问题提供了一个有效 的途径。数据挖掘是能够从堆积如山的数据中挖掘出“金矿”的技术,它通过利 用一些自动化与半自动化的方法,从大量数据中探索内部规律与潜在的联系,并 将之转化为能够被人所理解、吸收的知识。 数据挖掘起源于机器学习和知识发现,原先属于人工智能的范畴。随着数据 库系统的发展与应用,从2 0 世纪9 0 年代初开始兴盛,逐渐演变成一个相对独立 的、多学科交叉的研究领域。f r i e d m a n 在1 9 9 7 年列举了四个主要的技术,由此 激发了数据挖掘的歼发、应用和研究:超大规模数据库的出现;先进的计算 机技术;对海量数据的快速访问;对海量数据的应用精深的统计方法和计算 能力。目前,支持数据挖掘技术的三种基础技术海量数据搜集、强大的多处 理器计算机、数据挖掘算法等已经发展成熟。今天,数据挖掘已经并且逐步形成 了一套包括数据获取、预分析处理、建模、实施、表现和评估的工程化的步骤方 法,并在包括商业等多个领域有了广泛的应用。 2 1 2 数据挖掘的含义 数据挖掘,也有人称之为数据库中的知识发现( k d d ,k n o w l e d g ed i s c o v e r yi n d a t a b a s e ) ,到目前为止它还没有确切的定义,但人们通常认为数据挖掘就是从 大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其 中的、人们事先不知道的、但又是潜在有用的模式和知识的过程。 6 8 0 这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现 的是用户感兴趣的知识( 发现的知识要可接受、易于理解、可运用、新颖的) ;并 第7 页共1 1 2 页 同济大学博士学位论文 用数据挖掘技术构筑分析型c r m 的若干关键技术研究 不要求发现放之四海皆准的知识,仅支持特定的发现问题。 还有很多和数据挖掘相近似的术语,如从数据库中发现知识( k d d ) 、数据分 析、数据融合( d a t af u s i o n ) 以及决策支持等。数据挖掘也通常被看作知识发现 过程中的重要环节。 2 1 3 数据挖掘系统的组成 典型的数据挖掘系统结构如图2 - 1 所示。 图2 - 1 典型的数据挖掘系统结构 基于知识发现的观点,典型的数据挖掘系统具有以下主要成分 数据库、数据仓库或其他信息库 这是一个或一组数据库、数据仓库、电子表格或其他类信息库。可以在 数据上进行数据清理和集成。 数据库或数据仓库服务器 根据用户的数据挖掘请求,数据库或数据仓库服务器负责提取相关数 据。 知识库 这是领域知识,用于指导搜索,或评估结果模式的兴趣度。这种知识可 能包括概念分层,用于将属性或属性值组织成不同的抽象层。用户确信 方面的知识也可以包含在内。可以使用这种知识,根据非期望性评估模 式的兴趣度。领域知识的其他例子有兴趣度限制或阈值和元数据( 例如, 描述来自多个异种数据源的数据) 。 数据挖掘引擎 第8 页共1 1 2 页 同济大学博士学位论文用数据挖掘技术构筑分析型c r m 的若干关键技术研究 这是数据挖掘系统基本的部分,由一组功能模块组成,用于特征化、关 联、分类、聚类分析以及演变和偏差分析。 令模式评估模块 通常,此成分使用兴趣度度量,并与数据挖掘模块交互,以便将搜索聚 焦在有趣的模式上。它可能使用兴趣度阈值过滤发现的模式。模式评估 模块也可以与挖掘模块集成在一起,这依赖于所用的数据挖掘方法的实 现。对于有效的数据挖掘,建议尽可能深地把模式评估推进到挖掘过程 中,以便将搜索限制在有兴趣的模式上。 令图形用户界面 本模块在用户和数据挖掘系统之间通信,允许用户与系统交互,指定数 据挖掘查询或任务,提供信息、帮助搜索聚焦,根据数据挖掘的中间结 果进行探索式数据挖掘。此外,此成分还允许用户浏览数据库和数据仓 库模式或数据结构,评估挖掘的模式,以不同的形式对模式可视化。 2 1 4 数据挖掘与传统数据分析的不同 数据挖掘与传统的数据分析( 如查询、联机分析等) 的本质区别在于数据挖掘 是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息往往 具有预先未知、有效和实用等三个特征。数据挖掘不是为了替代传统的统计分析 技术,相反,它是传统的统计分析方法的延伸和扩展。 2 2 数据挖掘所涉及到的学科和技术 如前所述,数据挖掘是一个交叉学科领域,它所涉及的学科范围涵盖了包括 数据库技术、统计学、机器学习、信息科学、可视化、并行计算等诸多方面。 数据挖掘涉及到多个学科领域的多种技术,但常用的有关联规则推导、分类 与预测、聚类分析等。 2 2 1 关联规则推导 关联分析的目的就是找出隐藏在数据内部的相互关系,关联分析的结果,常 常是以规则“i f t h e n ”的形式表述。关联规则挖掘的一个典型例子就 是购物蓝分析。关联规则通常包括条件和结论两个部分,例如在超市购物中,“当 顾客购买了商品x ,他同时购买商品y 的可能性是8 0 。”这里,“顾客购买了商 第9 页共1 1 2 页 同济大学博士学位论文用数据挖掘技术构筑分析型c 跳的若干关键技术研究 品x 是前提条件,“他同时购买商品y ”是结论。 2 2 1 1 相关定义 冷项目集:假设i = ,如,i m ) 是m 个不同项目的集合,设任务相关的数据 d 是数据事务的集合,其中每个事务t 是项的集合,使得丁s ,。每一 个事务有一个标识符,称作t i d ,每条交易是由t i d 唯一标识。 规则:设有项目集彳,bci ,如果a 包含于t 中,称事务集t 支持a 。 则规则可以描述为:a b ,其中a 、b 都是包含于t 的非空子集,且 彳n b = f 2 j 。其中j 称为关联,a 称为前件或先决条件,b 称为规则的后 件或结果。其含义是一些项目a 的出现可能导致另一些项目b 的出现。 令支持度:用以度量关联挖掘模式的实用性( u t i l i t y ) 。一个模式潜在的 实用性是衡量这个模式价值的一个重要因素。它可以用一个实用性函数 来评估。关联模式的支持度是模式为真的任务相关的元组( 或事务) 所 占的百分比。对于形如“a j b ”的关联规则,支持度定义为: s u p p o r t c ajb ,= 尸c 彳u b ,= 妻荔凳三黜 其中,s u p p o r t c o u n t ( au 召) 是包含项集a 和b 的事务数,s u p p o r t c o u n t ( a l l ) 是事务总数。也就是在所有的事件中,这条规则发生的概率, 即可信度。在上面的例子中,支持度( s u p ) 为: 同时购买商品爿和啪交易数su p2 百瑟翦r 一 置信度:用以度量关联挖掘模式的确定性( c e r t a i n t y ) 。每个发现的模 式都应当有一个表示其有效性或“值得信赖性的确定性度量。对于形 如“a b ”的关联规则,其确定性度量是置信度,其中a 和b 是项目的 集合。给定一个任务相关的数据元组集合( 或事务数据库事务的集合) , “a j b 的置信度定义为: c o n f i d e 力c e ( ajb 矽ba = 筹篇等 其中,s u p p o r t c o u n t ( a ) 是包含项集a 的事务数。也就是条件事件发 第1 0 页共1 1 2 页 同济大学博士学位论文 用数据挖掘技术构筑分析型c r m 的若干关键技术研究 生时,结论事件同时发生的概率。当置信度为1 0 0 时,意味着在数据分 析时,该规则总是正确的。对于关联规则,置信度常常作为关联规则可 靠性或准确性的确定性度量。在上面的例子中,置信度( c o n f ) 为: c o n f = 焉翼慧警 2 2 1 2 强关联规则与有趣的关联规则 6 1 6 2 0 强关联规则 置信度和支持度是衡量规则是否为强关联规则的两个重要的兴趣度度量指 标,同时满足用户定义的最小置信度( m i n _ c o n f ) 阀值和最小支持度( m i n s u p ) 阀 值的关联规则认为是强关联规则。但是强关联规则并不都是有趣的。 示例 在数据挖掘中,所有的强关联规则发现都是足够地有趣而值得向用户提供 吗? 并不一定。规则是否有趣可用主观和客观的标准来衡量。最终,只有用户能 够确定规则是否是有趣的,并且这种判断是主观的,因不同用户而异。然而,根 据数据“背后”的统计,客观有趣度度量可以为用户清除无趣的规则,而不向用 户提供。 假定我们对分析涉及购买计算机游戏和录像的事务感兴趣。设事件g a m e 表 示包括计算机游戏的事务,而v i d e o 表示包含录像的事务。在所分析的1 0 0 0 0 个事务中,数据显示6 0 0 0 个客户事务包含计算机游戏,7 5 0 0 个客户事务包含录 像,丽4 0 0 0 个事务同时包含计算机游戏和录像。假定发现关联规则的数据挖掘 程序在该数据上运行,而最小支持度3 0 ,最小置信度6 0 。将发现下面的关联 规则: b u y s ( x , c o m p u t e rg a m e s ”) jb u y s ( x , v i d e o s ”) s u p p o r t = 4 0 c o n f i d e n c e = 6 6 规则是强关联规则,因而向用户报告,因为其支持度为4 0 0 0 1 0 0 0 0 = 4 0 , 置信度为4 0 0 0 6 0 0 0 = 6 6 ,分别满足最小支持度和最小置信度阀值。然而,规则 是误导,因为购买录像的可能性是7 5 ,比6 6 还大。事实上,计算机游戏和录 像是负相关的,买其中一种实际上减少了买另一种的可能性。不完全理解这种现 象,可能根据导出的规则作出不明智的决定。 第1 1 页共1 1 2 页 同济大学博士学位论文用数据挖掘技术构筑分析型c 删的若干关键技术研究 上面的例子也表明规则ajb 的置信度有一定的欺骗性,它只是给定a ,b 的条件概率的估计,它并不能度量a 和b 之间蕴涵的实际强度。因此,寻求支持 度一置信度框架的替代,对挖掘有趣的数据联系可能是有用的。 时效度的提出 对于w e b 数据,仅用支持度和置信度这两个衡量指标,表现出时效上的不足, 本文首次提出了增加“时效度 ,使它与支持度和置信度共同作为衡量规则是否 为强关联规则的指标。具体的内容,在后面4 4 4 2 章节处详细阐述。 2 2 1 3 关联规则的分类 夺根据规则中所处理的值类型:如果规则考虑的关联是项在与不在,则是 布尔关联规则。如果规则描述的是量化的项和属性之间的关联,则它是 量化关联规则。 口布尔关联规则举例: c o m p u t e r jf i n a n c i a l _ m a n a g e m e n t s o f t w a r e s u p p o r t = 2 ,c o n f i d e n c e = 6 0 口量化关联规则举例: a g e ( x ,”3 0 3 9 ”) b u y ( x ,”h i g h _ r e s o l u t i o n _ ,r v ”) 夺根据规则中涉及的数据维:如果关联规则中的项或属性每个只涉及一个 维,则它是单维关联的。如果规则涉及两个或多个维,则它是多维关联 规则。 口单维关联规则举例: b u y ( x ,”c o m p u t e r ”) jb u y ( x ,”m a n a g e m e n t s o f t w a r e ”) 口多维关联规则举例: a g e ( x ,”3 0 3 9 ”) b u y ( x ”h i g h _ r e s o l u t i o n _ 州”) 根据规则集所涉及的抽象层:有些挖掘关联规则的方法可以在不同的抽 象层发现规则,就称所挖掘的规则集由多层关联规则组成。如果在给定 的规则集中,规则不涉及不同抽象层的项或属性,则该集合包含单层关 联规则。 根据关联挖掘的各种扩充:关联挖掘可以扩充到相关分析,可以识别项 是否相关。还可以扩充到挖掘最大的频繁模式和频繁闭项集。 第1 2 页共1 1 2 页 同济大学博士学位论文 用数据挖掘技术构筑分析型c 删的若干关键技术研究 2 2 1 4 找关联规则的步骤 找关联规则的主要步骤包括两步: 找出所有频繁项集。根据定义,这些项集出现的频繁性至少和预定义的 最小支持计数一样。 由频繁项集产生强关联规则。根据定义,这些规则必须满足最小支持度 和最小置信度。 2 2 1 5 相关算法 关联规则分析中,最著名的算法是由a g r a w a l 等提出的a p r i o r i 算法,最 早应用在基于大型数据库的“购物蓝分析 中。在此基础上,发展出了众多改进 算法和挖掘多层、广义关联规则等的算法。 夺a p r i o r i 算法 3 6 8 0 口算法基本原理:a p r i o r i 算法是一种最有影响的挖掘布尔关联规则频 繁项集的算法。算法的名字基于这样的事实:算法使用频繁项集性 质的先验知识。a p r i o r i 使用一种称作逐层搜索的迭代方法,k 一项集 用于搜索( k + 1 ) 一项集。 口基本过程:找出频繁卜项集的集合。该集合记做l 1 ,l l 用于找频繁 2 一项集的集合l 2 ,而l 2 用于找l 3 ,如此下去,直到不能找到频繁 k 一项集。 口a p r i o r i 算法寻找频繁k 一项集主要有两步过程:连接和剪枝。 第一步连接:为找l 。,通过l 与自己连接产生候选k 一项集的集合。 该候选项集记做c 。设和乞是三h 中的项集。记号,。l ,】表示t 的第 j 项。为方便计,假定事务或项集中的项按字典次序排序。执行连接 厶一。司t _ ,其中l k 一1 的元素是可连接的,如果它们前( k 一2 ) 各项 相同。此外还要满足f l ( 露- 1 ) 1 2 ( 七- 1 ) ,从而简单的保证不产生重复。 连接,1 和乞产生的结果项集是“l y : 1 1 冲一l 】,2 阽- 1 】。 第二步剪枝:g 是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论