(系统工程专业论文)关联规则挖掘及其在客户关系管理中的应用研究.pdf_第1页
(系统工程专业论文)关联规则挖掘及其在客户关系管理中的应用研究.pdf_第2页
(系统工程专业论文)关联规则挖掘及其在客户关系管理中的应用研究.pdf_第3页
(系统工程专业论文)关联规则挖掘及其在客户关系管理中的应用研究.pdf_第4页
(系统工程专业论文)关联规则挖掘及其在客户关系管理中的应用研究.pdf_第5页
已阅读5页,还剩68页未读 继续免费阅读

(系统工程专业论文)关联规则挖掘及其在客户关系管理中的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

差壁望型垫塑墨苎壅墨鲞墨堡里主塑壁星翌圣 摘要 论文在论述客户关系管理出现的背景环境、分析数据挖掘特 点以及关联规则挖掘研究与应用现状的基础上,确定对关联规则 挖掘及其在客户关系管理中的应用这一课题作迸一步的研究, 基于经典关联规则挖掘算法,文中提出了一种新的挖掘算法: o - i a r 算法。该算法分为三个步骤:( 1 ) 扫描事务数据集,生成频 繁卜项集;( 2 ) 构造关联图以表示频繁卜项集中每两个项目间的 关系;( 3 ) 遍历关联图,产生频繁卜项目集。通过理论与实验分 析,证明了该算法是正确、高效的。通过对数据挖掘过程以及客 户关系管理理论的研究,论文改避了在客户关系管理中实旃数据 挖掘的方法与步骤。 针对我国汽车销售企业面临的客户关系管理问题,论文采用 北京某汽车销售企业所收集的客户数据为样本,利用文中提出的 o - i a r 挖掘算法,对“持币待购”这一商业阀题进行了关联规则挖 掘。通过对挖掘所得结果的分析与评估,拄出了造成客户“持币 待购”这一行为状态的因素,基于这些因素,论文讨论了利用规 则进行预测的方法。这些问题的研究对于汽车销售行业具有重要 的参考价值。最后,论文还讨论了关联规则挖掘在c r m 中的其他 应用。 关键词:客户关系管理关联规贝4 挖掘频繁项目集 o - a r 算法多维关联规则持币待购 关联规则挖掘及其在客户关系管理中的应用研究 a b s t r a c t t h i sp a p e ra n a l y z e dt h eb a c k g r o u n do ft h et h e o r yf o r m a t i o na b o u tc r m , r e s e a r c h e dt h ec h a r a c t e ra b o md a t am i n i n ga n dt h ea p p l i c a t i o no fa s s o c i a t i o n m i c sm i n i n g o n t h i sb a s i c , t h ep a p e rc o n f i r m e dt h em a i ne m p h a s i so fr e s e a r c h o nt h ei m p l e m e n t i n ga s s o c i a t i o nr u l e sm i n i n g 扭c r m t h i sp a p e r p u t f o r w a r dan e w a l g o r i t h m :o - 1 a r o nt h eb a s e o f r e s e a r c h i n g t h e c l a s s i ca l g o r i t h m t h i sa l g o r i t t u nc o m p o s e st h r e es t e p s :( 1 ) g e n e r a t et h ef r e q u e n t 1 - i t e m s c tb ys c a n n i n gt h et r a n s a c t i o nd a t ab a s e ( 2 ) c o n s t l x k tt h er e l a t i o nm a p f o r e x p r e s s i n g t h er e l a t i o n sb e t w e e nf 嘲u e m1 - i t e m s e t s ( 3 ) g e n e r a t et h e f r e q u e n t k - i t e m s e tb yt r a v e r s i n gt h er e l a t i o nm a p ,b yt h et h e o r e t i c a l a n d e x p e r i m e n t a la n a l y s e s , i ti sp r o v e dt ob ec o r r e c ta n de f f e c t i v e t h i sp a p e rp u t f o r w a r dan e w a l g o r i t h m :o - 1 a r o nt h eb a s eo f r a s e a r c h i l l g 她c l a s s i ca l g 喇n 嫌 b yt h et h e o r e t i c a la n de x p e r i m e n t a l 狮a l y s 髓,i ti sp r o v e dt ob cc o r r e c ta n d e f f e c t i v e t h r o u g hr e s e a r c h i n gt h ep r o c e d u r eo f d m , t h em e t h o da n da p p r o a c h o f i m p l e m e n t i n gd m i nc r mi 奎d i s c u s s e di nt h i sp a p e r i na l l m i o nt ot h ec u s t o m e r s h o l d i n gc u r r e n c yf o rp u r c h a 钝b e h a v i o ri nt h e c a r - s e l li n d u s t r y , t h i sp a p e rm i n e dt h ec n s t o m e * sd a mf r o mac a r - s e l lc o m p a n y b yt h eo - t a ra l g o r i t h m t h er e l a t e de f f e c t sw e r ef o u n dt h r o u g ha n a l y b n ga n d e v a l u a t i n go ft h em i n i n gr e s u l t , o nt h eb a s eo ft h e s ee f f e c t s , t h i sp a p e r r e s e a r c h e dam e t h o dt of o r e c a s tt h ec u s t o m e r sb e h a v i o r b y t h ea s s o c i a t i o nr u l e s t h er e s e a r c ha b o u tt h e s ep r o b l e m si sv a l u a b l et 0e a r - s e l l c o m p a n y f i m t y , s o m eo t h e r a p p l i c a t i o n sa b o u tm i n i n ga s s o c i a t i o n r u l ei nc r ma r ed i s c u s s e d 2 差壁望! ! 丝塑墨茎垄查生茎至篓堡主丝查堕至壅 k e y w o r d s :c u s t o m e rr e l a t i o n s h i pm a n a g e m e n tm i n n g a s s o c i a t i o n r u l e s f r e q u e n ti t e ms e ta l g o r i t h m o f o 1 a r m u l t i d i m e n s o n a la s s o c i a t i o nr u l eh o l d r i gc u r r e n c yf o rp r o c h a s e 关联规则挖掘及其在客户关系管理中的应用研究 第一章绪论 1 1 问题的提出 随着计算机、通讯等信息技术的迅猛发展,信息及信息技术在 企业发展中的关键地位得到越来越多的关注。企业的信息是其生存 的关键。在这个全新的信息时代,赢家往往是那些能成功的收集、 分析、理解并根据信息做出有效决策的企业。 现阶段,许多企业搜集和存储了关于客户、供应商和商业伙伴 的宝贵数据。但是由于缺乏发现隐含在数据中有用信息的能力,使 得这些企业无法将数据转化为知识。所以,企业希望从庞大的数据 中抽取未知的、有效的和能理解的信息,来辅助企业经营和管理的 各个方面,以提高企业的效益。为了实现这个目标,需要企业能够 用全局的观点来获取和收集来自企业外部和内部的数据,并通过有 效的数据挖掘方法发掘隐含在这些数据中的信息,同时能够采用有 效的方式来组织和表示这些信息和知识。 基于以上问题,企业需要采用一种整合了先进管理理念和技术 的工具,来收集、管理和分析客户数据,挖掘蕴含其中的规律,并 以此采取有效措旌,防止客户流失,规范企业内部管理,促进部门 之间沟通提高服务水平,保证销售的持续增长。而客户关系管理 系统和数据挖掘技术正是解决这一问题的有效手段。 关联规则挖掘是数据挖掘领域中最成熟、最主要、最活跃的研 究内容。基于关联规则的挖掘能够发现交易数据库中不同数据项之 间的关系,即寻找给定数据集中的有意义的联系,通过描述数据库 中数据项之间存在的潜在规则,找出满足给定支持度和置信度阈值 关联规则挖掘及其在客户关系管理中的应用研究 的多个域之间的依赖关系。发现这样的规则( 关联规则挖掘) 可以 应用于顾客购物分析、目录设计、商品广告邮寄分析、追加销售、 商品货架设计、仓储规划、网络故障分析以及根据购买模式对用户 进行分类等。这些问题的研究对于优化企业营销和销售策略,提升 企业核心竞争力具有非常重要的意义。 在以上分析的基础上,论文研究的内容集中在三个方面:1 ) 基 于关联规则经典挖掘算法,提出一种高效、易于实现的新算法;2 ) 在此算法的基础上,研究客户关系管理系统中数据挖掘实施的方法 与步骤;3 ) 将关联规则挖掘应用到汽车销售客户关系管理中,分析 客户行为影响因素,并对关联规则挖掘在客户关系管理中的其他应 用作初步探讨。 希望通过论文的研究,1 ) 详细分析关联规则挖掘的特点和要求, 解决经典关联规则挖掘算法的i o 瓶颈及内存资源高消耗问题;2 ) 在实际应用上,设计出客户关系管理中启动数据挖掘的流程和方法, 通过实际应用,分析出汽车销售行业中造成客户“持币待购”态的 相关因素,为企业分析研究客户行为状态,保留客户以及提升客户 价值提供一种新的思路和方法。 1 2 相关研究的现状 1 2 1 c r m 出现的背景环境及应用现状 1 c r m 出现的背景环境 来自北美和欧洲的权威机构提供的数据表明,在全球5 0 0 强企 业中,五年之内大约流失了5 0 的客户。企业争取一个新客户的成 本是保留一个老客户的7 1 0 倍。根据一些针对公司c e o 的调查统 关联规则挖掘及其在客户关系管理中的应用研究 计分祈,可以看出他们最关心的话题是企业如何才能留住客户,增 加客户对企业的忠诚度 6 】。 驱动c r m 市场发展的原因首先是开放导致的激烈的市场竞争。 目前在大多数国家,金融、电信、制造业、保险业等行业都处于一 个完全竞争的市场中。中国在n a w t o 后也在不断的解除行业垄 断,开放上述领域的市场,原有的市场竞争格局将会被打破,例如, 中国电信行业的重组就是为了营造一个竞争环境,促使真正意义上 的市场竞争的形成。其次,i n t e r n e t 与电子商务的发展为客户关系管 理奠定了技术基础。 面对激烈的竞争环境,企业必须努力做到留住老客户、争取新 客户,因此,就必须获取市场和客户的消费信息,挖掘和分析这些 数据,从中得出有用的、正确的结论,来为市场和客户提供更好的 产品与服务。客户关系管理能帮助企业更好地吸引潜在的客户和留 住最有价值地客户。通过c r m ,企业可以迅速地发现潜在客户,对 客户进行全面地观察和管理,更好地了解客户豹需求,对客户及其 发展前景进行有效地预测,对其当前和潜在的利益进行科学的分析, 进而维系二者之间的关系,并使从客户身上获得的盈利最大化。 统计数据表明 6 】,现代企业5 7 的销售额是来自1 2 的重要客 户:同时,后2 0 的客户产生了8 0 的成本,诸如欺诈、流失、违 规、坏帐、服务成本、波动等,也就是说这后8 0 中的大部分客户 对企业而言只能获得微剥甚至是无利可图;开发一个耨客户的成本 是留住一个老客户的7 1 0 倍,而流失一个客户的损失,只有争取 l o 个新客户才能弥补。因此,企业要想获得最大程度的利润,就必 须对不同的客户采取不同的策略,进行“一对一营销”,客户关系管 理正是达到这一目的的一个好理念、好工具。 关联规则挖掘及其在客户关系管理中的应用研究 2 c r m 系统的国内外应用现状 ( 1 ) 国外c r m 系统应用情况 c r m 在国外起步较早,发展较为迅速,已比较成功的应用于各 个行业。在美国,c r m 发展已经有5 年之多,财富5 0 0 强企业中 多数都已使用了c r m 软件。 客户关系管理系统已成为管理软件厂商继e r p 系统后追逐的又 一热点之一,以o r a c l e ,s i e b l e ,i b m 等为代表的一批顶极i t 企业 都表现出对c r m 前景坚定的信心,并已开始在此领域部署解决方 案。 据i d c 对欧美3 0 0 家企业所作的调查显示,不管美国还是欧洲 的企业都正在增加对c r m 软件的预算,这3 0 0 家企业1 9 9 8 年平均 花费3 1 0 万美元在c r m 系统的硬件和软件上,计划每年的预算将平 均提高8 。在美国,尽管目前c r m 市场的开发利用率尚不足2 5 ,但将以4 4 的年复合增长率迅猛发展。专门从事市场研究的 m e t a g r o u p 公司指出,未来企业在c r m 上的投入将赶上并超过 e r p ,到2 0 0 4 年,分析、咨询和系统集成服务将成为c r m 市场中 的生力军,其年增长率将达到惊人的8 2 。 ( 2 ) c r m 系统在中国的应用 当c r m 日益成为国际软件新宠之际,在中国,尚属“新生事物” 的c r m ,其认知程度及受关注程度也正在加热过程中。可以预期, 中国企业将在未来不长的时问内,也将掀起新一轮的“c r m 波澜”。 目前国内的c r m 仍然处在初级阶段,即市场教育与培育阶段。初级 阶段最突出的特点是:市场的发展不平衡。一方面,大公司高瞻远 瞩,抢先一步实施c r m 项目,选择的实施伙伴都是大厂商。例如 o r a c l e 目前实施的上海航空,北京亚信、广东美的;s i e b l e 实施的上 关联剃则挖掘及其在客户关系管理中的应用研究 海通用、北京联想等。另一方面,却要对占企业综述9 9 的中小企 业进行c r m 的深入教育,培育市场。这就是中国的现状。 c r m 的几个主要模块一销售自动化、营销自动化和客户服务 自动化中,目前国内尚在实施的只有营销模块中的客户信息管理、 渠道管理和客户服务中的呼叫中心( c a l l - - c e n t e r ) ,同时基于互联 网的客户服务也得到了越来越多的重视。 1 2 2 关联规则挖掘算法研究现状 研究者们提出了许多关联规则挖掘方面的算法。a g r a w a l 等人与 1 9 9 3 年提出了算法a i s ( 见参考文献 3 0 ) 和s e t m ( 见参考文献 3 1 ) ,1 9 9 4 年又提出了改进的算法a p r i o r i 和a p r i o r i t i d ( 见参 考文献 3 2 ) 。后两个算法与前两个算法的不同之处在于:在队数据 库的一次遍历中,哪些候选数据项目集被记数以及产生候选项目集 的方法。 m s 和s e t m 算法都是在把交易数据读入数据库的过程中迅速产 生候选项目集,即在遍历数据库期问不断产生候选项目集。在读入 新的交易数据之后,就要确定前次中的数据项目集中有哪些是现存 在此事务中的,应该和这些读入的交易数据中的数据项目组合,从 而产生新的候选数据项丑集。这种方法的缺点是会导致许多不必要 的数据项目集的产生和记数。 而a p r i o r i 和a p r i o r i t i d 算法只利用前次过程中产生的大的数 据项目集来生成新的候选数据项目集,并不考虑数据库中的事务。 在这两种算法中用到的一个基本组合性质是:一个大项目集的任何 子集一定是大的。利用这一性质所产生的候选数据项目集要小得多, 一定程度上提高了算法的效率。但是,由于通常事务数据库的规模 关联规则挖掘及其在客户关系管理中的应用研究 是十分庞大的,而这两种算法在计算项目支持度方面频繁的扫描数 据库会造成i o 问题,同时对于系统资源的消耗非常高,因此,有 必要提出一种新的关联规则挖掘算法来解决这些问题。 1 2 3 关联规则挖掘的应用现状 关联规则挖掘所要处理的问题,就是在庞大的数据库中拽出有 价值的关联项目,并且加以分析,获取有意义的信息,归纳出有用 的结构,作为企业经营决策的依据。其应用非常广泛,只要某一行 业具备业务数据以及进行数据分析的需求,皆可利用挖掘工具进行 有耳的的发掘分析。常见的应用案例多发生在零售业、制造业、财 务、金融、保险、通讯及医疗服务行业等: 销售商从顾客购买商品中发现一定的关系,提供打折购物券 等,提高销售额; 保险公司通过数据挖掘建立预测模型,辨别出可能的欺诈行 为,避免道德风险,减少成本。提高利润; 在制造业中,半导体的生产和测试中都产生大量的数据,就 必须对这些数据进行分析,找出存在的问题,提高质量; 电子商务的作用越来越大,可以用数据挖掘对网站进行分 析,识别用户的行为模式,保留客户,提供个性化服务,优化网 站设计。 一些公司运用关联规则挖掘的成功案例,显示了其强大生命力。 但是目前,在汽车销售行业中,数据挖掘的应用案例比较少,而利 用关联规则挖掘来分析企业业务数据和客户数据,帮助企业制定销 售及营销策略,辅助企业经营决策的应用却几乎没有。 关联规则挖掘及其在客户关系管理中的应用研究 1 3 客户关系管理与数据挖掘基础 1 3 1 客户关系管理的概念 关于客户关系管理的的定义,不同的研究机构有着不同的看法。 但不管从营销学的角度还是从管理学的角度,都离不开以客户为中 心的思想。归纳众多国外著名研究机构和跨国公司对c r m 的理解, c r m 概念可以从三个层面来表述: ( 一) c l t g 是一种现代经营管理理念 作为一种管理理念,c r m 起源于西方的市场营销理论,产生和发 展于美国。近几十年来,市场营销的理论和方法极大的推动了西方 国家工商业的发展,深刻地影响着企业的经营观念以及人们的生活 方式。近年来,信息技术的长足发展为市场营销管理理念的普及和 应用开辟了广阔的空间。以客户为中心、视客户为资源、通过客户 关怀实现客户满意等等是这些观念的核心所在。 ( 二) c p & i 包含的是一整套解决方案 作为解决方案,c i n 集合了当今最新的信息技术,他们包括 i n t e r n e t 和电子商务、多媒体技术、数据仓库和数据挖掘、专家系 统和人工智能、呼叫中心以及相应的硬件环境,同时还包括与c p 4 1 相关的专业咨询等等。 ( 三) 客户关系管理意味着一套应用软件系统 作为一个应用软件系统,c r m 凝聚了市场营销等管理科学的核心 思想。市场营销、销售管理、客户关怀、服务和支持等构成了c r m 软件模块的基石。 综合上面的论述,我们可以将其理解为理念、战略、技术三个 层次,正确的战略、策略是c r m 实施的指导,信息系统、i t 技术是 一1 0 关联规则挖掘及其在客户关系管理中的应用研究 c r m 成功实施的手段和方法。其实,企业实施c r m 主要有六个重要领 域:理念、战略、战术、技术、技能、业务流程,如图1 1 所示。 其中理念是c r m 成功的关键,它是c r m 实施应用的基础和土壤。 1 3 2 数据挖掘基础 图1 ,1c r m 的六个领域 数据挖掘是从大规模数据中发现有价值知识的过程,这些数据 存储在数据库、数据仓库或者其他信息存储介质中。数据挖掘提取 的知识可以表现为概念( c o n c e p t s ) 、规则( r u l e s ) 、规律 ( r e g u l a r i t i e s ) 、模式( p a t t e r n s ) 等形式。 数据挖掘具有如下特点: 1 数据挖掘处理的数据规模是海量的、十分巨大的; 2 。数据挖掘技术是面向应用的,它不仅是面向特定数据库的简单 检索查询调用,而且要对这些数据进行微观或宏观的统计、分 析、综合和推理,以指导实际问题的求解,企图发现事件间的 相互关联,甚至利用已有的数据对未来的活动进行预测; 3 数据描述是数据挖掘的第一步计算统计变量( 比如平均值、 均方差等) 。选择正确的数据源对整个数据挖掘项目的成败至关 一n 一 关联规则挖掘及其在客户关系管理中的应用研究 重要; 4 数据挖掘必须利用选择的数据源建立模型。一个好的模型没有 必要与数据库中的数据1 0 0 的相符,因此所发现的规律、知 识也不一定完全适用于所有数据。当达到某一阈值时,即可认 为有此规律或知识; 5 数据挖掘只是帮助商业人士更深入、更容易地分析数据,它无 法告诉某个模型对企业的实际价值,而且数据挖掘中得到的模 型必须要在现实生活中进行验证; 6 数据挖掘只会告诉使用者它会这样做,至于为什么它这样做则 需要人发挥主观能动性去考虑; 7 在一- 些应用中,由于数据变化迅速,可能会很快过时,因此要 求数据挖掘能快速做出反应,提供决策支持。数据挖掘既要发 现潜在规律,还要管理和维护这些规律。 1 4 论文研究的主要内容 论述客户关系管理出现的背景环境、分析数据挖掘特点以及关 联规则挖掘研究与应用现状的基础上,本论文准备在以下几个方面 对关联规则挖掘在客户关系管理中的应用问题做进一步的研究与完 善。 ( 1 ) 研究关联规则挖掘经典算法a p r i o r i ,分析该算法存在的不 足之处,以此为基础,提出一种有效的关联规则挖掘算法:0 - 1 a r 算法,并对该算法进行理论与实验分析,证明其正确性与高效性; ( 2 ) 研究在客户关系管理中实施关联规则挖掘的方法与步骤; ( 3 ) 研究汽车销售行业的客户关系管理问题;根据论文提出的 关联规则挖掘算法,利用汽车销售企业的客户数据,对处于持币待 一1 2 鲞壁塑! ! 垫塑丝苎垄查宝差墨笪型! 塑壁旦竺塞 购状态的客户数据进行挖掘分析,对挖掘结果遴行分析与理解,在 此基础上,研究造成这一状态的关联因素,并提出解决的方法。 1 5 论文研究的技术路线 本论文的研究将分以下几个步骤进行: ( i ) 广泛研究国内夕 客户关系管理理论发展的现状、数据挖掘 技术发展背景及其相关的基础知识,确定自己的研究内容; ( 2 ) 研究关联规则挖掘经典算法a p r i o r i ,找出这一算法中的不 足之处及有待改进的地方,针对这些问题,提出一种有效的关联规 则挖掘算法,并验证新算法的正确性与有效性; ( 3 ) 通过研究客户关系管理中实施数据挖掘的步骤,将改进的 挖掘算法应用到汽车销售客户关系管理中,分析影响客户行为状态 的因素,以解决实际阎题: ( 4 ) 总结论文的主要研究成果,指出有待改进的地方。结合研 究实践中的切身体会,指出比较有意义的发展方向。 关联规则挖掘及其在客户关系管理中的应用研究 第二章关联规则挖掘问题研究 关联规则是发现交易数据库中不同数据项之间的联系,即寻找 给定数据集中的有意义的联系。通过描述数据库中数据项之间存在 的潜在规则,找出满足给定支持度和置信度阈值的多个域之间的依 赖关系。在事务数据库中挖掘关联规则是数据挖掘领域中的一个非 常重要的研究课题。它是由r a g r a w a l 等人首先提出的。个有关 联规则的例子就是“7 0 的客户在购买榔头的同时也会购买铁钉”, 其直观意义就是顾客在购买某些商品的时候购买另外一些商品的倾 向程度如何。发现这样的规则( 关联规则) 可以应用于顾客购物分 析、目录设计、商品广告邮寄分析、追加销售、商品货架设计、仓 储规划、网络故障分析以及根据购买模式对用户进行分类等。 关联规贝4 数据挖掘在商业等领域中的成功应用,使它成为数据 挖掘领域中最成熟、最主要、最活跃的研究内容。 2 1 关联规则挖掘基础 2 1 1 关联规则的定义 为了方便问题的讨论,准确描述数据挖掘问题,需要对关联规 则挖掘给予严格的定义。下面就用事务数据库来定义关联规则挖掘 问题。 定义2 1 关联规则挖掘的数据集记为d ( d 为事务数据库) , d 2 ,】,t 2 ,a ,“,a ,。 ,“= f l ,i 2 ,人,f 。,ai 。) ,( _ i = 1 , 2 ,a ,n ) 称为 一个事务( t r a n s a c t i o n ) ,i n ( m = 1 , 2 ,a ,p ) 称为项目( i t e m ) 。 关联规则挖掘及其在客户关系管理中的应用研究 在事务数据库中,项目就是商品( 服务) 的名称,事务数据库 中的事务还包括其他一些信息,如日期、客户编号等,在关联规则 挖掘中这些信息一般是被忽略掉的,使得一个事务中只包含项目的 标识符,即该事务中顾客购买了哪些商品。由此可知,事务就是项 目的集合。 定义2 2 设,= “,a ,。) 是d 中全体项目组成的集合,的任 何子集工称为d 中的项目集( r e m s e t ) ,1 x l _ k 称集合x 为k 项目集 ( k q t e m s e t ) 。设和x 分别为d 中的事务和项目集,如果彳“, 称事务屯包含项目集x 。每一个事务都有一个唯一的标识符,称为 t i d 。 为了找出关联规则,必须处理各种不同的项目组合,每一个项 目组合都称为一个项目集。由于空集在这里没有意义,因此,若总 项目数为i jj ,则所有需要考察的项目集数为2 j “一1 。 事务和项目集虽然都是项目的集合,但是两者有不同的含义。 事务是数据库d 的组成元素( 类似于关系数据库中的记录或元组) , 而项目集仅仅是为挖掘关联规则而规定的项目组合。事务与项目集 的包含关系对事务来说,此项目集中的各个项目是相互关联的。 定义2 3 数据集d 中包含项目集卫的事务数称为项目集x 的 支持数,记为仃,。项目集x 的支持度记为s u p p o r t ( x ) : s u p p o r t 防x 裔枷眠cs u p p o r t 2 裔 沼1 ) 其中i d l 是数据集d 的事务数,若s u p p o r t ( x ) 7 f d 、于用户指定的 关联规则挖掘及其在客户关系管理中的应用研究 最小支持度( m i n s u p p o r t ) 则称z 为频繁项目集,简称频集( 或大 项目集) ,否则称为非频繁项目集,简称非频集( 或小项目集) 。 定理2 1 设x ,y 是数据集d 中的项目集: ( 1 ) 若x y ,则s u p p o r t ( x ) s u p p o r t ( y ) : ( 2 2 ) ( 2 ) 若x y ,如果戈是非频集,则y 也是非频集: ( 3 ) 若x y ,如果r 是频集,则丑也是频集。 根据以上定义,对定理2 1 作如下证明: ( 1 ) 对任意的数据集d ,因为x y ,有y g d j x d 因此 盯,2 盯,得到 泐洲( 耻裔跏州( 耻啬确也 ( 2 ) 工是非频繁集,有 泐洲2 齿删蝴驯; 又因为并sy ,由式( 3 2 ) 知s u p p o r t ( x ) s u p p o r t ( y ) 故s u p p o r t ( y ) 蚴n s u p p 甜“即盖是频集,得证。 定义2 4 若x ,y 为项目集,且z n y = ,蕴含式x j y 称为 关联规则,x ,r 分别称为关联规则x j l ,的前提和结论。项目集 爿u 】,的支持度称为关联规则x jy 的支持度,记作: s u p p o r t ( x j n , s u p p o r t ( x y ) = s u p p o r t ( x u 】,) ( 2 3 ) 关联规则xj y 的置信度记作:c o n f i d e n c e ( xj n , c o n f i d e r i c e ( xjn :s u p p o r t ( x t j y ) 1 0 0 ( 2 - 4 ) 、7 s u p p o r t ( x ) 通常,用户根据实际挖掘,需要指定最小置信度。最小置信度 记为m i n c o n f i d e n c e 。 支持度和置信度是描述关联规则的两个重要概念,前者用于衡 量关联规则在整个数据集中的统计重要性,后者用于衡量关联规则 的可信程度。一般来说只有置信度和可信度都较高的关联规则才可 能是用户感兴趣、有用的关联规则。置信度高而支持度低的关联规 则说明其出现机会较少,是非重要的。 关联规则xjy 的期望置信度记作: e x p e c t e d c o n f i d e n c e ( xj n , e x p e c t e d c o n f i d e n c e ( xjy ) = s u p p o r t ( y )( 2 5 ) 期望置信度描述了在没有任何条件影响时,项目集y 在所有事 务中出现的概率有多大。 关联规则挖掘及其在客户关系管理中的应用研究 定义2 5 关联规则肖y 的提升度( l i f t ) ,记作:,够( x j y ) ,瓣( x j y ) : 垡翌生! 竺坚三兰l 一。、 e x p e c t e d c o n f i d e n c e ( xjy ) r1 “ 、一u , 一璺丝! ! ! 墨! 望 s u p p o r t ( x ) xs u p p o r t ( y ) 提升度描述项目集x 的出现对项目集y 的出现有多大影响。因 为项目集y 在所有事务中出现的概率是期望置信度;而项目集y 在 所有项耳集x 出现的事务中出现的概率是置信度,通过置信度对期 望置信度的比值反映了在加入“项目集z 出现”这个条件之后,项 目集】,的出现概率发生了多大的变化。 一般情况下,有用的关联规则的提升度都应该大于1 ,只有关联 规则的置信度大于期望置信度,才说明的出现对r 的出现有促进 作用,也说明了它们之间某种程度的相关性,如果提升度不大于1 , 则此关联规则也就没有意义了。 支持度、置信度、期望置信度和提升度是关联规则的四个评价 度量标准。其中支持度和置信度能比较直接地形容关联规则的性质。 从关联规则定义可以看出,任意给定事务中的两个项目集,他们之 间都存在关联规则,只不过属性值有所不同。如果不考虑关联规则 的支持度和置信度,那么在事务数据库中则可以发现无穷多的关联 规则。 事实上,人们一般只对满足一定的支持度和可信度的关联规则 感兴趣。因此,为了发现有意义的关联规则,需要给定两个阈值: 最小支持度( m i n s u p p o r t ) 和最小可信度( m i n c o n f i d e n c e ) 。前者 即用户规定的关联规则必须满足的最小支持度,它表示了一组商品 集在统计意义上的需满足的最低程度;后者即用户规定的关联规则 关联规则挖掘及其在客户关系管理中的应用研究 必须满足的最小可信度,它反应了关联规则的最低可靠度。 定义2 5 若s u p p o r t ( xjy ) m i n s u p p o r t , 且c o n f i d e n c e ( xjy 1 m i n c o n f i d e n c e ,称关联规则j y 为强 规则,否则称关联规则工jr 为弱规则。 2 1 2 关联规则的分类 根据不同的标准,关联规则有如下的分类: ( 1 ) 基于规则中处理的变量的类别,关联规则可以分为布尔型 和数值型。 布尔型关联规则( b o o l e a n a s s o c i a t i o nr u l e ) 处理的值都是离散 的、种类化的,它所考虑的是项的存在与否。例如下面的规则就是 布尔型关联规则: p cj m i c r o s o f t o f f i c e s u p p o r t = 2 0 ,c o n f i d e n c e = 6 0 】 数值型关联规则( q u a n t i t a t i v ea s s o c i a t i o nr u l e ) 所描述的是量 化的项或属性之间的关联。在这种规则中,项或属性的量化值划分 为区间。如下式( 2 7 ) 所表示的关联规则就是数值型关联规则: a g e ( x , 。 b u y ( x2 l 9 a i q u i 3 d 7 c ”r n y s t 翩a l t e l e “v i s 置i o n “6 嘶”p ( 2 - 7 ) ,”) ( 2 ) 基于规则中涉及的数据维数,可以分为单维关联规则和多 维关联规则。 如果关联规则中的项或属性每个只涉及个维,则称这样的规 则为单维关联规则( s i n g l e d i m e n s i o n a la s s o c i a t i o nr u l e ) 。如下式 ( 2 8 ) : b u y ( x , c o m p u t e r ”) jb u y ( x , f i n a c i a l m a n g e m e n t s o f t w a r e ”) 关联规则挖掘及其在客户关系管理中的应用研究 其中,x 是变量,代表购物的客户。这是单维关联规则( 或称 维内关联规则) ,因为它们只涉及到单个相同谓词“b u y ”。 如式( 2 7 ) ,涉及到b u y ,l n c o m e ,a g e 等三个谓词,这样的规 则就是多维关联规则( m u l t i d i m e n s i o n a l a s s o c i a t i o nr u l e ) 。 单维关联规则处理单个项( 属性) 中的一些关系;多维关联规 则处理多个项( 属性) 之间的某些关系。 ( 3 ) 基于规则中数据的抽象层次,可以分为单层关联规则和多 层关联规则。 单层的关联规则是在给定的规则集中,规则不涉及不同抽象层 的项或属性。如下式: a g e ( x , 2 3 a4 0 ”) jb u y ( x , l e n v o n o - c o m p u t o r ”) 表示“年龄 在2 3 到4 0 之间的人购买联想电脑”,这是细节层次的规则。 如果在此基础上挖掘“年龄在2 3 到4 0 之间的人购买电脑”如 下式: a g e ( x , 2 3 a4 0 ”) jb u y ( x , c o m p u t o r “) ,这种对电脑的高层次 提升,使得挖掘不在相同的层次,这样的规则称为多层次关联规则。 2 2 关联规则挖掘问题的分解 关联规则挖掘的任务就是要挖掘出数据集d 中的所有强翘则。 强规则x y 对应的项目集( 爿k y ) 必定是频集( 由定义2 。5 和 式2 3 可知) 。由式( 2 。2 ) 和式( 2 - 4 ) 可知,频集( x u y ) 导出 的关联规则x y 的置信度可由频集石和( j u y ) 的支持度计算。 因此,可以把关联规则挖掘划分为以下两个子问题: ( 1 ) 根据最小支持度找出数据集d 中的所有频集: 关联规则挖掘及其在客户关系管理中的应用研究 ( 2 ) 根据频繁项目集和最小置信度产生关联规则。 第一个问题的任务是迅速高效地找出d 中全部频集,是关联规 则挖掘的中心问题,也是衡量关联规则挖掘算法的标准;第二个问 题由式( 2 1 ) 和式( 2 4 ) 可知其求解是比较容易和直接的。 2 2 。1 关联规则挖掘的基本模型 关畦规则挖掘及其在客户关系管理中的应用研究 节省为处理部分候选项目集所需的计算时间和存储空间。 2 2 2 发现频繁项目集 寻找频繁项目集( 大项目集) 的问题可以归纳为寻找所有含有 给定置信度的规则的问题。也就是说,若给定一个事务集合d ,我 们就能给d 中每个事务加入一个额外项目j ,然后寻找那些在右侧有 i ,且置信度为1 0 0 的关联规则,从而找到频繁项目集。 发现所有频繁项目集的算法在数据上进行了多次遍历。在每次 遍历中,从频繁项目集的一个种子集合开始,并用这个种子集合产 生新的潜在的频繁项目集,称为候选项目集。在遍历数据的时候寻 找对这些候选项目集有价值的支持。在遍历的最后,确定候选项目 集中的哪些确实是频繁的,然后他们就变成下一次遍历的种子。这 个进程持续直到找不到新的频繁项目集。在第一次遍历中,计算每 个项目的支持度,并确定其中哪些是频繁的。这可看作是潜在频繁 项目集空间中的宽度优先搜索。 关于频繁项目集的发现算法将在论文后续部分作更为详细的研 究。 2 2 3 根据频繁项目集产生强关联规则 由式( 2 4 ) 可知,强关联规则的产生过程如下: ( 1 ) 对于每个频繁项目集,产生,的所有非空真子集: ( 2 ) 对于- 厂的每个非空子集m ,如果 些型盟x 1 0 0 m i n c o 俐舢s u p p o r t ( m ) 。一。 则输出强关联规则“m j 厂一肌”: 关联规则挖掘及其在客户关系管理中的应用研究 推论2 1 对于项目集和其子集卅和m ,若m 3 m ,则关联规 则m ,j f m ,的置信度不可能大于关联规则m j f 一脚的置信度。 【证明l因为m 厂、m f 且m j m ,由定理( 2 1 ) 可知 s u p p o r t ( m ) s u p p o r t ( m ) 而沏州c 删j ,一弘鬻署 恸。r ,沏j 厂一) 2 篙掰 因此s u p p o r t ( m j 厂一州) s u p p o r t ( m j f 一州) 得证。 在根据频繁项目集产生强关联规则时,利用推论( 2 1 ) 可以减 少计算量,进一步提高强规则的产生效率。 2 3 关联规则挖掘经典算法 a g r a w a l 等于1 9 9 3 年首先提出了挖掘顾客交易数据库中项集间 的关联规则问题a p r i o r i 算法,其核心方法是基于频集理论的递 推方法。它是按项目集从小到大的顺序寻找频繁项目集,是布尔关 联规则挖掘算法中最成功的一类算法。它是层次算法的基础,其核 心技术为其他各类布尔关联规则挖掘算法广泛采用。以后诸多的研 究人员对关联规则的挖掘问题进行了大量的研究。他们的工作包括 对原有的算法进行优化,如引入随机采样、并行的思想等,以提高 算法挖掘规则的效率;提出各种变体,如泛化的关联规则、周期关 关联按则挖掘驶其在客户关系管理中的应用研究 联规则等,对关联规则的应用进行了推广。 2 3 1 a p r i o r i 算法基础 a p r i o r i 算法是一种最有影响的挖掘布尔关联规则频繁项集的算 法。a p r i o r i 算法使用一种逐层搜索的迭代方法: 设有数据集d ,算法在第一次遍历d 时仅仅计算每个项目的具 体值的数量,以确定频繁l 一项目集,设大项集三中包含的项目数为 k 。随后的遍历,以第k ( 1s k sk ) 次为例,包括两个阶段。首先,使 用在第( k - - 1 ) 次遍历中找到的大项集l 。和a p r i o r i - g e n 函数产生 候选项集c 。,这些候选项目集的所有子集必须都是频繁项目集;然 后扫描数据集,计算c 中所有项目的支持度,并根据最小支持度确 定所有频繁b 项目集的集合厶,即大型。b 项集。 为提高频繁项集逐层产生的效率,a p r i o r i 性质可以用来有效的 修剪候选项目集。 a p r i o

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论