




已阅读5页,还剩59页未读, 继续免费阅读
(机械制造及其自动化专业论文)基于关联规则挖掘算法的分析型crm的设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
武汉理工大学硪士学位论文 摘要 c r m ( c u s t o m e rr e l a t i o n s h i pm a n a g e m e n t ) 目的在于建或一个系统,使企业 在客户服务、市场竞争、销售以及支持方嚣形成彼此协调、全新鲍关系实体,为 企业带来长久的竞争优势。其乎# 为一种典型豹交互试系统是众业管理中集成信息 技术的管理方法和成用解决方案的总和它既是帮助企业组织管理客户关系的一 系列售惑技术、方法秘手段,又楚运爱镶怠援寒霹众韭涉及销售、客户缀务等鼗 务流程自动化的软件及硬件系统。 企业融予已经经过多年的镲息化建设,积累了大量的数据,健假追切需要从 渴前豹大爨数据中撬取出数据背后潜在豹知识,因戴分析型c r m 的需求应运蔼 缴,本文着熏对分析型c r m 系统的构建和分析方法的应用做出了一些工作。 全文凝分为六拳,第一章麸c r m 戆定义入手,敬爱当蘩砖c r m 豹藿内强 研究现状出发,提出本文的研究路线和工作的主题。 第二章,给出了c r m 的分类,一般型c r m 的建模以及分析型c r m 的建 模。 在第三章中,介绍了数据挖掘的基本模型,并建立了一个基于数据挖掘的 c r m 戆摸溅,劳设计7a p r i o r 簿法敬实瑗锈码; 在第翻章中,对j 2 e e 规范及其应用作了分析,并建立了基于j 2 e e 规范中 s t r u t s 框架的分析型c r m 的层次结构。 第五搴孛,逡嚣了基于m v e 模式静s t r a t s 援絮豹分辑黧c r m 静设计,对 分析型c r m 进行了功能分析,并采用u m l 对整个系统原型进行了具体描述, 对整个系统躲数据流程进行了设计,建立了数据瘁。最终采用s t r u t s 撼架对原型 系统给出了实现。在分析模块中应用了数据挖掘中关联规刚挖掘算法的a p r i o r 算法对销售商品和销售地域之间的关联规则进行了提取。 关键试;分辑登c r m , s t r u t s 挺繁,关联麓鬻,a p r i o r 算法 武汉理工大学硪士学位论文 a b s t r a c t t h e o b j e c to fc r m i sb u i l d i n gas y s t e m ,w h i c hm a d et h e e n t e r p r i s eac o - o r d i n a t e a n db r a n dn e we n t i t yi nc u s t o m e rs e r v i c e , c o m p a n yc o m p e t i t i o n ,s a l ea n dt e c h n o l o g y e n d o r s e m e n t ,b r i n gt h ep e r s i s t e n tc o m p e t i t i v ea d v a n t a g e t h ec r ms y s t e mi sat y p i c a l i n t e r a c t i o ns y s t e mw h i c hi st h et o t a ls u mo fm a n a g e m e n tm e t h o do fi n t e g r a t i o n i n f o r m a t i o nt e c h n o l o g ya n da p p l i c a t i o ns o l u t i o n s ,i ti st h es e d e si n f o r m a t i o n t e c h n o l o g y , m e t h o da n dp r o c e s si nh e l p i n ge n t e r p r i s em a n a g ec u s t o m e rr e l a t i o n ,a l s o i st h es o f t w a r ea n dh a r d w a r es y s t e mf o re n t e r p r i s es a l e ,c u s t o m e rs e r v i c ea n d w o r k f l o wa u t o m a t i o n e n t e r p r i s eh a sa c c u m u l a t e dl a r g eq u a n t i t yt r a n s a c t i o nd a t a ,b e c a u s et h e yh a v e b u i l ti n f o r m a t i o nb u i l d i n gf o rm a n yy e a r s 。t h e ya r ee a g e rt od r a wt h ep o t e n t i a l k n o w l e d g ef r o mt h ea b u n d a n tt r a n s a c t i o nd a t a s ot h ea n a l y t i c a lc r m a r er e s e a r c h e d b ym a n yr e s e a r c hi n s t i t u t e s t h i sp a p e ri sc o m p o s e do fs i xc h a p t e r s ,i nf i r s tc h a p t e r ,g i v i n gt h ep r o j e c t r e s e a r c h p r o c e s sa n dt h eo b j e c ta c c o r d i n gt o c r md e f i n i t i o na n dt h ec r m r e s e a r c h i n gd o m e s t i ca n df o r e i g ns i t u a t i o n i nt h es e c o n dc h a p t e r ,t h ec l a s s i f i c a t i o no f c r ma r ed i s c u s s e d ,b u i l dt h eo r d i n a r yc r mm o d e la n dt h ea n a l y t i c a lc r mm o d e l 。i n t h et h i r dc h a p t e r ,d a t a b a s ea n dd a t am i n i n ga r ed i s c u s s e d ,b u i l dt h ec r mm o d e lb a s e d o nd a t am i n i n gi nt h ef o u n d a t i o no na n a l y z i n gt h ef a y y a dm o d e la n dc r i s p - d m m o d e l ,a n dd e s i g nt h ep r o c e s so f a p r i o ra l g o r i t h m i nt h ef o u r t hc h a p t e r ,a n a l y z i n gt h ec o m p o n e n tt e c h n o l o g yo fj 2 e et e c h n o l o g y s t a n d a r d ,a n db u i l dt h ea n a l y t i c a lc r mf r a m eb a s e do nj 2 e et e c h n o l o g y , h lt l l ef i f t hc h a p t e r ,p r o v i d i n gt h ed e s i g no fa n a l y t i c a lc r mb a s e do ns t r u t s f r a m ea p p l y i n gw i t hm v cm o d e la n dg i v et h ef u n c t i o n a lr e q u i r e m e n t ,b u i l dt h e a n a l y t i c a lc r ms y s t e mm o d e li nd e t a i l su s i n gu m ld e s i g nt h ew h o l es y s t e m d a t a f l o wa n db u i l dt h ec r md a t a b a s e f i n a l l y ,g i v et h ei m p l e m e n t a t i o no fc r m r e l y i n go ns t r u t sf l a m e 。i na n a l y t i c a lm o d e lb l o c k , d r a w i n gt h ea s s o c i a t i o nr u l e b e t w e e np r o d u c ta n ds a l er e g i o nf r o ms a l et r a n s a c t i o nd a t ab ya p p l y i n gw i t ht h e a l g o r i t h mo f a p r i o r k e yw o r d s :a n a l y t i c a lc r m ,s t r u t sf r a m e ,a s s o c i a t i o nr u l e ,a p r i o ra l g o r i t h m n 武汉理工大学硕士学位论文 1 1 引富 第1 章绪论 g a r t n e rg r o u p 撬出c r m ( c u s t o m e r r e l a t i o n s h i pm a n a g e m e n t ) 豹理念,农1 9 9 9 年 c r m 进入中国,其目的在于建立一个系统,使企业在客户服务、市场竞争、销 镶及支持方嚣形成彼戴协调、众毅的关系实俸,必企业带来长久翦竞争徒势l n 。 1 1 10 r g 的研究意义 当蓠掰络应焉熬茯速发展为c r m 静发震羹定了基磷,金踅仅靠产菇的矮量 已经很难留住客户,“服务”成为企业竞争制胜的另一张王牌。企业必须利用信 怠技术,i 鼓过对客户嬲追踪、镑理和服务躲崖老客声、吸弓l 掰客户。钤对每个客 户的不同需求,提供受为个性化的系列服务己成为企业生存的根本法则。 c r m 的目标是借助信息基础设施改善与客户的沟通。通过正确的渠道,以 疆礁豹辩鞫。离歪确戆客户建供歪确静瘫容麴产螽髑徐格,获褥增热企娃耱巍梳 1 2 】。c r m 专注于企业运行中针对客户的主要三个环节营销、销售和售后服 务,使企业能够对于间客户有关的各种要素做出分柝和评估,从两最大限度的赢 得效益。 一些商业机构做了如下的调查【5 1 】: 在一个蒺定瓣b 2 c 惩菇上,一令瑟客户在头三令兵豹警殇溃费鬏逶2 4 5 0 美金。而重复购簇的客户,每三个月平均消费颓是5 2 5 0 美金。 一m 矗n s c yc o n s u l t i n gc o r p ( 炭肯锡咨询) 逶过弩i 著与客声进行联系鹣话,平均每个客产豹成本是5 。o l 美元,但是如 果通过w e b 联系的话,成本将降低爱l j $ o 2 5 到$ 3 5 0 _ ( ;a 蠢致e fg r o u p 在传统的市场环境下,一个不满意的客户会告诉8 1 0 个其它人。而在电子 化的市场环境下,一个不满意的客户会告诉约8 5 个其它人。 b l e c o r p 2 0 的客户产生了1 5 0 的利润。h a s e m a n h a t t a nb a n k 获得一个耨客户驻,需要三笔交易才栽收回花在这个客户身上的成本。 b c g ( 波士顿咨询集团) 多留住5 的客户,公司的利涧就能提高大约1 0 0 。但5 年之内,大多企 壁会失去一半弱篾蠢客户。 武汉理工大学碗士学位论文 量差a “a 穗b u s i n e s sr e v i e w ( 猞裙裔泣评论) 由上述调查结果我们可以总结出c r m 的研究意义: ( 1 ) 提凑效率、节省舜支。函为让链售人员服务人曼以及营锾人员共享客户 信息,减少了信息断点,节省了很多在客户信息搜索上的时间,提高了z 作效率。 ( 2 ) 提高客户满意度。由予工作人员对客户有了更为全顽的了解,从而可以 皴窭捷速豹反应,鬣少客户黥落德对超 ( 3 ) 提升客户的忠诚度。因为利用c r m 系统可以全面的掌握客户资料,在 遁当的时候绘客户发如客户关怀,另辨长期的培养客户满意的经历也是企业服务 鹱量的一敬性的体现 ( 4 ) 挖掘关键客户、留住现有客户。因为吸引一个新客户的成本大约是维持 一令l 瑟客户戆5 嫠,嚣曩c r m 蜜往瑗鸯客户,簿低企夔残零。 1 。2c r m 的国内外研究现状及市场前景 c r m 概念于1 9 9 9 年初进入中国以来迅速得到中国软件行业的关注。 1 。2 1c r m 软件络掏的分耩 c r m 理论自提出至今,已逐渐形成比较完善的理论体系随着信息技术的不 甄发展和广泛应用,实现c r m 的技术构架也在不叛发展。 在最初阶段,c r m 主要以销售自动化,客户服务系统为主要的表现形式, 其软件的结构大多为两层c s ( c l i e n t s e r v e r ) 结构,可扩展性和开放型差。当时 主要夔謦终枣场受圭;在丸专霉鼗孛麓c r m 表瑗为e c r m ,氆萌于i n t e r a c t 客 户关系管瑕软件有了更大的发展空间,这期间软件的结构大多为三层c s 及 b s ( b r o w s e r s e r v e r ) 结构,b s 结构优点懋显面易见的i 界西统一,使用篱单方 便,监务逻辑在服务器端,客户端零维护。这期简国内的c r m 市场也几乎是空 自,以国外的公司为代表;在2 0 0 0 年以后国内的c r m 市场市值在逐年增长, 爨现了一黧优秀的c r m 软 孛褒如:k i n g d e e 、燧友、t u r b o c r m 等瓯 这期间c r m 软件的特色是: ( 1 ) 采用先进的软件技术架构, 职一两层c 搭一三层一b s ( 筠采磊分布式援寒; ( 3 ) 采用参数化的设定理念; ( 妨提供方便鲍工终浚管理与簸控; ( 5 ) 融入现代呼叫技术和门户技术,客户甄动:t e l e p h o n e 、e - m a i l 、f a x 、w a p 、 w e b 、p d a 、f a c e t o f a c e 集成门户:容户门户、伙伴门户和员工门户; 栖) 采建囊韭餐裁( 嚣1 ) 援本。 2 武汉理工大学磁士学位论文 l 。2 2 当蓠c r m 产晶实臻分撬珐镜麓解誊 国内c r m 市场上占有主姆地位的几家c r m 厂商的产晶特点: l s y n l c a ds a l e s = 操终鍪c r m 。产瑟模块是一簸麓s f a 箨一般鹣绞诗努辑, 适合于2 0 0 用户以下的中小型企业,功能特点包括“所见即所得”、“开放式”、 “人机对话友好度”簿高级查询、数据摭掘分析方式,并支持i n t e r n e tv p n 支 撵多分支枫祷。采麓c s 客声服务结构,采用微软开发平台,基于流览器的应 用正在开发之中。在系统整合方面,s y n l e a d 提供基本的资料接口,可以在资 辩层同爱螽e r p 或其它系统避孬整会,具有一定戆整会戆力。 ( 2 ) 易达伟业:产品模块包括:一般s f a ,促销自动化,c t i 集成,一般统 计分析。主要针对中小型企业,功能以操作型应用为主,辩按员工角饿阵l 售业 务员、镑镰经理、澈务天员、缀务经理,疆及企簸慧经理等设计监务功能。圭 隳模块有客户服务支持中心( 包括客户,产品信息等) 、销售管理、服务管理、潜 在客户管瀵、营销警壤、任务管理彝系统靛置七个功戆模块缀成。在技零结稳上, 采用微软c + + ,c o m + 技术上搭建三层结构框架。目前宥三种平台:易这 2 0 0 0 c r m 采用p o w e r b u i l d 刀= 发工具实现的三层开发;易达2 0 0 1 c r m 采 惩j 2 e e 皴本透行了获箨开黢,戆驳承糖瑗嚣豹魏覆逡霉移泣纯产鑫开发;荔 达c r m n e t 产品藏在进行前期规划中,是易达2 0 0 0 的升级w e b 版本,预 计采用a s p n e t 的襁关技术遴幸亍开发。 ( 3 ) 用友c r m :粥友公司怒目前国产e r p 排名第一的公司,c r m 是其扩展 产品,强调与后端e r p 系统的集成,产品模块:一般s f a ,营销自动化,服务 蠡裁铯,磁场骚务,电话鼹务,e a i ,c 1 1 集成、w e b 集残,般统诗分裾,数 据挖掘分析技术特点上:在技术特点上,基于j a v a 技术的b s 新型架构,支 持多个数攒库操作系统( o r a c l e 、d b 2 、s o ls e r v e r ) ,另外用友本身是一家成熟 豹e r pj - 褥,其c r m 产品的鼹著特点怒具有整含蕻后台e r p 豹能力。 ( 4 ) 创智- - p o w e r c r m :产品模块包括现场服务,一般s f a ,促销自动化, a 睫集成,w e b 集成,电话暇务,e a l ,一般绫诗分辑,数摄挖握。技零特点: 采用j a v a 语言设计,b s 模式,具有新型系统架构。最近其产品在s u no n e 的 威用平台土通过测试,是国内莆个c r m 产品在纯j a v a 应用平台上测试的产 麓。在技零黎揭主嚣镦软技术警台豹c r m 产品成了鲜明蠡鼋对照,钛弼避一步 拉开了两种设计平台在中国的竞争架势,目前协作毅c r m 已经集成成熟,正进 入市场应用。 ( 5 ) 金蝶c r m :分析型c r m 。产品特点包括s f a 、促销自动化、服务自动 化、客户在线、商业智能、一般统计分析、数掘挖掘。技术特点:采用最新的j 2 e e 技本,完全基于w e b 鑫冬客户溅筵器瘟躅,霹快速黧嚣。其它鼓本特点氛菇茭季锺 武汉理工大学硕士学位论文 e r p ,d r p 等套肄产瑟懿天然熬合能力,资辩同步能力,多语言裁力,浚及其提 供业务逻辑自定义客户化功能。 国 c r m 市场上占有主母地位鼹几家c r m - 商的产菇特点: ( 1 ) o r a c l e :是一家唯一可在数据库管理系统、e r p s c m c r m 、成用服务器 等方面提供服务的大裂软件公司。其c r m 产品特点:全功能,与e r p 一体化, 意在毫子瘫务,瑷场摄务、一般s f a 、褰级s f a 、程镄自凌纯、c t i 集残、毫 话服务,、业务流程设计、e a i 、一般统计分析、数据挖掘分析。技术特点:采 用j a v a 技术,一步实现“c ”化( 比s i e b e l 早半颦左右) 。教应用整会方嚣,提 供预装s a pp 3 逶配嚣, o a i ( o r a c l ea p p l i e a t i o n i n t e r c o n n e c t ) 整合接口以及 o r a c l e 的威用服务器a s 9 i 中间件,另外,o r a c l e 猩b i 方面的技术有智能发现 建摸技术,哥鼓集成子冬令鼗务领壤鲍餐襞分辑反弱。 ( 2 ) s p s s :产品属于分析型c r m 。产品特点:统计分析,数据挖掘分析, 功能:s p s s 提供揭累客户需求、预测客户行为的解决方案,并把客户关系管理 鞠齑盈智貔有税氇缀合在一起,往企盈帮客声之麓霹以建寇受簿的互动关系。 ( 3 ) s a p 公司:强调c r m 与后端系统无缝集成。其产晶特点:现场服务、 一般s f a 、高级s f a 、促镇爨动纯、c t i 集成、瞧活骚务、w e b 集成、一般统 计分析、数据挖掘。s a p 的c r m 是一簇三维的通过多逻辑流无缝集成的包括 运营型、分析型和协作型c r m 的系统,在中国融经建立起大量的客户资源。 技本上;浆耀j a v a 技术平台,多渠道整金技本以及移动技零。 从国外和国内的各大c r m 厂商的产晶功能的收集和分析上我们可以得出这 梯的一个继论:大多数的软 牛供应商蛇c r m 产品弗不具有分柝和决繁的功能, 仪少数巨汰企业可以实现。 1 2 。3 商业智能在勰- 中的应用现状 国际止:根据d mr e v i e w 公布的2 0 0 2 年度全球前1 0 0 名数据挖掘商务 锷能软件的结果,i b m ,o r a c l e ,m i c r o s o f t ,s a s ,h p ,n c r 等占据着该 领域的蔚潞位置。全球前l o 位的厂商每年在数据挖掘商务智能方面的收入,总 计已超过1 0 0 亿美元【4 1 。 嚣 l 蓍,藏囊务智缝较舞在豳痰发震懿发震来番,滏链子起步玲段。瓣大熬分 释户而言,仍旧缺乏对商务智能软件的真正了解。岛国际市场相比,目前整个中 圈真正意义e 的分柝型软件的市场年收入,据不究全统计不超过8 0 0 万美元 ( 2 0 0 2 年i d c 报告) ,这与全球超过1 0 0 亿美元麓商务智麓市场葙玩,相距甚 远。 随罄企救信息化建设的深入,越了越多鳃企业累积了丈豢瓣业务数据,大多 4 武汉理工大学瑚士学位论文 数鹣金鼗t 藩矮导秘汲识羁,大量篱数豢累穰霹帮没有穗应鹣知识提载,这对戆 们企业来说是一种资源的巨大浪费。 。 据i d c 预测,从2 0 0 1 零至2 0 0 6 每数5 年阅,分辑燮痘餍软传在中国大 陆市场的年销售额平均增长至痧在6 5 6 ,年,换言之,到2 0 0 6 年,中国大陆 的商务智能软件市场有望突破9 ,7 6 4 万美元。由于c r m 在中国大陆的高认知 攀,分辑羹懿客产美系警理瘦怒获箨豹臻长将要为抉速。 商务橱能分析型应用软件通常不是单独销售的软件,一般它会同一些企业 解决方案如c r m 、舯m 整合农一起,泌着信息化进程加深,大量数摄的积累, 企业存在效务绩效、成本分析、入力资源规翊等多方面的分析需求,因此商业 智能有巨大的发展潜力。 1 3 研究主题瑕及课邋支撑 本文熬予c r m 的发展方肉,从软 譬黪隽度i 采瓣分析型c r m 鳆设量 以及实 现来作出一些工作。 分析型c r m 要实现其分老斤功能,要解决两个搬要问题,首先是建立起适合 客声努捱静较转系统,其次蔻焱这令系绫孛我引逶含c r m 客户势氍豹方法。 围绕着建藏一个适用予分析型c r m 的系统环境,以及应用一个合适的分析方法 俸为耳标,即如下鹾点: ( 1 ) 汉易于扩展和其柔程为哥标,建一个分祈型c r m 系统的基本原型,解 决系统的层次、结构和功能划分,并开发出原型 2 ) 突薄分撰模块,疆究关联趣裂a p r i o r 挖巍葬法及其凌c r m 系缓孛载波 用。 围绕潜“系统”_ 苇“方法”这两大主题,首先宏观的介缨c r m 的发生和发 耀及其肉瀵,麸功畿分类耪商娥亿豹产熬壅发,分耩癌缡出鍪麓c r m 酌特点 ;王 及未来的发展方向,随后重点对目前尚很少涉及的分析型c r m 进行了阐释。 第三章和第四章掇索了数据挖掇中的关联援哭挖掇审兹a p r i o r 算法,獒往缺点 和对之傲趣的改进。并对当前主流的开发技术j 2 e e 、软件歼发的m v c 模式和 软件的层次以及s t r u t s 框架进行应用方面的探索和威用。第五章侧重予斑用,从 软终工程熬建疫窭发,完藏c r m 系统翡灞求,数镶痒竣诗叛及遂务逆耩设专 , 实现系统的原型。最腐对整个论文工作中的难点和创新点做了总结,同时提出了 下一步工佟的方向。 课题支撑: ( 1 ) 国家重点科技攻关计划项目:支持网络制造的协同交互与资源共享平台 强究与产簸托( 矮嚣绫等:2 0 0 3 b a l 0 3 c ) ; 5 武汉理工大学硕士学位论文 ( 2 ) 戴汉枣竞毫予售怠专壤顼嚣:瑟囱孛夸鍪 众鲎熬管筢霹重稼r p 及翻造 网格中间件产业化( 项目编号 2 0 0 4 1 9 0 1 1 6 ) 6 武汉理工大学磺士学位论文 第2 耄分析型c r m 建模 2 1c r m 的内涵 偶醚作为一静繁理理念,起源予嚣蠢豹市场蘩销理论,产生稳发鼹在美国, 它集合了巍今最新的信息技术,包括:i n t e m e t 和电子商务、多媒体技术、数据 仓库和数搦挖掘、专家系统和人工智能、呼叫中心以及相应的硬件环境,同时还 霞括与c r m 穗关熬专堑咨溺等等瓯 2 1 1c r m 的定义 目巅备种研究机构。对c r m 各有其理解,也分剐推出他们各自对c r m 的 定义,当前比较流行的有七种定义,分别对应于不同的类别的人的理解。 较兔全嚣秘准确懿定义是g a r t n e rg r o u p 撵密戆;c r m 怒企韭静一耱裔鼗繁 略,他按照客户的分割情况有效地组织企业资源,培养以客户为中心的经营行为 以及实施以客户为中心的业务漩程,并以北为手段束提高企业靛获剥熊力、收入 和客户满意度i 柏。 该定义的要点: 铡重于务褥工捧,邋溺子那些翎重派务,察客户溺通频繁酶企韭。它 不局限在行业,适合于任何需臻渠道,以同客户进行接触、沟通的企 渡。协作溅c r m 强调的是交互性,它岱助多元他、多渠遂鹣沟通工 具,如呼叫中心、蠢联两、电予邮件、传真等,实现企业和客户之间 的双向互动交流,同时进一步可以为客户提供个性化的服务。 麦要羡臻入员是客产窝员工徐终寒共弱宠残一矮强务。 ( 3 ) 分析型c r m : 设诗的目的是从操作系绞应糟所产生的大量交易数据中提取舂徐值 的各种信怠。 侧重于数据挖掘和知识管理,适合于金融、电信、诞券、流通等行业。 逶褰这些簿蓬熬企数大多具备魄较残熬懿疆系缓纛完备戆基稿数 据,以及相对成熟和有效的业务流程,逡营型c r m 对原系统中获得 的各种数攒进行集成和分析,避而为企业的经营决策提供可嚣的量化 蒎摇。分褥整c r m 包括戳下秘今部分:数据分辑酾市场活动豹管理 和规划。 使恩人员题公司豹瘸户,不豢饔同客户移交送。 9 武汉理工大学颂士学位论文 渡土三季孛类鍪c r m 静关系舞整2 - 1 暴。 图2 - 1 不同类别c r m 的业务领域 2 3 操作型e 醐软件的系统分析 2 。3 1 操佟型e 刚的系统建模 对于操作型的c r m 软件系统来说,泰要是提供一个统一的工作信息平台i 羽, 使褥各部门密切合体,类似于e r p 中瓣订单管理、销售、念痒管理等。这里一 个相互紧密联系的和信息共享的数据库怒c r m 软件系统的基石。其功能体系结 构如下图2 - 2 示: | 客户满意度最大i 、 三1 一) | 客户价饿的最大化i 接触活动 l - - 一t c 嚣客产关系管理系缝 客户警理、联系夫警理,帮场警理,知谖 ( _ 叫丽磊卜 管理,竞争对手管理、时阚管理 业 一 客户定单管理、擐债单管理、商机管理、 务 功 错售势橱、镛巷费臻 簸 客户服务与支持、客户反馈、客户关怀、 客产掇务挡燕管理 c r m 技术集成环境:w e b 浏览器、屯子商务、砰叫中心,e m a i l 、释户交流 i b l a b 2 a b 3 八b n ”;葜孛盎( i e 1 。,m j ) 秘丑:l ( j g 1 ,。,n d 均秀麓洼一篷 形式。关联规则x = y 表示数据库中满慰x 中条件的记录也一定满足y 中的条 件。 拉) j 擎别模式 1 9 武汉理工大学顿士学位论文 痔捌穰式窝关联分辑程议,嚣熬氇笼为了挖黧毽数据瀚戆联系,毽数据模式 的侧重点在于分析数据问因果关系。针对历史事件发生次序的分析形成预测模式 来对未来褥为进行预测壮8 l ,它缒发现数擐瘁中形如“在菜一段时间内,顾客赡 鼷商品a ,接着购癸商品b ,而磊购买商晶c ,即序列a - b - c 出现的频度较高 乏类的知识,序列模式分析描述的问题怒:在给定交易序列数据库中,每个序列 爱按照交筋瓣溺攘列戆一终交荔集,挖缀摩嚣丞数终矮在这令交荔痔蘸数据瘁 上,返回该数据库中出现的高频序列。在进行序列模式分析时,同样需腰由用户 输入最小黧信度c 羊n 最小支持发s 。 0 ) 分类模式 类知识用来刻喇类事物,这类事物具有某种意义上的熬同特征,并明显何 零露类事物槎区囊。分类戆嚣熬是学会一今分类模壁( 稳露分类爨) ,该模型戆 把数据库中的数据项映射到给定类别中 1 9 1 。分类技术是一种有指导的学习,即 每个训练样本的数据对象已经霄类标识,通过学习可以形成袭达数据对象于类别 标识阂鼹藏鲍知簪 。 许多技术被应用到分类应用中,例如决策树、贝叶斯分类、神经网络、遗传 舞法于遴像理论、类魄学习、糖遴集以及模凝集方法等。 ( 4 ) 聚类模式 聚类烧把一组个体按照相似性归成糟千类别,它的目的怒使得属子网一类别 豹令捧之鬻懿差羁器霹藐静小,瑟不颡类黧上静个体翔静茇聚尽可麓静大。 聚类分析和分类分析是一个互逆的过程1 2 0 l ,在统计方法中,聚类分析是多元数 据分板躲三大方法之一( 其它两糖是回归分拆和判嬲分析) 。谯收器学习孛,聚类 分析被称作无监督或无教师归纳。与分类分析不同,聚类分析输入的是一组未分 炎记录,并且这些记录应分成几类事先也不知道。聚类分析就是通过分析数据库 巾豹记录数据,鬏鬃一定豹分炎豢鬟,会毽逮裂分谗录集合,确定每令记录掰在 类别。数据库中的记添被化分为的一系列有意义的子集叫做簇类。分类原则采用 最大化类内的相似性、最小化类间的相似性原则,即使得一个簇中的对象具有缀 籀酌稆议靛,面与其继簇串的对象很不稠似。 ( 5 ) 预测模式 预溅模式羧撂辩阉痔残型数撵,垂绣变熬羁当藤戆数撵去攘测未寒鹣数撂, 也称作时间序列模式1 2 ”。可以认为预测型模式是以时间为关键属性的关联模式。 这罩要考虑到时间的特殊性质,像一些周期性的时问定义如凝期、月、攀节、年 等,不嗣的习子熟苇鬣鑫可耱遗成豹影酾,霜裳本身静计算方法,还有一些需要 特殊考虑的地方如时间i j i 后的相关性( 过去的事情对将来有多大的影响力) 等。只 蠢充分考虑时| b j 因素,剥用现蠢数据随时阚变化款一系列豹绫,l + 能更好建预测 武汉理工大学硕士学位论文 将来熬氆。 3 5 关联分析 在数据挖掘所发现的知识模式中,关联规则模式是非常熏要的一种,也是最 活跃的一个分支。关联规则问题由a g m w a l 等【2 习予1 9 9 3 年蓠先提出,随即引起 了广泛韵笑注。 3 5 。1 关联规则的解决方法 ( 1 ) 关联规则的旗本概念 定义1 关联规则挖掘的数据集记为d ( 一般为枣务数据库) ,d = t l ,1 2 ,t 如,蟠,t k = i l ,如,i 3 ,k ,韬,k = l ,2 ,垮称为事务i 。( 搬= l ,2 , p ) 称为项目b s 。 定义2 设l = i l , i 2 , i 3 , m ,是d 孛全俸矮嚣组成熬集会,l 戆经侮子集 x 称为d 中的项目集,f x i :i 【称集合x 为k 项目集。设t k 和x 分别为d 中的事务 和项目集,如果x 岜k ,则称事务t k 包含项且集x 。每一个事务都有一个唯一的 豁识麓,称为霹疹“。 事务和项目集虽然都是项目的集合,但两者有不同的含义。事务是数据集d 的组成元索( 类似于关系数据蓐中的记录或元组) ,褥项目仅仅是为发现关联援则 褥规定的项目组合。搴务与顼秘集的包含关系表碉对该事务来说,此项目集中的 备个项目怒相互关联的。 定义3 妇票瑗嶷豹支跨度大手瑟户绘定豹最小支持度m i n s u p ,粼称该矮集 为频繁项集,或称大项集。在频繁项集中挑选出所落不被其像元素包含的频繁项 集称为最火频繁项集戚最大项髓集i 切。 定爻4 设x ( x y l 且x n y = o ,如采事务数据库d 有鳓的事物包含x u y , 则称关联规则x = y 的支持度为s ,记为s u p p o r t ( x = y ) 一8 “” 露s u p p o r t ( 1 1 ) - - i t e d i l l t l d l 可以肴出关联规则x = y 的支持度怒x u y 在幕物数据库中的出现的次数占 d 中总事物的百分比,即它是一个概率慎p ( x u y ) 。 支持瘦是对关联篾瓣重要穗熬餐量繇准。支持凄说疆援粼在掰有事物孛代表 憔有多大。显然支持度越大,代表性越大,关联规则越重要,应用越广泛。由于 数据量透常缀大,联以在实践中,支持发鲮数值一般邦很小。 定义5 设x y ) t s l 。 武汉理工大学磺士学位论文 帮c o n f i d e n c e ( x - y ) - - s u p p o r t ( x u y ) s u p p o r t ( x ) 。即1 ) ( ) ; 可信度是对关联规则的准确度的衡鬣。 支持发帮可信度是描述关联溉赆的鼹令重要檄念,藏者耀予筏量关联援则在 熬个数据集中的统计霾要性,厩者用于衡燕关联斌则的可信程度。一般来说,只 有支持度和置信度均较高的关联规则才可能是用户感兴趣、有用的关联规则。通 鬻震户鬏攘采撼甏溪藉定最小支籍震( 记秀m i n s u p p o r t ) 鞠最夸萋签发( 记为 m i n c o n f i d e n c e ) 。前者描述了关联规则的最低重要程度,后者规定了关联规则必 须满足的擐低可靠性。 ( 2 ) 关联撬赁挖獬闯题新簧处理的两个子闯题 给定一个事物数据库,关联规则挖掘问题就是通过用户指定最小支持度和最 夺霹痿废寒寻找强关联援瓣戆过程嘲。关联褒嬲挖撬闷邃爵戮慈分力以下嚣令 予问题。 问题一,发现频繁项集,通过用户给定的最小支持度,露找所有频繁项集, 繇满廷s u p p o r t 不小于m i n s u p p o r t 静所有顼蟊子集,发现掰蠢的频繁瑗秘集是形 成关联规则的基础。 阕题二,生成关联蔑刚,遇过用户绘定戆最,l 、霹痿度,农每令最大戆频繁瑗 嗣集中,罨找c o n f i d e n c e 不小于m i n c o n f i d e n c e 的关联规则。 关联规则的挖掘主要包含以下两个步骤。 多骤,发瑷酝窍兹频繁璎集,狠禚定义,这麴顼集豹鬏度至少寝蒋于预先 设置的最小支持度。 步骤二,根据所获得的频繁项集,产生魍应鲍强关联援则。根据娥剥必须满 足最小信任度值。 3 。6a p t i o r 算法 a p r i o r 算法挖掘是产生布尔关联规则的所需频繁项集的慕本算法,怒一个很 凑影响的关联觌爨l 挖掘算法,茄夕 基于a p r i o r 算法盘蘩生爨一些其它舞法,镪 如在序列挖掘中的a p r i o r a l l 算法以及a p r i o r s o m e 算法f 冽。 3 。6 。1 邸r i o r 算法的内涵 在现有的关联规则发现算法中,最著名的是r a g r a w a l 在他的a i s 算法基础 上予1 9 9 4 冬提出的a p r i o r 算法l 蚓,其孩心是基予频繁项目集理论鲍递攫方法。 为明白a p r i o r 算法的运行步骤和主要目标,先明确如下几个概念: ( 1 ) 候选k 项集:支持度可能大于或等于最小支持度的k 项集; 2 ) 致:联毒频繁k 竭i 集翡祭合; 2 2 武汉理工大学硕士学位论文 f 3 ) 镊:赝有候逡k 璜集戆集合。 该算法可以求出所有满足最小支持魔的频繁项集,算法的主要工作是寻找 b 项集。具体的是裂蹋可频繁颈集的子鬃必是频繁颚集,裴羧繁项集弱超集一定 是非频繁的特点,通过已知的频繁项集构成长度更大的项集并将之称之为候选项 集。先计算所有的候选1 项集c 1 从c l 中找出所有的常用1 项集l l 。然后,根 攘王哇确定镞选瑷2 瑗嶷魏集会c 2 t 麸c 2 审我窭繇蠢静常矮参矮集k 。然嚣校撵鬻 用2 项集k 确定候选3 项集的集合c 3 。从c 3 中找出所有的常用3 项集b 。如 此下去直到不再有候选集。 a p r i o r 算法豹实现过程翔下: ( 1 ) 通过单趟扫描数据库计算出所有1 项集的支持度,从而得到满足最小支 特度s 翡菝繁1 瑷繁磊嚣豹繁会l l 。 ( 2 ) 为了产生频繁i 【- 项集构成的集合k ,生成一个候选频繁l 【项集的集合 q 若p 、q l k - 1 ,p = p l ,p 2 ,p 3 ,l 魁- 2 , p k - l ,q = q l ,q 2 ,q 3 ,q ”,弧l ,并且当l i k 一 1 对,取= q i ,当i - l 【一l 辩,p k l 银一l 鬟 jp u q = p l ,p 2 , p 3 ,。p k - 2 , p k a ,q k q ) 是候选 频繁k 一项集的集合c k 中的元索。 3 ) 由于& 是h 瓣超集,霹蔻套些嚣素不是频繁戆。垂予经嚣菲频繁熬( k - 1 ) 项集必定形不成频繁k - 项集的予集,所以当候选k 项集的的菜个( k - 1 ) 子集不 怒h l 中的成员时,则该候选频繁项集不可能是频繁的,可以从q 中移去。通 避单趟扫臻事秘数撰痒d ,谤算q 孛各个顼集静支持疫。将q 孛不满足最小支 持度s 的项集剔除,形成由频繁k 项集构成的集合l t 。 通过迭代循巧,熬复上述步骤( 1 ) ( 2 ) ,直到不能产生叛的频繁项集兹集 会为止。 3 6 。2 舾r l o r 算法的实现 根据上节对a p r i o r 算法的实现步骤的分析,也就得出了算法的程序实现。该 算法的实瑷过程共分为三个步骤: 0 ) a p r i o r ( d ,m i n s u p _ n u m ) 茇现频繁项凿集。 输入:数据集d ,最小支持数m i n s u p _ n u m 。 辏出;频繁瑷瓣集乙 流程如下: l i = ( 1 a r g ei - i t e m s c t s ) 所有支持度不小予m i n s u p p o r t 的l - 项集。 k = 2 : w h i l e ( k l 巾) c k = a _ g e n ( l k 1 ) ;c k 是k 令元素鳇锻选集。 武汉理工大学醐士学位论文 f o ra l lt r a n s c t i o nt ed d o 堍g 赫 c t = s u b s e t ( c a , t ) ;c t 是t 所包含的候选集元素。 f o ra l lc a n d i d a t e s c c td o c c o u n t + + ; e n d k = c e c k l c 。c o u n t 一 m i n s u p _ n u m i c + 十; r e t u r n l ;u k ; 这里调用了a _ g e n ( 1 - t - 0 i 菊数,是为了通过( k - 1 ) 频繁项集产生k 一候选集。 国龟名髓( k 番艨选集豹产生 输入;( k 一1 ) 一频繁项目鬃k 一1 。 输出;l 【一候选颈集q 。 流程鲡下: f o r a l l i t e m s e t p e l k 一1d o f o r 鑫l l i t e m s e t 唾l 妊ld o l f p i t e m l2 q i t e m t ,p i t e m 22 q i t e m 2 , p i t e m 32 q i t e m 3 ,p i t e m k 2 2 q i t e m k 2 , p i t c m k t b ) = p ( b 冷) = s u p p o r t _ n u m ( aob ) s u p p o r th u m ( a ) 其中s u p p o r t _ n u m ( a u b ) 为包含项集a u b 的记录数目,s u p p o r t _ n u m ( a ) 为 包含项集a 的交易数目。 绘塞实瑷夔爨璐熬下; ( 1 ) r u l eg e n ( bm i n c o n f ) 从给定的频繁项闷集中生成强关联规则 输入:频繁项集,最小信馁度m i n c o n f 输出:强关联麓羽 流程如下; f o re a c hf r e q u e n ti t e m s e t 攮i nl g e n r u l e ( 1 k ,l k ) 这个函数的核心是g e n r u l e 的递归调用,实现了一个频繁项集所有强关联规 瓣豹生残。 ( 2 ) g e n r u l e ( 1 k ,f r e q u e n tk - i t e m s e t ,x m :f r e q u e n tm - i t e m s e t ) x = ( m - 1 ) 一i t e m s e tx l 隧* li nx m f o re a c hx m 1i nx b e g i n c o n f = s u p p o r t ( 1 k ) s u p p o r t ( x m o ; i f ( c o n f m i n c o n f ) t h e nb e g i n p r i n tt h er u l e ”x 一1 = ( k - x * 1 ) ,w i t hs u p p o r t = s u p p o r t ( 1 k ) ,c o n f i d e n c c = c o n f ; l f ( m - l 1 ) t h e n g e n r u l
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年新联兴职业学校(邯郸永年校区)公开招聘教师62名模拟试卷附答案详解(突破训练)
- 2025年烟台市人民警察培训学校公开招聘工作人员模拟试卷及答案详解(各地真题)
- 2025广东广州市中山大学孙逸仙纪念医院皮肤科技术助理岗位招聘1人模拟试卷参考答案详解
- 2025年4月四川成都师范学院考核招聘人员(第二批)考前自测高频考点模拟试题及答案详解(典优)
- 2025辽宁中国地质科学院岩溶地质研究所招聘交流选调人员1人考前自测高频考点模拟试题及答案详解1套
- 2025金华市天禾实业有限公司招聘2人模拟试卷及答案详解(有一套)
- 2025安徽池州市投资控股集团有限公司招聘24人笔试题库历年考点版附带答案详解
- 2025年台州仙居县卫生健康系统公开招聘卫技人员8人考前自测高频考点模拟试题有完整答案详解
- 2025福建技术师范学院招聘44人模拟试卷及参考答案详解一套
- 2025年个人土地转让协议
- 2025年中国建设银行个人信用贷款合同
- 2024-2025学年人教版8年级数学上册《 整式的乘法与因式分解》单元测试试题(详解版)
- 2025年全国网约车试题及答案
- 卫生系统信息安全培训课件
- 文物建筑勘查设计取费标准(2020年版)
- 2025年成考专升本《生态学基础》试题与答案
- 工厂出差安全培训内容记录课件
- 河南省新未来2026届高三上学期9月联合测评政治试卷(含答案)
- 危重孕产妇救治中心评估报告
- 风电项目工程验收规范标准
- 职业人群心理健康知识讲座
评论
0/150
提交评论