




已阅读5页,还剩63页未读, 继续免费阅读
(计算机软件与理论专业论文)电信领域交叉销售模型的构建与应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 摘要 研究并建立电信企业交叉销售模型,从降低企业营销盲目性、提高企业销售 成功率的角度出发,对运用计算机技术帮助电信企业摆脱“数据爆炸、知识贫乏” 的局面,为企业营销人员和高层管理人员提供信息支持等都具有重要现实意义。 本文基于数据挖掘的思想和理论,运用挖掘算法,从三个方面研究建立交叉销售 分析模型。该模型能有效地根据历史数据发现客户的消费习惯和消费模式,再利 用这些隐含的信息,分析客户下一步可能使用的业务,指导市场营销决策。 本论文首先对电信企业目前所处的竞争环境进行了分析,从实际情况出发, 阐述了实施交叉销售的必要性,分析了电信企业实施数据挖掘的优势。在简要介 绍了数据挖掘的相关理论和技术后,重点研究了其中的分类技术、关联分析技术 和聚类技术。通过对每种技术现有的算法进行比较,根据电信企业数据的特点, 选择了决策树中的c 5 0 算法、a p f i o f i 算法和s o m 算法作为数据分析和建模的方 法。以实际项目为依托,针对电信企业交叉销售问题,对模型进行了总体的设计 和规划,以数据挖掘理论为指导,按照国际商业数据挖掘标准c r i s p d m ( c r o s s i n d u s t r yp r o c e s sf o rd a t am i n i n g ) 的步骤,利用c l e m e n t i n e 数据挖掘平台 实现了交叉销售模型的分析与设计,并对模型的输出结果进行了解释和评估,为 电信企业实施交叉销售提供一种可借鉴的解决方案。 本文利用数据挖掘技术,结合实际项目需求,实现了交叉销售模型的分析与 设计。该模型具有巨大的应用价值,能够挖掘隐含在数据中的知识,为电信企业 的决策人员提供科学的、可靠的信息,对企业在激烈的竞争中立于不败之地具有 十分重要的意义。 关键词:电信、数据挖掘、交叉销售、决策树、关联规则、聚类 英文摘要 c o n s t r u c t i o na n da p p l i c a t i o no ft h ec r o s s s e l l i n gm o d e l i nt e l e c o m i n d u s t r y a b s t r a c t d e v e l o p m e n to ft h ec r o s s - s e l l i n gm o d e lo ft e l e c o m m u n i c a t i o n i s a i m i n g a t r e d u c i n gt h eb l i n d n e s so fs a l ea n di n c r e a s i n gt h es u c c e s sr a t e i tp r o v i d e si n f o r m a t i o n s u p p o r tf o rs a l e ss t a f fa n ds e n i o rm a n a g e ra n dh e l p st h ee n t e r p r i s e st os h a k eo f ft h e p h a s eo f b l a s to fd a t a , s h o r to fk n o w l e d g e ”t h ep a p e rm a n a g e ss e v e r a la r i t h m e t i c m e t h o d sa n dd e v e l o p sac r o s s s e l l i n gm o d e lb a s e do nt h ei d e a sa n dt h e o r i e so fd a t a m i n i n g t h ec o n s u m p t i o nh a b i ta n dp a t t e r no fc u s t o m e r sc a l lb ee f f e c t i v e l yd i s c o v e r e d b yt h i sm o d e l ,a n dt h eh i d d e ni n f o r m a t i o nc a nb eu s e dt oa n a l y z et h eb u s i n e s sw h i c h t h e c u s t o m e rm a yc h o o s ei nf u t u r ea n dt oh e l pt om a k em a r k e td e c i s i o n - m a k i n g i nt h ep a p e r , w ea n a l y z et h ec o m p e t i t i v ec i r c u m s t a n c eo ft e l e c o m m u n i c a t i o n i n d u s t r yf i r s t l y t h ep a p e r , w i t ht h ef a c to ft h ee n t e r p r i s e ,e x p o u n d st h en e c e s s a r yo f c r o s s s e l l i n ga n da n a l y z e st h es u p e r i o r i t y a f t e ri n t r o d u c i n gt h er e l a t i v et h e o r ya n d t e c h n o l o g yo fd a t am i n i n g ,t h ep a p e rp u t st h es t r e s so ni n v e s t i g a t i n gt h et e c h n o l o g yo f c l a s s i f i c a t i o n 、a s s o c i a t i o na n a l y s i sa n dc l u s t e r i n ga n dc o m p a r i n gt h ea r i t h m e t i c m e t h o d so fe a c ht e c h n o l o g ya n dt h e nc h o o s e st h ec 5 0i nt h ed e c i s i o nt r e e 、a p f i o r i a r i t h m e t i ca n ds o ma r i t h m e t i ca st h em e t h o do fd a t aa n a l y s i sa n dm o d e l i n g b a s i n go n t h ep r o j e c to fo n ee n t e r p r i s e ,t h e m a i nl a y o u to ft h em o d e li na l l u s i o nt ot h e c r o s s - s e l l i n gp r o b l e m o ft e l e c o m m u n i c a t i o ne n t e r p r i s ei sd e s i g n e d u n d e rt h e s u p e r v i s i n go fd a t am i n i n gt h e o r y , t h ep r o f e s s i o n a l d a t am i n i n gt o o li su s e dt o i m p l e m e n tt h ea n a l y s i sa n dd e s i g no fc r o s s - s e l l i n gm o d e lf o l l o w i n gt h e i n t e r n a t i o n a l s t a n d a r do fd a t am i n i n g :c r i s p _ d m ,t h er e s u l to ft h em o d e li sa l s oe x p l a i n e da n d e v a l u a t e d as o l u t i o nf o ra c t i n gc r o s s s e l l i n gi nt h et e l e c o mm a r k e ti sp r o v i d e di nt h e e n do f t h ep a p e r b a s i n go nt h ep r o j e c tr e q u i r e m e n t ,d a t am i n i n gt e c h n o l o g yi su s e dt oi m p l e m e n t t h ea n a l y s i sa n dd e s i g no fc r o s s s e l l i n g k n o w l e d g eh i d d e ni nd a t ac a nb ee x c a v a t e db y t h em o d e lw h i c hh a st r e m e n d o u sv a l u e o fa p p l i c a t i o n t h em o d e lc a np r o v i d e s c i e n t i f i c 、r e l i a b l ei n f o r m a t i o nf o rd e c i s i o n - m a k i n gp e r s o n sa n dh a sv e r yi m p o r t a n t s i g n i f i c a n c ef o rt h ee n t e r p r i s ec o m p e t i n gs u c c e s s f u l l yd u r i n gt h ed r a s t i cc o m p e t i t i o n k e yw o r d s :t e l e c o m m u n i c a t i o n ;d a t a m i n i n g ;c r o s s s e l l i n g ;d e c i s i o nt r e e ; a s s o c i a t i o na n a l y s i s ;c l u s t e r i n g 大连海事大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:本论文是在导师的指导下,独立进行研究工作所取得的成果, 撰写成博士硕士学位论文 = = 皇值塑丝銮区销售搓型的掏建皇廑用= _ ,除论文中 已经注明引用的内容外,对论文的研究做出重要贡献的个人和集体,均已在文中 以明确方式标明。本论文中不包含任何未加明确注明的其他个人或集体已经公开 发表或未公丌发表的成果。 本声明的法律责任由本人承担。 论文作者签名:荔靳姗年弓月砷日 学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连海事大学研究生学位论文提交、 版权使用管理办法,同意大连海事大学保留并向国家有关部门或机构送交学位论 文的复印件和电子版,允许论文被查阅和借阅。本人授权大连海事大学可以将本 学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫 描等复制手段保存和汇编学位论文。 论文储妣菱精翩弛芗侈帆 日期:矽g 年弓月l 百 电信领域交叉销售模型的构建与应用 第1 章绪论 1 1 选题的背景及意义 随着科技和经济的不断发展和进步,世界范围内的产业化竞争愈演愈烈,经 营模式、市场环境和竞争模式都发生了根本性的变化,这种转变在信息服务业表 现的比较明显,其中,电信业尤为突出。当前,国际、国内电信业发展都迈进了 一个新的战略发展时期,面对新技术带来的新机遇和挑战,探索新的发展策略成 为企业生存的必由之路。进入二十一世纪以来,我国电信企业应发展需要,结合 自身的实际情况,对体制进行了改革和重组。电信服务市场从过去的个别运营商 垄断变为数家大运营商主导、多家小运营商参与、新运营商不断加入的新格局“1 。 特别是我国加入啪逐步开放电信市场后,国外电信巨头纷纷瞄准中国市场,加 快投资步伐,通过各种手段渗透到市场的每个角落,这必将导致我国电信企业面 临全新的、前所未有的挑战。因此,如何提高企业的核心竞争力,如何在获得广 泛的客户资源的基础上保持和完善客户关系、如何提升客户价值成为电信运营商 关注的焦点。 我国电信产业在经历了过去几十年的发展后,通信技术已趋于成熟,单纯通 过信号质量和技术竞争来获取客户的策略已难于奏效,而落后的企业管理和经营 方式也很难适应信息高速发展的潮流。市场竞争从价格、业务范围、业务质量扩 展到服务意识、服务内容、服务方式、服务质量等方面n 1 。虽然,我国人口众多, 移动通信市场广大,但客户消费状态不稳定,客户的价值取向和消费心理不断发 生变化,使得电信企业的客户市场极其不稳定。激烈的市场竞争、不断缩短的客 户生命周期和较低的客户价值,都要求电信企业探索新的发展途径和有效的市场 竞争策略,以提高企业的市场占有率和效益。 近几年,随着国民生活水平的提高,电信企业的客户市场逐步扩大并趋于饱 和。传统的粗放型市场营销策略如广告、展会、促销等曾在电信业发展的初期为 企业带来丰厚的收益,但在信息技术日新月异的今天,其发挥作用的空间已十分 有限,使得企业陷入举步维艰的境地,营销精细化、科学化是企业生存的唯一选 择3 1 。随着客户关系管理( c p u m ) 理念的不断深入,电信企业意识到客户才是企 业发展的源泉,工作重心逐步从获得新客户向保留老客户、挖掘客户的终身价值 第l 章绪论 进行转变。这种营销策略的转变使得企业开始思考如何提高客户满意度、忠诚度, 如何向客户提供更多产品和服务的问题,开始考虑在电信领域引入零售业中备受 青睐的营销方式一一交叉销售。 交叉销售是企业向已使用企业产品的客户销售新产品或服务的一种营销策 略。在客户市场趋于饱和的前提下,保持客户关系,避免客户转向竞争对手而造 成客户流失,成为企业提高市场占有率的最佳途径。要保留客户,就需要了解客 户的需求,为客户提供个性化的产品和服务。对于企业而言,发展一个新客户的 费用是保留一个老客户费用的五倍,向新客户推销产品和业务的成功率远远低于 向老客户推销产品和业务的成功率,使用同一个企业的多项产品或业务的客户不 易流失。因此,对客户进行交叉销售,使企业和客户的关系建立在双赢的基础之 上,从一定意义上起到了保留客户的作用。电信企业亟待解决的问题是怎样发现 可以实施交叉销售的产品和机会。 电信行业是数据密集型行业,在企业的业务数据库中存储着客户大量的历 史行为记录,但长期以来,企业并没能很好地利用这些数据,仅仅是利用其进行 计费或是简单的查询,从而造成“数据爆炸,知识贫乏 的局面。这些数据中隐 藏着的客户的消费偏好和利益倾向,产品或业务之间的相关性,都不曾被挖掘出 来。随着数据挖掘技术的兴起和应用,电信运营商认识到在该领域引入数据挖掘 技术,分析客户行为和产品特性,将数据转换成信息和知识,改变企业盈利模式 是十分必要的。 数据挖掘是从大量历史数据中发现信息和知识的过程“1 ,是涉及多学科技术 的集成,包括数据库、数据仓库、统计学、机器学习、高性能计算、数据可视化 和空间数据分析等。通过数据挖掘,可以从数据库中提取隐含的知识、规律或高 层信息,并可以从不同角度观察或浏览数据,发现的知识可以用于决策、过程控 制、信息管理、查询处理等5 1 。近年来,数据挖掘在零售、医疗、金融、航空航 天、保险、电信等行业得到广泛应用,在电信领域的应用主要包括客户流失分析, 客户价值分析、客户欺诈分析等。 电信企业应用数据挖掘技术建立交叉销售分析模型,为企业制定销售目标和 策略提供有力的依据,从而主动地、预先地发现交叉销售的机会,优化市场活动, 提高营销活动的有效性,降低营销成本,一次达到最大的销售利润,提升a r p u 电信领域交叉销售模型的构建与应用 ( a v e r a g er e v e n u ep e ru s e r ,每用户平均收入) ,增强客户满意度,保留客户资源。 在数据分析过程中可提取出隐含的、具有应用价值的信息或模式,从真正意义上 实现了数据到信息的转化,进而实现知识的识别。把这些信息和知识传递给企业 的业务分析员和决策者,将从本质上改善企业的业务决策流程,使企业能高效、 快捷地制定决策。有针对性地选择和推出新的业务和服务,提高企业的服务质量, 减少企业的运营风险,提高经济效益。 本文的工作是在大连海事大学和大连东软软件股份有限公司电信事业部合作 开发的联通公司某省分公司的“电信客户关系管理系统”的背景下展开的。通过 分析该企业的业务数据,运用聚类、关联分析和分类等数据挖掘方法,对客户进 行分群,分析产品或业务之间的关联程度,为交叉销售的实施提供合理的建议。 1 2 国内外研究现状 随着电信市场竞争的日趋白热化,电信运营商的经营模式逐渐从“技术驱动 向“市场驱动”、“客户驱动 转化,这就要求运营商采取以客户为中心的策略, 根据客户的实际需求提供多样化、层次化、个性化的服务解决方案。因而,如何 发现客户的消费偏好和业务需要,有针对性地制定营销策略和计划成为电信运营 商所面临的刻不容缓的问题。为了解决这些问题,数据仓库、数据挖掘等技术逐 渐被推广应用到电信行业中,虽然为时不长,但也取得了一定的成效,其广泛的 应用前景吸引了大量的企业。 国外知名的电信运营企业都已经建立了基于数据挖掘的商业智能系统 ( b u s i n e s si n t e l l i g e n c e ) 。英国电信采用数据挖掘手段,建立模型来确定潜在客户 的购买倾向和他们变为客户之后可能的价值;法国电信利用数据挖掘技术在交叉 销售、预防欺诈、客户流失分析等各方面都取得了很多成果6 ;v o d a f o n e ( 埃及) 公司结合客户通话详单数据资料对其客户进行了细分,更好地了解了客户使用电 信服务的偏好,为制定不同的市场策略和有针对性地推广产品和服务提供了信息 支持,使交叉销售的成功率提高了3 5 :美国a t & t 、新加坡电信及香港电信等 也都运用数据挖掘技术和工具在企业现有数据信息基础上进行交叉销售分析和预 测,提升了交叉销售的机会,为企业节省了营销成本,带来可观的利润,并且不 断地对分析方法进行改进,以适应业务拓展的需要。 第l 苹绪论 国内电信业前些年的发展目标主要是抢占市场,技术领域主要是业务运营支 撑系统b o s s ( b u s i n e s s & o p e r a t i o ns u p p o r ts y s t e m ) 的更新换代1 6 3 1 。2 0 0 3 年,中 国移动开始建设b a s s ( b u s i n e s s & a n a l y s i ss u i p p o r ts y s t e m ,业务分析支撑系统) , 用以分析来自3 1 个省级机构和总公司的大量业务数据。广东移动公司建立的“经 营分析主动服务营销分析系统 ,为企业获取详尽而真实的客户数据,深入了解客 户行为与喜好,为挽留客户以及推出各类新服务的交叉销售、营销预演等提供了 科学依据,全面提升市场营销能力 1 。中国联通的一些省级分公司也建成了相关 的分析系统,主要工作集中在客户分群、客户流失分析等方面,在交叉销售领域 的研究刚刚起步,未来的工作任重道远。 实施交叉销售的关键是通过研究客户产品使用情况、消费行为特点,发现客 户的多种相关需求,因而,较多利用数据挖掘中的关联规则分析,得出不同业务 或产品之间的关联。根据电信企业的数据特征,目前主要应用的是布尔型关联规 则,经典的算法包括a p n o f i 算法和a p r i o r i t i d 算法等。随着数据挖掘技术的不断 进步,新的关联规则算法如增量式更新算法f u p 、i u a 和p i u a 等以其便于更新 的特性,将有更大的发挥空间。分类和聚类分析法在交叉销售的过程中也得到广 泛的应用。运用决策树算法如i d 3 、c 4 5 、c 5 0 、分类与回归树( c l a s s i f i c a t i o na n d r e g r e s s i o nt r e e s ,c a r t ) 、s l i q ( s u p e v i s e dl e a r n i n gi nq u e s t ) 算法筛选高价值的 客户作为交叉销售的目标群体。聚类则通过分析客户的行为数据,运用k m e a n s 算法、k m o d e s 算法、分割聚类算法( c l a 凡蝌s ) 等将客户分为不同的消费群 体,体现了消费行为的相似性。 数据挖掘是面向应用的,电信企业由于其数据结构和特征的差异,不能将行 业内其他企业开发的数据模型拿来为自己所用,必须结合本企业的实际情况,选 择适当的分析方法和数据挖掘工具,建立本企业的交叉销售模型,并且,随着企 业的发展,模型需要不断地进行改进和升华。目前,国际上知名的数据分析和数 据挖掘领域的软件供应商都提供了专业的数据挖掘软件,如s p s s 的c l e m e n t i n e 、 i b m 的i n t e l l i g e n tm i n e r 、s a s 的e n t e r p r i s em i n e r 等都提供了数据挖掘中的常用算 法,为企业数据挖掘的实施提供了便利的条件。 本文在分析当前主流的数据挖掘方法的基础上,结合电信企业数据属性和特 征,选择了适合该课题的分析方法和算法,运用数据挖掘软件,建立了交叉销售 电信领域交叉销售模型的构建与应用 预测模型,并对模型进行了评价,为企业制定销售策略提供了支持。 1 3 论文的主要研究内容 本课题主要解决怎样借助数据挖掘技术分析构建模型,从电信企业的业务数 据中挖掘隐含信息,帮助其提升销售成功率的问题。通过分析客户属性、客户的 业务使用属性、客户消费行为记录等,发现产品或业务之间的内在联系,确定可 以实施交叉销售的产品或业务;进行详细的客户分群,了解客户的消费特征;通 过分类技术寻找潜在客户,确定实施交叉销售的对象,建立交叉销售的预测模型。 电信运营商经过数十年的发展,拥有了许多的数据库系统,如营帐子系统、 计费帐务子系统、结算类系统等,并产生了大量的历史数据。针对这些数据的分 散性,本文首先对数据进行分析和整理,提取出相关的属性和数据,在此基础上 运用数据挖掘的理论对样本集进行分析研究,使用c l e m e n t i n e 工具、运用不同的 方法对数据进行建模,通过对各个模型的检验以及各建模算法的优缺点,找到合 理、有效的解决方案。 本论文的主要研究内容如下: 。 1 数据挖掘理论研究 主要研究本课题涉及到的各种数据挖掘方法,主要包括分类技术、聚类以及 关联规则分析等,研究其基本原理,分析不同算法的优缺点,结合实际问题,选 择合适的挖掘算法。 2 数据准备 电信行业的数据具有复杂、分散、冗余、不一致等特点,因而要进行数据的 清洗和预处理,主要包括数据的选择、转换、整合、抽样、随机化和缺失值处理 等问题,为下一步的挖掘工作奠定基础。 3 构建交叉销售模型 在数据准备阶段得到的样本集的基础上构建交叉销售模型的工作主要分为三 部分:通过关联分析,确定产品或业务之间隐含的关联关系,解决“哪些产品或 业务经常被一块购买的问题;运用聚类分析技术,将客户进行分群,群内客户 购买行为差异较小,群间客户购买行为差异较大;在上述分析的基础上,运用分 类技术挖掘使用某个产品或业务的客户特征,为产品或业务寻找目标客户。 第l 章绪论 4 模型的检验和评估 通过测试数据对模型的有效性进行验证和评估,提出一个交叉销售的详细解 决方案。 1 4 论文的组织与结构 本论文共分为五章: 第一章为绪论,详细阐述本论文的选题背景和意义,分析国内外的研究现状, 最后介绍本文的主要研究内容和研究方法。 第二章介绍数据挖掘领域的相关理论知识和技术,主要讨论本课题涉及到的 各种挖掘算法及其优缺点。 第三章分析电信企业的业务流程和需求,设计交叉销售模型的总体结构。 第四章按照数据挖掘的商业流程,详细分析建模过程的每一个阶段,最后进 行检验和评估。 第五章总结本论文的主要工作,对下一阶段的工作提出展望。 6 电信领域交叉销售模型的构建与应用 第2 章数据挖掘基本理论与技术 数据挖掘是探查和分析大量数据以发现有意义的模式和规则的过程协1 ,是计 算机应用技术发展到一定阶段的产物。对于电信企业而言,数据挖掘有助于发现 客户的行为特征和消费偏好,提升a r p u ( 每用户平均收入) ,使企业持续盈利。 2 1 数据挖掘基本理论 2 1 1 数据挖掘的概念 狭义地讲,数据挖掘是一系列工具和技术的集合,是支持以客户为中心的组 织需要的多项技术之一;广义地讲,数据挖掘是一种态度,它表明商业活动应该 基于认知,分析获得的决策比没有任何分析所得的决策好得多,经过测算的结果 更利于商业盈利。数据挖掘还是应用这些工具和技术的过程和方法论8 1 。 1 数据挖掘的技术定义n 1 从技术角度看,数据挖掘( d a t am i n i n g ,d m ) 是从大量的、不完全的、有噪 声的、模糊的、随机的数据中,提取出隐含在其中的、人们事先不知道的,但又 是潜在的有用信息和知识的过程。 人们把原始数据看作是形成知识的源泉,原始数据可以是结构化的,如:关 系数据库中的数据,也可以是半结构化的,如:文本、图形、图像数据,甚至是 分布在网络上的异构型的数据。发现的知识可以用于信息管理、查询优化、决策 支持、过程控制等,还可以用于数据自身的维护。 2 数据挖掘的商业定义0 从商业角度看,数据挖掘是一种崭新的商业信息处理技术。其主要特点是对 商业数据库中大量业务数据进行抽取、转化、分析和模式化处理,从中提取辅助 商业决策的关键知识,即从一个数据库中自动发现相关商业模式。 数据挖掘是利用统计学和机器学习的技术,探求那些符合市场、客户行为的 模型。目前,数据挖掘已经可以使数据挖掘技术自动化,将数据挖掘和商业数据 仓库相结合,以适当的形式将挖掘结果展示给企业经营管理人员。对于数据挖掘 的应用不仅依靠良好的算法建立模型,而且更重要的是要解决如何将数据挖掘技 术继承到当今复杂的信息技术应用环境中。 第2 章数据挖掘基本理论与技术 2 1 2 数据挖掘的功能 数据挖掘是通过采用自动或半自动的手段,在海量数据中发现有意义的行为 和规则的探测和分析活动。数据挖掘按功能分为两类: 第一类是描述型挖掘,刻画数据库中数据的一般特征。 第二类是预测型挖掘,依据已知数据的特点预测未来数据的趋势。 在实际应用中,根据挖掘功能细分为以下几种: i 分类( c l a s s i f i c a t i o n ) 分类是一种最基本的认知形式,通过分析由属性描述的训练数据集中的数据 来构造一个模型,用来描述预定的数据类集或概念集“1 ,并用这个模型对数据库 中的其他记录进行分类。常用的分类技术有:决策树、神经网络等。 分类在电信领域用于大客户特征识别、客户分群、客户流失预测等方面。 2 预测( p r e d i c a t i o n ) 预测是通过分析历史数据的特征及变化规律,评估给定样本可能具有的属性 值或值区间。预测一般用于预测具体的、连续的数值。回归是被广泛采用的预测 技术。 预测在电信领域主要用于业务预测和收入预测。 3 关联分析( a s s o c i a t i o na n a l y s i s ) 关联规则挖掘是由r a k e s h a p w a l 等人首先提出的,是发现一个事务与其他 事务之间依赖或关联的一种技术。关联规则分析的目的是寻找给定的数据记录集 中数据项之间隐藏的关联关系,描述数据之间的密切程度。一般用支持度和置信 度两个阈值来衡量关联规则的可信度,只有支持度和置信度都较高的关联规则才 是有用的关联规则。关联规则分为布尔型关联规贝j j ( b o o l e a n a s s o c i a t i o n r u l e ,b a p ) 和多值关联规则( q u a n t i t a t i v ea s s o c i a t i o nr u l e ,q a p ) 。经典的a p r i o r i 算法可直 接用于单维布尔关联规则挖掘,此外常用的还有f p g r o w t h 1 2 1d h p ( d y n a m i c h a s h i n ga n dp r u n i n g ) t i n , t r e ep r o j e c t l o n in 4 、e c l a t tt s d i c ( d y n a m i ci t e m s e tc o u n t i n g ) 钉等算法。 关联分析在电信领域用于客户消费行为分析、业务关联分析。 4 聚类( c l u s t e r i n g ) 聚类分析就是将数据分组成多个不同的类或簇,同一个类中数据之间相似度 电信领域交叉销售模型的构建与应用 较高,不同类中数据相似性较低。与分类不同的是,聚类分析所得到的类是事先 未知的,类别之间的差异完全建立在数据的差异之上。聚类分析的研究工作主要 集中在基于距离和基于相似度的聚类方法上,聚类技术分为以下几类:划分法 ( p a r t i t i o n i n gm e t h o d ) 、层次方法( h i e r a r c h i c a lm e t h o d ) 、基于密度的方法 ( d e n s i t y b a s e dm e t h o d ) 、基于网格的方法( g r i d b a s e dm e t h o d ) 、基于模型的方法 ( m o d e l b a s e d ) 等 1 7 1 。聚类分析还可以用于孤立点检测。 聚类分析在电信领域主要用于大客户特征的识别、客户分群、话费欺诈等方 面。 5 时序模式( t i m e s e r i e sp a t t e r n ) 时序模式是指通过时间序列搜索出的重复发生概率较高的模式14 1 。时序模式 侧重于数据随时间的变化趋势。 时序模式主要被用于电信企业收入预测方面。 6 偏差分析( d e v i a t i o n ) 偏差分析是探测数据现状、历史记录或标准之间的显著变化和偏离盯。偏差 分析的一个重要特征是它可以发现数据异常、有效过滤掉不感兴趣的模式。 偏差分析可用于电信领域的客户欺诈分析。 本文针对电信企业的交叉销售问题进行研究,运用关联分析技术发现隐含在 数据中的业务之间的关联;通过数据挖掘的聚类和分类功能分别对客户信息和业 务使用情况进行分析,得到客户群和业务组,结合业务关联性,为市场销售和分 析人员提供详尽的、基于业务的潜在客户报表,指导市场营销决策。 2 1 3 数据挖掘过程 数据挖掘是一个反复迭代的人机交互处理过程。该过程可粗略的分为:问题 定义( t a s kd e f i n i t i o n ) 、数据收集和预处理( d a t ap r e p a r a t i o n ) 、数据挖掘( d a t a m i n i n g ) 、结果解释和评估( i n t e r p r e t a t i o na n de v a l u a t i o n ) ,如图2 。l 所示钉。 9 第2 章数据挖掘基本理论与技术 问题定义 图2 i 数据挖掘过程 f i g 2 1p r o c e s so fd a t am i n i n g 1 问题定义 问题定义是数据挖掘过程中非常重要的一个阶段,要想充分发挥数据挖掘的 价值,必须要对目标有一个清晰、明确的定义。在这个阶段,实施数据挖掘的专 业技术人员要和领域专家、用户密切合作,明确商业需求及业务目标,将业务问 题转化为数据挖掘领域内的问题。本文中要解决的是电信企业营销部门的交叉销 售问题,映射到数据挖掘领域就是对电信客户的聚类、产品的分类及关联分析问 题。 2 数据收集和预处理 数据收集和预处理是数据挖掘过程中最重要的一个阶段,数据准备工作大概 要占整个数据挖掘项目5 0 到9 0 的时间和精力,数据挖掘项目的成功与失败很 大程度上取决于所准备的数据的质量。这个阶段的工作又可分为三个子步骤:数 据选取( d a t as e l e c t i o n ) 、数据预处理( d a t ap r e p r o c e s s i n g ) 、数据变换( d a t a t r a n s f o r m a t i o n ) ,如图2 2 所示。 i o 电信领域交叉销售模型的构建与应用 图2 2 数据收集和预处理 f i g 2 2d a t ac o l l e c t i o na n dp r e p r o c 船s i n g 数据选取主要是根据需要从原始数据库中选取相关的数据或样本。数据预处 理过程要对所选取的数据进行再处理,检查数据的完整性及数据一致性,消除噪 声,滤除与数据挖掘无关的冗余数据,推导计算缺失数据,完成数据类型的转换。 数据变换主要是削减数据维度,压缩数据挖掘过程中的数据量。本文主要从电信 的业务数据库中提取详单和营帐数据,并对其进行处理,得到数据挖掘库。 3 数据挖掘 明确数据挖掘的目标之后,就要选择合适的算法,包括选取合适的模型和参 数。选择算法主要考虑两方面的因素:一是数据的特点,二是用户或运行系统的 需求。选定数据挖掘技术和方法后,就要运用其对数据进行分析、建模,这是数 据挖掘过程中的核心环节。对于提取出的、用户感兴趣的知识,要以一定的方式 表示出来( 如产生式规则等) 。对于本文将要采用的数据挖掘技术和方法将在下一 节给出详细的描述。 4 结果解释和评估 经数据挖掘过程得到的模式和结果需要进行验证和评估,剔除冗余或不相关 的模式,若模式不能满足或不能很好地满足用户的需求,则需要返回前一个阶段, 重新设置算法的参数或是选择新的算法,甚至是回到数据准备阶段,检查所选数 据的有效性。最后,对于提取的有用模式要用业务术语加以解释和表述,方便决 策者利用数据挖掘的成果。 第2 章数据挖掘基本理论与技术 2 2 采用的主要数据挖掘技术与方法 在电信企业交叉销售建模过程中,主要完成分类、聚类以及业务关联分析功 能。数据挖掘技术的有效性直接影响数据挖掘的质量,在分析了电信企业数据特 点后,将选用以下方法进行分析、建模。 2 2 1 决策树技术 1 决策树 决策树是数据挖掘中常用的一种分类技术,它是用树的结构描述决策过程, 提供了一种展示类似在什么条件下会得到什么值这类规则的方法。决策树是一棵 有向、无环树。树中的根节点没有父节点,每个内部节点有且只有一个父节点, 内部节点上选用一个属性进行分割,分割后得到的每个分叉都是分割的一部分, 叶子节点表示一个分类。决策树构造的输入是一组带有类别标记的例子,构造的 结果是一棵二叉树或多叉树“1 。决策树的构造分为两个步骤:一是树的生成过程: 决策树的生成采用“自上而下、分而治之 的方法 2 0 l 开始时,所有的数据都在 根节点( 根据某种策略选择的属性) 进行分割,将数据分为若干子集,使得每个 子集在该属性上具有相同的值,然后依次递归调用这个过程,处理每个子集,直 到每个节点上的数据都属于同个类别或是没有属性可以再用于对数据进行分 割;二是树的修剪过程:该过程主要用来处理一些可能是噪音或者是异常的数据。 决策树的建立过程可以看成是数据规则的生成过程,实现了数据规则可视化, 其输出结果直观、容易理解n ,使用者可以对其结果进行人工确认,根据专业知 识对决策树进行修改,并且在操作上不太需要使用者介入,自动性高,分类速度 快。 2 决策树算法选择 决策树算法按照分割方法可分为两类:基于信息论( i n f o r m a t i o nt h e o r y ) 的方 法和最小g i n i 指标( 1 0 w e s tg i n ii n d e x ) 方法。对应前者的算法有i d 3 啤1 、c 4 5 2 3 1 后者的有c a r t 2 4 1 、s l i q 2 5 1 等。 j r o s s q u i n l a n 早期提出的i d 3 算法拍1 是比较有影响力的算法,其基本思想是 选择具有最大信息增益的属性作为分割节点,使得在每一个非叶节点进行测试时, 能获得关于被测试记录最大的类别信息 2 7 1 p 从而保证决策树具有最小的分支数量。 电信领域交叉销售模型的构建与应用 i d 3 算法的局限性是其只能处理离散型的描述性属性,对噪声比较敏感,在小数据 集上才有效。在i d 3 算法的基础上,1 9 9 3 年q u i n l a n 又提出了c 4 5 算法,该算法 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性 的不足,避免了i d 3 算法的过渡适配问题协1 ,能够对连续属性进行离散化处理、 对不完整数据进行处理1 2 7 1 0c 4 5 只适用于能够驻留于内存的数据集,当训练数据 集过大时则无法运行。 在电信企业交叉销售模型的研究中,从企业生产数据库中抽取出大量的原始 数据,数据类型既有离散型的( 如:性别、职业、费用类型、呼叫状态等) 也有 连续型的( 如:年龄、收入、通话时长、优惠费用等) ,数据属性复杂、形态多样, 并且数据存在不完整性,如:有些用户信息缺失,通话记录不完整等。 鉴于这些数据特点,本文选用c 5 0 算法。c 5 0 算法是c 4 5 算法的商业改进 版,适用于处理大数据集,计算速度比较快,占用的记忆资源较少。另外,c 5 0 可以处理如下几种数据形态:日期、时间、时间戳、序列型的离散性数据和实例 标签,除了处理部分缺失值的问题,还可将部分属性标记为c 5 0 不适合的数据, 并进一步提供了为其他属性定义新属性功能的便利啊1 。c 5 0 算法的这些特性,适 应了本文研究的数据集的特点,解决了数据分析时遇到的很多问题。c 5 0 算法以 其简单、易用、效率高等优势,在商业领域的数据挖掘问题中得到广泛应用。 2 2 2 关联规则 关联规则挖掘最初是由r a g r a w a l ,t i m i e l i n s k i 和a s w a m i 提出啪,其目的 是寻找给定数据记录集中数据项之间隐藏的关联关系,描述数据之间的密切度。 关联分析被广泛应用于市场营销、决策分析及商业管理中1 3 1 1 。 关联规则是形如x jy 的规则,支持度和置信度是描述关联规则的两个重要 概念,前者用于衡量关联规则在整个数据集中的统计重要性;后者用于衡量关联 规则的可信程度。只有支持度和置信度均较高的关联规则才可能是用户感兴趣、 有用的关联规则细1 。 通常,挖掘数据库中的关联规则问题被划分为阻下两个子问题: 找出数据集中满足用户给定最小支持度的频繁项目集; 使用频繁项目集和最小置信度产生关联规则。 第2 章数据挖掘基本理论与技术 关联规则分析的主要过程集中在频繁项目集的产生过程上,这是由数据量巨 大所造成的。该过程对算法的效率及可扩展性都具有很强的挑战性。 解决关联规则问题的原始算法是r a g r a w a l 等人提出的a i s 算法。为改进a i s 算法,h e i k k im a n n i l a 等人提出了o c d 算法3 ,o c d 算法利用上一次搜索的组合 信息来减少本次候选项目集的产生数量。之后,r a g r a w a l 等提出了关联规则挖掘 中最著名的a p r i o r i 算法以及它的变种a p r i o dt i d 和a p n o r ih y b i r d 算法,其中 a p r i o d 是基于水平数据分布,a p d o r it i d 算法是基于垂直数据分布的。 a p r i o d 算法使用了递推的过程,其基本思想是通过迭代的方法由k 1 频繁项 目集的集合l k i 找出k 频繁项目集的集合l k ,得到所有的频繁项目集后,结合最 小置信度,找出所有有意义的关联规则。a p r i o d 算法改进了a i s 算法中支持度的 计算方法,利用频繁项目集向下封闭的性质“频繁项目集的子集一定是频繁项目 集 来对候选项目集进行剪枝,大大减少了候选项目集的数量和计算时间阳1 。关 联规则挖掘的很多算法都使用了频繁项目集的性质对候选项目集进行剪枝,因此 多数算法都是a p r i o r i 算法的变种。 a s a v a s e r e 等人提出的p a r t i t i o n 算法脚1 对数据集进行了分区,h t o i v o n e n 等 人提出了基于随机抽样技术的s a m p l i n g 算法。这些算法在频繁集的生成过程中, 减少了对数据集的扫描,提高了效率,但是,仍存在很多缺点。p a r t i t i o n 算法对数 据集分区分别挖掘,增加了c p u 的负担,对硬件设备的要求较高;由于数据集中 经常存在数据分布不均匀的情况,s a m p l i n g 算法采用的随机抽样技术得到的样本 集不一定具有代表性。这些算法的局限性使得它们的实际应用性较差。 本文中将运用关联规则挖掘技术对电信企业的业务使用情况进行分析,找出 经常被一起使用的产品或业务组合。在数据库中,客户的业务使用记录存储在营 帐和详单数据中,业务用业务代码表示,映射到关联分析领域,是单维关联规则 挖掘问题。由于电信企业的数据是关系型数据库,经数据处理后得到的数据挖掘 用的数据以客户标号为标识,每条记录存储客户所使用
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年安徽安科生物工程(集团)股份有限公司招聘模拟试卷及答案详解(名师系列)
- 2025湖南省农村信用社联合社校园招聘15人考前自测高频考点模拟试题及参考答案详解1套
- 2025河北邯郸市体育运动学校选聘体育教练员3人考前自测高频考点模拟试题及答案详解(名师系列)
- 2025年三环集团社会招聘模拟试卷完整参考答案详解
- 2025年国家统计局平顶山调查队面向社会公开招聘劳务派遣人员4名模拟试卷及答案详解(名校卷)
- 2025年德州平原县县属国有企业公开招聘工作人员模拟试卷及答案详解参考
- 2025贵州医科大学第二附属医院第十三届贵州人才博览会引才47人模拟试卷及答案详解(新)
- 2025贵州省民族研究院第十三届贵州人才博览会引进人才模拟试卷及答案详解(新)
- 2025年陕西中试电力科技有限公司招聘(3人)考前自测高频考点模拟试题及1套参考答案详解
- 2025春季内蒙古包头市中心医院引进高层次和紧缺急需人才招聘29人考前自测高频考点模拟试题及答案详解(名校卷)
- 金融科技驱动的支付行业数字化转型路径-洞察阐释
- 个人借款分期还款协议范本8篇
- 劳动争议再审申请书
- 朝花夕拾中父亲的病
- 2024年微信小程序建设协议样本
- 江苏省南京市联合体2024~2025学年上学期八年级物理期中试卷(含答案)
- 2024年全国巾帼家政服务职业技能大赛(收纳师)理论考试题库(含答案)
- 部编版四年级语文上册第六单元教学分析及全部备课教案(共6份教案)
- 全国学科专业目录及名称代码表
- 项目安全管理考核表
- 食品生产企业安全检查表含日管控、周排查及月调度检查记录表
评论
0/150
提交评论