(计算机应用技术专业论文)数据挖掘技术在3g业务扩展中的研究与应用.pdf_第1页
(计算机应用技术专业论文)数据挖掘技术在3g业务扩展中的研究与应用.pdf_第2页
(计算机应用技术专业论文)数据挖掘技术在3g业务扩展中的研究与应用.pdf_第3页
(计算机应用技术专业论文)数据挖掘技术在3g业务扩展中的研究与应用.pdf_第4页
(计算机应用技术专业论文)数据挖掘技术在3g业务扩展中的研究与应用.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(计算机应用技术专业论文)数据挖掘技术在3g业务扩展中的研究与应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 从2 0 0 8 年开始的三大电信运营商重组至今,经历了3 g 牌照发放 以及3 g 正式商用,中国电信业市场环境发生了根本性变化,不仅形 成了各大运营商同台竞技的市场格局,而且从卖方市场转向买方市 场,电信客务以及相关的合作伙伴越来越多。特别是3 g 的正式商用, 通信领域又跨入了一个新的时代,3 g 用户在2 0 0 9 年下半年经历了一 个高速发展的时期,3 g 业务的竞争和3 g 客户的争夺日趋白热化。目 前电信企业对3 g 客户的识别以及3 g 客户细分方面都还处在摸索阶 段,无法在客户与企业之间发生有效交互信息,无法满足广大客户以 及3 g 业务发展的需要。因此如何利用当前高度发展的数据挖掘技术 和理论,对3 g 客户进行精确识别和有效地客户细分变得十分重要和 紧迫。 本文的目的就是在对3 g 业务和3 g 客户信息深刻理解的基础上, 研究并实现一个准确、实用的3 g 客户识别和客户细分的模型。模型 依据数据挖掘原理,利用数据挖掘软件s p s sc l e m e n t i n e l l 1 ,以 c r i s p d m ( c r o s s - l n d u s t ys t a n d a r d p r o e e s sf o rd a t am i n i n g , 跨行业数据挖掘标准流程) 建模过程为框架,逐步按照商业理解、数 据理解、数据准备、建立模型、模型评估、模型实施的步骤,并结合 某省会城市的联通公司样本数据进行分析、验证。在对3 g 客户识别 模型和客户细分模型进行评估和结果分析的基础上,为精确发展优质 3 g 客户提供了一个具体参考,同时对3 g 的资费策略提出一些参考意 见。最后对所做工作、研究实验中所遇问题以及下一步工作进行总结。 关键字:数据挖掘,3 g 业务,客户识别,客户细分 a b s t r a c t t h ee n v i r o n m e n to fc h i n e s et e l e c o m m u n i c a t i o nm a r k e th a s u n d e r g o n eg r e a tc h a n g e ss i n c et h et h r e em a j o rt e l e c o mo p e r a t o r s s t a r t e dt or e o r g a n i z ei n2 0 0 8w h e n3 gw a sf o r m a l l yu s e df o r c o m m e r c i a lp u r p o s e sa n di t sl i c e n s ew a si s s u e d n o to n l yt h e m a r k e ti nw h i c hm a j o rt e l e c o mo p e r a t o r st oc o m p e t eo ne q u a l t e r m si sf o r m e d ,b u ta l s ot h em a r k e ti sc h a n g e df r o ms e l l e r s t ob u y e r s m e a n w h il et h en u m b e ro f t e l e c o m m u n i c a t i o n sa n dt h e p a r t n e r sr e l a t e dw i t ht e l e c o mo p e r a t o r sa r eb e c o m i n gm o r ea n d m o r e t el e c o m m u n ic a ti o nh a se n t e r e dan e we r aa f t e r3 gis f o r m a l l yu s e d i nc o m m e r c i a l t h en u m b e ro f 3 gc u s t o m e r s e x p e r i e n c e dap e r i o do fr a p i dg r o w t hs i n c et h es e c o n dh a l fo f 2 0 0 9 ,a n dt h ec o m p e t i t i o n so ft e l e c o m m u n i c a t i o no p e r a t o r sf o r 3 gb u s i n e s sa n d3 gc u s t o m e r sa r ei n c r e a s i n g a tp r e s e n t ,t h e i d e n t i f i c a t i o na n ds e g m e n t a t i o no f 3 gc u s t o m e r s a r en o t s t u d i e di nd e p t hb yt e l e c o m m u n i c a t i o ne n t e r p r i s e s i tr e s u l t s i nt h a tn o to n l ye f f e c ti v ei n f o r m a t i o nc a nn o tb ee x c h a n g e d b e t w e e nt e l e c o m m u n i c a t i o ne n t e r p r i s e sa n d 3 gc u s t o m e r s ,b u t a ls ot h ed e v e l o p m e n to f3 gb u si n e s sc a nn o tb ek e e pu pa n dt h e n e e d so f3 gc u s t o m e r sc a nn o tb es a tis f ie d t h e r e f o r e ,h o wt o u t i l i z et h ec u r r e n th i g h l yd e v e l o p e dd a t am i n i n gt e c h n i q u e sa n d t h e o r i e st oi d e n t i f y3 gc u s t o m e r sa c c u r a t e l ya n ds e g m e n t3 g c u s t o m e r se f f e c ti v e l yh a v eb e c o m ev e r yi m p o r t a n ta n du r g e n t t h ep u r p o s eo ft h i sp a p e ri st or e s e a r c ha n di m p l e m e n tt h e i d e n t i f i c a t i o na n ds e g m e n t a t i o nm o d e lo f3 gc u s t o m e r s t h e m o d e lb a s e do nt h ep r o f o u n du n d e r s t a n d i n ga b o u t3 gb u s i n e s s i i a n d3 gc u s t o m e r si n f o r m a t i o ns h o u l db ea c c u r a c ya n dp r a c t i c a l t h e o r i e so fd a t am i n i n ga n dr e l a t i v ea r i t h m e t i ca r ei n t r o d u c e d t h e no nt h eb a s i so fs a m p l ed a t ap r o v i d e db ya nu n i c o mc o m p a n y o fa c a p i t a lc i t y ,t h ed e s i g n a n d i m p l e m e n t a t i o n o ft h e i d e n t i f i c a t i o na n ds e g m e n t a t i o no f3 gc u s t o m e r ss y s t e ma r e r e a l i z e da c c o r d i n gt ot h ec r i s p _ d m ( c r o s s i n d u s t r ys t a n d a r d p r o c e s sf o rd a t am i n i n g ) f r a m e w o r k t h es e q u e n c eo ft h ew o r k s isb u si n e s su n d e r s t a n d i n g ,d a t au n d e r s t a n d i n g ,d a t a p r e p a r a t i o n ,m o d e l i n g , e v a l u a t i o na n dd e p l o y m e n t t h ep a p e r s u p p l i e sas p e c i f i cr e f e r e n c ef o re x a c t l yd e v e l o p i n gh i g hq u a l i t y 3 gc u s t o m e r sb a s e do nt h ee v a l u a t i o na n da n a l y s ist ot h ed a t a m i n i n gm o d e l m e a n w h il e ,s o m ea d v i c e o nt h e3 gr a t e sp o l i c y i sg i v e n f i n a l l y ,t h ep a p e rg i v e sas u m m a r ya b o u tt h ep r o b l e m s e n c o u n t e r e da n dt ob ee n c o u n t e r e di nt h es t u d y k e y w o r d s :d a t am i n i n g ,3 g ,c u s t o m e ri d e n t i f i c a t i o n ,c u s t o m e r s e g m e n t a ti o n i l i 湖南师范大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论 文不含任何其他个人或集体已经发表或撰写过的作品成果。对本文的 研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人 完全意识到本声明的法律结果由本人承担。 学位论文作者签名:绻龙捌。年,月坪日 湖南师范大学学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定, 研究生在校攻读学位期间论文工作的知识产权单位属湖南师范大学。 同意学校保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权湖南师范大学可以将本学位论文的 全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存和汇编本学位论文。 本学位论文属于 1 、保密口,在年解密后适用本授权书。 2 、不保密留。 ( 请在以上相应方框内打“ ) 作者签名: 导师签名: ;莨金 训叫 日期:矽扫年厂月珥日 日期:翻尼年t 月弓日 数据挖掘技术在3 g 业务扩展中的研究与应用 1 1 选题背景和意义 1 绪论 3 g 网络的蓬勃发展以及电信运营商的大力宣传,3 g 促销活动随 处可见,3 g 的名词老少皆知。但这样一个跨时代意义的3 g 网络对于 大众而言,究竟具有怎样的吸引力呢,3 g 业务优势又在何处,现有 3 g 客户的结构又是怎样的? 应该采用怎样的营销策略以及更加贴近的 资费标准,才能让3 g 更加被大众所接纳? 这些都是电信运营商急需解 决的问题。 本文的研究工作就是基于这个背景下展开的,使用数据挖掘方 法,整合3 g 客户大量数据,通过对客户基本自然属性与消费行为属 性的数据进行深入分析,提炼出3 g 客户属性特征和消费特征来建立 3 g 客户识别模型,并对3 g 客户进行细分。通过对3 g 客户识别模型 和3 g 细分模型的评估和分析,为如何发展优质3 g 客户和3 g 资费的 调整提供一定的指导。 1 2 国内外研究现状 当前在北美和欧洲,由于其移动产品较成熟,各个运营商竞争更 为激烈。日韩的3 g 业务发展可谓一支独秀,随着技术的不断成熟, 数据传输速度的提高,3 g 数据业务的个性化特点得到极大释放,日 韩的数据业务也给用户带来更多的体验。无论是n t t 、k d d i ,还是韩 国的s k t 、k t f ,在3 g 业务的运营过程中,都时刻以用户需求为中心, 从用户兴趣和使用工具两方面细分用户,结合自身特点,进行3 g 业 务的开发与推广,设定符合用户需求的产品与体验。 国内各大运营商虽很重视3 g 业务的研究,但其分析的深度不够, 很多研究都是根据网络调查来分析三大运营商的3 g 业务发展状况。 硕士学位论文 同时国内数据挖掘技术起步比国外晚,而电信行业数据量庞大、数据 分散、数据类型多样,这也给3 g 业务的研究带来了困难。另外,国 内既懂实施部署b i ( b u s i n e s si n t e l l i g e n t 商业智能) 又精通电信 业务的b i c c ( b u s i n e s si n t e l l i g e n c ec o m p e t e n c yc e n t e r 商业智能 竞争力中心) 团队还难觅身影,这在人才上也限制了对3 g 业务的研 究。 1 3 论文主要工作和结构 1 3 1 论文主要工作 本文借助数据挖掘技术对3 g 客户进行识别和细分,主要工作包 含以下几个方面的内容。 ( 1 ) 理解业务模型和提取相关业务数据 电信运营商拥有许多成熟的数据库应用系统,如营业系统、营帐 系统、计费系统、p r m 结算系统、网间结算系统、积分系统、经营分 析系统等,并产生了大量客户消费数据。本文在对电信业务和数据理 解的基础上,对相关的计费、账务以及营业数据进行提取与合并。 ( 2 ) 整理模型所需数据 因本次研究工作采用s p s sc l e m e n t i n e 作为数据挖掘的工具,需 要将数据源在系统中做一定的离散化处理、数据转换,并在合理性分 析的基础上进行数据剔除等操作,以适应s p s sc l e m e n t i n e 中的数据 挖掘模型对数据类型的需要。 ( 3 ) 建立数据挖掘模型 研究数据挖掘原理以及s p s sc l e m e n ti n e 工具的使用,并逐步建 立3 g 客户识别模型和客户细分模型。 ( 4 ) 模型的验证和评估 对建立的3 g 客户识别模型和细分模型进行评估和验证,并对结 果进行分析,同时提出了进一步的模型实施营销扩展建议。 数据挖掘技术在3 g 业务扩展中的研究与应用 1 3 2 论文的结构 本论文一共包括五章: 第1 章绪论。说明论文选题的背景和意义,国内外研究发展状况 及论文的主要研究内容和方法。 第2 章数据挖掘理论与技术。在介绍数据挖掘定义的基础上重点 介绍数据挖掘的特点、数据挖掘系统的分类、数据挖掘可挖掘的知识 类型、数据挖掘流程、数据挖掘应用领域等与数据挖掘相关的理论和 技术。 第3 章数据挖掘算法。首先对常用的数据挖掘算法进行了相应的 介绍,然后重点介绍本文所使用的决策树算法和聚类算法。 第4 章3 g 客户识别和客户细分模型的建立。使用数据挖掘软件 s p s sc l e m e n t i n e l l 1 ,并以c r i s p d m 建模过程为框架,建立3 g 客户 识别和客户细分模型,并对此模型进行评估。 第5 章结论及展望。概括了本文的主要工作,对研究实验中所遇 问题以及下一步工作进行总结。 硕士学位论文 2 数据挖掘理论与技术 2 1 数据挖掘定义和特点 2 1 1 数据挖掘的定义 数据挖掘技术是近几年内迅速发展起来的一门交叉科学,涉及数 据库、统计学、人工智能和机器学习等多个领域【l 】。计算机的普及及 应用产生了海量数据信息,使数据挖掘技术有了大展身手的机会。数 据挖掘就是利用上述学科的综合技术对大量信息进行知识信息挖掘 的一种应用。 简单地说,数据挖掘就是从大量数据中提取或“挖掘”知识。数 据挖掘的任务是发现大量数据中尚未被发现的知识,是从系统内部自 动获取知识的过程【2 3 1 。对于那些决策者明确了解的信息,可以用查 询、联机分析处理( o l a p ) 或其它工具直接获取,比如“列举出每个考 生的成绩”。而另外一些隐藏在大量数据中的信息,即使是管理这些 数据的专家也是没有能力发现的它们关系、趋势,就可以用数据挖掘 去发现,从而为决策者提供有力和有用的支持。 数据挖掘标准定义是从大量的、不完整的、有噪声的数据集中, 提取出隐含在其中的有效的、新颖的、潜在有用的和最终可理解的模 式的非平凡过程 4 , 5 1 。它是数据库研究中的一个很有应用价值的新领 域。其中模式是一个用语言来表示的表达式,它可以用来描述数据集 的某个子集,表达式作为一个模式要求它比对数据子集的枚举要简 单,即所用的描述信息量要少。过程在数据挖掘中通常指多阶段的处 理,如数据清理、数据集成、模式搜索、模式评估、模型实施以及反 复的修改求精。要求这个过程是非平凡的,就是说要有一定程度的智 能性、自动性等。而有效性是指挖掘的模式对于新的数据仍保持有一 定的可信度。新颖性要求模式是新的。潜在有用性指挖掘的知识将来 数据挖掘技术在3 g 业务扩展中的研究与应用 有实际效用。最终可理解性是指挖掘的知识能被用户理解,这方面主 要体现在简洁性上。新颖性、潜在有用性和最终可理解性综合起来就 是兴趣性嘲。 2 1 2 数据挖掘的特点 传统的信息处理技术虽然给信息处理带来了巨大的进步,也做过 巨大的贡献,并且现在仍在普遍使用,但其不能像数据挖掘一样能发 现更深层次的知识。通过对数据挖掘的定义以及与传统的信息处理技 术相比较,可以得出数据挖掘具有以下特点川。 ( 1 ) 数据的海量性 要从数据中挖掘出规则,其数据一般是海量的、可以表示整个业 务发展状况。数据挖掘所处理的数据源一般是多个数据库经过数据预 处理后形成的。 ( 2 ) 模型的复杂性 在建模方面,数据挖掘的重点大多放在“学习”上,对模型的复 杂性和需要的计算量较为关注,而很少放在大样本的渐进推论上。数 据挖掘技术有能力对复杂的数据关系进行建模,更适合解决复杂的问 题。 ( 3 ) 处理数据的离散型 在数据挖掘的实际应用中,数据源普遍包含连续变量和离散变 量,统计学中的大多数变量分析方法是为连续变量而设计的,但许多 数据挖掘方法更适合离散变量的分析。实际中,一些基于规则的方法 只能使用离散变量,所以挖掘之前需要将连续变量离散化。 ( 4 ) 结果的可用性 数据挖掘的目的在于发现知识,根据历史数据提取规则,管理和 维护规则,并将数据挖掘结果用于指导现在的行为和预测未来【羽。因 此挖掘的知识必须是可用的。 硕士学位论文 ( 5 ) 规则的动态性 数据挖掘出的规则也是随着社会的进步不断变化的,当前的规则 只能反映当前的数据特征。由于数据的不断产生和更新,新数据的不 断加入进来,挖掘规则所用的数据与当前规则的情况吻合度会慢慢降 低,因此规则也需要动态更新。 ( 6 ) 知识的相对性 数据挖掘不是发现放之四海而皆准的真理,其目标并不是发现新 的自然科学定理或证明机器定理。它所发现的知识是相对的,是有特 定条件约束的,面向特定领域的。 2 2 数据挖掘系统的分类 由于数据挖掘源于多个学科,因此数据挖掘研究期望产生大量的 不同类型的数据挖掘系统。这样,就需要对数据挖掘系统给出一个清 楚的分类 9 1 。对数据挖掘系统进行分类可以帮助用户区分不同的数据 挖掘系统,确定最合适其需要的数据挖掘系统。根据不同的标准,数 据挖掘系统可以分类如下。 数据挖掘系统可以根据所使用的数据库类型分类。数据库系统本 身可以根据不同的标准( 如数据模型、数据类型或所涉及的应用) 分 类,每一类可能需要自己的数据挖掘技术。这样,数据挖掘系统就可 以相应分类。例如根据数据库的数据模型分类,可以有关系的、事务 的、对象一关系的或数据仓库的挖掘系统。 数据挖掘系统也可以根据所挖掘的知识类型分类,即根据数据挖 掘的功能分类,如特征化、区分、关联和相关分析、分类等。一个综 合的数据挖掘系统通常都提供集成的数据挖掘功能。 另外,数据挖掘系统还可以根据所挖掘的知识的粒度或抽象层进 行区分,包括广义知识,原始层知识和多层知识。 数据挖掘系统还可以分为挖掘数据的规则性( 通常出现的模式) 数据挖掘技术在3 g 业务扩展中的研究与应用 与挖掘数据的奇异性( 如异常点或离群点) 。般情况下,概念描述、 关联和相关分析、分类、预测和聚类都属于数据挖掘的规则性,将离 群点作为噪声排除。 数据挖掘系统可以根据所用的数据挖掘技术分类。这些技术可以 根据用户交互程度( 例如自动系统、查询驱动系统) ,或利用的数据 分析方法( 例如面向数据库或面向数据仓库技术、机器学习、神经网 络等) 描述。复杂的数据挖掘系统通常采用多种数据挖掘技术,或结 合一些方法的优点采用有效的、集成的技术。 数据挖掘系统也可以根据其应用分类。例如,可能有些数据挖掘 系统特别适合金融、电信、股票市场等。不同的应用需要集成对于该 应用特别有效的方法。因此,泛化的全能的数据挖掘系统可能并不适 合特定领域的挖掘任务。 2 3 数据挖掘可挖掘的知识类型 数据挖掘的目的是发现知识,知识要通过一定的方法或者模式给 出。数据挖掘可挖掘的知识类型包括以下几个方面:概念与类描述、 关联模式、分类知识、聚类知识、预测知识、时间序列、偏差检查。 ( 1 ) 概念与类描述 在对数据进行分析、处理的过程中,用户常常需要对数据进行抽 象的有意义的描述。经过归纳的抽象描述能概括大量的关于类的信 息。概念类描述就是通过对某类对象关联数据的汇总、分析和比较, 用汇总的、简洁的、精确的方式对此类对象的内涵进行描述,并概括 这类对象的有关特征。 ( 2 ) 关联模式 关联知识是反映一个事件和其他事件之间依赖或关联的知识。如 果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据 其他属性值进行预测。关联可分为简单关联、时序关联、因果关联、 硕士学位论文 数量关联等。最为著名的关联规则方法是r a g r a w a l 提出的a p r i o r i 算法。 ( 3 ) 分类知识 分类知识反映同类事物的共同特征和不同事物之间的差异特征。 分类的目的是建立一个分类模型,该模型能把数据集合中的所有数据 项都映射到特定类别中。要构造分类模型,需要一个训练样本数据集 作为输入,分类模型通过学习可以形成表达数据对象与类标识间对应 的知识,进而也可以预测未来数据的类别。分类知识可以用分类规则、 概念树、或学习后的分类网络等形式表示出来。最为典型的分类方法 是基于决策树的分类方法。它是从实例集中构造决策树,是一种有指 导的学习方法。 ( 4 ) 聚类知识 聚类知识是依照相似性和差异性把一组数据归成若干类别。其目 的是使得属于同一类别的数据间的相似性尽可能大,而不同类别中的 数据间的相似性尽可能小。聚类与分类方法不同,聚类是在没有给定 划分类的情况下,如没有预定的分类表、没有预定的类目,而根据信 息相似度进行信息聚集的方法。 ( 5 ) 预测知识 预测型知识是指由历史的和当前的数据去推测未来的数据,并能 推测未来数据趋势的知识,这类知识可以被认为是以时间为关键属性 的关联知识。 ( 6 ) 时间序列 很多情况下,我们要分析的数据包含一个时间维度。具有一个或 多个时间属性的预测应用,称为时间序列问题。时间序列是数据存在 的特殊形式,序列的过去值会影响到将来值,这种影响的大小以及影 响的方式可由时间序列中的趋势周期及非平稳等行为来刻画。 ( 7 ) 偏差检查 数据挖掘技术在3 g 业务扩展中的研究与应用 偏差型知识是对差异和极端特例的描述,揭示事物偏离常规的异 常现象【l o l ,如标准类外的特例,数据聚类外的离群值等。所有这些知 识都可以在不同的概念层次上被发现,并随着概念层次的提升,从微 观到中观、到宏观,以满足不同用户不同层次决策的需要。 2 4 数据挖掘流程 目前,数据挖掘系统的研制和开发大都遵循c r i s p d m ( c r o s s i n d u s t r ys t a n d a r dp r o c e s sf o rd a t am i n i n g ,跨行业数据 挖掘标准流程) 标准【1 1 l 。c r i s p d m 过程模型从数据挖掘技术应用的 角度划分数据挖掘任务,将数据挖掘技术和应用紧密结合,注重数据 挖掘模型的质量和业务相关问题相结合。c r i s p - d m 过程模型的基本 步骤包括:业务理解、数据理解、数据准备、建立模型、模型评估、 模型实施 1 l , 1 2 。 ( 1 ) 业务理解 , 数据挖掘的目的是为了在大量数据中寻找有用的令人感兴趣的 信息,因此发现何种知识就成为整个过程中第一个重要的阶段。例如, 要对电信客户的特征进行识别分析,也就是找到哪些客户具有什么样 的不同的特点,所以应该明确其任务主要是构建一个分类模型后对客 户分类判断。在问题定义过程中,数据挖掘人员必须和领域专家以及 最终用户紧密协作,确定需要解决的业务需求,然后确定如何将此业 务需求转化成数据挖掘可解决的一个问题或一组问题。 ( 2 ) 数据理解 大量全面丰富的数据是数据挖掘的前提,没有数据,数据挖掘也 就无从作起。数据可以来自于现有事务处理系统,也可以从建成的数 据集市或数据仓库中得到。每个数据集市和数据仓库都有自己的特定 数据,并保存有关数据抽取方式、所用数据格式、己执行哪些聚集、 清洗等方面的信息。 硕士学位论文 ( 3 ) 数据准备 数据准备是数据挖掘的重要环节,也是挖掘结果是否科学可用的 关键一环。因为收集阶段得到的数据有些可能不准确,表现为数据可 能存在不一致性,或有“脏”数据或者数据有缺失等。所以首先须清 洗数据,然后根据业务分析的结果对数据进行整合与转化操作,例如, 对数据进行汇总和聚集。通常这一步为多粒度数据分析构造数据立方 体,对数据规约以得到数据集的归约表示,它比原数据集小的多,但 能基本保持原数据集的完整性,这样挖掘将更有效并产生相同( 或几 乎相同) 的分析结果。常用数据立方体聚集、维归约、数据压缩、数 值压缩、概念分层等方法归约数据,并根据需要生成衍生变量,比如 求月增长率、平均值等。根据具体情况,上述有些步骤可以省略而有 些需要重复进行。 ( 4 ) 建立模型 针对特定业务需求及数据的特点来选择最合适的挖掘算法。不同 的技术方案产生的结果模型有很大不同,而且模型结果的可理解性也 存在较大差异。例如,在客户识别模型中使用决策树方法产生的模型 结果就比用采用神经网络技术产生的结果易于理解。 ( 5 ) 模型评估 数据挖掘的结果有些是有实际意义的,而有些是没有实际意义 的,或是与实际情况相违背的,这就需要对模型进行评估。通过对模 型的评估,发现可能存在的冗余或不相关的模式,这时需要将其剔除。 如果发现模型不能满足客户需求,则需要返回到前一个阶段,如重新 选择数据,采用其他的数据转换方法,给定新的参数值,甚至采用其 他的挖掘算法。可以采用的方法有直接使用原来建立模型的样本数据 进行检验,或另找一批数据对其进行检验,也可以在实际运行中取出 新鲜数据进行检验,进而调整挖掘模型,不断重复进行数据挖掘。 ( 6 ) 模型实施 数据挖掘技术在3 g 业务扩展中的研究与应用 通常模型的创建不是项目的结束,模型的作用是从数据中找到知 识,获得的知识要便于用户使用的方式重新组织和展现。根据需求, 模型实施这个阶段可以产生简单的报告,或者实施一个比较复杂的、 可重复的数据挖掘过程。 2 5 数据挖掘应用领域 目前,数据挖掘的应用领域主要集中在以下几个方面,而且每个 领域又都有自己特定的应用问题和应用背景。 ( 1 ) 金融领域 数据挖掘在金融领域的应用主要包括金融市场分析和预测、发现 某个客户、消费群体或组织的金融和商业兴趣、帐户分类、银行担保 和信用评估等。如m e ll o n 银行使用i n t e l li g e n ta g e n t 数据挖掘软 件以提高销售和定价金融产品的精确度【9 】。 ( 2 ) 数据挖掘在营销中的应用。 数据库营销( d a t a b a s em a r k e t i n g ) 是数据挖掘目前最成功的商 业应用。作为一种结合了信息技术和营销理论的新型营销方式,数据 库营销通过搜集消费者和同类企业等大量信息,并利用o l a p 和数据 挖掘等分析技术对其进行分析处理,据此确定相应的营销策略和特定 的目标顾客群。如美国运通公司( a m e r i c a ne x p r e s s ) 有一个用于记 录信用卡业务的数据库,通过对这些数据进行挖掘,制定了“关联结 算( r e l a t i o n s h i pb i l l i n g ) 优惠的促销策略,即如果一位顾客在 一个商店用运通卡购买了一套时装,那么在同一个商店再买一双鞋, 就可以得到比较大的折扣,既增加了商店的销售量,也可以增加运通 卡在该商店的使用率【9 】。 ( 3 ) 电子政务领域 电子政务数据挖掘是把数据挖掘及时反馈到政府部门,使得政府 部门的内部信息与外部信息进行有效的交互,以便政府部门可以更 硕士学位论文 好、更有效地将信息发布给最希望得到他们的公众,从而使政府部门 更好地服务于公众。如在新加坡的政府网站中,存在一个名为“电子 公民中心”的虚拟社区。通过这个虚拟的电子社区,人们足不出户便 可以顺利查询退休金、申请奖学金、为新车上户等,大大提高了政府 和公民的办事效率【9 】。 ( 4 ) 电信领域 数据挖掘技术在电信c r m 系统中的应用主要有以下几个方面:客 户获得、交叉销售、客户保持、一对一销售。例如,加拿大b c 省电 话公司要求加拿大s i m o nf r a s e r 大学k d d 研究组根据其拥有的十多 年的客户数据,总结、分析并提出新的电话收费和管理办法,制定既 有利于公司又有利于客户的优惠政策。 ( 5 ) 工业生产领域 工业生产领域是数据挖掘应用最有潜力的应用领域之一,工业过 程优化是应用工业生产数据挖掘的一个重要目标,另外数据挖掘技术 也可以应用于工序质量控制方面。国内外已有开发并投入应用的系 统,如c a s s i o n p e e 系统,i s p a 系统等。 ( 6 ) 生物与医药 数据挖掘与生物信息学很好的结合,在生物信息领域的应用潜力 日益受到人们的重视。数据挖掘技术在研究基因序列、以及生物学数 据库方面起着很重要的作用。据最新报道,目前正在运行的具有一定 规模的生物学数据库已经超过3 5 0 个。这些数据库之间有一定的管 理,可以n c b i ( 美国国立生物技术信息中心网站) 为中心,组成一 个拓扑网络。同时,随着生物学的发展,这些库中信息也在不断更新。 这样可以运用网络数据挖掘技术,直接通过万维网对远程数据库进行 数据挖掘,获取最新的数据。 数据挖掘技术在3 g 业务扩展中的研究与应用 3 1 常用数据挖掘算法 3 数据挖掘算法 数据挖掘是一门诞生时间不长却飞速发展的计算机分析技术,在 这些年来,数据挖掘理论日趋成熟,并在实践中大放异彩。最常用的 数据挖掘算法主要有决策树算法、神经网络、关联规则算法、聚类分 析算法、统计分析算法、模糊集和粗糙集算法等。现将这几种常见的 数据挖掘算法介绍如下。 ( 1 ) 决策树算法 决策树算法是对分类问题进行深入分析的一种方法,它的分析模 型看上去像一颗树。树的根节点是一个数据集合空间,每个分支节点 是一个分类问题,它是对一个单一属性的测试,该测试将数据集合空 间分割成两个或更多块,每个叶节点是带有分类的数据分割。 ( 2 ) 神经网络 神经网络是一门新兴的交叉科学,是在人类对其大脑神经认识理 解的基础上,人工构造的能够实现某种功能的网络。它本质是实际模 仿人脑神经网络和结构而建立一种信息处理系统,是大量的处理单元 相互连接而组成的复杂网络,能够进行复杂的逻辑操作和非线性关系 的实现1 3 l 。 ( 3 ) 关联规则算法 关联规则用来揭示数据与数据之间未知的相互依赖关系,它的任 务就是:给定一个事务数据库i d ,在基于支持度一置信度框架中,发 现数据与项目之间大量有趣的相关联系,生成所有支持度和可信度分 别高于用户给定的最小支持度和最小可信度的关联规则。 ( 4 ) 聚类分析算法 聚类是人类项最基本的认识活动,它将数据分成若干不同的 硕士学位论文 类,使得同一类中的数据对象尽可能相似,而不同类中的数据尽可能 相异。作为数据挖掘的功能,聚类分析可以作为一个获得数据分布情 况,观察每个类的特征和对特征类迸一步分析的独立凝聚。通过聚类 能够识别密集和稀疏的区域,发现全局的分布模式,以及数据属性之 间的相互关系等。 ( 5 ) 统计分析算法 统计学习理论是一门研究基于经验数据的机器学习理论的科学。 机器学习的目标是以观测数据为基础,通过对数据的研究得出目前尚 不能通过理论分析得到的规律。然后利用这些规律去分析现实中的客 观现象,对未来的数据进行预测。现实应用中存在大量人类尚无法准 确认识但却可以进行观测的事物,因此机器学习在从现代科学技术到 社会、经济等各领域都有着十分重要的作用。 ( 6 ) 模糊集算法 因客观世界的多样性、复杂性和人类认知规律的有限性,许多事 情不能用很精确的、确定的概念表示出来。模糊集用隶属函数来刻画 对象对计划属于成都的连续的过渡性,即元素从属于集合到不属于集 合的渐变过程,将经典的集合二值逻辑 0 ,1 ) 推广到 0 ,1 区间的连续 值逻辑,从而诞生了模糊集合论,提供了对模糊现象吉尼新内阁定量 描述和分析运算的方法。模糊集是一种边界不分明的集合,一个元素 对于模糊集合来说,它既属于该集合又不属于该集合,边界是模糊的。 ( 7 ) 粗糙集算法 粗糙集理论是一种刻画不完整性和不确定性的数学工具,能有效 分析和处理不精确、不一致、不完整的各种不完备信息,并从中发现 隐含其中的知识,揭示潜在的规律。粗糙集理论强调的是信息系统中 知识的不完整性、不可分辨性,其处理方法是正确的,要求属性值都 是定性值,而实际应用中存在大量的定量数据,必须设法转换成定性 数据才能运用粗糙集方法。因此粗糙集算法与其他处理不确定性问题 数据挖掘技术在3 g 业务扩展中的研究与应用 的理论,如模糊数据和云理论等,具有很强的互补性,可以相互促进, 增强其知识发现的能力。 本文主要是建立3 g 客户识别模型和客户细分模型,并对模型进 行评估。客户识别模型一般采用决策树的算法,而客户细分模型一般 则采用聚类算法。所以以下两节分别对决策树算法和聚类算法进行详 细介绍。 3 2 决策树算法 3 2 1 常见决策树算法介绍和比较 决策树是一个树状结构,每一个叶节点对应着某一类,也可以对 应着一个划分,将该节点对应的样本集划分成若干个子集,每一个子 集对应一个节点。对于一个分类问题或规则学习问题,决策树的生成 是一个从上而下、分而治之的过程【2 4 1 。使用决策树具有以下的优点: 使用者不需要了解很多背景知识,只要训练事例能用属性推导出结 论的方式表达出来,就能用该算法学习;决策树模型效率高,对训 练集数据量较大的情况较为合适;分类模型是树状结构,简单直观, 可将到达每个叶节点的路径转换为i f - - t h e n 形式的规则,易于理解; 决策树方法具有较高的分类精确度。 决策树算法的研究发展到现在,已经从原来的i d 3 算法( 仅仅加 入信息论的度量的方法) 发展到后面的多种算法。迄今,常用的算法 除了i d 3 算法外,还包括c 4 5 算法,c a r t 算法,c h a i d 算法,p u b l i c 算法,s l i q 算法以及s p r l n t 算法,每一种算法的提出都是基于前面 算法的缺陷进行的不断改进,使得决策树算法在分类领域发挥越来越 强的作用。现将这几类决策树算法介绍如下。 ( 1 ) i d 3 算法 i d 3 算法【1 4 1 的核心是:在决策树各级结点上选择属性时,用信息 增益( i n f o r m a t i o ng a i n ) 作为属性的选择标准,以使得在每一个非 硕士学位论文 叶结点进行测试时,能获得关于被测试记录最大的类别信息。其具体 方法是:检测所有的属性,选择信息增益最大的属性产生决策树结点, 由该属性的不同取值建立分支,再对各分支的子集递归调用该方法建 立决策树结点的分支,直到所有子集仅包含同一类别的数据为止。最 后得到一棵决策树,它可以用来对新的样本进行分类【”】。 i d 3 算法的优点是:算法的理论清晰,方法简单,学习能力较强。 其缺点是:只对比较小的数据集有效,且对噪声比较敏感,当训练数 据集加大时,决策树可能会随之改变。 ( 2 ) c 4 5 算法 c 4 5 算法 1 4 , 2 9 继承了i d 3 算法的优点,并在以下几方面对i d 3 算法进行了改进:用信息增益率来选择属性,克服了用信息增益选 择属性时偏向选择取值多的属性的不足;在树构造过程中进行剪 枝;能够完成对连续属性的离散化处理;能够对不完整数据进行 处理。 c 4 5 算法与其它分类算法比较起来有如下优点:产生的分类规 则易于理解,准确率较高。其缺点是:在构造树的过程中,需要对数 据集进行多次的顺序扫描和排序,因而导致算法的低效。此外,c 4 5 只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时 程序便无法运行。 ( 3 ) c a r t 算法 c a r t 算法【2 8 】采用一种二分递归分割的技术,是将当前样本集分 为两个子样本集,使得生成的决策树的每个非叶节点都有两个分枝。 因此c a r t 算法生成的决策树是结构简洁的二叉树。c a r t 算法考虑到 每个节点都有成为叶子节点的可能,对每个节点都分配类别。分配类 别的方法可以用当前节点中出现最多的类别,也可以参考当前节点的 分类错误或其它更复杂的方法。c a r t 算法在满足下列条件之一,则 视叶节点不再进行分支操作:所有叶节点的样本数为1 或样本数小 数据挖掘技术在3 g 业务扩展中的研究与应用 于某个给定的最小值或者样本都属于同一类的时候;决策树的高度 达到用户设置的阂值,或者分支后的叶节点中的样本属性都属于同一 类的时候;当训练数据集中不再有属性向量作为分支选择的时候。 ( 4 ) p u b l i c 算法 一般决策树算法分两步进行先建树,后剪枝。而p u b l i c 算法考 虑到先建树后剪枝的方法将生成好的分枝再剪去是一种效率较低的 重复劳动,于是提出将剪枝融入到建树的过程中,即预剪枝。p u b l i c 算法的最大优点是它生成的决策树与对同一样本集使用预剪枝策略 生成的决策树完全相同,而效率有大幅度提高。p u b l i c 算法在选择 测试属性上采用计算g i n i 系数的技术,在剪枝时使用基于最小编码 代价的m d l 算法。p u b l i c 算法并非在建树的最初就同时使用剪枝算 法,而是在树生成了一部分之后,对尚未完全生成的决策树进行剪枝, 对最终成为叶子的节点不再分割,从而减少工作量,提高效率。 ( 5 ) s l i q 算法 s l i o 算法对c 4 5 决策树分类算法的实现方法进行了改进,在决 策树的构造过程中采用了“预排序 和“广度优先策略”两种技术。 在构造决策树的工厂中s l i q 所采用的广度优先策略,即在决策树的 每一层只需对每个属性列表扫描一次,就可以为当前决策树中每个叶 子结点找到最优分裂标准。 s l i q 算法由于采用了上述两种技术,使得该算法能够处理比 c 4 5 大得多的训练集,在一定范围内具有良好的随记录个数和属性 个数增长的可伸缩性。然而它仍然存在如下缺点:由于需要将类别 列表存放于内存,而类别列表的元组数与训练集的元组数是相同的, 这就一定程度上限制了可以处理的数据集的大小。由于采用了预排 序技术,而排序算法的复杂度本身并不是与记录个数成线性关系,因 此,使得s l i q 算法不可能达到随记录数目增长的线性可伸缩性。 ( 6 ) s p r i n t 算法 硕士学位论文 为了减少驻留于内存的数据量,s p r i n t 算法进一步改进了决策 树算法的数据结构,去掉了在s l i q 中需要驻留于内存的类别列表, 将它的类别列合并到每个属性列表中。这样,在遍历每个属性列表寻 找当前结点的最优分裂标准时,不必参照其他信息,将对结点的分裂 表现在对属性列表的分裂,即将每个属性列表分成两个,分别存放属 于各个结点的记录。 s p r i n t 算法的优点是在寻找每个结点的最优分裂标准时变得更 简单。其缺点是对非分裂属性的属性列表进行分裂变得很困难。解决 的办法是对分裂属性进行分裂时用哈希表记录下每个记录属于哪个 孩子结点,若内存能够容纳下整个哈希表,其他属性列表的分裂只需 参照该哈希表即可。由于哈希表的大小与训练集的大小成正比,当训 练集很大时,哈希表可能无法在内存容纳,此时分裂只能分批执行, 这使得s p r i n t 算法的可伸缩性仍然不是很好。 3 2 2 本文所采用的决策树算法 从以上描述可以看出c a r t 算法具有以下特点:q c a r t 算法是非 参数非线性的,其操作和结果的解释较为简单;c a r t 算法应变量属 性非常灵活,分类树法中应变量即可以是连续性数值变量 ( c o n t i n u o u sp r e d i c t o r s ) ,也可为分类变量( c a t e g o r i c a l ) 。如果 应变量为连续性变量,c a r t 算法树为回归树

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论