(管理科学与工程专业论文)基于数据挖掘的电信客户流失分析.pdf_第1页
(管理科学与工程专业论文)基于数据挖掘的电信客户流失分析.pdf_第2页
(管理科学与工程专业论文)基于数据挖掘的电信客户流失分析.pdf_第3页
(管理科学与工程专业论文)基于数据挖掘的电信客户流失分析.pdf_第4页
(管理科学与工程专业论文)基于数据挖掘的电信客户流失分析.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(管理科学与工程专业论文)基于数据挖掘的电信客户流失分析.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

南京邮电学院硕士学位论文:基于数据挖掘的电信客户流失分析 摘要 随着中国电信业改革不断深入,电信市场不断拆分,客户选择电信产品和 运营商的余地越来越大,电信运营商之间对客户的争夺也越来越激烈。与此同 时,电信市场日趋饱和,各大电信运营商都不得不面对日益严峻的客户流失 ( c h u m ) 问题。为了维持市场占有率,运营商们运用了各种促销,套餐方案来吸 引新客户。然而,根据调查,电信运营商吸引一位新客户所花的成本是维持一 位现有客户的5 至1 0 倍;对企业而言,长期的忠诚客户比短期获取的客户更加 有利可图。因此,如何维持现有客户,早期发现潜在的流失客户,并且采取适 当的营销措施遏制流失,是当前电信运营商急需解决的课题。 本文结合实际项目,应用“数据挖掘”技术,并充分利用现有的电信运营 数据,从多角度、多层面分析电信客户的流失问题。通过贝叶斯网络、决策树 等分类模型,进行离网客户的流失预测,对流失预测模型的时效性进行定量的 分析,评价数据挖掘模型的商业价值。通过客户历史消费的序列分析,有效识 别业务流失客户,并且对业务流失进行了进一步的流失分析。应用聚类算法模 型,通过客户的消费行为信息进行流失客户的细分,以便对于不同的流失客户 群体,采取有针对性的营销策略。 i i 南京邮电学院硕士学位论文:基于数据挖掘的电信客户流失分析 a b s t r a c t t h ec h o i c e sf o rc u s t o m e r st ou s ed i f f 酾l tt e l e c o mp r o d l l c t so ro p e r a t o r s s e r v i c e sb e c o m ew i d e r ,a r l dt l l ec o n t e s tt 0a t t r a c tc u s t o m e r si sm o r cc o m p e t i t i v e b e t w e e nt e l e c o m c o m p e t i t o r s , a sm e如r n l e rr e f o r ma r md i “s i o ni n t e l e c o m m u n i c a t i o ni n d u s t 阱m a j o rt d e c o mc o m p e t i t o r sh a v et of h c es c f i o u sc h u m p r o b l 锄s ,w h i l e 也et d e c o mm a r k e ti ss a t u r a “n 晷v a r i o u ss a l e sp r o m o “o n sa r e i i n p l e i 】a e n t e dt oa c tn e wc u s t o m e r si no r d e rt om a i n t a i nm a r k e t o c c u p a t i o n i n v e s t i g a t i o ns h o w s 也砒也ec o s tt oa t 仃a c tan e wc u s t o m 盯i s5t ol ot i 豇1 e sm o r e e x p e n s i v em a l lt om a i n t a i nac u r r 髓tc u s t o m e r ,s oal o n g - t i m el o y a jc u s t o m e ri sm o r e p f o e t d b l e 也a nan e wc 1 1 s t o m e ni nt h i sc a s e ,h o wt om a i n t a i nc u r r e n tc u s t o m e r sa 1 1 d p r 酣i c tc h u ms o 觞t oa d o p ts i l i t a b l em a 出e t i n gm e 鹊u r e st 0p r e v e l l tl o s sb e c o m e sa u r g tp r o b l 锄f o rt e l e c o m0 p e r a t o r s i nt l l i st h e s i s ,w e 印p l yd a t am i i l i n gt e c l l i l i q u e st oa n a l y z ec h 啪p m b l e m si n d i f f 打e n tv i e w s ,u t i l i 五n gp r e s e n td a t amt e l e c o mo p e r a t o r ss u 衔c i 曲订yb a s e do nr e a l d a t am i l l i n gp r o j e c t s w eu s eb 删i a i ln e t w o r k sa r i dd e c i s i o nt r e e st op r c d i c tc h 哪, a n a l y z et i m ee 虢c to fc h u mm o d e l sq u a n t i t a t i v e l ya n de s t i m a t eb u s i n e s sv a l u eo f p r e d i c t i o nm o d e i s s e q u e n c ea f i a l y s i so nc u s t o m e rh i s t o r ya c c o u n ti sh e l p e d 幻d e t e c t c u s t o m e r s b u s i n e s sl o s s ,a n d 也锄缸n :h e rs t 印i si m p l 锄蜘t e di nb u s i n e s s1 0 s s a ! l a l y s i s n l 铋,d u s l e rm o d e l sa r eu s e di nc u s t o m e rs e g m e n t a t i o n sa c c o r d i n gt o c u s t o m e r sc o n s 啪e db e h a v i o r s , t od e a l a g a i n s t d i 圩b r e i l tc u s t o m e rg r o u p si n m a r k e t i n g i i l 南京邮电学院学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的 地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包 含为获得南京邮电学院或其它教育机构的学位或证书而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了 明确的说明并表示了谢意。 研究生签名: 日期 南京邮电学院学位论文使用授权声明 南京邮电学院、中国科学技术信息研究所、国家图书馆有权保留 本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其 他复制手段保存论文。本人电子文档的内容和纸质论文的内容相 致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布 ( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权 南京邮电学院研究生部办理。 研究生签名:导师签名;日期: 第一章绪论 1 1 课题的研究背景与研究动机 电信市场开放意味着客户通信消费的选择余地越来越大,但对于电信运营 而言,意味着电信市场竞争进一步加剧,伴随而来的是客户平均生命周期不断 缩短,客户流失不断增加。电信行业中,国外统计表明1 :发展一个新客户比 留住一个老客户的花费要高5 到1 5 倍。客户流失给电信运营商造成了巨大的损 失,而许多有价值的客户开始流失的时候,运营商们却一无所知。对企业而言, 长期的忠诚客户比短期获取的客户更加有利可图。因为长期顾客较容易挽留, 服务成本比新顾客低,而且能够为公司宣传、带来新的客户。p e p p e r s 和r o g e r s 指出1 2 】,企业若能够将客户流失率减少5 ,利润就可提升6 0 以上,因此在企 业不断投资开发新客户的同时,应当关注如何维持现有客户,减少客户流失, 增加客户对企业的贡献度。 国内电信市场自进一步拆分以来,市场竞争日趋激烈,运营商们为了获取 更大的市场份额,各类优惠措施频频出台;同时为了吸取更多的客户,各运营 商的服务申请门槛大大降低,使得客户忠诚度降低,客户流失激增,客户贡献 度持续降低。这些以“获取新客户”为焦点的市场策略,往往忽略维持现有的 客户,在费尽心思将新客户拉入的同时,原有的客户却流失了。据不完全统计, 国内移动通信企业的年离网流失率达到1 0 至1 5 ,一些分项的业务流失更是 高达3 5 ,不少电信运营商在2 0 0 4 年首次出现负增长,客户流失成为电信运营 商们最为关注的问题之一。 面对日益严重的流失问题,在传统市场营销策略实施的同时,不少运营商 开始探讨、尝试新的方法一采用“数据挖掘”技术,充分利用现有的运营数 据,通过深层次的数据分析,来分析和解决运营难题。由于电信行业是国内计 算机应用最为密集的部门之一,各类业务系统( b s s 、o s s 等) 的建设,积累 了大量的事务型数据,这些数据不仅是历史记录的呈现。也蕴涵了客户的消费 模式,客观土为曩据挖掘提供了丰富的素材。 、本文的工作正是基于这样一个背景下开展的。以电信行业为背晨,通过收 簟l 页 南京邮电学院硕士学位论文:基于数据挖掘的电信客户流失分析 集客户的基本数据、消费数据和缴费行为等数据,建立流失客户的分类预测模 型,进行客户流失的因素分析以及流失预测,并且进一步评价模型的商业价值; 同时还对流失客户进行细分,为流失客户的市场营销提供决簸支持。本文对电 信行业的客户流失做了较为全面的分析,希望能为电信企业解决相关问题提供 有益的帮助。 1 2 国内外研究与应用现状 在国外,不少知名的电信公司利用数据挖掘技术提升利润空间,在产品和 活动的生命周期中瞄准客户,确定变化的市场趋势并改善它在不同的市场划分 中的洞察力,有效提高了投资回报率。在客户流失分析方面存在不少成功的数 据挖掘案例,尤其是竞争更为激烈的移动通信市场领域,通过建立流失客户的 预测模型,对高流失概率的客户进行针对性的市场挽留工作,能够明显减小在 网客户的流失率。 采用的流失预测的数据挖掘模型包括决策树、神经网络、逻辑回归、聚类 关联性分析等。其中大多数流失模型采用决策树进行建模,比如c 4 5 及其扩展、 c u 玎等模型。与其它算法模型相比,其特点主要体现在能够同时对离散数据、 连续数据进行建模,并且建模结果易于观察,进行业务分析和解释。如s p s s 公司c l e m e n t i n e 的决策树模型、英国l i 曲t b r i d e 公司的c h 咖p r o p h c t 决策树模 型等都成功地应用于电信客户流失分析之中。 国内的电信企业出于市场竞争的需求,大多己建立或在建“电信经营分析 系统”,不少系统的建设是基于“数据仓库的统一数据平台,客观上为深层次 的数据分析提供了良好的数据平台。但是在分析及应用开发上,大多数的“经 营分析系统”都基于固定报表、即时查询以及主观探索o l a p 基础之上,深层 次的数据挖掘大多处于理论探讨和尝试的阶段,主要表现为以下几个方面: 1 由于国内电信企业大多刚刚接触数据挖掘技术,缺乏专业性的数据挖掘 分析人员,对数据挖掘应用认识不够深入。数据挖掘的原型建模往往通过外部 厂商实现,自身大多缺乏独立建模分析的能力。 2 严重缺乏数据挖掘应用实施的经验以及相关的营销数据支撑,主要表现 为质期的商业模型评估和营销实施,难以具体评估数据挖掘的商业价值。现有 第2 荑 南京邮电学院硕士学位论文:基于数据挖掘的电信客户流失分析 电信企业大多“重执行、轻评估”,很少系统、全面地搜集市场反馈材科,难以 形成一个闭环的自我学习提高过程。 3 业务流程不清,缺乏各部门的有效支撑。在电信企业,对于一个完整的 数据挖掘应用而言,从确定业务需求、数据整合、挖掘建模、模型价值评估、 营销资源分配、市场测试、营销计划执行以及分折评估营销活动,需要多部门 协作,才能保证数据挖掘应用得以顺利进行。在国内电信企业,现有数据挖掘 应用大多视为某一部门职能,部门之间不易协调,使得数据挖掘建模大多止步 于技术分析,缺乏必要的市场尝试,难以积累实际经验。 由此可见,国内电信企业的数据挖掘应用与发达国家同行相比,在数据挖 掘技术理解、营销理念、管理模式等诸多方面都亟待提高。 1 3 研究内容与研究意义 本文围绕“客户流失分析”这一主题,运用数据挖掘技术进行客户流失分 析的研究,通过参加不同电信运营商的相关应用课题,对文中应用的“客户流 失分析”的相关数据挖掘算法进行了实证分析。具体的,本文主要包含以下内 容: 1 建立了离网客户流失的预测模型。分别采用决策树和贝叶斯网络建立分 类模型,根据模型进行流失评价与业务解释,对目标客户流失倾向进行评分, 提取出高流失倾向的客户列表。同时尝试对“客户流失预测模型”的商业价值 进行评估,以及模型具体实施提出了一些自己的意见。 2 结合现有电信客户业务流失显著的现状,对部分流失严重的业务进行分 析。通过电信客户的历史消费序列分析,识别出存在“流失特征”的客户,然 后进行分类建模,通过对比分析,得出“业务流失客户”的特征,通过“事后 分析”为相关电信企业制定相关政策提供依据。 3 对流失客户进行“客户细分”。采用聚类模型,基于消费行为对流失客 户进行聚类分析,从各种不同的角度分析每个聚类的组成,进行评价,便于进 一步了解流失客户的构成。 本文的贡献主要体现在以下方面: 1 从“事前预测”、“事后分析”以及“客户细分”等多层面、多角度、较 第3 页 南京邮电学院硕士学位论文:基于数据挖掘的电信客户流失分析 为全面地构架了基于数据挖掘技术的客户流失分析的基本框架。 2 对层次聚类进行改造,使其适用于严格序列的聚类分析。通过“序列聚 类”分析,能够有效识别出业务流失客户,进而对电信客户的业务流失分析进 行有益的尝试; 3 将贝叶斯网络模型应用到实际的客户流失分析中,取得了良好的预测效 果。 4 将统计学中的p e r s o n 一致性检验方法,应用于预测模型时效性的评价。 1 4 论文的内容安排 论文由五部分组成: 第一章,概述本文的研究背景、研究目的以及总体的研究思路。 第二章,概述数据挖掘的基本理论,主要涉及相关的聚类、分类预测模型, 详细论述了决策树c 4 5 剪枝、贝叶斯网络在分类模型中的应用。 第三章,通过贝叶斯网络、决策树等分类模型,建立电信客户流失的预测 模型,并且比较各类模型的实际效果。采用同一分类模型,通过对不同时段数 据的建模,分析流失预测模型的时效性。最后,结合模型的预测效果,进一步 讨论预测模型的商业价值以及相关实施细节。 第四章,对客户业务流失进行建模分析。首先根据客户的历史消费信息, 进行流失特征识别的数据建模,然后通过决策树进行业务流失分类建模,进一 步分析业务流失的相关因素,提取高业务流失的客户群。 第五章,通过聚类模型,对流失客户基于消费行为进一步细分,分析各客 户群的组成特点,有助于制定有针对性的营销策略。 第六章,对全文进行总结,并且根据自己切身实践体会,提出电信行业采 用数据挖掘技术的一些建议,以及本文研究的局限,最后提出未来的若干展望。 第4 页 南京邮电学院硪士学位论文:基于数据挖掘的电信客户流失分析 第二章数据挖掘的基本理论 2 1 数据挖掘概述 2 1 1 数据挖掘的概念 数据挖掘( d a t am i m n g ) 这一术语最早是出现在1 9 8 9 年8 月美国底特律召 开的第11 届国际人工智能联合会议上【3 】o 它指的是从大量的、不完全的、有噪 声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又 是潜在有用的信息和知识的过程【4 l 口数据挖掘是一门交叉学科,它汇聚了不同 领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方 面的学者和工程技术人员。 数据挖掘建模一般由三个主要阶段组成:数据准备、数据建模、模型评价 与解释,如图2 1 所示: 图2 1 数据挖掘建模的基本过程 2 1 2 数据挖掘的基本方法 数据挖掘的方法主要包括:关联分析、序列模式发现、聚类、分类、回归 预测、偏差检测、描述与可视化等【5 同,以下做一简要介绍: 1 关联分析 关联分析的主要目标是发现数据库中,数据项之间是否存在某种关联关系。 若两个或多个数据项的取值之间重复出现且概率很高时,它就存在某种关联, 可以建立起这些数据项的关联规则。在大型数据库中,关联规则的数量很多, 通常,需要使用“支持度”和“信任度”两个域值来筛选其中的强规则。 2 序列模式发现 序列模式发现的主要目标是通过时间序列搜索出重复发生、概率较高的模 式。在时序分析中,需要找出在某个最小时间内出现比率一直高于某一阀值的 第5 页 南京邮电学院硕上学位论文:基于数据挖掘的电信客户流失分析 规则。这些规则会随着形式的变化做适当的调整。 3 。聚类 聚类就是将数据进行分组,使得每一组内的数据尽可能相似,而不同组间 的数据尽可能不同。它不依赖于预先定义好的类,属于无监督的学习。在统计 分析方法中,聚类分析一般是基于距离的聚类,如欧氏距离、海明距离等。这 些聚类分析方法是一种基于全局比较的聚类,它需要考察所有的个体才能决定 聚类的划分。在神经网络中,用于聚类的是自组织神经网络模型,如a r t 模型、 k o h o n e n 模型等。 4 分类 分类即区分数据类别,是数据挖掘中应用最多的模型。首先从数据中抽样 己经标记分类的训练集,在此训练集上运用分类算法,建立分类模型,即找出 一个类别的概念描述,然后根据分类模型对于没有分类的数据进行分类。建立 分类决策树的方法,典型的有i d 3 、c 4 5 、c h 刖玎等;建立分类规则的方法, 典型的有a q 方法、粗集方法、遗传分类器等:贝叶斯弼络、人工神经网络也 广泛地应用于分类模型中。 5 回归预测 回归预测是利用历史数据找出变化规律,建立模型,并用此模型来预测未 来数据的种类、特征等。在功能上,回归与分类相似:不同之处在于:分类描 述的是离散型变量的输出,而回归处理的是连续值的输出,同时分类的类别是 确定数目的,预测的量是不确定的。典型的预测方法是利用历史数据,以时间 为变量建立线性或非线性回归方程。预测时,只要输入任意的时间值,通过回 归方程就可求出该时间的状态。 6 偏差检测 偏差检测是通过数据分析,发现数据库中异常数据的技术。偏差检测的基 本方法是寻找观察结果与参照之间的差别。观察常常是某一个域的值或多个域 值的汇总。参照是给定模型的预测、外界提供的标准或另一个观察。 7 描述和可视化 数据挖掘结果的表现方式,即对数据进行约简、概化或图形描述等。近些 年来,“可视化数据挖掘”也是数据挖掘的一个研究方向。 第6 页 南京邮电学院硕士学位论文:基于数据挖掘的电信客户流失分析 2 1 3 数据挖掘在电信行业中的应用 在近十多年的发展过程中,数据挖掘技术已被广泛地应用于医学、金融、市 场营销、过程控制、化工、医药等应用领域。在电信行业中,由于市场竞争日趋 激烈,采用数据挖掘技术,支撑电信企业的决策支持日益普遍。具体的,国内外 电信企业的数据挖掘应用主要涉及以下几个方面【7 】: 1 业务预测 通过对历史数据的分析,找出影响业务发展的因素,然后对这些因素的未来 发展做出预计,从而大致确定未来的业务量,作为制定发展计划的重要依据。例 如,为了确定未来的市场规模,需要对电信客户的增长、各种业务的增长做出预 测:为了改善网络的运营质量,需要根据历史信息,对未来可能发生故障的设备 做出预测等。 2 客户的呼叫模式分析 对客户的呼叫模式进行细致的分析,可以进一步了解客户的一些基本特征, 比如客户呼叫时间、呼叫对象的分布特征等,能够使电信企业更清楚地了解客户 的喜好,从而为市场营销活动提供依据。 3 客户群体的细分 客户群体的细分是“一对一”营销的基础。根据客户属性,使群内客户具有 最大的相似性,群间客户具有最大的相异性,自动产生聚类标准,再按此标准对 客户进行归类。可以在客户群体细分的基础上进一步的细分,直到所需要的粒度, 由此对产生的客户群实施各种营销策略。 4 客户流失的预测与控制 通过预测客户的流失倾向,提取高流失概率的客户群,通过分析客户的流失 特性,选择适当的营销政策减少客户流失,或者在客户流失之前有针对性地进行 客户挽留工作等。 5 网络资源的管理 通信网在运行过程中产生了大量的运行数据。对这些数据进行挖掘,有利于 尽早发现潜在的网络故障,提高网络的利用率。 基于流失客户的预测控制以及客户细分,是本文论述的核心内容,将在接下 来的三、四、五章进行全面、深入的论述。以下对“客户流失分析应用中涉及 第7 贞 的算法模型聚类、决策树、贝叶斯网络做简要的介绍。 2 2 基于混合概率分布的聚类模型 2 2 1 聚类概述 聚类分析被广泛地应用于许多领域,包括模式识别、图像处理和市场营销 等。本文将采用聚类的方法,对电信流失客户的消费行为进行“细分”,以便对 各个不同“细分客户”采取有针对性的市场营销工作。 目前存在着大量的聚类算法,大体可以分为【4 j :( 1 ) 基于划分的方法,比如 k 平均值算法,k 中心点算法等方法;( 2 ) 基于层次的方法,比如c u r e 算法 和b i r c h 算法;( 3 ) 基于密度的方法,比如d b s c a n 算法;( 4 ) 基于网格的 方法,比如s t 科0 、c l i o u e 算法;( 5 ) 基于模型的方法,比如c o b w e b 算 法等。这些聚类算法都有其各自的特点,算法的选择取决于数据的类型、聚类 的目的和应用。以下将着重介绍在本文实例建模中采用的“e m 聚类算法”模 型。 2 2 2e m 聚类算法 e m 聚类算法思想,本质上是基于混合分布的参数估计,根据“极大似然” 准则,估计每个簇的分布参数。采用e m 聚类建模之前,需要事先指定聚类的 数目,为每个簇假定一个数据分布模型,比如高斯分布,泊松分布等,这里为 简化起见,假定每个簇服从同一族概率分布。完成聚类建模之后,确定各个簇 的具体分布,计算每个元素的隶属于某个簇的概率,依据概率确定各个元素的 划分。与普通的聚类模型相比,e m 算法的聚类划分,是基于“概率”而“距 离”的划分,一般来说,将隶属概率最大的簇作为该元素的隶属簇。以下以“一 元混合高斯分布”为例,进而扩展为多元高斯分布模型,介绍e m 聚类的一般 过程。 第8 页 南京邮电学院硕士学位论文:基于数据挖掘的电信客户流失分析 8 0 6 0 4 0 2 0 0 图2 2 样本频率分布图 图2 - 2 显示了一组数据的频率分布图,由于其明显的双峰性,单的高斯分 布并不适合,因此使用两个高斯分布对y 建模: y l ( l ,盯? ) r 2 ( 2 ,西) y = ( 1 一) y l + - y 2( 2 1 ) 其中 0 ,l ,p “= 1 ) = 万,表示以概率万产生 o ,1 ) ,然后,按照产 生y l 或y 2a 令加( x ) 表示正态分布的密度函数,参数目= ( ,口2 ) ,y 的密度可以 表示为: g y ( y ) = ( 1 一万) 咖t ( y ) + 咖z ( y ) ( 2 2 ) 通过“极大似然”来拟合图2 2 的数据,待估计的参数是: 口= ( ,占l ,目2 ) = ( 万,1 ,盯? ,2 ,司) ( 2 3 ) 基于n 个数据样本实例的对数似然是: ,( p ;z ) = l o g 【( 1 一,r ) - 咖- ( p ) + 万加:( y ,) ( 2 4 ) 由于需要求对数中的项求和,直接最大化,( 口;z ) 很困难。比较简单的做法 是:在式2 1 中,考虑取值0 或l 的变量,如果一1 ,则h 取自模型2 ,否 则取自模型l 。假设我们知道诸厶的值,则对数似然将是: f u 够;z ,) = l o g ( 1 一厶,) 咖- 咖) + 备- 咖:( 弦) 】 括。 ( 2 5 ) j7 + ( 1 一f ) 1 0 9 万+ 厶j 1 0 9 ( 1 一万) 】 第9 页 南京邮电学院硕士学位论文:基于数据挖掘的电信客户流失分析 且。和砰的极大似然估计值将是厶= o 的那些样本的均值和方差:类似的, “:和一将是f = l 的那些样本数据的均值和方差。 由于& 的值实际上是未知的,所以我们以迭代的方式来处理,用如下期望 值替代式( 2 5 ) 中的每个l : 一( 口) = e ( f l p ,z ) = p “,= 1 1 p ,z ) ( 2 6 ) 该式表示模型2 关于观测f 的响应度。对于混合高斯分布,我们采用e m 算 法进行处理,该过程在算法2 1 中给出【2 3 l 。 算法2 1 二分量高斯混合分布的e m 算法 1 取参数丘,并,p :,篚,寿的初值 2 期望步,计算响应度: 毋:_ 蜀碧鲨,2 ,- , ( 2 7 ) 。 ( 1 一j ) 咖t ( p ) + 蠢咖:( p ) 。 ”。 、。 3 极大化步,计算加权平均值和方差; 加甓 如需 和混合概率疗= :,奔 4 重复步骤2 和步骤3 直至收敛。 昏紫 1 二( i 一旁) :掣 2 :。奔 其中,构造应t 和丘:的初值的一个方法:随机地选择p ,井和茜等于整体 样本方差! ( p 一歹) 2 ,混合比例薷值可以从o 5 开始。在期望步,对每个模 型做每个观测的“朝p 赋值:根据每个模型下的训练点数据的相对密度,使用 当前参数估计对响应纛赋值;在极大化步,这些响应度用于加权极大似然拟合, 以更新参数估计。收敛阀值或者迭代次数根据实际情况确定。 上述是基于两分类“混合一元高斯分布”的e m 计算过程,通过评价比较 每个数据对干务个分布的隶属度( 概率密度) ,进行数据的归属划分,可以视为 一种两分类的“聚类”的建模过程。由此可以扩充到多分类的“多元高斯分布” 第1 0 嚣 查室堂皇兰堕堡主兰堡望兰! 苎至墼塑堇塑塑皇笪查皇鎏墨坌堑一 情况。对于n 维m 分类的聚类分析,通过m 个不同分布的n 元高斯分布来拟合, n 元高斯分布表达式为: 五c x ,厶,。一,2 :7 赤e x p c 一丢c x 一,n ,7 c 。c z 一,抽,( 2 _ 8 ) 正 印,眈) 是分类h 的密度分布函数,d 一是相关系数矩阵( h 忍) t 舻是n 维 向量的期望值。在诸如算法2 1 的迭代过程中,计算响应度由( 2 7 ) 转换为【9 】: 蜥与蕊的计算公式为: ,:( 曲- 工 :一2 丽 ( 2 9 ) ( 2 1 0 ) ,:( ( x 一以“) o 一:“) 7 d f “= 1 丽广 q 当然,在聚类建模中,可以根据考虑使用其它分布类型,比如泊松分布, 贝努利分布等,建模过程类似于上述描述。 聚类模型建立之后,根据每个元素对于隶属各个簇的概率,确定最终分类 如表2 1 : 表2 1e m 确定分类示例 c 1c 2c 3c 4 n 0 0 0 l 0 1 2 o 7 2o 1 0 0 0 6 n 0 0 0 10 ,5 30 2 l0 】3o 1 3 n 0 0 0 10 ,o l0 0 3o 9 1o 0 5 n 0 0 0 10 2 3o 0 8o 1 40 5 5 需要指出的是,基于高斯混合分布的e m 聚类模型与基于欧氏距离的k 均 值模型是一致的f 8 】。与其它聚类模型相比,e m 模型算法高效,在计算机实现改 进算法中,只需一次遍历即可嘲,减少了系统i o 操作,极大提高了运行效率, 适合基于“海量数据”的聚类分析。当然,也存在一些不足之处。比如需要选 择适当的概率分布类型,预先指定聚类的数目等。 第l i 页 南京邮电学院硕士学位论文:基于数据挖掘的电信客户流失分析 2 3 决策树 2 3 1 决策树的基本概念 决策树在数据挖掘技术中是一种重要的分类模型,自提出至今,种类不下 几十种。各种算法在执行速度,可扩展性,输出结果的可理解性,分类预测的 准确性等方面各有千秋,具有代表性的算法有i d 3 、c 4 5 、c h a r t 等。 决策树构造的输入是一组多元变量,输出的是基于树状结构的分类模型, 其中树的内部节点( 非叶子节点) 表示为一个划分的逻辑判断,叶子节点表示 最终的分类信息。决策树构造的基本算法采用贪心法,它使用某种度量,比如 信息增益( i n f o r i i l a t i o ng a i n ) 、增益率( g a i nr a t i o ) 、基尼值( g i n i ) 等作为 启发信息,自顶向下构造。决策树的详细构造可以参照文献 1 0 ,1 1 等。 2 3 2 决策树剪枝 决策树的剪枝是通过一些度量,减去不可靠的分支,以防止产生“过分拟合” 问题。剪枝可以分为先剪枝和后剪枝。先剪枝通过提前停止树的构造而对树剪枝, 一旦停止,节点就成为叶节点:后剪枝是对完全生长的树减去分支。在决策树剪 枝中,可以采用不同度量来评价分支的有效性来决定是否剪枝,比如在先剪枝中, 可以使用信息增益、z 2 统计等方法评价分支的有效性;在后剪枝中,有基于剪 枝样本r e d u c e de r r o rp r u n i n g ( r e p ) 、c o s t c o m p l e x i t yp r u n i n g ( c c p ) 【12 】等 方法。 在c 4 5 中,决策树采用e r r o r b a s e dp r u n i n g ( e b p ) 的后剪枝方法【1 1 l ,具体 表现为:建模样本集同时作为决策树剪枝的样本集,对叶节点的错误率( 决策树 分类采取多数表决,比例小的分类即认为是错误分类) 进行估计,如 p ( p ( f ) n ( f ) 敞r = c f ) ,其中e ( f ) 是叶节点预期的错误样本数,服从贝努利 ( b e r n o u l l i ) 分布,玎( f ) 是叶节点样本数,c f 是参数估计的置信度。这里u 。是单 边估计的上限临界点。由于在大样本( 一般 3 0 ) 情况下,贝努利分布近似于正 态分布,因此有概率等式: 第1 2 页 堕塞塑皇兰堕堡圭堂竺丝兰! 苎三墼塑丝塑竺皇笪窒昱堕叁坌堑一 烈赫肋) - c f - 1 2 其中f 是实际观测错误率,q 是估计的错误率,由( 2 1 2 ) 式求解q ,得到: 。:盍监:曼:壹亿 g2 。了广一 1 “ l + 二,_ 在c 4 5 中c f 默认为0 7 5 ,z = u 。= o 6 8 。e b p 分别计算父节点和子节点 的估计错误率,比较父节点的错误率和子节点的加权错误率之和,其中权值为 子节点样本数占父节点样本数的比例,如果父节点的错误率低于子节点的加权 错误率之和,则减掉子节点,使父节点成为叶节点。 需要指出的是,对于某种分类占总体比例很小( 称之为“薄靶”,以下同) 的一些样本,基于c 4 5 的剪枝模型往往会造成过度剪枝,而导致模型失效。参 照式( 2 1 3 ) ,如果f 在0 0 5 左右( 某个分类在样本中的比例,比如离网流失 客户的比例) ,n 大于5 0 ( 每个决策树叶节点的大小1 ) ,式( 2 1 3 ) 可以简化为: g = ,+ 斋+ z 厝 他 子节点的加权和可以简化为 a * 喜等c + 嘉+ z j 号, 三( 羔+ 导痂 :于竺亘:夏! 竺 ( 。1 5 ) 怎 n 其中m 是某分支叶节点数目,p ,是叶节点i 样本中观测的错误数目,在每 个叶节点中,如果某父节点下每个叶节点分类中流失客户都是比例小的分类 ( 口驰,参数的后验分布受先验影响很小,因此可以 直接通过统计样本中相关事例频数比例,如锨= 协坼,来作为其后验期望概 率的估计值。当样本存在缺损数据时,c p t 参数近似于多元高斯分布,参数估计 可以通过e m 、g i b b s 抽样等算法逼近1 5 1 。 2 贝叶斯网络结构学习 贝叶斯网络结构的学习,就是根据样本数据选择合适的网络拓扑结构的过 程,如果认为所有的网络结构都有存在的可能性,那么计算后验概率: p ( i d ) = p ( i d ,肘) p ( m i d ) ( 2 1 9 ) ,e m 完整的贝叶斯分析将所有的网络结构考虑在内,然而网络结构数量与变量数 目成指数级增长,因此完整的贝叶斯分析是不可行的。解决方法在于选择其中一 由于在本文先验概率表述并无歧义因此不在显式标出,比如用p ( ,) 来表示p ( 肘f 善) 第1 5 页 南京邮电学院硕士学位论文:基于数据挖掘的电信客户流失分析 个或一组较优的模型7 j ,模型优劣评价标准有多种,比如基于胁l 标准、贝叶斯 标准等。本文在实际应用中,使用贝叶斯标准作为模型选择的依据,采用具有最 大后验概率的网络作为实际使用的贝叶斯网络,即: m 2 警学窘( p ( md ) ) 2 2 0 率: p ( m id ) :丝掣( 2 2 1 )、 p ( 们 、 其中p ( m ) 是贝叶斯网络的先验概率,p ( d l m ) 是基于某网络结构的后验概 p ( d i m ) = n p ( o l d f ,肘) ( 2 2 2 ) ,= l o 是样本d 中的第,个事例,值得注意的是,它使用皿( c l ,o 一。) 而非d 预测o ,式( 2 2 2 ) 可以进一步转化为【1 5 】: 唰妒冉冉黝等半眨2 , n 是样本容量,、吼分别是节点i 和其父节点的状态空间数目,n 肚、m 。等 变量说明参照式( 2 1 7 ) 。式( 2 2 3 ) 称为贝叶斯网络结构的b d e 测度( b d em c 仃i c ) , 当假定蛳= l 对称为k 2 测度( k 2 m g 蛹c ) 。 搜索具有最大后验概率的网络结构是一个n p 问题【川,常用的算法包括k 2 、 m c m c ( 马尔可夫蒙特卡罗方法) 、模拟退火算法等。本文采用k 2 构造初始的网 络结构,采用m c m c 中的m c t r o p o l i s h a s t i n g 算法进行后验的模拟抽样,选择抽样 中具有最大后验概率的贝叶斯网络结构。k 2 算法是基于k 2 b d e 测度的启发式算 法,它需要建模人员指定变量的输入顺序,具体算法由伪代码表示如下1 1 6 l : 算法2 2k 2 算法 p r o c e d u r ek 2 f o r i := 1t ond o 庙= 多; p o 埘= g ( i ,船) ; o k r o p r o c e e d := t r t | e w h i l eo k l _ o p r o e da n di 乃i p o i d t h e n p o l d:= p n e w : ,z := 屑u z ) : e i s eo k r o p m c e e d := f a i s e e n d w h i i e ) e n d f o r e n d k 2 ) 说明:为了避免产生过于复杂的网络,k 2 设置了阀值u 作为父节点最大数目, g ( i ,用) 计算i 和父节点厢的局部后验概率( 比较公式2 2 3 ) : 鲥川= 冉意冉臀掣 眩z 4 , k 2 算法按照输入节点顺序构造的贝叶斯网络,在每个局部( i ,届) ( 在参数u 限 制下) 都具有最大的局部的后验概率,因此它保证在确定定变量输入顺序的条件 下,具有最大的k 2 b d e 测度( p ( dm ) ) 。k 2 算法的优点在于简洁,算法复杂度 低,在很多应用下都有较为准确的预测【1 7 1 。它的缺点在于需要建模人员事先指定 变量先后顺序,在缺乏领域知识的指导下,有时很难确定。 由于n p 问题至今不能在多项式复杂度的算法下实现,在大规模问题的晟优化 求解往往通过随机模拟,避免过早陷入某些局部最优点而停止搜索。因此我们进 一步通过m c m c ( m o n t ec a r l om a r k o vc h a i n s ) 中的m e t r o p 0 1 i s h a s t i n g 的后验 随机抽样来搜寻具有更优的后验分布的贝叶斯网络。 m e t r 。p o l i s h a s t i n g 是m c m c 中一类重要的算法,m a d i g a n 等最先将其应用于 贝叶斯的网络结构学习中来,其基本思想是19 】:从某贝叶斯网络的初始状态开 始,计算其向其它网络结构的转移概率: p ( 肘im ) = g ( m ,肘) 口( m ,m 。) ( 2 2 5 ) 州细叫,爰等等曷, 晓z a , 其中p ( m t i 肘) 是m 向m 的条件转移概率,口( m ,肘) 是网络结构在状态肘 第1 7 页 南京邮电学院硕士学位论文:基于数据挖掘的电信客户流失分析 下选择m - 的候选概率,口( m ,m ) 是确定肘1 为候选对象时,吖向m 1 的迁移概率 这样由p ( 膨t l m ) 组成的转移概率矩阵构成了有限状态、离散的马尔可夫链。由 马尔可夫链原理可知,当马尔可夫链为正常返、不可约、非周期的条件下,其n 步转移概率逐渐收敛于平稳分布,可以证明p ( 膨fd ) 就是平稳分布。 可以构造符合上述条件转移概率矩阵,以概率p ( m lm ) 进行抽样,为避免受 到初始状态的影响,一般剔除前n 个抽样样本,对剩余的样本进行频数统计,以 某网络结构的出现比例作为它的后验概率的估计值。 关于转移概率的构造,一种常用的方法通过定义网络邻居实现的。网络邻居 定义为:网络间仅存在一条弧的差异,增加、减少或方向不同( 保证构成无环图) , 当m 和m 邻居时,口( m ,m ) 大于零,否则g ( m ,埘) 为零,当假定贝叶斯网络 结构的先验概率相等,那么式( 2 2 6 ) 可以转换为: 州m 问,溉鬻岩器, 他z , 聊( m ) 是网络m 的邻居数量,叮( m ,m ) = 1 册,( m ) ,p ( d i 吖) p ( d 1 m ) 又 称为贝叶斯因子( b a y e s i 髓f a c t o r ) 。本文在客户流失预测实例建模过程中,将 采用这种抽样方法,以k 2 的作为初始解,这样可以保证m c 斟e 不至于产生比初 始解更恶化的解。 2 5 数据挖掘应用的方法论 完整的数据挖掘应用不仅包括数据挖掘建模过程,还包括数据挖掘模型的 商业评估,模型实施等。目前比较流行的数据挖掘方法论主要有以n c r 、s p s s 等提出的跨行业标准数据挖掘过程c r i s p d m (

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论