




已阅读5页,还剩60页未读, 继续免费阅读
(计算机软件与理论专业论文)数据挖掘在电信信息化系统中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
学位论文独创性声明 本人所呈交的学位论文是我在导师的指导下进行的研舡作及 取得的研宄成果据我所知,除文中已经注明引用的内容外,本论文 不包含其他个人已经发表或撰写过的研宄成果。对本文的研究做出重 要贡献的个人和集体,均已在文中作了明确说明并表示谢意 作者签名;罢建 日期。盈叠:丛兰7 学位论文授权使用声明 本人完全了解华东师范大学有关保留、使用学位论文的规定,学 校有权保留学位论文并向国家主管部门或其指定机构送交论文的电 子版和纸质版有权将学位论文用于非赢利目的的少量复制并允许论 文进入学校图书馆被查阅。有权将学位论文的内容编入有关数据库进 行检索有权将学位论文的标题和摘要汇编出版保密的学位论文在 解密后适用本规定 学位论文作者签名:吴淼 日期:2 竺圣:丛圣9 导师签名t 数据挖掘在电信信息化系统中的应用 摘要 随着近年来互联网技术的不断发展,以及各个企业对网络的依赖性逐渐增 大,为了获得更多的市场份额和利润,国内各大电信服务商都逐渐从第一阶段的 “资源竞争”转向到第二阶段的“业务竞争”。在这个转型过程中,首要面l 临的 就是销售服务方式的改变。国内的电信服务商要逐步抛弃原有的营销服务模式, 取而代之的就是被称为“差异化服务”的模式,也就是要针对不同的客户,采取 不同的营销服务,用有限的资金达到最大的效果。利用数据仓库和数据挖掘技术 在处理海量数据上的优势来帮助电信相关人员更有效地了解客户对新产品的需 求,辅助管理层进行决策。 本文重点研究了电信服务商如何在数据仓库的基础上利用数据挖掘技术实 现。差异化服务”。主要介绍了e t l ( 数据清洗、转换和装载) ,根据业务需求, 对原始业务数据进行清洗,转换,同时根据o l a p ( 联机分析处理) 的需要,把 o l t p ( 联机事务处理) 数据库中的海量数据装载到数据仓库中。接着根据客户 的需求,重点构建了4 个数据挖掘模型,电信客户采用新产品的预测模型、电信 客户细分模型、电信客户流失分析模型和产品销售趋势分析模型,并且采用贝叶 斯算法、聚类分析、决策树算法和时序算法来实现模型,得出最终挖掘预测结果。 通过这些研究,同时结合电信企业实际的情况,可以很好地解决客户分类的问题, 同时能对潜在的流失客户进行预先了解,及时地维护跟踪,达到很好的流失预警 作用。销售趋势分析对于销售部门来说也起到了很大的作用。电信企业销售经理 可以根据历史销售数据预测将来的销售额,便于销售经理以此作为参考,制定未 来的销售指标。通过对挖掘结果的分析。结合电信市场的实际情况,电信服务商 可以对客户有一个更加深入的了解,从而可以更加有效地开展市场活动,对潜在 的流失客户采取适当的关怀措施,从而减少流失率。 本文通过对这四个数据挖掘模型的研究,为电信服务商实现“差异化服务” 提供了有价值的数据保证,为最大程度了解和满足客户的需求起到了一定的作 用。 【关键词】数据仓库、数据挖掘、决策树、贝叶斯、聚类分析、时序算法 数据挖掘在电信信息化系统中的应用 a b s t r a c t w r ht h ed e v e l o p m e n to f t h en e t w o r kt e c h n o l o g ya n dr e l i a n c eo nn e t w o r ko f m a n y e n t e r p r i s e s , m u l t i p l et e l e c o m m u n i c a t i o n $ e r v i e e $ p r o v i d e r sa r ec h a n g i n gt h e ks e r v i c z - $ f r o mr e s o u r c ec o m p e t i t i o nt ob u s i n e s sc o m p e t i t i o ni no r d e rt og e tm o r ep r o f i ta n d 8 h a r eo fm a r k e t t h em o s ts i g n i f i c a n tt h i n gi nt h i sp r o g r e s si ss e r v i c em e t h o d s c h a n g i n g t h eo l ds e l l i n gm e t h o d sh a v et ob eg i v e nu pa n ds u b s t i t u t e db yn c w m e t h o d sc a l l e dd i s c r e p a n c ys e r v i c e sw h i c hm e a mt a l ( i d gd i f f e r e n ts e u i n gs e r v i c e so n d i f f e r e n tc u s t o m e r s t h et e c h n o l o g i e so f d a t aw a r e h o u s ea n dd a t am i n i n gm a y p l a y a ni m p o r t a n tr o l e i nt h e s ef i e 地w h i c hc a nh e l pt e l e c o m m u n i c a t i o ne m p l o y e e st o k n o wa b o u tt h ec u s t o m e r sr e q u i r e m e n t sq u i c k l ya n dr i g h t l ya n dh e t pl e a d e r st om a k e r i g h td e c i s i o n t or e a l i z ed i s c r e p a n c ys 日v i c e sb yu s i n gd a t am i n i n gt e c h n o l o g yb a s e do nd a t a w a r e h o u s ei sr e s e a r c h e di nt h ep a p e r e t lw h i c hi o a d st h ed a t e 丘o m0 l t pt od a t a w a r e h o u s ei si n t r o d u c e di nt h ep a p e r t h eb u s i n e s sd a mi st r a n s f o r m e da c c o r d i n gt o t h eb u s i n e s sr e q u i r e m e n t s w h i c h nb e1 0 a d e di n t od a t aw a r e h o u s e t h ef o l u d a t a m i n i n gm o d u l e sa r cb l l i l ta n di m p l e m e n t e db yu s i n gb a y e s 。d e c i s i o nt r e e ,c l u s t e r i n g a n dt i m es e z i e s ,f r o mw h i c ht h ep r e d i c t i o nr e s u l t sc o u l db eg o lw t ht h er e s e a r c ha n d t h el h c to ft e l e c o m m u n i c a t i o ne n t e r p r i s e , t h ep r o b l e mo fh o wt oc l a s s i f yc u 5 t o 嘲s 啪b er e s o l v e d t e l e c o m m u n i c a t i o ne n t e r p r i s e 锄f i n do u tt h ei n c o n s p i c u o u sl o s s f f u s t o l l l a bi na d v a n c e s a l et r e n dp r e d i c t i o np l a y s 锄i m p o r t a n tr o l ei nb e l p m gs a l e 衄m g 盯st om a k es a l ep l a nf o rt h en 翻rf u t u r e t e l e c o m m u n i c a t i o ns e r v i c e sp r o v i d e r s c a nd ot h em a r k e ta c t i v i t i e se f f e c t i v e l ya n dr e d u c u 醴o m e rl o s tr a t eb yt a k i n gm o r e c a r eo f p o t e n t i a le n s t o m e t sa c c o r d i n gt ot h ep r e d i c t i o nr e s u l t s t h er e s u l t sd r e wi nt h ep a p e rg i v et h ea s s u r a n c eo f r e a l i z i n gt h ed i v e r s i t ys e l v i c o $ a n dp l a ya ni m p o r t a n tr o l ei na c q u i r i n ga 岫毫0 加啪r e q u i r e m e n t s k e yw e n s d a t ew a r e h o u s e ,d a t am i n i n g ,d e c i s i o nt r e e ,b a y e s c h e e r i n g , t i m es e r i e s 一2 一 数据挖掘在电信信息化系统中的应用 1 1 引言 第1 章:绪论 电信行业是资金密集型加技术密集型的行业,具有建设规模和发展速度适度 超前的特点,但目前投资驱动和技术驱动的作用趋缓,发展重点转向创新业务、 优质服务和追求效益上。 在电信市场发展初期,网络资源是电信行业价值链中最重要的部分,运营商 通过“跑马圈地”可获得高额的利润。随着通信能力与社会需求之间的矛盾的缓 解,网络资源的价值也随之下降,运营商“增量不增收”的现象日益明显。 未来价值链中最有价值的部分集中到应用拓展与内容提供上技术的成熟, 己使得手机等终端完全有能力向用户提供比传递话音更多的应用,用户通过手机 等终端从运营商那里获得内容,并为之付费;运营商如果还紧抱着网络不放,它 就会成为一个纯粹的基础设施提供商,利润增长也会随着网络资源的增多而可能 不断地下降,它只有通过应用拓展,成长为内容的提供者或经销商,才能赚取更 多的利润。 随着国内电信市场竞争的日趋激烈,电信运营商的经营模式逐渐从。技术驱 动”向“市场驱动”、“客户驱动”转化。这就要求运营商要采取以客户为中心的 策略,根据客户的实际需求提供多样化、层次化、个性化的服务解决方案。因此, 对相关的,分散的业务数据进行集成和分析成了电信运营商增加收入和利润,提 高工作效率,提高客户满意度、忠诚度的有效手段。同时也是从根本上强化企业 精确化管理程度,提供客户差异化管理的技术手段 随着世界经济的全球化、市场的国际化和我国加入了w t o l ”】,国际化的市 场环境要求国内的公众电信运营企业在经营管理上向国外先进的电信运营企业 看齐以迎接电信运营业的国际化竞争。同时随着国家改革的深化,国内电信业 的市场环境已渐趋合理且竞争将日益加剧。国内、国际电信业的如此态势,对公 众电信运营企业的服务内容、服务方式、服务质量、经营管理以及服务意识,已 提出了严峻的挑战。企业的经营模式和服务体系正以客户的价值取向和消费心理 为导向,真正体现。创造需求”、“引导消费”的现代客户服务意识与理念 在电信企业面向市场,面向国内外众多的竞争者,努力创造更高价值的同时, 一6 一 数据挖掘在电信信息化系统中的应用 近几年来,随着电信核心运营系统开发等基础工程的稳步实施,电信行业积累了 大量的客户和业务数据。那么如何从“海量”的信息中发现有价值的信息或知识 便成为了电信公司的一项重要的任务。数据挖掘技术便是解决这项任务的利剑。 利用数据挖掘技术,帮助电信公司进一步了解客户、分析客户和对客户进行分类。 从而达到对应不同的客户采取不同的销售策略,留住老客户,争取新客户,达到 利润最大化。简单地讲,电信领域数据挖掘项目的业务问题就是,通过对电信公 司大量的客户,业务数据的挖掘,发现顾客的行为,提供有针对性的服务,这样 不仅提高客户服务水平以增加顾客忠诚,更重要地是,去寻找那些企业利润贡献 度高的业务的使用者,并挖掘其规律以增加这一类业务的销售,从而提升企业获 利能力 1 2 研究背景 1 2 1 国内外电信企业对数据挖掘技术的应用 数据挖掘技术在一些领域内已有成功的应用。但数据挖掘技术在电信领域中 成熟的应用尚不多见。由于电信业本身相对于其它领域历史数据比较规范,而且 海量数据,以客户为中心,这些对数据挖掘需求来说都是很有必要的。2 0 0 1 年 初,杭州电信“”选择了c a 公司的数据仓库解决方案,包括c aa d v a n t a g ed a t a t r a n s f o r m e r 和c l e v e r p a t ho l a p 。a d v a n t a g ed a t at r a r t s f o r m e r 具有强大的跨 系统收集数据的能力,可以帮助杭州电信创建数据仓库自动收集来自操作系统、 网络管理系统和客户服务系统等不同业务系统的数据,并将其存储在数据仓库 内。c l e v e r p a t ho l a p 提供多种0 l a p ( 联机分析处理) 数据分析功能,包括多维 数据分析、比较分析、百分比分析等,分析结果可以转换成e x c e l 形式的电子数 据表格或真实图表的形式。终端用户还可直接从o l a p 服务器端或w e b 客户机进 行互动的数据分析数据仓库建成以后,杭州电信就可以根据决策支持的要求 开展主题分析。目前,杭州电信开展了九大主题的分析:营业受理及竣工情况分 析、长话详单分析、小灵通详单分析、用户话费分析、大客户情况综合分析、 用户欠费情况分析、2 0 1 业务分析、程控功能分析、行业分布分析。数据挖掘 在国外电信行业中有很多成功的案例,下面这些公司使用数据挖掘技术解决了一 些商业问题:b r i t i s ht e l e c o m m u n i c a t i o n s ( 英国电信公司) 利用数据挖掘技 教据挖掘在电信信息化系统中的应用 术向销售人员和营销活动提供了“最佳客户”清单,直邮活动回应率提高了1 0 0 。 t e l e e o mi t a l i a - l o b i l e ( 意大利移动) “”利用数据挖掘技术建立客户忠诚度评 估体系,降低了客户的流失,加强了客户交叉销售的机会。 数据挖掘在国内电信行业的发展是随着电信行业竞争的加剧,国内电信运营 商们都认识到了数据挖掘的重要性,中国移动集团正在规划数据挖掘的行业应用 课题研究。但是由于电信行业的客户数据更为庞大和复杂,所以在这方面的数据 挖掘技术还处于探索,尝试阶段。 1 2 2 我国电信行业数据的现状 随着我国网络基础设施的不断完善,越来越多的个人用户加入了使用网络的 行列。同时,随着我国改革开放的深入,越来越多的外资公司在我国发展业务, 投资设厂,这就促使了电信业务量的急剧扩大。在经历了一段时间的发展后,目 前,我国电信行业数据的普遍现状就是,数据量( 包括客户数据、业务数据和运 营数据等) 巨大,但是因为缺少对数据库中大量数据挖掘的手段和合适的工具, 所以这些巨大的数据便成了“数据孤岛”,拥有丰富的数据,却不能充分利用这 些数据。因为无法从海量数据中发现出有价值的信息,所以电信行业中的决策层 常常面对大量的年度数据报表而犹豫不决,不知道该如何正确决策。现在的很多 电信系统就是基于o l t p ,只提供一些较低层次的功能,如数据录入、查询等, 但却无法在海量的电信数据中发现潜在的规律,更难以根据现有的数据进行预测 分析了。随着国内电信市场竞争的日趋激烈电信运营商的经营模式逐渐从“技 术驱动”向“市场驱动”,“客户驱动”转化。这就要求运营商要采取以客户为中 心的策略,根据客户的实际需求提供多样化、层次化、个性化的服务解决方案 所以现在很多电信运营商也充分认识到了这一点,数据挖掘工具也被逐渐引入到 电信信息化系统中了 目前,一些电信公司。已在客户关系管理( c 聊) 、网管系统、o s s 等系统中 运用了数据挖掘技术;一些电信公司为避免系统的重复建设,已经从更高的层次 开始规划、实施统一的综合业务经营分析平台,试图将各种数据挖掘的分析活动 统一在该平台下完成具体地,国内电信企业尝试的数据挖掘的应用主要涉 及以下几个方面“; 数据挖掘在电信信息化系统中的应用 ( 1 ) 业务预测 通过对历史数据的分析,找出影响业务发展的因素,然后对这些因素的未 来发展做出预计,从而大致的确定未来业务量,作为制定发展计划的重要依据。 例如,为了确定未来的市场规模,需要对电信客户的增长做出预测,对各种业务 的增长做出预测;为了改善网络的运营质量,需要根据历史信息,对未来可能发 生故障的设备做出预测等等。 ( 2 ) 大客户特征的识别 大客户群体是电信企业利润的主要来源,也是电信企业之间相互争夺的焦 点。识别出大客户,制定针对性的措施,提高大客户的忠诚度,是电信企业保持 竞争优势的关键所在。不仅能够根据现有消费量的多少来判断用户是否为大客 户,还应根据现有大客户的资料,提取出大客户的特征,并发现潜在的大客户。 ( 3 ) 客户群体的细分 客户群体的细分是一对一营销的基础,可以采用分类或者聚类的方式对客 户进行划分。其中分类方法是指事先人为根据客户属性确定分类标准,再对用户 进行分类。聚类分析方法是指系统根据客户属性,使群内客户具有最大的相同性、 群间客户具有最大的相异性,自动产生聚类标准,再按此标准对用户进行分类, 可以在客户群体细分的基础上进行进一步的细分,直到所需要的粒度,并由此对 客户群进行各种分析。 ( 4 ) 客户流失的预测和控制 争取一个新客户的代价比留住一个老客户的代价要大得多。由于关系到市 场份额以及营业利润,客户流失预测是电信运营商最为关心的重点之一导致客 户流失的原因有很多种,根据流失原因的不同,可将流失分为主动流失( 客户由 于对服务质量不满或其它原因主动选择的流失) 和被动流失( 由于欠费或信用方 面的原因,客户被动接受的流失) 客户流失预测的分析对象是已经流失和未流 失的客户,从他们的自然属性和行为属性以及其它属性中找出流失客户的特征, 然后预测客户未来一段时间的流失概率。 ( 5 ) 网络资源的管理 通信网在运行过程中产生大量的运行数据。对这些数据进行数据挖掘,有 利于尽早发现潜在的网络故障,提高网络的利用率。 数据挖掘在电信信息化系统中的应用 1 3 本文结构 本文主要对电信行业中数据挖掘技术进行了研究在电信的o l t p 数据库的 基础上构建客户数据仓库,然后根据特定的需求建立数据挖掘模型,对数据进行 训练,最终投入实际应用中本文主要研究内容是以电信运营商的需求为背景,论 述数据仓库和数据挖掘技术在电信信息化业务中的应用介绍了电信数据仓库的 构建方法,电信客户采用新产品的预测模型,电信客户细分模型和电信客户流失 分析模型的构造方法 本文主要包括以下几个部分: 第1 章绪论:简要阐述了电信数据挖掘背景和国内外电信数据挖掘现状。 第2 章数据挖掘技术概述:简要阐述了当今数据挖掘的主流技术和算法。 第3 章电信行业系统数据特点:主要介绍了电信运营商的3 类主要业务: i s p 业务,i d c 业务和i p 业务,并对现阶段的电信数据中存在的问题进行了分析。 第4 章电信系统数据仓库设计:主要介绍了数据仓库的基本知识,根据业 务需求,使用星型模式来设计电信数据仓库。 第5 章数据清理和转换:主要介绍了e t l 的各项功能,以及e t l 在电信中 的应用。根据o l a p 分析和数据挖掘的需要,把原始数据经过经理和转换后,装 载到目标数据仓库 第6 章电信客户数据挖掘模型:主要构建了4 个数据挖掘模型,帮助客户 更好地决策。 第7 章数据挖掘模型的实现:根据第6 章所构建的数据挖掘模型,使用s q l s e r v e r2 0 0 5 来实现数据挖掘模型。 第8 章总结与展望:总结全文,高度概括本文的特点,并针对现在的不足, 提出改进方案 数据挖掘在电信信息化系统中的应用 第2 章:数据挖掘技术概述 2 1 数据挖掘历史发展和提出背景 数据挖掘的发展历史是建立在相关学科发展的基础上的。随着数据库技术的 发展及数应用,人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信 息,简单的查询和统计已经无法满足商业的需求,需要出现一种挖掘数据背后隐 藏的知识的手段。同时,计算机技术的另一领域一人工智能( a i :a r t i f i c i a l i n t e l l i g e n c e ) 自1 9 5 6 年诞生之后取得了重大进展。经历了博弈时期、自然语 言理解、知识工程等阶段,目前的热点是机器学习。用数据库管理系统来存储数 据,用机器学习的方法来分析数据,挖掘大量数据背后的知识,这两者的结合促 成了数据库中的知识发现( k d d :k n o w l e d g ed i s c o v e r yi nd a t a b a s e s ) 的产生 数据挖掘( 蹦:d a t aj i n i n g ) 是知识发现( k d d ) 最核心的部分。1 9 9 8 年第四 届知识发现与数据挖掘国际学术会议上不仅进行了学术讨论,并且有3 0 多家软 件公司展示了他们的数据挖掘软件产品,不少软件己在北美、欧洲等国得到应用。 经历十多年的发展,数据挖掘已经成为一个自成体系的应用学科。 数据挖掘应用的主要对象是海量数据,从基础的数据条件来看,电信、金融 机构和政府税务部门都己具备。所以数据挖掘技术兴起不久,立刻就在在这些领 域里得到了广泛的应用。 2 2 数据挖掘的定义 2 2 1 技术上的定义及含义 数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别 有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程是知识 发现的过程。是通过仔细分析大量数据来揭示有意义的新的关系、模式和趋势的 过程。它是- - f l 涉及面很广的交叉学科,包括机器学习、数理统计、神经网络、 数据库、模式识别、粗糙集、模糊数学等相关技术 何为知识? 从广义上理解,数据、信息也是知识的表现形式,但是人们更把 数据挖掘在电信信息化系统中的应用 概念、规则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉, 好像从矿石中采矿或淘金一样。原始数据可以是结构化的,如关系数据库中的数 据:也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异 构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的, 也可以是归纳的。发现的知识可以被用于信息管理,查询优化,决策支持和过程 控制等,还可以用于数据自身的维护。因此,数据挖掘是- - f l 交叉学科,它把人 们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持 在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技 术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数 据挖掘这一新兴的研究领域,形成新的技术热点。 这里所说的知识发现,不是要求发现放之四海而皆准的真理,也不是要去发 现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。实际上,所有 发现的知识都是相对的,是有特定前提和约束条件,面向特定领域的,同时还要 能够易于被用户理解。最好能用自然语言表达所发现的结果。 2 2 2 商业角度的定义 数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的 大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策 的关键性数据。 简而言之,数据挖掘其实是一类深层次的数据分析方法。数据分析本身已 经有很多年的历史,只不过在过去数据收集和分析的目的是用于科学研究,另外, 由于当时计算能力的限制,对大数据量进行分析的复杂数据分析方法受到很大限 制。现在,由于各行业业务自动化的实现,商业领域产生了大量的业务数据,这 些数据不再是为了分析的目的而收集的,而是由于纯机会的( 0 p p o r t u n i s t i c ) 商业运作而产生。分析这些数据也不再是单纯为了研究的需要,更主要是为商业 决策提供真正有价值的信息,进而获得利润。但所有企业面临的一个共同问题是: 企业数据量非常大,而其中真正有价值的信息却很少,因此从大量的数据中经过 深层分析,获得有利于商业运作、提高竞争力的信息就像从矿石中淘金一样, 数据挖掘也因此而得名。 因此,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进 1 2 一 数据挖掘在电信信息化系统中的应用 行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化 的先进有效的方法。 2 3 数据挖掘的分类 根据数据挖掘的应用类型不同,大致可分为以下几类: 1 分类模型 分类( c 1 a s s i f i c a t i o n ) 模型的主要功能是根据商业数据的属性将数据分派 到不同的组中。在实际应用过程中分类模型可以分析分组中数据的各种属性, 并找出数据的属性模型,确定哪些数据模型属于哪些组。这样就可以利用该模型 来分析已有数据,并预测新数据将属于哪一个组。分类模型应用的实例很多,例 如,将银行网点分为好、一般和较差3 种类型,并以此分析这3 种类型银行网点 的各种属性,特别是位置、盈利情况等属性,找出决定它们分类的关键属性及相 互问关系,此后就可以根据这些关键属性对每一个预期的银行网点进行分析,以 便决定预期银行网点属于哪一种类型。 2 关联模型 关联( a s s o c i a t i o n ) 模型主要是描述了一组数据项目的密切度或关系。关系 或规则总是用一些最小置信度级别来描述的。置信度级别度量了关联规则的强 度。关联模型的一个典型例子是市场菜篮分析( m a r k e t i n g b a s k e t a n a l y s i s ) ,通 过挖掘数据派生关联规则,利用此规则可以了解客户的行为。采用关联模型比较 典型的案例是尿布与啤酒。的故事。在美国,一些年轻的父亲下班后经常要到超 市去买婴儿尿布,超市也因此发现了一个规律,在购买婴儿尿布的年轻父亲们中, 有3 0 4 0 的人同时要买一些啤酒。超市随后调整了货架的摆放,把尿布和啤 酒放在一起,明显增加了销售额。同样的,还可以根据关联规则在商品销售方面 做各种促销活动 3 顺序模型 顺序( s e q u e n c e ) 模型主要用于分析数据仓库中的某类同时间相关的数据,并 发现某一时间段内数据的相关处理模型。顺序模型实例也比较多例如,客户现 一1 3 一 数据挖掘在电信信息化系统中的应用 在定购一台激光打印机,以后还可能定购打印纸,可能在初始购买时有大量定货, 在售后服务请求时定货量较小,在服务请求完成后可能又有大量的定货。因此, 就可以针对上述情况指定相应的促销或营销方法。顺序模型可以看成是一种特定 的关联模型,它在关联模型中增加了时间属性。 4 聚簇模型 当要分析的数据缺乏描述信息,或者是无法组织成任何分类模式时,可以采 用聚簇( c l u s t e r i n g ) 模型。聚簇模型是按照某种相近程度度量方法将用户数据分 成互不相同的一些分组。聚簇即是一系列相近数据组成的分组的集合。每一个分 组中的数据相近,不同分组之间的数据相差较大。聚簇模型是一个很强大的技术, 其核心就是将某些明显的相近程度测量方法转换成定量测试方法。采用聚簇模 型,系统可以根据部分数据发现规律,找出对全体数据的描述。例如,可以采用 聚簇模型对客户现金流进行分析。当用户收到社会保险支票,或月工资存入账户 时,他们会很快交付本月的账务。在这个例子中,收到社会保险支票和月工资存 入账户可以看作是月支付账务的聚簇模型中的相近数据。 2 4 数据挖掘的主要方法 在本节中,将介绍一些常用的数据挖掘算法,在本文的后面章节中,将描述 如何基于这些算法来构建数据挖掘模型。 2 4 1 贝叶斯分类算法 贝叶斯分类是统计学分类方法它们可以预测类成员关系的可能性,如给定 样本属于一个特定类的概率m 贝叶斯分类是非规则分类,是通过对训练集学习而归纳出分类器,利用分类 器对没有分类的数据进行分类贝叶斯分类并不把一个对象绝对地指派给某一类。 而是通过计算得出属于某一类的概率,具有最大概率的类便是该对象所属的类。 一般情况下,在贝叶斯分类中所有的属性都潜在地起作用,即并不是一个或几个 属性决定分类,而是所有属性都参与分类。贝叶斯分类对象的属性可以是离散的、 连续的,也可以是混合的,因此它是最优秀的分类器之一。其中主要包括朴素贝叶 数据挖掘在电信信息化系统中的应用 斯分类器、t a n 分类器和贝叶斯网络分类器等。 贝叶斯分类基于贝叶斯定理,通过分类算法的比较发现,朴素贝叶斯分类的 简单贝叶斯分类算法可以和决策树。神经网络分类算法相媲美。当用于大型数据 库时,贝叶斯分类也已经表现出高准确率与高速度。 朴素贝叶斯分类假定一个属性值对给定得类得影响独立于其它属性的值 这一假定称作类条件独立。做此假定是为了简化所需的计算,并在此意义下称 为”朴素的”。贝叶斯信念网络是图形模型不像贝叶斯朴素分类,它能表示属 性子集间的依赖。贝叶斯信念网络也可以用于分类。 2 4 2m i c r o s o f t 决策树算法 决策树是一个类似于流程图的树结构,其中每个内部节点表示在一个属性 上的测试,每个分支代表一个测试输出而每个树叶节点代表类或类分布。树的最 顶层节点是根节点。 决策树技术是用于分类和预测的主要技术,决策树学习是以实例为基础的 归纳学习算法。它着眼于从一组无次序、无规则的事例中推理除决策树表示形式 的分类规则。它采用自顶向下的递归方式,在决策树的内部节点进行属性值的比 较并根据不同属性判断从该节点向下的分支,然后进行剪枝,最后在决策树的叶 节点得到结论。所以从根到叶节点就对应着一条合取规则整棵树就对应着一组 析取表达式规则。基于决策树的分类有很多实现算法。i d 3 和c a 5 是较早提出 并普遍使用的决策树算法。下图就是一颗典型的决策树: 一1 5 一 数据挖掘在电信信息化系统中的应用 图2 - i 典型的决策树 q u i n l a n 提出的著名的i d 3 学习算法是较早的经典算法。它通过选择窗口 来形成决策树,是利用信息论中的互信息寻找训练集具有最大信息量的属性字 段,建立决策树的一个节点,再根据该属性字段的不同取值建立树的分支;在每 个分支子集中重复建立树的下层节点和分支过程。c 4 5 算法和i d 3 算法相似, 它是对i d 3 算法的一种改进,它是根据信息增益( i n f o r m a t i o ng a i n ) 值选择作 为分裂结点的属性及标准,按照此标准将训练集分成若干个子集。这两中种方法 的优点是描述简单,分类速度快,分类较准确特别适合大规模的数据处理。但这 两种算法是借用信息论中的互信息或信息增益作为单一属性能力的度量,试图减 少树的平均深度,忽略了叶子数目的研究,其启发式函数并不是最优的,存在的 主要问题还有:( 1 ) 抗噪性差,训练例子中正例和反例较难控制。( 2 ) 在构造树 的过程中需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。( 3 ) 这两种算法只适合于能够驻留于内存的数据集使用,当训练集大得无法在内存容 纳时程序无法运行 s l i q 算法对c a 5 决策树分类算法的实现方法进行了改进。一般决策树中, 使用信息量作为评价节点分裂质量的参数,s l i q 算法中使用g i n i 指标代替信息 量,g i n i 指标比信息量性能更好且计算方便,对数据集包含n 个类的数据集s , g i n i ( s ) 定义为: g i n i ( s ) = 1 一p j , p j p j 是s 中第j 类数据的频率g i n i 越小i n f o r m a t i o ng a i n 越大。区别于 一般的决策树s l i q 采用二分查找树结构对每个节点都需要先计算最佳分裂方 案,然后执行分裂 对于数值型连续字段分裂的形式a 月一 年 客户粒度线:铜牌客户一 银牌客户一 金牌客户一 专线客户 4 2 2 电信数据仓库建模 数据仓库建模的两个重要特点是面向主题和集成性。面向主题与传统数据 库面向应用相对应。主题是一个在较高层次将数据归类的标准,是用户使用数据 仓库进行决策分析时所关心的重点方面。每一个主题对应一个分析领域,通常与 多个操作型信息系统相关。集成性是指在来源复杂的数据进入数据仓库之前,必 须经过数据加工和集成,消除源数据中的不一致性,以保证数据仓库内的信息是 关于整个电信行业的一致的全局信息。在本项目中,选取客户分析主题,对客户 的各种信息进行分析和挖掘。 数据仓库的建模分为物理建模和逻辑建模。物理建模侧重于对物理存储介 质的访问存取性能优化。逻辑建模针对于具体应用 逻辑建模是数据仓库实施中的重要一环,因为它能直接反映出业务部门的 需求,同时对系统的物理实施有着重要的指导作用。目前较常用的数据仓库建模 方法是星型模式( s t a r - s c h e m a ) 。 星型模式是一种多维的数据关系,它由一个事实表( f a c t t a b l e ) 和一组维 表( d i m e n s i o n t a b l e ) 组成。每个维表都有一个维作为主键,所有这些维组合成 事实表的主键,换言之,事实表主键的每个元素都是维表的外键。事实表的非主 属性称为事实( f a c t ) ,它们一般都是数值或其他可以进行计算的数据,而维大 数据挖掘在电信信息化系统中的应用 都是时间、地域等类型的数据。 由于电信行业数据量非常大( 达到t b 级) ,在进行数据仓库设计时,多 表连接、表的累计、数据排序、大量数据的扫描等操作是面l 临的主要问题。要解 决这些问题,在设计模型时,就需要采取如对表进行预连接( p r e - j o i n ) 、在模型 中增加有关小计数据( s u m m a r m x l d a t a ) 的项、对数据事先排序、通过使用大量 的索引来等措施。 基于系统的响应速度、系统的复杂度、系统的维护工作量等方面考虑,在 实施某电信行业数据仓库系统的建设时,采用星型模式。星型模式之所以速度快, 在于针对各个维作了大量的预处理,如按照维进行预先的统计、分类、排序等。 电信客户主题数据仓库如图4 4 : 厂客户摹赛襄、 客户编号; g 产吕编号; 时问主键 畲同爱轴 厂产品维表 飞 l 产品名缛 产吕袭剐 百潮;衰、 月攉价 置 厂客户倡患雏采、。 月i 窨户编号 日 4 富户樊剐 j 害户嫂攥 k多 客户等级 所震区域 产品销售主题数据仓库如图4 5 : 圈4 - 4 客户主题星型模型 一3 l 一 数据挖掘在电信信息化系统中的应用 图4 5 产品销售主题的星型模型 一旦建立了数据仓库星型模型,就可以在此基础上创建数据立方体。可以对数据 立方体进行钻取操作。决策者可以根据需要从数据立方体中生成所需的数据透视 表和数据透视图。 图4 _ 6 产品销售数据的3 - d 透视表 3 2 数据挖掘在电信信息化系统中的应用 图4 - 7 产品销售数据的3 - d 透视图 一3 3 数据挖掘在电信信息化系统中的应用 第5 章:数据清理和转换 5 1 数据清理和转换概念 数据清理和转换口l 在数据挖掘项目中是资源密集程度最高的一步。数据清理 的目的是除去数据集中的“噪声”和不相关的信息。数据转换的目的则是将源数 据的数据类型与值转换为统一的格式。目前有很多的技术能应用于数据清理和转 换,包括: 致据类型转换t 这是最简单的数据转换。例如将一个整型的列类型转换成布 尔型的列类型。这种转换的原因是:有些数据挖掘算法更适合于整型数据。 而另一些算法更加适合于布尔类型数据。 连续列转换t 对一些值连续的数据( 例如年龄,企业人数中的数据) ,一个 典型的转换就是把这些数据划分成桶。例如,把企业人数划分成预定义的几 个规模段。除了划分技术之外,规范化也是非常流行的连续数据转换技术 规范化通常把数值映射到0 和l ( 或者1 到l 之间) 之间的一个数值,确保 在分析的时候大的数值不会比小的数值占优势。 分组l 有时候可能有许多不同的值( 状态) 出现在离散列中为减少模型的 复杂性必须把这些值分组。例如,p r o f e s s i o n 列可能有数十种不同的值,比 如s o f t w a r ee n g i n e e r ,t e s te n g i n e e r 、p r o g r a mm a n a g e r 等。可以通过一个值 ( e n g i n e e r ) 来对各种项目师的职业进行分组。同时,分组使得模型更加容 易解释。 聚集l 聚集是另外一种重要的转换假定有每个客户的详细合同业务表,希 望基于每个客户的合同业务金额和月租对客户进行细分。因为详细合同业务 对于模型来说过于详细。所以需要把所有的合同业务聚集为一个派生的属 性,如:客户等级。这些派生的属性就可以在模型中使用。 缺失值处理。大多数数据集都包含缺失值有许多原因可能引起缺失数据。 例如。可能有两个客户表,这两个客户表都来自两个不同的o l t p 数据库。 因为表结构不可能完全一样,所以合并这两个表将会导致缺失值。另一个例 子是,可能客户在填写客户信息时,遗漏了某些信息,同样,这也会产生缺 失值。目前有一些方法可以用来处理这种问题。例如,可以用一个最常见的 一3 4 数据挖掘在电信信息化系统中的应用 值( 常量) 来代替这个空值。当某一条记录含有太多缺失值的时候,可以采 用一种较简单的方法:直接删除该记录。对于要求更高的事例,可以利用已 有的完整事例构建一个挖掘模型,然后使用这个模型为每个缺失值预测最有 可能的值。 删除孤立点,孤立点是数据集中的异常事例异常事例会影响模型的质量。 例如,要对电信客户进行流失分析,就要基于客户的故障申告的情况来构建 一个电信客户流失模型。但是有少数的故障申告数据并不是客户真正遇到网 络故障而产生的故障数据,而是少数客户通过8 0 0 申告电话来咨询某些问题 或者是客户自己使用问题,而非网络故障问题,通常由值班工程师直接结束。 如果在这个客户流失模型中包括这些数据的话,那么将会创建这样一个模 型:在这个模型中大部分客户在同一个分组中,还有非常少的一些分组包括 这些孤立点。处理这些异常数据最好的方法就是在分析之前直接删除它们 可以基于某一个属性来删除孤立点,例如,删除那些由值班工程师直接结束 的故障申告数据。 5 2s q ls e r v e ri n t e g r a t i o ns e r v i c e s ( s s i s ) 简介 s s i s 首先是在1 9 9 7 年的s q ls e r v e 7 0 中引入的,当时它的名称为数据转 换服务( d t s ) s s i s 属于e t l 产品家族,e t l 代表( e x t r a c t i o n ) 、转换 ( t r a n s f o r m a t i o n ) 和加载( l o a d i n g ) 。 现在,越来越多的企业都拥有了数据仓库e t l 是将来自o l t p 数据库的数 据定期加载到数据仓库中必不可少的工具。在s q l s e r v e r 的前两个版本中,s s i s 主要集中于提取和加载。通过使用s s i s ,可以从任何数据源中提取数据以及将 数据加载到
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 形式逻辑试题及答案
- 心电图训练试题及答案
- 道路抢险面试题及答案
- 家电公司人力资源规划办法
- 家电公司供应商评估规章
- 2020-2025年公共营养师之三级营养师自我提分评估(附答案)
- 2020-2025年安全员之A证(企业负责人)模拟题库及答案下载
- 2.1 圆(教学课件)数学苏科版九年级上册
- 保安法律知识培训心得
- 多层电梯维保方案(3篇)
- GB/T 3618-2006铝及铝合金花纹板
- GB/T 26255-2022燃气用聚乙烯(PE)管道系统的钢塑转换管件
- GB 31645-2018食品安全国家标准胶原蛋白肽
- 某工业区供水管道工程施工组织设计
- 防山体滑坡应急预案
- 江苏省社会组织网上办事系统-操作手册
- DB37-T 3079-2017特种设备事故隐患排查治理体系细则
- 2023版江西省乡镇卫生院街道社区卫生服务中心地址医疗机构名单(1744家)
- 模具保养记录表
- 各种隔离标识
- 钢质防火门窗项目商业计划书范文参考
评论
0/150
提交评论