已阅读5页,还剩49页未读, 继续免费阅读
(计算机科学与技术专业论文)移动梦网业务质量分析方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
y7 3 二2 2 7 # 厶j j 够h 业务顷路j ,听方澎、肼究 摘要 在通信市场 i 新月异的今天,移动通信公司作为短信平台提供商,为了增加 市场竞争力,结合其营业系统向各应用内容提供商( 简称s p ) 有尝提供通信通 道以向用户提供各类短信应用服务。 而数据挖掘技术作为目前最强大的数据分析手段之一,能利用已知的数据通 过建立数学模型找出隐含的业务规则,在很多的行业已经具有成功的应用。在电 信行业的应用领域主要有客户关系管理,客户欺诈分析,客户流失分析,客户消 费模式分析,市场推广分析等。 本课题采用移动通信企业内部庞大的用户信息、梦网用户历史话费记录、投 诉记录、短信发送接收成功率等技术指标及网站运营商的市场细分业务模型为数 据来源,经过数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、 用户展示等过程设计、创建了一个实用数据仓库,并从中挖掘出描述短信息收发 失败原因的客观规则,为消除制约移动梦网业务健康发展的不利因素提供了有价 值的参考信息。 本课题首次把数据挖掘、数据仓库技术运用于当前十分火爆的移动梦网业务 中,通过创建利于归纳短信发送失败规律的分析模型,找出了对移动梦网业务质 量分析的行之有效的方法! 她有助于解决目前存存的各合作方信息不畅、重复投 资导致资源浪费、用户投诉等问题,更好地实现业务导向、提供更优质的内容服 务,以实现通信运营商、信息提供商、用户三方互利共赢的局面。 关键词:移动通信业务质量分析梦网网天数据仓库数据挖掘决策树关联 分析模犁 移功梦h 、务质量分析方“l i j d a b s t r a c t t o d a y m a r k e ti nt e l e c o m si n d u s t r yi sm u c hm a t u r i n g t oe n h a n c et h em a r k e t r i v a lc a p a b i l i t y ,t h ec o m p a n yo fc h i n am o b i l ep r o v i d e sa l lk i n d so fs h o r t m e s s a g e s s e r v i c et om o b i l es u b s c r i b e r st h r o u 曲t h ec o o p e r a t i o nw i t hi n t e m e ti n f o l i n a t i o n s e r v i c ep r o v i d e r t h e ym a k eu s eo ft h ec o m r n u n i c a t ee h a n n e ls u c c e s s f u l l yt oa t t a i n m o r ep r o f i t a b l et ot h ec o m p a n y , d a t am i n e ri sa i m p o r t a n tm e t h o do fd a t aa n a l y s i sa tt h ep r e s e n tt i m e i tc a n e s t a b l i s ha r i t hm o d e lt of i n dc o n n o t m i v eo p e r a t i o nr e g u l a t i o nt h r o u g hk n o w nd a t a i t s a p p l i e ds u c c e s s f u l l yi n t e l e c o m s i n d u s t r y ,e x a m p l e f u rc u s t o m e r r e l a t i o n s h i p m a n a g e m e n t ( c r m ) ,c u s t o m e rc h e a ta n a l y s i s ,c u s t o m e rr e d u c ea n a l y s i s ,c u s t o m e r c o n s u m p t i o nm o d e la n a l y s i s ,m a r k e te x t e n da n a l y s i s , t h et h e s i s sd a t ai so r i g i nf r o mm o b i l ec o m m u n i c a t i o ne n t e r p r i s e ss u b s c r i b e r s i n f o r m a t i o n ,m o n t e m e ts u b s c r i b e r s sh i s t o r yf e er e c o r d s ,c h a r g er e c o r d s ,s u c c e e dr a t e o fs h o r t m e s s a g e ss e n d i n g ,a n ds p sm a r k e ts u b d i v i s i o nm o d e l t h r o u g hc l e a n i n gu p d a t a ,d a t ai n t e g r a t i o n ,p i c k i n gd a t a ,d a t at r a n s f o m ,d a t am i n i n g ,p a t t e r ne v a l u a t i o n ,u s e r r e v e l a t i o n ,w ec a nb u i l dau t i l i t yd a t aw a r e h o u s e t h e nm i n et h ei m p e r s o n a lr e g u l a t i o n o fd e s c r i b i n gt h ec a u s eo fs h o r t m e s s a g e ss e n d i n gf a i l u r e ,i tc a no f f e rv a l u a b l e i n f o r m a t i o nt og e tr i do f t h ed i s a d v a n t a g ef a c t o ro f m o n t e r n e tb u s i n e s s t h ea i mo ft h et h e s i si st h a tb yu s i n gd a t am i n i n ga n dd a t aw a r e h o u s e ,w ec a n g e tt h ed a t am i n i n gm o d e lb a s e do no u rh i s t o r i c a ls u b s c r i b e r sd a t aw h i c hc a ng e n e r a t e t h es u b s c r i b e r sl i s tw i t hh i 对l p r o b a b i l i t yt o r e c e i v ei n t e r n e ts h o r tm e s s a g e u n s u c c e s s f u l l y t h e t h e s i sc a nr e s o l v em a n ym o n t e r n e tp r o b l e m s ,e x a m p l ef o r i n f u r m a t i o no b s t r u c t i o n ,r e s o u r c ew a s t i n g ,s u b s c r i b e r s c h a r g i n g e v e n t u a l l yi t w i l l g i v ew et h ev a l u a b l eb u s i n e s si n s i g h t st os e t u pe f f e c t i v es e r v i c es t r a t e g i e st ow i nt h e m o s te c o n o m i cb e n e f i t ,a n dt h es p ,s u b s c r i b e r sg a i ns o k e y w o r d :m o b i l ec o m m u n i c a t i o n ,o p e r a t i o nq u a l i t ya n a l y s i s ,i n t e r n e ts h o r t m e s s a g eg a t e w a y , d a t aw a r e h o u s ea p p r o a c h ,d a t am i n i n g ,d e c i s i o nt r e e ,a n a l y s i s m o d e l 移 打梦嘲业务质砬分析方法研究 1 1 背景介绍 第一章绪论 近年来中国移动的数据增值业务滚雪球似地迅猛发展,短信作为其中一个 最重要组成部分,在2 0 0 3 年做出了1 7 0 0 亿条的巨大贡献,比0 2 年翻了近一倍, 这跟移动通信于2 0 0 0 年底很适时地推出“m o n t e r n e t 移动梦网创业计划”完全 分不开。移动梦网建立了一个成功的商业运营模式,通过向应用内容提供商( 简 称s p ) 提供一个公平、公开、透明的运营环境,向用户提供多姿多彩的应用, 达到市场主体的多赢格局。国内新浪、搜狐、网易、腾讯等各大著名网站纷纷调 整了自己的市场战略,把主要精力投入到瓜分梦网信息费这块大蛋糕上,信息利 润甚至成为有些互连网站赖以生存的法宝。经过3 年多的发展,梦网客户规模、 用户资料信息、用户感知情况、应用种类等都已经非常庞大,但梦网业务的服务 质量问题也愈发尖锐起来,因此创建一个数据仓库来集中统一分散在移动企业、 s p 公司间的各种用户资料,联机分析处理现有业务不规范或信息不畅导致的投 诉以让梦网业务始终保持良性发展已变得迫在眉睫! 数据挖掘技术作为一门年青的跨学科领域,涉及诸如数据库系统、数据 仓库、统计学、机器学习、数据可视化、信息检索和高性能计算等方面的技 术。目前已在空间数据分析、w e b 、经济、生物信息学等多个领域的应用中做 出巨大贡献。数据仓库能有效地存储、检索和分析大量的复杂数据。在过去 的几年中,越来越多的大公司认识到这个富有价值的工具,构建了企业范围 的数据仓库,以便系统地组织、理解和使用数据进行商务运作、战略决策, 适应当今这个充满竞争和快速发展的世界。l p , 如j 位列北美十大银行之的蒙特 利尔银行,通过数据仓库的帮助,重新组织产品线以及创建更加有针对性的市场 活动,在试运行中就为企业节省了2 2 8 0 万美元;据i d c 调查,全球企业在数据 仓库上的投资f 以每年2 0 的速度增长,而平均投资回报牢达到4 0 0 以上;在过 去的两年中,财富杂志5 0 0 强中有9 5 以上启用数据仓库。“” 移动梦叫业务质量分析方往训究 本文把数据挖掘、数据仓库技术用于移动梦网业务分析,研究梦网业务 质量分析方法。通过建立数据集市,利用有效的数据分析和挖掘技术,对梦网用 户资料、月话费帐单、数据增值业务使用数、岍发送记录及短信中心发送状态 等多维记录按非相关性原则分成三大类做挖掘分析,可及时发现s p 强制定制现 象、对经常关机或已销号冷号重入网等用户推送信息造成发送失败的现象、某些 地区网络覆盖质量下降的现象;并可通过过滤无效用户、制定限制群发短信时段 等s p 规范制度等方式,避免系统资源浪费及高负荷运行状态,使提供更优质经 典的服务成为可能。 移动梦网业务在中国方兴未艾、如火如荼,许多方面仍处在盘旋式探索阶 段,把数据挖掘、数据仓库技术应用在该领域的成功案例尚未见报道。本人 通过自己对梦网各层面、各环节的技术及业务认识,归纳出该领域当前比较 迫切需要解决的服务质量问题作为主要研究内容,在用户历史数据抽取与转换 和构建用户行为数据集市的基础上,灵活利用数据库链、定时触发脚本、存储过 程、面向对象开发工具、i m 数据挖掘工具等直观有效的技术分类分别构建三棵 决策树,并进行业务数据统计分析和客户端程序的开发,从而实现梦网业务质量 分析和管理。 本课题的研究为移动通信企业与各家s p 厂商问的双赢互利合作提供一个 梦网业务数据仓库可行性方案。使用梦网业务数据仓库可以实现多方及时、准 确地把握客户的情况,真正实现资源共享,提高企业的收益,具有很强的实用 价值。 1 2 涉及的技术领域 业务质量分析系统,除了需要进行一些常规的统计外,还需要分析大量的 数据,从庞大的数据文件中发现一些隐藏在数据后面的有趣的模式和规则。 o l t p ( 联机事务处理) 服务在性能上已不能满足人l r 的这种需求。 数据挖掘,通常又称为数据库中的知识发现( k i ) i ) ) ,是一个多学科交叉的领 域,包括数据库技术、机器学习、人工智能、神经网络、统计学、模式识别、知 识库系统、知识获取、信息检索、高性能计算和数掘可视化等领域。数据挖掘能 从大量数据中发现有趣的规律或模式,而这些规律或模式依靠单纯的数据查询是 移动箩嘲业务质量分析方法研花 不能得到的。“1 本文,我们根据实际 :作需要,从数据库角度来讨论数据挖掘 技术及其在业务质量分析系统中的应用。 数据挖掘的任务包括挖掘关联规则、分类和预测,以及聚类分析等。目前 在西方发达国家,很多行业已经在利用数据挖掘技术为生产和客户管理等领域提 供决策支持。i b m ,o r a c l e 和m i c r o s o f t 等数据库软件提供商也在其最新的企业级 数据库服务器软件中包含数据仓库和数据挖掘功能,在一定程度上提供了通用的 数据挖掘解决方案,例如i b m 的d b 2i n t e l l i g e n tm i n e rf o rd a t a 和m i c r o s o f t 的a n a l y s i ss e r v i c e s2 0 0 0 。许多大学和科研机构也一直在探索更快的、可伸缩 性强和处理数据类型更广的数据挖掘算法。例如,加拿大大不列颠哥伦比亚省 s i m o nf r a s e r 大学“智能数据库系统研究实验室”创建的d b m i n e r 数据挖掘系统 就是其中一个代表。国内也有一些软件公司和科研单位正在或已经研制出数据挖 掘的软件,并在银行、电信、证券、保险和医疗等领域得到了应用。例如,复旦 大学计算机科学与工程系的研究小组开发的a m i n e r 关联规则挖掘系统。敞献7 1 i d c 的调查表明,在2 0 0 3 年,数据仓库达到了2 0 0 亿美元的市场规模。数据 仓库的客户数据量还在不断增长。它的重要地位已经在电信业的经营发展中日益 凸显! 移动梦刚业务质量分析方法川究 第二章数据仓库、o l a p 及数据挖掘的技 术概述 数据挖掘、数据仓库和o l a p 是移动梦网业务质量分析系统的支撑技术。数 据仓库提供数据挖掘的数据来源,对数据进行一定的转换和清洗,以适合挖掘的 形式保存数据:o l a p 则提供了一个快速访问、处理数据仓库中数据的技术:而数据 挖掘则通过对数据仓库的数据进行复杂的分析处理,从中发现有趣的模式和规律 一一知识。2 ” 2 1 数据仓库及o l a p 概述 近年来,随着数据库技术的应用和发展,人们尝试对d b ( 数据库) 中的数据 进行再加工,形成一个综合的,面向分析的环境,以更好支持决策分析,从而形 成了数据仓库技术( d a t aw a r e h o u s i n g ,简称d w ) 。 2 1 1 数据仓库数据集市的定义 目前,数据仓库一词尚没有一个统一的定义,著名的数据仓库专家w h i n m o n 在其著作c b u i l d i n g t h ed a t a w a r e h o u s e 一书中给予如下描述:数据仓库( d a t a w a r e h o u s e ) 是一个面向主题的( s u b j e c to r i e n t e d ) 、集成的( i n t e g r a t e ) 、相 对稳定的( n o n v o l a t il e ) 、反映历史变化( t i m ev a r i a n t ) 的数据集合,用于 支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解,首先,数据 仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库; 其次,数据仓库是对多个异构的数据源有效集成,按照主题进行了重组,包含历 史数据,而且存放在数据仓库中的数据一般不再修改。 根据上述定义,数据仓库拥有以下四个特点: 1 面向主题。操作型数据库的数据组织面向事务处理任务,各个业务系统之间 各自分离,而数据仓库中的数据是按照一定的主题进行组织。主题是个抽 移动梦捌业务质量分析方 上研究 象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题 通常与多个操作型信息系统相关。 2 集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库 之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的 数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消 除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的 全局信息。 3 相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时发生 变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是 数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也 就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需 要定期的加载、刷新。 4 反映历史变化。操作型数据库主要关心当前某一个时间段内的数据,而数据 仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点( 如开始 应用数据仓库的时点) 到目前的各个阶段的信息,通过这些信息,可以对企 业的发展历程和未来趋势做出定量分析和预测。陂t ” 我们企业的数据仓库建设,是以现有企业业务系统和大量业务数据的积累为 基础。把信息加以整理归纳和重组,并及时提供给公司相应的管理决策人员,是 数据仓库的根本任务。只有把信息及时交给需要这些信息的使用者,供他们做出 改善其业务经营的决策,信息才能发挥作用,信息才有意义。 数据集市是面向部门或工作组级别的规模较小的数据仓库,在性能和功能 上的要求都不如数据仓库那么高,具有较好的性价比和灵活性。通常,在项目处 于实验阶段,可以先建立一个适合所要进行的统计、分析和挖掘工作的数据集市, 这在时间和成本上是最合适的。因此,本课题先建立一个数据集市来提供质量分 析挖掘的数据源。 数据仓库弥补了原有的数据库的缺点,将原来的以单一数据库为中心的数据 环境发展为一种新环境:体系化环境。如图2 1 所示: 移动梦叫业务质量分析方法研究 图2 1 :数据仓库系统体系结构 数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内 部信息和外部信息。内部信息包括存放于r d b m s 中的各种业务处理数据和各类文 档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等等; 数据的存储与管理:是整个数据仓库系统的核心。数据仓库的真正关键是数 据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也 决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的 核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进 行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围 可以分为企业级数据仓库和部门级数据仓库( 通常称为数据集市) 。 o l a p 服务器:对分析需要的数掘进行有效集成,按多维模型予以组织,以便 进行多角度、多层次的分析,并发现趋势。其具体实现可以分为:r o l a p 、m o l a p 和h o l a p 。r o l a p 基本数据和聚合数据均存放在r d b m s 之中;m o i ,a p 基本数据和 聚合数据均存放于多维数据库中:h o l a p 基本数据存放于r d b m s 之中,聚合数据 存放于多维数据库中。 前端工具:主要包括各种报表工具、查询i 具、数据分析。r :具、数据挖掘工 具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针 对o l a p 服务器,报表j :具、数据挖掘工具主要针对数据仓库。“” 移动炒嘲业务质量分折方法州,l 2 1 2 数据组织结构 数据仓库中的数据分为四个级别:早期细节级、当前细节级、轻度综合级、 高度综合级。源数据经过综合后,首先进入当前细节级,并根据具体需要进行进 一步的综合,从而进入轻度综合级乃至高度综合级,老化的数据将进入早期细节 级由此可见,数据仓库中存在着不同的综合级别,一股称之为”粒度”。粒度越大, 表示细节程度越低,综合程度越高。因此在建立模型时适当选择粒度的大小很关 键。 数据仓库中还有一种重要的数据一元数据( m e t a d a t a ) 。元数据是”关于数据 的数据”,如在传统数据库中的数据字典就是一种元数据。在数据仓库环境下, 主要有两种元数据:第一种是为了从操作性环境向数据仓库转化而建立的元数 据,包含了所有源数据项名、属性及其在数据仓库中的转化;第二种元数据在数 据仓库中是用来和终端用户的多维商业模型前端工具之间建立映射,此种元数 据称之为d s s 元数据,常用来开发更先进的决策支持工具。【文献4 1 图2 - 2d w 数据组织结构 2 1 3 数据的抽取、存储和管理 数据的抽取是数据进入仓库的入门。由丁数据仓库是一个独立的数据环境, 移动梦州业务质鞋分析。法研t 它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储 介质中导入到数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、 调度和监控等几个方面。数据仓库的数据并不要求与联机事务处理系统保持实时 的同步,因此数据抽取可以定时进行,但多个抽取操作执行的时间、相互的顺序 对数据仓库中信息的有效性则至关重要。 在技术发展上,数据抽取所涉及的单个技术环节都已相对成熟。目前市场 上所提供的数据抽取工具能根据用户选定源数据和目标数据的对应关系,自动生 成数据抽取的代码。但数据抽取工具支持的数据种类是有限的:同时数据抽取过 程往往涉及数据的转换。转换通常与实际应用密切相关,其复杂性使得不可嵌入 用户编程的抽取工具往往不能满足要求。因此,实际的数据仓库实施过程中不一 定使用抽取工具。在数据仓库的世界里,它们只能成为辅助的角色。 数据仓库关键的是数据的存储和管理。数据仓库的组织管理方式决定了它 有别于传统数据库的特性,同时也决定了其对外部数据表现形式。它所涉及的数 据量比传统事务处理大得多,且随时间的推移而累积。”“ 2 1 4o l a p 的多维数据分析 联机分析处理( o l a p ) 的概念最早是由关系数据库之父e f c o d d 于1 9 9 3 年 提出的。当时,c o d d 认为联机事务处理( o l t p ) 已不能满足终端用户对数据库查询 分析的需要,s q l 对大数据库进行的简单查询也不能满足用户分析的需求。用户 的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能 满足决策者提出的需求。因此c o d d 提出了多维数据库和多维分析的概念,即 o l a p 。 数据仓库和o l a p 是基于多维结构的。o l a p 展现在用户面前的是一幅幅多维 视图。要突破三维的障碍,就必须理解逻辑维和物理维的差异。o l a p 的多维分析 工具采用了旋转、嵌套、切片、钻取和高维可视化技术,在屏幕上一多维视图的 结构的形式直观地展示结果数据,便丁用户理解、分析数据,进行决策支持。 2 1 5o l a p 的多维数据结构 数槲作多维窄问中的分句总是稀疏的、不均匀的。存市件发牛的何胃,数掘 移动梦啊q k 务质琏,析方法 | j f 究 聚合在一起,其密度很大。因此,o l a p 系统的丌发者要设法解决多维数据空问的 数据稀疏和数据聚合问题。有许多方法可以构造多维数据。 1 超立方结构 超立方结构( h y p e r c u b e ) 指用三维或更多的维数来描述一个对象,每个维彼 此垂直。数据的测量值发生在维的交叉点上,数据空间的各个部分都有相同的维 属性。这种结构可应用在多维数据库和面向关系数据库的o l a p 系统中,其主要特 点是简化终端用户的操作。 超立方结构有一种变形,即收缩超立方结构。这种结构的数据密度更大,数据 的维数更少,并可加入额外的分析维。 2 多立方结构 在多立方结构( m u l t i c u b e ) 中,将大的数据结构分成多个多维结构。这些多维 结构是大数据维数的子集,面向某一特定应用对维进行分割,即将超立方结构变 为子立方结构。它具有很强的灵活性,提高了数据( 特别是稀疏数据) 的分析效率。 一般来说,多立方结构灵活性较大,但超立方结构更易于理解。终端用户更容 易接近超立方结构,它可以提供高水平的报告和多维视图。但具有多维分析经验 的m i s 专家更喜欢多立方结构,因为它具有良好的视图翻转性和灵活性。多立方 结构是存储稀疏矩阵的一个更有效方法,并能减少计算量。因此,复杂的系统及预 先建立的通用应用倾向于使用多立方结构,以使数据结构能更好地得到调整,满 足常用的应用需求。 许多产品结合了上述两种结构,它们的数据物理结构是多立方结构,但却利 用超立方结构来进行计算,结合了超立方结构的简化性和多立方结构的旋转存储 特性。 3 o l a p 数据的存储和处理方式 相应于关系数据库、多维数据库、基于客户的文件等三种活动数掘存储形式, o l a p 有三种数据处理方法。事实上,多维数据计算不需要在数据存储位置上进 行。 1 ) 基于关系数据库 将活动的o l a p 数据存储在关系数据库巾,采用在关系数据库上完成复杂的多 维计算也不是较好的选择。因为s q i 的单语句并不具备完成多维计算的能力,要 移动修州业务质量分析方法研究 获得哪怕是最普通的多维计算功能也需要多重s q l 。在许多情况f ,一些o l a p 工 具用s q l 做一些计算,然后将计算结果作为多维引擎输入。多维引擎在客户机或 中层服务器上做大部分的计算工作,这样就可以利用r a m 来存储数据,提高响应 速度。 2 ) 基于多维服务引擎 大部分o l a p 应用在多维服务引擎上完成多维计算,具有良好的性能。因为这 种方式可以同时优化引擎和数据库,而服务器上充足的内存为有效地处理大量数 组提供了保证。 3 ) 基于客户机 在客户机上进行计算,要求用户具备性能良好的p c 机,以此完成部分或大部 分的多维计算。对于日益增多的瘦型客户机,o l a p 产品将把基于客户机的处理移 到新w e b 应用服务器上。”“” 2 2 数据挖掘技术概述 数据挖掘是一个利用各种分析方法和分析工具在大规模海量数据中建立模 型和发现数据间关系的过程,这些模型和关系可以用来帮助做决策和预测。 数据仓库技术能够满足数据挖掘技术对数据环境的要求,建立在联机分析 处理( o nl i n ea n a l y t i c a lp r o c e s s i n g ,o l a p ) 的数据环境基础之上的数据挖掘 可从o l t p 系统、异构分散的外部数据源、脱机的历史业务数据中方便地获取数 据,然后进行处理。 2 2 1 数据挖掘功能举例 下面通过一些事例来说明数据挖掘能做什么: ( 1 ) 数据特征化和数据区分 例如:利用数据挖掘系统可产生一年内在某类产品上花费超过万元的顾 客的特征汇总描述,能归纳出购买力较弱的顾客群所具有的不同特征。 ( 2 ) 关联分析 例如:利用关联分析可得到诸如年龄在2 0 一2 9 岁,年收入在2 力- 一3 万 之n i j 的顾客可能购买某一品睥c d 机。一个典犁的例了就是著名的啤酒、尿 移动梦州q k 务质量分析方法倒 究 布关联分析结果,即购买啤酒的客户呵能会购买尿布。 ( 3 ) 分类利预测 例如:可根据对销售情况反应好、中、差将产品进行分类,确定每一类 中商品的特征描述,如b r a n d ,p r i c e ,t y p e ,p l a c e m a d e 等,帮助设计有 效的销售活动。 ( 4 ) 聚类分析 例如:可根据一个城市内顾客位置的2 d 分布,找出顾客密集区,形成聚 类。 ( 5 ) 孤立点分析 例如:通过检测一个给定帐号与f 常的付费相比,来发现信用卡欺骗。 ( 6 ) 演变分析 例如:描述某产品在某区域随时问变化的销售趋势,对销售计划和投资作 出决策。 2 2 2 数据挖掘的主要方法 常用的数据挖掘方法主要包括决策树、相关规则、神经元网络、遗传算法, 以及可视化、o l a p 联机分析处理等。另外也采用了传统的统计方法。 通用数据挖掘工具处理常见的数据类型,采用通用的数据挖掘算法,提供 较为通用的处理模式,如:分类模式、回归模式、时间序列模式属于预测型 ( p r e d i c t i r e ) 方法;聚类模式、关联模式等属于描述型( d e s c r i p t i r e ) 方法。 分类分析就是通过分析该数据库的记录,找出准确描述数据类的模型或分 类规则,如“信用度高的客户是指那些近期内月话费在1 0 0 元以上,且半年内 一直没有欠费记录的用户”,然后根据分类规则对相同属性的数据库记录进行分 类。它广泛应用于大客户特征的识别、客户群体的细分、客户流失的预测与控 制等方面。 回归分析的预测值是连续的,主要应用于业务量预测、用户数预测等方面。 时间序列是用变量过去的值来预测未来的值。它在连续的时间流中截取一 个时间窗口,窗口内数据作为。个数据单元,然后让这各时嵋j 窗几在时间流l 滑动,以获得建立模型所需要的训练集。比如,可以用| ;i 5 天的数掘来预测第 移动梦阀业务质量分析方法研究 7 天的值,这样就建立了一个区间大小为7 的窗口。它主要应用于业瓠量预测、 客户的呼叫模式分析以及网络管理与优化等方面。 关联分析利川关联规则进行数据挖掘,寻找数据库中值的相天性,有 a p r i o r i 、s t e m 、a i s 、d h p 等算法。其目的是挖掘隐藏在数据问的相互关系, 寻找在同一个事件中出现的不同项的相关性,比如一个月话费小于2 0 元的移动 用户经常关机之类的知识。关联分析可应用于呼叫模式分析、话费欺诈的早期 识别等方面。 聚类分析通过分析数据库中的记录数据,根据一定的分类规则,合理地划 分记录集合,确定每个记录所在类别。与分类不同,聚类分析输入的是一组末 分类记录。它可应用于大客户特征的识别、客户群体的细分、话费欺诈的早期 识别等方面。2 献 2 3 数据挖掘算法简介 人工神经网络 神经网络近来越来越受到人们的关注,因为它为解决大复杂度问题提供了一 种相对来说比较有效的简单方法。神经网络可以很容易的解决具有上百个参数的 问题( 当然实际生物体中存在的神经网络要比我们这里所说的程序模拟的神经网 络要复杂的多) 。神经网络常用于两类问题:分类和回归。 在结构上,可以把一个神经网络划分为输入层、输出层和隐含层( 图2 3 ) 给出了一个神经网络结构的例子) 。输入层的每个节点对应一个个的预测变量。 输出层的节点对应目标变量,可有多个。在输入层和输出层之间是隐含层( 对神 经网络使用者来说不可见) ,隐含层的层数和每层节点的个数决定了神经网络的 复杂度) 。 图2 - 3 神经网络结构 神经网络的每个节点都可表示成预测变量( 如图2 3 中的节点1 ,2 ) 的值 移动梦州业务质量分析力法研1 或值的组合( 如节点3 - 6 ) 。注意节点6 的值已经不再是节点1 、2 的线性组合, 因为数据在隐含层中传递时使用了活动函数。实际一卜如果没有活动函数的话,神 经元网络就等价于一个线性回归函数,如果此活动函数是某种特定的非线性函 数,那神经网络又等价于逻辑回归。 调整节点问连接的权重就是在建立( 也称训练) 神经网络时要做的工作。 最早的也是最基本的权重调整方法是错误回馈法,现在较新的有变化坡度法、类 牛顿法、l e v e n b e r g m a r q u a r d t 法、和遗传算法等。无论采用那种训练方法,都 需要有一些参数来控铝q i j i i 练的过程,如防止训练过度和控制训练的速度。决定神 经网络拓扑结构( 或体系结构) 的是隐含层及其所含节点的个数,以及节点之间 的连接方式。要从头开始设计一个神经网络,必须要决定隐含层和节点的数目, 活动函数的形式,以及对权重做那些限制等。幢“” 关联规则 关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。随着大量 数据不停地收集和存储,许多业界人士对于从他们的数据库中挖掘关联规则越来 越感兴趣。从大量商务事务记录中发现有趣的关联关系,可以帮助许多商务决策 的制定,如分类设计、交叉购物和贱卖分析。关联规则挖掘的一个典型例子是购 物篮分析,该过程通过发现顾客放入其购物篮中不同商品之间的联系,分析顾客 的购买习惯。通过了解哪些商品频繁地被顾客同时购买,发现关联规则以帮助零 售商制定营销策略。 规则的支持度s u p p o r t 和置信度c o n f i d e n c e 是两个规则兴趣度度量,它们分 别反映发现规则的有用性和确定性。例如,购买计算机同时也趋向于购买财务管 理软件可用以下关联规则表示: co m pu ter = f ina nc ia i man a ge m en t so f t war e suppo n = 2 ,co n f iden ce = 60 】 该关联规则的支持度2 意味着全部事务的2 同时购买计算机和财务管 理软件,置信度60 意味着购买计算机的顾客60 也购买财务管理软件。如 果它满足用户设定的最小支持度闽值和最小置信度阈值,关联规则被认为是有趣 的,是强规则。一般可用这两个公式来汁算支持度及置信度: su ppor t ( a 2 b ) 2p ( aub ) 移动梦嘲业务质量 析方法研究 c o n f i d e n c e ( a = b ) = p ( bi a ) 如果一个项集满足最小支持度,则称它为频繁项集。找出所有频繁项集是 关联规则挖掘的最重要步骤,其最常用的算法是a p r i o r i 算法。它充分利用了频 繁项集的所有非空子集都必须也是频繁的这一a p r i o r i 性质,通过逐层搜索的迭 代方法找出频繁项集,从而产生强关联规则。”。 决策树 数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也 可以用来作预测,它很容易转换成分类规则。决策树提供了一种展示类似在什么 条件下会得到什么值这类规则的方法。决策树的基本组成部分为决策节点、分支 和叶子。建立决策树的过程,即树的生长过程是不断地把数据进行切分的过程, 每次切分对应一个问题,也对应着一个节点。有时需设定决策树的最大高度( 层 数) 来限制树的生长以防止训练过度。常用的算法有c h a i d 、c a r t 、q u e s t 和 c 5 0 。本课题采用决策树归纳的数据挖掘算法,因此将在后面章节详细介绍该算 法。 聚类分析 聚类分析是一种统计分析方法,它通过将实体的特征进行归一化处理,对 具有多特征的不同实体进行分组,使每一组之间的差异最大化,组内的差异最小 化。聚类技术可以分为如下几类:划分方法( p a r t i t i o n i n gm e t h o d ) ,层次方法 ( h i e r a r c h i c a lm e t h o d ) ,基于密度的方法( d e n s i t y b a s e dm e t h o d ) ,基于网格 的方法( g r i d - b a s e dm e t h o d ) ,和基于模型的方法( m o d e l - b a s e dm e t h o d ) 。 聚类分析是一种重要的人类行为。早在孩提时代,一个人就通过不断地改 进下意识中的聚类模式来学会如何区分猫和狗,或者动物和植物。聚类分析已经 广泛地用在许多应用中,包括模式识别,数据分析,图象处理,以及市场研究。 通过聚类,人能够识别密集的和稀疏的区域,因而发现全局的分布模式,以及数 据属性之间的有趣的相互关系。 聚类也能用于对w eb 上的文档进行分类,以发现信息。作为一个数据挖 掘的功能,聚类分析能作为一个独立的工具来获得数据分布的情况,观察每个簇 的特点,集中对特定的某些簇做进一步的分析。此外,聚类分析可以作为其他算 法( 如特征和分类等) 的预处理步骤,这些算法再在生成的簇上进行处理。“ 移动梦 旬9 、世务质量分惭,j 泣研究 遗传算法 基于进化理论,采用遗传结合、遗传变异、以及自然选择等设计方法。 一般来说,并不存在所谓的最好的算法,只有哪个更适合。眦”3 2 4 数据挖掘工具简介 i b m 是关系型数据库的发明者,从2 0 世纪9 0 年代中开始,i b m 意识到开放 平台数据库的重要性,并大力发展d b 2 通用数据库( i b md b 2u d b u n i v e r s a l d a t a b a s e ) 。i b m 的数据挖掘工具i n t e l l i g e n tm i n e r 通过典型数据集自动生成、 关联发现、序列规律发现、概念性分类和可视化呈现等技术,实现数据选择、数 据转换、数据挖掘和结果呈现这一整套数据挖掘的操作,包括分析软件工具 i n t e l l i g e n tm i n e tf o rd a t a 和i n t e l l i g e n tm i n e rf o rt e x t 。i n t e l l i g e n tm i n e r f o rd a t a 可以寻找包含于传统文件、数据库、数据仓库和数据中心中的隐含信 息,还可以根据属性的相似性分割( 或群集) 记录,发现类似的时间顺序,或创 建预测( 或分类) 模型。i n t e l l i g e n tm i n e rf o rt e x t 允许企业从文本信息中 获取有价值的客户信息,文本数据源可以是w e b 页面、在线服务、传真、电子邮 件、l o t u sn o t e s 数据库、协定和专利库等。i n t e l l i g e n tm i n e r 支持多种算法: 决策树、神经网络、r e g r e s s i o n ,r a d i a lb a s i sf u n c t i o n ,c l u s t e r i n g 和 a s s o c i a t i o nr u l e r s ,系统支持的服务器平台包括a i x ,0 s 3 9 0 ,s 0 1 a r i s , w i n d o w sn t ,w i n d o w s 2 0 0 0 等。o r a c l e 的o r a c l ed a r w i n 是基于数据仓库的数 据挖掘工具,提供决策树、神经网络、线性回归、逻辑回归、匹配模型、聚类和 探测数据分析等多种算法,支持海量数据的并行处理。它提供简单易用的图形化 界面,数据挖掘的结果可以输出,并可与其他分析工具集成。o r a c l ed a r w i n 支 持访问数据的方式有:与o r a c l e 数据库和数据仓库的o d b c 连接,s q l 查询支持, 向数据库写回结果的能力,文本文件,s a s 数据集,单击文本和数据库输入 w i z a r d s ,挖掘8 位西欧数据字符集的支持,支持的操作系统有s u ns o l a r i s2 8 、 h p 一1 1 0 以及w i n d o w s 2 0 0 0 等。 移动抄嘲业务质量分析方法研究 图2 - 4o r a c l ed a t am i n e r 的用户界面 还有s y b a s e 、i n f o r m i x 、n c r 等厂商提供的工具都为我们进行数据挖掘提 供了极大的便利。眩”1 移动梦州业务质量分析j 法 i 究 第三章移动梦网业务质量的需求分析 3 1 移动梦网业务质量研究的意义及可行- l 生分析 移动通信企业内部多个数据库服务器中存储了庞大的用户信息、梦网用户 历史话费记录、投诉记录、短信发送接收成功率等数据,如果掌握用户投诉内 容及信息收发失败的客观规律,将能够消除当前制约移动梦网业务健康发展的 不利因素,继续推动梦网业务蓬勃发展。 建立以移动梦网业务质量分析为主题的数据仓库对移动通信企业是完全可 能的。在我们的梦网网关系统数据库中,可以提取其m o 、灯等基表。这些基表 包含了用户梦网请求及定制的所有信息,如发送接收号码、消息内容、到达及 响应时间、消息状态、最终状态、企业代码、短信中心i d 、来源网关、计费类 型、信息费等字段;在计费及客服系统的数据库中,u s e r 、b i 1l 、c u s t o m e r 等 表很容易整合;在网管短信中心的数据库中,利用短信发送接收表可分析成功 率、失败原因等。这些关系数据库都处于企业生产内网中,通过在数据仓库建 立d b _ l i n k ,可根据实际需要把各数据库的历史记录定时倒入。而各网站运营 商的事务处理数据库原本已通过d d n 专线或i n t e r n e t 接入移动梦网主机的特定 端口,现只需在相应的路由设备上开放s q l 端口或者把特定表e x p 出来并f t p 传送至梦网主机指定的目录下做i m p ,即可实现本数据仓库的整个数据采集变 换过程,为之后的梦网业务联机分析处理o l a p 提供充足的数据源。这些汇总数 据有着很强的特征化及关联性,可根据事务粒度形成n 一维的数据模型,通过数 据挖掘引擎分类、聚类分析及演变和偏差分析而达到辅助决策目的。比如,创 建的时问维可包含
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 基于GPU的高效数组分割算法
- 2025年食品行业HACCP体系认证操作标准知识考察试题及答案解析
- 剪力墙钢支撑施工方案
- 墙面保温一体板施工方案
- 新乡透水盲道砖施工方案
- 办公设备搬运施工方案
- 绵阳四合院施工方案设计
- 可疑心肌梗死的观察护理
- 2026年工程质量纠纷处理协议
- 2026年专业施工方案合同
- 2024秋新人教版数学一年级上册教学课件 第六单元 复习与关联1. 数与运算
- 肠梗阻病人护理教学查房
- 2025年银联商务股份有限公司招聘笔试参考题库含答案解析
- Unit6Mysweethome单元教学整体分析(课件)-(2024)英语三年级上册
- 腰痛相关体格检查
- 【MOOC】民事诉讼法学-西南政法大学 中国大学慕课MOOC答案
- 海上风电场的保险创新
- 凌云公司简介
- 新生儿静脉治疗护理课件
- 施工现场临水临电标准化图册图文并茂
- 蒂森克虏伯扶梯电气原理图
评论
0/150
提交评论