已阅读5页,还剩56页未读, 继续免费阅读
(计算机应用技术专业论文)移动通信经营分析系统的构建与客户流失分析.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
南京航空航天大学硕士学位论文 摘要 近年来,数据仓库和数据挖掘等新技术的迅速发展为决策支持系统( d s s ) 的发 展歼麟了新途径。将决案支持系统出传统的以模型库系统为主体,通过定量分析进行 辅助决策转向由数据驱动进行辅助决策,使计算机辅助决策能力上了一个新台阶。目 前开发的综合d s s 是以数据仓库技术为基础,以联机分析处理和数据挖掘工具为手 段进行实施的一整套解决方案。 本文以移动通信经营分析系统为研究背景,根掘移动通信行业的数据特点,按照 “自底向上”的基本原则,构建面向业务主题的数据集市,并在此基础上最终形成面 向整个业务系统的中央数据仓库。在成功构建数掘仓库系统之后,针对移动通信行业 r 益突出的客户流失问题,本文采用了多种理论相互融合的思想,将神经网络和决策 树技术相结合。构建客户流失分析模型。文章对神经网络和决策树技术进行了深入的 分析,研究其各自的优缺点,并分析了将这两种技术结合在一起的可能性及优势;在 客户流失模型的构造过程中,本文针对神经网络算法的缺陷运用了新的改进算法,提 高了训练的精度和收敛速度。同时,在传统的决策树算法的分裂准则中成功引入了误 分代价的因素,从而提高了分类模型的准确性和适用性。最后通过实际数据对模型进 行了应用评估,结果表明这种基于神经网络和决策树技术的预测模型能够对客户流失 情况做出准确的预测,达到了商业使用的要求。 关键词:决策支持系统;数据仓库;数据挖掘;客户流失;神经网络;决簸树 移动通信经营分析系统f 向丰;:j 建与客户流失分析 a b s t r a c t d u r i n g t h e p a s t s e v e r a l y e a r s ,q u i c kd e v e l o p m e n to fd a t aw a r e h o u s ea n dd a t a m i n i n g h a s o p e n e d an e 、, v a p p r o a c h f o rd e c i s i o n s u p p o ns y s t e m ( d s s ) ,t h e t r a n s i b r m a t i o nf r o md e c i s i o ns u p p o ns y s t e mb a s e do nq u a n t i t a t i v ea n a l y s i sd o m i n a t e db y m o d e l i n gs y s t e mt od a t a - d r i v e ns y s t e mh a sm a d e an e wi m p r o v e m e n ti nc o m p u t e r a i d e d d e c i s i o na b i l i t y a tc u r r e n t ,g e n e r a l i z e dd s si sas e to fs c h e m e sb a s e do nd a t aw a r e h o u s e w i t ht h et o o l so fo n l i n ea n a l y t i c a lp r o c e s s i n ga n dd a t am i n i n g w i t h g e n e r a l i z e d b u s i n e s sa n a l y s i ss y s t e mo fm o b i l ec o m m u n i c a t i o na st h er e s e a r c h b a c k g r o u n d ,a n da c c o r d i n gt o c h a r a c t e r so fd a t ai nt h i sf i e l d ,t h i st h e s i si sb a s e do n b o t t o m u pp r i n c i p l e t oc o n s t r u c tb u s i n e s s s u b j e c t o r i e n t e dd a t am a r t s a n d u l t i m a t e l y f o r m sac e n t r a ld a t aw a r e h o u s eo r i e n t e da tt h ew h o l eb u s i n e s ss y s t e m a t i e rs u c c e s s f u l c o n s t r u c t i o no fd a t aw a r e h o u s es y s t e m ,t h i st h e s i sc r o s s l y a p p l i e ss e v e r a lt h e o r i e s i o c o m b i n e t e c h n o l o g i e so f n e u r a ln e t w o r ka n dd e e i s i o nt r e e 。t h u sam o d e lo ft h e a n a l y s i so f c u s t o m e rc h u r ni sb u i l tt os o l v et h ee m e r g i n gp r o b l e mo fc u s t o m e rc h u mf r o mm o b i l e c o m m u n i c a t i o nc o m p a n i e s t h i st h e s i sa l s o p r o v i d e s a n i n - d e p t ha n a l y s i s o fn e u r a l n e t w o r ka n dd e c i s i o nt r e et of i n do u tt h e i rr e s p e c t i v em e r i t sa n d 出a w h a c k s a n d p e r f o r m sa r e s e a r c h0 nt h es u p e r i o r i t yo ft h ec o m b i n a t i o no ft h e s et w ot e c h n o l o g i e s d u r i n gt h e p r o c e s so fc o n s t r u c t i n gt h em o d e lo fa n a l y z i n gc u s t o m e rc h u r n ,a ni m p r o v e da l g o r i t h mi s a p p l i e di nt h i st h e s i sd i r e c t e dt o w a r dd r a w b a c k so fc o m p u t e rn e t w o r ka n d t h u sr a i s e st h e t r a i n i n ga c c u r a c ya n dr a p i d i t yo fc o n v e r g e n c e a t t h es a m et i m e ,a f t e rs u c c e s s f u la b s o r b e n t o ft h ef a c t o ro fm i s c l a s s i f i c a t i o nc o s ti n t os p l i t t i n gp r i n c i p l eo fd e c i s i o nt r e ea l g o r i t h m ,t h e c l a s s i f i c a t i o nm o d e lg e t sah i g h i m p r o v e m e n ti na c c u r a c y a n d a d a p t a t i o n f r o m t h e e v a l u a t i o no nm o d e l sw i t ha c t u a ld a t a i td e m o n s t r a t e st h a ts u c hap r e d i c t i v em o d e lb a s e d o nn e u r a ln e t w o r ka n dd e c i s i o nt r e ec a np r o v i d eac o m p a r a t i v e l ya c c u r a t ep r e d i c t i o no f c u s t o m e rc h u ma n ds a t i s f yt h er e q u i r e m e n to f c o m m e r c i a la p p l i c a t i o n k e y w o r d :d e c i s i o ns u p p o r ts y s t e m ;d a t aw a r e h o u s e ;d a t am i n i n g ;c u s t o m e rc h u r n n e u r a in e t w o r k ;d e c i s i o nt r e e 南京航空航犬人j :颂p ? :住论文 1 1 研究背景 第一章绪论 决策支持系统( d e c i s i o ns u p p o r ts y s t e m ,简记为d s s ) 主要是以模型库系统为主 体,通过定量分析进行辅助决策。其模型库中的模型已由数学模型扩大到数据处理模 型、图形模型等多种形式的广义模型。决策支持系统的本质是将多个广义模型有机的 组合起来对数据库中的数据进行处理而形成决策问题模型。决策支持系统的辅助决 策能力从运筹学、管理科学的单模型辅助决策发展到多模型综合决策,使辅助决策能 力上了一个新台阶。 1 1 1 决策支持系统的发展 自上世纪7 0 年代m i c h a e ls ,s c o t tm o r t o n 提出决策支持系统的概念以来,d s s 已 经成为系统工程和计算机应用领域的重要研究内容。d s s 是在管理信息系统 ( m a n a g e m e n t i n f o r m a t i o ns y s t e m s 。简记为m i s ) 的基础上发展起来的。m i s 利用数据 库技术实现各级管理者的业务管理,在计算机上进行各种事务处理工作;d s s 则为各 级管理者提供辅助决策的能力。s p r a g u e 。1 和s l i v e r ”1 等人提出了决策支持系统三部件 结构即对话部件、数据部件( 数据库d b 和数据库管理系统d b m s ) 、模型部件( 模型 库m b 和模型库管理系统m b m s ) 。该结构明确了d s s 的组成也间接地反映了d s s 的关键技术,即模型库管理系统、部件接口、系统综合集成,它为d s s 的发展起到了 很大的推动作用。1 9 8 1 年b o n c z a k 等提出了d s s 三系统结构,即语言系统( l s ) 、问 题处理系统( p p s ) 、知识系统( k s ) “1 。8 0 年代末9 0 年代初,决策支持系统与专家系 统结合起来,形成了智能决策支持系统( i d s s ) 。专家系统是定性分析辅助决策,它和 以定量分析辅助决策的决策支持系统结合,进一步提高了辅助决策能力。智能决策支 持系统是决策支持系统发展的个新阶段。 进入2 0 世纪9 0 年代后信息技术界悄然掀起数掘仓库( d a t a w a r e h o u s e ) 和联 机分析处理( o n - l i n ea n a l y t i c a lp r o c e s s i n g ,简记为o l a p ) 技术及数据挖掘( d a t a m i n i n g ) 技术的研究和开发热潮,这为克服传统d s s 存在的问题提供了技术上的支 持,使d s s 的发展跃上一个新的台阶。也为d s s 歼辟了一条新的途径。目前开发的 综合d s s 是以数据仓库为基础,以o l a p 技术和数据挖掘技术为手段进行实施的一 整套解决方案。 移动通信经营分析系统f ( j 构建与客户流火分析 1 1 2 基于数据仓库的决策支持系统 文献 5 指出了基于传统数据库的决策支持系统的不足。由于d s s 对数据的使用 是非结构化的,它的一次查询操作可能涉及到上百张表的数掘,复杂的表连接会严重 影n l i 0 系统的性能而且用户仅仅庄分忻的时候j 盘找有关数据,查找条件是随机的, 因此琏于事务型数据库的d s s 的数据分析能力很有限。 d s s 最初按其功能被定义为“注重提高制定决策的效能而不是效率”,所以学 术界一直认为d s s 应以模型库系统为主体对d s s 的研究直放在模型管理上。随 着d s s 应用的不断深入人们认识到数据爿是决策支持系统的根本基础。只有将决 策支持系统建立在离效、集中的数据库系统之上,才能发挥其最大功效。然而传统的 数据库系统已经无法满足d s s 对数据组织和结构的要求。1 9 9 3 年,wh 1 n m o n 搏士 在建立数据仓库一书中提出了数据仓库的概念,主张对现有的数据进行重新组织 和构造,使其符合d s s 所需要的数据组织和结构”1 。数据仓库的提出为决策支持系统 的进一步发展提供了坚实的数据支持。目前,基于数据仓库的d s s 决策技术包括 o l a p 技术和数据挖掘,在d s s 环境中数据仓库直接为o l a p 和数据挖掘提供数据。 世界上已有多家大公司正在利用数据仓库和数据分析技术提升利润空间”。比利 时国家电信使用数据仓库建立颓客信息系统,其中数据仓库拥有超过1 t b 的数据, 包括四个多月的电话通信记录。通过欺骗检测等数据挖掘技术,能够很快发现异常电 话及欺骗性的通话方式,在造成重大经济损失之前终止这种欺骗行为。英国电信公司 采用数据仓库应用系统保证了关键性业务的处理。n c r 联合太平洋铁路公司,将几 百个数据库合并转换成数据仓库应用系统,在可支付帐目、设备维护、市场营销以及 汽车和火车调度等方面提高了操作效率,改进了服务质量。目前,华尔街6 2 的银 行、保险、证券等机构采用基于数据仓库的数据分析技术进行风险管理,其中包括著 名的摩根斯坦利、花旗银行、加拿大蒙特利尔银行等。数据仓库服务器s y b a s ei q 、 复制服务器r e p l i c a t i o ns e r v e r ,以及其他相关软件,帮助金融机构进行风险的评估、 预测以及防范等工作,从而使风险控制到最小。 1 2 课题的提出 近些年国内电信市场竞争日剧,电信运营企业有电信、联通、移动、网通、吉 通、铁通等,在各个业务领域内已初步形成多元化的竞争局面。同时,随着中国加入 w t o ,国外的电信公司也会进入中国市场,在这样的形势下,对于移动通信行业最 大运营商的中国移动来说,正确及时的决策将是企业生存与发展最重要的环节。而要 作好决策工作,就要更好地利用网络技术,利用最近几年才快速发展起来的数据仓库 技术以及基于此技术的商业智能,深层次、多角度地挖掘、分析当前和历史的业务数 一2 一 南京航空航犬人1 ;:候f 悔论文 j _ f :、客户信息、竞争对手的信息等相关环境的多种数据,发现其内在的规律,从而得 到k 贵的决策支持信息爿能快速、准确地分析趣l k 问题,并且对企业未来的:i i 产:汁 划和i j = = 远规划提供理论指导。 l b 于移动公司早有大量成熟的数据库应用系统,如“移动业务综台管理系统”, “网管系统”,“计赞账务系统”等,通过这些系统祝累了大量f f j 、啦务处理数掘。丽许 多的坍史数据郜被存储在磁带、光盘中或姓分砸,在不同的硬件、数据库内,许多历 【史数拊无法查询,更无法把不同业务部门的数据来关联比较分析。同时也会遇到如数 据类型不匹配、数据定义不同、数据不致、数据冗余等问题,这些问题均使从数据 中直接提取企业需要的知识信息变得十分困难。另外,一股决策所需的数据总是与一 些维度和不同级别的统计、计算有关。以多维数据为核心的多维数据分析是决策的主 要内容,数据仓库的多维特征满足d s s 对数据的分析要求,并克服数据库的数据组 织性差、利用率低的缺点。 2 0 0 2 年,中国移动完成了业务运营支撑系统( b u s i n e s so p e r a t i o ns u p p o r ts y s t e m , 简记为b o s s ) 的建设,随着对业务支撑能力要求的不断提高,也面临着向更高层次 发展的问题。因此,中国移动提出建设经营分析系统( b u s i n e s sa n a l y s i ss y s t e m ,简 记为b a s ) 的要求,通过整合企业的数掘资源,提高企业市场竞争力。系统的建设 主要包括两个方面的内容,一方面是数据的整理过程,主要是数据仓库的建设;另一 方面是提供数据分析的手段,包括o l a p , 数据挖掘等方面的内容。 本课题是在江苏移动通信公司的支持下,按照中国移动集团公司的要求,建设江 苏移动通信公司经营分析系统( j s b a s ) 。j s b a s 系统是建立在数据仓库之上的决策 支持系统,本文的工作主要包括以下两方面的内容: 建设面向移动业务主题的数据仓库系统,通过需求分析,对移动公司的海量 数据进行分析处理,按照八大主题建立数据仓库系统。针对具体的数据挖 掘问题,建立面向具体业务的数据集市。 针对移动公司目前存在的客户流失问题,采用神经网络与决策树算法相结合 的复合模型建立客户流失模型,通过对流失客户的分析,掌握客户流失的 规律。进行既定条件下客户流失的仿真模拟、预测,为制定科学合理的营 销策略提供依据。 1 3 本文的组织 本文共分为五章: 第一章概述了决策支持系统的概念及发展历程。着重介绍了基于数据仓库系 统的决策支持系统及其优点。提出建设基于数据仓库系统的移动经营 分析系统的课题目标。 移动通信经营分析系统的构建与客户流失分析 第二章 第三章 第四章 第五章 全面介绍了本文所采用的数据仓库和数据挖掘技术的基本理论,并详 细分析了人工神经网络技术和决策树技术的优缺点,提出了结合这两 种技术进行数据挖掘建模的新思路。 详细介绍了j s b a s 系统的系统架构设计,_ 并以客户流失专题为甥j 实 现了面向流失分析的数据集市。同时介绍了j s b a s 系统所采用的数 据挖掘方法论c r i s p d m 。 按照c r i s p d m 数掘挖掘方法论,设计和实现面向客户流失分析的 数据挖掘过程。针对模型所采用的b p 神经网络算法和c 4 5 决策树 算法的缺陷提出了具体的改进方法,并将这两种算法相结合针对客 户流失分祈建立数据挖掘模型。 对全文进行了总结和展望。 南京航空航天大学硕士学位论文 2 1 数据仓库技术 第二章相关理论与技术 2 1 1 数据仓库概述 社会的需求和计算机技术的不断发展,人们开始尝试对原来数据库中的数据进行 再加工,形成一个综合的、面向分析的环境,以支持科学决策的产生。由此,数据仓 库的思想、技术、产品逐渐开始形成。数据仓库概念的创始人w h i n m o n 在建立 数据仓库一书中指出:“数据仓库是面向主题的、集成的、稳定的、随时间变化的 数据集合,用以支持经营管理中的决策制定过程”。l a d i e y 提出数据仓库是一系列 方法、技术和工具的整合,提供一种手段将数据提供给最终用户”1 。a p p l e t o n ”“、 h a l e y “”、g a r d n e r ”2 1 等提出数据仓库是一个载入、维持和构建决策支持的过程。 虽然还没有形成统一的定义,但以上观点都或多或少地指出了数据仓库有以下几 个特点:数据仓库中的数据是面向主题的、集成的、不可更新的( 稳定的) 、随时间 不断变化的,建立数据仓库的目的是为了更好地支持决策的制定。数据仓库与传统的 数据库系统相比有着本质的区别,数据库是一种通用平台,建立于严格的数学模型之 上,用来管理企业数据,进行事务处理,完成相关业务。而数据仓库没有严格的数据 理论,更偏向于工程,是企业一个日积月累的建立过程,其应用对象为不同层次的管 理者,其数据来自多种数据源,库中数据无须修改删除,主要进行大规模查询和分析, 因此要求有大量的历史数掘和汇总数据。 2 1 2 数据集市 围绕主题,有一个概念需要非常清楚,就是数据集市( d a t am a r t s ) 。数据仓库在 现代的许多数据库模型中指综合了很多主题的或全部的有价值数据。而数据集市则代 表面向单个主题,进行拆分和重组的数掘仓库主题模版,它把对某一类( 部门) 用户 有用的数据单独拿出来进行筛选。转载并进行开发利用。 对于企业的商务智能,考虑的是整个企业的资源消耗、销售收入、利润分配等问 题。数据仓库作为企业级应用,涉及的范围和投入的成本是非常大的,很容易形成高 投入、慢进度的大项目。这一切都是部f 工作组所不希望看到和不能接受的。部f 工作组要求在公司内部获得一种适合自身应用、容易使用,且自行定向、方便高效的 开放式数据接m - r 具与数据仓库相比,这种工具应更紧密集成、拥有完整的图形用 移动通信经营分析系统的构建与客户流失分析 户接口和更吸引入的价格。正是部门工作组的这种需求使数据集市应运而生。 然而,人们在数据集市的定义上意见不一,差别极大。目前,对数据集市普遍都 能接受的拙述可概括为:数据集市是一一种更小、更集中的数据仓库,它为公司提供了 一条部门工作组级的分析商业数据的廉价途径。数据集市应该具备的特性包括:规 模小、面向特定的应用、厩向部门工作组、快速实现、投资规模小、易使用、全面 支持异种机平台等。用户可根据自己的需求,以自己的方式来建立数据集市。不论是 以自上而下,还是自下而上的方式建立数据集市,最重要的是保证数据集市间能相互 对话,彼此不能沟通的数据集市是没有应用价值的。另外,允许人们经w e b 方式访 问数据集市,使之为更多的用户提供数据访问,也是必不可少的功能。当前,全世界 对数据仓库总投资的一半以上均在数据集市上。 2 1 3 数据仓库的体系结构“3 “ 为了能够将已有的数据源提取出来,并组织成可用于决策分析所需的综合数据的 形式,一个数据仓库的基本体系结构由图2 1 给出。 l1 分析工具li 归纳工具ii 表示工具li 数据挖掘l t o l a p 圆圆回 圈2 1 数据仓库系统结构圈 底层是数据源,也就是仓库数据库服务器,一般是一个关系数据库,通过使用网 蒯连接程序,由操作数据库和外部数掘源提取数据。中间层是o l a p 服务器,它将多 维数据上的操作映射为标准的关系操作或直接实现多维数据操作。顶层是客户,包括 查询和报告工具,分析工具和数据挖掘工具。 一6 一 南京航空航大大产硕十学伉论文 2 1 4 数据挖掘与数据仓库 数据仓库的建立给用户提供了一个统一、一致的分析环境。通过数据仓库进行利 润增长分析了解产品和服务的关系、利润、产品线等,有利于指导决策,提高效益。 :恃企业的信息与统计数掘相结合,能巫好地j 解顿客,包括购买方式、产品包装、服 务经验等,市场计划可分割成能带来大量利润并能吸引顾客的形式。执行决策的效果 可以通过快速反馈到数据仓库收集的历史数据而得到加强,造成种可行的、更新更 快的方式,以便更精确、更全面地满足顾客的需求,从而加强顾客与企业的关系,使 得与对手的竞争变得更加容易。数据仓库和数据集市已在广泛的应用领域使用。几乎 每个行业的商务管理人员都在使用收集、集成、处理和存储在数据仓库中的数据,进 行分析和决策。通常数据仓库使用时白j 越长,进化得越好。开始,数据仓库主要用于 产生报告和回答预先定义的查询。逐渐地,它用于分析汇总的和细节的数据,结果以 报告和图表形式提供。然后,数据仓库用于决策,进行多维分析和负载的切片和切块 操作。最后,数据仓库用于知识发现,并使用数据挖掘工具进行决策。 在大部分的情况下数据挖掘要先把数据从数据仓库中拿到数据挖掘库或数据集 市中。采用数据仓库中的数据进行数据挖掘有很多好处。数据仓库的数据清理和数据 挖掘的数据清理类似,数据在导入数据仓库时已经清理过了进行数据挖掘时就不需 要再清理,而且所有的数据不一致问题都已经被解决了。数据挖掘库可能是数据仓库 的一个逻辑上的子集,而不一定是物理上单独的数据库。 2 1 5 数据仓库的设计 2 1 5 1 基本策略 数据仓库的设计主要有两方面的内容,一是数据仓库自身的设计,包括确定系统 的边界与主题域、分析主题域、确定粒度层次划分与数据分割策略、定义关系模式, 在此基础上进行物理模型设计:二是与操作型环境接口的设计。 数据仓库创建的方法、模型和步骤与传统的数据库相比是有区别的。数据仓库设 计由数据驱动,在现有数据库系统的基础上进行开发,着眼于有效地抽取、综合、集 成和挖掘已有数据库的数据资源。数据仓库系统的原始需求往往不明确,而且不断变 化与增加。所以,采用原型法进行数据仓库的设计与开发比较合适,这就决定了数据 仓库系统的开发是一个不断循环、反馈而使系统不断增长与完善的动态过程,需要开 发人员、分析人员和管理者的密切配合与不断交流。因此。建立基于电信业务的数据 仓库系统的基本策略应当是长远规划、逐步建设。 目前,构造企业级的数据仓库通常有两种途径,一种是从企业整体来考虑数据仓 库的主题和实施,即“自顶向下”的方法;另一种是从建造面向某个部门( 或某个应 一7 一 移动通信经营分析系统的丰句建与客户流火分析 用) 特定的数据集市开始,逐步扩充数据仓库所包含的主题和范围,最后形成一个能 反映企业全貌的企业级数据仓库,即“自底向上”的方法。 “自顶向下”的途径有利于建设一个全局一致的数据仓库体系环境,但投资大, 建设周期长,见效慢。而“自底向上”的方法是从决策者最关心的部分开始,先以较 少的投资,完成企业的当前需求,获得最快的回撤。然后再不断扩充,不断完善,因 而投资少,周期短且易于见到成果。其缺点是以特定的部门缴主题为框架,不利于向 其他主题和部门扩充。电信服务行业业务种类繁多、技术复杂。业务上有语音服务、 短信服务、数据通信等,每一类业务又可进一步细分。这些业务本身基本上是独立的, 没有必要也不可能从一开始就把它们集成起来。目的,电信运营企业的实际情况是: 各个业务系统由不同厂家开发,采用的平台、数据库系统、开发工具也不尽相同,要 把这些孤立的、异构的系统集成起来难度非常大,不可能一步到位。从一开始就建立 全局统一的数据仓库,需要在长远规划的前提下逐步实旋。因此,从目前电信服务行 业实际情况看,采用“自底向上”的方法建设数据仓库系统是一条切实可行的途径。 然而,“自底向上”地建设数据仓库系统需要设计阶段的长远规划。在设计阶段, 必须考虑部门级的主题是否有助于形成企业级的主题、数据加载模块是否可以重用 等;必须加强不同部门之间的沟通与协调,从整个企业的角度来考虑技术框架和系统 设计,从而保证在未来数据仓库建设过程中是可以扩充的。 根据上述基本策略可以采用图2 2 给出的数据仓库建设步骤“”: 图2 2 数据仓浑设计步骤 2 1 5 2 概念模型 概念模型的设计是在较高抽象层次上的设计,关注的是对商业的理解。这一层保 证数据仓库的所有业务处理被归档,并且获取对需要被收集信息的基本理解。因此在 建立概念模型时不必考虑具体技术条件的限制。由于e - r 图具有良好的可操作性,形 式简单,易于理解,便于与用户交流,对客观世界的描述能力较强,在数据库设计方 面更是得到了广泛的应用。目前数据仓库系统一般是建立在关系数据库的基础之上。 一8 南京航空航天大学硕士学位论文 因此在构建数据仓库的概念模型时一般还是采用e r 图。 概念模型设计所要完成的工作是:界定系统边界;确定主要的主题及其内容。 在确定主题及其内容时,按照分步实施的原则,从最基本的主题开始建设数据集 市。随着管理信息需求的逐渐增加和推广,不断地发展新的主题,完善已有的主题, 相应主题下的表及其关联也随之不断扩充,数据仓库中的信息也将越来越丰富,最终 覆盖所有的业务系统,建立起一个面向主题的分析型数据环境。 2 1 5 3 逻辑模型 逻辑模型是系统体系结构的基础,它主要包含实体、属性、实体与实体之间的关 系、实体与属性之间的关系。逻辑模型设计关注的是数据的结构和完整性。保证商业 数据仓库化所需的所有数据均被包括在数掘模型中较少关注数据获取的源头以及途 径,但对数据是否满足信息需求很感兴趣。它描述了数据仓库各个主题的逻辑实现, 即每个主题所包含的关系衰之间的关系模式的定义。 逻辑模型设计的任务主要是对每个当前要装载的主题的逻辑实现进行定义,并将 相关内容记录在数据仓库的元数据中,包括:适当的粒度划分;合理的数据分割策略: 适当的表划分:定义合适的数据来源等。 逻辑模型的设计是数据仓库建设过程中的一个重要步骤,它直接反映了业务部门 的分析需求,同时对系统的物理实施具有指导作用。目前有两种建模技术:星型模型 和雪花模型。 1 _ 星型模型 星型模型是是一种由一点向外辐射的建模范例,中间有一个单一对象沿半径向外 连接到多个对象( 如图2 3 所示) 。 幽2 3 星型模型 星型模型反映了一种多维的数掘关系,由一个事实表( f a c tt a b l e ) 和一组维表 ( d i m e n s i o nt a b l e ) 组成。每个维表都有一个维作为主键所有这些维组合成事实表 的主键,支持以商务决策者的观点定义数据实体满足面向主题数据仓库的设计需要。 位于星型结构中央的事实表是数据仓库架构中的中央表,是反映业务信息的基本 实体和查询活动的中心,为用户的商务活动提供定量数据。而维表则描述了事实表中 的数据,其作用是限制用户的查询结果将数据过滤使得从指标实体查询返回较少的 汜录,缩小访问范围。 一9 移动通信经营分析系统的陶建与客户流火分析 2 雪花模型 雪花模型是星型结构的一个扩展,有多个表定义一个或多个维度。在雪花架构中, 只将主维度表与事实数据表相连,其他维度表连接到主维度表。 雪花型结构与星型结构的本质是相同的,都由事实表,维度表构成。它们之间最 大的区 j i j 在于雪花型结构将维度表按照层次进行r 舰范化,因此在维度很多的情况f 可以节省存储空间,并使复杂维度的层次结构清晰,但雪花型结构在查询的时候可能 涉及更多的连接操作,降低了查询效率。 在大多数的数据仓库设计中,绝大部分主题采用了星型模型,只有少数十分复杂 的主题,为了更清晰的定义问题采用了雪花模型。 2 1 5 4 物理模型 物理模型描述了数据仓库的物理结构,是逻辑数据模型在数据仓库中的实现,包 括数据存储结构、数据存放位置、存储分配以及索引策略等。在进行物理模型设计时, 所考虑的主要因素有:i o 存取时间、空间利用率和维护代价等。 从逻辑模型转向物理模型的设计,完全遵循传统的数据库设计方法。以星型模型 为例,在物理模型设计中,事实表通常转变为一个具体的物理数据库表,而维度表则 作为查询参考、过滤和聚合数据使用,因此根据分析需求并不要求所有的维表都转换 成实际的物理表。、 2 1 6e t l 过程( e x t r a c t i o nt r a n s f o r m a t i o nl o a d ) e t l 即数据抽取、转换和加载,是数据仓库实现过程中,从数据源系统向数据仓 库系统加载的主要过程“”。e t l 过程关系到数据的质量,是数据仓库应用的基础。根 据国外数据仓库系统的建设经验,这个过程一般占到整个过程的一半以上。 2 1 6 1 数据抽取 数据抽取就是从数据源获取数据的过程,典型的数据抽取接口包括数据库接口和 文件接口。对于不同数据平台、不同源数据形式、不同性能要求和业务量的业务系统 以及不同数据量的源数据采取不同的数据抽取接口。数据抽取必须既能够充分满足决 策支持系统的需要,又要保证不影响业务系统的性能。所以,在进行数据抽取时应制 定相应的策略,包括抽取方式、抽取时机、抽取周期等内容。 2 1 6 2 数据转换 数据转换根据数据仓库系统模型的要求对从业务系统中抽取的源数据进行数据 的转换、清洗、拆分、汇总等处理,保证数据的一致性和完整性,并按照要求装入仓 库。 2 1 6 3 数据加载 数据加载就是将从数据源系统中抽取、转换后的数据加载到数据仓库中。数据加 南京航空航天大学硕士学位论文 载要考虑加载周期及数据追加策略两方面的内容。 根据电信业务数据的实际情况,加载周期要综合考虑业务需求和系统加载的代 价,对不同业务系统的数据采用不同的加载周期但必须保持同一时间业务数据的完 整性。数据追加的策略根据数据的抽取策略及业务规则,一般有以下三种类型: i 。直接追加,每次加载b 寸直接将数据追加到目的表中。对于典型的流失数据,如 业务清单、账单等可以采取这种方式。 2 全部覆盖,如果抽取数据已包括了数据当前和所有的历史状况,可对目标表采 用全部覆盖的方式。例如,电信资费规则的定义数据可以采用此方式。 3 更新追加,对于需要连续记录业务的状态变化,并用当前最新状态同历史状态 数据进行对比的情况可采用更新追加方式。典型情况是客户记录数据追加。 2 2 数据挖掘技术 2 2 1 数据挖掘概述 数据挖掘,简而言之,就是从数据集中自动识别出有用的相关知识“钌n ”,又称作 数据库中的知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ,筒记为k d d ) ,是从大型数 据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式, 它是数据库研究中的个很有应用价值的新领域,融合了数据库、人工智能、机器学 习、统计学等多个领域的理论和技术。 数据挖掘的数据源一般是商业数据仓库,它利用统计学和机器学习技术对将来的 趋势和行为进行预测,对数据仓库中的海量数据进行分析处理,并以适当的形式把结 果表示出来,从而很好地支持人们的决策。目前数据挖掘技术在商业应用中已经可以 投入使用因为对这种技术进行支持的三种基础技术已经笈展成熟,它们是:海量数 据搜集,强大的多处理器计算机和数据挖掘算法。 数据挖掘是一个多阶段的处理过程,通常意义上的利用模型进行数据挖掘只是其 中的一个阶段。在这个多阶段的处理过程中还存在着很多的反复。 数据挖掘的多阶段处理过程大致如图2 4 所示“。 移动通信经营分析系统的构建与客户流火分析 t 提取与处理 。 图2 4 数据挖掘过程 该过程包括了以下的处理步骤; 数据提取:根据要求从数据库中提取相关的数据,数据挖掘主要从这些数据中进 行知识提取,在此过程中,需要利用一些数据库操作对数据进行处理。 数据预处理:对选择的数据进行再加工,检查数据的完整性及一致性,对其中的 噪声数据进行处理,去除冗余数据填补丢失的数据。 数据选择:从经过预处理的数据集中筛选出与分析目标无关或关系很小的属性, 在此进行特征抽取。 数据变换:将数据变换或统一成适合挖掘的形式,如数据汇总。 数据挖掘:根据应用的要求,选择合适的数据挖掘算法及模型参数,建立数据挖 掘模型,从数据中提取所需的知识,并以定的形式展现出来。如决策树结构,关联 规则集。 解释与评价:将挖掘的知识以用户可以理解的方式呈现给用户,并对所得的结构 进行解释。包括对知识的一致性检查,模型的验证,识别知识的真正有趣的模式。 2 2 2 数据挖掘的功能 1 自动预测趋势和行为 数据挖掘自动在大型数据库中寻找预测性信息。一个典型的例于是市场预测问 题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预 测的问题包括预报结果以及认定对指定事件最可能做出反应的群体 2 ,关联分析 关联分析,即利用关联规则进行数据挖掘。数据关联是数据库中存在的一类重要 一1 2 南京航空航大大学硕十学位论文 的可被发现的知识。若两个或多个变量的取值之问存在某种规律性,就称为关联。关 联- 可分为简单关联、时序关联、因柴关联。关联分析的目的是找出数据库中隐藏的关 联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分 析生成的规则带有可信度。 3 聚类 数据库中的记录可被划分为一系列有意义的子集,即聚类。聚类增强了人们对客 观现实的认识,是概念描述和偏差分析的先决条件。8 0 年代初,m c h a l s k i “”提出了概 念聚类技术,其要点是,在划分对象时不仅考虑对象之问的距离,还要求划分出的类 具有某种内涵描述,从而避免了传统技术的某些片面性。 4 概念描述 概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描 述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对 象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区 别性描述的方法很多,如决策树方法、遗传算法等。 5 ,偏差检测 数据库中的数据常有一些异常记录,从数据库中检铡这些偏差很有意义。偏差包 括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测 值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之 问有意义的差别。 2 2 3 数据挖掘常用技术“9 1 人工神经网络 仿照生理神经网络结构的非线性预测模型,通过学习进行模式识别。神经网络是 由多个非常简单的处理单元彼此按某种方式相互连接而成的计算机系统,可以完成分 类、聚类、特征挖掘等多种数据挖掘任务。 2 决策树 决策树是一个类似于流程图的树结构其中每个内部节点表示在一个属性上的测 试,每个分支代表一个测试输出,而每个叶节点代表类或类分布。它的基本思想是使 用有属性描述的训练数据,根据属性构造决策树。从根节点到叶节点为一条生成规则。 整棵树就代表着决策集的树形结构。用这棵树( 或由这棵树形成的规则集) 就可以对 测试样本进行分类预测 3 关联规则 由一个条件和一个结果组成的。形如i f t h e n 的简单形式就叫做规则,关联 移动通信经营分析系统构构建与客户流失分析 规则挖掘就是扫描整个数据集,从中找出具有给定的最小支持度和最小置信度的关联 规财“3 。其中最具代表性的足r ,a g r a w a l 提出的a p r i o r i 算法“。 4 近邻算法 将数据集合中每一个记录进行分类的方法。其中具有代表性的是k 最近邻算法。 这种方法通过k 个邻居的平均数据来预测该特定数据的某个属性或行为。这种方法 可甩作聚类o “、偏差分析m 1 等数据挖掘任务。 还有其他很多的数据挖掘方法,例如遗传算法,回归分析,模糊计算法,粗糙集 理论等。各种数据挖掘算法都有优点和有效的应用领域,但也存在着各种无法避免的 缺陷。随着问题复杂度的增加,单一技术已经无法有效地解决这些问题,结合多种数 据挖掘技术成为一种可行的解决办法。 2 3 人工神经网络 2 3 1 人工神经网络概述 人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k ,简记为a n n ) 是在对人脑组织结构和运 行机制的认识理解基础之上模拟其结构和智能行为的一种工程系统。早在本世纪4 0 年代初期。心理学家m c c u l l o c h 和数学家p i t t s 就提出了人工神经网络的第一个数学 模型,从此开创了神经科学理论的研究时代。1 9 5 7 年,r o s e n b l a t t 提出感知网络 ( p e r c e p t r o n ) 模型,这是第一个完整的a n n 。”。8 0 年代初,国际上掀起了人工神经网 络的研究高潮,并取得了引人瞩目的成果。1 9 8 2 年,物理学家h o p f i e l d 提出了h n n 模型o ,从而有力的推动了a n n 的研究:1 9 8 4 年h i l t o n 引入模拟退火法,提出 b o l t z m a n n 机网络,来保证整个系统趋于全局稳定点;r u m e l h a r t 和w i l l i a m s 等人发 展了多层网络的反向传播( b a c k p r o p a g a t i o n ) 算法“”,1 9 8 6 年r u m e l h a r t 和m c c e l l a n d 在( ( p a r a l l e ld i s t r i b u t e d p r o c e s s i n g ) ) 一书中,完整地提出了误差逆向传播学习算法, 被广泛接受,是目前最常用的神经网络模型之一,可用于语言综合、自适应控制等m 1 。 人工神经网络的知识存储容量很大。在神经网络中,知识与信息的存储表现为神 经元之间分布式的物理联系。它分教地表示和存储于整个网络内的各神经元及其连线 上。每个神经元及其连线只表示一部分信息,而不是一个完整具体的概念。只有通过 各神经元的分布式综合效果才能表达出特定的概念和知识。正是医为人工神经网络的 结构特点和其信息存储的分布式特点,使得它相对于其它的判断识别系统,如专家系 统等。具有另一个显著的优点:健壮性。人工神经网络因某些原因,无论是网络的硬 件实现还是软件实现中的某个或某些神经元失效,整个网络仍然能继续工作, 人工神经网络同现行的计算机不同,是一种非线性的处理单元只有当神经元对 所有的输入信号的综合处理结果超过某一门限值后才输出一个信号。因此神经网络是 一1 4 一 南京航空航大人学硕十学侥论文 一种具有高度非线性的超大规模连续时| - 【1 j 动力学系统。它突破了传统的以线性处理为 丛础的数字电子计算机的局限,标志着人类智能信息处理能力和模拟人脑智能行为能 力的一大飞跃。 2 3 2 人工神经网络的基本模型 神经网络近来越来越受到人们的关注,因为它为解决大复杂度问题提供了一种相 对来说比较有效的简单方法。神经网络常用于两类问题:分类和回归。 图2 5 给出了一种最基本的神经网络结构。在结构上,可以把一个神经网络划分 为输入层、输出层和隐含层。输入层的每个节点对
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 国家管网集团高校毕业生招聘考试题库(浓缩500题)附参考答案详解(轻巧夺冠)
- 2025国网云南省电力校园招聘(提前批)笔试模拟试题浓缩500题及答案详解1套
- 2026国网浙江省电力公司高校毕业生提前批招聘(约450人)笔试备考题库浓缩500题含答案详解(培优b卷)
- 2026国家能源投资集团有限责任公司高校毕业生统招考试参考试题(浓缩500题)及答案详解(各地真题)
- 2026秋季国家管网集团西南管道公司高校毕业生招聘考试备考试题(浓缩500题)及一套完整答案详解
- 国家管网集团山东分公司2026届秋季高校毕业生招聘考试参考试题(浓缩500题)附参考答案详解(b卷)
- 2026秋季国家管网集团西南管道公司高校毕业生招聘考试备考试题(浓缩500题)及答案详解【历年真题】
- 2025国网山西电力校园招聘(提前批)笔试模拟试题浓缩500题及答案详解(基础+提升)
- 2025国网四川省电力校园招聘(提前批)笔试模拟试题浓缩500题含答案详解(预热题)
- 2026秋季国家管网集团福建公司高校毕业生招聘笔试备考试题(浓缩500题)附答案详解(夺分金卷)
- 2024年中级经济师经济基础考试11月17日下午场真题及答案
- GB/T 46511-2025食品数字化工厂通用技术要求
- 会所股权转让合同范本
- 2025江苏苏州市姑苏区劳动人事争议仲裁院协理员招聘5人考试模拟试题及答案解析
- 人防项目风险管理与控制方案
- 新二上语文课内句子仿写晨读单
- 月考成绩分析会校长讲话:分数背后的真相与教学突围之路
- 中职汽车营销试卷及答案
- 江西制造职业技术学院2025年第二批合同聘用制人员招聘考试模拟试题及答案解析
- 护理专业科普
- 创伤性脾破裂课件
评论
0/150
提交评论