




已阅读5页,还剩40页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
武汉科技大学硕士学位论文第1 页 摘要 为了提高人寿保险行业工作效率和服务水平,建立高效的管理机制,适应业务的开展 和激烈的市场竞争,商业智能开始进入寿险行业,k p i 指标分析系统应运而生。本文基于 数据仓库、联机分析处理及数据挖掘等技术理论,研究了k p i 指标分析系统构建与实现。 本文首先介绍了课题研究背景,指出客户工作中面对的有关数据的难题,描述了k p i 指标分析系统的优越性;简要概述了数据仓库、联机分析处理及数据挖掘技术特点,深刻 分析了三者之间内在的联系性:给出了数据仓库的设计步骤,分析了数据仓库的体系结构, 讨论了联机分析处理及多维分析中的上钻和下钻等操作,描述了数据挖掘过程,给出常用 数据挖掘算法和比较分析。 本文描述了k p i 数据指标决策系统的建设背景和k p i 指标形成。参照c r i s p d m 重点 讨论了数据抽取、转换、加载技术整个e t l 的实现过程;其中以k p i 中“保费契撤率一指 标为例,给出了数据仓库模型设计中相应事实表和维表的创建和相应s q l 存储过程。本文 描述了面向主题的分析模型在k p i 指标分析系统的展现;提出了基于数据仓库,综合应用 联机分析处理和数据挖掘技术的k p i 指标分析系统的总体设计方案;本文理论上提出多维 复杂查询分析优化思想,为k p i 指标分析系统在人寿保险领域的应用做出了有价值的探索。 关键词:数据挖掘;数据仓库;联机分析处理;关键业绩指标;商业智能 第1 i 页武汉科技大学硕士学位论文 a b s t r a c t f o ral i f ei n s u r a n c ei n d u s t r yt oi m p r o v ee f f i c i e n c ya n ds e r v i c el e v e l ,i tn e e d st os e tu p e f f i c i e n tm a n a g e m e n tm e c h a n i s m ,a d a p t e dt oc a r r yo u to p e r a t i o n sa n dt h ef i e r c em a r k e t c o m p e t i t i o n b u s i n e s si n t e l l i g e n c eb e g i n st oe n t e rt h el i f ei n s u r a n c ei n d u s t r y , k p i sa n a l y s i si s u s e d b a s e do nt h ed a t aw a r e h o u s e o n - l i n ea n a l y t i c a lp r o c e s sa n dd a t am i n i n g , t h i st h e s i s d e s c r i b e st h ek p ia n a l y s i ss y s t e mc o n s t r u c t i o na n di m p l e m e n t a t i o n t h et h e s i si n t r o d u c e s t h er e s e a r c hb a c k g r o u n d ,d e s c r i b e st h et a r g e tk p ia n a l y s i so ft h e s u p e r i o r i t yo ft h es y s t e m ,t h eo v e r v i e wo fd a t aw a r e h o u s i n g ,o n l i n ea n a l y t i c a lp r o c e s s i n ga n d d a t am i n i n gf e a t u r e s ,a n dad e e pa n a l y s i so ft h et h r e ec o n t a c to ft h ei n t r i n s i cn a t u r e i ta l s og i v e s t h es t e p so fd a t aw a r e h o u s ed e s i g n ,a n a l y s i so ft h ed a t aw a r e h o u s ea r c h i t e c t u r e ,d i s c u s s e st h e m u l t i d i m e n s i o n a lo n l i n ea n a l y t i c a lp r o c e s s i n ga n da n a l y s i so fd r i l l i n ga n dd r i l l i n go p e r a t i o n s , d e s c r i b e st h ep r o c e s so fd a t am i n i n ga n dc o m m o n l yu s e dd a t am i l l i n ga l g o r i t h ma n dc o m p a r a t i v e a n a l y s i s t h ek p i s s y s t e mi nt h et h e s i s d e s c r i b e st h ed a t ac o n s t r u c t i o no ft h ec o n t e x to f d e c i s i o n m a k i n gs y s t e ma n dt h ef o r m a t i o no fk p it a r g e t c r i s p - d mr e f e r e n c ef o c u s e so nd a t a e x t r a c t i o n , t r a n s f o r m a t i o n , l o a d i n gt h et e c h n i c a li m p l e m e n t a t i o n o ft h ee n t i r ee t l p r o c e s s , t a k i n g ”l e a s ep r e m i u m sw i t h d r a w a lr a t e 勰a ne x a m p l et a r g e t ,t h i st h e s i sd e s c r i b e st h ed e s i g n o fd a t aw a r e h o u s em o d e l ,a n di n t r o d u c e st h ec r e a t i o na n dc o r r e s p o n d i n gs q ls t o r e dp m c e d u r e f o rf a c ta n dd i m e n s i o nt a b l e w ed e s c r i b et h ea n a l y s i so fs u b j e c t - o r i e n t e dm o d e lo ft a r g e tk p i s a n a l y s i ss y s t e ma tt h es h o w b a s e do nd a t aw a r e h o u s e ,o n l i n ea n a l y t i c a lp r o c e s s i n gi n t e g r a t e s a p p l i c a t i o na n dd a t am i n i n gt e c h n o l o g i e st a r g e tk p i sa n a l y s i ss y s t e md e s i g np r o g r a m i nt h e o r y , w ep u tf o r w a r dm u l t i d i m e n s i o n a la n a l y s i so fc o m p l e xq u e r yt h o u g h to p t i m i z ef o rt a r g e tk p i s a n a l y s i ss y s t e ma tt h ef i e l do fl i f ei n s u r a n c ea p p l i c a t i o nm a d et oe x p l o r ep o t e n t i a l k e yw o r d s :d a t am i n i n g ;d a t aw a r e h o u s e ;o nl i n ea n a l y t i c a lp r o c e s s ;k e yp e r f o r m a n c e i n d i c a t i o n ;b u s i n e s si n t e l l i g e n c e 武汉科技大学 研究生学位论文创新性声明 本人郑重声明:所呈交的学位论文是本人在导师指导下,独立进行研 究所取得的成果。除了文中已经注明引用的内容或属合作研究共同完成的 工作外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。 对本文的研究做出重要贡献的个人和集体,均己在文中以明确方式标明。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 论文作者签名:黄趣日期:兰1 7 :! :? 7 研究生学位论文版权使用授权声明 本论文的研究成果归武汉科技大学所有,其研究内容不得以其它单位 的名义发表。本人完全了解武汉科技大学有关保留、使用学位论文的规定, 同意学校保留并向有关部门( 按照武汉科技大学关于研究生学位论文收录 工作的规定执行) 送交论文的复印件和电子版本,允许论文被查阅和借阅, 同意学校将本论文的全部或部分内容编入学校认可的国家相关数据库进行 检索和对外服务。 论文作者签名: 指导教师签名: 日期: 煎茎塑 越缝垄 圣:望:翌 武汉科技大学硕士学位论文第l 页 1 1 本课题的研究背景和意义 第一章绪论 寿险是保险行业的一个重要分支,具有巨大的市场发展空间,因此,随着寿险市场的 开放、外资公司的介入,竞争逐步升级,群雄逐鹿已成定局如何保持自身的核心竞争力, 使自己始终立于不败之地,是每个企业必须面对的问题。信息技术的应用无疑是提高企业 竞争力的有效手段之一寿险信息系统经过了多年的发展,已逐步成熟完善,并积累了相 当数量的数据资源,为数据挖掘提供了坚实的基础,而通过数据挖掘发现知识,并用于科 学决策越来越普遍受到寿险公司的重视。 本文涉及的是国内一家知名人寿保险公司。其各部门主管在业务发展中面对日益增多 的数据管理上显得效率不足:大量积累的业务数据本应是通过分析为公司提供决策依据, 但由于缺乏有效的分析手段,主管们很难从这些数据中获得价值,也无法从中提取对部门 管理更行之有效的关键业绩指标,以考核业务部门的管理和提高业务部门的管理水平。 数据仓库和数据挖掘在解决企业面临诸如:风险、增值和绩效等问题时提供了很好的 解决方案。例如:超市中进销存系统的应用,银行业中的客户数据挖掘,项目实施风险中 的应用和电信增值服务中的应用等等。而本文主要描述数据仓库和数据挖掘在人寿保险领 域中的研究和应用。每当要对寿险中大量历史的业务数据或是某一特定时间间隔的数据进 行处理以获取有用的信息时,这时就必须实施数据整理,利用数据仓库技术,建立起全新 的数据挖掘、知识发现体系,获得有价值的和较直观的信息用于分析决策参考和辅助管理。 关键业绩指标( k p i ) ,是通过对部门内部某流程绩效衡量的一种目标式量化管理指标, 是把企业的战略目标分解为可运作的远景目标的工具,是企业绩效管理的基础。本文针对 寿险行业业务管理的k p i 指标分析进行了数据挖掘,其挖掘过程与其他行业应用相似之处 在于:都是先通过需求分析对客户原有数据进行质量控制,以此为基础进行数据仓库设计, 再采用数据分析方法来提取对客户有价值的信息。从寿险业务需求角度出发,通过对寿险 公司各部门数据库数据的研究,形成了基于数据仓库的寿险多元行销部门整体架构,得到 了系统主要的主题分析,完成了基于主题分析的数据仓库建模;并将判定树归纳、多维 o l a p 概念分层应用到k p i 指标分析挖掘过程中;利用“可视化查询器”将客户所需的k p i 指标分析以3 一d 直方图、报表、曲线图和仪表盘图等多种形式呈现给客户,最终完成对k 1 i 决策分析的挖掘工作。为客户信息化业务管理提供了很好的决策支持。 1 2 数据库与数据仓库 数据库与数据仓库都是用来储存数据的,那么数据存储的最终目的是什么呢? 首先, 它一定是数据。这类信息在海量数据库中都是支离破碎的,对于企业一般人员来说并不是 一个很有意义的东西。那么,我们存储数据的最终目的应该是把数据转化为信息,信息对 企业执行者、运营者包括商务人员和市场人员有很重要的作用。进而企业运营者把他们的 一些业务经验、行业背景知识与这些信息结合起来,就可以变成知识。所以,对一个企业 第2 页武汉科技大学硕士学位论文 来说,这就是把一些死的数据转化为信息和知识,即知识发现( k d d ,k n o w l e d g ed i s c o v e r y i nd a t a b a s e s ) 。变成知识后,我们才能够为企业下一步决策做出引导,才能对企业真正带来 价值。 那么数据库和数据仓库都是用来存放数据的,它们之间究竟有什么不同呢? 首先从定 义的角度出发,来看看它们之间的区别。 数据库是指长期储存在计算机内的、有组织的、可共享的数据集合【i 】。在这个集合中 可以按照信息的逻辑结构对其进行组织与存取。 数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合【2 】。 数据仓库,是在已有数据库的情况下,为了进一步挖掘数据资源、为了决策需要而产 生的,它决不是所谓的“大型数据库 。数据仓库与传统数据库区别在于: 面向主题的:传统数据库主要是为应用程序进行数据处理,未必按照同一主题存储数 据;数据仓库侧重于数据分析工作,是按照主题存储的。 与时间相关:数据库保存信息的时候,并不强调一定有时间信息。数据仓库则不同, 出于决策的需要,数据仓库中的数据都要标明时间属性。 不可修改:数据仓库中的数据并不是最新的,而是来源于其它数据源。数据仓库反映 的是历史信息,并不是很多数据库处理的那种日常事务数据。 1 3 数据仓库 1 3 1 商业智能与数据仓库 商业智能( b i ,b u s i n e s si n t e l l i g e n c e ) 通常被理解为将企业中现有的数据转化为知识, 帮助企业做出明智的业务经营决策的工具。b i 目的就是怎么把数据变成目标和知识。因此, 从技术角度上来讲,b i 不是什么新的技术,它只是数据仓库、o l a p 和数据挖掘等技术的 综合应用。 近些年来,整个商业智能体系结构已经有了相当的发展,从简单的商业报表输出和主 管信息系统( e i s ,e x e c u t i v ei n f o r m a t i o ns y s t e m ) ,到多维分析统计和数据挖掘,再到可定 制的分析应用技术的引进,所有这些技术都促使了b i 环境的构建日趋成熟。商业智能决 策支持系统【3 】【4 】就是最好的例证,它以数据仓库技术为基础,对大量的市场营销数据进行 处理,再按照一定的业务逻辑进行重新组织和分析,通过灵活的前端展现。实时商业智能 【5 1 ( r t b i ,r e a l t i m eb u s i n e s si n t e l l i g e n c e ) 及其在运营风险管理上的应用【6 】就是商业智能系 统发展的最新体现。 数据仓库是分布式数据源的存储体系结构。其特点是主要处理趋于静态的数据,是一 个典型的主体数据库。它使用深入企业数据库当中跟踪操作数据,以得到业务趋势,最终 完成预测和计划。数据集市是一种便捷的数据源子集的存储方式,通常来自数据仓库。它 是从数据仓库抽耿的一个特定的主题。 数据仓库在设计中的两个思想 武汉科技大学硕士学位论文第3 页 第一,它必须有一个合适的粒度或细节级别以满足所有的数据集市,即:它必须包括 具有最少公共点的细节数据,以便提供聚集的、汇总的集市,以及提供用于事务级别的探 索和挖掘的仓库; 第二,该设计必须适应多维集市、统计、挖掘以及探索型仓库,还必须适应分析型应 用,以支持任何新的尖端技术。它必须支持的模式包括:星型模式、平面文件、规范化数 据的统计型子集以及b i 将来需要的模式。 1 3 2 数据仓库正在成为主流 最初,有四个主要的因素促使越来越多的公司使用数据仓库:激烈的竞争环境、政府 缩小管制、重构内部流程的需要和急需为用户定制的市场销售策略。 电信业、金融业和零售业是最早采用数据仓库的行业。零售业采用数据仓库是因为激 烈的市场竞争。即将或正在采用数据仓库的行业是金融服务、医疗保健、保险行业和制造 业。今天,电信和银行业一如既往地在数据仓库费用上保持着大量的投入,并且分别占到 了两个行业预算的1 5 以上。从事这些行业的公司收集了大量的交易数据。由此采用数据 仓库有利于将这些数据转化成为公司决策的战略信息。 现在市场上数据仓库的主流产品有:o r a c l eh y p e r i o ni n t e l l i g e n c e ,s p s s & c l e m e n t i n e , s q ls e r v e r2 0 0 5 2 0 0 8b u s i n e s si n t e l l i g e n c ed e v e l o p m e n ts t u d i o ,s a p ( s y s t e m sa p p l i c a t i o n , p r o d u c t si nd a t ap r o c e s s i n g ) 和m i c r os t r a t e g y 等。 1 4 数据仓库模式 数据仓库和o l a p 基于多维数据模型,该模型将数据看作数据立方体形式,即允许以 多维角度对数据建模和观察,它由维和事实定义。多维数据模型围绕中心主题组织,该主 题用事实表表示。事实表包括事实的名称或度量,以及每个相关维表关键字。数据仓库多 维数据模型常用的三种模式: 星型模式( s t a rs c h e m a ) :包括一个大的包含大批数据和不含冗余的中心表( 事实表) 和一组小的附属表( 维表) 。 雪花模式( s n o w f l a k es c h e m a ) :是星型模式的变种,将某些维表进一步规范化,因而 将数据进一步细分到相应的表中。 事实星座( f a c tc o n s t e l l a t i o n ) :如图1 1 所示,该模式是多个事实表共享维表,即,事 实表s a l e sf a c tt a b l e 和s h i p p i n gf a c tt a b l e 共享维表:t i m e 、i t e m 和l o c a t i o n 。 第4 页武汉科技大学硕士学位论文 1 5 数据仓库与数据挖掘 图1 1 数据仓库的事实星座模式 数据仓库与数据挖掘区别:数据仓库是一种存储技术,它适应于不同用户对不同决策 需要提供所需的数据和信息,而数据挖掘研究各种方法和技术,从大量的数据中挖掘出有 用的信息和知识。 数据仓库与数据挖掘的联系是:数据挖掘为数据仓库提供了更好的决策支持。企业领 导的决策要求系统能够提供更高层次的决策辅助信息,而基于数据仓库的数据挖掘能更好 地满足高层战略决策的要求【引。数据挖掘对数据仓库中的数据进行模式抽取和发现知识, 从数据仓库中揭示出对企业有潜在价值的规律知识,形成知识发现【9 】,为知识管理提供了 内容,在知识管理中起到了重要作用。数据挖掘可作为对数据的第一遍筛选,从商务的角 度决定哪些原始数据是最重要的,哪些应该被加载到数据仓库中去e l o 】。 成功的数据挖掘前提条件就是通过访问正确、完整和集成的数据,才能进行深层次的 研究与分析,以得到有益的信息,而这一条件也正是数据仓库能够满足的,即是数据挖掘 所需的高效率的数据。数据仓库不仅是集成数据的一种方式,而且数据仓库的联机分析功 能为数据挖掘提供了一个很好的操作平台。如图1 2 所示,数据仓库依据逻辑层次将数据 划分到对应的数据集市,为数据挖掘提供了高质量的数据;同时,数据挖掘为数据仓库的 构建提供了很好的支持。 图1 2 数据仓库和数据挖掘的关系 武汉科技大学硕士学位论文第5 页 1 6 基于数据仓库的k p i 指标分析系统体系结构 数据仓库体系结构( d a t aw a r e h o u s ea r c h i t e c t u r e , d w a ) 是一种方法,使用该方法表 示企业内所有的数据结构、处理以及对终端客户处理的呈现【1 1 1 。同时,它集成了数据仓库、 o l a p 和数据挖掘等信息处理技术,并由业务系统、b i 企业仓库( 数据集市) 和前端展现 层组成。各个部分的作用如下: 业务系统:数据仓库的数据都是来自各个部门的业务系统,它主要由操作型事务处理 系统和相关的数据组成。不同部门所处理的事务是不同的,相应业务系统所面向的逻辑主 题也是不同的。松散的数据没有集成起来,被分散在不同的系统环境中。这些数据是分析 系统的主要数据来源,为k p i 指标分析提供了丰富的、可靠的和历史性的数据,是建立数 据仓库的物质基础。 企业仓库( e n t e r p r i s ew a r e h o u s e ) :收集了整个企业部门的主题信息,因此,它是企业 范围的,提供企业范围内的数据集成。企业仓库在整个分析系统中处于核心地位,是一个 中央存储库。它对业务系统数据库中的事务级数据进行集成、转换和装载,将数据重新组 合成面向分析的或各个主题的全局数据视图,并为数据分析和挖掘提供了高效的数据。 前端展现层:客户最终通过访问前端展现层来得到所需的k p i 指标分析数据,这一层 也是终端客户用来对数据仓库中的数据提取和分析的工具。结果展现以文字、报表、曲线 和各种图形的方式,简便、快捷地展现出来。 类似b l 体系结构是指通过识别和理解数据在系统中的流动过程和数据在企业的应用: 过程来提供系统应用的主框架【1 2 1 。 基于数据仓库的k p l 分析系统的体系结构如图1 3 所示: 图1 3 基于数据仓库的k p l 分析系统的体系结构 上图表明,当有更新的数据进入业务系统时,e t l 会采用相应的增加载策略做好数据 准备。当再进行查询时,例如最新的k p i s 指标状况,能够反映实时数据变化,则把准备 好的数据导入到企业仓库中,即以最快速度把它导入到多维数据集中,最后通过前端展现 第6 页武汉科技大学硕士学位论文 返回给客户。 1 7 本文的结构安排 本文分为六章,各章内容组织如下: 第一章简要地介绍了本文研究背景和意义、描述了数据仓库概念。给出了基于数据仓库 的k p l 分析系统的体系结构,列举了本文主要工作及结构安排。 第二章介绍了o l a p 概念、作用、操作、展现和数据挖掘与o l a p 的关系。 第三章介绍了数据挖掘概念、语言和在商业中的应用;以决策树算法和神经网络算法为 例,讲述了数据挖掘的常用技术。利用c l e m e n t i n e 和s q l 0 5 b i 对算法进行了比较 分析。给出了标准商业数据挖掘流程。 第四章基于对寿险商业数据理解,分别对商业e t l 中数据清洗准备、数据转换和数据加 载进行详细的阐述。仓库逻辑模型设计中,重点对事实和维度的一致性作了必要 的介绍。简要的描述了数据仓库构建所需软、硬件搭建环境,基本上实现了基于 k p i 指标系统数据仓库从理论到实现的构建。 第五章对k p i 指标数据分析和存储过程创建作了简要介绍,利用前端展现工具k p i 指标 预警机制等多种形式对结果进行展现。在o l a p 多维查询分析基础上结合数据挖 掘信息熵理论,从理论上提出了优化多维复杂查询分析的思想理论。并且对b i 前 端展现领域做出进一步研究。 第六章总结了本文所作的研究工作和对将来的工作内容做出了展望。 武汉科技大学硕士学位论文第7 页 第二章o l a p 技术分析 o l a p 是一些系统的现行称谓,这些系统以前称为决策支持系统( d e c i s i o ns u p p o r t s y s t e m , d s s ) 或者是多维数据库。 与关系数据库包含了许多表类似,o l a p 数据库包含了许多立方体。立方体包含一组 定义明确的维和度量。每个维包含一个或者多个层次。例如:超市中典型的s a l e s 立方体 包含多个维,如c u s t o m e r 、p r o d u c t 、t i m e 和s t o r e 。c u s t o m e r 维包含地理层次: c o u n t r y - ) s t a t e - ) c i t y 。该立方体也包含多个度量,如u n i ts a l e s 、s t o r es a l e s 、p r o f i t 和c o s t 。 2 1o l a p 与o l t p 的区别 联机分析处理( 0 u 屺o n - l i n e a n a l y t i c a lp r o c e s s i n g ) 概念最早是由关系数据库之父 e e c o d d 于1 9 9 3 年首次提出的。当客户需要在原有数据仓库中进行复杂计算和操作的多 维分析( 多维分析是一种分析数据的方法,它表明了数据之间许多不同的关系,而每一个 关系就代表着一个维度) 时,传统的分析工具:报表编辑器、电子数据表和查询产品等, 都存在或多或少的不足,无法满足客户的需求。这时能够解决的方案即为o l a p ,它是基 于数据仓库中创建的o l a p 多维数据集。例如:基于m i c r o s o f ta n a l y s i ss e r v i c e s 的o l a p 分析系统【1 3 】。 联机事务处理( o l t p , o n - l i n et r a n s a c t i o np r o c e s s i n g ) 是指利用计算机网络,将分布于不 同地理位置的业务处理计算机设备或网络与业务管理中心连接,以便于在任何一个网络节 点上都可以进行统一、实时的业务处理活动或客户服务。o l t p 是传统的关系型数据库的 主要应用,主要是基本的、日常的事务处理。o l t p 支持数据的快速插入和修改,提供单 个记录的查询和支持数千个并发用户,例如银行前台事务:存款、取款和注销账户等。 o l a p 是数据仓库系统的主要应用,支持复杂的分析操作,注重决策支持,并且提供 直观易懂的查询结果。下面列出了o l a p 与o l t p 之间的主要区别: o l t p 是面向顾客的,用于技术专业人员的事务和查询处理;o l a p 是面向市场的,用 于知识工人( 包括经理、主管和分析人员) 的数据分析。 o l t p 系统管理当前数据;o l a p 系统管理大量历史数据,提供汇总和聚集机制,并在 不同的粒度级别上存储和管理信息。 令o l t p 系统采用实体联系( e r ) 模型和面向应用的数据库设计;o l a p 系统采用星型 或雪花模型和面向主题的数据库设计。 令o l t p 系统主要关注一个企业或部门内部的当前数据,而不涉及历史数据或不同组织的 数据;而o l a p 系统常常跨越数据库模式处理来自不同组织的信息,由多个数据存储 集成的信息。 第8 页武汉嗣杖大学硕士学位论文 2 2 0 l a p 立方体的作用 因为o l a p 中文定义描述为联机分析处理所以它在实际应用中一定会用到多维数据 库。为了支持有效的多维数据分析。1 9 9 6 年,g r a y 等首次提出了数据立方体( d a t ac u b e ) 1 4 l 的概念,基于数据立方体的相关知识一直都是数据仓库和o l a p 领域的热门研究方向。 多维数据库中通常都有立方体的构建其目的就是为了支持决策查询。典型的立方体 包含一组定义明确的维,每个维包含许多成员,维的成员又是通过层次的方式来组织的。 例如:在p r o d u c t 维中的层次是a l ll h o d u c t s - ) c a t e g o r y - ) s u bc a t e g o r y - ) p r o d u c tn a m c 。可 以在层次的不同级别上查询聚集的值。 o l a p 作用是基于维层次来聚集度量并且将以特定数据结构来存储这些预处理的聚集 等信息。通过这些预处理可以查询聚集的数据信息井实时在线返回决策支持查询的结果。 相反,传统的方式是需要在批处理和脱机模式下才能完成。 关系数据库中的表一定都是二维的,而在o l a p 多维数据库中却是多维的。例如:二 月份我在广州卖掉了价值十万美元的牛奶,如图21 所示,“二月份”为时6 j 维度( 月份) ; 卖的产品是什么,就是“牛奶”所属的产品维度;“广州”为地域维度:“十万美元”就是 图中用黄颜色标注的小单元是度量值。 图2 , 1 0 l a p 是多维的:时问维、产品雏和地域维 立方体包含一组度量,度量来自事实表,在该表中存储了每个事务的详细信息。这些 度量是基于维的层次来进行诸如聚集的预处理。事实表用于存储每个单独事务的度量值。 立方体可以包含多个事实表。例如:通过一个s a l e s 事实表和一个i n v e n t o r y 事实表,立方 体既可以存储关于销售额的信息,也可以存储关于存货的信息。这时事实表就是度量组, 同时立方体可以包含多个度量组。 一个度量是用于衡量业务成效的数据。是用于确定业务操作成功的量化结果,或关键 的性能指标。通常有三种类型的度量: 标准度量:是直接从数据源中的一个有效数据源列提取数据。 汁算度量:在数掘源列不直接生效时,为度量衍生出了新的数值。 类别计数度量:是计算类别数的一种度量类型,而不是行数:它专门为选定的维度和 武汉科技大学硕士学位论文第9 页 层次计算唯一、非丢失和非零值。 维度表示数据的最高级别层;层表示维度数据逻辑上的等级关系。维度可以典型地说 明谁、什么、什么时间和什么地方一类的问题。在模型中的有效维度决定了应用能够回答 问题的类型。层次化的维度是按业务的组织结构表达数据的等级关系。每个维度上层的等 级则确定了未来将要钻取的路径。 维度与度量值组之间区别:维度往往是离散的,它是描述事实数据表中数据级别的有 组织的层次结构。例如:在产品维中可乐、牛奶、肥皂和纸巾;而度量往往是可汇总的、 累加的、取平均值、最大值、最小值以及方差,即可以计算的。 例如s q ls e r v e r2 0 0 5a n a l y s i ss e r v i c e s 中,维度与度量值组之间的关系 i s l : 常规关系:维度与度量值组基于主一- # b 键形式。例如:星型架构中维度表与事实表 之间的关系。 引用关系:通过其它维度的键列,多维数据集的维度与度量值组之间联系的一种形式。 例如:雪花型架构中的维度与事实表之间的关系。 事实关系:又称为退化维度,是通过事实数据表而不是维度表中的列构造的标准维度。 例如:想看事实表中非维度属性,比如在财务方面,通常对每笔账都要做一个文字性 的备注。 多对多关系:通过指定联接到维表的中间事实数据表来定义维度与度量值组之间的关 联。 2 3 多维数据模型上的o l a p 操作 概念分层( c o n c e p th i e r a r c h y ) 定义一个映射序列 有时也称为粒度( g r a n u l a r i t y ) ,是 指数据元素中包含的信息的确切性程度。在多维数据模型o l a p 操作中,数据组织成多维, 每一维包含由概念分层定义的多个抽象层,在这些抽象层上可以进行如下操作: 上钻( d r i l l u p ) :又称上卷操作( r o l l - u p ) ,通过一个维的概念分层向上攀升或者通过维 归约,在多维数据模型上进行聚集。 下钻( d r i l l d o w n ) :下钻操作对给定数据添加更多细节,它也可以通过添加新的维到 多维模型中来实现。如图2 2 所示,按部门“北京分公司 向下钻取,得到新的维:营业 部、国外部、人身险部和车险部。 第1 0 页 武汉科技大学硕士学位论文 图z 2 按机构下钻 转轴( p i v o t ) :( 旋转( r o t a t e ) ) 是一种目视操作,它转动数据的视角提供数据的替 代操作。图2 3 采用了s p s s ( s t a t i s t i c a lp a c k a g e f o r t h e s o c i a ls c i e n c e 社会科学统计软件包) , 通过3 一d 直方图转换:轴c t a r ts a l a r y 与轴e m p l o y m e n t c a t e g o r y 对换所产生的效果图。 图2 3 3 - i 直方图旋转效果图 2 4o l a p 立方体查询语言m d x o l a p 立方体查询语言( m d x ,m u l t i d i m e n s i o n a le x p r e s s i o n ) 也称作多维表达式。提 供了一种多方位的、基于描述的脚本语言,用于定义、管理和查询m i c r o s o rs q ls c t v 盯 a n a l y s i ss e a v i c e s 多维模型中的数据。通过m d x 能完成计算、分组、比较、排序和筛选等 功能。 在整个b i 过程中m d x 作用:m d x 在数据集成和准各过程中实现构造查询和转换, 在数据分析过程中定义维度、集合、计算成员和k p i 指标等,在数据展现过程中用于构造 多维报表。 s q l 与m d x 的区别:s q l 语言提供了对关系型数据库的查询用于处理二维数据, 而m d x 在扩展s q l 基础上提供了一种查询多维数据集的有效途径;与s q l 相比,它 提供了数据定义的功能,也就是表达的功能。 武汉科技大学硕士学位论文第1 l 页 在s q l 中,s e l e c t 子句用来指定查询列布局,而w h e r e 子句用来指定返回行布局。在 m d x 中,s e l e c t 子句可用于定义多个维,而w h e r o 子句用来将多维数据限制到特定维度上 或者成员上;o l a p 查询或m d x 查询返回立方体一部分,即o l a p 立方体查询语言返回 的是一个立方体或者立方体的一部分。例如:为检索半导体产品中总的u n i ts a l e s 和r e g i o n s a l e s 的m d x 。 s e l e c t m e a s u r e s u n i ts a l e s ,m e a s u r e s r e g i o ns a l e s 0 nc o l u m n s , r e g i o n r e g i o nn a m e m e m b e r s o nr o w s f r o ms a l e s w h e r ep r o d u c t a l lp r o d u c t s s e m i c o n d u c t o r 再例如:使用m d x 实现利润方面前十名的产品。 t o pc o u n t ( p r o d u c t p r o d u c ts k u m e m b e r s ,1 0 , m e a s u r e p r o f i t a b i l i t y ) 基于上述两例,可总结m d x 查询中的多维概念是通过以下三点得以实现的: 成员:维度树上的一个节点,可能是枝干节点,或者叶子节点; 元组:多维数据集上的一个子集; 数据集合:多维数据集上的若干个子集的集合。 在多维数据查询语言研究领域,提出一种基于m d x 的多维数据查询语言: m d s q l 1 6 1 。它全面支持m d x ,并且将多维查询的结果处理到电子表格上进行显示,语 法较m d x 简洁清楚。 2 4o l a p 与数据挖掘 联机分析处理和数据挖掘都是在数据仓库上获取两种不同目标的数据增值技术。通俗 地讲,o l a p 是用来分析过去的,报告过去的事情;o l a p 将现有大量数据整理成一个多 维结构,是基于维的定义来聚集大量的事务数据,用户可以随意地选择各种角度来对数据 进行分析。o l a p 回答的典型问题如下: 在大中华区域过去的一个季度中牛奶的总销售额是多少? 上半年在所有的商店中销售量最多的前三种产品是那些? 商店向男性和女性客户销售的产品数目各是多少? 在促销期间的每日销售额与日常的每日销售额有什么区别? 数据挖掘包括联机分析、分类、预测和聚类等,是一种有效地从大量数据中发现潜在 数据模式、做出预测性的分析工具,其分析过程是自动的。数据挖掘善于通过分析属性之 间的相关性来找出数据集中的隐藏模式,并且善于解答以下典型的问题: 喜欢购买最新型号的n o k i a 手机的客户的个人信息是什么? 如何为客户推荐个性化的产品7 预估在下一个季度中的公司销售额是多少? 应该如何对客户进行细分? 第1 2 页武汉科技大学硕士学位论文 大多数o l 廿技术来自数据库家族,而数据挖掘技术来自三个学术领域:统计学、人 工智能和数据库技术。这两类技术在一定程度上融合,从而可以全面提升商业智能技术的 实用价值: o l a p 在聚集方面给数据挖掘带来的好处。由于o l a p 的核心技术是聚集计算,因此 它可以通过数据转换步骤来帮助完成数据挖掘任务。而实际许多数据挖掘项目中,也只能 在聚集的数据中找出模式。因为很难直接从既有的事实表中直接发现模式。例如:分析在 t o w n 和c i t y 级别的雪地防滑鞋和轮胎的销售额都比较困难,因为城乡的数目较多。然而 将数据聚集到p r o v i l l c e 级别时,数据挖掘算法就可以容易地发现模式:防滑鞋和轮胎销售 最重要的区域是靠近东北三省的区域,这里的顾客最有可能购买上述产品。 o l a p 分析需要数据挖掘来发现模式。o l a p 立方体是结构良好的数据库。立方体中 的一个维中常包含数以万计的信息和聚集的值。那么如同众多的数据库,其立方体内部的 数据必定包含隐藏的模式,这时o l a p 立方体分析就需要数据挖掘技术来发现内部的信息 以有助于o l a p 分析。例如:客户细分,保险公司销售部门主管希望使用客户的统计信息 和聚集的度量来对他们现有的客户进行细分。 同时在现有商业智能的成熟分析软件产品中,两类技术的紧密结合得到的较好的体 现。并且越来越多的厂商将联机分析处理和数据挖掘方法融入到他们的产品中。 2 5 本章小结 本章首先通过o “心与o l t p 的对比,描述了联机分析处理的概念。随后从作用、操 作和分类的角度,借助s p s s ,进一步深层次诠释o l a p 。通过与s q l 对比对现阶段o l a p 语言m d x 做出简要描述。在o l a p 与数据挖掘的关系上做了必要的介绍,为下一章讲述 数据挖掘做好铺垫。 武汉科技大学硕士学位论文第1 3 页 3 1 什么是数据挖掘 第三章数据挖掘技术 回溯上世纪8 0 年代和9 0 年代早些时候,在数据挖掘和知识发现领域中用的最多的数 据挖掘技术有人工神经网络、决策树、遗传算法、距离最近邻算法和关联规则算法【1 1 矾。 伴随着企业信息化程度的提高,激烈的市场竞争中,大型商业公司在通过数据挖掘手 段来提高企业自身的竞争力越来越显得重要。例如:企业采用数据挖掘工具对客户进行了 级别的细分;卖场正在使用数据挖掘工具并在销售方式的改进,从而获得更多的市场份额。 那么,什么是数据挖掘呢? 数据挖掘( d a t am i n i n g ) 是从大量的、不完全的、有噪音的、模糊的、随机的实际应 用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程, 它是一种深层次的数据分析方法从客户关系管理系统( c u s t o m e rr e l a t i o n s h i p m a n a g e m e n t ,c r m ) 角度来看,数据挖掘的核心思想【1 9 】是过去的数据包含对未来有用的 信息。 数据挖掘是一个过程,在这个过程中,数据挖掘必须依靠交易处理( t r a n s a c t i o n p r o c e s s i n g ) 业务系统收集的客户端数据,用数据仓库存储客户历史行为信息。以此为基础, 再使用数据挖掘技术把历史数据转变成未来行动计划,然后通过某种客户关系策略将这一 计划付诸实施。 现开设一家网站,能够提供免费邮箱和会员邮箱两种服务。假设网站已经有5 0 0 万用 户在使用这两种服务,而只有5 0 万用户为会员缴费用户。那么这5 0 0 万和5 0 万用户就相 当于历史数据源。其中包含有大量的信息,例如:性别、年龄、收入、上网的频率和上网 的时段等。那么数据挖掘就是从这些信息中进行分析得到相应的挖掘模型。如果某个月又 新近注册了1 0 0 万用户,这些用户中哪些最有可能成为交费用户呢? 通过挖掘模型做出预 测,对最有把握的用户作一些市场促销活动,而对一些不愿在邮箱上花钱的用户就放弃以 上的市场宣传活动。将做完的预测结果进行前端展现。 数据挖掘与模型密切相关。模型是把一组输入关联到一个特定输出的一个算法或者规 则集,这里的数据通常是公司数据库字段的形式。模型也可用来产生得分( s c o r e ) 。得分 以一个简单的数值来表达模型输出的一种方式,例如,得分可用于将客户排序,从最忠诚 到最不忠诚;信用评分【2 0 】是将一个总体按照不同的特征分成若干不同组的数据分类输出方 法。 3 2 数据挖掘
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 田径普修理论期末考试题及答案
- 土壤水势与气候变化关系-洞察及研究
- 职业装耐久性评价模型-洞察及研究
- 2025年公需科目大数据考试所有测试题及答案
- 2025年高危儿培训试题及答案
- 2025年高级维修电工理论知识题库及答案
- 2025年高级会计师之高级会计实务通关题库附带答案
- 交安考试考试题库及答案
- 专职营销人员管理办法
- 中央防洪物资管理办法
- 超限货物运输安全
- 2024年江苏省对口单招英语试卷及答案
- 循环经济的环保意义
- 国家临床版3.0手术操作编码(ICD-9-CM3)
- 小学一年级上册体育全册教案
- GB/T 42866-2023煤化工废水处理与回用技术导则
- 2024年高考法语核心词汇全突破
- 病原生物与免疫学知识点
- 高等数学高职PPT完整全套教学课件
- 中国滑雪协会
- 抢救工作制度培训课件
评论
0/150
提交评论