




已阅读5页,还剩54页未读, 继续免费阅读
(计算机系统结构专业论文)商务智能在电信行业的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 商务智能是从海量数据中获取商业优势的艺术。它使用数据仓库和数 据集市作为数据存储区,通过o l a p 对各个业务运作进行统计和对用户 的假设进行验证。通过数据挖掘发现数据背后隐藏的模式,都是为决策提 供量的支持。 在其中的数据存储区建设中,关于建设数据仓库还是建立数据集市? 是进行e r 建模还是进行多维建模争论由来己久。通过对数据仓库的发 展过程的回顾,认为他们之间是相辅相成的。根据数据仓库规模的大小, 可以建立数据仓库一数据集市多层存储结构或数据集市的单层存储结构, 给出了它们的建模方法。 最后引用了参与的电信行业的商务智能项目。 关键字:商务智能;0 l a p :数据挖掘;e - r 建模;多维建模;数据仓库; 数据集市 a b s t r a c t b u s i n e s si n t e l l i g e n c ei sa l la r tt h a tg a i n sa d v a n t a g eo fb u s i n e s sf r o mv a s t d a t a u s i n gd a t aw a r e h o u s eo rd a t am a r ta ss t o m g ea r e a ,u s i n go l a pf o r c o u n t i n ga l lk i n d so f b u s i n e s sa n df o r v e r i f y i n gh y p o t h e s i sm a d eb yu s e r s ,a n d u s i n gd a t am i n i n gf o rd i s c o v e r y i n gm o d e l sh i d e ni nv a s td a t a , t h e s ea l lh e l p u s e r st om a k ed e c i s i o n s i ti sab i gq u e s t i o ni nt h e s t o r a g e a r e ai nw h i c hw h e t h e rs e t u pd a t a w a r e h o u s eo rd a t am a r t ,w h e t h e rm o d e li ne rm e t h o do ri nd i m e n t i o n a l m o d e l i n g ? b o t h t w ot e c h n o l o g ys u p l e m e n te a c ho t h e ri nt h el i g h to fw h o l e p r o g r e s s f r o mt h e i r b i r t h a c c o r d i n g t ot h e m a g n i t u d ea n ds c o p eo fd a t a w a r e h o u s e ,c h o o s en - t i ef r a m e w o r ko fd a t aw a r e h o u s e - d a t am a r to rs i n g l e f r a m e w o r ko f d m a m a r t ,g i v i n g t h e i ro w n m o d e l i n g m e t h o d s f i n a l l y g i v i n g a na t t e n d e d a p p l i c a t i o no f b u s i n e s si n t e l l i g e n c e k e y w o r d s :b u s i n e s si n t e l l i g e n c e ;o l a p ;d a t am i n i n g ;e - rm o d e l i n g ;d i m e n t i o n a l m o d e l i n g ;d a t aw a r e h o u s e ;d a t a m a r t 4 第一章序论 1 1 商务智能的概念和内容 随着企业信息化过程的不断深入,从简单的电子报表到复杂的电子商 务,企业行为都转化成了数据。我们今天不在为了没有信息而发愁,而是 为信息太多而焦虑。企业如何从自身海量的数据中获得有利的知识指导自 身的行为,已经迫不及待得摆在我们的面前,于是商务智能就出现了,英 文叫做b u s i n e s si n t e l l i g e n c e 。如今,商务智能已经成了企业信息化过程中 的“时髦”名词。 商务智能( b u s m e s si m e l l i g e n c e ,以下简称b f ) 是运用了数据仓库、 在线分析和数据挖掘等技术来处理和分析数据,它允许用户查询和分析数 据库或数据仓库,进而得出影响商业活动的关键因素,最终帮助用户做出 更好、更合理的决策。更为精练的一句话就是:它是一门从海量的数据中 获得商业优势的艺术。说是艺术,因为基于计算获得的知识,不同的用户 ( 不管是普通用户还是高层管理者) 将有不同的反应( 决策) ;同时,它 建设的模型因不同的人而变化很多,就像不同的建筑师设计的建筑千差万 别。另一方面,它需要数据仓库( d a t a w a r e h o u s e ) ,数据集市( d a t a m a r t ) , 数据挖掘( d a t a m m i n g ) ,联机在线分析( o l a p ) 等技术无缝的合作来帮 助决策,所以商务智能不仅仅是艺术。当然商务智能并不一定要求建立在 数据仓库之上,但是我们这里约定本文所讲的商务智能都是建立在数据仓 库( 包括数据集市) 之上的商务智能。举例来说,商务智能回答了这样的 商业问题:谁是我们最好的和最差的客户,今后我们应该在那些方面多努 力一些? 那些因素影响了我们的销售? 我们给用户提供了怎样的商业价 值? 等等。显然,这样的答案对企业是多么的重要。 通常商务智能由商务智能应用、访问工具、数据存储和数据源、元数 据管理、安全及管理和数据集成工具等几部分组成。以下是b i 的一个简 单的视图: 商务智能的建设一般包括四个方面:数据源收集,数据集成,数据存 储以及以数据为中心的各种应用。 商务智能应用是许多针对不同行业或应用领域的商务智能解决方案 软件包,包括了从基本查询和报表工具到先进的预测分析再到信息挖掘工 具的各类工具。所有工具都支持g u i 客户界面。许多在w e b 界面上也可 以使用。这些工具大多都能处理来自于数据库或数据仓库产品的结构信 息,有的也能对文件系统、多媒体甚至邮件或w e b 服务器上的复杂的和 非结构化的信息进行处理。 访问工具包括应用接口和中间件服务器,使得客户工具能够访问和处 理数据库及数据仓库中的业务信息。 数据库中间件允许客户透明地访问后台各种异构的数据库服务器, w 曲服务器中间件允许w 曲客户连接到数据库中。 数据存储和数据源用于管理终端用户感兴趣的业务信息。一般采用多 层信息存储模式,分为操作层数据、数据集市和数据仓库。其中,操作层 数据用于处理正在进行的商业运作的各种业务数据,包括各种业务处理系 统的数据、历史性数据和外部数据,它们可以来源于任何数据存储方式( 文 本文件、e x c e l 表等) ;数据仓库作为面向整个企业的企业级数据存储,收 集和组织数据,并使数据适用于分析处理,这种类型的数据称为“信息化 数据”;数据集市作为部门级的数据存储,是公司数据的一个子集,数据 集市是根据不同部门的统计分析需要来定义的。 元数据管理是管理与整个商务智能有关的元数据,包括开发者和管理 员使用的技术元数据以及支持商业用户的业务元数据。 安全及管理包括商务智能的安全性和验证、备份和恢复、监控和调整、 操作和调度,审计和计算等。 数据集成工具是数据抽取、转换和装载的工具,作为系统的数据集成 平台可以将企业各个业务系统面向应用的数据重新按照面向统计分析的 方式进行组织,解决数据存在的不一致、不完整等影响统计分析的情况。 1 2 商务智能的历史和现状 在国内目前的商务智能软件市场上,有三类厂商,一类是像o r a c l e 、 微软、i b m 等又有数据库,又有商务智能软件的厂商;还有一类是专门 做商务智能软件的厂商,主要有三家:b u s i n e s so b j e c t s 、b r i o 、c o g n o s ; 第三类是国内的i s v ,其实他们一直在开发一些联机分析数据类软件,但 是并没有将其冠以“商务智能”的名义推广。目前占主导地位的仍然是第一 类和第二类的厂商,他们各有千秋,但都已雄厚的技术优势占据市场,第 三类厂商尽管有本地化的优势,但是他们的技术还不足以对抗其他两类。 所以目前仍然是前两类占优势,我们的民族产业也只能卧薪尝胆。 商务智能是目前企业资源计划( e r p ) ,客户关系管理( c r m ) 等系 统的扩展。所以在国内,商务智能才刚刚开始。因为商务智能需要有海量 的数据作为基础,所以目前数据密集型行业最适于使用商务智能,例如生 活资料,零售,金融服务,运输等行业,使用商务智能都可以立竿见影地 带动销售。据i d c 提供的数据,在2 0 0 2 年开始的五年之内,商务智能市 场规模将从现在的5 5 亿美元扩大到1 5 7 亿美元。 1 3 我们的工作 通过对b i 技术的建模,实施过程进行全面的研究,了解商务智能项目 成功的关键,发觉商务智能的困难之处,找出克服商务智能困难的办法, 指导我们实际的商务智能项目。 本文第二章讲述了商务智能的各个部件的技术和相关的规范,第三章 讲述了如何建模,这是一个“仁者见仁,智者见智”的过程。第四章讲述 了b i 项目实施过程的三个主要过程。第五章讲述了在我们的b i 项目中用 到了软件和获得的一些结果。第六章是实施b i 项目的一些结论和展望。 第二章背景技术 2 1 数据仓库和数据集市 2 1 1 数据仓库和数据集市的概念 数据仓库( d w ) ,根据i n m o n 博士提出的观点,它是面向主题的,集 成的,不易失的,时变的数据集合,用于支持管理决策。主题代表一个感 兴趣的数据范围;时变代表数据随时间的不同而变化,以现在为起点,在 此之前的数据与现在离的越远,起的作用,在数据库里的位置,存在的形 式都有很大的变化。可以用一句话来概括就是离现在越远,数据可以越模 糊;决策和主题相互对应。决策是层次上的概念,主题是面上的概念。比 如一个数据仓库,市场部的人和生产部的人关心的内容就不一样。虽然都 是在决策,市场部更加关心相对细节性的,类别性的,区域性的销售数据 差别。比如在可比的区域上的差别,中国和美国就无法比较。相关的数据 就没有太多的意义,但是上海和北京的比较还是有意义的;而生产部的人 就需要关心原料的使用情况,生产效率的变更情况,销售的总体进展情况。 以此来预测并安排未来的生产。 围绕主题,还有一个概念需非常清楚,就是数据集市( d a t a m a r t ) 数 据仓库在现代的许多数据库模型里面指综合了很多主题的,可以说是全部 的有价值数据。而数据集市则代表面向单个或几个主题,进行拆分和重组 的数据仓库简单版,它把对某一类( 部门) 用户有用的数据单独拿出来进 行筛选,转载并开发利用,生成报表等等。对于企业的商务智能,考虑的 是整个企业的资源消耗,销售收入,利润分配等问题,所以是否只要考虑 创建数据仓库就可以了昵? 由于受到商业的熟悉程度,投入资金的数量等 各种因素,一般都是从创建数据集市开始,然后再创建数据仓库,这里面 又有很多区别:比如是在预先建集市的时候给自己提个神,时刻告诉自己 以后这个集市要封装成仓库的还是只是临时凑合用用的。这里面的原则就 有区别了。构建和装载数据的时候考虑的又不一样。这些在后面会论述。 总的来说,数据仓库技术其实最关键的是主题,决策。而不是技术。 2 1 2 数据仓库和数据集市的结构 数据仓库的存储结构可以分为三层,数据准备区,数据仓库区,数据 集市区。 业务应用层 数据集市 数据仓库 数据准备区 图2 1 2 数据仓库和数据集市的结构 一般情况下,数据集市建立在数据仓库之上,也有数据集市直接从数 据准备区获取,这样的数据集市称作独立数据集市。独立数据集市尽管可 以快速的建立起来满足某个部门的某个决策需求,因为数据仓库的建设被 跨越了,表面看来,可以大大降低开发时间和开发费用。但是,如果各个 部门都要开发数据集市,当多个数据集市分别从数据准备区取数据,由于 各个部门的需求不同,数据的处理会不一致。当需要跨部门进行决策分析 时,由于数据的不一致,数据集市产生的结果将会毫无意义。并且总的说 来,由于每一个部门都要重新从数据准备区整理数据,总费用也并不会比 建设有数据仓库的数据集市的费用要低。 如果要在各个数据集市间共享数据,是否就不能使用独立数据集市 呢? 答案是否定的,这就是r a l p h k i m b a l l 博士提出的重用维( c o n f o r m e d d i m e n s i o n s ) ,如果要在多个数据集市间共享数据,就首先从系统的范围内 建立重用维。独立数据集市的出现也是在数据仓库发展过程中产生的严重 的分歧。本文将统一叙述这两种方式。 从历史发展的过程来看,按照b i 的项目的大小分,如果项目的资金 足,时间长,那么可以先建立数据仓库,再建立数据集市。如果项目的基 金少,时间短,可以直接建立独立的数据集市。 2 2 0 l a p 联机分析过程( o l a p ) ,最早是由e e c o d d 于1 9 9 3 年提出的。当时, c o d d 认为联机事务处理( 0 u 甲) 已不能满足终端用户对数据库查询分析的 需要,s q l 对大数据库进行的简单查询也不能满足用户分析的需求。用 户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结 9 果并不能满足决策者提出的需求。因此c o d d 提出了多维数据库和多维分 析的概念,即o l a p :它是针对特定问题的联机数据访问和分析。通过对 维数据的多种可能的观察形式进行快速、稳定、一致和交互性的存取,允 许管理决策人员对数据进行深入观察。 2 2 i o l a p 的基本概念 1 维:是人们观察数据的特定角度,是考虑问题时的一类属性,属 性集合构成一个维( 时间维、地理维等) 。 2 维的层次:人们观察数据的某个特定角度( 即某个维) 还可以存在细 节程度不同的各个描述方面( 时间维:日期、月份、季度、年) 。 3 维的成员:维的一个取值。是数据项在某维中位置的描述。( 某年 某月某日”是在时间维上位置的描述) 。 4 多维数组:维和变量的组合表示。一个多维数组可以表示为:( 维 l ,维2 ,维n ,变量) 。( 时间,地区,产品,月租费) 。 5 度量值( 单元格) :多维数组的取值。( 2 0 0 0 年1 月,杭州,c d m a 手机,¥5 0 0 0 ) 。 y 图2 2 1o l a p 的基本概念 2 2 2 0 l a p 的特性 ( 1 ) 快速性:用户对o l a p 的快速反应能力有很高的要求。系统应 能在5 秒内对用户的大部分分析要求做出反应。( 2 ) 可分析性:o l a p 系 统应能处理与应用有关的任何逻辑分析和统计分析。 ( 3 ) 多维性:多维性是o l a p 的关键属性。系统必须提供对数据的 多维视图和分析,包括对层次维和多重层次维的完全支持。 ( 4 ) 信息性:不论数据量有多大,也不管数据存储在何处,o l a p 系 统应能及时获得信息,并且管理大容量信息。 1 0 2 2 3 0 l a p 的模型结构 1 超立方结构( i t y p e r e u b e ) ,超立方结构指用三维或更多的维数来描 述一个对象,每个维彼此垂直。数据的测量值发生在维的交叉点上,数据 空间的各个部分都有相同的维属性。( 收缩超立方结构。这种结构的数据 密度更大,数据的维数更少,并可加入额外的分析维) 。 2 多立方结构( m u l t i c u b e ) ,即将超立方结构变为子立方结构。面向某 一特定应用对维进行分割,它具有很强的灵活性,提高了数据( 特别是稀 疏数据) 的分析效率。 2 2 4 0 l a p 的操作 1 切片和切块( s l i c e a n dd i c e ) ,在多维数据结构中,按二维进行切片, 按三维进行切块,可得到所需要的数据。如在“城市、产品、时间”三维 立方体中进行切块和切片,可得到各城市、各产品的销售情况。 2 钻取( d r i l l ) ,钻取包含向下钻取( d r i l l d o w n ) 和向上钻取( d r i n u p ) 上卷( r o l l u p ) 操作,钻取的深度与维所划分的层次相对应。 3 旋转( r o t a t e ) 转轴( p i v o t ) ,通过旋转可以得到不同视角的数据。 2 3 数据挖掘 2 3 1 数据挖掘的概念和类别 数据挖掘是从海量的数据中自动的抽取模式,关联,变化,异常和有 意义的结构,它的价值在于利用数据挖掘技术改善语言模型,提高决策的 准确性。通常有以下几种模式,每种模式还有许多相应的算法。 1 ) 分类模式 分类模式是一个分类函数( 分类器) ,能够把数据集中的数据项映射 到某个给定的类上。分类模式往往表现为一棵分类树,根据数据的值从树 根开始搜索,沿着数据满足的分支往上走,走到树叶就能确定类别。 2 ) 回归模式 回归模式的函数定义与分类模式相似,它们的差别在于分类模式的预 测值是离散的,回归模式的预测值是连续的。如给出某种动物的特征,可 以用分类模式判定这种动物是哺乳动物还是鸟类;给出某个人的教育情 况、工作经验,可以用回归模式判定这个人的年工资在哪个范围内,是在 6 0 0 0 元以下,还是在6 0 0 0 元到1 万元之间,还是在1 万元以上。 3 ) 时问序列模式 时间序列模式根据数据随时间变化的趋势预测将来的值。这里要考虑 到时间的特殊性质,像一些周期性的时间定义如星期、月、季节、年等, 不同的日子如节假日可能造成的影响,日期本身的计算方法,还有一些需 要特殊考虑的地方如时间前后的相关性( 过去的事情对将来有多大的影响 力) 等。只有充分考虑时间因素,利用现有数据随时间变化的一系列的值, 才能更好地预测将来的值。 4 ) 聚类模式 聚类模式把数据划分到不同的组中,组之间的差别尽可能大,组内的 差别尽可能小。与分类模式不同,进行聚类前并不知道将要划分成几个组 和什么样的组,也不知道根据哪一( 几) 个数据项来定义组。一般来说, 业务知识丰富的人应该可以理解这些组的含义,如果产生的模式无法理解 或不可用,则该模式可能是无意义的,需要回到上阶段重新组织数据。 5 ) 关联模式 关联模式是数据项之间的关联规则。关联规则是如下形式的一种规 则:“在无力偿还贷款的人当中,6 0 的人的月收入在3 0 0 0 元以下。” 6 ) 序列模式 序列模式与关联模式相仿,而把数据之间的关联性与时间联系起来。 为了发现序列模式,不仅需要知道事件是否发生,而且需要确定事件发生 的时间。例如,在购买彩电的人们当中,6 0 的人会在3 个月内购买影碟 机。 在解决实际问题时,经常要同时使用多种模式。分类模式和回归模式 是使用最普遍的模式。分类模式、回归模式、时间序列模式也被认为是受 监督知识,因为在建立模式前数据的结果是已知的,可以直接用来检测模 式的准确性,模式的产生是在受监督的情况下进行的,所以也叫描述型模 式。一般在建立这些模式时,使用一部分数据作为样本,用另一部分数据 来检验、校正模式。聚类模式、关联模式、序列模式则是非监督知识,因 为在模式建立前结果是未知的,模式的产生不受任何监督,所以也叫做预 测型模式。 2 3 2 数据挖掘过程模型 n c r ,s p s s ,d a i m l e r c r y s l e r 等几家公司发起了s g ( s p e c i a li n t e r e s t i n g g r o u p ) ,在2 0 0 0 年8 月发布了c r i s p d m i 0 版,我们以此来描述数据挖 掘的整个过程。 1 ,业务理解( b u s i n e s su n d e r s t a n d i n g ) 2 ,数据理解( d a t au n d e r s t a n d i n g ) 3 ,准备数据( d a t a p r e p a r a t i o n ) 1 2 4 ,建立模型( m o d e l i n g ) 5 ,评价模型( e v a l u a t e ) 6 ,实施( d e p l o y m e n t ) 尽管整个过程是线性的,但是在实践中,它是一个不断反复和循环的 过程。如在分析数据的时候,发现某个变量更能精化问题的定义,就可能 对商业问题重新定义;也有可能在模型评价以后,发现有些变量可以影响 商业问题的。所以整个挖掘过程在原来的基础上重新来一遍。 1 业务理解。在开始知识发现之前最先的同时也是最重要的要求就是 了解的你的数据和业务问题。如果事先没有这种了解,没有任何算法,不 管他有多么复杂玄妙,能够为你提供有价值的结果,即使有也难以使人信 赖它。缺少了这些背景知识,你就没办法明确定义要解决的问题,不能为 挖掘准备数据,也很难正确的解释得到的结果。该步骤包括定义商业目标, 评估形势,定义数据挖掘目标,生成项目计划。 a 定义商业目标。描述客户的商业需求。制定评价目标实现的 标准。 b 评估形势。评估目前可用的所有资源,包括人力资源和软硬 件设备。 c 定义数据挖掘目标。从技术的角度定义挖掘的目标,如已知 客户资料和最近6 个月的呼叫和交费记录,预测该用户的离网的概率。 还有是制定评价目标实现的标准。如改善度应该是多少。 d 生成项目计划。制定要完成该数据挖掘的项目计划。 2 数据理解。如果不理解数据的含义,数据挖掘毫无意义,只是一 大堆垃圾而已,所以必须全面的获取和理解数据。该过程包括数据收集, 数据描述,数据浏览,验证数据质量。 a 数据收集。确定要挖掘的数据源。可能一些外部的数据也是 必须的。 b 数据描述。对于获得的数据进行总体的质量,数据格式等的 描述。 c 数据浏览。这些数据包含了什么含义,该步骤有可能用专用 的工具来展示。用更直观的方式发现更多的与主题相关的变量。 d 数据验证。要想得到好的模型必须用好的数据。数据验证就 是要确保数据的一致性,完整性,正确性以及错误数据的类型,空值 的处理。 3 数据准备。该步骤包括选择数据,清理数据,构造数据和格式化 数据。 a 选择数据。数据的选择包括变量的选择和记录的选择。理想 情况下,你可以选择你所有的全部变量,把他们输入到数据挖掘工具 中,让他来帮你选择哪些是最好的预测变量。实际上这样做并不是很 好,一方面是由于随着变量个数的增加,模型的建立时间也随之上升; 另一方面盲目的把所有的变量都加进去会导致建立错误的模型。比如, 建立预测模型的一个常见错误就是把一个依赖于目标变量的变量( 由 目标变量导出) 作为预测变量,像用生日来“预测”年龄。 在原理上说,一些数据挖掘算法自动忽略不相关的变量、自动计 算相关的( 协) 变量,在实际应用中完全依赖这些工具是不明智的, 毕竟最了解你的数据的还是你自己。利用你的行业知识,你会做出大 部分正确的选择。例如,用身份证号或人名做预测变量要么不会有任 何用处,要么甚至降低了其他重要变量的影响力。 与选择变量类似,你可能也想用你所有的数据行来建立模型,然而 如果你的数据量确实非常巨大的话,要么要花费很长的时间来建立这 个模型,要么买一台计算能力非常强大的机器。 因此,如果数据量特别大,进行抽样就是一个很好的主意。如果 做的足够仔细,保证抽样是按真正的随机来进行的,采样对大部分商 业问题来说都不会丢失信息。你可以用所有的数据建立一个模型;你 还可以用采样的方法根据不同的采样方法建立几个模型,然后评价这 几个模型选择一个最好的。我们认为后面这种方法得到的方法更准 确、更健壮。你可能选择数据中明显的异常数据删除掉。然而在某些 情况下,这些看来异常的数据可能包含了你要建立模型的重要信息。 基于你对问题的理解方式的不同,通常可以把这些异常忽略掉。比如 可以把异常认为是人为的录入错误。有时也需要向数据中添加一些新 的数据( 如,那些没有做出购买的客户) 。 b 清理数据,对于所选择的数据进行清理。对于缺值的处理, 缺值是一个非常有害的问题。如果只要有一个数据域缺值就把这个记 录删除掉,那么最后可能得到一个很小的数据库,同时你得到的这个 数据库很可能已经丢失了实际数据中蕴含的一些信息,因为你已经改 变了原数据的组成。缺值这件事本身可能就是非常有意义的,比如也 许只有富有的顾客才经常忽略“收入”这一项。你可以增加一个新的变 量来标识这些缺值的记录,然后用它建立一个模型,然后与按其他方 法建立的模型进行比较,看哪个准确度更高一些。另一种方法是为缺 失的值计算一个替代值。计算替代值的常用方法包括使用形式值( 为 名词变量) ,中间值( 为可排序变量) ,平均值( 为连续变量) 。还有一 个不是很常用的方法是按照数据库中值的分布规律为缺值的字段添 值。比如如果数据库中包含4 0 男性和6 0 女性,那么在为那些性别 子段缺失的记录添值时也按这个比例随机赋值。还有一种方法是为这 个缺值的字段用数据挖掘技术建立一个预测模型,然后按照这个模型 的预测结果添值,这种方法效果应该晟好,当然也最花时间。 c 构造数据。很多情况下需要从原始数据中衍生一些新的变量 作为预测变量。比如,用负债占收入百分比来预测信用风险比直接用 负债和收入做预测变量更准确一些,也更容易理解一些。很多变量如 果组合起来( 加、减、比率等) 会比这些变量自身影响力更大。一些 变量如果扩大它的范围也会成为一个非常好的预测变量,比如用一段 时间内收入变化情况代替一个单一的收入数据。 d 格式化数据。你所选择的算法和工具决定了都要对数据做哪 些转换工作。如神经网络要求所有的变量都在o 1 之间,因此在这些 数据被提交到算法之前就必须先对不在【0 ,1 】内的变量进行映射。同样 一些决策树算法不接受数值型变量作为输入,在使用他们之前也要把 这些数值映射到“高、中、低”等。当然你的转换方式也在一定程度上 影响了模型的准确度。 4 建立模型。对建立模型来说要记住的最重要的事是它是一个反复 的过程。你需要仔细考察不同的模型以判断哪个模型对你的商业问题最有 用。你在寻找好的模型的过程中学到的的东西会启发你修改你的数据,甚 至改变最初对问题的定义。该步骤包括选择建模技术,生成测试计划,运 行模型,模型自身评估。 a 选择建模技术。一旦决定了预测的类型之后( 分类还是回 归) ,就需要为这个预测选择模型的类型。可能是一棵决策树、神经 网络、甚至传统的数学统计。选择什么样的模型决定了你需对数据做 哪些预处理工作。如神经网络需要做数据转换,有些数据挖掘工具可 能对输入数据的格式有特定的限制,等。一旦所有的数据准备好之后, 就可以开始训练你的模型了。 b 生成测试计划。为了保证得到的模型具有较好的精确度和健 壮性,需要一个定义完善的训练一验证协议。有时也称此协议为带指 导的学习。他的主要思想就是先用一部分数据建立模型,然后再用剩 下的数据来测试和验证这个得到的模型。有时还有第三个数据集,称 为验证集,因为测试集可能受模型的特性的影响,这时需要一个独立 的数据集来验证模型的准确性。训练和测试数据挖掘模型需要把数据 至少分成两个部分:一个用于模型训练,另一个用于模型测试。如果 不使用不同的训练和测试集,那么模型的准确度就很难使人信服。用 训练集把模型建立出来之后,就可以先在测试集数据上先试验一把, 此模型在测试集上的预测准确度就是一个很好的指导数字,它说明如 果将来与训练集和测试集类似的数据用此模型预测时,正确的百分比 会有多大。这并不能保证模型的正确性,他只是说相似的数据用此模 型会得出相似的结果。 最基本的测试方法是被称为简单验证的方法。做法是从原始数据 中拿出定百分比的数据作为测试数据,这个百分比大概在5 到 3 3 之间。注意在把数据库分成几部分时,一定要保证选择的随机性, 这样2 j 。能使分开的各部分数据的性质是一致的。先用数据库的主体把 模型建立起来,然后用此模型来预测测试集中的数据。出现错误的预 测与预测总数之间的比,称为错误率。正确的预测与总数的比,是准 确率( 准确率= 1 错误率) 。对回归模型来说,可以用方差来描述准 确的程度。 c 运行建模。当确定了数据集后,就可以采用挖掘工具运行模 型。 d 模型自身评估。模型建立好之后,必须评价他的结果、解释 他的价值。记住从测试集中得到的准确率只对用于建立模型的数据有 意义。在实际应用中,随着应用数据的不同,模型的准确率肯定会变 化。更重要的是,准确度自身并不一定是选择最好模型的正确评价方 法。你需要进一步了解错误的类型和由此带来的相关费用的多少。 对分类问题来说,无序矩阵是理解结果的非常好的工具。如表 2 3 2 1 所示,无序矩阵把预测的结果与实际的情况进行对比。它不仅 说明了模型预测的准确情况,也把模型究竟在哪里出了问题也展示了 出来。下表是一个简单的无序矩阵,其中的列代表数据的实际分类情 况,行是预测的结果。在这张表值中,可以看到此模型在总共4 6 个b 类数据中成功预测了3 8 个,8 个出了问题:2 个预测成了a ,6 个成 了c 。显然这比简单的说模型总体准确度是8 2 要更详细的多( 1 2 3 个成功预测除以总共1 5 0 ) 。 实际 预测类别a类别b类别c 类别a4 52 3 类剐b1 03 8i2 类:i l , j c46f4 0 表2 3 2 1 无序矩阵 在实际应用中,如果。,h w lu 。,“m 。,一沃所需付出的代价( 金钱) 也不同的话,那么代价最小的模型( 而不一定是错误率最小的模型) 就是我们所要选择的。例如,上面的无序矩阵中,如果每个准确的预 测会带来¥1 0 的收益,错误的预测a 要付出¥5 的代价,b 是¥1 0 , c 是¥2 0 ,那么整个模型的纯价值是: ( 1 2 3 + ¥1 0 1 一( 5 + ¥5 ) - ( 1 2 + ¥1 0 ) 一( 1 0 + ¥2 0 ) = ¥8 8 5 收益表( 图2 3 2 2 ) 也是一种描述模型价值的方法。它显示了通 用应用模型响应( 如直接邮件推销) 的变化情况。变化的比率称为l i f t 。 例如,如果用随机抽取的方法选择1 0 的客户响应率是1 0 ,而通过 模型选取1 0 的用户响应率是3 0 ,则l i f t 值为3 。 图2 3 2 - 2收益表 5 评价模型。模型自身的评价主要是评价该模型的精确性和通用 性。本步骤主要是通过第一步制定的商业标准来评价模型是否成功,或是 通过其他现实中的应用来验证该模型。因为经验证有效的模型并不一定是 正确的模型。造成这一点的直接原因就是模型建立中隐含的各种假定。例 如,在建立用户购买模式的模型时,可能没有考虑通货膨胀的影响,但实 施模型时通货膨胀率突然由3 增加为1 7 ,这显然会对人们的购买意向 产生重大影响,因此再用原来的模型来预测客户购买情况必然会出现重大 失误。因此直接在现实世界中测试模型很重要。先在小范围内应用,取得 测试数据,觉得满意之后再向大范围推广。 6 实施。模型建立并经验证之后,可以有两种主要的使用方法。第 一种是提供给分析人员做参考,由他通过察看和分析这个模型之后提出行 动方案建议。比如可以把模型检测到的聚集、模型中蕴含的规则、或表明 模型效果的r o i 图表拿给分析人员看。 另一种是把此模型应用到不同的数据集上。模型可以用来标示一个事 例的类别,给一项申请打分等。还可以用模型在数据库中选择符合特定要 求的记录,以用o l a p 工具做进一步的分析。 通常情况下,模型是某个商业过程的组成部分,如风险分析,信用授 权,或欺诈检测。在这些情况下,模型一般都合并到应用程序的内部。例 如,在抵押贷款应用程序内部可能集成了一个预测模型,来向贷款官员提 供一项贷款申请风险大小的建议。或在定购系统中,当预测到库存有可能 降低到一个最低限度时自动发出购买订单。数据挖掘模型通常一次只能处 理一个事件或一个事务。每个事务的处理时间和事务到达的速度,决定了 模型运行所需的计算能力,和是否要用并行技术来加快速度。比如,贷款 申请程序可能p c 机上就运行的很好,而用于信用卡欺诈的模型则需要在 服务器上用并行算法才能应付每天的大量事务。当提交一个复杂的应用 时,数据挖掘可能只是整个产品的一小部分,虽然可能是最关键的一部分。 例如,常常把数据挖掘得到的知识与领域专家的知识结合起来,然后应用 到数据库中的数据。在欺诈检测系统中可能既包含了数据挖掘发现的规 律,也有人们在实践中早已总结出的规律。 在应用了模型之后,当然还要不断监控他的效果。即使你在开始使用 这个模型之后觉得他非常成功,也不能放弃监控,因为事物在不断发展变 化,很可能过一段时间之后,模型就不再起作用。销售人员都知道,人们 的购买方式随着社会的发展而变化。因此随着使用时间的增加,要不断的 对模型做重新测试,有时甚者需要重新建立模型。 数据挖掘是个复杂的过程,有很多因素可以影响数据挖掘的准确性: 挖掘目标是否明确、因素和指标考虑是否完整、使用的数据是否具有代表 性、是否使用合理的挖掘算法、是否能理解挖掘结果。 数据挖掘是一个不断改进预测模型的过程,它的输入变量集合可能是 一些经验变量,或者是上一次( 或相关的) 数据挖掘模型引出的变量,再 改善或增加预测模型,得出更好的结论,用于指导实践。模型可以通过 p m m l 来调用其他的预测模型。p m m l 是采用x m l 技术的模型问的接 口规范。目前也是研究的发展方向。 2 4 四者的关系 2 4 1 数据仓库和数据集市 在b i 的建设过程中,数据仓库和数据集市都是数据的存储区域。都 是为数据的在线分析和挖掘提供数据源。 数据仓库和数据集市主要是范围的不同。数据仓库面向企业的所有部 门,所以它的需求是全企业范围的,一般情况下,它的数据按照第三范式 组织。 数据集市是面向企业的某一个部门的。所以需求比较集中,以多维方 式的形式管理数据。 j 8 2 4 2 数据挖掘和数据仓库 大部分情况下,数据挖掘都要先把数据从数据仓库中拿到数据挖掘库 或数据集市中( 见图2 4 2 1 ) 。从数据仓库中直接得到进行数据挖掘的数 据有许多好处。就如我们后面会讲到的,数据仓库的数据清理和数据挖掘 的数据清理差不多,如果数据在导入数据仓库时已经清理过,那很可能在 做数据挖掘时就没必要在清理一次了,而且所有的数据不一致的问题都已 经被你解决了。如图所示: 图2 4 2 1数据挖掘库从数据仓库中得出 数据挖掘库可能是你的数据仓库的一个逻辑上的子集,而不一定非得 是物理上单独的数据库。但如果你的数据仓库的计算资源已经很紧张,那 你最好还是建立一个单独的数据挖掘库。当然为了数据挖掘你也不必非得 建立一个数据仓库,数据仓库不是必需的。建立一个巨大的数据仓库,把 各个不同源的数据统一在一起,解决所有的数据冲突问题,然后把所有的 数据导到一个数据仓库内,是一项巨大的工程,可能要用几年的时间花上 百万的钱才能完成。只是为了数据挖掘,你可以把一个或几个事务数据库 导到一个只读的数据库中,就把它当作数据集市,然后在它上面进行数据 挖掘。如图所示: 图2 4 2 2数据挖掘库从事务数据库中得出 2 4 3 数据挖掘和在线分析处理( o l a p ) 一个经常问的问题是,数据挖掘和o l a p 到底有何不同。下面将会解 释,他们是完全不同的工具,基于的技术也大相径庭。 o l a p 是决策支持领域的一部分。传统的查询和报表工具是告诉你数 1 9 据库中都有什么,0 l a p 则更进一步告诉你下一步会怎么样,和如果我采 取这样的措施又会怎么样。用户首先建立一个假设,然后用o l a p 检索 数据库来验证这个假设是否正确。比如,一个分析师想找到什么原因导致 了贷款拖欠,他可能先做一个初始的假定,认为低收入的人信用度也低, 然后用o l a p 来验证他这个假设。如果这个假设没有被证实,他可能去 察看那些高负债的账户,如果还不行,他也许要把收入和负债一起考虑, 一直进行下去,直到找到他想要的结果或放弃。也就是说,0 l a p 分析师 是建立一系列的假设,然后通过o l a p 来证实或推翻这些假设来最终得 到自己的结论。o l a p 分析过程在本质上是一个演绎推理的过程。但是如 果分析的变量达到几十或上百个,那么再用0 l a p 手动分析验证这些假 设将是一件非常困难和痛苦的事情。 数据挖掘与o l a p 不同的地方是,数据挖掘不是用于验证某个假定的 模式( 模型) 的正确性,而是在数据库中自己寻找模型。他在本质上是一 个归纳的过程。比如,一个用数据挖掘工具的分析师想找到引起贷款拖欠 的风险因素。数据挖掘工具可能帮他找到高负债和低收入是引起这个问题 的因素,甚至还可能发现一些分析师从来没有想过或试过的其他因素,比 如年龄。数据挖掘和o l a p 具有一定的互补性。在利用数据挖掘出来的 结论采取行动之前,你也许要验证一下如果采取这样的行动会给公司带来 什么样的影响,那么o l a p 工具能回答你的这些问题。而且在知识发现 的早期阶段,o l a p 工具还有其他一些用途。可以帮你探索数据,找到哪 些是对一个问题比较重要的变量,发现异常数据和互相影响的变量。这都 能帮你更好的理解你的数据,加快知识发现的过程。 2 0 3 1 建模方法 第三章建模 数据仓库建模方法从层次上分为三种方法,分别是高层设计,中层设 计,低层设计,也可以相应的叫做概念设计,逻辑设计和物理设计。在建 设过程中,先从概念设计开始,然后是逻辑设计,最后是物理设计。 3 1 1 概念数据模型( c d m l 概念模型是主观与客观之间的桥梁,它是用于我们为一定的目标设计 系统、收集信息而服务的一个概念性的工具。具体到计算机系统来说,概 念模型是客观世界到机器世界的一个中间层次。人们首先将现实世界抽象 为信息世界,然后将信息世界转化为机器世界,信息世界中的这一信息结 构,即是我们所说的概念模型。 由于e ,r 图具有良好的可操作性,形式简单,易于理解,便于与用户 交流,对客观世界的描述能力也较强,在数据库设计方面更得到了广泛的 应用。因为目前的数据仓库一般都建立在关系数据库的基础上,为了和原 有数据库的概念模型相一致,采用e r 图作为数据仓库的概念模型仍然 是较为适合的。 概念数据模型的设计是在较高的抽象层次上的设计,关注的是对商务 的理解。这一层保证数据仓库的所有业务处理被归档,并且获取对需要被 收集信息的基本理解。因此在建立概念模型时不必考虑具体技术条件的限 制。进行概念数据模型设计要完成以下两个工作: 1 界定系统边界 2 确定主要主题域及其内容 3 1 2 逻辑数据模型( l d m ) 逻辑数据模型是系统体系结构大厦的一块基石,它主要包含实体、属 性、实体与实体之间的关系、实体与属性之间的关系。在项目实施过程中 模型会被定制、修改、加入新的实体,任何对p s - l d m 的更改都将影响 到逻辑数据模型设计人员、数据库管理员、应用开发人员、操作人员、业 务用户。因此逻辑数据模型包含的实体、属性名称、属性格式、实体与实 体之间的关系、实体与属性之间的关系应当加入元数据库中。 这一层关注的是结构和完整性。保证商业数据仓库化所需的所有数据 元素均被包含在数据模型中。较少关注数据从哪里得到,如何得到,但对 他们是否能满足信息需求很感兴趣。这一层的输出结果是各个实体的属性 和实体间的关系。 逻辑数据模型设计要进行以下工作: 1 分析主题域,确定当前要装载的主题 2 确定粒度层次划分 3 确定数据分割策略 4 关系模式定义 5 记录系统定义 3 1 3 物理数据模型( p d m ) 物理数据模型描述了数据仓库的物理结构,它是由逻辑数据模型按照 基本的建模步骤转换而来。物理数据模型为数据仓库管理员提供了一个数 据仓库的单一视图,将其加入元数据库有重要意义。物理数据模型加入数 据仓库的内容包括:数据库、表、视图、宏、列( 名称、格式、属性) 、 约束( 取值、参照关系等) 、关系( 数据库与表、视图、宏,表与列,表 与视图等) 。所谓数据仓库的物理模型就是逻辑模型在数据仓库中的实现, 如物理存取方式、数据存储结构、数据存放位置以及存储分配等等。物理 模型是在逻辑模型的基础之上实现的,在进行物理模型设计实现时,所考 虑的因素主要有:l ,o 存取时间、空间利用率和维护代价;在进行数据仓 库的物理模型设计时,考虑到数据仓库的数据量大但操作单一的特点,可 采取其他的一些提高数据仓库性能的技术。 根据数据仓库的测试标准t p c d 规范,在数据仓库系统中,对数据库 引擎最大的挑战主要是这样几种操作:多表连接、表的累计、数据排序、 大量数据的扫描。下面列出了一些d b m s 在实际系统中针对这些困难所 采用的折衷处理办法: 1 、如何避免多表连接。在设计模型时对表进行合并,即所谓的预连接 ( p r e j o i n ) 。当数据规模小时,也可以采用星型模式,这样能提高系统速度, 但增加了数据冗余量。 2 、如何避免表的累计。在模型中增加有关小计数据( s u m m a r i z e dd a t a ) 的项。这样也增加了数据冗余,而且如果某项问题不在预建的累计项内, 需临时调整。 3 、如何避免数据排序。对数据事先排序。但随着数据仓库系统的运行, 不断有新的数据加入,数据库管理员的工作将大大增加。大量的时间将用 于对系统的整理,系统的可用性随之降低。 4 、如何避免大表扫描:通过使用大量的索引,可以避免对大量数据进 行扫描。但这也将增加系统的复杂程度,降低系统进行动态查询的能力。 在物理数据模型设计中主要工作是; 1 确定数据的存储结构。 2 确定索引策略。 3 确定数据存放位置。 4 存储分配。 3 2 两种主流建模 中层( 逻辑) 建模是数据仓库实施中的重要一环,它能直接反映出业 务部门的需求,同时对系统的物理实旌有着重要的指导作
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 企业危机处理的步骤与技巧
- 天然气发电环保规定
- 焦虑症状辅导方案
- 买卖机械并先行试用合同
- 网络医疗服务品质承诺保证承诺书5篇
- 基于三维感知的艺术欣赏课程教案设计
- 房地产项目土地租赁与开发合作协议
- 特种设备安全法 题库及答案解析
- 跨区域团队远程协作沟通与会议记录模板
- 那场激烈的足球比赛事件作文(9篇)
- 铁道车辆制动装置及制动新技术全套教学课件
- 化学氧化二氧化氯氧化课件
- 厂房建设工程投标方案(技术方案)
- 《大学语文》-《梦狼》
- 非常规时段施工安全管理方案
- 医院感染管理制度与职责
- 中建盘扣式落地卸料平台施工方案
- 管理学(第二版)邢以群PPT全套课件
- 四川省安全评价收费标准
- 人工流产-清宫术知情同意书
- 人工智能+智能运维平台解决方案
评论
0/150
提交评论