第6章数据仓库、联机分析处理和数据挖掘_第1页
第6章数据仓库、联机分析处理和数据挖掘_第2页
第6章数据仓库、联机分析处理和数据挖掘_第3页
第6章数据仓库、联机分析处理和数据挖掘_第4页
第6章数据仓库、联机分析处理和数据挖掘_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1决策支持系统

主讲:彭柳芬公共邮箱:tpenglf@163.com

密码:peng123第六章数据仓库、联机分析处理和数据挖掘传统数据库应用的局限性数据仓库联机分析处理数据挖掘Weka数据挖掘软件传统数据库应用的局限性企业在其业务活动中,积累了大量的关于客户、产品、销售、库存、供应商等方面的数据,也可以收集到来自于企业所处行业和竞争对手以及外部环境中的数据,为了支持企业或组织管理人员的决策分析,必须把日益庞大的数据转化为知识,这就需要对数据进行联机分析处理OLAP(OnlineAnalyticalProcessing)。传统的数据库应用主要是针对数据的联机事务处理OLTP(OnlineTransactionProcessing),包括定期的数据查询、插入、删除和更新操作,以及基本的统计分析如使用交叉表、图表或图形进行报表的展示。要在一个系统中同时满足OLTP和OLAP这两种需求是有问题的。一、决策支持系统决策支持系统(DSS)中“决策”就是决策者根据所掌握的信息为决策对象选择行为的思维过程。为决策者提供支持的信息成为决策支持信息,相应的信息系统称为决策支持系统,我们将决策支持领域分成OLTP、MIS、LDSS及HDSS四个层次:OLTPMISLDSSHDSSDWOLAPDM1、

OLTP(联机事物处理)最基本的数据库应用系统,是更高级的MIS系统和DSS系统的基础,OLTP系统一般具有底层信息采集(数据录入功能)、一定的信息查询以及信息库更新维护功能,OLTP面向的是操作人员和低层管理人员其主要功能在于对数据库中的信息进行录入、存储、更新、删除等操作,是最基本的管理细节信息的数据库应用系统。6OLAP定义1.OLAP理事会给出的定义联机分析处理(OLAP)是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面(多维)观察信息,以达到深入理解数据的目的。这些信息是从原始数据转换过来的,按照用户的理解,它反映了企业真实的方方面面。7OLAP的简单定义

联机分析处理是共享多维信息的快速分析。它体现了四个特征:(1)快速性:用户对OLAP的快速反应能力有很高的要求。(2)可分析性:OLAP系统应能处理任何逻辑分析和统计分析。(3)多维性:系统必须提供对数据分析的多维视图和分析。(4)信息性:OLAP系统应能及时获得信息,并且管理大容量的信息。

8OLAP的数据模型

MOLAP数据模型——MOLAP是基于多维数据库存储方式建立的OLAP;表现为“超立方”结构,采用类似于多维数组的结构。ROLAP数据模型——ROLAP是基于关系数据库的OLAP。它是一个平面结构,用关系数据库表示多维数据时,采用星型模型。MOLAP与ROLAP的比较HOLAP数据模型——即混和OLAP介于MOLAP和ROLAP之间。在HOLAP中,对最常用的维度和维层次,使用多维数据表来存储,对于用户不常用的维度和数据,采用ROLAP星型结构来存储。9MDDB(二维)数据组织北京上海广州衣服600700500鞋800900700帽子1002008010产品名地区销售量衣服北京600衣服上海700衣服广州500鞋北京800鞋上海900鞋广州700帽子北京100帽子上海200帽子广州80关系数据库RDBMS数据组织2、基于OLTP的MIS系统这是较高一级的数据库应用系统,这类系统在OUP的基础上进一步扩展,包括提高信息访问功能,报表生成能力等。MIS系统由若干个功能相对独立的OLTP系统集成而成,当前的信息服务系统基本属于MIS系统。3、LDSS(低级决策支持系统)

LDSS处于比MIS更高一层的位置,直接为决策者提供决策支持服务,它的关键在于信息的有效提取并加以分析而不在于信息的收集与更新(这些操作由基础层的OLTP系统完成)。目前决策支持系统绝大部分属于LDSS的层次,它存在着如下功能局限:(1)随机性的综合信息提取功能较弱;(2)对查询得到的信息的分析功能较弱;(3)不是基于海量数据库。4、HDSS〔高级决策支持系统)

HDSS是决策支持系统的最高形式,能够真正使用户利用DSS工具直接从企业信息池中随机地提取、分析数据,有效地服务于企业的全方位决策。它由三个主要部件构成:数据仓库技术(DW,DataWarehousing)联机分析处理技术(OLAP,On-lineAnalyticalProcessing)数据挖掘技术(DM,DataMining)二数据挖掘数据挖掘是从大型数据库或数据仓库中发现并提取隐藏在其中的信息或知识的过程,目的是帮助分析人员寻找数据间潜在的关联,发现忽略的要素,而这些信息对预测趋势和决策行为是十分有用的,所以它属于决策支持系统的范畴。

1预处理数据通过消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换(如把连续值数据转换为离散型的数据,或是把离散型的数据转换为连续值数据)等来收集和净化来自数据源的信息,并加以存储,一般是将其存放在数据仓库中。

2模型搜索利用数据挖掘工具在数据中查找模型,这个搜寻过程可以由系统自动执行,自底向上搜寻原始事实以发现它们之间的某种联系,也可以加入用户交互过程,由分析人员主动发问,从上到下地找寻以验证假定的正确性,对于一个问题的搜寻过程可能用到许多工具,例如神经网络、基于规则的系统、基于实例的推理、机器学习、统计方法等。3评价输出结果数据挖掘阶段发现出来的模式,经过用户或机器的评估,可能存在冗余、价值不大的或无关的模式,这时需要将其剔除,把重要的模式形成知识存储到知识库中,也有可能模式未能满足用户要求,这时则需要整个发现过程回到发现阶段之前,如重新选取数据、采用新的数据变换方法、设定新的数据挖掘参数值,甚至换一种挖掘算法。可见数据发掘的搜寻过程一般需要反复多次,因为当分析人员评价输出结果后,他们可能会形成一些新的问题或要求对某一方面作更精细的查询。

4生成最后的结果报告

DM由于最终是面向人类用户的,因此可能要对发现的模式进行可视化,或者把结果转换为用户易懂的另一种表示。

5解释结果报告对结果进行解释,依据此结果采取相应的商业措施,这是一个人工过程。数据挖掘的相关技术:为了简化和加快数据挖掘过程,使数据挖掘真正方便、实用,还需其他的技术支持,如数据净化、数据仓库技术、强大的平行处理技术和存储技术。三、数据挖掘与决策支持系统的联系传统的DSS系统通常是在某个假设的前提下通过数据查询和分析来验证或否定这个假设,而数据挖掘技术则能够自动分析数据,进行归纳整理,从中发现潜在的模式,或产生联想,建立新的业务模型,帮助决策者调整市场策略,并找出正确的决策。例如在销售业数据库中,数据挖掘工具回答“哪些客户最可能对促销作出反应,为什么他会这样?”、“哪些商品之间具有潜在的联系?”、“下一个月,在天津的销售部门的情况将会如何?为什么?”等。而DSS系统回答“今年销售总量比去年多多少?从而预测明年销售总量”、“三月份中,在天津的销售部门的情况如何?从而推测在北京的销售部门情况”,所以,数据挖掘的出现使决策支持工具跨人了一个新阶段。数据挖掘技术能够帮助用户从历史性数据中挖掘知识,进而支持决策,极大地吸引用户,而用户造就的数十亿美元的市场又极大地吸引了数据库厂商,各大公司纷纷开始了自己的数据挖掘工具产品的研制工作。四、数据仓库数据仓库的用户: 1数据仓库的信息使用者 2数据仓库的探索者——探索者要做的工作有:概括分析、抽取、建模和分类。数据仓库的用户有两类:信息使用者和探索者信息使用者是使用数据仓库的大量用户。

信息使用者以一种可预测的、重发性的方式使用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论