第6章数据仓库、联机分析处理和数据挖掘_第1页
第6章数据仓库、联机分析处理和数据挖掘_第2页
第6章数据仓库、联机分析处理和数据挖掘_第3页
第6章数据仓库、联机分析处理和数据挖掘_第4页
第6章数据仓库、联机分析处理和数据挖掘_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、DSS1决策支持系统决策支持系统 主讲:彭柳芬主讲:彭柳芬 公共邮箱:公共邮箱:密密 码:码:peng1232第六章第六章 数据仓库、联机分析处理和数据挖掘数据仓库、联机分析处理和数据挖掘v传统数据库应用的局限性传统数据库应用的局限性v数据仓库数据仓库v联机分析处理联机分析处理v数据挖掘数据挖掘vWeka数据挖掘软件数据挖掘软件3传统数据库应用的局限性传统数据库应用的局限性 v 企业在其业务活动中,积累了大量的关于客户、产品、销售、企业在其业务活动中,积累了大量的关于客户、产品、销售、库存、供应商等方面的数据,也可以收集到来自于企业所处行库存、供应商等方面的数据,也可以收集到来自于企业所处行业

2、和竞争对手以及外部环境中的数据,为了支持企业或组织管业和竞争对手以及外部环境中的数据,为了支持企业或组织管理人员的决策分析,必须把日益庞大的数据转化为知识,这就理人员的决策分析,必须把日益庞大的数据转化为知识,这就需要对数据进行联机分析处理需要对数据进行联机分析处理OLAP(Online Analytical Processing) 。v 传统的数据库应用主要是针对数据的联机事务处理传统的数据库应用主要是针对数据的联机事务处理OLTP(Online Transaction Processing),包括定期的数据查询、),包括定期的数据查询、插入、删除和更新操作,以及基本的统计分析如使用交叉表、

3、插入、删除和更新操作,以及基本的统计分析如使用交叉表、图表或图形进行报表的展示。图表或图形进行报表的展示。 v 要在一个系统中同时满足要在一个系统中同时满足OLTP和和OLAP这两种需求是有问题的。这两种需求是有问题的。 4一、决策支持系统一、决策支持系统v 决策支持系统(决策支持系统(DSS)中)中“决策决策”就是决策者根据所就是决策者根据所掌握的信息为决策对象选择行为的思维过程。为决策者提掌握的信息为决策对象选择行为的思维过程。为决策者提供支持的信息成为决策支持信息,相应的信息系统称为决供支持的信息成为决策支持信息,相应的信息系统称为决策支持系统,我们将决策支持领域分成策支持系统,我们将决

4、策支持领域分成OLTP、MIS、LDSS及及HDSS四个层次:四个层次:OLTPMISLDSSHDSSDWOLAPDM51、 OLTP(联机事物处理)(联机事物处理)v 最基本的数据库应用系统,是更高级的最基本的数据库应用系统,是更高级的MIS系统和系统和DSS系统的基础,系统的基础,OLTP系统一般具有底层信息采集(数系统一般具有底层信息采集(数据录入功能)、一定的信息查询以及信息库更新维护功能据录入功能)、一定的信息查询以及信息库更新维护功能,OLTP面向的是操作人员和低层管理人员面向的是操作人员和低层管理人员v 其主要功能在于对数据库中的信息进行录入、存储、更新其主要功能在于对数据库中的

5、信息进行录入、存储、更新、删除等操作,是最基本的管理细节信息的数据库应用系、删除等操作,是最基本的管理细节信息的数据库应用系统。统。66OLAP定义定义1. OLAP理事会给出的定义理事会给出的定义 联机分析处理(联机分析处理(OLAP)是一种软件技术,它使)是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面(多分析人员能够迅速、一致、交互地从各个方面(多维)观察信息,以达到深入理解数据的目的。维)观察信息,以达到深入理解数据的目的。 这些信息是从原始数据转换过来的,按照用户的这些信息是从原始数据转换过来的,按照用户的理解,它反映了企业真实的方方面面。理解,它反映了企业真实的方方面面

6、。77 联机分析处理是共享多维信息的快速分析。联机分析处理是共享多维信息的快速分析。 它体现了四个特征:它体现了四个特征: (1)快速性)快速性:用户对:用户对OLAP的快速反应能力有很高的要求。的快速反应能力有很高的要求。 (2)可分析性)可分析性:OLAP系统应能处理任何逻辑分析和统计分系统应能处理任何逻辑分析和统计分析。析。 (3)多维性)多维性:系统必须提供对数据分析的多维视图和分析。:系统必须提供对数据分析的多维视图和分析。 (4 4)信息性)信息性:OLAPOLAP系统应能及时获得信息,并且管理大容量系统应能及时获得信息,并且管理大容量的信息。的信息。 88 MOLAP数据模型数据

7、模型MOLAP是基于多维数据库存储方式建立的OLAP;表现为“超立方”结构,采用类似于多维数组的结构。ROLAP数据模型数据模型ROLAP是基于关系数据库的OLAP。它是一个平面结构,用关系数据库表示多维数据时,采用星型模型。 MOLAP与与ROLAP的比较的比较HOLAP数据模型数据模型即混和OLAP介于MOLAP和ROLAP之间。在HOLAP中,对最常用的维度和维层次,使用多维数据表来存储,对于用户不常用的维度和数据,采用ROLAP星型结构来存储。 99MDDB(二维)数据组织(二维)数据组织北京北京上海上海广州广州衣服衣服600700500鞋鞋800900700帽子帽子100200801

8、010产品名产品名地区地区销售量销售量衣服衣服北京北京600衣服衣服上海上海700衣服衣服广州广州500鞋鞋北京北京800鞋鞋上海上海900鞋鞋广州广州700帽子帽子北京北京100帽子帽子上海上海200帽子帽子广州广州80关系数据库关系数据库RDBMS数据组织数据组织112、基于、基于OLTP的的MIS系统系统v 这是较高一级的数据库应用系统,这类系统在这是较高一级的数据库应用系统,这类系统在OUP的基础上进一步扩展,包括提高信息访问功能,报表生的基础上进一步扩展,包括提高信息访问功能,报表生成能力等。成能力等。MIS系统由若干个功能相对独立的系统由若干个功能相对独立的OLTP系统系统集成而成

9、,当前的信息服务系统基本属于集成而成,当前的信息服务系统基本属于MIS系统。系统。123、LDSS(低级决策支持系统)(低级决策支持系统)v LDSS处于比处于比MIS更高一层的位置,直接为决策者提更高一层的位置,直接为决策者提供决策支持服务,它的关键在于信息的有效提取并加以分供决策支持服务,它的关键在于信息的有效提取并加以分析而不在于信息的收集与更新(这些操作由基础层的析而不在于信息的收集与更新(这些操作由基础层的OLTP系统完成)。目前决策支持系统绝大部分属于系统完成)。目前决策支持系统绝大部分属于LDSS的层次,它存在着如下功能局限:的层次,它存在着如下功能局限:v (1)随机性的综合信

10、息提取功能较弱;)随机性的综合信息提取功能较弱;v (2)对查询得到的信息的分析功能较弱;)对查询得到的信息的分析功能较弱;v (3)不是基于海量数据库。)不是基于海量数据库。134、HDSS高级决策支持系统高级决策支持系统)vHDSS是决策支持系统的最高形式,能够真正是决策支持系统的最高形式,能够真正使用户利用使用户利用DSS工具直接从企业信息池中随机地提工具直接从企业信息池中随机地提取、分析数据,有效地服务于企业的全方位决策。取、分析数据,有效地服务于企业的全方位决策。它由三个主要部件构成:它由三个主要部件构成: 数据仓库技术(数据仓库技术(DW,Data Warehousing) 联机分

11、析处理技术(联机分析处理技术(OLAP,On-line Analytical Processing) 数据挖掘技术(数据挖掘技术(DM,Data Mining) 14二二 数据挖掘数据挖掘v数据挖掘是从大型数据库或数据仓库中发现数据挖掘是从大型数据库或数据仓库中发现并提取隐藏在其中的信息或知识的过程,目的是并提取隐藏在其中的信息或知识的过程,目的是帮助分析人员寻找数据间潜在的关联,发现忽略帮助分析人员寻找数据间潜在的关联,发现忽略的要素,而这些信息对预测趋势和决策行为是十的要素,而这些信息对预测趋势和决策行为是十分有用的,所以它属于决策支持系统的范畴。分有用的,所以它属于决策支持系统的范畴。1

12、5v 1 预处理数据预处理数据v 通过消除噪声、推导计算缺值数据、消除重复记录、完通过消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换(如把连续值数据转换为离散型的数据,或成数据类型转换(如把连续值数据转换为离散型的数据,或是把离散型的数据转换为连续值数据)等来收集和净化来自是把离散型的数据转换为连续值数据)等来收集和净化来自数据源的信息,并加以存储,一般是将其存放在数据仓库中数据源的信息,并加以存储,一般是将其存放在数据仓库中。v 2 模型搜索模型搜索v 利用数据挖掘工具在数据中查找模型,这个搜寻过程可利用数据挖掘工具在数据中查找模型,这个搜寻过程可以由系统自动执行,自底向上搜寻原

13、始事实以发现它们之间以由系统自动执行,自底向上搜寻原始事实以发现它们之间的某种联系,也可以加入用户交互过程,由分析人员主动发的某种联系,也可以加入用户交互过程,由分析人员主动发问,从上到下地找寻以验证假定的正确性,对于一个问题的问,从上到下地找寻以验证假定的正确性,对于一个问题的搜寻过程可能用到许多工具,例如神经网络、基于规则的系搜寻过程可能用到许多工具,例如神经网络、基于规则的系统、基于实例的推理、机器学习、统计方法等。统、基于实例的推理、机器学习、统计方法等。16v 3 评价输出结果评价输出结果v 数据挖掘阶段发现出来的模式,经过用户或机器的评数据挖掘阶段发现出来的模式,经过用户或机器的评

14、估,可能存在冗余、价值不大的或无关的模式,这时需要估,可能存在冗余、价值不大的或无关的模式,这时需要将其剔除,把重要的模式形成知识存储到知识库中,也有将其剔除,把重要的模式形成知识存储到知识库中,也有可能模式未能满足用户要求,这时则需要整个发现过程回可能模式未能满足用户要求,这时则需要整个发现过程回到发现阶段之前,如重新选取数据、采用新的数据变换方到发现阶段之前,如重新选取数据、采用新的数据变换方法、设定新的数据挖掘参数值,甚至换一种挖掘算法。可法、设定新的数据挖掘参数值,甚至换一种挖掘算法。可见数据发掘的搜寻过程一般需要反复多次,因为当分析人见数据发掘的搜寻过程一般需要反复多次,因为当分析人

15、员评价输出结果后,他们可能会形成一些新的问题或要求员评价输出结果后,他们可能会形成一些新的问题或要求对某一方面作更精细的查询。对某一方面作更精细的查询。17v 4 生成最后的结果报告生成最后的结果报告v DM由于最终是面向人类用户的,因此可能要对发现由于最终是面向人类用户的,因此可能要对发现的模式进行可视化,或者把结果转换为用户易懂的另一种的模式进行可视化,或者把结果转换为用户易懂的另一种表示。表示。v 5 解释结果报告解释结果报告v 对结果进行解释,依据此结果采取相应的商业措施,对结果进行解释,依据此结果采取相应的商业措施,这是一个人工过程。这是一个人工过程。v 数据挖掘的相关技术:为了简化

16、和加快数据挖掘过程数据挖掘的相关技术:为了简化和加快数据挖掘过程,使数据挖掘真正方便、实用,还需其他的技术支持,如,使数据挖掘真正方便、实用,还需其他的技术支持,如数据净化、数据仓库技术、强大的平行处理技术和存储技数据净化、数据仓库技术、强大的平行处理技术和存储技术。术。18三、数据挖掘与决策支持系统的联系三、数据挖掘与决策支持系统的联系 v 传统的传统的DSS系统通常是在某个假设的前提下通过数据查询和分系统通常是在某个假设的前提下通过数据查询和分析来验证或否定这个假设,而数据挖掘技术则能够自动分析数析来验证或否定这个假设,而数据挖掘技术则能够自动分析数据,进行归纳整理,从中发现潜在的模式,或

17、产生联想,建立据,进行归纳整理,从中发现潜在的模式,或产生联想,建立新的业务模型,帮助决策者调整市场策略,并找出正确的决策新的业务模型,帮助决策者调整市场策略,并找出正确的决策。例如在销售业数据库中,数据挖掘工具回答。例如在销售业数据库中,数据挖掘工具回答“哪些客户最可哪些客户最可能对促销作出反应,为什么他会这样?能对促销作出反应,为什么他会这样?”、“哪些商品之间具哪些商品之间具有潜在的联系?有潜在的联系?”、“下一个月,在天津的销售部门的情况将下一个月,在天津的销售部门的情况将会如何?为什么?会如何?为什么?”等。而等。而DSS系统回答系统回答“今年销售总量比去今年销售总量比去年多多少?从

18、而预测明年销售总量年多多少?从而预测明年销售总量”、“三月份中,在天津的三月份中,在天津的销售部门的情况如何?从而推测在北京的销售部门情况销售部门的情况如何?从而推测在北京的销售部门情况”,所,所以,数据挖掘的出现使决策支持工具跨人了一个新阶段。以,数据挖掘的出现使决策支持工具跨人了一个新阶段。v 数据挖掘技术能够帮助用户从历史性数据中挖掘知识,进数据挖掘技术能够帮助用户从历史性数据中挖掘知识,进而支持决策,极大地吸引用户,而用户造就的数十亿美元的市而支持决策,极大地吸引用户,而用户造就的数十亿美元的市场又极大地吸引了数据库厂商,各大公司纷纷开始了自己的数场又极大地吸引了数据库厂商,各大公司纷

19、纷开始了自己的数据挖掘工具产品的研制工作。据挖掘工具产品的研制工作。19四、数据仓库四、数据仓库v数据仓库的用户:数据仓库的用户:1 数据仓库的信息使用者数据仓库的信息使用者2 数据仓库的探索者数据仓库的探索者探索者要做的工作有:概括探索者要做的工作有:概括分析、抽取、建模和分类。分析、抽取、建模和分类。20数据仓库的用户有两类:信息使用者和探索者数据仓库的用户有两类:信息使用者和探索者v 信息使用者是使用数据仓库的大量用户。信息使用者是使用数据仓库的大量用户。 信息使用者以一种可预测的、重发性的方式使用数据信息使用者以一种可预测的、重发性的方式使用数据仓库平台。仓库平台。 信息使用者通常查看

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论