数据仓库与数据挖掘算法比较.docx_第1页
数据仓库与数据挖掘算法比较.docx_第2页
数据仓库与数据挖掘算法比较.docx_第3页
数据仓库与数据挖掘算法比较.docx_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库与数据挖掘算法比较一、 数据仓库随着处理信息量的不断加大,企业需要多角度处理海量信息并从中获取支持决策的信息,面向事务处理的操作型数据库就显得力不从心,面向主题集成大量数据的数据仓库技术产生。数据仓库因其面向主题性,集成性,稳定性和时变性,不仅在数据的集成,存储上效果好,在从操作系统提取信息和支持系统造作者的前端工具上更是充分利用了数学严谨的逻辑思维和统计学知识,以及先进的信息技术,使企业的信息利用更有价值。数据仓库按照特定的方法(ETL)从数据源中提取数据,以特定主题作为维度,利用特定的算法集成数据,给数据用户提供实时查询,最终集成有效信息供决策者使用。数据仓库是个过程而不是一个项目,是一个解决方案而不是一个产品。数据仓库之父比尔恩门(BillInmon)在1991年出版的“BuildingtheDataWarehouse”(建立数据仓库)一书中所提出的定义被广泛接受,数据仓库是一个面向主题的(SubjectOriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策。数据仓库系统以数据仓库为核心,通过数据分析与报表模块的查询和分析工具(OLAP、决策分析、数据挖掘)完成对信息的提取,以满足决策的需要。数据仓库主要由数据源、数据仓库、业务数据仓库、数据分析与报表、数据管理、元数据管理、传输和基础结构几部分构成:l 数据源是数据仓库中的数据来源,它主要来自操作型环境的数据库,包括一些产品数据、遗留数据、外部来源数据等。l 数据管理:数据库中的数据在进入数据仓库以前,必须经过规范化处理,数据管理模块根据在数据中所描述的映射关系和各种整理规则,把来自不同数据源的数据转换到数据仓库中,对数据进行清洁、增强、变换、和加载的处理并且根据在元数据中所描述的较验规则和专家知识,消除数据的不一致性和不合理性。l 目录信息:它通过提供一整套用来维护和观察仓库元数据的工具来实现技术用户和业务用户访问和利用数据仓库系统的能力。目录信息的主要元素有元数据管理员、技术元数据、业务元数据及信息导航。l 数据集市和数据商场:数据集市和数据商场是为满足特定的数据需求而创建的数据仓库。它可以看作是全局数据仓库的一个子集,是对部门级的应用而建立的数据仓库。l 分析与报表:要使数据仓库发挥其真正的作用,必须要有一个强有力的分析工具。数据分析与报表部分是从大量的数据中提取出原来未知的数据间相互关系,找出数据间潜在的模式,发现经营者可能忽略的信息,并为企业做出前摄的、基于知识的决策。它包括报表生成具、OLAP、数据挖掘、决策支持工具。这里比较重要的是OLAP和数据挖掘。OLAP建立在客户/服务器结构之上,支持多维数据分析,OLAP是由用户驱动的,在用户的指导下验证分析家设定一些假设。数据挖掘应用在数据上,并产生一些假设,当用户使用数据挖掘工具来挖掘数据时,是挖掘工具来进行开发。例如:分析家假设那些高负债和低收入的人有信用风险,他们可以用各种方式验证和反验证这些假设;而数据挖掘工具可以用来发现给予信用的风险因素,比较可能会发现具有高负债和低收入的人有信用风险,它还会发现一种分析家们难以置信的模式,如负债/收入与年龄所预示的风验。l 元数据管理:元数据定义为“关于数据的数据”,元数据代表定义数据仓库对象的任何东西,无论是一个表、一个列、一个查询、一个商业规则,或者是数据仓库内部的数据转移。元数据基本有四类:第一类是关于数据仓库潜在数据来源的信息;第二类是关于数据模型的信息;第三类是业务数据与仓库数据结构间的映射;第四类元数据是仓库中信息的使用情况。l 传输和基础结构:传输层使用了刷新与复制技术、数据传输、传送网络以及中间件等构件,在硬件/软件平台间架起了必要的通信桥。其中刷新与复制技术包括传播和复制系统、数据库网关内定义的复制工具、数据仓库指定的产品;数据传输和传送网络包括网络协议、网络管理框架、网络操作系统、网络类型;客户/服务器代理和中间件包括数据库网关、面向消息的中间件、对象请求代理。概言之,数据仓库是一种语义上一致的数据存储,它充当决策支持数据模型的物理实现,并存放企业决策所需信息。数据仓库也常常被看作一种体系结构,通过将异种数据源中的数据集成在一起而构造,支持结构化和启发式查询、分析报告和决策制定。数据仓库系统是多种技术的综合体。在整个系统中,数据仓库居于核心地位,是数据挖掘的基础,是整个系统发挥作用的关键。根据上面的讨论,我们把建立数据仓库看作构造和使用数据仓库的过程。数据仓库的构造需要数据集成、数据清理、和数据统一。利用数据仓库常常需要一些决策支持技术。这使得“知识工人”(例如,经理、分析人员和主管)能够使用数据仓库,快捷、方便地得到数据的总体视图,根据数据仓库中的信息做出准确的决策。有些作者使用术语“建立数据仓库”表示构造数据仓库的过程,而用术语“仓库DBMS”表示管理和使用数据仓库。我们将不区分二者。 “组织机构如何使用数据仓库中的信息?”许多组织机构正在使用这些信息支持商务决策活动,包括:增加顾客关注,包括分析顾客购买模式(如,喜爱买什么、购买时间、预算周期、消费习惯);根据季度、年、地区的营销情况比较,重新配置产品和管理投资,调整生产策略;分析运作和查找利润源;管理顾客关系、进行环境调整、管理合股人的资产开销。从异种数据库集成的角度看,数据仓库也是十分有用的。许多组织收集了形形色色数据,并由多个异种的、自治的、分布的数据源维护大型数据库。集成这些数据,并提供简便、有效的访问是非常希望的,并且也是一种挑战。数据库工业界和研究界都正朝着实现这一目标竭尽全力。 对于异种数据库的集成,传统的数据库做法是:在多个异种数据库上,建立一个包装程序和一个集成程序(或仲裁程序)。这方面的例子包括IBM 的数据连接程序和Informix的数据刀。当一个查询提交客户站点,首先使用元数据字典对查询进行转换,将它转换成相应异种站点上的查询。然后,将这些查询映射和发送到局部查询处理器。由不同站点返回的结果被集成为全局回答。这种查询驱动的方法需要复杂的信息过滤和集成处理,并且与局部数据源上的处理竞争资源。这种方法是低效的,并且对于频繁的查询,特别是需要聚集操作的查询,开销很大。 对于异种数据库集成的传统方法,数据仓库提供了一个有趣的替代方案。数据仓库使用更新驱动的方法,而不是查询驱动的方法。这种方法将来自多个异种源的信息预先集成,并存储在数据仓库中,供直接查询和分析。与联机事务处理数据库不同,数据仓库不包含最近的信息。然而,数据仓库为集成的异种数据库系统带来了高性能,因为数据被拷贝、预处理、集成、注释、汇总,并重新组织到一个语义一致的数据存储中。在数据仓库中进行的查询处理并不影响在局部源上进行的处理。此外,数据仓库存储并集成历史信息,支持复杂的多维查询。这样,建立数据仓库在工业界已非常流行。二、 数据挖掘分类算法的比较分析数据挖掘的主要任务有分类分析、聚类分析、关联分析、序列模式分析等,其中的分类分析由于其特殊地位,一直是数据挖掘研究的热点之一,至今已经提出很多算法数据挖掘分类就是分析输入数据,通过在训练集中的数据表现出来的特性,为每一个类找到一种准确的描述或者模型。按照各种算法的技术特点,将其分成决策树分类、基于关联规则分类以及利用数据库技术分类等几类算法进行叙述。1、决策树分类算法决策树分类方法的基本算法是贪心算法,它是自顶向下递归的各个击破方式造决策树。它起源于概念学习系统,然后发展了建立在推理系统和概念学习系统基础上的ID3方法并达到高峰,最后又演化为能处理连续属性的C4.5。数据挖掘研究兴起之后,为了适应大规模数据集的处理,对它又进行了改进,其中SLIQ和SPRINT是比较有代表性的算法。SLIQ算法对C4.5决策树分类算法的实现方法进行了改进,在决策树的构造过程中采用了“预排序”和“广度优先”两种技术。SLIQ算法采用了预排序的技术,以便能够消除在决策树的每个结点对数据集进行排序的需要所谓预排序,就是针对每个属性的取值,把所有的记录按照从小到大的顺序进行排序。具体实现时,需要为训练集数据的每个属性创建一个属性列表为每个元组的类别创建一个类别列表算法实现时需要有足够的内存来保存类别列表。SLIQ采用广度优先策略构造决策树,即在决策树的每一层只需对每个属性列表扫描一次,就可以为当前决策树中每个叶子结点找到最优分裂标准。为了减少需要驻留于内存的数据量,SPRINT算法进一步改进了决策树算法实现时的数据结构,去掉在SLIQ中需要驻留于内存的类别列表,将它的类别列合并到每个属性列表中其优点是在寻找每个结点的最优分裂标准时变得相对简单一些,但是其缺点是对非分裂属性的属性列表进行分裂变得很困难。解决的办法是对分裂属性进行分裂时用哈希表记录下每个记录属于哪个孩子结点,若内存能够容纳下整个哈希表,其他属性列表的分裂只需参照该哈希表即可由于哈希表的大小与训练集的大小成正比,当训练集很大时,哈希表可能无法在内存容纳,此时分裂只能分批执行,这使得SPRINT算法的可扩展性仍然不是很好。2、基于关联规则的分类算法CBA是基于关联规则发现方法的分类算法。关联规则的发现采用经典算法Apfiori,该算法对于发现隐藏于大量交易记录之中的关联规则来说是比较有效的但当利用它发现分类规则时,为了防止漏掉某些规则,最小支持度经常被设为0,此时该算法就发挥不了它的优化作用,结果是产生的频繁集有时多得在内存无法容纳,从而使得程序无法继续运行。CBA算法的优点是其分类准确度较高,因为它发现的规则相对较全面。3、基于数据库技术的分类算法虽然数据挖掘研究的兴起是由数据库领域的研究人员掀起的,然而至今为止提出的大多数算法则没有利用数据库的相关技术,数据挖掘应用也很难与数据库系统集成,此问题已成为该领域研究的关键问题之一。在分类算法中,致力于解决此问题的算法目前有MIND和GAC.RDB两个。MIND(mining in database)算法是采用数据库中用户定义的函数(user-defined functio

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论