浅谈数据仓库及数据挖掘技术及应用.doc_第1页
浅谈数据仓库及数据挖掘技术及应用.doc_第2页
浅谈数据仓库及数据挖掘技术及应用.doc_第3页
浅谈数据仓库及数据挖掘技术及应用.doc_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浅谈数据仓库及数据挖掘技术及应用梁园园(计科本 学号:07)摘要:数据仓库技术是基于信息系统业务发展的需要,基于数据库系统技术发展而来,并逐步独立的一系列新的应用技术。数据挖掘技术为应对信息爆炸、海量信息的处理提供了科学和有效的手段。本文简单介绍了关系数据仓库、数据挖掘的概念、结构、基本原理、技术和应用领域。关键词:数据仓库;数据挖掘;信息技术应用一 从数据库到数据仓库。(一) 数据仓库的定义及特点1. 定义:业界公认的数据仓库概念创始人W.H.Inmon 在建立数据仓库一书中对数据仓库的定义是:数据仓库就是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程。2特点:数据仓库最根本的特点是物理地存放数据,而且这些数据并不是最新的、专有的,而是来源于其它数据库的。数据仓库的建立并不是要取代数据库,它要建立在一个较全面和完善的信息应用的基础上,用于支持高层决策分析,而事务处理数据库在企业的信息环境中承担的是日常操作性的任务。数据仓库是数据库技术的一种新的应用,而且到目前为止,数据仓库还是用关系数据库管理系统来管理其中的数据。(二) 数据仓库与数据库的区别数据仓库的出现,并不是要取代数据库。目前,大部分数据仓库还是用关系数据库管理系统来管理的。可以说,数据库、数据仓库相辅相成、各有千秋。数据库是面向事务的设计,数据仓库是面向主题设计的;数据库一般存储在线交易数据,数据仓库存储的一般是历史数据;数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计;数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。数据仓库弥补了原有的数据库的缺点,将原来的以单一数据库为中心的数据环境发展为一种新环境:体系化环境。二 数据挖掘的定义及功能(一)数据挖掘的定义数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。 (二)数据挖掘的功能数据挖掘综合了各个学科技术,有很多的功能,当前的主要功能如下: 1.分类:按照分析对象的属性、特征,建立不同的组类来描述事物。例如:银行部门根据以前的数据将客户分成了不同的类别,现在就可以根据这些来区分新申请贷款的客户,以采取相应的贷款方案。 2.聚类:识别出分析对内在的规则,按照这些规则把对象分成若干类。例如:将申请人分为高度风险申请者,中度风险申请者,低度风险申请者。 3.关联规则和序列模式的发现:关联是某种事物发生时其他事物会发生的这样一种联系。例如:每天购买啤酒的人也有可能购买香烟,比重有多大,可以通过关联的支持度和可信度来描述。与关联不同,序列是一种纵向的联系。例如:今天银行调整利率,明天股市的变化。 4.预测:把握分析对象发展的规律,对未来的趋势做出预见。例如:对未来经济发展的判断。 5.偏差的检测:对分析对象的少数的、极端的特例的描述,揭示内在的原因。例如:在银行的100万笔交易中有500 例的欺诈行为,银行为了稳健经营,就要发现这500 例的内在因素,减小以后经营的风险。需要注意的是:数据挖掘的各项功能不是独立存在的,在数据挖掘中互相联系,发挥作用。三. 数据仓库与数据挖掘技术及应用 (一)数据仓库技术及应用数据仓库系统是一个信息提供平台,他从业务处理系统获得数据,主要以星型模型和雪花模型进行数据组织,并为用户提供各种手段从数据中获取信息和知识。数据仓库并没有严格的数学理论基础,它更偏向于工程。由于数据仓库的这种工程性,因而在技术上可以根据它的工作过程分为:数据的抽取、存储和管理、数据的表现以及数据仓库的设计仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入到数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等几个方面。数据仓库的数据并不要求与联机事务处理系统保持实时的同步,因此数据抽取可以定时进行,但多个抽取操作执行的时间、相互的顺序、成败对数据仓库中信息的有效性则至关重要。在数据仓库的世界里,它们只能成为辅助的角色。 (二)数据的存储和管理数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库的特性,同时也决定了其对外部数据表现形式。要决定采用什么产品和技术来建立数据仓库核心,则需要从数据仓库的技术特点着手分析。数据仓库遇到的第一个问题是对大量数据的存储和管理。这里所涉及的数据量比传统事务处理大得多,且随时间的推移而累积。从现有技术和产品来看,只有关系数据库系统能够担当此任。数据仓库要解决的第二个问题是并行处理。在传统联机事务处理应用中,用户访问系统的特点是短小而密集;对于一个多处理机系统来说,能够将用户的请求进行均衡分担是关键,这便是并发操作。而在数据仓库系统中,并行处理技术在数据仓库中比以往更加重要。目前,关系数据库系统在并行处理方面已能做到对查询语句的分解并行、基于数据分割的并行、以及支持跨平台多处理机的群集环境和MPP 环境,能够支持多达上百个处理机的硬件系统并保持性能的扩展能力。 数据仓库的第三个问题是针对决策支持查询的优化。这个问题主要针对关系数据库而言,因为其它数据管理环境连基本的通用查询能力都还不完善。在技术上,针对决策支持的优化涉及数据库系统的索引机制、查询优化器、连接策略、数据排序和采样等诸多部分。数据仓库的第四个问题是支持多维分析的查询模式,这也是关系数据库在数据仓库领域遇到的最严峻的挑战之一。在数据仓库的数据存储管理领域,从当今的技术发展来看,面向决策支持扩充的并行关系数据库将是数据仓库的核心。在市场上,数据库厂商将成为数据仓库的中坚力量 (三)数据的表现 数据表现是数据仓库的门面,这是一个工具厂商的天下,它们主要集中在多维分析、数理统计和数据挖掘方面。在当前的数据仓库应用中,多维分析是数据仓库的重要表现形式,有效地利用数理统计就已经能够获得可观的效益。 1. 数据仓库设计的技术咨询 在数据仓库的实施过程中,有一些更为基本的问题需要解答。它们包括:数据仓库提供哪些部门使用,不同的部门怎样发挥数据仓库的决策效益,数据仓库需要存放哪些数据,这些数据以什么样的结构存放,数据从哪里装载,装载的频率多少为合适,需要购置哪些数据管理的产品和工具来建立数据仓库,等等。这些问题依赖于特定的数据仓库系统,属于技术咨询的范畴。事实上,数据仓库决不是简单的产品堆砌,它是综合性的解决方案和系统工程。在数据仓库的实施过程中,技术咨询服务至关重要,是一个不可缺少的部分,它甚至于比购买产品更为重要。目前,数据仓库的技术咨询主要来自数据仓库软件产品的供应商和独立的针对数据仓库技术的咨询公司。90 年代以来,计算机技术,尤其是数据库技术的发展为DSS 提供了技术支持;激烈的市场竞争促进了高层次决策人员对DSS 的实际需求。两方面的共同作用,促成了以DW 为核心、以O-LAP 和DM 工具为手段建设DSS 的可行方案。数据库技术的发展DW需要以下数据库技术的支持。 (1) 高性能数据库服务器DW 的应用不同于传统DB 的OLTP 应用。传统DB 的应用是操作型的,而DW的应用是分析型的, 它需要高性能的DBMS核心的支持,以使较快地获得分析结果,这通常需数秒至数分钟。虽然比OLTP 的响应时间长一些,但由于分析型应用涉及的数据量大,查询要求复杂,因此,对DBMS 核心的性能要求更高,同DBMS 必须具有良好的查询优化机制。 (2) 并行数据库技术DW 中的数据量大,而且随着时间的延长,新的数据还会不断进入。DW中的数据库通常是GB 甚至TB 级的,可谓是超大规模数据库(VLDB)。而并行数据库技术是存储和管理VLDB, 并提供对VLDB 复杂查询处理的有效技术。 (3) 数据库互操作技术DW 中的数据大多来自企业或行业中业已运行的OLTP 数据库或外部的数据源。这些数据库常常是异构的,甚至是文件系统中的数据。DW必须从这些异构数据源中定期抽取、转换和集成所需要的数据, 并把它们存入DW 中。因此,异构数据源之间的互访和互操作技术是必需的。 2. 数据挖掘技术及应用 作为一门处理数据的新兴技术,数据挖掘有许多的新特征。首先,数据挖掘面对的是海量的数据,这也是数据挖掘产生的原因。其次,数据可能是不完全的、有噪声的、随机的、复杂的数据结构,维数大。最后,数据挖掘是许多学科的交叉,运用了统计学、计算机、数学等学科的技术。以下是常见和应用最广泛的算法和模型: (1)统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题;回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归;统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。 (2)关联规则。关联规则是一种简单、实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛,适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则进行有效的评价,筛选有意义的关联规则。 (3)聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高相似度,不同组的则相异。常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价。此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。 (4)决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值。分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。(5)神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析。神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。 (6)遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分来更新当前群体的一组假设,实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉重组)选择两个不同个体染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。参考文献1王珊,等.数据仓库技术与联机分析处理M.北京:科学出版社,1999.2Tom Hammergren 著.曹增强,王备战,等译.数据仓库技术(Data Wharehousing: Building the CorporateKnowledge Base)M.北京:中国水利水电出版社,1998.3Harjinder S.GILL 等著.王仲谋,刘书舟译.数据仓库客

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论