数据仓库概论论文.docx_第1页
数据仓库概论论文.docx_第2页
数据仓库概论论文.docx_第3页
数据仓库概论论文.docx_第4页
数据仓库概论论文.docx_第5页
免费预览已结束,剩余3页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数 据 仓 库 概 论数据仓库与数据挖掘 数据仓库与数据挖掘 在信息化时代来临、互联网高速发展的今天,社会已处于数据爆炸的状态下。当数据量极度增长时,人们感到面对信息海洋像大海捞针一样束手无策,而这些存在的数据可以被广泛的使用,并且也迫切需要将这些数据转换成有用的信息和知识。因此,需要一种从大量数据中去粗存精、去伪存真的技术。数据挖掘技术就是人们长期对数据库技术进行研究和开发的结果,是数据库、数据仓库或其他信息库中的知识发现,是信息技术自然演化的结果。一、数据仓库(一)什么是数据仓库数据可以存放在不同类型的数据库中,最近出现的一种数据库结构是数据仓库。是从多个数据源收集数据,存储于一个统一的数据模式下的数据体,通常驻留在单一站点,以支持管理决策。首先它是面向主题的,每一行业甚至企业建立自己的数据仓库,它关注决策者的数据建模与分析。其次它集成存储了整个企业各部门各时期的数据,因此它是时变的和非易失的。数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点到目前各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。而在实际数据挖掘中经常使用的是数据集市,它面向部门,关心某一主题,因此更灵活和实用。概言之,数据仓库是一种语义上一致的数据存储,它充当决策支持数据模型的物理实现,并存放企业战略决策所需信息。(二)数据仓库的数据组织在数据仓库发展过程中,适当的数据组织非常重要,同样大小的数据仓库采用不同组织形式,完成数据分析和处理的时间会有所不同,它有以下不同的组织形式。简单堆积文件组织方式,是将每天由数据库提取并处理后的数据逐天存储起来。在定期综合文件组织方式中,数据存储单位被分成日、周、月、季度、年等多个级别,数据被逐一的添加到每天的数据集合中。当一个星期结束,每天数据被综合成周数据,周数据被综合成月数据,以此类推。后者的数据量比前者大大减少,但由于数据被进行高度的综合,造成数据的细节在综合中丢失。而连续文件是综合前两者的优点,既保留细节信息,又大大减少数据量。例如:它在进行数据存储过程中,可以将相关两个数据表中相同的表项合并,对于两表中不同的表项分别记录。但是,连续文件增加的合并列也会给查询带来一定的不便。商业决策在一个适当的时间进行趋势、相关分析等工作都必须求助于组织数据的新技术。所以对于大型的数据仓库来说,合理有效的数据组织显得尤为重要。(三)数据仓库的物理结构物理结构可以是关系数据库、数据立方体。目前,数据立方体的物理实体一般为关系数据库中的表,从观察数据的特定角度,把某一类属性的集合称为一个维,每个维都有一个表与之相关联。在数据立方体上可以进行上卷或下钻等OLAP(联机分析处理)操作,即对不同的数据层次进行概化或细化。OLAP 是面向市场的,用于知识工人的数据分析。其目的是使企业的决策者能灵活地操纵企业的数据,以多维的形式从多方面多角度来观察企业的状态、了解企业的变化,通过一致、快速、交互地访问各种可能的信息视图,帮助知识工人掌握数据中存在的规律,实现对数据的归纳、分析和处理,完成相关的决策。数据仓库系统一般都支持OLAP 的基本操作,也可以认为是一种扩展了的SQL操作。因此,用SQL语句可实现OLAP 操作。但是SQL 查询绝不能代替数据挖掘。用SQL查询可以从关系数据库中知道上季度卖出了什么商品,卖出了多少商品,上月每个部门的总销售量等浅层次的知识,但不可以预测新顾客的信用风险,发现商品销售变差的原因,哪种商品的销售出人意料,哪些商品的销售具有关联风险性等潜在的知识。二、数据挖掘数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这些信息和知识可以存放在数据库,数据仓库或其他信息库中,是运用统计学、人工智能、机器学习、数据库技术等方法发现数据的模型和结构、发现有价值的关系或知识的一门交叉学科。准确的说,数据挖掘是数据仓库中的数据集合,在挖掘算法的作用下将数据转化成相应的信息,最后,在信息输出时对信息进行度量和滤除。数据挖掘基于的数据库类型有:关系、面向对象、事务、演绎、时间和时间序列、多媒体、空间、遗产、文本、Web型以及新兴的数据仓库等。面向对象的数据库是基于面向对象的程序设计范例,对象可以是雇员、商品等,而涉及一个对象的数据和代码被封装在一个单元中,对象可以与其他对象或数据库系统通信。空间数据库涉及空间的信息,如地理、医疗和卫星图像数据库等,数据挖掘可以发现描述不同海拔高度山区的气候,或根据城市离主要公路的距离描述城市贫困率的变化趋势。通过时间和时间序列数据库,数据挖掘可以根据数据库中存储的随时间变化的信息,发现对象演变特征和对象变化趋势,帮助进行制订投资策略等。在文本数据库中,大部分是高度非结构化的长句和短文,数据挖掘的作用是发现和描述对象和类的特征,进行关键词和内容关联性分析以及文本对象的聚类。多媒体数据库存储的是图像、音频、视频数据,在其上进行数据挖掘,需要与存储和搜索技术结合在一起,进行多媒体数据的特征提取和基于相似性的模式匹配等。信息化早的企业在信息技术发展中保留下来的一系列数据库是十分有用的,这些数据库可能是关系、层次、网状、多媒体、文本数据库和电子表格等,在这些异构数据库和遗产数据库上进行数据挖掘的关键是进行各种数据库间的清理与变换。Web和与之关联的信息服务系统的数据对象链接在一起,用于交互访问,对数据挖掘也提供了大量机会和挑战。但数据挖掘不是万能的,不要期望数据挖掘算法会处理数据源中的异常数据或相互有冲突的字段等,这些工作最好放在挖掘之前的数据预处理阶段。三、数据挖掘的实施可以把数据挖掘视为数据库中的知识发现。首先,需要定义商业问题。然后根据要求选择组建数据挖掘库,挖掘库中的信息可以是从数据仓库中提取或从外部数据源中直接获取。其次,建立挖掘库后,需要对数据进行分析,拟定初步的数据模型。最后,根据某种兴趣度度量,识别表示知识的真正有趣的模型,如果模型和实际系统有较大的误差,则模型需要重新修订,直到较接近再对模型进行解释,并作为辅助决策信息传递给管理部门。建立数据仓库的步骤是:(1)数据清理:填写空缺值、消除噪声、处理不一致。(2)集成:让多种数据源组合在一起。(3)选择:从数据库中检索、分析与任务相关的数据。(4)变换:数据概化、细化、归约,统一成适合挖掘的形式。数据挖掘包括:(1)从数据仓库提取数据,使用智能方法产生预言模型或规则集。(2)选择或者联合产生优化的预言模型。(3)根据规则的支持度和置信度这两个度量,识别表示知识的真正有趣的模式。(4)评估预言模型。四、数据挖掘的功能在有些情况下,用户不知道什么类型的模式是有趣的。因此,数据挖掘系统的功能是能够挖掘多种类型的模式,以适应不同的用户需求或不同的应用。(一)关联规则是形如:规则前件规则后件 支持度,置信度,即满足前件中条件的数据库元组也满足后件中条件。关联性分析广泛应用于交易数据、关系数据的分析,寻找存在于项目集合或对象集合之间的关联、相关性、或因果结构,通过分析结果来引导销售及其他商务决策的制定。其典型应用包括购物篮分析、分类设计等。例如:哪些商品频繁的被顾客同时购买,这样可以有选择的安排货架。 Apriori算法是关联规则挖掘算法中最常用的一种,它采用的是一种递归策略。(二)分类与预测可以用于提取描述重要数据类的模型或预测未来的数据趋势。分类的目标是根据数据已有的类别归纳出每一类的一般性描述。而预测则是建立连续值函数模型及分布趋势识别。最常用的分类算法是决策树方法,该方法对于小的数据集是适合的,当数据集非常大时,由于计算量太大而无法应用,相关的改进方法有统计和粗糙集方法、神经网络方法、贝叶斯方法等。例如:银行保存着各房贷人员的记录,根据还贷能力和信誉程度,银行将房贷人员记录分成三类:良好、一般、较差,并且把还贷能力和信誉标记赋给各个记录。分类分析就是分析该数据库的记录数据,对每个信誉等级做出准确描述或挖掘分类规则。分类和预测的相似点在于首先构建一模型,然后用模型预测未知值。在构建预测模型时,常采用的形式有:线性回归、多元回归、非线性回归、其他回归模型。(三)聚类分析数据仓库与数据挖掘是将物理或抽象对象的集合分组成为由相似对象组成的多个类,同一类中的对象彼此相似,与其他类中的对象彼此相异。聚类分析中要划分的类是未知,通过聚类能发现数据属性之间有趣的相互系。聚类分析有以下几种算法:(1)partitioning method( 划分方法):给定一个n个对象或元组的数据库,一个划分方法构建数据的k个划分,每个划分表示一个聚簇,且kn。为了达到全局最优,基于划分的聚类会要求穷举所有可能的划分,现在很多应用都采用了比较流行的两个启发式方法:(i)k- 平均算法(ii)k-中心点算法。这些算法已经被加入到许多统计分析软件包或系统中。(2)hierarchical method(层次方法):对给定数据对象集合进行层次的分解。根据分解的形成不同,层次方法可以分为凝聚的和分裂的。凝聚的层次方法是一种自底向上的分析方法,一开始将每个对象作为单独的一个簇,然后相继地合并相近的对象或簇,达到某一个终止条件或所有的对象合并在一个簇中。分裂的层次方法是一种自顶向下的分析方法,一开始将所有对象置于一个簇中,在迭代的每一步使一个簇被分裂为更小的簇,直到达到一个终止条件或每个对象在单独的一个簇中。但是层次方法存在着缺陷:一旦一个步骤完成,它就不能被撤消,这样它就不能更正错误的决定。有两种方法可以改进层次聚类的结果:(1)在每个层次划分时,仔细分析对象之间的联接。(2)综合层次凝聚和迭代的重定位方法,首先用凝聚的自底向上的分析算法,然后进行迭代的重定位来改进结果。(3)density-based method( 基于密度的方法):基于密度的方法能够解决划分方法只能发现球状簇而发现任意形状的簇上遇到困难的问题。该方法的主要思想是,只要临近区域的密度超过某个域值,就继续聚类。经典的算法有DBSCAN 和OPTICS。(4)grid-based method( 基于网格的方法):这种方法采用一个多分辨率的网格数据结构,把对象空间量化为有限数目的单元,形成网格结构,所有聚类分析都在网格上进行。该方法主要优点是处理速度快,它的处理时间仅依赖于量化空间中每一维上的单元数目,而独立于数据的数目。经典的算法有STINC。(5)model-based method(基于模型的方法):为每个簇假定一个模型,寻找数据对给定模型的最佳拟合,该方法可以通过构建反映数据点空间分布的密度函数来定位聚类。评判聚类算法的标准有:能够适用于不同的数据类型和大的数据量;能够发现不同类型的聚集;对噪声数据或数据不同的顺序不敏感;对领域知识的要求尽量少;模型可解释。五、有关数据仓库与数据挖掘的一些成功应用领域一家制药公司可以分析他最近的销售行动及其结果以改进高位值医师的目标市场,并决定哪些市场活动将在后续的几个月有最大的效果。数据需要包括竞争对手的市场活动,信息和当地医疗系统的信息一样。结果可以通过广域网分发到各销售队伍,它可以使地区代表从决策过程中关键属性的视点来检视这些建议。随着这一过程的进行,数据仓库的动态分析允许来自整个组织的最好的实践应用于特定的销售环境。 一个信用卡公司可利用他的巨大的客户交易数据仓库来确定客户对新的信用卡中最感兴趣的产品。使用一个小型的测试邮件,就可以确定一个客户对新产品的亲和力属性。最近的项目已经表明,采用超常规的方法对指定目标的邮寄活动,可以节省20倍的费用。 一家拥有很大的直销队伍的多样化的运输公司,可使用数据挖掘以确定其服务的最好模式。 用数据挖掘来分析他自己的客户体验,该公司可建立唯一的分段以确定高位值的预期。对诸如由 Dun & Bradstreet 提供的那些一般商务数据使用这些分段可以产生一张按地区排列的优先列表。 一个大的消费者货物包裹公司可以利用数据挖掘来改进对零售商的销售流程。来自消费者组织、运输商以及竞争对手活动的数据,可以用于理解打上印记和仓储转移的原因。通过这些分析,制造商可选择能最好地运抵目标客户地区的运输商推荐策略。 每一个这样的例子有一个共同的清晰的基础,他们利用在数据仓库里隐藏的关于客户笃信的知识,来减少费用并改善客户关系的价值。这些组织现在可以集中精力于最重要的客户和有前景的商务,并设计可以最好实现这些目标的市场策略。综上所述,在现代社会中,计算机软硬件的飞速发展,以及数据采集设备和存储介质的层出不穷,极大的推动了数据库和信息产业的发展,使得大量数据和信息存储用于数据分析、事务管理和信息检索。数据挖掘的任务就是从

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论