《数据仓库与数据挖掘》论文.doc_第1页
《数据仓库与数据挖掘》论文.doc_第2页
《数据仓库与数据挖掘》论文.doc_第3页
《数据仓库与数据挖掘》论文.doc_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库原理以及联机分析处理的应用摘要:了解数据仓库原理以及联机分析处理的概念,利用Analysis Services系统,建立具有父子维度的多维数据集,以此加深对论题的理解。关键词:数据仓库结构、数据仓库模型、元数据、OLAP1. 前言数据仓库(Data Warehouse,DW)和数据挖掘(Data Mining,DM)是决策支持的两项重要技术。在数据仓库中利用多为数据分析来发现问题,并找出产生的原因,能从大量历史数据中预测未来;利用数据挖掘方法能从大量数据中获取知识。两项技术的共同特点是都需要利用大量的数据资源。2.数据仓库原理 数据仓库结构体系数据仓库结构包括当前基本数据、历史基本数据、轻度综合数据、高度综合数据、元数据。当前基本数据是最近时期的业务数据,是数据仓库用户最感兴趣的部分,数据量大。整个数据仓库的组织结构是由元数据来组织的,它不包含任何业务数据库中的实际数据信息。在数据库中只存储当前的详细数据,而数据仓库存储按主题组织起来的当前详细数据外,还需要存储综合数据,这是为适应决策需求而增加的。目前,全世界对数据仓库总投资的一半以上均集中在数据集市上。数据集市是一种更小、更集中的数据仓库,为公司提供了一条分析商业数据的廉价途径。它是指具有特定应用的数据仓库,主要针对某个具有战略意义的应用或者具体部门级的应用支持用户利用已用的数据获得重要的竞争优势或者找到进入新市场的具体解决方案。数据集市与数据仓库的差别:数据仓库是基于整个企业的数据模型建立的,它面向企业范围的主题。而数据即使是按照某一特定部门的数据模型建立的,由于每个部门有自己特定的需求,因此,它们对数据集市的期望也不一样。部门的主题与企业的主题之间可能存在关联,也可能不存在关联。数据仓库中存储整个企业内非常详细的数据,而数据集市中数据的详细程度要低一些,包含概要和累加数据要多一些。数据即使的数据组织一般采用星型模型。大型数据仓库的数据组织,如NCR公司采用第三范式。 数据仓库数据模型数据仓库不同于数据库。数据仓库的逻辑数据模型是多维结构的数据试图,也称多维数据模型。目前,使用的多维数据模型主要有星型模型、雪花模型、星网模型、第三范式等。 数据抽取、转换和装载数据仓库的数据获取需要经过抽取、转换、装载三个过程,即ETL过程。数据抽取工作包括:确认数据源;数据抽取技术。数据抽取过程中得到的数据是没有经过加工的数据,不能直接应用于数据仓库,必须经过多种处理,将抽取的数据转换成可以存储在数据仓库中的信息。它的基本功能为:选择,分离(合并),转化,汇总,清晰化。数据装载包括数据装载方式和数据装载类型。其方式有:基本装载,追加,破坏性合并,建设性合并。其类型有:最初装载,增量装载,完全刷新。 元数据元数据在数据仓库的建造、运行中有着极其重要的作用。元数据描述了数据仓库的数据和环境,遍及数据仓库的所有方面,是整个数据仓库的核心。最基本的元数据相当于数据库系统中的数据字典。有两类人会用到元数据:最终用户(包括商业分析员)和IT人员(包括开饭人员和管理人员)。数据仓库的用户最关心的是两类元数据:元数据高速数据仓库中有什么数据,它们从哪里来,即如何按主题查看数据仓库的内容;元数据提供已有的可重复利用的查询语言信息。3.联机分析处理的应用 OLAP概念数据分析处理是共享多维信息的快速分析,它包括体现了四个特征:快速性,可分析性,多维性,信息性。OLAP的准则:多维概念视图,透明性,可访问性,一致稳定的报表性能,客户/服务器体系结构,维的等同性,动态的稀疏矩阵处理,多用户支持能力,非限定的跨维操作,直观的数据操作,灵活的报表生成,不受限制的维和聚集层次。其基本概念有:变量:是数据的实际意义,即描述数据“是什么”。维:是人们观察数据的特定角度。维的层次:人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的多个描述方面,通常称为这多个描述方面的维的层次。维成员:维的一个取值称为该维的一个维成员。多维数组:其可以表示为:(维1,维2,维n,变量)。数据单元(单元格):多维数组的取值称为数据单元。 OLAP的数据模型其包括MOLAP数据模型和ROLAP数据模型。这两者的不同在于:数据存储速度:MOLAP在此上性能好,响应速度快。数据存储的容量:ROLAP在存储容量上基本没有限制,而MOLAP难以达到太大的字节级。多为计算的能力:MOLAP能够支持高性能的决策支持计算,而ROLAP中无法完成多行的计算和维之间的计算。维度变化的适应性:ROLAP有更好的适应性。数据变化的适应性:ROLAP适应性更强。软硬件平台的适应性:ROLAP更优。元数据管理:两者各有优缺。4.建立具有父子维度的多维数据集: 打开Analysis Manager维度向导:在Analysis Manage树窗格中,在“教程”数据库下,右击“共享维度”文件夹,单击“新建维度”菜单,然后单击“向导”命令。 建立Employee维度:在“欢迎”步骤,单击“下一步”按钮。在“选择维度的创建方式”步骤,选择“父子:单个维度表中相关的两列”,然后单击“下一步”按钮。在“选择维度表”步骤,单击“employee”,然后单击“下一步”按钮。若要定义子键列,在“成员键”框旁边,选择“employee_id”。若要定义父键列,在“父键”框旁边,选择“supervisor_id”,若要定义“成员名称”列,在“成员名称”框旁边,选择“full_name”。单击“下一步”按钮。在向导的“选择高级选项”步骤,单击“下一步”按钮。在最后一步,在“维度名称”框中,输入“employee”。单击“完成”按钮。现在进入维度编辑器。在“文件”菜单上,单击“退出”命令关闭维度编辑器。现在,在“共享维度”列表中,应能看到雇员维度。 建立HR多维数据集:打开Analysis Manager维度向导:在Analysis Manage树窗格中,在“教程”数据库下,右击“多维数据集”文件夹,单击“新建多维数据集”菜单,然后单击“向导”命令。按照向导中的步骤创建人力资源多维数据集,依照要求创建特征:事实数据表:salary度量值:salary_paid、vacation_used维度:Employee、Store、Time是否计算事实数据表的行数?是在该向导的最后一步,将多维数据集命名为“HR”,然后单击完成按钮。出现多维数据集编辑器。若要手动创建联接,将“Time_by_day”表的“The_date”字段拖动到“salary”表的“pay_data”字段上。在“store”表的“store_id”字段上单击,并将其拖动到“employee”表中的“store_id”字段上。删除在“salary”表和“employee”表之间自动创建的“department_id”联接;单击该联接将其选中,然后按“删除”按钮。完成时,关闭多维数据集编辑器。提示保存多维数据集时单击“是”按钮,但提示设计存储时单击“否”按钮。5.结束语数据仓库是在原有的关系型数据库中发展形成的,但不同于数据库系统的组织结构形式。OLAP是以数据仓库为基础的数据分析处理,其特点有两个:一是在现性,体现为对用户请求的快速响应和交互式操作,他的实现是由客户机/服务器这种体系结构在网络环境上完成的;二是多维分析,这也是OLAP的核心所在。通过对数据仓库原理以及联机分析处理

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论