火龙果数据仓库和数据挖掘导读_第1页
火龙果数据仓库和数据挖掘导读_第2页
火龙果数据仓库和数据挖掘导读_第3页
火龙果数据仓库和数据挖掘导读_第4页
火龙果数据仓库和数据挖掘导读_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据仓库与数据挖掘边雪芬HD-bxf2 第一部分 数据仓库HD-bxf3数据仓库1.1 从数据库到数据仓库1.2 什么是数据仓库1.3 DBMS vs. DWMS1.4 数据仓库的系统结构与相关问题1.5 数据仓库的相关概念 1.1 从数据库到数据仓库HD-bxf41.1 从数据库到数据仓库Why数据仓库数据库:主要用于事务处理。数据库技术一直力图使自己能胜任从事务处理、批处理到分析处理的各种类型的信息处理任务。但它对分析处理的支持一直不能令人满意,尤其是当以事务处理为主的OLTP(on-line transaction processing ,联机事务处理 )应用与以分析处理为主的DSS(D

2、ecision Support System ,决策支持系统)应用共存于同一个数据库系统中时,这两种类型的处理发生了明显的冲突。HD-bxf51.1 从数据库到数据仓库Why数据仓库“蜘蛛网”问题为了避免企业中各部门或各用户间的冲突和简化用户的数据视图,一种称作“抽取程序”的方法目前被广泛地应用。不加控制的连续抽取最终导致系统内的数据间形成了错综复杂的网状结构,人们形象地称为“蜘蛛网”。企业的规模越大,“蜘蛛网”问题就越严重。虽然网上的任意两个节点的数据可能归根结底是从一个原始库中抽取出来的,但它们的数据没有统一的时间基准,抽取算法各不相同,抽取级别也不相同,并且可能参考不同的外部数据。因而对

3、同一问题的分析,不同节点却会产生不同甚至截然相反的结果。这当然使决策者无从下手。HD-bxf61.1 从数据库到数据仓库事务型系统和分析型系统的分离事务型系统处理以传统的数据库为中心进行企业的日常业务处理例如:电信行业的记费数据库、银行数据库使用人员为企业的具体操作人员处理的数据为企业业务的细节信息目标是实现企业的业务运营分析型系统分析数据背后的关联和规律,为企业的决策提供可靠有效的依据。例如:对高校大学生就业信息进行分析,以帮助学校指定招生计划并合理设置专业。使用人员为企业的中高层管理者或从事数据分析的工程师处理的数据为企业的宏观信息目标是为企业决策者提供信息支持HD-bxf71.1 从数据

4、库到数据仓库事务型系统和分析型系统的分离可见,在事务型环境中直接构建分析型应用是不合适的。要提高分析和决策的效率和有效性,分析型处理及其数据必须与操作型处理及其数据相分离。必须把分析数据从事务处理环境中提取出来,按照DSS处理的需要进行重新组织,建立单独的分析处理环境。数据仓库正是为了构建这种新的分析处理环境而出现的一种数据存储和组织技术。 HD-bxf81.1 从数据库到数据仓库对数据的处理分两类:操作型处理(OLTP on-line transaction processing )操作型处理对数据的存取操作频率高而每次操作处理的时间短; 数据库系统分析型处理(OLAP on-line an

5、alytical processing )在分析处理环境中,某个DSS应用程序可能需要连续几个小时,从而消耗大量的系统资源。数据仓库系统HD-bxf9第一章 数据仓库概述1.1 从数据库到数据仓库1.2 什么是数据仓库1.3 DBMS vs. DWMS1.4 数据仓库的系统结构与相关问题1.5 数据仓库的相关概念 1.2 什么是数据仓库HD-bxf10什么是数据仓库 “A data warehouse is a subject-oriented, integrated, time-variant, and nonvolatile collection of data in support of

6、 managements decision-making process.” W.H.Inmon. 1992 数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用于支持管理决策过程。 1.2 什么是数据仓库HD-bxf11Data Warehouse PropertiesSubjectOrientedIntegratedTime VariantNon VolatileDataWarehouseHD-bxf121.2 什么是数据仓库数据仓库的四个主要特征数据仓库是面向主题的(Subject-Oriented)操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中

7、的数据是按照一定的主题域进行组织。主题是一个抽象的概念,指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。是对各分析对象所涉及的操作数据库中的数据的集成,是更高级别的数据抽象。典型的主题领域:客户;产品;交易;帐目数据仓库围绕一些主题,排除对于决策无用的数据,提供特定主体的简明视图。HD-bxf131.2 什么是数据仓库数据仓库的四个主要特征数据仓库是面向主题的(Subject-Oriented)例如,若企业决策人员预分析客户的财务信息,则需要把关于客户的各种财务信息综合在“Customer Financial ”这一主题中。 HD-bxf14 Operati

8、onal SystemsSavingsSharesLoansInsuranceEquityPlansCustomerFinancial InformationData Warehouse Subject AreaHD-bxf151.2 什么是数据仓库HD-bxf161.2 什么是数据仓库数据仓库的四个主要特征数据仓库是集成的(Integrated)数据仓库的数据来自于多个不同的数据源。多个数据源经常是异种或异构的,存在数据重复和语义不一致问题。 不是对这些数据源中某些数据的复制,而是对这些数据源中数据的进一步抽象。它需要按照统一的结构、一致的格式、一致的度量单位、一致的语义,从不同的数据源提取

9、数据并进行清洗、转换、综合、抽象,最后集成为面向主题的数据集合,确保数据的综合性、宏观性和一致性。 HD-bxf17J Jones女1945年7月20日J Jones去年有两张罚单一次大事故人寿保险汽车保险J JonesMain大街123号已婚房产保险J Jones两个孩子高血压健康保险J Jones女1945年7月20日出生去年有两张罚单一次大事故Main大街123号已婚两个孩子高血压顾客HD-bxf181.2 什么是数据仓库数据仓库的四个主要特征数据仓库是随时间不断变化的(Time-Variant)数据仓库中的历史数据应该随时间的延长不断增加新的数据内容(周期性更新)。通过这些信息,可以对

10、企业的发展历程和未来趋势做出定量分析和预测。随时间不断的延长,数据仓库中一些数据的历史将越来越久。一般情况下,历史久远的数据将不再被决策者关心。所以,数据仓库的数据超过一定的期限,就要被删除。数据仓库中大量数据都是综合数据。这些综合数据一般都与时间有关,如按照时间段进行综合的数据。这些综合数据要随着时间的延长而不断地变化。 HD-bxf191.2 什么是数据仓库DataTime01/201202/ 201203/ 2012Data for JanuaryData for FebruaryData for MarchData WarehouseHD-bxf201.2 什么是数据仓库数据仓库的四个

11、主要特征数据仓库是非易失的(Non-Volatile)数据仓库的数据主要供企业决策分析之用,很少进行修改,所涉及的数据操作主要有两类:数据加载数据查询和联机分析 数据仓库的数据一般都是历史数据,是对多个不同数据源进行统计、综合和重组后导出的数据。只要数据源中与数据仓库相关的数据不发生改变,数据仓库中的数据就不应该被改变。一般来说,无需事务管理、并发控制与恢复等机制HD-bxf21Typically data in the data warehouse is not updated or deleted.ReadLoadINSERT ReadUPDATEDELETEOperational Dat

12、abasesWarehouse DatabaseHD-bxf22Changing DataOperational DatabasesWarehouse DatabaseFirst time loadRefreshRefreshRefreshPurgeorArchiveHD-bxf231.2 什么是数据仓库数据仓库的其它特征数据仓库中的数据量非常大。级,级数据仓库是数据库技术的一种新的应用,而且到目前为止,数据仓库一般还是应用数据库管理系统来管理其中的数据。数据仓库的使用人员较少。 HD-bxf24第一章 数据仓库概述1.1 从数据库到数据仓库1.2 什么是数据仓库1.3 DBMS vs. DW

13、MS1.4 数据仓库的系统结构与相关问题1.5 数据仓库的相关概念 1.3 DBMS vs. DWMSHD-bxf251.3 DBMS vs. DWMS OLTP (联机事务处理)On-Line Transaction ProcessingMajor task of traditional relational DBMSDay-to-day operations: 采购, 库存, 银行业, 制造业, 工资发放, 注册系统, 账目管理等。HD-bxf261.3 DBMS vs. DWMS OLAP (联机分析处理)On-Line Analytical ProcessingMajor task o

14、f data warehouse systemData analysis and decision making2022/9/12HD-bxf271.3 DBMS vs. DWMS 2022/9/12HD-bxf281.3 DBMS vs. DWMS DBMSDWMS具有功能OLTPOLAP数据视图当前的历史的细粒度的综合的局部的集成的设计目的面向应用面向分析查询90%事先可知道 90%是ad hoc的updateread-only but complex queries一次操作所涉及的数据量小一次操作所涉及的数据量大开发周期需求驱动数据驱动ad hoc:机动的;临时的;特设的 HD-bxf2

15、9第一章 数据仓库概述1.1 从数据库到数据仓库1.2 什么是数据仓库1.3 DBMS vs. DWMS1.4 数据仓库的系统结构与相关问题1.5 数据仓库的相关概念 1.4 数据仓库的系统结构与相关问题HD-bxf301.4 数据仓库的系统结构与相关问题E: ExtractT: TransformL: LoadData MartData Mart数据仓库系统结构Data SourcesMulti-Tiered ArchitectureData StorageFront-End ToolsHD-bxf31数据仓库系统结构数据源(DataSource)数据仓库的数据存储(DataStorage)

16、应用工具(ApplicationTools)可视化用户界面(Visualization)。1.4 数据仓库的系统结构与相关问题HD-bxf321.4 数据仓库的系统结构与相关问题相关问题数据仓库数据模型逻辑数据结构代数操作数据仓库数据定义与操作语言数据仓库存储与索引结构OLAP操作实现算法OLAP查询处理与优化数据提取、转换与加载数据维护HD-bxf33第一章 数据仓库概述1.1 从数据库到数据仓库1.2 什么是数据仓库1.3 DBMS vs. DWMS1.4 数据仓库的系统结构与相关问题1.5 数据仓库的相关概念 1.5 数据仓库的相关概念HD-bxf341.5 数据仓库的基本概念ETL:e

17、xtract/transformation/loadETL工具就是进行数据的抽取、转换和“净化提炼”处理。“净化提炼”即对从多个不同业务数据库所抽取的数据,进行数据项名称的统一、位数的统一、编码的统一和形式的统一,消除重复数据。ETL工具包括:data extract, data transform, data cleaning, data loading.HD-bxf351.5 数据仓库的基本概念数据抽取(Data Extraction) 从数据仓库的角度来看,并不是业务数据库中的所有数据都是决策支持所必需的。通常,数据仓库按照分析的主题来组织数据,我们只需提取出系统分析必需的那一部分数据。

18、例如,某超市确定以分析客户的购买行为为主题建立数据仓库,则我们只需将同客户购买行为相关的数据提取出来,而超市服务员工的数据就没有必要放进数据仓库。 HD-bxf361.5 数据仓库的基本概念数据清洗(Data Cleaning)将错误的、不一致的数据在进入数据仓库之前予以更正或删除,以免影响决策支持系统决策的正确性。HD-bxf371.5 数据仓库的基本概念数据清洗(Data Cleaning)企业常常为不同的应用对象建立不同的业务数据库,这些业务系统中可能包含重复的信息,存在数据不一致现象。例:HD-bxf381.5 数据仓库的基本概念数据清洗(Data Cleaning)由于冗余的数据存放

19、在不同的数据库中,如果不同数据库间的数据刷新不是实时的,则可能出现数据不同步的情况。例:HD-bxf391.5 数据仓库的基本概念数据转换(Data Transformation)由于业务系统可能使用不同的数据库厂商的产品,各种数据库产品提供的数据类型可能不同,因此需要将不同格式的数据转换成统一的数据格式。例:HD-bxf401.5 数据仓库的基本概念数据装载将数据按照物理数据模型定义的表结构装入数据仓库,包括清空数据域、填充空格、有效性检查等。HD-bxf411.5 数据仓库的基本概念数据仓库存储(Data Repository) 数据仓库存储就是用于存放数据仓库数据和元数据的存储空间。数据

20、的存储方式主要有3 种:多维数据库关系型数据库这两种存储方式的结合。 HD-bxf421.5 数据仓库的基本概念数据业务系统中提取的或者从外部数据源中导入的数据经过清洗、转化后成为数据仓库的原始数据。由于需要数据仓库进行 OLAP 分析和数据挖掘,因此需要在原始数据的基础上增加冗余信息,比如进行大量的预运算,建立多维数据库,以求迅速的展现数据。HD-bxf431.5 数据仓库的基本概念元数据(Metadata)数据是对事物的描述,“元数据”就是描述数据的数据,它提供了有关数据的环境,用于构造、维持、管理和使用数据仓库。数据仓库的元数据主要包含两类数据:第一种是为了从操作型环境向数据仓库环境转换

21、而建立的元数据,它包括所有源数据项的名称、属性及其在提取仓库中的转化;第二种元数据在数据仓库中是用来与最终用户的多维商业模型和前端工具之间建立映射的。2022/9/12HD-bxf441.5 数据仓库的基本概念在转换后,(User_ID,User_Name,Address)3 列原始的存放位置、进行的清洗转化处理、数据最终的存放位置、数据格式、数据使用的规则等等都将作为元数据的一部分。HD-bxf451.5 数据仓库的基本概念主题(Subject)主题(Subject)是一个在较高层次上将数据归类的标准,每一个主题基本对应一个宏观的分析领域。面向主题的数据组织方式,就是在较高层次上对分析对象数

22、据的一个完整、一致的描述,能完整、统一地刻画各个分析对象所涉及的企业各项数据,以及数据之间的联系。HD-bxf461.5 数据仓库的基本概念维度(dimension)维()是指人们观察事物的角度。在数据仓库中比较常用的维主要有:时间维、客户维、产品维、地区维等。人们从某个维的角度观察数据,还可以根据细节程度的不同形成多个描述层次,该多个描述层次就称为维层次。HD-bxf471.5 数据仓库的基本概念数据立方体数据仓库中维的概念类似于关系表的属性。数据立方体是指由两个或更多个属性即两个或更多个维来描述或分类的数据。在三维的情况下以图形来表示,该类数据具有立方体结构,一般称为数据立方体。虽然我们通

23、常从几何意义的角度将立方体理解为三维的,但是在数据仓库中数据立方体是一个 维的概念。“某产品在某个月份在某个地区的销售收入是多少”HD-bxf481.5 数据仓库的基本概念联机分析处理(OLAP)OLAP是使分析人员、管理人员、或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。OLAP技术的目的是满足决策支持或者满足在多维环境下特定的查询和报表需求,技术核心为“维”。HD-bxf49HD-bxf50 第二部分 数据挖掘HD-bxf51数据挖掘为什么要进行数据挖掘什么是数据挖掘数据挖掘在什么类型的数据上进行数据挖掘的功能数据挖掘方法的分类如何度量挖

24、掘结果数据挖掘的主要问题是什么HD-bxf52 Necessity Is the Mother of InventionData explosion problem Automated data collection tools and mature database technology lead to tremendous amounts of data accumulated and/or to be analyzed in databases, data warehouses, and other information repositories We are drowning in

25、data, but starving for knowledge! Solution: Data warehousing and data miningData warehousing and on-line analytical processingMining interesting knowledge (rules, regularities, patterns, constraints) from data in large databasesHD-bxf53Data mining applicationsThe Google system uses a mathematical al

26、gorithm calledPageRank to estimate the relative importance of individual web pages based on link patternsThe Advanced Scout system analyzes the logs of NBA games to uncover interesting pieces of information (e.g., “when player X is on the floor, player Ys shot accuracy decreases from 75% to 30%.”) A

27、s of 1997 the system was in use by several NBA teamsMotivation: Why data mining?PR是英文Pagerank 的缩写形式,Pagerank取自Google的创始人LarryPage,它是Google排名运算法则(排名公式)的一部分,Pagerank是Google对网页重要性的评估,是Google用来衡量一个网站的好坏的唯一标准。PR值的级别从1到10级,10级为满分。PR值越高说明该网页越受欢迎。Google把自己的网站的PR值定到9,这说明Google这个网站是非常受欢迎的,也可以说这个网站非常重要。一个PR值为1

28、的网站表明这个网站不太具有流行度,而PR值为7到10则表明这个网站非常受欢迎。HD-bxf54Motivation: Why data mining?Applications电信公司股票信息超市:尿布和啤酒Other ApplicationsText mining (news group, email, documents) and Web miningStream data miningHD-bxf55什么是数据挖掘Data mining is the non-trivial process of identifying valid, novel, potentially useful, a

29、nd ultimately understandable patterns from huge volume of data 从大量数据中抽取出隐含的、有潜在用途的、未知的、人们可以理解的、有价值的信息和模式的过程。这些新发现的规律、模式、信息和概念具有潜在使用价值。HD-bxf56数据挖掘是知识发现的同义词数据挖掘是知识发现中必不可少的一个步骤什么是数据挖掘HD-bxf57什么是数据挖掘Data preprocessingData in the real world is dirty不完整的存在空值, 缺少感兴趣的属性或仅包含聚集数据含有噪声的含有错误或存在偏离期望的孤立点值e.g., Sa

30、lary=“-10”不一致的数据值存在偏差e.g., Age=“42” Birthday=“03/07/1997”e.g., Was rating “1,2,3”, now rating “A, B, C”e.g., discrepancy between duplicate records数据预处理可以改进数据的质量,提高数据挖掘的精度HD-bxf58Major Tasks in Data PreprocessingData cleaningFill in missing values, smooth noisy data, identify or remove outliers, and

31、resolve inconsistenciesData integrationIntegration of multiple databases, data cubes, or filesData transformationNormalization and aggregationData reductionObtains reduced representation in volume but produces the same or similar analytical resultsData discretizationPart of data reduction but with p

32、articular importance, especially for numerical data2022/9/12HD-bxf59Forms of data preprocessing 2022/9/12HD-bxf602022/9/12HD-bxf61HD-bxf62数据挖掘在什么类型的数据上进行Relational databaseData warehouseTransactional databaseAdvanced database and information repositoryObject-relational databaseSpatial and temporal dataTime-series data Stream dataMultimedia databaseHeterogeneous and legacy(遗产) databaseText databases & WWWHD-bxf63数据挖掘的功能Concept description: Characterization(描述) and discrimination(区别)Generalize(归纳), summarize(总结), and contrast data characteristics, e.g

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论