




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据仓库 与 数据挖掘,转自-同济大学 经济与管理学院 黄立平 教授,目录,一、 数据库相关 1.1 数据库技术的发展 1.2 数据库应用中存在的问题 1.3 海量数据要求强有力的数据分析工具 二、数据仓库 2.1 什么是数据仓库DW ( data warehouse )? 2.2 数据仓库的主要特征 2.3 DW概念总结 2.4 操作型数据库系统与数据仓库的区别 2.5 数据仓库的数据模型 2.6 OLTP和OLAP的主要区别,目录,2.7数据仓库与操作数据库为什么是分离的? 2.8 多维数据模型 三、数据挖掘 3.1 什么是数据挖掘? 3.2 数据挖掘的特点 3.3 数据挖掘的分类 3.4
2、 数据挖掘的两种功能 3.5 数据挖掘和知识发现的联系 3.6 数据挖掘实例,一、 数据库相关1.1 数据库技术的发展,收集和数据库创建 ( 20世纪60年代和更早 ) -原始文件处理 数据库管理系统(20世纪70年代) -层次、网状、关系数据库系统 -数据建模工具:实体-联系(ER)模型等 -索引和数据组织技术 -查询语言:SQL 、用户界面:表单、报告等 -查询处理和查询优化、事务并发控制等 -联机事务处理(OLTP),1.1 数据库技术的发展,高级数据库系统 ( 80年代中期现在 ) -高级数据模型: 扩充关系、面向对象、对象-关系 -面向应用:空间的、时间的、多媒体的、主动的、科学的、
3、知识库 数据仓库和数据挖掘 (80年代后期现在) -数据仓库和OLAP技术 -数据挖掘和知识发现 基于Web的数据库系统 (90年代现在) -基于XML的数据库系统 -Web 挖掘,1.2 数据库应用中存在的问题,“数据丰富,信息贫乏”。存储了大量数据的数据库变成了“数据坟墓”难以再访问的数据档案; 在大型数据库中快速增长着海量数据,理解数据的含义已经远远超出了人的能力; 领导者的重要决策往往无法、及时获得信息,因为缺乏从海量数据中提取有价值知识的工具;若在当前运行的操作数据库中获取信息,则影响数据库的使用和性能,1.3 海量数据要求强有力的数据分析工具,以前的专家系统依赖用户或某领域的专家人
4、工地将知识输入知识库;这一过程常常有偏差和错误,并且耗时、费用高; 使用数据挖掘工具进行数据分析;可以发现重要的数据模式,对商务决策、知识库、科学和医学研究作出了巨大贡献; 数据和信息之间的差距,要求系统地开发数据挖掘工具,将沉寂的数据转换成宝贵的知识。,二、数据仓库2.1 什么是数据仓库DW ( data warehouse )?,数据仓库可以看作是一种特殊的关系数据库。 DW是一个面向主题的、集成的、不更新的、随时间变化的数据集合,用于支持管理部门的决策过程。 DWS允许将各种应用系统集成在一起为统一的历史数据分析提供坚实的平台,对信息处理、决策提供支持。,2.2 数据仓库的主要特征,面向
5、主题的 ( subject oriented ) : (1) 所谓主题(宏观领域),如顾客、供应商、产品和销售组织;是在高层次上将企业IS中的数据综合、归类并进行分析利用的抽象。面向主题,是指数据仓库内的信息是按主题进行组织的,为按决策的过程提供信息。 (2) DW关注决策者的数据建模与分析,而传统数据库是面向应用的,集中于组织机构的日常操作和事务处理。 (3) DW排除对于决策无用的数据,提供特定主题的简明视图。,2.2 数据仓库的主要特征,(4) 传统数据库使用OLTP联机事务处理方式,进行数据组织时考虑记录每一笔业务的情况; 数据仓库使用OLAP联机分析处理方式,进行数据分析处理,以主题
6、为单位组织数据,例如:供应商、商品、顾客等。 (5) 面向主题的数据组织方式要求将数据组织成主题域,各主题域之间有明确的界限(独立性),在某一主题内的数据应该包括分析处理所要求的一切数据(完备性)。,2.2 数据仓库的主要特征,集成的(integrated): (1) 构造数据仓库是将多个不同的数据源,如关系数据库、一般文件和联机事务处理记录,集成在一起。 (2) 将多个系统的数据进行计算和整理,保证DW的数据是关于整个系统的、一致的、全局的。 使用数据清理和数据集成技术,确保命名约定、编码结构、属性等的数据结构一致性。 保证各数据源中数据的一致性。,2.2 数据仓库的主要特征,不更新的 (n
7、onvolatile): (1)访问数据仓库主要是两种方式:数据的插入和查询。修改和删除操作很少 。 (2) DW的数据与操作环境下的应用数据分开存放。因此,数据仓库不需要在操作环境下事务处理、恢复和并发控制等机制。,2.2 数据仓库的主要特征,随时间变化的(time-variant): (1)数据仓库记录了从过去某一时间到目前的各个阶段的信息,通过这些信息,可以表明发展历程并对未来的趋势作出定量分析和预测。 (2) DW的数据结构,隐式或显式地包含时间元素;其包含的大量综合数据也与时间相关,例如:月产量。 (3) DW随时间变化不断增加新的数据内容;去掉超过时限(例如:510年)的数据。,2
8、.3 DW概念总结,DW概念总结: 数据仓库是一种语义上一致的数据存储体系结构; DW是决策支持数据模型的物理实现,并存放企业战略决策所需信息; DW通过将异种数据源中的数据集成在一起构造而成; 完成各种数据查询、信息分析报告和决策支持。,2.4 操作型数据库系统与数据仓库的区别,操作型数据库系统的主要任务是执行联机事务和查询处理,称为联机事务处理 (OLTP) 系统。它涵盖了一个组织的大部分日常操作,如采购、制造、库存、销售、财务、银行等事务。 DW在数据分析和决策方面为决策者提供服务。可以用不同的格式去组织和提供数据,以便满足不同用户的形形色色需求。这种系统称为联机分析处理(OLAP)系统
9、。,2.5 数据仓库的数据模型,数据仓库和OLAP通常是基于多维数据模型。 该模型将数据看作数据立方体(data cube)形式。 数据立方体由维和事实来定义;以多维的形式对数据建模和观察。 维是关于一个组织想要记录的透视或实体。 事实是面向某一主题的数据度量,它表示了多个 分析维之间的分析结果。 多维数据模型通常有星型和雪花型两种形式。,2.5 数据仓库的数据模型,1. 维 维是人们观察数据的特定角度。例如:时间维是商品销售随时间推移发生的变化;地理维是商品在不同地区的销售分布情况。2. 维的层次 某个维以下存在的对细节的多个描述方面,例如:时间维有年、季度、月、日等不同层次。3. 维成员
10、维的一个取值是该维的一个成员。,2.5 数据仓库的数据模型,4. 多维数组 一个多维数组可以表示为(维1,维2,维3,维n, 变量);例如:(地区、时间、销售渠道、销售额) 5. 数据单元 多维数组的取值是数据单元。例如:(上海,2002年2月,批发,2188),2.6 OLTP和OLAP的主要区别,服务对象: OLTP是面向顾客的,用于办事员、客户和信息技术专业人员的事务和查询处理。 OLAP是面向市场的,用于经理、主管和信息分析人员的数据分析。数据内容:OLTP系统管理当前数据。这种数据太琐碎,难以用于决策。 OLAP系统管理大量历史数据,提供汇总和聚集机制,并在不同的粒度级别上存储和管理
11、信息。数据易于用作中、高层的决策过程。,2.6 OLTP和OLAP的主要区别,数据库设计: OLTP系统采用E-R(Entity Relationship Diagram)实体-联系模型和面向应用的数据库设计。 OLAP系统采用星型或雪花模型和面向主题的数据库设计 视图: OLTP系统主要关注一个企业或部门内部的当前数据,而不涉及历史数据或不同组织的数据。 OLAP系统由于组织的变化常常跨越数据库模式的多个版本。 OLAP系统也处理来自不同组织的信息,由多个数据存储集成的信息。由于数据量巨大,OLAP数据也存放在多个存储介质上。,2.6 OLTP和OLAP的主要区别,访问模式: 对OLTP系统
12、的访问主要由短的原子事务组成。这种系统需要并行控制和恢复机制。 对OLAP系统的访问大部分是只读操作(由于大部分数据仓库存放历史数据,而不是当前数据),尽管许多可能是复杂的查询。 OLTP和OLAP的其他区别: 包括数据库大小、操作的频繁程度、性能度量等。,OLTP系统和OLAP系统的比较表,特 性 OLTP OLAP 特征 操作处理 信息处理 面向 事务 分析 用户 办事员、客户、数据库专业人员 经理、主管、分析员 功能 日常操作 长期信息需求,决策支持 DB设计 基于E-R,面向应用 星型/雪花,面向主题 数据 当前的,确保最新 历史的,跨时间维护 汇总 原始的,高度详细 汇总的,统一的
13、视图 详细,一般关系 汇总的,多维的 工作单位 短的,简单事务 复杂查询 存取 读/写 大多为读 关注 数据输入、存储 信息输出 操作 主关键字上索引/散列 大量扫描 访问记录数量 数十个 数百万 用户数 数千 数百 DB规模 100MB到GB 100GB到TB 优先 高性能,高可用性 高灵活性,端点用户自治 度量 事务吞吐量 查询吞吐量,响应时间,2.7数据仓库与操作数据库为什么是分离的?,操作型数据库存放了大量数据,为什么不直接在这种数据库上进行联机分析处理,而是另外花费时间和资源去构造一个与之分离的数据仓库? 主要原因是提高两个系统的性能。 操作数据库是为已知的任务和负载设计的,如使用主
14、关键字索引,检索特定的记录和优化查询; 数据仓库的查询通常是复杂的,涉及大量数据在汇总级的计算,可能需要特殊的数据组织、存取方法和基于多维视图的实现方法。,2.7数据仓库与操作数据库为什么是分离的?,操作型数据库: 支持多事务的并行处理,需要加锁和日志等并行控制和恢复机制,以确保数据的一致性和完整性。数据仓库: 对数据记录进行只读访问,以进行汇总和聚集。 如果OLTP和OLAP都在操作型数据库上运行,会大大降低数据库系统的吞吐量。 总之,数据仓库与操作数据库分离是由于这两种系统中数据的结构、内容和用法都不相同。,两种系统的数据结构、内容和用法都不相同,操作型数据库一般不维护历史数据,其数据很多
15、,但对于决策是远远不够的。数据仓库系统用于决策支持需要历史数据,将不同来源的数据统一(如聚集和汇总),产生高质量、一致和集成的数据。 操作型数据库只维护详细的原始数据(如事务),这些数据在进行分析之前需要统一。 由于两个系统提供很不相同的功能,需要不同类型的数据,因此需要维护分离的数据库。,2.8 多维数据模型,数据仓库和OLAP基于多维数据模型。该模型将数据看作数据立方体(data cube)形式。 数据立方体允许以多维对数据建模和观察。它由维和事实定义。 维是关于一个组织想要记录的视图或实体。 例如,商店可能创建一个数据仓库sales,记录商店的销售,涉及维 time,item(商品类),
16、branch(分店)和 location(地点)。这些维使得商店能够记录商品的月销售,销售商品的分店和地点。,2.8 多维数据模型,主题: 多维数据模型围绕中心主题(例如sales)组织。 主题用事实表表示。事实是用数值度量的。根据它们分析维之间的关系。例如,sales销售数据仓库的事实包括dollars_sold(销售的款项),units_sold(销售量)和amount_budgeted(预销量)。 事实表包括事实的名称,以及每个相关维表的关键字。,2.8 多维数据模型,例:某连锁商店的销售数据按照维time季度, item商品类的2-D视图(其中销售数据是取自Location=“Vanc
17、ouver”的所有分店,销售金额单位是1000美元)。 item(商品类) _ 季度 家庭娱乐 计算机 电 话 安全设备 Q1 605 825 14 400 Q2 680 952 31 512 Q3 812 1023 30 501 Q4 927 1038 38 580,2.8 多维数据模型,以三维角度观察该连锁商店的销售数据。例如,根据time,item和location城市观察数据。 location是Chicago, New York,Toronto和Vancouver。 location“Chicago” ;location“New York” . (该市上述二维表 略) (该市上述二维
18、表 略),2.8 多维数据模型,多维数据库模型: 星型、雪花型 关系数据库设计广泛使用ER数据模型。数据库模式由实体的集合和它们之间的联系组成。这种数据模型适用于联机事务处理。 数据仓库需要简明的、面向主题的模型,便于联机数据分析。 数据仓库数据模型是多维数据模型。这种模型有星型模式、雪花模式等。,2.8 多维数据模型,星型模式(star schema):是数据仓库最常见的数据模型,其中包括: (1)事实表:包含大批数据和不含冗余的中心表; (2)一组小的附属表( 维表 ),每一维一个。维表围绕中心表显示在连线上。 例:某连锁商店的星型模式如下图所示。sales有四个维,分别是time,ite
19、m,branch(分店)和location。该模式包含一个中心事实表sales,它包含四个维的关键字和两个度量dollars_sold销售的款项和units_sold销售量。,2.8 多维数据模型,在星型模式中,每一维只用一个表表示,每个表包含一组属性。例如,location维表包含属性集location_key, street, city, province_or_state, country。,2.8 多维数据模型,sales 数据仓库的星型模式 time sales item 维表 事实表 维表 time_key - time_key item_name day item_key - i
20、tem_key day_of_the_week units_sold brand month dollars_sold type quarter location_key supplier_type year branch_key | | | branch维表 location维表 branch_key location_key branch_name street branch_type city province_or_state country,2.8 多维数据模型,雪花模型(snowflake schema) 雪花模型是星型模式的变种,其中某些维表是规范化的,因而把数据进一步分解到附加
21、的表中。结果,模型图形成类似于雪花的形状。 雪花模型和星型模型的主要不同在于,雪花模型的维表可能是规范化形式,以便减少冗余。 这种表易于维护,并节省存储空间,因为当维结构作为列包含在内时,大维表可能非常大。 由于执行查询需要更多的连接操作,雪花模型可能降低浏览的性能。数据仓库系统的性能可能受到影响。在数据仓库设计中,雪花模式不如星型模式使用广泛。,2.8 多维数据模型,雪花模型(snowflake schema) 该连锁商店sales的雪花模型在下图给出。这里,sales事实表与上面的星型模型相同。两个模式的主要不同是维表。 星型模型中的item的单个维表在雪花模型中被规范化,导致新的item
22、表和supplier供应商表。例如,现在item维表包含属性item_key, item_name, brand ,type和supplier_key,supplier_key连接到supplier维表。而supplier维表包含信息supplier_key和supplier_type。 类似地,星型模型中location的单个维表被规范化成两个表:新的location和city。新的location表中的location_key现在连接到city维。根据需要雪花模型还可以进一步规范化。,2.8 多维数据模型,sales数据仓库的雪花模式 time sales item 维表 事实表 维表 t
23、ime_key - time_key item_name day item_key -item_key day_of_the_week units_sold brand month dollars_sold type supplier 维表 quarter location_key supplier_type - supplier_key year branch_key | (规范化)supplier_type | | branch维表 location维表 (规范化) branch_key location_key branch_name street city维表 branch_type
24、city - city_key province_or_state country,三、数据挖掘3.1 什么是数据挖掘?,数据挖掘DM(Data Mining)是从大量数据中挖掘出隐含的、先前未知的、对决策有潜在价值的知识和规则。这些规则蕴含了数据库中一组对象之间的特定关系,揭示出一些有用的信息,为经营决策、市场策划、金融预测等提供依据。 通过数据挖掘,有价值的知识、规则或高层次的信息能就从数据库的相关数据集合中抽取出来,并从不同角度显示,从而使大型数据库作为一个丰富可靠的资源为知识管理服务。,3.1 什么是数据挖掘?,数据挖掘在一些文献中也有其他名称,如数据开采、知识挖掘、知识抽取、知识考察
25、等。数据挖掘是知识发现KDD的一个关键步骤,它包括特定的数据挖掘算法,具有可接受的计算效率,生成特殊的模式。 KDD是利用数据挖掘算法,按指定方式和阈值抽取有价值的知识,包括数据挖掘前对数据的预处理、抽样及转换和数据挖掘后对知识的评价解释过程。,3.2 数据挖掘的特点,所处理的数据规模十分巨大。 寻找决策所需的信息。 数据挖掘既要发现潜在规则,还要管理和维护规则。 数据挖掘中规则的发现主要基于大样本的统计规律,发现的规则不必适用于所有数据,当达到某一阈值时便可认为有此规律。,3.3 数据挖掘的分类,根据所开采的数据库类型、发现的知识类型、采用的技术类型,数据挖掘有不同的分类方法。 (1) 按数
26、据库类型分类 从关系数据库中发现知识; 从面向对象数据库中发现知识; 从多媒体数据库、空间数据库、历史数据库、Web数据库中发现知识。,3.3 数据挖掘的分类,(2) 按挖掘的知识类型分类 按挖掘的知识类型可分为关联规则、特征规则、分类规则、偏差规则、聚集规则、判别式规则及时序规则等。 按知识的抽象层次可分为归纳知识、原始级知识、多层次知识。一个灵活的规则挖掘系统能够在多个层次上发现知识。,3.3 数据挖掘的分类,(3) 按利用的技术类型分类 根据开采方法分为自发知识开采、数据驱动开采、查询驱动开采和交互式数据开采。 根据开采途径分为基于归纳的开采、基于模式的开采、基于统计和数学理论的开采及集
27、成开采等。,3.3 数据挖掘的分类,(4) 按挖掘的深度分类 在较浅的层次上,利用现有数据库管理系统的查询/检索及报表功能,与多维分析、统计分析方法相结合,进行 OLAP,从而得出可供决策参考的统计分析数据。 在深层次上,从数据库中发现前所未知的、隐含的知识。 OLAP的出现早于数据挖掘,两者都是从数据库中抽取有用信息的方法,就决策支持的需要而言两者可以起到相辅相承的作用。OLAP可以作为一种广义的数据挖掘方法,它旨在简化和支持联机分析,而数据挖掘的目的是使这一过程尽可能自动化。,3.4 数据挖掘的两种功能,数据挖掘有两种功能: (1)预测/验证功能。用数据库的若干已知字段预测或验证其他未知字
28、段值; (2)描述功能指找到描述数据的可理解模式。,3.5 数据挖掘和知识发现的联系,知识发现KDD (knowledge discovery)是指识别出存在于数据库中有效的、新颖的、具有潜在效用的、最终可理解的、模式的、非平凡过程。 KDD的整个过程包括在指定的数据库中用数据挖掘算法提取模型,以及围绕数据挖掘进行的预处理和结果表达等一系列的计算步骤。尽管数据挖掘是整个过程的中心,但它通常只占整个过程15%25%的工作量。 知识发现是从数据库中发现知识的全部过程,而数据挖掘则是此全过程的一个特定的关键步骤,3.5 数据挖掘和知识发现的联系,KDD的步骤: 1 熟悉应用领域、背景知识及用户的KD
29、D任务性质; 2 数据的选择:确定与发现任务相关的数据集合; 3 数据清理和预处理,包括除去错误和冗余数据、处理丢失数据、更新数据和时序信息并将其准备成数据挖掘工具所需的表达式; 4 数据缩减和投影,寻找依赖于发现目标的、表达数据的有用特征,通过降低维数和数据转换以缩减数据规模;降低数据复杂性; 5 确定KDD目标,选择合适的算法如聚集、分类、线性回归等;,3.5 数据挖掘和知识发现的联系,6 选择数据挖掘算法,选择适当的模型和参数;7 执行数据挖掘过程,发现模式并表达成易理解的 形式如分类规则等;8 评价和解释发现的模式,必要时反复执行步骤 1到7;9 将模式提交给用户或应用到系统中。 KDD整个过程是一个以知识工作者为中心、人机交互的探索过程。,3.6 数据挖掘实例,1 生物医学和DNA数据分析的数据挖掘 人类有约10万个基因。一个基因通常由成百个核苷按一定次序组织而成。核苷按不同的次序和序列可以形成不同的基因,几乎是不计其数。 具有挑战性的问题是从中找出导致各种疾病的特定基因序列模式。 由于在数据挖掘中己
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 蓟州区公司注册管理办法
- 蚌埠市在建工程管理办法
- 行政部管理目标管理办法
- 西红柿公司职工管理办法
- 衢江区渔业养殖管理办法
- 西南大学教研室管理办法
- 西藏公积金缴纳管理办法
- 试验检测部考核管理办法
- 财务部财务管理暂行办法
- 贵州新型储能项目管理暂行办法
- 《病毒学》(研究生)全册配套完整课件
- 第十七章其他熔化焊接与热切割作业课件
- 手术讲解模板:肩关节全部置换术课件
- 腧穴总论 2特定穴课件
- 数显压力表说明书
- 食堂伙食收据样稿
- JJF 1255-2010 厚度表校准规范-(高清现行)
- DB4409∕T 06-2019 地理标志产品 化橘红
- 拉森钢板桩引孔方案说明
- 路基工程质量通病及防治措施
- 咖啡文化PPT课件:咖啡配方及制作方法步骤
评论
0/150
提交评论