




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据仓库数据仓库 与与 数据数据挖掘挖掘转自-同济大学同济大学 经济与管理学院经济与管理学院 黄立平黄立平 教授教授目录 一、一、 数据库相关数据库相关 1.1 数据库数据库技术的技术的发展发展 1.2 数据库数据库应用中存在的应用中存在的问题问题 1.3 海量海量数据要求强有力的数据分析数据要求强有力的数据分析工具工具 二、数据仓库二、数据仓库 2.1 什么什么是数据仓库是数据仓库DW ( data warehouse )? 2.2 数据数据仓库的主要仓库的主要特征特征 2.3 DW概念总结概念总结 2.4 操作型操作型数据库系统与数据仓库的区别数据库系统与数据仓库的区别 2.5 数据数据仓
2、库的数据模型仓库的数据模型 2.6 OLTP和和OLAP的主要的主要区别区别目录 2.7数据仓库与操作数据库为什么是分离的数据仓库与操作数据库为什么是分离的? 2.8 多维多维数据模型数据模型 三、数据挖掘三、数据挖掘 3.1 什么什么是数据挖掘?是数据挖掘? 3.2 数据数据挖掘的特点挖掘的特点 3.3 数据数据挖掘的分类挖掘的分类 3.5 数据数据挖掘和知识发现的挖掘和知识发现的联系联系 3.6 数据挖掘实例数据挖掘实例一、一、 数据库数据库相关相关1.1 数据库技术的发展数据库技术的发展 收集收集和数据库创建和数据库创建 ( 20世纪世纪60年代和更早年代和更早 ) -原始文件处理 数据
3、库管理系统数据库管理系统(20世纪世纪70年代年代) -层次、网状、关系数据库系统 -数据建模工具:实体-联系(ER)模型等 -索引和数据组织技术 -查询语言:SQL 、用户界面:表单、报告等 -查询处理和查询优化、事务并发控制等 -联机事务处理(OLTP)1.1 数据库技术的发展数据库技术的发展 高级数据库系统高级数据库系统 ( 80年代中期年代中期现在现在 ) -高级数据模型: 扩充关系、面向对象、对象-关系 -面向应用:空间的、时间的、多媒体的、主动的、科学的、知识库 (80年代后期年代后期现在现在) -数据仓库和OLAP技术 -数据挖掘和知识发现 基于基于Web的数据库系统的数据库系统
4、 (90年代年代现在现在) -基于XML的数据库系统 -Web 挖掘1.2 数据库应用中存在的问题数据库应用中存在的问题 “”。存储了大量数据的存储了大量数据的数据库变成了数据库变成了“数据坟墓数据坟墓”难以再访问的数据档案; 在大型数据库中快速增长着海量数据,;往往,因为;若在当前运行的操作数据库中获取信息,则影响数据库的使用和性能1.3 海量数据要求强有力的数据分析海量数据要求强有力的数据分析工具工具依赖用户或某领域的专家人工地将知识输入知识库人工地将知识输入知识库;这一过程常常有偏差和错误有偏差和错误,并且耗时耗时、费用高;费用高; 使用数据挖掘工具进行数据分析;可以,对商务决策、知识库
5、、科学和医学研究作出了巨大贡献; 数据和信息之间的差距,要求系统地开发数据挖掘工具,。二、数据二、数据仓库仓库2.1 什么是数据仓库什么是数据仓库DW ( data warehouse )? 数据仓库数据仓库可以看作是一种特殊的关系数据关系数据库库。 DW是一个的、的、的、的数据集合,用于支持管理部支持管理部门的门的决策过程决策过程。允许在一起为统一的历史数据分析提供坚实的平台,对信息处理、决策提供支持。2.2 数据仓库的主要特征数据仓库的主要特征面向面向主题的主题的 ( subject oriented ) :(1) 所谓(宏观领域),如顾客、供应商、产品和销售组织;是在高层次上将企业IS中
6、的数据综合、归类并进行分析利用的抽象。,是指数据仓库内的信息是按主题进行组织的,为按决策的过程提供信息。 (2) DW关注决策者的,而传统数据库是面向应用的,集中于组织机构的日常操作和事务处理。(3) DW排除对于决策无用的数据,。 2.2 数据仓库的主要特征数据仓库的主要特征 (4) 传统数据库使用,进行数据组织时考虑记录每一笔业务的情况; 数据仓库使用,进行数据分析处理,以主题为单位组织数据,例如:供应商、商品、顾客等。 (5) 面向主题面向主题的数据组织方式要求,各主题域之间有明确的界限(独立性),在某一主题内的数据应该包括分析处理所要求的一切数据(完备性)。2.2 数据仓库的主要特征数
7、据仓库的主要特征 集成的集成的(integrated): (1) 构造数据仓库构造数据仓库是将,如关系数据库、一般文件和联机事务处理记录,在一起。 (2) 将多个系统的数据进行计算和整理,保证的数据是、的、的。 使用数据清理和数据集成技术数据清理和数据集成技术,确保命名约定、编码结构、属性等的数据结构。 保证各数据源中的。2.2 数据仓库的主要特征数据仓库的主要特征 不更新的不更新的 (nonvolatile): (1)访问数据仓库主要是两种方式:。修改和删除操作很少 。 (2) DW的与操作环境下的应用数据。因此,数据仓库不需要在操作环境下事务处理、恢复和并发控制等机制。2.2 数据仓库的主
8、要特征数据仓库的主要特征 随时间变化的随时间变化的(time-variant):(1)记录了从,通过这些信息,可以表明发展历程并对未来的趋势作出定量分析和预测。 (2) DW的数据结构,隐式或显式地包含时间元素;其包含的大量综合数据也与时间相关,例如:月产量。(3) DW;(例如:510年)。2.3 DW概念总结概念总结DW概念总结:概念总结: 数据仓库是一种语义上一致的数据存储体系结构; DW是决策支持数据模型的物理实现,并存放企业战略决策所需信息; DW通过将异种数据源中的数据集成在一起构造而成; 完成各种数据查询、信息分析报告和决策支持。 2.4 操作型数据库系统与数据仓库的操作型数据库
9、系统与数据仓库的区别区别 操作型数据库系统操作型数据库系统的主要任务是,称为联机事务处理 () 系统。它涵盖了一个组织的大部分日常操作,如采购、制造、库存、销售、财务、银行等事务。在数据分析和决策方面为决策者提供服务。可以用不同的格式去组织和提供数据,以便满足不同用户的形形色色需求。这种系统称为()系统。 2.5 数据仓库的数据模型数据仓库的数据模型 数据仓库和OLAP通常是基于。 该模型将数据看作(data cube)形式。 数据立方体由维和事实来定义;。 是关于一个组织想要记录的透视或实体。 是面向某一主题的数据度量,它表示了多个 分析维之间的分析结果。 通常有和两种形式。 2.5 数据仓
10、库的数据模型数据仓库的数据模型 1. 维是人们观察数据的特定角度。例如:时间维是商品销售随时间推移发生的变化;地理维是商品在不同地区的销售分布情况。2. 某个维以下存在的对细节的多个描述方面,例如:时间维有年、季度、月、日等不同层次。3. 维的一个取值是该维的一个成员。2.5 数据仓库的数据模型数据仓库的数据模型 4. 一个多维数组可以表示为(维1,维2,维3,维n, 变量);例如:(地区、时间、销售渠道、销售额)5. 多维数组的取值是数据单元。例如:(上海,2002年2月,批发,2188)2.6 OLTP和和OLAP的主要的主要区别区别: OLTP是的,用于办事员、客户和信息技术专业人员的事
11、务和查询处理。 OLAP是的,用于经理、主管和信息分析人员的数据分析。:OLTP系统管理。这种数据太琐碎,难以用于决策。 OLAP系统管理大量,提供汇总和聚集机制,并在不同的粒度级别上存储和管理信息。数据易于用作中、高层的决策过程。2.6 OLTP和和OLAP的主要区别的主要区别 数据库设计数据库设计: OLTP系统采用E-R(Entity Relationship Diagram)实体-联系模型和面向应用的数据库设计。 OLAP系统采用星型或雪花模型和面向主题的数据库设计 视图视图: OLTP系统主要关注一个企业或部门内部的当前数据,而不涉及历史数据或不同组织的数据。 OLAP系统由于组织的
12、变化常常跨越数据库模式的多个版本。 OLAP系统也处理来自不同组织的信息,由多个数据存储集成的信息。由于数据量巨大,OLAP数据也存放在多个存储介质上。2.6 OLTP和和OLAP的主要区别的主要区别: 对OLTP系统的访问主要由短的原子事务组成。这种系统需要并行控制和恢复机制。 对OLAP系统的访问大部分是只读只读操作(由于大部分数据仓库存放历史数据,而不是当前数据),尽管许多可能是复杂的查询。 OLTP和和OLAP的的: 包括数据库大小、操作的频繁程度、性能度量等。 OLTP系统和OLAP系统的比较表 特特 性性 OLTP OLAP特征特征 操作处理 信息处理面向面向 事务 分析用户用户
13、办事员、客户、数据库专业人员 经理、主管、分析员功能功能 日常操作 长期信息需求,决策支持DB设计设计 基于E-R,面向应用 星型/雪花,面向主题数据数据 当前的,确保最新 历史的,跨时间维护汇总汇总 原始的,高度详细 汇总的,统一的视图视图 详细,一般关系 汇总的,多维的工作单位工作单位 短的,简单事务 复杂查询存取存取 读/写 大多为读关注关注 数据输入、存储 信息输出操作操作 主关键字上索引/散列 大量扫描访问记录数量访问记录数量 数十个 数百万用户数用户数 数千 数百DB规模规模 100MB到GB 100GB到TB优先优先 高性能,高可用性 高灵活性,端点用户自治度量度量 事务吞吐量
14、查询吞吐量,响应时间 2.7数据仓库与操作数据库为什么是数据仓库与操作数据库为什么是分离的分离的? 操作型数据库存放了大量数据,为什么不直接在这种数据库上进行联机分析处理,而是另外花费时间和资源去构造一个与之分离的数据仓库?是提高两个系统的性能。 是为已知的任务和负载设计的,如使用主关键字索引,检索特定的记录和优化查询; 的查询通常是复杂的,涉及大量数据在汇总级的计算,可能需要特殊的数据组织、存取方法和基于多维视图的实现方法。2.7数据仓库与操作数据库为什么数据仓库与操作数据库为什么是是分离的分离的?支持多事务的并行处理,需要加锁和日志等并行控制和恢复机制,以确保数据的一致性和完整性。对数据记
15、录进行只读访问,以进行汇总和聚集。 如果OLTP和OLAP都在操作型数据库上运行,会大大降低数据库系统的吞吐量。 总之,数据仓库与操作数据库分离是由于这两种系统中数据的结构、内容和用法都不相同。 两种系统的数据结构、内容和用法两种系统的数据结构、内容和用法都不相同都不相同 一般不维护历史数据,其数据很多,但对于决策是远远不够的。用于决策支持需要历史数据,将不同来源的数据统一(如聚集和汇总),产生高质量、一致和集成的数据。只维护详细的原始数据(如事务),这些数据在进行分析之前需要统一。 由于两个系统提供很不相同的,需要不同类型的,因此需要维护的数据库。2.8 多维数据模型多维数据模型 据仓库和O
16、LAP基于。该模型将数据看作数据立方体数据立方体(data cube)形式。 数允许以多维对数据建模和观察。它由维和事实定义。是关于一个组织想要记录的视图或实体。 例如,商店可能创建一个数据仓库sales,记录商店的销售,涉及维 time,item(商品类),branch(分店)和 location(地点)。这些维使得商店能够记录商品的月销售,销售商品的分店和地点。2.8 多维数据模型多维数据模型 : 多维数据模型围绕中心主题(例如sales)组织。 主题主题用事实表事实表表示。是用数值度量的。根据它们分析维之间的关系。例如,sales销售数据仓库的事实包括dollars_sold(销售的款项
17、),units_sold(销售量)和amount_budgeted(预销量)。包括事实的名称,以及每个相关维包括事实的名称,以及每个相关维表的关键字表的关键字。2.8 多维数据模型多维数据模型 例例:某连锁商店的销售数据按照:某连锁商店的销售数据按照time季度季度, item商品商品类的类的2-D视图视图(其中销售数据是取自其中销售数据是取自Location=“Vancouver”的所有分店,销售金额单位是的所有分店,销售金额单位是1000美元美元)。 item(商品类商品类) _ 季度季度 家庭娱乐 计算机 电 话 安全设备 Q1 605 825 14 400 Q2 680 952 31
18、512 Q3 812 1023 30 501 Q4 927 1038 38 580 2.8 多维数据模型多维数据模型 以三维角度三维角度观察该连锁商店的销售数据。例如,根据time,item和location城市城市观察数据。 location是Chicago, New York,Toronto和Vancouver。 location“Chicago” ;location“New York” . (该市上述二维表 略) (该市上述二维表 略)2.8 多维数据模型多维数据模型 多维数据库模型:多维数据库模型: 星型、雪花星型、雪花型型广泛使用。数据库模式由实体的集合和它们之间的联系组成。这种数据
19、模型适用于联机事务处理。 数据仓库需要简明的、,便于联机数据分析。 数据仓库数据模型是多维数据模型数据仓库数据模型是多维数据模型。这种模型有、等。2.8 多维数据模型多维数据模型 是数据仓库最常见的数据模型,其中包括: (1)包含大批数据和不含冗余的中心表; (2)一组小的附属表( 维表 ),每一维一个。维表围绕中心表显示在连线上。 例:某连锁商店的星型模式如下图所示。sales有四个维,分别是time,item,branch(分店)和location。该模式包含一个中心事实表sales,它包含四个维的关键字和两个度量dollars_sold销售的款项和units_sold销售量。2.8 多维
20、数据模型多维数据模型 在星型模式中,每一维只用一个表表示,每个表包含一组属性。例如,location维表包含属性集location_key, street, city, province_or_state, country。 2.8 多维数据模型多维数据模型 sales 数据仓库的星型模式数据仓库的星型模式 time item 维表维表 维表维表 time_key - time_key item_name day item_key - item_key day_of_the_week units_sold brand month dollars_sold type quarter locati
21、on_key supplier_type year branch_key | | | branch维表维表 location维表维表 branch_key location_key branch_name street branch_type city province_or_state country 2.8 多维多维数据模型数据模型雪花模型雪花模型(snowflake schema) 雪花模型是星型模式的变种,其中某些维表是规范规范化的化的,因而把数据进一步分解到附加的表中。结果,模型图形成类似于雪花的形状。 雪花模型和星型模型的雪花模型和星型模型的在于,雪花模型的维表可能是规范化形式,以
22、便减少冗余。 这种表,并,因为当维结构作为列包含在内时,大维表可能非常大。 由于执行查询需要更多的连接操作连接操作,雪花模型可能降低浏览的性能降低浏览的性能。数据仓库系统的性能可能受到影响。在数据仓库设计中,雪花模式不如星型模式使用广泛。 2.8 多维数据模型多维数据模型 雪花模型雪花模型(snowflake schema) 该连锁商店sales的雪花模型在下图给出。这里,sales事实表与上面的星型模型相同。两个模式的主要不同是维表。 星型模型中的item的单个维表在雪花模型中被规范化,导致新的item表和supplier供应商供应商表。例如,现在item维表包含属性item_key, it
23、em_name, brand ,type和supplier_key,supplier_key连接到supplier维表。而supplier维表包含信息supplier_key和supplier_type。 类似地,星型模型中location的单个维表被规范化成两个表:新的新的location和和city。新的location表中的location_key现在连接到city维。根据需要雪花模型还可以进一步规范化。 2.8 多维数据模型多维数据模型 sales数据仓库的雪花模式数据仓库的雪花模式timeitem维表维表维表维表time_key - time_key item_nameday ite
24、m_key -item_keyday_of_the_week units_sold brandmonth dollars_sold type supplier 维表维表quarter location_key supplier_type - supplier_keyyear branch_key | (规范化)规范化)supplier_type | | branch维表维表 location维表维表 (规范化)规范化) branch_key location_key branch_name street city维表维表 branch_type city - city_key province
25、_or_state country 三、数据挖掘三、数据挖掘3.1 什么是数据挖掘?什么是数据挖掘?是。这些规则蕴含了数据库中一组对象之间的特定关系,揭示出一些有用的信息,为经营决策、市场策划、金融预测等提供依据。 通过数据挖掘,有价值的知识、规则或高层次的信息能就从数据库的相关数据集合中抽取出来,并从不同角度显示,从而使大型数据库作为一个丰富可靠的资源为知识管理服务。3.1 什么是数据挖掘?什么是数据挖掘?在一些文献中也有其他名称,如数据开采、知识挖掘、知识抽取、知识考察等。数据挖掘是知识发现KDD的一个,它包括特定的数据挖掘算法,具有可接受的计算效率,生成特殊的模式。 KDD是利用数据挖掘
26、算法,按指定方式和阈值抽取有价值的知识,包括数据挖掘前对数据的预处理、抽样及转换和数据挖掘后对知识的评价解释过程。 3.2 数据挖掘的特点数据挖掘的特点 所处理的数据规模十分巨大所处理的数据规模十分巨大。寻找决策所需的信息寻找决策所需的信息。数据挖掘既要发现潜在规则,还要管理和数据挖掘既要发现潜在规则,还要管理和维护规则。维护规则。数据挖掘中规则的发现主要基于大样本的数据挖掘中规则的发现主要基于大样本的统计规律统计规律,发现的规则不必适用于所有数据,当达到某一时便可认为有此规律。3.3 数据挖掘的分类数据挖掘的分类 根据所开采的数据库类型、发现的知识类型、采用的技术类型,数据挖掘有不同的分类方
27、法。 (1) 按数据库类型分类按数据库类型分类 从关系数据库中发现知识; 从面向对象数据库中发现知识; 从多媒体数据库、空间数据库、历史数据库、Web数据库中发现知识。 3.3 数据挖掘的分类数据挖掘的分类 (2) 按挖掘的知识类型分类按挖掘的知识类型分类 可分为关联规则、特征规则、分类规则、偏差规则、聚集规则、判别式规则及时序规则等。 可分为归纳知识、原始级知识、多层次知识。一个灵活的规则挖掘系统能够在多个层次上发现知识。3.3 数据挖掘的分类数据挖掘的分类(3) 按利用的技术类型分类按利用的技术类型分类分为自发知识开采、数据驱动开采、查询驱动开采和交互式数据开采。分为基于归纳的开采、基于模
28、式的开采、基于统计和数学理论的开采及集成开采等。3.3 数据挖掘的分类数据挖掘的分类(4) 按挖掘的深度分类按挖掘的深度分类 在上,利用现有数据库管理系统的查询/检索及报表功能,与多维分析、统计分析方法相结合,进行 OLAP,从而得出可供决策参考的统计分析数据。 在上,从数据库中发现前所未知的、隐含的知识。的出现早于数据挖掘,两者都是从数据库中抽取有用信息的方法,就决策支持的需要而言两者可以起到相辅相承的作用。OLAP可以作为一种广义的数据挖掘方法,它旨在简化和支持联机分析,而数据挖掘的目的是使这一过程尽可能自动化。 :(1)/。用数据库的若干已知字段预测或验证其他未知字段值; (2)指找到描
29、述数据的可理解模式。3.5 数据挖掘和知识发现的联系数据挖掘和知识发现的联系 是指识别出存在于数据库中有效的、新颖的、具有潜在效用的、最终可理解的、模式的、非平凡过程。 的整个过程包括在指定的数据库中用数据挖掘算法提取模型,以及围绕数据挖掘进行的预处理和结果表达等一系列的计算步骤。尽管数据挖掘是整个过程的中心,但它通常只占整个过程15%25%的工作量。是从数据库中发现知识的全部过程,而则是此全过程的一个特定的关键步骤 3.5 数据挖掘和知识发现的联系数据挖掘和知识发现的联系 KDD的步骤:的步骤:1 熟悉应用领域、背景知识及用户的KDD任务性质;2 数据的选择:确定与发现任务相关的数据集合;3
30、 数据清理和预处理,包括除去错误和冗余数据、处理丢失数据、更新数据和时序信息并将其准备成数据挖掘工具所需的表达式;4 数据缩减和投影,寻找依赖于发现目标的、表达数据的有用特征,通过降低维数和数据转换以缩减数据规模;降低数据复杂性;5 确定KDD目标,选择合适的算法如聚集、分类、线性回归等;3.5 数据挖掘和知识发现的联系数据挖掘和知识发现的联系6 选择数据挖掘算法,选择适当的模型和参数;7 执行数据挖掘过程,发现模式并表达成易理解的 形式如分类规则等;8 评价和解释发现的模式,必要时反复执行步骤 1到到7;9 将模式提交给用户或应用到系统中。 KDD整个过程是一个以知识工作者为中心、人整个过程是一个以知识工作者为中心、人机交互的探索过程机交互的探索过程。3.6 数据挖掘实例数据挖掘实例人类有约10万个基因。一个基因通常由成百个核苷按一定次序组织而成。核苷按不同的次序和序列可以形成不同的基
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 自媒体管理办法总结
- 碧桂园法务管理办法
- 个人贷款管理办法原则
- 上海纳税信用管理办法
- 落实教师待遇管理办法
- 产品市场研究管理办法
- 课程大纲制定管理办法
- 专业社工机构管理办法
- 中介公司客户管理办法
- 线下剧本杀管理办法
- 物业客服管家工作内容培训
- 2025年机关事业单位工人招聘《机动车驾驶员》技师 考试题库与参考答案
- 2025年长江陆水枢纽工程局有限公司招聘笔试参考题库含答案解析
- 2024年技能竞赛钳工理论考试题库600题(含答案)
- 四川大学SCI期刊分级方案
- 梅大高速塌方灾害调查评估报告及安全警示学习教育
- 高考英语核心词汇1000个
- 医疗机构患者信息管理制度
- 2023年高考英语试卷(新课标Ⅰ卷)含答案解析
- 学生生活全景模板
- 安全生产管理制度-普货运输
评论
0/150
提交评论