版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第第3章章 数据挖掘的数据仓库与数据挖掘的数据仓库与OLAP技术技术第第3章章: 数据挖掘的数据仓库与数据挖掘的数据仓库与OLAP技术技术n什么是数据仓库什么是数据仓库? n多维数据模型多维数据模型n数据仓库结构数据仓库结构n数据仓库实现数据仓库实现n数据立方体的进一步发展数据立方体的进一步发展n从数据仓库到数据挖掘从数据仓库到数据挖掘什么是数据仓库什么是数据仓库?n有不同的方法定义有不同的方法定义, 但不是严格的但不是严格的.n是一个决策支持数据库是一个决策支持数据库, 它与组织机构的操作数据库分别它与组织机构的操作数据库分别维护维护n数据仓库系统允许将各种应用系统集成在一起数据仓库系统允许
2、将各种应用系统集成在一起, 为统一的为统一的历史数据分析提供坚实的平台历史数据分析提供坚实的平台, 支持信息处理支持信息处理.nW. H. Inmon的定义的定义: 数据仓库是数据仓库是 面向主题的面向主题的(subject-oriented), 集成的集成的(integrated), 时变的时变的(time-variant), 和非易和非易失的失的( nonvolatile) 数据集合数据集合, 支持管理决策过程支持管理决策过程n建立数据仓库建立数据仓库(Data warehousing):n构造和使用数据仓库的过程构造和使用数据仓库的过程数据仓库数据仓库面向主题的面向主题的n围绕重要的主题
3、围绕重要的主题( 如顾客、产品、销售等如顾客、产品、销售等) 组织组织.n关注决策制定者的数据建模与分析关注决策制定者的数据建模与分析, 而不是日常的操作和而不是日常的操作和事务处理事务处理.n数据仓库排除对于决策过程无用的数据数据仓库排除对于决策过程无用的数据, 提供特定主题的提供特定主题的简明视图简明视图.数据仓库数据仓库 集成的集成的n通过将多个异种的数据源集成在一起通过将多个异种的数据源集成在一起, 而构造而构造n比如,关系数据库比如,关系数据库, 一般文件一般文件, 联机事务记录联机事务记录n使用数据清理和数据集成技术使用数据清理和数据集成技术.n确保命名约定确保命名约定, 编码结构
4、编码结构, 属性度量等的一致性属性度量等的一致性n例如例如, 饭店价格饭店价格: 货币种类货币种类, 税税, 是否含早餐是否含早餐, 等等.n当数据装入数据仓库时当数据装入数据仓库时, 数据将被转换数据将被转换. 数据仓库数据仓库 时变的时变的n数据仓库的时间跨度显著地比操作数据库长数据仓库的时间跨度显著地比操作数据库长.n操作数据库数据操作数据库数据: 当前值数据当前值数据.n数据仓库数据数据仓库数据: 从历史的角度提供数据从历史的角度提供数据 (例如例如, 过去过去 5-10 年年)n数据仓库中的每个键结构数据仓库中的每个键结构n显式或隐式地包含时间元素显式或隐式地包含时间元素,n但是但是
5、, 操作数据的键可能包含操作数据的键可能包含, 也可能不包含也可能不包含“时间元素时间元素”.数据仓库数据仓库 非易失的非易失的n从操作环境转换过来的数据物理地分离存放从操作环境转换过来的数据物理地分离存放.n数据的更新不在数据仓库环境中出现数据的更新不在数据仓库环境中出现.n不需要事务处理不需要事务处理, 恢复恢复, 和并发控制机制和并发控制机制n只需要两种数据存取操作只需要两种数据存取操作: n数据的初始化装入数据的初始化装入 和和 数据访问数据访问.数据仓库和异种数据仓库和异种DBMSn传统的异种数据库集成传统的异种数据库集成: n在异种数据库上建立一个包装程序在异种数据库上建立一个包装
6、程序(wrappers)或中介程序或中介程序(/mediators)n查询驱动的方法查询驱动的方法n当查询提交给一个站点时当查询提交给一个站点时, 使用元数据词典将查询转换成所使用元数据词典将查询转换成所涉及的异构站点上的相应查询涉及的异构站点上的相应查询, 查询的结果被集成为一个全查询的结果被集成为一个全局回答的集合局回答的集合 n需要:复杂的信息过滤需要:复杂的信息过滤, 对资源的竞争对资源的竞争n数据仓库数据仓库: 更新驱动的更新驱动的, 高性能高性能n来自异种信息源的数据被预先集成并存储在数据仓库中来自异种信息源的数据被预先集成并存储在数据仓库中, 直直接用于查询和分析接用于查询和分析
7、数据仓库数据仓库VS.操作数据库操作数据库nOLTP (on-line transaction processing, 联机事务处理联机事务处理)n传统关系传统关系 DBMS的主要任务的主要任务n涵盖日常操作涵盖日常操作: 购置购置, 库存库存, 银行银行, 制造制造, 工资单工资单, 注册注册, 记帐记帐, 等等.nOLAP (on-line analytical processing, 联机分析处理联机分析处理)n数据仓库系统的主要任务数据仓库系统的主要任务n数据分析和决策制定上提供服务数据分析和决策制定上提供服务n不同的特点不同的特点 (OLTP vs. OLAP):n用户和系统的面向性
8、用户和系统的面向性: 顾客顾客 vs. 市场市场n数据内容数据内容: 当前的当前的, 细节的细节的 vs. 历史的历史的, 合并的合并的n数据库设计数据库设计: ER + 应用应用 vs. 星型星型 + 主题主题n视图视图: 当前的当前的, 局部的局部的 vs. 进化的进化的, 集成的集成的n访问模式访问模式: 更新更新 vs. 只读的只读的, 但是复杂的查询但是复杂的查询OLTP vs. OLAP OLTP OLAP 用用户户 办办事事员员, IT 从从业业人人员员 知知识识工工人人 功功能能 日日常常操操作作 决决策策支支持持 DB 设设计计 面面向向应应用用 面面向向主主题题 数数据据
9、当当前前的的, 最最新新的的, 细细节节的的, 展展平平的的关关系系的的, 孤孤立立的的 历历史史的的, 汇汇总总的的, 多多维维的的, 集集成成的的, 加加固固的的 用用法法 重重复复 特特殊殊的的 访访问问 读读/写写 在在主主键键上上索索引引/散散列列 大大量量扫扫描描 工工作作单单位位 短短的的, 简简单单的的事事务务 复复杂杂的的查查询询 访访问问的的记记录录量量 数数以以十十计计 数数百百万万 用用户户数数 数数千千 数数百百 数数据据库库大大小小 100MB-GB 100GB-TB 度度量量 事事务务吞吞吐吐量量 查查询询吞吞吐吐量量, 响响应应时时间间 为什么建立分离的数据仓库
10、为什么建立分离的数据仓库?n为了两个系统的高性能为了两个系统的高性能nDBMS 目的是目的是 OLTP: 存取方法存取方法, 索引索引, 并发控制并发控制, 恢复恢复n数据仓库数据仓库目的是目的是 OLAP: 复杂的复杂的 OLAP 查询查询, 多维视图多维视图, 统一统一.n不同的功能和不同的数据不同的功能和不同的数据:n缺少数据缺少数据: 决策支持需要历史数据决策支持需要历史数据, 通常操作数据库并不维通常操作数据库并不维护这些数据护这些数据n数据统一数据统一: 决策支持需要将来自异种数据源的数据统一决策支持需要将来自异种数据源的数据统一 (聚聚集集, 汇总汇总)n数据质量数据质量: 不同
11、的数据源通常使用不同的数据表示不同的数据源通常使用不同的数据表示, 编码编码, 和应当遵循的格式和应当遵循的格式第第2章章: 数据挖掘的数据仓库与数据挖掘的数据仓库与OLAP技术技术n什么是数据仓库什么是数据仓库? n多维数据模型多维数据模型n数据仓库结构数据仓库结构n数据仓库实现数据仓库实现n从数据仓库到数据挖掘从数据仓库到数据挖掘n数据立方体的进一步发展数据立方体的进一步发展由表和电子数据表到数据方由表和电子数据表到数据方n数据仓库基于数据仓库基于 多维数据模型多维数据模型 , 多维数据模型将数据视为数据多维数据模型将数据视为数据方方(data cube)形式形式n数据方数据方( 如如sa
12、les) 可以将数据建模可以将数据建模, 并允许由多个维进行观察并允许由多个维进行观察n维表维表, 如如 item (item_name, brand, type), 或或 time(day, week, month, quarter, year) n事实表包含度量事实表包含度量 (如如 dollars_sold) 和每个相关维表的键和每个相关维表的键n在数据仓库的文献中在数据仓库的文献中, 一个一个 n-D 基本立方体基本立方体 称作基本方体称作基本方体(base cuboid). 最顶部的最顶部的 0-D方体存放最高层的汇总方体存放最高层的汇总, 称作顶称作顶点方体点方体( apex cu
13、boid). 方体的格形成数据方方体的格形成数据方.立方体立方体: 方体的格方体的格alltimeitemlocationsuppliertime,itemtime,locationtime,supplieritem,locationitem,supplierlocation,suppliertime,item,locationtime,item,suppliertime,location,supplieritem,location,suppliertime, item, location, supplier0-D(顶点顶点) 方体方体1-D 方体方体2-D方体方体3-D方体方体4-D(根本根
14、本)方体方体数据仓库的概念建模数据仓库的概念建模n数据仓库建模数据仓库建模: 多维模型,涉及维和度量多维模型,涉及维和度量n星型模式星型模式: 事实表在中央事实表在中央, 连接一组维表连接一组维表n雪花模式雪花模式 : 星型模式的精炼星型模式的精炼, 其中一些维分层结构其中一些维分层结构被规范化成一组较小的维表被规范化成一组较小的维表, 形成类似于雪花的形形成类似于雪花的形状,减少冗余状,减少冗余n事实星座事实星座: 多个事实表共享维表多个事实表共享维表, 可以看作星星的集可以看作星星的集合合, 因此称作星系模式因此称作星系模式, 或事实星座或事实星座星型模式的例子星型模式的例子 time_k
15、eydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountrylocation事实表事实表 time_key item_keybranch_key location_key units_sold dollars_sold avg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranch雪花模式的例子雪花模式的例子time_keydayday_of_the_
16、weekmonthquarteryeartimelocation_keystreetcity_keylocationSales Fact Table time_key item_keybranch_key location_key units_solddollars_sold avg_salesMeasuresitem_keyitem_namebrandtypesupplier_keyitembranch_keybranch_namebranch_typebranchsupplier_keysupplier_typesuppliercity_keycityprovince_or_stateco
17、untrycity事实星座的例子事实星座的例子time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountrylocationSales Fact Tabletime_keyitem_keybranch_keylocation_keyunits_solddollars_sold avg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranchSh
18、ipping Fact Tabletime_keyitem_keyshipper_keyfrom_locationto_locationdollars_costunits_shippedshipper_keyshipper_namelocation_keyshipper_typeshipper数据挖掘查询语言数据挖掘查询语言 DMQL: 语言原语语言原语n立方体定义立方体定义 (事实表事实表)ndefine cube : n维定义维定义 ( 维表维表)ndefine dimension as ()n特殊情况特殊情况 (共享维表共享维表)n第一次第一次, 如如 “cube definition”
19、ndefine dimension as in cube 用用DMQL定义星型模式定义星型模式define cube sales_star time, item, branch, location:dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*)define dimension time as (time_key, day, day_of_week, month, quarter, year)define dimension item as (item_k
20、ey, item_name, brand, type, supplier_type)define dimension branch as (branch_key, branch_name, branch_type)define dimension location as (location_key, street, city, province_or_state, country)用用DMQL定义雪花模式定义雪花模式define cube sales_snowflake time, item, branch, location:dollars_sold = sum(sales_in_dolla
21、rs), avg_sales = avg(sales_in_dollars), units_sold = count(*)define dimension time as (time_key, day, day_of_week, month, quarter, year)define dimension item as (item_key, item_name, brand, type, supplier(supplier_key, supplier_type)define dimension branch as (branch_key, branch_name, branch_type)de
22、fine dimension location as (location_key, street, city(city_key, province_or_state, country)用用DMQL定义事实星座定义事实星座define cube sales time, item, branch, location:dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*)define dimension time as (time_key, day, day_of_w
23、eek, month, quarter, year)define dimension item as (item_key, item_name, brand, type, supplier_type)define dimension branch as (branch_key, branch_name, branch_type)define dimension location as (location_key, street, city, province_or_state, country)define cube shipping time, item, shipper, from_loc
24、ation, to_location:dollar_cost = sum(cost_in_dollars), unit_shipped = count(*)define dimension time as time in cube salesdefine dimension item as item in cube salesdefine dimension shipper as (shipper_key, shipper_name, location as location in cube sales, shipper_type)define dimension from_location
25、as location in cube salesdefine dimension to_location as location in cube sales三类度量数值函数)三类度量数值函数)n分布的分布的(distributive): 将数据划分为将数据划分为n个集合个集合, 函数在每一部函数在每一部分上的计算得到一个聚集值分上的计算得到一个聚集值. 如果将函数用于如果将函数用于n个聚集值得到个聚集值得到的结果的结果, 与将函数用于所有数据得到的结果一样与将函数用于所有数据得到的结果一样, 则该函数可则该函数可以用分布方式计算以用分布方式计算.n例例, count(), sum(), mi
26、n(), max().n代数的代数的(algebraic):如果它能够由一个具有如果它能够由一个具有M(其中其中, M是一个是一个整数界整数界)个参数的代数函数计算个参数的代数函数计算, 而每个参数都可以用一个分而每个参数都可以用一个分布聚集函数求得布聚集函数求得 .n例例, avg(), min_N(), standard_deviation().n整体的整体的(holistic):如果描述它的子聚集所需的存储没有一个常如果描述它的子聚集所需的存储没有一个常数界数界 . n例例, median(), mode(), rank().一个概念分层一个概念分层: 维维LocationallEuro
27、peNorth_AmericaMexicoCanadaSpainGermanyVancouverM. WindL. Chan.allregionofficecountryTorontoFrankfurtcity数据仓库和分层结构视图数据仓库和分层结构视图多维数据多维数据n多维模型中,数据组织成多维,每维包含由概念分层定义的多维模型中,数据组织成多维,每维包含由概念分层定义的多个抽象层多个抽象层n销售量作为销售量作为 product, month, 和和 region的函数的函数ProductRegionMonth维维: Product, Location, Time的分层结构的分层结构Indu
28、stry Region YearCategory Country QuarterProduct City Month Week Office Day一个数据方的样本一个数据方的样本TV 在在 U.S.A.的总销售的总销售DateProductCountrysumsum TVVCRPC1Qtr2Qtr3Qtr4QtrU.S.ACanadaMexicosum对应于数据方的方体对应于数据方的方体allproductdatecountryproduct,dateproduct,countrydate, countryproduct, date, country0-D(顶点顶点) 方体方体1-D方体方体
29、2-D方体方体3-D(根本根本)方体方体浏览数据方浏览数据方n可视化可视化nOLAP 的能力的能力n交互式操作交互式操作典型的典型的OLAP操作操作n上卷上卷(Roll up)/上钻上钻 (drill-up): 汇总数据汇总数据n下钻下钻(Drill down)/下卷下卷 (roll down): 上卷的逆操作上卷的逆操作n切片切片(Slice)和切块和切块 : n投影和选择投影和选择 n转轴转轴(Pivot)/旋转旋转 (rotate): n调整数据方调整数据方, 目视操作目视操作, 3D 到到 2D 平面平面.n其它操作其它操作n钻过钻过(drill across): 涉及多个事实表涉及多
30、个事实表n钻透钻透(drill through): 通过数据方的最底层通过数据方的最底层, 到它背后的关系表到它背后的关系表 (使用使用 SQL)OLAP 操作操作: 上卷上卷n上卷上卷(Roll up)/上钻上钻 (drill-up): 汇总数据汇总数据n通过沿概念分层攀升或通过维归约通过沿概念分层攀升或通过维归约n在在 location上卷上卷(由由 cities 到到 countries)OLAP 操作操作: 下钻下钻n下钻下钻(Drill down)/下卷下卷 (roll down): 上卷的逆操作上卷的逆操作n由较高层的汇总到较低层的汇总或详细数据由较高层的汇总到较低层的汇总或详细数
31、据, 或者引进新或者引进新的维的维n在在 time下钻下钻 (由由 quarters 到到 months)OLAP 操作操作:切片切片n切片切片(Slice) : n投影和选择,对一个维进行选择,导致子方体投影和选择,对一个维进行选择,导致子方体n切片条件切片条件: time=“Q2”OLAP 操作操作: 切块切块n切块切块 : 对两个或多个维执行选择,导致子方体对两个或多个维执行选择,导致子方体n切块条件切块条件: (location=“Montreal” or “Vancouver”) and (time=“Q1” or “Q2”) and (item=“home entertainmen
32、t” or “computer”)OLAP 操作操作: 转轴转轴n转轴转轴(Pivot)/旋转旋转 (rotate): n调整数据方调整数据方, 可视化操作,提供数据的替代表示可视化操作,提供数据的替代表示.其他操作其他操作n其它操作其它操作n钻过钻过(drill across): 涉及多个事实表涉及多个事实表n钻透钻透(drill through): 通过数据方的最底层通过数据方的最底层, 到它背后的关系表到它背后的关系表 (使用使用 SQL)n统计计算统计计算n比率、方差;增长率比率、方差;增长率n分析建模,等分析建模,等第第3章章: 数据挖掘的数据仓库与数据挖掘的数据仓库与OLAP技术技
33、术n什么是数据仓库什么是数据仓库? n多维数据模型多维数据模型n数据仓库结构数据仓库结构n数据仓库实现数据仓库实现n从数据仓库到数据挖掘从数据仓库到数据挖掘n数据立方体的进一步发展数据立方体的进一步发展数据仓库设计数据仓库设计n数据仓库设计中,必须考虑四种视图数据仓库设计中,必须考虑四种视图 n自顶向下视图自顶向下视图n选择数据仓库所需的有关信息选择数据仓库所需的有关信息n数据源视图数据源视图n提醒操作数据库系统捕获、存储、和管理的信提醒操作数据库系统捕获、存储、和管理的信息息 n数据仓库视图数据仓库视图n由事实表和维表组成由事实表和维表组成n商务查询视图商务查询视图 n从最终用户的角度透视数
34、据仓库中的数据从最终用户的角度透视数据仓库中的数据 数据仓库设计过程数据仓库设计过程 n自顶向下自顶向下, 自底向上方法或二者的结合自底向上方法或二者的结合n自顶向下自顶向下: 由总体设计和规划开始由总体设计和规划开始 (成熟成熟)n自底向上自底向上: 由实验和原型开始由实验和原型开始 (快速快速)n软件工程的观点软件工程的观点n瀑布式瀑布式: 在进行下一步之前在进行下一步之前, 每一步都进行结构化和系统的分每一步都进行结构化和系统的分析析 n螺旋式螺旋式 :功能渐增的系统的快速产生功能渐增的系统的快速产生, 相继版本之间的间隔很相继版本之间的间隔很短短 , 快速转向快速转向n典型的数据仓库设
35、计过程典型的数据仓库设计过程n选取待建模的商务处理选取待建模的商务处理, 例如例如, 订单订单, 发票发票, 库存等库存等.n选取商务处理的粒度选取商务处理的粒度 (原子层数据原子层数据), 例如,单个事务、一天例如,单个事务、一天的快照等的快照等 n选取用于每个事实表记录的维选取用于每个事实表记录的维, 如如,时间、商品、顾客、供应时间、商品、顾客、供应商、仓库、事务类型和状态商、仓库、事务类型和状态 等等n选取将安放在事实表中的度量选取将安放在事实表中的度量. 典型的度量是可加的数值量典型的度量是可加的数值量, 如如dollars_sold和和units_sold 多层结构多层结构数据仓库
36、数据仓库提取提取变换变换装入装入刷新刷新OLAP引擎引擎分析分析查询查询报告报告数据挖掘数据挖掘Monitor&Integrator元数据元数据数据源数据源终端工具终端工具输出输出数据集市数据集市操作数据库操作数据库其它其它数据源数据源数据存储数据存储OLAP 服务器服务器三层数据仓库模型三层数据仓库模型n企业仓库企业仓库n搜集了关于主题的所有信息搜集了关于主题的所有信息, 跨越整个组织跨越整个组织 n数据集市数据集市n数据集市包含企业范围数据的一个子集数据集市包含企业范围数据的一个子集, 对于特定的用户是对于特定的用户是有用的有用的. 其范围限于选定的主题其范围限于选定的主题, 如销
37、售数据如销售数据n独立的独立的 vs. 依赖的依赖的 (直接来自数据仓库直接来自数据仓库) 数据集市数据集市n虚拟仓库虚拟仓库n操作数据库上视图的集合操作数据库上视图的集合 n只有部分可能的汇总视图被物化只有部分可能的汇总视图被物化 数据仓库开发数据仓库开发: 一种推荐的方法一种推荐的方法定义一个高层企业数据模型定义一个高层企业数据模型数据数据集市集市分布式分布式数据集市数据集市多层数据仓库多层数据仓库企业数据仓库企业数据仓库模型模型 提炼提炼数据数据集市集市模模 型型 提提 炼炼OLAP 服务器结构服务器结构n关系关系OLAP (ROLAP) n使用关系或扩充关系的使用关系或扩充关系的 DB
38、MS 存放和管理仓库数据存放和管理仓库数据, 使用使用OLAP中间件支持其它部分中间件支持其它部分n包含一个优化的包含一个优化的 DBMS 后端后端, 聚集导航逻辑的实现聚集导航逻辑的实现, 以及附以及附加的工具和服务加的工具和服务 n较大的可伸缩性较大的可伸缩性n多维多维 OLAP (MOLAP) n基于数组的多维存储引擎基于数组的多维存储引擎 (稀疏矩阵技术稀疏矩阵技术)n对预计算的汇总数据快速索引对预计算的汇总数据快速索引n混合混合 OLAP (HOLAP)n弹性弹性, 底层底层: 关系的关系的, 高层高层: 数组数组. n专门的专门的 SQL 服务器服务器n对星型对星型/雪花型模式上的
39、雪花型模式上的SQL查询提供特殊的支持查询提供特殊的支持元数据存储元数据存储n元数据是定义数据仓库的数据元数据是定义数据仓库的数据. 有如下类型有如下类型 n描述数据仓库的结构描述数据仓库的结构n形式形式, 视图视图, 维维, 分层结构分层结构, 数据源定义数据源定义, 数据集市的位置和内数据集市的位置和内容容n操作元数据操作元数据n数据血统数据血统 (数据变迁历史和转换路径数据变迁历史和转换路径), 数据流通数据流通 (主动主动, 存档存档, 或净化或净化), 管理信息管理信息 (数据仓库使用统计数据仓库使用统计, 错误报告错误报告, 审计跟踪审计跟踪)n用于汇总的算法用于汇总的算法n由操作
40、环境到数据仓库的映射由操作环境到数据仓库的映射n涉及系统性能的数据涉及系统性能的数据n仓库模式仓库模式, 视图和导出数据的定义视图和导出数据的定义n商务数据商务数据n商务术语和定义商务术语和定义, 数据的所有者数据的所有者, 收费政策收费政策数据仓库的后端工具和实用程序数据仓库的后端工具和实用程序n数据提取数据提取:n由多个异种由多个异种, 外部数据源收集数据外部数据源收集数据n数据清理数据清理:n检测数据中的错误检测数据中的错误, 可能时订正它们可能时订正它们 n数据变换数据变换:n将数据由遗产或宿主格式转换成数据仓库格式将数据由遗产或宿主格式转换成数据仓库格式 n装载装载:n排序排序, 综
41、合综合, 加固加固, 计算视图计算视图, 检查整体性检查整体性, 并建立索引和划分并建立索引和划分 n刷新刷新n传播由数据源到数据仓库的更新传播由数据源到数据仓库的更新 第第2章章: 数据挖掘的数据仓库与数据挖掘的数据仓库与OLAP技术技术n什么是数据仓库什么是数据仓库? n多维数据模型多维数据模型n数据仓库结构数据仓库结构n数据仓库实现数据仓库实现n从数据仓库到数据挖掘从数据仓库到数据挖掘n数据立方体的进一步发展数据立方体的进一步发展数据方的有效计算数据方的有效计算n数据方可以视为方体的格数据方可以视为方体的格 n最下面的方体是基本方体最下面的方体是基本方体n最上面的最上面的 (顶点顶点)
42、方体只包含一个单元方体只包含一个单元n具有具有L层的层的n-D数据方包含多少个方体数据方包含多少个方体?n其中其中Li是与维是与维i相关联的层数相关联的层数n数据方的物化数据方的物化(Materialization)n物化每一个方体物化每一个方体 (全物化全物化), 不物化任何方体不物化任何方体(不物化不物化), 或物化或物化某些方体某些方体(部分物化部分物化)n物化方体的选择物化方体的选择n基于大小基于大小, 共享共享, 访问频率访问频率, 等等.)11(niiLT数据方计算数据方计算n用用DMQL定义和计算数据方定义和计算数据方ndefine cube salesitem, city, y
43、ear: sum(sales_in_dollars)ncompute cube salesn将它变换成类将它变换成类SQL语句语句 (用新的操作用新的操作 cube by扩充扩充, 由由Gray 等等96引进引进)nSELECT item, city, year, SUM (amount)nFROM SALESnCUBE BY item, city, yearn需要计算的分组需要计算的分组 n(city, item, year),n(city,item),(city, year), (item, city),n(city), (item), (year)n() (item)(city)()(y
44、ear)(city, item)(city, year)(item, year)(city, item, year)数据方计算数据方计算: 基于基于ROLAP的方法的方法(1)n有效的方计算方法有效的方计算方法n基于基于ROLAP的方计算算法的方计算算法 (Agarwal et al96)n基于数组的方计算算法基于数组的方计算算法 (Zhao et al97)n自底向上的方法自底向上的方法 (Beyer & Ramarkrishnan99)n混合的方法混合的方法 (Han, Pei, Dong & Wang:SIGMOD01)n基于基于ROLAP的方计算算法的方计算算法n排序排
45、序, 散列散列,和分组操作用于维属性和分组操作用于维属性, 以便对相关元组重新以便对相关元组重新排序和分簇排序和分簇n在某些子聚集上分组,作为在某些子聚集上分组,作为“部分分组部分分组” n由以前计算的聚集计算新的聚集,而不必由基本事实表由以前计算的聚集计算新的聚集,而不必由基本事实表计算计算 数据方计算数据方计算: 基于基于ROLAP的方法的方法(2)n取自研究论文取自研究论文n基于基于Hash/排序排序 的方法的方法 (Agarwal 等等. VLDB96)n最小双亲最小双亲(Smallest-parent): 由最小的由最小的, 先前计算的方体计先前计算的方体计算方体算方体n存储结果存储
46、结果(Cache-results): 存储先前计算的方体存储先前计算的方体, 由它可以由它可以计算其它方体计算其它方体, 以减少磁盘以减少磁盘I/On分摊扫描分摊扫描(Amortize-scans): 同时计算尽可能多的方体同时计算尽可能多的方体, 以分以分摊磁盘的读操作开销摊磁盘的读操作开销n共享排序共享排序(Share-sorts): 使用基于排序的方法时使用基于排序的方法时, 在多个方在多个方体之间共享排序开销体之间共享排序开销n共享划分共享划分(Share-partitions): 使用基于使用基于hash的方法时的方法时, 在多在多个方体之间共享划分开销个方体之间共享划分开销索引索引
47、OLAP 数据数据n为了有效的访问,大部分数据仓库系统支持索引为了有效的访问,大部分数据仓库系统支持索引结构结构n两种常用的方法对两种常用的方法对OLAP数据进行索引数据进行索引n位图索引位图索引 bitmap indexingn连接索引连接索引 join indexing索引索引OLAP 数据数据: 位图索引位图索引n在一个特定列上索引在一个特定列上索引n列上的每个值是一个位向量列上的每个值是一个位向量 : 位操作很快位操作很快n位向量的长度位向量的长度: 基本表的记录数基本表的记录数n如果数据表中给定行的属性值为如果数据表中给定行的属性值为v, 则在位图索引的对应行则在位图索引的对应行,
48、表示该值的位为表示该值的位为1, 该行的其它位均为该行的其它位均为0 n不适合势不适合势(不同值个数不同值个数)很高的域很高的域CustRegionTypeC1AsiaRetailC2EuropeDealerC3AsiaDealerC4America RetailC5EuropeDealerRecID Retail Dealer110201301410501RecID Asia Europe America11002010310040015010基本表基本表在在 Region上索引上索引在在 Type上索引上索引索引索引OLAP 数据数据: 连接索引连接索引n连接索引连接索引: JI(R-id, S-id) , 其中其中 R (R-id, ) S (S-id, )n将关系的连接物化在将关系的连接物化在JI文件中文件中, 加快了关系连接的速度加快了关系连接的速度n数据仓库中数据仓库中, 连接索引将星型模式维表的值关联到事实表的行连接索引将星型模式维表的值关联到
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 英国个生产税制度
- 2026云南宣城市宣州区森兴林业开发有限公司第一批次员工招聘5人参考考试试题附答案解析
- 生产区个人卫生制度
- 费托蜡加工生产制度
- 新田卫生健康安全生产日工作制度
- 2026上半年云南文化艺术职业学院招聘26人备考考试试题附答案解析
- 2026年临沂沂河新区部分事业单位公开招聘综合类岗位工作人员(3人)参考考试试题附答案解析
- 生产经营场所管理制度
- 企业安全生产问责制度
- 岗位安全生产检查制度
- 蓬深102井钻井工程(重新报批)项目环境影响报告表
- 大模型金融领域可信应用参考框架
- (新教材)2025年人教版七年级上册历史期末复习常考知识点梳理复习提纲(教师版)
- 中国全色盲诊疗专家共识2026
- 钢铁工艺流程课件
- 自流平地面施工安全方案
- 2025年小学六年级数学试题探究题
- 纹样设计上课课件
- 密闭施工安全培训课件
- 人工智能赋能循证教学研究
- 建筑工程劳务人员管理制度与实施策略
评论
0/150
提交评论