




已阅读5页,还剩51页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
.,1,数据挖掘,滕少华广东工业大学协同计算与知识工程,.,2,第三章数据仓库和数据挖掘的OLAP技术,滕少华Tel-mail:shteng,2020/5/14,.,3,内容提要,什么是数据仓库?多维数据模型OLAP技术数据仓库的体系结构,2020/5/14,.,4,什么是数据仓库?,数据仓库的概念及特征数据仓库:是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理过程的决策过程数据仓库的特征:根据数据仓库的概念,数据仓库除了具有传统数据库的独立性、共享性等特点外,还有以下四个主要特点:主题的、集成的、时变的、非易失的。,2020/5/14,.,5,面向主题:主题是指一个分析领域的主要对象。如保险公司建立的数据仓库,所围绕一些主题可能是顾客、保险金和索赔等。购买事件的数据仓库,一组对象涉及顾客、商品、供应商、商家等。,数据仓库-面向主题的,2020/5/14,.,6,集成的:数据仓库的集成特性是指进入数据仓库前,必须经过数据加工和综合。目的:确保命名约定、属性度量等的一致性,解决数据的不一致问题。例如,字段的同名异议、异议同名、单位不统一、字长不统一等。所有这些数据被移到数据仓库时就进行了数据变换。,数据仓库-集成的,2020/5/14,.,7,数据集成性举例,应用A长度cm应用B长度inches应用C长度mcf应用D长度yds,cm,2020/5/14,.,8,对用户来说,虽然不能更改数据仓库中的数据,但随着时间的变化,系统会进行定期刷新,把新数据加入到数据仓库中,在这个刷新过程中,新数据相关的旧数据不会改变,新数据与旧数据集成在一起。同时,系统可以删除一些过期数据。,数据仓库-时变的,2020/5/14,.,9,数据仓库时变的,这一特征表现在以下几个方面数据仓库的数据随着时间变化而定期被更新,而数据的过去版本仍保留在数据仓库中。数据仓库的数据也有存储期限,一旦超过了这个期限,过期数据就要被删除,只是数据仓库内的数据时限要远远长于操作型环境中的数据时限。数据仓库中含有大量的综合数据,这些综合数据中很多与时间有关,如数据经常按时间段进行综合,或隔一定的时间进行抽样等,这些数据随时间变化不断综合。,2020/5/14,.,10,数据仓库-非易失的,数据仓库的非易失性是指数据仓库中的数据是历史数据的快照。不是日常事务处理产生的数据,主要用于决策分析。在数据仓库中,数据一旦装入其中,基本不会发生变化。数据仓库一般包含大量查询操作,不允许修改和删除操作,只需要定期地加载、刷新。因此,数据仓库的信息具有非易失性。,2020/5/14,.,11,数据仓库支持支持联机分析处理(OLAP);传统数据库支持联机事务处理(OLTP),这也成为数据仓库与传统的数据库技术的最显著区别。联机事务处理OLTP(on-linetransactionrocessing)传统的关系DBMS的主要任务他们涵盖了一个组织的大部分日常操作:购买、库存、工资、注册、记账等。联机分析处理OLAP(on-lineanalyticalprocessing)数据仓库系统的主要任务数据分析和决策,数据库与数据仓库,2020/5/14,.,12,用户和系统的面向性:OLTP面向顾客,而OLAP面向市场数据内容:OLTP系统管理当前数据,而OLAP管理历史的数据。数据库设计:OLTP系统采用实体-联系(ER)模型和面向应用的数据库设计,而OLAP系统通常采用星形和雪花模型视图:OLTP系统主要关注一个企业或部门内部的当前数据,而OLAP系统主要关注汇总的统一的数据。访问模式:OLTP访问主要有短的原子事务组成,而OLAP系统的访问大部分是只读操作,尽管许多可能是复杂的查询,OLTP和OLAP的区别,2020/5/14,.,13,2020/5/14,.,14,内容提要,什么是数据仓库?多维数据模型OLAP技术数据仓库的体系结构,2020/5/14,.,15,数据仓库和OLAP工具基于多维数据模型在多维数据模型中,数据以数据立方体(datacube)的形式存在数据立方体允许以多维数据建模和观察。它由维和事实定义维:是关于是人们观察数据的特定角度,是考虑问题时的一类属性(每个维都有一个表与之相关联,称为维表。)多维数据模型围绕中心主题组织,该主题用事实表表示事实表:包括事实的名称或度量以及每个相关维表的关键字,多维数据模型,2020/5/14,.,16,一个数据立方体,允许以多维对数据建模和观察维表,例如消费维表包含属性(PurchaseKey,Category),时间维表包含属性(TimeKey,month,quarter,year),持卡人维表(CardholderKey,Name,Gender,Income),位置维度(LocationKey,Street,City,State,Region区域)。事实表:包含度量(例如:Amount消费额)和每个相关维表的关键字,多维数据模型(例),2020/5/14,.,17,消费维表,时间维度,持卡人维度,位置维度,事实表,2020/5/14,.,18,在数据仓库中,数据立方体可以是n-D的(n维)(关系表和电子表格是几维的?)多维数据模型为不同角度上的数据建模和观察提供了一个良好的基础,多维数据模型,2020/5/14,.,19,2020/5/14,.,20,2020/5/14,.,21,2020/5/14,.,22,销售数据的4-D表示,2020/5/14,.,23,数据仓库语义中,一个n-D底层方体称为基本方体.最高层的0-D方体,存放最高层的汇总,称为顶点方体.所有的方体格组成了数据立方体,数据立方体,2020/5/14,.,24,all,time,item,location,supplier,time,item,time,location,time,supplier,item,location,item,supplier,location,supplier,time,item,location,time,item,supplier,time,location,supplier,item,location,supplier,time,item,location,supplier,0-D(顶点)方体,1-D方体,2-D方体,3-D方体,4-D(基本)方体,2020/5/14,.,25,2020/5/14,.,26,数据仓库的概念模型,建立数据仓库模型:维与度量星型模式:中间是事实表,连接一组维表雪花模式:雪花模式是星型模式的变种,其中某些维表是规范化的,而数据进一步分解到附加的维表中,它的图形类似于雪花的形状事实星座表:多个事实表共享维表,这种模式可以看作星型模式及,因此称为星系模式或事实星座,2020/5/14,.,27,星型模式实例,SalesFactTable,time_key,item_key,branch_key,location_key,units_sold,dollars_sold,avg_sales,Measures,2020/5/14,.,28,雪花模式实例,SalesFactTable,time_key,item_key,branch_key,location_key,units_sold,dollars_sold,avg_sales,Measures,2020/5/14,.,29,雪花模式,销售事实表TimeIDProductIDRegionIDSalesQuantity,2020/5/14,.,30,Sales事实表,time_key,item_key,branch_key,location_key,units_sold,dollars_sold,avg_sales,Measures,Shipping事实表,time_key,item_key,shipper_key,from_location,to_location,dollars_cost,units_shipped,2020/5/14,.,31,数据挖掘查询语言DMQL:语言与原语,立方体定义(事实表)definecube:维列表度量列表维定义(维表)definedimensionas()特殊情况(共享维表)首先进行“立方体定义”definedimensionasincube,2020/5/14,.,32,用DMQL定义星型模式,definecubesales_startime,item,branch,location:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)definedimensiontimeas(time_key,day,day_of_week,month,quarter,year)definedimensionitemas(item_key,item_name,brand,type,supplier_type)definedimensionbranchas(branch_key,branch_name,branch_type)definedimensionlocationas(location_key,street,city,province_or_state,country),2020/5/14,.,33,用DMQL定义雪花模式,definecubesales_snowflaketime,item,branch,location:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)definedimensiontimeas(time_key,day,day_of_week,month,quarter,year)definedimensionitemas(item_key,item_name,brand,type,supplier(supplier_key,supplier_type)definedimensionbranchas(branch_key,branch_name,branch_type)definedimensionlocationas(location_key,street,city(city_key,province_or_state,country),维表中含有维表,2020/5/14,.,34,用DMQL定义星系模式,definecubesalestime,item,branch,location:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)definedimensiontimeas(time_key,day,day_of_week,month,quarter,year)definedimensionitemas(item_key,item_name,brand,type,supplier_type)definedimensionbranchas(branch_key,branch_name,branch_type)definedimensionlocationas(location_key,street,city,province_or_state,country)definecubeshippingtime,item,shipper,from_location,to_location:dollar_cost=sum(cost_in_dollars),unit_shipped=count(*)definedimensiontimeastimeincubesalesdefinedimensionitemasitemincuesbalesdefinedimensionshipperas(shipper_key,shipper_name,locationaslocationincubesales,shipper_type)definedimensionfrom_locationaslocationincubesalesdefinedimensionto_locationaslocationincubesales,两个事实表(或立方体)共享一个维表,2020/5/14,.,35,内容提要,什么是数据仓库?多维数据模型OLAP技术数据仓库的体系结构,2020/5/14,.,36,OLAP基本概念,维:是人们观察数据的特定角度,是考虑问题时的一类属性(时间维、地理维等)。维的层次:人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的各个描述方面(时间维:日期、月份、季度、年)。维的成员:维的一个取值。是数据项在某维中位置的描述。(“某年某月某日”是在时间维上位置的描述)多维数组:维和变量的组合表示。一个多维数组可以表示为:(维1,维2,维n,变量)。(时间,地区,产品,销售额)数据单元(单元格):多维数组的取值。(2000年1月,上海,笔记本电脑,$100000),2020/5/14,.,37,OLAP的数据源,2020/5/14,.,38,OLAP特性,快速性:用户对OLAP的快速反应能力有很高的要求。系统应能在5秒内对用户的大部分分析要求做出反应。可分析性:OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。多维性:多维性是OLAP的关键属性。系统必须提供对数据的多维视图和分析,包括对层次维和多重层次维的完全支持。信息性:不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,并且管理大容量信息。,2020/5/14,.,39,典型的OLAP操作,上卷(Rollup):汇总数据通过维的概念分层向上攀升或者通过维归约来实现如从城市到国家。下钻(rolldown):上卷的逆操作从高层的汇总到低层汇总或详细数据,如:从季度到月切片(Slice)和切块(dice)切片操作对给定一个立方体的一个维进行选择如:time=Q1切块:对两个或多个维进行选择如:(location=“多伦多”or”温哥华“)and(time=“Q1”or“Q2”)and(item=“家庭娱乐”or“计算机”)转轴(Pivot):是一种目视操作,它转动数据的视角,提供数据的替代表示。,2020/5/14,.,40,切片与切块,2020/5/14,.,41,2020/5/14,.,42,钻取,数据聚集,2020/5/14,.,43,旋转,2020/5/14,.,44,按城市的销售数据,按产品的销售数据,国际体育用品公司的数据分析(1),IBMVisualWarehouseV3.1LotusApproach或MicrosoftAccessIntelligentMinerfordata/text,2020/5/14,.,45,国际体育用品公司的数据分析(2),按地区划分的头盔销售数据,按地区和国家划分的头盔销售数据,2020/5/14,.,46,国际体育用品公司的数据分析(3),按地区、国家和城市划分的头盔销售数据,山地车和头盔销售的比较,2020/5/14,.,47,BrioEnterprise丰富的钻取功能,2020/5/14,.,48,图4.5Cognos的钻取操作,IBMCognos的钻取操作,2020/5/14,.,49,内容提要,什么是数据仓库?多维数据模型OLAP技术数据仓库的体系结构,2020/5/14,.,50,数据仓库的系统结构,数据仓库采用3层结构:底层是数据仓库服务器中间层是OLAP服务器顶层是前端客户层,2020/5/14,.,51,三层数据仓库架构,数据仓库,OLAP服务器(中间层),查询报告分析数据挖掘,监控、整合,元数据存储,数据源,前端工具(顶层),输出,数据集市,数据仓库服务器(底层),OLAP服务器,2020/5/14,.,52,底层:数据仓库的数据库服务器关注的问题:如何从这一层提取数据来构建数据仓库(通过ODBC,JDBC,OLE/DB等来提取)中间层:OLAP服务器关注的问题:OLAP服务器如何实施(关系型OLAP,多维OLAP等)前端客户工具层关注的问题:查询工具、报表工具、分析工具
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025北京市丰台区王佐镇社区卫生服务中心招聘3人(一)笔试模拟试题及答案解析
- 2026华能国际工程技术有限公司校园招聘5人(河北)笔试备考题库及答案解析
- 2025年餐饮行业外卖市场发展趋势研究报告
- 2025年漯河市公开选调务员公有关情况笔试模拟试题及答案解析
- 2025企业集体劳动合同模板
- 2025湖南湘西州泸溪县妇幼保健计划生育服务中心招聘高校见习生5人考前自测高频考点模拟试题及一套参考答案详解
- 2025广西贵港市港南区大数据发展和政务局招聘编外人员1名考前自测高频考点模拟试题附答案详解(完整版)
- 2025年4月18日四川内江市招聘会岗位考前自测高频考点模拟试题附答案详解(突破训练)
- 2025贵州安顺市参加“第十三届贵州人才博览会”引才271人模拟试卷及答案详解1套
- 2025年铝板购销合同模板
- 心理处方手册
- 幼儿园红色小故事PPT:抗日小英雄王二小的故事
- 《教学设计:贸易术语CIF》教学设计
- 案外人执行异议之诉课件
- T-CSCS 015-2021 钢结构深化设计制图标准-(高清版)
- 西方经济学导论全套课件
- “基础教育精品课”PPT课件模板
- 第8部分消防设施标识可视化
- 简约医院医疗工作汇报工作总结PPT模板
- 通用顶管监理规划
- 金泽21世纪美术馆
评论
0/150
提交评论