版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据挖掘概论第三章数据仓库3.1前言作用:对经过集成、清洗、归约预处理后的数据进行存储的载体一数据仓库(DW)o企业历史数据的主要处理方式:删除历史数据备份历史数据预处理后存入数据仓库基于数据仓库的应用:OLAP(OnlineAnalysisProcess)-联机分析处理、多粒度和多维度的数据分析、OLAM(OnlineAnalysisMining)o3.2数据库基本概念回顾数据库简介数据:数据库中存储的基本对彖,以描述事物的符号记录。数据库:以一种结构化的方式存储数据的文件系统。特点:较小冗余度,较高独立性和易扩展性,可被多用户并发访问,可长期存储。数据库、表、记录和域及其关系二维表实例:(
2、P38图3.2的实例)。数据库管理系统一DBMSDBMS的功能:提供定义、建立、维护数据库服务的核心软件。其目的是保证数据库的安全、一致性和完整性。注意:常见的DBMS有DB2、Oracle.MSSQLServer.MySQL和MSAccess等。还有曾经辉煌的FOX、FOXPRO.Sybase.Informix等著名的DBMS系统及其形成的历史数据资源。DBMS的主要功能:数据存储、检索和更新:完成存储、查询、修改、删除等操作。事务支持:对数据库的一系列操作作为整体执行。注憲:一个事务具有原子性、一致性、隔离性和持久性特点。(P39)原子性:多个对数据库的操作可以看做是一个不可分割的原子操作
3、。一致性:数据库状态从一个状态到另一个状态的转变时是一致性转变的。隔离性:不同事务的操作之间是互不影响的。持久性:事务对数据库的影响和改变是永久性的。并发控制:多个事务并发执行(读取或修改同一数据或文件)。3.3数据仓库简介(1)数据仓库的特点WilliamH.Inmon定义:DW是一个面向主题的、集成的、时变的、非易失的数据集合,用于支持管理部门的决策过程。面向主题(Subject-Oriented):DW总是围绕重要的课题或主题展开,如顾客、产品、销售等。总着眼于决策者的数学建模和分析处理,而不是简单的口常操作与爭务处理。针对特定主题提供简明扼要的有价值的数据进行呈现。集成(Integra
4、ted):DW的建立是通过集成和整合多个不同的异构数据源完成。注意:异构数据源包含关系型数据库、一般数据文件、联机事务记录等。DW的建立需要经过数据清洗和数据集成技术的支撑。以保证命名规则、编码结构、属性值的度量等方面保持一致。时变的(TimeVariant):早时间层面上,DW中的数据的事件跨度要长于操作性数据库中的数据。有的跨度超过若干年。2)DW中的数据结构一般都包含了时间元素。非易失的(Non-Volat订e):2)DW中的数据一般都在物理上分开存储。2)DW中一般没有数据更新和修改操作发生。数据仓库概念数据仓库之父的定义:比尔.恩门一数据仓库是一个把不同来源数据进行集成,为用户提供决
5、策和分析的平台,同时提供用户对信处理的支持的数据库系统。数据仓库的作用提高客户关注度一购买模式和喜好倾向的获得微调生产策略一最大限度地提高利润查找利润来源一指导产品的生产和销售管理客户关系一对公司管理和运行进行指导数据仓库与DBMS对比OLTP(On-LineTransactionProcessing)与OLAP(On-LineAnalyticalProcessing)oOLTP包含大部分口常操作;OLAP数据分析与决策处理。OLTP与OLAP的主要区别。处理对象不同。OLTP面向顾客,提供事务处理和查询处理;OLAP面向市场,为数据分析人员提供数据分析支持。数据内容不同。OLTP处理的是口常
6、琐碎数据;OLAP处理的是历史数据,尤其是集成统一的数据。数据库的设计模式不同。OLTP按照“实体-关系”模型设计面向应用的数据库;OLAP采用星型模式和面向主题的数据设计。视图不同。OLTP关注当前和本地数据,不关心历史数据;OLAP关注数据的不同演绎和不同数据源集成而来的数据信息。访问模式不同。OLTP包括数据更新、查询操作;OLAP-般是只读操作,且查询的都是复杂的操作。OLTP与OLAP的其他区别(见P42表3.1)分离数据仓库的原因提高性能一DBMS主要用于OLTP;而DW的复杂查询、多位视图、数据集成用DW更高效。功能和数据的不同一决策支持需要历史数据,事务型数据库不维护历史数据!
7、注意:目前,随着数据库技术的发展OLTP和OLAP的差异越来越小!3.4多维数据模型(1)数据立方体目的:从多维角度对数据进行观察和建模。假设:以一个电子产品销售数据仓库为例。维表和事实表维:分析和看待数据对彖的角度,一般以属性来表示之。维表:与每一个维度相关的表,表中是一系列属性的集合。例如,商品名称维维表、商品品牌维维表、商品类型维维表等,以及时间维的天、月、季、时、分、秒等属性信息。事实:有关维度属性的数据度量。例如,销售量、利润额度等。2)数据立方体维度维的数量:DW中,看待和分析数据的维的个数(或属性个数)。基础/基本方体:包含所有为的方体,是构成整个数据立方体的基本单元。顶点方体:
8、不包含维的基础方体。数据立方体:多维数据模型方体的集合。例如:(见P45图3.3)3)多维分析例如,AllElectronics的销售数据仓库的多维分析。假设:4个维表,即time、item、branch和location。(P44表3.2)事实表(P44表3.2)从二维观察温哥华(Vancouver)地区的电子产品销售情况(P44表3.3)从时间、商品类型、供应方和销售地4个维度来多维观察DW中电子商品的销售数据情况。(P44图3.2)时间(time)、商品(item),地域(location)和供应方(supplier)形成的数据立方体方格。(P45图3.3)结论:显然,从数据立方体可以进
9、行多维数据分析和展示。注意1:数据立方体中的一个单元存放一个数据聚集值,它对应多维数据空间中的一个数据点。注意2:多维数据表中的各个属性都可能存在概念化分层,以便进行多个抽象层次的数据分析。例如location、time等都可以冇更抽象的概念分层。注憲3:数值性属性也可以概念分层。概念模型1)星型模式基本思想:以事实表为中心,以事实表和其他维表相关联。(P46图3.4)特点:所有维表都直接连接到事实表上。2)雪花模式基本思想:是星型模式的改进表示,它将一些维表细分到一系列更低层次的维表中去。最终形成一个多层次的维表结构,即雪花模式。(P47图3.5)特点:雪花模式可有效减少冗余数据,但执行效率
10、会降低。3)事实星座模式基本思想:如果数据模型中出现了多个事实表共享一个或多个维表的情形,则称该模型为事实星座。(P47图3.6)特点:事实星座可以看作多个星型模式的集合。注意仁事实星座对应多个分析和挖掘主题。数据集市:受限于选定挖掘和分析主题,且其数据往往是企业数据的子集。注憲2:数据仓库和数据集市的对比。(见P48表3.4)概念分层概念分层:通过一个映射序列把底层概念映射成较高层概念的一般化概念抽象过程。例如,P48图3.7和P49图3.8。注意:基于属性的全序或偏序的概念分层,也称为|模式分层。典型OLAP操作上卷(roll-up)、下钻(drill-down)、切片和切块(slice-
11、dice)、旋转(pivot)、钻过(drillcross)a钻透(drill-through)星型网络的查询模型星型网络模型:由一个中心和多个射线组成的多粒度概念分层表示模型。例如,图3.10(P51)3.5数据仓库结构(1)数据仓库的设计DW设计视图自顶向下视图:全局、整体的DW设计视图。数据源视图:被操作系统获取、存储和管理的数据信息。DW视图:爭实表和维表视图。商务查询视图:用户角度的视图。DW设计方法P53图3.22和表3.5。DW的设计步骤P54o多层体系结构DW的三层体系结构P54图3.23元数据:用于定义数据仓库对象的数据或信息。元数据的功能:P55o常见的DW的元数据:P55
12、o3.6数据仓库的功能(1)数据立方体的有效计算数据立方体个数计算个数计算方法:P55-56。数据挖掘原语:P56。物化数据立方体P56-57。数据立方体计算的优化策略P57o多路数组聚集(P57-60)完全立方体计算的多路数组聚集(multi-wayarrayaggregation)目的:为了减少数据立方体计算的时间和空间开销,同时在多个维组合上进行聚集计算。块:多路数组聚集中的子立方体。它是立方体计算时能够放入可使用内存的基本块。也是多路数组聚集算法中立方体计算和存取的基本单位。分块:将n维数组划分成较小n维块的方法。空单元:不含任何有效数据的单元,即单元计数为零的单元。chunkID+o
13、ffset寻址机制:针对压缩棉疏矩阵结构中的块搜索引入的快创寻址。基本思想:数组分块(Block)思想的引入。通过优化块的访问顺序,从而通过访问立方体单元的值完成整体聚集计算。计算实例设有三维A、B、C的3-D数组,它被划分成小的、基于内存的块。划分方法:各维度划分成4个相等的分区,即0,alfa2fa3b0,blfb3clfc2,c3fc4,共64个块。假设A、B、C各维的值基数为40、400和4000,则一个基本块的大小为10 x100 x1000c注意:完全物化涉及所有方体。即基本方体(ABC)、2-D方体(AB、AC、BC)、1-D方体(A、B、C)和0-D方体(顶点方体)。完全立方体
14、的结构示意图:C吩61/62/63/dSo7bi13141516b:9Jbl5b(11234/c宀/23aOala2a3A多路数组聚集中2-D平面计算时的最小内存需求计算过程示意图:ansareMultiWayArrayAggregationA:10,B:100,C:100014ForACplane:40*1000=40.000ForBCplane:100*1000-100,000ForABplane:40*400=16,000/0/4扌b213blTheminimalmemoryrequiredforholdingallrelevant2-DplanesinchunkmemoryiTotal
15、:156、0QQ64Ifthe(limensisortedAfit假设计算BC方体中的boc。块,则需要打描块4,才能完成其聚集。计算he。块则需要打描5“8块。因此,计算完整的BC方体时的扫描顺序是64,具体计算方体的顺序为bobble。b3c3.今只需把BC块存在内存即可。问题1:有没有方法避免重复打描,使得在打描聚集计算BC块时同时聚集计算扫描块相关联的其他方体,如AB和AC方体?例如,扫描aoboco计算Sc。时,同时计算与aoboco相关的所有2-D方体,即BC、AC和AB的bo、aoco如加?问题2:如何确定块的打描顺序才是优的?方案T:扫描次序为64。即BC今AC今AB。扫描完1
16、-4块后,b()Co聚集口J完成。1描完1-23块aoco聚集口J完成。(即打描完序号为2、5、9、13后完成)扫描完1-49块后,眄“聚集可完成。(即扫描完序号2、17、33、49后完成)结论:计算2-D平面时的最小内存空间需求是能够存放一个BC平面、一个AC平面行和整个AB平面。即40 x400(AB平面)+40 xl000(AC平面的一行)+100 x1000(BC平面的一个基本块)=156000。方案二|:扫描次序为1、17、33、49、5、22、37、53、9等时。即AB今AC今BC。扫描完1、17、33、49后,矶加聚集可完成。扫描完1、17、33、49、5、21、37、53、9、
17、25、41、57、13后(13块!),“c。聚集可完成。扫描完1、17、33、494(49块!)后,厲卬聚集可完成。结论:按AB、AC、BC顺序计算打描时,最小内存块人小为400 x4000(BC平面)+40 x1000(AC平面的一行)+10X100(计算AB平面所需的一个基本块)=1641000c课外思考题:(2)计算1-D和0-D方体所需的最小内存需求屋是多少?(2)如果按照AC今BC今AB顺序计算扫描,所需的最小内存空间是多少?多路数组聚集算法的局限性:(2)立方体维度较小是有效,人维度或数据桶疏时并不适用。(2)对高维数据,实际上可以自底向上或采用冰山法计算将更为有效。索引OLAP数
18、据目的:提高数据立方体的搜索和处理速度。方法:建立索引。方式:位图索引、链接索引。位图索引建立的基础:1)选定特定的数据列或字段2)将选定列中的数据列,根据其取值对应成一个位向量,以形成一个以向量为基础的位图索引表。3)位图索引表中数据的长度由基础数据表中所选定列或字段的取值多少而定。4)对索引表中给定行而言,对应字段值的位置处置1,其余位皆置0。例如,表3.6中,对Region和Type列分别建立的位图索引如表3.7和表3.8所示。表3.6客户的地域和销售类型数据信息CustRegionTypeClC2AsiaRetailEuropeDealerC3AsiaDealerC4AmericaRe
19、tailC5EuropeDealer表3.7以Region所建立的位图索引5010表3.8以Type所建立的位图索引RecIDRetailDealer110201501结论:(1)位图索引主要适用于字段取值基数不大的情形。(2)位图索引的目的是通过向量之间的位运算完成操作,以人人减少处理时间。(3)个数据立方体或多维数据表可以同时有多个位图索引,以便不同的查询和处理操作使用。OLAP查询的有效处理基于数据立方体的OLAP查询操作处理内容:1)确定数据立方体上可进行的查询操作集。2)确定操作应用所对应的物化立方体。3)选择查询所用的索引方式。注意:对查询操作中的上卷、卞钻,需要将其转化为对应的S
20、QL或OLAP操作,对切片等则对应于在数据立方体中的选择和投影操作。3.7从数据仓库到数据挖掘(1)数据仓库的应用领域范围:经融、银行、电子商务等。应用发展:查询今为企业提供数据分析和决策支持(汇总及查询数据可视化、多维分析及部分数据决策)今发现知识,实现决策。应用方式:1)信息处理9形成数据报告:2)分析处理9多维数据分析:3)数据挖掘9知识发现、关联分析、分类、预测等。三种应用的区别与练习:1)信息处理侧重查询,以发现有用知识。(只反映数据库中的已有数据信息,而不能发现隐藏的知识或规律)2)分析处理侧重OLAP操作,通过数据汇总和比较建立简单的数据分析模型。(只反映了数据仓库中的相关数据的一般描述,还不能算数据挖掘行为)3)数据挖掘是发现数据中的知识和信息,而不仅仅是对数据的描述和简单分析。(所发现的知识更深入,不能由OLAP操作完成)从OLAP到OLAM1)联机分析挖掘的原因:a)DW中的数据一般都是经过预处理后的高质量数据,以此为基础进行挖掘可以提高挖掘质量。b)DW中一般都提供了ODBC(OpenDatabaseConnection)OLEDB(ObjectLinkandEmbeddingDat
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 汾河流域经济空间分异特征、驱动因素及可持续发展路径探究
- 汽车轮毂冲压液压机液压系统性能优化与实践研究
- 汽车板件回弹问题研究:机理、影响因素与控制策略
- 商品房买卖履约担保协议
- 淡奶油打发稳定性研发工程师考试试卷及答案
- 川味复合调味料研发工程师考试试卷及答案
- 国家卫生健康委《2026年国家医疗质量安全改进目标》解读课件
- 工程项目施工风险识别评估及防控管理办法
- 2025年商场超市安全考试真题及答案
- 2026 高血压病人饮食的柠檬粥课件
- 浅析课程思政融入高中历史教学的策略研究
- 肺癌术后并发皮下气肿患者护理规范管理专家共识课件
- 初中化学课题申报书
- GB/T 42706.4-2025电子元器件半导体器件长期贮存第4部分:贮存
- 红色革命歌曲经典赏析与应用
- 2025江苏连云港市海州区国有企业招聘25人笔试历年常考点试题专练附带答案详解试卷2套
- 人工智能+零售零售行业就业岗位变革与未来展望
- GB/T 45616.2-2025自动化系统与集成面向制造的数字孪生框架第2部分:参考架构
- 人工智能在医学生物化学课程中的应用研究
- 工程设计交底记录模板
- GB/T 24803.2-2025电梯安全要求第2部分:满足电梯基本安全要求的安全参数
评论
0/150
提交评论