上海海洋大学数据仓库复习内容_第1页
上海海洋大学数据仓库复习内容_第2页
上海海洋大学数据仓库复习内容_第3页
免费预览已结束,剩余2页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据仓库与数据挖掘复习内容第一章4. 说明OLTP概念和OLAO既念答:OLTP(On Line Transaction Processing,联机事物处理)是在网络环境下的事务处理工作 以快速的响应和频絮的散捉條踐为待苗,使用户-利用數沸库鍛够诀遠地处理具体的it 务。OLAP (On Line An alytical Process ing)联机分析处理,是使用多维数据库和多维分析的方法,对多个关系数据库共同进行大量的综合计算来得到结果的方法。6.说明OLTP与OLAP的主要区别。答:OLTP针对的是细节性数据、当前数据、经常更新、一次性处理的数据量小、对响应时 间要求高且面向应用,事务驱

2、动;OLAP针对的是综合性数据、历史数据、不更新,但周期性刷新、一次处理的数据量大、响应时间合理且面向分析,分析驱动。9兌啜幕勺敘棉子典的灵存Z答:在数据仓库中引入了 “元数据”的概念,它不仅仅是数据仓库的字典,而且还是数据仓 库本身信息的数据。15 .数据挖掘与OLAP有什么不同答:OLAP是在带层次的维度和跨维度进行多维数据分析的。数据挖掘则不同,它是以变量 和记录为基础进行分析的。第二章3. 说明数据集市与数据仓库的区别与联系。答:联系:数据集市是一种更小,更集中的数据仓库,为公司提供了一条分析商业数据的廉价途径。数据集市是指具有特定应用的数据仓库,主要针对某个具有战略意义的应用或者具依

3、躬门级的应用 支持用户利円已有的數据荻得亟要的竟争优势或-者找到进人浙市场的 具体解决方案。区别:(1) 数据仓库是基于整个企业的数据模型建立的,它面向企业范围内的主题。而数据集 市是按照某一疔(2) 部门的主题与企业的主题之间可能存在关联,也可池不疥在关底。(3) 数据集市的数据组织一般采用星型模型。(4) 画出数据集市的两种结构图,说明它们的不同点.独立型数据集市直接从操作型环境获取数据,从属型数据集市从企业级数据仓库获取数据,带有从属型数据集市的体系结构。17. 简单说明ETL过程的主要步骤.ETL过程的主要步骤概括为:(1)(2) 决定所有的数据源,(3)(4)建佥至通的董屈铀取规刖注

4、孤数把緩冲区贱和楼则工具(8)(9)(10)事实表的抽取、转换和装载22.说明数据库中的元数据以及数据仓库中元数据的不同。答:关于数据源的元数据是现有业务系统的数据源的描述信息,是对不同平台上的数据源的物理结构和含义的描述。具体为:(1)数据源中所有物理数据结构,包括所有的数据项及数据类型。(2)所有数据项的业务定义。(3(4 )每个数据项的有效值。(5)其他系统中具有相同业务含义的数据项的清单。p24数据仓库的四种数据模型。答:星形模型。大多数数据仓库都采用星型模型,是事实表(大表)以及多个维表(小表) 所组成。事实表存放着大量关于企业事实数据(数字实际值),对象(元组)个数通常都很大,而且

5、非规范化程度很高。事实表有大量的行(元组),维表相对来说有较少的行。优点:存取速度快,主要针对各个维做了大量处理,做报表时速度很快。与规范化关系数据库相比,以增加存储空间为代价, 提高了多维数据的查询速度,而规范化的关系数据库设计是使数据的冗余保持在最少并减少当数据改变时系统必须执行的动作。缺点:当业务问题发生变化,原来的维不能满足要求时需要增加新的维,维的变化非常复杂耗时,数据冗余量很大。雪花模型。对星型模型的维表进一步的层次化,原来的各维表可能被扩展为小的事实表,形成一些局部的“层次”区域,优点是最大限度地减少数据存储量,以及把较小的维表联合 在一起来改善查询信息。 缺点:增加了用户必须处

6、理的表的数量,增加了某些查询的复杂性。星网模型。多个相关的星型模型通过相同的维表连接起来形成网状结构,各个事实共享 的维表是时间维。第三范式。3NF解决数据冗余,数据被分割为多个实体,实体在数据库中用表来表示,使用3NF会形成比较复杂的关系表,但适合于操作型处理。星型模型的设计模式适用于决策分析应用。第三章3.2节OLAP的三种数据模型及其比较;答:MOLA数据模型:MOLA数据模型是基于多维数据库的OLAP简称多维 OLARROLAP数据模型:ROLAP是基于关系数据库的 OLAR简称关系OLAPHOLAP即混合 OLAP介于MOLAR和ROLAP之间。MOLAP ROLAPJ 比较MOLA

7、P1 详沏数撓用关系嚴存隅在 釵据鱼库中:2, 各科汇意数 娠爆存在歩维釵扌壬申:3. A 数坯爸库申世诃讶汕就扌壬,从 多般槪垢库申弼闵広弐釵娠1由肿“户髒攀引建;2预先屯 立戟据立方体;3多维砚适夸 緒在陈列中,巧不是袅桔中; $叮味芒速琏索洋魏据;庁和 科祥赃鉅佯搖炭来甘認汇意药1詞同响.应送摩共;诡飪相连 旦参维好输:2有广迫詞牯 知苓庄Jt/茅祝两的章简袒力ROLAP1金部歎据艮輕关系再緒止戟 栏舍弹申:2可馥帶细节和殊 合汩意的就据;3有罪常天的 就握容董;叫从魏铐去庠中询1魄利址净讯L久皱撼鱼弹中黄 致就据:初叽“刖妊產分祈申 创建就轉至方煤;3議示叢能T崔岌奈分新蔚也上肓局瞋t

8、t,常妥杀闹此吧的OLAP; 2 向下站琨较容鬲,但產跨甦向 下鮎取比鞍因珠.在HOLAP的多维数据库中的数据维度少于MOLAP中的维度库,数据储存容量也少于MOLA方式。但是,HOLAP在数据存取速度上又低于 MOLAP第四章数据仓库概念模型将需求分析过程中得到的用户抽象为计算机表示的信息结构。它是从客观世界(用户)到计算机世界的一个中间层次,即用户需求的数据模型。常用E-R图特点:1、能真实反映现实世界,能满足用户对数据的分析,达到决策支持的要求,它是现实世界 的一个真实模型。2、易于理解,有利于和用户交换意见,在用户的参与下,能有效地完成对数据仓库的成功 设计。3、易于更改,当用户需求发

9、生变化时,容易对概念模型进行修改和扩充。4、易于向数据仓库的数据模型(星型模型)转换。逻辑模型设计把概念模型设计好的 E-R图转换成计算机所支持的数据模型。主要工作为:1、 主要域进行概念模型(E-R图)到逻辑模型(星型模型)的转换;2、颗粒层次划分;3、关系模式定义;4、定义记录系统;物理模型设计为了逻辑模型设计的数据模型确定一个最合适应用要求的物理结构(包括存储结构和存取方法)。数据存储的数据模型。工作主要是:1、估计存储容量;2、确定数据的存储结构;3、确定索引;4、确定数据存放位置;5、确定存储分配;时间维度概念:以时间作为描述、表达变量的度量尺度。是在分析经济变量时加上时间要素 的角

10、度而形成的。对于经济变量的考察, 凡能用时间单位来表达的,就必须在分析中加上时间这一维度,才能使经济变量准确的表达出来。可以用来表示经济变量中存量和流量的区别。存量是在某一时点测定的,其大小没有时间维度, 而流量则必须用时间单位宋表示 (年、月、日小时、分、秒等),即时间维度。不说明时间单位,流量的计量便没有意义。数据粒度概念:数据仓库的数据中保存数据的细化程度或综合程度的级别。细化程度越高, 粒度级别就越小;相反,细化程度越低,粒度级别就越高。影响存放在数据库中的数据量大小和所能回答的查询类型。注意雪花模型和综合事实表的区别!( 8990、4.11和4.12)雪花模型:减少各维度的记录数,使

11、查询过程中搜索记录数目减少。综合事实表:是由基础事实表衍生出来的。特别地看一下上次做过的数据仓库的实验及其实验文档,涉及到实验的具体步骤和内容 第八章数据挖掘,看关联规则数据挖掘的算法思想,分析课本上P177的例子,要看它的分析步骤 和处理办法,特别是如何画对应的图 8.4;【1】基本概念:关联规则挖掘是发现大量数据库中项集之间的关联关系。关联规则模式属于描述型模式,发现关联规则的算法属于无监督学习的方法。原理:(1) 关联规则是形如 At B的蕴涵式,这里 Acl,Bcl,且AA BM ?。(2) 规则的支持度:规则At B在数据库D中具有支持度S,表示S是D中事务同时包含AB的百分比,它是

12、概率P(AB),即:S(AtB)=P(AB)=|AB|/|A|,其中|D|表示事务数据库 D的个数,|AB|表示A、B两个项集同时发生的事务个数。(3) 规则的可信度,规则AtB具有可信度C,表示C是包含A项集的同时也包含B项集,相对于包含 A项集的百分比,这是条件概率P(B|A),即C (At B)=P(B|A)=|AB|/|A|,A表示数据库中包含项集A的事务个数。(4) 阈值:为了在事务数据库中找出有用的关联规则,需要由用户确定两个 阈值:最小支持度(min_sup)和最小可信度(min_conf ).(5) 项的集合称为项集,包含k个项的项集称之为 K-项集。若项集满足最小 支持度,则

13、它称为 频繁项集。(6) 关联规则:同时满足最小支持度和最小可信度的规则称为关联规则,即S(At B)>min_sup,且C ( At B) >min_conf成立时,规则 At b称为关联规则, 也可以称为强关联规则。(7) 兴趣度(不小于 0): I ( At B) =P(AB)/P(A)P(B),反映了项集 A与项集B的相关程度,若I ( At B) =1,即P(AB)=P(A)P(B),表示项集A出现和项集是 相互独立的。若I ( At B)v 1,表示a出现和B出现是负相关。若I ( At B) > 1,表示A出现和B出现是正相关,意味着A的出现蕴含B出现。算法基本

14、思想:找到所有支持度大于最小支持度的项集,这些项集称为频繁项集。使用一种称作逐层搜索的迭代方法,“K-项集”用于搜索“ K+1- ”项集,直到不能找到“ K-项集”为止,找每个 Lk需要一次数据库扫描。性质:频繁项集的所有非空子集都必须也是频繁的。设K-项集Lk, K+1-项集Lk=1,产生Lk=1的候选集Cc+1.有公式:C<+1=Lk*Lk=X U Y,其中X,Y Lk,|XY|=K+1,其中C1是1-项集的集合,取自所有事 务中的单项元素。如 L仁A,B,C2=A U B=A,B,且|AB|=2 丄2=A,B,A,C, C3=A,B U A,C=A,B,C,且|ABC|=3.【2】

15、Apriori算法中候选集与频繁项集产生实例对表8.6所示的事物数据库,Apriori算法步骤如下:表8.6車物IJID事物的项目集事物ID事柳的喷目集T1T6T2E, DT7A, CT3E, CT8A. E,ET绻仏E, 口TS E,匚T5A, C1、在算法的第一次迭代,每个项都是候选1-项集的集合C1的成员。算法扫描所有的事务,对每个项的出现次数计数,图8.4中第一列。2、假定最小事务支持计数为2 (即min-sup=2/9=22% )。可以确定频繁 1-项集的集合L1.它由具有最小支持度的候选1-项集组成,见图8.4第二列。3、为发现频繁2-项集的集合L2,算法使用L1*L1,来产生候选

16、集 C2,见 图第3列。4、扫描D中事务,计算C2中每个候选集的支持度计数,如图8.4第4列。5、确定频繁2-项集的集合L2,它由具有最小支持度的C2中候选2-项集组成,见图第5列。6、候选3-项集C3产生,仍按3步骤进行。得到候选集。 C3=A,B,C,A,B,E,A,C,E,B,C,D,B,C,E,B,D,E按Apriori性质,频繁项集的所有子集必须是频繁的。由于A,D,C,D.C,E,D,E不是频繁项集,故 C3后4个候选不可能是频繁的,在C3中删除它们,见图第6列。扫描D中事务,对C3中的候选集计数支持度计数,图第7列。7、确定L3,它由具有最小支持度的C3中候选3-项集组成,见图第

17、 8列。8、按公式产生候选4-项集的集合C4,产生结果A,B,C,E,这个项集被剪 去,因为它的子集B,C,E不是频繁的。这样 L4M ?,此算法终止。L3是最 大的频繁项集,即A,B,C和A,B,E.图8.4候选集与频繁项集的产生6候选雄Li麵舷:L-项隼支:持度 计範顼华支持度 计敷顶集顷集支持度 计馳AS比籤A6A. E计尊A, E4:ETE7F-血Ci-A, C4:C5G6民DA, D10一 NJJZ九EEE::耳2鼠CE. C硝B, DB.D2B, E氐E2G DC. D0G EC. E1D. ED, E0L2頻繁A项集嵌选集C3假选吏U3頻幫37页集Jnffi支持度 计斟1项辜支持虞 计數换京持康 计撤At B4产生乩爲£计耳扎Bt C2L爲C2A.C4為E,E-a3b.e2JL B. E2A. E2C3B,C4E, D2B, E2【3】课本P184习题八:18, 25 题(Apriori性质)18、数据库有4个事务,设最小支持度为50%使用Apriori 、算法找出所有数据频繁项目TID项TID顶T1Ar C DT3A, E. CJ ET2B, C. ET1E ET.!小幼势丸'计編丸2 Min-sup=2/4 =0,5ClA屯持蛀2 B3,匚克炳喪3,卩支持及1,E支

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论