数据仓库习题集_第1页
数据仓库习题集_第2页
数据仓库习题集_第3页
数据仓库习题集_第4页
数据仓库习题集_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、一、选择填空.数据仓库的特点分别是 面向主题 、 集成 、 相对稳定 、反映历史变化。、粒度是对数据仓库中数据的综合程度高低的一个衡量。粒度越小,细节程度越高,综合程度越低,回答查询的种类越多。维度可以根据其变化快慢分为元变化维度、缓慢变化维度和剧烈变化维度三类。连续型属性的数据样本之间的距离有欧氏距离、曼哈顿距离和明考斯基距离。在数据挖掘的分析方法中,直接数据挖掘包括( )A 分类 B 关联 C 估值 D 预言数据仓库的数据ETL过程中,ETL软件的主要功能包括()A 数据抽取 B 数据转换 C 数据加载 D 数据稽核数据分类的评价准则包括( ABCD )A 精确度 B 查全率和查准率 C

2、F-Measure D 几何均值层次聚类方法包括( BC )A 划分聚类方法 B 凝聚型层次聚类方法 C 分解型层次聚类方法 D 基于密度聚类方法贝叶斯网络由两部分组成,分别是( A D )A 网络结构 B 先验概率 C 后验概率 D 条件概率表置信度(confidence)是衡量兴趣度度量( A )的指标。A、简洁性B、确定性C.、实用性D、新颖性关于OLAP和OLTP的区别描述,不正确的是: (C)A. OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同.B. 与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务.C. OLAP的特点在于事务量大,但事务内容

3、比较简单且重复率高.D. OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作( B ) A、层次聚类 B、划分聚类 C、非互斥聚类 D、模糊聚类将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?(B) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则6.在数据挖

4、掘的分析方法中,直接数据挖掘包括( )A 分类 B 关联 C 估值 D 预言7.数据仓库的数据ETL过程中,ETL软件的主要功能包括()A 数据抽取 B 数据转换 C 数据加载 D 数据稽核8.数据分类的评价准则包括( ABCD )A 精确度 B 查全率和查准率 C F-Measure D 几何均值9.层次聚类方法包括( BC )A 划分聚类方法 B 凝聚型层次聚类方法 C 分解型层次聚类方法 D 基于密度聚类方法10.贝叶斯网络由两部分组成,分别是( A D )A 网络结构 B 先验概率 C 后验概率 D 条件概率表二、判断题1. 数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成

5、描述数据、预测数据等任务。 (对)2. 数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。(对)3. 图挖掘技术在社会网络分析中扮演了重要的角色。(对)4. 模式为对数据集的全局性总结,它对整个测量空间的每一点做出描述;模型则对变量变化空间的一个有限区域做出描述。(错)5. 寻找模式和规则主要是对数据进行干扰,使其符合某种规则以及模式。(错)6. 离群点可以是合法的数据对象或者值。(对)7. 离散属性总是具有有限个值。(错)8. 噪声和伪像是数据错误这一相同表述的两种叫法。(错)9. 用于分类的离散化方法之间的根本区别在于是否使用类信息。(对)10. 特征提取技术并不依

6、赖于特定的领域。(错)11. 序列数据没有时间戳。(对)12. 定量属性可以是整数值或者是连续值。(对)13. 可视化技术对于分析的数据类型通常不是专用性的。(错)14. DSS主要是基于数据仓库.联机数据分析和数据挖掘技术的应用。(对)15. OLAP技术侧重于把数据库中的数据进行分析、转换成辅助决策信息,是继数据库技术发展之后迅猛发展起来的一种新技术。 (对)16. 商业智能系统与一般交易系统之间在系统设计上的主要区别在于:后者把结构强加于商务之上,一旦系统设计完毕,其程序和规则不会轻易改变;而前者则是一个学习型系统,能自动适应商务不断变化的要求。 (对)17. 数据仓库中间层OLAP服务

7、器只能采用关系型OLAP (错)18数据仓库系统的组成部分包括数据仓库,仓库管理,数据抽取,分析工具等四个部分. (错)19. Web数据挖掘是通过数据库仲的一些属性来预测另一个属性,它在验证用户提出的假设过程中提取信息. (错)21. 关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。(错)22. 利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数(对)。23. 先验原理可以表述为:如果一个项集是频繁的,那包含它的所有项集也是频繁的。(错24. 如果规则 不满足置信度阈值,则形如 的规则一定也不满足置信度阈值,其中 是X的子集。(对)25. 具有较高的支持度的项集具有较高的置

8、信度。(错)26. 聚类(clustering)是这样的过程:它找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。 (错)27. 分类和回归都可用于预测,分类的输出是离散的类别值,而回归的输出是连续数值。(对)28. 对于SVM分类算法,待分样本集中的大部分样本不是支持向量,移去或者减少这些样本对分类结果没有影响。 (对)29. Bayes法是一种在已知后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。 (错)30.分类模型的误差大致分为两种:训练误差(training error)和泛化误差(generalization

9、 error). (对)31. 在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。 (错)32. SVM是这样一个分类器,他寻找具有最小边缘的超平面,因此它也经常被称为最小边缘分类器(minimal margin classifier) (错)33. 在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。(错)34. 聚类分析可以看作是一种非监督的分类。(对)35. K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。(错36. 给定由两次运行K均值产生的两个不同的簇集,误差的平方和最大的那

10、个应该被视为较优。(错)37. 基于邻近度的离群点检测方法不能处理具有不同密度区域的数据集。(对)38. 如果一个对象不强属于任何簇,那么该对象是基于聚类的离群点。(对)39. 从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。(错)40. DBSCAN是相对抗噪声的,并且能够处理任意形状和大小的簇。(对)三、计算题1.一个食品连锁店每周的事务记录如下表所示,其中每一条事务表示在一项收款机业务中卖出的项目,假定supmin=40%,confmin=40%,使用Apriori算法计算生成的关联规则,标明每趟数据库扫描时的候选集和大项目集。(15分)事务项目事务项目 T1

11、T2 T3面包、果冻、花生酱面包、花生酱面包、牛奶、花生酱 T4 T5啤酒、面包啤酒、牛奶解:(1)由I=面包、果冻、花生酱、牛奶、啤酒的所有项目直接产生1-候选C1,计算其支持度,取出支持度小于supmin的项集,形成1-频繁集L1,如下表所示:项集C1 支持度 项集L1 支持度面包 花生酱 牛奶 啤酒 4/53/52/52/5面包 花生酱 牛奶 啤酒 4/5 3/5 2/5 2/5(2)组合连接L1中的各项目,产生2-候选集C2,计算其支持度,取出支持度小于supmin的项集,形成2-频繁集L2,如下表所示:项集C2 支持度 项集L2支持度面包、花生酱 3/5面包、花生酱 3/5至此,所有

12、频繁集都被找到,算法结束,所以,confidence(面包花生酱)=(4/5)/(3/5)=4/3> confmin confidence( 花生酱面包)=(3/5)/(4/5)=3/4> confmin所以,关联规则面包花生酱、 花生酱面包均是强关联规则。2.给定以下数据集(2 ,4,10,12,15,3,21),进行K-Means聚类,设定聚类数为2个,相似度按照欧式距离计算。(15分)解:(1)从数据集X中随机地选择k个数据样本作为聚类的出示代表点,每一个代表点表示一个类别,由题可知k=2,则可设m1=2,m2=4:(2)对于X中的任意数据样本xm(1<xm<to

13、tal),计算它与k个初始代表点的距离,并且将它划分到距离最近的初始代表点所表示的类别中:当m1=2时,样本(2 ,4,10,12,15,3,21)距离该代表点的距离分别为2,8,10,13,1,19。当m2=4时,样本(2 ,4,10,12,15,3,21)距离该代表点的距离分别为-2,6,8,11,-1,17。最小距离是1或者-1将该元素放入m1=2的聚类中,则该聚类为(2,3),另一个聚类m2=4为(4,10,12,15,21)。(3)完成数据样本的划分之后,对于每一个聚类,计算其中所有数据样本的均值,并且将其作为该聚类的新的代表点,由此得到k个均值代表点:m1=2.5,m2=12:(4

14、)对于X中的任意数据样本xm(1<xm<total),计算它与k个初始代表点的距离,并且将它划分到距离最近的初始代表点所表示的类别中:当m1=2.5时,样本(2 ,4,10,12,15,3,21)距离该代表点的距离分别为-0.5,0.5,1.5,7.5,9.5,12.5,18.5。当m2=12时,样本(2 ,4,10,12,15,3,21)距离该代表点的距离分别为-10,-9,-8,2,3,9。最小距离是1.5将该元素放入m1=2.5的聚类中,则该聚类为(2,3,4),另一个聚类m2=12为(10,12,15,21)。(5)完成数据样本的划分之后,对于每一个聚类,计算其中所有数据样

15、本的均值,并且将其作为该聚类的新的代表点,由此得到k个均值代表点:m1=3, m2=14.5:(6)对于X中的任意数据样本xm(1<xm<total),计算它与k个初始代表点的距离,并且将它划分到距离最近的初始代表点所表示的类别中:当m1=3时,样本(2 ,4,10,12,15,3,21)距离该代表点的距离分别为-1,1,7,9,12,18,。当m2=14.5时,样本(2 ,4,10,12,15,3,21)距离该代表点的距离分别为-12.58,-11.5,-10.5,-4.5,-2.5,0.5,6.5。最小距离是0.5将该元素放入m1=3的聚类中,则该聚类为(2,3,4),另一个聚

16、类m2=14.5为(10,12,15,21)。至此,各个聚类不再发生变化为止,即误差平方和准则函数的值达到最优。3. K均值算法的过程为:1: 选择K个点作为初始质点。2: repeat3: 每个点指派到最近的质心,形成K个簇。4. 重新计算每个簇的质心、5. until质心不发生变化。 例题: A1,B1,C作为初始质点,距离函数是Euclidean函数,指派点到最近的质心,方法为计算其他点到质点的欧几里得距离。计算距离如下:A1-A2 :dist=(2-2)2 +(5-10)2=25;A1-A3:dist=(8-2)2+(4-10)2=72; A1-B2:dist=(7-2)2+(5-10

17、)2 =50; A1-B3:dist=(6-2)2+(4-10) 2=52;A1-C2:dist=(4-2)2+(9-10)2=5; B1-A2:dist=(2-5)2+(5-8)2=18; B1-A3:dist=(8-5)2+(4-8)2=25;B1-B2:dist=(7-5)2+(5-8)2=13 B1-B3:dist=(6-5)2+(4-8)2=17B1-C2:dist=(4-5)2+(9-8)2=2 C1-A2:dist=(2-1)2+(5-2)2=10 C1-A3:dist=(8-1)2+(4-2)2=53 C1-B2:dist=(7-1)2+(5-2)2=45 C1-B3:dist

18、=(6-1)2+(4-2)2=29 C1-C2:dist=(4-1)2+(9-2)2=58其他五个结点选择与其最近的质心,三个簇分别为:B1,C2,B3,B2,A3C1,A2A1计算这三个簇的质心:B1,C2,B3,B2,A3的质心为:((8+5+7+6+4)/5,(4+8+5+4+9)/5)即(6,6);C1,A2的质心为:(2+1)/2,(5+2)/2)即为(1.5,3.5);A1的质心为(2,10)。(a)在第一次循环执行后的三个簇中心分别为(6,6),(1.5,3.5),(2,10)重新指派各个对象到离其最近的质心,与上面方面相同,形成的三个簇为A3,B1,B2,B3,C1,A2,A1

19、,C2三个簇的质心分别为(6.5,5.25),(1.5,3.5),(3,9.5);重新指派各个对象到离其最近的质心, 形成的三个簇为:A3,B2,B3C1,A2 A1,B1,C2三个簇的质心分别为:(7,4.3),(1.5,3.5),(3.67,9);重新指派各个对象到离其最近的质心, 形成的三个簇为: A3,B2,B3C1,A2 A1,B1,C2三个簇的质心分别为:(7,4.3),(1.5,3.5),(3.67,9);至此质心不发生变化;(b)最后三个簇即为A3,B2,B3C1,A2 A1,B1,C2;4 考虑下面的由Big-University的学生数据库挖掘的关联规则major(X,”s

20、cience”) Þ status(X,”undergrad”) (1) 假定学校的学生人数(即,任务相关的元组数)为5000,其中56%的在校本科生的专业是科学,64%的学生注册本科学位课程,70%的学生主修科学(science)。(a) 计算规则(1)的支持度和置信度。(b) 考虑下面的规则major(X,”biology”) Þ status(X,”undergrad”) 17%,80% (2)假定主攻科学的学生30%专业为biology。与规则(1)对比,你认为规则(2)新颖吗?解释你的结论。(1)对于形如“A B”的关联规则,支持度定义为support(A B)

21、= 包含A和B的元组数/元组总数;规则(1)的支持度计算如下:主修科学(science) 且未注册本科学位课程的学生人数为:5000*70%-5000*64%*56%=1708;元组总数为5000;支持度为:1708/5000=34.16%对于形如“A B”的关联规则,置信度定义为:confidence(A B)= 包含A和B的元组数/包含的A元组数 规则(1)的置信度计算如下: 主修科学(science) 且未注册本科学位课程的学生人数为:5000*70%-5000*64%*56%=1708;主修科学的人数为:5000*70%=3500 置信度为:1708/3500=48.8%(2)假定主攻

22、科学的学生30%专业为biology:我们可以猜测下面的规则major(X,”biology”) Þ status(X,”undergrad”)的支持度和置信度应为34.16%*30%=10.238%,48.8%,而题目中给出的major(X,”biology”) Þ status(X,”undergrad”)的支持度和置信度应为17%,80%,与我们由规则(1)推测出来的相差较大,所以规则(2)并不是冗余的,是新颖的。下表由雇员数据库的训练数据组成。数据已泛化。例如,年龄“3135”表示31到35的之间。对于给定的行,count表示department, status,

23、age和salary在该行上具有给定值的元组数。(老师给的大题第三题中文版)departmentstatusagesalarycountsalessalessalessystemssystemssystemssystemsmarketingmarketingsecretarysecretaryseniorjuniorjuniorjuniorseniorjuniorseniorseniorjuniorseniorjunior31.3526.3031.3521.2531.3526.3041.4536.4031.3546.5026.3046K.50K26K.30K31K.35K46K.50K66K.

24、70K46K.50K66K.70K46K.50K41K.45K36K.40K26K.30K3040402053310446设status是类标号属性。(a) 你将如何修改基本决策树算法,以便考虑每个广义数据元组 (即,每一行) 的count?基本的决策树算法应作如下修改,以考虑到每个广义数据元组(即,每一行) 的count: 每个元组的count必须综合考虑属性的选择测量计算(假如信息获取):考虑count来决定元组中最普遍的分类。(b) 使用你修改过的算法,构造给定数据的决策树。 (c)给定一个数据元组,它在属性department, age和salary上的值分别为“systems”, “

25、2630 ”和“4650K”。该元组status的朴素贝叶斯分类结果是什么?依题意,希望分类的元组为X=(department=systems,age=26-30,salary=46k-50k),我们需要最大化P X|Ci P Ci ,i=1,2。每个类的先验概率P Ci 可以根据训练元组计算: P(status=senior)=52/165=0.315 P(status=junior)=113/165=0.685 为了计算P X|Ci P Ci ,i=1,2,计算下面的条件概率 P(department=systems|status=senior)=8/52=0.154 P(departme

26、nt=systems|status=junior)=23/113=0.204 P(age=26-30|status=senior)=1/(52+6)=0.017 /使用拉普拉斯校准 P(status=26-30|status=junior)=49/113=0.434 P(salary=46k-50k|status=senior)=40/52=0.769 P(salary=46k-50k|status=junior)=23/113=0.204 使用上面的概率得到: P(X|status=senior) =P(department=systems|status=senior)*P(age=26-3

27、0|status=senior)*P(salary=46k-50k|status=senior) =0.154*0.017*0.769 =0.002 P(X|status=junior) =P(department=systems|status=junior)*P(age=26-30|status=junior)*P(salary=46k-50k|status=junior) =0.204*0.434*0.204 =0.018 为了发现最大化P X|Ci P Ci 的类,计算 P(X|status=senior)P(status=senior)=0.002*0.315=0.00063 P(X|

28、status=junior) P(status=junior)=0.018*0.685=0.01233 因此,对于元组X,朴素贝叶斯分类器预测元组X的类为status=junior。解一:设元组的各个属性之间相互独立,所以先求每个属性的类条件概率:P(systems|junior)=(20+3)/(40+40+20+3+4+6)=23/113;P(26-30|junior)=(40+3+6)/113=49/113;P(46K-50K|junior)=(20+3)/113=23/113; X=(department=system,age=2630,salary=46K50K); P(X|juni

29、or)=P(systems|junior)P(26-30|junior)P(46K-50K|junior)=23×49×23/1133=25921/1442897=0.01796;P(systems|senior)=(5+3)/(30+5+3+10+4)=23/52;P(26-30|senior)=(0)/53=0;P(46K-50K|senior)=(30+10)/52=40/52; X=(department=system,age=2630,salary=46K50K); P(X|senior)=P(systems|senior)P(26-30|senior)P(46K

30、-50K|senior)=0; P(junior)=113/165=0.68; P(senior)=52/165=0.32; P(X|junior)P(junior)=0.01796×0.68=0.0122128>0=0=P(X|senior)P(senior);所以:朴素贝叶斯分类器将 X 分到 junior 类。解二:设元组的各属性之间不独立,其联合概率不能写成份量相乘的形式。所以已知:X=(department=system,age=2630,salary=46K50K),元组总数为:30+40+40+20+5+3+3+10+4+4+6=165。先验概率:当 status

31、=senior 时,元组总数为:30+5+3+10+4=52,P(senior)=52/165=0.32; 当 status=junior 时 , 元 组 总 数 为 : 40+40+20+3+4+6=113 ,P(junior)=113/165=0.68;因为 status=senior 状态没有对应的 age=2630 区间,所以:P(X|senior)=0;因为 status=junior 状态对应的 partment=systems、age=2630 区间的总元组数为:3,所以:P(X|junior)=3/113;因为:P(X|junior)P(junior)=3/113×1

32、13/1650.018>0=P(X|senior)P(senior);所以:朴素贝叶斯分类器将 X 分到 junior 类。四、简答论述题三种规范化方法:(1)最小最大规范化(min-max规范化):对原始数据进行线性变换,将原始数据映射到一个指定的区间。 (2)z-score规范化(零均值规范化):将某组数据的值基于它的均值和标准差规范化,是其规范化后的均值为0方差为1。 ,其中 是均值, 是标准差(3)小数定标规范化:通过移动属性A的小数点位置进行规范化。 k-means聚类算法基本原理:将各个聚类子集内的所有数据样本的均值作为该聚类的代表点,算法的主要思想是通过迭代过程把数据划分为

33、不同的类别,使得评价聚集类性能的准则函数达到最优,从而使生成的每个聚集类的紧凑,类间独立。操作步骤:输入:数据集,其中的数据样本只包含描述属性,不包含类别属性。聚类个数K输出:(1)从数据集X中随机地选择k个数据样本作为聚类的出示代表点,每一个代表点表示一个类别(2)对于X中的任意数据样本xm(1<xm<total),计算它与k个初始代表点的距离,并且将它划分到距离最近的初始代表点所表示的类别中(3)完成数据样本的划分之后,对于每一个聚类,计算其中所有数据样本的均值,并且将其作为该聚类的新的代表点,由此得到k个均值代表点(4)对于X中的任意数据样本xm(1<xm<tot

34、al),计算它与k个均值代表点的距离,并且将它划分到距离最近的均值代表点所表示的类别中(5)重复3.4,直到各个聚类不再发生变化为止。即误差平方和准则函数的值达到最优1、数据仓库的组成?P2数据仓库数据库,数据抽取工具,元数据,访问工具,数据集市,数据仓库管理,信息发布系统2、数据挖掘技术对聚类分析的要求有哪几个方面?P131可伸缩性;处理不同类型属性的能力;发现任意形状聚类的能力;减小对先验知识和用户自定义参数的依赖性;处理噪声数据的能力;可解释性和实用性3、数据仓库在存储和管理方面的特点与关键技术?P7数据仓库面对的是大量数据的存储与管理并行处理针对决策支持查询的优化支持多维分析的查询模式

35、4、常见的聚类算法可以分为几类?P132基于划分的聚类算法,基于层次的聚类算法,基于密度的聚类算法,基于网格的聚类算法,基于模型的聚类算法 等。5、一个典型的数据仓库系统的组成?P12数据源、数据存储与管理、OLAP服务器、前端工具与应用6、数据仓库常见的存储优化方法?P71表的归并与簇文件;反向规范化,引入冗余;表的物理分割。7、数据仓库发展演变的5个阶段?P20以报表为主以分析为主以预测模型为主以运行向导为主以实时数据仓库、自动决策应用为主8、ID3算法主要存在的缺点?P116(1)ID3算法在选择根结点和各内部结点中的分枝属性时,使用信息增益作为评价标准。信息增益的缺点是倾向于选择取值较

36、多的属性,在有些情况下这类属性可能不会提供太多有价值的信息。(2)ID3算法只能对描述属性为离散型属性的数据集构造决策树。9、简述数据仓库ETL软件的主要功能和对产生数据的目标要求。P30ETL软件的主要功能:数据的抽取,数据的转换,数据的加载对产生数据的目标要求:详细的、历史的、规范化的、可理解的、即时的、质量可控制的10、简述分类器设计阶段包含的3个过程。划分数据集,分类器构造,分类器测试11、什么是数据清洗?数据清洗是一种使用模式识别和其他技术,在将原始数据转换和移到数据仓库之前来升级原始数据质量的技术。13、利用信息包图设计数据仓库概念模型需要确定的三方面内容。P57确定指标,确定维度

37、,确定类别14、K-近邻分类方法的操作步骤(包括算法的输入和输出)。P12815、什么是技术元数据,主要包含的内容?P29技术元数据是描述关于数据仓库技术细节的数据,应用于开发、管理和维护DW,包含:lDW结构的描述,如DW的模式、视图、维、层次结构和导出数据的定义,数据集市的位置和内容等l业务系统、DW和数据集市的体系结构和模式l汇总算法。包括度量和维定义算法,数据粒度、主题领域、聚合、汇总和预定义的查询和报告。l 由操作型业务环境到数据仓库业务环境的映射。包括源数据和他们的内容、数据分割、数据提取、清洗、转换规则和数据刷新规则及安全(用户授权和存取控制)16、业务元数据主要包含的内容?P2

38、9业务元数据:从业务角度描述了DW中的数据,提供了介于使用者和实际系统之间的语义层,主要包括:l使用者的业务属于所表达的数据模型、对象名和属性名l访问数据的原则和数据的来源l系统提供的分析方法及公式和报表的信息。18、数据从集结区加载到数据仓库中的主要方法?P36l SQL命令(如Insert或Update)l 由DW供应商或第三方提供专门的加载工具l 由DW管理员编写自定义程序19、多维数据模型中的基本概念:维,维类别,维属性,粒度P37l 维:人们观察数据的特定角度,是考虑问题的一类属性,如时间维或产品维l 维类别:也称维分层。即同一维度还可以存在细节程度不同的各个类别属性(如时间维包括年、季度、月等)l 维属性:是维的一个取值,是数据线在某维中位置的描述。l 粒度:DW中数据综合程度高低的一个衡量。粒度低

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论