数据仓库习题集_第1页
数据仓库习题集_第2页
数据仓库习题集_第3页
数据仓库习题集_第4页
数据仓库习题集_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、一、选择填空.数据仓库的特点分别是 面向主题、集成、相对稳定、反映历史变化。、 粒度是对数据仓库中数据的综合程度高低的一个衡量。粒度越小,细节程度越高, 综合程度越低,回答查询的种类越多。维度可以根据其变化快慢分为元变化维度、缓慢变化维度和剧烈变化维度三类。 连续型属性的数据样本之间的距离有欧氏距离、曼哈顿距离和明考斯基距离。 在数据挖掘的分析方法中,直接数据挖掘包括(ACD )A分类B关联C估值D预言数据仓库的数据ETL过程中,ETL软件的主要功能包括(ABC)A数据抽取B数据转换C数据加载D数据稽核数据分类的评价准则包括(ABCD )A精确度 B查全率和查准率 C F-Measure D几

2、何均值层次聚类方法包括(BC )A划分聚类方法B凝聚型层次聚类方法C分解型层次聚类方法D基于密度聚类方法贝叶斯网络由两部分组成,分别是(A D )A网络结构B先验概率 C后验概率 D条件概率表置信度(confidence)是衡量兴趣度度量(A )的指标。A、简洁性B、确定性C、实用性D、新颖杵关于OLAP和OLTP的区别描述,不正确的是:(C)A. OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同.B. 与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务.C. OLAP的特点在于事务量大,但事务内容比较简单且重复率高.D. OLAP是以数据仓库为基础的,但其

3、最终数据来源与OLTP 一样均來自底层的数 据库系统,两者面对的用户是相同的简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中, 这种聚类类型称作(B )A、层次聚类 B、划分聚类 C、非互斥聚类 D、模糊聚类 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C)A.频繁模式挖掘B.分类和预测C.数据预处理 D.数据流挖掘为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任 务? (B)A.探索性数据分析 B.建模描述C.预测建模D.寻找模式和规则6. 在数据挖掘的分析方法中,直接数据挖掘包括(ACD )A分类B关联C估值D预言7. 数据

4、仓库的数据ETL过程中,ETL软件的主要功能包括(ABC)A数据抽取B数据转换C数据加载D数据稽核8. 数据分类的评价准则包括(ABCD )A精确度 B查全率和查准率 C F-Measure D几何均值9. 层次聚类方法包括(BC )A划分聚类方法B凝聚型层次聚类方法C分解型层次聚类方法 D基于密 度聚类方法10. 贝叶斯网络由两部分组成,分别是(A D )A网络结构B先验概率 C后验概率D条件概率表二、判断题1. 数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数 据、预测数据等任务。(对)2. 数据挖掘的目标不在于数据采集策略,而在于对于己经存在的数据进行模式 的发掘。(对

5、)3.图挖掘技术在社会网络分析中扮演了重要的角色。(对)4. 模式为对数据集的全局性总结,它对整个测量空间的每一点做出描述;模型 则对变量变化空间的一个有限区域做出描述。(错)5. 寻找模式和规则主要是对数据进行干扰,使其符合某种规则以及模式。(错)6. 离群点可以是合法的数据对象或者值。(对)7. 离散属性总是具有有限个值。(错)8. 噪声和伪像是数据错误这一相同表述的两种叫法。(错)9. 用于分类的离散化方法之间的根本区别在于是否使用类信息。(对)10. 特征提取技术并不依赖于特定的领域。(错)11. 序列数据没有时间戳。(对)12. 定量属性可以是整数值或者是连续值。(对)13. 可视化

6、技术对于分析的数据类型通常不是专用性的。(错)14. DSS主要是基于数据仓库.联机数据分析和数据挖掘技术的应用。(对)15. OLAP技术侧重于把数据库中的数据进行分析、转换成辅助决策信息,是继 数据库技术发展之后迅猛发展起來的一种新技术。(对)16. 商业智能系统与一般交易系统之间在系统设计上的主要区别在于:后者把结 构强加于商务之上,一旦系统设计完毕,其程序和规则不会轻易改变;而前者则 是一个学习型系统,能自动适应商务不断变化的要求。(对)17. 数据仓库中间层OLAP服务器只能釆用关系型OLAP(错)18. 数据仓库系统的组成部分包括数据仓库,仓库管理,数据抽取,分析工具等 四个部分.

7、(错)19. Web数据挖掘是通过数据库仲的一些属性來预测另一个属性,它在验证用户提出的假设过程中提取信息.(错)21. 关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。(错)22. 利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数(对)。23. 先验原理可以表述为:如果一个项集是频繁的,那包含它的所有项集也是频 繁的。(错24. 如果规则不满足置信度阈值,则形如的规则一定也不满足置信度阈值,其 中是X的子集。(对)25. 具有较高的支持度的项集具有较高的置信度。(错)26. 聚类(clustering)是这样的过程:它找出描述并区分数据类或概念的模型 (或函数),以便能够

8、使用模型预测类标记未知的对象类。(错)27. 分类和回归都可用于预测,分类的输出是离散的类别值,而回归的输出是连 续数值。(对)28. 对于SVM分类算法,待分样本集中的大部分样本不是支持向量,移去或者减少这些样本对分类结果没有影响。(对)29. Bayes法是一种在己知后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。(错)30. 分类模型的误差大致分为两种:训练误差(training error )和泛化误差(generalization error).(对)31. 在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低, 但是检验误差开始

9、增大,这是出现了模型拟合不足的问题。(错)32. SVM是这样一个分类器,他寻找具有最小边缘的超平面,因此它也经常被称为最小边缘分类器(minimal margin classifier)(错)33. 在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。 (错)34. 聚类分析可以看作是一种非监督的分类。(对)35. K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地 确定。(错36. 给定由两次运行K均值产生的两个不同的簇集,误差的平方和最大的那个应 该被视为较优。(错)37. 基于邻近度的离群点检测方法不能处理具有不同密度区域的数据集。(对)38. 如果一个

10、对象不强属于任何簇,那么该对象是基于聚类的离群点。(对)39. 从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚 类方法。(错)40. DBSCAN是相对抗噪声的,并且能够处理任意形状和大小的簇。(对)三、计算题1. 一个食品连锁店每周的事务记录如下表所示,其中每一条事务表示在一项收款机业务中卖出的项目,假定supaia=40%, confain=40%,使用Apriori算法计算生成的关联规则,标明每趟数据库扫描时的候选集和大项目集。(15分)事务项目事务项目T1面包、果冻、花生酱T4啤酒、面包T2面包、花生酱T5啤酒、牛奶T3面包、牛奶、花生酱解:(1)由*面包、果冻、花

11、生酱、牛奶、啤酒的所有项目直接产生1-候选Cx,计算其支持度,取出支持度小于sum.的项集,形成1-频繁集L”如下表所包生奶酒 面花牛啤4/53/52/52/5面花牛啤 rjl rjl rjl rjl4/3/2/2/(2) 组合连接匚中的各项目,产生2-候选集计算其支持度,取出支持度小于sup钿的项集,形成2-频繁集如下表所示:项集G支持度项集L:支持度面包、花生酱3/5面包、花生酱3/5至此,所有频繁集都被找到,算法结束,所以,confidence (面包f 花生酱) = (4/5) / (3/5) =4/3 confBiconfidence ( 花生酱f 面包) = (3/5) / (4/

12、5) =3/4 confBi所以,关联规则面包一花生酱、花生酱一 面包均是强关联规则。2. 给定以下数据集(2 , 4, 10, 12, 15, 3, 21),进行K-Means聚类,设定聚 类数为2个,相似度按照欧式距离计算。(15分)解:(1)从数据集X中随机地选择k个数据样本作为聚类的出示代表点,每一个 代表点表示一个类别,由题可知22,则可设ml二2, m2二4:(2) 对于X中的任意数据样本xm ( lxmtotal ),计算它与k个初始代表点的 距离,并且将它划分到距离最近的初始代表点所表示的类别中:当ml二2时,样 本(2 , 4, 10, 12, 15, 3, 21)距离该代表

13、点的距离分别为2, 8, 10, 13, 1, 19o当m2二4时,样本(2 , 4, 10, 12, 15, 3, 21)距离该代表点的距离分别为-2, 6, 8, 11, -1, 17o最小距离是1或者-1将该元素放入ml=2的聚类中,则该聚类为(2, 3),另一 个聚类 m2二4 为(4, 10, 12, 15, 21)。(3) 完成数据样本的划分之后,对于每一个聚类,计算其中所有数据样本的均 值,并且将其作为该聚类的新的代表点,由此得到k个均值代表点:ml二2. 5, m212:(4) 对于X中的任意数据样本xm (lxmtotal),计算它与k个初始代表点的距离,并且将它划分到距离最

14、近的初始代表点所表示的类别中:当ml二2.5时, 样本(2 , 4, 10, 12, 15, 3, 21)距离该代表点的距离分别为-0.5, 0.5, 1.5,7. 5, 9. 5, 12. 5, 18. 5。当1112=12时,样本(2 , 4, 10, 12, 15, 3, 21)距离该代表点的距离分别为-10, -9, -8, 2, 3, 9o最小距离是1.5将该元素放入m 1=2.5的聚类中,则该聚类为(2, 3, 4),另一 个聚类 m2二 12 为(10, 12, 15, 21)。(5) 完成数据样本的划分之后,对于每一个聚类,计算其中所有数据样本的均 值,并且将其作为该聚类的新的

15、代表点,由此得到k个均值代表点:ml二3, m2二14. 5:(6) 对于X中的任意数据样本xm ( lxm status (X, ” undergrad )( 1)假定学校的学生人数(即,任务相关的元组数)为5000,其中56%的在校本科生 的专业是科学,64%的学生注册本科学位课程,70%的学生主修科学(science) o(a) 计算规则(1)的支持度和置信度。(b) 考虑下面的规则major (X, biology”)= status (X, undergrad”) 17%, 80%(2)假定主攻科学的学生30%专业为biologyo与规则(1)对比,你认为规则(2)新颖 吗?解释你的

16、结论。(1) 对于形如“A = B”的关联规则,支持度定义为support (A B)=包含A 和B的元组数/元组总数;规则(1)的支持度计算如下: 主修科学(science)且未注册本科学位课程的学生人数为: 5000*70%-5000*64%*56%=1708;元组总数为 5000:支持度为:1708/5000=34. 16%对于形如“A = B”的关联规则,置信度定义为:confidence (A B)=包含A 和B的元组数/包含的A元组数规则(1)的置信度计算如下:主修科学(science)且未注册本科学位课程的学生人数为: 5000*70%-5000*64%*56%=1708;主修科

17、学的人数为:5000*70%二3500置信度为:1708/3500二48. 8%(2) 假定主攻科学的学生30%专业为biology:我们可以猜测下面的规则 major (X, ” biology” ) = status (X, ” undergrad)的支持度和置信度应为 34. 16%*30%=10. 238%, 48. 8% ,而题目中给出的 major (X, w biology w ) status (X, ” undergradM )的支持度和置信度应为17%, 80%,与我们由规则(1) 推测出來的相差较大,所以规则(2)并不是冗余的,是新颖的。下表由雇员数据库的训练数据组成。数

18、据己泛化。例如,年龄“31-35”表示 31到35的之间。对于给定的行,coun广表示departmen t, s ta tus, age和salary 在该行上具有给定值的元组数。(老师给的大题第三题中文版)depart men t status age salary countsalessenior31.3546K.50Ksalesjunior26.3026K.30Ksalesjunior31.3531K.35Ksystemsjunior21.2546K.50Ksystemssenior31.3566K.70Ksystemsjunior26.3046K.50Ksystemssenior41

19、.4566K.70Kmarketingsenior36.4046K.50Kmarketingjunior31.3541K.45Ksecretarysenior46.5036K.40Ksecretaryjunior26.3026K.30K3040402053310446设status是类标号属性。(a)你将如何修改基本决策树算法,以便考虑每个广义数据元组(即,每 一行)的 counts基本的决策树算法应作如下修改,以考虑到每个广义数据元组(即,每一行)的 count:每个元组的count必须综合考虑属性的选择测量计算(假如信息获 取):1分析,类标号属性比ms有两个不同值(即seniorjuni

20、or),因此有两个不同的类(即m=2)设类6对应于senior,而类C?对应于junior丿类senior有30+5+3+10+4=52个 元组,类junior有 40+40+20-3+4+6=113个元组。共有165个数据元幼L2 使用Info(D)= -工血RlogzR,计算对D中元组分类所需的期望信息;5252113113/5252113113、皿。9)= 一话吨2面-话1昭2而=(-面1昭吊-吊应预卜吨2 = 0.8993分别计算属性department .age和salary的期望信息需求1) departmentdepartmentsales110senior30junior80s

21、ystems31senior8junior23marketing14senior10junior4secretary10senior4junior6InfOdep (d)1103016SV 1103080log 7-110 11080 31 (8S幻页丿+吊(药.8 2323log 9log 2231 3123114+辰4466、w10g2TF-w10g2wJ(101044 10L百喀2百-应】。刘打+辰=0.5636+ 0.1548+ 0.0732 + 0.0588=0.850 位Gain (dep) = Info(D)一 Infodep(D)= 0.899 - 0.850 = 0.049

22、位2) ageage31-3579senior35junior4426-3049senior0junior4921-2520senior0junior2041-153senior3junior036-4010senior10junior016-504senior4junior0Info巒(D)79 ( 35354444跖(一祠叱齐一刃Og2齐丿49 /004949+盂(一石】g2扁一石】g2茹丿20+ 16510+ 165/0020203/ 3300C药碣药-药嗨2药)+百(-評g2 3 -亍1昭2 R/101000 4/ 4400C IFlog2w wlog2 W.) + 百 Cilog2

23、J - Jlog2J)=0.4743 + 0 + 0 + 0+ 0 + 03) salary=0.474salary46k-50k63senior40junior2326k-30k16senior0junior4631k-35k10senior0junior4066k-70k8senior8junior041k-45k1senior0junior436k-40k4senior4junior0Gain (age) = Info(D) Infoage (D) = 0.899 0.474 = 0.425 位Info血(D)46+ 16540/0040408 f 880 Ox= 0.36:15+0+0

24、 + 0+0+0=0.362Gain(age) = Info(D) - Info巒(D) = 0.899 一 0.362 = 0.537 位 考虑count來决定元组中最普遍的分类。(b)使用你修改过的算法,构造给定数据的决策树。4.由J sMiry在属性中具有最高信息壇益,因此敲选作分裂属性。节点N用sakwv标记.并对J旬个属杵值牛K岀一个分支。然厉元组据此划分.如图所示。salary? 226k30k31k-35k36k40k “41k-45k46k-SOf66k-70k-departraenTagesalarystatussales31-3546k-50kseniorsvstems21

25、-2546k-50kjuniorsvstems26-3046k-50kjuniormarketing36-4046k-50kseniorThe resulcing iree is:(salary = 26K.3OK:juii ior=31K.35K:juji ior=36K 40K:Min ior= 41K45K:junior WK.50K (depajtintut swretary;junior=saIcs:senior=sysi-ems:junior二 niarkcting:senior=66K.70K:g(c) 给定一个数据元组,它在属性department, &ge和salary上的值

26、分别为 “systems ,“2630 ”和“4650K”。该元组status的朴素贝叶斯分类结果是什么?依题意,希望分类的元组为X二(department二systems, age二26-30, salary二46k-50k),我们需要最大化P X | Ci P Ci ,i=l,2o每个类的先验概率P Ci可以根据训练元组计算:P(status二senior)二52/165二0.315P(status=junior)=113/165=0. 685为了计算P X|Ci P Ci ,i二1,2,计算下面的条件概率P(department二systems status二senior)=8/52=0

27、 154P(department二systems status二junior)=23/113=0. 204P(age二26-30 status=senior) =1/(52+6) =0. 017 /使用拉普拉斯校准P(status二26-30|statusjunior)=49/113=0.434P(salary=46k-50k|status二senior)=40/52二0.769P(salary=46k-50k|status二junior)=23/113=0. 204使用上面的概率得到:P (X status二senior)=P(department二systems status二senior

28、)*P(age=26-30 status二senior)*P(sal ary二46k-50k|status二senior) =0. 154*0. 017*0. 769 =0. 002P(X status二junior)=P(department二systems status二junior)*P (age=26-30 status二junior)*P(sal ary=46k-50k|statusjunior) =0. 204*0. 434*0. 204 二0. 018为了发现最大化P X|Ci P Ci的类,计算P(X|status二senior)P(status二senior)二0. 002*

29、0. 315=0. 00063P(X|status二junior) P(status二junior)二0 018*0. 685=0. 01233因此,对于元组X,朴素贝叶斯分类器预测元组X的类为status-junioro解一:设元组的各个属性之间相互独立,所以先求每个属性的类条件概率:P (systems|junior) = (20+3)/(40+40+20+3+4+6)=23/113;P (26-301junior) = (40+3+6)/113=49/113;P(46K-50K|junior) = (20+3)/113=23/113: X= (department二system, age

30、二2630, salary二46K50K);P (X | junior) =P (systems | junior) P (26-301 junior) P (46K-50K junior)二23X49X23/1133二25921/1442897二0.01796;P (systems|senior) = (5+3)/(30+5+3+10+4)=23/52;P(26-30|senior)=(0)/53=0;P(46K-50K|senior)=(30+10)/52=40/52; X= (department二system, age二2630, salary二46K50K);I P(X|senior

31、)=P(systems|senior)P(26-30|senior)P(46K-50K senior)=0;I P (junior)=113/165=0. 68;I P(senior)=52/165=0. 32;P (X | junior) P (junior) =0.01796X0. 68=0. 01221280=0=P(X|senior)P(senior);所以:朴素贝叶斯分类器将X分到junior类。解二:设元组的各属性之间不独立,其联合概率不能写成份量相乘的誓式。 所以己知:X= (department二system, age二26八30, salary二46K50K),元组总数 为:

32、30+40+40+20+5+3+3+10+4+4+6二165。先验概率:当 status二senior 时,元组总数为:30+5+3+10+4二52, P(senior) =52/165=0. 32;当 status二junior 时,元组总数为:40+40+20+3+4+6二113 ,P(junior)=113/165=0. 68;因为status=senior状态没有对应的age二2630区间,所以:P (X | senior) =0; 因为 status二junior 状态对应的 partment二systems、age=26,30 区间的总元 组数为:3,所以:P(X| junior)

33、 =3/113;因 为 : P(X|junior)P(junior)=3/113X 113/165=0. 0180=P(X senior)P(senior);所以:朴素贝叶斯分类器将X分到junior类。四、简答论述题三种规范化方法:(1)最小一最大规范化(min-max规范化):对原始数据进行线性变换,将原始 数据映射到一个指定的区间。(2)z-score规范化(零均值规范化):将某组数据的值基于它的均值和标准差 规范化,是其规范化后的均值为0方差为1。,其中是均值,是标准差(3)小数定标规范化:通过移动属性A的小数点位置进行规范化。k-means聚类算法基本原理:将各个聚类子集内的所有数据

34、样本的均值作为该聚 类的代表点,算法的主要思想是通过迭代过程把数据划分为不同的类别,使得评 价聚集类性能的准则函数达到最优,从而使生成的每个聚集类的紧凑,类间独立。 操作步骤:输入:数据集,其中的数据样本只包含描述属性,不包含类别属性。聚类个数K 输出:(1)从数据集X中随机地选择k个数据样本作为聚类的出示代表点,每一个代 表点表示一个类别(2)对于X中的任意数据样本xm ( lxmtotal ),计算它与k个初始代表点的 距离,并且将它划分到距离最近的初始代表点所表示的类别中(3)完成数据样本的划分之后,对于每一个聚类,计算其中所有数据样本的均 值,并且将其作为该聚类的新的代表点,由此得到k

35、个均值代表点(4)对于X中的任意数据样本xm ( lxm什么是数据清洗?数据清洗是一种使用模式识别和其他技术,在将原始数据转换和移到数据仓库之 前來升级原始数据质量的技术。13、利用信息包图设计数据仓库概念模型需要确定的三方面内容。P57确定指标,确定维度,确定类别14、K-近邻分类方法的操作步骤(包括算法的输入和输出)。P128输入:训练集血,未知美标号的数据X=(X1,X:#,J X|)B d输出:未知类标号的数据样本油类标号,(1)对于飙类标号的数据样本X,按照下式计算它驯练集沐中每-个数据样本的欧氏距齊:dd(劇卜*仅厂陶几 i=l, 2, , totals(2)将第步中師甑氏距离按照

36、由小到大的顺序进行挂序,并且取前k 価,从而找出x在也中的k个近徽假设pb旳:p.分别是k个近 绻中風于类别eg“的祥本数氫*(3)如果p疔晋xp尹冋2,,则训类标号为c“即xEcq。15、什么是技术元数据,主要包含的内容? P29技术元数据是描述关于数据仓库技术细节的数据,应用于开发、管理和维护 DW,包含:DW结构的描述,如DW的模式、视图、维、层次结构和导出数据的定义,数据 集市的位置和内容等业务系统、DW和数据集市的体系结构和模式汇总算法。包括度量和维定义算法,数据粒度、主题领域、聚合、汇总和预 定义的查询和报告。由操作型业务环境到数据仓库业务环境的映射。包括源数据和他们的内容、 数据

37、分割、数据提取、清洗、转换规则和数据刷新规则及安全(用户授权和存取 控制)16、业务元数据主要包含的内容? P29业务元数据:从业务角度描述了 DW中的数据,提供了介于使用者和实际系 统之间的语义层,主要包括:使用者的业务属于所表达的数据模型、对象名和属性名访问数据的原则和数据的來源系统提供的分析方法及公式和报表的信息。18、数据从集结区加载到数据仓库中的主要方法? P36 SQL 命令(女口 Insert 或 Update)由DW供应商或第三方提供专门的加载工具由DW管理员编写自定义程序19、多维数据模型中的基本概念:维,维类别,维属性,粒度P37 维:人们观察数据的特定角度,是考虑问题的一类属性,如时间 维或产品维维类别:也称维分层。即同一维度还可以存在细节程度不同的各个 类别属性(如时间维包括年、季度、月等)维属性:是维的一个取值,是数据线在某维中位置的描述。粒度:DW中数据综合程度高低的一个衡量。粒度低,细节程度高, 回答查询的种类多20、Apriori算法的基

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论