




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1.4 数据仓库和数据库有何不同?有哪些相似之处? 答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持 管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向 操作型的数据库,是组成数据仓库的源数据。它用表组织数据,采用 ER 数据模型。相似:它们都为数据挖掘提供了源数据,都是数据的组合。1.3 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。使用你熟 悉的现实生活的数据库,给出每种数据挖掘功能的例子。答:特征化 是一个目标类数据的一般特性或特性的汇总。例如,学生的特征可被提出,形成所有 大学的计算机科学专业一
2、年级学生的轮廓, 这些特征包括作为一种高的年级平均成绩 (GPA:Grade point aversge) 的信息, 还有所修的课程的最大数量。区分 是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。例如, 具有高 GPA 的学生的一般特性可被用来与具有低 GPA 的一般特性比较。最终的描述可能是学生的 一个一般可比较的轮廓, 就像具有高 GPA 的学生的 75%是四年级计算机科学专业的学生, 而具有低 GPA 的学生的 65%不是。关联 是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。例如, 一个数据挖掘系统可能发现的关联规则为: major(X,
3、“ computing science ” ) ? owns(X, “ personal computer ” )support=12%, confidence=98% 其中, X 是一个表示学生的变量。这个规则指出正在学习的学 生, 12%(支持度)主修计算机科学并且拥有一台个人计算机。这个组一个学生拥有一台个人电脑的概率 是98%(置信度,或确定度)。分类与预测 不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功 能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的相似性 是他们都是预测的工具: 分类被用作预测目标数据的类的标签,而预测典型的应
4、用是预测缺失的数字型数据的值。聚类分析 的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相似性、最小化类之间 的相似性的原则进行聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织 形式,将观测组织成类分层结构,把类似的事件组织在一起。数据演变分析 描述和模型化随时间变化的对象的规律或趋势,尽管这可能包括时间相关数据 的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括时间序列数据分析、 序列或周期模式匹配、和基于相似性的数据分析2.3 假设给定的数据集的值已经分组为区间。区间和对应的频率如下。年龄 频率1520051545015203002050150050
5、807008011044计算数据的近似中位数值。解答: 先判定中位数区间: N=200+450+300+1500+700+44=3194; N/2=1597/ 200+450+300=950<1597<2450=950+1500 ; 2050对应中位数区间。式(23):fnedtan = £ +5/2-0小n idth - 20 +3197/2-9501500x 30 = 32.97/ media n=32.97 岁。2.219,52,假定用于分析的数据包含属性age。数据元组的age值(以递增序)是:13,15,16,16,20,20,21,22,22,25,25,25
6、,25,30,33,33,35,35,35,35,36,40,45,46, 70。答:(a)该数据的均值是什么?中位数是什么? 均值=(13+15+16+16+19+20+20+21+22+22+25+25+25+25+30+33+33+35+35+35+35+36+40+45+46+52+70)/ 27=29.96丘=二工兀=迪Z 27 = 29 96 “° (公式和儿Np中位数应是第14个,即x14=25=Q2。该数据的众数是什么?讨论数据的峰(即双峰、三峰等)。这个数集的众数有两个:25和35,发生在同样最高的频率处,因此是双峰众数。 数据的中列数是什么?数据的中列数是最大数和
7、最小数的均值。即: 你能(粗略地)找出数据的第一个四分位数( 数据集的第一个四分位数应发生在而第三个四分位数应发生在 75%处,即在3X (N+1)/4=21 处。所以:Q3=35(e) 给出数据的五数概括。一个数据集的分布的5数概括由最小值、第一个四分位数、中位数、第三个四分位数、和最 大值构成。它给出了分布形状良好的汇总+并且这些数据是:13、20、25、35、70。(f) 画出数据的盒图。(b)(c)(d)midra nge=(70+13)/2=41.5 。Q1)和第三个四分位数(Q3吗?25%处,即在(N+1)/4=(27+1) /4=7 处。所以:Ql=20。(g)分位数一分位数图与
8、分位数图的不同之处是什么?分位数图是一种用来展示数据值低于或等于在一个单变量分布中独立的变量的粗略百分比。这样,他可以展示所有数的分位数信息,而为独立变量测得的值(纵轴)相对于它们的分位数(横轴)被描绘出来。但分位数一分位数图用纵轴表示一种单变量分布的分位数,用横轴表示另一单变量分布的分位数。两个坐标轴显示它们的测量值相应分布的值域,且点按照两种分布分位数值展示。一条线(y=x)可画到图中+以增加图像的信息。落在该线以上的点表示在y轴上显示的值的分布比x轴的相应的等同分位数对应的值的分布高。反之,对落在该线以下的点则低。2.4假设医院检测随机选择的18个成年人年龄和身体脂肪数据,得到如下结果:
9、232327273941474950%fatP 9.5P 26.5P 7.817.831-425.927,427,23L2咻525454565758586061%fat.34.642.5茨.833.430.234.132.941,235J(a) 计算年龄和脂肪百分比的均值、中位数和标准差年龄均值=(23+23+27+27+39+41+47+49+50+52+54+54+56+57+58+58+60+61)/18=836/18=46.44,中位数=(50+52)/2=51,标准差=方差的平方根=开根号(1/n刀(Xi) 2-1/n(刀Xi) 2)=开根号1/182970.44=12. 85.脂肪
10、百分比均值=28. 78,中位数=30.7,标准差=8.99.(b) 绘制年龄和脂肪百分比的盒图5320I&AU(c)根据这两个属性,绘制散布图,各q-q图KatterpMQC散布图q-q(d)根据 z-score232327273941474950-L83-LS3-1.51-L51-0.58-0420.040.200.28% fat9*526.57,817.831.425.927427.23L2-214-0.25-2.:U-1+220.29-0,32-045-0.180,27525454565758586061zaqe0.430.590.590.740.820.900.901.061
11、.13%fat3丄642.52&833.430.234432.941.235,7z- %fatG.G51.53O.U&51().16(J. 59().461.380.77图规范化来规范化这两个属性(P46)(e)计算相关系数(皮尔逊积矩系数).这两个变量是正相关还是负相关?r 步刀(ai-A)(b i-B)/N<ra <tb=(刀(aib)-NAB ) /N<ra<tb=(刀(a i bi )-18*46.44*28. 78)/18*12 .85*8.99=0.82相关系数是0.82。变量呈正相关。3.3 使用习题2.4给出的age数据回答下列问题:3。
12、解释你的步骤。评述对于给(a) 使用分箱均值光滑对以上数据进行光滑,箱的深度为 定的数据,该技术的效果。(b) 如何确定数据中的离群点?(c) 对于数据光滑,还有哪些其他方法?解答:(a) 使用分箱均值光滑对以上数据进行光滑,箱的深度为3。解释你的步骤。评述对于给定的数据,该技术的效果。用箱深度为3的分箱均值光滑对以上数据进行光滑需要以下步骤:步骤1对数据排序。(因为数据已被排序,所以此时不需要该步骤。)步骤2:将数据划分到大小为 3的等频箱中。箱 1 : 13, 15, 16箱 4: 22, 25, 25箱 7: 35, 35, 35箱 2: 16, 19, 20箱 5: 25, 25, 3
13、0箱 & 36, 40, 45箱3:箱6:箱9:20, 21, 2233, 33, 3546, 52, 70步骤3:计算每个等频箱的算数均值。步骤4:用各箱计算出的算数均值替换每箱中的每个值。箱1:44/3 , 44/3 , 44/3箱 2 : 55/3 , 55/3 ,55/3箱3:21, 21 , 21箱4:24, 24, 24箱 5: 80/3, 80/3 , 80/3箱 6 :101/3101/3 , 101/3箱7:35, 35, 35箱 8: 121/3 , 121/3,121/3箱9:56, 56, 56(b) 如何确定数据中的离群点?聚类的方法可用来将相似的点分成组或“
14、簇”,并检测离群点。落到簇的集外的值可以被视为离群点。作为选择,一种人机结合的检测可被采用,而计算机用一种事先决定的数据分布来区 分可能的离群点。这些可能的离群点能被用人工轻松的检验,而不必检查整个数据集。(c) 对于数据光滑,还有哪些其他方法?其它可用来数据光滑的方法包括别的分箱光滑方法,如中位数光滑和箱边界光滑。作为选择,等宽箱可被用来执行任何分箱方式,其中每个箱中的数据范围均是常量。除了分箱方法外,可以 使用回归技术拟合成函数来光滑数据,如通过线性或多线性回归。分类技术也能被用来对概念分 层,这是通过将低级概念上卷到高级概念来光滑数据。3.5如下规范化方法的值域是什么?答:(a) mi
15、n-max 规范化。值域是new_min, new_max。(b) z-score规范化。值域是(old_min mean)/, (old_max mean)/,总的来说,对于所有可能的数据集的值域是(一 OO, +8 )。(c) 小数定标规范化。值域是(1.0,1.0)。3.7 使用习题2.4给岀的age数据,回答以下问题:(a) 使用min-max 规范化将 age值35变换到0.0 , 1.0区间。(b) 使用z-score规范化变换 age值35,其中age的标准差为 12.94岁。(c) 使用小数定标规范化变换age值35。(d) 对于给定的数据,你愿意使用哪种方法?陈述你的理由。解
16、答:(a)使用min-max规范化将age值35变换到00 L0区间.丁max-70T new_iiiin=0.0new_max=1.0T fil a 5 Tv - miti - v:(fJCM max (-)+ max 4 miti 电35-1370-13(1.0-0.0)+0,0 = 03860(b)便川z-score规范化变换age值35.其中age的栋准芒为12 94趴一 13 + 15 + 2x16 + 19 + 2x20 + 21 + 2x22 + 4x25A 2730+2x33 + 4x35 + 36 + 40+45 + 46 + 52 + 70H27809=29.963MB1
17、f5 =后=12-7002ZU-)L或衬二列_;二 167.4986,片二 加=12.9421N'、=3535-29,9635.037=0.3966 弋 0.40012.700212.7002= 0.3S92 走 0.39r h v-A35-29.9635.037mV r =J “12.942112.9421(c)使用小数定标!贮览化变换age值35.v 3勺由于最大的绝对值为e所y =而=丽“跖3.9假设12个销售价格记录组已经排序如下:5 , 10, 11, 13, 15, 35,50, 55, 72 , 92 , 204, 215。使用如下每种方法将其划分成三个箱。(a) 等频(
18、等深)划分。(b) 等宽划分。(c) 聚类。解答:(a) 等频(等深)划分。bi n15,10,11,13bi n115,35,50,55bin172,91,204,215(b) 等宽划分。第3章数据仓库与OLAF技术概述每个区间的宽度是:(215-5)/3=70bi n15,10,11,13,15,35,50,55,72bi n191bi n1204,215(c) 聚类。我们可以使用一种简单的聚类技术:用2个最大的间隙将数据分成3个箱。bi n15,10,11,13,15bi n135,50,55,72,91bi n1204,2153.11使用习题2.4给岀的age数据,(a) 画岀一个等宽
19、为10的等宽直方图;(b) 为如下每种抽样技术勾画例子:SRSWOR , SRSWR,聚类抽样,分 层抽样。使用大小为 5的样本和层“青年”,“中年”和“老年”。解答:(a)画岀一个等宽为10的等宽直方图;152535455565876543210(b) 为如下每种抽样技术勾画例子:SRSWOR , SRSWR,聚类抽样,分层抽样。使用大小为 5的样本和层“青年”,“中年”和“老年”。元组:T113T1022T 1935T215T1125T 2035T316T1225T 2135T416325T2236T519T1425T 2340T620T1530T2445T720T1633T2546T82
20、1T1733T 2652第3章数据仓库与OLAF技术概述T922T1835T 2770SRSWOR和SRSWR :不是同次的随机抽样结果可以不同,但前者因无放回所以不能有相同的元组。SRSWOR(n=5)SRSWR(n=5)T416T720T620T720T1022T2035T1125T2135T 2652T2546聚类抽样:设起始聚类共有 6类,可抽其中的 m类。Sample1Sample2Sample3Sample4Sample5Sample6T113T620T1125T1633T 2135T2652T215T720T1225T1733T 2236T2770T316T821T1325T18
21、35T 2340T416T922T1425T1935T 2445T519T1022T1530T2035T2546Sample2 Sample5T620T 2135T720T 2236T821T 2340T922T 2445T1022T2546T113youngT1022youngT1935middle ageT215youngT1125youngT 2035middle ageT316youngT1225youngT 2135middle ageT416youngT1325youngT 2236middle ageT519youngT1425youngT 2340middle ageT620y
22、oungT1530middle ageT 2445middle ageT720youngT1633middle ageT2546middle ageT821youngT1733middle ageT 2652middle ageT922youngT1835middle ageT2770seniorT416youngT1225young第3章数据仓库与OLAF技术概述T1733middle ageT2546middle ageT2770Se nior4.3假定数据仓库包含三维:time,doctor 和patient; 和两个度量:count和charge;其中,charge是医生对病人一次诊治
23、的收费。(a) 列举三种流行的数据仓库建模模式答:三类模式一般用于建模数据仓库架构的星形模型,雪花模型和事实星座模型。(b) 使用 列举的模式之一,画出上面的数据仓库的模式图limedoctordlmeuslon table(act tableditnensLon数据仓库的星形模型(C)由基本方体day,doctor,patient 开始,为列出2004年每位医生的收费总数, 哪些OLA操作?沿课程(course )维从course_id "上卷”到department。沿时间(time)维从day "上卷”到 year。应当执行取time=2004,对维 time作&qu
24、ot;切片” 操作沿病人(patient)维从个别病人"上卷”到 全部病人。(d)为得到同样结果,写一个 SQ查询。假定数据存放在关系数据库中,其模式为fee(day, month,year,doctor, hospital, patient, count, charge)。答:SQL查询语句如下:select doctor, SUM(charge) from feewhere year=2004group by doctor4.4假定Big Un iversity的数据仓库包含如下4个维:stude nt(stude nt_n ame,area_id , departme nt)
25、和口 avg_grademajor,status,uni versity),semester(semester, year)和 instructor(dept, rank) ; 2 在最低概念层,度量avg_grade存放学生的实际course(course_ name, 个度量:count 课程成绩。在较高概念层,avg_grade存放给定组合的平均成绩。(a)为该数据仓库画出雪花形模式图(b) 由基 本方体student,course, semester,instructor开始,为歹列岀BigUniversity 每个学生的CS课程的平均成绩,应当使用哪些特殊的OLAP操作。第3章数据仓
26、库与OLAF技术概述(c)如果每维有 5 层(包括 all)女口 “ student<major<status<universityvall ” 该 立方体包含多少方体?解答:a)为该数据仓库画岀雪花形模式图。雪花模式如图所示。coujseunivstudent维表宜实表錐衷b)由基本方体student, course, semester, instructor 开始,为列岀BigU niversity每个学生的 CS课程的平均成绩,应当使用哪些特殊的OLAP操作。这些特殊的联机分析处理( OLAP )操作有:i. 沿课程(course)维从 course_id "
27、上卷”至U department。ii. 沿学生(student)维从 student_id "上卷”至U university。iii. 取 department= “ CS ” 和 university= “ Big University ” 沿课程(course)维和学生(student)维切片。iv. 沿学生(student)维从 university 下钻至U student_name。c)如果每维有 5 层(包括 all 如 studentvmajorvstatus<universityvall”该立方体包含多少方体?这个立方体将包含54=625个方体。4.5 假定
28、数据仓库包含4维:date, spectator, location,和game,和两个度量:count和charge;其中,charge 是观众在给定的日期观看节目的付费。观众可以是学生、成年人或老年人,每类观众有不同的收费标准。(a)画出该数据仓库的星形模式图。答:星形模式图如下:datedimension 锻Spectator dimeusiou tnbledare iddateiddayspectaror idnionrh/aameidquanei/locatioiiidCOLU1T/cliaigefact tablegame<limeusian tablelocatfoii d
29、jmemioti tableiidpbcnic=Rtr亡曰 citypioincegajiie ia game desciiptipn producerb.由基本方体date, spectator, location,game开始,为列出2004年学生观众在 GM_Place的总付费,应执 行的OLAF操作:沿时间(date)维从date_id "上卷”到year。沿时间(game维从game_id "上卷”到全部。沿时间(location )维从 location_id"上卷”至U location _name。沿时间(spectator )维从 spectat
30、or_id"上卷”至U status 。以 status="students" , location name="GM Place" and year=2004 作转轴操作4.6数据仓库可以用星形模式或雪花模式建模。简略讨论这两种模式的相似点和不同点,然后分析它们的相 对做优、缺点。哪种模式更实用,给出你观点并陈述你的理由。答:星形模式或雪花模式的相似点是它们包含一个事实表和一些维表。它们主要的不同在于,雪花模式的维表可能是规范化形式,以便减少了冗余,这种表易于维护并节省存储空间。然而,与巨大的事实表相比, 这种空间的节省可以忽略。此外,由于执
31、行查询需要更多的连接操作,雪花形结构可能降低浏览的性能,这 样,系统的性能可能相对的受到影响。星型模式的优点是简单、这使得它更有效,但它需要更多的空间。因 此,只要空间的要求不是太大时,星形模式比雪花模式更好,因为通常效率比空间具有更高的优先级。在工 业上,有时可能将数据从一个雪花模式非规范化为星型模式以加快处理速度,另一种选择是保持雪花模式的 维表,然后相同数据的当前用户折叠为星形。4.9解答:(町根拥计算数据立方体所用的黨集函数亍列出度量的三种类型.二:种度量分削是:分布式度址、代数AfffS.整体式厘址=fb)对于 ilh 3 mirue-lociiioii和pnxtu已曲数珀匕忙 馬也
32、variants £ 差属于聯一类?如果该立方体分割诚一些块,描述如何计算它.提示:计算 variance数的冬式是;££底-丘尸1其中.亍是这些站的平均値.N TZT!' I灯variance -E数的i耳处式M:叉由于:lyxy因此方差畐数町表示为:所乩方差臥数是代数足爭、帕采立占休町以械分成许茅大块*方彗町以用 如下庁法讣算:逐亍渎取大块屮的毎一吓数据,保留甘累忧如i下聚集(1)兀组的数址:P)(好)的和:(3)勒的和。读完所有的块以后*将兀组的®SN.(訪的和5的和帯入.就町应用上述公式得利方variaiKe.(c)假定函戳是-最高的10
33、个销讨论如何在数据立方体里有效的计 件该度址.(1)对每个立方休初始时先用10个存储单兀存储住意选宦的10个«««: 将这10个存储职元屮的销售麵由大到爪排序;(3)在文方体中读一个元组*如果该元姐中的销倍颤丈于10个中最小销吿 额,就用为前悄穆额替换晟小销售额.(4)晅复(2)、直到读遍上方林中所右的兀給后停心4.11解答:(a) 简姜描述每种实现技术.关系联机分析处理14术(ROLAP)是中间很务器.璋用于执存零维视图任 务,介于关系的后端服务器和客户前端1具之间.使用关系的或扩充关系的 DBMS玄彌幷管理数撫仓库ihJ OLAP中间件支持具余部分。多堆联机分
34、析处理服齐器4MOLAP,生展于数纽的#址存毗引擎支忖数据 的卷维式用.将多维视图克接映射到散抵立方休故組結构.遲合啜机分折处理肥込稔IHOLAP)结合ROLAP和MOLAP技札 传 益十ROL.AP絞大的可仲缩性和MOL.AP的快連计算.HOLAP允许褂犬址的讦 细数据存啟在关系数据库中.抽聚集探持在分离的MOLAP存储中.(b) 对每神技术,楙韩如下函数如何实J右L数抓仓碟的产主(包括集集人ROLAP?茉用一卜OLAP載务器.数搽仓博的产生町旦由一亍愷用汉总实事表的关系型或扩展的关系型数据库管理系统(DBMS)实现,这个实事表可以存倩绘定立方休的聚集由给定技霜亶方体的模式连接鍵希出的抽象级
35、中的数撫MOLAP:为产生一个数掘仓吓.MOLAP技术使用名唯数爼箱构來盘储数据和冬路散级集集束计算数据芷方体口HOLAP: HOLAP技术的特色是应用一个关系数盘PF来存1®数据利一些 低/次的聚集,序且痕用一个MOL.AP来件储高圧次的聚卑.it上卷.ROLAP:沿一律用茫总的实事表上雜我们在包含期望维的一个眨化的表中寻找记就.例如 从日到月上卷数据维.其中选择那些包含所有特心他的二间的日期的记禾记录屮给址的测疑域的血 例如以疋兀计的 销啻屋.将会包律用于期玺的上卷的部分和MOLAP*在数据左弓休中灵i 丁上蔭.为育和期舉的络底接萃爬到相阮的概念层.例如沿着地点维从城市上卷的国家
36、、得到更眨化的數据.HOLAP: ft用HOLAP抄术逬h上巻的方池将会与ROLAP或MOLNP 相从 主姿体现在依靠在相強维的执和屮所使闪的技术®iii.下钻*ROLAP:我们他用汇总的爭实表沿杲 维下钻,是为J找表中的记录.这个表包舍対期望维时一个泛化。例如.沿地点维从国家到省或者州下 钻.选杆手槪念圧能晨te区域的记尿.即苗包儈所有持宦位的地点.在这神怙况下.城巾域可褲包含所有的他匚这个记录中洽定的测号域的ffl 应会包脅T估所期翟«到求和.例如dollar口皿止MOLAP:为在数据立方体中执行下怙操作.直接降低權念井层以得 劃期望的例如.你可以沿日期维从月盼下钻到毎
37、日*用日嶷集数据 而不是用月OHOLAP:便;IJ HOLAP茲杭进彳下估的厅注将芸万ROLAP或MOL.AP相1tL主嬖休現在依靠在相应耀的执冇中庚便用的tfc术.iv.增量更新OLAP:为了执行増屋也沐 先检責是書相咸的元组在;'总的聊实表中.隨杵机是.则插入兀纽到汇息的事咒表屮.并H向上仕播结果.古则. 史珮兀Sitfb井且也向上传播结果.MOLAP:为执仃均却匕和”化检丹是彷相咸的兀胞处左biOLAP工 方体中-如若不是.则描入元胞到该立方休,并向上传播给果。否则. 史斬该元胞.并且向上妆插结果.HOL.AP:与ROLAP或MOLAP相似,十蚩你规在依鼻在相“维的也ir 屮断使
38、用的技术.(C优应窝那种实班拽建?勿什么?HOLAP经常被优先兼用.凶为它# A RQLAP和MOLAP厅法的优点.并 且避免了它冊的缺点“轴采立方体是很稠密的.应谬选WMOLAP方法如果数 据是稀疏的,且維比较高,那務会有许零元胞脱从瞒数噌长人这种情况下 往往汨迺计算冰山立方彳札和下是对起方休完全物化=5.1 5.24】假flUOtf蠹本方体只包希3个豪本单元,(6去几几去如. Q)(d:S.d人必,.去dw)和 gXsh 4.dj 瓦中a严d:4工必井 且c产血该6体的MftcMinr.方体中包含多少个非空方体?(b)丸仝立方体中包含多少个李空累(李星車)单元?«)虹果冰山立方体
39、的条昆-二苏山R方体包含多少"、葬仝集集 单元?(d)单元ciffl单元JD零不存在牟元d便得d是单元的特横化 KdiA 过用非组茯c中的"丙到).并且与具自用同的度虫用疗方 体是仅枳胡单元組戍的«»tt方体.值丸全立方体中自事少个审单元?Mt(a) 丸金1HRR方体中包含多少个非空方体?2%(b) 5t±XT方体中赳含參少个李空聚* (非MX)单元?(1) 每一个单元可以产生丁('一1个非空的单元这杆包样帯椚除的堕叠 ftf.S共©3r°-J个单元(2) 找们佝42f只交叠一次(共记了 2&)的型元丄2,(
40、尊(/. 去 3 个免衬次(其记丁 3状敷)的单元这样枝们网夫总。达5只2个交 的单元(3) 32,(>-5<27-3=19 2 一3 个季空廉樂牟无.(c) JT舉冰山立方体的条件是冰山b方体包含多少个李空累 集单元?(1) (一乩血&必小自2个记数艮为它是由車元1和氯元2产生的:(2) CdLd.比如)勺2个计比 闵为它是由单元1和。元2产生臥 ("©.比人如 令2个il».W为它是由单元1和0元2 P生的竇(4) C. . .rfi.-.么九)©3C計数因为它是由元1、牟元2和单元3世五亍£昆绞牟元,<L:5!T
41、r! 41元建为盘屋单比t的进肅口 -d.il -1詞非址齢铁f中此-*甩丸、*旦 2貝勺堀旬的匱/fc- 于亠方 体直故制出華朮粗威的的畐舸卞专体一谡寛仝立万隧自姜少用中元?花七7卜昭耳亓,,H(I) (o.西,d、虹.必區“* 1: M,点宀,斗细,L町,wJ;】T(4J(*上曲直去嶄胡;2t鼻 3 2:(6) 隅f上叫*-亦11(7) 匕*宀心严斗3儿片2 * 1 3虫也的:苫椁J m.,如事圖塾纠I W MulTj- - ZDM“卜 BUC : n式冋W 宙啊兀 m<ubin£pHLW03.騰单Jftltlf 这 袒二:(Wffl-RffJitHWAhwt*#ttt*t
42、E<ftBrftttmeft(i)讣H任悴ifflit-小于3呻h翳密闻U星歹右博” 订算县也禹乓麻耕申申沖艺扌仁的山口十!严山*寺阵.(c)翦捕尬:泮iffllf-逻订血 帯仁碑曲起口二方比M*注却科书黑趨丁一梯IMS立方枫沖方佛的4R1C用的世界皐 卑.丑可曙的珞中总TV-,方事同下下裂.MuliiTVjy: 口皮向:甘、同-I r.rtt.左壬农订JT铝券,土;lit '心&2BUC. 二二r旳、.E円対丄匕乩环?5.其単耳单.Surubkj:便疋函砸细璋含"厉舸下和门ft.1 rriJWV.坟Apnofi 剪较和计尊闫眄进疔.00*K*«* &
43、lt;A«. +T8«). 密的立仝立方悴MCtia>-礼 S-Cflbag fft: BUCtfP;.讣轉二匕画囲Al肌鼻据尹在氏k的卩再山才齐工-5!也汨旳能订算撐4产戸再.时申¥打詢费帶来轧SwV巾嗨:t.BUC用*(c) r»5?fr 'R. KilI 100 ffj,唯科绅 in 才肓悴.MdaU>堂W子讥IT禅-j i*U. BUC耳Smi-C=is |耳頑斛射誓为,£j供.闫才芒体和牡土片出方祛怛可哥试闰.105.4假定基本方体有三维 A,B,C,其单元数如下:|A|=1000000,|B|=100,|C|=1
44、000.假定每维均等地分块成部分。(a) 假定每维只有一层,画出完整的立方体的格。答:完整的立方体的格如下图allABC(b) 如果每个立方体单元存放一个 4字节的度量,若立方体是稠密的,所计算的立方体有多大?答:所计算的立方体大小如下:all : 1A: 1,000,000; B 100; C 1,000;小计:1,001,100AB 1,000,000*100=100,000,000; BC 100*1,000=100,000; AC 1,000,000*1,000=1,000,000,000;小计:1,100,100,000ABC 1,000,000*100*1,000=100,000,
45、000,000总和:1+1,001,100+1,100,100,000+100,000,000,000=101,101,101,101 *4 = 404,404,404,404 字节(C指出空间需求量最小的立方体中的块计算次序,并计算 2-D平面计算所需要的内存空间总量。答:顺序计算,需要最少数量的空间B-C-A.如图所示:ALIABC计算二维平面需要的总主内存空间是:总空间 =(100X 1,000) + (1,000,000 X 10) + (100 X 10,000) = 20,100,000 单元 * 4字节/单元=80,400,000 字节6.3 Apriori算法使用子集支持性质的
46、先验知识。(a)证明频繁项集的所有非空的子集也必须是频繁的。|D|答:设s是一个频繁项集,min_sup是最小支持度阀值,任务相关的数据D是数据库事务的集合,是 D 有事务量,则有 Support_count(s) = min_supX |D| ;再设s'是s的非空子集,则任何包含项集 s的事务将同样包含项集s',即:support_ count(s')- support count(s)= min_sup x |D|.所以,s '也是一个频繁项集。(b)证明项集s的任意非空子集s '的支持至少和s的支持度一样大。答:设任务相关的数据D是数据库事务的集合
47、,|D|是D的事务量,由定义得:丄 z i supporLcount(s)siipport(s)二一门.设s'是s的非空子集,由定义得: J由(a) 可知:support (s' ) support(s)由此证明,项集S的任意非空子集s'的支持至少和S的支持度一样大。(c) 给定频繁项集I和I的子集s,证明规则的置信度不可能大于答:设s是l的子集,则confidence(s(l - s)=:器黑Roor设s'是s的非空子集,则由( b) 可知:support_count(s')> support count(s),此外,con fide nce (
48、s' ) = (l-s ' )con fide nce (s) = (l- s )所以,规则的置信度不可能大于厂一 ?6.6 设数据库有 5 个事务。设 min_sup =60%, min_conf=80%和FP增长算法找出所有频繁项集。比较两种挖掘过程的效率。分别使用AprioriApriori:FP-growth: Sc<? Figure 5.2 for the FP-tree.TIDitems-boughtTIET200T300T400T500(M, O, N, Ks E, ¥ X O, N. K卫 Y Mt a, k, E M, UT C, K* Y G
49、 o, O, K!Em3o3n2k5e4y3d1a1H1C211Cltil:i03k5e4y3LImo1mk3me2niy2ok3e3oy2ke4ky3ey2C2ink3ok3oc3ke4ky3L2okp3key2ukc3itemconditional pattern baseconditionnl treefrequent patterny k?e,ni.o:l. k,c?o:lT k.m:l k:3kty:3ok,©:2k:3tc:3(k.o:3: e.o:3? k,e,o:3III 3, k:l k:3k,m: 3e恨4 k:4 k,e;4 Y效率比较:Apriori需多次扫描
50、数据库而FP增长建立FP树只需一次的扫描。在Apriori算法中产生候选是 昂贵的(由于联接),而 FP增长不产生任何候选。(b)列举所有与下面的元规则匹配的强关联规则(给出支持度S和置信度C),其中,X是代表顾客的变量,item i是表示项的变量(如:“ A'、“ B”等):Vx £ transaction buysX1Aiiema)今iiesna) sLc答: k,o e 0.6,1e,o * k 0.6,16.8 .数据库有 4 个事务,设 min_sup =60%, min_conf=80%USt lDTIDitems-bought (in the form of b
51、ran d- item-category)TKM)King'M'rab. Siiuser- Milk, 1ryland-C'hixwT Bost-Breafi02T'200 Best-Cheese. Dairy laundl-M ilk. Golden farm- Apple, Tasty-Pie5 Wonder-Brei&d 01 W estcnast-ADairy and-Mi Ik, Wcundlcr- Broad, Tasty-Pic |03T400H W onder-Bread- Sunset-Milk. Dairylarid-heese (a)在item_category 粒度(例如,item
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025海南儋州市职业化社区工作者招聘拟聘(六)考前自测高频考点模拟试题及参考答案详解一套
- 2025福建林业职业技术学院招聘23人考前自测高频考点模拟试题及答案详解(夺冠)
- 2025广西壮族自治区文化和旅游厅幼儿园勤杂工(残疾人专岗)招聘1人考前自测高频考点模拟试题及参考答案详解
- 2025北京市城市管理委员会直属事业单位招聘10人考前自测高频考点模拟试题及答案详解参考
- 2025年白山市教育系统“进校园”招聘高校毕业生(52人)考前自测高频考点模拟试题及答案详解一套
- 2025江苏徐州经济技术开发区管理委员会招聘编制教师40人模拟试卷及参考答案详解1套
- 2025北京市海淀区五一未来实验小学招聘模拟试卷附答案详解(典型题)
- 美国法治史课件
- 2025中国东航研发中心校园招聘笔试题库历年考点版附带答案详解
- 2025如何巧妙利用合同漏洞为自己争取更多权益
- 中试平台建设管理办法
- 精神科常见疾病及护理
- 河北计算机单招数学试卷
- 脊髓微环境调控-洞察及研究
- 2025至2030全球及中国两轮组合仪表行业产业运行态势及投资规划深度研究报告
- 工业机器人讲课件
- 2025年屏山炒青茶市场分析报告
- 部编版三年级语文上册日积月累
- 第11章综合与实践低碳生活课件人教版七年级数学下册
- 税务师事务所管理制度
- 建设工程监理专业教学标准(高等职业教育专科)2025修订
评论
0/150
提交评论