数据仓库与数据挖掘习题.ppt_第1页
数据仓库与数据挖掘习题.ppt_第2页
数据仓库与数据挖掘习题.ppt_第3页
数据仓库与数据挖掘习题.ppt_第4页
数据仓库与数据挖掘习题.ppt_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

习题一,假定用于分析的数据包含属性age.数据元组age值(以递增序)是:13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70. (a) 使用min-max规范化将age值35变换到0.0,1.0区间。 (b) 使用z-score规范化变换age值35,其中age的标准差为12.94岁。 (c) 使用小数定标规范化变换age值35。 (d) 对于给定的数据,你愿意使用哪种方法?陈述你的理由。,解答一,(a) 使用min-max规范化将age值35变换到0.0,1.0区间。 minA=13,maxA=70,new_minA=0.0,new_maxA=1.0,而v=35, (b) 使用z-score规范化变换age值35,其中age的标准差为12.94岁。,解答一(续),(c) 使用小数定标规范化变换age值35。 由于最大的绝对值为70,所以j=2。 (d) 对于给定的数据,你愿意使用哪种方法?陈述你的理由。 答:更倾向于选择小数定标规范化。因为小数定标规范化会保持数据的分布,这种变换更直观并容易解释,习题二,2.14 假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215。使用如下每种方法将其划分成三个箱。 (a) 等频(等深)划分。 (b) 等宽划分。,解答二,(a) 等频(等深)划分。 (b) 等宽划分。 每个区间的宽度是:(215-5)/3=70,习题三,3假定BigUniversity的数据仓库包含如下4个维:student(student_name, area_id, major, status, university),course(course_name, department),semester(semester, year)和instructor(dept, rank);2个度量:count和avg_grade。在最低概念层,度量avg_grade存放学生的实际课程成绩。在较高概念层,avg_grade存放给定组合的平均成绩。 (a)为该数据仓库画出雪花形模式图。 (b)由基本方体student, course, semester, instructor开始,为列出BigUniversity每个学生的CS课程的平均成绩,应当使用哪些特殊的OLAP操作。 (c)如果每维有5层(包括all),如“studentmajorstatusuniversityall”,该立方体包含多少方体?,解答三,解答三,b)由基本方体student, course, semester, instructor开始,为列出BigUniversity每个学生的CS课程的平均成绩,应当使用哪些特殊的OLAP操作。 这些特殊的联机分析处理(OLAP)操作有: 沿课程(course)维从course_id“上卷”到department。 沿学生(student)维从student_id“上卷”到university。 取department=“CS”和university=“Big University”,沿课程(course)维和学生(student)维切块。 沿学生(student)维从university下钻到student_name。 c)如果每维有5层(包括all),如“studentmajorstatusuniversityall”,该立方体包含多少方体? 这个立方体将包含54=625个方体。,习题四,4 假定数据仓库包含4个维: date(day, month, quarter, year), spectator(spectator_name, status, phone, address), location(location_name, phone#, street, city, province, country)和game(game_name, description, description, producer);2个度量: count和charge。其中, charge是观众在给定的日期观看节目的付费。观众可以是学生、成年人或老人,每类观众有不同的收费标准。 (a) 画出该数据仓库的星形模式图。 (b) 由基本方体 date, spectator, location, game开始,为列出2004 年学生观众在GM-Place 的总代价,应当执行哪些OLAP 操作?,解答四,解答四,(b)由基本方体 date, spectator, location, game开始,为列出2004 年学生观众在GM-Place 的总代价,应当执行哪些OLAP 操作? 这些特殊的联机分析处理(OLAP)操作有: 沿date维从date id “上卷”到year 沿game维从game id “上卷”到all 沿location维从location id “上卷”到location name 沿spectator维从spectator id “上卷”到status 取status=“students”,location name=“GM Place”和year=2004切块,习题五,5给定两个对象,分别表示为(22,1,42,10),(20,0,36,8): (a)计算两个对象之间的欧几里得距离 (b)计算两个对象之间的曼哈顿距离 (c)计算两个对象之间的明考斯基距离,p=3,习题六,假设数据挖掘的任务是将如下 8个点(用(x,y)代表位置)聚类为3个簇: A1(2,10), A2(2,5),A3(8,4), B1(5,8),B2(7,5), B3(6,4), C1(1,2), C2(4,9) 距离函数是欧几里德距离.假设初始选择A1, B1,C1为每个聚类的中心.用k-平均算法来给出 (a) 在第一次循环执行后的三个聚类中心 (b) 最后的三个簇,解答六,(a) (2,10),(6,6),(1.5,3.5) (b) A1 B1 C2 A3 B2 C3 A2 C1,第一次迭代: 中心为1: A1(2,10), 2: B1(5,8), 3: C1(1,2),因此:,1: A1 (2,10),2:A3, B1,B2, B3, C2 (6, 6),3: A2, C1 (1.5,3.5),第二次迭代: 中心为1: (2,10), 2: (6,6), 3: (1.5,3.5),1: A1, C2 (3.5,9.5),2:A3, B1,B2, B3 (6.5, 5.25),3: A2, C1 (1.5,3.5),第三次迭代: 中心为1: (3.5,9.5 ), 2: (6.5,5.25), 3: (1.5,3.5),1: A1, B1,C2 (11/3,9),2:A3, B

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论