版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、习题一习题一假定用于分析的数据包含属性age.数据元组age值(以递增序)是:13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70.(a) 使用min-max规范化将age值35变换到0.0,1.0区间。(b) 使用z-score规范化变换age值35,其中age的标准差为12.94岁。(c) 使用小数定标规范化变换age值35。(d) 对于给定的数据,你愿意使用哪种方法?陈述你的理由。解答一解答一(a) 使用min-max规范化将ag
2、e值35变换到0.0,1.0区间。 minA=13,maxA=70,new_minA=0.0,new_maxA=1.0,而v=35,(b) 使用z-score规范化变换age值35,其中age的标准差为12.94岁。3860. 00 . 00 . 00 . 113701335 min_min_max_minmaxminAAAAAAnewnewnewvv963.2927809 2770524645403635433230 2725422221202191621513A39. 03892. 09421.12037. 59421.12963.2935AssAvv解答一解答一( (续续) )(c) 使
3、用小数定标规范化变换age值35。 由于最大的绝对值为70,所以j=2。(d) 对于给定的数据,你愿意使用哪种方法?陈述你的理由。 答:更倾向于选择小数定标规范化。因为小数定标规范化会保持数据的分布,这种变换更直观并容易解释 35. 01035102jvv习题二习题二2.14 假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215。使用如下每种方法将其划分成三个箱。(a) 等频等深划分。(b) 等宽划分。解答二解答二(a) 等频等深划分。(b) 等宽划分。 每个区间的宽度是:(215-5)/3=70bin15,10,11,13bin115
4、,35,50,55bin172,91,204,215bin15,10,11,13,15,35,50,55,72bin191bin1204,215习题三习题三3假定BigUniversity的数据仓库包含如下4个维:student(student_name, area_id, major, status, university),course(course_name, department),semester(semester, year)和instructor(dept, rank);2个度量:count和avg_grade。在最低概念层,度量avg_grade存放学生的实际课程成绩。在较高概
5、念层,avg_grade存放给定组合的平均成绩。(a)为该数据仓库画出雪花形模式图。(b)由基本方体student, course, semester, instructor开场,为列出BigUniversity每个学生的CS课程的平均成绩,应当使用哪些特殊的OLAP操作。(c)如果每维有5层包括all),如“studentmajorstatusuniversityall”,该立方体包含多少方体?解答三解答三解答三解答三b)由基本方体student, course, semester, instructor开场,为列出BigUniversity每个学生的CS课程的平均成绩,应当使用哪些特殊的O
6、LAP操作。 这些特殊的联机分析处理OLAP操作有:沿课程course维从course_id“上卷到department。沿学生student维从student_id“上卷到university。取department=“CS和university=“Big University”,沿课程course维和学生student维切块。沿学生student维从university下钻到student_name。c)如果每维有5层包括all),如“studentmajorstatusuniversityall”,该立方体包含多少方体?这个立方体将包含54=625个方体。习题四习题四4 假定数据仓库包含
7、4个维: date(day, month, quarter, year), spectator(spectator_name, status, phone, address), location(location_name, phone#, street, city, province, country)和game(game_name, description, description, producer);2个度量: count和charge。其中, charge是观众在给定的日期观看节目的付费。观众可以是学生、成年人或老人,每类观众有不同的收费标准。 (a) 画出该数据仓库的星形模式图。
8、(b) 由基本方体 date, spectator, location, game开场,为列出2019 年学生观众在GM-Place 的总代价,应当执行哪些OLAP 操作? 解答四解答四解答四解答四(b)由基本方体 date, spectator, location, game开场,为列出2019 年学生观众在GM-Place 的总代价,应当执行哪些OLAP 操作? 这些特殊的联机分析处理OLAP操作有: 沿date维从date id “上卷到year沿game维从game id “上卷到all沿location维从location id “上卷到location name沿spectator
9、维从spectator id “上卷到status取status=“students”,location name=“GM Place和year=2019切块习题五习题五5给定两个对象,分别表示为22,1,42,10),(20,0,36,8):(a)计算两个对象之间的欧几里得距离(b)计算两个对象之间的曼哈顿距离(c)计算两个对象之间的明考斯基距离,p=3习题六习题六假设数据挖掘的任务是将如下 8个点(用(x,y)代表位置)聚类为3个簇: A1(2,10), A2(2,5),A3(8,4), B1(5,8),B2(7,5), B3(6,4), C1(1,2), C2(4,9)距离函数是欧几里德
10、距离.假设初始选择A1, B1,C1为每个聚类的中心.用k-平均算法来给出(a) 在第一次循环执行后的三个聚类中心(b) 最后的三个簇解答六解答六(a) (2,10),(6,6),(1.5,3.5)(b) A1 B1 C2A3 B2 C3A2 C1d2A1A2A3B1B2B3C1C2102536+369+425+2516+361+644+129+49+99+1604+91+1616+361+131+641+95316+364529058第一次迭代: 中心为1: A1(2,10), 2: B1(5,8), 3: C1(1,2)因此:1: A1 (2,10)2:A3, B1,B2, B3, C2
11、(6, 6)3: A2, C1 (1.5,3.5)d2A1A2A3B1B2B3C1C2102536+369+425+2516+361+644+123217852441133.52+6.52.52+1.526.52+0.523.52+4.525.52+1.524.52+0.520.52+1.522.52+5.52第二次迭代: 中心为1: (2,10), 2: (6,6), 3: (1.5,3.5)1: A1, C2 (3.5,9.5)2:A3, B1,B2, B3 (6.5, 5.25)3: A2, C1 (1.5,3.5)d2A1A2A3B1B2B3C1C211+.521+4.5252+5.5
12、222+1.5242+4.5232+5.5222+7.5212+.5224.52+7.524.52+0.2521.52+1.2521.52+2.752.52+0.252.52+1.2525.52+3.2522.52+3.7523.52+6.52.52+1.526.52+0.523.52+4.525.52+1.524.52+0.520.52+1.522.52+5.52第三次迭代: 中心为1: (3.5,9.5 ), 2: (6.5,5.25), 3: (1.5,3.5)1: A1, B1,C2 (11/3,9)2:A3, B2, B3 (7, 13/3)3: A2, C1 (1.5,3.5)d2A1A2A3B1B2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 202节庆门店宣传推广合作协议范本三篇
- 河北鲁梅卡机械制造股份有限公司全自动托辊及托辊支架生产线装备项目水土保持报告表
- Low CTE电子布:AI先进封装的时代机遇
- 1.2.1电解质、离子反应 教学设计 高一上学期化学人教版(2019)必修第一册
- 2025-2026学年好菜上桌主题教案
- 2025-2026学年猫教学设计素描场景
- 2 铁杵成针教学设计统编版小初衔接-统编版(小初衔接)
- 2025-2026学年毕业歌教学设计意图
- 时钟倒看数学题目及答案
- 2023六年级英语下册 Unit 3 What Will You Do This Summer(Again Please)教学设计 冀教版(三起)
- 人教版高中英语选择性必修四各单元话题应用文练习范文
- 【真题】七年级下学期期末数学模拟试卷(含解析)四川省成都市青羊区石室联中2024-2025学年
- 强基计划试题及答案历史
- 2.解答题 浮力与压强压轴题(原卷版)
- 消化道出血护理疑难病例讨论
- 2024年汽车驾驶员(技师)证考试题库及答案
- JJG 272-2024 空盒气压表和空盒气压计检定规程
- 浙江省2023年7月普通高中学业水平考试(学考)化学试题(解析版)
- 彩票物流配送服务 投标方案(技术方案)
- 绿化苗木主材采购(供货计划、售后服务承诺)
- Unit 1 Reading Realizing your potentail 公开课说课课件-2022-2023学年高中英语牛津译林版(2020)必修第一册
评论
0/150
提交评论