版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、习题一习题一假定用于分析的数据包含属性age.数据元组age值(以递增序)是:13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70.(a) 使用min-max规范化将age值35变换到0.0,1.0区间。(b) 使用z-score规范化变换age值35,其中age的标准差为12.94岁。(c) 使用小数定标规范化变换age值35。(d) 对于给定的数据,你愿意使用哪种方法?陈述你的理由。解答一解答一(a) 使用min-max规范化将ag
2、e值35变换到0.0,1.0区间。 minA=13,maxA=70,new_minA=0.0,new_maxA=1.0,而v=35,(b) 使用z-score规范化变换age值35,其中age的标准差为12.94岁。3860. 00 . 00 . 00 . 113701335 min_min_max_minmaxminAAAAAAnewnewnewvv963.2927809 2770524645403635433230 2725422221202191621513A39. 03892. 09421.12037. 59421.12963.2935AssAvv解答一解答一( (续续) )(c) 使
3、用小数定标规范化变换age值35。 由于最大的绝对值为70,所以j=2。(d) 对于给定的数据,你愿意使用哪种方法?陈述你的理由。 答:更倾向于选择小数定标规范化。因为小数定标规范化会保持数据的分布,这种变换更直观并容易解释 35. 01035102jvv习题二习题二2.14 假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215。使用如下每种方法将其划分成三个箱。(a) 等频等深划分。(b) 等宽划分。解答二解答二(a) 等频等深划分。(b) 等宽划分。 每个区间的宽度是:(215-5)/3=70bin15,10,11,13bin115
4、,35,50,55bin172,91,204,215bin15,10,11,13,15,35,50,55,72bin191bin1204,215习题三习题三3假定BigUniversity的数据仓库包含如下4个维:student(student_name, area_id, major, status, university),course(course_name, department),semester(semester, year)和instructor(dept, rank);2个度量:count和avg_grade。在最低概念层,度量avg_grade存放学生的实际课程成绩。在较高概
5、念层,avg_grade存放给定组合的平均成绩。(a)为该数据仓库画出雪花形模式图。(b)由基本方体student, course, semester, instructor开场,为列出BigUniversity每个学生的CS课程的平均成绩,应当使用哪些特殊的OLAP操作。(c)如果每维有5层包括all),如“studentmajorstatusuniversityall”,该立方体包含多少方体?解答三解答三解答三解答三b)由基本方体student, course, semester, instructor开场,为列出BigUniversity每个学生的CS课程的平均成绩,应当使用哪些特殊的O
6、LAP操作。 这些特殊的联机分析处理OLAP操作有:沿课程course维从course_id“上卷到department。沿学生student维从student_id“上卷到university。取department=“CS和university=“Big University”,沿课程course维和学生student维切块。沿学生student维从university下钻到student_name。c)如果每维有5层包括all),如“studentmajorstatusuniversityall”,该立方体包含多少方体?这个立方体将包含54=625个方体。习题四习题四4 假定数据仓库包含
7、4个维: date(day, month, quarter, year), spectator(spectator_name, status, phone, address), location(location_name, phone#, street, city, province, country)和game(game_name, description, description, producer);2个度量: count和charge。其中, charge是观众在给定的日期观看节目的付费。观众可以是学生、成年人或老人,每类观众有不同的收费标准。 (a) 画出该数据仓库的星形模式图。
8、(b) 由基本方体 date, spectator, location, game开场,为列出2019 年学生观众在GM-Place 的总代价,应当执行哪些OLAP 操作? 解答四解答四解答四解答四(b)由基本方体 date, spectator, location, game开场,为列出2019 年学生观众在GM-Place 的总代价,应当执行哪些OLAP 操作? 这些特殊的联机分析处理OLAP操作有: 沿date维从date id “上卷到year沿game维从game id “上卷到all沿location维从location id “上卷到location name沿spectator
9、维从spectator id “上卷到status取status=“students”,location name=“GM Place和year=2019切块习题五习题五5给定两个对象,分别表示为22,1,42,10),(20,0,36,8):(a)计算两个对象之间的欧几里得距离(b)计算两个对象之间的曼哈顿距离(c)计算两个对象之间的明考斯基距离,p=3习题六习题六假设数据挖掘的任务是将如下 8个点(用(x,y)代表位置)聚类为3个簇: A1(2,10), A2(2,5),A3(8,4), B1(5,8),B2(7,5), B3(6,4), C1(1,2), C2(4,9)距离函数是欧几里德
10、距离.假设初始选择A1, B1,C1为每个聚类的中心.用k-平均算法来给出(a) 在第一次循环执行后的三个聚类中心(b) 最后的三个簇解答六解答六(a) (2,10),(6,6),(1.5,3.5)(b) A1 B1 C2A3 B2 C3A2 C1d2A1A2A3B1B2B3C1C2102536+369+425+2516+361+644+129+49+99+1604+91+1616+361+131+641+95316+364529058第一次迭代: 中心为1: A1(2,10), 2: B1(5,8), 3: C1(1,2)因此:1: A1 (2,10)2:A3, B1,B2, B3, C2
11、(6, 6)3: A2, C1 (1.5,3.5)d2A1A2A3B1B2B3C1C2102536+369+425+2516+361+644+123217852441133.52+6.52.52+1.526.52+0.523.52+4.525.52+1.524.52+0.520.52+1.522.52+5.52第二次迭代: 中心为1: (2,10), 2: (6,6), 3: (1.5,3.5)1: A1, C2 (3.5,9.5)2:A3, B1,B2, B3 (6.5, 5.25)3: A2, C1 (1.5,3.5)d2A1A2A3B1B2B3C1C211+.521+4.5252+5.5
12、222+1.5242+4.5232+5.5222+7.5212+.5224.52+7.524.52+0.2521.52+1.2521.52+2.752.52+0.252.52+1.2525.52+3.2522.52+3.7523.52+6.52.52+1.526.52+0.523.52+4.525.52+1.524.52+0.520.52+1.522.52+5.52第三次迭代: 中心为1: (3.5,9.5 ), 2: (6.5,5.25), 3: (1.5,3.5)1: A1, B1,C2 (11/3,9)2:A3, B2, B3 (7, 13/3)3: A2, C1 (1.5,3.5)d2A1A2A3B1B2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 供货协议属合同
- 零售业财务评估师全攻略及常见问题解析
- 作业许可管理员面试题集
- 联想集团研发工程师面试题及答案详解
- 健康管理师面试题及答案解析
- 城市管理督查专员的面试题及答案解析
- 2025年健身产业综合体建设项目可行性研究报告
- 2025年智慧城市数据管理系统集成可行性研究报告
- 2025年大健康产业发展论坛可行性研究报告
- 2025年农作物精准灌溉技术推广项目可行性研究报告
- 业主授权租户安装充电桩委托书
- 化工建设综合项目审批作业流程图
- 亲子鉴定的报告单图片
- 辽宁轨道交通职业学院单招《职业技能测试》参考试题库(含答案)
- 马工程《经济法学》教学
- 新概念二单词表新版,Excel 版
- 2023年陕西西安经济技术开发区招聘120人(共500题含答案解析)笔试必备资料历年高频考点试题摘选
- 第八讲 发展全过程人民民主PPT习概论2023优化版教学课件
- 篇12pmc窗口功能指令举例讲解
- GB/T 7332-2011电子设备用固定电容器第2部分:分规范金属化聚乙烯对苯二甲酸酯膜介质直流固定电容器
- GB/T 38658-20203.6 kV~40.5 kV交流金属封闭开关设备和控制设备型式试验有效性的延伸导则
评论
0/150
提交评论