




已阅读5页,还剩14页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据仓库与数据挖掘 主讲教师 王浩畅e mail wanghch angel schoolofcomputer informationtechnologyofnepu 习题课1 习题2 9 假设医院检测随机选择的18个成年人年龄和身体脂肪数据 得到如下结果 a 计算年龄和脂肪百分比的均值 中位数和标准差 b 绘制年龄和脂肪百分比的盒图 c 根据这两个属性 绘制散布图和q q图 d 根据z score规范化来规范化这两个属性 e 计算相关系数 这两个变量是正相关还是负相关 解答2 9 a 计算年龄和脂肪百分比的均值 中位数和标准差age的均值 age的中位数 age的标准差 12 85 fat的均值 28 78将 fat排序 fat的中位数 fat的标准差 8 99 解答2 9 续 b 绘制年龄和脂肪百分比的盒图离群点 当值超过四分位数不到1 5iqr 解答2 9 续 c 根据这两个属性 绘制散布图和q q图 解答2 9 续 d 根据z score规范化来规范化这两个属性 e 计算相关系数 这两个变量是正相关还是负相关 thecorrelationcoefficientis0 82 thevariablesarepositivelycorrelated 习题2 12 假定用于分析的数据包含属性age 数据元组age值 以递增序 是 13 15 16 16 19 20 20 21 22 22 25 25 25 25 30 33 33 35 35 35 35 36 40 45 46 52 70 a 使用min max规范化将age值35变换到 0 0 1 0 区间 b 使用z score规范化变换age值35 其中age的标准差为12 94岁 c 使用小数定标规范化变换age值35 d 对于给定的数据 你愿意使用哪种方法 陈述你的理由 解答2 12 a 使用min max规范化将age值35变换到 0 0 1 0 区间 mina 13 maxa 70 new mina 0 0 new maxa 1 0 而v 35 b 使用z score规范化变换age值35 其中age的标准差为12 94岁 解答2 12 续 c 使用小数定标规范化变换age值35 由于最大的绝对值为70 所以j 2 d 对于给定的数据 你愿意使用哪种方法 陈述你的理由 答 更倾向于选择小数定标规范化 因为小数定标规范化会保持数据的分布 这种变换更直观并容易解释 习题2 14 2 14假设12个销售价格记录组已经排序如下 5 10 11 13 15 35 50 55 72 92 204 215 使用如下每种方法将其划分成三个箱 a 等频 等深 划分 b 等宽划分 c 聚类 解答2 14 a 等频 等深 划分 b 等宽划分 每个区间的宽度是 215 5 3 70 c 聚类 我们可以使用一种简单的聚类技术 用2个最大的间隙将数据分成3个箱 习题3 4 3 4假定biguniversity的数据仓库包含如下4个维 student student name area id major status university course course name department semester semester year 和instructor dept rank 2个度量 count和avg grade 在最低概念层 度量avg grade存放学生的实际课程成绩 在较高概念层 avg grade存放给定组合的平均成绩 a 为该数据仓库画出雪花形模式图 b 由基本方体 student course semester instructor 开始 为列出biguniversity每个学生的cs课程的平均成绩 应当使用哪些特殊的olap操作 c 如果每维有5层 包括all 如 student major status university all 该立方体包含多少方体 解答3 4 解答3 4 b 由基本方体 student course semester instructor 开始 为列出biguniversity每个学生的cs课程的平均成绩 应当使用哪些特殊的olap操作 这些特殊的联机分析处理 olap 操作有 沿课程 course 维从course id 上卷 到department 沿学生 student 维从student id 上卷 到university 取department cs 和university biguniversity 沿课程 course 维和学生 student 维切块 沿学生 student 维从university下钻到student name c 如果每维有5层 包括all 如 student major status university all 该立方体包含多少方体 这个立方体将包含54 625个方体 习题3 5 3 5假定数据仓库包含4个维 date day month quarter year spectator spectator name status phone address location location name phone street city province country 和game game name description description producer 2个度量 count和charge 其中 charge是观众在给定的日期观看节目的付费 观众可以是学生 成年人或老人 每类观众有不同的收费标准 a 画出该数据仓库的星形模式图 b 由基本方体 date spectator location game 开始 为列出2004年学生观众在gm place的总代价 应当执行哪些olap操作 解答3 5 解答3 5 b 由基本方体 date spectator location game 开始 为列出2004年学生观众在gm place的总代价 应当执行哪些olap操作 这些特殊的联机分析处理 olap 操作有 沿date维从dateid 上卷 到year沿game维从gameid 上卷 到
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年茶具品牌跨境电商销售与推广服务合同
- 2025年新型节能环保物流仓储服务全面合作协议
- 2025年度环保设备维护与绿色节能改造工程承包合同
- 专利转让合同范本
- 兼职合同协议书
- 涉税专业知识培训内容课件
- 红色旅游建设项目投资建设项目可行性报告
- 水厂建设项目可行性报告
- 2025年汽车行业汽车内饰材料市场发展与创新报告
- 2025年工业互联网平台网络功能虚拟化NFV在智慧旅游导览中的应用报告
- 烟草香味化学
- 院感培训试题及
- 电气照明系统课件
- 临时用水施工专项方案
- 北京市各县区乡镇行政村村庄村名明细
- GB∕T 9286-2021 色漆和清漆 划格试验
- DB35∕T 1844-2019 高速公路边坡工程监测技术规程
- 720全景照片制作方案及发布流程
- 工作责任心主题培训ppt课件(PPT 26页)
- 除尘器基础知识培训资料(54页)ppt课件
- 完整解读新版《英语》新课标2022年《义务教育英语课程标准(2022年版)》PPT课件
评论
0/150
提交评论