大数据技术及应用-基于Python语言 习题解答:第8章 大数据分析与挖掘_第1页
大数据技术及应用-基于Python语言 习题解答:第8章 大数据分析与挖掘_第2页
大数据技术及应用-基于Python语言 习题解答:第8章 大数据分析与挖掘_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据分析与挖掘一、选择题1.所谓数据的描述性分析是指用统计学方法,描述数据的统计特征量,以下哪项属于数据描述性分析方法(D)。逻辑回归聚类分类离散趋势度量2.逻辑回归是属于以下哪类方法的一种(C)。数据拟合聚类分类数据描述性分析3.以下哪种算法是属于层次聚类算法(B)。K-MeansCUREWaveClusterDBSCAN二、填空题1.数据的偏态特性度量通常计算数据的__偏度___和___峰度____。2.随机变量的分布越接近均匀分布,其离散程度越__大__,熵值则越__大__。3.回归模型是描述因变量如何依赖___自变量___和随机误差项的方程。三、简答题1.ID3分类算法用中的信息增益计算使用到条件熵,条件熵小则信息增益大,简述什么情况下条件熵小?答:条件熵是基于某个属性划分后的各个子集(子节点)的熵的加权平均和,因此划分后各子集中样本的类别越纯(离散度越小)则信息熵越小,则条件熵也越小。2.简述主层次聚类算法有哪几种类型,以及各类型的特点。答:层次聚类分为“凝聚型层次聚类算法”和“分裂型聚类算法”,取决于层次分解是以自底向上(合并)还是以自顶向下(分裂)方式形成。凝聚的层次聚类方法使用自底向上的策略,开始时每个对象自己是独立的类,然后不断合并成越来越大的类,直到所有的对象都在一个类中,或者满足某个终止条件。在合并过程中是找出两个最近的类让他们合并形成一个类,所以最多进行N次迭代就将所有对象合并到一起了。分裂的层次聚类方法使用自顶向下的策略,开始时所有对象都在一个类中,然后不断的划分成更小的类,直到最小的类都足够凝聚或者只包含一个对象。四、实验题【实验8-1】使用Python语言对kaggle的房价预测数据集进行数据特性分析,并建立和训练回归预测模型。1.数据准备:从数据科学竞赛平台Kaggle下载房价预测数据集(/c/house-prices-advanced-regression-techniques)。2.任务要求(1)对房价数据集进行数据特性分析。(2)对数据集进行预处理,包括缺失值填充、异常值处理和属性重构等。(3)建立和训练某种回归分析模型(4)对模型的预测结果进行评价和分析。【实验8-2】将经典的KNN分类算法改造成基于MapReduce模型的分布式算法。实现方法参考:1.任务分析KNN算法首选找出待分类样本的K个最近邻,然后用这K个最近邻的多数类标签作为待分类样本的类别。因此,基于MapReduce模型的分布式KNN算法可以考虑分为几下几个步骤:(1)在分布式系统的各个结点计算待分类样本与数据集中各数据的距离;(2)根据距离从小到大进行排序,选出待分类数据的K个最近邻;(3)各结点的中间结果汇总到中心结点,再次根据距离进行排序,选出最终的K个最近邻,最后将K个最近邻的多数类作为待分类数据的类别。2.设计思路根据上述的分析,显然各结点的中间结果只要记录:K个最近邻的距离和类别标签(不需要记录具体样本数据),因此可以设计MapReduce的各阶段任务和输出格式:(1)Mapper阶段输入:待分类样本,数据集处理:计算待分类样本与数据集中每个测试数据的距离输出:<Key,Value>序列为:<测试数据的行偏移量,距离,类别标签>(2)Combiner阶段输入:Mapper阶段的输出处理:对Mapper阶段的输出序列根据距离大小从小到大进行排序,取前K个。输出:<Key,Value>序列为:<距离,类别标签>(3)Red

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论