雨课堂学堂在线学堂云《python数据挖掘(青岛)》单元测试考核答案_第1页
雨课堂学堂在线学堂云《python数据挖掘(青岛)》单元测试考核答案_第2页
雨课堂学堂在线学堂云《python数据挖掘(青岛)》单元测试考核答案_第3页
雨课堂学堂在线学堂云《python数据挖掘(青岛)》单元测试考核答案_第4页
雨课堂学堂在线学堂云《python数据挖掘(青岛)》单元测试考核答案_第5页
免费预览已结束,剩余5页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第1题数据取样时,除了要求抽样时严把质量关外,还要求抽样数据必须在足够范围内有代表性。第2题分类是总结已有类别对象的特点,并根据这些特点,进行未知类别对象的类别预测的过程,又可称为无监督学习。第3题数据挖掘是从大量的数据中筛选出有效的、可信的以及隐含信息的高级处理过程。第4题数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成数据描述、预测数据等任务.第5题数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成数据描述、预测数据等任务。第1题定量属性可以是整数值或者是连续值。第2题卡方测试用来度量离散标称属性数据的相关性。第3题数据清洗的主要目的是将数据集中存在的什么问题进行处理,降低其对后续数据分析处理的影响。A噪声B缺失C最大值D最小值正确答案:BC第4题下列对学生的描述属性中,标称属性的属性是:A头发颜色B身高C婚姻状况D学号正确答案:AC第5题给定df是一个DataFrame对象,对df所有字段进行描述性统计,可以利用的方法为:Adf.summary()Bdf.statistics()Cdf.describe()Ddf.mean()第6题descirbe()函数统计各个属性的非空值数、平均值、标准差、最大值、最小值以及默认为(25%、50%、75%)分位数等。第7题指定k1,k2两列,去除重复保留出现的第一行,可用drop_duplicates([‘k1’,‘k2’]])。第8题采用分箱方法不能进行数据离散化。第9题数据归约是用来得到数据集的归约表示,它比源数据集小得多,但仍接近于保持源数据的完整性。第10题数据取样时,除了要求抽样时严把质量关外,还要求抽样数据必须在足够范围内有代表性。第四章关联分析技术章节测试第1题给定最小支持度阈值minsup,一个频繁项集的所有非空子集都是频繁的。第2题逐层发现算法Apriori发现频繁项集的过程是按照项集的长度由大到小逐级进行的。第3题在多层次关联规则分析中,如果将商品进行归类,每一商品类别的支持度会()其包含的每个商品的支持度,从而有利于发现一些有意义的频繁模式或关联规则。A大于B不确定C小于D等于第4题非频繁项集的超集有可能是频繁的。第5题只要有两个频繁3项集,就一定能够生成一个候选4项集。第6题频繁项集的非空子集一定是频繁项集。第7题寻找模式和规则主要是对数据进行干扰,使其符合某种规则以及模式。第8题数据库有5个事物,设min_sup=60%,min_conf=80%。TID购买的商品I100{M,O,N,K,E,Y}I200{D,O,N,K,E,Y}I300{M,A,K,E}I400{M,U,C,K,Y}I500{C,O,O,K,I,E}使用Apriori算法找出所有频繁项集包括:A频繁1项集:{M},{O},{K},{E},{Y}B频繁2项集:{M,K},{O,K},{O,E},{K,E},{K,Y}C频繁3项集:{O,K,E}D频繁4项集:{O,N,K,E}正确答案:ABC第9题设X={1,2,3}是频繁项集,则可由X产生关联规则的个数为()A4B5C6D7第五章决策树章节测试第1题如何查看决策树的测试精度?Aconfusion_matrix()函数Bscore()函数Cfit()函数D其他选项都不对。第2题andom_state若设置为3,则每次得到的数据不一样。第3题tree.Plot_tree()的作用是定义一棵决策树。第4题在使用sklearn.tree.DecisionTreeClassifier返回每个叶子的索引应该使用如下哪个函数?Adecosion_path()Bget_depth()Capply()Dget_n_leaves()第5题在使用sklearn.tree.DecisionTreeClassifier设置决策树时使用max_depth设置最大树深度。第6题ID3的分裂属性选择条件是选择信息增益最大的作为分裂属性。第7题决策树方法可用于连续数据离散化。第8题决策树方法可以称为一种数据挖掘技术,也可以称为一种机器学习技术,所以数据挖掘和机器学习是一样的。第9题设训练样本集包含{ID,收入(万元),婚否,爱旅游}四个特征,8条记录如表所示,采用C4.5算法进行连续属性划分,通过构建决策树,输出规则为:ID收入

婚否

爱旅游1

2.5

否2

12

是3

3否

否4

3.2

是5

4

否6

4.8

否7

6.8

是8

9.8

是AIf

收入<5.8and

婚否=“是”,则爱旅游=“是”;BIf

收入<5.8and

婚否=“否”,则爱旅游=“否”;CIf

收入>5.8and

婚否=“否”,则爱旅游=“否”;DIf

收入>=5.8,则爱旅游=“是”。正确答案:DBA第七章朴素贝叶斯章节测试第1题Bayes法是一种在已知后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。第2题朴素贝叶斯算法在对属性个数比较多或者属性之间相关性较大时,分类效果更好。第3题朴素贝叶斯算法的主要缺点包括:A虽然理论上、朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为朴素贝叶斯模型给定输出类别的情况下,假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好。而在属性相关性较小时,朴素贝叶斯性能最为良好。对于这一点,有半朴素贝叶斯之类的算法通过考虑部分关联性适度改进。B事先并不知道先验概率,先验概率很多时候取决于假设,假设的模型可以有很多种,因此在某些时候会由于假设的先验模型的原因导致预测效果不佳。C由于我们是通过先验和数据来决定后验的概率从而决定分类,所以分类决策存在一定的错误率。D对输入数据的表达形式很敏感。正确答案:ABCD第4题在sklearn中,朴素贝叶斯种类有多种,包含:AGaussianNBBMultinomialNBCBernoulliNBDBayes正确答案:ABC第5题以下哪个算法和朴素贝叶斯算法类似。AC4.5BK-meansCopticsDbirch第6题高斯朴素贝叶斯分类公式中的每个特征都是离散的。第7题后验概率P(H|X)表示条件X下H的概率。第8题先验概率是根据历史资料或主观估计的方法得到的概率。第十章划分聚类章节测试第1题关于k-means算法,正确的描述是:A能找到任意形状的聚类B初始值不同,最终结果可能不同C每次迭代的时间复杂度是O(n^2),其中n是样本数量D不能使用核函数(kernelfunction)第2题K-Means算法中的初始中心点:A可随意设置B必须在每个簇的真实中心点的附近C必须足够分散D

直接影响算法的收敛结果第3题聚类分析可以作为其它算法的预处理步骤,如数据离散化,数据归约等。第4题简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作A层次聚类B划分聚类C密度聚类D模糊聚类第5题假设数据挖掘的任务是将如下8个点(用(x,y)代表位置)聚类为3个簇:A1(2,10),A2(2,5),A3(8,4),B1(5,8),B2(7,5),B3(6,4),C1(1,2),C2(4,9)距离函数是欧式距离。假设初始选择A1,B1和C1分别为每个聚类的中心,用K-平均算法来给出在第一次循环执行后的三个聚类中心:A(2,10),(5,8),(1,2)B(2,10),(6,6),(2,3)C(2,10),(6,6),(1.5,3.5)D(2,10),(5,8),(2,3)第6题设有6个二维样本点,p1(0,0),p2(1,2),p3(3,1),p4(8,8),p5(9,10),p6(10,7),若想将其聚类为2类,首先选择p1和p2为两类中心点,采用欧式距离测算方式,则第一轮划分结束,新生成的簇中心点分别为:()A(0,0),(1,2)B(0,0),(6.2,5.6)C(1,2),(8,8)D(0.5,1),(8,8)第十一章层次聚类章节测试第1题BIRCH算法利用了一个树结构来帮助我们快速的聚类,这个数结构类似于平衡B+树,一般将它称之为聚类特征树第2题在scikit-learn中,BIRCH类的重要参数不多,以下对其参数描述正确的是:Athreshold:即叶节点每个CF的最大样本半径阈值T。Bbranching_factor:即CFTree内部节点的最大CF数B,以及叶子节点的最大CF数L。Cn_clusters:即类别数K,在BIRCH算法是可选的,如果类别数非常多,我们也没有先验知识,则一般输入None。Dcompute_labels:表示标示类别数量,默认是整数1。正确答案:CBA第3题BIRCH算法的主要优点有:A节约内存,所有的样本都在磁盘上,CFTree仅仅存了CF节点和对应的指针。B聚类速度快,只需要一遍扫描训练集就可以建立CFTree,CFTree的增删改都很快。C可以识别噪音点,还可以对数据集进行初步分类的预处理。D更适合数据特征维度非常大的样本。正确答案:BAC第4题BIRCH是一种:A分类器B聚类算法C关联分析算法D特征选择算法第5题在对Brich进行参数定义时,簇直径越小越好。第6题BIRCH是一种A分类器B聚类算法C关联分析算法D特征选择算法第7题在下表中给定的样本上进行合并(凝聚)层次聚类,初始簇{1},{2},{3},{4},{5},{6},{7},{8}.假定算法的终止条件为3个簇,则此3个簇为:序号属性1属性2序号属性1属性21210575225664384712458849A最后3个簇为:{2,5},{1,7,8},{3,4,6}B最后3个簇为:{2,4,7},{1,3,8},{5,6}C最后3个簇为:{1,2,7},{4,5},{3,6,8}D最后3个簇为:{2,7},{1,4,8},{3,5,6}第十二章密度聚类章节测试第1题OPTICS

算法仅存储了每个对象的核心距离。第2题下列选项中关于OPTICS算法说法正确的是:AOPTICS算法的提出就是为了帮助DBSCAN算法选择合适的参数,降低输入参数的敏感度。BOPTICS算法往往只能发现凸形的聚类簇。COPTICS算法的目的就是要过滤低密度区域,发现稠密样本点。DOPTICS算法是一种基于高密度联通区域的聚类算法,它将类簇定义为高密度相连点的最大集合。正确答案:ACD第3题OPTICS算法属于下列那一项:A分类算法B聚类算法C关联规则D时间序列预测第4题以下哪个算法和朴素贝叶斯算法类似。AC4.5BK-meansCopticsDbirch第5题以下属于聚类算法的是:APAMBOPTICSCBIRCHDID3正确答案:ABC第6题在cluster.DBSCAN()的众多参数中,algorithm取何值时,表示使用暴力法搜寻最近邻?Akd_treeBball_treeCau

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论