MOOC 数据挖掘-国防科技大学 中国大学慕课答案_第1页
MOOC 数据挖掘-国防科技大学 中国大学慕课答案_第2页
MOOC 数据挖掘-国防科技大学 中国大学慕课答案_第3页
MOOC 数据挖掘-国防科技大学 中国大学慕课答案_第4页
MOOC 数据挖掘-国防科技大学 中国大学慕课答案_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

MOOC数据挖掘-国防科技大学中国大学慕课答案单元作业单元作业测验1、问题:什么是KDD?选项:A、数据挖掘与知识发现B、领域知识发现C、文档知识发现D、动态知识发现正确答案:【数据挖掘与知识发现】2、问题:“8,000”和“10,000”表示:选项:A、数据B、信息C、知识D、智慧正确答案:【数据】3、问题:人从出生到长大的过程中,是如何认识事物的?选项:A、聚类过程B、分类过程C、先分类,后聚类D、先聚类,后分类正确答案:【先聚类,后分类】4、问题:“8,000米是飞机飞行最大高度”与“10,000米的高山”表示:选项:A、数据B、信息C、知识D、智慧正确答案:【信息】5、问题:“飞机无法飞过高山”表示:选项:A、数据B、信息C、知识D、智慧正确答案:【知识】单元作业测验1、问题:下面哪个不属于数据的属性类型:选项:A、标称B、序数C、区间D、相异正确答案:【相异】2、问题:只有非零值才重要的二元属性被称作:选项:A、计数属性B、离散属性C、非对称的二元属性D、对称属性正确答案:【非对称的二元属性】3、问题:一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级属性的众数是:选项:A、一年级B、二年级C、三年级D、四年级正确答案:【一年级】4、问题:杰卡德系数用来度量非对称的二进制属性的相似性选项:A、正确B、错误正确答案:【正确】5、问题:欧式距离用来度量连续数值属性数据的相似性选项:A、正确B、错误正确答案:【正确】单元作业测验1、问题:所谓高维数据,指的是选项:A、数据对象很多B、数据属性很多C、以上都正确D、以上都错误正确答案:【数据属性很多】2、问题:假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:选项:A、0.821B、1.224C、1.458D、0.716正确答案:【0.716】3、问题:假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内?选项:A、第一个B、第二个C、第三个D、第四个正确答案:【第二个】4、问题:卡方测试用来度量离散标称属性数据的相关性选项:A、正确B、错误正确答案:【正确】5、问题:相关系数用来度量标称属性数据的相关性选项:A、正确B、错误正确答案:【错误】单元作业测验1、问题:考虑两队之间的足球比赛:队0和队1。假设65%的比赛队0胜出,剩余的比赛队1获胜。队0获胜的比赛中只有30%是在队1的主场,而队1取胜的比赛中75%是主场获胜。如果下一场比赛在队1的主场进行队1获胜的概率为选项:A、0.75B、0.35C、0.4678D、0.5738正确答案:【0.5738】2、问题:朴素贝叶斯分类器的朴素之处在于:选项:A、只能处理低维属性B、只能处理离散型属性C、分类效果一般D、属性之间的条件独立性假设正确答案:【属性之间的条件独立性假设】3、问题:Bayes法是一种在已知后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。选项:A、正确B、错误正确答案:【错误】4、问题:可以利用概率统计方法估计数据的分布参数,再进一步估计待测试数据的概率,以此来实现贝叶斯分类选项:A、正确B、错误正确答案:【正确】5、问题:贝叶斯分类器对离群点敏感选项:A、正确B、错误正确答案:【错误】单元作业测验1、问题:决策树中不包含一下哪种结点选项:A、根结点(rootnode)B、内部结点(internalnode)C、外部结点(externalnode)D、叶结点(leafnode)正确答案:【外部结点(externalnode)】2、问题:以下哪些算法是分类算法选项:A、DBSCANB、ID3C、K-MeansD、EM正确答案:【ID3】3、问题:决策树的父节点和子节点的熵的大小关系是什么?选项:A、决策树的父节点更大B、子节点的熵更大C、两者相等D、根据具体情况而定正确答案:【子节点的熵更大】4、问题:一个决策树包括如下哪些要素选项:A、测试节点B、分支C、叶子D、以上均错误正确答案:【测试节点#分支#叶子】5、问题:采用决策树分类算法,连续数据如何处理?选项:A、连续数据离散化B、选择最佳划分点分裂C、连续数据每2个值之间形成分裂D、以上均错误正确答案:【连续数据离散化#选择最佳划分点分裂】单元作业测验1、问题:当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?选项:A、分类B、聚类C、关联分析D、隐马尔可夫链正确答案:【聚类】2、问题:简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作选项:A、层次聚类B、划分聚类C、非互斥聚类D、模糊聚类正确答案:【划分聚类】3、问题:关于k-means算法,正确的描述是:选项:A、能找到任意形状的聚类B、初始值不同,最终结果可能不同C、每次迭代的时间复杂度是O(n^2),其中n是样本数量D、不能使用核函数(kernelfunction)正确答案:【初始值不同,最终结果可能不同】4、问题:K-Means算法中的初始中心点:选项:A、可随意设置B、必须在每个簇的真实中心点的附近C、必须足够分散D、直接影响算法的收敛结果正确答案:【直接影响算法的收敛结果】5、问题:下列说法正确的是选项:A、K-means算法能够解决有离群点的聚类问题B、K-modes能够解决离散数据的聚类问题C、K-means++能够解决初始点影响聚类效果的问题D、K中心点能够解决有离群点的聚类问题正确答案:【K-modes能够解决离散数据的聚类问题#K-means++能够解决初始点影响聚类效果的问题#K中心点能够解决有离群点的聚类问题】单元作业测验1、问题:logistic回归是否对噪声敏感选项:A、是B、否C、以上均错误D、无法判断正确答案:【是】2、问题:朴素的逻辑回归可以解决非线性的分类问题选项:A、正确B、错误正确答案:【错误】3、问题:分类和回归都可用于预测,分类的输出是离散的类别值,而回归的输出是连续数值选项:A、正确B、错误正确答案:【正确】4、问题:逻辑回归正则化主要包括L1正则化和L2正则化选项:A、正确B、错误正确答案:【正确】5、问题:数据规范化能够提高逻辑回归算法参数学习的效率选项:A、正确B、错误正确答案:【正确】测验1、问题:某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?选项:A、关联规则发现B、聚类C、分类D、自然语言处理正确答案:【关联规则发现】2、问题:数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务选项:A、正确B、错误正确答案:【正确】3、问题:具有较高的支持度的项集具有较高的置信度。选项:A、正确B、错误正确答案:【错误】4、问题:先验原理可以表述为:如果一个项集是频繁的,那包含它的所有项集也是频繁的。选项:A、正确B、错误正确答案:【错误】5、问题:利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数选项:A、正确B、错误正确答案:【正确】单元作业测验1、问题:以下模型中,在数据预处理时,不需要考虑归一化处理的是:()选项:A、logistic回归B、SVMC、树形模型D、神经网络正确答案:【树形模型】2、问题:一组数据,均值中位数众数,问这组数据?选项:A、左偏B、右偏C、钟型D、对称正确答案:【右偏】3、问题:如果现在需要对一组数据进行样本个体或指标变量按其具有的特性进行分类,寻找合理的度量事物相似性的统计量,应该采取()选项:A、聚类分析B、回归分析C、相关分析D、判别分析正确答案:【聚类分析】4、问题:时间序列数据更适合用()做数据规约。选项:A、小波变换B、主成分分析C、决策树D、直方图正确答案:【小波变换】5、问题:下面哪些场景合适使用PCA?()选项:A、降低数据的维度,节约内存和存储空间B、降低数据维度,并作为其它有监督学习的输入C、获得更多的特征D、替代线性回归正确答案:【降低数据的维度,节约内存和存储空间】6、问题:下列方面不可以防止过拟合的是选项:A、加入正则项B、增加样本C、建立更加复杂的模型D、Bootstrap重采样正确答案:【建立更加复杂的模型】7、问题:对于地震的预测,我们希望的是召回率recall非常高,也就是说每次地震我们都希望预测出来,这个时候我们可以牺牲精确率precision。情愿发出1000次警报,把10次地震都预测正确了,那么请问此时地震预测的假阳历FP等于多少?()选项:A、10B、0C、990D、1000正确答案:【990】8、问题:一般情况下,KNN最近邻方法在()情况下效果最好选项:A、样本呈现团状分布B、样本呈现链状分布C、样本较多但典型性不好D、样本较少但典型性好正确答案:【样本较少但典型性好】9、问题:假定某同学使用NaiveBayesian(NB)分类模型时,不小心将训练数据的两个维度搞重复了,那么关于NB的说法中正确的是()选项:A、这个被重复的特征在模型中的决定作用会被加强B、模型效果相比无重复特征的情况下精确度会降低C、NB可以用来做最小二乘回归D、当两列特征高度相关时,无法用两列特征相同时所得到的结论来分析问题正确答案:【模型效果相比无重复特征的情况下精确度会降低#当两列特征高度相关时,无法用两列特征相同时所得到的结论来分析问题】10、问题:下列哪些数据挖掘算法不需要做数据归一化处理:()选项:A、K均值B、线性回归C、决策树D、朴素贝叶斯正确答案:【决策树#朴素贝叶斯】11、问题:下列有关L1正则化和L2正则化说法正确的是?()选项:A、使用L1可以得到稀疏的权值B、使用L2可以得到稀疏的权值C、使用L1可以得到平滑的权值D、使用L2可以得到平滑的权值正确答案:【使用L1可以得到稀疏的权值#使用L2可以得到平滑的权值】12、问题:在分类问题中,我们经常会遇到正负样本数据量不等的情况,比如正样本为10w条数据,负样本只有1w条数据,以下最合适的处理方法是选项:A、将负样本重复10次,生成10w样本量,打乱顺序参与分类B、直接进行分类,可以最大限度利用数据C、从10w正样本中随机抽取1w参与分类D、将负样本每个权重设置为10,正样本权重为1,参与训练过程正确答案:【将负样本重复10次,生成10w样本量,打乱顺序参与分类#从10w正样本中随机抽取1w参与分类#将负样本每个权重设置为10,正样本权重为1,参与训练过程】13、问题:在数据挖掘中需要划分数据集,常用的划分测试集和训练集的划分方法有哪些()选项:A、留出法B、交叉验证法C、自助法D、评分法正确答案:【留出法#交叉验证法#自助法】14、问题:逻辑回归分析需要对离散值做预处理,决策树则不需要。选项:A、正确B、错误正确答案:【正确】15、问题:分类模型的误差大致分为两种:训练误差(trainingerror)和泛化误差(generalizationerror).选项:A、正确B、错误正确答案:【正确】单元作业测验1、问题:所谓Kerneltrick,指的是:()选项:A、利用在高维空间定义的函数替代原始空间的向量内积操作B、利用在原始空间定义的函数替代高维空间的向量内积操作C、核函数的导数具有简单的解析解,简化了运算D、核函数具有固定的上下界,可以输出(-1,+1)区间中的连续值正确答案:【利用在原始空间定义的函数替代高维空间的向量内积操作】2、问题:SVM模型通过最大化边界实现线性分类,以下哪个可以使得SVM实现非线性分类()选项:A、松弛变量B、对偶空间求解C、kernelD、SMO算法正确答案:【kernel】3、问题:SVM(支持向量机)与LR(逻辑回归)的数学本质上的区别是什么?()选项:A、损失函数B、是否有核技巧C、是否支持多分类D、选项皆错正确答案:【损失函数】4、问题:在SVM当中,主要的运算形式是:()选项:A、矩阵乘法B、矩阵转置C、矩阵分解D、向量内积正确答案:【向量内积】5、问题:下面关于支持向量机的说法正确的是?()选项:A、支持向量机的最终模型仅仅与支持向量有关B、支持向量机的最终模型由所有的训练样本共同决定C、支持向量机的最终模型由离决策边界最近的几个点决定D、训练集越大,支持向量机的模型就一定越准确正确答案:【支持向量机的最终模型仅仅与支持向量有关#支持向量机的最终模型由离决策边界最近的几个点决定】单元作业测验1、问题:神经网络模型是受人脑的结构启发发明的。神经网络模型由很多的神经元组成,每个神经元都接受输入,进行计算并输出结果,那么以下选项描述正确的是()选项:A、每个神经元只有一个单一的输入和单一的输出B、每个神经元有多个输入而只有一个单一的输出C、每个神经元只有一个单一的输入而有多个输出D、每个神经元有多个输入和多个输出正确答案:【每个神经元有多个输入和多个输出】2、问题:训练神经网络时,以下哪种激活函数最容易造成梯度消失:()选项:A、tanhB、sigmoidC、ReLUD、leakyReLU正确答案:【sigmoid】3、问题:考虑以下问题:假设我们有一个5层的神经网络,这个神经网络在使用一个4GB显存显卡时需要花费3个小时来完成训练。而在测试过程中,单个数据需要花费2秒的时间。如果我们现在把架构变换一下,当评分是0.2和0.3时,分别在第2层和第4层添加Dropout,那么新架构的测试所用时间会变为多少?()选项:A、少于2sB、大于2sC、仍是2sD、说不准正确答案:【仍是2s】4、问题:在误差逆传播算法中,隐含层节点的误差信息应当:()选项:A、根据自身的期望输出和实际输出的差值计算B、根据所有输出层神经元的误差的均值计算C、根据自身下游神经元的误差进行加权计算D、根据自身下游神经元的误差的均值计算正确答案:【根据自身下游神经元的误差进行加权计算】5、问题:若神经元的误差对某输入的权重的偏导大于零说明:()选项:A、该权重应增加B、该权重应减少C、应增加神经网络层数D、应调整激活函数正确答案:【该权重应减少】6、问题:为节省神经网络模型的训练时间,神经网络模型的权重和偏移参数一般初始化为()选项:A、0B、0.5C、1D、随机值正确答案:【随机值】7、问题:下列哪一项在神经网络中引入了非线性()选项:A、SGDB、激活函数C、卷积函数D、都不正确正确答案:【激活函数】8、问题:下列哪些因素会对BP神经网络的训练效果产生影响()选项:A、权值初始值B、阈值初始值C、学习率D、隐层神经元个数正确答案:【权值初始值#阈值初始值#学习率#隐层神经元个数】9、问题:采用Sigmod函数作为激励函数的主要原因是()选项:A、有固定的输出上下界B、导数存在解析解C、计算复杂度较低D、处处可导正确答案:【有固定的输出上下界#导数存在解析解#处处可导】单元作业测验1、问题:数据科学家可能会同时使用多个算法(模型)进行预测,并且最后把这些算法的结果集成起来进行最后的预测(集成学习),以下对集成学习说法正确的是()选项:A、单个模型之间有高相关性B、单个模型之间有低相关性C、在集成学习中使用“平均权重”而不是“投票”会比较好D、单个模型都是用的一个算法正确答案:【单个模型之间有低相关性】2、问题:二分类任务中,有三个分类器h1,h2,h3,三个测试样本x1,x2,x3。假设1表示分类结果正确,0表示错误,h1在x1,x2,x3的结果分别(1,1,0),h2,h3分别为(0,1,1),(1,0,1),按投票法集成三个分类器,下列说法正确的是:()选项:A、集成提高了性能B、集成没有效果C、集成降低了性能D、集成效果不能确定正确答案:【集成提高了性能】3、问题:下列关于随机森林和Adaboost说法正确的是()选项:A、和Adaboost相比,随机森林对错误和离群点更鲁棒B、随机森林准确率不依赖于个体分类器的实例和他们之间的依赖性C、随机森林对每次划分所考虑的属性数很偏感D、Adaboost初始时每个训练元组被赋予相等的权重正确答案:【和Adaboost相比,随机森林对错误和离群点更鲁棒#随机森林对每次划分所考虑的属性数很偏感#Adaboost初始时每个训练元组被赋予相等的权重】4、问题:以下关于randomforest说法错误的是选项:A、rf中的每棵子树都是独立同分布的B、rf中模型方差随着子树的增加而减少C、rf主要通过增加子树之间的相关性来减少模型的方差D、rf中模型偏差随着子树的增加而减少正确答案:【rf中的每棵子树都是独立同分布的#rf中模型偏差随着子树的增加而减少】5、问题:在AdaBoost算法中,所有被分错的样本的权重更新比例相同。()选项:A、正确B、错误正确答案:【正确】期末考试1、问题:运用云计算、数据挖掘以及模糊识别等人工智能技术,对海量的数据和信息进行分析和处理,对物体实施智能化的控制,指的是选项:A、可靠传递B、全面感知C、智能处理D、互联网正确答案:【智能处理】2、问题:“飞机必须飞得比山高”表示:选项:A、数据B、信息C、知识D、智慧正确答案:【智慧】3、问题:在LogisticRegression中,如果同时加入L1和L2范数,产生什么效果选项:A、可以做特征选择,并在一定程度上防止过拟合B、能解决维度灾难问题C、能加快计算速度D、可以获得更准确的结果正确答案:【可以做特征选择,并在一定程度上防止过拟合】4、问题:当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离选项:A、聚类B、关联分析C、分类D、隐马尔科夫正确答案:【聚类】5、问题:在ID3算法中信息增益是指选项:A、信息的溢出程度B、信息的增加效益C、熵增加的程度最大D、熵减少的程度最大正确答案:【熵减少的程度最大】6、问题:某超市研究销售纪录数据后发现,买面包的人很大概率也会购买牛奶,这种属于数据挖掘的哪类问题:选项:A、关联规则发现B、聚类C、分类D、自然语言处理正确答案:【关联规则发现】7、问题:标称类型数据的可以利用的数学计算为:选项:A、众数B、中位数C、均值D、方差正确答案:【众数】8、问题:一组数据的最小值为12,000,最大值为98,000,利用最小最大规范化将数据规范到[0,1],则73,000规范化的值为:选项:A、0.513B、0.612C、0.716D、0.845正确答案:【0.716】9、问题:在无人驾驶时,希望程序能够根据路况决策汽车的方向盘的旋转角度,那么该任务是?选项:A、分类B、回归C、聚类D、降维正确答案:【回归】10、问题:考虑如下数据集,其中CustomerID(顾客id),TransactionID(事务id),ItemsBought(购买项)。如果将每个事务id看成一个购物篮,计算项集{e},{b,d},{b,d,e}的支持度:选项:A、s({e})=0.8s({b,d})=0.2s({b,d,e})=0.2B、s({e})=0.7s({b,d})=0.3s({b,d,e})=0.3C、s({e})=0.6s({b,d})=0.4s({b,d,e})=0.3D、s({e})=0.8s({b,d})=0.1s({b,d,e})=0.1正确答案:【s({e})=0.8s({b,d})=0.2s({b,d,e})=0.2】11、问题:假定某同学使用贝叶斯分类模型时,由于失误操作,致使训练数据中两个维度重复表示。下列描述中正确的是:选项:A、被重复的在模型中作用被加强B、模型效果精度降低C、如果所有特征都被重复一遍,则预测结果不发生变化D、以上说法均错误正确答案:【模型效果精度降低】12、问题:ID3算法在分类树构建中,使用哪个度量来进行分类节点?选项:A、gini指标B、信息增益C、信息增益率D、准确率正确答案:【信息增益】13、问题:印度电影《宝莱坞机器人之恋》中的机器人七弟采用的智能算法最有可能是以下哪一种选项:A、神经网络B、遗传算法C、模拟退火D、穷举算法正确答案:【神经网络】14、问题:以下哪些方法不可以直接来对文本分类?选项:A、KmeansB、决策树C、支持向量机D、KNN正确答案:【Kmeans】15、问题:什么观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。选项:A、边界点B、离群点C、核心点D、质心正确答案:【离群点】16、问题:在logistic分类中,L1正则化和L2正则化的引入为了解决什么问题?选项:A、数据量不充分B、训练数据不匹配C、训练过拟合D、训练速度太慢正确答案:【训练过拟合】17、问题:将原始数据进行集成、变换是在以下哪个步骤的任务?选项:A、频繁模式挖掘B、分类和预测C、数据预处理D、数据流挖掘正确答案:【数据预处理】18、问题:数据库中某属性缺失值比较多时,数据清理采用哪种的方法?选项:A、忽略元组B、平均值填充C、盒状图法D、以上均可正确答案:【平均值填充】19、问题:在进行聚类分析之前,给出少于所需数据的数据点,下面哪种方法最适合用于数据清理?1.剔除或增加变量;2.去除异常值选项:A、1B、2C、1和2D、都不能正确答案:【1】20、问题:数据挖掘算法主要有聚类算法、关联算法、决策树算法和回归分析等,各种算法用于解决不同的实际问题,某分行拟通过对县域机构数量与存款市场竞争力的相关性分析,进而建立两者之间的函数表达式,用新思维拓展县域市场,提升县域存款的市场竞争力。则可以采用的是什么?选项:A、关联算法B、决策树算法C、聚类分析D、回归分析正确答案:【回归分析】21、问题:熵是为消除不确定性所需要获得的信息量,投掷均匀正六面体骰子的熵是什么?选项:A、1比特B、2.6比特C、3.2比特D、3.8比特正确答案:【2.6比特】22、问题:考虑值集{12243324556826},其四分位数极差是?选项:A、31B、24C、55D、3正确答案:【31】23、问题:假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为?选项:A、18.3B、22.6C、26.8D、27.9正确答案:【18.3】24、问题:建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?选项:A、根据内容检索B、建模描述C、预测建模D、寻找模式和规则正确答案:【预测建模】25、问题:假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每种方法将它们划分成四个箱。等宽划分时(宽度为50),15在哪个箱子里?选项:A、第一个B、第二个C、第三个D、第四个正确答案:【第一个】26、问题:属于定量的属性类型是?选项:A、标称B、序数C、区间D、相异正确答案:【区间】27、问题:将原始数据进行维度规约,数值规约是在以下哪个步骤的任务?选项:A、频繁模式挖掘B、分类与预测C、数据预处理D、数据流挖掘正确答案:【数据预处理】28、问题:NaveBayes是一种特殊的Bayes分类器,特征变量是X,类别标签是C,它的一个假定是?选项:A、各类别的先验概率P(C)是相等的B、以0为均值,sqr(2)/2为标准差的正态分布C、特征变量X的各个维度是类别条件独立随机变量D、P(X|C)是高斯分布正确答案:【特征变量X的各个维度是类别条件独立随机变量】29、问题:创建时间=1月2日是指?选项:A、创建时间表示属性,1月2日表示属性B、创建时间表示属性值,1月2日表示属性值C、创建时间表示属性,1月2日表示属性值D、创建时间表示属性值,1月2日表示属性正确答案:【创建时间表示属性,1月2日表示属性值】30、问题:对于泰坦尼克号灾难预测数据集(如下),下列是标称类型的属性是?选项:A、Survived:0表示遇难,1表示幸存B、Pclass:1代表Upper,2代表Middle,3代表LowerC、Sex:标识乘客性别D、SibSp:兄弟姐妹及配偶的个数E、Embarked:乘客登船口岸,可列举正确答案:【Embarked:乘客登船口岸,可列举】31、问题:对于泰坦尼克号灾难预测数据集,下列是对称二进制类型的属性是?选项:A、Survived:0表示遇难,1表示幸存B、Pclass:1代表Upper,2代表Middle,3代表LowerC、Sex:标识乘客性别D、SibSp:兄弟姐妹及配偶的个数E、Embarked:乘客登船口岸,可列举正确答案:【Sex:标识乘客性别】32、问题:身高和体重分别是什么类型?选项:A、高离散、体重离散B、身高连续、体重连续C、身高连续、体重离散D、身高离散、体重连续正确答案:【身高连续、体重连续】33、问题:根据下表计算like_science_fiction和play_chess的卡方测试选项:A、507.93B、23.6C、89.3D、134.6正确答案:【507.93】34、问题:对于如下表格训练集,请计算P(青年|购买)选项:A、2/9B、4/9C、6/9D、1正确答案:【2/9】35、问题:对于如表格训练集,请计算P(购买)选项:A、9/14B、5/14C、5/9D、1正确答案:【9/14】36、问题:对于如下训练集,计算购买电脑和不购买电脑不确定性的熵值选项:A、0B、0.5C、0.94D、1正确答案:【0.94】37、问题:下面哪个不为属性的别名选项:A、元组B、维度C、特征D、字段正确答案:【元组】38、问题:下列哪个不是非监督数据离散化方法?选项:A、等宽法B、等频法C、聚类法D、决策树法正确答案:【决策树法】39、问题:下列哪个不为数据缩减?选项:A、降维B、分类C、降数据D、数据压缩正确答案:【分类】40、问题:下面哪种情况不会影响K-means聚类的效果?选项:A、数据点密度分布不均B、数据点呈圆形状分布C、数据中有异常点存在D、数据点呈非凸形状分布正确答案:【数据点呈圆形状分布】41、问题:给定两个特征向量,以下哪些方法不能够计算这两个向量相似度?选项:A、欧式距离B、夹角余弦(Cosine)C、信息熵D、曼哈顿距离正确答案:【信息熵】42、问题:下列哪个不是数据对象的别名?选项:A、样品B、实例C、维度D、元组正确答案:【维度】43、问题:标称类型数据的可以实现什么的数学计算?选项:A、众数B、中位数C、均值D、方差正确答案:【众数】44、问题:采用决策树分类算法,连续数据如何处理,下列说法错误的是?选项:A、连续数据离散化B、选择最佳划分点分裂C、连续数据每2个值之间形成分裂D、以上都不是正确答案:【连续数据每2个值之间形成分裂】45、问题:下列说法错误的是?选项:A、K-means算法能够解决有离群点的聚类问题B、K-modes能够解决离散数据的聚类问题C、K-means++能够解决初始点影响聚类效果的问题D、K中心点能够解决有离群点的聚类问题正确答案:【K-means算法能够解决有离群点的聚类问题】46、问题:如下表所示的病例数据,Gender是对称属性,其余都是非对称属性,假设只计算非对称属性,则Jack和Mary的相异度为?选项:A、0.67B、0.33C、0.75D、0.45正确答案:【0.33】47、问题:属性的别名选项:A、元组B、维度C、特征D、字段正确答案:【维度#特征#字段】48、问题:下列哪些是非监督数据离散化方法选项:A、等宽法B、等频法C、聚类法D、决策树法正确答案:【等宽法#等频法#聚类法】49、问题:数据可视化方法。选项:A、直方图B、柱状图C、箱线图D、散点图正确答案:【直方图#柱状图#箱线图#散点图】50、问题:在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方法有:选项:A、忽略元组B、使用属性的平均值填充空缺值C、使用一个全局常量填充空缺值D、使用与给定元组属同一类的所有样本的平均值E、使用最可能的值填充空缺值正确答案:【忽略元组#使用属性的平均值填充空缺值#使用一个全局常量填充空缺值#使用与给定元组属同一类的所有样本的平均值#使用最可能的值填充空缺值】51、问题:数据缩减主要包括如下选项:A、降维B、分类C、降数据D、数据压缩正确答案:【降维#降数据#数据压缩】52、问题:数据清理中,处理缺失值的方法是选项:A、估算B、整例删除C、变量删除D、成对删除正确答案:【估算#整例删除#变量删除#成对删除】53、问题:数据预处理主要包括的步骤选项:A、数据清洗B、数据集成C、数据规约D、数据变换和离散化正确答案:【数据清洗#数据集成#数据规约#数据变换和离散化】54、问题:分类模型主要包括如下选项:A、k-均值模型B、决策树模型C、贝叶斯模型D、以上均错误正确答案:【决策树模型#贝叶斯模型】55、问题:假定某同学使用NaiveBayesian(NB)分类模型时,不小心将训练数据的两个维度搞重复了,那么关于NB的说法中正确的是选项:A、这个被重复的特征在模型中的决定作用会被加强B、模型效果相比无重复特征的情况下精确度会降低C、NB可以用来做最小二乘回归D、当两列特征高度相关时,无法用两列特征相同时所得到的结论来分析问题正确答案:【模型效果相比无重复特征的情况下精确度会降低#当两列特征高度相关时,无法用两列特征相同时所得到的结论来分析问题】56、问题:下列哪些数据挖掘算法不需要做数据归一化处理选项:A、K均值B、线性回归C、决策树D、朴素贝叶斯正确答案:【决策树#朴素贝叶斯】57、问题:下面哪种情况会影响K-means聚类的效果选项:A、数据点密度分布不均B、数据点呈圆形状分布C、数据中有异常点存在D、数据点呈非凸形状分布正确答案:【数据点密度分布不均#数据中有异常点存在#数据点呈非凸形状分布】58、问题:给定两个特征向量,以下哪些方法可以计算这两个向量相似度?选项:A、欧式距离B、夹角余弦(Cosine)C、信息熵D、曼哈顿距离正确答案:【欧式距离#夹角余弦(Cosine)#曼哈顿距离】59、问题:数据挖掘的预测建模任务主要包括哪几大类问题选项:A、分类B、回归C、模式发现D、模式匹配正确答案:【分类#回归】60、问题:对于数据挖掘中的原始数据,存在的问题有选项:A、不一致B、重复C、不完整D、含噪声E、维度高正确答案:【不一致#重复#不完整#含噪声#维度高】61、问题:数据对象的别名选项:A、样品B、实例C、维度D、元组E、对象正确答案:【样品#实例#元组#对象】62、问题:标称类型数据的可以实现数学计算选项:A、众数B、中位数C、均值D、方差E、相等F、加法G、除法正确答案:【众数#相等】63、问题:序数类型数据的可以实现数学计算选项:A、众数B、中位数C、均值D、方差E、相等F、加法G、除法正确答案:【众数#中位数#相等】64、问题:区间标度类型数据的可以实现数学计算选项:A、众数B、中位数C、均值D、方差E、相等F、加法G、除法正确答案:【众数#中位数#均值#方差#相等#加法】65、问题:比例标度类型数据的可以实现数学计算选项:A、众数B、中位数C、均值D、方差E、相等F、加法G、除法正确答案:【众数#中位数#均值#方差#相等#加法#除法】66、问题:数据集成需要解决的问题选项:A、模式集成B、实体识别C、数据冲突检测D、不解决任何问题正确答案:【模式集成#实体识别#数据冲突检测】67、问题:下列哪些属于基于划分的聚类算法选项:A、K-meansB、K-modesC、K-means++D、K中心点正确答案:【K-means#K-modes#K-means++#K中心点】68、问题:尼美(女,23岁,企业白领)是如何选择相亲对象的,尼美对于相亲对象的属性建模,总共包括哪些属性()选项:A、性别B、长相C、年龄D、收入E、职业正确答案:【性别#长相#年龄#收入#职业】69、问题:下列说法正确的是选项:A、过拟合是由于训练集多,模型过于简单B、过拟合是由于训练集少,模型过于复杂C、欠拟合是由于训练集多,模型过于简单D、欠拟合是由于训练集少,模型过于简单正确答案:【过拟合是由于训练集少,模型过于复杂#欠拟合是由于训练集多,模型过于简单】70、问题:一个决策树包括如下哪些要素选项:A、测试节点B、分支C、叶子D、端点正确答案:【测试节点#分支#叶子】71、问题:采用决策树分类算法,连续数据如何处理?选项:A、连续数据离散化B、选择最佳划分点分裂C、连续数据每2个值之间形成分裂D、不处理正确答案:【连续数据离散化#选择最佳划分点分裂】72、问题:下列说法正确的是选项:A、K-means算法能够解决有离群点的聚类问题B、K-modes能够解决离散数据的聚类问题C、K-means++能够解决初始点影响聚类效果的问题D、K中心点能够解决有离群点的聚类问题正确答案:【K-modes能够解决离散数据的聚类问题#K-means++能够解决初始点影响聚类效果的问题#K中心点能够解决有离群点的聚类问题】73、问题:决策树中包含一下哪些结点选项:A、根结点(rootnode)B、内部结点(internalnode)C、外部结点(externalnode)D、叶结点(leafnode)正确答案:【根结点(rootnode)#内部结点(internalnode)#叶结点(leafnode)】74、问题:下面哪个属于数据的属性类型选项:A、标称B、序数C、区间D、相异正确答案:【标称#序数#区间】75、问题:以下哪些算法是分类算法选项:A、朴素贝叶斯分类B、ID3C、K-MeanD、EM正确答案:【朴素贝叶斯分类#ID3】76、问题:人从出生到长大的过程中,是如何认识事物的,下列说法错误的是选项:A、聚类过程B、分类过程C、先分类,后聚类D、先聚类,后分类正确答案:【聚类过程#分类过程#先分类,后聚类】77、问题:朴素贝叶斯分类器的朴素之处在于,下列说法错误的是选项:A、只能处理低维属性B、只能处理离散型属性C、分类效果一般D、属性之间的条件独立性假设正确答案:【只能处理低维属性#只能处理离散型属性#分类效果一般】78、问题:决策树的父节点和子节点的熵的大小关系是什么,下列说法错误的是选项:A、决策树的父节点更大B、子节点的熵更大C、两者相等D、根据具体情况而定正确答案:【决策树的父节点更大#两者相等#根据具体情况而定】79、问题:简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,下列哪些不属于这种聚类类型选项:A、层次聚类B、划分聚类C、非互斥聚类D、模糊聚类正确答案:【层次聚类#非互斥聚类#模糊聚类】80、问题:当不知道数据所带标签时,下列哪些技术不能够促使带同类标签的数据与带其他标签的数据相分离?选项:A、分类B、聚类C、关联分析D、隐马尔可夫链正确答案:【分类#关联分析#隐马尔可夫链】81、问题:关于k-means算法,错误的描述是选项:A、能找到任意形状的聚类B、初始值不同,最终结果可能不同C、不能使用核函数(kernelfunction)D、是聚类算法的一种正确答案:【能找到任意形状的聚类#不能使用核函数(kernelfunction)】82、问题:某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种描述不属于数据挖掘的哪些问题?选项:A、关联规则发现B、聚类C、分类D、自然语言处理正确答案:【聚类#分类#自然语言处理】83、问题:将原始数据进行集成,变换,维度规约,数值规约不属于以下哪些步骤的任务?选项:A、频繁模式挖掘B、分类与预测C、数据预处理D、数据流挖掘正确答案:【频繁模式挖掘#分类与预测#数据流挖掘】84、问题:数据库中某属性缺失值比较多时,数据清理不能够采用的方法选项:A、忽略元组B、平均值填充C、盒状图法D、众数填充正确答案:【忽略元组#盒状图法】85、问题:ID3算法在分类树构建中,没有使用下面哪些度量来进行分类节点?选项:A、gini指标B、信息增益C、信息增益率D、准确率正确答案:【gini指标#信息增益率#准确率】86、问题:K-Means算法中的初始中心点,错误的描述是选项:A、可随意设置B、必须在每个簇的真实中心点的附近C、直接影响算法的收敛结果D、不可随意设置正确答案:【可随意设置#必须在每个簇的真实中心点的附近】87、问题:数据挖掘过程即将数据转换为知识的过程选项:A、正确B、错误正确答案:【正确】88、问题:数据清洗即将来自多个数据源的数据组合成一个连贯的数据源选项:A、正确B、错误正确答案:【错误】89、问题:分类是监督式机器学习。选项:A、正确B、错误正确答案:【正确】90、问题:分类分析主要包括二个步骤:学习建模、分类测试。选项:A、正确B、错误正确答案:【正确】91、问题:聚类是监督式机器学习。选项:A、正确B、错误正确答案:【错误】92、问题:直方图用来显示两组数据的相关性分布选项:A、正确B、错误正确答案:【错误】93、问题:聚类分析可以看作是一种非监督的分类。选项:A、正确B、错误正确答案:【正确】94、问题:数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。选项:A、正确B、错误正确答案:【正确】95、问题:关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。选项:A、正确B、错误正确答案:【错误】96、问题:聚类(clustering)是这样的过程:它找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。选项:A、正确B、错误正确答案:【错误】97、问题:如果一个对象不属于任何簇,那么该对象是基于聚类的离群点。选项:A、正确B、错误正确答案:【正确】98、问题:熵衡量的是系统的不确定性,熵值越大(接近于1)说明系统的不确定性越低。选项:A、正确B、错误正确答案:【错误】99、问题:具有较高的支持度的项集具有较高的置信度。选项:A、正确B、错误正确答案:【错误】100、问题:在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。选项:A、正确B、错误正确答案:【错误】101、问题:皮尔逊相关系数可用来判断X和Y之间的因果关系。选项:A、正确B、错误正确答案:【错误】102、问题:在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。选项:A、正确B、错误正确答案:【错误】103、问题:给定由两次运行K均值产生的两个不同的簇集,误差的平方和最大的那个应该被视为较优。选项:A、正确B、错误正确答案:【错误】104、问题:离群点可以是合法的数据对象或者值。选项:A、正确B、错误正确答案:【正确】105、问题:“飞机必须飞得比山高”表示智慧。选项:A、正确B、错误正确答案:【正确】106、问题:所谓高维数据,指的是数据属性很多。选项:A、正确B、错误正确答案:【正确】107、问题:所谓特征选择,是指从数据中,选择有代表性的属性。选项:A、正确B、错误正确答案:【正确】108、问题:一组数据的均值为54,000,标准差为16,000,则73,000规范化的值为0.1875。选项:A、正确B、错误正确答案:【错误】109、问题:假设两只股票A和B具有在1个星期的以下值:(2,5),(3,8),(5,10),(4,11),(6,14)。如果股票都受到同行业的趋势,他们的价格协方差是1.2。选项:A、正确B、错误正确答案:【错误】110、问题:一维空间的7个点123891025,根据划分方法聚类质量评价准则,设置k为2时,(1,2,3)(8,9,10,25)聚类的系数E值为34.5。选项:A、正确B、错误正确答案:【错误】111、问题:一维空间的7个点123891025,根据划分方法聚类质量评价准则,设置k为2时,(1,2,3,8)(9,10,25)聚类的系数E值为13.9。选项:A、正确B、错误正确答案:【错误】112、问题:一所学校里面有60%的男生(boy),40%的女生(girl)。男生总是穿长裤(pants),女生则一半穿长裤一半穿裙子。随机选取一个穿长裤的学生,他(她)是女生的概率是0.5。选项:A、正确B、错误正确答案:【错误】113、问题:对于决策树,某一属性划分的一个分支中包含C1类别的数据有0条,C2类别的数据有6条,请计算该属性划分时,该分支的数据信息熵值为0。选项:A、正确B、错误正确答案:【正确】114、问题:对于决策树,某一属性划分的一个分支中包含C1类别的数据有3条,C2类别的数据有3条,请计算该属性划分时,该分支的数据信息熵值为1。选项:A、正确B、错误正确答案:【正确】115、问题:对于决策树,某一属性划分的一个分支中包含C1类别的数据有0条,C2类别的数据有6条,请计算该属性划分时,该分支的数据基尼GINI值为0.5。选项:A、正确B、错误正确答案:【错误】116、问题:对于决策树,某一属性划分的一个分支中包含C1类别的数据有3条,C2类别的数据有3条,请计算该属性划分时,该分支的数据基尼GINI值为0.5。选项:A、正确B、错误正确答案:【正确】117、问题:对于决策树,某一属性划分的一个分支中包含C1类别的数据有0条,C2类别的数据有6条,请计算该属性划分时,该分支的数据分类错误ClassificationError值为0。选项:A、正确B、错误正确答案:【正确】118、问题:对于决策树,某一属性划分的一个分支中包含C1类别的数据有3条,C2类别的数据有3条,请计算该属性划分时,该分支的数据分类错误ClassificationError值为0。选项:A、正确B、错误正确答案:【错误】119、问题:当不知道数据所带标签时,可以使用分类技术促使带同类标签的数据与带其他标签的数据相分离。选项:A、正确B、错误正确答案:【错误】120、问题:决策树模型中应处理连续型属性数据的方法之一为:根据信息增益选择阈值进行离散化。选项:A、正确B、错误正确答案:【正确】121、问题:某超市研究销售纪录数据后发现,买面包的人很大概率也会购买牛奶,这种属于数据挖掘的聚类问题。选项:A、正确B、错误正确答案:【错误】122、问题:标称类型数据的可以计算其均值。选项:A、正确B、错误正确答案:【错误】123、问题:区间标度类型数据的可以计算其均值。选项:A、正确B、错误正确答案:【正确】124、问题:比率标度类型数据的可以

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论