雨课堂学堂在线学堂云《机器学习(西南石油)》单元测试考核答案_第1页
雨课堂学堂在线学堂云《机器学习(西南石油)》单元测试考核答案_第2页
雨课堂学堂在线学堂云《机器学习(西南石油)》单元测试考核答案_第3页
雨课堂学堂在线学堂云《机器学习(西南石油)》单元测试考核答案_第4页
雨课堂学堂在线学堂云《机器学习(西南石油)》单元测试考核答案_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第1题MSE、MAE和RMSE的全称分别是

____、____

____

。正确答案::均方误差正确答案::平均绝对误差正确答案::均方根误差第2题Sigmoid函数的范围是(0,1)第3题逻辑回归分类的精度不够高,因此在业界很少用到这个算法第4题tanh函数能替换sigmoid函数第5题‍以下哪些是二分类问题?A根据地段、房屋面积、房间数量来预测房价多少。B根据一个人的身高和体重判断他(她)的性别。C或者根据用户的年龄、职业、存款数量来判断信用卡是否会违约?D根据肿瘤的体积、患者的年龄来判断良性或恶性?正确答案:BCD第6题下列哪些是逻辑回归的优点?A资源占用少B处理非线性数据较容易C可解释性好D模型形式简单正确答案:BCD第7题下面哪些是Sigmoid的特点?Aσ(z)的范围为(0,1)B当σ(z)小于0.5时,预测y=0C当σ(z)小于0.5时,预测y=-1D当σ(z)大于等于0.5时,预测y=1正确答案:ABD第8题逻辑回归的损失函数是哪个?A交叉熵(Cross-Entropy)损失函数BMAECMSEDRMSE第9题以下关于sigmoid函数的优点说法错误的是?A可以压缩数据值到[0,1]之间,便于后续处理B在深层次神经网络反馈传输中,不易出现梯度消失C可以用于处理二分类问题D函数处处连续,便于求导

正确答案:ACD第10题以下关于逻辑回归与线性回归问题的描述正确的是()A逻辑回归一般要求变量服从正态分布,线性回归一般不要求B逻辑回归用于处理分类问题,线性回归用于处理回归问题C线性回归要求输入输出值呈线性关系,逻辑回归不要求D线性回归计算方法一般是最小二乘法,逻辑回归的参数计算方法是似然估计法。正确答案:BCD第11题以下关于分类问题的说法正确的是?A分类属于无监督学习B多分类问题可以被拆分为多个二分类问题C分类问题输入属性必须是离散的D回归问题不可被转化为多分类问题正确答案:ACD第12题‏一监狱人脸识别准入系统用来识别待进入人员的身份,此系统一共包括识别4种不同的人员:狱警,小偷,送餐员,其他。下面哪种学习方法最适合此种应用需求:A多分类问题B回归问题C二分类问题D聚类问题第13题向量x=[-1,2,3,4,-4,0]的L1范数是多少?A46B9C4第14题​L1正则化往往用于防止过拟合,而L2正则化往往用于特征选择。第15题‍如果两个变量相关,那么它们有可能是线性关系。第16题构建一个最简单的线性回归模型需要几个系数(只有一个特征)?A1B2C3D4第17题在训练一个线性回归模型,如果数据量较少,容易发生欠拟合。第18题在训练一个线性回归模型,如果数据量较少,容易发生过拟合。第19题为了观察测试Y与X之间的线性关系,X是连续变量,使用下列哪种图形比较适合?A散点图B直方图C柱形图D以上都不对第20题以下说法正确的是?A损失函数越小,模型训练得一定越好B最小二乘法不需要选择学习率C残差是预测值与真实值之间的差值D正则项的目的是为了避免模型过拟合正确答案:BCD第21题以下哪组变量之间存在线性回归关系?A儿子的身高与父亲的身高B正三角形的边长与周长C正方形的边长与面积D学生的性别与他的成绩第22题回归问题和分类问题的区别是?A回归问题输出值是离散的,分类问题输出值是连续的B回归问题输出值是连续的,分类问题输出值是离散的C回归问题有标签,分类问题没有D回归问题与分类问题在输入属性值上要求不同第1题决策树通过连续属性离散化(二分法)解决连续属性的问题第2题CART算法可以多次重复使用特征第3题ID3和C4.5算法可以多次重复使用特征第4题CART算的计算速度要快于ID3和C4.5第5题ID3、C4.5和CART算法都是多叉树第6题CART算法基于代价复杂度进行剪枝第7题预剪枝和后剪枝可以降低过拟合风险第8题一般后剪枝策略得到的决策树比预剪枝得到决策树的深度更深第9题预剪枝策略的优点()A存在欠拟合的风险B减少训练时间C使用贪心策略D减少属性划分的时间开销第10题C4.5剪枝时,是在验证集上进行讨论第11题‍ID3和C4.5和CART都只能用于分类问题,不能用于回归问题。第12题‏ID3算法只能用于处理离散分布的特征第13题‎ID3算法的核心思想就是以信息增益来度量特征选择,选择信息增益最大的特征进行第14题关于剪枝,以下算法正确的是:(

)。A决策树剪枝的基本策略有预剪枝和后剪枝BID3算法没有剪枝操作C剪枝是防止过拟合的手段DC4.5算法没有剪枝操作正确答案:ABC第15题‍关于C4.5算法,正确的是()AC4.5算法可以使用后剪枝策略BC4.5算法最大的特点是克服了ID3对特征数目的偏重这一缺点CC4.5算法可以处理非离散的数据DC4.5算法采用基尼系数的大小来度量特征的各个划分点正确答案:ABC第16题关于CART算法,正确的是()。ACART算法采用信息增益率的大小来度量特征的各个划分点BCART分类树采用基尼系数的大小来度量特征的各个划分点CCART算法既可以处理分类问题,也可以处理回归问题D可以处理样本不平衡问题正确答案:BCD第17题​ID3算法的缺点不包括(

)。A既能用于处理离散分布的特征,也能用于连续分布的特征处理BID3没有剪枝策略,容易过拟合C没有考虑缺失值D信息增益准则对可取值数目较多的特征有所偏好,类似“编号”的特征其信息增益接近于1正确答案:BCD第18题以下那种说法是正确的(

)A一个系统越是混乱,随机变量的不确定性就越大,信息熵就越高B中国足球队战胜巴西足球队的信息熵要小于中国乒乓球队战胜巴西乒乓球队的信息熵C一个系统越是有序,信息熵就越低D信息增益=信息熵-条件熵正确答案:ACD第19题哪种决策树没有剪枝操作(

)。AID3BC4.5CCARTD都不对第20题CART算法使用()选择属性A信息熵B基尼指数C信息增益D信息增益率第21题C4.5算法使用()选择属性A信息熵B条件熵C信息增益D信息增益率第22题ID3算法使用()选择属性。A信息熵B条件熵C信息增益D信息增益率第23题以下关于决策树算法说法正确的是(

)。AC4.5算法选择信息增益率来选择属性BID3算法选择信息增益最大的特征作为当前决策节点CCART算法选择基尼系数来选择属性DC4.5算法不能用于处理不完整数据正确答案:ABC第24题关于信息熵的说法错误的是()A信息熵的值越大,其蕴含的不确定性越高B明天会下雨的信息熵值比明天是周二的信息熵值大C信息熵的值越大,其蕴含的不确定性越低D信息熵是香农提出的第25题以下关于决策树原理介绍正确的有(

)。A决策树算法本质上是贪心算法B决策树生成过程中需要用到分割法C决策树算法属于无监督学习D决策树决策过程从根节点开始正确答案:ABD第26题‎以下关于决策树特点分析的说法正确的有(

)。A算法自动忽略了对模型没有贡献的属性变量B算法考虑了数据属性之间的相关性C算法容易造成过拟合D推理过程容易理解,计算简单正确答案:BCD第三章-习题第1题朴素贝叶斯是高方差第2题朴素贝叶斯中有没有超参数可以调第3题朴素贝叶斯算法的前提假设是什么?A特征之间相互独立B特征之间相互关联C每个特征同等重要D每个特征重要程度不同正确答案:AC第4题朴素贝叶斯算法对缺失值敏感第5题朴素贝叶斯分类器对异常值敏感第6题条件独立性假设不成立时,朴素贝叶斯分类器仍有可能产生最优贝叶斯分类器.第7题关于朴素贝叶斯,下列说法错误的是:()A它实际上是将多条件下的条件概率转换成了单一条件下的条件概率,简化了计算B朴素的意义在于它的一个天真的假设:所有特征之间是相互关联的C它是一个分类算法D朴素贝叶斯需要使用联合概率正确答案:ACD第8题朴素贝叶斯对缺失数据较敏感。第9题‏逻辑回归是判别模型,朴素贝叶斯是生成模型第10题逻辑回归和朴素贝叶斯都有对属性特征独立的要求第11题朴素贝叶斯适用于小规模数据集第12题假设30%的研究生住在宿舍里,但只有10%的本科生住在宿舍里。如果一个学生吸烟,住在宿舍里,他或她是研究生的概率式多少?你可以假设住在宿舍的学生和吸烟的学生之间的独立性。A0.5938B0.5164C0.7229D0.5938第13题假设30%的研究生住在宿舍里,但只有10%的本科生住在宿舍里。如果一个学生吸烟,住在宿舍里,他或她是本科生的概率式多少?你可以假设住在宿舍的学生和吸烟的学生之间的独立性。A0.5938B0.5164C0.7229D0.5938第14题假设吸烟的本科生比例为15%,而吸烟的研究生占23%。如果五分之一的大学生是研究生,其余的是本科生。那么吸烟的学生是本科的概率是多少?A0.2771B0.166C0.7229D0.5938第15题假设吸烟的本科生比例为15%,而吸烟的研究生占23%。如果五分之一的大学生是研究生,其余的是本科生,那么吸烟的学生是研究生的概率是多少?A0.2771B0.166C0.7229D0.5938第16题以下哪些式朴素贝叶斯的优点()A分类过程中时空开销小B朴素贝叶斯模型对输入数据的表达形式很敏感C算法逻辑简单,易于实现D对缺失数据不太敏感,算法也比较简单,常用于文本分类正确答案:ACD第17题以下哪个不是贝叶斯的缺点()A对输入数据的表达形式很敏感B由于朴素贝叶斯的“朴素”特点,所以会带来一些准确率上的损失。C对缺失数据不太敏感,算法也比较简单,常用于文本分类D需要计算先验概率,分类决策存在错误率。第18题以下算法属于判别模型的是()A深度信念网络B隐马尔科夫模型C朴素贝叶斯模型

D线性回归正确答案:AD第19题下列属于生成模型的是()A隐马尔科夫模型

B支持向量机C朴素贝叶斯模型

D混合高斯模型正确答案:ACD第20题下列关于朴素贝叶斯的特点说法正确的是()A朴素贝叶斯模型无需假设特征条件独立B朴素贝叶斯处理过程简单,分类速度快C朴素贝叶斯对小规模数据表现较好D朴素贝叶斯模型发源于古典数学理论,数学基础坚实正确答案:BCD第四章-习题第1题支持向量是最靠近决策表面的数据点。第2题SVM中核函数将高维空间中的数据映射到低维空间。第3题SVM的数据需要归一化或者标准化。第4题SVM是这样一个分类器,他寻找具有最小边缘的超平面,因此它也经常被称为最小间隔分类器(minimalmarginclassifier)。第5题关于SVM的描述正确的是:()A支持向量机训练时候,数据不需要归一化或者标准化B支持向量机的学习策略就是间隔最大化C支持向量机可以通过核技巧,这使之成为实质上的非线性分类器D支持向量机模型定义在特征空间上的间隔最大的线性分类器正确答案:BCD第6题下面关于支持向量机的描述正确的是()。A可用于多分类的问题B是一种无监督学习方法C是一种监督学习的方法D支持非线性的核函数正确答案:ACD第7题支持向量机有哪些常用的核函数()。A线性核B多项式核C拉普拉斯核D高斯核正确答案:ABD第8题以下关于支持向量机的说法正确的是()ASVM分类面取决于支持向量BSVM方法简单,鲁棒性较好CSVM分类思想就是将分类面之间的间隔最小化DSVM适用于大规模数据集正确答案:AB第9题SVM原理描述不正确的是()。A当训练样本线性可分时,通过硬间隔最大化,学习一个线性分类器,即线性可分支持向量机B当训练数据线性不可分时,通过使用核技巧及软间隔最大化,学习非线性支持向量机CSVM的基本模型是在特征空间中寻找间隔最小化的分离超平面的线性分类器D当训练数据近似线性可分时,引入松弛变量,通过软间隔最大化,学习一个线性分类器,即线性支持向量机第10题一个正例(2,3),一个负例(0,-1),下面哪个是SVM超平面?()A无法计算Bx+2y-3=0C2y+x-5=0D

2x+y-4=0第11题SVM中的代价参数C表示什么?A交叉验证的次数B用到的核函数C在分类准确性和模型复杂度之间的权衡D以上都不对第12题SVM算法的性能取决于:()A核函数的参数B核函数的选择C软间隔参数CD以上所有第13题在SVM中,margin的含义是()A间隔B损失C幅度D差额第14题线性SVM和一般线性分类器的区别主要是:()。A训练误差通常较低B是否进行了空间映射C是否能处理线性不可分问题D是否确保间隔最大化第15题SVM算法的最小时间复杂度是O(n^2)。基于这一点,以下哪种规格的数据集并不适用于该算法?()A大数据集B小数据集C中数据集D不受数据集大小的影响第16题‍如果一个样本空间线性可分,那么,我们能找到(

)个平面来划分样本。A2B1C无数D不确定第17题关于各类核函数的优缺点说法错误的是:()A高斯核能够应对较为复杂的数据B线性核计算简单,可解释性强C多项式核需要多次特征转换D高斯核计算简单,不容易过拟合第18题对于在原空间中线性不可分问题,支持向量机()。A在原空间中寻找非线性函数的划分数据B无法处理C将数据映射到核空间中D在原空间中寻找线性函数划分数据第19题‎关于支持向量机中硬间隔和软间隔的说法正确的是()。A软间隔允许一定的样本分类错误B硬间隔有利于消除模型的过拟合C软间隔有利于获取更大的分类间隔D硬间隔要求所有数据分类完全准确,不允许出现错误正确答案:ACD第20题SVM对噪声(如来自其他分布的噪声样本)鲁棒第21题在SVM训练好后,我们可以抛弃非支持向量的样本点,热然可以对新样本进行分类第22题支持向量机的解具有稀疏性第23题下列关于支持向量机的用法正确的是?()A当数据是线性可分时,可以考虑支持向量机的基本型B当数据是线性不可分时,可以考虑引入核函数的支持向量机C若使用引入核函数的支持向量机,可以通过模型选择等技术挑选较为合适的核函数D以上说法都是正确的第24题关于核函数的说法,正确的是()A能绕过显式考虑特征映射B能够缓解计算高维内积的困难C能够直接在原始的特征空间计算D以上说法都是正确的第25题如果不存在一个能正确划分两类样本的超平面,应该怎么办?A将样本从原始空间映射到一个更高维的特征空间,使样本在这个特征空间内线性可分B将样本从原始空间映射到一个更低维的特征空间,使样本在这个特征空间内线性可分C将样本从原始空间映射到一个更高维的特征空间,使样本在这个特征空间内线性不可分D将样本从原始空间映射到一个更低维的特征空间,使样本在这个特征空间内线性不可分第26题在求解支持向量机截距项的时候错误的说法是()A通过任意支持向量都能够求解出截距项B通过任意样本都能够求解出截距项C为了提高鲁棒性,通常使用所有支持向量求解的平均值D截距项的求解能够体现支持向量机学习到的超平面仅与少量支持向量有关第27题通过拉格朗日乘子法可以得到支持向量机的对偶问题。第28题两个异类支持向量到超平面的距离之和称之为间隔.第29题下面关于支持向量机的说法错误的是?A支持向量机基本型是一个凸二次规划问题B将训练样本分开的超平面仅由支持向量决定C支持向量机的核心思想是最大化间隔D以上选项都是错的第30题对于线性可分的二分类任务样本集,将训练样本分开的超平面有很多,支持向量机试图寻找满足什么条件的超平面?A靠近正类样本的B靠近负类样本的C在正负类样本“正中间”的D以上说法都不对第五章-习题第1题支持向量是最靠近决策表面的数据点。第2题SVM中核函数将高维空间中的数据映射到低维空间。第3题SVM的数据需要归一化或者标准化。第4题SVM是这样一个分类器,他寻找具有最小边缘的超平面,因此它也经常被称为最小间隔分类器(minimalmarginclassifier)。第5题关于SVM的描述正确的是:()A支持向量机训练时候,数据不需要归一化或者标准化B支持向量机的学习策略就是间隔最大化C支持向量机可以通过核技巧,这使之成为实质上的非线性分类器D支持向量机模型定义在特征空间上的间隔最大的线性分类器正确答案:BCD第6题下面关于支持向量机的描述正确的是()。A可用于多分类的问题B是一种无监督学习方法C是一种监督学习的方法D支持非线性的核函数正确答案:ACD第7题支持向量机有哪些常用的核函数()。A线性核B多项式核C拉普拉斯核D高斯核正确答案:ABD第8题以下关于支持向量机的说法正确的是()ASVM分类面取决于支持向量BSVM方法简单,鲁棒性较好CSVM分类思想就是将分类面之间的间隔最小化DSVM适用于大规模数据集正确答案:AB第9题SVM原理描述不正确的是()。A当训练样本线性可分时,通过硬间隔最大化,学习一个线性分类器,即线性可分支持向量机B当训练数据线性不可分时,通过使用核技巧及软间隔最大化,学习非线性支持向量机CSVM的基本模型是在特征空间中寻找间隔最小化的分离超平面的线性分类器D当训练数据近似线性可分时,引入松弛变量,通过软间隔最大化,学习一个线性分类器,即线性支持向量机第10题一个正例(2,3),一个负例(0,-1),下面哪个是SVM超平面?()A无法计算Bx+2y-3=0C2y+x-5=0D

2x+y-4=0第11题SVM中的代价参数C表示什么?A交叉验证的次数B用到的核函数C在分类准确性和模型复杂度之间的权衡D以上都不对第12题SVM算法的性能取决于:()A核函数的参数B核函数的选择C软间隔参数CD以上所有第13题在SVM中,margin的含义是()A间隔B损失C幅度D差额第14题线性SVM和一般线性分类器的区别主要是:()。A训练误差通常较低B是否进行了空间映射C是否能处理线性不可分问题D是否确保间隔最大化第15题SVM算法的最小时间复杂度是O(n^2)。基于这一点,以下哪种规格的数据集并不适用于该算法?()A大数据集B小数据集C中数据集D不受数据集大小的影响第16题‍如果一个样本空间线性可分,那么,我们能找到(

)个平面来划分样本。A2B1C无数D不确定第17题关于各类核函数的优缺点说法错误的是:()A高斯核能够应对较为复杂的数据B线性核计算简单,可解释性强C多项式核需要多次特征转换D高斯核计算简单,不容易过拟合第18题对于在原空间中线性不可分问题,支持向量机()。A在原空间中寻找非线性函数的划分数据B无法处理C将数据映射到核空间中D在原空间中寻找线性函数划分数据第19题‎关于支持向量机中硬间隔和软间隔的说法正确的是()。A软间隔允许一定的样本分类错误B硬间隔有利于消除模型的过拟合C软间隔有利于获取更大的分类间隔D硬间隔要求所有数据分类完全准确,不允许出现错误正确答案:ACD第20题SVM对噪声(如来自其他分布的噪声样本)鲁棒第21题在SVM训练好后,我们可以抛弃非支持向量的样本点,热然可以对新样本进行分类第22题支持向量机的解具有稀疏性第23题下列关于支持向量机的用法正确的是?()A当数据是线性可分时,可以考虑支持向量机的基本型B当数据是线性不可分时,可以考虑引入核函数的支持向量机C若使用引入核函数的支持向量机,可以通过模型选择等技术挑选较为合适的核函数D以上说法都是正确的第24题关于核函数的说法,正确的是()A能绕过显式考虑特征映射B能够缓解计算高维内积的困难C能够直接在原始的特征空间计算D以上说法都是正确的第25题如果不存在一个能正确划分两类样本的超平面,应该怎么办?A将样本从原始空间映射到一个更高维的特征空间,使样本在这个特征空间内线性可分B将样本从原始空间映射到一个更低维的特征空间,使样本在这个特征空间内线性可分C将样本从原始空间映射到一个更高维的特征空间,使样本在这个特征空间内线性不可分D将样本从原始空间映射到一个更低维的特征空间,使样本在这个特征空间内线性不可分第26题在求解支持向量机截距项的时候错误的说法是()A通过任意支持向量都能够求解出截距项B通过任意样本都能够求解出截距项C为了提高鲁棒性,通常使用所有支持向量求解的平均值D截距项的求解能够体现支持向量机学习到的超平面仅与少量支持向量有关第27题通过拉格朗日乘子法可以得到支持向量机的对偶问题。第28题两个异类支持向量到超平面的距离之和称之为间隔.第29题下面关于支持向量机的说法错误的是?A支持向量机基本型是一个凸二次规划问题B将训练样本分开的超平面仅由支持向量决定C支持向量机的核心思想是最大化间隔D以上选项都是错的第30题对于线性可分的二分类任务样本集,将训练样本分开的超平面有很多,支持向量机试图寻找满足什么条件的超平面?A靠近正类样本的B靠近负类样本的C在正负类样本“正中间”的D以上说法都不对第六章-习题第1题第2题第3题第4题k-means算法的中心点可以不是数据点吗?第5题K-means的求解过程是____优化问题,是NP难的。通常的解法是____和____。正确答案::非凸组合正确答案::启发式方法正确答案::松弛方法第6题相似性度量的四个特征是____,____,____,____。正确答案::非负性正确答案::同一性正确答案::对称性正确答案::直递性第7题聚类任务的三个基本概念是____,____,____。正确答案::簇正确答案::质心正确答案::相似性度量第8题常用的相似性度量有A欧式距离B余弦相似性CJaccord相似性D曼哈顿距离正确答案:ABCD第9题聚类任务的三个难点是_A相似性难以精确度量B可能存在的划分太多C数据量庞大D聚类的个数未知正确答案:ABD第10题网格聚类与密度聚类不同,需要指定聚类的簇数。第11题DBSCAN算法将数据点分成()A核心点B边界点C噪声点D异常点正确答案:ABC第12题密度聚类不需要在算法开始前指定聚类的个数第13题层次聚类需要指定聚类的簇数第14题AGNES算法的最大距离对于异常值不敏感第15题AGNES算法中的距离策略有哪些A最小距离B最大距离C平局距离D欧氏距离正确答案:ABC第16题谱聚类中()构造的临界矩阵是不对成的。A\epision邻域Bk-紧邻C全连接图D以上都是第17题谱聚类中邻接矩阵的构造方法有()A\epision邻域Bk-紧邻C全连接图D以上都是第18题K-means++的改进主要集中在初始K值的选择上。第19题矩阵形式的K-means算法,将组合优化问题转换为矩阵优化问题。其没有简化聚类问题的难度,但是提供了更多的求解方法。第20题K-means对异常点、离群点敏感。第21题K-means模型的目标函数的求解是非凸组合优化问题,是NP难的。第22题K-means算法的目标是最小化类内间距第23题调整兰德系数取值范围为[−1,1],值越大意味着聚类结果与真实情况越吻合。第24题轮廓系数的取值范围为[−1,1]第25题轮廓系数的值越接近于1,表明样本聚类越合理第26题相似性度量应该具备的特点()A非负性B同一性C对称性D直递性正确答案:ABCD第27题质心就是中心点第28题聚类问题的三个难题A相似性如何度量B聚类的个数C如何划分D如何聚类正确答案:ABC第29题DBSCAN是相对抗噪声的,并且能够处理任意形状和大小的簇。第30题在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越好。第31题​K均值是一种产生划分聚类算法,簇的个数由算法自动地确定。第32题‎如果一个对象不强属于任何簇,那么该对象是基于聚类的离群点。第33题关于DBSCAN算法,以下说法正确的是()。ADBSCAN算法需要在指定簇的个数BDBSCAN算法将点分成核心点、边界点和噪音点三类CDBSCAN算法是一种基于密度的聚类算法DDBSCAN算法是一种基于划分的聚类算法正确答案:BC第34题‎关于层次聚类,正确的是()。A因为每个样本只属于一个簇,所以层次聚类属于硬聚类B聚合聚类是从下而上进行聚类C层次聚类又有聚合聚类(自下而上)、分裂聚类(自上而下)两种方法D分裂聚类是从上而下进行聚类正确答案:ABCD第35题下面哪些是聚类的评价指标(

)。A轮廓系数B完整性C均方差D决定系数R正确答案:ABCD第36题聚类的代表算法有()。ASVDBDBSCANCK-meansDPCA

正确答案:BC第37题​关于密度聚类和层次聚类说法错误的是()。A密度聚类假设类结构能通过样本分布的紧密程度确定B密度聚类对噪声数据非常敏感C层次聚类对给定的数据进行有层次的分解,直到满足条件为止D层次聚类有自底向上和自顶向下两种策略第38题以下哪些可作为kmeans方法停止循环的指标(

)。A当循环数超过某一个阈值的时候B当所有数据隶属的簇不再发生变化的时候C当所有的野值点均隶属于一个簇的时候D当各个类中心还在发生偏移的时候正确答案:AB第39题‌以下哪些是聚类中用于衡量度量距离的指标()。A曼哈顿距离

B欧式距离C汉明距离D马氏距离正确答案:ABCD第40题关于kmean算法的实现描述错误的是()A可以轻松发现非凸形状的簇B需要事先确定k的值C原理简单,实现容易D收敛速度慢第41题关于聚类的说法错误的有()A聚类算法的更新步骤可解释性不强B聚类的算法训练样本往往都不含有标签C聚类算法对于孤立的野值不敏感D其目的是根据过去的观测结果来预测新样本的标签为聚类正确答案:ACD第42题关于K均值和DBSCAN的比较,以下说法不正确的是()。ADBSCAN使用基于密度的概念BDBSCAN可以处理不同大小和不同形状的簇。CK均值使用簇的基于层次的概念DK均值很难处理非球形的簇和不同大小的簇第43题简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作(

)。A非互斥聚类B层次聚类C划分聚类D密度聚类第44题​以下不属于聚类算法的是()。AK-meansBAGENESCDBSCAND随机森林第45题以下关于K-means算法正确的有(

)。AK-means算法本质上是EM(期望最大化)方法BK-means在重新计算质心,簇会发生变化CK-means算法不会出现局部极小值的问题DK-means算法需要指定簇的个数正确答案:BCD第46题下列关于Kmeans聚类算法的说法正确的是()。AK值无法自动获取,初始聚类中心随机选择B对大数据集有较高的效率并且具有可伸缩性C是一种无监督学习方法D初始聚类中心的选择对聚类结果影响不大正确答案:ABC第47题聚类属于哪种学习方式()。A监督学习B无监督学习C强化学习D都不属于第七章-习题第1题以下哪种技术对于减少数据集的维度会更好?A删除缺少值太多的列B删除数据差异较大的列C删除不同数据趋势的列D都不是第2题‌关于PCA特点说法错误的是(

)。APCA算法完全没有参数限制BPCA算法需要对对象有一定的先验知识CPCA算法很难去除噪声DPCA可以降低算法的计算开销第3题以下哪个选项是真的?ALDA明确地尝试对数据类别之间的差异进行建模,而PCA没有。B两者都试图模拟数据类之间的差异。CPCA明确地试图对数据类别之间的差异进行建模,而LDA没有。D两者都不试图模拟数据类之间的差异。第4题在哪种条件下,SVD和PCA产生相同的投影结果?A当数据为零时B当数据均值为零时,C两者总是相同D都不是第5题在图像数据集上应用PCA时,以下哪个选项是正确的?A它可以用于有效地检测可变形物体。B仿射变换是不变的。C它可用于有损图像压缩。D阴影不是不变的。正确答案:CD第6题以下哪种方法会导致更好的类别预测?A建立PCA分类算法(PCA方向的主成分)B建立LDA分类算法C不知道D都不是第7题以下哪个选项是真的?A在PCA中需要初始化参数B在PCA中不需要初始化参数CPCA可以被困在局部最小问题DPCA不能被困到局部最小问题正确答案:BD第8题当使用PCA获得较低维度的特征时会发生什么?A

这些特征仍然具有可解释性B特征将失去可解释性C

特征必须携带数据中存在的所有信息D这些特征可能不携带数据中存在的所有信息正确答案:BD第9题以下情况中PCA的效果好吗?

1.数据中的线性结构;2.如果数据位于曲面上,而不在平坦的表面上;3.如果变量以同一单元缩放。A1和2B2和3C1和3D1、2和3第10题PCA和LDA的以下比较哪些是正确的?1.LDA和PCA都是线性变换技术。2.LDA是有监督的,而PCA是无监督的;3.PCA最大化数据的方差,而LDA最大化不同类之间的分离。A1和2B2和3C1和3D1、2和3第11题以下哪种情况LDA会失败?A如果有辨识性的信息不是平均值,而是数据的方差B如果有辨识性的信息是平均值,而不是数据方差C如果有辨识性的信息是数据的均值和方差D都不是第12题LDA的以下哪项是正确的?

ALDA旨在最大化之间类别的距离,并最小化类内之间的距离BLDA旨在最小化类别和类内之间的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论