人工智能机器学习技术练习(习题卷1)_第1页
人工智能机器学习技术练习(习题卷1)_第2页
人工智能机器学习技术练习(习题卷1)_第3页
人工智能机器学习技术练习(习题卷1)_第4页
人工智能机器学习技术练习(习题卷1)_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:人工智能机器学习技术练习人工智能机器学习技术练习(习题卷1)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages人工智能机器学习技术练习第1部分:单项选择题,共155题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.现在有一份数据,你随机的将数据分成了n份,然后同时训练n个子模型,再将模型最后相结合得到一个强学习器,这属于boosting方法吗A)是B)不是C)不确定答案:B解析:[单选题]2.基于划分的聚类,说法正确的是()A)对分区个数敏感B)无法区分互斥的簇C)有利于寻找非球形簇答案:A解析:[单选题]3.回归问题的评价指标中MAE是指()A)均方根误差B)均方误差C)平均绝对误差答案:C解析:[单选题]4.逻辑回归拟合的函数是()A)sigmoidB)tanhC)relu答案:A解析:[单选题]5.如果我们说线性回归模型完美地拟合了训练样本(训练样本误差为零),则下面说法正确的是()。A)测试样本误差始终为零B)测试样本误差不可能为零C)以上答案都不对答案:C解析:根据训练样本误差为零,无法推断测试样本误差是否为零。如果测试样本集很大,则很可能发生过拟合,导致模型不具备很好的泛化能力。[单选题]6.下列关于聚类挖掘技术的说法中,错误的是()。A)不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别B)要求同类数据的内容相似度尽可能小C)要求不同类数据的内容相似度尽可能小D)与分类挖掘技术相似的是,都是要对数据进行分类处理答案:B解析:聚类挖据技术中要求不同类数据的内容相似度尽可能小。[单选题]7.在机器学习算法中,选择具有最大间隔的分割线进行预测的算法是哪一个()A)线性回归B)支持向量机C)决策树D)K-Means答案:B解析:[单选题]8.以下关于机器学习描述错误的是?A)是一门涉及统计学、系统辨识、逼近理论、神经网络、优化理论、计算机科学、脑科学等诸多领域的交叉学科B)研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能C)器学习强调三个关键词:算法、模型、训练D)基于数据的机器学习是现代智能技术中的重要方法之一答案:C解析:[单选题]9.以下关于神经网络的说法中,正确的是()?A)增加网络层数,一定能减小训练集错误率B)减小网络层数,一定能减小测试集错误率C)增加网络层数,可能增加测试集错误率D)增加网络层数,一定增加测试集错误率答案:C解析:[单选题]10.下列神经网络特点描述错误的是A)适应性B)由简单单元组成C)广泛并行互连的网络D)线性特性答案:D解析:[单选题]11.若a=range(100),以下哪个操作是非法的是()。A)a[-0.3]B)a[2:13]C)a[::3]D)a[2-3]答案:A解析:[单选题]12.关于线性鉴别分析的描述最准确的是,找到一个投影方向,使得()A)类内距离最大,类间距离最小B)类内距离最小,类间距离最大C)类内距离最大,类间距离最大D)类内距离最小,类间距离最小答案:B解析:[单选题]13.贝叶斯网借助(__)来刻画属性之间的依赖关系。A)有向图B)无环图C)有向无环图D)欧拉图答案:C解析:[单选题]14.TF-IDF模型中IDF是指(__)。A)词频数B)逆文档频率C)词频率D)逆文档频数答案:B解析:[单选题]15.下列关于zookeeper自身特性说法正确的是()A)zookeeper是一个被动协调服务组件B)zookeeper是一个计算组件C)zookeeper是一个主动协调服务D)zookeeper是一个存储模型答案:A解析:[单选题]16.StandardScaler预处理方法可以表示为?=(?-?)/?,其中?表示特征所在列的A)最大值B)分解阈值C)均值D)方差答案:D解析:[单选题]17.代码print(1ifain'ABC'else2)执行结果是()。A)1B)2C)报错D)无结果答案:C解析:[单选题]18.一般来说,下列哪种方法常用来预测连续独立变量?A)线性回归B)逻辑回顾C)线性回归和逻辑回归都行D)以上说法都不对答案:A解析:线性回归一般用于实数预测,逻辑回归一般用于分类问题。[单选题]19.BP神经网络模型拓扑结构不包括()A)输入层B)隐层C)翰出层D)显层答案:D解析:[单选题]20.决策树模型的规模应当是()。A)越复杂越好B)越简单越好C)适当限制其复杂程度D)尽可能利用所有特征答案:C解析:决策树模型的规模复杂可能产生过拟合,因此并非越复杂做好,应适当限制其复杂程度。[单选题]21.下面两张图展示了两个拟合回归线(A和B),原始数据是随机产生的。现在,我想要计算A和B各自的残差之和。注意:两种图中的坐标尺度一样。关于A和B各自的残差之和,下列说法正确的是?A)A比B高B)A比B小C)A与B相同D)以上说法都不对答案:C解析:A和B中各自的残差之和应该是相同的。线性回归模型的损失函数为:J=(XW-Y)(XW-Y)/m对损失函数求导,并令∇J=0,即可得到XW-Y=0,即残差之和始终为零[单选题]22.选择Logistic回归中的One-Vs-All方法中的哪个选项是真实的。A)我们需要在n类分类问题中适合n个模型B)我们需要适合n-1个模型来分类为n个类C)我们需要只适合1个模型来分类为n个类D)这些都没有答案:A解析:如果存在n个类,那么n个单独的逻辑回归必须与之相适应,其中每个类的概率由剩余类的概率之和确定。[单选题]23.在抽样估计中,随着样本容量的增大,样本统计量接近总体参数的概率就越大,这一性质称为()。A)无偏性B)有效性C)及时性D)一致性答案:D解析:一致性是指随着样本容量的增大,样本统计量接近总体参数的概率就越大。对于给定的偏差控制水平,两者间偏差高于此控制水平的可能性越小。[单选题]24.下列哪项具体任务不属于情感分析?()A)情感分类B)观点抽取C)观点问答D)段落匹配答案:D解析:[单选题]25.下面关于RandomForest和GradientBoostingTrees说法正确的是?A)RandomForest的中间树不是相互独立的,而GradientBoostingTrees的中间树是相互独立的B)两者都使用随机特征子集来创建中间树C)在GradientBoostingTrees中可以生成并行树,因为它们是相互独立的D)无论任何数据,GradientBoostingTrees总是优于RandomForest答案:B解析:本题考查的是随机森林和梯度提升树(GBDT)的基本概率和区别。[单选题]26.下面说法正确的是?A)梯度下降有时会陷于局部极小值,但EM算法不会。B)SVM对噪声鲁棒。C)当训练数据较多时更容易发生过拟合。D)给定n个数据点,如果其中一半用于训练,另一半用于测试,则训练误差和测试误差之间的差别会随着n的增加而减小。答案:D解析:[单选题]27.下列算法中,()更适合做时间序列建模。A)CNNB)决策树C)LSTMD)贝叶斯算法答案:C解析:LSTM为长短时记忆网络,是一种时间递归神经网络。[单选题]28.解决线性不可分情况下的支持向量分类机的最优化模型问题时,以下可以保证结果模型线性可分的是A)C=1B)C=0C)C无限制D)以上均不正确答案:C解析:[单选题]29.以下关于Zookeeper的Leader节点在收到数据变更请求后的读写流程说法正确的是?()A)仅写入内存B)同时写入磁盘和内存C)先写入内存再写入磁盘D)先写磁盘再写内存答案:D解析:[单选题]30.规则生成本质上是一个贪心搜索的过程,须有一定的机制来缓解过拟合的风险,最常见的做法是A)序列化B)剪枝C)去重D)重组答案:B解析:[单选题]31.过拟合现象中()A)训练样本的测试误差最小,测试样本的正确识别率却很低B)训练样本的测试误差最小,测试样本的正确识别率也很高C)模型的泛化能力很高D)通常为线性模型答案:A解析:[单选题]32.下列对于精度的描述,解释正确的是(__)。A)统计分类器预测出来的结果与真实结果不相同的个数,然后除以总的样例集D的个数。B)先统计分类正确的样本数,然后除以总的样例集D的个数。C)预测为正的样例中有多少是真正的正样例D)样本中的正例有多少被预测正确答案:B解析:[单选题]33.关于随机森林描述不正确的是()。A)随机森林是一种集成学习方法B)随机森林的随机性主要体现在,当训练单棵决策树时,对样本和特征同时进行采样C)随机森林可以高度并行化D)随机森林在预测时,根据单棵决策树分类误差进行加权投票答案:D解析:[单选题]34.以下关于机器学习的发展历程描述错误的是(___)。A)要使机器具有智能,就必须设法使机器拥有知识B)从二十世纪七十年代中期开始,人工智能研究进入了?知识期?C)二十世纪五十年代中后期,基于神经网络的?符号主义?学习开始出现D)二十世纪八十年代是机器学习称为一个独立的学科领域、各种机器学习技术百花初绽的时期答案:C解析:[单选题]35.下列说法错误的是()。A)当目标函数是凸函数时,梯度下降算法的解一般就是全局最优解B)进行PCA降维时,需要计算协方差矩C)沿负梯度的方向一定是最优的方向D)利用拉格朗日函数能解带约束的优化问题答案:C解析:沿负梯度的方向是函数值减少最快的方向但不一定就是最优方向。[单选题]36.增强现实领域(AR)大量应用了(),典型的就是微软的HoLolensA)虚拟现实技术B)图像处理C)计算机视觉D)语音识别答案:C解析:[单选题]37.使用什么函数接收用输入的数据()。A)accept()B)input()C)readline()D)login()答案:B解析:[单选题]38.对于神经网络模型,当样本足够多时,少量输入样本中带有较大的误差甚至个别错误对模型的输入-输出映射关系影响很小,这属于()A)泛化能力B)容错能力C)搜索能力D)非线性映射能力答案:B解析:[单选题]39.下列选项中,不能创建一个Series对象的是()。A)ser_obj=pd.Series([1,2,3,4,5])B)ser_obj=pd.Series({2001:17.8,2002:20.1,2003:16.5})C)ser_obj=pd.Series((1,2,3,4))D)ser_obj=pd.Series(1,2)答案:D解析:[单选题]40.机器学习研究的目标有三个,不包括(A)人类学习与过程的认知模型B)通用学习算法C)构造面问仕务的专用学习系统D)制作长相接近人类的机器系统答案:D解析:[单选题]41.混合高斯聚类中,运用了以下哪种过程()A)EM算法B)集合运算C)密度可达D)样本与集合运算答案:A解析:[单选题]42.人工智能未来发展的三个层次包括(A)弱人工智能B)强人工智能C)超人工智自D)以上全对,答案:D解析:[单选题]43.以下说法中正确的是()。A)Python3.x完全兼容Python2.x。B)在Windows平台上编写的Python程序无法在Unix平台运行。C)不可以在同一台计算机上安装多个Python版本。D)Python是跨平台的答案:D解析:[单选题]44.使用下列二维图形变换矩阵A=T*a,class="fr-ficfr-dibcursor-hover"将产生的变换结果为:A)图形放大2倍B)图形放大2倍,同时沿X、Y坐标轴方向各移动一个单位C)沿x坐标轴方向移动2个单位D)沿X坐标轴放大2倍,同时沿X、Y坐标轴方向各移动一个单位答案:D解析:[单选题]45.下列选项中,用于搭接数据仓库和保证数据质量的是()。A)数据收集B)数据处理C)数据分析D)数据展现答案:B解析:[单选题]46.(__)通过构建并结合多个学习器来完成学习任务。A)支持向量机B)贝叶斯分类器C)神经网络D)集成学习答案:D解析:[单选题]47.已知数组trans_cnt[1,2,3,4],trans_cnt[2]代表的是哪一个元素:A)1B)2C)3D)4答案:C解析:[单选题]48.()是并行式集成学习方法最著名的代表A)随机森林B)BoostingC)BaggingD)AdaBoost答案:C解析:[单选题]49.()分类方法可以较好地避免样本的不平衡问题。A)KNNB)SVMC)BayesD)神经网络答案:A解析:KNN只是取了最近的几个样本点做平均,离预测数据较远的训练数据对预测结果不会造成影响,但是SVM、Baves和KNN的每一个训练样本结果都会对预测结果产生影响。[单选题]50.在回归模型中,()在权衡欠拟合(under-fitting)和过拟合(over-fitting)中影响最大。A)多项式阶数B)更新权重w时,使用的是矩阵求逆C)使用常数项D)使用梯度下降法答案:A解析:选择合适的多项式阶数非常重要。如果阶数过大,模型就会更加复杂,容易发生过拟合;如果阶数较小,模型就会过于简单,容易发生欠拟合。[单选题]51.判断并求一个数的绝对值,用_____结构实现最简单。A)多分支结构B)双分支结构C)单分支结构D)循环结构答案:C解析:[单选题]52.线性回归是一种(),它分为简单线性回归和多元线性回归A)无监督学习算法B)有监督学习算法C)强化学习D)聚类算法答案:B解析:[单选题]53.朴素贝叶斯是一种典型的基于概率的机器学习方法,它利用了A)先验概率B)后验概率C)以上都是D)以上都不是答案:C解析:[单选题]54.如果我们用了一个过大的学习速率会发生什么?A)神经网络会收敛B)不好说C)都不对D)神经网络不会收敛答案:D解析:[单选题]55.一个机器学习系统的基本结构不包括以下那个()A)感知B)学习C)环境D)知识库答案:A解析:[单选题]56.OpenCV用于绘制椭圆的函数是()。A)line()B)circle()C)ellipse()D)polylines()答案:C解析:[单选题]57.与生成方法、半监督SVM、图半监督学习等基于单学习机器利用未标记数据不同,基于分歧的方法(disagreement-basedmethods)使用多学习器,而学习器之间的分歧(disagreement)对未标记数据的利用至关重要。()是此类方法的重要代表。A)协同训练B)组合训练C)配合训练D)陪同训练答案:A解析:协同训练是此类方法的重要代表,它很好地利用了多视图的相容互补性。[单选题]58.移动运营商对客户的流失进行预测,可以使用下面哪种机器学习方法比较合适()。A)一元线性回归分析B)关联方法C)聚类方法D)多层前馈网络答案:D解析:[单选题]59.下列关于泛化误差与偏差、方差和噪音之间的关系,表述正确的是(__)。A)泛化误差=偏差+方差-噪音B)泛化误差=偏差-方差+噪音C)泛化误差=偏差-方差-噪音D)泛化误差=偏差+方差+噪音答案:D解析:[单选题]60.数据预处理对机器学习是很重要的,下面说法正确的是()。A)数据预处理的效果直接决定了机器学习的结果质量B)数据噪声对神经网络的训练没什么影响C)对于有问题的数据都直接删除即可D)预处理不需要花费大量的时间答案:A解析:[单选题]61.()是基于规则的分类器。A)C4.5B)KNNC)NaiveBayesD)ANN答案:A解析:基于规则的分类器有决策树、随机森林、Aprior,C4.5属于决策树算法。[单选题]62.在k均值算法中,假定聚类簇数k=3,则在算法开始时随机选取(__)个样本作为初始均值向量A)1B)2C)3D)任意答案:C解析:[单选题]63.假设在庞大的数据集上使用Logistic回归模型,可能遇到一个问题,Logistic回归需要很长时间才能训练,如果对相同的数据进行逻辑回归,则花费更少的时间,并给出比较相似的精度的方法是()。A)降低学习率,减少选代次数B)降低学习率,增加迭代次数C)提高学习率,增加迭代次数D)增加学习率,减少迭代次数答案:D解析:如果在训练时减少选代次数,就能花费更少的时间获得相同的精度,但需要增加学习率。[单选题]64.调用sklearn中的train_test_split函数将数据集切分为训练集和测试集。训练集与测试集比例为6:4。最合适的代码为:A)X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.4)B)X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.6)C)X_train,y_train,X_test,y_test=train_test_split(X,y,test_size=0.6)D)y_train,y_test,X_train,X_test=train_test_split(X,y,test_size=0.4)答案:A解析:[单选题]65.下列有关核函数不正确的是:A)可以采用cross-va1idalion方法选择最佳核函数B)满足Mercer条件的函数不一定能作为支持向量机的核函数C)极大地提高了学习机器的非线性处理能力D)函数与非线性映射并不是一一对应的关系答案:B解析:[单选题]66.在n维空间中(n>1),下列哪种方法最适合用来检测异常值?A)正态概率图B)箱形图C)马氏距离D)散点图答案:C解析:正态概率图(NormalProbabilityPlot)一般用来检查一组数据是否服从正态分布。是实数与正态分布数据之间函数关系的散点图。如果这组实数服从正态分布,正态概率图将是一条直线。[单选题]67.情感分析技术可以应用于()A)股票市场分析B)互联网舆情分析与监控C)商品服务质量评估D)以上都是答案:D解析:[单选题]68.‌SVM中的代价参数C表示什么?A)交叉验证的次数B)以上都不对C)用到的核函数D)在分类准确性和模型复杂度之间的权衡答案:D解析:[单选题]69.下列激活函数中,能够实现将特征限制到区间[-1,1]的是哪一个A)TanhB)LogisticC)ReLUD)Sigmoid答案:A解析:[单选题]70.()不是最近邻分类器的特点。A)它使用具体的训练实例进行预测,不必维护源自数据的模型B)分类一个测试样例开销很大C)最近邻分类器基于全局信息进行预测D)可以生产任意形状的决策边界答案:C解析:k近邻中的近邻指的是距离待预测数据的数据点,而k近邻指的是取距k近的前几个数据点,并非基于全局信息进行预测。[单选题]71.图像分割是(__)的过程。A)改变图像大小B)将图像分成多个小区域C)去除干扰信号D)使图像变得更加丰富答案:B解析:[单选题]72.列表a=[1,2,[3,4]],以下的运算结果为True的是()。A)length(a)==3B)len(a)==4C)len(a)==3D)length(a)==4答案:C解析:[单选题]73.S市A,B共有两个区,人口比例为3:5,据历史统计A的犯罪率为0.01%,B区为0.015%,现有一起新案件发生在S市,那么案件发生在A区的可能性有多大?()A)37.5%B)32.5%C)28.6%D)26.1%答案:C解析:[单选题]74.设有一幅二值图像,其中黑色的背景上有一条宽为5个像素的白线,如要通过空域滤波消除这条白线,需要用?A)3*3的算术均值滤波器B)7*7的算术均值滤波器C)3*3的谐波均值滤波器D)7*7的谐波均值滤波器答案:D解析:[单选题]75.层次聚类试图在不同层次上对数据集进行划分,从而形成(__)形结构。A)图B)环C)网D)树答案:D解析:[单选题]76.如果我使用数据集的全部特征并且能够达到100%的准确率,但在新数据集上仅能达到70%左右,这说明()A)欠拟合B)正常情况C)过拟合D)模型选择错误答案:C解析:[单选题]77.以下哪种方法能最佳地适应逻辑回归中的数据?A)LeastSquareErrorB)MaximumLikelihoodC)JaccarddistanceD)BothAandB答案:B解析:LogisticRegression使用可能的最大似然估值来测试逻辑回归过程。[单选题]78.下列关于HSV色彩空间中描述不正确的是()。A)H表示的是色调,指的是光的颜色B)S表示的是饱和度,指的色彩的深浅C)V表示的是亮度,指的是光的明暗D)HSV色彩空间称为五角锥体模型答案:D解析:[单选题]79.下列属于无监督学习的是:A)k-meansB)SVMC)最大熵D)CRF答案:A解析:[单选题]80.下列哪种去噪方法能较好的保持图像边缘。()A)中值滤波B)双边滤波C)均值滤波D)高斯滤波答案:A解析:[单选题]81.一个输入为(32,32,3)的数据集,通过一个大小为2×2的不重叠最大池化层,输出()。A)(28,28,8)B)(16,16,8)C)(28,28,3)D)(16,16,3)答案:D解析:[单选题]82.下列哪种嵌入方式支持双向上下文(BidirectionalContext)?A)Word2VecB)BERTC)GloVeD)以上所有答案:B解析:[单选题]83.感知机只有(__)神经元进行激活函数处理,即只拥有一层功能神经元。A)输入层B)输出层C)第一层D)第二层答案:B解析:[单选题]84.查准率和查全率是一对__的度量。A)相容B)相等C)矛盾D)包含答案:C解析:[单选题]85.哪一个是机器学习的合理定义?A)机器学习是计算机编程的科学B)机器学习从标记的数据中学习C)机器学习是允许机器人智能行动的领域D)机器学习能使计算机能够在没有明确编程的情况下学习答案:D解析:[单选题]86.中值滤波对(__)的表现较差。A)泊松噪声B)高斯噪声C)乘性噪声D)椒盐噪声答案:B解析:[单选题]87.以下可以用于处理决策树归纳中的过拟合的方法(__)。A)先剪枝B)使用确认集C)结合模型复杂度D)使用再代入估计答案:A解析:[单选题]88.一切以数据作为驱动或者核心的产品叫做()A)创新性产品B)数据产品C)风控产品D)核心产品答案:B解析:[单选题]89.数据战略的目标是(__)。A)数据本身的管理B)培育数据驱动组织或文化C)增强组织机构的敏捷性D)提高组织机构的核心竞争力答案:B解析:[单选题]90.以下选项不包含在DIKW金字塔中的是()。A)信息B)数值C)知识D)智慧答案:B解析:[单选题]91.下列对于PCA说法:①我们须在使用PCA前标准化数据;②我们应该选择使得模型有最大variance的主成分;③我们应该选择使得模型有最小variance的主成分;④我们可以使用PCA在低维度上做数据可视化。正确的是()。A)①、②、④B)②、④C)③、④D)①、③答案:A解析:须在使用PCA前标准化数据,应选择使得模型有最大variance的主成分,PCA在低维度上做数据可视化。[单选题]92.spark的master和worker通过什么方式进行通信的()。A)httpB)nioC)nettyD)Akka答案:D解析:[单选题]93.当数据过大以至于无法在RAM中同时处理时,哪种梯度下降方法更加有效?A)随机梯度下降法(StochasticGradientDescent)B)不知道C)整批梯度下降法(FullBatchGradientDescent)D)都不是答案:A解析:[单选题]94.使用梯度下降法训练回归模型时,会由于各特征尺寸相差较大而造成算法收敛较慢。应该将特征尺寸进行缩放至接近或相同尺寸。可采用sklearn中的类或函数是:(2.0分)2.0分A)LabelEcoderB)fit_transformC)accuracy_scoreD)StanderScaler答案:D解析:[单选题]95.若1.数据加工、2.数据化、3.数据整齐化、4.数据分析,则在数据科学的基本流程顺序是(__)。A)1234B)2134C)2314D)3214答案:B解析:[单选题]96.概率密度函数服从正态分布的噪声,叫做(__)。A)泊松噪声B)高斯噪声C)乘性噪声D)椒盐噪声答案:B解析:[单选题]97.建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?A)根据内容检索B)建模描述C)预测建模D)寻找模式和规则答案:C解析:[单选题]98.(__)是将数据转换为产品的艺术。A)数据柔术B)数据处理C)数据加工D)数据设计答案:A解析:[单选题]99.下面关于非监督学习算法的说法正确的是A)数据要是成对的B)算法准确率非常高C)没有经验数据可供学习D)需要一定的经验数据答案:C解析:[单选题]100.读取CSV文件中的数据用()包。A)sklearnB)MatplotlibC)PandasD)pylab答案:C解析:[单选题]101.一对一法分类器,k个类别需要多少个SVM:A)k(k-1)/2B)k(k-1)C)kD)k!答案:A解析:[单选题]102.下面算法属于局部处理的是()。A)灰度线性变换B)二值化C)傅里叶变换D)中值滤波答案:D解析:[单选题]103.不属于python标准数据类型的是A)DataframeB)字符串C)数值D)列表答案:A解析:[单选题]104.设X={1,2,3}是频繁项集,则可由X产生()个关联规则。A)4B)5C)6D)7答案:C解析:[单选题]105.(__)又称情感倾向性分析,是指对给定的文本,识别其中主观性文本的倾向是肯定还是否定的,或者说是正面还是负面的,是情感分析领域研究最多的A)情感分类B)情感检索C)情感抽取D)情感分析答案:A解析:[单选题]106.分析营销投入与销售收入的关系可以使用下面哪种数据挖掘方法()。A)关联分析B)回归分析C)聚类方法D)推荐算法答案:B解析:[单选题]107.普通反向传播算法和随时间的反向传播算法(BPTT)有什么技术上的不同()A)与普通反向传播不同的是,BPTT会在每个时间步长内减去所有对应权重的梯度B)与普通反向传播不同的是,BPTT会在每个时间步长内叠加所有对应权重的梯度C)BPTT使用的是二阶梯度D)没有差别答案:B解析:[单选题]108.以下有关机器学习理解不正确的是()。A)查询大量的操作数据去发现新的信息B)从大量的业务数据中分析有兴趣的新颖知识辅助决策的过程C)机器学习的结果不一定能辅助决策D)需要借助统计学或机器学习的一些算法答案:A解析:[单选题]109.从左到右和从右到左训练两个独立的LSTM语言模型,并将它们简单地连接起来A)GPTB)BERTC)ULMFitD)ELMo答案:D解析:[单选题]110.边界跟踪技术技术属于哪一类分割方法。()A)阈值分割法B)边缘分割法C)区域分割法D)特征分区法答案:B解析:[单选题]111.以下关于降维的表述,错误的是()。A)降维过程中可以保留原始数据的所有信息B)多维缩放的目标是要保证降维后样本之间的距离不变C)线性降维方法目标是要保证降维到的超平面能更好地表示原始数据D)核线性降维方法目标是通过核函数和核方法来避免采样空间投影到高维空间再降维之后的低维结构丢失答案:A解析:降维过程中尽量保留原始数据的信息,但不能保留原始数据的全部信息。[单选题]112.下图显示了训练过的3层卷积神经网络准确度,与参数数量(特征核的数量)的关系。从图中趋势可见,如果增加神经网络的宽度,精确度会增加到一个特定阈值后,便开始降低。造成这一现象的可能原因是什么?class="fr-ficfr-dibcursor-hover"A)即使增加卷积核的数量,只有少部分的核会被用作预测B)当卷积核数量增加时,神经网络的预测能力(Power)会降低C)当卷积核数量增加时,导致过拟合D)以上都不正确答案:C解析:[单选题]113.集成学习中,每个基分类器的正确率的最低要求()A)50%以上B)60%以上C)70%以上D)80%以上答案:A解析:[单选题]114.将闵可夫斯基距离和(__)结合即可处理混合属性。A)ValueDifferenceMectricB)k-meansC)k近邻D)SVM答案:A解析:[单选题]115.下图中主成分的最佳数量是多少?alt="">A)7B)30C)40D)不知道答案:B解析:可以在上图中看到,主成分的数量为30时以最小的数量得到最大的方差。[单选题]116.任一随机事件出现的概率为()。A)在-1与1之间B)小于0C)不小于1D)在0与1之间答案:D解析:如果没有其他的附加条件的话,一般概率P的取值范围是0≤P≤1。0代表不可能发生,1代表一定会发生。[单选题]117.sigmoid导数为()A)f(z)B)f(1-z)C)f(1+z)f(1-z)D)f(z)(1-f(z))答案:D解析:[单选题]118.Spark可以处理的数据任务包括()A)数据批处理任务B)准实时处理任务C)图数据处理任务D)A,B和C答案:D解析:[单选题]119.关于决策树节点划分指标描述正确的是()A)类别非纯度越大越好B)信息增益越大越好C)信息增益率越小越好D)基尼指数越大越好答案:B解析:[单选题]120.卷积神经网络中池化层的作用是()。A)寻找图像中的细节特征B)输入图片C)减少下一层的计算,防止过拟合D)输出图片答案:C解析:[单选题]121.假设我们使用原始的非线性可分版本的Soft-SVM优化目标函数。我们需要做什么来保证得到的模型是线性可分离的?A)C=0B)C=1C)C正无穷大D)C负无穷大答案:C解析:[单选题]122.‏哪些机器学习模型经过训练,能够根据其行为获得的奖励和反馈做出一系列决策?A)无监督学习B)监督学习C)强化学习D)以上全部答案:C解析:[单选题]123.关于L1、L2正则化下列说法正确的是?A)L2正则化能防止过拟合,提升模型的泛化能力,但L1做不到这点B)L2正则化技术又称为LassoRegularizationC)L1正则化得到的解更加稀疏D)L2正则化得到的解更加稀疏答案:C解析:[单选题]124.若学习如何种瓜,在种瓜过程中不断摸索,从而总结出好的种瓜策略。这个过程抽象出来,就是(__)。A)机器学习B)深度学习C)强化学习D)有监督学习答案:C解析:[单选题]125.在有限支撑集上,下面分布的熵最大()A)几何分布B)指数分布C)高斯分布D)均匀分布答案:D解析:[单选题]126.下面哪种不属于数据预处理的方法?A)变量代换B)离散化C)聚集D)估计遗漏值答案:D解析:[单选题]127.下面不属于探索性统计中常用离散程度统计量的是(__)。A)平均数B)方差C)标准差D)极大值答案:A解析:[单选题]128.加入使用逻辑回归对样本进行分类,得到训练样本的准确率和测试样本的准确率。现在,在数据中增加一个新的特征,其它特征保持不变。然后重新训练测试。则下列说法正确的是?A)训练样本准确率一定会降低B)训练样本准确率一定增加或保持不变C)测试样本准确率一定会降低D)测试样本准确率一定增加或保持不变答案:B解析:在模型中增加更多特征一般会增加训练样本的准确率,减小bias。但是测试样本准确率不一定增加,除非增加的特征是有效特征。这题对应的知识点也包括了增加模型复杂度,虽然会减小训练样本误差,但是容易发生过拟合。[单选题]129.决策树中不包含以下哪种结点A)根节点B)内部结点C)叶节点D)外部结点答案:D解析:[单选题]130.线性模型试图学得一个属性的(__)来进行预测的函数。A)线性组合B)非线性组合C)取值D)维度答案:A解析:[单选题]131.针对下面的代码,说法不正确的是();importnumpyasnpa=np.array([0,1,2,3,4])importpandasaspdb=pd.Series([0,1,2,3,4])A)a和b是不同的数字类型,他们之间不能直接进行运算。B)a和b表达同样的数据内容C)a和b都是一维数据D)a参与运算的执行速度明显比b快答案:D解析:[单选题]132.文本向量的每个元素表示该词的()。A)顺序B)频率C)含义D)语义关系答案:B解析:[单选题]133.下列对于查准率的描述,解释正确的是(__)。A)统计分类器预测出来的结果与真实结果不相同的个数,然后除以总的样例集D的个数。B)先统计分类正确的样本数,然后除以总的样例集D的个数。C)预测为正的样例中有多少是真正的正样例D)样本中的正例有多少被预测正确答案:C解析:[单选题]134.(__)的基本想法是适当考虑一部分属性间的相互依赖信息,从而既不需要进行完全联合概率计算,又不至于彻底忽略了比较强的属性依赖关系。A)贝叶斯判定准则B)贝叶斯决策论C)朴素贝叶斯分类器D)半朴素贝叶斯分类器答案:D解析:[单选题]135.spark.deploy.recoveryMode不支持那种()。A)ZooKeeperB)FileSystemC)NONED)hadoop答案:D解析:[单选题]136.在选择神经网络的深度时,下面哪些参数需要考虑?1神经网络的类型(如MLP,CNN);2输入数据;3计算能力(硬件和软件能力决定);4学习速率;5映射的输出函数.A)1,2,4,5B)2,3,4,5C)都需要考虑D)1,3,4,5答案:C解析:[单选题]137.Relief是为()问题设计的。A)二分类B)多分类C)回归D)降维答案:A解析:[单选题]138.让学习器不依赖外界交互、自动地利用未标记样本来提升学习性能,就是()?A)监督学习B)倍监督学习C)半监督学习D)无监督学习答案:C解析:[单选题]139.以下描述中,属于集合特点的是A)集合中的数据是无序的B)集合中的数据是可以重复的C)集合中的数据是严格有序的D)集合中必须嵌套一个子集合答案:A解析:[单选题]140.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?A)关联规则发现B)聚类C)分类D)自然语言处理答案:A解析:[单选题]141.贝叶斯决策论是在(__)框架下实施决策的基本方法。A)模型B)条件C)概率D)分类器答案:C解析:[单选题]142.下列关于特征编码的叙述中,不正确的是()A)特征编码是将非数值型特征转换成数值型特征的方法B)数字编码与特征的排序无关C)One-Hot编码中,原始特征有n种取值,转换后就会产生n列新特征D)哑变量编码解决了One-Hot编码中存在线性关系的问题答案:B解析:[单选题]143.对比于机器学习程序与传统的计算机程序,下列说法不正确的是:A)都属于计算机程序B)输出结果不同C)输出结果相同D)经验总结问题处理上传统程序效果更好答案:C解析:[单选题]144.(__)直接把最终将要使用的学习器的性能作为特征子集的评价标准。A)过滤式选择B)包裹式选择C)嵌入式选择D)正则化答案:B解析:[单选题]145.多层感知机方法中,可用作神经元的非线性激活函数()A)logisticB)范数C)线性内积D)加权求和答案:A解析:[单选题]146.关于Anaconda的组件中,可以编辑文档且展示数据分析过程的是()。A)AnacondaNavigatorB)AnacondaPromptC)SpyderD)JupyterNotebook答案:D解析:JupyterNotebook可以重现整个分析过程,并将说明文字、代码、图表、公式和结论都整合在一个文档中[单选题]147.高斯核也称为(__)。A)多项式核B)拉普拉斯核C)RBF核D)Sigmoid核答案:C解析:[单选题]148.假如你在训练一个线性回归模型,有下面两句话:1、如果数据量较少,容易发生过拟合。2、如果假设空间较小,容易发生过拟合。关于这两句话,下列说法正确的是?A)1和2都错误B)1正确,2错误C)1错误,2正确D)1和2都正确答案:B解析:先来看第1句话,如果数据量较少,容易在假设空间找到一个模型对训练样本的拟合度很好,容易造成过拟合,该模型不具备良好的泛化能力。再来看第2句话,如果假设空间较小,包含的可能的模型就比较少,也就不太可能找到一个模型能够对样本拟合得很好,容易造成高偏差、低方差,即欠拟合。[单选题]149.下面关于假设检验相关描述不正确的有(__)。A)先对总体均值进行假设,然后利用样本来检验假设是否成立这属于假设检验B)区间估计不是假设检验C)非参数假设检验是假设检验D)点估计是假设检验答案:D解析:[单选题]150.(__)先将数据集中的每个样本看做一个初始聚类簇,然后在算法运行的每一步找到距离最近的两个聚类簇进行合并,该过程不端重复,直至达到预设的聚类簇个数。A)原型聚类B)密度聚类C)层次聚类D)AGNES答案:D解析:[单选题]151.线性回归的基本假设不包括()。A)随机误差项是一个期望值为0的随机变量B)对于解释变量的所有观测值,随机误差项有相同的方差C)随机误差项彼此相关D)解释变量是确定性变量不是随机变量,与随机误差项之间相互独立答案:C解析:线性回归的基本假设:(1)线性关系假设。(2)正态性假设,指回归分析中的Y服从正态分布。(3)独立性假设,包含两个意思:①与某一个X对应的一组Y和与另一个X对应的一组Y之间没有关系,彼此独立;②误差项独立,不同的X所产生的误差之间应相互独立,无自相关。(4)误差等分散性假设:特定X水平的误差,除了应呈随机化的常态分配,其变异量也应相等,称为误差等分散性。[单选题]152.推荐系统为客户推荐商品,自动完成个性化选择商品的过程,满足客户的个性化需求,推荐基于(),推测客户将来可能的购买行为。A)客户的朋友B)客户的个人信息C)客户的兴趣爱好D)客户过去的购买行为和购买记录答案:D解析:[单选题]153.目前移动设备主流的屏幕帧率是每秒()帧A)24B)30C)60D)120答案:C解析:[单选题]154.下面哪个不是RDD的特点()。A)可分区B)可序列化C)可修改D)可持久化答案:C解析:[单选题]155.以下说法正确的是A)1B)2C)3D)2和3E)都错答案:E解析:1的模型中,如果负样本占比非常大,也会有很高的准确率,对正样本的分类不一定很好;4的模型中,?类别id?可以作为一个特征项去训练,这样会有效地总结了数据特征。第2部分:多项选择题,共49题,每题至少两个正确答案,多选或少选均不得分。[多选题]156.一个回归模型存在多重共线问题。在不损失过多信息的情况下,你该怎么做()A)移除共线的两个变量B)移除共线的两个变量其中一个C)我们可以计算方差膨胀因子(varianceinflationfactor)来检查存在的多重共线性并采取相应的措施D)移除相关变量可能会导致信息的丢失,为了保留这些变量,我们可以使用岭回归(ridge)或lasso等回归方法对模型进行惩罚答案:BCD解析:为了检查多重共线性,我们可以创建相关系数矩阵来辨别和移除相关系数大于75%的变量(阈值根据情况设定),除此之外,我们可以使用VIF方法来检查当前存在的共线变量。VIF<=4表明没有多种共线,VIF>=10表明有着严重的多重共线性。当然,我们也可以使用公差(tolerance)作为评估指标。但是,移除相关变量可能导致信息的丢失,为了保留这些变量,我们可以使用带惩罚的回归方法。我们也可以在相关变量之间随机加入噪音,使得变量之间存在差异。但增加噪音可能影响准确度,因此这种方法应该小心使用。[多选题]157.在正则化公式中,λ为正则化参数,关于λ的描述正确的是()。A)若正则化参数λ过大,可能会导致出现欠拟合现象B)若λ的值太大,则梯度下降可能不收敛C)取一个合理的λ值,可以更好地应用正则化D)如果令λ的值很大的话,为了使CostFunction尽可能的小,所有θ的值(不包括θ0)都会在一定程度上减小答案:ABCD解析:正则化参数太小容易产生过拟合,太大容易产生欠拟合。[多选题]158.常见的特征选择方法有哪些A)过滤式B)包裹式C)启发式D)嵌入式答案:ABD解析:[多选题]159.下列哪些项属于传统循环神经网络的性质。()A)上一时刻的网络状态信息将会作用于下一时刻的网络状态B)并行处理序列中所有信息C)容易梯度爆炸/消失D)易于搭建答案:AC解析:[多选题]160.属于数据变换的类型有(__)。A)平滑处理B)聚类C)标准化D)特征构造答案:ABD解析:[多选题]161.关于ZooKeeper的说法描述正确的是()A)是一个分布式应用程序协调服务B)Google的Chubby一个开源实现C)是Hadoop的重要组件D)提供的服务包括配置维护、域名服务、分布式同步、组服务答案:ABCD解析:[多选题]162.深度学习中的激活函数需要具有哪些属性?()A)计算简单B)非线性C)具有饱和区D)几乎处处可微答案:ABD解析:[多选题]163.专家系统的主要组成部分包括()A)知识库B)推理引擎C)用户接口D)自主学习系统答案:ABC解析:[多选题]164.根据波士顿郊区房屋信息,预测房屋价格。适合采用的方法有?A)CART回归决策树B)CART分类决策树C)线性回归D)朴素贝叶斯答案:AC解析:[多选题]165.JupyterNotebook支持以下哪些语言A)CB)RC)PythonD)Java答案:BC解析:[多选题]166.按用途分类,专家系统可分为()**A)诊断型B)预测型C)设计型D)控制型答案:ABCD解析:[多选题]167.强化学习中的?策略?就相当于监督学习中(__)或(__)。A)分类器B)决策树C)随机森林D)回归器答案:AD解析:[多选题]168.Zookeeper客户端命令中,递归删除节点可以使用()A)rmrB)deleteallC)deleteD)Mm答案:AB解析:[多选题]169.关于梯度下降算法中,超参数学习率的说法正确的是?A)学习率越小越好B)学习率控制参数调整的步长C)学习率越大越好D)学习率小会影响损失函数收敛于最小值的速度答案:BD解析:[多选题]170.预剪枝使得决策树的很多分子都没有展开,会导致()。A)显著减少训练时间开销B)显著减少测试时间开销C)降低过拟合风险D)提高欠拟合风险答案:ABCD解析:预剪枝使得决策树的很多分支都没有展开,这不仅降低了过拟合的风险,还显著减少了决策树的训练时间开销和测试时间开销。但另一方面,有些分支的当前划分虽不能提升泛化性能,其至可能导致泛化性能暂时下降,但在其基础上进行的后续划分却有可能导致性能显著提高;预剪枝基于贪心原则,禁止这些分支展开,提高了欠拟合的风险。[多选题]171.关于决策树的CART分类树构造算法和ID3算法,下列说法正确的是?A)选择切分特征时,CART算法使用信息熵B)选择切分特征时,CART算法使用基尼指数来度量一个数据集的混乱程度C)选择切分特征时,ID3算法使用基尼指数D)选择切分特征时,ID3算法使用信息熵答案:BD解析:[多选题]172.项目管理涉及(__)和整体、质量、人力资源、沟通、风险、采购的管理。A)时间B)空间C)成本D)范围答案:ACD解析:[多选题]173.信息熵是信息论中重要的信息度量,以下不正确的是()A)可度量不确定程度B)是运算中的商C)可度量信息量D)是向量的模答案:BD解析:[多选题]174.下列属于半监督学习方法的是(__)。A)半监督支持向量机B)图半监督学习C)生成式方法D)支持向量机答案:ABC解析:[多选题]175.下面属于探索性分析主要关注的四大主题的有(__)。A)耐抗性B)方差C)重新表达D)启示答案:ACD解析:[多选题]176.若线性回归方程得到多个解,下面哪些方法能够解决此问题?A)获取更多的训练样本B)选取样本有效的特征,使样本数量大于特征数C)加入正则化项D)不考虑偏置项b答案:ABC解析:[多选题]177.下列关于特征的稀疏性说法,正确的是()。A)稀疏性指的是矩阵中有许多列与当前学习任务无关B)稀疏样本可减少学习任务的计算开销C)学习任务难度可能有所降低D)稀疏矩阵没有高效的存储方法答案:ABC解析:在一个矩阵中,若非零元素的个数远远小于零元素的个数,且非零元素的分布没有规律,则称之为稀疏矩阵。为了节省存储空间并且加快并行程序处理速度,可对稀疏矩阵进行压缩存储。[多选题]178.从复杂度和价值高低两个维度,可以将数据分析分为(__)。A)描述性分析B)诊断性分析C)预测性分析D)规范性分析答案:ABCD解析:[多选题]179.按标注的实现层次,数据标注可以分为(__)。A)语义标注B)图像标注C)语法标注D)文字标注答案:AC解析:[多选题]180.下列关于贝叶斯分类器说法正确的是(__)。A)贝叶斯分类算法是一大类分类算法的总称B)贝叶斯分类算法以样本可能属于某类的概率作为分类依据C)朴素贝叶斯分类算法是贝叶斯分类算法中最简单的一种D)朴素贝叶斯分类算法采用了属性条件独立性假设答案:ABCD解析:[多选题]181.下列关于决策树的说法正确的是()A)ID3决策树是根据信息增益来划分属性B)C4.5决策树是根据增益率来划分属性C)CART决策树是根据基尼指数来划分属性D)基尼指数反映了从样本集D中随机抽取两个样本,其类别标记不一致的概率,因此越小越好答案:ABCD解析:[多选题]182.(__)不属于元分析方法。A)加权平均法B)优化方法C)时序法D)关联法答案:CD解析:[多选题]183.当同一个示例被判别结果不同的多条规则覆盖时,称发生了冲突,解决冲突的办法称为冲突消解,常用的冲突消解策略有A)投票法B)排序法C)元规则法D)因式分解法答案:ABC解析:[多选题]184.线性判别分析是一种(___)算法。A)有监督B)无监督C)分类D)降维答案:AD解析:[多选题]185.从不同的学习场景看,半监督学习可大致分为四大类A)半监督分类B)半监督回归C)半监督聚类D)半监督降维答案:ABCD解析:[多选题]186.从结构化角度来看,数据可分为()。A)结构化数据B)非结构化数据C)无结构化数据D)半结构化数据答案:ABD解析:[多选题]187.对单层感知机判别分类,描述正确的是()A)线性分类B)监督学习C)错误误差最小D)错误误差最大答案:ABC解析:[多选题]188.神经网络可以按()A)学习方式分类B)网络结构分类C)网络的协议类型分类D)网络的活动方式分类答案:ABD解析:[多选题]189.(__)是图像降噪的方法。A)空间域合成法B)中值滤波器C)最小值滤波D)非线性小波变换答案:ABCD解析:[多选题]190.影响聚类算法效果的主要原因有()。A)特征选取B)模式相似性测度C)分类准则D)已知类别的样本质量答案:ABC解析:聚类算法是无监督的学习算法,训练样本的标记信息是未知的。[多选题]191.关于集成学习正确的是()A)Bagging降低偏差B)Bagging降低方差C)Boosting降低偏差D)Boosting降低方差答案:BC解析:[多选题]192.图像识别技术的过程分以下几步:信息的获取、(__)、(__)、分类器设计和分类决策。A)辨认B)预处理C)统计D)特征抽取和选择答案:BD解析:[多选题]193.下面属于范数规则化的作用的是()。A)保证模型尽可能的简单,避免过拟合B)约束模型特征C)最小化问题D)最大化问题答案:AB解析:[多选题]194.在机器学习中,如果单纯去提高训练数据的预测能力,所选模型的复杂度往往会很高,这种现象称为过拟合,可以有效解决过拟合的方法包括A)增加样本数量B)增加特征数量C)训练更多的迭代次数D)采用正则化方法答案:AD解析:[多选题]195.按标注活动的自动化程度,数据标注可以分为(__)。A)手工标注B)文本标注C)半自动标注D)自动标注答案:ACD解析:[多选题]196.目前,机器学习领域所面临的主要挑战包括().A)过拟合B)维度灾难C)特征工程D)算法的可扩展性答案:ABCD解析:[多选题]197.下面与数据科学相关的正确描述有(__)。A)数据科学中的?数据?并不仅仅是?数值?也不等同?数值?B)数据科学中?计算?包括查询、洞见、可视化等C)数据科学关注的是?单一学科?D)数据科学并不仅仅是?理论研究?也不是?领域务实知识?答案:ABD解析:[多选题]198.对于主成分分析方法,确定降维后低维空间的维数d的方法有()。A)由用户事先指定B)通过在d值不同的低维空间中对开销较小的学习器进行交叉验证来选取C)可从重构的角度设置一个重构阈值,选取使得特定公式成立的最小值D)随机设置答案:ABC解析:降维后低维空间的维数通常是由用户事先指定,或通过在d值不同的低维空间中对k近邻分类器(或其他开销较小的学习器)进行交叉验证来选取较好的d值。还可从重构的角度设置一个重构阈值,选取使得特定公式成立的最小值。[多选题]199.未标记样本学习分类为A)主动学习B)半监督SVMC)半监督聚类D)图半监督学习答案:BCD解析:[多选题]200.机器学习中L1正则化和L2正则化的区别是?A)使用L1可以得到稀疏的权值B)使用L1可以得到平滑的权值C)使用L2可以得到稀疏的权值D)使用L2可以得到平滑的权值答案:AD解析:[多选题]201.常用的代价函数有()。A)均方误差B)均方根误差C)平均绝对误差D)交叉熵答案:ABCD解析:[多选题]202.M-P神经元模型描述正确的是A)神经元接收多个其他神经元传递过来的输入信号;B)这些输入信号通过带权重的连接传递;C)神经元接收到的总输入值将与神经元的阈值进行比较;D)通过激活函数处理产生神经元的输出;答案:ABCD解析:[多选题]203.?垃圾邮件?数据集训练模型来识别垃圾邮件。用训练好的模型对测试集进行预测。调用sklearn中的accuracy_score函数计算预测的准确率:单次测试的准确率为88.27%。A)朴素贝叶斯分类器只需要使用很少的训练数据B)对于该分类问题,朴素贝叶斯分类器预测准确率不是很高C)依次使用了训练集比例70%,60%,…,10%来训练模型并测试模型性能。发现随着训练集的减小和测试集增大,模型性能仅有极微小的改变。这说明?D)朴素贝叶斯分类器使用大量的训练数据可以显著提高预测准确率E)对于该分类问题,朴素贝叶斯分类器预测准确率很高答案:DE解析:[多选题]204.下列哪些方法可以用来对高维数据进行降维:A)LASSOB)主成分分析法C)聚类分析D)小波分析法E)线性判别法F)拉普拉斯特征映射答案:ABCDEF解析:第3部分:判断题,共33题,请判断题目是否正确。[判断题]205.计算机视觉(ComputerVision)是指利用摄像机和电脑代替人眼,使得计算机拥有类似于人类的那种对目标进行分割、分类、识别、跟踪、判别决策的功能A)正确B)错误答案:对解析:[判断题]206.通过zeros()函数创建的数组中元素值都是0。A)正确B)错误答案:对解析:[判断题]207.专家系统模拟人类专家的知识和经验解决特定领域的问题,实现了人工智能从理论研究走向实际应用A)正确B)错误答案:对解析:[判断题]208.机器学习方法传统上可以分为2类?A)正确B)错误答案:错解析:[判断题]209.如果数据量较少,容易发生过拟合。A)正确B)错误答案:对解析:[判断题]210.聚类需要从没有标签的一组输入向量中寻找数据的模型和规律。A)正确B)错误答案:对解析:[判断题]211.对于PCA(主成分分析)转化过的特征,朴素贝叶斯的?不依赖假设?总是成立,因为所有主要成分是正交的,这个说法是:A)正确的B)错误的答案:错解析:这个说法是错误的,首先,?不依赖?和?不相关?是两回事,其次,转化过的特征,也可能是相关的.[判断题]212.如果自变量X和因变量Y之间存在高度的非线性和复杂关系,那么树模型很可能优于经典回归方法。以上说法()。A)正确B)错误C)无法确定D)模型效果差别不大答案:对解析:当数据是非线性的时,经典回归模型泛化能力不强,而基于树的模型通常表现更好。[判断题]213.超父为假设所以属性都依赖于同一个属性A)正确;B)错误;答案:对解析:[判断题]214.通过求解损失函数的最小值,可以实现求解模型参数、优化模型参数和评价模型学习效果的目的。A)正确B)错误答案:对解析:[判断题]215.Bagging是一个低效的集成学习算法A)正确B)错误答案:错解析:[判断题]216.人工神经网络训练的目的就是使得损失函数最小化A)正确B)错误答案:对解析:[判断题]217.CART算法处理回归问题时,要求算法输出的是连续实数值A)正确B)错误答案:对解析:[判断题]218.已知学得规则:坏瓜←(纹理=模糊),则被该规则覆盖的样本为坏瓜。A)正确B)错误答案:对解析:[判断题]219."过拟合是有监督学习的挑战,而不是无监督学习"A)正确B)错误答案:对解析:[判断题]220.预剪枝决策树的训练时间开销比后剪枝决策树要大得多。A)正确B)错误答案:错解析:[判断题]221.深度学习是机器学习的一个分支A)正确B)错误答案:对解析:[判断题]222.最小二乘法是基于预测值和真实值的均方差最小化的方法来估计线性回归学习器的参数w和b。A)正确B)错误答案:对解析:[判断题]223.drop_duplicated()方法可以删除重复值。A)正确B)错误答案:错解析:[判断题]224.使用梯度下降法训练回归模型时,会由于各特征尺寸相差较大而造成算法收敛较慢。应该将特征尺寸进行缩放至接近或相同尺寸。可采用sklearn中的类或函数LabelEcoderA)正确B)错误答案:错解析:[判断题]225.决策树基本流程遵循简单且直观的分而治之策略。__A)正确B)错误答案:对解析:[判断题]226.要获得好的集成,个体学习器应?好而不同?,即个体学习器要有一定的?准确率?,即学习器不能太坏,并且要有?多样性?,即学习器间具有差异。A)正确B)错误答案:对解析:[判断题]227.逻辑回归是一种解决回归问题的算

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论