人工智能机器学习技术练习(习题卷4)

上传人：1*** IP属地：重庆上传时间：2024-04-29 格式：DOCX 页数：58 大小：75.90KB 积分：3.6 举报 版权申诉

已阅读5页，还剩53页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

试卷科目：人工智能机器学习技术练习人工智能机器学习技术练习(习题卷4)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages人工智能机器学习技术练习第1部分：单项选择题，共155题，每题只有一个正确答案,多选或少选均不得分。[单选题]1.混淆矩阵对角线上的值()A)越大越好B)越小越好C)无所谓大小答案:A解析:[单选题]2.关于回归问题,说法正确的是()A)可以不需要labelB)label列是连续型C)属于无监督学习答案:B解析:[单选题]3.如果我们说?线性回归?模型完美地拟合了训练样本（训练样本误差为零），则下面哪个说法是正确的？A)测试样本误差始终为零B)测试样本误差不可能为零C)以上答案都不对答案:C解析:根据训练样本误差为零，无法推断测试样本误差是否为零。值得一提是，如果测试样本样本很大，则很可能发生过拟合，模型不具备很好的泛化能力！[单选题]4.典型的分类算法是()A)决策树B)k-meansC)BIRCH答案:A解析:[单选题]5.关于SVM泛化误差描述正确的是A)超平面与支持向量之间距离B)超平面与支持向量之间距离C)SVM的误差阈值答案:B解析:[单选题]6.EM算法是（）学习算法A)有监督B)无监督C)半监督D)都不是答案:B解析:[单选题]7.逻辑回归的以下模型:P(y=1|x,w)=g(w0+w1x)其中g(z)是逻辑函数。在上述等式中,通过改变参数w可以得到的P(y=1|x;w)被视为x的函数。A)(0,inf)B)(-inf,0)C)(0,1)D)(-inf,inf)答案:C解析:对于从-∞到+∞的实数范围内的x的值。逻辑函数将给出(0,1)的输出。[单选题]8.批规范化(BatchNormalization)的好处都有啥？A)在将所有的输入传递到下一层之前对其进行归一化（更改）B)它将权重的归一化平均值和标准差C)它是一种非常有效的反向传播(BP)方法D)这些均不是答案:A解析:[单选题]9.以下说法正确的是（）A)Boosting和Bagging都是组合多个分类器投票的方法，二者都是根据单个分B)梯度下降有时会陷于局部极小值，但EM算法不会C)除了EM算法，梯度下降也可求混合高斯模型的参数D)基于最小二乘的线性回归问题中，答案:C解析:[单选题]10.下列选项中，（）是基于Web的交互式计算环境，可以编辑易于人们阅读的文档，用于展示数据分析的过程。A)JupyterNotebookB)AncondaNavigatorC)AncondaPromptD)Spyder答案:A解析:[单选题]11.相关关系是指（）。A)变量间的非独立关系B)变量间的因果关系C)变量间的函数关系D)变量间不确定性的依存关系答案:D解析:[单选题]12.1下列关于线性回归说法错误的是（）A)在现有模型上，加入新的变量，所得到的R^2的值总会增加B)线性回归的前提假设之一是残差必须服从独立正态分布C)残差的方差无偏估计是SSE/(n-p)D)自变量和残差不一定保持相互独立答案:D解析:[单选题]13.下列关于数据标准化的说法中，不正确的是（）A)Z-Score标准化适用于特征最大值和最小值未知，数据较分散的情况B)聚类算法要求数据集无量纲化C)Logistic标准化函数σ(x)满足σ(0)=1D)Min-Max标准化易受离群值影响答案:C解析:[单选题]14.多分类LDA将样本投影到N-1维空间,N-1通常远小于数据原有的属性数,可通过这个投影来减小样本点的维数,且投影过程中使用了类别信息,因此LDA也常被视为一种经典的()技术。A)无监督特征选择B)无监督降维C)监督特征选择D)监督降维答案:D解析:[单选题]15.下图，线性模型是完成（）任务A)回归B)分类C)聚类D)降维答案:A解析:[单选题]16.将两个簇的邻近度定义为不同簇中任意两点的最短距离，它是哪一种凝聚层次聚类技术?()A)MIN(单链)B)MAX(全链)C)组平均D)Ward方法答案:A解析:[单选题]17.半监督学习包括。A)主动学习B)回归学习C)聚类学习D)直推学习答案:D解析:[单选题]18.大数据产业全景图中包含以下选项(__)：1.基础设施;2.企业应用;3.分析工具;4.行业行为;5.开源工具;6.数据资源;7.跨平台基础设施和分析工具;8.数据源和APPs。A)1234B)12345678C)2345678D)5678答案:B解析:[单选题]19.强化学习()。A)也称为有教师学习B)需要经验数据C)数据要是成对的D)不需要预备知识答案:D解析:[单选题]20.线性模型中的权重w值可以看做各个属性x的()。A)正则化系数B)对最终决策结果的贡献度C)高维映射D)取值答案:B解析:[单选题]21.一幅256*256的图像,若灰度级数为16,则存储它所需的比特数是()A)256kB)512kC)1mD)2m答案:A解析:[单选题]22.自然语言处理系统英文缩写是()A)LSB)LPC)SLD)PL答案:A解析:[单选题]23.(__)主要包括数据科学中的新理念、理论、方法、技术和工具以及数据科学的研究目的、研究内容、基本流程、主要原则等。A)理论基础B)数据管理C)基础理论D)数据产品答案:C解析:[单选题]24.1特征分析，2影响分析，3原因分析，4数据审计，5忽略，6删除，7插值。以下顺序符合缺失数据处理过程的有(__)。A)416B)1236C)457D)2357答案:A解析:[单选题]25.下列哪些不是?子集搜索?中的搜索方式A)单向搜索B)双向搜索C)前向搜索D)后向搜索答案:A解析:[单选题]26.关于基本数据的元数据是指:A)基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息;B)基本元数据包括与企业相关的管理方面的数据和信息;C)基本元数据包括日志文件和简历执行处理的时序调度信息;D)基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息.答案:D解析:[单选题]27.在变量选择过程中，下列哪些方法可用于检查模型的性能？a.多重变量用于同一个模型b.模型的可解释性c.特征的信息d.交叉验证A)adB)abcC)acdD)全部答案:C解析:[单选题]28.学习率对机器学习模型结果会产生影响,通常希望学习率()。A)越小越好B)越大越好C)较小而迭代次数较多D)较大而迭代次数较小答案:C解析:[单选题]29.阅读以下文字:假设我们拥有一个已完成训练的、用来解决车辆检测问题的深度神经网络模型,训练所用的数据集由汽车和卡车的照片构成,而训练目标是检测出每种车辆的名称(车辆共有10种类型)。现在想要使用这个模型来解决另外一个问题,问题数据集中仅包含一种车(福特野马)而目标变为定位车辆在照片中的位置。A)除去神经网络中的最后一层,冻结所有层然后重新训练B)对神经网络中的最后几层进行微调,同时将最后一层(分类层)更改为回归层C)使用新的数据集重新训练模型D)所有答案均不对答案:B解析:[单选题]30.在训练神经网络时，损失函数(loss)在最初的几个epochs时没有下降，可能的原因是？A)学习率(learningrate)太低B)正则参数太高C)陷入局部最小值D)以上都有可能答案:D解析:[单选题]31.以下说法正确的是()A)Boosting和Bagging都是组合多个分类器投票的方法，二者都是根据单个分类器的正确率决定其权重B)梯度下降有时会陷于局部极小值，但EM算法不会C)除了EM算法，梯度下降也可求混合高斯模型的参数D)基于最小二乘的线性回归问题中，增加L2正则项，总能降低在测试集上的MSE误差答案:C解析:[单选题]32.下面关于回归过程的说法，错误的是A)收集数据：采用任意方法收集数据B)分析数据：绘出数据的可视化二维图将有助于对数据做出理解和分析，在采用缩减法求得新回归系数之后,可以将新拟合线绘在图上作为对比C)训练算法：找到回归系数D)用算法：使用回归，可以在给定输入的时候预测出一个数值，这是对分类方法的提升，因为这样只可以预测连续型数据答案:D解析:[单选题]33.假定有一个数据集S，但该数据集有很多误差，采用软间隔SVM训练，阈值为C，如果C的值很小，以下那种说法正确()A)会发生误分类现象B)数据将被正确分类C)不确定D)以上都不对答案:A解析:[单选题]34.在下图中，数据集被聚类算法聚集成了（）个类别A)1B)2C)3D)4答案:C解析:[单选题]35.机器学习在自然语言处理领域的应用不包括（）。A)问答系统B)信息收取C)病理分析D)实时翻译答案:C解析:[单选题]36.英文如何分词？（）A)利用空格对句子分词B)利用逗号分词C)根据英文短语分词D)根据词性分词答案:A解析:[单选题]37.下面选项中t不是s的子序列的是A)s=<{2,4},{3,5,6},{8}>t=<{2},{3,6},{8}>B)s=<{2,4},{3,5,6},{8}>t=<{2},{8}>C)s=<{1,2},{3,4}>t=<{1},{2}>D)s=<{2,4},{2,4}>t=<{2},{4}>答案:C解析:[单选题]38.关于Series结构，下列描述正确的是（）。A)Series是一个类似于二维数组的对象B)Series由一组数据和与之相关的索引两部分构成C)Series只能保存整数和字符串类型的数据D)Series的索引默认是从1开始答案:B解析:[单选题]39.机器学习中发生过拟合的主要原因不包括()。A)使用过于复杂的模型B)数据噪声较大C)训练数据少D)训练数据充足答案:D解析:训练数据充足可以降低过拟合。[单选题]40.当决策树很小时，训练和检验误差都很大，这种情况称作（___）。A)模型拟合不足B)模型过拟合C)泛化能力好D)模型拟合适当答案:A解析:[单选题]41.专家系统的发展趋势不包括()。A)知识库变大B)推理引擎更加专用C)用户接口更多样D)用户需求量减少答案:D解析:[单选题]42.cell.zero_state(self.batch_size,dtype=tf.float32)这句代码的作用是（）。A)对inputs进行DropoutB)构造MultiCellC)输入图片D)对MultiCell初始化答案:D解析:[单选题]43.以下名称中不属于?属性张成的空间?的是（___）。A)属性空间B)样本空间C)输入空间D)对偶空间答案:D解析:[单选题]44.一监狱人脸识别准入系统用来识别待进入人员的身份,此系统识别狱警、小偷、送餐员、其他人员4种不同人员。下列学习方法最适合此种应用需求的是()。A)二分类问题B)层次聚类问题C)多分类问题D)回归问题答案:C解析:涉及4种人员类别属于多分类问题。[单选题]45.假如使用逻辑回归对样本进行分类,得到训练样本的准确率和测试样本的准确率。现在,在数据中增加一个新的特征,其他特征保持不变。然后重新训练测试。则下列说法正确的是()。A)训练样本准确率一定会降低B)训练样本准确率一定增加或保持不变C)测试样本准确率一定会降低D)测试样本准确率一定增加或保持不变答案:B解析:在模型中增加更多特征一般会增加训练样本的准确率,减小偏差。但测试样本准确率不一定增加,除非增加的特征是有效特征。[单选题]46.以下哪项不是降维的优点A)加速后续的训练算法B)将数据可视化，从中获得洞察，了解最重要的特征C)节省空间D)丢失部分信息答案:D解析:[单选题]47.下列哪个函数不可以做激活函数?A)y=tanh(x)B)y=sin(x)C)y=max(x,0)D)y=2x答案:D解析:[单选题]48.()是预测一个数量（连续型），属于监督学习A)分类B)回归C)聚类D)强化学习答案:B解析:[单选题]49.L表示模糊分类器的特征关键词，由T推导出模糊集F，以下哪个算法可以计算不同F之间的关联度？（）A)SVMB)EWCC)SRD)EM答案:C解析:[单选题]50.信息熵是度量样本集合__最常用的一种指标。A)精确度B)准确率C)召回率D)纯度答案:D解析:[单选题]51.下列朴素贝叶斯估计描述错误的是A)采用属性条件独立性假设；B)假设属性之间相互独立；C)为了避免条件概率是所以属性上的联合概率；D)假设属性之间是相关的；答案:D解析:[单选题]52.话题模型的典型代表是。A)贝叶斯模型B)拉普拉模型C)隐狄利克雷模型D)马尔可夫模型答案:C解析:[单选题]53.数字图像木刻画效果的出现是由于下列原因所产生的()A)图像的幅度分辨率过小B)图像的幅度分辨率过大C)图像的空间分辨率过小D)图像的空间分辨率过大答案:A解析:[单选题]54.（__）是分类错误的样本数占样本总数的比例。A)精度B)错误率C)正确率D)误差答案:B解析:[单选题]55.可以从新闻文本数据中分析出名词短语,动词短语,主语的技术是?A)词性标注B)依存分析和句法分析C)N-Gram抽取D)词袋模型答案:B解析:[单选题]56.通常来说,哪个模型被认为易于解释?()A)SVMB)LogisticRegressionC)DecisionTreeD)K-nearestNeghbor答案:C解析:[单选题]57.下面哪个不属于卷积神经网络的一部分（）。A)输入层B)过滤层C)池化层D)全连接层答案:B解析:[单选题]58.根据操作的反馈总结更好的策略，这个过程抽象出来，就是A)强化训练B)加强训练C)强化学习D)加强学习答案:C解析:[单选题]59.(__)不是描述统计的基本类型。A)集中趋势分析B)无关分析C)相关分析D)离中趋势分析答案:B解析:[单选题]60.变量选择是用来选择最好的判别器子集，如果要考虑模型效率，我们应该做哪些变量选择的考虑？:1/多个变量其实有相同的用处2/变量对于模型的解释有多大作用3/特征携带的信息4/交叉验证A)1和4B)1,2和3C)1,3和4D)以上所有答案:C解析:注意，这题的题眼是考虑模型效率，所以不要考虑选项2.[单选题]61.4.?学习向量量化?与一般聚类算法不同的是（）A)数据样本带有类别标记B)结构不同C)向量程度不同D)簇的种类不同答案:A解析:[单选题]62.如果某系统12*5=61成立,则系统采用的是()进制A)7B)8C)9D)10答案:C解析:[单选题]63.下面不属于数据科学家的主要职责有(__)。A)制定?数据战略?B)研发?数据产品?C)模拟?数据学习?D)构建?数据生态系统?答案:C解析:[单选题]64.下列关于特征选择的说法错误的是A)可以提高特征关联性B)可以减轻维数灾难问题C)可以降低学习任务的难度D)特征选择和降维具有相似的动机答案:A解析:[单选题]65.Python在2.5版本以后集成的数据库是（）A)SQLiteB)OracleC)SQLServerD)MySQL答案:A解析:[单选题]66.下列有关KNN算法的流程顺序，描述正确的是（）①确定K的大小，和距离的计算方法②根据K个样本的所属类别，投票决定测试样本的类别归属③计算训练集样本与测试样本的距离，选出K个与测试样本最相似的样本A)①②③B)③②①C)①③②D)②①③答案:C解析:[单选题]67.以下关于深度网络训练的说法正确的是()A)训练过程需要用到梯度，梯度衡量了损失函数相对于模型参数的变化率B)损失函数衡量了模型预测结果与真实值之间的差异C)训练过程基于一种叫做反向传播的技术D)其他选项都正确答案:D解析:[单选题]68.请选择下面可以应用隐马尔科夫(HMM)模型的选项:A)基因序列数据集B)电影浏览数据集C)股票市场数据集D)所有以上答案:D解析:只要是和时间序列问题有关的,都可以试试HMM[单选题]69.5.EM算法的停止条件（）A)已达到最大迭代轮数B)数据样本异常C)训练器异常D)似然函数减小答案:A解析:[单选题]70.ID3决策树算法以()为准则来选择划分属性A)信息增益B)信息熵C)基尼系数D)信息增益率答案:A解析:[单选题]71.假设三个稠密矩阵（DenseMatrix）A,B,C的尺寸分别为m*n,n*q和p*q，且m<n<p<qm<n<p<q，一下计算顺序会加速的是？A)(AB)CB)AC(B)C)A(BC)D)所有效率都相同答案:A解析:(AB)C要mp(2n-1)+mq(2p-1)次运算;A(BC)要nq(2p-1)mq(2n-1)次运算；又因为m<n<p<q又因为m<n<p<q;所以Mp(2n−1)<mq(2n−1);mp(2n−1)<mq(2n−1);Mq(2p−1)<nq(2p−1);mq(2p−1)<nq(2p−1);所以(AB)C运算次数最少，效率最高；越小越要先乘[单选题]72.以下哪个不是常见的属性类型？（）A)标称属性B)数值属性C)高维属性D)序数属性答案:C解析:[单选题]73.点击率的预测是一个数据比例不平衡问题（比如训练集中样本呈阴性的比例为99%，阳性的比例是1%），如果我们用这种数据建立模型并使得训练集的准确率高达99%。我们可以得出结论是：A)模型的准确率非常高，我们不需要进一步探索B)模型不好，我们应建一个更好的模型C)无法评价模型D)以上都不正确答案:B解析:[单选题]74.决策树中的分类结果是最末端的节点，这些节点称为?()A)根节点B)父节点C)子节点D)叶节点答案:D解析:[单选题]75.算法性能显著不同时，需要进行__来进一步区分各算法。A)后续检验B)Friedman检验C)交叉验证t检验D)McNemar检验答案:A解析:[单选题]76.Pandas在执行算术运算时，没有对齐的位置会使用（）进行补齐。A)NullB)0C)NaND)null_values答案:B解析:[单选题]77.马尔可夫随机场有一组（__），这是定义在变量子集上的非负实函数，主要用于定义概率分布函数。A)损失函数B)优化函数C)激活函数D)势函数答案:D解析:[单选题]78.有关TensorFlowAPI,以下说法中正确的是:()A)tf.Variable和一般编程语言中?变量(Variable)?的含义完全相同。B)tf.placeholder定义的对象,对应于深度神经网络中的?超参数(Hyperparameter)?。C)通过tf.constant定义的对象,因为是常量,所以,在session.run()运行前就可以用eval()方法获得对象的值。D)session.run()运行一个训练过程时,TensorFlow会使用符号执行(SymbolicExecution)对计算图进行优化。答案:D解析:[单选题]79.下列对于查全率的描述，解释正确的是（__）。A)统计分类器预测出来的结果与真实结果不相同的个数，然后除以总的样例集D的个数。B)先统计分类正确的样本数，然后除以总的样例集D的个数。C)预测为正的样例中有多少是真正的正样例D)样本中的正例有多少被预测正确答案:D解析:[单选题]80.想像正在处理文本数据,使用单词嵌入(Word2vec)表示使用的单词。在单词嵌入中,最终会有1000维。现在想减小这个高维数据的维度,这样相似的词应该在最邻近的空间中具有相似的含义。在这种情况下,您最有可能选择以下哪种算法?A)t-SNEB)PCAC)LDAD)都不是答案:A解析:-SNE代表t分布随机相邻嵌入,它考虑最近的邻居来减少数据。[单选题]81.BIRCH是一种（）。A)分类器B)聚类方法C)关联分析方法D)特征选择方法答案:B解析:[单选题]82.对于正态密度的贝叶斯分类器,各类协方差矩阵相同时,决策函数为()A)线性决策函数B)非线性决策函数C)最小距离分类器D)以上都有可能答案:A解析:[单选题]83.数据科学是一门以实现?从数据到信息??从数据到知识??从数据到智慧?的转化为主要研究目的，以?数据驱动??数据业务化??数据洞见??数据产品研发?为主要研究任务的()。A)新兴科学B)交叉性学科C)独立学科D)一整套知识体系答案:C解析:[单选题]84.半监督支持向量机中最著名的是TSVM（TransductiveSupportVectorMachine）。与标准SVM一样，TSVM也是针对（）问题的学习方法？A)分类B)回归C)聚类D)二分类答案:D解析:[单选题]85.下面关于分析学习描述正确的是(__)。A)分析学习的缺陷在于不完美的领域理论B)分析学习的目标是拟合数据假设C)分析学习通过演绎推理D)分析学习无需先验知识答案:A解析:[单选题]86.下列关于L1正则化与L2正则化的描述,错误的是()。A)L1范数正则化有助于降低过拟合风险B)L2范数正则化有助于降低过拟合风险C)L1范数正则化比L2范数正则化更有易于获得稀疏解D)L2范数正则化比L1范数正则化更有易于获得稀疏解答案:C解析:参考周志华著《机器学习》252页。[单选题]87.如果在大型数据集上训练决策树。为了花费更少的时间来训练这个模型，下列哪种做法是正确的？A)增加树的深度B)增加学习率C)减小树的深度D)减少树的数量答案:C解析:本题考查的是决策树相关概念。一般用决策树进行分类，从根结点开始，对实例的某一特征进行测试，根据测试结果，将实例分配到其子结点。这时，每一个子结点对应着该特征的一个取值。如此递归地对实例进行测试并分类，直至达到叶结点。最后将实例分到叶结点的类中。--引自李航《统计学习方法》决策树深度越深，在训练集上误差会越小，准确率越高。但是容易造成过拟合，而且增加模型的训练时间。对决策树进行修剪，减小树的深度，能够提高模型的训练速度，有效避免过拟合。单决策树中，学习率不是一个有效参数。决策树是单树，随机森林由多个决策树组成。[单选题]88.我国四个直辖市分别为北京市、上海市、天津市和重庆市。四个直辖市2017年第二季度的地区生产总值分别为12406.79亿元、13908.57亿元、9386.87亿元、9143.64亿元。要比较这样一组数据，我们使用（）来进行可视化会比较合适。A)折线图B)饼图C)柱状图D)直方图答案:C解析:[单选题]89.以下关于降维说法不正确的是？A)降维是将训练样本从高维空间转换到低维空间B)降维有助于数据可视化C)通过降维可以更有效地发掘有意义的数据结构D)降维不会对数据产生损伤答案:D解析:[单选题]90.假设我们有一个使用ReLU激活函数(ReLUactivationfunction)的神经网络,假如我们把ReLU激活替换为线性激活,那么这个神经网络能够模拟出同或函数(XNORfunction)吗?A)可以B)不好说C)不一定D)不能答案:D解析:[单选题]91.信息熵是度量()最常用的一种指标。A)样本的个数B)样本的维度C)样本的纯度D)样本的冗余度答案:C解析:[单选题]92.OpenCV安装需要在（)中安装。A)网页窗口B)Python命令环境C)命令提示符窗口D)任意可执行安装包答案:C解析:[单选题]93.关于Logistic回归和SVM，以下说法错误的是？A)Logistic回归可用于预测事件发生概率的大小B)Logistic回归的目标函数是最小化后验概率C)SVM的目标的结构风险最小化D)SVM可以有效避免模型过拟合答案:B解析:Logit回归本质上是一种根据样本对权值进行极大似然估计的方法，而后验概率正比于先验概率和似然函数的乘积。logit仅仅是最大化似然函数，并没有最大化后验概率，更谈不上最小化后验概率。A错误Logit回归的输出就是样本属于正类别的几率，可以计算出概率，正确C.SVM的目标是找到使得训练数据尽可能分开且分类间隔最大的超平面，应该属于结构风险最小化.D的SVM可以通过正则化系数控制模型的复杂度，避免过拟合。[单选题]94.如果线性回归模型中的随机误差存在异方差性,那么参数的OLS估计量是()。A)无偏的,有效的B)无偏的,非有效的C)有偏的,有效的D)有偏的,非有效的答案:B解析:OLS即普通最小二乘法,由高斯-马尔可夫定理可知,在给定经典线性回归的假定下,最小二乘估计量是具有最小方差的线性无偏估计量。根据证明过程可知,随机误差中存在异方差性不会影响其无偏性,而有效性证明中涉及同方差性,即异方差性会影响参数OLS估计量的有效性,得到的参数估计量不是有效估计量。[单选题]95.ILP系统通常采用（）的规则生成策略A)自底而上B)自顶而下C)自大而小D)自小而大答案:A解析:[单选题]96.下列神经网络的组织特性描述错误的是A)可以模拟生物神经系统B)面向真实世界物体C)面向仿真环境物体D)作出交互反应答案:C解析:[单选题]97.下列哪个不是专门用于可视化时间空间数据的技术：A)等高线图B)饼图C)曲面图D)矢量场图答案:B解析:[单选题]98.以下对非结构化数据描述不正确的是()。A)不能用关系数据库存储和管理的数据B)没有统一的结构C)图像是非结构化数据D)HTML是非结构化数据答案:D解析:[单选题]99.在BMP格式、GIF格式、TIFF格式和JPEG格式中,下面哪个选项正确?A)表示同一副图像,BMP格式使用的数据量最多;B)GIF格式独立于操作系统;C)每种格式都有文件头,其中TIFF格式的最复杂;D)一个JPEG格式的数据文件中可存放多幅图像;答案:A解析:[单选题]100.若有统计表：包含该词的文档数（亿）IDFTF-IDF中国62.30.6030.0121蜜蜂0.4842.7130.0543养殖0.9732.4100.0482那么这篇文章的关键词是(__)。A)中国B)蜜蜂C)养殖D)不知道答案:B解析:[单选题]101.关于BP算法反向传播的说法正确的是（）。A)BP算法反向传播进行更新时一般用到微积分的链式传播法则B)BP算法更新量与步长关系不大C)BP算法反向传播的预测误差值一般由真实标签值和预测标签值的差计算得来D)BP算法反向传播的目的是只对权值进行更新答案:A解析:[单选题]102.以下哪个步骤不是机器学习所需的预处理工作()。A)数值属性的标准化B)变量相关性分析C)异常值分析D)与用户讨论分析需求答案:D解析:[单选题]103.半调输出技术可以?A)改善图像的空间分辨率;B)改善图像的幅度分辨率;C)利用抖动技术实现;D)消除虚假轮廓现象;答案:B解析:[单选题]104.RNN不同于其它神经网络的地方在于（）。A)实现了记忆功能B)速度快C)精度高D)易于搭建答案:A解析:[单选题]105.RGB色彩空间转到GRAY色彩空间的转换码为()。A)cv2.COLOR_BGR2GRAYB)cv2.COLOR_RGB2GRAYC)cv2.COLOR_RGBGRAYD)cv2.COLOR_BGRGRAY答案:B解析:[单选题]106.RNN的全称是（）。A)卷积神经网络B)长短时记忆C)区域神经网络D)循环神经网络答案:D解析:[单选题]107.下面不属于对学习器的泛化误差进行评估的方法是（__)A)留出法B)交叉验证法C)自助法D)网格搜索法答案:D解析:[单选题]108.下面哪项不属于循环神经网络的输出模式。（）A)单输出B)多输出C)同步多输出D)异步多输出答案:C解析:[单选题]109.使用什么关键字来创建Python自定义函数（）。A)functionB)funcC)procedureD)def答案:D解析:[单选题]110.在模型评估与度量的方法中，（__）直接将数据集划分为两个互斥的集合，一个作为训练集，另一个作为测试集。A)自助法B)留出法C)交叉验证法D)错误率分析答案:B解析:[单选题]111.假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为:A)18.3B)22.6C)26.8D)27.9答案:A解析:[单选题]112.以下方法不可以用于特征降维的有()A)LinearDiscriminantAnalysisB)PrincipalComponentAnalysisC)SingularValueDecompositionD)MonteCarlomethod答案:D解析:[单选题]113.LSTM的全称是（）。A)卷积神经网络B)长短时记忆C)区域神经网络D)循环神经网络答案:B解析:[单选题]114.()选择是直接把最终将要使用的学习器的性能作为特征子集的评价准则。A)嵌入式B)过滤式C)包裹式D)一体式答案:C解析:包裹式特征选择直接把最终将要使用的学习器的性能作为特征子集的评价准则。[单选题]115.在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是:A)有放回的简单随机抽样B)无放回的简单随机抽样C)分层抽样D)渐进抽样答案:D解析:[单选题]116.以下不属于数据治理工作的主要内容的有(__)。A)理解自己的数据B)数据部门的建立C)有效监督与动态优化D)岗位工资的定义答案:D解析:[单选题]117.sparks中默认的存储级别()。A)MEMORY_ONLYB)MEMORY_ONLY_SERC)MEMORY_AND_DISKD)MEMORY_AND_DISK_SER答案:A解析:[单选题]118.以下对半结构化数据描述不正确的是()。A)先有数据，后有结构B)先有结构，后有数据C)HTML是半结构化数据D)经过一定转换后可以用传统关系数据库存储答案:B解析:[单选题]119.下列关于神经元的陈述中,正确的是(A)一个神经元有一个输入,有一个输出B)一个神经元有多个输入,有一个或多个输出C)一个神经元有一个输入,有多个输出D)上述都正确答案:D解析:[单选题]120.(__)是将?现实生活中的问题?转换为?数据世界中的问题?，然后采用数据科学的理念、原则、方法、技术、工具，通过将数据、尤其的大数据，转换为知识和智慧。A)数据工程师B)数据码农C)数据科学家D)科学家答案:C解析:[单选题]121.()算法可以用于特征选择。A)朴素贝叶斯B)感知器C)支持向量机D)决策树答案:D解析:使用决策树也可以计算每个特征的相对重要性。这些重要性能够辅助进行特征选择。[单选题]122.关于决策树，以下哪种说法是正确的A)可读性强B)只用于分类问题C)只用于回归问题D)是无监督学习答案:A解析:[单选题]123.7.以下哪个不是原型聚类算法（）A)K均值算法B)学习向量量化LVQC)高斯混合聚类D)PCA算法答案:D解析:[单选题]124.下列选项中，用于删除缺失值的方法是（）。A)isnull()B)delete()C)dropna()D)fillna()答案:C解析:isnull方法用于检测，当返回结果中有True时，表示有重复的数据；fillna方法用于填充缺失数据。[单选题]125.现实中往往会遇到?不完整?的训练样本，在这种存在属性变量值未知的情形下，可用（__)。A)边际似然B)EM算法C)贝叶斯决策D)贝叶斯分类器答案:B解析:[单选题]126.当原始数据的存在形式不符合目标算法的要求时，需要对原始数据进行(__)。A)数据变换B)数据加工C)数据清洗D)数据集成答案:A解析:[单选题]127.变量消去的缺点有A)会造成冗余计算B)纯半监督学习C)主动学习D)图半监督学习答案:C解析:[单选题]128.以下描述正确的是(__)。A)客户代表的是项目的最终利益和目的B)项目经理是项目的实际管理者C)项目发起人是项目的投资者D)数据工程师负责在软/硬件上部署和实施数据科学家提出的方法和技术方案答案:A解析:[单选题]129.二值图象中分支点的连接数为:A)0B)1C)2D)3答案:D解析:[单选题]130.以下描述不正确的是(__)。A)干净数据是相对于?脏数据?的一种提法B)整齐数据是相对于?乱数据?的一种提法C)存在缺失值的数据是乱数据D)数据质量有问题是脏数据答案:C解析:[单选题]131.长短时记忆神经网络被设计用来解决什么问题？（）A)传统RNN存在的梯度消失/爆炸问题B)传统RNN计算量大的问题C)传统RNN速度较慢的问题D)传统RNN容易过过拟合的问题答案:A解析:[单选题]132.定义域为{1,2,3}的离散属性也可称为称为（__）。A)无序属性B)有序属性C)连续属性D)离散属性答案:B解析:[单选题]133.代码selectceil(2.34)的结果是哪一个:A)2.3B)2C)3D)2.4答案:C解析:[单选题]134.数据清洗的方法不包括()。A)缺失值处理B)噪声数据清除C)一致性检查D)重复数据记录处理答案:D解析:[单选题]135.决策树中不包含以下哪种节点？()A)根节点B)内部节点C)外部节点D)叶节点答案:C解析:[单选题]136.BP算法总结错误的是（）。A)当前层的连接权值梯度，取决于当前层神经元阈值梯度和上一层神经元输出B)算法只要知道上一层神经元的阈值梯度，就能计算当前层神经元的阈值梯度和连接权值梯度C)隐层的阈值梯度只跟本层的神经元输出值有关D)隐层阈值梯度取决于隐层神经元输出、输出层阈值梯度和隐层与输出层的连接权值答案:C解析:[单选题]137.下列可以用隐马尔可夫模型来分析的是?A)基因序列数据B)电影评论数据C)股价数据D)以上三种答案:D解析:三种都是时间序列数据,可以应用隐马尔可夫模型。[单选题]138.如右图所示有向图,以下陈述正确的有()A)B和G关于{C,F}条件独立B)B和C关于F条件独立C)B和G关于F条件独立D)B和G关于{C,F,H}条件独立答案:A解析:[单选题]139.考虑值集{12243324556826},其四分位数极差是:A)31B)24C)55D)3答案:A解析:[单选题]140.若某学习器预测的是离散值，则此类学习任务称为（）A)分类B)聚类C)回归D)强化学习答案:A解析:[单选题]141.（__）是具有适应性的简单单元组成的广泛并行互联的网络。A)神经系统B)神经网络C)神经元D)感知机答案:B解析:[单选题]142.下列算法中属于图像平滑处理的是（）。A)梯度锐化B)直方图均衡化C)中值滤波D)Laplacian增强答案:C解析:[单选题]143.协同训练（co-training）是针对（）数据设计？A)多角度B)多视图C)多环境D)多版本答案:B解析:[单选题]144.下列哪些项所描述的相关技术是对的？A)AdaGrad和L-BFGS使用的都是一阶差分B)AdaGrad和L-BFGS使用的都是二阶差分C)Adagrad使用的是一阶差分，L-BFGS使用的是二阶差分D)Adagrad使用的是二阶差分，L-BFGS使用的是一阶差分答案:C解析:牛顿法不仅使用了一阶导信息，同时还利用了二阶导来更新参数,L-BFGS算法是一种在牛顿法基础上提出的一种求解函数根的算法[单选题]145.常见的分类算法不包括（）A)线性回归B)逻辑回归C)贝叶斯算法D)K-近邻算法答案:A解析:[单选题]146.假如你使用EM算法对一个有潜变量的模型进行最大似然估计(Maximumlikelihoodestimate)。这时候要求你将算法进行修改,使得其能找到最大后验分布(MaximumaPosterioriestimation,MAP),你需要修改算法的哪个步骤?A)ExpectionB)MaimizationC)不需要修改D)都需要修改答案:A解析:Estep根据当前参数进行估算,Mstep根据估算结果更新参数。那么修改估算方法自然在Estep中。[单选题]147.聚类算法的性能度量可称为（__）。A)密度估计B)异常检测C)有效性指标D)分布结构答案:C解析:[单选题]148.关于ZooKeeper顺序节点的说法正确的是()A)创建顺序节点的命令为:create/testvalue1B)创建顺序节点时不能连续执行创建命令,否者报错节点已存在C)通过顺序节点,可以创建分布式系统唯一IDD)顺序节点的序号能无限增加答案:C解析:[单选题]149.一般而言，在个体学习器性能相差较大时宜使用___，而在个体学习器性能相近时宜使用____A)简单平均法,加权平均法B)加权平均法,C)简单平均法,D)加权平均法,答案:B解析:[单选题]150.回归分析的任务,就是根据()和因变量的观察值,估计这个函数,并讨论与之有关的种种统计推断的问题。A)相关变量B)样本C)已知数据D)自变量答案:D解析:回归分析指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;按照因变量的多少,可分为简单回归分析和多重间归分析:按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。[单选题]151.OpenCV的描述正确的是()。A)只有-个模块B)由多个模块组成C)core中有OpenCVD)opencv主要由C++语言编写答案:B解析:[单选题]152.请问以下哪个命令组成是错误的?A)sbin/stop-dfs.shB)sbin/hdfsdfsadmin-reportC)bin/hadoopnamenode-formatD)bin/hadoopfs-cat/hadoopdata/my.txt答案:B解析:[单选题]153.()是交叉验证法的一种特例。A)自助法B)留一法C)交叉验证法D)错误率分析答案:B解析:[单选题]154.集成学习中基分类器的选择如何,学习效率通常越好()A)分类器相似B)都为线性分类器C)都为非线性分类器D)分类器多样,差异大答案:D解析:[单选题]155.神经网络模型(NeuralNetwork)因受人类大脑的启发而得名,神经网络由许多神经元(Neuron)组成,每个神经元接受一个输入,对输入进行处理后给出一个输出,如下图所示。请问下列关于神经元的描述中,哪一项是正确的?A)每个神经元可以有一个输入和一个输出B)每个神经元可以有多个输入和一个输出C)每个神经元可以有一个输入和多个输出D)每个神经元可以有多个输入和多个输出E)上述都正确答案:E解析:第2部分：多项选择题，共49题，每题至少两个正确答案,多选或少选均不得分。[多选题]156.下列关于聚类，说法正确的是（__）。A)聚类任务中也可使用有标记训练样本B)聚类试图将数据集中的样本划分为若干个通常是不相交的子集C)聚类可作为一个单独的过程，用于寻找数据内在的分布结构D)聚类不可作为分类等其他学习任务的前驱过程答案:ABC解析:[多选题]157.数据加工的主要动机往往来自(__)。A)实时要求B)质量要求C)计算要求D)数量要求答案:BC解析:[多选题]158.分类模型的误差包括（___）。A)训练误差B)泛化误差C)再代入误差D)表现误差答案:ABC解析:[多选题]159.图像降噪中对滤波器的要求是(__)。A)没要求B)不能损坏图像轮廓和边缘等重要信息C)使图像清晰，视觉效果好D)使图像尽可能明亮答案:BC解析:[多选题]160.噪声数据的主要表现形式有（）.A)错误数据B)虚假数据C)异常数据D)缺失数据答案:ABC解析:[多选题]161.缺失数据的处理主要涉及的关键活动包括（）.A)缺失数据的识别B)缺失数据的分析C)删除或插补缺失数据D)缺失数据的溯源答案:ABC解析:[多选题]162.下面哪些是spark比Mapreduce计算快的原因()A)基于内存的计算B)基于DAG的调度框架C)基于Lineage的容错机制D)基于分布式计算的框架答案:ABC解析:[多选题]163.下面哪些用循环神经网络处理效果比较好()A)语音识别B)自然语言处理C)图像识别D)人脸识别答案:AB解析:[多选题]164.在分类问题中,我们经常会遇到正负样本数据量不等的情况,比如正样本为10w条数据,负样本只有1w条数据,以下最合适的处理方法是（）A)将负样本重复10次，生成10w样本量，乱顺序参与分类B)直接进行分类，可以最大限度利用数据C)从10w正样本中随机抽取1w参与分类D)将负样本每个权重设置为10，正样本权重为1，参与训练过程答案:ACD解析:[多选题]165.下列属于结合策略的是（__）。A)投票法B)平均法C)学习法D)排序法答案:ABC解析:[多选题]166.关于决策树的CART分类树构造算法和ID3算法，下列说法正确的是？A)选择切分特征时，ID3算法使用基尼指数B)选择切分特征时，ID3算法使用信息熵C)选择切分特征时，CART算法使用基尼指数来度量一个数据集的混乱程度D)选择切分特征时，CART算法使用信息熵答案:BC解析:[多选题]167.概率图模型的推断方法大致可分为两类，分别是A)精准推断方法B)模糊推断方法C)近似推断方法D)尽量推断方法答案:AC解析:[多选题]168.ZooKeeper服务器角色包括()。A)领导者(leader)B)观察者(observer)C)客户端(client)D)跟随者(follower)答案:ABD解析:[多选题]169.词袋模型的局限性表现在（)。A)需要仔细考虑词汇表的构建B)信息检索C)向量的稀疏问题D)没有考虑到语序答案:ACD解析:[多选题]170.决策树有哪些常用的启发函数()A)最大信息增益B)最大信息增益率C)最大基尼系数D)最大交叉熵答案:AB解析:[多选题]171.影响K近邻算法分类效果的因素有A)K的取值B)距离计算方式C)样本的数量D)样本的稀疏程度答案:AB解析:[多选题]172.从学科定位看,数据科学处于（）的重叠之处,具有显著的跨学科性。A)数学与统计知识B)计算机科学C)黑客精神与技能D)领域实务知识答案:ACD解析:[多选题]173.下面关于k近邻的表述中，正确的是（__)。A)当k取不同值时，分类结果会有显著不同B)若采用不同的距离计算方式，则找出的?近邻?可能有显著差别C)k近邻可用来对数据进行分类D)k近邻可用来对数据进行回归答案:ABCD解析:[多选题]174.人工神经网络特点和优越性主要表现在()A)自学习功能B)自动识别功能C)高速寻找优化解的能力D)联想存储功能答案:ACD解析:[多选题]175.()是通过对无标记训练样本的学习来进行分类的。A)密度估计B)异常检测C)线性回归D)聚类分析答案:ABD解析:[多选题]176.有监督机器学习方法可以被分为判别式模型和生成式模型,下面属于生成式模型的有()A)SVM支持向量机B)朴素贝叶斯C)隐马尔科夫D)logistic回归答案:BC解析:[多选题]177.(__)可以帮助解决训练集在特征空间中线性不可分的问题。A)硬间隔B)软间隔C)核函数D)拉格朗日乘子法答案:BC解析:[多选题]178.k-means初始簇心的选择的合理方式是()A)随机k个簇心B)设定一个尝试次数值,在这个值的范围内进行最远簇心寻找C)计算所有样本的两两距离,随机给定一个样本作为第1个簇心,使用距离排序确定k个簇心D)多次进行随机初始簇心,聚类完成后,具体分析簇与簇之间的互斥性,然后进行优化答案:AB解析:[多选题]179.HadoopH框架的缺陷有()A)MRM编程框架的限制B)过多的磁盘操作,缺乏对分布式内存的支持C)无法高效低支持迭代式计算D)海量的数据存储答案:ABC解析:[多选题]180.深度学习中以下那些步骤是由模型自动完成的()A)模型训练B)特征选择C)分析定位任务D)特征提取答案:AD解析:[多选题]181.支持向量机可能解决的问题()A)线性分类B)非线性分类C)回归分析D)BP算法答案:ABC解析:[多选题]182.以下()属于线性分类器最佳准则?A)感知准则函数B)贝叶斯分类C)支持向量机D)Fisher准则答案:ACD解析:[多选题]183.（）可以做LSTM学习。A)MATLABB)tensorflowC)kreasD)word答案:ABC解析:[多选题]184.哪些项不属于使用池化层相比于相同步长的卷积层的优势？（）A)参数更少B)可以获得更大下采样C)速度更快D)有助于提升精度答案:BCD解析:[多选题]185.下面属于线性分类方法的是()A)Logistic回归B)决策树C)最近邻D)Fisher鉴别答案:AD解析:[多选题]186.隐马尔可夫模型中的变量可以分为两组（__）和（__）。A)状态变量B)行为变量C)观测变量D)已确定变量答案:AC解析:[多选题]187.下列有关k-mean算法说法正确的是()A)不能自动识别类的个数,随机挑选初始点为中心点计算B)数据数量不多时,输入的数据的顺序不同会导致结果不同C)不能自动识别类的个数,不是随机挑选初始点为中心点计算D)初始聚类中心的选择对聚类结果的影响很大答案:AD解析:[多选题]188.ID3算法从功能上看有哪两点明显不足？A)预测目标值只能为连续实数值，不能是离散值，因此只能处理回归问题，不能处理分类问题B)预测目标值只能为离散值，不能是连续实数值，因此只能处理分类问题，不能处理回归问题C)实例各特征的取值必须是离散值，而不能是连续实数值D)实例各特征的取值必须是连续实数值，而不能是离散值答案:BC解析:[多选题]189.在用随机梯度算法训练回归模型前，要把各特征缩放到相同尺寸。把特征缩放到相同尺寸的常用方法有A)标准化B)向量化C)正则化D)归一化答案:AD解析:[多选题]190.关于生物神经网络中神经元向其他神经元发送化学物质正确的是A)当神经元兴奋时，会向相连的神经元发送化学物质，从而改变这些神经元的内在电位；B)当神经元兴奋时，会向相连的神经元发送化学物质，从而改变这些神经元的内在电荷；C)若某神经元的电位超过了一个?阈值?，那么它就会被激活；D)若某神经元的电荷超过了一个?阈值?，那么它就会被激活；答案:AC解析:[多选题]191.如果SVM模型欠拟合,以下方法哪些可以改进模型()A)增大惩罚参数C的值B)减小惩罚参数C的值C)减小核系数(gamma参数)D)增大核系数(gamma参数)答案:AD解析:[多选题]192.从行为目的与思维来看，数据统计方法可以分为(__)。A)描述统计B)洞见统计C)推断统计D)归纳统计答案:AC解析:[多选题]193.根据波士顿郊区房屋信息，预测房屋价格。适合采用的方法有？A)朴素贝叶斯B)线性回归C)CART回归决策树D)CART分类决策树答案:BC解析:[多选题]194.下列描述正确的是()A)进程(Process)是程序的一次执行过程B)线程(Thread)是比进程更小的执行单位C)线程不可共享相同的内存单元D)在同一个应用程序中可以有多个线程同时执行答案:ABD解析:[多选题]195.下列观点中，属于符号主义的有()。**A)认为人的认知基元是符号B)认为知识是信息的一种形式C)认为人是一个物理符号系统D)认为人工智能源于数理逻辑答案:ABCD解析:[多选题]196.P{H|X}是给定观测值X条件下H出现的概率，统称为（__）。A)先验概率B)后验概率C)条件概率D)模型答案:BC解析:[多选题]197.深度学习可进一步分为(__)。A)无监督和生成式学习深度网络B)半监督深度神经网络C)监督学习深度网络D)混合深度网络答案:ACD解析:[多选题]198.Hadoop组件的核心功能包括()A)分布式数据存储B)分析C)挖掘D)分布式计算答案:AD解析:[多选题]199.机器学习相关算法包括()A)轨迹跟踪B)决策树C)数据挖掘D)K近邻算法答案:BCD解析:[多选题]200.以下哪些属于免模型学习策略A)蒙特卡罗强化学习B)时序差分学习C)直接模仿学习D)没日没夜学习答案:AB解析:[多选题]201.现实应用中使用的模型经常是（）和（）的结合？A)马尔可夫网B)马尔可夫随机场C)拉普拉斯D)贝叶斯答案:BD解析:[多选题]202.(__)不属于推断统计的方法。A)区间估计B)参数估计C)假设检验D)相关分析答案:AD解析:[多选题]203.下列方法中,可以用于特征降维的方法包括()A)主成分分析PCAB)线性判别分析LDAC)深度学习SparseAutoEncoderD)矩阵奇异值分解SVDE)最小二乘法LeastSquares答案:ABCD解析:[多选题]204.excel工作簿a中有两列id、age,工作簿b中有一列id,需要找到工作薄b中id对应的age,可用的函数包括A)index+matchB)vlookupC)hlookupD)findE)ifF)like答案:AB解析:第3部分：判断题，共33题，请判断题目是否正确。[判断题]205.线性模型形式简单、易于建模，有很好的可解释性、可理解性。__A)正确B)错误答案:对解析:[判断题]206.NumPy数组不需要循环遍历，即可对每个元素执行批量的算术运算操作。A)正确B)错误答案:对解析:[判断题]207.卷积操作的本质特性包括稀疏交互和参数共享。()A)正确B)错误答案:对解析:[判断题]208.在数据规模较小时，通过数据增强技术，可以有效弥补数据集的不足，扩充数据量，改善数据分布，提升模型训练质量。A)正确B)错误答案:对解析:[判断题]209.机器学习的核心是?使用算法解析数据，从中学习，然后对世界上的某件事情做出决定或预测A)正确B)错误答案:对解析:[判断题]210.预测西瓜的甜度值，可以使用多元线性回归模型进行预测A)正确B)错误答案:对解析:[判断题]211.线性回归主要用于解决回归问题，其因变量是连续的值。A)正确B)错误答案:对解析:[判断题]212.Bagging是基于自助采样法的A)正确B)错误答案:对解析:[判断题]213.聚类算法的任务是根据数据特征将数据集相似的数据划分到同一簇A)正确B)错误答案:对解析:[判断题]214.Series是一个类似于一维数组的对象。A)正确B)错误答案:对解析:[判断题]215.P(AB)表示的是事件A与事件B同时发生的概率，P(A|B)表示的是事件B已经发生的条件下，事件A发生的概率A)正确B)错误答案:对解析:[判断题]216.决策树学习是一种逼近离散值目标函数的方法，学习到的函数被表现为一棵决策树。A)正确B)错误答案:对解析:[判断题]217.使用已训练好的模型对测试集中的实例进行分类预测。如果要调用sklearn中的某个函数来评价预测的准确率，应该选择accuracy_score，而不应该选择mean_squared_errorA)正确B)错误答案:对解析:[判断题]218.预测西瓜的甜度值，可以使用简单线性回归模型进行预测A)正确B)错误答案:错解析:[判断题]219.分类预测型任务从已分类的数据中学习模型，并对新的未知分类的数据使用该模型进行解释，得到这些数据的分类。根据标签的不同，分别称为分类任务和预测任务。如果类标签是连续的类别，称为预测任务。A)正确B)错误答案:对解析:[判断题]220.如果希望创建一个数组，则只能用array()函数实现。A)正确B)错误答案:错解析:[判断题]221.回归方法是对离散型随机变量建模或预测的监督学习方法A)正确B)错误答案:错解析:[判断题]222.训练完SVM模型后,不是支持向量的那些样本我们可以丢掉,也可以继续分类:A)正确B)错误答案:对解析:SVM模型中,真正影响决策边界的是支持向量[判断题]223.硬投票计算出每个类别的平均估算概率，然后选出概率最高的类别。A)正确B)错误答案:错解析:[判断题]224.Bagging是并行式集成学习方法最著名的代表A)正确B)错误答案:对解析:[判断题]225.泡泡图和散点图都可以表示三维数据之间的关系。A)正确B)错误答案:错解析:[判断题]226.关于特征选择的说法，选择的特征越多越好？A)正确B)错误答案:错解析:[判断题]227.在基于SGD随机梯度下降算法的神经网络中，每次打乱数据是非常重要和必不可少A)正确B)错误答案:对解析:[判断题]228.支持向量机是一种二元分类模型。其核心思想是，训练阶段在特征空间中寻找一个超平面，它能（或尽量能）将训练样本中的正例和负例分离在它的两侧，预测时以该超平面作为决策边界判断输入实例的类别。寻找超平面的原则是，在可分离的情况下使超平面与数据集间隔最大化。A)正确B)错误答案:对解析:[判断题]229.针对小数据集的集成学习利用Bootstrap方法进行抽样，得到多个数据集，再分别训练多个模型再进行组合A)正确B)错误答案:对解析:[判断题]230.数组使用切片和索引的方式与列表完全一样。A)正确B)错误答案:错解析:[判断

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

人工智能机器学习技术练习(习题卷4)

文档简介

温馨提示

最新文档

评论

相关文档