人工智能机器学习技术练习(习题卷13)_第1页
人工智能机器学习技术练习(习题卷13)_第2页
人工智能机器学习技术练习(习题卷13)_第3页
人工智能机器学习技术练习(习题卷13)_第4页
人工智能机器学习技术练习(习题卷13)_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:人工智能机器学习技术练习人工智能机器学习技术练习(习题卷13)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages人工智能机器学习技术练习第1部分:单项选择题,共58题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.随机森林的分类机制是()A)投票B)提升C)概率计算答案:A解析:[单选题]2.对于线性回归,我们应该有以下哪些假设?:A)找到利群点很重要,因为线性回归对利群点很敏感B)线性回归要求所有变量必须符合正态分布C)线性回归假设数据没有多重线性相关性答案:A解析:利群点要着重考虑,第一点是对的不是必须的,当然,如果是正态分布,训练效果会更好有少量的多重线性相关性是可以的,但是我们要尽量避免[单选题]3.用决策树法训练大量数据集时,()最节约时间。A)增加树的深度B)增加学习率C)减少数的深度D)减少树的个数答案:C解析:减少树的深度,相当于加入了一个正则化项,可以降低模型复杂度。[单选题]4.在大数据集上训练决策树,为了使用较少时间,我们可以()A)增加树的深度B)增加学习率C)减少树的深度D)减少树的数量答案:C解析:[单选题]5.对于线性回归模型,包括附加变量在内,以下可能正确的是()。1)R-Squared和AdjustedR-squared都是递增的2)R-Squared是常量的,AdjustedR-squared是递增的3)R-Squared是递减的,AdjustedR-squared也是递减的4)R-Squared是递减的,AdjustedR-squared是递增的A)1和2B)1和3C)2和4D)以上都不是答案:D解析:R-squared不能决定系数估计和预测偏差。每次在模型中加入预测器,R-squared递增或不变。[单选题]6.假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:A)0.821B)1.224C)1.458D)0.716答案:D解析:[单选题]7.一般来说,NumPy,Matplotlib,Pandas是数据分析和展示的3个常用包,下列选项中说法不正确的是()A)Pandas包。仅支持一维和二维数据分析,当进行多维数据分析时要使用NumPy包B)Matplotlib包支持多种数据展示,使用pyplot子库即可C)NumPy包底层采用C语言实现,因此运行速度很快D)Pandas包也包含一些数据展示函数,可以不使用Matplotlib包进行数据展示答案:A解析:[单选题]8.已知,有如下一个二维数组:Arr2d=np.array([[1,2,3],[4,5,6],[7,8,9]])如果希望获取元素5,则可以使用()实现。A)arr2d[1,1]B)arr2d[1]C)arr2d[2]D)arr2d[1,0]答案:A解析:[单选题]9.以下哪个不是常见的决策树算法A)ID3B)C4.5C)CARTD)DBSCAN答案:D解析:[单选题]10.BIRCH是一种()。A)分类器B)聚类方法C)关联分析方法D)特征选择方法答案:B解析:[单选题]11.DBSCAN在最坏情况下的时间复杂度是()。A)O(m)B)O(m^2)C)O(logm)D)O(mlogm)答案:B解析:[单选题]12.假定你在神经网络中的隐藏层中使用激活函数X。在特定神经元给定任意输入,你会得到输出-0.01。X可能是以下哪一个激活函数?A)ReLUB)tanhC)SigmoidD)以上都有可能答案:B解析:ReLU的输出范围是[0,+∞),tanh的输出范围是(-1,+1),Sigmoid的输出范围是(0,+1)。[单选题]13.()在训练的每一轮都要检查当前生成的基学习器是否满足基本条件。A)支持向量机B)Boosting算法C)贝叶斯分类器D)Bagging算法答案:B解析:[单选题]14.以下关于字典中的键值的说法,正确的是A)键值不可修改B)键值不能重复C)键值必须是字符串D)以上都不对答案:D解析:[单选题]15.以下机器学习中,在数据预处理时,不需要考虑归一化处理的是()A)逻辑回归B)支持向量机C)树形模型D)神经网络答案:C解析:[单选题]16.有两个样本点,第一个点为正样本,它的特征向量是(0,-1);第二个点为负样本,它的特征向量是(2,3),从这两个样本点组成的训练集构建一个线性SVM分类器的分类面方程是()。A)2x+y=4B)x+2y=5C)x+2y=3D)2x-y=0答案:C解析:对于两个点来说,最大间隔就是垂直平分线,因此求出垂直平分线即可。斜率是两点连线的斜率的负倒数。即-1/(-1-3)/(0-2)=-1/2,可得y=-(1/2)x+c,过中点(0+2)/2,(-1+3)/2)=(1,1),可得c=3/2,故方程为x+2y=3。[单选题]17.学习率对机器学习模型结果会产生影响,通常希望学习率()。A)越小越好B)越大越好C)较小而迭代次数较多D)较大而迭代次数较小答案:C解析:[单选题]18.(__)是具有适应性的简单单元组成的广泛并行互联的网络。A)神经系统B)神经网络C)神经元D)感知机答案:B解析:[单选题]19.执行以下代码#defineSUM(x,y)x+yInta=3;Intb=2;A+=a*SUM(a,b)*b;A的值为A)16B)30C)33D)39答案:A解析:[单选题]20.通常来说,()能够用来预测连续因变量。A)线性回归B)逻辑回归C)线性回归和逻辑回归D)以上答案都不正确答案:A解析:逻辑回归被用来处理分类问题。[单选题]21.下面有关分类算法的准确率,召回率,F1值的描述,错误的是?A)准确率是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率B)召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率C)正确率、召回率和F值取值都在0和1之间,数值越接近0,查准率或查全率就越高D)为了解决准确率和召回率冲突问题,引入了F1分数答案:C解析:对于二类分类问题常用的评价指标是精准度(precision)与召回率(recall)。通常以关注的类为正类,其他类为负类,分类器在测试数据集上的预测或正确或不正确,4种情况出现的总数分别记作:TP--将正类预测为正类数FN--将正类预测为负类数FP--将负类预测为正类数TN--将负类预测为负类数精准率定义为:P=TP/(TP+FP)召回率定义为:R=TP/(TP+FN)F1值定义为:F1=2PR/(P+R)精准率和召回率和F1取值都在0和1之间,精准率和召回率高,F1值也会高,不存在数值越接近0越高的说法,应该是数值越接近1越高。[单选题]22.对数几率回归(logisticsregression)和一般回归分析有什么区别?:A)对数几率回归是设计用来预测事件可能性的B)对数几率回归可以用来度量模型拟合程度C)对数几率回归可以用来估计回归系数D)以上所有答案:D解析:[单选题]23.以下哪一个不是长短时记忆神经网络三个门中中的一个门?()A)输入门B)输出门C)遗忘门D)进化门答案:D解析:[单选题]24.3.以下哪些是无序属性()A){1,2,3}B){飞机,火车、轮船}C)闵可夫斯基距离D){小,中,大}答案:B解析:[单选题]25.下列关于支持向量回归说法,错误的是()。A)支持向量回归是将支持向量的方法应用到回归问题中B)支持向量回归同样可以应用核函数求解线性不可分的问题C)同分类算法不同的是,支持向量回归要最小化一个凹函数D)支持向量回归的解是稀疏的答案:C解析:支持向量机最大间隔模型是一个凸二次规划问题。[单选题]26.LSTM的全称是()。A)卷积神经网络B)长短时记忆C)区域神经网络D)循环神经网络答案:B解析:[单选题]27.关于BP算法优缺点的说法错误的是()。A)BP算法不能用于处理非线性分类问题B)BP算法容易陷入局部最小值C)BP算法训练时间较长D)BP算法训练时候可能由于权值调整过大使得激活函数达到饱和答案:A解析:[单选题]28.(__)主要为数据科学和大数据产业链提供大数据分析类的技术支持。A)分析工具B)基础设施C)数据科学平台D)机器学习答案:A解析:[单选题]29.‌当数据分布不平衡时,我们可采取的措施不包括()。A)对数据分布较多的类别赋予更大的权重B)对数据分布较多的类别欠采样C)对数据分布较少的类别过采样D)对数据分布较少的类别赋予更大的权重答案:A解析:[单选题]30.20个阿里巴巴B2B技术部的员工被安排为4排,每排5个人,我们任意选其中4人送给他们一人一本《effectivec++》,那么我们选出的4人都在不同排的概率为:A)5^4*5!*15!/20!B)4^5*5!*15!/20!C)5^4*4!*16!/20!D)4^5*4!*16!/20!答案:C解析:[单选题]31.下图表示了哪种机器学习的算法思想A)K近邻算法B)分类C)回归D)聚类答案:D解析:[单选题]32.SVM的效率依赖于A)核函数的选择B)核参数C)软间隔参数D)以上所有答案:D解析:SVM的效率依赖于以上三个基本要求,它能够提高效率,降低误差和过拟合[单选题]33.K-Means的缺点不包括()。A)K必须是事先给定的B)需要选择初始聚类中心C)对于噪声和孤立点数据是敏感的D)可伸缩、高效答案:D解析:[单选题]34.Hadoop-2.6.5集群中的HDFS的默认的副本块的个数是?A)1B)2C)3D)4答案:B解析:[单选题]35.下列选项中,不能创建一个Series对象的是()。A)ser_obj=pd.Series([1,2,3,4,5])B)ser_obj=pd.Series({2001:17.8,2002:20.1,2003:16.5})C)ser_obj=pd.Series((1,2,3,4))D)ser_obj=pd.Series(1,2)答案:D解析:[单选题]36.假设你有5个大小为7x7、边界值为0的卷积核,同时卷积神经网络第一层的深度为1。此时如果你向这一层传入一个维度为224x224x3的数据,那么神经网络下一层所接收到的数据维度是多少?A)218x218x5B)217x217x8C)217x217x3D)220x220x5答案:A解析:[单选题]37.(__)不属于基本分析方法。A)回归分析B)分类分析C)聚类分析D)元分析答案:D解析:[单选题]38.RGB色彩空间转到GRAY色彩空间的转换码为()。A)cv2.COLOR_BGR2GRAYB)cv2.COLOR_RGB2GRAYC)cv2.COLOR_RGBGRAYD)cv2.COLOR_BGRGRAY答案:B解析:[单选题]39.以下属于生成式模型的是:()A)SVMB)随机森林C)隐马尔可夫模型HMMD)逻辑回归答案:C解析:[单选题]40.对不具备泛化能力的规则转变为更一般的规则的最基础的技术为A)最大一般泛化B)最小一般泛化C)最大一般特化D)最小一般特化答案:B解析:[单选题]41.以下关于降维说法不正确的是?A)降维是将训练样本从高维空间转换到低维空间B)降维有助于数据可视化C)通过降维可以更有效地发掘有意义的数据结构D)降维不会对数据产生损伤答案:D解析:[单选题]42.点击率的预测是一个数据比例不平衡问题(比如训练集中样本呈阴性的比例为99%,阳性的比例是1%),如果我们用这种数据建立模型并使得训练集的准确率高达99%。我们可以得出结论是:A)模型的准确率非常高,我们不需要进一步探索B)模型不好,我们应建一个更好的模型C)无法评价模型D)以上都不正确答案:B解析:[单选题]43.下列选项中,关于Zookeeper可靠性含义说法正确的是?()A)可靠性通过主备部署模式实现B)可靠性是指更新更新只能成功或者失败,没有中间状态C)可靠性是指无论哪个server,对外展示的均是同一个视图D)可靠性是指一个消息被一个Server接收,它将被所有的Server接受答案:D解析:[单选题]44.当闵可夫斯基距离公式中的系数p趋近于无穷大时,可得到(__)的公式。A)欧氏距离B)曼哈顿距离C)街区距离D)切比雪夫距离答案:D解析:[单选题]45.以下说法正确的是()A)Boosting和Bagging都是组合多个分类器投票的方法,二者都是根据单个分B)梯度下降有时会陷于局部极小值,但EM算法不会C)除了EM算法,梯度下降也可求混合高斯模型的参数D)基于最小二乘的线性回归问题中,答案:C解析:[单选题]46.下列选项中,用于搭接数据仓库和保证数据质量的是()。A)数据收集B)数据处理C)数据分析D)数据展现答案:B解析:[单选题]47.我国四个直辖市分别为北京市、上海市、天津市和重庆市。四个直辖市2017年第二季度的地区生产总值分别为12406.79亿元、13908.57亿元、9386.87亿元、9143.64亿元。要比较这样一组数据,我们使用()来进行可视化会比较合适。A)折线图B)饼图C)柱状图D)直方图答案:C解析:[单选题]48.ZooKeeper的核心是()。A)原子广播B)watchesC)ACLD)Znode答案:A解析:[单选题]49.SVM中的代价参数表示:A)交叉验证的次数B)使用的核C)误分类与模型复杂性之间的平衡D)以上均不是答案:C解析:代价参数决定着SVM能够在多大程度上适配训练数据。如果你想要一个平稳的决策平面,代价会比较低;如果你要将更多的数据正确分类,代价会比较高。可以简单的理解为误分类的代价。[单选题]50.下列关于分类器的说法中不正确的是()A)SVM的目标是找到使得训练数据尽可能分开且分类间隔最大的超平面,属于结构风险最小化B)NaiveBayes是一种特殊的Bayes分类器,其一个假定是每个变量相互条件独立。C)Xgboost是一种优秀的集成算法,其优点包括速度快、对异常值不敏感、支持自定义损失函数等等D)随机森林中列采样的过程保证了随机性,所以就算不剪枝,也不容易出现过拟合。答案:C解析:[单选题]51.若A与B是任意的两个事件,且P(AB)=P(A)·P(B),则可称事件A与B()。A)等价B)互不相容C)相互独立D)相互对立答案:C解析:若A与B为互斥事件,则有概率加法公式P(A+B)=P(A)+P(B);若A与B不为互斥事件,则有公式P(A+B)=P(A)+P(B)-P(AB);若A与B为相互独立事件,则有概率乘法公式P(AB)=P(A)P(B)[单选题]52.下列关于zookeeper自身特性说法正确的是()A)zookeeper是一个被动协调服务组件B)zookeeper是一个计算组件C)zookeeper是一个主动协调服务D)zookeeper是一个存储模型答案:A解析:[单选题]53.下图是一个利用sigmoid函数作为激活函数的含四个隐藏层的神经网络训练的梯度下降图。这个神经网络遇到了梯度消失的问题。下面哪个叙述是正确的?class="fr-ficfr-dibcursor-hover"A)第一隐藏层对应D,第二隐藏层对应C,第三隐藏层对应B,第四隐藏层对应AB)第一隐藏层对应A,第二隐藏层对应C,第三隐藏层对应B,第四隐藏层对应DC)第一隐藏层对应A,第二隐藏层对应B,第三隐藏层对应C,第四隐藏层对应DD)第一隐藏层对应B,第二隐藏层对应D,第三隐藏层对应C,第四隐藏层对应A答案:A解析:[单选题]54.一般而言,在个体学习器性能相差较大时宜使用___,而在个体学习器性能相近时宜使用____A)简单平均法,加权平均法B)加权平均法,C)简单平均法,D)加权平均法,答案:B解析:[单选题]55.有关深度神经网络的训练(Training)和推断(Inference),以下说法中不正确的是:()A)将数据分组部署在不同GPU上进行训练能提高深度神经网络的训练速度。B)TensorFlow使用GPU训练好的模型,在执行推断任务时,也必须在GPU上运行。C)将模型中的浮点数精度降低,例如使用float16代替float32,可以压缩训练好的模型的大小。D)GPU所配置的显存的大小,对于在该GPU上训练的深度神经网络的复杂度、训练数据的批次规模等,都是一个无法忽视的影响因素。答案:B解析:[单选题]56.如下属于机器学习应用的包括()A)自动计算,通过编程计算456*457*458*459的值B)文字识别,如通过OCR快速获得的图像中出汉字,保存为文本C)语音输入,通过话筒将讲话内容转成文本D)麦克风阵列,如利用灵云该技术实现远场语音交互的电视答案:A解析:[单选题]57.对于SVM分类算法,待分样本集中的大部分样本不是支持向量,下列说法正确的是()。A)需要将这些样本全部强制转换为支持向量B)需要将这些样本中可以转化的样本转换为支持向量.不能转换的直接删除C)移去或者减少这些样本对分类结果没有影响D)以上都不对答案:C解析:支持向量机的一个重要性质:训练完成后,大部分的训练样本都不需保留,最终模型仅与支持向量有关。[单选题]58.阅读以下文字:假设我们拥有一个已完成训练的、用来解决车辆检测问题的深度神经网络模型,训练所用的数据集由汽车和卡车的照片构成,而训练目标是检测出每种车辆的名称(车辆共有10种类型)。现在想要使用这个模型来解决另外一个问题,问题数据集中仅包含一种车(福特野马)而目标变为定位车辆在照片中的位置。A)除去神经网络中的最后一层,冻结所有层然后重新训练B)对神经网络中的最后几层进行微调,同时将最后一层(分类层)更改为回归层C)使用新的数据集重新训练模型D)所有答案均不对答案:B解析:第2部分:多项选择题,共21题,每题至少两个正确答案,多选或少选均不得分。[多选题]59.图像降噪中对滤波器的要求是(__)。A)没要求B)不能损坏图像轮廓和边缘等重要信息C)使图像清晰,视觉效果好D)使图像尽可能明亮答案:BC解析:[多选题]60.Adaboost方法中,需要迭代调整的两个重要参数是()A)样本权重B)分类器权重C)梯度变化率D)梯度答案:AB解析:[多选题]61.从结构化角度来看,数据可分为()。A)结构化数据B)非结构化数据C)无结构化数据D)半结构化数据答案:ABD解析:[多选题]62.机器学习的研究和成果可应用于许多领域,大部分的应用研究问题可以归为()这两个范畴A)数学定理证明B)物理现象发现C)分类问题D)问题求解答案:CD解析:[多选题]63.下列属于监督学习的有()。A)聚类B)分类C)回归D)降维答案:BC解析:[多选题]64.以下属于数据挖掘与分析工具的有()。A)TableauB)PythonC)SPSSD)Alteyx答案:ABCD解析:常用的数据挖掘工具有RapidMiner、IBMSPSSModeler、OracleDataMining、Teradata、Python。常用的数据分析工具有Tableau、Alteyx、R&Python语言、FineReport、PowerBI。[多选题]65.神经网络可以按()**A)学习方式分类B)网络结构分C)网络的协议类型分类D)网络的活动方式分类答案:ABD解析:[多选题]66.企业应用包括(__)和人力资本、金融、生产能力、后台自动化等。A)销售B)营销C)法律D)客户服务答案:ABCD解析:[多选题]67.()可以做LSTM学习。A)MATLABB)tensorflowC)kreasD)word答案:ABC解析:[多选题]68.以下属于聚类方法的是()A)k-meansB)层次聚类C)Fisher鉴别D)密度聚类答案:ABD解析:[多选题]69.ZooKeeper服务器角色包括()。A)领导者(leader)B)观察者(observer)C)客户端(client)D)跟随者(follower)答案:ABD解析:[多选题]70.下列关于聚类法方法描述正确的是(__)。A)k均值算法属于原型聚类B)学习向量化算法试图找到一组原型向量来刻画聚类结构C)高斯混合聚类采用概念模型来表达聚类原型D)学习向量化算法属于层次聚类答案:AB解析:[多选题]71.命名实体识别是指出文本中的人名、地名等专有名词和时间等,其中有有监督的命名实体识别和无监督的命名实体识别,下列选项哪些是属于有监督的学习方法()A)字典法B)决策树C)隐马尔可夫模型D)支持向量机答案:BCD解析:[多选题]72.下列关于偏差、方差、均方差、泛化误差描述有误的是(__)。A)方差度量了学习算法的期望预测与真实结果的偏离程度。B)偏差度量了同样大小的训练集的变动所导致的学习性能的变化。C)泛化误差表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界,即刻画了学习问题本身的难度。D)泛化误差可分解为偏差、方差与噪音之和。答案:ABC解析:[多选题]73.基于语义的情感词典方法有(__)等流程。A)构建词典B)统计词频C)构建倾向性计算算法D)确定阈值答案:ACD解析:[多选题]74.在模型评估与度量的方法中,下列描述正确的是(__)。A)在留出法中,如果从采样的角度来看待数据集划分的过程,则保留类别比例的采样方式通常称为分层采样B)通常,我们可通过实验测试来对学习器的泛化误差进行评估并进而做出选择。C)我们需要一个测试集来测试学习器对新样本的判别能力D)测试样本不可从样本真实分布中独立同分布采样而得答案:ABC解析:[多选题]75.机器学习算法按学习方式分类可分为A)有监督学习B)半监督学习C)无监督学习D)强化学习答案:ABCD解析:第3部分:判断题,共12题,请判断题目是否正确。[判断题]76.已知学得规则:好瓜←(根蒂=蜷缩)⋀(脐部=凹陷)。则被该规则覆盖的样本是好瓜,没被覆盖的不是好瓜。A)正确B)错误答案:错解析:[判断题]77.泡泡图和散点图都可以表示三维数据之间的关系。A)正确B)错误答案:错解析:[判断题]78.梯度下降,就是沿着函数的梯度(导数)方向更新自变量,使得函数的取值越来越小,直至达到全局最小或者局部最小。A)正确B)错误答案:对解析:[判断题]79.预剪枝决策树的训练时间开销比后剪枝决策树要大得多。A)正确B)错误答案:错解析:[判断题]80.预测西瓜的甜度值,可以使用多元线性回归模型进行预测A)正确B)错误答案:对解析:[判断题]81.预测房价需要考虑的因素有很多,包括历史价格走势、供求影响、交通情况、是否学区房、政策影响等,可以通过多元线性回归模型,作房价预测A)正确B)错误答案:对解析:[判断题]82.聚类效果可以用误差平方和(SSE)来评价,误差平方和越小,聚类效果越好A)正确B)错误答案:对解析:[判断题]83.由于贝努力贝叶斯比适合于贝努力(二项分布)分布,因此,贝努力贝叶斯只能用于二分类任务A)正确B)错误答案:错解析:[判断题]84.BP算法的反向传播是为了对权值进行调整。A)正确B)错误答案

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论