人工智能机器学习技术练习(习题卷9)_第1页
人工智能机器学习技术练习(习题卷9)_第2页
人工智能机器学习技术练习(习题卷9)_第3页
人工智能机器学习技术练习(习题卷9)_第4页
人工智能机器学习技术练习(习题卷9)_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:人工智能机器学习技术练习人工智能机器学习技术练习(习题卷9)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages人工智能机器学习技术练习第1部分:单项选择题,共155题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.下面哪个/些超参数的增加可能会造成随机森林数据过拟合?A)树的数量B)树的深度C)学习速率答案:B解析:通常情况下,我们增加树的深度有可能会造成模型过拟合。学习速率并不是随机森林的超参数。增加树的数量可能会造成欠拟合。[单选题]2.如果一个SVM模型出现欠拟合,那么()能解决这一问题。A)增大惩罚参数CB)减小惩罚参数CC)减小核系数(gamma参数)答案:A解析:SVM模型出现欠拟合,表明模型过于简单,需要提高模型复杂度。C越大,相应的模型越复杂。[单选题]3.考虑下表中二元分类问题的训练样本,根据信息增益,哪个是最佳划分(在a1,a2,a3中):class="fr-ficfr-dibcursor-hover"A)a1B)a2C)a3答案:A解析:[单选题]4.强化学习属于()的一种A)无监督学习B)机器学习C)监督学习答案:B解析:[单选题]5.SVM中要寻找和计算的MMH是指()A)最大边缘超平面B)超平面C)最小边缘超平面答案:A解析:[单选题]6.下面关于深度学习相关描述不正确的有(__)。A)深度学习是一种特征学习方法B)深度学习通过足够多的简单转换函数及其组合方式来学习一个复杂的目标函数C)深度学习的关键在于计算观测书记的分层特征及其表示D)ANN不是深度学习答案:D解析:[单选题]7.以下关于数据科学相关描述不正确的是()。A)数据科学是数据,尤其是大数据背后的科学B)?数据?是一门科学,答案就在?大数据?手中C)在数据科学出现之前,我们关注的是数据主动的一面,而在数据科学中我们更加重视的是被动作用。D)数据科学的最终研究目标是实现数据、物质和能量之间的转换。答案:C解析:[单选题]8.当在卷积神经网络中加入池化层(poolinglayer)时,变换的不变性会被保留,是吗?A)不知道B)看情况C)是D)否答案:C解析:[单选题]9.()是利用不同模型的相加,构成一个更好的模型,求取模型一般都采用序列化方法,后面的模型依据前面的模型A)baggingB)boostingC)弱学习算法D)以上都不对答案:B解析:[单选题]10.在K-摇臂赌博机中,若尝试次数非常大,在一段时间后,摇臂的奖赏能很好的近似出来,不再需要探索,则可让ε随着尝试次数增加而A)增大B)置为无穷C)置为0D)减少答案:D解析:[单选题]11.下列哪项方法不属于图像分割方法()。A)边缘检测法B)阈值分割法C)区域分割法D)特征提取法答案:D解析:[单选题]12.()算法的训练数据集只有特征,没有标签A)有监督学习B)半监督学习C)无监督学习D)强化学习答案:C解析:[单选题]13.支持向量机的优化问题是最小化的平方,这实现了(__)。A)几何间隔为1/的最大间隔超平面B)几何间隔为的最大间隔超平面C)几何间隔为1/的最小间隔超平面D)几何间隔为的最小间隔超平面答案:A解析:[单选题]14.关于预处理的说法中,下列选项中描述不正确是()。A)concat()函数可以沿着一条轴将多个对象进行堆叠B)merge()函数可以根据一个或多个键将不同的DataFrame进行合并C)可以使用rename()方法对索引进行重命名操作D)unstack()方法可以将列索引旋转为行索引答案:D解析:unstack()方法可以将行索引旋转为列索引。[单选题]15.执行以下代码#defineSUM(x,y)x+yInta=3;Intb=2;A+=a*SUM(a,b)*b;A的值为A)16B)30C)33D)39答案:A解析:[单选题]16.在Pandas中以下哪个函数可以读取csv文件?()。A)read_excel()B)read_csv()C)read_sql_query()D)read_text()答案:B解析:[单选题]17.下面关于使用hive的描述中不正确的是?A)hive中的join查询只支持等值链接,不支持非等值连接B)hive的表一共有两种类型,内部表和外部表C)hive默认仓库路径为/user/hive/warehouse/D)hive支持数据删除和修改答案:B解析:[单选题]18.用决策树法训练大量数据集时,()最节约时间。A)增加树的深度B)增加学习率C)减少数的深度D)减少树的个数答案:C解析:减少树的深度,相当于加入了一个正则化项,可以降低模型复杂度。[单选题]19.以下哪一项在神经网络中引入了非线性()A)DropoutB)ReLUC)卷积函数D)随机梯度下降答案:B解析:[单选题]20.人工神经网络的特点和优越性不包括______。A)自学习功能B)自动识别功能C)高速寻找优化解的能力D)联想存储功能答案:B解析:[单选题]21.使用已训练好的模型对测试集中的实例进行分类预测。如果要调用sklearn中的某个函数来评价预测的准确率,应该选择:A)LabelEcoderB)StanderScalerC)fit_transformD)accuracy_score答案:D解析:[单选题]22.把词典中的词按照由长到短递减的顺序逐字搜索整个待处理的材料,一直到把全部的词切分出来为止。不论分词词典多大,被处理的材料多么小,都得把这个分词词典匹配一遍。这种方法叫(__)。A)正向最大匹配法B)逆向最大匹配法C)逐词遍历法D)隐马尔科夫模型答案:C解析:[单选题]23.关于欠拟合(under-fitting),下面哪个说法是正确的?()A)训练误差较大,测试误差较小B)训练误差较小,测试误差较大C)训练误差较大,测试误差较大D)训练误差不变,测试误差较大答案:C解析:[单选题]24.如右图所示有向图,节点G的马尔可夫毯为()A){D,E}B){I,J}C){D,E,I,J}D){D,E,F,H,I,J}答案:D解析:[单选题]25.下列有关支持向量机说法不正确的是:A)得到的是局部最优解B)具有很好的推广能力C)采用结构风险最小化原理D)是凸二次优化问题答案:A解析:[单选题]26.按照求解方法进行分类算法的划分,下列中为生成模型的是()A)决策树B)K近邻C)贝叶斯分类器D)支持向量机SVM答案:C解析:[单选题]27.10.基于层次的聚类算法包括()。A)合并的层次聚类B)基于密度的聚类算法C)基于划分的算法D)基于网络的聚类算法答案:A解析:[单选题]28.(__)是指对已有数据在尽量少的先验假设条件下进行探索,并通过作图,制表等手段探索数据结构和规律的一种方法。A)统计分析B)验证性分析C)数据洞见D)探索性数据分析答案:D解析:[单选题]29.有关深度神经网络的训练(Training)和推断(Inference),以下说法中不正确的是:()A)将数据分组部署在不同GPU上进行训练能提高深度神经网络的训练速度。B)TensorFlow使用GPU训练好的模型,在执行推断任务时,也必须在GPU上运行。C)将模型中的浮点数精度降低,例如使用float16代替float32,可以压缩训练好的模型的大小。D)GPU所配置的显存的大小,对于在该GPU上训练的深度神经网络的复杂度、训练数据的批次规模等,都是一个无法忽视的影响因素。答案:B解析:[单选题]30.所有预测模型在广义上都可称为一个或一组(__)。A)公式B)逻辑C)命题D)规则答案:D解析:[单选题]31.8.K均值算法的K指的是什么?A)K是均值的数值B)K是均值的最大限值C)K是分类的数量D)K是分类的迭代次数答案:B解析:[单选题]32.若用φ(n)表示欧拉函数,请问:φ(56)的欧拉函数之积为?A)24B)10C)15D)11答案:A解析:[单选题]33.TF-IDF与该词在整个语言中的出现次数成(__)。A)正比B)反比C)无关D)幂次答案:B解析:[单选题]34.以下哪个模型是生成式模型:A)贝叶斯模型B)逻辑回归C)SVMD)条件随机场答案:A解析:[单选题]35.构建一个最简单的线性回归模型需要几个系数(只有一个特征)?A)1个B)2个C)3个D)4个答案:B解析:最简单的线性回归模型,只有一个特征,即Y=aX+B,包含a和b两个系数。[单选题]36.以下关于大数据描述不正确的是()。A)大数据成为推动经济转型发展的新动力B)大数据成为重塑国家竞争优势的新机遇C)大数据是小数据的集合D)大数据成为提升政府治理能力的新途径答案:C解析:[单选题]37.处理文本数据,循环神经网络与前馈神经网络相比有()的优点。A)不会梯度消失B)训练结果不会发散C)不需要激活函数D)可以接受有序的输入序列答案:D解析:[单选题]38.(__)是指能够通过数据来帮助用户实现其某一个目标的产品。A)数据产品B)电子产品C)数据系统D)电子系统答案:A解析:[单选题]39.下面不属于大数据4V特性有()。A)容量大B)类型多C)速度快D)应用价值高答案:D解析:[单选题]40.()是指数据减去一个总括统计量或模型拟合值时的残余部分A)极值B)标准值C)平均值D)残值答案:D解析:残值在数理统计中是指实际观察值与估计值(拟合值)之间的差。[单选题]41.当分析顾客消费行业,以便有针对性的向其推荐感兴趣的服务,属于什么问题?()A)分类B)聚类C)关联规则D)主成分分析答案:C解析:[单选题]42.隐马尔可夫模型(HMM),设其观察值空间为状态空间为alt="">如果用维特比算法(Viterbialgorithm)进行解码,时间复杂度为()A)O(NK)B)O(NK^2)C)O(N^2K)D)以上都不是答案:D解析:alt=""class="fr-ficfr-dii">[单选题]43.以下描述正确的是()。A)非结构化数据是先有结构,后有数据B)XML是非结构化数据C)结构化数据是先有数据,后有结构D)非结构化数据是数据科学与传统数据管理的主要区别答案:D解析:[单选题]44.学习器的实际预测输出与样本的真实输出之间的差异称为__。A)错误率B)精度C)误差D)查准率答案:C解析:[单选题]45.(__)是在不影响数据分析结果准确性的前提下,对原始数据进行一定的变换操作,对其中的个人(组织)敏感数据进行替换或删除操作。A)数据加工B)数据保护C)数据脱敏D)数据清洗答案:C解析:[单选题]46.下列哪一项在神经网络中引入了非线性?A)随机梯度下降B)修正线性单元(ReLU)C)卷积函数D)以上都不正确答案:B解析:[单选题]47.对于SVM分类算法,待分样本集中的大部分样本不是支持向量,下列说法正确的是()。A)需要将这些样本全部强制转换为支持向量B)需要将这些样本中可以转化的样本转换为支持向量.不能转换的直接删除C)移去或者减少这些样本对分类结果没有影响D)以上都不对答案:C解析:支持向量机的一个重要性质:训练完成后,大部分的训练样本都不需保留,最终模型仅与支持向量有关。[单选题]48.下列关于线性回归说法错误的是()A)在现有模型上,加入新的变量,所得到的R^2的值总会增加B)线性回归的前提假设之一是残差必须服从独立正态分布C)残差的方差无偏估计是SSE/(n-p)D)自变量和残差不一定保持相互独立答案:D解析:R^2越大,拟合效果越好,因此A对。R^2=1-RSS/TSSRSS数残差平方和TSS是总的平方和[单选题]49.(__)是分类正确的样本数占样本总数的比例。A)精度B)错误率C)偏差D)误差答案:A解析:[单选题]50.使用high(infinite)regularisation时偏差会如何变化?alt="">有散点图?a?和?b?两类(蓝色为正,红色为负)。在散点图?a?中,使用了逻辑回归(黑线是决策边界)对所有数据点进行了正确分类。A)偏差很大B)偏差很小C)不确定D)都不是答案:A解析:模型变得过于简单,所以偏差会很大。Bias:误差,对象是单个模型,期望输出与真实标记的差别(可以解释为描述了模型对本训练集的拟合程度)Variance:方差,对象是多个模型(这里更好的解释是换同样规模的训练集,模型的拟合程度怎么样;也可以说方差是刻画数据扰动对模型的影响,描述的是训练结果的分散程度)从同一个数据集中,用科学的采样方法得到几个不同的子训练集,用这些训练集训练得到的模型往往并不相同。alt=""class="fr-ficfr-dii">以上图为例:[单选题]51.在深度学习中,涉及到大量矩阵相乘,现在需要计算三个稠密矩阵A,B,C的乘积ABC,假设三个矩阵的尺寸分别为m*n,n*p,p*q,且m<n<p<q,以下计算顺序效率最高的是:()A)A(BC)B)(AB)CC)(AC)BD)所有效率都相同答案:B解析:[单选题]52.机器学习的流程包括:分析案例、数据获取、________和模型验证这四个过程。A)数据清洗B)数据分析C)模型训练D)模型搭建答案:C解析:[单选题]53.下列函数中,用于计算整数的绝对值的是()。A)square()B)sqrt()C)abs()D)floor()答案:C解析:[单选题]54.K-Means算法无法聚以下哪种形状的样本?A)圆形分布B)螺旋分布C)带状分布D)凸多边形分布答案:B解析:K-Means算法是基于距离测量的,无法聚非凸形状的样本。[单选题]55.在SVM中,margin的含义是()A)差额B)损失误差C)幅度D)间隔答案:D解析:[单选题]56.一批产品共8件,其中正品6件,次品2件。现不放回地从中取产品两次,每次一件,求第二次取得正品的概率A)1/4B)1/2C)3/4D)1答案:C解析:[单选题]57.以下集合是凸集的是A){(x,y)|y=x+1}B){(x,y)|x的平方+y的平方=1}C){(x,y)|x的平方+y的平方>1}D){(x,y)|x=1|y=1}答案:A解析:凸集,实数R上(或复数C上)的向量空间中,如果集合S中任两点的连线上的点都在S内,则称集合S为凸集。所以直线是凸集,A正确。{(x,y)|x^2+y^2<=1}是凸集。C选项恰好是圆形外面的区域,而任意两点连线上的点在圆形。D选项是两条直线。[单选题]58.()操作属于预剪枝。A)信息增益B)计算最好的特征切分点C)限制树模型的深度D)可视化树模型答案:C解析:预剪枝是指在决策树生成过程中,对每个结点在划分前先进行估计,若当前结点的划分不能带来决策树泛化性能提升,则停止划分并将当前结点标记为叶结点。限制树模型的深度属于预剪枝。[单选题]59.关于KNN最近邻分类算法的过程:①计算训练样本和测试样本中每个样本点的距离(常见的距离度量有欧式距离、马氏距离等);②对上面所有的距离值进行排序;③选前k个最小距离的样本;④根据这k个样本的标签进行投票,得到最后的分类类别。正确的排序为A)①③②④B)②④③①C)①②③④D)①②④③答案:C解析:[单选题]60.以下几种模型方法属于判别式模型的有1)混合高斯模型2)条件随机场模型3)区分度训练4)隐马尔科夫模型A)1,4B)3,4C)2,3D)1,2答案:C解析:[单选题]61.下列哪项关于模型能力(modelcapacity)的描述是正确的?(指神经网络模型能拟合复杂函数的能力)A)隐藏层层数增加,模型能力一定增加B)Dropout的比例增加,模型能力增加C)学习率增加,模型能力增加D)都不正确答案:D解析:[单选题]62.在方差分析中,()反映的是样本数据与其组平均值的差异。A)总离差B)组间误差C)抽样误差D)组内误差答案:D解析:组内误差是来自样本内部数据之间的随机误差,它反映了样本数据自身的差异程度;组间误差由因子的不同处理造成的处理误差和抽样的随机误差组成,反映了不同样本之间数据的差异程度。[单选题]63.卷积的过程是让过滤器在图像上()。A)缩放B)剪切C)镜像对称D)窗口滑动答案:D解析:[单选题]64.下面哪句话是正确的?A)机器学习模型的精准度越高,则模型的性能越好B)增加模型的复杂度,总能减小测试样本误差C)增加模型的复杂度,总能减小训练样本误差D)以上说法都不对答案:C解析:本题考查的是机器学习模型的评判指标。机器学习模型的精准度(Precision)越高,模型性能不一定越好,还要看模型的召回率(Recall),特别是在正负样本分布不均的情况下。一般使用F1score评判标准。增加模型复杂度,通常可能造成过拟合。过拟合的表现是训练样本误差减小,而测试样本误差增大。[单选题]65.相同的词可以通过()来实现多个词嵌入?A)GloVeB)Word2VecC)ELMoD)Nltk答案:C解析:[单选题]66.下列算法中,不属于外推法的是()。A)移动平均法B)回归分析法C)指数平滑法D)季节指数法答案:B解析:外推法(Extrapolation)是根据过去和现在的发展趋势推断未来的一类方法的总称,回归分析法不属于外推法。[单选题]67.以下关于归纳偏好描述错误的是(___)。A)不是每一个有效的机器学习算法必有其归纳偏好B)归纳偏好可看做学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或?价值观?C)归纳偏好对应了学习算法本身所做出的的关于?什么样的模型更好?的假设D)如果没有归纳偏好,学习算法在每次进行预测时将随机抽选训练集上的等效假设答案:A解析:[单选题]68.BatchNorm层对于inputbatch会统计出mean和variance用于计算EMA。如果inputbatch的shape为(B,C,H,W),统计出的mean和variance的shape为:()A)B*1*1*1B)1*C*1*1C)B*C*1*1D)1*1*1*1答案:B解析:[单选题]69.决策树的父节点和子节点的熵的大小关系是()。A)父节点的熵更小B)子节点的熵更小C)两者相等D)根据具体情况而定答案:B解析:决策树分解策略是保证子结点的熵小于父结点的熵。但子结点的熵是该父结点所有孩子结点的熵的总和,因此,并保证任意一个子节点的熵都小于父结点病。[单选题]70.人工神经网络是20世纪80年代以来人工智能领域兴起的研究热点。它从信息处理角度对人脑神经元网络进行抽象,建立某种简单的模型,按()连接方式组成()网络。在工程与学术界简称为神经网络或类神经网络。A)不同的不同的B)不同的相同的C)相同的不同的D)相同的相同的答案:A解析:[单选题]71.在线性回归中使用正则项,你发现解的不少coefficient都是0,则这个正则项可能是(1).L0-norm;(2).L1-norm;(3).L2-norm。A)(1)(2)B)(2)(3)C)(2)D)(3)答案:A解析:[单选题]72.图像识别常用softmax函数接在模型的输出上,其作用为:()。A)增加不同类别之间的区分度B)突出输出向量中类标的对应的维度C)对输出归一化,同时以概率的更好解释输出向量D)过滤无用的环境信息答案:C解析:[单选题]73.以下哪种方法属于判别式模型(discriminativemodel)()A)隐马模型(HMM)B)朴素贝叶斯C)LDAD)支持向量机答案:D解析:已知输入变量x,判别模型(discriminativemodel)通过求解条件概率分布P(y|x)或者直接计算y的值来预测y。生成模型(generativemodel)通过对观测值和标注数据计算联合概率分布P(x,y)来达到判定估算y的目的。常见的判别模型有线性回归(LinearRegression),逻辑回归(LogisticRegression),支持向量机(SVM),传统神经网络(TraditionalNeuralNetworks),线性判别分析(LinearDiscriminativeAnalysis),条件随机场(ConditionalRandomField);常见的生成模型有朴素贝叶斯(NaiveBayes),隐马尔科夫模型(HMM),贝叶斯网络(BayesianNetworks)和隐含狄利克雷分布(LatentDirichletAllocation)。A选项的隐马尔科夫模型和B选项的朴素贝叶斯属于生成模型。C选项的LDA,如果是指LinearDiscriminativeAnalysis,那么属于判别模型,如果是指LatentDirichletAllocation,那么属于生成模型。D选项的支持向量机属于判别模型。[单选题]74.在支持向量机中,核函数的主要作用是(__)。A)将低维空间中线性不可分的数据映射到高维空间,使其线性可分B)将高维空间中线性不可分的数据映射到低维空间,使其线性可分C)将高维空间中线性可分的数据映射到低维空间,使其线性不可分D)将低维空间中线性可分的数据映射到高维空间,使其线性不可分答案:A解析:[单选题]75.谷歌新闻每天收集非常多的新闻,并运用()方法再将这些新闻分组,组成若干类有关联的新闻。于是,搜索时同一组新闻事件往往隶属同一主题的,所以显示到一起。A)关联规则B)聚类C)回归D)分类答案:B解析:[单选题]76.假如我们使用Lasso回归来拟合数据集,该数据集输入特征有100个(X1,X2,…,X100)。现在,我们把其中一个特征值扩大10倍(如特征X1),然后用相同的正则化参数对Lasso回归进行修正。那么,下列说法正确的是()。A)特征X1很可能被排除在模型之外B)特征X1很可能还包含在模型之中C)无法确定特征X1是否被舍D)以上答案都不正确答案:B解析:将特征X1数值扩大10倍,它对应的回归系数将相应会减小,但不为0,仍然满足β的正则化约束,因此可能还包含在模型之中。[单选题]77.下列度量不具有反演性的是A)系数B)几率C)Cohen度量D)兴趣因子答案:D解析:[单选题]78.对Boosting模型的描述错误的是A)采用串行训练模式B)增加被错误分类样本的权值C)通过改变训练集进行有针对性的学习D)基础分类器采用少数服从多数原则进行集成答案:D解析:[单选题]79.(__)在以决策树为基学习器构建Bagging集成的基础上,进一步在决策树的训练过程中引入了随机属性选择。A)BoostingB)AdaBoostC)RFD)Bagging答案:C解析:[单选题]80.若对于数据分布D和概率密度函数p(∙),错误率与精度可分别描述为(__)。A)若测试数据集的精度高或错误率小,则模型的泛化能力强;反之,则泛化能力弱。B)若测试数据集的精度低或错误率小,则模型的泛化能力强;反之,则泛化能力弱。C)若测试数据集的精度高或错误率高,则模型的泛化能力强;反之,则泛化能力弱。D)若测试数据集的精度小或错误率高,则模型的泛化能力强;反之,则泛化能力弱。答案:A解析:[单选题]81.以下描述不正确的是(__)。A)互动资源结算属于项目时间管理B)合同管理属于项目采购管理C)效绩报告属于项目沟通管理D)项目团队建设属于项目整体管理答案:D解析:[单选题]82.在概率图模型中,(__)模型是一种判别式无向图模型。A)马尔可夫随机场B)隐马尔可夫模型C)条件随机场D)逆误差传播答案:C解析:[单选题]83.下列关于软支持向量机的说法正确的是(__)。A)软间隔支持向量机不可应用拉格朗日乘子法求解B)软间隔支持向量机和硬间隔支持向量机完全相同C)软间隔支持向量机只能使用Hinge损失函数D)软间隔支持向量机的目标函数仍是一个二次规划问题答案:D解析:[单选题]84.Adaboost是属于机器学习里面的(),是一个二分类模型A)监督学习B)半监督学习C)无监督学习D)强化学习答案:A解析:[单选题]85.在这种架构中,对句子中所有词之间的关系进行建模,而与它们的位置无关。这是哪种架构?A)OpenAIGPTB)ELMoC)BERTD)ULMFit答案:C解析:[单选题]86.()算法是分类算法。A)DBSCANB)C4.5C)K-MeanD)EM答案:B解析:C4.5是分类算法;DBSCAN、K-Mean、EM是聚类算法。[单选题]87.随机森林方法属于()A)梯度下降优化B)Bagging方法C)Boosting方法D)线性分类答案:B解析:[单选题]88.下面哪个属于映射数据到新的空间的方法?A)傅立叶变换B)特征加权C)渐进抽样D)维归约答案:A解析:[单选题]89.在机器学习中,不属于常用的冲突消解策略是()。A)投票法B)排序法C)元规则法D)加权法答案:D解析:常用的冲突消解策略有投票法、排序法、元规则法等。[单选题]90.下列机器学习算法中,不需要归一化处理的是()。A)DecisionTreeB)SVMC)K-meansD)LogisticRegression答案:A解析:DecisionTree属于概率模型,不需要归一化处理;SVM、K-means和LogisticRegression之类的最优化问题需要归一化处理。[单选题]91.有关k-means下列说法正确的是()A)可以确定样本属性的重要性B)可以处理规则分布数据的聚类C)适合任意数据集的分组D)聚类的结果与初始选择的假设聚类中心无关答案:B解析:有很大的关系,聚类中心影响聚类结果[单选题]92.当训练数据很多时,一种更为强大的结合策略是使用(__),通过另一个学习器来进行结合。A)投票法B)平均法C)学习法D)排序法答案:C解析:[单选题]93.假设,下图是逻辑回归的代价函数alt="">现在,图中有多少个局部最小值?A)1B)2C)3、D)4答案:D解析:图中总共有四个凹的地方,故有四个局部最小值。[单选题]94.LSTM调整参数时信息的传播方向是()。A)后向传播B)前向传播C)双向传播D)跳跃传播答案:A解析:[单选题]95.(__)是M-P神经元,也称为?阈值逻辑单元?。A)输入层B)输出层C)第一层D)第二层答案:B解析:[单选题]96.拆分和合并图像通道的方法为()。A)Split()和merge()B)split()和merge()C)split()和Merge()D)Split()和merge()答案:B解析:[单选题]97.以下对大数据4V特性描述不正确的是()。A)在大数据中,价值与数据总量的大小不存在线性关系B)数据量大是相对计算与存储能力而定的C)Volume是指数据大D)大数据中所说的?速度?包括两种:增长速度和处理速度答案:C解析:[单选题]98.下面哪个操作肯定是宽依赖()A)mapB)flatMapC)reduceByKeyD)sample答案:C解析:[单选题]99.感知器(Perceptron)执行任务的顺序是1初始化随机权重2得到合理权重值3如果预测值和输出不一致,改变权重4对一个输入样本,计算输出值A)43②①B)①②34C)134②D)14③②答案:D解析:[单选题]100.一般来说,NumPy,Matplotlib,Pandas是数据分析和展示的3个常用包,下列选项中说法不正确的是()A)Pandas包。仅支持一维和二维数据分析,当进行多维数据分析时要使用NumPy包B)Matplotlib包支持多种数据展示,使用pyplot子库即可C)NumPy包底层采用C语言实现,因此运行速度很快D)Pandas包也包含一些数据展示函数,可以不使用Matplotlib包进行数据展示答案:A解析:[单选题]101.密度聚类方法充分考虑了样本间的什么关系()A)范数距离B)集合运算C)密度可达D)样本与集合运算答案:C解析:[单选题]102.一般,K-NN最近邻方法在什么情况下效果好()A)样本较多但典型性不好B)样本较少但典型性较好C)样本呈团状分布D)样本呈链状分布注:最近邻属于分类算法,样本多而且典型性不好容易造成分类错误(尤其是在分类边界上的样本点)。样本分布对聚类算法的影响较大。答案:B解析:[单选题]103.调用sklearn中的train_test_split函数将数据集切分为训练集和测试集。训练集与测试集比例为6:4。最合适的代码为:A)X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.6)B)X_train,y_train,X_test,y_test=train_test_split(X,y,test_size=0.6)C)X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.4)D)y_train,y_test,X_train,X_test=train_test_split(X,y,test_size=0.4)答案:C解析:[单选题]104.下面不属于探索性统计中常用集中趋势统计量的是(__)。A)和B)方差C)平均数D)四分位数答案:B解析:[单选题]105.下列哪种算法可以用神经网络构建?1K-NN最近邻算法;2线性回归;3逻辑回归。A)1and2B)2and3C)1,2and3D)Noneoftheabove答案:B解析:1.KNN是关于距离的学习算法,没有任何参数,所以无法用神经网络构建。2.神经网络实现最小二乘法。3.逻辑回归相当于一层的神经网络。[单选题]106.给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离,这说的是()算法。A)PCAB)SVMC)K-meansD)LDA答案:D解析:[单选题]107.在线性回归中,(__)试图找到一条直线,使所有样本到直线上的欧氏距离之和最小。A)最小二乘法B)拉格朗日乘子法C)欧氏距离D)均方误差答案:A解析:[单选题]108.不属于判别式模型的是()。A)决策树B)BP神经网络C)支持向量机D)贝叶斯答案:D解析:[单选题]109.下列极大似然估计描述错误的是A)极大似然估计先假定其具有某种确定的概率分布形式;B)极大似然估计没有确定的概率分布形式;C)概率模型的训练过程就是参数估计;D)贝叶斯学派认为参数本身也有分布,是未观察的随机变量;答案:B解析:[单选题]110.2.JC系数的度量公式()A)a/b+cB)a/a+bC)b/b+cD)a/a+b+c答案:D解析:[单选题]111.k-NN最近邻方法在什么情况下效果较好?A)样本较多但典型性不好B)样本较少但典型性好C)样本呈团状分布D)样本呈链状分布答案:B解析:K近邻算法主要依靠的是周围的点,因此如果样本过多,则难以区分,典型性好的容易区分。样本呈团状或链状都具有迷惑性,这样kNN就发挥不出其求近邻的优势了,整体样本应该具有典型性好,样本较少,比较适宜。[单选题]112.半监督学习四大范型不含有?A)基于分歧方法B)半监督SVMC)生成式方法D)半监督聚类答案:D解析:[单选题]113.关于贝叶斯网的学习描述错误的为A)贝叶斯的学习过程为对训练样本计数;B)估计出每个结点的条件概率;C)网络结构为已知;D)评分搜索为求解的常用办法;答案:C解析:[单选题]114.6.AGNES是一种()聚合策略的层次聚类算法A)A自顶向下B)自底向上C)由最近样本决定D)D最远样本决定答案:B解析:[单选题]115.以下对于t-SNE和PCA的陈述中哪个是正确的?A)t-SNE是线性的,而PCA是非线性的B)t-SNE和PCA都是线性的C)t-SNE和PCA都是非线性的D)t-SNE是非线性的,而PCA是线性的答案:D解析:[单选题]116.以下哪一种方法最适合在n(n>1)维空间中做异常点检测。A)正态分布图B)盒图C)马氏距离D)散点图答案:C解析:马氏距离是是一种有效的计算两个未知样本集的相似度的多元计量方法,以卡方分布为基础,表示数据的协方差距离。与欧氏距离不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是关联的)。因此马氏距离常用于多元异常值检测。[单选题]117.进行机器学习训练过程使用的接口API是:A)fit()B)predict()C)learn()D)train()答案:A解析:[单选题]118.以下()包提供了灵活高效的groupby功能,它使操作者能以一种自然的方式对数据进行切片,切块,摘要等操作。A)PandasB)MatplotlibC)NumPyD)sklearn答案:A解析:[单选题]119.下列关于分类器的说法中不正确的是()A)SVM的目标是找到使得训练数据尽可能分开且分类间隔最大的超平面,属于结构风险最小化B)NaiveBayes是一种特殊的Bayes分类器,其一个假定是每个变量相互条件独立。C)Xgboost是一种优秀的集成算法,其优点包括速度快、对异常值不敏感、支持自定义损失函数等等D)随机森林中列采样的过程保证了随机性,所以就算不剪枝,也不容易出现过拟合。答案:C解析:[单选题]120.要想创建一个3*4的数组,下列选项正确的是()。A)np.arange(12).reshape(4,3)B)np.arange(12).reshape(3,4)C)np.arange(7).reshape(4,3)D)np.arange(7).reshape(3,4)答案:B解析:[单选题]121.从学科定位来看,数据科学处于(__)三大领域的重叠之处。A)统计学B)黑客精神与技能C)数学与统计知识D)领域务实知识答案:A解析:[单选题]122.参数估计又可分为()和区间估计。A)线型估计B)点估计C)回归估计D)二维分析答案:B解析:参数估计是根据从总体中抽取的随机样本来估计总体分布中未知参数的过程。从估计形式看,区分为点估计与区间估计。[单选题]123.话题模型中的几个概念不含有?A)词B)句C)文档D)话题答案:B解析:[单选题]124.在创建ndarray对象时,可以使用()参数来指定元素类型。A)dtypeB)dtypesC)typeD)types答案:A解析:[单选题]125.下列数据集适用于隐马尔可夫模型的是?A)基因数据B)影评数据C)股票市场价格D)以上所有答案:D解析:本题考查的是隐马尔可夫模型适用于解决哪类问题。隐马尔可夫模型(HiddenMarkovModel,HMM)是关于时序的概率模型,描述一个隐藏的马尔可夫链随机生成不可观测的状态随机序列,再由各个状态生成一个观察而产生观测随机序列的过程。因此,隐马尔可夫模型适用于解决时间序列问题。[单选题]126.在多元线性回归模型中,若某个解释变量对其余解释变量的判定系数接近于1,则表明模型中存在()。A)异方差B)序列相关C)多重共线性D)高拟合优度答案:C解析:[单选题]127.现有4个同时到达的作业J1,J2,J3和J4,它们的执行时间分别是1小时,3小时,5小时,7小时,系统按单道方式运行且采用短作业优先算法,则平均周转时间是()小时A)4B)5C)6D)7.5答案:D解析:[单选题]128.多元线性回归的训练样本由(__)个属性描述。A)一B)二C)三D)多答案:D解析:[单选题]129.下列表述中,在k-fold交叉验证中关于选择K说法正确的是A)较大的K并不总是好的,选择较大的K可能需要较长的时间来评估你的结果B)相对于期望误差来说,选择较大的K会导致低偏差(因为训练folds会变得与整个数据集相似)C)在交叉验证中通过最小化方差法来选择K值D)以上都正确答案:D解析:[单选题]130.(__)是指抽取情感文本中有价值的情感信息,其要判断一个单词或词组在情感表达中扮演的角色,包括情感表达者识别,评价对象识别,情感观点词识别等任务。A)情感分类B)情感检索C)情感抽取D)情感分析答案:C解析:[单选题]131.概念分层图是()图A)无向无环B)有向无环C)有向有环D)无向有环答案:B解析:[单选题]132.(__)算法要求基学习器能对特定的数据分布进行学习,在训练过程的每一轮中,根据样本分布为每个训练样本重新赋予一个权重。A)BoostingB)支持向量机C)贝叶斯分类器D)神经网络答案:A解析:[单选题]133.在统计语言模型中,通常以概率的形式描述任意语句的可能性,利用最大相似度估计进行度量,对于一些低频词,无论如何扩大训练数据,出现的频度仍然很低,下列哪种方法可以解决这一问题()A)一元切分B)一元文法C)数据平滑D)N元文法答案:C解析:[单选题]134.被广泛认为AI诞生的标志的是(A)计算机的产生B)图灵机的出现C)达特茅斯会议D)神经网络的提出答案:C解析:[单选题]135.()属于无监督学习A)分类B)回归C)聚类D)决策树模型答案:C解析:[单选题]136.(__)是决策树学习算法对付过拟合的主要手段。A)剪枝B)连续值处理C)信息增益D)数据预处理答案:A解析:[单选题]137.AUC是衡量()模型优劣的一种评价指标。A)回归B)分类C)二分类D)聚类答案:C解析:[单选题]138.以下关于学习率说法错误的是()。A)学习率太大会导致无法收敛B)学习率必须是固定不变的C)学习率的选择不能太大也不能太小D)学习率太小会使得算法陷入局部极小点答案:B解析:[单选题]139.集成学习中,每个基分类器的正确率的最低要求()A)50%以上B)60%以上C)70%以上D)80%以上答案:A解析:[单选题]140.假设你需要调整超参数来最小化代价函数(costfunction),会使用下列哪项技术?A)穷举搜索B)随机搜索C)Bayesian优化D)都可以答案:D解析:[单选题]141.(__)由两层神经元组成。A)神经系统B)神经网络C)神经元D)感知机答案:D解析:[单选题]142.()的主要目的是提升数据质量,将数据形态更加符合某一算法需求,进而提升数据计算的效果和降低其复杂度。A)数据加工B)数据分析C)数据挖掘D)数据处理答案:A解析:[单选题]143.下图表示了哪种机器学习的算法思想A)K近邻算法B)分类C)回归D)聚类答案:D解析:[单选题]144.多分类学习中,最经典的三种拆分策略不包括()。A)一对一B)一对其余C)一对多D)多对多答案:A解析:多分类学习中,最经典的三种拆分策略包括一对多、多对多、一对其余。[单选题]145.‌当数据分布不平衡时,我们可采取的措施不包括()。A)对数据分布较多的类别赋予更大的权重B)对数据分布较多的类别欠采样C)对数据分布较少的类别过采样D)对数据分布较少的类别赋予更大的权重答案:A解析:[单选题]146.构建一个神经网络,将前一层的输出和它自身作为输入。下列哪一种架构有反馈连接?class="fr-ficfr-dibcursor-hover"A)循环神经网络B)卷积神经网络C)限制玻尔兹曼机D)都不是答案:A解析:[单选题]147.考察一个由三个卷积层组成的CNN:kernel=3×3,stride=2,padding=SAME。最低层输出100个特征映射(featuremap),中间层200个特征映射,最高层400个特征映射。输入是200×300的RGB图片,总参数的数量是多少?()A)903400B)2800C)180200D)720400答案:A解析:[单选题]148.以下哪个不是常见的决策树算法A)ID3B)C4.5C)CARTD)DBSCAN答案:D解析:[单选题]149.(__)是从海量文本中查询到观点信息,根据主题相关度和观点倾向性对结果排序。A)情感分类B)情感检索C)情感抽取D)情感分析答案:B解析:[单选题]150.下列哪个方法不属于情感分析的评测?A)COAE评测B)cifar10数据集评测C)CCFTCCI评测D)TAC评测答案:B解析:[单选题]151.Matplotlib主要是用哪种语言编写的?()正确回答A)PythonB)javaC)C++D)C答案:A解析:[单选题]152.不是专家系统组成部分的是______A)用户B)综合数据库C)推理机D)知识库答案:A解析:[单选题]153.IDF采用了IWF的几次平方?()A)一次B)二次C)三次D)四次答案:A解析:[单选题]154.下面的代码中,不是用来用来评价所训练模型的预测准确性的是:A)fromsklearn.metricsimportmean_absolute_errorB)fromsklearn.metricsimportmean_squared_errorC)fromsklearn.model_selectionimporttrain_test_splitD)fromsklearn.metricsimportaccuracy_score答案:C解析:[单选题]155.下面那个决策边界是神经网络生成的?A)AB)DC)CD)BE)以上都有答案:E解析:神经网络可以逼近方式拟合任意函数,所以以上图都可能由神经网络通过监督学习训练得到决策边界。第2部分:多项选择题,共49题,每题至少两个正确答案,多选或少选均不得分。[多选题]156.以下各项均是针对数据仓库的不同说法,你认为正确的有()A)数据仓库就是数据库B)数据仓库是一切商业智能系统的基础C)数据仓库是面向业务的,支持联机事务处理(OLTP)D)数据仓库支持决策而非事务处理答案:BD解析:[多选题]157.根据训练数据是否拥有标记信息,学习任务可大致分为(___)和(___)。A)监督学习B)训练集C)无监督学习D)测试集答案:AC解析:[多选题]158.以下对层次聚类描述正确的()A)监督学习B)自顶向下寻找最优划分C)集成学习D)自底向上寻找最优合并答案:BD解析:[多选题]159.决策树在()情况下会导致递归返回。A)当前节点包含的样本全属于同一类B)当前属性集为空C)当前节点包含的样本集合为空D)所有样本在所有属性上取值相同答案:ABCD解析:决策树的生成是一个递归过程。在决策树基本算法中,有三种情形会导致递归返回:①当前结点包含的样本全属于同一类别,无须划分;②当前属性集为空,或是所有样本在所有属性上取值相同,无法划分;③当前结点包含的样本集合为空,不能划分。[多选题]160.基于统计的分词方法的优点有(__)。A)分速度快B)效率高C)结合上下文识别生词D)消除歧义答案:ABCD解析:[多选题]161.__是对关于单个学习器泛化性能的假设进行检验。A)二项检验B)t检验C)交叉验证t检验D)McNemar检验答案:AB解析:[多选题]162.为大数据提供基础设施服务,有(__)和数据计算、数据管理与监控、集群服务、众包等。A)数据存储B)数据加工C)数据治理D)app开发答案:ABCD解析:[多选题]163.下列属于Apriori算法特定的是(__)。A)使用先验性质,大大提高了频繁项集逐层产生的效率B)简单易理解C)数据集要求高D)扩展性较好,可以并行计算答案:ABD解析:[多选题]164.ID3算法从功能上看有哪两点明显不足?A)实例各特征的取值必须是连续实数值,而不能是离散值B)实例各特征的取值必须是离散值,而不能是连续实数值C)预测目标值只能为连续实数值,不能是离散值,因此只能处理回归问题,不能处理分类问题D)预测目标值只能为离散值,不能是连续实数值,因此只能处理分类问题,不能处理回归问题答案:BD解析:[多选题]165.自助法在__时很有用。A)数据集较小B)数据集较大C)难以划分有效训练集D)难以划分有效测试集答案:ACD解析:[多选题]166.许多功能更为强大的非线性模型可在线性模型基础上通过引入()而得。A)层级结构B)高维映射C)降维D)分类答案:AB解析:[多选题]167.下列哪些是面向对象技术的特征()A)封装B)继承C)多态D)分布性答案:ABC解析:[多选题]168.聚类性能度量外部指标包括()。A)Jaccard系数B)FM指数C)Dunn指数D)Rand指数答案:ABD解析:常用的聚类性能度量外部指标包括Jaccard系数、FM指数、Rand指数。[多选题]169.精确推断方法通常需要很大的计算开销,因此在现实应用中近似推断方法更为常用。近似推断方法两类的典型代表有?A)MCMC采样B)变分推断C)UUC采样D)拆解推测答案:AB解析:[多选题]170.Adaboost方法中,需要迭代调整的两个重要参数是()A)样本权重B)分类器权重C)梯度变化率D)梯度答案:AB解析:[多选题]171.数据脱敏必须满足以下要求(__)。A)单向性B)无残留C)易于实现D)双向性答案:ABC解析:[多选题]172.处理高维数据的两大主流技术有哪些A)降维B)归一化C)特征抽取D)特征选择答案:AD解析:[多选题]173.下列关于L1正则化与L2正则化描述正确的是(__)。A)L1范数正则化有助于降低过拟合风险B)L2范数正则化有助于降低过拟合风险C)L1范数正则化比L2范数正则化更有易于获得稀疏解D)L2范数正则化比L1范数正则化更有易于获得稀疏解答案:ABC解析:[多选题]174.梯度提升的步骤是()A)首先用简单的模型对数据进行建模并分析数据中的错误。B)这些错误表示难以用简单模型拟合的数据点。C)然后对于以后的模型,我们特别关注那些难以拟合的数据点,以使他们正确D)我们通过随机挑选部分样本再次进行树的构建答案:ABC解析:[多选题]175.以下那些方法不常用于灰度内插值。()A)最近邻内插法B)三次内插法C)双线性内插值法D)三次样条插值法答案:ABD解析:[多选题]176.ZooKeeper节点类型是()A)持久节点(PERSISTENT)B)持久顺序节点(PERSISTENT_SEQUENTIAL)C)临时节点(EPHEMERAL)D)临时顺序节点(EPHEMERAL_SEQUENTIAL)答案:ABCD解析:[多选题]177.数据科学是()。A)新兴科学B)交叉性学科C)独立学科D)一整套知识体系答案:ABCD解析:[多选题]178.下列关于随机森林说法正确的是(__)。A)随机森林是Bagging的一个扩展变体B)随机森林在决策树的训练过程中引入了随机属性选择C)随机森林简单且容易实现D)随机森林计算开销大答案:ABC解析:[多选题]179.我们想要减少数据集中的特征数即降维,以下方案合适的是()。A)使用前向特征选择方法B)使用后向特征排除方法C)我们先,把所有特征都使用,去训练一个模型,得到测试集上的表现。然后我们去掉一个特征,再去训练,用交叉验证看看测试集上的表现。如果表现比原来还要好,我们可以去除这个特征D)查看相关性表,去除相关性最高的一些特征答案:ABCD解析:前向特征选择方法和后向特征排除方法是特征选择的常用方法。如果前向特征选择方法和后向特征排除方法在大数据上不活用,可以用这里C中方法。用相关性的度量去删除多余特征也是一个可行的方法。[多选题]180.指出下面正确的说法?A)基于像素的图像增强方法是一种线性灰度变换;B)基于像素的图像增强方法是基于像素领域的图像增强方法的一种;C)基于频域的图像增强方法由于常用到傅里叶变换和傅里叶反变换,所以总比基于图像域的方法计算复杂较高;D)基于频域的图像增强方法可以获得和基于空域的图像增强方法同样的图像增强效果;答案:BD解析:[多选题]181.图像识别的精度会受到以下那些因素的影响。A)数据类别数量不平衡B)输入图像尺寸不同C)图像中存在类标之外的环境干扰D)图像中存在随机噪声答案:ACD解析:[多选题]182.要对受孤立噪声点影响的图像进行平滑滤波。不能达到效果的滤波器是?A)中值滤波器:B)领域平均滤波器;C)高频增强滤波器;D)线性锐化滤波器;答案:CD解析:[多选题]183.对于变换矩阵的平移矩阵,以下说法正确的是()?A)平移矩阵属于仿射变换B)平移矩阵可逆C)平移矩阵是正交矩阵D)平移矩阵属于线性变换答案:AB解析:[多选题]184.数据产品的主要特征有(__)。A)数据为中心B)多样性C)层次性D)增值性答案:ABCD解析:[多选题]185.下列是caffe支持的loss优化的方法的是()A)AdamB)SGDC)AdaDeltaD)Nesterov答案:ABCD解析:[多选题]186.数据产品的存在和表现形式有(__)和数据类产品。A)情感类产品B)信息类产品C)知识类产品D)智慧类产品答案:BCD解析:[多选题]187.同题15所示无向图,它的极大团包括()A){B,C,D}B){A,B}C){A,B,C}D){A,B,C,D}答案:AC解析:[多选题]188.现在假设负样本量:正样本量=20:1,下列哪些方法可以处理这种不平衡的情况?()A)直接训练模型,预测的时候调节阈值B)下采样对少样本进行扩充,以增加正样本数量C)随机降采样负样本D)训练过程中,增加负样本的权重答案:ABC解析:[多选题]189.下列可以用来评估线性回归模型的指标有()。A)R-SquaredB)AdjustedR-SquaredC)FStatisticsD)RMSE/MSE/MAE答案:ABCD解析:R-Squared、AdjustedR-Squared、FStatistics和RMSE/MSE/MAE指标均可以评估线性回归模型。[多选题]190.关于累计BP算法和标准BP算法描述正确的是:-P105A)标准BP算法每次更新只针对单个样例;B)标准BP算法对不同样例进行更新的效果可能出现?抵消?现象;C)累计BP算法针对累计误差最小化,遍历整个训练集才进行参数更新;D)累计BP算法中累计误差会持续下降很快;答案:ABC解析:[多选题]191.基于机器学习的情感分类方法有(__)。A)贝叶斯分类器B)支持向量机C)条件随机场D)最大熵分类器答案:ABCD解析:[多选题]192.机器学习算法按学习任务分类可分为A)分类B)回归C)聚类D)强化学习答案:ABC解析:[多选题]193.下列哪些是应用于子集生成与搜索方面的技术A)分支限界法B)浮动搜索法C)深度优先搜索法D)正则化答案:AB解析:[多选题]194.从方法论角度,基于统计的数据分析方法可以分为(__)。A)基本分析方法B)自适应分析方法C)元分析方法D)判别模型分析方法答案:AC解析:[多选题]195.知识图谱构建过程中涉及下列哪些内容?()**A)知识获取B)知识融合C)知识验证D)知识分析答案:ABC解析:[多选题]196.以下哪几项属于汉语未登录词的类型?()A)存在于词典但出现频率较少的词B)新出现的普通词汇C)专有名词D)专业名词和研究领域名称答案:BCD解析:[多选题]197.TextRank首先会提取词汇,形成();然后依据词汇的关联,建立()。A)节点B)词表C)链接D)句子答案:AC解析:[多选题]198.下面不属于探索性统计中常用数据分布统计量的是(__)。A)残差B)偏态C)峰态D)众数答案:AD解析:[多选题]199.人工智能的研究包括()A)机器人B)语言识别C)图像识别D)自然语言处理答案:ABCD解析:[多选题]200.信息熵(InformationEntropy)来度量随机变量的不确定性。在使用一个特征切分数据集后,可用来量化分类不确定性降低的程度的具体指标有?A)信息增益B)信息增益比C)信息熵汇总值D)信息熵累计值答案:AB解析:[多选题]201.下面属于多元线性回归的是?A)求得正方形面积与对角线之间的关系B)建立股票价格与成交量、换手率等因素之间的线性关系C)建立西瓜价格与西瓜大小、西瓜产地、甜度等因素之间的线性关系D)建立西瓜书销量与时间之间的线性关系答案:BC解析:[多选题]202.用区域聚合法分割图像,要求(__)。A)各个点在平面上相邻接B)各个点是在平面上分散C)邻接点的特征相似D)点与点之间无关答案:AC解析:[多选题]203.?垃圾邮件?数据集训练模型来识别垃圾邮件。用训练好的模型对测试集进行预测。调用sklearn中的accuracy_score函数计算预测的准确率:单次测试的准确率为88.27%。A)朴素贝叶斯分类器使用大量的训练数据可以显著提高预测准确率B)对于该分类问题,朴素贝叶斯分类器预测准确率不是很高C)朴素贝叶斯分类器只需要使用很少的训练数据D)对于该分类问题,朴素贝叶斯分类器预测准确率很高E)依次使用了训练集比例70%,60%,…,10%来训练模型并测试模型性能。发现随着训练集的减小和测试集增大,模型性能仅有极微小的改变。这说明?答案:AD解析:[多选题]204.现在有M个桶,每桶都有N个乒乓球,乒乓球的颜色有K种,并且假设第i个桶第j种颜色的球个数为Cij,比例为Rij=Cij/N,现在要评估哪个桶的乒乓球颜色纯度最高,下列哪种算法和描述是合理的?A)∑(N/K-Cij)(N/K-Cij)越小越纯B)-∑Cij*LOG(Rij)越小越纯C)∑(1-Rij*Rij)越小越纯D)∑(1-Rij)*(1-Rij)越小越纯E)∑(1-Rij)^2越小越纯F)-∑Rij*LOG(Rij)越小越纯答案:BCF解析:第3部分:判断题,共33题,请判断题目是否正确。[判断题]205.对于大数据数据集而言,数据增强是一种有效提升数据质量的手段。A)正确B)错误答案:对解析:[判断题]206.机器学习可以被设计用程序和算法自动学习并进行自我优化,同时,需要一定数量的训练数据集来构建过往经验?知识?A)正确B)错误答案:对解析:[判断题]207.一般的,一棵决策树包含一个根节点、若干个内部结点和若干个叶结点;叶结点对应于决策结果,其他每个结点则对应于一个属性测试;根节点包含样本全集。A)正确B)错误答案:对解析:[判断题]208.逻辑回归是通过回归的思想来解决分类问题的算法A)正确B)错误答案:对解析:[判断题]209.一个事件的概率(odds)指该事件发生的概率与该事件不发生的概率的比值。A)正确B)错误答案:对解析:[判断题]210.逻辑回归算法又叫做对数几率回归,作为一种分类算法,在统计学中属于广义的线性模型A)正确B)错误答案:对解析:[判断题]211.?独依赖估计?是半朴素贝叶斯分类器最常用的一种策略A)正确B)错误答案:对解析:[判断题]212.在使用软间隔支持向量机(SVM)时,惩罚系数C为非负数A)正确B)错误答案:对解析:[判断题]213.深度学习是基于RNN循环神经网络A)正确B)错误答案:错解析:[判断题]214.剪枝是决策树学习算法对付?过拟合?的主要手段,决策树剪枝的基本策略有?预剪枝?和?后剪枝?。A)正确B)错误答案:对解析:[判断题]215.Pandas中的索引对象是可以修改的。A)正确B)错误答案:错解析:pandas中的索引对象是不可以修改的[判断题]216.聚类和分类的区别在于用于聚类的训练样本的类标记是未知的。A)正确B)错误答案:对解析:[判断题]217.使用concat()函数合并数据时,可以通过左连接和右连接这两种方式连接。A)正确B)错误答案:错解析:[判断题]218.自助法每次随机从数据集中挑选一个样本并放回初始数据集中。__A)正确B)错误答案:对解析:[判断题]219.一个贝叶斯网由结构和参数两个部分构成A)正确B)错误答案:对解析:[判断题]220.如果自变量X和因变量Y之间存在高度的非线性和复杂关系,那么树模型很可能优于经典回归方法。这个说法正确吗?A)正确B)错误答案:对解析:本题考查的是回归模型的选择。当数据是非线性的时,经典回归模型泛化能力不强,而基于树的模型通常表现更好。[判断题]221.预剪枝决策树通常比后剪枝决策树保留了更多的分支。A)正确B)错误答案:错解析:[判断题]222.read_html()函数可以读取网页中所有的数据。A)正确B)错误答案:错解析:read_html()方法只能读取网页中table标签中的数据[判断题]223.dropna()方法可以删除数据中所有的缺失值。A)正确B)错误答案:对解析:[判断题]224.用随机梯度算法训练回归模型前,把各特征缩放到相同尺寸的常用方法有归一化、正则化、标准化A)正确B)错误答案:错解析:[判断题]225.预剪枝决策树其训练时间开销比后剪枝决策树要大得多。__A)正确B)错误答案:错解析:[判断题]226.支持向量机是一类模型的统称,通常包括线性可分支持向量机、线性支持向量机和非线性支持向量机A)正确B)错误答案:对解析:[判断题]227.梯度下降法中梯度方向是函数值下降最快方向。A)正确B)错误答案:错解析:[判断题]228.从计算角度上,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论