人工智能机器学习技术练习(习题卷7)_第1页
人工智能机器学习技术练习(习题卷7)_第2页
人工智能机器学习技术练习(习题卷7)_第3页
人工智能机器学习技术练习(习题卷7)_第4页
人工智能机器学习技术练习(习题卷7)_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:人工智能机器学习技术练习人工智能机器学习技术练习(习题卷7)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages人工智能机器学习技术练习第1部分:单项选择题,共155题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.聚类算法属于()的一种A)无监督学习B)强化学习C)监督学习答案:A解析:[单选题]2.KNN算法应用于回归时,计算的是()A)从属类别的均值B)从属类别的最大值C)从属类别的最小值答案:A解析:[单选题]3.线性回归和逻辑回归中,关于损失函数对权重系数的偏导数,下列说法正确的是?A)两者不一样B)两者一样C)无法确定答案:B解析:[单选题]4.假设有n组数据集,每组数据集中,x的平均值都是9,x的方差都是11,y的平均值都是7.50,x与y的相关系数都是0.816,拟合的线性回归方程都是y=3.00+0.500x。那么这n组数据集()。A)一样B)不一样C)无法确定是否一样答案:C解析:只比较平均值、方差、相关系数和回归方程,无法确定数据集是否相同,还需比较Anscombe'squartet。[单选题]5.一个SVM存在欠拟合问题,下面怎么做能提高模型的性能:A)增大惩罚参数CB)减小惩罚参数CC)减小核函数系数(gamma值)答案:A解析:C>0称为惩罚参数,是调和二者的系数,C值大时对误差分类的惩罚增大,C值小时对误差分类的惩罚减小。当C越大,趋近无穷的时候,表示不允许分类误差的存在,margin越小,容易过拟合;当C趋于0时,表示我们不再关注分类是否正确,只要求margin越大,容易欠拟合。[单选题]6.关于BP算法特点描述错误的是()A)输入信号顺着输入层、隐层、输出层依次传播B)计算之前不需要对训练数据进行归一化C)预测误差需逆向传播,顺序是输出层、隐层、输入层D)各个神经元根据预测误差对权值进行调整答案:B解析:[单选题]7.以下有关特征数据归一化的说法错误的是:A)特征数据归一化加速梯度下降优化的速度B)特征数据归一化有可能提高模型的精度C)线性归一化适用于特征数值分化比较大的情况D)概率模型不需要做归一化处理答案:C解析:线性归一化这种归一化方法比较适用在数值比较集中的情况。这种方法有个缺陷,如果max和min不稳定,很容易使得归一化结果不稳定,使得后续使用效果也不稳定。实际使用中可以用经验常量值来替代max和min。非线性归一化经常用在数据分化比较大的场景,有些数值很大,有些很小。通过一些数学函数,将原始值进行映射。该方法包括log、指数,正切等。需要根据数据分布的情况,决定非线性函数的曲线,比如log(V,2)还是log(V,10)等。概率模型(决策树)不需要归一化,因为他们不关心变量的值,而是关心变量的分布和变量之间的条件概率。像SVM、线性回归之类的最优化问题需要归一化。归一化之后加快了梯度下降求最优解的速度,并有可能提高精度。[单选题]8.一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级属性的众数是:A)一年级B)二年级C)三年级D)四年级答案:A解析:[单选题]9.假设您已在数据集上拟合了一个复杂的回归模型。现在,您正在使用Ridge回归,并调整参数λ以减少其复杂性。下面的描述哪个表达了偏差和方差与λ的关系()。A)在λ非常小的情况下,偏差低,方差低B)在λ非常小的情况下,偏差低,方差高C)在λ非常小的情况下,偏差高,方差低D)在λ非常小的情况下,偏差低,方差低答案:B解析:λ很小,则意味着模型比较复杂,在这种情况下,会产生偏差低且方差高的结果,模型会对数据过拟合。[单选题]10.假设file是文本文件对象,下列选项中,哪个用于读取一行内容()。A)file.read()B)file.read(200)C)file.readline()D)file.readlines()答案:C解析:[单选题]11.使用小括号定义的数据类型是(A)列表B)集合C)字典D)元组答案:D解析:[单选题]12.在数据科学中,有时需要通过样本对总体进行(__)。A)描述统计B)洞见统计C)推断统计D)归纳统计答案:C解析:[单选题]13.梯度下降算法的正确步骤是什么?A计算预测值和真实值之间的误差B重复迭代,直至得到网络权重的最佳值C把输入传入网络,得到输出值D用随机值初始化权重和偏差E对每一个产生误差的神经元,调整相应的(权重)值以减小误差A)abcdeB)edcbaC)cbaedD)dcaeb答案:D解析:[单选题]14.下列代码片段>>>fromsklearn.model_selectionimporttrain_test_split>>>X_train,X_test,y_train,y_test=train_test_split(iris.data,iris.target,test_size=0.4,random_state=0)实现的功能是:A)加载数据B)分割数据C)分组数据D)删除部分数据答案:B解析:[单选题]15.关于CNN,以下结论正确的是()A)在同样层数、每层神经元数量一样的情况下,CNN比全连接网络拥有更多的参数B)CNN可以用于非监督学习,但是普通神经网络不行C)Pooling层用于减少图片的空间分辨率D)接近输出层的filter主要用于提取图像的边缘信息答案:C解析:[单选题]16.以下关于数据科学描述错误的是A)数据科学研究数据的共性B)降低计算量不是数据科学关心的问题C)数据科学可以研究非结构化数据D)数据科学需要与其他学科结合在一起答案:B解析:[单选题]17.下列关于ZooKeeper集群原理的介绍,不正确的是()。A)由多个ZooKeeperSEVER组成的集群环境B)包含一个Leader和多个FollowerC)每个sever保存一个数据副本、全局数据一致D)不采用分布式读写机制答案:D解析:[单选题]18.以下不属于线性分类器最佳准则的是()A)感知准则函数B)支持向量机C)贝叶斯分类D)Fisher准则答案:C解析:[单选题]19.关于ZooKeeper临时节点的说法正确的是()A)创建临时节点的命令为:create-s/tmpmyvalueB)一旦会话结束,临时节点将被自动删除C)临时节点不能手动删除D)临时节点允许有子节点答案:B解析:[单选题]20.过滤式特征选择与学习器(),包裹式特征选择与学习器()。A)相关,相关B)相关,不相关C)不相关,相关D)不相关,不相关答案:C解析:过滤式特征选择先对数据集进行特征选择,然后再训练学习器,特征选择过程与后续学习器无关。包裹式特征选择把最终将要使用的学习器的性能作为特征子集的评价准则。[单选题]21.如果问题存在最优解,则下面几种搜索算法中,()必然可以得到该最优解A)广度优先搜索B)深度优先搜索C)有界深度优先搜索D)启发式搜索答案:A解析:[单选题]22.下列不属于无监督学习方法的是()A)K-meansB)线性降维C)DBSCAND)支持向量机答案:D解析:[单选题]23.下列哪个神经网络结构会发生权重共享?A)卷积神经网络B)循环神经网络C)全连接神经网络D)选项A和B答案:D解析:[单选题]24.下面关于Z-Buffer算法的论断哪一条不正确?()A)深度缓存算法并不需要开辟一个与图像大小相等的深度缓存数组B)深度缓存算法不能用于处理对透明物体的消隐C)深度缓存算法能并行实现D)深度缓存算法中没有对多边形进行排序答案:B解析:[单选题]25.以下有关随机森林算法的说法错误的是:A)随机森林算法的分类精度不会随着决策树数量的增加而提高B)随机森林算法对异常值和缺失值不敏感C)随机森林算法不需要考虑过拟合问题D)决策树之间相关系数越低、每棵决策树分类精度越高的随机森林模型分类效果越好答案:C解析:[单选题]26.下面不属于维归约方法的是(__)。A)PCAB)SVDC)DWTD)KNN答案:D解析:[单选题]27.当特征值大致相等时。会发生的情况是()。A)PCA将表现出色B)PCA将表现不佳C)不知道D)以上都没有答案:B解析:当所有特征向量相同时将无法选择主成分,因为在这种情况下所有主成分相等。[单选题]28.以下哪种方法不属于特征选择的标准方法:A)嵌入B)过滤C)包装D)抽样答案:D解析:[单选题]29.根据数据管理计划,设计或选择具体方法实行计划中的工作内容,属于数据治理的哪一步()A)计划B)执行C)检查D)改进答案:B解析:[单选题]30.支持向量回归与传统回归模型的差别是()。A)模型输出与真实值相同B)模型输出与真实值存在ε偏差C)模型输出大于真实值D)模型输出小于真实值答案:B解析:以线性回归为例,通过模型输出的f(x)与真实输出的y之间的差别来计算损失。而SVR假设模型输出f(x)与真实的y之间可以容忍有eps大小的偏差,也就意味只要样本的预测值落在f(x)两侧在y轴方向上绝对值之差小于eps的间隔带就是预测正确的。[单选题]31.对于非概率模型而言,可按照判别函数线性与否分成线性模型与非线性模型。下面哪个模型不属于线性模型?A)感知机B)AdaBoostC)K-meansD)k近邻答案:B解析:[单选题]32.在DIKW金字塔中属于未来的是()。A)信息B)数据C)知识D)智慧答案:D解析:[单选题]33.下面关于SVM算法叙述不正确的是()A)SVM在解决小样本、非线性及高维模式识别问题中具有优势B)SVM是一种基于经验风险最小化准则的算法C)SVM求得的解为全局唯一最优解D)SVM最终分类结果只与少数支持向量有关答案:B解析:[单选题]34.当(__)过高,会出现欠拟合现象A)偏差B)方差C)噪声D)泛化误差答案:A解析:[单选题]35.以下哪项不属于图像分割的目的。()A)把不同类标分开。B)提取不同区域的特征。C)识别图像内容,或对图像进行分类。D)对未处理噪声的图像进行平滑。答案:D解析:[单选题]36.当(__)过高,会出现过拟合现象A)偏差B)方差C)噪声D)泛化误差答案:B解析:[单选题]37.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?A)频繁模式挖掘B)分类和预测C)数据预处理D)数据流挖掘答案:C解析:[单选题]38.最小二乘回归方法的等效回归方法()A)Logistic回归B)多项式回归C)非线性基函数回归D)线性均值和正态误差的最大似然回归答案:D解析:[单选题]39.下面对线性模型中偏置值b的说法正确的是(__)。A)无任何意义B)决定超平面的位置C)决定的超平面的方向D)是样本点到超平面上的映射答案:B解析:[单选题]40.梯度爆炸问题是指在训练深度神经网络的时候,梯度变得过大而损失函数变为无穷。在RNN中,下面哪种方法可以较好地处理梯度爆炸问题()A)梯度裁剪B)所有方法都不行C)DropoutD)加入正则项答案:A解析:[单选题]41.专家系统中知识库的知识可以获取的来源是()A)领域专家B)专家系统的用户C)计算机系统管理员D)专家系统程序的开发者答案:A解析:[单选题]42.数据科学是一门以?数据?,尤其是?大数据?为研究对象,并以数据统计、机器学习、数据可视化等为理论基础,主要研究数据加工、数据管理、数据计算等活动的()。A)新兴科学B)交叉性学科C)独立学科D)一整套知识体系答案:B解析:[单选题]43.以下关于字典中的键值的说法,正确的是A)键值不可修改B)键值不能重复C)键值必须是字符串D)以上都不对答案:D解析:[单选题]44.下列哪一项属于特征学习算法(representationlearningalgorithm)?A)K近邻算法B)随机森林C)神经网络D)都不属于答案:C解析:[单选题]45.假设precision=TP/(TP+FP),recall=TP/(TP+FN),则在二分类问题中,当测试集的正例和负例数量不均衡时,以下评价方案中()是相对不合理的。A)Accuracy:(TP+TN)/allB)F-value:2recallprecision/(recall+precision)C)G-mean:sqrt(precision*recall)D)AUC:曲线下面积答案:A解析:测试集正例和负例数量不均衡,那么假设正例数量很少占10%,负例数量占大部分90%。而且算法能正确识别所有负例,但正例只有一半能正确判别。那么TP=0.05×all,TN=0.9×all,Accuracy=95%。虽然Accuracy很高,precision是100%,但正例recall只有50%。[单选题]46.自然语言处理是用()技术的一种应用A)语音识别B)虚拟现实C)人工智能D)自然语言答案:C解析:[单选题]47.‎一个包含n类的多分类问题,若采用一对剩余的方法,需要拆分成多少次?A)nB)1C)n-1D)n+1答案:C解析:[单选题]48.机器学习研究如何通过计算的手段,利用经验来改善系统自身的性能,请问机器学习利用数据训练出什么()A)模型B)表结构C)结果D)报表答案:A解析:[单选题]49.下列关于过拟合的说法错误的是A)过拟合是指模型在训练集上表现很好,但是在交叉验证集和测试集上表现一般B)解决过拟合可以采用Dropout方法C)解决过拟合可以采用参数正则化方法D)数据集扩增不能用来解决过拟合问题答案:D解析:[单选题]50.请阅读下面的程序:FrompandasimportSeriesImportpandasaspdFromnumpyimportNaNSeries_obj=Series([2,1,NaN])Print(pd.isnull(series_obj))执行上述程序后,最终输出的结果为()。A)0False1False2TrueB)0True1True2FalseC)0False1False2FalseD)0True1True2True答案:A解析:[单选题]51.PCA在做降维处理时,优先选取哪些特征()A)中心化样本的协方差矩阵的最大特征值对应特征向量B)最大间隔投影方向C)最小类内聚类D)最速梯度方向答案:A解析:[单选题]52.(__)的学习目的是生成一颗泛化能力强,即处理未见示例能力强的决策树。A)线性回归B)贝叶斯分类器C)神经网络D)决策树答案:D解析:[单选题]53.关于logistic回归和SVM不正确的是()A)Logistic回归目标函数是最小化后验概率B)Logistic回归可以用于预测事件发生概率的大小C)SVM目标是结构风险最小化D)SVM可以有效避免模型过拟合答案:A解析:[单选题]54.关于Pandas中数据排序,下列说法正确的是()。A)即可以按照行索引排序,也可以按照列索引排序B)sort_index()方法表示按照值进行排序C)sort_values()方法表示按照索引进行排序D)默认情况下,sort_index()方法按照降序排列答案:A解析:[单选题]55.从1,2,...,15中小明和小红两人各任取一个数字,现已知小明取到的数字是5的倍数,请问小明取到的数大于小红取到的数的概率是多少A)7/14B)8/14C)9/14D)10/14答案:C解析:[单选题]56.什么是KDD?A)数据挖掘与知识发现B)领域知识发现C)文档知识发现D)动态知识发现答案:A解析:[单选题]57.对于投影数据为((√2),(0),(√2))。现在如果在二维空间中重建,并将它们视为原始数据点的重建,那么重建误差是多少?A)0%B)10%C)30%D)40%答案:A解析:重建误差为0,因为所有三个点完全位于第一个主要分量的方向上或者计算重建;[单选题]58.spark的四大组件下面哪个不是()。A)SparkStreamingB)MlibC)GraphxD)SparkR答案:D解析:[单选题]59.机器学习中,基于样本分布的距离是()。A)马氏距离B)欧式距离C)曼哈顿距离D)闵可夫斯基距离答案:A解析:马氏距离是基于样本分布的一种距离。[单选题]60.任何一个核函数都隐式地定义了一个()空间。A)希尔伯特空间B)再生希尔伯特空间C)再生核希尔伯特空间D)欧式空间答案:C解析:[单选题]61.下列关于聚类分析的度量标准轮廓系数的描述不准确的是()A)轮廓系数的最大值是1B)一个簇整体的轮廓系数越大,说明聚类的效果越好C)轮廓系数不可能出现负数D)聚类紧密的簇比聚类稀疏的簇的整体轮廓系数要大答案:C解析:[单选题]62.在下面给出的三个残差图中,下面哪一个代表了与其他模型相比更差的模型?注意:1/所有的残差都已经标准化2/图中横坐标是预测值,纵坐标是残差A)1B)2C)3D)无法比较答案:C解析:[单选题]63.图像平滑从信号处理的角度看就是去除其中的(__)。A)高频信息B)低频信息C)噪声D)亮度信息答案:A解析:[单选题]64.从给定的句子、段落中识别人名、组织名的过程称为?A)词干提取(Stemming)B)词形还原(Lemmatization)C)停用词消除(StopWordRemoval)D)命名实体识别(NamedEntityRecognition)答案:D解析:[单选题]65.贝叶斯模型平均基于后验概率来为不同的模型赋予权重,可视为(__)的一种特殊实现。A)加权平均法B)投票法C)排序法D)学习法答案:A解析:[单选题]66.假设你在卷积神经网络的第一层中有5个卷积核,每个卷积核尺寸为7×7,具有零填充且步幅为1。该层的输入图片的维度是224×224×3。那么该层输出的维度是多少?A)217x217x3B)217x217x8C)218x218x5D)220x220x7答案:C解析:一般地,如果原始图片尺寸为nxn,filter尺寸为fxf,则卷积后的图片尺寸为(n-f+1)x(n-f+1),注意f一般为奇数。[单选题]67.下列核函数特性描述错误的是A)只要一个对称函数所对应的核矩阵半正定,就能称为核函数;B)核函数选择作为支持向量机的最大变数;C)核函数将影响支持向量机的性能;D)核函数是一种降维模型;答案:D解析:[单选题]68.有三个关系R、S和T如下:由关系R和S通过运算得到关系T,则所使用的运算为()。class="fr-ficfr-dibcursor-hover"A)笛卡尔积B)交C)并D)自然连接答案:D解析:[单选题]69.考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含A)1,2,3,4B)1,2,3,5C)1,2,4,5D)1,3,4,5答案:C解析:[单选题]70.计算一个任意三角形的面积,S=√(p(p-a)(p-b)(p-c)),p=(a+b+c)/2,以下等价类测试用例中,不属于无效等价类的是A)a=5,b=3,c=6;B)a=2,b=3,c=5;C)a=7,b=3,c=3;D)a=2,b=6,c=3;答案:A解析:[单选题]71.假设我们有一个使用ReLU激活函数(ReLUactivationfunction)的神经网络,假如我们把ReLU激活替换为线性激活,那么这个神经网络能够模拟出同或函数(XNORfunction)吗()A)可以B)不能C)不好说D)不一定答案:B解析:[单选题]72.假如使用一个较复杂的回归模型来拟合样本数据,使用Ridge回归,调试正则化参数λ,来降低模型复杂度。若λ较大时,关于偏差(bias)和方差(variance),下列说法正确的是?A)若λ较大时,偏差减小,方差减小B)若λ较大时,偏差减小,方差增大C)若λ较大时,偏差增大,方差减小D)若λ较大时,偏差增大,方差增大答案:C解析:若λ较大时,意味着模型复杂度较低,这时候容易发生欠拟合,对应偏差增大,方差减小。做个简单总结:Λ较小:偏差减小,方差增大,容易发生过拟合Λ较大:偏差增大,方差减小,容易发生欠拟合[单选题]73.学习方式划分,机器学习通常分为()三类、A)监督学习、非监督学习、聚类B)监督学习、非监督学习、神经网络C)监督学与、非监督学与、强化学习D)监督学习、非监督学习、有教师学习答案:C解析:[单选题]74.某篮运动员在三分线投球的命中率是2(1),他投球10次,恰好投进3个球的概率为()。A)128(15)B)16(3)C)8(5)D)16(7)答案:A解析:投篮只有两种结果;进或者不进,符合二项分布,二项分布概率的概率可以用公式P(X=k)=pk(1-p)n-k求得,其中n=10代表试验次数,k=3代表事件连续发生的次数,p=1/2代表事件发生的概率。[单选题]75.核主成分分析是一种(__)方法。A)非线性降维B)线性降维C)分类D)回归答案:A解析:[单选题]76.数据产品开发的关键环节是(__)。A)数据加工B)数据柔术C)数据归约D)数据清洗答案:A解析:[单选题]77.所谓不确定性推理就是从()的初始证据出发,通过运用()的知识,最终推出具有一定程度的不确定性但却是合理或者近乎合理的结论的思维过程A)不确定性,不确定性B)确定性,确定性C)确定性,不确定性D)不确定性确定性答案:A解析:[单选题]78.以下哪个图像显示y=1的代价函数?以下是两类分类问题的逻辑回归(Y轴损失函数和x轴对数概率)的损失函数。注:Y是目标类A)AB)BC)两者D)这些都没有答案:A解析:A正确,因为损失函数随着对数概率的增加而减小[单选题]79.以下哪项不属于知识发现的过程?()A)数据清理B)数据挖掘C)知识可视化表达D)数据测试答案:D解析:[单选题]80.一般,K-NN最近邻方法在什么情况下效果好()A)样本较多但典型性不好B)样本较少但典型性较好C)样本呈团状分布D)样本呈链状分布注:最近邻属于分类算法,样本多而且典型性不好容易造成分类错误(尤其是在分类边界上的样本点)。样本分布对聚类算法的影响较大。答案:B解析:[单选题]81.(__)的基本思想是学习过程由信号的正向传播与误差反向传播两个过程组成。A)感知机B)神经元C)神经系统D)误差逆传播答案:D解析:[单选题]82.关于Elman网络描述错误的是A)作为递归神经网络,允许出现环形结构;B)一些神经元的输出反馈回来会作为输入信号;C)用于处理静态模型,即无法处理与时间有关的动态变化;D)可利用BP算法来进行参数优化;答案:C解析:[单选题]83.下面回归模型中的哪个步骤/假设最能影响过拟合和欠拟合之间的平衡因素()。A)多项式的阶数B)是否通过矩阵求逆或梯度下降学习权重C)使用常数项D)使用正则化答案:A解析:选取合适的多项式阶数对于回归的拟合程度会产生重要的影响。多项式阶数越高,越容易产生过拟合现象。[单选题]84.以下哪些选项为真?A)线性回归误差值必须正态分布,但是在Logistic回归的情况下,情况并非如此B)逻辑回归误差值必须正态分布,但是在线性回归的情况下,情况并非如此C)线性回归和逻辑回归误差值都必须正态分布D)线性回归和逻辑回归误差值都不能正态分布答案:A解析:[单选题]85.下列对LVW算法的说法错误的是A)算法中特征子集搜索采用了随机策略B)每次特征子集评价都需要训练学习器,开销很大C)算法设置了停止条件控制参数D)算法可能求不出解答案:D解析:[单选题]86.下列不属于数据预处理的操作是(__)。A)抽样B)特征子集选择C)特征变换D)训练答案:D解析:[单选题]87.在图集合中发现一组公共子结构,这样的任务称为A)频繁子集挖掘B)频繁子图挖掘C)频繁数据项挖掘D)频繁模式挖掘答案:B解析:[单选题]88.评估完模型之后,发现模型存在高偏差(highbias),应该如何解决?A)减少模型的特征数量B)增加模型的特征数量C)增加样本数量D)以上说法都正确答案:B解析:如果模型存在高偏差(highbias),意味着模型过于简单。为了使模型更加健壮,我们可以在特征空间中添加更多的特征。而添加样本数量将减少方差。[单选题]89.sc.parallelize([(1,2),(1,3),(2,3),(2,4),(3,1)].reduceByKey(lambdax,y:x+y).count().collect?操作中会产生()个stageA)1B)2C)3D)4答案:B解析:[单选题]90.下面选项中不是双目摄像头的内参的是()。A)焦距(Focallength)B)基础矩阵(Fundamentalmatrix)C)扭曲值(Distortion)D)光点中心(Opticalcenter)答案:B解析:[单选题]91.以下对知识描述不正确的是()。A)知识分为显性知识和隐性知识B)知识是人们从数据和信息中发现的C)知识是数据/信息中存在的共性规律、认知、经验与常识D)隐性知识能够清晰的表述和有效的转移答案:D解析:[单选题]92.训练集、验证集和测试集在使用过程中的顺序是A)测试集、训练集、验证集B)训练集、测试集、验证集C)验证集、训练集、测试集D)训练集、验证集、测试集答案:B解析:[单选题]93.有关深度学习加速芯片,以下的说法中不正确的是:()A)GPU既可以做游戏图形加速,也可以做深度学习加速B)用于玩游戏的高配置显卡,也可以用于深度学习计算。C)GoogleTPU已经发展了三代,它们只能用于推断(Inference)计算,不能用于训练(Training)计算D)FPGA最早是作为CPLD的竞争技术而出现的答案:C解析:[单选题]94.以下哪个步骤将原始数据进行变换、变量相关性、标准化等任务()。A)部署B)业务需求分析C)数据预处理D)结果评估答案:C解析:[单选题]95.在标准化公式中,使用ε的目的是(D)A)为了加速收敛B)如果μ过小C)使结果更准确D)防止分母为零答案:D解析:[单选题]96.下列的哪种方法可以用来降低深度学习模型的过拟合问题?1增加更多的数据;2使用数据扩增技术(dataaugmentation);3使用归纳性更好的架构;4正规化数据;5降低架构的复杂度.A)145B)123C)1345D)所有项目都有用答案:D解析:[单选题]97.代码print((1,2,?1?,?2?)[0]>1)执行结果是()。A)TrueB)FalseC)报错D)无结果答案:B解析:[单选题]98.下列关于数据预处理的说法中,描述不正确的是()。A)数据清洗的目的是为了提高数据质量B)异常值不一定要删除C)通过drop_duplicates()方法可以删除重复数据D)concat()函数可以根据一个或多个键将不同的DataFrame进行合并答案:D解析:concat()函数可以沿着一条轴将多个对象进行堆叠。[单选题]99.以下说法正确的是()A)在使用KNN算法时,k通常取奇数B)KNN是有监督学习算法C)在使用KNN算法时,k取值越大,模型越容易过拟合D)KNN和K-means都是无监督学习算法答案:B解析:在使用KNN算法时,k取值越大,模型越容易欠拟合,KNIN是有监督的机器学习算法。[单选题]100.(__)是一门以可视化交互为基础,综合运用图形学、数据挖掘和人机交互等多个领域的知识,以实现人机协同完成可视化任务为主要目的的分析推理性学科。A)信息可视化B)科学可视化C)可视分析学D)数据可视化答案:C解析:[单选题]101.考虑某个具体问题时,你可能只有少量数据来解决这个问题。不过幸运的是你有一个类似问题已经预先训练好的神经网络。可以用下面哪种方法来利用这个预先训练好的网络?(C)A)把除了最后一层外所有的层都冻住,重新训练最后一层B)对新数据重新训练整个模型C)只对最后几层进行调参(finetune)D)对每一层模型进行评估,选择其中的少数来用答案:C解析:如果有个预先训练好的神经网络,就相当于网络各参数有个很靠谱的先验代替随机初始化.若新的少量数据来自于先前训练数据(或者先前训练数据量很好地描述了数据分布,而新数据采样自完全相同的分布),则冻结前面所有层而重新训练最后一层即可;但一般情况下,新数据分布跟先前训练集分布有所偏差,所以先验网络不足以完全拟合新数据时,可以冻结大部分前层网络,只对最后几层进行训练调参(这也称之为finetune)。[单选题]102.下面关于贝叶斯学习相关描述正确的有(__)。A)贝叶斯学习等价于频数概率B)频数概率引入先验知识和逻辑推理来处理不确定问题C)贝叶斯学习只从数据本身获得结论D)贝叶斯学习是一种以贝叶斯法则为基础的,并通过概率手段进行学习的方法答案:D解析:[单选题]103.信息增益即数据集的熵与在某特征条件下的条件熵之差。关于信息增益,正确的说法是:(2.0分)2.0分A)信息增益越大,说明此特征分类能力越弱B)信息增益越小,说明此特征克服的不确定性越大,具有更强的分类能力C)信息增益越大,说明此特征克服的不确定性越大,具有更强的分类能力D)信息增益越小,说明此特征分类能力越强答案:C解析:[单选题]104.当往往一本书中其实通常使用到的词汇表是非常小的,这就会导致一本书的表示向量中存在大量的0.这样的向量称为()。A)零向量B)满秩向量C)稀疏向量D)普通向量答案:C解析:[单选题]105.下面不属于NewSQL的有(__)。A)memsqlB)trafodionC)mariaDBD)objectivity答案:D解析:[单选题]106.若A与B是任意的两个事件,且P(AB)=P(A)·P(B),则可称事件A与B()。A)等价B)互不相容C)相互独立D)相互对立答案:C解析:若A与B为互斥事件,则有概率加法公式P(A+B)=P(A)+P(B);若A与B不为互斥事件,则有公式P(A+B)=P(A)+P(B)-P(AB);若A与B为相互独立事件,则有概率乘法公式P(AB)=P(A)P(B)[单选题]107.(__)不是遗传算法基本算子。A)选择B)感染C)突变D)交叉答案:B解析:[单选题]108.一般来说,下列哪种方法常用来预测连续独立变量?A)线性回归B)逻辑回顾C)线性回归和逻辑回归都行D)以上说法都不对答案:A解析:线性回归一般用于实数预测,逻辑回归一般用于分类问题。[单选题]109.关于EDA与统计学中验证性分析的相关描述不正确的有(__)。A)EDA无需事先假设,验证性分析需要事先假设B)探索分析在后,验证性分析在前C)EDA中采取的方法往往比验证分析简单D)基于EDA是数据计算工作可以分为2个部分:探索性分析和验证性分析答案:B解析:[单选题]110.如果我们现有一个安装2.6.5版本的hadoop集群,在不修改默认配置的情况下存储200个每个200M的文本文件,请问最终会在集群中产生多少个数据块(包括副本)?A)200B)40000C)400D)1200答案:D解析:[单选题]111.假正率是指(__)。A)正样本预测结果数/正样本实际数B)被预测为负的正样本结果数/正样本实际数C)被预测为正的负样本结果数/负样本实际数D)负样本预测结果数/负样本实际数答案:C解析:[单选题]112.下列数组索引、像素行列、像素坐标的关系正确的是()。A)数组行索引=像素所在行数-1=像素纵坐标B)数组列索引=像素所在行数-1=像素横坐标C)数组列索引=像素所在列数-1=像素纵坐标D)数组行索引=像素所在行数-1=像素横坐标答案:A解析:[单选题]113.有四个整数a、b、c、d,且c>D,则?a>b?是?a-c>b-d?的:()A)必要不充分条件B)充分不必要条件C)充要条件D)既不充分也不必要条件答案:A解析:[单选题]114.核矩阵是(__)的。A)没有规律B)半正定C)正定D)样本矩阵答案:B解析:[单选题]115.(__)为数据科学和大数据产业生态系统提供数据内容的捕获和获取服务。A)数据源和APPsB)数据资源C)数据端D)基础设施答案:A解析:[单选题]116.图像降噪的作用(__)。A)改变图像大小B)将图像分成多个小单位C)去除干扰信号D)使图像变得更加丰富答案:C解析:[单选题]117.在其他条件不变的前提下,以下哪种做法容易引起机器学习中的过拟合问题A)增加训练集量B)减少神经网络隐藏层节点数C)删除稀疏的特征SD)SVM算法中使用高斯核/RBF核代替线性核答案:D解析:[单选题]118.下列选项中,关于dropna()方法描述正确的是()。A)dropna()方法只会删除值为NaN的数据B)dropna()方法不会删除值为None的数据C)dropna()方法会删除值为None和NaN的数据D)dropna()方法只会检测缺失数据和空值答案:C解析:dropna()默认删除None或NaN,但是可以指定参数,对轴进行删除。[单选题]119.深度学习的实质是()A)推理机制B)映射机制C)识别机制D)模拟机制答案:B解析:[单选题]120.优化问题Max4x1+2x2+4x3+2x4+x5+x6S.t.4x1+4x2+6x3+2x4+3x5+2x6<=11X1,x2,x3,x4,x5,x6∈{0,1}的最优目标函数值为()A)9B)8C)7D)6答案:B解析:[单选题]121.我们建立一个5000个特征,100万数据的机器学习模型。我们怎么有效地应对这样的大数据训练()。A)我们随机抽取一些样本,在这些少量样本之上训练B)我们可以试用在线机器学习算法C)我们应用PCA算法降维,减少特征数D)以上答案都正确答案:D解析:样本数过多或者特征数过多,而不能单机完成训练,可以用小批量样本训练,或者在线累计式训练,或者主成分PCA降维方式减少特征数量再进行训练。[单选题]122.(__)表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界,即刻画了学习问题本身的难度。A)偏差B)方差C)噪声D)泛化误差答案:C解析:[单选题]123.p尾法确定图像分割的阈值,适用于(__)的情况。A)已知阈值范围B)已知图像灰度范围C)已知目标所占全图象百分比D)图像类间方差最大化答案:C解析:[单选题]124.支持向量机优化问题的形式是(__)。A)一个不含约束的二次规划问题B)一个含有等式约束的二次规划问题C)一个含有不等式约束的二次规划问题D)一个含有不等式约束的线性规划问题答案:C解析:[单选题]125.下面哪个是NLP用例?A)从图像中检测物体B)面部识别C)语音生物识别D)文本摘要答案:D解析:[单选题]126.关于K-Means,描述正确的是()。A)能找到任意形状的聚类B)初始值不同,最终结果可能不同C)每次迭代的时间复杂度是O(n^2),其中n是样本数量D)不能使用核函数答案:B解析:[单选题]127.极大似然估计是()A)与总体分布无关的统计量B)通过总体分布才能求出来的统计量C)似然方程的解D)对数似然方程的解答案:B解析:[单选题]128.个体学习器准确性越高、多样性越大,则集成越好A)准确性越低、多样性越大B)准确性越高、多样性越大C)准确性越高、多样性越小D)准确性越低、多样性越小答案:B解析:[单选题]129.关于竞争型学习算法描述错误的是A)是一种监督学习策略;B)每个时刻只有一个竞争获胜的神经元被激活;C)其他神经元的状态被抑制;D)ART网络通过竞争型学习算法寻优;答案:A解析:[单选题]130.交叉验证的目的是(__)。A)提高分类准确率B)得到更稳定的模型C)验证结果的准确性D)增大分类的误差答案:B解析:[单选题]131.已知class="fr-ficfr-dibcursor-hover"A)-2,2B)3,-3C)-3,3D)2,-2答案:D解析:[单选题]132.使用似然函数的目的是()。A)求解目标函数B)得到最优数据样本C)找到最适合数据的参数D)改变目标函数分布答案:C解析:似然估计是一种确定模型参数值的方法。确定参数值的过程,是找到能最大化模型产生真实观察数据可能性的那一组参数。[单选题]133.对于一个二分类问题,假如现在训练了500个子模型,每个模型权重大小一样。若每个子模型正确率为51%,则整体正确率为多少?若把每个子模型正确率提升到60%,则整体正确率为多少A)51%,60%B)60%,90%C)65.7%,99.99%D)65.7%,90%答案:C解析:[单选题]134.符号集a、b、c、d,它们相互独立,相应概率为1/2、1/4、1/8、1/16,其中包含信息量最小的符号是()A)aB)bC)cD)d答案:A解析:[单选题]135.()在划分属性时是在当前结点的属性集合中选择一个最优属性。A)AdaBoostB)RFC)BaggingD)传统决策树答案:D解析:[单选题]136.()对应于决策树结果,其他节点对应于()。A)叶节点,属性测试B)根结点,学习测试C)内部节点,学习测试D)叶节点,分类测试答案:A解析:决簧树包含一个根节点、若子内部节点和若干叶节点。叶节点对应于决策结果,其他每个节点则对应于一个属性测试。[单选题]137.不属于KNN算法要素的是:A)k值的选择B)距离度量C)分类决策的规则D)训练样本的个数答案:D解析:[单选题]138.隐马尔可夫模型是一种著名的(__)模型。A)无向图B)有向图C)树形图D)环形图答案:B解析:[单选题]139.?啤酒-纸尿布?问题讲述的是,超市购物中,通过分析购物单发现,买了纸尿布的男士,往往又买了啤酒。这是一个什么问题()A)关联分析B)回归C)聚类D)分类答案:A解析:[单选题]140.CNN常见的Loss函数不包括以下哪个()A)softmax_lossB)sigmoid_lossC)Contrastive_LossD)siamese_loss答案:D解析:[单选题]141.根据某个词所连接所有词汇的权重,重新计算该词汇的权重,然后把重新计算的权重传递下去。直到这种变化达到均衡态,权重数值不再发生改变。这种关键词提取算法叫做()。A)TF-IDFB)TextRankC)LDAD)PCA答案:B解析:[单选题]142.支持向量机的对偶问题是()A)线性优化问题B)二次优化C)凸二次优化D)有约束的线性优化答案:C解析:[单选题]143.以下是两种不同的对数模型,分别为β0和β1。alt="">对于两种对数模型(绿色,黑色)的β0和β1值,下列哪一项是正确的?注:Y=β0+β1*X。其中β0是截距,β1是系数。A)绿色的β1大于黑色B)绿色的β1小于黑色C)两种颜色的β1相同D)不能说答案:B解析:β0和β1:β0=0,β1=1为X1颜色(黑色),β0=0,β1=-1为X4颜色(绿色)[单选题]144.数据科学家经常使用多个算法进行预测,并将多个机器学习算法的输出(称为?集成学习?)结合起来,以获得比所有个体模型都更好的更健壮的输出。则下列说法正确的是?A)基本模型之间相关性高B)基本模型之间相关性低C)集成方法中,使用加权平均代替投票方法D)基本模型都来自于同一算法答案:B解析:本题考查的是集成学习的基本原理。集成学习,顾名思义,通过将多个单个学习器集成/组合在一起,使它们共同完成学习任务。举个例子来说明,假如你有T个朋友,每个朋友向你预测推荐明天某支股票会涨还是会跌,那么你该选择哪个朋友的建议呢?第一种方法是从T个朋友中选择一个最受信任,对股票预测能力最强的人,直接听从他的建议就好。这是一种普遍的做法,对应的就是validation的思想,即选择犯错误最小的模型。第二种方法,如果每个朋友在股票预测方面都是比较厉害的,都有各自的专长,那么就同时考虑T个朋友的建议,将所有结果做个投票,一人一票,最终决定出对该支股票的预测。这种方法对应的是uniformly思想。第三种方法,如果每个朋友水平不一,有的比较厉害,投票比重应该更大一些,有的比较差,投票比重应该更小一些。那么,仍然对T个朋友进行投票,只是每个人的投票权重不同。这种方法对应的是non-uniformly的思想。第四种方法与第三种方法类似,但是权重不是固定的,根据不同的条件,给予不同的权重。比如如果是传统行业的股票,那么给这方面比较厉害的朋友较高的投票权重,如果是服务行业,那么就给这方面比较厉害的朋友较高的投票权重。以上所述的这四种方法都是将不同人不同意见融合起来的方式,这就是集成思想,即把多个基本模型结合起来,得到更好的预测效果。通常来说,基本模型之间的相关性越低越好,因为每个模型有各自的特长,集成起来才更加强大。[单选题]145.在OpenCV中加载特征数据集的函数是()。A)read_csv()B)input()C)CascadeClassifier()D)imshow()答案:C解析:[单选题]146.朴素贝叶斯的训练过程就是基于训练集D来估计类的()P(c),并为每个属性估计条件概率A)后验概率B)先验概率C)条件概率D)联合概率答案:B解析:[单选题]147.假定你使用了一个很大γ值的RBF核,这意味着:A)模型将考虑使用远离超平面的点建模B)模型仅使用接近超平面的点来建模C)模型不会被点到超平面的距离所影响D)以上都不正确答案:B解析:SVM调参中的γ衡量距离超平面远近的点的影响。对于较小的γ,模型受到严格约束,会考虑训练集中的所有点,而没有真正获取到数据的模式、对于较大的γ,模型能很好地学习到模型。[单选题]148.对于任意值?x?,考虑到Logistic(x):是任意值?x?的逻辑(Logistic)函数Logit(x):是任意值?x?的logit函数Logit_inv(x):是任意值?x?的逆逻辑函数以下哪一项是正确的?A)Logistic(x)=Logit(x)B)Logistic(x)=Logit_inv(x)C)Logit_inv(x)=Logit(x)D)都不是答案:B解析:[单选题]149.在一个神经网络中,知道每一个神经元的权重和偏差是最重要的一步。如果知道了神经元准确的权重和偏差,便可以近似任何函数,但怎么获知每个神经的权重和偏移呢?A)搜索每个可能的权重和偏差组合,直到得到最佳值B)赋予一个初始值,然后检查跟最佳值的差值,不断迭代调整权重C)随机赋值,听天由命D)以上都不正确的答案:B解析:[单选题]150.数据管理成熟度模型将机构数据管理能力定义为(__)个不同成熟度等级,并给出了(__)类关键过程域,共(__)个关键活动。A)3,7,21B)4,6,24C)5,6,25D)6,7,28答案:C解析:[单选题]151.与k均值算法类似,(__)也是试图找到一组原型向量来刻画聚类结构,但与一般聚类方法不同的是,该算法假设数据样本带有类别标记,学习过程利用样本的这些监督信息来辅助聚类。A)高斯混合聚类密度聚类B)学习向量量化C)k均值算法D)密度聚类答案:B解析:[单选题]152.要想让机器具有智能,必须让机器具有知识。因此,在人工智能中有一个研究领域,主要研究计算机如何自动获取知识和技能,实现自我完善,这门研究分支学科叫()A)专家系统B)机器学习C)神经网络D)模式识别答案:B解析:[单选题]153.泛化误差可分解为偏差、方差与噪声之和,当学习器拟合程度不够强时,是()主导了泛化错误率。A)偏差B)方差C)噪声D)差与方差共同答案:A解析:学习器拟合程度不够强时,及欠拟合,此时是偏差主导了泛化错误率。[单选题]154.关于Hadoop技术描述错误的是?()A)HDFS是一个分布式文件系统B)联盟链C)HDFS适合存储大量的小文件D)HDFS存储空间由数据节点数决定答案:C解析:[单选题]155.下列哪一项不是预处理技术?A)词干提取和词形还原(StemmingandLemmatization)B)转换成小写(ConvertingtoLowercase)C)删除标点符号(RemovePunctuation)D)删除停用词(RemovalofStopWords)E)情绪分析(SentimentAnalysis)答案:E解析:第2部分:多项选择题,共49题,每题至少两个正确答案,多选或少选均不得分。[多选题]156.数据战略的基本问题有(__)。A)数据战略的定位B)数据战略的目标C)数据战略的侧重点D)数据战略的范畴答案:ABCD解析:[多选题]157.贝叶斯网的推断描述正确的为A)马尔科夫链需很短的时间就能趋于平衡;B)马尔科夫链需很长的时间才能趋于平衡;C)吉布斯采样收敛速度慢;D)吉布斯采样收敛速度快;答案:BC解析:[多选题]158.可以用f(x,y)来表示()A)一幅2-D数字图像B)一个在3-D空间中的客观景物的投影C)2-D空间XY中的一个坐标的点的位置D)在坐标点(X,Y)的某种性质F的数值答案:ABD解析:[多选题]159.下列关于AUC面积描述正确的是(__)。A)AUC被定义为ROC曲线下与坐标轴围成的面积B)AUC面积的值大于1C)AUC等于0.5时,则真实性最低,无应用价值D)AUC越接近1.0,检测方法真实性越高答案:ACD解析:[多选题]160.KNN的主要缺点是()A)计算量大,尤其是特征数非常多的时候B)样本不平衡的时候,对稀有类别的预测准确率低C)预测时速度比起逻辑回归之类的算法慢D)相比决策树模型,KNN模型可解释性不强答案:ABCD解析:[多选题]161.关于相关与线性关系,下列说法正确的是()A)相关不一定是线性关系,可能是非线性关系B)相关一定是线性关系,不可能是非线性关系C)相关时若有相关系数r为0,说明两个变量之间不存在线性关系,仍可能存在非线性关系D)相关系数为0是两个变量独立的必要不充分条件答案:ACD解析:相关不一定是线性关系,可能是非线性关系。[多选题]162.集成集成学习学习中投票法分为:____。A)绝对多数投票法B)相对多数投票法C)加权投票法D)快速投票法答案:ABC解析:[多选题]163.有两种策略常用来缓解BP网络的过拟合,分别是(__)和(__)。A)晚停B)早停C)正则化D)加入损失函数答案:BC解析:[多选题]164.基因遗传算法的两个常用的结束条件为()**A)达到一定的迭代次数B)适应度函数达到一定的要求C)达到一定的变异次数D)达到一定的交叉次数答案:AB解析:[多选题]165.机器学习的核心要素包括()A)数据B)操作人员C)算法D)算力答案:ACD解析:[多选题]166.下列不属于聚类性能度量内部指标的是(A)DB指数B)Dunn指数C)Jaccard系数D)FM系数答案:CD解析:聚类常用的外部指标包括Jaccard系数、FM系数、Rand指数;聚类常用的内部指标包括DB指数、Dunn指数。[多选题]167.以下关于降维方法的叙述,正确的是()。A)主成分分析是一种常用的非线性降维方法B)核化线性降维是一种常用的线性降维方法C)流形学习是一种借鉴拓扑流形概念的降维方法D)度量学习绕过降维的过程,将学习目标转化为对距离度量计算的权重矩阵的学习答案:CD解析:本质上讲,主成分分析是一种线性降维方法,在处理非线性问题时,效果不太理想。核化线性降维是一种非线性降维方法。[多选题]168.压缩感知分为哪些阶段A)压缩探测B)感知测量C)重构恢复D)信息解析答案:BC解析:[多选题]169.下列哪项是关键词归一化技术?A)词干提取(Stemming)B)词性标注(PartofSpeech)C)命名实体识别(NamedEntityRecognition)D)词形还原(Lemmatization)答案:AD解析:[多选题]170.以下哪些算法,可以用神经网络去构造()A)KNNB)Logistic回归C)决策树D)最小二乘估计答案:BD解析:[多选题]171.解决欠拟合的方法有__。A)决策树扩展分支B)增加训练轮数C)正则化D)剪枝答案:AB解析:[多选题]172.RNN的主要应用领域有()。A)自然语言处理B)机器翻译C)音乐推荐D)洗衣服答案:ABC解析:[多选题]173.在监督式学习中使用聚类算法的方法有()。A)首先,可以创建聚类,然后分别在不同的集群上应用监督式学习算法B)在应用监督式学习算法之前,可以将其类别ID作为特征空间中的一个额外的特征C)在应用监督式学习之前,不能创建聚类D)在应用监督式学习算法之前,不能将其类别ID作为特征空间中的一个额外的特征答案:AB解析:我们可以为不同的集群构建独立的机器学习模型,并且可以提高预测精度。将每个类别的ID作为特征空间中的一个额外的特征可能会提高的精度结果。[多选题]174.常见的原型聚类算法包括()。A)K均值算法B)学习向量量化C)高斯混合聚类D)密度聚类答案:ABC解析:[多选题]175.以下模型中属于贝叶斯网络的有()A)马尔可夫随机场B)隐马尔可夫模型C)条件随机场D)朴素贝叶斯分类器答案:BD解析:[多选题]176.下面属于词袋模型的缺点的是?()A)词汇表的词汇需要经过精心设计B)表示具有稀疏性C)丢失词序忽略了上下文D)模型复杂,不利于实施答案:ABC解析:[多选题]177.关于ART神经网络描述的是:-P109A)由比较层、识别层、识别阈值和重置模块构成;B)比较层接收输入样本并传输至识别层,识别层每个神经元对应一个模式类,可在训练过程中动态增长神经元数目以增加新的模式类;C)识别阈值对于ART神经网络性能有重要影响;D)可进行增量学习或在线学习;答案:ABCD解析:[多选题]178.半监督学习四大范型有A)基于分歧的方法B)半监督SVMC)半监督聚类D)图半监督学习答案:ABD解析:[多选题]179.隐马尔科夫模型和马尔科夫随机场都是(__)模型,而(__)是判别式模型。A)生成式模型B)随机模型C)条件随机场D)感知机模型答案:AC解析:[多选题]180.特征清洗一般包含()A)样本忽略B)缺失值和异常值处理C)处理D)聚类答案:ABC解析:[多选题]181.产生式系统的推理包括()。**A)正向推理B)直接推理C)验证推理D)反向主义答案:AD解析:[多选题]182.以下有关特征数据归一化的说法,正确的是()。A)特征数据归一化加速梯度下降优化的速度B)特征数据归一化有可能提高模型的精度C)线性归一化适用于特征数值分化比较大的情况D)概率模型不需要做归一化处理答案:ABD解析:归一化方法比较适用在数值比较集中的情况。这种方法的缺陷是如果max和min不稳定,很容易使得归一化结果不稳定,使得后续使用效果也不稳定。实际使用中可以用经验常量值来替代max和min。非线性归一化经常用在数据分化比较大的场景,有些数值很大,有些很小。[多选题]183.CNN相比于全连接的DNN有哪些优势?()A)参数更少B)泛化更好C)训练更快D)更容易搭建答案:ABC解析:[多选题]184.K-means等聚类算法可用于以下哪些实际场景A)市场细分B)社交圈分析C)集群计算D)天体数据分析答案:ABCD解析:[多选题]185.关于k-means聚类,说法正确的是()A)可以在簇完全不发生任何更新时停止B)可以设定簇的最大更新次数C)k值设定一般来源于经验值和场景设定D)最佳k值设定需要多次重复试验进行优化。答案:ABCD解析:[多选题]186.对于决策树的优点描述,正确的是()。A)可读性强B)分类速度快C)只用于回归问题D)是无监督学习答案:AB解析:决策树也可用于回归,属于有监督的机器学习算法。[多选题]187.以下可以有效解决过拟合的方法是:()A)增加样本数量B)通过特征选择减少特征数量C)训练更多的迭代次数D)采用正则化方法答案:ABD解析:[多选题]188.对于正交属性空间中的样本点,若存在一个超平面对所有样本进行恰当的表达,则这样的超平面应具有(__)和(__)的性质。A)最近重构性B)最大可分性C)最远重构性D)最小可分性答案:AB解析:[多选题]189.多分类学习最经典的拆分策略有__。A)一对一B)一对其余C)多对多D)多对一答案:ABC解析:[多选题]190.数据集成可以分为(__)。A)内容集成B)结构集成C)模式集成D)概念集成答案:AB解析:[多选题]191.半监督学习可进一步划分为(__)和(__)。A)纯半监督学习B)无监督学习C)直推学习D)主动学习答案:AC解析:[多选题]192.下面属于大数据4V特性有()。A)VolumeB)VarietyC)ValueD)Velocity答案:ABCD解析:[多选题]193.统计模式分类问题中,当先验概率未知时,可以使用()。A)最小最大损失准则B)最小误判概率准则C)最小损失准则D)N-P判决答案:AD解析:[多选题]194.下面哪些是基于核的机器学习算法?()A)ExpectationMaximizationB)RadialBasisFunctionC)LinearDiscrimimateAnalysisD)SupportVectorMachine答案:BCD解析:[多选题]195.下列哪些技术能被用于计算两个词向量之间的距离?A)词形还原(Lemmatization)B)欧氏距离(EuclideanDistance)C)余弦相似度(CosineSimilarity)D)N-grams答案:BC解析:[多选题]196.数据科学的基本流程包含(__)。A)数据产品的提供B)数据应用C)结果展示D)数据可视化答案:AC解析:[多选题]197.下列哪些是zookeeper的选举算法?()A)basicpaxosB)fastpaxosC)FastLeaderElectionD)AuthLeaderElection答案:CD解析:[多选题]198.机器学习的研究和成果可应用于许多领域,大部分的应用研究问题可以归为()这两个范畴A)数学定理证明B)物理现象发现C)分类问题D)问题求解答案:CD解析:[多选题]199.SVM处理线性不可分数据时()A)数据变换到高维空间B)在原始空间求解MMHC)在高维空间求解MMHD)使用核函数代替点积运算答案:ACD解析:[多选题]200.管理非结构化数据常采用()。A)NoSQLB)NewSQLC)关系云技术D)关系数据库技术答案:ABC解析:[多选题]201.命名实体识别是指出文本中的人名、地名等专有名词和时间等,其中有有监督的命名实体识别和无监督的命名实体识别,下列选项哪些是属于有监督的学习方法()A)字典法B)决策树C)隐马尔可夫模型D)支持向量机答案:BCD解析:[多选题]202.以下关于Zookeeper的Leader选举说法正确的是?()A)当实例n为奇数时,假定n=2x+1,则成为leader节点需要x+1票B)Zookeeper选举leader时,需要半数以上的票数C)当实例数为8时,则成为leader节点需要5票,容灾能力为4D)当实例数n为奇数时,假定n=2x+1,则成为leader节点需要x票答案:AB解析:[多选题]203.下列指标中,有哪些指标可用于模型评估()A)准确率(Accuracy)B)精确率(Precision)C)召回率(Recall)D)均方根误差(RMSE)答案:ABCD解析:[多选题]204.以下说法正确的是()A)无监督学习不需要进行数据的人为标注B)强化学习只需要环境的反馈奖惩即可进行学习C)分类问题中label是连续的D)回归问题的评价指标中有召回率E)k-means是一种无监督学习的算法F)AlphaGo只采用了无监督学习的算法答案:AE解析:第3部分:判断题,共33题,请判断题目是否正确。[判断题]205.分类是预测数据对象的离散类别,预测是用于数据对象的连续取值A)正确B)错误答案:对解析:[判断题]206.极大似然法估计参数的核心思想是:选择参数,使得当前已经观测到的数据(训练集中的m个样本)最有可能出现(概率最大)。A)正确B)错误答案:对解析:[判断题]207.同一个列表中的元素的数据类型可以各不相同。A)正确B)错误答案:对解析:[判断题]208.回归中利用最小二乘法主要通过最小化误差的平方来寻找一个数据匹配的最佳函数。A)正确B)错误答案:对解析:[判断题]209.启发式算法与AlphaBeta剪枝类似,是从叶节点自底向上计算估值A)正确B)错误答案:错解析:[判断题]210.查全率越高,意味着模型漏掉的样本越少,当假阴性的成本很高时,查全率指标有助于衡量模型的好坏。A)正确B)错误答案:对解析:[判断题]211.Numpy是Python开源的数值计算扩展工具。A)正确B)错误答案:对解析:[判断题]212.k近邻学习是一种常用的监督学习方法,其工作机制为:给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后基于这k个邻居信息进行预测。因此k近邻算法的核心是k值和距离度量的选取。A)正确B)错误答案:对解析:[判断题]213.估计类条件概率的一种常用策略是先假定其具有某种确定的概率分布形式,再基于训练样本对概率分布的参数进行估计A)正确B)错误答案:对解析:[判断题]214.k均值算法,是一种原型聚类算法。A)正确B)错误答案:对解析:[判断题]215.PCA是有监督学习,是有参数限制的A)正确B)错误答案:错解析:[判断题]216.缺失数据是人为有意造成的。A)正确B)错误答案:错解析:[判断题]217.PCA是一种有效的降维去噪方法A)正确B)错误答案:对解析:[判断题]218.流形学习是一种非线性的维数约简方法A)正确B)错误答案:对解析:[判断题]219.预测房价需要考虑的因素有很多,包括历史价格走势、供求影响、交通情况、是否学区房、政策影响等,可以通过多元线性回归模型,作房价预测A)正确B)错误答案:对解析:[判断题]220.编码矩阵的三元码将每个类别分别制定为正类、反类、停用类。__A)正确B)错误答案:对解析:[判断题]221.超参数选择不当,会对模型有较大的负面影响,所以在参数调整策略方面,所有超参数都同等重要。A)正确B)错误答案:错解析:[判断题]222.直观上看,我们希望?物以类聚?,即聚类的结果?簇内相似度?高,且?簇间?相似度低。A)正确B)错误答案:对解析:[判断题]223.深度学习在人工智能领域表现并不突出A)正确B)错误答案:错解析:[判断题]224.簇内相似度高且簇间相似度低的聚类结果比较好A)正确B)错误答案:对解析:[判断题]225.Boosting的训练过程是有序的。A)正确B)错误答案:对解析:[判断题]226.fillna()方法处理缺失数据时可以使用Series对象填充,但不可以使用DataFrame对象填充。A)正确B)错误答案:错解析:[判断题]227."

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论