人工智能机器学习技术练习(习题卷2)

上传人：1*** IP属地：重庆上传时间：2024-04-29 格式：DOCX 页数：59 大小：151.44KB 积分：3.6 举报 版权申诉

已阅读5页，还剩54页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

试卷科目：人工智能机器学习技术练习人工智能机器学习技术练习(习题卷2)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages人工智能机器学习技术练习第1部分：单项选择题，共155题，每题只有一个正确答案,多选或少选均不得分。[单选题]1.以下哪个操作可能会产生大量小文件A)mapper数较多的map-only任务B)reduer数较多的任务C)从海量数据中过滤出符合条件的少量数据答案:C解析:[单选题]2.支持向量机可以解决()A)分类问题B)回归问题C)分类问题和回归问题答案:C解析:[单选题]3.逻辑回归常用于解决()A)回归问题B)分类问题C)优化问题答案:B解析:[单选题]4.下面哪些对「类型1(Type-1)」和「类型2(Type-2)」错误的描述是错误的?A)类型1通常称之为假正类,类型2通常称之为假负类B)类型2通常称之为假正类,类型1通常称之为假负类C)类型1错误通常在其是正确的情况下拒绝假设而出现答案:B解析:在统计学假设测试中,I类错误即错误地拒绝了正确的假设即假正类错误,II类错误通常指错误地接受了错误的假设即假负类错误。[单选题]5.个人健康和年龄的相关系数是-1.09。根据这个你可以告诉医生哪个结论？A)年龄是健康程度很好的预测器B)年龄是健康程度很糟的预测器C)以上说法都不对答案:C解析:因为相关系数的范围是[-1,1]之间，所以，-1.09不可能存在。[单选题]6.在相同样本量下,重复抽样与不重复抽样的抽样平均误差大小关系是()A)重复抽样误差大B)不重复抽样误差大C)二者相同D)不确定答案:A解析:[单选题]7.LR模型的损失函数是()A)交叉熵B)均方误差C)HingelossD)分类准确率答案:A解析:[单选题]8.（）是基于TopicModel的关键词抽取。A)TF-IDFB)TextRankC)LDAD)PCA答案:C解析:[单选题]9.下列命令中(在zookeeper安装文件夹的bin目录下执行),哪项是停止ZooKeeper的正确命令()。A)start-all.shB)start-stop.shC)zkServer.shstopD)zkServer.shstart答案:C解析:[单选题]10.K-Means的缺点不包括（)。A)K必须是事先给定的B)需要选择初始聚类中心C)对于噪声和孤立点数据是敏感的D)可伸缩、高效答案:D解析:[单选题]11.四个点坐标为(1,1)，(1,0)，(-1,-1)，(-1,0)，用SVM分类的决策边界是A)y=xB)x=0C)y=-xD)y=0答案:B解析:[单选题]12.混合高斯聚类中,运用了以下哪种过程()A)EM算法B)集合运算C)密度可达D)样本与集合运算答案:A解析:[单选题]13.这是第25道,也是最后一道。请估算一下,包括本题在内,这25道题干及选项总共大约有多少个字符?A)500B)1000C)2000D)4000答案:C解析:[单选题]14.数据科学是一门以?数据时代?，尤其是?大数据时代?面临的新挑战、新机会、新思维和新方法为核心内容的，包括新的理论、方法、模型、技术、平台、工具、应用和最佳实践在内的()。A)新兴科学B)交叉性学科C)独立学科D)一整套知识体系答案:D解析:[单选题]15.对于随机森林和GBDT,下面说法正确的是()。A)在随机森林的单个树中,树和树之间是有依赖的,而GBDT中的单个树之间是没有依赖的B)这两个模型都使用随机特征子集,来生成许多单个的树C)我们可以并行地生成GBDT单个树,因为它们之间是没有依赖的D)GBDT训练模型的表现总是比随机森林好答案:B解析:组成随机森林的树可以并行生成;而GBDT只能是串行生成。[单选题]16.类域界面方程法中,不能求线性不可分情况下分类问题近似或精确解的方法是?A)伪逆法B)感知器算法C)基于二次准则的H-K算法D)势函数法答案:B解析:[单选题]17.点击率问题是这样一个预测问题,99%的人是不会点击的,而1%的人是会点击进去的,所以这是一个非常不平衡的数据集。假设,现在我们已经建了一个模型来分类,而且有了99%的预测准确率,我们可以下的结论是()。A)模型预测准确率已经很高了,我们不需要做什么了B)模型预测准确率不高,我们需要做点什么改进模型C)无法下结论D)以上答案都不正确答案:C解析:类别不均衡的情况下,不能用准确率做分类评估指标,因为全判断为不会点,准确率也是99%,此时分类器一点用都没有。[单选题]18.在print函数的输出字符串中可以将（）作为参数，代表后面指定要输出的字符串。A)%dB)%cC)%sD)%t答案:C解析:[单选题]19.关于Boosting，Bagging和随机森林，以下说法错误的是A)从偏差-方差分解的角度看，Boosting主要关注降低偏差B)从偏差-方差分解的角度看，Bagging主要关注降低方差C)随机森林简单、容易实现、计算开销小D)Boosting不能基于泛化性能相当弱的学习器构建出很强的集成答案:D解析:[单选题]20.如果在线性回归模型中额外增加一个变量特征之后，下列说法正确的是？A)R-Squared和AdjustedR-Squared都会增大B)R-Squared保持不变AdjustedR-Squared增加C)R-Squared和AdjustedR-Squared都会减小D)以上说法都不对答案:D解析:本题考查的是线性回归模型的评估准则R-Squared和AdjustedR-Squared。[单选题]21.信息熵是度量（__)最常用的一种指标。A)样本的个数B)样本的维度C)样本的纯度D)样本的冗余度答案:C解析:[单选题]22.卷积神经网络中的dropout模块的作用是（）。A)防止结果发散B)防止梯度消失C)防止报错D)防止过拟合答案:D解析:[单选题]23.两个种子点A(-1,1)，B(2,1)，其余点为(0,0)，(0,2)，(1,1)，(3,2)，(6,0)，(6,2)，利用Kmeans算法，点群中心按坐标平均计算。最终种子点A需要移动的次数，种子点B需要移动的次数，属于种子点A的点数（不包含A），属于种子点B的点数（不包含B）分别为（）A)2,2,3,3B)1,1,3,3C)1,1,2,4D)2,2,2,4答案:A解析:[单选题]24.假设你有5个大小为7x7、边界值为0的卷积核,同时卷积神经网络第一层的深度为1。此时如果你向这一层传入一个维度为224x224x3的数据,那么神经网络下一层所接收到的数据维度是多少?A)218x218x5B)217x217x8C)217x217x3D)220x220x5答案:A解析:[单选题]25.当学习器将训练样本自身的特点作为所有潜在样本都具有的一般性质,这样会导致泛化性能下降,这种现象称为()。A)欠拟合B)过拟合C)拟合D)以上答案都不正确答案:B解析:当学习器把训练样本学得太好了的时候,很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样就会导致泛化性能下降,这种现象在机器学习中称为过拟合。[单选题]26.逻辑回归将输出概率限定在[0,1]之间。下列哪个函数起到这样的作用？A)Sigmoid函数B)tanh函数C)ReLU函数D)LeakyReLU函数答案:A解析:[单选题]27.著名的C4.5决策树算法使用()来选择最优划分属性。A)信息增益B)增益率C)基尼指数D)均值答案:B解析:[单选题]28.spark1.4版本的最大变化()。A)sparksqlRelease版本B)引入SparkRC)DataFrameD)支持动态资源分配答案:B解析:[单选题]29.在（__）特征选择中，特征选择算法本身作为组成部分嵌入到学习算法中，最典型的就是决策树算法。A)过滤式B)嵌入式C)包裹式D)随机答案:B解析:[单选题]30.下列关于Pandas库的说法中正确的是（）。A)Pandas中只有两种数据结构B)Pandas不支持读取文本数据C)Pandas是在NumPy基础上建立的新程序库D)Pandas中Series和DataFrame可以解决数据分析中一切的问题答案:C解析:除了书中介绍的两种常见数据结构，Pandas中还有另一种数据结构Panel[单选题]31.以下关于数据产品特征的描述不正确的是A)数据产品往往能达到极高的准确度，并且保持稳定B)数据产品所使用的数据包含很多差数据C)数据产品会随着环境的改变发生变化D)数据产品的决策会直接影响业务的表现答案:A解析:[单选题]32.下面哪个操作是窄依赖()。A)joinB)filterC)groupD)Sort答案:B解析:[单选题]33.L1正则和L2正则的共同点是什么?A)都会让数据集中的特征数量减少B)都会增大模型的偏差C)都会增大模型方差D)其余选项皆错答案:D解析:[单选题]34.bootstrap数据是什么意思？（提示：考?bootstrap?和?boosting?区别）A)有放回地从总共M个特征中抽样m个特征B)无放回地从总共M个特征中抽样m个特征C)有放回地从总共N个样本中抽样n个样本D)无放回地从总共N个样本中抽样n个样本答案:C解析:[单选题]35.移动运营商对客户进行细分,设计套餐和营销活动可以使用下面哪种机器学习方法()。A)贝叶斯分类器B)关联方法C)聚类算法D)多层前馈网络答案:C解析:[单选题]36.划分聚类算法是一种简单的较为基本的重要聚类方法。它的主要思想是通过将数据点集分为()个划分,并使用重复的控制策略使某个准则最优化,以达到最终的结果A)DB)KC)ED)F答案:B解析:划分聚类算法K-Means将数据点集分为K个子集。[单选题]37.Hadoop-2.6.5集群中的HDFS的默认的数据块的大小是?A)32MB)64MC)128MD)256M答案:C解析:[单选题]38.下列哪种归纳学习采用符号表示方式？A)经验归纳学习B)遗传算法C)联接学习D)强化学习答案:A解析:[单选题]39.异常检测过程查找基于()组标准值偏差的异常个案。A)单体B)分类C)聚类D)回归答案:C解析:异常检测过程查找基于聚类组标准值偏差的异常个案。该过程设计为在探索性数据分析步骤中,快速检测到用于数据审核的异常个案,并优先于任何推论性数据分析。[单选题]40.Xi和Xj是较高维度表示中的两个不同点,其中Yi和Yj是较低维度中的Xi和Xj的表示。1数据点Xi与数据点Xj的相似度是条件概率p(j|i)。2数据点Yi与数据点Yj的相似度是条件概率q(j|i)。对于在较低维度空间中的Xi和Xj的完美表示,以下哪一项必须是正确的?A)p(j|i)=0,q(j|i)=1B)p(j|i)C)p(j|i)=q(j|i)D)P(j|i)>q(j|i)答案:C解析:两点的相似性的条件概率必须相等,因为点之间的相似性必须在高维和低维中保持不变,以使它们成为完美的表示[单选题]41.嵌入式选择是一种（__）算法。A)聚类B)特征选择C)分类D)回归答案:B解析:[单选题]42.若A为假命题,B为真命题,以下命题中假命题有()A)¬AB)A!BC)A!BD)B¬A答案:B解析:[单选题]43.(__)属于基于概念方法。A)决策树算法B)Find-S算法C)人工神经网络D)KNN答案:B解析:[单选题]44.缓解过拟合的一个办法是允许支持向量机在一些样本上出错,()形式适合这种方法。A)硬间隔支持向量机B)软间隔支持向量机C)线性核函数支持向量机D)多项式核函数支持向量机答案:B解析:软间隔允许某些样本不满足约束,可缓解过拟合。[单选题]45.下面哪个对应的是正确的KNN决策边界？A)AB)BC)CD)D答案:A解析:本题考查的是KNN的相关知识点。KNN分类算法是一个比较成熟也是最简单的机器学习(MachineLearning)算法之一。该方法的思路是：如果一个样本在特征空间中与K个实例最为相似(即特征空间中最邻近)，那么这K个实例中大多数属于哪个类别，则该样本也属于这个类别。其中，计算样本与其他实例的相似性一般采用距离衡量法。离得越近越相似，离得越远越不相似。因此，决策边界可能不是线性的。[单选题]46.以下关于ZooKeeper关键特性中的原子性说法正确的是()?A)客户端发送的更新会按照他们被发送的顺序进行应用B)更新只能全部完成或失败,不会部分完成C)一条消息被一个server接收,将被所有server接收D)集群中无论哪台服务器,对外展示的均是同一视图答案:B解析:[单选题]47.二分类任务中，有三个分类器h1,h2,h3，三个测试样本x1,x2,x3。假设1表示分类结果正确，0表示错误，h1在x1,x2,x3的结果分别(1,1,0)，h2,h3分别为(0,1,1)，(1,0,1)，按投票法集成三个分类器，下列说法正确的是()A)集成提高了性能B)集成没有效果C)集成降低了性能D)集成效果不能确定答案:A解析:[单选题]48.在Numpy中创建全为0的矩阵使用（）。A)zeros()B)ones()C)empty()D)arange()答案:A解析:[单选题]49.将数据集D进行适当处理，产生出训练集S和测试集T，有哪些常见的做法：A)留出法B)交叉验证法C)自助法D)以上都是答案:D解析:[单选题]50.在文本挖掘中,可以使用以下哪项命令完成将文本转换为tokens,然后将其转换为整数或浮点向量的操作?A)CountVectorizerB)TF-IDFC)词袋模型(BagofWords)D)NERs答案:A解析:[单选题]51.图象与灰度直方图间的对应关系是︰()A)一一对应B)多对一C)-对多D)都不对答案:B解析:[单选题]52.关于机器学习模型中的数据，以下说法正确的是(A)数据越多越好B)数据只要质量好,越少越好C)数据的数量和质量都很重要D)模型选择最重要,数据影响不大答案:C解析:[单选题]53.()属于SVM应用。A)文本和超文本分类B)图像分类C)新文章聚类D)以上均是答案:D解析:SVM可用于分类与回归,文本和超文本分类、图像分类、新文章聚类。[单选题]54.决策树中的叶结点对应于()A)属性B)样本C)决策结果D)标签值答案:C解析:[单选题]55.()可在保证训练精度的情况下降低模型的复杂度。A)正则化系数无穷大B)正则化系数几乎为0C)选择合适的正则化参数D)以上答案都不正确答案:C解析:选择合适的正则化参数可在保证训练精度的情况下降低模型的复杂度。[单选题]56.生成式方法是直接基于（）的方法?A)生成式学习B)生成式场景C)生成式数据D)生成式模型答案:D解析:[单选题]57.用于产生词嵌入的单向语言模型A)BERTB)GPTC)ELMoD)Word2Vec答案:B解析:[单选题]58.下列选择Logistic回归中的One-Vs-All方法中,()是真实的。A)我们需要在n类分类问题中适合n个模型B)我们需要适合n-1个模型来分类为n个类C)我们需要只适合1个模型来分类为n个类D)以上答案都不正确答案:A解析:如果存在n个类,那么n个单独的逻辑回归必须与之相适应,其中每个类的概率由剩余类的概率之和确定。[单选题]59.考虑欧几里得距离的数据，使用（）作为聚类的目标函数A)均方误差B)均方根误差C)平均绝对误差D)误差平方和答案:D解析:[单选题]60.在支持向量机中，（__）允许支持向量机在一些样本上出错。A)硬间隔B)软间隔C)核函数D)拉格朗日乘子法答案:B解析:[单选题]61.移动端开发中常用的数据库是A)MySQLB)OracleC)SQLiteD)MongoDB答案:C解析:[单选题]62.下面属于Boosting方法的特点是()A)构造训练集时采用Bootstraping的方式B)每一轮训练时样本权重相同C)分类器可以并行训练D)预测结果时,分类器的比重不同答案:D解析:[单选题]63.关于Logistic回归和Softmax回归，以下说法正确是：A)Logistic回归和Softmax回归都只能处理二元分类问题B)Logistis回归可以处理多元分类问题，Softmax回归只能处理二元分类问题C)Logistic回归和Softmax回归都可以处理多元分类问题D)Softmax回归可以处理多元分类问题，Logistic回归只能处理二元分类问题答案:D解析:[单选题]64.让学习器不依赖外界交互、自动地利用未标记样本来提升学习性能，就是（__）。A)有监督学习B)全监督学习C)无监督学习D)半监督学习答案:D解析:[单选题]65.下面关于主成分分析PCA的描述中错误的是()。A)PCA是从原空间中顺序找一组相互正交的坐标轴B)原始数据中方差最大的方向是第一个坐标轴C)基于特征值分解协方差矩阵实现PCA算法D)奇异值分解只能适用于指定维数的矩阵分解答案:D解析:[单选题]66.机器学习是研究如何使用计算机(）的一门学科。A)模拟生物行为B)模拟人类解决问题C)模拟人类学习活动D)模拟人类生产活动答案:C解析:[单选题]67.下面数据结构能够支持随机的插入和删除操作、并具有较好的性能的是A)链表和哈希表B)数组和链表C)哈希表和队列D)堆栈和双向队列答案:A解析:[单选题]68.关于K均值和DBSCAN的比较,以下说法不正确的是()。A)K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象B)K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念C)K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇D)K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇答案:A解析:DBSCAN和K均值都是将每个对象指派到单个簇的划分聚类算法,但K均值一般聚类所有对象,而DBSCAN丢弃被它识别为噪声的对象。[单选题]69.预剪枝是指在决策树生成过程中，对每个结点在划分（__）进行估计。A)前B)中C)后D)不估计答案:A解析:[单选题]70.关于RBF神经网络描述错误的是A)单隐层前馈神经网络；B)隐层神经元激活函数为径向基函数；C)输出层是对隐层神经元输出的非线性组合；D)可利用BP算法来进行参数优化；答案:C解析:[单选题]71.从给定的特征集合中选择出相关特征子集的过程，称为A)特征抽取B)特征选择C)特征降维D)特征简化答案:B解析:[单选题]72.__为我们进行学习器性能比较提供了重要依据。A)二项检验B)t检验C)交叉验证t检验D)统计假设检验答案:D解析:[单选题]73.若A为假命题，B为真命题，以下命题中假命题有（）A)¬AB)A∩BC)A∪BD)A→B答案:B解析:[单选题]74.能够直观显示出学习器在样本总体上的查全率、查准率的图是()。A)ROC曲线B)误差曲线C)方差曲线D)P-R曲线答案:D解析:[单选题]75.机器学习的经典定义是：()A)利用技术进步改善系统自身性能B)利用技术进步改善人的能力C)利用经验改善系统自身的性能D)利用经验改善人的能力答案:C解析:[单选题]76.变量消去的缺点有A)会造成冗余计算B)精准率不高C)不能解决多边界分布问题D)不直观答案:A解析:[单选题]77.SVM算法的性能取决于：A)以上所有B)软间隔参数C)核函数的参数D)核函数的选择答案:A解析:[单选题]78.下面不属于后台自动化的有(__)。A)hyperscienceB)datafoxC)aptricityD)appzen答案:B解析:[单选题]79.当合适的样本容量很难确定时,可以使用的抽样方法是()。A)有放回的简单随机抽样B)无放回的简单随机抽样C)分层抽样D)渐进抽样答案:D解析:[单选题]80.对于以下代码,Char*p=newchar[100];正确的是A)p和new出来的内存都在栈上B)p和new出来的内存都在堆上C)p在堆上,new出来的在栈上D)p在栈上,new出来的在堆上答案:D解析:[单选题]81.在Pandas中读取数据的前五行的函数是（）。A)header(5)B)heads(5)C)header()D)head()答案:D解析:[单选题]82.在线性模型y=w1x1+w2x2+…+wnxn中，y值代表（）A)预测值B)特征值C)权重值D)模型参数答案:A解析:[单选题]83.在一个n维的空间中，最好的检测outlier(离群点)的方法是：A)作正态分布概率图B)作盒形图C)马氏距离D)作散点图答案:C解析:马氏距离是基于卡方分布的，度量多元outlier离群点的统计方法。[单选题]84.根据TCP/IP协议栈的分层来看HTTP协议工作在哪一层A)数据链路层B)网络层C)传输层D)应用层答案:D解析:[单选题]85.K-Means（聚类）算法基于距离来度量实例间的相似程度（与kNN算法一样），然后把较为相似的实例划分到同一簇。下列说法中，不正确的是：A)聚类属于有监督式学习B)聚类属于无监督式学习C)K-Means算法基于距离来度量实例间的相似程度，通过对无标记样本的学习来揭示蕴含于数据中的性质及规律D)聚类算法的任务是根据数据特征将数据集相似的数据划分到同一簇答案:A解析:[单选题]86.下面关于数据产品开发相关描述正确的有(__)。A)数据科学家的主要职责是?数据的管理?B)数据科学家一定是科学家C)?数据码农?可以胜任数据科学家D)数据科学家是为解决现实世界中问题提供直接指导、依据或参考的高级专家答案:D解析:[单选题]87.在训练集上每学到一条规则，就将该规则覆盖的训练样例去除，然后以剩下的训练样例组成训练集重复上述步骤。这个过程称为（__)。A)规则学习B)直推学习C)强化学习D)序贯覆盖答案:D解析:[单选题]88.一条规则形如：⊕←f1⋀f2⋀…⋀fL，其中?←"右边的部分称为A)规则长度B)规则头C)布尔表达式D)规则体答案:D解析:[单选题]89.有两个样本点,第一个点为正样本,它的特征向量是(0,-1);第二个点为负样本,它的特征向量是(2,3),从这两个样本点组成的训练集构建一个线性SVM分类器的分类面方程是()。A)2x+y=4B)x+2y=5C)x+2y=3D)2x-y=0答案:C解析:对于两个点来说,最大间隔就是垂直平分线,因此求出垂直平分线即可。斜率是两点连线的斜率的负倒数。即-1/(-1-3)/(0-2)=-1/2,可得y=-(1/2)x+c,过中点(0+2)/2,(-1+3)/2)=(1,1),可得c=3/2,故方程为x+2y=3。[单选题]90.下列贝叶斯描述错误的是A)贝叶斯是概率框架下实施决策的基本方法；B)贝叶斯基于概率和误判损失来选择最优的类别标记；C)贝叶斯中期望损失定义为风险；D)贝叶斯判定准则为最大化总体风险；答案:D解析:[单选题]91.在HMM中,如果已知观察序列和产生观察序列的状态序列,那么可用以下哪种方法直接进行参数估计()A)EM算法B)维特比算法C)前向后向算法D)极大似然估计答案:D解析:[单选题]92.(__)试图学得一个属性的线性组合来进行预测的函数。A)决策树B)贝叶斯分类器C)神经网络D)线性模型答案:D解析:[单选题]93.知识图谱是由()演化而来。[]*A)符号主义B)认知主义C)联结主义D)行为主义答案:A解析:[单选题]94.同质集成中的个体学习器亦称（）A)基学习器B)同质学习器C)组件学习器D)异质学习器答案:A解析:[单选题]95.下列表述中,在k-fold交叉验证中关于选择K说法正确的是:A)较大的K并不总是好的,选择较大的K可能需要较长的时间来评估你的结果B)相对于期望误差来说,选择较大的K会导致低偏差(因为训练folds会变得与整个数据集相似)C)在交叉验证中通过最小化方差法来选择K值D)以上都正确答案:D解析:较大的K意味着更小的偏差(因为训练folds的大小接近整个dataset)和更多的运行时间(极限情况是:留一交叉验证)。当选取K值的时候,我们需要考虑到k-folds准确度的方差。[单选题]96.对数据进行数据清理、集成、变换、规约是数据挖掘哪个步骤的任务？()A)频繁模式挖掘B)分类和预测C)数据预处理D)噪声检测答案:C解析:[单选题]97.（__)可看做用坐标下降法来最大化对数似然下界的过程。A)EM算法B)贝叶斯决策C)贝叶斯分类器D)边际似然答案:A解析:[单选题]98.朴素贝叶斯分类器的三种实现不包括A)基于伯努利模型实现B)基于多项式模型实现C)属性条件独立性假设实现D)基于高斯模型实现答案:C解析:[单选题]99.通过聚集多个分类器的预测来提高分类精确率的技术称为（）。A)组合（Composition）B)聚集（Aggregation）C)合并（Combination)D)投票（Voting）答案:A解析:[单选题]100.（__）算法是一种挖掘关联规则的频繁项集算法，其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。A)AprioriB)EMC)PCAD)PAC答案:A解析:[单选题]101.在支持向量机中,软间隔支持向量机的目标函数比硬间隔支持向量机多了一个()。A)偏置项bB)系数C)松弛变量D)两种情况的目标函数相同答案:C解析:[单选题]102.下列图像边缘检测算子中抗噪性能最好的是（）。A)梯度算子B)Prewitt算子C)Roberts算子D)Laplacian算子答案:B解析:[单选题]103.如果需要训练的特征维度成千上万,在高维情形下出现的数据样本稀疏、距离计算困难。我们通过()可以缓解这个问题。A)K均值算法B)支持向量机C)降维D)以上答案都不正确答案:C解析:[单选题]104.关于哑变量的说法中，下列选项描述错误的是（）。A)哑变量是人为虚设的变量B)哑变量在转换成指标矩阵后，其值通常为0或1C)Pnadas中get_dummies()函数可以对类别进行哑变量处理D)哑变量的使用没有实际意义答案:D解析:[单选题]105.在基本K-Means中，当计算邻近度的函数采用（）的时候，合适的质心是簇中各点的中位数。A)曼哈顿距离B)平方欧几里得距离C)余弦距离D)Bregman散度答案:A解析:[单选题]106.关于线性回归模型及模型参数，不正确的说法是：A)线性回归模型的训练目标是找到使得损失函数最大化的模型参数B)线性回归模型的训练目标是找到使得损失函数最小化的模型参数C)线性回归模型通常使用均方误差（MSE）作为损失函数D)均方误差即所有实例预测值与实际值误差平方的均值答案:A解析:[单选题]107.()算法是通过智能体不断与环境进行交互，通过试错的方式来获得最佳策略A)有监督学习B)半监督学习C)无监督学习D)强化学习答案:D解析:[单选题]108.哪个不是本地模式运行的条件()。A)spark.localExecution.enabled=trueB)显式指定本地运行C)finalStage无父StageD)partition默认值答案:D解析:[单选题]109.（__）试图对多个变量在给定观测值后的条件概率进行建模。A)马尔可夫随机场B)隐马尔可夫模型C)条件随机场D)逆误差传播答案:C解析:[单选题]110.图像中的椒盐噪声可以用(__)去除。A)中值滤波B)均值滤波C)最大值滤波D)最小值滤波答案:A解析:[单选题]111.隐马尔可夫模型（HiddenMarkovModel，简称HMM）是结构最简单的（）?A)动态贝叶斯网B)动态马尔科夫网C)动态拉普拉斯网D)静态马尔可夫网答案:A解析:[单选题]112.()算法是决策树学习的基本算法,其他多数决策树学习方法都是它的变体。A)Find-SB)KNNC)概念D)ID3答案:D解析:[单选题]113.以下对智慧描述不正确的是()。A)智慧是人类超出知识的那一部分能力B)智慧是人类的创造性设计、批判性思考和好奇性提问的结果C)智慧是从信息中发现的共性规律、模型、模式、理论、方法等D)智慧运用知识并结合经验创造性的预测、解释和发现答案:C解析:[单选题]114.对于低通和高通巴特沃斯滤波器叙述不正确的是?A)均有相同的截止频率;B)均能减弱振铃效应;C)处理后的图像均比用理想低通和高通处理的要过渡光滑一些;D)都可用于消除虚假轮廓;答案:A解析:[单选题]115.CART决策树通常采用()剪枝方法。A)REP(错误率降低)B)CCP(代价复杂度)C)PEP(悲观剪枝)D)预剪枝答案:B解析:[单选题]116.有关回归模型的系数,以下说法错误的是哪个()。A)一元线性回归模型的系数可以使用最小二乘法求得B)多元回归模型的系数可以使用梯度下降法求得C)一元线性回归模型的系数大小和正负说明自变量对因变量的相对影响大小D)回归分析的目的是计算回归方程的系数,使得样本的输入和输出变量之间的关系能够合理拟合答案:B解析:[单选题]117.在同一个问题中，错误率和精度的关系是（__）。A)错误率等于精度值加1B)错误率加精度等于1C)精度减错误率等于1D)两者之间没有关系答案:B解析:[单选题]118.平均滤波对(__)的表现比较好。A)泊松噪声B)高斯噪声C)乘性噪声D)椒盐噪声答案:B解析:[单选题]119.一般地，在新样本上的误差称为（__)。A)泛化误差B)训练误差C)经验误差D)精度答案:A解析:[单选题]120.下列不属于集成学习方法是A)baggingB)connectingC)boostingD)stacking答案:B解析:[单选题]121.下面不属于商业的有(__)。A)howgoodB)stitchfixC)instacartD)cyence答案:D解析:[单选题]122.（）一般采用图表或数学方法描述数据的统计特征,如分布状态、数值特征等。A)推断统计B)预测分析C)描述统计D)诊断分析答案:C解析:[单选题]123.AGNES是一种采用（__）策略的层次聚类算法。A)自顶向下B)自底向上C)自左至右D)自右至左答案:B解析:[单选题]124.9.关于K-均值算法,以下说法不正确的是A)K-均值算法是一种划分方法。B)K-均值算法能发现任意形状的簇。C)K-均值算法不一定收敛于全局最优解。D)比起DBSCAN算法来，K更好答案:B解析:[单选题]125.下面哪些说法正确?A)线性退化系统一定具有相加性B)具有相加性的退化系统也具有一定的一致性C)具有一致性的退化系统也具有位置(空间)不变性D)具有位置(空间)不变性的退化系统是线性的答案:D解析:[单选题]126.下面哪个回归分析的说法是正确的()。A)回归分析是分析一个变量与其他一个(或几个)变量之间的线性关系的统计方法B)回归分析不需要样本训练C)不可以预测非数据型属性的类别D)非线性回归方程一般要转化为线性回归方程才比较容易求解其中的参数答案:D解析:[单选题]127.在感知机中(Perceptron)的任务顺序是什么?1随机初始化感知机的权重;2去到数据集的下一批(batch);3如果预测值和输出不一致,则调整权重4对一个输入样本,计算输出值;A)1,2,3,4B)4,3,2,1C)3,1,2,4D)1,4,3,2答案:D解析:[单选题]128.下列算法中属于点处理的是:()A)梯度锐化B)二值化C)傅立叶变换D)中值滤波答案:B解析:[单选题]129.下面不属于比较检验的方法是（__)。A)假设检验B)交叉验证t检验C)McNemar检验D)留出法答案:D解析:[单选题]130.下列关于支持向量机的说法错误的是（__)。A)硬间隔支持向量机易出现过拟合的情况B)软间隔支持向量机的目标函数不是一个二次规划问题C)松弛变量可用来解决线性不可分问题D)支持向量机可用来进行数据的分类答案:B解析:[单选题]131.假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:A)0.821B)1.224C)1.458D)0.716答案:D解析:[单选题]132.下面哪个不属于数据的属性类型?A)标称B)序数C)区间D)相异答案:D解析:[单选题]133.Fisher线性判别函数的求解过程是将N维特征矢量投影在()中进行求解?A)一维空间B)N-1维空间C)三维空间D)二维空间答案:A解析:[单选题]134.Relief的时间开销随采样次数以及原始特征数（__)。A)线性增长B)指数型增长C)快速增长D)负增长答案:A解析:[单选题]135.下列哪一项能反映出X和Y之间的强相关性？A)相关系数为0.9B)对于无效假设β=0的p值为0.0001C)对于无效假设β=0的t值为30D)以上说法都不对答案:A解析:[单选题]136.关于EM算法正确的是A)EM算法包括两步：E算法和M算法B)EM算法一定能收敛到全局最大值点C)英文全称是Expectation-MinimizationD)以上都不正确答案:A解析:[单选题]137.可分解为偏差、方差与噪声之和的是()。A)训练误差(trainingerror)B)经验误差(empiricalerror)C)均方误差(meansquarederror)D)泛化误差(generalizationerror)答案:D解析:泛化误差可分解为偏差、方差与噪声之和。[单选题]138.二项分布的数学期望为()。A)n(1-n)pB)np(1-p)C)npD)n(1-p)答案:C解析:二项分布即重复n次的伯努利试验。如果事件发生的概率是p,则不发生的概率q=1-p.则期望为np,方差为npq。[单选题]139.令N为数据集的大小[注:设训练样本(xi,yi),N即训练样本个数],d是输入空间的维数(注:d即向量xi的维数)。硬间隔SVM问题的原始形式[即在不等式约束(yi(wTxi+b)≥1)下最小化(1/2)wTw]在没有转化为拉格朗日对偶问题之前,是()。A)一个含N个变量的二次规划问题B)一个含N+1个变量的二次规划问题C)一个含d个变量的二次规划问题D)一个含d+1个变量的二次规划问题答案:D解析:欲找到具有最大间隔的划分超平面,也就是要找到能满足题中不等式约束的参数w和b,是一个含d+1个变量的二次规划问题。[单选题]140.使用以下哪种算法进行变量选择?A)LASSOB)RidgeC)两者D)都不是答案:A解析:使用Lasso的情况下,我们采用绝对罚函数,在增加Lasso中罚值后,变量的一些系数可能变为零。[单选题]141.决策树学习的关键是A)初始结点选择B)剪枝C)选择最优划分属性D)分枝答案:C解析:[单选题]142.以下哪个不是HDFS的守护进程?A)secondarynamenodeB)datanodeC)mrappmaster/yarnchildD)namenode答案:C解析:[单选题]143.如右图所示无向图,节点G的马尔可夫毯为()A){D,E}B){I,J}C){D,E,I,J}D){D,E,F,H,I,J}答案:C解析:[单选题]144.F1参数（__），说明模型越稳定。A)越小B)越大C)越趋近于某一特定值D)F1参数和模型稳定性没有关系答案:B解析:[单选题]145.面上平均每4个单位面积有一个染色点,观察一定面积上的点数X,X近似服从()A)均匀分布B)泊松分布C)二项分布D)正态分布答案:B解析:[单选题]146.如果对相同的数据进行逻辑回归,将花费更少的时间,并给出比较相似的精度(也可能不一样),怎么办?(假设在庞大的数据集上使用Logistic回归模型。可能遇到一个问题,Logistic回归需要很长时间才能训练。)A)降低学习率,减少迭代次数B)降低学习率,增加迭代次数C)提高学习率,增加迭代次数D)增加学习率,减少迭代次数答案:D解析:如果在训练时减少迭代次数,就能花费更少的时间获得相同的精度,但需要增加学习率。[单选题]147.随机变量X~N(1,2),Y~N(3,5),则X+Y~()A)N(4,7)B)N(4,+)C)N(1+,7)D)不确定答案:D解析:主要看两个变量是否独立。独立条件下,正态加正态还是正态。Z=X+Y。均值加均值,方差加方差.[单选题]148.已知，有如下一个二维数组：Arr2d=np.array([[1,2,3],[4,5,6],[7,8,9]])如果希望获取元素5，则可以使用（）实现。A)arr2d[1,1]B)arr2d[1]C)arr2d[2]D)arr2d[1,0]答案:A解析:[单选题]149.在黑盒测试方法中,设计测试用例的主要根据是A)程序内部逻辑B)程序外部功能C)程序数据结构D)程序流程图答案:B解析:[单选题]150.深度学习是当前很热门的机器学习算法,在深度学习中,涉及到大量的矩阵相乘,现在需要计算三个稠密矩阵A,B,C的乘积ABC,假设三个矩阵的尺寸分别为m∗n,n∗p,p∗q,且m<n<p<q,以下计算顺序效率最高的是()A)(AB)CB)AC(B)C)A(BC)D)所以效率都相同答案:A解析:[单选题]151.以下对Velocity相关描述不正确的是()。A)Velocity是指速度快B)实时分析数据处理要求速度快C)大数据中所说的?速度?包括两种：增长速度和处理速度D)通常而言，处理速度比增长速度快答案:D解析:[单选题]152.下图是哪一种算法表示(）A)K-近邻算法B)贝叶斯C)一元线性回归D)多项式回归答案:C解析:[单选题]153.下哪个方法可以用来绘制文字()。A)putText()B)PutText()C)putFont()D)Putfont()答案:A解析:[单选题]154.在NumPy中min()这个函数是用来（）。A)找寻元素最小值B)找寻每行最小值C)找寻每列最小值D)找寻索引最小值答案:A解析:[单选题]155.评估模型之后,得出模型存在偏差,下列哪种方法可能解决这一问题()A)减少模型中特征的数量B)向模型中增加更多的特征C)增加更多的数据D)B和CE)以上全是答案:B解析:高偏差意味这模型不够复杂(欠拟合),为了模型更加的强大,我们需要向特征空间中增加特征。增加样本能够降低方差。第2部分：多项选择题，共49题，每题至少两个正确答案,多选或少选均不得分。[多选题]156.特征归约一般包含()A)离散化B)标准化C)光滑D)聚集答案:ABCD解析:[多选题]157.如果将图像中对应直方图中偶数项的像素灰度均用相应的对应直方图中奇数项的像素灰度代替,所得到的图像将?A)亮度减小;B)亮度增加;C)对比度减小;D)对比度增加;答案:BC解析:[多选题]158.下面不属于数据分析平台的有(__)。A)uberB)datameerC)ArimoD)Farmers答案:AD解析:[多选题]159.回归分析有很多种类,常见的有()。A)线性回归B)系数回归C)逻辑回归D)曲线回归答案:ACD解析:[多选题]160.下列关于偏差、方差、均方差、泛化误差描述有误的是（__）。A)方差度量了学习算法的期望预测与真实结果的偏离程度。B)偏差度量了同样大小的训练集的变动所导致的学习性能的变化。C)泛化误差表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界，即刻画了学习问题本身的难度。D)泛化误差可分解为偏差、方差与噪音之和。答案:ABC解析:[多选题]161.下列关于AUC面积的描述,正确的是()。A)AUC被定义为ROC曲线下与坐标轴围成的面积B)AUC面积的值大于1C)AUC等于0.5时,则真实性最低,无应用价值D)AUC越接近1.0,检测方法真实性越高答案:ACD解析:AUC面积的值小于等于1。[多选题]162.感知机能容易实现逻辑（__）、（__）、（__）运算A)加减B)与C)或D)非答案:BCD解析:[多选题]163.下面哪几项属于神经网络的范畴？A)深度学习B)机器学习C)感知器D)CNN答案:ACD解析:[多选题]164.企业应用包括(__)和人力资本、金融、生产能力、后台自动化等。A)销售B)营销C)法律D)客户服务答案:ABCD解析:[多选题]165.关于回归算法,下列说法正确的是()A)线性回归可以让预测值跨越训练集中label的范围B)KNN回归可以让预测值跨越训练集中label的范围C)KNN在预测异常样本时是有效的。D)线性回归使用梯度下降法来进行学习。答案:AD解析:[多选题]166.在机器学习中，如果单纯去提高训练数据的预测能力，所选模型的复杂度往往会很高，这种现象称为过拟合。对于产生这种现象以下说法正确的是()A)样本数量太少B)样本数量过多C)模型太复杂D)模型太简单答案:AC解析:[多选题]167.关联规则的强度可以用它的（__）和（__）来度量。A)准确率B)支持度C)置信度D)误差答案:BC解析:[多选题]168.下列关于核函数的说法正确的是(__)。A)任何一个函数都可以作为核函数B)只要一个对称函数所对应的核矩阵半正定,它就能作为核函数使用C)任何一个核函数都隐式地定义了一个再生核希尔伯特空间D)核函数可将低维空间中线性可分的数据映射到高维空间，使其线性不可分答案:BC解析:[多选题]169.(__)属于图像平滑的滤波。A)盒式滤波B)双边滤波C)导向滤波D)贝叶斯变换答案:ABC解析:[多选题]170.半监督学习中，对未标记样本所揭示的数据分布信息与类别标记相联系的假设的有（__)和（__)。A)归纳假设B)聚类假设C)流形假设D)基本假设答案:BC解析:[多选题]171.一个监督观测值集合会被划分为()。A)训练集B)验证集C)测试集D)预处理集答案:ABC解析:一个监督观测值集合会被划分为训练集、测试集、预测集。其中测试集来测试学习器对新样本的判别能力,然后以测试集上的测试误差(testingerror)作为泛化误差的近似。[多选题]172.神经网络可以按()**A)学习方式分类B)网络结构分C)网络的协议类型分类D)网络的活动方式分类答案:ABD解析:[多选题]173.一个好的分类模型必须具有（___)。A)低训练误差B)低泛化误差C)过拟合D)欠拟合答案:AB解析:[多选题]174.在强化学习中，主体和环境之间交互的要素有()A)状态B)动作C)回报D)强化答案:ABC解析:[多选题]175.下面属于数据科学主要研究内容的有(__)。A)理论基础B)数据加工C)数据计算D)数据产品开发答案:BCD解析:[多选题]176.常用的样本距离计算方法有()A)欧式距离B)余弦距离C)曼哈顿距离D)闵可夫斯基距离答案:ABCD解析:[多选题]177.常用于K近邻算法中的距离度量方法有（）A)欧式距离B)曼哈顿距离C)闵可夫斯基距离D)海明距离答案:ABC解析:[多选题]178.可用于贝叶斯决策的函数（）A)AB)BC)CD)D答案:ABC解析:[多选题]179.关于Zookeeper的Watcher,说法正确的有()A)无论服务端还是客户端,一旦一个Watcher被触发,Zookeeper都会将其从相应的存储中移除B)Watcher通知非常简单,只会告诉客户端发生了事件,并不会说明事件的具体内容C)Watcher通知不仅会告诉客户端发生了事件,还会说明事件的具体内容D)无论是客户端还是服务端,一旦一个Watcher被触发,Zookeeper都不会将其从对应的存储中移除答案:AB解析:[多选题]180.当发现机器学习模型过拟合时,以下操作正确的是:()A)降低特征维度B)增加样本数量C)添加正则项D)增加特征维度答案:ABC解析:[多选题]181.下面属于数据产品开发的特征有(__)。A)以数据为中心B)多样性C)层次性D)增值性答案:ABCD解析:[多选题]182.以下关于大数据描述正确的是()。A)?涌现?是大数据的本质特征B)大数据是对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析C)促进大数据发展行动纲要是2016年由国务院发布的D)大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合答案:ABD解析:[多选题]183.逻辑回归可解决以下哪些问题？A)判断一封邮件是否是垃圾邮件B)基于用户行为，判断用户的性别C)基于西瓜数据集，判断某个西瓜是好瓜还是坏瓜D)基于西瓜数据集，预测某个西瓜的甜度值答案:ABC解析:[多选题]184.(__)是数据科学的主要理论基础之一。A)机器学习B)统计学C)数据D)黑客精神与技能答案:AB解析:[多选题]185.数据可视化狭义上与(__)概念平行，广义上包含这些概念。A)信息可视化B)科学可视化C)可视分析学D)可视化理论答案:ABC解析:[多选题]186.以下关于L1和L2范数的描述,正确的是()。A)L1范数为x向量各个元素绝对值之和。B)L2范数为x向量各个元素平方和的1/2次方,L2范数又称Euclidean范数或Frobenius范数C)L1范数可以使权值稀疏,方便特征提取D)L2范数可以防止过拟合,提升模型的泛化能力。答案:ABCD解析:L0是指向量中非0的元素的个数,L1范数是指向量中各个元素绝对值之和,L2范数向量元素绝对值的平方和再开平方。L1范数可以使权值稀疏,方便特征提取。L2范数可以防止过拟合,提升模型的泛化能力。[多选题]187.（）可以作为激活函数。A)tanhB)reluC)preluD)svm答案:ABC解析:[多选题]188.关于搜索与求解,描述正确的是()**A)搜索是为了达到某一目标而多次进行某种操作、运算、推理或计B)所有的智能活动过程，都可以看作或者抽象为一个基于搜索的问题C)搜索是人在求解问题时不知现成解法的情况下所采取的一种普遍方D)搜索可以看作人类和其他生物所具有的一种元知识答案:ABCD解析:[多选题]189.以下关于正则化的描述正确的是()A)正则化可以防止过拟合B)L1正则化能得到稀疏解C)L2正则化约束了解空间D)Dropout也是一种正则化方法答案:ABCD解析:[多选题]190.(__)主要关注的是过去。A)描述性分析B)诊断性分析C)预测性分析D)规范性分析答案:AB解析:[多选题]191.深度学习方法不适用于的场景有()。A)数据样本充足B)数据样本不足C)数据集具有局部相关特性D)数据集没有局部相关特性答案:BD解析:以下数据集不适合用深度学习:①数据集太小,数据样本不足时,深度学习相对其他机器学习算法没有明显优势。②数据集没有局部相关特性,目前深度学习表现比较好的领域主要是图像/语音/自然语言处理等领域,这些领域的一个共性是局部相关性。图像中像素组成物体,语音信号中音位组合成单词,文本数据中单词组合成句子,这些特征元素的组合一旦被打乱,表示的含义同时也被改变。对于没有这样的局部相关性的数据集,不适于使用深度学习算法进行处理。[多选题]192.特征选择方法有()。A)AIC赤池信息准则B)LARS嵌入式特征选择方法C)LVW包裹式特征选择方法D)Relief过滤式特征选择方法答案:BCD解析:AIC赤池信息准则是常用的模型选择方法。[多选题]193.数据产品以数据为中心表现在(__)。A)数据驱动B)数据载体C)数据密集型D)数据范式答案:ACD解析:[多选题]194.深度学习的主要过程包括()A)选择适合问题的网络结构B)选择适合网络结构的问题C)用大量数据训练网络对权重初始化D)优化网络答案:ABCD解析:[多选题]195.下面属于数据加工的有(__)。A)数据审计B)数据清洗C)数据变换D)数据集成答案:ABCD解析:[多选题]196.特征选择的目的是()。A)减少特征数量、降维B)使模型泛化能力更强C)增强模型拟合能力D)减少过拟合。答案:ABD解析:特征选择的主要目的是减少特征的数量、降低特征维度、使模型泛化能力更强、减少过拟合。[多选题]197.纠错输出码编码越长__。A)纠错能力越强B)分类器越多C)计算开销增大D)存储开销增大答案:ABCD解析:[多选题]198.人工神经元网络包括()A)输出层B)中间隐藏层C)映射层D)输入层答案:ABD解析:[多选题]199.RDD有哪些缺陷A)不支持细粒度的写和更新操作(如网络爬虫)B)基于内存的计算C)拥有schema信息D)不支持增量迭代计算答案:AD解析:[多选题]200.在选择分治法解决问题时,应考虑待解决问题应具有哪些特征()A)待解决问题规模缩小到一定程度后可以容易解决B)待解决问题应可以分解为若干个规模较小的相同问题,且子问题应可直接求解。C)各子问题之间是相互独立的D)分解后的子问题的解可以合并为源问题的解答案:AC解析:[多选题]201.通过监督学习进行二分类模型训练过程中,可能会遇到正负样本数量不平衡的情况(比如正样本有50万但是负样本有100万),以下哪些方法可以对此进行恰当的处理?()A)将所有数据加入训练集,充分利用全部数据B)从100万负样本中随机抽取50万C)正样本的权重设置为2,负样本权重设置为1D)复制两份正样本参与到训练中答案:BCD解析:[多选题]202.在机器学习中,如果一味的去提高训练数据的预测能力,所选模型的复杂度往往会很高,这种现象称为过拟合。所表现的就是模型训练时候的误差很小,但在测试的时候误差很大,对于产生这种现象以下说法正确的是:()A)样本数量太少B)样本数量过多C)模型太复杂D)模型太简单答案:AC解析:[多选题]203.数据再利用的意义在于()A)挖掘数据的潜在价值B)提高社会效益,优化社会管理C)实现数据重组的创新价值D)优化存储设备,降低设备成本E)利用数据可拓展性拓宽.业务领域答案:ACE解析:[多选题]204.下面哪些技术跟中文分词有关()A)词语消歧B)未登录词识别C)词性标注D)关系识别E)句法分析F)意图识别G)槽位填充答案:ABC解析:第3部分：判断题，共33题，请判断题目是否正确。[判断题]205.基于VC维和Rademacher复杂度推导泛化误差界，所得到的结果均与具体学习算法无关，对所有学习算法都适用A)正确B)错误答案:对解析:[判断题]206.列表、元组和字符串属于有序序列，其中的元素有严格的先后顺序。A)正确B)错误答案:对解析:[判断题]207.贝叶斯网不是因果关系网络图A)正确B)错误答案:错解析:[判断题]208.贝叶斯分类器中只有一个判别函数A)正确B)错误答案:错解析:[判断题]209.基于Rademacher复杂度的泛化误差界是是分布无关、数据独立的A)正确B)错误答案:错解析:[判断题]210.机器学习的含义是指机器面对自行为的修正或性能的改善和机器对客观规律和发展A)正确B)错误答案:对解析:[判断题]211.层次化索引可以交换分层顺序。A)正确B)错误答案:对解析:[判断题]212.完成的训练模型可以保存为外部文件，再次使用模型时，不需要重新训练。A)正确B)错误答案:对解析:[判断题]213.在K近邻算法中，平均法是指选择k个距离最近的样本，将这K个样本输出标记的平均值作为预测结果A)正确B)错误答案:对解析:[判断题]214.知识图谱中的三元组遵从一种三阶谓词逻辑的表达形式。()A)正确B)错误答案:错解析:[判断题]215.深度学习是机器学习研究领域的子集A)正确B)错误答案:错解析:[判断题]216.机器学习方法涉及对生物的学习机理的模仿，在简化的基础上用计算的方法进行再现A)正确B)错误答案:错解析:[判断题]217.类脑人工智能是指模拟人类大脑的人工智能A)正确B)错误答案:错解析:[判断题]218.随机森林的两个随机指的是随机选取样本和随机选取属性A)正确B)错误答案:对解析:[判断题]219.Pandas既可以按照索引排序也可以按照数据排序。A)正确B)错误答案:对解析:[判断题]220.梯度下降算法中，学习率小会影响损失函数收敛于最小值的速度A)正确B)错误答案:对解析:[判断题]221.线性模型的误差可以理解为真实样本点与预测样本点之间的距离A)正确B)错误答案:对解析:[判断题]222.准确率是所有正确识别的样本占样本总量的比例。当所有类别都同等重要时，采用准确率最为简单直观。A)正确B)错误答案:对解析:[判断题]223.反应事件或对象在某方面的表现或性质的事项称为属性A)正确B)错误答案:对解析:[判断题]224.数据集一般划分为训练集、验证集和测试集三部分，训练集用于建模，验证集用于模型验证与矫正，测试集用于模型的最终评估。A)正确B)错误答案:对解析:[判断题]225.选择切分特征时，ID3算法使用信息熵。A)正确B)错误答案:对解析:[判断题]226.贝叶斯网学习而言，模型就是一个贝叶斯网，每个贝叶斯网描述了一个在训练数据上的概率分布A)正确；B)错误；答案:对解析:[判断题]227.相对于人工神经元网络和深度学习，类脑人工智能对人类大脑的神经回路具用更深入的理解A)正确B)错误答案:对解析:[判断题]228.假设当前有一个3行3列的ndarray数组，如果想要获取第3行第2列的元素，可以使用ndarray[3,2]。A)正确B)错误答案:错解析:索引从0开始计数[判断题]229.使用Anconda进行开发，可以有效的解决包配置与包冲突的问题。A)正确B)错误答案:对解析:[判断题]230.在解决函数

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

人工智能机器学习技术练习(习题卷2)

文档简介

温馨提示

最新文档

评论

人工智能机器学习技术练习(习题卷2)

文档简介

温馨提示

最新文档

评论

相关文档