第五届“高新匠领”职业技能大赛(人工智能算法应用赛项)理论试题库资料(含答案)_第1页
第五届“高新匠领”职业技能大赛(人工智能算法应用赛项)理论试题库资料(含答案)_第2页
第五届“高新匠领”职业技能大赛(人工智能算法应用赛项)理论试题库资料(含答案)_第3页
第五届“高新匠领”职业技能大赛(人工智能算法应用赛项)理论试题库资料(含答案)_第4页
第五届“高新匠领”职业技能大赛(人工智能算法应用赛项)理论试题库资料(含答案)_第5页
已阅读5页,还剩99页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PAGEPAGE1第五届“高新匠领”职业技能大赛(人工智能算法应用赛项)理论试题库(含答案)一、单选题1.在其他条件不变的前提下,以下哪种做法容易引起机器学习中的过拟合问题()。A、增加训练集量B、减少神经网络隐藏层节点数C、删除稀疏的特征D、SVM算法中使用高斯核/RBF核代替线性核答案:D2.下列属于无监督学习的是:()。A、k-meansB、SVMC、最大熵D、CRF答案:A3.Logit函数(给定为l(x))是几率函数的对数。域x=[0,1]中logit函数的范围是多少?()A、(-∞,∞)B、(0,1)C、(0,∞)D、(-∞,0)答案:A4.在深度学习中,涉及到大量的矩阵相乘,现在需要计算三个稠密矩阵A,B,C的乘积ABC,假设三个矩阵的尺寸分别为m∗n,n∗p,p∗q,且m<n<p<q,以下计算顺序效率最高的是()。A、(AB)CB、AC(B)C、A(BC)D、效率都相同答案:A5.下面哪种不属于数据预处理的方法?()A、变量代换B、离散化C、聚集D、估计遗漏值答案:D6.下列哪一项在神经网络中引入了非线性?()A、随机梯度下降B、修正线性单元(ReLU)C、卷积函数D、以上都不正确答案:B7.使用以下哪种算法进行变量选择?()A、LASSOB、RidgeC、两者D、都不是答案:A8.模型的高bias是什么意思,我们如何降低它?()A、在特征空间中减少特征B、在特征空间中增加特征C、增加数据点D、B和C答案:B9.哪一个是机器学习的合理定义?()A、机器学习从标记的数据中学习B、机器学习能使计算机能够在没有明确编程的情况下学习C、机器学习是计算机编程的科学D、机器学习是允许机器人智能行动的领域答案:B10.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?()A、分类B、聚类C、关联分析D、隐马尔可夫链答案:B11.分析逻辑回归表现的一个良好的方法是AIC,它与线性回归中的R平方相似。有关AIC,以下哪项是正确的?()A、具有最小AIC值的模型更好B、具有最大AIC值的模型更好C、视情况而定D、以上都不是答案:A12.请选择下面可以应用隐马尔科夫(HMM)模型的选项。()A、基因序列数据集B、电影浏览数据集C、股票市场数据集D、所有以上答案:D13.下列关于回归分析中的残差表述正确的是()。A、残差的平均值总为零B、残差的平均值总小于零C、残差的平均值总大于零D、残差没有此类规律答案:A14.基于统计的分词方法为()。A、正向量最大匹配法B、逆向量最大匹配法C、最少切分D、条件随机场答案:D15.在数据清理中,下面哪个不是处理缺失值的方法?()A、估算B、整例删除C、变量删除D、成对删除答案:D16.深度学习是当前很热门的机器学习算法,在深度学习中,涉及到大量的矩阵相乘,现在需要计算三个稠密矩阵A,B,C的乘积ABC,假设三个矩阵的尺寸分别为m∗n,n∗p,p∗q,且m<n<p<q,以下计算顺序效率最高的是()。A、(AB)CB、AC(B)C、A(BC)D、所以效率都相同答案:A17.下面两张图展示了两个拟合回归线(A和B),原始数据是随机产生的。现在,我想要计算A和B各自的残差之和。注意:两种图中的坐标尺度一样。关于A和B各自的残差之和,下列说法正确的是?()A、比B高B、A比B小C、A与B相同D、以上说法都不对答案:C18.下列哪一种操作实现了和神经网络中Dropout类似的效果?()A、BaggingB、oostingC、堆叠D、以上都不正确答案:A19.下列的代码片段,说法不正确的是:()。A、表达式[1,2,3]∗3的执行结果为[1,2,3,1,2,3,1,2,3]。B、语句x=3==3,5执行结束后,变量x的值为(True,5)。C、已知x=3,那么执行语句x+=6之后,x的值为9。D、已知x=3,并且id(x)的返回值为496103280,那么执行语句x+=6之后,表达式id(x)==496103280的值为true。答案:D20.基于二次准则函数的H-K算法较之于感知器算法的优点是()?A、计算量小B、不可以判别问题是否线性可分C、其解完全适用于非线性可分的情况D、其解的适应性更好答案:D21.假设你有5个大小为7x7、边界值为0的卷积核,同时卷积神经网络第一层的深度为1。此时如果你向这一层传入一个维度为224x224x3的数据,那么神经网络下一层所接收到的数据维度是多少?()A、218x218x5B、217x217x8C、217x217x3D、220x220x5答案:A22.下列哪些不特别适合用来对高维数据进行降维。()A、LASSOB、主成分分析法C、聚类分析D、小波分析法答案:C23.当数据过大以至于无法在RAM中同时处理时,哪种梯度下降方法更加有效?()A、随机梯度下降法(StochasticGradientDescent)B、不知道C、整批梯度下降法(FullBatchGradientDescent)D、都不是答案:A24.()是职业道德认识和职业道德情感的统一。A、职业道德技能B、职业道德义务C、职业道德信念D、职业道德素养答案:D25.以下哪个图是KNN算法的训练边界()。A、BB、AC、DD、C答案:B26.一个二进制源X发出符号集为{-1,1},经过离散无记忆信道传输,由于信道中噪音的存在,接收端Y收到符号集为{-1,1,0}。已知P(x=-1)=1/4,P(x=1)=3/4,P(y=-1|x=-1)=4/5,P(y=0|x=-1)=1/5,P(y=1|x=1)=3/4,P(y=0|x=1)=1/4,求条件熵H(Y|X)()。A、0.2375B、0.3275C、0.5273D、0.5372答案:A27.一个计算机程序从经验E中学习任务T,并用P来衡量表现。并且,T的表现P随着经验E的增加而提高。假设我们给一个学习算法输入了很多历史天气的数据,让它学会预测天气。什么是P的合理选择?()A、计算大量历史气象数据的过程B、正确预测未来日期天气的概率C、天气预报任务D、以上都不答案:B28.关于“回归(Regression)”和“相关(Correlation)”,下列说法正确的是?注意:x是自变量,y是因变量()。A、回归和相关在x和y之间都是互为对称的B、回归和相关在x和y之间都是非对称的C、回归在x和y之间是非对称的,相关在x和y之间是互为对称的D、回归在x和y之间是对称的,相关在x和y之间是非对称的答案:C29.被誉为国际“人工智能之父”的是()。A、图灵(Turing)B、费根鲍姆(Feigenbaum)C、傅京孙(K、S、Fu)D、尼尔逊(Nilsson)答案:A30.要想让机器具有智能,必须让机器具有知识。因此,在人工智能中有一个研究领域,主要研究计算机如何自动获取知识与技能,实现自我完善,这门研究分支学科叫()。A、专家系统B、机器学习C、神经网络D、模式识别答案:B31.以下关于诚实守信的认识和判断中,正确的选项是()。A、诚实守信应以追求利益最大化为准则B、是否诚实守信要视具体对象而定C、诚实守信是市场经济应有的法则D、诚实守信与经济发展相矛盾答案:C32.假设你训练了一个基于线性核的SVM,多项式阶数为2,在训练集和测试集上准确率都为100%。如果增加模型复杂度或核函数的多项式阶数,将会发生什么?()A、导致过拟合B、导致欠拟合C、无影响,因为模型已达100%准确率D、以上均不正确答案:A33.假设你使用log-loss函数作为评估标准。下面这些选项,哪些是对作为评估标准的log-loss的正确解释()。A、如果一个分类器对不正确的分类很自信,log-loss会严重的批评它B、对一个特别的观察而言,分类器为正确的类别分配非常小的概率,然后对log-loss的相应分布会非常大C、log-loss越低,模型越好D、以上都是答案:D34.语言模型的参数估计经常使用MLE(最大似然估计)。面临的一个问题是没有出现的项概率为0,这样会导致语言模型的效果不好。为了解决这个问题,需要使用:()。A、平滑B、去噪C、随机插值D、增加白噪音答案:A35.下列哪个神经网络结构会发生权重共享?()A、卷积神经网络B、循环神经网络C、全连接神经网络D、选项A和B答案:D36.SVM中使用高斯核函数之前通常会进行特征归一化,以下关于特征归一化描述不正确的是?()A、经过特征正则化得到的新特征优于旧特征B、特征归一化无法处理类别变量C、SVM中使用高斯核函数时,特征归一化总是有用的D、以上都是不正确的答案:C37.向量X=[1,2,3,4,-9,0]的L1范数为?()A、1B、19C、6D、√111答案:B38.你正在使用带有L1正则化的logistic回归做二分类,其中C是正则化参数,w1和w2是x1和x2的系数。当你把C值从0增加至非常大的值时,下面哪个选项是正确的?()A、第一个w2成了0,接着w1也成了0B、第一个w1成了0,接着w2也成了0C、w1和w2同时成了0D、即使在C成为大值之后,w1和w2都不能成0答案:B39.下列选择中,说法是正确的是:()。A、在Python中null表示空类型。B、列表、元组、字符串是Python的无序序列。C、查看变量类型的Python内置函数是type()。D、查看变量内存地址的Python内置函数是ids()。答案:C40.下面的python代码片段,定义了函数fun()并调用了该函数,输出结果是()。A、报错B、123C、1D、23答案:A41.假设你需要调整参数来最小化代价函数(costfunction),可以使用下列哪项技术?()A、穷举搜索B、随机搜索C、Bayesian优化D、以上任意一种答案:D42.下列哪一项说明了X,Y之间的较强关系。()A、相关系数为0、9B、eta系数为0的空假设的p-value是0、0001C、Beta系数为0的空假设的t统计量是30D、都不对答案:A43.类域界面方程法中,不能求线性不可分情况下分类问题近似或精确解的方法是?()A、伪逆法-径向基神经网络的训练算法,就是解决线性不可分的情况B、基于二次准则的H-K算法:最小均方差准则下求得权矢量,二次准则解决非线性问题C、势函数法-非线性D、感知器算法-线性分类算法答案:D44.微机系统中的系统总线(如PCI)用来连接各功能部件以构成一个完整的系统,它需包括三种不同功能的总线,即()。A、数据总线、地址总线和控制总线B、同步总线、异步总线和通信总线C、内部总线、外部总线和片内总线D、并行总线、串行总线和USB总线答案:A45.对于一个分类任务,如果开始时神经网络的权重不是随机赋值的,而是都设成0,下面哪个叙述是正确的?()A、其他选项都不对B、没啥问题,神经网络会正常开始训练C、神经网络可以训练,但是所有的神经元最后都会变成识别同样的东西D、神经网络不会开始训练,因为没有梯度改变答案:C46.如果以特征向量的相关系数作为模式相似性测度,则影响聚类算法结果的主要因素有()。A、已知类别样本质量B、分类准则C、量纲D、其他答案:B47.以P(w)表示词条w的概率,假设已知P(南京)=0.8,P(市长)=0.6,P(长江大桥)=0.4:P(南京市)=0.3,P(长江大桥)=0.5:假设前后两个词的出现是独立的,那么分词结果就是()。A、南京市∗长江∗大桥B、南京∗市长∗江大桥C、南京市长∗江大桥D、南京市∗长江大桥答案:B48.关于Logit回归和SVM不正确的是()。A、Logit回归目标函数是最小化后验概率B、Logit回归可以用于预测事件发生概率的大小C、SVM目标是结构风险最小化D、SVM可以有效避免模型过拟合答案:A49.Fisher线性判别函数的求解过程是将M维特征矢量投影在(B)中进行求解。A、M-1维空间B、一维空间C、三维空间D、二维空间答案:B50.与法律相比,道德()。A、产生的时间晚B、适用范围更广C、内容上显得十分笼统D、评价标准难以确定答案:B51.人工智能的目的是让机器能够(),以实现某些脑力劳动的机械化。A、和人一样工作B、完全代替人的大脑C、模拟、延伸和扩展人的智能D、具有智能答案:D52.下面哪句话是正确的?()A、机器学习模型的精准度越高,则模型的性能越好B、增加模型的复杂度,总能减小测试样本误差C、增加模型的复杂度,总能减小训练样本误差D、以上说法都不对答案:D53.在当前的人工智能领域,机器学习,或者更准确地说,()的技术路线已经成为研究的主流。A、“大数据+深度学习”B、“数据+学习”C、“大数据+去计算”D、“云计算+去中心化”答案:A54.在LogisticRegression中,如果同时加入L1和L2范数,会产生什么效果()。A、可以做特征选择,并在一定程度上防止过拟合B、能解决维度灾难问题C、能加快计算速度D、可以获得更准确的结果答案:A55.已知:大脑是有很多个叫做神经元的东西构成,神经网络是对大脑的简单的数学表达。每一个神经元都有输入、处理函数和输出。神经元组合起来形成了网络,可以拟合任何函数。为了得到最佳的神经网络,我们用梯度下降方法不断更新模型,给定上述关于神经网络的描述,什么情况下神经网络模型被称为深度学习模型?()A、加入更多层,使神经网络的深度增加B、有维度更高的数据C、当这是一个图形识别的问题时D、以上都不正确答案:A56.下面哪些是基于核的机器学习算法?()1ExpectationMaximization(EM)(最大期望算法)2RadialBasisFunction(RBF)(径向基核函数)3LinearDiscrimimateAnalysis(LDA)(主成分分析法)4SupportVectorMachine(SVM)(支持向量机)A、1,2,3B、2,3和4C、3和4D、全部都是答案:B57.下面关于线性分类器与非线性分类器的区别以及优劣的说法正确的是()。(1)如果模型是参数的线性函数,并且存在线性分类面,那么就是线性分类器,否则不是。(2)常见的线性分类器有:LR,贝叶斯分类,单层感知机、线性回归。常见的非线性分类器:决策树、RF、GBDT、多层感知机(3)线性分类器速度快、编程方便,但是可能拟合效果会很好(4)非线性分类器编程复杂,但是效果拟合能力弱A、1,2B、3和4C、2,3和4D、全部正确答案:A58.下列时间序列模型中,哪一个模型可以较好地拟合波动性的分析和预测。(D)A、R模型B、MA模型C、ARMA模型D、GARCH模型答案:D59.在逻辑回归输出与目标对比的情况下,以下评估指标中哪一项不适用?()A、UC-ROCB、准确度C、LoglossD、均方误差答案:D60.E-R模型向关系模型转换时,三个实体之间多对多的联系应该转换为一个独立的关系模式,且该关系模式的关键字由()组成。A、多对多联系的属性B、三个实体的关键字C、任意一个实体的关键字1D、任意两个实体的关键字答案:B61.假设有这样的一个示例:types=['娱乐','体育','科技'],我们在使用列表时,以下哪个选项,会引起索引错误?()A、types[-1]B、types[-2]C、types[0]D、types[3]答案:D62.关于道德与法律,正确的说法是()。A、在法律健全完善的社会,不需要道德B、由于道德不具备法律那样的强制性,所以道德的社会功用不如法律C、在人类历史上,道德与法律同时产生D、在一定条件下,道德与法律能够相互作用、相互转化答案:D63.关于道德评价,正确的说法是()。A、每个人都能对他人进行道德评价,但不能做自我道德评价B、道德评价是一种纯粹的主观判断,没有客观依据和标准C、领导的道德评价具有权威性D、对一种行为进行道德评价,关键看其是否符合社会道德规范答案:D64.目标变量在训练集上的8个实际值[0,0,0,1,1,1,1,1],目标变量的熵是多少?()A、-(5/8log(5/8)+3/8log(3/8))B、5/8log(5/8)+3/8log(3/8)C、3/8log(5/8)+5/8log(3/8)D、5/8log(3/8)–3/8log(5/8)答案:A65.逻辑回归的以下模型:P(y=1|x,w)=g(w0+w1x)其中g(z)是逻辑函数。在上述等式中,通过改变参数w可以得到的P(y=1|x;w)被视为x的函数。()A、(0,inf)B、(-inf,0)C、(0,1)D、(-inf,inf)答案:C66.假设使用维数降低作为预处理技术,使用PCA将数据减少到k维度。然后使用这些PCA预测作为特征,以下哪个声明是正确的?()A、更高的“k”意味着更正则化B、更高的“k”意味着较少的正则化C、都不对D、都是正确的答案:B67.如果增加神经网络的宽度,精确度会增加到一个阈值,然后开始降低。造成这一现象的原因可能是()。A、只有一部分核被用于预测B、当核数量增加,神经网络的预测能力降低C、当核数量增加,其相关性增加,导致过拟合D、以上都不对答案:C68.()很大程度上缓解了人工收费的压力,并且有效地降低了停车场出入口的拥堵频率。A、自动停车系统B、自动收费系统C、自动驾驶系统D、自动导航系统答案:B69.以下哪种算法不能用于降低数据的维数?()A、t-SNEB、PCAC、LDAD、都不是答案:D70.下列关于静态多态实现重载的描述中正确的是()。A、重载的方法(函数)的方法名(函数名)可以不同B、重载的方法(函数)必须在返回值类型以及参数类型上有所不同C、重载的方法(函数)必须在参数顺序或参数类型上有所不同D、重载的方法(函数)只需在返回值类型上有所不同答案:C71.输入图片大小为200×200,依次经过一层卷积(kernelsize5×5,padding1,stride2),pooling(kernelsize3×3,padding0,stride1),又一层卷积(kernelsize3×3,padding1,stride1)之后,输出特征图大小为()。A、97B、98C、96D、95答案:A72.以下哪种方法不属于特征选择的标准方法:()。A、嵌入B、过滤C、包装D、抽样答案:D73.关于正态分布,下列说法错误的是()。A、正态分布具有集中性和对称性B、正态分布的均值和方差能够决定正态分布的位置和形态C、正态分布的偏度为0,峰度为1D、标准正态分布的均值为0,方差为1答案:C74.逻辑回归与多元回归分析有哪些不同?()A、逻辑回归预测某事件发生的概率B、逻辑回归有较高的拟合效果C、逻辑回归系数的评估D、以上全选答案:D75.设有二维数组a[l、m,l、n](2<m<n),其第一个元素为a[l,l],最后一个元素为a[m,n],若数组元素以行为主序存放,每个元素占用k个存储单元(k>l),则元素a[2,2]的存储位置相对于数组空间首地址的偏移量为()。A、(n+l)∗kB、n∗k+lC、(m+l)∗kD、m∗k+l答案:A76.()可以大大地解放老师的双手和工作量,提升教学的效率。A、智能搜题B、智能批改C、智能答题D、智能命题答案:B77.下面python内置int()函数使用,不能得到预期值的是()。A、int('12',16)的值为16B、int('12',8)的值为10C、int('12')的值为12D、int('101',2)的值为5答案:A78.关于SVM泛化误差描述正确的是()。A、超平面与支持向量之间距离B、SVM对未知数据的预测能力C、SVM的误差阈值D、以上都对答案:D79.在感知机中(Perceptron)的任务顺序是()。(1)随机初始化感知机的权重(2)去到数据集的下一批(batch)(3)如果预测值和输出不一致,则调整权重(4)对一个输入样本,计算输出值A、1,2,3,4B、4,3,2,1C、1,4,3,2D、3,4,1,2答案:C80.在指令系统的各种寻址方式中,获取操作数最快的方式是()。A、直接寻址B、间接寻址C、立即寻址D、寄存器寻址答案:C81.在存储体系中,位于主存与CPU之间的高速缓存(Cache)用于存放主存中部分信息的副本,主存地址与Cache地址之间的转换工作()。A、由系统软件实现B、由硬件自动完成C、由应用软件实现D、由用户发出指令完成答案:B82.下面关于Hive的说法正确的是()。A、Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文本映射为一张数据库表,并提供简单的SQL查询功能B、Hive可以直接使用SQL语句进行相关操作C、Hive能够在大规模数据集上实现低延迟快速的查询D、Hivez在加载数据过程中不会对数据进行任何的修改,只是将数据移动到HDFS中Hive设定的目录下答案:A83.在一个n维的空间中,最好的检测outlier(离群点)的方法是:()。A、作正态分布概率图B、作盒形图C、马氏距离D、作散点图答案:C84.为了得到和SVD一样的投射(projection),你需要在PCA中怎样做?()A、将数据转换成零均值B、将数据转换成零中位数C、无法做到D、以上方法不行答案:A85.人工智能数据主要分本文数据、语音数据、图像数据、()几大类别。A、通讯数据B、视频数据C、结构化数据D、非结构化数据答案:B86.最出名的降维算法是PAC和t-SNE。将这两个算法分别应用到数据「X」上,并得到数据集X_projected_PCA,X_projected_tSNE。下面哪一项对X_projected_PCA和X_projected_tSNE的描述是正确的?()A、X_projected_PCA在最近邻空间能得到解释B、X_projected_tSNE在最近邻空间能得到解释C、两个都在最近邻空间能得到解释D、两个都不能在最近邻空间得到解释答案:B87.计算机系统中,CPU对主存的访问方式属于()。A、随机存取B、顺序存取C、索引存取D、哈希存取答案:A88.以下关于正则化的陈述哪一个是正确的?()A、使用太大的λ值可能会导致您的假设与数据过拟合;这可以通过减小λ来避免B、使用非常大的值λ不会影响假设的性能;我们不将λ设置为太大的唯一原因是避免数值问题C、考虑一个分类问题。添加正则化可能会导致分类器错误地分类某些训练示例(当不使用正则化时,即当λ=0时,它正确地分类了这些示例)D、由于逻辑回归的输出值0≤hθ(x)≤1,其输出值的范围无论如何只能通过正则化来“缩小”一点,因此正则化通常对其没有帮助答案:C89.SVM的效率依赖于()。A、核函数的选择B、核参数C、软间隔参数D、以上所有答案:D90.下列哪一个图片的假设与训练集过拟合?()A、B、C、D、答案:A91.航空航天领域对于()和精密性有着极高的要求。A、科技性B、严谨性C、安全性D、精确性答案:C92.一般做机器学习应用的时候大部分时间是花费在特征处理上,其中很关键的一步就是对特征数据进行归一化,归一化的作用是()。A、归一化后降低了梯度下降求最优解的速度,提高了精度B、归一化不能提高精度C、如果机器学习模型使用梯度下降法求最优解时,不做归一化处理,很难收敛甚至不能收敛。D、以上说法都不正确答案:C93.假如我们使用非线性可分的SVM目标函数作为最优化对象,我们怎么保证模型线性可分?()A、设C=1B、设C=0C、设C=无穷大D、以上都不对答案:C94.下面哪个/些超参数的增加可能会造成随机森林数据过拟合?()A、树的数量B、树的深度C、学习速率D、学习次数答案:B95.bootstrap数据是什么意思?()A、有放回地从总共M个特征中抽样m个特征B、无放回地从总共M个特征中抽样m个特征C、有放回地从总共N个样本中抽样n个样本D、无放回地从总共N个样本中抽样n个样本答案:C96.十六进制64H转换成二进制和十进制的值分别是()。A、1100111B96DB、1100100B100DC、0100100B100DD、1010110B96D答案:B解析:答案解析:十六进制数64H转换为二进制时,6对应二进制的110,4对应二进制的100,组合起来就是1100100B。转换为十进制时,6乘以16的1次方等于96,4乘以16的0次方等于4,相加得到100D。所以,十六进制64H转换成二进制和十进制的值分别是1100100B和100D,选项B是正确的。97.我们建立一个5000个特征,100万数据的机器学习模型。我们怎么有效地应对这样的大数据训练:()。1我们随机抽取一些样本,在这些少量样本之上训练2我们可以试用在线机器学习算法3我们应用PCA算法降维,减少特征数A、1和2B、2和3C、以上都是D、以上都不是答案:C98.下列哪一项属于特征学习算法(representationlearningalgorithm)?(C)A、K近邻算法B、随机森林C、神经网络D、都不属于答案:C99.样本库功能要求为:数据接入包括()文件导入、HDFS数据导入、FTP文件导入、NFS数据导入和数据库数据导入。A、远程B、本地C、云端D、SAMBA答案:B100.下列关于职业道德的说法中,你认为正确的是()。A、职业道德与人格高低无关B、职业道德的养成只能靠社会强制规定C、职业道德从一个侧面反映人的道德素质D、职业道德素质的提高与从业人员的个人利益无关答案:C101.在以下不同的场景中,使用的分析方法不正确的有()。A、根据商家最近一年经营及服务数据,用聚类算法判断出天猫商家在各自主营类目下所属的商家层级B、根据商家近几年的成交数据,用聚类算法拟合出用户未来一个月可能的消费金额公式C、用关联规则算法分析出购买了汽车坐垫的买家,是否适合推荐汽车脚垫D、根据用户最近购买的商品信息,用决策树算法识别出淘宝买家可能是男还是女答案:B102.如果我们用了一个过大的学习速率会发生什么?()A、神经网络会收敛B、不好说C、都不对D、神经网络不会收敛答案:D103.给定三个变量X,Y,Z。(X,Y)、(Y,Z)和(X,Z)的Pearson相关性系数分别为C1、C2和C3。现在X的所有值加2(即X+2),Y的全部值减2(即Y-2),Z保持不变。那么运算之后的(X,Y)、(Y,Z)和(X,Z)相关性系数分别为D1、D2和D3。现在试问D1、D2、D3和C1、C2、C3之间的关系是什么?()A、D1=C1,D2<C2,D3>C3B、D1=C1,D2>C2,D3>C3C、D1=C1,D2>C2,D3<C3D、1=C1,D2=C2,D3=C3答案:D104.下列哪项关于模型能力(modelcapacity)的描述是正确的?()(指神经网络模型能拟合复杂函数的能力)A、隐藏层层数增加,模型能力增加B、Dropout的比例增加,模型能力增加C、学习率增加,模型能力增加D、都不正确答案:A105.以下说法中错误的是()。A、SVM对噪声(如来自其他分部的噪声样本)具备鲁棒性B、在adaboost算法中,所有被分错样本的权重更新比例不相同C、boosting和bagging都是组合多个分类器投票的方法,二者都是根据单个分类器的正确率确定其权重D、给定n个数据点,如果其中一半用于训练,一半用户测试,则训练误差和测试误差之间的差别会随着n的增加而减少的答案:C106.下列选择中,说法正确的是:()。A、继承(inheritance)允许一个类获取另一个类的所有成员和属性。被继承的类称为超类,而继承的类称为派生类/子类。B、多态(Polymorphism)的意思是「多种形式」。子类可以定义自己的独特行为,但不能共享其父类/基类的相同功能或行为C、Python可以不支持多重继承。一个类只能从一个父类派生。D、封装(Encapsulation)意味着将数据和成员函数包装在一起成为一个单元。不能实现数据隐藏。答案:A107.Python是面向对象语言,关于类和对象的说法不正确的是:()。A、类(Class)被视为对象的蓝图。类中的第一行字符串称为doc字符串,包含该类的简短描述。B、this表示类的实例,通过使用this关键字,可以在Python中访问类的属性和方法C、使用class关键字可以创建了一个类。一个类包含变量和成员组合,称为类成员。D、对象(Object)是真实存在的实体。在Python中为类创建一个对象,我们可以使用obj=CLASS_NAME()答案:B108.NaiveBayes是一种特殊的Bayes分类器,特征变量是X,类别标签是C,它的一个假定是:()。A、各类别的先验概率P(C)是相等的B、以0为均值,sqr(2)/2为标准差的正态分布C、特征变量X的各个维度是类别条件独立随机变量D、P(X|C)是高斯分布答案:C109.我国公民的基本道德规范是()、团结友善、勤俭自强、敬业奉献。A、爱国爱企、明礼诚信B、爱国守法、明礼诚信C、爱岗敬业、诚实守信D、遵纪守法、诚实信用答案:B110.下图是同一个SVM模型,但是使用了不同的径向基核函数的gamma参数,依次是g1,g2,g3,下面大小比较正确的是()。A、g1>g2>g3B、g1=g2=g3C、g1<g2<g3D、g1>=g2>=g3答案:C111.随着人工智能技术的发展,通过()、虹膜识别、指纹识别等生物识别技术已推广到银行业的各大主要应用场景中。A、人脸识别B、DNA识别C、声纹识别D、声音识别答案:A112.一监狱人脸识别准入系统用来识别待进入人员的身份,此系统一共包括识别4种不同的人员:狱警,小偷,送餐员,其他。下面哪种学习方法最适合此种应用需求:()。A、二分类问题B、多分类问题C、层次聚类问题D、k-中心点聚类问题答案:B113.Python中类型转换是指将一种数据类型转换为另一种数据类型。下列转换不正确的是。()A、int()将任何数据类型转换为整数类型,oct()将整数转换为十六进制B、tuple()函数用于转换为元组,set()函数在转换为set后返回类型。C、list()函数用于将任何数据类型转换为列表类型。D、ict()函数用于将顺序元组(键,值)转换为字典。str()函数用于将整数转换为字符串。答案:A114.Logistic回归分类器是否能对下列数据进行完美分类?()A、是B、否C、不确定D、都不是答案:B115.关于ARMA、R、MA模型的功率谱,下列说法正确的是()A、MA模型是同一个全通滤波器产生的B、MA模型在极点接近单位圆时,MA谱是一个深谷C、AR模型在零点接近单位圆时,AR谱是一个尖峰D、RMA谱既有尖峰又有深谷答案:D116.模型库存放训练出的()模型或采购来的第三方算法模型。A、实体B、算法C、数据D、对象答案:B117.给定三个变量X,Y,Z。(X,Y)、(Y,Z)和(X,Z)的Pearson相关性系数分别为C1、C2和C3。现在X的所有值加2(即X+2),Y的全部值减2(即Y-2),Z保持不变。那么运算之后的(X,Y)、(Y,Z)和(X,Z)相关性系数分别为D1、D2和D3。现在试问D1、D2、D3和C1、C2、C3之间的关系是什么?()A、D1=C1,D2<C2,D3>C3B、D1=C1,D2>C2,D3>C3C、D1=C1,D2>C2,D3<C3D、1=C1,D2=C2,D3=C3答案:D118.假设你使用log-loss函数作为评估标准。下面这些选项,哪些是对作为评估标准的log-loss的正确解释()。A、如果一个分类器对不正确的分类很自信,log-loss会严重的批评它。B、对一个特别的观察而言,分类器为正确的类别分配非常小的概率,然后对log-loss的相应分布会非常大。C、log-loss越低,模型越好D、以上都是答案:D119.下面关于二叉查找树的说法正确的是()。A、二叉查找树,也称有序二叉树(orderedbinarytree),或已排序二叉树(sortedbinarytree)B、若任意节点的左子树不空,则左子树上所有结点的值均大于它的根结点的值。C、若任意节点的右子树不空,则右子树上所有结点的值均小于它的根结点的值。D、任意节点的左、右子树不是二叉查找树。答案:A120.查询名字第二个字母为a的人()。A、SELECT∗FROMPersonsWHEREFirstName='%a%'B、SELECT∗FROMPersonsWHEREFirstNameLIKE'%_a%'C、SELECT∗FROMPersonsWHEREFirstNameLIKE'_a%'D、SELECT∗FROMPersonsWHEREFirstNameLIKE'__a_'答案:C解析:答案解析:在SQL查询中,`LIKE`关键字用于在`WHERE`子句中搜索列中的指定模式。`%`表示任意数量的字符,`_`表示一个单一的字符。题目要求查询名字第二个字母为a的人,所以正确的模式应该是`_a%`,即第一个字符可以是任意字符,第二个字符必须是a,后面可以跟任意数量的字符。因此,选项C是正确的答案。121.预测分析方法分为两大类,分别是定性分析法和()。A、回归分析法B、指数平滑法C、定量分析法D、平均法答案:C122.人工智能的概念最早是由哪一位科学家提出来的()?A、麦卡锡B、图林C、冯·诺依曼D、明斯基答案:A123.对于投影数据为((√2),(0),(√2))。现在如果在二维空间中重建,并将它们视为原始数据点的重建,那么重建误差是多少?()A、0%B、10%C、30%D、40%答案:A124.人工智能研究的一项基本内容是机器感知。以下列()不属于机器感知的领域。A、使机器具有视觉、听觉、触觉、味觉、嗅觉等感知能力。B、让机器具有理解文字的能力。C、使机器具有能够获取新知识、学习新技巧的能力。D、使机器具有听懂人类语言的能力答案:C125.在计算机外部设备和主存之间直接传送而不是由CPU执行程序指令进行数据传送的控制方式称为()。A、程序查询方式B、中断方式C、并行控制方式D、MA方式答案:D126.在数据库设计的需求分析阶段应完成包括()在内的文档。A、E-R图B、关系模式C、数据字典和数据流图D、任务书和设计方案答案:B127.()是“一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合”。A、数值B、数字C、数据D、大数据答案:D128.假设你在卷积神经网络的第一层中有5个卷积核,每个卷积核尺寸为7×7,具有零填充且步幅为1。该层的输入图片的维度是224×224×3。那么该层输出的维度是多少?()A、217x217x3B、217x217x8C、218x218x5D、220x220x7答案:C129.当在卷积神经网络中加入池化层(poolinglayer)时,变换的不变性会被保留,是吗?()A、不知道B、看情况C、是D、否答案:C130.某超市研究销售记录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?()。A、关联规则发现B、聚类C、分类D、自然语言处理答案:A131.下列哪个不属于CRF模型对于HMM和MEMM模型的优势()。A、特征灵活B、速度快C、可容纳较多上下文信息D、全局最优答案:B132.大数据的()与分布式计算能力也为人工智能提供了强大的储存、计算支持,大大推动了人工智能和发展。A、分布式储存B、大量收集C、智能传输D、自动分析答案:A133.如果对相同的数据进行逻辑回归,将花费更少的时间,并给出比较相似的精度(也可能不一样),怎么办?假设在庞大的数据集上使用Logistic回归模型。可能遇到一个问题,Logistic回归需要很长时间才能训练。()A、降低学习率,减少迭代次数B、降低学习率,增加迭代次数C、提高学习率,增加迭代次数D、增加学习率,减少迭代次数答案:D134.Python内存池机制,下面的说法正确的是()。(1)Python提供了对内存的垃圾收集机制,但是它将不用的内存放到内存池而不是返回给操作系统。(2)ymalloc机制。为了加速Python的执行效率,Python引入了一个内存池机制,用于管理对小块内存的申请和释放。(3)Python中所有大于256个字节的对象都使用pymalloc实现的分配器,而小的对象则使用系统的malloc。(4)对于Python对象,如整数,浮点数和List,都有其独立的私有内存池,对象间不共享他们的内存池。也就是说如果你分配又释放了大量的整数,用于缓存这些整数的内存就不能再分配给浮点数。A、1,2和4B、3和4C、1,2和3D、全部正确答案:A135.已知一组数据的协方差矩阵P,下面关于主分量说法错误的是()。A、主分量分析的最佳准则是对一组数据进行按一组正交基分解,在只取相同数量分量的条件下,以均方误差计算截尾误差最小B、在经主分量分解后,协方差矩阵成为对角矩阵C、主分量分析就是K-L变换D、主分量是通过求协方差矩阵的特征值得到答案:C136.下列int()函数使用,不正确的是:()。A、int('12',16)的值为16B、int('12',8)的值为10。C、int('12')的值为12D、int('101',2)的值为5。答案:A137.与传统数据库中的数据相比,文本数据具有其独特性,其包括四个方面。半结构化、高维、高数据量、()。A、语言性B、语义性C、语音性D、结构化答案:B138.以下哪种方法能最佳地适应逻辑回归中的数据?()A、LeastSquareErrorB、MaximumLikelihoodC、JaccarddistanceD、A和B答案:B139.作为行为规范,道德和法律的区别表现在()。A、道德的作用没有法律大B、道德规范比法律规范含糊C、道德和法律作用的范围不同D、道德和法律不能共同起作用答案:C140.智能搜题和智能批改都是OCR的文字识别和()的应用。A、书写识别B、手写识别C、字体识别D、文字感知答案:B141.什么是KDD?()A、数据挖掘与知识发现B、领域知识发现C、文档知识发现D、动态知识发现答案:A142.下列关于python中的迭代器说法不正确的是:()。A、迭代器是一个可以记住遍历的位置的对象。B、迭代器对象从集合的第一个元素开始访问,直到所有的元素被访问完结束。迭代器既能往前,也能后退。C、迭代器有两个基本的方法:iter()和next()。D、列表ls=[1,2,3,4],iter(ls)方法是创建迭代器对象。答案:B143.关于特征选择,下列对Ridge回归和Lasso回归说法正确的是?()A、Ridge回归适用于特征选择B、Lasso回归适用于特征选择C、两个都适用于特征选择D、以上说法都不对答案:B144.构建一个神经网络,将前一层的输出和它自身作为输入。下列哪一种架构有反馈连接?()A、循环神经网络B、卷积神经网络C、限制玻尔兹曼机D、都不是答案:A145.给定以下三个图表(从左往右依次为1,2,3)、哪一个选项对以这三个图表的描述是正确的?()A、1是tanh,2是ReLU,3是SIGMOID激活函数B、1是SIGMOID,2是ReLU,3是tanh激活函数C、1是ReLU,2是tanh,3是SIGMOID激活函数D、1是tanh,2是SIGMOID,3是ReLU激活函数答案:D146.为了检验连续变量x,y之间的线性关系,下列哪种图最合适?()A、散点图B、条形图C、直方图D、都不对答案:A147.为了解决如何模拟人类的感性思维,例如视觉理解、直觉思维、悟性等,研究者找到一个重要的信息处理的机制是()。A、专家系统B、人工神经网络C、模式识别D、智能代理答案:B148.下图显示了训练过的3层卷积神经网络准确度,与参数数量(特征核的数量)的关系。从图中趋势可见,如果增加神经网络的宽度,精确度会增加到一个特定阈值后,便开始降低。造成这一现象的可能原因是什么?()A、即使增加卷积核的数量,只有少部分的核会被用作预测B、当卷积核数量增加时,神经网络的预测能力(Power)会降低C、当卷积核数量增加时,它们之间的相关性增加(correlate),导致过拟合D、以上都不正确答案:C149.下面是三个散点图(A,B,C,从左到右)和手绘的逻辑回归决策边界。上图中哪一个显示了决策边界过度拟合训练数据()?A、B、C、D、这些都没有答案:C150.在计算机中,某个图片文件的大小1MB,指的是()。A、1024∗1024个比特(Bit)B、1024∗1024个字节(Byte)C、1000∗1000个比特(Bit)D、1000∗1000个字节(Byte)答案:B151.建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?()A、根据内容检索B、建模描述C、预测建模D、寻找模式和规则答案:C152.假定你正在处理类属特征,并且没有查看分类变量在测试集中的分布。现在你想将onehotencoding(OHE)应用到类属特征中。那么在训练集中将OHE应用到分类变量可能要面临的困难是什么?()A、分类变量所有的类别没有全部出现在测试集中B、类别的频率分布在训练集和测试集是不同的C、训练集和测试集通常会有一样的分布D、A和B都正确答案:D153.在训练神经网络时,损失函数(loss)在最初的几个epochs时没有下降,可能的原因是?()A、学习率(learningrate)太低B、正则参数太高C、陷入局部最小值D、以上都有可能答案:A154.()是公民道德建设的核心。A、集体主义B、爱国主义C、为人民服务D、诚实守信答案:C155.对于神经网络的说法,下面正确的是:(D)1增加神经网络层数,可能会增加测试数据集的分类错误率2减少神经网络层数,总是能减小测试数据集的分类错误率3增加神经网络层数,总是能减小训练数据集的分类错误率A、2B、1和3C、1和2D、1答案:D156.下列不是SVM核函数的是:()。A、多项式核函数B、logistic核函数C、径向基核函数D、Sigmoid核函数答案:B157.下面关于推荐系统的说法正确的是()。A、个性化推荐:常以“推荐”、“猜你喜欢”、“发现”等形式出现,一般放在首页位置B、相关推荐:常以“相关推荐”、“看了还看”等形式出现,一般放在内容详情页C、热门推荐:基于各种数据进行计算,得到的排行榜,支持全局排行以及分类排行等,位置不限D、以上都是正确的答案:D158.中文同义词替换时,常用到Word2Vec,以下说法错误的是()。A、Word2Vec基于概率统计B、Word2Vec结果符合当前预料环境C、Word2Vec得到的都是语义上的同义词D、Word2Vec受限于训练语料的数量和质量答案:C159.下列哪个不是人工智能的研究领域()。A、机器证明B、模式识别C、人工生命D、编译原理答案:D160.下列哪一项没有违反诚实守信的要求()。A、保守企业秘密B、为了牟取暴利,制造伪劣商品C、根据服务对象来决定是否遵守承诺D、派人打进竞争对手内部,增强竞争优势答案:A161.批规范化(BatchNormalization)的好处都有啥?()A、在将所有的输入传递到下一层之前对其进行归一化(更改)B、它将权重的归一化平均值和标准差C、它是一种非常有效的反向传播(BP)方法D、这些均不是答案:A162.以下几种模型方法属于判别式模型(DiscriminativeModel)的有()。(1)混合高斯模型(2)条件随机场模型(3)区分度训练(4)隐马尔科夫模型A、2,3B、3,4C、1,4D、1,2答案:A163.采用面向对象开发方法时,对象是系统运行时基本实体。以下关于对象的叙述中,正确的是()。A、对象只能包括数据(属性)B、对象只能包括操作(行为)C、对象一定有相同的属性和行为D、对象通常由对象名、属性和操作三个部分组成答案:D164.以下描述正确的是()。A、SVM是这样一个分类器,它寻找具有最小边缘的超平面,因此它也经常被称为最小边缘分类器B、在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差C、在决策树中,随着树中结点树变得太大,即使模型的训练误差还在继续降低,但是检验误差开始增大,这是出现了模型拟合不足的原因D、聚类分析可以看作是一种非监督的分类答案:D165.在一个神经网络中,知道每一个神经元的权重和偏差是最重要的一步。如果知道了神经元准确的权重和偏差,便可以近似任何函数,但怎么获知每个神经的权重和偏移呢?()A、搜索每个可能的权重和偏差组合,直到得到最佳值B、赋予一个初始值,然后检查跟最佳值的差值,不断迭代调整权重C、随机赋值,听天由命D、以上都不正确的答案:B166.如果线性回归模型中的随机误差存在异方差性,那么参数的OLS估计量是()。A、无偏的,有效的B、无偏的,非有效的C、有偏的,有效的D、有偏的,非有效的答案:B167.下面哪项操作能实现跟神经网络中Dropout的类似效果?()A、BoostingB、aggingC、StackingD、Mapping答案:B168.假设我们有一个数据集,在一个深度为6的决策树的帮助下,它可以使用100%的精确度被训练。现在考虑以下两点,并基于这两点选择正确的选项()。1深度为4时将有高偏差和低方差2深度为4时将有低偏差和低方差A、只有1B、只有2C、1和2D、没有一个答案:A169.下面关于熵的说法正确的是()。(1)熵的概念最早起源于物理学,用于度量一个热力学系统的无序程度。在信息论里面,熵是对确定性的测量。(2)熵的英文原文为entropy,最初由德国物理学家鲁道夫·克劳修斯提出,表示一个系统在不受外部干扰时,其内部最不稳定的状态。(3)任何粒子的常态都是随机运动,也就是"无序运动",如果让粒子呈现"有序化",必须耗费能量。所以,温度(热能)可以被看作"有序化"的一种度量,而"熵"可以看作是"无序化"的度量。(4)如果没有外部能量输入,封闭系统趋向越来越混乱(熵越来越大)。比如,如果房间无人打扫,不可能越来越干净(有序化),只可能越来越乱(无序化)。A、1和2B、3和4C、1,2和3D、全部正确答案:B170.对于一个图像识别问题(在一张照片里找出一只猫),下面哪种神经网络可以更好地解决这个问题?()A、循环神经网络B、感知机C、多层感知机D、卷积神经网络答案:D171.有两个样本点,第一个点为正样本,它的特征向量是(0,-1);第二个点为负样本,它的特征向量是(2,3),从这两个样本点组成的训练集构建一个线性SVM分类器的分类面方程是()。A、2x+y=4B、x+2y=5C、x+2y=3D、2x-y=0答案:C172.《公民道德建设实施纲要》指出我国职业道德建设规范是()。A、求真务实、开拓创新、艰苦奋斗、服务人民、促进发展B、爱岗敬业、诚实守信、办事公道、服务群众、奉献社会C、以人为本、解放思想、实事求是、与时俱进、促进和谐D、文明礼貌、勤俭节约、团结互助、遵纪守法、开拓创新答案:B173.在k-均值算法中,以下哪个选项可用于获得全局最小?()A、尝试为不同的质心(centroid)初始化运行算法B、调整迭代的次数C、找到集群的最佳数量D、以上所有答案:D174.假设我们使用原始的非线性可分版本的Soft-SVM优化目标函数。我们需要做什么来保证得到的模型是线性可分离的?()A、C=0B、C=1C、正无穷大D、C负无穷大答案:C175.K-Means算法无法聚以下哪种形状的样本?()A、圆形分布B、螺旋分布C、带状分布D、凸多边形分布答案:B176.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?()A、频繁模式挖掘B、分类和预测C、数据预处理D、数据流挖掘答案:C177.当数据过大以至于无法在RAM中同时处理时,哪种梯度下降方法更加有效?()A、随机梯度下降法(StochasticGradientDescent)B、不知道C、整批梯度下降法(FullBatchGradientDescent)D、都不是答案:A178.下列关于表达式的值的说法,正确的是:()A、表达式1<2<3的值为TrueB、表达式3or5的值为5C、表达式0or5的值为0D、表达式3and5的值为3答案:A179.下面有关分类算法的准确率,召回率,F1值的描述,错误的是?()A、准确率是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率B、召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统查全率C、正确率、召回率和F值取值都在0和1之间,数值越接近0,查准率或查全率就越高D、为了解决准确率和召回率冲突问题,引入了F1分数答案:C180.下面有关序列模式挖掘算法的描述,错误的是?()A、prioriAll算法和GSP算法都属于Apriori类算法,都要产生大量的候选序列B、FreeSpan算法和PrefixSpan算法不生成大量的候选序列以及不需要反复扫描原数据库C、在时空的执行效率上,FreeSpan比PrefixSpan更优D、和AprioriAll相比,GSP的执行效率比较高答案:C181.考虑某个具体问题时,你可能只有少量数据来解决这个问题。不过幸运的是你有一个类似问题已经预先训练好的神经网络。可以用下面哪种方法来利用这个预先训练好的网络?()A、把除了最后一层外所有的层都冻住,重新训练最后一层B、对新数据重新训练整个模型C、只对最后几层进行调参(finetune)D、对每一层模型进行评估,选择其中的少数来用答案:C182.模型库功能要求为:模型管理包括模型()、模型删除、版本管理、模型标签、模型收藏和模型共享。A、评估B、导出C、输出D、导入答案:D183.常见的生成式模型是()。A、K近邻、SVM、决策树B、感知机、线性判别分析(LDA)C、线性回归、传统的神经网络、逻辑回归D、朴素贝叶斯、隐马尔可夫模型、高斯混合模型答案:D184.下列哪个函数不可以做激活函数?()A、y=tanh(x)B、y=sin(x)C、y=max(x,0)D、y=2x答案:D185.在t-SNE算法中,可以调整以下哪些超参数?()A、维度数量B、平稳测量有效数量的邻居C、最大迭代次数D、以上所有答案:D186.智能语音技术具体可以分为自动语音识别、()、声纹识别、语音分类等。A、语音学习B、语音分析C、语音合成D、语音转写答案:C187.阅读下面的代码,下面的选项中,不正确的是:()。1deffun():2yield13yield24yield356x=fun()7print(next(x))A、生成器(generator)的定义与普通函数类似,生成器使用yield关键字生成值。B、如果一个函数包含yield关键字,那么该函数将自动成为一个生成器。C、第6行代码,x是一个生成器对象。D、第7行代码,输出是3。答案:D解析:答案解析:在Python中,生成器是一种使用简单的语法做惰性求值的迭代器。从给出的代码来看:A选项正确,生成器的定义确实与普通函数类似,只是使用yield关键字来生成值。B选项正确,如果一个函数包含yield关键字,该函数就是一个生成器。C选项正确,第6行代码调用函数fun(),返回一个生成器对象赋值给x。D选项不正确,第7行代码`print(next(x))`将会输出生成器产生的第一个值,即1,而不是3。因此,选项D是不正确的。188.后缀表达式“ab+cd-∗”与表达式()对应。A、(a+b)∗(c-d)B、a+b∗c-dC、a+b∗(c-d)D、(a+b)∗c-d答案:A189.以下哪个是判别式的模型()。A、朴素贝叶斯B、决策树C、高斯混合模型D、文档主题生成模型(LDA)答案:B190.下面选项中,正确的是:()。A、语句x=(3,)执行后x的值为3。B、语句x=(3)执行后x的值为(3,)。C、已知x=3和y=5,执行语句x,y=y,x后x的值是5,y的值是3。D、假设n为整数,那么表达式n&1==n%2的值为false。答案:C191.在二分类问题中,当测试集的正例和负例数量不均衡时,以下评价方案哪个是相对不合理的()(假设precision=TP/(TP+FP),recall=TP/(TP+FN)。)A、ccuracy:(TP+TN)/allB、F-value:2∗recall∗precision/(recall+precision)C、G-mean:sqrt(precision∗recall)D、AUC:ROC曲线下面积答案:A192.影响基本K-均值算法的主要因素有()。1样本输入顺序2模式相似性测度3聚类准则4初始类中心的选取A、1,2和4B、3和4C、2和4D、全部正确答案:A193.Python中zip函数称为拉链函数,入参是可迭代对象,语法是zip(∗iterables),阅读下面的代码,输出结果是:()。Numbers=[1,2,3]String=['one','two','three']Result=zip(numbers,string)Print(set(result))Print(list(result))A、第4行代码输出是:{(3,'three'),(2,'two'),(1,'one')}B、第5行代码输出是:[(3,'three'),(2,'two'),(1,'one')]C、第4行代码输出是:(3,'three'),(2,'two'),(1,'one')D、第5行代码输出是:[(3,'three',2,'two',1,'one']答案:A解析:`zip`函数在Python中用于将多个可迭代对象打包成一个元组的迭代器,每个元组包含所有可迭代对象在相同位置的元素。给定的代码中,`Numbers`和`String`是两个列表,它们被传递给`zip`函数。1.`zip(numbers,string)`会生成一个迭代器,其中包含元组`(1,'one')`,`(2,'two')`,`(3,'three')`。2.`set(result)`会将这个迭代器转换成一个集合,集合是无序的,但元素是唯一的,所以第4行代码的输出是一个集合,包含元组`(1,'one')`,`(2,'two')`,`(3,'three')`的任意排列,选项A描述的是其中一种可能的排列。3.当尝试再次使用`list(result)`时,由于`result`迭代器已经被`set(result)`消耗,它不会返回任何元素。所以第5行代码的输出是一个空列表`[]`。综上所述,只有选项A描述的是正确的输出结果。194.下列关于人工智能的叙述不正确的是()。A、人工智能技术它与其他科学技术相结合极大地提高了应用技术的智能化水平B、人工智能是科学技术发展的趋势。C、因为人工智能的系统研究是从上世纪五十年代才开始的,非常新,所以十分重要D、人工智能有力地促进了社会的发展。答案:C195.下面关于ID3算法中说法错误的是()。A、ID3算法要求特征必须离散化B、信息增益可以用熵,而不是GINI系数来计算C、选取信息增益最大的特征,作为树的根节点D、ID3算法是一个二叉树模型答案:D196.在一个神经网络中,下面哪种方法可以用来处理过拟合?()A、DropoutB、分批归一化(BatchNormalization)C、正则化(regularization)D、都可以答案:D197.在选择神经网络的深度时,下面哪些参数需要考虑?()(1)神经网络的类型(如MLP,CNN)(2)输入数据(3)计算能力(硬件和软件能力决定)(4)学习速率(5)映射的输出函数A、1,2,4,5B、2,3,4,5C、都需要考虑D、1,3,4,5答案:C198.变量选择是用来选择最好的判别器子集,如果要考虑模型效率,我们应该做哪些变量选择的考虑?()(1)多个变量其实有相同的用处(2)变量对于模型的解释有多大作用(3)特征携带的信息(4)交叉验证A、1和4B、1,2和3C、1,3和4D、以上所有答案:C199.如果我们用了一个过大的学习速率会发生什么?()A、神经网络会收敛B、不好说C、都不对D、神经网络不会收敛答案:D200.选择Logistic回归中的One-Vs-All方法中的哪个选项是真实的。()A、我们需要在n类分类问题中适合n个模型B、我们需要适合n-1个模型来分类为n个类C、我们需要只适合1个模型来分类为n个类D、这些都没有答案:A201.下图显示,当开始训练时,误差一直很高,这是因为神经网络在往全局最小值前进之前一直被卡在局部最小值里。为了避免这种情况,我们可以采取下面哪种策略?()A、改变学习速率,比如一开始的几个训练周期不断更改学习速率B、一开始将学习速率减小10倍,然后用动量项(momentum)C、增加参数数目,这样神经网络就不会卡在局部最优处D、其他都不对答案:A202.以下哪些选项为真?()A、线性回归误差值必须正态分布,但是在Logistic回归的情况下,情况并非如此B、逻辑回归误差值必须正态分布,但是在线性回归的情况下,情况并非如此C、线性回归和逻辑回归误差值都必须正态分布D、线性回归和逻辑回归误差值都不能正态分布答案:A203.比较基于深度学习的在线更新跟踪算法与在线不更新的跟踪算法,下列说法错误的是()。A、一般来说,在线不更新的跟踪算法速度更快B、一般来说,在线更新的跟踪算法,可以适应目标的变化,和背景信息的变化,对特征的要求较低C、一般来说,在线更新的跟踪算法,在发生丢失和遮挡时,很容易找回D、一般来说,在线不更新的跟踪算法,对特征的要求比较高,要求特征的表示能力鲁棒性更强答案:C204.有两个样本点,第一个点为正样本,它的特征向量是(0,-1);第二个点为负样本,它的特征向量是(2,3),从这两个样本点组成的训练集构建一个线性SVM分类器的分类面方程是()。A、2x+y=4B、x+2y=5C、x+2y=3D、2x-y=0答案:C205.关于inputsplit和block的描述正确的是()A、Mapreduce的inputsplit就是一个blockB、inputsplit是一种记录的逻辑划分,而block是对输入数据的物理分割,两者之间有着本质的区别C、由于Block是本地的,DFSCline可以不用向DataNode建立连接,直接读磁盘上的文件D、为了发挥计算本地化性能,应该尽量使inputSplit大小与block大小相当答案:B206.语言模型的参数估计经常使用MLE(最大似然估计)。面临的一个问题是没有出现的项概率为0,这样会导致语言模型的效果不好。为了解决这个问题,需要使用()。A、平滑B、去噪C、随机插值D、增加白噪音答案:A207.以下哪些算法,可以用神经网络去构造::()。(1)KNN(2)线性回归(3)对数几率回归A、(1)和(2)B、(2)和(3)C、(1),(2)和(3)D、以上都不是答案:B208.关于职业选择的意义,你赞同的看法是()。A、职业选择意味着可以不断变换工作岗位B、提倡自由选择职业会导致无政府主义C、职业选择有利于个人自由的无限扩展D、职业选择有利于促进人的全面发展答案:D209.假设使用逻辑回归进行n多类别分类,使用One-vs-rest分类法。下列说法正确的是?()A、对于n类别,需要训练n个模型B、对于n类别,需要训练n-1个模型C、对于n类别,只需要训练1个模型D、以上说法都不对答案:A210.()是指不能参与算术运算的字符集合,也称字符型数据。A、本文数据B、语音数据C、图像数据D、视频数据答案:A多选题1.以下那些统称为项()。A、个体常量B、变元C、函数D、谓词答案:ABC2.解决类别不平衡的方法包括()。A、欠采样B、过采样C、去除正例样本D、阈值移动答案:ABD3.经典逻辑分为()。A、命题逻辑B、一阶谓词逻辑C、多值逻辑D、模糊逻辑答案:AB4.以下哪些是常见的推荐系统算法?()A、协同过滤B、基于内容的推荐C、神经网络D、聚类算法答案:AB5.在统计模式分类问题中,当先验概率未知时,可以使用()。A、最小损失准则B、最小最大损失准则C、最小误判概率准则D、N-P判决答案:BD6.如果模型出现了过拟合,下面的做法正确的是。(ABCD)A、在训练和建立模型的时候,从相对简单的模型开始,不要一开始就把特征做的非常多,模型参数调的非常复杂B、增加样本,要覆盖全部的数据类型,数据经过清洗之后再进行模型训练,防止噪声数据干扰模型C、正则化是在模型算法中添加惩罚函数来防止过拟合,常见的有L1,L2正则化D、集成学习方法bagging(如随机森林)能有效防止过拟合答案:ABCD7.深度学习的主要过程包括()。A、选择适合问题的网络结构B、选择适合网络结构的问题C、用大量数据训练网络对权重初始化D、优化网络答案:ABCD8.以下哪些是常见的自然语言处理技术?()A、词嵌入B、词袋模型C、词频统计D、词性标注答案:ABD9.以下关于算法时间复杂度的说法正确的是()。A、算法执行时间与原操作执行次数之和成正比B、原操作多数情况下是指最深层次循环体内的语句中的原操作C、时间复杂度的估算有最好情况、最坏情况、平均情况三种D、实践表明可操作性最好的最具实际价值的是平均情况下的时间复杂性答案:ABC10.采用生理模拟和神经计算方法的人工智能研究被称为()。A、逻辑学派B、生理学派C、符号主义D、连接主义答案:BD11.以下哪些是常见的模型调优方法?()A、网格搜索B、随机搜索C、贝叶斯优化D、模型融合答案:ABC12.无人超市采用了()等多种智能技术,消费者在购物流程中将依次体验自动身份识别、自助导购服务、互动式营销、商品位置侦测、线上购物车清单自动生成和移动支付。A、计算机视觉B、传感器定位C、深度学习算法D、图像分析答案:ABCD13.以下哪些是人工智能应用的行业?()A、医疗健康B、金融服务C、农业D、旅游业答案:ABC14.以下哪些是常见的自然语言处理任务?()A、词性标注B、命名实体识别C、句子相似度计算D、图像分类答案:ABC15.线性回归中,我们可以使用最小二乘法来求解系数,下列关于最小二乘法说法正确的是()。A、只适用于线性模型,不适合逻辑回归模型等其他模型B、不需要选择学习率C、当特征数量很多的时候,运算速度会很慢D、不需要迭代训练答案:ABCD16.以下哪些是常见的模型解释方法?()A、特征重要性B、SHAP值C、LDA分析D、混淆矩阵答案:AB17.找出n个自然数中取r个数的组合,例如n=5,r=3有10种组合,以下关于该问题使用循环和递归实现的说法正确的是()。A、当r=3时,循环算法设计中可以用三重循环模拟每个组合中3个数B、当r=3时,循环算法的时间复杂度是O(n^3)C、递归算法实现的时间复杂度是O(n∗r)D、递归实现的层次是不能控制的,而循环嵌套的层次只能是固定的答案:ABC18.以下哪些是常见的强化学习算法?()A、Q学习B、SARSA算法C、LDA算法D、QN算法答案:ABD19.语音标注数据的典型应用场景包括()。A、智能医疗B、智能驾驶C、智能家居D、智能教育答案:ABCD20.以下哪些是常见的聊天机器人技术?()A、生成式对话系统B、棋盘游戏机器人C、基于规则的对话系统D、图像识别机器人答案:AC21.假如使用一个较复杂的回归模型来拟合样本数据,使用Ridge回归,调试正则化参数,来降低模型复杂度,若正则化系数较大时,关于偏差(bias)和方差(variance),下列说法正确的是()。A、偏差减小B、偏差增大C、方差减小D、方差增大答案:BC22.影响聚类算法效果的主要原因有:()。A、特征选取B、模式相似性测度C、分类准则D、已知类别的样本质量答案:ABC23.以下说法正确的是()。A、二叉树的特点是每个结点至多只有两棵子树B、二叉树的子树无左右之分C、二叉树只能进行链式存储D、树的结点包含一个数据元素及若干指向其子树的分支答案:AD24.为进行分类模型的训练和性能评价,需要将输入的标注数据划分为()。A、数据的类标B、测试集C、数据的特征D、训练集答案:BD25.以下哪些是常见的文本分类算法?()A、朴素贝叶斯B、支持向量机C、随机森林D、卷积神经网络答案:ABD26.以下哪些是常见的图像处理任务?()A、目标检测B、图像分割C、图像分类D、图像合成答案:ABC27.以下哪些是常见的异常检测应用领域?()A、金融欺诈检测B、工业设备故障检测C、医疗诊断D、社交媒体分析答案:ABC28.以下哪些是常见的特征选择方法?()A、过滤式B、包裹式C、LDA线性判别分析D、嵌入式答案:ABD29.对于维度极低的特征,选择线性还是非线性分类器,下列说法正确的是()。A、非线性分类器,低维空间可能很多特征都跑到一起了,导致线性不可分。B、如果Feature的数量很大,跟样本数量差不多,这时候选用LR或者是LinearKernel的SVMC、如果Feature的数量比较小,样本数量一般,不算大也不算小,选用SVM+GaussianKernelD、如果Feature的数量比较小,而样本数量很多,需要手工添加一些feature变成第一种情况。答案:ABCD30.Yarn架构在Hadoop生态圈中有哪些作用()?A、隔离B、计算C、资源分配D、调度答案:ACD31.过拟合的原因是算法的学习能力过强,一些假

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论