2023年大数据应用技能竞赛全题库(单选题汇总)_第1页
2023年大数据应用技能竞赛全题库(单选题汇总)_第2页
2023年大数据应用技能竞赛全题库(单选题汇总)_第3页
2023年大数据应用技能竞赛全题库(单选题汇总)_第4页
2023年大数据应用技能竞赛全题库(单选题汇总)_第5页
已阅读5页,还剩173页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一、单选题1.a=1,b=2,c=3,以下表达式值为True的是()。2.下列哪项关于模型能力(modelcapacity指神经网络模型能拟合复杂函数的能力)的描述是正确的()B、Dropout的比例增加,模型能力增加D、都不正确3.在Python中,调用open()时需要将内容附加到文件末尾,而不是覆盖文件原来A、a'A、信息增益7.下面()属于SVM应用。个()。15.数组分割使用以下哪个函数()。16.IDLE环境的退出命令是()。A、exit()A、存在梯度爆炸的问题B、不是关于原点对称D、存在梯度消失的问题18.聚类是一种典型的无监督学习任务,然而在现实聚类任务中我们往往能获得一些额外的监督信息,于是可通过()来利用监督信息以获得更好的聚类效果。B、L2正则化技术又称为LassoRegularizationC、输出门D、更新门C、垂直A、Accuracy:(TP+TNallvaluerecallprecisionrecalB、HDFS集群支持数据的随机读写C、NameNode磁盘元数据不保存Block的位置信息A、step()76.特征工程的目的是()。A、找到最合适的算法B、得到最好的输入数据C、减低模型复杂度D、加快计算速度77.()属于Spark框架中的可扩展机器学习库。78.如下哪些不是最近邻分类器的特点()。A、它使用具体的训练实例进行预测,不必维护源自数据的模型B、分类一个测试样例开销很大C、最近邻分类器基于全局信息进行预测D、可以生产任意形状的决策边界80.MapReduce对map()函数的返回值进行处理后再返回给reduce()函数的目的B、优化map()函数82.a=np.arange(1,reshapenpmeanaxisA、PCAA、&C、可移植性;90.Python中用于生成随机数的模块是random,以下描述错误的是()。A、random.random():生成一个0-1之间的随机浮点数D、random.choice(sequence):随机生成任意一个整数91.Spark那个组件用于支持实时计算需求()。A、提高代码执行速度B、降低编程复杂度C、增强代码可读性A、rc()A、scipy.clusterA、K-meansC、Pandas提供了一套名为DataFrame的数据结构B、pdf文件在不同平台上打开显示不同lfgenderandscoreltorIfgenderandscoreltanIfgenderandscoreltorsD、If(gender=="男"orscore<60orscore>=90):n+=1A、输入的总文件数B、客户端程序设置的mapTask的个数FilelnputFormatgetSplitsJobContexA、直方图均衡化C、加权均值滤波119.利用到每个聚类中心和的远近判断离群值的方法,可以基于的算法为()。A、K-Means120.数据科学项目应遵循一般项目管理的原则和方A、整体、范围、时间、成本、质量、沟通、风险、宣传、消费B、整体、范围、时间、成本、质量、人力资源、沟通、风险、采购C、整体、范围、时间、成本、质量、人力资源、运维、采购、宣传D、整体、范围、时间、成本、质量、人力资源、采购、宣传、运维A、所有数据A、线性回归B、逻辑回归A、价值涌现B、隐私涌现145.下列哪个不是RDD的缓存方法()A、persist146.我们建立一个5000个特征,100万数据的机器学习模型.我们怎么有效地应对这样的大数据训练()。A、我们随机抽取一些样本,在这些少量样本之上训练B、我们可以试用在线机器学习算法C、我们应用PCA算法降维,减少特征数D、以上答案都正确相乘,现在需要计算三个稠密矩阵A,B,C的乘积ABC,假设三个矩阵的尺寸分别为m?n,n?p,p?q,且m<n<p<q,以下计算顺序效率最高的是()。A、(AB)CA、bs-'A、integrateB、互信息A、ZeroDivisionErrorA、np.random(163.随机森林是在()上的一个扩展变体。164.用onehot对某个只有一个属性的样本进行编码,下面可能是编码结果的是165.数据科学家可能会同时使用多个算法(模型)进行预测,并且最后把这些算法的结果集成起来进行最后的预测(集成学习),以下对集成学习说法正确的是()。A、单个模型之间具有高相关性B、单个模型之间具有低相关性A、arange()168.假设一个线性回归模型完美适合训练数据(训练误差为0),下面那个说法是A、测试集误差一直为0B、测试集误差可能为0C、测试集误差不会为0C、polynomial(x=1,2,z=3)的传193.Numpy包中meshgrid函数实现的功能是()。C、数组除法194.后剪枝是先从训练集生成一颗完整的决策树,然后()对非叶结点进行考察。C、禁止分支展开A、商务智能时代C、数据富足供给时代B、海量数据A、增加树的深度A、随机误差项是一个期望值为0的随机变量A、有放回地从总共M个特征中抽样m个特征B、无放回地从总共M个特征中抽样m个特征D、无放回地从总共N个样本中抽样n个样本203.以下关于连接数组不正确的是()。A、concatenate连接沿现有轴的数组序列B、stack沿着新的轴加入一系列数组。C、vstack水平堆叠序列中的数组(列方向)D、hstack3D堆叠序列中的数组(行方向)204.执行以下代码段Motorcycles=【'honda','yamaha','suzuki'】MotorcycleA、【'honda','yamaha',suzukihondayamahasuzukiducatiA、一个机器学习模型,如果有较高准确率,总是说明这个分类器是好的B、如果增加模型复杂度,那么模型的测试错误率总是会降低C、如果增加模型复杂度,那么模型的训练错误率总是会降低A、Shuffle-Sort-ReduceD、语义分割210.以下属于深度学习框架的是()。A、indexA、pip-installsklearnC、C正无穷大D、C负无穷大modelselectionGroupK226.以下关于DNN说法不正确的是()。231.关于Python语言的特点,以下选项中描述错误的是()。A、Python语言是非开源语言B、Python语言是跨平台语言C、Python语言是多模型语言D、Python语言是脚本语言232.构造了一个词表:{1.小明2.喜欢3.踢4.看5.足球6.篮球7.电影},利用上述词表的索引号,文档{小明喜欢踢足球}可以用一个7维向量表示为()。234.Numpy不支持以下哪种数据类型()。235.下面哪项不属于循环神经网络的输出模式。()A、单输出0.694,温度的熵为0.859,人体感受的熵为0.952,风力的熵为0.971,如使用IDB、第一个副本存放在client所在的datanode中——》第二个副本存放在与第机架的不同datanode中——》第三个副本存放在与第一个副本不A、精确性281.下列哪一种架构有反馈连接()。A、循环神经网络D、都不是A、经过map()函数的计算可以得出一个中间数据集A、生成一个5行4列的随机矩阵B、将矩阵的第5行第4列改成一个随机值C、将矩阵的第4行第3列改成一个随机值D、将矩阵的第5列和第4列都用随机值代替得数据的均值为0,方差为1。__A、statsB、绘制垂直于x的参考区域生态系统的建设”A、sys h(r'(*)on(.*strrerePrintstrgroupA、LinearRegression()A、图像平滑B、图像分类上一常数量以便于引入一些低频分量。这样滤波器叫()。A、巴特沃斯高通滤波器B、高频提升滤波器C、高频加强滤波器D、理想高通滤波器343.Python对not、or、and求值的优先顺序是()。344.如果x=5.5,则表达式x>Oandx==int(x)的运算结果为;表达式x>0orx==int(x)的运算结果为()。349.关于面向过程和面向对象,下列说法错误的是()。A、面向过程和面向对象都是解决问题的一种思路B、面向过程是基于面向对象的C、面向过程强调的是解决问题的步骤D、面向对象强调的是解决问题的对象350.对组织机构的数据管理成熟度等级划分中的已执行级的描述错误的是()。临时性较大B、DMM关键过程的执行不仅仅局限于特定业务范畴,存在跨越不同业务领域的关键过程C、缺少针对DMM关键过程的反馈与优化D、虽然有可能在特定业务过程中进行了基础性改进,但没有进行持续跟进,也未拓展到整个组织机构351.在HadoopMapReduce中,()是客户端需要执A、TRUE378.以下代码的输出结果为()ArrnparangereshapeNpdel379.已知一组数据的协方差矩阵P,下面关于主分量说法错误的是()。A、主分量分析的最佳准则是对一组数据进行按一组正交基分解,在只取相同数量C、主分量分析就是K-L变换A、梯度消失383.假设文件不存在,如果使用open方法打开文件会报错,那么该文件的打开方式是下列哪种模式()。A、r'A、continue385.以下代码哪个能够打印出138-9922-0202这个电话号码,注意格式需要完全A、print(“138”)print(“9922”)print(“0202B、print(“138”,end=“”)print(endprintendC、print(“138”,sep=“-”)print(“9922”sepprintseD、print(“138”,end=“-”)print(endprintA、scipy.stats.skewtestC、python中多行注释使用只可以使用三个单引号(“’);A、sort()A、OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同。A、HFileA、输出一个全都是0的数组B、输出一个全都是1的数组C、输出一个全都是2的数组D、输出一个二维单位矩阵401.已知一组数据的协方差矩阵P,下面关于主分量说法错误的是()。A、主分量分析的最佳准则是对一组数据进行按一组正交基分解,在只取相同数量B、在经主分量分解后,协方差矩阵成为对角矩阵C、主分量分析就是K-L变换D、主分量是通过求协方差矩阵的特征值得到402.()算法要求基学习器能对特定的数据分布进行学习,在训练过程的每一轮中,根据样本分布为每个训练样本重新赋予一个权重。B、支持向量机B、数据预处理B、维护HDFS集群的所有数据块的分布、副本数和负载均衡为y=7.19x+73.93,据此可以预测这个孩子10岁时的身高,A、身高一定是145.83cmB、身高一定超过146.00cmC、身高一定高于145.00cmD、身高在145.83cm左右A、len()A、32KB数据2使用数据扩增技术3使用归纳性更好的架构4正规化数据5降低架构的复D、所有项目都有用D、norm层B、决策树C、平均值A、编辑器名441.长短时记忆网络属于一种()。A、全连接神经网络C、BP神经网络442.数据的原始内容及其备份数据,是数据产品的研发的哪个阶段()。C、二次数据444.在深度学习中,我们经常会遇到收敛到localminimum,下面不属于解决localminimum问题的方法是()A、随机梯度下降B、相关D、逻辑与A、Ridge回归A、foriinrange(3):print(A、Python语言不采用严格的“缩进”来表明程序的格式框架C、Python语言的缩进可以采用Tab键实现460.下列哪个不属于CRF模型对于HMM和MEMM模型的优势()。A、特征灵活Y=np.linalg.inv(xPrint2D、语句块2不一定会执行471.函DefchanagelntnumberNumbernumberPrintchangelntnumber2=",number2)#调用Number1=2;Chanagelnt(number1)Print("number:"C、tocsv函数能够将结构化数据写入csvA、C盘根目录下最低层输出100个特征映射(featuremap),中间层200个特征映射,最高层400B、负责调度Worker的运行;C、负责创建执行计划;504.主成分分析的优化目标是一个()。A、不含约束条件的二次规划问题B、含有约束条件的二次规划问题C、不含约束条件的线性规划问题D、含有约束条件的线性规划问题505.jieba的哪一种模式会把文本精确切分,不存在冗余单词()。A、匹配模式B、全模式C、精准模式D、搜索引擎模式506.以下代码中绘制散点图的是()。508.np.exp(x).round(5)的结果是2.71828,x的值是()。509.RDD默认的存储级别是()__ ___A、exists()A、等高线图D、矢量场图A、数据无结构运行了break,循环也就终止了!序运行了continue,循环也

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论