大数据应用考试模拟习题库(汇总带解析)_第1页
大数据应用考试模拟习题库(汇总带解析)_第2页
大数据应用考试模拟习题库(汇总带解析)_第3页
大数据应用考试模拟习题库(汇总带解析)_第4页
大数据应用考试模拟习题库(汇总带解析)_第5页
已阅读5页,还剩231页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据应用考试模拟习题库(带解析)A、arr%2==1C、缺少针对DMM关键过程的反馈与优化Arr=np.array([0,1,2,3,4,5,6,7,8可得到QU=33,QL=12,因此QD=QU-QL=21B、[array([0,1,2arrayarrayC、[array([0,1,2,3]),array(array15.np.where([[True,False],[True,TrueA、persist(理A、线性回归C、Fisher判别分析个()。A、偏置项bA、memery()、_29.自然语言处理、语音识别、股票交易、气象预测等应用适合采用()处理。层神经网络只能实现简单的逻辑如与、或、非,若不加激活函数甚至无法实现异31.MapReduce对map()函数的返回值进行处理后再返回给reduce()函数的目的A、减少map()函数和reduce()函数之间的数据传输B、优化map()函数C、优化reduce()函数D、这一步骤并无必要函数的输出结果进行处理。32.下面选项不正确的是()。X=np.array([[1,2],[3,4]A、标准差A、foo不能直接用frommoduleimportB、foo解析器用classnamefoo来代替这个名字,以区别和其他类相同的命名36.Python中自定义函数的关键字为()。A、from37.关于基本数据的元数据是指()。A、基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息B、基本元数据包括与企业相关的管理方面的数据和信息C、基本元数据包括日志文件和简历执行处理的时序调度信息D、基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息A、exit()A、理解别人讲的话D、机器翻译51.下列关于LSTM说法错误的是()。A、clusterA、n(1-n)pA、有监督算法A=np.array([[1,2,3],[4,5,6术则采用了非常简单的Key-Value等模式在后(SchemaLater)和无模式(Schemaless)的方式提升了数据管理系统的自适应能力。当然,模式在后(SchemaLater)和无模式(Schemaless)也会带来新问题,如降低了数据管理系统的数据处理能力。确定这个数值,此处用24除以其他不是-1的值得到6。81.设置图的标题的命令是()。标轴标识命令。A=np.array([[10,7,4],[3,2,1因此中位数为3和4的均值。A、一个含N个变量的二次规划问题B、一个含N+1个变量的二次规划问题C、一个含d个变量的二次规划问题D、一个含d+1个变量的二次规划问题解析:欲找到具有最大间隔的划分超平面,也就是要找到能满足式题中不等式约束的参数w和b,是一个含d+1个变量的二次规划问题。85.()是利用样本的实际资料计算统计量的取值,并以引来检验事先对总体某些数量特征的假设是否可信作为决策取舍依据的一种统计分析方法C、方差分析是由抽样误差引起还是本质差别造成的统计推断方法。其基本原理是先对总体的特征做出某种假设,然后通过抽样研究的统计推理86.输入图像已被转换为大小为28×28的矩阵和大小为7×7的步幅为1的核心/滤波器。卷积矩阵的大小是多少()A、输出层A、价值涌现91.np.exp(x).round(5)的结果是2.71828,x的值是()。解析:查看Python版本可以通过调用操作系统模块sys,语句print(sys.versiA、人员问题A、低通滤波C、(array([0.625,2.625,4.62array解析:标准正态分布是均值为0,标准差为1的正态分布。111.使用pip工具查看当前已安装的Python扩展库的完整命令是()。故C错。A、rvs99),并赋值给变量a。A、随机产生一个1~99的小数;B、随机产生一个1~99的整数;C、产生一个值为99的整数;D、随机产生一个1~99的无理数;B、样本较少但典型性好B、小于0C、不小于1D、在0与1之间A、len()A、任意应用程序141.下列不属于深度学习内容的是()。A、深度置信网络题。__ A、statsA、HDFSA、PCAB、AG计算模型相比MapReduce更有效率162.下列关于L1正则化与L2正则化描述错误的是()。C、L1范数正则化比L2范数正则化更有易于获得稀疏解n,Linux系统下通过在Terminal输入python2或者python3启动Python。A、scipy.clusterA、[4,5,6]变182.DNN常用的激活函数有()。183.多层前馈神经网络描述错误的是:()。神经元之间不存在同层连接3.神经元之间不存在跨层连接184.某工厂共有100名员工,他们的月C、大了D、不变A、1200.生成多项式和交互特征使用preprocessing模块中的A、preprocessing.binarize()201.以下属于深度学习框架的是()。Str2=re.match(r'(*)on(.*?).*',str1,re.M|re209.对于神经网络的说法,下面正确的是()。件是TextInputFormat;Partitioner的默认实现是HashPartitioner。212.下列方法中,能够返回某个子串在字符串中出现次数的是()。A、length213.下列()模块包括用于加载和获取流行的参考数据集的方法。A、各基分类器之间有较强依赖,不可以进行并行训练B、最著名的算法之一是基于决策树基分类器的随机森林217.对于数据3,3,2,3,6,3,10,3,6,3,2.①这组数据的众数是3;②这组数据的A、[0,10]A、ZeroDivisionErrorA=0;B=0.8*0.6*0.4=0.所以这道题选择B。 A=np.array([-1.7,1.5,-0.2,0.6,10C、if语句分支嵌套实现多分支D、if语句只能实现二分支A、Join经验与常识。通常根据能否清晰地表述和有效的转移,243.MapReduce默认的分区函数是()。244.常用的图像去噪方法有()。A、高斯滤波C、P-M方程去噪还有P-M方程去噪。245.留出法直接将数据集划分为()个互斥的集合。解析:留出法(hold-out)直接将数据集D划分为两个互斥的集合,其中一个集合246.卷积的过程是让过滤器在图像上()。D、镜像对称解析:卷积的过程是让过滤器在图像上进行窗口滑动。247.下面()负责MapReduce任务调度248.关于可视分析学,下列说法错误的是()。A、可视分析学比较典型的模型是DKeim等(2008年)提出的数据分析模型。B、数据可视化的本质是将数据转换为知识,而不仅仅停留在数据可视化化呈现层C、多对一257.误差逆传播算法(BP)仅可用于多层前馈神经网络的学习算法()。A、Ctrl+CA、MapReduceA、collect等A、sort()一份到其他服务器A、importdate定可靠程度的估计和判断.A、参数估计A、实例方法解析:把255拆成二进制以后是11111111所以是8。解析:除了“数值”,数据科学中所说的“数据”还包括文字A、Boosting290.下列哪个不是专门用于可视化时间空间数据的技术()。B、饼图A、直方图B、饼图A、Foriinrange(10,0):total+D、Forlinrange(1totalA、K-Means296.A=np.array([[1,1],[0,1]]),B=np.array([[2297.下列哪种算法可以用神经网络构建?()1.K-NN最近邻算法2.线性回归3.301.考察一个由三个卷积层组成的CNN:kernel=3×3,stride=2,padding=SAME。最低层输出100个特征映射(featuremap),中间层200个特征映射,最高层400个特征映射。输入是200×300的RGB图片,总参数的数量是多少()解析:第一层中由于第一个卷积kernel=3×3,输入有3个通道(channel),因此每个特征映射有3×3×3个weight,加上bias,每个特征映射对应28个参数。由于第一层有100个特征映射,因此有2800个参数;第二层中kernel=3×3,输入是前一层的100个特征映射,因此每个特征映射有3×3×100=900个weight,加上一个bias。由于共有200个特征映射,因此需要901×200=180200个参数;第三层中kernel=3×3,输入是前一层的200个特征映射,因此(第三层的)每个特征映射有3×3×200=1800个weight,加上bias。由于第三层有400个特征映射。因此这一层共有1801×400=720400个参数。【总共】以上求和共有2800+180200+720400=903400个参数。A、不可以嵌套定义C、不可以递归调用。os模式。A、utils比程习式()A、错误数据B、假数据点的系数降至0附近()。的“以数据中心”的特征不仅体现在“以数据为核心生产要素”,而且还主要表现在数据驱动、数据密集和数据范式。30.数据挖掘的挖掘方法包括()。A、聚类分析C、神经网络解析:利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关31.Spark容错性的方式有哪些()。A、数据检查点;B、存储原始数据;解析:数据科学项目是由从“项目目标的定义”到“模式/模型的应用及维护35.循环神经网络主要被应用于哪些场景()。B、Python组合数据类型能够将多个同类型或不同类型的数据组织起来,通过单一的表示使数据操作更有序更容易C、组合数据类型可以分为3类:序列类型集合类型和映射类型解析:序列类型是一维元素向量。41.下列说法中正确的是()。A、云计算的主要特点是非常昂贵。B、大数据是多源、异构、动态的复杂数据,即具有4V特征的数据C、大数据是数据科学的研究对象之一D、MapReduce是采用云计算这种新的计算模式研发出的具体工具软件(或算法)解析:云计算的一个重要优势在于其经济性。与其他计算模式不同的是,云计算的出发点是如何使用成本低的商用机(而不是成本很高的高性能服务器)实现强大的计算能力42.Hadoop组件Flume三层架构包括()。A、np.add()57.下列关于密度聚类说法错误的是()。D、from模块名import函数名A,函数名BA、MRA、边缘检测技术A、WekaC、使用split()可以进行字符串的拆分D、多分类学习例类(即1),小于0.5的样本归入反例类(即0)。然后,用阈值n(n>0.5)重新划分A、jsonloads载入json格式数据后会用类88.以下关于神经网络模型描述正确的是()。如果发现3对变量(Var1和Var2、Var2和Var3、Var3和Var1)之间的相关性分99.下列哪些是情感分析的途径()。C、统计方法D、概念级技术统计方法和概念级技术。100.NoSQL数据库常用的数据模型包括()101.对于主成分分析方法,降维后低维空间的维数d可以通过()方法确定。A、由用户事先指定B、通过在d值不同的低维空间中对开销较小的学习器进行交叉验证来选取C、可从重构的角度设置一个重构阈值,选取使得特定公式成立的最小值判断题(共28题)107.下面哪些是循环神经网络的输出模式()。D、以上答案都不正确解析:缺失值较少的处理方法:把NAN直接作为一个特征,假设用0表示;用随机森林等算法预测填充;110.针对维数灾难,我们主要采用的降维方法有哪些()。B、主成分分析C、核化线性降维解析:上述都是针对维数灾难,主要采用的降维方法。解析:以下数据集不适合用深度学习:数据集没有局部相关特性,目前深度学习表现比较好的领域主要是图像/语音/语音信号中音位组合成单词,文本数据中单词组合成句一旦被打乱,表示的含义同时也被改变。对于没有这样的局部相关性的数据集,不适于使用深度学习算法进行处理。126.下列有关Flume的描述正确的是()。A、Flume具有一定的容错性;B、Flume使用Java编写;C、Flume不支持failover;D、Flume是一个分布式的轻量级工具,适应各种方式的数据收集;127.关于Dropout说法正确的是:()。A、Dropout背后的思想其实就是把DNN当做一个集成模型来训练,之后取所有值的平均值,而不只是训练单个DNNB、DNN网络将Dropout率设置为p,也就是说,一个神经元被保留的概率是1-p。当一个神经元被丢弃时,无论输入或者相关的参数是什么,它的输出值就会被设置为0C、丢弃的神经元在训练阶段,对BP算法的前向和后向阶段都没有贡献。因为这解析:详见Python关键字列表。130.一个回归模型存在多重共线问题。在不损失过多信息的情况下,可如何处理A、剔除所有的共线性变量B、剔除共线性变量中的一个C、通过计算方差膨胀因子(VariancelnflationFactor,VIF)来检查共线性程度,并采取相应措施D、删除相关变量可能会有信息损失,我们可以不删除相关变量,而使用一些正则解析:为了检查多重共线性,我们可以创建相关系数矩阵来辨别和移除相关系数大于75%的变量(阈值根据情况设定),除此之外,可以使用VIF方法来检查当前存也可以使用公差(tolerance)作为评估指标。但是,移除相关变量可能导致信息的丢失,为了保留这些变量,可以使用带惩罚的回归方法。可以在相关变量之加入噪音,使得变量之间存在差异。但增加噪音可能影响准该小心使用。131.plt.axhline(y=0.0,c="r",Is="--",1w=2),对这句代码说法正确的是()。A、在0.0处添加竖直参考线A、不够安全A、listkeywordA、print(b-1)A、简单性D、reduce()函数的输入数据是经过map()函数处理之后的数据HadoopMapReduceMapReduceHA、Client解析:可以将MapReduce的工作流程概括为4个独立的实体①客户端,用来提r则只会有一个④HDFS,用来在其他实体间共享作业文件。保存作业的数据、配与正面朝上次数为5的概率是一样的为5的概率不是最大的。判断题(共4题)A、R-Squared159.以下对模型性能提高有帮助的是()。A、数据预处理C、机器学习算法160.参数估计可以分为()。C、区间估计解析:参数估计可以分为点估计、区间估计。A、TFC解析:TFC:对文本长TFIDFITCTFCtf的对数值取代tf。解析:分析学习是相对于归纳学习的一种提法,其特点是使用先验知识来分析或解释每个训练样本,以推理出样本的哪些特征与目标函数相关或不相关。因此,这些解释能使机器学习系统比单独依靠数据进行泛化有更高的精度。分析学习使用先验知识来减小待搜索假设空间的复杂度,减小了样本复杂度并提高了机器学习系统的泛化精度。可见,分析学习与归纳学习的优缺点在一定程度上具有互补性;分析学习方法优点在于可用先验知识从较少的数据中更精确地泛化以引导学有的优点是不需要显式的先验知识,并且主要基于训练数据学习到规律。然而,置是从观察数据中泛化所必需的过程。因此,我们可以考虑如何将二者结合成一168.基于Boosting的集成学习代表算法有()。解析:Adaboost、GBDT、XGBOOST是基于Boosting的集成学习算170.以下属于频率域图像滤波的方法有()。C、布特沃斯滤波解析:频率域图像滤波包括理想低通滤波器、布特沃斯低通滤波器、高斯低通滤波器、梯形低通滤波器。中值滤波和均值滤波属于空间滤波。171.大数据处理流程可以概括为以下哪几步()。A、数据分析与挖掘C、数据储存172.在网络爬虫的爬行策略中,应用最为常见的是()。A、深度优先遍历策略B、广度优先遍历策略D、反向链接策略素AlC等。A、正确B、错误29.s2=pd.Series([25,23,42,21,23],index=['Jack'LucyHelenMilkyA、正确B、错误列表x中的元素循环左移5位。48.df1=pd.DataFrame([[5,2,3],[4,5,6],[7,8,9]],index=[col解析:通常把分类错误的样本数占总样本总数的比例称为“错误率”B、错误B、错误B、错误磁盘中读取或会写入metadata信息并反馈给client端()。100.单引号所围字符串中的双引号不用转义,同理,101.pandas中head(n)的意解析:分别为按索引排序和按值排序。B、错误9.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论