大数据开发基础(习题卷76)

上传人：1*** IP属地：重庆上传时间：2024-02-03 格式：DOCX 页数：24 大小：35.90KB 积分：3.6 举报 版权申诉

已阅读5页，还剩19页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

试卷科目：大数据开发基础大数据开发基础(习题卷76)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据开发基础第1部分：单项选择题，共54题，每题只有一个正确答案,多选或少选均不得分。[单选题]1.在HDFS的数据写入过程中，客服端首先调用（）的实例的create()方法打开一个文件。A)DistributedFileSystemB)FileSystemC)FSDataOutputSteamD)FSDataInputSteam答案:C解析:[单选题]2.以下关于随机森林的说法正确的是()A)随机森林对于高维数据集的处理能力比较好B)在对缺失数据进行估计时，随机森林是一个十分有效的方法C)当存在分类不平衡的情况时，随机森林能够提供平衡数据集误差的有效方法D)以上答案都正确答案:D解析:[单选题]3.下列选项中，若是哪个节点关闭了，就无法访问Hadoop集群（）A)namenodeB)datanodeC)secondarynamenodeD)yarn答案:A解析:[单选题]4.设a={1,1,1,1,1,2,3,4,5,5,5,5},则print(len(a))的显示结果为()。A)5B)12C)3D)Error答案:A解析:[单选题]5.(__)是指抽取情感文本中有价值的情感信息，其要判断一个单词或词组在情感表达中扮演的角色，包括情感表达者识别，评价对象识别，情感观点词识别等任务。A)情感分类B)情感检索C)情感抽取D)情感分析答案:C解析:[单选题]6.Hive的查询语言HQL（HiveSQL）支持（）标准，使得HQL非常类似SQLA)SQL-90B)SQL-91C)SQL-92D)SQL-93答案:C解析:[单选题]7.从源数据源系统抽取目的数据源系统需要的数据这一过程称为()。A)数据抽取B)数据转换C)数据加载D)数据存储答案:A解析:[单选题]8.scipy.cluster模块的作用是（__)。A)傅里叶变换B)积分程序C)向量计算D)优化答案:C解析:[单选题]9.通过DMS（）管理其他阿里云帐号下的RDS实例。A)只要有数据库帐号即可管理B)通过DMS?实例授权?功能授权后即可管理C)完全不可以D)通过RAM授权后才能管理答案:B解析:[单选题]10.使用HBase客户端批量写入10条数据,某个HRegionServer节点上包含该表的2个Region,分别为A和B,10条数据中有6条属于A,4条属于B,请问写入这10条数据需要向该HRegionServer发送几次RPC请求?A)10B)6C)2D)1答案:D解析:[单选题]11.执行以下代码段a=set('apple')b=set('orange')print(a|b)时，输出为()。A){'l','e','a','p'}B){'r','a','g','e','n','o'}C){'l','p','g','o','e','n','a','r'}D){'r','g','n','o','l','p'}答案:C解析:[单选题]12.进行场景迁移的前提条件说法错误的是:（）。A)该用户必须拥有管理员权限B)已获取待连接数据源的用户名C)已获取待连接数据源的密码D)已获取待连接数据源的地址答案:A解析:[单选题]13.某企业准备上线一个项目，去搜集国内主要门户、论坛中和本公司相关的消息，一旦有符合预定义类型的消息出现，将第一时间反馈给公司的公共关系部，该场景属于典型的（）。A)流计算B)在线计算C)OLTPD)离线计算答案:A解析:[单选题]14.数据产品的定义是()。A)数据产品是指能够供给市场,被人们使用和消费,并能满足人们某种需求的任何东西B)数据产品是可以发挥数据价值去辅助用户更优地做决策(甚至行动)的一种产品形式C)数据产品是指为了满足自身的需要,通过科技发明或经验总结而形成的技术D)数据产品是数据科学的结果,创造了新的实物形态和使用价值的产品。答案:B解析:数据产品是可以发挥数据价值去辅助用户更优的做决策(甚至行动)的一种产品形式。[单选题]15.贝叶斯网借助（__）来刻画属性之间的依赖关系。A)有向图B)无环图C)有向无环图D)欧拉图答案:C解析:[单选题]16.下列关于分类算法的准确率、召回率、F1值的描述错误的是（）。A)准确率是检索出相关文档数与检索出的文档总数的比率，衡量的是检索系统的查准率B)召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率，衡量的是检索系统的查全率C)正确率、召回率和F1值取值都在0和1之间，数值越接近0，查准率或查全率就越高D)为了解决准确率和召回率冲突问题，引入了F1分数答案:C解析:正确率、召回率、F1值取值都在0和1之间，数值越接近1，查准率或查全率就越高。[单选题]17.关于Sqoop的说法,不正确的是()。A)主要设计目的是在Hadoop与传统数据库之间进行数据的ETL操作B)数据导入导出通过MapReduce完成C)Sqoop具备MapReduce的并行化和容错性D)Sqoop的Reduce操作速度更快答案:D解析:Sqoop是一个强大的工具,主要用来处理大量的数据传输,并不会影响Reduce的操作速度。[单选题]18.以下关于数据维度的描述，错误的是：A)采用列表表示一维数据，不同数据类型的元素是可以的B)JSON格式可以表示比二维数据还复杂的高维数据C)二维数据可以看成是一维数据的组合形式D)字典不可以表示二维以上的高维数据答案:B解析:[单选题]19.关于列表的说法，描述错误的是（）A)list是一个有序集合，没有固定大小B)list可以存放任意类型的元素C)使用list时，其下标可以是负数D)list是不可变的数据类型答案:D解析:[单选题]20.下列关于HDFS的负载均衡服务(Balancer)的参数说法哪一个是不正确的？A)-threshold默认值10，参数范围0-100B)-threshold取值越大越平衡C)dfs.balance.bandwitdhPerSec运行时允许占用的带宽D)dfs.balance.bandwitdhPerSec默认值为1M/s答案:B解析:[单选题]21.假设我们有一个数据集，在一个深度为6的决策树的帮助下，它可以使用100%的精确度被训练。现在考虑一下两点，并基于这两点选择正确的选项。注意：所有其他超参数是相同的，所有其他因子不受影响。1深度为4时将有高偏差和低方差2深度为4时将有低偏差和低方差A)只有1B)只有2C)1和2D)都不对答案:A解析:[单选题]22.Hbase中数据存储的文件格式是:（）。A)HlogB)TextFileC)HfileD)SequenceFile答案:C解析:[单选题]23.np.swapaxes()函数，需要传入的参数是（__)。A)数组维度B)数组大小C)一对轴编号D)一个轴编号答案:C解析:[单选题]24.下列不是距离度量需要满足的基本性质的是（__）。A)非负性B)同一性C)对称性D)传递性答案:D解析:[单选题]25.阅读以下代码，回答问题1deftotal(n):2s=03i=14while(iA)这行代码表示求i个数的和B)这行代码表示求s个数的和C)这行代码表示求s+i个数的和D)这行代码表示求1+2+...+n的和答案:D解析:[单选题]26.大数据计算服务支持基于标签的安全，它是项目空间级别的一种强制访问控制策略，它的引入是为了让项目空间管理员能更加灵活地控制用户对敏感数据的访问。LabelSecurity可以对敏感数据的（）粒度进行控制。A)分区B)表C)列D)行答案:C解析:[单选题]27.在规划FusionInsightHD集群时，如果客户用于功能测试，对性能没有要求，节约成本的情况下可以采用管理节点、控制节点、数据节点合一部署，最少需要多少节点？A)2B)3C)6D)8答案:B解析:[单选题]28.下述（）不是人工智能中常用的知识格式化表示方法。A)框架表示法B)状态空间表示法C)语义网络表示法D)形象描写表示法答案:D解析:[单选题]29.大数据对推动经济的重要意义不包括（）。A)大数据成为推动经济转型发展的新动力B)大数据成为重塑国家竞争优势的新机遇C)大数据成为企业转型升级的新常态D)大数据成为提升政府治理能力的新途径答案:C解析:[单选题]30.（）模块是Python标准库中最常用的模块之一。通过它可以获取命令行参数，从而实现从程序外部向程序内部传递参数的功能，也可以获取程序路径和当前系统平台等信息。A)sysB)platformC)mathD)time答案:A解析:sys模块用来获取命令行参数，从而实现从程序外部向程序内部传递参数的功能，也可以获取程序路径和当前系统平台等信息。300[单选题]31.在机器学习算法中，选择具有最大间隔的分割线进行预测的算法是哪一个（）A)线性回归B)支持向量机C)决策树D)K-Means答案:B解析:[单选题]32.关于支持向量机SVM，下列说法错误的是（）A)L2正则项，作用是最大化分类间隔，使得分类器拥有更强的泛化能力B)Hinge损失函数，作用是最小化经验分类错误C)分类间隔为1/||w||，||w||代表向量的模D)当参数C越小时，分类间隔越大，分类错误越多，趋于欠学习答案:C解析:[单选题]33.电影评分是以下哪些的应用实例()。A)分类B)聚类C)强化学习D)回归答案:D解析:[单选题]34.傅里叶变换得到的频谱中，低频系数对应于（）。A)物体边缘B)噪声C)变化平缓部分D)变化剧烈部分答案:C解析:[单选题]35.Numpy中创建全为0的矩阵使用什么?A)np.zeros()B)np.ones()C)np.empty()D)np.arange()答案:A解析:[单选题]36.我行《大数据应用推动考核办法》从（）开始实施。A)20170101B)20170801C)20180101D)20180801答案:D解析:[单选题]37.数据存储可与（）等终端设备相连，进行存储、处理公司涉密数据。A)公用网络相连的计算机B)智能手机C)平板电脑D)内部光盘答案:D解析:[单选题]38.关于EDA与统计学中验证性分析的相关描述不正确的有(__)。A)EDA无需事先假设，验证性分析需要事先假设B)探索分析在后，验证性分析在前C)EDA中采取的方法往往比验证分析简单D)基于EDA是数据计算工作可以分为2个部分：探索性分析和验证性分析答案:B解析:[单选题]39.随机森林是在()上的一个扩展变体A)Boos由19B)AdasBoostC)RFD)Bag回ng答案:C解析:[单选题]40.数据、信息与知识三者之间的变化趋势是（）A)宏课程B)大课程C)小课程D)微课程答案:C解析:[单选题]41.下列组件中MapReduce编程模型中最后执行的是（）。A)MapperB)PartitionerC)ReducerD)RecordReader答案:C解析:MapReduce编程模型中四个组件的执行顺序是RecordReader→Mapper→Partitioner→Reducer。[单选题]42.现在有一亿条数据要插入HBase,使用下列哪个方式最好?A)put方法B)bulkload方法C)shell端put命令D)insert方法答案:B解析:[单选题]43.下列关于图像平滑的叙述错误的是（）。A)可以减少噪声B)可以使图像变得均匀C)图像的细节部分可以不保持原有特征D)可以采用基于卷积的滤波方法答案:C解析:图像平滑的过程中，图像的细节部分保持原有特征。[单选题]44.下列关于Bagging的说法错误的是（）。A)各基分类器之间有较强依赖，不可以进行并行训练B)最著名的算法之一是基于决策树基分类器的随机森林C)当训练样本数量较少时，子集之间可能有重叠D)为了让基分类器之间互相独立，需要将训练集分为若干子集答案:A解析:Bagging方法在训练过程中，各基分类器之间无强依赖，可以进行并行训练，随机森林就是一种典型的例子。[单选题]45.下面算法中属于图像锐化处理的是：（）。A)低通滤波B)加权平均法C)高通滤波D)中值滤波答案:C解析:[单选题]46.图像识别常用softmax函数接在模型的输出上，其作用为：（）。A)增加不同类别之间的区分度B)突出输出向量中类标的对应的维度C)对输出归一化，同时以概率的更好解释输出向量D)过滤无用的环境信息答案:C解析:[单选题]47.为了解决数据处理过程中的内容偏差，应该采取的措施不包括（）。A)数据存储提升性能B)数据分析由表及里C)数据关联由此及彼D)数据清洗去伪存真答案:A解析:[单选题]48.若a=np.abs(-5)，则print(a)输出为（__)。A)-6B)-4C)-5D)5答案:D解析:[单选题]49.不属于模型集成方法的是()A)直接集成法B)增强法C)堆叠法D)递归法答案:D解析:[单选题]50.下面关于?领域务实知识?相关描述不正确的有(__)。A)?领域务实知识?是对数据科学家的特殊要求B)领域务实知识具有显著的面向领域性C)领域务实知识是数据科学的理论基础D)在组建团队时，不需重视领域专家的参与答案:D解析:[单选题]51.安装第三方模块使用的指令是()。A)pipinstallSomePackageB)pipuninstallSomePackageC)pipsearchSomePackageD)pipshowSomePackage答案:A解析:[单选题]52.为了返回组中所有值的和,应使用的聚合函数为()A)AVGB)SUMC)COUNTD)DISTINCT答案:B解析:[单选题]53.在淘宝京东拼多多进行网购时，用户的点击流数据会被实时发送到后端的大数据分析平台进行处理，平台根据用户的特征，找到与其购买兴趣匹配的其他用户群体，再把其他用户曾经购买过而该用户还没购买过的相关商品推荐给该用户。这个过程体现（）A)大数据追求的是相关关系B)大数据追求的是因果关系C)大数据追求的精确性D)大数据追求的是样本答案:A解析:[单选题]54.在很多小文件场景下,Spark会起很多Task,当SQL逻辑中存在Shuffle操作时,会大大增加hash分桶数,严重影响性能。FusionInsight中,针对小文件的场景通常采用答案:算子,来对Table中的小文件生成的partition进行合并,减少partition数,从而避免在shuffle的时候,生成过多的hash分桶,提升性能?A)groupbyB)coalosceC)connectD)join答案:D解析:第2部分：多项选择题，共26题，每题至少两个正确答案,多选或少选均不得分。[多选题]55.下列属于CNN关键层的有（）。A)输入层B)卷积层C)激活层D)池化层答案:ABCD解析:CNN关键层有：①输入层，对数据去均值，做dataaugmentation等工作；②卷积层，局部关联抽取feature；③激活层，非线性变化；④池化层，下采样；⑤全连接层，增加模型非线性；⑥高速通道，快速连接；⑦BN层，缓解梯度弥散。198[多选题]56.下列关于密度聚类的说法错误的有（）。A)DBSCAN是一种著名的密度聚类算法B)密度聚类从样本数量的角度来考察样本之间的可连接性C)密度聚类基于不可连接样本不断扩展聚类簇，以获得最终的聚类结果D)密度直达关系通常满足对称性答案:BCD解析:密度聚类从样本密度的角度来考察样本之间的可连接性；密度聚类基于可连接样本不断扩展聚类簇，以获得最终的聚类结果；密度直达关系通常不满足对称性；密度可达关系满足直递性，但不满足对称性；密度相连关系满足对称性。[多选题]57.出于效率和成本的考虑，在使用MaxcomputeMR的时候，输入表最好应该只包含需要处理的字段，其余多余字段应该忽略。输入表wc_in包含10个字段，MR只对其中三个字段（c1,c2,c3）进行了处理，以下说法正确的是：（）。A)使用包com.aliyun.odps.data中的TableInfo类中的setCols()方法指定处理的列c1，c2，c3fromwc_in；同时调用MR的时候输入新表wc_in_newB)MR的输入为一个SQL查询：selectc1,c2,c3fromwc_in;C)重建一张表wc_in_new，只包含三个字段（c1,c2,c3），加载数据：insertintotablewc_in_newselectc1,c2,c3fromwc_in;同时调用MR的时候D)建一个视图v_wc_in，视图仅包括相应的三个字段：createviewv_wc_inselectc1,c2,c3fromwc_in;然后把视图v_wc_in作为MR的输入答案:CD解析:[多选题]58.以下哪些数据库的引擎适合做数据仓库?A)ExadataB)TeradataC)RedisD)Oracle答案:ABD解析:[多选题]59.下列关于随机变量及其概率分布的说法正确的有（）。A)随机变量可以分为离散型随机变量和连续型随机变量B)随机变量的概率分布指的是一个随机变量所有取值的可能性C)扔5次硬币，正面朝上次数的可能取值是0、1、2、3、4、5，其中正面朝上次数为0与正面朝上次数为5的概率是一样的D)扔5次硬币，正面朝上次数的可能取值是0、1、2、3、4、5，其中正面朝上次数为5的概率是最大的答案:ABC解析:扔5次硬币，正面朝上次数的可能取值是0、1、2、3、4、5，其中正面朝上次数为5的概率不是最大的。[多选题]60.什么关于TF-IDF模型描述正确的有？A)TF意思是词频B)IDF是逆文本频率C)该模型基于统计方法D)在信息检索中应用较少答案:ABC解析:[多选题]61.我们知道二元分类的输出是概率值。一般设定输出概率大于或等于0.5，则预测为正类；若输出概率小于0.5，则预测为负类。那么，如果将阈值0.5提高，例如0.6，大于或等于0.6的才预测为正类。则准确率（Precision）和召回率（Recall）会发生什么变化（）？A)准确率（Precision）增加或者不变B)准确率（Precision）减小C)召回率（Recall）减小或者不变D)召回率（Recall）增大答案:AC解析:[多选题]62.下面关于Storm框架设计描述正确的是：()A)Storm运行在分布式集群中，其运行任务的方式与Hadoop类似B)在Hadoop上运行的是MapReduce作业，而在Storm上运行的是?Topology?C)Storm集群采用P2P架构D)Storm采用了Zookeeper来作为分布式协调组件答案:ABD解析:[多选题]63.FusionlnsightHD系统中，关于Solr索引的存储部署策略，以下说法正确的有？A)利用HDFS数据存储可靠性和易于扩容的特点优先选择索引存储干HDFSB)不论Solr索引存储在HDFS上还是存储在本地磁盘，在同-个节点上都必须要部署5个Solr实例C)当对实时索引录入速度更求较高时，可选择索引存敢于本地诚盘D)当索引数据存放在HDFS上时，SolrSServer实例与DataNode实例部署在同-个节点上答案:ACD解析:[多选题]64.下列属于CNN关键层的是()A)输入层B)卷积层C)激活层D)池化层答案:ABCD解析:[多选题]65.下列图表中,使用到折线的有()A)分区折线图B)多系列折线图C)折现雷达图D)组合图答案:ABCD解析:[多选题]66.Flume特点包括()。A)分布式B)高可靠C)高容错D)易于定制和扩展答案:ABCD解析:Flume的特点包括分布式、高可靠、高容错、易于定制和扩展。[多选题]67.机器学习中做特征选择时，可能用到的方法有？()A)卡方B)信息增益C)平均互信息D)期待交叉熵答案:ABCD解析:[多选题]68.大数据技术的基础包括()A)分布式文件系统B)分布式并行计算C)关系型数据库D)分布式数据库答案:ABD解析:[多选题]69.大数据作为一种数据集合，当我们使用这个概念的时候，实际包含有哪几层含义A)数据很大B)构成复杂C)变化很快D)蕴含大价值答案:ABC解析:[多选题]70.IBM公司用3个V来描述大数据的三个基本特征,这3V是()A)体量B)规模C)速度D)多样性答案:ACD解析:[多选题]71.人类社会的数据产生方式大致经历了哪三个阶段：（）A)手工生产阶段B)运营式系统阶段C)用户原创内容阶段D)感知式系统阶段答案:BCD解析:[多选题]72.数据流转和应用过程中应确保（），前序环节应保证数据的真实、完整并及时传递到后序环节，前后环节数据应保持衔接一致。A)可追溯B)可复查C)安全性D)一致性答案:AB解析:[多选题]73.Hive底层所依赖的计算引擎可以是：()A)FlinkB)MapReduceC)TezD)Spark答案:BCD解析:[多选题]74.下列有关Flume的描述正确的是()。A)Flume具有一定的容错性B)Flume使用Java编写C)Flume不支持failoyerD)Flume是一个分布式的轻量级工具,适应各种方式的数据收集答案:ABD解析:Flume本身提供了failover机制,可以自动切换和恢复。[多选题]75.MaxCompute的资源类型包括:（）。A)File类型B)Table类型C)Jar类型D)Archive类型答案:ABCD解析:[多选题]76.数据仓库分层的优点包括以下哪些选项？A)减少重复开发量B)提高资源协调能力C)隔离原始数据D)简化复杂问题答案:ACD解析:[多选题]77.Pandas中主要的数据结构有（）。A)DataB)DataFrameC)FrameD)Series答案:BD解析:Pandas的两种主要数据结构为Series和DataFrame。第3部分：判断题，共16题，请判断题目是否正确。[判断题]78.flatten函数会请求分配内存来保存结果，而ravel函数只是返回数组的一个视图（view）。A)正确B)错误答案:对解析:[判断题]79.对于PCA处理后的特征，其朴素贝叶斯特征相互独立的假设一定成立，因为所有主成分都是正交的，所以不相关。()A)正确B)错误答案:错解析:[判断题]80.卷权神经网络可以对一个输人进行多种变换(旋转、平移、缩放)A)正确B)错误答案:错解析:[判断题]81.正确率、召回率取值都在0和1之间，数值越接近0，查准率或查全率就越高。()A)正确B)错误答案:错解析:[判断题]82.下列创建propertykey的代码正确吗?PropertyKeypropertyKey=newPropertyKey（）;PropertyKey.setDataType（DataType.String）;PropertyKey.setName（"name"）;Api.addPropertyKey（propertyKey）;A)正确B)错误答案:对解析:[判断题]83.()在C/S模式中，客户端不能和服务器端安装在同一台机器上。A)正确B)错误答案:错解析:[判断题]84.ElasticSearch不可以通过SQL来使用（）A)正确B)错误答案:错解析:[判断题]85.Graph擅长完成学术论文、专利文献的引用分析和统计。A)正确B)错误答案:错解析:[判断题]86.在编写代码时，一般应先导入标准库对象，再导入扩展库对象。（）A)正确B)错误答案:对

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据开发基础(习题卷76)

文档简介

温馨提示

最新文档

评论