《大数据技术原理及应用》题目_第1页
《大数据技术原理及应用》题目_第2页
《大数据技术原理及应用》题目_第3页
《大数据技术原理及应用》题目_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、精选优质文档-倾情为你奉上大数据技术原理与应用第一卷一:判断题(每小题5分)1:对于大数据而言,最基本、最重要的要求就是减少错误、保证质量。因此,大数据收集的信息量要尽量精确。A:对 B:错 答案:B2:Spark是一个高效的分布式计算系统,它有MapReduce所有优点,同时性能与Hadoop一样高。 A:对 B:错 答案:B3:信息生命周期管理是据生命周期管理的来源,最早由英国企业提出。 A:对 B:错 答案:B4:简单随机抽样,是从总体 N 个对象中任意抽取 n 个对象作为样本,最终以这些样本作为调查对象。在抽取样本时,总体中每个对象被抽中为调查样本的概率可能会有差异。 A:对 B:错

2、答案:B5:大数据预测能够分析和挖掘出人们不知道或没有注意到的模式,确定判断事件必然会发生。 A:对 B:错 答案:B二:单选题(每小题5分)6:数据清洗的方法不包括_A缺失值处理 B噪声数据清除 C一致性检查 D重复数据记录处理 答案:D7:大数据的基本特征不包括_A数据量大 B数据类型繁多 C处理速度快 D价值密度高 答案:D8:HDFS中当前block大小为128M,如果当前要上传到HDFS中的文件大小为300M,那么在存储时会分配_个block进行存储A1 B2 C3 D4 答案:C9:下列_程序通常与NameNode在一个节点启动A SecondNameNode B DataNode

3、 C TaskTracker D JobTracker 答案:D10:配置Hadoop时,JAVA_HOME包含在_配置文件中A hadoop-default.xml B hadoop-env.sh C hadoop-site.xml D configuration.xs 答案:B11:在数据生命周期管理实践中_是执行方法A数据存储和备份规范 B数据管理和维护 C数据价值发觉和利用 D数据应用开发和管理 答案:B12:HBase系统基本架构中主服务器Master的作用是_A包含访问HBase的接口,同时在缓存中维护着已经访问过的Region位置信息,用来加快后续数据访问过程 B可以帮助选举出一

4、个Master作为集群的总管,并保证在任何时刻总有唯一一个Master在运行 C主要负责表和Region的管理工作 D是HBase中最核心的模块,负责维护分配给自己的Region,并响应用户的读写请求 答案:C13:Hadoop具有特性不包括_A高可靠性 B高效性 C高可扩展性 D低容错性, 答案:D14:YARN的http端口默认是_A80 B8080 C 8090 D8088 答案:D15:大数据时代,数据使用的关键是_A数据收集 B数据存储 C数据分析 D数据再利用 答案:D三:多选题(每小题5分)16:大数据人才整体上需要具备_等核心知识A数学与统计知识 B计算机相关知识 C马克思主义

5、哲学知识 D市场运营管理知识 E在特定业务领域的知识 答案:ABE17:下列关于数据生命周期管理的核心认识中,正确的是_A数据从产生到被删除销毁的过程中,具有多个不同的数据存在阶段 B在不同的数据存在阶段,数据的价值是不同的 C根据数据价值的不同应该对数据采取不同的管理策略 D数据生命周期管理旨在产生效益的同时,降低生产成本 答案:ABC18:数据研究经历了几种范式,包括_A实验 B理论 C计算 D数据 答案:ABCD19:按照涉及自变量的多少,可以将回归分析分为_A线性回归分析 B非线性回归分析 C一元回归分析 D多元回归分析 答案:CD20:大数据产业发展特点_A规模较大 B规模较小 C增

6、速较快 D增速缓慢 E多产业交叉融合 答案:ACE第二卷一:判断题(每小题5分)1:HDFS能提供高吞吐量的数据访问,非常适合于大规模数据集上的应用。 A:对 B:错 答案:A2:利用数据融合、数学模型、仿真技术等,可以逼近事物的本质,可以揭示出原来没有想到或难以展现的关联,大大提升政府决策的科学性。 A:对 B:错 答案:A3:Pig是一个基于Hadoop的大规模数据分析平台,它为复杂的海量数据并行计算提供了一个简单的操作和编程接口。 A:对 B:错 答案:A4:信息生命周期管理是据生命周期管理的来源,最早由英国企业提出。 A:对 B:错 答案:B5:Spark是一个高效的分布式计算系统,它

7、有MapReduce所有优点,同时性能与Hadoop一样高。 A:对 B:错 答案:B二:单选题(每小题5分)6:信息技术发展史上的第二次信息化浪潮发生在_A1950年前后 B1980年前后 C1995年前后 D2010年前后 答案:C7:HBase系统基本架构中主服务器Master的作用是_A包含访问HBase的接口,同时在缓存中维护着已经访问过的Region位置信息,用来加快后续数据访问过程 B可以帮助选举出一个Master作为集群的总管,并保证在任何时刻总有唯一一个Master在运行 C主要负责表和Region的管理工作 D是HBase中最核心的模块,负责维护分配给自己的Region,并

8、响应用户的读写请求 答案:C8:YARN架构中整个集群同一时间提供服务的ResourceManager有_个,负责集群资源的统一管理和调度。A1 B2 C3 D4 答案:A9:支撑大数据业务的基础是_A数据科学 B数据应用 C数据硬件 D数据人才 答案:B10:云数据库的特性不包括_A动态可扩展 B高可用性 C高性能 D较高的使用代价 答案:D11:下面_程序负责HDFS数据存储。A NameNode B Jobtracker C Datanode D SecondaryNameNode 答案:C12:下列关于HadoopAPI的说法错误的是_A Hadoop的文件API不是通用的,只用于HD

9、FS文件系统 BConfiguration类的默认实例化方法是以HDFS系统的资源配置为基础的 CFileStatus对象存储文件和目录的元数据 D FSDataInputStream是java.io.DataInputStream的子类 答案:A13:下列关于聚类挖掘技术的说法中,错误的是_A不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别 B要求同类数据的内容相似度尽可能小 C要求不同类数据的内容相似度尽可能小 D与分类挖掘技术相似的是,都是要对数据进行分类处理 答案:B14:YARN的http端口默认是_A80 B8080 C 8090 D8088 答案:D15:下列_程序通常与NameNode在一个节点启动A SecondNameNode B DataNode C TaskTracker D JobTracker 答案:D三:多选题(每小题5分)16:在网络爬虫的爬行策略中,应用最为基础的是_A深度优先遍历策略 B广度优先遍历策略 C高度优先遍历策略 D反向链接策略 答案:AB17:大数据产业包含_关键技术A批处理计算 B流计算 C图计算 D查询分析计算 答案:ABCD18:数据研究经历了几种范式,包括_A实验 B理论 C计算 D数据 答案:ABCD19:数据再

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论