【答案】《大数据技术原理与应用》(厦门大学)章节期末慕课答案_第1页
【答案】《大数据技术原理与应用》(厦门大学)章节期末慕课答案_第2页
【答案】《大数据技术原理与应用》(厦门大学)章节期末慕课答案_第3页
【答案】《大数据技术原理与应用》(厦门大学)章节期末慕课答案_第4页
【答案】《大数据技术原理与应用》(厦门大学)章节期末慕课答案_第5页
已阅读5页,还剩25页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

【答案】《大数据技术原理与应用》(厦门大学)章节期末慕课答案有些题目顺序不一致,下载后按键盘ctrl+F进行搜索第1章大数据概述第1章大数据概述单元测验1.单选题:以下关于云计算、大数据和物联网之间的关系,论述错误的是:

选项:

A、云计算侧重于数据分析

B、云计算、大数据和物联网三者紧密相关,相辅相成

C、物联网可以借助于云计算实现海量数据的存储

D、物联网可以借助于大数据实现海量数据的分析

答案:【云计算侧重于数据分析】2.单选题:就数据的量级而言,1PB数据是多少TB?

选项:

A、512

B、1024

C、1000

D、2048

答案:【1024】3.单选题:每种大数据产品都有特定的应用场景,以下哪个产品是用于查询分析计算的:

选项:

A、MapReduce

B、HDFS

C、Dremel

D、S4

答案:【Dremel】4.单选题:每种大数据产品都有特定的应用场景,以下哪个产品是用于图计算的:

选项:

A、Cassandra

B、Flume

C、Storm

D、Pregel

答案:【Pregel】5.单选题:每种大数据产品都有特定的应用场景,以下哪个产品是用于流计算的:

选项:

A、GraphX

B、S4

C、Hive

D、Impala

答案:【S4】6.单选题:每种大数据产品都有特定的应用场景,以下哪个产品是用于批处理的:

选项:

A、MapReduce

B、Pregel

C、Dremel

D、Storm

答案:【MapReduce】7.单选题:以下哪个不是大数据时代新兴的技术:

选项:

A、Hadoop

B、Spark

C、HBase

D、MySQL

答案:【MySQL】8.单选题:第三次信息化浪潮的标志是:

选项:

A、个人电脑的普及

B、互联网的普及

C、云计算、大数据、物联网技术的普及

D、虚拟现实技术的普及

答案:【云计算、大数据、物联网技术的普及】9.多选题:云计算的典型服务模式包括三种:

选项:

A、PaaS

B、IaaS

C、SaaS

D、MaaS

答案:【PaaS;IaaS;SaaS】10.多选题:大数据主要有哪几种计算模式:

选项:

A、批处理计算

B、流计算

C、图计算

D、查询分析计算

答案:【批处理计算;流计算;图计算;查询分析计算】11.多选题:大数据带来思维方式的三个转变是:

选项:

A、精确而非全面

B、全样而非抽样

C、效率而非精确

D、相关而非因果

答案:【全样而非抽样;效率而非精确;相关而非因果】12.多选题:图领奖获得者、著名数据库专家JimGray博士认为,人类自古以来在科学研究上先后经历了哪几种范式:

选项:

A、实验科学

B、理论科学

C、计算科学

D、数据密集型科学

答案:【实验科学;理论科学;计算科学;数据密集型科学】13.多选题:大数据的特性包括:

选项:

A、数据量大

B、数据类型繁多

C、处理速度快

D、价值密度低

答案:【数据量大;数据类型繁多;处理速度快;价值密度低】14.多选题:大数据发展的三个阶段是:

选项:

A、萌芽期

B、低谷期

C、成熟期

D、大规模应用期

答案:【萌芽期;成熟期;大规模应用期】15.多选题:数据产生方式大致经历了三个阶段,包括:

选项:

A、运营式系统阶段

B、用户原创内容阶段

C、感知式系统阶段

D、移动互联网数据阶段

答案:【运营式系统阶段;用户原创内容阶段;感知式系统阶段】第2章大数据处理架构Hadoop第2章大数据处理架构Hadoop单元测验1.单选题:以下哪个不是Hadoop的特性:

选项:

A、高容错性

B、高可靠性

C、成本高

D、支持多种编程语言

答案:【成本高】2.单选题:以下对Hadoop的说法错误的是:

选项:

A、Hadoop的核心是HDFS和MapReduce

B、Hadoop是基于Java语言开发的,只支持Java语言编程

C、Hadoop2.0增加了NameNodeHA和Wire-compatibility两个重大特性

D、HadoopMapReduce是针对谷歌MapReduce的开源实现,通常用于大规模数据集的并行计算

答案:【Hadoop是基于Java语言开发的,只支持Java语言编程】3.单选题:启动hadoop所有进程的命令是:

选项:

A、start-dfs.sh

B、start-hadoop.sh

C、start-all.sh

D、start-hdfs.sh

答案:【start-all.sh】4.单选题:以下名词解释不正确的是:

选项:

A、HDFS:分布式文件系统,是Hadoop项目的两大核心之一,是谷歌GFS的开源实现

B、HBase:提供高可靠性、高性能、分布式的行式数据库,是谷歌BigTable的开源实现

C、Hive:一个基于Hadoop的数据仓库工具,用于对Hadoop文件中的数据集进行数据整理、特殊查询和分析存储

D、Zookeeper:针对谷歌Chubby的一个开源实现,是高效可靠的协同工作系统

答案:【HBase:提供高可靠性、高性能、分布式的行式数据库,是谷歌BigTable的开源实现】5.多选题:以下哪个命令可以用来操作HDFS文件:

选项:

A、hadoopfs

B、hdfsdfs

C、hadoopdfs

D、hdfsfs

答案:【hadoopfs;hdfsdfs;hadoopdfs】6.多选题:以下哪些组件是Hadoop的生态系统的组件:

选项:

A、MapReduce

B、HDFS

C、Oracle

D、HBase

答案:【MapReduce;HDFS;HBase】第3章分布式文件系统HDFS第3章分布式文件系统HDFS单元测验1.单选题:采用多副本冗余存储的优势不包含:

选项:

A、加快数据传输速度

B、节约存储空间

C、容易检查数据错误

D、保证数据可靠性

答案:【节约存储空间】2.单选题:对HDFS通信协议的理解错误的是:

选项:

A、HDFS通信协议都是构建在IoT协议基础之上的

B、名称节点和数据节点之间则使用数据节点协议进行交互

C、客户端与数据节点的交互是通过RPC(RemoteProcedureCall)来实现的

D、客户端通过一个可配置的端口向名称节点主动发起TCP连接,并使用客户端协议与名称节点进行交互

答案:【HDFS通信协议都是构建在IoT协议基础之上的】3.单选题:HDFS的命名空间不包含:

选项:

A、目录

B、文件

C、块

D、字节

答案:【字节】4.单选题:下面关于分布式文件系统HDFS的描述正确的是:

选项:

A、分布式文件系统HDFS是一种关系型数据库

B、分布式文件系统HDFS是GoogleBigtable的一种开源实现

C、分布式文件系统HDFS是谷歌分布式文件系统GFS(GoogleFileSystem)的一种开源实现

D、分布式文件系统HDFS比较适合存储大量零碎的小文件

答案:【分布式文件系统HDFS是谷歌分布式文件系统GFS(GoogleFileSystem)的一种开源实现】5.单选题:分布式文件系统HDFS采用了主从结构模型,由计算机集群中的多个节点构成的,这些节点分为两类,一类存储元数据叫,另一类存储具体数据叫:

选项:

A、名称节点,数据节点

B、数据节点,名称节点

C、名称节点,主节点

D、从节点,主节点

答案:【名称节点,数据节点】6.单选题:假设已经配置好环境变量,启动Hadoop和关闭Hadoop的命令分别是:

选项:

A、start-hdfs.sh,stop-hdfs.sh

B、start-dfs.sh,stop-dfs.sh

C、start-dfs.sh,stop-hdfs.sh

D、start-hdfs.sh,stop-dfs.sh

答案:【start-dfs.sh,stop-dfs.sh】7.多选题:以下HDFS相关的shell命令不正确的是:

选项:

A、hadoopfs-ls:显示指定的文件的详细信息

B、hadoopdfsmkdir:创建指定的文件夹

C、hadoopfs-copyFromLocal:将路径指定的文件或文件夹复制到路径指定的文件夹中

D、hdfsdfs-rm:删除路径指定的文件

答案:【hadoopdfsmkdir:创建指定的文件夹;hadoopfs-copyFromLocal:将路径指定的文件或文件夹复制到路径指定的文件夹中】8.多选题:HDFS只设置唯一一个名称节点带来的局限性包括:

选项:

A、性能的瓶颈

B、命名空间的限制

C、隔离问题

D、集群的可用性

答案:【性能的瓶颈;命名空间的限制;隔离问题;集群的可用性】9.多选题:以下对数据节点理解正确的是:

选项:

A、数据节点用来存储具体的文件内容

B、数据节点的数据保存在磁盘中

C、数据节点在名称节点的统一调度下进行数据块的创建、删除和复制等操作

D、数据节点通常只有一个

答案:【数据节点用来存储具体的文件内容;数据节点的数据保存在磁盘中;数据节点在名称节点的统一调度下进行数据块的创建、删除和复制等操作】10.多选题:以下对名称节点理解正确的是:

选项:

A、名称节点通常用来保存元数据

B、名称节点的数据保存在内存中

C、名称节点作为中心服务器,负责管理文件系统的命名空间及客户端对文件的访问

D、名称节点用来负责具体用户数据的存储

答案:【名称节点通常用来保存元数据;名称节点的数据保存在内存中;名称节点作为中心服务器,负责管理文件系统的命名空间及客户端对文件的访问】第4章分布式数据库HBase第4章分布式数据库HBase单元测验1.单选题:关于HBaseShell命令解释错误的是:

选项:

A、create:创建表

B、list:显示表的所有数据

C、put:向表、行、列指定的单元格添加数据

D、get:通过表名、行、列、时间戳、时间范围和版本号来获得相应单元格的值

答案:【list:显示表的所有数据】2.单选题:客户端是通过级寻址来定位Region:

选项:

A、一

B、二

C、三

D、四

答案:【三】3.单选题:HBase三层结构的顺序是:

选项:

A、Zookeeper文件,.MEATA.表,-ROOT-表

B、Zookeeper文件,-ROOT-表,.MEATA.表

C、-ROOT-表,Zookeeper文件,.MEATA.表

D、.MEATA.表,Zookeeper文件,-ROOT-表

答案:【Zookeeper文件,-ROOT-表,.MEATA.表】4.单选题:在HBase数据库中,每个Region的建议最佳大小是:

选项:

A、100MB-200MB

B、500MB-1000MB

C、1GB-2GB

D、2GB-4GB

答案:【1GB-2GB】5.单选题:下列说法正确的是:

选项:

A、HBase的实现包括的主要功能组件是库函数,一个Master主服务器和一个Region服务器

B、Zookeeper是一个集群管理工具,常用于分布式计算,提供配置维护、域名服务、分布式同步等

C、如果不启动Hadoop,则HBase完全无法使用

D、如果通过HBaseShell插入表数据,可以插入一行数据或一个单元格数据

答案:【Zookeeper是一个集群管理工具,常用于分布式计算,提供配置维护、域名服务、分布式同步等】6.单选题:下列对HBase数据模型的描述错误的是:

选项:

A、HBase是一个稀疏、多维度、排序的映射表,这张表的索引是行键、列族、列限定符和时间戳

B、HBase列族支持动态扩展,可以很轻松地添加一个列族或列

C、HBase中执行更新操作时,会删除数据旧的版本,并生成一个新的版本

D、每个HBase表都由若干行组成,每个行由行键(rowkey)来标识

答案:【HBase中执行更新操作时,会删除数据旧的版本,并生成一个新的版本】7.单选题:HBase是一种数据库

选项:

A、行式数据库

B、列式数据库

C、文档数据库

D、关系数据库

答案:【列式数据库】8.多选题:访问HBase表中的行,有哪些方式:

选项:

A、通过单个行健访问

B、通过一个行健的区间来访问

C、全表扫描

D、通过某列的值区间

答案:【通过单个行健访问;通过一个行健的区间来访问;全表扫描】9.多选题:HBase和传统关系型数据库的区别在于哪些方面:

选项:

A、数据模型

B、数据操作

C、存储模式

D、数据索引

答案:【数据模型;数据操作;存储模式;数据索引】10.多选题:下列对HBase的理解正确的是:

选项:

A、HBase是一个行式分布式数据库,是Hadoop生态系统中的一个组件

B、HBase是针对谷歌BigTable的开源实现

C、HBase多用于存储非结构化和半结构化的松散数据

D、HBase是一种关系型数据库,现成功应用于互联网服务领域

答案:【HBase是针对谷歌BigTable的开源实现;HBase多用于存储非结构化和半结构化的松散数据】第5章NoSQL数据库第5章NoSQL数据库单元测验1.单选题:下列关于NoSQL数据库和关系型数据库的比较,不正确的是:

选项:

A、NoSQL数据库具有弱一致性,关系型数据库具有强一致性

B、NoSQL数据库很容易实现数据完整性,关系型数据库很难实现数据完整性

C、NoSQL数据库的可扩展性比传统的关系型数据库更好

D、NoSQL数据库缺乏统一的查询语言,而关系型数据库有标准化查询语言

答案:【NoSQL数据库很容易实现数据完整性,关系型数据库很难实现数据完整性】2.单选题:NoSQL数据库的三大理论基石不包括:

选项:

A、CAP

B、BASE

C、最终一致性

D、ACID

答案:【ACID】3.单选题:下列数据库属于文档数据库的是:

选项:

A、MySQL

B、HBase

C、Redis

D、MongoDB

答案:【MongoDB】4.单选题:以下对各类数据库的理解错误的是:

选项:

A、HBase数据库是列族数据库,可扩展性强,支持事务一致性

B、文档数据库的数据是松散的,XML和JSON文档等都可以作为数据存储在文档数据库中

C、键值数据库的键是一个字符串对象,值可以是任意类型的数据,比如整型和字符型等

D、图数据库灵活性高,支持复杂的图算法,可用于构建复杂的关系图谱

答案:【HBase数据库是列族数据库,可扩展性强,支持事务一致性】5.多选题:NoSQL数据库的类型包括:

选项:

A、键值数据库

B、列族数据库

C、文档数据库

D、图数据库

答案:【键值数据库;列族数据库;文档数据库;图数据库】6.多选题:关于NoSQL数据库和关系数据库,下列说法正确的是:

选项:

A、关系数据库有关系代数理论作为基础,NoSQL数据库没有统一的理论基础

B、NoSQL数据库可以支持超大规模数据存储,具有强大的横向扩展能力

C、大多数NoSQL数据库很难实现数据完整性

D、NoSQL数据库和关系数据库各有优缺点,但随着NoSQL的发展,终将取代关系数据库

答案:【关系数据库有关系代数理论作为基础,NoSQL数据库没有统一的理论基础;NoSQL数据库可以支持超大规模数据存储,具有强大的横向扩展能力;大多数NoSQL数据库很难实现数据完整性】7.多选题:NoSQL数据库的BASE特性是指:

选项:

A、基本可用

B、软状态

C、最终一致性

D、持续性

答案:【基本可用;软状态;最终一致性】8.多选题:CAP是指:

选项:

A、一致性

B、可用性

C、持久性

D、分区容忍性

答案:【一致性;可用性;分区容忍性】第6章云数据库第6章云数据库单元测验1.单选题:下列关于UMP系统的说法不正确的是:

选项:

A、UMP系统是低成本和高性能的MySQL云数据库方案

B、Controller服务器向UMP集群提供各种管理服务,实现集群成员管理、元数据存储等功能

C、Agent服务器部署在运行MySQL进程的机器上,用来管理每台物理机上的MySQL实例

D、Mnesia是UMP系统的一个组件,是一个分布式数据库管理系统,且不支持事务

答案:【Mnesia是UMP系统的一个组件,是一个分布式数据库管理系统,且不支持事务】2.单选题:下列Amazon的云数据库属于关系数据库的是:

选项:

A、AmazonSimpleDB

B、AmazonRDS

C、AmazonDynamoDB

D、AmazonRedshift

答案:【AmazonRDS】3.多选题:UMP系统设计了哪些机制来保证数据安全:

选项:

A、SSL数据库连接

B、记录用户操作日志

C、数据访问IP白名单

D、SQL拦截

答案:【SSL数据库连接;记录用户操作日志;数据访问IP白名单;SQL拦截】4.多选题:在UMP系统中,Zookeeper主要发挥的作用包括:

选项:

A、作为全局的配置服务器

B、提供分布式锁,选出一个集群的“总管”

C、监控所有MySQL实例

D、负责集群负载均衡

答案:【作为全局的配置服务器;提供分布式锁,选出一个集群的“总管”;监控所有MySQL实例】5.多选题:UMP依赖的开源组件包括:

选项:

A、Mnesia

B、LVS

C、RabbitMQ

D、ZooKeeper

答案:【Mnesia;LVS;RabbitMQ;ZooKeeper】第7章MapReduce第7章MapReduce单元测验1.单选题:对于文本行“hellohadoophelloworld”,经过WordCount的Reduce函数处理后的结果是:

选项:

A、<"hello",1,1><"hadoop",1><"world",1>

B、<"hello",2><"hadoop",1><"world",1>

C、<"hello",<1,1>><"hadoop",1><"world",1>

D、<"hello",1><"hello",1><"hadoop",1><"world",1>

答案:【<"hello",2><"hadoop",1><"world",1>】2.单选题:在使用MapReduce程序WordCount进行词频统计时,对于文本行“hellohadoophelloworld”,经过WordCount程序的Map函数处理后直接输出的中间结果,应该是下面哪种形式:

选项:

A、<"hello",1,1>、<"hadoop",1>和<"world",1>

B、<"hello",2>、<"hadoop",1>和<"world",1>

C、<"hello",<1,1>>、<"hadoop",1>和<"world",1>

D、<"hello",1>、<"hello",1>、<"hadoop",1>和<"world",1>

答案:【<"hello",1>、<"hello",1>、<"hadoop",1>和<"world",1>】3.单选题:下列说法错误的是:

选项:

A、Hadoop框架是用Java实现的,MapReduce应用程序则一定要用Java来写

B、MapReduce框架采用了Master/Slave架构,包括一个Master和若干个Slave

C、Map函数将输入的元素转换成形式的键值对

D、不同的Map任务之间不能互相通信

答案:【Hadoop框架是用Java实现的,MapReduce应用程序则一定要用Java来写】4.多选题:MapReduce1.0的体系结构主要由哪几个部分组成:

选项:

A、Client

B、JobTracker

C、TaskTracker

D、Task

答案:【Client;JobTracker;TaskTracker;Task】5.多选题:下列关于传统并行计算框架(比如MPI)和MapReduce并行计算框架比较正确的是:

选项:

A、前者是共享式(共享内存/共享存储),容错性差,后者是非共享式的,容错性好

B、前者所需硬件价格贵,可扩展性差,后者硬件便宜,扩展性好

C、前者相比后者学习起来更难

D、前者适用于实时、细粒度计算、计算密集型,后者适用于批处理、非实时、数据密集型

答案:【前者是共享式(共享内存/共享存储),容错性差,后者是非共享式的,容错性好;前者所需硬件价格贵,可扩展性差,后者硬件便宜,扩展性好;前者相比后者学习起来更难;前者适用于实时、细粒度计算、计算密集型,后者适用于批处理、非实时、数据密集型】第8章Hadoop再探讨第8章Hadoop再探讨单元测验1.单选题:HDFSFederation设计不能解决“单名称节点”存在的哪个问题:

选项:

A、HDFS集群扩展性

B、性能更高效

C、良好的隔离性

D、单点故障问题

答案:【单点故障问题】2.单选题:下列说法正确的是:

选项:

A、第二名称节点无法解决单点故障问题

B、第二名称节点是热备份

C、HDFSHA提供高可用性,可以实现可扩展性、系统性能和隔离性

D、HDFSHA可用性不好

答案:【第二名称节点无法解决单点故障问题】3.多选题:对新一代资源管理调度框架YARN的理解正确的是:

选项:

A、YARN可以实现“一个集群多个框架”,即在一个集群上部署一个统一的资源调度管理框架

B、YARN的体系结构包含三个组件:ResourceManager,NodeManager,ApplicationMaster

C、YARN既是资源管理调度框架,也是一个计算框架

D、MapReduce2.0是运行在YARN之上的计算框架,由YARN来为MapReduce提供资源管理调度服务

答案:【YARN可以实现“一个集群多个框架”,即在一个集群上部署一个统一的资源调度管理框架;YARN的体系结构包含三个组件:ResourceManager,NodeManager,ApplicationMaster;MapReduce2.0是运行在YARN之上的计算框架,由YARN来为MapReduce提供资源管理调度服务】4.多选题:下列对Hadoop各组件的理解正确的是:

选项:

A、Pig:处理大规模数据的脚本语言

B、Tez:支持DAG作业的计算框架

C、Oozie:工作流和协作服务引擎

D、Kafka:分布式发布订阅消息系统

答案:【Pig:处理大规模数据的脚本语言;Tez:支持DAG作业的计算框架;Oozie:工作流和协作服务引擎;Kafka:分布式发布订阅消息系统】5.多选题:下列哪些是Hadoop1.0存在的问题:

选项:

A、抽象层次低

B、表达能力有限

C、开发者自己管理作业之间的依赖关系

D、执行迭代操作效率低

答案:【抽象层次低;表达能力有限;开发者自己管理作业之间的依赖关系;执行迭代操作效率低】第9章数据仓库Hive第9章数据仓库Hive单元测验1.单选题:下列关于Hive基本操作命令的解释错误的是:

选项:

A、createdatabaseuserdb;//创建数据库userdb

B、createtableifnotexistsusr(idbigint,namestring,ageint);//如果usr表不存在,创建表usr,含三个属性id,name,age

C、loaddatalocalinpath‘/usr/local/data’overwriteintotableusr;//把目录’/usr/local/data’下的数据文件中的数据以追加的方式装载进usr表

D、insertoverwritetablestudentselect*fromuserwhereage>10;//向表usr1中插入来自usr表的age大于10的数据并覆盖student表中原有数据

答案:【loaddatalocalinpath‘/usr/local/data’overwriteintotableusr;//把目录’/usr/local/data’下的数据文件中的数据以追加的方式装载进usr表】2.单选题:下列有关Hive和Impala的对比错误的是:

选项:

A、Hive与Impala使用相同的元数据

B、Hive与Impala中对SQL的解释处理比较相似,都是通过词法分析生成执行计划

C、Hive适合于长时间的批处理查询分析,而Impala适合于实时交互式SQL查询

D、Hive在内存不足以存储所有数据时,会使用外存,而Impala也是如此

答案:【Hive在内存不足以存储所有数据时,会使用外存,而Impala也是如此】3.多选题:以下属于Hive的基本数据类型是:

选项:

A、TINYINT

B、FLOAT

C、STRING

D、BINARY

答案:【TINYINT;FLOAT;STRING;BINARY】4.多选题:Impala主要由哪几个部分组成:

选项:

A、Impalad

B、StateStore

C、CLI

D、Hive

答案:【Impalad;StateStore;CLI】5.多选题:下列说法正确的是:

选项:

A、数据仓库Hive不需要借助于HDFS就可以完成数据的存储

B、Impala和Hive、HDFS、HBase等工具可以统一部署在一个Hadoop平台上

C、Hive本身不存储和处理数据,依赖HDFS存储数据,依赖MapReduce处理数据

D、HiveQL语法与传统的SQL语法很相似

答案:【Impala和Hive、HDFS、HBase等工具可以统一部署在一个Hadoop平台上;Hive本身不存储和处理数据,依赖HDFS存储数据,依赖MapReduce处理数据;HiveQL语法与传统的SQL语法很相似】第10章Spark第10章Spark单元测验1.单选题:下列大数据处理类型与其对应的软件框架不匹配的是:

选项:

A、复杂的批量数据处理:MapReduce

B、基于历史数据的交互式查询:Impala

C、基于实时数据流的数据处理:Storm

D、图结构数据的计算:Hive

答案:【图结构数据的计算:Hive】2.单选题:下列关于常见的动作(Action)和转换(Transformation)操作的API解释错误的是:

选项:

A、count():返回数据集中的元素个数

B、filter(func):筛选出满足函数func的元素,并返回一个新的数据集

C、take(n):返回数据集中的第n个元素

D、map(func):将每个元素传递到函数func中,并将结果返回为一个新的数据集

答案:【take(n):返回数据集中的第n个元素】3.单选题:下列说法错误的是:

选项:

A、Spark支持三种类型的部署方式:Standalone,SparkonMesos,SparkonYARN

B、在选择SparkStreaming和Storm时,对实时性要求高(比如要求毫秒级响应)的企业更倾向于选择流计算框架Storm

C、RDD提供的转换接口既适用filter等粗粒度的转换,也适合某一数据项的细粒度转换

D、RDD采用惰性调用,遇到“转换(Transformation)”类型的操作时,只会记录RDD生成的轨迹,只有遇到“动作(Action)”类型的操作时才会触发真正的计算

答案:【RDD提供的转换接口既适用filter等粗粒度的转换,也适合某一数据项的细粒度转换】4.单选题:RDD操作分为转换(Transformation)和动作(Action)两种类型,下列属于动作(Action)类型的操作的是:

选项:

A、map

B、filter

C、groupBy

D、count

答案:【count】5.单选题:SparkSQL目前暂时不支持下列哪种语言:

选项:

A、Scala

B、Java

C、Python

D、Lisp

答案:【Lisp】6.多选题:Spark的运行架构包括:

选项:

A、集群资源管理器ClusterManager

B、运行作业任务的工作节点WorkerNode

C、每个应用的任务控制节点Driver

D、每个工作节点上负责具体任务的执行进程Executor

答案:【集群资源管理器ClusterManager;运行作业任务的工作节点WorkerNode;每个应用的任务控制节点Driver;每个工作节点上负责具体任务的执行进程Executor】7.多选题:下列关于Scala的说法正确的是:

选项:

A、Scala是一种多范式编程语言

B、Scala运行于Java平台,兼容现有的Java程序

C、Scala具备强大的并发性,支持函数式编程

D、Scala是Spark的主要编程语言,但Spark还支持Java、Python、R作为编程语言

答案:【Scala是一种多范式编程语言;Scala运行于Java平台,兼容现有的Java程序;Scala具备强大的并发性,支持函数式编程;Scala是Spark的主要编程语言,但Spark还支持Java、Python、R作为编程语言】8.多选题:Spark的主要特点包括:

选项:

A、运行速度快

B、容易使用

C、通用性好

D、运行模式多样

答案:【运行速度快;容易使用;通用性好;运行模式多样】9.多选题:Apache软件基金会最重要的三大分布式计算系统开源项目包括:

选项:

A、Hadoop

B、Spark

C、Storm

D、Oracle

答案:【Hadoop;Spark;Storm】第11章流计算第11章流计算单元测验1.单选题:流计算秉承一个基本理念,即数据的价值随着时间的流逝而,如用户点击流:

选项:

A、降低

B、升高

C、不变

D、不确定

答案:【降低】2.单选题:Hadoop运行的是MapReduce任务,类似地,Storm运行的任务叫做

选项:

A、Topology

B、Bolt

C、Tuple

D、Spout

答案:【Topology】3.多选题:以下哪些是开源的流计算框架:

选项:

A、Yahoo!S4

B、TwitterStorm

C、FacebookPuma

D、IBMInfoSphereStreams

答案:【Yahoo!S4;TwitterStorm】4.多选题:数据采集系统的基本架构包括哪些部分:

选项:

A、Agent

B、Collector

C、Store

D、Controller

答案:【Agent;Collector;Store】5.多选题:对于一个流计算系统来说,它应达到如下哪些需求:

选项:

A、高性能

B、海量式

C、实时性

D、分布式

答案:【高性能;海量式;实时性;分布式】6.多选题:下面哪几个属于Storm中的StreamGroupings的分组方式:

选项:

A、随机分组

B、按照字段分组

C、广播发送

D、全局分组

答案:【随机分组;按照字段分组;广播发送;全局分组】第12章Flink第12章Flink单元测验1.单选题:在Flink中哪个是基于批处理的图计算库:

选项:

A、FlinkML

B、Gelly

C、CEP

D、SQL&Table库

答案:【Gelly】2.单选题:以下哪个不是Flink的优势:

选项:

A、同时支持高吞吐、低延迟、高性能

B、同时支持流处理和批处理

C、不支持增量迭代

D、支持有状态计算

答案:【不支持增量迭代】3.多选题:在编程模型方面,Flink提供了不同级别的抽象,以开发流或批处理作业,主要包括哪几个级别的抽象:

选项:

A、状态化的数据流接口

B、DataStreamAPI(有界或无界流数据)以及DataSetAPI(有界数据集)

C、TableAPI

D、SQL

答案:【状态化的数据流接口;DataStreamAPI(有界或无界流数据)以及DataSetAPI(有界数据集);TableAPI;SQL】4.多选题:Flink系统主要由两个组件组成,分别为:

选项:

A、JobManager

B、TaskScheduler

C、JobScheduler

D、TaskManager

答案:【JobManager;TaskManager】5.多选题:Flink有哪几种部署模式:

选项:

A、Local模式

B、Standalone集群模式

C、YARN集群模式

D、运行在GCE(谷歌云服务)和EC2(亚马逊云服务)上

答案:【Local模式;Standalone集群模式;YARN集群模式;运行在GCE(谷歌云服务)和EC2(亚马逊云服务)上】6.多选题:Flink核心组件栈分为哪三层:

选项:

A、物理部署层

B、Runtime核心层

C、API&Libraries层

D、Core层

答案:【物理部署层;Runtime核心层;API&Libraries层】7.多选题:Flink常见的应用场景包括:

选项:

A、事件驱动型应用

B、数据分析应用

C、地图应用

D、数据流水线应用

答案:【事件驱动型应用;数据分析应用;数据流水线应用】8.多选题:下面论述正确的是:

选项:

A、流处理架构需要具备低延迟、高吞吐和高性能的特性,而目前从市场上已有的产品来看,只有Flink可以满足要求

B、Storm虽然可以做到低延迟,但是无法实现高吞吐,也不能在故障发生时准确地处理计算状态

C、SparkStreaming通过采用微批处理方法实现了高吞吐和容错性,但是牺牲了低延迟和实时处理能力

D、Flink实现了GoogleDataflow流计算模型,是一种兼具高吞吐、低延迟和高性能的实时流计算框架,并且同时支持批处理和流处理

答案:【流处理架构需要具备低延迟、高吞吐和高性能的特性,而目前从市场上已有的产品来看,只有Flink可以满足要求;Storm虽然可以做到低延迟,但是无法实现高吞吐,也不能在故障发生时准确地处理计算状态;SparkStreaming通过采用微批处理方法实现了高吞吐和容错性,但是牺牲了低延迟和实时处理能力;Flink实现了GoogleDataflow流计算模型,是一种兼具高吞吐、低延迟和高性能的实时流计算框架,并且同时支持批处理和流处理】9.多选题:Flink的主要特性包括:

选项:

A、批流一体化

B、精密的状态管理

C、事件时间支持

D、精确一次的状态一致性保障

答案:【批流一体化;精密的状态管理;事件时间支持;精确一次的状态一致性保障】10.多选题:下面关于Flink的说法正确的是:

选项:

A、Flink不是Apache软件基金会的项目

B、Flink可以同时支持实时计算和批量计算

C、Flink起源于Stratosphere项目,该项目是在2010年到2014年间由柏林工业大学、柏林洪堡大学和哈索普拉特纳研究所联合开展的

D、Flink是Apache软件基金会的5个最大的大数据项目之一

答案:【Flink可以同时支持实时计算和批量计算;Flink起源于Stratosphere项目,该项目是在2010年到2014年间由柏林工业大学、柏林洪堡大学和哈索普拉特纳研究所联合开展的;Flink是Apache软件基金会的5个最大的大数据项目之一】第13章图计算第13章图计算单元测验1.单选题:谷歌在后Hadoop时代的新“三驾马车”不包括:

选项:

A、Caffeine

B、Dremel

C、Hama

D、Pregel

答案:【Hama】2.单选题:Pregel是一种基于模型实现的并行图处理系统:

选项:

A、BSP

B、TSP

C、SBP

D、STP

答案:【BSP】3.多选题:以下关于Pregel图计算框架说法正确的是:

选项:

A、通常只对满足交换律和结合律的操作才会开启Combiner功能

B、Aggregator提供了一种全局通信、监控和数据查看的机制

C、Pregel采用检查点机制来实现容错

D、对于全局拓扑改变,Pregel采用了惰性协调机制

答案:【通常只对满足交换律和结合律的操作才会开启Combiner功能;Aggregator提供了一种全局通信、监控和数据查看的机制;Pregel采用检查点机制来实现容错;对于全局拓扑改变,Pregel采用了惰性协调机制】4.多选题:下列哪些是以图顶点为中心的,基于消息传递批处理的并行图计算框架:

选项:

A、Pregel

B、Hama

C、Giraph

D、Neo4j

答案:【Pregel;Hama;Giraph】第14章大数据在不同领域的应用第14章大数据在不同领域的应用单元测验1.单选题:下列说法错误的是:

选项:

A、UserCF算法推荐的是那些和目标用户有共同兴趣爱好的其他用户所喜欢的物品

B、ItemCF算法推荐的是那些和目标用户之前喜欢的物品类似的其他物品

C、UserCF算法的推荐更偏向社会化,而ItemCF算法的推荐更偏向于个性化

D、基于用户的协同过滤算法(简称UserCF算法)是目前业界应用最多的算法

答案:【基于用户的协同过滤算法(简称UserCF算法)是目前业界应用最多的算法】2.多选题:推荐方法包括哪些类型:

选项:

A、专家推荐

B、基于统计的推荐

C、基于内容的推荐

D、协同过滤推荐

答案:【专家推荐;基于统计的推荐;基于内容的推荐;协同过滤推荐】大数据技术原理与应用期末考试大数据技术原理与应用期末试卷1.单选题:RDD操作包括转换(Transformation)和动作(Action)两种类型,下列RDD操作属于动作(Action)类型的是:

选项:

A、map

B、join

C、collect

D、groupBy

答案:【collect】2.单选题:下列说法错误的是:

选项:

A、第二名称节点无法解决单点故障问题

B、HDFSHA可以解决单点故障问题

C、第二名称节点是热备份,而HDFSHA不是热备份

D、HDFSFederation使得HDFS的命名服务能够水平扩展

答案:【第二名称节点是热备份,而HDFSHA不是热备份】3.单选题:下列关于Hive的说法正确的是:

选项:

A、Hive支持频繁数据更新

B、Hive的可扩展性差

C、Hive不支持索引

D、Hive支持批量导入

答案:【Hive支持批量导入】4.单选题:已知一张表student存储在HBase中,向表中插入一条记录{id:2015001,name:Mary,{score:math}:88},其id作为行键,其中,在插入数学成绩88分时,正确的命令是:

选项:

A、put'student','2015001','score:math','88'

B、put'student','2015001','88'

C、put'student','2015001','math','88'

D、put'student','score:math','88'

答案:【put'student','2015001','score:math','88'】5.单选题:下列有关HBase的说法正确的是:

选项:

A、HBase是针对谷歌BigTable的开源实现,是高可靠、高性能的图数据库

B、HBase是一种NoSQL数据库

C、在向数据库中插入记录时,HBase和关系数据库一样,每次都是以“行”为单位把整条记录插入数据库

D、HBase数据库表可以设置该表任意列作为索引

答案:【HBase是一种NoSQL数据库】6.单选题:在HDFS根目录下创建一个文件夹/test,且/test文件夹内还包含一个文件夹dir,正确的shell命令是:

选项:

A、hadoopfs-mkdir-p/test/dir

B、hadoopdfs-mkdir/test/dir

C、hdfsfs-mkdir-p/test/dir

D、hdfsdfs*mkdir-p/test/dir

答案:【hadoopfs-mkdir-p/test/dir】7.单选题:上传当前目录下的本地文件file.txt到分布式文件系统HDFS的“/path”目录下的Shell命令是:

选项:

A、hdfsdfs-putfile.txt/path

B、hadoopdfs-put/pathfile.txt

C、hdfsdfs-put/pathfile.txt

D、hdfsfs-putfile.txt/path

答案:【hdfsdfs-putfile.txt/path】8.单选题:假设已经配置好PATH环境变量,启动Hadoop的命令是:

选项:

A、start-dfs.sh

B、start-hadoop.sh

C、start-fs.sh

D、start-hdfs.sh

答案:【start-dfs.sh】9.单选题:在设计词频统计的MapReduce程序时,对于文本行“hellobigdatahellohadoop”,经过map函数处理后直接输出的结果应该是(没有发生combine和merge操作):

选项:

A、<"hello",1,1>、<"bigdata",1>和<"hadoop",1>

B、<"hello",2>、<"bigdata",1>和<"hadoop",1>

C、<"hello",<1,1>>、<"bigdata",1>和<"hadoop",1>

D、<"hello",1>、<"hello",1>、<"bigdata",1>和<"hadoop",1>

答案:【<"hello",1>、<"hello",1>、<"bigdata",1>和<"hadoop",1>】10.单选题:NoSQL数据库的三大理论基石不包括:

选项:

A、CAP

B、BASE

C、最终一致性

D、ACID

答案:【ACID】11.单选题:在Flink中哪个是基于批处理的图计算库:

选项:

A、FlinkML

B、Gelly

C、CEP

D、SQL&Table库

答案:【Gelly】12.单选题:第三次信息化浪潮的发生标志是以下哪种技术的普及:

选项:

A、个人计算机

B、互联网

C、物联网、云计算和大数据

D、CPU

答案:【物联网、云计算和大数据】13.单选题:数据产生方式的变革主要经历了三个阶段,以下哪个不属于这三个阶段:

选项:

A、运营式系统阶段

B、用户原创内容阶段

C、感知式系统阶段

D、数据流阶段

答案:【数据流阶段】14.单选题:在分布式文件系统HDFS中,负责数据的存储和读取:

选项:

A、数据节点

B、主节点

C、名称节点

D、第二名称节点

答案:【数据节点】15.单选题:HDFS默认的一个块大小是

选项:

A、64MB

B、8KB

C、16KB

D、32KB

答案:【64MB】16.单选题:Hadoop的两大核心是和

选项:

A、HDFS;MapReduce

B、HDFS;HBase

C、MapReduce;HBase

D、GFS;MapReduce

答案:【HDFS;MapReduce】17.多选题:关于Spark的特性说法正确的是:

选项:

A、Scala是Spark的主要编程语言,但Spark还支持Java、Python、R作为编程语言

B、Spark提供了内存计算,可将中间结果放到内存中,对于迭代运算效率更高

C、Spark基于DAG的任务调度执行机制,要优于HadoopMapReduce的迭代执行机制

D、Spark的计算模式也属于MapReduce,但编程模型比HadoopMapReduce更灵活

答案:【Scala是Spark的主要编程语言,但Spark还支持Java、Python、R作为编程语言;Spark提供了内存计算,可将中间结果放到内存中,对于迭代运算效率更高;Spark基于DAG的任务调度执行机制,要优于HadoopMapReduce的迭代执行机制;Spark的计算模式也属于MapReduce,但编程模型比HadoopMapReduce更灵活】18.多选题:下列哪些是图计算框架Pregel的应用:

选项:

A、单源最短路径

B、二分匹配

C、PageRank

D、流数据处理

答案:【单源最短路径;二分匹配;PageRank】19.多选题:下列关于图计算产品Pregel的说法正确的是:

选项:

A、当多个顶点的操作请求发生冲突时,Pregel采用局部有序和Handler来解决冲突

B、传统的图计算框架通常表现出比较好的内存访问局部性

C、Pregel是一种基于BSP模型实现的并行图处理系统

D、在每个超步中,每个顶点会根据其接收消息的最大值和自身值比较,来确定自己状态作何种改变

答案:【当多个顶点的操作请求发生冲突时,Pregel采

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论