【MOOC】大数据技术原理与应用-厦门大学中国大学慕课MOOC答案

上传人：小*** IP属地：福建上传时间：2024-12-09 格式：DOCX 页数：16 大小：22.17KB 积分：8.4 举报 版权申诉

已阅读5页，还剩11页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

【MOOC】大数据技术原理与应用-厦门大学中国大学慕课MOOC答案第1章大数据概述单元测验1、【单选题】第三次信息化浪潮的标志是：本题答案：【云计算、大数据、物联网技术的普及】2、【单选题】就数据的量级而言，1PB数据是多少TB？本题答案：【1024】3、【单选题】以下关于云计算、大数据和物联网之间的关系，论述错误的是：本题答案：【云计算侧重于数据分析】4、【单选题】以下哪个不是大数据时代新兴的技术：本题答案：【MySQL】5、【单选题】每种大数据产品都有特定的应用场景，以下哪个产品是用于批处理的：本题答案：【MapReduce】6、【单选题】每种大数据产品都有特定的应用场景，以下哪个产品是用于流计算的：本题答案：【S4】7、【单选题】每种大数据产品都有特定的应用场景，以下哪个产品是用于图计算的：本题答案：【Pregel】8、【单选题】每种大数据产品都有特定的应用场景，以下哪个产品是用于查询分析计算的：本题答案：【Dremel】9、【多选题】数据产生方式大致经历了三个阶段，包括：本题答案：【运营式系统阶段#用户原创内容阶段#感知式系统阶段】10、【多选题】大数据发展的三个阶段是：本题答案：【萌芽期#成熟期#大规模应用期】11、【多选题】大数据的特性包括：本题答案：【数据量大#数据类型繁多#处理速度快#价值密度低】12、【多选题】图领奖获得者、著名数据库专家JimGray博士认为，人类自古以来在科学研究上先后经历了哪几种范式：本题答案：【实验科学#理论科学#计算科学#数据密集型科学】13、【多选题】大数据带来思维方式的三个转变是：本题答案：【全样而非抽样#效率而非精确#相关而非因果】14、【多选题】大数据主要有哪几种计算模式：本题答案：【批处理计算#流计算#图计算#查询分析计算】15、【多选题】云计算的典型服务模式包括三种：本题答案：【PaaS#IaaS#SaaS】第2章大数据处理架构Hadoop单元测验1、【单选题】启动hadoop所有进程的命令是:本题答案：【start-all.sh】2、【单选题】以下对Hadoop的说法错误的是：本题答案：【Hadoop是基于Java语言开发的，只支持Java语言编程】3、【单选题】以下哪个不是Hadoop的特性:本题答案：【成本高】4、【单选题】以下名词解释不正确的是:本题答案：【HBase：提供高可靠性、高性能、分布式的行式数据库，是谷歌BigTable的开源实现】5、【多选题】以下哪些组件是Hadoop的生态系统的组件：本题答案：【MapReduce#HDFS#HBase】6、【多选题】以下哪个命令可以用来操作HDFS文件:本题答案：【hadoopfs#hdfsdfs#hadoopdfs】第3章分布式文件系统HDFS单元测验1、【单选题】HDFS的命名空间不包含:本题答案：【字节】2、【单选题】对HDFS通信协议的理解错误的是:本题答案：【HDFS通信协议都是构建在IoT协议基础之上的】3、【单选题】采用多副本冗余存储的优势不包含:本题答案：【节约存储空间】4、【单选题】假设已经配置好环境变量，启动Hadoop和关闭Hadoop的命令分别是:本题答案：【start-dfs.sh，stop-dfs.sh】5、【单选题】分布式文件系统HDFS采用了主从结构模型，由计算机集群中的多个节点构成的，这些节点分为两类，一类存储元数据叫，另一类存储具体数据叫:本题答案：【名称节点，数据节点】6、【单选题】下面关于分布式文件系统HDFS的描述正确的是：本题答案：【分布式文件系统HDFS是谷歌分布式文件系统GFS（GoogleFileSystem）的一种开源实现】7、【多选题】以下对名称节点理解正确的是:本题答案：【名称节点通常用来保存元数据#名称节点的数据保存在内存中#名称节点作为中心服务器，负责管理文件系统的命名空间及客户端对文件的访问】8、【多选题】以下对数据节点理解正确的是:本题答案：【数据节点用来存储具体的文件内容#数据节点的数据保存在磁盘中#数据节点在名称节点的统一调度下进行数据块的创建、删除和复制等操作】9、【多选题】HDFS只设置唯一一个名称节点带来的局限性包括:本题答案：【性能的瓶颈#命名空间的限制#隔离问题#集群的可用性】10、【多选题】以下HDFS相关的shell命令不正确的是:本题答案：【hadoopdfsmkdirpath：创建path指定的文件夹#hadoopfs-copyFromLocalpath1path2：将路径path2指定的文件或文件夹复制到路径path1指定的文件夹中】第4章分布式数据库HBase单元测验1、【单选题】HBase是一种数据库本题答案：【列式数据库】2、【单选题】下列对HBase数据模型的描述错误的是:本题答案：【HBase中执行更新操作时，会删除数据旧的版本，并生成一个新的版本】3、【单选题】下列说法正确的是:本题答案：【Zookeeper是一个集群管理工具，常用于分布式计算，提供配置维护、域名服务、分布式同步等】4、【单选题】在HBase数据库中，每个Region的建议最佳大小是：本题答案：【1GB-2GB】5、【单选题】HBase三层结构的顺序是:本题答案：【Zookeeper文件，-ROOT-表，.MEATA.表】6、【单选题】客户端是通过级寻址来定位Region:本题答案：【三】7、【单选题】关于HBaseShell命令解释错误的是:本题答案：【list：显示表的所有数据】8、【多选题】下列对HBase的理解正确的是：本题答案：【HBase是针对谷歌BigTable的开源实现#HBase多用于存储非结构化和半结构化的松散数据】9、【多选题】HBase和传统关系型数据库的区别在于哪些方面:本题答案：【数据模型#数据操作#存储模式#数据索引】10、【多选题】访问HBase表中的行，有哪些方式:本题答案：【通过单个行健访问#通过一个行健的区间来访问#全表扫描】第5章NoSQL数据库单元测验1、【单选题】下列关于NoSQL数据库和关系型数据库的比较，不正确的是：本题答案：【NoSQL数据库很容易实现数据完整性，关系型数据库很难实现数据完整性】2、【单选题】以下对各类数据库的理解错误的是:本题答案：【HBase数据库是列族数据库，可扩展性强，支持事务一致性】3、【单选题】下列数据库属于文档数据库的是:本题答案：【MongoDB】4、【单选题】NoSQL数据库的三大理论基石不包括:本题答案：【ACID】5、【多选题】关于NoSQL数据库和关系数据库，下列说法正确的是：本题答案：【关系数据库有关系代数理论作为基础，NoSQL数据库没有统一的理论基础#NoSQL数据库可以支持超大规模数据存储，具有强大的横向扩展能力#大多数NoSQL数据库很难实现数据完整性】6、【多选题】NoSQL数据库的类型包括：本题答案：【键值数据库#列族数据库#文档数据库#图数据库】7、【多选题】CAP是指:本题答案：【一致性#可用性#分区容忍性】8、【多选题】NoSQL数据库的BASE特性是指:本题答案：【基本可用#软状态#最终一致性】第6章云数据库单元测验1、【单选题】下列Amazon的云数据库属于关系数据库的是：本题答案：【AmazonRDS】2、【单选题】下列关于UMP系统的说法不正确的是:本题答案：【Mnesia是UMP系统的一个组件，是一个分布式数据库管理系统，且不支持事务】3、【多选题】UMP依赖的开源组件包括:本题答案：【Mnesia#LVS#RabbitMQ#ZooKeeper】4、【多选题】在UMP系统中，Zookeeper主要发挥的作用包括:本题答案：【作为全局的配置服务器#提供分布式锁，选出一个集群的“总管”#监控所有MySQL实例】5、【多选题】UMP系统设计了哪些机制来保证数据安全:本题答案：【SSL数据库连接#记录用户操作日志#数据访问IP白名单#SQL拦截】第7章MapReduce单元测验1、【单选题】下列说法错误的是:本题答案：【Hadoop框架是用Java实现的，MapReduce应用程序则一定要用Java来写】2、【单选题】在使用MapReduce程序WordCount进行词频统计时，对于文本行“hellohadoophelloworld”，经过WordCount程序的Map函数处理后直接输出的中间结果，应该是下面哪种形式：本题答案：【hello,1、hello,1、hadoop,1和world,1】3、【单选题】对于文本行“hellohadoophelloworld”，经过WordCount的Reduce函数处理后的结果是:本题答案：【hello,2hadoop,1world,1】4、【多选题】下列关于传统并行计算框架（比如MPI）和MapReduce并行计算框架比较正确的是：本题答案：【前者是共享式(共享内存/共享存储)，容错性差，后者是非共享式的，容错性好#前者所需硬件价格贵，可扩展性差，后者硬件便宜，扩展性好#前者相比后者学习起来更难#前者适用于实时、细粒度计算、计算密集型，后者适用于批处理、非实时、数据密集型】5、【多选题】MapReduce1.0的体系结构主要由哪几个部分组成:本题答案：【Client#JobTracker#TaskTracker#Task】第8章Hadoop再探讨单元测验1、【单选题】下列说法正确的是:本题答案：【第二名称节点无法解决单点故障问题】2、【单选题】HDFSFederation设计不能解决“单名称节点”存在的哪个问题:本题答案：【单点故障问题】3、【多选题】下列哪些是Hadoop1.0存在的问题：本题答案：【抽象层次低#表达能力有限#开发者自己管理作业之间的依赖关系#执行迭代操作效率低】4、【多选题】下列对Hadoop各组件的理解正确的是:本题答案：【Pig：处理大规模数据的脚本语言#Tez：支持DAG作业的计算框架#Oozie:工作流和协作服务引擎#Kafka：分布式发布订阅消息系统】5、【多选题】对新一代资源管理调度框架YARN的理解正确的是:本题答案：【YARN可以实现“一个集群多个框架”，即在一个集群上部署一个统一的资源调度管理框架#YARN的体系结构包含三个组件：ResourceManager，NodeManager，ApplicationMaster#MapReduce2.0是运行在YARN之上的计算框架，由YARN来为MapReduce提供资源管理调度服务】第9章数据仓库Hive单元测验1、【单选题】下列有关Hive和Impala的对比错误的是:本题答案：【Hive在内存不足以存储所有数据时，会使用外存，而Impala也是如此】2、【单选题】下列关于Hive基本操作命令的解释错误的是:本题答案：【loaddatalocalinpath‘/usr/local/data’overwriteintotableusr;//把目录’/usr/local/data’下的数据文件中的数据以追加的方式装载进usr表】3、【多选题】下列说法正确的是：本题答案：【Impala和Hive、HDFS、HBase等工具可以统一部署在一个Hadoop平台上#Hive本身不存储和处理数据，依赖HDFS存储数据，依赖MapReduce处理数据#HiveQL语法与传统的SQL语法很相似】4、【多选题】Impala主要由哪几个部分组成:本题答案：【Impalad#StateStore#CLI】5、【多选题】以下属于Hive的基本数据类型是:本题答案：【TINYINT#FLOAT#STRING#BINARY】第10章Spark单元测验1、【单选题】SparkSQL目前暂时不支持下列哪种语言:本题答案：【Lisp】2、【单选题】RDD操作分为转换（Transformation）和动作（Action）两种类型，下列属于动作（Action）类型的操作的是:本题答案：【count】3、【单选题】下列说法错误的是：本题答案：【RDD提供的转换接口既适用filter等粗粒度的转换，也适合某一数据项的细粒度转换】4、【单选题】下列关于常见的动作（Action）和转换（Transformation）操作的API解释错误的是:本题答案：【take(n)：返回数据集中的第n个元素】5、【单选题】下列大数据处理类型与其对应的软件框架不匹配的是:本题答案：【图结构数据的计算：Hive】6、【多选题】Apache软件基金会最重要的三大分布式计算系统开源项目包括：本题答案：【Hadoop#Spark#Storm】7、【多选题】Spark的主要特点包括:本题答案：【运行速度快#容易使用#通用性好#运行模式多样】8、【多选题】下列关于Scala的说法正确的是:本题答案：【Scala是一种多范式编程语言#Scala运行于Java平台，兼容现有的Java程序#Scala具备强大的并发性，支持函数式编程#Scala是Spark的主要编程语言，但Spark还支持Java、Python、R作为编程语言】9、【多选题】Spark的运行架构包括:本题答案：【集群资源管理器ClusterManager#运行作业任务的工作节点WorkerNode#每个应用的任务控制节点Driver#每个工作节点上负责具体任务的执行进程Executor】第11章流计算单元测验1、【单选题】流计算秉承一个基本理念，即数据的价值随着时间的流逝而，如用户点击流：本题答案：【降低】2、【单选题】Hadoop运行的是MapReduce任务，类似地，Storm运行的任务叫做本题答案：【Topology】3、【多选题】对于一个流计算系统来说，它应达到如下哪些需求:本题答案：【高性能#海量式#实时性#分布式】4、【多选题】数据采集系统的基本架构包括哪些部分:本题答案：【Agent#Collector#Store】5、【多选题】以下哪些是开源的流计算框架:本题答案：【Yahoo!S4#TwitterStorm】6、【多选题】下面哪几个属于Storm中的StreamGroupings的分组方式:本题答案：【随机分组#按照字段分组#广播发送#全局分组】第12章Flink单元测验1、【单选题】以下哪个不是Flink的优势：本题答案：【不支持增量迭代】2、【单选题】在Flink中哪个是基于批处理的图计算库：本题答案：【Gelly】3、【多选题】下面关于Flink的说法正确的是：本题答案：【Flink可以同时支持实时计算和批量计算#Flink起源于Stratosphere项目，该项目是在2010年到2014年间由柏林工业大学、柏林洪堡大学和哈索普拉特纳研究所联合开展的#Flink是Apache软件基金会的5个最大的大数据项目之一】4、【多选题】Flink的主要特性包括：本题答案：【批流一体化#精密的状态管理#事件时间支持#精确一次的状态一致性保障】5、【多选题】下面论述正确的是：本题答案：【流处理架构需要具备低延迟、高吞吐和高性能的特性，而目前从市场上已有的产品来看，只有Flink可以满足要求#Storm虽然可以做到低延迟，但是无法实现高吞吐，也不能在故障发生时准确地处理计算状态#SparkStreaming通过采用微批处理方法实现了高吞吐和容错性，但是牺牲了低延迟和实时处理能力#Flink实现了GoogleDataflow流计算模型，是一种兼具高吞吐、低延迟和高性能的实时流计算框架，并且同时支持批处理和流处理】6、【多选题】Flink常见的应用场景包括：本题答案：【事件驱动型应用#数据分析应用#数据流水线应用】7、【多选题】Flink核心组件栈分为哪三层：本题答案：【物理部署层#Runtime核心层#APILibraries层】8、【多选题】Flink有哪几种部署模式：本题答案：【Local模式#Standalone集群模式#YARN集群模式#运行在GCE（谷歌云服务）和EC2（亚马逊云服务）上】9、【多选题】Flink系统主要由两个组件组成，分别为:本题答案：【JobManager#TaskManager】10、【多选题】在编程模型方面，Flink提供了不同级别的抽象，以开发流或批处理作业，主要包括哪几个级别的抽象：本题答案：【状态化的数据流接口#DataStreamAPI（有界或无界流数据）以及DataSetAPI（有界数据集）#TableAPI#SQL】第13章图计算单元测验1、【单选题】Pregel是一种基于模型实现的并行图处理系统:本题答案：【BSP】2、【单选题】谷歌在后Hadoop时代的新“三驾马车”不包括:本题答案：【Hama】3、【多选题】下列哪些是以图顶点为中心的，基于消息传递批处理的并行图计算框架：本题答案：【Pregel#Hama#Giraph】4、【多选题】以下关于Pregel图计算框架说法正确的是:本题答案：【通常只对满足交换律和结合律的操作才会开启Combiner功能#Aggregator提供了一种全局通信、监控和数据查看的机制#Pregel采用检查点机制来实现容错#对于全局拓扑改变，Pregel采用了惰性协调机制】第14章大数据在不同领域的应用单元测验1、【单选题】下列说法错误的是：本题答案：【基于用户的协同过滤算法（简称UserCF算法）是目前业界应用最多的算法】2、【多选题】推荐方法包括哪些类型:本题答案：【专家推荐#基于统计的推荐#基于内容的推荐#协同过滤推荐】大数据技术原理与应用期末试卷1、【单选题】数据产生方式的变革主要经历了三个阶段，以下哪个不属于这三个阶段：本题答案：【数据流阶段】2、【单选题】第三次信息化浪潮的发生标志是以下哪种技术的普及：本题答案：【物联网、云计算和大数据】3、【单选题】在Flink中哪个是基于批处理的图计算库：本题答案：【Gelly】4、【单选题】Hadoop的两大核心是和本题答案：【HDFS;MapReduce】5、【单选题】HDFS默认的一个块大小是本题答案：【64MB】6、【单选题】在分布式文件系统HDFS中，负责数据的存储和读取:本题答案：【数据节点】7、【单选题】上传当前目录下的本地文件file.txt到分布式文件系统HDFS的“/path”目录下的Shell命令是：本题答案：【hdfsdfs-putfile.txt/path】8、【单选题】在HDFS根目录下创建一个文件夹/test，且/test文件夹内还包含一个文件夹dir，正确的shell命令是:本题答案：【hadoopfs-mkdir-p/test/dir】9、【单选题】下列有关HBase的说法正确的是：本题答案：【HBase是一种NoSQL数据库】10、【单选题】已知一张表student存储在HBase中，向表中插入一条记录{id:2015001,name:Mary,{score:math}:88}，其id作为行键，其中，在插入数学成绩88分时，正确的命令是:本题答案：【put'student','2015001','score:math','88'】11、【单选题】NoSQL数据库的三大理论基石不包括:本题答案：【ACID】12、【单选题】在设计词频统计的MapReduce程序时，对于文本行“hellobigdatahellohadoop”，经过map函数处理后直接输出的结果应该是（没有发生combine和merge操作）:本题答案：【hello,1、hello,1、bigdata,1和hadoop,1】13、【单选题】假设已经配置好PATH环境变量，启动Hadoop的命令是:本题答案：【start-dfs.sh】14、【单选题】下列说法错误的是：本题答案：【第二名称节点是热备份，而HDFSHA不是热备份】15、【单选题】RDD操作包括转换（Transformation）和动作(Action)两种类型，下列RDD操作属于动作（Action）类型的是:本题答案：【collect】16、【单选题】下列关于Hive的说法正确的是:本题答案：【Hive支持批量导入】17、【多选题】大数据的特点包括:本题答案：【数据量大#数据种类繁多#处理速度快#价值密度低】18、【多选题】下列适用于批处理计算的框架有哪些：本题答案：【MapReduce#Spark】19、【多选题】下列适用于流计算的框架有哪些:本题答案：【Storm#SparkStreaming】20、【多选题】Flink核心组件栈分为哪三层：本题答案：【物理部署层#Runtime核心层#APILibraries层】21、【多选题】从技术架构上来看，物联网可以分为哪几层:本题答案：【感知层#网络层#处理层#应用层】22、【多选题】HBase需要根据哪些属性来唯一地确定一个单元格(cell)中的某个版本数据:本题答案：【行键#列族#列限定符#时间戳】23、【多选题】典型的NoSQL数据库的类型包括：本题答案：【键值数据库#列族数据库#文档数据库#图数据库】24、【多选题】CAP是指：本题答案：【一致性#可用性#分区容忍性】25、【多选题】云计算主要包括哪3种类型：本题答案：【IaaS#PaaS#SaaS】26、【多选题】以下属于流计算的应用有哪些：本题答案：【购物网站的广告推荐#实时交通路线推荐】27、【多选题】下列关于图计算产品Pregel的说法正确的是：本题答案：【当多个顶点的操作请求发生冲突时，Pregel采用局部有序和Handler来解决冲突#Pregel是一种基于BSP模型实现的并行图处理系统#在每个超步中，每个顶点会根据其接收消息的最大值和自身值比较，来确定自己状态作何种改变】28、【多选题】下列哪些是图计算框架Pregel的应用:本题答案：【单源最短路径#二分匹配#PageRank】29、【多选题】关于Spark的特性说法正确的是:本题答案：【Scala是Spark的主要编程语言，但Spark还支持Java、Python、R作为编程语言#Spark提供了内存计算，可将中间结果放到

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

【MOOC】大数据技术原理与应用-厦门大学中国大学慕课MOOC答案

文档简介

温馨提示

最新文档

评论

【MOOC】大数据技术原理与应用-厦门大学 中国大学慕课MOOC答案

文档简介

温馨提示

最新文档

评论

相关文档

【MOOC】大数据技术原理与应用-厦门大学中国大学慕课MOOC答案