雨课堂在线学堂《大数据系统基础》作业单元考核答案_第1页
雨课堂在线学堂《大数据系统基础》作业单元考核答案_第2页
雨课堂在线学堂《大数据系统基础》作业单元考核答案_第3页
雨课堂在线学堂《大数据系统基础》作业单元考核答案_第4页
雨课堂在线学堂《大数据系统基础》作业单元考核答案_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1.绪论1/5多选题(1分)关于“大数据”与“数据科学”这两个概念的论述哪些是准确的?“大数据”是用传统数据处理系统难以处理的、大且复杂的数据集“大数据”就是规模特别大的非结构化数据集实时处理是“大数据”的唯一处理方式“数据科学”核心是领域专业、统计挖掘和软件编程三方面知识交叉融合E.“大数据”强调“问题难度”,“数据科学”强调“数据思维”答案:ADE2/5多选题(1分)下面实例中哪些是“大数据分析”的代表性应用?电商管理员从数百亿的消费记录中找到客户张三的所有消费记录电商管理员从数百亿的消费记录推测某一个客户的消费偏好电商管理员根据数百亿的消费记录汇总销售报表电商管理员根据数百亿的消费记录发现某种服装销售量与当地气温有关E.电商管理员根据历史消费记录预测下一季度的服装库存答案:BDE3/5多选题(1分)关于“大数据分析生命周期”的论述哪些是正确的?“大数据分析生命周期”只包括大规模数据集的分析与建模任务“数据获取和记录”阶段应尽量过滤掉“无用的”数据“大数据分析生命周期”只需保留观测数据,而不用考虑元数据“大数据分析”只要提供分析结果,而不用解释处理过程E.“大数据分析生命周期”的各个阶段都需要人的参与答案:BE4/5多选题(1分)关于“大数据处理技术”的论述哪些是正确的?大数据应用只有在百分之百正确的数据集上才能实施大数据计算平台只能用户独占,而无法和其他用户分享主流大数据系统主要采用分布并行计算范型来实现大数据系统通常是将数据“搬运”到某一个节点上集中处理E.数据安全和隐私,是大数据领域面临的重要技术挑战答案:CE5/5多选题(1分)下面关于大数据生态系统论述哪些是正确的?Hadoop生态系统是典型的大数据生态系统大数据生态系统是围绕大数据分析生命周期展开的Spark系统利用内存提高了计算速度,但是其应用程序代码冗余目前大数据生态系统只包括Hadoop和SparkE.大数据系统参考架构中只包括数据提供者和数据消费者两个角色答案:AB2.云计算1/6多选题(1分)为什么人们从追求单个更快的计算机转移到了追求更多的核,以及更多的机器人们已经无法造出更快的计算机来满足需求通过并行化,机器更容易使用多个机器可以更好的容错多个机器组成的集群要比单个大型计算机便宜答案:ACD2/6单选题(1分)关于仓库规模的计算机,下边哪个说法是错误的:仓库规模的计算机通常放置于独立的数据中心中传统的数据中心托管中心,可以很容易地升级为仓库规模计算机运维仓库规模计算机的过程中,PUE是一个重要的考虑因素运维仓库规模计算机的过程中,节约人员成本是重要的考虑因素答案:B3/6单选题(1分)关于虚拟机,以下说法正确的是现代所有虚拟机技术的核心思想,都是让客户操作系统完全不能感知到自己运行在虚拟机当中客户操作系统可以直接访问I/O设备在没有硬件支持的虚拟化环境中,客户操作系统直接管理自己内部运行的应用的虚拟内存映射虚拟机管理器(Hypervisor)是一个比操作系统要简单的软件系统答案:D4/6单选题(1分)关于网络虚拟化,以下说法正确的是通过VLAN进行网络虚拟化,可以使不同的客户感觉是运行在完全独立的物理网络上VxLAN能够带来更高的性能,因此用户正在逐渐从VLAN过渡到VxLAN软件定义网络能够大大简化网络虚拟化的实现方式,提升灵活程度只要我们有效地抑制广播范围,二层网络可以扩展到任意大答案:C5/6单选题(1分)关于存储虚拟化,以下说法正确的是NAS的成本高于SAN,因为NAS需要额外的存储网络某人提供了一种存储系统,允许直接在Linux中将这一设备当做/dev/sda使用,那么这一存储系统提供了块接口对象存储接口在现代云计算中很流行,主要是因为这一接口标准易用网络存储系统一般比本地存储可靠性高答案:B6/6多选题(1分)关于Openstack,以下说法正确的是Openstack允许不同租户的虚拟机运行在同一台物理服务器上Openstack允许同一台物理服务器的单一网卡运行在不同的二层虚拟网络上Openstack的虚拟网络有多种实现方式,其中VLAN是一个流行的方式Openstack的调度器是整个系统的神经中枢,所有的通讯和操作都是由调度器完成的。答案:ABC3.文件存储1/4多选题(1分)以下的关于Google文件系统保存元数据的方法那些描述是正确的?Google文件系统仅依靠一台主服务器的内存来保存文件系统的元数据。Google文件系统的数据服务器的负载均衡由主服务来均衡。Google文件系统的主服务器可靠性保证分为三级:内存数据快速保存到磁盘中,单个节点失效采用影子服务器,两个节点失效采用元数据多地备份方式进行恢复。为了加快速度,Google文件系统的元数据仅采用日志的方式记录到磁盘中。答案:BC2/4多选题(1分)以下的关于Google文件系统的数据服务器的描述是正确的?文件系统在删除文件的同时,一定要将数据服务器中的数据块一起删除,否则会浪费磁盘空间。某一个数据服务器失效的时候,数据副本恢复的时间与保存在这台服务器中的数据量大小成正比。为了保证数据块的一致性,数据服务器采用了副本状态机的方式保证数据块写入的一致性。数据服务器在维护块一致性的时候,需要主服务器的参与。答案:CD3/4单选题(1分)以下的关于Google文件系统的可靠性的描述正确的是?在保证元数据可靠性的时候,通过影子主服务器进行数据读写的流程是:客户端发送元数据请求给主服务器,随后主服务器同时发送请求给影子主服务器以及操作本地的数据,在本地操作数据完成之后返回成功或者失败给客户端。在保证数据可靠性的时候,主服务器将颁发一个租期给主块服务器。在保证数据可靠性的时候,并不需要对数据进行校验,因为有三个数据副本,可以通过比较来获知那个数据块是正确的。主块服务器是固定的,因为只能由一台服务器来确定所有的操作的顺序。答案:B4/4多选题(1分)关于Google文件系统的一致性模型的描述,以下哪些描述是正确的?同一个文件的同一个区域的所有的数据块时时刻刻都会保持一致。在多个客户端进行写入的时候,多个写入操作并发进行,写入的结果不一定反应多个并发写入的结果。在数据追加的过程中,写入的数据可能混合了一些不一致的数据。写入成功的时候,总是能够保证同一个逻辑数据块的数据都是一样的,与写入操作提供的输入数据也一致答案:BC4.处理框架1/5多选题(1分)关于MapReduce的冗余执行(speculativeexecution),以下说法正确的是通过冗余执行,总能减少任务运行的总时间最后剩下的几个Map任务,如果运行时间很长,大都是因为机器故障导致任务的冗余执行要求Map和Reduce函数不能有副作用冗余执行要求Map和Reduce的操作都是幂等的答案:CD2/5多选题(1分)有人改进了MapReduce的架构,Map函数的输出不写入本地磁盘,而是直接(通过网络)传递给Reduce任务,reduce任务收到所有Map的输入后,再开始Reduce的处理。关于这种改动,以下说法正确的是在某些情况下,整个任务的完成时间会缩短这种改动大大降低了MapReduce的容错性在没有错误的情况下,有时任务完成时间也会延长经过这样的改动,reduce就不需要对输入进行专门的排序了,大大提升了系统运行效率(没有错误的情况下)答案:ABC3/5多选题(1分)关于Hadoop和PigLatin的关系,以下正确的是理论上讲,PigLatin不一定要运行在MapReduce上PigLatin会翻译为一系列的MapReduce任务来运行PigLatin提供了比MapReduce更丰富的操作答案:ABC4/5多选题(1分)关于数据并行化,以下说法正确的是不是所有数据都可以用数据平行的方法处理数据并行需要输入数据能够被切分成独立的若干块,可以分别处理数据并行每一块的处理都必须是幂等的数据并行就是使用MapReduce的另一种说法答案:AB5/5单选题(1分)Shuffle步骤在Map进行到哪一步的时候,就可以开始执行至少有一个Map任务开始有输出至少有一个Map任务完成了所有的Map任务都有了输出所有的Map任务都完成了答案:A5.内存计算1/4单选题(1分)Spark程序容错的主要方法是重算检查点冗余计算答案:A2/4单选题(1分)如果Spark与MapReduce相比,主要的性能改进来源于支持更多的算子用内存代替硬盘存储中间结果使用Scala语言答案:B3/4单选题(1分)一次机械硬盘的随机读写所需的时间大致是一次内存随机读写所需时间的几倍?100100010,000100,000答案:D4/4判断题(1分)对于同样的数据,持久化属性为MEMORY_ONLY_SER的RDD比属性为MEMORY_ONLY的RDD需要占用更多的内存答案:<spandata-v-6d417ce8=""class="radio_jqqpanduanunselectable×6.NoSQL1/5单选题(1分)关于2010年前后新一轮NoSQL运动的论述哪些是准确的?仅否定SQL语言否定关系模型、否定ACID、而且否定SQL仅否定关系模型仅否定ACID答案:B2/5多选题(2分)下面关于Cassandra数据模型的描述哪些是正确的?Cassandra的数据模型包括键空间、列族、行和列组成Cassandra的行是按照键值排序的Cassandra的列名会按照用户定义比较函数来排序Cassandra的应用程序通常会有多个键空间和多个列族E.Cassandra的同一个键空间的不同列族,可以有不同的分区策略和副本数目答案:ABC3/5多选题(1分)下面关于Cassandra架构的论述哪些是正确的?Cassandra和Hadoop一样都是采用Master-Slave架构Cassandra机群初始化时采用Gossip协议传播节点信息Cassandra中是通过Gossip协议实现P2P架构的Gossip协议有时会交换冗余信息答案:BCD4/5多选题(1分)关于Cassandra数据组织的论述哪些是正确的?Cassandra用同样的哈希函数来计算数据对象和机器节点的哈希值Cassandra的客户端决定与哪个节点连接,以完成查询或者写入数据当新节点进入Cassandra系统时,它将被添加到哈希环中并分摊部分数据Cassandra服务器决定客户端与哪个节点连接答案:ABC5/5多选题(1分)下面关于Cassandra系统中副本管理的论述哪些是正确的?将副本引入到分布式系统中,可以获得系统可靠性收益Cassandra复制数据副本到协调者节点的N-1个后继节点上,N是副本数目Cassandra中并发的更新不同的副本,可能会产生不一致的数据在法团协议中三个参数对读取和写入操作一致性非常重要,即,N副本数目、NR读操作中需要读取的节点数、NW写操作中需要阻塞等待的节点数答案:ABCD7.流计算1/4多选题(1分)以下计算任务比较容易使用流计算模式的是:某社交媒体网站中用户发布内容中的热词统计(即出现频率最高的前K个热词)搜索引擎中使用pagerank算法计算各个网页的重要性网络监控中识别某一种类型的数据包使用K-Means算法对数据做聚类答案:AC2/4多选题(1分)关于YahooS4系统,以下说法正确的是S4可以自动保证消息被处理且仅被处理一次S4系统中单结点故障会导致整个系统失效,无法处理新到达的流数据S4系统的PE之间状态不可见,只能通过发送消息进行相互通信S4系统中数据的每一个key在处理时都对应一个PE,如果对应某个key的PE还不存在,系统会自动创建一个答案:CD3/4多选题(1分)队列系统的作用包括匹配速率接口匹配持久化保存性能优化答案:ABCD4/4填空题(1分)以下Storm代码中words产生的每个词会发送到哪个Bolt

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论