云计算与大数据开发技术期中测试_第1页
云计算与大数据开发技术期中测试_第2页
云计算与大数据开发技术期中测试_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

云计算与大数据开发技术期中测试2页)--本页仅作为文档封面,使用时请直接删除即可内页可以根据需求调整合适字体及大小--PAGEPAGE3云计算与大数据开发技术期中测试1、大数据的4V特征是什么?1)海量的数据volume 2)快速的数据产生与处理3)多样的数据类型variety 4)低价值密度value2、什么是结构化数据、非结构化数据以及半结构化数据?结构化数据:主要是指存储在关系型数据库中的数据;非结构化数据:不方便用关系型数据二维逻辑表来表现的数据。其中包括图片、音频、视频、模型、连接信息、文档、位置信息、网络日志等。存储在非关系型数据库中(NoSql);半结构化数据:数据的结构和内容混在一起,没有明显的区分。也存储在非关系型数据库中(NoSQL),非结构化的数据占多数。3、什么是云计算?云计算是一种通过互联网以服务的形式提供动态可伸缩的虚拟化资源的计算模式。4、Hadoop是什么?HadoopApache中对大型数据集进行分布式处理。Hadoop5、HDFS的设计理念有哪些硬件失效(容忍硬件失效或者不依赖硬件)流式数据访问超大文件简化的数据一致性模型多硬件平台支持移动计算能力比移动数据更方便6、HDFS的适用场景和不适用场景分别有哪些?7、8、适用场景:1)2)不适用场景:低时间延迟的数据访问大量的小文件多用户写入,任意修改文件9、(概述题)请详细描述一下MapReduce的计算过程。在启动MapReduce之前,确保待处理的文件放在HDFS中。MapMap数输出的中间结果需要经过一个“Shuffle”过程(对中间结果进行分区、排序、组合、合并的操作),Reduce10、 Yarn是什么Yarn的作用是什么Hadoop它的引入为集群在利用率、资源统一管理和数据共享等方面带来了诸多好处。11、 Hive的应用场景有哪些?、、数据挖掘:用户行为分析、兴趣分析、区域展示;非实时分析:网络日志分析、文本分析;数据汇总:用户点击量统计、流量统计;数据仓库:数据抽取、数据加载、数据转换;(ETL)14、 Spark的适用场景有哪些对比使用MapReduce的Hadoop,Spark有哪些优势适用场景:1)数据处理,ETL(extracttransformload)2)数据中寻找出有用的知识的学科。交互式分析特别适用于迭代计算,数据重复利用场景。Spark的优势:100倍;Spark效;更低的延迟SparkHadoop更灵活,开发效率更高更高的容错能力15、 RDD、宽依赖、窄依赖分别是什么?RDD:弹性分布数据集,指的是一个只读的、可分区的分布式数据集。宽依赖:父RDD的每一个分区最多被一个子RDD分区所用。窄依赖:父RDD的每一个分区被多个子RDD的分区所用。16、 什么是流数据?什么是静态数据流数据是一组顺序、大量、快速、由数据源连续到达存储系统的数据序列,可被视为一个随

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论