大数据知识点总结_第1页
大数据知识点总结_第2页
大数据知识点总结_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据知识点总结大数据知识点总结 原始数据要经过一连串收集 提取 清洗 整理等等的预处理过程 才能形成高质量的数据 按照自己的 需要 比如要对数据贴标签分类 或者预测 或者想要从大量 复杂的数据中提取有价值的且不易发现的信息 下面由小编为 您整理出的大数据知识点总结内容 一起来看看吧 1 Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架 构 用户可以在不了解分布式底层细节的情况下 开发分布式程 序 充分利用集群的威力进行高速运算和存储 2 Hadoop 实现了一个分布式文件系统 Hadoop Distributed File System 简称 HDFS HDFS 有高容错性的特点 并且设计 用来部署在低廉的 low cost 硬件上 而且它提供高吞吐量 high throughput 来访问应用程序的数据 适合那些有着超大 数据集 large data set 的应用程序 HDFS 放宽了 relax POSIX 的要求 可以以流的形式访问 streaming access 文件系 统中的数据 3 Hadoop 的框架最核心的设计就是 HDFS 和 MapReduce HDFS 为海量的数据提供了存储 则 MapReduce 为海量的数据提供了计算 4 Hadoop 它主要有以下几个优点 a 高可靠性 Hadoop 按位存储和处理数据的能力值得人们信 赖 b 高扩展性 Hadoop是在可用的计算机集簇间分配数据并完 成计算任务的 这些集簇可以方便地扩展到数以千计的节点中 c 高效性 Hadoop能够在节点之间动态地移动数据 并保证 各个节点的动态平衡 因此处理速度非常快 d 高容错性 Hadoop能够自动保存数据的多个副本 并且能 够自动将失败的任务重新分配 e 低成本 与一体机 商用数据仓库以及 QlikView Yonghong Z Suite 等数据集市相比 hadoop 是开源的 项目的软件成本因此会大大降低 5 HDFS 对外部客户机而言 HDFS就像一个传统的分级文件系统 可 以创建 删除 移动或重命名文件 等等 但是 HDFS 的架构 是基于一组特定的节点构建的 这是由它自身的特点决定的 这些节点包括 NameNode 仅一个 它在 HDFS 内部提供元 数据服务 DataNode 它为 HDFS 提供存储块 由于仅存在一 个 NameNode 因此这是 HDFS 的一个缺点 单点失败 存储在 HDFS 中的文件被分成块 然后将这些块复制到多个 计算机中 DataNode 这与传统的 RAID 架构大不相同 块的 大小 通常为 64MB 和复制的块数量在创建文件时由客户机 决定 NameNode 可以控制所有文件操作 HDFS 内部的所有 通信都基于标准的 TCP IP 协议 6 NameNode NameNode 是一个通常在 HDFS 实例中的单独机器上运行的 软件 它负责管理文件系统名称空间和控制外部客户机的访问 NameNode 决定是否将文件映射到 DataNode 上的复制

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论