


下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、本文格式为word版,下载可任意编辑hadoop生态系统 如今apache hadoop已成为大数据行业进展背后的驱动力。hive和pig等技术也常常被提到,但是他们都有什么功能,为什么会需要惊奇的名字如oozie,zookeeper、flume。 hadoop带来了廉价的处理大数据大数据的数据容量通常是10-100gb或更多,同时数据种类多种多样,包括结构化、非结构化等的能力。但这与之前有什么不同? 现今企业数据仓库和关系型数据库擅长处理结构化数据,并且可以存储大量的数据。但本钱上有些昂贵。这种对数据的要求限制了可处理的数据种类,同时这种惯性所带的缺点还影响到数据仓库在面对海量异构数据时对于
2、灵敏的探究。这通常意味着有价值的数据源在组织内从未被挖掘。这就是hadoop与传统数据处理方式最大的不同。 本文就重点探讨了hadoop系统的组成部分,并解释各个组成部分的功能。mapreducehadoop的核心 google的网络搜寻引擎在得益于算法发挥作用的同时,mapreduce在后台发挥了极大的作用。mapreduce框架成为当今大数据处理背后的最具影响力的“发动机。除了hadoop,你还会在mapreduce上发觉mppsybase iq推出了列示数据库和nosql如vertica和mongodb。 mapreduce的重要创新是当处理一个大数据集查询时会将其任务分解并在运行 的多
3、个节点中处理。当数据量很大时就无法在一台服务器上解决问题,此时分布式计算优势就表达出来。将这种技术与linux服务器结合可获得性价比极高的替代大规模计算阵列的方法。yahoo在2021年看到了hadoop将来的潜力,并邀请hadoop创始人doug cutting着手进展hadoop技术,在2021年hadoop已经形成肯定的规模。hadoop项目再从初期进展的成熟的过程中同时吸纳了一些其他 的组件,以便进一步提高自身的易用性和功能。 hdfs和mapreduce 以上我们商量了mapreduce将任务分发到多个服务器上处理大数据的能力。而对于分布式计算,每个服务器必需具备对数据的访问能力,这
4、就是hdfshadoop distributed file system所起到的作用。 hdfs与mapreduce的结合是强大的。在处理大数据的过程中,当hadoop集群中的服务器出现错误时,整个计算过程并不会终止。同时hfds可保障在整个集群中发生故障错误时的数据冗余。当计算完成时将结果写入hfds的一个节点之中。hdfs对存储的数据格式并无苛刻的要求,数据可以是非结构化或其它类别。相反关系数据库在存储数据之前需要将数据结构化并定义架构。 开发人员编写代码责任是使数据有意义。hadoopmapreduce级的编程利用java apis,并可手动加载数据文件到hdfs之中。 pig和hive
5、 对于开发人员,直接使用java apis可能是乏味或简单出错的,同时也限制了java程序员在hadoop上编程的运用敏捷性。于是hadoop提供了两个解决方案,使得hadoop编程变得更加简单。 pig是一种编程语言,它简化了hadoop常见的工作任务。pig可加载数据、表达转换数据以及存储最终结果。pig内置的操作使得半结构化数据变得有意义如日志文件。同时pig可扩展使用java中添加的自定义数据类型并支持数据转换。 hive在hadoop中扮演数据仓库的角色。hive添加数据的结构在hdfshive superimposes structure on data in hdfs,并允许使用
6、类似于sql语法进行数据查询。与pig一样,hive的核心功能是可扩展的。 pig和hive总是令人困惑的。hive更适合于数据仓库的任务,hive主要用于静态的结构以及需要常常分析的工作。hive与sql相像促使其成为hadoop与其他bi工具结合的理想交集。pig给予开发人员在大数据集领域更多的敏捷性,并允许开发简洁的脚本用于转换数据流以便嵌入到较大的应用程序。pig相比hive 相对轻量,它主要的优势是相比于直接使用hadoop java apis可大幅削减代码量。正因为如此,pig仍旧是吸引大量的软件开发人员。 改善数据访问:hbase、sqoop以及flume hadoop核心还是一
7、套批处理系统,数据加载进hdfs、处理然后检索。对于计算这或多或少有些倒退,但通常互动和随机存取数据是有必要的。hbase作为面向列的数据库运行在hdfs之上。hbase以google bigtable为蓝本。项目的目标就是快速在主机内数十亿行数据中定位所需的数据并访问它。hbase利用mapreduce来处理内部的海量数据。同时hive和pig都可以与hbase组合使用,hive和pig还为hbase提供了高层语言支持,使得在hbase上进行数据统计处理变的特别简洁。 但为了授权随机存储数据,hbase也做出了一些限制:例如hive与hbase的性能比原生在hdfs之上的hive要慢4-5倍
8、。同时hbase大约可存储pb级的数据,与之相比hdfs的容量限制到达30pb。hbase不适合用于ad-hoc分析,hbase更适合整合大数据作为大型应用的一部分,包括日志、计算以准时间序列数据。获取数据与输出数据 sqoop和flume可改良数据的互操作性和其余部分。sqoop功能主要是从关系数据库导入数据到hadoop,并可直接导入到hfds或hive。而flume设计旨在直接将流数据或日志数据导入hdfs。 hive具备的友好sql查询是与繁多数据库的理想结合点,数据库工具通过jdbc 或odbc数据库驱动程序连接。 负责协调工作流程的zookeeper和oozie 随着越来越多的项目
9、加入hadoop大家庭并成为集群系统运作的一部分,大数据处理系统需要负责协调工作的的成员。随着计算节点的增多,集群成员需要彼此同步并了解去哪里访问服务和如何配置,zookeeper正是为此而生的。 而在hadoop执行的任务有时候需要将多个map/reduce作业连接到一起,它们之间或许批次依靠。oozie组件提供管理工作流程和依靠的功能,并无需开发人员编写定制的解决方案。 ambari是最新加入hadoop的项目,ambari项目旨在将监控和管理等核心功能加入hadoop项目。ambari可关心系统管理员部署和配置hadoop,升级集群以及监控服务。还可通过api集成与其他的系统管理工具。 apache whirr是一套运行于云服务的类库包括hadoop,可提供高度的互补性。whirr现今相对中立,当前支持amazon ec2和rackspace服务。 机器学习:mahout 各类组织需求的不同导致相关的数据形形色色,对这些数据的分析也需要多样化的方法。mahout提供一些可扩展的机器学习领域经典算法的实现,旨在关心开发人员更加
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 编译原理及技术实施试题及答案
- 法学概论考试中的竞争策略及试题及答案
- 确保班级多元合作的实施方式计划
- 甘肃省武威市第五中学2025年七下数学期末质量检测模拟试题含解析
- 网络管理员的创新思维研讨试题及答案
- 企业社交责任与其战略决策的相互影响试题及答案
- 增强科学实验的实践能力计划
- 仓库内外部沟通机制改进计划
- 长期投资与短期投资的区别计划
- 财政政策与货币政策的互动试题及答案
- 港口装卸工艺chap3-件杂货
- CJJ 36-2016 城镇道路养护技术规范
- 直臂式高空作业车安全管理培训课件-
- 之江实验室:生成式大模型安全与隐私白皮书
- 灵芝孢子油的作用
- 免疫组织化学检验技术(免疫学检验课件)
- 世界文明史学习通课后章节答案期末考试题库2023年
- 某石料厂年产10万吨石灰岩开采建设项目可行性研究报告
- 养老院安全工作会议记录范本
- 胸腔镜下肺癌根治的手术配合
- 护理查房肺结核护理查房
评论
0/150
提交评论