版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《大数据导论》Hadoop数据处理基础第一:大数据重预测,小数据重决定。第二:大数据重感知,小数据重精准。第三:大数据重相关,小数据重因果。第四:大数据重群体,小数据重个体。
从应用的角度来说,大数据和小数据具有以下几个主要的区别:一、Hadoop的起源Google的低成本之道:(1)不使用超级计算机,不使用存储(淘宝的去i,去e,去o之路)
大量使用普通的pc服务器(去掉机箱,外设,硬盘),提供有冗余的集群服务。(2)全世界多个数据中心,有些附带发电厂。(3)运营商向Google倒付费。一、Hadoop的起源搜索引擎面临的几个难题:(1)大量的网页怎么存储?(2)搜索算法(3)Rank计算问题google的解决方案:1.针对网页存储,Google采用了分布式文件存储和倒排索引(也就是后来Haoop的核心HDFS
)。参考:《搜索引擎-倒排索引基础知识》和《倒排索引-搜索引擎的基石》两篇文章。2.针对网站的搜索算法,Google发明了Rank算法。这个算法就是后来hadoop的另一个核心Map-Redure。参考:《PageRank算法》。一、Hadoop的起源Google带给我们的关键技术和思想包括:HDFS、Map-Reduce。Hadoop名字来源于DougCutting儿子的玩具大象一、Hadoop的起源Hadoop的思想来源:Google目前Hadoop达到的高度:(1)实现云计算的事实标准开源软件(2)包含数十个具有强大生命力的子项目(3)已经能在数千节点上运行,处理数据量和排序时间不断打破世界纪录一、Hadoop的起源HDFS:Hadoop分布式文件系统。MapReduce:并行计算框架。Hbase:类似于GoogleBigTable分布式NoSql数据库。Hive:数据仓库工具,由Facebook贡献。Zookeeper:分布式锁设施,提供类似Googlechubby的功能,由Facebook贡献。Avro:数据序列化与格式传输工具。Pig:大数据分析工具,为用户提供多种接口。Ambari:Hadoop管理工具,可以快捷的监控、部署、管理集群。Sqoop:在HADOOP与传统的数据库间进行数据的传递。Hadoop子项目家族一、Hadoop的起源一、Hadoop的起源Google与开源基础技术的对应关系一、Hadoop的起源(1)高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。(2)高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。(3)高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。(4)高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。此外:Hadoop带有用Java语言编写的框架,因此运行在Linux平台上是非常理想的。Hadoop上的应用程序也可以使用其他语言编写,比如C++。二、Hadoop的优势Cloudera公司的Hadoop发行版三、Hadoop的发行版本(1)Apache版本(最原始的版本,所有发行版均基于这个版本进行改进)(2)Cloudera版本(Cloudera’sDistributionIncludingApacheHadoop,简称CDH)(3)Hortonworks版本(HortonworksDataPlatform,简称“HDP”)
NoSQL数据库:支撑大数据的基础技术,和Hadoop一样受到越来越多关注的。在大数据处理的基础平台中,需要由Hadoop和NoSQL数据库来担任核心角色。
Hadoop的子项目:数据仓库Hive和数据挖掘库Mahout等也可以完成数据分析的所有工作。
延续性:Hadoop和NoSQL数据库,是在现有关系型数据库和SQL等数据处理技术很难有效处理非结构化数据这一背景下,由谷歌、亚马逊、脸书等企业因自身迫切的需求而开发的。因此,作为一般企业不必非要推翻和替换现有的技术,在销售数据和客户数据等结构化数据的存储和处理上,只要使用传统的关系型数据库和数据仓库就可以了。
成本:
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026辽宁光辉投资控股集团有限公司及下属子公司招聘22人笔试备考试题及答案详解
- 2026中国农业科学院农田灌溉研究所招聘创新团队首席科学家1人笔试参考题库及答案详解
- 2026陕西西安市经开第一中学招聘笔试模拟试题及答案详解
- 2026南昌市某国企招聘正式人员2人笔试备考试题及答案详解
- 2026宁波能源实业有限公司招聘1人笔试备考题库及答案详解
- 2026浙江温州龙港市面向社会招聘公办学校教师130人笔试备考试题及答案详解
- 青少年法制教育活动方案及实施案例
- 2026河南洛阳国创产业发展有限公司所属子公司招聘15人笔试参考题库及答案详解
- 2026陕西西安交通大学口腔医院招聘21人笔试模拟试题及答案详解
- 高校学生会组织建设及活动策划方案
- 2025年卫生健康综合执法岗考试真题及答案
- 埃博拉病毒病防控防护指南(2025版)
- 2026年《安全生产月》主题网络活动竞赛题库及答案
- 江苏省泰州市兴化市重点名校2026届中考历史最后冲刺模拟试卷含解析
- 2025-2026学年五年级语文下册第七单元综合素养测评卷(含答案)
- 模版-2026年2月市场销售经营分析月报看板
- 2026年供热知识试题题库及答案
- 高考化学主观题重点突破策略
- 试件留置方案和试验计划
- T∕HNCJ 0003-2026 城镇供水管网分区计量漏损控制技术标准
- 生产计划与调度工具产能需求预测版
评论
0/150
提交评论