Hadoop大数据开发基础与实战(微课版) 课件 第1章 初识Hadoop_第1页
Hadoop大数据开发基础与实战(微课版) 课件 第1章 初识Hadoop_第2页
Hadoop大数据开发基础与实战(微课版) 课件 第1章 初识Hadoop_第3页
Hadoop大数据开发基础与实战(微课版) 课件 第1章 初识Hadoop_第4页
Hadoop大数据开发基础与实战(微课版) 课件 第1章 初识Hadoop_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第1章初识Hadoop大数据简介大数据技术的核心需求Hadoop背景简介Hadoop背景简介离线数据分析流程介绍大数据学习流程大数据简介大数据技术的核心需求Hadoop简介离线数据分析流程介绍大数据学习流程了解大数据的概念了解大数据的学习流程熟悉大数据的应用场景了解Hadoop框架1.1大数据简介1.1.1大数据的五大特征1.1.2大数据的六大发展趋势1.1.3大数据在电商行业的应用1.1.4大数据在交通行业的应用1.1.5大数据在医疗行业的应用1.1大数据简介随着新一代信息技术的迅猛发展和深入应用,数据的数量、规模不断扩大,数据已日益成为土地、资本之后的又一种重要的生产要素,和各个国家和地区争夺的重要资源,谁掌握数据的主动权和主导权,谁就能赢得未来。1.1大数据简介一匹马拉货多匹马拉货1.1大数据简介1.1大数据简介1.1.1大数据的五大特征Volume大量1.1大数据简介1.1.1大数据的五大特征Velocity高速1.1大数据简介1.1.1大数据的五大特征Variety多样1.1大数据简介1.1.1大数据的五大特征Value价值交通电商医疗1.1大数据简介1.1.1大数据的五大特征Veracity真实数据的真实性即数据的准确性和可信赖度,即数据的质量。数据的重要性就在于对决策的支持,数据的规模并不能决定其能否为决策提供帮助,数据的真实性和质量才是获得真知和思路最重要的因素,是成功决策最坚实的基础。真实性质量成功决策的基础1.1大数据简介1.1.1大数据的五大特征大数据发展趋势1.数据将呈现指数级增长2.数据将成为最有价值的资源3.大数据和传统行业智能融合4.数据将越来越开放5.大数据安全将日受重视6.大数据人才将备受喜爱1.1大数据简介1.1.2大数据的六大发展趋势猜你喜欢购买商品1.1大数据简介1.1.3大数据在电商行业应用传感技术网络技术计算技术控制技术智能技术传感器GPS监控视频气象监测1.1大数据简介1.1.4大数据在交通行业应用药方医疗保险诊断结果基本资料付款记录1.1大数据简介1.1.5大数据在医疗行业应用1.2大数据技术的核心需求大数据数据存储数据运算数据存储:将数据(文件)分散到一个集群上的N多台机器上存储。数据运算:什么叫运算,比如有一堆浏览商品的行为记录。需要统计出最热门的Top100商品。统计出每个人一次访问平均浏览了多少个产品;每一个商品被人浏览的同时还有哪些产品跟随着被浏览等等。上述这些数据分析需求,最后都会转换成程序来实现,程序的运行,最终又是机器的CPU加内存加磁盘等硬件资源的运行;这些运行就是运算。1.2大数据技术的核心需求1.2大数据技术的核心需求为什么需要分布式计算?因为“大数据”来了,单个计算机不够用了,即数据量远远超出单个计算机的处理能力范围。1.2大数据技术的核心需求1.3 Hadoop简介1.3.1什么是Hadoop1.3.2Hadoop的产生和发展1.3.3Hadoop的优缺点1.3.4Hadoop版本介绍1.3.5Hadoop生态圈的相关组件1.3.6Hadoop应用介绍1.3.7国内Hadoop的就业情况分析1.3.8分布式系统概述1.3.1什么是Hadoop

HDFSMapReduceYarn什么是Hadoop,Hadoop是一种分布式框架,如上所述,分布式存储,分布式运算,都应该有成熟的框架来提供,Hadoop就能提供分布式存储,分布式运算功能。1.3Hadoop简介1.3Hadoop简介1.3.2Hadoop的产生和发展1.3Hadoop简介1.3.3Hadoop的优缺点优点优点高可靠性高效性高容错性高扩展性1.3Hadoop简介1.3.3Hadoop的优缺点优点缺点不适用于低延迟数据访问不能高效存储大量小文件不支持多用户写入并任意修改文件1.3Hadoop简介1.3.4Hadoop版本介绍1.3Hadoop简介1.3.5Hadoop生态圈的相关组件1.3Hadoop简介1.3.5Hadoop生态圈的相关组件1.3Hadoop简介1.3.6Hadoop应用介绍1.3Hadoop简介1.3.6Hadoop应用介绍1.3Hadoop简介1.3.6Hadoop应用介绍1.3Hadoop简介1.3.7国内Hadoop就业情况分析1.3Hadoop简介1.3.8分布式系统概述1.4 离线数据分析流程介绍1.4.1项目需求描述1.4.2数据来源1.4.3数据处理流程1.4.4项目最终效果1.4离线数据分析流程介绍1.4离线数据分析流程介绍1.4.1项目需求描述点击流日志包含着网站运营的重要信息,通过日志分析,可以知道网站的访问量、哪个网页访问人数最多、哪个网页最有价值,了解广告转化率、访问的来源信息、访客的终端信息等。1.4离线数据分析流程介绍1.4.2数据来源本项目的数据主要来自用户的点击行为。获取方式:在页面预埋一段JavaScript程序,为页面上想要监听的标签绑定事件,只要用户点击或移动到标签,即发送Ajax到后台Servlet程序,用Log4j记录下事件信息,从而在Web服务器(Nginx、Tomcat)上形成不断增长的日志文件。1.4离线数据分析流程介绍1.4.3数据处理流程流程图解析项目技术架构图1.4离线数据分析流程介绍1.4.3数据处理流程1.4离线数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论