上午1-hadoop基础课件2apache的体系结构_第1页
上午1-hadoop基础课件2apache的体系结构_第2页
上午1-hadoop基础课件2apache的体系结构_第3页
上午1-hadoop基础课件2apache的体系结构_第4页
上午1-hadoop基础课件2apache的体系结构_第5页
已阅读5页,还剩26页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Hadoop的体系结构课程目标掌握Hadoop的体系结构

完成Hadoop的安装Hadoop实际应用案例Hadoop是什么?WhatIsApacheHadoop?TheApache™Hadoop®projectdevelopsopen-sourcesoftwareforreliable,scalable,distributedcomputing.受Google三篇论文的启发(GFS、MapReduce、BigTable)Hadoop的核心及结构(非常重要)HDFS:HadoopDistributedFileSystem分布式文件系统Map-Reduce完成分布式计算YARN:YetAnotherResourceNegotiator资源管理调度系统HBase一个基于HDFS的NoSQL数据库起源于BigTable的思想面向列HBase的体系结构和数据模型Hadoop1.0和Hadoop2.0的对比Hadoop的生态圈Hadoop安装部署方式本地模式伪分布模式全分布模式Hadoop安装部署的预备条件安装好Linux安装好JDKHadoop的配置文件本地模式参数文件配置参数参考值hadoop-env.shJAVA_HOME/root/training/jdk1.7.0_75Hadoop的配置文件伪分布模式参数文件配置参数参考值hadoop-env.shJAVA_HOME/root/training/jdk1.7.0_75hdfs-site.xmldfs.replication1core-site.xmlfs.defaultFShdfs://<hostname>:9000hadoop.tmp.dir/root/training/hadoop-2.4.1/yarnyarn-site.xmlyarn.resourcemanager.hostname<hostname>yarn.nodemanager.aux-servicesmapreduce_shuffleHadoop的配置文件全分布模式参数文件配置参数参考值hadoop-env.shJAVA_HOME/root/training/jdk1.7.0_75hdfs-site.xmldfs.replication2dfs.permissionsfalsecore-site.xmlfs.defaultFShdfs://1:9000hadoop.tmp.dir/root/training/hadoop-2.4.1/tmpslavesDataNode的地址34yarnyarn-site.xmlyarn.resourcemanager.hostname1yarn.nodemanager.aux-servicesmapreduce_shuffle配置Hadoop的SSH免密码登录原理如何配置?Hadoop的Web控制台HDFSConsole

Hadoop的Web控制台YARNConsole

验证Hadoop伪分布式HDFSMap-ReduceHadoop应用案例分析互联网应用的架构日志分析Hadoop在淘宝的应用案例一:互联网应用的架构传统的架构:案例一:互联网应用的架构(续)改良后的架构:案例一:互联网应用的架构(续)完整的架构图:案例二:日志分析需求说明:对某技术论坛的apacheserver日志进行分析,计算论坛关键指标,供运营者决策案例二:日志分析(续)论坛日志数据有两部分:历史数据约56GB,统计到2012-05-29自2013-05-30起,每天生成一个数据文件,约150MB案例二:日志分析(续)关键指标指标说明计算公式浏览量PV页面浏览量即为PV(PageView),是指所有用户浏览页面的总和,一个独立用户每打开一个页面就被记录1次。记录计数访客数UV(包括新访客数、新访客比例)访客数(UV)即唯一访客数,一天之内网站的独立访客数(以Cookie为依据),一天内同一访客多次访问网站只计算1个访客。对访问member.php?mod=register的不同ip,进行计数IP数一天之内,访问网站的不同独立IP个数加和。其中同一IP无论访问了几个页面,独立IP数均为1。对不同IP进行计数跳出率只浏览了一个页面便离开了网站的访问次数占总的访问次数的百分比,即只浏览了一个页面的访问次数/全部的访问次数汇总。统计一天内只出现一条记录的ip,称为跳出数版块热度排行榜版块的访问情况排行。按访问次数、停留时间统计排序案例二:日志分析(续)系统架构案例二:日志分析(续)改良后的系统架构案例二:日志分析(续)HBase表的结构明细表行键date:ip明细列族detail:xxx案例二:日志分析(续)日志分析的执行过程:周期性把日志数据导入到hdfs中周期性把明细日志导入hbase存储周期性使用hive进行数据的多维分析周期性把hive分析结果导入到mysq

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论