大数据应用技术课程介绍_第1页
大数据应用技术课程介绍_第2页
大数据应用技术课程介绍_第3页
大数据应用技术课程介绍_第4页
大数据应用技术课程介绍_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据应用技术网络课程1课程目标通过讲解几种主流人数据产品和技术的特性、实现原理和应用方向,并组织实习项 目,使学员了解并初步堂握目前流行的人数据主流技术(采集、存储、挖掘等),了解 其特点以及使用的场景,貝备一定的人数据系统架构能力,并能自行开展简单的人数据 应用开发。2课程内容本次课程讲解的大数据产品和技术包1S: hadoop、storm、flume等,其中以hadoop为 主要培训内容。3培训课程列表1.hadoop生态系统(1) HDFS(2课时)(2) MapReduce2(2课时)(3) Hive(1课时)(4) HBase(2课时)(5) Sqoop(1课时)(6) Impal

2、a(1课时(7) Spark(4课时)2.Storm流计算(2课时)3.Flume分布式数据处理(2课时)4.Redis内存数据库(1课时)5.ZooKeeper(1课时)4培训方式学员以观看录像、视频会议等方式进行学习,搭建集中环境供人家实习,并设置作 业和答疑环节。每周视频课程约2个课时,作业和实习时间约需2-3小时,课程持续 10周左右。5课程内容简介人数据技术在近两年发展迅速,从之前的格网计算、MPP逐步发展到现在,人数 据技术发展为3个主要技术领域:人数据存储、粤线人数据分析、在线人数据处理,在 各自领域内,涌现出很多流行的产品和框架。> 大数据存储HDFS、HBase>

3、 离线人数据分析MapReducex Hive> 在线大数据处理Impala、Storm (流处理)、Spark、Redis (内存数据库)、HBase> 数据采集Flume 等> 辅助工具Zookeeper 等5.1 Hadoop1)HDFS介绍,Hadoop分布式文件系统(HDFS)被设计成适合运行在通用li更件(commodity hardware) h的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同 时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的 系统,适介部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适介大 规模数

4、据集上的应用。HDFS放宽了一部分POSIX约束,來实现流式读取文件系统 数据的目的。HDFS是Apache Hadoop Core项目的一部分。培训内容:HDFS设计的思路HDFS 的模块组成(NameNode、DataNode)HADOOP Core 的安装HDFS参数侖义及配宣HDFS文件访问方式培训目标:使学员掌握HDFS这个HADOOP基础套件的原理、安装方式、配置方法等2)MAPREDUCE介绍:MapReduce是-种编程模型,用于人规模数据集(人于1TB)的并行运算。概 念”Map (映射)”和"Reduce (归约)”,和它们的主要思想,都足从函数式编程语 言里借来

5、的,还有从矢呈编程语言里借来的特性。它极人地方便了编程人员在不会 分布式并行编程的情况卜,将自己的程序运行在分布式系统上。当前的软件实现 是指定一个Map (映射)函数,用來把一组健值对映射成一组新的键值对,指定并 发的Reduce(归约)函数,用來保证所冇映射的键值对中的每一个共享相同的键组。培训内容:MapReduce环境配宣JobTracker/TaskTracker 的作用简单的MapReduce示例培训目标:使学员初步了解MapReduce的工作原理与使用方式3) HIVE介绍:hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一 张数据库表,并提供简单的sq

6、l查询功能,町以将sql语句转换为MapReduce任务 进行运行。其优点是学习成本低,町以通过类SQL语句快速实现简单的MapReduce 统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。培训内容:Hive组件的安装Hive与传统关系型数据库的区别Hive的一些特性Hive的访问方式简单HiveQL语言介绍培训目标:使学员初步了解Hive的作用,以及简单的hiveql4) HBASE介绍:HBase是一个分布式的、面向列的开源数据库,该技术來源于FayChang所撰 写的Google论文“Bigtable: 个结构化数据的分布式存储系统”。就像Bigtable利用 G

7、oogle文件系统(FileSystem)所提供的分布式数据存储一样,HBase在Hadoop 之上提供了类似f' Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase 不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另-个不 同的是HBase基于列的而不是基于行的模式。培训内容:Hbase组件的安装Hbase Lj传统RDBMS的比较Hbase的一些特性Hbase的访问方式培训目标:使学员初步了解Hive的作用,以及简单的Hbase应用5) SQOOP介绍:Sqoop(发音:skup)是一款开源的工具,主要用于在HADOOP(Hive

8、)与传统的数 据库(mysql、postgresql.)间进行数据的传递,可以将一个关系型数据库(例如: MySQL ,Oracle zPostgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的 数据导进到关系型数据库中。培训内容:Sqoop组件的安装数据导入导出Hive数据导入一致性培训目标:使学员了解Sqoop的使用,并能做一些简单的RDBMS与Hive之间的数据导入 导出工作6) IMPALA介绍:Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询 存储在Hadoop的HDFS和HBase中的PB级大数据。己冇的Hive系统虽然也提供了

9、 SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过 程,难以满足查询的交互性。相比之Impala的垠人特点也是故大卖点就是它的 快速。培训内容:Impala的工作原理及其与Hive的区别Impala的一些特性Impala的安装Impala的访问培训目标:使学员初步了解Impala的作用,以及简单的impala的使用7) SPARK介绍:Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台。它立足于 内存计算,从多迭代批量处理出发,兼收并番数据仓库、流处理和图计算等多种计 算范式,是罕见的全能选手。培训内容:Spark的工作模式Spark Had

10、oop/MapReduce 的关系打区别Spark的安装Spark的使用培训目标:使学员初步了解Spark这种新兴起的技术,以及它与目前广泛使用的Hadoop 类技术的区别5.2 Storm介绍:Storm是一个用Clojure语言实现的免费开源、分布式、高容错的实时计算系统。Storm 令持续不断的流计算变得容易,弥补了 Hadoop批处理所不能满足的实时要求。Storm八 常用于在实时分析、在线机器学习、持续计算、分布式远程调用和ETL等领域。Storm的 部署管理非常简单,而且,在同类的流式计算工具,Storm的性能也是非常出众的。Storm 集成了许多库,支持包括 Kestrel、Ka

11、fka、JMS、Cassandra、Memcached 以及更 多系统。随着支持的库越来越多,Storm更容易与现有的系统协作。培训内容:流处理的概念Storm的原理Storm的安装Storm流处理机制Storm数据流分发机制Storm消息机制培训目标:使学员能够了解流处理的概念、使用场景,Storm的相关概念以及应用场駅5.3 FLUMEFLUME介绍Flume最早是Cloudera提供的口志收集系统,目前是Apache下的一个孵化项目,Flume 支持在日志系统中定制各类数据发送方,用于收集数据。Flume提供对数据进行简单处理,并写到各种数堀接受方(可定制)的能力Flume提供 了从 c

12、onsole (控制台)、RPC (Thrift-RPC)x text (文件)、tail (UNIX tail)、syslog (syslog 口志系统,支持TCP和UDP等2种模式),exec (命令执行)等数据源上收集数据的能 力。培训内容1、FLUME-NG 的安装2、Flume的组件分类3、FLUME-NG的工作方式4、FLUME-NG 的配置5、以UDP SYSLOG采集为例,说明FLUME的配置目标通过对FLUME的学习,使学员初步掌握分布式数据采集、拓扑配豐的方式和方法5.4 REDIS介绍Redis是-个开源的使用ANSIC语言编写、支持网络、可基于内存亦可持久化的口志型、 Key-Value数据库,并提供多种语言的API。培训内容lx redis的安装2、redis试用场景3、redis的简要开发方式(JAVA语言)目标通过对redis的学些,掌握redis简单的安装、配置、开发、试用的方式和方法5.5 ZooKeeper介绍:ZooKeeper是一个分布式的,开放源码的分布式

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论