




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据平台 课程标准一、课程定位现在企业为了提升客人使用体验,提高业务效率,在大数据蓬勃发展的阶段里,需要对现有业务系统进行转型升级;作为大数据载体,大数据平台工程师应用成为有大量数据的企业必备人才。随着大数据应用的大量普及,开源框架,比如hadoop, spark等,也得到长足发展。本课程着力于系统数据的收集和搭建技术, 使得作为大数据的研发/ 分析带来基础设施,让学员掌握;并通过本课程,掌握大数据平台的理念,为将来在不同企业使用各种基础设施的搭建和维护指明方向。二、课程性质与作用课程性质大数据平台搭建核心课程。课程作用大数据平台搭建核心课程,是整个大数据中基础的一环。在实际工作中,掌握本技
2、术是是大数据方向的重要的岗位,即大数据平台工程师。在后续的大数据研发及大数据分析中,必须要在大数据平台搭建完成后才能在真实生产环境运行。本课程会涉及到其余的计算机知识,比如 Linux 操作系统、数据库、集群等知识。学习完本科课程之后,为了巩固和提高对大数据平台搭建的理解, 在后续课程中加入有实际生产环境的搭建过程并验证。三、课程目标课程教学以生产环境搭建为目标, 以实际项目为中心, 以合理知识结构分解为手段,在理解大数据平台架构的过程中,主要以实际操作让学员对相关知识点掌握,达到理论与实际结合,教学与企业融合的内容。学员学成后,能够利用流程的大数据平台框架大家生产环境,并且在企业相关架构选择
3、有微调时,能够触类旁通,也能完成搭建任务。课程内容始终围绕全面提升学生的理论和操作的熟练程度、 规范化程度以及职业素质三个方面展开。(一)知识目标1 . 理解大数据概念及应用场景,先导课程Linux 的操作2 .掌握大数据HDFS、HBasa Hadoop集群搭建及数据批处理。3 .熟练掌握Spark搭建并能够验证运行。4 . 熟练掌握 Storm 搭建并掌握流处理概念。5 . Hadoop生态其他组件的安装和应用,Yarn &zookeeper6 .离线工具ETL 和 hive 的安装及应用。(二)能力目标1 .全局的眼光理解大数据,理解大数据的应用,并有总体的概念。2 .理解企业中
4、实际生产环境的大数据搭建,收集,分析,应用的过程。3 .具备在实际应用中,针对技术框架的微调,能够应对并能够调试验证成功。四、课程设计主要指课程设计的总体思路:课程设计围绕大数据基础设施的搭建,并考虑到实际企业生产环境中的应用场景,从先导知识,基础知识,生态知识及扩展知识。先导知以存储及 数据库H ado o p生态实时计 算.框架离线ll算框架 课程案例选取:以搭建支持10GB的数据为目标,在目标3机器上部署大数据仓库,并能实 际运行。模拟手机1GB的数据,能够通过Hive进行查询,为将来数据清洗和数据分析 提供基础。五、课程内容与要求知识块知识点课程目标课时案例先导知识Linux系统Lin
5、ux基础先导课程,以掌握Linux基本操作未基础,加上对Linux操作系统的进程管理的知识,Linux-常用命令介绍Linux-shell 的特殊符号以及VI编译工具Linux-高级指令(系统管理、查询、作业控 制、进程管理和Linux 三剑客)为后续的部署打下基础。主要能够熟练编辑和配置Linux下的系统义件并能够查找文件和文字Linux-环境艾量、初始化文件和定时服务Linux-shell 脚本及编程Linux-备份工具Linux-安全性Linux-网络互联Linux-软件的安装和日志大数据基础大数据概论大数据背景能够高度概括大数据系统的前世今生,实际了解企业里面使用的大数据的场景大数据基
6、本概念大数据案例大数据技术HDFS分布式文件系统HDFS简介掌握DFS架构,配置及日常管理HDFS基本架构使用场景核心设计体系架构命令行使用JAVA 接 口运行机制IO操作Hodoop集群安装部署Linux环境准备理解Hadoop生态,能够安装并验证Hadoop集群。并实际操作在现有生态 增加组件的安装及调整方式按照JDK按照并配置Hadoop启动并验证Hadoop集群MapReduce计算框架编程模型Wo rdCount 高级编 程编程案例应用编程开发MP工作机制和YARNYARN平台简介YARN结构YARN资源调度作业调度Hbase分布式数据库简介理解和掌握HBase的原理及操作,并能对H
7、Base做日常管理安装部署和Hadoop的关系核心功能模块基本概念Hbase Shel命令行工具JAVA客户端操作MAPreduce批量操作 HBASE块数据导入HBASE核心概念高级特性flume海量日志采集系统简介选修,建议学员能 够通过自学布置完 成。安装部署结构核心概念KafKa分布式发布订阅消息 系统简介选修,建议学 员能够通过自学布 置完成。核心概念按照部署zookeeper分布式资源协调系统简介必修,能够单 独完成配置并在资 源出现状况时,能 够自动切换。安装部署工作原理客户端使用离线计算工作引擎azkaban使用能够实际部署并做配置安装部署ETL 工具 sqoop应用理解ETL的实质,并了解ETL在大数据清洗中的作用安装部署数据仓库查询HIVE基本概念掌握Hive的安装部署及其他的安装部署数据定义数据查询内置函数和UDF自定义函数和UDAF UDTF实时计算storm实时流计算框架简介能够实际部署并做配置架构按照部署核心概念和数据流模型编程实例Spark Streaming简介能够实际部署并做配置架构按照部署核心概
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 家具厂家具喷漆工艺制度
- 小学美术线描技巧期末复习计划
- 劳务公司培训合同(标准版)
- 小学英语教师教研活动推动计划
- 部编版三年级语文课文教学计划
- 2025年泌尿外科肾结石碎石术后并发症防治答案及解析
- 小学英语教育信息技术应用能力提升工程2.0专业能力提升计划
- 部编版小学五年级语文教师交流计划
- 2025年肿瘤科治疗方案制定与执行考试答案及解析
- 2025年康复护理学实践技能培训考核试卷答案及解析
- 2025年吉林省中考语文真题(含答案)
- 2025高级会计师考试试题及答案
- GB/T 40565.2-2021液压传动连接快换接头第2部分:20 MPa~31.5 MPa平面型
- GB/T 38537-2020纤维增强树脂基复合材料超声检测方法C扫描法
- GB/T 11446.10-1997电子级水中细菌总数的滤膜培养测试方法
- 儿童生长发育监测课件
- 混凝土结构跳仓施工方案
- 页岩气开发地震监测技术要求DB50-T 1234-2022
- 实验室病原微生物危害 评估报告
- 科技项目申报专员系列培训(技术攻关项目)
- 品质异常处罚细则及奖罚制度
评论
0/150
提交评论