已阅读5页,还剩2页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据研发 课程标准一、课程定位现在企业为了提升客人使用体验,提高业务效率,在大数据蓬勃发展的阶段里,需要对现有业务系统进行转型升级;作为大数据核心部分,大数据研发工程师应用成为有大量数据的企业必备人才,在数据处理,数据分析方面,大数据研发是不可或缺的技能。 随着大数据应用的大量普及,开源框架,比如hadoop,spark等,也得到长足发展。本课程除了着力于统数据的收集和搭建,使得作为大数据的研发/分析带来基础设施,让学员掌握,同时,对大数据的离线/实时处理和部分数据分析进行深度理解和把握。通过本课程,掌握大数据平台和的理念,为将来在不同企业使用各种基础设施的搭建和维护指明方向。 二、课程性质与作用课程性质 大数据研发核心课程。课程作用 大数据研发是整个大数据中最核心一环。在企业丰富应用场景中,标准化的处理和算法不能完全胜任,就需要通过二次开发或者创新开发来达到业务目标。在实际工作中,掌握大数据研发技术需要比较扎实的计算机基础。本课程大纲是完整的课程,实际培训课程中,会根据学员实际情况进行分组。通过本课程的学习,三、课程目标课程教学以生产环境搭建为目标,以实际项目为中心,以合理知识结构分解为手段,在理解大数据平台架构的过程中,主要以实际操作让学员对相关知识点掌握,达到理论与实际结合,教学与企业融合的内容。学员学成后,能够利用流程的大数据平台框架大家生产环境,并且在企业相关架构选择有微调时,能够触类旁通,也能完成搭建任务。课程内容始终围绕全面提升学生的理论和操作的熟练程度、规范化程度以及职业素质三个方面展开。(一)知识目标1. 理解大数据概念及应用场景,先导课程Linux的操作2. 开发语言的掌握,Scala,Python 二选一3. 掌握大数据HDFS、HBase、Hadoop集群搭建及数据批处理。4. 熟练掌握Spark Streaming并能对具体业务计算处理。5. 熟练掌握Storm并能对具体业务计算处理。6. Hadoop生态其他组件的安装和应用,Yarn &zookeeper。7. 离线工具ETL和hive的安装及应用。8. 消息队列的安装及应用9. 日志文件系统安装及应用(二)能力目标1.全局的眼光理解大数据,理解大数据的应用,并有总体的概念。2.理解企业中实际生产环境的大数据搭建,收集,分析,应用的过程。3.具备在实际应用场景中,能对数据处理流程,数据挖掘进行个性化处理。四、课程设计主要指课程设计的总体思路:课程设计围绕大数据基础设施的搭建,研发过程中涉及的离线和实时计算的编程,数据处理及挖掘的个性化处理等几个方面。同时考虑到实际企业生产环境中的应用场景,课程中采用实际案例, 从案例分析、启动、实施、验证各环节剖析讲解,与真实环境同步。课程案例选取: 以搭建支持10GB的数据为目标,在目标3机器上部署大数据仓库,并能实际运行。模拟手机1GB的数据,能够通过Hive进行查询,为将来数据清洗和数据分析提供基础。五、课程内容与要求知识块知识点课程目标课时案例先导知识Linux系统Linux 基础先导课程,以掌握Linux基本操作未基础,加上对Linux操作系统的进程管理的知识,为后续的部署打下基础。主要能够熟练编辑和配置Linux下的系统文件并能够查找文件和文字Linux-常用命令介绍Linux-shell的特殊符号以及VI编译工具Linux-高级指令(系统管理、查询、作业控制、进程管理和Linux三剑客)Linux-环境变量、初始化文件和定时服务Linux-shell脚本及编程Linux-备份工具Linux-安全性Linux-网络互联Linux-软件的安装和日志大数据基础大数据概论大数据背景能够高度概括大数据系统的前世今生,实际了解企业里面使用的大数据的场景大数据基本概念大数据案例大数据技术HDFS分布式文件系统HDFS简介掌握DFS架构,配置及日常管理HDFS基本架构使用场景核心设计体系架构命令行使用JAVA接口运行机制IO操作Hodoop集群安装部署Linux环境准备理解Hadoop生态,能够安装并验证Hadoop集群。并实际操作在现有生态增加组件的安装及调整方式按照JDK按照并配置Hadoop启动并验证Hadoop集群MapReduce计算框架编程模型WordCount高级编程编程案例应用编程开发MP工作机制和YARNYARN平台简介YARN结构YARN资源调度作业调度数据库知识Hbase分布式数据库简介理解和掌握HBase的原理及操作,并能对HBase做日常管理安装部署和Hadoop的关系核心功能模块基本概念Hbase Shell命令行工具JAVA客户端操作MAPreduce批量操作HBASE块数据导入HBASE核心概念高级特性flume海量日志采集系统简介选修,建议学员能够通过自学布置完成。安装部署结构核心概念KafKa分布式发布订阅消息系统简介选修,建议学员能够通过自学布置完成。核心概念按照部署zookeeper分布式资源协调系统简介必修,能够单独完成配置并在资源出现状况时,能够自动切换。安装部署工作原理客户端使用离线计算工作引擎azkaban使用能够实际部署并做配置安装部署ETL工具sqoop应用理解ETL的实质,并了解ETL在大数据清洗中的作用安装部署数据仓库查询HIVE基本概念掌握Hive的安装部署及其他的安装部署数据定义数据查询内置函数和UDF自定义函数和UDAF UDTF实时计算storm实时流计算框架简介能够实际部署并做配置架构按照部署核心概念和数据流模型编程实例Spark Streaming简介能够实际部署并做配置架构按照部署核心概念和数据流模型编程实例大数据研发知识scala基础编程简介基础环境搭建基础编程控制结构和函数u数组映射和元组scala核心概念文件操作基础和多态包的引入类和对象scala高级编程隐式转换XX式参数样例和模式匹配高阶函数特质SPARK SQLdataset 介绍与应用dataframe介绍与应用spark SQL安装部署SAPRKSQL架构和基础该你SPARKSQL简介SparkStreaming实例原理剖析架构简介mllib开发和Graphx简介MLlib的架构MLLib中的算法算法应用案例Graphx简介与核心功能高阶课程负载均衡设计概要rabbitMQ搭建
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年塔里木职业技术学院单招职业倾向性考试题库及答案解析(名师系列)
- 2026年乐山职业技术学院单招职业倾向性考试题库及答案解析(名师系列)
- 2026年泉州幼儿师范高等专科学校单招职业适应性考试题库附答案解析
- 地质模型误差分析
- 房屋抵租金合同范本
- 房屋拖欠还款协议书
- 房屋替换协议书范本
- 房屋清理安全协议书
- 房屋继承调解协议书
- 房屋装修延期协议书
- 门面出租合同excel模板
- 膀胱灌注课件
- (正式版)DB61∕T 5014-2021 《屈曲约束支撑应用技术规程》
- 山东航空安全驾驶培训课件
- 2025年国药集团招聘考试模拟试题及答案解析
- 国家电投集团陆上光伏发电工程典型设计
- 本地生活服务行业研究报告
- 氩弧焊基础知识培训总结
- 叙事医学课件
- 铁路客运礼仪培训需求分析报告
- 2025年卫生高级职称面审答辩(中医内科)在线题库(副高面审)练习题及答案
评论
0/150
提交评论