大数据离线计算系统

上传人：孙*** IP属地：江苏上传时间：2023-10-07 格式：PPTX 页数：17 大小：405.29KB 积分：6 举报 版权申诉

已阅读5页，还剩12页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

大数据平台-离线计算主讲人：杨哲目录聊聊离线计算

项目整体构架

项目有哪些数据制定采集规范Flume数据采集拓扑

Flume数据采集构架

Flume自定义拦截器MapReduce数据拆分元数据配置

MapReduce数据清洗Hive高级函数Sqoop同步数据到mysql聊聊离线计算某些行业数据大多存在在数据库中，数据平台从从库中采集数据，但是由于系统不完善造成数据质量问题，数据平台产生出一堆垃圾报表。每个业务线由一个运维人员从从库中导出数据文件，数据数据文件数据有问题则由该负责人承担责任后来大部分数据都以日志的方式提供给数据平台项目的整体构架我们有哪些数据见excel表数据采集规范数据结构：所有种类的数据都是记录在同一个文件中，比如pv、play等数据。每个种类的数据的数据格式都是不一样的，需要通过url区分每个种类的数据参数顺序不一样，需要我们对每个种类的数据定义元数据，数据拆分需要此元数据数据采集规范：日志数据记录在多台日志服务器上，每个小时会生成一个文件，文件命名为2017052412.log文件会放到固定的目录，以便flume采集采集数据的时候需要添加文件名头信息，根据文件头解析出天和小时，并设置天和小时的头，在写hdfs时需要用到这些头信息。每个Agent包括三个只要组件：Source、Channel、Sink;Source用于接收数据或从本地文件系统接收数据，每个Source可以连接一个或多个Channel；Channel是被动组件，缓冲已经接收到的数据，它像一个队列，Source写入它，Sink从它读取。Sink从Channel读写事件并把事件推送到下一个阶段(比如HDFS),一旦Sink成功将事件写入到下一个阶段则会通过事务提交通知Channel删除这些事件。Flume

AgentFlume拓扑-Agent连接Flume拓扑-聚合Flume拓扑-多路Flume拓扑-load

balance数据采集构架分布式缓存分布式缓存YARN分布式缓存工作流程具体如下:步骤1客户端将应用程序所需的文件资源(外部字典、JAR包、二进制文件等)提交到HDFS上。步骤2客户端将应用程序提交到ResourceManager上。步骤3ResourceManager与某个NodeManager通信，启动应用程序ApplicationMaster,NodeManager收到命令后，首先从HDFS下载文件(缓存)，然后启动ApplicationMaster步骤4

ApplicationMaster与ResourceManager通信，以请求和获取计算资源。步骤5

ApplicationMaster收到新分配的计算资源后，与对应的NodeManager通信，以启动任务。步骤6如果该应用程序第一次在该节点上启动任务，则NodeManager首先从HDFS上下载文件缓存到本地，然后启动任务。步骤7

NodeManager后续收到启动任务请求后，如果文件以在本地缓存，则直接运行任务，否则等待文件缓存完成后再启动。各节点上的缓存文件由对应的NodeManager管理和维护。考虑到磁盘空间的有限性，NodeManager采用了一定的缓存置换算法定期清理失效文件。队列在队列root中定义了A和B两个队列，分别占用40%和60%的容量root├──

A└──

B容量为总容量的40%，不设置最大容量，即最大可用整个集群资源100%容量为总容量的60%，最大容量为总容量的75%，如果队列B的容量60%用完了，在队列A有空闲的资源下可以供队列B使用15%，A队列始终会有25%的空闲资源供自己直接使用。├──B1容量为B队列容量的50%，不设置最大容量，默认都可以用完B队列所有的容量，即总容量的最大75%。└──B2容量为B队列容量的50%，不设置最大容量，默认都可以用完B队列所有的容量，即总容量的最大75%。面试1、有哪些数据（见excel表格）、总体流程flum

24台日志机器，24个日志采集agent,5台聚合agent高可用的拓扑结构2、采集的细节3、mapreduce、hdfs、资源管理器block

64M

2个10M的文件上传后会有几个block

2个文件上传流程、高可用应用程序设计流程、分布式缓存资源管理器种类、队列资源抢占4、hive

sql5.数据量

每条是0.39Khadoop

75节点8核32G

4T500G+20几种日志清洗计算(1小时之内)500G

1024/64M=8000

map8000/75=107

map/台107/16=7并行map64M/0.39k=16.8万条总体来说所有任务在3到4小时完成2个10M的文件在一个目录下，此目录是mapre

人人文库> 全部分类> 图纸下载 > 毕业设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据离线计算系统

文档简介

温馨提示

最新文档

评论

大数据离线计算系统

文档简介

温馨提示

最新文档

评论

相关文档