大数据集群治理与数据治理解决方案_第1页
大数据集群治理与数据治理解决方案_第2页
大数据集群治理与数据治理解决方案_第3页
大数据集群治理与数据治理解决方案_第4页
大数据集群治理与数据治理解决方案_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据集群运维最高文件数2亿+日处理条数3.7万亿+日作业数30万+hadoop集群节点6000+数据容量100P+日处理数据量370T+HDFSYARNKafkaHBaseHiveFlink整理制作:郎丰利1519制作时间:2023年睿利而行整理制作:郎丰利1519制作时间:2023年睿利而行整理制作:郎丰利1519制作时间:2023年睿利而行XXXX客户大数据运维的重要性-大数据平台能力底座XX能力XX能力XX能力XX能力XX能力XX能力XX应用开发应用开发数据建模行业专知赋能业务拓展xx产品xx产品xx产品赋能生态合作伙伴开放平台多方安全计算联合加密建模安全保障平台智能运维平台管理制度管控工具全生命周期安全安全运营应用开发平台数据平台数据仓库数据地图数据血缘算法平台模型管理模型搜索可视化建模快速开发工具组件数据可视化工具组件YARNFlinkMPPk8stensorflowHDFSKafkaHBase时序数据库图数据库算力/存储平台...……CMDBITSM统一监控DevOps流水线管理AIOps智能检测预判Spark虚拟化网络存储数据报表大数据常用组件在大数据项目中的位置数据采集交换数据存储数据计算数据API数据服务计算资源存储资源网络资源传输接口消息队列数据库采集DataX/Canal文件采集FTP/SFTP网页爬虫爬虫流数据采集KafkaFlume分布式文件系统HDFSNoSQL数据库CassandraHBase海量离线计算MR实时查询SQLonHadoopSparkHBaseX86服务器小型机数据中心实时处理&流批融合SparkStreamingFlink调度元数据资产元数据数据质量数据生命周期数据安全数据管理统一调度数据标准数据流工作流数据应用数据平台基础资源YARNHive消息队列Kafka大数据项目经历的几个阶段无序建设阶段良性发展阶段痛点频发阶段梳解乱象阶段整治提升阶段初期为了快速支撑业务,快速上线,并没有统一的规划,无序建设引发的问题随着时间逐渐暴露出来,权限混乱、计算能力下降等痛点问题频发。需成立专项治理工作,通过发现、梳解、整治、促提升实现良性发展。信息化数据化资产化价值化集群治理面临背景、挑战与效果

大数据公司业务高速发展过程中数据业务需求越来越复杂,所需要的算力也越来越大,进一步导致集群的规模越来越大,承担的产品也越来越多,集群面临资源负载过高、资源抢占严重、RPC请求负载过高等问题,存储系统也面临空文件过多、垃圾文件过多、小文件过多、平均文件大小过小、文件数持续增长等一系列问题,存储系统稳定性面临很大隐患,作业又面临执行耗时过长、耗资源大、数据倾斜严重等问题,直接导致数据加工异常率过高、数据具备时间有延迟风险、产品交付面临很多风险。0扩容3年0扩容1000万年成本节约400台+年节约服务器治理效果20%+算力提升提升30%+加工效率降低60%+文件数60%+模型降低问题挑战资源问题集群问题资源负载过高打满时间过长资源抢占严重资源浪费严重存储问题存储负载过高未压缩数据多冷数据占比高存储持续增长计算问题计算耗时间长作业数据倾斜计算耗资源大冗余计算严重集群稳定性差RPC负载过高请求响应时间长大小故障频发文件问题文件数太多小文件太多空文件太多文件持续增长元数据问题数据库太多垃圾分区多垃圾表多缺少数据血缘数据表太多数据价值不明确重复加工多数据字段太多平均大小太小小文件分布不清晰文件夹太多冷文件太多数据量翻倍情况下,资源整体负载降低20%文件数大幅下降60%以上,集群稳定性大大提高整理制作:郎丰利1519制作时间:2023年睿利而行整理制作:郎丰利1519制作时间:2023年睿利而行整理制作:郎丰利1519制作时间:2023年睿利而行集群治理平台技术实现数据采集、数据解析、数据计算、数据存储资源画像自动化巡检租户级大屏集群级大屏全域级大屏数据源NameNodeFsimage集群资源趋势分析SparkJobYARNResourceQueueHDFSAuditLogHiveMetadataHiveMetastoreLogFlinkJobMapReduceJobHiveJob组件JMX队列资源趋势分析CPU使用趋势分析内存使用趋势分析存储画像文件数分布分析小文件数分布分析文件数增长趋势分析文件数增长来源分析文件数多档分布分析空文件数分布分析存储增长趋势分析存储增长来源分析冷热温数据分析未压缩数据定位作业画像耗资源作业分析大吞吐/耗时作业分析高RPC作业分析冗余计算分析元数据画像垃圾库/表/分区定位模型调用频次统计影响范围评估模型数据血缘分析操作审计画像操作来源分析文件增删查分析异常操作分析高RPC来源分析库/表/分区/目录文件精细分析接口机复用严重接口机的应用主要分为四大类,基础数据的采集和加工、产品的数据加工、XX产品的数据加工以及XX产品的数据加工。现在很多接口机存在大量的交叉使用,甚至存在基础数据、产品共同使用一台接口机的情况。接口机复用存在严重安全隐患,一方面服务器资源不能统筹规划,各应用会争抢资源,导致服务器不能健康运行;另一方面会导致用户权限泛滥,难以管理和监控。产品基础数据XX产品XX产品接口机应用基础数据X产品X产品X产品不同业务共用用户的现象非常严重,权限泛滥相当于没有权限管理,安全存在重大隐患,一旦出现问题很难排查。4A权限管理宽松审批申请回收4A权限管理使用者申请权限时,不清楚具体资源细节或为了省事,申请时申报了过多接口机的权限。申请审批时,由于没有时间和精力对权限逐条核对,导致审批失去意义。审批目前权限回收机制依赖权限一年有效期和员工离职,导致无法及时回收人员无关的权限。回收数据资源管理混乱建表使用更新清理建表所有人都有建表的权限,导致现在很多表用途不明,归属不明。使用基础数据表直接对外提供使用,没有采用中间层进行隔离。更新由于无法确认某张表被谁引用,所以有新需求要更新表结构时,确认的工作量非常大。清理尽管很多表不再被使用,但表用途不明,归属不明,不敢轻意进行清理。4A权限管理规范4A权限的申请审批流程采用ITSM工单系统申请者发起工单详细填写申请4A权限的用途、涉及的业务和数据。详细填写《4A帐号权限管理-主账号变更、主机数据库从账号绑定、变更、授权文档》,并作为附件上传工单。数据治理组审核数据治理组对权限清单进行逐条审核,确认每条权限的必要性,将权限控制在满足工作需求的最小权限范围内。领导线下审批依据数据治理组的审核结果,申请者打印《应用系统、网络变更申请单》,线下找相关领导审批签字。申请者补充工单材料申请者将领导签字的《应用系统、网络变更申请单》拍照上传。安全合规部实施安全合规部进行审核后,依据《4A帐号权限管理-主账号变更、主机数据库从账号绑定、变更、授权文档》进行实施。定期梳理并回收4A权限库表管理规范回收所有人建库表权限统一由数据资产管理专员统一进行操作并记录文档DDL需求采用ITSM工单系统进行流程管理使用者发起申请工单数据治理组核审数据资产管理专员实施DDL需求采用ITSM工单系统进行流程管理接口机、用户管理规范接口机唯一使用部门一台接口机只能由一个部门或小组使用,不得跨部门或小组共用接口机。由于当前接口机的数量有限,短期内还存在部分共用的情况。01020304接口机唯一使用业务一台接口机只能为一个业务使用,不得跨业务共用接口机。由于当前接口机的数量有限,短期内还存在部分共用的情况。用户指定负责人用户按组分配,指定负责人。密码安全机制回收所有人的密码;定期更新全部接口机的密码;禁止以用户密码的方式登陆接口机。接口机治理工作接口机治理重新规划接口机用途梳理现有接口机及用户的用途,根据各业务的需求重新规划接口机及用户,避免接口机和用户出现共用的情况。对现有接口机上的业务进行逐步的迁移。数据治理组按业务域,逐步对接口机上的业务进行迁移。基础数据侧的迁移产品侧的迁移产品侧使用接口机和用户采取分阶段迁移,由技术部接手数据加工层的产品,由数据治理组进行迁移,其他产品暂时保持现状。代码管理规范本地修改代码提交gitCICD部署代码变更流程回收开发者生产环境操作权限禁止生产环境直接修改代码大数据平台化建设基础平台HiveFlinkKylin数据开发运维治理平台实时流批融合多租户安全隔离多源异构数据采集敏捷数据建模可视化数据开发数据平台开发IDE元数据管理中心数据生命周期管理AI辅助数据治理数据平台监控智能运维预警故障自愈修复数据集成/采集交换数据开发过程数据治理管控数据运维中心数据服务数据标准管理技术元数据业务元数据元数据存储数据源x域数据x域数据三方数据xx数据其他数据资产价值资产盘点资产转化价值评估资产属性资产运营数据开放数据共享数据合作运营流程评估模型培训宣导资产治理数据标准数据制度数据安全数据质量成本管理资产交付数据集成数据传输数据存储数据接口消息队列元数据检索

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论