FFA2024分论坛-生产实践 合辑-部分1_第1页
FFA2024分论坛-生产实践 合辑-部分1_第2页
FFA2024分论坛-生产实践 合辑-部分1_第3页
FFA2024分论坛-生产实践 合辑-部分1_第4页
FFA2024分论坛-生产实践 合辑-部分1_第5页
已阅读5页,还剩471页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

节点自愈节点自愈算法算法丰富的Connector生态场景使用场景使用方式商业化数仓数仓热点机器单个机器瞬时负载过高热点机器单个机器瞬时负载过高作业硬件故障作业硬件故障网络异常网络异常硬件故障热点机器网络异常某机器掉盘导致该节点上的作业进行Checkpoint载过高导致该节点上所有相关作业出现延迟交换机故障导致转发表机器通信时频繁丢包导致作业大规模频繁重启排查时间长:大量作业失败,很难通过人工排查短时间内定位到真正的问题节点爆炸半径大:问题节点出现在高优队列则涉及较多高优任务,若未能及时排除异常节点则会导致资损投票选出投票选出延迟检测器延迟检测器020213·根据作业报警配置确定触发阈值 ·延迟并发数小于整体并发30%32 32·作业必须存在高于阈值的延迟 ·问题并发数小于整体并发30% ·问题并发吞吐低于平均值80%000111222·作业必须存在高于阈值的延迟 ·问题并发吞吐低于平均值50% ·问题并发算子延迟高于平均值80% ·问题并发数小于整体并发30%000111222102102 ·问题并发数小于整体并发30%·节点上所有问题作业拥有投票权·不少于50%的作业认为该节点为可疑节点则输出根据Task失败情况寻找可疑节点,以下情况将被记录 心跳超时之间网络错误TaskManager出现两次记录出现三次记录 ·数据倾斜难以判定·指标可能存在延迟·数据质量问题也可能导致假阳性·网络丢包率波动并未导致作业失败·拉慢节点:调低指定节点在调度时的选择权重·拉黑节点:禁止新进程调度到指定节点·驱逐作业:驱逐节点上部分或所有作业·业务或机器指标得出的·业务或机器指标得出的·业务和机器指标相互印·黑名单聚合节点MasterFailover与Task单点恢复异常节点自愈耗时长任务断流时间长Task单点恢复Task单点恢复MasterFailover-为什么耗时长? 如何做到不断流? ·Task上报信息,Master做信息重建 ·结合作业状态判断是否需要ReleaseTask ·ReleaseTask行为延时处理 ·OperatorCoordinator状态重建TM侧rr 映射关系SharedSlotSourceReaderSourceReaderSourceReaderSplitAssign的流程(以Flip-27KafkaSource为例)·chechpoint状态滞后1 ·Coordinator恢复失败集齐后统一FailorCancel,避免额外状态管理A2A2A2…Netty通信模型 ·上游主动清理不完整subpartition(社区已实 只重启失败TaskRegion+计次回退-rAbnormalerrorrateAnoTHANKTHANKYOU实例级稳定性体系建设实践实例级稳定性体系总结实例级稳定性体系总结价值与展望全球部署X个地域X千个用户实例实时链路大屏FlinkTPS超大规模总规模X百万核双十一峰值TPS突破XX亿阿里云控制台&SDK数据库数据库阿里云控制台&SDK数据库数据库日常应急80%来自单客户动失败动慢日常应急80%来自单客户日常应急80%来自单客户作业非作业非动失败动慢处置报警处置不易找到关键指标不易找到关键指标处置报警处置不易找到关键指标不易找到关键指标处置报警处置不易找到关键指标不易找到关键指标不科学不科学问题思路问题思路2.运维能力不够系统化3.产品稳定性度量困难2.运维能力不够系统化3.产品稳定性度量困难问题思路问题思路1.单客户问题频发2.运维能力不够系统化3.产品稳定性度量困难1.稳定性视角由集群级1.单客户问题频发2.运维能力不够系统化3.产品稳定性度量困难问题思路问题思路并围绕其增强自动化3.使用可用率度量稳定性Flink作业能否成功启动与停止建设以提高关键链路的可用率为目标的实例级稳定性体系Flink实例级稳定性体系项目大图变更熔断外部协作外部协作发现诊断恢复异常预防发现诊断恢复异常预防Flink实例级稳定性体系项目大图变更熔断外部协作外部协作发现诊断恢复异常预防发现诊断恢复异常预防实例级稳定性体系实例级稳定性体系04可用率运营提升方案04可用率运营提升方案作业启动、停止、删除作业启动、停止、删除用户探针8阿里云控制台&SDK探针作业管控面计算面K8s集群用户探针8阿里云控制台&SDK管控面计算面为每个VC创建独立Namespace不参与计费K8s集群监控作业定义部署多地热备高可用稳定灰度分批推平日均百万频次探测残留资源巡检CREATETEMPORARYTABLECREATETEMPORARYTABLEdatagen_source(作业定义部署多地热备高可用稳定灰度分批推平日均百万频次探测残留资源巡检CREATETEMPORARYTABLECREATETEMPORARYTABLEdatagen_source(04可用率运营提升方案实例级灰度发布实例级灰度切流。变更三板斧实例月不可用时间速算实例级灰度发布实例级灰度切流。变更三板斧实例月不可用时间速算2.指标类巡检类型问题2.指标类巡检类型问题2.指标类巡检类型问题类型问题AlOps智能巡检+LLMOps智能巡检(算法服务)实体&观测观测数据实体&观测观测数据维度维度查询Tool时序画像时序建模→风险判别时序画像LLM知识库样本建模—SRE介入诊断结果反馈打标诊断结果AlOps智能巡检+LLMOps智能巡检(算法服务)实体&观测观测数据实体&观测观测数据维度维度查询Tool时序画像时序建模→风险判别时序画像LLM知识库样本建模—SRE介入诊断结果反馈打标诊断结果*大模型引擎:*大模型引擎:*可见性:产品线:流/批节点异常集群水位趋势风险事件集群水位趋势风险事件陡增公开仅租户内可见flink智能体说明:你是一个flink的集群资源管理员,能够回答集群相关的任何问题。集群的水位是cpu使用数/cpu总数的百分比。智能体说明:其中集群逻辑水位百分比=集群使用的CPU核数/集群的CPU总核数。如果水位过高,可能是cpu使用过高,也可能是cpu总数过低。cpu使用过高是由于flink作业导致的,cpu总数过低是由于集群节点数少,提供的cpu过少导致的。分析时请先从异常情况开始进行下钻分析。陡降分析的时候,建议查询前后1小时的数据。注意时间数据格式为YYYY-MM-DDHH:MM,陡降*可见性:流/批集群水位趋势风险事件集群水位趋势风险事件陡增flink其中集其中集于flinkf分析时分析的工具绑定:Flink集Flink集群CPU逻辑水位查询工具v自由调用V陡降VFlink集群作业数查询工具陡降V集群水位趋势风险事件集群水位趋势风险事件陡陡降陡增流/批流/批节点异常*可见性:公开仅租户内可见产品线:flink集群的其中集工具绑定:分析时HH:MNFlink集群CPU逻辑水位查询工具v自由调用请问8.1日01:30收到了a集群CPU逻辑水位超限报警,flink集群资源管理员V2(flink_manager_v2)8.1日01:38集群CPU逻辑水位超限据的顺因是作业数量的端加导致cPU使用率上开。该时段内作业平均地加了约■个,与此同时,cPU使用达到了78.53的高水位,接近或超过了系阈值,而CPU总核数保持稳定,未有增加,因此作业负载的增加是导致此次报警的主要原04可用率运营提升方案SLI、SLO、可用率与SLA定义实践探测作业生命周期总耗时<=X分钟可用率(服务周期总时长-SLOBreak总时长)/服务周期总时长SLA可用率不达标会产生赔付SLI、SLO、可用率与SLA定义实践探测作业生命周期总耗时<=X分钟可用率(服务周期总时长-SLOBreak总时长)/服务周期总时长SLA可用率不达标会产生赔付20/30分钟20/30分钟15分钟 粒度集群级影响面根据异常组件推测理论影响面人工统计,格式杂乱,信息不全 现在现在粒度实例级影响面根据探针结果获得实际影响面自动拉取播报,信息全面准确 通知卡片实例级影响面快照与累积明细影响面辅助应急决策当前管控状态当前计算状态华北2(北京)0◎●华北3(张家口)◎◎◎◎○●华北6(乌兰察布)◎o◎◎o◎◎华东1(杭州)◎◎◎◎○◎◎◎◎◎◎◎华南1(深圳)◎o◎o◎·中国香港○o◎o日本(东京)◎◎○◎◎◎○美国(弗吉尼亚)◎◎◎◎◎o美国(硅谷)◎◎◎◎印度尼西亚(雅加达)◎◎○●马来西亚(吉隆坡)○◎○◎○○●英国(伦敦)◎◎0德国(法兰克福)◎O◎◎◎◎ 大数据技术智能助理白机器人计算平台大数据技术智能助理白机器人计算平台Flink子产品状态通知异常异常实例级影响面快照与累积影响面明细影响面辅助应急决策明细影响面辅助应急决策 通知卡片实例级影响面快照与累积明细影响面辅助应急决策 「异常处置」诊断定界定位诊断实时看护作业运行生命周期的全过程能力启动e.g.由于剩余资源不足,导致作业无阶段法启动,请扩容解决法正常恢复,请重启解决e.g.由于产品老版本过低隐患,导致停止作业慢,请重启解决丰富异常诊断规则覆盖高频且复杂问题场景用户启动Flink作业网络接入网络接入应用网关管控面JobManager主容器启动Super集群资源创建VC集群资源创建计算面作业运行面向业务增加诊断项原子面向场景组织诊断DAG 接口层运行风运行风险配置风险数据风险停止缓慢资源异常网络异常快照异常运行异常启动缓慢启动失败历史错误变更抖动节点宕机决策树服务层决策树事前风险事前风险存储层数据层事件日志数据层事件日志数据源 接口层运行风运行风险配置风险数据风险停止缓慢资源异常网络异常快照异常运行异常启动缓慢启动失败历史错误变更抖动节点宕机决策树服务层决策树事前风险事前风险存储层数据层事件日志数据层事件日志数据源 接口层运行风运行风险配置风险数据风险停止缓慢资源异常网络异常快照异常运行异常启动缓慢启动失败历史错误变更抖动节点宕机决策树服务层决策树事前风险事前风险存储层数据层事件日志数据层事件日志数据源 田运行中部署详情状态总览数据曲线田运行中部署详情状态总览数据曲线运行事件状态集管理作业日志自动调优血缘关系智能诊断告警配置健康评分:76开始诊断健康评分:76开始诊断山√资源分析V展开详情将作业并发从7改为35立刻应用vState分析 ◎运行中停止创建快照删除大数据技术智能助理由机器人服务执行中,请稍候服务执行中,请稍候德国(法兰克福)计算面发生时间:发生时间:>作业分析>作业分析影响面影响客户:当前3/累计3影响实例:当前13/累计138异常工单[1]来源:计算集群批量实例影响客户:当前3/累计3影响实例:当前13/累计138异常工单[1]来源:计算集群批量实例SLOBreak异常影响:用户实例(VC)启停异常全局观测定界:定位:网卡未挂载“已关闭”ChatOps自助机器人报警自动化处置卡片 容量容量降级业务故障日常服务故障日常K8s节点物理机名称5分钟15分钟60分钟X月X日XX用户Flink任务批量启【】客诉工单【】GOC应急【】不达标【】错误●定界准确性【】准确【】自愈【】不达标【】无效事中事中事后线上问题可以明确归属到对应服务可运营可用率波动具备可解释性根因根因可用率目标合理并具备提升路径线上问题可以明确归属到对应服务可运营可用率波动具备可解释性根因根因可用率目标合理并具备提升路径图日图日外部协同外部协同产品可用率线上全部实例可用率的均值赔付实例占比可用率不达标的实例占比配置错误Advisor发现问题Advisor发现问题使得各相关方看到项目的价值甚至是预期外的收获是可用率目标持续提升的关键探针探针 稳定性协同协同客户1.1服务周期:一个服务周期为一个自然月。1.2服务周期总分钟数:服务周期内的总天数×24(小时)×60(分钟)计算。1.3服务不可用分钟数:在连续3分钟(或者更长的时间内,客户所有试图与指定的Flnk全托管实例建立连接的尝试均失败,则视为这段时间内该Fink全托管实例服务不可用。在一个服务周期内单个Fnk全托管实例不可用分钟数之和即服务不可用分钟数。1.4月度服务费用:客户在一个自然月中就单个Fink全托管实例所支付的服务费用总额,如果客户一次性支付了多个月份的服务费用,则将按照所购买的月数分摊计算月度服务费用。1.2服务周期总分钟数:服务周期内的总天数×24(小时)×60(分钟)计算。实时计算优化实践陶王飞|抖音集团数据工程师羊艺超|抖音集团数据工程师未来规划未来规划视频《体然我行我素》knchotsoWrn0年坑选平-上万睡火监程箱-你玩的相干稿美首页特点视频场景特点:流量大直播场景特点:状态大数据源数据存储书数据存储书业务应用品品报表分析实时数仓异常恢复慢资源消耗大异常恢复慢资源消耗大66子作业1(机房A)子作业2(机房B)子作业2(机房C)优化DWD扩展Shuffle优化Shuffle优化视频*1天累计作业(高优场景&宽表建模)高低优作业&队列拆分自动化容灾JIT编译失败占40%资源占40%资源GC资源消耗20万+头部任务分析问题总结能力推广资源消耗20万+业务应用数据存储实时数仓业务应用数据存储推荐策略数据产品推荐策略数据产品视频*1天流量热点借助cache,请求仍然达到千万级。无论是成本还是链路稳定性,压力大。现状:亿级RPS下,维表关联在开启缓存,且缓存命中率90%+时,维表关联qps仍高达千万级视频(几千亿条)、用户维表(离线)、监控规则(百万条)作业1(机房A)作业2(机房B)作业2(机房C)大流量维表关联优化-解决方案【subtask1【subtask2【subtask2【subtaskN算子算子waterwater据【subtask1【subtaskN【subtaskN维表构建时间一应用场景:大流量场景下的维表关联,业务对维度更新感知接受时间在分钟级别收益:部分Flink作业无需访问Abase,节约400万+qps。相关任务追数据场景下不再有外部访问瓶颈。视频*1天作业数据重复下大流量幂等计算-解决方案幂等处理:保留同1min最新结果1小时粒度结果大流量幂等计算-性能优化数据时间粒度:数据时间粒度:1分钟=60000msbucketsize=上卷时间粒度/数据时间粒度上卷时间粒度:1天=86400000msmaxDiffTimes[1440]590005910059000输入数据:(10,10,1),1653840299000基础时间戳=946656000000(对应日期2000-01-0100:00:00)bucket=(timestamp-基础时间戳)%上卷时间粒度/数据时间粒度=(1653840299000-946656000000)%86400000/6bucket上的最大时间戳偏移量:bucket_diff_time=(timestamp-基础时间戳)%上卷时间粒度%数据时间粒度=(1653840299000-946656000000)%86400000%6maxDiffTimes[4]<59000,所以metrics[4]="10.10.1.max1440个分钟1440个分钟bucket视频*1天作业视频*1分钟作业视频*1天作业视频*1分钟作业8流量营收…流量营收…>>状态)→稳定性差&重启恢复大2000core、18T慢状态)→稳定性差&重启恢复大状态优化-场景分析直播间特点:开关播时间、开播时长不固定最大30天最大30天开播时长状态大小占比分析时长<1天多存了6天+少存分析结论:状态固定TTL与直播间动态TTL矛盾导致99%+状态存储时长过长,5‰oo+过短解决思路:对齐状态TTL和直播间TTL,实现直播间关播后才删除状态大状态优化-方案设计直播流量数据MQ直播间关播MQ启发启发流量接收关播消息删除流量接收关播消息删除聚合结果MQ直播流量数据MQ直播间维表聚合结果MQRetract机制删除状态高低解耦扩展性差优不兼容高中资源消耗高中6方案落地table.exec.state.ttl=30d①运行参数配置/**+USECOMPACTIONFILTER('path'='xxx.xxx.clearudf','field'='room性能优化方案收益优化分类优化手段优化收益>业务视角:支持直播间场次30天累计计算技术视角:直播场次作业状态平均下降60%;CPU资源使用上涨CPU涨幅:400%→70%场景(作业平稳运行)场景(作业平稳运行)目标目标流处理批处理分析结论:追lag场景下流处理的低吞吐现状与预期的高吞吐目标存在矛盾解决思路:流处理作业动态监测消费积压指标判断作业对高吞吐和低延迟的倾向性,通过在当前算子上引入Sorter排序及动态调整MiniBatch大小的能力实现流批执行模式动态切换6大流量回溯优化-方案设计③动态启用Sorter并调整MiniBatch大小①积压检测②检测结果传递自动检测积压状态的时间间隔createtabledwd_log_live_show_even'scan.partition-lag.discovery'scan.backlog.max-avg-partit'scan.backlog.min-avg-parti方案收益未来规划未来规划未来规划恢复场景优化通用优化场景优化通用优化汽车之家实时平台4.0建设实践Paimon丰富的功能给数仓带来提效 用的功能·数据实时/批量写入·丰富的合并引擎 ·数据全增量的查询·历史版本回溯99 计计算引擎AoMg0M加速数据加工个计算查询个计算查询台台FDFDM存储层台台个数据加工离线链路通过使用Paimon流量宽表加速流量数据的清洗 Paimon流量检查数据完整性策略:流量数据加工链路的时效性整体提升1小时以上排序过Paimon的数据文件查询SQL:select*from查询SQL:select*fromtablewherefield='c'排序合并之后,通过查看排序字段的值在每个文件的范围在执行计划阶段更加容易滤掉不需要的文件Mapper数12131个24-1367个业务库数据实时入湖通过调度任务天/小时周期同步业务库数据入仓主键表通过业务库CDC数据更新Paimon主键表业务库数据时效性从天/小时级别提升到分钟级别 设置源设置源Topic信息接入作业:1482接入作业_mysql_binlog_chuangkeyun_mw0_3306√□cky_stars_formal.s□cky_stars_formal.starcky_stars.star_product_it□全选2.设置目标Paimon的信息_rtsnapshot.time-retained1数据源表: 计算引擎/表类型Paimon表Hive表Hive引擎spark引擎优化后,不同引擎查询Paimon表对HDFS访问次数均有减少,低于对Hive表的访问次数家使用 ·使用Hive引擎查询,Paimon表对HDFS的请求次数较优化前减少83%,比Hive表减少65% ·使用Spark引擎查询,Paimon表对HDFS的请求次数较优化前减少49计算引擎/表类型Paimon表(优化前)Paimon表(优化后)Hive表Hive引擎spark引擎排序合并localsampleglobalsample读取数据排序合并localsample排序合并解决采样阶段瓶颈: --table_confsort-compaction.local-sample.m解决数据大小倾斜: --table_confsort-compaction.range-strategy=SIZE效果:资源相同的情况下效率会有2倍以上的提升13分钟22秒013分钟22秒0自动调度18分钟47秒0自动调度11分钟5秒0自动调度12分钟7秒0自动调度10分钟15秒0自动调度17分钟6秒0自动调度10分钟38秒0自动调度13分钟10秒0自动调度13分钟35秒0自动调度自动调度0自动调度0自动调度0自动调度0自动调度0自动调度0自动调度0自动调度背景背景:·实时集群资源紧张,资源需求日益增长,较21年任务数和计算量都增长了一倍·实时离线任务分别在独立集群,不能互相错峰利用资源错峰利用服务器资源,保证资源被充分利用在治理任务过程中沉淀出治理方案和引擎改造,赋能给用户队列监控队列监控调度客户端开发客户端Spark客户端离线队列 任务离线资源 8.将伸缩容后的配置持久化8.将伸缩容后的配置持久化真正执行伸缩容操作3.通知任务伸缩容.从prometheus拉取metric,计算健康及资源评分9.反馈伸缩容结果,异常恢复策略处理平台服务平台服务1.请求伸缩容Yarn提供基于时间,资源量等规则的队列调度机制,将任务调度到实时队列 ·混部时间段调度规则:指定时间段开启任务到队列的动态绑定,例如:00:50~09:00 背景背景:灯塔平台灯塔平台诊断类型:内存浪费CPU浪费CPU内存比例不合理重启时间配置时间过长(核数)(个)(个)负责人诊断类型:内存浪费诊断类型:诊断类型:CPU浪费分析造成Full分析造成Fullgc的原因,0数据/空闲slot数量占比24小时内FullGC次数24小时内CPU综合使用率小于25%的时间占比24小时内CPU(分TaskManager)综合使用率[含补偿…24小内GC释放的内存大小的平均相对占比24小时内任务网络队列占满的时间占比必须CPU使用率低,请减少Slot数或者降低Slot与CPU的PU综合使用率小于25%的时间映射比例,如果存在数据倾斜,请调整数据交换策0---线程ID线程名线程组>18LegacySourceThread-Source:kafkaV2-with-wakanda-…FlinkTask比>120LegacySourceThread-So>>116LegacySourceThread-Source:kafkaV2-with-wakanda-.FlinkTask..47.48%2377ms实现步骤:请求的时候将请求的时候将 效果:任务诊断助手、任务指标查询助手感知+规划智能智能查询排查平台@实时平台助手②实时任务5265为什么重启@实时平台助手②实时任务5265为什么重启任务5688为什么消费延迟任务5688为什么消费延迟任务5688为什么消费延迟任务5688在最近1小时内,平均延迟数为70085779。了100,可能会导致任务处理能力下降,从而导致任·主机名:128-246-100.If.autohome.cc,·主机名:128-248-27.If.autohome.cc,load1:94这两台主机的load1值均超过了阈值80,说明@王刚正在查询任务指标,稍后将根据查询到的信息实时平台助手卤机器人17:08@王刚1.错误分类:用户配置(代码)2.错误原因:堆内存不足导致的内存溢出异常。3.错误原因分析:根据异常堆栈信息,“java.lang.OutOfMemoryError:Javaheap4.改进或优化建议:增加taskmanager内存,参数用户用户回复4094最近3小时cpu4094最近3小时cpu使用率查询时间:2024-11-0816:42:26到-If_hadoop_apollo_28_240_2...随时随地按需查询随时随地按需查询指标页面复杂,指标众多,翻看耗时结果解析用户回复查询模版回复查询参数未来规划未来规划1.探索Paimon+StarRocks近实时OLAP场景2.Flink引擎版本升级3.推广FlinkCDC替换自研的业务库CDC微信扫描二维码,关注我的公众号DataOps能力建设未来规划与展望是否新增任务务数是否新增任务准确性验证管理规范能力DataOps是一种协同数据管理实践,专注于提升跨组织的数据管理者与数据消费者之间DataOps是一套实践、流程程的数据观点与敏捷软件工程中的自动化和方法相结合,以提高质量、速度和协作,促进信通院DataOps是一种现代数据研发DataOps以安全、高质量、高通过人员、技术和流程间的紧密协同关系,实现对数据研发运营管理全生命周期的持续优化,进而提升组织数据研发运营管理工作的自动化、敏捷化、协同化水构建高效协同机制构建高效协同机制产质量产质量平台·全流程管控沉淀至工具平台●搭建需求全链路度量及反馈体系精化数据运营,实现降本增效●搭建需求全链路度量及反馈体系精化数据运营,实现降本增效管控规划持续开放共建开发版本控制运维自动化测试反馈自学习自学习ExtensionPipelineOpenEventOpenAPI规划-流程管理-能力介绍规划-流程管理-能力介绍定义需求管理流程作业变更与需求绑定需求流程需求开始需求评审开发&自测部署上线验收交付绑定开发流程状态更新绑定作业开发数据测试流水线发布规划-流程管理-方案实现规划-流程管理-方案实现【营收活动POO开发进行中已进行5天8|田|8复制标题和链接|…求排完成+新增任务需求模版*实时需求需价值回收需求交付需求临收kStreamingsQL智能/DE指×需求管理绑定需绑定需求创建需求C【营收激励】拓展宝石积分激励…直播中台-国内数据需求开发-环境管理-能力介绍->线上环通过项目控制台开启多环境,定义任务在不同环境之间的流转规则(测试环境->线上环境)以及元信息映射(数据源/队列/配置)来实现生产和测试环境隔离。提交部署提交部署数数据源/队列/配置开发-环境管理-方案实现进行环境配置加载,不同环境部署的代码会在提交阶段根据环境配置动态生成。生产版本测试版本草稿版本复查人上线说明数上线检查提交环境配置上线检查重构测试-数据自测-能力介绍需求ID请输入信息Owner请输入信息日期范围开-结新增测试新增测试测试ID创建日期测试表名需求IDOwner搜索重置-则名城不面代码开发实时自测模块实时自测模块勾选自测规则轻量级自测一键质量测试产出单次质量一键提测按钮一键提测按钮测试规范测试规范通知QAQA测试Source参数合理性TM/JM资源推荐Source参数合理性报警配置报警配置Mini-Batch参数合理性部署-上线检测-方案实现部署-上线检测-方案实现数据数据写出数据写出数据检查不通过,任务上线被阻断,请修改任务配置再次尝试遍历筛选匹配规则流式任务上线杉遍历筛选匹配规则结果结果是式中是式中式部署-发布管控-能力介绍部署-发布管控-能力介绍通知通知流水线编排插件集成触发流水线流水线编排插件集成技术技术基于开放能力,进行发布流水线定义与编排部署-发布管控-方案实现采集抽样新任务上线×原有任务迭代×新增指标×双胞切换×值周运维×缩减资源×任务泊理×任务下线×DwD×DIM×DwsxAPP×ADS×ODs×DU3353否是时效性目标:5分钟发现,5分钟响应处理,30分钟恢复。基线操作GG黄鑫0915EECC'sink.metrics.bucketA规划-需求管理开发-环境管理测试-数据自测100%管控部署-上线检测/发布管控运维-基线监控质量质量规划规划●自动容灾入湖场景的应用实践演讲人|陈吉通(顾轩)阿里云高级开发工程师,DataXMaintainer02DataWorks数据集成入湖解决方案的架构和原理03DataWorks数据集成入湖场景的产品化案例分享04未来规划Q发布阿里云正式对外(公有云、专有云)提供服务发布实时同步实时同步数据入湖弹性扩缩容2011201420192020数据平台事业部成立同步中心公有云商业化独享资源组发布新版引擎重构升级数据上云的核心枢纽:异构数据存储、可靠、安全、低成本、可弹性扩展的数据同步平台离线/实时全覆盖支持离线同步,实现数据主动抽取离线/实时全覆盖支持离线同步,实现数据主动抽取实时同步被动接受变更刷新,变更动态同步离线支持50+种数据源,实时支持10+种数据源支持复杂网络无论数据源在哪里,公网、IDC、VPC内等数据集成都具备成熟的办法可以提供连接到数据源的网络解决方案同步解决方案整库迁移、批量上云增量同步、分库分表一键实时全增量安全控制开发生产环境隔离数据源权限安全控制,可分享独享资源组保障高可用运维监控流量控制、脏数据控制资源组使用监控任务告警设置,支持电话、短信、邮件、钉钉10万亿流量控制权限检查权限检查启动集成任务开发态运行态开发态运行态基于基于FlinkCDC框架+DataX(重构后的新版流批一体同步引擎6整库级别同步整库级别同步性能成本Pkshuffle避免数据热点DML/DDL全事件流解析功能特性丰富的T节点能力弹性扩缩容关系型数据库关系型数据库甲增量同步增量同步FlinkCDCSource事件解析数据分发表映射字符串替换Transformer算子阿里云DLF数据湖构建目的端数据湖获取源表表结构映射目标表表结构、生成目标表建表语句映射目标表表结构、生成目标表建表语句·执行目标表建表→→·完成全量数据迁移 对齐启动点位启动增量同步·全量初始化阶段和业务高峰期需要较多的资源·全量初始化阶段和业务高峰期需要较多的资源·数据集成需要支持资源的动态扩缩,达到动态调优和节省资源。消息队列消息队列针对数据集成业务场景,利用AutoCopilot针对数据集成业务场景,利用AutoCopilot能力实现弹性扩缩容业务场景:客户成本下降近50%客户成本下降近50%未来规划rrrDataScientistsMutabilitycauseddivergenceacrosClusterWorkerWorkerNodeManagerWorkerWorkerjobs鹰角基于Flink+Paimon+Trino朱正军|鹰角大数据开发工程师鹰角数据平台架构明日舟泡旧泡姆明日舟泡旧泡姆消息队列数据同步消息队列数据同步观远数据数据质量平台数据质量平台数据权限质量管理平台引擎PolarDB/Hologres(算法侧)引擎引擎Trino1、实时入湖用户门槛高2、历史快照存储成本高场景2、历史快照存储成本高战3、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论