版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
天穹数仓自治能力新实践张功贯-腾讯科技-数据技术架构师DataFunCon#2024个人简介Spark StarrocksSpark10多年大数据技术工作积累,2021年加入职腾讯,KafkaFlume负责平台智能的数据架构工作,推动天穹AI4DataHBaseKafkaFlumeOoziePresto的能力体系建设OoziePrestoSqoopPulsarHiveAzkabanImpalaLogstashPulsarHiveAzkabanImpalaLogstash大模型数据智能HDFS大模型数据智能HDFS1.大数据自治的背景2.天穹大数据自治能力建设3.天穹大数据自治的落地与进展4.未来规划和展望大数据自治涵盖的范畴数据治理数据治理帮助解决问题数据接入数据采集数据存储数据接入数据采集数据存储数据应用业务发生问题数据研发数据研发数据使用管理数据整个生命周期数据使用传统数仓OracleRAC、DB2、Teradata、GreenPlum大数据数仓数智数仓大模型(LLM) ETL(1990-2015)ELT(2005-2020)EtLT(2020至今)数仓模式演进:EtLT崛起EExtractEExtractTransformSoftwareAPISaaSAPITypeTransformLLoadDataDataJDBCLogSyncReverseETLTTransformCheckingBusinessETL提前建模湖仓一体SchemaOnWrite灵活性、扩展性较差无需提前建模Schema无需提前建模SchemaOnRead高灵活性存储、计算复杂度全面升级1.大数据自治的背景2.天穹大数据自治能力建设3.天穹大数据自治的落地与进展4.未来规划和展望腾讯天穹自治平台双引擎策略资源资源资源组健康分相似计算数据采集传统机器学习传统机器学习专家经验平台自治计算数据基线运行时长智能优化双引擎决策诊断力研效定位问题预判问题平台自治计算数据基线运行时长智能优化双引擎决策诊断力研效定位问题预判问题拦截问题数据应用在自治能力建设中“感知能力”放首位做到对数据相关“进程”粒度的感知传统机器学习传统机器学习专家经验平台自治感知力平台自治1双引擎决策诊断力可观测能力的建设传统机器学习专家经验平台自治观测力双引擎传统机器学习专家经验平台自治观测力双引擎让大数据生态的“黑盒”更加透明化11决策诊断力22全链路诊断能力的构建传统机器学习传统机器学习专家经验平台自治平台自治1双引擎决策诊断力决策22组件间的毛刺,稳定性,异常信息不规范,数据计算过程中细粒度的根因分析定位算子粒度的异常识别传统机器学习针对SQL任务,做到算子粒度的诊断传统机器学习平台自治专家经验Querystage平台自治专家经验QuerystageJoinMerge双引擎Join-2决策诊断力1JoinMerge双引擎Join-2决策诊断力Mapjoin优化数据膨胀/笛卡尔积…智能体2Join-1…QuerystageJoinMergeTableScan-3智能体2Join-1…QuerystageJoinMergeTableScan-3QuerystageQuerystageQuerystageQuerystageTableScan-1TableScan-2平台自治平台自治大数据自治的难点与痛点双引擎传统机器学习双引擎传统机器学习专家经验1决策诊断力优化力2优化力2“数据计算”是日常业务中的高频问题资源资源性能性能SparkSpark/Flink资源优化,任务智能基线等SQLSQL引擎选择,智能SQLHint,智能RSS等SQLSQL优化改写,SQL语法纠错,SQL诊数据驱动的资源优化传统机器学习传统机器学习专家经验平台自治平台自治1双引擎决策诊断力让SQL计算更加高效传统机器学习专家经验平台自治双引擎优化力传统机器学习专家经验平台自治双引擎优化力SQL计算引擎的自动选择11决策诊断力22反哺计算引擎传统机器学习专家经验平台自治SQL粒度的数据体系双引擎决策诊断力优化力Tencent传统机器学习专家经验平台自治SQL粒度的数据体系双引擎决策诊断力优化力TencentSuperSQL实现SQL编译过程中的智能优化1122智能SQLHint,智能RSS等第二引擎-SQL智能体70%以上的任务都是SQL任务平台自治传统机器学习专家经验平台自治传统机器学习专家经验HiveSpark…SQL、Java等StormFlinkSparkStreaming…秒级/毫秒级Scala等MysqlOracleDB2…SQL分批分时/实时入库PrestoKylinClickHouseStarrocks…秒级/毫秒级SQL双引擎决策122第二引擎-SQL智能体传统机器学习专家经验平台自治SQL智能体双引擎SQLAnswer传统机器学习专家经验平台自治SQL智能体双引擎SQLAnswer混元LLM让SQL从研发到计算更加简单高效11决策诊断力22多轮对话,问诊模式构建平台自治平台自治第二引擎-SQL智能体双引擎传统机器学习双引擎传统机器学习专家经验1决策诊断力22让大模型拥有更强大的SQL领域知识现网指令微调基座模型基座模型1.大数据自治的背景2.天穹大数据自治能力建设3.天穹大数据自治的落地与进展4.未来规划和展望算子粒度的回放和诊断细粒度诊断定位,SQL计算过程清晰的数据流透视支持约40个算子粒度的问题点诊断SQL算子粒度的优化通过数据持续打造深度优化的能力SQL粒度的数据体系TencentSuperSQLPresto上测试Case:内存节省90.2GB降至295MTPC-DS测试:99条SQL测试集,支持自动mapjoin的sql数量为57,占比57.75%。SQL引擎选择规避率=(HBO+ML规避SQL数)/(规避数+Failover数)作业任务资源优化黑盒和白盒相结合机制,提升稳定性,并且在资源节省上取得很大的收获•超过50%的内存成本•30%的CPU成本节省在运行时间和资源中寻求一种平衡,β是平衡因子。最优解的寻找方向,从运行的Tmax和Rmax向下寻求最优解。SQL逻辑正确性解析并转换In算子查询自动优化改写成InnerJoin正确性验证性能对比17.19%一定长度的SQL也有优化能力对一定长度的SQL,删除不必要的排序,来进行SQL优化SQL复杂度:中等具备一定的代表性SQL逻辑简化通过临时表的优化方式来对Sql进行优化SQL更加简化逻辑性更强1.大数据自治的背景2.天穹大数据自治能力建设3.天穹大数据自治的落地与进展4.未来规划和展望未来规划和愿景第三阶段第一阶段第二阶段第三阶段第一阶段数据存储数据存储湖仓智能自治数据研发采集/接入/集成数据湖仓智能自治数据研发采集/接入/集成数据计算数据应用智能化的解决方案:•进一步优化计算场景的能力智能化的解决方案:•进一步优化计算场景的能力。•
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026意大利食品饮料行业市场现状趋势竞争态势投资风险评估规划设计报告
- 2026年安防评估安全生产培训协议
- 2026年变电站反恐防暴应急预案演练
- 温州市2025浙江温州市瑞安市面向退役(毕业)大学生士兵招聘事业单位(国有企业)笔试历年参考题库典型考点附带答案详解
- 温州市2025浙江温州市乐清市事业单位引进高层次紧缺人才30人笔试历年参考题库典型考点附带答案详解
- 温岭市2025浙江台州市温岭市殡仪馆招聘编制外人员1人笔试历年参考题库典型考点附带答案详解
- 清城区2025广东清远市清城区农业农村局招聘专项工作聘员3人笔试历年参考题库典型考点附带答案详解
- 深圳市2025年8月广东深圳市光明区统计局招聘一般专干2人笔试历年参考题库典型考点附带答案详解
- 淮阴区2025江苏淮安市淮阴区部分镇机关招聘编外用工人15人笔试历年参考题库典型考点附带答案详解
- 涪陵区2025重庆涪陵区事业单位考核招聘期满三支一扶4人笔试历年参考题库典型考点附带答案详解
- 秋季朋克青年硬核养生节活动方案
- 呼吸功能障碍课件
- 2025年全国高考(新课标Ⅰ卷)数学真题卷含答案解析
- 安宁疗护舒适照护课件
- 城区地下管网维护与运营管理方案
- 桡骨远端骨折护理课件
- 2025年学校食品安全事故应急演练实施方案(含演练脚本)
- 重症医学科护理质控体系
- 太仓用人单位劳动合同(2025版)
- 研发区域管理办法
- 译林版七年级下册英语Unit5 Animal Friends基础专项巩固训练(含答案)
评论
0/150
提交评论