版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、技术创新,变革未来数据湖时代的高性能SQL引擎SuperSQL解决方案1. SuperSQL的背景定位3. SuperSQL的技术细节2. SuperSQL的整体架构4. SuperSQL的未来计划目录项目背景:跨数据源分析半结构化、非结构化数据基本关系型数据日志数据数据存放在异构数据源,但需要全部数据来挖掘数据背后的信息异构数据源:不同版本数据源:23数据存放在不同版本的数据源,但版本之间不兼容 (API、数据格式等)项目背景:跨DC、跨集群分析DC 1跨DC数据分析Cross-dc data analysisCluster 1跨集群数据分析Cross-cluster data analys
2、is数据存放在不同集群或者不同DC传统的数据搬迁方式浪费存储和带宽资源HiveHBaseESTBaseHiveHBaseSparkSQLOracleCluster mHivePGESTBaseDC n项目背景:计算引擎各有所长Batch SQL例如,ETL、数据分析、报表分钟到小时Interactive SQL例如,数据采样、交互式查询秒到分钟Operational DDL例如,库表增删改、权限等元数据操作毫秒擅长擅长擅长用户面对不同的计算引擎选择,计算对用户不透明 同一优化规则,开发适配不同的计算引擎,工作重复SuperSQL:跨DC,跨数据源,跨计算引擎的大数据SQL引擎DCCluster
3、 1Cluster mDC 2DC nDC 1ESHBaseTBaseOracleHive解决数据孤岛,降低数据使用壁垒优化资源使用,提升数据使用效率计算最优选择,提升数据使用效率SuperSQL在腾讯大数据中的定位连接端与存储的 统一的SQL引擎1. SuperSQL的背景定位3. SuperSQL的技术细节2. SuperSQL的整体架构4. SuperSQL的未来计划目录整体架构1. SuperSQL的背景定位3. SuperSQL的技术细节2. SuperSQL的整体架构4. SuperSQL的未来计划目录数据源元数据管理(技术1/5)元数据模型设计树结构:每个节点对应的子树形成了一个
4、子命名 空间树节点:包含父节点、子节点列表、节点路径、 名称,以及配置信息select *from test.mytableselect *from dc1.cluster2.pg.test.mytable数据源元数据存储元数据持久化逻辑映射:节点的路径映射到该节点的所有配 置信息物理存储:多种存储方式,包括基于内存(重启 后丢失)、基于Json文件(只读)和基于Hive MetaStore (增删查改)的实现,默认采用Hive MetaStoreSQL算子下推概述(技术2/5)问题1. 如何减少数据的拉取?将数据源相关的计算下推到数据源进行计算,充分利用数据源计算能力的同时,只拉取必需的数据
5、 问题2. 如何判断哪些计算下推?利用RBO,通过规则变换计划树,将有效的算子下推问题3. 如何实现计算下推?将需要下推的计算翻译为下推子SQL,在计算引擎中创建临时视图映射计算下推规则projecttable scanunion allcountprojecttable scan举例:select count(*) from( select col1, col2 from mysql.table union allselect col1, col2 from pg.table )规则应用前projecttable scanunion allsumprojecttable scan规则应用后将
6、count下推到数据源,可以大大减少数据的拉取Aggregation push down规则匹配Aggregation-Union类型将Aggregation尽可能下推到数据源countcount保证语义的正确1. count变换为总sum,子count 2, avg变换为sum/count3. distinct变换为group by不仅仅RBO:JOIN算子示例物理计划树变换physical plan transformt1和t2来自不同数据源,无法下推 假设Join的执行次序一定是从左到右t1和t3来自同一数据源并且t1和t3 join的结果没有膨胀(通过CBO判断)下推计算架构实现下推计
7、算性能表现下推计算性能优势明显,最多27倍的提升数据量越大,下推计算性能优势越明显下推计算并发优化(技术3/5)select a, b, c from t1 where a 10 or d 10 or d 20) and partCol 10 or d = 10 and partCol 10 or d = 20 and partCol 30原理:根据分区、索引或其它列统计信息,为下推数据源 表挑选一个“最好的切分列” ,同时基于该列的最大 最小值生成N个disjoint的分区条件(N可以固定也可 以动态根据数据分布确定)将分区条件拼接到原始下推SQL的Where条件中, 生成N个对应的子查询并
8、发多线程执行N个子查询,合并结果局限:语义复杂时,无法确保拆分子查询结果合并的正确性下推并发性能提升相同数据量下,并发执行与非并发的对比并发下推计算,最多3倍的提升并发度=816时性能最佳CBO:现网框架问题(技术4/5)现有框架问题:单一队列,规则重复甚至冲突,导致 CBO耗时高例如,对10表Join,执行250157条规则,耗时169.574 sVolcano Planner:采用代价优化思想的执行框 架,基于“最优成本假设”,动态规划算法,自 底向上或者自顶向下逐步变换执行计划规则优先队列:新的执行计划节点“触发”对应 可用的规则,并将这些规则添加到队列中分阶段CBOSubQueryDe
9、correlateLogical Optimize PlanningTrimJoin ReorderingAggregation PushdownEnumerable Optimize PlanningcheckPlanTrimAfterOptCalcPhysical planHepPlanner:嵌套In/Exists/ Scalar子查 询转换为JoinRelDecorrelator:去除嵌套查询中的变量关 联性RelFieldTrimmer:去 除各节点的冗余字段 VolcanoPlanner: LogicalRel节点变换 成EnumerableRelVolcanoPlanner:基
10、于不同算法做Join重 排序优化,可选阶段HepPlanner:聚合函数下推子树 以节省数据传输开 销VolcanoPlanner: EnumerableRel节点变换成 JdbcRelHepPlanner:后续检查,确保留存的 EnumerableRel合法性RelFieldTrimmer + HepPlanner:进一步优化去 冗余字段,降低从Jdbc数据源 返回结果的传输开销HepPlanner:Project 和Filter合并为Calc方案主要思想:按照规则作用对象和功能,拆 分为多个独立阶段,阶段间优化规则独立分阶段CBO效果CBO平均耗时减少83%复杂SQL CBO耗时减少98%计算引擎选择(技术5/5)以访问Hive库表数据为例,通过规则决定合适的计算引擎SQLHive是否为DDLyesnoPresto预估资源(内存)使 用是否超过阈值yesnoSparkSQL如何预估资源使用预估算子处理的数据量没有统计信息递归计算子算子处理的数据量父算子处理的数据量 = 子算子之和数据膨胀的的算有统计子乘以膨胀系数,比如distinct有统计信息利用CBO预估数据量预估SQL使用的资源并发度确定的前提下,确定每个并发task处理的数 据量,以此确定每个task的内存使用1. SuperSQL的背景定位3. SuperSQL的技术细节2. Su
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年测绘师考试综合能力真题与答案
- 水库水资源提质增效及生态治理项目经济效益和社会效益分析报告
- 2026年九州职业技术学院单招职业技能考试题库有答案解析
- 2026年超声考试题及答案
- 2026公务员干部面试题及答案
- 农业面源污染治理项目农用地转用方案
- 【2026年】铁合金冶炼、锰冶炼、铬冶炼安全生产模拟考试题
- 2025南平建阳区文化讲解员招聘10人笔试历年常考点试题专练附带答案详解
- 聚丙烯生产项目职业病危害评价
- 2025北京京达康口腔集团招聘15人笔试历年典型考点题库附带答案详解
- 2026年宁波慈溪供销集团公司下属单位公开招聘工作人员8人笔试备考题库及答案详解
- 2026年山东财经大学综合评价综合素质测试笔试+面试模拟试题及参考答案
- 工程经济智慧树知到课后章节答案2023年下浙江工业大学
- 定向钻穿越施工组织
- 雅思考试7600词汇表(A字母开头)
- 快易网球手册
- 施工项目成本管理 教学课件 作者 胡六星 梁列芬单元1课件
- GB/T 41508-2022增材制造通则增材制造零件采购要求
- GB/T 31563-2015金属覆盖层厚度测量扫描电镜法
- GB/T 15652-1995金属氧化物半导体气敏元件总规范
- T-SFSF 000012-2021 食品生产企业有害生物风险管理指南
评论
0/150
提交评论