版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、百度大数据即席查询服务百度开放云即席查询服务(BigSQL) BigSQL定位/特点 BigSQL架构 BigSQL关键技术 BigSQL在Baidu内部的应用 下一步计划即席查询服务(BigSQL) BigSQL定位/特点 BigSQL架构 BigSQL关键技术 BigSQL在Baidu内部的应用 下一步计划大数据即席查询(Ad-Hoc Query)平台PAAS:开箱即用,用户无需关心机器/集群的运维/细节高性能/规模:裸机/优化/最大PB量级以上低成本:多租户共享集群/按使用付费BigSQL 定位 数据格式:半结构化(CSV/JSON/Parquet/Protobuf等) 使用接口:易用/
2、多样化(RestAPI/Console/CLI/JDBC) 语法集:兼容开源SparkSQL/HQL 按使用付费:按(Query复杂度+扫描数据量)计费 多用户协同:灵活的权限管理BigSQL 特点 面向“人”的查询交互式(Interactive):查询具有较高时效性即席(Ad-Hoc):查询模式相对不固定数据没有(时间/成本)做过多预处理Ad-Hoc QueryAd-HocQueryOLAP数据密度弱(半)结构化高度结构化加工过程粗(浅)加工深度加工查询模式相对随机相对固定即席查询 vs 多维分析MPP/ImpalaSQLonHadoop/SparkSQL扩展性1000台以内/PB以下千台以
3、上/PB以上查询延迟毫秒秒秒分钟架构复杂性中等复杂容错无有调度策略Gang/Transaction分批启停开销小/常驻进程大/现启动与存储结合程度紧密松散MPP/Shared-NothingBigSQLServiceWebServerTools/SDKBOSBigSQL 示意图UserQueryUserQueryStreamingBatch即席查询服务(BigSQL) BigSQL定位/特点 BigSQL架构 BigSQL关键技术 BigSQL在Baidu内部的应用 下一步计划REST API接入层(Http Server)SessionManagerSparkContextSessionWo
4、rkerQueryQuerySchedulerCompute & Storage ClusterSparkContextSessionWorkerQueryQuerySparkContextSessionWorkerQueryQuerySDKCLIToolsMetaStoreIAM账单监控StateStoreConsoleBigSQL 整体架构 易用性:各种形式的API 可用性:关键节点容错 安全:租户认证和鉴权、Quota限制 账单 监控BigSQL整体架构:接入层计算引擎(Spark)SessionWorkerSessionWorkerSessionWorkerSessionWor
5、kerAPPExecutorExecutorAPPExecutorExecutorExecutor分布式缓存(CacheManager)存储引擎(DFS/Column Storage)APPExecutorAPPExecutorExecutorBigSQL整体架构:引擎层接入层即席查询服务(BigSQL) BigSQL定位/特点 BigSQL架构 BigSQL关键技术 BigSQL在Baidu内部的应用 下一步计划高性能ShuffleBigSQL 关键技术(一)高性能ShuffleBigSQL 关键技术(一)BigSQL 关键技术(一)数据缓存层BigSQL 关键技术(二)UserUser接入
6、层计算引擎(Spark)Cache ManagerCache存储引擎(HDFS + Parquet)数据缓存策略l 按需缓存 Query运行时触发Cache miss,异步load到缓存l 数据预取 周期性Load相关Table/Partition到缓存 根据过去Query信息统计热点数据,提前Load到缓存典型案例:跨地域查询加速(提升至少一个数量级)BigSQL 关键技术(二)优化执行l 智能参数优化 利用Combine类InputFormat,减少MapTask数 根据上游输出,自动优化Reduce Partition数目l 调度优化 评估数据量,自动复用Application 或者 启
7、用新的Applicationl 近似查询 长尾任务自动忽略,保证时效性BigSQL 关键技术(三)资源隔离/安全l 基于Cgroup/Namespace的Container隔离 CPU/Memory/FS Container本身的加固 网络的互通与隔离l JVM沙箱层的多种安全策略l 计算/存储框架层的安全认证和加密传输BigSQL 关键技术(四)即席查询服务(BigSQL) BigSQL定位/特点 BigSQL架构 BigSQL关键技术 BigSQL在Baidu内部的应用 下一步计划在Baidu内部的应用凤巢广告数据分析l 漏斗分析 分析广告被过滤的原因,各个维度特征等l 系统优化和问题定位 分析系统业务日志,发现可优化的指标和潜在问题日均扫描数据量:xx PB即席查询服务(BigSQL) BigSQL定位/特点 BigSQL架构 BigSQL关键技术 BigSQL在Baidu内部的应用 下一步计划l 持续投入技术研发更智能的数据缓存层:细粒度/物化视图选取实时更新向量执行:提高CPU cache命中率CBO:Cost-based OptimizerBigSQL 后续规划l 构建通用大数据处理平台日志收集服务数据变形/ETL服务报表/多维分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026广东佛山南海区丹灶镇仙湖幼儿园招聘备考题库附参考答案详解(培优)
- 2026四川宜宾丽雅城市建设发展有限公司下属子公司第一批员工招聘4人备考题库含答案详解【预热题】
- 2026山东农业大学养分资源高效利用理论与技术创新团队博士后招聘备考题库及参考答案详解【综合卷】
- 2026中冶京诚工程技术有限公司春季校园招聘备考题库含答案详解(完整版)
- 2026广东省南方医科大学珠江医院三水医院第二批合同制工作人员招聘26人备考题库含答案详解(模拟题)
- 2026四川成都市第二十五幼儿园储备教职工招聘备考题库及完整答案详解【历年真题】
- 2026浙江省荣军医院特殊专业技术岗位招聘3人备考题库(综合题)附答案详解
- 2026甘肃天水秦安县云山中心卫生院招聘1人备考题库带答案详解(培优a卷)
- 2026辽宁营口大石桥市林业和草原局森林消防大队招聘6人备考题库附完整答案详解【各地真题】
- 中建一局西北公司2026届春季校园招聘备考题库含答案详解【新】
- GB/T 16783.1-2025石油天然气工业钻井液现场测试第1部分:水基钻井液
- T/CECS 10181-2022消防排烟通风天窗
- 2023年办文科副科长竞聘演说稿
- 苏科版三年级劳动下册第03课《纸黏土浮雕》公开课课件
- 传承雷锋精神弘扬时代新风心得体会优推四篇
- 2023年苍南县姜立夫杯数学竞赛高一试卷浙江省
- 2023年嘉兴平湖市特殊教育岗位教师招聘考试笔试题库及答案解析
- SB/T 11137-2015代驾经营服务规范
- 高压电器及成套配电装置
- 秘书科工作规范
- 人力资源培训与开发PPT全部课件
评论
0/150
提交评论