万亿数据库核心存储引擎的技术实现_第1页
万亿数据库核心存储引擎的技术实现_第2页
万亿数据库核心存储引擎的技术实现_第3页
万亿数据库核心存储引擎的技术实现_第4页
万亿数据库核心存储引擎的技术实现_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、万亿数据库核心存储引擎的技术实现技术创新,变革未来时代背景数据爆炸式增长2020据IDC发布数据时代2025的报告显示,全球每年产生的数据将从2018年的33ZB增长到175ZB,2025年全球每天产生的数据量将达到491EB。在线分析 OLAP在线处理 OLTP KVMPP数据库全文检索流计算 实时处理业务下沉 预计算预处理其他数据库HivetidbgreenplumnSolrstormkylin时序数据库Spark SqlhbaseverticalESFlinkdrurid图数据库ImpalaoceanbaseteradataLuceneKafkaClick House行业痛点2020一、

2、大数据里的产品种类很多,但每个种类内都很单一。绝大部分系统采用单一的”暴力扫描”,性能低下。少量系统有索引但功能受限只能KV,或全文检索,做不了复杂的统计。还有一部分系统采用预计算处理,不灵活也不能查看原始明细数据。二、为了应对这些不完善,需要混合使用多种系统数据存储的份数太多,浪费存储资源。多个系统之间数据互通很难。每个系统接口都不一样,学习与维护成本很高。用户的期望20201:统一的标准SQL接口2:十万亿规模,上千个节点解决思路2020标准SQL接口层分布式计算层分布式索引层 分布式存储层做了大量 的修改系统架构同一张表,不同 的列,选择不同 非存储引擎。分布式索引的存储-HDFS202

3、01:相对于本地文件系统的优点!2:面临的主要问题,如何解决?3:单库跨多个联邦存储。万亿数据,秒级响应全文检索-ES场景2020数 据 列 一数数据据列列四六数 据 列 二数 据 列 三数据只存储 在SATA上数据存储 在SSD上列簇二数 据 列 五列簇一数据 文件近一月数据一个月以后SSD固态硬盘列簇存储异构存储列簇存储示意图数数数数数数据据据据据据列列列列列列一二三四五六列簇+异构2020冷热数据分离SATA机械硬盘多层次索引-前缀与排序2020第一天第二天第三天第四天将无序的倒排表改为有序存储倒排表数据按时序存储2020基于分布 式文件系 统的索引计算框架-基于索引的Spark2020

4、一个带有 索引的Spark大数据 OLAP系统将Spa r k 底层的数据存储部分改成了 基于分布式文件系统的索引,给Spa r k 底层数据加了一层索引查询的时候借助索引,避免了对数据的暴力扫描,查询与分析性能直接提升了1 0 0 倍以上修正了大量的开源Spa r k 的B UG , 趟平开源Spa r k 在生产系统中出现的各种问题2020与spark融合后,查询与统计分析功能更强大支持DDL语法: create table drop table支持DML语法:支持数据插入insert语法 支持数据删除delete语法。支持数据分区清理truncate table语 法。支持数据的大规模导

5、出操作。支持SELECT语法:group by、order by、case when、sum、max、min、avg、 count、joinleft joinright join、in、not in、like、not like、with子句、 union/union all、嵌套子查询等常见语法。支持1000+个条件组合联合匹配查询。支持丰富的函数操作:支持数学函数(sin、cos、round、floor等)调用。 支持字符函数(substring、concat等)调用。支持分析函数(row_number、rank、lag、lead等)调用支持用户自定义(UDF)函数调用。支持丰富的数据类型(

6、string、long、int、double、char、 like、text、geopoint等),可以针对不同的业务场 景进行表数据类型设计;同时也可以支持自定义分 词数据类型。2020面临的主要问题对手机号进行1 * 的检索。对有数据倾斜的列, 进行多表关联。L i m i t1 0 0 0 0 0 0 0 0 0 0P a r t i t i o nb y一个不均衡的列过载控制预计算索引-kylin+流计算2020565862353640404344时间维度品 牌 维 度多维统计- clickhouse场景2020地 区 维 度1:95%以上的值为null值。2:碎片化数据多维统 计分析

7、。2020千人千面统计分析-vertical的projection多维统计1 、每列之间采用列存储。2 、干预数据的排序分布, 让列存储的 压缩更有效。3 、依据查询构造顺序读取。4 、多个列之间有层次关系。5 、结合分块存储。多维统计方案多列联合索引2020Payloads压缩与按列存储-适合检索后的统计分析2020区域检索-数据预分布的变种2020随机读 变顺序读采用G e o H a s h 选择正方形, 再根据D o c V a l u e s 进行 二次验证裁剪。黄色部分 需要剪切验证通过地理位置临近数据 临近存储 的方式构造硬盘 上的连续读取, 大幅度的减少随机读取的次数, 从而提

8、升查询响应的速度。临近存储-数据预分布的变种20202020实现 Hbase 二级索引的方法本身只提供基于行键和全 表扫描的查询, 而行键索 引单一, 需要采用H B a s e 的二级索引方案来进行多 条件的查询。Executor与RegionServer嵌 在同一个进程里2020实现 Hbase 二级索引的关键技术特点1:多维索引2:实时更新,实时导入3:随意扩容缩容1秒内Reindex想怎么分裂就怎么分裂!索引快速分裂!索引快速region合并2020其他要实现的1:任务调度,IO调度。2:物化视图。3:索引加载问题。场景描述公安部门汇集了全网全维度的海量数据,包含互联网数据、社会数据、通讯数据等,通过实时检索、关联碰撞,为各警种提供智能研判的关系网络(同行、同 住同飞、同出入境等),大幅增加可用情报线索,提升侦破水平。应用场景公安军队2020场景描述车联网迅速发展,数亿T-BOX采集的万亿级别数据经过分析可让经销商、主机厂、国家监管部门多方受益。尤其随着国六标准出台,国家要对汽车尾气排放进行监管, 需要

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论