2025基于SelectDB 的湖仓一体大数据分析引擎建设_第1页
2025基于SelectDB 的湖仓一体大数据分析引擎建设_第2页
2025基于SelectDB 的湖仓一体大数据分析引擎建设_第3页
2025基于SelectDB 的湖仓一体大数据分析引擎建设_第4页
2025基于SelectDB 的湖仓一体大数据分析引擎建设_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于SelectDB的湖仓一体大数据分析引擎建设2024目录公司介绍与业务背景01架构演进02SelectDB湖仓一体应用实践03规划与展望0401公司介绍与业务背景四川航空股份有限公司四川航空股份有限公司(以下简称:川航)以“美丽川航,美好出行”为使命,以“熊猫之路,连接世界”为愿景,以安全为品牌核心价值,自开航至今持续安全飞行36年,现运营全空客机队超过200架飞机,年运送旅客量超过3000万,航线网络覆盖亚洲、欧洲、北美洲、大洋洲和非洲,为全球旅客提供深具“中国元素,四川味道”的航空服务,品牌价值超过九百亿。航司业务特点

航班调度:确保航班按时起降,及时反映航班状态(如延误、取消),避免航班冲突和提高安全性。

乘客体验与服务:乘客信息(如登机、行李、座位安排等)需要实时更新,确保顺畅的登机流程

机场和航司需要共享大量的实时数据,确保航班的顺利运行。包括:航班动态信息、旅客信息、地面保障等信息。

航信数据交互,涉及到定票、航班信息、乘客离港等多个环节。

业务复杂性和多样性:航空公司涉及的业务涵盖多个领域,包括航班调度、票务销售、旅客服务、机组管理、机务维修、财务结算等。

国际化与合规要求:航空公司运营跨国航班,需满足不同国家的法规和合规要求。数据交互复杂实时要求高业务系统多大数据平台建设历程201020142018202220232024湖仓一体分析引擎数据仓库与数据集市集中业务系统数据按需开发数据报表大数据Hadoop平台存储力和算力大提升报表刷新时效基于Hadoop和Palo的数据中台数据治理数据底座数据产品统一OLAP技术栈、统一数据服务02架构演进早期架构总览痛点与需求架构简单,低运维成本统一易用,降低用户学习成本具备高效多数据源导入能力秒级查询响应、快速扩展

实时高效,支持实时数据导入,湖仓加速实现高效查询架构复杂,涉及组件较多,运维困难支持高并发查询数据时效性和查询效率低大规模数据导入瓶颈用户开发成本高目标需求架构痛点选型因素数据生态圈丰富SelectDB与Spark、Flink以及DataX、SeaTunnel等计算框架兼容,官方提供代码示例,易于使用。Join能力出色SelectDB在处理大表的Join操作方面表现出色。支持多种分布式Join方式,包括Broadcast

Join、ShuffleJoin、Hash

Join等方式导入方式丰富SelectDB支持多种数据导入方式,包括HDFS、Kafka、Spark、Flink以及RoutineLoad、BrokerLoad和StreamLoad,满足不同场景需求。支持高并发SelectDB在面对大数据量和高并发的情况下能够展现出出色的性能,可以替换Hive以及Palo数据源提供查询服务基于SelectDB构建的湖仓引擎03SelectDB湖仓一体应用实践多源数据快速接入实时同步入湖对接核心数据库包括航班调度、旅客服务等,数据实时同步入湖。对接消息队列机场的消息报文等数据,通过Routine

Load对接Kafka数据,消费数据入湖。Hive加速查询Hive主要存储acars日志数据,通过Hive

Catalog对接,方便和SelectDB内表关联,加速查询。数据库分析针对一些不常用的数据库,通过外表查询,快速获取数据。基于SelectDB的联邦数据湖分析场景SQL查询分析数据导入数据写回统一查询入口高性能更新能力MOW1.2提升3.9倍MERGE

ON

WRITE更新能力适用场景:适用于小批量实时高频导入,基于主键做高频数据更新目前数仓ODS层数据是CDC实时同步导入,全部采用MOR表,同步数据为根据主键进行UPSERT。测试数据约500G,常规查询以及复杂关联等,使用MOW模型,性能提升近4倍50

并发

平均耗时MOR

4.6部分列更新场景业务场景事件名离港航班变更离港航初始化

离港航节机型变更离港航节起飞时间变更离港航班状态变更离港航班登机口变更航班状态变更报文样例片段FlightNumberFlightDateDepAirportArrAirportFlightStatusDeptime........3U38282024-11-03TFUKMGCI08:30......3U32812024-11-04CTUALACI20:30......新增:

FlightNumberFlightDateDepAirportArrAirportFlightStatus3U32812024-11-04CTUALACC原数据:FlightNumberFlightDateDepAirportArrAirportFlightStatusDeptime........3U38282024-11-03TFUKMGCI08:30......3U32812024-11-04CTUALACC20:30......合并后:Flink设置部分列更新

'perties.partial_columns'='true'在perties.column中指定要导入的列(必须包含所有key列,不然无法更新)数据建模场景flight_iddateac_cnt10011115140100311-15130结果:flight_iddateac_cnt1001111580flight_iddateac_cnt100211-1560100311-15130原表:新增:AGGREGATE

KEY报表统计、指标计算CREATE

TABLE

selectdb_agg_tab(flight_id

varchar(30),date

varchar(30),ac_cnt

BIGINT

SUM

DEFAULT

'0')

AGGREGATE

KEY(flight_id,

date)DISTRIBUTED

BY

HASH(flight_id)BUCKETS10flight_iddatestatus100111-15计划100211-15起飞结果:flight_iddatestatus100111-15起飞100211-15计划flight_iddatestatus100211-15起飞原表:新增:UNIQUE

KEY航班状态、客票状态CREATE

TABLE

selectdb_uni_tab(flight_id

varchar(30),date

varchar(30),status

varchar(30),)

UNIQUE

KEY(flight_id)DISTRIBUTED

BY

HASH(flight_id)BUCKETS10flight_iddateststus10111-15待使用10211-15待值机10211-15已值机结果:tkt_iddatestatus10111-15待使用10211-15待值机flight_iddatestatus10211-15已值机原表:新增:DUPLICATE

KEY明细数据、变更记录CREATE

TABLE

selectdb_dup_tab(tkt_id

varchar(30),date

varchar(30),status

varchar(30),)

DUPLICATE

KEY(tkt_id)DISTRIBUTED

BY

HASH(tkt_id)

BUCKETS

10SelectDB极速分析场景倒排索引倒排索引实现多维度快速检索分析,加速字符串类型数据的全文检索、支持自定义分词CREATE

INDEX

IDX_CONTENT

ON

QUESTION(`REPLY_CONTENT`)

USINGINVERTED

PROPERTIES("parser"

=

"chinese")--查询评价内容里包含好评select

*

from

QUESTION

where

REPLY_CONTENT

match

'好评'--分词分析SELECT

TOKENIZE(REPLY_CONTENT,'"parser"="chinese","parser_mode"="fine_grained"')

FROM

QUESTION100并发V1.2.1V2.0.15(倒排索引)SQL1平均耗时1890463SQL2平均耗时793112查询性能提升约4倍SQL3平均耗时523247总计耗时(ms)3206822SelectDB湖仓应用收益5-13

3-6

10-18

倍ETL数据导入查询分析5

秒内1000

W+次<1秒(96%)实时单日

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论