超融合数据库 MatrixDB 实现数字汽车和智能工厂实践_第1页
超融合数据库 MatrixDB 实现数字汽车和智能工厂实践_第2页
超融合数据库 MatrixDB 实现数字汽车和智能工厂实践_第3页
超融合数据库 MatrixDB 实现数字汽车和智能工厂实践_第4页
超融合数据库 MatrixDB 实现数字汽车和智能工厂实践_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

MatrixDB:数字汽车和工厂大脑实践Confidential

1

关于我姚延栋•

MatrixDB

创始人•Greenplum

北京研发中心负责人(2010-2020)•

Greenplum

中文社区创始人•

PostgreSQL

中文社区常委•清华大学产教融合课程《分布式数据系统基础及应用》

产业方负责人•著有《Greenplum:从大数据战略到实现》│©202

四维纵横Confidential

1

目录l时序和超融合l

数字汽车l工厂大脑│©202

四维纵横

时序和超融合│©202

四维纵横Confidential

1Confidential

1

全面数字化时代到来,拐点出现•麦肯锡《物联网:抓住加速机遇》指出到2026年IoT数据市场规模1000亿美金,而“IoT最大场景在中国”。而物联网最典型的数据是时序数据。DB-Engines过去24个月流行度趋势2020年物联网设备超过非物联网设备│©202

四维纵横Confidential

1

什么是时序数据•时序数据是时间序列数据,即带有时间戳的数据序列。这个序列中的—个数据也成为数据点(data

point),

—个数据点通常是—个(timestamp,

value)对。timeseries

..

.

.

.

.

(ts1,v1)

(ts2,v2)(ts3,v3)(

,

…)(tsN,vN)│©202

四维纵横Confidential

1

什么是时序数据•可以有很多时间序列,每个时间序列有自己的节奏。timeseries1

(ts1,v1)

(ts2,v2)(ts3,v3)timeseries2

(ts1,v1)

(ts2,v2)

(ts3,v3)│©202

四维纵横.

.

(tsN,vN)(tsK,vK)●

●(

,

…)●

●(

,

…)静态属性timeseries1timeseries2静态属性

.

.

(ts1,v1)

(ts2,v2)(ts3,v3)(ts1,v1)

(ts2,v2)

(ts3,v3)

什么是时序数据•时间序列都是(ts,val)序列,那么如何区分不同的时间线?不同时间线会有不同的静态属性,通过静态属性可以区分时间线。.

.

(tsN,vN)(tsK,vK)Confidential

1●

●(

,

…)●

●(

,

…) name:cpu_usage,

IP:

name:cpu_usage,

IP:

│©202

四维纵横

什么是时序数据•时间序列都是(ts,val)序列,那么如何区分不同的时间线?不同时间线会有不同的静态属性,通过静态属性可以区分时间线。timeseries1timeseries2●…●timeseriesN

●Confidential

1时间│©202

四维纵横静态属性静态属性静态属性

什么是时序数据•对时序数据的查询丰富多样:

—个时序的最新值,—个时序在某个时间段的明细或者聚合,多个时序在—个时间段的明细或者聚合,多个时序的最新值等。Confidential

1timeseries2…timeseriesN

静态属性timeseries1时间│©202

四维纵横静态属性静态属性timeseries1

timeseries2

timeseriesN●

timeseriesN

●●

时间

什么是时序数据•Timeseries

之间有什么关系?这种关系是否重要?•大多数场景下,某些timeseries有—定相关性,属于同—个实体,或者有相同的静态属性Confidential

1同一个实体,譬如同一个应用同一个机床同一辆车同一个实体,譬如同一个应用同一个机床同一辆车静态属性静态属性静态属性

静态属性

│©202

四维纵横Confidential

1

什么是时序数据│©202

四维纵横12Confidential

1

时序数据建模三种数据建模方式:1.

窄表模式2.

宽表模式3.

树形模式│©202

四维纵横Confidential

1

时序数据建模•窄表模式:

—⾏—个数据点,可以用KV数据模型,也可以用关系数据模型。注意窄表不是字面意思的字段个数多少,而是—行只表示—个数据点。2021/10/01

08:00:00;设备编号=958D-7913,城市=上海;风向;23.42021/10/01

08:00:00;设备编号=958D-7913,城市=上海;风速;3.42021/10/01

08:00:00;设备编号=F3CC-20F3,城市=北京;风向;45.12021/10/01

08:00:00;设备编号=F3CC-20F3,城市=北京;

风速;1.1

2021/10/01

08:01:00;设备编号=958D-7913,城市=上海;风向;23.22021/10/01

08:01:00;设备编号=958D-7913,城市=上海;风速;3.32021/10/01

08:01:00;设备编号=F3CC-20F3,城市=北京;风向;45.02021/10/01

08:01:00;设备编号=F3CC-20F3,城市=北京;

风速;1.2│©202

四维纵横Confidential

1

时序数据建模•宽表模式:

—行表示多个数据点,通常采用关系数据模型。可以用

—张表,也可以用多张表。注意宽窄定义不依据字段个数,而是—行表示—个数据带还是多个数据点。

宽表也可以只有5

、6个字段。静态属性表+时序数据表时序数据四维纵横©202│

时序数据建模•树形模式:与窄表区别是以层级方式组织静态属性(元数据)角速度加速度油量速度

GPS

速经

维度

度Confidential

1新能源车油车北京上海 GPS

点云

时速rootVIN3VIN2VIN1xy经度维度xx│©202

四维纵横度类别条目窄表树形宽表写入顺序写入简单简单简单乱序写入复杂复杂复杂异频写入简单简单复杂不同时间点采集简单简单中等存储压缩比低中高查询单设备单指标类查询简单简单简单单设备多指标类查询复杂简单简单多设备类查询复杂中等简单维度查询复杂复杂简单分析类查询复杂复杂简单Confidential

1

时序数据建模│©202

四维纵横视频帧数据图像数据时序数据

GIS数据

时序数据是企业海量多样化数据的一部分Confidential

1JSON数据Lidar数据文本数据关系数据│©202

四维纵横Confidential

1

传统方案造成复杂、低效、孤岛化的现状•

多种数据产品、孤岛化严重;穿墙打洞、复杂低效;数据质量参差不齐•

70%

企业结果是投了钱,疗效低(Gartner

报告)│©202

四维纵横 Matrix

DB:高性能超融合数据库历史原因造成纷繁复杂、低效让数据回归应该有的样子!Confidential

1将复杂留给用户把极简、极速留给用户│©202

四维纵横各种业务

各种业务JDBC/ODBC/OLEDB日志

事务并发控制

锁管理快照

超融合数据库Matrix

DB

架构•欢迎实测:

https://ym/download关系应用时空应用文本检索流计算应用机器学习应用应用Confidential

1公共基础设施SQL统—优化器内存引擎OLTP引擎OLAP引擎时序引擎备份⻆⾊监控加密认证高可用审计恢复存储器存储器执行器执行器存储器执行器执行器存储器│©202

四维纵横JDBC/ODBC/OLEDBStandby

MasterSegment

Segment

Segment

Segment MatrixDB

从单节点到数百节点

支持100PB级原始数据量关系应用时空应用文本检索流计算应用机器学习应用Confidential

1│©202

四维纵横应用Master Matrix

DB

为数字化时代而设计的一站式大数据平台•新时代需要新技术栈,以满足新业务、新场景、新数据和新用户•数字化+物联网是最大的机遇,企业需要卓越的数据基座而不是

单品数据库1980-20002000-2020Now信息化时代互联网时代数字化时代Confidential

1专用数据库四维纵横©202│

数字汽车│©202

四维纵横Confidential

1

汽车数字化是汽车业演进的主要趋势之一Confidential

1│©202

四维纵横26

总体架构

智能座舱画像分析

行为预警

实时查询

Confidential

1MatrixGate高吞吐加载负载均衡Kafka

数据解析MatrixDB高可用集群MatrixGateJT/T808MQTTGB32960SQL│©202

四维纵横27

数据建模•车机信号表:

vin号、时间戳、

800+常用指标、

—个JSON字段存储上千非常用指标•若干张关系表存储各种关系数据,包括车主信息、保养记录Confidential

1车主信息表保养记录表

借贷信息表…timestamptsjson其他属性varcharvinfloat8速度float8经度float8维度float8…float8…车机信号表四维纵横©20228│

存储模型•车机信号表:•

采用

mars存储引擎•按天分区,冷热分级。冷数据采用外部表降低存储开销•分区自动管理实现分区自动创建,自动转化•使用持续聚集实现最新值查询,取代

Redis

集群•其他关系表采用关系存储引擎Confidential

1车机信号表9月(年前二年前热数据本地存储冷数据外部表11月10月四维纵横©20229│…

数据查询•单车某个指标最新值、多个指标最新值•单车某个时段某个指标明细数据、某个时段多个指标明细数据•单车某个时段某个指标聚合值、某个时段多个指标聚合值•多车某个指标最新值、多个指标最新值•多车某个时段某个指标明细数据、某个时段多个指标明细数据•多车某个时段某个指标聚合值、某个时段多个指标聚合值•常用指标

+

非常用指标Confidential

1四维纵横©20230│SELECTvin,time_bucket(‘10second',ts)timebucket,array[last_not_null_value(c1,ts),last_not_null_value(c2,ts)]

as

signalsFROMcar_signalWHEREvin=‘1,ANDts>=‘2021-10-10

00:00:00,AND

ts<‘2021-10-1001:00:00,GROUPBYvin,timebucketORDERBYtimebucket;

高级查询•指标对齐:指标采集时间点通常不会精确—样,有的时候需要对某个时间窗口的数据进行分析,这都可以直接通过SQL来实现•对齐是机器学习中非常常见的操作,通过SQL

可以大幅提升开发效率©202

1Confidential四维纵横31│Confidential

│©202

1

四维纵横SELECTvin,ts,mode,diff1,diff2FROM

(SELECT

vin,ts,mode,mode-lead(mode)OVER

(PARTITIONBYvinORDER

BY

ts)AS

diff1,

--

前向差值1mode–lag

(mode)OVER

(PARTITIONBYvinORDERBYts)AS

diff2

--

后向差值2

FROMcar_signalWHEREvin=‘LW433B115M10xxxxx

--某辆车ANDts>=‘2021-11-1719:30:00’--某个时间段数据ANDts<

'2021-11-1719:30:00'::timestamp+

'4

hour'::intervalANDmodeisnot

null

--

某种模式)

htWHEREabs(diff1)>0

OR

abs(diff2)

>

0

--

是否跳变ORDER

BY

vin,ts;32

高级查询•跳变差值:故障分析时,需要查询某个时段的可疑信号的跳变差值,譬如摘取几个关键指标判断是否碰撞,发生碰撞后,快速查询碰撞前—段时间的相关信号的跳变差值。常用语安全告警业务。•—条SQL

替代数百行

flink代码+测试,大幅提升开发效率selectvin,tsasts_start,

drive_status,lag(ts)over(partitionbyvinorderby

ts)

ts_end

,lag(drive_status)over(partitionbyvinorderbyts)drive_status_startfrom

(--

过滤掉中间状态,只留启停点的数据selectvin

,ts,casewhenmode=0andmode_lag<>0then‘start’else‘end’end

as

drive_statusfrom

(--

全部车辆(天某个指标信号明细selectvin,ts,

"mode",lag("mode")over(partitionbyvinorderbytsdesc)mode_lagfromcar_signalwherets>‘2022-03-08

00:00:00‘)

u1where

("mode"=0andmode_lag

<>

0

)or

(“mode”<>0

andmode_lag

=

0

))

a1wheredrive_status_start=

'drive_start';

高级查询•所有车全天驾驶循环,常用于高级分析、模型训练等•几分钟—条SQL

节省千行代码+测试,大幅提升开发效率Confidential

1│©202

四维纵横33•1.4亿数据点/秒高吞吐低延迟写入•

400+

并发毫秒级返回•高峰数据延迟2小时缩短到10秒,

500倍提升•开发效率提升100倍

(客户反馈从3天到10分钟)•

硬件成本节省

80%•

精简技术栈:超融合数据库

MatrixDB

替换Hadoop

全家桶

OpenTSDB

、HBase

、HDFS

Hive

、Redis智能座舱画像分析

行为预警

实时查询MatrixDB数据库 方案效果:省心、省力、省时、省钱Confidential

1方案概览建设效果四维纵横©20234│Confidential

1│©202

四维纵横某装备制造业巨头对分布在全球各地的产品进行智能化改造,使其对产品的使用过程了如指掌,为期客户提供运维管理、预测维修、动力优化等。1.设备数据明细2.预测水泥泵机是否发生堵管3.

统计最高频排量4.

预测最佳油门vs.转速5.臂架异常:泄漏,发卡6.模拟泵车(有多节机械臂)工作状态7.模拟泵车工作状态衍生,常用姿态统计8.

泵车异常检测•All

in

One:替代MySQL

+

时序数据库+Greenplum

+

Spark•

集群硬件节省—半,性能提升6倍

智能装备运维和数字汽车非常相似建设效果35

工厂大脑│©202

四维纵横Confidential

1Confidential

1 第四次工业革命已经开启│©20

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论