版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
MatrixDB:数字汽车和工厂大脑实践Confidential
1
关于我姚延栋•
MatrixDB
创始人•Greenplum
北京研发中心负责人(2010-2020)•
Greenplum
中文社区创始人•
PostgreSQL
中文社区常委•清华大学产教融合课程《分布式数据系统基础及应用》
产业方负责人•著有《Greenplum:从大数据战略到实现》│©202
四维纵横Confidential
1
目录l时序和超融合l
数字汽车l工厂大脑│©202
四维纵横
时序和超融合│©202
四维纵横Confidential
1Confidential
1
全面数字化时代到来,拐点出现•麦肯锡《物联网:抓住加速机遇》指出到2026年IoT数据市场规模1000亿美金,而“IoT最大场景在中国”。而物联网最典型的数据是时序数据。DB-Engines过去24个月流行度趋势2020年物联网设备超过非物联网设备│©202
四维纵横Confidential
1
什么是时序数据•时序数据是时间序列数据,即带有时间戳的数据序列。这个序列中的—个数据也成为数据点(data
point),
—个数据点通常是—个(timestamp,
value)对。timeseries
..
.
.
.
.
(ts1,v1)
(ts2,v2)(ts3,v3)(
…
,
…)(tsN,vN)│©202
四维纵横Confidential
1
什么是时序数据•可以有很多时间序列,每个时间序列有自己的节奏。timeseries1
(ts1,v1)
(ts2,v2)(ts3,v3)timeseries2
(ts1,v1)
(ts2,v2)
(ts3,v3)│©202
四维纵横.
.
(tsN,vN)(tsK,vK)●
●(
…
,
…)●
●(
…
,
…)静态属性timeseries1timeseries2静态属性
.
.
(ts1,v1)
(ts2,v2)(ts3,v3)(ts1,v1)
(ts2,v2)
(ts3,v3)
什么是时序数据•时间序列都是(ts,val)序列,那么如何区分不同的时间线?不同时间线会有不同的静态属性,通过静态属性可以区分时间线。.
.
(tsN,vN)(tsK,vK)Confidential
1●
●(
…
,
…)●
●(
…
,
…) name:cpu_usage,
IP:
name:cpu_usage,
IP:
│©202
四维纵横
什么是时序数据•时间序列都是(ts,val)序列,那么如何区分不同的时间线?不同时间线会有不同的静态属性,通过静态属性可以区分时间线。timeseries1timeseries2●…●timeseriesN
●Confidential
1时间│©202
四维纵横静态属性静态属性静态属性
什么是时序数据•对时序数据的查询丰富多样:
—个时序的最新值,—个时序在某个时间段的明细或者聚合,多个时序在—个时间段的明细或者聚合,多个时序的最新值等。Confidential
1timeseries2…timeseriesN
静态属性timeseries1时间│©202
四维纵横静态属性静态属性timeseries1
timeseries2
…
timeseriesN●
timeseriesN
●●
●
时间
什么是时序数据•Timeseries
之间有什么关系?这种关系是否重要?•大多数场景下,某些timeseries有—定相关性,属于同—个实体,或者有相同的静态属性Confidential
1同一个实体,譬如同一个应用同一个机床同一辆车同一个实体,譬如同一个应用同一个机床同一辆车静态属性静态属性静态属性
静态属性
│©202
四维纵横Confidential
1
什么是时序数据│©202
四维纵横12Confidential
1
时序数据建模三种数据建模方式:1.
窄表模式2.
宽表模式3.
树形模式│©202
四维纵横Confidential
1
时序数据建模•窄表模式:
—⾏—个数据点,可以用KV数据模型,也可以用关系数据模型。注意窄表不是字面意思的字段个数多少,而是—行只表示—个数据点。2021/10/01
08:00:00;设备编号=958D-7913,城市=上海;风向;23.42021/10/01
08:00:00;设备编号=958D-7913,城市=上海;风速;3.42021/10/01
08:00:00;设备编号=F3CC-20F3,城市=北京;风向;45.12021/10/01
08:00:00;设备编号=F3CC-20F3,城市=北京;
风速;1.1
2021/10/01
08:01:00;设备编号=958D-7913,城市=上海;风向;23.22021/10/01
08:01:00;设备编号=958D-7913,城市=上海;风速;3.32021/10/01
08:01:00;设备编号=F3CC-20F3,城市=北京;风向;45.02021/10/01
08:01:00;设备编号=F3CC-20F3,城市=北京;
风速;1.2│©202
四维纵横Confidential
1
时序数据建模•宽表模式:
—行表示多个数据点,通常采用关系数据模型。可以用
—张表,也可以用多张表。注意宽窄定义不依据字段个数,而是—行表示—个数据带还是多个数据点。
宽表也可以只有5
、6个字段。静态属性表+时序数据表时序数据四维纵横©202│
时序数据建模•树形模式:与窄表区别是以层级方式组织静态属性(元数据)角速度加速度油量速度
GPS
速经
维度
度Confidential
1新能源车油车北京上海 GPS
点云
时速rootVIN3VIN2VIN1xy经度维度xx│©202
四维纵横度类别条目窄表树形宽表写入顺序写入简单简单简单乱序写入复杂复杂复杂异频写入简单简单复杂不同时间点采集简单简单中等存储压缩比低中高查询单设备单指标类查询简单简单简单单设备多指标类查询复杂简单简单多设备类查询复杂中等简单维度查询复杂复杂简单分析类查询复杂复杂简单Confidential
1
时序数据建模│©202
四维纵横视频帧数据图像数据时序数据
GIS数据
时序数据是企业海量多样化数据的一部分Confidential
1JSON数据Lidar数据文本数据关系数据│©202
四维纵横Confidential
1
传统方案造成复杂、低效、孤岛化的现状•
多种数据产品、孤岛化严重;穿墙打洞、复杂低效;数据质量参差不齐•
70%
企业结果是投了钱,疗效低(Gartner
报告)│©202
四维纵横 Matrix
DB:高性能超融合数据库历史原因造成纷繁复杂、低效让数据回归应该有的样子!Confidential
1将复杂留给用户把极简、极速留给用户│©202
四维纵横各种业务
各种业务JDBC/ODBC/OLEDB日志
事务并发控制
锁管理快照
超融合数据库Matrix
DB
架构•欢迎实测:
https://ym/download关系应用时空应用文本检索流计算应用机器学习应用应用Confidential
1公共基础设施SQL统—优化器内存引擎OLTP引擎OLAP引擎时序引擎备份⻆⾊监控加密认证高可用审计恢复存储器存储器执行器执行器存储器执行器执行器存储器│©202
四维纵横JDBC/ODBC/OLEDBStandby
MasterSegment
Segment
Segment
Segment MatrixDB
从单节点到数百节点
支持100PB级原始数据量关系应用时空应用文本检索流计算应用机器学习应用Confidential
1│©202
四维纵横应用Master Matrix
DB
为数字化时代而设计的一站式大数据平台•新时代需要新技术栈,以满足新业务、新场景、新数据和新用户•数字化+物联网是最大的机遇,企业需要卓越的数据基座而不是
单品数据库1980-20002000-2020Now信息化时代互联网时代数字化时代Confidential
1专用数据库四维纵横©202│
数字汽车│©202
四维纵横Confidential
1
汽车数字化是汽车业演进的主要趋势之一Confidential
1│©202
四维纵横26
总体架构
智能座舱画像分析
行为预警
实时查询
Confidential
1MatrixGate高吞吐加载负载均衡Kafka
数据解析MatrixDB高可用集群MatrixGateJT/T808MQTTGB32960SQL│©202
四维纵横27
数据建模•车机信号表:
vin号、时间戳、
800+常用指标、
—个JSON字段存储上千非常用指标•若干张关系表存储各种关系数据,包括车主信息、保养记录Confidential
1车主信息表保养记录表
借贷信息表…timestamptsjson其他属性varcharvinfloat8速度float8经度float8维度float8…float8…车机信号表四维纵横©20228│
存储模型•车机信号表:•
采用
mars存储引擎•按天分区,冷热分级。冷数据采用外部表降低存储开销•分区自动管理实现分区自动创建,自动转化•使用持续聚集实现最新值查询,取代
Redis
集群•其他关系表采用关系存储引擎Confidential
1车机信号表9月(年前二年前热数据本地存储冷数据外部表11月10月四维纵横©20229│…
数据查询•单车某个指标最新值、多个指标最新值•单车某个时段某个指标明细数据、某个时段多个指标明细数据•单车某个时段某个指标聚合值、某个时段多个指标聚合值•多车某个指标最新值、多个指标最新值•多车某个时段某个指标明细数据、某个时段多个指标明细数据•多车某个时段某个指标聚合值、某个时段多个指标聚合值•常用指标
+
非常用指标Confidential
1四维纵横©20230│SELECTvin,time_bucket(‘10second',ts)timebucket,array[last_not_null_value(c1,ts),last_not_null_value(c2,ts)]
as
signalsFROMcar_signalWHEREvin=‘1,ANDts>=‘2021-10-10
00:00:00,AND
ts<‘2021-10-1001:00:00,GROUPBYvin,timebucketORDERBYtimebucket;
高级查询•指标对齐:指标采集时间点通常不会精确—样,有的时候需要对某个时间窗口的数据进行分析,这都可以直接通过SQL来实现•对齐是机器学习中非常常见的操作,通过SQL
可以大幅提升开发效率©202
1Confidential四维纵横31│Confidential
│©202
1
四维纵横SELECTvin,ts,mode,diff1,diff2FROM
(SELECT
vin,ts,mode,mode-lead(mode)OVER
(PARTITIONBYvinORDER
BY
ts)AS
diff1,
--
前向差值1mode–lag
(mode)OVER
(PARTITIONBYvinORDERBYts)AS
diff2
--
后向差值2
FROMcar_signalWHEREvin=‘LW433B115M10xxxxx
’
--某辆车ANDts>=‘2021-11-1719:30:00’--某个时间段数据ANDts<
'2021-11-1719:30:00'::timestamp+
'4
hour'::intervalANDmodeisnot
null
--
某种模式)
htWHEREabs(diff1)>0
OR
abs(diff2)
>
0
--
是否跳变ORDER
BY
vin,ts;32
高级查询•跳变差值:故障分析时,需要查询某个时段的可疑信号的跳变差值,譬如摘取几个关键指标判断是否碰撞,发生碰撞后,快速查询碰撞前—段时间的相关信号的跳变差值。常用语安全告警业务。•—条SQL
替代数百行
flink代码+测试,大幅提升开发效率selectvin,tsasts_start,
drive_status,lag(ts)over(partitionbyvinorderby
ts)
ts_end
,lag(drive_status)over(partitionbyvinorderbyts)drive_status_startfrom
(--
过滤掉中间状态,只留启停点的数据selectvin
,ts,casewhenmode=0andmode_lag<>0then‘start’else‘end’end
as
drive_statusfrom
(--
全部车辆(天某个指标信号明细selectvin,ts,
"mode",lag("mode")over(partitionbyvinorderbytsdesc)mode_lagfromcar_signalwherets>‘2022-03-08
00:00:00‘)
u1where
("mode"=0andmode_lag
<>
0
)or
(“mode”<>0
andmode_lag
=
0
))
a1wheredrive_status_start=
'drive_start';
高级查询•所有车全天驾驶循环,常用于高级分析、模型训练等•几分钟—条SQL
节省千行代码+测试,大幅提升开发效率Confidential
1│©202
四维纵横33•1.4亿数据点/秒高吞吐低延迟写入•
400+
并发毫秒级返回•高峰数据延迟2小时缩短到10秒,
500倍提升•开发效率提升100倍
(客户反馈从3天到10分钟)•
硬件成本节省
80%•
精简技术栈:超融合数据库
MatrixDB
替换Hadoop
全家桶
OpenTSDB
、HBase
、HDFS
、
Hive
、Redis智能座舱画像分析
行为预警
实时查询MatrixDB数据库 方案效果:省心、省力、省时、省钱Confidential
1方案概览建设效果四维纵横©20234│Confidential
1│©202
四维纵横某装备制造业巨头对分布在全球各地的产品进行智能化改造,使其对产品的使用过程了如指掌,为期客户提供运维管理、预测维修、动力优化等。1.设备数据明细2.预测水泥泵机是否发生堵管3.
统计最高频排量4.
预测最佳油门vs.转速5.臂架异常:泄漏,发卡6.模拟泵车(有多节机械臂)工作状态7.模拟泵车工作状态衍生,常用姿态统计8.
泵车异常检测•All
in
One:替代MySQL
+
时序数据库+Greenplum
+
Spark•
集群硬件节省—半,性能提升6倍
智能装备运维和数字汽车非常相似建设效果35
工厂大脑│©202
四维纵横Confidential
1Confidential
1 第四次工业革命已经开启│©20
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026中国电子科技集团公司第三研究所校园招聘备考题库含答案详解(典型题)
- 2026四川宜宾招聘省属公费师范生18名备考题库及一套完整答案详解
- 2026福建宁德市蕉城区教育局补充招聘紧缺急需人才6人备考题库(三)附答案详解(巩固)
- 2026黑龙江哈尔滨工业大学机电工程学院机械设计系招聘备考题库及一套参考答案详解
- 2026河南郑州巩义市产业投资发展有限公司招聘副总经理1人备考题库及答案详解(易错题)
- 2026山东济南市第五人民医院招聘卫生高级人才和博士(控制总量)8人备考题库带答案详解(达标题)
- 2026年上半年成都市温江区面向社会考核招聘副高级及以上职称教师备考题库(7人)及参考答案详解一套
- 2026江苏苏州市常熟市莫城街道(服装城)国有(集体)公司招聘13人备考题库含答案详解(预热题)
- 2026南通师范高等专科学校长期招聘高层次人才15人备考题库带答案详解(培优b卷)
- 2026湖南益阳市市直医疗卫生单位招聘及引进紧缺(急需)专业人才39人备考题库及参考答案详解(突破训练)
- 学堂在线 雨课堂 学堂云 网球技术动作入门 章节测试答案
- 2026广东惠州市自然资源局招聘编外人员4人笔试参考题库及答案解析
- 养生食膳行业分析报告
- 2026中国中原对外工程有限公司校园招聘笔试历年难易错考点试卷带答案解析
- DB42∕T 2523-2026 党政机关办公用房面积核定工作规范
- 2026南京六合科技创业投资发展有限公司招聘9人笔试备考试题及答案解析
- 2026济南市第七人民医院公开招聘派遣制工作人员(2名)考试参考试题及答案解析
- 2026年安徽师范大学专职辅导员招聘30人考试参考试题及答案解析
- 成都合资公司管理手册模板
- 二类医疗器械零售经营备案质量管理制度
- (2026年)肩峰下撞击综合征的诊断与治疗课件
评论
0/150
提交评论