版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
目录第一章从“软件定义汽车”到“数据与智能定义竞争力” 4智能化会真正成为影响消费决策的核心变量 4智能化能力开始深度渗透汽车全生命周期 5自动驾驶——从离线回放走向数据闭环 5智能座舱——个性化体验与智能化服务 6车联网——实时监控与安全预警 6智能制造——实时质量监测与预测性维护 6第二章汽车产业的数据变革趋势:从数据采集到数据闭环 7数据角色的根本变化:从“记录资产”到“决策资产” 7汽车数据呈现出爆炸性增长 7数据使用方式的变化:从离线分析到在线协同 8第三章汽车智能化迭代的数据闭环 10场景案例:复杂路口的"非典型行人横穿" 10车云协同:实时监测与触发式采集 10数据解析与状态对齐 11标签生成与语义构建 113.5.数据资产检索与分析 123.6训练、验证与部署 12第四章系统瓶颈:为什么传统架构难以支撑智能汽车数据闭环 13数据闭环中的三元模型(世界状态-语义空间-实时搜索与分析) 13三元模型中的两个不可能三角 15传统方案的局限性 17第五章技术突破:SelectDB数据闭环模型中的四大技术创新 18基于Index+Bitmap的主键模型 18Variant数据类型 19HSAP混合搜索与分析 20云原生弹性计算 21第六章基于SelectDB构建智能网联汽车实时数据底座 22自动驾驶:基于SelectDB构建新一代自动驾驶数据智能基座 24智能座舱:基于SelectDB构建智能座舱数据洞察与体验优化引擎 26车联网数据分析:基于SelectDB构建新一代车联网实时数据中枢 27业务运营:基于SelectDB构建车企业务运营智能数据引擎 30工厂数据分析:基于SelectDB构建汽车工厂实时数据驱动引擎 33第七章SelectDB解决方案应用案例 35长安汽车基于SelectDB的车联网数据分析平台建设实践 35某头部自动驾驶公司基于SelectDB的实时标签检索 37某头部自动驾驶公司基于SelectDB的训练数据资产平台 39零跑汽车车联网云平台 40某头部车企基于SelectDB车联网数据分析 41某头部车企基于SelectDB移动端销售数据实时报表 43某头部整车制造基于SelectDB统一分析引擎 44第八章总结与展望 45核心洞察:数据能力重构汽车产业竞争格局 45SelectDB的价值主张:破解不可能,加速数据闭环 46行业展望:数据架构演进的方向 46致谢与合作展望 47关于SelectDB 47引用 48第一章从“软件定义汽车”到“数据与智能定义竞争力”20242025“”向“智”“”[1]品,向一个深度集成AI智能化会真正成为影响消费决策的核心变量“(SoftwareDefinedVehicleSDV)”(E/E)[2]“”“”“”[34]。(OEM)[3]2026年智能化可能会真正成为影响消费决策的核心变量。其一对于智能化的定论,目前相对清晰,政策层面也在加速扶持,比如去年年末获批的L3车型,就是一个明显的趋势。其二围绕智能化的宣传营销在逐渐规范,尤其是去年辅助驾驶的定义明晰后,智能化的市场教育已经基本完成。其三是目前消费趋势,2024年智驾的主流车型价格带分布在20万元以上,而截止2025年末,10万以上近一年销量突破10万辆的所有车型,均搭载了智能驾驶系统。[5]在这种背景下,智能体验的“持续演进能力”成为了衡量车企竞争力的关键指标。传统的软件开发模式是线性、离线的,而现代智能汽车要求的是一种“数据闭环”式的进化:车辆在行驶中发现长尾场景(CornerCases),数据被自动触发上传至云端,在云端进行实时标注、训练和仿真验证,最后通过OTA(Over-the-Air)推送到车端完成模型更新[3]。这种闭环的效率,直接决定了算法迭代的速度和用户体验的上限。智能化能力开始深度渗透汽车全生命周期“”“”“”[3]PB“(HardSamples)”AI[2,6]。这种“智能密度”的竞争已全面渗透至研发、制造、运营与服务等全生命周期环节。自动驾驶——从离线回放走向数据闭环(E2E)2025[3]20242025[7])[7]。近年来,自动驾驶研发正从以人工规则筛选为主的离线回放模式,逐步转向以数据驱动为核心的在线仿真与训练体系。车企和自动驾驶公司需要从PB级历史数据中,根据接管事件、急刹、异常轨迹、多模态感知冲突等特征,快速圈选出具有训练价值的片段。这一过程往往涉及对时序信号、结构化标签、传感器日志乃至向量特征的联合检索与分析。智能座舱——个性化体验与智能化服务智能座舱正在演变为“第三空间”。通过分析用户的交互历史、位置信息和环境数据,座舱可以实现从“人适应车”到“车适应人”的跨越[2]。同时,远程诊断(RemoteDiagnostics)和OTA能力使得售后服务从“被动维修”转向“主动关怀”,极大提升了用户的忠诚度。车联网实时监控与安全预警车联网(IoV)平台正在从简单的“连接”向“赋能”转变。通过实时分析千万级车辆的电芯电压、温度、内阻等信号,平台可以构建电池热失控预警模型。此外,基于GPS和行驶行为的实时分析,运营方可以针对驾驶员的危险行为进行实时干预。GPS“”智能制造——实时质量监测与预测性维护在制造环节,汽车产业正从传统的事后质量控制,迈向以实时数据为核心的过程质量管理。随着生产自动化程度的提高,生产线设备、工艺参数和环境变量产生了大量连续时序数据,为质量预测和异常预警提供了基础条件。整车厂在焊装、涂装和总装等关键工序中,持续采集焊接电流、压力、温湿度、振动频率等信号。通过对这些数据进行实时分析,可以在缺陷发生之前识别潜在风险。例如,焊接参数的微小漂移可能在短时间内不会造成明显问题,但若未被及时发现,可能导致批量质量隐患。此外,预测性维护正成为智能制造的重要组成部分。通过分析设备的长期运行数据,系统可以识别出潜在的故障模式,在设备发生非计划停机前进行维护安排。这种方式不仅降低了维修成本,也显著提升了产线的整体利用率。第二章汽车产业的数据变革趋势:从数据采集到数据闭环在“数据与智能定义竞争力”的叙事下,数据不再是业务运行的副产品,而是核心生产要素。汽车产业正经历着一场从数据角色、数据特征到数据使用方式的全方位变革。数据角色的根本变化:从“记录资产”到“决策资产”“”“”2026“”汽车数据呈现出爆炸性增长汽车产生的数据规模之大、类型之杂,几乎是绝无仅有的。这种高复杂度的结构,对数据库的存储引擎和计算引擎提出了巨大挑战。规模的爆炸性增长一台现代智能汽车就是一个移动的数据中心。根据行业测算,随着感知能力的增强,数据的生成量呈现出指数级增长趋势。点击图片可查看完整电子表格这种规模意味着,传统基于单机或简单分库分表的系统会迅速触达瓶颈。即便只存储关键的元数据和部分信号,其日增量也足以让大多数传统的数据库系统在进行关联查询时陷入停滞。数据类型的多模态交织辆数据主要以CAN一方面,感知系统持续产生海量非结构化数据,包括摄像头图像、激光雷达点云、毫米波雷达回波以及音频流等。这些数据体量大、生成频率高,且单条数据本身难以直接参与分析,必须通过算法抽取特征或语义标签。另一方面,算法和业务系统又在不断生成半结构化和结构化数据,例如感知结果、决策轨迹、行为标签、事件摘要以及用户操作日志。更重要的是,多模态数据之间并非孤立存在,而是围绕同一时空上下文高度关联。例如,一次紧急制动行为,可能同时关联车辆速度曲线、前向摄像头视频、障碍物检测结果、道路拓扑信息以及驾驶员接管动作。只有将这些不同模态的数据在统一的数据体系中进行关联和联合分析,才能真正还原场景本身,支撑高质量的算法评估和问题定位。这意味着,汽车行业的数据平台必须从“单一数据模型”演进为“多模态数据协同模型”,不仅要能存、能算结构化数据,还要支持向量、JSON、时序数据与文件型数据的统一管理和联合检索,为上层智能应用提供一致的数据视图。数据使用方式的变化:从离线分析到在线协同数据驱动的业务逻辑变化,直接导致了数据底层架构从“离线”向“在线”的全面演进。这一过程伴随着三大关键转变。从T+1到秒级/准实时响应LambdaKafkaHadoopETL“”从单一分析用户到多角色并发访问数据不再只是管理层的决策看板。在一家头部的汽车科技公司中,数据系统的用户包含了:AppTPSQPS防止一个复杂的统计SQL拖垮整个在线业务。从结构化数据分析到多模数据搜索与分析随着数据规模和复杂度的持续提升,传统以SQL报表和固定指标为中心的数据使用方式,正在逐步暴露出局限性。对于智能网联汽车而言,越来越多的问题并不是“某个指标是否异常”,而是“是否存在一类相似场景”“哪些数据与已知问题高度相似”“是否出现过相同模式的组合特征”。选、按向量相似度查找相似场景、按JSON“”“+”从更宏观的角度看,多模数据搜索与分析能力,是连接原始数据与智能决策之间的关键桥梁,也是构建真正数据智能闭环不可或缺的一环。第三章汽车智能化迭代的数据闭环汽车智能化不断迭代的前提是算法的持续优化,而算法的卓越度又取决于数据闭环系统的效能,数据在汽车智能开发每个场景的高效能流转至关重要,数据智能化将成为加速汽车智能化的关键。本章通过一个典型的自动驾驶优化案例,阐述完整的数据闭环体系如何运作。场景案例:复杂路口的"非典型行人横穿"某城市早高峰时段,一辆自动驾驶测试车在通过无信号灯路口时遇到挑战场景:车辆虽然最终安全刹停,但刹车时机偏晚,乘坐舒适性不佳。这类CornerCase的优化,依赖完整的数据闭环能力。车云协同:实时监测与触发式采集车辆在行驶过程中持续采集高频车机信号,包括:/车机信号以流式方式上传云端,云端执行:AI当云端识别出一次急刹事件后,系统向车端下发触发指令,以事件发生时刻为中心,采集前后固定时间窗口(如前后各20秒)的完整数据:这种"事件触发式采集"机制避免了无效数据的海量上传,确保云端存储的是高质量、有分析价值的场景片段。数据解析与状态对齐上传到云端的数据来自多个异构系统,首要任务是将碎片化的数据还原为连续的世界状态:(CAN、ROS)""(Frame)——(CAN100Hz,30fps,10Hz):这一步骤将异构数据流转化为结构化的时序状态数据库,为后续分析奠定基础。标签生成与语义构建面对百亿帧规模的数据,人类无法逐帧审查,模型也无法直接理解原始数值。标签的作用是将数据从"发生了什么"转化为"这意味着什么"。():((复杂语义关系,嵌套JSON(/)(T型/十字)、周围交通参与者分布。这种多维度、多层级的标签体系,将原始传感器数据转化为算法可理解、可检索、可分析的结构化知识。数据资产检索与分析当状态被结构化、语义被标签化,真正的工程挑战出现了:如何在海量数据中快速找到有价值的样本?:"30'++??:(3)(JSON)():Cornercase训练、验证与部署基于筛选出的样本,工程师会::::签系统、自动化工具链,将数据闭环的迭代周期从"周"级缩短到"日"级甚至"小时"级,这将成为智能汽车竞争的核心壁垒之一。第四章系统瓶颈:为什么传统架构难以支撑智能汽车数据闭环4.1数据闭环中的三元模型(世界状态-语义空间-实时搜索与分析)当从数据视角来看上述数据闭环的过程,可以把其中的数据架构总结为三元模型(世界状态-语义空间-实时搜索与分析)。连续演化的世界状态:①高频采样CAN10-100Hz30fps10Hz7×24②高维状态一辆车辆可能同时监控上万个信号维度——从轮速、油门踏板到摄像头像素、雷达点云。每个时刻不是一个孤立的"事件",而是一个高维空间中的坐标点,完整刻画了车辆-环境系统的瞬时快照指数膨胀的语义空间汽车智能的进化,本质是对物理世界理解维度的指数级扩张。如果说"状态连续性"描述的是物理世界本身的特性,那么"语义爆炸"则反映了智能系统认知能力的演化路径。这种认知深度的增长是非线性的。这种"语义复杂化"呈现两个加速特征:①超大规模:"":"""--",×道路××...×②结构复杂早期的ADAS只需要识别"车道线存在与否",今天的L4系统需要理解"施工区域的临时交通标志在雨天反光条件下与常规标志的语义差异"。对于语义的表述,在数据层面体现出多种形式::(:):(::,:)L3()L4(embeddingspace)实时搜索与分析"""""::动,车队监控中心必须在30秒内发现并告警,否则可能在下一个红绿灯路口酿成事故。:车主通过App"""5"。::发现badcase→速,直接决定了车企的技术演进速度。而语义搜索的即时性,是飞轮加速的关键齿轮。"+"(图像embedding)(天气/)()-"""""4.2三元模型中的两个不可能三角高频状态可见①高频采样(高吞吐写入):车机信号以毫秒级频率持续产生,覆盖动力、电池、底盘、环境、驾驶行为等多个子系统。②高维状态(万列字段):单车往往包含上万个信号维度,这些信号在同一时间点共同构成一个超高维状态向量。③实时可见:数据不仅要被写入,还需要在秒级延迟内可查询、可聚合、可分析,支撑告警、诊断、策略与模型迭代。在当前数据库系统中,这三点往往只能取其二:+→ETL+→复杂语义可得①超大规模:百亿帧数据,每一帧包含上万的标签与属性。JSON现有数据库系统往往在这里再次失衡:→Cornercase+→+→JSONCornerCase传统方案的局限性(Hive/Spark)批处理能力强,但数据时效和性能不足,难以满足数据闭环效率实时OLAP(Clickhouse)Json(ES/MongoDB)等方面不足。第五章技术突破:SelectDB数据闭环模型中的四大技术创新面对上述数据闭环三元模型中的业务特点,SelectDB通过四大技术创新,为行业头部企业解决了高频状态可见、复杂语义可得两大挑战。基于IndexBitmapPrimarykeyIndex+BloomFilterDeleteBitmapOLAPVariant组的复杂嵌套的JSONServerless基于Index+Bitmap的主键模型Doris/SelectDB(UniqueKey)OLAPPrimarykeyIndexBloomFilter+DeleteBitmapUPSERTDeleteBitmap/DeletionVector)I/OVariant数据类型TNNVariantJSONSchema(DynamicSubcolumn)JSONJSONB)JSONCPUI/OVariantJSON对象(Path)JSONKey-Value展(Subcolumn)。JSON高频字段会被物化为独立列式存储,从而让查询引擎能利用列存、向量化执行、压缩等成熟优化机制低频、稀疏字段则保留在稀疏存储(类似JSONB)的结构中,避免列爆炸。Compaction“”VariantSelectDBCompactionCompactionJSONVariant支持倒排索引等多种索引机制。在写入阶段可为JSON子列建立倒排索引(MATCH),SchemaTemplatePath技术详解见https:///blog/1537HSAP混合搜索与分析Doris/SelectDBHybridSearchandAnalyticsProcessing(HSAP)架OLAP“++OLAP”Doris/SelectDB通过统一存储格式、分布式倒排索引、高效向量索引、全栈向量化执行引擎和调度优化器,将HSAP能力工程化落地:I/O层。ANN向量索引单一SQL接口https:///blog/1585云原生弹性计算针对汽车行业面临数据规模爆炸性增长的挑战,SelectDBCloud和阿里云数据库SelectDB版采用云原生架构,通过存储与计算分离、serverless弹性伸缩等机制来应对海量数据的实时写入与分析需求。的能力,并显著提升系统的实时性和成本效率。SelectDBCloudAWSSaaSBYOC(SelectDBVPCRAMVPC无论是寻求多云部署的灵活性,还是希望深度集成阿里云生态,两者都能为汽车行业提供弹性、稳定且成本可控的基础设施支撑。技术详解见https:///blog/1319第六章基于SelectDB构建智能网联汽车实时数据底座前文我们剖析了智能网联汽车数据的本质挑战——两个不可能三角的同时满足,以及传统数据架构在高频状态监测与复杂语义搜索上的结构性短板。第五章展示了SelectDB如何通过四大核心技术突破这些限制。但技术创新的终极意义,在于它能为业务创造何种价值。SelectDB的四大核心技术在智能网联汽车场景中创造了五个维度的业务价值突破:""转向""12起潜在电池热失控事件,车主App查"5",加速自动驾驶的认知迭代。通过HSAP雨天+隧道+"等复杂条件的cornercase统一存储架构,终结"烟囱式"系统混乱。某头部车企将ClickHouse、ES、MongoDB等多套系统整合为SelectDB单一底座,大量ETL工作被消除,系统运维成本降低,数据一致性问题根除。Schema灵活演化,释放业务敏捷性。新标签定义从"提需求→改表结构→停机迁移"(周级)变为"直接写入Variant字段"(小时级),算法团队可以"交互式探索"语义空间,而非等待数据工程排期。PB级线性扩展,支撑从千辆到百万辆车的业务增长,无需架构重构。SelectDB集群通过增加节点平滑扩容,查询性能保持线性增长,避免了传统方案中"规模到临界点需要推倒重建"的技术债危机。接下来我们将深入五大具体场景——自动驾驶、智能座舱、车联网数据分析、业务运营、工厂数据分析——详细展示SelectDB如何在每个场景中落地,创造实实在在的业务价值。6.1自动驾驶:基于SelectDB构建新一代自动驾驶数据智能基座架构总览:全链路数据价值引擎本解决方案构建了一个层次分明、能力融合的端到端数据平台。其核心在于以统一的SelectDB实时分析数据库,取代过去多套系统(如Hive、ES、ClickHouse)拼凑而成的复杂链路,实现了从原始数据接入、多模态处理、智能分析到资产化服务的一体化管理。该架构自上而下分为四层:核心引擎层:以SelectDB存储层:整合数据湖的弹性存储与SelectDB这一架构从根本上解决了数据孤岛、处理滞后、链路复杂等行业顽疾,让数据流如“高速公路”般畅通无阻,直达业务价值终点。SelectDB的核心技术优势SelectDB在本架构中扮演着不可替代的“数据大脑”角色,其多项核心技术直指自动驾驶数据处理的痛点:“”(CAN)SelectDB凭借其高性能的Variant数据类型,能够原生支持并高效处理JSON、XML“”“”“”(CornerCase)SelectDB的HSAP()(/的OLAP能力深度融合。用户可通过一句SQL(如“雨”)“”SelectDB基于全链路向量化执行引擎和MPP“”“”SelectDB()()在SelectDB()自动沉降至数据湖,通过SelectDB50%SelectDB方案价值赋能自动驾驶研发与运营全场景基于以上强大核心,本解决方案为自动驾驶业务的各个环节注入全新动能:6.2智能座舱:基于SelectDB构建智能座舱数据洞察与体验优化引擎“”向“”SelectDB枢,让座舱真正成为懂用户的智慧伙伴。架构总览:以数据驱动座舱体验进化本方案构建了一个从数据采集到价值反哺的完整闭环。其核心在于以统一的SelectDB实时分析平台,高效处理来自车端的多维度交互数据,并通过服务化接口,将数据洞察能力赋能于上层各类应用,实现数据驱动的座舱体验持续进化。((语音指令、手势识别)、系统运行日志以及第三方服务数据,构成体验优化的原始素材。:SelectDB签的快速筛选和对语义内容的模糊匹配。SelectDB核心技术优势SelectDBBITMAP如“”“Variant“”流畅、自然的交互是体验的关键。SelectDB的在线计算能力可实时分析语音识别准确率、屏幕触控响应延迟等指标,即时发现体验瓶颈。SelectDB唯A/B天。方案价值:驱动具体业务价值提升(高效问题定位与运维:统一查询结构化的业务指标与非结构化的系统日志,当出现触控卡顿时,能快速关联分析同时刻的CPU、内存占用日志,实现根因的分钟级定位。50%6.3车联网数据分析:基于SelectDB构建新一代车联网实时数据中枢“”“数字()PB“不”SelectDB场景价值车联网数据绝非简单的状态记录,其深度挖掘与实时分析能为车企与用户创造四大核心价值:精准故障诊断与溯源:基于毫秒级的CAN()“”为“”)下文,构建精准驾驶画像。不仅为UBI技术挑战在实现上述价值的道路上,行业普遍面临严峻的技术挑战:100wTPS数据存储成本高,车联网数据日增TB~PB千上万供应商,产品信息,在千亿级数据中做复杂关联分析,现有产品无法满足性能要求,延误问题定位效率基于SelectDB解决方案以SelectDB为核心的车联网数据平台架构,通过SelectDB统一接管高吞吐数据写入、实时存储计算与交互式分析。SelectDB。SelectDB可支持百万级TPSSelectDB5-20倍的压缩比,显著降低PB万列宽表与灵活建模:凭借独特的Variant(VCU、BMSMCU等统一数据服务层:基于SelectDB提供的统一数据视图,通过标准SQL或API接批量数据服务:为AISelectDB技术优势TPS5~20倍的variant数据类型使json6.4业务运营:基于SelectDB构建车企业务运营智能数据引擎“”向“”跨行业等多维度;包括CRM系统、销售系统、车机系统,官方App面对多渠道、海量、高并发的运营数据,传统烟囱式的数据系统难以支撑实时洞察与敏捷决策。为此,我们推出以SelectDB为核心的车企业务运营支持解决方案,旨在构建一个全域融合、实时智能、敏捷响应的数据运营中枢,赋能企业实现精准营销、服务优化与产品创新的全面升级。场景价值运营数据的价值在于直接驱动商业决策与用户体验提升,聚焦四大核心应用:)精准用户触达:融合CRMApp、车联网等多源数据,构建360°(如“”“”)节点,通过OTA升级包),大幅提升营销转化率与用户生命周期价值。“”“”优化产品定义与OTA“--”技术挑战实现精细化运营面临多重技术挑战:数据融合之困:数据散落在CRMApp流量洪峰之压:官方App(SchemaChange)),以便及时调整策略,但传统T+1基于SelectDB方案本方案以SelectDB为核心,构建了一套贯穿数据集成、实时分析到智能应用的统一运营数据栈。统一数据入口与集成层:利用SelectDB的多数据源Catalog()SQLSelectDB集群支持每秒GB),可轻松承接App灵活的SchemaSelectDBAPISelectDB技术优势1、支持多种数据源的catalog直连,实现统一入口做数据采集,分析人员无需学习多种语法,既可访问所有数据2、集群可以实现每秒GB级别的数据吞吐3、支持schema表结构轻度变更,毫秒级别的加减列4、营销活动情况追踪,可以实现端到端的秒级别延迟,支持实时监控营销效果6.5工厂数据分析:基于SelectDB构建汽车工厂实时数据驱动引擎在智能制造浪潮下,汽车工厂正从自动化向数字化、网络化、智能化深度演进。生产线上每台设备、每个部件的实时状态数据,已成为提升效率、保障质量、降低成本的核心资产。面对海量时序数据、复杂的关联分析需求与严苛的成本控制,传统日志系统与数据库组合已力不从心。为此,我们推出以SelectDB为核心的工厂数据分析解决方案,致力于构建一个一体化、高实时、深关联、低成本的制造数据智能基座,驱动汽车工厂向“透明、敏捷、智能”的未来智造迈进。场景价值通过对工厂全域数据的实时采集与深度分析,实现四大核心业务价值飞跃:度、电流等高频时序数据,在SelectDB“”、“”“”(OEE)(存在批次缺陷时,可通过单一车辆VIN号,在SelectDB“”的全(PPM)挥大屏,动态展示计划产量、实际产出、生产线节拍、订单达成率、一次合格率等关键指标,让生产状态一目了然,支持管理层进行科学调度与敏捷决策。技术挑战实现上述智能化场景,传统技术栈面临根本性制约:Elasticsearch))拼凑的Lambda非标准SQL),导致与MES、ERP基于SelectDB方案本方案的核心在于,用一套统一的SelectDB实时分析数据库,替代由Elasticsearch、HBase、关系库等组成的复杂异构数据栈,构建覆盖“边缘数据接入-中心实时分析-上层应用赋能”的一体化平台。统一高吞吐数据接入层:通过SelectDB简单易用的RoutineLoadMES/WMSSelectDB史数据探查。IoT2060%SQL统一数据服务层:基于标准MySQL协议和丰富的APISelectDB技术优势SelectDBSelectDBSelectDB无需额外插件,通过自带的RoutineloadIOT20相比Elasticsearch360标准mysql第七章SelectDB解决方案应用案例长安汽车基于SelectDB的车联网数据分析平台建设实践随着网联车销量不断增长,车辆每天将产生千亿级别的CAN数据,清洗处理后的数据也在50亿级别。面对如此庞大且持续膨胀的数据规模,如何从海量数据中快速提取挖掘有价值的信息,为研发、生产、销售等部门提供数据支持,成为当前亟需解决的问题。400TPSTB通过Flink结合SelectDB的StreamLoad功能,可直接将Kafka数据实时写入SelectDB,同时,利用SelectDBBrokerLoad功能可以将Hive中数据导入到SelectDB中进行分析计算。在这个架构中,SelectDB承担了实时数据部分的计算和处理,还作为结果端直接输出数据给上游业务平台调用。:SelectDBSelectDBinsertintoselectSelectDBMulti-CatalogSelectDB如MySQL、Iceberg、Hive等SelectDBJoin1000FlinkSelectDBSelectDBZSTD(3-5)Flink某头部自动驾驶公司基于SelectDB的实时标签检索业务场景描述该自动驾驶头部企业在数据闭环体系中,构建了一套面向算法开发、仿真回放与数据挖掘的时序标签检索服务。该服务需要在给定车辆与时间窗口内,实时返回生效的语义标签,用于驱动视频回放、时间轴渲染和算法调试。业务面临典型的自动驾驶数据挑战:300JSON格式存储7800+QPSUI50JSON基于SelectDB的Lakehouse架构方案该公司基于SelectDB+Iceberg构建了Lakehouse架构,实现冷热分层与统一查询:"+"SelectDBSSDOLAPIcebergVariantJSON()。SelectDBVariantJSONSchema,ETL在场景挖掘与数据回溯场景中,常需要"找到与当前场景相似的历史片段"或"根据文本描述检索标签"。SelectDB提供向量检索与全文检索的混合搜索能力:将场景特征(如车道线密度、障碍物分布)编码为向量,通过向量检索快速召回相似场景;同时支持对标签描述文本的全文检索(如"雨天夜间变道"),两种检索模式可融合使用,实现语义与关键词的双重匹配。利用向量化执行与并行扫描,在高选择性条件下实现毫秒级响应。按日期分区、按device_id分桶,最大化查询裁剪范围。原生支持数组操作、时间区间计算与多条件过滤,避免应用层二次处理。HSAP能力在同一系统内统一承载实时检索与复杂分析查询,支持在线扩容应对算法迭代带来的查询峰值。业务收益与落地效果在线标签检索稳定支撑上千QPS,查询延迟稳定在毫秒级,视频回放与时间轴操作实现流畅交互,直接提升算法调试与数据标注效率。caseA/BVariantESClickHouseSQL某头部自动驾驶公司基于SelectDB的训练数据资产平台业务场景该自动驾驶头部企业构建了完整的数据生产体系,通过自动挖掘系统对原始采集资产进行场景打标,生成帧级标签索引(bitmap表示),并按标签组合动态构建训练集。随着业务规模化发展,系统面临严峻挑战:bitmapAND/OR/groupby10OLAP基于SelectDB的解决方案该公司基于SelectDB构建了统一的自动驾驶标签分析与训练数据服务平台:帧级Bitmap构建资产×标签×帧级聚合事实表,将帧标签统一建模为压缩bitmap列,每一位对应一帧。利用SelectDB原生bitmap存储与计算能力,直接在数据库内完成AND/OR/COUNT等集合运算,实现存储层高压缩与向量化计算。SelectDBMPPgroupbybitmapCPUETLSelectDBBloomFilterbitmap业务收益引入SelectDB后,该公司在训练数据生产效率和系统稳定性上获得显著提升。关键训练集构建查询从分钟级降至秒级,bitmap聚合性能提升10-50倍,支持上万并发交互请求。算法工程师可实时探索标签组合,无需等待离线计算。数据选样从离线流程转变为实时交互,大幅缩短模型迭代周期,加速场景覆盖优化,直接提升自动驾驶算法研发速度。通过SelectDB统一分析与服务引擎,减少多套计算系统维护,简化数据链路,运维与开发成本同步下降。横向扩展能力支持数据规模持续增长,适配未来更复杂的训练场景,为自动驾驶数据闭环提供长期基础设施保障。零跑汽车车联网云平台CAN支撑C早期架构痛点ImpalaJoin数据处理链路长,端到端延迟达T+1基于SelectDB的方案架构业务收益智能驾驶大屏查询P991.20.3秒。某头部车企基于SelectDB车联网数据分析场景描述在车联网数据查询场景中,日常数据提取需求呈现多元化特征,需高效处理以结构化(如VIN)()SQL原架构方案及问题现在提取方式以presto(小查询)和hive(大查询)查询为主,存在以下问题:10占用过多资源,尤其presto基于SelectDB方案利用SelectDB的数据湖查询能力,直接访问hive中数据查询频率高的数据导入内表查询,加速查询响应针对复杂数据类型,支持map,variant类型数据存储,降低存储空间,提升查询效率应用效果80%HiveCatalog查询相比Presto4采用ZSTD1/3SelectDB改变Presto查询效率不稳定占用资源过多的问题,实现资源的合理分配与高效利用。SelectDB兼顾结构化与半结构化混合数据集处理,适配车联网数据查询多SQL某头部车企基于SelectDB移动端销售数据实时报表场景描述用于某车型的移动端销售战报,比如到店信息统计,crm数据分析,经销商数据,时效性有实时报表(分钟级)和日报月报等,给门店使用,页面响应时间要求在三秒内完成,给后端响应时间在1s内,并提供高并发服务原架构方案及问题以kudu做实时数据接入,Hive数仓做历史数据加工,使用impala引擎,对接BI工具1、实时性不高,无法做到全链路秒级别2、查询性能不满足要求,无法做到查询都在毫秒级别基于SelectDB方案使用SelectDB同时接入离线数据和实时数据,实现批流一体统一架构使用物化视图功能,将ADS层数据物化,实现了查询端的高并发请求应用效果100%1s内,95%300ms以内通过SelectDB的高性能分析能力,企业实现了从‘滞后复盘’到‘实时决策’的转变。销售战报秒级更新助力精准营销,提升客户到店转化率。某头部整车制造基于SelectDB统一分析引擎客户背景实时性要求提升,汽车制造业正从传统批量生产转向智能制造,需要实时监控生产线设备状态、供应链物流轨迹、销售订单履约进度等。架构痛点ImpalaHadoopHadoop选型依据SelectDB查询速度是Impala3-5易于运维:架构简洁,不依赖Hadoop;使用简单:高度兼容MySQLJoin解决方案以SelectDB为核心重建数据仓库,逐渐下线HadoopHive存量数据通过BrokerLoad一次性载入SelectDB业务系统增量数据通过Flink、Catalog插入等方式载入SelectDB,并与Hive进数据对齐后应用统一切换至SelectDB并下线Hadoop应用效果解决Hi
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 深度解析(2026)《FZT 62032-2016机织毛巾布》:标准解码、质量跃升与产业未来
- 深度解析(2026)《FZT 21004-2021国产细羊毛及其改良毛毛条》
- 深度解析(2026)《FZ 65003-1995特种工业用股线 物理机械性能试验方法》
- 2026年唐山市开平区社区工作者招聘考试备考题库及答案解析
- 教科版 (2019)必修 第一册第一章 描述运动的基本概念1 参考系 时间 质点教学设计及反思
- 2026年天津市南开区社区工作者招聘考试参考试题及答案解析
- 八年级信息技术下册 第11课 飞天之梦教学设计
- 期末教学设计中职基础课-职业模块 服务类-人教版-(数学)-51
- 人教版六年级下册数学应用题专项练习(提升版含答案)
- 2026年扬州市邗江区社区工作者招聘笔试参考试题及答案解析
- 第1章-射频理论和工程的基础知识
- 2025第二届卫生健康行业网络与数据安全技能大赛备赛试题库资料500题(含答案)
- 《结肠癌病例讨论》课件
- 医疗设备行业的差异化竞争与市场拓展
- 2024河北高考地理真题卷解析 课件
- 工业产品生产单位落实质量安全主体责任工作指南
- 人教版初中物理八年级下册全册教学课件
- 2023年10月自考00161财务报表分析(一)试题及答案含评分标准
- 腹壁脓肿的护理查房
- (2023版)小学道德与法治一年级上册电子课本
- GB/T 13927-2022工业阀门压力试验
评论
0/150
提交评论