【FFA 2026】Real-Time Analysis 1 Flink+MaxCompute AI时代数据实时入仓及处理实践_第1页
【FFA 2026】Real-Time Analysis 1 Flink+MaxCompute AI时代数据实时入仓及处理实践_第2页
【FFA 2026】Real-Time Analysis 1 Flink+MaxCompute AI时代数据实时入仓及处理实践_第3页
【FFA 2026】Real-Time Analysis 1 Flink+MaxCompute AI时代数据实时入仓及处理实践_第4页
【FFA 2026】Real-Time Analysis 1 Flink+MaxCompute AI时代数据实时入仓及处理实践_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

AI时代数据实时入仓及处理实践奚悦大数据技术【探索期】大数据技术【探索期】互联网时代到来,以分布式调度、存储为核心的基础设施建设时期,打破数据库以低成本大规模扩张问题。分布式计算模型为大数据技术【普惠期】开始关注投入企业生产必须的能力:工作流、安全、治理、规模、稳定性等,出现数据中台概念大数据技术【变革期】开始关注Bigdata+AI的异构计算能力,以及对多模态海量数据的高效处理能力大数据技术【发展期】开始关注开发效率,分布式计算模型针对场景细分,总体向SQL靠拢AlibabaApsaraMaxCompute(ODPS)写下第一行代码MaxComputeAlibabaApsaraMaxCompute(ODPS)写下第一行代码MaxComputeMaxCompute2.0单集群过万台MaxCompute公共云售卖单集群5000台Oracle&Greenplum当时亚洲最大的OracleRackMaxComputeData+AI计算引擎正式发布全面进入AI异构计算时代MaxCompute分布式Python计算框架首次发布MaxComputeMaxCompute分布式Python计算框架首次发布MaxComputeSnowflakeAirflowAtlasSnowflakeAirflowAtlasApacheApacheSnowflake在多个系统,链路复杂、治理困难、业务对数据新鲜度的要求从天级走向小时级甚至到分钟级、秒级,传统离线链路难以支撑大规模实时入仓与分生成式AI带来大量混合内容生成和处从实时入仓到AI一体化消息队列数据库对象存储数据流百炼Embedding模型AI_embed实时向量化数据库/数仓实时数据处理及向量化数据清洗与加工,支持实时计算与流式EmbeddingVector_Vector_Search数据处理…引擎层:支持向量检索并针对性提升数据查询性能性能加速层:可灵引擎层:支持向量检索并针对性提升数据查询性能性能加速层:可灵活构建向量索引承载数据存储、向量检索与AIFunction数据智能加工计算和分析MaxCompute增量表格式及增量计算引擎全面升级MaxCompute增量表格式及增量计算引擎全面升级数据源数据集成MaxCompute存储&计算引擎客户价值消息数据库消息数据库DW实时同步实时写入批量写入周期性任务DeletionVector拿拿周期性任务周期性任务DeletionVector拿拿周期性任务 DeletionVectorN拿拿 DeletionVector拿拿 DeletionVectorN DeletionVectorNDeletionVector统一的表存储格式统一的表存储格式统一的计算框架&SQL语义统一的表服务&元数据管理服务更极致的性价比更极致的性价比MaxCompute交互式查询与分析功支持对查询和数据插入操作的加速和优化:支持对查询和数据插入操作的加速和优化:•对“GB~TB级别”实现秒级执行•支持交互式任务与批量式任务的分时资源共享面向批处理的共享文件存储面向批处理面向批处理的共享文件存储面向批处理的共享DB存储批处理流处理OLAP分析AI场景•支持事务隔离•支持事务隔离•较强的DataSkipping能力•底层基于自研AliORC文件格式•只支持Insert操作AppendAppendDeltan基础能力:insert/update/delete/append/mergeinton数据流式导入:streaminginsertn数据更新:支持部分列更新nClustering:增量数据ReClusteringnAutoScaling:自适应动态分桶,无需用户配置nRealtimeCompaction:T+1后台Merge提升至分钟级n性能:基础读写性能无回退,搭配clustering获得更优查询性能n成本:存储成本持平或者更低实时向量化百炼Embedding模型AI_embed实时向量化驾一消息队列数据库对象存储数据流实时向量化百炼Embedding模型AI_embed实时向量化驾一消息队列数据库对象存储数据流相似度topK数据相似度topK数据实时向量化实时向量检索百炼Embedding模型实时向量化实时向量检索实时数据流消息队列数据库对象存储AI实时数据流消息队列数据库对象存储实时向量检索支持在一张表内同时管理结构化字段、多模态对象和向量字段,减少跨产品实现数据存储和业务分析计算的割裂BLOB多模态统一存储特点:单个单元格容量最大5GB;支持原生二文件Compaction和文本类压缩优化价值:支持图片、音频、视频、文档等非结构化对象统一入仓;无需跨系统搬运数据,可统一数据存储,终结多模态处理的碎片化困局新增原生Vector数据类型特点:支持构建包含图像、文本与向量的统一维向量,告别繁琐的STRING/BINARY编解码转换,查询解析效率实现数量级跨越数据源->FlinkFlinkCDC、消息队列、文件源等多源接入,承担实时采集与流式通过Flink写入MaxComputeDelta表,特定场景可通过FlinkEmbedding能力加工成向量数据并写入MaxCompute并同步产出通过MaxCompute向量检索与AIFunction等函数对Flink写入的数据做加工计算,推荐、意图识别、风控等场景及业务。MaxComputeAI时代下新功能聚焦支持异构计算、多种模型类型•针对大模型离线推理场景,推出端到端解决方案,支SQL、Maxframe多引擎算无缝对接百炼各类商业大模型•支持海量数据处理算子及场景AIFunction能力,成从数据准备、数据处理模型推理的完整流程,降企业级大模型应用门槛多模态计算计算引擎全面升级e两套分布式计算引擎,增强原生结构化数据处理能力的同时,拓展面向图文、音视频的跨模态数据联合分析计算能力智能平台应用提供MaxAgent、开发Skills、AIFunction模型服务等应用接口,构建面向智能体时代的统一开发与运行范式•SQL&MaxFram全模态存储全模态存储基于原生BLOB多模态存储、提供统一访问接口及元数据管理,深度对接DLF,构建面向多模态数据的统一存储结构化半结构化非结构化结构化半结构化非结构化多模态数据融合存储结构化+非结构化单表多模态数据一行多模态数据融合存储结构化+非结构化单表多模态数据一行多模态数据链路构建Blob类型架构DLF/MaxMetaMaxStorageAPI提供四层能力,覆盖从多模态数据入仓到检索结果产出的完整流程检索分析层检索分析层距离函数业务产出SQLJoin/过滤/回写性能加速层智能转换层统一存储层——这是MaxCompute原生能力区别于其他独立向量服务的核心点:它不是只提供一个在线检索接口,而是把向量检索作为大数据计算链路的一部分,支持批量、多分区、大规模、可结果结果所有测试case100%存在性能提升加速区间覆盖维度覆盖业务推荐、投放、广告、检索召回等真实离线任务*以上为内部生产业务使用MC向量升级能力后的效果对比数据少搬数据少搬数据少维护链路向量化、索引构建、检索、分析可以纳入统一SQL/任务编排少维护链路向量化、索引构建、检索、分析可以纳入统一SQL/任务编排多模态对象、向量、召回结果都在批量吞吐更强多分区、大批量TopK召回MaxCompute计算引擎:异构算力统一调度海量资源,支撑超大规模数十万核并发计算推理加速,多模态数据处理和阿里云百炼商业化大模型无缝集成让AI放大数据价值MaxFrame构建在Ray之上的原生分布式Python引擎,也是MaxCompute面向AI场景的新一代引擎统一数据管理统一数据管理OpenLake各类数据统一管理,计算引擎统一对接分布式计算框架分布式计算框架MaxComputeMaxFrame统一Python编程接口,高效分布式计算能力,内建数据处理算子交互式开发环境交互式开发环境MaxComputeNotebook开箱即用的开发环境,交互式开发镜像管理镜像管理MaxComputeImage内置第三方依赖包及通用模型,用户自定义镜像管理公共模型导入模型远端模型用户训练模型MaxCompute模型:多种类型统一管理、使用简单公共模型导入模型远端模型用户训练模型支持SQL&MaxFrameAlFunction无缝调用0语法学习成本,完美融入现有数仓工作流极简PythonSDK接口,标准DataFrame生态,数据处理与推理一站式计算MaxComputeAIFunction的六大优势SQLSQL与Python(MaxFrame)双管齐下,兼容Pandas风格一行SQL/Python函数即插即用,零部署成本,大幅缩短开发周期。与与MaxCompute的模型、计算资源、权限体系完美融合,对接简单。支持分布式并发执行,可支撑单次PB级数据处理规模,线性扩展。支持自动并发切分、支持自动并发切分、worker内sleep机制、限流控制,保障作业稳定性。完美适配各种业务场景,无缝对接MCCU/GU/Token多样化资源池。联合解决方案CLIP图片embedding处理后写入数据开发数据挖掘检索数据集成、数据开发、任务调度数据研发工程师车端数据Datahub/KafkaFlink解析写入文件上传进度MaxCompute多模检索向量数据库tag数据同步tag表人工标注数据更新表解析/时空对齐/切帧/大模型推理(打标等)/打包onCPU/GPU/百炼模型存储原始文件、原始/切帧后CLIP文件视频图像文件存储重新打包CLIP文件训练数据流动BI报表/大屏报表查询加速、近实时分析训练原始CLIP文件标注CLIP图片embeddin

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论