版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
DataFun
#
2024大模型时代下,基于湖仓一体的数据智能新范式目录1.大模型爆发带来的数据行业变革对于企业数据平台的能力变革要求阿里云AnalyticDB:在AIGC时代下,驱动企业架构升级大模型时代来临2023.3.162022.112023.2.25ChatGPT
3.5发布大语言模型的价值被初步证明Meta开源LLAMA开启GPT竞赛时代2023.3.14ChatGPT
4.0Microsoft
365
Copilot2023.3.172023.4.11通义千问2023.5.6Google模型PALM2行业模型Med-PaLM
2和sec-PaLM22023.3.23ChatGPTRetrievalPlugin2023.7.28阿里云模型服务灵积支持商业化部署
ChatGLM2,LLAMA2等模型企业知识增强模型即服务(Model-as-a-Service)2024.2.15多模态大模型将语义与图像进行深度理解融合2023年底国家大模型评测标准阿里,百度,腾讯,3602023年S2百模大战近100大模型覆盖基础大语言模型行业大模型多模态大模型2023.3.15MidJourney
V5深化产业影响,驱动全行业能力升级AIGC带来的产业变革趋势内容生产效率将带来快速变革对于游戏,电商,广告等行业,大模型将带来50%~70%的开发效率提升,同时门槛降低将引入新玩家,带来行业快速变革垂直领域随着大模型能力深入持续变革对于垂直领域企业,存在着线上+实体的结合趋势,更加依赖对于专业性的考量,会随着LLM能力升级,持续性进行产业能力升级;高度信息化安全的强监管部门的底层变革对于信息化安全等级较高的,对于数据具有重政府监管企业,将会关注政策导向,数据安全及能力演进,这类企业需要自底向上的全盘思考,有序推进,最终实现全行业拥抱;数据规模大幅增长数据质量要求提升数据安全规范升级全行业拥抱AIGC的全新要求(信息来源于艾瑞咨询发布的《2023年中国AIGC产业全景报告》AIGC分层能力一览LLM
大语言模型医疗金融…..安全fine-tune企业服务模型服务商fine-tune知识库
知识库知识库
知识库…..…..企业知识增强(RAG+私有模型)fine-tunefine-tune零售企业专属知识企业专属模型行业模型通用大模型实时企业信息企业级特征公司当前最火产品行业特征泛化能力公司主售什么产品零售的定义零售行业业务流程模型领域能力可回答的问题目录1.大模型爆发带来的数据行业变革企业数据平台的能力挑战阿里云AnalyticDB:在AIGC时代下,驱动企业架构升级自顶向下的体验变革+自底向上的能力变革应用层内容服务的要求数据来源更加丰富在于用户交互过程中的数据覆盖面积提升智能化的数据在线加工能力更强平台工具层智能开发效率进一步提升;面向垂直行业属性的开发链路更智能开发工具和大模型+加速降低技术使用门槛基础层更高的数据质量用于赋能模型训练;更丰富数据类型处理能力;海量数据的存储和IT成本平衡(图片来源于艾瑞咨询发布的《2023年中国AIGC产业全景报告》)当前数据平台能力瓶颈图像视频音频对话地理时空AIGC应用智能数据分析智能决策海量多模数据生成大模型原生处理能力亟待增强仅可处理结构化数据不支持海量多模数据处不支持异构算力缺少大模型+AI结合能力传统数据平台企业知识向量数据
半结构化数据非结构化数据多模数据….大数据+大模型能力大模型调优及部署应用层•添加文字内容•添加文字内容•添加文字内容01
02
平台工具侧基础层03背景LLM能力增加了业务场景的数据需求范围,参与业务支持的数据量大幅膨胀核心诉求海量数据需要直接支持应用集成方式更加灵活背景基于大模型能力带来更加高效的开发和数据的分析能力背景10X的数据量支持LLM多模的数据处理能力高价值数据留存增长场景企业知识库,客服等核心诉求更高效的开发工具更智能的数据分析更易用的数据处理工具场景企业数据开发、分析平台核心诉求低成本的存储高质量数据的处理能力异构算力的加持场景AI原生的企业数据平台数据平台趋势分解一站式智能数据平台架构多模型服务平台DashScope,PAI等目录1.大模型爆发带来的数据行业变革企业数据平台的能力挑战阿里云AnalyticDB:在AIGC时代下,驱动企业架构升级云原生向量数据仓库AnalyticDBAnalyticDB(PostgreSQL版)阿里云自研的云原生数据库
能力完备,累计服务近千企业,被多个世界500强企业选为核心数仓系统;于2020年评测为TPC-H
30T
性价比世界第一;自研向量检索和多模数据处理能力(2020年),广泛应用于RAG,以图搜图,检索推荐等场景;国内云厂商中唯一被多个AIGC知名社区推荐的自研向量数据库;目前已广泛服务于互联网,教育,传媒,电商,公安等众多行业;TPC-H
Performance/Price
Ranking(data
collect
in
2020)OpenAI
recommandedVector
EngineAnalyticDB
on
Langchain
CommunityAnalyticDB
一站式湖仓设计产品优势AI
Service:对接和集成各类LLM以及
模型服务API,并且提供例如Chunking、Embeddings等各种RAG所需服务AI增强分析平台(仓内智能):基于大语言模型重塑传统数据分析和开发的全链路核心能力企业数据管理:存储结构化、非结构化、半结构化数据;一份数据,无数据冗余
和一致性问题企业级特性:支持事务、ACID、主备切换、冷热分层、备份恢复、加密、审计日志数据安全:全量数据均在用户域内,无数据泄露风险;ADB-PG
AI服务API企业应用DashscopePAI原生支持LLM通义千问ChatGLM2-6BChatGLM-6B其他ADB-PG
SQL
API内置模型服务模型管理服务API湖仓一体存储对话记忆向量存储非结构化数据存储(文本,图片,声纹等)结构化存储索引存储(Btree、Gin、Ganos、HNSW)智能文档分析文档切分服务向量化转换服务文档管理语义推理语义检索智能多路召回及精排等标准SQL语法全文检索(MPP)精排算法内置ML算法AnalyticDB
for
PostgreSQL智能数据分析&开发DataCopilotAI
Service:大模型+湖仓RAG应用搭建LLM加持下,应用面向更大的数据范围,推动应用数据下推至数据湖仓AI增强分析平台–仓内智能AnalyticDB
分布式架构设计融合查询优化:对于具有向量索引的查询,会根据CBO生成融合查询的最优执行计划分区并行:支持多分区并行执行,降低多分区的执行聚合重排:支持多分区聚合重排Distanceplugin:为了更好的支持算法厂商的加密算法,各种算法的距离计算作为插件集成到数据库中全托管,自运维:支持白屏化管理能力,及低维护成本湖仓存储:支持湖仓存储,支持对于结构化+向量+全文的高性能查询,对于企业知识支持低成本的灵活湖存储协调节点(Master)事务管理
SQL解析优化元数据存储
查询调度InterconnectSegment节点向量检索全文检索HNSWPQ点积距离欧式距离tsvectortsquerySegment节点(主)zhparser
GIN条件过滤Segment节点协调节点协调节点……结构化|向量|非结构化数仓存储NSMDSMBtreeSegment节点(备)Segment节点(备)湖数据访问层文本|图片|声纹等数据湖存储AnalyticDB
完备企业级能力AnalyticDB
(PostgreSQL版)完全保有在传统数据库的海量数据管理能力之上,对于海量的向量数据处理、检索,半结构化,非结构化数据及多模数据分析进行了深度技术自研,自底向上进行了支持和规模化扩展(MPP适配,
SIMD适配),从而用户无需改动当前的架构,使用全SQL指令,即可立即对接大模型能力;向量数据库功能对比AnalyticDB(PG)Pg插件MxxxPxxxQxxxFAxxx全文索引YY(继承PG)NNYN融合查询YN(分区方式实现简单
filter)Y(比较简单的标量filter)Y(标量索引过滤)YN原子性/事务YYNNN(WAL保证可靠,但是没有事务)N写入实时可见YYYNY(实时写入时禁止构建索引)Y支持update和deleteYNYYYN索引压缩存储YNNNYN支持分区YYY(写数据需指定分区)Y(写数据需指定分区)Y(分shard)Y(分shard支持)高可用YYYYYN超过内存的数据集查询YYYNYN支持流式导入YN(只能离线构建索引)Y(未满segment大小的数据无法走索引)YYN支持多个向量索引YYN(一个集合只能有一个向量索引)YYN其他限制无法处理超过2000维的向量无法处理超过内存的向量检索,成本高国内目前无法使用,非美国本土性能存在降级无全托管版本纯算法库,非数据库(能力收集于2023年6月)方案优势通义千问商业化平台:通义千问模型一站式企业专属模型服务平台企业数据管理:可集中管理企业知识,并将知识可复用与知识库回答及模型Finetune;大语言模型:通义千问的商业模型平台,提供持续演进的通义千问LLM模型;:专属大模型在线API服务企业知识库(AnalyticDB
for
PostgreSQL)API
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 深度解析(2026)《GBT 30206.2-2013航空航天流体系统词汇 第2部分:流量相关的通 用术语和定义》
- 深度解析(2026)《GBT 30268.3-2023信息技术 生物特征识别应用程序接口(BioAPI)的符合性测试 第3部分:BioAPI框架的测试断言》
- 2026年内江中考物理答案及试题
- 2026年浙江生物模拟试题及答案
- 深度解析(2026)《GBT 30040.6-2013双层罐渗漏检测系统 第6部分:监测井用传感器显示系统》
- 靶向TROP2的抗体药物偶联物应用于非小细胞肺癌的专家共识完整版
- 2026年烟花爆竹全链条安全整治工作实施方案
- 深度解析(2026)《GBT 29769-2013废弃电子电气产品回收利用 术语》
- DB51-T 1535-2022 西瓜设施生产技术规程
- 《GBT 7287-2008红外辐射加热器试验方法》(2026年)合规红线与避坑实操手册
- 五月志愿服务课件:青春建功新时代 志愿奉献谱华章
- 堆与堆排序课件
- 破碎岩石施工方案(3篇)
- 中国遗传咨询指南(2025版)
- 深度解析(2026)《NBT 10096-2018电力建设工程施工安全管理导则》
- 2026春译林8下单词表【Unit1-8】(可编辑版)
- 2026年全国硕士研究生招生考试英语(一)试题 附答案
- 建筑工程进场材料、构配件和设备质量控制工作标准
- 雨课堂学堂云在线《预防医学(中国医大 )》单元测试考核答案
- 2025年水务集团招聘考试笔试试题及答案
- 江苏省5年(2021-2025)高考物理真题分类汇编:专题12 交变电流(解析版)
评论
0/150
提交评论