版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
从结构化到多模态演讲人2/40AI时代的非结构化数据业务应用展示总结与展望3/40数智化增长领头羊—瓴羊 服务企业数瓴羊是阿里巴巴旗下全资子公司,专注为企业提供高效智能的数智化转型工具、数据与智能体(Ag服务。数智化产品覆盖数据采集、治理、分析全生命周期,同时提供数智营销、智能客服等覆盖行业覆盖行业数据更普惠聚焦AI时代的企业数智化,2025年正式推出智能体服务(Agent)。通过AI驱动的数据分处理能力,Agent能够在不同场景中实现精准的数据洞察和业务支持,致力于帮助企业成为AI时数据更普惠核心使命Dataphin提供一站式数据采、建、管、用全生命周期的大数据能力,助力生产安全经济的企业级数据中台。4/405/40AI时代的非结构化数据6/40企业非结构化数据现状非结构化数据的历史堆积—看得见、用不了的冷资产数据类型数据类型注:IDC数据显示:企业中86.8%为非结构化数据,非结构化数据市场预计以22.4%的复合增长率增长7/40大模型兴起后,文本/图像/音频/视频的理解从专家手工特征工程,下降为可调用、可算子化的通用能力LLMLLM让非结构化处理走到了大数据处理的前台8/40过去结构化数据处理的发展未来10年是非结构化数据处理崛起的时代未来10年是非结构化数据处理崛起的时代9/40 流入即处理、入库即可用—客服、工单、IoT、舆情分析等场景的核心要求工单流转图文工单实时分类、路由与质检客服会话工单流转图文工单实时分类、路由与质检通话/工单实时摘要、情绪识别、知识沉淀舆情分析热点话题聚类、突发事件预警舆情分析热点话题聚类、突发事件预警10/4011/40实时计算事实标准实时计算事实标准●分布式状态管理与Checkpoint成功的经验:双底座能力 企业级数据治理平台●十余年阿里巴巴数据治理经验企业级数据治理平台●十余年阿里巴巴数据治理经验12/40客户诉求在一线已经出现客户已经开始寻求非结构化数据价值汽车行业营销地产行业招商引流客户诉求:通过实时监控咨询消息,定位高潜力客●客户基数大,资料多模态且体量巨大地产行业招商引流客户诉求:通过实时监控咨询消息,定位高潜力客●客户基数大,资料多模态且体量巨大利用率低、响应滞后13/40非结构化数据的挑战非结构化数据形态异构、计算复杂,传统技术难以支撑02计算复杂昂贵02计算复杂昂贵04治理体系融合04治理体系融合14/40Dataphin实时非结构化设计15/4016/40 通过非结构化数据治理,供给高质量数据集资产·形成统一的数据资产目录与全景视图17/40统一数据处理框架 将多模态加工抽象为可编排算子,标准化输入输出,统一调度同一套产品处理设计开发体验一致治理体验一致18/40数据集的抽象,解决了数据融合问题,打通结构化数据联系,带来数据治理的统一优势●非结构化数据需要关联元数据,形成整体语义●结构化处理系统中,多模态数据较难处理●非结构化数据需要关联元数据,形成整体语义●结构化处理系统中,多模态数据较难处理●非结构化数据和已有数仓语义的关联●业务表与非结构化对象通过业务身份对齐●构建更加丰富完整的业务模型解决方法:数据集●定义成一种“表”解决方法:数据集●定义成一种“表”,支持文件/表/混合数据统一抽象●解决了数据采集问题,保留高质量的、标记过的数据●混合数据集,支持设置业务ID●元数据/血缘/分级/权限/质量●加工即治理—一次加工,治理同步生效19/40非结构化数据处理基于图形化编排的研发方式,所见所得,提升研发效率20/4021/4022/40●统一OSS存储:所有非结构化内容统一归管23/40算子和计算流程分离架构●不同的多模态数据有丰富的加工方式●计算结果同样采用数据分离架构24/401.使用Dataphin图形化组25/40基于K8s的算子集群服务26/40为极致资源利用而设计的架构●很多非结构化数据的产出无规律●很多非结构化数据的产出无规律27/40多任务复用一个Flinksession●算子分离架构,提升session模式的稳定性●共享flinkjvm的overhead,减少●算子分离让Flinksession任务更可控、更稳定●任务之间互相存在资源竞争,可能导致任务处理失败28/40按需启动算子服务+共享算子服务),29/40自研算子调用管理模式—通过自研,实现对非结构化算子计算的稳定管控●增强能力:并发、流控、超时、重试、异常处理、指标等30/40基于有序窗口的算子请求管理技术方案●每个算子调用处,按照顺序维护一个窗口●算子结果返回,推动窗口向右移动31/40结构化元数据,复用Flink流式计算能力计算引擎反压分布式●流式计算的老问题一样需要解决计算引擎反压分布式filter/map/agg/join监控状态管理监控●把数据拆分成元数据和数据,结构化的元数据使用Flink计算●把多模态计算的结果转换成结构化数据,使用Flink计算32/40●非结构化数据如何关联到业务实体●非结构化数据如何关联到业务实体●非结构化对象与结构化表血缘割裂●分级/权限/脱敏沿链路级联●每个处理步骤自动记录来源与去向●支持单个数据质量问题的精确回溯33/40实时非结构化处理总体架构—关键技术回顾数据形态异构数据形态异构计算类型多样计算长且不稳定计算长且不稳定产出无规律与治理融合34/40业务应用展示35/40典型案例:某医药公司知识库解决方案最新的药品知识对于医药推广意义重大36/40典型案例:某医药公司知识库解决方案 利用非结构化数据构建企业级知识底座,可视化搭建医药行业实体及其关系图谱37/40总结与展望38/40经验沉淀复用Flink已验证能力分布式调度·状态管理·资源共享·Exa针对AI算子特性的专项设计面对高延迟、外部模型服务不稳定、结果非
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 查房心胸外科肺移植术后管理难点专项|手把手教学规避临床失分点
- 2026年二级消防实务消防水箱设置试卷(含答案及解析)
- 2026年怀化市鹤城区中小学编制教师招聘考试备考试题及答案详解
- 2026年山东省威海市中小学编制教师招聘笔试参考试题及答案详解
- 2026年太原市杏花岭区中小学编制教师招聘笔试参考试题及答案详解
- 2026年珠海市香洲区中小学编制教师招聘考试参考试题及答案详解
- 2026年江苏省徐州市中小学编制教师招聘笔试备考试题及答案详解
- 2026年商丘市梁园区中小学编制教师招聘考试参考题库及答案详解
- 2026年昆明市东川区中小学编制教师招聘笔试备考题库及答案详解
- 2026年辽宁省沈阳市中小学编制教师招聘考试参考题库及答案详解
- 施工现场迎检布置实施方案
- GB/T 1969-2026多孔陶瓷渗透率试验方法
- 2025年湖南省张家界市事业单位人员招聘笔试试题及答案详解
- 2026年黑龙江、吉林、辽宁、内蒙古高考物理试卷(含答案及解析)
- 2026上海市检察系统辅助文员招聘考试参考试题及答案解析
- 肾上腺疾病的超声诊断
- 球磨机用气动离合器说明书
- 《人工智能安全导论》 课件全套 第1-7章 人工智能安全概述-人工智能在联邦学习领域
- 2024年海南省中考生物试卷真题(含答案)
- 港口码头维修加固工程实施方案
- 双减背景下科学教育加法的学校理解与实践
评论
0/150
提交评论