数据治理与大模型协同实践_第1页
数据治理与大模型协同实践_第2页
数据治理与大模型协同实践_第3页
数据治理与大模型协同实践_第4页
数据治理与大模型协同实践_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

DataFunCon#2024PARTFOURPARTTWO数据液术智慧芽是一家科技创新和知识产权信息服务商,长久以来致力于以人工智能技术和大数据工厂的卓越能力,为全球创新企业和创新生态人群提供服务,提供创新数据以洞察信息,提供创新工具促进敏捷协作,以开放合作构建创新生态,实现“连接创新,突破边全球员工超过1200+人1000全球员工超过1200+人1000+70%为技术研发人员SaaS客户数12000年度经常性收入ARR超1亿美元成立于2007年,全球总部苏州,分公司遍及中新英加日五地企业荣誉荣誉资质:•全球独角兽企业•江苏省独角兽企业江苏省人工智能学会科学技术奖苏州新一代人工智能技术供给示范企业苏州市新一代人工智能创新应用场景示范项目江苏省大数据、区块链产业发展试点示范项目苏州市新一代人工智能创新应用场景标杆示范项目全球专利大数据多维度创新数据每天增量每天增量国家/地区/组织期刊、标准、报告和生物医药等数据,形成了真正意义上科技情报大数据,且数据治理确保数据的可用性、完整性、安全性和合规性的一系列政策、流程和标准。数据APIBizPaaS数据产品o1.BEHT兴起2018年,谷歌发布了BERT,这是一个o1.BEHT兴起2018年,谷歌发布了BERT,这是一个叹的GPT-3模型,展现了大模型在生成式任务上的强大能力。了ERNIE等具有自主知识产权的大模型,推动了大模型中的知识储备,并能持续学习各类数据,具有数据模式的理解能力大模型能够领域的数据进行训练和微调,大模型能够领域的数据进行训练和微调,掌握领域知识,因此可以进行领域数据的清洗、加工和治理大模型的Agent(自治智能体)使得自动化数据处理和数据治理的规划成为可能大模型具有的应对多模态丰富的数据,而不再受限于结构化数据,让数据真正被用起来文本抽取、文本挖掘等非结构化多模态数据加工,图片、文档OCR结构化文本数据的自动解析提取、精准去噪多语言文本翻译SQL编写、数据血缘分析数据源寻找和知识库数仓建模、模型优化Pretrain/SFT/RLHF/RAG各Pretrain/SFT/RLHF/RAG各阶段依赖高质量语料文本、重复子串等数据质量决定大模型的能力,因此需要数据治理数据质量决定大模型的能力,因此需要数据治理数据增强:拆分、重组、合成数据增强:拆分、重组、合成在智慧芽大模型赋能各类工具,在智慧芽大模型赋能各类工具,让科技情报的阅读、提>+[数据治理]-->[高质量数据]-->[大模型训练]-->[数据更精准]-->[AI工具赋能]-->[业务决策]数据治理工具•SQL编写、数据血缘分析•数据源寻找和知识库数据治理工具•SQL编写、数据血缘分析•数据源寻找和知识库•需求分析Agent•数据分析Agent•数据测试Agent•代码编写Agent代码生成和测试•各类代码的生成质量保证•缺陷预测等风险排查•数据测评和质量•CFD处理和问答•AI智能抽取,通过领域大模型掘等•AI智能解析和提取结构化信息步骤可以进行一些AI赋能。数据过程结合大模型采(Extract)•结构化文档的智能解析和提取•非结构化文档的OCR理(Transform)•数据集生产能力•湖仓上的SQL代码生成•数据bug自动化修复•数据血缘的分析•Text2SQL•知识库应用•数据源分析90%+将Prompt抽象为一个Textin/Textout的算子API,概念上等效于小模型API服务复用现有的开发框架、调度和计算平台,编织进数据PipelinePrompt调试完毕,可直接发布Job或者API。湖仓联动,可以批式也可以流式任务种类多样,自动标注、分类、NER、摘要、多语言翻译、数据合成等等,涵盖NLP典型场景效果:掌握SQL+Prompt能力,能替代原来分析师依赖数据+算法开发工程师的部分能力效果:节省大量标注资源专用翻译服务通常以百万字符计算,已超过市场上大模型的费用翻译方案无法定制、改写、转译使用平行语料微调一个多语言翻译模型术语、方言等确定性内容使用RAG思路召回使用微调后的大模型结合RAG+多角色Agent提供翻译服务效果:成本降低,可随时定制术语库、修复翻译问题大模型=大数据+模型算法+大算力Pre-training(预训练)大量未标记的数据来训练模型的初始参TB级别并通过学习未标记数据的统计信息和语义表示来提供一种通用的理解能力。ContinuePre-training(领域继续预训练)大量未标记高质量领域文本数据和部分指令数据混排。无监督。几十B~几百B主要用于补全行业内的通用理解和表达能力SFT(监督微调)大量领域内面向不同场景的指令数据。监督数据。几万~百万对优化预训练模型,使其生成用户所期望的回答RLHF(人类反馈的RLHF(人类反馈的大量领域内面向不同场景的大量领域内面向不同场景的DPO/PPO数据数据。监督数据。几万~百万对能够结合强化学习与人类反馈,提高大型语言模型的指令遵从RAG(检索增强生成)合的数据。非结构化或结构化数据。不限解决大模型无法覆盖的一些问题,特别是效率和幻觉问题覆盖广维度时效快质量高安全强RAGRAG数据开发有监督推理数据开发无监督训练数据开发无监督训练数据开发AnswerstoTechnical精准检索和专业推荐内容生成对Self-developedLargelanguagemodelGenerateSearchExpressionsAI-poweredTechnicalPre-researchAI-poweredTechnicalPre-researchAI-poweredExpertAssistedPatentAssistant ObjectiveLLMAlgorithm基于领域专家反馈的强化学习垂直数据基石垂直数据基石PatsnapDatasetsDataBioSequencesChemicalStructuresLLMLLM平台数据处理平台训练和部署平台测试平台强化学习平台•从传统结构化数据加工场景,变成三套场景,且差距巨大垂直场景大模型•从开发流程、基础架构、效能工具到组织技能的全面升级垂直场景大模型SFT/RLHF数据•ETL逐步转变为ETL+ECL(Extract-ContextualizeSFT/RLHF数据领域大语言模型普罗米修斯prompt、fine-tune领域大语言模型普罗米修斯prompt、fine-tune、AgentsContinuedPatsnapLLMPatsnapContinuedPatsnapLLMPatsnapLLM数据语料数据语料数据质量模型应用和数据反馈BM25+SemanticEmbedding+数据仓库/湖模型应用和数据反馈BM25+SemanticEmbedding+数据仓库/湖Re-rankHTML/PDF/PPT数据建模和处理垂直产品大数据理理领域数据垂直产品•从传统结构化数据加工场景,变成三套场景,且差距巨大数据工程通过ECL数据工程通过ECL做什么?ECL将LLM作为数据交互的形式函数,使用自然语言与文档ECL处理更多的非结构化数据,不再处理定义明确的数据EC使用LLM对非结构化散文进行结构化处理工程能力工程能力数据利用率数据层面的利用率持续提升,大量数据使用人工智能和自动化技术来检测和自动处理数据,被深度挖掘提升数据获取成本找到一种量大、质优且具有垂直深度的数据供给模式,大规模采集和通用搜索将变得重要。解决数据干涸问题。数据专业度知识层面的输出更专业。沉淀行业知识,加强知识管理能力,让行业专属大模型具备行业背景的分析和交互能力提升数据加工效率引入大模型的数据链路后,数据工程师的生产力需要得到提高,完成ETL+ECL的转变,同时也将催生新的数据平台提升结合大模型之前结合大模型之后Java/PythonFlink/Spark/SQLFace/Paddle/Langchain/llamaindex等微服务架构+容器化部署NVTensorRT、HFTGI等推理平台K8SMLFlow等,ML生命周期管理计算平台大数据湖仓平台,Spark,Flink,用好分布式CPU算力平台,Megatron/DeepSpeed/XRay等用好分布式GPU数据库运维DevOpsDataOps,MLOps•云原生软件开发流程通常包括需求分析、设计、编码、测试、部署等步骤。•而AI原生则更加关注数据准备、模型训练和评估等环节。据调研14据调研1444云原生到AI原生模型训练数据开发和功云原生到AI原生模型训练模型评估推理部署结合大模型之前结合大模型之后API平台模型推理平台大数据处理平台模型训练和调优平台数据治理平台数据质量和模型评测平台数据质量评估平台数据语料加工和管理平台DevOps、DataOpsDataOps、MLOps云原生应用采用Kubernetes、Docker等工具实现持续集成/持续交付。AI原生下,数据和AI基础设施将更加重要,需要一套专门用于AI开发、测试、部署和监控的工具链,需要针对结合大模型之前结合大模型之后API平台模型推理平台大数据处理平台

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论