版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
OrganizedbyAlibabaCloud演讲人|林旭LLama-Factory核心开发者|腾讯AI算法研究员ShenZhenAgent时代:训练对象Agent时代:训练对象从数据到模型再到系统持续进化把实时事件从数据到模型再到系统持续进化把实时事件传统软件规则驱动固定流程从被动响应到主动行动,AIAIAI发展范式的演进辅助决策提升效率AIAI智能体的核心能力Al智能体(Agent)自主感知、规划执行与记忆感知Perception多模态信息感知规划Planning任务拆解与策略生成长期/短期目标规划与环境交互记忆Memory短期记忆与长期记忆经验学习与知识沉淀模型能力飞跃10,000+亿主流大模型参数规模2023-2024年增长全球AIAgent市场规模预计2028年达成全球数据量2025年预计产生实时性要求高数据质量参差数据孤岛严重多源异构数据分散难以统一治理与复用Agent行为数据实时产生多源异构数据分散难以统一治理与复用Agent行为数据实时产生需要毫秒~秒级处理闭环难以构建数据→训练→评估→部署缺乏自动化闭环能力```markdown```长上下文、推理、多模态,让模型具备复杂任务理解能力会查找会查找会规划、执行、记忆线上行为、工具轨迹、用户反馈,成为持续训练与优化的数据资产从离线微调,走向由真实行为数据驱动的持续训练行为系统”Agent系统产生的是连续事件流,而不是离线文件把分散的行为信号、工具调用日志与反馈事件,变成可计算、可治理、可追踪的数据流Agent产生的数据类型Flink的关键能力对数据治理与训练的价值对话与指令检索查询、命中结果、召回/排序分数、工具名、入参与输出、调用状态、Planner/Reasoning轨迹用户反馈/评测事件AgentRuntime事件时间EventTime会话、用户画像与复杂业务状态多维度实时指标与统计端到端Exactly-Once语义(检查点+两阶段提交),确保不丢不重,数据可信可复现实时ETL/特征与指标计算实时产出可直接用于训练与评测的数据特征/标签/轨迹数据秒级发现异常样本与错误模式在线构建训练样本与偏好数据统一追踪样本来源、版本和血缘支撑评测看板与模型效果监控支撑评测看板与模型效果监控让训练更加贴近真实智能体使用场景●召回/排序分数用户反馈/评测事件●点赞/点踩/标签反馈●线上评测结果与人工修正●错误样本与失败案例反映真实使用场景可构建监督与偏好数据反映真实使用场景可构建监督与偏好数据可定位错误与异常模式可用于评测、回流与持续训练●子任务拆解与执行步骤●决策分支与状态迁移Feature/Label/TraceEventFeature/Label/TraceEventStream数据治理闭环:质量、安全、合规、可追溯数据即能力——Agent的能力边界由数据治理决定44窗口聚合与特征计算治理从离线变成实时走向持续迭代■●●●●●●●●●●●●OrganizedbyAlibabaCloud把实时事件沉淀为可复用、可评测、可回滚的数据资产训练数据类型Chosen/Rejected训练队列C.轨迹数据Observation/Action/Result参数高效、计算高效、内存高效——三位一体的Agent能力优化OrganizedbyAlibabaCloud治理后数据SFT/LoRA/SFT/LoRA/QLoRA/FullFrameworks:模型产物模型产物VLLM/SGLang/API训练范式统一:减少重复工程数据闭环接入:配置、日志、TrainingInstructionTuningDirectPreferenceTraining··降低实验与部署切换成本·支撑从模型训练到系统优化的一体化迭代统一高效训练框架支持500+大模型覆盖训练、对齐、多模态扩展高效训练技术体系:在有限算力下做对训练从训练范式、系统优化到显存结构,系统性提升吞吐、稳定性与可扩展性训练范式训练范式显存构成与优化抓手系统优化显存构成与优化抓手系统优化Pre-Pre-trainingFSDP/ZeRO/TP/PP/EP模型权重Weights梯度与优化器状态激活值模型权重Weights梯度与优化器状态激活值Activations·Checkpointing·SequenceParallelGradientAccumulationActivation数据带来的新增要求Agent数据带来的新增要求工具调用监督线上反馈驱动评测与对齐更多多轮轨迹工具调用监督线上反馈驱动评测与对齐统CLI/WebUI/API多端接入一致的使用体验与能力覆盖Xhparams/parsertrainerXhparams/parsertrainerrouter支持多种微调与训练范式灵活适配不同场景需求dataprocessorloaderloader可扩展插件可扩展插件模块化设计,插件化接入快速集成生态能力adapterevalAgentAgent可理解的工程边界关键模块(工程边界)仓库大、目录深,入口难定位不同训练范式如何路由?不同训练范式如何路由?4.配置对象ModelArgumentsModelArgumentsFinetuningArguments3模型与GPU准备从“人操作训练框架”走向“Agent编排训练工作流”用户只需要表达训练意图LlamaFactorySFTSkillLlamaFactorySFTSkillAgent执行完整训练闭环使用我的领域数据,LoRASFT,训练完成后验证效果并导出模型。●检查数据格式●选择模型与模板过去:训练框架需要人手工串联全流程·SFTonly/FullWorkflow·CLI/WebUI3.环境感知●检测模型是否完整下载●检查GPU空闲状态·自动匹配单卡或多卡·关键节点询问用户·根据选择动态调整流程0.确认整体流程1.数据准备与格式校验2.模型、模板与GPU准备3.生成并审计训练配置4.后台启动LlamaFactory训练6.效果验证与模型导出从Tool到AgentSkill普通训练脚本固定参数执行》根据任务动态规划依赖人工检查环境》Agent主动感知模型与GPU执行过程不可见》进度、Loss、日志持续可观测参数修改难追踪默认值与修改值可审计单次命令执行》训练、验证、导出完整闭环适配适配Rank/Alpha梯度优化Pairwise●模型权重●梯度与优化器状态·GradientAccumulation评测、部署与回流:让训练结果进入真实系统601离线Benchmark任务成功率8目凸用户反馈A/B实验线上监控仪表板9090500Mww~~Rollback0曲把线上智能体运行、实时数据治理、模型训练和服务更新连接成一个可复用工程系统EventStream/Flink数据清洗与特征构造对话、工具、环境交互流处理与聚合去重、脱敏、过滤版本、血缘、样本集ServingwithLlamaFactory灰度、回滚、持续迭代量化、批处理、监控最终产物●用版本和指标管理数据●用版本和指标管理数据训续数据集系统分层一事件采集、流处理、事件采集、流处理、实时流处理实时流处理策略与治理规则模型训练(SFT/模型训练(SFT/DPO/质量安全合规高效推理、API服务、稳定可观测DatasetRegistry数据版本血缘再生产与持续学习DatasetRegistry数据版本血缘再生产与持续学习真正的Agentic训练系统,是数据、训练、评测、部署与反馈的实时闭环。工程落地与趋势:从数据到模型再到系统持续进化把实时行为数据转化为可训练资产,再转化为更可靠的业务Agent企业知识助手搜索、问答、文档理解、知识更新代码与研发企业知识助手搜索、问答、文档理解、知识更新知识新鲜度个知识新鲜度个研发效率个研发效率个图像、视频、语音理解与业务决策图像、视频、语音理解与业务决策页面操作、任务执行、失败样本沉淀场景覆盖个任务成功率个场景覆盖个任务成功率个评测与质量门禁Agent评测与质量门禁AgentUpdate版本发布与回流FlinkStream实时行为采集治理后的训练资产高效训练```markdown```从模型训练工具,演进为数据、训练、评测、部署协同的智能系统自动清洗/主动评测/风险识别3PPO/GRPO/RLVR3PPO/GRPO/RLVRSystemVLLM/SGLang/QuantizationTools/MCP/Workflowhf://deepseek-ai/DeepSeek-V4-Pro★GitHub861.6B7168DeepSeek-V4-Pro862B(MLA+MoE)OruseURL:?hf=owner/repoTop○○○●□○TokenlnputTokenEmbedQProj_0KV_Proj_0Attn_0O_Proj_0Add¹_0926.7M469.8M469.8M○RMSNorm2_0◎InputAttentionRMSNorm2_0ExpandCollapseRMSNorm2_1DropoutRRosetFFoousHLablsEscclosenpareInferenceScreenshot把训练循环升级为可被Agent观察、分析、协同、干预、记忆,并且可安全回滚的运行时训练生态/训练程序PyTorchLightning不替代训练框架,而是监督训练过程●结构化状态·可观察/可干预·支持多Agent协同输出/资产层把训练过程转化为可治理、可追踪、可复用的资产·干预预算与冷却窗口●数值边界/人工审批感知、治理、记忆与回滚能力的训练运行时。·gridproposals·architectureideas·TorchExperimentResearchQuestion+Proposals+AnyRunner+Structured
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年湖北省孝感市事业编单位人员招聘笔试备考试题及答案详解
- 2026年辽宁省营口市中小学编制教师招聘考试备考试题及答案详解
- 2026年湖南省株洲市中小学编制教师招聘考试参考试题及答案详解
- 2026年西宁市城西区事业编单位人员招聘笔试备考试题及答案详解
- 2026年漯河市郾城区事业编单位人员招聘笔试备考试题及答案详解
- 2026年衡阳市南岳区中小学编制教师招聘笔试参考试题及答案详解
- 2025年福建省南平市中小学编制教师招聘笔试试题及答案详解
- 2026年衡阳市珠晖区中小学编制教师招聘考试参考试题及答案详解
- 2025年梧州市万秀区事业编单位人员招聘考试试题及答案详解
- 2025年石家庄市裕华区事业编单位人员招聘笔试试题及答案详解
- 科颜氏的行业分析报告
- 足球守门员培训
- 成人惊厥性癫痫持续状态诊治指南2026
- GB/T 34524-2025风能发电系统风力发电机组主轴
- 2025四川成都空港城市发展集团招聘35人考试笔试参考题库附答案解析
- 航空货运代理业务流程说明书
- 碳排放咨询服务方案费用
- GB/T 21415-2025体外诊断医疗器械建立校准品、正确度控制物质和人体样品赋值的计量溯源性要求
- 江西省九江市2024-2025学年八年级下学期期末考试物理试卷(含答案)
- 四川省凉山州2024-2025学年高一下学期期末统一考试英语试卷
- 学堂在线 自我认知与情绪管理 章节测试答案
评论
0/150
提交评论