大语言模型通识入门与核心原理_第1页
大语言模型通识入门与核心原理_第2页
大语言模型通识入门与核心原理_第3页
大语言模型通识入门与核心原理_第4页
大语言模型通识入门与核心原理_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2026/06/16大语言模型通识入门与核心原理汇报人:AI通识教育组目录什么是大语言模型大模型如何"思考"——核心架构大模型如何"学习"——训练全流程大模型如何"落地"——应用与生态大模型的未来与挑战0102030405什么是大语言模型01从自然语言处理到大语言模型2013词向量时代Word2Vec将词语映射为数字向量,机器首次"理解"词义→2015-17序列模型时代RNN/LSTM让机器处理有序文本,但长距离依赖仍是瓶颈→→2018-20预训练突破BERT实现双向理解,GPT-3以1750亿参数展现涌现能力→2025推理时代RLVR让模型学会"思考",推理能力跃升2017注意力革命Transformer架构横空出世,自注意力机制彻底解决长程依赖大模型不是"更大的小模型",而是量变引发质变的全新智能形态2025-2026行业全景:规模与格局427亿美元2025全球市场规模↑高速成长62%企业级应用占比↑37%→62%1200亿美元2028预测规模CAGR32%竞争格局头部厂商主导OpenAI、百度、谷歌占据全球68%市场份额国产模型崛起字节豆包、智谱GLM-5跻身全球TOP20效率优先共识从"参数竞赛"转向"效率优先",模型质量大于模型规模214%人才需求激增2025年Q1全球LLM相关岗位招聘量同比增长214%,复合型人才缺口持续扩大大模型如何"思考"——核心架构02神经网络:大模型的"大脑基础"输入层接收接收文本转化后的数字编码每个信号携带不同权重权重分配决定信号重要性隐藏层计算多层神经元对信号进行处理进行加权求和运算通过激活函数判断是否"触发"输出层输出将处理结果转化为可理解形式生成可理解的预测结果支撑"写文章""解数学题"等复杂任务Transformer:改变一切的架构编码器(BERT路线)双向理解全文,擅长文本分类、语义匹配解码器(GPT路线)从左到右逐词生成,擅长文本创作、对话编码器-解码器(T5路线)先理解再生成,擅长翻译、摘要核心创新完全并行计算每个词同时"关注"句子中所有其他词,直接计算关联强度不再像RNN那样逐词顺序处理,实现完全并行计算天然支持长距离依赖,无论两个词相隔多远都能建立联系为什么Transformer赢了?并行计算大幅加速训练自注意力机制提供更精准的语义理解成为大模型时代的统一地基自注意力机制:让每个词"看见"全局Query-Key-Value交互流程动态语义调整机制Query查询当前词发出"查询"——"我需要什么信息?"Key钥匙每个词提供"钥匙"——"我有什么信息?"Value内容匹配成功后传递"内容"——"这是我的具体信息"注意力分数Query与Key的点积决定关注程度,分数越高越关注多头注意力多组并行:多组注意力头并行工作,每组关注不同维度的语义关系不同维度:有的头关注语法结构,有的头关注情感色彩,有的头关注逻辑关系结果拼接:多头结果拼接后形成对文本的全面理解直观理解"苹果发布了新手机"模型通过注意力机制知道此处的"苹果"指公司而非水果——这就是上下文的力量2025架构革新:从"堆规模"到"提效率"全注意力优化KVCache压缩从MHA到GQA再到MLA低秩投影,显存占用大幅降低注意力去噪Softpick、GatedAttention主动过滤冗余信号位置编码升级HoPe、iRoPE解决长文本"中间遗忘"问题稀疏建模突破DuoAttention将注意力头分为"检索头"与"流式头",按需分配算力原生稀疏训练NSA/DSA实现Token级动态稀疏,长文本计算成本骤降混合专家模型高参低激活范式模型很大但每次只激活部分专家,平衡容量与效率Sigmoid路由负载均衡技术成熟,端侧MoE开始落地状态化建模Mamba线性架构线性复杂度状态空间模型,突破Transformer序列长度限制全局注意力混合与全局注意力融合,成为效率最优解多模态:从"只懂文字"到"看听懂世界"架构升级:从外挂到原生感官解耦、思维统一不同输入方式共享推理核心关键能力突破动态模态融合模态间实时语义对齐,不再依赖预处理拼接跨模态推理能同时分析CT影像、病历文本与语音指令轻量化部署通过蒸馏与量化,十亿级参数模型可在边缘设备运行68%全球Top100企业已启动多模态AI战略230%金融/医疗/制造模型部署量同比增长大模型如何"学习"——训练全流程03预训练:在海量数据中"读万卷书"万亿级Token数据输入量65%训练成本占比预测下一个词机制三级体系成型预训练-中训练-后训练完整架构建立中训练成为新环节保持通用能力的同时增强专项能力数据处理升级动态语义去重、细粒度过滤、知识驱动合成500万美元DeepSeekV32025年证明顶级模型训练成本可降至约500万美元约6%百度文心5.1以约6%的预训练成本达到业界领先水平微调:让模型成为"领域专家"定向训练用高质量的任务数据对模型进行定向训练指令遵循教模型遵循指令、按格式输出、拒绝不当请求LoRA进化2025年LoRA持续进化:参数量更少、收敛更快,有效防止灾难性遗忘高效微调方法对比方法核心思路可训练参数占比适用场景全参数微调更新所有参数100%数据充足、算力充裕LoRA低秩矩阵近似约0.1%-1%资源有限、快速适配QLoRA量化+低秩约0.05%消费级显卡可用IA3向量缩放约0.01%极端资源受限微调正从"大而全"走向"小而精",用更少参数实现更好效果RLVR:2025年最核心的训练突破RLVR2025年LLM训练领域最具颠覆性的技术突破可验证奖励强化学习相对比较机制对同一问题生成多个答案,比较后奖励最优行为数据效率提升相对比较机制带来更稳定的训练和更高的数据效率成本突破DeepSeekR1仅额外花费约29.4万美元即训练出顶级推理模型RL环节深度挖掘2025年LLM能力提升主要来自RL环节的深度挖掘,而非参数扩张思考时间变量新增"思考时间"作为可调节变量——推理轨迹越长,模型能力越强竞赛级性能推理模型在数学竞赛中已达金奖水平对齐与安全:让模型"守规矩"对齐方法演进2025-2026安全体系2022RLHF人类标注偏好,模型学习"什么回答更好"2025RLVR客观可验证奖励,模型学习"什么回答正确"2025-2026宪法AI用规则化原则约束模型行为,实现AI自我治理训练+推理双阶段风控不仅在训练时对齐,推理时也实时检测风险内容可信水印技术、可验证生成、数据溯源体系逐步建立攻击防御提示词安全、数据安全、隐私保护形成完整防线核心挑战模型智能呈现"参差不齐"特征既是天才级博学者,又可能被简单欺骗,安全对齐任重道远大模型如何"落地"——应用与生态04RAG:让模型"懂"行业知识维度传统RAGRAG2.0检索粒度文档级段落/条款级检索方式单一向量空间混合检索(向量+关键词)知识更新批量重建增量更新,实时同步准确性约85%99.9%以上用户提问知识库检索事实生成回答解决"幻觉"问题:显著减少模型编造虚假信息法律领域接入裁判文书网与法规数据库医疗领域接入临床指南与药品库金融领域接入监管条例与市场数据Agent:从"对话"到"行动"编排层LangGraph/Agentforce负责任务调度工具层MCP协议统一工具调用标准记忆层独立模块支持文本/图谱/多模态存储推理层基于大模型的决策引擎感知层对接外部环境与用户交互规划将复杂任务拆解为可执行的子步骤记忆保持跨对话的上下文一致性工具使用调用外部API、操作数据库、执行代码协作多个Agent协同完成复杂任务40%企业应用将嵌入AIAgent增长8倍Gartner预测·2026年底部署优化:让大模型跑得快、跑得起量化将模型参数从高精度压缩到低精度INT4/INT8已成主流2bit量化突破极限剪枝移除对输出影响最小的参数追求真实速度提升蒸馏用大模型教小模型重点迁移推理能力而非简单模仿输出投机解码小模型快速草拟,大模型批量验证走向语义宽松验证KVCache优化超低比特+稀疏压缩支持百万Token长上下文部署框架分层云端高吞吐vLLM、SGLang、TensorRT-LLM端侧轻量化llama.cpp、Ollama全链路适配不同场景需求行业落地:医疗健康72%罕见病诊断准确率↑34pp18个月药物研发周期↓62.5%35%急诊等待时间缩短↓35%诊断支持"云端训练-边缘推理"三级架构,实时分析病历、影像与临床指南罕见病诊断准确率从38%提升至72%多模态模型同步解析CT影像、电子病历与语音指令,准确率达98.7%科研加速整合多家三甲医院电子病历,联邦学习确保数据不出域药物研发周期从48个月压缩至18个月患者服务情感化AI助手提供24小时咨询与随访三甲医院急诊等待时间缩短35%行业落地:金融服务80ms欺诈检测响应时间↓97.3%80%合规审查效率提升↑80%2000亿绿色金融产品规模美元智能风控实时分析用户行为模式,信用卡欺诈检测响应时间从3秒压缩至80毫秒误报率下降42%,精准识别异常交易合规自动化基于法规解析引擎,整合全球238个国家监管条例跨境数据传输合规审查效率提升80%个性化服务端到端自动化贷款审批,5分钟内完成评估与放款违约风险显著降低真实案例国际投行通过LLM构建ESG投资合规系统,绿色金融产品规模突破2000亿美元,合规运营成本降低55%行业落地:教育与电商从标准化到个性化自适应学习根据学生知识缺口生成定制化教材,学习留存率提升25%智能助教24小时多语言辅导,覆盖答疑与批改全场景教师赋能文献查阅与备课时间缩短85%真实案例EdTech平台学生成绩平均提升15%从流量驱动到体验驱动核心场景精准推荐对话式购物智能客服语义-协同融合用户偏好与商品特征,冷启动用户收入提升9.6%自然语言交互替代传统搜索,转化率显著提升RAG+Agent组合实现7×24小时专业服务LLM核心价值从标准化供给转向个性化匹配LLM让服务从"标准化供给"转向"个性化匹配"理解用户意图而非简单匹配关键词开源生态与评测体系开源模型崛起DeepSeekR1以Open-weight发布,性能比肩顶级闭源模型国产开源模型在中文理解与场景适配上表现突出开源训练框架VeRL、OpenRLHF成熟,降低技术门槛评测体系升级关键转变从"参数越高越好"转向"场景适配性、合规性、落地成本"多维评估40%新增维度权重占比四大评测体系建立:多轮对话、工具使用、智能体、多模态行业痛点全球缺乏统一评测标准,同一模型在不同体系排名差距可达10-15位高端训练芯片供给缺口制约超大规模模型迭代企业从"是否用AI"转向"如何用好AI",落地ROI成为核心关注大模型的未来与挑战05趋势一:从规模优先到智能密度优先过去更大参数量=更强能力ScalingLaws驱动一切现在同等参数下更高效架构=更强能力智能密度成为新指标未来追求"最聪明"不再追求"最大"架构效率MoE、稀疏注意力、状态化建模让计算更精准训练效率RLVR用更少算力获得更大能力提升,训练成本数量级下降推理效率量化、蒸馏、投机解码让部署成本持续降低6%DeepSeekV3达到业界领先水平证明"聪明地训练"比"暴力地训练"更有效预训练成本趋势二:从被动工具到主动智能体从对话助手到生产力工具再到自主执行体,这是不可逆的演进方向1工具调用从单一API到MCP协议统一工具标准2自主规划任务分解、环境感知、动态纠错三大能力成熟3自我进化模型原生反思、迭代控制,可自主优化能力4多智能体协作从固定分工走向动态自组织GUI智能体——"像人一样操作电脑"桌面/手机/网页自动化操作成熟能理解界面语义,自主完成跨应用任务2026年初步具备替代重复性人机交互的潜力未来AI的价值不在于"能聊天",而在于"能干活"趋势三:云边协同与世界模型云边协同部署世界模型——AI的下一跳从"理解文本"到"理解物理世界"——构建对空间、时间、因果的内部模型具身智能:AI不再只是"看"和"说",而是"感知-决策-行动"闭环从数字世界走向物理世界,AI将成为机器人、自动驾驶等系统的"大脑"云端超大参数模型提供最强能力,服务高价值场景边缘轻量化模型通过蒸馏与量化,在手机、IoT设备上实时运行协同复杂任务上云、简单任务就地处理,兼顾性能与成本联邦学习让数据不出域即可参与训练,缓解隐私与效率矛盾从语言智能走向通用智能从虚拟助手走向现实世界的参与者三大核心挑战算力不均高端训练芯片供给缺口持续,制约部分企业超大规模模型迭代全球算力资源高度集中,中小玩家生存空间被压缩算力成本虽在下降,但绝对投入仍非一般企业可承受安全伦理紧迫"天才与缺陷并存"模型智能"参差不齐"——天才与缺陷并存,对齐治理难度大数据隐私、版权保护、内容安全等问题随模型能力增强而加剧宪法AI等治理框架仍在探索阶段,尚未形成行业共识跨学科融合大模型

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论