版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
增持(维持)Agent体系展开密集布局。代码模型方面,智能着长链复杂推理与实时交互两大优化方向同步演进,以OpenAI的Codex-Spark为代表的低延迟优先型Agent追求交互式AI智能体的低延迟体验,让开发者能在模型生成途中随时打断、纠偏并快速迭代;Claude4.6为代表的长链复杂推理型Agent通过提高上下文长度,推动AI在高价值复杂任务中的成功率改善,并有望带动推理侧算力消耗中主流交互范式;伴随多模态token压缩技术环节带宽和算力约束,提高端侧交互的实时性和效率。2)算法侧压缩主要用于对抗功耗和内存等低比特量化和推理优化(包括Attention效率优化、KVCache优化、并行解码和Diffusion模型等)等算法手段将推理缩至最低。文本摘要等低门槛功能;进入2025年,厂商明显加统底层渗透。整机AI竞争正从功能数量比拼,转向功耗散热同步升级,为端侧AI功能进一步复执业证书:S0600525020001《AI基建,光板铜电—GTC前瞻 4 4 6 2.2.多模态:端侧实时交互与执行 2.3.1.模型架构:MoE在端侧受限 2.3.2.低比特量化:4-bit为行业 2.3.3.推理优化:Attention效率、KVCache管理与并 4 5 6 7 8 9 9 其能力边界、架构形态与成本曲线,本质上由云端大模型的技术前沿我们认为,2026年大模型竞争范式从算力和参数竞赛加速转向以ROI为核心的任力的操作型Agent;另一方面,多Agent架构亦加速向产品化与C端场景渗透,通过自型正由对话式助手升级为操作型智能体。图1:2026年以来海外大模型重要发布事件汇总实体事件2026/1/9Niji7动漫专项模型上线,强化亚洲/二次元风格生成能力,进一步细分文生图模型产品矩阵2026/2/4VoxtralTranscribe2发布,完善语音转写模型家族,并开放VoxtralRealtime权重以推动实时语音生态2026/2/5GPT-5.3-Codex发布,定位codingagentic模型,强化代码生成与自主执行能力2026/2/5ClaudeOpus4.6发布并提供1Mtoken上下文beta,继续拉升长上下文能力上限2026/2/12Gemini3DeepThink迎来重大升级,推理模式能力增强,并与GeminiApp/Ultra订阅体系联动2026/2/17ClaudeSonnet4.6发布并引入1Mtokencontextbeta,推动中高端模型长上下文能力下沉2026/2/17Grok4.2(4.20)进入publicbeta阶段,持续迭代多智能体与推理能力2026/2/18Lyria3音乐生成模型接入GeminiApp,推动多模态生成能力向消费级入口渗透数据来源:各公司官网,TechCommunity,Huggingface,东吴证券研究所AI智能体的低延迟体验,展现出的“近乎即时”(每秒超1000tokens)响应速助于在金融、法律等对长文本理解与跨文档推理要求较高的B端复杂业上述技术路线分化更多体现为场景侧的权重差异而非技术路径的二选一。在实际能力将共同推动通用模型加速向Agent化员工与生产力工具形态对齐。图2:头部厂商推理模型在低延迟响应与长链推理两大方向上同步演进数据来源:APIYI,东吴证券研究所互与协作将成为重要演进方向,并有望较快进入OpenAI产品体系。我们认为这一表态一阶段Agent化落地的重要产业趋势。图3:Grok4.20四大Agent角色分工数据来源:APIYI,东吴证券研究所官方宣称实现推理能力翻倍;xAI创始人ElonMusk在介绍Grok4.20时明确提早期版本参与解决自身训练流程中的工程问题。我们判断,这种“AI辅助AI研发”的价格快速下探”的特征。在成本曲线下移与能力边界外扩的双重驱动下,应用侧需求弹图4:2026年以来国内大模型重要发布事件汇总时间实体事件2026/1/14智谱AI发布GLM-Image图像生成模型,补齐多模态图像生成能力版图2026/1/16推出Music-2.5音乐生成模型,持续完善AIGC多模态产品矩阵2026/1/19智谱AI上线GLM-4.7-Flash免费模型,进一步下探推理成本并扩大开发者渗透2026/1/22百度正式发布文心大模型5.0,强化多模态与推理能力并推进商业化落地2026/1/22百川智能发布Baichuan-M3Plus医疗模型版本升级,并同步推进价格策略优化2026/1/25阿里巴巴推出Qwen3-Max-Thinking旗舰推理模型,强化复杂推理与Agent场景能力2026/1/26腾讯发布HunyuanImage3.0-Instruct,增强图像编辑与生成一体化能力2026/1/27DeepSeek开源DeepSeek-OCR2视觉文本解析模型,推进文档理解开源生态2026/1/27月之暗面发布KimiK2.5模型版本,持续提升长文本与Agent相关能力2026/2/2阶跃星辰推出Step3.5Flash开源Agent基座模型,强化Agent开发生态布局2026/2/3智谱AI上线GLM-OCR图文解析模型,完善多模态文档理解能力体系2026/2/10阿里巴巴发布Qwen-Image-2.0图像生成模型,持续推进文生图能力升级2026/2/11科大讯飞推出星火X2大模型,强调全国产算力训练体系与自主可控能力2026/2/12发布MiniMaxM2.5文本模型,主打高性价比推理与商业化适配2026/2/12智谱AI推出GLM-5旗舰模型版本,进一步提升综合推理与多模态能力2026/2/12字节跳动发布Seedance2.0视频生成模型,加速视频AIGC能力演进2026/2/13字节跳动推出Seedream5.0Lite图像模型,强化轻量化图像生成能力2026/2/14字节跳动正式发布豆包大模型2.0系列,全面升级Agent与多模态能力体系2026/2/16阿里巴巴发布Qwen3.5模型版本,强化Agent化与视觉理解方向能力布局数据来源:各公司官网,Huggingface,东吴证券研究所MiniMaxM2.5定价显著低于行业主流水平。在约100Tokens/sAgent长期部署的经济可行性明显提升。同时,大幅下探Token定价。例如豆包2.图5:国产大模型对标性能相近的海外模型时,价格优势更加突出模型名称国产模型上下文窗口(Token)输入价格($/MTok)输出价格($/MTok)GLM-5200K13.2MiniMaxM2.50.3海外模型400K2.00(token数≤200K)/4.00(token数>200K)12.00(token数≤200K)/18.00(token数>200K)Grok4256K3ClaudeOpus4.5525ClaudeSonnet4.53.00(token数≤200K)/6.00(token数>200K)15.00(token数≤200K)/22.50(token数>200K)数据来源:各公司官网,东吴证券研究所MiniMaxM2.5发布后,多Agent部署开始出现真实落地案例。社交媒体上多位独立开发者将其评价为“首个无需显著考虑调用成本的前沿模型”。据协同由PoC阶段向可规模部署过渡。智谱GLM-5发布后需求表现强劲。公司一方面将GLMC模型一度登顶热度榜,后被确认即GLM-5,显示其在海外开发者社区已具备一定关注度。字节Seedance2.0明确面向专业影视、电商与广告生产场景,产品定位直指且对后期制作依赖较低。接入该模型的豆包App与即梦户二创生态。图6:智谱上调CodingPlan定价约30%图7:MiniMaxAgent发布后关注度快速升温数据来源:Zai,东吴证券研究所数据来源:Github,东吴证券研究所器。在此模式下,它能够在边缘端即时处理常见指令,同时将更复杂的任务调度至Gemma327B等模型进行处理,我们认为有望成为行业的重要参考标图8:GoogleGemma模型家族拓展垂直专精小模型矩阵时间模型参数时间模型参数2024/2/212B/7B2025/2/193B/10B/28B2024/4/52025/3/101B/4B/12B/27B2024/4/92025/3/102024/4/92025/5/204B/27B2024/5/32025/6/26E2B/E4B2024/5/142025/7/92024/6/112025/7/927B2024/6/279B/27B2025/8/14270M2024/7/312B2025/9/4308M2024/7/312025/9/132024/9/122B2025/12/18FunctionGemma270M2024/10/32B2025/12/18270M-270M/1B-2024/10/152B/7B2026/1/134B2024/12/53B/10B/28B2026/1/154B/12B/27B数据来源:Google,东吴证券研究所侧模型承担的核心职责是对物理世界、设备状态及系统环境进行实时感知与初步决策,需要处理大量图像、视频与语音等多模态数据。另外,在手机驶场景中,尽管主流观点仍以API调用为更高效的终局方案主动弱化传统“回合制问答”范式,转向实时多模态交互体系:MiniCPM-o4.5与算力约束。以面壁智能MiniCPM4.5引入的3D-Resam将高分辨率视频压缩为极少量视觉tokens后再输入主干模型图9:面壁智能MiniCPM系列模型发布时间线时间产品技术特征2025/1/23MiniCPM-Embedding双向注意力改造;WeightedMeanPooling向量汇聚2025/1/23MiniCPM-Reranker双向注意力Cross-Encoder架构2025/6/6MiniCPM4-8B/0.5BInfLLMv2可训练稀疏注意力;LongRoPE长上下文;FP8+MTP推理加速;CPM.cu内核;ArkInfer端侧推理;ModelWindTunnel2.02025/6/6BitCPM4-1B/0.5B极限三值(ternary)量化,大幅压缩bitwidth2025/6/6MiniCPM4-SurveyPlan-Retrieve-Write多智能体生成框架(Agent化RAG)2025/6/6MiniCPM4-MCPMCP模块化部署与工具调用体系2025/8/2MiniCPM-V4.0视觉能力强化;端侧效率优化2025/8/26MiniCPM-V4.5统一3D-Resampler(高倍视觉token压缩);LLaVA-UHD文档/OCR;混合RL推理优化2025/9/5MiniCPM4.1-8BTrainablesparseattention;Frequency-rankedspeculativedecoding;EAGLE3推理加速2026/2/3MiniCPM-o4.5Full-duplex实时语音对话;Proactivespeaking主动开口;流式多模态Omni2026/2/11MiniCPM-SALA稀疏+线性混合注意力(InfLLMv2+Lightning);1M上下文;HyPE位置编码;冷启动结构迁移数据来源:面壁智能,东吴证券研究所是对注意力本身进行结构改进以提升效率与表达能力,例如Qwen提出的Ga图10:LiquidAI端侧模型以小参数实现更高性能表现图11:英伟达Nemotron-3模型在MoE上的创新突破数据来源:LiquidAI,东吴证券研究所数据来源:NVIDIA,东吴证券研究所(范围学习QAT另一类是在量化阶段重新整理数值分布,让原模型更容易非简单线性压缩。Microsoft提出的BitNet表明,1.58-bit量化是可行的,但这一能力无法通过把现有模型直接压缩过去实现,必须从头开始训练模型。ParetoQ的研究进一步量化到2-bit,比将一个参数减半的模型量化到4-bit更好。展望未来,若低比特训练能图12:模型量化方案的性能分析与核心应用场景对比量化位宽模型压缩比模型精度表现核心落地场景8-bit缩小至1/2(2xsmaller)几乎无损云端/服务端;适用于无严格内存与算力限制的部署环境。4-bit缩小至1/4(4xsmaller)精度轻微衰减1%-3%云端/移动端/边缘端;常结合量化感知训练(QAT)部署,是目前主流的平衡方案。低于4-bit缩小至1/4-1/8精度衰减约3%移动端/边缘端;在极度受限的硬件下为最佳综合折中方案,依赖QAT技术。向量量化缩小至1/8(8xsmaller)精度衰减约3%专用硬件加速器;例如苹果神经网络引擎(AppleNeuralEngine)专属生态优化。数据来源:《On-DeviceLLMs:StateoftheUnion,2026》,东吴证券研究所2.3.3.推理优化:Attenti在Attention效率方面,长序列场景下的主要瓶颈是内存访问而非纯算力。据搬运,并持续提升FLOPs利用率(FlashAttention-2在A100上可达约72%,模型权重本身。研究表明,在边缘部署中,KV压缩的重要性有时实现近似无限长度生成;DuoAttention进一步区分的缓存实现接近甚至优于全KV性能。最高可实现约2.8倍推理提速。对于端侧而言,该路径尤具吸引力,因为设备侧天然更图13:DiffusionLLM原理示意图数据来源:《LargeLanguageDiffusionModels》,东吴证券研究所重点围绕图像消除、文本摘要等低门槛功能;进入2025年,厂商明显加差异化抓手,整机AI竞争正从功能数量比拼,转向多模态体验与系统合较量。图14:主要智能手机厂商AI功能推出时间表品牌24H124H225H125H2GalaxyAI实时翻译/同传聊天/笔记助手圈选即搜生成式编辑涂鸦生图人像工作室即刻简报AI智能选择音频消除照片助手绘画助手AppleIntelligence写作辅助通知摘要照片清理/回忆ChatGPT集成实时翻译生成式表情(Genmoji)视觉智能图像创作空间(ImagePlayground)智能快捷指令Gemini圈选即搜魔术撰写照片表情(Photomoji)防诈骗保护GeminiLive(实时对话)合影添加
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 陕西能源职业技术学院《环境社会学》2024-2025学年第二学期期末试卷
- 白酒酿造工冲突管理考核试卷含答案
- 皮鞋制作工安全技能测试强化考核试卷含答案
- 多维地理信息采集员冲突管理知识考核试卷含答案
- 经济昆虫产品加工工班组安全知识考核试卷含答案
- 重冶净液工岗前生产安全效果考核试卷含答案
- 麻纤维脱胶工岗前安全生产知识考核试卷含答案
- 苏教版科学一年级下册第一单元第1-3课单元教学设计
- 一次雷达机务员操作规程能力考核试卷含答案
- 裁边拉毛工创新意识强化考核试卷含答案
- 激光选区熔化成形Al-Si合金强化机理的多维度解析与应用拓展
- 城河东路南侧地块土壤污染状况调查报告
- 网络安全技术课件 第6章 Web应用安全
- 《养老护理员》模拟100题及答案
- 2025年人工智能(AI)训练师专业知识考试题(附答案)
- 道路车辆 视野 驾驶员眼睛位置眼椭圆的确定方法 编制说明
- PDCA循环在降低新生儿皮疹发生率的应用
- 食堂操作人员培训
- 统编版(2025)七年级下册道德与法治第一课《青春正当时》教案(3课时)
- DB21∕T 3613-2022 城镇分流制地区雨污混接调查与评估技术规程
- 工厂隐患排查培训
评论
0/150
提交评论