阿里云AI十大技术进展-

上传人：加*** IP属地：北京上传时间：2026-04-13 格式：PPTX 页数：70 大小：15.53MB 积分：12 举报 版权申诉

已阅读5页，还剩65页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

阿里云Al十大技术进属当人工智能的浪潮从实验室涌向各行各业深处，我们清晰地看到，一场深刻的创新链重构正在发生：竞争的核心，正从单一模型的性能竞赛，转向覆盖芯片、框架、模型、平台乃至应用的全栈系统工程能力比拼。这不仅是技术的演进，更是产业逻辑的重塑。阿里云发布的这份《阿里云

十大技术进展》报告，系统呈现了其在AI全链条上的创新实践。这份报告的价值，不仅在于记录了一系列扎实的技术里程碑，更在于它提供了一个观察中国科技企业如何以系统工程思维，攻坚新一代

核心能力的鲜活样本。当前，全球人工智能发展进入深水区，面临效率瓶颈、路径分歧、成本压力与场景落地等多重复杂挑战的交汇。破解这些难题，不仅需要单元的优化，而且需要从底层基础设施到上层应用范式的协同创新。报告所展现的从数据驱动的基础设施优化、革新模型的注意力架构，到提高可靠性的后训练技术、激发自主能力的智能体框架，勾勒出一条清晰的技术演进路径：通过系统性的工程整合，途径完善和技术优化，才能将简单、经济和可靠的能力赋予千行百业。这种系统工程思维，体现了领先企业从提供工具到构建生态、从追求峰值性能到保障规模可用性的战略视野和战术攀登，这正是推动

技术从可行性验证迈向规模化应用的关键支撑。尤为值得称道的是，这份报告中的系统创新始终伴随着鲜明的普惠导向与开放胸怀。通过开源顶尖模型、优化基础设施效能、降低推理服务成本，阿里云实质性地降低了

技术的获取与应用门槛。千问系列大模型全球累计下载量突破

亿次、衍生模型超

万个，这组数据背后，是一个由全球开发者共同参与的创新生态正在茁壮成长，意味着前沿技术得以在最广泛的场景中接受检验、迭代和再创造。这不仅是商业策略，更是对技术向善、赋能百业这一价值理念的深刻践行——让算力、算法与数据成为驱动人类进步的普遍动能。展望前方，通向通用人工智能（AGI）的道路依然漫长，充满基础理论与工程实践的双重未知。然而，这份报告让我们确信，中国的人工智能产业已经具备了在核心赛道进行系统性创新、并以此赋能实体经济与社会发展的强大实力。期待以阿里云为代表的中国科技企业，能继续秉持这种系统攻坚的定力与普惠开放的初心，在探索技术前沿的同时，更致力于让技术创新扎根于中国乃至全球浩瀚的行业土壤，解决真实世界的复杂问题。历史将再一次证明，真正伟大的技术突破，不仅闪耀于论文与榜单，更生长于推动产业升级、促进社会发展、增进人类福祉的广阔实践之中。这份报告所记载的，正是迈向这一目标的坚实足迹。迈向智能时代的系统工程创新序言中国工程院院士2026年

1月PrefaceⅠ2025

年，人工智能正从技术突破走向产业变革。这一年，多模态技术走向成熟，超长上下文成为模型标配，开源与闭源模型在能力上持续竞逐，而智能体（Agent）框架的兴起，正推动

从被动工具向主动协作伙伴演进。过去一年，阿里云深耕

核心领域，多项研究成果发表

于

NeurIPS、ACL、CVPR、ICML、SIGMOD、VLDB、SIGCOMM

等全球顶级学术会议及期刊，涵盖模型架构、基础设施、安全可控、多模态交互等关键方向。我们从这些前沿研究中梳理核心突破，凝练出10

个具有代表性的技术方向，形成本报告，

旨在分享

技术创新实践，为深度使用

技术提供参考。这些前沿突破，不仅是对

技术边界的持续拓展，更是对智能普惠这一终极命题的系统性回应，共同勾勒出一条清晰的演进路径：让

更高效、更可靠、更易用、更普惠。Ⅱ安全可信严守指令，

打通实用关键通路从神经元级可解释的安全体系构建，到执行反馈与联合优化的指令遵循技术，我们打通了

从“能用”到“好用且可信”的关键环节。内生安全技术深入模型机理构建免疫系统，从底层实现对模型人格与安全机制的精准调控，结合动态安全护栏与攻防闭环，为高风险场景应用构筑坚实的信任防线；指令遵循技术通过自我博弈、输入—输出联合偏好优化等创新，攻克复杂长指令中的约束遗忘与逻辑断层难题，赋予模型稳定可靠的执行能力。这些创新让技术创新始终行驶在安全可控的轨道上，为高风险场景应用构筑了坚实信任基石。全感融合智绘万物，

拓展感知创造边界通过多模态统一架构与长序列处理技术的创新，我们让

获得了类人的全感知能力；借助高效可控的生成技术体系，我们赋予

从零创造数字内容的能力。在理解侧，从小时级长视频解析到开放词汇目标检测，从低延迟实时交互到细粒度情感感知，AI

突破了单一模态的认知局限，实现了跨模态的深度理解与协同推理。在生成侧，从文生视频、图像全能编辑到

场景重建、实时语音合成，AI

掌握了全模态内容的专业级创作能力。这些突破共同构建了

感知世界与创造世界的完整闭环，为数字内容产业、人机交互体验及具身智能的规模化落地，开辟了全新的技术路径与应用空间。架构革新能力跃升，

夯实全栈突破根基模型架构作为

的“大脑结构”，是所有大模型的核心基石与能力原点。通过在注意力机制、稀疏化架构等底层技术方向上的持续革新，我们不断突破模型处理长上下文、融合多模态信息的能力上限。这些架构层面的进步，为后续模型训练的效率革命、推理服务的极致优化、安全与对齐机制的精准构建、以及多模态与智能体能力的跃升，提供了坚实且先进的底层支撑，是整个技术栈协同演进的核心驱动力。训推提速效率倍增，

筑牢AI普惠基石以高效经济的云化基础设施为依托，叠加后训练阶段的过程级监督与自适应优化技术，搭配测试时扩展与智能压缩的推理优化方案，我们重构了

的“成本—性能”方程式。在基础设施层面，通过高精度训练模拟器、智能化数据治理与Token

级动态推理调度等全链路创新，将大模型研发与部署的资源消耗显著降低，使前沿

能力的规模化普及具备了经济可行性；在后训练层面，以过程级监督替代结果级奖励，通过稀疏更新与序列级策略协同，高效将基础模型转化为具备工业级可靠性的专用能力；在推理服务方面，通过测试时扩展、差异化量化与场景化智能压缩等技术，在严控资源占用的前提下实现响应速度的倍级提升。三者协同发力，共同筑牢了

普惠的技术与成本基石，让强大能力得以高效、经济地交付。Ⅲ这些突破不是孤立的技术点，而是相互支撑、层层递进的有机整体：架构革新奠定了全链路技术升级的底层基础，基础设施与推理优化提供了经济可行性，安全与指令对齐确保了可控可信，多模态能力拓展了感知与创造边界，检索增强与智能体技术则实现了从能力到应用的落地闭环。当我们系统梳理过去一年的技术突破时，可以清晰地看到，AI

技术正在完成一次深刻的质变：从追求参数规模的竞争，转向追求效率、可靠性与普惠性的价值竞争。而这，正是通向真正的通用人工智能与智能社会的必由之路。抽丝剥茧准确执行，

完成工具伙伴蜕变从主动探索的模型知识系统到具备自主规划能力的智能体系，我们见证了

从被动响应到主动执行的范式转变。检索增强技术的创新，使

AI摆脱静态知识束缚，通过主动搜索、动态路由与深度推理，在海量信息中精准捕获价值，为开放域问答、知识密集型任务提供可靠支撑；而智能体技术的系统性突破，让AI拥有自主拆解任务、环境交互与自我修正的能力，从简单指令执行者进化为能解决复杂问题的“数字劳动力”。Ⅳ02基础设施

:提升算力效能，·

提高数据质量·

P0703后训练

:过程级监督，

自适应优化·P1304推理服务

:测试时扩展，·

智能压缩·P1905内生安全:

神经元级调控，

可解释可评估·P2606指令遵循:

自我博弈，

联合优化·P3307多模态理解

:跨模态统一

·感知，长序列高效处理·P3808多模态生成

高质量创作，

细粒度控制·P4409检索增强:主动探索，

动态优化·P51智能体

自主规划，体系创新模型架构

:注意力重塑，专业度进化目录0110ContentsP01P57Ⅴ趋势二01模型架构：注意力重塑

，专业度进化模型架构是大语言模型处理和理解信息的“大脑结构”，其创新直接决定了模型的认知上限与应用边界。2025

年，我们实现了若干核心突破：在注意力机制方面，通过引入门控注意力机制与线性注意力优化，显著缓解了长序列处理中的注意力沉没与计算效率问题；在稀疏化架构方面，提出全局批次负载平衡策略，释放了MoE模型中专家的深度专业化潜力。这些基于模型底层逻辑的创新，为大模型在长文档分析、复杂任务处理和多模态交互等业务场景的深度应用奠定了坚实可靠的技术基石。1架构是模型处理和理解信息的“大脑结构”，它定义了模型如何组织计算单元、处理信息流以及从数据中提炼知识。一个高效、鲁棒的架构是模型实现强大推理、生成和泛化能力的根本，直接决定了

技术天花板的高度。随着大模型进入千亿乃至万亿参数时代，单纯的规模扩张已遭遇边际效益递减，全球顶尖科技公司与研究机构正将投入重点转向对“架构效率”的深层次革新，旨在用更加精巧的设计释放出更加强大的智能。当前，业界在模型架构创新上的探索呈现多元化且深入的格局，主要聚焦于如下方向：●

注意力机制革新，包括长序列注意力优化（如线性注意力、稀疏注意力）、注意力效率提升（如分组注意力、头剪枝）等，核心是解决长文本处理中的信息衰减与计算冗余问题。●

稀疏化架构优化，以混合专家模型（MoE）及其变体为代表，通过“专家分工”在不显著增加计算成本的前提下扩大模型规模，同时探索动态路由、专家激活策略等优化方向。●

多模态统一架构探索，追求文本、图像、音频等模态的深度对齐与协同，避免“单模态强、多模态弱”的偏科现象。当前，这些前沿探索面临着深刻而本质的科学与工程挑战：●

注意力机制受限于长序列处理瓶颈，随着文本长度增加，计算复杂度呈平方级增长，且易出现信息衰减与“注意力沉没（指模型会不自觉地、过度地将注意力资源分配给序列开头的几个词，这导致模型容易忽略后面真正关键的信息，是影响长文本理解的核心缺陷）”等问题。●

在稀疏化架构中，如何平衡专家负载均衡与领域专精是核心难题，过度追求局部负载均匀会导致专家“全而不专”，而放任稀疏则可能引发训练不稳定与资源浪费。●

多模态架构中，不同模态的语义鸿沟与数据分布差异难以完全消除，实现模态对齐的同时往往会牺牲单模态性能。此外，在更宏观的层面，架构的可解释性与可控性仍是一个“黑箱”：我们难以精确知晓模型内部的哪些结构单元负责哪项特定的能力，这使得针对性地增强模型某一项能力变得异常困难，往往需要代价高昂的全参数微调或效果粗糙的全局干预。行业现状与主要挑战

阿里云AI十大技术进展2其核心价值在于同时缓解了三大痛点：第一

，有效抑制了“注意力沉没”现象。传统模型平均将

46.7%

的注意力浪费在序列开头，而门控机制通过动态稀疏性，将该比例降至

4.8%，迫使模型公平、精细地处理序列中每一个有效信息。第二，从原理上增强了模型的表达能力。注意力模块中的两层线性变换存在表达瓶颈，门控的加入打破了这一限制，让模型能够学习更复杂的特征映射。第三，提升了训练稳定性与扩展性。该机制能抑制训练中异常的数值激活，允许使用更大的学习率，使超大规模模型的训练过程更加平稳可靠。实验证明，采用门控注意力的模型在长上下文外推任务上性能提升超过

个点，且无需重新训练即可更好地处理超长文本，这为长文档分析、代码仓库级编程等场景提供了强大支撑。此项创新已成为

Qwen3-Next

等新一代旗舰模型的核心技术，助力其在保持高效部署特性的同时，实现更优异的长序列处理性能。注意力机制是

Transformer

架构的核心，它使模型能够动态衡量并聚焦于输入序列中的重要部分，是理解与生成的关键。然而，传统注意力在长序列中普遍存在“注意力沉没”问题——模型会过度关注序列开头，导致后续关键信息被忽略，严重制约了长文本理解能力。NeurIPS

2025

最佳

论文《Gated

Attention

for

Large

Language

Models:

Non-linearity,

Sparsity,

and

Attention-

Sink-Free》提出了一项关键改进：在标准注意力计算后，为“注意力头”增加一个由当前查询驱动的

Sigmoid

门控开关。这一设计如同为模型的“理解视线”加装了一个实时、自适应的调节器，能以低于

的额外计算成本，带来多方面的显著图1模型“注意力”得分和训练损失对比●左图为每层对初始token的注意力比例：基准模型（上）在第5层后对初始token的注意力得分较高，平均每层46.7%的注意力集中在初始token，存在显著的“注意力沉没”现象；在引入注意力门控模型（下）后，平均每层仅4.8%

的注意力集中在初始token，“注意力沉没”问题显著缓解。●

右图为训练损失对比：基于1.7B

稠密模型的基准模型（Baseline）和注意力门控模型（SDPAoutputgateG1）在3.5Ttokens

训练下的平滑损失，结果表明注意力门控模型的损失更低且更稳定。新思路。创新01门控注意力机制，重构模型信息筛选逻辑为从根源上应对上述挑战，我们在模型架构的基础原理与设计范式上取得了系列突破，有效缓解了长期存在的瓶颈，并为更精细地引导模型能力提供了我们的创新突破模型架构：注意力重塑，专业度进化提升。3随着应用场景对长文本处理需求的增长，传统注意力机制计算复杂度随序列长度呈平方增长的问题日益突出，成为制约模型高效处理长序列的关键瓶颈。我们在

Qwen3-Next

模型中成功应用并优化了线性注意力机制。该机制的核心在于，通过巧妙的数学分解，将注意力计算中查询（Query）与键（Key）的交互复杂度从二次方降低到线性，从而实现了在超长序列场景下内存占用和计算时间的显著下降。这一改进并非以牺牲精度为代价，通过引入可学习的门控机制与归一化策略，线性注意力在保持模型核心表达能力的同时，大幅提升了长上下文处理的效率。此项创新使得模型能够以更低的计算成本支持更长的上下文窗口，为需要处理超长文档、进行长程对话或复杂代码分析的场景提供了实用的解决方案。它代表了我们在追求模型“更高效”架构方向上的重要实践，确保了强大能力与落地可行性之间的平衡。混合专家模型作为一种稀疏化架构，

通过路由机制激活部分参数（专家）处理不同输入，能在不显著增加计算成本下扩展模型容量。然而，传统方法通常在“微批次”级别强制专家负载均衡，这严重限制了路由器的调度灵活性，导致专家“泛而不精”，难以形成深度专业知识。我们的创新在于，将负载平衡损失的计算尺度从“微批次”扩展到“全局批次”。新策略着眼于在海量、多样化的全局训练数据分布上，各专家的总体工作量保持均衡，

而不再苛求每一个微小、同质的数据片段内的平均分配。这一调整显著增强了路由器根据任务类型进行动态调度的能力。结果发现，模型自发涌现出清晰的专家专业化分工。这种内生性的专业化，使得模型在同等规模下获得了显著更强的任务处理能力与知识深度。该优化思路已同样应用于Qwen3-Next

等模型设计中，助力模型在扩展容量的同时保持高效与实用。图2“均衡批次”对模型性能和专家专业化的影响●

左图（a）为模型性能比较。其中，蓝色为微批次均衡，绿色为全局批次均衡；上图为困惑度对比，数值越低模型效果越好；下图为基准测试对比，数值越高模型性能越好；结果表明全局批次均衡相比微批次均衡，在降低困惑度和提升模型任务性能方面均表现更加优秀。●

右图（b）为专家选择频率对比。微批次均衡（左）和全局批次均衡（右）在不同任务（包括SFT-Code、SFT-Math、EN-Literature）中“专家”的选择频率，结果表明全局批次均衡的专家在不同领域选取频率差异显著，能有效促进专家专业化。创新03全局批次负载平衡，释放MoE模型专精潜力创新02线性注意力机制，突破长序列计算效率瓶颈

阿里云AI十大技术进展4除上述三大创新外，模型架构创新还是提升模型安全可控性与多模态协同能力的重要技术路径。在安全机制层面，我们通过对注意力头与安全能力关联的深度探索，实现了模型安全机制的解密与精准优化；在多模态领域，通过“Thinker-

Talker”架构、Hyper

Attention（超注意力）模块等创新设计，有效推动了跨模态理解与生成能力的跃升。相关具体技术细节与突破成果，详见“内生安全：神经元级调控，可解释可评估”、“多模态理解：跨模态统一感知，长序列高效处理”章节内容。模型架构：注意力重塑，专业度进化5模型架构层面的系列突破，其重要价值在于推动

大模型从依赖数据规模和算力堆砌的规模竞争，

迈向依托核心设计创新的效率与能力竞争新阶

段。门控注意力与线性注意力机制从不同角度提

升了模型处理长序列信息的质量与效率，使得自

动化分析长文档、长代码成为更可靠的现实。对MoE

负载平衡策略的优化，则使我们能够更好地

激发模型的内生专业化潜力。这些进步共同为构

建更高效、更专业的模型提供了核心技术支撑。展望未来，模型架构的创新将继续沿着“更高效、

更专业、更透明、更统一”的方向演进。更高效参考文献的注意力与稀疏化机制将直接转化为

服务的成本优化与性能提升；具备内生专业化分工的模型有望成为垂直领域的强大工具；对架构微观机理的深入理解，将增强模型的可解释性与可控性；而对多模态统一架构的持续探索，则是实现无缝人机交互的关键。对模型“大脑结构”的持续精进，将切实推动人工智能从“功能可用”迈向“性能卓越、值得信赖”的新阶段。●

GatedAttentionforLargeLanguageModels:Non-linearity,Sparsity,andAttention-Sink-Free●

Demons

intheDetail:OnImplementingLoadBalancing

LossforTrainingSpecializedMixture-of-Expert

Models●

OntheRoleofAttentionHeadsinLargeLanguage

Model

Safety●

Qwen3TechnicalReport●

mPLUG-Owl3:TowardsLongImage-SequenceUnderstandinginMulti-Modal

Large

Language

Models●

Wan:OpenandAdvancedLarge-ScaleVideoGenerativeModels●

Qwen-imagetechnicalreport●

MIMO:ControllableCharacterVideoSynthesiswithSpatialDecomposedModeling●

AniGS:AnimatableGaussianAvatarfromaSingleImagewithInconsistentGaussianReconstruction●

ACE++:Instruction-BasedImageCreationandEditingviaContext-Aware

Content

Filling●

ACE:

All-roundCreatorandEditorFollowingInstructionsvia

DiffusionTransformer●

Qwen3-OmniTechnicalReport●

EgoVid-5M:ALarge-ScaleVideo-ActionDatasetforEgocentricVideosGeneration总结与展望

阿里云AI十大技术进展6趋势二02基础设施：提升算力效能，提高数据质量AI基础设施是大模型从研发到落地的基石，直接决定AI的研发效率与服务成本。针对大模型训练验证成本高、数据质量与多样性不足、推理资源利用率低、数据与模型协同不畅等关键行业痛点，

我们聚焦训练模拟优化、数据评估与增强、数据—模型协同开发、智能推理调度四大技术方向，通过一系列创新方法，实现了训练验证流程的显著提效、数据资源的智能治理与优化以及推理资源的极致利用，进而构建了高效、经济、易用的云上AI基础设施体系，为AI的规模化与产业化应用提供了坚实支撑。7在AI飞速发展的今天，AI基础设施如同“发电厂”，是支撑大模型研发与应用的核心底座。特别是基于云的

基础设施，

意味着将强大的算力资源、高效的开发工具和智能的应用服务，以弹性、可靠、可扩展的方式提供给千行百业。它直接决定了

创新的速度、成本与门槛，

是推动人工智能从技术探索走向广泛产业应用的关键。当前，全球头部科技企业与研究机构在

基础设施领域的探索，正紧密围绕云的能力展开，主要聚焦于：●

高效能计算，利用云的弹性资源池与集群调度能力，结合新型芯片架构，提升训练能效。●

数据工程体系化，依托云的大规模存储与数据处理服务，通过数据筛选、合成与增强技术，破解高质量数据稀缺的难题。●

推理服务系统设计，研究如何基于微服务、容器化及

Serverless

等云原生技术，

实现模型服务的高性能、高弹性与成本可控。尽管方向明确，

但在云上实现高效的

研发与应用仍面临显著挑战：●

训练验证成本高企：大模型训练动辄需调动成千上万的云上

GPU，致使任何新算法或硬件架构的实地验证成本极高、风险巨大，严重拖慢创新迭代周期。●

数据效用难以评估：数据质量、多样性与模型性能间的关系仍不透明，缺乏科学、可量化的云上数据筛选与评估标准，导致存储与计算资源投入效率低下。●

开发流程协同困难：云上数据处理、模型训练与评估等环节往往由不同团队负责，工具链与工作流割裂，形成“云上孤岛”，阻碍端到端协同调优。●

推理资源利用率低：模型服务存在长尾请求与突发流量并存的常态，传统静态资源分配模式难以动态应对，造成云上

GPU

资源严重闲置与浪费。这些挑战表明，

推动

负载与云计算在架构、调度与管理层面的深度协同，

是释放

基础设施全部潜能、实现普惠化的关键所在。行业现状与主要挑战

阿里云AI十大技术进展8高质量数据是模型性能的基石。我们在数据源头和预处理环节取得了两项关键进展。其一是DataMan

数据管理器。通过分析海量文本，让大模型自己总结出影响其学习效果的

个质量维度（如准确性、连贯性、语义密度等）。

DataMan像智能质检员一样，为预训练数据自动打上质量与领域标签。使用它筛选出的高质量数据训练模型，仅用

60%

的数据量就能达到甚至超过用全量数据训练的效果，实现了高效学习。其二是MMEvol

多模态指令进化框架。它解决了多模态训练数据复杂度和多样性不足的痛点。该框架能对原始的图像—文本指令进行自动升级，通过增加对画面细节的追问、延伸推理链条、变换提问形式等方式，显著提升数据的多样性。用进化后的数据训练模型，能在多个评测中平均提升

3%以上的性能，实现了数据效用与模型能力的同步跃升。大模型训练动辄消耗数万

GPU

日，任何新硬件选型或参数调优的实地测试都成本惊人。为此，我们研发了

SimAI

统一模拟器。它的创新之处在于，并非简单理论估算，而是通过“劫持”主流训练框架，在单机环境下高保真地模拟出分布式训练中计算和通信操作的真实负载。SimAI

构建了详尽的

GPU

计算内核性能数据库，并深度改造了通信库来模拟真实的网络拓扑与流量。实验表明，其模拟结果与真实训练结果的平均对齐度高达

98.1%。这一工具已用于指导阿里云新一代

AI服务器的设计，例如精准评估了不同网络带宽配置对

GPU

集群训练效率的实际影响，在保证性能的同时实现了成本最优，将硬件决策从经验驱动升级为数据驱动。突破。创新01高精度训练模拟器，让架

构设计与调优告别“盲测”图1

DataMan模型工作流程通过LLM的反向思考推导出14个质量标准，并使用DataMan标注预训练数据的质量评分和领域类型。通过采用数据采样策略选择子集，训练后的语言模型性能超越了最先进的数据采样基线。创新02智能化数据全生命周期管

理，从“堆数据”到“选数据”基于上述挑战，我们从训练模拟、数据治理、协同开发和服务部署四个关键环节入手，取得了一系列原创性我们的创新突破基础设施：提升算力效能，提高数据质量9其核心的“探测—分析—优化”工作流，能快速识别出针对特定任务（如文生视频、图文理解）最有效的“数据配方”。例如，在文生视频任务中，通过该沙盒快速验证出“提升视频帧与文本描述匹配度”是关键的优化动作，并据此指导大规模数据生产，最终帮助模型在权威评测中达到顶尖水平。这有望彻底改变数据工作与模型目标脱节的局面。传统上，数据清洗和模型训练是两个独立的团队和流程，

协同效率低。我们推出了

Data-JuicerSandbox

协同开发套件。它如同一个实验室，允许开发者在低成本环境下（如单张

GPU），系统化地试验不同的数据处理工具对最终模型性能的影响。图2Data-Juicer沙盒“探测—分析—优化”工作流示意通过系统化探测、多维度分析和数据扩展优化，实现数据与模型的高效协同，进而提升模型的训练效果：●探测阶段：将初始数据池划分为若干个数据集，用于测试单个数据操作或多个数据操作组合对模型指标的影响。●

分析阶段：包括重要性分析、相关性分析、重复性分析、多样性分析。创新03数据与模型的协同开发套件，打破隔墙对话的研发模式●优化阶段：选出最佳操作组合，通过数据扩展生成更优数据集，提升模型性能。

阿里云AI十大技术进展10一个模型的请求，实现了极细粒度的资源时分复用。配合其高效的组件复用与内存管理技术，将模型加载

卸载的开销降低了

97%。这使得单张GPU

能够同时流畅服务多达

个模型，将

GPU资源池的整体利用率从不足

34%

提升至

48%。在阿里云模型平台的内部部署中，已成功将服务集群所需

GPU

数量减少

82%，实现了降本增效的巨大飞跃。目前，该系统已应用于大模型服务平台百炼，为海量客户提供高效、经济的模型服务调度支持。在模型部署与服务阶段，如何应对不同模型冷热不均的访问流量是行业难题。现有方案无法在保证响应速度的同时高效利用

GPU。针对此，我们开创性地提出了

Aegaeon

多模型服务系统，其核心创新在于实现了“token

粒度”的自动扩缩容。传统系统按整个请求（可能生成数百个

token）来调度资源，

容易阻塞。Aegaeon

则允许

GPU

在为一个模型生成一个

token

后，即刻切换去服务另图3应用Aegaeon前后GPU利用率对比●

Before（low

load）和Before（high

load）表示负载最低和最高的单个实例的GPU利用率；●

After（Aegaeon）为部署Aegaeon后的GPU利用率。实测结果表明，Aegaeon显著提升GPU利用率，从平均13.3%~33.9%提升到48.1%。创新04Token

级动态推理服务系统，极大化GPU资源利用率基础设施：提升算力效能，提高数据质量11阿里云在

基础设施层面的系列创新，

其价值远不止于单个工具或系统的发布，

更在于为

的性能突破和规模化产业应用扫除了障碍。高精度模

拟技术将大幅降低

芯片、服务器和集群架构的

创新门槛与试错成本，加速硬件的迭代。智能数

据管理让中小企业也能以可负担的成本获取高质

量训练数据，缓解了数据焦虑。协同开发沙盒则

使模型研发从依赖人工经验的分散式作业走向标

准化、可复现的工程化流程，提升了复杂多模态

产品的研发确定性与效率。而革命性的推理服

务系统，直接让云上模型服务的成本大幅下降，

使得同时部署和使用百模、千模成为经济可行的

现实，真正激活了模型生态。参考文献这些突破将深刻影响具体业务场景：在科研领域，研究者可以更低成本验证天马行空的想法；在产业界，各行业能够更快速、更经济地开发专属的行业大模型；在消费互联网，用户将能体验到更丰富、更迅捷且个性化的

服务。从更广阔的视角看，通过让算力更高效、数据更智能、开发更简单、服务更经济，我们正在构建一个更具韧性和包容性的

技术生态。这不仅推动了人工智能技术本身的发展，也为千行百业的智能化升级提供了坚实、高效且易于获取的基础支撑。●SimAI:Unifying

ArchitectureDesignandPerformance

Tuning

forLarge-ScaleLargeLanguageModel

Training

withScalabilityandPrecision●

DataMan:Data

ManagerforPre-trainingLargeLanguageModels●

MMEvol:EmpoweringMultimodalLargeLanguage

Modelswith

Evol-Instruct●

Data-JuicerSandbox:AFeedback-DrivenSuiteforMultimodalData-ModelCo-development●Aegaeon:EffectiveGPUPoolingforConcurrentLLMServingontheMarket●Self-playwithExecutionFeedback:ImprovingInstruction-followingCapabilities

Large

Language

Models●

BenchmarkingMultimodalRetrievalAugmentedGenerationwithDynamicVQADatasetandSelf-adaptive

PlanningAgent●

WebShaper:

AgenticallyDataSynthesizingviaInformation-SeekingFormalization●

IOPO:EmpoweringLLMswithComplexInstructionFollowingvia

Input-Output

Preference

Optimization●

AutomaticDatabaseConfigurationDebuggingusingRetrieval-Augmented

Language

Models●

PRICE:APretrainedModelforCross-DatabaseCardinalityEstimation●

KnowledgeGraphFinetuningEnhancesKnowledgeManipulation

Large

Language

Models●

PolyMath:EvaluatingMathematicalReasoningin

MultilingualContexts●

DeepSolution:BoostingComplexEngineeringSolutionDesignviaTree-basedExplorationand

Bi-pointThinking●

LSMGraph:AHigh-PerformanceDynamicGraphStorageSystemwithMulti-levelCSR●

Dbcopilot:Naturallanguagequeryingovermassivedatabasesviaschemarouting●

UnlockingthePotentialofCXLforDisaggregatedMemoryin

Cloud-Native

Databases总结与展望

阿里云AI十大技术进展1203后训练：过程级监督

，

自适应优化后训练是将基础模型的通用知识转化为特定能力的关键阶段。我们通过系统性的算法创新，

将这一过程从经验驱动的参数调优提升为理论完备的优化框架。核心贡献体现在三个层面的方法论突破：反馈信号层面，从结果级奖励转向过程级监督，通过细粒度的步骤评估建立可验证的推理链条；优化策略层面，基于信息熵的稀疏更新与序列级策略协同，为

MoE等复杂架构提供训练稳定性的理论保证；对齐机制层面，通过动态权重调节融合监督学习与强化学习，实现知识传承与自主探索的统一优化目标。这些创新共同构建了一个高效、稳定且可扩展的后训练技术体系，

使大模型在复杂推理、长程规划及多智能体交互等场景中实现了从概率生成到逻辑决策的能力跃迁，为工业级应用提供了坚实的理论与工程基础。13后训练是连接预训练模型与最终用户价值的桥梁，涵盖监督微调（SFT）、强化学习（RL）及偏好优化（DPO）等核心环节。它旨在解决预训练模型“懂知识”但“缺乏判断力”的问题，通过引入环境交互与反馈信号，

赋予模型指令遵循、逻辑推理及安全合规的能力。当前，行业内的技术演进主要聚焦于三个维度：●

反馈机制的精细化：从粗糙的整段回复评分向细粒度的过程监督演进，试图解决复杂数学与代码任务中的逻辑断层问题。●

优化算法的稳定性探索：针对

PPO（近端策略优化）在大规模模型上极易发散的难题，业界正密集探索

DPO

及其变体，力求在无需显式奖励模型的情况下实现稳定对齐。●

数据与计算的高效化：利用合成数据与课程学习来缓解高质量标注数据的匮乏，同时寻找更高效的梯度更新策略以降低训练成本。然而，相关探索方向仍面临严峻挑战：●

“结果正确，过程错误”的推理幻觉：现有方法多基于最终结果给予奖励，导致模型学会了“凑答案”而非真正的逻辑推导，在长链条推理中极易出错。●

MoE

架构下的训练坍塌：随着模型架构转向混合专家，传统的

token

级强化学习算法会导致专家路由策略失效，引发严重的训练不稳定性与模型退化。●

优化策略的僵化：现有的“硬截断”机制在处理不同质量的样本时缺乏弹性，往往在保留有效信号与防止模型跑偏之间顾此失彼，导致样本利用率低下。行业现状与主要挑战

阿里云AI十大技术进展14针对大模型在复杂逻辑任务中“结果导向”带来的推理隐患，我们革新了评估方式，提出了基于细粒度过程奖励模型（PRM）的训练模式。在研究中，我们证实了仅仅增加数据量无法解决逻辑错误，必须引入针对中间步骤的监督信号。进一步地，我们构建了

ProcessBench

基准框架，

这是一种专门用于识别数学推理中“首个过程错误”的评估体系。该创新的核心价值在于精准的“错误归因”。实验显示，通过引入过程级价值评估，模型在处理高难度数学问题时的步进错误识别率显著提升。这一技术已应用于

Qwen

数学模型的后训练中，

使其能够精准定位并修正推理链条中的微小逻辑偏差，从而在

ProcessBench

基准上取得超越

GPT-4o的表现，并将

Qwen2.5-Math

在

MATH

基准测试创新高熵关键点优化，02

突破强化学习效率瓶颈在提升大规模模型

效率的探索中，我们基于Beyond

the

80/20

Rule

的研究发现：在推理生成过程中，并非所有

token

都同等重要，仅有约

20%的高熵关键节点——即模型决策时的不确定性点——驱动了有效的强化学习。基于此，我们提出了一种聚焦于“高熵少数派”的稀疏训练策略，仅针对推理路径中信息量最大的关键

token

进行梯度更新。在

Qwen-Reasoner

系列的实验中，

该方法在保持甚至超越全量训练效果的前提下，将训练计算开销降低了数倍，并显著提升了模型在长链条推理中的逻辑连贯性与收敛速度。图1高熵tokens示意图及其与全量token训练的效果对比在思维链(CoTs)

中，只有少数token表现出高熵值并充当推理路径中的"分叉点"，而大多数token是低熵的。使用分叉token的策略梯度进行RLVR训练带来了显著的性能提升，且效果随模型规模增长。在最大响应长度为

20k的设置下，我们的

32B模型在参数量小于600B

的基础模型中，通过

RLVR创造了新的最优成绩(AIME'24上63.5分,AIME'25上56.7分)。将最大响应长度扩展到29k后，AIME'24

的分数进一步提升至68.1分。中的得分推升至

92.9%，在极具挑战的

AIME

2024大赛中更是成功解出

道难题，以确凿的数据实现了从“依靠概率猜测”到“具备严密推导能力”的跨越。创新01过程级价值评估，重构复杂推理的严谨性针对上述共性难题，我们进行了全方位优化，探索了高阶推理与智能体对齐新的路径。我们的创新突破后训练：过程级监督，自适应优化15针对混合专家模型（MoE）在强化学习中极易出现的路由坍塌问题，我们提出了组序列策略优化（GSPO,

Group

Sequence

Policy

Optimization）算法。传统的

PPO

算法采用

token

级别的优势估计，这种微观噪声会导致

MoE

模型的专家网络频繁切换与震荡。

GSPO

的创新在于将优化的颗粒度从“token

级”提升至“序列级”。它利用序列似然度来定义重要性比率，并采用组内相对优势进行归一化。这相当于让模型在“宏观层面”评估整个回答的质量，而非纠结于单个词的得失，从而屏蔽了局部噪声对专家路由的干扰。实验证明，

GSPO

有效缓解了

MoE

模型的训练稳定性问题，无需复杂的辅助损失函数即可实现平稳收敛。如何在“模仿专家（SFT）”与“自我探索（RL）”之间找到最优平衡？我们提出了动态权重协同框

架（CHORD）。

传统的后训练往往将

SFT

与

RL割裂，而

CHORD

创造性地将

SFT

数据视为一种

“策略外专家”指引，并引入动态权重机制。该

机制能根据模型当前的策略分布与专家分布的差

异，实时调整两者在损失函数中的占比：当模型

迷茫时，增加专家权重的指引；当模型确信时，鼓励其在

环境中自由探索。这有效防止了模

型在强化学习中发生“灾难性遗忘”，同时也避

免了因过度模仿专家而丧失泛化能力，实现了知

识保持与能力进化的完美结合。图2统一了SFT和RL

的

CHORD框架上半部分（蓝色部分），模型根据强化学习自我训练。下半部分（橙色部分），模型进行SFT动态训练（模型根据自己的“自信”程度，动态调整权重：如果token跟自己所想非常吻合，那么降低权重，以防止过拟合；如果token跟自己所想完全不同，也降低权重，防止训崩；只有当模型觉得自己对当前token半懂不懂时，才增加权重）。中间部分，联合SFT和RL。设置总目标函数，其中

μ为全局调节参数，设置SFT和RL各自所占的比重，例如前期可以让SFT

比重更大，后期让RL

比重更大。动态协同机制，实现专家指导与自我探索的统一组序列策略优化，确立MoE训练的稳定性基石创新03创新04

阿里云AI十大技术进展16针对传统单轮对齐算法在多轮交互任务中的短视问题，我们首创了片段级直接偏好优化（SDPO）算法。该算法将优化的视野从单一的“回复句子”扩展到了“交互片段（Segment）”,

迫使模型学习如何在多轮对话中进行长程规划。同时，结合分布鲁棒性优化，显著降低了模型对训练数据中噪声与错误标注的敏感度。在

SOTOPIA

社交智能基准测试中，搭载该技术的智能体展现出了接近人类水平的社交规划能力。它们不仅能够理解复杂的社会规范，还学会了通过策略性的沟通（如谈判、妥协）来达成长期目标。这一突破标志着模型已超越基础问答，具备了作为独立智能体在复杂社会环境中交互与合作的高级能力。为了解决传统

算法中“硬截断”带来的样本利用率低下问题，我们提出了软自适应策略优化（SAPO,

Soft

Adaptive

PolicyOptimization），建立了一套标准化的训练方式。

SAPO

引入了平滑的温度控制门控机制，替代了

PPO

中粗暴的梯度截断。这意味着模型能够自适应地从那些偏离策略较远、但仍具价值的样本中提取有效信息，而不是直接丢弃。同时，我们基于一阶近似理论，从数学上统一了

token

级与序列级目标的优化形式，消除了训练中的“黑盒调参”成分。这一组合拳在多模态模型的训练中展现了极高的样本效率，特别是在处理复杂多模态指令时，收敛速度与稳定性均实现了大幅提升。片段级长程对齐，赋予智能体社交与规划能力软自适应策略优化，提供数学收敛性保障创新05创新06后训练：过程级监督，自适应优化17后训练阶段的技术突破，标志着大模型研发进

入了“精细化重塑”的新阶段。如果说预训练赋

予

了模型广博

的知识，

那么

GSPO、CHORD

与SAPO

等算法则赋予了模型严密的逻辑、稳定的

心智与灵活的策略。我们不仅在理论上证明了大

规模强化学习的可行性，更通过高熵稀疏训练与

过程监督，在工程上实现了效率与精度的双重飞参考文献跃。

展望未来，后训练将向着“自我演进系统”的方向发展。我们预见，未来的模型将能够在构建的高保真世界模型中进行大规模的自我博弈（Self-Play），通过动态的专家协同与自适应优化，逐步摆脱对人类标注数据的依赖，最终实现从“模仿人类智能”到“探索未至之境”的转变。●ProcessBench:IdentifyingProcessErrorsin

Mathematical

Reasoning●

Beyond

the80/20Rule:High-Entropy

Minority

Tokens

Drive

Effective

Reinforcement

Learning

for

LLM

Reasoning●

GroupSequencePolicyOptimization●

On-PolicyRLMeetsOff-PolicyExperts:

HarmonizingSupervised

Fine-Tuningand

Reinforcement

Learningvia

DynamicWeighting●

SoftAdaptivePolicyOptimization●

The

LessonsofDevelopingProcessRewardModels

Mathematical

Reasoning●

SDPO:Segment-LevelDirectPreferenceOptimizationforSocialAgents●

TowardsRobustAlignmentofLanguageModels:Distributionally

Robustifying

Direct

Preference

Optimization●

StabilizingReinforcementLearningwithLLMs:Formulationand

Practices总结与展望

阿里云AI十大技术进展1804推理服务：测试时扩展

，智能压缩推理服务优化是解决大模型落地成本高、速度慢、场景受限的关键。我们针对文档、视频、长文本等核心场景，取得一系列创新：测试时扩展技术提升推理深度与准确性；

ParScale并行扩展范式实现低资源场景高性能推理；AsymKV等差异化量化与长文本优化解决内存瓶颈；mPLUG-DocOwl2、

TeaCache等智能压缩与缓存技术降低文档处理和视频生成资源消耗；ST-BoN等高效采样筛选算法提升准确率与效率。这些技术无需大量重训，即可实现资源消耗降低、速度提升、可靠性增强等目标，显著降低大模型的应用门槛，为AI普惠应用奠定基础。19推理服务优化，是将大模型从实验室推向实际应用的关键一步，核心目标是提升模型部署后的运行效率。它通过各种算法和工程手段，在保持模型核心能力的前提下，减少推理时的内存消耗、加快响应速度、增强同时处理多任务的能力。简单说，就是让大模型在真实场景中跑得更快、效果更好、成本更低，找到性能与资源消耗的最佳平衡点。当前，业界主要通过如下方法为模型运转“减负提速”：●模型压缩与量化：好比给模型“瘦身”，例如，

“量化”将模型参数从高精度转为低精度存储，类似把高清图片转成压缩格式；

“模型压缩”则是直接减少参数量，从而大幅降低存储和运行的资源需求。●推理加速算法：优化模型的“思考过程”，例如，

“缓存优化”会记住之前的中间计算结果，避免重复运算；

“稀疏计算”则能智能跳过那些对结果影响微小的计算步骤，提升效率。●

长文本处理优化：专门针对书籍、长文档等超长输入，设计更高效的处理逻辑。●

测试时扩展与采样筛选：通过在推理阶段引入多路径、多轮次的计算扩展，或并行生成多个候选答案再筛选最优解的方式（Best-of-N，

即“N选优”），系统性提升模型输出的准确率与可靠性。然而，这些方法在实际落地时，依然面临几大棘手难关：●

保真度与效率难以两全：粗暴的“瘦身”往往导致模型能力下降，

如同过度压缩会让图片失真。●

通用性方案稀缺：许多加速技巧需针对特定模型“量身定制”，无法复制推广，开发成本高。●

长文本处理成本高昂：处理数万乃至百万字的内容，算力消耗大，且用于记忆历史的缓存（KV

Cache）会急速膨胀，成为性能瓶颈。●扩展与筛选存在瓶颈：传统测试时扩展方法（如简单增加并行路径）易造成计算冗余；而传统“N选优”采样需完整生成所有样本，显存开销大且依赖额外奖励模型。可见，如何在提升效率、控制成本的同时，确保模型输出的高可靠性与强泛化能力，已成为当前推理服务优化亟待攻克的核心命题。行业现状与主要挑战

阿里云AI十大技术进展20测试时扩展是指在推理阶段分配额外计算资源以提升模型性能的技术。我们提出了一种经验累积式、多轮迭代的测试时扩展策略。不同于简单增加并行推理路径数量（这往往导致冗余推理）

，我们对并行轨迹数量进行限制并将节省的计算资源用于由“经验提取”机制引导的迭代式自我反思。该机制从过往推理轮次中提炼关键洞见，使模型避免重复推导已知结论，转而聚焦于未解决的不确定性。关键在于，相比直接引用原始推理轨迹，该机制实现了更高的上下文利用效率，在相同上下文窗口内能更充分地融合历史信息。在传统增强模型能力的方法会显著增加内存和时延开销，难以适配边缘设备等低资源场景。全新的ParScale

并行扩展范式，让模型对同一输入进行多路径并行推理并融合结果，实现“多角度思考后综合作答”。该方法无需额外训练，即可在数学推理等任务上获得

34%

的性能提升，同时将内存占用降至传统方法的

1/22，时延增幅降低

倍，让高性能

AI模型也能在手机等边缘设备上流畅运行。大致相同的

token

消耗下，该方法在多个测试基准上优于标准的并行采样与聚合方法。该创新已应用于新一代旗舰模型

Qwen3-Max-Thinking

中，显著提升模型推理性能。我们在推理服务优化领域取得了一系列突破，通过创新算法与工程实践，为大模型的高效部署和应用提供了全新的“工具箱

”。创新01测试时扩展技术，提升模型推理性能创新02并行扩展范式，实现低资源场景高性能推理我们的创新突破图1参数扩展（左上）、推理时间扩展（右上）和并行扩展（下）方法示意推理服务：测试时扩展，智能压缩21重新训练即可即插即用。对于书籍分析、代码库解读等超长文本场景，我们先后在

Qwen2.5、Qwen3

等模型家族中使用了从算法到系统的端到端解决方案：通过

DCA

双分块注意力、YaRN

扩展技术，无需对模型重新训练即可将上下文窗口扩展

倍；结合稀疏注意力机制与内核优化等措施，使预填充速度提升

倍。实测结果表明，Qwen2.5-14B-Instruct-1M

模型在处理

100

万

tokens

的超长文本时，耗时从

12.2

分钟压缩至

109

秒，提速

倍，并支持

倍长的上下文，攻克了超长文本处理的规模化应用难题。针对长文本推理中的内存膨胀和长序列处理难题，我们倾力打造全栈优化方案，实现内存与效率的平衡。KV

缓存是长文本推理的关键内存瓶颈，传统量化对

Key

和

Value

同等对待易导致性能损失。AsymKV

不对称量化方案精准区分两者作用，对精度敏感的

Key

轻量压缩，对冗余度高的

Value深度压缩，可将大部分

缓存以

比特存储，大幅降低内存占用的同时保持性能无损，且无需视觉标记导致速度缓慢。我们研发的

mPLUG-DocOwl2，创新地引入了高分辨率文档压缩器。它能像人眼一样，先快速浏览页面全局布局，再聚焦关键细节，将每页文档的视觉标记从数千个压缩至仅

324

个。这一技术使文档理解任务在性能领先的同时，资源消耗降低

80%，首词响应延迟减少

50%

以上。针对文档理解、视频生成等特定场景的推理低效问题，我们研发了专属压缩与缓存方案，实现了场景化任务的效率飞跃。传统模型处理高分辨率文档时，会生成海量创新03差异化量化与长文本优化，攻克内存与长序列瓶颈创新04智能压缩与缓存技术，降低场景化推理开销图2Qwen2.5-7B-Instruct-1M、Qwen2.5-14B-Instruct-1M、Qwen2.5-Turbo三款模型在H20上使用传统全注意力方式和端到端系统调优方案的TTFT（首词生成时间）性能对比

阿里云AI十大技术进展22图4视频扩散模型的“生成质量—延迟”对比新方法TeaCache与现有主流方法PAB（PyramidAttention

Broadcast，业内首个实时输出的基于

DiT

的视频生成方法）在视频生成任务中的性能差异：基于

Latte模型，实验条件为在单个A800

GPU上，生成16帧、512×512分辨率的视频。4个子图的横轴均为延迟（Latency，单位：秒），纵轴是不同的视觉质量指标（数值越高，视频质量越好），从左到右依次为：VBench（视频质量评估指标）、1-LPIPS（图像相似度指标）、SSIM（结构相似性指标）和PSNR（峰值信噪比指标）。结果表明，TeaCache在视觉质量和运行效率两方面均显著优于PAB。而在大模型生成视频时，

通常需要逐帧“去噪”，过程极其耗时。TeaCache

技术聪明地发现了生成过程中的“冗余步骤”，它通过时间步感知缓存机制，能动态预测并跳过那些计算结果相似的步骤，直接复用缓存。此项技术无需重新训练模型，即可在主流视频模型上实现

4.41

倍的推理加速，且画质损失微乎其微（仅

0.07%），让高质量视频的实时生成成为可能。该技术已应用于美图客户实际场景应用，推动视频生成速度提升

倍，成本降低

70%。图3mPLUG-DocOwl2模型在多页文档理解任务中的能力表现（a）与其他模型的首token延迟随图像数量变化的对比；（b）带证据的细节内容回答；（c）文档结构解析推理服务：测试时扩展，智能压缩23径并截断其他，

使

GPU

显存占用降低

80%

以上，推理延迟减少

50%，在相同计算成本下可将准确率提升

3-4

个百分点。此外，还推出了淘汰赛与联赛两种仅需黑箱模型的两阶段算法。通过生成候选答案并让其进行多轮对比竞争（淘汰赛）或计算平均胜率（联赛），在模型能以非零概率生成正确答案且对比判断优于随机猜测的合理假设下，理论上可证明其错误率随计算资源增加而指数级下降趋近于零。该方法无需任何额外工具（如验证器或奖励模型）

，即可在高要求场景中实现可靠性的显著提升。针对传统

Best-of-N

采样资源消耗大、依赖奖励模型的瓶颈，我们提出了两类轻量、高性价比的采样筛选算法，实现准确率与推理效率的双重提升。自截断

选优（ST-BoN）采用“早预判、早放弃”策略，无需生成完整

个答案，也无需奖励模型。该方法通过分析模型生成早期的内部隐藏状态一致性，在缓冲窗口内多轮评估，快速锁定最优路图5

自截断N选优（ST-BoN）的流水线与案例示意●步骤1：首先让大模型按照自回归方式生成N个采样，直至“最早评估时刻c”；在本案例中，N=5，c=20；●步骤2：每个采样在时刻c后继续生成

τ步；在此过程中，大模型进行自我评估，从N个采样中确定最具潜力的样本，通过累计

τ+1次自我评估识别出最佳样本；在本案例中，

τ=20；●步骤3：截断剩余的N-1个样本，仅继续生成评估最优的那个样本。创新05高效采样筛选技术，兼顾推理的准确率与效率

阿里云AI十大技术进展24我们在推理服务领域的系列突破，从测试时扩展

技术实现推理性能跃升，到并行扩展范式释放低

资源潜力，再到长文本与内存瓶颈的精准攻克、

场景化智能压缩优化，以及高效率采样决策，

精准命中了当前大模型商用化的核心障碍——成

本、速度、可靠性与场景局限。它们不仅证明了

在保持甚至提升模型性能的前提下，实现效率的

大幅提升是完全可能的，更通过坚实的理论证明

为关键应用提供了可靠性保障。参考文献这些成果标志着大模型优化正从传统的“一刀切”式压缩，走向更精细、更智能、更普适且可证明的新阶段。展望未来，随着这些优化技术通过模型开源、阿里云产品集成等方式与业界共享，越来越多的企业将能够以可负担的成本，在云端、在终端、在各类高要求场景中，可靠地部署和运行高性能大模型。这正在推动大模型真正转变为驱动千行百业智能升级的、既高效又可信的核心引擎，加速

普惠时代的到来。●

ParallelScalingLawforLanguageModels●

AsymKV:Enabling1-BitQuantizationofKV

Cachewith

Layer-WiseAsymmetricQuantization

Configurations●

Qwen3TechnicalReport●

Qwen2.5-1MTechnicalReport●

mPLUG-DocOwl2:High-resolutionCompressingforOCR-freeMultiDocument

Understanding●

TimestepEmbeddingTells:It'sTimetoCacheforVideoDiffusionModel●

Sampling-EfficientTest-TimeScaling:Self-EstimatingtheBest-of-NSamplinginEarlyDecoding●

ProvableScalingLawsfortheTest-TimeComputeofLargeLanguageModels●

BridgingEdgeandCloud:AKnowledge-EnhancedFrameworkforEfficientTimeSeriesAnomalyDetection总结与展望推理服务：测试时扩展，智能压缩2505内生安全：神经元级调控，可解释可评估安全对齐与幻觉抑制是大模型从实验室走向关键业务场景的“信任通行证”。2025年，我们不再满

足于外挂式的简单过滤，而是深入模型机理构建了内生免疫系统：我们从神经元层面实现了对模型人

格与安全机制的精准调控；发布了支持119

种语言的Qwen3Guard动态安全护栏，首次引入“三分类”机制以打破二元对立的僵化审核；通过STAIR框架赋予了模型“三思而后行”的内省推理能力；并针

对多模态特有的视觉越狱与注意力幻觉构建了攻防闭环。这些突破构筑了从底层机理、实时护栏到应

用评估的全栈安全体系，为构建高鲁棒、高可信的智能体奠定了坚实基础。26安全对齐旨在确保模型的输出符合人类价值观，不产生偏见、歧视或有害内容；而幻觉抑制则致力于解决模型生成内容与事实不符的问题，确保信息的准确性与可追溯性。这两者共同构成了“可信人工智能”的基础。在金融风控、医疗诊断及法律咨询等高敏感场景中，模型的安全性与

人人文库> 全部分类> 办公材料 > 办公文档

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

阿里云AI十大技术进展-

文档简介

温馨提示

最新文档

评论

阿里云AI十大技术进展-

文档简介

温馨提示

最新文档

评论

相关文档