阿里云AI十大技术进展_第1页
阿里云AI十大技术进展_第2页
阿里云AI十大技术进展_第3页
阿里云AI十大技术进展_第4页
阿里云AI十大技术进展_第5页
已阅读5页,还剩67页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

序言Preface迈向智能时代的系统工程创新当人工智能的浪潮从实验室涌向各行各业深处,我们清晰地看到,一场深刻的创新链重构正在发生:竞争的核心,正从单一模型的性能竞赛,转向覆盖芯片、框架、模型、平台乃至应用的全栈系统工程能力比拼。这不仅是技术的演进,更是产业逻辑的IAI这份报告的价值,不仅在于记录了一系列扎实的技术里程碑,更在于它提供了一个观察中国科技企业如何以系统工程思维,攻坚新一代AI鲜活样本。当前,全球人工智能发展进入深水区,面临效率瓶颈、路径分歧、成本压力与场景落地等多重复杂挑战的交汇。破解这些难题,不仅需要单元的优化,而且需要从底层基础设施到上层应用范式的协同创新。报告所展现的从数据驱动的基础设施优化、革激发自主能力的智能体框架,勾勒出一条清晰的技术演进路径:通过系统性的工程整合,途径完善和技术优化,才能将简单、经济和可靠的能力赋予千行百业。这种系统工程思维,体现了领先企业从提供工具到构建生态、从追求峰值性能到保障规模可用性的战略视野和战术攀登,这正是推动I从可行性验证迈向规模化应用的关键支撑。尤为值得称道的是,这份报告中的系统创新始终伴随着鲜明的普惠导向与开放胸怀。通过开源顶尖模型、优化基础设施效能、降低推理服务成本,阿里

云实质性地降低了AI技术的获取与应用门槛。千问系列大模型全球累计下载量突破10亿次、衍生模型超20万个,这组数据背后,是一个由全球开发者共同参与的创新生态正在茁壮成长,意味着前沿技术得以在最广泛的场景中接受检验、迭代和再创造。这不仅是商业策略,更是对技术向善、赋能百业这一价值理念的深刻践行——让算力、算法与数据成为驱动人类进步的普遍动能。展望前方,通向通用人工智能(G的道路依然这份报告让我们确信,中国的人工智能产业已经具备了在核心赛道进行系统性创新、并以此赋能实体经济与社会发展的强大实力。期待以阿里云为代表的中国科技企业,能继续秉持这种系统攻坚的定力与普惠开放的初心,在探索技术前沿的同时,更致力于让技术创新扎根于中国乃至全球浩瀚的行业土壤,解决真实世界的复杂问题。历史将再一次证明,真正伟大的技术突破,不仅闪耀于论文与榜单,更生长于推动产业升级、促进社会发展、增进人类福祉的广阔实践之中。这份报告所记载的,正是迈向这一目标的坚实足迹。202612025年,人工智能正从技术突破走向产业变革。这一年,多模态技术走向成熟,超长上下文成为模型标配,开源与闭源模型在能力上持续竞逐,而智能体(Agent)框架的兴起,正推动AI从被动工具向主动协作伙伴演进。过去一年,阿里云深耕AI核心领域,多项研究成果发表于NeurIPS、ACL、CVPR、ICML、SIGMOD、VLDB、SIGCOMM等全球顶级学术会议及期刊,涵盖模型架构、基础设施、安全可控、多模态交

互等关键方向。我们从这些前沿研究中梳理核心突破,凝练出10个具有代表性的技术方向,形成本报告,旨在分享AI技术创新实践,为深度使用AI技术提供参考。这些前沿突破,不仅是对AI技术边界的持续拓展,更是对智能普惠这一终极命题的系统性回应,共同勾勒出一条清晰的演进路径:让AI更高效、更可靠、更易用、更普惠。架构革新能力跃升,夯实全栈突破根基模型架构作为AI的“大脑结构”,是所有大模型的核心基石与能力原点。通过在注意力机制、稀疏化架构等底层技术方向上的持续革新,我们不断突破模型处理长上下文、融合多模态信息的能力上限。这些架构层面的进步,为后续模型训练的效率革命、推理服务的极致优化、安全与对齐机制的精准构建、以及多模态与智能体能力的跃升,提供了坚实且先进的底层支撑,是整个技术栈协同演进的核心驱动力。训推提速效率倍增,筑牢AI普惠基石以高效经济的云化基础设施为依托,叠加后训练阶段的过程级监督与自适应优化技术,搭配测试时扩展与智能压缩的推理优化方案,我们重构AI面,通过高精度训练模拟器、智能化数据治理与Token研发与部署的资源消耗显著降低,使前沿IAI

安全可信严守指令,打通实用关键通路与联合优化的指令遵循技术,我们打通了I全感融合智绘万物,拓展感知创造边界通过多模态统一架构与长序列处理技术的创新,AI可控的生成技术体系,我们赋予AI度情感感知,I突破了单一模态的认知局限,3D时语音合成,AI掌握了全模态内容的专业级创AI抽丝剥茧准确执行,完成工具伙伴蜕变AI执行的范式转变。检索增强技术的创新,使AIAI

这些突破不是孤立的技术点,而是相互支撑、层层递进的有机整体:架构革新奠定了全链路技术升级的底层基础,基础设施与推理优化提供了经济可行性,安全与指令对齐确保了可控可信,多模态能力拓展了感知与创造边界,检索增强与智能体技术则实现了从能力到应用的落地闭环。当我们系统梳理过去一年的技术突破时,可以清晰地看到,AI技术正在完成一次深刻的质变:从追求参数规模的竞争,转向追求效率、可靠性与普惠性的价值竞争。而这,正是通向真正的通用人工智能与智能社会的必由之路。目录Contents专业度进化0101注意力重塑, P0102提升算力效能, P0703过程级监督, 智能压缩05 可解释可评估06 联合优化07跨模态统一 08 09检索增强主动探索, 10自主规划, 自适应优化04测试时扩展,感知,长序列高效处理细粒度控制体系创新趋势二趋势二模型架构:注意力重塑,专业度进化2025显著缓解了长序列处理中的注意力沉没与计算效率问题;在稀疏化架构方面,提出全局批次负载平衡MoE模型中专家的深度专业化潜力。这些基于模型底层逻辑的创新,为大模型在长文档分析、复杂任务处理和多模态交互等业务场景的深度应用奠定了坚实可靠的技术基石。阿里云AI十大技术进展行业现状与主要挑战架构是模型处理和理解信息的“大脑结构”,它定义了模型如何组织计算单元、处理信息流以及从数据中提炼知识。一个高效、鲁棒的架构是模型实现强大推理、生成和泛化能力的根本,直接AI亿乃至万亿参数时代,单纯的规模扩张已遭遇边际效益递减,全球顶尖科技公司与研究机构正将投入重点转向对“架构效率”的深层次革新,旨在用更加精巧的设计释放出更加强大的智能。当前,业界在模型架构创新上的探索呈现多元化且深入的格局,主要聚焦于如下方向:注意力机制革新,包括长序列注意力优化(如(如分组注意力、头剪枝)等,核心是解决长文本处理中的信息衰减与计算冗余问题。稀疏化架构优化,以混合专家模型(MoE)及其变体为代表,通过“专家分工”在不显著增加计算成本的前提下扩大模型规模,同时探索动态路由、专家激活策略等优化方向。多模态统一架构探索,追求文本、图像、音频等模态的深度对齐与协同,避免“单模态强、多模态弱”的偏科现象。

当前,这些前沿探索面临着深刻而本质的科学与工程挑战:注意力机制受限于长序列处理瓶颈,随着文本长度增加,计算复杂度呈平方级增长,且易出现信息衰减与“注意力沉没(指模型会不自觉地、过度地将注意力资源分配给序列开头的几个词,这导致模型容易忽略后面真正关键的信息,是影响长文本理解的核心缺陷)”等问题。在稀疏化架构中,如何平衡专家负载均衡与领域专精是核心难题,过度追求局部负载均匀会导致专家“全而不专”,而放任稀疏则可能引发训练不稳定与资源浪费。多模态架构中,不同模态的语义鸿沟与数据分布差异难以完全消除,实现模态对齐的同时往往会牺牲单模态性能。此外,在更宏观的层面,架构的可解释性与可控性仍是一个“黑箱”:我们难以精确知晓模型内部的哪些结构单元负责哪项特定的能力,这使得针对性地增强模型某一项能力变得异常困难,往往需要代价高昂的全参数微调或效果粗糙的全局干预。2我们的创新突破创新门控注意力机制,重构模型信息筛选逻辑Transforer能够动态衡量并聚焦于输入序列中的重要部分,是理解与生成的关键。然而,传统注意力在长序度关注序列开头,导致后续关键信息被忽略,严重制约了长文本理解能力。》提出了一项关键改进:在标准注意力的d2的额外计算成本,带来多方面的显著

模型架构:注意力重塑,专业度进化其核心价值在于同时缓解了三大痛点:第一,有效抑制了“注意力沉没”现象。传统模型平均将46.7%的注意力浪费在序列开头,而门控机制通过动态稀疏性,将该比例降至4.8%,迫使模型公平、精细地处理序列中每一个有效信息。第二,从原理上增强了模型的表达能力。注意力模块中的两层线性变换存在表达瓶颈,门控的加入打破了这一限制,让模型能够学习更复杂的特征映射。第三,提升了训练稳定性与扩展性。该机制能抑制训练中异常的数值激活,允许使用更大的学习率,使超大规模模型的训练过程更加平稳可靠。实验证明,采用门控注意力的模型在长上下文外27即可更好地处理超长文本,这为长文档分析、代码仓库级编程等场景提供了强大支撑。此项创新Qwen3-ext等新一代旗舰模型的核心技术,助力其在保持高效部署特性的同时,实现更优异的长序列处理性能。图1模型“注意力”得分和训练损失对比token(上5token46.7%token(下4.8%token,“BAte在Ts阿里云AI十大技术进展创新 线性注意力机制,突破长序列计算效率瓶颈随着应用场景对长文本处理需求的增长,传统注意力机制计算复杂度随序列长度呈平方增长的问题日益突出,成为制约模型高效处理长序列的关键瓶颈。Qwen3-ext模型中成功应用并优化了线性注意力机制。该机制的核心在于,通过巧妙的数学分解,将注意力计算中查询(Quer与键(Key)的交互复杂度从二次方降低到线性,从而实现了在超长序列场景下内存占用和计算时间的显著下降。这一改进并非以牺牲精度为代价,通过引入可学习的门控机制与归一化策略,线性注意力在保持模型核心表达能力的同时,大幅提升了长上下文处理的效率。此项创新使得模型能够以更低的计算成本支持更长的上下文窗口,为需要处理超长文档、进行长程对话或复杂代码分析的场景提供了实用的解决方案。它代表了我们在追求模型“更高效”架构方向上的重要实践,确保了强大能力与落地可行性之间的平衡。

创新 全局批次负载平衡,释放MoE模型专精潜力混合专家模型作为一种稀疏化架构,通过路由机制激活部分参数(专家)处理不同输入,能在不显著增加计算成本下扩展模型容量。然而,传统方法通常在“微批次”级别强制专家负载均衡,这严重限制了路由器的调度灵活性,导致专家“泛而不精”,难以形成深度专业知识。我们的创新在于,将负载平衡损失的计算尺度从“微批次”扩展到“全局批次”。新策略着眼于在海量、多样化的全局训练数据分布上,各专家的总体工作量保持均衡,而不再苛求每一个微小、同质的数据片段内的平均分配。这一调整显著增强了路由器根据任务类型进行动态调度的能力。结果发现,模型自发涌现出清晰的专家专业化分工。这种内生性的专业化,使得模型在同等规模下获得了显著更强的任务处理能力与知识深度。该优化思路已同样应用于Qwen3-Next等模型设计中,助力模型在扩展容量的同时保持高效与实用。图2“均衡批次”对模型性能和专家专业化的影响为模型性能比较。其中,蓝色为微批次均衡,绿色为全局批次均衡;上图为困惑度对比,数值越低模型效果越好;下图为基准测试对比,数值越高模型性能越好;结果表明全局批次均衡相比微批次均衡,在降低困惑度和提升模型任务性能方面均表现更加优秀。((左(右(包括SFT-Code、SF-ath、EN-Liteatu“专家的选择频率,结果表明全局批次均衡的专家在不同领域选取频率差异显著,能有效促进专家专业化。模型架构:注意力重塑,专业度进化5除上述三大创新外,模型架构创新还是提升模型安全可控性与多模态协同能力的重要技术路径。在安全机制层面,我们通过对注意力头与安全能力关联的深度探索,实现了模型安全机制的解密与精准优化;在多模态领域,通过“Thinker-Hyper超注意力模块等5

创新设计,有效推动了跨模态理解与生成能力的跃升。相关具体技术细节与突破成果,详见“内生安全:神经元级调控,可解释可评估”、“多模态理解:跨模态统一感知,长序列高效处理”章节内容。阿里云AI十大技术进展总结与展望模型架构层面的系列突破,其重要价值在于推动大模型从依赖数据规模和算力堆砌的规模竞争,迈向依托核心设计创新的效率与能力竞争新阶段。门控注意力与线性注意力机制从不同角度提升了模型处理长序列信息的质量与效率,使得自动化分析长文档、长代码成为更可靠的现实。对MoE负载平衡策略的优化,则使我们能够更好地激发模型的内生专业化潜力。这些进步共同为构建更高效、更专业的模型提供了核心技术支撑。更专业、更透明、更统一”的方向演进。更高效参考文献

AI本优化与性能提升;具备内生专业化分工的模型有望成为垂直领域的强大工具;对架构微观机理的深入理解,将增强模型的可解释性与可控性;而对多模态统一架构的持续探索,则是实现无缝人机交互的关键。对模型“大脑结构”的持续精GatedttentionorLargeLanguageModels:Non-linearit,Sparsit,andttention-Sink-FeeDemonsintheDetail:OnImplementingLoadBalancingLossorainingSpecializedMixtue-of-ExpertModelsOntheoleofttentionHeadsinLargeLanguageModelSaetyQwen3echnicaleportmPUG-Owl3:oadsLongImage-SequenceUnderstandinginMulti-ModalLargeLanguageModelsan:OpenandAdancedLarge-ScaleVideoGeneatieModelsQwen-imagetechnicalreportMIMO:ControllableCharacterVideoSynthesiswithSpatialDecomposedModelingAniGS:AnimatableGaussianatarfomaSingleImagewithInconsistentGaussianeconstructionACE++:Instruction-BasedImageCreationandEditingviaContext-AwareContentFillingACE:All-roundCreatorandEditorFollowingInstructionsviaDiffusionTransformerQwen3-OmniechnicaleportEgVid-5M:ALarge-ScaleVideo-ActionatasetorEgocentricVideosGeneation趋势二趋势二基础设施:AI基础设施是大模型从研发到落地的基石,直接决定AI的研发效率与服务成本。针对大模型训练验证成本高、数据质量与多样性不足、推理资源利用率低、数据与模型协同不畅等关键行业痛点,我们聚焦训练模拟优化、数据评估与增强、数据—模型协同开发、智能推理调度四大技术方向,通过一系AI基础设施体系,为AI阿里云AI十大技术进展行业现状与主要挑战推理服务系统设计,研究如何基于微服务、容ServerlessAIAI部潜能、实现普惠化的关键所在。AI用仍面临显著挑战:8推理服务系统设计,研究如何基于微服务、容ServerlessAIAI部潜能、实现普惠化的关键所在。AI用仍面临显著挑战:8AI施领域的探索,正紧密围绕云的能力展开,主要聚焦于:高效能计算,利用云的弹性资源池与集群调度能力,结合新型芯片架构,提升训练能效。数据工程体系化,依托云的大规模存储与数据处理服务,通过数据筛选、合成与增强技术,破解高质量数据稀缺的难题。

训练验证成本高企:大模型训练动辄需调动成千上万的云上GPU,致使任何新算法或硬件架构的实地验证成本极高、风险巨大,严重拖慢创新迭代周期。数据效用难以评估:数据质量、多样性与模型性能间的关系仍不透明,缺乏科学、可量化的云上数据筛选与评估标准,导致存储与计算资源投入效率低下。开发流程协同困难:云上数据处理、模型训练与评估等环节往往由不同团队负责,工具链与工作流割裂,形成“云上孤岛”,阻碍端到端协同调优。推理资源利用率低:模型服务存在长尾请求与突发流量并存的常态,传统静态资源分配模式难GPU我们的创新突破

基础设施:提升算力效能,提高数据质量创新 02 创新 高精度训练模拟器,让架01 大模型训练动辄消耗数万GPU·日,任何新硬件选型或参数调优的实地测试都成本惊人。为此,I于,并非简单理论估算,而是通过“劫持”主流训练框架,在单机环境下高保真地模拟出分布式训练中计算和通信操作的真实负载。I了详尽的GPU了通信库来模拟真实的网络拓扑与流量。实验表明,其模拟结果与真实训练结果的平均对齐度高。这一工具已用于指导阿里云新一代I服务器的设计,例如精准评估了不同网络带宽配置对GPU的同时实现了成本最优,将硬件决策从经验驱动

高质量数据是模型性能的基石。我们在数据源头和预处理环节取得了两项关键进展。其一是DataMan数据管理器。通过分析海量文本,让大模型自己总结出影响其学习效果的14(如准确性、连贯性、语义密度等。DataMan像智能质检员一样,为预训练数据自动打上质量与领域标签。使用它筛选出的高质量数据训练模型,仅用60%的数据量就能达到甚至超过用全量数据训练的效果,实现了高效学习。其二是MMEvol多模态指令进化框架。它解决了多模态训练数据复杂度和多样性不足的痛点。该框架能对原始的图像—文本指令进行自动升级,通过增加对画面细节的追问、延伸推理链条、变换提问形式等方式,显著提升数据的多样性。用进化后的数据训练模型,能在多个评测中平均提升3%以上的性能,实现了数据效用与模型能力的同步跃升。图1DataMan模型工作流程149阿里云AI十大技术进展创新 传统上,数据清洗和模型训练是两个独立的团队和流程,协同效率低。我们推出了

最有产,最终帮助模型在权威评测中达到顶尖水平。通过系统化探测、多维度分析和数据扩展优化,实现数据与模型的高效协同,进而提升模型的训练效果:通过系统化探测、多维度分析和数据扩展优化,实现数据与模型的高效协同,进而提升模型的训练效果:探测阶段:将初始数据池划分为若干个数据集,用于测试单个数据操作或多个数据操作组合对模型指标的影响。分析阶段:包括重要性分析、相关性分析、重复性分析、多样性分析。优化阶段:选出最佳操作组合,通过数据扩展生成更优数据集,提升模型性能。10图2Data-Juicer沙盒“探测—分析—优化”工作流示意基础设施:提升算力效能,提高数据质量创新 极大化GPU资源利用率在模型部署与服务阶段,如何应对不同模型冷热不均的访问流量是行业难题。现有方案无法在保证响应速度的同时高效利用GPU。针对此,我们Aegaeon心创新在于实现了“token粒度”的自动扩缩容。传统系统按整个请求(可能生成数百个来调度资源,容易阻塞。AegaeonGPU在为token

一个模型的请求,实现了极细粒度的资源时分复用。配合其高效的组件复用与内存管理技术,将/卸载的开销降低了97%。这使得单张GPU能够同时流畅服务多达7GPU3448%。在阿里云模型平台的内部部署中,已成功将服务集GPU82%,实现了降本增效的巨大飞跃。目前,该系统已应用于大模型服务平台百炼,为海量客户提供高效、经济的模型服务调度支持。1111图3应用Aegaeon前后GPU利用率对比Before(lowBefore(highGPUAegaeonGPU,AegaeonGPU13.3%~33.9%。阿里云AI十大技术进展总结与展望AIAI能突破和规模化产业应用扫除了障碍。高精度模AI创新门槛与试错成本,加速硬件的迭代。智能数据管理让中小企业也能以可负担的成本获取高质量训练数据,缓解了数据焦虑。协同开发沙盒则使模型研发从依赖人工经验的分散式作业走向标准化、可复现的工程化流程,提升了复杂多模态AI务系统,直接让云上模型服务的成本大幅下降,使得同时部署和使用百模、千模成为经济可行的现实,真正激活了模型生态。参考文献

这些突破将深刻影响具体业务场景:在科研领域,研究者可以更低成本验证天马行空的想法;在产业界,各行业能够更快速、更经济地开发专属的行业大模型;在消费互联网,用户将能体验到更丰富、更迅捷且个性化的AI服务。从更广阔的视角看,通过让算力更高效、数据更智能、开发更简单、服务更经济,我们正在构建一个更具韧性和包容性的AI技术生态。这不仅推动了人工智能技术本身的发展,也为千行百业的智能化升级提供了坚实、高效且易于获取的基础支撑。:gendegreeelghydDataMan:DataManagerforPre-trainingLargeLanguageModelsMMEol:EmpoweringMultimodalLargeLanguageModelswithEol-Instructata-JuicerSandbx:AFeedback-DrienSuiteorMultimodalata-ModelCo-deelopmentAegaeon:EffectiveGPUPoolingforConcurrentLLMServingontheMarketSelf-playwithExecutionFeedback:ImprovingInstruction-followingCapabilitiesofLargeLanguageModelsBenchmarkingMultimodaletriealAugmentedGeneationwithDynamicAatasetandSef-adaptiePlanningAgentebShaper:AgenticalyataynthesizingviaInormation-SeekingFormalizationIOPO:EmpoweringLLMswithComplexInstructionFollowingviaInput-OutputPreferenceOptimizationAutomaticDatabaseConfigurationDebuggingusingRetrieval-AugmentedLanguageModelsPRICE:APetainedModelorCoss-atabaseCadinalityEstimationKnowledgeGaphFinetuningEnhancesKnowledgeManipulationinLargeLanguageModelsPoyMath:EaluatingMathematicaleasoninginMultilingualContextsDeepSolution:BoostingComplexEngineeringSolutionDesignviaTree-basedExplorationandBi-pointThinkingLSMGaph:AHigh-PerormanceDynamicGaphStoageystemwithMulti-leelCSRDbcopilot:NatuallanguagequeryingermassiedatabasesviaschemaoutingUnlockingthePotentialofCXLorDisaggegatedMemoryinCloud-Natieatabases趋势二趋势二后训练:过程级监督,自适应优化MoE论与工程基础。阿里云AI十大技术进展行业现状与主要挑战习来缓解高质量标注数据的匮乏,同时寻找更高效的梯度更新策略以降低训练成本。14后训练是连接预训练模型与最终用户价值的桥梁,涵盖监督微调(SFT)、强化学习(RL)及偏好优化(DPO)等核心环节。它旨在解决预训练模型“懂知识”但“缺乏判断力”的问题,通习来缓解高质量标注数据的匮乏,同时寻找更高效的梯度更新策略以降低训练成本。14反馈机制的精细化:从粗糙的整段回复评分向细粒度的过程监督演进,试图解决复杂数学与代码任务中的逻辑断层问题。优化算法的稳定性探索:针对PPO(近端策略优化)在大规模模型上极易发散的难题,业界正DPO数据与计算的高效化:利用合成数据与课程学

然而,相关探索方向仍面临严峻挑战:“结果正确,过程错误”的推理幻觉:现有方答案”而非真正的逻辑推导,在长链条推理中极易出错。MoE架构下的训练坍塌:随着模型架构转向混token家路由策略失效,引发严重的训练不稳定性与模型退化。优化策略的僵化:现有的“硬截断”机制在处理不同质量的样本时缺乏弹性,往往在保留有效信号与防止模型跑偏之间顾此失彼,导致样本利用率低下。我们的创新突破

21创新 过程级价值评估,重构复杂推理的严谨性

的跨越。创新 推理隐患,我们革新了评估方式,提出了基于细我们证实了仅仅增加数据量无法解决逻辑错误,必须引入针对中间步骤的监督信号。进一步地,实验显示,通过引入过程级价值评估,模型在处其能够精准定位并修正推理链条中的微小逻辑偏基准测试在提升大规模模型RL效率的探索中,我们基于Beyondthe80/20Ruletoken20%的高熵关键节点——即模型决策时的不确定性点——驱动了有效的强化学习。基于此,我们提仅针对推理路径中信息量最大的关键tokenQwen-Reasoner方法在保持甚至超越全量训练效果的前提下,将训练计算开销降低了数倍,并显著提升了模型在长链条推理中的逻辑连贯性与收敛速度。图1高熵tokens示意图及其与全量token训练的效果对比tokentokentokenRLVR20k的设置下,我们的32B模型在参数量小于600B的基础模型中,通过RVR创造了新的最优成绩AM'24上63.5分,AIME'25上567分)。将最大29k,AIME'24阿里云AI十大技术进展创新 组序列策略优化,确立MoE

创新 指导与自我探索的统一针对混合专家模型(MoE)在强化学习中极易出现的路由坍塌问题,我们提出了组序列策略优化GroupSequencePolicy算法。PPOtoken种微观噪声会导致MoE模型的专家网络频繁切换与震荡。GSPO的创新在于将优化的颗粒度从“token度来定义重要性比率,并采用组内相对优势进行归一化。这相当于让模型在“宏观层面”评估整个回答的质量,而非纠结于单个词的得失,从而屏蔽了局部噪声对专家路由的干扰。实验证明,GSPO有效缓解了MoE模型的训练稳定性问题,无需复杂的辅助损失函数即可实现平稳收敛。

之间找到最优平衡?我们提出了动态权重协同框SFTRLCHORDSFT“策略外专家”指引,并引入动态权重机制。该机制能根据模型当前的策略分布与专家分布的差异,实时调整两者在损失函数中的占比:当模型迷茫时,增加专家权重的指引;当模型确信时,RL环境中自由探索。这有效防止了模型在强化学习中发生“灾难性遗忘”,同时也避免了因过度模仿专家而丧失泛化能力,实现了知识保持与能力进化的完美结合。图2统一了SFT和RL的CHORD框架(蓝色部分),(橙色部分),模型进行SFT动态训练(token跟自己所想非常吻合,那tokentokenSFTRL。设置μSFTRLSFTRL后训练:过程级监督,自适应优化创新 软自适应策略优化,提供数学收敛性保障

创新 片段级长程对齐,赋予智能体社交与规划能力为了解决传统RL算法中“硬截断”带来的样本利用率低下问题,我们提出了软自适应策略优化(SAPO,SoftAdaptivePolicy了一套标准化的训练方式。SAPO引入了平滑的PPO断。这意味着模型能够自适应地从那些偏离策略较远、但仍具价值的样本中提取有效信息,而不是直接丢弃。同时,我们基于一阶近似理论,从token消除了训练中的“黑盒调参”成分。这一组合拳在多模态模型的训练中展现了极高的样本效率,特别是在处理复杂多模态指令时,收敛速度与稳定性均实现了大幅提升。

针对传统单轮对齐算法在多轮交互任务中的短视(Segmen)”,迫使模型学习如何在多轮对话中进行长程规划。同时,结合分布鲁棒性优化,显著降低了模型对训练数据中SOTPIA基准测试中,搭载该技术的智能体展现出了接近人类水平的社交规划能力。它们不仅能够理解复杂的社会规范,还学会了通过策略性的沟通(如谈判、妥协来达成长期目标。这一突破标志着模型已超越基础问答,具备了作为独立智能体在复杂社会环境中交互与合作的高级能力。17阿里云AI十大技术进展总结与展望后训练阶段的技术突破,标志着大模型研发进入了“精细化重塑”的新阶段。如果说预训练赋予了模型广博的知识,那么GSPO、CHORD与SAPO等算法则赋予了模型严密的逻辑、稳定的心智与灵活的策略。我们不仅在理论上证明了大规模强化学习的可行性,更通过高熵稀疏训练与过程监督,在工程上实现了效率与精度的双重飞参考文献

跃。展望未来,后训练将向着“自我演进系统”的方向发展。我们预见,未来的模型将能够在构建的高保真世界模型中进行大规模的自我博弈(Self-Play),通过动态的专家协同与自适应优化,逐步摆脱对人类标注数据的依赖,最终实现从“模仿人类智能”到“探索未至之境”的转变。PocessBench:IdentiyingPocessErorsinMathematicaleasoningBeondthe80/20ule:High-EntoyMinorityoensDrieEfectieeinocementLearningorLLMeasoningGroupSequencePolicyOptimizationOn-PolicyRLMeetsOff-PolicyExperts:HarmonizingSupervisedFine-uningandeinocementLearningviaDynamiceightingSoftAdaptivePolicyOptimizationTheLessonsofDeelopingPocesseadModelsinMathematicaleasoningSDPO:Segment-LeelDiectPeeenceOptimizationorSocialAgentsoadsobustlignmentofLanguageModels:DistributionalyobustiyingDiectPeeenceOptimizationStabilizingeinocementLearningwithLLMs:FormulationandPactices趋势二趋势二推理服务:测试时扩展,智能压缩推理服务优化是解决大模型落地成本高、速度慢、场景受限的关键。我们针对文档、视频、长文本等核心场景,取得一系列创新:测试时扩展技术提升推理深度与准确性;ParScale并行扩展范式实现低资源场景高性能推理;AsymKV等差异化量化与长文本优化解决内存瓶颈;mPLUG-DocOwl2、TeaCacheST-BoNAI阿里云AI十大技术进展行业现状与主要挑战长文本处理优化:专门针对书籍、长文档等超长输入,设计更高效的处理逻辑。可见,如何在提升效率、控制成本的同时,确保模型输出的高可靠性与强泛化能力,已成为当前推理服务优化亟待攻克的核心命题。测试时扩展与采样筛选:通过在推理阶段引入20推理服务优化,是将大模型从实验室推向实际应用的关键一步,核心目标是提升模型部署后的运长文本处理优化:专门针对书籍、长文档等超长输入,设计更高效的处理逻辑。可见,如何在提升效率、控制成本的同时,确保模型输出的高可靠性与强泛化能力,已成为当前推理服务优化亟待攻克的核心命题。测试时扩展与采样筛选:通过在推理阶段引入20当前,业界主要通过如下方法为模型运转“减负提速”:“量化”将模型参数从高精度转为低精度存储,类似把高清图片转成压缩格式;“模型压缩”则资源需求。“缓存优化”会记住之前的中间计算结果,避免重复运算;“稀疏计算”则能智能跳过那些对结果影响微小的计算步骤,提升效率。

多路径、多轮次的计算扩展,或并行生成多个候选答案再筛选最优解的方式(Best-of-N,即“N选优然而,这些方法在实际落地时,依然面临几大棘手难关:保真度与效率难以两全:粗暴的“瘦身”往往通用性方案稀缺:许多加速技巧需针对特定模型“量身定制”,无法复制推广,开发成本高。长文本处理成本高昂:处理数万乃至百万字的内容,算力消耗大,且用于记忆历史的缓存(KVCache)会急速膨胀,成为性能瓶颈。(如简单增加并行路径选优”采样需完整生成所有样本,显存开销大且依赖额外奖励模型。我们的创新突破

推理服务:测试时扩展,智能压缩上优于标准的并行采样与聚合方法。该创新已应创新 测试时扩展技术,提升模型推理性能

创新 并行扩展范式,实现低资源场景高性能推理测试时扩展是指在推理阶段分配额外计算资源以提升模型性能的技术。我们提出了一种经验累积式、多轮迭代的测试时扩展策略。不同于简单增加并行推理路径数量(这往往导致冗余推理),我们对并行轨迹数量进行限制并将节省的计算资思。该机制从过往推理轮次中提炼关键洞见,使

传统增强模型能力的方法会显著增加内存和时延开销,难以适配边缘设备等低资源场景。全新的e6I图1参数扩展(左上)、推理时间扩展(右上)和并行扩展(下)方法示意阿里云AI十大技术进展创新 攻克内存与长序列瓶颈针对长文本推理中的内存膨胀和长序列处理难题,我们倾力打造全栈优化方案,实现内存与效率的平衡。KV缓存是长文本推理的关键内存瓶颈,传统量KeyValue同等对待易导致性能损失。AsymKV不对称量化方案精准区分两者作用,对精度敏感的KeyValueKV1大幅降低内存占用的同时保持性能无损,且无需

重新训练即可即插即用。对于书籍分析、代码库解读等超长文本场景,我们先后在Qwen2.5、Qwen3等模型家族中使用了从算法到系统的端到端解决方案:通过DCA双分块注意力、YaRN扩展技术,无需对模型重新训练即可将上下文窗口扩展4倍;结合稀疏注意力4实测结果表明,Qwen2.5-14B-Instruct-1M100tokens12.210978下文,攻克了超长文本处理的规模化应用难题。图2Qwen2.5-7B-Instruct-1M、Qwen2.5-14B-Instruct-1M、Qwen2.5-Turbo三款模型在TTFT(首词生成时间)性能对比创新 智能压缩与缓存技术,降低场景化推理开销针对文档理解、视频生成等特定场景的推理低效问题,我们研发了专属压缩与缓存方案,实现了场景化任务的效率飞跃。传统模型处理高分辨率文档时,会生成海量

视觉标记导致速度缓慢。我们研发的能像人眼一样,先快速浏览页面全局布局,再聚焦关键细节,将每页文档的视觉标记从数千个压324领先的同时,资源消耗降低80%,首词响应延迟50推理服务:测试时扩展,智能压缩图3mPLUG-DocOwl2模型在多页文档理解任务中的能力表现(a)与其他模型的首token延迟随图像数量变化的对比;(b)带证据的细节内容回答;(c)文档结构解析过程极其耗时。机制,能动态预测并跳过那些计算结果相似的步

1的实时生成成为可能。该技术已应用于美图客户3图4视频扩散模型的“生成质量—延迟”对比新方法eaCache与现有主流方法A(yamidttentionoacast,业内首个实时输出的基于DT的视频生成方法在视频生成任务中的性能差异:基于Latte模型,实验条件为在A800GPU16512×5124(Latency,单位:秒)(数值越高,视频质量越好),从左到右依次为:VBnc(视频质量评估指标)1-LPIP(图像相似度指标)、SSI(结构相似性指标和PSN(峰值信噪比指标。结果表明,aCache在视觉质量和运行效率两方面均显著优。阿里云AI十大技术进展创新高效采样筛选技术,针对传统Best-of-N采样资源消耗大、依赖奖励模型的瓶颈,我们提出了两类轻量、高性价比的采样筛选算法,实现准确率与推理效率的双重提升。N策略,无需生成完整N该方法通过分析模型生成早期的内部隐藏状态一致性,在缓冲窗口内多轮评估,快速锁定最优路

GPU80推理延迟减少50%,在相同计算成本下可将准确3-4此外,还推出了淘汰赛与联赛两种仅需黑箱模型的两阶段算法。通过生成候选答案并让其进行多(淘汰赛(联赛在模型能以非零概率生成正确答案且对比判断优于随机猜测的合理假设下,理论上可证明其错误率随计算资源增加而指数级下降趋近于零。该方法无需任何额外工具(如验证器或奖励模型),即可在高要求场景中实现可靠性的显著提升。5N选优(ST-BoN)的流水线与案例示意1:N,N=5,c=20;2:cτNτ+1τ=20;3:N-1总结与展望我们在推理服务领域的系列突破,从测试时扩展技术实现推理性能跃升,到并行扩展范式释放低资源潜力,再到长文本与内存瓶颈的精准攻克、场景化智能压缩优化,以及高效率采样决策,精准命中了当前大模型商用化的核心障碍——成本、速度、可靠性与场景局限。它们不仅证明了大幅提升是完全可能的,更通过坚实的理论证明为关键应用提供了可靠性保障。参考文献

推理服务:测试时扩展,智能压缩这些成果标志着大模型优化正从传统的“一刀证明的新阶段。展望未来,随着这些优化技术通在终端、在各类高要求场景中,可靠地部署和运行高性能大模型。这正在推动大模型真正转变为驱动千行百业智能升级的、既高效又可信的核心AIaallelScalingLworLanguageModelsAsymKV:Enabling1-BitQuantizationofKVCachewithLayer-WiseAsymmetricQuantizationConfigurationsQwen3echnicaleportQwen2.5-1MechnicaleportmPUG-DocOwl2:High-esolutionCompessingorOCR-feeMultiDocumentUnderstandingimestepEmbeddingells:It'simetoCacheorVideoDiffusionModelSampling-Efficientest-imeScaling:Sef-EstimatingtheBest-of-NSamplinginEaryDecodingProvableScalingLawsfortheTest-TimeComputeofLargeLanguageModelsBridgingEdgeandCloud:AKnowledge-EnhancedFrameworkforEfficientTimeSeriesAnomalyDetectionAIAI内生安全:安全对齐与幻觉抑制是大模型从实验室走向关键业务场景的“信任通行证”。2025年,我们不再满足格119Qwen3Guard机制以打破二元对立的僵化审核;通过SAIR框架赋予了模型“三思而后行”的内省推理能力;并针行业现状与主要挑战

内生安全:神经元级调控,可解释可评估库减少事实性错误,并开发专门的验证器对生成内容进行事后核查。27安全对齐旨在确保模型的输出符合人类价值观,不产生偏见、歧视或有害内容;而幻觉抑制则致力于解决模型生成内容与事实不符的问题,确保库减少事实性错误,并开发专门的验证器对生成内容进行事后核查。27目前,学术界与工业界主要通过以下路径提升模型的可信度:范式,通过构建奖励模型引导模型趋向于安全回AI(LAIF)以降低人工标注成本。红队测试与对抗训练:通过自动化生成攻击性提示词(PromptInjection)来挖掘模型漏洞,并将其加入训练数据中进行防御性微调。检索增强(RAG)与事后修正:利用外部知识

尽管现有技术在一定程度上缓解了安全问题,但在深层机理与复杂场景下仍面临严峻挑战:安全机制的“黑盒”特性:现有的对齐方法主要依赖数据驱动的端到端训练,缺乏对模型内部决策过程的可解释性。这导致难以定位具体的安全漏洞来源,修复过程往往牵一发而动全身。多模态攻击面的非线性扩张:视觉模态的引入破坏了纯文本防御的有效性。图像信息的连续性与高维特征使得基于文本的离散防御策略难以应对基于像素扰动或语义重排的视觉攻击。拒答与可用性的权衡难题:传统的安全模型倾向于采取保守的拒答策略(Over-refusal),致在面对非恶意但敏感的话题时无法提供有效帮助,严重损害了模型的通用性与用户体验。评估的高成本与低时效:依赖模型生成的文本进行人工或自动化评估不仅耗时耗力,且难以满足实时风控的需求,缺乏高效的在线监测手段。阿里云AI十大技术进展我们的创新突破创新基于微观机理的精准操控为了解决安全对齐的可解释性问题,我们在模型内部结构与行为控制之间建立了直接映射关系。我们发现,模型中存在特定的“安全注意力头,它们在处理潜在风

仅移除模型中极小比例的关键安全头,即可导致模型的防御成功率大幅下降;反之,针对性地优化这些参数可显著提升安全性。此外,我们提出种方法将安全治理的粒度从模型级推进到了“神图1通过直接调控“神经元”,直接改变大模型的性格PERSONALITYBENCH对立回答之间这些概率的差异,以识别控制特定人格维度的神经元。右侧图示进一步说明了如何激活与某一特质相关的神经元,同时抑制与对立特质相关的神经元,从而有效地改变模型的人格。内生安全:神经元级调控,可解释可评估创新 动态多维的安全护栏与自动化评估体系新一代多语言安全护栏系统:。该系两个变体,在保证高精度的同时实现了毫秒级的实时拦截。d发者根据业务场景(vs灵

我们构建了l包含数万个测试样本的分层风险分类体系,覆盖动化闭环流程,利用强能力的专家模型生成对抗性测试用例,并引入专门的评估模型进行打分。这不仅大幅降低了评估成本,还提供了一套可量化、可复现的安全水位评价标准,为大模型的迭图2S-Eval整体架构图该图展示了S-Eval(BRP),并结合指令越狱、代码注入等创新STAIR,引入内省推理的安全对齐传统的安全对齐往往训练模型对特定词汇或模式进行机械式拒绝。提出了一种基于思维链的安全推理范式。该架构要求模型在生成最终回复之

分析用户的意图、潜在风险及合规性边界。实验结果显示,引入R攻击与诱导性提问时的鲁棒性显著增强,同时大幅降低了对正常敏感问题的误杀率,实现了安全阿里云AI十大技术进展图3STAIR,让思考从“系统1”走向“系统2”尽管现有的安全对齐方法能够让大语言模型(LLM)直接拒绝明显存在风险的查询,但它们往往无法抵御越狱攻击——这些攻击设法避开了触发拒绝的初始标记。这种本能反应对应于“系统1”思维。通过内省推理来改进安全对齐,鼓励大语言模型在做出拒绝之前,运用具有安全意识的“系统2”思维来仔细审查潜在的风险。创新 多模态视觉安全漏洞的挖掘——重排不一致性在多模态大模型(LMM)领域,我们揭示了一种新型攻击向量:重排不一致性。研究发现,通过将包含有害信息的图像进行分块并随机重排,虽然

人类难以辨识,但模型凭借强大的视觉整合能力仍能理解其语义。然而,这种结构上的破坏会导致模型的视觉安全对齐机制失效,从而绕过防御LMM在视觉语义理解与安全防御之间的脱节,为多模态安全防御体系图4通过图像块重排攻击的示意图接着,我们获取多模态大语言模型的相应回复,并利用裁判模型来判别其毒性。如果回复仍然是安全的,我们将重复上述步骤,直到越狱攻击成功或达到最大查询优化迭代次数,最后返回具有最高毒性评分的有害指令。内生安全:神经元级调控,可解释可评估创新 动态检测与对比解码消除幻觉针对多模态幻觉问题,我们从攻防两端进行了深inthe”在幻觉生成中的关键作用,通过微小扰

动即可诱导模型忽略真实视觉输入而产生特定幻觉。在防御侧,我们提出了多模型对比解码策略引入能力存在差异的模型进行对比,利用二者在事实性预测上的概率分布差异来识别并抑制幻觉图5通过对比解码,可以显著降低幻觉并提升置信度(a)(GreedyDecoding),(India),从而导致了幻觉,生成了错误信息。(b)(ContrastiveDecoding),(Canada),但置信度较低。(c)(Multi-ModelContrastiveDecoding),(Canada),且具有更高的置信度。创新 高效的隐空间自评估为了解决模型实时自我评估的高延迟问题,我们技术。不同于传统的基于文本生成的自我反思,模型推理过程中的潜在空间嵌入轨迹进行分析。

研究表明,模型在推理正确与错误时的内部状态轨迹存在显著的几何差异。利用这一特征,CoE能够在不生成任何额外文本的情况下,通过简单的解码器实现对输出正确性的毫秒级预判。这为高并发场景下的实时风险监控与置信度评估提供了一种极低资源消耗的解决方案。阿里云AI十大技术进展总结与展望我们在大模型安全与幻觉领域的系列研究,通过深入的机理剖析与架构创新,构建了一套从“神用级攻防评估”的完整技术闭环。这些突破不仅证明了通过白盒化手段提升模型安全上限的可行参考文献

性,更为应对多模态时代复杂的安全挑战提供了坚实的理论与技术支撑。展望未来,随着可解释性对齐与动态推理防御技术的进一步融合,我们将能够构建出具备更高自主判断力、更强抗干扰能力且行为可控的下一代可信智能体。OntheoleofttentionHeadsinLargeLanguageModelSaetyNeuonbasedPersonalityaitInductioninLargeLanguageModelsQwen3Guard_Technical_ReportS-Eval:AutomatedandComprehensiveSafetyEvaluationforLargeLanguageModelsSAIR:ImpvingSaetylignmentwithIntospectieeasoningJailbeakingMultimodalLargeLanguageModelsviaShuffleInconsistencyMiageintheEes:HallucinationttackonMulti-modalLargeLanguageModelswithOnyttentionSinkLatentSpaceChain-of-EmbeddingEnablesOutput-freeLLMSelf-EvaluationlleviatingHallucinationsinLargeLanguageModelsthoughMulti-ModelContastieDecodingandDynamicHallucinationDetection指令遵循:自我博弈,联合优化指令遵循与对齐机制是大语言模型从“预训练知识库”转化为“可靠智能体”的关键桥梁,其技术范式直接决定了模型在复杂真实场景下的执行力与安全性。2025入—输出联合偏好优化,攻克了复杂长指令中的约束遗忘与逻辑断层难题;符号演示优化,则重塑了的落地,奠定了坚实可靠的基础。阿里云AI十大技术进展行业现状与主要挑战指令遵循与偏好对齐是让大模型“听懂人话”并“按规矩办事”的核心技术,它定义了模型如何将人类的意图转化为精准、安全且符合特定约束聊机器人”进化为“专家级助手”的关键,直接AI能力向智能体方向演进,单纯的模仿人类数据已遭遇瓶颈,全球顶尖科技公司与研究机构正将投入重点转向对“反馈机制”与“偏好建模”的深层次革新,旨在用更加自动化的闭环释放出更加强大的执行力。当前,业界在指令遵循与对齐创新上的探索呈现多元化且深入的格局,主要聚焦于如下方向:强化学习算法革新,从早期的RLHF(基于人类反馈的强化学习)向更高效的DPO(直接偏好优化)及其变体演进,核心是解决训练过程中的不稳定性与对奖励模型的过度依赖问题。合成数据与自动化对齐,利用强模型生成高质量指令或通过拒绝采样自动构建偏好对,试图摆脱昂贵且难以扩展的人工标注,实现超对齐。复杂约束下的鲁棒性探索,聚焦于提升模型在面对包含否定词、格式限制、多步逻辑等复杂指令时的依从性,以及多模态场景下的图文对齐能力。

当前,这些前沿探索面临着一些挑战:静态文本无法覆盖动态错误:在代码生成或Agent任务中,传统的静态文本训练数据缺乏真实的执行环境反馈(Compiler/Interpreter),导致模型生成的代码“看起来正确”但在运行时频频报错,缺乏自我纠错的“实战经验”。复杂指令中的“约束遗忘”:在处理包含多重限制条件(如“不要使用某词”、“必须输出JSON”)的长指令时,模型往往顾此失彼,DPO等现有方法难以兼顾所有约束,导致“指令漂移”现象严重。多模态上下文学习的对齐鸿沟:在多模态大模型(LMM)的少样本学习中,视觉演示与文本标签之间的映射关系往往不够清晰,导致模型在面对新图像时难以精准复刻演示中的逻辑,限制了其泛化能力。此外,在更宏观的层面,对齐的泛化性与自动化程度仍是一个难题:我们难以在不引入大规模人工干预的情况下,让模型自动适应千变万化的用户需求,这使得针对性地增强模型某一类特定任务的执行力变得异常困难。34我们的创新突破创新执行反馈自我博弈,重构模型实战进化逻辑针对代码生成与复杂任务规划中“静态数据不足以覆盖动态错误”的痛点,F提出了一种无需人类介入的自我博弈机制。该方法打破了传统静态数据的限制,引入了一个由模型自身主导的编写代码并生成单元测试,通过真实的代码执行器获取反馈。这一过程如同为模型构建了一个虚

指令遵循:自我博弈,联合优化拟的“实战演练场”,将验证数据质量的难题转化为了代码通过率的客观指标。其核心价值在于同时解决了三大痛点:第一,实现了零人工成本的数据扩张。通过自我博弈与拒绝采样,模型在完全不依赖人工标注的情况下,自主构建了高质量的偏好对。第二,根治了代码逻辑严谨性。第三,显著提升了复杂指令的遵循能力。实验证明,该方法使模型在指令遵循权威榜单le著的性能跃升。这项工作证明了引入环境反馈是图1AutoIF的整体架构(指令增强与验证(执行测试用例及反向翻译筛选掉低质量指令,确保指令的可验证性。(查询增强与验证将通过筛选的指令与ShareGPT(准确率被保留,最终生成高质量的指令遵循训练数据集。阿里云AI十大技术进展创新 在复杂指令遵循的优化上,现有的DPO(即哪个回答更好),这导致模型在面对极其苛刻的t(E,且每行字数相同”),往往无法捕捉到所有细粒度的限制。我们的创新在于提出了Preference(xy)

更通过对比不同指令约束下的回答表现,迫使模合建模赋予了模型对否定约束、格式限制和多步O时表现出惊人的鲁棒性。在域内和的测试集中,该方法相比SFTDPO长难指令的执行准确率显著提高,证明了该方法图2IOPO通过对输入和输出的联合建模,有效解决“指令遗忘”问题绿色箭头表示y与x匹配,而红色箭头表示不匹配。创新 多模态模型的上下文学习长期面临“看图说话”的逻辑断层。我们创新性地提出了SymDPO(SymbolDemonstrationDirectPreferenceLMM在少样本场景下对演示示例理解不深的问题。该方法引入了抽象为清晰的符号逻辑,并利用DPO算法强化模型

优化,模型在等主流多模态基准上的表现显著增强,特别是在)掌握新任务的逻辑。这一突破揭开了多模态ICL总结与展望

指令遵循:自我博弈,联合优化对齐算法层面的系列突破,其深远价值在于将大推向依靠算法自我进化与环境反馈的“技术密集解决代码、数学等严谨逻辑问题的可靠性,使得自动化构建整个软件项目乃至科研辅助成为可IOPOSymDPO的微观洞察,则使我们令与多模态交互中的行为偏差。参考文献

展望未来,这些进步将直接转化为产业生产力的提升:具备自我验证能力的模型意味着更少的运行时错误与更高质量的代码交付;对复杂约束的完美遵循将使模型成为法律、合规审核等严肃领则能让企业以最小的数据成本定制出适应特定视I索与精进,将切实推动人工智能在千行百业中实Self-playwithExecutionFeedback:ImprovingInstruction-followingCapabilitiesofLargeLanguageModelsIOPO:EmpoweringLLMswithComplexInstructionFollowingviaInput-OutputPreferenceOptimizationymDPO:BoostingIn-ContextLearningofLargeMultimodalModelswithymbolDemonstationDiectPeeenceOptimizationAIAI多模态理解:跨模态统一感知,长序列高效处理多模态内容理解旨在让AI也是实现具身智能的关键。我们通过多模态统一架构、长序列处理模块、高质量数据框架等方面的技AI行业现状与主要挑战

多模态理解:跨模态统一感知,长序列高效处理多模态内容理解是指AI系统能够同时处理和理解文本、图像、音频、视频等多种类型的信息,AI容生成、智能分析等场景的基础能力,更是具身智能实现“感知—理解—动作”闭环交互的核心技术基石。当前,全球头部科技企业与顶级学术机构的研究重点主要聚焦于四个方向:跨模态统一理解,核心是让模型在具备跨模态能力的同时,不牺牲文本推理、图像识别等单模态性能,解决“顾此失彼”的问题。长序列多模态处理,针对多图对比推理、小时级长视频解析等场景,优化模型的处理效率与细节保留能力,满足长时程内容分析需求。开放词汇目标检测,传统检测器只能识别训练过的固定类别,该方向则是让检测器能识别任意用户指定的类别,比如工业中的新型非标零件、

生活中的小众文创物品等,适配复杂多样的检测场景。多模态上下文学习,强化模型对示范案例中视觉信息的利用,避免模型只依赖文字规律而无视图像或视频内容。然而,在上述方向的技术落地过程中,仍然存在多处显著挑战:处理长视频或多图时,模型常面临计算效率低下、内存消耗巨大以及难以维持长期上下文关联的难题。在追求更细粒度的理解时,高质量、富含复杂推理链的训练数据严重匮乏,限制了模型的认知深度,并易导致“幻觉”输出。构建统一模型时,不同模态能力的平衡与信息且难以兼顾实时交互所需的低延迟要求。39阿里云AI十大技术进展我们的创新突破创新 针对多模态模型“模态偏科、音频能力弱、实中采用了Thinker-Talker专家混合架构:Thinker务调用专属专家模块,确保单模态能力不下降;r模块基于多码本技术与轻量卷积网络,实模型还搭载自研AuT4036/音视频基准测试中,3222备音频描述插件,可生成低幻觉的细粒度音频解

Owl3Hyper超注意力模块实现文交叉注意力”,与文字自身注意力并行工作,既不占用文字上下文空间,又能精准匹配问题需要的图像信息。同时,通过MI-op(多模态交错旋转位置编码解决图像顺序问题,让模型能记住每张图在文字中的位置。模型采用三阶段训练体系,先完成基础图文对齐,再特训多图与视频帧理解能力,最后进行指令微调。实测中,mPLUG-Owl3在400张干扰图测试中仍能保持28.6%的准确率,远超同类模型在5012.5%2长视频的关键信息。创新 针对长多图推理、小时级长视频分析中“效率低、易干扰、丢细节”的痛点,我们提出了mPLUG-多模态理解:跨模态统一感知,长序列高效处理aab图1mPLUG-Owl3在多图/视频理解任务上的场景能力中规模多图像场景:长距离记忆的图文交替对话。面对“图文交替的对话历史”(包含樱花、人物等多幅图像),“Image4mPLUG-Owl32小时电影”(拆分为多帧图像),模型能回答不同时间节点的细节问题:电影开头警察面部的装备——“戴了口罩”;后期制作片段中mPLUG-Owl3创新 LLM赋能的开放词汇目标检测为解决传统检测器“只能识别训练过的类别、稀t还附带百余字的场景详细描述,覆盖日常与万余

类稀有物体;二是特征对齐+端到端联合训练流程,即先实现检测器与LLM该方案让检测器的整体识别准确率和稀有类别准确率分别提升%,且推理时无需额外增加算力成本,还能反哺多模态模型提升视觉图2LLMDet与其他主流同类模型在多个基准测试集的零样本性能对比,所有模型均使用Swin-T为骨干网络阿里云AI十大技术进展图3LLMDet工作原理(InputImage,视觉载体)(GroundingText,定位文本提示)、图像级详细描述,为跨模态任务奠定基础。(Feature(ObjectQueries),锁(LLMLLMLLM(”),实现目标区域与文本的精准匹配。(Grounding保证目标定位精准,语言建模损失确保生成文本与视觉信息一致,协同优化模型;推理时,可舍弃LLM模块,仅保留检测核心,在不损失性能的前提下降低计算成本,适配部署需求。创新 上下文学习中视觉信息的深度激活图像”的顽疾(4)

将示范案例中的文字答案替换为无意义符号,迫再通过偏好优化引导模型选择正确答案。通过此2.2图4OpenFlamingo模型结合不同训练方案的视觉上下文处理能力:视觉—语言模型图+问题+JerryoOpenFlaming)(而非观察新图像),OK-VQA(越高越好OpenFlamingo原始模型),演示的图像和文本;OFw/oImages:去掉演示中的图像,仅保留文本;OFw/Blank:演示中的图像替换为空白占位符;OF+SymDPO:原始模型+SymDPO,OFw/oImages、OFw/BlankOF,OF+SymDPO总结与展望

多模态理解:跨模态统一感知,长序列高效处理我们的系列创新,其核心价值在于将多模态大模型从实验室的高分评测推向真实产业的复杂战场。攻克长序列理解难题,使得自动化处理长达数小时的影视素材或工业巡检视频成为可能,将极大提升媒体、制造等行业的分析效率。突破细粒度认知与数据瓶颈,则将直接增强AI在医疗影像分析、精密质检、文档数字化等场景中的可靠性与准确性,减少误判。而实现高效统一的全模态交互能力,更是为下一代实时多语言翻译助手、沉浸式数字人、智能座舱等交互应用提供了核心引擎,带来颠覆性的用户体验。参考文献

随着多模态内容理解技术的进一步发展,AII向伙伴的转变。更重要的是,持续精进的多模态感知与理解能力,将为具身智能的规模化落地提供核心技术支撑,助力智能体更精准地感知物理环境、理解人类指令并执行交互动作。未来,产AIAI应用,以及如何将多模态能力与行业知识深度融合,进而为社会创造更大价值。Qwen3-OmniechnicaleportmPUG-Owl3:oadsLongImage-SequenceUnderstandinginMulti-ModalLargeLanguageModelsmPUG-DocOwl2:High-esolutionCompessingorOCR-feeMultiDocumentUnderstandingLLMDet:LearningStrongOpen-VocabularyObjectDetectorsundertheSupervisionofLargeLanguageModelsymDPO:BoostingIn-ContextLearningofLargeMultimodalModelswithymbolDemonstationDiectPeeenceOptimizationMMEol:EmpoweringMultimodalLargeLanguageModelswithEol-InstructAIAI多模态生成:高质量创作,细粒度控制千问大模型在此领域取得系统性突破,围绕视频、图像、3DWan视ACEFlashAudioAI行业现状与主要挑战

多模态生成:高质量创作,细粒度控制多模态内容生成旨在使人工智能能够根据文本、图像等指令,自动生成高质量、连贯且符合语义的视频、图像、3D要性不言而喻:它是构建下一代数字世界(元宇(()的基础能力。当前,全球业界的研究焦点高度集中在如下几个方面:探索更强大的基础生成模型架构,以追求更极致的逼真度和分辨率。发展精细化的控制技术,增强生成过程的可控性与可编辑性。攻克视频、3D

追求极致的生成效率,以满足实时交互和低成本部署的需求。然而,通往多模态内容高质量生成的道路上布满重重挑战:质量、控制与效率难以兼顾:生成高保真视频往往耗时耗力,而提速又常导致质量下降;实现像素级或时空维度的精准控制尤为困难。专业领域数据与评估体系匮乏:如第一视角视频、特定风格艺术创作等领域,缺乏高质量、结构化的训练数据与可靠的评估标准。技术栈碎片化问题突出:从生成到编辑常需组合多个独立模型,导致创作流程割裂,用户体验复杂。这些挑战共同限制和制约了大规模产业应用。45阿里云AI十大技术进展我们的创新突破创新 高效、可控的新一代视频生成体系我们致力于构建专业级且易于使用的视频生成技术体系。

针对视频生成任务分散、技术栈不统一的现状,我们推出了性能领先的n性地采用时空压缩技术和渐进式训练策略,统一支持文生视频、图生视频、视频编辑与扩展等多14BBB1时空压缩流程示意(Latent3下采样“4×8×83上采样模块”,将隐空间的压缩维度恢复,得到重建后的输出视频。视频生成中,角色与复杂场景的自然交互一直是业界难题。我们提出的MIMO(空间解耦角色视频合成框架)创造性地采用了“3D深层分层+解耦编码”方法,将视频解构为角色、场景、遮挡物

等独立层,并分别进行编码控制,从而实现了对指定角色在目标场景中执行预设动作的精准、自然合成,解决了长期存在的肢体变形和互动失真的问题。2MIMO功能效果演示给定单个角色的参考图像,MIMO能够生成匹配驱动3D(姿态以骨架序列形式呈现(左图),(右图。多模态生成:高质量创作,细粒度控制创新 在图像生成领域,我们聚焦于解决中文世界的独特需求并革新创作工作流。

e如小字、竖排、双语混排上达到了业界领先的准确率,使I图3Qwen-Image图像生成与编辑(左)及文本渲染(右)的基准测试表现Qwen-Image,Qwen-Image(58.30)充分体现了其对中文场景的深度优化和处理优势。我们还特别推出了单元,将文生图、局部修改、风格迁移、多图参考等数十种功能无缝整合进单一模型。用户可以通过自然语言与模型进行多轮对话,一站式完成

从概念到成品的完整创作,彻底告别在不同专用工具间手动切换与导出的繁琐流程,实现了图像I/n图4ACE++架构与功能演示(a):ACE++四类输入(ConditionTokenizing),将不同类型的输(MaskEmbedding)(ImageEmbedding)(Text核心计算层,经过多个Blocks(Aligned等。阿里云AI十大技术进展创新从单图到动态场景的智能让I字内容生产的关键跃升,我们在此实现了从静态

AniGS框架攻克了从一张普通照片快速生成“高保真、可实时驱动数字人”的难题。它创新性地利用视频生成模型补全多视角信息,并首次引入4D高斯溅射技术,优雅地处理了多视角间的不一致问题,进而能在数分钟内从单张肖像生成可灵活驱动、实时渲染的3D虚拟形象。图5AniGS的3D虚拟形象重建与动画效果以单张人类图像作为输入,AniGS能够重建出标准姿态下的高保真3D数字人,该数字人可同时支持真实感渲染与实时动画制作。)的复杂场景,S3D2D行联合建模与渲染,从而从带有干扰的日常拍摄

为数字孪生、实景三维建模提供了实用高效的解图6HybridGS技术原理与效果左图:HybridGS3D(建模静态元素2D(建模动态元素右图:HybridGS(Captures),经HybridGS(Renderings),(Statics,如喷泉、建筑等固定物体(Transients,如行人、车辆等动态干扰),为数字孪生、实景三维建模等场景提供纯净的静态场景资产。多模态生成:高质量创作,细粒度控制49创新 实时、个性化与高保真49的语音合成进展在语音生成方面,我们追求极致的自然交互体验与灵活的个性表达。n能够像人类一样实现听说并行、即时回应与自然插话,将端到端响应延迟降至毫秒级,让语音助h零样本音色克隆和零样本风格控制,用户只需提

供简短音频和文本指令,即可让克隆的声音以指定的情绪

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论