2025美团技术年货年度合集_第1页
2025美团技术年货年度合集_第2页
2025美团技术年货年度合集_第3页
2025美团技术年货年度合集_第4页
2025美团技术年货年度合集_第5页
已阅读5页,还剩544页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025美团技术年货年度合集前言新春将至,美团技术年货如约而来。感谢这一路上,伙伴们的并肩前行与坚定支持!时光荏苒,美团技术博客已经陪伴大家走过了第12个年头。过去一年,美团技术团队在持续深耕中积累了诸多值得分享的实践案例与开源项目。尤其值得关注的是,美团LongCat

团队在大模型开源领域取得了不少亮眼的成果,这一年,我们陆续发布了覆盖基座模型、图像、视频、语音等多个方向的开源产品与工具,持续助力AI技术共享与生态繁荣。截至目前,

美团技术团队微信公众号已累计发布640余篇技术文章,

感谢大家一路相伴,共同见证我们的成长。值此马年春节来临之际,我们精选过去一年美团技术团队微信公众号发布的40多篇优质技术文章,精心汇编成一本近600页的电子书。谨以此作为一份特别的新年礼物,献给每一位热爱技术、持续探索的同学。祝大家在新年里,

一「马」当先,「马」到成功!这本电子书的内容涵盖大模型、开源、AI

Coding、安全、数据库、智能硬件、AB实验等多个技术领域。同时收录了一些美团技术团队与高校的合作成果,以及被多个国际顶级会议收录的论文合集,希望能为大家的工作和学习带来一些启发与助力。也欢迎大家将这份电子书分享给更多志同道合、追求进步的伙伴,让我们一起携手共进,砥砺前行。新的一年,愿大家继续乘风破浪,在挑战中铸就辉煌;以坚定的步伐,踏出属于自己的未来之路。iii

>

2025美团技术年货目录大模型&开源

1美团正式发布并开源LongCat-Flash-Chat,动态计算开启高效

AI时代1LongCat-Flash-Thinking

正式发布,更强、更专业,保持极速!6LongCat-Video

视频生成模型正式发布,探索世界模型的第一步11LongCat-Flash-Omni正式发布并开源:开启全模态实时交互时代15美团开源LongCat-Audio-Codec,高效语音编解码器助力实时交互落地23美团发布LongCat-Image图像生成模型,编辑能力登顶开源SOTA30美团LongCat-Video-Avatar

正式发布,实现开源SOTA

级拟真表现41开源|MeiGen-MultiTalk:基于单张照片实现多人互动演绎48开源|InfiniteTalk:无限长虚拟人视频生成的新范式63LongCat上线

AI生图!精准高效,AI

创作不设限75R-HORIZON:

复旦&美团联合提出LRMs长程推理评测框架87AMO-Bench:

突破AIME评测饱和困境,重新重定LLM数学上限97VitaBench:基于复杂生活场景的交互式Agent评测基准107美团开源OIBench与CoreCodeBench:揭示大模型编程能力的真实水平119美团M17团队开源Meeseeks评测集:揭秘大模型的“听话”能力140美团LongCat团队发布全模态一站式评测基准UNO-Bench

148大模型剪枝新范式:先浓缩,再剪枝——DenoiseRotator技术解读165可验证过程奖励在提升大模型推理效率中的探索与实践173美团LongCat

Interaction团队发布大模型交互系统技术报告

WOWService180研发基本功&智能硬件

189MTGR:美团外卖生成式推荐Scaling

Law落地实践189AICoding与单元测试的协同进化:从验证到驱动208JDK高版本特性总结与ZGC实践231从0到1建设美团数据库容量评估系统259鸿蒙应用签名实操及机制探究273OR算法+ML模型混合推理框架架构演进304美团智能头盔研发实践系列01:硬件设计篇314美团智能头盔研发实践系列02:软件功能篇328学术论文&科研合作成果338ICLR&CVPR2025美团技术团队论文精选338ACL2025|美团技术团队论文精选351ICCV2025|美团论文精选及多模态推理竞赛冠军方法分享362NeurIPS2025|美团技术团队论文精选372预测技术在美团弹性伸缩场景的探索与应用384行为正则化与顺序策略优化结合的离线多智能体学习算法398iv

>

2025美团技术年货v

>

2025美团技术年货可信实验白皮书系列文章407第一部分AB实验概述

407第一章:走进

AB实验407第二部分基础原理与案例剖析416第二章:AB实验基础416第三章:随机对照实验427第四章:随机轮转实验474第五章:准实验488第六章:观察性研究499第七章:高阶实验工具524第三部分SDK

代码应用

535第八章:开放式分析引擎535总结与展望

544致谢

544今天,

我们正式发布LongCat-Flash-Chat,

并同步开源。

LongCat-Flash采用创新性混合专家模型(Mixture-of-Experts,

MoE)架构,

总参数560B,

激活参数18.6B~31.3B(平均27B),实现了计算效率与性能的双重优化。根据多项基准测试综合评估,作为一款非思考型基础模型,

LongCat-Flash-Chat在仅激活少量参数的前提下,性能比肩当下领先的主流模型,尤其在智能体任务中具备突出优势。并且,

因为面向推理效率的设计和创新,

LongCat-Flash-Chat具有明显更快的推理速度,更适合于耗时较长的复杂智能体应用。目

前,

在Github、Hugging

Face

源,同

访

大模型&开源

美团正式发布并开源LongCat-Flash-Chat,动态计算开启高效

AI时代2

>

2025美团技术年货https://longcat.ai/,与LongCat-Flash-Chat开启对话。技术亮点LongCat-Flash

入“零

家(Zero-Computation

Ex-perts)”机制,

总参数量560B,

每个Token依据上下文需求仅激活18.6B~31.3B参数,实现算力按需分配和高效利用。为控制总算力消耗,训练过程采用PID控制器实时微调专家偏置,将单

Token平均激活量稳定在约27B。图

1:LongCat-Flash

架构图此外,

LongCat-Flash在层间铺设跨层通道,使MoE

的通信和计算能很大程度上并行,极大提高了训练和推理效率。配合定制化的底层优化,

LongCat-Flash在30

天内完成高效训练,

并在

H800

上实现单用户100+tokens/s

的推理速度。LongCat-Flash还对常用大模型组件和训练方式进行了改进,使用了超参迁移和模型层叠加的方式进行训练,并结合了多项策略保证训练稳定性,使得训练全程高效且顺利。针对智能体(Agentic)能力,

LongCat-Flash

自建了Agentic评测集指导数据策3

>

2025美团技术年货略,并在训练全流程进行了全面的优化,包括使用多智能体方法生成多样化高质量的轨迹数据等,实现了优异的智能体能力。通过算法和工程层面的联合设计,

LongCat-Flash在理论上的成本和速度都大幅领先行业同等规模、甚至规模更小的模型;

通过系统优化,

LongCat-Flash在

H800上达成了100tokens/s

的生成速度,在保持极致生成速度的同时,输出成本低至5元/百万

Token。性能评估全面且严谨的评估表明,

LongCat-Flash是一款强大且全能的模型,它在多个领域表现出卓越的性能优势。以下将从不同维度详细解读:图2:LongCat-Flash的基准测试性能●

通用领域知识

面,

LongCat-Flash

能:

在ArenaHard-V2基准测试中取得86.50的优异成绩,位列所有评估模型中的第二名,充分体现了其在高难度“一对一”对比中的稳健实力。在基础基准测4

>

2025美团技术年货试中仍保持高竞争力,

MMLU(多任务语言理解基准)得分为89.71,

CEval(中文通用能力评估基准)得分为90.44。这些成绩可与目前国内领先的模型比肩,

且其参数规模少于DeepSeek-V3.1、Kimi-K2等产品,

体现出较高的效率。●

在智能体(Agentic)工具使用方面,

LongCat-Flash展现出明显优势:

即便与参数规模更大的模型相比,其在

τ2-Bench(智能体工具使用基准)中的表现仍超越其他模型;在高复杂度场景下,该模型在

VitaBench(复杂场景智能体基准)中以24.30的得分位列第一

,彰显出在复杂场景中的强大处理能力。●

编程

方面,LongCat-Flash

展现出扎实的实力:其在TerminalBench(终端命令行任务基准)中,以39.51的得分位列第二,体现出在实际智能体命令行任务中的出色熟练度;

在SWE-Bench-Verified(软件工程师能力验证基准)中得分为60.4,具备较强竞争力。●

在指令遵循方面,

LongCat-Flash优势显著:

IFEval(指令遵循评估基准)中以89.65的得分位列第一,展现出在遵循复杂且细致指令时的卓越可靠性;

此外,

在COLLIE(中文指令遵循基准)和Meeseeks-zh(中文多场景指令基准)中也斩获最佳成绩,分别为57.10和43.03,

凸显其在中英文两类不同语言、不同高难度指令集上的出色驾驭能力。模型部署我们同步提供了分别基于SGLang和vLLM

的两种高效部署方案,助您轻松部署、快速体验模型效果。以下为使用SGLang进行单机部署的示例:python3-m

sglang.launch_server

\--modelmeituan-longcat/LongCat-Flash-Chat-FP8\--trust-remote-code\--attention-backendflashinfer

\--enable-ep-moe

\--tp

85

>

2025美团技术年货其他更为详细的部署指导请参阅LongCat-Flash-Chat

仓库:https://gi/meituan-longcat/LongCat-Flash-Chat全面开放,即刻体验前往

https://longcat.ai/,立即与LongCat-Flash-Chat开启对话。开源平台地址:●

Hugging

Face:https://huggingface.co/meituan-longcat/LongCat-

Flash-Chat●

Github:/meituan-longcat/LongCat-Flash-Chat此次我们的开源仓库统一采用MIT

License,并允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。今天,

美团LongCat团队正式发布全新高效推理模型LongCat-Flash-Thinking。在

了LongCat-Flash-Chat极

时,

的Long-Cat-Flash-Thinking更强大、更专业。综合评估显示,

LongCat-Flash-Think-ing在逻辑、数学、代码、智能体等多个领域的推理任务中,达到了全球开源模型的最先进水平(SOTA)。同时,

LongCat-Flash-Thinking不仅增强了智能体自主调用工具的能力,

还扩展了形式化定理证明能力,成为国内首个同时具备「深度思考+工具调用」与「非形式化+形式化」推理能力相结合的大语言模型。我们发现,尤其在超高复杂度的任务(如数学、代码、智能体任务)处理上,LongCat-Flash-Thinking具备更显著的优势。目前,该模型已在HuggingFace、Github全面开源:●

Hugging

Face:https://huggingface.co/meituan-longcat/Long-Cat-Flash-Thinking6

>

2025美团技术年货LongCat-Flash-Thinking

正式发布,更强、更专业,保持极速!7

>

2025美团技术年货●

Github:/meituan-longcat/LongCat-Flash-Thinking创新架构,实现高效推理与稳定训练领域并行强化学习训练方法(Domain-Parallel

RL

Training)为了解决强化学习领域混合训练的稳定性问题,我们设计了一种领域并行方案,将STEM、代码和智能体任务的优化过程解耦。这一方法采用了多领域并行训练再融合的先进策略,

实现模型能力的均衡提升,

综合性能达到帕累托最优(Pareto-Opti-

mal)。图1:LongCat-Flash-Thinking的训练流程异步弹性共卡系统(Dynamic

ORchestration

for

Asynchro-

nous

rollout

-

DORA)我们的异步弹性共卡系统(DORA)是整个训练的基石。该系统通过弹性共卡调度(Elastic

Colocation)与多

版本异步流

线(Multi-Version

AsynchronousPipeline)设计,在实现相较于同步

RL训练框架三倍提速的同时,确保了每条样本的策略一致性。同时,系统进一步实现了高效的

KV缓存复用,能够支撑万卡规模集群的稳定运行。8

>

2025美团技术年货智能体推理框架(Agentic

Reasoning

Framework)为进一步提升模型的智能体推理能力,我们提出了创新性的“双路径推理框架”。该框架能够自主筛选最优查询样本,并通过自动化流程将智能体推理与工具使用相结合,使模型能够智能识别并调用外部工具(如代码执行器、API

等),从而高效解决复杂任务。基于AIME25实测数据,

LongCat-Flash-Thinking在该框架下展现出更高效的智能体工具调用(Agentic

Tool

Use)能力,在确保90%准确率的前提下,相较于不使用工具调用节省了64.5%的Tokens(从19653到6965),显著优化了推理过程的资源利用率。形式化推理框架(Formal

Reasoning

Framework)为了克服当前开源通用大型语言模型在形式化证明任务中的不足,我们针对形式化推理设计了一套全新的基于专家迭代框架的数据合成方法,该流程利用集成了

Lean4服务器的专家迭代框架,生成经过严格验证的证明过程,从而系统性提升模型的形式化推理能力。这一创新方法系统性地增强了模型的形式化推理能力,提高了其在学术和工程应用中的可靠性。性能领先,为高复杂度任务而生LongCat-Flash-Thinking在多项权威评测中刷新纪录,

在各类推理任务中均展现出持续领先的性能:图2:在推理基准测试上的平均性能比较●

通用推理能力:LongCat-Flash-Thinking具备卓越的通用推理能力,

尤其在需要结构化逻辑的任务中表现突出。其在ARC-AGI基准测试中以50.3分超越OpenAIo3、Gemini2.5Pro

等顶尖闭源模型。●

数学能力:LongCat-Flash-Thinking

力,跻身当前顶尖模型行列。在更具挑战性的基准测试中优势更加明显

——在

HMMT

和AIME

绩,超

越OpenAIo3,和Qwen3-235B-A22B-Thinking等领先模型水平相当。这些结果印证了其解决复杂、多步骤问题的领先能力。●

代码能力:

在编程领域,

LongCat-Flash-Thinking展现出开源模型最先进的性能(SOTA)与综合实力。在LiveCodeBench上以79.4分显著超越参与评估的开源模型,并与顶级闭源模型GPT-5表现相当,证明其解决高难度编程竞赛问题的卓越能力。在OJBench基准测试中也以40.7的得分保持极强竞争力,并接近领先模型Gemini2.5-Pro的水平。●

智能体能力:LongCat-Flash-Thinking在复杂的、

工具增强

理(Tool-augmented

Reasoning)方面表现突出,

在智能体工具调用(Agen-9

>

2025美团技术年货10

>

2025美团技术年货tic

Tool

Use)上展现出强劲能力。其在

τ2-Bench上以74.0分刷新开源SOTA成绩,并在包括SWE-Bench、BFCLV3和VitaBench等基准测试中展现出超强竞争力。●

ATP形式推理能力:LongCat-Flash-Thinking在MiniF2F-test基准中的pass@1获得67.6的分数,大幅领先所有其他参与评估的模型,在pass@8和pass@32中同样保持了领先优势,凸显其在生成结构化证明和形式化数学推理方面的绝对优势。开源开放,体验全新版本前往https://longcat.ai/,立即体验LongCat-Flash-Thinking的深度思考功能:开源平台地址:●

Hugging

Face:https://huggingface.co/meituan-longcat/Long-

Cat-Flash-Thinking●

Github:/meituan-longcat/LongCat-Flash-Thinking基

键目

标,

LongCat

LongCat-Video

模型——不仅以统一模型在文生、图生视频基础任务上达到开源最先进水平,更依托原生视频续写任务预训练,实现分钟级长视频连贯生成,从根源上保障跨帧时序一致性与物理运动合理性,尤其在长视频生成领域具备显著优势。作为一款视频生成模型,

LongCat-Video凭借其精准重构真实世界运行状态的能力,正在成为美团探索世界模型的第一步,也是关键的一步。同时,这也为后续支撑更多自动驾驶、具身智能等深度交互业务场景,夯实了技术基础。要让人工智能真正理解、预测甚至重构真实世界,“世界模型”(World

Model)已成为通往下一代智能的核心引擎。作为能够建模物理规律、时空演化与场景逻辑的智能系统,世界模型赋予AI“看见”世界运行本质的能力。而视频生成模型有望成为构建世界模型的关键路径——通过视频生成任务压缩几何、语义、物理等多种形式的知识,AI得以在数字空间中模拟、推演乃至预演真实世界的运行。11

>

2025美团技术年货LongCat-Video

视频生成模型正式发布,探索世界模型的第一步12

>

2025美团技术年货技术亮点统一模型架构:多任务一体化视频基座作为基于Diffusion

Transformer(DiT)架构的多功能统一视频生成基座,

Long-Cat-Video创新通过“条件帧数量”实现任务区分——文生视频无需条件帧、图生视频输入1帧参考图、视频续写依托多帧前序内容,原生支持三大核心任务且无需额外模型适配,形成“文生

/图生

/视频续写”完整任务闭环。●

文生视频:可生成720p、30fps高清视频,能精准解析文本中物体、人物、场景、风格等细节指令,语义理解与视觉呈现能力达开源SOTA

级别。●

图生视频:严格保留参考图像的主体属性、背景关系与整体风格,动态过程符合物理规律,支持详细指令、简洁描述、空指令等多类型输入,内容一致性与动态自然度表现优异。●

视频续写:视频续写是

LongCat

Video的核心差异化能力,可基于多帧条件帧续接视频内容,为长视频生成提供原生技术支撑。备注:相关视频生成效果请移步

项目主页查看。长视频生成:原生支持

5

分钟级连贯输出依

练、Block-Causual

Attention

和GRPO

练,LongCat-Video可稳定输出5分钟级别的长视频,且无质量损失,达到行业顶尖水平。同时,从根源规避色彩漂移、画质降解、动作断裂等行业痛点,保障跨帧时序一致性与物理运动合理性,完美适配数字人、具身智能、世界模型等需要长时序动态模拟的场景需求。同时,模型结合块稀疏注意力(BSA)与条件token缓存机制,大幅降低长视频推理冗余——即便处理93帧及以上长序列,仍能兼顾效率与生成质量稳定,打破长视频生成“时长与质量不可兼得”的瓶颈。13

>

2025美团技术年货高效推理:二阶段生成+稀疏注意力+模型蒸馏优化针对高分辨率、高帧率视频生成的计算瓶颈,

LongCat-Video通过“二阶段粗到精生成(C2F)+块稀疏注意力(BSA)+模型蒸馏”三重优化,视频推理速度提升至

10.1倍,实现效率与质量的最优平衡:●

二阶段粗到精生成(C2F):先生成480p、15fps低分辨率视频,

再经LoRA精调模块超分至720p、30fps,在降本提效的同时优化画面细节;●

块稀疏注意力(BSA):将3D视觉token分块后,

仅选取top-r关键块计算注意力,使计算量降至标准密集注意力的

10%

以下;支持稀疏注意力适配并行训练,进一步提升大模型训练与推理效率;●

模型蒸馏优化:结合

Classifier-Free

Guidance(CFG)与一致性模型(CM)蒸馏,将采样步骤从50步减至16步。模型性能LongCat-Video的模型评估围绕内部基准测试和公开基准测试展开,覆盖Text-to-Video(文本生成视频)、Image-to-Video(图像生成视频)两大核心任务,从多维度(文本对齐、图像对齐、视觉质量、运动质量、整体质量)验证模型性能:通过全面的评估显示,LongCat-Video通用性能优秀,综合能力跻身开源SOTA:●

136亿参数的视频生成基座模型,在文生视频、图生视频两大核心任务中,综合性能均达到当前开源领域SOTA

级别;●

通过文本-视频对齐、视觉质量、运动质量、整体质量四大维度评估,其性能在文本对齐度、运动连贯性等关键指标上展现显著优势;●

VBench

等公开基准测试中,LongCat-Video

在参评模型中整体表现优异。开启你的长视频创作之旅●

GitHub:https:///meituan-longcat/LongCat-Video●

Hugging

Face:https://huggingface.co/meituan-longcat/Long-

Cat-Video●

ProjectPage:https://meituan-longcat.github.io/LongCat-Video/14

>

2025美团技术年货LongCat-Flash-Omni以LongCat-Flash系列的高效架构设计为基础(Short-cut-Connected

MoE,含零计算专家),同时创新性集成了高效多模态感知模块与语音重建模块。即便在总参数

5600亿(激活参数270亿)的庞大参数规模下,仍实现了低延迟的实时音视频交互能力,为开发者的多模态应用场景提供了更高效的技术选择。综合评估结果表明,

LongCat-Flash-Omni在全模态基准测试中达到开源最先进水平(SOTA),同时在文本、图像、视频理解及语音感知与生成等关键单模态任务中,均展现出极强的竞争力。

LongCat-Flash-Omni是业界首个实现“全模态覆盖、端15

>

2025美团技术年货LongCat-Flash-Omni正式发布并开源:开启全模态实时交互时代自9

月1日,

LongCat-Flash

型,现已

LongCat-Flash-Chat和LongCat-Flash-Thinking两大版本,

获得了开发者的关注。今天LongCat-Flash系列再升级,正式发布全新家族成员——LongCat-Flash-Omni。16

>

2025美团技术年货到端架构、大参数量高效推理”于一体的开源大语言模型,首次在开源范畴内实现了全模态能力对闭源模型的对标,并凭借创新的架构设计与工程优化,让大参数模型在多模态任务中也能实现毫秒级响应,解决了行业内推理延迟的痛点。模型已同步开源,欢迎体验:●

Hugging

Face:https://huggingface.co/meituan-longcat/Long-Cat-Flash-Omni●

Github:/meituan-longcat/LongCat-Flash-Omni技术亮点极致性能的一体化全模态架构LongCat-Flash-Omni是一款拥有极致性能的开源全模态模型,在一体化框架中整合了离线多模态理解与实时音视频交互能力。该模型采用完全端到端的设计,以视觉与音频编码器作为多模态感知器,由LLM直接处理输入并生成文本与语音token,再通过轻量级音频解码器重建为自然语音波形,实现低延迟的实时交互。所有模块均基于高效流式推理设计,视觉编码器、音频编解码器均为轻量级组件,参数量均约为6亿,延续了

LongCat-Flash系列的创新型高效架构设计,实现了性能与推理效率间的最优平衡。LongCat-Flash-Omni

模型架构大规模、低延迟的音视频交互能力LongCat-Flash-Omni突破“大参数规模与低延迟交互难以兼顾”的瓶颈,

在大规模架构基础上实现高效实时音视频交互。该模型总参数达5600亿(激活参数270亿),却依托LongCat-Flash系列创新的ScMoE架构(含零计算专家)作为LLM骨干,结合高效多模态编解码器和“分块式音视频特征交织机制”,最终实现低延迟、高质量的音视频处理与流式语音生成。模型支持128K

tokens上下文窗口及超8分钟音视频交互,在多模态长时记忆、多轮对话、时序推理等能力上具备显著优势。渐进式早期多模融合训练策略全模态模型训练的核心挑战之一是“不同模态的数据分布存在显著异质性”,Long-Cat-Flash-Omni采用渐进式早期多模融合训练策略,在平衡数据策略与早期融合训练范式下,逐步融入文本、音频、视频等模态,确保全模态性能强劲且无任何单模态性能退化。17

>

2025美团技术年货●

阶段0:大规模文本预训练,利用成熟稳定的大语言模型为后续多模态学习奠定坚实基础;●

阶段1:引入与文本结构更接近的语音数据,实现声学表征与语言模型特征空间的对齐,有效整合副语言信息;●

阶段2:在文本-

语音对齐基础上,融入大规模图像-

描述对与视觉-

语言交织语料,实现视觉-语言对齐,丰富模型视觉知识;●

阶段3:引入最复杂的视频数据,实现时空推理,同时整合更高质量、更多样化的图像数据集以增强视觉理解;●

阶段4:将模型上下文窗口从8K扩展至128K

tokens,进一步支持长上下文推理与多轮交互;●

阶段5:为缓解离散语音tokens的信息丢失,进行音频编码器对齐训练,使模型能直接处理连续音频特征,提升下游语音任务的保真度与稳健性。全模态不降智,性能达到开源

SOTA经过全面的综合评估显示:LongCat-Flash-Omni不仅在综合性的全模态基准测试(如Omni-Bench,WorldSense)上达到了开源最先进水平(SOTA),其在文本、图像、音频、视频等各项模态的能力均位居开源模型前列,真正实现了“全模态不降智”。18

>

2025美团技术年货LongCat-Flash-Omni的基准测试性能●

文本:LongCat-Flash-Omni延续了该系列卓越的文本基础能力,

且在多领域均呈现领先性能。相较于

LongCat-Flash系列早期版本,该模型不仅未出现文本能力的衰减,

反而在部分领域实现了性能提升。这一结果不仅印证了我们训练策略的有效性,更凸显出全模态模型训练中不同模态间的潜在协同价值。●

图像理解:LongCat-Flash-Omni

的性能(RealWorldQA74.8分)与闭源全模态模型Gemini-2.5-Pro相当,

且优于开源模型Qwen3-Omni;多图像任务优势尤为显著,核心得益于高质量交织图文、多图像及视频数据集上的训练成果。●

音频能力:从自动语音识别(ASR)、文本到语音(TTS)、语音续写维度进行评

估,

Instruct

Model

出:ASR在LibriSpeech、AISHELL-1等数据集上优于Gemini-2.5-Pro;语音到文本翻译(S2TT)在CoVost2表现强劲;

音频理解在TUT2017、Nonspeech7k等任务达当前最优;

音频到文本对话在OpenAudioBench、VoiceBench表现优异,实时音视频交互评分接近闭源模型,类人性指标优于GPT-4o,

实现基础能力到实用交互的高效转化。19

>

2025美团技术年货20

>

2025美团技术年货●

视频理解:LongCat-Flash-Omni

优,

短视频理解大幅优于现有参评模型,长视频理解比肩

Gemini-2.5-Pro

与Qwen3-VL,这得益于动态帧采样、分层令牌聚合的视频处理策略,及高效骨干网络对长上下文的支持。●

跨模态理解:

于Gemini-2.5-Flash(非

式),

肩Gemi-ni-2.5-Pro(非思考模式);尤其在真实世界音视频理解WorldSense基准测试上,相较其他开源全模态模型展现出显著的性能优势,印证其高效的多模态融合能力,是当前综合能力领先的开源全模态模型。●

端到端交互:

由于目前行业内尚未有成熟的实时多模态交互评估体系,

Long-Cat

团队构建了一套专属的端到端评测方案,该方案由定量用户评分(250名用户评分)与定性专家分析(10名专家,200个对话样本)组成。定量结果显示:

围绕端到端交互的自然度与流畅度,

LongCat-Flash-Omni在开源模型中展现出显著优势——其评分比当前最优开源模型Qwen3-Omni高出0.56分;

定性结果显示:LongCat-Flash-Omni在副语言理解、相关性与记忆能力三个维度与顶级模型持平,但是在实时性、类人性与准确性三个维度仍存在差距,也将在未来工作中进一步优化。21

>

2025美团技术年货快来跟LongCat

语音吧!你可以通过

https://longcat.ai/体验图片、文件上传和语音通话功能。另外,我们非常激动的告诉大家,

LongCat

官方App现已正式发布,支持联网搜索,还可以发起语音通话(视频通话功能敬请期待)。您可以通过扫描下方二维码下载使用,

iOS

用户可直接在

APP

Store中搜索LongCat

获取。22

>

2025美团技术年货LongCat-Flash-Omni

在开源平台已上线,欢迎开发者们探索和使用:●

Hugging

Face:https://huggingface.co/meituan-longcat/Long-

Cat-Flash-Omni●

Github:/meituan-longcat/LongCat-Flash-Omni

期待听到您的反馈。语音大语言模型(Speech

LLM)想落地,绕不开一个死结:既要快速理解语音里的语义,又要说出自然的音色,还得实时响应。比如智能音箱“听不懂”语音,车载助手“说”得像机器人,实时翻译延迟卡半秒——深究根源,全在“语音Token化”:作为拆分语音为Speech

LLM“离散单元”的关键步骤,传统方案始终没平衡好——要么缺语义、要么丢声学、要么延迟高,刚好卡了Speech

LLM

落地的“死结”。针对Speech

LLM落地中的音频处理难题,美团

LongCat

团队正式开源专用语音编解码方案LongCat-Audio-Codec。它提供了

一套

站式的Token

生成器(Tokenizer)与Token还原器(DeTokenizer)工具链,

其核心功能是将原始音频信号映射为语义与声学并行的Token序列,实现高效离散化,再通过解码模块重构高质量音频,为

Speech

LLM提供从信号输入到输出的全链路音频处理支持。通过创新的架构设计与训练策略,

LongCat-Audio-Codec在语义建模、声学重建、流式合成三大维度实现突破。23

>

2025美团技术年货美团开源LongCat-Audio-Codec,高效语音编解码器助力实时交互落地LongCat-Audio-Codec

模型架构图24

>

2025美团技术年货一、技术亮点LongCat-Audio-Codec的核心竞争力源于三大创新设计。设计一:语义

-

声学双

Token

并行提取机制:

兼顾理解与生成为解决语义空间干扰声学空间导致的重构质量不佳的问题,

LongCat-Audio-Co-dec采用“级联训练-并行推理”的创新设计:●

语义Token:首先基于双向

Transformer架构,聚焦语音内容的核心信息,基于CTC微调后的

ASR模型提取纯粹的语义信息,为Speech

LLM的语义理解提供支撑;●

声学Token:随后基于已有语义信息,结合改进的量化技术,在大码本空间下补充韵律、音色等副语言特征的声学Token,解决非语义信息覆盖不足的问题。同时,该方案支持声学码本的动态配置,可以在保证语义能力一致的情况下,根据下游任务调整码本层数。如下游任务是少音色场景,则可以选择单个声学码本来减少

Speech

LLM的学习压力;

如果下游任务是多音色场景,则可以选择全部声学码本来提供丰富的说话人支持。设计二:

低延迟流式解码器:兼顾实时与质量低延时流式处理能力是Speech

LLM实时交互场景(如车载语音助手、实时翻译)的核心需求,其关键指标为端到端延迟(End-to-End

Latency)。传统解码架构没有专为流式场景设计,易导致实时交互延迟高(如实时翻译卡半秒),LongCat-Au-dio-Codec通过低延迟流式解码器解决这一问题。其解码器采用帧级增量处理模式,通过控制对未来语音Token

的依赖,将解码延迟控制在百毫秒级。该架构显著提升了Speech

LLM的交互实时性,满足工业级实时响应标准。设计三:超低比特率高保真与集成超分辨率设计:

兼顾压缩效率与音质为解决“低比特率音质劣化”和“超分辨率需额外模型”问题,

LongCat-Au-25

>

2025美团技术年货dio-Codec采用协同优化设计:●

超低比特率:比特率是衡量音频压缩效率的核心指标,依托模型优化与三阶段训练机制,通过降低信息量,从而在保证Speech

LLM能够从海量数据中学习到语音的本质同时,

降低Speech

LLM的训练难度,也为Speech

LLM

的规模化落地提供了支撑。●

集成超分辨率:LongCat-Audio-Codec将超分辨率思想嵌入解码器,

通过神经网络对重建音频进行频域补全。该集成设计不仅进一步提高了核心内容的压缩率,更通过提升输出音频的采样率,增强了语音的自然度与细节表现力。二、性能评估1.

低比特率下的可懂性与音质优势在测试中,

LongCat-Audio-Codec在低比特率区间(0.43-0.87kbps)关键指标优于同类方案:

对比其他携带语义的编解码器,

LongCat-Audio-Codec在各比特率区间均表现最优。26

>

2025美团技术年货●

0.85-2kbps

区间(4个码本,0.87kbps):词错误率(WER,越低表示语音可懂性越高)仅1.48,语音质量感知评估(PESQ,越高表示主观音质越好)达2.30,短时客观可懂性(STOI,越高表示语音信息保留越完整)达0.921,说话人相似度(SECS)0.942,兼顾可懂性与音色一致性;●

0.65-0.85kbps区间(3个码本,0.65kbps):WER1.70,

STOI0.900,优于同类低比特率方案;●

<0.65kbps区间(2个码本,0.43kbps):WER2.10,

STOI0.839,在极端低比特率下仍保持高可懂性,适合资源受限场景。2.

比特率与性能的灵活适配当前架构支持在保证语义理解能力的情况下灵活调整码本数量(2-4个),Long-Cat-Audio-Codec可以实现比特率从0.43kbps到0.87kbps的渐进式优化,

且指标同步提升:●

WER

从2.10降至1.48,

STOI

从0.839升至0.921,语音可懂度显著提高;●

总基音误差(GPE)从3.69降至1.65,

PESQ从1.47升至

2.30,

说话人相似度从0.862升至0.942,语音重构相似度进一步提高。3.

多阶段训练策略适配多样化场景LongCat-Audio-Codec设计了多阶段的训练策略,来兼容压缩率和音质的需求。其中Stage1用于满足高压缩率下的重构需求,Stage2用于满足高音质合成需求,Stage3

用于满足个性化定制需求:经过Stage2优化后,

LongCat-Audio-Codec在音质上表现突出,

无参考音质指标SIGMOS3.35,

NISQA4.33,甚至超过LibriTTS

clean数据集(SIGMOS3.24、NISQA

4.09)录音水平:经过Stage3优化后,

有限集说话人相似度(SIM)从0.717升至0.938,证明在当前架构下,使用最低码率(0.43kbps)下也可满足说话人定制需求。27

>

2025美团技术年货三、总结作

型(Speech

LLM)的

音Token

案,

Long-Cat-Audio-Codec以三大核心创新打破了语音大模型落地的关键瓶颈:通过“语义-声学双Token并行提取”破解

“懂却说不清”的平衡难题,以

“低延迟流式解码”解决

“说得清却不实时”的交互痛点,靠

“超低比特率高保真+集成超分辨率”兼顾压缩效率与音质细节,真正让语音大模型既“听懂”语义,又能够“说清”。LongCat-Audio-Codec的开源发布,给语音大模型领域带来三重关键价值:●

其一,降低技术门槛——

为缺乏专用语音处理模块的研究团队提供一站式Token生成器(Tokenizer)与Token还原器(DeTokenizer)工具链,缓解语音大模型领域架构碎片化、上手难度高的问题,开发者可基于开源代码快速开发自己的语音大模型;●

其二,丰富应用场景——具备灵活码本、轻量化、低延迟解码方案,适用更多的应用场景;28

>

2025美团技术年货29

>

2025美团技术年货●

其三,完善技术生态——与美团此前发布的LongCat系列模型形成协同,从语音Token处理到语音大模型全链路能力,为构建全栈式语音智能系统奠定基础。作为开源的语音大模型专用语音编解码器,

LongCat-Audio-Codec的技术路线不仅为当前语音大模型落地提供了高效适配的解决方案,更给语音

-语言跨模态研究提供了新的参考范式。未来,

LongCat

团队还将在多语言语音处理、长音频建模等方向持续优化,期待为行业带来更多突破,也欢迎更多开发者关注与参与共建。Github地址:/meituan-longcat/LongCat-Audio-Codec当前AI

图像生成技术需求旺盛,但行业陷入“两难困境”:

闭源大模型性能强劲但无法自行部署或二次定制开发,开源方案普遍存在轻量化与模型性能难以兼顾、面向商用专项能力不足的痛点,制约商业创作与技术普惠。为此,美团

LongCat

团队正式发布并开源LongCat-Image模型,通过高性能模型架构设计、系统性的训练策略和数据工程,

以6B参数规模,成功在文生图和图像编辑的核心能力维度上逼近更大尺寸模型效果,为开发者社区与产业界提供了

“高性能、低门槛、全开放”的全新选择。技术亮点LongCat-Image采用文生图与图像编辑同源的架构设计,并结合渐进式学习策略,在仅6B的紧凑参数规模下,实现了指令遵循精准度、生图质量与文字渲染能力的高效协同提升。尤其在单图编辑的可控性和文字生成的汉字覆盖度方面独具优势。30

>

2025美团技术年货美团发布LongCat-Image图像生成模型,编辑能力登顶开源SOTA模型架构亮点一:图像编辑高度可控LongCat-Image

在图像编辑领域的多个重要基准测试中(如GEdit-Bench、ImgEdit-Bench)均达到开源SOTA水平,实现性能突破的背后在于一套紧密协同的训练范式和数据策略。为有效继承文生图模型的知识和美感,同时避免文生图后训练阶段收窄的状态空间对编辑指令多样性的限制,基于文生图

Mid-training阶段模型进行初始化,并采用指令编辑与文生图多任务联合学习机制,深化对复杂多样化指令的理解。此外通过预训练阶段的多源数据及指令改写策略,以及SFT阶段引入人工精标数据,最终实现了指令遵循精准度、泛化性和编辑前后视觉一致性的共同提升。31

>

2025美团技术年货32

>

2025美团技术年货风格迁移与属性编辑能力对比33

>

2025美团技术年货结构编辑与构图编辑的能力对比34

>

2025美团技术年货亮点二:中文文字生成精准覆盖针对中文文本渲染这一行业痛点,

LongCat-Image通过课程学习策略来提升字符覆盖度和渲染精准度:预训练阶段基于千万量级合成数据学习字形,覆盖通用规范汉字表的8105个汉字;SFT

阶段引入真实世界文本图像数据,提升在字体、排版布局上的泛化能力;

RL阶段融入OCR与美学双奖励模型,进一步提升文本准确性与背景融合自然度。此外通过对

prompt

中指定渲染的文本采用字符级编码,大幅降低模型记忆负担,实现文字生成学习效率的跨越式提升。通过该项能力加持,

有效支持海报设计、商业广告作图场景中复杂笔画结构汉字的渲染,以及古诗词插图、对联、门店招牌、文字Logo等设计场景的生僻字渲染。文字生成能力对比此外,

LongCat-Image通过系统性的数据筛选与对抗训练框架,实现了出图纹理细节和真实感的提升。预训练和中期训练阶段严格过滤AIGC数据,避免陷入“塑料感”纹理的局部最优;在SFT阶段,所有数据均经过人工精筛来对齐大众审美;在RL阶段,创新性地引入

AIGC内容检测器作为奖励模型,利用其对抗信号逆向引导模型学习真实世界的物理纹理、光影和质感。35

>

2025美团技术年货36

>

2025美团技术年货图像生成综合能力对比客观基准测试性能对比全面的客观基准测试充分验证了LongCat-Image

的核心竞争力:图像编辑任务中,ImgEdit-Bench(4.50分)、GEdit-Bench

中英文得分(7.60/7.64分)分别达到开源SOTA水平,且逼近头部闭源模型水平;文字渲染方面,

ChineseWord评测以90.7分的成绩大幅领先所有参评模型,实现常用字、生僻字的全量精准覆盖;文37

>

2025美团技术年货性能验证客观基准评测38

>

2025美团技术年货生图任务上,

GenEval0.87分、DPG-Bench86.8分的表现,

使其在生图基础能力上相比头部开源与闭源模型依然具备强竞争力。综合主观评测在衡量模型的通用能力时,我们始终将用户的真实体验放在首位。为此,我们采用业界公认的主观评价方法,对LongCat-Image在“文生图”与“图像编辑”两大核心场景下的表现进行了系统评估。在文生图方面采用大规模的人工主观评分(MOS)方法,核心覆盖

文本-图像对齐、视觉合理度、视觉真实度、美学质量4个维度,

LongCat-Image

的真实度相比主流开闭源模型表现出色,同时在文本-图像对齐与合理度上也达到开源SOTA水平。在图像编辑方面采用严格的并列对比评估(Side-by-Side,SBS)方法,聚焦于综合编辑质量、视觉一致性这两个用户体验的维度,评测结果表明,

LongCat-Image虽然与Nano

Banana、Seedream4.0等商业模型存在一定差距,但显著超越了其他开源方案。人类主观评分(MOS)对比&并列对比评估胜率(SBS)39

>

2025美团技术年货开源开放为了构建一个更透明、开放、协作的开源生态系统,我们全面开源文生图的多阶段模型(Mid-training、Post-training)和图像编辑模型,

旨在无缝支持从前沿研究到商业应用的全流程。我们坚信,真正的技术进步源于社区的集体智慧。诚邀广大开发者体验模型、参与共建,让我们共同基于这个高效能模型,探索视觉生成的更多可能。资源链接:●

Hugging

Face:https://huggingface.co/meituan-longcat/LongCat-Im-age●

GitHub:

https://gi/meituan-longcat/LongCat-Image零门槛解锁

AI

创作新可能LongCat

APP:

一键生成专业级图像继文生图功能上线后,「LongCat

APP」全新升级图生图能力!上传任意素材(风景照、自拍照、草稿线稿均可),模型将精准捕捉核心元素,按需求生成全新图像。同步上线24个零门槛图片玩法模板,涵盖海报设计、人像精修、场景改造等多重场景,点击“AI创作”直接套用,彻底告别“提示词焦虑”,小白也能快速产出专业级作品。LongCat.ai:

网页端高效创作入口进入https://longcat.ai/点击「图片生成」,可上传参考图、自由调整比例、选择心仪风格,无需复杂配置即可快速获得高质量生成结果。无论是商业设计初稿、社交媒体素材,还是个性化创意创作,都能高效完成。扫描下方二维码即可体验Web端及下载LongCat

APP安卓版本(iOS用户可直接在

APP

Store中搜索“LongCat”)快翻出相册里压箱底的素材,即刻使用

LongCat-Image解锁图片创作的无限可能~40

>

2025美团技术年货在

InfiniteTalk

LongCat-Video

上,

LongCat

际场景中的核心痛点持续优化,正式发布并开源SOTA级虚拟人视频生成模型——

LongCat-Video-Avatar。该模型基于LongCat-Video基座打造,

延续“一个模型支持多任务”的核心设计,原生支持Audio-Text-to-Video(AT2V)、Audio-

Text-Image-to-Video(ATI2V)及视频续写等核心功能,同时在底层架构上全面升级,实现动作拟真度、长视频稳定性与身份一致性三大维度的显著突破,为开发者提供更稳定、高效、实用的创作解决方案。点击查看产品介绍视频今年8月,美团开源的InfiniteTalk项目凭借无限长度生成能力与精准的唇形、头部、表情及姿态同步表现,迅速成为语音驱动虚拟人领域的主流工具,吸引全球数万名开发者的使用。10月底,

LongCat

团队开源了

LongCat-Video视频生成模型,

尤其在长视频生成领域具备显著优势。41

>

2025美团技术年货美团LongCat-Video-Avatar正式发布,实现开源SOTA

级拟真表现42

>

2025美团技术年货开源地址:●

GitHub:https:///meituan-longcat/LongCat-Video●

Hugging

Face:https://huggingface.co/meituan-longcat/Long-

Cat-Video-Avatar●

Project:https://meigen-ai.github.io/LongCat-Video-Avatar/一、技术亮点1.1

开源

SOTA

拟真度:让虚拟人“活”起来告别“僵硬”,迎接“鲜活”。还记得以前那些虚拟人吗?只有嘴巴在动,头和身体却像没通电,

看起来既尴尬又不自然。全新的LongCat-Video-Avatar

彻底改变了这一点。它像一位全能导演,不仅指挥嘴型,还同步指挥眼神、表情和肢体动作,实现丰富饱满的情感表达,让虚拟人真正“演”了起来。点击查看效果对比连“不说话”的时候,都很像人:真人说话是有停顿和呼吸的。我们通过一种独特的训练方法

Dis

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论