2025年大模型架构创新研究报告_第1页
2025年大模型架构创新研究报告_第2页
2025年大模型架构创新研究报告_第3页
2025年大模型架构创新研究报告_第4页
2025年大模型架构创新研究报告_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大模型架构创新研究报告架构以来,

已过。争论,体现出日渐迫切的架构创新需求。自

出世、提出AI行业对Transformer的路径依赖引发了越来越多的目前行业内针对这一问题主要存在:对

进行

,特别是针对其核心组件——Attention

机制的优化与变体探索,例如稀疏

Attention

等技术,旨在提升计算效率和内存利用率,以更好地适应大规模训练场景。对 进行 ,如新型

RNN

架构等。这些架构试图从根本上摆脱对

Attention机制的依赖,并在长序列建模、并行计算和推理效率上展现出独特优势。,不同架构之间的界限越来越模糊,值得注意的是,当前大模型架构的发展呈现出日益明显的更多性能领先的创新架构具备

的特点。本报告将围绕以上两条探索路径展开梳理,并拆解这些大模型架构创新的底层逻辑,对大模型架构层未来发展可能的演进方向及趋势作出分析。01020304Transformer

的地位与挑战Transformer架构占据行业绝对主导地位Transformer架构目前仍占领大模型架构绝对主流地位:架构的通用性、可扩展性以及丰富优化生态使其仍是国内外大规模语言、视觉、多模态模型的首选架构。非Transformer架构2025年实现工业级落地0-1突破:Minimax推出MiniMax-01首次实现线性架构千亿参数(456B)工业级别落地验证,讯混元T1正式版基础模型Turbo-S采用Transformer+Mamba混合架构,标志着非Transformer架构技术路径在2025年实现了从科研走向工业落地的0-1突破。国内主流模型架构Transformer架构线性架构混合架构海外主流模型架构OpenAIGPT大模型GoogleGemini大模型AnthropicClaude大模型xAIGrok大模型MetaLlama大模型Mistral

AIMistral大模型注:盘点不分排名先后顺序百度文心大模型阿里巴巴通义大模型科大讯飞讯飞星火大模型字节跳动豆包大模型华为盘古大模型商汤日日新大模型MiniMaxMiniMax-01讯混元大模型月之暗面

Kimi大模型阶跃星辰

Step大模型DeepSeekDeepSeek大模型面壁智能MiniCPM大模型智谱

GLM大模型Hinton

AlexNet用CNN做图像识别Ilya

Sutskever

Seq2Seq用LSTM做翻译Kyunghyun

Ch

GRU提升RNN效率与性能CNN(卷积神经网络)用于图像处理语言任务中有一定应用RNN(循环神经网络)达到研究巅峰发展出LSTM、GRU前Transformer十年:深度学习引入NLP2006-2017Transformer时代开启:预训练与Scaling

Law范式出现与主导2017-20192017

Google、UofTAttention

is

All

You

Need预训练与Scaling

Law范式兴起Transformer成主流架构RNN训练困难,容易出现梯度消失/爆炸问题。缺乏并行性。难以处理超长序列。关键论文关键模型架构特点参数规模逐步突破百亿级(Google

T5-11B)。预训练+微调范式成为行业主流。生成式模型、理解式模型、多模态模型路线开始分化。大模型架构演进历史:从深度学习革命到GPT开启Transformer时代RNN基础架构LSTM解决长程依赖GRU简洁轻量版GoogleBERT:

Pre-

training

of

Deep

BidirectionalTransformers

for'Language

Understanding预训练+微调(fine-tuning)范式兴起BERT(2018)首个双向Transformer预训练模型,语言表示模型奠基之作ChatGPT(2018)首个Transformer自回归语言模型,开启生成式AI先河GPT-3(2020)突破千亿参数,生成式AI里程碑。CLIP

&

DALL·E(2021)融合视觉和文本,多模态开山作GLM-130B(2021)首个开源中文百亿参数大模型GPT-4(2023)取得多模态生成和逻辑推理(Chain-of-Thought)、Tool

Use、System

Prompt等突破Claude(Anthropic)、Gemini(Google)、Mistral等不同技术流派的探索腾讯混元、通义阿里、字节豆包、创业六小强等中国大模型崛起RWKV、Mamba

等非Transformer架构的兴起与探索基础模型参数爆炸式增长,迅速突破千亿及万亿门槛。Scaling

Law

成为主流共识,算力、数据、模型参数规模化成为共同发力点预训练-微调+Transformer+next

token

prediction范式具备统治力基础模型概念成共识,多模态大模型萌芽2020

OpenAI

Jared

Kaplan等提出Scaling

Law迅速成为共识Transformer时代巅峰:

基础模型参数规模不断突破2020-2022后Transformer时代:预训练范式见顶,创新架构探索兴起2023-至今2021Google

Switch

Transformer引入MoE突破万亿参数规模大模型架构演进历史:主流范式从共识到见顶,后Transformer时代开启关键论文/演讲关键模型架构特点GPT-3175BScaling

Law2020SwitchTransformer1.6Tsparse2021GPT-4~1.8Tmultimodal,tool

use,reasoning20222023OpenAIIlya发表“预训练结束”观点2023

OpenAI

GPT-4技术报告提出多阶段训练、精细化对齐(alignment)与稳健性能优化2025

DeepSeek

R1技术报告验证仅强化学习(RL)无监督微调(SFT)新范式随着模型规模增大,计算成本和存储需求激增,预训练+微调训练范式与Transformer架构范式见顶。强化学习(RL)+多阶段训练策略和知识蒸馏,提升大模型深度推理System

2能力成为新共识。多模态大模型从多个模型简单拼接开始走向理解生成一体+原生多模态模型。新兴非Transformer架构如Mamba、RWKV、RetNet等涌现,开始出现工业级落地。参考信息:EPOCH

AI《Can

AI

Scaling

Continue

Through

2030?》、foundation

capital《Has

AI

scaling

hit

alimit?》、OpenReview《On

Limitations

of

the

Transformer

Architecture》Transformer架构逐渐暴露出3大局限性OpenAIGPT-4

推理阶段资源密度远超GPT-3,模型在推理阶段为了保留能力,使用了混合专家MoE架构,仍需大量GPU支撑。根据Epoch

AI

在2024年8月的研究,当前AI训练规模正以每年4倍的速度增长,预计到2030

年将需要近2000万个H100级别的GPU。SemiAnalysis、LambdaLabs等报告显示,GPT-4每一次多轮对话的token处理成本数倍于GPT-3,大幅拉高部署门槛。Transformer架构二次计算复杂度导致算力消耗增长过快问题已成制约大模型普及的关键障碍以OpenAI

o1

模型发布为节点,研究趋势从预训练转向“后训练”(DPO、CoT等),重要模型转向新的基础结构与能力路径(MoE、Memory、World

Models等)。Foundation

Capital

在2024年底发表的研究指出,“Next-token

prediction很聪明,但似乎创造出的系统更多是在反应而非真正‘理解’”。Grok3

模型训练资源提升一个数量级,训练效果提升不到2%。数据墙算力墙架构墙Transformer架构、Next-TokenPrediction和ScalingLaw范式见顶,预训练结束2024年EdgeInfinite

研究指出,"Transformer注意力机制的二次时间复杂度和

KV缓存的增长内存使用给在资源受限的边缘设备上处理长序列带来了挑战"。研究人员开始越来越多转向研究"高效模型"、"保留网络"和"线性注意力"等

Transformer替代架构,如Mamba和RWKV,它们在处理长序列时表现出更高的效率。Transformer架构端侧部署局限性较大,长序列任务效率瓶颈训练范式革新Next

Training

Recipe在实际训练中3类解决方式往往同时出现以DeepSeek-R1

为例:跳过SFT直接进行RLGRPO价值模型优化DualPipe流水线FP8混合精度多头潜注意力机制MLA后Transformer时代3大革新:训练范式、架构创新、工程优化工程优化工程优化Transformer架构改进Attention机制创新FFN层改进其他高效改进非Transformer架构探索新型RNN路径新型CNN路径其他路径混合Hybrid架构探索两条路线存在交叉Transformer

架构改进Transformer里有什么?Attention1+FFN2+其他3=TransformerAttention机制既是Transformer架构的最大优势也是其最大痛点,对Attention机制的改进成为Transformer架构改进的必由之路。FFN层继从Dense到MoE的进化后,仍在持续尝试探索下一代技术。除Attention和FFN以外的其他机制,如Decay机制改进等也产生了许多高质量工作。Transformer里有什么?参考信息:A

Survey

ofTransformersAdd&NormFFNAttentionAdd&NormToken

EmbeddingPositional

Encodings*LAttention机制优化是重中之重,后MoE时代FFN层持续改进FFN改进Attention改进其他改进研究热度减少计算复杂度从而降低计算成本,如从O(N²)降至O(N

log

N)、

O(N)等继MoE之后,对传统Dense

FFN层做进一步稀疏化、动态化改进对Transformer架构进行高效改进核心思路线性注意力稀疏注意力动态注意力多头注意力动态类脑激活极致稀疏KV

Cache归一化层残差连接位置编码EmbeddingDecay机制等做改进主要内容Attention改进目前主要分稀疏和线性两大技术方向注意力机制Attention稀疏注意力改进Sparse

Attention引入稀疏模式减少计算复杂度线性注意力改进Linear

Attention将自注意力矩阵的点积计算线性化,降计算复杂度为O(n)其他注意力机制改进Local

Attention多头注意力Multi-Head

Attention多层注意力Multi-Layer

Attention键值缓存改进KVCache滑动窗口注意力SlidingWindow

Attention膨胀注意力DilatedAttention随机注意力Random

Attention块注意力Block

Attention动态注意力Dynamic

Attention局部注意力Local

Attention潜空间注意力Latent

Space

Attention目前与非Transformer架构路线可划约等号,关于非Transformer架构的讨论见3.0模型在某一时刻的

“关注点”对输入内容提问Key(键)Query(查询)Value(值)被检索的“标识符”用于与Query特征匹配识别信息相关性对应“实际内容”或“细节信息”响应Query需求稀疏注意力机制:一种减少全局计算的注意力机制,核心思想是仅关注输入序列中部分最相关的上下文信息,而非对整个序列进行全注意力计算。通过引入稀疏连接或局部窗口等策略有效降低计算复杂度和内存消耗,尤其在处理长序列时,能够显著提高计算效率。MoBA(Kimi,2025)通过应用MoE(MixtureofExperts)的原则来动态选择历史块进行注意力计算,将整个上下文划分为多个块(Block),每个查询(Query)仅与最相关的键值(KV)块进行注意力计算,降低计算复杂度,并允许在全注意力和稀疏注意力模式之间无缝切换。可学习的门控模块(AttnGate)直接从模型中学习块级注意力稀疏性,利用池化和线性层处理查询(Q)和键(K)张量,生成门控分数以预测稀疏块,并结合块稀疏FlashAttention内核实现显著加速。SeerAttention(MSRA,2024)稀疏改进(Sparse

Attention)是目前最主流、最活跃、争议最少的方向路线代表工作动态+块注意力动态+块注意力动态、可学习(Dynamic

Trainable

Attention)改进是近年明显趋势动态注意力机制:动态可学习注意力路径或稀疏模式由模型自动学习,非预定义。针对不同输入、在不同位置可采用不同的注意力连接方式,自适应选择相关上下文,灵活聚焦关键信息,避免全局静态计算带来的资源浪费。代表工作代表工作可学习动态注意力机制可以NSA为代表,通过结合粗粒度Token压缩和细粒度

Token选择机制,动态筛选关键信息,减少冗余计算,降低计算复杂度并提升处理效率。NSA(DeepSeek,2025)LongFormer(Beltagy,2020)以LongFormer首次提出的Sliding

Window

Attention为代表,预定义结构指注意力连接模式,即每个Query关注哪些Key在模型训练或推理过程中人工预先设定、固定不变。新技术趋势可学习动态结构dynamic

trainable

attention上一代范式预定义结构predefined

structural

attention键值缓存机制是Attention机制关键,继MHA后GQA、MQA成重要工作技术实现键值缓存机制:在自回归生成中缓存注意力机制中的Key和Value的技术,用于避免重复计算加速推理过程;与Attention机制紧密相关,是在其推理阶段对其中K、V部分进行高效复用的加速优化技术。主要路线通过让多个Attention

Head

或Layer

共享相同的Key/Value表示,减少内存占用并提升缓存复用效率。共享KV只保留最近一段上下文的Key/Value,用滑动窗口方式限制缓存长度,控制计算量同时保持局部信息敏感。窗口KV通过工程手段对缓存中的Key/Value进行低比特量化或结构压缩,显著降低显存开销,适用于大规模长上下文生成,以Flash

Attention

为代表。量化压缩代表工作参考信息:知乎Trancy

WangGQA(Google,2023)将查询头分组并在每组内共享键(K)和值(V)头,在保持接近MHA性能的同时,大幅降低内存带宽开销。YOCO(Google,2024)采用解码器-解码器架构,通过自解码器生成全局键值对(KV)缓存,供交叉解码器跨层共享复用,仅需缓存一次KV即可支持长序列推理,大幅降低内存消耗并提升预填充效率。后MoE时代FFN层持续改进,稀疏度不断取得突破FFN层改进:上代技术混合专家(MoE)核心思想是将传统的密集前馈网络(DenseFFN)替换为稀疏的专家层,通过门控网络(Router)动态选择最适合当前输入的专家进行计算。后MoE时代,出于参数规模Scaling的需要,FFN层稀疏度持续取得突破。技术路径代表工作UltraMem(ByteDance,2025)引入Ultra-Sparse

Memory

Layer将FFN层参数分解为大规模键值存储,利用塔克分解查询键检索、隐式值扩展等技术,保持计算量的同时显著减少内存访问。Dense稠密极致切细多层简化类脑稀疏MoE混合专家Top

K机制CFM(Tsinghua

U、ModelBest,2024)借鉴人类大脑的稀疏激活机制,将Transformer的FFN层拆解为可动态激活的神经元组砖块,通过稀疏连接和功能分区实现计算效率提升。通过多头机制将单个Token拆分为多个子Token,使每个子Token独立路由至不同专家并行处理,无需增加计算复杂度即可显著提升专家激活率至90%以上,同时通过轻量级合并层实现多专家语义融合,简化传统MoE结构。MH-MoE(MSRA,2024)对每个输入Token,根据门控网络打分,选择得分最高的K个专家参与计算,降低总体计算量并实现稀疏激活。归一化层改进:趋向采用更轻量、稳定或结构更灵活的归一化方式,甚至探索去归一化层以提升训练效率与大规模模型稳定性。输入层改进:趋向于采用可学习的Token表示与更结构化或可扩展的Position

Encoding以及动态或混合位置编码。Transformer架构其他部分改进以Decay机制、归一化层改进为主输入层改进归一化层改进去归一化技术路径代表工作DyT(Meta、NYU、MIT,2025)何恺明等提出Dynamic

Tanh,通过可学习缩放参数α

与tanh激活函数的结合,替代Transformer归一化层,保留非线性压缩极值能力的同时简化计算,挑战归一化层在深度学习中的必要性。替换归一化

RMSNorm

(University

of

Edinburgh,2019)通过非均匀位置插值搜索算法与渐进式扩展策略,在输入层的RoPE位置编码中引入针对维度和起始位置的差异化缩放因子,首次将LLM上下文窗口扩展至

2048k

Tokens,同时通过动态调整短序列位置编码恢复原始性能,实现长上下文与短序列任务的平衡。LongRoPE

(MSRA,2024)非Transformer

架构突围主流非Transformer架构:致力于在提供Transformer同等性能的同时实现算力开销控制和并行训练,计算复杂度基本都控制在线性。技术路径新型RNN1特点引入并优化广义Delta

Rule作为隐藏状态的演化机制,通过向量化门控、向量化学习率和分离的删除与添加机制,使得模型能高效地进行动态的状态演化架构名作者时间RWKV-7Bo

Peng

RWKV2025.03TitansGoogle

Research2025.01核心在于神经记忆模块,该模块通过动量和遗忘机制即权重衰减,能更好地管理内存容量,使模型在处理长序列以及语言建模、常识推理、时间序列预测等任务时表现出色xLSTMlELLIS

Unit,

LIT

AI

Lab,

,NXAILab,2024.12经典架构LSTM现代版本,通常通过引入额外的门控机制或对隐藏状态进行扩展等方式,进一步增强LSTM对长序列的建模能力以及处理复杂序列任务的能力Mamba-2PrincetonUniversity,CarnegieMellon

University2024.05国外最知名,通过将选择性状态空间模型的对角矩阵进一步限制为标量乘以单位矩阵的结构,实现了2-8倍的训练效率提升TimeMixerAnt

Group,Tsinghua

University2024.05完全抛弃注意力机制,仅使用前馈网络来建模序列数据,通过设计特定的结构让前馈网络能够捕捉序列中的时间依赖关系RetNetMSRA2023.07在状态空间模型架构中增加额外门路由,使用更简单的SSM以及多头注意力机制变体代替卷积,形成一种可并行化的计算路径,从而实现高效的序列建模新型CNNHyena

HierarchyStanford

University.

Mila

andUniversitéde

Montréal.2023.02用MLP参数化的全局卷积替换S4层,通过这种层次化的全局卷积结构来建模序列,捕获长程依赖关系其他LFMLiquidAI2024.09受线虫神经系统启发,将高维的权重矩阵分解为多个低秩矩阵的乘积,减少模型参数量和计算量主流非Transformer创新架构图谱1.新型RNN已经日益成为非Transformer

绝对主流技术路线,其他路线近年逐渐式微。引入广义Delta

Rule更新机制,在传统DeltaNet基础上引入向量化学习率(vector-valued

in-context

learning

rate)与向量化衰减因子(vector-valueddecay),支持按通道(channel-wise)独立更新状态,允许使用不同的替换键(replacementkey)和移除键(removalkey),突破只能使用相同键更新状态的限制。RWKV-7引入动态状态演化机制,谷歌Titans重新定义长程记忆核心思想状态表示更新机制模仿人类记忆系统,引入神经长期记忆模块NeuralLong-TermMemory,动态调整衰减率,实现自适应记忆管理,提高模型的泛化能力和推理性能。加权键值状态WKV可学习门控衰减因子Titans采用自适应遗忘机制和梯度下降方法更新状态不直接存储传统的注意力机制中的KV,引入内部模型,通过动态计算更新内部模型,实现类人的持续学习。衰减机制基于数据“惊讶度”的自适应衰减机制引入神经长期记忆模块(LMM)能够在测试阶段动态地学习和记忆历史信息,通过梯度下降和动量更新来调整参数,实现对历史数据的压缩和存储。引入持久记忆机制存储任务相关知识。RWKV-7xLSTM扩展门控强化长期依赖,Mamba-2突破效率与表达力瓶颈核心思想状态表示更新机制Mamba-2其他创新衰减机制xLSTM引入残差块架构与模块化集成,将上述记忆结构集成到残差块中,创建了两种互补的块结构:后上投影块(类Transformer),前上投影块(类状态空间模型)前Transformer时代经典LSTM架构的现代化革新,引入指数门控、矩阵记忆和残差连接块,解决

LSTM无法修改存储决策、有限存储容量和并行化能力缺乏的限制引入新型记忆单元sLSTM

保留标量存储特点并引入多层混合机制,mLSTM使用矩阵形式记忆单元通过协方差更新规则更新采用指数门控机制(ExponentialGating),提供更动态的信息过滤能力,引入了新的记忆更新机制允许模型更灵活地融合新旧信息通过归一化状态和额外状态变量稳定训练过程,防止指数激活函数导致的数值溢出论证Transformer和SSM实际上可以通过“结构化半可分离矩阵”

(Semiseparable

Matrices)在理论上相互连接(

State

Space

Duality),使

Mamba-2结合Transformer的硬件效率和SSM的线性复杂度状态矩阵由输入动态生成,实现选择性状态更新采用选择性状态空间模型,允许状态参数根据输入动态调整利用状态空间模型的指数衰减特性,通过低秩分解和块分解矩阵乘法,实现高效的信息传递和长期依赖建模结构化掩码注意力(SMA)构造了一个掩码注意力矩阵M=QK^T◦L,定义矩阵序列变换Y=MV,统一了多种现有的新型RNN架构变体Time-Mixer探索高效混合机制,RetNet重构状态更新路径核心思想状态表示更新机制RetNet衰减机制Time-Mixer利用多尺度混合(MultiscaleMixing)建模复杂时序变化,分别在历史信息提取与未来预测阶段引入不同策略(PDM与FMM),通过尺度分解+信息混合提升预测能力与效率采用多尺度表示,即通过下采样获取不同时间粒度的输入序列,每个尺度分别提取趋势项与季节项,构成层次化的状态张量组Past-Decomposable-Mixing(PDM):分解每个尺度的序列为趋势(Trend)与季节(Seasonal),采用季节项自底向上、趋势项自顶向下的双向混合方式。Future-Multipredictor-Mixing(FMM):每个尺度对应一个预测器,预测结果加权求和。非显式指数衰减,但通过尺度抽样(平均池化降采样)隐式实现对细粒度短期信息的削弱、对粗尺度趋势的增强提出Retention机制替代注意力机制,保持并行训练的同时引入可递归执行的状态更新结构,兼顾训练并行性与高效推理每个时间步的状态通过Retention状态向量表示,隐式包含历史Token的影响;支持多尺度RetentionHead,每个Head有独立的衰减率,形成多尺度记忆机制(Memory

with

multi-scale

decay)在训练过程中,RetNet使用并行表示和块状递归表示来高效地利用GPU资源,其中块状递归表示通过将输入序列分成块,每个块内并行计算,块之间递归传递信息。在推理过程中,RetNet使用递归表示,每个时间步的输出通过递归地更新状态向量来获得。通过不同尺度的衰减率(γ)实现。每个保留头被分配不同的γ值,这使得模型能够捕捉不同尺度的序列信息。非Transformer架构行业热度图架构RWKVTitansxLSTMMambaTimeMixerRetNetHyena

HierarchyLFM实现规模实现数量实现热度讨论热度相关研究数量相关研究质量工业热度学术热度工业热度实现热度主要关注创新架构的技术

社区建设情况、是否开源、是否帮助提供实现工具、商业化进展等情况。实现规模主要关注创新架构在公开平台上实现项目的最大参数规模水平。实现数量主要关注创新架构在公开平台上实现项目的数量。学术热度讨论热度主要关注创新架构在技术社群、媒体平台的关注和讨论热度。相关研究数量主要关注创新架构的相关衍生研究论文数量。相关研究质量主要关注创新架构的相关衍生研究论文被引量。架构创新核心Insight怎么看待近年架构创新涌现?Transformer的高效改进向线性架构路线靠拢高效Transformer/混合Hybrid架构线性架构为提高性能,诞生越来越多与Transformer混合的Hybrid架构计算复杂度O(n²)计算复杂度O(n)哪条路是通往AGI之路?随着发展程度深入,两条路线产生越来越多交集,混合架构逐渐成为大趋势选择非Transformer/线性Transformer非Transformer/线性Transformer由于其先天的高效性、更适合在端侧及小模型场景应用,成为探索智能密度压缩极限路线的最佳选择选择Transformer目前行业内普遍认为在追求智能天花板的路线上,Transformer架构仍然是无法逾越的高山,但代价是显著增加的计算成本和能耗突破智能天花板派不惜代价,持续突破性能极限压缩智能密度派精打细算,提升单位智能密度架构创新路线之争:突破智能天花板or压缩智能密度由于不同机构和主体具备资源条件的不同以及对通往AGI路线看法的不同,行业内出现两条主流的技术路线,它们的发展并非完全对立,而是存在交叉怎么看待近年架构创新涌现?优化效率阶段,精细雕花或另寻出路为解决Transformer效率问题,高效Transformer、非

Transformer架构研究开始涌现新技术突破出现下一代主流架构诞生技术突破出现2017年后,Transformer架构被提出、验证暴力飞轮阶段,持续突破天花板2019至2023年,Transformer架构持续带领大模型突破性能天花板旧范式潜力见顶、增速放缓2023年后,依托Transformer架构的传统范式潜力见顶发展阶段晚智能水平高低早目前所在阶段是新技术突破出现前夜架构创新遵循技术迭代周期律:突破、优化、再突破这一演化周期律在深度学习历史上曾多次重演,从CNN到RNN再到Transformer,每次架构变革似乎都遵循类似模式。下一代主流架构诞生的关键:实现三个Scaling台阶的惊险跳跃一个新架构要想从实验室走向工业落地,通常需要跨过三个模型Scaling的关键台阶,本报告中提到的新兴架构探索创新绝大部分仍然停留在前两个阶段,甚至刚刚跃过第一个台阶。在这一参数规模上,大多数研究机构和技术公司可以进行有效的ScalingLaw实验,实验成本相对可控。在这一参数规模上,技术门槛显著提高,需要解决分布式训练、优化算法稳定性、本地部署等问题,只有具备一定技术积累和算力预算的组织能够有效跃过这一台阶。这一参数规模落地要求解决数据质量、模型稳定性、训练效率等复杂问题,需强大基础设施支持,基本只有大厂巨头玩家能够承担。≤10B≥20B≥100B模型参数规模发展阶段ScalingLaw实验行业小模型落地工业级验证下一代主流架构从何处诞生:企业、高校、研究机构架构创新活跃玩家字节跳动讯阿里巴巴DeepSeek月之暗面面壁智能元始智能RockAI阶跃星辰北京大学上海交通大学微软亚洲研究院中科院香港中文大学浙江大学智谱Seed

FoundationHuajian

XinZihaoHuangQiyang

MinHongzhi

HuangTao

ZhangQiying

YuZhengZhangRuofei

ZhuYufeng

YuanXiaochen

ZuoYu

Yue注:不完全统计,盘点不分排名先后顺序Enzhe

LuXinyu

ZhouJingyuanLiu

Jianlin

SuHaiming

WangZhengying

LiuMiniMaxYiran

ZhongAonian

LiBangwei

GongBo

YangBoji

ShanChang

LiuCheng

Zhu自然语言处理课题组Zewen

ChiLingjie

JiangXun

WuShuming

MaTianzhu

YeLi

DongYuqing

XiaYutao

SunHongyuWangS

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论