端侧算力的“奇点”时刻-需求模型算力的三维共振

上传人：策*** IP属地：山西上传时间：2026-06-10 格式：DOCX 页数：34 大小：1.85MB 积分：19.9 举报 版权申诉

已阅读5页，还剩29页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

诞生伊始，对于端侧算力需求的探讨便始终不断。但三年来，端侧的算力需求被云端模型能力的加速进化持续压制。本地部署这一需求，也更多的停留在合规层面。在手机，PC等消费终端上部署的大模正逐渐退化为一个移动的云端入口。但我们认为，这并不代表着端侧算力这一需求的证伪。如果把视线移出“传统意义”上的消费终端，我们会发现，随着大模型对视觉，物理感知体系的渗透，机器人，智能驾驶等下游客户的需求正持续扩大；VLA、世界模型等端侧模型正加速进化；GPGPU、端侧NPU+3D-DRAM等端侧算力正加速迭代。端侧算力正以一种更加务实，更加机器人，智能车等终端客户正在对设备的能力提出更高的要求。无论是传统意义上的“割草机器人”进化为“庭院机器人”，抑或是智能驾驶对于非典型场景的识别，还是机器人从“算法+遥控”变身“自主行动”，这些场景均对本地部署的算力提出了跨越式增长的需求，让“类人”终端更像人，正本地模型大升级。为了满足客户需求的迭代，端侧模型的范式也正在升级，亦或是说，大模型思路下带动的端侧模型迭代，也让原本无法实现的需求被客户提出并成为现实。端侧模型相较于云端模型，更加专注于对于物理世界的理解。从最早的YOLO（神经卷积小模型）模型，到智驾带领下的VLM（视觉-语言）、VLA（视觉-语言-动作）、世界模型，再到机器人前沿的GEM（多模融合）模型，更先进的模型思路和范式，正加速带领“类人”终芯片能力大扩容。模型范式的提升，尤其是从传统的神经网络模型范式下的提出了更高的要求。但值得注意的是，芯片的能力不等于算力，相较于云端芯片，端侧模型对于部署速度，功耗，性价比的要求更高，因此端侧芯片在然性能领先，但其较高的售价使得在看中“性价比”的端侧市场很难成为大投资建议：我们认为，聚焦未来的端侧算力放量，主要要从两个方向出发，第一个是直指芯片本身，聚焦给端侧提供算力且拥有自主迭代能力的优秀芯片设计公司，第二是端侧芯片的“服务器”环节，如物联网模组等。第三则1、《通信：从Semtech看电芯片的投资机会》风险提示：端侧模型进展不及预期、存储涨价压缩需求、端侧硬件放量不及-- 投资要件 3 42.模型先行，新模型重塑硬件感知体系 7 13 19 20 4 5 5 6 6 6 7 8 9 10 11 12 13 14 14 15 15 16 17 18 20我们在两年前发布了端侧算力的报告，彼时报告中预想了如端侧文字更多依靠的是云端算力，端侧算力的扩张并不显但是在新型终端上，则出现了不一样的风景，市场的需求，模型的迭代，专用张，都让我们看到了一个行业即将走向繁荣的前奏。但这次，我们需要更加聚认为，这轮终端算力高速增长的主基调，正从过去的让“人用”终端更智能不同，正进手机，从而形成了把云端模型移植进终端的惯性思维。但是资本市场的一厢情愿并没有转化成实际的商业需求闭环，下游用户持续选择云端模型，传统终端正逐渐沦为云端但在新型终端处，我们现在却有更多底气说“这次不一样”，这样的判断是来年客户需求增长叠加行业能力进化的闭环结果，一方面，随着如割草机器人，人，无人汽车等自移动机器人的普及率提升，用户对于这些基础场景有了更高同时，也提出了更高的要求。第二，行业尖端模型的进化，也让我们看到这些足的希望。这一从“客户需求”到“行业能力”的闭环，也让我们做出终端算算力日益复杂的供应链，端侧芯片的整体产业链较短用两句话来总结过去三年端侧算力投资与相关上市公司经营的平淡现状，第一句话是“不要低估云端模型的能力边界”，第二句话是“需求不是凭空想象的”。只有经过1.1“不要低估云端模型的能力边界”在上一篇端侧算力的深度报告中，我们认为，随着“隐私性”，“低时延”，“低成本”三大需求逐步显现，端侧算力有望迎来高速增长。但站在当时的识到云端模型的能力，成本将以摧枯拉朽之势打破端侧模型存在2026年，随着以“超节点”、“PD分离”为代表的云端算力开始部署，我在我们上一篇端侧报告中，我们提到了高通正在端侧部署stablediffusion模型，三年过去，我们似乎没有在端侧看到效果更惊艳的生图模型部署，但在云端，我们见证了端侧算力受制于模型的发展，依然只能在stablediffusion或者Lora模型上生成在云端大模型的演进下，经过了三年的行业演变，端侧算力的“隐私性” 字方面，主流模型的反馈速度均可以赶上人类的理解速而是对设备对外部信息的内生处理速度。人脑对于外部信息的传递，依靠的是神经传递，这类反应分为非条件反射和经过大脑的反应动作。非条件反射通常不经过大脑皮层参与的视觉—运动反应，反应时间通常为180-200ms；而对于非人类的智能设备来说，从接受到相关信号，解析信号，传送给云端模型解析，传回给本地设备执行，资料来源：《Assessingneuromuscularsystemviapatellar分。让我们回归第一性原理来看，人类之所以能够做出较快的神经反应，其链觉器官-神经链路-大脑-神经链路-肌肉”高速的神经电信号传输构成了这一切的基础，而我们具象化到设备端，PCB上的铜线可以替代神经，端侧算力可以替代大脑，从而形成这一链路，但如果我们把PCB上的铜线换成无线信号，大脑换成云端算力，整个链因此，我们认为，经过了三年大模型时代的发展，端侧算力的放量路径和未来需求探索，也变成了如何在“低时延”这一命题下，完成更上一段提到，我们认为，未来端侧算力发展主要解决的需求是如在当下的类人终端下，我们认为可以从“智能程度”大体分为几类，第一像头，第二是初步的能够行动的机器人，如扫地、割草、泳池等机器人，第三对于第一类的基础摄像头，需求扩张的逻辑主要在于随着摄像头数量和清晰度单个芯片需要解析的视频数量的增加，同时，随着更精细的识别要求对于第二类和第三类的服务型机器人和智能车，更精确的识别与避障一直是厂目标，如果割草机器人能够识别宠物粪便，石头，积雪，落叶等，则可以进化如果能够理解更多的场景，那么对于各类异形障碍物，各类极端和复杂场景就对于最前沿的拟人机器人，需要理解的输入信息则要超越多模态的范畴，从简信号转化为物理互动，触觉反馈等更全面的输入，同时输出信号相比简单机器人这些需求，无论是从最基础的视频解析，还是到人形机器人的端侧搭载的芯片算力提出了更高的要求，这也将进一步带动端侧算力在这类设备中在上一节，我们从产业实际出发，分析了现在端侧设备对于本地算力的需进入大模型时代以来，尤其是多模态模型出现之后，我们终于下一步，过去的视觉理解更多的依靠以神经卷积算进行识别，但随着使用场景的增加，越来越多的场景难以被识别。但此时，随着在大模型时代之前，机器视觉就早已经开始发展，人脸识别，物品识别带YOLO模型，在大模型时代之前，以其轻量化，性价比高等特点，推动了机器视觉的第YOLO模型的具体原理是将目标检测任务创造性地重构为一个单一的回归问题。它摒弃了传统算法中复杂的滑动窗口或区域提议步骤，而是将输入图像划分为SxS的网格。模型利用CNN特有的平移不变性，在一次前向传播中，让每个网格负责预测中心点落在该区域内的物体，直接回归出边界框坐标和类别概率。这种“看一眼（YouOnly通俗来说，这就好比把一张照片打上“九宫格”或者更密的网格。模一样一点点地从左到右扫描，而是像一个经验丰富的保安站某个格子里大概率出现了“车”或者“人”的特征，它就立物品之间的逻辑关联，这使得其应用范围更多局限于简单固定场景。但随着在视觉识别层面，大模型思路的思路被引入，机器视觉也逐渐迈入了大模型时代，其最标准的底层与YOLO模型不同，其原理是借鉴了自然语言处序列建模任务。它不再依赖卷积核进行局部的特征提取，而是将整幅图像切割成一固定大小的图像块，并将这些图像块展平映射为向量，视作类似文本模型中的To更关键的是，它引入了自注意力机制，能够直接计算全图范围内任意两个图像块之间的相关性权重，无论它们在图像上的距离有多远。这意味着模型从第一层开始就具备了通俗来说，ViT看图的方式不像是在“扫描”，而更像是在“做阅读理解”或“玩拼图”。它把图片切成一个个小方块，然后去思考每一个碎片和整张图里其他碎片的关系使它们隔得很远。它不是在死记硬背物体长什么样，而是在理解图片里的因果关系和整至此，在大模型时代，机器视觉的上限被打开，这也化为更强的能力，而不是停留在空有算力却无法提升能力的阶段，这也是我们认为，在ViT的日渐成熟的当下，我们在日常生活中，最先感受到的变化就是智能驾驶进步，回顾智能驾驶的发展，目前经历了三个阶段，第一个阶段是从ViT直接衍生出的VLM模型，第二阶段则是从VLM进化出的VLA模型，第三阶段，也就是现在的“世界模我们先来看VLM模型。VLM全称V通俗来说，VLM就像是给自动驾驶系统配了一位“坐在副驾的解说员”。它不仅能看见前面的物体，还能结合上下文理解它的含义。比如它看到一个举着牌子的工人，VLM但是VLM只解决了从图形到语意的翻译工作，我们等都来自于VLM模型的转译，但是这些信息或者文字并不能够直接指挥车辆前进，我VLA模型，全称Vision-Language-ActionMod进阶版，关键在于引入了“动作（Action）”这一维度，直接建立起了从视觉感知到物司机”。它不需要先把路况翻译成文字再转交给写死的代码去通俗来说，世界模型就像是自动驾驶大脑里自带的一个“超级模拟器果我现在加速，旁边那辆车会不会撞过来？如果我减速，会不会造成后车追尾过生成未来的视频画面来评估风险，从而在无数个“平行宇宙”中选出最安全因此输入的信号不仅包括视觉，也包括听觉，语言和触觉。同时，模型对外也从简单的加减速，变成了肢体动作。可以说，要解决这一链路，其难度不脑与手眼之间的协调。我们认为，GEM模型，有望成为解决这一终极难题的可能路径将文字、图片、音频等数据压缩成一串数字向量（Vector）。如果两个事物的向量在数Grounding（落地/具象化）:这是一个语言学和认知科学的概念。对于大语言模型（LLM）来说，“苹果”只是一个词汇符号；但对于机它能把机器人的感知数据（如摄像头画面、激光雷达点云）和高层指令（如自然语言“把蓝色的杯子递给我”）映射到同一个共享的特征空间中，从而让机器人“在传统机器人研究中，机器人通常只能识别训练集中见过的特定物体（例可乐罐）。如果你换了一个蓝色的百事可乐，或者让它“拿那个看起来好喝的传统机器人就无法执行。但是有了GEM的帮助，即使机器人没有见过，也可就将所有的图像，行动，语言全部token化），反向传播等等，这其中也会进一步遇到如灾难性遗忘，模态鸿沟等问题，这不仅最后，我们总结此段，模型的进步使得端侧扩张出的是“空中楼阁”，在模型侧，智驾模型的进步，使得基于ViT的机器视觉持续进化而可以将能力下放到过往只能运行YOLO模型的小型机器人上，往未来看，VLA模型等，又为机器人部署GEM模型，从而能够真正和物理世界产生交互奠定了基础，我们在前两段中讨论了端侧目前已经具备了客户需求和解决需求的模核心，最终要回归到芯片上来。过去，以YOLO模型为代表的第一代端路也愈发丰富多彩。在本段中，我们将讨论两大类架构在面对此类需求时的迭代路线，与云端不同，在我们通常认知的端侧设备上，NPU架构一直是主流，由于过去端侧设备的任务较为简单和集中，多以图像处理，简单分析为主，因此功耗较低，面积NPU架构的第一波放量源于YOLO模型下的初代机器视觉应用，随着YOLO模型的成熟与发展，越来越多的安防摄像头，初级自主移动机器人开始成熟，为了在端侧实进入大模型时代以来，NPU架构也在持续进步，与模型端类似，智驾需求也在快速带领NPU迭代，尤其是特斯拉和中国新能源车企的自研芯片，的发展。特斯拉在2019年的HW3.0平台上搭载了FSDComputer芯片，采用ARM+NPU架构。后续，小鹏，蔚来等中国车企陆但前文提到的需求，更多的放量在低功耗场景下，算力需求的陡然上升，NPU由于其架构特性，正在遇到迭代上的难题。在扫地机器人等场景下搭载算力，如果要运行ViT，（称算力）。同时，端侧算力对于性价比的要求也更高，因为其售价相较于智从目前来看，主要有两个解决方向，第一个是以代表的NPU芯片，除了针对高端机器人较高的价格与功耗接受区间，换装了更好的少对应的芯片面积和核心数量，并不需要面对NPU所面临的架构问题，当然由于GPGPU在端侧的发展更多是从商业逻辑出发，在过去，端侧需求不显著时，更多的核心被分配给加密货币，游戏与数据中心侧，到了智多的产能逐渐被分配至相关需求侧，产品线也在加速迭代和丰富，如我们认为，虽然NPU芯片长期以来在端侧算力上承担了不可或缺的作用型时代带来了异常陡峭的算力需求曲线，但功耗和成本要求却没有变的更加宽松。结合微调从而使得在相同的硬件平台上，终端的能力能够持续进步。但这构的算力，那么无论是部署速度，部署效果都会远超需要转译的NPU环境。同时，由于云端算力的先进性，英伟达芯片在如FP4等低精度推理方面已经产生了成熟的解决由此可见，当下虽然NPU企业正在努力革新架构追赶算力，但进入大模型时算力已经不单单是芯片本身，更是硬件和开发环境，GPGPU与CUDA在大模型境，和适配能力上的优势相比过去简单需求时代被进一步算力日益复杂的供应链，端侧芯片的整体产业链较短我们认为，这轮端侧算力放量更大的价值量提升将在芯片端，而不是一逻辑与云端基建类似，更多的能力提升来自于算力提升，设备中的算力成况看，GPGPU架构的确更加适合更加陡峭的端侧算力放量曲线，但英伟达高昂的售价我们认为，高通虽然在算力架构上较英伟达有所落后，但其优势在于通信能力与计低功耗在下沉市场取得领先，同时公司也通过3D-Dram+协所以无论哪种芯片路线胜出，只要端侧算力开始起量，模组厂商升。与云端下游客户集中在几家大厂不同，端侧算力的客户非常分散，因此模移远，广和通，美格智能等中国模组公司凭借先进的制造能力，实现了全球模与云端芯片类似，端侧芯片的推理能力也受到内存群算力建设对于存储的需求愈发加大，各类存储价格愈发走高，这也对端侧算比产生挤压。但往长期来看，端侧正在寻找以更低成本，更低功耗提升带宽的新路径，其中3D-Dram便是具有希望的新路径，全球端侧算力龙头之一的瑞芯微已在其1820系列协处理器上采用相关产品，随着端侧算力的放量，3D-Dram有望成为中国存储公公司全球GPGPU龙头，端侧算力全球领先ARM.OARM受到云端算力建设需求影响，全球存储芯片端侧设备除了算力芯片外，还需要外围的硬件设备配合，如清摄像头等，如果这些外围硬件的研发进度或者放量国盛证券股份有限公司（以下简称“本公司”）具有中国证监会许可的证券投资咨询业务资格。本报告仅供本公司的客户使用。本公司不会因接收人收到本报告而视其为客户。在任何情况下，本公司不对任何人因使用本报告中的任何内容本报告的信息均来源于本公司认为可信的公开资料，但本公司及其研

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

端侧算力的“奇点”时刻-需求模型算力的三维共振

文档简介

温馨提示

最新文档

评论

端侧算力的“奇点”时刻-需求模型算力的三维共振

文档简介

温馨提示

最新文档

评论

相关文档