版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
目录物理下一个浪潮,全领智能化 5从虚拟走向现实关键一步 5从模型到生态,伟达具备先发优势 8谷歌等世界模型有商业化应用 物理应用:理解世,预来 13数字孪生:物理AI推动智能化,从工厂到全域 13智能驾驶+具身能:世界模型推动WA实现 15物理产业链梳理 18芯片及控制器 18数据供应 21模型和算法 23落地和应用 24核标的相风险 25图表目录图1:物理AI本质是一个系统工程 5图2:英伟达通过物理实现虚拟与现实的结合 6图3:Omniverse平台集成多类型软件 8图4:Omniverse在汽车设计方向的应用 9图5:Cosmos根据语义及视频生成数据供机器人训练 9图6:Cosmos根据不同需求提供多版本 10图7:数字孪生实现物理世界与数字世界的动态交互 14图8:将工业机器人融入至Foxconn的工厂数字孪生实现部署优化 15图9:NVIDIAOmniverseDSX设计运营GW级算力工厂 15图10:物理AI生成更多复杂环境 16图11:生成不同环境下的行车环境 16图12:在虚拟环境中完成智能体训练 16图13:天准科技产品同步整合英伟达软件工具链 21图14:对低空气象突变实时仿真,具备生成物理数据的能力 22图15:3D高斯语义数据集InteriorGS包含大量物理信息 22图16:3D扫描可以采集大量物理信息的数据 23图17:索辰提供机器人训练平台 24图18:索辰提供机器人实时感知算法 24图19:亚信科技实现多领域数字孪生落地方案 25表1:物理AI与传统AI的对比 7表2:几个常见世界模型的特征和技术侧重 12表3:主流智能驾驶及具身智能模型方案对比 17表4:JetsonThor为机器人大脑提供硬件基础 19表5:智微智能完整的机器人大小脑方案 20表6:部分重点公司估值表 26浪潮,全领域智能化人工智能的下一个浪潮,将是能够理解并适应物理世界的物理AI(PhysicalAI)。AI正从主要处理数字和信息任务的工具,演进为能够在复杂、动态的物理环境中进行感知、推理、决策和行动的智能体。这一转变,标志着AI技术从虚拟世界全面迈向现实世界,其影响力将深远地涉及机器人、自动驾驶、工业制造等领域。物理AI并非单一技术的突破,而是一个融合了世界模型、物理仿真引擎与具身智能的系统性工程。它的核心是让AI真正“懂得”物理规律,从重力、摩擦到材料属性和流体力学,并在此基础上进行准确的预测与决策。以英伟达的Cosmos、谷歌的Genie等为代表的世界基础模型,正通过开源与竞争,加速整个技术栈的成熟与普及。物理AI、世界模型、空间智能等核心概念其核心均聚焦于解决AI从“语言符号理解”到“物理现实交互”的核心难题,但在定义内涵上存在一定差异,且随着技术探索概念也在演绎,概念的界定也并不一致,我们在此先尝试对其进行简单区分。其结构可简化为“空间智能(感知基座)——世界模型(认知及决策中枢)——物理AI(系统整合载体)”。图1:理本质是系统程 申万宏源研究空间智能:本质是AI核心“认知能力”,人工智能系统感知、理解和推理三维空间及其内部物体关系的能力。这一概念源于人类认知科学,关注的是AI如何像人类一样理解空间结构、物体之间的几何关系以及环境中的动态变化。当前最先进的多模态大语言模型在空间推理任务中的表现逊于人类,在估算距离、方向、大小或进行心理旋转等任务上差距明显。这一能力缺口严重限制了AI在自动驾驶、机器人导航等场景中的实际应用。世界模型:本质上是为AI系统提供一个内部的物理世界模拟器,使其能够预测行动的结果,而无需在现实世界中通过试错来学习。这一技术方向在2018年重新引入现代AI研究领域,其学习方式多为无监督学习,无需明确标注即可从数据中掌握世界动态,是智能体实现自主决策的核心认知架构。物理AI:一个系统性工程概念,其核心目标是构建能够理解、推理并直接作用于物理世界的智能系统。与传统仅限于软件层面的AI不同,物理AI强调从感知、决策到执行的完整闭环,致力于将AI的虚拟能力嵌入到物理实体中,实现与物理世界的交互与操控。物理AI与传统的生成式AI的区别在于:物理AI是让自动驾驶车辆或者智能系统能够在现实(物理)世界中感知、理解并执行复杂操作的AI技术性工程。与传统AI主要处理数字信息和虚拟内容不同,物理AI的核心在于将物理规律等基础科学原理与真实场景数据深度融合,使AI能够像人类一样基于已知规律推导决策。物理AI的实现依赖于三大技术支柱的协同作用:世界模型、物理仿真引擎和具身智能控制器。世界模型:作为物理AI的认知核心,负责构建对三维空间的完整理解,包括物体的几何形状、材质属性、运动状态和相互关系。技术上,这通常通过神经辐射场(NeRF)、3D高斯溅射(3DGaussianSplatting)或体素网格(VoxelGrid)等方法来实现空间表征,模型需要学习物理定律的隐式表示,比如重力加速度、摩擦系数、弹性模量等参数,并能够根据当前状态预测未来的物理演化。物理仿真引擎:负责实时计算物理交互,是基于偏微分方程求解器的动态计算系统,需要处理刚体动力学、流体力学、软体变形等复杂物理现象。具身智能控制器:连接虚拟推理和物理执行的桥梁,它接收来自世界模型的预测结果和物理仿真的计算输出,生成具体的控制指令。图2:英达过理现虚与实结合 英伟达官网从系统架构角度看,物理的工程基本采用分层设计,包括感知层、认知层和执行层。感知层集成多模态传感器阵列,包括RGB-D摄像头、激光雷达、IMU、力/扭矩传感器等,关键技术挑战在于传感器融合和实时处理。认知层运行世界模型和物理仿真引擎,这一层的计算密集度极高,需要专门的硬件加速(如英伟达Thor平台)。执行层负责运动规划和控制,技术核心是逆运动学求解和轨迹优化。这种架构使得物理AI能够在复杂的现实环境中实现实时的感知、推理和行动,真正实现了AI从虚拟世界向物理世界的跨越。传统AI物理AI处理对象文本、图像等真实交互的三维空间物理实体核心能力传统AI物理AI处理对象文本、图像等真实交互的三维空间物理实体核心能力模式识别、内容生成等物理规律理解、实时决策、物理交互训练数据互联网文本和图像合成物理数据、真实物理交互数据技术基础大语言模型、生成模型世界模型、物理仿真引擎、具身控制应用场景内容创作、辅助办公机器人、自动驾驶、数字孪生申万宏源研究物理AI主要解决的是现实世界中的复杂物理交互问题,核心包括:仿真与现实差距:在机器人技术中,在仿真环境中训练的模型往往在现实世界中性能下降,物理AI通过高精度物理仿真和Sim-to-Real迁移技术缩小这一差距。数据收集成本:现实世界的数据采集成本极高且存在安全风险,物理AI通过合成数据生成解决了这一瓶颈。英伟达通过Omniverse和Cosmos平台,生成大规模的合成训练数据,包括各种物理场景、材质属性和交互模式。物理规律遵守:传统生成式AI可能会创造出违反物理定律的内容,如物体悬浮或机械臂穿过固体障碍物,而物理AI确保所有生成的内容完全符合物理世界的运作方式。实时决策与操作:在机器人、自动驾驶等应用中,系统需要在毫秒级时间内感知环境、理解物理状态并做出决策,物理AI的分层架构和专用硬件加速使这成为可能。2019Omniverse3D3D软件的RTX3D协作环境。在平台推出之后,元宇宙、工业协作、人形机器人等领域均在该平台实现相关应用,英伟达的提前布局,或将Omniverse作为继CUDA之后的又一个“软核心”,成为下一个阶段硬件增长的重要支撑,这也成为英伟达布局物理AI的“第一步”。NvidiaOmniverseGPU3D软件的连接平台。Omniverse3DPixar(皮克斯)的通用场景描述以及NvidiaRTX的基础上构建,主要的目的是完成应用之间通用实时互操作,并充当互联客户机和应用中心的枢纽。图3:Omniverse平成多型件 英伟达官网Omniverse进入工业领域实践,主要是仿真能力重要提升。Omniverse在2019年提出之后,在动画、影视、游戏等创作过程中被广泛应用,初代开放Nucleus接口的3D软件也主要包括AutodeskMAYA等创作类软件。随着工业场景更加复杂化、数字化,对于数字孪生等需求更加明显,Omniverse也成为工业、甚至元宇宙构建的重要平台,在这过程中对于仿真的要求显著提升。仿真能力是实现工业等领域的关键。RTcore主要完成了光线追踪等视觉上的追求,相较于传统泛娱乐行业,实际生产应用中需要符合物理规律的3D构建,其区别的核心就是仿真,Tensorcore的能力提升,实际可以帮助假设场景和数据进行开发。图4:Omniverse在汽车设计方向的应用英伟达官网英伟达凭借其硬件优势及前瞻性布局,构建了最为完整的物理AI技术栈,目前核心是世界基础模型Cosmos。2025年1月,英伟达CEO黄仁勋在CES演讲上正式推出物理AI大模型Cosmos,并宣布将其以开源的形式发布。Cosmos被定义为“世界基础模型”,它能够理解世界语言、物理特性、空间位置等要素,并合成相关物理数据,是加速智能汽车、具身智能等AI终端普及的关键所在。Cosmos是一个世界性的基础模型开发平台,包含生成式模型、数据管护器、标记器和框架,可加速物理AI开发。Cosmos通过生成物理学数据实现端侧模型训练。本、图像和视频等输入组合以及机器人传感器或运动数据生成基于物理学的视频,实现对现实环境(如仓库、工厂、交通路况等)的预测,从而完成对机器人和自动驾驶汽车的训AI模型相比,Cosmos的独特之处在于其对物理规律的严格遵守和对三维空间的深度理解。图5:Cosmos根据语义及视频生成数据供机器人训练英伟达CES演讲Cosmos模型获得重大更新,适配实时环境。在技术演进方面,SIGGRAPH2025大会上,英伟达发布了全新的CosmosReason和CosmosTransfer-2模型。CosmosReason作为一款开源、可定制70亿参数推理视觉语言模型(VLM),其设计目标是赋予机器人和视觉智能体高级的推理能力。它的核心突破在于超越了传统VLM仅限于语义标签的理解,能够进行多步骤任务分解、常识推理以及对物理世界的深度理解。在机器人规划中,其能作为VLA模型的大脑,将高层指令(如“拿起杯子并放到桌子上”)转化为可执行的低层任务序列。而CosmosTransfer-2模型则专注于合成数据生成,通过简化提示词,支持多模态输入,能高效地创建高质量、物理精准的训练数据。在模型性能优化方面,其精简版本通过创新的“单步蒸馏”技术,可将原本繁琐的70个步骤计算过程压缩为一步。这一优化降低了模型推理的计算量和延迟,使得模型能够在NVIDIARTXPROBlackwell平台、边缘、甚至本地设备上以极高效率运行。图6:Cosmos根据不同需求提供多版本英伟达官网目前客户涵盖机器人+汽车领域领先厂商。根据英伟达披露的名单,Cosmos首批用户包括1X、AgileRobots、Agility、FigureAI、Foretellix、Fourier、Galbot、Hillbot、IntBot、NeuraRobotics、SkildAI、VirtualIncision、Waabi和小鹏汽车等十余个国内外机器人和汽车厂商。这一广泛的行业采用情况表明,CosmosAI的关键应用领域形成了生态系统优势。目前英伟达已经建立一套相对完整的物理AI使用流程,软硬一体化方案解释Nvidia的下一代“软核心”布局:3D环境(Omniverse):Omniverse提供众多API、SDK,开发者基于其他软件厂商的能力(包括CAE、CAD等),在平台上构建物理场景,并通过RTX渲染集成到仿真流程。生成和合成数据(Cosmos):Omniverse提供ReplicatorSDK构建自定义合成数据生成(SDG)工作流。Replicator具有内置功能,例如域随机化,允许在3D仿真过程中更改许多物理参数。此外,还可以使用采用ControlNet的扩散模型来进一步增强生成的图像。训练验证(DGX):NVIDIADGX平台是一个全集成式硬件和软件AI平台,与基于物理的数据一起结合使用,通过TensorFlow、PyTorch等框架,以及NVIDIANGC上提供的预训练计算机视觉模型来训练或调优AI模型。经过训练后,这些模型及其软件堆栈可使用NVIDIAIsaacSim等参考应用进行仿真验证。部署(下一代机器人设备)将经优化的堆栈部署到NVIDIAJetsonOrin以及即将推出的新一代JetsonThor机器人超级计算机上,为类人型机器人或工业自动化系统等物理自主机器赋能。综上,英伟达通过链接外部软件的Omniverse的平台,提供构建虚拟场景、整合数据,并使开发者在DGX硬件平台上完成训练模拟验证,最终将模型转装配至下一代机器人设备中,完成对于软、硬、生态一体的机器人研发工具链,实现硬件销售的重要目的。最终机器人开发者的差异化可能体现在:算法优势、数据质量。谷歌DeepMind此前推出通用世界模型Genie3。基于文本提示,Genie3可以允许用户以每秒24帧的速度,以720p的分辨率生成长达数分钟的交互式3D环境,Genie2仅能生成10到20秒。区别于可灵、即梦、sora、googleveo的类似电影体验的视频生成,Genie3主要生成3D场景,并且镜头动作可以交互,更加类似玩游戏。从产品发布案例来看,我们认为genie3在1)质量;2)一致性;3)交互性;4)指令遵循上效果较强。Genie每一代产品都做到了部分迭代。1)Genie2做到了3D,而且可以开始模拟部分效果,包括重力、光线、反射、烟雾。2)Genie3实现了高清720P,交互时间更长,而且基本无时延。我们认为,genie3优势在于无需NeRFs或高斯溅射那样依赖于显式的三维表示,而是逐帧生成动态和丰富的世界。不需要依赖建模仿真,使得模型可以在更低的成本上加入更多未经过标注的训练样本,更快实现“涌现”。模型名称核心共性模型目标技术侧重模型名称核心共性模型目标技术侧重是否需要3D建模核心优势局限性富性物理规律工程价值语义能力Meta2英伟达Cosmos谷歌Genie31)自监督学习框架:均通过分析海量视频/视觉-语言联合表征与机器人规划联合嵌入预测架构(JA,通态语义对齐无需预先建模Cosmos的缺乏实时交互能力★☆★☆★★★★★零样本泛化:无需特定训练即可完成机器人抓取、放置等任务(成功率65-80%)理多体动力学规模化高精度物理仿真扩散+自回归模型结合部分依赖建模工业级准确性:在PhyGenBench测试中对浮力、摩擦力等现象的模拟具有较好表现极端条件支持:可精确模拟车辆在暴雨、地震等极端环境下的动力学响应实时交互能力较弱,更适合离线训练部分依赖预训3D如PhysX,较高的成本★★★★★★★★★实时交互的动态3D场景生成自回归+空间时间变换器完全隐式生成沉浸式交互:720p分辨率、24帧/秒生成可探索环境,物理一致性维持长达数分钟复杂物理现象模拟存在缺陷★★★★★★☆★★创意生成能力:支持天气变化、物体添加等动态修改,如“在暴风雨中添加摩托艇”文本渲染质量待提升,场景持久性有限google、英伟达、Meta等官网、申万宏源研究星级由分析师主观评价应用:理解世界,预测未来物理AI正从技术概念迅速迈向规模化商业应用,其核心价值在于将物理规律与数据驱动决策相结合,在多个行业实现效率提升、成本优化和全新商业模式创造。实现路径的体现形式是世界模型,世界模型的潜在应用横跨众多领域,每个领域对理解能力和预测能力都有独特需求。以自动驾驶为例,世界模型需要实时感知道路状况并精准预判环境演变,尤其注重即时环境感知与复杂趋势预测。物理AI作为一项系统性工程,最核心的是让AI从虚拟世界走向真实的物理世界并实现执行,我们认为其最核心的领域在于:数字孪生;智能驾驶及具身智能。推动智能化,从工厂到全域数字孪生是实体资产和流程的虚拟映射,企业借助其优化设计、仿真与运营效率。这一技术通过创建高保真数字模型,实现对物理世界的动态模拟与精准控制,成为工业数字化转型的核心工具。数字孪生技术源于美国国家航空航天局的早期实践,并随计算与数据科学进步不断成熟。例如在阿波罗13号任务中,地面模拟器通过实时数据联动助力故障排除,奠定了其应用基础;如今,借助开放数据框架、生成式AI与加速计算,数字孪生已演进为融合物理规律与智能算法的先进系统。数字孪生如何构建执行?数字孪生通过集成多维数据源构建其虚拟模型,并依赖物联网实现数字与物理世界的动态同步。数字孪生通过整合最贴切描述其现实世界对应物数据而创建。数据通常由一维数据(如IT/OT系统中的表格数据)和二维/三维数据(如CAD、现实捕捉扫描、BIM)数据组成。实现先进设计、规划、仿真、远程实时监控及运营控制。物联网传感器和设备提供实时数据,可确保数字孪生保持准确和最新,从而实现物理与数字领域之间的动态交互。图7:数孪实物世界数世的态互 英伟达Omniverse官网数字孪生有何意义?该技术为企业带来显著效益,尤其体现在流程优化、成本控制与风险规避层面。例如宝马集团通过工厂数字孪生将规划效率提升近30%;纬创则实现气流仿真速度提高15000倍,极大压缩了研发周期与资源投入。数字孪生的技术来源?数字孪生的实现依托于多项前沿技术的协同,包括开放数据标准、AI生成能力与高性能计算。OpenUSD解决了多源数据融合的难题,生成式AI助力合成数据生成与自然语言交互,而加速计算则支撑了大规模实时仿真与物理AI训练需求。AI在其中的重要作用:生成式AI正在成为新的软件接口,以更轻松地以自然语言与工业数据和系统进行交互,从而实现快速检索知识、进行分析并获得建议。物理AI在其中的重要作用:如果企业无法获取足够的现实世界数据来开发数字孪生,可以利用生成式AI来加速开发过程。开发者能够简化并加速工作流,快速开发和部署数字孪生解决方案,并生成物理精准的合成数据以训练物理AI。数字孪生有何应用?超越单一行业,物理AI驱动的仿真技术正成为各领域复杂系统决策的科学基础。通过构建高精度虚拟模型,管理者能够在数字世界探索不同策略的实施效果。目前已渗透至制造业、能源、医疗与城市管理等广泛行业,推动各领域效率革新。工业场景中,如富士康通过虚拟工厂优化机器人部署;医疗领域,外科医生利用患者大脑数字孪生预演手术;智慧城市方面,数字孪生助力交通模拟与能源管理,实现精细化运营。在生产优化方面,物理AI可对整条产线进行仿真模拟,提前识别瓶颈环节。通过模拟设备运行、物料流动和人员操作,帮助企业优化布局与调度,提升整体生产效率。这种虚拟调试能力显著缩短产线部署时间。预测性维护是另一关键应用。物理AI结合设备物理模型与实时传感器数据,能够更精准地预测部件寿命和故障风险。企业可从计划性维修转向按需维护,减少非计划停机带来的损失。图8:将工业机器人融入至Foxconn的工厂数字孪生实现部署优化
图9:NVIDIAOmniverseDSX设计运营GW级算力工厂英伟达官网 英伟达GTC大会智能驾驶+实现世界模型是物理AI实现的核心引擎,训练推理侧对于智能驾驶、具身智能均有重要意义。应用可分为两大阶段:训练端利用世界模型生成符合物理规律的高质量合成数据,解决真实数据稀缺与长尾场景覆盖问题;推理端则通过物理推理模型实现感知-决策-执行的闭环控制,确保智能体在现实环境中的安全性与可靠性。(一)训练端在训练端,世界模型通过构建高保真数字孪生环境,生成无限规模的符合物理学规律的训练数据。目前主流世界模型可以基于物理规律的仿真引擎能够模拟各种极端天气、复杂路况及罕见场景,有效弥补真实数据收集成本高、覆盖不全的短板。通过多物理场建模,包括重力、摩擦、流体力学等复杂环境因素,生成的数据既保持物理真实性,又具备足够的多样性,使模型在训练阶段就能接触各种边缘案例,显著提升系统的鲁棒性和泛化能力。生成式物理引擎的进步进一步提升了合成数据的真实性与多样性。现代物理仿真平台通过整合多模态传感器模型和环境动力学参数,构建出高度拟真的虚拟测试场。这些平台不仅能够模拟常规操作场景,还能复现各种危险工况和极端条件,为自动驾驶系统和机器人算法提供安全、可控的测试环境。自监督学习等先进方法的引入,使得模型能够从海量未标注数据中自主提取物理规律,显著提升了对物体运动轨迹和交互行为的预测准确性。图10:理AI生成更复杂境 图成同境行车境 英伟达官网 英伟达官网(二)推理执行端在推理决策端,物理AI通过端到端模型架构与实时物理推理,实现从感知到动作的精准闭环控制。新一代的VLA模型摒弃了传统的模块化设计,直接将多模态感知信号映射为控制指令,大幅降低系统延迟,提升响应速度。这种架构不仅能够处理常规任务,还展现出对复杂场景的理解能力和突发情况的应对能力,实现了真正意义上的环境交互智能。物理推理能力的融入使智能系统具备了对现实世界的常识认知。通过构建分层物理知识表示,AI系统能够理解空间关系、时间连续性和基础物理规律,在进行决策时自动评估行动的物理可行性。这种内在的物理常识机制为智能驾驶和机器人系统的安全部署提供了重要保障,使其在遇到未训练场景时仍能做出符合物理规律的合理决策。图12:虚环中智能训练 英伟达官网在智能驾驶领域,世界模型正推动行业从单一功能实现向全栈能力进化的转变。基于物理AI的自动驾驶系统不仅关注即时感知与决策,更注重长时序的行为预测与规划。通过将强化学习与场景推演深度融合,系统能够在虚拟环境中进行自我对抗训练,不断优化决策策略。具身智能领域,世界模型成为机器人通用能力提升的关键赋能技术。机器人系统通过物理世界模型理解环境交互的内在规律,在工业制造、服务咨询等场景中展现出越来越强的自主决策能力。跨模态知识迁移技术的突破,使得不同形态的智能体能够共享物理常识,形成跨场景的能力传递闭环。这种技术路径大幅降低了机器人适应新环境、新任务的学习成本。目前关于世界模型与VLA及端到端存在实现路径之争。短期看,VLA依靠其可解释性、泛化能力强,且可以很大程度利用目前相对成熟的LLM模型,是实现快速商业化的优选。中长期看,世界模型作为更前瞻更高效的选择,运算执行效率更高,可能成为智能驾驶、具身智能后续商业化的重点。对比维度端到端模型视觉-语言-动作模型世界模型对比维度端到端模型视觉-语言-动作模型世界模型核心含义优势劣势智能驾驶具身智能极简的模型架构,旨在将原始传感器输入(如摄像头视频流)直接映射为最终的执行层输出(如车辆的控制指令或机器人的关节力矩),省略所有中间表示和显式模块。以视觉和语言为核心的多模态模型架构。通过语言理解来赋予视觉感知高级语义,并输出具身化的动作,强调“感知”与“认知”的融合。环境的动力学规律,用于预测未来状1.泛化与推理能力强:能够理解抽象的语言指令,处理开放世界的任务,适应未曾预见的场景。1.实现前瞻与推理:支持复杂的思维实验,能够进行安全的风险评估和长远规划。1.效率极高:避免模块间信息损耗与串联延迟,响应速度快。2.潜在涌现能力:模型可能自发学会处理未专门训练的复杂场景,减少了对人工定义规则的依赖。2.人机交互自然:实现了用人类最自然的语言与机器进行交互,降低了使用门槛。2.数据生成与效率:可以生成无限量的、符合物理规律的合成数据用于训练,并大幅提升数据利用效率。1.依赖高质量对齐数据:需要大量精准的(视觉,语言,动作)三元组数据进行训练,数据采集与标注成本高昂。1.“黑箱”特性:决策过程不透证带来巨大挑战。1.预测不确定性:对复杂、长时序的未来预测存在累积误差,准确性难以保证。2.稳定性风险:模型可能过于敏剧烈变化,存在“边缘案例”风险。2.实时性挑战:理解复杂语言指令需要时间,在需要毫秒级响应的场景中可能成为瓶颈。2.仿真与现实差距:模型对物理世界的简化必然导致与真实情况存在差异,影响其可靠性。3.计算开销巨大:高保真的世界模拟需要惊人的算力支撑。代表厂商:特斯拉代表厂商:小鹏、理想、元戎代表厂商:英伟达、华为、蔚来、Momenta代表:GoogleRT-2代表:Figure代表:DeepMind、Meta申万宏源研究注:代表厂商仅代表其目前已知推广过程中的主流方案,部分厂商实际上在三种方案均有布局,并且实现了不同场景下的模型调用和整合。行业竞争焦点正从单一算法创新转向物理AI的整体落地效能。领先企业通过构建自主可控的仿真测试平台,持续优化虚拟与真实场景的域差距。产业应用方面,智能驾驶与具身智能的融合发展正在创造新的商业模式,在智能制造、智慧物流、城市管理等场景中展现出巨大的应用潜力。全栈技术布局成为行业竞争的关键,从底层芯片到中间件再到应用算法的完整生态构建,正在形成显著的技术壁垒。未来技术演进将围绕多尺度时空建模、跨模态感知融合与仿真-现实协同优化三大方向深入发展。时空建模技术致力于在更细粒度上捕捉物理世界的动态变化,为智能系统提供更精准的环境理解。多模态融合技术旨在打破视觉、语言、动作等不同模态间的语义隔阂,实现更自然的人机交互。仿真与现实协同优化则通过持续的数据闭环,不断缩小虚拟与真AI在复杂环境中的适应能力。产业链梳理产业链各环节的协同加速物理AI的商业化进程。从芯片厂商的算力支撑,到平台厂商的工具链提供,再到应用厂商的场景落地,完整的产业生态初步形成。此前已经提到,由于英伟达在物理AI布局较早,且依靠其硬件优势及平台化能力,形成了较为完整的生态。其软件工具平台开放性较好,Cosmos也实现了开源,但其硬件生态封闭导致在其部分专用性场景下,标准化的方案难以满足各家厂商及不同算法路线的需求,因此在物理AI成为大趋势的背景下,产业链各环节均具备重要投资机会。芯片及控制器芯片与控制器是物理AI的硬件中枢,承担着环境感知、实时计算与运动控制的核心功能。其技术壁垒不仅在于原始计算能力,更体现在对物理规律实时计算的优化能力,以及能否融入主流开发生态。英伟达基于Blackwell架构推出其智驾、机器人的Thor平台。英伟达2025年基于新一代Blackwell架构,推出了两款Thor系列计算平台:JetsonAGXThor(专注于机器人与物理AI)和DRIVEThor(专注于智能驾驶)。JetsonThor搭载的AI计算能力是上Orin7.52070TFLOPS(FP4),3.5倍。其内存容128G273GB/s。JetsonThor专为生成式AI模型的推理打造,可支持物理AI智能体。这类智能体可以由大型Transformer模型、视觉语言模型(VLM)及视觉语言动作模型(VLA)驱动,能够在端侧实时运行,最大限度地降低对云端的依赖。JetsonAGXThor开发者套件JetsonT5000JetsonT4000AI性能GPUJetsonAGXThor开发者套件JetsonT5000JetsonT4000AI性能GPUGPU最大频率CPU2070TFLOPS(FP4—稀疏)1200TFLOPS(FP4—稀疏)64TensorCore的1536核NVIDIABlackwell架构GPU搭载96个第五代TensorCore的2560核NVIDIABlackwell架构GPU1.57GHz14核Arm®Neoverse®-V3AE64位CPU12核Arm®Neoverse®-V3AE64位CPU每个核心1MB二级缓存每个核心1MB二级缓存16MB共享系统三级缓存16MB共享系统三级缓存CPU最大频率2.6GHz视觉加速器1个PVAv3显存存储128GB256位LPDDR5X64GB256-bitLPDDR5X273GB/s1TBNVMeM.2KeyM插槽 通过PCIe支持NVMe 通过USB3.2支持SSD英伟达官网主控芯片领域呈现多元化竞争格局。除英伟达凭借其完整的工具链(Jetson系列、DRIVE平台、Omniverse)占据生态优势外,该领域也涌现出各具特色的竞争者。高通凭借其在车载智能座舱的积累向自动驾驶主控域渗透;地平线等国内芯片商则通过“算法+芯片”的协同设计在特定场景实现差异化竞争。小鹏、蔚来等整车厂为追求算法与硬件的深度适配,已开启自研芯片的进程,旨在打通从感知决策到车辆控制的完整链路。这种垂直整合趋势反映了物理AI对算力效率的极致追求。控制器与边缘算力方案是“机器人大脑”,迈向AGI重要通道。机器人大脑承担着环境感知、实时决策与运动控制的核心功能。这一环节已从单纯的算力执行单元,升级为整合芯片算力、多源感知与上层算法的智能中枢,负责将抽象的AI模型转化为精准的物理世界动作指令。具身智能的商业化除了依赖于高性能机器人本体计算单元所提供的算力支持和实时推理能力,还需结合芯片厂商提供的算法工具链,对已训练完成的模型进行深度裁剪与优化,以适配端侧芯片的片内硬件资源。控制器厂商在该领域具备重要意义。智微智能推出完整的机器人大小脑方案。“大脑”(决策规划系统)基于NVIDIAJetsonThor等高性能计算平台,负责高阶认知功能。它处理来自摄像头、激光雷达等传感器的多模态数据,进行环境感知、任务规划和智能决策。这一系统使机器人能够理解抽象指令,并自主分解为具体步骤。“小脑”(运动控制系统)则采用IntelCoreUltra或RK3588等处理器,专注于高精度、低延迟的运动控制。它确保机器人的每个动作流畅、稳定且安全,实现“手眼协同”的精准操作。两者通过高速数据传输与智能调度机制深度融合,解决传统控制器“算力内耗”与“响应延迟”的痛点。智微智能的“大脑-小脑”架构创新体现在多个层面:硬件层面,采用异构计算架构,为不同任务匹配最合适的计算单元。高性能AI芯片负责复杂推理,实时控制芯片确保动作精准同步。软件层面,集成“多模态感知+深度学习+生成式AI”,让大脑能处理“图像、语言、触觉”等多源信息,小脑则通过“运动控制+RTOS实时操作系统+EtherCAT”,保障毫秒级控制精度,精确控制数据传输的可靠性和实时性。方案类别控制器产品大脑+小脑分层方案大脑方案类别控制器产品大脑+小脑分层方案大脑EII-6100(NVJetsonOrinNXSuper)EII-6200(NVJetsonAGXOrin)EII-6300(NVJetsonThor)小脑EII-2000(RK3588)EII-5700(IntelUltra)大小脑一体(端到端)EII-6101E(NVJetsonOrinNXSuper)EII-6301E(NVJetsonThor)智微智能科技公众号天准科技TOPS007NVIDIAJetsonThor系列打造,不仅能满足具身智能行业主流算法模NVIDIAIsaacGR00TN1.5、通义千问模型等主流操作与交互生AI模型的适配部署。遥操作采集训练等多场景验证软硬结合效果。通过手柄控制等遥操作方式获取机器人操作数据,再借助ROS2对数据进行处理,形成结构化训练样本。同时,IsaacLab采用行为克隆算法,使智能体能够模仿遥操作数据中呈现的操作行为,将虚拟环境中的合成数据与真实操作逻辑相结合,实现模型对任务执行模式的学习。图13:天准科技产品同步整合英伟达软件工具链天准公司官方公众号尽管其底层算力仍依赖于英伟达等芯片厂商,但这些控制器通过硬件集成、算法部署与系统优化,将通用算力转化为特定场景的智能行为,成为实现数字智能与物理执行深度融合的关键载体。随着机器人及自动驾驶系统复杂度的提升,具备强集成能力与行业知识的控制器厂商,其产业地位正从“从属执行者”向“系统定义者”逐步跃迁。数据供应符合物理规律的高质量数据是训练物理模型的前提,其获取成本与规模构成了核心壁垒。与互联网数据不同,物理AI所需的时空关联、多模态数据需求明确。数据的获取目前两个途径:(1)现实世界采集高质量数据,或是利用此前已经存储过的带有物理信息的数据;(2)利用生成式模型生成符合物理学规律的数据。CAE仿真与合成数据生成有望成为物理的“数据工厂”。CAE是工业领域设计仿真软件,主要应用于高端制造业。基于物理模型进行模拟仿真的标准化、工具型工业软件,主要应用于高端制造,特别是单次试错成本高的行业,如飞机、汽车制造等。其核心是本把物理和工程学科的理论模型做数学处理后得到的代数求解过程固化而成的计算机程序。因此CAE厂商在物理求解具备显著优势,其物理求解器开发及用户使用过程中,形成大量物理学数据积累。索辰科技是国产CAE领军企业,其核心价值在于利用多物理场仿真技术(涵盖流体、结构、电磁等)生成高保真合成数据。目前其“低空三维物理地图”可生成高分辨率、高量级密度的风场与电磁场数据,为低空飞行器的训练提供了在现实世界中难以采集的极端环境数据。这一能力可以具备泛化性,可在众多领域实现物理数据的供给。图14:对低空气象突变实时仿真,具备生成物理数据的能力索辰科技公众号CAD等厂商积累大量细分场景下的具备物理属性的空间信息。群核科技发布高质量3D高斯语义数据集InteriorGS,旨在为机器人和AI智能体提升空间感知能力。InteriorGS数据集包含1000个3D高斯语义场景,涵盖超80种室内环境,赋予智能体一个“空间大脑”,以提高其环境理解和交互能力。据公司公众号,该数据集或是全球首个适用于智能体自由运动的大规模3D数据集。图15:3D高斯语义数据集InteriorGS包含大量物理信息群核科技公众号数据的采集和校准对于精密仪器会有增量需求。现实世界感知与数字化构建物理AI的“数据校准源”。此环节负责将物理世界精准地数字化,为仿真提供初始模型并进行数据采集校准。思看科技、奥比中光、凌云光等3D视觉厂商处于数据采集领域上游。它们的机器视觉与深度感知技术,能够实时采集物体与环境的精确三维物理属性(如形变、位姿等),为构建数字孪生提供关键的初始数据输入。从“万物数字化”到构建“虚拟物理世界”,底层逻辑高度一致。数字化的底层逻辑是将日常可知可感的物体转化为数字世界的数字信号。图16:3D描以大量理息数据 思看科技官网模型和算法模型与算法构成物理AI产业的“智能核心”,是驱动整个产业链价值创造的核心枢纽。随着以Thor为代表的先进芯片快速迭代,机器人及智能驾驶的硬件基础正逐步标准化,这促使产业竞争焦点从算力追逐转向上层算法的创新与优化。未来,企业的核心竞争力将集中体现在其对物理规律的算法建模能力、对垂直场景的深度理解以及商业化落地效率上。在模型与算法层,产业格局呈现四类主要参与者并行发展的态势。以英伟达、谷歌为代表的全球科技巨头。英伟达不仅提供GR00TIsaacSimOmniverse构建了从模型训练、仿真测试到边缘部署的全链路能力,形成了“芯片+模型+工具链”的闭环生态。谷歌则凭借其在Transformer架构上的先发优势,通过RT系列模型在机器人操作领域持续突破,推动具身智能从专用型向通用型演进。专注于空间智能与世界模型的第三方平台。这类企业通常不直接涉足硬件制造或整机集成,而是专注于物理规律的数字化建模与仿真。它们通过构建高精度的多物理场仿真引擎和世界模型,为行业提供可靠的“虚拟试验场”,使客户能够在数字世界中安全、高效地训练和验证其AI模型。这类平台的核心价值在于其对复杂物理现象的精准模拟能力,填补了通用基座模型与特定行业应用之间的技术鸿沟。第三方算法解决方案提供商。以Momenta界模型技术为整车企业提供包括感知、预测、规划在内的全栈算法能力。这类企业的优势在于能够将前沿的AI研究成果与具体的行业需求相结合,通过工程化优化实现技术的大规模商业化应用。在机器人领域,类似的企业正通过构建可复用的算法模块,显著降低各行业部署智能机器人的技术门槛。索辰科技依靠其强大的物理仿真能力,已经在低空、机器人等领域提供成熟的算法解决方案,在特定场景实现规模化应用。图17:辰供器练平台 图18:辰供器时感算法 索辰科技公众号 索辰科技公众号整机厂自研。在智能驾驶领域,小鹏、理想等车企加大全栈自研投入,其中小鹏推出的第二代VLA模型实现了从视觉信号到控制指令的端到端映射,理想自研的MindGPT则专注于车载场景的智能交互。在机器人领域,优必选系统和算法框架,确保其机器人产品在复杂环境中的运动控制与任务执行能力。这种垂直整合的算法开发路径,使得整机厂能够更好地将技术优势转化为产品差异化特色。四类企业未来预计长期竞合,完整“物理AI”这一系统性工程。科技巨头通过构建基础模型和开发生态奠定产业基础,第三方平台在细分技术领域实现深度创新,解决方案提供商推动技术在实际场景中的规模化应用,而整机厂的自研体系则确保最终产品的最佳用户体验。落地和应用落地应用是物理AI价值的最终体现,系统集成商与行业解决方案提供商是推动技术赋能千行百业的关键。该环节将前三者的能力整合,为客户提供可运行的解决方案,其价值在于对行业知识的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年广安鑫鸿集团有限公司招聘备考题库及完整答案详解1套
- 2026年广州市花都区第一幼儿园招聘备考题库及答案详解一套
- 2026年图木舒克唐王城国有资产投资有限公司市场化选聘生产经营副总经理备考题库完整答案详解
- 2026年中复神鹰碳纤维西宁有限公司招聘备考题库及一套参考答案详解
- 2026年乐山市沙湾区医疗集团嘉农镇中心卫生院招聘备考题库完整答案详解
- 2026年国投国证投资(上海)有限公司招聘备考题库参考答案详解
- 2025年度下半年台州市黄岩区公开选调8名公务员备考题库完整参考答案详解
- 2025年光泽县县属国有企业专岗招聘退役军人备考题库有答案详解
- 2026年安龙国家山地户外运动示范公园招聘2名会计备考题库及参考答案详解一套
- 2026年凯里市华鑫高级中学教师招聘备考题库及1套参考答案详解
- 2025年查对制度考核考试题库(答案+解析)
- 云南省2025年普通高中学业水平合格性考试历史试题
- 骨关节疾病危害课件
- 《再见2025欢迎2026》迎新年元旦主题班会
- 猫屎咖啡介绍
- DB54T 0540-2025 区域性强降雨气象评估标准
- 2025-2026 学年三年级 道德与法治 随堂检测 试卷及答案
- 广西贵百河2025-2026学年高一上学期12月联考语文试题
- 《手术室护理实践指南(2025版)》
- 四川省2025年高职单招职业技能综合测试(中职类)汽车类试卷(含答案解析)
- 2025年虚拟数字人开发项目可行性研究报告
评论
0/150
提交评论