版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
投资案件结论和投资分析意见看好以小鹏VLA2.0为代表的算法推进后,智能驾驶泛化能力继续提升,并在部分场景中实现类似人类驾驶员的反馈。更重要的是技术外溢:VLA可能会技术外溢到其他具身智能领域,例如机器人与低空经济。相关标的:小鹏汽车(汽车、德赛西威(小鹏的ADAS合作伙伴准科技等。原因与逻辑VLA2.0体现更强大的泛化性,并在部分场景中实现类似人类驾驶员的反馈。可以实现小路NGP,小路相比高速和城区的辅助驾驶难度更高,根据小鹏官方数据,小路NGP行驶20公里的复杂小路,仅需要接管一次;可以读懂道路参与者的手势,红绿灯路口红灯倒计时将要结束时先慢慢向前蠕行。VLA1)VLA的继承关系。从单一模态处理(BERT/ViT)→跨模态对齐(CLIP/BLIP)→多模态理解生成(DINO/LLaVA)→感知决策执行闭环(RT-2/OpenVLA)。2)由于技术方案未收敛,因此一二级市场的投资存在分歧:例如HRL(分层强化学习)/MPC(模型预测控制)/VLA/端到端的选择。第二代VLA发布,对此类模型在产业界应用形成强力推动。有别于大众的认识市场认为VLA主要促进了智能驾驶能力,我们认为对于主机厂而言,VLA会很顺畅的应用于具身智能领域,形成技术外溢。根据小鹏米良川的表述,VLA在Manipulation上还未展现出质变。但在米良川看来,与其去卷进展速度,更应关注技术上限。在他看来,第二代VLA的上限是非常高的。发展过程可能缓慢,但涌现也会像自动驾驶一般突然出现。可推测小鹏的机器人和其他产品有可能复用VLA2.0的架构。市场认为小鹏VLA主要创新在算法迭代,我们认为本次更新结合了图灵芯片技术迭代。图灵芯片两大技术特点:1)独立ISP,模拟电路和感知部分增强,十分利于识/雨雪/深夜/ADASISP处理一层,再DSA+NPU加速。2)尽管未披露技术细节,推测图灵芯片支持低位宽,特别利于AIThorOrin,支持低位AI(VLA)8797PLLM_VLA,验证这种技术趋势。目录一、小发布二代VLA,实现更况优化 5二、算:VLA/VLM历史与展-机人与低空 7三、算:图片-感知低位宽 10四、标与风险 五、附:目流的其它VLA整理 12图表目录图1:小鹏VLA2.0黑暗路段行驶 5图2:小鹏VLA2.0通过窄路 5图3:小鹏VLA2.0通过复杂路口 5图4:小鹏VLA2.0在城市道路少顿挫、无误刹 5图5:小鹏VLA2.0去掉语言转译环节 5图6:VLA省略语言部分,与DeepSeekOCR的思路,有异曲同工之妙 6图7:GoogleDeepMind首次提出VLA架构 7图8:长期光明,ADAS+AD->Robo->机器人->低空经济->深海科技的技术外溢,VLA可能复用 图9:GoogleDeepmind大模型发展历程 14图10:GR-2预训练数据集展示 14图11:GR00TN1架构 15图12:Helix采用双层架构 16图13:智元启元大模型框架 17表1:VLA模型的来龙去脉和历史演进 8表2:机器人规划算法的主要小类,现代AI算法的优势。缺点是数据量/安全性/解释性/模型轻量化 表3:小鹏图灵芯片的架构/核心/技术特点等比较 11表4:智能驾驶行业重点公司估值表 11表5:不同VLA模型对比 12一、小鹏发布二代VLA,实现更多路况优化本周小鹏科技日上VLA2.0发布,根据官方介绍,VLA2.0效率更高、反应更快。做到小路更强悍,大路更舒适,场景更全面,丝滑贯通不同路况。第二代VLA有更广泛的适应能力,哪里都能开、宽窄都能过、昼夜都好用,可以轻松通过复杂路口,还实现了城市道路的少顿挫、无误刹、零推背。图1:小鹏VLA2.0路段驶 图2:小鹏VLA2.0窄路小鹏官方公众号、研究 小鹏官方公众号、研究图3:小鹏VLA2.0复杂口 图4:小鹏VLA2.0市道少挫无刹小鹏官方公众号、研究 小鹏官方公众号、研究二代VLA最大特点是:砍掉了传统VLA中间的语言转译环节,直接能够实现从视觉到动作。这个思路与DeepSeekOCR有异曲同工之妙。标准VLA普遍需要Vision-Language-Action两次转换语言作为中间转译环节,成为瓶颈,即使数据训练量极大,仍有大量信息损耗。VLA2.0通过去掉语言转译环节,实现更大的信息保留,模型虽然仍有文字推理部分,但不会通过CoT推理卡片的形式去呈现,而是Token化。图5:小鹏VLA2.0去掉语言转译环节小鹏官方公众号、研究VLA2.0的两个核心:1)让输入信号尽量使用真实世界的物理信号(videostream),而非大量的文本;2)输出空间不再采用文字的离散化表达,而是使用更多的连续信号来完成相关任务,从而让网络结构极其简单。二代VLA在训练过程中消耗了3万卡算力,201亿训练数据。图6:VLA省语部,与DeepSeekOCR思路有曲工妙 DeepSeek官网在实测中,VLA2.0体现更强大的泛化性,并在部分场景中实现类似人类驾驶员的反馈。1)VLA2.0NGP,小路相比高速和城区的辅助驾驶难度更高,根据小鹏NGP20公里的复杂小路,仅需要接管一次;2)VLA2.0可以读懂道路参与者的手势,红绿灯路口红灯倒计时将要结束时先慢慢向前蠕行;3)VLA2.0正式发布时还会有更多能力涌现。26Q1后VLA2.0将开始推送。25年12月底,VLA2.0会在部分先锋客户中体验;26Q12.0则会在Ultra车型上全量推送,另外Max车型也在着手规划。二、算法:VLA/VLM历史与延展-机器人与低空VLA是当前具身智能领域主流的模型类型。VLA(视觉-语言-动作模型)是一种将视觉输入、语言推理与动作输出端到端融合的模型。VLA最早是在2023年7月由GoogleDeepMind首次提出,发表于论文《RT-2:Vision-Language-ActionModelsTransferWebKnowledgetoRoboticControl》。图7:GoogleDeepMind次出VLA构 RT-2:Vision-Language-ActionModelsTransferWebKnowledgetoRoboticControlVLA架构具备端到端和泛化等特点,使其在机器人领域具备应用潜力:1)端到端架构;2)泛化能力:该模型可以在新的物体、背景和环境中表现出显著改善的性能;可以理解和响应未知的命令,并行进行推理和决策;3)通用性:VLA建立在通用的大模型训练基础之上,理论上所有的智能装备都可以使用同一套算法,只要经过适当微调就能满足特定应用场景的需求。当前,VLA在自动驾驶场景中得到广泛应用:VLA模型从自动驾驶车辆各类传感器收集的数据里,挖掘出丰富的周边环境信息;借助强大的语言模型理解人类给出的驾驶指令,并将决策逻辑梳理、展示出来,生成可被理解的决策流程;最终转化成实际的驾驶操作指令,指挥车辆的行驶动作。VLA模型的历史,有清晰的继承关系,近年在加强。VLM到VLA的演进呈现清晰脉络:从单一模态处理(BERT/ViT)→跨模态对齐(CLIP/BLIP)→多模态理解生成(DINO/LLaVA)→--执行闭环(RT-2/OpenVLA)表1:VLA模型的来龙去脉和历史演进年份 主体 标题 意义 备注年份 主体 标题 意义 备注20212023年72023年72024年92024年9
OpenAI谷歌李飞飞等验室,UCBerkeleyMideaGroup,EastChinaUniversity,et
《LearningTransferableVisualModelsFromNaturalLanguageSupervision(从自然语言监督中学习可迁移的视觉模型)》《RT-2:Vision-Language-ActionModelsTransferWebKnowledgetoRoboticControl(RT-2:视觉-语言-动作模型将网络知识迁移至机器人控制)》《VOXPOSER:Language-Conditioned3DValueMapsforRoboticManipulation(VOXPOSER:基于语言条件的三维价值映射)》《OpenVLA:AnOpen-SourceVision-Language-ActionModel(OpenVLA:一个开源的视觉-语言-动作模型)》《TinyVLA:TowardsFast,Data-EfficientVision-Language-ActionModelsforRoboticManipulation(TinyVLA:面向机器人操作的快速、数据高效视觉-语言-动作模
模型获得零样本迁移能力,在30+视觉任务上媲美全监督模型机器人在未见场景成功率从32%提升至62%LLM)VLM)码705502-x
AlecRadford,JongWookKim,etal.LiFei-Fei(李飞飞),PeteFlorence,KarolHausman,etal2025
al.
型)》 轻量级VLA架构《CoT-VLA:VisualChain-of-ThoughtReasoningforVision-年3月 NVIDIA,Stanford,MIT
Language-ActionModels(CoT-VLA:视觉-语言-动作模型的视觉思维链推理)》
通过视觉思维链增强,使VLA模型能进行多步骤推理神经信息处理系统大会(NeurIPS)、计算机视觉与模式识别会议(CVPR)、国际学习表征会议(ICLR)等其它主流VLA算法方案可以见附录。我们在2025年3月《机器人算法:硬件遇上现代AI算法》指出了VLA算法:规划算法较为直观,因为VLM1模型、VLA2模型,均是近期产品发布重点,也较为直观。表2:机器人规划算法的主要小类,现代AI算法的优势。缺点是数据量/安全性/可解释性/模型轻量化规划算大 小类类传统 传统 传统算法1 算法2 算法3缺点现代1 现代2优点(RL+大模型+端到端)P2PPlanning动态弱RL强化规划1VLM,VisionLanguageModels,视觉语言模型2VLA,VisionLanguageActionModels,视觉语言动作模型任务目标划分
点对点路径规划Completetraversal完全遍历路径规划DynamicProgramming动态复杂任务规划GlobalPathPlanningDijkstra算法 A算法 D算法螺旋法 随机覆盖法 栅格法
多目标耦合弱
DQN+RL HRL+MPC(如波士顿动力)
多任务协调,动态环境信息划
全局路径规划LocalPathPlanning
可视图法
Voronoi法
模板模型法
梯度问题,分 局部路规划Multi-modalSensorFusionPlanning多模态感知规划Search
人工势法 动态窗法 BUG法BFS A算法 ThetaTheta星
局部最优单传感器适应性需静态建模,应对动态/未
(视觉、IMU)用网络)
整体最优点实时避障CNN+Trans-former,算法原理划
基于搜索Sampling基于采样
广度优算法 A星算法 算法RRT PRM快速搜随机树 概率路图
知弱随机采样收敛效率低
不用显式建模CNN预测,指导RRT分特殊场景
Bio-Inspired生物启发式Semantic-Driven语义驱动DynamicPlanning动态环境规划Human-MachineCollaboration人机协作规划
ACO GA,Genetic蚁群算法 遗传算法增量式搜索LPA DLite LPA
泛化性差高层理解弱响应延迟安全性
RL强化学习(如宇树的PPO+Sim2Real)VLA(如FigureHelixAD等OnlineRL+(如云深处)人机协同势场+安全强化(APF+SafeRL)
用自适应和摔倒恢复人类意图协同,安全注:HRL是分层强化胡广书等《数字信号处理——理论、算法与实现》,JohnGProakis等《数字信号处理-原理,算法与应用》,NormanNise等《ControlSystemsEngineering》,Spong《RobotModelingandControl》,Murry《AMathematicalIntroductiontoRoboticManipulation》对于决定整体智能的规划算法,有多种技术架构。由于技术方案未收敛,因此一二级市场的投资存在分歧:HRL(分层强化学习);MPC(模型预测控制);VLA(视觉-语言-行动);2025VLA(视觉-语言-行动)Helix。端到端;小鹏第二代VLA发布,对此类模型在产业界应用形成强力推动。更加重要的是:VLA可能会技术外溢到其他具身智能领域,例如机器人与低空经济。根据小鹏米良川的表述3VLA在Manipulation上还未展现出质变。但在米良川看来,与其去卷进展速度,更应关注技术上限。在他看来,第二代VLA的上限是非常高的。发展过程可能缓慢,但涌现也会像自动驾驶一般突然出现。可以推测小鹏的机器人和其他产品有可能复用VLA2.0的架构。偏模组视觉摄像头视觉传感器传感器视觉RoboTaxi+RoboVan国外复用占用网络,国内复用多摄传感器复用车,尤其Lidar例如BEV+OCC+Transformer视觉工业+服务机器人视觉无人机视角AI视觉水下视觉传感器飞行汽车安全系统和飞行控制等方面应用了多种传感器,如激光雷达、摄像头等芯片基带+处理器例如2d度传感器例如特斯拉optimus传感器例如小鹏汇天偏模组视觉摄像头视觉传感器传感器视觉RoboTaxi+RoboVan国外复用占用网络,国内复用多摄传感器复用车,尤其Lidar例如BEV+OCC+Transformer视觉工业+服务机器人视觉无人机视角AI视觉水下视觉传感器飞行汽车安全系统和飞行控制等方面应用了多种传感器,如激光雷达、摄像头等芯片基带+处理器例如2d度传感器例如特斯拉optimus传感器例如小鹏汇天芯片传感器声呐、DSP芯片水下动力学电机芯片复用NV+国产车芯片+国产GPU电机复用电动车地图L4需要高精地图保鲜芯片例如AI芯片例如小鹏人形机器人电机例如宇树关节电机例如驱动电机,可应用于智能汽车的电动尾门、电动座椅调节先进飞行汽车控制系统采用类似汽车AD高性能计算芯片,实时控制飞行姿态、导航、避障芯片空气动力学电机eVOLT电机例如,250kw及以下航空电机及驱动系统规模化量产技术借鉴AD与机器人控制系统控制系统复用控制系统例如广汽gomate复用AD/机器人运控例如自研纯视觉自动驾驶算法控制系统飞行姿态、速度、高度等的精确控制电源管理手机级能源系统能源系统复用电动车例如凝聚态电池用于汽车能源系统例如宁德时代凝聚态电池例如航空级别的安全和质量能源系统例如 宁德时代凝聚偏系统航态电池空级标准和测试智能手机技术外溢即产业复用差3-5年技术外溢即产业复用材料轻薄、韧性、符合光学、部分符合仿生智能车与电动车差2年即产业复用智能车与机器人差3年机器人再技术外溢即产业复用机器人与低空差3-5低空材料高性能材料低空经济深海研究三、算力:图灵芯片-感知与低位宽根据小鹏官方和发布新闻,可以发现上述VLA2.0是基于图灵芯片。特点如下:DSAGPU;40ARM+NPU+ISP;VLA30010-50亿参数模型;此外,我们要特别指出两大技术特点:独立ISP/雨雪/深夜/而感知前融合往往是高阶ADAS的基础。先用ISPDSA+NPU加速。5)尽管未披露技术细节,推测图灵芯片支持低位宽,特别利于AI推理和自动驾驶。这样功耗低、延迟少。Thor比起Orin,支持低位宽和AI算法(VLA)更充分,而高通8797P也支持LLM_VLA,验证这种技术趋势。3RoboX,小鹏汽车AI大牛详解:第二代VLA与机器人的「涌现」背后,年月日因此小鹏的VLA2.0离不开自研图灵芯片的支持。而图灵芯片诸多亮点外,我们要额外指出感知层的加强、AI推理(低位宽数据精度)的支持,这应当与最新的技术趋势一致。芯片型号小鹏图灵芯片型号小鹏图灵OrinThor 8797P架构DSAAmpere架构Blackwell架构 第三代Oryon架构,支持异构12×大核+6×12×大核+6×小核14核ARMNeoverse-V3AECPU12核ARMCortex-A78AECPU40推测为ARMCortex-A78AE版核心数其他核心
双自研NPU(神经网络处理器)+双独立ISP
2048个CUDA核心,64个TensorCore+第二代DLA+PVA
2560CUDA个第五代TensorCore
Adreno7系列GPU,4个HTP张量计算器(NPU)8HVX制程工艺 预计制程工艺 预计7nm 预计7nm 预计台积电N4P 预计台积电N4P模型支持
300亿(如GPT-4级别)重点优化VLM
Transformer+YOLO, Transformer+VLA LLM+VLA主要10亿参数支持 支持 INT8、INT4、FP4/FP8/FP16/FP32/INT8 FP16、BF16等 等,优化稀疏INT8/INT4格式支持FP32(5.3TFLOPS)、INT8(170TOPS稀疏算力)和INT4(软件量化)运算倍)/或支持INT4/FP16/FP32/混合精度等数据类型支持INT8(Orin-X3技术特点
DSA+双NPU+车规矩可靠+内存与带宽优化
功能安全+异构计算+通信与接口+
多域融合+C2C互连+内存与接口优化
舱驾一体融合+安全冗余+通信与接口+能效优化小鹏官网,英伟达官网,高通官网,新智元,高工智能汽车四、标的与风险相关标的:小鹏汽车(汽车)、德赛西威(小鹏的ADAS合作伙伴)、极智嘉、天准科技等。股票代码股票简称2025/11/10净利润(亿元)股票代码股票简称2025/11/10净利润(亿元)PE总市值(亿元)2024A2025E2026E2027E2024A2025E2026E2027E9868.HK小鹏汽车-W1,601-57.9-14.926.568.3--6123002920.SZ德赛西威70220.026.433.241.5352721172590.HK极智嘉-W305-8.31.23.76.9-2618244688003.SH天准科技1031.21.52.22.783674638;注:盈利预测取 一预期,港股公司货币均选CNY风险来自以下方面:该领域其他技术选择依然存在,例如端到端、快慢双系统。我们预计同行公司后续会推出下一代发布。且新发布可能同时汲取小鹏的技术趋势与自身原有特色。相关公司往往处于收入高增、研发与销售投入阶段,因此估值倍数不稳定。产业链稳定性的潜在风险。五、附录:目前主流的其它VLA算法整理VLA模型存在多种技术路径和架构,衍生出来不同的方法,各具优势。我们参考文章《具身智能中VLA主流方案全解析:技术总结与未来展望》进行梳理分析:基于经典Transformer结构的方案,利用Transformer的序列建模能力,将强化学习轨迹建模为状态-动作-奖励序列,提升复杂环境下的决策能力;基于预训练LLM/VLM的方案,将VLA任务视为序列生成问题,借助预训练模型处理多模态信息并生成动作,增强泛化性和指令理解能力;DiffusionPolicy、RDT-1B通过去噪扩散概率模型生成动作,适用于高维动作空间和复杂动作分布;LLM+LLM的多模态表征压缩与扩散模型的动作生成能力,提高复杂任务中的性能;视频生成+逆运动学方案,先生成运动视频再通过逆运动学推导动作,提升可解释性和准确性;显示端到端方案,直接将视觉语言信息映射到动作空间,减少信息损失;隐式端到端方案,利用视频扩散模型预测未来状态并生成动作,注重知识迁移;分层端到端方案,结合高层任务规划与低层控制,提升长时域任务的执行效率。表5:不同VLA模型对比方案类型 典型方法 核心思想 优势 应用场景方案类型 典型方法 核心思想 优势 应用场景经典Transformer结构
ALOHA(ACT)、RT-1、HPT
将强化学习轨迹建模为状态-动作-奖励序列,利用Transformer的序列建模能力
提升复杂环境下的决策能力,支持长序列依赖建模
复杂机器人控决策预训练 RT-2、LLM/VLMDiffusion
将VLA任务视为序列生成问题,借助预训练模型处理多模态信息并生成动作通过去噪扩散概率模型生成动
增强泛化性、指令理解能力,支持零样本/少样本学习适合连续高维动作生成,样本效
多模态指令遵机械臂运动控扩散模型
Policy、RDT-1B
作,适配高维动作空间和复杂分 率高布
制、灵巧手操作LLM+扩散模型
Octomπ LLM散模型的动作生成能力
融合语言理解与精细动作生成,提升复杂任务性能
人机协作、多步骤指令执行视频生成+逆运动学
UniPiRo、BoDreamer
先生成运动视频,再通过逆运动学推导动作
增强可解释性,提升动作准确性 人形机器人运动规划、舞蹈生成显式端到端 直接映射方案 将视觉语言信息直接映射到动空间,减少中间处理步骤
低延迟、高响应速度,适合实时控制
无人机导航、移动机器人避障隐式端到端 SWIM 利用视频扩散模型预测未来状并生成动作,注重知识迁移
支持无监督学习,适应未知环境 未知场景探索、跨任务泛化分层端到端 高层规划+低层控制具身智能之心公众号
结合高层任务规划与低层控制,优化长时域任务执行效率VLA架构仍然处于科学研究阶段,学术界和产业界研究在不断提升模型效果,做出持续努力,下面是具身智能领域知名的论文和产业成果:GoogleDeepmind系列:RT1、RT2、RT-X模型1)谷歌RT-1:基于经典Transformer结构方案2022年,谷歌推出RT-1,它能从机器人的相机中获取图像历史记录同时将以自然语言表达的任务描述作为输入,通过预训练的FiLMEfficientNet模型将它们编码为token,然后通过TokenLearner将大量标记映射到数量更少的标记中,实现标记压缩,最后经Transformer输出动作标记。其可以成功吸收来模拟环境和其他机器人的异构数据,不仅不牺牲在原始任务上性能,还提高了对新场景的泛化能力。RT-2LLM/VLM方案2023年7月,谷歌推出全球首个控制机器人的VLA模型RT-2,在视觉-语言模型(VLM)的基础上提出了视觉语言动作(VLA)模型,并在预训练的基础上进行联合微调得到实例化的RT-2-PaLM-E和RT-2-PaLI-X。它可以从网络和机器人数据中学习,并将这些知识转化为机器人控制的通用指令。PaLM-EPaLI-X是两个已接受网络规模数据训练的视觉语言模型(VLM),相当于赋予机器人规模足够大的数据库,使其具备识别物体和了解物体相关信息的能力。RT-2具备较强的泛化能力:通过将视觉语言模型与机器人操作能力结合,将网络规模预训练的VLM在语义和视觉上的泛化、语义理解和推理等能力有效转移;此外,RT-2还具备三个涌现能力:1)推理:RT-2的核心优势,要求机器人掌握数学、视觉推理和多语言理解三大技能;2)符号理解:能将大模型预训练的知识,直接延展到机器人此前没见过的数据上;3)人类识别:能够准确识别人类。RT-XRT-1RT-2模型,引入开源大型数据集训练202310月,谷歌推出在大规模、多样化的机器人学习数据集OpenX-Embodiment上训练得到的RT-X模型。其数据集由全球21家机构合作,涵盖了22种不同机器人类型100万个片段,展示了500150000项任务上的表现。RT-X模型采用了基于Transformer的架构和算法,结合了RT-1和RT-2两个模型,其泛化、涌现能力得到了大幅提高。图9:GoogleDeepmind模发历程 谷歌官网字节跳动GR-2:视频生成+逆动力学方案字节跳动ByteDanceResearch团队着手于机器人模仿学习人类成长过程,将多模态素材的学习与预测直接集成到机器人控制中,以促进泛化并实现高效动作预测和视频生成。2024年10月,ByteDanceResearch发布第二代机器人大模型GR-2。GR-2的训练包括预训练和微调两个过程。1)预训练阶段:GR-2在3800万个互联网视频片段上进行生成式训练。这些视频来自学术公开数据集,涵盖了人类在不同场景下(家庭、户外、办公室等)的各种日常活动,使其迅速学会人类日常生活中的各种动态和行为模式。2)微调阶段:GR-2通过几项关键改进提升了其在实际任务中的表现。首先,GR-2引入数据增强技术,通过改变训练数据中的背景和物体,使其在未见环境下更具泛化能力;其次,模型通过多视角训练,利用不同角度的视觉数据,增强了其在复杂场景中的操作灵活性和准确性;此外,GR-2使用了条件变分自编码器(cVAE),生成连续、平滑的动作序列,确保任务执行时的动作更加高效和精准。在经历大规模预训练后,通过在机器人轨迹数据上进行微调,GR-2能够预测动作轨迹并生成视频。经过多次大模型预训练与微调后,研究团队发现GR-2的视频生成与动作预测模型符ScalingLaw。随着模型规模的增加,GR-27亿参数规模的验证中发现,更大的模型不仅能够处理更多复杂的任务,而且在泛化到未见过的任务和场景时也表现得更加优异。在多任务学习测试中,GR-2能够完成105项不同的桌面任97.7%。图10:GR-2预练集展示 Chi-LamCheang《GR-2:AGenerativeVideo-Language-ActionModelwithWeb-ScaleKnowledgeforRobotManipulationGR2-预训练数据集。研究团队展示了样本视频和我们策划的预训练数据集的动词分布。底部图的y轴是顶部单词的对数频率。GR00TN1:双系统架构,基于扩散模型和Transformer架构2025年3月19日,英伟达GTC发布会推出通用人形机器人基础模型GROOTN1(IsaacGroot),该模型模仿人类大脑的思考模型,采用双系统架构,融合两种计算范式:系统2(视觉-语言模块):基于NVIDIA的Eagle-2VLM模型,由SmoILM2语言SigLIP-2图像编码器组成,能将图像和文本编码为统一表示。可以推理周围环境和指令含义,进行行动规划,类似人类大脑深思熟虑的决策过程。系统1-扩散变换器模块:基于DiffusionTransformer(DiT),负责将系统2规划的动作转化为精确、连续的机器人动作,如同人类的本能反应,可快速执行任务。图11:GR00TN1架构 英伟达全栈工具链如何重构Groot机器人开发链路FigureAI的Helix:双层架构2025220日,FigureAI发布VLA模型Helix。Helix的特点为:1)全上身控制,包括手腕、躯干、
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中国科学院海西研究院泉州装备制造研究中心所创新平台业务主管招聘备考题库及答案详解1套
- 2025年上海交通大学医学院附属第九人民医院口腔颅面及感官综合健康研究院招聘备考题库及一套完整答案详解
- 2026年企业并购合同标准格式
- 2025年“才聚齐鲁成就未来”山东省旅游工程设计院有限公司部分岗位公开招聘备考题库及一套完整答案详解
- 湖南省衡阳县江山中英文学校2026届语文高三上期末预测试题含解析
- 2026年建筑洁净棚安装合同
- 2025年滨州医学院附属医院公开招聘呼吸与危重症医学科主任助理备考题库附答案详解
- 虚拟现实技术应用市场前瞻
- 本人对家庭保障的承诺函(4篇)
- 浙江省嵊州市高级中学2026届数学高三第一学期期末质量跟踪监视模拟试题含解析
- 云南中考英语5年(21-25)真题分类汇编-中考语篇题型 阅读理解句子还原7选5
- GB 38304-2025手部防护防寒手套
- 2025年广西度三类人员(持b证人员)继续教育网络学习考试题目及答案
- 食品法律法规教学课件
- 规范使用执法记录仪课件
- 掘进机维护保养课件
- 可转债券投资协议书范本
- GJB939A-2022外购器材的质量管理
- 《通信工程监理》课件第4章、通信线路工程监理
- 2025年光伏电站运维服务合同正规范本
- 医务人员职业道德准则(2025年版)全文培训课件
评论
0/150
提交评论