版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第八章具身智能与机器人系统《人工智能通识教程》配套课件《人工智能通识》教研组本章概述本章系统讲述具身智能及其机器人应用,涵盖传统技术、大模型赋能、体系结构及多领域实践,展示具身智能的技术发展与实际价值。主要讲述的内容如下:(1)具身智能及具身人工智能的定义、发展历程与异同。(2)传统具身智能技术,包括行为基础AI、神经启发AI、认知发展与进化机器人。(3)基于大模型的具身智能技术,及其设计自动化和基础分类。(4)具身智能的典型任务、体系结构、优缺点及与机器人智能的关系。(5)具身智能机器人的发展,包含自动驾驶演变及大模型应用实例。(6)具身智能机器人在医疗、工业和家庭的实际应用。(7)人形机器人概念、分类及UnitreeG1机器人案例分析。本章目录8.1什么是具身智能8.2具身智能和具身人工智能8.6具身智能的体系结构8.5典型的具身智能任务8.4基于大模型的具身智能技术8.3具身智能的传统技术8.7具身智能的优点、缺点与难点8.8具身智能与机器人智能的关系8.9具身智能机器人8.10具身智能机器人大模型8.11具身智能机器人的应用8.12人形机器人本章目录8.1什么是具身智能8.2具身智能和具身人工智能8.6具身智能的体系结构8.5典型的具身智能任务8.4基于大模型的具身智能技术8.3具身智能的传统技术8.7具身智能的优点、缺点与难点8.8具身智能与机器人智能的关系8.9具身智能机器人8.10具身智能机器人大模型8.11具身智能机器人的应用8.12人形机器人8.1什么是具身智能具身智能(EmbodiedArtificialIntelligence,EAI)是一个融合多学科技术与理论的研究领域,旨在揭示智能如何通过智能体与环境的互动而得以展现。具身智能不同于传统人工智能单纯依赖算法,具身智能强调智能不仅存在于计算过程之中,更是在智能体的身体与外部世界的动态交互中实现。该理论认为,智能行为源自智能体的物理存在及其行动能力,智能体必须具备感知环境并主动执行任务的能力,从而实现真正的智能表现。具身智能源于与环境的真实互动,融合多学科技术,强化感知、决策与控制。其在家庭、医疗、工业与救援等场景落地,推动机器人自主与实用化。(1)历史与思想Brooks提出“行为源自环境互动”理念,挑战计算主义。研究由感知-行动闭环出发,强调实时性与适应性。(2)技术融合结合机器学习、机器人学、计算机视觉、NLP与强化学习,构建端到端感知-决策-控制协同体系。8.1什么是具身智能(3)多模态感知整合视觉、听觉、触觉与本体感,利用对比学习与融合网络,提升环境理解、鲁棒性与域泛化。(4)家庭自动化学习住户习惯与偏好,执行清洁、整理与看护。持续在线学习与安全约束,提升服务质量。(5)医疗辅助在病房与手术场景执行监测、递送、辅助手术。通过实时感知与风险控制,提高效率与安全性。(6)工业自动化完成搬运、装配、检测与柔性换型。基于生产状态自适应策略,减错提效,支持小批量多品种。(7)灾害搜救在极端环境中自主导航、建图与定位伤者。多传感协同与任务规划,保障救援效率与安全。本章目录8.1什么是具身智能8.2具身智能和具身人工智能8.6具身智能的体系结构8.5典型的具身智能任务8.4基于大模型的具身智能技术8.3具身智能的传统技术8.7具身智能的优点、缺点与难点8.8具身智能与机器人智能的关系8.9具身智能机器人8.10具身智能机器人大模型8.11具身智能机器人的应用8.12人形机器人8.2具身智能和具身人工智能具身智能探究生物体以身体感知与运动获取知识的机制,偏重生物与心理理论;具身人工智能在机器人中融合实体身体以学习与执行任务,侧重算法与工程。前者求解自然智能,后者追求可用机器。8.2具身智能和具身人工智能具身智能的研究虽然起源很早,但只有一段很短的历史,如图8-1所示。8.2.1具身智能和具身人工智能发展历程图8-1具身智能的发展历程8.2具身智能和具身人工智能具身智能强调认知源自感知-行动与环境耦合。其思想横跨哲学、生理与心理学,并在AI从符号主义到联结主义转向中成为理解与构建智能的新范式。(1)古典根源亚里士多德强调身体主体性,反对纯理性脱身。此观念为后来具身视角奠基,突出感知与运动在认知中的地位。(2)学术谱系达尔文、梅洛-庞蒂、伯纳德、坎农、海德格等,从生物、现象学与生理学阐明身体对智能的塑造作用。(3)控制论影响维纳控制论使反馈理念普及自然与社会科学,为感知-动作闭环、信息与控制统一提供理论框架与方法论。8.2具身智能和具身人工智能(4)发展心理学皮亚杰指出动作是认知之源。婴儿通过操作形成对象恒常与因果理解,支撑“行动生成知识”的具身主张。(5)生态心理学吉布森提出可供性,强调感知与环境耦合。视觉理解依赖行动可能性,弱化中介表征,强调直接知觉。(6)符号主义反思GOFAI以抽象表示与规则推理为核心,忽视身体作用。马尔质疑表征,卢卡斯借哥德尔挑战机器思维极限。(7)联结主义兴起多层感知机、反传与深网提升学习与泛化,但在物理交互、稳健与可解释性上仍不足,难解具身挑战。8.2具身智能和具身人工智能(8)莫拉维克悖论下棋易、感知行动难。明斯基引入强化学习,布鲁克斯倡导无表征、分层行为机器人,凸显“身体先于表征”。具身人工智能的发展历程如图8-2所示。图8-2具身人工智能的发展历程8.2具身智能和具身人工智能具身人工智能和具身智能有什么相同和不同?具身人工智能(EmbodiedAI)和具身智能(EmbodiedIntelligence)是相互关联但有些不同的概念。以下是它们的相同点与不同点:1.相同点(1)主体性:两者都强调智能体与物理环境的互动。无论是具身人工智能还是具身智能,都是通过与周围世界的物理互动来获取和应用知识。(2)环境影响:它们都认识到智能体的行为和决策受到其环境的影响。这意味着智能体在实际环境中获取的经验是其学习和适应能力的关键。(3)身体性的重要性:两者都强调身体(或实体)的形态和运动对于智能的形成和发展具有重要意义。没有身体的智能体无法完整地理解或适应动态环境。8.2.2具身智能和具身人工智能相同点和不同点8.2具身智能和具身人工智能2.不同点(1)定义与范围具身智能:这个概念通常用于描述生物智能(如人类和动物)如何通过身体的感知和运动能力来感知世界并做出反应。具身智能涉及更广泛的生物学和心理学理论,强调智能是由身体结构和运动方式所决定的。具身人工智能:这是一个更具体的术语,指的是在人工智能中融入物理身体(或机器人)以执行任务和学习的智能体。具身人工智能更关注算法、机器学习和硬件设计等技术层面。(2)应用领域具身智能:研究领域广泛,涉及生物学、认知科学和心理学,探讨如何通过身体和感知来理解学习、行为和智能的本质。具身人工智能:主要应用于机器人技术、人工智能等领域,关注如何在机器人系统中创建具有实际操作能力的智能体。例如,如何让机器人通过感知和运动与环境进行互动。8.2具身智能和具身人工智能(3)目标与目标具身智能:研究目的是理解自然智能的基本机制。具身人工智能:其目标是设计和实现可以在真实环境中灵活、有效地操作的智能机器。本章目录8.1什么是具身智能8.2具身智能和具身人工智能8.6具身智能的体系结构8.5典型的具身智能任务8.4基于大模型的具身智能技术8.3具身智能的传统技术8.7具身智能的优点、缺点与难点8.8具身智能与机器人智能的关系8.9具身智能机器人8.10具身智能机器人大模型8.11具身智能机器人的应用8.12人形机器人8.3具身智能的传统技术具身智能的传统技术包括多个关键领域。首先,基于行为的人工智能强调通过简单的行为交互来生成复杂智能,批判传统的复杂模型。其次,受神经生物学启发的人工智能模拟动物的情感与感知。认知发展机器人学结合心理学与神经科学,关注机器人如何通过环境学习。进化机器人学利用模拟自然选择的算法使机器人自主发展能力。最后,物理体现与互动探讨身体与环境的关系,强调思维与身体形态的紧密联系。这些技术为具身智能的发展奠定了基础。8.3具身智能的传统技术基于行为的AI由布鲁克斯提出,以简单行为模块并行协作替代复杂内模与规划,强调与环境的实时互动与涌现智能,推动具身智能发展。(1)核心思想分层行为模块并行竞争与协作,直接以感知触发行动,最小化内部状态与表征,依靠环境作为“外部记忆”。(2)对传统AI的批判反对重内模与全局规划的计算主义,指出其脆弱与迟滞,难应对动态与不确定环境的实时需求。(3)实时与鲁棒性强调紧耦合感知-行动回路,低延迟响应、局部最优即刻执行,以冗余与反馈提升在噪声中的稳健性。8.3.1基于行为的人工智能8.3具身智能的传统技术(4)学习与适应倡导试错与环境反馈驱动的在线适应,可结合进化策略、强化学习微调行为增益与抑制关系。(5)工程实现采用子求解器与行为抑制/仲裁机制(如子sumo式抑制),简化传感器到执行器映射,便于部署维护。(6)应用场景在移动机器人、仓储物流、无人机巡检、无人驾驶子系统与柔性制造中,实现快速导航、避障与抓取。(7)与深度学习融合以深度感知提供鲁棒特征,以RL优化行为权重与策略切换,保留紧耦合优势,增强跨场景泛化。8.3具身智能的传统技术受生物大脑启发,模拟动物感知与交互,将神经架构与功能迁入AI,特别用于机器人情感感知、表达与社交行为,提升适应与互动能力。核心观点主要包括以下几个方面:1.情感的普遍性情感非人类独有,广泛存在于动物。比较动物与人类情感可揭示其生物基础与进化意义,为机器人情感提供设计视野与参照,突破人类中心论局限。2.情感的神经基础不应仅归因特定脑区,需重视神经递质与调节网络在情感形成、维持与与认知行为交互中的作用。多层次神经视角为机器人情感架构提供关键启示。8.3.2受神经生物学启发的人工智能8.3具身智能的传统技术3.情感的功能角色情感是多级信息交流与行为调节机制,虽简化信息却具强影响力,能高效引导选择与适应。此功能性视角指导机器人具备可操作的情感调节能力。4.情感与机器人的实现以情感功能与机制为依据,构建仿生感知—表达模型,使机器人在真实互动中更自然地响应刺激与人类信号,增强适应性、自主性与人机交互品质。8.3具身智能的传统技术该方法融合发展心理学、神经科学与认知科学,聚焦机器人通过感觉运动和社会互动自主学习成长。史密斯(Smith)提出动态系统理论,批判传统认知发展强调稳定性和抽象概念,强调认知与行为自组织、环境耦合,是持续变化的整体过程。具体而言,史密斯提出了以下核心观点:1.认知是即时事件认知不依赖固定内表征,而在特定时刻即时生成。每次认知独特且动态,受环境与内在状态共同塑造;动态系统视角认为认知持续流变而非静态命题。2.认知深度嵌入物理世界认知由身体—环境持续互动形成,经感知—运动闭环不断调整。动作、感觉输入与环境反馈协同塑造智能,使认知成为耦合系统的产物而非脑内孤立处理。8.3.3认知发展机器人学8.3具身智能的传统技术3.认知系统的非静态特性认知系统随环境变化与行为执行而演进。理解其发展需把握与外部世界的耦合机制,说明系统如何通过自身活动持续重组,呈现历史依赖与路径敏感性。4.多模态感知的协同作用视觉、听觉、触觉等提供多维输入,对同一世界给出互补视角。时间对齐与跨模态影响促使内部表征重组与策略更新,推动认知系统的自组织与进化。5.探索与社会互动的重要性婴儿通过抓握、触摸、移动等探索习得物体与空间理解;与看护者的互动提供语言与情感线索。感觉运动经验与社会输入共同驱动认知发展轨迹与节律。史密斯的动态系统理论以实时过程与物理耦合挑战静态框架,提供整体、连续、可演化的认知发展视角。8.3具身智能的传统技术进化机器人学以自然选择为范式,用进化算法自动优化控制与形态,使机器人在复杂环境中自适应涌现行为,无需显式编程。1.核心机制以选择、复制、变异为主循环,评估适应度驱动改进;从随机初始群体出发,逐代积累优势特征,涌现高性能策略。2.表征与编码用人工染色体编码控制器参数与结构,支持神经网络拓扑、增益、时延与形态参数等,兼容模块化与可重用基因。3.评估与环境在模拟或真实环境执行任务,通过任务完成度、能耗、鲁棒性等指标综合打分,避免过拟合单一场景与捷径行为。8.3.4进化机器人学8.3具身智能的传统技术4.形态—控制共进化同时进化机体形态与控制策略,利用体形约束与被动动力学,降低控制复杂度,提升能效与适应性。5.算法工具采用遗传算法、进化策略、CMA-ES与神经进化(NEAT、HyperNEAT),结合动态系统方法稳定复杂行为。6.噪声与鲁棒性引入环境与传感噪声、域随机化与对抗评估,促进策略稳健泛化,缓解“模拟到现实”落差与脆弱依赖。8.3具身智能的传统技术7.群体与协作进化多智能体的局部规则与通信协议,涌现分工、编队、覆盖与集群建造,强调可扩展与去中心化控制。8.应用与前景用于自主导航、抓取操作、灾难救援与行星探测;与深度强化学习结合,实现搜索引导、迁移初始化与自适应。8.3具身智能的传统技术物理体现与互动强调认知源于身体—环境的动态耦合,不是大脑孤立运作。身体结构与功能深刻塑造思维:思考在身体资源与限制中发生并被其支持。该取向以具身智能为核心,主张感知—行动闭环促使智能涌现。具体而言,物理体现与互动的方法包含以下几个核心方向:1.具身与思维的内在联系思维类型受具身性制约:身体结构、形态与物理属性深刻塑造认知。身体非被动容器,而是积极参与者与推动者,促使AI从符号与纯算法转向具身认知与感知—运动研究。2.通过构建智能系统来理解智能本质坚持“构建即理解”,以具物理形态且可环境交互的系统为载体验证理论。实践驱动加深对机制的把握,促成理论—工程耦合,推动智能机器人与具身智能的快速发展。8.3.5物理体现与互动8.3具身智能的传统技术3.具身智能的深远意义将智能视为感知、动作与环境反馈的动态系统,凸显身体不可替代作用。为人机交互自然化、自主适应机器人与复杂环境灵活应对提供新思路,拓展认知科学与AI的未来路径。本章目录8.1什么是具身智能8.2具身智能和具身人工智能8.6具身智能的体系结构8.5典型的具身智能任务8.4基于大模型的具身智能技术8.3具身智能的传统技术8.7具身智能的优点、缺点与难点8.8具身智能与机器人智能的关系8.9具身智能机器人8.10具身智能机器人大模型8.11具身智能机器人的应用8.12人形机器人8.4基于大模型的具身智能技术大语言模型(LargeLanguageModel,LLM)提升机器人自然语言理解与生成,增强人机交互自然性。推动个性化任务执行和复杂决策能力,实现多模态信息融合。典型如PaLM-SayCan指导物理任务。尽管计算资源大、内容准确性需控,LLM赋能具身智能助力机器人更智能、自主和人性化发展。8.4基于大模型的具身智能技术在基础大模型的分类中,每个类别因其独特的功能和应用场景,对机器人技术的发展贡献各异,同时也存在各自的局限性。1.视觉基础模型(VFM)ResNet、VGG、Inception等在特征提取与识别上表现卓越,提升机器人对复杂场景与目标的识别效率与准确率。但依赖大量标注数据,迁移与泛化到未见环境受限。2.视觉内容生成模型(VGM)GAN、VAE可生成逼真图像,用于模拟训练与数据扩增,增强鲁棒性与适用范围。但易引入偏差,训练不稳定、流程复杂且算力消耗高,限制大规模应用。3.大语言模型(LLM)GPT-4、BERT、Transformer显著强化机器人语言理解、生成与推理,使人机对话更流畅自然。但训练需海量语料与巨大算力,部署成本高、延迟与能耗突出。8.4.1赋能具身智能机器人的基础大模型分类8.4基于大模型的具身智能技术4.视觉语言模型(VLM)CLIP、DALL‑E融合视觉与语言,使机器人理解视觉内容与文本指令更全面,增强环境适应与交互智能。但高度依赖高质多样数据,训练难度与资源需求大。5.大型多模态模型(LMM)PerceiverIO、MultimodalTransformers整合视觉、语言、声音、触觉等,实现综合感知与理解,提升反应速度与适应性。但架构复杂,跨模态校准与一致性难。8.4基于大模型的具身智能技术具身智能机器人的研发效率和性能在很大程度上依赖设计自动化,而仿真技术成为实现自动化的关键支撑。仿真为人工智能系统开发提供了安全、经济且高效的虚拟环境,使研究人员能低成本、无风险地测试复杂算法和控制策略,模拟各种环境和操作场景,如恶劣天气对视觉传感的影响和复杂地形中的自主导航,显著降低了现实环境中的资源消耗和安全风险。仿真环境大幅加快了智能模型的迭代速度。相比现实部署的高时间和人力成本,仿真可在短时间内完成代码修改与测试,快速验证算法有效性。快速迭代不仅提高研发效率,还助力团队尽早发现问题并调整设计,提升系统稳定性和性能。更重要的是,仿真技术对“仿真到现实”(Sim2Real)转移至关重要。通过仿真训练和评估,研究者能优化算法,确保其在真实机器人上的鲁棒性和表现。Sim2Real涉及适配物理环境中难以模拟的因素,如传感器噪声和机械磨损。仿真成为虚拟智能体向现实智能体过渡的桥梁,缩短研发周期,提升机器人的实用性和商业价值,推动具身智能机器人向更加自主灵活发展。8.4.2具身智能机器人设计自动化本章目录8.1什么是具身智能8.2具身智能和具身人工智能8.6具身智能的体系结构8.5典型的具身智能任务8.4基于大模型的具身智能技术8.3具身智能的传统技术8.7具身智能的优点、缺点与难点8.8具身智能与机器人智能的关系8.9具身智能机器人8.10具身智能机器人大模型8.11具身智能机器人的应用8.12人形机器人8.5典型的具身智能任务具身智能一般来说涉及硬件、软件、算法等,是“系统级”的集成智能,而非单一依靠算法产生的智能离身智能与具身智能的连续渐变如图8-3所示。图8-3离身智能与具身智能的连续渐变8.5典型的具身智能任务具身智能强调智能源于身体与环境的动态交互,区别于离身智能的纯计算。应评估身体—环境耦合贡献,关注适应性与涌现机制。(1)图8-3左为离身智能,中为广义具身智能,右为狭义具身智能,强调交互生成智能层级。(2)具身智能核心是身体结构、感知与运动机制与环境持续互动,共同塑造智能表现与发展。(3)评估标准应重视身体—环境交互贡献,非仅智能水平;纯规则或纯软件难称具身智能。(4)本质在可感知变化并实时调整策略,支持有效适应与自主学习,提高鲁棒性与灵活性。(5)实践倡导软体设计、多模态传感与复杂运动,使机器人在未知环境中涌现与优化行为。8.5典型的具身智能任务典型任务中的具身智能与离身智能如图8-4所示。图8-4典型任务中的具身智能与离身智能8.5典型的具身智能任务1.利用身体与环境的交互实现“目标发现”如图8-4左上所示,假设将一个具备强大能力的视觉目标检测程序安装在车辆的摄像头中,尽管该程序能够在车辆行驶过程中准确无误地识别所有目标,但其“具身智能”的体现仍不明显。仅装载强检测算法的车辆属离身感知;多模态协调并主动探索的机械臂体现具身感知与智能核心。(1)离身感知:车辆仅承载训练好的目标检测模型,无身体—环境交互,缺乏主动探索与反馈闭环。(2)具身感知:机械臂融合视觉、听觉、触觉,实时闭环感知—行动—再感知,形成与环境的动态耦合。(3)评判标准:重交互贡献而非仅识别精度;关注能否利用身体机制生成与更新感知策略。(4)方法启示:设计多模态、可主动试探与再定位的感知流程,强化探索与自我校正能力。(5)系统目标:实现自主、灵活与鲁棒的智能,通过身体—环境耦合持续涌现与优化行为。8.5典型的具身智能任务2.利用身体与环境的交互实现“技能学习”如图8-4右上所示,学习是智能的核心,而机器学习已成为当今人工智能领域的重要手段。传统机器学习依赖预标注与大数据,缺少身体—环境交互;具身学习以主动操作与多模态闭环提升认知与技能。(1)传统范式:专家标注与算法配合,预训练大模型崛起,但未充分利用身体交互获取数据与标签。(2)具身学习:机器人主动触碰与操作目标,融合视觉触觉等多模态,闭环更新表征与策略。(3)判别标准:是否存在身体—环境的因果交互与主动探索,而非仅离线数据的被动拟合。(4)方法路径:设计试探动作、自动生成弱标签、在线自监督,构建长期持续学习管线。(5)系统收益:更强泛化、鲁棒与样本效率,能在未知场景中自适应地发现与精炼新技能。8.5典型的具身智能任务3.利用身体与环境的交互实现“形态控制”如图8-4左下所示,控制是具身智能体实现移动导航、灵巧操作等关键能力的核心手段,也是机器人必备的重要技能。控制是具身智能核心;预设开环难体现交互,而形态智能以身体承担计算与控制,提升效率与适应性。(1)许多展演型机器人依赖预设开环控制,仅用身体呈现动作,缺乏与环境的动态耦合与反馈闭环。(2)具身智能要求控制纳入实时感知—行动循环,强调身体结构与环境交互对策略生成的贡献。(3)被动行走与软体机器人示范以形态分担计算,降低控制器复杂度,增强稳定性与环境适应。8.5典型的具身智能任务(4)形态计算:利用身体形态与材料特性实现局部“物理计算”,缓解传感、建模与控制压力。(5)形态控制:依托形态结构实现高效动态控制,借助固有动力学获得鲁棒与能效优势。(6)设计启示:将控制器共设与机体共设,优化形态—材料—传感—控制协同,提升自主与灵活性。8.5典型的具身智能任务4.利用身体与环境的交互实现“形态优化”优化的内涵十分广泛。如图8-4右下所示,此处所指的优化主要聚焦于具身智能体身体结构的优化设计。形态优化聚焦身体结构与控制协同进化,支持离线与在线自适应升级,赋予机器人发育与进化式适应力。(1)传统结构多由设计者离线完成,运行期难自我调整,面对开放环境表现被动、适应性受限。(2)引入优化理念,结合感知与学习,以离线或在线方法动态更新形态,减轻设计负担并增强适应。(3)结构与控制强耦合,优良形态若缺乏匹配控制也难发挥潜能,需协同设计与联合优化。(4)形态优化通过身体—环境交互获取反馈,迭代改良结构与策略,形成持续进化的闭环机制。8.5典型的具身智能任务(5)相关概念:具身感知、具身学习、形态计算与形态控制共促智能,但仍非具身任务之全貌。(6)展望:技术深化将催生更丰富具身场景,推动系统走向更自主、更灵活、更高效的发展。本章目录8.1什么是具身智能8.2具身智能和具身人工智能8.6具身智能的体系结构8.5典型的具身智能任务8.4基于大模型的具身智能技术8.3具身智能的传统技术8.7具身智能的优点、缺点与难点8.8具身智能与机器人智能的关系8.9具身智能机器人8.10具身智能机器人大模型8.11具身智能机器人的应用8.12人形机器人8.6具身智能的体系结构具身智能的体系结构由形态、动作、感知与学习四个模块组成,相互紧密关联。基于形态的动作生成利用身体特性生成动作。基于动作的形态控制优化学习性能。基于感知的形态变换实时调整形态以适应环境。基于学习的形态优化推动身体结构和控制策略的联合优化。基于感知的动作生成和基于动作的主动感知展示了如何通过感知指导动作与学习过程,强调具身智能在多智能体协作中的重要性。下面从技术角度分析具身智能的特点,并按照形态、动作、感知与学习四个模块梳理这一领域的关键科学问题。8.6具身智能的体系结构具身智能的体系结构如图8-5所示。图8-5具身智能的体系结构8.6具身智能的体系结构1.基于形态的动作生成利用身体形状、材质与动力学等物理特性分担“脑”计算,通过形态计算与环境耦合自然涌现动作,形成低成本、强鲁棒的控制闭环,提升响应速度与适应性,推动更灵活自然的具身行为生成。2.基于动作的形态控制将形态结构信息融入控制与学习,利用结构约束缩小搜索空间、提高样本效率与稳定性。面向任务目标进行结构化形态控制,使动作更符合物理可行域,增强复杂环境下的适应与鲁棒。3.基于感知的形态变换以环境感知为触发,在线调整形态参数或结构配置,适应动态条件。多栖与可变形机器人借鉴生物策略,通过材料与结构可重构实现性能切换,提升通过性、能效与任务完成率。8.6具身智能的体系结构4.基于学习的形态优化在感知—学习闭环中联合优化形态与控制,实现针对任务与环境的自适应结构演化。离线与在线相结合,挖掘形态—策略协同效应,提升效率、精度与鲁棒,迈向自我改进与进化。5.基于感知的动作生成以多模态感知驱动实时决策与控制,融合视觉、触觉与语言等跨模态信号。典型如视觉语言导航,要求对环境理解与指令解析同步,支撑在复杂场景中完成导航与操作任务。6.基于动作的主动感知通过移动、变姿或交互操作主动改变观测条件与环境,获取更判别的信息。结合语义先验与多模态融合,形成感知—行动闭环,提升覆盖、精度与不确定性消解能力,增强适应性。8.6具身智能的体系结构7.基于动作的自主学习将数据采集与策略学习一体化,智能体以探索与试错主动生成高价值样本,提升样本效率与泛化。融合强化学习、主动学习等方法,在真实环境中持续优化表现,实现更鲁棒智能。8.基于学习的动作优化以强化学习为核心,结合模仿、逆强化与离线RL等范式生成控制策略,覆盖从单体到多智能体协同。统一框架下促进任务分解、分配与动作协调,显著推进具身智能的实用化进程。8.6具身智能的体系结构图8-5将具身智能的整体结构划分为形态、动作、感知与学习四个模块,并通过模块之间的关联建立了不同的具身智能任务,人们也可以以人体为例来具体理解这些任务的实质,如图8-6所示。图8-6以人体为例来具体理解具身智能任务的实质本章目录8.1什么是具身智能8.2具身智能和具身人工智能8.6具身智能的体系结构8.5典型的具身智能任务8.4基于大模型的具身智能技术8.3具身智能的传统技术8.7具身智能的优点、缺点与难点8.8具身智能与机器人智能的关系8.9具身智能机器人8.10具身智能机器人大模型8.11具身智能机器人的应用8.12人形机器人8.7具身智能的优点、缺点与难点具身智能的优点在于通过“身体与环境的交互”提升主动性,使任务更易处理。然而,它的缺点在于安全性风险,错误识别可能导致系统崩溃。此外,具身智能的难点在于集成不同模块(如感知、语言、动作)的挑战,任何单一模块的失效都可能影响整体系统的性能。下面具体分析具身智能的相关特性。1.具身智能的优点:主动具身智能引入身体—环境交互与动作维度:遇背面难识别时,非靠先验与数据提特征,而是主动移动获取更佳视角,使任务简化、识别更稳健,体现通过行动重构感知与问题难度的优势。8.7具身智能的优点、缺点与难点具身智能的优点如图8-7所示。图8-7具身智能的优点8.7具身智能的优点、缺点与难点2.具身智能的缺点:安全过度强调身体—环境涌现,忽视知识与数据驱动,被讥为“四肢发达、头脑简单”。紧密交互引入传感失真、执行器故障与碰撞风险,安全边界难控,需完备感知冗余、约束与验证。3.具身智能的难点:集成需在异质空间对齐感知、语言与动作,实现形态—行为匹配;任一模块失效会牵连整体。要求多模态对齐、控制协同与容错冗余,提升系统鲁棒性、监控与安全保障,工程难度高。本章目录8.1什么是具身智能8.2具身智能和具身人工智能8.6具身智能的体系结构8.5典型的具身智能任务8.4基于大模型的具身智能技术8.3具身智能的传统技术8.7具身智能的优点、缺点与难点8.8具身智能与机器人智能的关系8.9具身智能机器人8.10具身智能机器人大模型8.11具身智能机器人的应用8.12人形机器人8.8具身智能与机器人智能的关系具身智能强调以身体—环境交互产生活性智能,涵盖物理与虚拟形态;机器人智能更广,既含具身范式也含传统算法。(1)具身智能聚焦交互机制与一般理论,探索感知—行动闭环,适配实体机器人、仿真体与数字人多形态。(2)机器人智能是实践范畴更宽的集合,既包含具身方法,也涵盖不依赖身体交互的规划与识别算法。(3)具身智能关注适应性与在线调整,强调形态、感知、动作耦合;机器人智能强调工程集成与任务性能。(4)区分术语利于明确研究边界:前者偏理论与机制,后者偏系统实现、行业标准与应用落地。8.8具身智能与机器人智能的关系具身智能与机器人智能的关系如图8-8所示。图8-8具身智能与机器人智能的关系本章目录8.1什么是具身智能8.2具身智能和具身人工智能8.6具身智能的体系结构8.5典型的具身智能任务8.4基于大模型的具身智能技术8.3具身智能的传统技术8.7具身智能的优点、缺点与难点8.8具身智能与机器人智能的关系8.9具身智能机器人8.10具身智能机器人大模型8.11具身智能机器人的应用8.12人形机器人8.9具身智能机器人现代机器人多依赖预设规则,适应性差。Transformer、大型语言模型和强化学习推动机器人具身智能发展,提升自主学习和环境适应能力。具身智能机器人融合感知、认知与动作,在复杂场景展现更高灵活性和鲁棒性,未来将在服务、制造和医疗等领域实现智能化和自主化升级。8.9具身智能机器人自动驾驶经历近20年,从模块化的1.0走向数据驱动与统一模型的2.0,融合Transformer、LLM与深度强化学习。(1)1.0以场景先验与模块划分为核心,感知、定位、规划控制分工明确,工程可控但跨场景泛化受限。(2)Apollo与Autoware在性能稳健性显著提升,但总体仍沿用早期DARPA式分层架构与预设流程。(3)2.0以端到端与大模型为导向,统一表征与多任务训练,弱化接口桎梏,提升跨域适应与闭环优化。(4)Transformer与多模态LLM增强感知—语言—世界模型耦合,辅助解释、指令理解与安全冗余决策。(5)深度强化学习与自监督规模化,结合仿真—实车迁移,驱动长期预测、交互博弈与策略持续学习。8.9.1从自动驾驶到具身智能8.9具身智能机器人下面介绍具身智能机器人软件栈的端到端与模块化架构,硬件计算平台对算力、实时性及低功耗的需求,及多源数据包括互联网图文、传感器采集和虚拟仿真数据在模型训练中的作用与挑战。1.具身智能的软件栈多模态大模型为机器人提供语言与推理“大脑”。具身软件主要分端到端与模块化,两者在统一性与工程可控性间取舍。(1)端到端以单模型贯通感知—决策—控制,借专训VLA直出动作,流程简化、闭环统一,整体性与自适应性更强。(2)端到端受限于参数庞大与云端部署,实时性与成本承压;精度尚需优化,软件与模型需协同改进。8.9.2具身智能计算系统8.9具身智能机器人(3)模块化将推理、感知、决策、控制分离,借大模型提取高层知识,同时沿用定位、规划与控制保障实时精度。(4)模块化依赖人工接口与规则,或束缚通用性与学习能力;难点在通用推理与实时性的权衡及大小模型分工。8.9具身智能机器人2.具身智能机器人硬件计算平台具身智能的硬件计算平台是实现具身智能软件的基础载体,其算力和功耗直接影响具身智能机器人的实时性、使用时长及稳定性,并在很大程度上决定了产品化的可行性。具身智能应用对计算硬件提出了以下几个关键需求:(1)大算力:具身智能软件通常基于参数量巨大的Transformer架构模型。在机器人本地运行此类模型,需要强大的硬件算力支持,以加速模型推理和训练,确保机器人能够及时响应复杂、多变的任务需求。(2)高实时性:具身智能机器人必须在动态、实时的环境中工作,因此硬件平台需保证低延迟计算能力。高实时性是实现精确控制、快速反应及实时数据处理的基础。(3)低功耗:多数具身智能机器人依赖电池供电,因而硬件计算系统的功耗必须严格控制。低功耗设计不仅延长机器人的连续运行时间,也提升了系统的便携性和经济性。8.9具身智能机器人(4)高并发性:具身智能机器人需同时处理来自多传感器的数据流,并执行多任务操作,对计算系统的并发处理能力要求极高。高并发性能有效避免瓶颈,提升整体系统性能与响应速度。尽管具身智能对算力的需求与自动驾驶等传统机器人系统相似,但大模型在具身智能机器人中的广泛应用使得硬件设计面临更为复杂的挑战。如何在保证高算力、高实时性和高并发性的前提下,实现低功耗运行,是当前具身智能硬件设计领域亟需攻克的关键问题。8.9具身智能机器人3.具身模型训练的数据数据是训练具身智能模型的基础原材料,也是决定模型精度的关键因素。相比于其他人工智能应用,具身智能机器人的本体执行和控制数据必须通过机器人实际执行任务并与真实物理环境交互获得,导致数据采集成本高昂且速度较慢。具身智能机器人的数据主要来源于以下3类:(1)互联网上的图文数据用于训练多模态大模型,构建图文理解与逻辑推理能力。涵盖文本、图像、视频等海量资源,提供丰富上下文与常识知识,支撑具身智能的语义对齐与跨模态表征。(2)机器人传感器和执行器采集的数据面向控制与闭环决策训练,支持真实环境任务。含两路采集:遥操作高成功率高质量轨迹;自主采集涵盖成功与失败样本,反映真实表现,为策略改进与鲁棒性提供关键反馈。8.9具身智能机器人(3)虚拟仿真数据作为真实数据补充,可并行生成海量场景,突破硬件与环境限制,采集高效廉价。但难完全还原物理与状态,存在域偏差,单靠仿真训练的模型落地表现常不理想,需Sim2Real。本章目录8.1什么是具身智能8.2具身智能和具身人工智能8.6具身智能的体系结构8.5典型的具身智能任务8.4基于大模型的具身智能技术8.3具身智能的传统技术8.7具身智能的优点、缺点与难点8.8具身智能与机器人智能的关系8.9具身智能机器人8.10具身智能机器人大模型8.11具身智能机器人的应用8.12人形机器人8.10具身智能机器人大模型大模型在NLP成功引发机器人探索。早期用ChatGPT控机有限,推动面向控制的多模态大模型,融合视觉、听觉与文本,显著提升任务精准度与成功率。谷歌RT-1以双编码器融合指令与视觉,依托大规模轨迹数据集训练。在可见与不可见任务上成功率明显提升,长复杂任务超60%,表现出强泛化与稳健性。8.10具身智能机器人大模型ChatGPT引发将大模型迁出对话、注入机器人控制的潮流,催生多模态专用模型与具身智能新范式。(1)早期以纯自然语言下达任务,借大模型规划机器人行为,但接口松散、实时性与可控性受限。(2)多模态大模型统一视觉、听觉、文本与定位表征,输出对接能力集合,显著提升任务成功率。(3)针对子任务的专用模型在架构与数据上定制化,往往在精度与稳定性上优于通用机器人大模型。(4)业界将“模型×机器人”视为常态与范式转移,推动具身智能加速迈向更强泛化与自主性。(5)关于其通向通用人工智能的判断仍存分歧,需以系统评测、可解释性与安全性检验其有效性。8.10.1大模型驱动的机器人革命8.10具身智能机器人大模型1.背景与工作动机大模型介入前机器人多靠API手编程:专业门槛高、跨场景迁移复用差、复杂编排与异常处理成本大。(1)效率低:即便是成熟的程序员,在将用户任务分解为机器人提供的API的组合时,也需要花费大量时间。即使在成熟的自动化工厂,当任务发生变化时,也需要停工一段时间,以便工程师重新对机器人进行编程。(2)成本高:机器人的购置成本为一次性成本,程序员的使用成本则不是,这项成本并不低廉。(3)迭代慢:程序的迭代速度难以追上用户需求的迭代速度,尤其是当用户提出之前没有被尝试过的需求时更是如此。8.10.2面向机器人技术的ChatGPT8.10具身智能机器人大模型因此,不难发现,机器人的能力在不断进步,如自由度的提升、载重的增加、运动速度的提高,而使用和控制机器人的方式却进步缓慢,人们仍在使用传统的手工编程方式,自动化程度很低。ChatGPT通过海量数据的学习展现出强大的语言理解和程序生成能力后,将其作为打破用户需求与机器人控制之间瓶颈的工具就显得顺理成章了。8.10具身智能机器人大模型2.ChatGPT解决机器人控制问题的突出能力使用ChatGPT解决机器人控制问题,本质上是由于ChatGPT具有多种能力。下面主要结合机器人场景对ChatGPT的能力进行描述,并非对ChatGPT的全部能力进行定义。(1)零样本任务规划ChatGPT无需针对特定机器人/任务预训或微调,借助合适提示词即可规划并生成控制代码,显著缩短迭代周期,支持快速方案探索;其能力源自大规模语料与高参数量。(2)用户在环规划ChatGPT与用户交互式对话,依据反馈逐步更新代码与策略,将长序列复杂任务拆解为子任务,渐进求解,提升成功率与鲁棒性,兼顾灵活性与可控性。8.10具身智能机器人大模型(3)感知到动作执行虽为纯语言模型,研究者通过XML等格式注入视觉等多模态信息,使ChatGPT解析图像并生成控制代码或动作序列,打通感知—决策—执行闭环。(4)基于常识的任务推理ChatGPT具常识与逻辑/数理推理,可评估可行性、规划最短路径,支撑开放环境探索与具身智能关键能力;在ChatGPTforRobotics中尚未充分展现。8.10具身智能机器人大模型3.ChatGPTforRobotics的设计原则和工作流程使用ChatGPT对机器人进行控制,主要分4个步骤。第1步,设计并封装一个机器人函数库,主要包括机器人的一些基础功能,如移动、物体检测等。设计这一函数库需要注意两点:第一,不同的机器人形态和应用场景可能需要不同的设计;第二,函数的命名需要有足够的区分度和特点,以方便ChatGPT根据命名进行调用。第2步,编写清晰的描述性提示词(prompt),提供给ChatGPT进行控制。这一步是本工作的关键。提示词除了需要对函数库进行详细描述,还需要分析任务的要求和限制、描述环境和当前状态。如果可能,提示词还应给出具体的机器人完成任务的例子,供ChatGPT分析。研究表明,提示词的质量对任务的成功率有重要影响。8.10具身智能机器人大模型第3步和第4步分别是在仿真环境和实际环境中执行ChatGPT输出的代码。其中,仿真环境是一个良好的测试环境,可以将执行过程中的观测结果和状态反馈给ChatGPT,并允许ChatGPT对任务描述代码进行进一步修改。通过这四步,微软的研究者实现了对多个机器人的控制,如使用机械臂组装乐高玩具、利用无人机进行任务监控和物体检索等。8.10具身智能机器人大模型4.贡献与局限性“ChatGPTforRobotics”早期奠基:以函数库封装底层控制,由大模型编程调用,制造商负责封装,设计者聚焦模型与交互,形成软硬件分离范式;强调多模态输入提升成功率。局限在于能力受库边界束缚、动作空间被简化,如何对齐模型输出与物理动作仍是难题。8.10具身智能机器人大模型多模态大模型用于机器人是自然而然方向:机器人融合视觉、定位、点云与声音。难点在跨模态融合、模型输出与控制无缝对接、与大规模多场景数据获取。谷歌自SayCan、CodeasPolicies起坚持多模态路线,2023推出PaLM-E与RoboticTransformer,显著推进该领域。RT引入迁移学习,吸纳大规模异质数据,实现高效泛化与通用适应。8.10.3RoboticTransformers多模态大模型的应用8.10具身智能机器人大模型1.模型设计该模型旨在通过图像和自然语言指令这两种模态输入,实现对机器人的精准控制。RoboticTransformer-1(RT-1)的网络结构如图8-9所示,采用了双编码器设计,分别处理视觉信息和自然语言指令。以USE编码指令、EfficientNet提取多帧视觉,融合成多模态序列,经TokenLearner压缩为8个token,送入Transformer预测动作。(1)UniversalSentenceEncoder将指令嵌入为512维向量,稳健捕捉语义与上下文,兼容多样表达。(2)连续6帧输入EfficientNet-B3提取特征,引入时序上下文,增强对动态场景与目标变化感知。(3)语言与视觉特征拼接成多模态token序列,为后续注意力机制提供跨模态对齐与交互空间。8.10具身智能机器人大模型(4)TokenLearner自适应选取关键子集,压缩为8个代表token,显著降算力消耗且保留核心信息。(5)Transformer多头自注意力建模跨模态依赖,输出精确动作,兼顾泛化能力与复杂任务适应性。8.10具身智能机器人大模型图8-9RoboticTransformer-1的网络结构8.10具身智能机器人大模型2.数据集谷歌构建大规模多样机器人轨迹数据集,13台机器人17个月采集约13万示范,覆盖真实场景任务,显著增强训练与泛化。(1)数据源自办公与厨房等真实环境,模拟日常任务与操作情境,提升分布覆盖与现实可迁移性。(2)“机器人课堂”理念:多样且具挑战的场所持续采集,促成系统化技能提升与稳健行为习得。(3)规模与多样性并重,涵盖多任务、多对象与环境变换,丰富训练语料的复杂度与代表性。(4)为多模态大模型赋能低层控制与高层策略,提升零样本与小样本泛化、鲁棒性与可复用性。(5)为具身智能奠定数据基础,推动感知—行动—语言融合研究,加速从实验到真实应用落地。8.10具身智能机器人大模型3.成功率谷歌以大规模实验量化评估RT-1:多维指标全面领先,复杂厨房长距离任务成功率超60%;混合真/模拟数据训练优于仅真数据。(1)评估维度:已见任务成功率、未见任务成功率、执行稳健性、长距离复杂任务成功率。(2)RT-1在四维度均显著超越先前方法,体现更强泛化、样本效率与现实环境适配能力。(3)复杂厨房长距离任务成功率超60%,验证跨场景与跨任务组合的规划与执行协同优势。(4)迁移学习方案对比:真+模拟混合训练优于仅真数据,提升数据覆盖与策略多样性。(5)实践启示:采用混合数据与多任务训练范式,强化模型稳健性、零样本泛化与可复用性。本章目录8.1什么是具身智能8.2具身智能和具身人工智能8.6具身智能的体系结构8.5典型的具身智能任务8.4基于大模型的具身智能技术8.3具身智能的传统技术8.7具身智能的优点、缺点与难点8.8具身智能与机器人智能的关系8.9具身智能机器人8.10具身智能机器人大模型8.11具身智能机器人的应用8.12人形机器人8.11具身智能机器人的应用具身智能大模型正变革医疗、工业与家庭应用:手术机器人更智能辅助;工业中自我规划与任务适配提升效率、降低编程成本,助力更高自动化与广泛落地。家庭场景任务复杂多变:扫地机器人与MobileALOHA展示家务能力进化。虽仍待完善,其低成本策略与模仿学习潜力巨大,为家务全自动化奠基,前景可期。8.11具身智能机器人的应用人工智能的发展过程就是不断发现新应用的过程。在这一波AI浪潮中,利用人工智能算法在医疗领域帮助人类甚至取代人类成为被重点关注的课题。例如,人工智能算法可以辅助或自动诊断,对患者进行实时排序或分类,并支持药物研发。1.传统的诊断和手术辅助医学影像与可穿戴数据推动AI临床应用,手术机器人从人机协同迈向具身智能赋能的自主化,提升诊断与操作质效。(1)影像科室高度依赖X射线、CT、MRI等,CNN在骨科、心血管等辅助诊断中表现优异,部分算法获FDA批准,验证其安全有效性与临床价值,推动智能影像从研究走向常规应用。8.11.1具身智能机器人在医疗领域的应用8.11具身智能机器人的应用(2)可穿戴设备持续记录心率、呼吸、血压、声音与震动等信号,助力疾病早筛与健康评估;PPG可监测心肺疾病、贫血、睡眠呼吸障碍,并服务帕金森病管理,量化震颤、步态、平衡与言语异常。(3)传统手术机器人以医生直接操控为主,如达芬奇系统通过控制台完成微创操作,依赖预编程与图像引导,提升精度与稳定性,但自主性有限,仍处于传统控制范畴,难以应对复杂不确定场景。(4)自动化缝合成研究热点:监督下自主肠吻合机器人结合自主缝合算法与全光三维近红外荧光成像,在动物实验中实现高一致性与优质吻合,减少拔针错误;耳蜗等专科手术自主机器人亦取得进展。(5)具身智能为手术机器人带来更强感知—行动耦合与在线学习能力,支持跨场景迁移、异常处理与复杂任务编排,预示从半自主到高自主的升级路径,推动医疗机器人迈向安全、稳健与可普适应用。8.11具身智能机器人的应用2.大模型带来的新机遇医疗大模型以多源专业数据训练,强化诊疗辅助与信息服务;在隐私合规与可解释前提下,提升医生效率与医疗可及性。(1)医疗大模型以医学文献、指南、病历、影像、EHR等多源数据训练,需强专业理解与质量审查,强调可解释与透明。(2)隐私与安全为首要约束:遵循HIPAA等法规,实行数据脱敏、最小化、访问控制与审计,并经伦理委员会审核。(3)Med-PaLM面向文档生成、决策支持、患者咨询与医学教育,基于大规模医学文本学习专业知识与术语,强化临床实用。(4)谷歌与DeepMind采取严格安全策略,确保敏感信息保护;模型验证需按医学标准,邀请多学科专家参与评估。(5)CARESCopilot1.0聚焦神经外科,多模态理解图像、语音与视频,识别关键解剖并提示风险,助力精准稳健的术中决策。8.11具身智能机器人的应用3.具身智能在医疗领域的应用传统手术机器人提升视野与稳定性但仍属辅助工具;多模态大模型赋能“建议权”,推动手术室迈向具身智能化。(1)手术机器人优于传统胸腔镜:3D高清视野、灵活机械臂、抑制震颤,提高手术精度与安全,但本质仍为医生“延长工具”。(2)完全由专用大模型自主操刀尚不成熟;多模态大模型可实时观测与分析,提供操作建议,缩短时长并提升成功率。(3)具身智能手术室将成智能化空间:微创机器人扩展操控边界,精细执行复杂动作,成像与计算融合增强术中感知。(4)内窥镜、超声与手术室摄像头提供高质量实时影像;边缘部署大模型助力临床决策,强化医生认知与情境理解。(5)系统级集成实现感知—决策—操作闭环,提升效率、稳健性与安全,推动从人机协同向高自主、可验证的智能化演进。8.11具身智能机器人的应用工业机器人率先大规模落地,提升效率与精度;具身智能将赋予自主感知规划,推动柔性与协作升级。(1)汽车制造等行业广泛采用焊接、涂装、组装机器人,持续作业降错提质,生产节拍与一致性显著优于人工,形成规模化自动化范式。(2)特斯拉工厂高度自动化:冲压、车身、涂装、组装四线超150台机器人协同;宝马、大众、比亚迪等加码投入,竞逐智能制造标杆。(3)现行工业机器人多为编程式控制,任务变更需重写与调试程序,导致停线与效率损失,限制生产系统对多变订单的快速响应。(4)具身智能引入自主感知、规划与执行能力,机器人可随环境与任务自适应调整策略,减少编程依赖,显著提升产线柔性与吞吐。(5)人形与协作型具身智能机器人进入车间参与真实作业,强化人机协同与安全互动,拓展装配、质检、搬运与物流等多场景应用。8.11.2具身智能机器人在工业生产中的应用8.11具身智能机器人的应用家庭机器人旨在解放人类,但家庭与工厂差异显著:家庭有人在场且环境持续变化,物体位置常变,难以复用固定轨迹与重复动作。因此,家务场景对具身智能感知、规划与自适应要求更高,是三大场景中最复杂者。1.扫地机器人扫地机器人自90年代起发展,凭SLAM与多传感器实现智能导航与高效清洁,成为家庭机器人代表。(1)发展历程:从随机碰撞式到智能化多功能清洁,2002年Roomba商业化奠基,带动行业成熟与普及。(2)品牌格局:iRobotRoomba、NeatoBotvac、小米米家、戴森360Heurist等相继涌现,形成多样化竞争。8.11.3具身智能机器人在家庭环境中的应用8.11具身智能机器人的应用(3)任务特性:专注地面清洁、目标单一明确,核心算法聚焦室内导航与覆盖优化,便于量产与稳定迭代。(4)传感配置:红外、LiDAR、摄像头协同感知,实时建图与障碍检测避让,支持多房间识别与动态环境适应。(5)路径规划:基于SLAM与覆盖路径规划实现高效清扫,边界与局部重扫策略减少漏扫与重复,提高电量利用。(6)安全设计:前部柔性护板缓冲碰撞,遇人或障碍未能及时避让时降低冲击,结合软硬件冗余提升使用安全性。8.11具身智能机器人的应用2.具身智能给家用机器人带来的变化MobileALOHA以行为克隆实现多样家务示范学习,低成本易搭建,初显家用潜力,但安全鲁棒与通用性仍待突破。(1)MobileALOHA在一天内完成浇花、炒菜、洗衣等任务,呈现具身智能家务范例;但外观与人机交互仍偏机械化。(2)核心算法为监督行为克隆:无需复杂奖励设计,依赖专家示范加速学习;但受数据偏差与覆盖不足限制,泛化欠稳。(3)实际部署存在“翻车”与安全隐患,曾在炒菜示范中发生烫伤事件,暴露鲁棒性、异常处理与安全冗余不足。(4)平台总成本约3.2万美元(约22万元人民币),数据采集便捷、上手友好,显著降低家用具身机器人的研发门槛。8.11具身智能机器人的应用(5)家务能力分级:远程操控;特定厨房固定食谱独立做一道菜;跨厨房多菜多具;可安全应对突发。目前处于一二阶段间。(6)iRobot联合创始人预期:2030年后具备全面自主、安全烹饪能力的机器人才可能进入普通家庭,仍需长期迭代。(7)总体看,MobileALOHA验证了家用具身智能的可行性,为后续算法、安全工程与产业化路径提供样板与数据基础。本章目录8.1什么是具身智能8.2具身智能和具身人工智能8.6具身智能的体系结构8.5典型的具身智能任务8.4基于大模型的具身智能技术8.3具身智能的传统技术8.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 民政采购内部控制制度
- 江西论文内部控制制度
- 海南机关内部管理制度
- 海澜集团内部制度
- 火锅店财务内部控制制度
- 煤矿内部制度
- 煤矿库房内部管理制度
- 环评审批内部制度
- 监察内部管理制度
- 监理内部办公用品制度
- 2025年《三级老年人能力评估师》考试练习题及答案
- 2026年湖南单招职业适应性测试时事政治职业认知模拟题含答案
- 新《增值税法实施条例》逐条解读课件
- 2026年鄂尔多斯职业学院单招职业技能考试题库必考题
- 髋关节假体脱位表现及护理
- 新媒体运营专业毕业论文
- 2026年郴州职业技术学院单招职业技能考试题库带答案解析
- 汽车回收拆解生产线智能化改造实施方案
- 眼眶蜂窝织炎课件
- 广告法培训课件
- 水泥搅拌桩作业安全教育手册
评论
0/150
提交评论