人工智能与未来 课件 9.3 具身智能的核心能力_第1页
人工智能与未来 课件 9.3 具身智能的核心能力_第2页
人工智能与未来 课件 9.3 具身智能的核心能力_第3页
人工智能与未来 课件 9.3 具身智能的核心能力_第4页
人工智能与未来 课件 9.3 具身智能的核心能力_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

EmbodiedIntelligence第9章

具身智能2035吴宁9.19.29.39.4具身智能那些事具身智能概述具身智能的核心能力具身智能的应用领域目录CONTENTS9.5具身智能的最新发展具身智能的核心能力可分为具身感知、具身推理和具身执行三种。下面展示“机器人从厨房台面上抓取一个蓝色的杯子放到餐桌上”这一场景的典型处理过程。人:从厨房台面上抓取一个蓝色的杯子放到餐桌上机器人:收到收集所有传感器采集信息结合自身状态,综合分析当前所有状态对象(蓝色杯子)、动作(抓取)、起点(厨房台面)、终点(餐桌)具身感知抽象语言指令可理解的形式理解抽象指令,任务规划为可行的子任务执行步骤:1.移动到厨房台面2.识别蓝色杯子3.执行抓取动作4.移动到餐桌5.释放杯子可执行子任务具身推理执行具体技能需要技能学习来生成合适的动作序列来完成任务生成上述技能所需的运动轨迹执行具身执行机器人执行执行控制硬件的指令具身感知具身推理具身执行通过人机对话给机器人下发任务,机器人利用其内置的摄像头等视觉传感器,精准地识别出厨房台面上蓝色杯子的具体位置、形状以及周边环境等详细信息。根据具身感知获取的信息,根据本体的当前状态,对自身下一步的行动做出决策和规划,机器人根据已制定的方案,准确移动到厨房台面前,利用其机械臂和抓取工具稳稳地抓住杯子。然后,机器人选择最合适的路径,将杯子平稳地放置到餐桌上。具身感知具身推理具身执行构建优化获取

从上面的例子我们能看出,具身感知、具身推理、具身执行并不是相对孤立的三种能力,而是相互联系的一个整体。机器可以从具体的感知到的信息进行推理,根据推理则可以制定身体的行动规则,而根据自身的行动又会获取新的感知。如此循环往复,智能也会不断地进化,最终形成真正能够服务于人类日常生活的“具身智能”。9.3.1具身感知9.3.2具身推理9.3.3具身执行

具身感知模块是具身智能体的“信息采集和处理器”,建立对外部环境的感知和理解,为可靠的决策和成功完成行动提供支持。

9.3.1具身感知讨论:结合前面的例子,“从厨房台面上抓取一个蓝色的杯子放到餐桌上”,在这个场景里面,为了完成任务,感知模块需要完成哪些任务?识别哪些信息呢?9.3.1具身感知:主要任务对象识别位置定位场景理解环境重建状态监测等9.3.1具身感知:识别信息(举例)杯子的位置、形状和大小。任何可能的障碍物或干扰物。桌子的位置和高度。机器人自身的位置和姿态。理解客厅与餐厅内物品布局、物件摆放以及人员活动(意图和行为)等情况。用于分析客厅与餐厅内的空间整体情况等。生成环境的三维模型,用于规划行动的导航方案。通过机器人运作中持续接收的传感信息(室内的温度、湿度、照明状况、障碍物位置以及家电设备运行状态等)9.3.1具身感知杯子的位置、形状和大小。任何可能的障碍物或干扰物。桌子的位置和高度。机器人自身的位置和姿态。理解客厅与餐厅内物品布局、物件摆放以及人员活动。用于分析客厅与餐厅内的空间整体情况等。生成环境的三维模型,用于规划行动的导航方案。通过机器人运作中持续接收的传感信息(室内的温度、湿度、照明状况、障碍物位置以及家电设备运行状态等)对象识别位置定位场景理解环境重建状态检测9.3.1具身感知

围绕以上对象识别、位置定位、场景理解、环境重建和状态监测等感知任务。可以根据需要感知的对象的不同,分为四类展开描述。物体人物体感知场景感知表达感知行为感知几何形状、铰接结构、物理属性手势检测、人类行为理解场景重建、场景理解情感检测、意图检测9.3.1具身感知

物体感知:物体感知是指通过各种感知设备来识别和理解物体的存在、形状、特征和属性。在感知过程中机器通过自身的移动,获取物体多个视角的信息。之后机器通过融合这些多视角信息,并结合常识重建出物体的外形及物体的外部颜色。9.3.1具身感知:几何形状感知外部轮廓:物体的二维或三维形状(如圆形、立方体、不规则自然物体)。内部结构:物体的内部组成(如中空结构、分层结构)。空间关系:物体在环境中的位置、姿态及与其他物体的相对关系。

视觉感知

摄像头:通过RGB图像识别物体的轮廓和颜色。

深度相机(如Kinect、LiDAR):获取物体的三维点云数据,重建其几何形状。

触觉感知

触觉阵列:通过接触感知物体的表面曲率、边缘等局部几何特征。感知内容感知方法9.3.1具身感知:铰接结构感知连接方式:物体活动部分的连接方式(如铰链、关节、弹簧)。运动自由度:物体可运动的方向和范围(如门可绕铰链旋转90度)。变形状态:物体在受力或操作下的变形(如可折叠、可伸缩)。

视觉与运动跟踪

多视角视觉:通过不同视角的图像或点云数据,重建物体的运动轨迹和变形状态。

力觉与触觉感知

力传感器:通过测量关节处的力矩,推断铰接结构的运动状态。

触觉反馈:通过接触感知物体的柔性或刚性,判断其是否可变形。感知内容感知方法9.3.1具身感知:物理属性感知质量与惯性:物体的重量、质心位置、惯性矩。力学特性:硬度、弹性、摩擦力、表面粗糙度。热学与电学属性:温度、导电性(根据应用场景需求)。力觉感知六轴力传感器:测量物体在抓取或操作过程中的力和扭矩,推断其质量和力学特性。触觉感知触觉阵列:通过接触感知物体的表面粗糙度、硬度等。视觉与红外感知红外传感器:测量物体的温度(如热成像)。感知内容感知方法9.3.1具身感知

场景感知:场景感知的重要的任务是完成环境重建、场景理解。这就依赖各种传感器和设备获取周围环境的信息,从而对当前场景进行实时监测和分析。并且能够识别和理解场景中的各种元素,包括物体、人物和环境特征。场景信息获取场景重建场景理解9.3.1具身感知

行为感知:行为感知涵盖了多个方面,包括对人的手势检测、人体姿态检测以及人类行为理解。目的是实现更加智能和自然的人机交互体验。例如,对于一个家庭服务机器人,看到家中的人员打了喷嚏,是否询问其健康状况或者直接递去纸巾等。9.3.1具身感知讨论:结合我们计算机视觉章节的讲解,大家讨论下人的手势检测的一般流程是什么?1.使用RGB相机或RGBD相机获取图片2.手势的分割与检测:基于肤色、轮廓、深度信息等信息检测图中手势区域和手的关节点3.手势识别:在分割检测结果的基础上进行手势分类9.3.1具身感知

表达感知:表达感知是指通过分析和理解语言中的细微差别,捕捉到说话者的真实情感和意图。情感检测和意图检测是表达感知中的两个重要方面。如机器人看到有人进到餐厅,问您需要喝点水吗?面部表情、语音上述两种模态信号的结合9.3.1具身感知讨论:结合我们自然语言处理的讲解,大家讨论下语音情感感知一般流程是什么?有哪些应用?流程:1.从人类的语音信号中提取音高、音调、节奏、音色等特征作为输入2.表示声音频率内容的图像形式3.通过理解说话者的情感状态,系统能够做出更加人性化和智能化的响应应用:在客服机器人、智能助理、心理健康监测等领域有广泛的应用9.3.1具身感知

物体感知关注物体的几何形状、铰接结构及物理属性;并据此构建三维虚拟模型,分析场景元素及其关系,通过交互感知获取更丰富信息以增强场景理解;同时通过手势检测、人体姿态检测及人类行为理解,通过计算机视觉技术识别手势、分析姿态并推断行为意图;表达感知聚焦于语言中的情感与意图检测,通过分析语音特征和句子结构等捕捉说话者真实情感与需求。这四类感知相互协作,使智能体更全面理解环境与交互对象,为下一步具身推理提供数据支撑。9.3.2具身推理

推理模块是具身智能体的“指挥中心”,接受环境感知信息后,完成任务规划和推理分析,并生成逐步决策指令来控制行动。具身推理能体现出机器理解并与现实世界进行交互的能力。具身感知具身推理具身执行9.3.2具身推理

推理模块是具身智能体的“指挥中心”,接受环境感知信息后,完成任务规划和推理分析,并生成逐步决策指令来控制行动。具身推理能体现出机器理解并与现实世界进行交互的能力。具身感知具身推理我们可以把它理解为:

一个将高层次、多步骤的用户指令有效地分解为机器人能够理解并顺序执行的一系列底层原子动作的过程。9.3.2具身推理讨论:如何一个将高层次、多步骤的用户指令有效地分解为机器人能够理解的动作?

任务规划(TaskPlanning)是具身智能的核心任务之一,将抽象的非可执行人类指令转换为具体的可执行技能目前,每个出厂机器人有一组可执行技能集潜在含义:机器人并非万能,技能集之外的不能执行9.3.2具身推理任务规划的具体实施指令理解任务分解技能调度与组合执行与监控用自然语言处理技术,将指令转化为机器可以理解的内部表示形式。机器人需要将任务分解为一系列具体的可执行技能。机器人需要确定执行这些技能的顺序和依赖关系。机器人执行这些指令,并对执行过程进行实时监控。9.3.2具身推理讨论:以“请从厨房台面上抓取一个蓝色的杯子放到餐桌上”,讨论在具身推理阶段需要完成的任务?9.3.2具身推理1.指令理解阶段:指令理解为“对象(蓝色杯子)、动作(抓取)、起点(厨房台面)、终点(餐桌)等关键信息”。2.任务分解阶段:技能可能包括移动到厨房台面、识别蓝色杯子、执行抓取动作、移动到餐桌、释放杯子等。请从厨房台面上抓取一个蓝色的杯子放到餐桌上。9.3.2具身推理3.技能调度与组合阶段:这里,机器人需要先移动到厨房台面,然后才能识别蓝色杯子;在识别到蓝色杯子之后,才能执行抓取动作;抓取到杯子后,再移动到餐桌并释放杯子。4.执行与监控阶段:机器人还需要考虑环境状态和自身能力。例如,如果厨房台面上有多个物体,机器人需要确定哪个是蓝色杯子;如果餐桌上有障碍物,机器人需要规划一条绕过障碍物的路径。请从厨房台面上抓取一个蓝色的杯子放到餐桌上。基于符号逻辑的推理规划基于深度学习的推理规划大模型驱动的推理规划基于符号逻辑的规划,它在一个高度形式化、符号化的世界模型中,通过逻辑推理来搜索一条从初始状态通往目标状态的动作路径。这种方法非常依赖一个精确的“规则手册”,这个手册需要人工定义好世界的所有可能状态、每个动作的前提条件以及它会带来的确定性结果。这种方法的严谨性使其生成的计划逻辑清晰,易于人类理解和验证。然而,它高度依赖一个由专家手工构建的、完美无缺的领域知识库,这在多变的现实世界中难以实现。具身推理的发展脉络

深度学习领域的规划研究便试图借鉴这种基于经验的“直觉”。研究者们探索利用神经网络强大的表示学习能力,直接从海量的高维数据(如图像、视频)中自动学习任务规划所需的知识。想象一位经验丰富的厨师,他不需要严格的菜谱也能烹饪佳肴。他通过观察食材的形态、闻到香气,并结合过往无数次的烹饪经验,就能下意识地知道下一步该做什么。这个过程并非基于严谨的逻辑推演,而是基于大量经验形成的一种直觉。

但这种方法在当时也遇到了瓶颈。它通常需要大量的标注数据才能取得理想效果,获取成本高昂。并且,神经网络的决策过程不透明,如同一个“黑箱”,令人难以完全信任和调试。具身推理的发展脉络基于符号逻辑的推理规划基于深度学习的推理规划大模型驱动的推理规划大型语言模型(LLMs)与多模态大模型(MLLMs)的出现,为具身智能体与物理世界的互动方式带来了新的可能性。研究者们正积极地将大模型的通用能力与具身场景的特定需求相结合,不仅利用其在高层次语义理解和推理上的优势,也努力弥补其在物理世界接地、保障逻辑一致性以及响应实时环境等方面的不足。具身推理的发展脉络基于符号逻辑的推理规划基于深度学习的推理规划大模型驱动的推理规划研究热点(一)

当我们需要筹备一场小型生日派对时,脑中会浮现一个包含数十个步骤的复杂计划:检查天气、列购物清单、去超市采购、准备食物、打包野餐篮等等。在这个过程中,我们必须确保所有步骤逻辑连贯(不能先打包再购物),并且始终围绕“成功举办野餐”这个最终目标。

具身智能体为达成一个远期目标,生成并执行一长串环环相扣的复杂动作。这是具身规划中的一个核心难题,因为随着规划链条的增长,模型很容易出现逻辑断裂、忘记初衷或生成与物理现实相悖的动作。长序列任务的逻辑一致性问题研究热点(二)

当你被告知“去给我热杯牛奶”时,你的大脑会自动调用大量常识:牛奶通常在冰箱里,需要用微波炉或炉灶加热,得用一个适用于微波炉的杯子,加热时间不能太长等等。这些知识对于成功完成任务至关重要。

尽管LLM在训练中见过了海量文本,但它们生成的规划步骤常常因为缺乏对物理世界深刻、隐性的理解而变得不可行。这种“知识壁垒”源于大模型对物体可供性(affordance,如杯子是用来装水的)、基本物理规律、操作约束等常识的缺失。如何弥补这些知识缺失,是提升其具身推理规划能力的关键。面向物理世界的知识运用问题研究热点(三)

当我们走进一个陌生的厨房想找个苹果时,需要处理各种信息:我们看到台面上的水果篮(视觉),听到冰箱的嗡嗡声(听觉),并结合我们的常识(苹果通常在水果篮或冰箱里),最终规划出“先检查水果篮,如果没有,再去打开冰箱”的行动。

LLM本质上是基于文本训练的,这使得它们在直接处理和理解来自物理世界的、复杂的、实时的多模态感知数据(如视觉、深度、音频等)时面临固有困难。如何有效地桥接多模态感知与LLM的规划能力,实现从“看到”到“做到”的流畅转换,是当前具身推理规划领域需要解决的关键问题。研究热点(四)

我们在用一个新买的烤箱烤蛋糕时,会按照说明书设置时间和温度。但中途透过玻璃门发现蛋糕表面上色太快,可能会烤糊,于是我们会立即做出调整:降低温度或提前结束烘烤。这种根据实时反馈动态调整计划的能力,是智能行为的关键。

在多轮交互或长序列任务中,真实世界是动态且充满不确定性的。一个动作可能无法达到预期效果,或者环境自身发生了变化。如何让基于LLM的智能体具备持续学习和动态适应的能力,及时地将新情况纳入考量并调整规划,是避免“一条道走到黑”导致任务最终失败的核心挑战。9.3.3具身执行

具身执行模块是具身智能体的“执行单元”,负责接收决策模块指令,并执行具体动作。一般是通过调用API接口来实现。

具身执行模块的主要任务:技能学习。以技能描述和环境观察为输入,输出完成技能所需的轨迹。具身执行技能学习技能描述环境观察技能需要的轨迹主要任务干什么?啥情况?怎么干?讨论:以“请从厨房台面上抓取一个蓝色的杯子放到餐桌上”,讨论在具身执行阶段需要完成的任务?9.3.3具身执行9.3.3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论