人工智能通识导论（理论篇）课件第7章-身体与智能：具身智能新前沿

上传人：h*** IP属地：山东上传时间：2026-06-11 格式：PPTX 页数：49 大小：71.34MB 积分：15 举报 版权申诉

已阅读5页，还剩44页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第7章身体与智能团结创新共赢具身智能新前沿1目录Introduction0101自主机器人0303具身交互与动态决策0202具身感知0404具身智能应用引言3具身智能（embodiedartificialintelligence），简称EAI。其核心思想认为智能不仅是大脑的功能，而是身体、环境和智能体之间互动的产物。与机器人领域的发展彼此影响、互相推动。20世纪初提出具身认知模型2010年2020年深度学习与具身智能结合进一步结合多模态感知系统、仿生设计和大模型技术赋予机器人在未知环境中自我探索和自我学习的能力使机器人具备更接近人类的自适应性和决策能力2024年2025年具身小脑模型列入人工智能十大前沿技术趋势之一写入政府工作报告、入选两会新词矩阵，纳入国家战略“机器人”由来自主机器人1920年，捷克作家卡雷尔·凯佩克（KarelCapek）发表了科幻剧本《罗萨姆的万能机器人》，在剧本中，凯佩克把捷克语“Robota”写成了“Robot”，沿用至今。

机器人定义自主机器人机器人是一种自动化的机器，它具备一些与人或生物相似的智能能力，并模拟人类或其他生物的行为。在不同的应用场景机器人可以表现为不同的形式。机器人发展自主机器人非自主机器人人类控制，获预先编程对应固定动作。不具备独立决策能力，适用于重复性高的单一任务场景自主机器人多种传感器+控制系统+智能算法能感知工作环境，适根据目标自主决策、独立完成自主机器人系统自主机器人感官系统大脑小脑肌肉骨骼扫地机器人示例自主机器人感知定位模块：多种传感器组成，分内感受和外感受两种外感受型：雷达、摄像头、红外等；实现环境感知、避障、视物等功能内感受型：惯性传感器、轮式编码器等；实现自我定位、速度姿态检测，辅助建图等功能扫地机器人示例自主机器人规划决策模块：综合工作环境和机器人自身状态信息，结合任务要求规划后续的工作，包括路径规划和任务规划扫地机器人示例自主机器人执行“弓字形”全屋清扫任务，控制模块将决策模块规划的路径指令转化为电机控制信号，如在转弯处，生成“左轮加速、右轮减速”的控制信号，执行模块通过电机驱动轮子，实现转向。任务执行过程中感知模块实时检测，规划决策模块随时根据突发情况进行任务调整和路径调整，控制模块和执行模块配合完成新的任务和路径。扫地机器人示例自主机器人自主机器人的本质是多模块的闭环协作，模块间通过实时数据流与反馈机制紧密耦合，共同实现了“感知-决策-执行”的自主能力。自主机器人的发展为具身智能提供了物理基础和实验平台，其感知与交互技术是具身智能研究的核心内容。具身感知主动视觉感知与三维视觉定位具身智能的感知不仅仅满足对环境的多模态感知和识别目标，更需要支持智能体在物理世界中移动并与环境互动，这就必须对三维空间和环境的动态变化有更深的理解。同时具备视觉感知和推理能力，理解场景中的三维关系具身感知主动视觉感知与三维视觉定位双目视觉飞行时间TOF结构光法具身感知主动视觉感知与三维视觉定位3D视觉定位技术优点/局限有效距离应用场景双目视觉硬件简单，成本较低/受光照影响较大几十米自动驾驶、机器人导航等飞行时间TOF计算简单，实时性好/像素密度相对较低0.5～数米手机面部解锁、智能家居存在检测、物流包裹体积测量结构光法适合细节重建，弱光环境工作稳定/强光会干扰投射效果，动态场景中使用受限，硬件昂贵0.1～5米精密零件三维扫描、缺陷检测、牙科建模、手术导航、人脸支付和部分手机的面部识别具身感知视觉语言动作模型LLM文本文本VLM图像文本文本图像大语言-视觉模型，多模态，“大脑”+“眼睛”实现跨模态分析、推理、生成大语言模型，单模态，“大脑”涌现出记忆、理解、推理、生成能力具身感知视觉语言动作模型VLA图像文本动作图像文本动作大语言-视觉-动作模型，多模态，“大脑”+“眼睛”+“手脚”赋予AI与现实世界物理交互的能力将机器人动作转换为文本token具身感知视觉语言动作模型传感器E2E控制VLM理解VLA控制传感器更简洁、高效，减少信息传递损耗。更接近生物体感知-决策-执行的闭环传统VLM+规控双系统VLA实现真正端到端闭环控制具身感知视觉语言动作模型RT-2模型大幅提高了机器人的泛化能力并让其学习推理出了新能力具身感知视觉语言导航视觉语言导航VLN主要探索机器人如何利用自然语言与人进行有效沟通，接收并理解指令，并最终依靠视觉信息实现精准导航。VL---ActionNavigationVLN去正确的地方做正确的事具身感知视觉语言导航指令导向的VLN任务任务侧重于机器人严格遵循自然语言指令完成导航路径的规划与执行机器人需要准确解析复杂的自然语言指令，并将其转化为一系列具体的导航动作。具身感知视觉语言导航目标导向的VLN任务任务侧重于要求机器人基于给定的目标信息进行导航机器人需理解目标的语义描述，并在环境中探索和识别与目标相对应的物体或区域具身感知视觉语言导航需求导向的VLN任务任务侧重于要求机器人根据用户提出的抽象需求进行导航机器人需从语言描述中推断用户的意图，找到能够满足用户需求的物体或区域具身感知视觉语言导航对话导向的VLN任务允许机器人在任务过程中提出问题以消除指令中的歧义或弥补感知中的信息不足具身感知触觉感知多模态感知：文本、图像、视频、动作、触觉触觉、压觉、力矩觉、滑觉、湿觉、温觉触觉感知主要通过触觉传感器实现，多使用基于柔性材料和传感器阵列的电子皮肤具身感知触觉感知电子皮肤主要部署在机械臂的夹爪及机器人的指尖、指腹和手掌等部位，在抓取、移动和放置过程中发挥作用具身感知触觉感知物体放置的过程中，重点是进行摩擦力的实时检测，调整的大小，保证平稳的放置引言具身交互与动态决策多模态感知让智能体在复杂动态场景中更好地实现类人化的环境理解，而“具身性”提供了智能体的物理存在，支持其在理解环境的基础上进行自主行动、实现与环境的交互。通过环境交互获取信息、改变世界，并在交互中学习动态决策应对复杂、变化的世界，是AI从“思考者”迈向“行动者”的关键一步。强化学习具身交互与动态决策强化学习的核心思想就是“试错”+“奖励驱动”。实现“价值”的最大化是强化学习的最终目标强化学习-网格世界具身交互与动态决策状态图强化学习-网格世界具身交互与动态决策状态转移强化学习-网格世界具身交互与动态决策告诉智能体“在每个状态应该采取什么动作”就叫作策略基于一种策略就可以得到不同起点到达目标的轨迹策略基于同一策略的不同轨迹强化学习-网格世界具身交互与动态决策网格世界针对可能的状态迁移定义了奖励规则如下：智能体试图超出边界，奖励为-1；智能体进入禁区，奖励为-1；智能体进入目标单元格，奖励为1；智能体进入可访问区，奖励为0（表示不惩罚）；智能体不改变状态，奖励为0。强化学习-网格世界具身交互与动态决策仿真与迁移具身交互与动态决策强化学习能让智能体在与真实物理环境的交互中自主学习复杂技能，一方面会带来高昂的试错成本，如智能体摔倒、碰撞等造成的本体损坏或环境破坏；另一方面由于物理动作执行慢，获取一次反馈（奖励）可能需要几秒甚至几分钟，这对于可能需要数百万次尝试的学习来说耗时太长。所以强化学习多采用仿真+迁移学习的方式进行。仿真与迁移具身交互与动态决策仿真(Simulation)是指在计算机里构建一个物理世界的高保真虚拟模型，也就是仿真环境。仿真与迁移具身交互与动态决策迁移学习(TransferLearning)是指将仿真平台训练好的模型参数部署到现实世界中、将训练好的策略应用到真实机器人上的过程。在仿真中表现完美的策略，迁移后可能完全失效或表现不佳，需要微调。语义地图具身交互与动态决策语义地图，为地图上的每个物体或区域贴上有意义的标签。世界模型具身交互与动态决策世界模型是为了让智能体模仿人类关于世界的“心理模型”，不仅能理解当前环境，还能根据以往经验进行反事实推理，预测当前的运动行为对环境可能产生的变化，并提前做出应对决策。让智能体具备想象行动后果的能力世界模型具身交互与动态决策谷歌发布genie2,单图生成1分钟3d游戏世界具身智能应用人形机器人人形机器人被认为是具身智能的终极形态，它旨在模仿人类形态与运动能力，以适应人类设计的环境，如家庭、公共场所等。人形机器人通常采用“大脑-小脑-肢体”的结构设计，通过分工协作实现复杂的任务处理。人形机器人还需要面对几个核心挑战：全身运动协调与动态平衡控制，灵巧手操作，非结构化环境理解与导航。具身智能应用人形机器人/video/BV1oK421x7j3/?spm_id_from=333.337.search-card.all.click&vd_source=b3cb7bb173fd42d893f36f13d7e855db具身智能应用自动驾驶自动驾驶开始逐步转向“端到端（End-to-End，E2E）”模式，即采用一个深度学习模型，输入传感器采集数据，直接输出规划轨迹和控制指令操控汽车加速、刹车、转向等。具身智能应用自动驾驶2025年3月理想汽车发布了下一代自动驾驶架构MindVLA具身智能应用自动驾驶搭载MindVLA

的理想i8道路演示具身智能应用医疗辅助在医疗辅助领域，具身智能技术在临床干预、日常护理、基础设施支持、生物医院研究四个关键领域都已经广泛应用并发挥着重要作用。达芬奇手术机器人由医生主控台、床旁机械臂手术平台和成像系统组成，能通过微创方式实施复杂的外科手术。具身智能应用医疗辅助达芬奇手术机器人具身智

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

人工智能通识导论（理论篇）课件第7章-身体与智能：具身智能新前沿

文档简介

温馨提示

最新文档

评论

人工智能通识导论（理论篇）课件 第7章-身体与智能：具身智能新前沿

文档简介

温馨提示

最新文档

评论

相关文档

人工智能通识导论（理论篇）课件第7章-身体与智能：具身智能新前沿