机械设备-人形机器人系列之八：人形机器人究竟需要怎样的AI模型

上传人：策*** IP属地：山西上传时间：2023-09-26 格式：DOCX 页数：50 大小：1.37MB 积分：19.9 举报 版权申诉

已阅读5页，还剩45页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

人形机器人系列之八人形机器人系列之八核心观点：多模态大模型的发展为实现人形机器人任务级交互带来曙光。大语言大模型赋能机器人感知模块，进一步加速下游应用领域突破。大模型不仅为人形机器人带来决策能力的提高，在感知模块也正引领机器视实时性问题是大模型的主要难点，运控问题上基础模型更有优势。虽风险提示。技术迭代速度不及预期、安全隐私法规影响、道德风险。相对市场表现7%2%-9%11/2201/2303/2305/2307/23 机械设备沪深300请注意，孙柏阳并非香港证券及期货事务监察委员会的注册持牌人，不可在香港从事受监管活动。篮2023-06-182023-04-16报告日期合理价值（元/股）300124.SZ 一、人形机器人商业化落地困难重重，任（一）通用化——人形机器人高需求和低渗透率矛盾的核心原因（一）大模型时代下人形机器人的机遇三、大模型赋能人形机器人感知模块，SAM 23 （一）实时性是大模型面临的重大难题 28 29 5 6 6 7 8 9 20 23 23 25 25 28 29 导读：从大模型看人形机器人提升通用化水平的路径现状：研发通用化人形机器人一直是机器人领域最重要且至今尚未完成的挑战。受制于人形机器人通用化水平低的现状，人形机器人产业正面临高需求和低渗透率的使用大模型的探索：如今，多家科技巨头正积极布局多模态大模型领域，希望借助大模型的不同路径：学界对多模态大模型的探索主要分为两条技术路径——VLM和VLA，分别聚焦于高层级规划问题和一体化解决方案，其中VLM方向已经取得了阶段性的成果。一、人形机器人商业化落地困难重重，任务级交互任重道远促进却又相互限制彼此的发展。能否实现机器人控制层级中的任务级交互，将成为（一）通用化——人形机器人高需求和低渗透率矛盾的核心原因机器人产业前景广阔。根据中国电子学会编写的《中国机器人产业发展报告（2022服务机器人市场规模将有望增长到290亿美元，中制造业产业工人约有6676万人。麻省理工学院教授撰写的《RobotsandJobs:绝大部分工厂里的生产工作仍然由人工完成。而在商用和服务领域，绝大多数机器机器人硬件性能距离科幻电影中所描述的未来科技仍然有巨大的差距，但得益于工发挥硬件的现有机能。以特斯拉Optimus为例，根据特斯拉在2023世界人工智能大机器人是典型的机电软一体化产品，软件与硬件是相互限制又相互促进的矛盾体。市场促使机器人厂商加大投入研发性能更强大的机器人。如果没有通用性的提高，就难以说服客户群体选择人形机器人，也就难以支撑人形机器人产业发展的正向循环，这也就是目前人形机器人商业化困难重重的核心原因。要理解实现任务级交互对于提高机器人通用化的意义，我们首先需要了解人形机器人的三大主要技术模块，以及一个机器人从收到指令到完成命令之间需要经过哪些一般地，我们将人形机器人分成三大技术模块：环境感知模块、人机交互模块和运储器和AI人工智能芯片，负责对环境感知的信号进行处理分析，形成决策信号反馈给控制器，相当于人的大脑；运动控制模块包括机械传动系统，根据大脑反馈的信落实到具体的流程规划问题，机器人控制框架一般采用层级控制方法。根据和伺服级（ServoLevel）。在任务级，用户指定机器人系统应该执行的任务，并输出相对抽象的符号命令；在动作级，机器人将来自任务级的符号命令转换成表示每个基本动作运动路径的中间构型序列，具象化了执行每个命令的路径；在初始械臂的动力学模型对运动轨迹进行速度、加速度的限制和优化以输出机器人可以实），），2.对每个步骤完成路径规划（例如为了打开水龙头，机械臂需要进行圆周运3.对路径插值计算生成具体的轨迹和控制指令（例如规划的路径是否在物理上可4.利用电流信号操纵电机完成各个制定好的动作（运行伺服驱动器里的三环控制）任何场景下，用户仅需向机器人明确抽象的任务目标，它便能够理解自然语言并自主拆解任务内容，输出具体决策与操作指令。同时，机器人还能够根据任务执行过程中的反馈信息，及时对指令进行修正，从而确保最终实现任务目标。实现了任务其余场景下均具备高度的自主运行能力，无需掌握机器人专业操作知识的机器人应用工程师介入，这就大幅提升了人形机器人的通用化水平，解决了人形机器人商业化落地难的问题。以目前的人形机器人落地案例来看，实现任务级交互的难点主要集中在如何让机器高层级的任务规划还是需要依靠人工示教的形式实现，机器人难以自主完成。当前的机器人控制系统不具备常识理解能力和专业技能，无法把任务目标和需要执行的动作联系起来。这就需要专业的机器人应用工程师提前理解任务，并把任务拆解成合适的动作，使用机器人编程语言完成机器人应用程序的编写、调优和部署。以上文提到的接水任务为例，仅仅是打开水龙头这一个子任务对机器人来讲就有很多未执行——水龙头的样式多种多样，开启的方式也不尽相同。机器人首先要能理解面对的是一个什么样的水龙头，该如何开启，开启到什么程度能兼顾接水速度和避免如何让人形机器人实现自主规划，将成为决定人形机器人能否顺利商业化落地的关二、多模态大模型为实现任务级交互带来曙光本章节导读：大模型在常识理解、推理决策等方面的能力可以弥补人形机器人在决线上均涌现出了一系列具有突破性意义的大模型。本章节将详细介绍目前主流的几（一）大模型时代下人形机器人的机遇领域上。以往一套AI基础模型的训练通常需要经历“数据收集--标注--调参优只针对某个特定领域有效而缺乏通用性，在面对很多对时效性需求高的场合（譬如由于机器人算法工程师难以穷尽所有的场景，所以当机器人面临这些“边缘问题”时，无法借助训练集的数据来给出合理的动作反馈。目前基主要方案还是case-by-case，力图覆盖尽可能多的场景，但这不仅需要大量计算资源，也显著提高了机器人的训练成本。进行连贯的交互，还具备零样本/小样本学习的能力。把这些能力应用到需求——任务级交互。一个正确且可行的解决方案，从而提高了泛化能力；同时，大模型对于自然语言的理解能力也让机器人的使用者从必须掌握编程语言的专业算法工程师变成了一般的业走向大规模快速爆发的起点。首席执行官黄仁勋再次强调，人工智能的下一个浪潮将是具身智能，即能理解、推理、并与物理世界互动的智能系统。虽然目前已有将语言大模型应用与人形机器人语言指令转化为机器人编程语言，但是单一模态大模型仍存在局限性：语言和行动的鸿沟，阻碍了搭载AI的人形机器人像人一样行动。这些大模型欠缺和真实物理世器人不该只局限于一种模态的信号处理，而是应当像人类一样，能够多维度的感知和理解环境。对话意图识别以及更精确的情感分析，从而提高决策的总体准确率，提供更加人性的实验论证，多模态学习通过聚合多源数据的信息，可以使模型学习到的表示更加single(provably)[J].纷入局。其中，有利用机器人训练数据对大语言模型直接微调的，也有直接使用具身大模型。纵观学界和业界对于多模态大模型的研究方向，在人形机器人领域的技术路线主要接口调用传统控制算法来实现机器人的运动控制。另一大路线是尝试搭建一体化的1.技术路线其一：多模态大模型（VLM）+传统运动控制算法AI天生就是“语言上的巨人，行动上的矮子”。虽然大语言模型可以把高层级的任务拆分成若干个在语义上符合逻辑的子任务，但是由于LLM普遍缺乏真实物理世界的经验，无法判断其输出会对环境产生什么样的影响，也不知道真实环境和机器人的子任务指令不一定能在某个实际的场景中被机器人顺利执行。因此，谷歌、Meta型有SayCan、PaLM-E和Imagebind。Say部分主要由大语言模型构成。首先大语言模型会在Prompt的引导下拆分任务目训练得到的，主要负责根据传感器的视觉信号，感知现实环境，并对决策集中的每一个决策计算出相应的成功执行概率。图10：SayCan模型的架构和技术原理：对可行指Affordance函数的加入可以让SayCan模型基于现实情况推翻无法实现的决策。在实可以帮助机器人做出最符合现实的决策。图11：SayCan模型可以让机器人结合实际情languageinroboticaffordances[J].arXivprepSayCan模型的最大价值在于它解决了大模型在机器人应用领域中的第零层问题。机器人在处理每一个决策时，能够在充分考虑其对长远目标的影响和贡献的同时，（2）PaLM-E：跨越多模态的“通才”和柏林工业大学的研究团队融合了Google当时最新的大型语言模型PaLM和最先进的视觉模型ViT-22B，发布了一款应用于机器人领域的多模态大模型Pa实世界的连续观察，使用多模态标记与文本交错等方式形成多模态句子（包括语言本内容，可以是问题的答案，也可以是以文本形式生成的一系列机器人应当执行的languagemodel[J].arXivpreprintarXi觉问答，图像字幕生成等多模态任务，并且展示出了更高的准确率。研究团队通过图14：多任务混合训练显著提高了机器人执行各类任languagemodel[J].arXivpreprintarXiPaLM-E提供了一个将多模态大模型直接与人形机器人结合的可行方案。Saycan模型因为需要在第一步利用大语言模型输出可行决策集，再依靠Affordance函数判断2023年5月，Meta宣布开源了一种可以将可以横跨6种不同模态的全新AI模型火车的图片和视频，同时它还可以根据声音的变化生成对应的深度图和文字描述；态的数据放入统一的联合嵌入空间进行学习训练。这种以图像为中心的配对方式一支持各类下游模型，还能做到杰出的跨模态检索以及零样本学习的表现。例如，ImageBind在少于四个样本分类的top-1准确率上，要比Meta的自监督AudioMAE模型和在音频分类fine-tune上的监督Aud与世界交互的能力。Meta团队还表示，未来还将加入触觉、语音、嗅觉和大脑功能2.技术路径其二：感知-决策-控制一体化的VLA大模型VLM大模型输出的决策指令仍需借助低级别策略或API才能完成对机器人的运动控器人在输入端可以实现类似人类的多感官感知，但VLM大模型在人形机器人的输出端仍存在天然的缺陷。VLM输出的预测结果处于高层级，但落实到实际机器人关节针对VLM大模型的缺陷，许多研究团队正在尝试搭建直接对低层级运动控制进行预（1）DeepMindRT-2：直接实现端到端的机器人型的方式，而是直接采用已有的VLM模型作为主模型，再使用更适合机器人任务的图19：RT-2的架构：输入自然语言指令，输出控制执行器运动的文transferwebknowledgetoroboticcontrol[J].ar人类识别。每项任务都需要理解视觉语义概念，以及执行机器人控制以操作这些概念类的命令，机器人被要求对机器人数据中从未见过的对象或场景执行操作任务。在图20：RT-2的两个实例模型和基线模型在不同训练任务中的执行成transferwebknowledgetoroboticcontrol[J].arr的引入可以让机器人更有逻辑地去完成一项复杂的长任务。图21：引入CoT能够帮助RT-2完成更为复杂、时transferwebknowledgetoroboticcontrol[J].ar（2）RoboCat：能够自我学习的“机器猫”到的PaLM-E以及RT-2中所使用的机器人数据集绝大部分数据是通过人工示范与人工遥操作的方式收集的，费时费力而且效率很低。如果可以通过某种方式自动生成以解决和适应多种任务的机器人AI智能体。研究人员将多模态大模型Gato的架构与在模拟环境与物理环境中处理语言、图像和动作等任务的能力。以快速解决需要精度和理解性的任务，例如从碗中取出水果或解决形状匹配谜题，这为实现更加复杂的机械控制和应用场景拓展提供了基础。图22：RoboCat可以在虚拟空间或现实空间人工示教的方式，对RoboCat进行第一轮的训练。之后RoboCat便进入“自我改进界出的自我学习、自我迭代能力大大降低了模型训练的投入成本，同时也为实现端到图24：RoboCat的执行成功率远超基线模型（左图为模拟空间的执行成功率，右图为现实世界的执行成功率）综上所述，目前在大模型技术机器人应用领域的两条主流技术路线上均有突破性进三、大模型赋能人形机器人感知模块，SAM带来机器视觉训练新范式本章节导读：大模型不仅为人形机器人带来决策能力的提高，在感知模块也正引领觉在下游机器人应用领域的突破。似于ChatGPT用人类语言对话的方式给机器下命令。SAM接受了数百万张图像和超过十亿个掩码的训练，可为图像或视频中的任何创建准确的分割模型通常需要领域专家进行高度专业化的工作，同时需要强大的算了多样化数据训练的可提示模型，已经学会了物体的一般概念，并且可以为任何图像或视频中的任何对象生成掩码，甚至包括在训练期间没有遇到过的对象和图像类用户可以画一个大致的框包含需要分割的对象，AI会自动提供分割结果3）自动这样一来，一旦使用者给出提示，SAM只需要50毫秒就能在习提示编码与图片编码的不同结合，来理解人类在文字提示中表述的希望如何分割能。除了图像分割模型SAM，Meta还同时发布了迄今为止体量最大的分割数据集SegmentAnything1-Billion（SA-1B），由1的图像以及11亿个高质量分割掩码组成，数据量超越了第二大的分割图像数据集OpenImagesV5近400倍。虽然SAM并没有完全理解人类的语言和视觉的能力，但SAM使用常见的公共分割数据集进行训练，注释员则需要人工按突出程度顺序标记标注其他的部分即可，该阶段标注人员着眼于增加物品的多样性，以帮助SAM可以自动标注图像并加入数据集中。同时，团队还开发了一个模糊感知模型，允许SAM个高质量的遮罩，数据集的数据量也随着SAM的不断学习得以快速增长。图31：SAM模型的学习成果可以通过数据，因此训练成本较高。有了图像分割通用模型后，这些领域内定制化开发产品的成本将会大幅降低，厂商将有更多的资金和精力去投入到下游应用。同样的，在人的准确性和稳定性。此外，SAM赋能下不断进步的感知层叠加大模型赋能下的决策层，未来我们大概率可以看到像素级别的图像理解与更高级别的视觉内容语义理解四、大模型or基础模型，人形机器人究竟需要怎样的本章节导读：虽然大模型技术为实现高层级自主规划带来了方案，但从目前的情况在运控领域，相对成熟的传统基础模型更能满足我们的需求。大模型只是途径而非（一）实时性是大模型面临的重大难题想要实现人形机器人在现实场景中的应用，不仅要求存在一个翻译器可以把大模型生成的自然语言指令转换为运动控制信号。而一体化散分布的机械臂末端位置和底盘移动指令，而未能考虑连续运动的轨迹平顺性、时是只有5B数据量的RT-2模型，控制周期也只能达到5Hz，而这个数字和业界普遍要较为流畅的机器人运动过程尽管大模型向我们展示了其卓越的决策能力，但基础模型（传统数学模型和参数量数据稀缺或领域特定任务更具适应性，并且能够快速迭代和实验，提供更准确和高运行模型非常重要，谁也不愿看到未来的人形机器人会是一个堆叠大量芯片、体型的应用场景更加适用；望机器人的每一个动作都是可预知的、可控制的，即使出现了小的错误也可以立马领域最为杰出的波士顿动力为例，其双足机器人Atlas的主要运动控制算法还是模型过真人动作捕捉的方式为机器人构建正确的运动学模型和动力学模型；在预测阶段，各关节的驱动力，假设这个驱动力不变，预测下一时刻的运动轨迹，并计算预测的运动轨迹和实际轨迹的误差；在控制阶段，机器人通过优化控制，求得最优的各关使动作能够符合机器人的物理约束，并将结果记录在离线轨迹库中。完成离

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

机械设备-人形机器人系列之八：人形机器人究竟需要怎样的AI模型

文档简介

温馨提示

最新文档

评论

机械设备-人形机器人系列之八：人形机器人究竟需要怎样的AI模型

文档简介

温馨提示

最新文档

评论

相关文档