人工智能行业机器人智能化三部曲(二):Meta及微软篇_第1页
人工智能行业机器人智能化三部曲(二):Meta及微软篇_第2页
人工智能行业机器人智能化三部曲(二):Meta及微软篇_第3页
人工智能行业机器人智能化三部曲(二):Meta及微软篇_第4页
人工智能行业机器人智能化三部曲(二):Meta及微软篇_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

证券研究报告):yanguicheng@分析师:金戈jinge@分析师:于芳博yufangbo@发布日期:2023年10月16日同时请务必阅读正文之后的免责条款和声明。推出基于ChatGPT的机器人控制框架,将ChatGPT的“数据规模高效扩充。2023年8月推出的MT-ACT模型将数据增强技术(基于据的情况下,在不同难度的测试中分别实现了81.67%、65.17%、31.33%的成且具备较强的抗干扰能力,能够在环境变化的情况下自动调整完成相关任务的方式。通过将且相较谷歌尝试利用大规模的数据集提升机器人模型的表现,Meta的相关工作更加关注如何基于小规模的数据,结合数据增强、人类视频语言输入调整机器人的运行轨迹。2023年2月发表文章“ChatGPTforRobotics”,其核心在于通过大语言模型(ChatGPT)来处理用户制机器人利用不同颜色的方块拼接出微软Logo。沿用视觉处理部分架构作为预训练基础模型模型的知识来源沿用视觉处理部分架构作为预训练基础模型模型的知识来源图:Meta机器人模型相关进展时间轴沿用数据增强思路SegmentAnything(SAM)作为数据增强的工具沿用动作序列生成部分ACT:机器人动作序列生成的Transformer•Meta及斯坦福大学的研究人员在2022年3月推出了基于人类第通过时间对比学习、视频-语言对齐等方法来充分学习视频中的视觉信息,构建出预训练模型作图:Ego4D数据集图:R3M模型架构•在模拟场景中,经过进一步演示的R3M模型能够整体以62%的成功率完成12项不同的操作任务,图:模拟场景中R3M模型的性能表现情况图:现实场景中R3M的示例及性能表现情况资料来源:资料来源:《R3M:AUniversalVisualRepresentationforRobotManipulation》,中信建投训练阶段:利用前置环节得到的任务数据训练出统一的多任务控制策略中收集相关任务的专家示范数据数据收集阶段:在现实场景/模拟场景数据压缩阶段:将扩充后的数据集中的“视觉”数据压缩成向量。1.3.1CACTI训练阶段:利用前置环节得到的任务数据训练出统一的多任务控制策略中收集相关任务的专家示范数据数据收集阶段:在现实场景/模拟场景数据压缩阶段:将扩充后的数据集中的“视觉”数据压缩成向量。•Meta、哥伦比亚大学及卡耐基梅隆大学的研究人员在2022年12月推出了可扩展的图:CACTI模仿学习框架数据增强阶段:通过不同的策略对专家示数据增强阶段:通过不同的策略对专家示范数据进行增强,实现数据集的扩充资料来源:《CACTI:AFrameworkforScalableMulti-TaskMulti-SceneVisualImitationLearning》,中信建投1.3.2CACTI:可扩展的多任务多场景视觉模仿学习框架•数据扩充环节旨在增强原始专家数据的多样性,主要分为视觉增强和语义增强两种方式。在现实场景图:CACTI数据扩充环节图示资料来源:《CACTI:AFrameworkforScalableMulti-TaskMulti-SceneVisualImitationLearning》,中信建投1.3.3CACTI:可扩展的多任务多场景视觉模仿学习框架图:CACTI训练和推理架构示意图资料来源:《CACTI:AFrameworkforScalableMulti-TaskMulti-SceneVisualImitationLearning》,中信建投资料来源:《CACTI:AFrameworkforScalable资料来源:《CACTI:AFrameworkforScalableMulti-TaskMulti-SceneVisualImitationLearning》,中信建投图:现实环境结果图:仿真环境结果在模拟场景中使用额外的互联网数据效果较差,研究人员在模拟场景中使用额外的互联网数据效果较差,研究人员认为这可能是模拟环境中的图像信息与现实场景图像信息差距较大导致的随着训练数据的增加,模型在处理过的任务上的性能先随着训练数据的增加,模型在处理过的任务上的性能先降后升,在未处理过的任务上的性能持续提升导航技能拾取技能放置技能1.4.1ASC:具备自适应技能协调能力的机器人模型导航技能拾取技能放置技能•Meta及GeorgiaInstituteofTechnology的研究人),图:ASC训练的模拟环境数据集图:ASC模型架构资料来源:资料来源:《ASC:AdaptiveSkillCoordinationforRoboticMobileManipulation》,中信建投1.4.2ASC:具备自适应技能协调能力的机器人模型79中不同布局的虚拟公寓中进行了1500次的实验,实现了94.9%的成略,,图:ASC模型在现实环境和模拟环境中的评估结果资料来源:《ASC:AdaptiveSkillCoordinationforRoboticMobileManipulation》,中信建投1.4.3ASC:具备自适应技能协调能力的机器人模型•ASC模型具备较强的抗干扰能力:ASC模型针对视觉的反馈进行下一步的行动,而不是依赖于地图:ASC模型控制的机器人可以在面临干扰的情况下较好的完成任务在被障碍物多次阻挡后机器人仍能找到正确的路径在被人多次阻挡后机器人仍能找到正确的路径在目标物体状态反复变化的情况下,机器人仍能持续搜索并完成任务资料来源:《ASC:AdaptiveSkillCoordinationforRoboticMobileManipulation》,中信建投1.4.4ASC:具备自适应技能协调能力的机器人模型•通过将更强的Owl-ViT视觉模型应用在AS图:增强后的ASC模型应用在额外的复杂场景中资料来源:《ASC:AdaptiveSkillCoordinationforRoboticMobileManipulation》,中信建投1.5ACT:具备动作序列生成能力的Transformer架构过encoder处理后,通过decoder得到接下来若干个时刻的动作序列。都是若干个时刻预测的综合,并且考虑了环境的最新变化,进而实现了更图:ACT模型架构图:动作分块与时序组合的原理示意图每个时刻的输出是多每个时刻的输出是多次预测的加权组合资料来源:《LearningFine-GrainedBimanualManipulationwithLow-CostHardware》,中信建投•Meta及CarnegieMellonUniversity的研究人员在2023年8月推出•模型框架:训练过程中,在语义增强阶段利用内绘增强技术使训练图:MC-ACT模型框架资料来源:《RoboAgent:GeneralizationandEfficiencyinRobotManipulationviaSemanticAugmentationsandActionChunking》,中信建投图:MT-ACT可以执行十二种不同的任务图:RoboAgent数据集任务种类分布(上)及和其他数据集对比(下)不同种类任务训练数据分布数据量对比训练任务种类对比数据量对比资料来源:《RoboAgent:GeneralizationandEfficiencyinRobotManipulationviaSemanticAugmentationsandActionChunking》,中信建投海量互联网数据中提炼出的视觉知识,可以区域中引入由文本提示提供的物体,对背景(如下图:MT-ACT借助SegmentAnything对背景和被操作物体进行语义增强 对背景的增强图:语义增强为模型性能带来了明显提升对被操作物体的增强三种任务的成功率均有提升,其中L3的提升最为明资料来源:《RoboAgent:GeneralizationandEfficiencyinRobotManipulationviaSemanticAugmentationsandActionChunking》,中信建投图:MT-ACT性能情况L4场景成功率L1场景成功率L1/L2/L3场景成功率资料来源:《RoboAgent:GeneralizationandEfficiencyinRobotManipulationviaSemanticAugmentationsandActionChunking》,中信建投•Meta的机器人模型与谷歌有所差异,目前的工作中尚未尝试将大语言模型与机器人图:Meta机器人模型梳理模型名字ASCRoboAgent/MT-ACT研究机构Meta、StanfordUniversityMeta、ColumbiaUniversity、CMUMetaFAIR、GeorgiaInstituteTechnologyMetaFAIR、CMURL+人类演示模拟环境中强化学习RL:45000个机器人操作片段RL:针对单一任务通过RL得到专家策机器人频率5FrankaEmikaPandaroFrankaEmikaPandarobotBostonDynamicsSpotrobotFrankaEmikaPandaarm(8action视觉处理R3M(使用互联网数据和本次模型数据MaskR-CNNFiLM/CNN语言处理DistilBERT/MLPTransformer/ACT推理芯片资料来源:Meta官网,谷歌学术,中信建投象。上述信息与经过Encoder处理的物体姿态信息和航迹信息相结图:LATTE模型架构文本指令使用BERT模型和CLIP模型对文本指令和图像输入进行处理对象图像对象状态初始轨迹资料来源:《LATTE:LanguageTrajectoryTransformer》,中信建投图:自动生成的训练数据图:模拟/现实场景的运行结果示例图:模型性能分析大多数用户都认为模型在轨迹控制方面实现了较为优秀的性能模型在处理训练集内的指令和训练集外的指令的对比资料来源:《LATTE:LanguageTrajectoryTransformer》,中信建投•Microsoft的研究人员在2023年2月发布文章ChatGPTf1.定义了一个高级机器人功能库(API并于机器人平台上的具体实现相匹配,同时其需要具备相应的描述2.通过提示工程为ChatGPT创建调用相关API的3.用户通过直接分析或模拟来评估ChatGPT输出的代码质量,并针对输出的代码质量和安全性向ChatGPT4.逐步迭代ChatGPT生成的结果,将最终代码部署到机器人上图:ChatGPTforRobotics框架通过提示工程为ChatGPT创建用户通过直接分析或模拟来定义一个和任务相关的机器人API通过提示工程为ChatGPT创建用户通过直接分析或模拟来调用相关API的Prompt资料来源:《ChatGPTforRobotics:DesignPrinciplesandModelAbilities》,中信建投评估ChatGPT输出的代码质量,并向ChatGPT提供反馈•模型具备将对现实世界的知识理解通过机器图:ChatGPTforRobotics示例2.ChatGPT在用户提问下回答了微软Logo的资料来源:《ChatGPTforRobotics:DesignPrinciplesandModelAbilities》,中信建投风险提示•算力发展不及预期:机器人模型的训练和推理对算力有着较高需求,若后续算力发展不及预期则会影响机器人大模型的迭代和发展。•机器人模型技术发展不及预期:机器人模型属于先进AI算法,若后续机器人模型算法更新迭代效果不及预期,则会影响机器人模型演进及拓展,进而会影响其商业化落地等。•数据数量与数据质量不及预期:机器人模型需要大量的高质量数据进行训练,若数据数量和质量存在短板,则会影响模型效果。•机器人大模型研发竞争激烈:美国科技大厂纷纷入局机器人模型研发,相关产品表现出了很强的竞争力,机器人模型研发竞争越发激烈。 分析师介绍阎贵成:中信建投证券通信&计算机行业首席分析师,北京大学学士、硕士,专注于云计算、物联网、信息安全、信创与5G等领域研究。近8年中国移动工作经验,6年多证券研究经验。系2019-2021年《新财富》、《水晶球》通信行业最佳分析师第一名,2017-2018年《新财于芳博:中信建投人工智能组首席分析师,北京大学空间物理学学士、硕士,2019年7月加入中信建投,主要覆盖人工智能等方向,下游重点包括智能汽车、CPU/GPU/FPGA/A评级说明报告中投资建议涉及的评级标准为报告发布日后6个月内的相对市场表现,也即报告发布日后的6个月内公司股价(或行业指数)相对同期相关证券市场代表性指数的涨跌幅作为基准。A股市场以沪深300指数作为基准;新三板市场以三板成指为基准;香港市场以恒生指数作为基准;美国市场以标普500指相对涨幅5%—15%相对跌幅5%—15%本报告署名分析师在此声明i)以勤勉的职业态度、专业审慎的研究方法,使用合法合规的信息,独立、客观地出具本报告,结不包括香港、澳门、台湾)提供。中信建投证券股份有限公司具有中国证监会许可的投资咨询业务资格,本报告署名分析师所持在遵守适用的法律法规情况下,本报告亦可能由中信建

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论