版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
机器人行业市场分析人形机器人的核心价值来自通用性工业机器人虽然技术成熟,但却无法解决泛化性的问题,不适应现代制造业柔性生产的需要。我们认为人形机器人将作为工业机器人的补充,与工业机器人共同推进制造业的智能化发展。如何增强机器人的泛用性是行业一直致力解决的问题。传统的工业机器人并不能直接使用,需要被系统集成商集成后使用。机器人的系统集成需要对客户工艺的深刻理解,是高度定制化的环节,同时也是严重依赖工程师经验的环节。系统集成不仅增加了工业机器人的使用成本,还使工业机器人失去了泛化性。在工业机器人被集成的过程中,工业机器人遵循编写好的程序运行,与应用场景高度绑定。一旦环境变化后,用户需要通过工程师重新部署、编程,无法通过简单操作实现场景适配。这注定了工业机器人适用于大规模、重复性生产,无法适应柔性化生产的需要。这严重限制了机器人的使用范围,阻碍了机器人行业的成长。2022年工业机器人市场规模585亿,并不是一个非常大的市场。尽管工业机器人已经广泛应用于汽车、3C、纺织、包装等行业,但在这些行业之中依然有大量环节离不开人工。以汽车行业为例,目前工业机器人在汽车行业主要应用于搬运、上下料、焊接、喷涂、切割和冲压。在打磨、清洁、检测、分拣、包装等领域依然依赖人工。在汽车的总装环节95%依然是重人工。原因在于:1)汽车总装的时候需要工人进入车内空间操作,而车内空间是有限的、为人体设计的,工业机器人没有多余的施工空间;2)单个工人使用的工具超过10个,并非简单、单一的操作。小米集团高级副总裁曾学忠认为,在未来智能制造体系里面,自动化设备、人形机器人以及人将以7:2:1黄金法则来组成。未来70%的对制造质量和制造效率要求高的工作依靠自动化设备来完成;20%高复杂度、高柔性的场景需要人形机器人来完成;10%是工作还是要依靠人,因为最终数据与价值的管理还是要依靠人,人才可以定义价值。根据智研咨询,2022年中国自动化设备的市场规模达到2909亿元,全球自动化设备达到2308亿美元。以此推算,仅在工业制造领域,人形机器人未来潜在市场规模约660亿美元(全球市场)。人形机器人会带来整个自动化市场的扩张。我们希望机器人渗透到社会的方方面面帮助我们工作,但当前的工业机器人需要系统集成商去安装部署,所以很难渗透到非标准化的场景之中,这限制了整个行业的市场规模。我们认为,依赖人形机器人的泛用性,未来机器人可以从标准化工业场景进一步渗透到非标准化场景,也包括建筑、商业导览、医疗护理、教育培训、家庭服务等非工业领域。这将会给机器人行业带来远超之前的市场空间。“人形”只是表象,通用+智能是人形机器人更为核心的价值。选择“人形”,只是因为我们活动的世界是为人的身体所创造的,人的形态可以操作一切工具,具有最广泛的适应性。通用+智能才是人形机器人的核心价值。人形机器人的发展也不是孤立的,而是从四足机器人、机械臂上衍化而来。人形机器人的“小脑”运动控制算法,是在四足机器人的基础上发展而来。人形机器人的“大脑”大模型,常被搭载在机器臂上进行研究。所以在讨论广义的人形机器人时,我们不局限于特斯拉Optimus这样的双足机器人,也会讨论波士顿动力Spot这样的四足机器人,甚至还包括谷歌everydayrobot这样的轮式机器人。人形机器人潜在的市场规模是巨大的。比亚迪2022年年报披露,比亚迪共有员工57.01万人,其中生产工人44.21万人,占比78%。可见即使在高度自动化的汽车行业,依然有大量环节是工业机器人无法胜任的,需要依靠人工的力量。假设比亚迪的生产工人中有10%(4.4万人)被人形机器人按1:1比例替代,按单台机器人20万估算,仅一家企业就能贡献88亿元市场规模。大模型加速人形机器人产业化落地人形机器人出现多年,但功能一直集中于简单的跑跳、抓取,几乎没有可以落地的商业场景。以chatGPT为代表的新一代人工智能技术,让人形机器人的场景落地进度大大加快。我们认为人形机器人是LLM+机器人领域的一种AIAgent,是大模型落地的重要场景之一。LLM充当机器人的大脑,很好解决了以往机器人的两大难题:1)基于“常识”的语义理解,2)复杂任务的分解。LLM赋予人形机器人更好的人机交互能力、规划决策能力,解决了传统工业机器人的泛用性问题。技术和成本限制人形机器人的产业化早在1973年,日本早稻田大学就制造出了世界上第一台人形机器人WABOT-1。WABOT-1不仅能与人交流,还可以抓握和运输物体。WABOT-1行走一步需要45秒,步伐也仅有10厘米左右。1984年,WABOT-2诞生。WABOT-2具有与日本人进行自然对话的能力,还能用眼睛看乐谱,用手脚灵活地演奏电子琴,具有演奏中级难度音乐的能力。此外,它还可以识别歌声,自动进行转录。尽管人形机器人早已出现,但商业化落地始终没有成功。本田、波士顿动力曾尝试过人形机器人的商业化,均已失败告终。本田的ASIMO机器人本田的ASIMO(中文名:阿西莫)机器人,是全球最早实现双足行走能力的机器人。“ASIMO”的初代型号于2000年10月31日推出,但其前身可以追溯到1986年。1986年,本田制造的第一台机器人被称为E0。E0只有“下半身”而且走得很慢,有时需要20秒才能完成一个步骤,所以也被称为“静态步行”。1987年,本田推出E1,可以执行“动态步行”,更加类似人的步伐。1991-1993年,本田陆续推出了E4\E5\E6。此时机器人已经可以轻松在斜坡、楼梯、崎岖不平的路面行走。1993-1997年,本田推出P1/P2/P3机器人,看起来更具“人形”,可以抓住物品、推动小车、在外力作用下保持平衡。2000年,第一代ASIMO推出,之后分别于2006年、2011年推出了第二代、第三代ASIMO。第三代ASIMO已经有高达57个自由度,可以实现9km/h的行走速度,可以上下楼梯、开瓶、倒水,还可以对周围人群或动物的位置、动作和行动路线进行预估判断。尽管人形机器人可以行走、开瓶、倒水,但离实际应用还有一段距离。2011年福岛核电站事故发生后,民众希望把ASIMO派到核电站进行灾后救援工作,但本田表示“现在还没有达到大家期望的技术水平”。同时,ASIMO的高达300-400万美金的造价也决定了ASIMO很难商业化落地。2018年6月28日本田汽车公司官方已经宣布停止人形机器人ASIMO的研发,以专注于该技术的更多实际应用。波士顿动力波士顿动力起源于1983年成立的TheLegLaboratory。1992年,创始人马克·雷波特(MarcRaibert)将波士顿动力从麻省理工学院独立出来,成为一家独立运作的公司。波士顿动力的早期项目大多是和军方合作。2005年,波士顿动力和美国国防高等研究计划局合作的四足机器人BigDog和用于逼真人体模拟的DI-guy问世,让波士顿动力名声大噪。之后,波士顿动力又陆续推出多个产品,其中有代表性的包括LS3、cheetah、Atlas、Spot等。波士顿动力很多机器人都没有产业化,主要原因在于:1)应用场景,波士顿动力的机器人很多是以军用目的研发的,设计之初就不是以民用为目的。2)价格,由于以军用为目标进行研发更看重性能要求,波士顿动力的机器人采用了高成本的液压驱动的系统。液压驱动系统的优点是明显的——抗负载刚性大、驱动力大,但功耗高、自重更重,也很难降本。波士顿动力在2020年推出了首款商用机械狗Spot,尽管采用了电驱动关节,但售价依然高达7.45万美元。彭博社报道2020年spot仅卖出了大约400台。与此同时,波士顿动力几经易手,估值大幅下调。2013年,波士顿动力以30亿美元被google收购,被归入GoogleX项目下。2017年,日本软银以不公开条款收购了波士顿动力的股权。2020年现代集团斥资8.8亿美元收购了波士顿动力80%股份,对应估值从30亿美元下降到了11亿美元。LLM:人工智能迈出走向AGI的重要一步基于对于智能的不同理解,人工智能产生了不同的流派。符号主义:符号主义认为智能是基于逻辑规则的符号操作,人的认知活动是符号计算的过程。智能的核心就是根据某套规则做出理性决策。1956~1986年,符号主义经历了从一枝独秀到逐渐衰落的过程,对应人工智能发展的第一次浪潮。当时AI的主要成就是用机器证明的办法证明和推理一些知识,能够解开拼图或实现简单的游戏。但当时的人工智能却几乎无法解决任何实用的问题。联结主义:联结主义也被称为仿生学派,认为智能是脑神经元构成的信息处理系统。他们认为大脑是由神经元构成的神经网络联结而成,而人类智能的实现过程就是通过神经网络中神经元之间的交互而实现。70年代,神经元联结网络模型突飞猛进,并在文字识别、字符识别、人脸识别等垂直领域获得了应用。联结主义贯穿第二次人工智能浪潮(1976-2006)和第三次人工智能浪潮(2006至今)。两者的划分点在于深度学习算法:随着硬件瓶颈的突破、模型的进步,深度学习算法取得突破并在第三次浪潮中被广泛运用。行为主义:行为主义也被称之为进化主义,认为智能是通过感知外界环境做出相应的行为。符号主义和联结主义并未真正解决智能体与真实物理世界交互的难题,在可解释性、鲁棒性方面也面临很大挑战。莫拉维克悖论(要让电脑如成人般地下棋是相对容易的,但是要让电脑有如一岁小孩般的感知和行动能力却是相当困难甚至是不可能的)就体现了很多学者的担忧。布鲁克斯从控制论角度出发,强调智能是具身化和情境化的,智能体必须拥有“身体”并通过与真实世界的交互来发育或进化出智能。行为主义希望能够通过模拟生物的进化机制,使机器获得自适应能力。在第三次浪潮中,人工智能又分化出2个研究主线:一个是AlphaGo为代表的判别式AI;另一个是以chatGPT为代表的生成式AI。生成式AI的历史原型可以追溯到20世纪60年代的聊天机器人Eliza,但直到2014年生成对抗网络GAN模型(GenerativeAdversarialNets)被提出,它才开始了实质性发展。此后,随着VAE模型(VariationalAuto-Encoder)、扩散模型等新训练方法的提出和应用,生成式AI迎来了高速发展。生成式AI领域最大的突破还是来自于大语言模型(Largelanguagemodels,LLM)。2017年google提出transformer,为之后的大语言模型奠定基础。2022年11月openAI上线了大语言模型chatGPT,并在2023年1月活跃用户达1亿,成为历史上增长最快的应用。2023年3月,OpenAI推出GPT-4,在chatGPT3.5的基础上进一步拥有多模态能力,可以接受图像输入并理解图像内容。GPT惊人的展现出了创造力,因而有观点认为GPT正在逐渐演化为一种“通用人工智能”(ArtificialGeneralIntelligence,AGI),尽管这种观点并未达成一致。中科院院士张钹认为,“chatGPT向通用人工智能迈出了一步”。微软也在《人工通用智能的星星之火:GPT-4的早期实验》一文指出,“GPT-4能力的通用性,与跨越广泛领域的众多能力相结合,以及它在广泛的任务范围上达到或超越人类水平的表现,使我们可以轻松地说,GPT-4是迈向AGI的重要一步”。在GPT之前,AI研究的主阵地是专用AI或者功能性AI,发展路径走的是“先专后通”。先在下棋、计算、图像识别、语音识别等专业细分领域入手,在专业领域有足够积累之后逐步演化为通用智能,是以往人工智能发展的主流路径。大模型打开了一条“先通后专”的人工智能发展路径。AI先具备庞大的先验知识库和通识理解能力,在此基础上我们再给AI赋予专业能力,会让很多原来不可能的任务变得简单。比如,让机器人把桌上垃圾扔到垃圾桶里,不再需要告诉它垃圾是什么、垃圾桶是什么,这些都在预训练的大模型里。具备通识理解能力的大模型,将作为一项通用目的技术赋能各行各业,成为经济增长的重要引擎。现代经济增长理论有“通用目的技术”(GeneralPurposeTechnology,GPT)的概念。与之对应的则是“专用目的技术”(SpecificPurposeTechnology,SPT)。通用目的技术的影响范围广泛,对经济具有整体性影响,通常被称为“经济增长的引擎”。Bresnahan和Trajtenberg认为通用目的技术应该具备的特点包括:1)普遍适用性;2)进步性,通过持续创新学习,通用目的技术的表现会随着时间推移改进;3)创新孕育性,通用目的技术的创新会促进相关应用技术的创新。Lipsey等人在《Economictransformations:generalpurposetechnologiesandlong-termeconomicgrowth》中曾对历史上的通用目的技术进行过专门的研究。研究结果显示,从公元前9000年至今,只有24种技术可以称为通用目的技术。陈永伟则在《作为GPT的GPT:通用目的技术视角下新一代人工智能的机遇与挑战》一文指出,生成式AI也应当可以被认为是通用目的技术。大模型问世后,具体如何应用落地一直有所争议,但近期基于AIAgent的落地方式逐步得到认可。AIAgent的核心意义在于补足了执行环节,强调大模型与真实世界的互动,从而构建了完整的信息闭环。完全基于互联网的文字、图片信息训练而来的GPT具有一定的通识能力和推理能力,展现出了智慧的火花。但这种智能是“纸上谈兵”,缺乏对现实世界复杂性和多样性的深刻。图文是一种抽象的、高度凝练的信息,在传递信息的时候也遗漏了很多信息,这从根本上决定了大模型存在一些难以避免的局限性。我们认为,大模型需要与真实世界产生互动,并通过“具身交互”构建多模态的“感知-认知-执行”的完整信息闭环。AI三大学派中的行为主义学派有类似的观点——行为主义学派认为,智能体必须拥有“身体”并通过与真实世界的交互来发育或进化出智能。目前对AIAgent没有形成完全统一的定义。复旦大学团队在TheRiseandPotentialofLargeLanguageModelBasedAgents:ASurvey提出,AIAgent的框架包括三个部分:控制(brain)、感知(perception)、行动(action)。OpenAI应用研究主管LilianWeng对AIAgent的形容是:Agent=LLM+记忆+规划+工具使用。其中LLM是核心大脑;记忆、规划、工具使用则是Agents系统实现的三个关键组件。一般认为,AIAgent是具有自主性、反应性、积极性和社交能力特征的智能实体,本质是一个可以感知其环境、在给定目标下做出决策并采取行动的系统。AIAgent更强调“执行”,会带来人与人工智能交互模式的巨大改变。生成式AI至今与人的交互有三种模式,包括嵌入模式(embedding)、副驾驶模式(Copilot)和智能体模式(Agent)。嵌入(embedding)模式。用户使用提示词来设定目标,然后AI协助用户完成这些目标,比如普通用户向生成式AI输入提示词创作小说;副驾驶(Copilot)模式。人类和AI更像是合作伙伴,共同参与到工作流程中,各自发挥作用。智能体(Agent)模式。人类设定目标和提供必要的资源,然后AI独立地承担大部分工作,最后人类监督进程以及评估最终结果。Embedding模式和Copilot模型下,执行工作的主体依然是人,AI只是起到提升效率的作用。但“协作”这种工作模式本身就有较高的沟通成本,加上AI的智能水平尚未达到完美,使用体验可能并不理想。而基于Agent的交互模式更为高效,将会更大程度的使人类从重复复杂的劳动中释放,带来更好的使用体验。面壁智能认为,大模型想要落地到具体场景,AIAgent是重要路径,它代表的是比“裸”模型更拟人的使用体验;未来万物都会是Agent,比如电饭锅可以是Agent,放入食材后,我们跟它说要熬粥,它就会根据熬粥的逻辑,去设定相应的加热方式。目前学术界针对LLM-basedagents的研究主要集中在社会科学、自然科技、机械工程三个领域。其中在计算机科学和软件工程、机器人和具身智能方面的研究成果相对较多。我们认为,AIAgent将会是大模型在各个场景落地的重要形式,同时也是通向AGI的重要一步。复旦大学论文TheriseandpotentialofLargeLanguageModelBasedAgents:Asurvey将NLP到AGI的发展路线分为五级:语料库、互联网、感知、具身和社会属性。目前的大语言模型已经来到了第二级。依靠LLM-basedAgents感知和行动,人工智能将达到第三、第四级。进一步通过多个Agent互动,则有潜力来到第五级——代理社会。一个知名的案例是“西部小镇”。斯坦福的研究者构建了一个名为Smallville的虚拟小镇,里面有25个AIAgents在小镇上生活,他们有工作,会八卦,能组织社交,结交新朋友,甚至举办情人节派对,每个agent都有独特的个性和背景故事。人形机器人:机器人领域的AIAgent我们把人形机器人理解为大模型在机器人领域的一种AIAgent。通过大模型,机器人具备了自然语言和视觉/触觉的多模态交互能力、适应多场景的泛化能力,这是之前的机器人所做不到的。在LLM模型出现后,学术界进行了大量研究,把LLM的语义理解能力和推理生成能力引入到机器人,让LLM来充当机器人的“大脑”。在引入LLM的过程中,首先遇到的问题是:最初的LLM是一个语言模型,并不是以物理世界为基础的。这使得LLM会给出一些正确的,但和当时的情景格格不入、毫无用处的输出。2022年,google提出的SayCan模型提供了解决思路。SayCan分为两个部分:LLM和valuefunction。收到一个任务后,LLM会给出多个输出选项,并给每个选项生成一个相关性打分;同时valuefunction还会对LLM每个输出选项的可执行性(affordance)打分。最后SayCan模型综合两个打分,给出最合适的结果。研究人员以Palm和FLAN两个大模型为基础,构建了2个SayCan模型。研究员让SayCan模型执行了101个任务,结果显示两个模型都取得了较好的成果。在模拟环境下PalmSayCan成功率为84%,FLAN-SayCan的成功率为70%;在真实环境下Palm-SayCan的成功率为74%,FLAN-SayCan的成功率为61%。2023年2月,微软发表了ChatGPTforRobotics:DesignPrinciplesandModelAbilities。文章提出,可以利用LLM把用户纳入到与机器人交互的“循环”之中。考虑到LLM模型的输出内容是文字,不能操作机器人的动作,因此微软提出了使用API调用的方法:事先定义好各种任务相关的API库,让用户通过LLM的输出文本(prompt)调用API接口,最终实现通过自然语言控制机器人。微软指出,在这个过程中,API的名字定义至关重要。好的API命名可以让LLM选择正确的API接口。文章中,研究人员要求ChatGPT编写一种算法,让无人机能够在不撞上障碍物的情况下到达空中的目标位置。ChatGPT立即理解了研究人员的任务,并编码了算法的大部分关键构建块。一个好的输出文本(prompt)是大语言模型能否成果的关键。但prompt工程复杂且耗时,并且属于实证科学,缺少综合、可及的资源。微软为了解决这个问题提供了LLM-Robotics研究工具PromptCraft,让用户贡献各种机器人策略的prompt和对话例子。2022年12月,google发布了RT-1模型。RT,即RoboticsTransformer。谷歌通过RT-1第一次证明了,通过庞大的、多样化的、任务无关的数据,机器人也可以展现出泛化性,执行一些未曾见过的任务。Google耗费13个机器人历时17个月,收集了超过13万个片段的真实世界数据。Google也强调,因为收集真实世界机器人数据非常困难,因此模型的泛化和微调能力非常关键。RT-1是一个基于机器人数据的端到端模型,输入端是一小段图像序列和用文本描述的任务,输出端是动作指令,包括7个维度的手臂动作指令(armmovement)、3个维度的基础移动指令(basemovement)和1个维度的状态切换指令(modes)。RT-1构建了新的网络结构,包括三层:1)经过FilM网络进行预处理;2)使用tokenlearnermodel计算出一组token;3)使用transformer模型计算token。研究人员让机器人执行了超过700项任务,结果显示:在之前见过的场景、之前未见过的场景、被干扰场景、背景更换场景,搭载RT-1模型的机器人都展现出了更高的成功率。2023年3月,Google发布了视觉语言模型PaLM-E。PaLM-E的名称来自于google之前发布的PaLM预训练算法,和机器人的身体E(embodied)。谷歌和柏林工业大学称,PaLME是迄今为止人类开发的最大规模视觉语言模型(Vision-LanguageModel,VLM),可以在不需要再训练的情况下执行各种任务。通过PaLM-540B语言模型与ViT-22B视觉Transformer模型相结合,PaLM-E最终的参数量高达5620亿。PaLM-E的创新之处在于:PaLM-E首次把具身信息(包括自然语言、视频、传感器状态等非文字信息)非文字信息token化,统一输入到模型之中。PaLM-E展示了long-horizon场景1下的能力。当研究人员要求机器人“把抽屉里的薯片拿过来”,PaLM-E可以为一个有“手臂”的移动机器人平台生成行动计划,并自行执行任务。PaLM-E和微软使用大模型充当的是机器人的“大脑”,而没有介入“小脑”也就是底层的控制算法。微软、PaLM-E模型最后输出的都是文字,并通过文字调用API来实现最终的控制。最底层的控制算法依然是传统的控制方法。目前主流的足式机器人控制方法是双层结构。最常见的方案是基于模型预测控制(ModelPredictiveControl,MPC)的上层轨迹规划和基于动力学模型的下层全身关节力控(WholeBodyControl,WBC)。这种方法的典型代表是MIT的minicheetah。但MPC+WBC的方法需要复杂的建模和繁琐的人工调参,生成的动作在自然度和灵活性上也有所欠缺。也有一些研究使用了强化学习(ReinforcementLearning,RL)的方法,好处是没有模型的限制,对复杂环境适应力更强。为了满足强化学习所需要的庞大数据,一般会把机器人放在仿真环境训练,之后再迁移到真实世界的机器人。由于仿真环境无法100%模拟真实世界,因此会有sim-to-realgap的问题。2023年7月,Google发布RT-2模型。RT-2是一个视觉-语言-动作(VLA)模型。RT-2通过海量的互联网数据对视觉语言模型进行预训练,然后再用少量的机器人的数据进行微调,并使模型直接可以输出机器人的动作。RT-2的参数量高达55B(RT-1只有35M)。研究人员对RT-2模型进行了和RT-1一样的测试。结果显示,RT-2的理解能力、推理能力、针对未知场景的泛化能力都显著优于RT-1模型。RT-2在未见过的场景下,表现明显要比RT-1好,说明RT-2拥有更好的泛化性。特斯拉将FSD技术复用到人形机器人,率先开启产业化。马斯克表示特斯拉已经打通了FSD和optimus的底层模块,实现了一定程度的算法复用。Optimus的神经网络是端到端的:输入视频,输出动作。尽管当下时点来看,人形机器人的能力仍有不足,但已经显示出了非常快的进化速度,这背后是2023年以来人工智能技术的突飞猛进。还是以特斯拉为例,2022年4月,optimus迈出了第一步,还只能笨拙的蹒跚;而2023年9月的最新视频,optimus可以做到:1)基于纯视觉和编码器定位四肢;2)根据颜色分类物块;3)较为流畅的行走并做一些简单的瑜伽动作。2023年12月,特斯拉再次发布optimus-gen2视频,机器人的行动流畅度大幅度提升,搭配手部的触觉传感器可以用双指拿起鸡蛋。人形机器人的落地需要具体场景机器人引入大模型后拥有了“常识”,并带来了一定的泛化能力,解决了自然语言理解和任务规划的两大难题。但这种解决方案仍然有很多不足:数据。机器人数据的可得行是最大的限制。OpenAI在2021年解散了旗下的机器人团队,核心原因就是难以获取数据。由于互联网的发达,我们有丰富的文字、图像信息可供大模型训练,但可用于机器人训练的数据十分宝贵。Google用于训练RT-1和RT-2的机器人数据是历时超过17个月在13个机器人上收集而来,成本高昂。虽然模型数据量的增加可以显著提升模型的泛用性和效果,但这样的数据采集效率明显无法支撑大模型的需求。针对这一问题的解决思路主要有:1)通过仿真软件模拟真实环境,从而获得数据。但是仿真软件毕竟无法完全模仿现实世界,在仿真世界训练的算法平移到现实世界后,模型效果会出现下降;2)采用类似RT-2的方法,基于互联网的文字、图片数据训练获得通识,然后再基于少量的机器人数据做微调。场景。现阶段大多数论文都局限于桌面操作。虽然桌面上有很多难题,但当机器人移动时,情况通常会变得更加复杂。安全性。大模型内部是一个黑箱,无法保证安全性,但机器人要在真实环境运行,可能造成的潜在伤害更大。模型过大,训练成本过高。成功率。真实世界的应用场景中,一般需要99%以上的准确性和可靠性。然而目前学术文章中大多数结果的最高成功率在80%左右。而要进一步提升成功率,难度会指数级增加。长尾问题。训练数据很难覆盖所有可能性,这也导致模型可能会在一些极端情况下失效。尽管模型在泛用性上取得了一定的进展,但依然无法完美解决所有情况。边缘侧算力不足。通用人形机器人在控制周期需要达到500Hz的水平,而目前谷歌研发的RT-2模型在机器人控制周期上只能达到3Hz。人形机器人的商业化离不开具体的场景。基于大模型在当前时点的不足,我们认为想要制作出像真正人类一样,可以胜任多场景下复杂任务的机器人,是非常遥远的。但是,基于特定场景下的、具有一定程度泛用性的人形机器人则有很大概率落地。1)人体具有200多个自由度来适应真实世界的各种环境。受限于技术,现阶段人形机器人最多也就几十个自由度,我们需要根据具体的使用场景简化机器人的设计、控制复杂度,降低对机器人泛用性的要求,使人形机器人更快落地。2)尽管人形机器人具有一定的“常识”,但不能“无所不知”。所谓隔行如隔山,经济活动的复杂性要求机器人在一定“常识”的基础上具备具体场景下的专业知识。而专业知识需要基于具体的场景。3)人形机器人在具体场景下的应用,可以提供宝贵的机器人数据用于迭代,使人形机器人的发展进入正向循环,是必经之路。基于场景的人形机器人商业化思路得到政策认可。工信部在《人形机器人创新发展指导意见》中,明确提出把特种环境、制造业、民生作为人形机器人落地的三个重点方向。特种环境,主要是指恶劣条件、危险场景,包括要地警戒守卫、民爆、救援等。这些场景对人形机器人复杂地形行走的鲁棒性、态势感、决策能力、高精度操作能力提出挑战。制造业典型场景,主要是面向3C和汽车领域,包括装配、检测、转运、维护等工序,支撑制造业的柔性制造需求。民生领域,以医疗、家政、农业、物流为重点,重点在于提升人形机器人的交互可靠性和安全性。企业主动明确应用场景,对接下游需求。小米为机器人规划的发展路径是从单点到多点,最终发展成为生态。短期小米的人形机器人扎根某一个具体场景,以完成1-2个工种为目标。中期人形机器人将融入小米制造的多个场景规模化应用。这个过程小米会搭建泛化平台,积累数据、迭代模型。长期小米的人形机器人将会扩展更多场景。优必选在官网址列举了人形机器人walker的6大应用场景:展馆展厅、影视综艺、科研高校、家庭服务、仓储物流、办公场景。2023年10月,亚马逊宣布已在旗下物流仓库中试用Digit。Digit高约1.75米,体重约为65公斤,它具备双臂和双腿,能够从下蹲,能够拾取和搬运重达16公斤的物体。Digit具备自主导航和感知能力,可以在繁忙的仓库环境中与人类员工协同工作。Digit机器人的引入,则进一步提升了亚马逊的物流和仓储操作的效率。亚马逊表示,Digit的身形非常适合在仓库移动。2023年12月,Digit机器人搭载了LLM。研究人员使用自然语言给Digit发出命令之后,Digit可以自主思考,拆解任务并完成。未来推演:自动驾驶发展历程给人形机器人的启示自动驾驶汽车和人形机器人作为具身智能的两大形式,在很多地方都有相通之处。何小鹏认为,自动驾驶本质上是机器人科学,智能汽车公司最终也会和机器人公司在技术、产品、生态等等方面融合。参考自动驾驶的发展历程,我们认为人形机器人的发展也会有3个趋势:1)结合具体的落地场景可以简化机器人结构,规避技术难题,加快人形机器人落地;2)随着人形机器人对大数据、大模型的要求越来越高,数据闭环能力越来越关键;3)当前阶段区分规划算法、控制算法的多模块的方案将会更容易落地,但连接LLM和控制算法的Prompt是当前的瓶颈所在。端到端的方案规避了这一难题,但对数据量的需求巨大,需要大规模的机器人本体支撑。自动驾驶在港口、矿山已经取得进展自动驾驶的发展,也是从特定场景开始落地。在矿山、港口等特定场景,自动驾驶已经取得了亮眼的进展。矿山自动驾驶矿山环境不存在交通法规问题,且车辆路线相对固定,车速大多在40km/h以下,非常适合开展自动驾驶。此外,矿区生产运输车辆大、盲区多,夜晚作业疲劳驾驶,如何杜绝安全事故一直是生产企业关注的重点。中国矿区无人驾驶源于上世纪90年代,2014年伴随着无人驾驶发展才逐渐成熟。矿山无人驾驶车辆落地过程一般分为三个阶段:工程师跟车作业阶段、安全员随车阶段及无安全员运行阶段。踏歌智行在2018年完成了无人驾驶矿卡和宽体车的应用,开始落地“安全员下车”。2022年,踏歌智行在国家能源、国家电投旗下煤矿,以及鄂尔多斯永顺煤矿等矿区先后实现了24小时无安全员常态化无人运输作业。矿山自动驾驶成了L4级别自动驾驶商业化落地的难得亮点。目前从事矿山无人驾驶业务的主要企业包括踏歌智行、慧拓智能、易控智驾、伯镭科技等。据工信部赛迪顾问数据统计,截至2022年6月,踏歌智行在矿区无人驾驶领域市占率为45.1%,位居行业首位。GlobalData公布的2023年第一季度全球矿业新锐公司排名中,踏歌智行位列中国第一、全球第六,也是榜单中唯一的矿区无人驾驶科创公司。港口自动驾驶港口自动驾驶因为半封闭及标准化程度高等特点而被视为最有潜力落地自动驾驶的场景之一。中国港口自动驾驶自2020年开始在政策推动下加速,发展至今呈现“百家争鸣、百花齐放”的发展态势。截至2023年3月底,全国各港口和内陆口岸开展自动驾驶测试或运营的场景已近40家,其中,无人驾驶集卡已超过250台,平板式自动导引车近320台。港口自动驾驶的代表项目是华为参与的天津港第二集装箱码头。华为从2020年开始参与天津港第二集装箱码头的设计规划实施和运营,目前已经实现了港口L4级别自动驾驶。通过云端的统一调度,76辆IGV(IntelligentGuidedVehicle,智能导引车)高效协同作业实现全局效率最优。通过北斗+5G+高精地图的方案,结合路侧辅助感知,使岸桥一次对位成功率达到90%以上。经过数百万公里的行驶,华为方案的故障接管率小于0.1%。类比自动驾驶,我们认为人形机器人的落地场景需要有以下特点:1)强需求,在恶劣环境条件下的作业、高危作业、重复性高强度作业对人形机器人有较高的需求;2)场景适度复杂,简单空旷场景工业机器人可以胜任,过于复杂多变的环境则对技术的挑战太大。综合以上两点,我们认为在民爆、救援、制造业生产(装配)、物流(分拣)等行业,人形机器人有望率先落地。大数据+大模型驱动的方案成为趋势自动驾驶的发展可分为三个阶段:1.0时代的特点是硬件驱动。自动驾驶车辆的感知主要依靠昂贵的激光雷达,认知依靠人工规则。由于激光雷达成本高昂,这个时代的数据收集量也比较少,一般在百万公里。Google在2012年曾指出其无人驾驶车成本约15万美元。2.0时代的特点是软件驱动。感知层面,摄像头、激光雷达等传感器的识别结果输出后进行结果融合。认知层面,主要依靠人工规则和深度学习算法。随着数据的增加,2.0时代对中央计算平台的算力需求明显增加。3.0时代的特点是大模型+大数据
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 江苏省靖江市实验学校2025-2026学年九年级下学期3月阶段检测历史试题(含解析)
- 纬创资通昆山2022技术面核心考点及真题答案
- 2020中信证券社招IT技术岗笔试题及答案高分必刷
- 2026年9行人格测试题及答案
- 2026年初级海外优化师面试题库及答案 跨境电商优化岗求职避坑神器
- 2026潍坊教育优才计划笔试历年进面分数线+真题答案
- 2022汾酒厂招聘笔试往届考生回忆真题及答案
- 2023甘肃法宣在线行政法专项试题及100%正确答案
- 2026年有关选专业的测试题及答案
- 什么叫财产分割协议书公证
- 雷雨第四幕完整版
- 砖厂安全风险分级管控资料
- SC-T 3503-2022 多烯鱼油制品
- GB/T 21653-2008镍及镍合金线和拉制线坯
- GA/T 1147-2014车辆驾驶人员血液酒精含量检验实验室规范
- 教育科研课题研究的基本路径与方略课件
- 健康管理师职业资格三级培训课件-第三章-健康指导
- 产品价值分析 课件
- 《常用分析仪器使用与维护》配套教学课件
- 新湘教版四年级下册美术全册教案(直接打印)
- 生活垃圾卫生填埋场建设与运行评价标准
评论
0/150
提交评论