人工智能导论课件第8章大模型与具身智能

上传人：y*** IP属地：山东上传时间：2025-12-29 格式：PPTX 页数：72 大小：20.85MB 积分：15 举报 版权申诉

已阅读5页，还剩67页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

教材：

胡玉荣，余云霞，董尚燕，李俊梅，

《人工智能导论》，清华大学出版社，2025.9人工智能导论第8章大模型与具身智能8.1大模型概述8.2具身智能概述8.3机器人：具身智能的载体8.4具身智能的典型应用28.1大模型概述8.1.1大模型的定义8.1.2大模型的发展历程8.1.3大模型的产品8.1.4大模型的基本原理8.1.5大模型的分类8.1.6智能体34大模型是机器学习领域的前沿技术成果，指具备超大规模参数体系和极高复杂度的智能模型。技术特点主要体现在三个方面：模型结构包含数百亿至万亿级参数节点，形成深度神经网络架构；训练过程需要处理PB级别的数据量，对计算资源提出极高要求；模型输出具备高度准确性，能够捕捉数据中的细微特征与潜在规律。1.大模型的定义与特性Deepseek推出不同参数规模的模型，主要是为了满足多样化的需求和技术探索。8.1.1大模型的定义52.大模型的核心优势（1）卓越的上下文理解能力：依托多层神经网络结构，大模型能够深入捕捉语言中的语义关联与语境信息，可精准理解用户意图，并在文本生成中保持逻辑连贯与语义一致。（2）高质量的语言生成能力：基于大规模语料训练，生成文本语法正确、表达自然，错误率显著低于传统模型，能够满足专业领域生成需求。（3）强大的学习与泛化能力：通过海量数据训练，大模型提取出通用特征与模式，在未训练过的新任务上经微调后表现优异，往往超过专为任务训练的小模型。（4）跨领域的知识迁移能力：模型所学知识表征具有高度抽象性，可轻松迁移至不同任务与领域。企业仅需少量适配即可应用于客服、文档分析、代码生成等场景，显著降低开发成本。8.1.1大模型的定义63.国内大模型的发展现状我国科技企业在大模型领域已取得显著进展，形成多元化的技术布局。8.1.1大模型的定义74.人工智能与大模型的关系8.1.1大模型的定义人工智能与大模型是技术范畴与具体实现的关系。（1）人工智能是一个广泛的学科领域，致力于研究和开发能够模拟、延伸和扩展人类智能的理论、方法、技术及应用系统。其目标是使机器能够胜任一些通常需要人类智能才能完成的复杂任务。（2）大模型则是人工智能领域，特别是机器学习子领域发展出的前沿技术成果和核心实现路径。它通过构建超大规模参数体系和极高复杂度的智能模型，并利用海量数据进行训练，最终实现强大的预测能力和高精度输出。正是大模型技术的突破，极大地推动了当前人工智能（尤其是在感知、认知和生成能力方面）的发展水平，使其能够处理前所未有的复杂任务。因此，大模型是人工智能技术发展到现阶段的一种高级形态和强大工具，是实现人工智能目标的关键驱动力之一。88.1.2大模型的发展历程91.萌芽期(1950—2005年)这一阶段以卷积神经网络为代表的传统神经网络模型为主。1956年，计算机专家约翰·麦卡锡首次提出“人工智能”概念，标志着AI发展的起点。此后，AI从基于小规模专家知识逐步发展为基于机器学习。1980年，卷积神经网络的雏形诞生，1998年，现代卷积神经网络的基本结构LeNet-5问世。LeNet-5共有七层，输入层不计入层数，每层都有一定的训练参数，形成：输入-卷积-池化-卷积-池化-卷积（全连接）-全连接-全连接（输出）的结构。8.1.2大模型的发展历程102.探索沉淀期(2006—2019年)这一阶段以Transformer架构为代表的全新神经网络模型为主。2013年，自然语言处理模型Word2Vec诞生，它是第一个将单词转换为向量的“词向量模型”，极大地帮助了计算机理解和处理文本数据。2014年，IanGoodfellow等人提出生成对抗网络（GenerativeAdversarialNetworks，GAN），这是一种深度学习模型，通过生成器和判别器的对抗博弈，能够生成高质量的数据样本。2017年，谷歌公司提出基于自注意力机制的Transformer架构，这一架构奠定了大模型预训练算法的基础。2018年，OpenAI基于Transformer架构发布了GPT-1大模型，2019年发布GPT-2，大模型预训练大模型由此成为自然语言处理领域的主流。Transformer总体架构分为4个部分：输入部分、输出部分、编码器部分、解码器部分。8.1.2大模型的发展历程113.迅猛发展期(2020年—至今)以GPT为代表的预训练大模型快速发展。2020年6月OpenAI推出GPT-3，参数达1750亿，性能大幅提升。2022年11月ChatGPT发布，凭借强大自然语言交互和内容生成能力引发全球关注。2023年12月谷歌发布Gemini，可处理多种信息并生成代码、评估安全性。2024年2月16日，OpenAI发布Sora，能根据文本生成视频。中国大模型发展势头迅猛。2023年，百度“文心一言”、阿里云“通义千问”、科大讯飞“星火”、昆仑万维“天工”等大语言模型相继发布并向社会开放，超过19个大语言模型研发厂商中，15家模型产品已通过备案。2025年，DeepSeek作为中国初创公司“深度求索”开发的大模型，在多个基准测试中性能超越了其他开源模型，甚至与顶尖的闭源大模型GPT-4o不相上下。DeepSeek在硅谷被誉为“来自东方的神秘力量”。8.1.2大模型的发展历程121.国外的大模型产品形成较为清晰的“双龙头领先+Meta开源追赶+垂直类繁荣”的格局。这里的“双龙头”指的是微软和谷歌两家公司。微软通过与OpenAI的深度合作，将GPT系列模型集成到其多款产品中，如Bing搜索引擎、Windows操作系统、Office办公软件、浏览器以及PowerPlatform等。这种集成不仅提升了产品的智能化水平，还为用户提供了更加自然和高效的交互体验。此外，微软还通过GitHub平台，将GPT技术应用于代码生成和优化，极大地提高了开发效率。谷歌提出GoogleLeNet卷积神经网络模型、Transformer架构、BERT大模型和Gemini大模型等。8.1.3大模型的产品13（1）ChatGPTChatGPT由人工智能研究机构OpenAI研发推出，其技术根基源于革命性的Transformer深度神经网络架构。该模型通过海量互联网文本数据的预训练与持续优化，构建强大的语言理解与生成体系，展现出接近人类水平的自然语言处理能力。区别于传统聊天机器人，ChatGPT不仅能够生成语法正确、逻辑连贯的文本内容，更能深入解析用户提问意图，在知识检索、文本创作、跨语言翻译等多个维度提供专业级服务。8.1.3大模型的产品1.国外的大模型产品14（2）Gemini谷歌多模态大模型Gemini突破单模态局限，可同步解析文本、图像、音频、视频等多维数据，其双引擎架构通过编码器-解码器深度协同，实现跨模态信息无缝转换，为复杂任务提供新解法。Gemini推出三级适配体系：云端Ultra版专注高性能计算，Pro版平衡精度与效率，Nano版专攻移动端。1.国外的大模型产品8.1.3大模型的产品15（3）Sora2024年2月16日，OpenAI推出了Sora，一款文本生成视频大模型。Sora能根据文本描述输出60秒视频，包含细致背景、复杂镜头和情感角色，标志着人工智能在视频生成领域取得重大突破，引发对人工智能未来影响的思考。目前没有官方的Sora中文网站。国内一些类似Sora的视频生成工具，如快手可灵、文心一格等，部分功能免费，高级功能需付费使用。8.1.3大模型的产品1.国外的大模型产品16（1）DeepSeek2024年12月26日，杭州人工智能初创公司深度求索（DeepSeek）正式发布新一代大模型DeepSeek-V3，标志着中国在大模型技术领域迈入全球顶尖行列。该模型凭借其突破性的架构设计和训练优化，在数学推理、代码生成和复杂逻辑理解等关键能力上与国际顶级模型GPT-4o形成有力竞争，并在数学推理任务中展现出显著优势。更令人瞩目的是，DeepSeek-V3仅以558万美元的研发成本实现了这一成就，其训练效率达到行业领先水平的20倍以上，这一成果被硅谷科技界誉为“来自东方的AI效率奇迹”。梁文峰，1985年生人，浙江大学研究生毕业，2015年创立幻方量化，成为中国量化私募“四巨头”之一，登上全球最具影响力商界人士TOP100。8.1.3大模型的产品2.国内的大模型产品17（2）文心一言2023年3月16日，百度正式发布大语言模型、生成式AI产品“文心一言”，通过深度学习平台飞桨与文心知识图谱的深度融合，构建了“知识增强+检索增强+对话增强”的三维技术体系，实现了从基础问答到复杂推理的全方位能力跃升。该模型突破传统对话AI的信息处理边界，可精准解析用户模糊指令，在跨领域知识调用、多轮上下文关联及逻辑一致性维护方面展现显著优势，成为连接人类意图与数字世界的智能中枢。应用场景方面，文心一言已渗透至智能客服、智能家居、内容创作、教育辅导等多个领域。李彦宏，1968年生人，北京大学信息管理专业本科，美国布法罗纽约州立大学计算机科学硕士。2023年9月，李彦宏入选首届《时代》周刊100AI榜单，成为唯一入选“AI领域全球百大影响力人物”的中国企业家。8.1.3大模型的产品2.国内的大模型产品18（3）通义千问张勇，1972年生人，上海财经大学毕业，2015年5月张勇接任阿里巴巴集团首席执行官，2023年9月10日卸任。2020年8月，位列“2020福布斯中国最佳CEO榜”第1位。8.1.3大模型的产品2.国内的大模型产品2023年4月，阿里巴巴公司推出了通义千问通用大语言模型。“通义”象征着模型能够理解各种语言的丰富含义，而“千问”则表明其能够应对各种复杂问题，提供精准且全面的答案。基于深度学习技术，通义千问通过对海量文本数据的深度训练，积累了丰富的语言知识和语义理解能力，使其能够高效地理解自然语言并生成自然流畅的文本内容。无论是撰写创意文案、进行复杂逻辑推理，还是进行多轮对话，通义千问都能以高度的准确性和灵活性满足用户需求。19（4）讯飞星火2023年5月6日，科大讯飞推出的讯飞星火认知大模型，以“让机器能理解、会思考、有温度”为研发理念，构建了覆盖文本生成、语言理解、知识问答、逻辑推理、数学计算、代码编写及多模态交互的全方位AI能力体系。在核心技术架构方面，讯飞星火依托科大讯飞二十余年积累的语音识别与自然语言处理技术底蕴，采用分层式混合专家系统与动态计算路径优化策略，在保证推理精度的同时显著降低计算能耗。应用生态布局上，讯飞星火已深度融入智慧城市、智慧教育、智慧医疗等多个国家战略级项目。刘庆峰，1973年生人，2003年获中国科学技术大学“信号与信息处理”专业博士学位。1999年，博士二年级创立科大讯飞公司，并担任总裁。2010年11月

获得全国优秀科技工作者荣誉称号，并入围“十佳全国优秀科技工作者”50强。8.1.3大模型的产品2.国内的大模型产品20（5）腾讯混元2024年12月3日，腾讯公司推出腾讯混元大模型，这是一款全链路自研的通用大语言模型。腾讯混元大模型以其卓越的中文创作能力、复杂语境下的逻辑推理能力以及可靠的任务执行能力，为用户提供高效、智能的语言处理服务，标志着腾讯在大语言模型领域迈出了坚实的一步。这种能力使得腾讯混元大模型在智能客服、在线教育等多个场景中具有广泛的应用前景，能够为用户提供更加自然和连贯的对话体验。马化腾，1971年生人，深圳大学计算机及应用毕业，现任腾讯科技（深圳）有限公司董事会主席、首席执行官。1998年创立腾讯，2018年马化腾以2950亿元正式成为全球华人首富，在全球排第15位。。8.1.3大模型的产品2.国内的大模型产品21（6）盘古2021年4月，华为公司推出了盘古大模型1.0。2023年7月推出盘古大模型3.0，不是一个单独的大模型，而是一系列大模型集群和工程应用平台的总称，共分为三个层级，其最底层是CV（视觉）、NLP（中文语音）、多模态、预测决策、科学计算、搜索推荐等一系列通用大模型，第二层是矿山、气象、药物分子、电力、金融等行业大模型，第三层则是解决具体问题的场景模型，具有高度定制化的功能性特征。任正非，1944年生人，重庆大学毕业，1987年任正非集资21000元人民币创立华为技术有限公司，创立华为公司，1988年担任总裁。入选“2025年度全球AI领域100位最具影响力人物”（TIME100AI）榜单。8.1.3大模型的产品2.国内的大模型产品22（7）豆包2024年5月15日，字节跳动公司推出了豆包大模型（原名“云雀”），这是一套涵盖多模态功能的先进大模型家族。该家族包括通用大模型、语音识别大模型、语音合成大模型等多种类型，旨在为企业智能化转型和多行业场景落地提供强大支持。豆包大模型通过字节跳动旗下的火山引擎平台对外提供服务，为用户提供了便捷的接入方式。张一鸣，1983年生人，南开大学软件工程专业毕业，字节跳动创始人，今日头条创始人。2024年10月，《胡润百富榜》发布，张一鸣以3500亿元成为中国首富。8.1.3大模型的产品2.国内的大模型产品23（8）Kimi2023年10月9日，北京月之暗面科技有限公司推出了Kimi大模型，Kimi大模型涵盖了长文总结和生成、联网搜索、数据处理、编写代码、用户交互以及翻译等6项核心功能，这些功能相互配合，使其能够在众多应用场景中大放异彩，为用户解决各种复杂问题。Kimi是全球首个支持输入20万个汉字的智能助手产品，这一突破性的技术优势，使其能够轻松应对超长文本的处理需求。杨植麟，1991年生人，KIMI的创始人。本科以年级第一名的成绩毕业于清华大学计算机系，师从唐杰教授。卡内基梅隆大学计算机博士，师从苹果公司人工智能负责人RuslanSalakhutdinov。8.1.3大模型的产品2.国内的大模型产品248.1.4大模型的基本原理大模型是基于Transformer架构的，这种架构是一种专门用于自然语言处理的“编码-解码器”架构。在训练过程中，大模型将输入的单词以向量的形式传递给神经网络，然后通过网络的编码解码以及自注意力机制，建立起每个单词之间联系的权重。大模型的核心能力在于将输入的每句话中的每个单词与已经编码在模型中的单词进行相关性的计算，并把相关性又编码叠加在每个单词中。这样，大模型能够更好地理解和生成自然文本，同时还能够表现出一定的逻辑思维和推理能力。251.数据驱动：从海量文本中学习；2.神经网络：模仿人脑的学习方式；3.Transformer架构：让AI更懂上下文；4.自注意力机制：让AI学会“联想”；5.训练优化：不断调整参数，让AI更聪明；6.泛化能力：举一反三，应对新任务。8.1.4大模型的基本原理268.1.5大模型的分类1.按照输入数据类型的不同278.1.5大模型的分类2.按照应用领域的不同288.1.6智能体1.智能体的定义智能体（Agent）是一种能够感知环境并通过行为改变环境以实现目标的实体。它可以是一个软件程序，也可以是硬件设备。298.1.6智能体2.智能体与大模型的关系核心与支持：大模型（如GPT-4）是智能体的核心决策模块，提供语言理解、推理等能力，而智能体通过调用大模型增强任务执行的智能性。功能互补：大模型擅长认知任务（如文本生成），但缺乏行动力；智能体则弥补这一局限，通过工具调用（如API）实现“有脑有手”的闭环操作。协同演进：智能体作为大模型的应用载体，推动技术落地，而大模型的进步也扩展了智能体的能力边界。简言之，智能体是“能行动的大模型”，两者结合形成从认知到执行的完整AI系统。8.2具身智能概述8.2.1具身智能的定义8.2.2具身智能的发展历程8.2.3具身智能的关键技术308.2.1具身智能的定义31具身智能（EmbodiedIntelligence，简称EI）是指具备物理本体的人工智能系统，它可以像人类一样感知和理解环境，通过自主学习和适应性行为来完成任务。这里的物理本体就是具身智能的“身体”。

具身智能物理本体的不同形态1.具身智能的“身体”——物理本体包括四部分：硬件结构、传感器、执行器和计算单元。2.具身智能的“大脑”——智能系统包含三个核心模块：感知模块、决策模块和行动模块。3.具身智能的“学习方式”——与环境互动具身智能的成长依赖“感知-决策-行动-反馈”的闭环。8.2.1具身智能的定义32

具身智能与智能体的区别对比项具身智能智能体存在形式有物理载体（如：机器人）不一定有物理载体（可以是纯软件）环境交互通过物理动作改变环境（如：抓取物体、行走等）通过数字信号或物理动作均可关键技术运动控制、强化学习等大模型、多智能体协作典型应用机器人、自动驾驶汽车ChatGPT、机器人4.具身智能与智能体的区别具身智能特指必须有身体、靠环境交互来思考的智能，而智能体是一个更宽泛的“能感知—决策—行动”的实体，可以只是软件，也可以是机器人。总之，所有具身智能都是智能体，但不是所有智能体都是具身智能。8.2.2具身智能的发展历程33理论萌芽期(20世纪50年代～80年代)初创探索期(20世纪80年代～90年代)技术积累期(20世纪90年代～21世纪初)快速发展期(21世纪初～21世纪20年代初)突破应用期(21世纪20年代初～至今)1950年，图灵发表了一篇具有里程碑意义的论文，创新性地提出了“机器能否思考”这个根本性问题，并设计了著名的“图灵测试”作为判断标准。1956年，在美国达特茅斯会议上，“人工智能”这个全新的学科名称被正式确立。随后，科学家们主要沿着“符号主义”这条路径开展研究，开发出了像“逻辑理论家”程序、“通用问题求解器”以及早期的“专家系统”等重要成果。20世纪80年代，机器人技术主要应用于工业自动化领域，执行重复性、规律性强的简单任务。1986年，罗德尼·布鲁克斯提出“无表征的智能”观点，强调智能行为可以通过与环境的实时交互产生，无需复杂的内部表征。1991年，他设计的六足步行机器人“Ghengis”通过简单的行为模块组合实现了稳定的行走。20世纪90年代，随着计算机技术的快速发展和传感器技术的不断进步，机器人技术开始从工业自动化向多形态、多功能方向转型。1997年，IBM的深蓝计算机战胜国际象棋世界冠军卡斯帕罗夫，标志着人工智能在特定领域的强大计算能力和决策能力。21世纪初，随着互联网技术的普及和大数据时代的到来，人工智能领域迎来了新的发展机遇。深度学习和强化学习等技术的出现，为机器人系统赋予了环境感知、自主规划决策和持续学习等关键能力，使其在复杂环境下的适应性得到显著提升。波士顿动力公司的Atlas机器人在动态平衡和复杂地形行走方面取得显著进步，展示了机器人在复杂环境下的运动能力。21世纪20年代初，大模型的兴起为具身智能的发展注入了强劲动力。2020年，OpenAI发布了GPT-3模型，展示了大模型在自然语言处理领域的强大能力。此后，类似的技术被应用于具身智能领域，使机器人在自然语言理解、多模态感知、任务规划及本体操控等方面的能力得到显著提升。8.2.3具身智能的关键技术341.传感器技术具身智能的关键技术之一是传感器技术，它就像是智能体的“触角”，帮助智能体感知外部世界，获取各种信息，为后续的决策和行动提供数据支持。8.2.3具身智能的关键技术351.传感器技术（1）视觉传感器：智能体的“眼睛”常见的视觉传感器主要基于电荷耦合器件（CCD）或互补金属氧化物半导体（CMOS）技术。CCD传感器通过将光信号转换为电信号，经过一系列处理后输出图像信息。而CMOS传感器则利用晶体管将光信号直接转化为数字信号，具有成本低、功耗小、集成度高等优点。

视觉传感器8.2.3具身智能的关键技术361.传感器技术（2）听觉传感器：智能体的“耳朵”听觉传感器主要基于压电效应或电容变化原理。压电式麦克风内部的压电材料在声波作用下产生形变，从而产生电信号。而电容式麦克风则通过膜片与背板之间电容的变化来感知声音的变化，将声音信号转换为电信号，再经过放大、滤波等处理后输出。

听觉传感器8.2.3具身智能的关键技术371.传感器技术（3）触觉传感器：智能体的“皮肤”触觉传感器的工作原理多样，常见的有电阻式、电容式、电感式等。电阻式触觉传感器通过压力改变电阻值来检测压力大小；电容式触觉传感器利用压力引起的电容变化来感知压力；电感式触觉传感器则基于电磁感应原理，通过检测磁场变化来感知物体的接近或接触。

触觉传感器8.2.3具身智能的关键技术381.传感器技术（4）其他传感器：智能体的“感官系统”其他传感器有惯性传感器、温度传感器、湿度传感器等。惯性传感器（如加速度计、陀螺仪）能够检测物体的加速度和角速度，用于机器人的运动姿态监测和控制。温度传感器和湿度传感器则可用于环境监测，为智能体提供环境参数信息，使其能够根据环境变化做出相应决策。

其他传感器8.2.3具身智能的关键技术391.传感器技术（5）传感器融合技术：智能体的“大脑”传感器融合技术将多种类型传感器的数据进行综合处理，充分发挥各传感器的优势，弥补单一传感器的不足。例如，通过将视觉传感器获取的物体形状信息与触觉传感器获取的物体表面信息相结合，智能体可以更准确地识别和操作物体。8.2.3具身智能的关键技术402.机器学习与强化学习（1）机器学习机器学习是一门多领域交叉学科，其核心思想是让计算机通过大量数据自动发现规律，并利用这些规律进行预测或决策。例如，通过分析大量的图像数据，让计算机学习到不同物体的特征，从而能够识别新图像中的物体。在具身智能中，机器学习主要用于感知和理解环境。比如，机器人用摄像头“看”世界时，机器学习算法能帮助它识别物体、判断距离，甚至理解人的手势和表情。8.2.3具身智能的关键技术412.机器学习与强化学习（2）强化学习强化学习是一种“边做边学”的方法，智能体通过不断尝试行动，并根据环境的反馈（奖励或惩罚）调整策略，最终学会最佳决策方式。例如：训练小狗时，如果小狗做对了动作就给它零食（奖励），如果做错了就不给（惩罚），小狗经过多次训练就学会了听指令。在具身智能中，强化学习的典型应用比如，机器人抓取中，机械臂尝试不同的抓取方式，成功时获得奖励，失败时调整策略，最终学会稳定抓取物体。8.2.3具身智能的关键技术422.机器学习与强化学习（3）两者结合机器学习让智能体能“看懂”和“听懂”世界，主要用于感知和理解数据。强化学习让智能体学会“如何行动”，通过试错找到最优策略。二者结合，智能体就能像人类一样，既能理解环境，又能做出聪明的决策。8.2.3具身智能的关键技术433.机器人技术如果把人工智能比作“大脑”，那么机器人就是它的“身体”。正是这些硬件设备，让智能算法不再只是电脑里的代码，而是能真正走进现实世界，完成各种实际任务。机器人智能工作的三大关键系统：一是传感器（相当于"感官"）；二是控制系统（相当于“小脑”），实时处理传感器数据，协调各个部件的动作；三是智能算法（相当于“大脑”），运用机器学习和强化学习，让机器人学会自主决策。8.3机器人：具身智能的载体8.3.1机器人的定义8.3.2机器人的发展8.3.3机器人的结构与分类448.3.1机器人的定义45机器人问世已有几十年了，但至今还没有一个统一的定义，其原因之一是机器人还在发展，另一个主要原因是机器人涉及人的概念，成为一个难以回答的哲学问题。1967年日本召开的第一届机器人学术会议上，提出了两个有代表性的定义。一是森政弘与合田周平提出的：“机器人是一种具有移动性、个体性、智能性、通用性、半机械半人性、自动性、奴隶性等7个特征的柔性机器”。二是加藤一郎提出更具体的三个条件：（1）机器人要像人一样拥有"脑、手、脚"三个基本功能单元；（2）它需要配备非接触传感器（如视觉、听觉）和接触传感器来感知环境；（3）它还应当具有平衡觉和固有觉来感知自身状态。8.3.2机器人的定义46关于"什么是机器人"这个问题，至今没有完全统一的答案我国业界对机器人的定义则更注重功能性：机器人是一种能够自动执行任务的机器，它不仅具备类似人类的感知、规划、动作和协同等智能能力，还拥有高度的灵活性，能够适应各种工作环境。国际标准化组织(InternationalOrganizationforStandardization，ISO)给出了一个相对全面的定义，认为机器人应当满足4个条件：（1）它的机械结构要模仿生物体的器官功能；（2）它要具有通用性，能够完成多种不同类型的任务；（3）它需要具备一定程度的智能，包括记忆、感知、推理、决策和学习等能力；（4）它应该能够在不需要人类持续干预的情况下独立工作。8.3.2机器人的发展47机器人技术的发展是一部跨越时空的创新史诗。1920年，捷克剧作家卡尔·恰佩克在他的剧本《罗萨姆的万能机器人》中首次使用了“Robota”，后演化成现在通用的“Robot”一词。在该剧中，机器人起初是没有情感的，只能按照主人的命令从事繁重的劳动。后来，罗萨姆公司让机器人拥有了感情。但“觉醒”的机器人发觉人类非常自私、狭隘，于是开始反抗并最终消灭了人类。8.3.2机器人的发展481.古代自动机械：人类智慧的早期结晶人类记载的最早的自动机械装置出现于我国的黄帝时代（公元前2700年前后）。据西晋崔豹撰写的《古今注》记载，黄帝与蚩尤对阵逐鹿之时，蚩尤布下百里大雾，三日三夜不散。黄帝令风后造指南车，为大军领路，最终大破蚩尤，统一了中原。指南车是一种指示方向的装置，由齿轮系统构成。不管指南车向何方行驶，车上所立木人的手指永远指向南方。8.3.2机器人的发展491.古代自动机械：人类智慧的早期结晶周穆王（公元前977年—公元前922年在位）时，工匠偃师制造了一个能歌善舞的伶人，献于穆王。《列子》记载，“穆王惊视之，趣步俯仰，信人也。巧夫颌其颐，则歌合律；摔其手，则舞应节。千变万化，惟意所适”。这是我国最早记载的机器人。三国时期，蜀汉丞相诸葛亮（181年—234年）为北伐中原而发明的“木牛流马”，可以运送军需物资，是最早的陆地军用机器人。《三国志·诸葛亮传》记载，“九年，亮复出祁山，以木牛运”，“十二年春，亮悉大众由斜谷出，以流马运”28.3.2机器人的发展501.古代自动机械：人类智慧的早期结晶公元前2世纪，古希腊人发明了最原始的机器人——自动机。它是以水、空气和蒸汽压力为动力的会动的雕像，可以自己开门，还可以借助蒸汽唱歌。在国外的科技史上，也记载有许多自动玩偶的故事。欧洲文艺复兴时期的杰出代表、意大利著名科学家达•芬奇就设计了一款机器人。它以木头、金属和皮革作为外壳，以齿轮为驱动装置，可以坐下和站立，同时头部也和胳膊可以进行相应的转动。后来一些意大利科学家根据达•芬奇留下来的草图进行了认真的揣摩，耗时15年终于制成了一款被称为“机器武士”的机器人。8.3.2机器人的发展511.古代自动机械：人类智慧的早期结晶1768—1774年，瑞士钟表匠皮埃尔•雅奎特-德罗兹和他的两个儿子制造出三个惟妙惟肖的自动玩偶，分别是“写字机器人”“绘图机器人”和“演奏机器人”。其中，“写字机器人”背后的发条被上紧后，它就会抬起右臂，将手中的鹅毛笔伸到桌子右侧的墨水壶中蘸一下，然后在桌子当中的白纸上缓缓写出几行词句。该机器人可以写出不同的字词和句子。这意味着这台“写字机器人”可以进行编程操作，所以它被一些科学家视作现代计算机的鼻祖。这三台国宝级机器人至今还保存在瑞士纳切特尔市艺术和历史博物馆内。8.3.2机器人的发展522.机器时代：工业革命的机械革新开始于18世纪60年代的工业革命，使欧洲各国完成了从工场手工业向机器大工业的过渡，进而使人类跨入了机器时代，推动了生产力的巨大发展。机器的发明和使用成为了这个时代的标志。例如，机器的大量普及使用让纺织行业逐渐摆脱了人力密集型的生产模式，而自动纺织机正是这一时期的杰出产物。1801年，法国丝绸织工兼发明家约瑟夫•雅卡尔发明了一台可以通过穿孔卡片控制的自动织机。8.3.2机器人的发展532.机器时代：工业革命的机械革新1822年，英国发明家查尔斯•巴贝奇设计出了差分机。这是人类历史上最早的可编程机械装置，也是一种自动机械计算器。操作人员通过摇动手柄驱动机器运转，按照预先设定的程序，可以计算出多项式的分布表。8.3.2机器人的发展543.现代机器人：三代演进的技术跨越现代机器人技术真正起步于20世纪中期，发展出三代产品：第一代（遥控操作机器人）：需要人类持续控制。第二代（程序控制机器人）：1954年乔治·德沃尔发明了世界上第一台可编程机器人，1962年Unimation公司的Unimate液压驱动机器人问世，标志着工业机器人的诞生。这类机器人能按照预设程序重复执行特定任务。第三代（智能机器人）：配备传感器和人工智能系统，能自主感知和决策。1968年斯坦福大学的Shakey机器人，是世界上第一台智能机器人，具备环境建模和路径规划能力。日本本田公司的ASIMO人形机器人（2000年推出）能识别面孔、理解语音并完成复杂动作，代表了这一阶段的最高水平。世界上最早的机器人Unimate移动式机器人Shakey8.3.2机器人的发展553.现代机器人：三代演进的技术跨越现代机器人技术真正起步于20世纪中期，发展出三代产品：第一代（遥控操作机器人）：需要人类持续控制。第二代（程序控制机器人）：1954年乔治·德沃尔发明了世界上第一台可编程机器人，1962年Unimation公司的Unimate液压驱动机器人问世，标志着工业机器人的诞生。这类机器人能按照预设程序重复执行特定任务。第三代（智能机器人）：配备传感器和人工智能系统，能自主感知和决策。1968年斯坦福大学的Shakey机器人，是世界上第一台智能机器人，具备环境建模和路径规划能力。日本本田公司的ASIMO人形机器人（2000年推出）能识别面孔、理解语音并完成复杂动作，代表了这一阶段的最高水平。世界上最早的机器人Unimate移动式机器人Shakey8.3.2机器人的发展564.机器人的繁荣：机器人技术的全球化发展美国人最先发明了机器人，但日本人却更早认识到了机器人的真正价值。日本在机器人产业化方面走在前列。1967年引进美国技术后，仅用十年就实现了机器人量产，1980年被称为“机器人普及元年”。索尼公司1999年推出的AIBO机器狗开创了服务机器人娱乐化的先河。1999年，日本索尼公司推出了犬型宠物机器人“爱宝”，一经发售便销售一空。8.3.2机器人的发展574.机器人的繁荣：机器人技术的全球化发展中国自1986年“七五”计划将机器人列入攻关课题后，发展迅速。国防科技大学1990年研制成功多关节机器人，2000年推出的“先行者”仿人机器人，标志着技术突破。北京理工大学从2000年开始共研制“汇童”系列仿人机器人，2011年5月研制的第五代“汇童”在高速运动物体识别、灵巧动作控制、全身协调自主反应等方面取得重大技术突破，对打乒乓球最高达200余回合。仿人机器人“先行者”

8.3.2机器人的发展584.机器人的繁荣：机器人技术的全球化发展近年来，人形机器人技术取得了显著进展。2021年，美国马斯克发布了特斯拉的人形机器人计划，2022年9月人形机器人Optimus正式亮相，从最初的物品分类到2023年12月实现更为灵活的行走和精细化动作，展示了人形机器人产业化的发展潜力。8.3.2机器人的发展594.机器人的繁荣：机器人技术的全球化发展国内人形机器人技术发展迅猛，涌现出多个具有代表性的产品：深圳优必选的“WalkerX”作为全尺寸人形机器人，能完成上楼梯、下象棋等复杂动作，展现了我国在人形机器人领域的尖端技术；乐聚机器人推出的“夸父”系列搭载自研关节电机与运动控制算法，能够完成一些人类精细工作；宇树科技的“UnitreeH1”人形机器人凭借轻量化机械结构与动态平衡控制技术，实现了奔跑和跳跃能力，2025年更是登台央视春晚表演“扭秧歌”，展示了其在动态环境下的精准运动控制。8.3.3机器人的结构与分类601.机器人的结构机器人通常由4大核心部分构成，它们协同工作使机器人能够完成各种任务。8.3.3

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

人工智能导论课件第8章大模型与具身智能

文档简介

温馨提示

最新文档

评论

人工智能导论 课件 第8章 大模型与具身智能

文档简介

温馨提示

最新文档

评论

相关文档

人工智能导论课件第8章大模型与具身智能