人工智能通识教程课件第3章人工智能前沿技术

上传人：释*** IP属地：山东上传时间：2026-05-23 格式：PPTX 页数：70 大小：20.01MB 积分：1.2 举报 版权申诉

已阅读5页，还剩65页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

ArtificialIntelligence人工智能前沿技术第3章编者：×××3.1大模型3.2多模态融合低代码与零代码开发3.3智能体3.43.5具身智能3.6人工智能未来技术章节实训与思考3.73.1.1大模型的定义与核心特征人工智能大模型，简称大模型，通常是指基于深度学习技术构建的、具有海量参数和强大学习能力的人工智能模型。这类模型通过处理和生成多种类型的数据，展现出卓越的泛化能力和适应性，成为推动人工智能技术发展的重要力量。大模型的核心特征主要体现在以下3个方面。参数是大模型中用于学习和表示知识的变量，其数量直接决定了大模型的容量和表达能力。巨大的参数规模01由于参数规模庞大和训练数据量大，大模型的训练往往需要大量的计算资源和存储空间。大量的计算资源需求03与巨大的参数规模相匹配，大模型的训练需要海量的数据作为支撑。庞大的训练数据量023.1.2大模型的基本原理现代大模型的技术核心几乎全部建立在Transformer架构之上。这一架构由谷歌公司于2017年提出，彻底改变了机器处理序列数据的方式。在Transformer架构问世之前，循环神经网络是处理序列数据的主流模型。其工作方式类似于一个人逐字阅读文本，必须按顺序依次处理，且在处理长序列时容易丢失文本开头的信息，即存在所谓的“长距离依赖”问题。相比之下，Transformer架构则如同一位能够同时浏览整段文本的天才读者，它借助并行计算能力，一次性处理整个输入序列。这不仅大幅提升了训练效率，还能有效捕捉序列中任意两个元素之间的关联。典型的Transformer架构由编码器（Encoder）和解码器（Decoder）两部分构成。编码器负责解析输入文本，将其转化为一种包含丰富上下文信息的内部表示；解码器则基于这一内部表示，逐步生成输出文本。目前，主流的大语言模型主要基于Transformer的解码器部分，采用自回归的方式运行，即根据已生成的上文内容，逐个预测下一个词，整个过程类似于完成一个“词语接龙”游戏。1．Transformer架构3.1.2大模型的基本原理自注意力机制是大模型能够精准且深刻地理解上下文的核心所在。当大模型对句子中的某个词进行解读时，它会“扫视”整个句子，为句子中的其他词都分配一个“注意力分数”，以此表明这些词对于理解当前词的重要程度。例如，对于句子“那只猫追着自己的尾巴转圈，因为它很开心”，当模型处理到代词“它”时，自注意力机制会给“猫”这个词赋予极高的注意力分数。如此一来，模型便能准确推断出“它”所指代的是“猫”，而不是“尾巴”。2．自注意力机制3.1.2大模型的基本原理在大模型的处理机制中，大模型对文本数据并非以完整的词汇或句子为单位进行操作，而是将其拆分成一个个具有实际意义的片段，这些片段被称为Token。具体而言，一个Token可以表现为单个字符、一个完整词汇，或者词汇的一部分。模型在处理文本数据之前，会先将文本转化为计算机能够识别并处理的数字形式，也就是将每个Token映射为一个特定的向量。在生成文本的过程中，模型是逐个Token进行输出的。具体做法是，模型依据输入内容以及已经生成的上下文信息，预测下一个最有可能出现的Token，并不断重复这一过程，直至生成完整的回复或文章。3．Token处理3.1.2大模型的基本原理4．预训练与微调●

预训练。这是模型获取通用知识和语言能力的核心环节。在此阶段，模型会利用一个规模极

其庞大，并涵盖互联网、书籍、文章等多种来源的数据集进行训练。在训练过程中，系统会随机遮盖句子中的部分词汇，让模型进行预测；或者给定上文内容，要求模型预测下一个词。通过在海量文本中反复进行这类预测练习，模型能够逐步掌握语法规则、语义关系、事实性知识，甚至初步的推理逻辑。●

微调。经过预训练后的模型尽管已具备广泛的知识储备与基础能力，但若想在特定任务上表现出色，还需要进行微调。在这一阶段，我们会使用一个规模较小，但与目标任务高度相关的数据集对模型进行进一步训练。通过微调，模型能够调整自身参数，从而优化在特定领域的表现。3.1.3大模型的分类1．按模态分类这类大模型是目前技术最成熟、应用最广泛的大模型，专注于处理和理解人类语言文本，能够执行文本生成、机器翻译、情感分析、智能问答等多种自然语言处理任务。●

大语言模型。多模态大模型能够同时处理并融合多种不同类型的数据，如文本、图像、音频、视频等，实现跨模态的理解与生成。●

多模态大模型。视觉大模型专注于处理图像、视频等视觉数据，在自动驾驶、安防监控、医疗影像分析等领域具有广泛应用。早期的视觉模型多基于卷积神经网络。随着Transformer架构的引入，基于自注意力机制的视觉模型取得了显著进展，能够高效完成图像分类、目标检测、图像分割等任务。●

视觉大模型。多模态大模型能够同时处理并融合多种不同类型的数据，如文本、图像、音频、视频等，实现跨模态的理解与生成。3.1.3大模型的分类2．按应用范围和目标分类

通用大模型这类大模型具备广泛的通用能力，能够处理各种跨领域的任务，而不局限于某个特定行业。它们通常在最大规模、最多样化的数据中进行训练，其目标是实现通用人工智能。它们可以像人类一样进行对话、写作、编程、推理，应用范围极其广泛。这类大模型是针对特定行业或领域的需求，在通用大模型的基础上进行微调或重新训练而得到的。它们利用特定领域

内的专业数据和知识，使其在特定任务上表现得更加精准和专业。

领域大模型3.1.4大模型的应用领域大模型在内容生成领域展现出惊人的能力，几乎涵盖了所有形式的内容生产。在文本生成方面，大模型可以撰写新闻稿、创作小说、编写营销文案、生成社交媒体帖子，其产出的文本质量高、风格多样，极大地提升了内容创作效率。在图像生成方面，大模型能够根据用户输入的任意文字描述，生成高质量、富有想象力的图像，为设计师、艺术家提供了强大的灵感来源和创作工具。1．内容生成与创意辅助此外，大模型还能进行视频生成、音乐创作等。例如，豆包不仅能生成各种形式的文案，还可以生成图像、音乐、程序代码等多种形式的内容，其界面（局部）如图所示。3.1.4大模型的应用领域大模型使人们获取信息的方式从传统的关键词搜索向自然语言对话式交互演变。基于大模型的智能问答系统能够理解用户提出的复杂、模糊甚至带有错误的问题，并直接给出准确、简洁、结构化的答案，而不再是返回一堆需要用户自行筛选的网页链接。这种能力使其在客户服务、在线教育、技术支持等领域具有巨大的应用价值。2．智能问答与知识检索例如，同济大学土木工程学院自主研发的CivilGPT知识大模型，通过构建包含教材、规范、论文的专业数据集和50余门核心课程的知识图谱，显著提升了回答的专业性，并能为用户量身定制学习路径，其界面如图所示。3.1.4大模型的应用领域大模型在理解和生成编程语言方面表现出色，成了软件开发者的“AI编程伙伴”。大模型能够根据开发者的自然语言注释或代码上下文，自动补全代码、生成函数，甚至编写整个程序模块。这不仅极大地提高了编码效率，减少了重复性劳动，还能帮助开发者学习新的编程语言和框架，降低软件开发门槛。3．代码生成与软件开发例如，阿里巴巴发布的人工智能编程平台Qoder，该平台支持对百万行级代码库进行深度理解，并能以“任务模式”运行，如接收“做一个电商首页”提示词，就可以自动完成从需求解析、代码生成到测试部署的全流程，Qoder的网站首页（局部）如图所示。3.1.4大模型的应用领域在教育方面，大模型可以作为个性化学习助手，根据每个学生的学习进度、知识薄弱点和兴趣，定制学习内容和练习题，实现因材施教。它还可以扮演虚拟导师的角色，随时解答学生的疑问，提供详细的讲解和专业的辅导。在科研方面，大模型能够帮助研究人员快速阅读和理解海量文献，提取关键信息，总结研究现状，从而加速科研进程。4．教育与科研辅助例如，中国科学院发布的“磐石”科学基础大模型，它构建了一个科研生态，其配套的“磐石·工具调度台”可以自主调用300多个科学计算工具，帮助研究人员自动规划任务，提升科研效率，其首页（局部）如图所示。3.1.5常用的大模型产品Gemini是Alphabet公司推出的大模型，旨在处理和理解文本、图像、音频、视频及代码等多模态信息，具备强大的语言理解与生成能力，具备多轮对话、上下文推理、编程辅助、内容创作等功能。文心大模型是北京百度网讯科技有限公司自主研发的产业级知识增强大模型体系，以“知识增强”为核心突破点，构建了从单模态到跨模态、从通用基础模型到行业垂直模型的完整技术布局。千问大模型是阿里巴巴自主研发的超大规模大语言模型系列，于2023年9月正式向公众开放。它具备强大的多轮对话、文案创作、逻辑推理、多模态理解和多语言支持能力，致力于成为用户工作、学习与生活的智能助手。豆包大模型是字节跳动自主研发的多模态AI大模型系列，原名“云雀”，于2024年5月正式开启对外服务。它具备强大的复杂推理、多轮对话、代码生成、多模态理解与生成能力，致力于为个人与企业用户提供高效智能的服务支持。DeepSeek大模型DGemini大模型B千问大模型E文心大模型C豆包大模型FGPT系列大模型是由OpenAI公司开发的一系列基于Transformer架构的生成式预训练语言模型。自2018年推出GPT-1以来，历经GPT-2、GPT-3、GPT-4等不同代际大模型，该系列大模型参数规模从亿级跃升至千亿级，并引入零样本学习、上下文学习和多模态理解等能力，在文本生成、推理、编程和跨模态任务中的表现显著提升。GPT系列大模型ADeepSeek是由深度求索公司研发的大模型，以其在中文处理、推理能力和代码生成方面的卓越表现而备受关注。DeepSeek主要有DeepSeek-V3和DeepSeek-R1两大核心模型，二者定位不同，各具优势。3.1.6本地部署大模型1．本地部署大模型的优势数据安全与隐私保护。01离线使用与稳定性。03避免使用限制。0502高度定制与灵活性。04成本效益与资源优化。3.1.6本地部署大模型2．本地部署DeepSeek-R1大模型本地部署DeepSeek-R1大模型的方法很多，其中较为简便的方法是使用Ollama和CherryStudio的方式进行部署。安装Ollama并部署DeepSeek-R1大模型先下载并部署“deepseek_x0002_R1:8b”下载并部署完成3.1.6本地部署大模型安装CherryStudio单击“管理”按钮添加“deepseek-r1:8b”选

择“默

认

模

型”根据实际需求调整模型与DeepSeek大模型进行交流3.1大模型3.2多模态融合低代码与零代码开发3.3智能体3.43.5具身智能3.6人工智能未来技术章节实训与思考3.73.2.1多模态融合的定义在人工智能领域，模态指的是数据的不同表现形式或来源。我们生活在一个多模态的世界中，通过多种感官来感知和理解周围环境。同样，在数字世界中，信息也以多种形式存在，主要包括以下几种类型。以文字形式存在的信息，如文章、对话、代码等。文本模态以图像或视频形式存在的信息，如照片、绘画、监控录像、电影等。视觉模态以声音形式存在的信息，如语音、音乐、环境音等。听觉模态包括触觉、嗅觉、味觉、环境感知等信息，这些在具身智能和机器人领域尤为重要。其他模态PATR01PART02PART03PART04

模态表示和对齐不同模态的数据具有不同的结构和特性，无法直接进行比较或融合。因此，第一步是将每种模态的数据转换到一个统一的、可计算的特征空间中，这个过程称为模态表示或特征提取。

在获取不同模态的特征表示后，需建立它们之间的对应关系，如文字“猫”、一张猫的图片以及猫的叫声之间的对应关系。早期，模态对齐方法通常依赖标注数据，即需要人工标注不同模态元素间的对应关系。但获取大规模、高质量的标注数据成本极高。因此，当前研究更倾向于采用自监督学习方法，通过设计巧妙的预训练任务，使模型能够自动学习跨模态的对齐关系。跨模态注意力机制跨模态注意力机制允许模型在处理一个模态的信息时，动态地关注另一个模态的相关部分。这种机制使多模态融合过程不再是静态的，而是能够根据具体任务和上下文动态调整，从而实现更精细、更准确的跨模态信息整合。3.2.2多模态融合的关键技术01023.2.3多模态融合的应用场景1．文生图与图生文●

文生图用户输入一段描述性的文字，模型就能生成与之匹配的图像。这项技术已经广泛应用于艺术创作、广告设计、游戏开发、电商产品展示等领域。例如，设计师可以通过简单的文字描述快速生成多张设计草图，极大地提升了设计效率。●

图生文图生文任务要求模型为给定的图像生成描述性文字。其核心技术是视觉理解和语言生成。应用场景包括为视力障碍者提供图像内容朗读服务、自动生成社交媒体图片的配文、

对海量图片进行内容标注和检索等。2．视频理解与生成多模态融合技术可用于分析视频内容，如进行视频分类、目标检测与跟踪、事件检测等，在视频监控、内容审核、体育分析等领域有广泛应用。视频理解。01视频生成。02根据文本描述、静态图像或其他视频片段，模型就能生成新的视频内容。例如，用户可以输入“一只熊猫在竹林里弹吉他”，模型就能生成一段相应的视频，如图所示。3.2.3多模态融合的应用场景3.2.3多模态融合的应用场景3．自动驾驶与机器人感知

自动驾驶自动驾驶汽车配备了摄像头、激光雷达、毫米波雷达、GPS等多种传感器。多模态融合技术负责将这些传感器采集到的关于车辆周围环境的数据进行实时融合，构建一个精确的环境感知模型，是实现安全、可靠的自动驾驶的关键技术之一。服务机器人或工业机器人需要通过视觉、听觉、触觉等多种传感器来感知和理解其所处的环境，以及与人类进行交互。多模态融合技术能够帮助机器人更准确地识别物体、理解人类的语音指令和手势，从而更智能地执行任务，如在家庭环境中整理物品，或在工厂中与人类工人协同工作。机器人感知3.1大模型3.2多模态融合低代码与零代码开发3.3智能体3.43.5具身智能3.6人工智能未来技术章节实训与思考3.73.3.1低代码开发与零代码开发的定义低代码开发是一种软件开发方式，它允许开发者通过图形化用户界面和配置化的方式来创建应用程序，而不是传统的手写代码。在支持低代码开发的平台中，开发者可以通过拖曳预构建的UI组件、业务逻辑模块和数据模型，来快速搭建应用的前端界面和后端功能。虽然低代码开发极大地减少了手写代码的工作量，但它通常仍然允许开发者在必要时编写自定义代码，以实现更复杂、更个性化的功能。零代码开发是低代码开发的进一步演进。它完全摒弃了手写代码的需求，使用户完全通过可视化的界面、模板和配置来构建应用程序。零代码开发的理念是让不懂编程的业务人员也能成为应用的创造者。用户只需通过简单的拖曳和配置，就能快速搭建满足特定业务需求的应用，如数据收集表单、简单的业务流程管理应用等。3.3.2低代码开发与零代码开发的区别与联系1．区别目标用户差异是低代码开发和零代码开发最根本的区别。低代码开发主要面向专业开发人员。它为开发者提供了一个高效的“加速器”，能帮助他们快速

构建应用的基础架构和通用功能，同时保留了通过编写代码进行深度定制和扩展的功能。零代码开发则主要面向业务人员。这些用户通常不具备编程背景，但他们对自己的业务流程和需求有着深刻的理解。（1）目标用户差异低代码开发提供了更高的灵活性。因为它允许编写自定义代码，所以理论上可以构建任何复杂

度的应用，满足各种个性化需求。但这种灵活性以牺牲一定的易用性为代价，要求应用的使用者具备一定的技术背景。零代码开发则追求极致的易用性。它的操作非常简单直观，几乎不需要任何学习成本。但这种易用性以牺牲灵活性为代价。零代码平台通常只能用于构建相对简单、标准化的应用，对于复杂的、

非标准的业务逻辑，它往往无能为力。（2）灵活性与易用性方面的差异3.3.2低代码开发与零代码开发的区别与联系2．联系可视化的开发和预构建的组件，使应用的搭建速度比传统编码方式快数倍甚至数十倍。低代码开发让业务人员能够更清晰地表达自己的需求，并与开发人员在一个统一的平台上协作。零代码开发则让业务人员能够直接参与到应用的创建中，减少了沟通成本和需求偏差。●

缩短开发周期。●

促进业务部门与IT部门的协作。减少对高级开发人员的依赖后，就降低了人力成本。同时，更快的开发周期也意味着更低的时间成本。●

降低开发成本。3.3.3低代码开发与零代码开发的关键技术1．可视化建模与拖曳式界面低代码开发平台和零代码开发平台提供了一个所见即所得的开发环境，用户可以通过拖曳的方式，将各种UI组件拖放到画布上，来设计应用的用户界面。同时，用户也可以通过可视化的方式来定义数据模型、设计业务流程。这种直观的操作方式，极大地降低了应用开发的认知负荷，使开发过程像搭积木一样简单。3.3.3低代码开发与零代码开发的关键技术2．预构建组件与应用模板这些组件包含常见的UI元素和业务功能，供开发者直接使用，而无须从零开始编写。例如，一个地图组件、一个文件上传组件、一个用户登录模块等。这些组件通常都经过了充分的测试和优化，保证应用的稳定性和性能。

预构建组件1低代码开发平台和零代码开发平台会针对常见的应用场景，提供完整的应用模板。用户可以直接在模板的基础上修改，快速搭建满足自己需求的应用，而无须从头开始设计整个应用的架构。应用模板23.3.3低代码开发与零代码开发的关键技术3．自动化工作流与业务逻辑编排0102通过可视化的逻辑设计器，用户可以使用“如果...那么...”“循环”“调用API”等逻辑块，来编排应用的业务规则，而无需编写复杂的代码。这使得业务人员能够直接将自己的业务知识转化为应用的功能。

业务逻辑编排用户可以设计一个由多个步骤组成的流程，并定义每个步骤的触发条件、执行动作和流转规则。例如，可以设计一个“员工请假审批”流程

：员工提交申请→直属领导审批→HR备案→通知申请人。整个流程的流转都是自动化的。

自动化工作流3.3.4低代码与零代码开发的应用场景企业内部的IT部门常常面临大量的、不断变化的业务应用需求，而开发资源却相对有限。低代码和零代码开发可以帮助IT部门快速响应这些需求，开发出各种内部管理工具，如人力资源管理系统、财务报销系统、资产管理系统、项目管理系统等。1.企业内部应用快速开发零代码开发特别适合快速搭建各种数据收集和管理类的轻量级应用。业务人员可以根据自己的需求，在几分钟内创建出在线调查问卷、活动报名表、客户信息登记表、设备巡检记录表等。3.数据收集与管理应用许多企业的业务流程中存在着大量重复性、规则性的手动操作，不仅效率低下，而且容易出错。低代码和零代码开发平台可以作为业务流程自动化和机器人流程自动化的工具，将这些手动操作自动化。2.业务流程自动化3.1大模型3.2多模态融合低代码与零代码开发3.3智能体3.43.5具身智能3.6人工智能未来技术章节实训与思考3.73.4.1智能体的定义及关键特征在人工智能领域，智能体是一个能够自主地感知环境、进行决策并采取行动以实现特定目标的计算实体。智能体可以是软件程序，也可以是物理机器人。一个典型的智能体通常具备以下4个关键特征。二一三四在感知到环境信息后，智能体需要基于其内部的知识、目标和推理能力，进行分析和判断，制订出一系列行动计划。决策智能体通过传感器从环境中收集信息。这是智能体与世界交互的第一步，其感知的范围和精度直接决定了其决策的质量。感知根据决策的结果，智能体通过执行器对环境施加影响。行动是智能体实现其目标的最终手段。行动自主性意味着智能体能够在没有人类直接干预的情况下，独立地完成感知、决策和行动的循环。自主性3.4.2智能体的分级为了更清晰地描述智能体的智能化水平和自主能力，智能体分为L0到L5六个等级。3.4.3智能体的分类●

反应式智能体反应式智能体能够基于当前环境状态直接行动，无需历史数据或记忆。反应式智能体的优点是实现简单，响应迅速，能快速对环境变化做出反应。但其缺乏长期规划能力，无法应对需要长远考虑的任务。1●

基于目标的智能体基于目标的智能体拥有明确目标，会通过推理和规划寻找实现目标的最佳路径。这类智能体能够适应更复杂的任务，但需要更复杂的算法支持，对算法设计和计算资源要求较高。2●

学习型智能体学习型智能体能够通过经验学习，不断优化决策。如智能推荐系统通过学习用户历史的行为不断改进推荐内容。学习型智能体具备自我改进能力，能适应动态环境，但其训练过程可能需要大量数据和计算资源，成本较高。3●

多智能体系统多智能体系统由多个智能体组成，智能体之间通过协作或竞争完成任务。多智能体系统采用分布式架构，能够处理复杂任务，但需要复杂的通信与协调机制，

以保障智能体间的高效配合。43.4.4智能体的工作原理若目智能体通过其传感器从环境中获取原始数据。这些数据可以是图像、声音、文本或结构化数据。感知模块负责将这些原始数据转换为智能体内部可以理解和处理的格式。感知这是智能体的决策核心。在接收到感知信息后，智能体的“大脑”会进行状态更新、目标评估、逻辑推理、行动规划等处理。思考根据思考阶段制定的决策，智能体通过其执行器对环境施加影响。行动会改变环境的状态，而环境状态的改变又会被智能体在下一个循环中感知到。行动智能体的核心工作原理是“感知-思考-行动”循环，也称为智能体循环。这个循环不断重复，使智能体能够持续感知环境变化，动态调整策略，并朝着目标前进。3.4.5智能体的关键技术1．任务规划与分解2．工具调用3．记忆与反思机制为了让智能体能够进行长期、连贯地交互和学习，记忆机制至关重要。智能体的记忆可以分为短期记忆和长期记忆两种。用于存储从过去经验中学到的知识、成功的行动计划、失败的教训等。长期记忆使智能体能够不断学习和进化，避免重复犯错。●

长期记忆用于存储当前对话或任务执行过程中的上下文信息，这对于维持对话的连贯性和理解指代关系非常重要。●

短期记忆这是智能体实现自主性的核心技术。当接收到一个复杂、模糊的高层次目标时，智能体需要将其分解为一系列更小、更具体、可执行的子任务。这个过程通常被称为任务规划。智能体的能力边界很大程度上取决于它能调用的工具。一个强大的智能体应能自主发现、选择和使用各种外部工具来扩展自身能力，如实现API调用、数据库查询、代码执行、与其他智能体交互等功能。3.4.6常用的智能体开发平台1．扣子扣子拥有灵活的工作流设计功能，通过提供大量可组合节点，如大语言模型、自定义代码等，支持用户以拖、拉、拽的方式快速构建复杂且稳定的工作流，满足多样化任务需求。扣子是字节跳动推出的新一代人工智能应用开发平台，以其零代码和低代码的便捷性，让无论是否具备编程基础的用户都能快速搭建基于大模型的智能体，并轻松发布至各大社交及通信平台，扣子的网站界面（局部）如图所示。同时，扣子具备强大的能力拓展集，不仅集成丰富的官方插件，还支持用户创建自定义插件，通过参数配置快速调用已有的API能力，极大地拓展了智能体的功能边界。3.4.6常用的智能体开发平台2．百度文心智能体百度文心智能体平台是基于文心大模型的智能体构建平台。它以自然语言交互这种简单易懂的方式，让开发者能够快速创建智能体，极大地降低了技术门槛，使更多人可以投身到智能体的开发与应用中，为不同领域注入创新活力。在该平台上，开发者能依据自身行业与应用场景，借助丰富多样的能力和工具，创造出适应大模型时代的原生应用，百度文心智能体的网站界面如图所示。3.4.6常用的智能体开发平台3．腾讯云智能体开发平台腾讯云智能体开发平台是腾讯打造的一站式智能体构建与运营平台，可以为企业和开发者提供高效、便捷的智能交互解决方案。该平台拥有丰富的模板库，涵盖客服、营销、教育、娱乐等多个领域，开发者只需要选择合适的模板，就能快速搭建符合业务需求的智能体，大大缩短开发周期。同时，该平台支持自然语言处理、深度学习等多种先进技术，搭建出的智能体能够精准理解用户意图，提供准确、流畅的回答，实现自然、高效的交互体验。腾讯云智能体开发平台的网站界面如图所示。3.4.7智能体的未来发展未来的复杂任务将越来越多地由多个智能体协同完成，形成多智能体协作系统

。在这样的系统中，不同的智能体可以扮演不同的角色，拥有不同的专长，它们通过通信、协商和协作，共同解决单个智能体无法完成的复杂问题。1．多智能体协作系统智能体正从纯粹的软件形态向具身智能体演进。具身智能体是指拥有物理身体，能够在现实世界中感知和行动的智能体，即机器人。将强大的智能体“大脑”与灵活的机器人“身体”相结合，是实现通用人工智能的必经之路。具身智能的发展，将真正打破数字世界与物理世界的壁垒，让人工智能的力量无处不在

。2．具身智能体的演进3.1大模型3.2多模态融合低代码与零代码开发3.3智能体3.43.5具身智能3.6人工智能未来技术章节实训与思考3.73.5.1具身智能的定义具身智能的哲学基础源于认知科学的“具身认知”理论，该理论认为：人类的认知过程，如思维、学习和理解，并不仅仅发生在大脑中，而是与身体的形态、感觉运动系统和与环境的交互紧密耦合的。因此，要想创造真正能像人类一样思考和行动的人工智能，就必须让它拥有身体，并通过这个身体去“体验”世界，而不是仅通过被动“阅读”数据来学习。●

感知的基础身体的感觉器官是智能体获取关于物理世界信息的唯一途径。不同的身体形态和传感器配置决定智能体能够感知到什么样的信息，从而塑造其独特的“世界观”。●

行动的媒介身体的执行器是智能体影响物理世界的唯一手段。通过行动，智能体可以改变环境，并从环境的反馈中学习。这种通过行动来学习的方式，比纯

粹的被动观察要高效得多。●

认知的约束与塑造身体的物理限制会约束智能体的行为，并促使其发展出更高效的认知策略。3.5.2具身智能与智能体的关系具身智能和智能体是两个密切相关但又有所区别的概念。可以说，具身智能是智能体的特殊形态，而智能体是具身智能的“大脑”。0201如果一个物理机器人只按照预设的程序机械地运动，而没有自主感知、决策和学习的能力，那么它就不是具身智能。具身智能的核心在于其智能的“大脑”，而这个“大脑”正是由智能体提供的。智能体为具身智能提供了认知核心，使其能够自主地理解环境、制订目标、规划行动以及从经验中学习。智能体是具身智能的“大脑”我们之前讨论的智能体，很多是纯粹的软件形态，存在于数字世界中。而具身智能则特指那些拥有物理身体的智能体。因此，每一个具身智能都是智能体，但并非每一个智能体都是具身智能。具身智能为智能体提供了一个与物理世界交互的“载体”。具身智能是智能体的一种特殊形态3.5.3具身智能的关键技术具身智能体需要通过多种传感器来全面感知物理世界。因此，多模态感知与融合是其基础，需要实现以下几个方面的功能。1．多模态感知与融合具身智能体需能够高效地处理来自摄像头、激光雷达、麦克风、触觉传感器等不同来源的海量数据。●

实时处理多源传感数据。01具身智能体需能够将不同模态的信息进行有效融合，构建一个统一、连贯的环境模型。●

跨模态信息对齐与融合。02具身智能体需能够从二维图像和点云数据中重建三维的环境地图，并理解其中物体的几何形状、空间位置和相互关系。●

三维环境理解与重建。033.5.3具身智能的关键技术在感知到环境后，具身智能体需要规划和执行精确的运动，以完成与环境的交互，主要包括以下内容。2．运动控制与规划全身控制。操作规划。轨迹生成。运动规划。3.5.3具身智能的关键技术在物理世界中训练具身智能体成本高昂、耗时且存在安全风险。因此，研究人员通常先在高度逼真的物理模拟器中训练模型，再将训练好的模型部署到现实世界的机器人上。这个过程被称为模拟到现实的迁移。3．模拟到现实的迁移3.5.4具身智能的应用领域在制造业中，具身智能可以驱动协作机器人与人类工人在同一条生产线上协同工作。这些机器人不再是关在安全围栏里的、只能执行重复性任务的机器，而是能够理解人类意图、适应生产环境变化、安全地与人类进行物理交互的智能伙伴。它们可以完成高精度的装配、复杂的质检、物料搬运等任务，极大地提升生产效率和柔性。智能制造与工业自动化在物流和仓储领域，具身智能可以驱动自主移动机器人和分拣机器人，实现仓库的完全自动化。这些机器人能够在复杂的仓库环境中自主导航、识别和抓取各种形状和尺寸的货物，并高效地完成

分拣、打包和运输任务。物流与仓储自动化具身智能有望让家庭服务机器人真正走进千家万户，实现以下功能。●

执行家务。●

照顾老人和儿童。●

提供情感陪伴。家庭服务与陪护机器人3.5.5具身智能的终极形态：人形机器人1．人形机器人的优势与挑战人类的生活环境，如房屋、办公室、街道等，都是依照人类身体形态来设计的。人形机器人能够毫无阻碍地融入此类环境，自如地使用专为人类设计的工具，如门把手、楼梯、电梯等，无须对现有环境进行大规模改造。而且，人形机器人有着与人相似的外形和动作，这让它更容易被人类接受和理解，进而有助于构建更自然、更具信任感的人机关系。3.5.5具身智能的终极形态：人形机器人2．代表性产品在国内，众多科技企业和创新团队正踊跃投身于人形机器人的研发工作，其中具有代表性的产品如下。01Walker系列人形机器人。02宇树人形机器人。03智元远征A1通用人形机器人。3.5.6具身智能的挑战与限制具身智能的实现高度依赖先进的硬件，包括高精度传感器、高功率密度驱动器、高性能计算单元和可靠的能源系统。目前，这些硬件的成本仍然非常高，限制了具身智能的大规模商业化应用。此外，具身智能需要在复杂的物理环境中长时间稳定运行，这对硬件的可靠性和耐用性有极高的要求。1．硬件成本与可靠性现实世界是动态、开放、充满不确定性的。具身智能体需要具备极强的泛化能力和鲁棒性，才能应对各种从未见过的场景和突发状况。如何让智能体从有限的训练数据中学习到能够适应无限复杂环境的通用技

能，是当前研究的核心难题。2．复杂环境的适应性训练具身智能体需要海量的、带有精确标注的交互数据。然而，在物理世界中获取这些数据既昂贵又耗时。此外，具身智能的发展也带来了一系列安全和伦理问题。●

安全问题。如果一个拥有强大行动能力的机器人行为失控，那么它可能会对人类和环境造成伤害。如何确保其绝对安全，是一个必须解决的问题。●

伦理问题。具身智能的广泛应用可能会引发隐私侵犯、责任归属等复杂的伦理问题。3．数据获取与安全伦理3.1大模型3.2多模态融合低代码与零代码开发3.3智能体3.43.5具身智能3.6人工智能未来技术章节实训与思考3.73.6.1全模态大模型当前的多模态大模型主要处理文本、图像、音频等主流模态，而全模态大模型旨在统一处理和理解现实世界中所有可能的数据模态，不仅包括我们熟知的视觉、听觉、语言，还将涵盖触觉、嗅觉、味觉，甚至更抽象的模态，如脑电波、情感信号、社会网络关系等。3.6.2跨模态人工智能科研引擎跨模态人工智能科研引擎是一种专门为科学研究设计的人工智能系统，它利用全模态大模型的能力，来加速科学发现的进程，能够整合和分析来自不同科学领域的、不同模态的海量数据，如生物领域的基因序列数据、化学领域的分子结构图像、物理领域的实验数据等。通过发现这些跨模态、跨领域数据之间隐藏的关联和规律，人工智能科研引擎可以提出新的科学假设、预测新材料的性质、设计更优的实验方案。这将极大地提升科研效率，帮助人类科学家突破认知局限。3.6.3具身小脑模型人类的小脑在运动控制中扮演着至关重要的角色，它负责维持身体平衡、协调肌肉运动、预测动作后果等。同样，具身小脑模型旨在为机器人等具身智能体提供一个专门且高效的模块，来处理复杂的运动控制任务。该模型将集成先进的控制理论、动力学模型和强化学习算法，能够实时处理来自全身传感器的数据，并生成精确的运动指令，以确保机器人动作的流畅性、稳定性和安全性。3.6.4世界模型世界模型是一种模拟现实世界运行规律的人工智能核心架构，它依托深度学习技术，整合并解析来自多模态的环境数据，如视觉图像、物理传感器信号、时序运动轨迹等。通过将高维原始数据编码为简洁的潜在状态表征，世界模型能够学习并内化物理规律、实体关系与因果逻辑，进而预测未来环境状态，推演不同动作的连锁反应。这一特性使其为智能体提供了虚拟的“预演沙盘”，可显著提升决策规划效率与环境适应能力，是推动人工智能从感知响应迈向认知推理的关键支撑。3.6.5AI集群AI集群指的是由大量简单、低成本的AI智能体组成的去中心化、自组织的协作系统。这个概念借鉴了自然界中的蜂群、蚁群等生物集群的智慧行为。在AI集群中，每个个体智能体的能力都非常有限，但它们通过遵循简单的局部交互规则，能够展现强大的、全局的、智慧的集体行为。例如，一个由成千上万个微型无人机组成的AI集群，可以协同完成复杂的任务，如大规模区域的搜索与救援，分布式环境监测，或构建临时的通信网络。AI集群的优势在于其高度的鲁棒性、可扩展性和适应性。即使部分个体失效，整个集群仍然能够继续工作。AI集群技术在灾难响应、太空探索等领域3.6.6量子传感量子传感是利用量子力学原理实现对物理量进行超高精度测量的技术。传统的传感器在测量精度上已经接近经典物理的极限，而量子传感器能够突破这一极限，以前所未有的精度对时间、频率、重力、磁场、电场、温度等物理量进行测量。将量子传感与具身智能相结合，将极大地提升智能体的感知能力。3.6.7超级智能体超级智能体是指一个在所有认知能力上都远超人类最优秀个体的人工智能智能体。它不仅是某个领域的专家，还是在科学发现、技术创新、艺术创作、战略规划、社会交往等所有方面都具备超凡能力的通用智能体。超级智能体将具备自我意识、创造性思维和元认知能力。它能够设定自己的目标，进行独立的科学研究，创造人类无法理解的新知识和新技术。超级智能体的出现将是人工智能发展的终极里程碑，但同时也将带来关于人工智能安全、控制和伦理的终极挑战。如何确保一个远比人类聪明的超级智能体的目标与人类的长远利益保持一致，是人工智能研究领域最核心、最紧迫的课题之一。3.6.8纳米机器人纳米机器人是指在纳米尺度上设计和制造的机器人。这些微型机器人可以被注入到人体血液中，在分子和细胞层面执行各种医疗任务。例如，它们可以精准地识别并摧毁癌细胞、清除血管中的血栓、修复受损的组织、递送药物到特定的细胞。纳米机器人是具身智能在微观世界中的极致体现，将彻底改变未来的医疗模式，实现从“治疗疾病”到“修复身体”的转变。3.6.9脑机接口脑机接口是一种在大脑和外部设备之间建立直接通信通路的技术。它允许大脑信号直接控制外部设备，或者将外部信息直接输入大脑。脑机接口可以分为侵入式和非侵入式。脑机接口可以帮助瘫痪病人通过意念控制机械臂或轮椅，恢复运动能力；为视力障碍者提供视觉假体，让他们“看到”世界。脑机接口还可以实现人类大脑与人工智能系统的直接连接，让人类能够即时访问海量的知识和信息，甚至直接用意念与人工智能进行交互。3.1大模型3.2多模态融合低代码与零代码开发3.3智能体3.4

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

人工智能通识教程课件第3章人工智能前沿技术

文档简介

温馨提示

最新文档

评论

人工智能通识教程课件 第3章 人工智能前沿技术

文档简介

温馨提示

最新文档

评论

相关文档

人工智能通识教程课件第3章人工智能前沿技术