人工智能通识：理论、案例与应用课件第3章人工智能前沿技术

上传人：h*** IP属地：山东上传时间：2026-04-14 格式：PPTX 页数：52 大小：21.76MB 积分：15 举报 版权申诉

已阅读5页，还剩47页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第3章人工智能前沿技术人工智能通识：理论、案例与应用（慕课版在线实训平台版）

CHAPTER3华北电力大学（以下简称“华电”）是较早进行教育数字化转型，开展智慧校园建设的高校。2024年，华北电力大学通过百度智能云千帆大模型平台应用大模型技术开发了智能助手“i华电”。智能助手“i华电”添加了本地知识库，可以准确地完成华电介绍、华电各学院介绍、学生自主管理中心资助政策查询等任务，还具备课表查询、成绩查询、图书借阅查询、办公电话查询，以及应用唤起、超级助理浏览器插件等功能。“i华电”一经上线就获得了师生的广泛好评。当学生向“i华电”提问奖助学金政策、体测要求、图书馆借阅等相关问题时，“i华电”会基于自建知识库给出回答，回答的内容准确、可靠。在校务管理中，以前学生在线为饭卡充值需要到微校园系统中进入一级入口后再进入二级入口才可操作，流程较为复杂。而在“i华电”，学生只需要输入需求，就可以快速完成充值，避免了在多个系统之间进行切换，有效提高了办事效率。此外，“i华电”能够分析师生个人的使用习惯，为他们提供个性化的服务推荐。依托大模型，“i华电”也在不断进步，逐步强化自身能力，拓展在人才培养、科学研究等领域的应用，为华电加快教育数字化转型提供新动能。引导案例

大模型赋能智慧校园新体验案例思考以“i华电”为例，分析大模型技术在校园服务中的应用优势，思考这些优势是如何提升校园服务质量和师生体验的。目录CONTENTS大模型PART01PART02PART03PART04智能体具身智能多模态融合人工智能通识：理论、案例与应用（慕课版在线实训平台版）

人工智能创新技术PART05大模型是人工智能领域的重大突破，是推动自然语言处理、计算机视觉、语音识别等多个领域取得突破性进展的核心驱动力。大模型不仅在技术层面重塑了智能系统的构建方式，在产业应用中也展现出前所未有的潜力。01.大模型人工智能通识：理论、案例与应用（慕课版在线实训平台版）

3.1.1大模型的概念、特点与类型大模型的概念大模型是基于深度学习技术，通过海量数据进行大规模训练而形成的人工智能模型。大模型具备强大的语言理解、生成、推理及跨领域知识应用能力，通过少量提示即可完成多种复杂任务，如文本创作、机器翻译、知识问答、逻辑推理等。大模型的特点参数规模巨大训练数据量大资源需求量大强大的涌现能力泛化能力突出学习能力强大适应性强大模型的类型按照任务领域分类：单模态大模型、多模态大模型按照应用场景分类：通用大模型、垂直领域大模型按照开放程度分类：开源大模型、闭源大模型3.1.1大模型的概念、特点与类型分类标准类型释义特点按照任务领域分类单模态大模型只能处理一种类型数据的大模型，如只能理解和生成文本的大模型，只能理解和生成图像的大模型专注于处理单一类型的数据，参数规模和开发成本较低。例如，语言大模型专注于理解和处理自然语言，如文本生成、语言翻译等；视觉大模型专注于处理和分析图像，如图像分类、目标检测、图像分割、人脸识别等多模态大模型能处理多种不同类型数据的大模型，如文本、图像、音视频等类型的数据●支持文本、图像、音频、视频等多种类型数据的输入输出●能理解和处理不同类型的数据，进行跨模态内容的生成，如根据文本描述生成图像或音视频●需要处理和融合多种类型的数据，模型的架构和训练要求更高按照应用场景分类通用大模型可以通用于多个领域和任务的大模型●具备强大的泛化能力，可以在不微调或少量微调的情况下完成不同领域的任务●可以用于开发专业领域大模型垂直领域大模型针对特定行业、领域或任务场景的大模型●通常使用某个行业、领域或任务场景相关的数据进行训练，能深度理解该行业、领域或任务场景中的术语、规则，在完成该行业、领域或任务场景中的任务时具备更高的性能和准确度●通常适配特定行业、领域或任务场景中的任务，无法迁移到其他行业、领域或任务场景中大模型的类型及各类大模型的特点3.1.1大模型的概念、特点与类型分类标准类型释义特点按照开放程度分类开源大模型训练代码、训练数据、权重参数等向公众公开的大模型●透明度高，允许任何人自由使用、修改和分发●通常会形成一个活跃的开发者社区，开发者共同贡献代码、改进模型，大模型的迭代速度快●用户使用时无需支付API费用或授权费，对用户来说，使用成本较低●由于完全开放，可能会被恶意用户用于生成有害内容、进行网络攻击或开发不受监管的应用，存在一定的滥用风险闭源大模型训练代码、训练数据、权重参数等不对外公开的大模型●核心技术严格保密●用户主要通过付费方式来使用模型●大模型开发方通常会为用户提供完善的文档、软件开发工具包、技术支持和稳定的API服务，用户可以将大模型快速地集成到自己的应用中●开发方能更好地控制大模型的使用方式，防止大模型被滥用，确保大模型符合相关法律法规大模型的类型及各类大模型的特点3.1.2大模型的运作原理大模型的运作原理是通过从海量数据学习到的统计模式，将输入文本映射到高维空间中进行表示，再通过解码生成符合语言规律的输出。简单来说，大模型的运作就是一个“基于概率的自动补全”过程。它根据用户给的提示，利用在训练中学到的知识，预测下一个最可能出现的词是什么，然后循环这个过程，直到生成完整的回答。大模型运作流程3.1.3大模型的开发流程流程环节核心任务分析需求与前期规划明确需求背景明确大模型应用的业务领域，如客服领域、工业制造领域、金融领域、医疗领域等；明确大模型的直接使用者和最终受益人，梳理他们的实际需求与期望明确应用场景确定大模型的应用场景，如提供客户服务、检测产品质量、评估客户信用度等；明确大模型需要解决的具体问题，如语言沟通、文本生成、图像识别等评估资源评估开发大模型所需的资源，包括计算资源（如GPU数量和性能）、数据资源（数据量和数据质量）及人力成本（数据科学家、工程师等）准备数据收集数据根据需求收集大规模、多样化的数据。数据来源可以包括公开数据集、网络爬虫抓取的数据、企业内部数据等，数据类型可能包括文本数据、图像数据、语音数据等清洗与预处理数据对收集到的数据进行预处理，去除噪声数据、重复数据、错误数据，对数据进行格式化、分词、构建词汇表等数据标注对于监督学习任务，需要对数据进行标注，为每个样本提供正确的标签。标注工作可以由人工完成，也可借助一些半自动或自动的标注工具来完成划分数据集将清洗和标注后的数据划分为训练集、验证集和测试集。训练集用于模型的训练，验证集用于在训练过程中调整模型的超参数和监控模型的性能，测试集用于最终评估模型的泛化能力设计模型

架构选择基础架构根据应用场景和数据特点选择合适的基础模型架构，目前绝大多数大模型基于Transformer架构确定模型规模根据计算资源和性能需求确定模型的规模，包括模型的层数、隐藏层维度、注意力头数等参数设计模型组件根据具体任务需求，对基础架构进行改进和扩展，设计合适的模型组件大模型的开发流程3.1.3大模型的开发流程流程环节核心任务训练模型预训练在大规模无标注文本上进行自监督学习，让模型从海量无标注数据中学习通用语言规律与世界知识有监督微调用标注数据微调预训练模型，优化模型的指令理解准确率与响应相关性，教会模型如何遵循指令、理解人类意图，并以有用的方式格式化和生成回答对齐训练采用人类反馈强化学习、直接偏好优化等策略让模型的输出更符合人类的价值观评估与优化评估模型使用测试集对训练好的模型进行全面评估，计算各项性能指标，判断模型是否满足需求。常用评估指标如准确率、召回率、F1值、BLEU分数等；常用评估方式包括人工评估和自动评估优化模型根据评估结果对模型进行优化，如调整模型架构、增加数据量、改进训练策略等，以提升模型的性能和泛化

能力应用模型模型转换与压缩将训练好的模型转换为适合部署的格式，为了减少模型的存储空间和推理时间，可采用量化、剪枝、知识蒸馏等技术对模型进行压缩部署模型选择合适的部署方式将模型部署到生产环境中，并进行实时监控。监控指标包括模型的推理速度、准确率、资源消耗等迭代与维护收集反馈数据在模型应用过程中，收集用户的反馈数据和实际应用中的新数据更新与优化模型根据收集到的反馈数据，对模型进行定期更新和优化大模型的开发流程3.1.4部署大模型的方式部署方式释义特点公有云部署通过云服务商（如阿里云、腾讯云）提供的人工智能平台和API调用大模型●通常采用按调用次数计费的模式，用量小的时候成本极低●无需购买硬件或组建专业团队●模型由服务商维护和升级，企业可自动获得模型的最新功能●服务商提供标准化API，易于与企业现有系统集成●数据需传输至云端，可能存在泄露问题●企业无法对模型的核心架构、大小等进行深度定制●所有请求都需要经过公网传输，网络延迟和稳定性会影响应用的响应速度私有云部署在企业自建的私有云环境中部署大模型，数据和算力自主可控●数据完全在企业内部，数据安全性高●企业可根据业务需求深度定制模型和功能●不受网络限制，响应速度快●成本高，需自行采购硬件、搭建数据中心，并承担长期运维成本●技术门槛高，需要专业团队负责模型优化、更新和故障排查混合云部署将大模型应用的一部分组件部署在公有云，另一部分部署在私有云。例如，将一些对计算资源要求高、涉及非敏感信息的任务放在公有云上运行，将涉及核心数据和敏感信息的任务部署在私有云中●核心数据本地化，非核心任务利用公有云弹性资源，有利于平衡成本与安全性●灵活性高，企业可根据业务需求动态调整资源分配●架构复杂，企业需要解决跨云数据同步、网络延迟等问题●运维成本高，企业需要同时管理公有云和私有云部署大模型的方式3.1.4部署大模型的方式部署方式释义特点边缘服务器部署在靠近数据源或用户的边缘服务器上（如工厂、基站）部署大模型●减少数据传输延迟，实时性强●数据无需上传至云端，减少了网络传输费用●若边缘服务器计算能力较弱，则可能需要压缩模型●需要分布式管理大量边缘节点，维护工作复杂设备端部署将模型压缩和优化后直接部署在终端设备（如智能手机、物联网设备）上●数据在本地处理，无需上传至云端，可有效保护隐私●无需网络连接即可运行模型●设备算力有限，模型规模和复杂度受约束●需要为不同设备定制模型版本，更新成本较高，维护难度大本地化部署将大模型完全部署在企业内部服务器中，实现数据处理全程本地化。典型方案包括自建GPU集群、使用私有化一体机或通过容器化部署框架●无需依赖外部网络，可以确保数据在本地处理，数据安全性强●可针对业务需求修改模型架构、优化模型推理逻辑缺点●避免依赖云服务商的政策变动，如涨价、服务中断●需要采购高性能硬件、搭建分布式存储系统，前期投入高●企业需要自行负责硬件的维护、故障排除、软件安全更新、模型监控等所有运维工作●无法自动获得最新的模型版本，需自主跟进开源社区或厂商更新，可能错失最新模型能力●扩容时需要重新采购和部署硬件，周期长，无法应对快速的、突发性的业务增长部署大模型的方式3.1.5大模型的应用领域应用领域应用方向说明教育个性化学习根据学生的学习进度和风格，提供定制化的学习内容和练习语言学习帮助学习者练习语言技能，如口语、写作和语法教育咨询回答学生和家长的各种问题，提供学习建议和资源推荐医疗医疗咨询提供基本的医疗建议和健康信息，帮助患者初步了解症状和疾病医学研究协助研究人员整理和分析大量的医学文献，发现新的研究方向和潜在的治疗方法辅助诊断分析病人的病历和症状，提供可能的诊断方向，但需要专业医生进行最终判断金融风险评估分析客户的信用记录和行为数据，预测违约风险投资分析提供市场趋势分析、股票推荐和投资策略建议客户服务通过聊天机器人回答客户的常见问题，提供账户查询、交易操作等服务娱乐游戏开发生成游戏剧情、角色对话和任务内容影视创作协助编剧撰写剧本，提供创意和情节发展建议音乐创作生成歌词或音乐旋律，为音乐人提供灵感大模型在不同领域的应用方向3.1.5大模型的应用领域应用领域应用方向说明零售、电商客户服务通过智能客服系统自动回答客户问题内容创作生成产品描述、广告文案、新闻稿等营销内容数据分析分析运营数据，提供市场洞察和决策支持情感分析分析用户评论、社交媒体帖子的情感倾向，用于品牌监控和市场调研法律法律咨询提供基本的法律信息和建议案例分析分析大量的法律案例，为律师提供案件研究和策略制定的支持合同审查检查合同文本，指出潜在的法律风险和问题编程与软件开发代码生成根据自然语言描述自动生成代码片段代码补全提供代码补全建议代码解释解释复杂代码的功能和逻辑，帮助理解遗留代码代码检查辅助发现代码中的潜在错误并提出修复建议农业农业知识服务提供各类农业知识种植辅助科学育种、种植，提供农业生产决策建议，气象监测等大模型在不同领域的应用方向3.1.6主流大模型产品大模型名称核心特点DeepSeek●既有通用大模型，如DeepSeek-V3（最新闭源模型）是目前强大的通用大模型，通过其官方聊天应用DeepSeekChat提供服务；也有针对特定任务深度优化的专业模型，如DeepSeek-Coder是专注于代码生成和理解的模型●支持多模态理解与生成，具备强大的上下文建模能力和逻辑推理能力●具备高效的模型更新和迭代流程，能快速吸收新数据、应用新训练技术，提升模型的知识水平和能力边界●拥有超过千亿级参数量，部分版本甚至达到万亿级别，在国内属于领先水平文心一言●基于飞桨框架和文心大模型技术体系，具备强大的自然语言处理和多模态生成能力●深度融合百度知识图谱，在事实性与专业领域问答上表现优异●不仅具备强大的文本生成和理解能力，还整合了文生图、文生视频、文转语音等多种模态●在中文理解、文学创作、商业文案创作、数理逻辑推算等领域表现突出，尤其在中文语料处理上具有显著优势●通过百度智能云千帆大模型平台为企业提供推理服务及模型微调工具链，支持多种应用场景豆包●图像理解与多模态融合能力强，擅长内容生成●在复杂推理、竞赛级数学、多轮对话和指令遵循等测试集上表现优异●轻量化设计适配移动端●推理优化的成本低，性价比高通义千问●中文理解能力领先，在逻辑推理与文本创作方面表现突出，支持百万级上下文窗口和多模态交互●基于阿里云强大算力支持，具备企业级服务能力●版本持续迭代，性能与功能不断优化国内主流大模型产品及其特点3.1.6主流大模型产品大模型名称核心特点Kimi长文本处理能力卓越，可解析书籍、论文等长篇文档并生成结构化摘要，适合对信息抽取与归纳要求高的场景讯飞星火●语音交互能力处于行业领先水平，在多轮口语对话、实时语音交互方面表现突出，跨语言同传技术成熟，准确率高●支持文本、语音、图像跨模态推理腾讯混元●在高质量的内容创作、数理逻辑、代码生成、多轮对话、图像与视频生产上性能表现优越●深度融入微信、搜狗搜索等腾讯生态●提供个性化智能体服务，支持智能体创建国内主流大模型产品及其特点智能体的发展依托于机器学习、深度学习、强化学习等人工智能技术的突破。早期的智能体多局限于特定场景（如工业自动化中的机器人），而如今随着大数据处理能力的提升和算法的优化，智能体已能在更复杂的环境中发挥作用：从金融领域的智能交易系统，到医疗行业的辅助诊断机器人，再到交通场景的自动驾驶车辆，智能体正以多样化的形态推动着各行业的智能化变革。02.智能体人工智能通识：理论、案例与应用（慕课版在线实训平台版）

3.2.1智能体的概念与特点智能体的概念智能体（Agent）是指能够自主感知环境、进行决策并执行行动以实现特定目标的实体。它可以是软件程序、机器人，也可以是生物系统（如人类或动物）的抽象模型。智能体可以被当作一个“思考者”或“行动者”，它不是被动地接受输入并产生输出，而是主动地与环境互动，根据当前情况做出决策。智能体的特点自主性：智能体能够在没有直接人为干预的情况下运行，并对其行为和内部状态拥有一定程度的控制权。它不是完全通过外部指令来驱动，而是可以基于自身的“判断”采取行动。反应性：智能体能够感知周围环境的变化，并及时做出适当的反应。主动性：智能体并不仅仅是被动反应，它还能主动发起行动以实现其目标。适应能力：智能体能够从过去的经验和与环境的交互中进行学习，积累知识，以适应环境的变化或提升性能。交互性：在复杂场景中，智能体能够与环境、其他智能体或人类进行交互、通信、协作或竞争。3.2.2智能体的构成01传感器传感器是智能体感知外部环境的设备或实体。对软件型智能体来说，传感器可以是键盘输入、麦克风的音频信号等；对具有实体的智能体来说，传感器可以是摄像头、麦克风、温度计、激光雷达等。传感器负责从外部世界收集信息，建立起对外部世界的感知，并将收集到的信息转化成智能体可以理解的形式，以便智能体后续做出决策或采取行动。02决策系统决策系统是智能体的核心，负责接收来自传感器的信息（感知），并根据内置的规则、目标或学习到的知识对信息进行处理，然后决定要执行器执行什么动作。决策系统是区分智能体智能水平的关键，其最简单的形式可以是一组“如果-那么”规则，复杂的形式则可以是一个包含学习、推理、规划等高级功能的复杂系统。03执行器执行器是智能体与环境交互的“出口”，负责将决策系统生成的指令转化为实际行动，作用于物理世界或数字系统。对软件型智能体来说，执行器可以是屏幕上的文字输出、语音合成、发送控制指令等；对具有实体的智能体来说，执行器可以是轮子、机械臂、指示灯、扬声器等。3.2.2智能体的构成要素名称说明目标定义智能体的行为方向，为衡量智能体的行为提供标准。智能体的所有行动都应该是以实现目标或最大化某个效用值为目的的。例如，扫地机器人的目标是“地面清洁”；推荐系统的目标是“延长用户停留时间”知识库用于存储智能体关于世界、关于自身、关于任务的先验知识和在运行过程中学到的新知识。它为决策系统提供了上下文和事实依据。例如，一个医疗诊断智能体需要存储大量医学知识的知识库记忆记录智能体过去的感知序列、采取的行动及其结果。记忆使得智能体能够处理时序信息，而不是仅仅基于当前瞬间的感知做决策。例如，客服智能体通过短期记忆记住了“用户A在1分钟前说过‘订单号123’”，从而可以避免重复询问学习模块使智能体能够根据经验自动优化其决策系统，从而使智能体在未来的任务中表现得更好。例如，一个信息推荐智能体根据用户的反馈不断优化其推荐模型智能体的高级组成要素3.2.3智能体的类型分类标准类型特点示例按照智能体的智能水平分类简单反射型智能体仅根据当前感知到信息来做出决策，而不考虑过去的感知历史。它的行为规则通常是基于一系列“如果-那么”规则恒温器根据当前温度决定是否启动加热模式基于模型的反射型智能体拥有一个内部模型，这个模型能根据感知历史和智能体自身的行动来进行更新，帮助智能体更好地理解环境的结构和行为自动驾驶系统根据传感器数据和地图信息调整汽车行驶路线基于目标的智能体其行为是为了实现某种特定的目标，并且能够根据目标来选择行动路径。它会考虑一系列可能的行动路径，并选择最优路径实现目标一个导航智能体的目标是将用户从一个地点导航到另一个地点。它会考虑不同的路径、交通状况等因素，选择最优的路径来实现导航目标基于效用的智能体引入了效用函数，这是一个衡量程度好坏的量化指标，其目标是实现效用最大化。当有多个路径可以打造目标时，或者目标本身有不同程度的“好坏”之分时，基于效用的智能体能在看似都可行的路径中选择“最好”的那个投资机器人在多个投资组合中选择风险收益比最优的一个学习型智能体通常包括一个学习元件，能够通过与环境互动获得的经验（反馈）来改进自身的性能语音识别智能体通过不断接收用户的语音指令并得到反馈（如用户纠正错误的识别结果），学习并优化自己的语音识别模型，提高识别的准确率智能体的分类标准及各类智能体的特点和示例3.2.3智能体的类型分类标准类型特点示例按照复杂性分类单智能体系统环境中只有一个智能体，其决策不受其他智能体的影响，其决策逻辑相对简单，主要关注自身与环境的交互扫地机器人多智能体系统环境中有多个智能体，它们可以协作、竞争或混合互动，以达成各自或共同的目标，多智能体系统中加入了复杂的通信和协调

机制在城市交通管理系统中，多个路口智能体实时共享流量数据，优化信号灯配时按照实体形态分类软件智能体存在于计算机系统中的软件聊天机器人实体智能体具有物理形态，可直接作用于现实世界的智能体工业机器人人工生命智能体虚拟世界中的模拟生物虚拟数字人智能体的分类标准及各类智能体的特点和示例3.2.4智能体的运作原理智能体的运作是一个“感知-决策-执行”的过程，类似于人类的“观察-思考-行动”过程，其运作原理如右图所示。3.2.5智能体的搭建基础信息基础信息包括智能体的头像、名称和简介。开发者可以采用本地上传图片的方式设置头像，也可以采用AI生图的方式设置头像。智能体的名称应该简洁易记，能体现智能体的核心功能。简介要简洁明了地说明智能体的功能。01提示词编辑在搭建智能体时，开发者需要通过编辑提示词明确设定智能体的身份和运作流程、目标，智能体会根据对提示词的理解对用户提出的问题做出

响应。一般来说，提示词编辑包括角色、技能和回复要求3个关键字段。02关键字段释义提示词示例角色为智能体设置的人物设定，描述智能体扮演的角色、承担的职责你是一位专业且经验丰富的面试官，擅长通过精准的提问和深入的交流，挖掘候选人的核心能力和潜力，帮助求职者找到最佳匹配的岗位技能描述智能体需要完成的任务、运行流程，明确智能体的功能技能1：精准提问当用户（求职者）回答问题时，你能够根据其回答的内容进一步提出更有针对性的问题，以深入了解其能力和经验技能2：能力评估根据用户（求职者）的回答，结合岗位要求，对其能力进行客观、全面的评估，并给出相应的建议技能3：提供反馈在面试结束后，为用户（求职者）提供详细的反馈，包括其在面试中的优点和需要改进的地方回复要求描述智能体输出的要求，如输出格式、输出示例、输出限制等请参考如下格式回复：在[具体岗位]的面试中，你提到[求职者提到的内容]，这很好，但我想进一步了解[进一步了解的内容]，如[具体例子]，你认为呢？你的[某项能力]在[具体场景]中表现出了[优点]，但也有[需要改进的地方]，建议你在[方面]加强[具体建议]，这样可以提升你的[能力或竞争力]，你对这个建议有什么看法？限制仅处理与面试相关的问题，对非面试相关的问题不能给予解答保持专业、客观、中立的语气，避免加入个人情感不提供任何可能涉及隐私或敏感信息的反馈如果用户（求职者）的回答不完整或不清晰，会要求其进一步说明所输出内容需要按照给定格式组织，不得偏离框架要求提示词编辑关键字段3.2.5智能体的搭建基础信息基础信息包括智能体的头像、名称和简介。开发者可以采用本地上传图片的方式设置头像，也可以采用AI生图的方式设置头像。智能体的名称应该简洁易记，能体现智能体的核心功能。简介要简洁明了地说明智能体的功能。01提示词编辑在搭建智能体时，开发者需要通过编辑提示词明确设定智能体的身份和运作流程、目标，智能体会根据对提示词的理解对用户提出的问题做出

响应。一般来说，提示词编辑包括角色、技能和回复要求3个关键字段。02能力提升为智能体添加插件、知识库、工作流、记忆等

功能能有效提升智能体的能力，使其更好地完成任务。插件知识库工作流记忆03对话体验对话体验设置有利于提升用户在使用智能体时的交互体验。开场白快捷指令声纹识别音视频自动追问043.2.5智能体的搭建项目说明开场白用户进入智能体后自动展示的引导信息，主要作用是向用户介绍智能体的功能、使用方法。开发者可以在开场白中用简单的文字描述智能体的功能、使用场景快捷指令搭建智能体时设置的预置命令，可以引导用户准确地输入信息，降低智能体的使用门槛声纹识别声纹识别可以提取说话人的声音特征和说话内容信息，自动核验说话人身份。开发者为智能体设置声纹识别并配置声纹识别变量，可以让智能体借助声纹组和声纹数据来管理不同用户的声纹信息音视频开发者可以在搭建智能体时设置是否允许用户通过语音或视频的方式与智能体交互。音视频可以让智能体的交互方式多样化，让智能体更具亲和力自动追问智能体输出回复后，可以根据对话内容自动衍生若干问题建议，帮助用户更好地提问常见的对话体验设置3.2.5智能体的搭建课堂案例使用扣子搭建聊天机器人智能体具身智能是人工智能领域的一个重要概念，它强调智能行为并非仅仅源于大脑或算法的内部计算，而是产生于智能体与其环境之间的动态交互过程。换句话说，智能是“具身的”，它依赖于身体的形态、感知能力、运动能力和与物理世界互动的方式。这一理念挑战了传统人工智能将智能视为纯粹符号处理或抽象计算的观点，主张身体在认知和智能形成中扮演着核心角色。03.具身智能人工智能通识：理论、案例与应用（慕课版在线实训平台版）

3.3.1具身智能的概念与特点具身智能的概念具身智能是一种强调智能系统与物理身体和环境紧密交互的智能形式。具身智能理论认为智能不仅是大脑中的信息处理过程，而且与身体的感知、运动和与外部环境的互动密切相关。简单来说，具身智能就是“拥有身体，并在环境中通过身体去学习和完成任务的人工智能”。对比项目传统人工智能具身智能输入海量的、预先准备好的数据集，如图片、文本实时的、多模态的感官数据流，如视觉、听觉、触觉、力觉等处理模式在抽象符号层面进行推理和计算通过与环境的物理交互进行学习和推理输出一个结果，如生成的文本一系列物理动作，如行走、抓取，从而改变环境目标优化一个静态的数学目标函数，如准确率完成一个物理世界的生存或任务目标，如拿到桌上的水杯环境封闭、静态、确定的虚拟世界开放、动态、不确定的真实物理世界传统人工智能与具身智能的对比3.3.1具身智能的概念与特点具身智能的概念具身智能是一种强调智能系统与物理身体和环境紧密交互的智能形式。具身智能理论认为智能不仅是大脑中的信息处理过程，而且与身体的感知、运动和与外部环境的互动密切相关。简单来说，具身智能就是“拥有身体，并在环境中通过身体去学习和完成任务的人工智能”。具身智能的特点具身性：具身智能拥有一个物理身体，这个身体不一定要像人，它可以是一辆车、一个无人机，甚至一个机械臂。情境依赖性：具身智能的智能行为不是按照固定的、脱离情境的规则来行动，而是根据所处的特定情境来做出合理的

决策。感知与行动的闭环性：具身智能强调通过“感知行动”的持续循环来与世界互动。这个过程是一个连续的循环，这个循环允许具身能智能体在线学习、适应不确定性，并从错误中吸取教训。智能涌现于交互：具身智能中复杂的智能行为并非被预先编程，而是从智能体与环境的简单交互中逐渐涌现出来的。3.3.2具身智能的技术架构3.3.3人形机器人的构成要素与类型人形机器人的核心构成要素机械部位核心功能躯干连接头部、手臂和腿部，维持身体平衡头部承载感知设备，如摄像头、麦克风、扬声器，实现面部交互手臂与手部完成抓取、操作等精细动作腿部与足部实现行走、跑步、上下楼梯等，足部设计会影响人形机器人的稳定性与减震能力人形机器人关键的机械部位驱动方式核心原理伺服电机驱动通过电机（如无刷伺服电机）带动关节旋转，配合减速器控制精度液压驱动通过液压油的压力推动活塞，驱动关节运动气动驱动通过压缩空气推动气缸运动主流驱动方式3.3.3人形机器人的构成要素与类型人形机器人的核心构成要素感知系统核心功能关键传感器与技术视觉感知系统识别物体、人脸、环境布局，判断障碍物单目/双目摄像头、RGB-D相机、激光雷达听觉感知系统识别语音指令、定位声源麦克风阵列、语音识别芯片触觉感知系统感知压力、温度、纹理等柔性触觉传感器、温度传感器力觉感知系统检测关节受力，避免过载或碰撞关节扭矩传感器、碰撞传感器平衡感知系统维持身体姿态稳定惯性测量单元、足底压力传感器感知系统的构成3.3.3人形机器人的构成要素与类型人形机器人的类型（按照形态的不同进行分类）轮式

人形机器人上半身为人形结构，下半身采用轮子或全向轮底盘，强调轮子或全向轮底盘+上肢操作半身足式

人形机器人下半身有双足，上半身简化，强化机器人的腿部运动能力，手部简化，仅用于辅助平衡全能型

人形机器人外形类似人类，具备双足行走、双臂操作、多感知融合能力在人工智能领域，单一模态的信息往往具有局限性，如文本缺乏视觉细节、图像难以表达抽象语义。多模态融合正是为解决这一问题而生的关键技术，其核心是通过整合异构模态信息，实现“1+1>2”的感知与决策效果。04.多模态融合人工智能通识：理论、案例与应用（慕课版在线实训平台版）

3.4.1多模态融合的概念模态在人工智能领域，“模态”是指信息的来源与表现形式。常见模态包括视觉（如图像、视频）、听觉（音频，如语音、音乐）、文本（如自然语言、文字描述）、传感器数据（如惯性测量单元数据、温度）、触觉、脑电波信号等。多模态多模态是指两种或两种以上上述模态的组合，如图像＋文本、音频+视频等。例如，在一段视频中，人们同时获取画面（视觉）、声音（听觉）和字幕或旁白（文本），这些数据构成了一个多模态场景。多模态融合多模态融合是指将多个不同模态的信息进行有效结合，最终生成更全面、更准确、更具鲁棒性的决策结果的过程。3.4.1多模态融合的概念目标原因示例补充信息不同模态数据提供的信息具有不同的优势和局限性在视频情感分析中，人物说话的语调、音高可以传达情绪（如愤怒时音调升高），而人物的面部表情（视觉）和说话内容（文本）也能提供关键线索。将三者融合能更准确地判断人物的真实情感消除信息冗余同一事件或对象在不同模态中可能有相互印证的信息，这可以提升系统的鲁棒性和容错能力在语音识别中，如果环境嘈杂，仅靠音频可能无法听清单词。但如果同时有视频，就可以通过分析说话者的口型动作来辅助识别消除歧义单一模态的信息可能存在多种解释，其他模态可以提供上下文来消除歧义在一段视频中，某句台词中提到了“小米”，它可能是指粮食，也可能是指小米公司的产品。如果视频画面中显示的是智能手机，那么歧义就消除了多模态融合的主要目标3.4.2多模态融合策略融合策略释义实现方法特点早期融合在进行特征提取之前，将不同模态的数据直接组合在一起将不同模态的原始数据或浅层特征拼接、相加或加权组合在一起，形成一个统一的融合特征表示，然后输入到一个单一的模型中进行处理●能够保留原始数据的全部信息，模型在非常早期的阶段就学习模态间的复杂交互●不同模态数据之间的差异可能会对融合结果产生干扰●融合后的特征维度可能很高，容易过拟合中期融合在提取不同模态的数据特征后进行融合通过设计特定的融合操作（如注意力机制、张量融合等）让不同模态的特征进行交互，最后通过一个共同的决策网络输出结果●灵活性高，允许不同模态使用不同的网络结构处理异步数据●能在一定程度上减少数据维度，同时保留不同模态数据的特征信息●模型设计复杂，计算成本高，需要大量的训练数据晚期融合将各模态数据进行独立处理，然后将处理后的决策结果进行融合为每个模态训练一个独立的模型，并使每个模型都产生一个预测结果，最后通过规则（如加权平均、投票、最小值）融合这些预测结果●灵活，易于实现，各模态模型完全独立，易于训练和扩展，可以处理异构和异步数据●某个模态完全缺失时，系统仍可依靠其他模态工作●在特征层面进行深入的交互和融合，可能会忽略一些模态之间的互补信息●需要人工设计或单独优化融合规则多模态融合策略人工智能技术的发展始终充满着无限可能和潜力，未来人工智能将向着更复杂、更自主、更通用的方向迈进，不仅将为人们带来更加便捷、高效的生活方式，还将推动各行各业的创新和发展。05.人工智能创新技术人工智能通识：理论、案例与应用（慕课版在线实训平台版）

3.5.1全模态大模型全模态大模型的概念全模态大模型是指能处理文本、图像、音频、数据表格等多模态数据，并生成对应输出的大模型。全模态大模型是多模态大模型的延伸和升级，它进一步融合了更多种类的模态数据，提升了模型的认知、理解和创作能力。全模态大模型的核心目标是通过统一架构实现对多模态数据的处理并提供通用解决方案，而无需为处理特定模态数据单独开发模型。全模态大模型的优势全模态大模型有助于实现模态间的无缝交互与信息融合，构建统一的智能体系，打破传统单模态或多模态模型中数据孤立和互通困难的局面。全模态大模型的应用在医疗领域，全模态大模型可以更高效地处理各种模态的病历数据，进行临床症状描述并核验检查结果，为医生提供更全面、精准的诊断建议。在交通领域，全模态大模型能助力建设智能交通系统，提高交通运输的效率和安全性，有效缓解交通拥堵。3.5.2具身智能小脑模型具身智能小脑模型的概念具身智能小脑模型是一种受生物小脑启发而产生的计算模型，其目标是通过模拟小脑的功能来增强具身智能体的运动控制、技能学习和错误纠正能力。它超越了传统的、依赖精确建模和快速反馈的控制方法，为人工智能提供了一种更鲁棒、更自适应、更接近生物运动智慧的解决方案。具身智能小脑模型的应用具身智能小脑模型的应用非常广泛，尤其在需要高精度、高实时性、强适应性的运动控制领域。人形机器人：平衡与行走、精细操作神经康复与辅助设备：智能假肢、康复机器自动驾驶与无人机：车辆控制、无人机抗扰患者在机械外骨骼的辅助下行走3.5.3AI超级智能体AI超级智能体的概念AI超级智能体是指具备超越人类智能水平的智能系统或个体。AI超级智能体通常具备自我学习、推理、理解、感知、决策等能力，能够根据环境变化和需求进行自主决策和行动，并能进行跨模态感知和交互。AI超级智能体的特点与传统智能体相比，AI超级智能体具有以下特点。多模态感知与交互能力深度认知与跨领域推理能力自主思考和行动能力自我演进能力3.5.4纳米仿生机器人纳米仿生机器人纳米仿生机器人是应用仿生学原理设计制造的、由纳米尺度部件组装的机器人。纳米仿生机器人的核心结构通常在1纳米～100纳米（相当于人类头发直径的万分之一），部分功能模块可扩展至微米级（1微米～10微米）。它能穿透传统技术无法进入的微观空间。纳米仿生机器人的设计通常基于生物体的结构，可通过光、电、化学等能量转换进行自我驱动，并根据外部刺激执行特定任务。血管里的纳米仿生机器人3.5.4纳米仿生机器人应用领域应用场景医疗领域靶向给药纳米仿生机器人作为药物“载体”直接抵达病灶后释放药物，提升药效并显著减少药物对健康组织的副作用疾病诊断作为“微型传感器”，检测血液、体液中的疾病标志物微创手术在细胞内执行精准操作，如清除血管中的动脉粥样硬化斑块、切割病变组织、修复受损的细胞器，甚至进行神经修复环境治理降解污染物纳米仿生机器人可以高效识别、吸附并降解水中的污染物、重金属和微塑料，净化水质工业与制造分子制造模仿核糖体，通过操纵单个原子和分子来构建具有复杂结构的新材料材料缺陷修复检测并修复航空航天材料、半导体材料中的微观缺陷纳米仿生机器人的主要应用领域和应用场景3.5.5世界模拟器系统世界模拟器系统的概念世界模拟器系统是一种能够动态生成、模拟虚拟环境并支持智能体交互的系统，其核心目标是通过数据驱动的方式复现现实世界的物理规律、社会行为或抽象逻辑，为人工智能研究提供训练平台和决策预演空间。这类模拟器系统通常具备高保真度、实时交互性和长时一致性，近年来随着生成式人工智能的突破，世界模拟器系统成为通往通用人工智能的关键技术之一。世界模拟器系统的价值世界模拟器系统的价值主要体现在以下3个方面。加速科学研究与发现训练更安全、更强大的人工智能内容创作与娱乐的革命3.5.6代理式人工智能代理式人工智能代理式人工智能是指一类具备自主性、目标导向和交互性的人工智能系统，能够在复杂多变的环境中自主感知信息、进行推理、制定决策并执行任务，从而实现目标驱动的智能化行为。它突破了传统人工智能系统“被动执行”的局限，展现出更强的主动性、适应性和协作能力，是人工智能从工具向“智能代理”演进的重要阶段。代理式人工智能的工作流程3.5.6代理式人工智能代理式人工智能代理式人工智能是指一类具备自主性、目标导向和交互性的人工智能系统，能够在复杂多变的环境中自主感知信息、进行推理、制定决策并执行任务，从而实现目标驱动的智能化行为。它突破了传统人工智能系统“被动执行”的局限，展现出更强的主动性、适应性和协作能力，是人工智能从工具向“智能代理”演进的重要阶段。对比维度代理式人工智能生成式人工智能自主性能够独立执行端到端的任务依赖明确的指令触发学习能力实时持续迭代依托预训练模型进行迭代功能侧重专注于决策和执行任务，可以独立发起任务、规划路径并执行任务，能管理完成的任务流程，处理复杂任务侧重于生成内容，依赖明确的指令处理离散子任务交互性可以主动预判需求被动响应指令代理式人工智能与生成式人工智能的对比3.5.7多智能体系统多智能体系统多智能体系统（Multi-Agent System，MAS）是由多个在特定环境中运行的、具有自主性的智能体组成的计算系统。系统中的智能体通过相互协作、竞争或协商来共同完成单个智能体无法或难以完成的复杂任务。目前较为典型的多智能体系统有阿里云的函数计算AgentRun、用友网络YonAgent智能体平台等。组织结构说明优点缺点集中式结构存在一个中心控制智能体，负责管理其他所有智能体的任务分配、资源调度和冲突解决控制简单、易于实现全局最优鲁棒性差、存在单点故障风险和通信瓶颈分布式结构不存在中心节点，所有智能体地位平等，通过局部交互和协商达成全局目标鲁棒性强、可扩展性好①需要复杂的通信协议②实现全局协调较为困难，可能产生大量通信开销分层式结构智能体被组织成多个层次。上层智能体负责宏观管理和任务分解，下层智能体负责具体执行兼顾了控制效率和系统的可扩展性①跨层协调存在一定的复杂度②可能出现反应延迟的情况联合式结构智能体使用共享协议，实现跨组织协作有利于更好地调用各智能体的优势功能高度依赖共享协议常见的多智能体系统组织结构3.5.8AI超级计算机AI超级计算机的概念AI超级计算机是专为人工智能（特别是机器学习和大模型训练）设计和优化的高性能计算系统。与传统通用超级计算机不同

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

人工智能通识：理论、案例与应用 课件 第3章 人工智能前沿技术

文档简介

温馨提示

最新文档

评论

相关文档

人工智能通识：理论、案例与应用课件第3章人工智能前沿技术