《人工智能通识》课件-第7章用AI大模型制作智能体

上传人：青*** IP属地：福建上传时间：2026-03-08 格式：PPTX 页数：27 大小：6.23MB 积分：5.99 举报 版权申诉

已阅读5页，还剩22页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

信息技术素养与数字化应用第7章用AI大模型制作智能体人工智能技术概述1.人工智能技术的发展历程人工智能的发展历程宛如一部波澜壮阔的科技史诗，其源头可追溯至20世纪50年代。1950年，阿兰图灵提出了具有划时代意义的图灵测试，为人工智能的发展锚定了理论方向，如同在黑暗中点亮了一盏明灯，引领着无数科研人员投身于机器智能的探索征程。1956年，达特茅斯会议正式确立了“人工智能”这一术语，标志着人工智能作为一个独立的学科领域诞生，吸引了来自数学、心理学、计算机科学等多领域专家的协同研究，开启了人工智能发展的新纪元。在随后的20年里，人工智能经历了早期的发展高潮。专家系统的兴起成为这一时期的标志性成果，它将领域专家的知识和经验以规则的形式编码存入计算机，赋予计算机模拟专家解决复杂问题的能力。例如，在医疗领域，MYCIN专家系统能够根据患者的症状、检查结果等信息，辅助医生进行疾病诊断和治疗方案推荐，在特定领域展现出了巨大的应用价值，让人工智能从理论研究迈向实际应用的初步探索。然而，受限于当时的计算能力、数据量以及算法的局限性，人工智能在发展过程中遭遇了瓶颈，进入了长达十余年的“寒冬期”。科研进展缓慢，资金投入减少，人工智能的发展陷入了困境。但科研人员对人工智能的热情并未熄灭，他们在困境中不断探索新的理论和方法，为后续的突破积蓄力量。直到21世纪，随着大数据时代的来临、云计算技术的飞速发展以及硬件性能的大幅提升，人工智能迎来了爆发式增长。深度学习技术的崛起成为这一时期的核心驱动力，以深度神经网络为基础的深度学习算法在图像识别、语音识别、自然语言处理等多个领域取得了革命性的突破。例如，在图像识别领域，基于卷积神经网络（CNN）的算法使得图像识别准确率大幅提升，能够精准识别各种复杂场景下的物体，广泛应用于安防监控、自动驾驶、医疗影像诊断等领域；在语音识别方面，深度学习技术让语音识别的错误率大幅降低，实现了实时语音转文字、智能语音助手等实用功能，极大地改变了人们与机器交互的方式。这些技术突破不仅推动了人工智能在学术界的研究热潮，也促使其在产业界得到了广泛应用和商业化落地，深刻改变了人们的生活和产业格局。回顾人工智能产业的发展历程，每一次关键技术的突破和标志性事件都如同历史长河中的璀璨明珠，照亮了人工智能前行的道路，为其在各个领域的深入应用和持续发展奠定了坚实基础。2.常见人工智能技术(1/4)（1）机器学习人类可以从经验中学习成长，更好的完成任务。当我们出生时，我们如同白纸一张，但很快，我们每天都在学习，并变得更加强大有能力。但你知道吗？计算机也能做到这一点！机器学习（MachineLearning）将统计学和计算机科学结合在一起，使计算机能够在没有编程的情况下，通过数据学习，自动改进性能并做出智能决策。这类似你的大脑利用经验来改进任务一样，计算机也能做到。假设你需要计算机能够分辨出猫和狗的照片，你可以输入标记好的照片，告诉计算机这个是狗，那个是猫。被编程学习的计算机将在数据中寻找统计模式，以此来识别猫和狗（如图7-1）。根据学习方式的不同，机器学习通常被分为监督学习（SupervisedLearning），无监督学习（UnsupervisedLearning）和半监督学习（Semi-supervisedLearning）。2.常见人工智能技术(2/4)（2）深度学习深度学习（DeepLearning）是机器学习的一个分支领域，它受到人脑结构的启发，通过构建具有多个层次的神经网络模型，对数据进行自动特征提取和模式学习。深度神经网络由输入层、多个隐藏层和输出层组成，每一层都包含多个神经元，神经元之间通过权重连接。随着隐藏层数量的增加，模型能够学习到数据中更加复杂和抽象的特征表示。如图7-2。以深度学习中广泛应用的卷积神经网络（ConvolutionalNeuralNetworks,CNN）为例，在图像识别任务中，CNN展现出了强大的能力。CNN包含多个卷积层、池化层和全连接层。卷积层是其核心组件，通过卷积核在图像上滑动，对图像进行卷积操作，提取图像的局部特征。不同的卷积核可以提取不同类型的特征，如边缘、纹理、形状等。池化层则对卷积层提取的特征进行降维处理，通常采用最大池化或平均池化的方式，在减少数据量的同时保留关键特征，降低计算复杂度。最后，全连接层将经过卷积和池化处理后的特征进行整合，通过分类器（如Softmax分类器）输出图像的类别。如图7-3.监督学习是在已知输入数据和对应输出标签的情况下进行模型训练，利用标签信息能够获得较高的识别精度。常见的算法包括线性回归、逻辑回归、支持向量机（SVM）和神经网络等。然而现实中大量的数据都是没有被标记的，因此监督学习算法的使用范围受到限制。无监督学习是从未标记的数据中学习，目标是发现数据中的隐藏结构和模式，如通过聚类算法可以根据客户的消费行为、偏好等特征，将客户划分为不同的群体，以便企业针对不同群体制定个性化的营销策略。常见的无监督学习算法包括K均值聚类、主成分分析（PCA）和自编码器等。半监督方法结合结合少量标记数据和大量未标记数据进行训练，使用有标签的样本建立与学习目标的联系，使用无标签的样本提高算法有效性。强化学习模型则是通过与环境的交互学习策略，以最大化累积奖励，通常用于游戏AI和机器人控制。常见的强化学习算法包括Sarsa算法、Q-Learning、DQN算法等。2.常见人工智能技术(3/4)深度学习的优势在于能自动从海量数据中挖掘复杂特征和模式，无需人工手动提取特征；对复杂数据的处理表现出色，在图像、语音、文本等复杂数据处理任务中取得了优异成绩。然而，深度学习也存在一定局限，模型训练通常需要大量的标注数据，数据标注工作耗时费力；训练过程对计算资源要求高，需要强大的GPU集群支持；深度学习模型可解释性差，难以理解模型决策的具体过程和依据。（3）自然语言处理自然语言处理（NaturalLanguageProcessing，NLP）致力于让计算机能够理解、处理和生成人类语言，实现人与计算机之间的自然交互。NLP结合了语言学、计算机科学和机器学习的技术，广泛应用于机器翻译、文本分析、语音识别、情感分析、智能对话系统等场景。通过词嵌入、循环神经网络（RNN）、Transformer等先进技术，NLP系统能够从大量文本数据中学习语言规律，实现语义理解、文本生成和语言翻译等复杂任务。随着深度学习和大数据技术的发展，NLP正在推动人机交互、信息检索和内容创作等领域的革新，成为人工智能技术落地的重要方向之一。同学们可以尝试使用简单的python代码调用百度NLP接口实现简单的语言情感分析，识别其积极语义和消极语义的占比，如图7-4。2.常见人工智能技术(4/4)（4）计算机视觉计算机视觉（ComputerVision,CV）研究如何让计算机"看"懂图像和视频内容，理解其中的场景、物体和事件。它通过对图像中的目标进行检测、识别、分割、跟踪等操作，使计算机能够从图像数据中提取有价值的信息。例如在无人驾驶领域，计算机视觉技术通过摄像头采集车辆周围的图像信息，利用目标检测算法识别道路上的车辆、行人、交通标志和交通信号灯等目标物体。基于深度学习的目标检测算法可以快速准确地检测出图像中的车辆位置和类别，为车辆的行驶决策提供依据。同时，计算机视觉技术还可以通过图像分割算法对道路、障碍物等进行分割，帮助车辆更好地理解周围环境，规划行驶路径。此外，通过视觉跟踪算法，计算机可以对动态目标（如移动的车辆和行人）进行实时跟踪，预测其运动轨迹，提前做出安全决策，确保车辆行驶的安全和顺畅。同学们可以尝试使用简单的python代码调用百度人脸检测接口实现简单的人脸识别，算法可以根据输入的图片，识别出所有人脸所在的位置，如图7-5。第7章用AI大模型制作智能体人工智能典型应用------AIGC1.AIGC的发展历程(1/3)AIGC（ArtificialIntelligenceGeneratedContent）是生成式人工智能，演进并非一蹴而就，而是计算机科学、数学建模与硬件算力三重驱动的渐进式突破。其演进可追溯至20世纪计算机科学的早期探索，其发展主要分为三个阶段：（一）规则驱动阶段基于预设规则生成内容，如文本模板、简单图像合成工具，灵活性和创造性受限。（1）MarkovChain生成随机文本，如克劳德·香农通过字母概率分布模拟英语句子。（2）ELIZA聊天机器人通过关键词匹配与固定话术库模拟心理咨询对话，暴露规则系统的僵化性。（3）AdobePhotoshop1.0（1988）的滤镜工具链，依赖预设算法对图像进行有限修改。我们可以发现，其内容生成高度依赖专家经验，缺乏创造性与场景适应性。1.AIGC的发展历程(2/3)（二）统计模型阶段利用概率模型（如隐马尔可夫模型、贝叶斯网络）生成文本或图像，但仍需大量人工干预。（1）IBMDeepBlue战胜国际象棋冠军，验证统计模型在复杂决策中的潜力。（2）Hinton提出深度信念网络（DBN），开启深度学习新纪元。（3）苹果Siri整合统计语言模型，实现有限场景的自然语言交互。这一阶段内容虽然在渐渐摆脱专家经验，但仍局限于结构化数据填充模板。1.AIGC的发展历程(3/3)（三）深度学习阶段以生成对抗网络（GAN，2014）、Transformer（2017）、扩散模型（2020）为代表，实现了从数据中自主学习的"创造性生成"。（1）IanGoodfellow提出GAN，开启图像生成新纪元。生成对抗网络（GAN）生成器与判别器的博弈框架使图像生成突破人类预设边界，首幅AI画作《埃德蒙·贝拉米肖像》（2018）在佳士得以43万美元成交。（2）GPT-1发布，基于Transformer架构实现大规模文本生成。GPT系列模型迭代加速（GPT-2于2019年突破文本不可检测性）（3）扩散模型（DiffusionModels）崛起，StableDiffusion（2022）实现\"文字到图像\"的精准控制，MidJourneyV5生成结果与专业插画师作品难以区分，引爆AI艺术创作浪潮。发展到现阶段，人工智能大模型及生成式人工智能需求的日益增长，对算力基础设施提出了越来越高的要求，NVIDIAA100显卡（2020）与GoogleTPUv4（2021）将单模型参数规模推至万亿级别。AIGC的核心算法在数字化时代的当下，AIGC技术正以前所未有的速度改变着我们的生活和工作方式，从创意无限的文本生成，到栩栩如生的图像创作，再到动听的音乐旋律，无处不在。而这一切的背后，离不开三大核心算法的支撑AIGC。（1）生成对抗网络（GAN）它就像两个艺术家在一场无尽的比赛中博弈较量，一个努力创作出最逼真的作品，另一个则试图找出作品中的破绽。这正是GAN的核心思想，由两个神经网络组成：生成器（Generator）和判别器（Discriminator）。生成器就像一个充满创造力的艺术家，它的任务是从随机噪声中生成数据，这些数据可以是图像、音频或任何其他形式。而判别器则扮演着严格的批评家角色，它需要判断生成的数据是真实的还是由生成器伪造的。在训练过程中，生成器和判别器不断进行对抗。生成器努力提高自己的生成技巧，以创造出越来越逼真的数据，试图欺骗判别器。与此同时，判别器也在不断提升自己的鉴别能力，以更准确地识别出生成数据中的细微差别。这种相互对抗、相互学习的过程，最终使生成器能够生成出以假乱真的数据。（2）Transformer随着数据量的不断增加和模型复杂度的提高，RNN的局限性逐渐显现。Transformer架构应运而生，它彻底改变了我们处理序列数据的方式。其核心在于注意力机制。它能够并行处理整个序列，并通过注意力机制捕捉序列中不同位置之间的长距离依赖关系。这种机制使得模型能够更加全面地理解序列数据的上下文信息，从而提高模型的性能。因此，Transformer并行计算效率高，建模能力强，在自然语言处理领域取得了巨大的成功，被广泛应用于机器翻译、文本摘要、问答系统等任务中。（3）扩散模型（DiffusionModels）扩散模型是一种相对较新的生成模型，它通过一种独特的方式生成数据。这个过程可以类比为将一幅画逐渐模糊，然后又逐步恢复清晰的过程。在扩散模型中，数据首先被逐步添加噪声，直到变成完全的噪声。然后，模型学习逆向这个过程，从噪声中逐步恢复出原始数据，生成数据质量高，在生成图像、视频和音频等方面表现出色。同时，与GAN相比，扩散模型的训练过程相对更加稳定。它不容易出现模式崩溃等问题，这使得研究人员能够更容易地训练出高质量的模型。它们各自具有独特的优势和挑战，在不同的应用场景中发挥着重要作用。展望未来，AIGC技术将会朝着以下几个方向发展：（1）多模态生成：未来的AIGC将不再局限于单一模态的数据生成，而是结合文本、图像、音频等多种模态信息，创造出更加丰富、立体的内容。（2）可控生成：提高对生成内容的控制能力是AIGC技术发展的重要方向之一。从而更加精准地根据用户的指令和需求生成内容，减少生成结果的随机性和不确定性。（3）个性化生成：随着用户对个性化内容的需求不断增加，AIGC技术将更加注重根据用户的个人喜好和需求生成个性化的内容。无论是新闻推荐、音乐播放还是视频创作，未来的AIGC都将能够为每个用户提供独一无二的体验。3.AIGC的典型应用场景在实际使用中，不同的大模型会各自的特点和优势，AIGC已经在多个领域展现出其广泛的应用潜力。（1）文本生成：AIGC技术可以用于撰写新闻稿、生成文章、创作诗歌和小说，甚至进行语言模型的构建，如GPT-3等，这些技术能够根据给定的主题或关键词自动生成连贯的文本内容。（2）图像创作：利用AIGC技术，可以自动生成艺术作品、设计图案、插图以及动画角色等。广告与商业设计中，可以帮助广告创意人员生成新颖的广告文案和视觉设计，用AI自动生成若干版式、配色方案与海报模板等，将设计周期从3天压缩至10分钟。2023年可口可乐联合OpenAI打造“CreateRealMagic”活动，用户通过DALL-E生成艺术瓶身设计，最佳作品被实体化生产。阿里巴巴鹿班基于商品图自动生成场景化营销素材，2023年双十一期间生成1.2亿张Banner图。（3）音频制作：在音乐领域，AIGC技术能够创作旋律、合成音轨，甚至模拟特定乐器的声音，为音乐制作提供新的创作方式。2024年中国生成式AI大会上提到，有专家提到到2025年能基本实现自然语言生成伴奏的功能，即上传30s的人声素材，就能够用你自己的声音来演唱歌曲，音质会达到基本可用的水平。（4）行业垂直应用：在教育行业，AIGC技术可以辅助教师进行教学，为学生提供个性化的学习资料，如自动出题、生成解释性答案等。在医疗行业，可以合成医学影像数据辅助诊断，提高检测准确率。AI生成药物分子结构，加速候选化合物筛选，降低药剂研发周期。在翻译行业，AIGC技术可以提高翻译的准确性和流畅性，支持多种语言之间的实时转换。在不久的将来，我们走出国门不需要担心各种语言障碍。4.AIGC的法律与伦理问题随着人工智能(AI)与生成式人工智能(AIGC)技术的迅猛发展，AI在内容创作、娱乐、教育、医疗等多个领域的应用逐步展现出强大的创新潜力。然而，AIGC技术带来的法律与伦理挑战也日益凸显。一是隐私与数据保护问题。AIGC模型通常需要大量的训练数据，如何确保数据安全和用户隐私不被侵犯是一个重要挑战。二是知识产权与版权问题。AIGC生成内容的知识产权归属问题，以及如何定义和保护AI作品的版权，是AIGC时代的一大法律难题。三是内容合规性问题。AIGC生成的内容可能涉及肖像权、名誉权等法律问题，甚至可能因为生成内容"以假乱真"的效果，而被不法利用、不良传播。如何保障生成内容的合规性，也成为一个重大难点。在AIGC时代，构建起一套完备的法律规范与伦理标准，引导技术的健康发展，确保技术的公平、透明与安全，是摆在当前和未来的一个重大课题。2023年7月国家网信办联合国家发展改革委、教育部、科技部、工业和信息化部、公安部、广电总局公布《生成式人工智能服务管理暂行办法》，自2023年8月15日起施行，成为国家首次针对于当下爆火的生成式人工智能产业发布规范性政策。我们要以科学的态度和责任心，共同推动AIGC技术的健康发展，实现科技与人类社会共同进步。5.常用AIGC工具在人工智能引领的数字时代，国内众多公司以及高校和科研机构均加大投入，发布众多通用大模型，形成了"百花齐放"的景象。特别是深度求索公司发布的DeepSeekV3和DeepSeekR1大模型，通过打破传统的"算力竞赛"规则并完全开源，成为国内的一个里程碑事件。同时，各大厂积极探索企业级服务商业化路径，加快产业落地。以DeepSeek、文心一言、豆包等为代表的六大经典AIGC工具正在逐步改变我们的生活、学习和工作方式。下面我们来对比分析它们的主要特点、优势领域、平台特色，希望为大家提供一份选择合适AIGC工具的实用指南。5.常用AIGC工具(2/5)当然，除了这几个多模态大模型，还有很多在专门领域的AI模型，如在图片、视频等的dahepix、sora等。感兴趣的读者可以自行检索试验。（一）DeepSeekDeepSeek率先开源国内首个MoE大模型（DeepSeek-MoE），其创新架构将显存占用降至传统模型的5%-13%，推理成本仅为GPT-4Turbo的1/70，训练成本更是OpenAI同类模型的1/10。具有强大的语言理解和生成能力，可以回答用户提出的各种问题，包括常识问题、专业问题、历史问题、科技问题等，还可以与用户进行智能对话，理解用户的意图和情感，并给出相应的回答,也可以进行自然语言处理、问答系统、智能对话、智能推荐、智能写作和智能客服等多种任务。电脑版：/。5.常用AIGC工具(3/5)（二）豆包其出色的语音聊天和联网搜索能力，结合文生图功能，让用户在享受语音交互便利的同时，也能获得高质量的视觉生成体验，广泛应用于文章写作、翻译、解题答疑及智能客服等领域。电脑版：。（三）文心一言依托百度搜索引擎多年积累的海量数据，文心一言构建了一个庞大的知识库，能够精准捕捉用户意图，生成高质量内容。在文学创作、商业文案创作、数理逻辑推算及中文理解领域展现出非凡实力。电脑版网址。5.常用AIGC工具(4/5)（四）通义千问背靠阿里云强大的算力支持，通义千问凭借"超大规模、多轮交互、多模态理解"的能力，在代码编写、语言翻译、逻辑推理及文案创作等多个领域展现出卓越性能。无论是解决编程难题还是进行跨国交流，通义千问都能提供精准、高效的解决方案。电脑版：/qianwen。（五）讯飞星火依托科大讯飞在语音识别领域的领先技术，讯飞星火在语音交互方面独具优势。在语音输入、语音播报及文本生成方面表现出色。无论是智能家居控制还是远程会议记录，讯飞星火都能轻松实现语音操控，享受智能生活的便捷。电脑版：。5.常用AIGC工具(5/5)（六）Kimi以"超长文本处理、信息检索"见长，特别适合于长文本创作、信息整理及知识获取。其支持高达20万汉字的超长文本输入，配合文件和网页解析功能，让用户轻松驾驭复杂信息。此外，Kimi还具备强大的搜索能力和多语言对话功能，让全球信息触手可及。电脑版网址：/。本章小结本章介绍了人工智能技术的概念、关键技术，以及AIGC工具使用方法和技巧。通过本章的学习，读者应当掌握：掌握人工智能技术的发展历程和原理；掌握运用AIGC工具制作智能体的方法和技巧。第7章用AI大模型制作智能体人工智能典型应用------人形机器人1.人形机器人的发展历程(1/2)人形机器人的历史可以追溯到古希腊神话中工匠之神赫菲斯托斯打造的黄金机械仆人，以及中国古代能工巧匠制作的木牛流马。然而，真正意义上的现代人形机器人诞生于20世纪。1928年，英国发明家威廉・亨利・理查兹制造出名为Eric的人形机器人，它能做出简单动作，如点头、挥手，成为早期人形机器人的代表（如图7-6）。随后几十年，随着电机、传感器等技术的发展，人形机器人的动作控制和环境感知能力逐渐提升。1973年，日本早稻田大学开发出WABOT-1，这是世界上第一台全尺寸人形机器人，能完成简单行走、手部动作，还具备一定语音识别能力，标志着人形机器人从概念走向实际应用。进入21世纪，人工智能技术的发展为人形机器人带来质的飞跃。深度学习算法的应用，使人形机器人能更好地理解和处理复杂环境信息，实现更精准的运动控制和自然的交互。2000年，日本本田公司推出ASIMO，它能在复杂环境中自主行走、上下楼梯，还能与人类进行简单互动，展示了人形机器人在复杂环境下的适应性和交互能力。2010年，美国宇航局推出Robonaut2机器人，并成功将其送入国际空间站，协助宇航员完成太空任务，标志着人形机器人开始进入太空领域。2014年，日本软银公司推出Pepper机器人，它能够识别人类情绪并进行简单对话，主要用于商场导购和家庭陪伴，成为首款实现商业化的人形机器人。2016年，波士顿动力公司发布Atlas机器人最新版本，堪称人体运动能力的"全球天花板"，1.人形机器人的发展历程(2/2)它能够完成后空翻、跳跃等高难度动作，展示了人形机器人在运动控制方面的巨大进步。2020年，中国优必选科技公司推出Walker机器人，它能够实现上下楼梯、避障、抓取物体等复杂动作，并具备人脸识别、语音交互等功能，代表了中国人形机器人技术的最高水平。2023年，马斯克发布特斯拉第二代人形机器人Optimus二代。Optimus二代配备了特斯拉自主设计的执行器和传感器，所有手指都有触觉感应，动作更稳定且灵活，既能完成一手拿取鸡蛋后换至另一只手将鸡蛋放到容器中的精细动作，也可行走移动、深蹲、做瑜伽，商业化落地进程也在加速。2024年，英国EngineeredArts公司发布了最新版本的Ameca机器人，它接入GPT4，使用大模型进行自然语言分析，在聊天过程中还能分析人类表情。它的表情十分丰富自然，每一个动作都融入了大量关于人类行为的研究，利用行为科学原理，通过丰富的表情和肢体语言，让人类更容易与之产生共鸣，极大提升了交互体验。2024年，宇树科技展示国内首款实现奔跑功能的全尺寸通用人形机器人H1，H1能够自主学习高速奔跑、多种高动态舞蹈动作，并持续学习更多不同种类的动作。在与舞蹈演员共舞，手绢花随着音乐节奏翻飞旋转，将东北大秧歌与科技相融合，惊艳了全国观众。如图7-7.2025年蛇年春晚的创意融合舞蹈《秧BOT》中，16个身着大花袄的H12.人形机器人技术要点(1/2)（1）人形机器人硬件结构人形机器人的硬件系统是其实现各种功能的基础，可以类比为人类的“骨骼”、“肌肉”、“感官”和“大脑”，主要由动力系统、传感器和机械结构三部分构成。动力系统主要由电机、驱动器等组成，为机器人的运动提供动力。不同类型的电机适用于不同的关节运动，驱动器就像是电机的“指挥官”，根据机器人的运动指令，精确调控电机的转速、扭矩和转向，确保机器人的每一个动作都能按预期执行。动力系统是机器人行动的基础，它的性能优劣直接影响机器人的运动能力和工作效率。传感器系统主要包括视觉传感器（摄像头）、听觉传感器（麦克风阵列）、力传感器、陀螺仪等。视觉传感器让机器人能够识别周围环境和物体，听觉传感器使其能接收声音指令，力传感器可感知与外界接触的力，陀螺仪则用于保持平衡和姿态控制。各类传感器如同机器人的“五官”，他们相互协作，共同为机器人构建起一个全面的感知体系，使其能够对周围环境做出准确的反应。机械结构是机器人的“骨架”，它的设计直接决定了机器人的外形和运动能力。合理的关节布局和自由度设置，使得机器人能够模仿人类的各种动作，如行走、奔跑、抓取等。同时，优化的机械结构还能减少能量损耗，提高运动效率，增强机器人在复杂环境中的稳定性，使其能够更好地完成各种任务。例如，一些人形机器人采用了轻量化材料和仿生学设计，不仅减轻了自身重量，还提高了运动的灵活性和自然度，使其更接近人类的运动方式。2.人形机器人技术要点(2/2)（2）人性机器人控制算法人形机器人控制算法是其实现智能、灵活和自主行为的核心，涉及感知、决策、运动控制、交互等多个领域。关键算法包括多种人工智能算法、运动规划算法等。人工智能算法，深度学习算法在人形机器人中广泛应用。例如，通过卷积神经网络（CNN）进行图像识别，让机器人能够识别物体、场景和人脸；多模态感知融合能结合视觉（RGB-D相机、事件相机）、触觉（电子皮肤、压力传感器）、听觉（麦克风阵列）、惯性测量单元（IMU）等数据，采用概率图模型（如贝叶斯网络）或Transformer架构进行跨模态对齐，解决传感器噪声和同步问题，例如波士顿动力Atlas通过IMU与视觉融合实现跌倒预测。在自然语言处理方面，借助循环神经网络（RNN）及其变体LSTM、GRU等，机器人可以理解人类复杂的情感表达，例如Ameca机器人接入GPT-4后，依靠强大的语言模型理解和生成自然语言，实现流畅对话，能快速解答人们提出的各种问题。此外，强化学习算法也逐渐应用于人形机器人领域。机器人通过与环境不断交互，根据奖励反馈来优化自身行为策略。比如在物流仓储场景中，机器人利用强化学习算法，在不断尝试中学会更高效地搬运货物，选择最优的行走路径和搬运方式，以提高工作效率和降低能耗。运动规划算法能够根据机器人的当前状态和目标位置，规划出一条合理的运动

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《人工智能通识》课件-第7章用AI大模型制作智能体

文档简介

温馨提示

最新文档

评论

《人工智能通识》课件-第7章 用AI大模型制作智能体

文档简介

温馨提示

最新文档

评论

相关文档

《人工智能通识》课件-第7章用AI大模型制作智能体