版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
人工智能通识——基础、技术、前沿、伦理与实践第6章大模型01大模型概述目录02大模型产品03大模型的基本原理04大模型的特点05大模型的分类06大模型训练的硬件设施07大模型的成本09大模型对人们工作和生活的影响10大模型的挑战与未来发展08大模型的应用领域11实验1:在自己本地计算机上部署大模型01大模型概述Partone6.1.1大模型的概念大模型通常指的是大规模的人工智能模型,是一种基于深度学习技术,具有海量参数、强大的学习能力和泛化能力,能够处理和生成多种类型数据的人工智能模型大模型的“大”的特点体现在:参数数量庞大训练数据量大计算资源需求高2020年,OpenAI公司推出了GPT-3,模型参数规模达到了1750亿2023年3月发布的GPT-4的参数规模是GPT-3的10倍以上,达到1.8万亿大模型的设计和训练旨在提供更强大、更准确的模型性能,以应对更复杂、更庞大的数据集或任务。大模型通常能够学习到更细微的模式和规律,具有更强的泛化能力和表达能力大模型具有更强的上下文理解能力,能够理解更复杂的语意和语境。这使得它们能够产生更准确、更连贯的回答上下文理解能力大模型可以从大量的数据中学习,并利用学到的知识和模式来提供更精准的答案和预测。这使得它们在解决复杂问题和应对新的场景时表现更加出色学习能力强大模型可以生成更自然、更流利的语言,减少了生成输出时呈现的错误或令人困惑的问题语言生成能力学习到的知识和能力可以在不同的任务和领域中迁移和应用。这意味着一次训练就可以将模型应用于多种任务,无需重新训练可迁移性高6.1.1大模型的概念小模型通常指参数较少、层数较浅的模型,它们具有轻量级、高效率、易于部署等优点,适用于数据量较小、计算资源有限的场景,例如移动端应用、嵌入式设备、物联网等6.1.2大模型与小模型的区别而当模型的训练数据和参数不断扩大,直到达到一定的临界规模后,其表现出了一些未能预测的、更复杂的能力和特性,模型能够从原始训练数据中自动学习并发现新的、更高层次的特征和模式,这种能力被称为“涌现能力”。而具备涌现能力的机器学习模型就被认为是独立意义上的大模型,这也是其和小模型最大意义上的区别相比于小模型,大模型通常参数较多、层数较深,具有更强的表达能力和更高的准确度,但也需要更多的计算资源和时间来训练和推理,适用于数据量较大、计算资源充足的场景,例如云端计算、高性能计算、人工智能等6.1.2大模型与小模型的区别大模型发展历经三个阶段,分别是萌芽期、沉淀期和爆发期6.1.3大模型的发展历程萌芽期(1950-2005)这是一个以CNN(ConvolutionalNeuralNetworks,卷积神经网络)为代表的传统神经网络模型阶段1956年,从计算机专家约翰·麦卡锡提出“人工智能”概念开始,AI发展由最开始基于小规模专家知识逐步发展为基于机器学习1980年,卷积神经网络的雏形CNN诞生1998年,现代卷积神经网络的基本结构LeNet-5诞生,机器学习方法由早期基于浅层机器学习的模型,变为了基于深度学习的模型,为自然语言生成、计算机视觉等领域的深入研究奠定了基础,对后续深度学习框架的迭代及大模型发展具有开创性的意义6.1.3大模型的发展历程沉淀期(2006-2019)这是一个以Transformer为代表的全新神经网络模型阶段2013年,自然语言处理模型Word2Vec诞生,首次提出将单词转换为向量的“词向量模型”,以便计算机更好地理解和处理文本数据。2014年,被誉为21世纪最强大算法模型之一的GAN(GenerativeAdversarialNetworks,对抗式生成网络)诞生,标志着深度学习进入了生成模型研究的新阶段2017年,Google颠覆性地提出了基于自注意力机制的神经网络结构——Transformer架构,奠定了大模型预训练算法架构的基础2018年,OpenAI基于Transformer架构发布了GPT-1大模型,意味着预训练大模型成为自然语言处理领域的主流,其中,GPT的英文全称是GenerativePre-TrainedTransformer,是一种基于互联网的、可用数据来训练的、文本生成的深度学习模型2019年,OpenAI发布了GPT-26.1.3大模型的发展历程爆发期(2020-至今)这是一个以GPT为代表的预训练大模型阶段2020年6月,OpenAI公司推出了GPT-3,模型参数规模达到了1750亿,成为当时最大的语言模型,并且在零样本学习任务上实现了巨大性能提升。随后,更多策略如基于人类反馈的强化学习(RLHF,ReinforcementLearningfromHumanFeedback)、代码预训练、指令微调等开始出现,被用于进一步提高推理能力和任务泛化2022年11月,搭载了GPT3.5的ChatGPT(ChatGenerativePre-trainedTransformer)横空出世,凭借逼真的自然语言交互与多场景内容生成能力,迅速引爆互联网,在全球范围内引起轰动,使得大模型的概念迅速进入普通大众的视野。ChatGPT是人工智能技术驱动的自然语言处理工具,它能够通过理解和学习人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码,写论文等任务6.1.3大模型的发展历程爆发期(2020-至今)6.1.3大模型的发展历程OpenAI在2023年3月发布了GPT-4,它是一个多模态大模型(接受图像和文本输入,生成文本)。相比上一代的GPT-3,GPT-4可以更准确地解决难题,具有更广泛的常识和解决问题的能力。2023年12月,谷歌发布大模型Gemini,它可以同时识别文本、图像、音频、视频和代码五种类型信息,还可以理解并生成主流编程语言(如Python、Java、C++)的高质量代码,并拥有全面的安全性评估。2024年12月26日,我国的DeepSeek震撼全球,成为全球人工智能发展历史上的一个标志性事件人工智能包含了机器学习,机器学习包含了深度学习,深度学习可以采用不同的模型,其中一种模型是预训练模型,预训练模型包含了预训练大模型(可以简称为“大模型”),预训练大模型包含了预训练大语言模型(可以简称为“大语言模型”),预训练大语言模型的典型代表包括OpenAI的GPT和百度的文心ERNIE,ChatGPT是基于GPT开发的大模型产品,文心一言是基于文心ERNIE开发的大模型产品6.1.4人工智能与大模型的关系人工智能和大模型是相互关联的。人工智能是研究和开发使机器能够模仿人类智能行为的技术和方法的学科,包括机器学习、自然语言处理、计算机视觉等。而大模型则是指训练过程中使用了大量数据和参数的模型,这些模型包含了大量的知识和规则,能够更好地模拟人类智能行为为了提高人工智能系统的性能,研究者们不断尝试使用更大的模型来提高准确率和效果。例如,近年来非常热门的Transformer模型,就是一种大模型,它在自然语言处理领域取得了很多突破性进展。大模型的使用能够帮助人工智能系统更好地理解语义、提高处理能力和决策准确性人工智能的发展也推动了大模型的发展大模型的出现,使得人工智能技术得到了更广泛的应用。在许多领域,如自然语言处理、图像识别、语音识别等,大模型都能够提供更准确、更高效的处理能力。例如,在自然语言处理领域,大模型可以通过学习大量的文本数据,自动提取出文本中的语义信息,从而实现对文本的自动分类、情感分析、问答等任务。随着数据量的不断增加和计算能力的不断提升,大模型能够处理的数据量和处理速度也在不断提升。这使得人工智能技术能够更好地应对各种复杂的问题和挑战,进一步推动了人工智能技术的发展大模型是人工智能技术发展的重要推动力6.1.4人工智能与大模型的关系大模型在人工智能领域的重要性大模型的展示可以让更多的人了解人工智能技术的潜力和影响力,从而增加公众对人工智能技术的信任和支持。这也可以为人工智能行业争取更多的政策支持和资源投入增加公众对人工智能技术的信任和支持大模型作为人工智能技术的重要组成部分,展示了人工智能技术的最新进展和趋势。这些新技术和模型的应用场景可能会更加广泛,效果也可能会更好,从而推动人工智能技术的进步推动人工智能技术的进步大模型能够使用大量的数据和强大的计算资源,学习到数据中的复杂特征和规律,从而在各种任务中表现出色。这使得人工智能技术在各个领域的应用效果得到了显著的提升提升人工智能的应用效果大模型的展示能够吸引更多的投资者和用户关注人工智能行业,从而加速行业的发展。同时,大模型也可以促进人工智能领域的交流和合作,从而推动整个行业的发展促进人工智能行业的发展6.1.5大模型在人工智能领域的重要性02大模型产品ParttwoChatGPTChatGPT是一种由OpenAI训练的大语言模型。它是基于Transformer架构,经过大量文本数据训练而成,能够生成自然、流畅的语言,并具备回答问题、生成文本、语言翻译等多种功能ChatGPT的应用范围广泛,可以用于客服、问答系统、对话生成、文本生成等领域。它能够理解人类语言,并能够回答各种问题,提供相关的知识和信息。与其他聊天机器人相比,ChatGPT具备更强的语言理解和生成能力,能够更自然地与人类交流,并且能够更好地适应不同的领域和场景。ChatGPT的训练数据来自互联网上的大量文本,因此,它能够涵盖多种语言风格和文化背景6.2.1国外的大模型产品GeminiGemini是谷歌发布的大模型,它能够同时处理多种类型的数据和任务,覆盖文本、图像、音频、视频等多个领域。Gemini采用了全新的架构,将多模态编码器和多模态解码器两个主要组件结合在一起,以提供最佳结果Gemini包括三种不同规模的模型:GeminiUltra、GeminiPro和GeminiNano,适用于不同任务和设备。2023年12月6日,Gemini的初始版本已在Bard中提供,开发人员版本可通过GoogleCloud的API获得。Gemini可以应用于Bard和Pixel8Pro智能手机。Gemini的应用范围广泛,包括问题回答、摘要生成、翻译、字幕生成、情感分析等任务。然而,由于其复杂性和黑箱性质,Gemini的可解释性仍然是一个挑战6.2.1国外的大模型产品Sora2024年2月16日,OpenAI再次震撼全球科技界,发布了名为Sora的文本生成视频大模型,只需输入文本就能自动生成视频。这一技术的诞生,不仅标志着人工智能在视频生成领域的重大突破,更引发了关于人工智能发展对人类未来影响的深刻思考。随着Sora的发布,人工智能似乎正式踏入了通用人工智能(AGI:ArtificialGeneralIntelligence)的时代。AGI是指能够像人类一样进行各种智能活动的机器智能,包括理解语言、识别图像、进行复杂推理等。Sora大模型能够直接输出长达60秒的视频,并且视频中包含了高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。这种能力已经超越了简单的图像或文本生成,开始触及到视频这一更加复杂和动态的媒介。这意味着人工智能不仅在处理静态信息上越来越强大,而且在动态内容的创造上也展现出了惊人的潜力6.2.1国外的大模型产品Sora右图是Sora根据文本自动生成的视频画面,一位戴着墨镜、穿着皮衣的时尚女子走在雨后夜晚的东京市区街道上,抹了鲜艳唇彩的唇角微微翘起,即便带着墨镜也能看到她的微笑,地面的积水映出了她的身影和灯红酒绿的霓虹灯,热闹非凡的唐人街正在进行舞龙表演,熙熙攘攘的人群目光都聚焦在跃动的彩龙身上,整个环境的喜庆氛围仿佛令人身临其境6.2.1国外的大模型产品6.2.1国外的大模型产品OpenAIo32024年12月20日,OpenAI发布推理模型o3,无论在软件工程、编写代码,还是竞赛数学、掌握人类博士级别的自然科学知识能力方面,o3都达到了很高的水平6.2.1国外的大模型产品Grok4Grok4是马斯克旗下xAI团队于2025年7月10日发布的大模型,性能卓越,在人类最后考试(HLE)中纯文本模式准确率26.9%,启用工具后达41.0%,Grok4Heavy在“重思考”模式下更是达到58.3%,在ARC-AGI-2挑战赛中得分创纪录,AIME25美国数学邀请赛中Grok4Heavy获满分,智能指数73分,领先GPT-411分;它具备多智能体协同机制,面对问题可分裂出5-8个智能体,从不同视角推导,通过““思维链共享”交换推理路径,整合最优解法;其以最大化寻求真相为使命,面对敏感问题会呈现多方论证,推理附带信源溯源标签,结论不确定时会明确标注;该模型由20万张H100GPU训练而成,推理专项训练量较Grok2暴增100倍,可用于黑洞模拟、游戏开发、商业决策模拟、生物医药研发、法律文书生成等场景。6.2.1国外的大模型产品GPT-52025年8月8日,OpenAI发布了最新一代大模型GPT-5。OpenAI首席执行官奥特曼对GPT-5给出了极高评价,称其是“此前所有模型的巨大飞跃”。GPT-5最核心的亮点是,它并非单一的语言或者推理模型,而是整合了GPT系列(大语言模型)和o系列(推理模型),具备调度子模型的能力,这意味着用户在使用时不再需要手动切换各类不同的模型。据OpenAI公开的测试数据,GPT-5在数学、编程、视觉感知和健康等领域,都表现出了顶尖性能,全部大幅度超越前代,成为目前最强大模型。6.2.2国内的大模型产品大模型图标指标排名DeepSeek
能力测评第一豆包
用户数量第一Kimi
文本处理第一即梦AI
作图能力第一通义万相
视频生成第一智谱清言
文档归纳第一2025年1月国内大模型排行榜6.2.2国内的大模型产品DeepSeek(深度求索)2024年12月26日,杭州一家名为“深度求索”(DeepSeek)的中国初创公司,发布了全新一代大模型DeepSeek-V3。在多个基准测试中,DeepSeek-V3的性能均超越了其他开源模型,甚至与顶尖的闭源大模型GPT-4o不相上下,尤其在数学推理上,DeepSeek-V3更是遥遥领先。DeepSeek-V3以多项开创性技术,大幅提升了模型的性能和训练效率。DeepSeek-V3在性能比肩GPT-4o的同时,研发却只花了558万美元,训练成本不到后者的二十分之一。因为表现太过优越,DeepSeek在硅谷被誉为“来自东方的神秘力量”。2025年1月20日,DeepSeek-R1正式发布,拥有卓越的性能,在数学、代码和推理任务上可与OpenAIo1媲美。DeepSeek创始人梁文峰通义千问通义千问是阿里云推出的一个超大规模的语言模型,它具备多轮对话、文案创作、逻辑推理、多模态理解、多语言支持的能力。通义千问这个名字有“通义”和“千问”两层含义,“通义”表示这个模型能够理解各种语言的含义,“千问”则表示这个模型能够回答各种问题。通义千问基于深度学习技术,通过对大量文本数据进行训练,从而具备了强大的语言理解和生成能力。它能够理解自然语言,并能够生成自然语言文本同时,通义千问还具备多模态理解能力,能够处理图像、音频等多种类型的数据。通义千问的应用范围非常广泛,可以应用于智能客服、智能家居、移动应用等多个领域。它可以与用户进行自然语言交互,帮助用户解决各种问题,提供相关的知识和信息。同时,通义千问还可以与各种设备和应用进行集成,为用户提供更加便捷的服务6.2.2国内的大模型产品6.2.2国内的大模型产品字节跳动豆包豆包是字节跳动基于云雀模型开发的AI,能理解你的需求并生成高质量回应。它知识储备丰富,涵盖历史、科学、技术等众多领域,无论是日常问题咨询,还是深入学术探讨,都能提供准确全面的信息。同时,具备出色的文本创作能力,能撰写故事、诗歌、文案等各类体裁。并且擅长语言交互,交流自然流畅,就像身边的知心伙伴,耐心倾听并给予恰当反馈。KimiKimi是月之暗面科技2023年推出的AI助手,可处理200万字超长文本,支持多格式文件解读、互联网信息搜索整合、多语言对话等,能用于办公、学习、创作等场景,有网页版、APP、微信小程序等使用方式文心一言文心一言是由百度研发的知识增强大模型,能够与人对话互动、回答问题、协助创作,高效便捷地帮助人们获取信息、知识和灵感文心一言基于飞桨深度学习平台和文心知识增强大模型,持续从海量数据和大规模知识中融合学习,具备知识增强、检索增强和对话增强的技术特色文心一言具有广泛的应用场景,例如智能客服、智能家居、移动应用等领域。它可以与用户进行自然语言交互,帮助用户解决各种问题,提供相关的知识和信息文心一言还可以与各种设备和应用进行集成,例如智能音箱、手机APP等,为用户提供更加便捷的服务。文心一言在深度学习领域有着重要的地位,它代表了人工智能技术的前沿水平,是百度在人工智能领域持续投入和创新的成果。文心一言的推出,不仅将为用户提供更加智能化和高效的服务,也将为人工智能行业的发展注入新的动力6.2.2国内的大模型产品讯飞星火认知大模型讯飞星火认知大模型是科大讯飞发布的一款强大的人工智能模型。它具有多种核心能力,包括文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力以及多模态能力。这些能力使得讯飞星火认知大模型能够处理各种复杂的语言任务,并为用户提供准确、高效的服务讯飞星火认知大模型采用了先进的技术和算法,能够快速地处理大量的数据,并从中提取有用的信息。这使得它能够更好地理解和处理复杂的语言信息,提高人机交互的效率和准确性数据收集和处理讯飞星火认知大模型已经被广泛应用于多个领域,如自然语言处理、计算机视觉、智能客服等。通过与各领域的专业知识和经验相结合,讯飞星火认知大模型能够提供更加精准和个性化的服务,提高各行各业的工作效率和质量应用6.2.2国内的大模型产品讯飞星火认知大模型讯飞星火认知大模型还注重可解释性和公平性。通过改进算法和技术,它能够提供更加清晰和准确的决策依据,减少偏见和不公平现象。同时,它还具备强大的自适应学习能力,能够不断适应新的任务和环境,提高自身的性能和表现6.2.2国内的大模型产品腾讯混元大模型腾讯混元大模型是由腾讯全链路自研的通用大语言模型,具备强大的中文创作能力、复杂语境下的逻辑推理能力以及可靠的任务执行能力具备上下文理解和长文记忆能力,流畅完成各专业领域的多轮问答01支持文学创作、文本概要和角色扮演02准确理解用户意图,基于输入数据或信息进行推理、分析03有效解决事实性、时效性问题,提升内容生成效果04多轮对话内容创作逻辑推理知识增强6.2.2国内的大模型产品华为盘古大模型华为盘古大模型是华为云推出的一个大语言模型,旨在提供更加智能化、高效化的语言交互体验。它基于深度学习技术,通过对大量文本数据进行训练,从而具备了强大的语言理解和生成能力。华为盘古大模型采用了先进的架构和技术,包括Transformer、BERT等模型架构以及注意力机制、自注意力机制等先进的神经网络技术它还采用了多模态学习技术,能够处理文本、图像、音频等多种类型的数据。这使得它能够更好地理解和处理复杂的语言信息,提高人机交互的效率和准确性华为盘古大模型的应用范围非常广泛,可以应用于智能客服、智能家居、移动应用等多个领域。它可以与用户进行自然语言交互,帮助用户解决各种问题,提供相关的知识和信息。同时,它还可以与各种设备和应用进行集成,为用户提供更加便捷的服务6.2.2国内的大模型产品6.2.3中美两国在大模型领域的竞争美国处于领先优势,并遏制中国发展。大模型的多项关键技术,比如Transformer架构、强化学习从人类反馈(RLHF)等,多源于美国实验室。GPU是大模型训练最重要的硬件设施,大模型的出现,就是堆叠大量GPU算力以后“大力出奇迹”的结果。而美国在GPU制造领域,拥有着显著的垄断优势01中国正在加速追赶,努力突破美国封锁。我国GPU近年来取得显著进展,华为、景嘉微、沐曦、摩尔线程等企业不断发力,已实现国产替代的重要突破,可满足部分对图形处理有较高要求的应用场景0203大模型的基本原理Partthree大模型是基于Transformer架构的,这种架构是一种专门用于自然语言处理的“编码-解码器”架构。在训练过程中,大模型将输入的单词以向量的形式传递给神经网络,然后通过网络的编码解码以及自注意力机制,建立起每个单词之间联系的权重。大模型的核心能力在于将输入的每句话中的每个单词与已经编码在模型中的单词进行相关性的计算,并把相关性又编码叠加在每个单词中。这样,大模型能够更好地理解和生成自然文本,同时还能够表现出一定的逻辑思维和推理能力大模型基于深度学习利用大量的数据和计算资源训练具有大量参数的神经网络模型不断地调整模型参数模型能够在各种任务中取得最佳表现6.3.1原理概述大模型的学习主要依赖于大量的文本数据。这些数据可以来自互联网、书籍、文章等各种来源。通过对这些数据进行训练,大模型能够学习到自然语言的统计规律和模式数据驱动大模型通常使用深度学习中的神经网络,尤其是Transformer结构。这种结构特别适合于处理序列数据(比如文本)。神经网络由多层的神经元组成,每一层都会对数据进行一定的转换和处理神经网络在Transformer架构中,编码器和解码器是两个核心组件。编码器负责将输入的文本转换为一种内部表示,而解码器则负责将这种内部表示转换回文本编码-解码过程这是Transformer的一个关键特性,允许模型在处理文本时考虑到每个单词与其他单词的关系。通过计算每个单词与其他所有单词的关联度,模型能够捕捉到文本中的复杂依赖关系自注意力机制大模型的训练通常使用梯度下降等优化算法。在训练过程中,模型会不断地调整其内部的参数,以最小化预测结果与实际结果之间的差异训练和优化一旦训练完成,大模型就能够对新的、未见过的文本进行理解和生成。这种能力使得大模型在各种自然语言处理任务中表现出色,如机器翻译、文本摘要、问答系统等泛化能力6.3.1原理概述6.3.2大模型训练的实例演示“厦门大学是一所具有光荣传统的大学”会被切分成8个Token,即“厦门”、“大学”、“是”、“一所”、“具有”、“光荣”、“传统”、“的”、“大学”。大模型是无法识别文本类型的数据的,它只能识别数值型数据(比如1,2,3,0.3,0.9等)。因此,需要采用“词向量化”技术把单词转化为向量。一维向量[2],二维向量[0.1,8],三维向量[2,0.4,9]“厦门”被转化成向量[0.3,8,2.5],“大学”被转化成向量[2,1.3,7]。这种转化的数学本质就是,把每个单词都映射到一个三维数学空间中目前的主流大模型中,每个Token都是被映射到1000维以上的高维空间中6.3.2大模型训练的实例演示04大模型的特点Partfour(1)巨大的规模大模型通常包含数十亿个参数,模型大小可以达到数百GB甚至更大。这种巨大的规模不仅提供了强大的表达能力和学习能力,还使得大模型在处理复杂任务时具有更高的效率和准确性6.4大模型的特点(2)涌现能力涌现能力是指模型在训练过程中突然展现出之前小模型所没有的、更深层次的复杂特性和能力。当模型的训练数据突破一定规模时,模型能够综合分析和解决更深层次的问题,展现出类似人类的思维和智能。这种涌现能力是大模型最显著的特点之一,也是其超越传统模型的关键所在大模型的涌现能力源于其巨大的规模和复杂的结构。这些模型包含数亿甚至数十亿个参数,能够捕捉到数据中的复杂模式和关系。在训练过程中,大模型通过不断优化参数,逐渐形成了一种高度协调和自适应的结构,从而产生了意想不到的特性和能力。这种涌现能力使得大模型在处理复杂任务时具有更高的效率和准确性。它们能够更好地理解和模拟现实世界中的各种复杂现象,并从中提取出更深层次的知识和规律。这种能力使得大模型在自然语言处理、图像识别、语音识别等领域中展现出了卓越的性能6.4大模型的特点(3)更好的性能和泛化能力大模型因其巨大的规模和复杂的结构,展现出更出色的性能和泛化能力。它们在各种任务上都能表现出色,超越了传统的小模型。这主要归功于大模型的参数规模和学习能力。大模型能够更好地理解和模拟现实世界中的复杂现象,从而在各种任务中表现出更高的准确性和效率。它们能够捕捉到数据中的微妙差异和复杂模式,使得在未见过的数据上也能表现优秀,即具有良好的泛化能力(4)多任务学习大模型的多任务学习特点使其能够同时处理多种不同的任务,并从中学习到更广泛和泛化的语言理解能力。通过多任务学习,大模型可以在不同的NLP(NaturalLanguageProcessing)任务中进行训练,例如机器翻译、文本摘要、问答系统等。这种多任务学习的方式有助于大模型更好地理解和应用语言的规则和模式在多任务学习中,大模型可以共享参数和知识,使其在不同的任务之间建立联系,提高模型的泛化能力。通过多任务学习,大模型能够从多个领域的数据中学习知识,并在不同领域中进行应用。这有助于促进跨领域的创新,使得大模型在自然语言处理、图像识别、语音识别等领域中展现出卓越的性能6.4大模型的特点(5)大数据训练大模型需要大规模的数据来训练,通常在TB级别甚至PB级别。这是因为大模型拥有数亿甚至数十亿的参数,需要大量的数据来提供足够的信息供模型学习和优化。只有大规模的数据才能让大模型的参数规模发挥优势,提高模型的泛化能力和性能。同时,大数据训练也是保证大模型能够处理复杂任务的关键。通过使用大规模数据,大模型能够更好地理解数据中的复杂模式和关系,从而更好地模拟现实世界中的各种现象(6)强大的计算资源大模型需要强大的计算资源来训练和运行。由于模型规模庞大,参数数量众多,计算复杂度极高,因此需要高性能的硬件设备来支持。通常,训练大模型需要使用GPU(GraphicsProcessingUnit,图形处理器)或TPU(TensorProcessingUnit,张量处理器)等专用加速器来提高计算效率。这些加速器能够并行处理大量的参数和数据,使得大模型的训练和推断速度更快。除了硬件设备,大模型的训练还需要大量的时间。由于模型参数众多,训练过程中需要进行大量的迭代和优化,因此,训练周期可能长达数周甚至数月6.4大模型的特点(7)迁移学习和预训练通过在大规模数据上进行预训练,大模型能够学习到丰富的语言知识和模式,从而在各种任务上展现出卓越的性能。迁移学习和预训练有助于大模型更好地适应特定任务在大规模数据上进行预训练后,大模型可以在特定任务的数据上进行微调,从而更好地适应目标任务的特性和要求。这种微调过程可以帮助大模型更好地理解和处理目标任务的特定问题,进一步提高模型的性能在特定任务的数据上进行微调迁移学习和预训练也有助于大模型实现跨领域的应用。通过在多个领域的数据上进行预训练,大模型可以学习到不同领域的知识和模式,并在不同领域中进行应用。这种跨领域的应用能力,有助于大模型更好地服务于实际需求,推动人工智能技术的创新和发展跨领域的应用能力6.4大模型的特点(8)自监督学习自监督学习利用大规模未标记数据进行训练,通过从数据中挖掘内在的规律和模式,使模型能够自动地理解和预测数据中的信息。在大规模的未标记数据中,大模型通过预测输入数据的标签或下一个时刻的状态来进行训练。这种训练方式使得大模型能够从大量的数据中自动地学习到语言的内在结构和模式,而不需要人工标注和干预自监督学习使得大模型能够更好地适应大规模未标记数据的处理,减少了对于人工标注的依赖,提高了训练的效率和泛化能力。同时,自监督学习也使得大模型能够更好地捕捉数据的内在结构和模式,进一步提高模型在处理复杂任务时的性能和准确性6.4大模型的特点(9)领域知识融合大模型通过领域知识融合,能够将不同领域的数据和知识融合在一起,从而更好地模拟现实世界中的复杂现象领域知识融合使得大模型能够从多个领域中学习到广泛的知识和模式,并将这些知识和模式整合到统一的框架中通过领域知识融合,大模型能够更好地理解不同领域之间的联系和共同规律,从而更好地处理复杂任务。这种能力有助于大模型在不同领域之间进行知识迁移和应用,促进跨领域的创新和发展6.4大模型的特点(10)自动化和效率大模型在应用中展现出高度的自动化和效率。由于大模型具有强大的表达能力和学习能力,它可以自动化许多复杂的任务,大大提高工作效率。大模型通过预训练和微调过程,能够自动地适应特定任务,而不需要过多的手工调整和干预。这使得大模型能够快速地应用于各种实际场景,并且自动地处理复杂的任务,如自动编程、自动翻译、自动摘要等大模型的自动化和效率还体现在其对大规模数据的处理能力上。大模型能够高效地处理TB级别甚至PB级别的数据,从中自动地提取出有用的信息和知识。这种高效的数据处理能力使得大模型在处理大规模数据时具有显著的优势,提高了数据处理和分析的效率6.4大模型的特点05大模型的分类Partfive语言大模型视觉大模型多模态大模型是指在自然语言处理(NaturalLanguageProcessing,NLP)领域中的一类大模型,通常用于处理文本数据和理解自然语言。这类大模型的主要特点是它们在大规模语料库上进行了训练,以学习自然语言的各种语法、语义和语境规则。代表性产品包括GPT系列(OpenAI)、Bard(Google)、文心一言(百度)等是指在计算机视觉(ComputerVision,CV)领域中使用的大模型,通常用于图像处理和分析。这类模型通过在大规模图像数据上进行训练,可以实现各种视觉任务,如图像分类、目标检测、图像分割、姿态估计、人脸识别等。代表性产品包括VIT系列(Google)、文心UFO、华为盘古CV、INTERN(商汤)等是指能够处理多种不同类型数据的大模型,例如文本、图像、音频等多模态数据。这类模型结合了NLP和CV的能力,以实现对多模态信息的综合理解和分析,从而能够更全面地理解和处理复杂的数据。代表性产品包括DingoDB多模向量数据库(九章云极DataCanvas)、DALL-E(OpenAI)、悟空画画(华为)、midjourney等6.5.1按照输入数据类型划分按照应用领域的不同,大模型主要可以分为L0、L1、L2三个层级是指可以在多个领域和任务上通用的大模型。它们利用大算力、使用海量的开放数据与具有巨量参数的深度学习算法,在大规模无标注数据上进行训练,以寻找特征并发现规律,进而形成可“举一反三”的强大泛化能力,可在不进行微调或少量微调的情况下完成多场景任务,相当于AI完成了“通识教育”通用大模型L0是指那些针对特定行业或领域的大模型。它们通常使用行业相关的数据进行预训练或微调,以提高在该领域的性能和准确度,相当于AI成为“行业专家”行业大模型L1是指那些针对特定任务或场景的大模型。它们通常使用任务相关的数据进行预训练或微调,以提高在该任务上的性能和效果垂直大模型L26.5.2按照应用领域划分6.5.3大语言模型的分类大语言模型分为:通用大模型和推理大模型,二者不是彼此取代关系如果你需要完成数据分析、逻辑推理、代码生成等逻辑性较强且较为复杂的任务,请选择推理大模型如果你面临创意写作、文本生成、意图识别等发散性较强且较为创意多样的任务,请选择通用大模型特性推理大模型通用大模型适用场景复杂推理、解谜、数学、编码难题文本生成、翻译、摘要、基础知识问答复杂问题解决能力优秀,能进行深度思考和逻辑推理一般,难以处理多步骤的复杂问题运算效率较低,推理时间较长,资源消耗大较高,响应速度快,资源消耗相对较小幻觉风险较高,可能出现“过度思考”导致的错误答案较低,更依赖于已知的知识和模式泛化能力更强,能更好地适应新问题和未知场景相对较弱,更依赖于训练数据擅长任务举例解决复杂逻辑谜题,编写复杂算法,数学证明撰写新闻稿,翻译文章,生成产品描述,回答常识问题成本通常更高通常更低06大模型训练的硬件设施Partsix6.6大模型训练的硬件设施存储设备大容量硬盘固态硬盘分布式存储系统网络设备高速网络交换机光传输设备03服务器高性能服务器服务器集群02计算芯片GPU、TPU、ASIC010407大模型的成本Partseven大模型的成本涉及到多个方面,包括硬件设备、软件许可、数据收集和处理、人力资源以及运营和维护等(1)硬件设备成本大模型的训练和推理需要大量的计算资源,包括高性能的计算机、服务器、存储设备等。这些硬件设备的购置和维护成本通常较高。为了满足大模型的计算需求,需要购买或租赁大量的服务器和存储设备,并进行相应的硬件升级和维护GPT-3训练一次的成本约为140万美元,对于一些更大的大模型,训练成本更高,GPT-4的一次训练成本约为6300万美元。以ChatGPT在2023年1月的独立访客平均数1300万计算,其对应芯片需求为3万多片英伟达A100GPU,初始投入成本约为8亿美元,每日电费在5万美元左右6.7大模型的成本软件许可成本大模型的训练和推理通常需要使用特定的软件和框架,如TensorFlow、PyTorch等。这些软件通常需要购买许可证或订阅服务,这也会增加大模型的训练成本数据收集和处理成本大模型的训练需要大量的标记数据。数据的收集、清洗、标注和处理都需要投入大量的人力、物力和时间成本。此外,为了确保数据的准确性和有效性,还需要进行数据验证和校验,这也增加了数据处理的成本人力资源成本大模型的训练和推理需要专业的团队进行维护和优化。这包括数据科学家、机器学习工程师、运维人员等。这些人员需要具备专业的技能和经验,因此,人力资源成本也是大模型成本的重要组成部分运营和维护成本大模型的运营和维护也需要投入成本。这包括模型的部署、监控、调优、更新等。为了确保模型的稳定性和性能,需要进行持续的维护和优化,这也增加了运营和维护的成本6.7大模型的成本08大模型的应用领域Parteight大模型的应用领域非常广泛,涵盖了自然语言处理、计算机视觉、语音识别、推荐系统、医疗健康、金融风控、工业制造、生物信息学、自动驾驶、气候研究等多个领域(1)自然语言处理大模型在自然语言处理领域具有重要的应用,可以用于文本生成(如文章、小说、新闻等的创作)、翻译系统(能够实现高质量的跨语言翻译)、问答系统(能够回答用户提出的问题)、情感分析(用于判断文本中的情感倾向)、语言生成(如聊天机器人)等(2)计算机视觉大模型在计算机视觉领域也有广泛应用,可以用于图像分类(识别图像中的物体和场景)、目标检测(能够定位并识别图像中的特定物体)、图像生成(如风格迁移、图像超分辨率增强)、人脸识别(用于安全验证和身份识别)、医学影像分析(辅助医生诊断疾病)等6.8大模型的应用领域(3)语音识别大模型在语音识别领域也有应用,如语音识别、语音合成等。通过学习大量的语音数据,大模型可以实现高质量的跨语言翻译和语音识别以及生成自然语音(4)推荐系统大模型可以用于个性化推荐、广告推荐等任务。通过分析用户的历史行为和兴趣偏好,大模型可以为用户提供个性化的推荐服务,提高用户满意度和转化率6.8大模型的应用领域大模型可以用于自动驾驶中的感知、决策等任务。通过学习大量的驾驶数据,大模型可以实现对车辆周围环境的感知和识别,以及进行决策和控制,提高自动驾驶的安全性和效率自动驾驶大模型可以用于医疗影像诊断、疾病预测等任务。通过学习大量的医学影像数据,大模型可以辅助医生进行疾病诊断和治疗方案制定,提高医疗水平和效率医疗健康大模型可以用于信用评估、欺诈检测等任务。通过分析大量的金融数据,大模型可以评估用户的信用等级和风险水平,以及检测欺诈行为,提高金融系统的安全性和稳定性金融风控6.8大模型的应用领域工业制造大模型可以用于质量控制、故障诊断等任务。通过学习大量的工业制造数据,大模型可以辅助工程师进行产品质量控制和故障诊断,提高生产效率和产品质量气候研究在气候研究领域,大模型可以处理气象数据,进行天气预测和气候模拟。它们能够分析复杂的气象现象,提供准确的气象预报,帮助人们做出应对气候变化的决策生物信息学在生物信息学领域,大模型可以用于基因序列分析(识别基因中的功能元件和变异位点)、蛋白质结构预测(推测蛋白质的二级和三级结构)、药物研发(预测分子与靶点的相互作用)等6.8大模型的应用领域09大模型对人们工作和生活的影响Partnine提高工作效率大模型在自然语言处理、机器翻译等领域的应用,使得人们能够快速、准确地处理大量文本数据,提高工作效率。例如,在翻译领域,大模型能够自动翻译多种语言,减少人工翻译的时间和成本,提高翻译效率优化决策过程大模型能够收集、整理和分析大量的数据,通过数据挖掘和机器学习技术,帮助人们更准确地了解问题现状,预测未来趋势,从而做出更明智的决策自动化部分工作大模型的发展使得一些繁琐、重复的工作可以由机器来完成,从而减轻了人们的工作负担。例如,在金融领域,大模型可以自动分析大量的金融数据,帮助人们做出更准确的决策创造新的就业机会随着大模型的普及和应用,将创造出许多新的就业机会。例如,需要更多的人来开发和维护大模型,也需要更多的人来利用大模型进行各种应用开发6.9.1
大模型对工作的影响大模型在智能家居、智能客服等领域的应用,使得人们的生活更加便利、舒适。例如,通过智能家居系统,人们可以通过语音指令控制家电,实现智能化生活改善生活质量大模型在教育领域的应用,可以帮助人们更高效地学习新知识。例如,通过大模型的智能推荐功能,人们可以根据自己的兴趣和需求,获取更加个性化的学习资源提高学习效率大模型在娱乐领域的应用,可以提供更加丰富、多样的娱乐体验。例如,通过大模型的语音识别功能,人们可以通过语音指令控制游戏,实现更加智能化的游戏体验增强娱乐体验6.9.2大模型对生活的影响10大模型的挑战与未来发展Partten大模型在人工智能领域的应用带来了显著的进步和便利,但同时也面临着一些挑战可解释性训练时间和数据量资源消耗数据隐私和安全模型泛化能力公平性和偏见大模型的挑战6.10.1大模型的挑战(1)资源消耗大模型通常需要大量的计算资源和存储空间。训练大模型需要高性能的计算机集群以及大量的存储空间,来存储训练过程中的数据和模型参数。这使得大模型的训练和部署成本较高,限制了其在一些资源有限的环境中的应用。此外,大模型训练和使用过程也带来了大量水资源的消耗,以ChatGPT为例,一个用户和ChatGPT聊天可能会消耗500毫升的水。大模型需要大量的计算能力和数据处理,这会涉及到庞大的机房、服务器和数据中心,而这些机房和服务器需要进行冷却来保持正常运行,而冷却又需要大量的水资源。这个过程中,水通过散热器冷却这些设备,带走了设备工作时产生的热量,以保证设备的正常运行(2)训练时间和数据量大模型的训练需要大量的时间和数据。通常,训练一个大型神经网络需要数周甚至数月的时间,这取决于模型的复杂度、计算能力和可用数据量。此外,为了获得更好的性能,大模型通常需要大量的标记数据来训练。这不仅增加了训练成本,还限制了其在缺乏足够数据的环境中的应用6.10.1大模型的挑战大模型的训练和使用,可能引入公平性和偏见问题。如果训练数据中存在偏见或不公平因素,那么,模型的输出也可能受到这些因素的影响。这可能导致不公平的决策或偏见的结果。因此,在大模型的训练和使用过程中,需要考虑公平性和偏见问题,并采取相应的措施来减少这些影响公平性和偏见大模型的复杂性和黑箱性质,使得其决策和预测的依据难以解释。这使得在某些领域,如医疗、金融等,大模型的应用受到限制。人们往往需要知道模型做出决策的原因,而不仅仅是结果。因此,提高大模型的可解释性是一个重要的挑战可解释性在训练和使用大模型的过程中,需要处理大量的个人数据。如何保证数据的安全和隐私是一个重要的挑战。一旦数据泄露或被滥用,将对个人隐私和企业声誉造成严重损害。因此,在大模型的训练和使用过程中,需要采取严格的数据保护措施,确保数据的安全和隐私数据隐私和安全尽管大模型在特定任务上表现出色,但其泛化能力仍然是一个挑战。在某些情况下,大模型可能过于复杂,导致过拟合,即过度拟合训练数据,而无法泛化到新数据。此外,当任务发生变化时,大模型可能需要重新训练或调整参数,这增加了其应用和维护的成本模型泛化能力6.10.1大模型的挑战大模型是个概率模型,用它生成的内容具有不确定性。大模型幻觉,用一种形象的说法就是“大模型一本正经的胡说八道”,准确地说,是指大模型生成的内容与现实世界事实或用户输入不一致的现象。目前研究人员也在积极研究消除大模型幻觉的相关技术,比如,检索增强生成(Retrieval-augmentedGeneration),简称RAG,就是当下热门的大模型前沿技术之一大模型幻觉6.10.1大模型的挑战大模型将继续在自然语言处理、计算机视觉等领域发挥重要作用。随着数据量的不断增加和计算能力的提升,大模型将能够更好地理解和处理复杂的语言和图像信息,提高人机交互的效率和准确性大模型将在医疗、金融、教育等更多领域得到应用。通过与各领域的专业知识和经验相结合,大模型将能够提供更加精准和个性化的服务,提高各行各业的工作效率和质量随着技术的不断进步,大模型将更加注重可解释性和公平性。通过改进算法和技术,大模型将能够提供更加清晰和准确的决策依据,减少偏见和不公平现象随着云计算、边缘计算等技术的发展,大模型的训练和推理将更加高效和便捷。这些技术将使得大模型能够在更多设备上运行,扩展其应用范围随着全球人工智能研究的不断深入和发展,大模型将成为人工智能领域的重要基石。它将与其他技术相结合,推动人工智能技术的不断创新和发展04050301026.10.2大模型的未来发展11实验1:在自己本地计算机上部署大模型Parteleven6.11.1为什么需要本地部署大模型离线与高效使用定制化与灵活性数据隐私与安全性成本与资源优化避免使用限制本地部署大模型6.11.2DeepSeekR1简介在DeepSeek出现之前,很多市场上的大模型产品都是“贵族”模型,“段位”很高,通常需要依赖高端的硬件,配置大量的GPU,普通个人计算机一般很难运行大模型012025年1月20日,我国杭州深度求索公司的DeepSeekR1大模型正式发布,它是一个基于深度学习的推荐系统模型,通常用于处理推荐任务,如商品推荐、内容推荐等。DeepseekR1的发布,标志着大模型产品的“平民”时代已经到来,它大大降低了对计算机硬件的要求,可以部署在普通的个人计算机上,甚至部署在手机等便携式设备中02DeepSeekR1可以满足用户的数据隐私需求,本地部署能将所有数据运算都限制在本地,数据不会上传至云端,可有效避免数据传输和存储在云端可能带来的隐私泄露风险,满足用户对数据安全和隐私保护的要求。DeepSeekR1还可以满足定制需求,用户可以根据自己的需求对模型进行自定义知识库训练,进一步提升模型在特定领域的性能036.11.3在本地计算机部署DeepSeekR1安装Ollama下载DeepSeekR1运行DeepSeekR1使用OpenWebUI增强交互体验具体安装过程请参考厦门大学数据库实验室博客/blog/5816/大模型是人工智能领域的重要研究方向,其强大的语言理解和生成能力使得它在自然语言处理、机器翻译、智能客服等领域有着广泛的应用。大模型的训练需要大量的数据和计算资源,同时也需要先进的技术和算法支持。随着技术的不断发展,大模型的应用场景也在不断扩展,未来将会更加广泛地应用于各个领域6.12
本章小结谢谢!林子雨副教授厦门大学人工智能通识——基础、技术、前沿、伦理与实践第7章智能体01智能体概述
目录02智能体和人工智能的关系03智能体的关键特征04智能体的分级05智能体的分类06智能体的组成07智能体的工作原理08智能体的关键技术09典型的智能体产品10基于大模型的智能体11AIAgent和AgenticAI的关系12智能体的未来发展01智能体概述
Partone7.1.1什么是智能体智能体(AIAgent),又称“人工智能代理”,是一种模仿人类智能行为的智能化系统,它就像是拥有丰富经验和知识的“智慧大脑”,能够感知所处的环境,并依据感知结果,自主地进行规划、决策,进而采取行动以达成特定目标。简单来说,智能体能够根据外部输入做出决策,并通过与环境的互动,不断优化自身行为。智能体非单纯软件或硬件,是宽泛概念,可为软件程序、机器人或其他系统,具自主性与智能性。特性:可自主感知、决策、行动,运行于计算机或服务器,通过网络交互,具灵活性与可扩展性。举例:智能推荐系统中能依用户反馈和行为数据调整推荐策略。软件形式智能体特性:常集成传感器、处理器、执行器等,可自主感知、决策并执行物理动作,具实体性与交互性。举例:自动驾驶汽车中可自主导航驾驶,提升交通安全性与效率。硬件形式智能体7.1.1什么是智能体软件形式的智能体与传统的软件程序不同,传统软件程序通常是按照预先设定的规则和指令执行任务,而智能体则具备一定的自主性、适应性、学习能力、智能行为和目标导向。与传统软件相比,智能体的核心差异体现在以下几个方面:智能体核心差异体现自主性01交互性增强06学习能力03适应性02智能行为展现04目标导向性057.1.2智能体的发展历程总体而言,智能体的发展主要经历了以下阶段:早期探索阶段机器学习兴起阶段深度学习突破阶段智能体爆发阶段多智能体协作阶段7.1.3智能体的应用智能体在多个领域发挥着关键作用,以下是一些典型应用场景:典型应用场景01机器人技术①工业机器人②服务机器人07教育02智能交通①自动驾驶汽车②交通管理系统06医疗领域①智能诊断系统②医疗机器人03游戏与娱乐①游戏AI②虚拟现实(VR)05金融领域①自动交易系统②风险评估04智能家居①语音助手②智能设备7.1.4智能体的优势智能体的优势主要体现在以下三个方面:智能体处理数据和执行任务高效,在数据分析领域,相比传统人工方式,能凭借强大计算能力和高效算法,快速处理海量数据,筛选关键信息,揭示潜在模式与趋势。高效性智能体通过机器学习与算法优化,提升决策和执行准确性,降低人为错误风险,在医疗诊断、工业生产质量检测等领域表现突出。准确性智能体能根据环境变化和用户反馈持续学习、调整策略,灵活应对多样场景与任务。如在智能交通管理中,实时调整信号灯时长;在智能家居中,深度学习用户习惯调控设备。自适应性02智能体和人工智能的关系Parttwo7.2智能体和人工智能的关系人工智能与智能体既关联又独立:旨在赋予机器类似人类的智能,如学习、推理等。它是宽泛领域,包含机器学习等多种技术与算法,应用广泛,涉及自动驾驶等多方面,核心是模仿人类智能行为,实现可能依赖智能体运作。人工智能能感知环境并通过行动影响环境,有物理或虚拟形态,有特定目标,通过决策达成,具备一定算计能力。虽可能基于人工智能构建,但也可能是遵循规则的系统,不必然依赖人工智能。智能体人工智能是智能体行为的技术支撑,智能体利用其技术提升能力,可视为人工智能的应用实例,如语音识别技术、智能机器人等都是体现二者关系7.2智能体和人工智能的关系总体而言,人工智能是一个关注如何模拟和增强智能的技术领域;而智能体则是能够感知并行动的实体,它可以是人工智能的应用实例,也可以独立于人工智能技术而运作。从交互、推理、调用、创新及组织等多个维度来看,人工智能与智能体之间存在着显著的差异,具体如下:交互调用创新组织推理03智能体的关键特征Partthree7.3智能体的关键特征智能体的关键特征主要包括以下几个方面:自主性感知能力决策能力执行能力适应能力目标导向性交互性04智能体的分级Partfour7.4智能体的分级智能体划分为6个级别,展现了智能体从简单规则执行到完全自主学习和适应的进化路径。每一层级都代表了AI能力的逐步增强,同时也扩展了其在实际应用中的潜力。具体如下:L1L0无人工智能使用基于规则的人工智能L2基于模仿学习与强化学习的人工智能L4L3基于大语言模型的人工智能自主学习与泛化能力的智能体L5具有个性与协作行为的智能体7.4智能体的分级
下表给出了智能体的不同级别对比,对比维度包括技术手段、性能、能力、关键特性、应用场景等。L0L1L2L3L4L5技术手段无AI,仅基于简单的规则和操作基于规则的AI与工具组合,完成简单的步骤序列通过监督学习和强化学习驱动,带有推理和决策能力基于大型语言模型(LLM),具备意图、行动、推理、决策、记忆与反思的能力基于LLM和工具,具备自我学习、泛化和推理能力,记忆与反思进一步增强基于LLM与多智能体协作的AI,具备超越人类的推理、记忆、反思、自主学习和决策能力,情感、个性与协作能力也进一步发展性能无AI,无法执行智能行为等同于未具备技能的初级人类等同于具备50%技能的成年人等同于具备90%技能的成年人等同于99%技能的成年人,接近人类顶尖专家的水平超越100%技能的成年人,展现出超人类智能能力无AI能力,仅执行预定义的规则和操作仅能执行按照明确步骤设定的任务能够在用户定义的任务范围内进行推理和执行决策具备自动化任务的战略能力,可以通过工具自动规划任务并根据反馈调整执行步骤能够通过上下文感知,提供高度个性化的服务,主动满足用户需求具备真正的数字化人格,能够在人类的角色中执行任务,确保安全与可靠性关键特性无智能行为,没有自主决策能力,完全依赖于预定义的规则遵循预定义规则完成任务,缺乏应对变化的能力可以在特定的领域中,通过数据反馈进行自动调整和改进,但范围有限在用户定义的任务下,能够自主完成复杂任务,具备较强的推理能力和记忆能力具备深度理解和记忆功能,可以在复杂环境中提供最优解决方案或服务AI能够在复杂的社交环境中代表用户完成任务,并与他人交互应用场景无使用语音助手来执行特定指令(如打开应用或读邮件)天气查询、简单的对话式AI,可以根据输入完成预定任务AI能够自主规划并执行任务,例如通过多轮对话完成复杂的用户需求个性化虚拟助手,能够根据用户需求主动调整和优化行为代替用户进行交互,安全且可靠地完成复杂任务05智能体的分类Partfive7.5智能体的分类根据功能、结构和复杂性,智能体可以分为反应式智能体、基于目标的智能体、学习型智能体、多智能体系统,下表给出了不同智能体类型的特点、优点和实例。反应式智能体基于目标的智能体学习型智能体多智能体系统特性基于当前环境状态直接采取行动,无需历史数据或记忆拥有明确的目标,通过推理和规划寻找实现目标的最佳路径能够通过经验学习,不断优化决策。常用技术包括监督学习、强化学习等由多个智能体组成,智能体之间通过协作或竞争完成任务优点实现简单,响应迅速能够适应更复杂的任务具备自我改进能力,适应动态环境分布式架构,能够处理复杂的任务缺点缺乏长期规划能力需要更复杂的算法支持训练可能需要大量数据和计算资源需要复杂的通信与协调机制实例自动门、温控器导航系统、物流机器人智能推荐系统、围棋AI(如AlphaGo)无人机编队、分布式交通信号控制06智能体的组成Partsix7.6智能体的组成智能体的核心组成部分主要包括以下几个模块:感知器学习模块决策系统通信模块执行器07智能体的工作原理Partseven7.7智能体的工作原理智能体的工作原理主要包括感知、决策、执行三个环节:智能体可以通过学习和进化不断提高自己的性能和能力。学习进化是智能体具有智能的重要体现。智能体通过执行器对环境进行干预和控制,执行决策。执行器可以包括电机、阀门、开关等。智能体利用人工智能算法对感知到的环境信息进行分析和处理,做出决策。人工智能算法可以包括机器学习算法、深度学习算法、强化学习算法等。智能体通过传感器感知环境信息,包括物理信息、化学信息、生物信息等。传感器可以将环境信息转换为电信号或数字信号,供智能体进行分析和处理。感知环节决策环节执行环节学习进化08智能体的关键技术Parteight7.8智能体的关键技术智能体的核心技术主要包括人工智能、传感器技术、通信技术、控制技术等,具体如下:1人工智能控制技术传感器技术通信技术3427.8智能体的关键技术在一些特定应用场景中,智能体还需要使用以下技术:边缘计算机器人技术区块链技术09典型的智能体产品Partnine7.9典型的智能体产品这里介绍一些具有代表性的智能体产品及其应用场景,涵盖学术研究、商业应用和前沿技术领域,体现了智能体技术的核心特点(如自主决策、协作与动态适应能力):虚拟助手与交互智能体3医疗与科研智能体5金融与交易智能体7多智能体协作平台2工业与物流智能体4游戏与仿真环境智能体6视听智能体8自主机器人系统17.9典型的智能体产品自主机器人系统我国宇树科技生产的人形机器人、四足机器人,通过强化学习和环境感知技术,实现复杂地形下的动态平衡与自主导航。例如,能完成跑酷、搬运等任务,还可应用于工业巡检或灾害救援场景,实时调整动作策略以适应环境变化。7.9典型的智能体产品多智能体协作平台FilmAgent是由哈尔滨工业大学(深圳)与清华大学联合开发的基于多智能体协作框架的虚拟电影制作工具。它通过自动化流程实现虚拟3D空间中的端到端电影制作,模拟传统电影工作室的工作流程,涵盖规划、剧本创作和摄影三个阶段。FilmAgent的核心在于多智能体协作,模拟了电影制作中的关键角色,如导演、编剧、演员和摄影师。通过智能体之间的协作,FilmAgent能够自动生成剧本、规划镜头,并在虚拟3D环境中执行拍摄。7.9典型的智能体产品虚拟助手与交互智能体OpenAI的ChatGPT和GPT-4o基于多模态交互能力,实现动态上下文理解与个性化对话。例如,GPT-4o支持实时语音、图像输入,通过连续学习优化用户交互体验。亚马逊Alexa通过分布式智能体架构,可以协调智能家居设备,并根据用户习惯自主调整家庭环境(如温控、灯光)。7.9典型的智能体产品工业与物流智能体特斯拉Optimus(人形机器人)结合视觉感知与强化学习,可以执行工厂流水线任务。特斯拉的自动驾驶系统,通过多智能体协同(车辆、云端、交通网络),可以实现复杂路况下的实时决策。西门子IndustrialAgents可以用在智能制造中,多个智能体动态分配生产任务、预测设备故障,并优化供应链资源调度。7.9典型的智能体产品医疗与科研智能体IBMWatsonHealth可以整合患者数据、医学文献和临床指南,辅助医生生成个性化诊疗方案,通过多智能体推理减少误诊率。达芬奇手术机器人(IntuitiveSurgical)结合医生操作与智能体自主校准技术,可以在微创手术中实时调整器械路径,规避人体组织风险。7.9典型的智能体产品游戏与仿真环境智能体英伟达Omniverse可以构建虚拟世界中的多智能体协作生态,例如自动驾驶仿真测试、数字孪生工厂,支持智能体在虚拟环境中试错与策略迭代。OpenAIDota2AI(OpenAIFive)通过5个智能体的协作与竞争机制,在复杂MOBA游戏中击败人类职业战队,展现了多智能体系统的战略规划能力。7.9典型的智能体产品金融与交易智能体摩根大通COiN(ContractIntelligence)利用多智能体系统分析合同条款、市场数据与风险模型,自动化生成投资策略并实时监控交易异常。高频交易算法(如CitadelSecurities)则是基于强化学习的智能体集群,在毫秒级时间内完成市场预测、订单拆分与执行优化。7.9典型的智能体产品视听智能体字节跳动在2024年10月10日发布了AI智能体耳机——OlaFriend,OlaFriend最大的亮点在于接入了字节跳动旗下的豆包大模型,能与豆包App深度结合。在实际使用中,它能在多个场景为用户提供帮助,比如充当随身百事通进行信息查询;成为英语陪练,不仅英语识别准确率高,还能指出用户表达中的语法错误;担当旅行导游,为用户规划旅游出行方案;甚至还能进行情感交流互动,给予陪伴。10基于大模型的智能体Partten7.10基于大模型的智能体基于大模型的智能体是指利用大语言模型(如GPT、BERT等)作为核心组件,构建的能够执行特定任务、与环境交互并做出决策的人工智能系统。这些智能体具有自主性、交互性、适应性等特点,能够模拟人类的认知和决策过程,提供更加自然、高效和个性化的交互体验。它们能够处理海量数据,进行高效的学习与推理,并展现出跨领域的应用潜力。本节介绍国内外典型的智能体产品,并介绍扣子智能体的搭建方法。国外的智能体产品国内的智能体产品案例:扣子智能体搭建实战7.10.1国外的智能体产品OpenAIOperator2025年1月23日,OpenAI发布了一个创新性的智能体——Operator,它是一个能够像人类一样使用计算机的智能体。Operator好比一个博士水平的个人助理,你给他一个复杂的任务,它就会自动执行。Operator的主要功能包括自主完成诸如采购杂货、提交费用报表、订票、买日用品、填写表格等任务,旨在通过自动化操作提升日常生活和工作效率。它还可以一边在StubHub搜索勇士队比赛门票,一边处理网球场预订、寻找清洁服务和DoorDash订餐,实现多任务并行处理。Operator的主要优势在于:多任务并行处理能力01隐私保护03细致的判断力02高级推理与自我纠正能力047.10.1国外的智能体产品OpenAIDeepResearch2025年2月3日,OpenAI发布了一款新的智能体产品——DeepResearch。DeepResearch由OpenAIo3模型的一个版本提供支持,该模型针对网页浏览和数据分析进行了优化,它利用推理来搜索、解释和分析互联网上的大量文本、图像和PDF,并根据需要根据遇到的信息做出调整。DeepResearch具有以下四大核心技术:会自动24小时扫描全球知识库。数据雷达能把零散的信息拼成完整的战略地图。知识拼图发现矛盾时,自动回溯、验证,调整推理路径。逻辑推理可以综合各种知识,生成完美的报告,还附带文献引用。学术裁缝7.10.1国外的智能体产品OpenAIDeepResearch作为OpenAI的下一代智能体,DeepResearch可以独立为用户工作。用户给它一个提示,它将查找、分析和综合数百个在线资源,以研究分析师的水平创建一份综合报告。比如,用户上传汽车数据,它在5分钟内就可以预测这辆汽车在未来10年内的故障率;“金融小白”只要一句话,它就会自动生成带有风险模型的投资方案;建筑学生上传一张图纸,它就会自动生成3D结构力学分析。可以这么说,当智能体变成了解决各种问题的专家,人类真正的竞争力,不再是知道多少答案,而是问出多好的问题。7.10.1国外的智能体产品OpenAIChatGPTAgent2025年7月18日,OpenAI重磅发布了ChatGPTAgent——一个可能改变我们工作方式的通用型AI智能体。这不再是简单的“问答机器人”,而是一个能够主动思考、自主执行任务的AI助手。ChatGPTAgent的出现,不仅让AI赛道的竞争日趋激烈,更标志着AI技术从信息供给向任务执行阶段跨越。ChatGPTAgent是一套融合Operator远程浏览器执行能力、DeepResearch网络信息整合技术以及ChatGPT对话优势的统一智能体平台,它能够依据用户给出的指令,进行思考和行动,使用自己的虚拟计算机为您完成各种复杂任务。简单来说,ChatGPTAgent不像之前的ChatGPT那样只会回答问题,而是能像人一样“思考着做事”。7.10.2国内的智能体产品在国内,有多家企业和机构推出了具有代表性的智能体平台,比如字节跳动扣子(Coze)、百度文心智能体平台AgentBuilder、腾讯元器、智谱清言、天工SkyAgents等,可以有效降低技术门槛,使普通用户也能成为智能体开发者,允许开发者通过零代码或低代码的方式,利用自然语言交互快速创建智能体,实现聊天对话、内容创作、图像生成等多种功能。7.10.2国内的智能体产品扣子扣子是新一代AI应用开发平台。无论你是否有编程基础,都可以在扣子上快速搭建基于大模型的各类智能体,并将智能体发布到各个社交平台、通讯软件。借助扣子提供的可视化设计与编排工具,你可以通过零代码或低代码的方式,快速搭建出基于大模型的各类智能体,满足个性化需求。扣子具有以下优势:持久化的记忆能力丰富的数据源灵活的工作流设计无限拓展的能力集7.10.2国内的智能体产品百度文心智能体百度文心智能体平台AgentBuilder是基于文心大模型的智能体构建平台,它允许开发者通过简单的自然语言交互方式,快速创建智能体。这个平台旨在降低技术门槛,让更多人能够参与智能体的开发和应用。通过文心智能体平台,开发者可以根据自己的行业领域和应用场景,利用多样化的能力和工具,打造出适应大模型时代的原生应用。比如,可以在百度文心智能体平台上开发一个“小红书文案创作智能体”,该智能体具备自动生成文案、推荐热门话题、分析文案效果等功能,用户可以通过与智能体的对话,轻松获取符合自己
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030中国盐酸哌醋甲酯行业市场现状分析及竞争格局与投资发展研究报告
- 2025-2030智慧农业系统气象数据农机配置产量预测研究分析
- 2025-2030智慧农业服务平台建设标准与市场需求评估分析
- 2025-2030智慧养老设施运营效率提升路径探索及社会资源整合策略分析
- 2025-2030智慧养老社区服务体系建设与适老化设施配置现状调研规划研究报告方案
- 2025-2030智慧停车系统车牌识别准确率国内外差值改进方案流量分发高效算法监控优化方案
- 2026年中药治疗荨麻疹实践技能卷及答案(专升本版)
- 2026年工业设备常见腐蚀类型
- 2026年微生物在土壤中的生态作用实验
- 2026年事故数据挖掘技术在交通安全中的应用
- 2026年江西赣州市高三一模高考数学试卷试题(含答案详解)
- 员工宿舍安全卫生检查
- (高清版)DZT 0202-2020 矿产地质勘查规范 铝土矿
- 清明祭扫烈士墓活动主持词
- 福建省莆田市2022-2023学年六年级下学期期末数学试卷
- 狐疝的中医护理方案
- 2023版全媒体运营师职业标准
- 2023年11月山东社会科学院专业技术中级岗位招考聘用2人笔试历年难易错点考题荟萃附带答案详解
- 河道漂流设计施工方案
- 2023年江西上饶市公开招聘交通劝导员32人高频考点题库(共500题含答案解析)模拟练习试卷
- 广东省五年一贯制语文试卷
评论
0/150
提交评论