《大语言模型概论》课件 第12章 生成式AI与AIGC_第1页
《大语言模型概论》课件 第12章 生成式AI与AIGC_第2页
《大语言模型概论》课件 第12章 生成式AI与AIGC_第3页
《大语言模型概论》课件 第12章 生成式AI与AIGC_第4页
《大语言模型概论》课件 第12章 生成式AI与AIGC_第5页
已阅读5页,还剩84页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第12章生成式AI与AIGC这一章,我们来进一步介绍和深入分析生成式人工智能和人工智能生成内容(AIGC)。联合国教科文组织在2023年9月7日发布《教育与研究领域生成式人工智能指南》,呼吁各国政府通过制定法规、培训教师等,规范生成式人工智能在教育中的应用。该《指南》以2021年发布的教科文组织《人工智能伦理问题建议书》和2019年发布的《北京共识——人工智能与教育》为基础,旨在推动人的能动性、包容、公平、性别平等以及文化和语言多样性。第12章生成式AI与AIGC《指南》阐述了生成式人工智能引发的争议及其对教育的影响,尤其是它如何加剧数字鸿沟等,列出了各国政府为规范生成式人工智能应采取的关键步骤,并为在教育和研究中以符合伦理要求的方式应用生成式人工智能建立政策框架。《指南》建议将在课堂上使用人工智能工具的最低年龄设定为13岁,并呼吁对教师进行相关培训。第12章生成式AI与AIGC联合国教科文组织总干事阿祖莱表示:“生成式人工智能可为人类发展带来巨大机遇,但也可能造成伤害和偏见。如果缺乏公众参与以及政府的必要保障和监管,人工智能就不能融入教育。教科文组织的这份指南将帮助政策制定者和教师从学生的基本利益出发,充分发挥人工智能潜能。”第12章生成式AI与AIGC01生成式AI进阶02生成式预训练语言模型03人工智能生成内容04案例:谷歌Genie模型目录/CONTENTS05视频是现实世界决策的新语言PART01生成式AI进阶生成式人工智能是一项变革性技术,它是人工智能的一个子集,它利用神经网络算法来生成原始内容,包括文本、图像、视频、音频、代码、设计或其他形式。ChatGPT、Bard、DALL-E2、Midjourney和GitHubCopilot等知名应用程序展示了这一突破的早期前景和潜力。我们来进一步了解生成式人工智能,探索其机制、现实世界的例子、市场动态以及其多个“层”的复杂性,了解这项技术的潜力,它如何塑造行业,以及对最终用户发挥作用和变革的各个层面。12.1生成式AI进阶生成式人工智能模型的工作原理是利用神经网络来分析和识别所训练的数据中的模式和结构。利用这种理解,生成了新的内容,既模仿类人的创作,又扩展了训练数据的模式。这些神经网络的功能根据所使用的具体技术或架构而有所不同,包括Transformer、生成对抗网络(GAN)、变分自动编码器(VAE)和扩散模型。12.1.1熟悉生成式AI(1)Transformers。它利用自注意机制来处理和分析数据序列,比传统方法更高效。与仅关注单个句子的传统人工智能模型不同,Transformers可以识别整个页面、章节或书籍中单词之间的联系,这使得它们非常适合在大规模、未标记的数据集上进行训练。(2)生成对抗网络(GAN)。由两部分组成:创建新数据的生成器和区分真实数据和计算机生成数据的鉴别器,两个组件同时训练。如果生成器产生不切实际的样本,则它会受到惩罚,而鉴别器如果错误地识别计算机生成的示例也会受到惩罚。12.1.1熟悉生成式AI(3)变分自动编码器(VAE)。通过一组潜在变量连接的编码器和解码器组成,这些无监督学习模型致力于通过将数据集压缩为简化形式来使输入和输出尽可能相同。潜在变量允许通过将随机集输入解码器来生成新数据,从而促进输出的创造力和多样性。(4)扩散模型。这些模型是经过训练的算法,通过添加随机噪声然后巧妙地删除来操纵数据。它们学习如何从噪声失真的版本中检索原始数据,这在图像生成应用程序中特别有用。通过剖析照片和艺术品的组成部分,扩散模型能够将随机噪声转换为特定且连贯的图像。12.1.1熟悉生成式AITransformer已成为自然语言处理的基石,也是目前最流行的生成式人工智能模型架构。其次是GAN(广泛用于图像合成和增强)、VAE(通常用于数据生成和重建)以及扩散模型(因其有效生成图像和文本的能力而受到关注)。12.1.1熟悉生成式AI为了更全面地了解生成式人工智能领域,分析该技术的价值链,考虑将其分为四个相互关联的层,即应用层、平台层、模型层和基础设施层,这些层共同创造新内容。其中每一层在整个过程中都发挥着独特作用。12.1.2生成式AI的层次1.应用层生成式人工智能的应用层通过允许动态创建内容来使用专门算法实现简化人类与人工智能的交互。这些算法提供了定制和自动化的企业对企业(B2B)和企业对消费者(B2C)应用程序和服务,而用户无需直接访问底层基础模型。这些应用程序的开发可以由基础模型的所有者(例如ChatGPT的OpenAI)和包含生成式人工智能模型的第三方软件公司(例如JasperAI)来承担。12.1.2生成式AI的层次生成式人工智能的应用层由通用应用程序、特定领域应用程序和集成应用程序三个不同子组组成。(1)通用应用程序:包括旨在执行广泛任务的软件,以各种形式生成新内容。此类示例包括ChatGPT、DALL-E2、GitHubCopilot、Character.ai(一种聊天机器人服务,允许用户创建AI角色并与之交谈)和JasperAI(一种AI驱动的写作工具)。12.1.2生成式AI的层次(2)特定领域的应用程序:这些是为满足特定行业(如金融、医疗保健、制造和教育)的特定需求和要求而量身定制的软件解决方案。这些应用程序在各自的领域更加专业化和响应更快,特别是当公司对它们进行高质量、独特和专有数据的培训时。例子包括金融数据分析的BloombergGPT以及谷歌的接受医疗数据训练以回答医疗查询的Med-PaLM2。12.1.2生成式AI的层次(3)集成应用程序:该子组由现有软件解决方案组成,其中融入了生成式人工智能功能以增强其主流产品。主要示例包括Microsoft365Copilot(适用于各种微软产品的AI驱动助手)、Salesforce的EinsteinGPT(生成式人工智能CRM技术)以及Adobe与Photoshop的生成式人工智能集成。12.1.2生成式AI的层次2.平台层生成式人工智能的平台层主要致力于通过托管服务提供对大模型的访问。这项服务简化了通用预训练基础模型(如OpenAI的GPT)的微调和定制过程。尽管领先的大模型,如GPT-4,可以仅使用其经过训练的锁定数据集立即回答大多数问题,但通过微调,可以显著提升这些大模型在特定内容领域的能力。12.1.2生成式AI的层次微调涉及解锁现有大模型的神经网络,使用新数据进行额外的训练。最终用户或公司可以将其专有或客户特定的数据无缝集成到这些模型中,以用于定向应用。平台层的最终目标是简化大模型的使用,降低最终用户或公司的相关成本。这种方法消除了独立从零开始开发这些模型的必要性,而无需投资数十亿美元和数年的努力。相反,用户可以支付月度订阅费用或将其捆绑到基础设施即服务(IaaS)的提供中。与此同时,用户还可以访问诸如安全性、隐私性和各种平台工具等有价值的功能,所有这些都以一种简化的方式进行管理。12.1.2生成式AI的层次3.模型层生成式人工智能的模型层启动基础模型。这种大规模机器学习模型通常通过使用Transformer算法对未标记数据进行训练。训练和微调过程使基础模型能够发展成为一种多功能工具,可以适应各种任务,以支持各种生成式人工智能应用程序的功能。12.1.2生成式AI的层次基础模型可以大致分为两大类:闭源(或专有)模型和开源模型。(1)闭源基础模型。这些模型由OpenAI等特定组织拥有和控制,底层源代码、算法、训练数据和参数均保密。闭源(或专有)基础模型可通过应用程序编程接口(API)向公众开放。第三方可以在其应用程序中使用此API,查询和呈现基础模型中的信息,而无需在训练、微调或运行模型上花费额外的资源。这些模型通常可以访问专有的训练数据,并可以优先访问云计算资源。12.1.2生成式AI的层次大型云计算公司通常会创建闭源基础模型,因为训练这些模型需要大量投资。闭源模型通过向客户收取API使用或基于订阅的访问费用来产生收入。OpenAI的GPT-4和谷歌的PaLM2等大模型是专注于自然语言处理的特定闭源基础模型。它们针对聊天机器人等应用程序进行了微调,例如ChatGPT和Gemini。一个非语言的例子是OpenAI的DALL-E2,这是一种识别和生成图像的视觉模型。12.1.2生成式AI的层次(2)开源基础模型。相比之下,每个人都可以不受限制地访问开源模型。他们鼓励社区协作和开发,允许透明地检查和修改代码。开源基础模型是协作开发的。它们可以免费重新分发和修改,从而提供训练数据和模型构建过程的完全透明度。许多甚至是免费分发的,具体取决于许可证和数据。12.1.2生成式AI的层次使用开源模型的好处包括:(1)对数据的完全控制和隐私;与OpenAI的GPT等闭源模型共享不同。(2)通过特定提示、微调和过滤改进定制,以针对各个行业进行优化。(3)具有成本效益的特定领域模型的训练和推理(较小的模型需要较少的计算)。开源模型的例子例如Meta的Llama2、Databricks的Dolly2.0、StabilityAI的StableDiffusionXL以及Cerebras-GPT。12.1.2生成式AI的层次4.基础设施层生成式人工智能的基础设施层包含大规模基础模型的重要组成部分。这一过程涉及的关键资源是半导体、网络、存储、数据库和云服务,所有这些资源在生成式人工智能模型的初始训练和持续的微调、定制和推理中都发挥着至关重要的作用。生成式人工智能模型通过两个主要阶段发挥作用。12.1.2生成式AI的层次(1)训练阶段:这是学习发生的阶段,通常在云数据中心的加速计算集群中进行。在这个计算密集型阶段,大模型从给定的数据集中学习。参数是模型调整以表示训练数据中潜在模式的内部变量。词元指的是模型处理的文本的个体部分,如单词或子词。例如,GPT-3是在3000亿个词元上进行训练的,其中一个词元等于1.33个单词,主要来自互联网的CommonCrawl、网络百科、书籍和文章。12.1.2生成式AI的层次(2)推断阶段:这是实际使用经过训练的AI模型生成用户响应的过程。在这里,新的文本输入被标记为单独的单位,模型使用训练过程中学到的参数来解释这些词元并生成相应的输出。这些经过训练的AI模型需要大量的计算能力,并且必须部署在靠近最终用户的地方(在边缘数据中心),以最小化响应时延(延迟),因为实时交互对于保持用户参与至关重要。12.1.2生成式AI的层次总体而言,生成式人工智能的准确性取决于大模型的规模和使用的训练数据量。这些因素反过来需要一个由半导体、网络、存储、数据库和云服务组成的强大基础设施。12.1.2生成式AI的层次PART02生成式预训练语言模型计算机视觉领域采用ImageNet数据集对模型进行一次预训练,使得模型可以通过海量图像充分学习如何提取特征,再根据任务目标进行模型微调。受此范式影响,自然语言处理领域基于预训练语言模型的方法也逐渐成为主流。以ELMo为代表的动态词向量模型开始了语言模型预训练,此后,以GPT(生成式预训练)和BERT(来自转换器的双向编码器表示)为代表的基于Transformer的大规模预训练语言模型出现,使自然语言处理全面开启预训练微调范式。12.2生成式预训练语言模型利用丰富的训练数据、自监督的预训练任务及Transformer等深度神经网络结构,预训练语言模型具备了通用且强大的自然语言表示能力,能够有效地学习到词汇、语法和语义信息。将预训练模型应用于下游任务时,不需要了解太多的任务细节,不需要设计特定的神经网络结构,只需要“微调”预训练模型,即使用具体任务的标注数据在预训练语言模型上进行监督训练,就可以取得显著的性能提升。12.2生成式预训练语言模型OpenAI公司在2018年提出的GPT是典型的生成式预训练语言模型(GPT),它是由多层Transformer组成的单向语言模型,主要分为输入层、编码层和输出层三部分。

图12-1GPT的模型结构12.2生成式预训练语言模型(1)无监督预训练。GPT采用生成式预训练方法,单向意味着模型只能从左到右或从右到左地对文本序列建模,所采用的Transformer结构和解码策略保证了输入文本每个位置只能依赖过去时刻的信息。(2)有监督下游任务微调。通过无监督语言模型预训练,使得GPT模型具备了一定的通用语义表示能力。下游任务微调的目的是在通用语义表示的基础上,根据下游任务的特性进行适配。下游任务通常需要利用有标注数据集进行训练。12.2生成式预训练语言模型GPT-3是一个简单的统计语言模型。从机器学习的角度,语言模型是对词语序列的概率分布的建模,即利用已经说过的片段作为条件预测下一个时刻不同词语出现的概率分布。语言模型一方面可以衡量一个句子符合语言文法的程度(例如衡量人机对话系统自动产生的回复是否自然流畅),同时也可以用来预测生成新的句子。例如,对于一个片段“中午12点了,我们一起去餐厅”,语言模型可以预测“餐厅”后面可能出现的词语。一般的语言模型会预测下一个词语是“吃饭”,强大的语言模型能够捕捉时间信息并且预测产生符合语境的词语“吃午饭”。12.2生成式预训练语言模型通常,一个语言模型是否强大主要取决于两点:首先看该模型是否能够利用所有的历史上下文信息,上述例子中如果无法捕捉“中午12点”这个远距离的语义信息,语言模型几乎无法预测下一个词语“吃午饭”。其次,还要看是否有足够丰富的历史上下文可供模型学习,也就是说训练语料是否足够丰富。由于语言模型属于自监督学习,优化目标是最大化所见文本的语言模型概率,因此任何文本无需标注即可作为训练数据。12.2生成式预训练语言模型由于GPT-3更强的性能和明显更多的参数,它包含了更多的主题文本,显然优于前代的GPT-2。作为目前最大的密集型神经网络,GPT-3能够将网页描述转换为相应代码、模仿人类叙事、创作定制诗歌、生成游戏剧本,甚至模仿已故的各位哲学家——预测生命的真谛。且GPT-3不需要微调,在处理语法难题方面,它只需要一些输出类型的样本(少量学习)。可以说GPT-3似乎已经满足了我们对于语言专家的一切想象。12.2生成式预训练语言模型但是GTP-3并不完美,例如聊天机器人和文本生成工具等很可能会不分青红皂白和质量好坏地对网络上的所有文本进行学习,进而生产出错误的、恶意冒犯的、甚至是攻击性的语言输出,这将会充分影响到它们的下一步应用。12.2生成式预训练语言模型PART03人工智能生成内容人工智能生成内容(AIGC)是由人工智能技术来自动创作生成内容,比如生成图形图像、视频、音乐、文字(文章、短篇小说、报告)等。AIGC就像一支神奇的画笔,拥有无限的创造力。利用人工智能的理解力、想象力和创作力,根据指定的需求和风格,创作出各种内容。AIGC的出现,打开了一个全新的创作世界,为人们提供了无数的可能性。12.3人工智能生成内容从用户生成内容(UGC),到专业生成内容(PGC),再到现在的人工智能生成内容(AIGC),我们看到了内容创作方式的巨大变革和进步。例如,AIGC是人工智能大模型,特别是自然语言处理模型的一种重要应用,而ChatGPT是AIGC在聊天对话场景的一个具体应用。可以把AIGC看作是一个大的范畴,而ChatGPT是其中一个类别的应用。12.3人工智能生成内容通过深度学习与自然语言处理的创新融合,诸如ChatGPT、通义千问等智能系统能够理解并生成高质量的文本内容,人工智能结合大模型的实际应用,重塑了信息时代的内容创作生态。人工智能可以生成文字、图片、音频、视频等等内容,甚至让人难以分清背后的创作者到底是人类还是人工智能。像ChatGPT生成的文章,GitHubCopilot生成的代码、Midjourney生成的图片等等,都属于AIGC。在很多语境下,AIGC也被用于指代生成式人工智能。12.3人工智能生成内容相关人工智能领域术语的关系如下图所示。这些概念共同构成了AIGC的核心要素。

图12-2AIGC与人工智能技术谱系12.3人工智能生成内容智能数字内容孪生主要分为内容的增强与转译。增强即对数字内容修复、去噪、细节增强等,转译即对数字内容转换如翻译等。该技术旨在将现实世界中的内容进行智能增强与智能转译,更好的完成现实世界到数字世界映射。例如,我们拍摄了一张低分辨率的图片,通过智能增强中的图像超分可对低分辨率进行放大,同时增强图像的细节信息,生成高清图。再比如,对于老照片中的像素缺失部分,可通过智能增强技术进行内容复原。12.3.1内容孪生而智能转译则更关注不同模态之间的相互转换。比如,录制一段音频,可通过智能转译技术自动生成字幕;再比如,输入一段文字可以自动生成语音,两个例子均为模态间智能转译应用。内容孪生的应用主要有语音转字幕、文字转语音、图像超分等。其中,图像超分辨率是指利用光学及其相关光学知识,根据已知图像信息恢复图像细节和其他数据信息的过程,简单来说就是增大图像的分辨率,防止其图像质量下降。12.3.1内容孪生智能数字内容编辑是通过对内容的理解以及属性控制,进而实现对内容的修改。如在计算机视觉领域,通过对视频内容的理解实现不同场景视频片段的剪辑。通过人体部位检测以及目标衣服的变形控制与截断处理,将目标衣服覆盖至人体部位,实现虚拟试衣。在语音信号处理领域,通过对音频信号分析,实现人声与背景声分离。以上例子都是在理解数字内容的基础上对内容的编辑与控制。内容编辑的应用例如有视频场景剪辑、虚拟试衣、人声分离等。12.3.2内容编辑智能数字内容生成是通过从海量数据中学习抽象概念,并通过概念的组合生成全新的内容。如人工智能绘画,从海量绘画中学习作品不同笔法、内容、艺术风格,并基于学习内容重新生成特定风格的绘画。采用此方式,人工智能在文本创作、音乐创作和诗词创作中取得了不错的表现。再比如,在跨模态领域,通过输入文本输出特定风格与属性的图像,不仅能够描述图像中主体的数量、形状、颜色等属性信息,而且能够描述主体的行为、动作以及主体之间的关系。12.3.2内容编辑内容生成的应用例如文本生成(写作)、图像生成(绘画)、音频生成、视频生成、多模态生成等5个方面。(1)文本生成。根据使用场景,基于自然语言处理的文本内容生成可分为非交互式与交互式文本生成。非交互式文本生成包括摘要/标题生成、文本风格迁移、文章生成、图像生成文本等。交互式文本生成主要包括聊天机器人、文本交互游戏等。文本生成的代表性产品或模型例如ChatGPT、通意千问、文心一言等。12.3.3内容生成的应用(2)图像生成。根据使用场景,可分为图像编辑修改与图像自主生成。图像编辑修改可应用于图像超分、图像修复、人脸替换、图像去水印、图像背景去除等。图像自主生成包括端到端的生成,如真实图像生成卡通图像、参照图像生成绘画图像、真实图像生成素描图像、文本生成图像等。图像生成的代表性产品或模型例如Midjourney、文心一言等。12.3.3内容生成的应用(3)音频生成。技术较为成熟,在C端产品中也较为常见,如语音克隆,将人声1替换为人声2。还可应用于文本生成特定场景语音,如数字人播报、语音客服等。此外,可基于文本描述、图片内容理解生成场景化音频、乐曲等。音频生成的代表性产品或模型例如DeepMusic、WaveNet、DeepVoice、MusicAutoBot等。12.3.3内容生成的应用(4)视频生成。它与图像生成在原理上相似,主要分为视频编辑与视频自主生成。视频编辑可应用于视频超分(视频画质增强)、视频修复(老电影上色、画质修复)、视频画面剪辑(识别画面内容,自动场景剪辑)。视频自主生成可应用于图像生成视频(给定参照图像,生成一段运动视频)、文本生成视频(给定一段描述性文字,生成内容相符视频)。视频生成的代表性产品或模型例如Deepfake,videoGPT,Gliacloud、Make-A-Video、Imagenvideo等。12.3.3内容生成的应用(5)多模态生成。前面四种模态可以进行组合搭配,进行模态间转换生成。如文本生成图像(AI绘画、根据提示语生成特定风格图像)、文本生成音频(AI作曲、根据提示语生成特定场景音频)、文本生成视频(AI视频制作、根据一段描述性文本生成语义内容相符视频片段)、图像生成文本(根据图像生成标题、根据图像生成故事)、图像生成视频。多模态生成的代表性产品或模型例如DALL-E、Midjourney、StableDiffusion等。12.3.3内容生成的应用PART04案例:谷歌Genie模型由谷歌DeepMind推出的Genie模型实现了将图像转化为“可交互、可玩的环境”,它展示了许多从静态起始图像生成的简单平台风格游戏样本GIF,这些起始图像包括儿童草图、真实世界照片等,甚至通过ImageGen2处理的文本提示也能生成游戏GIF示例。

图12-3Genie生成游戏的示例12.4案例:谷歌的Genic模型Genie提供了一种生成式人工智能的新范式。Genie能够接受其从未见过的图像提示,从而让人们能够与其想象中的虚拟世界互动,实质上扮演了基础世界模型的角色。虽然Genie的输出与基本2D游戏引擎的输出相似,但该模型实际上并不像人类游戏开发人员那样绘制精灵并编写可玩的平台游戏。相反,系统将其起始图像(或多个图像)视为视频中的帧,并在接收到特定输入时生成对下一帧(或多个帧)应该是什么样子的最佳猜测。12.4.1从接受图像提示开始Genie在训练过程中没有使用任何动作标签,而是从大量公开可用的互联网视频数据集训练而来的。通过这种方法,Genie模型能够在观察到有限的静态视觉信息或文本描述后,基于大量训练数据中学习到的游戏规则和动态规律,推断并生成连续的、具有互动性的游戏环境。这意味着用户上传一张简单的图画或一段描述,Genie就能够尝试构建出一个与之相关的、可供玩家探索和交互的虚拟游戏场景。12.4.1从接受图像提示开始Genie能够从互联网视频中学习细粒度的控制。这是一个挑战,因为互联网视频通常没有关于正在执行哪个动作,甚至应该控制图像哪一部分的标签。值得注意的是,Genie不仅了解观察的哪些部分通常是可控的,而且还推断出与生成环境一致的各种潜在动作。为了建立这个模型,Genie从200000小时的公共互联网游戏视频开始,从数百个2D游戏中筛选出30000小时的标准化视频。然后,这些视频中的各帧被标记为一个包含2亿个参数的模型,机器学习算法可以轻松使用该模型。12.4.2从视频学习细粒度控制由此开始,系统生成了一个“潜在动作模型”来预测哪种交互“动作”(即按下按钮)可以切实且一致地生成逐帧变化。建立潜在动作模型后,Genie会生成一个“动态模型”,该模型可以采用任意数量的任意帧和潜在动作,并在给定任何输入的情况下生成关于下一帧应该是什么样子的有根据的猜测。最终模型在9420亿个词元上训练了107亿个参数。Genie的结果表明更大的模型会产生更好的结果。12.4.2从视频学习细粒度控制之前使用生成式人工智能生成类似交互模型的工作依赖于使用“真实动作标签”或训练数据的文本描述来帮助指导机器学习算法。Genie的区别在于它能够“在没有动作或文本注释的情况下进行训练”,只使用标记化视频帧的几个小时来推断视频背后的潜在动作(见图12-4)。12.4.2从视频学习细粒度控制草图生成图12-4Genie生成游戏的示例12.4.2从视频学习细粒度控制真实世界生成图12-4Genie生成游戏的示例12.4.2从视频学习细粒度控制

手臂运动图12-4Genie生成游戏的示例12.4.2从视频学习细粒度控制Genie团队指出:“泛化到如此显著的‘离分布’输入的能力突显了方法的稳健性以及大规模数据训练的价值,如果改用真实动作作为输入,这样的训练方式在可行性上会受到极大挑战。”12.4.2从视频学习细粒度控制在对仅凭粗略的草图就可以生成无尽的平台游戏感到兴奋之余,要记住一些重要的限制。最重要的是,该系统目前仅以每秒一帧的速度运行,这比实时播放的内容至少慢20到30倍。在几帧上显示更流畅动画的示例GIF只是将一系列帧拼接在一起,而这些帧需要花费一分钟的时间才能实时生成。12.4.3一些重要的限制Genie团队承认,其系统也会像其他人工智能模型那样“产生不切实际的未来预测”。这一点在他们分享的一些示例GIF动画中表现得尤为明显。例如,在其中一个演示中,原本并行飞行的两只鸟突然合并成一个实体,这是违背物理规律的现象;而在另一个例子中,角色在完成简单跳跃动作后,并未遵循重力下落,而是开始漂浮起来。这些现象表明,尽管Genie能够基于已有的游戏素材创造动态情境,但受限于其学习和理解真实世界规则的能力,它在某些情况下生成的结果可能出现逻辑上的不一致性和不真实性。12.4.3一些重要的限制此外,你可能也注意到,Genie团队迄今为止公开展示的样本仅显示了少数几个(有时非常模糊)的动作帧,然后就会回到起点循环播放。这很可能是因为当前系统仅限于分析最多“16帧内存”,团队表示,这“使得在较长时间范围内获取一致的环境变得具有挑战性”。换句话说,由于系统的内存限制,Genie目前生成的互动环境在超过16帧后可能会出现重复或不连贯的情况,因此无法展现出更长连续的游戏场景。12.4.3一些重要的限制尽管Geni拥有许多不足,但其能力不应该被低估,尤其是它对通向“世界模型的意义”。自Sora的出现之后,人们更加关注与好奇人工智能何时能从物理层面上模拟和理解环境的运作规律。Meta首席科学家LeCun坚持认为,Sora走不通“世界模型”,无论生成多么逼真的视频,都不意味着Sora理解了物理世界。12.4.4迈向“世界模型”的一步但Genie则不同。仅从一个静态图像开始,Genie似乎能够区分玩家角色和游戏背景,因此它能了解观察对象的哪些部分通常是可控的,还能推断出在生成环境中一致的各种潜在动作。对于没有任何人工指导或动作标记帮助来解释视频训练数据的模型来说,这是一项重大的突破。Genie团队提到,研究人员希望这项技术可以用于“为机器人技术创建一个基础世界模型,并具有可用于各种应用的低级可控模拟”。可见,Genie技术+具身智能可能会爆发出无限想象力。12.4.4迈向“世界模型”的一步DeepMind的研究人员已经在展望这种强大的世界模型能力对整个人工智能领域意味着什么。DeepMind研究科学家杰克·帕克-霍尔德在X上兴奋地表示道,Genie代表着“有了一条可行的路径来生成训练AGI所需的丰富多样性环境。”12.4.4迈向“世界模型”的一步DeepMind的理查德·宋补充说,Genie可能会导致研究人员需要生成“训练通用(强化学习)智能体所需的大量多样化视频游戏环境”所需的“无限生成器”。该项目也开始在谷歌之外引起轰动。NvidiaAI研究员范锦玲指出,Genie在某种程度上改进了OpenAI的Sora视频模型,因为它“实际上是一个具有推断动作的正确的动作驱动的世界模型”。无论这些预测是否成功,该项目在那些近距离观察过它的人中所产生的兴奋感都难以忽视。“当我看到这个项目时,我的反应是‘哦,这是我最近见过的最酷的项目,超级令人兴奋!’”DeepMind的卢卡斯·拜尔写道。12.4.4迈向“世界模型”的一步自Sora出现之后,人们更加关注与好奇人工智能何时能从物理层面上模拟和理解环境的运作规律。现在Genie诞生了。如果说Sora可以颠覆好莱坞,那么Genie让我们看到了人工智能正面交锋暴雪和任天堂的可能。12.4.4迈向“世界模型”的一步PART05视频是现实世界决策的新语言如今,语言模型已经成为解决实际问题和推动技术发展的重要工具之一。然而,与之相比,视频生成仍然主要局限于媒体娱乐和艺术创作。这种局限性往往使得视频数据的潜力和重要性被低估。实际上,视频数据可以捕捉到难以用语言表达的物理世界中的重要信息。例如,丰富的视觉信息涵盖了语言无法表达的很多信息,它可以捕捉到物体的运动、形态的变化、环境的变化等现象,可以为人类提供更加直观和全面的认识。同样,在科学研究、工程设计、医学诊断等领域,视频数据的应用也已经成为解决复杂问题的重要手段之一。12.5视频是现实世界决策的新语言谷歌DeepMind的研究科学家杨雪莉及其团队,联合加州大学伯克利分校教授、伯克利机器人学习实验室主任彼得·阿贝尔和麻省理工学院博士杜奕伦,在一篇题为“视频作为现实世界决策的新语言”的论文中,探索了视频生成技术如何能够像语言模型一样,通过学习上下文信息、规划行为和强化学习等技术,充当规划者、智能体、计算引擎和环境模拟器,在现实世界中发挥更广泛的作用。他们认为,与语言类似,视频可以作为一个统一的界面,吸收互联网知识并体现不同的任务,并提出一个观点:视频生成之于物理世界,就如同语言建模之于数字世界。12.5视频是现实世界决策的新语言与语言模型类似,视频生成模型生成与给定条件相关联的视频序列,可以模拟和预测物体的运动、环境的变化等现象。作为规划者,视频生成模型可以通过学习视频序列中的时空信息,生成未来帧的预测,从而规划出一系列可能的动作或行为序列。12.5.1视频生成,不只为了娱乐例如,在机器人学领域,模型可以根据环境中的物体位置和运动趋势,预测机器人的下一步动作,以实现特定的任务或目标。

图12-5根据环境中的位置和趋势预测下一步动作12.5.1视频生成,不只为了娱乐作为智能体,视频生成模型可以通过强化学习等技术不断优化自身的生成能力,使得生成的视频序列更加逼真和符合预期。通过与环境的交互和反馈,模型可以不断学习和改进,逐渐掌握复杂的环境规律和行为模式,从而更好地应对各种情况和挑战。同时,视频生成模型还可以充当计算引擎的角色,高效地处理大规模的视频数据,并进行复杂的推理和计算。借助深度学习等技术的强大计算能力,视频生成模型可以快速地生成高质量的视频序列,为实时应用和决策提供支持和保障。12.5.1视频生成,不只为了娱乐此外,作为环境模拟器,视频生成模型可以模拟和重现各种现实世界场景,帮助人们更好地理解和分析复杂的物理过程和现象。通过生成逼真的视频序列,模型可以为科学研究、工程设计和教育培训等领域提供可视化的工具和资源,加深人们对物理世界的认识和理解。具体而言,研究团队在生成游戏环境、机器人学、计算流体动力学等领域展示了视频生成模型的应用潜力,为解决实际问题提供了新的可能性。12.5.1视频生成,不只为了娱乐在生成游戏环境方面,该论文提到了使用基于Transformer的架构进行动作条件视频生成,从而模拟复杂的计算机游戏环境,如《我的世界》(Minecraft)。视频生成模型既充当世界模型又充当策略,可以生成与复杂策略相对应的动作和转换。12.5.1视频生成,不只为了娱乐此外,视频生成模型还可以生成新游戏环境。使用生成式模型,可以进行新游戏内容和关卡的程序化生成研究。利用未标记的互联网规模的游戏数据,可以学习潜在动作,从而训练一个可控制动作的视频生成模型,使其能够从提示图像生成无穷无尽的多样化交互式环境。

图12-6生成的交互式游戏环境12.5.1视频生成,不只为了娱乐把两个合成图像提示传递给模型,模型将它们转换为交互式环境,可以通过采取不同的潜在动作来生成不同的轨迹,如玩家1和2所示。在机器人学领域,视频生成模型可以生成具有真实感的机器人运动和操作场景,这为自主机器人、智能控制系统等领域的研究和开发提供了新的方向和思路,有助于提高机器人在复杂环境中的智能水平和应用能力。12.5.1视频生成,不只为了娱乐下图显示自动驾驶的生成模拟。借助互联网知识,可以模拟特定地点的不同驾驶条件,如“金门大桥上的雨”“优胜美地的黎明”和“去优胜美地的路上白雪皑皑”。图12-7生成具有真实感的运动和场景12.5.1视频生成,不只

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论