人工基础智能及概论 9_第1页
人工基础智能及概论 9_第2页
人工基础智能及概论 9_第3页
人工基础智能及概论 9_第4页
人工基础智能及概论 9_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

高职高专人工智能通识课规划教材人工智能概论(第2版)学习目标【能力目标】能够针对大模型具体应用功能,阐述其工作原理;能够设计和优化提示词以引导AIGC产生期望的输出;能够使用DeepSeek、Kimi、即梦AI、蝉镜等人工智能工具,解决工作生活场景中的具体需求。【素养目标】培养使用AI工具对复杂问题进行分析和解决的能力;培养批判性思维,分析和评估生成式人工智能大模型的输出质量;通过学习我国在大语言模型领域科技成果案例,加强爱国主义教育,增强民族自信心、自豪感。【知识目标】掌握大语言模型的定义、特点和分类;熟悉国内外主要大模型;了解AIGC的定义和应用领域;理解生成对抗网络的工作原理;掌握提示词的定义、构成元素、基本格式和优化方法。知识图谱

学习单元8大语言模型与AIGC8.1

大语言模型概述8.2AIGC简介8.3提示词设计8.4实训8.5拓展知识高职高专人工智能通识课规划教材8.1

大语言模型概述8.1.1大语言模型的定义大语言模型(LargeLanguageModel,LLM)是人工智能领域中的一个重要概念,它指的是拥有超大规模参数(通常在十亿个以上)和复杂计算结构的机器学习模型。通常基于Transformer等先进的深度神经网络架构,通过无监督学习的方式从大量文本数据中提取语言知识和规律。这些模型能够生成连贯、流畅的文本,理解复杂的语义关系,甚至在某些情况下展现出一定的逻辑推理能力。8.1

大语言模型概述8.1.1大语言模型的定义大语言模型的核心优势在于其强大的泛化能力和上下文理解能力。通过将预训练和微调相结合,这些模型在多种任务中表现出色,例如,机器翻译、文本摘要、问答系统、情感分析等。大语言模型能够充分地挖掘大规模无标签数据的能力,从海量数据中学习知识与规律,就像我们人类的学习机制一样,完成从通识教育到专业教育的转换,如图8-1所示。8.1

大语言模型概述8.1.2大语言模型的特点(1)巨大的规模。大模型包含数十亿至数千亿个参数,甚至更大。巨大的模型规模使大模型具有强大的表达能力和学习能力。(2)涌现能力。涌现(Emergence)是指许多小实体相互作用后产生了大实体,而这个大实体展现了组成它的小实体所不具有的特性。引申到模型层面,涌现能力指的是当模型的训练数据突破一定规模,模型突然涌现出之前小模型所没有的、意料之外的、能够综合分析和解决更深层次问题的复杂功能和特性,展现出类似人类的思维和智能。(3)更好的性能和泛化能力。大模型通常具有更强大的学习能力和泛化能力,能够在各种任务上表现出色,包括自然语言处理、图像识别、语音识别等。(4)多任务学习。大模型通常会并行学习多种NLP任务,如机器翻译、文本摘要、问答系统等。多任务学习可以使模型学习到更广泛和泛化的语言理解能力。(5)大数据训练。大模型需要海量的数据来训练,数据集规模通常在TB以上,甚至PB级别。只有大量的数据才能发挥大模型的参数规模优势。8.1

大语言模型概述8.1.2大语言模型的特点(6)强大的计算资源。训练大模型通常需要数百,甚至上千个GPU,以及大量的时间(通常在几周到几个月)。(7)迁移学习和预训练。大模型可以通过在大规模数据上进行预训练,然后在特定任务上进行微调,从而提高模型在新任务上的性能。(8)自监督学习。大模型可以通过自监督学习在大规模无标签数据上进行训练,从而减少对标记数据的依赖,提高模型的效能。(9)领域知识融合。大模型可以从多个领域的数据中学习知识,并在不同领域中进行应用以促进跨领域的创新。(10)高效。大模型可以自动化执行许多复杂的任务,如自动编程、自动翻译、自动摘要等,以提升工作效率。8.1

大语言模型概述8.1.3大语言模型的分类按照输入数据类型的不同,大模型主要分为以下三种模型。8.1

大语言模型概述8.1.3大语言模型的分类(1)语言大模型。它是指在自然语言处理(NLP)领域中使用的大模型,通常用于处理文本数据和理解自然语言。这类大模型的主要特点是它们在大规模语料库上进行了训练,以学习自然语言的各种语法、语义和语境规则。典型大模型代表为OpenAI公司的GPT系列、Google公司的Bard、百度公司的文心一言等。8.1

大语言模型概述8.1.3大语言模型的分类(2)视觉大模型。它是指在计算机视觉领域中使用的大模型,通常用于图像处理和分析。这类模型通过在大规模图像数据上进行训练,实现各种视觉任务,如图像分类、目标检测、图像分割、姿态估计、人脸识别等。典型大模型代表为Google公司的ViT系列、百度公司的文心VIMER-UFO、华为公司的盘古CV、商汤公司的INTERN等。8.1

大语言模型概述8.1.3大语言模型的分类(3)多模态大模型。“模态”指的是不同的数据类型或信息源。多模态大模型是指能够处理多种类型数据的大模型,例如文本、图像、音频等多模态数据。这类模型结合了自然语言处理和计算机视觉的功能,以实现对多模态信息的综合理解和分析,从而能够更全面地理解和处理复杂的数据。典型大模型代表为OpenAI公司的GPT-4o、Google公司的Gemini2.5Pro、阿里巴巴公司的通义千问-VL、云从科技公司的从容大模型等。多模态大模型是大模型的发展方向,是预训练大语言模型的晋级,是当前世界各大AI厂商竞争的关键领域。8.1

大语言模型概述8.1.4国内外主要大模型简介1.ChatGPTChatGPT是由OpenAI开发的基于生成式预训练变换器(GenerativePre-trainedTransformer,GPT)的聊天机器人程序,能够进行自然语言生成和理解,于2022年11月30日发布。GPT模型是一种采用Transformer结构的生成模型,通过预训练学习大量文本数据中的语言规律,可以根据输入的上下文生成自然的文本回复。ChatGPT不仅能通过理解和学习人类的语言流畅地与用户对话,甚至能写诗,撰写邮件、视频脚本、文案、代码、论文等任务。8.1

大语言模型概述8.1.4国内外主要大模型简介2.文心一言文心一言是基于百度文心大模型打造的AI产品。文心一言生成式人工智能正蓬勃发展,在提升用户生活品质和工作效率方面,特别是在资料查询、工作总结、工作计划、发言稿、新闻稿、作文、翻译、课程大纲、教案、出题、编程(含校对、比对)等方面具有很大作用。文心大模型对话类产品具有广泛的适用性,用户可将生成式AI作为办公助手、休闲娱乐和内容创作。8.1

大语言模型概述8.1.4国内外主要大模型简介3.通义千问通义千问是阿里云推出的多模态大模型,能够理解和生成自然语言文本,同时还能处理图像和视频数据。“通义”意味着该模型具有普适性,可以理解和回答各个领域的问题。“千问”意味着模型可以回答各种问题,包括复杂的甚至是少见的问题。它表达了通义千问致力于满足用户在不同场景下的需求,无论问题多么复杂或者独特。8.1

大语言模型概述8.1.4国内外主要大模型简介4.豆包豆包是字节字节跳动推出的多模态大模型,作为国内首批通过算法备案的大模型之一,于2024年5月15日在火山引擎原动力大会正式发布。它具有信息搜索、文本创作、图像生成、音乐生成、语言翻译等功能。豆包还推出了视频生成功能,能将文字、图片信息转化为生动、逼真的视频内容,生成的视频的风格、画面尺寸较为多样。8.1

大语言模型概述8.1.4国内外主要大模型简介5.DeepSeek杭州深度求索人工智能基础技术研究有限公司于2025年1月20日发布了开源大模型DeepSeek-R1。DeepSeek-R1运用了多项先进技术,大幅提升了模型的性能和训练效率,在多个基准测试中,DeepSeek-R1在数学、代码、推理等许多方面均具有很好的性能,特别是在后训练阶段使用了强化学习技术,在仅有极少标注数据的情况下,极大地提升了模型推理能力,大幅度地降低了训练成本,使其不足一些知名大模型的二十分之一,引起国际上强烈反响。学习单元8大语言模型与AIGC8.1大语言模型概述8.2AIGC简介8.3提示词设计8.4实训8.5拓展知识高职高专人工智能通识课规划教材8.2AIGC简介8.2.1AIGC的定义AIGC(ArtificialIntelligenceGeneratedContent)即人工智能生成内容,是一种新的创作方式,即利用人工智能技术来生成各种形式的内容,包括生成文字、音乐、图像、视频等。AIGC是人工智能进入全新发展时期的重要标志,其核心技术包括生成对抗网络、大型预训练模型、多模态技术等。AIGC的核心思想是利用人工智能算法生成具有一定创意和质量的内容。通过训练模型和大量数据的学习,AIGC可以根据输入的条件或指导生成与之相关的内容。例如,通过输入关键词、描述或样本,AIGC可以生成与之相匹配的文章、图像、音频、视频等。AIGC技术不仅可以提高内容生产的效率和质量,还可以为创作者提供更多的灵感和支持。在文学创作、艺术设计、游戏开发、影视制作等领域,AIGC可以自动创作出高质量的文本、图像、音频、视频等内容。同时,AIGC也可以应用于媒体、教育、娱乐、营销、科研等领域,为用户提供高质量、高效率、个性化的内容服务。8.2AIGC简介8.2.2AIGC与大模型的关系(1)大模型为AIGC提供了丰富的数据资源和强大的计算能力。大模型通常拥有数十亿甚至上万亿的参数,需要大规模的数据集进行训练和优化。大模型通过学习大量的数据,可以掌握其中的模式和规律,进而生成高质量、多样化的内容。目前,AIGC正是基于这些大模型的训练成果,利用深度学习等技术进行内容的自动生成和创作。也就是说,目前人们都是采用大模型来实现AIGC。8.2AIGC简介8.2.2AIGC与大模型的关系(2)AIGC的需求推动了大模型的发展。随着AIGC应用的不断扩展,人们对于生成内容的质量和多样性的要求越来越高。为了达到这些要求,研究人员需要不断改进和优化大模型的结构与训练方法,以提高其生成能力和效率。这种相互促进的关系使AIGC和大模型得以共同发展,不断推动人工智能技术发展。8.2AIGC简介8.2.2AIGC与大模型的关系(3)大模型和AIGC的结合带来了广泛的应用前景。在文学创作、艺术设计、游戏开发、影视制作等领域,AIGC可以自动创作出高质量的文本、图像、音频、视频等内容,为创作者提供更多的灵感和支持。同时,这些生成的内容也可以作为大模型的训练数据,进一步优化和提升大模型的性能。这种良性的循环将不断推动大模型和AIGC的应用与发展。8.2AIGC简介8.2.3生成对抗网络2014年,伊恩·古德费罗(IanGoodfellow)等人启发于博弈论中的二人零和博弈,开创性地提出了生成对抗网络(GenerativeAdversarialNetworks,GAN)。生成对抗网络主要由生成器(Generator)和判别器(Discriminator)组成,两者在训练过程中处于竞争关系,类似于造假钞和验假钞的博弈,如图8-8所示。8.2AIGC简介8.2.3生成对抗网络1.生成器生成器的主要作用是根据输入的随机噪声向量,生成与真实数据相似的数据样本。它就像是一个“造假者”,试图通过学习真实数据的特征和模式,生成能够以假乱真的“赝品”。例如在图像生成任务中,生成器输入一个随机的噪声向量,经过一系列神经网络层处理后,最终输出一张伪造的图像。生成器通常采用反卷积神经网络等结构,逐步将低维的噪声向量转换为高维的、具有特定特征的数据样本。8.2AIGC简介8.2.3生成对抗网络2.判别器判别器则扮演着“鉴别者”的角色,它接收来自生成器所生成的伪造样本以及真实数据样本,并尝试判断输入样本是真实的还是伪造的。判别器的目标是尽可能准确地区分真假样本,通过不断学习真实样本和伪造样本之间的差异特征,提高自己的鉴别能力。在架构上,判别器通常采用卷积神经网络,对输入样本进行特征提取和分类判断。在训练过程中,生成器和判别器相互竞争、相互学习。生成器生成的样本越来越逼真,判别器的鉴别能力也越来越强。最终,两者可以达到一种动态平衡状态,此时生成器生成的样本几乎可以以假乱真,判别器也难以准确区分真假样本。在这种状态下,生成对抗网络就能够生成高质量的、与真实数据分布相似的数据样本。8.2AIGC简介8.2.4AIGC的应用领域1.AIGC文本生成AIGC文本生成是指利用AI技术生成各种类型的文本内容。例如,可以使用AIGC技术自动生成新闻报道、科技文章、故事情节、推广方案等。一个实际的案例是,“文心一言”大模型可以通过输入几个关键词,生成与这些关键词相关的完整文章,提供自动化的写作支持。图8-9是“文心一言”生成的一篇科普文章,可以看出其概念准确、层次清晰,已经达到了一般专业人员的写作水准。典型的文本生成AIGC大模型有ChatGPT、DeepSeek、文心一言、通义千问等。8.2AIGC简介8.2.4AIGC的应用领域2.AIGC图像生成AIGC图像生成是指利用AI技术生成各种类型的图像内容,如人物肖像、风景画、卡通图像等。2023年索尼世界摄影奖获奖名单中,德国摄影师鲍里斯·埃尔达森(BorisEldagsen)使用AIGC生成的图像《虚假记忆》获得公开竞赛组创意类别第一名,引起业界尤其是新闻摄影工作者对于摄影真实性的热议。虽然摄影师本人拒绝领奖,希望引起大家更多的重视和争论,但我们看到,有越来越多的摄影师开始应用AI技术在影像创作上探索更多的可能,拓展影像发展的边界,进而改变我们对摄影的思考方式。8.2AIGC简介8.2.4AIGC的应用领域2.AIGC图像生成AIGC图像生成颠覆了传统的图像创作领域,通过AI工具可以在几秒内将设计者的想法或概念快速转化为可视化的图像。AI图像生成工具可用于各种目的,例如为创意项目产生灵感,将想法可视化,探索不同的场景或概念,或者仅仅是为了享受AI的乐趣。顶级的AI图像生成工具具有强大的拼接能力、渲染速度。典型的图像生成AIGC大模型有Midjourney、DALLE、StableDiffusion、即梦AI等。8.2AIGC简介8.2.4AIGC的应用领域3.AIGC音频生成AIGC音频生成是指利用AI技术根据所输入的文本、语音、图像、视频等初始信息合成相应的音频的过程。根据应用领域的不同,可以将AIGC音频生成分为语音合成、音乐生成、语音识别三个领域。语音合成技术主要应用于语音助手、语音广告、残障人士辅助工具等;音乐生成技术主要应用于音乐创作、游戏音效、电影配乐等领域;语音识别主要应用于语音搜索、智能客服、语音翻译等领域。其中,语音合成是该行业的主要应用领域,占据了近70%的市场份额。8.2AIGC简介8.2.4AIGC的应用领域3.AIGC音频生成按照输入数据类型的不同,音频生成可以分为根据文字信息、音频信息、肌肉震动、视觉内容等输入信息进行的声音合成,如表8-1所示。典型的音频生成AIGC大模型有文心一言、通义千问、讯飞智作、豆包等。序号输入类型音频生成方式应用场景1文字信息提取文字信息并合成语音信息信息播报、人机交互2音频信息根据给定的语音片段进行识别和理解,进一步按要求进行语音合成或者将一种语言转换成另一种语言的语音信息语音编辑、语音理解、语音合成、语言转换、音乐制作3肌肉震动对喉部、面部等肌肉运动情况进行感知并合成语音智能可穿戴设备、元宇宙4视觉内容对图像、视频等视觉内容进行识别和理解,并生成与口形对应用的语音信息虚拟主播、智能数字人、平行数字替身8.2AIGC简介8.2.4AIGC的应用领域4.AIGC视频生成AIGC视频生成是指通过AI技术,根据给定的文本、图像、视频等单模态或多模态信息,自动生成符合描述的、高保真的视频内容,如动画片段、虚拟现实场景、视频特效、小视频(时长1分钟以内)、影视作品等。2025年春节期间,浙江省杭州文化广播电视集团的《杭州新闻联播》节目,使用AI数字人进行新闻播报,且做到了零失误率,引发社会关注。8.2AIGC简介8.2.4AIGC的应用领域4.AIGC视频生成AIGC视频生成的主要类型如表8-2所示。典型的视频生成AIGC大模型有Sora、可灵AI、即梦AI、Vidu、书生·筑梦、通义万相等。序号生成方式生成过程应用场景1剪辑生成将多段视频进行剪辑、合成和编辑,生成新的视频,包括视频属性编辑、片段剪辑、视频编辑等影视编辑、剪辑2特效生成在现有视频上添加多种效果,如滤镜、光影、烟火等,提升视频创意和艺术效果视频后期特效3内容理解与变换将特定视频中的人物、场景、背景进行编辑、替换,添加字幕视频风格迁移、替换和加强,自动翻译、自动字幕等4内容生成多模态生成根据给定的文本、图像及视频等描述和参考信息生成相应的视频内容影视、游戏、小视频的场景制作,广告视频制作、数字人制作等学习单元8大语言模型与AIGC8.1大语言模型概述8.2AIGC简介8.3提示词设计8.4实训8.5拓展知识高职高专人工智能通识课规划教材8.3提示词设计8.3.1提示词的定义提示词(Prompt)是指在与AIGC进行交互时,用户输入的指令或问题,用来引导AIGC生成相应的回答。它可以是一个简单的问题、请求,也可以是一段详细的描述或指令。提示词的作用是为AIGC提供足够的信息和上下文,以便它能够理解用户的需求并生成准确、有用的回答。通过精心设计提示词,用户可以更好地控制AIGC的输出,使其更符合自己的期望。不同的提示词生成的结果不同。8.3提示词设计8.3.2提示词的构成要素提示词通常包括四个关键元素:指令(Instruction)、背景信息(Context)、输入数据(InputData)和输出指示器(OutputIndicator)。(1)指令。明确告诉AIGC要执行什么任务,写什么内容,达到什么效果,是任务的“行动指南”。例如“策划一个产品推广的活动方案”“撰写一篇关于太阳能的科普文章”等。(2)背景信息。提供任务的上下文信息,帮助模型更好地理解任务和生成响应。可以包括任务的背景、目的、相关知识等。比如“故事目的是让儿童理解太阳系的基本构成,包括太阳、行星和卫星”。(3)输入数据。提供给AIGC处理的数据,可以是文本、图像、音频等,是任务的“原材料”。例如“一个表格,其中列出了太阳系中所有行星及其直径”。若任务无需特定输入(如自由创作),可省略此部分。(4)输出指示器。告诉AIGC生成内容的语言风格、结构、字数等具体要求,是任务的“交付标准”。例如“生成一份PPT大纲,包含封面、目录、3个核心观点和总结,风格简洁专业。”8.3提示词设计8.3.3提示词的基本格式在编写提示词时,要避免使用模糊不清、主观性强、过于宽泛、缺乏关键细节和背景信息等不好的提示词。(1)模糊不清。例1:请给我讲一个有趣的故事。没有说明故事的类型,是怎么样的故事?儿童故事?童话故事?(2)主观性强。例2:请为我推荐几款便宜的手机。便宜是一个主观的概念,多少钱算便宜呢?8.3提示词设计8.3.3提示词的基本格式在编写提示词时,要避免使用模糊不清、主观性强、过于宽泛、缺乏关键细节和背景信息等不好的提示词。(3)过于宽泛。例3:谈谈你怎么看待科学?科学的范畴太宽泛了,包含物理、地理、生物、化学等。(4)缺乏关键细节和背景信息。例4:给我推荐一款手机。没有告知手机的预算、对性能或拍照等方面的侧重,推荐就可能不准确。8.3提示词设计8.3.3提示词的基本格式一条优秀的提示词应清晰明确且具有针对性,能够准确引导模型理解并回应问题。(1)参考信息:包含人工智能大模型完成任务时需要知道的必要背景和材料,如报告、知识、数据库、对话上下文等。(2)动作:需要人工智能大模型解决的事情,如撰写、生成、总结、回答等。(3)目标:需要人工智能大模型生成的目标内容,如答案、方案、图片、视频、图表等。(4)要求:需要人工智能大模型遵循的任务细节要求,如按照××格式输出、按照××语言风格撰写、字数为××等。8.3提示词设计8.3.3提示词的基本格式例5:请以唐代诗人的身份,在面对黄山云海时,根据已有唐诗数据,撰写一篇作者借由眼前景观感叹人生不得志的七言绝句,并严格满足七言绝句的格律要求。这条提示词的结构如图8-13所示。8.3提示词设计8.3.3提示词的基本格式例6:你是高中数学老师,在高中课堂上,根据《高中数学必修一》内容,逐步解答学生关于集合的数学问题,并给出解题步骤及相关知识点。这条提示词的结构如图8-14所示。8.3提示词设计8.3.4提示词的优化方法1.逐步完善根据AIGC生成的初稿逐步调整提示词,以改进输出结果。用户可在每次生成后,审查内容与需求的匹配度,明确不足之处,并对提示词进行修改和补充。下面举例说明。初始提示词:撰写一封公司年会邀请函。生成的内容可能比较简单。缺乏时间、地点和具体活动的说明。优化提示词:撰写一封公司年会邀请函,包含以下信息:时间为2026年1月15日,地点为公司总部礼堂,活动内容包括颁奖仪式、互动游戏和晚宴三个环节,语气需正式且热情。8.3提示词设计8.3.4提示词的优化方法2.精炼提示词提示词内容过于冗长或复杂时,可能导致AIGC难以抓住核心要求。精炼提示词可以剔除多余信息,突出重点,提升生成效果。用户可删除提示词中不必要的修饰词,保留核心信息,让任务指令更加明确。下面举例说明。初始提示词:撰写一篇适合年轻人阅读的关于时间管理的励志文章,内容要有吸引力,并且要有具体的例子,文章不要太长。优化提示词:为年轻人撰写一篇关于时间管理的励志文章,需包含具体例子,篇幅800字以内。优化后,提示词则更简洁,任务更明确,生成内容也更符合预期。8.3提示词设计8.3.4提示词的优化方法3.加入示例引导提供具体的参考模板或示例有助于AIGC更准确地理解任务目标,生成的内容更贴合需求。用户可在提示词中加入示例,引导生成具有相同结构或风格的文章内容。下面举例说明。初始提示词:撰写一份关于员工奖励的通告。生成的内容空洞,缺乏具体的奖励内容。优化提示词:请根据以下提供的示例,撰写一份员工奖励通告。示例为:公司决定对销售部员工王××进行奖励,奖励原因是其在2025年度业绩额突破200万元。奖励方式为现金奖励50000元,特此通告。加人示例后,AIGC会模仿示例中的语言风格和格式,生成一份结构清晰、语气正式的奖励通告。8.3提示词设计8.3.4提示词的优化方法4.分步式输入将复杂任务分解为多个子任务逐步完成,能有效避免生成内容的逻辑混乱或要点缺失。用户可按逻辑顺序拆分任务,分别生成后再进行整合。例如,假设需要AIGC撰写一份商业计划书,可通过以下方式进行操作。提示词1:撰写商业计划书的市场分析部分,需包括目标市场、市场规模及竞争分析。提示词2:生成商业计划书的财务预测部分,需包括收入预测、成本分析和盈利能力。提示词3:撰写商业计划书的执行方案部分,列出具体实施步骤。分段生成的内容更加完整且逻辑清晰,最终整合为一份专业的商业计划书。学习单元8大语言模型与AIGC8.1大语言模型概述8.2AIGC简介8.3提示词设计8.4实训8.5拓展知识高职高专人工智能通识课规划教材8.4实训实训1使用DeepSeek+Kimi一键生成PPT(1)访问并登录DeepSeek网站,使用“深度思考”模式,在提示词文本框中输入用户的需求,按Enter键提交,如图8-15所示。8.4实训实训1使用DeepSeek+Kimi一键生成PPT(2)DeepSeek经过推理后开始生成PPT大纲,单击“复制”按钮8.4实训实训1使用DeepSeek+Kimi一键生成PPT(3)访问并登录Kimi网站,单击页面左侧的“Kimi+”按钮,在打开的页面中选择“PPT助手”选项8.4实训实训1使用DeepSeek+Kimi一键生成PPT(4)在打开的页面下方的文本框中粘贴复制的内容,按Enter键提交,Kimi将自动调整并生成PPT内容,生成完成后单击“一键生成PPT”按钮。8.4实训实训1使用DeepSeek+Kimi一键生成PPT(5)在打开的模板页面选择合适的模板,在其中可设置模版场景和模版风格,完成后单击“一键生成PPT”按钮。8.4实训实训1使用DeepSeek+Kimi一键生成PPT(6)Kimi开始生成PPT,完成后单击页面右上角的“下载”按钮将其下载到计算机中。8.4实训实训2使用即梦AI平台实现文生图和文生视频(1)在浏览器中打开“即梦AI”平台,单击页面右上角的“登录”按钮,可以使用手机抖音App扫码登录,或者使用“手机号+验证码”方式登录。8.4实训实训2使用即梦AI平台实现文生图和文生视频(2)登录成功后,选择“图片生成”选项卡,在“提示词”文本框中输入生成图片的文本描述“一位女学生坐在图书馆的教室里看书,教室里干净整洁,光线明亮,窗外在下着小雨,女学生神态自然,手里握着一支铅笔。”(3)设置图片生成参数。这里选择“图片生成模型”为“图片3.1”,选择“图片比例和分辨率”为“16:9|标清1K”。8.4实训实训2使用即梦AI平台实现文生图和文生视频(4)单击“提交”按钮,平台会自动生成4张不同风格的图片,如图8-23所示,选中一张合适的图片,这里选择第4张图片。8.4实训实训2使用即梦AI平台实现文生图和文生视频(5)单击“下载”按钮,可以把生成的图片保存在计算机中。(6)单击“生成视频”按钮,生成的图片会自动添加到图片下方的文本框中,作为视频的首帧,然后在文本框中输入提示词“下课铃响了,女学生整理书和笔,准备离开教室。”(7)设置视频生成参数。这里选择“视频模型”为“视频3.0”,“分辨率”为“自动匹配|720P”,“视频时长”为“5s”,“运镜”为“动感环绕”。8.4实训实训2使用即梦AI平台实现文生图和文生视频(8)单击“提交”按钮,平台开始自动生成视频。(9)为视频添加配乐。视频生成完成后,单击视频右下角的“AI配乐”按钮。8.4实训实训2使用即梦AI平台实现文生图和文生视频(10)在打开的“AI配乐”对话框中,选中“根据画面配乐”单选按钮,单击对话框右下角的“生成AI配乐”按钮,如见图8-26所示。8.4实训实训2使用即梦AI平台实现文生图和文生视频(11)平台自动根据画面为视频配3种音乐,根据需要选择某一种配乐,这里选择“配乐2”作为视频配乐。(12)单击“下载”按钮,可以把生成的带水印的视频保存在计算机中。8.4实训实训3使用蝉镜平台生成数字人播报视频(1)在浏览器中打开“蝉镜”平台,单击页面右上角的“登录/注册”按钮,可以使用微信扫码登录,或者使用“手机号+验证码”方式登录。(2)成功登录后,在主界面中单击“创建数字人视频”按钮。8.4实训实训3使用蝉镜平台生成数字人播报视频(3)在打开的“选择空白模板比例”对话框中,选择“横版16:9”选项,单击“立即创建”按钮。8.4实训实训3使用蝉镜平台生成数字人播报视频(4)在打开的创作界面中,选择左侧的“数字人”标签,选择某一合适的数字人。在右侧的“数字人设置”面板中,可以设置数字人的服装、展示形式(站姿/头像)、数字人驱动(顺序驱动/随机驱动)、视频循环(从头播放/正反播放)等。8.4实训实训3使用蝉镜平台生成数字人播报视频(5)选择左侧的“背景”标签,选择某一合适的背景图片。8.4实训实训3使用蝉镜平台生成数字人播报视频(6)选择左侧的“文本”标签,添加“标题”文本。在右侧的“文本设置动画”面板中,输入标题内容“数字人播报演示”,根据需要可以设置标题的样式、字体、字号等。8.4实训实训3使用蝉镜平台生成数字人播报视频(7)单击空白处,在界面右侧的“输入文本音频/录音”面板中,输入脚本文字(不超过4000字),并开启“字幕”。选择一个合适的配音。8.4实训实训3使用蝉镜平台生成数字人播报视频(8)单击“声音控制”按钮,在打开的的页面中可以设置语速、语调和音量。(9)在

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论