人工智能通识教程课件 第5章 AIGC 工具基础应用_第1页
人工智能通识教程课件 第5章 AIGC 工具基础应用_第2页
人工智能通识教程课件 第5章 AIGC 工具基础应用_第3页
人工智能通识教程课件 第5章 AIGC 工具基础应用_第4页
人工智能通识教程课件 第5章 AIGC 工具基础应用_第5页
已阅读5页,还剩73页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ArtificialIntelligenceAIGC工具基础应用第5章编者:×××5.1文本类AIGC的应用5.2图像类AIGC的应用音频类AIGC的应用5.3视频类AIGC的应用5.4章节实训与思考5.55.1.1内容生成与创作文本类AIGC工具在内容生成与创作领域的应用范围极为广泛,几乎覆盖所有涉及文字处理的场景。AIGC工具不仅能为用户提供写作思路,还能有效帮助用户克服“写作障碍”,激发创作灵感。内容生成与创作的提示词模板如下。用户在实际应用时可在该模板的基础上进行修改与调整。5.1.1内容生成与创作下面使用文心一言生成平板电脑的宣传文案,具体操作如下。在文心一言中输入如下提示词,单击“提交”按钮。5.1.1内容生成与创作文心一言的回复如图所示。AIGC工具生成的内容并不完全符合实际情况,需要用户根据实际情况对文档的内容进行修改与调整。5.1.2文本改写与润色文本改写与润色是利用文本类AIGC工具对已有文本进行风格、语气、结构或表达方式的优化与转换。这不仅是简单的语法纠错,更涉及对文本深层含义和语境的理解。AIGC工具可以根据用户的需求,将一段口语化的文字改写成书面语的,将一篇学术性强的文章改写成通俗易懂的科普文,或者将一段平淡的描述改写成富有感染力的广告文案。文本改写与润色的提示词模板如下。用户在实际应用时可在该模板的基础上进行修改与调整。5.1.2文本改写与润色下面使用DeepSeek转换一段文本的风格,具体操作如下。在DeepSeek中输入如下提示词,单击“提交”按钮。DeepSeek的回复内容如下。5.1.3交互对话与问答交互对话与问答是文本类AIGC工具重要的功能之一,它标志着人机交互从传统的“关键词搜索-浏览结果”模式,向更自然、更高效的“智能对话”模式演进。文本类AIGC工具则能够直接理解用户的自然语言提问,并以对话的形式直接提供整合后的答案。更重要的是,文本类AIGC工具具备上下文记忆能力,能够进行多轮对话,根据用户的追问不断修正和深化答案,实现真正的“有问有答,有来有往”。这种交互方式极大地降低了信息获取的门槛,提升了效率,使人与机器的交流体验越来越接近于与真人专家对话。在和AIGC工具进行交互对话与问答时,需要先为其设定一个身份,并设置回答的风格、问题范围,以及回答字数等要求,这样才能引导AIGC工具生成更符合需求、更精准有效的回答,充分释放其在特定场景下的专业潜力。5.1.3交互对话与问答下面与豆包进行摄影知识问答,具体操作如下。在豆包中输入如下提示词,单击“提交”按钮。豆包的回复内容如下。5.1.3交互对话与问答在豆包中继续输入各种问题,并查看豆包的回复5.1.4信息提取与总结信息提取与总结是文本类AIGC工具处理海量信息的一项关键能力。我们每天都被大量的文本信息包围,如新闻文章、研究报告、会议记录、法律文件等,这些信息大多是非结构化的。用户直接阅读和理解需要耗费大量时间。信息提取的目的就是将这些非结构化文本中的关键信息识别并抽取出来,转化为结构化的数据。而文本总结则是在此基础上,进一步将长文本的核心内容压缩成简洁的摘要,帮助用户快速把握要点。信息提取与总结的提示词模板如下。用户在实际应用时可在该模板的基础上进行修改与调整。5.1.4信息提取与总结下面使用千问为网页中的一篇新闻撰写摘要,具体操作如下。在浏览器中打开一篇新闻的网页,并在地址栏中复制其网址,如图所示。5.1.4信息提取与总结在千问中输入如下提示词,并将网址粘贴在最后,单击“提交”按钮,并查看千问的回复。5.1.5语言翻译与学习AIGC工具在语言领域的功能远不止于简单的文本翻译。多语言实时翻译是其基础功能,无论是网页、文档还是实时对话,文本类AIGC工具都能提供快速、高质量的翻译服务,极大地促进了跨语言交流。下面使用智谱清言将一篇英文文章翻译成中文,具体操作如下。在智谱清言中输入如下提示词,单击“提交”按钮。5.1.5语言翻译与学习智谱清言的回复内容如下。5.1.6创意激发与头脑风暴创意激发与头脑风暴的核心是将AIGC工具视为一个不知疲倦、思维发散的创意伙伴,而非简单的执行工具。传统的头脑风暴依赖团队成员的知识背景和经验,容易陷入思维定式。而文本类AIGC工具由于其训练数据的海量性和跨领域性,能够打破常规,从意想不到的角度提供创意点,从而极大地拓宽人类的创意思维边界。在设计用于激发创意和开展头脑风暴的提示词时,需关注以下几个关键要点。明确具体场景与目标保留一定的开放空间精准传递风格偏好需要清晰地向AIGC工具说明创意应用的具体领域、核心需求及预期效果,防止其输出的内容偏离既定方向。在设定提示词时,应避免设置过于严苛的限制条件。可以通过“提供多元视角”“结合跨领域的案例”等表述方式,引导AIGC工具进行发散性思考。需要明确指出创意的基调、目标受众的特点等关键信息。同时,还可以加入“补充非常规思路”等指令,引导AIGC工具挖掘潜在的创意方向。5.1.6创意激发与头脑风暴下面使用腾讯元宝策划一场在海边城市举办的夏日旅游活动,吸引年轻游客,具体操作如下。在腾讯元宝中输入如下提示词,单击“提交”按钮。腾讯元宝的回复内容如下。5.1文本类AIGC的应用5.2图像类AIGC的应用音频类AIGC的应用5.3视频类AIGC的应用5.4章节实训与思考5.5图像类AIGC工具正在彻底改变我们创造和编辑视觉内容的方式。这些工具基于先进的深度学习模型,能够根据文本描述或现有图像生成高质量、富有创意的图像。它们不仅降低了艺术创作的门槛,让没有绘画基础的人也能将想象力转化为视觉作品,还为专业设计师提供了强大的辅助工具,极大地提升了图像处理的效率。图像类AIGC工具种类繁多,主要可分为以下几种类型。部分AI大模型具备图片生成与修改功能,如文心一言和豆包。在这些大模型中生成图像的方法与文本类AIGC工具的使用方法类似,无须进行过多的参数设置,用户只需在提示词中明确所有需求。AI大模型。01这类工具专注于提供AIGC图像生成服务,除了提示词,还允许用户设置模型、画面比例、风格等参数,以满足多样化的图像生成需求,如即梦AI、通义万相等。AIGC图像生成工具。02这类工具通常集成了丰富的AIGC图像编辑功能,如360AI办公中的AI图片功能、百度图像的AI编辑功能等。AIGC图像编辑工具。035.2.1文生图文生图功能的核心是将人类的语言描述转化为视觉图像。只需用户输入提示词,AIGC工具便能生成相应的图像。文生图的功能主要体现在以下几个方面。支持生成多种艺术风格的图像,包括写实摄影、油画、水彩、插画、赛博朋克、动漫、抽象艺术等。用户可以通过在提示词中加入风格关键词来控制最终效果。多风格生成12对于设计师和创意工作者而言,文生图是强大的灵感来源和素材库。它可以快速生成大量创意草图,帮助他们探索不同的视觉方向,或直接生成可用的设计素材,如海报背景、产品概念图等。创意激发与素材生成34用户可以非常具体地描述画面内容,包括主体、场景、颜色、构图、光影、情绪等。高灵活性与定制性文生图功能被集成到了更广泛的设计平台中,允许设计师在设计工作流中直接调用,极大地提高了工作效率。集成与协作5.2.1文生图下面使用文心一言为《星际遗民》科幻游戏设计场景图,具体操作如下。在文心一言中选择“智慧绘图”选项,在对话框中输入如下提示词,然后单击“提交”按钮。文心一言开始生成图像,完成后的效果如图所示,选择一张合适的图像进行下载。5.2.2图生图图生图即AIGC工具以输入的图像为“骨架”或“底稿”,然后根据用户提供的文本提示词或预设的风格,对输入的图像进行修改、填充或风格转换。AIGC工具会首先对输入的图像进行编码,提取其主要的结构、内容和语义信息,然后在生成过程中,将这些信息作为强约束条件,在保留原图基本形态的基础上,按照用户的指令进行创造性改变。这种方式极大地提升了AIGC工具绘画的可控性,使用户能够更精确地干预生成结果。图生图在实际应用中非常广泛,为设计师和艺术家提供了极大便利,其主要可实现以下操作。用户可以将一张普通的照片,通过图生图功能,转换成不同的艺术风格,如油画、水彩、动漫、赛博朋克等。图像风格转换对于插画师和设计师来说,图生图是一个高效的辅助工具。他们可以先手绘一个简单的线稿或灰度草图,然后使用图生图功能,让AIGC工具自动为其上色、添加光影、丰富细节,从而快速将初步构思转化为完整的彩色图像。草图上色与细化用户也可以上传一张彩色图像,通过图生图功能,让AIGC工具将其转换为干净的线稿图。线稿生成5.2.2图生图下面使用即梦AI利用一张建筑草图生成真实照片效果图像,具体操作如下。在即梦AI中选择“图片生成”选项,上传“建筑草图.jpg”,并输入“现代城市大楼的施工工地,真实照片。”提示词,设置模型为“图片4.0”,画面比例为“16:9”,分辨率为“高清2K”,单击“提交”按钮,如图所示。即梦AI开始生成图像,原始草图和生成后的效果对比如图所示。选择一张合适的图像进行下载。5.2.3无损放大无损放大是通过算法处理来扩大图像尺寸,同时尽可能地保留原始图像的细节、清晰度和锐度,避免模糊、像素化等问题的一种技术和方法。无损放大不仅能放大图像尺寸,还能在放大过程中锐化像素边缘、丰富纹理、减少噪点,使放大后的图像看起来更加清晰、真实和富有细节。下面使用Bigjpg将中秋节海报图像无损放大4倍,具体操作如下。在Bigjpg网站中上传“中秋节.png”,单击“开始”按钮,如图所示。5.2.3无损放大打开“放大配置”对话框,设置图像类型为“卡通/插画”,放大倍数为“4x”,降噪程度为“最高”,单击“确定”按钮,如图所示。bigjpg开始放大图像,完成后单击“下载”按钮下载图像,放大前后的图像效果对比如图所示。5.2.4局部擦除局部擦除在技术上属于图像修复的一种应用,其核心原理是利用AIGC工具理解图像的整体内容和上下文信息,然后智能地移除用户指定的区域,并用与周围环境相协调的新内容来填充该区域,仿佛该区域的原内容从未存在过。AIGC工具在生成填充内容时,会参考蒙版边缘的像素信息和整个图像的语义信息,以确保填充部分在颜色、纹理、光影和透视上都与背景无缝融合。这使得局部擦除不仅是简单的“剪切-复制”,而是一种更具智能化和艺术性的“修复”过程。下面使用豆包擦除照片中多余的人物,具体操作如下。在豆包中选择“AI创作”选项,在打开的页面中选择“擦除”选项,如图所示,在打开的对话框中选择“杜甫草.png”图像。5.2.4局部擦除豆包开始擦除所选区域的内容,完成后的效果如图所示。在打开的页面中涂抹要擦除的区域,然后单击“擦除所选区域”按钮,如图所示。5.2.5局部重绘局部重绘与局部擦除在技术上同源,都依赖图像修复技术。不同之处在于,局部重绘更侧重“替换”而非“移除”。用户不仅指定了需要修改的图像区域,还通过文本提示词明确告诉AIGC工具希望在该区域生成什么样的新内容。AIGC工具会结合原图和用户的提示词,在指定的蒙版区域内进行创造性生成。这使得用户可以对图像的局部细节进行精确的控制和修改。下面使用豆包局部重绘图像中的猫咪嘴巴,具体操作如下。在打开的页面中涂抹要重绘的区域,然后输入“叼着一条鱼”提示词,单击“提交”按钮。在打开的页面中涂抹要重绘的区域,然后输入“叼着一条鱼”提示词,单击“提交”按钮,如图所示。5.2.5局部重绘豆包开始替换所选区域的内容,完成后的效果如图所示。5.2.6画质增强画质增强的核心在于通过算法改善因拍摄条件不佳或压缩过度导致的图像质量问题。其技术原理主要涉及图像降噪和细节锐化两个方面。图像降噪旨在去除图像中的噪点,这些噪点通常在低光照或高感光度下产生。人工智能降噪模型能够智能地区分噪点和真实的图像细节,从而在去除噪点的同时最大限度地保留原始信息。细节锐化则是通过增强图像像素边缘的对比度,使模糊的轮廓变得更加清晰,从而提升图像的整体清晰度和观感。下面使用360AI办公增强风景图像的画质,具体操作如下。在360AI办公中选择“AI图片”选项,然后选择“照片画质增强”选项,如图所示。5.2.6画质增强在打开的页面中上传“风景.png”图像,上传完成后,360AI办公将开始增强图像的画质。增强前后的对比效果如图所示。单击“立即下载”按钮下载画质增强后的图像。5.2.7风格迁移风格迁移旨在将图像的艺术风格转换为用户指定的风格,并完整保留原图的主体结构与关键信息。该功能基于卷积神经网络等深度学习技术,将原图像内容特征与指定的风格进行融合,生成的新图像既保持原内容辨识度,又具有目标风格。下面使用百度图片将“一只猫”图像转换为梵高风格,具体操作如下。在百度图片网站中选择“图片编辑”选项,如图所示。在打开的页面中选择“换风格”选项,上传“一只猫.png”图像,然后选择“梵高”选项。5.2.7风格迁移百度图片开始转换图像的风格,完成后的效果如图所示。5.2.8扩图扩图也称为图像外延或智能扩展,其核心是在一张现有图像的基础上,智能地向外扩展其边界,即扩展图像尺寸,同时在扩展区域生成与原始图像在内容、风格和光影上保持高度统一的新画面。AIGC工具会先分析原始图像的边缘信息、整体内容和艺术风格。然后,在用户指定的扩展方向上,AIGC工具会“想象”并生成新的像素内容,填补扩展后产生的空白区域。下面使用百度图片将宽高比为1:1的“红灯笼”图像扩展为16:9的,具体操作如下。在百度图片网站中选择“图片编辑”选项。在打开的页面中选择“扩图”选项,上传“红灯笼.png”图像,选择“16:9”选项,然后单击“立即扩图”按钮,如图所示。5.2.8扩图百度图片开始扩展图像,完成后将生成4幅图像,如图所示。选择一张合适的图像进行下载。5.2.9智能抠图与背景替换智能抠图与背景替换是指利用图像分割技术将图像中的“前景主体”与“背景”精确地分离开来,极大地简化了过去需要专业软件和烦琐操作才能完成的复杂任务。下面使用360AI办公批量替换4张沐浴露产品图片的背景,具体操作如下。在360AI办公网站中选择“AI图片”选项,然后选择“批量抠图”选项,如图所示。在打开的页面中上传4张沐浴露产品图像,展开“批量换背景”栏,选择“清新风格”选项,然后单击“开始处理”按钮,如图所示。5.2.9智能抠图与背景替换360AI办公开始依次替换每张图像的背景,完成后的效果如图所示。5.1文本类AIGC的应用5.2图像类AIGC的应用音频类AIGC的应用5.3视频类AIGC的应用5.4章节实训与思考5.5音频类AIGC技术目前正以前所未有的深度与广度,广泛渗透至各行各业,其并非仅仅局限于让机器实现“说话”或“听懂”的功能,而是通过模拟、创造和转换声音,重塑内容生产、人机交互及艺术创作方式,音频类AIGC技术正将以往需要专业设备和大量人力才能完成的复杂任务,转化为普通人也能轻松操作的简单事项。音频类AIGC工具主要有语音类工具、音乐生成工具、音频编辑工具3种类型。语音类工具主要提供语音合成、语音识别、声音克隆等服务,常用的工具主要有讯飞智作、魔音工坊等。语音类工具。01音乐生成工具主要提供音乐和歌曲生成服务,常用的工具主要有网易天音、海绵音乐、Suno等。

音乐生成工具。02音频编辑工具主要提供各种不同的音频编辑功能,如TEMStudio、大饼AI变声等。

音频编辑工具。035.3.1语音合成语音合成技术是一种将基本语音信息数字化,然后利用计算机系统模拟出人类声音的技术。这种技术也简称为TTS,意为“从文本到语音”,是一种先进的人工智能技术,其核心功能是将文本信息精准转换为自然流畅的语音输出。5.3.1语音合成下面使用讯飞智作制作电饭煲广告音频,具体操作如下。进入讯飞智作首页,单击“讯飞配音”,进入相应页面。在左侧输入电饭煲广告文案,在主播列表中选择“聆小璇”选项,然后设置主播的语速、语调、音量增益等参数,如图所示。5.3.1语音合成单击“生成音频”按钮,打开“作品命名”对话框,设置名称为“电饭煲”,单击选中“mp3”单选按钮,单击“确认”按钮,如图所示。打开“订单支付”对话框,单击“去下载”按钮。在打开的页面的“音频”列表中单击“电饭煲”选项后的“下载”按钮下载音频文件,如图所示。5.3.2语音识别语音识别是语音合成的逆过程,其目标是将人类的语音信号转换为计算机可读的文本格式。这项技术是实现自然、高效的人机交互的关键。其基本原理是:系统首先通过麦克风等设备采集音频信号,并进行预处理,如降噪、端点检测。接着,系统会从音频信号中提取能够代表其声学特性的特征参数,如梅尔频率倒谱系数。最后,利用声学模型将这些声学特征映射到音素或字符单元,同时结合语言模型预测最可能的词序列,从而输出最终的文本结果。近年来,随着大模型技术的应用,语音识别技术的准确率、实时性,以及对不同口音、语速的适应性都得到了显著提升,甚至能够区分不同说话人,实现“角色分离”。5.3.2语音识别下面使用千问的音视频速读功能将糕点广告音频转换为文本,具体操作如下。进入千问网站页面,单击“音视频”按钮,进入“音视频速读”页面。上传“糕点广告音频.mp3”文件,设置音视频语言为中文,单击“确认”按钮,如图所示。千问开始识别音频文件中的语音信息,并将其转换为文本。转换完成后,在“最近记录”栏中选择“糕点广告音频”选项,如图所示。5.3.2语音识别在打开的页面中可以看到转换后的文本内容,以及根据文本内容生成的导读、脑图等内容。在页面右上角单击“导出”按钮,再在打开的对话框中单击“导出”按钮下载文件,如图所示。5.3.3语音克隆语音克隆,也称作声音复制或声音转换,旨在生成与目标说话人极为相似且独一无二的“声音复制品”。进行语音克隆时,需要先获取一段目标人物的语音样本,AIGC工具会从该样本中提取能代表目标人物声音特征的声纹。到了生成阶段,AIGC工具会把提取的声纹与要合成的文本内容相融合,再借助解码器生成具备目标人物声音特征的音频波形。图所示为讯飞智作的“声音复刻”功能界面(局部),用户只需上传一段朗读文本的音频文件,讯飞智作即可复刻其中的声音,用作语言克隆。5.3.4音乐生成AIGC工具可以利用人工智能算法自动创作音乐,包括旋律、和声、节奏甚至歌词。音乐生成背后的技术原理多种多样,早期的方法包括基于规则的专家系统和马尔可夫链模型,它们通过模仿音乐理论规则或学习现有音乐作品的概率分布来生成音乐。而现代的音乐生成技术则主要依赖深度学习,特别是循环神经网络、长短期记忆网络和Transformer架构,能够学习海量音乐数据中的长期依赖关系和复杂结构,从而创作出风格多样、结构完整的音乐作品。注册并登录海绵音乐,单击“创作”按钮,进入创作页面,选择“纯音乐”选项卡,在其中输入“轻盈竖琴点缀自然环境音,营造萌宠视频的治愈系氛围”提示词,并设置时长为“60秒”,单击“生成音乐”按钮。下面使用海绵音乐生成一段适合萌宠视频的背景音乐,具体操作如下。5.3.4音乐生成海绵音乐将生成3首纯音乐,并自动播放。选择一首满意的音乐,单击其右侧的“分享”按钮,在打开的列表中选择“下载音频”选项,下载音乐文件,如图所示。5.3.5音频分离音频分离,也称作音轨分离或者人声分离,它的作用是把一段混合了多种声源的音频信号,拆分成若干相互独立、仅包含单一声源的音频信号。AIGC工具借助大量由独立音轨混合而成的音频数据进行训练,学会从复杂的混合波形里识别并提取特定乐器或人声的声学特征,进而达成高精度的分离效果。以TMEStudio中的音乐分离功能为例,其提供“声伴分离”和“多轨分离”两种分离方式,如图所示。5.3.5音频分离其中,声伴分离可以将歌曲等音频文件中的歌声和伴奏分离成两个音轨;而多轨分离则可以将歌曲等音频文件中的歌声和每一种乐器都单独分离成一个音轨,如图所示。5.3.6AI变声AI变声是一种能够实时或离线改变用户声音特征的AIGC技术,可以将输入的语音信号进行转换,使其在音色、音调、语速等方面发生改变,从而听起来像另一个人的声音,或者像卡通人物、机器人等虚构角色的声音。其技术原理与语音克隆有相似之处,都涉及对声音特征的提取和转换。但AI变声更侧重于实时的、动态的转换,并且通常提供多种预设的“声音面具”供用户选择。AIGC工具会学习源声音和目标声音之间的映射关系,并在用户说话时,实时地将源声音的特征转换为目标声音的特征。例如,大饼AI变声能够模拟非常逼真的自然人声效果,并提供丰富多样的语音转换功能,包括实时变声、文字转语音、声音复刻等,支持多场景应用,兼容多种游戏和语音客户端,满足用户的多样化变声需求。大饼AI变声的界面(局部)如图所示。5.1文本类AIGC的应用5.2图像类AIGC的应用音频类AIGC的应用5.3视频类AIGC的应用5.4章节实训与思考5.5视频类AIGC技术旨在利用人工智能算法,自动化或半自动化地完成视频的生成、编辑、修复和增强等一系列复杂任务。从根据文本或图片直接生成视频,到让静态图片“动”起来,再到智能剪辑、画质修复,视频类AIGC技术正在将过去需要专业团队和昂贵设备才能完成的视频制作流程,变得像文字处理一样简单高效,极大地降低了视频创作的门槛。视频类AIGC工具主要分为视频生成工具、数字人工具和视频编辑工具3种类型。视频生成工具主要有通义万相、即梦AI等。此外,一些常见的视频剪辑软件,如快影、剪映等,也集成了视频生成功能。视频生成工具。01数字人工具主要有讯飞智作、即梦AI等,这些工具能够为用户提供从2D超写实到3D卡通的多种数字人制作服务。

数字人工具。02视频编辑工具主要有360AI办公中的AI视频工具、牛小影等,它们为用户提供了视频画质增强、视频去水印、智能抠像、视频修复、AI截视频等多种智能的视频编辑功能。

视频编辑工具。035.4.1文生视频文生视频是指根据用户输入的文本描述,直接生成一段连贯、有逻辑的视频内容。这项技术的实现极具挑战性,因为它不仅需要生成空间上合理的单帧图像,还需要确保帧与帧之间在时间维度上的连贯性和一致性,即生成合理的运动。目前,主流的文生视频模型是通过在包含大量“视频-文本”对应的数据集上训练,学习如何从一个充满噪声的视频片段开始,逐步“去噪”,并根据文本提示生成符合描述的视频序列。这个过程需要模型具备对物理世界、物体运动和因果关系的深刻理解。进入即梦AI网站页面,选择“视频生成”选项。下面使用即梦AI生成一个10秒的宇航员在火星表面行走的视频片段,具体操作如下。在文本框中输入“一名孤独的宇航员在火星表面缓缓行走,背景是广袤无垠、覆盖着尘埃的红色星球地貌;光线效果富有张力,整体呈现科幻电影的风格”,设置模型为“视频3.0”,画面比例与分辨率为“16:9720P”,时长为“10s”,单击“提交”按钮,如图所示。5.4.1文生视频即梦AI将根据提示词生成一段视频,视频生成结果界面(局部)如图所示。5.4.2图生视频图生视频是指输入一张或多张静态图像,通过人工智能技术为其添加动态效果,从而生成一段视频。与文生视频从零开始生成所有内容不同,图生视频保留了输入图像的主体内容和构图,主要任务是为静态的画面赋予“生命力”。其技术原理通常是基于扩散模型。模型会学习如何根据一张静态图像推断合理的运动模式,如物体的摆动、镜头的平移、光影的变化等,并生成一系列连贯的帧,形成动态效果。这项技术极大地降低了视频制作门槛,使用户无须拍摄视频,只需一张图片就能创造动态的视觉内容。进入即梦AI网站页面,选择“视频生成”选项,设置模式为“智能多帧”,单击“第1帧”按钮,在打开的对话框中上传4张熊猫图像,如图所示。下面使用即梦AI,利用4张熊猫图像生成一个熊猫唱歌的视频片段,具体操作如下。5.4.2图生视频单击左侧第1个“添加画面描述”按钮,打开“运镜描述”对话框,输入“熊猫唱歌”文本,单击“确认”按钮,如图所示。使用相同的方法设置第2个和第3个“运镜描述”的内容为“熊猫唱歌”。单击“提交”按钮,即梦AI将根据提示词生成一段视频,视频生成结果界面(局部)如图所示。5.4.3创建数字人数字人是指利用人工智能技术创建的一个外观、声音、动作甚至表情都与真人高度相似的虚拟人物形象,能够像真人一样进行播报、对话和互动。创建数字人是一个复杂的过程,通常涉及多项AIGC技术的融合。首先,通过3D建模或基于照片、视频的生成技术创建数字人外观;其次,利用语音合成和语音克隆技术赋予其声音;最后,通过动作捕捉、表情捕捉或纯人工智能驱动的方式,让数字人能够进行自然的肢体动作和面部表情的表达。下面使用即梦AI制作一段苏轼朗诵诗歌的视频,具体操作如下。进入即梦AI网站页面,选择“数字人”选项,单击“角色”按钮,在打开的对话框中上传“苏轼.png”图片。单击“音色”按钮,在打开的对话框中选择“儒雅大叔”选项。然后设置“角色说”的内容为“明月几时有?把酒问青天。不知天上宫阙,今夕是何年。我欲乘风归去,又恐琼楼玉宇,高处不胜寒。起舞弄清影,何似在人间。”,设置“动作描述”的内容为“镜头推进,他转过身来正对镜头,摇头晃脑地朗读诗歌”,如图所示。5.4.3创建数字人单击“提交”按钮,即梦AI将根据提示词生成一段视频,视频生成结果界面(局部)如图所示。5.4.4字幕生成字幕生成是指结合语音识别技术和自然语言处理技术,自动将视频中的语音内容转换成带有精确时间轴的字幕文本。其工作流程通常是:通过语音识别技术将视频中的音频轨道转写成文本;然后,利用自然语言处理技术对转写出的文本进行分句和断句处理,并根据语音的时间信息,为每一句话生成对应的开始和结束时间戳,最终生成视频的字幕。这项技术极大地简化了为视频添加字幕的烦琐过程。下面使用360AI办公为苏轼朗诵诗歌的视频添加字幕,具体操作如下。进入360AI办公网站页面,选择“AI视频”选项,在打开的页面中选择“视频加字幕”选项。在打开的页面中上传上一节中生成的“苏轼.mp4”视频文件,然后单击“开始处理”按钮,如图所示。5.4.4字幕生成360AI办公开始将视频中的语音转换为字幕。完成后单击“导出”按钮,在打开的列表中选择“导出视频文件”选项,下载视频文件,如图所示。5.4.5视频去水印视频去水印是指利用人工智能算法,智能识别并移除视频中特定区域的水印、台标、字幕等叠加元素,并使用与周围背景相协调的内容进行填充,使画面看起来干净、完整。其技术原理通常基于图像修复和视频帧间信息融合。AIGC工具会分析水印所在区域在连续多帧中的像素变化,从而“脑补”出水印遮挡下的原始画面内容。下面使用360AI办公去除一段视频的水印,具体操作如下。进入360AI办公网站页面,选择“AI视频”选项,在打开的页面中选择“视频去水印”选项。在打开的页面中上传“城市一角.mp4”视频文件,框选要消除的水印,然后单击“立即生成”按钮,如图所示。360AI办公开始消除视频的水印。完成后单击“下载”按钮下载视频文件,如图所示。5.4.6视频翻译视频翻译是指将一种语言的视频内容,自动翻译成另一种语言的视频内容。这个过程并非简单的文本翻译过程,而是将语音识别、机器翻译和语音合成三大技术串联起来的多模态转换过程。一些先进的视频翻译工具还能实现语音克隆和口型同步,即用人工智能克隆原说话人的声音来说目标语言,并调整视频中人物的口型,使其与新的语言相匹配。下面使用360AI办公将端午宣传短片翻译成英文版本的,具体操作如下。进入360AI办公网站页面,选择“AI视频”选项,在打开的页面选择“视频翻译”选项。在打开的页面中上传“端午宣传短片.mp4”视频文件,然后设置原语言为“中文普通话”,翻译后为“英语”,单击“立即生成”按钮,如图所示。360AI办公开始翻译视频内容。完成后单击“下载视频”按钮下载翻译后的视频文件。5.4.7画质修复视频画质修复是指利用人工智能算法,对画质不佳的视频进行处理,以提升其分辨率、清晰度、色彩饱和度和帧率,并减少噪点和抖动,从而显著改善其视觉观感。下面使用牛小影修复滑雪视频的画质,具体操作如下。打开牛小影,在其主界面中单击“画质修复”中的“直接使用”按钮,如图所示。在打开的对话框中打开“滑雪.mp4”视频文件。进入“视频增强”界面,单击“全面画质检测”右侧的“检测”按钮检测视频画质,再根据其建议设置“AI模型”为“画质修复”,其余设置保持默认不变,然后单击“处理并导出”按钮,如图所示。牛小影开始修复视频的画质,完成后保存修复后的视频文件。5.4.8智能剪辑智能剪辑是指利用人工智能算法,自动分析一段长视频的内容,识别出其中的精彩片段、高光时刻或符合特定规则的片段,并根据预设的模板或节奏,自动将这些片段拼接成一个精练的短视频。这项技术通常结合了计算机视觉、音频分析和自然语言处理等多种人工智能技术,从而更精确、深入地理解视频的内容和结构,实现智能化的剪辑决策。下面使用剪映将一段视频智能剪辑为多个短视频,具体操作如下。打开剪映,在其主界面中单击“AI切片”按钮,如图所示。在打开的对话框中打开“美食制作视频.mp4”视频文件。在“AI切片”界面单击“一键切片”按钮,如图所示。剪映会自动将视频剪辑为两个短片,将鼠标指针移动到要导出的视频短片上,单击“导出”按钮导出该视频,如图所示。5.1文本类AIGC的应用5.2图像类AIGC的应用音频类AIGC的应用5.3视频类AIGC的应用5.4章节实训与思考5.5实训1使用DeepSeek生成一篇推广文案1.需求分析小王是一家公司的文案策划实习生,公司新推出“仙韵”植物精油助眠喷雾产品,需要使用AIGC工具快速生成一篇朋友圈推广文案。2.思路设计明确产品核心卖点。0102设计不同风格的提示词。03多维度优化提示词。实训1使用DeepSeek生成一篇推广文案3.操作实现(1)打

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论