人工智能基础与应用课件 ch03 动态视界：AI生成视频技术的创新与应用

上传人：h*** IP属地：山东上传时间：2026-02-16 格式：PPTX 页数：174 大小：15.25MB 积分：15 举报 版权申诉

人工智能基础与应用课件 ch03 动态视界：AI生成视频技术的创新与应用_第2页

人工智能基础与应用课件 ch03 动态视界：AI生成视频技术的创新与应用_第3页

人工智能基础与应用课件 ch03 动态视界：AI生成视频技术的创新与应用_第4页

人工智能基础与应用课件 ch03 动态视界：AI生成视频技术的创新与应用_第5页

已阅读5页，还剩169页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

动态视界：AI生成视频技术的创新与应用人工智能基础与应用项目301AI生成视频技术AI生成视频技术的发展20世纪50年代，计算机科学家开始探索如何使用计算机生成简单的图形和动画。这一时期的研究主要集中在基础算法和理论构建上。20世纪80～90年代，早期动画软件（如SoftImage、3DStudioMax等）的出现，使得计算机生成动画变得更加普及。这些软件主要用于电影和电视产业中的特效制作。早期实验与基础研究（1950—1999年）2006年，深度学习算法，特别是卷积神经网络（ConvolutionalNeuralNetwork，CNN）在图像识别任务中取得了突破性进展。这为后续的视频生成奠定了基础。循环神经网络（RecurrentNeuralNetwork，RNN）及其变体［长短期记忆网络（LongShort-TermMemory，LSTM）、门控循环单元（GatedRecurrentUnit，GRU）］擅长处理序列数据，因此在视频帧之间的时间依赖关系建模中发挥了重要作用。深度学习的崛起（2006年至今）AI生成视频技术的发展2014年，IanGoodfellow等人提出生成对抗网络（GAN），这种架构迅速成为生成逼真图像和视频的强大工具。GAN通过两个神经网络——生成器和判别器的对抗训练，提高了生成内容的质量。研究人员开始将GAN应用于视频生成任务，尽管早期主要聚焦于短视频片段和简单动画。生成对抗网络的应用（2014年至今）2017年提出的Transformer模型在自然语言处理（NLP）领域取得了巨大成功，并很快被应用到计算机视觉任务中。其强大的特征提取和序列建模能力为AI生成视频带来了新的可能性。2018年后，多模态学习兴起，其结合文本、音频和图像等多种模态的数据进行训练，使得AI能够生成更加丰富和多样化的内容。例如，DALL-E和CLIP等模型实现了将文本描述转化为图像或视频。大规模预训练模型与多模态学习（2018年至今）

AI生成视频技术的基本原理AI生成视频技术的原理主要依赖于深度学习模型，特别是生成对抗网络（GAN）和变分自编码器（VAE）等技术。这些模型能够从大量数据中学习视频生成的规律，并通过用户输入的文本或图像来生成相应的视频。AI生成视频技术的应用场景包括广告制作、电影预告片生成、教育课程视频制作等，能够显著提高视频创作的效率和多样性。

AI生成视频技术的基本原理通过AI生成视频技术，用户可以轻松地将创意转化为生动的视频，满足不同的创作需求。AI生成视频技术的基本原理涉及多个复杂的步骤和算法，主要包括以下几方面。数据收集与预处理首先，需要收集大量的视频数据，这些数据可以来自公开的视频库、社交媒体平台或专门拍摄的素材。收集到的数据需要进行预处理，包括清洗、标注和格式化等，以便后续的训练和使用。特征提取使用深度学习模型（如卷积神经网络模型）从视频帧中提取关键特征。这些特征可能包括颜色、纹理、形状、运动轨迹等，它们对于AI理解和生成视频至关重要。

AI生成视频技术的基本原理通过AI生成视频技术，用户可以轻松地将创意转化为生动的视频，满足不同的创作需求。AI生成视频技术的基本原理涉及多个复杂的步骤和算法，主要包括以下几方面。序列建模视频是由一系列连续的帧组成的，因此需要对视频序列进行建模。这通常使用循环神经网络（RNN）或其变体（如LSTM、GRU），它们能够处理序列数据并捕捉时间上的依赖关系。生成模型常用的生成模型是生成对抗网络（GAN），它由一个生成器和一个判别器组成。生成器负责创建新的视频帧，而判别器则负责评估这些帧的真实性。

AI生成视频技术的基本原理通过AI生成视频技术，用户可以轻松地将创意转化为生动的视频，满足不同的创作需求。AI生成视频技术的基本原理涉及多个复杂的步骤和算法，主要包括以下几方面。自然语言处理（NLP）如果视频包含字幕或对话，则可以使用NLP技术，其可以理解和生成自然语言文本。这有助于提升视频的可访问性和互动性。语音合成对于有声视频，语音合成技术可以将文本转换为自然流畅的语音。这在生成带有解说或对话的视频时非常有用。

AI生成视频技术的基本原理通过AI生成视频技术，用户可以轻松地将创意转化为生动的视频，满足不同的创作需求。AI生成视频技术的基本原理涉及多个复杂的步骤和算法，主要包括以下几方面。图像识别与跟踪计算机视觉技术用于识别与跟踪视频中的物体、人物和场景。这对于创建连贯且逻辑性强的视频非常重要。个性化推荐基于用户的历史行为和偏好，AI可以生成个性化的视频推荐。这通常涉及协同过滤、内容基于推荐或混合推荐系统等算法。

AI生成视频技术的基本原理通过AI生成视频技术，用户可以轻松地将创意转化为生动的视频，满足不同的创作需求。AI生成视频技术的基本原理涉及多个复杂的步骤和算法，主要包括以下几方面。实时渲染与特效AI可以实现实时视频编辑和特效添加，这通常依赖于高效的图形处理单元（GPU）和优化的算法来实现快速渲染。伦理与隐私保护在生成视频的过程中，需要确保遵守相关的伦理和隐私法规。例如，在使用真实的人脸或声音时需要获得授权，避免侵犯他人的肖像权或隐私权。AI生成视频技术的应用领域娱乐（电影、动画制作）AI可以自动生成剧本、场景描述甚至整个故事线，从而为编剧和导演提供灵感。例如，通过分析大量成功电影的剧本结构，AI能够预测哪些情节转折最吸引观众，从而辅助编剧创作出更受欢迎的剧本。（1）角色设计与动画制作AI可以快速生成角色设计草图，甚至完成复杂的动画制作流程。这不仅提高了生产效率，还可以使创作者尝试更多创新的视觉风格。（2）特效与后期处理AI在特效制作中发挥着越来越重要的作用，它能够模拟复杂的物理现象，如火焰、水流等，极大地节省了成本和时间。同时，AI能优化色彩分级、剪辑等工作，使影片更加生动逼真。AI生成视频技术的应用领域AI可以根据用户的浏览历史、购买记录等信息，生成高度个性化的广告视频，从而提高点击率和转化率。（1）社交媒体短视频制作品牌方可以利用AI工具快速制作适合在抖音、快手等平台上传播的短视频广告，吸引用户的注意力。这些工具通常提供模板和编辑功能，使得非专业人士也能轻松上手。（2）市场趋势分析AI能够分析大量的市场数据，预测未来的流行趋势，帮助企业制定更有效的营销策略。例如，通过分析社交媒体上的热门话题和用户反馈，AI可以帮助企业及时调整营销方向。广告AI生成视频技术的应用领域AI生成视频技术在教育领域的应用已经取得了显著进展，特别是在提供个性化学习体验和虚拟实验室方面。通过提供定制化学习材料和安全的实践环境，AI不仅提高了学生的学习效率，还为他们提供了更多的探索机会。教育（1）定制化学习材料AI可以根据学生的学习进度和理解程度，生成个性化的教学视频或练习题。这种一对一的教学模式有助于提高学习效率。（2）虚拟实验室与模拟训练AI生成的虚拟实验室为医学、工程等领域的学生提供了一个安全且成本低廉的实践环境。学生可以在其中进行各种实验操作，而不必担心实际存在的危险或高昂的设备费用。（3）语言学习与文化交流AI可以生成不同语言版本的教学视频，帮助学生跨越语言障碍，更好地理解和吸收知识。此外，通过模拟真实的对话场景，AI还能提高学生跨文化交流的能力。AI生成视频技术的应用领域AI生成视频技术在游戏开发中的基础应用主要体现在剧情与任务生成、NPC行为与对话、测试与优化方面，通过动态生成独特的游戏体验和提供更深入的互动，AI不仅增加了游戏的可玩性，还为开发者提供了有效的工具来优化游戏质量。（1）剧情与任务生成AI可以在游戏中动态生成剧情和任务，使每次的游戏体验都独一无二。这不仅增加了游戏的可玩性，也延长了玩家的游戏寿命。（2）NPC行为与对话AI驱动的非玩家角色（NPC）可以展现出更加自然和多样化的行为模式，与玩家进行更深入的互动。这有效增强了游戏的沉浸感，让玩家感觉真的置身于一个活生生的世界之中。（3）测试与优化AI可以自动执行游戏测试，识别并修复潜在的错误和漏洞。此外，通过分析玩家的行为数据，AI还能提出改进建议，帮助开发者优化游戏体验。游戏开发AI生成视频技术的应用领域通过生成生动有趣的虚拟助手形象、提供逼真的三维模型和场景，以及创造全新的交互式媒体形式，AI不仅提升了用户体验，还为多个行业带来了创新的解决方案。（1）智能客服AI生成的视频可以使虚拟助手的形象更加生动有趣，从而提升用户体验。（2）增强现实（AR）与虚拟现实（VR）体验AI凭借强大的生成能力，能够创建高度逼真的三维模型和沉浸式场景，为AR/VR应用提供丰富的内容支持。（3）交互式故事讲述结合AI技术和创意叙事手法，可以创造出全新的交互式媒体形式。观众不再是被动接收信息的对象，而是可以通过选择不同的选项来影响故事的发展走向。虚拟助手与交互式媒体02Midjourney视频Pika概述Pika是一款利用生成式AI技术生成和编辑多种风格视频的工具。它支持生成3D动画、动漫、卡通和电影等风格的视频，并提供了视频局部编辑和扩充功能。2024年2月28日，Pika宣布推出新功能LipSync，其允许用户为视频添加语音对白，并实现嘴唇同步动画效果。该功能由音频生成初创公司ElevenLabs提供支持。LipSync功能支持文本转音频和上传音轨，这意味着用户可以输入或录制希望Pika生成的视频角色所说的话，并更改声音风格。凭借在AI生成视频领域的突出贡献，2024年4月16日，Pika入选了“2024福布斯AI50榜单”。这一荣誉不仅是对Pika技术实力的认可，也是对其未来发展潜力的肯定。未来，Pika的发展前景广阔。随着AI技术的不断发展，Pika有望继续引领AI生成视频领域的创新潮流。同时，PikaLabs公司已推出分层订阅模式，旨在为用户提供更多功能和服务。此外，Pika还将继续致力于解决生成视频的原创性和版权问题，进而提高生成视频的质量和速度等。机器人服务器Pika邀请加入（1）打开Midjourney用户服务器，在下方命令框中输入Pika网址。（2）按回车键，将网址发送到服务器中，在服务器中添加机器人服务器Pika，如图所示。机器人服务器Pika邀请加入（3）单击“已加入”按钮，进入机器人服务器Pika界面，左侧显示频道列表，右侧显示Pika服务器指南，如图所示。机器人服务器Pika选择频道进入机器人服务器Pika界面后，左侧“Pika”列表中显示了不同的频道，任意选择一个，如“generate-1”，进入指定频道公共区域界面，如图所示。由于进入的是公共区域，因此我们生成的视频，可以被所有人看到。同样，我们也可以看到其他人生成的视频。Pika命令参数进入Pika指定频道公共区域界面后，可以在右侧下方的命令框中输入命令或上传图像，进行视频生成操作。在命令框中输入“/”，弹出命令列表，如图所示。列表左侧显示了常用的官方服务器，不同的服务器中包含不同的命令。：MidjourneyBot服务器，用于AI绘图。：Nekotina服务器，主要用于定制欢迎、告别和提示消息，以及提供多种角色扮演命令和表情包。：Picsart服务器，主要用于进行图像编辑处理。：Pika服务器：用于生成AI视频。Pika命令参数（1）/animate：创建、编辑或播放动画，包括帧动画、骨骼动画、粒子效果等。（2）/create：这是一个通用的创建动画命令。（3）/encrypt_image：图像加密命令。其通过一个特定的算法或工具，对图像进行加密，以保护其内容不被未经授权的人访问。（4）/encrypt_text：类似于/encrypt_image，用于文本内容的加密。它可以确保敏感信息（如密码、个人数据等）在传输或存储时的安全性。单击“Pika服务器”按钮，打开服务器列表，显示Pika服务器命令，如图所示。使用/create命令生成视频输入提示词一般情况下，在命令框中输入“/create”命令后，界面将显示prompt（提示词）参数，可在其后面输入提示词，一般为英文提示词，如图所示。在利用AI生成视频时，应该尽量使用简短的提示词，避免复杂的句子结构，这样可以降低画面变形的概率。清晰的主体描述加上相关的标签通常足够生成满意的视频。使用/create命令生成视频输入提示词（1）静态对象视频最简单的做法通常是描述一个特定场景中的角色和物品。例如，首先输入提示词：3DlettersUppercaseA,Pixarstyle,googlyeyes,smiles,vibrantorangecolor,isolatedontransparentbackground,highresolution,4K（3D字母大写字母A，皮克斯风格，眼睛黏糊糊的，微笑着，鲜艳的橙色，孤立在透明背景上，高分辨率，4K）。然后按回车键，将提示词发送给Pika服务器，生成一个时长为3秒的视频，如图所示。使用/create命令生成视频输入提示词生成视频的主角是一个皮克斯风格的字母“A”，这个字母“A”具有鲜明的三维立体感和光滑的表面，颜色鲜艳且富有光泽。视频开始时，字母“A”静静地悬浮在画面中央，背景是一片柔和的蓝色渐变，给人一种温馨而梦幻的感觉。随着视频的播放，字母“A”开始缓缓向右侧相邻字母“L”后面转动。它的旋转不是简单的平面旋转，而是带有3D效果的深度旋转，让观众能够从不同的角度欣赏到它的每个细节。在字母“A”的左侧，有7个排成一列的大大的眼睛，这些眼睛中的黑眼珠随着字母“A”的旋转而移动，但眼睛位置不变。眼睛的设计非常有趣。整个视频以字母“A”的消失作为结尾，给观众留下了深刻的印象和无限的想象空间。使用/create命令生成视频输入提示词（2）添加动作提示词为了生成动态视频，用户可以通过添加动作提示词来指定视频的主题、动作、场景变化、音乐等元素。下面介绍几个常用的动作提示词：appear（出现）、disappear（消失）、transform（变形）、moveleft（左移）、moveright（右移）、moveup（上移）、movedown（下移）、jump（跳跃）、fly（飞行）、run（奔跑）、walk（行走）、dance（跳舞）、spin（旋转）、slide（滑动）、bounce（弹跳）、pickingup（拿起）等。使用/create命令生成视频输入提示词输入提示词：Inthelibrary,astudentisinfrontofthebookshelf,pickingupthebookinfrontofhim.（在图书馆中，一个学生在书架前，拿起前面的书）。根据上面的英文提示词，生成一段视频，如图所示。视频中，一只手推着书架上的几本书。随着视频的播放，另外一只手出现在画面中，拿起旁边的书。使用/create命令生成视频视频设置可以发现，Pika生成视频后，在视频下方显示五个按钮。这些按钮的设计旨在为用户提供多样化的操作选项，从而增强用户体验和互动性。（1）赞：如果用户觉得视频效果非常出色，则可以单击“赞”按钮为视频点赞。点赞后的视频将被发送到“upvotes”频道中，作为开发团队的宝贵参考，助力他们持续优化作品。此外，我们也可以为其他用户生成的精彩视频点赞，共同营造一个积极向上的创作氛围。（2）倒赞：如果用户对生成的视频不满意，则可以单击“倒赞”按钮。虽然该操作不会将反馈公开发送到频道中，但开发团队仍然会收到反馈，该反馈将作为他们改进和优化作品的重要参考。使用/create命令生成视频视频设置可以发现，Pika生成视频后，在视频下方显示五个按钮。这些按钮的设计旨在为用户提供多样化的操作选项，从而增强用户体验和互动性。（3）循环：当用户喜欢当前的设定并想再次尝试时，则可以单击“循环”按钮。该操作将促使AI使用同样的设定重新生成一次视频，如图所示。新生成的视频是一个全新的画面，画面中央以大号字体显示着“CAIG”四个英文字母，具有鲜明的三维立体感和卡通样式。在“CAIG”下方的地面上，散布着一堆橙色的小眼睛，这些小眼睛排列得杂乱无章。随着视频的播放，画面中发生了一个奇妙的变化，地面上的两只橙色小眼睛突然开始变形，它们的形状逐渐拉长，变得像小人一样。这两个小人晃动着手脚，似乎是在适应自己的新形态。它们的手脚动作非常灵活，一会儿弯曲，一会儿伸展，展现出了极高的灵活性和协调性。使用/create命令生成视频视频设置可以发现，Pika生成视频后，在视频下方显示五个按钮。这些按钮的设计旨在为用户提供多样化的操作选项，从而增强用户体验和互动性。使用/create命令生成视频视频设置可以发现，Pika生成视频后，在视频下方显示五个按钮。这些按钮的设计旨在为用户提供多样化的操作选项，从而增强用户体验和互动性。（4）交叉：如果用户想要尝试不同的风格或效果，则可以单击“交叉”按钮。该操作将促使AI修改prompt并重新生成视频，如图所示。新生成的视频出现了一个充满创意和活力的全新画面。画面中以大号字体显示着两个英文字母，这两个字母色彩鲜艳且富有光泽，仿佛是从童话世界中跳跃出来的。在字母下方的地面上，几个长着橙色小眼睛的小人正在努力地支撑着这两个字母。这些小人形象可爱，它们的手脚呈现出类人的特征，正用尽全力将字母稳稳地托起。随着视频的播放，这些小人的橙色小眼睛开始左右转动起来，不断地观察着周围的环境。这种动态的变化为整个画面增添了更多的生动性和趣味性。使用/create命令生成视频视频设置可以发现，Pika生成视频后，在视频下方显示五个按钮。这些按钮的设计旨在为用户提供多样化的操作选项，从而增强用户体验和互动性。使用/create命令生成视频视频设置可以发现，Pika生成视频后，在视频下方显示五个按钮。这些按钮的设计旨在为用户提供多样化的操作选项，从而增强用户体验和互动性。（5）删除：如果用户想要删除当前的视频，则可以单击“删除”按钮。但需要注意的是，单击“删除”按钮后，必须输入全大写的“YES”才能删除视频。只要有一个字母不是大写的，就无法删除。这五个按钮的设计旨在为用户提供更灵活、更个性化的操作体验。无论是表达态度、修改设定、重复尝试还是删除不需要的内容，都能轻松实现。使用/create命令生成视频提示词加图像（1）在命令框中输入“/create”命令，单击“增加1”按钮，打开“选项”面板，选择“image”（图像）选项，显示图像文件预览框，将图像拖曳到该框中，完成图像的添加，并输入提示词“MakethebutterflyStirringwings”（让蝴蝶扇动翅膀）。（2）在第一次生成的视频中，蝴蝶的翅膀是静止不动的。然而，当我们单击“循环”按钮重新生成视频时，蝴蝶翅膀有了轻微的煽动。这一变化表明，通过多次尝试和迭代，视频生成技术在不断改进和优化，使得细节表现更加生动和真实。这体现了在生成视频过程中进行多次尝试的重要性，这样做可以确保最终结果达到更高的质量和逼真度。使用/create命令生成视频提示词加图像提示词加图像的视频生成过程及效果如图所示。使用/create命令生成视频提示词加图像提示词加图像的视频生成过程及效果如图所示。使用/create命令生成视频提示词加图像提示词加图像的视频生成过程及效果如图所示。使用/animate命令生成视频Midjourney中的“/animate”命令能够以用户上传的图像和提示词作为参考生成视频，增强视频与特定图像内容的关联性。在命令框中输入“/animate”命令，显示图像文件预览框，如左图所示。单击“上传”按钮，弹出“打开”对话框，选择参考图，单击“打开”按钮，上传参考图，如右图所示。此时，命令框的image参数右侧将显示图像地址。之后使用上传的图像作为底图，底图是视频的第一帧。使用/animate命令生成视频Midjourney中的“/animate”命令能够以用户上传的图像和提示词作为参考生成视频，增强视频与特定图像内容的关联性。在命令框中输入提示词，描述附加图像的主题和背景，以及具体的动作，但无法进行较大的更改。例如，输入“ancatyawns”（猫打哈欠），如图所示。使用/animate命令生成视频Midjourney中的“/animate”命令能够以用户上传的图像和提示词作为参考生成视频，增强视频与特定图像内容的关联性。按回车键，生成视频，结果如图所示。从图中可以得知，通过猫坐着张嘴打哈欠的图像，可以得到猫从张大嘴到合上嘴打哈欠的动态过程。然而，无法从猫坐着的状态生成它站起来的视频。这表明当前的技术在生成特定动作的连续性方面存在一定的局限性，需要进一步优化和改进，以实现更复杂的动态转换。03Sora生成视频Sora概述Sora是由美国AI研究公司OpenAI推出的一款先进的AI生成视频大模型。它在OpenAI的文本到图像生成模型DALL-E的基础上发展而来。Sora为艺术家、电影制片人及学生等需要制作视频的用户带来了无限的可能性。Sora基本原理Sora的工作原理基于扩散模型，其核心是通过反向扩散过程从随机噪声中生成视频。具体来说，Sora从纯随机噪声起步，经多阶段计算逐步提炼出结构化信息，将无序的像素分布转化为连贯的图像序列。凭借扩散模型的长时序建模能力，Sora可生成最长一分钟的视频，支持写实、动画等多种视频风格，以及1024像素×1024像素等标准分辨率。Sora概述Sora是由美国AI研究公司OpenAI推出的一款先进的AI生成视频大模型。它在OpenAI的文本到图像生成模型DALL-E的基础上发展而来。Sora为艺术家、电影制片人及学生等需要制作视频的用户带来了无限的可能性。Sora基本原理（1）扩散模型是一种生成模型，通过模拟数据分布的逐渐变化过程来生成新数据。在视频生成中，这个过程通常从一个随机噪声信号开始，通过逐步添加细节和结构，最终形成完整的视频帧。这种方法的优势在于它能够捕捉到数据分布的细微变化，从而生成高度逼真的视频。（2）Sora不仅依赖于扩散模型，还受到了大语言模型的启发。通过集成大语言模型技术，Sora能够更好地理解和处理文本输入，并将其转化为对应的视频。这种结合使得Sora在处理复杂场景和多样化内容时表现出色。Sora概述Sora技术架构Sora采用了一种结合变换器（Transformer）主干的扩散模型架构。这种架构包括以下几个关键组件。用于将输入视频压缩成一个潜在空间表示。变分自编码器（VAE）用于处理压缩后的潜在空间表示。视觉变换器（ViT）这是扩散模型的核心部分，负责逐步去噪并生成最终的视频帧。去噪扩散概率模型（DDPM）Sora概述Sora技术特点凭借先进的深度学习框架、高度可定制性和可扩展性、文本到视频的转换能力、创新性与多样性、强大的物理世界模拟能力及高效的训练流程等特点，Sora在AI生成视频领域展现出卓越的性能和广泛的应用潜力。先进的深度学习框架高度可定制性和可扩展性文本到视频的转换能力创新性与多样性强大的物理世界模拟能力高效的训练流程Sora概述Sora界面使用Sora模型从文本生成高质量的视频，这一过程不仅提高了视频创作的效率，还为用户提供了更多的创意空间和创作可能性。Sora被设计为一个独立产品，在S上提供服务，首批开放给Plus和Pro用户使用。这个平台提供了一个全新的用户界面。在OpenAI官方网站上注册一个账号，即可直接登录Sora网页版，其界面如图所示。Sora概述Sora界面（1）“Explore”窗口：展示最近的一些优秀创作者的作品，以及根据算法推荐的、可能符合用户兴趣的热门或趋势性内容。这是一个发现新灵感、新风格和新晋创作者的窗口。（2）“Images”窗口：展示平台上近期生成或分享的各类图像作品。（3）“Videos”窗口：展示平台上近期生成或分享的视频类作品。（4）“Top”窗口：展示在特定时间段内（如每日、每周、每月）最受欢迎、获得点赞最多、评论最多或被平台精选的顶级创作者及其作品。（5）“Likes”窗口：展示用户自己点赞、收藏或标记为“喜欢”的作品集合。这是一个个性化的收藏夹，方便用户快速回顾和再次查找曾经欣赏过或认为有价值的作品，也可以用于训练AI对用户偏好的理解。（6）“Mymedia”窗口：用户的个人主页。打开该窗口，用户可以查看所有生成的作品，并进行管理，如图所示。若用户没有作品，则显示为空白。文生视频Sora文生视频提示词在视频创作中发挥着至关重要的作用。它们不仅可以帮助创作者明确创作意图和控制视频风格，还可以优化生成过程、提高创作效率，并促进创意表达。在Sora网页版界面右下方显示一个提示词文本框，在第一个按钮的下拉列表中包含“Image”“Video”选项。选择“Video”选项，提示词文本框中显示“Describeyourvideo...”，如图所示。用户可以在这里输入文本描述或上传图像素材来创建视频。文生视频提示词文本框下方的按钮列表中还包括视频比例、分辨率、视频时长、视频变体数量选项。Sora默认的视频比例为2∶3，支持生成480p～1080p分辨率的视频，时长范围为5～20秒，提供1video、2videos和4videos视频变体数量。Sora文生视频提示词是一组关键词、短语或句子，它们被用于描述或定义创作者希望生成的视频内容。这些提示词可以涵盖视频的主题、风格、场景，以及要表达的情感和具体呈现的动作等方面。文生视频（1）指导视频内容提示词的首要功能是指导视频生成器生成符合创作者意图的视频内容。通过为视频生成器提供明确的方向和指令，可以确保生成的视频内容与所期望的一致。单击“Library”（库）→“Mymedia”（我的媒体/我的视频）选项卡，在“Mymedia”窗口中将看到根据创作者提示词生成的视频结果，如图所示。输入提示词“Makeavideoofacatswimminginagiantbowlofmilk.”（制作一段一只猫咪在一大碗牛奶中游泳的视频。）。文生视频生成后，将展示两段已生成的、内容或表现方式略有差异的视频，如图所示。这两段视频具体展示了创作者的奇思妙想——一只猫咪在一大碗牛奶中游泳的场景，两段视频在猫咪的姿态、牛奶的波动或摄像机视角上略有不同。（1）指导视频内容提示词的首要功能是指导视频生成器生成符合创作者意图的视频内容。通过为视频生成器提供明确的方向和指令，可以确保生成的视频内容与所期望的一致。输入提示词“Makeavideoofacatswimminginagiantbowlofmilk.”（制作一段一只猫咪在一大碗牛奶中游泳的视频。）。文生视频同时，在视频下方给出了一行细致的文本说明，提供了关于该视频输入的提示词和详细信息：Makeavideoofacatswimminginagiantbowlofmilk.480p5s9:20am。提示词还会自动补充具体的技术参数“480p5s9:20am”作为后缀，这部分信息清晰地指出了该视频的技术规格：分辨率为480p，精心制作的视频长度恰好是5秒，而这个创意火花绽放的时刻被记录在了上午9点20分。这些细节不仅方便了用户对视频内容的快速理解，也体现了平台在内容管理与展示层面的精细化能力。（1）指导视频内容提示词的首要功能是指导视频生成器生成符合创作者意图的视频内容。通过为视频生成器提供明确的方向和指令，可以确保生成的视频内容与所期望的一致。输入提示词“Makeavideoofacatswimminginagiantbowlofmilk.”（制作一段一只猫咪在一大碗牛奶中游泳的视频。）。文生视频（2）控制视频风格输入提示词“Makeavideoofacatswimminginagiantbowlofmilk.Cartoonstyle”（制作一段一只猫咪在一大碗牛奶中游泳的视频。卡通风格）。设置视频比例为16∶9。提示词还可以帮助创作者控制视频的风格。通过使用不同的词汇和表达方式，创作者可以营造出不同的氛围和情感，从而赋予视频独特的风格，如DigitalArt（数字艺术）、Cinematic（电影）、Documentary（纪录片）、MusicVideo（音乐视频）、Commercial（广告）、Cartoon（卡通）。文生视频（2）控制视频风格单击“Library”（库）→“Mymedia”（我的媒体/我的视频）选项卡，在“Mymedia”窗口中将看到两段截然不同却又同样引人注目的视频，如图所示。视频下方提供了关于该视频的详细信息：Makeavideoofacatswimminginagiantbowlofmilk.Cartoonstyle480p5s10:08am。文生视频（2）控制视频风格可以发现，视频生动地勾勒出一幅充满童趣与想象力的画面——一只可爱的猫咪在一大碗牛奶中悠然自得地游泳。附加在视频描述之后的技术细节与风格标注“Cartoonstyle480p5s10:08am”，则进一步明确了这一场景的独特魅力。其中，“Cartoonstyle”（卡通风格）的标注预示着这段视频将采用生动活泼的卡通动画手法，赋予画面夸张的动态和鲜明的色彩，使得猫咪游泳的场景显得更加有趣可爱，仿佛是从一部经典的动画片中截取的精彩片段。同时，480p的分辨率、5秒的精炼时长，以及记录下的上午10点08分的创作时刻，共同构成了这部充满奇思妙想的微型动画作品的完整档案。图生视频生成视频（1）在Sora网页版界面的提示词文本框左侧单击“+”按钮，弹出下拉列表，如图左图所示。选择“Uploadfromdevice”（从设备上传）选项，弹出“Mediauploadagreement”（视频上传协议）界面，如图右图所示，需要勾选下面所有的复选框，同意不上传包含暴力或明确主题的视频等，才可激活“Accept”（接受）按钮。图生视频生成视频（2）单击“Accept”（接受）按钮，弹出“打开”对话框，在该对话框中选择静态图像，如图所示。图生视频生成视频（3）导入静态图像后，在图像下的提示词文本框中输入提示词“Characterrotatesinplace”（人物原地转圈），如图所示。图生视频生成视频（4）单击按钮，Sora会根据这个提示词生成两段视频，如图所示。图生视频生成视频①在生成的第一段视频中，绿色的卡通人物并没有按照预期执行原地转圈的动作，而是变成了一个球体，并在地面上滚动。这一变化展示了Sora在理解和执行提示词时的创造性和灵活性。尽管这与原始提示词有所偏离，但它提供了一个有趣且独特的视觉效果。②在生成的第二段视频中，绿色的卡通人物确实执行了原地转圈的动作。然而，这个动作是通过转换镜头角度来实现的，而不是人物自身在移动。这种方法创造了一种视觉上的旋转效果，使观众感觉人物正在快速转动。使用镜头转换来模拟旋转效果是一种巧妙的技术手段，避免了复杂的动画制作过程，同时达到了预期的视觉效果。图生视频编辑提示词（1）为了使Sora更准确地理解和执行用户的意图，从而生成符合预期的视频，打开第一段视频，在视频下方单击“Editprompt”（编辑提示词）按钮，进入编辑界面，输入更具体的提示词“Thecharacterrotatesonce”（人物自转一圈），如图所示。图生视频编辑提示词（2）单击按钮，Sora会根据修改后的提示词生成两段视频，如图所示。可以发现，重新生成的两段视频更贴近提示词“Characterrotatesinplace”（人物原地转圈），成功描绘了人物自转的动态效果。图生视频编辑提示词①在生成的第一段视频中，绿色卡通人物确实执行了原地转圈的动作，但与预期不同的是，这个动作是在人物紧缩身体变成球的状态下完成的。这种变化虽然有趣，但偏离了最初提示词“Characterrotatesinplace”（人物原地转圈）的直接要求。②在生成的第二段视频中，绿色卡通人物成功执行了原地转圈的动作，虽然在旋转过程中人物身体发生了变形，但基本实现了预期的效果。此外，该动作表现得非常流畅和自然，充分展示了Sora在动画制作方面的高超技艺。图生视频编辑提示词（3）尽管这两段视频都展示了Sora的能力，但结果仍有改进空间。为了达到更加完美的效果，需要对提示词进行进一步的细化和调整。用户需要不断尝试和优化，以更好地掌握如何通过提示词引导AI生成理想的视频。这一过程不仅是技术的挑战，也是创意和耐心的考验。视频生成视频导入基础视频在Sora网页版界面的提示词文本框左侧单击“+”按钮，显示两种导入视频的方法。（1）选择“Uploadfromdevice”（从设备上传）选项，弹出“打开”对话框，在该对话框中可以选择基础视频，如图所示。（2）选择“Choosefromlibrary”（从库中选择）选项，打开视频选择界面，从用户视频库中选择视频，如图所示。视频生成视频Remix（重新混音）（1）在Sora的AI视频生成器中，Remix是一个重要的功能，它允许用户调整生成视频的多个方面，以优化最终的输出效果。借助Remix功能，用户能够使用自然语言描述来对视频元素进行替换、移除或重构。（2）导入视频后，单击右下角的“Remix”（重新混音）按钮，进入视频混音编辑界面，如图所示。在该编辑界面中，激活提示词功能，通过在提示词文本框中输入提示词来描述想要实现的视频内容修改。Sora的AI技术将根据这些提示词智能地对视频进行相应的调整和创新，从而以全新的视角重塑视频内容。视频生成视频Remix（重新混音）（3）在提示词文本框中输入提示词，通过文本描述修改视频内容。例如，输入提示词“Addingtreesinthebackground”（在背景中添加树木）。（4）单击“Remix”（重新混音）按钮，启动视频的生成过程，效果如图所示。根据基础视频与提示词描述，想得到一段以一头大象为主体的视频，并在背景中添加树木。通过图可以看出，生成的视频中树木的效果并不如预期那样明显。这可能是因为树木的细节没有被充分地捕捉和渲染。视频生成视频Remix（重新混音）（5）为了改善该效果，再次单击“Remix”（重新混音）按钮，进行第二次视频生成，如图所示。通过图可以发现，树木变得更加明显和生动，但效果仍不是太满意。这可能是由于AI在解析和执行文本描述时存在一定的局限性，此时可以稍微调整提示词的描述。视频生成视频Remix（重新混音）（6）再次单击“Remix”（重新混音）按钮，进行第三次视频生成。在这一次中，可以稍微调整提示词，改为“Addanoldbanyantreetothebackgroundasthefocalpointofthepicture,whichshouldbelocatedontheleftsideoftheelephant,withsomebrancheshangingdownontheelephant'sback”（在背景中添加一棵老榕树作为画面的焦点，它应该位于大象的左侧，部分树枝垂挂在大象的背上），以确保AI能够更好地解析用户的意图。视频生成视频Remix（重新混音）（7）除了修改提示词，通过设置混音强度参数也可以调整视频生成效果，生成视频下方包含四种混音强度参数，如图所示。这些参数可以实现不同级别的创意控制，允许用户根据需要选择适当的强度。Strong：原始视频发生重大变化。Mild：原始视频发生明显变化。Subtle：原始视频发生细微变化。Custom：设置自定义混音强度。视频生成视频Remix（重新混音）①如果发现生成的视频过于普通或缺乏新意，则可以选中“Strong”这一高强度参数。这种设置会使原始视频发生重大变化，引入更多创新和独特的视觉元素。然而，需要注意的是，较高的创意强度可能导致更抽象或不同寻常的视觉元素出现。例如，在第三次混音视频中，右侧的视频画面中出现两头大象，这使视频看起来与原始素材大相径庭。②如果希望看到视频发生明显变化，但风格不要过于激进，则可以选中“Mild”这一中等强度参数。这将使原始视频发生明显变化，同时保持一定的连贯性和可识别性。③如果只需要对原始视频进行细微的调整，则可以选中“Subtle”参数，对视频进行轻微的更改。这适用于希望保持原有风格和内容大致不变的场景。④在使用这些混音强度参数时，建议先从较低的强度开始尝试，逐步增加强度，直到产生最满意的效果。此外，每次调整后都应该仔细观察生成的视频，以确保所做更改符合预期目标。视频生成视频Blend（混合）（1）Blend（混合）功能是Sora视频生成器中一个强大的特性，允许用户将两段视频无缝结合，创造出独特且具有视觉吸引力的短片。这种混合并不是简单的拼接，而是通过高级智能算法确保两段视频之间的过渡自然流畅，仿佛它们原本就是一个整体。需要注意的是，要使用Blend功能，需要先准备两段视频。视频生成视频Blend（混合）（2）导入第一段视频到Sora平台后，单击界面右下角的“Blend”（混合）按钮，激活该功能，如图所示。此时，可以单击“Uploadvideo”（上传视频）或“Choosefromlibrary”（从库中选择）选项。这里选择“Uploadvideo”（上传视频）选项，弹出“打开”对话框，选择第二段视频。视频生成视频Blend（混合）（3）成功导入两段视频之后，进入Sora的Blend功能编辑界面，如图所示。这个界面提供了一个直观且功能强大的平台，使用户可以精确调整两段视频的混合方式。视频生成视频Blend（混合）（4）在Blend功能编辑界面中，可以选择手动调整混合区域和影响曲线，以实现更精确的控制。当对自动生成的结果不完全满意时，这种手动调整功能特别有用。（5）此外，Sora还提供了几种预设的混合效果参数，如图所示。视频生成视频Blend（混合）（4）在Blend功能编辑界面中，可以选择手动调整混合区域和影响曲线，以实现更精确的控制。当对自动生成的结果不完全满意时，这种手动调整功能特别有用。（5）此外，Sora还提供了几种预设的混合效果参数，如图所示。Transition（过渡）：此参数可以确保两段视频之间无缝衔接，消除任何可能的缝隙或跳跃，使视频流畅过渡。Sample（采样）：使用第二段视频的某些部分来影响主视频（第一段视频），这可以创造出独特的视觉效果，如颜色变化或动态模糊。Mix（混合）：此参数将两段视频完全合并在一起，创造出一幅全新的视觉作品，其中包含两段视频的元素。Custom（自定义）：如果用户有特定的创意构思，则可以选中此参数来设置自己的混合曲线，从而完全控制最终视频的外观。视频生成视频Blend（混合）单击“Blend”（混合）按钮，并选中相应的混合效果参数，生成混合视频，实现特定的视觉效果，如图所示。视频生成视频Blend（混合）单击“Blend”（混合）按钮，并选中相应的混合效果参数，生成混合视频，实现特定的视觉效果，如图所示。视频生成视频Blend（混合）单击“Blend”（混合）按钮，并选中相应的混合效果参数，生成混合视频，实现特定的视觉效果，如图所示。视频生成视频Blend（混合）（6）Sora的这种混合技术特别适合制作音乐视频、短片或任何需要进行动态视觉表现的项目。通过Blend功能，可以探索无限的创意可能性，并制作出真正反映艺术视角的视频。视频生成视频Loop（循环）（1）Loop功能允许用户在时间轴上截取镜头，并制作无缝循环的视频片段。这对于创建背景音乐视频、动态壁纸或社交媒体上吸引眼球的内容非常有用。（2）导入视频到Sora平台后，单击界面右下角的“Loop”（循环）按钮，进入Sora的Loop功能编辑界面，如图所示。在这个界面中，可以直观地看到时间轴上的视频片段，并通过简单的操作来选择想要循环播放的部分。视频生成视频Loop（循环）（3）拖动两侧的时间轴选择合适的片段后，单击“Loop”（循环）按钮，系统就会开始处理并生成一个时长为6秒的无缝循环的视频文件，得到一个流畅且具有吸引力的循环视频片段，如图所示。视频生成视频Loop（循环）（4）在Sora的Loop功能编辑界面中，用户不仅可以创建无缝循环的视频片段，还可以通过设置不同的Looptype参数来微调循环视频的长度和流畅度，如图所示。用户可根据具体需求定制循环视频的效果。视频生成视频Loop（循环）Short：在视频的开头和结尾之间添加2秒的片段以完成循环。该设置适用于希望保持较短循环时间，同时确保视频在重复播放时仍然显得自然流畅的用户。这对于那些需要实现快速过渡效果或保持较短展示时间的场景特别有用。Normal：默认设置。选中此参数后，系统会在视频的开头和结尾之间添加4秒的片段以完成循环。该设置提供了一个平衡点，既不会使视频过于简短导致循环感太强，也不会使视频过长而影响观看体验。它适用于大多数情况，特别是当需要制作一段标准长度的循环视频时。Long：选中此参数后，系统将在视频的开头和结尾之间添加6秒的片段以完成循环。该设置适用于希望循环过程更加平滑，或者需要更长时间来展示某些细节的用户。较长的过渡时间可以减少重复播放时的突兀感，使视频看起来更加连贯。视频编辑风格预设Sora特别注重视频风格的多样性。用户可以通过简单的操作，选择不同的视频风格（如电影风格、动画风格、写实风格等），让视频更具艺术感和观赏性。这些风格的添加，不仅丰富了视频的表现形式，也为用户提供了更多的创作灵感和创作可能性。单击“Presets”（预设）按钮，显示风格预设列表，如图所示。选中相应的预设，即可为视频添加独特的风格，而无须进行复杂的手动调整。视频编辑风格预设风格预设列表包括以下几种风格。None：不应用任何特定的风格预设，让生成的视频保持原始状态或基于用户输入的提示词来呈现默认的视频效果。BalloonWorld：视频看起来像是在一个充满气球的奇妙世界中拍摄的，为视频增添一种梦幻和趣味的感觉。StopMotion：定格动画风格，可以让视频看起来像是通过逐帧拍摄制作而成的，适合创造一种复古或手工制作的外观。Archival：这种风格模仿了老电影或档案片段的效果，使视频呈现一种历史感和怀旧感。FilmNoir：黑白色调和阴影效果使视频呈现出经典的黑色电影风格，适合营造神秘和紧张的氛围。Cardboard&Papercraft：这种风格赋予视频剪纸或纸板艺术品般的立体拼贴感，非常适合创意项目制作或儿童动画内容创作。视频编辑风格预设输入提示词：AnimatedscenefeaturesAlittlecartoonmushroomdiscodances.Theartstyleis3Dandrealistic,withafocusonlightingandtexture.Themoodofthepaintingisoneofjoyandexcitement（在动画场景中，一只小卡通蘑菇在迪斯科舞会上跳舞。艺术风格是3D和逼真的，注重光影和质感。画作营造出一种欢乐与兴奋的氛围）。这个动画描绘了一只小卡通蘑菇在迪斯科舞会上跳舞的场景。提示词中添加了艺术风格描述和氛围描述，通过添加不同的风格预设，可以实现不同的效果，如图所示。视频编辑风格预设视频编辑风格预设视频编辑风格预设视频编辑风格预设视频编辑风格预设视频编辑视频比例单击“Aspectratio”（比例）按钮，弹出视频比例列表，其中包括三种不同的比例，如图所示。16∶9：标准的横屏格式，适用于大多数电视和计算机显示器。1∶1：正方形格式，常用于社交媒体平台，如Instagram。9∶16：竖屏格式，适用于移动设备。视频编辑分辨率单击“Resolution”（分辨率）按钮，弹出分辨率列表，其中包括三种不同的分辨率，如图所示。1080p：提供高清晰度视频，适用于大屏幕。720p：中等分辨率，适用于在线流媒体场景和小型显示设备。480p：标清分辨率，适用于网络带宽较低的环境。视频编辑单击“Duration”（时长）按钮，弹出时长列表，其用于设定视频的时长，最长支持20秒，如图所示。时长单击“Variations”（变体）按钮，弹出变体列表，可以选择生成不同数量的视频变体，如图所示。借助该功能，用户可以为同一个项目创建多个版本，或者探索不同的创意方向。变体故事板Storyboard（故事板）基于用户输入的时间点及对应内容描述来指导Sora生成一系列视频片段，并按照用户设定的顺序进行排列，使生成的视频更符合创作者的预期。Sora的故事板功能不仅可以帮助创作者更好地规划和组织视频项目，还提供了一个直观的方式来控制视频的节奏和风格，以确保最终生成的视频符合创作者的预期。单击“Storyboard”（故事板）按钮，进入Storyboard功能编辑界面，如图所示。在该界面中，用户将体验一个功能强大且直观的工作环境，它被精心设计以促进创意表达和视频制作流程。故事板时间轴时间轴是故事板的核心区域，呈现了一条空白的时间线。这条时间轴不仅代表了视频的线性结构，还允许用户通过拖曳操作来轻松调整各个分镜的位置和时长，以确保故事叙述的流畅性和连贯性。用户可以在时间轴上直接单击添加新的分镜，每个新分镜都会被分配唯一的编号，并附带一个提示词区，用于输入对该分镜内容的描述或要执行的命令。故事板提示词区位于时间轴上方的黑色文本框是提示词区，它是用户与Sora进行交互的关键接口。在这里，用户可以输入详细的提示词，指导Sora生成符合预期的视频片段。例如，用户可以输入“日落时分的城市天际线”或“孩子们在公园里玩耍”等提示词。为了增强灵活性，用户可以选择上传图像或视频文件，或者从预设的素材库中选取内容，以丰富视频的表现力。单击右下角的“+”按钮，在弹出的下拉列表中选择“Uploadimageorvideo”（上传图像或视频）或“Choosefromlibrary”（从库中选择）选项，通过静态图像或动态视频生成新的视频。故事板分镜故事板的主体界面是一条空白的时间轴，可以理解为这是故事板的分镜。默认显示分镜1。此外，用户还可以根据需要修改或删除已有的分镜，或者添加新的分镜以进一步完善视频内容。（1）单击时间轴上的空白区域，鼠标指针上出现一个小的“+”，表示可以在该位置添加一个新的分镜，如图所示。此时，自动添加分镜2的提示词区。用户可以按需添加多个分镜，以规划视频的不同部分。故事板分镜故事板的主体界面是一条空白的时间轴，可以理解为这是故事板的分镜。默认显示分镜1。此外，用户还可以根据需要修改或删除已有的分镜，或者添加新的分镜以进一步完善视频内容。（2）单击提示词区的按钮，可以删除当前分镜。（3）调整顺序：用户可以通过在时间轴上拖曳不同的分镜来调整它们的顺序，以确保视频的流畅性和逻辑性，如图所示。故事板在Storyboard功能编辑界面底部显示了一系列视频编辑按钮，包括视频比例、分辨率、时长、视频变体数量等。此外，该界面底部还有多种预设风格，可以帮助用户快速实现特定的视频效果或氛围。在所有分镜都设置完成后，用户可以预览整个视频的大致流程，并根据预览结果进行最后的调整。如果满意，就可以让Sora根据故事板上的设定生成最终的视频作品。视频编辑预览和生成04可灵制作视频可灵AI概述可灵AI（KlingAI）是快手公司推出的一款AI生成视频工具，于2024年6月6日正式上线。它是快手AI团队自研的新一代AI创意生产力平台，基于自研的可灵大模型和可图大模型，采用先进的类Sora的DiT结构，以Transformer取代传统卷积网络结构，并使用flow模型作为扩散模型基座。可灵AI支持文生视频和图生视频两大功能，用户通过输入提示词或上传图像即可生成视频。其1.6版本在文本响应度、动态质量和画面质量等多个核心指标上有显著提升，图生视频质量相比1.5版本提升了195%。此外，它还提供了视频续写、运镜控制、对口型等功能，以便用户更好地表达创意。可灵AI概述进入可灵AI首页，如左图所示，选择“AI视频”选项，登录并进入“AI视频”界面，如右图所示。文生视频可灵AI的文生视频功能基于强大的建模与生成能力，能够模拟现实世界的物理特性，生成符合物理规律的视频内容。这一特性使得其生成的视频更加逼真，减少了AI生成视频的“不自然感”。此外，可灵AI支持生成长达2分钟的视频，帧率达到30fps，为用户提供了更大的创作空间。同时，借助快手AI团队自研的3DVAE技术，可灵AI能够生成1080p分辨率的电影级视频，画面质量可与专业团队制作的影视作品相媲美。文生视频提示词公式提示词作为文生视频最主要的交互语言，直接决定了模型返回的视频内容。一般通过可灵AI提示词公式来完成Al视频创作。提示词公式如下：提示词=主体（主体描述）+运动+场景（场景描述）+（镜头语言+光影+氛围）文生视频提示词公式主体：主体是视频中的主要表现对象，是画面主题的重要体现者，如人物、动物、植物及物体等。主体描述：对主体外貌细节和肢体姿态等的描述，可通过多个短句进行列举，如运动表现、发型发色、服饰穿搭、五官形态、肢体姿态等。运动：对主体运动状态的描述，包括静止和运动等，运动状态不宜过于复杂，需确保在5秒的视频内可以清晰展现。场景：场景是主体所处的环境，包括前景、背景等。场景描述：对主体所处环境的细节描述，可通过多个短句进行列举，但不宜过多，需确保在5秒的视频内可以清晰展现，如室内场景、室外场景、自然场景等。文生视频提示词公式镜头语言：通过镜头的各种应用，以及镜头之间的衔接和切换来传达故事或信息，并创造出特定的视觉效果和情感氛围，如超大远景拍摄、背景虚化、特写、长焦镜头拍摄、地面拍摄、顶部拍摄、航拍、景深等。注意：这里与运镜控制有区别。光影：光影是赋予摄影作品灵魂的关键元素，光影的运用不仅能让照片更具立体深度与情感张力，还能创造出富有层次感的作品。例如，自然光源中的晨光、夕阳、丁达尔效应，以及人工光源中的氛围灯光、创意光影设计等，均可通过明暗对比与色彩基调传递独特情绪。氛围：对预期视频画面的氛围描述，如热闹的场景、电影级调色、温馨美好等。文生视频提示词应用描述一个视频画面最简单、最基本的公式单元是：主体、运动和场景。但在一般情况下，需要根据提示词基本公式进行扩写，以生成符合预期的视频。（1）在“AI视频”界面中切换到“文生视频”选项卡，在“创意描述”文本框中输入包含主体的提示词“一只小猫趴在窗台上”，单击“立即生成”按钮，在右侧生成相关视频，如图所示。文生视频提示词应用描述一个视频画面最简单、最基本的公式单元是：主体、运动和场景。但在一般情况下，需要根据提示词基本公式进行扩写，以生成符合预期的视频。（2）在“创意描述”文本框中输入主体+运动（转头看向窗外）的提示词“一只小猫趴在窗台上，转头看向窗外”，单击“立即生成”按钮，在右侧生成相关视频，如图所示。文生视频提示词应用描述一个视频画面最简单、最基本的公式单元是：主体、运动和场景。但在一般情况下，需要根据提示词基本公式进行扩写，以生成符合预期的视频。（3）在“创意描述”文本框中输入添加场景（室外场景）的提示词“一只小猫趴在窗台上，转头看向窗外，窗外是开满五颜六色小花的花园”，单击“立即生成”按钮，在右侧生成相关视频，如图所示。文生视频提示词应用描述一个视频画面最简单、最基本的公式单元是：主体、运动和场景。但在一般情况下，需要根据提示词基本公式进行扩写，以生成符合预期的视频。（4）在“创意描述”文本框中输入添加镜头语言（近镜头捕捉小猫的可爱姿态）、光影（一缕阳光透过窗帘洒在小猫身上，形成温暖的光影效果）和氛围（宁静与舒适）的提示词“一只小猫趴在窗台上，转头看向窗外，窗外是开满五颜六色小花的花园，近镜头捕捉小猫的可爱姿态；一缕阳光透过窗帘洒在小猫身上，形成温暖的光影效果；宁静与舒适”，单击“立即生成”按钮，在右侧生成相关视频，如图所示。文生视频在编写文生视频的提示词时，需要注意以下几点。提示词注意事项尽量使用简短的词语和句子结构，避免使用过于复杂的语言。画面内容尽可能简单，可以在5～10秒内完成。用“东方意境”“中国”“亚洲”等词语更容易生成具有中国风特色的作品或人物形象。当前可灵AI大模型对数字还不是太敏感，比如，输入提示词“10个小狗在海滩上”，生成视频中小狗的数量很难与提示词描述的数量保持一致。分屏场景的制作，可以使用提示词“4个机位”“春夏秋冬”。现阶段可灵AI较难生成复杂的物理运动，如球类的弹跳、高空抛物等。文生视频根据提示词公式输入完整的提示词，即主体（主体描述）+运动+场景（场景描述）+（镜头语言+光影+氛围）：一只手拧动钢制水龙头的开关，冲洗水池中的水果，背景为模糊的厨房。提示词注意事项（1）单击“立即生成”按钮，生成一段视频，显示下面的场景：一只手轻轻拧动钢制水龙头的开关，清澈的水柱缓缓流出，冲洗着水池中色彩斑斓的水果。背景是模糊的厨房轮廓，隐约可见橱柜和炊具的轮廓，如图所示。文生视频根据提示词公式输入完整的提示词，即主体（主体描述）+运动+场景（场景描述）+（镜头语言+光影+氛围）：一只手拧动钢制水龙头的开关，冲洗水池中的水果，背景为模糊的厨房。提示词注意事项（2）尽管可灵作为国内领先的大模型，在中文提示词识别方面表现出色，但采用英文提示词能进一步优化交互效果，提升内容生成的精准度与丰富性。输入下面的提示词：Turnthesteelfaucetwithonehandtorinsethefruitsinthesink,withablurrykitchenswitchinthebackground。文生视频根据提示词公式输入完整的提示词，即主体（主体描述）+运动+场景（场景描述）+（镜头语言+光影+氛围）：一只手拧动钢制水龙头的开关，冲洗水池中的水果，背景为模糊的厨房。提示词注意事项（3）单击“立即生成”按钮，获得更加满意和符合期望的输出结果，如图所示。这种优化不仅体现在语言的自然流畅度上，更体现在内容相关性和深度的显著提升上，从而确保每一次交互都能高效且高质量地完成。文生视频负面提示词负面提示词是用户在视频生成过程中希望避免出现的内容。这些不希望看到的内容会被输入“不希望呈现的内容”文本框中，如图所示。文生视频负面提示词通过这种方式，用户可以更精确地控制视频的输出，确保最终作品符合预期且不包含任何不希望出现的视觉元素，如图所示。通过图片可以发现，水龙头已经发生显著的变化——原本扭曲的出水口部分现已变得光滑。这一转变不仅提升了整体画面的和谐感，也使得场景看起来更为精致和真实。这充分证明了在视频创作中负面提示词的重要性，它彰显了通过精准控制不希望出现的元素，能够显著提升作品的品质与视觉体验。图生视频可灵

的图生视频功能是一项革命性的工具，它赋予了用户将静态图像转换为生动的5秒或10秒视频的能力，可灵AI在构建复杂时空运动方面展现出卓越的能力，能够细腻且准确地实现静态图像向动态视频的转换。此外，可灵AI还融入了提示词融合技术，深化了对图像语义和用户指令的理解与整合，使得根据不同文本变换视频中的动态表现成为可能。需要注意的是，可灵1.6版本在处理首尾帧方面存在限制，因此该版本只能针对单张图像进行操作。但这并不妨碍其在视频创作领域的广泛应用和深远影响。图生视频对于图生视频，提示词最核心的构成是主体和运动。这与文生视频不同，图生视频已经有了场景，因此只需要描述图像中的主体与希望主体实现的运动。提示词公式如下：提示词=主体+运动/背景+运动主体：画面中的人物、动物、物体等。运动：目标主体要实现的运动轨迹。背景：画面中的背景。图生视频（2）在“图片创意描述”文本框中输入提示词，可以减少生成视频的随机性。在“图片创意描述”文本框中输入的提示词与文生视频中的提示词略有不同，需要注意以下几点。尽量使用简短词语和句子结构，避免使用过于复杂的语言。运动需符合物理规律，尽量用图像中可能发生的运动描述。若提示词与图像内容相差较大，则可能会引起镜头切换。现阶段较难生成复杂的物理运动，如球类的弹跳、高空抛物等。对于图生视频，核心是控制图像中的主体运动。如何让图像动起来是重点。如果想要演示“小男孩拐弯”的动态场景，当只输入“小男孩拐弯”时，模型较难理解指令，因此AI更可能通过自己的判断进行视频生成，当可灵AI判断这是一幅画时，会更可能生成具有运镜效果的画幅展览，这也是照片容易生不成视频的原因。图生视频因此，需要通过描述“主体+运动”来让模型理解提示词，如“小男孩骑车向左拐弯”，如图所示。添加“主体+运动”提示词后生成的视频，动态地演示了扭动车把向左拐弯的场景。图生视频为画面中添加主体，输入多主体提示词“地上出现一个滚动的皮球”，在多主体提示词生成的视频中，添加了背景中出现一个滚动皮球的动态场景，如图所示。视频参数设置在可灵AI中，用户不仅可以通过输入提示词和上传图像来生成视频，还可以通过设置一系列参数来定制视频内容。这些参数包括创意想象力、生成模式、生成时长、视频比例和生成数量，如图所示。视频参数设置创意想象力（1）“创意想象力”是可灵AI中一个独特的功能，赋予了用户调整视频创意程度的能力。通过滑动“创意想象力”参数右侧的滑块，用户可以决定视频内容的原创性和独特性，从而创作出与众不同的视频作品。（2）“创意想象力”参数右侧的滑块是一个精细调控工具，它负责平衡生成视频与提示词或上传图像之间的相关性。滑块的取值范围为0～1，默认值为0.5，提供了一种直观且灵活的方式来调整视频内容的创意程度。视频参数设置创意想象力（3）当滑块数值较大，接近1时，生成的视频将展现出更高的创意想象力，但也可能出现小概率的图像和描述内容冲突导致的画面错误。这种设置，为那些追求独特、新颖视觉效果的用户提供了更多可能性。（4）相反，当滑块数值较小，接近0时，生成的视频将更加贴近提示词和上传图像的原意，减少了画面出错的风险，但可能在创意表现上略显保守。视频参数设置创意想象力（5）输入提示词“两朵花在黑色背景下缓慢绽放，展示出细腻的花瓣和花蕊”，用户可以根据具体需求和创作意图，选择不同的数值，得到截然不同的视频效果，如图所示。这种灵活性使得可灵AI能够满足不同场景下的创作需求，无论是创作者追求的稳健传统表达，还是其勇于尝试的创新突破。“创意想象力”参数值为0“创意想象力”参数值为1视频参数设置（1）“生成模式”是可灵AI中另一个至关重要的参数，为用户提供了灵活选择视频生成方式的能力。根据实际需求和创作意图，用户可以选择“标准”模式或“高品质”模式来生成视频。（2）输入提示词“Aroosterwithacertainblackfisherman'shatonitshead,dressedinafashionablewindbreaker,satonachairinacaféreadinganewspaper,andreachedouttopickupacupofhotcoffeefromthetable”，显示一只公鸡头上戴着一顶黑色的渔夫帽，穿着时尚的风衣，坐在咖啡馆的椅子上看报纸，伸出手端起桌上的一杯热咖啡的场景，不同生成模式的效果如图所示。生成模式视频参数设置生成模式视频参数设置（3）“标准”模式以较快的生成速度和较低的推理成本而受到青睐。它擅长生成人物、动物，以及动作幅度较大的场景。在“标准”模式下，生成的动物形象更加亲切，画面调色柔和，为视频增添了温馨的氛围。该模式在可灵AI刚发布时便获得了广泛的好评，成为许多用户的首选。（4）与“标准”模式相比，“高品质”模式则更注重视频的细节表现。它的推理成本较高，但生成的视频细节更加丰富，构图与色调氛围更加高级。“高品质”模式擅长生成人物、动物、建筑、风景等类型的视频，为精细视频创作提供了更多的可能性。在现阶段，“高品质”模式已成为许多专业创作者和对视频质量有更高要求的用户的首选。生成模式视频参数设置（5）无论是追求快速生成还是注重细节表现，可灵AI的生成模式都能满足用户的不同需求。通过选择合适的生成模式，可以轻松创作出符合预期的视频作品。生成模式视频参数设置（1）“生成时长”是可灵AI中一个极为实用的参数，赋予了用户根据实际需求灵活设定视频时长的能

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

人工智能基础与应用 课件 ch03 动态视界：AI生成视频技术的创新与应用

文档简介

温馨提示

最新文档

评论

相关文档

人工智能基础与应用课件 ch03 动态视界：AI生成视频技术的创新与应用