《人工智能技术应用（第二版）》课件项目三用人工智能处理音视频

上传人：y*** IP属地：山东上传时间：2026-04-25 格式：PPTX 页数：142 大小：61.97MB 积分：25 举报 版权申诉

已阅读5页，还剩137页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

任务一

处理音频创设情境王华最近接了一个项目，要将一部分文字内容转为语音，然后把部分语音材料整理成文字，他提出一个充分利用人工智能技术的方案，利用文字转语音服务平台轻松解决这个问题，借助生成式人工智能整理语音材料成文字稿、文字材料生成语音资料，并且还可以提供多语言配音，创造交互式体验。活动目标1.了解目前文字生成音频和音频转文字的主流平台。2.掌握文字生成音频和音频转文字的一般操作步骤。3.音频处理给我们的学习、生活和工作带来的便利。活动准备初步了解文字生成音频和音频转文字时的常识和工具：1.了解TTS的原理：TTS是TextToSpeech的缩写，即“从文本到语音”，是人机对话的一部分，让机器能够说话。TTS是语音合成应用的一种，它将储存于电脑中的文件，如帮助文件或者网页，转换成自然语音输出。主要功能包括文本分析、语音合成、韵律处理。活动准备初步了解文字生成音频和音频转文字时的常识和工具：2.讯飞智作平台：讯飞智作是科大讯飞旗下的一款AIGC内容生产平台，它整合了多项核心技术成果，在语音处理、人工智能等领域发挥优势。例如在智能语音技术方面，涵盖了音频处理、语音识别、语音合成、语音评测等一系列核心产品和技术。从创作功能角度看，它就像是一个全能的创作助手，在实际应用场景中，讯飞智作也展现出了很强的适应性。活动准备它的核心功能就是将文本转换为语音，我们只需将需要配音的文本输入到工具中，选择相应的语言和声音，能在短时间内生成高质量的语音。活动准备初步了解文字生成音频和音频转文字时的常识和工具：4.海绵音乐：它是一个利用人工智能技术的音乐创作平台，可以快速生成个性化的音乐作品。通过提供多样化的音乐风格模板和情感主题，简化音乐创作的复杂性，即使是没有专业音乐也能轻松创作出属于自己的音乐。活动准备初步了解文字生成音频和音频转文字时的常识和工具：5.讯飞听见：一款由科大讯飞推出的智能语音转文字软件，它的功能能够大幅提升用户在会议记录、授课演讲、媒体采访等场景下的工作效率，如实时语音转写、多语种翻译、边录边拍、悬浮字幕、文本结果导出等功能。活动准备初步了解文字生成音频和音频转文字时的常识和工具：5.剪映软件：我们将在学习拟声这一功能时用到剪映软件，它的“声音克隆”功能是一项创新技术，我们能快速复制自己的声音。通过录制5秒钟的语音，AI模型能够学习并生成与我们音色极为相似的语音内容。活动展开-文本转换音频参照教材中“活动展开”，尝试操作。1.登录平台后，输入文本，点击“文本纠错”后试听效果。

粘贴文字稿到文本框活动展开-文本转换音频

智能纠正错别字界面参照教材中“活动展开”，尝试操作。1.登录平台后，输入文本，点击“文本纠错”后试听效果。活动展开-文本转换音频参照教材中“活动展开”，尝试操作。1.输入文本，“文本纠错”后试听效果。

点击主播头像试听多音字选择读音界面活动展开-文本转换音频参照教材中“活动展开”，尝试操作。2.选择语言、语音包类型和语速

语音主播选择界面活动展开-文本转换音频参照教材中“活动展开”，尝试操作。3.停顿设置和添加背景音乐。

配音停顿设置设置背景音乐活动展开-文本转换音频参照教材中“活动展开”，尝试操作。4.生成音频文件。修改生成音频文件名称为“《桃花源记》语音生成”、设置生成音频文件格式为“mp3”。

转换并下载配音文件活动展开-音频转换文本参照教材中“活动展开”，尝试操作。1.讯飞听见模块“实时录音”功能。打开讯飞听见官网，找到并点击“实时录音”模块，下拉选项中选择电脑自带麦克风。

实时录音功能选择界面参数设置活动展开-音频转换文本参照教材中“活动展开”，尝试操作。1.讯飞听见模块“实时录音”功能。打开讯飞听见官网，找到并点击“实时录音”模块，下拉选项中选择电脑自带麦克风。

声音实时转成文字活动展开-音频转换文本参照教材中“活动展开”，尝试操作。2.手机收音电脑端依次点击“设置”、“微信收音”，移动端扫二维码，切换到手机录音界面，开始实时语音转换文字。

提示：PC端和移动端使用同一个账号登录。切换到手机录音实时语音转换文字活动展开-拟声参照教材中“活动展开”，尝试操作。1.导入音频文件打开剪映软件，导入音频文件，将音频文件拖动到音轨上。素材拉进音轨打开软件活动展开-拟声参照教材中“活动展开”，尝试操作。2.克隆系统内置声音进入音色广场，试听各种角色，满意后单击头像选中。音色广场选择音色界面活动展开-拟声参照教材中“活动展开”，尝试操作。3.导出克隆声音文件试听得到满意的效果后，依次点击“菜单”-“文件”-“导出”设置格式为mp3，导出音频文件。导出克隆音频文件应用提升-文本转换音频使用“多人配音”功能在讯飞智作平台中输入师生对话逐字稿，按住ctrl键的同时选中一个角色的对话，点击“多人配音”选择配音主播，在“主播界面”采取同样的方法设置其他角色对话。选中角色（老师）对话

多人配音设置界面应用提升-文本转换音频文本文档转音频讯飞智作平台可以将整个文本文档转换音频。单击右上角“导入文件”按钮，将文本文档导入到平台。提示：在讯飞智作平台中，直接导入大小不超过20MB、字数不超过1万字、页数不超过50页的doc、pdf、txt格式文档。导入文档界面应用提升-文本转换音频文档转音频导入文本后，平台会根据文件内容智能排版，也可以根据需要手动编辑调整。还可以切换到“我的音乐”选项卡上传本地背景音乐。自动排版界面导入背景音乐界面应用提升-音频转换文本利用电脑端实现离线语音转文字打开讯飞听见首页，选择“导入音视频”选项卡，点击“立即体验”链接，添加录音文件，设置音频语音种类、专业领域等选项，提交转写。讯飞听见官网界面讯飞听见添加源音频文件界面应用提升-音频转换文本利用移动端完成语音转文字在讯飞听见APP中导入音频，设置语言种类、专业领域、转文字模式等选项，提交转写任务。讯飞听见APP首页转文字模式转写参数设置选择音频转文字模式应用提升-拟声克隆自己的声音朗读例句录制声音样本，生成属于自己的音色。上传语音文件后，可选择自己的音色进行克隆。提示：录制时的语气和情感也会被克隆，录制时长在5s以上；你的电脑要配备麦克风设备。克隆自己声音界面语音克隆应用提升-拟声克隆自己的声音设置参数：选择“保留口音版”保存，克隆列表多了生成的音色。将生成的音色应用到语音文件。提示：录制时的语气和情感也会被克隆，录制时长在5s以上；你的电脑要配备麦克风设备。设置参数定制音色列表应用提升-拟声调整声音效果设置克隆声音的音量、速度、淡入、淡出、降噪、变调效果。克隆声音基础设置克隆声音变速变调设置应用提升-拟声调整声音效果在“声音效果”选项卡中，“场景音”可选择不同的背景声音；“声音成曲”可以在克隆声音的基础上变成音乐，试听后选择满意的效果。选择“场景音”选择声音成曲理论拓展-机器学习算法线性回归根据奶茶店过去5天的数据，预测下周的销量以便备货。把“气温”和“销量”画在坐标图，肉眼可见这些点呈“左下→右上”的线性分布：气温每升高3℃，销量约增加15杯，趋势明确，预测公式为：销量=5×气温-45。

当天温度2225283134卖出奶茶数658095110125温度与卖出奶茶关系“气温”和“销量”关系理论拓展-机器学习算法线性回归如何让拟合线“最贴合”？拟合线的核心是“最小化误差”，通过“最小二乘法”算法调整拟合线的斜率和截距，让所有垂直虚线的“平方和最小”。如若拟合线斜率为4.8，误差平方和会增大，斜率为5.2时同样增大，只有斜率为5时，误差总和最小，此时红色拟合线在图中位置最居中最小二乘法拟合气温-销量关系图理论拓展-机器学习算法逻辑回归逻辑回归是一种用于二分类任务的统计模型，核心是将线性回归的连续输出映射到0-1之间的概率值。线性结果为0时，对应概率50%；线性结果为正值时，概率随线性结果增大趋近100%；线性结果为负值时，概率随线性结果减小趋近0%，实现从“线性数值”到“概率”的转换。逻辑回归以S型曲线图为核心表达，横轴为自变量，纵轴为范围0%~100%的概率值，起点接近纵轴0%，终点接近100%，中间会穿过纵轴50%的水平直线。S型曲线示意图理论拓展-机器学习算法线性回归若一类样本数量远多于另一类，在样本分布对比图中表现为某一类别的柱状图高度远高于另一类，此时分类边界会向样本量少的类别偏移，导致该类别的判断准确率降低。通过增加样本量少的类别数据或减少样本量多的类别数据，使两类样本在分布图中高度接近，分类边界回归临界点位置，确保两类判断准确率均衡。优化后的分类边界偏移的分类边界理论拓展-机器学习算法K近邻算法K近邻（KNN）是一种简单的监督学习算法，核心逻辑是“近朱者赤，近墨者黑”，通过样本周围邻居的类别来判断自身类别。当输入新样本时，计算它与训练集中所有样本的距离，根据距离排序，选取距离最近的K个样本作为“邻居”，再统计K个邻居中各类别的数量，数量最多的类别即为新样本的预测类别。K近邻算法示意图理论拓展-机器学习算法支持向量机支持向量机（SVM）是一种监督学习模型，核心是在特征空间中找到最优超平面，实现对数据的分类或回归。支持向量机示意图理论拓展-机器学习算法支持向量机二维平面中分布着圆形和方形两类样本点（如图4-1-53所示），蓝色圆形代表正类样本，橙色方形代表负类样本，所有样本点随机分布但呈现明显的可分性，无重叠区域。一条直线作为最优超平面将两类点清晰分隔，它将两类样本点完全分隔，且到两侧最近样本点的距离相等，距离超平面最近的3个样本点（2圆1方）被标记为支持向量，这些点是距离超平面最近的样本，直接决定超平面的位置和方向，移除其他点不会改变超平面参数，间隔宽度通过双向箭头标注，其值等于2倍支持向量到超平面的距离，是SVM模型优化的核心目标。仅供学习参考任务二

生成视频创设情境王华所在公司负责新产品的宣传，在新产品出来后他要第一时间请专业公司制作视频，经常在领导和制作为员间协调，为了制作视频十分烦恼。而今，她熟练使用生成式人工智能，高效、低成本、轻松解决了这个烦恼。在本任务中，我们一起使用生成式人工智能，使用文本、图片等提示词生成视频。活动目标1.了解AI生成视频的一般操作步骤。2.掌握生成虚拟视频的方法与技巧。3.能够感受人工智能对生活、学习和工作带来的便捷。活动准备初步了解视频生成的原理：文本生成视频的原理‌是通过自然语言处理（NLP）技术将文本内容转化为视频。这一过程涉及多个步骤和技术，包括文本处理、图像生成、音频合成和视频合成。本处理‌是第一步，涉及对输入的文本内容进行分词、情感分析和关键词提取等处理，以确保生成的视频与文本内容高度相关‌。接下来是‌图像生成‌，这一步通常需要生成背景图片、文本框等元素。可以使用图像处理工具或库来生成这些图像，并根据文本内容选择合适的图像元素‌。活动准备初步了解视频生成的原理：‌音频合成‌则是为了增强视频的吸引力，可以通过文本转语音（TTS）技术将文本转化为声音，生成配音或背景音乐‌。最后，‌视频合成‌是将生成的图像和音频合成为视频。可以使用视频编辑工具或库来将图像序列和音频合并在一起，设置帧速率和视频分辨率以获得所需的输出效果‌。‌AI智能系统会自动分析文本内容，提取关键词，确定视频主题，并根据文本内容自动匹配相应的图像、音效和背景音乐等素材，最终生成一段富有创意的短视频‌。活动准备初步认识创作平台：‌1.讯飞智作：核心功能包括有AI配音（多语种、多情感）、虚拟数字人视频生成、PPT智能转视频等。我们可通过输入文本或录音，快速生成新闻播报、教学视频、企业宣传等内容，提升创作效率。根据文案自动生成自然肢体动作，适用于直播、培训、新闻播报等场景。活动准备初步认识创作平台：‌2.智谱清言大模型：它分为文本生成视频和图像生成视频两种，在文本和图像生成视频的活动，选用视频生成功能，输入一段文字，并选择想要生成的视频风格、情感氛围、运镜方式，就能生成一段充满AI想象力的视频片段。3.其它大模型：我们在实践操作阶段会用到与活动开展和拓展提高部分类似的大模型，通义万相、可灵AI、即梦AI等它们功能类似，部分维度不同。任务二AI换脸使用的在线平台remaker.ai，实现了单人换脸和多人换脸。活动展开-虚拟人参照教材中“活动展开”，尝试操作。1.进入平台。登录讯飞智作官网（），进入AIGC内容创作平台，并修改作品名称。

进入AIGC内容创作平台活动展开-虚拟人参照教材中“活动展开”，尝试操作。1.进入平台。修改作品名称。

修改作品名字活动展开-虚拟人参照教材中“活动展开”，尝试操作。2.选择画布尺寸。选择合适的画布尺寸，点击“虚拟人”按钮，选择你喜欢的虚拟人形象。

画布尺寸选择活动展开-虚拟人参照教材中“活动展开”，尝试操作。3.输入提示词。输入语音播报文字内容、选择配音主播后试听。

播音音色选择播报文字内容活动展开-虚拟人参照教材中“活动展开”，尝试操作。3.输入提示词。浏览虚拟人效果并生成播报视频。

下载作品界面作品导出设置活动展开-AI换脸参照教材中“活动展开”，尝试操作。1.图片换脸。打开网站remaker.ai/zh/face-swap-free/,登录后选择原图和目标图像换脸。

换脸后图片选择原图和目标图像活动展开-AI换脸参照教材中“活动展开”，尝试操作。2.视频换脸。上传源视频和目标图像换脸。

视频换脸界面活动展开-AI换脸参照教材中“活动展开”，尝试操作。2.视频换脸。上传源视频和目标图像换脸。

生成的换脸视频对比活动展开-AI换脸参照教材中“活动展开”，尝试操作。2.视频换脸。上传源视频和目标图像换脸。

生成的换脸视频对比（点击播放）活动展开-文本生成视频参照教材中“活动展开”，尝试操作。1.尝试文生视频。智谱清言大模型中，输入描述文本，设置生成模式、视频风格、情感氛围、运镜方式后生成视频。

输入描述文本生成视频效果活动展开-文本生成视频参照教材中“活动展开”，尝试操作。2.设置声音效果。为生成视频增加音效，添加背景音乐。

增加音效选择背景音乐活动展开-文本生成视频参照教材中“活动展开”，尝试操作。3.修改视频作品。生成的视频作品不满意，可重新生成或删除视频，也可更换或删除AI音效、背景音乐。重新生成或删除作品更换或删除背景音乐活动展开-图片生成视频参照教材中“活动展开”，尝试操作。1.生成视频。打开智谱清言大模型，选择一张图片上传，生成视频。

上传图片视频生成效果活动展开-图片生成视频参照教材中“活动展开”，尝试操作。2.设置声音效果。在智谱清言大模型“我的创作”中增加背景音乐或AI音效，然后下载到本地。

增加AI音效下载视频文件到本地活动展开-图片生成视频参照教材中“活动展开”，尝试操作。3.修改视频作品。生成的视频作品不满意，可更换或删除背景音乐、AI音效，也可重新生成或删除作品。

修改作品更换或删除背景声音活动展开-PPT生成视频参照教材中“活动展开”，尝试操作。1.登录平台。在“百度智能云数字员工”首页点击“营销内容创作”图标进入编辑界面。

扫描观看“百度智能云数字员工”首页活动展开-PPT生成视频参照教材中“活动展开”，尝试操作。1.上传PPT课件。修改作品名字为“ppt生成视频”，单击PPT素材下方“+”图标，在弹出页面中上传ppt。

修改作品名字扫描观看上传PPT活动展开-PPT生成视频参照教材中“活动展开”，尝试操作。2.生成视频。在“时间线”上点击“添加脚本”，进入“输入脚本”菜单，输入文本内容。

选择“输入脚本”选项输入文本内容活动展开-PPT生成视频参照教材中“活动展开”，尝试操作。2.生成视频。选择声音，试听效果，设置参数后导出视频。选择播报声音导出视频应用提升-虚拟人了解讯飞智作工具面板功能①属性栏；②主播选择区；③内容导入区；④预览导出区；⑤片段编辑区等。数字人编辑面板应用提升-虚拟人了解腾讯智影工具面板功能①属性栏：位于页面顶部，可调整视频尺寸、分辨率、码率，开关字幕和AI标识等。②主播选择区：位于预览区右侧，可滑动选择虚拟人、声音、模板、背景、画中画、文本和字幕等。虚拟人选项卡可按照性别、姿势（全身、半身、坐姿等）筛选不同领域主播形象；声音选项卡可更换不同主播声音、调节主播语速和语调；模板中可选择现有场景，也可自己制作模板。③内容导入区：位于预览区下面，可输入文字自动合成语音，也可上传自己录制好的音频；也可点击“动作模式”插入主播动作（无动作、自然动作、AI匹配等）。④预览导出区：可保存文件、预览效果、生成视频文件。⑤片段编辑区：可导入PPT，每页PPT将作为视频的一个片段。应用提升-虚拟人编辑虚拟人：虚拟人动作可为虚拟人选择“自然动作”、“手动添加”、“AI匹配”，根据需要选择虚拟人的手势动作。虚拟人选择界面虚拟人的动作选项应用提升-虚拟人编辑虚拟人：画中画效果点击“画中画”选项卡，上传一张图片后，拖动到合适位置预览效果。上传画中画视频调整画中画视频位置应用提升-虚拟人编辑虚拟人：调整主播声音切换到“声音”选项卡，可选择主播及其风格后，设置“语速”、“语调”、“声音增益”等大小。数字人属性设置应用提升-虚拟人编辑虚拟人：设置背景点击右侧工具栏中“背景”选项卡，可选择“系统背景”和“我的背景”，点击“全部场景”下拉框，筛选不同类型的背景，选择一张背景后预览效果。也可点击“我的背景”选项卡，从本地上传一张图片作为背景。为虚拟人增加背景应用提升-虚拟人编辑数字人：设置字幕点击右侧工具栏中“字幕”选项卡，可开启字幕功能、设置字体及大小、颜色、位置等。字幕样式设置应用提升-虚拟人编辑平台模板：选择模板单击右侧“模板”选项卡，选择一个模板，在弹出预览界面中调整主播和模板元素位置。选择模板风格调整主播和模板元素位置应用提升-虚拟人编辑平台模板：导入PPT增加场景增加或删除场景，并可选择不同的背景模板和虚拟人，导入ppt后，每个页面作为一个场景，ppt内容也根据模板位置嵌入。也可以结合“画中画”功能上传ppt作为背景。导入PPT增加场景选择转场效果应用提升-AI换脸自定义换脸单人换脸：不使用系统原图和目标人脸图，上传自己选定的图片换脸。上传自选图片换脸后效果应用提升-AI换脸自定义换脸多人换脸：选择一张系统默认多人合影照片上传到目标图片框，生成新的换照片。多人合影分解为合影换脸应用提升-AI换脸自定义换脸多人换脸：选择一张系统默认多人合影照片上传到目标图片框，生成新的换照片。合影换脸后的照片合影换脸前的照片应用提升-AI换脸批量换脸多张原图：多张原图需要同时换为1张脸，可以使用批量换脸功能。多张原图换1张脸多原图批量换脸生成图应用提升-AI换脸批量换脸多张原图：多张原图需要同时换为1张脸，可以使用批量换脸功能。多张原图换1张脸多原图批量换脸生成图应用提升-AI换脸批量换脸多张目标人脸：对于1张原图需要同时换为多张脸，可以使用批量换脸功能。1张原图换多张脸1张原图批量换多张脸生成图应用提升-文本生成视频设置进阶参数设置基础参数：输入描述文本后，基础参数可设置生成模式、视频帧率、视频分辨率和生成比例。设置基础参数应用提升-文本生成视频设置进阶参数设置AI特效：平台默认提供了一些简单的AI特效，生成视频时，可以勾选特效。设置AI特效应用提升-文本生成视频设置进阶参数输入描述文本后，还可以设置视频时长、AI音效和水印开关。应用提升-文本生成视频优化提示词结构构造清晰的结构：提示词要按照画面描述要点，告诉人工智能需要生成视频的关键点，如摄像机移动方式、场景描述等，大家不妨尝试如下公式来编写提示词，使用提示词的结构更清晰。[镜头语言]+[光影]+[主体(主体描述)]+[主体运动]+[场景(场景描述)]+[情绪/氛围/风格]例句：摄影机平移(镜头移动)，一个小男孩坐在图书馆的长椅上(主体描述)，手里拿着一本有趣的童话故事(主体动作)。他穿着一件白色的衬衫，看起来很愉快(主体细节描述)，背景是藏满各种书籍的书架，阳光透过窗户酒在男孩身上(所处环境描述)。应用提升-文本生成视频优化提示词结构构造清晰的结构。有无结构的提示词生成视频效果对比应用提升-文本生成视频优化文本描述技巧提示词优化。在描述文字的时候，优化文字描述有助于更贴近我们满意的结果，如强调关键信息、聚焦出现内容、规避负面效果等。①

强调关键信息:在提示的不同部分重复或强化关键词有助于提高输出的一致性。例如，摄像机以超高速镜头快速飞过场景。(其中的“超高速”、“快速“就是重复词)②

设置艺术风格:在提示词中添加"艺术家/艺术作品风格”，可以更好地指定视频的呈现效果。增加文森特·梵高、莫柰风格描述后生成的视频效果对比表如表4-2-3所示。③

规避负面效果:为了进一步保障视频生成质量，可以在提示词中写明不需要的效果。例如:"不出现扭曲、变形、模糊的场景。④

增加电影风格：添加"电影风格”，可以更好地指定视频的呈现效果。无电影效果基础风格、科幻风格、西部风格、黑色电影风格提示词和生成的视频风格对比如表4-2-4所示。

⑤

加强镜头语言：镜头语言是通过摄影机的移动或焦距变化来表现画面内容的一种方式。常用的镜头运动包括推、拉、摇、移、升、降等。应用提升-文本生成视频优化文本描述技巧提示词优化。风格提示词生成视频文森特·梵高文森特·梵高，种子发芽破土而出

莫柰莫奈(ClaudeMonet)，种子发芽破土而出电影风格提示词生成视频对比应用提升-文本生成视频优化文本描述技巧提示词优化。风格提示词生成视频基础风格一个乐高积木小人在高速公路上开跑车

科幻风格科幻风格，一个乐高积木小人在公路上开车

西部风格西部风格，一个乐高积木小人在高速公路上开跑车

黑色电影风格黑色电影风格，一个乐高积木小人在公路上开车应用提升-图片生成视频图片上传设置图片尺寸设置。可选原图/9:16/16:9/1:1/3:4/4:3六种比例。图片裁剪非等比裁剪后效果应用提升-图片生成视频图片上传设置图片质量设置。采用分辨率提升工具将图片变清晰，平台默认不允许上传像素低于300px的图片。低像素图片上传提示框应用提升-图片生成视频设置视频描述文本增加视频文字描述能更加准确地生成我们想要的视频。上传图片后，按照“参考[主体]+[主题运动]+[背景]+[背景运动]”方式增加视频描述“小男孩子很开心地慢慢取下墨镜”，增加视频描述文本与无文本生成视频对比效果。增加视频描述文本有无视频描述文本效果对比应用提升-图片生成视频设置尾帧图片设置首帧和尾帧图片应用提升-PPT生成视频添加脚本AI帮写：导入PPT后，点击“添加脚本”，输入关键词后生成脚本。生成后，点击“AI写作助手”继续润色、缩写、扩写脚本。AI帮写脚本AI润色脚本应用提升-PPT生成视频添加脚本音频驱动：导入PPT后，点击“添加脚本”，进入“音频驱动”菜单，可选择本地上传和录制音频。上传本地音频文件麦克风录制音频文件应用提升-PPT生成视频添加脚本音频驱动：导入PPT后，点击“添加脚本”，进入“音频驱动”菜单，可选择本地上传和录制音频。音频转字幕内容应用提升-PPT生成视频声音设置设置播报声音：输入脚本内容，选择配音角色后，可设置停顿时间、语速、语调和音量等。设置播报声音参数应用提升-PPT生成视频设置数字人选择数字人：点击左侧菜单栏“形象”切换到数字人选择界面，根据需要设置不同类型、性别、年龄、姿势、动作、场景的数字人。设置数字人筛选标签应用提升-PPT生成视频设置数字人设置数字人参数：设置数字人展示镜头为“全身”，分别设置数字人进场动画和出场动画，并根据内容增加“点头”、“左摊手”等动画。设置数字人展示镜头设置数字人进出场动画数字人增加动画理论拓展-生物神经网络生物神经元的结构我们的大脑之所以能思考、学习，靠的就是无数个“小零件”-生物神经元。每个生物神经元就像一个小小的信息处理站，它核心结构包括细胞体、树突、轴突、突触。生物神经元的结构理论拓展-生物神经网络生物神经网络：人类智慧的“硬件基础”生物神经元的结构细胞体神经元的“指挥中心”，里面有细胞核，负责处理接收到的信息；树突像树枝一样，细细长长，数量还不少，主要作用是“接收信息”。就像我们的耳朵听声音一样，树突会接收来自其他神经元传来的信号；轴突是一条相对较粗、较长的“电线”，一端连接细胞体，另一端有很多轴突末梢，负责把细胞体处理后的信息传递给其他神经元；突触是轴突末端与其他神经元树突的连接点，是信号“跨细胞传递”的关键。理论拓展-生物神经网络生物神经网络：人类智慧的“硬件基础”生物神经网络的信息传递细胞体神经元的“指挥中心”，里面有细胞核，负责处理接收到的信息；树突像树枝一样，细细长长，数量还不少，主要作用是“接收信息”。就像我们的耳朵听声音一样，树突会接收来自其他神经元传来的信号；轴突是一条相对较粗、较长的“电线”，一端连接细胞体，另一端有很多轴突末梢，负责把细胞体处理后的信息传递给其他神经元；突触是轴突末端与其他神经元树突的连接点，是信号“跨细胞传递”的关键。理论拓展-生物神经网络人工神经网络人工神经网络是由很多个“人工神经元”组成的，这些人工神经元按层排列，主要分为三层：•输入层：就像我们的眼睛、耳朵，负责“接收外界数据”。比如要让计算机识别一张图片，输入层就会接收这张图片的像素数据。•隐藏层：它在输入层和输出层之间，相当于“信息处理工厂”。隐藏层会对输入层传来的数据进行加工、处理，比如提取图片中的线条、颜色等特征。隐藏层可以有一层，也可以有多层，层数越多，处理复杂问题的能力通常越强。•输出层：它是“结果输出端”，会把隐藏层处理好的信息变成我们能看懂的结果。比如识别图片时，输出层会告诉我们“这是一只猫”还是“这是一只狗”。理论拓展-生物神经网络人工神经网络人工神经网络是由很多个“人工神经元”组成的，这些人工神经元按层排列，主要分为三层：人工神经元组成理论拓展-生物神经网络人工神经网络首先，它会接收来自上一层多个神经元传来的“数据”，同时每个数据会对应一个“权重”。然后，把每个数据和对应的权重相乘，再把所有相乘的结果加起来，最后通过一个“激活函数”处理，得到这个人工神经元的输出，再传给下一层神经元。人工神经元工作过程理论拓展-生物神经网络人工神经网络发展历程早期萌芽阶段（1940-1950）这是人工神经网络的“婴儿时期”。1943年，科学家麦卡洛克和皮茨提出了“人工神经元模型”，第一次用数学公式描述了人工神经元的工作方式，为后续研究打下了基础。1957年，罗森布拉特发明了“感知器”，这是第一个真正能工作的人工神经网络。“感知器”示意图理论拓展-生物神经网络人工神经网络发展历程低谷与复兴阶段（1960-1980）1969年，明斯基等科学家指出了感知器的局限性，很多人觉得人工神经网络没前途，研究资金减少，进入了“低谷期”。但还是有科学家没放弃，1986年，鲁梅尔哈特等人提出了“反向传播算法”，解决了多层人工神经网络的训练问题。多层网络能处理感知器解决不了的复杂问题，人工神经网络又“活”了过来，进入“复兴阶段”。理论拓展-生物神经网络人工神经网络发展历程深度学习爆发阶段（2000至今）2006年，辛顿提出了“深度学习”的概念，其实就是层数更多的人工神经网络。2012年，在ImageNet图像识别比赛中，基于深度学习的“AlexNet”模型表现远超其他方法，识别准确率大幅提升。现在我们常用的人脸识别、自动驾驶、智能推荐等技术，背后都有深度学习的身影。而且随着计算机算力的提升和数据量的增加，人工神经网络的性能还在不断变强。“AlexNet”模型示意图仅供学习参考任务三

编辑视频创设情境张明在一家新媒体公司上班，主要负责整理、编辑视频工作，时常还需要添加英语或其他语言的字幕，使其比较烦恼。而今，她熟练使用AI，轻松地解决了这些问题。活动目标1.掌握AI视频制作工具使用的一般操作方法。2.了解AI视频制作的常用技巧。3.能够感受人工智能对生活、学习和工作带来的便捷。活动准备初步了解AI视频剪辑原理：AI视频处理是指利用人工智能技术，通过算法和数据驱动的方式，自动生成或辅助生成视频内容的过程，它基于深度学习、计算机视觉等原理，通过训练大量数据模型，实现对视频内容的自动理解、生成和编辑。活动准备认识创作平台：1.鬼手剪辑：鬼手剪辑（）是一款AI智能视频剪辑工具，可以快速、批量处理视频素材。通过使用AI技术，鬼手剪辑能够自动识别并去除视频中的内置文字、字幕和水印，同时支持多种语言的互译和配音，还提供了模板制作、脚本混剪等功能，本任务中翻译字幕活动使用鬼手剪辑。活动准备认识创作平台：2.自动剪辑神器。自动剪辑神器（autocut.video）提供便捷的视频编辑功能，将视频素材上传到平台上，选择你喜欢的音乐和风格，一键智能过滤停顿、杂音和静音，让视频更加流畅和自然。活动展开-翻译字幕参照教材中“活动展开”，尝试操作。1.翻译字幕。登录鬼手剪辑平台，依次点击“去创作”、“视频翻译”、“台词提取方式”，设置翻译和配音。

视频翻译引导进入图标设置翻译参数设置配音角色活动展开-翻译字幕参照教材中“活动展开”，尝试操作。2.视频翻译。本地上传视频，等待视频字幕翻译。上传视频视频翻译前后对比活动展开-视频擦除参照教材中“活动展开”，尝试操作。1.视频去文字。鬼手剪辑平台中单击“智能去文字”图标，选择文字语种，上传需要去除文字的视频。

智能去文字引导图片选择擦除模型上传视频活动展开-视频擦除参照教材中“活动展开”，尝试操作。1.视频去文字。鬼手剪辑平台中单击“智能去文字”图标，选择文字语种，上传需要去除文字的视频。

原视频全屏去文字区域去文字活动展开-剪辑视频参照教材中“活动展开”，尝试操作。1.AI一键过滤停顿和静音。单击“极速过滤”按钮，添加素材,设置剪辑节奏,生成作品。

“一键过滤停顿、静音”图标添加素材活动展开-剪辑视频参照教材中“活动展开”，尝试操作。1.AI一键过滤停顿和静音。单击“极速过滤”按钮，添加素材,设置剪辑节奏,生成作品。

设置界面设置剪辑节奏界面活动展开-剪辑视频参照教材中“活动展开”，尝试操作。2.AI一键视频切片。单击“极速过滤”按钮，添加视频，在剪辑节奏菜单下选择“自定义”，单击“滴管”图标设置声音阈值，设置导出位置和格式后开始导出视频。

选择“自定义”剪辑节奏设置声音阈值活动展开-剪辑视频参照教材中“活动展开”，尝试操作。2.AI一键视频切片。单击“极速过滤”按钮，添加视频，在剪辑节奏菜单下选择“自定义”，单击“滴管”图标设置声音阈值，设置导出位置和格式后开始导出视频。

选择“导出切片”界面活动展开-剪辑视频参照教材中“活动展开”，尝试操作。3.按时长平均切片。单击“按时长平均切分”按钮，添加视频，设置切分时间，导出小片段。

“按时长平均切分”图标设置切分时间勾选切片后需要生成的片段界面应用提升-翻译字幕了解台词提取方式视频语音：AI平台从视频语音提取台词，翻译后的语种声音通过设置AI配音自动生成。内置字幕：在“全屏”和“指定区域”显示字幕。字幕提取选项设置字幕位置应用提升-翻译字幕了解台词翻译翻译语种设置：分别设置翻译视频源语种和目标语种，视频源语种下拉选项可以选择中文和英文，要翻译成的目标语种下拉选项可以选择多种。视频源语种设置应用提升-翻译字幕了解台词翻译编辑字幕：视频翻译完成后，点击“字幕调整&下载”按钮，可以进行字幕调整。字幕调整页面增加字幕字幕样式选择框应用提升-视频擦除编辑擦除区域对于AI漏擦情况，可以重新编辑擦除效果。增加擦除区域提交AI生成新作品后，在“我的作品”菜单查看作品列表，点击“编辑视频”按钮进入文字擦除的调整界面，打开“原视频”滑动按钮，向上移动蓝色擦除框确保全部覆盖文字。作品列表窗口“原视频”滑动按钮调整蓝色擦除框应用提升-视频擦除编辑擦除区域在编辑时间轴上，遮罩框所在图层比视频时间线短，为确保整个视频文字被擦除，点击鼠标左键拉动蓝色擦除所在图层到与视频平齐。调整蓝色擦除框所在图层时间线应用提升-视频擦除设置保护区域对于视频中部分内容不需要擦除，使用添加保护区域功能。在“我的作品”找到对应作品“编辑视频”按钮，单击进入文字擦除的调整界面，单击“添加保护区域”按钮，时间编辑线上增加了绿色图层，同时在预览界面也增加绿色透明层。增加擦除区域擦除透明层应用提升-视频擦除设置保护区域移动绿色透明层遮挡标题“酸汤面”，保护其不被擦除，同时将时间轴的绿色图层拖动到标题结束的位置，点击“提交”按钮生成视频。保护标题图层设置时间线应用提升-视频擦除设置保护区域移动绿色透明层遮挡标题“酸汤面”，保护其不被擦除，同时将时间轴的绿色图层拖动到标题结束的位置，点击“提交”按钮生成视频。保护标题图层设置时间线应用提升-剪辑视频批量添加裂变文字登录自动剪辑神器，单击“裂变文字样式”按钮，添加视频。添加文字内容、设置显示时间，单击“裂变”按钮，生成后导出。“裂变文字样式”按钮添加文字及显示时间裂变导出设置应用提升-剪辑视频添加背景单击“添加背景”按钮，选择画面长宽比例，添加视频素材和背景图片素材后导出。“添加背景”按钮添加视频素材和背景图片素材理论拓展-人工神经元模型人工神经元是对生物神经元信号处理机制的数学抽象，是构建所有神经网络的最小功能单元，核心作用是接收多维度输入信号，通过线性加权与非线性转换，输出单一维度的结果信号，为后续复杂网络结构提供基础计算能力。核心构成与工作逻辑人工神经元的数学模型包含输入向量、权重向量、偏置项和激活函数四个关键组件。输入向量记为：权重向量记为：偏置项记为：b，用于调整神经元的激活阈值激活函数记为：理论拓展-人工神经元模型核心构成与工作逻辑人工神经元的数学模型包含输入向量、权重向量、偏置项和激活函数四个关键组件。输入向量记为：权重向量记为：偏置项记为：b，用于调整神经元的激活阈值激活函数记为：将输入信号的线性组合结果

映射到特定范围，最终输出公式为理论拓展-人工神经元模型主流激活函数特性激活函数的选择直接影响神经元的表达能力，以下是几种主流的激活函数，各有适用场景。Sigmoid函数

输出范围为(0,1)，可将线性结果映射为概率值，适用于二分类任务的输出层。ReLU函数表达式为ReLU(x)=max(0,x)，输入为正时直接输出原值，为负时输出0Tanh函数

输出范围为(-1,1)，具有零均值特性，相比Sigmoid更适用于对输出对称性有要求的场景理论拓展-人工神经元模型经典实例：感知机感知机是最简单的人工神经元模型，其激活函数为阶跃函数（输入大于阈值输出

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《人工智能技术应用（第二版）》课件项目三用人工智能处理音视频

文档简介

温馨提示

最新文档

评论

《人工智能技术应用（第二版）》课件 项目三 用人工智能处理音视频

文档简介

温馨提示

最新文档

评论

相关文档

《人工智能技术应用（第二版）》课件项目三用人工智能处理音视频