人工智能通识：理论、案例与应用课件第4章 AIGC 基础及多模态应用

上传人：h*** IP属地：山东上传时间：2026-04-14 格式：PPTX 页数：45 大小：105.63MB 积分：15 举报 版权申诉

已阅读5页，还剩40页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第4章AIGC基础及

多模态应用人工智能通识：理论、案例与应用（慕课版在线实训平台版）

CHAPTER42023年7月，正值饮料营销旺季，西安本土饮料品牌——冰峰推出冰峰之橙文旅罐，并同步上新了AI制作的广告片。广告片借助AI技术，将盛世长安展现在消费者面前。冰峰之橙文旅罐是陕西文化产业投资控股（集团）有限公司联合本土饮料品牌冰峰共同打造的一次城市+品牌营销事件。为了获得年轻消费者关注、促进城市旅游、带动品牌发展，在文旅罐推出的同时，冰峰用AI技术生成了大雁塔、钟楼、兵马俑等多种

城市景观，并通过镜头语言组合为一支半分钟长的广告片。AI生成的高度逼真和绚丽的画面，能最大限度唤醒潜在消费者对西安的关注。此次活动的火爆出圈，不仅在线上引来各大媒体争相报道，还在小红书等平台上掀起了一系列“种草”热潮，吸引了众多达人前往线下打卡记录。引导案例

AI赋能冰峰：文旅罐广告片出圈，带动城市旅游新热潮案例思考AI生成的广告片画面虽然绚丽，但如何确保其能准确传达冰峰品牌的核心价值和文化内涵，避免因过于追求视觉效果而忽视品牌本质？目录CONTENTSAIGC概述PART01PART02PART03PART04提示工程使用AIGC工具

辅助处理文本使用AIGC工具辅助创作图像人工智能通识：理论、案例与应用（慕课版在线实训平台版）

使用AIGC工具辅助创作视频PART05使用AIGC工具辅助处理音频PART06使用AIGC工具链创作营销短视频PART07AIGC正以从无到有的创造力改进内容生产范式，并通过多模态大模型与深度学习技术实现了文本、图像、音视频等全形态内容的自主生成，成为推动千行百业数字化转型的核心引擎。从传媒行业的自动化新闻生产，到制造业的智能供应链优化；从教育领域的个性化学习路径设计，到金融服务的风险预测与决策支持，AIGC不仅提高了创意效率，还催生了人机协同的新型生产关系，其价值已超越工具属性，演变为驱动社会创新的基础设施。01.AIGC概述人工智能通识：理论、案例与应用（慕课版在线实训平台版）

4.1.1AIGC的概念与特点AIGC的概念AIGC是指基于人工智能技术，通过算法模型对海量数据进行学习后，自主或在人类少量指令的辅助下，生成具备一定逻辑、结构与意义的内容的技术。AIGC覆盖多种形态，包括但不限于文本、图像、音频、视频、代码等，其创作核心区别于人类直接创作，也不同于传统AI对已有内容的分析、筛选或编辑，而是具备从零到一的内容创造能力。AIGC的特点强生成性：AIGC无需依赖已有内容素材，可基于算法模型的学习成果，直接生成全新的内容。高效率性：AIGC能以远超人类的速度完成内容生产，且支持批量生成。多模态与多样性：AIGC可以跨形态生成不同类型的内容，并且在同一指令下能输出风格、形式各异的结果。一定的自主性：在接收人类初始指令后，AIGC在生成过程中无需人类实时干预，算法会自主完成逻辑梳理、细节填充与内容整合。4.1.2AIGC的能力与应用场景AIGC的核心能力AIGC是基于算法、模型与规则，通过学习海量数据模式生成原创内容的技术，其核心能力围绕创造与交互展开，主要包括以下几类。多模态内容生成能力自然语言处理与对话能力趋势分析与预测能力AIGC的主要应用场景AIGC的应用已从早期的媒体领域扩展至电商、教育、金融、制造等多个行业，成为推动各行业数字化转型的关键工具，具体场景如下。传媒与内容产业电商与零售教育与培训金融与保险制造业与工业4.1.3主流AIGC工具图像生成工具即梦AI奇域AI通义万相美图设计室通义千问KimiDeepSeek豆包腾讯元宝智谱清言文本生成工具音频生成工具视频生成工具可灵AI智谱清影拍我AIVidu海绵音乐网易天音讯飞智作音剪要让AIGC真正理解人类意图并输出高质量结果，仅靠算法本身的进化远远不够，其潜能释放依赖一套高效的语言控制系统，即提示工程。提示词作为激活AI潜能的语义密钥，通过结构化指令引导模型跨越概率生成的混沌，精准锚定创作、推理与决策的航向；而提示工程则是一套系统化的对话方法论，通过角色赋予、逻辑拆解与动态调优，将模糊需求转化为可执行的认知框架。02.提示工程人工智能通识：理论、案例与应用（慕课版在线实训平台版）

4.2.1提示工程与提示词提示工程提示工程是围绕提示词设计、优化和评估的全流程体系，旨在提升模型输出的准确性、可控性和效率。提示工程的关键策略包括以下4个。①角色定位法：赋予模型专业身份，激活垂直领域知识库。②思维链：分步骤引导推理，提高多步任务的准确率。③少样本学习：通过1～5个示例示范输出范式，定向塑造模型行为。④动态优化：通过测试不同的提示版本，构建“生成—评估—修正”的闭环。提示词提示词是用户向AI模型输入的具体指令或问题，是触发模型生成内容的直接载体。AI模型的本质是概率生成器，提示词通过提供语义锚点缩小模型的猜测范围。一个高效的提示词通常包含指示、上下文、示例、格式约束等要素。指示用来明确任务目标；上下文提供背景信息；示例锚定输出风格；格式约束限定输出形式。4.2.2提示词的设计原则明确性原则提示词要避免笼统表述，应当用明确的指令限定范围。明确性原则的核心是补充任务边界，明确内容主题、篇幅、核心要素，减少AI的猜测空间。结构化原则提示词要将指令拆解为“角色+任务+格式”三大模块。这样能帮AI快速抓取关键信息，尤其适用于复杂任务，可避免因信息混乱导致输出内容产生偏差。上下文锚定原则对需要特定风格或逻辑的任务，需要提供背景或示例。能力适配原则由于不同AI模型擅长的领域不同，因此提示词的指令要匹配其能力。语境适配原则要根据AI模型的特性调整提示词的设计策略。同时，要注意文化语境差异，避免歧义表达。4.2.3提示词的基本框架BROKE框架BROKE框架是一个五步闭环思维模型，可指导用户从需求萌生到结果评估的全过程，尤其适用于复杂、多步骤的任务。Background（背景）：为任务设定上下文，明确说明当前的情况、问题和目标。Request（请求）：提出清晰、具体的核心指令，明确用户希望AI“做什么”。Outcome（产出）：定义理想的输出结果，明确用户希望“得到什么”，包括格式、长度、风格等。Key（关键）：列出必须遵循的要点或约束条件。Evolution（改进）：基于AI的初次输出进行迭代优化，提供具体的反馈。CRISP框架CRISP框架通过5个模块明确需求边界，让AI快速、精准地理解任务，尤其适合复杂场景。该框架可按需取舍模块。Context（上下文）：提供任务背景信息，帮助AI锚定分析或创作的范围。Role（角色）：定义AI的身份，让AI调用对应领域的知识和语言风格。Instruction（指令）：明确具体任务与要求，需量化或具象化。Sample（示例）：提供1～2个参考案例，帮助AI对齐输出格式或风格。Parameter（参数）：限定输出形式或规则，避免AI输出不符合预期的内容。文本类AIGC工具作为人类的智能助手，既能高效完成文本任务，又能深挖文本价值，让文本生成、优化、校对、智能阅读与翻译变得轻松、便捷，从而能够重新定义我们与文字的互动方式。03.使用AIGC工具辅助处理文本人工智能通识：理论、案例与应用（慕课版在线实训平台版）

4.3.1生成文本内容在生成文本内容之前，用户首先要确定文本类型（如新闻稿、营销文案、学术摘要）、主题方向、核心信息点及风格要求（如正式、幽默、专业等）。例如，若需生成产品介绍，需要明确产品特点、目标用户和传播渠道。明确需求

与目标用户可以根据需求选择工具，通用型AIGC工具（如DeepSeek、腾讯元宝、豆包）适合多场景；垂直领域工具更精准，如Jasper AI用于营销文案、Notion AI用于笔记整理。部分工具支持插件扩展功能，可按需

配置。选择适配的AIGC工具提示词需包含角色设定、任务要求、内容框架和示例。例如，“假设你是资深科技记者，请撰写一篇关于AI芯片发展的500字分析文章，需包含技术突破、市场影响及未来趋势，语言简洁专业”。清晰的提示能显著提升输出质量。输入精准

提示词4.3.2优化文本内容结构优化在优化内容结构时，可以输入提示词“请优化上述文本的逻辑结构，突出核心论点，并补充过渡句”“将内容分为‘问题背景—解决方案—效果对比’三个部分”。如果生成的内容冗长，可以输入提示词“用金字塔原理重组段落，结论先行”；如果内容逻辑跳跃，可以输入提示词“补充因果链分析”。语言升级语言升级主要体现在调整语气、精简冗余内容、增强感染力等方面。信息深化信息深化主要体现在数据填充、案例增强、矛盾修复等

方面。风格定制风格定制是指使用AIGC工具调整内容的风格，定制时应符合场景适配、受众调整等规则。场景适配是指明确使用场景，受众调整是指针对不同群体进行优化。迭代优化在对生成内容进行迭代优化时，可以分块优化，将长文本拆分为段落；也可进行对比测试，对同一内容输入不同的提示词，选择最佳版本。4.3.3校对文本内容在使用AIGC工具前，需先明确校对需求，如语法纠错、逻辑优化、风格统一、降低AIGC痕迹等，并明确文本的使用场景，如学术论文、公文、技术文档、营销文案等。明确校对

需求对于长文本，如论文、报告，在校对之前可以将其拆分为逻辑单元，如段落、章节，逐单元校对。这一方法可以提高AIGC工具的校对效率，避免因文本过长导致信息丢失或校对不精准。拆分文本提示词是引导AIGC工具输出的关键，需遵循“清晰、具体、有约束”的原则。在具体校对时，需通过“角色+任务+约束+格式”的模型输出，确保校对结果符合预期。设计有针对性的提示词将设计好的提示词与文本输入AIGC工具，如DeepSeek

等，获取校对结果。要优先选择支持分步校对或实时反馈的工具，以便及时调整提示词。分步执行

校对AIGC工具的校对结果需要人工复核。用户应重点关注校对结果的准确性、自然性和完整性，如专业术语是否正确、逻辑是否连贯、是否符合人类的写作习惯、是否遗漏了关键信息等。人工复核4.3.4智能阅读文本内容用户先要将阅读文本准备好，确保文档为纯文本或可解析格式，如PDF需为文本型，非扫描件。扫描文档需先用光学字符识别（OCR）工具转换。如果文本较长，且由于AIGC工具有字数限制，用户要先将其拆分成逻辑段落。然后，用户需要清晰地向AIGC工具下达指令，基础的指令可以是“请为下面这篇文章生成一份摘要。”一般来说，要将指令和文本一同粘贴到对话框中。准备

与输入下达的指令一般分为提炼核心观点、生成摘要等类型，如“为这段文字写一个不超过200字的摘要”。除此之外，指令还包括提取要点、分析结构、解答疑问、转换格式等类型。下达

精准指令用户要审查AIGC工具生成的内容，看是否准确捕捉了原文精髓。如果信息不全，要追问“还有吗”或“请再补充两个支持性论据”；如果存在偏差，就要指出错误并要求修正，如“第二点总结有误，原文强调的是……，请重新生成”；如果风格不符，要向AIGC工具提出要求，“请用更口语化的方式重新总结”。评估与

迭代4.3.5智能翻译文本将需要翻译的文本准备好。如果文本很长，将其分成逻辑段落进行分批处理，以免超出工具的字数限制。准备

输入文本如“请将以下中文翻译成英文”。下达

精准指令审阅AIGC工具的翻译初稿，如果发现生硬或不准确的地方，通过追加指令进行优化和修正。优化和修正4.3.5智能翻译文本明确文本领域与风格用户要在指令中说明文本类型，让AIGC工具采用合适的语言。提供关键术语对于专业文本，用户要提前给出关键术语的对应翻译，这样能极大地提升准确性。利用上下文消除歧义如果某个句子或词在原文中有歧义，可以单独拿出来，并提供简短的上下文让AIGC工具判断。要求解释与替代方案对于关键或难以翻译的句子，用户可以要求AIGC工具解释其翻译逻辑或提供多个版本供用户选择。分步处理与交叉验证对于长文档，采用“分块翻译—整体校对”的流程。对于非常重要的文本，可以利用不同的AIGC工具或专业翻译软件进行交叉验证，取长补短。课堂案例使用DeepSeek

创作公众号文章使用DeepSeek创作公众号文章时，首先要明确公众号文章的选题、目标受众、结构框架，在提示词中可以进行角色设定，提出具体的任务要求。例如，创作者要想使用DeepSeek创作一篇零售门店探店的公众号文章，可以在提示词中设定角色（公众号优秀创作者）、输入选题（零食门店探店）、目标受众（喜欢零食的年轻群体，以女性为主）、结构框架（总分总）。DeepSeek会很快生成合适的公众号文章。假设你是一名优秀的公众号文章创作者，你需要写一篇零食门店探店文章，向喜欢零食的年轻女性群体介绍新开的零食门店及新鲜、有趣、好吃的零食产品。公众号文章的结构应为总分总，一开始向大家推荐最近新开的零食门店，然后分别介绍门店的外观装潢、零食种类、服务程度、试吃体验，最后总结这一家零食门店的优势，再次推荐大家前往购买。公众号文章的字数应为1000字左右，语言通俗易懂，有现场感，但不要过于口语化。辣条天堂！长沙新晋网红零食店探店实录一面墙的辣条，上千种辣味零食，走进这里仿佛进入了每个爱吃零食女孩的梦想乐园。漫步在长沙街头，一家柠檬黄门脸的店铺格外引人注目——这就是近期火爆社交平台的“零食很辣”。作为零食很忙品牌旗下的辣味零食专门店，这里一开业就成了长沙新的打卡地标。作为一名资深零食爱好者，我迫不及待地前往这家专卖辣条的零食集合店，为大家一探究竟。视觉冲击力强：一眼爱上的装潢设计还没走到店门口，超大超宽的圆弧形门头一下子就吸引了我的眼球。明亮的柠檬色调搭配活泼的字体设计，瞬间让人感受到这家店的年轻与活力。走进店内，280平方米的空间被巧妙地利用起来，上下两层的商品专区陈列得井井有条。店内采用挂包的陈列方式，既节省空间，又能展示超过2200款商品。……在创意与技术交织的时代，AIGC工具正悄然重构视觉表达的边界。从商品展示图的精准生成，到老照片的细腻修复，图像创作不再局限于专业技能，而成为人人皆可触及的艺术表达。它让灵感冲出现实局限，赋予画面无限可能，让珍贵记忆重焕光彩，让视觉创作焕发新生。04.使用AIGC工具辅助创作图像人工智能通识：理论、案例与应用（慕课版在线实训平台版）

4.4.1生成图像在正式生成图像之前，用户要选择合适的AIGC工具，目前主流的图像生成类AIGC工具有即梦AI、Midjourney、Stable Diffusion、简单AI、触站AI等。建议新手选择界面友好、支持中文、无需复杂配置的工具，如简单AI、触站AI、即梦AI等。工具选择

与准备在输入框中输入文字描述，越具体越好。提示词的一般公式为“主体+场景+风格+细节+构图+画质要求”，可加入风格关键词，如“油画风”“动漫风”“赛博朋克”；画质词，如“4K”；构图词，如“特写”“广角”。为了更贴合平台的特点，用户可以参考平台提供的提示词库或模板。撰写提示词不同的AIGC工具提供多种风格的模型，如写实、动漫、油画等，用户可以根据自身需求进行选择；还要选择生成参数，包括图像尺寸、采样方法、迭代步数、提示词相关性、种子数等。部分工具支持“图生图”，用户上传参考图以辅助生成特定构图或特定风格的图片。参数设置与模型选择提交提示词与参数，等待AIGC工具生成图像，时间从数秒到数分钟不等。在查看生成结果时，可以从生成的多张图片中挑选最接近预期的图片。生成图像如对生成的图片不满意，用户可修改提示词、风格、参数后重新生成，使图片逐步接近理想效果。部分工具内置编辑功能，如裁剪、调色、加文字等。优化迭代

与输出4.4.1生成图像课堂案例使用即梦AI创作商品展示图4.4.2编辑图像图片扩展AIGC工具能分析原图的边缘、内容和风格，理解其上下文逻辑，随后利用扩散模型等技术在画布外生成符合原图场景、光影和构图的新像素，实现画面的无缝延伸。高清化高清化是指通过GAN等模型，学习大量低清与高清图像对的映射关系。模型能智能预测并补充图像在放大过程中丢失的细节与纹理，从而提高图像分辨率和清晰度。抠图基于图像分割技术（如U-Net模型），AIGC工具能逐像素分析图像，精准识别并分离出前景主体与背景，很好地处理头发、毛发等复杂边缘，生成高质量的蒙版。融合融合可分为两种：一种是风格迁移，AIGC工具能可提取一张图的内容结构和另一张图的艺术风格，重新绘制；另一种是图像混合，即在模型的潜在空间中将两张图像的特征进行加权融合，创造出兼具两者特点的新图像。局部重绘在用户选定区域并输入文字提示后，AIGC工具能以该提示和周围图像为条件，在选定区域内生成全新的、符合描述的内容，并自然地融入原图。涂抹消除涂抹消除是局部重绘的特例。在用户涂抹掉不想要的物体后，AIGC工具能分析涂抹区域周围的像素信息，预测并填充最合理的背景纹理，从而实现无痕修复。4.4.2编辑图像课堂案例使用百度AI图片助手编辑图像4.4.3修复图像预处理是修复的基础，主要目的是识别图像中的缺陷区域并标准化输入数据，为后续修复提供准确的参考。预处理可分为缺陷检测与定位、数据标准化。预处理修复执行是AIGC工具修复图像的核心环节，其通过深度学习算法自动修复缺陷，恢复图像的细节与清晰度。常见的修复场景与对应的技术如下：模糊修复、划痕与破损修复、褪色与色彩还原、细节增强。修复执行后处理是对修复结果的优化，确保图像的自然度与一致性，主要包括以下几点：细节微调、一致性检查、输出与保存。后处理在AIGC的加持下，视频创作从复杂的专业领域走入人们的日常生活。从文本生成视频、图片生成视频、动作模仿生成视频到数字人生成，每一次技术的突破都在拓宽创意的边界。05.使用AIGC工具辅助创作视频人工智能通识：理论、案例与应用（慕课版在线实训平台版）

4.5.1将文本生成视频在生成视频之前，用户首先要确定视频类型（如广告片、动画片、教学视频）、时长（通常为15秒～60秒）和风格（如写实、卡通、赛博朋克）。例如，电商广告需突出产品细节，教育视频需确保知识点可视化。明确目标文本内容需结构清晰、语义明确，适合转化为视觉叙事，避免过于抽象或冗长的内容。结构化描述采用“场景+主体+动作+风格+细节”的形式，例如，“清晨的森林中，一只狐狸跃过溪流，阳光透过树叶洒下光斑，整体风格类似宫崎骏动画，需突出狐狸的毛发光泽和水流动态”。准备

文本内容登录AIGC工具平台，在对话框中输入文本内容，设置视频风格、运镜控制、视频比例、分辨率、帧率等参数。其中，分辨率要根据平台选择；帧率默认为24～30FPS，动画的话可将帧率调整为12FPS。用户可以在某些AIGC工具中上传现有素材作为构图模板，AIGC工具会匹配色调、运镜和场景布局。输入文本与设置参数AIGC工具通过自然语言处理技术解析文本语义，自动从素材库匹配相关画面，并合成基础转场、动态字幕、背景音乐，部分工具需要用户手动选择配音音色。生成视频替换不匹配的素材，调整字体、颜色、动画效果；叠加环境音效（如鸟鸣、风声），调整人声与背景音乐的音量平衡。预览无误后，选择合适的分辨率（如1080P、720P）导出，分享至抖音、视频号等平台，部分工具支持直接分享。微调与导出4.5.1将文本生成视频课堂案例使用即梦AI生成商品展示视频4.5.2将图片生成视频选择一个合适的AIGC工具，如即梦AI、可灵AI等。选择

AIGC工具准备高质量的素材图。素材图的分辨率要高，这样AIGC工具能识别的细节就比较多，生成的视频质量会更好。图片最好有一个清晰的主体，无论是人物、动物还是物体，这有助于AIGC工具理解应该让什么主体动起来。素材图的构图要良好，构图简洁、有层次，前景、中景、背景分明，通常能产生更好的动态效果。准备

素材图提示词的结构为“镜头运动+主体/环境运动+风格化提示词”。镜头运动是指摄像机的运动方式，主体/环境运动要描述画面中元素的运动，风格化提示词是指电影感、艺术风格等词汇。构思与输入提示词大多数AIGC工具会提供一些参数，常见的有视频时长、运动强度（控制动态效果的剧烈程度）、运镜模式等。用户可以根据实际需求选择合适的参数。设置完毕后生成视频即可。生成视频4.5.2将图片生成视频课堂案例使用可灵AI将图片生成视频4.5.3通过动作模仿生成视频姿态提取是指AIGC工具首先分析源视频，即提供动作的视频，提取出视频中人物的关键骨骼点信息，包括头部、肩膀、手肘、手腕、膝盖等，这些骨骼点构成了一个“数字骨架”。姿态提取图像生成是指AIGC工具拿到这个“数字骨架”序列，结合提供的目标人物，开始逐帧生成新的图像。它会确保在每一帧新生成的图像中，目标人物的姿态都与“数字骨架”完全匹配。图像生成视频合成时，AIGC工具会将所有生成的图像序列按顺序组合起来，并配上音频，最终形成一段目标人物模仿源视频动作的全新视频。视频合成通过动作模仿生成视频通常称为动作迁移或舞蹈克隆，其整个过程通常分为3步，分别是姿态提取、图像生成、视频合成。简单来说就是“提取X的动作，套在Y的身上”。4.5.4生成数字人在生成数字人时，大多数工具会提供大量数字人模板，涵盖不同风格、职业、国籍，用户也可以自定义形象，上传个人照片生成专属数字人，或者利用AI绘制新形象。用户还可以进行声音克隆，上传音频或视频片段，克隆个人声音。生成数字人和克隆声音用户在文本框内输入文案内容，从中文、英语、日语等多种语言中选择合适的语言。部分平台提供AI智能写作，依据输入的关键词即可生成文案内容。用户可以选择纯色背景或预设场景模板，可以添加字幕、贴纸、音乐等元素提升视频质感。内容与场景的搭建设置好以后，即可生成数字人视频。生成后用户可预览与编辑视频，最后导出视频。生成与导出视频4.5.4生成数字人课堂案例使用闪剪AI制作数字人短视频在信息表达和创作的形式日益多元化的今天，文字转音频、语音克隆及生成音乐等AIGC技术正在充实着我们的听觉体验。从赋予文字声音的生命力，到高度还原个性化语音，再到一键生成打动人心的旋律，这些技术正在打破传统创作的边界，让创意的表达更加便捷、生动且富有感染力。06.使用AIGC工具辅助处理音频人工智能通识：理论、案例与应用（慕课版在线实训平台版）

4.6.1文字转音频整理、编辑并优化需要转换为语音的文本内容，主要涉及以下工作：一是校对文字，确保文本没有错别字、语法错误和标点误用。二是优化朗读，对于容易读错的多音字，可以通过拼音标注或换词来解决；还可以用标点符号来控制停顿和节奏。关于数字和缩写，要将“123”写成“一百二十三”，将“AI”写成“A-I”。准备文本讯飞配音是典型的专业配音平台，适用场景为需要高质量音色、多语言支持或一站式音视频生成的场景。gTTS等开源工具库的优点为免费、开源，支持多语言，适合开发者或需要定制化功能的用户。多功能AIGC工具，如支持微软/魔音TTS的集成平台，支持批量处理，效率高，适合需要大量音频生成的场景。选择工具配置参数是让AI语音富有表现力的关键，主要涉及选择发音人、调整语音设置等。在选择发音人时，要根据实际需要选择性别、年龄、语言和风格，如“新闻播报”“客服”“讲故事”“兴奋”等。调整语音设置是设置发音人的语速、音调、音量、停顿。配置参数如果文本特别多，先不要一次性生成全部内容，可先选择一段有代表性的文本（包含陈述、疑问、数字等）进行试听，仔细聆听是否有奇怪的停顿、错误的读音或平淡的语调，然后返回文本或参数设置进行微调。例如，在需要强调的词前后加逗号来制造停顿，或者换一个发音人。生成试听

与调整经过调整后再次生成，确认满意后，生成最终版本的音频文件并导出，格式有MP3、WAV等。注意查看工具的版权和许可协议，确保使用场景（尤其是商用）是被允许的。生成与导出4.6.1文字转音频课堂案例使用讯飞智作制作有声书音频4.6.2语音克隆从参考语音中捕捉音色、音高、语速等个性化标识。语音样本，一般应为10秒以上，无背景噪声，建议选择包含多种情绪（如平静、兴奋等）的内容，且需具备该声音的合法使用权，特征提取将输入文本转换为音素序列，结合声纹特征生成匹配的Mel频谱。文本对齐通过声码器将Mel频谱转换为原始语音波形。用户要先选择克隆的音色，输入目标文本，然后调节语速、语调等参数，参数确认后即可生成语音克隆音频。语音合成语音克隆的本质是通过AIGC模型提取目标说话人的声纹特征，并将其与输入文本的语义信息融合，生成保留原音色、韵律的合成语音。4.6.3生成音乐作为音乐生成的初始环节，创作者需根据自身需求挑选合适的AIGC工具，既可选择专注于音频生成的专业模型，也可选用整合了音频生成功能的综合性创作平台，要确保AIGC工具的能力与创作目标相匹配。筛选适配的AIGC工具创作者需提前界定音乐的核心要素，以此为AIGC工具提供精准方向，具体包括确定音乐风格（如古典、流行、摇滚等类别）、节奏快慢、作品时长，以及计划使用的乐器类型等，避免因需求模糊导致生成结果偏离预期。明确音乐

创作需求创作者根据实际需求，在AIGC工具中录入描述性的提示词，清晰传达音乐特征与生成要求。部分AIGC工具还支持额外功能，如上传参考音频，或者通过设置更多参数（如音调、音色强度等）进一步细化生成标准，提高生成结果的精准度。输入提示词与相关参数完成信息输入后，创作者单击“生成”按钮或执行对应操作，AIGC工具便会基于自身训练的算法模型，结合输入的提示词与参数，自动运算并生成对应的音乐内容。启动音乐

生成流程音乐生成后，创作者要进行试听，针对不满意的部分开展优化工作。如果AIGC工具自带简易编辑功能，创作者可以直接在界面内操作；如果需要更精细处理，也可以将生成的音乐文件导出至专业音频编辑软件中进一步调整。对音乐进行调整优化当音乐调整至满意状态后，创作者需将作品导出为通用的音频格式，常见格式包括MP3、WAV等，以便后续进行本地保存、分享传播，或用于其他创作场景，如视频配乐、演出素材等。导出并保存最终作品AIGC工具链是围绕AIGC技术构建的、相互衔接且协同工作的工具与流程体系。它全面覆盖内容生成、素材处理、细节优化到实际落地应用的全环节，既能大幅提高内容生产效率、降低创作成本，还能支持个性化与多样化的创作需求，为多元化的业务提供高效解决方案。下面将以“新疆阿克苏冰糖心苹果”营销短视频创作为例，详细介绍AIGC工具链的具体应用流程。07.使用AIGC工具链创作营销短视频人工智能通识：理论、案例与应用（慕课版在线实训平台版）

4.7.1写作短视频旁白文案明确角色定位，让输出更契合营销传播语境。01.清晰罗列核心卖点，要避免模糊表述。02.明确语言与效果要求，同时补充结尾简短行动引导，促进转化。03.限定字数，适配短视频“短平快”的传播属性。04.假设你是资深短视频文案创作者，创作一条阿克苏冰糖心苹果营销短视频旁白文案。需突出核心卖点：新疆产地阳光滋养、冰糖心甜糯口感、果肉脆嫩多汁、果香浓郁自然。语言要生动，多用短句，开头3秒吸引受众注意力，卖

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

人工智能通识：理论、案例与应用课件第4章 AIGC 基础及多模态应用

文档简介

温馨提示

最新文档

评论

人工智能通识：理论、案例与应用 课件 第4章 AIGC 基础及多模态应用

文档简介

温馨提示

最新文档

评论

相关文档

人工智能通识：理论、案例与应用课件第4章 AIGC 基础及多模态应用