生成智能基础 1_第1页
生成智能基础 1_第2页
生成智能基础 1_第3页
生成智能基础 1_第4页
生成智能基础 1_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第6章AIGC助力音频生成主讲人:×××xxx时间:xxxxxxTABLEOFCONTENTS本章内容架构01AIGC音频设计工具深入探索TTSMKER、NOIZAI、网易天音等主流AIGC音频工具的核心功能与技术特性,理解其适用场景与优势。语音合成声音克隆AI音乐02AIGC音频的应用场景系统梳理非遗文化传播、日常内容创作、商业宣传三大典型场景的需求与工具匹配策略。非遗传播内容创作商业宣传03AIGC音频的提示词设计掌握音频提示词六大核心要素,提升AI音频生成效果与预期的匹配度,解决常见问题。核心要素设计案例问题解决方案04古运河非遗声活馆实战案例通过完整项目实战,掌握从导览配音、主题歌曲创作到声音克隆的全链条音频制作技能。TTSMKER网易天音NOIZAITECHNOLOGYOVERVIEWAIGC音频生成技术概览核心概念AIGC(人工智能生成内容)音频生成技术是人工智能在音频领域的创新应用,以深度学习算法为核心,通过对海量语音、音乐数据的训练,让模型掌握音频特征规律,实现各类音频内容的自动化生成。语音合成将文本精准转化为自然流畅的语音,可模拟不同风格、音色的人声声音克隆通过分析少量声音样本,精准复刻目标声音的音色、语调等特征音乐生成自动创作歌词、旋律并完成编曲,支持多种音乐风格本章学习目标知识目标•了解常见的AIGC音频生成工具•深入理解AIGC音频在非遗文化传播等场景的应用•熟悉音频生成提示词设计的关键要素能力目标•独立操作AIGC音频工具生成符合需求的音频内容•分析需求并设计高效提示词•完成非遗文化主题音频的策划与创作素质目标•树立人机协同思维•培育文化传承素养•锻造跨域整合能力思政目标•筑牢技术伦理底线•厚植文化根脉情怀•增强文化自强信念核心价值掌握AIGC音频技术,助力非遗声音遗产的数字化保护与活化传承,探索传统与现代融合的创新传播路径PROJECTINTRODUCTION项目导入:古运河非遗声活馆项目背景"古运河非遗声活馆"是大运河文化保护区以"声音"为核心载体的非遗活化项目,聚焦古运河沿线流传千年的非遗音频资源。运河船歌船工劳作时的号子与歌谣码头吆喝商贩叫卖与码头作业声传统乐器运河古琴、竹笛等演奏技艺口诀老手艺人的技艺传承口诀面临的挑战传承人老龄化声音技艺濒临失传,珍贵声音遗产面临永久消失风险录音设备简陋现存录音音质不佳,噪音大、细节缺失,影响传播效果传播形式单一仅依赖线下展览音频播放,覆盖范围有限,难以扩大影响力年轻群体感知度低传统声音难以引发情感共鸣,文化传承断层风险AIGC技术的应用价值数字化音频创作激活非遗声音遗产扩大传播声量,突破地域与时间限制助力古运河非遗文化的活态传承推动文旅融合,创造经济价值四个阶段的任务计划阶段一认识AIGC音频设计工具阶段二AIGC音频的应用场景分析阶段三AIGC助力音频的提示词设计阶段四古运河非遗声活馆AI音频宣传制作任务6.101TASK6.1OVERVIEW任务6.1:AIGC音频设计工具任务目标与要求以"古运河非遗声活馆"为实践对象,通过调研主流AIGC音频设计工具,对比其功能特性与适用场景,完成工具选型分析,初步探索AI工具在非遗声音传承与传播中的潜力与挑战。理解工具原理掌握主流工具核心功能与技术边界,理解其在非遗声音表达中的适配性差异掌握基础操作能独立操作工具完成基础音频生成任务,具备工具对比选型与初步优化能力建立批判思维识别AI生成音频的文化失真风险,强化声音真实性核验意识树立价值观警惕过度美化、虚构非遗声音等伦理问题,服务声音传承技术批判思维:文化失真风险识别传统乐器音色偏差:AI生成音色与真实乐器存在差异,失去传统韵味方言发音失真:方言特色被标准化发音替代,丢失地域文化特征情感表达虚假:

过度美化导致情感不真实,违背非遗本质主流工具概览TTSMKERAI语音合成与配音平台高自然度、多风格语音生成NOIZAI声音克隆与个性化生成精准复刻声音特征与情感网易天音AI音乐创作工具全链路音乐生成与编曲其他工具Spark-TTS、魔音工坊、音剪多样化音频处理方案TTSMKERTTSMKER:AI语音合成与配音平台发展历史2022.8诞生与定位作为免费在线文本转语音工具发布,致力于打破语音合成领域技术壁垒迭代功能升级支持50多种语言、超300种语音风格,覆盖全球主要语种与特色语言理念免费商用始终坚持免费且可免费商用,用户对生成音频拥有完全版权核心优势中文语音情感精准捕捉多种场景化配音需求支持文化类内容配音表现突出传递历史厚重感与人文温度核心功能与使用界面TTSMKER的核心功能围绕"AI配音"展开,界面设计简洁直观,分为四大模块,即使是非专业用户也能快速上手。文本输入区支持大段文本粘贴、分段输入,可标注停顿、重音等语音符号,短停顿。长停顿【重音】强调标记参数调节区提供多维度调节选项,精准控制语音效果音色选择情感调节语速与音调场景适配音频预览区支持实时生成预览(生成速度达1:1),可逐句播放、整体播放,标注音频波形图历史记录区自动保存所有生成音频项目,支持重命名、导出(MP3、WAV、OGG)、二次编辑TTSMKERINTERFACETTSMKER使用界面与操作流程步骤1文本输入在文本输入区粘贴或输入需要转换为语音的文本内容,支持大段文本和分段输入步骤2参数调节在参数调节区选择音色、调节情感、语速、音调,并根据场景需求进行适配设置步骤3预览确认在音频预览区实时生成预览,逐句播放确认效果,查看波形图定位需要修改的部分步骤4导出保存确认无误后导出音频文件(支持MP3、WAV、OGG格式),项目自动保存在历史记录区非遗场景应用技巧音色选择策略文化类内容配音建议选择"通用波音/故事/演讲女生"音色,该音色经过训练,适合历史类内容配音推荐:温婉风格,符合历史文化场景氛围情感与节奏控制语速建议设置为0.9倍,句间停顿1-1.5秒,使用【重音】标记强调关键词,传递历史厚重感示例:"你听过【重音】千年运河里流淌的非遗密码吗?"文本预处理技巧按原句分段,标注停顿(如【停顿0.4秒】),增强语音节奏效果。大段文本建议分多次生成,确保每段音频质量历史记录管理所有生成音频自动保存在历史记录区,支持重命名、二次编辑。建议对非遗项目音频进行分类管理,便于后续调用NOIZAINOIZAI:声音克隆与个性化音频生成发展历程核心团队核心团队来自人工智能、声学工程等领域,将前沿算法与制造业经验结合,打造智能听觉系统技术突破专注声音克隆技术8年,依托顶尖资源实现高识别率,大模型降低语音生成门槛行业应用在多工业现场部署,经数据迭代形成闭环系统,助力工厂向"听觉智能工厂"转型未来展望或将助力非遗声音数字化保护,让古老非遗声音长久保存传播核心技术优势极速克隆仅需5-8秒语音即可生成相似度99%的AI语音精准复刻精准复刻声线特征、语音风格、情感特质与语言习惯操作便捷用户可快速创建专属声音数字人,角色可重复使用,降低制作成本领域领先处于声音克隆领域领先地位,经大量数据训练形成闭环系统核心技术框架声音特征提取情感映射音色重构NOIZAIFUNCTIONSNOIZAI核心功能详解四大核心功能声音克隆仅需5-10分钟原始声音素材,即可复刻目标声音的音色、语调、情感特征,生成高度相似的克隆语音声音修复针对老旧录音中的杂音、失真问题,通过AI算法降噪、增强音质,还原声音细节,助力非遗声音遗产保护多风格转换支持将克隆声音转换为不同场景风格(如叙事、朗诵、对话),保持音色一致性的同时适配场景需求批量生成支持批量文本输入,一键生成多段克隆声音音频,提升大规模内容创作效率使用界面四大模块声音样本上传区支持多种格式,提供质量检测与优化建议克隆参数设置区含精度、风格、情感倾向等参数设置生成测试区生成10秒测试音频,对比相似度并调参音频管理区保存所有克隆声音模型(声纹库),支持调用与管理辅助功能声音修复(降噪、去回声)多声纹对话生成文本驱动情感调节NETEASETIANYIN网易天音:AI音乐创作工具发展历程2022.1上线产品发布网易云音乐推出AI音乐创作平台,初以小程序形态上线,支持AI歌手定制拜年歌多轮测试音乐人测试经多轮音乐人测试积累大量作品与素材,不断优化AI模型与用户体验2024.5开放全面开放向所有用户开放,集作词、作曲等全流程AI辅助功能,拥有超12万用户及4万首作品核心定位基于"旋律生成-歌词匹配-编曲合成"的全链路AI模型,支持用户通过文本描述生成原创歌曲降低音乐创作门槛非专业用户快速创作支持多种音乐风格助力非遗音乐创新三大核心功能AI编曲拥有超450种编曲模板,支持BPM调整、调性切换、自定义和弦编配,满足专业创作需求AI一键写歌输入关键词或主题描述,数秒内生成词曲编唱一体化完整音乐作品,支持多种风格与情绪设定AI作词根据关键词生成符合词格的歌词初稿,提供押韵辅助和段落对照功能支持的音乐风格流行古风民谣摇滚R&B电子爵士戏曲NETEASETIANYIN·FUNCTION1网易天音功能详解(一):AI编曲功能特点丰富多样的风格模板拥有超450种编曲模板,涵盖流行、摇滚、民谣、国风、电子、爵士等常见及小众音乐风格流行国风民谣摇滚灵活的节奏设置支持自由调整BPM(每分钟节拍数),范围从舒缓的60BPM到激昂的180BPM古运河非遗主题:建议BPM80-100,模拟船桨划水节奏便捷的调性与调式修改能快速切换常见调性(C、G、D等),以及自然大调、和声小调等多种调式古运河非遗主题:建议选择G调自然大调,明亮温暖色彩与古运河古朴大气相得益彰自定义和弦编配允许用户根据创作需求,对和弦进行自定义编辑。熟悉乐理的创作者可手动输入和弦进行,精准控制音乐和声走向古运河非遗场景应用风格选择选择国风、民俗风格模板,内置五声音阶旋律走向、民族乐器组合,营造历史文化氛围节奏设计BPM80-100,模拟船桨划水节奏,体现运河船工劳作韵律感调性选择G调自然大调,明亮温暖色彩与古运河古朴大气相得益彰操作路径1登录网易天音平台2点击"AI编曲"-"自由创作"3选择风格模板、设置BPM4调整调性、调式和弦5生成编曲并保存NETEASETIANYIN·FUNCTION2网易天音功能详解(二):AI一键写歌功能特点高效的关键词创作用户输入关键词或主题描述,AI能迅速生成词曲编唱一体化的完整音乐作品,创作过程数秒内即可完成古运河非遗关键词示例:"古运河船歌传承"、"运河畔的非遗技艺"多样化的风格选择提供流行、摇滚、民谣、国风、R&B等丰富多样的音乐风格供用户选择,满足不同场景需求国风民谣流行古风丰富的情绪表达设定从欢快活泼、悠扬抒情到激昂奋进等多种情绪基调可选,精准传达情感内涵古运河非遗:温暖怀旧情绪基调,既有历史厚重感又有青春活力智能的歌词生成生成的歌词紧扣输入的主题与风格,注重歌词的韵律和节奏。国风风格下,歌词可能采用古典诗词写作手法,运用对仗、押韵等技巧古运河非遗场景参数设置写随笔灵感"千年运河流淌着船工号子、丝竹雅韵,老声音在新时代苏醒,用旋律讲述传承的故事。歌词需包含橹声、水波、码头、老手艺等意象,情感温暖而怀旧,既有历史厚重感,又有青春活力。"段落结构全曲模式音乐类型国风情绪类型治愈、平静歌词示例"古运河水悠悠荡,非遗传承岁月长橹声摇碎晨光雾,老手艺人在路旁丝竹雅韵心中藏,船工号子永不忘千年音符今苏醒,新时代里唱辉煌"NETEASETIANYIN·FUNCTION3网易天音功能详解(三):AI作词功能特点灵感延展根据用户输入的关键词或情感片段,AI作词功能能生成符合词格的歌词初稿,并保留创作灵感。用户只需提供核心意象或情感方向,AI即可延展成完整的歌词内容古运河非遗应用场景输入"古运河非遗"、"船歌传承"等主题关键词AI快速生成紧扣核心的歌词,融入运河、橹声、非遗技艺等特色意象押韵辅助提供韵脚推荐和自动调整功能,确保歌词在节奏和韵律上符合音乐风格。用户可以选择特定的韵脚,AI会自动调整歌词结尾词汇,使其押韵和谐ang韵荡/长/乡/望ao韵涛/号/老/摇i韵丝/笛/艺/忆段落对照支持歌词与旋律的同步编辑,确保整体结构和谐统一。用户可以在编辑歌词的同时查看旋律结构,调整歌词段落长度,使其与旋律完美匹配操作流程1进入AI作词模块登录网易天音,点击"AI作词"功能2输入关键词输入"古运河非遗"等主题关键词3选择风格与情绪选择国风风格,温暖怀旧情绪基调4生成并优化AI生成歌词初稿,用户可手动调整优化核心优势避免内容偏离主题,精准融入特色意象降低歌词创作门槛,非专业人士也能创作提升创作效率,数秒即可生成完整歌词保证韵律和谐,提升歌词的音乐性OTHERTOOLS其他AIGC音频工具Spark-TTS核心技术基于Qwen2.5构建的高效文本到语音系统,无需额外声学特征生成模型,简化了流程核心特点支持中英文,可通过调整性别、音调、语速等参数创建虚拟说话人,支持零镜头语音克隆适用场景个性化语音助手、虚拟角色配音、多语言音频生成魔音工坊核心优势拥有800多款声音和1000多种风格,能满足从视频配音到有声书的广泛需求核心特点功能丰富,包括语速调整、多音字选择、停顿控制等,确保文字转语音效果逼真自然适用场景视频配音、有声书制作、商业广告配音、教育内容制作音剪平台定位喜马拉雅推出的一站式AI音频创作平台,提供多情感多模态的AI辅助工具和强大的在线剪辑能力核心特点集合AI音频剪辑、AI配乐、文章转语音、音频转文字等多项功能,辅助用户轻松创作优秀音频作品适用场景播客制作、音频剪辑、文章转语音、AI配乐工具选型建议根据具体需求、技术门槛、功能特点选择最适合的AIGC音频工具3核心工具3辅助工具6功能模块任务6.202TASK6.2OVERVIEW任务6.2:AIGC音频的应用场景任务目标与要求以"古运河非遗声活馆"项目为核心实践背景,系统梳理AIGC音频在非遗文化传播、日常内容创作、商业宣传等典型场景的应用方向,建立"场景需求-工具匹配"的认知框架。识别典型场景准确识别AIGC音频三大典型应用场景,描述各场景的核心需求与音频内容特点匹配适配工具针对不同场景需求,匹配对应的主流AIGC音频工具,说明工具适配理由案例应用分析结合"古运河非遗声活馆"案例,举例说明AIGC音频在非遗场景中的具体应用形式场景-需求-工具匹配框架场景层非遗传播|日常创作|商业宣传需求层保护传承|高效创作|品牌传播工具层TTSMKER|NOIZAI|网易天音核心价值不同场景下均以"需求-工具"匹配为核心。非遗场景借NOIZAI、网易天音实现声音保护与活化;日常创作靠TTSMKER等工具降低门槛;商业场景则通过适配品牌调性的配音与音乐,强化传播。APPLICATIONSCENARIOS应用场景概览:三大典型场景非遗文化传播核心需求•保护传统声音•扩大传播范围•增强年轻群体共鸣常见音频需求•非遗声音克隆与修复•非遗主题音频创作•非遗展馆音频导览关键要点保障声音的文化真实性与传统元素的自然融入日常内容创作核心需求•低成本音频生成•高效率内容生产•多样化音频形式常见音频需求•短视频与自媒体配音•有声内容与知识传播•个人兴趣音频创作关键要点无需专业音频技术,注重工具的操作便捷性与内容的个性化商业宣传核心需求•传递品牌调性•适配传播渠道•提升用户记忆点常见音频需求•品牌广告与营销音频•企业形象与活动音频•智能客服与语音交互关键要点确保音频风格与品牌定位一致,强化品牌辨识度SCENARIO1非遗文化传播场景(一):核心需求与应用方向核心需求保护传统声音针对传承人老龄化、声音样本稀缺的问题,通过AIGC工具克隆离世或年迈传承人的声音,修复老旧录音扩大传播范围突破线下展览的地域限制,通过数字化音频实现全网传播,让非遗声音触达更多年轻群体增强年轻群体共鸣将非遗元素融入现代音频形式,降低年轻群体对传统声音的距离感,引发情感共鸣三大核心应用方向非遗声音保护与复刻针对传承人老龄化、声音样本稀缺的问题,通过AIGC工具克隆离世或年迈传承人的声音,修复老旧录音的噪音与失真,建立"非遗声音基因库"古运河案例用NOIZAI克隆70岁船工的吆喝声,让游客听到最贴近原貌的传统声音非遗主题音频创作将非遗元素(如江南丝竹、传统唱腔)融入现代音频形式,如创作非遗主题歌曲、有声故事,降低年轻群体对传统声音的距离感古运河案例用网易天音创作《运河声韵》,融入船工号子节奏与笛子旋律,适配短视频传播非遗场景音频导览为线下展馆或线上VR展厅制作文化适配的导览音频,传递非遗背后的历史故事,需语音风格庄重且富有感染力古运河案例"古运河非遗声活馆"入口导览,用TTSMKER生成温婉的中文配音,讲解运河非遗的起源与价值SCENARIO1非遗文化传播场景(二):适配工具与理由非遗文化传播场景适配工具应用方向适配工具工具优势与适配理由声音克隆NOIZAI•支持小样本(5-10分钟)克隆•自带"声音修复"功能,可降噪、还原老录音细节•契合非遗声音样本少、质量低的特点主题音乐创作网易天音•支持"非遗+流行"风格融合•能快速生成符合年轻审美的非遗主题歌曲•助力非遗声音在年轻群体中传播展馆导览配音TTSMKER•中文情感捕捉精准,支持方言合成•可模拟"历史厚重感"语音风格•适配非遗文化讲解场景NOIZAI声音克隆与修复,保护声音遗产网易天音主题歌曲创作,活化传统声音TTSMKER展馆导览配音,传递文化价值SCENARIO2日常内容创作场景(一):核心需求与应用方向核心需求低成本个人与小型团队无需投入昂贵的录音设备和配音人员,使用免费或低成本的AIGC工具即可生成高质量音频高效率快速生成音频内容,缩短创作周期,满足自媒体、短视频等快节奏内容生产需求多样化支持多种音色、风格、情绪选择,满足不同内容类型的个性化需求三大核心应用方向短视频与自媒体配音为抖音、B站等平台的短视频制作旁白或角色配音,需适配不同风格(如搞笑vlog用活泼语音、知识科普用清晰男声),且生成速度快古运河案例个人制作"古运河游玩vlog",用TTSMKER快速生成讲解配音,调节语速与情感,匹配视频画面节奏有声内容与知识传播将文字内容(如小说、科普文章)转化为有声书或播客,满足通勤、睡前等"听觉场景"需求古运河案例用魔音工坊将《古运河历史故事》文本转为有声内容,选择"故事类"音色,添加适当停顿,提升听感个人兴趣音频创作满足用户的个性化创作需求,如自制生日歌曲、模仿动漫角色配音古运河案例用网易天音为朋友创作"运河主题生日歌",输入关键词"温馨、古风",快速生成旋律与歌词SCENARIO2日常内容创作场景(二):适配工具与理由日常内容创作场景适配工具应用方向适配工具工具优势与适配理由短视频配音TTSMKER魔音工坊•TTSMKER支持1:1快速生成•魔音工坊有800+音色可选•操作简单,无需专业知识•适配个人短视频高效创作需求有声书制作魔音工坊音剪•魔音工坊支持多音字选择、停顿控制•音剪自带"文章转语音+音频剪辑"一体化功能•减少工具切换,提升制作效率个人兴趣创作网易天音Spark-TTS•网易天音"一键写歌"降低音乐创作门槛•Spark-TTS支持零镜头语音克隆•满足个性化模仿与创作需求短视频配音TTSMKER/魔音工坊快速生成有声书制作魔音工坊/音剪一体化处理个人兴趣创作网易天音/Spark-TTS个性化创作SCENARIO3商业宣传场景(一):核心需求与应用方向核心需求传递品牌调性音频风格与品牌定位一致,如高端品牌用沉稳语音、母婴品牌用温柔语音,强化品牌辨识度适配传播渠道针对不同传播渠道(电视广告、社交媒体、电商平台)优化音频风格与时长提升用户记忆点通过独特的音色、旋律或口号式音频,增强用户对品牌的记忆与认知三大核心应用方向品牌广告与营销音频为电视广告、电商产品视频、社交媒体营销内容制作配音或背景音乐,强化品牌辨识度古运河案例某茶品牌宣传"古运河畔茶叶",用TTSMKER生成"温润、自然"的广告旁白,搭配网易天音创作的古风背景音乐企业形象与活动音频定制企业主题曲、年会背景音乐、展会导览音频,塑造统一的品牌听觉形象古运河案例某文旅企业围绕"古运河旅游"推出品牌主题曲,用网易天音设计"悠扬、大气"的旋律,融入运河水波、橹声等音效智能客服与语音交互为企业智能客服、APP语音助手定制专属音色,提升用户交互体验,传递品牌温度古运河案例某运河文旅APP用NOIZAI克隆"亲切导游声"作为语音助手音色,让用户在查询路线时感受到"沉浸式服务"SCENARIO3商业宣传场景(二):适配工具与理由商业宣传场景适配工具应用方向适配工具工具优势与适配理由广告配音TTSMKER•支持商业用途(免费导出MP3/WAV)•语音自然度高,可精准匹配品牌调性•适配广告传播需求品牌音乐创作网易天音•支持"风格迁移"(品牌调性转化为音乐风格)•可生成完整的词曲编唱作品•降低企业音乐创作成本智能客服音色NOIZAISpark-TTS•NOIZAI克隆音色相似度高•Spark-TTS支持定制虚拟说话人•可打造专属品牌音色,提升用户交互记忆点广告配音TTSMKER免费商用,精准匹配品牌调性品牌音乐创作网易天音风格迁移,降低企业音乐创作成本智能客服音色NOIZAI/Spark-TTS克隆音色,打造专属品牌音色SUMMARY场景应用总结:需求-工具匹配框架三大场景的核心差异非遗文化传播借NOIZAI、网易天音实现声音保护与活化,注重文化真实性与传统元素融入日常内容创作靠TTSMKER等工具降低门槛,满足高效创作与个性化需求商业宣传通过适配品牌调性的配音与音乐,强化品牌传播,提升用户记忆点非遗文化传播核心工具NOIZAI:声音克隆与修复网易天音:主题歌曲创作TTSMKER:展馆导览配音核心价值实现非遗声音的数字化保护与活化传承,让传统声音在现代科技中焕发新生日常内容创作核心工具TTSMKER:短视频配音魔音工坊:有声书制作网易天音:个人歌曲创作核心价值降低音频创作门槛,让个人与小型团队也能高效生成高质量音频内容商业宣传核心工具TTSMKER:广告配音网易天音:品牌音乐创作NOIZAI:智能客服音色核心价值强化品牌传播效果,通过适配品牌调性的音频提升用户记忆点与品牌认知度任务6.303TASK6.3OVERVIEW任务6.3:AIGC助力音频的提示词设计任务目标与要求基于"古运河非遗声活馆"项目实践场景,掌握音频提示词六大核心要素,结合不同工具特性设计适配提示词,解决情感表达不准、传统元素融入生硬、声音克隆相似度低等常见问题。掌握核心要素熟练掌握音频提示词六大核心要素的内涵与应用方法,能根据具体需求准确拆解关键信息差异化设计针对不同AIGC音频工具技术特点,完成差异化提示词设计,提升音频生成效果问题解决能力能识别并解决提示词设计中的典型问题,通过细化特征、优化样本等方法提升匹配度实战输出能力结合实际项目场景,输出符合技术参数规范、风格统一的提示词案例,保障音频质量提示词六大核心要素1核心内容2场景定位3角色设定4情感基调5风格要求6技术参数核心原则提示词设计需构建工具理解需求的"完整语境",六大要素缺一不可,共同确保AI生成的音频符合预期PROMPTELEMENTS·PART1音频提示词的核心要素(一):基础要素1.核心内容定义提示词的基础,明确音频的文本内容或主题方向要求准确、具体、无歧义应用场景•配音类:直接提供完整文本•歌曲创作:明确主题、关键词•声音克隆:提供生成文本示例:"你听过千年运河里流淌的非遗密码吗?"2.场景定位定义明确音频的使用场景,工具会根据场景特性优化生成效果要求说明场景类型、环境特点、受众群体场景示例•展馆导览:清晰洪亮•播客:亲切自然•短视频:适配画面节奏示例:古运河非遗声活馆入口导览,受众为首次到访的游客3.角色设定定义定义音频的"发声主体"特征要求明确性别、年龄、身份、声音特质设定维度•身份:传承人、导览员•物理特征:音色、语速、口音•风格:庄重、亲切、活泼示例:温婉女性导览员,声音清澈,带有历史文化讲解的专业感PROMPTELEMENTS·PART2音频提示词的核心要素(二):进阶要素4.情感基调定义决定音频的情感表达方向要求明确核心情感及强度,复杂场景可设置情感层次情感示例•温暖、庄重、激昂•好奇60%+亲切40%•主情感+辅助情感示例:主情感"好奇"(60%),辅助情感"亲切"(40%)5.风格要求定义定义音频的艺术风格要求明确语音风格、音乐风格、传统元素融入风格类型•古风、流行、民谣•正式、口语化、历史感•江南丝竹、船工号子示例:古风(60%)+民谣(40%)融合,情感温暖怀旧6.技术参数定义生成效果的细节约束要求明确语速、音量、时长、格式等参数示例•语速:0.9倍•时长:30秒内•格式:MP3/WAV示例:语速0.9倍,句间停顿1-1.5秒,音频格式MP3PROMPTDESIGNCOMPARISON不同工具提示词设计案例对比工具类型核心需求提示词设计重点完整案例TTSMKERAI配音导览开场白需情感与节奏适配文本精准情感分层语速节奏核心内容:"你听过千年运河里流淌的非遗密码吗?......"场景定位:古运河非遗声活馆入口导览,受众为首次到访的游客角色设定:温婉女性导览员,声音清澈,带有历史文化讲解的专业感情感基调:主情感"好奇"(60%),辅助情感"亲切"(40%)技术参数:语速0.9倍,句间停顿1-1.5秒,音频格式MP3,时长30秒内NOIZAI声音克隆克隆传承人声音生成结束语样本特征情感庄重文化真实核心内容:"当最后一缕琴声漫过运河水波,这些非遗音符便成了流动的历史......"场景定位:展馆结尾区,作为参观收尾,传递文化传承情感角色设定:70岁男性运河船工号子传承人,声音沙哑中低音,江南口音,语速偏慢样本参考:基于王老先生1998年《运河船工号子》录音克隆,需保留沙哑质感与口音特征技术参数:声音相似度≥85%,情感还原度≥80%,音频格式WAV,无明显机械音网易天音一键写歌主题歌曲创作融合非遗元素主题意象风格融合元素适配核心主题:古运河非遗声音的传承与活化,歌词需含橹声、水波、丝竹、号子等意象场景定位:展馆背景音乐、线上短视频配乐,受众18-40岁年轻群体与文化爱好者风格设定:古风(60%)+民谣(40%)融合,情感温暖怀旧非遗元素:融入江南丝竹笛子旋律、船工号子节奏型、评弹装饰音技术参数:时长2分钟,结构主歌1+副歌+主歌2+副歌+尾声,乐器古筝+二胡+笛子+吉他+鼓,BPM80TTSMKERPROMPTEXAMPLETTSMKER提示词设计案例:导览开场白完整提示词核心内容"你听过千年运河里流淌的非遗密码吗?这些古老的声音,曾在船工号子中回响,在丝竹雅韵中流淌。今天,它们在声活馆里苏醒,等待您用耳朵倾听历史的温度。"场景定位古运河非遗声活馆入口导览,受众为首次到访的游客,环境为开放展馆空间角色设定温婉女性导览员,声音清澈,带有历史文化讲解的专业感情感基调主情感"好奇"(60%),辅助情感"亲切"(40%),第一句好奇,第二句温柔,第三句邀请技术参数语速0.9倍,句间停顿1-1.5秒,关键词【重音】标记,音频格式MP3,时长30秒内操作步骤步骤1登录TTSMKER平台,进入"在线AI配音工具"步骤2在文本输入区粘贴开场白文本,标注停顿与重音步骤3选择"中文-Chinese"语言和"通用波音/故事/演讲女生"音色步骤4调节语速至0.9倍,设置音频格式为MP3步骤5点击"开始转化",等待约20秒生成音频步骤6在音频预览区试听,确认无误后下载文件到本地设计要点文本段落清晰,按原句分段标注停顿标记【停顿0.4秒】标记重音【重音】关键词选择适配历史的温婉音色设置好奇+亲切的分层情感控制语速0.9倍,时长30秒内NOIZAIPROMPTEXAMPLENOIZAI提示词设计案例:声音克隆完整提示词核心内容"当最后一缕琴声漫过运河水波,这些非遗音符便成了流动的历史。从船歌渔谣到丝竹雅韵,每段旋律都藏着匠人掌心的温度与时光的沉淀。它们曾在街巷间流转,如今在声活馆里苏醒。这不仅是声音的留存,更是文化的延续。让耳朵记住这份悸动,让非遗音乐的回响,永远荡漾在运河两岸。"场景定位展馆结尾区,作为参观收尾,传递文化传承情感角色设定70岁男性运河船工号子传承人,声音沙哑中低音,江南口音,语速偏慢,风格庄重温情样本参考基于王老先生1998年《运河船工号子》录音克隆,需保留沙哑质感与口音特征技术参数声音相似度≥85%,情感还原度≥80%,音频格式WAV,无明显机械音操作步骤步骤1登录NOIZAI平台,点击"新建克隆声音"步骤2上传或录制声音样本(5-10分钟清晰音频)步骤3系统自动识别原文,补充标点符号(停顿用...)步骤4点击"生成预览",测试音效果,确认后进入下一步步骤5添加音频名称,选择语言"中文",打开"自动降燥"步骤6声纹库中选择音频,输入结束语文本,生成语音设计要点样本质量清晰,时长5-10分钟明确保留特征(口音、沙哑感)标注原文停顿(用"..."表示)打开自动降燥提升样本质量设置相似度≥85%,还原度≥80%选择WAV格式保证音质无损NETEASETIANYINPROMPTEXAMPLE网易天音提示词设计案例:主题歌曲创作完整提示词核心主题古运河非遗声音的传承与活化,歌词需含橹声、水波、丝竹、号子等意象场景定位展馆背景音乐、线上短视频配乐,受众18-40岁年轻群体与文化爱好者风格设定古风(60%)+民谣(40%)融合,情感温暖怀旧非遗元素融入江南丝竹笛子旋律、船工号子节奏型、评弹装饰音技术参数时长2分钟,结构主歌1+副歌+主歌2+副歌+尾声,乐器古筝+二胡+笛子+吉他+鼓,BPM80操作步骤步骤1登录网易天音,点击"一键写歌"步骤2在"写随笔灵感"框输入完整的主题描述步骤3设置段落结构为"全曲模式",音乐类型为"国风"步骤4点击"开始AI写歌",等待约1分钟生成初稿步骤5试听初稿,调整情绪类型为"治愈"、"平静"步骤6修改歌词,优化押韵和意象表达设计要点描述包含具体意象(橹声、水波等)明确风格融合比例(古风60%+民谣40%)指定非遗元素(丝竹、号子、评弹)细化乐器配置(古筝+二胡+笛子+吉他+鼓)设定节奏参数(BPM80)和歌曲结构控制时长(2分钟)适配短视频传播COMMONPROBLEM1提示词设计常见问题(一):情感表达不准确问题表现生成音频的情感与需求偏差,如需要"温情"却生成"平淡"的语音,情感表达不到位,缺乏感染力原因分析情感描述模糊仅用"温情"未说明表现方式,工具无法准确理解需求未细化情感节点未结合文本内容标注情感变化的位置,导致情感单一缺乏可操作特征未将情感拆解为语速、语调、音量等可操作参数解决方案将情感拆解为可操作的语音特征把抽象的"温情"转化为具体的语音参数,让工具能准确执行:温情=语速放缓+尾音延长+语调上扬5%标注文本中情感变化的位置在文本中明确标注情感增强或转折的位置:"文化的延续"处情感增强,"让耳朵记住"处语调上扬设置主情感与辅助情感复杂场景设置情感层次,让音频更丰富立体:主情感"好奇"(60%)+辅助情感"亲切"(40%)COMMONPROBLEM2提示词设计常见问题(二):传统元素融入生硬问题表现非遗元素(如江南丝竹)在音频中突兀,与整体风格割裂,听起来不自然,失去和谐美感原因分析未明确融入方式未说明元素应用于旋律、节奏还是乐器,工具随机添加导致不协调元素占比不明确未限定非遗元素的比重,工具过度使用导致喧宾夺主缺乏参考示例未提供参考音频片段,工具无法把握传统韵味的精髓解决方案具体说明元素的应用位置明确指出非遗元素在歌曲中的具体应用位置:"主歌笛子旋律参考江南丝竹《欢乐歌》片段"明确元素占比限定非遗元素在整体作品中的比重,避免过度使用:"船工号子节奏仅用于副歌强拍,占比不超过30%"提供参考音频片段上传参考音频或描述经典作品风格,让工具准确把握传统韵味:"整体风格参考《茉莉花》的悠扬婉转,融入江南丝竹的清新雅致"COMMONPROBLEM3提示词设计常见问题(三):声音克隆相似度低问题表现克隆声音与原声音差异大,缺乏关键特征(如口音、沙哑感),相似度低于预期,失去原声韵味原因分析样本质量低样本噪音大、时长不足、录音环境差,影响AI对声音特征的准确提取未明确核心特征未在提示词中说明需保留的关键特征,AI随机取舍导致重要特征丢失样本多样性不足样本仅包含单一情感或语速,AI无法学习声音的动态变化特征解决方案优化样本质量对样本进行预处理,提升音频质量:降噪处理:使用音频编辑工具去除背景噪音截取清晰片段:选择声音清晰、无干扰的片段补充多样样本:提供不同情感、语速的语音片段在提示词中列出核心特征明确说明需保留的声音特征,确保AI重点提取:"必须保留江南口音中'船'、'水'等字的发音特点;保留每句结尾的沙哑拖音;语速偏慢,每分钟约120字"COREPRINCIPLES提示词设计核心原则清晰传递需求核心要义提示词需构建工具理解需求的"完整语境",六大要素缺一不可具体方法准确、具体、无歧义地描述核心内容、场景、角色、情感、风格、参数古运河案例明确"温婉女性导览员"而非"女性";指定"古风60%+民谣40%"而非"古风"尊重工具特性核心要义不同工具技术特点不同,提示词设计需针对性调整具体方法TTSMKER重情感分层,NOIZAI重样本特征,网易天音重主题意象古运河案例NOIZAI提示词强调样本质量,网易天音提示词强调非遗元素融入结合文化场景核心要义技术参数与文化内涵有机融合,让AI音频成为文化传承的助力具体方法融入传统元素时明确应用位置、占比,提供参考音频古运河案例"融入江南丝竹笛子旋律、船工号子节奏型",而非"加入传统元素"核心理念只有将技术参数与文化内涵有机融合,才能让AI生成的音频真正成为非遗声音传承与传播的助力核心要素核心原则创新可能任务6.404TASK6.4OVERVIEW任务6.4:项目概述与目标项目概述本任务聚焦古运河非遗声活馆AI音频宣传制作,需依托三款不同AI工具,分别完成导览开场白、非遗主题歌曲及结束语三类音频物料创作。融入运河非遗元素(江南丝竹、船工号子等)确保音频既具文化厚重感,又满足宣传需求提供优质音频素材,助力非遗声音文化传播项目架构导览开场白TTSMKER制作,温婉风格主题歌曲网易天音创作《运河声韵》结束语NOIZAI克隆声音制作项目目标制作导览开场白用TTSMKER制作节奏适宜、风格温婉的导览开场白音频创作主题歌曲借网易天音创作含运河非遗元素、情感贴合的主题歌曲《运河声韵》克隆声音制作结束语通过NOIZAI克隆指定声音,生成符合场景的结束语音频适配宣传场景三类音频需适配声活馆宣传,助力非遗声音文化传播项目流程任务1TTSMKER任务2网易天音任务3NOIZAITASK1OVERVIEW任务1:导览开场白——TTSMKER操作步骤概览四大操作步骤1工具准备与账号登录打开TTSMKER官网,使用账号登录,确认网络连接稳定2文本输入与格式优化在文本输入区粘贴开场白文本,按原句分段,标注停顿与重音3设置语言与声音选择"中文-Chinese"语言和"通用波音/故事/演讲女生"音色4音频生成与输出点击"开始转化"生成音频,在预览区确认无误后下载文件预期成果音频时长约30秒语音风格温婉女性导览员,清晰专业情感基调好奇60%+亲切40%音频格式MP3格式,音质清晰语速控制0.9倍语速,句间停顿1-1.5秒应用场景展馆入口导览,引导游客关键要点网络稳定,带宽≥10Mbps文本按原句分段,标注清晰选择适合历史类内容的音色生成时间约20秒(30秒音频)TTSMKEROPERATION步骤1-2:工具准备与文本输入步骤1:工具准备与账号登录1.打开TTSMKER官网•访问或打开客户端•确认网络连接稳定(建议带宽≥10Mbps)2.使用账号登录•使用已有账号登录,或注册新账号•进入"在线AI配音工具"主界面3.确认环境配置•检查音频设备(耳机、扬声器)是否正常•确保浏览器允许音频播放步骤2:文本输入与格式优化1.输入开场白文本"你听过千年运河里流淌的非遗密码吗?这些古老的声音,曾在船工号子中回响,在丝竹雅韵中流淌。今天,它们在声活馆里苏醒,等待您用耳朵倾听历史的温度。"2.按原句分段•将文本分为3段,每段1句•便于逐句调节情感与停顿3.标注停顿与重音"你听过【重音】千年运河里流淌的非遗密码吗?【停顿0.4秒】这些古老的声音,曾在船工号子中回响,在丝竹雅韵中流淌。【停顿0.4秒】今天,它们在声活馆里苏醒,等待您用耳朵倾听历史的温度。"TTSMKEROPERATION步骤3-4:语言声音设置与音频生成步骤3:设置语言与声音1.选择文本语言•进入"选择文本语言"设置•选择"中文-Chinese简体和繁体"2.选择音色•进入"选择你喜欢的声音"•在"音色选择"栏中筛选•选择"通用波音/故事/演讲女生"•该音色适合非遗、历史类内容配音3.试听音色•点击"试听音色"进行试听•确认温婉风格符合历史文化场景TTSMKEROPERATION步骤3-4:语言声音设置与音频生成步骤4:音频生成与输出1.高级设置•点击"高级设置"按钮•选择默认"mp3"格式•如需其他格式可在此设定2.开始转化•点击"开始转化"按钮•系统开始处理(约需20秒)•30秒音频生成时间约20秒3.下载文件•转化成功后,在"音频预览区"播放•确认无误后点击"下载文件到本地"•文件自动保存为MP3格式TASK2OVERVIEW任务2:主题歌曲《运河声韵》——网易天音操作步骤概览五大操作步骤1主题与元素梳理2创作参数设置3风格与结构设置4作品导出与保存歌曲信息歌曲名称《运河声韵》音乐风格古风(60%)+民谣(40%)歌曲时长约2分钟节奏速度BPM80情绪基调温暖怀旧核心意象橹声、水波、码头、老手艺核心提示词"千年运河流淌着船工号子、丝竹雅韵,老声音在新时代苏醒,用旋律讲述传承的故事。歌词需包含橹声、水波、码头、老手艺等意象,情感温暖而怀旧,既有历史厚重感,又有青春活力。"NETEASETIANYINOPERATION步骤1-2:主题梳理与参数设置步骤1:主题与元素梳理1.明确核心主题古运河非遗声音的历史沉淀与当代活化2.梳理运河非遗元素江南丝竹:笛子、二胡音色特征船工号子:"一领众和"节奏型运河场景意象:橹声、水波、码头、晨雾老手艺:传统技艺口诀与工具声3.确定情感基调温暖怀旧+历史厚重感+青春活力步骤2:创作参数设置1.登录网易天音平台•访问•使用网易云音乐账号登录2.进入一键写歌模块•点击"开始创作"•进入"一键写歌"模块•再次点击"开始创作"3.输入创作灵感"千年运河流淌着船工号子、丝竹雅韵,老声音在新时代苏醒,用旋律讲述传承的故事。歌词需包含橹声、水波、码头、老手艺等意象,情感温暖而怀旧,既有历史厚重感,又有青春活力。"4.设置段落结构与音乐类型•打开"作曲/段落结构/音乐类型"•段落结构:"全曲模式"•音乐类型:"国风"NETEASETIANYINOPERATION步骤3-4:风格调整与歌词修改步骤3:生成与试听初稿1.开始AI写歌•点击"开始AI写歌"按钮•系统开始创作(约需1分钟)•自动生成词曲编唱一体化作品2.查看生成结果•点击"试听"按钮•完整试听生成的初稿歌曲•评估整体效果与风格匹配度3.评估初稿•旋律是否符合古运河氛围•歌词是否包含非遗意象•情感是否温暖怀旧NETEASETIANYINOPERATION步骤3-4:风格调整与歌词修改步骤4:风格与结构设置1.调整情绪类型•点击"切换风格"•"情绪类型"设定为:"治愈"•辅助情绪:"平静"•使歌曲更符合温暖怀旧基调2.修改歌词结构•进入"歌词"模块•点击需要修改的歌词直接输入•使用【回车】换行调整段落•优化押韵和意象表达3.优化内容•确保歌词包含橹声、水波、码头等意象•强化江南丝竹、船工号子等非遗元素•提升歌词的文学性与韵律感NETEASETIANYINOPERATION步骤5:作品导出与保存导出步骤1.点击导出按钮在作品页面点击"导出"按钮,进入导出设置界面2.命名作品将导出文件命名为"运河声韵",便于识别与管理3.生成素材包系统自动生成"歌曲素材包",包含多种格式文件NETEASETIANYINOPERATION步骤5:作品导出与保存歌曲素材包内容整曲WAV完整歌曲的无损音频格式,适合专业后期制作伴奏MP3纯伴奏版本,可用于现场演唱或二次创作歌声WAV纯人声版本,便于后期混音或制作remix歌词TXT完整歌词文本文件,方便查看与修改人声调校文件用于后期人声调校的工程文件应用场景展馆背景音乐、短视频配乐、线上传播关键要点素材包包含多种格式,满足不同需求WAV格式保证音质无损MP3格式便于网络传播歌词文件可用于制作字幕伴奏版本支持现场演唱人声调校文件便于后期制作TASK3OVERVIEW任务3:结束语——NOIZAI操作步骤概览两大操作步骤1声音样本收集登录NOIZAI平台,上传或录制声音样本,系统自动识别原文,生成预览并添加到语音库2声音克隆与生成在声纹库中选择采集的音频,输入结束语文本,生成语音并下载保存预期成果声音相似度≥85%情感还原度≥80%音频格式MP3格式,音质清晰语音特征保留原声口音与情感特质应用场景展馆结尾区,文化传承样本要求5-10分钟清晰音频核心优势仅需5-10分钟样本即可克隆相似度可达99%声纹可重复使用,降低成本支持声音修复,还原老录音NOIZAIOPERATION步骤1:声音样本收集(上)登录与新建1.登录NOIZAI平台•访问https://noiz.ai•使用账号登录或注册新账号•点击"立即开始"进入主页面2.新建克隆声音•点击"新建克隆声音"•选择上传或录制方式•推荐提前录制好5-10分钟样本3.上传声音样本•点击"Upload"上传音频文件•支持MP3、WAV、FLAC等格式•或点击"Record"直接录制系统识别与预览1.自动识别原文•上传完成后点击"下一步"•系统自动识别音频原文•示例:"大家好,我是古运河非遗声活馆的声音向导..."2.修改识别错误•检查识别结果是否准确•修改有误的地方•补充适合的标点符号•常用停顿用"..."表示3.生成预览•点击"生成预览"按钮•测试音效果•确认无误后进行下一步NOIZAIOPERATION步骤1:声音样本收集(下)添加音频到语音库1.添加音频名称•输入音频名称:"zl-声音向导"•便于后续识别与调用2.选择语言•选择语言:"中文"3.设置优化选项•打开"自动降燥"功能•勾选"服务条款"4.确认添加•点击"确认"按钮•音频添加到"语音库"管理语音库1.查看语音库•名为"zl-声音向导"的音频出现在"语音库"中•显示音频名称、时长、创建时间2.试听功能•点击"试听"按钮测试音频•确认样本质

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论