版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
任务一
处理音频创设情境王华最近接了一个项目,要将一部分文字内容转为语音,然后把部分语音材料整理成文字,他提出一个充分利用人工智能技术的方案,利用文字转语音服务平台轻松解决这个问题,借助生成式人工智能整理语音材料成文字稿、文字材料生成语音资料,并且还可以提供多语言配音,创造交互式体验。活动目标1.了解目前文字生成音频和音频转文字的主流平台。2.掌握文字生成音频和音频转文字的一般操作步骤。3.音频处理给我们的学习、生活和工作带来的便利。活动准备初步了解文字生成音频和音频转文字时的常识和工具:1.了解TTS的原理:TTS是TextToSpeech的缩写,即“从文本到语音”,是人机对话的一部分,让机器能够说话。TTS是语音合成应用的一种,它将储存于电脑中的文件,如帮助文件或者网页,转换成自然语音输出。主要功能包括文本分析、语音合成、韵律处理。活动准备初步了解文字生成音频和音频转文字时的常识和工具:2.讯飞智作平台:讯飞智作是科大讯飞旗下的一款AIGC内容生产平台,它整合了多项核心技术成果,在语音处理、人工智能等领域发挥优势。例如在智能语音技术方面,涵盖了音频处理、语音识别、语音合成、语音评测等一系列核心产品和技术。从创作功能角度看,它就像是一个全能的创作助手,在实际应用场景中,讯飞智作也展现出了很强的适应性。活动准备它的核心功能就是将文本转换为语音,我们只需将需要配音的文本输入到工具中,选择相应的语言和声音,能在短时间内生成高质量的语音。活动准备初步了解文字生成音频和音频转文字时的常识和工具:4.海绵音乐:它是一个利用人工智能技术的音乐创作平台,可以快速生成个性化的音乐作品。通过提供多样化的音乐风格模板和情感主题,简化音乐创作的复杂性,即使是没有专业音乐也能轻松创作出属于自己的音乐。活动准备初步了解文字生成音频和音频转文字时的常识和工具:5.讯飞听见:一款由科大讯飞推出的智能语音转文字软件,它的功能能够大幅提升用户在会议记录、授课演讲、媒体采访等场景下的工作效率,如实时语音转写、多语种翻译、边录边拍、悬浮字幕、文本结果导出等功能。活动准备初步了解文字生成音频和音频转文字时的常识和工具:5.剪映软件:我们将在学习拟声这一功能时用到剪映软件,它的“声音克隆”功能是一项创新技术,我们能快速复制自己的声音。通过录制5秒钟的语音,AI模型能够学习并生成与我们音色极为相似的语音内容。活动展开-文本转换音频参照教材中“活动展开”,尝试操作。1.登录平台后,输入文本,点击“文本纠错”后试听效果。
粘贴文字稿到文本框活动展开-文本转换音频
智能纠正错别字界面参照教材中“活动展开”,尝试操作。1.登录平台后,输入文本,点击“文本纠错”后试听效果。活动展开-文本转换音频参照教材中“活动展开”,尝试操作。1.输入文本,“文本纠错”后试听效果。
点击主播头像试听多音字选择读音界面活动展开-文本转换音频参照教材中“活动展开”,尝试操作。2.选择语言、语音包类型和语速
语音主播选择界面活动展开-文本转换音频参照教材中“活动展开”,尝试操作。3.停顿设置和添加背景音乐。
配音停顿设置设置背景音乐活动展开-文本转换音频参照教材中“活动展开”,尝试操作。4.生成音频文件。修改生成音频文件名称为“《桃花源记》语音生成”、设置生成音频文件格式为“mp3”。
转换并下载配音文件活动展开-音频转换文本参照教材中“活动展开”,尝试操作。1.讯飞听见模块“实时录音”功能。打开讯飞听见官网,找到并点击“实时录音”模块,下拉选项中选择电脑自带麦克风。
实时录音功能选择界面参数设置活动展开-音频转换文本参照教材中“活动展开”,尝试操作。1.讯飞听见模块“实时录音”功能。打开讯飞听见官网,找到并点击“实时录音”模块,下拉选项中选择电脑自带麦克风。
声音实时转成文字活动展开-音频转换文本参照教材中“活动展开”,尝试操作。2.手机收音电脑端依次点击“设置”、“微信收音”,移动端扫二维码,切换到手机录音界面,开始实时语音转换文字。
提示:PC端和移动端使用同一个账号登录。切换到手机录音实时语音转换文字活动展开-拟声参照教材中“活动展开”,尝试操作。1.导入音频文件打开剪映软件,导入音频文件,将音频文件拖动到音轨上。素材拉进音轨打开软件活动展开-拟声参照教材中“活动展开”,尝试操作。2.克隆系统内置声音进入音色广场,试听各种角色,满意后单击头像选中。音色广场选择音色界面活动展开-拟声参照教材中“活动展开”,尝试操作。3.导出克隆声音文件试听得到满意的效果后,依次点击“菜单”-“文件”-“导出”设置格式为mp3,导出音频文件。导出克隆音频文件应用提升-文本转换音频使用“多人配音”功能在讯飞智作平台中输入师生对话逐字稿,按住ctrl键的同时选中一个角色的对话,点击“多人配音”选择配音主播,在“主播界面”采取同样的方法设置其他角色对话。选中角色(老师)对话
多人配音设置界面应用提升-文本转换音频文本文档转音频讯飞智作平台可以将整个文本文档转换音频。单击右上角“导入文件”按钮,将文本文档导入到平台。提示:在讯飞智作平台中,直接导入大小不超过20MB、字数不超过1万字、页数不超过50页的doc、pdf、txt格式文档。导入文档界面应用提升-文本转换音频文档转音频导入文本后,平台会根据文件内容智能排版,也可以根据需要手动编辑调整。还可以切换到“我的音乐”选项卡上传本地背景音乐。自动排版界面导入背景音乐界面应用提升-音频转换文本利用电脑端实现离线语音转文字打开讯飞听见首页,选择“导入音视频”选项卡,点击“立即体验”链接,添加录音文件,设置音频语音种类、专业领域等选项,提交转写。讯飞听见官网界面讯飞听见添加源音频文件界面应用提升-音频转换文本利用移动端完成语音转文字在讯飞听见APP中导入音频,设置语言种类、专业领域、转文字模式等选项,提交转写任务。讯飞听见APP首页转文字模式转写参数设置选择音频转文字模式应用提升-拟声克隆自己的声音朗读例句录制声音样本,生成属于自己的音色。上传语音文件后,可选择自己的音色进行克隆。提示:录制时的语气和情感也会被克隆,录制时长在5s以上;你的电脑要配备麦克风设备。克隆自己声音界面语音克隆应用提升-拟声克隆自己的声音设置参数:选择“保留口音版”保存,克隆列表多了生成的音色。将生成的音色应用到语音文件。提示:录制时的语气和情感也会被克隆,录制时长在5s以上;你的电脑要配备麦克风设备。设置参数定制音色列表应用提升-拟声调整声音效果设置克隆声音的音量、速度、淡入、淡出、降噪、变调效果。克隆声音基础设置克隆声音变速变调设置应用提升-拟声调整声音效果在“声音效果”选项卡中,“场景音”可选择不同的背景声音;“声音成曲”可以在克隆声音的基础上变成音乐,试听后选择满意的效果。选择“场景音”选择声音成曲理论拓展-机器学习算法线性回归根据奶茶店过去5天的数据,预测下周的销量以便备货。把“气温”和“销量”画在坐标图,肉眼可见这些点呈“左下→右上”的线性分布:气温每升高3℃,销量约增加15杯,趋势明确,预测公式为:销量=5×气温-45。
当天温度2225283134卖出奶茶数658095110125温度与卖出奶茶关系“气温”和“销量”关系理论拓展-机器学习算法线性回归如何让拟合线“最贴合”?拟合线的核心是“最小化误差”,通过“最小二乘法”算法调整拟合线的斜率和截距,让所有垂直虚线的“平方和最小”。如若拟合线斜率为4.8,误差平方和会增大,斜率为5.2时同样增大,只有斜率为5时,误差总和最小,此时红色拟合线在图中位置最居中最小二乘法拟合气温-销量关系图理论拓展-机器学习算法逻辑回归逻辑回归是一种用于二分类任务的统计模型,核心是将线性回归的连续输出映射到0-1之间的概率值。线性结果为0时,对应概率50%;线性结果为正值时,概率随线性结果增大趋近100%;线性结果为负值时,概率随线性结果减小趋近0%,实现从“线性数值”到“概率”的转换。逻辑回归以S型曲线图为核心表达,横轴为自变量,纵轴为范围0%~100%的概率值,起点接近纵轴0%,终点接近100%,中间会穿过纵轴50%的水平直线。S型曲线示意图理论拓展-机器学习算法线性回归若一类样本数量远多于另一类,在样本分布对比图中表现为某一类别的柱状图高度远高于另一类,此时分类边界会向样本量少的类别偏移,导致该类别的判断准确率降低。通过增加样本量少的类别数据或减少样本量多的类别数据,使两类样本在分布图中高度接近,分类边界回归临界点位置,确保两类判断准确率均衡。优化后的分类边界偏移的分类边界理论拓展-机器学习算法K近邻算法K近邻(KNN)是一种简单的监督学习算法,核心逻辑是“近朱者赤,近墨者黑”,通过样本周围邻居的类别来判断自身类别。当输入新样本时,计算它与训练集中所有样本的距离,根据距离排序,选取距离最近的K个样本作为“邻居”,再统计K个邻居中各类别的数量,数量最多的类别即为新样本的预测类别。K近邻算法示意图理论拓展-机器学习算法支持向量机支持向量机(SVM)是一种监督学习模型,核心是在特征空间中找到最优超平面,实现对数据的分类或回归。支持向量机示意图理论拓展-机器学习算法支持向量机二维平面中分布着圆形和方形两类样本点(如图4-1-53所示),蓝
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年湖南省张家界市初二学业水平地理生物会考真题试卷(+答案)
- 2025年广东阳江市地理生物会考考试题库(含答案)
- 2025年广东省湛江市八年级地理生物会考真题试卷+解析及答案
- 第四单元《阅读综合实践》课件 2025-2026学年统编版语文七年级下册
- 外科危重患者护理
- 2026年项目合作协议书范文
- 2026年版劳动合同到期续签协议模板
- 2025年下半年军队文职 公共科目-岗位能力
- 2026年酒店酒店年终工作总结及工作计划(3篇)
- 吸痰技术的患者教育材料
- JBT 9229-2024 剪叉式升降工作平台(正式版)
- 《发展汉语(第二版)初级口语(Ⅰ)》第10课教案
- 小学三年级心理健康课《做情绪的主人》完整课件
- 法律顾问服务投标方案(完整技术标)
- 肿瘤化疗药物常见的不良反应及护理措施课件
- 新一代天气雷达观测与灾害预报
- 污水处理设备安全技术规范 编制说明
- 学位外语(本23春)形成性考核5试题答案
- 安师大环境学习题集及答案
- 人文地理学课件
- 城市规划原理 课件 10 城乡区域规划
评论
0/150
提交评论