项目3-2 让人工智能发声-教学课件_第1页
项目3-2 让人工智能发声-教学课件_第2页
项目3-2 让人工智能发声-教学课件_第3页
项目3-2 让人工智能发声-教学课件_第4页
项目3-2 让人工智能发声-教学课件_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

项目三当人工智能学会了听说第2课时

让人工智能发声

授课人:XXX谁是真人?谁是AI?语音1真人/AI?语音2真人/AI?大家能分辨出哪段是真人说的,哪段是人工智能合成的吗?我们身边的语音合成虚拟歌手让虚拟偶像唱出动听的歌曲,打破次元壁,带来独特的视听体验。导航语音播报让导航用你喜欢的声音指引方向,让枯燥的驾驶旅程变得更加亲切有趣。有声小说解放双眼,利用碎片时间随时随地听书,将文字转化为丰富的听觉盛宴。智能音箱回应作为智能家居入口,用自然流畅的语音回答你的问题,让交互变得自然简单。现在的语音合成技术已经非常先进,合成的声音几乎可以以假乱真。语音合成的定义什么是语音合成?语音合成,也叫文本转语音(TTS),就是让机器把文字信息转换成自然流畅的语音信号。如果说语音识别是让机器“听懂”我们的话,那么语音合成就是让机器“学会”说话。它是实现人机语音交互的重要技术之一。TTSTexttoSpeech为什么需要语音合成?实现机器向人类的语音信息传递让机器能够主动地、以最自然的方式向我们播报信息、提供服务,如智能导航、天气播报、智能助手提醒等。与语音识别配合,完成完整交互语音识别(ASR)让机器“听懂”我们的指令,语音合成(TTS)让机器开口“回应”我们。两者结合,构建完整的人机对话闭环。人·发出指令语音识别(ASR)解析语义人机对话闭环机器·语音回应语音合成(TTS)生成声音动手实践:让AI说出你的话活动任务在这个环节,我们将亲自上手体验两款不同技术路线的语音合成工具,并对比它们在音色还原度、断句流畅度以及情感表现力上的差异。任务清单1.基础体验:Windows系统自带的“讲述人”语音合成功能2.进阶对比:百度AI开放平台的语音合成在线接口任务一:让电脑开口说话01新建文本文档在电脑桌面空白处点击鼠标右键,选择“新建”菜单中的“文本文档”选项。02输入VBS代码双击打开新建的文本文档,将指定的VBS语音合成代码复制粘贴进去。(CreateObject("SAPI.SpVoice").Speak"你好")03修改文件后缀点击保存,将文件名的后缀从默认的“.txt”修改为“.vbs”,完成格式转换。(在对话框的“编码”选项中,将文件编码设置为ANSI)04双击运行回到桌面,双击这个vbs文件。在弹出的对话框中输入任意文本,电脑就会开始朗读。趣味小挑战试试输入不同的标点符号,看看电脑能不能读出情感?

例如:

“今天天气真好啊!”

“你吃饭了吗?”

“我真的不知道。”任务二:体验专业AI语音合成01打开浏览器打开常用浏览器,访问百度AI开放平台并完成登录。02进入演示页在导航栏找到“语音技术”板块,点击进入语音合成在线演示页。03调整参数在控制面板中,自由选择不同的音色,并尝试调整语速和音调数值。04输入文本在下方输入框输入任意文本,点击“合成并播放”按钮,即可聆听效果。💡探索与发现尝试调整不同的参数,对比一下效果有什么不同?可以试着输入同一句话,分别选择“温暖女声”、“沉稳男声”或“可爱童声”,并调整不同的语速(快/慢)和音调(高/低),仔细听听最终生成的语音有什么区别?你更喜欢哪种风格?如何评价语音合成效果?自然度(Naturalness)声音是否流畅自然,语调连贯?听起来没有明显的机械感或电子音,接近真人发音的韵律。情感表现力(Expressiveness)能否理解并传递文本的情感色彩?根据语境读出喜怒哀乐、抑扬顿挫,赋予声音“灵魂”。音色多样性(Diversity)是否支持丰富的声音角色选择?涵盖男声、女声、童声,以及不同年龄、风格的定制化音色。两种语音合成效果对比Windows系统语音合成优点:无需联网、操作简单、占用资源少,适合对语音质量要求不高的本地场景。缺点:声音机械生硬、缺乏情感表现力,且音色种类单一,容易产生听觉疲劳。百度AI语音合成优点:声音自然流畅、具有丰富的情感表现力,音色库资源丰富,可满足多样化需求。缺点:必须依赖网络环境,且部分功能使用门槛相对较高,在网络状况差时可能不稳定。语音合成是如何实现的?01.波形拼接法就像玩拼图一样,把提前录制好的单词、音节或音素等发音片段,根据文本内容挑选并拼接在一起,形成完整的语音流。02.参数合成法不直接使用录音片段,而是通过分析真人语音的声学参数,建立复杂的数学模型,再通过模型计算生成全新的语音波形。不同的合成方法,决定了语音合成的最终效果。方法一:波形拼接法核心原理:语音“拼图”就像玩拼图游戏,将提前录制好的单词或音节“声音片段”,按照文本内容逻辑进行拼接,从而形成连续语句。方法优势发音清晰准确

底层技术门槛低,易实现主要局限语调单一,声音机械

缺乏情感,听感不自然声波波形示意

不同语音片段拥有各自独特的波形特征方法二:参数合成法(主流)01/核心原理通过分析真人语音的音色、基频、共振峰、时长等多维声学参数,建立复杂的数学与深度学习模型,再利用该模型直接计算并合成出全新的、连续的语音波形。✅主要优点合成语音自然度高、富有韵律感;支持灵活调整情感、语速,能精准模仿特定人声。⚠️主要挑战模型结构复杂,训练门槛较高;对海量高质量标注语音数据的依赖程度大。典型应用场景个性化导航语音包·虚拟歌手(Vocaloid)·AI主播总结:今天我们学到了什么?01/核心概念•定义:利用AI技术让机器“开口说话”

•别名:文本转语音(TexttoSpeech,简称TTS)02/生活应用•导航语音、有声书/播客、视频配音

•智能助手(如Siri)、虚拟歌手、无障碍阅读03/两大合成流派•传统方法:波形拼接法(拼接录音片段,生硬不自然)

•主流方法:参数合成法(AI生成参数,更流畅自然)04/效果大比拼•系统自带语音:音色单一、语

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论