人工智能交互技术及应用课件第1章认识智能语音

上传人：q*** IP属地：山东上传时间：2026-06-02 格式：PPTX 页数：77 大小：6.59MB 积分：25 举报 版权申诉

已阅读5页，还剩72页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

智能交互技术概要人工智能交互技术——智能语音课程基础信息：课程性质：专业必修考核方式：考试总学时数：68课程考核：满分100，由平时成绩（40%），期末考试（60%）成绩构成。平时成绩：出勤、课堂表现、课后作业、课堂实践、课堂测验本节要点本节要点本节要点提到人工智能交互你能想到什么？信息源视觉：眼睛感知光线、颜色、形状等听觉：耳朵感知声音、音调、音量等嗅觉：皮肤感知温度、压力、纹理等味觉：舌头感知食物的味道触觉：通过鼻子感知气味本节要点本课程主要聚焦于语音和视觉两大领域语音交互通过语音识别（ASR）将声音转化为文字，通过语音合成（TTS）将文字转化为声音。视觉交互通过计算视觉技术（如图像分类、目标检测、人脸识别）让机器“看懂”世界。本节要点你能举出一个你熟悉的语音交互产品吗？应用场景：听觉本节要点翻译机降噪耳机语音助手应用场景：视觉本节要点自动驾驶动物品种分类安全帽检测应用场景：综合应用宇树科技的人形机器人视觉与听觉的结合展示了五感交互技术的巨大潜力机器人通过3D激光雷达和深度相机实现精准定位，配合AI算法完成复杂的舞蹈动作，展现了视觉感知与动作控制的完美结合机器人还能“听懂”音乐，根据节奏实时调整动作，体现了语音处理与动作规划的协同本节要点过渡页§1认识智能语音

教学内容：•

声音与信息•声音信号采集与处理•声音信号的表示•智能语音的应用场景•语音语料库及工具

教学目标：•了解声音信号的表示、智能语音的应用场景本节要点1场景引入语音特征分析介绍延伸阅读目录目录23•

交通基本靠走；•

取暖基本靠抖；•

治安基本靠狗；•

通讯基本靠吼。

路见不平一声吼呀，通讯这就开始了呀，语音交互也就开始了啊

科技发展的真快，在曾经的那个年代，我们是这样过日子的

为什么要去认识语音？

你了解你的声音吗？

你知道声音有什么特点吗？

你难道不想了解一下吗？

你了解声音吗？•窗外鸟儿的叫声•马路上车辆的飞驰声•耳机里动听的歌声•讲台上老师的讲课声•课下同学们的聊天声

这些声音我们再熟悉不过了•有物的声音，有人的声音声音

我们再来看看描述声音的•大弦嘈嘈如急雨，小弦切切如私语；嘈嘈切切错杂弹，大珠小珠落玉盘。•风驱急雨洒高城，云压轻雷殷地声。雨过不知龙去处，一池草色万蛙鸣。••梵音天籁、靡靡之音、余音绕梁

…•窃窃私语、字正腔圆、抑扬顿挫

…

你感觉到声音的差异了吗？•有描述物的声音大小、有描述人的声音大小声音…

人的声音：•就是语音，包括说话声、歌声

物的声音：•有音乐、大自然内的声音、

…

那么声音是怎么产生的呢？声音声音信号波形图

物理知识告诉我们：

•声音是物体振动产生的，以波的形式传播，即声波（SoundWave）•具有的物理特征：音高、音强、音长、音质

…※声音的三要素（重点内容1）

响度（音量）：人耳感受到的声音的强弱（分贝dB）

音调：人耳对声音声调高低的主观感受（Hz），频率越大，音调越高

音色（音品）：人耳感受到的声音特色

人很容易通过人声来识别声音声音人很容易通过人声来识别声音妇女、儿童的声带短而薄，声音偏高成年男子的声带长而厚，声音偏低老年人的声带松弛，声音就更低我们知道现在人能和机器人交流，那么没长耳朵的机器人是怎么能听

到声音呢？如果是计算机，如何来识别声音呢？计算机识别的声音从何而来呢？声音信号是怎样被采集的呢？储存形式是什么呢？声音与信息声音与信息声音采集麦克风种类动圈式麦克风电容式麦克风MEMS（微型机电系统）麦克风

我们经常能看到这样的声音波形图•波形图是声音信号在计算机中的表现形式，但不是声音信号的存储方法•计算机只能处理数字信号，声音信号要进行数字化声音与信息•存储为音频（人耳能听到的声音频率20Hz-20kHz）

我们经常能看到这样的声音波形图•波形图是声音信号在计算机中的表现形式，但不是声音信号的存储方法•计算机只能处理数字信号，声音信号要进行数字化声音与信息周期采样率

频率声道

位数

分辨率•存储为音频（人耳能听到的声音频率20Hz-20kHz）文件格式

码率

帧数比特率声音信号采集与处理声音信号数字化的步骤（重点内容2）声音信号采集与处理

声音信号采集与处理声音信号数字化的步骤（重点内容2）音频数据采样图像数据采样声音信号采集与处理声音信号数字化的步骤（重点内容2）量化：量化是将采样得到的连续振幅值转换为离散的数值的过程。量化的过程会引入一定的误差，称为量化误差。量化精度由量化位数决定，位数越高，量化精度越高，误差越小。量化步骤确定量化位数：选择合适的量化位数（如8位、16位、24位等）。量化过程：将连续振幅值划分为若干个区间，每个区间对应一个离散数值。映射振幅值：将每个采样点的振幅值映射到最近的离散数值上。声音信号采集与处理声音信号数字化的步骤（重点内容2）量化后所有点的范围在0~8之间。其中8位的量化可将振幅分为256个等级。16位量化可以划分为65536个等级，是CD音频的标准。声音信号采集与处理声音信号数字化的步骤（重点内容2）编码：编码是将量化后的离散数值转换为二进制数据的过程，以便存储和传输。编码将量化后的数值转换为计算机能够识别的二进制格式。编码格式可以是无损的（如PCM、WAV、FLAC）或有损的（如MP3、AAC）。编码步骤选择编码格式：根据需求选择合适的编码格式。转换为二进制：将量化后的离散数值转换为二进制数据。存储或传输：将二进制数据存储到文件中（如WAV文件）或通过网络传输。声音信号采集与处理声音信号数字化的步骤（重点内容2）将量化后的值进行编码，转为数字信号声音信号采集与处理类别图像数据数字化过程声音信号采集与处理•

采样•

量化•

编码

解码声音信号采集与处理

声音信号数字化的步骤声音信号采集与处理音频的三种属性采样率：在单位时间内对音频信号进行采样的次数，通常以赫兹（Hz）为单位。例如，采样率为44.1kHz表示每秒对音频信号采样44,100次。量化位数：每个采样点的精度，以比特（bit）为单位。它决定了音频信号的动态范围和精度，即音频信号的最小值和最大值之间的差异。通道数：音频信号的声道数量。它决定了音频的立体感和空间感。常用的采样率（每秒钟取得声音样本的次数）•8000Hz-电话所用采样率，对于人的说话已经足够•11025Hz~24000Hz无线广播所用采样率•44100Hz-音频CD,MPEG-1音频（VCD，SVCD，MP3）所用采样率•48000Hz-miniDV、数字电视、DVD、DAT、电影和专业音频所用的数字声音所用采样率•96000Hz或者192000Hz-DVD-Audio、一些LPCMDVD音轨、BD-ROM（蓝光盘）音轨、和HD-DVD（高清晰度DVD）音轨所用所用采样率声音信号采集与处理采样率高可以捕捉到更丰富的高频细节，使音频听起来更清晰、更自然。

量化位数（采样位数）•

1字节(也就是8bit)只能记录256个数,也就是只能将振幅划分成256个等级•2字节(也就是16bit)可以细到65536个数,这已是CD标准•4字节(也就是32bit)

通道数•

单声道•

立体声（双声道）•

四声环绕（四声道）声音信号采集与处理杜比音效：最高可支持128声道声音信号采集与处理帧：视频帧：一帧就是一幅图像音频帧与视频帧不一样音频帧包含一定数量的采样点，用于表示该时间段内的音频信息。比特率（码率，bps）：每秒播放的数据量（bit/s）其中比特率=采样率×量化位数×声道数128bps的4分钟的歌曲的文件大小计算：(128/8)*4*60=3840kB=3.8MB

编码格式•

PCM•

MP3•

wav•

w4a•

…声音信号采集与处理声音信号采集与处理语音信号的研究方向声音信号采集与处理语音识别的概念AutomaticSpeechRecognition(ASR)或SpeechtoText(STT)将语音转换成文本解决机器“听清”问题，不处理“听懂”问题但是要处理声学和(部分)语言上的混淆"Recognizespeech"or“Wreckanicebeach'“帮我拿快递”or“帮我拿块地”解决“共性”问题:每个人的语音都能识别出正确的文本我来自北京智能语音的应用场景

寻找一下身边的智能语音产品

软件类产品微信文字语音转文字讯飞输入法语音输入微软小娜-语音交互苹果siri智能语音的应用场景

软件类产品文章小说一键听手机语音助手高德个性导航

硬件类产品•家居：智能音箱、智能电视、智能机顶盒等等•儿童：儿童机器人、智能故事机、智能学习机等等•随身：蓝牙语音TWS耳机、智能手表、智能翻译机等等•汽车：车载智能导航、手机智能支架、智能车载机器人等等•商务：智能录音笔、商务录音转写器、智能办公本等等智能语音的应用场景智能语音的应用场景智能音箱智能玩具

硬件类产品智能语音鼠标智能翻译机

※语料-数据集（重点内容3）•

TIMIT-经典的英文语音识别库，包含630人，来自美国8个主要口音地区，每人10句，包含了词和

音素级的标注•SwitchBoard-对话式电话语音库，采样率8kHz，包含来自美国各个地区543人的2400条通话录音•

LibriSpeech-免费的英文语音识别数据库，总共1000小时，采样率16kHz，包含朗读式语音和对应

的文本•

Thchs-30-清华大学提供的一个中文示例，并配套完整的发音词典，其数据集有30小时，采样率16kHz•

AISHELL-1-希尔贝壳开源的178小时中文普通话数据，采样率16kHz。包括400位来自中国不同口智能语音的语料及工具音区域的发音人，语料内容涵盖财经、科技、体育、娱乐、时事新闻

开源工具•

HTK（HMMToolkit）是一个专门用于建立和处理隐马尔科夫模型的实验工具包，由剑桥

大学的Steve

Young开创，非常适合GMM-HMM系统的搭建

，2015年也推出了DNN-HMM•

Kaldi是一个开源的语音识别工具箱，是基于C++编写的，可以在Windows和Unix平台上编译，主要由DanielPovey博士在维护。Kaldi适合DNN-HMM系统（包括Chain模型）

的搭建

,支持TDNN/TDNN-F等模型，基于有限状态转换器（FST）进行训练和解码。•

Espnet是端到端语音处理工具集，主要侧重于端到端语音识别和语音合成。Espnet用Python

开发，使用Chainer和Pytorch作为主要的深度学习引擎，并遵循Kaldi风格的数据处理方式，为语音识别和其他语音处理实验提供完整的设置，支持CTC/Attention等模型。智能语音的语料及工具声音信号采集与处理课堂练习1、语音信号数字化的步骤包括以下哪三个阶段？（

）A.采样、量化、编码B.采样、压缩、解码C.量化、编码、解码D.采样、滤波、编码A声音信号采集与处理课堂练习2、以下哪个采样率最适合高质量音乐录制？（

）A.8000HzB.11025HzC.44100HzD.96000HzC声音信号采集与处理课堂练习3、在语音信号数字化过程中，采样率决定了以下哪一项？（

）A.音频信号的动态范围B.音频信号的频率范围C.音频信号的存储大小D.音频信号的声道数量B声音信号采集与处理课堂练习4、在音频信号处理中，以下哪种方法可以有效减少量化误差？（

）A.降低采样率B.增加量化位数C.减少声道数D.使用有损编码格式B赶快去了解一下你的声音吧谢谢大家

软件安装与环境配置人工智能交互技术——智能语音实验内容：Python程序语言回顾Anaconda安装与环境配置PyCharm软件安装实验目标：了解语音处理工具的使用方法PyCharm社区版的安装方法，并学会配置IDE与Anaconda环境本节要点3PyCharm安装与配置1Python语言概述2Anaconda介绍及安装4环境配置与管理§1Python语言概述

Python的特性与优势Python的特性与优势简单易学：语法简洁清晰高级语言可移植性解释型语言丰富的标准库和第三方库Python的特性与优势比较方面PythonC/C++JavaJavaScriptGo性能解释型，执行速度相

对较慢编译型，执行速

度快编译型，执行速度

较快主要在浏览器中运

行，性能依赖于浏

览器引擎编译型，执行速

度快，尤其在高

并发场景下开发效率高，语法简洁，自动

内存管理较低，需要手动

管理内存，语法

复杂较高，但语法相对

冗长较高，但在某些复

杂场景(如后端)

不如Python较高，特别是在

并发场景下的开

发应用领域Web开发、数据分

析、人工智能等多领

域系统软件开发、

嵌入式开发等对

性能要求高的领

域企业级应用开发、

Android开发等前端网页交互开

发，Node.js可用于

后端开发后端开发，特别

是高并发场景下

的服务开发python安装安装地址：/downloads/windows/语音处理工具librosa的介绍python的局限性包管理困难不同的项目版本不一致环境配置繁琐语音处理工具librosa的介绍§2Anaconda—解决Python生态问题的利器

Anaconda下载与安装Anaconda下载官网下载地址：/download清华源镜像：/anaconda/archive/Anaconda下载与安装Anaconda下载安装包：安装设置：Anaconda解决Python生态问题的利器环境管理Anaconda通过Conda工具，可以创建和管理多个隔离的Python环境，满足不同项目对Python版本或库的需求。包管理Conda提供方便的依赖项管理和环境切换功能，自动处理包之间的依赖关系，确保兼容性。集成开发Anaconda自带多种开发工具，集成了大量用于数据处理和分析的工具和库，比如Pandas、NumPy和Matplotlib等，方便数据分析和科学计算工作。多语言支持Anaconda不仅关注Python，还支持R、Ruby、Lua、Scala、Java等其他编程语言，成为多语言的数据科学平台。01020304Anaconda解决Python生态问题的利器常用库Numpy科学计算：矩阵计算等Scipy基于numpy：积分、信号处理等Matplotlib绘图、数据可视化、数据分析等Scikit-learn机器学习库：分类、回归、聚类探索两种命令行工具的特点与差异CMD（CommandPrompt）Windows操作系统自带的命令行解释程序可以运行各种系统命令管理Python环境，需要手动设置环境变量AnacondaPrompt专门针对数据科学和机器学习等任务的命令行工具Scikit-learn机器学习库：分类、回归、聚类无需配置python环境，安装后直接使用Conda安装与Pip安装的区别Conda简介conda是一个开源的软件包管理和环境管理系统可以从多个渠道（channels）获取软件包Pip简介定义：Pip是Python的包管理工具，用于安装和管理Python软件包。特点简单易用，专注于Python

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

人工智能交互技术及应用课件第1章认识智能语音

文档简介

温馨提示

最新文档

评论

人工智能交互技术及应用 课件 第1章 认识智能语音

文档简介

温馨提示

最新文档

评论

相关文档

人工智能交互技术及应用课件第1章认识智能语音