人工智能交互技术及应用 课件 第2章 基于语音处理工具的语音特征分析_第1页
人工智能交互技术及应用 课件 第2章 基于语音处理工具的语音特征分析_第2页
人工智能交互技术及应用 课件 第2章 基于语音处理工具的语音特征分析_第3页
人工智能交互技术及应用 课件 第2章 基于语音处理工具的语音特征分析_第4页
人工智能交互技术及应用 课件 第2章 基于语音处理工具的语音特征分析_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

语音特征分析技术(理论)人工智能交互技术——智能语音教学内容:场景引入语音特征分析介绍延伸阅读教学目标:了解语音特征分析的概念及工具本节要点2语音特征分析介绍1场景引入3延伸阅读§1场景引入场景场景分析你曾经是否被声母[n]和[l]的发音区分苦恼过?[n]和[l]发音时有什么差异呢?场景引入场景引入[n]:发音时,舌尖抵住上牙床,气流腔通过,同时冲开舌尖的阻碍,声带颤动[l]:发音时,嘴唇稍开,舌尖抵住上牙床,声带颤动,气流从舌尖两边流出发音特征给你一段语音除了包含你所听到的信息,还包含什么呢?当然还有不受欢迎的噪声。。。你是如何对正常的语音和噪声进行区分的呢?那可以通过什么特征来区分嘛?场景引入语音特征知识扩展鲁棒性:在机器学习和人工智能领域,鲁棒性是指模型在面对不同分布的数据、对抗攻击以及数据中的噪声和偏差时,依然能够保持良好的泛化能力和性能的特性。在计算机科学中,鲁棒性用于描述算法、程序或系统在面对各种可能的输入数据、运行环境变化以及软硬件故障等情况时,能够正确、稳定运行并输出合理结果的能力。在实际生活中,体现为系统或事物在面对干扰、变化或异常条件时仍能保持稳定功能的能力。核心逻辑“冗余+适应性”场景引入好的语音特征应该具有的特性:(※重点内容1)区分度:语音部分和噪音部分的区分度应该尽量大,理想情况下语音和噪声的特征分布应无交集好的语音特征能使噪声分布和语音分布没有交集噪声鲁棒性:背景噪声会使语音失真好的语音特征应该具有对噪声的鲁棒性即使存在噪声干扰,也能准确反映语音的真实特性。场景引入接下来进行语音特征分析§2语音特征分析介绍语音特征分析概念语音特征分析工具§2语音特征分析介绍语音特征分析概念语音特征分析工具什么是语音特征分析?语音(Speech)【物理属性】人类发音器官发出的声音,声音的一种【社会属性】语言的物质外壳,含有丰富的信息【语音要素】音高、音强、音长、音色语音特征分析概念声音和语音语言内容情感情绪说话人什么是语音特征分析?(※重点内容2)就是分析和提取需要的语音信息,获取特征表示的参数1、语音特征分析是语音处理的前提和基础2、只有分析出可表示语音本质特征的参数,才有可能利用这些参数进行高效的语音通信、语音合成和语音识别等处理3、语音合成的音质好坏,语音识别率的高低,也都取决于对语音特征分析的准确性和精确性语音特征分析概念语音特征绝大多数语音特征起源于语音识别任务语音特征有很多,可以从以下维度进行区分提取方式:特征是由模型从信号中直接提取还是模型输出结果进行统计分析,如均值、方差等统计量时间范围:分为短时和全局特征。短时特征以帧为基本单位,关注语音信号较短时间内的特性;全局特征涉及的时间范围更长,能反映语音的整体特性。语音特征分析概念参考:/xingzheai/p/14263389.html语音特征语音特征有很多,可以从以下维度进行区分抽象程度:底层特征抽象程度最低,能直接从原始音频信号里提取;高层特征更抽象,代表常见的语音元素,像音高、起始时间等

。根据特征提取过程的差异可以分为从原始信号中直接提取的特征(如过零率)将信号转换为频率得到的特征(如谱质心)需经过特定的模型得到的特征(如旋律)受人耳听觉认知启发改变量化特征尺度得到的特征(如MFCCs)语音特征分析概念参考:/xingzheai/p/14263389.html语音特征分类总结语音特征分析概念参考:/xingzheai/p/14263389.html时域特征起音时间:在声音信号的时域特征中,起音时间是指声音从开始到达到其最大幅度(或接近最大幅度)所需要的时间过零率单位时间内声音信号波形穿越零电平(即信号值为0)的次数。自相关信号与其自身经过一段时间延迟后的相似程度的度量。语音特征分析概念参考:/xingzheai/p/14263389.html语音信号的可视化表征语音特征分析概念参考:/xingzheai/p/14263389.html语音信号的可视化表征语音特征分析概念参考:/xingzheai/p/14263389.html语音信号的可视化表征语音特征分析概念参考:/xingzheai/p/14263389.html时域波形图横坐标表示时间语音信号随着时间的变化情况纵坐标表示频率语音信号在不同时刻的强弱程度语音信号的可视化表征语音特征分析概念参考:/xingzheai/p/14263389.html横坐标表示时间分析出声音在不同时刻的特性纵坐标表示频率语音中不同频率成分的分布情况颜色表示幅度对应的颜色可能越深或者越亮语音特征语音特征分析概念基本特征振幅频率频谱采样率…提取特征基音周期能量MFCC特征Fbank特征共振峰…§2语音特征分析介绍语音特征分析概念语音特征分析工具语音特征分析使用的工具,供参考:PyAudiolibrosaMatplotlibNumpyscipy语音特征分析工具§3延伸阅读语音特征分析难点语音特征分析方法语音特征分析的应用§3延伸阅读语音特征分析难点语音特征分析方法语音特征分析的应用怎样进行语音特征分析呢?先看一看语音特征分析的一些难点语音特征分析难点1语音信号的特殊性问题2噪声干扰问题难点1:语音信号的特殊性问题(※重点内容3)语音信号是一个非稳态、时变的信号在“短时间”内可以认为语音信号是稳态、时不变的信号这个“短时间”一般指10~30ms语音信号的”短时分析技术“语音特征分析难点知识扩展什么是稳态和非稳态?稳态信号是指其统计特性不随时间变化的信号。具体来说,如果一个信号的以下特性不随时间变化,则该信号被认为是稳态的均值(Mean):信号的平均值在整个时间段内保持不变。方差(Variance):信号的方差(即信号值与其均值的偏差的平方的平均值)在整个时间段内保持不变。自相关函数(AutocorrelationFunction):信号与其自身在不同时间点的相似度(自相关)仅依赖于时间差,而不依赖于具体的时间点。非稳态信号是指其统计特性随时间变化的信号。这意味着信号的均值、方差或自相关函数等统计特性会随着时间的变化而变化。语音信号:语音信号的统计特性(如频率成分、能量等)会随着不同的语音段(如不同的音素、不同的语句)而变化,因此是非稳态的。语音特征分析难点知识扩展什么是时变和时不变?时变系统是指系统的特性随时间变化的系统。系统的响应依赖于输入信号出现的时间。时不变系统是指系统的特性不随时间变化的系统。系统的响应不依赖于输入信号出现的时间。语音特征分析难点难点2:噪声干扰问题噪声会破坏原有语音信号的特征任何东西都可能成为噪声噪声的种类/响度是无穷无尽并且时变的永远不知道一个音频里有多少个不同的产生噪声的音源语音特征分析难点§3延伸阅读语音特征分析难点语音特征分析方法语音特征分析的应用语音特征分析方法(※重点内容4)语音特征分析方法

模型分析法共振峰分析法线性预测非模型分析法时域分析法频域分析法§3延伸阅读语音特征分析难点语音特征分析方法语音特征分析的应用语音特征分析应用语音合成利用线性预测分析来进行语音合成,其先决条件是要用线性预测方法分析语音库如果线性预测分析获得的语音参数较好,则用此参数合成的语音音质就较好语音识别利用带通滤波器组法来进行语音识别,其先决条件是要弄清楚语音共振峰的幅值、个数,频率范围及其分布情况

语音特征分析应用谢谢大家赶快拿你的音频去试试手吧基于语音处理工具的语音特征分析

实验人工智能交互技术——智能语音实验内容:语音处理工具的使用方法语音特征分析实战延伸阅读实验目标:了解语音处理工具的使用方法了解波形图绘制本节要点3延伸阅读1语音处理工具的使用方法2语音特征分析实战§1语音处理工具的使用方法

语音处理工具librosa的介绍librosa的安装§1语音处理工具的使用方法

语音处理工具librosa的介绍librosa的安装librosa库:/doc/latest/index.htmlpython语音信号处理的第三方库用于音频、乐音信号的分析

librosa的功能:音频处理特征提取绘制声音图形语音处理工具librosa的介绍

librosa的功能介绍:读取音频y,samplerate=librosa.load(path,sr=22050,mono=True,offset=0.0)语音处理工具librosa的介绍参数类型默认值描述pathstr,int,os.PathLike,sf.SoundFile,audioread.AudioFile,或BinaryIO无音频文件路径或对象。支持多种格式,包括字符串路径、文件描述符、soundfile.SoundFile对象或audioread解码器对象。srOptional[float]22050目标采样率。如果为None,则保留音频文件的原始采样率。monoboolTrue是否将音频转换为单声道。如果为True,多声道音频会被平均为单声道。offsetfloat0.0从音频文件的指定时间(秒)开始读取。返回值y音频的振幅时间序列samplerate采样率

librosa的功能介绍:绘制波形图librosa.display.waveplot(y,sr=22050,axis='time',offset=0.0)语音处理工具librosa的介绍参数类型默认值描述ynp.ndarray-音频时间序列,即音频信号的振幅值。srfloat22050采样率(samplespersecond),表示每秒的采样点数。axisOptional[str]"time"设置坐标轴类型。通常为"time",表示X轴为时间轴。offsetfloat0.0时间偏移量,用于调整波形的时间起点。§1语音处理工具的使用方法

语音处理工具librosa的介绍librosa的安装librosa的安装librosa目前的版本:0.7.2/0.8.0Windows:pipinstalllibrosalibrosa的安装§2语音特征分析实战加载语音特征分析相关库绘制语音的波形图绘制语音的语谱图实验效果评价§2语音特征分析实战加载语音特征分析相关库绘制语音的波形图实验效果评价加载语音特征分析相关库/模块librosa:用于读取语音librosa.display:用于绘制波形图加载语音特征分析相关库/模块§2语音特征分析实战加载语音特征分析相关库绘制语音的波形图绘制语音的语谱图实验效果评价语音特征分析1:绘制语音的波形图绘制语音的波形图sr=None表示使用音频自身的采样率§2语音特征分析实战加载语音特征分析相关库绘制语音的波形图绘制语音的语谱图实验效果评价语音特征分析2:绘制语谱图绘制语谱图

§2语音特征分析实战加载语音特征分析相关库绘制语音的波形图绘制语音的语谱图实验效果评价效果评价语音的波形图表示的是语音的振幅(响度)随时间的变化,振幅为0的表示静音。实验效果评价效果评价语音的频谱图(简

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论