人工智能交互技术及应用 课件全套 第1-7章 认识智能语音 -计算机视觉概述_第1页
人工智能交互技术及应用 课件全套 第1-7章 认识智能语音 -计算机视觉概述_第2页
人工智能交互技术及应用 课件全套 第1-7章 认识智能语音 -计算机视觉概述_第3页
人工智能交互技术及应用 课件全套 第1-7章 认识智能语音 -计算机视觉概述_第4页
人工智能交互技术及应用 课件全套 第1-7章 认识智能语音 -计算机视觉概述_第5页
已阅读5页,还剩615页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

智能交互技术概要人工智能交互技术——智能语音课程基础信息:课程性质:专业必修考核方式:考试总学时数:68课程考核:满分100,由平时成绩(40%),期末考试(60%)成绩构成。平时成绩:出勤、课堂表现、课后作业、课堂实践、课堂测验本节要点本节要点本节要点提到人工智能交互你能想到什么?信息源视觉:眼睛感知光线、颜色、形状等听觉:耳朵感知声音、音调、音量等嗅觉:皮肤感知温度、压力、纹理等味觉:舌头感知食物的味道触觉:通过鼻子感知气味本节要点本课程主要聚焦于语音和视觉两大领域语音交互通过语音识别(ASR)将声音转化为文字,通过语音合成(TTS)将文字转化为声音。视觉交互通过计算视觉技术(如图像分类、目标检测、人脸识别)让机器“看懂”世界。本节要点你能举出一个你熟悉的语音交互产品吗?应用场景:听觉本节要点翻译机降噪耳机语音助手应用场景:视觉本节要点自动驾驶动物品种分类安全帽检测应用场景:综合应用宇树科技的人形机器人视觉与听觉的结合展示了五感交互技术的巨大潜力机器人通过3D激光雷达和深度相机实现精准定位,配合AI算法完成复杂的舞蹈动作,展现了视觉感知与动作控制的完美结合机器人还能“听懂”音乐,根据节奏实时调整动作,体现了语音处理与动作规划的协同本节要点过渡页§1认识智能语音

教学内容:•

声音与信息•声音信号采集与处理•声音信号的表示•智能语音的应用场景•语音语料库及工具

教学目标:•了解声音信号的表示、智能语音的应用场景本节要点1场景引入语音特征分析介绍延伸阅读目录目录23•

交通基本靠走;•

取暖基本靠抖;•

治安基本靠狗;•

通讯基本靠吼。

路见不平一声吼呀,通讯这就开始了呀,语音交互也就开始了啊

科技发展的真快,在曾经的那个年代,我们是这样过日子的

为什么要去认识语音?

你了解你的声音吗?

你知道声音有什么特点吗?

你难道不想了解一下吗?

你了解声音吗?•窗外鸟儿的叫声•马路上车辆的飞驰声•耳机里动听的歌声•讲台上老师的讲课声•课下同学们的聊天声

这些声音我们再熟悉不过了•有物的声音,有人的声音声音

我们再来看看描述声音的•大弦嘈嘈如急雨,小弦切切如私语;嘈嘈切切错杂弹,大珠小珠落玉盘。•风驱急雨洒高城,云压轻雷殷地声。雨过不知龙去处,一池草色万蛙鸣。••梵音天籁、靡靡之音、余音绕梁

…•窃窃私语、字正腔圆、抑扬顿挫

你感觉到声音的差异了吗?•有描述物的声音大小、有描述人的声音大小声音…

人的声音:•就是语音,包括说话声、歌声

物的声音:•有音乐、大自然内的声音、

那么声音是怎么产生的呢?声音声音信号波形图

物理知识告诉我们:

•声音是物体振动产生的,以波的形式传播,即声波(SoundWave)•具有的物理特征:音高、音强、音长、音质

…※声音的三要素(重点内容1)

响度(音量):人耳感受到的声音的强弱(分贝dB)

音调:人耳对声音声调高低的主观感受(Hz),频率越大,音调越高

音色(音品):人耳感受到的声音特色

人很容易通过人声来识别声音声音人很容易通过人声来识别声音妇女、儿童的声带短而薄,声音偏高成年男子的声带长而厚,声音偏低老年人的声带松弛,声音就更低我们知道现在人能和机器人交流,那么没长耳朵的机器人是怎么能听

到声音呢?如果是计算机,如何来识别声音呢?计算机识别的声音从何而来呢?声音信号是怎样被采集的呢?储存形式是什么呢?声音与信息声音与信息声音采集麦克风种类动圈式麦克风电容式麦克风MEMS(微型机电系统)麦克风

我们经常能看到这样的声音波形图•波形图是声音信号在计算机中的表现形式,但不是声音信号的存储方法•计算机只能处理数字信号,声音信号要进行数字化声音与信息•存储为音频(人耳能听到的声音频率20Hz-20kHz)

我们经常能看到这样的声音波形图•波形图是声音信号在计算机中的表现形式,但不是声音信号的存储方法•计算机只能处理数字信号,声音信号要进行数字化声音与信息周期采样率

频率声道

位数

分辨率•存储为音频(人耳能听到的声音频率20Hz-20kHz)文件格式

码率

帧数比特率声音信号采集与处理声音信号数字化的步骤(重点内容2)声音信号采集与处理

声音信号采集与处理声音信号数字化的步骤(重点内容2)音频数据采样图像数据采样声音信号采集与处理声音信号数字化的步骤(重点内容2)量化:量化是将采样得到的连续振幅值转换为离散的数值的过程。量化的过程会引入一定的误差,称为量化误差。量化精度由量化位数决定,位数越高,量化精度越高,误差越小。量化步骤确定量化位数:选择合适的量化位数(如8位、16位、24位等)。量化过程:将连续振幅值划分为若干个区间,每个区间对应一个离散数值。映射振幅值:将每个采样点的振幅值映射到最近的离散数值上。声音信号采集与处理声音信号数字化的步骤(重点内容2)量化后所有点的范围在0~8之间。其中8位的量化可将振幅分为256个等级。16位量化可以划分为65536个等级,是CD音频的标准。声音信号采集与处理声音信号数字化的步骤(重点内容2)编码:编码是将量化后的离散数值转换为二进制数据的过程,以便存储和传输。编码将量化后的数值转换为计算机能够识别的二进制格式。编码格式可以是无损的(如PCM、WAV、FLAC)或有损的(如MP3、AAC)。编码步骤选择编码格式:根据需求选择合适的编码格式。转换为二进制:将量化后的离散数值转换为二进制数据。存储或传输:将二进制数据存储到文件中(如WAV文件)或通过网络传输。声音信号采集与处理声音信号数字化的步骤(重点内容2)将量化后的值进行编码,转为数字信号声音信号采集与处理类别图像数据数字化过程声音信号采集与处理•

采样•

量化•

编码

解码声音信号采集与处理

声音信号数字化的步骤声音信号采集与处理音频的三种属性采样率:在单位时间内对音频信号进行采样的次数,通常以赫兹(Hz)为单位。例如,采样率为44.1kHz表示每秒对音频信号采样44,100次。量化位数:每个采样点的精度,以比特(bit)为单位。它决定了音频信号的动态范围和精度,即音频信号的最小值和最大值之间的差异。通道数:音频信号的声道数量。它决定了音频的立体感和空间感。 常用的采样率(每秒钟取得声音样本的次数)•8000Hz-电话所用采样率,对于人的说话已经足够•11025Hz~24000Hz无线广播所用采样率•44100Hz-音频CD,MPEG-1音频(VCD,SVCD,MP3)所用采样率•48000Hz-miniDV、数字电视、DVD、DAT、电影和专业音频所用的数字声音所用采样率•96000Hz或者192000Hz-DVD-Audio、一些LPCMDVD音轨、BD-ROM(蓝光盘)音轨、和HD-DVD(高清晰度DVD)音轨所用所用采样率声音信号采集与处理采样率高可以捕捉到更丰富的高频细节,使音频听起来更清晰、更自然。

量化位数(采样位数)•

1字节(也就是8bit)只能记录256个数,也就是只能将振幅划分成256个等级•2字节(也就是16bit)可以细到65536个数,这已是CD标准•4字节(也就是32bit)

通道数•

单声道•

立体声(双声道)•

四声环绕(四声道)声音信号采集与处理杜比音效:最高可支持128声道声音信号采集与处理帧:视频帧:一帧就是一幅图像音频帧与视频帧不一样音频帧包含一定数量的采样点,用于表示该时间段内的音频信息。比特率(码率,bps):每秒播放的数据量(bit/s)其中比特率=采样率×量化位数×声道数128bps的4分钟的歌曲的文件大小计算:(128/8)*4*60=3840kB=3.8MB

编码格式•

PCM•

MP3•

wav•

w4a•

…声音信号采集与处理声音信号采集与处理语音信号的研究方向声音信号采集与处理语音识别的概念AutomaticSpeechRecognition(ASR)或SpeechtoText(STT)将语音转换成文本解决机器“听清”问题,不处理“听懂”问题但是要处理声学和(部分)语言上的混淆"Recognizespeech"or“Wreckanicebeach'“帮我拿快递”or“帮我拿块地”解决“共性”问题:每个人的语音都能识别出正确的文本我来自北京智能语音的应用场景

寻找一下身边的智能语音产品

软件类产品微信文字语音转文字讯飞输入法语音输入微软小娜-语音交互苹果siri智能语音的应用场景

软件类产品文章小说一键听手机语音助手高德个性导航

硬件类产品•家居:智能音箱、智能电视、智能机顶盒等等•儿童:儿童机器人、智能故事机、智能学习机等等•随身:蓝牙语音TWS耳机、智能手表、智能翻译机等等•汽车:车载智能导航、手机智能支架、智能车载机器人等等•商务:智能录音笔、商务录音转写器、智能办公本等等智能语音的应用场景智能语音的应用场景智能音箱智能玩具

硬件类产品智能语音鼠标智能翻译机

※语料-数据集(重点内容3)•

TIMIT-经典的英文语音识别库,包含630人,来自美国8个主要口音地区,每人10句,包含了词和

音素级的标注•SwitchBoard-对话式电话语音库,采样率8kHz,包含来自美国各个地区543人的2400条通话录音•

LibriSpeech-免费的英文语音识别数据库,总共1000小时,采样率16kHz,包含朗读式语音和对应

的文本•

Thchs-30-清华大学提供的一个中文示例,并配套完整的发音词典,其数据集有30小时,采样率16kHz•

AISHELL-1-希尔贝壳开源的178小时中文普通话数据,采样率16kHz。包括400位来自中国不同口智能语音的语料及工具音区域的发音人,语料内容涵盖财经、科技、体育、娱乐、时事新闻

开源工具•

HTK(HMMToolkit)是一个专门用于建立和处理隐马尔科夫模型的实验工具包,由剑桥

大学的Steve

Young开创,非常适合GMM-HMM系统的搭建

,2015年也推出了DNN-HMM•

Kaldi是一个开源的语音识别工具箱,是基于C++编写的,可以在Windows和Unix平台上编译,主要由DanielPovey博士在维护。Kaldi适合DNN-HMM系统(包括Chain模型)

的搭建

,支持TDNN/TDNN-F等模型,基于有限状态转换器(FST)进行训练和解码。•

Espnet是端到端语音处理工具集,主要侧重于端到端语音识别和语音合成。Espnet用Python

开发,使用Chainer和Pytorch作为主要的深度学习引擎,并遵循Kaldi风格的数据处理方式,为语音识别和其他语音处理实验提供完整的设置,支持CTC/Attention等模型。智能语音的语料及工具声音信号采集与处理课堂练习1、语音信号数字化的步骤包括以下哪三个阶段?(

)A.采样、量化、编码B.采样、压缩、解码C.量化、编码、解码D.采样、滤波、编码A声音信号采集与处理课堂练习2、以下哪个采样率最适合高质量音乐录制?(

)A.8000HzB.11025HzC.44100HzD.96000HzC声音信号采集与处理课堂练习3、在语音信号数字化过程中,采样率决定了以下哪一项?(

)A.音频信号的动态范围B.音频信号的频率范围C.音频信号的存储大小D.音频信号的声道数量B声音信号采集与处理课堂练习4、在音频信号处理中,以下哪种方法可以有效减少量化误差?(

)A.降低采样率B.增加量化位数C.减少声道数D.使用有损编码格式B赶快去了解一下你的声音吧谢谢大家

软件安装与环境配置人工智能交互技术——智能语音实验内容:Python程序语言回顾Anaconda安装与环境配置PyCharm软件安装实验目标:了解语音处理工具的使用方法PyCharm社区版的安装方法,并学会配置IDE与Anaconda环境本节要点3PyCharm安装与配置1Python语言概述2Anaconda介绍及安装4环境配置与管理§1Python语言概述

Python的特性与优势Python的特性与优势简单易学:语法简洁清晰高级语言可移植性解释型语言丰富的标准库和第三方库Python的特性与优势比较方面PythonC/C++JavaJavaScriptGo性能解释型,执行速度相

对较慢编译型,执行速

度快编译型,执行速度

较快主要在浏览器中运

行,性能依赖于浏

览器引擎编译型,执行速

度快,尤其在高

并发场景下开发效率高,语法简洁,自动

内存管理较低,需要手动

管理内存,语法

复杂较高,但语法相对

冗长较高,但在某些复

杂场景(如后端)

不如Python较高,特别是在

并发场景下的开

发应用领域Web开发、数据分

析、人工智能等多领

域系统软件开发、

嵌入式开发等对

性能要求高的领

域企业级应用开发、

Android开发等前端网页交互开

发,Node.js可用于

后端开发后端开发,特别

是高并发场景下

的服务开发python安装安装地址:/downloads/windows/语音处理工具librosa的介绍python的局限性包管理困难不同的项目版本不一致环境配置繁琐语音处理工具librosa的介绍§2Anaconda—解决Python生态问题的利器

Anaconda下载与安装Anaconda下载官网下载地址:/download清华源镜像:/anaconda/archive/Anaconda下载与安装Anaconda下载安装包:安装设置:Anaconda解决Python生态问题的利器环境管理Anaconda通过Conda工具,可以创建和管理多个隔离的Python环境,满足不同项目对Python版本或库的需求。包管理Conda提供方便的依赖项管理和环境切换功能,自动处理包之间的依赖关系,确保兼容性。集成开发Anaconda自带多种开发工具,集成了大量用于数据处理和分析的工具和库,比如Pandas、NumPy和Matplotlib等,方便数据分析和科学计算工作。多语言支持Anaconda不仅关注Python,还支持R、Ruby、Lua、Scala、Java等其他编程语言,成为多语言的数据科学平台。01020304Anaconda解决Python生态问题的利器常用库Numpy科学计算:矩阵计算等Scipy基于numpy:积分、信号处理等Matplotlib绘图、数据可视化、数据分析等Scikit-learn机器学习库:分类、回归、聚类探索两种命令行工具的特点与差异CMD(CommandPrompt)Windows操作系统自带的命令行解释程序可以运行各种系统命令管理Python环境,需要手动设置环境变量AnacondaPrompt专门针对数据科学和机器学习等任务的命令行工具Scikit-learn机器学习库:分类、回归、聚类无需配置python环境,安装后直接使用Conda安装与Pip安装的区别Conda简介conda是一个开源的软件包管理和环境管理系统可以从多个渠道(channels)获取软件包Pip简介定义:Pip是Python的包管理工具,用于安装和管理Python软件包。特点简单易用,专注于Python包的安装。是Python官方推荐的包管理工具。Anaconda的环境管理conda常用命令操作命令查看环境condaenvlist激活环境condaactivatemyenv查看环境中的库condalist或piplist创建环境condacreate-nmyenvpython=3.10删除环境condaremove-nmyenv--all运行pythonpythonConda安装与Pip安装的区别Conda安装Pip安装安装命令示例condainstallnumpypipinstallnumpy默认源自带的Anaconda仓库Python官方的PyPI仓库Anaconda下载与安装Anaconda创建新环境Anaconda下载与安装Anaconda创建新环境Anaconda下载与安装Anaconda创建新环境Anaconda下载与安装Anaconda创建新环境为什么有的同学下载速度很慢?Anaconda下载与安装网络因素国际网络连接不稳定,可能存在较高的延迟和丢包率。源服务器压力官方源服务器可能面临全球大量的访问请求,导致响应速度变慢。Anaconda下载与安装国内镜像简介国内镜像是由国内的一些机构或公司提供对国外资源的镜像站点。将国外的资源同步到国内服务器上,从而减少国际网络传输带来的问题。常见国内镜像阿里云镜像中科大镜像

清华大学开源软件镜像站§2PyCharm安装与配置

安装PyCharm从JetBrains官网下载PyCharm安装包,根据操作系统选择对应版本。运行安装程序并遵循指引完成安装。下载地址:/en-us/pycharm/download语音处理工具librosa的介绍python代码语音处理工具librosa的介绍谢谢大家赶快去试试手吧语音特征分析技术(理论)人工智能交互技术——智能语音教学内容:场景引入语音特征分析介绍延伸阅读教学目标:了解语音特征分析的概念及工具本节要点2语音特征分析介绍1场景引入3延伸阅读§1场景引入场景场景分析你曾经是否被声母[n]和[l]的发音区分苦恼过?[n]和[l]发音时有什么差异呢?场景引入场景引入[n]:发音时,舌尖抵住上牙床,气流腔通过,同时冲开舌尖的阻碍,声带颤动[l]:发音时,嘴唇稍开,舌尖抵住上牙床,声带颤动,气流从舌尖两边流出发音特征给你一段语音除了包含你所听到的信息,还包含什么呢?当然还有不受欢迎的噪声。。。你是如何对正常的语音和噪声进行区分的呢?那可以通过什么特征来区分嘛?场景引入语音特征知识扩展鲁棒性:在机器学习和人工智能领域,鲁棒性是指模型在面对不同分布的数据、对抗攻击以及数据中的噪声和偏差时,依然能够保持良好的泛化能力和性能的特性。在计算机科学中,鲁棒性用于描述算法、程序或系统在面对各种可能的输入数据、运行环境变化以及软硬件故障等情况时,能够正确、稳定运行并输出合理结果的能力。在实际生活中,体现为系统或事物在面对干扰、变化或异常条件时仍能保持稳定功能的能力。核心逻辑“冗余+适应性”场景引入好的语音特征应该具有的特性:(※重点内容1)区分度:语音部分和噪音部分的区分度应该尽量大,理想情况下语音和噪声的特征分布应无交集好的语音特征能使噪声分布和语音分布没有交集噪声鲁棒性:背景噪声会使语音失真好的语音特征应该具有对噪声的鲁棒性即使存在噪声干扰,也能准确反映语音的真实特性。场景引入接下来进行语音特征分析§2语音特征分析介绍语音特征分析概念语音特征分析工具§2语音特征分析介绍语音特征分析概念语音特征分析工具什么是语音特征分析?语音(Speech)【物理属性】人类发音器官发出的声音,声音的一种【社会属性】语言的物质外壳,含有丰富的信息【语音要素】音高、音强、音长、音色语音特征分析概念声音和语音语言内容情感情绪说话人什么是语音特征分析?(※重点内容2)就是分析和提取需要的语音信息,获取特征表示的参数1、语音特征分析是语音处理的前提和基础2、只有分析出可表示语音本质特征的参数,才有可能利用这些参数进行高效的语音通信、语音合成和语音识别等处理3、语音合成的音质好坏,语音识别率的高低,也都取决于对语音特征分析的准确性和精确性语音特征分析概念语音特征绝大多数语音特征起源于语音识别任务语音特征有很多,可以从以下维度进行区分提取方式:特征是由模型从信号中直接提取还是模型输出结果进行统计分析,如均值、方差等统计量时间范围:分为短时和全局特征。短时特征以帧为基本单位,关注语音信号较短时间内的特性;全局特征涉及的时间范围更长,能反映语音的整体特性。语音特征分析概念参考:/xingzheai/p/14263389.html语音特征语音特征有很多,可以从以下维度进行区分抽象程度:底层特征抽象程度最低,能直接从原始音频信号里提取;高层特征更抽象,代表常见的语音元素,像音高、起始时间等

。根据特征提取过程的差异可以分为从原始信号中直接提取的特征(如过零率)将信号转换为频率得到的特征(如谱质心)需经过特定的模型得到的特征(如旋律)受人耳听觉认知启发改变量化特征尺度得到的特征(如MFCCs)语音特征分析概念参考:/xingzheai/p/14263389.html语音特征分类总结语音特征分析概念参考:/xingzheai/p/14263389.html时域特征起音时间:在声音信号的时域特征中,起音时间是指声音从开始到达到其最大幅度(或接近最大幅度)所需要的时间过零率单位时间内声音信号波形穿越零电平(即信号值为0)的次数。自相关信号与其自身经过一段时间延迟后的相似程度的度量。语音特征分析概念参考:/xingzheai/p/14263389.html语音信号的可视化表征语音特征分析概念参考:/xingzheai/p/14263389.html语音信号的可视化表征语音特征分析概念参考:/xingzheai/p/14263389.html语音信号的可视化表征语音特征分析概念参考:/xingzheai/p/14263389.html时域波形图横坐标表示时间语音信号随着时间的变化情况纵坐标表示频率语音信号在不同时刻的强弱程度语音信号的可视化表征语音特征分析概念参考:/xingzheai/p/14263389.html横坐标表示时间分析出声音在不同时刻的特性纵坐标表示频率语音中不同频率成分的分布情况颜色表示幅度对应的颜色可能越深或者越亮语音特征语音特征分析概念基本特征振幅频率频谱采样率…提取特征基音周期能量MFCC特征Fbank特征共振峰…§2语音特征分析介绍语音特征分析概念语音特征分析工具语音特征分析使用的工具,供参考:PyAudiolibrosaMatplotlibNumpyscipy语音特征分析工具§3延伸阅读语音特征分析难点语音特征分析方法语音特征分析的应用§3延伸阅读语音特征分析难点语音特征分析方法语音特征分析的应用怎样进行语音特征分析呢?先看一看语音特征分析的一些难点语音特征分析难点1语音信号的特殊性问题2噪声干扰问题难点1:语音信号的特殊性问题(※重点内容3)语音信号是一个非稳态、时变的信号在“短时间”内可以认为语音信号是稳态、时不变的信号这个“短时间”一般指10~30ms语音信号的”短时分析技术“语音特征分析难点知识扩展什么是稳态和非稳态?稳态信号是指其统计特性不随时间变化的信号。具体来说,如果一个信号的以下特性不随时间变化,则该信号被认为是稳态的均值(Mean):信号的平均值在整个时间段内保持不变。方差(Variance):信号的方差(即信号值与其均值的偏差的平方的平均值)在整个时间段内保持不变。自相关函数(AutocorrelationFunction):信号与其自身在不同时间点的相似度(自相关)仅依赖于时间差,而不依赖于具体的时间点。非稳态信号是指其统计特性随时间变化的信号。这意味着信号的均值、方差或自相关函数等统计特性会随着时间的变化而变化。语音信号:语音信号的统计特性(如频率成分、能量等)会随着不同的语音段(如不同的音素、不同的语句)而变化,因此是非稳态的。语音特征分析难点知识扩展什么是时变和时不变?时变系统是指系统的特性随时间变化的系统。系统的响应依赖于输入信号出现的时间。时不变系统是指系统的特性不随时间变化的系统。系统的响应不依赖于输入信号出现的时间。语音特征分析难点难点2:噪声干扰问题噪声会破坏原有语音信号的特征任何东西都可能成为噪声噪声的种类/响度是无穷无尽并且时变的永远不知道一个音频里有多少个不同的产生噪声的音源语音特征分析难点§3延伸阅读语音特征分析难点语音特征分析方法语音特征分析的应用语音特征分析方法(※重点内容4)语音特征分析方法

模型分析法共振峰分析法线性预测非模型分析法时域分析法频域分析法§3延伸阅读语音特征分析难点语音特征分析方法语音特征分析的应用语音特征分析应用语音合成利用线性预测分析来进行语音合成,其先决条件是要用线性预测方法分析语音库如果线性预测分析获得的语音参数较好,则用此参数合成的语音音质就较好语音识别利用带通滤波器组法来进行语音识别,其先决条件是要弄清楚语音共振峰的幅值、个数,频率范围及其分布情况

语音特征分析应用谢谢大家赶快拿你的音频去试试手吧基于语音处理工具的语音特征分析

实验人工智能交互技术——智能语音实验内容:语音处理工具的使用方法语音特征分析实战延伸阅读实验目标:了解语音处理工具的使用方法了解波形图绘制本节要点3延伸阅读1语音处理工具的使用方法2语音特征分析实战§1语音处理工具的使用方法

语音处理工具librosa的介绍librosa的安装§1语音处理工具的使用方法

语音处理工具librosa的介绍librosa的安装librosa库:/doc/latest/index.htmlpython语音信号处理的第三方库用于音频、乐音信号的分析

librosa的功能:音频处理特征提取绘制声音图形语音处理工具librosa的介绍

librosa的功能介绍:读取音频y,samplerate=librosa.load(path,sr=22050,mono=True,offset=0.0)语音处理工具librosa的介绍参数类型默认值描述pathstr,int,os.PathLike,sf.SoundFile,audioread.AudioFile,或BinaryIO无音频文件路径或对象。支持多种格式,包括字符串路径、文件描述符、soundfile.SoundFile对象或audioread解码器对象。srOptional[float]22050目标采样率。如果为None,则保留音频文件的原始采样率。monoboolTrue是否将音频转换为单声道。如果为True,多声道音频会被平均为单声道。offsetfloat0.0从音频文件的指定时间(秒)开始读取。返回值y音频的振幅时间序列samplerate采样率

librosa的功能介绍:绘制波形图librosa.display.waveplot(y,sr=22050,axis='time',offset=0.0)语音处理工具librosa的介绍参数类型默认值描述ynp.ndarray-音频时间序列,即音频信号的振幅值。srfloat22050采样率(samplespersecond),表示每秒的采样点数。axisOptional[str]"time"设置坐标轴类型。通常为"time",表示X轴为时间轴。offsetfloat0.0时间偏移量,用于调整波形的时间起点。§1语音处理工具的使用方法

语音处理工具librosa的介绍librosa的安装librosa的安装librosa目前的版本:0.7.2/0.8.0Windows:pipinstalllibrosalibrosa的安装§2语音特征分析实战加载语音特征分析相关库绘制语音的波形图绘制语音的语谱图实验效果评价§2语音特征分析实战加载语音特征分析相关库绘制语音的波形图实验效果评价加载语音特征分析相关库/模块librosa:用于读取语音librosa.display:用于绘制波形图加载语音特征分析相关库/模块§2语音特征分析实战加载语音特征分析相关库绘制语音的波形图绘制语音的语谱图实验效果评价语音特征分析1:绘制语音的波形图绘制语音的波形图sr=None表示使用音频自身的采样率§2语音特征分析实战加载语音特征分析相关库绘制语音的波形图绘制语音的语谱图实验效果评价语音特征分析2:绘制语谱图绘制语谱图

§2语音特征分析实战加载语音特征分析相关库绘制语音的波形图绘制语音的语谱图实验效果评价效果评价语音的波形图表示的是语音的振幅(响度)随时间的变化,振幅为0的表示静音。实验效果评价效果评价语音的频谱图(简称语谱图)语音的频率随时间变化坐标点值表示语音数据能量采用二维平面表达三维信息能量值的大小是通过颜色来表示的颜色深表示该点的语音能量越强实验效果评价实验:基于语音处理工具的语音特征分析视频要点语音处理工具librosa的使用方法语音特征分析实战§3延伸阅读librosa上手教程librosa上手教程/xingshansi/p/6816308.html/LXP-Never/p/11561355.html/doc/latest/index.html延伸阅读谢谢大家赶快去试试手吧基于语音处理工具的语音降噪

理论人工智能交互技术——智能语音教学内容:场景引入语音降噪介绍延伸阅读教学目标:了解语音降噪的概念及工具本节要点2语音降噪介绍1场景引入3延伸阅读§1场景引入场景场景分析日常生活中的噪声干扰是不是周末大清早,还在睡懒觉,就被楼上的装修吵醒?是不是晚上听见小孩的哭闹、空调的震动、楼下有人说话搞得睡不着?是否早就忍受不了周围建筑工地上的噪音?场景引入噪声的干扰轻则影响心情重则影响听力场景引入当你站在地铁上、坐在车上,在空调教室中发呆时,为了听清音乐,你会做什么?第一反应:调大耳机音量导致听力损伤会漏音好的办法:降噪耳机场景引入生活中,由于各种原因会用手机录制一些会议、听课、培训等音频往往由于环境的影响,有一些噪音,影响录音的质量该怎么办?降噪工具?采用的技术场景引入语音降噪技术!§2语音降噪介绍语音降噪概念语音降噪方法语音降噪工具§2语音降噪介绍语音降噪概念语音降噪方法语音降噪工具※什么是语音降噪?(重点内容1)AudioDenoise现实生活中,语音信号一般都带有噪声干扰简单的说,就是利用技术将带有噪声的语音进行噪声抑制、降低,提取出有用的语音信号语音降噪概念※什么是语音降噪?(重点内容1)语音降噪的信号模型语音降噪概念

语音噪声种类根据噪声对语音频谱的干扰方式不同,可以把噪声分为加性噪声和乘性噪声加性噪声:当噪声对语音的干扰表现为两者信号在时域进行相加时,该噪声被称为加性噪声乘性噪声:噪声和语音在频域是相乘的关系,在时域则是卷积关系,因此也称为卷积噪声语音降噪概念语音信号中加性噪声的类型语音降噪概念噪声类型例子描述特点噪声类型平稳噪声冰箱电机运行噪声统计特性(如均值、方差等)在长时间内基本保持不变非平稳噪声雷声强度、频率成分等统计特性随时间发生剧烈变化,如雷声忽大忽小、忽高忽低汽车启动和加速噪声发动机声音从轻微的怠速声逐渐变为强烈的轰鸣声,频率和振幅不断变化白噪声电视无信号时的雪花屏噪声由频率范围很宽的随机信号组成,各个频率分量的功率谱密度相同有色噪声-粉红噪声自然界中的瀑布声、雨声功率谱密度与频率成反比关系,能量在低频部分较多,随着频率升高能量逐渐减少

语音降噪概念降噪前降噪后

语音降噪概念已知某信号源的发送功率为10mW,信号传输到接收端时的噪声功率为0.1mW。请计算信噪比。

语音降噪方法

语音降噪方法

§2语音降噪介绍语音降噪概念语音降噪方法语音降噪工具语音降噪方法语音降噪方法

无监督语音降噪算法谱减法基于统计模型的方法有监督语音降噪算法基于模型的方法深度神经网络类算法语音降噪简单方法LMS自适应滤波器谱减法维纳滤波法语音降噪方法

语音降噪方法

参考:/godloveyuxu/article/details/69225790※谱减法效果展示(时域)

语音降噪方法

参考:/godloveyuxu/article/details/69225790

※谱减法效果展示(频域)

语音降噪方法

参考:/godloveyuxu/article/details/69225790

谱减法优点算法简单、运算量小,便于实现快速处理往往能够获得较高的输出信噪比,被广泛采用缺点处理后会产生具有一定节奏性起伏、听上去类似音乐的“音乐噪声”语音降噪方法

参考:/godloveyuxu/article/details/69225790“音乐噪声”转换到频域后,峰值听起来就像帧与帧之间频率随机变化的多频音这种情况在清音段尤其明显半波整流引起的“噪声”通常导致音乐噪声的原因主要有:对谱减算法中的负数部分进行了非线性处理对噪声谱的估计不准抑制函数(增益函数)具有较大的可变性语音降噪方法

参考:/godloveyuxu/article/details/69225790改进的谱减法非线性谱减多带谱减法MMSE谱减算法扩展谱减法自适应增益平均的谱减选择性谱减法基于感知特性的谱减…语音降噪方法

/leixiaohua1020/article/details/47276353※语音降噪方法(重点内容3)谱减法处理流程语音降噪方法

带噪声的语音FFT噪声估计…谱减幅值变换IFFT…降噪后的语音谱减法语音降噪简单方法LMS自适应滤波器谱减法维纳滤波法语音降噪方法

语音降噪方法

参考:/godloveyuxu/article/details/69225790§2语音降噪介绍语音降噪概念语音降噪方法语音降噪工具语音降噪使用的工具,供参考:PyAudiolibrosa…语音降噪工具理论:基于语音处理工具的语音降噪

视频要点场景引入语音降噪介绍§3延伸阅读语音降噪难点语音降噪的应用§3延伸阅读语音降噪难点语音降噪的应用怎样进行语音降噪呢?先看一看语音降噪的一些难点语音降噪难点1语音的特殊性问题2噪声的不确定性问题3非加性噪声处理问题难点1:语音的特殊性问题语音不像图像有固定大小并且高度结构化可以随意变长短可以随意变强度/响度可以一会儿说话一会儿不说话任何东西都可能成为噪声语音降噪难点难点2:噪声的不确定性问题任何东西都可能成为噪声噪声的种类/响度是无穷无尽并且时变的永远不知道一个音频里有多少个不同的产生噪声的音源语音降噪难点难点3:非加性噪声处理问题非加性噪声延迟类的噪声例:房间混响、回声延迟类噪声,目前没有真正特别有效的方法语音降噪难点§3延伸阅读语音降噪难点语音降噪的应用语音降噪应用设备/软件降噪耳机降噪麦克风带降噪功能的拾音APP语音降噪应用谢谢大家赶快录制音频去试试手吧基于语音处理工具的语音降噪

实验智能语音技术与应用实验内容:语音处理工具的使用方法语音降噪实战延伸阅读实验目标:了解语音处理工具使用方法了解语音降噪的流程本节要点3延伸阅读1语音处理工具的使用方法2语音降噪实战§1语音处理工具的使用方法

语音处理工具librosa的介绍librosa的安装§1语音处理工具的使用方法

语音处理工具librosa的介绍librosa的安装librosa库:/doc/latest/index.htmlpython语音信号处理的第三方库用于音频、乐音信号的分析

librosa的功能:音频处理特征提取绘制声音图形语音处理工具librosa的介绍§1语音处理工具的使用方法

语音处理工具librosa的介绍librosa的安装librosa的安装librosa目前的版本:0.7.2/0.8.0Windows:pipinstalllibrosalibrosa的安装§2语音降噪实战加载语音降噪处理相关模块实现语音降噪实验效果及评价§2语音降噪实战加载语音降噪处理相关模块实现语音降噪实验效果及评价加载语音降噪处理相关模块降噪模块加载语音降噪处理相关模块降噪模块§2语音降噪实战加载语音降噪处理相关模块实现语音降噪实验效果及评价语音降噪流程实现语音降噪给出音频存放路径调用语音降噪模块输出降噪后音频123语音降噪实现,代码如下实现语音降噪

§2语音降噪实战加载语音降噪处理相关模块实现语音降噪实验效果及评价效果演示实验效果及评价

降噪前降噪后效果评价采用的语音降噪方法(谱减法)能够将估计的噪声的功率谱并将其从嘈杂语音中减去,但容易产生“无中生有”的音乐噪声采用的语音降噪方法(谱减法)对平稳噪声的抑制效果比较显著,但是对于非平稳噪声,其往往不能得到很好的降噪效果实验效果评价

实验:基于语音处理工具的语音降噪

视频要点语音处理工具的使用方法语音降噪实战§3延伸阅读语音降噪模块解读工具教程§3延伸阅读语音降噪模块解读工具教程定义类进行语音噪声去除(使用谱减法)定义特殊方法__init__,用于初始化类的参数定义方法get_noise_data,用于获取噪声数据定义方法noise_reduce,用于语音的噪声去除语音降噪模块解读定义类进行语音噪声去除(使用谱减法)语音降噪模块解读(接上)定义类进行语音噪声去除(使用谱减法)语音降噪模块解读获取降噪前后的时域图与语谱图语音降噪模块解读§3延伸阅读语音降噪模块解读工具教程librosa上手教程/xingshansi/p/6816308.html/LXP-Never/p/11561355.html/doc/latest/index.html延伸阅读谢谢大家赶快去试试手吧基于语音处理工具的MFCC特征提取

理论智能语音技术与应用教学内容:场景引入MFCC特征提取介绍延伸阅读教学目标:了解MFCC特征的概念了解MFCC特征提取的流程本节要点2MFCC特征提取介绍1场景引入3延伸阅读§1场景引入场景场景分析腾格尔一嗓子“我滴家~我滴天堂~~”这样“未见其人,先闻其声”指的是谁?神奇的是在听到某个声音的时候大脑已经勾勒出了这个人的大概画面真所谓是“听音识人”!如何能够识他人的语音“特征”呢?人类听觉感知场景引入如果换成语音产品——“小爱同学”——“蛋蛋你好”——“天猫精灵”能够通过唤醒词实现准确的唤醒这些产品是如何识别出人的语音呢?语音中具有辨识性的、符合人类听觉感知的“特征”场景引入场景引入什么是具有辨识性的、符合人类听觉感知的“特征”?区别于背景噪声、情绪等无用的特征能准确描述语音短时频谱的包络(即发的是哪个音)MFCC特征§2MFCC特征提取介绍MFCC特征概念MFCC特征提取流程MFCC特征提取工具§2MFCC特征提取介绍MFCC特征概念MFCC特征提取流程MFCC特征提取工具※MFCC(MelFrequencyCepstrumCoefficient)特征(重点内容1)梅尔频率倒谱系数由Mermelstein和Davis在1980年提出的基于人类听觉感知实验发现的(人的听觉对频率是有选择性的)一种在语音识别和说话人识别中广泛使用的声学特征在语音识别领域,MFCC在人工特征方面可谓是鹤立鸡群,一枝独秀,从未被超越啊(不包括深度学习的特征学习)

MFCC特征概念

人的听觉系统一个特殊的非线性系统,对不同频率的声波有不同的听觉敏感度从200Hz到5000Hz的语音信号对语音的清晰度影响大在语音特征的提取上它不仅能提取出语义信息,

而且能提取出说话人的个人特征如果在语音识别系统中能模拟人类听觉感知处理特点,就有可能提高语音的识别率MFCC特征概念MFCC特征——人类听觉感知实验观测发现人耳就像一个滤波器组一样,它只关注某些特定的频率分量也就是,人的听觉对频率是有选择性的人耳只让某些频率的信号通过,而直接无视它不想感知的某些频率信号这些滤波器在频率坐标轴上却不是统一分布的在低频区域有很多的滤波器,分布比较密集在高频区域,滤波器的数目就变得比较少,分布很稀疏这么看‘人耳’还挺奇特MFCC特征概念/miscellaneous/machine-learning/guide-mel-frequency-cepstral-coefficients-mfccs/进化过程中自然选择的结果为什么要进行MFCC特征提取?语音识别的第一步就是特征提取提取语音信号中有助于理解语言内容的部分丢弃掉干扰信息(比如背景噪音和情绪等等)作为语音的输入特征,MFCC特征不依赖于信号的性质,对输入信号不做任何的假设和限制当信噪比降低时仍然具有较好的识别性能描述语音的根本特征,对数据进行压缩MFCC特征概念MFCC特征优点排除基频、符合人类听觉、维度低(只有13维)缺点视野小(一个MFCC向量只来自1帧信号),受噪声、回声、滤波影响严重改进加入MFCC的一阶差分、二阶差分(弥补视野小的缺点)各种归一化(弥补受噪声等影响的缺点)

MFCC特征概念§2MFCC特征提取介绍MFCC特征概念MFCC特征提取流程MFCC特征提取工具※MFCC特征提取流程(重点内容2)MFCC特征提取流程为什么要这么做呢?首先,语音做FFT之后就把语音转换到频域,每一帧代表语音能量,越亮代表能量越大然后,经过MEL滤波器组,是把语音从频域变换到MEL域,MEL刻度是仿照人耳进行设计的,更符合人耳的听觉特性再然后做对数运算,做DCT,DCT相当于又做了一遍FFT,目的是提取每一帧的包络,因为语音的信息主要在包络上MFCC特征提取※MFCC特征提取流程介绍(重点内容3)预加重在语音信号进行分析前对语音的高频部分进行加重,增加语音信号的高频分辨率依据:语音信号受到发音系统影响出现高频信号衰减问题消除发音过程中声带和口唇辐射的影响,补偿语音信号高频部分MFCC特征提取流程MFCC特征提取流程介绍分帧依据:语音信号整体是不平稳的,具有时变特性但在一个短时间范围内(一般认为在10~30ms),其特性基本保持不变即相对稳定,即语音信号具有短时平稳性按照某一个固定的时间长度分割,分割后的每一个样本,称之为一帧信号同时帧与帧之间有交叠冗余,避免一帧的信号在两个端头被削弱了影响识别精度比如帧长为25毫秒,两帧之间交叠15毫秒,也就是说每隔25-15=10毫秒取一帧,帧移为10毫秒MFCC特征提取流程MFCC特征提取流程介绍分帧一帧信号,通常为10~30ms微观上足够长:至少包含2~3个周期宏观上足够短:在一个音素之内,比如aoe这种音素,一个音素的时间往往比20-50ms要长一点

MFCC特征提取流程*引用王赟的《语音识别技术的前世今生》MFCC特征提取流程介绍加窗分帧之后,需要对每一帧进行加窗,用于平滑信号,以增加帧左端和右端的连续性,减少频谱泄漏为了抵消后面进行的快速傅里叶变换(FFT)所假设的数据是无限的比较常用的窗口函数汉明(Hamming)窗,对应的时域波形类似图矩形窗汉宁窗(Hanning)MFCC特征提取流程MFCC特征提取流程介绍快速傅里叶变换(FFT):将时域信号转化到频域进行后续的频率分析

MFCC特征提取流程*引用王赟的《语音识别技术的前世今生》FFT分析一下这一帧信号里有哪些频率分量MFCC特征提取流程介绍快速傅里叶变换(FFT)频谱具有精细结构和包络精细结构:一个一个的小峰;精细结构中每个峰之间的距离就代表音高,用处较小包络:就是频谱的大致形状,图上红线划出来的东西就是频谱的包络MFCC特征提取流程*引用王赟的《语音识别技术的前世今生》MFCC特征提取流程介绍Mel滤波(三角滤波器组)因为频域信号有很多冗余,滤波器组可以对频域的幅值进行精简,每一个频段用一个值来表示计算每一个三角形里面的能量计算出来的结果就是下面的红色的线条(Filterbankoutput)作用:提取包络,去掉精细结构序列长度一般为40近似频谱包络MFCC特征提取流程*引用王赟的《语音识别技术的前世今生》三角滤波滤波器组输出FilterbankoutputMFCC特征提取流程介绍取对数log:由于人耳对声音的感知并不是线性的,用log这种非线性关系更好描述离散余弦变换(DCT)经过DCT变换以后,能量会集中到低频部分由于滤波器之间是有重叠的,所以获得的能量值之间具有相关性,DCT可以对数据进行降维压缩和抽象,获得最后的特征参数MFCC序列长度一般为13MFCC特征提取流程*引用王赟的《语音识别技术的前世今生》取对数DCTMFCC进一步裁剪MFCC是在Mel标度频率域提取出来的倒谱参数,Mel标度描述了人耳频率的非线性特性,它与频率的关系可用下式近似表示:MFCC特征提取流程效果图MFCC特征提取流程*引用王赟的《语音识别技术的前世今生》MFCC特征的一阶差分、二阶差分MFCC只反映了语音参数的静态特性MFCC特征的一阶差分、二阶差分反映语音的动态特性实验证明把动、静态特征结合起来才能有效提高系统的识别性能MFCC的全部组成其实是由:N维MFCC参数(N/3MFCC系数+N/3一阶差分参数+N/3二阶差分参数)MFCC特征提取流程语音信号提取,其他的声学特征有MFCC特征提取流程参考:厦门大学洪青阳《语音识别》§2MFCC特征提取介绍MFCC特征概念MFCC特征提取流程MFCC特征提取工具MFCC特征提取使用的工具,供参考:pyAudioAnalysislibrosapython_speech_features…MFCC特征提取工具/xingzheai/p/14263389.html理论:基于语音处理工具的MFCC特征提取

视频要点场景引入MFCC特征提取介绍§3延伸阅读MFCC特征提取难点MFCC特征提取的应用§3延伸阅读MFCC特征提取难点MFCC特征提取的应用MFCC特征提取是语音识别的第一步,其提取语音信号特征直接影响语音识别的效果,MFCC特征提取难点有MFCC特征提取难点1语音噪声影响问题2特征提取的优劣评价问题语音噪声影响问题背景噪声存在的情况下MFCC特征并不完全准确MFCC特征可能不适用于泛化MFCC特征提取难点特征提取的优劣评价问题没有办法通过简单对比特征去判断特征的优劣基本上是“事后诸葛亮”,通过观察训练的结果,根据结果判断特征的好坏MFCC特征提取难点§3延伸阅读MFCC特征提取难点MFCC特征提取的应用MFCC特征提取应用说话人识别也称为声纹识别,利用语音中所含有的反映特定说话人生理特征的语音特征参数,来自动识别说话人身份使用着眼于人耳的听觉特性的MFCC特征,可以获得较高的识别率语音识别在使用深度学习进行语音识别时,也使用MFCC特征深度学习自动提取特征,但维度一般偏高,而MFCC特征维度会低一点深度学习可以自动提取特征,但未必能提取到最好的特征MFCC特征提取应用谢谢大家赶快去试试手吧基于双门限法的语音端点检测

理论人工智能交互技术—智能语音已讲过的内容温故知新语音特征分析技术语音降噪与增强技术MFCC特征提取技术语音端点检测技术智能语音上游技术时域:波形图频域:语谱图经典谱减法经典13维MFCC教学内容:场景引入端点检测介绍延伸阅读教学目标:了解端点检测的概念了解双门限法的简单原理了解基于双门限法的端点检测的流程本节要点2端点检测介绍1场景引入3延伸阅读§1场景引入场景场景分析假设有这样的对话场景:你和一个人对话,你通常会在等他把话说完之后,你才说话。当你以为他已经说完了,你刚要发声,结果发现他又接茬继续说了,你只好把自己的话再硬生生憋回去……场景引入这个场景的关键就是“说完了”如何来判定如果换成计算机,如何来判断“说完了”?一段时间的音频中,包含有效语音和无效语音通过反复监测和观察发现:可以根据“有效”和“无效”的变化,来界定有效音频的“开始”(从“无效”变“有效”)和“结束”(从“有效”变“无效”,并维持“无效”一段时间),从而实现把“目标音频切割出来”的效果判断“说完了”的关键在于:“一段时间内”是“无效语音”的场景引入语音端点检测技术§2端点检测介绍端点检测概念端点检测方法端点检测流程§2端点检测介绍端点检测概念端点检测方法端点检测流程端点检测端点是什么?静音与有效语音变化的临界点检测什么?依据是什么?端点检测※端点检测(重点内容1)也叫语音活动检测(VoiceActivityDetection,VAD)目的是对语音和非语音(噪声、静音等)段进行区分端点检测就是从连续的语音流中检测出有效的语音段,检测出有效语音的起始点即前端点,检测出有效语音的结束点即后端点通俗理解,就是检测人声的起始点与终止点端点检测概念端点检测概念※什么是语音呢?(重点内容2)元音:气流呼出口腔时不受到阻碍的音辅音:气流受到口腔或者鼻腔阻碍的音元音都是浊音,辅音分为清辅音和浊辅音语音信号有效语音浊音声带振动的音清音声带不振动的音非语音静音噪声有用的/m/,/n/,/l//p/,/t/,/k/如何检测出语音呢?先来看看语音的特征有哪些端点检测概念语音特征时域特征能量过零率频域特征基频频谱质心谱差谱密度…用于VAD的特征能量频域倒谱谱差谐波…端点检测概念§2端点检测介绍端点检测概念端点检测方法端点检测流程端点检测VAD方法有很多,其中基于阈值的VAD根据语音信号的不同特征如时域(短时能量、短期过零率等)或频域特征,提取每一段语音信号的特征,然后把这些特征值与合理设定的阈值进行比较,从而达到语音和非语音的目的属于传统的、经典的VAD方法,原理简单,运算方便在信噪比较小的情况下效果不是很好端点检测方法端点检测方法基于阈值的VAD伪代码输入:音频信号y,采样率fs输出:语音段索引列表speech_segments1.初始化参数:-帧长frame_length-帧移hop_length-能量阈值th_energy-过零率阈值th_zcr2.提取特征:-初始化特征列表frame_energies和frame_zcrs-对于音频信号中的每一帧:a.提取当前帧的数据frame_datab.计算当前帧的短时能量energy=sum(frame_data^2)c.计算当前帧的短时过零率zcr=sum(abs(diff(sign(frame_data))))/2d.将energy和zcr分别添加到frame_energies和frame_zcrs3.检测语音段:-初始化语音段索引列表speech_segments-对于每一帧:a.如果frame_energies[i]>th_energy且frame_zcrs[i]<th_zcr:-将当前帧索引i添加到speech_segments4.返回语音段索引列表speech_segments端点检测VAD方法有很多,其中基于分类的VAD可以将语音检测视作有效语音/非语音片段的两分类问题,选取多个短时语音特征(如短时对数能量、短时过零率),利用有监督机器学习算法训练分类器,达到检测有效语音的目的需要估计有效语音片段和非语音片段的模型参数复杂度高,运算量大端点检测方法端点检测方法基于分类的VAD方法的伪代码输入:音频信号y,采样率fs,训练好的分类模型model输出:语音段索引列表speech_segments1.初始化参数:-帧长frame_length-帧移hop_length2.提取特征:-初始化特征矩阵features-对于音频信号中的每一帧:a.提取当前帧的数据frame_datab.计算当前帧的特征(如短时能量、短时过零率、MFCC等)c.将特征向量添加到features3.使用分类模型进行预测:-初始化语音段索引列表speech_segments-对于每一帧的特征:a.使用分类模型model对特征进行预测,得到语音概率scoreb.如果score>0.5(假设阈值为0.5):-将当前帧索引添加到speech_segments4.返回语音段索引列表speech_segments端点检测VAD方法有很多,其中模型VAD可以利用一个完整的声学模型,在解码的基础,通过全局信息,判别有效语音和非语音模型VAD一般比较难以在本地部署应用端点检测方法其他方法基于信噪比(snr)的VAD基于能量的VAD基于DNN的VAD基于Decoder的VAD混合DNN和Decoder的VAD端点检测方法参考:/ffmpeg4976/article/details/52416317※采用基于阈值方法——双门限法(重点内容3)利用的特征短时能量ShortTimeEnergy(STE)短时过零率ZeroCrossCounter(ZCC)为什么能用这两个特征来进行端点检测呢?在信噪比(SNR)不是很低(满足语音能量>背景噪声能量的假设)的情况下,有效语音段的STE相对较大,而ZCC相对较小非语音段(无声等)的STE相对较小,ZCC相对较大有效语音段能量绝大部分包含在低频带内,而非语音段通常能量较小且含有较高频段的信息端点检测方法采用基于阈值方法——双门限法浊音与清音浊音能量高清音(在浊音后面)能量低清音与静音清音(准确地说是清辅音)过零率高静音的过零率低端点检测方法语音信号有效语音浊音清音非语音静音噪声采用基于阈值方法——双门限法具体如下先利用短时能量,将浊音与清音部分进行区分再利用短时过零率,将清音和静音部分进行区分有三个阈值端点检测方法双门限法短时能量能量高阈值能量低阈值短时过零率过零率阈值

端点检测方法能量特征常用于区分有声段(如元音)和无声段(如静音或辅音中的某些类型),因为有声段的能量一般比无声段要高。语音短时能量不够直观?先来分析一段两个字简单音频从图上直观看出首尾的静音部分声波的振幅很小,有效语音部分的振幅比较大一个信号的振幅从直观上表示了信号能量的大小:静音部分能量值较小,有效语音部分的能量值较大语音数据是语音信号按时间排序的采样值序列,这些采样值的大小同样表示了语音信号在采样点处的能量端点检测方法/ffmpeg4976/article/details/52349007语音短时能量采样值中有正值和负值,计算能量值时不需要考虑正负号从这个意义上看,使用采样值的绝对值来表示能量值是自然而然的想法由于绝对值符号在数学处理上不方便,所以采样点的能量值通常使用采样值的平方端点检测方法/ffmpeg4976/article/details/52349007端点检测方法短时过零率“短时”——“一帧”短时过零率就是一帧语音时域信号穿过坐标系横轴的次数计算公式如下也可以通过计算每一帧时间内穿过的横轴的次数,然后除以每帧内采样点的数目,就可以得到语音每帧内的短时过零率端点检测方法类比:汽车是短时能量(邮箱的油只能使用一段时间),如果油箱小,那么短时过零率(加油次数)偏高。端点检测方法端点检测方法短时过零率意义短时过零率反映了语音信号的频率特性:高频信号:过零率高,因为高频信号在单位时间内穿过零点的次数多。低频信号:过零率低,因为低频信号在单位时间内穿过零点的次数少。浊音与清音:浊音(如元音)通常能量集中在低频段,过零率较低;清音(如摩擦音)能量集中在高频段,过零率较高。端点检测方法双门限法端点检测的思想考虑到语音开始以后总会出现能量较大的浊音,设一个较高的门限用以确定语音已开始再取一比稍低的门限,用以确定真正的起止点及结束点判断清音与静音的差别采用另一个较低的门限,求越过该门限的“过零率”只要取得合适,通常背景噪声的低门限过零率将明显低于语音的低门限过零率值端点检测方法§2端点检测介绍端点检测概念端点检测方法端点检测流程基本原理端点检测流程高阈值低阈值过零率阈值※流程(重点内容4)端点检测流程音频读取音频时序信号采样率音频帧长特征提取分帧处理每一帧短时能量每一帧短时过零率门限确定能量门限高阈值能量门限低阈值过零率阈值端点检测根据门限值检测有效语音和非语音段得到端点检测结果绘制端点检测效果图

端点检测流程浊音参考:/rocketeerLi/article/details/83307435短时能量曲线短时过零率曲线

端点检测流程有效语音有效语音参考:/rocketeerLi/article/details/83307435

端点检测流程有效语音有效语音参考:/rocketeerLi/article/details/83307435基于双门限法的端点检测的优缺点优点原理简单计算简单缺点阈值的确定

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论