版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第1章语音信号处理绪论为什么要学习这门课程语音信号处理发展概况本课程知识体系架构1.1为什么要学习这门课程语音信号处理的定义:语音信号处理是研究用数字信号处理技术对语音信号进行处理的一门学科语音信号处理需要数字信号处理和语音学两方面的知识作为基础。语音学是研究言语过程的一门科学,它包括:发音语音学、声学语音学和听觉语音学三大分支。1.1为什么要学习这门课程言语过程的五个阶段:想说、说出、传输、接受、理解。1.1为什么要学习这门课程语音处理技术的应用极其广泛,包括:工业、军事、交通、医学、民用等各个领域。语音识别具有十分广泛的应用:
①可以进行声控应用;②VoiceActivatedDialing(VAD)语音拨号;③可以用于自动口语翻译(实现不同语言之间的直接通信);④可以将语音识别与语音合成技术相结合,构成一种超低比特率的语音通信系统。
1.1为什么要学习这门课程说话人识别已在安全加密、银行信息电话查询服务等方面得到了应用,此外在公安机关破案和法庭取证方面可以应用。语种辨识在军事情报工作、国家安全事务中有重要应用。语音合成技术的一个应用实例,是计算机语声应答系统。语音编码技术的根本作用是使语音通信数字化。语音增强系统的基本应用是去混响,或去回声,消除噪声,或从潜水员使用的氦氧混合气体下的发音中恢复出可懂的语音等。
1.1为什么要学习这门课程1.语音是人类最重要、最有效、最常用和最方便的交换信息的方式;2.语音信号处理技术已在办公、交通、金融、公安、商业、旅游等行业得到了广泛应用,并已成为当前主流操作系统和应用程序中人机交互的重要手段。3.语音信号技术始终与当时信息科学中最活跃的前沿学科保持密切的联系,并且一起发展。1.1为什么要学习这门课程1.语音是人类最重要、最有效、最常用和最方便的交换信息的方式;2.语音信号处理技术已在办公、交通、金融、公安、商业、旅游等行业得到了广泛应用,并已成为当前主流操作系统和应用程序中人机交互的重要手段。3.语音信号技术始终与当时信息科学中最活跃的前沿学科保持密切的联系,并且一起发展。为什么要学习这门课程语音信号处理发展概况本课程知识体系架构1.2语音信号处理技术发展概况20世纪40年代~60年代(萌芽阶段)(1)可追溯到1940年前后Dudley的声码器,其从语音中提取参数加以传输,在收端重新合成语音。即,产生“语音参数模型”了思想;
(2)1952年贝尔实验室研制成功能识别10个英文数字的实验装置;(3)1956年Olsen等人采用8个带通滤波器组提取频谱参数,研制成功最早的语音打字机;(4)数字信号处理技术(数字滤波器,FFT等)快速发展,成为语音信号处理理论和技术的基础。1.2语音信号处理技术发展概况20世纪70年代~80年代(信号分析与处理阶段)(1)1971年,美国ARPA主导的“语音理解系统”研究计划开始启动,促进了语音识别研究的兴起;
(2)70年代初,动态时间规整技术(DTW)用于语音识别;(3)70年代中期,线性预测技术(LPC)技术用于语音信号分析;(4)70年代末,矢量量化技术(VQ)用于语音编码。(5)80年代,Baum等提出隐马尔可夫模型(HMM),后被Baker等用于语音识别中,取得巨大成功。1.2语音信号处理技术发展概况20世纪90年代(向传统人工智能过渡阶段)(1)语音识别逐渐由实验室走向实用化:对声学语音学统计模型研究逐渐深入,讲者自适应/听觉模型/语言模型也备受关注;
(2)以PSOLA为代表的波形拼接语音合成方法得到广泛应用;(3)出现了4~8kbit/s的波形与参数混合语音编码器;(4)以找出包含在语音信号中的说话人个性因素以及情感因素的说话人识别方法,语音信号的情感信息处理等方向开始兴起。(5)语音增强与去噪技术,盲分离技术受到关注。1.2语音信号处理技术发展概况2000年~2020年(以深度学习为代表的人工智能主导阶段)(1)2006年,Hinton等人提出了深度学习技术;
(2)2010年,深度学习技术首先被应用于语音识别系统,在各项任务上大幅提升了识别准确率;(3)2010年后,卷积神经网络、循环神经网络、注意力机制、生成对抗网络、Transformer等深度学习技术进一步发展;(4)深度学习技术已应用于语音识别、语音合成、语音编码、语音情感信息处理等各个方向上,均取得了很好的效果。1.2语音信号处理技术发展概况2020年后(多模态语音信号处理阶段)(1)文本、图像、视频、触觉、运动、生理等数据采集手段丰富,上述模态信息与语音信号深度融合;
(2)将其他模态信息引入语音信号处理各方向、各任务中,进一步提升了语音信号处理系统的性能,产生了“多模态语音信号处理”这一新方向。(3)2020年南京邮电大学周亮教授团队提出的跨模态通信与信息恢复技术,极大提升了包括语音在内的多模态信息的传输与处理效率。为什么要学习这门课程语音信号处理发展概况本课程知识体系架构1.3本课程知识体系架构模块一:基础知识(Chapter2~3)(1)语音信号处理的基础知识(2)语音信号处理的常用算法模块二:分析方法(Chapter4)(1)语音信号的时域和频域分析(2)语音信号的倒谱和线性预测分析模块三:特征提取技术(Chapter5)语音信号的端点检测、基音周期、共振峰估计模块四:典型处理技术(Chapter6~10)语音增强、语音识别、说话人识别、语音编码、语音合成模块五:前沿技术(Chapter11~13)语音信号情感处理、声源定位、多模态语音信号处理1.3教材2003年4月第一版,2009年6月第二版,2016年5月第三版,2024年7月第四版累计印刷20次,发行近8万册,被多所高校选为教材2023年9月以来,开始第四轮改版。总体原则:在相对稳定中力求变革,处理好经典理论与最新技术的相互融合。两大变化:增加深度学习方法用于经典语音信号处理任务的内容;增加关于多模态语音信号处理技术的介绍。
南京邮电大学
通信与信息工程学院
第2章语音信号处理的基础知识语音发音及感知系统语音信号生成的数学模型语音基本概念和参数语音信号的数字化和预处理2.1语音发音及感知系统语音发音系统语音是由肺部呼出的气流通过在喉头至嘴唇的各种作用而发出的。(1)把肺部呼出的直气流变为音源;(2)对音源其共振和反共振作用,使其带有音色;(3)从嘴唇或鼻孔向空间辐射的作用;声门:声带之间的部分,开启或闭合,其开闭一次的时间为基音周期(倒数为基音频率);男性:50~250Hz,女性:100~500Hz声道:从声门到嘴唇的呼气通道;发浊音时,声门处气流冲击声带产生振动,通过声道响应变为语音。发清音时,声带不振动。2.1语音发音及感知系统语音听觉系统分为听觉外周和听觉中枢两部分。听觉外周(外耳、中耳、内耳、蜗神经):完成声音的采集、频率分解、声能转换功能;听觉中枢(位于听神经以上):加工和分析声音,包括感知声音的音色、音调、声强、判断方位等。2.1语音发音及感知系统语音听觉系统外耳:对声音感知中起着声源定位以及声音放大作用;中耳:进行声阻抗变换;听小骨对声音进行线性或非线性传递;内耳:主要构成器官是耳蜗,是听觉的受纳器,把声音通过机械变换产生神经发放信号。2.1语音发音及感知系统人耳听觉特性基底膜的频率响应分布多通道滤波器实现人类能够听到的声音频率为20~20000Hz,强度为-5~130dB。耳蜗基底膜具有时频分析仪的功能,将复杂信号分解为各种频率分量。可由一组伽马通滤波器实现,每个滤波器模拟基底膜不同部位最大位移处的响应。2.1语音发音及感知系统人耳听觉掩蔽效应掩蔽效应:在一个强信号附近,弱信号变得不可闻。最小可听阈曲线:在安静环境下,人耳对各种频率声音可以听到的最低声压(人耳对低频率和高频率不敏感,在1kHz附近最为敏感)。由于位于1kHz频率的掩蔽声存在,使听阈曲线发生了变化,本可以听到的三个被掩蔽声,变得听不到了。
在掩蔽声附近发生了掩蔽效应。同时掩蔽:强信号和弱信号同时出现。频率靠的越近,掩蔽声越强,掩蔽效应越明显。短时掩蔽:强信号和弱信号不同时出现。又分为后向掩蔽和前向掩蔽。语音发音及感知系统语音信号生成的数学模型语音基本概念和参数语音信号的数字化和预处理2.2语音信号生成的数学模型语音信号的数字模型U(z)是激励信号,浊音时U(z)是声门脉冲,即,斜三角脉冲序列的z变换;清音时,U(z)是一个随机噪声的z变换。V(z)是声道传递函数,可用声管模型或共振峰模型来描述。R(z)为辐射模型,一般为一阶高通形式。模拟了语音发音系统!2.2语音信号生成的数学模型激励模型
G(z)是一个低通滤波器。浊音激励模型可表示为以基音周期1/F0为周期的单位脉冲序列E(z)激励G(z),得到的U(z)是一个周期斜三角脉冲串:发清音时,可以模拟成随机白噪声(均值为0,方差为1,在时间或幅度上为白色分布的序列)。发浊音时,由于声带不断张开和关闭,将产生间歇的脉冲波。首先,单个脉冲波(斜三角波)的时频域波形(g(n),G(z))如下:2.2语音信号生成的数学模型声道模型(共振峰模型)把声道视为一个谐振腔,共振峰为腔体的谐振频率。一般地,元音用前3个共振峰表示,而对于较复杂的辅音或鼻音,需要用到前5个以上的共振峰。(实际中需要求出每个浊音/清音的共振峰频率、带宽、幅度等参数)级联型:传递函数V(z)为全极点模型,结构简单,适用于一般浊音。并联型:传递函数V(z)加入了零点,结构复杂,适用于非一般浊音以及大部分清音。2.2语音信号生成的数学模型声道模型(共振峰模型)混合型:将上述二者结合。研究表明,口唇端辐射在高频较为显著,在低频端时影响较小,所以辐射模型R(z)是一阶类高通滤波器的形式。辐射模型语音发音及感知系统语音信号生成的数学模型语音基本概念和参数语音信号的数字化和预处理2.3语音基本概念与参数基本参数声压与声强:(1)声压、有效声压、声压级(SPL);(2)声强、声强级(IL);(3)声压与声强的关系;响度:声音的响亮程度频率与音高:音高是以人的主观感受来评价所听到的声音高低2.3语音基本概念与参数时域波形浊音[ou](B段),[e](D段)的波形具有明显的周期性,且振幅较大,它们的周期与声带振动的频率有关,即为基音周期清音[s](A段),[k](C段)的波形类似于白噪声,振幅很小,没有明显的周期性2.3语音基本概念与参数频域特性浊音[ou]的频谱,可以看出其基音频率为300Hz,与时域波形一致。另外可以看出其共振峰(频谱中的凸起点)。清音频谱峰点之间的间隔是随机的,没有周期分量2.3语音基本概念与参数语谱图表示语音频谱随时间变化的波形。纵轴为频率,横轴为时间,任一给定频率成分在给定时刻的强弱作用用相应点的灰度浓淡来表示。--声纹(反映说话人特性)横杠:与时间轴平行的深黑色带纹,对应于短时谱中的共振峰,从横杠对应的频率和带宽可确定共振峰频率带宽。竖直条:与时间轴垂直的一条窄黑条,每个竖直条相当于一个基音,条纹的起点对应声门脉冲的起点,条纹间的距离表示基音周期。乱纹:清音语谱图表现为乱纹。语音发音及感知系统语音信号生成的数学模型语音基本概念和参数语音信号的数字化和预处理2.4语音信号的数字化和预处理语音信号的数字化包括:放大及增益控制、反混叠滤波、采样、A/D转换及编码。(1)预滤波:抑制输入信号各频率分量中频率超出fs/2的所有分量,以防止混叠干扰;抑制50Hz的电源工频干扰。其常为带通滤波器:上截止频率为3400Hz左右,而下截止频率为60~100Hz。(2)A/D转换:会引起量化误差(量化后信号与原信号之间的差值,又称为量化噪声);通常采用12位的A/D转换器。数字化的反过程:从数字化语音中重构语音波形,通常在D/A后加一个平滑滤波器,对重构的语音波形的高次谐波其平滑作用,以去除高次谐波失真。语音信号的预处理包括:预加重、加窗、分帧等。2.4语音信号的数字化和预处理语音信号的预处理包括:预加重、加窗、分帧等。为什么要预加重和去加重?语音信号低频段能量大,高频段能量小,而接收机鉴频器输出的低频噪声小,高频噪声大;造成信号低频信噪比大,而高频信号比小,使高频传输困难。预加重的做法?在噪声引入之前采用预加重网络,人为提升发射机输入调制信号的高频分量。具体做法:在取样后,插入一个一阶高通滤波器。去加重的做法?在接收机鉴频器输出端,采用去加重网络把高频分量压制,恢复原信号功率。优点:预加重对噪声没有影响,而去加重同时也减小了噪声的高频分量,因此有效提高了输出信噪比。
南京邮电大学
通信与信息工程学院
第3章语音信号处理的常用算法矢量量化隐马尔可夫模型深度学习3.1矢量量化标量量化:整个动态范围被分成若干个小区间,每个小区间有一个代表值。对于一个输入的标量信号,量化时落入小区间的值就用这个代表值来代替,或者被量化为这个代表值。矢量量化:是对矢量进行量化,和标量量化一样,它把矢量空间分成若干个小区域,每个小区域寻找一个代表矢量,量化时落入小区域的矢量就用这个代表矢量代替,或者称为“被量化为这个代表矢量”。矢量量化的目的:将若干个标量数据组成一个矢量(或者从一帧语音数据中提取的特征矢量)在多维空间给予整体量化,从而可以在信息量损失较小的情况下压缩数据量。3.1矢量量化—基本原理设有N个K维特征矢量其中第i个矢量(可看作语音信号中某帧参数组成的矢量)可记为把K维欧几里得空间无遗漏地划分成J个互不相交的子空间满足:在每个子空间Rj找一个代表矢量Yj,则j个代表矢量可以组成矢量集为这样组成了一个矢量量化器。Y称为码书或码本;Yj称为码矢或码字;J称为码本尺寸。不同的划分或不同的代表矢量选取方法可以构成不同的矢量量化器。3.1矢量量化—基本原理矢量量化过程:当输入任意矢量进行矢量量化时,矢量量化器首先判断它属于哪个子空间Rj,然后输出该子空间Rj的代表矢量Yj
。即,用Yj代表Xi的过程,即,量化过程就是完成一个从K维欧几里得空间中的矢量X到K维空间有限子集Y的映射通常Q(.)选择是根据最小失真原理,分别计算用各码矢Yj代替Xi所带来的失真,其中产生最小失真值时所对应的那个码矢,就是最终量化的输出码矢。缺点:存在量化噪声!3.1矢量量化—基本原理矢量量化在语音通信中的应用:编码:解码:矢量量化在语音识别中的应用:3.1矢量量化—基本原理矢量量化需要解决的两大关键问题:(1)设计一个好的码本(“训练”或“学习”):需要搜集海量且具有代表性的数据;要选择一个好的失真度量准则以及码本优化方法(常用LBG算法来实现)。(2)未知矢量的量化:需要按照选定的失真测度准则,把未知矢量量化为失真测度最小的区域边界的中心(码字)矢量值,并获得该码字的序列号(码字在码本中的地址或标号)。存在两矢量在进行比较时的测度问题;未知矢量量化时的搜索策略。3.1矢量量化—失真测度失真测度的定义:是将输入矢量Xi用码本重构矢量Yj表征时所产生的误差或失真的度量方法,用以描述两个或多个模型矢量间的相似程度。失真测度的选择好坏直接影响到聚类效果和量化精度。设对两个k维语音特征矢量X和Y进行比较,要使其距离测度d(X,Y)在语音信号处理中有效,必须具备以下条件:3.1矢量量化—失真测度常用的失真测度:(1)均方误差欧氏距离(2)r平方误差(3)r平均误差(4)绝对值平均误差(5)最大平均误差(6)加权欧氏距离测度3.1矢量量化—失真测度线性预测失真测度:当语音信号特征矢量是用线性预测方法求出的LPC系数时(即,用LPC参数描述语音信号时),不能直接用欧氏距离。当预测器的阶数p趋近于无穷大,信号与模型完全匹配时,信号功率谱为相应地,如码本中某重构矢量的功率谱为可定义I-S距离来衡量二者失真:其中另外,还有对数似然比失真测度、模型失真测度、识别失真测度等。3.1矢量量化—最佳码本设计码本设计:用d(X,Y)表示训练用的特征矢量X和训练出的码本的码字Y之间的畸变,那么最佳码本设计的任务就是在一定的条件下,使得此畸变的统计平均值D=E[d(X,Y)]达到最小。应遵循的两条原则:(1)最近邻原则,表示为(2)设所有选择码字Yl(即归属于Yl所表示的区域)的输入矢量X的集合为Sl,那么Yl应使该集合中的所有矢量与Yl之间的畸变值最小。如果采用欧氏距离来度量X与Y之间的畸变值,那么容易证明Yl应等于Sl中所有矢量的质心:根据上述两条原则,设计码本设计的递推算法——LBG算法。整个算法就是上述两个条件的反复迭代过程,即从初始码本寻找最佳码本的迭代过程。3.1矢量量化—最佳码本设计LBG算法的步骤:矢量量化隐马尔可夫模型深度学习3.2隐马尔可夫模型—概述隐马尔可夫模型(HiddenMarkovModels,HMM)作为语音信号的一种统计模型,在语音信号处理各个领域中获得广泛的应用。HMM是一个输出符号序列的统计模型,具有N个状态S1,S2,…,SN,它按一定的周期从一个状态转移到另一个状态,每次转移时,输出一个符号。转移到哪一个状态,转移时输出什么符号,分别由状态转移概率和转移时的输出概率来决定。特点:只能观测到输出符号序列,而不能观测到状态转移序列!3.2隐马尔可夫模型—概述球和缸的实验(隐马尔可夫模型中“隐”的含义)设有N个缸,每个缸里装有很多彩色的球,在同一个缸中不同颜色球的多少由一组概率分布来描述。根据某个初始概率分布,随机选择一个缸,再根据这个缸中彩色球颜色的概率分布,随机选择一个球,记下球的颜色,再把球放回缸中。又跟据描述缸的转移的概率分布,选择下一个缸,再从缸中随机选一个球,……,一直进行下去,就可以得到一个描述球的颜色的序列。由于球的颜色和缸之间不是一一对应的,所以缸之间的转移以及每次选取的缸被隐藏起来了,并不能直接观察到。3.2隐马尔可夫模型—概述隐马尔可夫模型和语音信号建模之间的关系HMM用于语音信号建模时,是对语音信号的时间序列结构建立统计模型,它是数学上的双重随机过程:一个是具有有限状态数的Markov链来模拟语音信号统计特性变化的隐随机过程,另一个是与Markov链的每一状态相关联的观测序列的随机过程。人的言语过程也可以看成一个双重随机过程,语音信号本身是一个可观测的时变序列,是由大脑根据语法知识和言语需要(不可观测的状态)发出的音素的参数流。因此HMM合理地模仿了这一过程,很好地描述了语音信号整体非平稳性和局部平稳性。3.2隐马尔可夫模型—定义离散Markov过程设在时刻t的随机变量St的观察值为st,则在S1=s1,S2=s2,…,St=st的前提下,St+1=st+1的概率为:即,系统在任一时刻所处的状态只与此时刻的前一时刻所处的状态有关(1阶Markov过程)。此外,为了处理方便,只考虑右边的概率与时间无关的情况,假设有N个不同的状态(S1=s1,S2=s2,…,St=st),系统在经历了一段时间后,按照上式所定义的概率关系经历了一系列状态的变化,此时输出的是状态序列。3.2隐马尔可夫模型—定义隐Markov模型HMM是由两个随机过程组成的:一个是状态转移序列,它对应于1阶Markov过程,另一个是每次转移时输出的符号组成的符号序列。设状态转移序列为S=s1,
s2,…,sT,输出的符号序列为O=o1,
o2,…,oT,则对于HMM,把所有可能得状态转移序列都考虑进去,则有3.2隐马尔可夫模型—定义HMM的基本元素对于描述语音信号特征序列的HMM,可用如下6个模型参数来定义,即,S:模型中状态的有限集合,即,模型由几个状态组成。设有N个状态,S={Si|i=1,2,…,N}。记t时刻所处的状态为st,
球与缸实验中的缸。O:输出的观测值符号的集合,即每个状态对应的可能的观测值数目。记M个观察值为O=o1,
o2,…,oT,记t时刻的观察值为ot,球与缸实验中所选彩球的颜色就是观察值。A:状态转移概率的集合。aij是从状态Si到Sj的转移概率,
每次在当前选取的缸的条件下选取下一个缸的概率。3.2隐马尔可夫模型—定义HMM的基本元素对于描述语音信号特征序列的HMM,可用如下6个模型参数来定义,即,B:输出观测值概率集合。B={bij(k)},其中bij(k)是从状态Si到Sj转移时观测值符号k的输出概率。即缸中球的颜色k出现的概率。:系统初始状态概率的集合,表示初始状态是si的概率,即
开始时选取某个缸的概率F:系统终了状态的集合3.2隐马尔可夫模型—定义HMM用于语音识别对于每个孤立字(词)需要准备一个HMM,可以通过模型学习或训练来完成。对于任一要识别的未知孤立字(词)语音,首先通过分帧、参数分析和特征参数提取,得到一组随机向量序列X1,X2,…XT(T为观察时间长度,即,帧数);再通过矢量量化把上述序列转化为符号序列O=o1,o2,…,oT;而后计算这组符号序列再每个HMM上的输出概率,输出概率最大的HMM对应的孤立字(词),就是识别结果。3.2隐马尔可夫模型—基本算法HMM用于语音信号处理需要解决的三个问题(1)识别问题:给定观察符号序列O=o1,o2,…,oT和模型,如何快速有效地计算观察符号序列的输出概率P(O|M)?解决方法:前向—后向算法(2)已知模型,寻找与给定观察序列对应的最佳状态序列。解决方法:维特比算法(3)模型训练问题:对于初始模型和给定用于训练的观察符号序列O=o1,o2,…,oT,如何调整模型的参数,使得输出概率P(O|M)最大?解决方法:Baum-Welch算法3.2隐马尔可夫模型—基本算法前向—后向算法前向算法:按照输出观察值序列的时间,从前向后递推计算输出概率。3.2隐马尔可夫模型—基本算法前向—后向算法P(O|M)的计算过程如下:3.2隐马尔可夫模型—基本算法前向—后向算法后向算法:按照输出观察值序列的时间,从后向前递推计算输出概率。3.2隐马尔可夫模型—基本算法维特比算法:给定观察值序列O和模型M时,在最佳意义上确定一个状态序列S=s1,s2,…,sT的问题,即使P(S,O|M)最大时确定的状态序列。算法描述:在这个递推公式中,每一次使得最大的状态i组成的状态序列就是所求的最佳状态序列3.2隐马尔可夫模型—基本算法维特比算法:实现步骤:3.2隐马尔可夫模型—基本算法Baum-Welch算法:基本思想:给定一个观察值O,确定M,使得P(O|M)最大。其利用递归思想,通过迭代得到P(O|M)的局部极值。具体地,在每次迭代中都使得由估计出的参数组成的新模型满足。重复该过程,直至收敛,此时即为所求的模型。对于符号序列O,在时刻t从状态Si转移到状态Sj的转移概率为对于符号序列O,在时刻t时Markov链处于3.2隐马尔可夫模型—基本算法Baum-Welch算法:对于符号序列O,从状态Si转移到Sj的转移次数的期望值为从状态Si转移出去的次数的期望值为则重估公式为3.2隐马尔可夫模型—基本算法Baum-Welch算法的实现步骤关于模型收敛(或者停止训练的判定)问题。矢量量化隐马尔可夫模型深度学习3.3深度学习—概述深度学习起源:2006年,GeoffreyHinton等学者提出深度信念网络以及相应的半监督算法,开启了深度学习的研究热潮。基本思想:采用逐层初始化和整体反馈的方法,以受限玻尔兹曼机为基本单元来搭建神经网络,利用无监督预训练初始化权值以及有监督参数微调,来训练该神经网络的参数。在语音信号处理领域的应用:传统语音信号处理方法中,语音信号的分析与特征提取、目标任务的完成通常是被当作两个相互分离的问题分别处理。带来的问题是所提取的特征对于目标任务而言常常不是最优的。深度学习技术具有自动提取特征的能力,可以将上述两个问题进行联合处理。3.3深度学习—概述深度学习模型的优点:(1)学习能力强,在很多任务中性能优于传统机器学习模型。(2)适应性好:深度学习模型的网络层数多,理论上可以映射到任意函数。(3)数据驱动:深度学习高度依赖数据,数据量越大,它的表现就越好。深度学习模型的缺点:(1)计算量大:深度学习需要大量的数据与算力支持。(2)硬件要求高:普通CPU无法满足深度学习模型和算法的运算需求。(3)模型设计复杂:需要投入大量人力和时间来开发新的模型3.3深度学习—深度神经网络深度神经网络(DNN)的基本结构:具有多个隐藏层和多个输出的网络,可以拟合复杂的非线性函数,模型灵活性高。在DNN中,各神经元分别属于不同的层,每一层的神经元可以接收前一层的神经元信号,并产生信号输出到下一层。L+1层DNN,输入层为第0层,输出层为第L层。第第l-1层与第l层的关系:
3.3深度学习—深度神经网络DNN的激活函数:3.3深度学习—深度神经网络训练算法:在数据输入DNN经过前向传播得到输出后,由预先定义的目标函数可以计算损失,根据损失从后向前依次调整各层的权重与偏置,实现DNN参数的反向传播。给定训练集,将每个样本x输入DNN,得到输出为y,其损失函数定义为在一些语音信号处理任务中,常使用交叉熵作为损失函数:计算权重目标函数关于参数W和b的梯度,更新如下:3.3深度学习—深度神经网络训练算法:由于梯度下降法在计算损失函数对参数的偏导数时,会带来很大的计算开销,因而在DNN训练过程中,通常通过反向传播算法提升计算效率。仍以第l层为例,对第l层的参数W和b计算偏导数。其中,3.3深度学习—深度神经网络训练算法:在计算出上述三个偏微分后,可以表示为上式可进一步写成:同理,可以得到损失函数关于第l层偏置的梯度:在计算出每一层的误差后,就可以根据上式得到每一层参数的梯度。因此DNN训练算法包括如下三个步骤:3.3深度学习—循环神经网络DNN的缺点:(1)模型当前的输出只取决于当前输入,而实际中可能与过去时刻输出也相关。(2)输入数据和输出数据的维度是固定的,不能任意改变。(3)无法处理实际场景中的时序数据。循环神经网络(RNN):(1)通过在DNN上加入循环连接使得模型具有记忆能力。(2)由具有环路的神经网络结构组成,其神经元不仅可以接收其他神经元的信息,也可以接收自身的信息,能够更好地处理时序数据之间的内在关联。(3)在训练算法上,采用时间反向传播算法进行参数更新,也存在着梯度消失的问题。3.3深度学习—循环神经网络RNN的结构:隐藏层的输入由两部分组成:来自输入层的输入,来自上一时刻隐藏层的输出;与DNN最大的不同:存在隐藏层的循环连接。信息在RNN中的传播方式:
st可以表征之前所有时刻的输入信息{x1,x2,…,xT}
ot包含当前时刻的输入以及以往所有时刻的输入。3.3深度学习—循环神经网络长短期记忆网络(LSTM)(1)RNN的长程依赖:RNN虽然可以建模时序数据,但由于序列长度增大可能带来梯度消失或爆炸问题。其只能学到短期的“记忆”(时刻t的输出yt只与一定时间间隔k内的输入有关),当时间间隔过长时,RNN就难以准确描述关联性。(2)LSTM是RNN的变体,引入门控单元,通过选择性遗忘过去时刻的累积信息来更新网络参数,达到缓解RNN长程依赖的问题。(3)LSTM由记忆单元ct,输入门it,输出门ot,遗忘门ft组成,3.3深度学习—循环神经网络长短期记忆网络(LSTM)RNN中的每个h存储了历史信息,可以看作一种记忆。在RNN中,隐状态的每个时刻都会被重写,因此其为短期记忆。而长期记忆可以看作网络参数,表征了从训练数据中学到的经验,其更新周期远远慢于短期记忆。在LSTM中,记忆单元c可以在某个时刻捕捉到某个关键信息,并有能力将此关键信息保存一定的时间间隔。记忆单元c中保存信息的生命周期要长于短期记忆h,但又远远短于长期记忆,因此被称为长短期记忆。3.3深度学习—卷积神经网络卷积神经网络(CNN)与DNN的区别在于,CNN中的神经元并非全连接,而是局部连接。即,CNN中卷积层的某个神经元的输出并不取决于输入特征图中的所有神经元的输入,而是仅由卷积核对应位置的神经元的输入决定。由于局部连接的特点,使得CNN能够很好地捕捉输入特征图中的局部特征;同时,在进行卷积计算时,卷积核在输入特征图的不同位置,其权值参数是不变的,并且通常将卷积层和池化层结合使用,这样使得CNN的计算复杂度显著降低,大大拓展了其应用领域。3.3深度学习—卷积神经网络卷积神经网络(CNN)在CNN计算过程中,首先通过输入层向模型中输入数据,然后经过卷积层对数据做进一步处理,逐层提取更为抽象的特征,紧接着对输出特征图使用池化层达到特征降维的作用,按照该方式对卷积层和池化层进行多次堆叠,最后经过全连接的输出层完成回归、分类等任务。此外,每层网络的输出还需要经过激活函数的映射,从而使模型具有更强的表达能力。3.3深度学习—卷积神经网络(1)输入层:CNN的输入层可以处理多维数据,其“数据”可以对原始数据经过预处理所得的初步特征,也可以是原始数据。(2)卷积层:根据上一层节点对下一层节点的重要性分布,将下一层节点只和与其关联性较大的上一层阶段相连接。(3)池化层:在卷积层后添加池化层,可以降低特征维度,避免过拟合。
(4)全连接层:
利用所提取出的
高阶特征完成目
标任务。
南京邮电大学
通信与信息工程学院
第4章语音信号分析4.0概述短时分析技术虽然语音信号具有时变特性,但在一个短时间范围内(10~30ms),其特性基本保持不变,即相对稳定(由于口腔肌肉运动相对缓慢)——短时平稳性。短时分析:将语音分为一段一段来分析其特征参数,其中每一段称为一帧(10~30ms)。对于整体语音而言,分析处的是由每一帧特征参数所组成的特征参数时间序列。分析方法(根据分析出的参数性质不同):时域分析、频域分析、倒谱域分析、线性预测分析。语音分帧语音信号的时域分析语音信号的频域分析语音信号的倒谱分析语音信号的线性预测分析4.1语音分帧帧移与帧长的比值一般取0~1/2;分帧的实现:用可移动的有限长度窗口进行加权:4.1语音分帧矩形窗的谱平滑特性好,但由于主瓣宽度小,加窗后的语音损失了高频成分;汉明窗正好相反。窗的选择(1)窗函数的选择标准:在时域需要减小时间窗两端的坡度,使截取得到的语音波形缓慢降为0,减小语音帧的截断效应;在频域要有较宽的3dB带宽以及较小的边带最大值。(2)窗口长度的选择:N与时间分辨率、频率分辨率之间的关系(N越大,频域带宽越小,语音信号加窗后反应波形细节的高频部分被阻碍,短时能量随时间变化小,不能真实反应语音幅度变;反之亦然);N的数值:保证在一个语音帧里包含1~7个基音周期。语音分帧语音信号的时域分析语音信号的频域分析语音信号的倒谱分析语音信号的线性预测分析4.2语音信号的时域分析时域分析的特点(1)语音信号直观表示、物理意义明确;(2)实现简单、运算量小;(3)可以得到语音的一些重要参数;(4)只使用示波器等通用设备,使用简单。典型的时域分析(1)短时能量和短时平均幅度分析(2)短时过零率分析(3)短时相关分析4.2语音信号的时域分析—短时能量短时能量、短时平均幅度对高电平敏感!用途:(1)区分浊音段和清音段;(2)区分声母和韵母的分界、无声与有声的分界等。4.2语音信号的时域分析—短时过零率短时过零率:一帧语音中信号波形横穿零电平的次数符号函数对于浊音,其语音能量集中在3kHz以下低频段,过零率也低;清音多数能量出现在较高频率上,过零率相对较高。用途:从背景噪声中找出语音信号,用于判断寂静无声段和有声段的起点和终点位置。背景噪声较小时用平均能量较为有效,而背景噪声较大时用平均过零率更有效。4.2语音信号的时域分析—短时过零率无声(S),清音(U),浊音(V)的短时平均幅度以及短时过零率的概率分布浊音:短时平均幅度最高,短时过零率最低;清音:短时平均幅度居中,短时过零率最高;无声:短时平均幅度最低,短时过零率居中。可基于概率论,通过短时平均幅度和短时过零率,来判别语音中的浊音/清音/无声类别。4.2语音信号的时域分析—短时相关分析短时相关分析:用于求浊音语音的基音周期,用于线性预测分析短时自相关函数:K为最大延迟点数性质:(1)如果
是周期的(周期为Np),则自相关函数是同周期的周期函数,(2)是偶函数,即,(3)当k=0时,自相关函数具有最大值,即,,并且等于确定性信号序列的能量或随机序列的平均功率。4.2语音信号的时域分析—短时相关分析修正的短时相关分析:传统短时自相关函数的缺点:(1)随着延迟k的增加,进行乘积和的项数在减少,导致自相关函数的幅度值随着k的增加而下降;(2)如果窗长不够,包含的周期数不够多,会给周期计算带来麻烦。4.2语音信号的时域分析—短时相关分析修正的短时相关分析:用两个长度不同的窗口,截取两个不等长的序列进行乘积和,两个窗口长度始终相差最大的延迟点数K。这样可以始终保持乘积和的项数不变,始终为短窗的长度。4.2语音信号的时域分析—短时相关分析短时幅度差函数:计算自相关函数的运算量很大(有乘法运算)。如果信号是完全的周期信号,则相距为周期的整数倍的样点上的幅值是相等的,差值为0(实际语音信号差值很小,极小值出现在整数倍周期的位置上)定义:浊音(a)(b)和清音(c)的短时平均幅度差函数语音分帧语音信号的时域分析语音信号的频域分析语音信号的倒谱分析语音信号的线性预测分析4.3语音信号的频域分析利用短时傅里叶变换求语音短时谱第n帧语音信号的离散傅里叶变换:窗类型的选择以及窗口宽度的选择(与时域分析结论相同!)4.3语音信号的频域分析利用短时傅里叶变换求语音短时谱令角频率,则得到离散短时傅里叶变换:在语音信号的数字处理中都是采用上式来作为频谱,可以采用FFT完成将时域语音变换到频域。语音的功率谱:功率谱是短时自相关函数的傅里叶变换4.3语音信号的频域分析语音短时谱的临界带特征目的:把线性频谱转化为临界带频谱,更符合人耳的听觉特性;步骤:(1)求取各帧加窗语音的功率谱;(2)确定若干个临界带频率分割点;(3)计算各个临界带中功率谱之和,将其作为临界带特征矢量,用于后续语音处理任务。语音分帧语音信号的时域分析语音信号的频域分析语音信号的倒谱分析语音信号的线性预测分析4.4语音信号的倒谱分析—同态信号处理同态信号处理:将卷积关系(非线性关系)变成求和关系(线性关系),从而将语音信号的声门激励信息及声道响应信息分离开来,求得声道共振特征和基音周期,用于语音编码、合成、识别等任务。4.4语音信号的倒谱分析—同态信号处理子系统1:将卷积信号转化为加性信号:子系统2:对进行线性处理得到;子系统3:对进行逆变换,得到恢复信号。如果处于不同的位置并且互不交替,那么适当设计线性系统,便可将二者分离开来。4.4语音信号的倒谱分析—复倒谱和倒谱复倒谱:为的复倒谱。倒谱:如果只考虑上式的实部,则:4.4语音信号的倒谱分析—复倒谱和倒谱复倒谱和倒谱的关系:(1)复倒谱要进行复对数运算,倒谱只进行实对数运算;(2)由于在计算过程中相位信息丢失,在倒谱情况下一个序列经过正逆两个特征系统变换后,不能还原成自身;(3)倒谱和复倒谱一样,是把两个信号卷积转换成求和;(4)已知实序列的复倒谱,可以求出其倒谱。(5)在复倒谱满足一定条件时,也可以由倒谱求得复倒谱。4.4语音信号的倒谱分析—Mel频率倒谱系数Mel频率倒谱系数:Mel频率与实际频率呈对数分布关系,MFCC也着眼于人耳的听觉特性;在1000Hz以下,大致呈线性分布,带宽为100Hz左右;在1000Hz以上,呈对数增长。类似于临界频带的划分,可以将语音频率划分为一系列三角形的滤波器序列(Mel滤波器组)4.4语音信号的倒谱分析—Mel频率倒谱系数Mel频率倒谱系数的求法:取每个三角形滤波器频率带宽内所有信号的幅度加权和作为某个带通滤波器的输出,然后对所有滤波器输出做对数运算,再进一步做离散余弦变换即得到MFCC。步骤:(1)将实际频率尺度转换为Mel频率尺度;(2)在Mel频率轴上配置L个通道的三角形滤波器组,相邻之间截止频率关系:(3)根据语音信号的幅度谱求每个三角形滤波器的输出:(4)对所有滤波器输出做对数运算,再做离散余弦变换得到MFCC语音分帧语音信号的时域分析语音信号的频域分析语音信号的倒谱分析语音信号的线性预测分析4.5语音信号的线性预测分析—基本原理线性预测分析的基本思想:由于语音样点之间存在相关性,可以用过去的样点值来预测现在或未来的样点值。即,一个语音的抽样能够用过去若干个语音抽样或它们的线性组合来逼近。通过实际语音抽样
和线性预测抽样之间的误差在某个准则下达到最小值,来决定唯一的预测系数。这组预测系数就反映了语音信号的特性,可以作为语音信号特征参数用于语音识别、语音合成等。4.5语音信号的线性预测分析—基本原理语音模型:系统的输入e(n)是语音激励,s(n)是输出语音,模型的系统参数H(z)可写成有理分式:H(z)可以分为自回归—滑动平均模型(ARMA),自回归模型(AR),滑动平均模型(MA)三种形式;实际语音信号处理中最常用的是AR模型(全极点模型):(1)除了鼻音和摩擦音,语音的声道传递函数就是一个全极点模型;对于鼻音摩擦音,也可以用全极点模型来近似;(2)由于全极点模型的参数估计是对线性方程组的求解,所以可以用线性预测的方法来求解。4.5语音信号的线性预测分析—基本原理采用全极点模型后,传递函数H(z)为:语音抽样s(n)和e(n)之间的关系为:对于浊音,激励e(n)是以基音周期重复的单位冲激;对于清音,e(n)是白噪声。线性预测模型建立的本质:是由语音信号来估计模型参数的过程。线性预测器:时域表达式:频域系统函数:逆滤波器:预测误差:4.5语音信号的线性预测分析—基本原理线性预测方程的推导(选用最小均方误差准则)令某一帧内的短时平均预测误差为:为使最小,对ai求偏导数,并令其为0,有:上式表明,预测误差与过去的语音样点正交。实际中需要分帧处理,设一帧从n时刻开窗选取的N个样点的语音段为sn,记
为,则有求解过程:先计算出,再求解上述方程组。最后计算最小军方预测误差:4.5语音信号的线性预测分析—方程组求解线性预测方程组的求解:设n时刻开窗选取N个样点的语音段sn,即用个语音样点来分析该帧的预测系数ai。对于该语音段,其自相关函数为:由于上述自相关函数为偶函数并且只与j和i的相对大小有关,因此,则线性预测方程为:4.5语音信号的线性预测分析—方程组求解线性预测方程组的求解:写成矩阵的形式:该方程为Yule-Walker方程,方程左边的矩阵称为托普利兹矩阵,是以主对角线对称的,并且沿着主对角线平行方向各轴向的元素值都相等。上述矩阵可采用莱文逊—杜宾算法来求解。4.5语音信号的线性预测分析—方程组求解线性预测方程组的求解:算法过程:通过对上式进行递推求解,可获得最终解为:
其中确保Ep随着迭代而缩小4.5语音信号的线性预测分析—LPC谱估计LPC谱估计:当求出一组预测器系数后,就可以得到语音产生模型的频率响应:用表示模型H(z)的频率响应,表示语音信号s(n)的傅里叶变换,则
为语音信号s(n)的功率谱。如果s(n)是一个严格的p阶AR模型,则实际中,语音信号用ARMA模型表示更为精确,可用一个无限长的AR模型逼近(p的值要选的很大,实际中p一般在8~14之间)。LPC谱估计的特点:在信号能量较大的区域(接近谱的峰值处),LPC谱和信号谱很接近;而在信号能量较低的区域(接近谱的谷底处),相差比较大。原因:由最小均方误差引起。4.5语音信号的线性预测分析—LPC谱估计LPC复倒谱(另一种表示方法)设表示为h(n)的复倒谱,则有将H(z)表达式代入,并对求导,令上式左右两边的常数项和各幂次的系数分别相等,从而可由ak求出4.5语音信号的线性预测分析—LPC复倒谱LPC复倒谱(另一种表示方法)优点:(1)由于利用了线性预测中声道系统函数H(z)的最小相位特性,避免了相位卷绕;(2)LPC复倒谱的运算量小;(3)由于当p趋近于无穷大时,语音信号的短时复频谱满足因而可以认为包含了语音信号频谱的包络信息,可以近似把当作s(n)的短时复倒谱来估计语音短时谱包络和声门激励参数。(4)在实时语音识别中也经常采用LPC复倒谱作为特征矢量。4.5语音信号的线性预测分析—LPC
Mel倒谱系数LPCCMCC求得复倒谱之后,可以求得倒谱c(n);可根据人类听觉特性,把倒谱系数进行非线性变换,求出LPCMel倒谱系数:采用迭代求解法,最后求得的LPCCMCC可作为后续语音信号处理任务的特征。4.5语音信号的线性预测分析—线谱对分析线谱对(LSP)求解的模型参数是线谱对(频域参数),与语音信号谱包络联系更紧密。推导过程:令A(z)为(1)由莱文逊—杜宾算法可得:(2)两边同乘以得(3)分别将kp+1=1和kp+1=-1时的用P(z)和Q(z)表示,可得4.5语音信号的线性预测分析—线谱对分析线谱对(LSP)(4)根据A(z)的表达式,P(z)和Q(z)可写成:(5)对P(z)和Q(z)进行因式分解其中成对出现,反映了谱的特性,称为线谱对。总结:线谱对分析将A(z)的p个零点通过P(z)和Q(z)映射到单位圆上,使得这些零点可以直接用频率w来反映,并且P(z)和Q(z)各提供p/2零点频率。从物理意义上说,P(z)和Q(z)对应着声门全开或全闭时的全反射情况。
南京邮电大学
通信与信息工程学院
第5章语音信号特征提取技术端点检测基音周期估计共振峰估计5.1端点检测—概述端点检测:从一段语音信号中准确找出语音信号的起始点和结束点。目的:为了使有效的语音信号和无用的噪声信号得以分离,在语音识别、语音增强、语音编码等系统中得到了广泛应用。主要方法:(1)基于阈值的方法:根据语音信号和噪声信号的不同特征,提取每一段语音信号的特征,然后把这些特征值和设定的阈值进行比较,已到达检测目的。(2)基于模式识别的方法:需要估计语音信号和噪声信号的模型参数来检测。本章主要探讨基于阈值的方法。5.1端点检测—双门限法复习:短时能量与短时过零率双门限法的基本思想:根据语音的统计特性,可以把语音段分为清音、浊音、静音(包括背景噪声);短时能量可以较好地区分浊音和清音。对于清音,由于其能量较小,在短时能量检测中会因为低于能量门限而被误判为静音;短时过零率则可以从语音中区分静音和清音。将两者结合起来,就可以检测出语音段(清音和浊音)及静音段。首先为短时能量和过零率分别确定两个门限,一个为较低门限,对信号的变化比较敏感,另一个是较高门限。当低门限被超过时,很可能是由于很小的噪声引起的,未必是语音的开始,当高门限被超过并且在接下来的时间段内一直超过低门限时,则意味着语音信号的开始。5.1端点检测—双门限法双门限法的步骤:(1)计算信号的短时能量和短时平均过零率;(2)根据语音能量的轮廓选取一个较高的门限T2,语音信号的能量大部分都在此门限之上,可进行一次初判。语音起止点位于该门限与短时能量包络交点N3和N4所对应的时间间隔之外。5.1端点检测—双门限法双门限法的步骤:(3)根据背景噪声的能量确定一个较低的门限T1,并从初判起点往左,从初判终点往右搜索,分别找到语音轮廓与门限T1相交的两个点N2和N5;(4)以短时平均过零率为准,从N2点往左和N5点往右搜索,找到短时平均过零率低于某个阈值T3的两个点N1和N6
,作为语音段的起止点。需要注意门限的选取方法5.1端点检测—自相关法自相关的步骤:(1)计算语音信号的短时自相关函数(2)将自相关函数进行归一化处理:(3)由于语音和噪声两种信号的自相关函数存在极大差异,可以利用这种差异来提取语音端点:根据噪声的情况,设置阈值T1和T2,当相关函数最大值大于T2时,判断为语音;当相关函数最大值大于或小于T1时,判定为语音信号端点。噪声信号及其自相关函数含噪语音及其自相关函数5.1端点检测—谱熵法熵:衡量信息的有序程度。一个信息源发出的信号以信息熵来作为信息选择和不确定性的度量。语音的熵和噪声的熵存在较大差异,二者在整个信号段中的分布概率不同。谱熵法端点检测就是通过检测谱的平坦程度,达到语音端点检测的目的。谱熵的特点:(1)语音与噪声的谱熵不同;(2)语音谱熵随语音随机性而变化,与能量特征相比,谱熵变化较小;(3)谱熵对噪声具有一定的稳健性。同一语音信号当信噪比降低时,语音信号的谱熵值的形状大体保持不变;(4)语音谱熵只与语音信号随机性有关,而与语音信号的幅度无关。5.1端点检测—谱熵法谱熵的定义:设加窗分帧处理后的第n帧语音信号为xn(m),其FFT表示为Xn(k),其中k表示为第k条谱线。该语音帧在频域中的短时能量为:而对于某一谱线k的能量谱为,则每个频率分量的归一化谱概率密度函数定义为:该语音帧的短时谱熵定义为5.1端点检测—谱熵法谱熵法的步骤:(1)对语音信号进行分帧加窗,取FFT点数;(2)计算每一帧的谱的能量;(3)计算每一帧中每个样本点的概率密度函数;(4)计算每一帧的谱熵值;(5)设置判决门限;(6)根据各帧的谱熵值进行端点检测。每一帧的谱熵值为:H(i)计算是基于谱的能量变化而不是谱的能量。端点检测基音周期估计共振峰估计5.2基音周期估计概述:基音:发浊音时声带振动所引起的周期性;基音周期:声带振动频率的倒数;声调:基音的变化模式,携带具有辨意作用的信息;人的声道易变性及其声道特征因人而异,基音周期的范围宽,同一个人在不同情态下发音的基音周期也不同,基音周期受单词发音音调影响。基音周期的提取存在困难:(1)声门激励信号不是一个完全周期的序列,有些清音和浊音的过渡帧很难判断其周期性;(2)声道共振峰会严重影响激励信号的谐波结构,因而从语音中直接取出仅和声带振动有关的激励信号并不容易;(3)语音信号本身是准周期性的(音调有变化),其波形的峰值点或过零点受共振峰的结构、噪声等影响;(4)基音周期变化范围大,从老年男性的50Hz到儿童和女性的450Hz。5.2基音周期估计—自相关法自相关:其部位0的范围为k=(-N+1)~(N-1),且为偶函数。自相关法的基本思想:浊音信号的自相关函数在基音周期的整数倍位置上出现峰值;而清音的自相关函数没有明显的峰值出现。因此,检测是否有峰值就可以判断是清音还是浊音,检测峰值的位置就可以提取基音周期值。利用自相关函数估计基音周期时需要考虑的两个问题:(1)窗函数的选取问题:窗的类型,窗的长度(至少大于两个基音周期)(2)共振峰的影响问题:与声道特性相关。当基音周期与共振峰的周期性混叠在一起时,被检测出来的峰值会偏离原来峰值的真实位置(共振峰对基音周期造成“干扰”);此外,某些浊音的第一共振峰频率可能会等于或低于基音频率,会给基音周期检测带来误差。5.2基音周期估计—自相关法克服共振峰干扰问题的方法:(1)用带宽为60~900Hz的带通滤波器对语音信号进行滤波,去除共振峰影响,并利用滤波后的信号的自相关函数进行基音估计(因为共振峰频率相对较高)。--频域方法(2)对语音信号进行非线性变换后再求自相关函数。中心削波:消去语音信号的低幅度部分(含有大量的共振峰信息),保留高幅度部分(包含大量的基音信息)--时域方法5.2基音周期估计—自相关法克服共振峰干扰问题的方法:三电平削波由于削波后信号取值只有-1,0,1三种情况,不需要作乘法只需简单的组合逻辑,解决了中心削波的计算量大的问题。5.2基音周期估计—平均幅度差函数法平均幅度差函数法:短时平均幅度差函数(AMDF)的定义:对于周期性的浊音,Fn(k)呈现与浊音语音周期相一致的周期特性,在周期的各个整数倍点上具有谷值特性。对于清音信号,Fn(k)无周期特性。利用该特性可以判断一段语音是浊音还是清音,并估计出浊音的基音周期。利用AMDF法估计基音周期,同样面临窗函数和共振峰影响两个问题。(1)要求窗长足够长;(2)可采用LPC逆滤波和中心削波等方法减少输入语音中的声道特性或共振峰的影响。5.2基音周期估计—平均幅度差函数法平均幅度差函数法:修正处理方法(P89)5.2基音周期估计—倒谱法倒谱法原理:利用语音信号的倒谱特征,检测出表征声门激励周期的基音信息。语音是由声门脉冲激励e(n)经声道v(n)滤波得到,,则三者倒谱之间的关系为因此,含有基音信息的声脉冲倒谱可与声道响应倒谱分类,因此从倒谱域分离
后恢复出e(n),可从中求出基音周期。实际中的问题:(1)反映基音信息的倒谱峰,在过渡音和含噪语音中将会变得不清晰甚至完全消失(过渡音中的周期激励信号能量降低,含噪语音中的噪声干扰);(2)对于浊音的倒谱,其倒谱域中的基音信息与声道信息并非完全分离,在周期激励信号能量较低时,声道响应(特别是共振峰)对基音倒谱峰的影响不能忽略。解决方法:(1)去除语音中的声道响应信息,对类噪激励和噪声加以抑制。5.2基音周期估计—倒谱法去除语音信号中的声道响应的方法:采用线性预测方法(LPC),步骤如下:(1)在LPC中,语音信号s(n)可以表示为:(2)对输入语音进行LPC分析获得预测系数ai,并由此构成逆滤波器A(z)(3)再将原始语音通过A(z)进行逆滤波,则可以获得预测余量信号该余量信号不包含声道响应信息,但包含完整的激励信息。(4)对余量信号进行倒谱分析,可获得更为清晰准确的基音信息。5.2基音周期估计—倒谱法抑制噪声干扰的方法:由于语音基音频率低于500Hz,一般对原始语音或预测余量信号进行低通滤波处理。在倒谱分析中,可以直接将傅里叶逆变换之前的频域信号高频分量置0。这样既可以实现类似低通滤波的处理,又可以滤去噪声和激励源中的高频分量,降噪。5.2基音周期估计—简化逆滤波法&后处理简化逆滤波法的基本思想:先对语音信号进行LPC分析和逆滤波,获得语音信号的预测残差,然后将残差信号通过自相关滤波器滤波,再做峰值检测,进而获得基音周期。步骤如下:基音检测的后处理:原因:求得的基音周期轨迹中有偏离正常轨迹的基音周期估计值。方法:中值平滑、线性平滑、组合平滑。端点检测基音周期估计共振峰估计5.3共振峰估计共振峰的定义:当准周期脉冲激励进入声道时会引起共振特性,产生的一组共振频率。共振峰参数:共振峰频率和频带宽度;共振峰信息包含在语音频谱包络中,因此共振峰参数提取的关键是估计自然语音的频谱包络,并认为谱包络中的最大值就是共振峰。精准的共振峰估计遇到的困难:(1)虚假峰值:非线性预测分析方法的频谱包络估计器中容易出现;(2)共振峰合并:相邻共振峰的频率可能靠的太近难以分辨;(3)高音调语音:容易离开真实位置。5.3共振峰估计—带通滤波器组法带通滤波器组法:滤波器中心频率的选取:(1)等间距的分布在分析频段上,即,所有带通滤波器带宽相同,保证各通道的群时延相同;(2)非均匀分布,低频端间距小,高频端间距大,带宽也随之增加。5.3共振峰估计—倒谱法倒谱法的原理:为了消除基频谐波对于共振峰测定的影响,可采用同态解卷技术,将基音的各次谐波和声道的频谱包络分离开来。(1)对语音加窗
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026江苏苏州市常熟市卫生健康系统招聘备案制人员7人备考题库往年题考附答案详解
- 2026北京理工大学事业编制相关岗位招聘备考题库及参考答案详解(巩固)
- 2026浙江丽水市第二人民医院第一批引进高层次人才14人备考题库含完整答案详解【夺冠系列】
- 2026雀巢中国春季校园招聘备考题库(考试直接用)附答案详解
- 2026中国东方演艺集团有限公司子公司东方歌舞团有限公司总经理、副总经理岗位招聘3人备考题库附完整答案详解(夺冠)
- 2026中共温岭市委机构编制委员会办公室招聘编外人员1人备考题库附答案详解(a卷)
- 2026江苏南通市第一人民医院第一批招聘备案制工作人员102人备考题库含答案详解(模拟题)
- 2026年广州城建职业学院单招职业技能考试题库附答案详细解析
- 2026年河北省廊坊市高职单招职业技能考试题库附答案详细解析
- 2026年山东劳动职业技术学院单招职业适应性测试题库附答案详细解析
- 2026年3月15日九江市五类人员面试真题及答案解析
- 文化旅游嘉年华主题活动方案
- 投资促进局内部控制制度
- 2026年常州机电职业技术学院单招职业倾向性测试题库附答案详解(a卷)
- 2026教育培训产业市场供需分析与未来发展预测研究报告
- 2026春统编版六年级道德与法治下册(全册)课时练习及答案(附目录)
- 2026年安庆医药高等专科学校单招综合素质考试题库及答案1套
- 2026年《必背60题》抖音本地生活BD经理高频面试题包含详细解答
- 2025天津市西青经开区投资促进有限公司面向全国公开招聘招商管理人员4人备考笔试试题及答案解析
- 鼻饲喂养的技巧与技巧
- 2026年辽宁医药职业学院单招职业技能测试题库及完整答案详解1套
评论
0/150
提交评论