数字语音信息处理课件第4章常用建模方法

上传人：q*** IP属地：山东上传时间：2025-09-08 格式：PPTX 页数：93 大小：7.52MB 积分：15 举报 版权申诉

已阅读5页，还剩88页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

我们毕业啦其实是答辩的标题地方第四章常用建模方法马勇江苏师范大学2目录2高斯混合模型3隐马尔可夫模型4支持向量机5神经网络1矢量量化深度神经网络64.1矢量量化矢量量化（VQ，即VectorQuantization）是一种极其重要的信号压缩方法。VQ在语音信号处理中占十分重要的地位。广泛应用于语音编码、语音识别和语音合成等领域。量化分为两类：*标量量化：将取样后的信号值逐个地进行量化。*矢量量化：将若干取样信号分成一组，即构成一个矢量，然后对此矢量一次进行量化。凡是要用量化的地方都可以采用矢量量化。

矢量量化是实现数据压缩的一种有效方法，早在50和60年代就被用于语音压缩编码。直到70年代线性预测技术被引入语音编码后，矢量量化技术才活跃起来。80年代初，矢量量化技术的理论和应用研究得到迅速发展。采用矢量量化技术对信号波形或参数进行压缩处理，可以获得很好的效益，使存储要求、传输比特率需求或和计算量需求降低.采用矢量量化的效果优于标量量化的原因？

矢量量化能有效的应用矢量中各分量之间的四种相互关联性质来消除数据中的冗余度。这四种相互关联的性质是线性依赖(相关性)、非线性依赖(统计不独立)、概率密度函数的形状和矢量量化的维数，而标量量化仅能利用线性依赖和概率密度函数的形状来消除冗余度。矢量量化研究的目的？

针对特定的信息源和矢量维数，设计出一种最优化的量化器，在R（量化速率）一定的情况下，给出的量化失真尽可能接近D(R)(最小量化失真)。矢量量化的基本原理

标量量化是对信号的单个样本或参数的幅度进行量化；标量是指被量化的变量，为一维变量。

矢量量化的过程是将语音信号波形的K个样点的每一帧，或有K个参数的每一参数帧构成K维空间的一个矢量，然后对这个矢量进行量化。

标量量化可以说是K＝1的矢量量化。矢量量化过程和标量量化过程相似。将K维无限空间划分为M个区域边界，然后将输入矢量与这些边界进行比较，并被量化为“距离”最小的区域边界的中心矢量值。矢量量化的定义

将信号序列的每K个连续样点分成一组，形成K维欧式空间中的一个矢量，矢量量化就是把这个K维输入矢量X映射成另一个K维量化矢量。其中量化矢量构成的集合称为码书或码本，码书中的每个矢量称为码字或者码矢。

以K＝2进行说明：当K＝2时，所得到的是二维矢量。所有可能的二维矢量就形成了一个平面。记为（a1,a2）,所有可能的（a1,a2）就是一个二维空间。如图所示矢量量化概念示意图

矢量量化就是将这个平面划分为M块S1，S2，…，Si…SM，然后从每一块中找出代表值Yi（i＝1，2….M），这就构成一个有M个区间的二维矢量量化器。图所示的是一个7区间的二维矢量量化器，即K＝2，M＝7。通常这些代表值Yi称为量化矢量。对一个矢量X进行量化，首先选择一个合适的失真测度，然后用最小失真原理，分别计算用量化矢量Yi替代X所带来的失真。其中最小失真值所对应的那个量化矢量，就是矢量X的重构矢量（或恢复矢量）。

所有M个量化矢量构成的集合称为码书或码本；把码书中的每个量化矢量Yi（i＝1，2….M）称为码字或码矢。不同的划分或不同的量化矢量选取就可以构成不同的矢量量化器。注：根据仙农信息论，矢量越长越好。实际中码书是不完备的，即矢量数是有限的，而对于任何一个实际应用来说，矢量通常是无限的。在实际运用中，输入矢量和码书中码字不匹配的情况下，这种失真是允许的。存在的问题

一、如何划分M个区域边界。方法是：将大量欲处理的信号的矢量进行统计划分，进一步确定这些划分边界的中心矢量值来得到码书。二、如何确定两矢量在进行比较时的测度。

这个测度就是两矢量间的距离，或以其中某一矢量为基准时的失真度。它描述了当输入矢量用码书所对应的矢量来表征时所付出的代价。

VQ的原理框图编码端译码端信道

工作过程：在编码端，输入矢量Xi与码书中的每一个码字进行比较，分别计算出它们的失真。搜索到失真最小的码字的序号（或该码字所在码书中的地址），这些序号就作为传输或存储的参数。在恢复时，根据此序号从恢复端的码书中找出相应的码字。由于两本码书完全相同，此时失真最小，所以

就是输入矢量Xi的重构矢量。特点：传输存储的不是矢量本身而是其序号，所以据有高保密性能收发两端没有反馈回路，因此比较稳定矢量量化器的关键是编码器的设计，译码器只是简单的的查表过程。矢量量化的性能指标除了码书的大小M以外还有由于量化而产生的平均信噪比。

矢量量化的准则：在给定码本大小K时使量化所造成的失真最小。

矢量量化的设计：从大量信号样本中训练出好的码书，从实际效果出发寻找最好的失真测度定义公式，设计出最佳的矢量量化系统，以便用最少的搜索和计算失真的计算量，来实现最大可能的平均信噪比。4.1.2失真测度

前面我们讲过设计矢量量化器的关键是编码器的设计。而在编码的过程中，就需要引入失真测度的概念。

失真测度（距离测度）：是将输入矢量Xi用码本重构矢量Yi来表征时所产生的误差或失真的度量方法，它可以描述两个或多个模型矢量间的相似程度。失真测度是矢量量化和模式识别中一个十分重要的问题，选择合适与否直接影响系统的性能。

失真是将输入信号矢量用码书的重构矢量来表征时的误差或所付出的代价。这种代价的统计平均值（平均失真）描述了矢量量化器的工作性。失真度选择必须具备的特性必须在主观评价上有意义，即小的失真应该对应于好的主观语音质量；必须是易于处理的，即在数学上易于实现，这样可以用于实际的矢量量化器的设计；平均失真存在并且可以计算；易于硬件实现失真测度主要有均方误差失真测度（即欧氏距离）、加权的均方误差失真测度、板仓－斋藤（Itakura－Saito）距离，似然比失真测度等，还有人提出的所谓的“主观的”失真测度。VQ常用的失真测度

4.1.3VQ模型学习方法

VQ学习注意的内容在VQ模型学习过程中，码书的初始化和空胞腔的去除对模型的结果有重要的影响。下面介绍一下这两方面内容。码书的初始化方法包括随机初始化法和分裂法。随机初始化方法是从训练序列中选取N个矢量作为初始码字，构成初始码书。随机初始化方法的优点是计算效率较高，不存在空胞腔问题。但是也存在选取非典型矢量码字作为形心的问题，还会造成部分空间把胞腔分的过细或者过大的情况。4.1.4矢量量化的改进1.无记忆的矢量量化器无记忆矢量量化器是指量化每个矢量时，不依赖此矢量前面的其他矢量，每一个输入矢量都是独立进行量化的。全搜索矢量量化器也是一种无记忆的矢量量化器。2.有记忆的矢量量化器

有记忆矢量量化器在量化的每一个输入矢量时，不仅与此矢量本身有关，而且与前面矢量有关，即在VQ过程中通过记忆来利用矢量与矢量之间的相关性。常用的有记忆矢量量化器包括预测矢量量化器（PredictiveVQ,PVQ）和有限状态矢量量化器（FiniteStateVQ,FSVQ）。4.2.1GMM的基本原理

混合高斯分布模型是只有一个状态的模型，在这个状态里具有多个高斯分布函数GMM模型的基本概念

高斯混合模型（GMM）可以看做一种状态数为1的连续分布隐马尔科夫模型CDHMM。一个M阶混合高斯模型的概率密度函数是由M个高斯概率密度函数加权求和得到，所示如下：

其中是一个D维随即向量，是子分布，，是混合权重。每个子分布是D维的联合高斯概率分布，可表示为：

其中是均值向量，是协方差矩阵，混合权重值满足以下条件：

完整的混合高斯模型由参数均值向量、协方差矩阵和混合权重组成，表示为：

对于给定的时间序列，利用GMM模型求得的对数似然度可定义如下：4.2.2期望最大化算法GMM模型的训练就是给定一组训练数据，依据某种准则确定模型参数。最常用的参数估计方法是最大似然估计（ML）估计。对于一组长度为T的训练矢量序列

，GMM的似然度可以表示为：

由于上式是参数的非线性函数，很难直接求出上式的最大值。因此，常常采用EM算法估计参数。EM算法的计算是从参数的一个初值开始，采用EM算法估计出一个新的参数，使得新的模型参数下的似然度

新的模型参数再作为当前参数进行训练，这样迭代运算直到模型收敛。每一次迭代运算，下面的重估公式保证了模型似然度的单调递增。混合权值的重估公式：均值的重估公式：方差的重估公式：其中，分量i的后验概率为：GMM模型的应用

给定一个语音样本，说话人辨认的目的是要确定这个语音属于N个说话人中的哪一个。基于GMM的说话人辨认系统结构框图如下图所示。

根据Bayes理论，最大后验概率可表示为：

在这里：

其对数形式为：因为的先验概率未知，我们假定该语音信号出自封闭集里的每一个人的可能性相等，也就是说：

对于一个确定的观察值矢量X，P(X)是一个确定的常数值，对所有说话人都相等。因此，求取后验概率的最大值可以通过求取获得，这样，辨认该语音属于语音库中的哪一种说话人可以表示为：

其中即为识别出的说话人。GMM模型训练要注意的问题GMM参数初始化GMM超参数的选择GMM的协方差异常4.3.1隐马尔可夫模型隐马尔可夫模型（HiddenMarkovModels，简称HMM）是一种统计模型。Markov链

Markov链是Markov随机过程的特殊情况，它是状态和时间参数都离散的Markov过程。Markov链齐次Markov链定义k步转移概率当Pij与m无关时，即有

,称之为齐次Markov链。在语音信号处理中，我们主要使用的就是齐次Markov链。k步转移概率可以通过一步转移概率Pij(1)来计算，一般简记Pij(1)为aij，称之为转移概率。齐次Markov链概率计算一个（齐次）Markov链可以用如下参数来描述1转移概率矩阵有和2初始概率其中且有和4.3.2隐马尔可夫模型三个基本问题实际问题比Markov链模型所描述的更为复杂。观察到的事件并不是与状态一一对应，而是通过一组概率分布相联系。使用双重随机过程来描述模型，一个是Markov链，描述状态的转移；另一个随机过程描述状态和观察值之间的统计对应关系。由于状态是不可见的，因此称之为“隐”Markov模型。一个HMM的例子缸和球HMM的参数描述状态转移概率矩阵A=初始状态概率观察概率序列B=一个HMM的参数组为：HMM的三个基本问题

1已知一个HMM参数组，及给定一个观察序列的条件下，如何计算在给模型条件下观察序列O的概率。2如何确定最佳状态序列,以最好的解释观察序列O。3给定一个观察序列的集合，如何调整模型参数，以使达到最大值。问题一：计算概率先计算，其中Q为一给定的状态序列有：而所以前向—后向算法上式的计算量是十分惊人的，大约为数量级，当时，计算量达，这是完全不能接受的。必须寻找快速有效的算法。前向—后向算法

定义前向变量为:

表示从1到t，输出符号o序列，t时刻处于状态i的累计输出概率。计算流程计算量为，N=5T=10时，只需3000次乘法运算格型结构例1前向概率计算

后向算法定义后向变量为有初值有递推关系且易知表示t时刻处在状态i，将产生o序列的概率。问题二：最佳状态链的确定（识别问题）确定一个最佳状态序列，使为最大。Viterbi算法定义Viterbi算法事实上是中举足轻重的唯一成分，因此，常常等价地使用来近似。即Viterbi算法也就能用来计算。在连接词和连续语音识别中，更多地采用Viterbi算法来进行识别操作。因为它不仅能计算得分，还能通过最佳状态链获得词的边界信息。问题三：HMM模型的训练

给定一个观察值序列确定一个

，使最大。实际上，不存在一种方法直接估计最佳的。，替代的方法是：

根据观察值序列选取初始模型然后依据某种方法求得一组新参数，保证有。重复这个过程，逐步改进模型参数，直到收敛。Baum-Welch算法这一方法，未必能求得全局最大值、而有可能得到一局部极值点经典的方法：Baum-Welch算法。（简称B-W算法）

Baum-Welch算法的理论基础是EM算法。EM（expectationmaximization）算法EM算法是一种从“不完全数据”中求解模型分布参数的最大似然估计方法。优化的对象是似然函数的期望值。Baum-Welch算法

定义为给定训练序列和模型时，HMM模型在t时刻处于状态i，t+1时刻处于状态j的概率。易证定义HMM模型在t时刻处于状态i的概率为。HMM重估公式重估公式可写成如下形式若观察概率采用离散值4.3.3HMM的结构类型1.按HMM的拓扑结构分类HMM的拓扑结构主要有自左向右型和全连接型，自左向右型HMM结构状态是指按照时间顺序方向，隐状态从左边向右进行转移，也可以停留在自身状态2.按HMM的输出概率分类根据模型输出概率分布，HMM还可以分为离散和连续两种类型。4.3.4GMM-HMM算法若观察概率为多维连续高斯概率密度函数形式，即则GMM-HMM若观察概率为混合高斯分布形式，即则重估公式写为式中4.3.5HMM的自适应算法

HMM模型常用的自适应算法主要有自适应方法有最大后验概率估计（MaximumAPosterioriEstimation,MAP）和最大似然线性回归（MaximumLikelihoodLinearRegression,MLLR）

4.4支持向量机

支持向量机（SupportVectorMachine,SVM）是20世纪90年代逐渐成熟的机器学习方法，其本质是寻找在特征空间间隔最大的线性或非线性分类器。SVM根植于结构风险最小化理论，面向小样本数据的建模分类，有效克服了模式识别和机器学习研究中的维数灾难和过学习等问题。

4.4.2对偶优化

4.4.3非线性SVM

4.4.4支持向量回归

4.5神经网络

神经网络（NeuralNetwork,NN）或人工神经网络（ArtificialNeuralNetwork,ANN）是受生物神经网络启发而发明的神经元连接组成的网络状机器学习模型。NN具有非线性、自适应和易于实现等特点，对于复杂数据的建模有一定的优势。

神经网络是一种模拟人脑结构的机器学习模型，人脑中神经元是最基本的信息处理单元，1943年，McCulloch和Pitts根据生物神经元的结构首次提出了M-P神经元模型。1958年Rosenblatt提出了感知器模型，这种模型可以利用Hebb学习规则，通过迭代的方式自动调整网络参数。感知器模型的提出在神经网络历史上具有里程碑意义，标志着真正意义上的神经网络模型的出现。4.5.2多层感知器上世纪80年代，随着多层感知器（Multi-layerPerceptron,MLP）模型和误差反向传播算法（BackPropagation,BP）的提出，神经网络进入了第二次研究热潮时期。MLP的结构由输入层、输出层和隐含层构成。xyh

W14.5.3误差反向传播算法

标准BP算法vs.累积BP算法

标准BP算法•每次针对单个训练样例更新权值与阈值•参数更新频繁,不同样例可能抵消,需要多次迭代

累积BP算法•其优化目标是最小化整个训练集上的累计误差•读取整个训练集一遍才对参数进行更新,参数更新

频率较低在很多任务中,累计误差下降到一定程度后,进一步下降会非常缓慢,这时标准BP算法往往会获得较好的解,尤其当训练集非常大时效果更明显.4.5.4NN过拟合问题主要策略：

早停(earlystopping)•若训练误差连续a轮的变化小于b,则停止训练•使用验证集：若训练误差降低、验证误差升高

,则停止训练例如

正则化(regularization)•在误差目标函数中增加一项描述网络复杂度偏好比较小的连接权和阈值，使网络输出更“光滑”全局最小vs.局部极小

神经网络的训练过程可看作一个参数寻优过程：在参数空间中，寻找一组最优参数使得误差最小

•存在多个“局部极小”

•只有一个“全局最小” “跳出”局部极小的常见策略：

不同的初始参数模拟退火随机扰动遗传算法……4.6深度神经网络

与浅层神经网络相比，深层神经网络（DeepNeuralNetworks,DNN）具有以下优势：具有强大的函数近似能力；明确的层次性学习能力，深层神经网络的底层节点提取样本的原始特征，而深层节点可以抽象出样本的语义信息和不变特征；无监督的特征表征能力，提高神经网络的应用场景；海量参数的出现推动深层神经网络从量变到质变的发展。4.6.2深度信念网络（DeepBeliefNetwork）深度信念网络是深度的概率有向图模型和全连接的神经网络结构相同。顶部的两层为一个无向图，可以看做是一个受限玻尔兹曼机。认知权重生成权重DNN的原理框图深度信念网络中所有变量的联合概率可以分解为局部条件概率局部条件概率认知权重生成权重

只有一层的简单Sigmoid信念网络参数学习训练深度信念网络-逐层训练逐层训练是能够有效训练深度模型的最早的方法。训练深度信念网络-精调（Fine-Tuning）作为判别模型的精调深度信念网络作为神经网络的预训练模型作为生成模型的精调ContrastiveWake-Sleep算法Wake阶段：认知过程，通过外界输入（可见变量）和向上认知权重，计算每一层隐变量的后验概率并采样。然后，修改下行的生成权重使得下一层的变量的后验概率最大“如果现实跟我想象的不一样，改变我的权重使得我想象的东西就是这样的”；Sleep阶段：生成过程，通过顶层的采样和向下的生成权重，逐层计算每一层的后验概率并采样。然后，修改向上的认知权重使得上一层变量的后验概率最大。“如果梦中的景象不是我脑中的相应概念，改变我的认知权重使得这种景象在我看来就是这个概念”；交替进行Wake和Sleep过程，直到收敛。训练深度信念网络-精调（Fine-Tuning）认知权重生成权重4.6.3常用DNN模型在图像处理中，图像是以二维矩阵的形式输入到神经网络中，因此我们需要二维卷积。1卷积作为特征提取器二维卷积步长1，零填充0步长2，零填充0步长1，零填充1步长2，零填充1卷积神经网络用卷积层代替全连接层互相关计算卷积需要进行卷积核翻转。卷积操作的目标：提取特征。翻转是不必要的！互相关除非特别声明，卷积一般指“互相关”。多个卷积核

按时间展开2简单循环网络

（SimpleRecurrentNetwork，SRN）状态更新：一个完全连接的循环网络是任何非线性动力系统的近似器。循环神经网络作用输入-输出映射机器学习模型（本节主要关注这种情况）存储器联想记忆模型3时延神经网络TDNN是面向序列数据的模型，其主要特点时可以针对动态时域特征进行建模，网络隐含层的节点不仅与当前时刻的输入有关，而且还与过去时刻和未来时刻的输入有关，这样TDNN具有丰富的上下文信息，而非全连接的特点还进一步降低了模型的复杂度。4.6.4Transformer架构92编码器由N个block堆叠而成；每个block有两层：Multi-Head

Attention(Self-Attention)

Add(Residual

Connection)

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数字语音信息处理课件第4章常用建模方法

文档简介

温馨提示

最新文档

评论

数字语音信息处理 课件 第4章 常用建模方法

文档简介

温馨提示

最新文档

评论

相关文档

数字语音信息处理课件第4章常用建模方法