高斯混合模型参数估值算法的优化_第1页
高斯混合模型参数估值算法的优化_第2页
高斯混合模型参数估值算法的优化_第3页
高斯混合模型参数估值算法的优化_第4页
高斯混合模型参数估值算法的优化_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、高斯混合模型参数估值算法的优化论文导读::本文针对EM算法这种局部收敛特性。高斯混合模型(GaussianMixtureModels。也是最近几年语音转换领域用于频谱包络的转换【5】使用最多的方法。论文关键词:EM算法,高斯混合模型,语音转换0 引言语音识别和转换技术是比拟新的研究领域,也逐渐成为研究重点和热点,在多媒体、配音、多语言交互、保密通信等方面得到了广泛应用。高斯混合模型(Gaussian Mixture Models,GMM)被广泛应用于语音识别领域【4】,也是最近几年语音转换领域用于频谱包络的转换【5】使用最多的方法。基于高斯混合模型的识别方法的根本原理是对说话人集合中的每一个体

2、建立一个概率模型,将说话人的个性特征在特征空间的分布抽象为该概率模型随机产生的结果。相对于其他转换算法的对频谱特征进行量化然后对应,GMM模型是基于对频谱包络特征进行软分类对应,克服了矢量量化的不连续性,得到比拟好的语音转换质量。高斯混合模型的参数估计问题有很多方法,其中EM算法【6】是建立在最大似然估计根底上的一种针对不完全数据可实现的迭代算法。其收敛问题依赖于初始值的设定,不能估计模型的阶数,容易陷入局部收敛值。本文针对EM算法这种局部收敛特性,结合常用的遗传算法(GA)【7】的全局搜索特性,对其加以改良。1 基于EM的高斯混合模型参数估值1.1高斯混合模型一个M阶的混合高斯模型的概率密度

3、函数可以表示为式式(2)中是均值矢量,是协方差矩阵,通常情况下完整的混合高斯模型由参数均值向量、协方差矩阵和混合权重组成,表示为语音特征通常有着平滑的概率密度函数,因此有限数目的高斯密度函数就足以对语音特征的密度函数形成平滑逼近。适当地选择GMM和均值、协方差和概率权重语音转换,就可以完成对一个概率密度函数的建模。对角化的协方差矩阵,就可以形成较好的近似,减少需要估计的未知变量的数目。1.2 EM估值算法GMM模型的参数估计通过给定的一组语音训练数据,依据某种准那么求出模型的参数,使确定的GMM模型能最正确的描述给定语音训练数据的概率分布。最常用的估计方法是最大似然(Maximum Likel

4、ihood,简称ML)估计,设一组给定的用于训练的语音特征矢量序列为,GMM的似然度可以表示为 ,训练的目的就是找到一组参数,使的最大,即 。式(3)是关于的非线性函数,通常很难直接求得其参数杂志网。 一般采用EM(Expectation Maximization)算法来估计的值。EM算法是一种递归最大似然算法,是ML算法的一种替代算法,用于从一组训练数据序列中估计模型的参数。它的计算是从参数的一个初值开始,采用EM算法估计出下一个新的参数,使得新的模型参数下的似然度。新的模型参数再作为新的初始模型参数进行训练,这样迭代运算进行下去直到模型收敛。EM算法的迭代过程(第n+l步)表示如下:(1)

5、混合权值的重估迭代公式(2)均值的重估公式(3)方差的重估公式以上三个公式中的后验概率,表示为以上公式同时执行了求期望值(E步)和最大化(M步)。对EM算法中E步、M步重复迭代,当找到似然函数的极大值时停止迭代。2 遗传算法对EM估值算法的优化2.1 EM估值算法的局限EM算法因具有宽广的使用范围和可以移植到各种不同的问题而被广为应用,EM算法假设任一帧语音是出自模型的哪个高斯分量这一信息是可知的,来简化极大似然的优化目标函数,分别经过E步求出期望值,和M步调整模型参数最大化目标函数来逐步收敛,E步骤和M步骤隐含确定每一步的方向和距离。因此,EM算法对初始条件是敏感的,选择不同的初始条件会得到

6、不同的局部最大值。容易想到的方法是,在实验过程中使用不同的初始值设置屡次运行EM算法,从多个局部最优中选择一个最优值,这样可以降低最终只得到一个相当差的局部最优值的可能性。但是考虑到EM算法的复杂度是由两个因素共同决定的:收敛所需迭代的次数及每个E和M步骤的复杂度,实践中经常发现当EM算法接近解时,它收敛的相当慢,所以上述设置多个初值运行屡次再在其中择优的方法,大大的增加了转换函数训练的代价,常常是无法接受的,所以需要寻找一种可以接受的优化算法和传统的EM算法结合到一起使用。2.2 采用遗传算法进行优化近年来,遗传算法已经在国际上许多领域得到了应用,在语音技术领域,已出现很多结合遗传算法的研究

7、。作为一种自适应全局优化搜索算法,遗传算法具有一些独特的优点语音转换,首先,在求解问题时,遗传算法首先要选择编码方式,它直接处理的对象是参数的编码集而不是问题参数本身,搜索过程既不受优化函数连续性的约束,也没有函数导数必须存在的要求。通过优良染色体基因的重组,遗传算法可以有效地处理传统上非常复杂的优化函数求解问题。其次遗传算法具有很高的并行性,具有明显的搜索效率。最后,遗传算法具有较好的普适性和易扩充性,针对某一问题的遗传算法经简单修改即可适应于其他问题,与已有算法相结合,能够较好地解决一类复杂问题。本文将EM算法与遗传算法相结合,以提高算法的收敛速度。用遗传算法优化的EM算法根本流程如图1所

8、示。图1 GAEM算法流程图算法的构成要素有:编码方式,初始种群,适应度函数等,简要描述如下:(1)编码方法:一个GMM的参数可以用混合权值矢量、均值矩阵和协方差矩阵来加以描述,对于协方差矩阵类型,采用对角阵型式也可以获得同样的建模能力,并具有简化计算的效果。假设M为高斯混合模型分量个数,D是提取的特征矢量的维数,那么GMM的参数形式为:权值C,m=l,2,M,均值矩阵Mean,协方差矩阵Covar,由于在语音转换中,GMM的参数值都是实数值,因此在遗传算法中用实数串作为染色体的描述。借鉴文献中的做法,定义遗传算法中的染色体结构定义如下: C【1】Mean【1】【1】Mean【1】Covar【

9、1】【1】Covar【1】C【2】Mean【2】【1】Mean【2】 Covar【2】【1】Covar 【2】CMean【1】MeanCovar【1】Covar (3)适应度函数:在遗传算法中,适应度值由目标函数得出,本文参考了文献中的模式选择函数,将目标函数定义为由第n个GMM模型。产生联合观察矢量序列Z1,Z2Z3的条件概率的对数平均值:,其中N为观察矢量的数目。(4)混合操作:也称交叉操作,是遗传算法中产生新个体的主要方法,它决定了遗传算法的全局搜索能力。这里的交叉是从P(t)中,随机选择两个入口,采用单点交叉方式,依照一定的交叉概率,随机选择一个交叉点,然后互换交叉点右侧的染色体结构中

10、的基因,产生后代个体P(t);,其数量H由交叉概率来控制H=PcxK,本文Pc设置为0.5。(5)选择操作:对包含K个个体的P(t)和H个个体的P(t);,分别对他们进行适应度计算后,按照最优保存的原那么,从中选择适应度最高的前K个个体,保存形成下一代种群杂志网。选择操作使得适应度强的个体以较大概率为下一代提供一个或多个个体,表达适者生存的原那么。(6)变异操作:为了寻找不同的解空间和保持种群的多样性,采用变异操作,它恢复了在初始化阶段丧失的信息,使遗传算法避开初始化模型参数的影响,有利于发现最优模型参数集。为了减少计算的代价,在本文中使用的变异操作只用于对均值的变异,且以一个非常低的概率Pm

11、=O.02进行,通过产生一个在数据集的上下界之间正态分布的随机数,用它乘以要变异的染色体的均值。以上算法中,将遗传算法和EM过程交叉进行,使用最优保存策略,将当前种群中最优的个体直接复制到下一代,保证了第t+l代种群中的个体不比第t代中的个体差。整个算法由最大进化次数来控制,到达最大的进化次数之后,从中选择适应度最优的一个个体,解码其参数语音转换,进一步利用EM算法进行最大似然估计,直到算法收敛,即两次迭代得到的似然函数差值小于预设的门限阈值为止。这样,就得到了利用遗传算法优化的一个高斯混合模型。3 实验结果分析为检验算法效果,进行改良EM算法和传统EM算法的比照实验,实验采用matlab仿真

12、工具,借助voicebox中的工具函数对语音信号进行读入,使用相对的谱失真百分比测度来进行评价。实验分为男声转女声和女声转男声两种情况,每种情况下分别比照了不同高斯分量数目下使用上述算法前后的谱失真测度变化情况。实验主要参数设置为:初始种群大小为10,交叉概率Pc=O.5,变异概率Pm=O.02,最大进化代数为20。图2 男声转女声失真度比值图3 女声转男声失真度比值从图2图3可以看出使用优化算法得出的高斯混合模型所转换出来的语音,相对于一般EM估计算法得出的高斯混合模型所转换出来的语音,具有较小的失真测度值,证明使用遗传算法对高斯混合模型的参数进行估计,能够一定程度上改善的语音质量。4 结束

13、语采用遗传算法的全局搜索特性与EM算法相结合,实验证明这样的优化算法对高斯混合模型的参数估计有所改良。在提高转换后语音的质量方面,本文的算法是可行的。付出的代价是算法复杂度的提高和运算时间的增加,实验中上述算法对模型参数进行估计时,训练时间经常会成倍的增加,与获得的质量改善相比,这是一个需要权衡考虑并加以进一步研究的问题。参考文献:【1】ReynoldsD A. An overview of automatic speaker recognition technology. IEEE Trans onipeech and Audio Processing, 2002, 10(4): 472-4

14、75.【2】Kain.High resoulation voice transformation. Computer Science and Mathematics,Rockford College, 1995, 47-52.【3】ZHANGKai, ZHU Lixin, ZHAO Yizheng. Research on modified GMM based voice conversionmethod. Technical Acoustics,2021, 27(3. Pt.2): 392-397.【4】张凯,朱立新,赵义正.基于重训练高斯混合模型的语音转换方法. 声学技术,2021,29(

15、1):52-55【5】赵义正.改良GMM谱包络转换性能的语音转换算法研究. 科学技术与工程,2021,1017:4172-4174【7】Tang,K.S.,Man,K.F.,Kwong,S.,He,Q.Genetic algorithm and their applications;.IEEE Signal ProcessingMagazine 13(6),PP.22-37,1996Hong,Q.Y.,Kwong,S,A genetic classification method for speaker recognition;,Engineering Applications of Artificial Intelligence,V0118,Issue:1,pp.13-19,February,2005田生文,王伊蕾,李阿丽.一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论