【《基于生成对抗网络的语音转换方法分析报告》7500字】

上传人：E*** IP属地：湖北上传时间：2025-11-11 格式：DOCX 页数：13 大小：1.71MB 积分：15 举报 版权申诉

已阅读5页，还剩8页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

基于生成对抗网络的语音转换方法分析报告目录TOC\o"1-3"\h\u9514基于生成对抗网络的语音转换方法分析报告 )其中被定义为沿着从真实数据分布和生成器假定的分布之间沿直线均匀采样的分布。由于最佳判别器由连接两个分布的直线组成，因此约束也是沿着直线统一进行的。与原始WGAN一样，生成器每更新一次，判别器更新n次。1.3基于CycleGAN的语音转换CycleGAN提出时是用于解决图像到图像之间的转换问题。其优点就在于可以学习到源域与目标域之间的转换关系而不需要在源域和目标域的训练数据之间去学习一对一的映射。CycleGAN主要由4个部分构成，2个生成器G和F以及2个判别器和。图3-5CycleGAN结构示意图令和分别是属于域X和Y的语音特征序列，其中Q是特征维度，N和M是序列的长度。CycleGAN的目的是学习将x的属性转换为y的生成器G和将y的属性转换为x的生成器F。判别器的作用是判断其输入x是否为属于域X的真实语音的特征序列，判别器的作用是判断其输入y是否为属于Y的真实语音的特征序列，并定义 (3-6) (3-7) (3-8) (3-9)为，G，和F的对抗损失。判别器和的目标是正确区分输入语音的真假，也就是区分输入语音是通过生成器G和F生成的语音的特征序列，还是真实语音的特征序列。和的大小可以衡量判别器和的性能，数值越小代表性能越好。和试图将这些损失减至最小以避免被生成器G和F愚弄。相反，由于生成器G和F的目标之一是生成与真实语音难以区分的语音，因此G和F试图最大化和来欺骗判别器和。可以证明，以这种方式训练的G和F的输出分布将匹配分布和。由于在和时和被最大化，因此也可以使用vb和作为G和F的对抗损失。根据训练结果，发现仅使用以上的对抗性损失对生成器G和F进行训练，并不能保证在训练结束后G或F生成的语音会保留输入语音的语言信息，因为存在无数的映射会导致相同的输出分布，结果就是语音的音色成功转换但语言内容发生丢失。为了进一步规范这些映射，我们引入了循环一致性损失。 (3-10)来促使和的达成。该损失的设计可使骨导语音在通过G转换为气导语音后，再通过F可转换回原始骨导语音，那么就可以保证在训练收敛后，生成的语音保留正确的语言信息。出于相同的目的，我们还设计了一个身份映射损失函数。 (3-11)以确保当输入G和F的语音特征已经分别属于域Y和X时，输出的特征仍与输入的保持不变，也就是说，当给G输入气导语音时，G的输出端得到的仍是相同的气导语音。结合前面的所有损失函数，可以得到生成器G和F的总损失函数为： (3-12)那么判别器和的总损失函数为： (3-13)其中和是正则化参数，它们是循环一致性损失和身份映射损失与对抗损失之间的权重。图3-6CycleGAN结构图生成器是基于卷积神经网络（CNN）的体系结构来设计，将语音特征序列作为输入，并输出相同长度的语音特征序列。生成器G由编码器和解码器网络组成。具体来说，使用了门控CNN，它最初被引入用于单词序列的语言建模的模型中，并且表现出优于在类似环境中训练的长短期记忆（LSTM）语言模型。先前有人将门控CNN架构应用于图像风格转换领域，其有效性已经得到证实。第l+1个隐藏层的输出描述为：(3-14)其中代表第l层的输出，，，和是要训练的生成网络参数，表示sigmoid函数。将的每个元素与的每个元素对应相乘，得到第l+1层的输出。这样就实现了利用sigmoid函数的特性来控制通过层级结构传播的信息，这种门控机制称为门控线性单元（GLU）。判别器：使用门控CNN设计判别器D，该门将语音特征序列作为输入，并产生一系列概率，这些概率代表每个片段是真实语音特征的可能性。判别器D的最后一层产生的概率将作为最终的输出，代表输入语音是真实语音的概率。在训练时，将每个维度的原始语音和目标语音的特征进行标准化。为了可以稳定的进行训练，我们用的是最小二乘GAN，它用最小二乘损失来代替的负对数目标损失。我们设置等于10，使用进行前10000次迭代，设置等于10。为了增加每一批数据的随机性，我们没有直接使用序列，而是从随机选择的语音文件中随机裁剪了一个固定长度的片段（128帧）。使用批大小为1的adam优化器训练网络，此外我们还把生成器的初始学习率设置为0.0002，把判别器的初始学习率设置为0.0001。在前5万次迭代中基本保持了同样的学习率，在接下来的5万次迭代中，我们将动量项设为0.5。CycleGAN模型的优点是在语音转换的任务上，可以达到较好的效果，并且模型收敛的速度较快。但他的缺点是只能对一种数据进行学习，对不同说话人的语音数据只能分别训练，模型的泛化能力一般。1.4基于StarGAN的语音转换当有足够的训练数据可用时，CycleGAN可以生成自然声音，但局限性在于它只能学习一对一的映射。当训练数据的类别较多时，需要训练很多对的映射关系，而且类别之间的数据不能互相利用，不利于训练出模型的泛化能力。而StarGAN能够创建多对多的映射，使用一个生成器G在类别之间转换样本，这样就充分利用了各个类别的数据，使模型的泛化能力得到增强。所以接下来使用StarGAN进行骨导语音与气导语音之间的转换。图3-7StarGAN结构示意图令G是一个生成器，它的输入是语音特征序列，和能代表目标语音特征的标签c，输出是生成的语音特征序列。语音属性包含一个或多个类别，如不同性别和不同个体的语音，他们的音色存在差别，每种音色都作为一个类别。因此，我们将标签c表示在one-hot向量中，向量在特定类别的索引处用1填充，而在其他地方用0填充，每个元素与一个不同的说话者相关联。StarGAN的目标之一是使听起来像真实的语音一样，并根据属性分类为标签c。为了实现这一点，我们引入了与CycleGAN一样的真/假判别器D和域分类器C。判别器用来判定输入y为真实语音特征的概率，而域分类器C用来计算输入语音y属于类别c的概率。对抗损失：首先，我们定义 (3-15) (3-16)为判别器D和生成器G的对抗损失，其中表示具有属性c的真实语音特征序列，而则表示具有随机属性的语音特征序列。当判别器D将和y正确地分类为生成的假语音和真实语音特征时，取较小值；而当生成器G成功欺骗判别器D时，取较小值，因此D将错误分类为真实语音特征。因此，我们训练判别器的目标是最小化，训练生成器G的目标是最小化。域分类损失：接下来，定义 (3-17) (3-18)为分类器C和生成器G的域分类损失。当分类器C将和正确分类为属于属性c时，和取较小的值。当经过充分训练后，和均接近0时，域分类器C既可以将真实语音y正确分类，同时也可将正确地分类。循环一致性损失：仅使用上述损失训练G，D和C并不能保证生成器G输出的语音将会保留输入语音的语言信息。因为有几乎无数种映射都可以满足使上面的那些损失最小化，比如可能会有生成的语音听起来是真实的，并且音色也是气导语音的，但是语音的语言信息却完全丢失，所以下面还需要加入另外的损失函数来约束。设属性c代表目标属性的语音，属性c’代表原始属性的语音，表示输入的语音特征是x并且以c为目标生成语音，接下来我们将G训练为具有双向映射能力的生成器，即骨导语音特征x在输入后，将输出的语音特征作为输入并且把生成的目标属性改为c’，再输入到，如果最后输出的语音特征与原始骨导语音特征x基本一致，那么就可以保证利用生成的语音的语言信息被完整的保留。因此，为解决这个问题，我们引入了循环一致性损失： (3-19)其中表示具有属性c’的真实语音的特征序列的训练用例。我们还引入了一个身份映射损失 (3-20)以确保当输入生成器G的语音特征x已经属于目标属性c’时，它的输出将与输入保持一致。最后，把在前面提到的损失函数整合在一起，成为训练G，D和C的最终损失函数： (3-21) (3-22) (3-23)其中，和是正则化参数，它们是域分类损失、循环一致性损失和身份映射损失之间的权重。图3-8StarGAN结构图生成器是基于卷积神经网络（CNN）的体系结构来设计，将语音特征序列作为输入，并输出相同长度的语音特征序列。生成器G由编码器和解码器网络组成，其中只有解码器网络采用属性c作为辅助输入。此外还将语音特征序列输入判别器D和域分类器C并输出概率序列。生成器：我们将语音特征序列x视为具有1个通道的大小的图像，并使用2DCNN构造G，它适合并行计算。具体来说，我们使用了门控CNN，它最初被引入用于单词序列的语言建模的模型中，并且表现出优于在类似环境中训练的长短期记忆（LSTM）语言模型。先前有人将门控CNN架构应用于图像风格转换领域，其有效性已经得到证实。在编码器部分，第l个隐藏层的输出描述为： (3-24)其中代表第l-1层的输出，，，和是要训练的生成网络参数，表示sigmoid函数。将的每个元素与的每个元素对应相乘，得到第l层的输出。这样就实现了利用sigmoid函数的特性来控制通过层级结构传播的信息，这种门控机制称为门控线性单元（GLU）。在解码器部分，第l个隐藏层的输出由 (3-25) (3-26)给出，其中表示和沿着通道维度的串联，由包含目标属性的one-hot向量沿着帧数的维度扩展得到。生成器G的第一层的输入为，最后一层的输出为线性投影： (3-27) (3-28)整个架构是完全卷积的，没有全连接层，这使得我们可以将具有任意长度的整个语音特征序列作为输入并将整个序列进行转换。判别器：我们使用门控CNN设计判别器D，该门将语音特征序列y和属性标签c作为输入，并产生一系列概率，这些概率代表y的每个片段是属性c的真实语音特征的可能性。判别器D的第l层的输出为： (3-29) (3-30)最后一层产生的概率将作为最终的输出。域分类器：该分类器采用语音特征序列y并生成一系列的概率，这些概率代表y的每个片段属于属性c的可能性。域分类器C的第l层的输出为： (3-31)最后一层产生的概率将作为最终的输出。训练之前先设置好参数，在本课题的实验中，我们将设置为10，批大小（batchsize）设置为32。与CycleGAN一样，用最小二乘损失代替的负对数目标损失，并且使用进行前10000次迭代，设置等于10。为了增加每一批数据的随机性，不去直接使用特征序列，而是从随机抽取的语音文件中裁剪了一个固定长度的片段（128

人人文库> 全部分类> 行业资料 > 工业设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

【《基于生成对抗网络的语音转换方法分析报告》7500字】

文档简介

温馨提示

最新文档

评论

【《基于生成对抗网络的语音转换方法分析报告》7500字】

文档简介

温馨提示

最新文档

评论

相关文档