【《基于GAN的语音转换相关技术概述》1900字】_第1页
【《基于GAN的语音转换相关技术概述》1900字】_第2页
【《基于GAN的语音转换相关技术概述》1900字】_第3页
免费预览已结束,剩余1页可下载查看

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于GAN的语音转换相关技术概述目录TOC\o"1-3"\h\u28543基于GAN的语音转换相关技术概述 1247761.1语音转换 149931.2GAN里的loss函数 1162061.3常见的基于GAN的语音转换方式 2104741.3.1CycleGAN-VC 2149091.3.2StarGAN-VC 3语音转换语音转换(VC)是语音信号处理领域的重要组成部分,在保持说话语义不变的同时,将语音中源说话人的声音特征转换为目标说话人的特征。语音转换系统在转换过程中通过对语音信号的分析和特征计算,从中获取语音特征进行特征转换。一个成功的VC框架涉及基于高斯混合模型(GMMs)的统计方法。目前,一个基于神经网络(NN)的框架基于前馈深度神经网络,递归神经网络和生成对抗网络(GANs),以及基于非负矩阵分解的基于示例的框架(NMF)也被证明是成功的。传统的语音转换只能用在源和目标说话人已经进行时间对齐后的语音训练,但是,在许多情况下,很难收集到平行的语音信息。非平行的语音转换方法则不需要执行时间对齐操作,由于与训练条件有关的缺点,现有的非平行语音转换方法为了取得高质量的音频转换效果一直在不断改进。GAN里的loss函数生成对抗网络GAN包含两种网络,一个是生成网络,一个是对抗网络。生成网络和对抗网络中分别包含生成器G和判别器D,还含有生成网络损失函数Loss_G和判别网络损失函数Loss_D。在D中,通过Loss_D的值来判断数据的真伪,0为生成器生成的伪数据,1为真数据。可以用二进制交叉熵(BCELoss)来实现只有两个分类的Loss_D。在离散的情况下,假设信号源(S)可以发送N个符号{S1,S2,S3,……,SN},符号Si出现的概率为Pi,则该信号源所发送的一个符号的平均信息量为

HS=。这样我们就得到了一个概率的信息度量,对于连续概率分布,可以使用概率密度QUOTEp(x)p(x)来代替(3-1)式子中的概率Pi。交叉熵式描述两个随机分布(P、Q)差异的一个指标,其定义如下:

离散:HP|Q(3-2)连续:HP|Q(3-3)当两个随机分布P、Q相同时,交叉熵取得最小值。对于二进制交叉熵来说,P、Q是一个二进制分布,只有0和1两种状态。假设q为Q状态为1的概率,1-q为Q状态为0的概率。同样的,设p为P状态为1的概率。则可以得到离散情况下P、Q的交叉熵为:H(3-4)在GAN中,判别器D的输出与ground-truth被看作是概率,通过交叉熵来衡量二者概率之间的差异。p反映的是ground-truth认为来自real的概率,用L表示它的分布,只有1和0两种情况;q反映的是判别器D认为的来自real的概率,取值也是[0,1]。假设有样本数据集,一半来自源真实数据集(real),一半来自生成器G生成的伪数据集(fake),则交叉熵的平均为

H(3-5)D的目标是让Pd接近理想概率分布Pi,因此交叉熵越小越好,即让Loss_D(L,D)等于H(L|D)。常见的基于GAN的语音转换方式CycleGAN-VCCycleGAN-VC[7]是一种使用了具有门控卷积神经网络(CNN)和身份映射的周期一致对抗网络(CycleGAN)的非并行语音转换方法,不需要依赖平行文本数据,该方法可以学习从源语音到目标语音的正向和反向映射。它是通用且高质量的,不需要进行数据对齐等工作就可以进行语音转换。对抗性损失可以基于不可区分性而使转换后的语音接近目标语音,而无需明确的密度估计。这样可以避免由于统计平均引起的过度平滑,这种现象在许多传统的基于统计模型的显式表示数据分布的基于VC的方法中都会发生。假设收集两个说话人的声音,用speakerX和speakerY分别表示,向Gxy输入speakerX的声音信息,Gxy把X的声音转换为Y的声音。为了训练Gxy,我们需要给Dy提供很多Y的声音,Dy在接收到输入的声音信号后,会输出一个scalar,来判断像不像Y的声音。为了防止得到的声音信号不是想要的,需要再添加一个Gyx把从Gxy获得的伪声音信息Y变回声音X。当输入和输出的两段声音信号X越接近,训练效果则越好。下图3-1是双向的CycleGANVC训练过程。图31CycleGANVC训练过程图StarGAN-VCStarGAN-VC[8]是一种使用名为StarGAN的生成对抗网络(GAN)的变体进行非并行多对多语音转换(VC)的方法。对于CycleGANVC来说,生成器G能做的事情很少,只能进行一对一的映射。StarGANVC的生成器G能够同时学习多对多映射,生成器G可以把声音信号转化为你想要的任意一个人的声音信号。比如你想要输入一段Si的声音,并且把它转成Sj的声音,那么就需要告诉G你想要把Si的声音信号转成Sj的声音信号。然后把获得的语音数据集中的声音向量丢给G去进行训练,多少种声音就是多少维。训练G有很多种方式,甚至是没看过的语者的声音信号也可以进行训练。同时,对D也需要输入一个声音信息进行训练。假设G1先采样一个Sk的声音,再采样一个Si的声音。G1就知道要把Sk的声音转成Si的声音,因此会把Si的声音合成出来。此事D则用来判断得到的这段声音是不是Si的声音,为了训练D,D也需要对声音Si进行采样,以比较二者,来判断生成的是不是Si

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论