(毕业论文)语音识别中的说话人自适应研究报告(2013年优秀毕业设计论文)_第1页
(毕业论文)语音识别中的说话人自适应研究报告(2013年优秀毕业设计论文)_第2页
(毕业论文)语音识别中的说话人自适应研究报告(2013年优秀毕业设计论文)_第3页
(毕业论文)语音识别中的说话人自适应研究报告(2013年优秀毕业设计论文)_第4页
(毕业论文)语音识别中的说话人自适应研究报告(2013年优秀毕业设计论文)_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 题题 目目 语音识别中的说话人自适应研究 并并 列列 Research on Speaker Adaptation in Speech Recognition 英英 文文 题题 目目 2 摘要 摘要 本文给出了最大似然度线性回归方法的详细推导和实现过程方法,并在 推导中对每个自适应观察序列引入了一个因子,使得不同似然度的观察 序列的作用不同。对方差自适应给出了一个较简单的方法,这个方法假 设不同话者之间特征空间没有相对旋转。通过实验讨论了回归类的划分。 话者自适应的目的就是找到并消除话者间的差异。本文从语音的幅度谱 出发,讨论了话者之间两种类型的差异,一个差异是不同话者之间有一 个相对的频率弯折,一个是不同话者对不同频率的响应不同。针对第一 种差异,提出了去除话者间相对频率弯折的线性变换方法,以及求话者 间相对频率弯折函数 的动态规划方法。Mellin 变换具有尺度不变性,本 文试图把这个特性用于去除话者间的频率弯折。首先找到了 Mellin 变换 的反变换,并提出了利用 Mellin 变换与 Mellin 反变换得到频率弯折函 数的方法。 针对话者间存在相对频率弯折的事实,提出了参考点对齐频率弯折自适 应方法。实验显示,这个方法对大部分话者有效,而对频率弯折较小的 话者效果较差。本文也对与文本无关的话者自适应方法做了一些探讨。 当对频率弯折函数的打分是最佳路径的得分时,参考点对齐频率弯折自 适应方法便与文本无关。实验显示,当用于与文本无关的自适应时,效 果较与以识别率为打分的与文本相关的自适应要好。 3 ABSTRACT ABSTRACT In this paper, a factor is used for every observation series in maximum likelihood linear regression speaker adaptation method. As a result, the contribution of every observation series will be different because of the likelihoods difference. A simplifed version of variance adaptation is given under the assumption that the feature space is not turned among speakers. The division of regression class is researched by some experiments. By means of speechs amplitude spectrum, two kinds of variations among speakers are researched. For removing relative frequency warp among speakers, the linear transform method is proposed and the dynamic programming method for getting frequency warp function. In order to use the property of Mellin transform, at the first the inverse Mellin transform is gotten. Then, the method that gets frequency warp function by Mellin transform and inverse transform is proposed. For the fact that frequency warp exists among speakers, the reference point align frequency warp method is proposed and some experiments show that this method takes effect to most speakers. The text-independent speaker adaptation is also researched. When the score of frequency warp function is the score of best path, the reference point align frequency warp method can be text-independent. The experiments show this method work better when used in text-independent adaptation. 4 目 录 目 录 第一章 最大似然度线性回归自适应方法的实现 错误!未定义书签。错误!未定义书签。 1. 引言 错误!未定义书签。错误!未定义书签。 2. 最大似然度线性回归均值自适应方法介绍 错误!未定义书签。错误!未定义书签。 3. 最大似然度线性回归方差自适应方法介绍 错误!未定义书签。错误!未定义书签。 4 MLLR 方法的实验 错误!未定义书签。错误!未定义书签。 第 2 章 话者之间的差异 错误!未定义书签。错误!未定义书签。 1. 引言 错误!未定义书签。错误!未定义书签。 2. 话者之间的差异 错误!未定义书签。错误!未定义书签。 3. 频率弯折函数 错误!未定义书签。错误!未定义书签。 4. 话者归一化 错误!未定义书签。错误!未定义书签。 5. MELLIN变换方法. 错误!未定义书签。错误!未定义书签。 第 3 章 频率弯折自适应方法 错误!未定义书签。错误!未定义书签。 1. 引言 错误!未定义书签。错误!未定义书签。 2. 参考点对齐频率弯折方法 错误!未定义书签。错误!未定义书签。 3. 参数曲线作为频率弯折函数 错误!未定义书签。错误!未定义书签。 4. 文本无关的话者自适应 错误!未定义书签。错误!未定义书签。 参考文献 错误!未定义书签。错误!未定义书签。 致谢 错误!未定义书签。错误!未定义书签。 发表的文章 错误!未定义书签。错误!未定义书签。 5 第第 1 章章 最大似然度线性回归自适应方法的实现最大似然度线性回归自适应方法的实现 最大似然度线性回归(MLLR)话者自适应方法1用于以混合 Gaussian 函数 作为状态分布密度的隐马柯夫模型(HMM)语音识别方法。和其他自适应 方法相比,这个方法需要较少的自适应语料并具有较快的自适应速度, 而且效果也很好。 本章讨论了对多个观察序列、任意划分回归类的 MLLR 均值自适应方法 的推导,以及给出了一个方差自适应的简化方法,也给出了 MLLR 方法 的实现步骤,使得对这个方法的实现一目了然。这一章共分 4 个部分, 第一部分为引言; 第二部分详细介绍了最大似然度线性回归均值自适应 方法的推导和实现过程;在第三部分给出方差自适应方法的介绍;第四 部分给出了这个方法的一些实验结果。 1. 引言引言 在 HMM 中, 状态 s 的分布密度函数为 M 个 Gaussian 函数)( , ob is 的凸组合: = = M i isiss obgob 1 , )()( 其中, is g , 是同一个状态中每个 Gaussian 函数的权,并且: = M i is g 1 , 1 每个 Gaussian 函数如下: 2 )()( exp )2( 1 )( , 1 , 2/1 , 2/ , isisis is n is oCo C ob = (1.1.1) 其中, is, 是 Gaussian 函数的均值; is C , 是协方差矩阵; n 是语音特征的 维数。 如果 Gaussian 函数的数量 M 足够大,混合函数 )(obs能很好的描述状态 s 的样本的分布。 6 在与话者无关的语音识别系统中,由于话者之间的差异,话者的语音样 本分布与训练语料的语音样本分布不一致,如图(1.1), 导致话者的语音 样本分布与系统的参数不匹配。对于以混合 Gaussian 函数作为分布密度 的 HMM 方法来说,系统中各个混合中的 Gaussian 函数均值、协方差 矩阵C与给定的话者不匹配。 图(1.1), 最大似然度线性回归自适应方法利用线性变换使系统的均值、 协方差矩 阵C与话者的语音样本分布更好的匹配。如对于状态 s 的第 i 个混合的均 值 is, ,利用线性变换 is W ,得到新的均值is, : = 1 , , is isis W (1.1.2) 其中, is W ,是 ) 1( + nn矩阵,n 是特征维数。也可对协方差矩阵 is C , 做线性 变换。 关键的问题是在给定话者的自适应语料后,如何得到各个状态中各个混 合的线性变换矩阵 is W ,。 7 2. 最大似然度线性回归均值自适应方法介绍最大似然度线性回归均值自适应方法介绍 1 方法推导 1 方法推导 给定长度为 T 的观察序列 T oooO, 21 =作为自适应语料,设对应观察序列 O 的一个可能的状态序列为 T , 21 =,对应观察序列 O 的所有可能的 状态序列的集合为。 )()|,( , 11 , 1 tk T t M k k obgaOP tttt = = = M k M k T t tkk M k T tttttt obga 111 , 1 1 1 2 )( = = T i M k T t tkk i itittt obga 111 , )( 1 (1.2.1) 其中 tt a , 1 是从状态 1t 到状态 t 的状态转移概率。 定义: = = T t tkk obgakOF tttttt 1 , )()|,( 1 (1.2.2) 其中,),( 21T kkkk =是一个混合的序列,TtMkt1,1,是所有可能 的这样序列的集合。则整个观察序列的似然度为 = )|,()|kOFOP k ( (1.2.3) 其中是给定的系统模型。 构造辅助函数: )|,(log)|,(),( kOFkOFQ k = (1.2.2) 其中是经过如(1.1.2)的线性变换后的参数 = += T t k T t tk T tk tttttt gobakOFQ 1 , 1 , 1 , log)(loglog )|,(),( 1 = 常数 = =+ k jji N i M j T t tt objkiOP s )(log)|,( , 111 (1.2.3) 其中, s N是观察序列对应的状态数量。记: = k ttji jkiOP OF t)|,( )|( 1 )( , (1.2.4) 则: =)(,Q常数+ = s N i M j T t tjiji obtOF 111 , )()()|( 8 = 常数 = + s N i M j T t jiji CntOF 111 , |log)2log()()|( 2 1 )()( , 1 ,jijitjijijit WoCWo+ (1.2.5) 其中, = 1 , , ji ji 。 如果状态 i 的 M 个 Gaussian 函数共用一个线性变换 i W,上式变为: =)(,Q常数+ = s N i M j T t tjiji obtOF 111 , )()()|( = 常数 = + s N i M j T t jiji CntOF 111 , |log)2log()()|( 2 1 )()( , 1 ,jiitjijiit WoCWo+ (1.2.6) 如果状态 K sss, 21 共用一个线性变换W,上式变为: =)(,Q常数+ = T t K i M j tjsjs obtOF ii 111 , )()()|( = 常数 = + T t K i M j jsjs ii CntOF 111 , |log)2log()()|( 2 1 )()( , 1 ,jstjsjst iii WoCWo+ (1.2.7) 如果共有 P 个包含状态 K sss, 21 的观察序列 )()2()1( , P OOO 作为自适应语 料,其中,, )()( 2 )( 1 )(i T iii i oooO 。(1.2.5)式变为: =)(,Q常数+ = P p T t K i M j p tjs p js p p ii obtOF 1111 )( , )( , )( )()()|( =常数+ = P p T t K i M j p tjs p js P p p p ii obtOF 1111 )( , )( , 1 )( )()()|( =常数 = P p T t K i M j p js P p p p i ntOF 1111 )( , 1 )( )2log()()|( 2 1 )()(|log , )(1 , )( ,js p tjsjs p tjs iiii WoCWoC+ (1.2.8) 其中,)( )|( )|( )( )( , 1 )( )( )( , t OF OF t p jsP p p p p js ii = = 记 = = P p p p p OF OF a 1 )( )( )|( )|( 即: 9 )()( )( , )( , tat p jsp p js = (1.2.9) , )(1 , 1111 )( , 1 )( )()()|( ),( jsjs p tjs P p T t K i M j p js P p p iii p i WoCtOF dW dQ = = (1.2.10) 令0 ),( dW dQ ,得 : , 1 , 1111 )( , , )(1 , 1111 )( , )()( jsjsjs P p T t K i M j p jsjs p tjs P p T t K i M j p js iii p iii p i WCtoCt = = = (1.2.11) 由于 p a的引入,使得似然度不同的特征序列在自适应中作用也不同。这 与1中略有不同。在此,要求式中每个协方差矩阵 jsi C , 是对角矩阵。记: = = P p T t js p jsjs p iii CtV 11 1 , )( , )( (1.2.12) = = P p T t jsjsjs p iii D 11 , (1.2.13) jsi V , 是对角矩阵, jsi D , 是对称矩阵,那么, (1.2.11)式的右边 = = K i M j jsjs ii WDV 11 , (1.2.11)的左边矩阵记为 )1(, )( + nnji yY,则: 11 ),( , ),( , 1 1 1 , = + = = K i M j lq js pk js n p n q qplk ii DVWy (1.2.14) 由于 jsi V , 是对角矩阵,所以有, = = = = pk pkDV DV K i M j lq js kk js K i M j lq js pk js ii ii , 0 , 11 ),( , ),( , 11 ),( , ),( , 由此,(1.2.14)变为: = + = = K i M j lq js kk js n q qklk ii DVWy 11 ),( , ),( , 1 1 , )( (1.2.15) 记: = = K i M j lq js kk js k lq ii DVg 11 ),( , ),( , )1()1(, )( + = nn k lqk gG 则(1.2.15)式变为: 10 + = = 1 1 , n q k lqqklk gWy (1.2.16) 对 l=1,2,n+1, 把(1.2.16)式合并起来就是 kkk GWy = (1.2.17) 其中,),( 1,2,1 ,+ = nkkkk yyyy是 Y 的第 k 行 ),( 1,2,1 ,+ = nkkkk WWWW 是 W 的第 k 行 由方程(1.2.17)便可得到线性变换矩阵 W 的第 k 行。 2 2 )( )( , t p js 的计算 的计算 由(1.2.9)式 )()( )( , )( , tat p jsp p js = )( )( , t p js 出现在方程(1.2.11)的两边。为了简单,也可令: Piai, 2 , 1, 1 = (1.2.18) )( )( t p s 的定义为: ),|()( )()( p t p s Ospt= (1.2.19) 即在第 p 个观察序列中,t 时刻是状态 s 的概率。那么,)( )( , t p js 的计算公式 为: )( )( )()( )( 1 , )( , )()( , p t M k ks p tjs p s p js ob ob tt = (1.2.20) 如果观察序列 )(p O被切分到状态,其状态序列为 )()( 2 )( 1 )( , p T ppp p sssSL=, 则 = )( )( )( ,0 , 1 )( p t p tp s ssif ssif t (1.2.21) 在后面的实验显示,语料被切分到状态(而不是模型 HMM)时,大大缩短 自适应时间,自适应效果也更好。 3 MLLR 方法的实现过程3 MLLR 方法的实现过程 在上面的讨论中,似乎 MLLR 方法很复杂,但实现起来并不难。下面给 出求一个回归类线性变换矩阵的过程。 11 MLLR 方法:求一个回归类线性变换矩阵矩阵W: 所需的内存:(1.2.11)式的左边矩阵 Y,其第k行为yk 以及n个(n+1)(n+1)阶矩阵 )(i G, i=1,2,n FOR k=1,2,n DO 求W的第k行, )( , k k Gy 置零 FOR 每个观察序列 p=1,2,P, 及每个时刻 p Tt, 2 , 1 = DO 记 )( p t oo=(即 t 时刻的一帧语音特征) FOR 每个状态 i s, i=1,2,K, 及每个 Gaussian 函数 ksi b , , k=1,2,M DO 计算 )( )( , t p ksi 1 ,ksi 可得对角矩阵 1 , ksi CV FOR l=1,2,n+1 DO lkkklk oVy=+ , FOR q=1,2,n+1 DO lqkk k lq Vg=+ , )( , END FOR ENDFOR ENDFOR ENDFOR 解方程组 )(k kk GWy=,得到W的第k行 ENDFOR 12 3. 最大似然度线性回归方差自适应方法介绍最大似然度线性回归方差自适应方法介绍 在这一节,我们给出一个较简单的 MLLR 方差自适应方法。 设一个 Gaussian 函数的协方差矩阵为: = 2 2 1 0 0 n C (1.3.1) 用于协方差的线性变换为: = n H 0 0 1 (1.3.2) 则新的些方差矩阵为: = 2 2 11 0 0 nn HCC (1.3.3) 求线性变换矩阵 H,类似于(1.2.8)式 =),(Q常数 + = P p T t K i M j p tjs p js P p p p ii obtOF 1111 )( , )( , 1 )( )()()|( = 常数 = P p T t K i M j p js P p p p i ntOF 1111 )( , 1 )( )2log()()|( 2 1 )()(|log , )(1 , )( ,js p tjsjs p tjs iiii oCoC+ (1.3.4) = k Q ),( 常数 = P p T t K i M j kkjs js p kt k p js p i ii ot 1111 22 , 2 , )( , )( , 1 )( 1 )( (1.3.5) 令0 ),( = k Q ,则得: nk t ot P p T t K i M j p js P p T t K i M j kjsjs p kt p js k p i p iii , 2 , 1, )( )( 1111 )( , 1111 2 , 2 , )( , )( , = = = = (1.3.6) 由于 = = K i M j p js t i 11 )( , 1)(, 由(1.2.9)式 13 = = P p pp P p T t K i M j P p T t p p js aTat pp i 1111111 )( , )( 如果按 (1.2.18)式, (1.3.6)可简化为: nk T ot P p p P p T t K i M j kjsjs p kt p js k p iii , 2 , 1, )( 1 1111 2 , 2 , )( , )( , = = = = (1.3.7) 4 MLLR 方法的实验方法的实验 实验所用的系统是一个以声韵母建模的汉语连续语音识别系统。由于这 个系统仅用于话者自适应,其识别率不高。语料来自于 863 语音库。在 实验中,首先对 Gaussian 函数的均值做自适应,然后对方差自适应。方 差自适应采用(1.3.7)式。实验在 Intel350Hz 的机器上运行。表(1.4.5)给出 了对模型的不同分类。 1.4.1 语料的切分 1.4.1 语料的切分 我们首先通过实验看一看语料被切分到模型好,还是被切分到状态好。 这个实验用了两个话者 M000 和 M042。 实验结果见表(1.4.1)和表(1.4.2)。 表(1.4.1)自适应语料切分到模型和切分到状态的效果(话者 M000) 错误率 (%) MLLR 时间 自适应 句子数 Baseline(没有自适应) 59.2 (520 个句子) 切分到 HMM, 4 个类 55.5 7 58 ” 40 切分到状态, 4 个类 55.3 (480 个句子)2 18 ” 40 切分到状态, 6 个类 53.5 2 18 ” 40 切分到状态, 2 个类 57.4 3 16 ” 40 切分到状态, 1 个类 58.5 3 18 ” 40 14 表(1.4.2), 自适应语料切分到模型和切分到状态的效果(话者 M042) 错误率 (%) MLLR 时间 自适应 句子数 Baseline (没有自适应) 46.2 (520 个句子) 切分到 HMM, 4 个类 41.1 (480 s) 10 56 ” 40 切分到 HMM, 1 个类 40.9 10 15 ” 40 切分到状态, 4 个类 39.9 3 42 ” 40 切分到状态, 1 个类 40.5 3 57 ” 40 实验显示, 和语料被切分到模型(即 HMM)相比, 当语料被切分到状态时, MLLR 自适应不仅用更少的时间,错误率降低的也更多。 1.4.2 模型分类的实验 1.4.2 模型分类的实验 有关线性变换的数量,有下面几种情况: 1) 每个 Gaussian 函数单用一个线性变换 2) 一个状态的所有 Gaussian 函数共用一个线性变换,即一个状态单 用一个线性变换 3) 一个模型(HMM)的所有状态共用一个线性变换,即一个模型单用 一个线性变换 4) 一些模型组成一个 HMM 回归类公用一个线性变换 5) 所有模型公用一个线性变换,即全局线性变换 1)、2)、3)三种情况需要太多的自适应数据,不适合快速自适应。我们仅 对后两种情况做一些实验。实验的重点是模型分类对自适应效果的影响。 从表(1.4.3)的实验结果中显示,自适应语料应该多于 5 个句子;自适应语 料越少,回归类也应该越少。当用 10 个句子做自适应时,用全局变换较 好。而当有 40 个句子时,用 6 个回归类较好。 15 表(1.4.3), 回归类不同分类法的效果(话者 M042) 错误率 (%) MLLR 时间 自适应句子数 错误下降(%) Baseline (没有自适应) 46.2 (520 s) 6 个类 60.8 25 ” 5 -31.6 4 个类 47.6 23 ” 5 -3.0 1 个类 45.9 16 ” 5 0.6 6 个类 48.9 54 ” 10 -5.8 4 个类 46.2 38 ” 10 0.0 2 个类 43.0 53 ” 10 6.9 1 个类 42.9 37 ” 10 7.1 6 个类 41.1 1 50 ” 20 11.0 4 个类 41.8 1 16 ” 20 9.5 2 个类 41.6 1 15 ” 20 9.9 1 个类 40.8 1 15 ” 20 11.7 6 个类 39.1 3 46 ” 40 15.4 4 个类 39.9 2 36 ” 40 13.6 2 个类 41.5 2 33 ” 40 10.2 1 个类 40.5 3 57 ” 40 12.3 6 个类 37.9 9 10 ” 100 18.0 4 个类 38.0 6 17 ” 100 17.7 2 个类 41.6 6 26 ” 100 9.9 1 个类 41.3 6 25 ” 100 10.6 1.4.3 MLLR 的实验 1.4.3 MLLR 的实验 16 上面的实验显示,当用 40 个句子、6 个回归类时效果较好。在这个部分, 我们对 40 个句子、6 个回归类的情况给出 MLLR 方法对 10 个话者的实 验。实验结果见表(1.4.4)。 表(1.4.4). 40 个句子用于 MLLR 自适应。 6 个回归类 错误率(%) 话者 Baseline (没有自适应) MLLR MLLR 时间 错误减少(%) M007 45.3 40.9 4 20 ” 9.5 M008 42.7 37.3 3 14 ” 12.6 M042 46.2 39.1 3 46 ” 15.3 M043 46.0 42.5 3 28 ” 8.6 M044 56.4 49.7 3 7 ” 11.9 M045 55.9 51.8 3 0 ” 7.3 M066 67.0 58.6 232” 12.5 M049 56.1 50.1 211” 10.7 M067 60.0 50.7 250” 15.5 M068 64.5 59.0 145” 8.5 平均 31” 11.24 10 话者的错误率平均下降了 11.24, 花了平均 3 分钟。 自适应速度很快。 1.4.4 附录:模型的分类 1.4.4 附录:模型的分类 表(1.4.5)列出了上面的实验中用到的几种模型分类。 系统是以声韵母建模 的。分类基本上是根据声韵母的发音特性主观划分的,没有进一步的实 验支持,仅供参考。 表(1.4.5)模型的不同分类 17 类数 1 个类 全局类,即所有模型公用一个线性变换 2 个类 类 1 : A, E, y, w, v, b, p, f, d, t, g, k, h, j, q, x, zh, ch, sh, z, c, s, 类 2 : m, n, l, r, 所有韵母 4 个类 类 0 : 所有声母 类 1 : f , j, q, x, zh, ch, sh, z, c,s, 类 2 : y, w, v, m, n, l, r 类 3 : A, E, b, p, d, t, g, k, h 6 个类 类 0 : zh, ch, sh 类 1 : z, c,s, f, j, q, x 类 2 : n, l, m, r, y, w, v 类 3 : b, d, g, k, A, E 类 4 : p, t, h 类 5 : 所有韵母 18 第 2 章 话者之间的差异 第 2 章 话者之间的差异 1. 引言 1. 引言 就基于混合高斯分布的 HMM 来说,目前最好的话者自适应方法是 MLLR 方 法。它需要较少的自适应语料、较短的自适应时间,而且效果较好。但 是,这个方法只是一个模型自适应方法(即修正模型的参数以便与话者更 好的匹配),并不涉及到话者差异的根源。MLLR 方法不是最后的方法,因 为话者之间的差异不是线性的,提取特征的方法一般也不是线性的,话 者之间的差异在特征提取阶段导致的损失不能完全用线性变换弥补。话 者自适应的研究不可能绕过对话者之间差异的根源的探索。而且对它的 研究对找到更好的话者规一化方法、特征自适应方法(调整话者的特征使 其与系统更匹配)、甚至与话者无关的特征提取是有益的。一个合适的特 征自适应方法和 MLLR 方法相结合或许能有更好的效果。 在本章的第二节,讨论两种类型的话者之间的差异。在第三节,介绍了 频率弯折函数及其特性。在第四节,给出了消除话者之间相对频率弯折 的线性变换法和从语音样本中求频率弯折函数的动态规划法。在第五节, 讨论了 Mellin 变换、以及利用 Mellin 变换,Mellin 反变换求取话者频 率弯折函数的方法。并由此发现了 Mellin 变换的一个有趣的特点。 2. 话者之间的差异 2. 话者之间的差异 语音不仅与话者的声道长度有关,而且与声道的形状等因素有关。话者 之间的差异使得不同的话者即使说相同的音,其共振峰位置也可能不一 样。通过对一些语料的观察,我们发现了话者之间的如下两种差异。 2.2.1 对频率轴的弯折 2.2.1 对频率轴的弯折 不同的话者对频率轴有不同的的频率弯折。而且弯折不一定是线性的(如 图(2.2.3) )。 19 (a) (b) 图(2.2.1) (a) 话者 A 发e音的幅度谱;(b) 话者 B 发e音的幅度谱 图(2.2.1)(b)中的共振峰 F1、F2 分别比(a)中的共振峰 F1、F2 高。但是 (b)中的共振峰 F3、F4 分别比(a)中的共振峰 F3、F4 低。也就是说,相 对于话者 A 来说,话者 B 对频率轴做了非线性弯折。他们不能通过线性 地压缩或拉伸而变得相近。对于这样的情况,声道长度规一化自适应方 法的效果将不会理想。 2.2.2 频率响应差异 2.2.2 频率响应差异 不同话者对同一频率的频率响应不同。如图(2.2.2)、图(2.2.3)所示。 (a) 20 (b) 图(2.2.2) (a)取自 863 语音库中 M65 对音节dan1 发音中a的一帧; (b) 取自 863 语音库中 M77 对音节dan1 发音中a的一帧 (a) (b) 图(2.2.3),(a) 取自 863 语音库中 M65 对音节guo2 发音中u的一帧; (b) 取自 863 语音库中 M77 对音节guo2 发音中u的一帧 从图(2.2.2)、图(2.2.3)中可看出,两个话者对同一个音素的发音不仅 对应共振峰的位置有差异,而且共振峰的形状、同一频段的能量也差别 很大。 当然,话者之间的差异不只这两种情况,还有如共振峰形状的差异等。 本文只是试图通过去除上述两种类型的差异达到话者自适应的目的。 21 3. 频率弯折函数 3. 频率弯折函数 前面提到,不同的话者对频率轴会有不同的弯折。就是说,两个话者之 间也会有相对的频率弯折。这个频率弯折的关系构成一个函数,这个函 数称为频率弯折函数。由上面的讨论可知,频率弯折函数不一定是线性 的。 设图(2.2.1)中话者 B 相对于话者 A 的频率弯折函数为 warp(f),如意图 (2.3.1)所示。图(2.2.1)(a)中话者 A 的前 4 个共振峰频率分别记为 aaaa FFFF 4321 ,图(2.2.1)(b)中话者 B 的前 4 个共振峰频率分别记为 bbbb FFFF 4321 ,。则频率弯折函数使两个话者的对应共振峰对应起来,即: 4 , 3 , 2 , 1),(=iFwarpF a i b i 图(2.3.1)(示意图示意图)图(2.2.1)中话者 B 相对于话者 A 的频率弯折函数的。 频率弯折函数有两个特点: 1) 把区间0, fmax 映射到自身的连续的单调函数; 2) 至少有两个不动点 0, fmax 。 其中fmax是带宽。 在不同话者之间,不同音素的频率弯折可能有些差异。另外,尽管话者 22 间存在频率弯折,其弯折一般的不会太大,不会出现图(2.3.2)(a)那样 的情况,而是在函数ty =附近的一定范围内,如图(2.3.2)(b)所示的在 频率弯折函数位于两条线内。 图(2.3.2)(示意图示意图) (a)不太可能的频率弯折函数;(b)不同话者间的相 对频率弯折函数一般会位于对角线的一定范围内。 4. 话者归一化 4. 话者归一化 简单地说,话者归一化是指通过去除话者之间的差异,使得不同话者的 语音特征尽量的接近,语音样本的离散度更小。给定两个话者 A、B,并 得到了两个话者对同一音素发音的T帧语音,其由各帧语音的付立叶变 换 得 到 的 幅 度 谱 序 列 为 a T aa XXX, 21 , b T bb XXX, 21 。 其 中 每 个 TiXX b i a i , 2 , 1, =是N 维向量,2N是付立叶变换的长度。假设两个话者之 间对这个音素的发音有相对的频率弯折,使得 b i a i XX ,之间有明显的差异 Ti, 2 , 1 =。一个问题是如何由各帧的幅度谱 a T aa XXX, 21 , b T bb XXX, 21 直接得到两个话者之间的相对频率弯折函数。在此我们讨论三种方法: (1)线性变换方法;(2)动态规划法;(3)Mellin 变换方法。由于 Mellin 变换方法篇幅较大,放在下一节讨论。 如果认为两个话者间对不同音素有近似一致的频率弯折。则上面提到的 23 两个话者的幅度谱序列只要求满足 b i a i XX ,是对同一个音素的发音即可, Ti, 2 , 1 =。 2.4.1线性变换方法 2.4.1线性变换方法 两个设话者 B 相对于话者 A 的频率弯折函数为w(f)。由于频率弯折,话 者 A 的频率轴上的点 1,2,N,被移到新的点,设为 N ppp, 21 。它 们不一定是整数点。则频率弯折函数w(f)满足: Nif N i wf N pi , 2 , 1),( maxmax = (2.4.1) 我们现在求话者 B 的任一帧语音被除去频率弯折后的幅度谱。从两个幅 度谱序列中各取一帧 Ta iN a i a i a i xxxX),( 21 、 Tb iN b i b i b i xxxX),( 21 =。 b i X被除去 频率弯折后的幅度谱记为 Tb iN b i b i b i yyyY),( 21 =,我们的目的是 b i Y与 a i X更接 近。设 t p位于频率轴上k,k+1(对应付立叶变换的点)之间。我们用k, k+1,k+2 三点的幅度 b ki b ki b ki xxx 2,1, , + 拟合一个二次多项式: cbtaty+= 2 (2.4.2) 即: 2, 1, 2 , +=+=kkkjcbjajxbj i (2.4.3) 解方程组得到二次多项式的系数: + += + + b ki b ki b ki x x x kk kk kk c b a 2, 1, , 1 2 2 2 12)2( 11) 1( 1 (2.4.4) b i X(在除去频率弯折前)在 t p点的幅度可由这个二次多项式得到, 这个值 就是 b i X在除去频率弯折后t点值 b ti y , ,即: + + + + b ki b ki b ki tt b ti x x x kk kk kk ppy 2, 1, , 1 2 2 2 2 , 12)2( 11)1( 1 )1 ,( + + b ki b ki b ki ktktkt x x x 2, 1, , 2,1, ),( (2.4.5) 在(2.4.5)式右边的行向量中添加零使之成为一个N维行向量 t ,则上式 变为: 24 NtXy b it b ti , 2, 1, , = 记N阶矩阵 = N W 1 ,则: TiWXY b i b i , 2 , 1, = (2.4.6) 可见,用一个线性变换即可除去频率弯折。由推导可知,矩阵W不是满 阵。多项式(2.4.3)也可是更高阶的,拟合点也可更多,(2.4.6)仍成立, 只是W的非零元素更多。我们可以预先设定W的带宽,使计算量更少。 带宽过大,频率弯折函数的单调性不能保证。 去除话者 B 相对于话者 A 的频率弯折,就是选择矩阵W使 a i X与 b i Y间的差 距最小,i=1,2,T。因此,我们如下选择W: = = T i b i a i W WXXW 1 2* |minarg (2.4.7) 令: NkjWXX T i b i a i kj , 2 , 1, 0)|( 1 2 , = = 2.4.8) 由此我们得到下面的结果: NkjxXx T i b ki b ij a ji , 2 , 1, 0) 1 , = = ( NkjxXxx T i b ki b ij T i b ki a ji , 2 , 1, 1 , 1 , = = NjxXxXxXxxxxxx T i b Ni b i T i b i b i T i b i b ij T i b Ni a ji T i b i a ji T i b i a ji , 2 , 1),(),( 1 , 1 2, 1 1 , 1 , 1 2, 1 1 , = = = NjxXxXxXxxxxxx T i b Ni b i T i b i b i T i b i b i T i b Ni a ji T i b i a ji T i b i a jij , 2 , 1),)(,( 1 1 , 1 2, 1 1 , 1 , 1 2, 1 1 , = = , (2.4.9) 由此得到矩阵W。任给话者 B 一帧语音的幅度谱x,Wx便是除去了相对于 话者 A 频率弯折的幅度谱。 这个方法并没有直接得到话者 B 相对于话者 A 的频率弯折函数。 2.4.2动态规划方法 2.4.2动态规划方法 这个方法直接得到话者 B 相对于话者 A 的频率弯折函数。我们仍然沿用 上一部分的符号。实际上,若能得到 N ppp, 21 ,则(2.4.1)式是精度 25 很高的频率弯折函数。当 t p给定后,设位于频率轴上k,k+1 之间,和上 一部分一样,可用k,k+1,k+2 三点的幅度 b ki b ki b ki xxx 2,1, , + 拟合一个二次多 项式,然后估算出任一帧幅度谱 b i X(在除去频率弯折前)在 t p点的幅度, 这个值就是 b i X在除去频率弯折后t点值 b ti y , 。我们能用两个幅度谱序列 a T aa XXX, 21 , b T bb XXX, 21 给 t p点的选择打一个分 t S, = = T i b ti a tit yxS 1 2 , )( (2.4.10) 由此,可对前j个点 j ppp, 21 , 点的选择打分 j S: = = j t T i b ti a ti j t tj yxSS 11 2 , 1 )( (2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论