(模式识别与智能系统专业论文)鲁棒性语音识别中模型适应技术的研究.pdf_第1页
(模式识别与智能系统专业论文)鲁棒性语音识别中模型适应技术的研究.pdf_第2页
(模式识别与智能系统专业论文)鲁棒性语音识别中模型适应技术的研究.pdf_第3页
(模式识别与智能系统专业论文)鲁棒性语音识别中模型适应技术的研究.pdf_第4页
(模式识别与智能系统专业论文)鲁棒性语音识别中模型适应技术的研究.pdf_第5页
已阅读5页,还剩137页未读 继续免费阅读

(模式识别与智能系统专业论文)鲁棒性语音识别中模型适应技术的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 语音识别的鲁棒性技术是为解决由于测试环境与训练环境之间的声学失配而 引起识别性能恶化问题,是当今语音技术发展的一个重要方向,其中以并行模型组 合 技术 ( p m c ) 为 代 表的 模型 适 应技 术 在鲁 棒性 技术中占 有重 要 位置。 本论文在分析了p mc技术的基本原理后, 针对p m c技术的局限性等有待改进 的 方面, 提出了 针对性解决办法, 包括:卷积噪声的最大似然估计求解方法: 对合 成模型动静态矢量采用加权方式处理减少计算量, 提高识别率; 采用模型分裂组合 技术方法和增加干净语音矢量与噪声矢量的相关项来降低假设和近似处理的不准 确性。 在对p mc技术进一步深入研究的基础上, 论文中创新地提出p mc技术的改进 方法: 将信号增强 ( 去噪) 技术与环境适应技术相综合。对适应数据与测试数据应 用信号增强技术作为预处理, 将有噪数据尽可能还原成干净语音数据;然后应用模 型适应技术, 对经增强预处理后的适应数据采用最大似然估计法求估残留的加性与 卷积噪声, 使合成的模型 ( 称为增强语音模型) 更好的匹配经预处理后的测试数据。 本文还创新地引 入一个新概念:残差噪声模型, 将它作为残留的加性噪声和卷积噪 声的联合补偿模型,并直接定义于倒谱域上对语音信号的加性作用, 这样不仅通过 增强处理提高了 信号的信噪比, 而且使 p mc技术整个处理在倒谱域上就完成了, 简化和省略了域间转换的过程, 克服了传统p mc技术诸多弱点。 新的p mc技术可 进一步提高识别性能,增强对环境的适应性。 实验是在剑桥大学的h t k语音识别工具包的基础上进行, 嵌入了新的p m c算 法, 可用于对0 - 9 十个中文数字组成的数字串 进行连续语音识别。 在各种噪声环境 下对算法进行了测试, 其中包括人工添加噪声以及真实噪声场景,结果表明,新的 p m c 技术在各种噪声环境下能显著提高识别率。 t 关键词 : p mc技术, 增强技术, 最大似然估计,残差噪声模型 abs tract t h e r o b u s t t e c h n i q u e s t o i m p r o v e t h e b a d p e r f o r m a n c e d u e t o t h e m i s m a t c h b e t w e e n t r a i n i n g a n d t e s t e n v i r o n m e n t s h a v e b e c o m e a h o t s p o t i n t h e fi e l d o f s p e e c h r e c o g n it i o n . t h e e n v ir o n m e n t a d a p t i v e m e t h o d s p l a y i m p o r ta n t p a r t in i m p r o v i n g t h e r o b u s t n e s s , f o r e x a m p l e , p mc ( p a r a l l e l mo d e c o m b i n a t i o n ) . i n t h e d i s s e r t a t i o n , t h e f u n d a m e n t a l p r i n c i p l e o f p mc i s i n v e s t i g a t e d a n d t h e l i m i t a t i o n i s a n a l y z e d : t h e e s ti m a t i o n o f c o n v o lu t io n a l n o i s e m o d e l r e m a i n s a n o p e n p r o b l e m ; t h e a p p r o x i m a t i o n s a n d a s s u m p t i o n s m a d e i n t h e p mc a r e n o t a c c u r a t e e n o u g h ; c o m p u t a t i o n c o s t s t o o m u c h ; p e r f o r m a n c e d e g r a d e s i n lo w e r s n r , e t c , a l l l im i t t h e a p p l i c a t i o n o f p mc . t h e s o l u t i o n s a r e p r o p o s e d i n t h i s d i s s e r t a t i o n : t h e c o n v o l u t i o n a l n o i s e m o d e l s i s e s t i m a t e d b y ma x i m u m l i k e l i h o o d ( ml ) m a n n e r ; t h e w e i g h t e d s u m m a t i o n o f v a r i a n c e v e c t o r o f n o i s e a n d s p e e c h m o d e l s p r o d u c e s t h e v a r i a n c e o f c o m b i n e d m o d e l s , th a t c a n r e d u c e th e c o m p u t a t i o n c o s t s ; t h e a p p r o a c h e s o f m o d e l - s p l i tt in g a n d c o m b i n i n g t h e n t h e r e m a i n e d a d d i t i v e t h e b i a s p a r a m e t e r c o m b i n a t i o n s a r e p e r f o r m e d o n l y o n e t i m e i n c e p s t r a l d o m a i n w i t h o u t d o m a i n t r a n s f o r m a t i o n , w h i c h i s b a s e d o n t h e n e w m i s m a t c h f u n c t i o n . t h e e x p e r i m e n t s s h o w t h a t t h e n e w p mc c a n i n c o r p o r a t e t h e s i g n a l e n h a n c e m e n t w i t h e n v i r o n m e n t a d a p t a t i o n s t r a t e g i e s t o i n c r e a s e t h e r o b u s t n e s s a n d i m p r o v e t h e p e r f o r m a n c e i n n o i s y c o n d i t i o n s . i n o u r e x p e r i m e n t , c a m b r i d g e s h t k t o o l k i t 3 . 0 w a s u s e d a s t e s t p l a t f o r m w i t h s u i t a b l e m o d i fi c a t i o n e m b e d d i n g p m c a l g o r i t h m s i m p l e m e n t t h e c o n t i n u o u s ma n d a r i n d i g i t r e c o g n i t i o n . t h e t r a i n i n g d a t a w e r e c o l l e c t e d i n c l e a n o f f i c e e n v i r o n m e n t w h i l e t h e t e s t i n g d a t a in c l u d e t h e a r ti f i c i a l d a t a c o n t a m i n a t e d b y w h i t e g a u s s i a n n o i s e a t d i f f e r e n t s n r l e v e l s a n d a l s o th e n o i s y s p e e c h c o l l e c t e d i n r e a l n o i s y e n v ir o n m e n t . t h e e x p e r i m e n t r e s u l t s w e r e c o m p a re d t o s h o w t h e e ff e c t i v e o f p mc . k e y w o r d s : p a r a l l e l mo d e l c o m b i n a t i o n , e n h a n c e m e n t t e c h n i q u e , ma x i m u m l i k e l i h o o d , r e s i d u a l n o i s e mo d e l 独创性声明 本人声明所成交的论文是我个人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已 经发表或撰写过的研究成果。 与我一同工作的同志对本研究所做的 任何贡献均己 在 论文中作了明确地说明并表示了 谢意。 签名: - 丝差基日 期:州工 l 关于论文使用授权的说明 本人完全了解中国科学院自 动化研究所有关保留、使用学位论文的规定,即: 中国科学院自 动化研究所有权保留 送交论文的复印件,允许论文被查阅和借阅:可 以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签 名 : 终 彩%t 导师签名日 期 :1 p $ 3 . - l 第 i 章 引言 第1 章引 言 1 . 1 语音识别技术概述 语音识别技术是从二十世纪五十年代才开始出 现的一门新兴的计算机智能 技术。它是一门涉及很广的交叉科学,与计算机学科、信号处理学科、数理统 计学、 语音学、语言学、数理统计学、 神经生理学等有密切的关系,甚至还涉 及到人的体态语言 ( 如人在说话时的表情、手势等行为动作可帮助对方理解) , 其最终目 标是实现人与机器进行自 然语言通信。 语音识别的原理可由图1 . 1 表示。 给定一段语音波形信号, 从语音流中抽取 出声学特征,然后在特征空间里利用声学模型完成模式匹配,寻找最佳匹配的 词( 字 ) 作为 识 别结果。 词 典是 表 示声 学 模型 所代 表的 词的 抽象 含义。 语言 模型描 述可能存在的词的组合序列. 识别结果 语音波形 图1 - 1 语音识别简图 语 音 流的 声 学 特征 主 要 包 括: 线 性 预 m 系 数 ( l p c ) 、 倒 谱 系 数 ( c e p ) . m e l 倒谱系 数 ( m f c c ) 和 感知 线 性预 m ( p l p ) 参数 等。 其中 线性预测系数( l p c ) 是基 于人的 发声机理, 通过模 拟声道的短管级联模 型,将系统的传递函数近似为全极点数字滤波器的形式,使当前时刻的信号用 若 干时 刻前的 信 号的 线 性组 合 来估 计。 利用 均方 差 最小 0 .m s ) 算法对采 样值与 线 性预测采样值求解, 可得到线性预测系数l p c 。对l p c的计算方法有自 相关法 ( 德宾d u r b i n 法) 、 协方差法、 格型法等等。 倒谱系数( c e p ) 是 基于同 态处 理方法, 对语音信号求离散傅立叶变换d f t 后 鲁棒性语音识别中模型适应技术的研究 取对数,再求反变换 i d f t就可得到倒谱系数。可采用递推公式直接求 l p c的 倒谱参数 ( l p c c e p ) . m e l 频谱倒谱系数( m f c c ) 是基于人的听觉机理, 通过模拟人的听觉系统导 出的声学特征。mf c c的计算首先用离散 f f t变换将时域信号转化成频域,之 后对幅度谱用依照 me l 刻度分布的三角滤波器组进行卷积,最后对各个滤波器 的输出构成的向 量进行离散余弦变换d c t , 取前n个系数后再进行反滤波生成。 在统计模式识别方法中, 声 学模型的 核心是隐马 尔可夫 模型( h m m s ) .隐马 尔可夫模型 h mm 是指这一马尔可夫模型的内部状态外界不可见,外界只能看 到各个时刻的输出值。对语音识别系统,输出值通常就是从各个帧计算而得的 声学特征。用 h mm 刻画语音信号需作出两个假设,一是内部状态的转移只与 上一状态有关,另一是输出值只与当前状态 ( 或当前的状态转移)有关,这两 个假设大大降低了模型的复杂度。 h mm的打分、 解码和训练相应的算法是前向 算法、 v i t e r b i 算法和前向后向算法。 语音识别中使用h mm通常是用从左向右 单向、带自 环、带跨越的拓扑结构来对识别基元建模,一个音素就是一个三至 五状态的h mm, 一个词就是构成词的多个音素的h mm串行起来构成的h mm, 而连续语音识别的整个模型就是词和静音组合起来的h mm. 词典是表示声学模型所代表的词。语言模型主要分为规则模型和统计模型 两种。统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律,其 中n - g r a m简单有效,被广泛使用。 n - g r a m是指该模型基于这样一种假设,第 n 个词的出现只与前面n - 1 个词相关, 而与其它任何词都不相关, 整句的概率就 是各个词出现概率的乘积。这些概率可以通过直接从语料中统计 n个词同时出 现的次数得到。常用的是二元的b i - g r a m和三元的t r i - g r a m . 1 .2 语音识别技术发展及应用 语音识别技术从开始,其目 标就是希望语音识别技术能够广泛应用于人们 的日 常生活,因此,语音识别技术具有极强的商业目的,追求这一目 标始终贯 穿于语音识别技术的发展史。在语音识别技术发展的各个阶段,根据其技术成 熟的程度,各个研究机构也充分开发了各种应用产品。 七十年代,日 本开发出语音电子打印机。 八十年代,电话语音识别。包括语音电话拨号、语音自 动总机、电话语 第1 章 引言 音信息查询等等, 这一时期以a t , s p e e c h 了 : 厂入出 火 _ _了 飞 _ 沪 :讯 c o r r u p t e d s p e e c h s t r e s s i t a s k w0 d c l o a d / 火 了 ch a n n e l a dd it i v e no i s e r e c e i v e r 八女i i t i v e no i s e 图 卜 2引起语音信号多变性的各种因素 上图示出四种引起语音变化的因素,正是这些因素导致了目 前语音识别的 鲁棒性能不尽如人意,下面我们作进一点分析。 引起语音信号变化的噪声源主要可分为两大类:加性噪声和卷积噪声。 其中加性噪声主要是背景噪声,它是直接叠加上语音信号上,与语音信号 具有不相关性,在时域和频域上都表现为加性叠加作用。背景噪声包括静态与 非静态噪声。 静态噪声包括计算机风扇声、空调声等,它们的功率谱密度不随 时间变化:非静态噪声,可能是由关门声、电 话铃声、其他人说话声引起,其 统计特征随时间变化。静态噪声包括高斯白噪声与粉色噪声。在功率谱域上, 静态的白高斯加性噪声表现为对所有语音频率都适用的加性偏值,而有色加性 噪声则是不同频率成分有不同的加性偏值。非静态噪声表现为突发性与不可预 知性。另外,背景噪声中还有一种特殊现象: 鸡尾酒效应。它是人们在喧闹嘈 杂的环境中、 音乐声中、很多人聚会的场合下,大家能从容不迫、不受影响地 专注自己的话题,听众能专注于某一个人的对话上, 而忽略其他的声音。这些 干扰语音被称作 “ b a b b l e 噪声。加性噪声有时会改变人们的说话方式,即 第 1 章 引言 l o m b a r d ” 效应。 它是指在噪声环境下说话人会不自 觉地改变声调、 语速发音 的现象,说话的方式会趋于短促、 尾音提高、音调提高、共振峰会发生变化, 同时, l o m b a r d ”效应很难采用量化方式描述,因 此,它使噪声情况下语音失 真更为复杂。 卷积噪声的特点是可以看作一个线性非时变滤波器对语音信号的滤波作 用,它在时域上表现为与语音信号的卷积作用,在频域上表现为乘积作用,在 倒谱域上表现为加性叠加作用,它主要是指由于传输信道的环路频率响应、传 感器的电气特征、房间的回声效应与语音信号相互作用引起信号失真。 卷积噪声包括信道畸变是由 于传输信道、传感器的电气特征、房间的回声 影响、电话线环路频率响应引起的信号失真等等。它在时域上表现为与语音信 号的卷积作用, 转换到频域则是乘积作用,在倒谱域上则是加性偏值。 因此,由于上述各种干扰因素的影响,导致了 语音识别的因难,使得人们 在构造语音识别系统时不得不加上许多限制。当然,影响识别的因素还有很多, 包括语音信号的多变性、动态性、瞬时性,以及语音组织的随意性等, 这些都 制约了语音识别技术得到更为广泛的应用,也成为语音识别技术现今面临的困 难与挑战。 本文主要研究由于加性噪声与卷积噪声对语音变化的影响。在本文中,加 性噪声主要是指慢变的背景噪声, 卷积噪声是指由于话筒、传输信道频率响应 引起的信号失真。 1 .5 本文的研究重点 当前, 基于主流技术, 即m e l 频 域倒谱系 数( m f c c ) + 隐马尔 可夫 模型 ( h m m s ) 结构的语音识别系统,在实验室环境下已 经取得了很好的识别性能,但是,在 实际应用中,由于噪声的影响以 及各种因素的干扰,使得识别系统的性能急剧 下降,因此,寻求有效的鲁棒性技术,使得语音识别系统能对由 训练与测试声 学环境不同而引起声学特征变化不敏感,不仅具有很大的理论意义,而且也有 更加重大的工程应用价值。 鲁棒性技术的研究发展到今天,己 逐渐形成三大趋势:第一类,寻找有效 的鲁棒性的语音特征,这些特征对环境的变化不敏感。第二类,语音增强或去 噪处理,它通过净化噪声语音数据,使之更好的匹配在干净环境下预先取得的 鲁棒性语音识别中模型适应技术的研究 模型。第三类,基于模型的适应技术,它直接修正、变形千净语音模型参数, 使之能够更好的 描述噪声环境下的语音特征, 本文中讨论的就是这一类技术。 自九十年代初,鲁棒性语音识别中以并列模型组合技术( p a r a l le l m o d e l c o m b i n a t i o n p m c ) 技术为 代表的 模型适 应技术已 经取得了 很大的 进展。 这种技术 的特点是;在不匹配是由噪声引起的条件下,利用语音数据直接对噪声建模。 它可以直接利用噪声源的统计信息,而不管噪声的类型。同时,噪声模型由于 是独立建模的, 因此, 当噪声源变化时不需要对语音模型进行变化, 是基于h m m 模型的适应技术。而p mc技术尽管具有较好的噪声适应性,仍需要解决以下三 个问 题: 首先由于p mc技术是通过统计学习技术来调整语音模型参数, 它不需 要完整的再训练过程,在适应数据相对较少的情况下,需要调整尽可能多的模 型参数,因此需要采用较优的参数估计方法从有限的数据中提取精确的噪声信 息。 p m c技术处理需要将模型参数在不同域之间进行转换,以 及将参数之间进 行组合,在这些过程中采用了一系列假设与近似处理,在实际情况下这些假设 与近似条件会引起结果的不准确性。另外, p m c技术还存在计算量大,过程复 杂等诸多不足。 另一方面,p mc技术在较高的信噪比情况下能有效发挥作用,而在低信噪 比的情况下,由于噪声成分在合成模型中占了很大比重,因此利用这种合成模 型很难获得令人满意的识别结果。另一方面,虽然语音增强技术能有效去除噪 声成分,提高信噪比,但增强技术与模型适应技术的综合使用仍较为少见, 如 此能有效将它们综合使用, 发挥各自 的优势,从而进一步提高整个语音识别系 统的鲁棒性能。 本文的研究目 的是针对以上提到的p m c技术的 三个基本问题作深入研究: p m c技术中噪声信息的 提取方法, 而其中又以 卷积噪声模型的参数估计为重点; 通过对参数组合处理的具体特点分析,找出如何解决由于假设与近似处理引起 不准确性的方法以 及如何降低计算量; 创新性地将第二类与第三类鲁棒技术结 合使用,并定义一个新的 特殊模型一残差噪声模型, 将它引入模型适应技术中, 使之成为更加鲁棒性和更加简洁的 环境适应算法。 在总结和分析现在的模型适应技术的基础上,本文针对以上问题进行了深 入全面的研究。研究的工作主要包括以下4 个部分: 第 1 章 引言 鲁棒性技术的研究:详细分析各类鲁棒性技术的发展动态和方向,针对不 同鲁棒性技术的各自 特点, 提出了 将增强技术与适应技术结合作为技术创新的 突破点。 p m c技术的 研究: 首先根据p m c技术的基本原理,分析p mc技术的局限 性,包括有:卷积噪声模型求解困难:近似和假设处理引起模型偏差:计算量 较大:动态参数求解复杂;低信噪比情况下性能不好等等,提出了在p mc技术 中引入时频域最大似然估计来求解卷积噪声模型,最后采用迭代的期望估计来 求解。这是基于语音分布在较长时间内 表现为均值为零,方差与功率谱有关的 一种随机分布,在此基础上求解卷积时域响应的模型的方法;采用模型分裂合 成的方法减少近似和假设处理弓 起模型偏差;采用动态加权的方式处理方差的 静态和动态参数,将噪声模型与语音模型的方差采用一种简单的方式进行加权 求和,作为带噪语音模型的方差, 在降 低计算量的情况下,提高了识别性能。 增强算法与适应算法综合利用的研究:我们创新地提出了 将增强技术与 p m c技术结合使用的方法。首先对适应数据与测试数据应用信号增强技术作为 预处理,其目 的是将有噪数据尽可能还原成干净语音数据,降低噪声在信号中 的比重:然后应用模型适应技术,其目 的是使合成的模型更好的匹配经处理后 的数据。提出了对增强处理后的 信号采用分步估计法分离残留的加性噪声和卷 积噪声, 利用最大似然方法分别在线性域和对数域进行迭代求解,并利用 p m c 技术将估计的模型与干净语音合成为增强语音模型。创新地提出了残差噪声模 型的 概念, 作为对残留的加性噪声和卷积噪声的联合补偿模型应用于p mc技术 中, 它不仅克服了传统的p m c技术的诸多局限性, 而且能有效地提高系统在噪 声环境下的识别性能。 识别工具的研究: 我们详细分析了剑桥大学的h t k工具包, 包括其使用方 法和核心算法,并在此基础上, 进行了 针对性的改进,从而将这种优秀的识别 系统应用到中文数字串识别任务上来。 本课题是科技部中小企业创新基金资助项目。项目 名称:语音网络服务器, 项目 代码:0 1 6 2 2 1 1 0 0 0 1 9 。论文的 研究方向是在完成系统设计的同时,深入研 究语音识别鲁棒性技术,并将其应用于我们的实际系统中。从而使得该系统能 用于各种场合,包括现实场景、 有线传输通道、无线传输能道等等,具有噪声 的处理能力。 鲁棒性语音识别中模型适应技术的研究 1 . 6 论文章节安排 本文共分六章。 第二章主要介绍现阶段主要的鲁棒性语音识别技术,简要分析了其基本原 理,并给出了各种技术的性能比 较。 第三章 详细 介绍 并行 模型组 合技术( p m c ) 的 基 本原 理、 实 现 过程以 及 p m c 技 术的 发 展 进程。 并 根据 我们 对并 行 模型组 合 技术 ( p m c ) 的分 析, 提出 一 些相应 的 改进方法, 从而提高并行模型组 合技术 p m c ) 在噪 声环境下的 鲁棒性。 最后我 们将残差噪声引入并行模型组合技术( p m c ) 中, 创新性地将第二类与第三类鲁棒 技术结合使用,从而进一步地提高系统在噪声环境下的识别性能。 第四章是我们的实验结果。 整个实验是在剑桥大学的h t k语音识别工具包 的基础上进行,嵌入了新的p mc 算法,可进行非特定人连续语音识别。在各种 噪声环境下对算法进行了测试,包括人工添加各种噪声以及实际噪声场景。 第五章是我们的工程应用介绍。简要介绍科技部科技型中小企业创新基金 资助项目 语音网络服务器,我们在完成系统设计的同时,深入研究语音识 别鲁棒性技术,并将其应用于我们的实际系统中。从而使得该系统能用于各种 场合,包括现实场景、有线传输通道、无线传输能道等等,具有噪声的处理能 力。 第六章总结了本文的全部工作,并展望了下一步的工作前景。 第2 章 噪声鲁棒性技术 第2 章噪声鲁棒性技术 2 . 1 鲁棒性技术综述 语音识别系统的性能受许多因素的影响,包括不同的说话人、说话方式、 环境噪音、传输信道等等。提高系统鲁棒性,目 的是提高系统克服这些因素影 响的能力, 使系统在不同的应用环境、条件下性能稳定;或是根据不同的影响 来源,自 动地、有针对性地对系统进行调整,在使用中逐步提高性能。 解决办法分为针对语音特征的方法 ( 以 下称特征方法) 、 环境补偿方法、环 境适应方法共三类。第一类是需要寻找更好的、高鲁棒性的特征参数:第二类 是对当前测试环境的语音进行增强或去噪处理,使得到的特征参数更好地匹配 干净环境下训练得到的模型:第三类是利用先验的噪声信息, 对干净环境下的 模型参数进行调整变形,使之能更加描述当前带噪语音的特征参数。 鲁棒性处理的信号有二种类型,一种是对单独的每个语音帧描述的特征参 数进行处理,一种是对代表相同 发音单元的特征参数进行统计描述,生成所谓 的模型参数,因此,提高鲁棒性技术的方法也是基于对以上两种参数的处理。 我们将鲁棒性技术归纳为下表: 鲁棒性技术 特征方法:mf c c , s mc , r a s t a - p l p , l p c参数等 环境补偿 时频域处理: 5 5 功率谱减技术 频域mms e估计技术 wi e n e r 滤波、k a l m a n 滤波 卜倒 谱 均 值 归 一 化 技 术 c m n 及 r a s t a 卜 f1 h t 1 h 1 # k : p o f , f c d c n 基于模型参数最大似然估计技术: c d c n ,rat z, s p l i ce 鲁棒性语音识别中模型适应技术的研究 环境适应技术 噪音叠加再训练技术 m u l t i - t y p e 技术) 随 机匹 配技 术 ( s t o c h a s t i c m a t c h i n g ) m l l r技术、c a t 技术和特征音技术 ma p 技术 p mc技术、 v t s 技术 噪声 掩蔽 技 术 ( n o i s e m a s k i n g ) s p e e c h / n o i s e 分 解技术 其他还包括话筒阵、回音对消技术,以及基于听觉模型的鲁棒性技术:如 基于 子频带内 信噪比 特征的 多带( m u l t i - b a n d ) 技术( b o u r l a r d 1 9 9 6 ) , 以 及丢失 特 征( m i s s i n g - f e a t u r e ) 技 术( c o o k e 1 9 9 4 云 ” 曰 = ; (o , 林 动( 2 - 1 ) 其中a 1 ) 代表测试环境下的第: 帧带噪语音数据,上标。 印 表示倒谱域上的参 数。 凡 与凡 分别表示训练环境下得到的 语音模型与测试环境的 噪声模型, 从式 ( 2 . 1 ) 看到, 对应的纯净语音估计值s (r ) 是由带噪语音数据o h, 语音模型凡 与噪声模型 4 决定的。 噪声模型主要是通过采用测试环境的背景噪声, 或是静音期样本得到。 确定映射函数f ( ) 方式有很多,分别在下面介绍。 功率 谱减技术( s s ) 功率谱减是很直观有交效的方法之一, 它通过估计背景噪声的功率谱均值, 并将带噪语音数据的功率减去这个均值,从而降低背景噪声的干扰,提高信噪 比,但它会引入音乐噪声,该方法将在后面作详细讨论。 谱减是有效去除加性噪声方法,但前提是必须知道噪声谱, 通常通过检测 最近的静音期数据并直接估计噪声谱获得,因此,潜在的假设是在短时间内噪 声不会发生大的变化,为防止出 现谱负值, 一般采用的是非线性减法。当然, 这种方法最主要的问 题是引入了所谓的 “ 音乐噪声” , 可通过在谱减后通过中度 平滑来减少这种不利影响,在低信噪比时这种方法的有效性会降低,同时,在 第z 章 噪声鲁棒性技术 减法过程中可能会消去一些磨擦音等。 .cmn 倒谱均值归一化是简单有效的方法之一。它通过计算某个发音特征矢量的 长时平均,然后每帧的特征矢量减去这个平均值,即保证特征矢量的均值为0 , 减少因数据的变化而引起特征矢量的变化, 又可以对因传输信和不同说话人的 特征差异进行归一化,增加鲁棒性,但它对非线性信畸变效果不好。该方法将 在后面作详细讨论。 wi e n e r 滤波 wi e n e r 与k a l m a n 技术是通过滤波方式除去由于直流噪声或慢变传输信道、 话筒引起的畸变。wi e n e r 技术利用平稳随机过程的相关特性和频谱特性,采用 m m s e求解最小均方误差, 从而设计出一线性时不变滤波器, 对带噪语音信号 进行滤波。 频谱 m m s e 估计技术 频域谱的最小均方估计( m m s e ) 方法需要同时记录纯净语音与带噪语音。 即 同一个发音,一组是在无噪的信道录制,另一组是在带噪信道下录制。采用 mms e估计准则,在不同频带进行滤波器设计,从而可完成对纯净语音的估计 求解。 .f cdcn f c d c n需要同时记录干净语音和带噪语音信号。采用最大似然估计技术, 利用码本矢量求估干净语音的特征参数。p o f 方法与此类似。 .cdcn 通过高斯混合密度表达纯净语音的倒谱分布。通过解析形式表达环境对纯 净语音倒谱分布的影响。采用最大似然估计获得环境参数,或是利用最小均方 估 计 ( m m s e ) 方法 对带噪 语音 估 计求 解出 纯 净 语音的 倒谱参数。 r a t z方法与c d c n类似, 通过e m估计获得环境参数,然后利用m m s e 估计求解干净语音的倒谱特征参数。 而s t a r方法在最后一步中, 则直接求解的 是干净模型参数的估计值。 鲁棒性语音识别中模型适应技术的研究 随机匹配技术 ( s t o c h a s t ic m a t c h i n g ) 随机匹配技术是利用最大似然方法,利用少量噪声环境下的适应数据,利 用最大似然估计,采用迭代的方式调整纯净的语音模型,与 ml l r技术有一些 类似。 2 . 4 环境适应方法 与环境补偿方法相反,环境适应技术是变形、调整声学模型参数,使之适 应当前环境下的语音特征。其基本表达式为: x 二 c 钟(4 x x . ) ( 2 - 2 ) 其中,i. 是对带噪语音模型参数的估计值。 确定映射函数c ( ) 方式有很多,分别在下面介绍。 噪声要加再训技术 这是环境适应方法的最直接的方法。它通过人工生成不同类型、不同大小 的噪声,直接叠加到语料库中的纯净语音数据上,然后对这些带噪数据进行训 练,重新生成语音模型,由于它包括了大量的环境噪声信息,因此具有较好的 鲁棒性能,在某些噪声情况下基至比匹配条件的识别率还要高。 。 m a p技术 贝叶斯架构提供了一种利用将新的特征数据结合到己 有模型中去的优化方 法,即最大后验概率优化。 对基于 h m m 的系统而言,可推导分类期望:如最 大e m算法、 前后向算法及切分k均值算法等。 基于m a p 适应方法可应用于各 种场合:h mm码本再估,监督与非监督适应,平滑处理等。同时ma p还可以 与ml l r方法合用。 大多数适应技术假定:给定的数据足够多,可以 进行准确建模,也可以 把 握正确的失配函数。如果有较多的 适应数据时,m a p 具有很多的环境适应性。 但是,当只有很少的适应数据,则效果不好;此时,只有需要较少的信息的适 应技术,如m l l r技术和p m c 技术才可以发挥较好的鲁棒识别性能。 m l l r技术 ml l r最初用在说话人适应上,但在环境的适应上也取得较好的效果。该 第2 章 噪声鲁棒性技术 方法利用少量噪声环境下的适应数据,对模型的均值与方差进行线性变形处理, 更新h m m模型描述的纯净语音的 均值与方差矢量。它不分析环境噪声的模型, 而是利用适应语料直接对语音模型的均值和方差进行平移和旋转。ml l r技术 及ma p 技术均假定干净语音模型与带噪语音模型存在某种映射关系, 它们之间 的差异可以通过模型空间的变换来变换,其特点是利用适应语料来线性调整模 型参数。由于利用的环境适应语料有限,因此需要采用模型状态聚类的方式使 多个状态共用一组线性变形参数。这种共用是一个等级树的方式实现的,当可 用的数据有限时约束扩展,当数据增加时则约束随之逐渐减少。p c - ml l r及 w p c - m l l r ( s .- 7 .d o h , 2 0 0 0 ) 则 利用 基元 分 析 ( p c a ) 降 低m l l r矩阵 维 数, 并 利用不同状态之间的相互关系提高多个回归类变形参数的可信度。近年来还发 展了 说话人自 适应训练( s p e a k e r a d a p t iv e t r a i n in g ) ,聚类自 适应训练的方法( c a t , c lu s t e r a d a p t i v e t r a in in g ) g a l e s , 2 0 0 0 以 及特征音 ( e i g e n v o ic e ) 技术, 认为新 的说话人的语音模型与标准说话人语音模型有一些偏值,它通过线性组合偏值, 从而完成对说话人、环境的适应。c a t中标准矢量是说话人聚类的均值参数。 而在特征音技术中,则是采用了一些维数降低的多个说话人模型均值的正交矢 量。 随机匹配 ( s t o c h a s t i c m a t c h i n g ) 随 机匹 配 ( s a n k a r a n d l e e , 1 9 9 6 ) 可 对 模型 均 值矢 量 进 行非线 性 变换。 它 基于 适应数据与干净语音之间的模型失真,寻找一种对模型均值与方差矢量的非线 性变换矩阵,由于适应数据的有限,通常不同的模型可以 共用一组变换矩阵。 噪 声 掩蔽技 术 ( n o is e m a s k in g ) 噪声掩蔽技术是基于人耳听觉机理的原理发展而来:当响度较大的声音作 用于人耳时,人耳会对时间和频谱上邻近声音感知下降:当完全掩蔽时,对于 低于掩蔽门限的声音,人耳基本感受不到。此时,在频谱域或是对数谱域上, 或是噪声、或是语音占主导地位,因此,噪声掩蔽技术认为适应数据的形式可 能是由带噪语音分布,或是噪声分布,或是干净语音分布来决定的。模型参数 是由 纯净语音模型的 均值n p 0 、 各时刻 观察 数据o ,m i ) ,以 及对应的噪声特征 参数 估计值k (r ) 共同决定,其中, 是矢量的第, 维。根据当前各参数值,可划分出不 同 噪声 掩蔽条件区域。 g a l e s , 1 9 9 6 根据语音和噪声的 关系, 给出 不同的带噪语 音分布近似,具体见下表: 鲁棒性语音识别中模型适应技术的研究 表2 - 1 噪声掩蔽函数中不同的噪声条件区域 条件相互关系 a l a 2 a 3 o nr ) .4 k (0 . 0 ( 0 户 oj(t ) 卵( : ) 、 刘 “ 妙( r ) 、 对 叫 砂( r ) bl b 2 b 3 o f (t ) , u 斥 坪 (t)、 刘 ” 、 律.(r) u i0 . n ,a 0 (r ) o ,0 , (r ) 尸 严、 俨闭、 向 , (r) 根据各个不同的条件, 对应的k l a tt 算法、 b r i d l e 算法以及h o l m e s 算法对当 前环境下的适应数据的分布描述如下表所示: 表2 - 2 不同噪声与掩蔽函数适应数据的分布概率 kl a t t 、 泌何 p 卜 : 俨 )、 (o: ot 卜 飞 。 悠 艺 俨 ) 响、 帆 产.穿) 咖呀1 砂歇) k (oi ,0 o a . , e l. ) k (o b 0 (r l n .# ; 、 伪 户 ,(: ) 、 )、 ,: , ) m 赤(i + e ,., cw r) ( 3 - 8 1 ) 经化简推导,可得到对h , 与。 .( ) 求解的迭代式, 有: 第3 章 并行模型组合技术( p m c ) 的研究 酬 z ( - r ) e( ,) ,( as x小 ( 3 - 8 2 ) -艺间 2才!r、 一 ,. 占 尽 q .: (ry , ,二 李 翼 lo (.,。 i, (. 1 ) r翼 , , 。扣 恤 士通 h 伽 上】 专 f , ( z ) ( 3 - 8 3 ) 其中式( 3 - 8 2 ) , ( 3 - 8 3 ) 中: 是迭代次数。 其中2 伽 ) 一 卜 e 一” ,e 一伽 , 一 ” 一 从 r .1 .e 风 ,e 一 “, . 。 一 办 一 叫 w (- + ) = e p (! , 一 。 40 (m 闭 。 r . (d e ) t x rc ( v , ) 其中洞 i h (a e q .n .,. ( m , ) * q ,w ( ) 在上两式中, 两个未知量的求解相互依赖, 迭代求解。 因此, 在求解过程中, 我们可以设置加性噪声为白 噪声的初始值,首先对hl 求解, 然后求解与。 。 帆) 。 通过多次迭代,可以得到卷积噪声冲激响应及加性噪声的功率谱,利用这些信 息,可应用 p m c技术,合并带噪语音模型。从上面推导可以看出,由卷积噪声 的特征参数训练模型时,可以同时包括均值矢量和方差矢量。 本节给出的各种方法,可从有限的适应数据,提取出较为精确的噪声信息。 我们在最大似然估计算法的基础上, 采用不同的方法完成模型参数估计求解。 实验证明这些方法在对卷积偏值估计的方法是有效的。 3 . 5 方差矢量合成方法的研究 本章第2 节给出了基于对数正态假设的p mc方法中对均值矢量和方差矢量 的合成办法,从推导过程可以看出,在处理过程中,需要将参数在倒谱域与线 性域上进行转换, 计算量非常大。 另一方面, 基于对数求和的p mc方法中仅对 带噪语音模型的均值矢量进行合成,而方差保持不变,仍保留干净语音模型的 原始方差,这样可以降低计算量。 但直观地分析,由于没有引入方差信息,所 以可能会影响识别的性能,具体情况可能参见第5 章实验结果。 如何在计算量较小的对数求和方法中引入对方差处理,从而在降低计算量 的 情况下, 提高p mc方法的识别性能, 是我们研究的方向 之一。为此, 我们引 入加权参数q ; 与气 来综合加性噪声与千净语音模型方差的影响, 整个处理过程 如下: 首先我们重写式 3 - 2 3 ) , 有: 珊二 , - p i (e x p le , 0 ) 一 1) ( 3 - 8 4 ) 第3 章并行模型组合技术( p m c ) 的 研究 如 果当心(0 时, - p (l , . ) = 1 + 心 此时, 则式( 3 - 8 4 ) 可近似为: 1 您 = 砂 砂心(3 一 85) 如果 干净 语音模型的 方差与 加性噪声 模型的 方差各 个分 量都 满足e ; (p 的 条 件,那么式( 3 - 2 5 ) 可近似表示为: 1 ,; 二 s - a p v , 功十 a l, 砂扮( 3 - 8 6 ) 同 样, 如果带噪 语音模型的 方 差各分 量也 满 足卿(p 的 条件, 那么上式等号 左边可以化为: n il , n 却 二 : 场 黔刀 少 心 + 砂 砂舞( 3 - 8 7 ) 等式两边同 除砂砂, 式( 3 - 8 7 ) 还可以 表示; l ; 11 = 一 斜 小斜 、 ( 3 - 8 8 ) 上式中带噪方差的各分量可以用干净语音模型的方差与加性噪声的方差分 量组合得到,并每个分量的加权系数不同,为简化问题,我们只取一组相同的 加权值,转换成矩阵表达式: ioy 二 二 互 一 - 州 呀 + 一 止 达 . 一 户 , ( 3 - 8 9 ) 假设所有方差矩阵是对角阵的, 那么可以 直接推导加权参数、与 。 , , 其中 a , = 会 e f “ ” 合 e f , 。 = av y - 礁 n sm p,尸; , 二 。 - p w. ), 一 1一d 将

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论