




已阅读5页,还剩65页未读, 继续免费阅读
(信号与信息处理专业论文)语音识别前端噪声鲁棒性方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中n 科学技术大学硕士学怔论文 摘要 本论文的研究课题是语音u 别前端噪声鲁棒性。语音识别是使训算机能够听懂人的语言 的技术,经过数十年的发展,目前已经有小少语音识别系统在实验帑环境下能够给出令人相 当满意的性能。但是,当把这些系统放到实际环境下来使用时,由j :总是存在着的复杂多变 的噪声以及干扰,系统性能往往会发生人幅度的f 降,甚至变得完全不具有兀j 用性。寻找能 够有效的消除或者抑制噪声的方法、提升噪声环境下语音识别系统的性能,已经成为语占识 别实用化过程当中最需要解决的问题之一。 噪声鲁棒性方法非常多样但大体上n j 以将它们分为酊端方法和后端方法两个大类。前 者着晕于划输入语音信号或者语音特征做处理,以尽可能抑制噪声的影响;后者则丰婴蔚眼 j :使语音识别模型具有更大的宽容度币l 适应能力,能够容忍一定量噪声的存在或者是可以 及时跟上噪声环境的变化。本文对前端噪声鲁棒性方法进行了一系列耐i :究,实现了一些既有 的方法同时也提出了一些新的方法。 在奉文第章中,作着介绍了欧洲电信标准化组织( e t s i ) 颁布的分布武语占识别 ( d s r ) f i 口端标准。这个标准是e t s i 针对分布式语音识别应用_ 卜的特征参数提取过程的需求 而制定的,代表着业界存噪声鲁棒性语音识别方面的较高水准。作者较为详细帕介绍了这个 标准的结构以及流程,并结合实验阐述了该标准所采用的几个关键算法的原理。 在奉文第三章巾。作者提出了一个对e t s id s r 标准的改进。在对原标准的实现与研究 过艉d 叶1 。作者发现其主体算法两级维纳滤波算法存算法效率方面存在一些问翘,算法巾 反复的时频域转换消耗了人攮帕运算资源。对此,作者进行了深入的理论分析与相关实验, 并提m 了一种对缘算法的改进。实验表明在儿乎不影响标准性能的情况下使h j 新的算法 丌j 以将运算复杂度降低到j 糸标准的三分之一左h 柱本文第四章中,作者介绍了以倒谱均值相减( c m s ) 、倒谱均值与方茆规接( c m v n ) 和 直方幽均衡( h q ) 等为代表的一类特征参数规整方法。这也是一类廿常重要并且非常常川的 噪卢鲁捧性语音识别方法。本文尝试将尽可能多的这一类方法,都统一到累计分布函数匹配 ( c d f - m a i c h i n g ) 的理论框架之r 。之后。基于c d f - m a t c h i n g 原理并且往分析了既自方法 的缺点之后,作者提出了基于双高斯的特征参数规整力法。与c m s 、c m v n 等丰廿比新乃 法可以更为细致的表达语音特扯的概率分布;与h q 相比,新方法又是一个参数化的方法。 在评测用数抛库a u r o r a 2 上的相关实验表甥新方浊n j 以取得比c m v n 等方法更好的性能。 在本文第五章中,作煮介绍了以双通道逐帧线性环境补偿( s p l i c e ) 方法为代表的。类倒 谱参数域特征补偿算法。s p l i c e 是在最近儿年中被提出柬的一种性能相当不错的力法,它 继承了c d c n 等方法的基木原理,町以直接存倒谱参数域中对带噪语音特征进行补偿。该 方法的个特点是通常需要刚到双通道数据来建讧特征j j 映射补偿关系。作者在a u r o r a 2 任务上实现了s p l i c e 方法。并墩得了与文献所述相当的性能。 关键词:语肯t i 别,噪声鲁棒性,语肯t i 别前端,维纳滤波,特征参数规整,倒谱域 特征参数补偿 中h 科学技术大学硕士学位论文 a b s t r a c t a b s t r a c t t h i st h e s i si sf o c u s e do nt h er e s e a r c ht o p i co fn o i s e - r o b u s tf r o n t e n do fa u t o m a t i cs p e e c h r e c o g n i t i o n ( a s m a s ri sat e c h n o l o g yt h a tt r i e st om a k ec o m p u t e r su n d e r s t a n dt h eh u m a n s p e e c h a r e rr e s e a r c h i n gf o rs e v e r a ld e c a d e s ,t h e r ea r ea l r e a d yq u i t eal o to f a s rs y s t e m st h a tc a l l g i v es a t i s f a c t o r yp e r f o r m a n c ei nl a b o r a t o r y h o w e v e r , t h e yu s u a l l yp e r f o r mm u c hw o r s ei n r e a l e n v i r o n m e n t sd u et ot h ev a r i o u sn o i s e sa n di n t e r f e r e n c c t h e r e f o r e 1 0 0 k i n gf o rn e wn o i s e - r o b u s t m e t h o d st oi m p r o v et h e i rp e r f o r m a n c ei nn o i s ye n v i r o n m e n t sh a sb e c o m eo n eo ft h em o s t i m p o r t a n tt a s k sf o rt h es u c c e s s f u la p p l i c a t i o no f s p e e c hr e c o g n i t i o n n cn o i s e - r o b u s tm e t h o d sa r ev a r i o u sa n dc a nb er o u g h l yc l a s s i f i e d i n t ot w oc a t e g o r i e s : f r o n t - e n dm e t h o d sa n db a c k - e n do n e s t h ef r o n t - e n dm e t h o d st r yt om i t i g a t et h ee f f e c t so fn o i s e s b yp r o e s i n gt h es p e e c hs i g n a lo rs p e e c hf e a t u r e ,w h i l et h eb a c k - e n do n e sc o n c e n t r a t eo nt h e t r a n s f o r m a t i o no ft h es p e e c hm o d e l st om a k et h e mm o r es u i t a b l ef o rt h es p e e c hi nr e a l e n v i r o n m e n t s t h i st h e s i si sp r i m a r i l yf o c u s e do nt h er e s e a r c ho ff r o n t - e n dn o i s e - r o b u s tm e t h e d s i n c l u d i n gt h ei m p l e m e n t a t i o no fs o m ee x i s t i n ga l g o r i t h m sa n ds e v e r a ln e wo n e sp r o p o s e db yt h e a u t h o r i nt h es e c o n dc h a p t e r , t h ea u t h o ri n t r o d u c e st h ea d v a n c e df r o n t - e n d ( a f e ) s t a n d a r do f d i s t r i b u t e ds p e e c hr e c o g n i t i o n ( d s r ) , w h i c hi sp u b l i s h e db ye u r o p e a nt e l e c o m m u n i c a t i o n s t a n d a r di n s t i t u t e ( e t s i ) t h i ss t a n d a r di ss p e c i a l l yd e s i g n e da c c o r d i n gt ot h ep r a c t i c a ln e e d so f f e a t u r ee x t r a c t i o nf o rd s ra p p l i c a t i o na n ds t a n d sf o rar e l a t i v e l yh i g hl e v e lo f n o i s e - r o b u s ts p e e c h r e c o g n i t i o ni nt h ec o m m u n i t y t h ea u t h o rg i v e st h es t r u c t u r eo ft h es t a n d a r di nd e t a i l s ,a n d i l l u s t r a t e st h ep r i n c i p l eo fs e v e r a li m p o r t a n ta l g o r i t h m sa d o p t e di nt h es t a n d a r db ys o m e e x p e r i m e n t s i nt h et h i r dc h a p t e ro ft h i st h e s i s ,t h ea u t h o rp r o p o s e sa ni m p r o v e m e n tf o rt h ee s t ia f e s t a n d a r d 1 nt h er e a l i z a t i o na n dr e s e a r c ho ft h i ss t a r t d a r d t h ea m t h o rf o u n dt h a tt h e r ea r es o m e e f f i c i e n c yp r o b l e m si nt h es t a n d a r ds ot h a tah u g en u m b e ro f c o m p u t a t i o nr e s o u r c e sa r ew a s t e db y t h ef r e q u e n tt i m e - f r e q u e n c ys w i t c h i n g a f t e rc a r e f u la n a l y s i s ,t h ea u t h o rp r o p o s e sau e wa l g o r i t h m t h a tc a l lr e d u c et h ec o m p u t a t i o nl o a do ft h es t a n d a r de f f e c t i v e l yw h i l ei n t r o d u c i n ga l m o s tn o p e r f o r m a n c ed e g r a d a t i o n i nt h ef o u r t hc h a p t e r , t h ea u t h o ri n t r o d u c e sac l a s so ff e a t u r en o r m a l i z a t i o nm e t h o d s s o e ha s c e p s t r a im e a ns u b t r a c t i o n ( c m s ) ,c e p s t r a lm e a na n dv a r i a n c en o r m a l i z a t i o n ( c m v n ) a n d h i s t o g r a mn o r m a l i z a t i o n ( h q ) t h ea u t h o ra l s ot r i e st op u ta l lt h e s em e t h o d su n d e ra ne x i s t e d t h e o r e t i cf r a m e w o r k 。w h i c hi sc a l l e dt h ec u m u l a t i v ed e n s i t yf u n c t i o nm a t c h i n g ( c d f - m a t o h i n g ) p r i n c i p l e b a s e do nt h i sp r i n c i p l e ,t h ea u t h o rp r o p o s e sad o u b l e - g a a s s i a nf e a t u r en o r m a l i z a t i o n m e t h o d w h i e hi sp r o v e dt ob eb e t t e rt h a nc m v na n dh qo na u r o r a 2t a s k i nt h ef i f t hc h a p t e ro ft h i st h e s i s ,t h ea u t h o ri n t r o d u c e st h es p e e c hf e a t u r ec o m p e n s a t i o n m e t h o d si nc e p s t r a id o m a i n s p l i c e 侣t e r e o - b a s e dp i e e e w i s el i n e a rc o m p e n s a t i o nf o r e n v i r o n m e n t s ) a l g o r i t h mi sa ne x c e l l e n tm e t h o dp r o p o s e di nr e c e n ty e a r s b yi n h e r i t i n gt h eb a s i c t h e o r yo fc d c n i tc a nc o m p e n s a t et h en o i s ys p e e c hd i r e c t l yi nt h ec e p s t r a lf e a t u r es p a c e i ti s a l s ov e r ys p e c i a lf o rt h en e e d sf o rs t e r e od a t at oe s t i m a t et h em a p p i n gr e l a t i o no ff e a t u r ev e c t :o r s t h ea u t h o ri m p l e m e n t ss p l i c eo na u r o r a 2r u s ka n da c h i e v e st h er e s u l t sc o m p a r a b l et ot h eb e s t o n e sr e p o r t e d 中n 科学投术大学硕士学竹论文a b s t r a c t k e y w o r d s :s p e e c hr e c o g n i t i o n ,n o i s er o b u s t n e s s ,s p e e c hr e c o g n i t i o nf r o n t - e n d , w i e n e r f i l t c d n g ,f e a t u r en o r m a l i z a t i o n ,c e p s t r a lf e a t u r ec o m p e n s a t i o n 中附科学技术大学硕士学付论文 第一节缔论 1 1 语音识别简介 第一章绪论 白动语音识别( a u t o m a t i cs p e e c hr e c o g n i t i o n ,a s r ) 是指让汁算机听博人的语音的技术, 更获义的定义则特指从人的语音到体面文本的自动转换技术。语音是人与人交流的最自然途 径,语啬识别也就和语齿合成起成为人机交互的最方便的方式。语音识别的应h j 范删非常 r 泛,其中的一些包括:语音命令控制,语音翻详,信息获取。尤其在一些特殊环境乖i 廊用 场合巾,由于体积( 丑手机) 或者安全( 如汽车) 等原因,爵音泌别共至n j 能成为唯一的人机交 互方式。 1 1 1 分类 按照4 ij 叫的要求,语占识别可以有多利,分类方法: 根据识别词汇量的大小,可咀分为小词汇量,总同汇量和大词汇量系统。随着语音识别 算法和讣算机硬件的快速进展,划分的具体标准也往不断的发生着变化。 根据识别语啬的讲述力式划分,可以分为孤直词( i s o l a t e dw o r d ) ,连接词( c o n n e c t e d w o r d ) ,连续语音( c o n t i n u o u ss p e e c h ) 和l 自然语音( s p o n t a n e o u ss p e e c h ) 。他们的实现难度呈现依 次增加的趋势。 根据适川州户的范围,分为某个人使川的特定人识别系统( s p e a k e rd e p e n d e n t ) ,和1 i 针对某个人的非特定人识剐系统( s p e a k e ri n d e p e n d e n t ) 。 1 1 2 发展简史 对语啬识别的研究可以追溯到大约5 0 年前。最早的语齿识别系统更多的是基于声学语 音学理论,并且通常是特定说话人的简单孤立词识别系统。6 0 年代,动态规划被引入到语 音识别朐模版匹配方法之叶1 ,导致了d t w 算法帕提出,并成为人、七十年代语音、以别的主 流綦础算法之。8 0 年代,隐马尔科夫棋犁( h i d d e nm a r k o vm o d e i ,h m m ) 被引入到语啬识 别当中,是语音识别发展过程中的一个里程碑。i ;i 前大音| 【分实用系统都基j :这个统计模型。 9 0 年代,语音识别技术的进一步成熟使得一些语音识别产品被桐继摊向市场。其巾包括i b m 公司著名的v i a v o i c e 系统和微软公司的w h i s p e r 系统。红学术研究卜,剑桥人学的h t k 系 统是最常被使_ l | j 的语音识别升放源代码软件工具包。 1 1 3 识别系统基本构成 _ r 义的说,语音识别也是一个模式识别问题。一个模式识别问题总可以大致分为两大部 分,特征参数提取模块和模式分类模块。典型的语音u 别系统部基于h m m 架构,存这个架 构中,模式分类模块义体现为声学模型和语言模犁。下面将简单介绍个语凿识别系统的基 奉构成: 中h 科学技术大学硕士学化论文 第一常绪论 l ,特征提取 在语音识别中,将语啬从计算机的记录存储结构( 例如语音波形文件) 转化为适合于进行 分类的表示形式( 通常称为语音特征) 的过程被称为特征提取。目前在语音识别中展常利用的 特征参数是用来表返频谱形状f 冉m f c c ( m e l 频率倒谱参数) 或者p l p c ( 感知域线性预测系 数) 。除此之外,其他的诸卉特征信息,如能斌和耩频等也经常被采_ h 。 2 声学模型 杠h m m 框架l i j ,声学模犁是指表达不同语音单元的特征统讣分m 帕参数模曩! ! 。通常粟 埘的都是包含状态转移的系列高斯混台模犁( g a u s s i a nm i x t u r em o d e l ,g m m ) 。 3 语言模型 在连续语齿识别中,卜层语音单元( 如词) 2 闯都打相当程度的柏关及冗余。如果这螳相 笑能被充分利用的话,语音识别系统的止确率就可以比单纯用卢学模型时更高。语言模型就 是这样的表达和利用语音单元相关性的方法。它叉n j 分为基于规则文法的和基于概率统训模 硝的两种,在大词汇带语啬识别系统中,后种方式且有卫大的优势,并f l 更为常川。 4 识别性能测试 完成任何个语青识别系统怕构建后,都需要个方法米对系统的性能进礼评价。评测 可以根据实际需要在音素、音节、间甚至句子等小1 司的语音单兀级别上进行。比较常_ l l j 的是 词正确率和 u 子正确率。在统计词正确率时,由十识别结粜巾通常存在锚双,不刖能期望o j 标准结果之间会打简单i 竹 对应f 冉关系所以般需要借助动态规划婢法将两者进行某种 埘齐之后再进行统计。 1 2 语音识别噪声鲁棒性 1 2 1 原因及其分类 h 前,许多请哥识别系统+ 包括+ 些大谢目:最语音识划系统,往实验帑环境下都可以获 得相当高的识别正确率。但是。一旦把它们放到实际环境当中,往往系统性能就急剧下降, 难以令人满意。现这种现象是冈为实际环境极为复杂多变,在训练过程r l 通过训练数据获 知的语音信息无法反映实际环境巾的语音信息,从而给语音u 别系统的各个部分都带米f 人 挑战。 实斯环境巾,影响语音识别系统性能的冈素上要有以下一些: 1 信道影响( 线性滤波噪声) 这丰要4 i l 珂麦党风之f u j 的频率响应的筹片引起。通常可以把麦兜风的频响埘语占的影 响等效r 一个l t i 滤波器( 当然这井1 | 完美,许多麦克风还存在相当程度的1 f 线性) ,不同的 麦克地相当于与不同的线性滤波器进行卷积。这个卷积过社! 所带来的影哟与语音本身内容完 伞无关,凼而是需蜚州些方法尽最设法去除的。 2 加性噪, f 这是我们最常遇到的对语音的干扰。实际环境之巾总是存在各种各样的环境噪声。这 些虾境噪声肘请等f 冉影响通常可以朋个叠加模犁米进行较好的捕述。当环境噪声级枷较高 时就很有可能对语音质量或者语音识* 器带来较大的影响。环境噪声的分类1 l = 常多样。可 以将他们分为窄带( 带限) 噪卢和宽带噪卢。也可以分为平稳噪卢,f i _ 1 1 f 平稳噪卢通常平稳噪 2 主地盘堂垫生查堂塑主堂笪堡兰笙= 兰堕堡 声更容易处理,而非平稳噪声的影响人多饭难去除。 3 口音 不同的人说i 舌所带的口音将会导致他们的语音的特征参数处j :不同的参数空间中,使不 同陶语音竹元的分布山现更大的变叠,外给识别器带来更大的凼难。但是对一个实用的n j 能需婴面埘成千r 万潜在h 户帕非特定人语静识别系统而言,可能的使川者常常是带仃定 口音的。i 舶何对口音的处理也就成为这类系统的设计与实现中一个很重要的力面。 4 l o m b a r d 效心 枉较强噪声虾境l l ,为了他自己的语肯更为清晰- u 懂人说话刚通常会发牛些变化, 比如啻最普遍增赢、语音持续时刚更长等等,在语占频谱【:通常也会有程度小目的坐化。通 常把这类现象称为l o m b a r d 效心。这种现象也会使得噪声环境下的语音j 安静环境下的语 音之问出现差异,从而给以别器带来麻烦。 5 语酱的复杂多样 语音是非常复杂多样的,尤其是在自然语音( s p o n m n e o u ss p e e c h ) r | 1 ,往往充斥了连凌、 轻声、省时 、插入语、咀及各种各样的语气训等。要很好地处理这些多变的语音现象是非常 困难的这成为当前语占识别的义个难点。 6 说话人自身卢音的变化 人的成长以及衰老、生病等生理变化,椰丌j 能会引起语音的变化。这种不稳定性,将给 语忤识别系统,特别足螳特定人识别系统带米较人的影响。 上述冈素巾,信道影响1 i 加性噪声是两种最为常见的冈素。各种囡素也经常在同一环境 中起出现。但舟不同的具体环境之中,各种因素刈叭别系统影响科度几j 能有不同:如存电 话语啬识别环境下,信道影响与口啬问题往挣更加突出:而在于机等移动设备i - 加悱噪声 往往会起到j 三导作用;如采噪声很强,l o m b a r d 散麻的影响也不能忽略。本论文的探讨重点 足蛙常见的信道影响与加性噪声。 1 2 2 噪声鲁棒性方法分类 应刈实际环境中噪声问题的方法可以粗略地分为两人类:前端方法和瓜端方法。前端方 法着眼j :对特征参数提取过程的改进或者特征参数奉身的处理,以使得到的特祉参数辟可能 接近无噪声环境r 的情况或者使得特征参数具有相对的稳定性。在对环境变化时尽丌j 能 小变化或者变化很小。j 亓端方法则足殴法根据噪声环境米相应的调整模裂,使得模型可以尽 量与实际环境下的特征参数匹配。 中h 科学技术大学硕士学能论立筇一章缔论 训练厂1e k 多曰 i - 一 i 类i i 类i 类 r l,一 、 罔1 i 训练和测试之间的不匹配 噪声鲁棒f l - f , 题的根源可以归结为语音识别训练平测试环境2 问的4 i 匹配,大多数噪声 鲁棒性方法都可以从设法减小两者的不匹配这个角度来解释。按照这些方法的作用范围,可 以更为细致的将它们分为兰类,如图l l 所示。一类足直接对语音进行处理,以尽量降低语 旨中的噪声,这类乃法以维纳滤波等语齿降噪算法等为代表;第类是在语啬特征参数域中 直接进行的特征参数变换或者规整( 灯一化) ,这类方法的代表是c m s ,m v n ,s p l i c e 等方 法;第三种是存t | 亓端进行的模型变换和模型自适应方法代表方法是p m c ,m l l r ,m a p 等。 由j + 噪卢鲁棒性方法非常的多样彼此间胤理、实现方法等的差别也很大,所以其实根 难找到一种分类方法n j 以把所有的方法都进行非常明确台耻的分类。甚至还有一些常用的方 法无法按j 暇r 厩f 由两种归类方法米归类。比如,m u l t i t r a i n i n g 足种常州的模型训练策略, 各种环境雨i 各种情况下的数据被集合到一起v i l 练模型,被证州对提高模型的鲁棒性1 r 常有 效;麦克风阵列是近年来鲁棒性语音以别方1 f | 、特别足年载浯音泌别方的一个研究热点 它是试图利用麦兜风阵列的空间分辨能力米获得进。步的语音和噪声信号。 1 2 3 常用数据库及性能测试方法 作为门实验科学,实验在语占识别的研究中的作j i j 是非常苇要的。凶此实验数据库 及其系统性能评价方法也在研究r p 起着重要作用。 hf i i l 对于语音议别研究旧数拙阼已经有很多,其- p 也有一些足专门为噪声鲁棒性语音 识别目的而垃计的。a u r o r a 系列数掭库就是应州最广泛的川于噪声鲁棒t i :语岢识别研究的 数据库。噪卢环境的复杂多样,使得评测数据库的标准化监得尤其重要,只有这样,j 有可 能对不同方浊的性能作一个客观的比较。同时,仍然是由于噪声环境的多样性,存某一个数 据库r 获得的结论。也小能草率的推广到别的噪声环境下。这就业求在殴计数据库的时候婴 在可能的情况下覆盖尽可能多的噪环境,以使得测试结果和性能评价具有更大的可信度与 丌j 推广性。有时候实际录制的数据很难满足我们所有的需求,这时往往需要人为的合成一些 数据或者做+ 螳模拟实验。 中阿科学技术大学硕士学位论文第一常绪论 本文的所有实验都基于a u r o r a 2 和a u r o r a l 数抛库。i i l 者是一个人上加入加性噪声和信 道蟛响的英文数字串数据库,后者是个车载环境下的带噪语音数据库、包含四种欧洲语言 数宁中。作者将在附录中对这两个数据库进行较为i 羊细的介绑。 1 3 论文组织结构 本义共分为六章。在本章绪论巾,作者对语音识别和其噪声鲁棒性问题做了简瞥的介绍。 枉本文第章中,作者介绍了e t s i 帕分斫i 式语爵珧别特征参数提取标准。该标准的丰体足 基于维纳滤波的语音降噪算法的,作者详细介绍了这个标准的原理以及丈现。在第三章中, 作者提f n 了一个对上述标准巾所采用的两级维纳滤波算法的改进算法,有效地降低了算法的 运算复杂废。第四章中,简要介绍了一系列特征参数规整化方法,井将它们都统- - n 累积分 椎函数匹配( c d f - m a t c h i n 曲框架之下。在此基础卜,进步提出了基于双高斯的特征参数规 整化方法。在第五章巾,介蜊了s p l i c e 等倒谱域特征补偿算法的基本坂理及其在a u r o r a 2 数抛库上帕实现过p t ! 。最后,砷! 笫大章中对论义作出总结,并且探讨了以后柏研究方向。 中 1 4 科学技术大学颂士学位论空 第= 帑e t s ia f e 前端杯准 2 1 引言 第二章e t s ia f e 前端标准 醚着个人通信币i 移动通信的迅迷发胜为手机、p d a 等嵌八设备为代表的手持武终 端提供语音识别服务已被提到重要构蚁事u 穰之上。但是。基于成本、体积等许多原因,人 部分现有于持设需的运算、存储能力都无法满足当前语占识别仟务的需婴。 解决这个问题的一个方案是设置若t 运算能力极强的语音识别服务器,集中处理各个终 端提交的语音谚 捌任务。这个方案的优点是对现有终端软件的改动相对较小。但是该方案仍 然存在两个严重问题:在传统的语芹传输服务过程中。为了降低传输时的码速率,几乎都需 要对语音进行爪缩,而这些压缩算法通常都小是尢损的,这将带来语音音质的损失:_ ! ,j 外, 传输过程巾信道通常,f :非无噪,这将引入i 昊码影响音质,更严重的共至几j 能会导致语音帧 的丢失。 为此分布式诰齿识z i j ( d s r ) 力集被发展起来。在d s r 中,语占炽别的前端( 特征参数挺 取) 和后端( 搜索,解码,d e c o d i n g ) 被分别放到终端( 客,、端) 和服务器端上实现:终端完成语 音采集和特征参数提取,红完成刈特征参数的压缩和( 信道) 编码之后,冉将其传输至服务器 端;在服务器端,经过( 信道) 解码和解压缩。饮复得到的特征参数送入语啬识j j i i 器得到识别 结果。由j :特址参数提取过程所需的计算资源相对较少,目前大多数终端都可以较为轻松的 完成;同时,集r f i 式语音泌别服务器方案巾的两个缺点在d s r 方案巾也n j 以避免;首先, 并小l f 【接传送语占,这就可以避免语音压缩所带= l 的损失,其次,在特征参数的传输过程中 可以加入更为复杂的检错和纠错功能,在大多数直接传输语音的麻用中,由j j 考虑到语音 实时性的要求,应对信道错凝的常用方浊都是相对简币的纠错,供至只是简币的忽略错误或 者丢帧处理。 2 0 0 0 年,欧洲电信标准化组织( e t s l ) 推出了分布语音识别特征参数提墩方面的第一个 标准。返个标准的上体是传统的m f c c 特征参数提取算法,这种特征参数也是语音识别巾 最常用f 由特征参数之。这个标准丰要是作为后继t 作帕摹础,所以不包含柏最著的噪声鲁 棒忭功能。 2 0 0 2 年l o 月,经过长时问的比较,e t s | 最终从儿个相互竞争的方案中选定由m o t o r o l a 、 f r a n c et d e c o m 、n o k i a 等公刮提山的方案作为分布式语音以别前端的筇二个标准一一 a d v a n c e df r o n t - e n d ( a f e ) 。这是个加入了加性噪声抑制及线t i :滤波噪声抑制等功能的新 标准,尽管它采用的特祉参数仍然是m f c c 。选择该标准时最初的评测平台是a u r o r a 2 任务, 之后a u r o r a 3 任务也被用于评测。a f e 标准从算法上来说外不新剐,其基础算法是根y i p 被 应h j 到噪声鲁棒朴语占识别领域中的维纳滤波算法。但足在具体实现r ,a f e 标准有许多 独到之处。这也使得a f e 所采的维纳滤波算法成为:j 前性能最好的l 曝卢鲁棒性算法之一。 在a f e 标准的实现和酬。究过程r 1 i ,作省发现标准的土体部分维纳滤波算法存在几j 以改 进帕地方。据此作者埘该算法成功的做r 修改。极人地降低,罅法复杂度。下常将埘这 个改进做较为详细的介绍。 6 中州科学技术大学硕士学似论文 蒴二章e t s ia f e 前端貅准 2 2e t s la f ef o rd s r 标准 2 2 2 标准简介 这一节将简要叙述e t s i 关j :分布武语音识别系统参数提取承l 传送的标准的部分内容, 重点在于前端特征参数提取过程巾采用的各种降噪方法的介绍,使用这些方法的目的是为提 高特征参数的噪声鲁棒性性能。 终端( 客广端) - 一- _ 一一一一一一一一一一一一一一。一一_ 一一一一一一一一_ 一一一一_ 一一一一一一一 位于客户峭的首靖蹦分 ;赢磊茹i i 匝互圈回 掣圜回回怔圈 城务器端 i i ;矗磊赢矗一 母圈 蹦2 1 分稚式语音识别前端框图( 摘自1 9 ) l 冬ia 是位j :客户端的前端部分各模块 网b 是位于服务器端的l j i 端部分各模块 幽2 1 是分布武语音识别系统的系统框图,分为前端( 终端部分) _ _ f i i 后端( 服务器部分) 两 部分。本章所讲述的是1 j 端的一部分一一参数提取( f e a t u r ee x t r a c t i o n ) 还有后端的参数处 理部分( s e r v e rf e a t u r ep r o o c s s i n g ) 部分。 参数提取过程,是指对输入的语啬信号进行预处理。分帧等操作并转化为识别时所蛰求 的参数的过程。按照图2 ,l ( a ) 巾的先后顺序,参数提取过程分为p q 个部分:维纳滤波降噪, 波形处理,倒谱计算,盲均铂;另外还有两个作为辅助的模块,分别用于端点检测( v o i c e a c t i v i t yd e t e c t i o n ,v a d ) 和进行采样率转换处理。 上述各部分功能如下: l 维纳滤波降噪。降噪是针剐语音信号巾叫能存存的加性噪声而设,存此采用的是一个 基于著名的维纳滤波理论的州步维纳滤波方法。与通常帕维纳滤波相比,该方法最显著f 由特 a 有两个:前后两次通过维纳滤波器。维纳滤波器的构造过程在m e l 频率域上进行。 2 波形处耻。从降噪部分来之后,将信号送入一个信噪比相关波形处理 ( s n r d e p e n d e n tw a v e f o r mp r o c e s s i n g ) 模块l h 这是个降低加性噪声旧j 域处理方法。幕 7 一一一一一-一一一一 一 一i- 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 l 中n 科学技术大学硕士学似论文帮= 审e t s ia f e 前端标准 本的想法是训+ 算时域每个采样点的瞬叫能量,对能量包络平滑j 亓寻找包络上的峰值点,之后 对各峰值点及其附近的采样点的幅度给予+ 个较大的增益,咀达到增强高能最部分、从而在 一定程度上降低噪卢的目的。 3 倒谱计算。输入语音信号,输山所要求的m f c c 参数。与一般的m f c c 参数训算过 程相i 司。 4 信道盲均衡。为消除通道影响( c h a n n e le f f e c 0 即线性滤波嵘:r fr u 设。处理的对致是 倒谱讣算模块输的m f c c 参数,输的是经过均衡后的m f c c 参数。采用的方法是l m s 算法也叫以看做足o n l i n ef nc m s 锥法。 5 采样率转换。i h t - 基本算法是针对8 k h z 采样的,所以当输入为l l 或1 6 k h z 采样时, 需要扩胜模块来进行一些转化和处理。这个模块术章巾暂不提及。 6 v a d 判决丢帧。用端点检测( d ) 罅法检测山人段j 非语音帧,并适量丢弃,常常有 利于提高识别率。 布整个标准巾总煎有三处山现_ :广v a d 算法,未免混淆,存这里先做一个简单的总结。 这i 个v a d 算法分别是: 用在维纳滤波中找出北语音帧做噪卢谱估计。这个v a d 算法只利用了能量级别进行 判断比较简单,是作为维纳滤波降噪的一个子模块实现的。因为只是为了找出噪声段以估 计噪声谱,所以并小婪求太精确。这个胡途的v a d 算法通常都会、敬计得俅守监,以免错 误的将语音段划分为噪声段。 用在将算法扩展到1 6 k h z 时在高频段做噪声谱估汁( 这个v a d 在木章巾暂不考虑) 。 用存进行玉帧处n ( f f a m ed r o p p i n g ) 。即枉判断出非浯扦帧后,兀j 以不将这螳帧送入 识别器,这样可以有效的减少错误。 f i 凸齿帧丢弃的v a d 则是个使j j 参数较多,也比较 复泉完备的方法,判决的结粜送到后端以供丢l 帧处理时使用。 2 2 3 维纳滤波降噪算法 维纳滤波降噪是这个标准的主体,i 卸丽特别重要,为此竹独用一个小节进行介绍。 2 2 3 1 结构说明 图2 2 足维纳滤波降噪模块的结构框图。n j 以看山,这一模块有两个结构基本相同f j 部 分级联而成。在此将这两个级联的部分称第 步维纳滤波和第_ 步维纳滤波。进行第步维 纳滤波后得到降噪后的语音,被送入第二部分,进行第二步维纳滤波,再对残留噪卢进行处 理。 语盘信号进入第部分后,将通过如下模块: l 先送入谱1 i | i 汁模块,对分帧后的语音信q _ l :! f 行f f t 以获得线性频率域的功率谱。 2 之后该功率罄被送入谱半消 ( p o w e rs p e c t r u md e n s i t ym e a n ,p s dm e a n ) 模块进行沿时 问轴方| f l j 的平滑。 3 端点榆钡u ( v a df o rn o i s ee s t i m a t i o n ,v a d n e a t ) 模块进行v a d 榆测,找出非语音帧 用非语音帧的功率谱对噪声功率谱作估讣。 4 存状得端点检测结果和谱平滑模块输出的当前帧功率谱估训。| 亓,维纳滤波h 设训 ( w i e n e r f i l t e r d e s i g n ,w f d e s i g n ) 模块先根据v a d 检测绌果更新对噪声功率醋的估计,然后 根据维纳滤波器的频域表示式构造线性频率上的维纳滤波器。 中 1 4 科学技术大学硕士学位论文第二章e t s ia f e 前端标准 5m e l 滤波器组( m e lf i l t e r - b a n k ) 模块将维纳滤波从线性频率变到m e l 域上,这实际上是 剃t 沿频率轴方向的平滑。 6 后继的m e li d c t 模块将m e l 域上的维纳滤波器反变换到时域上,获得维纳滤波器的 冲撒响应。 7 蛀历应州滤波器( a p p l yf i l t e r ) 模块就j l i j 这个冲激响应与原语爵信号进行卷秋,完成维 纳滤波过程。 ;| 噪晰 降曩模块 丽一葛谢顿一j 一一 :二:二:谳磊磊; :二j t 罔2 2 维纳滤波降噪模块的结构框图( 摘自【9 】) l 茎| 2 2 中维纳滤波的第步和第一步大体h 足相i 叫的它们2 瞳u 的1 i l 划之处丰蜚仃: l 第二步中没有端j ! c 模块,冈为在第二步中不需要用到v a d 检测结果,它的噪卢功率 谱估讣方法有所不同。 2 第步中还有个增益挖$ l ( g a i nf a c t o r i z a t i o n ) 模块,它根据当前及前两帧的信噪比 大小决定在第一二步中降低残留噪j r f 的程度大小,这是通过在维纳滤波器系数上乘以一个根据 信噪比大小而动态调整的增益来实现的:调整的原则是:噪声所占成分越大,即信噪比越低, 增茄就越人,因而维纳滤波器所起作用越犬,所以降噪效果越明显,但是同时带米的语膏失 真也会丰廿应增大凼而只对信噪比较低的语音段,这样做才是划算的。 2 2 3 2 缓冲区的操作 基奉算法针对的语音信0 的采样率是8 k h z 。 在算法巾用到两个缓冲区,它们分别用于第一步和第二步维纳滤波。每个缓冲【蔓包括4 帧( 帧0 到帧3 ) 。每帧8 0 个采样点。昨法每次读入帧( 8 0 点) 数据,作为缓冲j ) :中的帧3 , i 叫时对帧l 的语音样点进行降噪,之后再将帧1 中的样点作为结果送出该缓冲区。 可以看到,每个缓冲区都将造成两帧的延时这样两个缓冲区将会造成叫帧的延时,也 就是4 0 m s 。 算法中要_ l l 到两利t 类型的帧, 利,帧故8 0 个采样点( 实则是1 0 m s 的帧移) ,就是r 面晓 的那种,它也用在a p p l y f i l t e r 模块巾维纳滤波器冲激响廊进行卷积:另一种帧长为2 0 0 9 史趔盟堂丛查盔堂塑主堂笪堡塞 堕三兰些! 兰! 垒望照然堑整 个采样点( 2 5 m s ) ,从每个缓冲区的絷6 0 个采样点开始,布第2 5 9 个采样点结束,腭于进行 功率谱估计。 2 2 3 3 频谱估计 进行功率曙估计所川的算法是周期图法,语啬帧的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年事业单位工勤技能-河南-河南机械冷加工一级(高级技师)历年参考题库典型考点含答案解析
- 2024并购法律服务合同
- 2025年事业单位工勤技能-河南-河南信号工-机车信号设备维修三级(高级工)历年参考题库典型考点含答案解析
- 2024版代加工合同代加工合同范本
- 2025年事业单位工勤技能-河北-河北兽医防治员五级(初级工)历年参考题库含答案解析(5套)
- 2025年事业单位工勤技能-江西-江西园林绿化工四级(中级工)历年参考题库含答案解析(5套)
- 2025年事业单位工勤技能-江苏-江苏汽车驾驶与维修员四级(中级工)历年参考题库含答案解析
- 2025年事业单位工勤技能-江苏-江苏地图绘制员二级(技师)历年参考题库含答案解析(5套)
- 2025年事业单位工勤技能-广西-广西管道工三级(高级工)历年参考题库含答案解析
- 2025年事业单位工勤技能-广西-广西客房服务员五级(初级工)历年参考题库典型考点含答案解析
- 新媒体运营PPT完整全套教学课件
- 渝20TJ11 浮筑楼板隔声保温系统构造 难燃型改性聚乙烯复合卷材(蜂窝型)DJBT 50-143
- 2023年内蒙古呼伦贝尔农垦拉布大林、上库力、三河、苏沁农牧场有限公司招聘笔试题库及答案解析
- 节日期间纪检监督检查记录表
- GB/T 311.1-2012绝缘配合第1部分:定义、原则和规则
- (完整word)600习题《工会基础知识试题及答案》2020.1.6
- 中医药法宣讲余课件
- 富士康科技集团劳保用品采购
- 多智能体系统教材课件汇总完整版ppt全套课件最全教学教程整本书电子教案全书教案课件合集
- 艺术欣赏完整版课件全套ppt教程(最新)
- 建筑工程钢筋抽料知识总结
评论
0/150
提交评论