




已阅读5页,还剩60页未读, 继续免费阅读
(模式识别与智能系统专业论文)基于听觉场景分析的抗噪声语音识别研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 人类听觉系统对语音信号的感知能力大大超过了目前的信号处理水平。计 算听觉场景分析( c o m p u t a t i o n a la u d i t o r ys c e n e a n a l y s i s ,c a s a ) 通过模拟人对 语音信号的处理,分析语音成分,最后达到将不同声源语音分类的目的。 本文尝试将这种技术引入抗噪声语音识别。覆盖一个抗噪声识别器的各个 方面,包括特征抽取,训练,对噪声处理,以及最后识别。分析了一个较成功 的c a s a 模型_ h u w 抽g 模型的结构和过程,对模型进行修改并利用此模型对 带噪声语音进行处理,分离出目标语音。对于c a s a 给语音信号频谱造成的不 连续,本文提出了一种改进的听觉外围特征算法,抽取干净语音的特征。此特 征考虑了听觉外围的特点和c a s a 算法的输出,寻找并且保留了语音信号中能 量最强的部分( 基频和谐波) ,舍弃了语音信号中能量较弱较容易给噪声掩盖的 部分,达到抗噪声并且符合c a s a 匹配的目的。实验证明:虽然此特征对干净 语音识别的结果跟流行的m f c c 有差距,有待提高,但是在噪声环境下体现出 很强的抗噪性,是一种很有前途的鲁棒的语音特征。 关键字:鲁棒语音特征抗噪声语音识别计算听觉场景分析 a b s t r a c t h u m a na u d i t o r ys y s t e mh a ss h o w nu sg r e a ta b i l i t yi nr e c o g n i z i n ga n ds e p a r a t i n g t a r g e ts p e e c hf r o mi n t e r f e r e n c e , w h i c hi ss t i l lt h em a i nu n s o l v e di s s u ei na u t o m a t i c s p e e c hr e c o g n i t i o ns y s t e m s c o m p u t a t i o n a la u d i t o r ys c e n ea n a l y s i s ,c a s a ,t r i e st o s t u d yh o wh u m a na u d i t o r yp e r i p h e r yd e a l sw i t hs p e e c hs i g n a l sa n ds i m u l a t ea u d i t o r y s c e n ea n a l y s i si no r d e rt od i s t i n g u i s ha n ds e p a r a t es o u n d ( s p e e c h ) f r o md i f f e r e n t s o u r c e s 啊1 i sp a p e rw h i c hc o v e r sa l lt h ed e t a i l si na l la n t i n o i s er e c o g n i t i o ns y s t e m i n c l u d i n gf e a t u r ee x t r a c t i n g ,t r a i n i n g , a n t i - n o i s ep r o c e s s i n g , a n dr e c o g n i t i o n ,w a n t st o a p p l ys u c ht e c h n o l o g yi n t oa u t o m a t i cs p e e c hr e c o g n i t i o ns y s t e m s ( a s r ) h e r es o m e a n a l y s i so ft h es t r u c t u r ea n dt h ep r o c e s so fam a t u r ec a s am o d e l - - - - - h u w a n g m o d e la lep r e s e n t e d t of i ;, c o v e rt h ed i s c o n t i n u i t yi nt i m ea n ds p e c t r u mo fs p e e c h o u t p u tf r o mc a s a ,a ni m p r o v e ds p e e c hf e a t u r ee x t r a c t i n ga l g o r i t h mb a s e do n a u d i t o r yp e r i p h e r yi st h e ni n t r o d u c e da n dt e s t e d t i l i sa l g o r i t h mk e e p st h es t r o n g e s t p o r t i o n si nt h ep o w e rs p e c t r u mo fas p e e c hw h i c ha r em a i n l yf r o mp i t c ha sl o n ga s h a r m o n i c sa n dd i s c a r d st h ew e a kp o r t i o n sw h i c ha l ee a s i l ya f f e c t e db yn o i s e e x p e r i m e n tr e s u l t ss h o wt h a t ,t h o u g ht h e r ei sc e r t a i nd e f i c i e n c yi nr e c o g n i z i n gc l e a n s p e e c h , s u c hf e a t u r ei sm a t c h e dw i t hs p e e c ho u t p u tf r o mc a s aa n di ts h o w sg r e a t r o b u s t n e s si ns p e e c hp r e s e n to fn o i s e t h u si ti sp r o m i s i n ga n dw o r t h yo fc o n t i n u e r e s e a r c h k e yw o r d s :a n t i - n o i s es p e e c hf e a t u r e ,a n t i - n o i s es p e e c hr e c o g n i t i o n , c a s a i i 南开大学学位论文版权使用授权书 本人完全了解南开大学关于收集、保存、使用学位论文的规定, 同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版 本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、 扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供 本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有 关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前 提下,学校可以适当复制论文的部分或全部内容用于学术活动。 学位论文作者签名: 年月日 经指导教师同意,本学位论文属于保密,在年解密后适用 本授权书。 指导教师签名:学位论文作者签名: 解密时间:年月 日 各密级的最长保密年限及书写格式规定如下: 南开大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行 研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文 的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的 作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集 体,均已在文中以明确方式标明。本学位论文原创性声明的法律责任 由本人承担。 学位论文作者签名: 年月日 第一章引言和理论基础 第一章引言和理论基础 语音是人类传递信息的最主要的手段。语音识别技术试图搭建一座帮助人 与机器友好交流的桥梁。这一章主要介绍语音识别技术以及相关的情况。 第一节语音识别的概况 语音识别的目标是要将输入的语音信号解码为对应的文字信息。通俗的讲 就是让机器听懂人说的话。 1 1 1 语音识别的基本情况 1 9 5 2 年k h d a v i s 等人在a t & tb d l 实验室利用带通滤波器进行语音频谱 分析和匹配,实现第一个语音识别系统a u d d r 系统,成功识别了1 0 个英文 数字,识别率达到9 8 【1 1 。 7 0 年代,线性预测( l i n e a rp r e d i c t i o n ,l p ) 技术和动态时间规整算法( d y n a m i c t i m ew a r p i n g ,d t w ) 被成功的引入到语音信号处理中,有效解决语音特征提 取和匹配的动态时间对准问题,在小词汇量、孤立词的识别方面有了大的突破。 8 0 年代,由传统的基于标准模板匹配的技术思路开始转向基于统计模型的 技术思路 2 】【3 】。隐马尔可夫模型( h i d d e nm a r k o vm o d a l ,h m m ) 和人工神经网 络( a r t i f i c i f ln e u r a ln e t w o r k s ,a n n ) 被成功应用到语音识别领域,实现了大词 汇量连续语音识别系统。 9 0 年代后,语音识别技术在应用及产品化方面取得了很大的进展,进入人 们的日常生活( 移动电话,智能答录系统等) 。 1 1 2 语音识别技术 在过去的半个世纪里,人们尝试了许多方法用于语音识别系统。总的来说, 语音识别技术可以分成4 类【1 6 】: 1 基于模板匹配。在训练中为每一个孤立词抽取一个特征向量。所以同一 个词的特征向量构成这个词的模板。所有孤立词的模板构成模板库。在识别阶 段,对每一个输入的孤立词抽取特征,送到模板库里利用动态时间规整( d t w ) 技术进行匹配,比较与各个模板之间的距离,判断输入词的类别( 内容) 。也可 以为每一个孤立词建立多个模板用来体现不同说话者的特征。 第一章引言和理论基础 虽然这种识别技术在小词汇量的孤立词识别中取得了比较高的识别率,也 应用到一些对词汇量少和说话人固定的场合,比如移动电话的语音拨号功能。 由于其不能有效的描述语音信号的多样性,需要为每个训练词汇抽取特征建立 模板,当词汇量增大的时候,识别速度会很慢( 需要匹配的模板太多) ,识别率 也很低。另外,这种方法没法应用到连续语音的识别上。各种不足导致语音识 别技术向基于隐马尔可夫模型( h m m ) 方向发展。 2 基于语音学知识。一些语音学家基于他们对语音信号的了解( 比如元音, 摩擦音能量分布等) 可以直接从语谱图中读出其中内容。基于这个原因,c o l e 在1 9 8 0 年提出基于语音学特征的识别方法【4 】。首先提取语音信号中的语音说上 的特征( 比如元音,鼻音等) ,然后应用语音学家的知识整理归纳得出识别结果。 因为很难从连续语音信号里头提取语言学的特征,并且很难准确系统地量化语 音学知识。这种方法没有取得很好的效果。 3 基于神经网络( 触州) 。人工神经网络( 砧州) 是2 0 世纪8 0 年代被重 新应用到语音识别领域的一种方法 2 】 3 】 6 】 7 】【8 1 ,a n n 具有自适应性、并行性、非 线性、鲁棒性、容错性和学习性等特点,再次将其用于语音识别领域后取得了 一些成果。a n n 用于语音识别领域需要解决以下问题,一是让a n n 具有反映 语音时变特性的能力,二是解决语音时长变化与网络中固定的输入节点之间的 矛盾,三是解决大的a n n 学习时间过长的问题,四是要解决在语音识别系统中 识别元的大小问题。h m m 和a n n 各有特点,在实验中得到的识别率相差不大。 近年来有学者将二者有机结合用于语音识别领域,取得了一定的效果。 4 基于隐马尔可夫模型( h m m ) 。经典的隐马尔可夫模型( h m m ) 是一 种基于统计信号模型,是目前最为成功、应用最广的一种模型,是语音识别技 术的主流,目前见到的各种具有优良性能的语音识别系统几乎都采用了这种模 型。 本文将会在这一章的第三节详细介绍隐马尔可夫模型。 1 1 3 语音识别系统性能 现在主流的语音识别器性对干净语音的识别率都能到9 5 以上,并且在对 带噪声语音的识别上取得了一定的效果。但是这些抗噪声语音识别都或多或少 的对目标声源或者是噪声声源有假设,需要声源的先验知识。经常出现一个识 别器对一种噪声识别性能很好,再另外一种噪声里头性能就会下降很快的情况。 2 第一章引言和理论基础 因此如何建立一个能适应于各种噪声的识别系统是语音识别领域的难题。 第二节语音识别系统构建 当前语音识别技术从本质上看仍然是一种模式识别的过程,其基本结构流 程如图1 1 所示,主要包括预处理、特征提取、模型建立、模式匹配和后处理几 个部分【8 】。下面具体说明图1 1 中各个模块的功能【2 5 】。 图1 1 语音识别系统结构图 预处理:对输入的原始语音信号再进行进一步的处理前做简单的处理,主 要包括对语音信号进行端点检测、分帧、加窗和预加重等处理工作。 特征提取:通过计算,对预处理后语音提取能够反映语音信号特征的关键 参数,以便于后续处理。语音识别系统常用的特征参数有幅度、能量、过零率、 线性预测系数( l p c ) 、l p c 倒谱系统( l p c c ) 、线谱对参数( l s p ) 、短时频谱、 共振峰频率、美尔倒谱系数( m f c c ) 等【3 5 1 。 模式匹配:识别阶段对输入的语音模式与参考模式库中的模式进行相似度 比较,得到待识别模式与模式库中每个模式的度量值,根据匹配标准选择其中 符合的模式作为识别的候选结果。 后处理:后处理模块是一个可选的模块,用于对模式匹配模块产生的中间 结果进行后续处理,通过更多知识如语言学中的语言模型、词法、语法和语义 等信息的约束,达到更好的识别效果。 一个语音识别系统一般可以分为两个阶段,一个是训练阶段,即利用已知 的语音数据信息对语音识别系统进行训练,生成语音的参考模式库( 模板或模 型:另一个是识别阶段,即将输入语音的特征与参考模式库中的模式进行模式 匹配,得到相似度最高的模式即为识别结果。无论是训练阶段还是识别阶段, 都要对输入语音进行预处理和特征提取工作。这主要是因为时域上的语音信号 第一章引言和理论基础 很难直接用于识别,因此我们需要从语音信号中提取语音的特征,一方面可以获 得语音的本质特征,另一方面也起到数据压缩的作用。语音识别系统的模型通常 由声学模型和语言模型两部分组成,分别对应于语音到半音节概率的计算和半 音节到字概率的计算。概率值对应最大的模式就被认为是最终识别所得到的结 果。 1 2 1 语音信号的预处理 众所周知,原始的语音信号是模拟信号,如果要使用只能处理数字化信息 的计算机来对语音进行识别的话那末第一个要做的工作就是要对模拟语音信号 数字化。数字化的过程一般包括:信号放大、增益控制、反混叠滤波、采样、 a d 转换等一系列过程,之后数字化的语音才能被计算机进行各种技术处理最终 得到识别结果。另外有时还必须在所有工作之前把语音信号从原始混合信号中 分离出来。首先预滤波的目的有二个:1 ) 抑制输入信号各频域分量中频率超过 奎耐斯特频率,以防止混叠干扰。2 ) 抑制5 0 h z 的电源工频干扰。预滤波器一 般是一个带通滤波器,其带通般为6 0 h z - - 3 4 0 0 h z 。 下一步要对滤波后的信号采样,一般的采样率为8 k h z ,有对采样率要求较 高也可以进行1 6 h z 采样。然后经过a d 转换器后,模拟的语音信号就可以输 入到计算机内进行所需要的处理了。 数字化后的语音信号输入到计算机内后为了更好地提取识别特征必须要对 信号做一定的分帧处理,一般包括三部分:预加重、加窗和分帧。预加重是对 语音信号做低通滤波,即通过一个一阶的低通滤波器。这样做的目的就是提升 语音中的高频部分,使信号的频谱变得更为平坦,以使从低频到高频的整个频 带中能用同样的信噪比求频谱,便于声道参数分析。之后对语音进行加窗分帧 处理,每一帧会产生一组用于识别用的特征参数,一般每秒的帧数约为3 3 - - 1 0 0 帧。分帧一般都采用交叠分段的办法,这是为了使帧与帧之间的平滑过渡以保 持其连续性。前一帧与后一帧的交叠部分称为帧移。帧移与帧长的比值一般取 0 , - 一0 5 。分帧是用可移动的有限长度的窗口进行加权的方法来实现的,这就是用 一定的窗函数来乘以信号本身,从而生成了加窗的语音信号。一般最常用的窗 是矩形窗和哈明窗,根据信号处理的理论哈明窗的性质要明显好于矩形窗。 4 第一章引言和理论基础 1 2 2 语音信号的特征提取 经过预处理模块处理过的信号仍然是语音波形级的信号,一般来说是不能 用来直接用于语音识别的,因为一是由于得到的波形信号序列维数很大,用到 实际的语音识别系统中的难度很大,二是这些信号中包含了大量冗余无用的信 息。特征提取模块就是要将这些冗余无用的信息去除,从这些表面的信息中提 取出语音信号最本质的特征,通常是频域上的特征,使在语音识别时类内距离 尽量小,类间距离尽量大,并用这些特征对语音识别系统进行训练和识别。 语音识别系统中常用的特征有很多种,如过零率、短时能量、线性预测系 数、美尔倒谱系数等。从不同域的角度来分,可以分为两类,一类是时域特征, 如过零率、短时能量等,这类特征一般来说只能反映语音的大概情况,如辅音 的平均过零率要比元音大,而辅音的短时能量却比元音的小,因此可以利用这 两个特征来大概区分元音和辅音等。另一类属于频域特征,这类特征是在语音 信号的基础上通过一些特殊的数学变换得到的结果,这类特征所包含的信息相 对于时域上的特征要多,因此在语音识别系统中更多的采用频域上的特征,而 时域上的特征只用作前期大概判断。有时提取的语音特征参数有时还需进一步 的处理变换,如正交变换、主元素分析等变换,以达到进一步的压缩处理和模 式可分性变换,节省模式存储容量和识别运算量,提高识别性能的目的。通常 参数所包含的信息量越大提取和分析参数的复杂度就会越大。 现有语音识别系统采用的最主要的两种语音特征包括线性预测倒谱系数和 m e l 频率倒谱系数。 线性预测倒谱参数( l i n e a rp r c d i c t i o nc e p s t m mc o e 伍c i c n t ,l p c c ) 。该特征 是基于语音信号为自回归信号的假设,利用线性预测分析获得倒谱参数。l p c c 参数的优点是计算量小,对元音有较好的描述能力,其缺点在于对辅音的描述 能力较差,抗噪声性能较差。 m c l 频率倒谱参数( m e lf r e q u e n c yc e p s t r u mc o e f f i c i c n t ,m f c c ) 。该特征 考虑了人耳的听觉特性,将频谱转化为基于m c l 频率的非线性频谱,然后转换 到倒谱域上。由于充分模拟了人的听觉特性,而且没有任何前提假设,m f c c 参数具有识别性能和抗噪音能力,实验证明在汉语数码语音识别中m f c c 参数 的性能明显优于l p c c 参数。下一小节将会详细介绍m f c c 。 5 第一章引言和理论基础 1 2 3m f c c 的提取 抽取l v i f c c 参数的大致过程如图1 2 所示: 图1 2 一帧语音信号抽取m f c c 系数过程 首先对输入语音帧加哈明( h a m m i n g ) 窗后作快速傅利叶变换( f f t ) ,将 时域信号转化为频域信号。 将线性频标转化为m e l 频率。转化方法是将频域信号通过二十四个三角滤波 器,其中中心频率在1 0 0 0 h z 以上和以下的各1 2 个。滤波器的中心频率间隔特 点是在1 0 0 0 h z 以下为线性分布,1 0 0 0 h z 以上为等比数列分布。三角滤波器的 输出则为: ,。 巧2 毒萎。丽k - f _ 1 瓦+ 七笺,丽e l + 1 - k 甄,i 司,2 ,2 4 ( 1 1 ) 其中戤为频谱上第k 个频谱点的能量,y i 为第i 个滤波器的输出,巧为第i 个滤波器的中心频率。 用离散余弦变换( d i s c r e t ec o s i n et r a n s f o r m a t i o n , d c t ) 将滤波器输出变换 至。倒谱域:c i :兰l o g ( y j ) c o s k ( j 一吾) 丢】,k :1 ,p ( 1 2 )q = 一吉) 却,2 1 ,p ( 1 2 j = l 。1 其中p 为m f c c 参数的阶数,我们取p = 1 2 。 q ) 捌l 1 :即为所求的m f c c 参数。 为体现语音的动态特性,还需要在语音特征中加入了一阶差分倒谱,其计算 方法如下式所示: a c l ( m ) = 蛔一| | ( m ) ,l m p ( 1 3 ) | | = - 2 其中下标l 与1 - k 表示第1 与1 - k 帧,m 表示第m 维。 m f c c 参数计算的要点是将线性功率谱s ( n ) 转换成为m e l 频率下的功率谱, 这需要在计算之前先在语音的频谱范围内设置若干个带通滤波器致( 以) , m = o 。m 1 ,n = o n 2 1 。m 为滤波器个数,n 为一帧语音信号的点数。每个滤波 6 第一章引言和理论基础 器具有三角形特性,其中心频率为无,它们在m e l 频率轴上是均匀分布的。在 线性频率上,当m 较小时相邻的滤波器中心间隔很小,随着m 的增加相邻的滤 波器中心间隔逐渐拉开。m e l 频率和线性频率的转换关系如下式: m e l :i n f l + 上1 :! ! ! q:( 1 4 ) l 7 0 0 ) l n 【l + 1 0 0 0 7 0 0 ) 这些带通滤波器的参数是事先计算好的。图1 3 给出了滤波器组的分布图, 其中m 选择为2 6 ,f f t 点数n 为2 5 6 ,语音信号的采样频率为8 0 0 0 h z 。 i l ll ! 强 ) r i l i 第一章引言和理论基础 其数学定义如下:【2 】【3 6 1 1 7 8 1 随机序列x 厅,在任一时刻1 1 ,处于状态秒l ,目2 ,秒,且在m + i | 时刻所处状 态的概率只与其在时刻m 所处的状态有关,而与时刻m 以前的状态无关,即: p ( x m + k 2 q 搬+ ki 彳狮2g 胧,x 历一1 = q m - p ,x 129 1 ) ( 1 5 ) = 尸伍脚峨= q m + k l x 埘= q m ) 其中,q l , q 2 ,q 所,q 肌+ ke ( 0 1 ,0 2 ,秒) ,则称x 玎为m a r k o v 链,并且称 p o ( m , m + k ) = p ( q m + k 。o j q m = o i ) ( 1 6 ) 1 f ,n ,m 、k 为正整数 为k 步转移概率,当p i y ( m ,m + 后) 与m 无关,即p u ( 聊,m + k ) = p u ( j i ) 时,称 此m a r k o v 链为齐次m a r k o v 链。 描述一个m a r k o v 链只要转移概率矩阵a 和初始概率矢量n 就足够了。它们 的定义如下: 初始概率矢量 n = ( 万l ,9 2 ,x n ) ,万f = p ( q l = 秒f ) ,1 f n ( 1 7 ) n 由;r g f 的定义显然有0 ;r t i 1 ,并且万f _ 1 。 i = 1 实际应用中,m a r k o v 链中的每一个状态都对应着一个可观测到的物理事件, 因此可以用来描述一些简单的统计模型。 因为语音信号是一种时变信号,单纯的m a r k o v 链无法很好的描述语音信号, 所以在m a r k o v 链的基础上发展形成了隐马尔可夫模型( h m m ) 。h m m 是一个 双重的随机过程,一个是通过观测得到的观察序列,另一个是产生这些观察值 序列的状态发生器之间的转移,而这些状态发生器相对于观测者而言是不可见 的,因此称这样的双随机过程为“隐 马尔可夫模型。 对于一个h m m ,可以由以下的参数进行描述: n :系统中的状态数,状态集合表示为:1 9 = 0 1 ,0 2 9o 9 0 n ) 。记时刻t 系统 所处的状态为g f ,则q f ( 0 1 ,0 2 ,o n ) 。 m :每个状态中观察值数目。观察值集合表示为:v = 。,v 2 , 。记t 时 刻观测到的观察值为0 f ,则仇( ,l ,耽,w j | l ,) 。 n :初始状态概率矢量,n = ( 万l ,万2 ,万) 。 a - 状态转移概率矩阵,a = ( 口扩) ,其中a v = p ( q ,+ 】= o y iq f = o i ) 表示时 第一章引言和理论基础 刻t 在状态统,而时刻t + 1 转移到状态目,的概率。 b :观察值概率矩阵,曰= 瞰) 】枷= ( 锄) 埘,其中 6 肚= h d f = v k | q f = 护,) , l - ,1 k m( 1 8 ) 综上所诉,一个h m m 模型可以由上述五个参数描述,即: 旯= ( m ,r i , 4 曰) 。当n 和m 确定时,可以将h m m 的随机过程分成两个部分, 一个是由兀和a 描述,产生状态序列,另一个由b 描述,产生观察值序列。图 1 4 给出了h m m 模型的直观描述。 图1 4 h m m 组成结构 其中t 表示观察值的时间长度。 1 3 2h m m 的三个基本问题 将h m m 用于语音识别领域还必须解决以下三个方面的问题:1 2 1 1 3 1 1 6 1 1 7 1 1 8 】 ( a ) 识别问题 给定观察序列o = 国,0 2 ,o 0 0 9 0 ,) 和模型五= ( ,m ,i l , 4 曰) ,如何计算 尸( 0i 兄) ,即在给定模型下出现观察值序列o 的概率,也就是如何快速有效的计 算观察值序列的输出概率问题。针对这个问题解决方法是前向一后向算法。 ( b ) 最佳状态问题 给定观察值序列o = ( o 。,d :,o ,) 和模型五= ( ,m ,r i , 4 b ) ,如何有效的选 择一个产生这一观察序列的最佳状态序列g = ( g l ,q 2 ,q r ) ,即计算出模型产生这 一观察值序列时最有可能经过的路径。在隐马尔可夫模型中,不可以得出确切 的状态序列。但一般认为,概率最大的路径是最有可能的路径,即最佳的状态 序列路径,所以在实际应用中,用概率最大的路径代替不可求的确切的状态序 列路径。针对这个问题的解决方法是v i t e r b i 算法。 ( c ) 模型训练问题 给定模型兄:( n ,m ,r i , 4 b ) ,如何调整模型参数使得观察序列输出概率 尸( di 力) 最大。这实际上模型参数估计问题。针对这个问题的解决方法是b a u m w e l c h 算法。 9 第一章引言和理论基础 1 3 3h m m 的分类 在h m m 中,根据观察值序列的类型可以分成离散隐马尔可夫模型、连续 隐马尔可夫模型和半连续隐马尔可夫模型。【2 】【3 】【6 】【7 】【8 】 离散隐马尔可夫模型( d h m m ) 。其观察值是m 个离散可数的观察值中的 一个,因而称之为离散马尔可夫模型。状态j 对应的观察值的统计特性是由一组 概率6 请,k = 1 ,2 ,m 来描述的: m b 珐= 1 ,_ ,= 1 ,2 ,n ( 1 9 ) 其中n 表示d h m m 的状态数。 连续隐马尔可夫模型( c h m m ) 。与d h m m 不同,c h m m 中的观察值的统 计特性是由概率密度函数b ,( x ) 来表示的。在实际语音识别应用中,通常使用多 高斯分布函数的线性叠加去逼近概率密度函数6 ,( x ) ,即: kx b j ( x ) = 。z ,c j k b j k ( x ) = ,e ,c j k n ( x ,弦,z y k ) ,l j n ( 1 1 0 ) 其中,( 。;弘) 2 丽1 已文。一7 z 一1 。一声) 为多维高斯概率密度函数,弦 为均值矢量,砖为方差矩阵,k 为组成概率密度函数6 ,( z ) 的高斯密度函数的 个数,为组合系数,且有: kc 弦= l 。 一 半连续隐马尔可夫模型( s c h m m ) 。其和离散h m m 很相似,只不过在离 散h m m 中使用m 个观察值序列的码本,而在半连续h m m 中使用m 个高斯型 概率密度函数来替代这些码本,从而训练时可以得到更有效的模型。此时,状 态o i 对应的概率密度函数为: 6 f ( x ) = f ( xiv ,) 6 f ( v ,) ( 1 1 1 ) 其中,f ( xiv ,) 表示第j 个码本v ,对应的高斯型概率密度函数, b i ( v j ) = p ( v j iq r = o i ) 表示处于状态统的条件下出现码本v ,的概率。 上述的三种h m m 类型各有特点,离散h m m 的计算量相对较小,但是误 识率比其他两种h m m 要高,因此比较适合小的语音识别系统。连续h m m 对 1 0 第一章引言和理论基础 模型的描述要比离散h m m 好,但是当系统较大时,计算量相对较大,因此比 较适合中小型语音识别系统。半连续h m m 结合了两者的优点,在减少计算量 的同时比较好的描述了系统模型,因此中大型系统比较适合采用半连续h m m 。 1 3 4h m m 在语音识别系统中的应用 语音信号是一种时变非平稳的随即信号,但又具有短时平稳性。h m m 模型 是一个双重随即过程,通过将h m m 的状态与语音的某个平稳段相对应,较好 的表征了语音信号整体上的时变非平稳性和局部的短时平稳性,在语音识别领 域获得了广泛成功和应用。 在一个具体的语音识别系统中,可以这样来理解h m m 模型:人的发音器 官只有有限个状态( 发出有限的音,或者说构成某种语言的音素有限) ,这对应 于h m m 模型中的状态;每人所产生的语音会有一定的变化,这些不同的语音 对应于h m m 模型中不同的观察值;状态间的转移按状态转移概率进行,而每 个状态上可能产生的语音特征则用观察值概率来描述。 当出现一组观察值序列o = ( d 。,d ,d r ) 时,它既可能是这个语音单元( 如音 素、音节、字、词等等) ,也可能是那个语音单元,通过求取它对一个模型的输 出概率,哪个语音单元的概率最大,我们就认为它是哪个语音单元。这样就将 识别问题转换为:当出现一组观察值序列0 = ( 口。,d :,d f ) 时,求各个语音单元m 的概率尸( m i d ) 。根据贝叶斯公式有: 尸( w f id ) :p ( w i ) p ( o w i ) ( 1 1 2 ) 尸( d ) 在不考虑语言模型的情况下,假定词汇表中每个语音单元被说的概率相等, 即所有的尸( m ) 都相等,因此对于每个m 来说;岩都相等,从而计算尸( m l d ) 等 价于计算e ( ow f ) 。这便是前面提到的三个问题中的第一个问题,使用前向一后 向算法就可以解决。【2 】【3 】【6 】【刀 8 】 第二章抗噪声语音识别 第二章抗噪声语音识别 本章主要介绍各种抗噪声语音识别方法,重点介绍当前很热门的m i s s i n g d a t a 技术。 第一节语音识别与噪音 目前的语音识别系统所获得的高识别率都主要是当识别系统面对干净语音 而获得的,但识别系统面对带有噪声的语音时其识别的正确率会大大下降,当 环境中噪音很严重时识别器很可能会无能为力的情况。例如一个用干净语音训 练后的孤立词识别器,它对干净语音的识别率可高达1 0 0 。不幸的是把这个识 别器置于一辆正在以9 0 k m p h 行进的汽车内时,汽车行驶的噪声会使得识别率下 降至少3 0 。从中我们可以看出在干净环境下和噪音环境下识别率的重大差异, 这是不能被接受的。因此必须要产生一个能够适应于普通环境的语音识别系统, 使得它在噪音环境下的识别率能够接近在干净环境下的识别率。 若想使一个语音识别系统能够在不同的噪音环境下应用,那末就必须让识 别系统对各种类型和级别的噪声足够的“强壮 。在一般的生活环境中很容易对 语音产生污染的是加性噪声,例如汽车引擎噪声、周围很多人说话的噪声以及 一些白噪声等,这些噪声对语音的影响几乎是时时处处都不同程度地存在的。 另外还有其它一些类型的噪声也经常会对语音产生明显的影响。另外噪声对语 音的影响还不止对语音的简单叠加,还会影响到讲话人的基频、能量辐度、元 音的持续时间、语音谱形状以及共振峰位置等。而且这些方面的变化程度也很 不确定,即使对同一讲话人在相似的噪声环境里这些变化也不会完全相同,有 一定的随机性。这就使得噪声对语音的影响很难去除掉甚至被模拟。 第二节识别带噪语音的基本方法 正是各种各样千变万化的噪声使得训练得到的数据和待识别的数据产生严 重的不匹配以至识别率很低。因此若想将识别率大辐提高就必须找到一种办法 来尽可能地减少两个环境的严重不匹配。总体来讲有二个方向:改变语音的模 型参数来匹配语音产生的环境;另外就是对带噪语音数据做某种变换来适应语 1 2 第二章抗噪声语音识别 音模型训练的环境。这二个方向包含的方法主要分为三大类【2 5 j : 1 使用抗噪声性能较好的特征参数 这种方法的观点是认为识别系统是独立于噪声的,因此这种方法的技术都 考虑噪声对语音的影响但并不想去除掉噪声,也就是使用一种能够对噪声有较 强的抵抗能力的特征参数来对语音进行识别。确定了抗噪声能力强的特征参数 后,另外一个重要的就是确定抗噪声的特征相似性度量方法。目前使用抗噪声 的特征参数和特征相似性度量方法进行噪音下的语音识别虽然取得的效果还不 是非常理想,但它相对于其它方法有一个重大的优点:能够适应于范围较广的 噪声环境,方法本身对噪声本身的特性考虑较少。应用起来比其它方法都方便 简单。 2 语音增强 这类方法的主要思想就是对带有噪声的语音进行一系列的变换使得待识别 的带噪语音尽可能地与在干净环境中的对应语音相一致。这样就使得训练环境 与识别环境几乎一致,最终达到提高识别率的目的。但通常语音增强技术不能 直接使得系统的识别率获得提高,因为语音增强技术的主要目标是用于改善语 音的质量,可能会导致一些人类能够忍受的一些对语音本身的变质,但这些变 化有时对语音识别系统的影响是很严重,对带噪声语音进行语音增强后可能会 使识别率显著下降。 3 语音模型对噪声环境的补偿 这类方法不是对带噪语音中的干净语音进行某种预测和估计而是对在训练 环境中训练出来的模型进行某种变换以使模型能适应特定的噪声环境,这样系 统就可以在这种噪声环境下识别语音了。通常h m m 先用干净语音来进行训练, 然后根据噪声的统计特性进行变换以与噪声环境相适应。这种补偿训练环境与 实际识别环境巨大差异的方法有一个很大的缺点,一般对每一种不同的噪声环 境都需要一种不同的模型变换方法,因此每种变换后的模型都只能够适用于这 种特定的噪声环境,而对于其它噪声环境就不能适用了。它的适用范围很小。 若想生成对任何噪声环境都普遍适用的模型是有一定困难的。 以上几类方法有很多具体的实现技术和方法,它们有着不同的目的但有时 会有很多相似之处。它们都是试图发现某种信号处理方法或其它数学方法来产 生对干净语音信号的最好估计和预测。当前的发展方向是将语音的产生和感知 机理知识极大地应用于抗噪声语音识别中。因为人类的听觉系统是目前已知的 1 3 第二章抗噪声语音识别 最有效的语音识别系统,所以就应该将人类的听觉和语音感知的有关知识应用 到语音识别系统的设计中。并且有些应用已经取得了初步成功。 第三节抗噪声语音识别的具体技术 这一节简单介绍一下现在流行的各种抗噪声语音识别技术。 2 3 1 倒谱均值的归一化 在大词汇量抗噪声语音识别中使用最普遍的一种抗噪声能力较强的技术就 是倒谱均值的归一化。它所使用的语音识别参数除了有倒谱外还外加一个倒谱 的均值,即对每一帧语音的倒谱矢量参数求它的均值,然后对倒谱矢量的每一 元素都减去这个求得的均值。当环境中只有时变的卷积噪声存在时那末语音的 特征参数是不会受噪声变化的太大影响的。当环境中有加性噪声时,对倒谱矢 量每一元素减去它的均值已被发现是有助于提高系统的抗噪声能力。但是如果 环境中噪声成份很复杂时即卷积噪声和加性噪声都存在那末识别系统的性能就 会很难预测,这与加性噪声和卷积噪声所占的比例有密切的关系。 2 3 2 线性判别式分析 目前已有人使用线性判别分析的美尔刻度方法生成了一种新的特征,这种 特征参数明显比标准的m f c c 具有更强的抗噪声能力。但这种特征的抗噪声能 力仍然是有限的,尤其在环境信噪比不断下降时它的局限性就表现得尤为明显。 为了突破其局限使其抗噪声能力有进一步的提高,可以在特定的噪声环境中先 采集一些噪声的数据然后再进行线性分析,这样新的被进一步优化的线性判别 分析参数就产生了,它是针对那种特定的噪声环境的。实验证明这可以获得更 好的识别性能。 很明显这种方法是对某一特定噪声环境获取最优化的参数,这是个很大 的缺陷。这种方法是对信噪比与噪声源之间的不匹配很敏感的,所以对任何一 个具有不同噪声源和噪声级别的环境就有不同的优化。在假定已知卷积噪声和 加性噪声的特性时就必须在新的噪声环境中采集数据或者人工地根据某些规则 产生新噪声环境中的数据。 1 4 第二章抗噪声语音识别 2 3 3 归一化的倒谱分析 在当前的大部分基于状态的语音识别系统中倒谱参数矢量都会被采用作为 识别的特征参数。倒谱参数在干净的环境中会达到很好的识别性能,但一旦用 于被噪声污染的环境中去识别语音其性能就会很差。人们正在试图对倒谱参数 作某种改进使得它在噪声环境中会取得较好的识别效果,目前最成功的改进是 不再使用作同态解卷积的l o g 函数,而是使用基于有限次幂的根来代替标准的l o g 方法。这被称为根同态解卷积方法。 经过使用小词汇量识别的实验证明,使用2 3 次幂就会比标准的倒谱系数在 抗噪声性能上有明显的改善。但这种方法目前还没有在中到大的词汇量识别上 测试过,因为中到大词汇量会对训练和测试环境的不一致有着更敏感的反应, 所以有可能不会取得像小词汇量一样的抗噪声性能。 2 3 4 谱减 估计干净语音数据的最简单的技术就是功率谱相减。谱减是用于减少加性 噪声在语音中影响的一种技术。它最基本的思想就是从带噪语音功率谱中减去 纯噪声的功率以得到原始纯净语音得功率。它前提首先要假设噪音与语音没有 任何相关性,噪声与语音在时域是简单相加的关系。并且因为对噪声功率谱的 估计必须要在语音停顿间隔时才能进行( 这时环境中没有语音只有噪音,这就 为对噪声的估计提供了很大便利) ,所以必须要求噪声的特性变化缓慢甚至不变 化。 基于以上原因,谱减技术就有一些明显的缺陷和问题。因为对噪声功率谱 的估计必须要在语音停顿时进行,所以首先要对一段带噪语音信号进行语音与 非语音的判断,如果是非语音才能进行对噪声估计。那末谱减的结果先要依赖 于对语音与纯噪音分类的结果,如果将本来含有语音的一段认为是纯噪音那就 会严重影响对噪音功率谱估计的准确性,反之若将纯噪音段判断为含有语音那 也会对功率估计结果的准确性有一定的影响。同时因为对噪声功率估计的不准 确也会导致相减后的结果出现负功率,这当然是不合理的,必须要设置为非负 值( 或为0 或为事先规定的一个小的正值) 。这就很容易谱减后的结果中出现较 为明显的音乐噪声。 谱减技术已经在语音增强、语音识别以及语音编码等领域中得到大范围应 用。在语音增强中应用谱减表明当信噪比为5 d b 时运用谱减技术还可以获得比 第二章抗噪声语音识别 较好的语音质量。但在更低的信噪比环境下谱减得到的语音质量就会下降得很 严重。所以对环境信噪比的提高与功率谱突变是一个很难权衡的两难问题,目 前已有不少人在努力想出各种办法来消除音乐噪声所产生的影响。比如将谱减 与其它处理噪声的方法结合起来( 比如下面介绍的噪声掩蔽) 。 2 3 5 噪声掩蔽 噪声掩蔽是人类对信号中噪声感知的一种生理现象。当声音的能量级低于 一定的阈值时人类是不能明显地感知它的存在的。当一个人在噪声环境中听别 人讲话时噪声的影响可以通过这种掩蔽机制来减小。 将这种思想在语音识别系统中实现就就是要将能量较低的区域的影响降到 最低限度。修改语音谱使识别系统免受背景噪声的变化的影响语音谱中只 有当能量高于某一设定的掩蔽阈值时才可以用于识别,否则就会背抛弃掉。 与谱减技术不同的是噪声掩蔽是可以用于语音谱的变换域中的,例如在倒 谱域中。噪声掩蔽方法中使用较高的掩蔽阈值时在中低信噪比的环境中识别错 误率会明显减少。问题是掩蔽阈值的选取不好解决。 2 3 6h m m 的分解与合并 将信号分解的主要目的是识别和分别处理同时并存的二个或多个信号。并 行的h m m 已被用来模拟同时存在的噪音与语音,纯语音的h m m 与纯噪音的 h m m 合并起来的新h m m 就代表了带噪语音。这种技术被实验证明模拟语音与 噪声信号的分解极为有效。首先因为噪声被一个独立的h m m 建模各类型的噪 声就很容易操作。第二,这种技术并不认为合并后的信号是几类特殊信号的简 单相加,因此它对加性噪声和卷积噪声都是适用的。问题是我们不可能为每一 种噪声都训练一个h m m 模型。 第四节m i s s i n gd a t a 技术 m i s s i n gd a t a 【1 5 】【1 8 1 技术是用于被噪声破坏了频谱的语音识别,人们尝试通 过标记可靠和不可靠频道的方法最大化输出概率。它的优点是让一些干净语音 识别器可以用于识别带噪声语音,提高了噪声下的识别率。它的缺点是,只能 应用在语音频谱域上的特征,而频谱特征的性能没有倒
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 森林水文学课件
- 电力系统职业技能鉴定考试试题及答案
- 2025年市场营销经理职位招聘笔试题及解题策略
- 2025年篮球裁判规则题库及答案
- 2025年轻微型无人机考试题库含完整答案详解【易错题】
- 2025年电力行业信息技术部招聘面试全攻略及模拟题答案
- 2025年初级无损检测员磁粉-MT-模拟面试题及答案详解
- 2025年市场营销经理专业技能考核预测题
- 洪水公务员面试题目及答案
- 2025注册验船师考试(C级船舶检验专业综合能力)自测试题及答案一
- 船舶压载水取样与检测技术
- 人工流产后避孕服务规范
- 环境、社会与公司治理(ESG)
- 学校食堂食材配送服务方案(肉类、粮油米面、蔬菜水果类)(技术标)
- 物理学与人类文明(绪论)课件
- 《圆的周长》说课ppt
- 古典诗歌的生命情怀
- 2023年临沧市市级单位遴选(选调)考试题库及答案
- 2017版小学科学课程标准思维导图
- 第十一章-异常分娩-1产力异常
- P公司采购管理程序
评论
0/150
提交评论