




已阅读5页,还剩54页未读, 继续免费阅读
(模式识别与智能系统专业论文)基于可靠频带的并行模型补偿方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着计算机技术和信息技术的持续发展,语音交互已经成为人机交互的重要 手段。语音技术特别是语音识别技术的高速发展,让语音识别由实验室走向了实 际地应用。随着语音识别技术应用地逐渐深入,新的问题也不断地涌现出来,特 别是在现实环境识别时的噪声问题,严重地影响了语音识别系统的识别率。 并行模型补偿算法( p m c ) 是由英国剑桥大学的m j eg a l e s 首先提出的一 种针对噪声环境下语音识别的一种模型级的补偿方法。p m c 算法使用干净的语 音进行语音模型的训练,在识别的时候,利用说话人说话时的停顿,动态的采集 环境中的噪声,训l 练下一时段的语音模型。p m c 算法的优点是动态的采集了说 话人说话时的环境噪声,将噪声信息充分包含到语音模型之中,从而提高了识别 系统的鲁棒性。 由于p m c 算法没有完全考虑噪声对语音的破坏程度,完全使用所有频带进 行语音识别。本文在p m c 算法的基础上引入了可靠信息的思想,在使用p m c 算法之前对语音进行分频( 分流) ,根据环境中信噪比的不同,给不同的流赋予 不同的权值,在某些特定的噪声环境下提高了系统的识别率。 关键字: 隐马尔可夫模型,美尔倒谱系数,并行模型补偿,分流,可靠频带 a b s t r a c t a b s t r a c t w i t ht h ec o n t i n u o u s l yd e v e l o p i n go fc o m p u t e rt e c h n o l o g ya n di n f o r m a t i o n t e c h n o l o g y , s p e e c hc o m m u n i c a t i o nh a sb e c o m eav e r yi m p o r t a n tm e t h o do f h u m a n - m a c h i n ec o m m u n i c a t i o n w i t ht h ed e v e l o p i n go fs p e e c ht e c h n o l o g y , s p e e c h r e c o g n i t i o nh a sa p p l i e dt ot h ed a i l yl i f e b u tl o t so fn e wp r o b l e m sh a v ea r i s e nd u r i n g t h ea p p l i c a t i o no fs p e e c ht e c h n o l o g y a m o n gt h e m ,t h en o i s ee n c o u n t e r e di nt h er e a l e n v i r o n m e n ts e r i o u s l yd e c r e a s e st h er e c o g n i t i o na c c u r a c y p a r a l l e lm o d e lc o m p e n s a t i o n ( p m c ) i sam o d e l l e v e l s p e e c hr e c o g n i t i o n a l g o r i t h mw h i c hw a sf i r s t l yp r o p o s e db ym j eg a l e so fu n i v e r s i t yo fc a m b r i d g e p m cu s e st h e “c l e a n ”s p e e c hd a t at ot r a i nt h es p e e c hm o d e l i tc o l l e c t st h en o i s e i n f o r m a t i o nd y n a m i c a l l yw h e ns p e e c hs i g n a li sa b s e n t ,a n du s e st h en o i s ei n f o r m a t i o n t ot r a i nan e wn o i s ys p e e c hm o d e l t h ea d v a n t a g eo fp m ci s u s i n gt h en o i s e i n f o r m a t i o nd y n a m i c a l l yd u r i n gr e c o g n i t i o n t h en e w n o i s ys p e e c hm o d e lc o n t a i n s a d e q u a t en o i s ei n f o r m a t i o n , t h e r e f o r ei n c r e a s e st h es y s t e mr o b u s t n e s s p m cd o e sn o tc a r et h ed i f f e r e n td a m a g ed e g r e eb yt h en o i s ea n dt h u su s ea l lt h e f r e q u e n c yb a n d sf o rr e c o g n k i o n t h i sp a p e rb r i n g st h et h e o r yo fr e l i a b l eb a n d si n t o p m c ,a n dp a r t i t i o n st h es p e e c hs p e c t r u mi n t od i f f e r e n tb a n d sb e f o r et h ea p p l i c a t i o no f t h ep m ca l g o r i t h m e a c hb a n dh a sad i f f e r e n tw e i g h t a c c o r d i n gt o t h en o i s e i n f o r m a t i o n t h i si n c r e a s e st h er e c o g n i t i o na c c u r a c yf o rs o m en o i s et y p e s k e yw o r d s :h i d d e nm a r k o vm o d e l ,m e l - f r e q u e n c yc e p s t r u mc o e f f i c i e n t s ,p a r a l l e l m o d e lc o m p e n s a t i o n ,s t r e a m ,r e l i a b l eb a n d s 南开大学学位论文版权使用授权书 本人完全了解南开大学关于收集、保存、使用学位论文的规定, 同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版 本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、 扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供 本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有 关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前 提下,学校可以适当复制论文的部分或全部内容用于学术活动。 学位论文作者签名:嚣z 8 z ,口q - 年- c 月 l 目 经指导教师同意,本学位论文属于保密,在年解密后适用 本授权书。 指导教师签名:学位论文作者签名: 解密时间:年 月日 各密级的最长保密年限及书写格式规定如卜| : 内部5 年( 最长5 年,可少于5 年) 秘密 k 1 0 年( 最长1 0 年,可少于1 0 年) 机密2 0 年( 最艮2 0 年,可少于2 0 年) 霁t ! 晖者、导师露寒 。笔盒x 冷奄 南开大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行研究工作 所取得的成果。除文中已经注明引用的内容外,本学位论文的研究成果不包含 任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉 及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本学 位论文原创性声明的法律责任由本人承担。 学位论文作者签名:鞋正罂 扩巧年f 月l 日 第一章引言 第一章引言 随着计算机技术的和信息技术的迅猛发展,语音交互已经成为人机交互的必 要手段。实现人和计算机之间的自然语言交流一直是人们梦寐以求的想法,也是 语音技术的最终目标。计算机科学、人工智能技术、语言学、语音学等相关科学 的快速发展进一步推动了语音技术特别是语音识别技术的快速发展,已经让语音 识别由实验阶段走向了实用阶段。随着语音识别技术的逐渐应用,新的问题不断 涌现,如口语问题、实际使用时的环境噪声问题以及自然说话时的口音和方言问 题等。 本章主要对语音技术特别是语音识别技术进行了简单的介绍,第二小节介绍 了噪声对语音识别的影响,最后介绍了本文的研究内容和组织结构。 第一节语音识别简介 所谓的语音识别是指利用计算机自动识别语音的技术,有狭义和广义之分。 狭义的语音识别特指利用计算机识别出语音信号所表达的内容,其目的是要准确 地理解语音中所蕴含的含义,例如听写机将语音转换成对应的文字。而广义的语 音识别则泛指利用语音信号识别出其中“感兴趣的信息”的一种技术,例如用于 计算机安全中的说话人身份确认技术。 通常所说的语音识别都是指狭义的语音识别,本文所研究的内容也是特指狭 义的语音识别。 1 1 1 语音识别的基本情况1 2 1 1 3 1 1 4 j 语音识别技术萌芽于上世纪5 0 年代初。1 9 5 2 年a t & tb e l l 实验室的 k h d a v i s 等人利用带通滤波器进行语音频谱分析和匹配,实现了第一个语音识 别系统a 儿d r y 系统,成功地识别了1 0 个英文数字,其识别率达到9 8 【3 4 i 。 1 9 6 0 年p d e n e s 等人研制成功第一个计算机语音识别系统,同年g f a n t 提出了滤 波器模型对后来的语音识别工作起到了巨大的推动作用 4 。 大规模的语音识别研究是在进入了7 0 年代以后,这一时期取得了许多实质 第一章引言 性的进展,特别是在小词汇量、孤立词的识别方面。这一时期,线性预测( l i n e a r p r e d i c t i o n ,l p ) 技术和动态时间规整算法( d y n a m i ct i m ew a r p i n g ,d t w ) 被 成功的引入到语音信号处理中,有效地解决了语音地特征提取和不定长匹配的动 态时间对准问题。 进入8 0 年代以后,语音识别研究更加活跃。这一时期,研究的重点逐渐转 向大词汇量、非特定人连续语音识别。而且,在研究思路上也发生了重大变化, 即由传统的基于标准模板匹配的技术思路开始转向基于统计模型、特别是隐马尔 柯夫模型( m o d ) 的技术思路。此外,再次提出了将神经网络技术引入语音识 别问题的技术思路。在这一时期,美国c m u 大学的j k b a k e r 等人将隐马尔可 夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 应用到语音识别领域,实现了大词汇量 连续语音识别系统,使得h m l v l 成为日后语音识别领域的主要方法。 9 0 年代后,语音识别技术在框架上没有重大的突破。但是,在语音识别技术 的应用及产品化方面出现了很大的进展。特别是在电话语音识别方面,由于有着 广泛的应用前景,成了当前语音识别应用的一个热点。另外,面向个人用途的连 续语音听写机技术也日趋完善。这方面,最具代表性的是i b m 的v i a v o i c e 系统 和d r a g o n 公司的d r a g o nd i c t a t e 系统。同时,世界r r 巨头微软公司也开始加大 语音技术的投入,微软亚洲研究院和工程院有专门的语音技术的研究和开发小 组,其免费提供的非特定人大词汇量连续语音识别开发接口m ss p e e c hs d k 已 经达到5 1 版本 2 。j 我国的语音识别技术研究起步较晚,直至1 9 7 3 年才由中国科学院声学所开 始计算机语音识别。由于当时条件的限制,我国的语音识别研究工作一直处于缓 慢发展的阶段。进入8 0 年代以后,随着计算机应用技术在我国逐渐普及和应用 以及数字信号技术的进一步发展,国内许多单位具备了研究语音技术的基本条 件。9 0 年代后,随着匡i 际国内语音技术的发展,许多专门从事语音技术方面研 究和开发的公司也应运而生,其中著名的有基于中国科学技术大学的讯飞公司、 基于中科院的中科信利公司以及基于清华大学得意音通公司等。 1 1 2 语音识别的基本原理【1 l 【2 1 1 3 1 1 4 1 当前语音识别技术从本质上看仍然是一种模式识别的过程,其基本结构流程 第一章引言 如图1 1 所示,主要包括预处理、特征提取、模型建立、模式匹配和后处理几个 部分。 图1 1 语音识别基本原理图 对于一个语音识别系统,一般可以分为两个阶段,训练阶段利用已知的语音 数据信息对语音识别系统进行训练,生成语音的参考模式库( 模板或模型) ,或 者对已有的参考模式库进行适应性修正。识别阶段,将输入语音的特征与参考模 式库中的模式进行模式匹配,得到相似度最高的模式即为识别结果。无论是训练 阶段还是识别阶段都要对输入语音进行预处理以及特征提取工作,下面具体说明 图1 1 中各个模块的功能。 预处理:对输入的原始语音信号进行简单的处理,滤除掉其中不重要的信息, 并进行语音信号的端点检测,进行语音分帧和预加重等处理工作。 特征提取:用于计算预处理后语音的声学参数,并进行特征的计算,提取反 映信号特征的关键参数,以便于后续处理。语音识别系统常用的特征参数有幅度、 能量、过零率、线性预测系数( l p c ) 、l p c 倒谱系统( l p c c ) 、线谱对参数( l s p ) 、 短时频谱、共振峰频率、美尔倒谱系数( m f c c ) 等o 5 1 。 模式匹配:识别阶段对输入的语音模式与参考模式库中的模式进行相似度比 较,得到待识别模式与模式库中每个模式的度量值,根据匹配标准选择其中符合 的模式作为识别的候选结果,用于后续处理。 后处理:后处理模块是一个可选的模块,用于对模式匹配模块产生的中间结 果进行后续处理,通过更多知识如语言学中的语言模型、词法、语法和语义等信 息的约束,得到更好的识别结果。 第一章引言 1 1 3 语音识别系统的分类 语音识别涵盖的范围很广,从不同的角度和要求出发,语音识别可以分为不 同的种类,具体有以下几种: 从说话人的范围看 可以分为特定人和非特定人识别两种方式。所谓特定人识别是指训练和识别 只是针对某个特定的用户;而非特定人识别是指系统可以识别所有用户。相比而 言,特定人语音识别系统实现较简单,识别率较高,但没有通用性;而非特定人 语音识别系统通用性好,但构建系统难度较大,识别率相对于特定人语音识别系 统要低。但是由于其通用性,因此更适用于实际应用。 从词汇量的多少看 可以分为大词汇量、中词汇量和小词汇量。所谓词汇量是指语音识别系统中 所包含的能识别的词汇的多少。词汇量的多少没有严格的标准,一般来说低于 1 0 0 个词的语音识别系统属于小词汇量识别系统,高于1 0 0 0 个词的属于大词汇 量识别系统,介于二者之间的为中词汇量识别系统。随着词汇量的增加,各词汇 之间的混淆程度会随之增加,系统实现的复杂程度增大,识别率也会降低。 从发音的方式看 可以分为孤立词识别、连接词识别、连续语音识别3 种方式。所谓孤立词识 别是指输入语音时,每次只含有一个词汇。由于每次只输入一个词汇,因此不会 出现词汇之间的混淆,其识别结果很高。这种系统一般用于某些特定的命令控制 系统中,如语音控制小车、智能家居系统等。连接词识别是指输入的语音包含连 续的几个词汇。由于出现了词汇间的混淆,因此这种系统要比孤立词识别系统难 度大,识别率也相对较低些。连续语音识别是指用户以自然语速输入语音,系统 进行识别。由于自然语言的随意性,阻及连续词汇之间的偕同发音等问题使得设 计这种识别系统难度增大许多,因此连续语音识别系统目前还出于实验研究阶 段。 从识别的方法上看 有模板匹配法和统计模型法等。所谓模板匹配是指将不同的语音转换成不同 的模板,识别时将待识别的语音模板与参考模板进行相似性度量的识别方法。这 种方法一般用于小词汇量、孤立词语音识别系统中。而统计模型法是指以隐马尔 4 第一章引言 可夫模型为基础的一类识别方法,这种方法既可以用与小词汇量、孤立词语音识 别系统,也可以用于大词汇量连续语音识别系统中,因此是目前主流的语音识别 方法。除了上述方法之外,还有基于人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k , a n n ) 等方法的识别技术。下一小节会对语音识别方法做个简单的描述,在第 二章还会对隐马尔可夫模型方法做详细的介绍。 本文所描述的原型系统是一个0 9 十个数字的连接词、小词汇量语音识别 系统,使用的识别方法基于隐马尔可夫模型。该系统既可以识别单个的数字,也 可以识别包含2 至8 个数字的数字串。 第二节语音识别的主要方法n 儿2 儿3 m 1 语音识别方法从发展过程来看主要经历了下面的三种典型的识别方法,分别 是基于模板匹配的动态时间规整( d t w ) 算法、基于统计模型的隐马尔可夫方 法和基于人工神经网络的方法。下面对这三种方法进行详细的介绍。 1 2 1 动态时间规整 动态时间规整算法是为了解决传统的模板匹配方法中匹配时时长不等的问 题而提出的。传统的模板匹配方法的基本原理如图1 2 所示。 图1 2 模板匹配原理框图 由图1 - 2 可以看出传统的模板匹配方法与语音识别的原理( 图1 1 ) 基本一致, 主要不同之处在于模式库的表示。在基于模板匹配的方法中,原始语音经过训练 产生一系列的特征模板,存储于特征模板库中,识别过程实质上是一个距离的相 第一章引言 似性计算问题,具体过程如下。 假设参考模板为:t = f ( 1 ) ,( 2 ) ,7 1 ( f ) ,丁( ) ) ,n 为参考模板所包含的语 音帧数,r ( i ) 为模板中第i 帧语音的特征矢量。 待识别的语音模板为:r = r o ) ,r ( 2 ) ,r ( j ) ,r ( m ) ) ,m 为待识别模板中 包含的语音帧数,月( ,) 表示模板中第帧语音的特征矢量。 定义两个模板之间的距离为d ( t ,r ) ,则需要计算这两个模板中每一帧语音 的距离,为了便于处理,通常使用欧氏距离。当m = n 时,可以直接计算每个 对应帧的距离然后求和即可。但是由于人们在说话时的随机性很强,即使是同一 个人说同一个词,其发音的时长等特征也是不同的,而d t w 算法即可有效的将 不同时长的语音模板映射到相同的长度上再进行后续处理。 图1 3d t w 算法示意图 图1 3 给出了d t w 算法的示意图,网格中的每一个点( i ,) 表示参考模板 中的第i 帧与待识别模板中第,帧相交,且这这两帧的距离为: n d 丁( f ) ,r ( _ ,) 】= 蓥( t d 一,d ) 2 ,其中,丁( f ) = f l ,2 ,t d 】,r ( j ) = 【n ,2 ,r d 】分别表 d = l 示语音帧r ( i ) 和r ( ,) 对应的特征矢量,d 为特征矢量的维数。d t w 算法就要在 点( 1 ,1 ) 和点( ,m ) 之间寻找一条通过相交点的路径使得路径经过的所有 点对应的距离之和最小。为了阻止盲目搜索,规定搜索路径的斜率介于 1 1 2 ,2 1 之间,而且搜索得到的路径从点( 1 ,1 ) 到点( ,m ) 是一条单调递增的路径。 d t w 算法简单有效,对于特定人孤立词的语音识别系统识别率较高,普遍 用于一些小词汇量的命令控制系统中,但是普通的d t w 算法对端点检测要求较 6 第一章引言 高,在噪音环境下识别效果较差。d t w 算法出现之后,针对d t w 算法,很多 人做了多方面的改进f 3 0 1 1 3 1 ,但是由于算法本身的特点,在连续语音识别中的效 果很不好,从而出现了以统计模型为基础的隐马尔可夫方法。 1 2 2 隐马尔可夫模型 隐马尔可夫模型( h m m ) 是2 0 世纪8 0 年代用于语音识别领域的一种基于 统计模型的方法,该方法在实验环境中基本解决了较大词汇量连续语音识别问 题,成为目前主要的语音识别方法。h m m 模型是语音信号时变特征的有参表示 法。形象地说,h m m 可以分成两个部分,一个是隐蔽的m a r k o v 链,由、4 描述,产生的输出为状态序列,另一个是与m a r k o v 链的每个状态想关联的观察 矢量的随机过程,由b 描述,产生的输出为观察值序列。隐蔽的m a r k o v 链的特 征要靠可观测到的信号特征揭示。这样,时变的语音信号某一段的特征就由对应 状态观测序列的随机过程描述,而信号随时间的变化由隐蔽的m a r k o v 链的转移 概率描述。模型参数包括h m m 拓扑结构、状态转移概率以及描述观察序列的随 机函数。按照随机函数的特点, 删m 模型可以分为离散隐马尔可夫模型( d i s c r e t e h i d d e n m a r k o v m o d e l ,d m m i ) ,半连续隐马尔可夫模型( s e m i - c o n t i n u o u s h i d d e n m a r k o vm o d e l ,s c h m m ) 以及连续隐马尔可夫模型( c o n t i n u o u sh i d d e nm a r k o v m o d e l ,c h m m ) 。一般来说,连续h m m 要比离散h m m 效果好【2 1 1 。h m m 的 训练和识别都已经研究出比较有效的算法,并且不断的被完善,以提高其鲁棒性, 本文所描述的噪声环境下的语音识别方法就在建立在隐马尔可夫模型的框架之 上的。由于隐马尔可夫模型的重要性,在本文的第二章会对隐马尔可夫模型做详 细的描述。 1 2 3 人工神经网络 人工神经网络( a n n ) 是1 9 8 0 年代被重新应用到语音识别领域的一种方法, a n n 具有自适应性、并行性、非线性、鲁棒性、容错性和学习性等特点,用于 语音识别领域取得了一些不错的成果。a n n 用于语音识别领域需要解决以下问 题,一是让a n n 具有反映语音时变特性的能力,二是解决语音时长变化与网络 中固定的输入节点之间的矛盾,三是解决大的a n n 学习时间过长的问题,四是 第一章引言 要解决在语音识别系统中识别元的大小问题。i - i m m 和a n n 各有特点,在实验 中得到的识别率相差不大。近年来有学者将二者有机结合用于语音识别领域,取 得了一定的效果。由于本文主要针对的是基于h m m 框架的噪声环境下语音识 别,对a n n 不做过多的介绍,有兴趣的读者可以参考有关a n n 用于语音识别 领域的相关书籍和文章。 1 2 4 小结 本节主要介绍了语音识别中主要的识别方法,特别是基于模板匹配的d t w 算法和基于统计的h m m 方法,并简要地介绍了有关神经网络用于语音识别领域 的问题。d t w 算法和h m m 方法在识别时虽然都是在模式匹配模块中进行相似 性度量的计算,但是二者有很大的差别,表1 1 给出了二者的详细比较。 表1 1d t w 算法与h m m 的比较 基于模板匹配的d t w 算法 基于统计模型的h m m 方法 词汇表 w o r d ( ) ,l ,_ b o = r 词汇表w o r d ( 女) ,1 = b ,_ 参考模板 t ( ) ,1 o 融# v 参考模型m ( t ) 。1 = 耻 r d k = d r r ) 】 p = p 【r l m ( 七) 距离测度 d k :d t w 距离 概率测度 p :给定模型m ( 女) 出现观察值序列 r :待识别的模板 r 的概率 r :待识别的语音观察值序列 判别 w = a r g m i n ( d k 、 判别 w = a r g m a x ( p ) l 七n l k - n 识别结果 w o r d ( w ) 识别结果w o r d ( w ) 1 3噪声与语音识别系统 尽管现在的语音识别系统已经取得了很好的效果,但是离实际应用还有很大 的距离,其中很重要的一点是环境中背景噪音的影响。噪声环境中语音识别系统 的识别率好坏关系到语音识别技术能否得到广泛地应用,因此研究噪声环境下语 音识别方法是一个非常迫切的问题,这是因为:首先从干净环境中训练得到的语 音模型在噪声环境中的识别率很低,根本无法实际应用。其次大部分语音识别系 统的应用环境都不是“干净”的,存在很大的噪声。如在战场上使用语音识别系 统,其环境噪声将会很大;嵌入到汽车中的系统会有汽车产生的噪声等。第三目 第一章引言 前噪声下语音识别方法虽然取得了一定的进展,但是绝大部分是基于实验室的研 究,离“真实”环境还有很大的距离。基于以上三个原因,研究噪声环境下的语 音识别还是有重要意义的。本文的第三章详细讨论了噪声的种类和噪声对语音识 别系统的影响,以及目前抗噪声语音识别方法等。 1 4本文研究的主要内容和组织结构 从第一个语音识别系统的诞生到现在已经有半个多世纪的时间了,语音识别 中的“老三难”“大词汇量、连续语音识别、非特定人”问题在实验室环境 下已基本被解决,而且也出现了一些基于语音识别技术的产品。微软称嵌入到 o f f i c e 软件中的听写系统能在标准北京口音输入的情况下,首次识别率达到9 3 ,调试之后达到9 6 ,并且新的技术正在使识别率不断上升。但是在语音识 别技术从各个不同的突破口进行应用和产业化的过程中,“新三难”问题逐渐凸 现出来,分别是“方言、环境噪音和口音”问题。 本文针对“新三难”中噪声问题进行研究,在总结前人研究的基础上提出了 一种基于可靠频带的并行模型补偿方法,在一定程度上提高了识别率。本文的组 织如下: 第一章引言主要介绍语音识别技术的发展、基本原理和方法,并简要介绍了 噪声对语音识别系统的影响,指出了抗噪声语音识别方法的研究是语音识别研究 的重点问题。 第二章主要介绍了语音识别系统中的重要一环特征提取,详细叙述了语 音识别系统中常用的一些特征,特别是美尔倒谱系数。第- - + 节详细叙述了目前 主流的隐马尔可夫模型语音识别方法,这也是本文所采用的方法,本文所描述的 三个识别系统都是基于隐马尔可夫模型的系统。 第三章详细叙述了噪声对语音识别的影响,简要讨论了噪声环境下不同的抗 噪声语音识别方法,总结了不同方法各自的特点。 第四章详细分析讨论了本文提出的基于可靠频带的并行模型补偿方法的理 论基础和实现的细节问题,给出了基于可靠频带的数据驱动并行模型补偿方法的 实现细节。 第五章详细叙述了系统的实现过程,并详细分析比较了不同情况下语音识别 9 第一章引言 系统的识别效果情况。 第六章对本文进行了全面的总结,讨论了本文中存在的问题,并对以后的噪 声环境下的语音识别研究进行了展望。 1 0 第二章语音信号的特征提取与隐马尔可夫模型 第二章语音信号的特征提取与隐马尔可夫模型 语音识别流程中的特征提取是对一个语音识别系统中非常重要的环节。一种 有效的特征不但能提高系统的效率,而且还能增强识别系统的鲁棒性,提高系统 的识别率。本章探讨了隐马尔可夫模型以及语音识别系统中常用的特征,并详细 介绍了隐马尔可夫模型中常用的特征一一美尔倒谱系数( m e l f r e q u e n c y c e p s 缸a u nc o e f f i c i e n t s ,c c ) 。 第一节语音信号的特征提取 经过图1 1 中预处理模块处理过的信号仍然是语音波形级的信号,一般来说 是不能用来直接用于语音识别的,因为一是由于得到的波形信号序列维数很大, 用到实际的语音识别系统中的难度很大,二是这些信号中包含了大量冗余无用的 信息。特征提取模块就是要将这些冗余无用的信息去除,从这些表面的信息中提 取出语音信号最本质的特征,通常是频域上的特征,并用这些特征对语音识别系 统进行训练和识别。 2 1 1 语音识别系统中使用的特征 语音识别系统中常用的特征有很多种,如过零率、短时能量、线性预测系数、 美尔倒谱系数等1 1 1 2 1 ”】。从不同域的角度来分,可以分为两类,一类是时域特征, 如过零率、短时能量等,这类特征一般来说只能反映语音的大概情况,如辅音的 平均过零率要比元音大,而元音的短时能量要比辅音的大,因此可以利用这两个 特征来大概区分元音和辅音等。另一类属于频域特征,这类特征是在语音信号的 基础上通过一些特殊的数学变换得到的结果,这类特征所包含的信息相对于时域 上的特征要多,因此在语音识别系统中更多的采用频域上的特征,而时域上的特 征只用作前期大概判断。 频域上的特征很多,如线性预测系数、线性预测倒谱系数、共振峰频率、短 时频谱和美尔倒谱系数等。也更能反映语音信号的本质,能更好地用于语音识别 系统。如目前常用的美尔倒谱系数就是根据人耳的听觉将陛提出的一种特征。实 第二章语音信号的特征提取与隐马尔可夫模型 验发现,在1 0 0 0 h z 以下,人耳的感知能力与频率成线性关系,而在1 0 0 0 h z 以 上,人耳的感知能力与频率成对数关系h 。为了模拟人耳对不同频率语音的感知 特性,人们提出了美尔倒谱系数。本文所描述的原型系统就是以美尔倒谱系数作 为识别特征的,下一小节将对美尔倒谱系数做详细的介绍。 2 1 2 美尔倒谱系数 实验表明,人耳对各频带的敏感程度并不是线性的嗍【33 1 ,也就是说相等频率 间隔的频带对识别率的贡献并不相同,而是一种非线性的的关系。仿照人耳对频 带的敏感程度,语音识别研究者们将频率空间通过变换映射到一种称为美尔尺度 的空间上,即对频带空间进行非线性变换。 在本文所描述的原型系统中我们采用变换朋i ,( ,) = 2 5 9 5 l o g 。( 1 + 孟_ ) ,其频 率与m e l 频率的关系如图2 1 所示。 图2 1 频率与m e l 频率的对应关系 m f c c 就是基于上述m e l 频率提出的,其提取以及计算过程如图2 2 所示。 首先对经过预处理得到的语音帧x ( n ) 进行离散傅立叶变换( d i s c r e t ef o u r i e r t r a n s f o r m ,d f t ) ,得到线性频谱x ( k ) ,其转换公式为 一1 互( ) = x ( n ) e j 2 h v ,o n ,k n 一1 ( 2 1 ) n = 0 在实际使用中通常使用快速傅立叶变换( f a s tf o u r i e rt r a n s t o r m ,f f t ) 。然后将 得到的频谱x ( k 1 通过m e l 滤波器组,再对得到的结果进行对数处理,得到对数 频谱l ( p ) 。最后再将得到的对数频谱进行离散余弦变换( d i s c r e t ec o s i n e 1 2 第二章语音信号的特征提取与隐马尔可夫模型 t r a n s f o n n ,d c t ) ,其公式为: 咖) :笙妇) c 0 。( 三丛与 盟) ,o p pc ( 胛) = ,( p ) c o s ( 婴等坐! ) ,o p 口= j 即可得到美尔倒谱系数c ( h ) 。 - s ( n ) ( 2 2 ) 厂 厂 厂 厂 x ( n ) jf f t x ( i ) 1l i e l 滤波器组 m ( p ) jl 毂l o g 1 ( p ) d c t 求倒谱| _ c ( n ) 1 _ 一【_ j 1 。+ 。一【。一 图2 2 m f c c 提取过程 在本文描述的原型系统中,取p 的值为2 6 。但是并不是用这2 6 维的向量进 行处理,而是只取其前1 3 维,这是因为在实际的语音识别系统中,后面维数对 系统的识别效果影响很小,为减少计算量,因此只取部分维数的特征即可。 第二节隐马尔可夫模型 将隐马尔可夫模型应用到语音识别运用到语音识别领域是上世纪8 0 年代语 音信号处理技术的一项重大进展,用此模型来解决语音识别问题已经取得了很大 的成果。它的理论基础由b a u m 等人建立,随后由c m u 的b a k e r 和i b m 的j e l i n e k 等人将其应用到语音识别中【1 1 ,r a b i n e r 等人在8 0 年代中期对h m m 做了详细的 介绍 2 2 1 ,使得h m m 逐渐为各国语音处理研究人员所了解,成为目前语音识别 领域的主导方法。下面将详细介绍该模型及其在语音识别系统中的应用。 2 2 1 隐马尔可夫模型的数学基础 m a r k o v 链是研究h m m 的基础,它是一种特殊的m a r k o v 过程,是状态和时 间参数上都离散的m a r k o v 过程,其数学定义如下: 随机序列。,在任一时刻n ,它可以处于状态0 1 ,占2 ,- ,0 ,且它在m + k 时 刻所处状态的概率只与它在时刻m 所处的状态有关,而与时刻m 以前的状态无 关,即: p ( x m + 扩q m + kx m 。q m ,x m l 2 g m 一1 ,”,x l2q 1 ) ( 2 3 ) = 尸卅+ 尼= q m + k l j m = q 肿) 第二章语音信号的特征提取与隐马尔可夫模型 其中,q l q 2 ,g 卅,q m + ( 口1 ,口2 ,o n ) ,则称并。为m a r k o v 链,并且称 p u ( m ,m + ) = p ( q m + 女= 口j l q m = 口f ) ,1 - - i , - n ,聊,k 为正整数 ( 2 4 ) 为k 步转移概率,当p i j ( m ,m + i ) 与珊无关,即p i j ( m ,r e + k ) = 尸口( _ j ) 时,称这个 m a = r k o v 链为齐次m a r k o v 链。 由转移概率矩阵4 和初始概率矢量玎就可以描述一个m a r k o v 链了。初始概 率矢量= 仞l ,丌2 ,万) ,其中: 7 t i = p ( q l = o i ) ,1 i n ( 2 5 ) v 由7 f f 的定义显然有o 石f 1 ,并且万f _ 1 。 i = 1 在实际应用中,m a r k o v 链中的每一个状态都对应着一个可观测到的物理事 件,因此可以用来描述一些简单的统计模型。 2 2 2 隐马尔可夫模型的基本概念盯1 1 j 语音信号是一种典型的时变信号,单纯的m a r k o v 链无法很好的描述语音信 号,因此在m a r k o v 链的基础上发展形成了隐马尔可夫模型( h m m ) 。h m m 是 一个双重的随机过程,一个是通过观测得到的观察序列,另一个是产生这些观察 值序列的状态发生器之间的转移,而这些状态发生器相对于观测者而言是不可见 的,因此称这样的双随机过程为“隐”马尔可夫模型。 对于一个h m m ,可以由以下的参数进行描述: n :系统中的状态数,状态集合表示为: = 徊t ,口2 ,o n 。记时刻t 系统所 处的状态为q r ,则g f ( 0 1 ,口2 ,口) 。 m :每个状态中观察值数目。观察值集合表示为:v = ( v ,v 。,v 。 。记t 时 刻观测到的观察值为o ,n o f ( v 。,v 2 ,州。) 。 n :初始状态概率矢量,= ( 7 1 ,, r 9 2 ,石) 。 a :状态转移概率矩阵,a = ( a j ) 。,其中口f = p ( g f + 1 = o j l 吼= 口f ) 表示时刻 t 在状态,而时刻t + l 转移到状态口,的概率。 1 4 第二章语音信号的特征提取与隐马尔可夫模型 b :观察值概率矩阵, b = 6 ,( v t ) = ( b i d ,。, 其中 6 皿= p ( o ,= v 女f g f = 目,) , 1 ,n ,1 七墨m 。 由此,一个h m m 可以由上述五个参数描述,即:五= ( n ,m ,a ,b ) 。综上 所述,当和m 确定时,一个可以将h m的随机过程分成两个部分,一个是 由n 和a 描述,产生状态序列,另一个由b 描述,产生观察值序列。图2 1 给出 了h m m 模型的直观描述。 m a r k o v 链 靠q :,u - ,靠|随机过程 d ,d 2 o r i ( & 爿) 陬爿( 历赢耐 其中r 表示观察值时间长度。 图2 3 h m m 组成结构 2 2 3 隐马尔可夫模型中的三个基本问题及其解决方法 综上所述,h m m 是比m a t k o v 链更高级的数学模型,但是要想将h m m 用 于语音识别领域还必须解决以下三个方面的问题: ( 1 ) 模型评估问题 给定观察序列0 = ( o 。,d 。,o ) 和模型五= ( n ,m ,兀,4 ,b ) ,如何计算在给定模 型下出现观察值序列0 的概率p ( o i 丑) 。 ( 2 ) 最佳状态问题 给定观察序列o = ( d 。,d :,0 ,) 和模型丑= ( n ,m ,a ,b ) ,如何选择一个产生 这一观察序列的最佳状态序列g = ( 吼,9 2 ,q ,) 。 ( 3 ) 模型训练问题 给定模型五= ( n ,m ,a ,b ) ,如何调整模型参数使得p ( 0 1 丑) 最大。 针对上述的3 个问题,b a u m 等人先后提出了解决问题的算法,分别是前向 一后向算法、v i t e r b i 算法和b a u m - - w e l c h 算法,下面对这三个算法做一详细介 绍。 第二章语音信号的特征提取与隐马尔可夫模型 前向一后向算法 定义前向变量:口,( f ) = p ( 0 1 ,0 2 ,o ,q ,= 吼l a ) ,1 t t ,l 曼i n ,表示在 给定模型五的情况下产生t 时刻及以前部分的观察序列0 l ,d 2 ,o ,并且时刻t 所 处的状态为q ,的概率。则可以利用如下的前向算法计算p ( o i 丑) 。 i 初始化:口i ( f ) = 7 r f b i ( 0 1 ) ,1 f s n 递归:口h ,l ( ,) = 【i = 1 口f ( f ) 口盯 6 j ( 。h 。1 ) , l s s r 一1 ,1 i i i 结果:p ( o l 五) = 口,( f ) i = i 前向算法是一种典型的格型结构,图2 2 给出了第二步递归的示意图。 f 9 1 目2 臼 tt + 1 甜f ( f )口f + 1 ( ,) 图2 4 前向算法递归示意图 ( 2 6 ) ( 2 7 ) ( 2 8 ) 与前向算法类似,定义后向变量:f ( f ) = p ( o 。,d 。,- j 0 ,iq f = 口f ,五) i f t l ,i f n ,表示在给定模型a 并且时刻t 所处的状态为q ,的条件下 出现部分观察序列d 。,0 f + 2 ,0 ,的概率。同样有 i 初始化:f ( f ) = 1 ,1 i n ( 2 9 ) i i 递归:p t ( f ) = 口f b ( o h l ) h 1 ( ,) ,f = t - 1 ,t 一2 ,l ,1 - p ( o i 丑) ,重复这一过程直到p ( o i - ) 不再收敛为止,即得到了所需 要的局部最优模型。 上述的三个算法成功的解决了h m m 中的三个基本问题,为h m m 用与语音 识别领域奠定了坚实的理论基础,本节的第5 小节详细介绍了h m m 用于语音识 别领域的一些具体问题和解决方法。 第二章语音信号的特征提取与隐马尔可夫模型 2 2 4 隐马尔可夫模型的分类7 】 在h m m 中,根据观察值序列的类型可以将h m m 分成离散隐马尔可夫模型、 连续隐马尔可夫模型和半连续隐马尔可夫模型。 离散隐马尔可夫模型( d h m m ) 其观察值是m 个离散可数的观察值中的一个,因而称之为离散马尔可夫模 型。状态_ ,对应的观察值的统计特性是由一组概率6 业,k = 1 ,2 ,m 来描述的: m b j k = 1 ,j = 1 ,2 ,n ( 2 2 6 ) k = l 其中表示d h m m 的状态数。 连续隐马尔可夫模型( c h m m ) 与d h m m 不同,c h m m 中的观察值的统计特性是由概率密度函数6 ,( x ) 来 表示的。在实际语音识别应用中,通常使用多高斯分布函数的线性叠加去逼近概 率密度函数6 j ( z ) ,即: k置 b j ( x ) 2 姜 2 ,弦皿) , ( 2 , c f l b j k ( x ) 兰c j k n ( x 1 - - - j n2 7 ) 一1 其中( 。;肛) 2 丽1 e 可! “叫r l - l ( 。一) 为多维高斯概率密度函数,肚为均 值矢量,z j k 为方差矩阵,足为组成概率密度函数6 ,( x ) 的高斯密度函数的个数, c 以为组合系数,且有:舌kc 斗= 1 。此时可以推导出b a u m w e l c h 重估公式为 r n ( ,k ) 西= 1 善,( ,) t = l y f ( ,七) o , 一z 讹= 号一 。 y t ( j ,七) ( 2 2 8 ) ( 2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 遗赠协议书与遗嘱
- 夫妻互不干涉协议书模板
- 中药炮制工职业健康技术规程
- 浮选药剂工标准化技术规程
- 2026届天津市蓟州区第三联合区数学七上期末统考试题含解析
- 2026届云南省保山市施甸县七年级数学第一学期期末综合测试试题含解析
- 2025标准借款合同范本样式是怎样的
- 2026届安徽省合肥五十中学数学九年级第一学期期末达标检测模拟试题含解析
- 专项安全知识培训课件
- 2026届宁夏银川市兴庆区唐徕回民中学七年级数学第一学期期末综合测试试题含解析
- 2025年国学与传统文化考试试题及答案
- 仪表参数调校规程
- 2024年10月自考00144企业管理概论真题及答案
- 如何预防呼吸机相关性肺炎
- 脑梗死中西医结合诊疗指南
- 殷商甲骨占卜制度-洞察及研究
- 多孔中空球形二氧化硅行业深度研究分析报告(2024-2030版)
- 2025至2030年中国洗护用品行业市场行情监测及前景战略研判报告
- 无人机操控与维护专业教学标准(中等职业教育)2025修订
- 2025年内蒙古鄂尔多斯市国源矿业开发有限责任公司招聘笔试参考题库含答案解析
- 2025年广州市越秀区九年级中考语文一模试卷附答案解析
评论
0/150
提交评论