(电路与系统专业论文)基于emd方法的含噪语音识别技术研究.pdf_第1页
(电路与系统专业论文)基于emd方法的含噪语音识别技术研究.pdf_第2页
(电路与系统专业论文)基于emd方法的含噪语音识别技术研究.pdf_第3页
(电路与系统专业论文)基于emd方法的含噪语音识别技术研究.pdf_第4页
(电路与系统专业论文)基于emd方法的含噪语音识别技术研究.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

(电路与系统专业论文)基于emd方法的含噪语音识别技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于e m d 方法的含噪语音识别技术研究 摘要 由于训练环境与识别环境的不匹配,现有语音识别系统在噪声环 境下的识别性能下降十分严重。因此,含噪语音信号识别是关系语音 识别能否走向完全实用化的关键环节,也是目前国内外语音识别的研 究热点和难点。本文采用经验模态分解( e m d ) 方法对含噪语音信号进 行了去噪声处理,采用自适应粒子群算法的b p 神经网络以及自适应 函数链神经网络对含噪语音进行识别,具体研究工作如下: ( 1 ) 基于含噪语音信号特性,给出了一种基于e m d 方法的含噪语 音处理算法。仿真结果表明,经过此算法处理的语音信号信噪比提高 了7 8 8 d b 左右,去噪效果十分明显; ( 2 ) 提取经去噪声处理后的汉语数字语音的m e l 频率倒谱系数,采 用基于自适应粒子群算法的b p 神经网络语音识别方法,较好地实现 了特定人数字语音信号识别。 ( 3 ) 根据加权倒谱距离测度,并结合所提出的自适应函数链神经网 络学习算法构造了一种用于非特定人语音识别的函数链神经网络。仿 真结果表明,该方法不但大大缩短了网络的学习时间,而且使得该网 络具有较高的正确识别率。 关键词:语音识别;噪声;e m d 方法:神经网络 硕士学位论文 a b s t r a c t t h e r ea r et h ed i f f e r e n c e sb e t w e e nt h et r a i n i n gc o n d i t i o n sa n dr e a lw o r l d , e s p e c i a l l ya l ll d n d so f n o i s eb u r i e di nt h es p e e c hs i g n a l s ,s ot h a tt h ep e r f o r m a n c e so f m o s tr e c o g n i t i o ns y s t e m sa l ed e g r a d e dg r e a t l y t h e r e f o r e ,n o i s ys p e e c hr e c o g n i t i o ni s ak e yt e c h n o l o g yf o rs p e e c hr e c o g n i t i o nu t i l i t y , a n di t i sd e v e l o p m e n th o t s p o ta n d d i f f i c u l t yo ft h es p e e c hr e c o g n i t i o nt o d a y i nt h ep a p e r , n o i s ys p e e c hs i g n a la r e p r o c e s s e db yu s i n go fe m d ( e m p i r i c a lm o d ed e c o m p o s i t i o n ) m e t h o d ,s p e e c hs i g n a l a r er e c o g n i z e db yu s i n go fb pn e u r a ln e t w o r kb a s e do ns e l f - a d a p t i v es w a r m a l g o r i t h ma n ds e l f - a d a p t i v ef u n c t i o nc h a i nn e u r a ln e t w o r k , t h em a i ni n n o v a t i o n sa r e e x p r e s s e da s : ( 1 ) as p e e c hs i g n a ld e n o i s i n ga l g o r i t h mf o rn o i s ys p e e c hs i g n a li sg i v e nb yu s i n go f e m dm e t h o db a s e do nt h ec h a r a c t e r i s t i co fn o i s ys p e e c hs i a m l t h es i m u l a t i o n r e s u l t sr e v e a lt h a tt h ee n h a n c e dr a t i oo fs i g n a la n dn o i s ef r o mn o i s es p e e c hs i g n a li s m o s t l y7 8 8 d bs ot h a tt h ed e n o i s i n ge f f e c ti so b v i o u s ( 2 ) m e l f r e q u e n c yc e p s m m ac o e f f i c i e n 协w a sa b s t r a c t e df r o md e n o i s i n gs p e e c h s i g n a l ,a n ds p e a k e r - d e p e n d e n ts p e e c hr e c o g n i t i o nw a sr e a l i z e db yu s i n go ft h et h e o r y a n dm e t h o do fb pn e u r a ln e t w o r ks p e e c hr e c o g n i t i o nb a s e d0 ns e l f - a d a p t i v es w a r m a l g o r i t h m ( 3 ) af u n c t i o n a l l i n kn e u r a ln e t w o r kf o rs p e a k e r - i n d e p e n d e n ts p e e c hr e c o g n i t i o ni s p u t f o r w a r db a s e do nw e i g h t e d c e p s t r a l d i s t a n c em e a s u r ea n ds e l f - a d a p t i v e f u n c t i o n a l - l i n kn e u r a ln e t w o r ka l g o r i t h m t h es i m u l a t i o nr e s u l t sr e v e a lt h a tt h e n e t w o r kh a sn o to n l yh i g h e rr e c o g n i t i o nr a t eb u ta l s os h o r t e n i n gt h et r a i n i n gt i m e k e y w o r d s :s p e e c hr e c o g n i t i o n ;n o i s e ;e m d ( e m p i r i c a lm o d ed e c o m p o s i t i o n ) m e t h o d ;n e u r a ln e t w o r k 湖南师范大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研 究工作所取得的成果。除文中已经注明引用的内容外,本论文不含任何其他个 人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和 集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人 承担。 。、 学位论文作者签名:拗巧l 彩d 一7 年f 月店日 湖南师范大学学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保 留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借 阕。本人授权湖南师范大学可以将本学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 本学位论文属于 1 、保密口,在年解密后适用本授权书。 2 、不保密缸 ( 请在以上相应方框内打“ ”) 作者签名:乏番1 形日期:乡叼年6 月届日 导师签名: 纱彩日期:二呻年月加日 基于e m d 方法的含噪语音识别技术研究 第一章绪论 语言是人类特有的功能,声音是人类最常用的工具。通过语音传递信息是 人类最重要、最有效、最常用和最方便的进行思想疏通和情感交流的形式。让 计算机能听懂人类的语言,是自计算机诞生以来人类梦寐以求的想法【1 1 。人类开 始进入信息化时代以来,如果能采用先进的手段对人们的听、说、读、写、查 阅信息和语音通信等进行高效率识别与处n t 2 j ,这将使人们的才能得到更加充分 的发挥和有效的扩展。正是由于这一点,一些主要先进国家都把语音识别的研 究列为国家级的研究项刚蚓。 1 1 语音识别 自动语音识别主要包括两个方面:语音识别和说话人识另u t 5 j 。说话人识别又 可分为说话人确认、说话人辨别以及近年来又发展出语种识别( l a n g u a g e r e c o g n i t i o n ,l r ) ,即根据一定长度的语音判断出它属于哪个语种。与说话人识 别和语种识别和语音识别相比,语音识别是根据说话人的发音认出他所说的语 音,音节,单词或单句来。这就要排除不同说话人的个人特色,而必须找出代 表各个语音单位的共性特征。 1 1 1 语音识别的发展历史与现状 语音识别研究始于2 0 世纪5 0 年代初期 6 - 7 ,从b e l l 实验室d a v i s 等人建立的 第一个识别1 0 个英文数字的语音识别系纠8 】,到2 0 世纪6 0 年代日本人i t a k u r a 提出了著名的动态时间规整算法( d y n a m i ct i m ew a r p i n g ,d 硼d 时才真正取得 实质性进展。d t w 算法克服了训练与识别阶段的说话速度的不一致,使这种系 1 硕士学位论文 统的性能有了显著提高。但对于更高要求的连续语音、大词汇量的识别系统则 存在很多困难。特别是由于词汇表的扩大和由孤立词向连续语音的变化等,涉 及到识别最小单元的选取和语音的划分等问题,直接的简单的模板匹配显然难 以解决。 自2 0 世纪7 0 年代以来,针对现代语音识别大系统,许多科学家通过长期、 大量的研究,提出了两种解决途径:专家系统的途径。但已不再是现代语音 识别研究的主流。统计方法的途径。其中统计方法是目前主要的研究方法, 即从统计的角度来建立语音识别系统。 b a u m 率先提出了隐马尔可夫模型( h i d d e n m a r k o v m o d e l s ,i a m m ) ,进而由 b e l l 实验室的b a k e r 等人将h m m 应用于语音识别领域,j u a n g 等人则解决了高 斯混合模型的基本训练识别问题,h m m 在现代语音识别中得到了广泛应用 1 0 q o 。 到了2 0 世纪8 0 年代,在语音识别方面开展了许多重大研究,如a t & t 公 司b e l l 实验室在连续数字识别等方面的研群1 7 1 ,i b m 公司t a n g o r a 系统的研 究等。大部分语音识别系统都采用h m m 为基本框架。进入2 0 世纪9 0 年代, h m m 模型的设计和系统的自适应技术等方面取得了一些突破性进展,使得 h m m 技术更加成熟。当然,h m m 还有一些缺陷有待改进,特别是h m m 用于 语音识别时需要作一些假设。 到2 0 世纪8 0 年代中后期,人工神经网络在语音识别方面的应用令人注目 【1 扪。无论从理论上还是在试验上,神经网络在语音识别系统中的应用都得到广 泛的研辩1 9 - 2 4 ,但主要还是人工神经网络和h m m 相结合的混合语音识别系统 ( a r t i f i c i a ln e u r a ln e t w o r k - h i d d e nm a r k o vm o d e l s ,a n n h m m ) 语音识别系统。 基于e m d 方法的含噪语音识别技术研究 如b e r k e l e y 的a n n h m m 系统和剑桥的r n n 语音识别系统等。在这种 a n n - h m m 系统中,语音识别的基本结构仍然使用h m m ,人工神经网络只用 来模拟h m m 中每个状态下发生观察值的后验概率,然后将这个后验概率通过 b a y e s 公式转换为h m m 中对应状态下发生观察值的似然概率。和传统的h m m 相比,a n n h m m 有很多优点,如a n n - h m m 模型更为精确,它既不需要对传 统h m m 的独立分布假设,也不需要对概率密度模拟时作一些不太合理的假设; a n n h m m 模型有更好的分辨率、鲁棒性、并行性等。 从目前的研究成果看,大部分识别系统以h m m 为基本框架,并和其它技 术如神经网络技术等相结合而成。1 9 8 8 年,美国的卡内基梅隆大学( c m u ) 用 v q h m m 实现了9 7 7 词的非特定人连续语音识别系统,即s p h i n x 系统0 这是 世界上第一个高性能的非特定人、大词汇量、连续语音识别系统,该系统基于 离散h m m 。2 0 世纪9 0 年代以后,由于语音识别技术的发展,使得商业化产品 成为可能,出现了语音识别技术的产品化热潮。2 0 世纪9 0 年代初,国外许多研 究机构都研制出词汇量达到几万的大词汇量语音识别系统。著名的系统有,m m 的v i a v o i c e 系统。m m 公司于1 9 9 6 年推出了汉语版的v i a v o i c e ,用于安静环境 下的大词汇量连续语音输入,具有较高的识别率,可以用于计算机的汉字录入。 该系统有英语、法语、日语、汉语等不同语言的版本。其它还有许多系统,如 c a m b r i d g eu n i v e r s i t y 的h t k 系统、o g i 系统、d a r g o n 系统、m i c r o s o f t 的 w h i s p e r 系统等,这些系统都是基于隐马尔可夫模型。 经过近5 0 年的发展,目前语音识别已经达到一仑相当高的水平,已逐步进 入实用化的阶段。 语音识别研究水平最重要的标志之一是非特定人大词汇量连续语音识别的 堡主兰垡堡苎 性能。目前对于理想环境下的语音数据,英国剑桥大学的h t k 系统的误识率己 达到5 以下;对于广播语音,剑桥的h t k 系统误识率达到1 6 2 以下;而对 于电话系统大词汇量语音识别,美国c a r n e g i e m e l l o n 大学的系统其误识率为 4 5 1 。这些系统代表着目前语音识别的最高水平。 我国语音识别研究工作起步于2 0 世纪5 0 年代,但近年来发展很快,研究 水平也从实验室逐步走向实用。从1 9 8 7 年开始执行国家“8 6 3 计划”后,国家 “8 6 3 计划”智能计算机专家组为语音识别技术研究专门立项,每两年滚动一次 嗍。我国语音识别技术的研究水平己经基本上与国外同步,在汉语语音识别技 术上还有自己的特点与优势,并达到国际先进水平。其中,具有代表性的研究 单位是清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。 由清华大学电子工程系语音技术与专用芯片设计课题组研发的非特定人汉语数 码串连续语音识别系统,识别精度达到了9 4 8 ( 不定长数字串) 和9 6 8 ( 定长数 字串) 。在有5 的拒识率情况下,系统识别率可以达到9 6 9 ( 不定长数字串) 和 9 8 7 ( 定长数字串) ,这是目前国际上最好的识别结果之一,其性能已经接近使 用水平。研发的5 0 0 0 词邮包校核非特定人连续语音识别系统的识别率达到 9 8 7 3 ,并且可以识别普通话与i 四) i l 话两种方言,达到了实用要求【2 5 1 。 1 1 2 语音识别的意义 随着对语音识别研究工作的日益深入,人们对语音识别也提出了越来越高的 目标。语音识别的最终目的就是像人与人之间谈话交流信息一样,实现人机自 由对话,也就是赋予机器以听觉,使机器能听懂人的语言,辩明话音的内容或 说话人,将人的语音正确地转化为书而语言或有意义的符号,或者进一步使机 基于e m d 方法的含噪语音识别技术研究 器能够按照人的意志进行操作,把人类从繁重或危险的劳动中解脱出来。据预 测,语音识别将成为继键盘和鼠标器之后,人机交互界面革命中的下一次飞跃。 语音识别具有广阔的应用前景,其发展:成熟和实用化将推动许多产业的 迅速发展,其中包括计算机、办公室自动化、通信、国防、机器人等等。目前 可以预见的语音识别主要应用有:语音输入系统,作为一种最自然的文字输入 方法,用口述代替键盘向计算机输入文字,这将给办公室自动化和出版界带来 革命性的变化;语音控制系统,为人们在手动控制以外又提供了一种更安全、 更方便的控制方法,特别是当系统工作在一些特定的环境( 如黑暗场所或手脚己 被占用来进行其它动作的环境) 或一些特殊的用户( 如残疾人) 时;基于对话系统 的数据库查询系统,为用户提供了更为自然、友好和便捷的数据库检索或查询, 可以广泛运用在银行、交易所、民航等机构:除此之外,语音识别还可以用于口 语翻译系统、计算机辅助教学、自动身份确认等诸多领域。 1 1 3 语音识别分类 语音识别按照不同的要求有不同的分类方法。主要包括:根据词法表的大 小分类。每一个语音识别系统都必须有一个词汇表,系统只能识别表中的词条。 现在一般划分标准为:词数小于1 0 0 为小词表,1 0 0 5 0 0 称为中词汇表,5 0 0 以上称为大词汇表。根据识别语音的讲述方式分类。可分为孤立词( i s o l a t e d w o r d ) 、连接词( c o n n e c t e dw o r d ) ,连续语音( c o n t i n u o u ss p e e c h ) ,即时语音 ( s p o n t a n e o u ss p e e c h ) 4 种识别方式。以上4 种方式的识别难度依次递增。根据 服务对象分类。可分为对单个用户的特定人识另l j ( s p e a k e rd e p e n d e n t ) 和对任何人 的非特定人识另t j ( s p e a k e ri n d e p e n d e n t ) 。根据语音的质量分类。可以分为安静 环境的语音识别和噪声环境的语音识别。 s 硕士学位论文 现有语音识别系统性能的提高主要基于4 个方面的技术:通用语料库的 使用,使得可以用大量的训练数据训练语言模型;声学模型中的新方法使得 语音识别性能提高,例如新的语音特征的提出,h m m 模型的改进、训练的改进 等;语言模型中的统计疗一g r a m 的模型和新的搜索算法的改进等;计算机硬 件和软件的发展给实验模拟提供了更好的条件,使得实现更复杂和更大的数据 包成为可能。 目前,在语音识别研究领域中,连续语音、大词汇量、r o b u s t 性能优良的 语音识别算法研究和语音识别系统的开发,一直是语音识别研究方向。 1 1 4 语音识别的难点 语音识别技术研究已经有5 0 多年,虽然各种识别产品层出不穷,但与语音 识别的最终目标还有一定的距离。多数的语音产品没有像预期一样给人们的人 机交互方式带来本质的影响。 人对变化的语音信号有着难以置信的抽象性、适应性、分辨和学习能力; 同时,可依赖己有的丰富知识背景对语音信号进行判断处理,而这些是计算机 目前所不具备的能力。因此,相对于人而言,计算机语音识别的性能距离理想 仍然很远,一些优秀的语音识别系统性能还不如幼儿识别能力 2 0 3 。 结合汉语语音识别的特点,语音识别的难点表现为: 协同发音现象。人们说话的方式很少是按孤立字发音的,总是按一定的习惯 方式连续发音,声学单元受上下文环境影响而发生模糊、变异,字母或单词的 一部分在发音过程中其音量、音调、重音和发音速度可能不同。在语音识别系 统中,无论选用何种建模单元( 词、音节、声韵母、音素) ,都需要对建模单元之 基于e m d 方法的含噪语音识别技术研究 间的相互影响做细化处理,随之而来的是模型数目的剧增和训练数据的匾乏。 说话人变异。没有( 几乎可论断) 两个语音是一样的,即使是同一人用同样的语 气和发声方法情况下。不同的说话人由于性别、年龄等因素的不同,相同内容 的发音存在很大差异:同时由于情绪和环境的影响,发音也发生改变。随着说话 人的不同,识别系统的适应性表现得远不如人类。因此“说话人自适应”、“变 异语音识别研究”技术一直是语音识别研究中的重要方向。 对环境性的依赖。语音识别往往表现为在某种环境下采集到的语音训练系统 只能在这种环境下适用,变换环境系统性能将急剧下降;另外,实际语音受到 背景噪声的影响,如嘈杂的背景人声、工厂机器轰鸣、麦克和电话信道的畸变 等,鲁棒性一直是影响语音识别系统能否实际应用的关键因素。 方言的影响。口音是各种语言普遍具有的现象,而在汉语语音中尤其突出, ; 发音也极其不规则,比如在一些方言中,不加区分“h ”和“f ,、“l ”和“n ”、 卷舌和不卷舌、前一鼻音和后鼻音等等,声调也变化极大,这对汉语语音识别 提出了更高的要求。因此对于汉语的口音类型,建立适应性强的语音识别系统, 是很有意义的研究方向陋2 7 】。 1 1 5 语音识别的研究方向 当前,语音识别的研究方向可以归纳为 2 8 - 3 1 】: 声音建模。声音建模是语音识别的核心部分,对于提高识别效率起着非常关 键的作用。建立词汇表中每个单字的声学模型对于获得好的识别性能非常重要。 早期识别系统使用模板作为单字的模型,模板其实就是从语音信号中提取出来 的特征向量序列。j e l i n n e k 和b a k e r 等引入的隐马尔可夫模型h m m 己经成为语 硕士学位论文 音模型的标准化方法。目前,声学模型的研究主要集中在寻找更好的模型、更 好的训练算法以及新的建模技术以克服h m m 类方法的不足。 语言建模。音索、音节与字是语音的基本要素。语言学研究的问题是这些要 素如何被连接,以什么顺序连接以及其内容所表达什么意思等。这些问题的约 束条件极大地缩小了语音识另i j 的搜索空间。通过消除那些诸如没有意义和不合 语法的字序列,同样有助于提高识别性能。语言模型可以解释为字符串w 上的 一个概率分布p o d ,这个分布函数反映字符串w 在句中出现的概率。在大词汇 语音识别中使用最广泛和成功的语言模型是x - g r i m 语言模型。这种模型认为在 已知矾前面所有字的前提下,矾的概率可以由前面个字的概率近似得到。 对语言模型的参数进行动态调整能提高性能。但是语言模型的难点在于语言有 时不合语法,因为说话人并不会象遵守法律那样去遵守语法规则。 说话人自适应。语音识别中的自适应是指将识别系统中的一些模型参数随新 的训练数据作调整。这包括多方而的内容,比如适应讲话环境的变化、信道特 性的变化、传声设备的变化、说话人特征的变化、任务特性和识别器应用领域 的变化等,这些都是影响系统稳健性的主要因素。其中讲话环境的变化、信道 特性的变化、传声设备的变化以及说话人发音特性的变化属于声学模型自适应 的研究范畴;而说话人用语习惯、任务特性和识别器应用领域的变化属于语言 模型自适应的研究范畴。 语音特征提取。语音特征提取是语音识别研究中非常活跃的领域。本质上讲, 语音信号是冗余的。特征提取的目的是降低信号维数和仅提取对识别有用的特 征。寻找抗噪声的特征是语音识别所必须的。近来,基于多带分析的语音特征 提取非常流行。这些基于信号在频域的局部信息的特征,能够有效地降低噪声 基于e m d 方法的含噪语音识别技术研究 的影响。提取对噪声不敏感的局部特征是语音特征提取的核心研究内容。 对噪声鲁棒性的语音识别。实际的语音识别系统都需要对噪声干扰具有鲁棒 性。以纯净语音训练的识别系统在噪声条件下性能会大打折扣。因此在语音识 别领域,对噪声的鲁棒性研究一直是个重点问题。此外,字测定点位和信任度、 可视语音识别、大词汇量连续语音识别、搜索算法和对话系统也是目前语音识 别领域的研究热点。本文研究的重点是噪声环境下的语音识别问题。 1 2 噪声环境下的语音识别 随着隐马尔可夫模型在语音识别中的广泛应用,语音识别技术得到很大发 展,特别是在实验室安静环境下语音识别系统可以达到实用的效果。但是在儿 多数实际应用的环境中总是存在各种各样的噪声,由于训练环境与识别环境的 不匹配,现有的语音识别系统在噪声情况下,系统的识别性能下降的十分严重 3 2 - 3 3 ,这也是语音识别不能实现真正商业化的一个重要因素。 造成语音识别系统在噪声环境下性能大幅下降的主要原因是训练语音的录 制环境和识别语音时的环境差异。通常在安静环境下录制训练语音而对于各种 各样的实际应用环境,除非特定的应用场合,其噪声环境是千差万别的,不可 能在所有可能的噪声环境下录制训练语音来训练各种不同环境下的语音模型, 而且各种噪声环境是可变的,同时噪声会使得说话者的语音随噪声环境的变化, 而改变其平时说话的方式,即l o m b a r d 效应。所以需要语音识别系统对多种不 同类型的噪声和不同信噪比条件的噪声具有良好的鲁棒性( r o b u s t n e s s ) ,或者称 为语音识别的稳健性。 在干扰背景下有效地检测信号,不仅与信号的形式和干扰的性质有关,也 堡主兰垡堡苎 与信号处理的方法有关,对于不同类型的信号寻找最佳的处理技术一直是信号 处理及检测研究的主要问题之一。语音去噪技术是语音信号处理的一个重要分 支,它在解决噪声污染、改进语音质量、提高语音可懂度等方面发挥着越来越 重要的作用眺。传统的自适应滤波( 如维纳滤波【3 5 1 、卡尔曼滤波【3 5 1 ) 进行语音去噪, 需要知道噪声的一些特征或统计性质,特别是当噪声与语音的频谱相似时,传 统的单纯时域或频域处理往往无法达到很好的效果。目前得到广泛应用的小波 变换技术虽然在分析和处理非平稳信号方面显示了诸多优势,但也存在着选择 匹配小波基的困难。 而h i l b c r t h u a n g 变换( m 玎) 的信号处理方法被认为是近年来对以傅立叶变 换为基础的线性和稳态谱分析的一个重大突破。该方法将时间信号经过经验模 态分解成为一组固有模态函数,再进行h i l b e r t 变换。与傅立叶变换以余弦函数 为基底进行信号分解不同,h i l b e r t - h u a n g 变换局部性良好而且是自适应的,对 稳态信号和非平稳信号都能进行分析。与小波变换类似,h i l b c r t h u a n g 变换方 法的第一部分,即e m d 分解部分将带噪信号按照不同分辨率分解成一系列i m f , 既吸取了小波变换多分辨的优势,又克服了在小波变换中需要选择合适的小波 基的困难,因此,采用该方法同样可以实现对带噪语音信号的去噪。 由于经验模态分解方法在将带噪信号按照不同分辨率分解时,既吸取了小 波变换多分辨的优势,又克服y d , 波变换中选择合适的小波基的困难,因此采 用该方法对带噪语音信号进行去噪处理具有很大的理论价值与现实意义。 1 3 论文的主要工作与章节安排 本文主要以经验模态分解方法、语音识别以及神经网络的基本理论为基础, 基于e m d 方法的含噪语音识别技术研究 研究基于含噪声语音信号的去噪声处理及其去噪声语音信号的神经网络的语音 识别理论方法以及实验检验,全文安排如下: 第一章,绪论。结合国内外研究的现状和发展趋势,介绍了语音识别的发 展历史、研究意义、主要技术与遇到的困难以及含噪声语音信号的去噪声处理 的研究现状。 第二章,含噪声语音识别基础。详细介绍语音信号的产生机理、语音信号 的特点、语音识别系统的基本构成、语音识别技术以及噪声环境的语音识别等。 第三章,基于e m d 方法的含噪语音信号去噪处理方法。首先介绍经验模态 分解方法、e m d 与h i l b e r t 变换结合提取信号的瞬时特征,然后基于e m d 方法 提出含噪语音信号去噪处理方法,主要包括e m d 信号分析方法端点问题的处 理、含噪声语音信号的尺度滤波、基于e m d 方法的含噪语音信号的去噪处理算 法、基于e m d 方法的语音信号去噪处理算法仿真等方面。 第四章,汉语数字语音识别方法。首先介绍神经网络模型的基本原理与b p 神经网络的学习算法,然后提出基于自适应p s o 优化算法的特定人语音信号的 b p 神经网识别理论方法和非特定人语音识别的自适应函数链神经网络模型,并 给出了相应的实验结果分析。 第五章,结语。总结了全文的主要工作,给出了结论,并讨论今后的研究 设想以及提出展望。 硕士学位论文 第二章含噪声语音识别基础 语音是语言的声学表现,是人类交流信息最自然、最有效、最方便的手段, 也是人类进行思维的一种依托。语音研究的终极目标是研究出一种具有听觉功 能的机器,能直接接受人的语言命令,理解人的意图并能够与人进行语言沟通。 尽管目前有大量的关于语音识别的理论和装置,但是其原理本质上都可归结为 一个模式识别与匹配的过程【3 研。 语音识别( s p e e c hr e c o g n i t i o n ,s r ) 是指采用计算机从人的语音信号中自动 提取最有意义的信息,从而确定语音信号的语言含义的过程。作为一个科学研 究领域,它与声学、语音学、语言学、脑科学、生理学、心理学、人工智能、 数字信号处理理论、模式识别理论、统计信息理论、最优化理论、计算机科学 等众多学科紧密相连【卜2 1 ,其应用背景及学科基础如图2 1 所示。随着研究工作 的日益深入,人们对语音识 别也提出了越来越高的目 标。语音识别的最终目的就 是象人与人之间谈话交流信 息一样,实现人一机自由对 话,也就是赋予机器以听觉, 使机器能听懂人的语言,辩 明话音的内容或说话人,将 图2 1 语音识别的应用背景和学科 人的语音正确地转化为书而语言或有意义的符号,或者进一步伸机器能够按照 人的意志进行操作,把人类从繁重或危险的劳动中解脱出来。据预测,语音识 别将成为继键盘和鼠标器之后,人机交互界面革命中的下一次飞跃。 1 2 基于e m d 方法的含噪语音识别技术研究 语音识别具有广阔的应用前景,其发展、成熟和实用化将推动许多产业的迅速 发展,其中包括计算机、办公室自动化、通信、国防、机器人等等。 , 2 1 语音信号的产生机理 人的发声器官由3 部分组成:喉、声道和嘴。 喉位于气管的上端,其中有两片肌肉,称为声带。声带之间的空隙称为声门。 说话时空气从肺部排出形成气流,两片声带相互靠近但不完全封闭,声门变成 一条窄缝,当气流通过该窄缝时其间的压力变小,使声带完全合拢气流不能再 通过;在气流阻断时压力又恢复为正常,声带间的空隙再次形成,气流再次通 过。该过程周而复始的进行,形成送入声道一串周期性的脉冲气流,该空气流 经过声道后最终从嘴唇辐射出声波。这便是“浊音”语音,它的周期称为基音周期。 如果声带是完全舒展开来的,则肺部发出的空气流将不受影响地通过声门。 空气流通过声门后,会遇到两种不同的情况:如果声道的某个部位发生了收 缩而形成一个狭窄的通道,当空气流到达此处时被迫以高速冲过收缩区,并在 附近产生出空气的湍流,这种湍流通过声道后便形成“摩擦音”。如果声道的 某个部位完全闭合在一起,当空气流到达时便在此处建立起空气压力,一旦闭 合点突然开启便会让气压快速释放,经过声道后便形成“爆破音”。这些语音最 后从嘴唇或鼻孔或同时从嘴唇和鼻孔辐射出声波,这便是“清音”。 对于浊音、摩擦音和爆破音三种不同类型的语音来说,激励源是不同的, 浊音语音是位于声门处的准周期脉冲序列,清音的激励源是位于声道的某个收 缩区的空气湍流( 类似于噪声) ,而爆破音的激励源是位于声道某个闭合点处建立 起来的气压及其突然释放。 硕士学位论文 声道是一个具有某种谐振特性的腔体,腔体的一组谐振点称为共振峰,这 些共振峰的位置取决于声道的形状和尺寸,这些点将影响决定了声道的频谱特 性。当声音产生出来以后顺着声道进行传播,输出气流的频率特性要受到声道 共振特性的影响。声门脉冲序列具有丰富的谐波成分,这些频率成分与声道的 共振峰频率之间相互作用,对语音的音质产生很大的影响。为精确描述语音, 必须采用尽可能多的共振峰,但实际应用中,只有头三个共振峰才是最重要的。 2 2 语音信号的特点 ( 1 ) 语音信号的频谱分量主要集中在3 0 0 , - - 一3 4 0 0 i - i z 的范围内,根据奈奎斯特取 样定理,先用一个带通滤波器将此范围内的语音信号取出,然后用8 k i - i z 的采样 序列对语音信号进行采样,就可以得到离散时域的语音信号,其频谱是连续信 号频谱以o 固的周期延拓。 ( 2 ) 语音信号具有短时性。语音信号是一种典型的非平稳信号。这是因为在语 音的形成过程中发音器官也在运动中,但是这种物理运动比起声音的振动速度 来要缓慢的多,因此语音信号常常可假定为短时平稳,通常在l o 3 0 m s 这样的 时间段内,其频谱特性和某些物理特征参量可近似地看作不变。 ( 3 ) 语音信号的分类:根据声带的状态和发声机理的不同可分为两大类:浊音 和清音i ) 。发浊音时,气流通过绷紧的声带,冲激声带产生振动,使声门 处形成准周期性的脉冲串,浊音具有周期性信号的特点。发清音时,声带松弛 不振动,气流通过声门直接进入声道,清音具有随机白噪声信号的特点。 浊音语音能量约集中在3 k i - i z 以下,而清音语音多数能量集中于较高的频率 上。也就是说高频率信号有高的跨零数,低频率信号有着低的跨零数,就有很 基于e m d 方法的含噪语音识别技术研究 强的关系。比较合理的归纳是如果过零率高,语音信号就是清音:如果过零率 低,语音信号就是浊音。 2 3 语音识别系统的基本构成 语音识别的典型方案如图2 2 所示。输入的模拟语音信号首先要经过预处 理,包括预滤波,采样和量化,加窗,端点检测,预加重等。语音信号经预处 理后,接下来重要的一环就是特征参数提取。 对特征参数的要求是:提 取的特征参数能有效的代表语 音特征,具有很好的区分性。 各阶参数之间有良好的独立性。 特征参数要计算方便,具有高 图2 - 2 语音识别流程图 效的计算方法,以保证语音识别的实时实现。 将特征参数进行一定的处理后,为每个词条得到一个模型,保存为模版库。 在识别阶段,语音信号经过相同的通道得到语音参数,生成测试模版,与参考 模版进行匹配,将匹配分数最高的参考模版作为识别结果。同时还可以在很多 先验知识的帮助下,提高识别的准确率。 2 4 语音识别技术介绍 语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个 方面。此外,还涉及到语音识别单元的选取。 硕士学位论文 2 4 1 语音识别单元的选取 选择识别单元是语音识别研究的第一步。语音识别单元有单词( 句) 、音节 和音素3 种,具体选择哪一种,由具体的研究任务决定。 ( 1 ) 单词( 旬) 单元广泛应用于中小词汇语音识别系统,但不适合大词汇系统, 原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂,难以满足实 时性要求。 ( 2 ) 音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而英 语是多音节,并且汉语虽然有大约1 3 0 0 个音节,但若不考虑声调,约有4 0 8 个 无调音节,数量相对较少。因此,对于中、大词汇量汉语语音识别系统来说, 以音节为识别单元基本是可行的。 ( 3 ) 音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语 音识别系统也在越来越多地采用。原因在于汉语音节仅由声母( 包括零声母有 2 2 个) 和韵母( 共有2 8 个) 构成,且声韵母声学特性相差很大。实际应用中常 把声母依后续韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高 了易混淆音节的区分能力。由于协同发音的影响,音素单元不稳定,所以如何 获得稳定的音素单元,还有待研究。 2 4 2 特征参数提取技术 语音信号是人类所知的最复杂的信号之一,这种复杂性在于表达同一个词 的语音具有明显甚至巨大的差异。这种差异来源广泛,如说话人的年龄、性别、 e l 音、语速、体质、心情和伦巴第( l o m b a r d ) 效应等。此外,语音信号还是一种 冗余信号。在语音信号的可变性和冗余背景下,必须通过一定的算法选取那些 1 6 基于e m d 方法的含噪语音识别技术研究 与识别密切相关的特征信息。目前在识别领域中可供使用的特征有很多,如滤 波器组系数、过零率、线性预测系数、线性预测倒谱系数、反射系数、周期、 线性感知预测系数、线性感知预测倒谱系数、梅尔频率倒谱系数以及子带和多 带特征等。其中线性预测倒谱系数和梅尔频率倒谱系数是最常用的特征。 生理学研究表明,人耳对不同频率的语音具有不同的感知能力,在l k h z 以 下,感知能力与频率成线性关系,而在l k h z 以上,则成对数关系。m e l 频率就 是用来模拟人耳对不同语音的感知特性,其意义为:1 m e l 等于l k h z 的音调感 知程度的1 1 0 0 0 。梅尔频率倒谱系数( m e l - f r e q u e n e yc e p s t r u mc o e f f i c i e n t s , m f c c s ) a 0 为基于上述m e l 频率的概念提出的。其提取及计算过程如下: ( 1 ) 原始语音信号s o ) 经过预加重、分帧、加窗等处理,得到每个语音帧的时 域信号砌) 。 ( 2 ) 将时域信号加1 ) 后补若干0 以形成长度为旭一般为5 1 2 ) 的序列,然后经过 离散傅立叶变换( d i s c r e t ef o u r i e rt r a n s f o r m ,d f t ) 后得到线性频谱x ( d ,其转 换公式为: n - i x ( 七) = x ( n ) e 讲删( o 以,k l v - 1 )( 2 - 0 ( 3 ) 将上述线性频谱扳d 通过m e l 频率滤波器组得到m e l 频谱,并通过对数能 量的处理,得到对数频谱s 伽) 。 m e l 频率滤波器组为在语音的频率范围内设置的若干个带通滤波器以( 七) , o m m ,m 为滤波器的个数。每个滤波器具有三角形滤波特性,其中心频率 为砌) ,当m 值小时相邻砌) 之间的间隔也小,随着m 的增加相邻肋) 的间隔 逐渐变大,如图2 3 所示。每个带通滤波器的传递函数为: 硕士学位论文 吃( 的= ( 七 f ( m 一1 ) ) u ( m 1 ) 七厂( 肌) ) ( o s 肼 ,( m + l ” 贝m ) 由下式定义: 又m ,= ( 等) 召。1 ( b c 石,+ 珊b ( f h j ) 西- :b 丁( 一f ,) ) c 2 3 , 式中,五、j ( 为滤波器的频率应用范围的最低频率和最高频率,n 为步骤2 中 d f t 窗宽,只为采样频率,为b 的逆函数,b 。1 ( 6 ) = 7 0 0 ( e ”一1 ) 为了使 结果对噪声和谱估计误差有更好的鲁 棒性,一般将上述经过m e l 频率滤波 器组得到的m e l 频谱取对数能量。 片恤) h ,( o m , ( om , ( o n ,征) 风伍) 介, ( o ) 0 ) ,( 3 ) ,( 4 ) 。r ( 5 ) ,( 6 ) ( 7 图2 - 3 通过m e l 频率滤波器组得到的m e l 频谱 由线性频谱坝幼到对数频谱跏) 的总传递函数为 d ( 啊,啊) 】= d 【( 1 ,1 ) 】= d 【r ( 1 ) ,r ( 1 ) j s 地崖k - 陬七) f 以 ) 。埘 肘( 2 _ 4 ) ( 4 ) 将上述对数频谱跏) 经过离散余弦变换( d c t ) 变换到倒频谱域,即可得到 m e l 频率倒谱系数c ( n ) - 州= 艺跏灿( 号 堕) 。肘c 2 射 在实际的语音识别过程中,并不是取全部维数的m f c c 系数,有实验表明, 最前若干维以及最后若干维的系数对语音的区分性能较大,故通常取前1 2 维的 系数即可。 o旷一肋妒一h o 丛1 竺哪h一伽一时上删八而 基于e m d 方法的含噪语音识别技术研究 2 4 3 模式匹配及模型训练技术 模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本质特 征的模型参数,而模式匹配则是根据一定准则,使未知模式与模型库中的某一 个模型获得最佳匹配。语音识别所应用的模式匹配和模型训练技术主要有d t w 、 h m m 、概率语法分析法和人工神经元网络。 d t w 是用满足一定条件的时间归正函数描述待识别模式和参考模版的时间 对应关系,求解两模版匹配是累计距离最小所对应的归正函数,从而保证了模 版间存在的最大的声学相似性。d t w 在词汇表较小以及各个词条不容易混淆的 情况下具有一定的优越性,但在由于其只是简单的模版匹配,在处理要求更高 的语音识别就显得力不从心了。因为对于连续语音识别系统来讲,如果选择词, 词组,短语甚至整个句子作为识别单位,为每个词条建立一个模版,那么随着 系统用词量的增加,模版的数量将达到天文数字,而这在实际应用中是不可能 被允许出现的情况。 h m m 模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过 程共同描述信号的统计特性,其中一个是隐蔽的( 不可观测的) 具有有限状态 的m a r k o r 链,另一个是与m a r k o r 链的每一状态相关联的观察矢量的随机过程 ( 可观测的) 。隐蔽m a r k o r 链的特征要靠可观测到的信号特征揭示。这样,语 音等时变信号某一段的特征就由对应状态观察符号的随机过程描述,而信号随 时间的变化由隐蔽m a r k o r 链的转移概率描述。模型参数包括h m拓扑结构、 状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点, h m m 模型可分为离散隐马尔可夫模型( 采用离散概率密度函数,简称d m 江m ) 和连续隐马尔可夫模型( 采用连续概率密度函数,简称

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论