(信号与信息处理专业论文)用遗传算法改进hmm的语音识别算法研究.pdf_第1页
(信号与信息处理专业论文)用遗传算法改进hmm的语音识别算法研究.pdf_第2页
(信号与信息处理专业论文)用遗传算法改进hmm的语音识别算法研究.pdf_第3页
(信号与信息处理专业论文)用遗传算法改进hmm的语音识别算法研究.pdf_第4页
(信号与信息处理专业论文)用遗传算法改进hmm的语音识别算法研究.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

太原理工大学硕士研究生学位论文 用遗传算法改进h m m 的语音识别算法研究 摘要 语音识别是语音信号处理领域的研究热点,它长期以来直是一项难 题,尤其是对于噪声环境下以及非特定人语音识别。训练单元是语音识别 系统中十分重要的一环,语音识别系统的训练效果的优劣直接关系到系统 的整体性能。 隐马尔可夫模型( h m m ) 作为描述语音信号的一种统计模型,在现代 信号处理尤其是语音处理中获得了广泛的应用。文中阐述了h m m 的原理 及它的三个问题的求解方法,其中它的训练问题是它的三个基本问题中最 难也是最重要的一个,经典的训练算法b a u mw e l c h 算法本质上是一种梯度 下降算法,在训练过程中有可能达到局部最小值。因此,模型初始值的选 取比较重要,好的初值可以避免局部极小问题。 遗传算法的一个重要特点是全局搜索,可以得到全局最优解或次优解。 选择、交叉、变异是遗传算法的三个主要的操作算子,个体为操作的对象, 它们构成了整个遗传过程,使遗传算法具有了其它传统方法所没有的优良 特性。又由于h m m 中b 初值的选取对模型的影响较大,于是本文将遗传 算法应用到b a u mw e l c h 算法b 初值的优化中,提出了一个把传统算法和 遗传算法相结合的混合算法。 文中首先对b 初值进行了编码,然后再进行适应度函数的设计、交叉 算子、变异算子的设计以及控制参数的选择,最后用软件仿真实现了上述 遗传算法,求出最优的b 初值,再用b a u mw e l c h 算法进行迭代训练,最 i 太原理工大学硕士研究生学位论文 后用v i t e r b i 算法进行识别。实验中由于遗传算法的性能与它的控制参数的 设置选取有着极大的关系,最优的算法性能往往需要最优的参数设置。因 此实验中对两个最重要参数( ,只) 组成的二维参数空间进行了寻优搜索, 最终得到了较优的模型,提高了整个语音识别系统的识别率。 关键词:语音识别,h m m ,遗传算法,b a u mw e l c h 太原理工大学硕士研究生学位论文 s t u d yo fs p e e c hr e c o g n i t i o na l g o r i t h mb a s e d o nt h ei m p r o v e dh m mb yg e n e t i ca l g o r i t h m a b s t r a c t s p e e c hr e c o g n i t i o ni sah o ti s s u ei nt h ef i e l do fs p e e c hs i g n a lp r o c e s s i n g , a n da l w a y si s d i f f i c u l t , e s p e c i a l l yf o rt h ei n d e p e n d e n tp e r s o ni nt h en o i s y e n v i r o n m e n t t h et r a i n i n gu n i ti sav e r yi m p o r t a n tp a r ti ns p e e c hr e c o g n i t i o n a n di td e t e r m i n e st h ee n t r ep r o p e r t i e so f t h es y s t e m a sas t a t i s t i c a lm o d e li nd e s c r i p t i o no f s p e e c hs i g n a l ,h m mi sw i d e l yu s e d i ns i g n a lp r o c e s s i n ge s p e c i a l l yi ns p e e c hp r o c e s s i n g t h i sa r t i c l ei l l u m i n a t e st h e p r i n c i p l eo fh m m a n dt h es o l u t i o no fi t st h r e eq u e s t i o n s t r a i n i n gp r o b l e mi s t h em o s td i f f i c u l ta n di m p o r t a n tp r o b l e mo ft h et h r e ep r o b l e m s 。t h ee s s e n c eo f c l a s s i c a lt r a i n i n ga l g o r i t h mb a u mw e l c hi sg r a d sd e s c e n d i n gm e t h o d ,w h i c h m a y r e a c ha l o c a l l ym i n i m a ls o l u t i o ni nt h et r a i n i n gp r o c e s s s o ,t h es e l e c t i o no f i n i t i a lv a l u eo f t h em o d e li si m p o r t a n ga n dg o o di n i t i a lv a l u ec o u l d a v o i dl o c a l l y m i n i m a ls o l u t i o n a n i m p o r t a n tc h a r a c t e r i s t i co f g e n e t i ca l g o r i t h mi sg l o b a ls e a r c h ,s ow e c a n g e tg l o b a l l yo p t i m a l s o l u t i o no ra tl e a s t s u b o p t i m a ls o l u t i o n s e l e c t i o n , c r o s s o v e ra n dm u t a t i o na r et h r e em a i no p e r a t o r so fg e n e t i ca l g o f i t h m , a n d i n d i v i d u a li st h eo b j e c to fo p e r a t i o n t h e yc o m p r i s e do ft h ew h o l ep r o c e s so f i l l 太原理工大学硕士研究生学位论文 i n h e r i t a n c ea n dm a k eg e n e t i c a l g o r i t h mh a v et h ee m i n e n tt r a i tw h i c ho t h e r c l a s s i c a lm e t h o d sd o n th a v e b e c a u s eo f t h eg r e a te f f e c to fi n i t i a lv a l u eo fbf o r t h eh m m ,t h i sp a p e ra p p l i e dg e n e t i ca l g o r i t h mt ot h eo p t i m i z a t i o no fi n i t i a l v a l u eo fbi nb a u mw e l c ha n dp r o p o s e dah y b r i da l g o r i t h mc o m b i n e dc l a s s i c a l a l g o r i t h mw i mg e n e t i ca l g o r i t h m t h i sp a p e rf i r s te n c o d e dt h ei n i t i a lv a l u eo fb ,t h e nd e s i g n e df i t n e s s f u n c t i o n ,c r o s s o v e ro p e r a t o r , m u t a t i o no p e r a t o ra n ds e l e c t e dt h ec o n t r o l p a r a m e t e r , a n df i n a l l ys i m u l a t e dt h ea b o v eg e n e t i ca l g o r i t h m , s ot h eo p t i m a l i n i t i a lv a l u eo fbw a so b t a i n e d t h e nt h em o d e lw a st r a i n e db yb a u mw e l c h , a n da tl a s tw a sr e c o g n i z e db yv i t e r b i i nt h ee x p e r i m e n t ,b e c a u s et h e p e r f o r m a n c eo fg e n e t i ca l g o r i t h mi sg r e a t l yr e l a t e dt ot h es e l e c t i o no f i t sc o n t r o l p a r a m e t e r , t h eo p t i m a lp e r f o r m a n c eo fg e n e t i ca l g o r i t h ma l w a y sn e e d so p t i m a l p a r a m e t e r t h ee x p e r i m e n tc a r r i e do u tas e a r c ho nt h et w om o s ti m p o r t a n t p a r a m e t e r so f a n d 巴e v e n t u a l l y ,t h eo p t i m a lm o d e l w a so b t a i n e d , a n dt h e r e c o g n i t i o nr a t eo f t h ee n t i r es p e e c hr e c o g n i t i o ns y s t e mw a se l e v a t e d k e yw o r d s :s p e e c hr e c o g n i t i o n , h m m ,g e n e t i ca l g o r i t h m ,b a u mw e l c h 声明 本人郑重声明:所呈交的学位论文,是本人在指导教师的指导下, 独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文 不包含其他个人或集体已经发表或撰写过的科研成果。对本文的研究 做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的 法律责任由本人承担。 论文作者签名:圣二圣 日期: 关于学位论文使用权的说明 本人完全了解太原理工大学有关保管、使用学位论文的规定,其 中包括:学校有权保管、并向有关部门送交学位论文的原件与复印 件;学校可以采用影印、缩印或其它复制手段复制并保存学位论文; 学校可允许学位论文被查阅或借阅;学校可以学术交流为目的。 复制赠送和交换学位论文;学校可以公布学位论文的全部或部分内 容( 保密学位论文在解密后遵守此规定) o 签名:圣二垩日期:巡,主,婆 翮签名:签葚 太原理工大学硕士研究生学位论文 i 1 语音识别概述 第一章绪论 1 1 1 引言 语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术, 语音识别技术与语音合成技术结合使入们能够甩掉键盘。逶过语音命令进行操作。语音 识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技 术。语音识别还可以应用在工业控制方面。在一些工作环境恶劣、对人身伤害的地方( 如 地下、深水、及辐射、高温等) 或手工难以操作的地方,均可通过语音发出相应的控制 命令,让设备完成各种工作。 。 随着现代科学和计算机技术的发展,人们在与机器的信息交流中,需要一种更加方 便、自然的方式。面人的直观感觉可以给人最直接的印象,获取信息速度也就最快。虽 然,嗅觉、触觉也是人类固有的感觉,人们可以从中得到某些外界信息,但最重要、最 精细的信息源只有图像和语言两种。而且,语言是人类最重要的、最有效的、最常用的 和最方便的通信形式。这就很容易让入想到能否用自然语言代替传统的入机交流方式如 键盘、鼠标等。一般来讲,人与机器的语言通信大致分为两种情况“1 :第一种情况就是 机器讲话,人听话。这就是“人工嘴巴”即语音的人工合成;第二种情况就是人讲话, 机器听话。这即是“人工耳朵”即语音的人工识别和理解。语音识别较语音合成而言, 技术上要复杂,但应用却更加广泛。语音识别的最大优势在于使得人机用户界面更加自 然和容易使用。 语音识别是研究使机器能准确的听出人的语音内容的问题,它常常被认为是实现人 机语音交互技术中关键的第一步,在计算机日益普及的今天,愈发显现出其在i t 产业 中的重要地位。让电脑听懂人的语言是人类自计算机诞生以来梦寐以求的想法。直接对 计算机发号施令,解放出我们的双手,在任何状态下( 不只限于坐在那里敲键盘) 与计算 机进行交互式操作是数字化生存时代的效率体现和人性化工作方式的完美结合。微电子 技术发展到今天。计算机和电子通信设备日益微型化,未来的计算机将会微缩成腕上的 手表般大小,而如果仍采用键盘输入是不可能的,其他类似的控制仪器或通信设备的键 太原理工大学硕士研究生学位论文 盘也将在微型化的潮流中遭到淘汰。由此,语音输入便成为唯一的最佳选择。m i c r o s o f t 公司的总裁比尔盖茨对语音识别技术的前景表示十分乐观,他大胆预测说:“我们将 在这个十年中,克服语音识别技术的障碍,下一代的操作系统以及应用程序的用户界面 将摒弃键盘和鼠标,代之以真正意义上的人机对话。”p h i l i p s ,i b m , i n t e l ,t o s h i b a 等诸多世界著名公司以战略的眼光看到了语音识别技术在未来市场中所具有的巨大潜 力,投入巨资进行研究开发。 1 1 2 语音识别的发展过程及其现状 语音识别的研究工作大约开始于5 0 年代,标志就是a t tb e l l 实验室实现了第一 个可识别十个英文数字的语音识别系统a u d y 系统“1 。 6 0 年代,计算机的应用推动了语音识别的发展,这一时期的重要成果是提出了用 动态规划方法来解决语音识别中不等长的对正问题。 7 0 年代,语音识别领域取得了突破。线性预测技术( l p c ) 的引入,使语音识别的特 征提取产生了一次飞跃。动态时间规整技术( d t w ) 基本成熟,提出了矢量量化( v q ) 和隐 马尔可夫模型( h 嘲) 理论。实现了基于线性预测倒谱和d t w 技术的特定人孤立语音识别 系统。 8 0 年代,语音识别研究进一步走向深入,其显著特征是 珈咐和人工神经网络( a n n ) 在语音识别中的成功应用。h m m 的广泛应用应归功于a t & tb e l l 实验室r a b i n e r 等科学 家的努力,他们把原本艰涩的h m m 纯数学理论模型工程化,从而为更多研究者了解和认 识。 , 进入9 0 年代,随着多媒体时代的来临,迫切要求语音识别系统从实验室走向实用。 许多发达国家如美国、日本、韩国以及i b m 、a p p l e 、a t t 、n 1 u r 等著名公司都为语音识 别系统的实用化开发研究投以巨资。i b m 公司于1 9 9 7 年开发出汉语v i a v o i c e 语音识别 系统,次年又开发出可以识别上海话、广东话和四川话等地方口音的语音识别系统 v i a v o i c e 9 8 。它带有一个3 2 ,0 0 0 词的基本词汇表,可以扩展到6 5 ,0 0 0 词,还包括 办公常用词条,具有“纠错机制”,其平均识别率可以达到9 5 。该系统对新闻语音识 别具有较高的精度,是目前具有代表性的汉语连续语音识别系统。s p e e c h w o r k s 公司是 世界领先的电话自动语音识别系统( a s r ) 解决方案的提供者,代表产品为s p e e c h w o r k s 6 。 利用该产品,用户可以通过电话用自然语言与系统进行交互,进行旅游预约、股票交易、 银行服务、订票服务、宾馆服务和寻呼服务等,由于系统是自动的,无需服务人员的介 2 太原理工大学硕士研究生学位论文 入。目前市场上出现了语音识别电话、语音识别记事本等产品,如美国v p t c 公司的v o i c e o r g a n i z e r 和法国的p a r r o t 等。 我国语音识别研究工作一直紧跟国际水平,国家也很重视,并把大词汇量语音识别 的研究列入“8 6 3 ”计划,由中科院声学所、自动化所及北京大学等单位研究开发,取 得了高水平的科研成果,如中科院自动化所研制的非特定人、连续语音听写系统和汉语 语音人机对话系统,其字准确率或系统响应率可达9 0 以上。鉴于中国未来庞大的市场, 国外也非常重视汉语语音识别的研究。美国、新加坡等地聚集了一批来自大陆、台湾、 香港等地的学者,研究成果已达到相当高水平。 1 1 3 目前语音识别面临的困难 尽管语音识别的研究已有半个世纪了,但现有的语音识别系统仍存在许多困难,还 远远达不到实用化的要求主要表现在州4 m ; ( 1 ) 鲁棒性:目前的语音识别系统对环境条件的依赖性强,要求保持测试条件和训 练条件一致,否则系统性能会严重下降。 ( 2 ) 噪声问题:现有的语音识别系统大多只能工作在安静的环境下,一旦在噪声环 境下工作,讲话人产生情绪或心理上的变化,导致发音失真、发音速度和音调改变,即 产生l o m b a r d 效应或l o u d 效应。常用的抑制噪声的方法,可以概括为四个方面:谱减 法、环境规整技术、不修正语音信号而是修正识别器模型使之适合噪声、建立嗓声模型。 ( 3 ) 语音识别基元的选择:如何根据存贮空间和搜索速度的要求,选择合适的识别 单元,如词、音节、音素。一般来讲,要识别的词汇量越多,所用的基元应越小越好。 ( 4 ) 端点检测:研究表明,即使在安静盼环境下,语音识别系统半以上的识别错 误来自端点检测器。提高端点检测技术的关键在于寻找稳定的语音参数。 ( 5 ) 韵律信息的利用:韵律信息指的是说话之中的重音、语调等超音段信息。实验 表明,人可以从说话的韵律中获取很多重要信息。但目前的语音识别系统却忽略了韵律 信息。因此,如何在语音识别中结合韵律信息还有待进一步的研究。 因为汉语自身的特点,使得汉语的语言信息处理比西方语言更为困难和复杂,主要 表现在:汉语的大字符集影响了汉字的快速输入;汉语的字词不分使得词的切分成为汉 语语言理解与处理独有和首要的问题;大量的同音字、词给语音识别带来困难;灵活自 由的语言表达难以用汉语语言知识表示方法来表达。 3 太原理工大学硕士研究生学位论文 1 2h m m 和遗传算法 隐马尔可夫模型”1 ( 删) 是对语音信号的时间序列结构建立统计模型,将之看作一 个数学上的双重随机过程:一个是用具有有限状态数的m a r k o v 链来模拟语音信号统计 特性变化的隐含的随机过程,另一个是与m a r k o v 链的每一个状态相关联的观测序列的 随机过程。前者通过后者表现出来,但前者的具体参数是不可测的。人的言语过程实际 上就是一个双重随机过程,语音信号本身是一个可观测的时变序列,是由大脑根据语法 知识和言语需要( 不可观测的状态) 发出的音素的参数流。可见,h m m 合理地模仿了这一 过程,很好地描述了语音信号的整体非平稳性和局部平稳性,是较为理想的一种语音模 型。 采用h 删进行语音识别,实质上是一种概率运算。根据训练集数据计算得出模型参 数后,测试集数据只需分别计算各模型的条件概率( v i t e r b i 算法) ,取此概率最大者即 为识别结果。由于马尔可夫过程各状态间的转移概率和每个状态下的输出都是随机的, 故这种模型更能适应语音发音的各种微妙的变化,使用起来比模板匹配方法灵活的多。 除训练时需运算量较大外,识别时的运算量仅有模式匹配法的几分之一。此模型七十年 代初首先用于c 删( 卡内基一梅隆大学) 研制的d r a g o n 系统中,此后又有了很大发展, 七十年代以来,使用h m m 的系统都取得了很高的识别率。 遗传算法最初是由美国m i c h i g a n 大学的j o h nh o l l a n d 提出并研究的。它从试图 解释自然系统中生物的复杂适应过程入手,模拟生物进化的机制来构造人工系统的模 型。随后经过二十多年的发展,取得了丰硕的应用成果和理论研究的进展,特别是近年 来世界范围形成的进化计算的热潮,使遗传算法受到了更为广泛的关注。遗传算法提供 了一种求解复杂系统优化问题的通用框架,它不依赖于问题的具体领域,对问题的种类 有很强的鲁棒性,广泛地应用于函数优化、模式识别、自动控制等领域f 它具有全局搜 索能力强、收敛速度快、容易实现的优点。 遗传算法模拟达尔文的遗传选择和自然淘汰的生物进化过程的计算模型,是一种具 有“生存+ 检测”的迭代过程的搜索算法。它以一种群体中的所有个体为对象,并利用 随机化技术指导对一个被编码的参数空间进行高效搜索。其中,选择、交叉和变异构成 了遗传算法的遗传操作;参数编码、初始群体的设定、适应度函数的设计、遗传操作设 计、控制参数设定五个要素组成了遗传算法的核心内容。作为一种新的全局优化搜索算 4 太原理工大学硕士研究生学位论文 法,遗传算法以其简单通用、稳定性强、适于并行处理以及高效、实用等显著特点,在 各个领域得到了广泛应用,取得了良好效果,并逐渐成为重要的智能算法之一。曾经有 人这样说:只要是要求寻优的地方,都可以用上遗传算法。虽然这样有点夸张但是也可 以从中看出它应用的广泛性。 目前,遗传算法已成为国际上跨学科的热门研究课题,以遗传算法为核心的进化算 法已与模糊集理论、人工神经网络等一起成为计算智能研究中的热点,受到众多学科和 领域的关注。 h m m 训练方法( b a u mw e l c h 算法) 本质上是一种梯度下降方法,在训练过程中有 可能到达局部最小值。因此,初值的选取比较重要,好的初值可以避免局部极小问题。 我们可以加入一定的优化方法来选取初值( 如可采取遗传算法在某个初值设定区间中选 取一组最优参数作为初值,再用b a u mw e l c h 算法进行训练) 。 1 3 本文研究内容及章节安排 本文围绕h m m 在训练时有可能达到局部最小值的问题,引入遗传算法来优化模型的 初值,从而得到较优的模型。 本文共分6 章: 第一章是绪论。对语音识别技术的发展和应用,包括h 删和遗传算法在语音识别方 面的应用进行了综述,并对语音识别技术目前所面临的困难和论文的结构安排进行了介 绍。 第二章主要介绍了语音识别系统的主要技术。从一个典型的语音识别系统出发,介 绍了语音识别的基本原理,并简单介绍了预处理、特征提取、模式匹配及模型训练技术 各部分的主要实现方法。 第三章介绍了遗传算法的基本原理及其应用技术,包括模式定理以及参数编码、适 应度函数、操作算子设计、控制参数等四个方面的应用技术。 第四章为隐马尔可夫模型用于语音识别的研究。删是一种用于语音识别的经典算 法,论文中详细介绍了h 删的三个问题及其求解方法,并分析了其与遗传算法相结合的 可能性。 第五章为用遗传算法改进h 删的语音识别算法研究。介绍了遗传算法的步骤、设计 以及具体的实现方法,并将其应用于h m m 初值b 的优化中,从而得到更优的模型,提高 太原理工大学硕士研究生学位论文 了语音识别系统的识别率。 第六章是总结与展望。对论文工作进行总结,并提出了论文下一步的工作及课题改 进方案。 6 太原理工大学硕士研究生学位论文 第二章语音识别基本原理与技术 语音识别以语音为研究对象,它是语音信号处理的个重要研究方向,是模式识别 的一个分支,涉及到生理学、心理学、语言学、计算机科学,以及信号处理等诸多领域, 其最终目的是实现人与机器进行自然语言通信,用语言操纵计算机。 。 语音识别系统的分类方式及依据是根据对说话人说话方式的要求,可以分为孤立字 ( 词) 语音识别系统,连接字语音识别系统,以及连续语音识别系统。进一步分为两个方 向”1 :一是根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统;二是根 据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量,以及无限词汇量语音识别 系统。 不同的语音识别系统,尽管设计和实现的细节不同,但所采用的基本技术是相似的。 一个典型的语音识别系统如图2 - 1 所示: 图2 1 典型语音识别系统的框图 f i g u r e 2 - - 1 b l o c k d i a 粤 a m o f t h e t y p i c a l s p e e c h r e c o g n i t i o n s y s t e m ( 1 ) 语音识别单元的选取 选择识别单元是语音识别研究的第一步,语音识别单元有单词( 旬) 、音节和音素三 种,具体选择哪一种,由具体的研究任务决定。 单词( 句) 单元广泛应用于中小词汇语音识别系统,不适合大词汇系统,原因在于模 型库太庞大,训练模型和模型匹配算法复杂,难以满足实时性要求。 音节单元多见于汉语语音识别,因为汉语是单音节结构的语言,若不考虑声调,约 有4 0 8 个无调音节,数量相对较少。因此,对于中、大词汇量汉语语言识别系统来说, 以音节为识别单元基本是可行的。 音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识别系 7 太原理工大学硕士研究生学位论文 统也在越来越多地采用。原因在于汉语音节仅由声母( 包括零声母有2 2 个) 和韵母( 共有 2 8 个) 构成,且声韵母声学特性相差很大。实际应用中常把声母依后续的不同而构成细 化声母,这样虽然增加了模型数目,但提高了易混淆音节的区分能力。由于协同发音的 影响,音素单元不稳定,所以如何获得稳定的音素单元,还有待研究。 ( 2 ) 特征参数提取技术 语音信号中含有丰富的信息,但如何从中提取出对语音识别有用的信息呢? 特征提 取就是完成这项工作,它对语音信号进行分析处理,去除对语音识别无关紧要的多余信 息,获得影响语音识别的重要信息。对于非特定人语言识别来讲,希望特征参数尽可能 多的反映语义信息,尽量减少说话人的个人信息( 对特定人语音识别来讲,则相反) 。从 信息论角度讲,这是信息压缩的过程。 线性预测( l p ) 分析技术是应用广泛的特征参数提取技术,许多成功的应用系统都采 用基于l p 技术提取的倒谱参数。但线性预测模型是纯数学模型,没有考虑人类听觉系 统对语音的处理特点。m e l 参数和基于感知线性预测( p l p ) 分析提取的感知线性预测倒 谱,在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的一些研究 成果。实验证明采用这种技术,语音识别系统的性能有一定提高。 ( 3 ) 模式匹配及模型训练技术 模型训练是指按照一定的准则,从大量已知模式中获取该模式本质特征的模型参 数,而模式匹配则是根据一定准则,使未知模式与模式库中的某一个模式获得最佳匹配。 2 1 信号预处理 在信号处理系统里,对原始信号进行预处理是必要的,这样可以保证系统获得一个 比较理想的处理对象。在语音识别系统中,语音信号的预处理主要包括抗混叠滤波、预 一加重及端点检测1 们等内容。 2 1 1 抗混叠滤波与预加重 研究表明,语音信号的频谱分量主要集中在2 0 0 3 4 0 0 h z 的范围内。因此需用一个 防混叠的带通滤波器将此范围内的语音信号的频谱分量取出,然后对语音信号进行采 样, 导到离散的时域语音信号。根据取样定理,如果模拟信号的频谱的带宽是有限的( 例 如,不包含高于厶的频率成分) ,那么用等于或高于2 厶的取样频率进行取样,则所得 8 太原理工大学硕士研究生学位论文 到的信号能够完全唯一的代表原模拟信号,或者说能够由取样信号恢复出原始信号。实 际应用中,大多数情况选用8 k h z 的取样频率。尽管如此必须顾及到语音信号本身包含 着4 k h z 以上频率成分这样一个事实。即使有的语音的频谱能量主要集中在低频段,但 由于噪声环境的宽带随机噪声叠加的结果。使得在取样之前,语音信号总包含着4 k h z 以上的频率成分。因此,为了防止混叠失真和噪声干扰,必须在取样前用一个锐截止模 拟低通滤波器对语音信号进行滤波。该滤波器称为反混叠失真滤波器或去伪滤波器。 语音从嘴唇辐射会有6 d b o c t 的衰减,因此在对语音信号进行处理之前,希望能按 6 d b o c t 的比例对信号加以提升( 或加重) ,以使得输出的信号电平相近似。当用数字电 路来实现6 d b o c t 预加重时,可采用以下差分方程所定义的数字滤波器: y ( 力= 善( 疗) 一n x ( 押一1 ) ( 2 1 ) 式中,系数口常在0 9 至l 之间选取。 , 2 1 2 端点检测 语音信号起止点的判别是任何一个语音识别系统必不可少的组成部分。因为只有准 确的找出语音段的起始点和终止点,才有可能使采集到的数据是真正要分析的语音信 号,这样不但减少了数据量、运算量和处理时问,同时也有利于系统识别率的改善。常 用的端点检测方法有下面两种。 ( 1 ) 短时平均幅度 端点检测中需要计算信号的短时能量,由于短时能量的计算涉及到平方运算,而平 方运算势必扩大了振幅不等的任何相邻取样值之间的幅度差别,这就给窗的宽度选择带 来了困难,因为必须较宽的窗才能对取样间的平方幅度起伏有较好的平滑效果,然而又 可能导致短时能量反映不出语音能量的时变特点。而用短时平均幅度来表示语音能量, 在一定程度上可以克服这个弊端。 短时平均幅度定义如下: 式中,h f m ) = w ( n - m ) i 。 m n = i x ( m ) w ( n - m ) i ( 2 2 ) k i n = l x ( 驯b ( 以一m ) 9 ( 2 3 ) 太原理工大学硕士研究生学位论文 即用移动窗 ( ,l m ) 选取出语音信号,然后计算该语音取样值的绝对值的和,便得 到该段语音的平均幅度。或者,用移动平均窗 一肌) 选取语音信号绝对值序列中的一 段,并将各取样值求和,也能得到短时平均幅度。 通常所用的移动窗为矩形窗和汉明窗,它们分别定义为: 矩形窗: 帕,= :。瓣1 亿a , 汉明窗: = o 5 4 却4 6 譬2 训肛d m 凳器1 c z s , ( 2 ) 短时平均过零率 当离散信号的相邻两个取样值具有不同的符号时,便出现过零现象,单位时间内过 零的次数叫做过零率。如果离散时间信号的包络是窄带信号,那么过零率可以比较准确 的反应该信号的频率。在宽带信号情况下,过零率只能粗略的反映信号的频谱特性。 短时平均过零率的计算方法是:首先用一个移动窗“万一m ) 选取出位于玎时刻的语 音段,然后计算出该时段的过零率总数,并除以该时段的长度。若采用矩形窗,设窗的 宽度为n ,这时的短时平均过零率可用下式计算: 弘l 薹l s g n x ( m ) w ( n - m ) - s g n x ( m - 1 ) w ( n - m + 1 ) i ( 2 6 ) 2 去互脚咖) 一s 驴瞰一1 ) 】叫) 式中 州= :。黯1 ( 2 ,) l1 工( 所) 0 s g n x ( m ) = 0 x ( m ) = o ( 2 8 ) 【- 1x ( 珊) 0 2 2 语音识别中的特征提取 语音识别的首要步骤是特征提取,有时也称为前端处理,与之相关的内容则是特征 1 0 太原理工大学硕士研究生学位论文 间的距离度量。所谓特征提取,即对不同的语音寻找其内在特征,由此来判别出未知语 音,所以每个语音识别系统都必须进行特征提取。特征的选择对识别效果至关重要,选 择的标准应体现肘异音字之间的距离尽可能大,而同音字之间的距离应尽可能小。若以 前者距离与后者距离之比为优化准则确定目标量,则应是该量最大。同时,还要考虑特 征参数的计算量,应在保持高识别率的情况下,尽可能减少特征维数,以减小存储要求 和利于实时实现。 孤立单词语音识别系统的特征提取一般需要解决两个问题,一个是从语音信号中提 取( 或测量) 有代表性的合适的特征参数( 即选取有用的信号表示) ;另个是进行适当的 数据压缩。而对于非特定人语音识别来讲,则希望特征参数尽可能多的反映语义信息, 尽量减少说话人的个人信息( 对特定人语音识别来讲,则相反) 。从信息论角度讲,这也 是信息压缩的过程。 语音信号的特征主要有时域和频域州伽两种。时域特征如短时平均能量、短时平 均过零率、共振峰、基音周期等;频域特征有线性预测系数( l p c ) 、l p 倒谱系数( l p c c ) 、 线谱对参数( l s p ) 、短时频谱、m e l 频率倒谱系数o v f f c c ) 等。现在还有结合时间和频率 的特征,即时频谱,充分利用了语音信号的时序信息。基于听觉模型的特征参数提取, 如感知线性预测( p l p ) 分析,试图从不同于声道模型的另一个方面进行研究。所有这些 特征都只包含了语音信号的部分信息。为了充分表征语音信号,人们尝试综合各种特征, 并取得了一定的效果。但由于目前语音识别分类器的限制和数学模型描述的局限性,人 们尚未充分利用已有的部分信息,于是特征的变换与取舍、特征时序信息的使用等成了 重要的研究课题。有关特征研究的另外一个重要方面是特征的抗噪声性能,由于语音识 别的最终目标是在现实世界中使用,背景噪音的干扰成为不可忽视的因素,因此必须研 究一种方法,使得特征的提取尽可能不受噪音的影响。下面介绍几种特征提取方法: ( 1 ) 线性预测系数( l p c ) 线性预测分析从人的发声机理入手,通过对声道的短管级联模型的研究,认为系统 的传递函数符合全极点数字滤波器的形式,从而某一时刻的信号可以用前若干时刻的信 号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间达到均方误差 ( m s e ) 最小,即可得到线性预测系数l p c 。 根据语音产生的模型,语音信号s ( z ) 是一个线性非移变因果稳定系统矿( z ) 受到信 号e ( z ) 激励产生的输出。在时域中,语音信号j ( ,1 ) 是该系统的单位取样响应v ( 刀) 和激 太原理工大学硕士研究生学位论文 励信号p ( 彬的卷积。语音产生的声道模型在大多数情况下是一个可用式( 2 9 ) 阐述的全极 点模型: ( 2 9 ) 根据最小均方误差对该模型参数a ,进行估计,就得到了线性预测编码( l p c ) 算法, 求得的玩即为l p 系数0 为预测器阶数) 。对l p c 的计算方法有自相关法( 杜宾d u r b i n 法) 、协方差法、格型法等等。计算上的快速有效保证了这一声学特征的广泛使用。 ( 2 ) l p c 倒谱系数 倒谱 q 是信号的z 变换的对数模函数的反z 变换,一般通过信号的傅里叶变换, 取模的对数,再求反傅里叶变换得到。既然线性预测也是一种参数谱估计方法,而且其 系统函数的频率响应h ( e 一) 反映了声道的频率响应和被分析信号的谱包络,因此用 l 0 9 1 日( p 皿) l 作反傅里叶变换求出的倒谱系数,应该是种描述信号的良好参数。主要 优点是比较彻底的去掉了语音产生过程中的激励信息,主要反映声道响应,而且往往只 需要几个倒谱系数就能够很好的描述语音的共振峰特性。 基于l p c 分析的倒谱系数可以用下面的公式来求得: g = q + k q a _ k n k = l n - i + k c k a _ j n k - n - p 对于倒谱特征矢量( 设为工维) 的谱失真测度,通常用欧几里得距离来定义: 上 ( 印。) = ( 一) 2 1 1 = 1 ( 2 1 1 ) 这种测度与人耳的听觉是近似相符的。 基于l p c 的倒谱系数有很好的内插性能,对于矢量量化或聚类分析都十分方便。虽 然它是由l p c 系数递推得到的,但它在倒频域做了截短,相当于在频域进行了倒谱窗平 滑,使振峰展宽了,因此不再是线性预测系数的等价参数。 ( 3 ) m e l 频率倒谱系数 0 2 - i i 印 稽 i v i 疗 太原理工大学硕士研究生学位论文 m e 频率倒谱系数首先将信号频谱的频率轴转变为m e l 刻度,再变换到倒谱域得到 的倒谱系数。其计算过程如下: 将信号进行短时傅立叶变换得到其频谱。 求频谱幅度的平方,即能量谱,并用一组三角滤波均衡器在频域对能量进行带通滤 波。这组带通滤波器的中心频率是按m e l 频率刻度均匀排列的( 间隔1 5 0 m e l ,带宽 3 0 0 m e l ) ,每个三角滤波器的中心频率的两个底点的频率分别等于相邻的两个滤波 器的中心频率,即每两个相邻的滤波器的过渡带互相搭接,且频率响应之和为1 。 滤波器的个数通常与临界带数相近,设滤波器数为肼,滤波后得到的输出为: j ( 七) ,k = l ,2 , - - - m 对滤波器的输出取对数,然后作2 m 点逆傅立叶变换即可得到m f c c 。由于对称性, 此变换式可简化为: f q = l o g x ( k ) c o s ( k 一0 5 ) n m n = l 2 ( 2 1 2 ) t l 这里,m f c c 系数的个数三通常取最低的1 2 1 6 。在谱失真测度定义中通常不用o 阶倒谱系数,因为它是反映倒谱能量的。上面所说的在频域进行带通滤波是对能量谱进 行滤波,这样做的根据是考虑到一个多分量信号的总能量应该是各个正交分量的能量之 和。 ( 4 ) z c p 特征 特征参数的好坏直接决定着系统的识别性能。要想使识别系统有好的鲁棒性,必须 要求提取的特征参数有很强的抗噪性。经典的特征参数如l p c c ,m f c c 在无嗓音环境 下都取得了相当好的效果,但在噪音环境下,系统的识别率会显著下降。近年来,基于 听觉模型的语音特征提取方法在语音识别领域日益受到重视,这是因为听觉模型最接近 人耳对声音信号的处理过程,提取的特征最能反映声音的本质,具有很好的鲁棒性。前 面介绍的m e l 频率倒谱系数( m f c c ) 虽然也是基于人耳听觉特性,但它并没有充分利用 这种听觉特性,而l p c c 是基于声管模型的一种参数,在噪音环境下性能更差。我们知 道人类的听觉系统在噪音环境下能够很好工作,所以如果语音识剐系统能模拟人类听觉 感知的处理特点,噪音环境下识别率一定会显著提高。 基于这种想法,文献 1 4 】提出了一种新的特征参数:过零率与峰值幅度特征 ( z e r o - c r o s s i n g sw i t hp e a k - a m p l i t u d e s ,简称z c p a 特征) 。这种特征提取方法就是完全 太原理工大学硕士研究生学位论文 基于人类听觉特性的一种方法,它从物理意义上模仿了人耳听觉处理过程。首先来介绍 一下人耳对声音信号的处理过程。 人耳由外耳、中耳、内耳三部分构成。语音信号在外耳的耳膜上转化为机械振动, 通过中耳传递到内耳的耳蜗上,中耳充当外耳和内耳的匹配阻抗。而语音信号的主要处 理任务是在内耳中进行的,尤其是在内耳的耳蜗中进行的。耳蜗中的基底膜对外来的声 音信号有频率选择和调谐的作用,在耳蜗基部通过前庭窗传递来的语音信号被转化为基 底膜的行波,沿基底膜传播,其峰值出现在基底膜的不同位置。频率越低,振动峰值位 置越靠近蜗孔,随频率增高,该峰值越靠近基底膜根部。约8 0 0 h z 以上,声音频率沿 基底膜按对数分布。其位移和频率的关系可用( 2 1 3 ) 式表示: f = a ( 1 0 4 1 ) ( 2 1 3 ) 其中f 是频率( h z ) ,工是基底膜的归一化距离,彳和口是常数,分别为a = 1 6 5 4 、口= 2 1 。 在听觉系统中耳蜗对声音的感受和换能作用是整个复杂的听觉系统中非常重要的 一个环节,同时耳蜗具有串并转换器的功能,它实际上相当于一组并联的带通滤波器, 串行输入的声音信号在耳蜗中被分解并以多路并行的方式输出。这样为仿真耳蜗滤波器 的模型提供了一定的依据。图2 - 2 给出了基于人耳听觉特性的z c p a 特征提取原理图: 图2 - 2 z c p a 私l 原理框图“” f i g u r e2 - 2 z c p as y s t e md i a g r a m 该系统由带通滤波器组、过零检测器、峰值检测器、非线性压缩和频率接收器组成。 带通滤波器组由1 6 个f i r 滤波器组成,用来仿真耳蜗基底膜;过零检测器、峰值检测 器、非线性压缩部分则仿真听觉神经纤维。从过零检测器获得频率信息,峰值检测器获 得强度信息,经非线性压缩后,用频率接收器合成频率信息和强度信息,最后将1 6 路 1 4 太原理工大学硕士研究生学位论文 所获得的信息合成为语音信号的特征。分析表明:在噪声存在的倩况下,随着门限值的 提高,门限跨越的间隔扰动也变得越大,此时过零率就显得更具有鲁棒性,因此它能够 提供一种较好的用于噪声环境下的语音信号表示方法。z c p a 模型的运作原理与传统的 信号处理方案有显著的不同,它需要测量信号在个时间段内的瞬时频率和强度信息, 并在随后需要进行一个时域信息的积累操作以获取最终输出。 2 3 模式匹配及模型训练技术 模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型 参数,而模式匹配则是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹 配。 语音识别系统的第二级是建立声学模型与模型匹配。首先通过学习算法,将训练语 音的特征通过学习过程形成声学模型。声学模型是语音识别系统中最底层的模型并且也 是识别系统最关键的一部分。声学模型的目的是提供一种有效的方法计算语音的特征矢 量系列与每个发音模板的距离,因为发音在每个时刻

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论