(电路与系统专业论文)基于map的口令识别系统的实现.pdf_第1页
(电路与系统专业论文)基于map的口令识别系统的实现.pdf_第2页
(电路与系统专业论文)基于map的口令识别系统的实现.pdf_第3页
(电路与系统专业论文)基于map的口令识别系统的实现.pdf_第4页
(电路与系统专业论文)基于map的口令识别系统的实现.pdf_第5页
已阅读5页,还剩76页未读 继续免费阅读

(电路与系统专业论文)基于map的口令识别系统的实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

iiipipiiiiiii l r l l lli i i i if i l l i t l liii iif y 2 12 5 4 4 0 u n i v e r s i t yo fs c i e n c ea n dt e c h n o l o g yo fc h i n a ad i s s e r t a t i o nf o rm a s t e r sd e g r e e r e s e a r c ho nt h es ! h s e a r c h0 nt h e p e e c h p a s s w o r dr e c o g n i t i o ns y s t e m b a s e donm a p a u t h o r sn a m e :h u a ji a ns i s p e c i a l i t y : s u p e r v i s o r : ” 11 tl n l s h e dt l m e : c i r c u i t sa n ds y s t e m s a p r o f h u il i m a y1 吼,2 0 12 中国科学技术大学学位论文原创性声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成 果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰写 过的研究成果。与我一同工作的同志对本研究所做的贡献均己在论文中作了明确 的说明。 作者签名:嘏签字日期:护垡墨垒 中国科学技术大学学位论文授权使用声明 作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学拥 有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交 论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入中国学 位论文全文数据库等有关数据库进行检索,可以采用影印、缩印或扫描等复制 手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内容相一致。 保密的学位论文在解密后也遵守此规定。 口公开口保密( 年) 作者签名:邀建 签字日期:丕望:主:三旦 导师签名: 签字日期: 么丝 一 摘要 摘要 非特定人( s p e a k e ri n d e p e n d e n t ,s i ) 语音识别系统在科研人员的努力下获得了 令人满意的性能,逐步进入实用阶段,但是系统的识别性能仍然不能与特定人 ( s p e a k e rd e p e n d e n t ,s d ) 语音识别系统的性能相媲美,关键的问题就在于非特定 人识别系统对某个使用者的识别正确率不能满足实用化的要求,那是因为不同说 话人语音的差异造成的,这也是非特定人识别系统走向实用化必须要解决的问 题。因此语音识别自适应技术具有很重要的意义。 本文以分析不同说话人语音之间的差异为起点,讨论了目前说话人自适应的 常用方法。对目前语音识别主要的自适应方法:基于最大后验概率( m a p ) 的自适 应方法和最大似然线性回归( m l l r ) 自适应方法进行了深入的分析和实验验证, 并对他们的主要参数和实现方式进行了实验和讨论。最后对比实验证明,这两种 自适应方法都取得了令人满意的效果,并分析了他们各自的优点和不足。 在综合讨论和实验验证的基础上,实现了一个具有自适应功能的中等词汇 量的口令识别系统,使用的是m a p 算法,该方法的优点是利用了参数的先验知 识,理论推导表明,这种方法可以使非特定人识别系统的模型参数向特定人识别 系统的模型无限接近,具有渐进性,适合中小词汇量的语音识别系统。同时也对 语音参数类型进行选择,参数的提取,语音信号的降噪处理等关键技术的运用进 行了详细的说明和验证,并通过实验对隐马尔可夫模型的状态数和混合度的选取 对系统性能的影响进行了分析。最后建立专门的语料库,对系统的性能进行验证, 结果表明,使用了m a p 自适应后系统识别率从平均的5 0 大幅提高到平均的 9 0 。实验证明m a p 白适应在中小词汇量口令识别系统中是非常有效的。 主要做的工作总结如下:( 1 ) 实现基于最大后验概率的说话人自适应方法。 ( 2 ) 实现基于最大似然线性回归方法的说话人自适应方法。( 3 ) 实现基于隐马尔可 夫模型的口令识别系统,系统使用了最大后验概率的自适应方法。 摘要 关键词:语音识别自适应最大后验概率最大似然线性回归口令识别系统 i i a b s t r a c t a bs t r a c t i nt h ec u r r e n t ,t h er e s e a r c ho ft h es p e a k e ri n d e p e n d e n ts p e e c hr e c o g n i t i o ns y s t e m h a so b t a i n e dr e m a r k a b l ep r o g r e s s ,a n dt h es y s t e mg r a d u a l l ye n t e r st h ep r a c t i c a ls t a g e b u tc o m p a r e dw i t ht h es p e a k e rd e p e n d e n ts p e e c hr e c o g n i t i o ns y s t e m ,t h ep e r f o r m a n c e i ss t i l lab i gg a p t h em a i nr e a s o nf o rt h i si s s u ei st h ed i f f e r e n c eo ft h es p e a k e r s s p e a k e ri n d e p e n d e n ts p e e c hr e c o g n i t i o ns y s t e mm u s to v e r c o m et h i sm i s m a t c hs ot h a t c a ni m p r o v et h e a c c u r a c yr a t e t o p r a c t i c a la p p l i c a t i o n s s os p e e c hr e c o g n i t i o n a d a p t a t i o nt e c h n o l o g yh a sv e r yi m p o r t a n ts i g n i f i c a n c e t h i sp a p e ra n a l y z e st h ea c o u s t i c a lv a r i a t i o n sb e t w e e nt h ed i f f e r e n ts p e a k e r sa s i t ss t a r t ,t od i s c u s st h ev a r i o u sm e t h o d so fs p e a k e ra d a p t a t i o n t h ep a p e rc o n d u c t e d i n d e p t ha n a l y s i s a n de x p e r i m e n t a lv e r i f i c a t i o nt w oc l a s s i c a ls p e a k e ra d a p t a t i o n m e t h o d s :m a x i m u map o s t e r i o r i ( m a p ) a n dm a x i m u ml i k e l 砌o o dl i n e a rr e g r e s s i o n ( m l l r ) ,a n dd i s c u s st h e i rm a i np a r a m e t e r sa n di m p l e m e n t a t i o n ,a n da n a l y s i so f t h e i r s t r e n g t h sa n dw e a k n e s s e s e x p e r i m e n t a lr e s u l t ss h o wt h a tt h e s et w om e t h o d sw o r k w e l li ns p e a k e ra d a p t a t i o na tl a s t o nt h eb a s i so ft h ed i s c u s s i o na n de x p e r i m e n t a lv e r i f i c a t i o n ,i m p l e m e n ta m e d i u mv o c a b u l a r yp a s s w o r di d e n t i f i c a t i o ns y s t e m ,t h i ss y s t e m u s em a rt h e a d v a n t a g eo fm a pi su s i n gt h ep r i o r ik n o w l e d g eo ft h ep a r a m e t e r , h a v i n g t h e t h e o r e t i c a lo p t i m a la n db e t t e rc o n s i s t e n c np r o g r e s s i v e i ti s s u i t a b l ef o rs m a l la n d m e d i u mv o c a b u l a r ys p e e c hr e c o g n i t i o ns y s t e m a tt h es a m et i m e ,w ed e t a i l e d d e s c r i b ea n dv e r i f yt h eu s eo fk e yt e c h n o l o g i e s :t h ec h o i c eo ft h e t y p e ,p a r a m e t e re x t r a c t i o n ,n o i s er e d u c t i o nm e t h o da n ds oo n w ea n a l y z e t h es t a t u s n u n :内e ra r l dt h em i x t u r eo ft h eh i d d e nm a r k o vm o d e l ( h m m ) i m p a c t i n g o nt h es y s t e m p e r f o r m a n c e a tl a s t ,w eb u i l ds p e c i a ls p e e c h d a t a b a s ea n dv e r i f yt h ep e r f o r m a n c eo f t h es y s t e m t h er e s u l t ss h o wt h a tm a pa d a p t a t i o nm e t h o di m p r o v i n gt h ea c c u r a c y i i i a b s t r a c t f r o mf i f t yp e r c e n tt on i n e t yp e r c e n ta tt h ea v e r a g el e v e l s om a pa d a p t a t i o nm e t h o di s v e r ye f f e c t i v ei nm e d i u mv o c a b u l a r yp a s s w o r di d e n t i f i c a t i o ns y s t e m t h em a i nw o r ki ss u m m a r i z e da sf o l l o w s :( 1 ) i m p l e m e n tm a pa d a p t a t i o n m e t h o d ( 2 ) i m p l e m e n tm l l ra d a p t a t i o nm e t h o d ( 3 ) i m p l e m e n t am e d i u m v o c a b u l a r yp a s s w o r di d e n t i f i c a t i o ns y s t e m ,i tu s e sm a pa d a p t a t i o nm e t h o d k e yw o r d s :s p e e c hr e c o g n i t i o n ,a d a p t a t i o n ,m a x i m u m ap o s t e r i o r i ,m a x i m u m l i k e l i h o o dl i n e a rr e g r e s s i o n ,p a s s w o r di d e n t i f i c a t i o ns y s t e m i v 目录 目录 摘要i a b s t i 认c t i i i 第一章引言1 1 1 语音识别概述1 1 1 1 语音识别的分类3 1 1 2 语音识别原理及系统的组成3 1 1 3 语音识别所面临的主要问题4 1 2 说话人差异5 1 3论文主要的研究内容和章节安排6 第二章语音信号的分析7 2 1 语音信号的产生机理7 2 2 语音信号的数字化与预处理9 2 2 1 语音信号的数字化9 2 2 2 语音信号的预处理1 0 2 3 语音信号的特征提取1 1 2 3 2 线性预测倒谱参数l p c c 1 2 2 3 3m e l 频率倒谱参数m f c c 1 3 2 3 4l p c c 与m f c c 的比较1 6 2 4 本章小结1 6 第三章语音识别的常用模型1 7 3 1 动态时间规整1 7 3 2 高斯混合模型18 3 3 隐马尔可夫模型2 2 3 3 1h m m 的基本概念2 2 3 3 2 概率的评估:前向、后向算法2 4 v 目录 3 3 3 最优状态序列的计算:v i t e r b i 算法2 6 3 3 4 参数估计:b a u m w e l c h 训练算法2 7 3 4 本章小结2 9 第四章语音识别自适应技术3 1 4 1语音识别自适应方法概述3 2 4 2m a p 自适应方法3 5 4 3m l l r 自适应方法4 0 4 3 1 参数的估计4 l 4 3 2 语音特征空间的划分4 5 4 。4m a p 与m l l r 的性能4 9 4 4 1m a p 的性能和关键参数的选取4 9 4 4 2m l l r 性能和变换类的数量对性能的影响5 0 4 4 3m a p 与m l l r 的对比试验5 1 4 5 本征音自适应5 3 4 。5 。1 投影方法5 4 4 5 2 基于最大似然的本征分解方法5 4 4 6 本章小结5 6 第五章基于m a p 的口令识别系统的实现5 7 5 1 语料库5 7 5 2 系统的组成和原理5 7 5 3 系统性能6 3 5 4 本章小结6 4 参考文献6 7 致谢7 1 在读期间发表的学术论文与取得的其他研究成果7 3 v i 第一章引言 第一章引言 自从人类进入信息时代以来,我们都有一个愿景,让机器具有“听”、“说 人类语言的能力,随着科学技术的发展,我们正加快步伐向这一伟大时刻迈进。 语音识别的目的就是研究怎么样才能让各种机器理解人类语音的内容,明白人想 要机器做什么,进而实现自动化和智能化。是一个非常具有应用前景的研究方向。 1 1 语音识别概述 语音识别,是自动语音识别( a u t o m a t i cs p e e c hr e c o g n i t i o n ,a s r ) 的一种简 明的说法,它的意思就是机器从人的话语当中提取出能表征语音的特征信息,然 后确定话语中隐含的意义的过程,机器就根据这些信息,理解人的各种想法和目 的。语音识别是个复杂的课题,它综合了很多学科的理论成果,是一个多学科交 叉的技术,如:声学,语言学,数学建模,信号处理,计算机应用,模式识别和 人工智能等。随着语音研究的深入和发展,语音识别技术的实用化更上一层楼, 应用到许多领域,如在信息处理、自动控制等领域有着很广泛的应用。几乎涉及 日常生活的方方面面,在人们的眼中是一个神秘的技术,其实我们几乎每天都在 使用它,如手机的自动拨号功能,银行和通信领域的呼叫导航系统,都是我们每 天都需要使用的东西。特别是苹果公司的s i r i 语音识别系统的出现,将语音技 术的魅力展现在普通大众的面前,让大家对语音识别有了更多的了解和期待,因 此语音技术会是下一个信息技术发展的核心,不远的将来一定能改变人们的生活 方式和社会活动 1 ,2 ,我相信在不远的将来,只有在科幻电影里面出现的场景 必会走到我们身边。 语音识别技术的发展起始于上世纪五十年代,a t & tb e l l ( 贝尔) 实验室成功 研制了世界上第一个语音识别系统a u d r y 3 ,该系统能让计算机识别1 0 个英文 数字,系统识别词汇虽然比较少,但是这是一个重要的里程碑,这标志着语音识 别技术的出现。 六十年代的计算机的出现和发展推动了语音技术的发展。随着集成电路的技 术的飞速发展,计算机技术也更加的小型化,性能也成几何速度提上,使得普通 的研究人员都能够对语音信号进行数字化的研究,研究的人数逐渐扩大。四十年 代,w i e n e r 提出的线性预测( l p ,l i n e a rp r e d i c t i v e ) 技术在六十年代年被研究人员 引入到语音信号处理当中。掀起了一个热潮,线性预测技术被更加深入的应用的 语音信号处理的方方面面,它是一个很成功且是第一个实用化的语音分析技术。 第一章引言 它的成功之处就在于解决了提取语音信号参数,提供了一种提取参数的方法和技 术,使人们对语音技术的研究有了更好的方向。v i n t s y u k 所提出的动态时间规整 技术( d t w ,d y n a m i ct i m ew a r p i n g ) 4 ,该方法解决了语音识别模版匹配中语音 长短不匹配的问题。 七十年代,在理论上,语音识别技术有了重大的突破,并且出现了一些比较 实用的,能被人们使用的系统。在理论上,线性预测技术的发展更加深入。在实 践上,c m u 的b a k e r 5 和i b m 的j e l i n e k 6 将隐马尔可夫模型( h m m ,h i d d e n m a r k o vm o d e l ) 理论应用到语音识别,隐马尔可夫模型技术出现在语音技术领域, 可以说,它将语音技术的发展推到了另一个高度。c m u 的h e a r s a y i i 7 、i b m 的自动语音听写系统 8 都是比较实用化语音识别系统,能进行一下简单的语音 识别。 八十年代,隐马尔可夫模型和矢量量化( v q ,v e c t o rq u a n t i z a t i o n ) 9 在语音 识别中受到越来越多的重视,出现了一股热潮。a t & tb e l l 实验室的研究学者把 原本是纯数学模型h m m 进行应用化,使h m m 能被各个研究领域使用,从而能 被更多人们所了解和接受。就在这个年代,一种新型的前沿的技术人工神经元网 络( a n n ,a r t i f i c i a ln e u r a ln e t w o r k s ) 1 0 的研究越来越深入,更有学者将其应用 到语音识别系统中。该技术目前还处于研究阶段,是一个非常看好的研究方法, 大量的人力物力投入其中。在这个年代,越来越多的人都投入到了更能满足人们 需求的大词汇量、非特定人连续语音识别的研究当中 1 1 。 九十年代,网络技术和计算机的普及,互联网时代来临,计算机的处理速度 越来越快,这对语音技术的发展具有很强的推动力,比如计算机的数据处理速度 影响着大词汇量的语音识别系统信号处理的速度和精度,进而影响着识别的效率 和准确度,出现了一些大词汇量连续语音识别系统,如i b m 的v i a v o i c e 1 2 , 微软的w h i s p e r 1 3 等。许多国家和研究机构都为语音识别系统的实用化投入了 大量的人力和物力,以使其能更好更快的出现在市场上。目前,语音识别技术在 人们的推动下,出现了更多新的技术和理论,并出现了许多实用化产品。 当前,语音识别技术具有很好的实用性,明显的特征就是识别率已经满足 了人们的日常需要。g o o g l e 搜索中使用语音识别引擎,方便人们查找。w i n d o w s 系统中自带了语音识别系统,对系统进行简单的设置之后,就能够通过它对电脑 进行操作和文字输入。2 0 1 1 年苹果公司在其i p h o n e 手机中预装了s i r i 语音识别 系统,更是将语音技术的魅力展现在了普通大众的面前,让更多的人所接受,以 其智能化受到人们的好评。因此有人说,未来是语音技术的时代。 由于语音技术是一个新的领域,具有很高的应用前景,因此我国对语音识 别研究工作也是非常的重视,并被写入8 6 3 计划,每年投入巨资,推动语音技术 第一章引言 的研究,主要的研究机构和单位有科大讯飞语音技术公司,中科院声学所、自动 化所、及清华大学、中国科学技术大学等。近年来,科大讯飞语音技术公司可以 说是在中英文识别领域中取得了令人瞩目的成就,在n i s t 语音识别大赛中取得 了优异的成绩,并出现了一大批的产品,如讯飞语音输入法,讯飞语点等,代表 着我国语音技术发展的水平,目前我国的大词汇量连续语音识别系统的性能与国 外不分伯仲,尤其在中文语音识别领域,更是无人能及。 1 1 1语音识别的分类 从识别系统的模型是否专门为某个人训练的,可以将系统进行如下划分: ( 1 ) 特定人语音识别系统:该系统就相当于专为某一人设计的。其最主要 的优点就是系统简单并且具有很高的识别正确率,但是阻碍其应用的缺点就是特 定的用户必须输入大量的语音数据才能使语音模型训练的更好,在小词汇量的系 统中,由于不需要太多的语音数据,因此可以使用这种方法,但是在大词汇量的 系统中,明显不太现实。 ( 2 ) 非特定人语音识别系统:需要识别的语音不是来自某个特定的人,通常 要采集大量的、不同人的语音数据来进行建模。这种识别系统具有很好的通用性, 任何人使用该系统,都能有很不错的识别率,但是,识别率要满足日常应用的需 求,那要求系统的要有很高建模精度和降噪技术,同时还需要海量的语音数据量。 从需要识别的语音类型不同,可以划分为: ( 1 ) 孤立词语音识别系统:识别的语音是我们平常认为的短句,词语等,具 有不连续性,具体实现的技术相对来说简单,系统比较容易实现: ( 2 ) 连续语音识别系统:该系统识别的语音就是我们平常说的话,不需要间 断,会出现大量的连音和变音,使用的技术也更加的复杂,系统实现的难度较高。 另外按照系统能识别的词汇量的多少,可以划分为:小词汇量语音识别系统 ( 几十个词) ;中等词汇量语音识别系统( 几百到上千个词) ;大词汇量语音识别 系统( 几千到几万个词) 。 1 1 2 语音识别原理及系统的组成 语音识别一般可以分为两个步骤,首先是模型“训练”阶段,这阶段的任务 是声学建模;第二步是“识别”阶段,根据某种识别方法,将提取出来的某种特 征参数,按照一定的准则,比如似然度,欧氏距离等,与系统模型进行比较,最 后按照似然度和距离的大小来判决,似然度最大或者距离最小的即是识别结果。 如图i 1 语音识别系统的流程: 第一章引言 语音信号 入 识别 结果 噪声滤波器 图1 1 语音识别系统的流程 由图1 我们可以看到,语音识别系统的主要模块是由以下几个部分: 预处理的过程主要是对语音信号进行如下处理:采样,反混叠滤波,预加重 及降噪处理等。 声学参数分析,也就是特征提取,它的作用是从语音信号提取能够表征语音 信号特征的参数,如平均能量、线性预测系数、梅尔倒谱参数等。参数类型选择 对语音识别系统的影响甚大。不同的参数类型意味着系统的关键技术不同,这也 就导致技术路线不同,进而最后系统的识别率也不同。因此一个好的参数类型是 系统性能良好的基础。训练的目的是建立语音的模型,模型类型的选择也是很重 要,一个模型参数好坏的评判原则就是其能否准确的细致的描述语音。 测度估计就是系统的识别部分,其作用是按照某个准则求取待测语音特征参 数与模型的相似度,最后进行判决,相似度最高的是识别结果。 1 1 3 语音识别所面i 临的主要问题 语音技术从出现到现在,发展了有6 0 年左右,但是仍有阻碍语音技术发展 的问题亟待解决,具体如下: 1 语音识别系统的普适性差。世界上语言的种类可谓如繁星一般,并且还有 大量的方言。目前,识别系统还不具备在多种语言条件下还具有较高的识别率。 2 噪声的影响。识别系统使用的语音数据是在实验的条件下采集的,也就是 4 第一章引言 在信噪比较高的环境下录制的。这样就带来了一个问题,就是当语音识别系统由 实验室走出来的时候,噪声给系统带来的影响是相当严重的,因此需要降噪技术。 3 在不同的环境和情感条件下,即使是同一个人说相同内容的话,语音信号 的频谱都是不一样的,这给识别结果造成很大的影响。 1 2 说话人差异 说话人差异可以分为说话人之间的差异和说话人内部的差异: ( 1 ) 说话人之间的差异:当我们听不同的人说同样的话能感觉他们话音的 特点各不相同,古人说“未见其人,先闻其声”,每个人的话音差别很大,这是 因为人的发音器官形成一条粗细不同的管道,这个管道每个人是不同的,其决定 了基频f ,总体而言,男人分布在6 0 2 0 0 h z ,女性和小孩在2 0 0 4 5 0 h z 之间, 所以男人的声音听起来很沉,女人和小孩的声音很尖的缘故。每个人不同的说话 习惯,包括个人的教育和文化背景,方言等,国内外的许多专家针对影响个人发 音的各种因素:社会、地域环境、宗教信仰等作了深入的研究 1 4 。 ( 2 ) 对于同一个人,不同的环境( 心理和生理状态) 能对人产生影响,进而 能影响人的发音即使同一句话也有很大的差异,大家都知道人在感冒和身体状态 良好的情况下人的发音明显不同,同样一个人处于情绪激动和平静时的差异非常 明显。我们称之为说话人内部的差异。 这些差异对语音识别系统的实用化的影响很大,如果不能很好的解决这个问 题,语音技术的魅力也很难完整的展现在人们的面前。 总体上看,说话人之间的差异对语音识别系统识别率的影响比说话人内部的 差异大的多。在特定人的语音识别系统中需要从用很多人的语音训练的模型中识 别出某一个人的语音,就需要考虑说话人之间的差异。在非特定人的语音识别系 统中,需要同时区分说话人之间的差异和说话人内部的差异。说话人自适应技术 就是为了解决这个问题而产生的。 第一章引言 1 3 论文主要的研究内容和章节安排 本文内容安排如下: 第一章描述语音识别的原理、分类及组成,分析了说话人的差异以及本文 主要研究工作; 第二章介绍语音的产生的生理结构和声音产生的过程,语音信号的预处理 及特征提取,详细介绍了线性预测倒谱参数( l p c c ) 及梅尔倒谱系数( m f c c ) ; 第三章介绍了语音识别的模型分类,并对隐马尔可夫模型和高斯混合模型 做了详细介绍; 第四章对语音识别自适应技术进行阐述,详细说明基于最大后验概率的自 适应方法和基于最大似然回归的自适应方法的原理,并对他f f j j j h 以比较; 第五章详细描述基于最大后验概率自适应方法的口令识别系统的实现,并 对系统的性能进行分析; 第六章对本文进行总结。 6 第二章语音信号的分析 第二章语音信号的分析 本章详细介绍语音信号产生的生理结构及发音过程,预处理,及语音信号的 特征提取的主要方法。 2 1 语音信号的产生机理 语音是目前人与人交流的主要方式,是携带信息的及其重要的媒体,一般来 说,声音是通过振动产生的,同样,语音是肺里面的空气形成气流通过声道,再 从口鼻辐射而产生的。图2 1 是人体的发音器官示意图,发音的过程如下:先由 肺部收缩压出一股空气,气流经气管到达喉头的声带开口处,声门处的肌肉收缩, 使间隙小于l 姗,肺部压缩的空气经过这个狭小的缝隙,这样就使声带有了横向 和纵向的速度,在这个时候,声带向两边运动,缝隙逐渐变大,声门处的压力下 降,弹性的恢复力将声带拉回平衡位置并趋向闭合,也就是声带产生振动,而且 具有一定的振动周期,图2 2 可以看到语音带有明显的周期性。 图2 1 人体的发音器官示意图 调音区 声源区 动力区 第二章语音信号的分析 t h ew a 、ef b r n l o fs p e e c hs i g n a l _ 一 f:i i l 黼二: _ f 一一一一一一虹一 , bh ii j f 辄 np 9 一彬 02 0 04 0 06 0 08 0 0 1 0 0 01 2 0 01 4 0 0 - 1 7 m e 图2 2 读“8 ”产生的语音波形 话音分为三种,浊音( v o i c e ds o u n d s ) :声道打开,声带在先打开后关闭, 气流经过使声带要发生张驰振动,变为准周期振动气流。浊音的激励源被等效为 准周期的脉冲信号。清音( u n v o i c e ds o u n d s ) :声带的某处保持收缩,气流在声 道里收缩后高速通过产生湍流,再经过主声道( 咽、口腔) 的调整最终形成清音。 清音被等效为一种白噪声信号。 浊音的声带开启和关闭一次的时间,就是基音周期,其倒数称为基音频率。 基音频率范围跟人的个体和人所处的状态,比如性别、年龄有关。老年人和男人 的比较低、女性和小孩的相对较高,男人大致分布在6 0 2 0 0 h z ,女性和小孩在 2 0 0 - 4 5 0 h z 之间,如图2 3 所示,从图中可以看到女性声音的周期较男性的短, 相应的女性声音的频率就高。 5 1 5 0 5 1 5 2 吣 叫 嘶 。 呲 圳 吣 舭 可三iiqe 第二章语音信号的分析 o 1 0 了 苎 e 1 0 3 羔 e 。口z 。 2 3 2 线性预测倒谱参数l p c c 1 2 ( 2 5 ) 第二章语音信号的分析 顾名思义,线性预测倒谱参数就是在把语音信号进行倒谱处理之后再使用线 性预测( l p c ) 。该特征参数的提取方法的使用必须满足一个假设条件,就是假定 语音信号为自回归信号。在这种条件下,l p c 系数是用自相关法求得的,这就保 证了系统的稳定性,使得式( 2 5 ) 对应的h ( z ) 具有最小相位,可以推导出语音信 号的倒谱参数c ( n ) 与l p c 系数之间的递推关系如式( 2 9 ) : c ( 1 ) = o , 咖) = + 莩( 1 - 刀k - ) c , 咖叫l n p 或是由l p c 得到 = “卅莩等( 柑) ( d ( 2 1 0 ) 由于表征语音信号的特征的信息主要体现在声道传输函数上,因此我们只需取语 音信号倒谱的低阶构成l p c 倒谱特征c 即可,即 c = c ( 1 ) ,c ( 2 ) ,c ( g ) 1 0 q 1 6 ( 2 1 1 ) 印为阶数。 线性预测倒谱参数的优点易于提取,系统实现上比较容易。然后l p c c 也继 承了l p c 的缺陷,l p c 是通过过去值的线性组合来表达当前的值,描述的是人 发音过程,但是在语音识别过程中,而机器相当于一个听者,用听觉特性来描述 则更加合适。另外l p c 在描述语音的时候,也描述了噪声,并没有对语音信号 进行噪声处理。所以人们又提出了另外一种更合适的参数类型一m f c c 。 2 3 3 m e l 频率倒谱参数m f c c 梅尔倒谱系数是在人耳的听觉特性研究成果的基础上提出来的,首先将时域 第二章语音信号的分析 语音信号进行傅里叶变换得到频谱信号,再将在频域h z 是线性的频谱信号转到 非线性的m e l 频标上,然后再进行倒谱处理。m e l 特征的使用对信号的性质没有 要求并且对输入的信号没有任何条件。因此,梅尔倒谱参数与基于声道模型的线 性预测倒谱系数相比具有更好降噪性能,更能从听者的角度来表征语音的特性。 m e l 倒谱系数提取的过程如2 6 所示: 预处理的 图2 6m e l 倒谱参数提取的步骤 ( 1 ) 首先对语音信号用哈明窗分帧,语音信号变成一帧帧的信号,然后使用快速 傅里叶变换将时域信号x ( 胛) 变换成频域信号x ( m ) ,并取平方得到短时能量 谱p ( f ) 。 ( 2 ) 将短时能量频谱p ( f ) 按照式( 2 1 3 ) 转化到m e l 坐标上的p ( m ) ,梅尔频标之 所以是非线性的,是因为人耳对声音的感知是非线性。 巴= 3 3 2 2 2 3l g ( 1 + 0 0 0 1 ) f , m ( 2 1 2 ) ( 3 ) 在梅尔频域内将一组三角带通滤波器组加于m e l 坐标形成皿( 尼) ,如图2 7 , 由2 0 个三角滤波器组成。然后分别计算滤波器组的输出,并对输出求取对数。 三角带通滤波器是为了模拟人耳的掩蔽效应而设置的。因为人耳对不同频域的分 辨率是不同的,所以才在不同的子带上进行分析。式( 2 1 3 ) 臼( m ) = l n ix ( 后) i2 见( k ) k = 1 2 ,k ( 2 1 3 ) 其中k 表示各个滤波器的次序,k 表示滤波器的个数。 1 4 第二章语音信号的分析 02 04 06 08 01 0 0 1 2 01 4 0 图2 7 三角滤波器组 ( 4 ) 然后再进行离散余弦反变换( i d c t ) 求得 c r e e l ( 刀) = 喜口( m ) c o s ( 玎( 尼一o 5 ) 昙) 胛= 1 ,2 ,卯 ( 2 1 4 ) 臼( 鸠) 表示第尼个滤波器的输出能量,已( 玎) 就是m f c c 参数,p 为参数的阶数。 大量实验表明,在语音特征中加入表征语音动态特性的差分参数,能够提高 系统的识别准确率。所以在很多系统中用到了m f c c 参数的一阶差分参数和二 阶差分参数,以显示倒谱在时间上的变化即在时间上的动态变化。式( 2 1 5 ) 是一 种求动态特征的方法。 0 o ( m f c c t + 口一m f c c t 一日) ( 2 1 5 ) 其中o 为窗长,劬z 阳e 表示f 时刻的动态参数,m f c c + ,和m f c c , 。分别 2 8 6 4 2 1 8 6 4 2 0 1 1 1 1 0 o 0 0 伊 e 村 1 二 第二章语音信号的分析 为f + 0 和,一0 时刻的静态参数。 2 3 4l p c c 与m f c c 的比较 与线性预测倒谱参数相比,梅尔倒谱参数在很多方面占有明显的优势: ( 1 ) 由于人声音低频部分占了很大的部分,m f c c 将语音信号从h z 线性频标转 化为到m e l 频标,是的信号低频信息更加的突出,强调了利于识别的信息。 l p c c 在这方面没有处理。 ( 2 ) m f c c 的使用时没有任何限制和条件的。而线性预测倒谱参数必须假定信号 具有自回归的特性,然后才能进行处理。同时m f c c 具有很好的抗噪性能。 ( 3 ) m f c c 参数是在人耳的听觉系统研究成果的基础上提出来的,研究表明,人 耳对不同频率的声音的敏感度是不一样的,是非线性的关系。因此使用非线 性的m e l 频标更合适。而线性预测倒谱参数是从语音信号产生的角度来分析 语音信号的,相当于描述声道发声的状态。在做语音识别的过程中,语音识 别系统实际上是一直在“监听”输入的语音,所以在做语音识别的时候m f c c 更适合。 2 4 本章小结 语音信号的预处理的重要性是显而易见的,语音信号的去噪、数字化、加窗、 分帧的效果直接影响着后续的参数提取的准确。特征参数是语音信号的本质的载 体,它应该能完全的准确的表达语音中所含有的全部有用信息,所以特征参数类 型的选择的好不好,直接影响语音识别准确率。 1 6 第三章语音识别的常用模型 第三章语音识别的常用模型 引言 模型是对信号特征的结构化的描述,一个好的模型应该能准确的描述信号 的特征,目前语音识别中常用的模型有,动态时间规整( d t w ) 、高斯混合模型 ( g m m ) 、隐马尔可夫模型( h m m ) 。 3 1 动态时间规整 我们平时在与人交流的时候,可以发现,人在不同的情况下,即使说话的内 容相同,有时候在情绪激动与平静的情况下,发音完全不同,这是因为处在情绪 激动的时候,说话的声音比较急促,导致每个词之间的间隔较平静的时候短很多。 如再带上一点呼吸音,或者一些拖音,此时呼吸音和拖音会被当作一个有用的发 音,这也是语音信号有很强的随机性的表现,这样给语音的端点检测带来了困难, 如果检测不准,显然提取出来的参数肯定不一致,导致识别率下降。可以想到, 语音识别系统怎么样才能识别出内容一致而发音长短不一的问题呢。在科研人员 的努力下研究出了一种技术专门来处理这个问题,就是动态时间规整技术。它是 将待测语音信号进行放缩到与标准的模板一致。 该方法是通过将待测语音的时间轴弯曲到合适的程度,然后再与模板进行匹 配。d t w 是一种非线性的技术。其原理如下:假设,参考模板的特征矢量序列为 口。,口:,a ,待测语音信号的特征矢量序列为6 l ,6 2 ,玩,巩,m n ,动 态时间规整就是要找到一条最佳的路径m = w ( n ) ,使得从起点到终点的距离最 短,在时间轴上,将待测语音信号的特征序列映射到标准模板的特征序列,并且 该w 满足条件( 3 1 ) d = 雩译m ,w ( 刀) ( 3 1 ) ”“1 j 7 1 7 第三章语音识别的常用模型 其中,饥( 胛,w ( ,2 ) ) 是待测语音序列的第,2 帧与标准模板第m 帧的空间距离。d 表 示的就是两模板之间的最小距离,其经过的路径即为最佳的路径。 动态时间规整的有效解决要采用基于动态规划最优算法( d y n a m i c p r o g r a m m i n g ,d p ) ,简单来说,就是通过构建一个邻接矩阵,寻找出一条路径和 最短的路径。在使用动态规划技术解决问题时,规整函数w ( n ) 要满足一定的约 束条件。 边界条件:w ( 1 ) = 1 ,w ( ) = m ( 3 2 ) 连续条件:w c 行+ ,一w c 胛,= o i 孑w w 。船( n ,) :w w 。行( n 一- ,1 ) 3 3 假设d n ,m _ d n ,w ( ,z ) 】表示b ,和a m 之间的距离,则d ( n ,m ) 满足( 3 4 ) , d ( 纸m ) = m i n d j ,w ( 朋 ( 3 4 ) 采用动态规划技术来实现d t w 有几个不利的因素:一、语音识别系统的性 能对端点检测的效果有很大的依赖,如前述拖音或呼吸音会被误认为一个音素。 造成端点检测难以准确。二、在计算d ( n ,m ) 的时候,有很多数值需要计算,这 就导致动态规划的计算量比

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论