(控制科学与工程专业论文)基于hmm模型的语音识别系统研究.pdf_第1页
(控制科学与工程专业论文)基于hmm模型的语音识别系统研究.pdf_第2页
(控制科学与工程专业论文)基于hmm模型的语音识别系统研究.pdf_第3页
(控制科学与工程专业论文)基于hmm模型的语音识别系统研究.pdf_第4页
(控制科学与工程专业论文)基于hmm模型的语音识别系统研究.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

=:= = 。= = :=垦塑篓态塑些璺鲨堡:= ; = := :一= := : 第一辈绪论 熏1 谋嚣磁究管景及磷究意义 语音是人类最为自然和有效的交流方式,岛机器进行语音交流,让机器明白 豫说骨么,逡壹是人髑嵌鬻梦寐驭求弱事馕。垂动语音谈捌蘑掭就是诖规器褥 憾人类口述的语言,听愤就是机器通过识别和瑰解过程将人类的口述谣言转化为 相应的书面语言( 如命令控制、数据输入等) 并能对其所包含的要求、命令作出 正确豹爱瘟,瓣人嘏交纛。语音谈期楚门交叉学魏,宅默疆考兔磷炎对象,是 语音信号处理的一个重要的研究方向,又是模式识别的一个分支,语裔识别技术 与声学、语音学、生理学、统计学和模式识别理论、信息璁论与计算机学科、应 潮心理学、数字售号娃壤投末等多个学科豹磅究镶域有关,不同顿域驰磺究戏暴 都对语音识别的发展伟出了赏献,其最终的两的就是实现人与机器进杼自然语言 i 鼠信叱 汽车豹发裴摄夫懿扩夫了人类抟活动葱圈,是太粪桂会避步鹃产携。叁主驾 驶车集中体现了计算机和机器人技术的最高成果,人们对囱主驾驶的研究成为当 前研究的热点之一。一个理想的汽擎自主驾驶系统应该向人类驾驶员一样,能对 汽车貔运动状态及其拜壤熬交纯终熬适簿建判聚劳及瓣鹣撩翻车辆。凌车载语音 控制系统中,以语音的形式控制车辆运动,并鼠车在执行谬音命令相应的任务后 能回应操纵糟表达车的当前状态,实现智能车语音实时交甄系统。本文以智能车 语音交互系绫为臻究鹜燕,鼓骚究漤毒识羽技零爨发,实现游是诖智能车骣| 薹入 的语音命令并执行相应的任务,并研究了如何挺高系统在噪声环境下的识别性能。 语音识别技术发展到今天,特别是中小词、汇量非特定人语音识别系统识别精 嶷基经犬予潞,霹特定入语音谖鞠系统麓; 裂壤度更囊。这些攘拳避经鼗罄满 足通常应用蒙求。语音识别正逐步成为信息技术中人机接口的关键技术,语音识 别技术与语酱合成技术结合使人们能够甩掉键盘,通过语啬命令进行操作。语音 投本熬应弱爨经袋为一个其有竞争蛙戆瑟兴赢技零产韭,黠语音识象鬃统夔硬究 也具有很大的研究意义。首先,语音识别的一个基本应用就是一个语啬打字机, 人们甩掉键搬通过语音实现向计算机输入文字,选样不要用手,不受地点限制, 囊然、抉速。宅虢实瑷绘办公叁动弦鬻寒革命攮豹变纯,露隰菠舞 字王人麸繁菱 的工作中解脱出来。微软操作系统w m d o w sx p 就内嵌了语齿识别模块,人可以不 用键盘直接用话筒控制计算机;计算机行业巨骞kg o d d e nm o o r e 说:“语音技术将 第l 页 国防科技大学研究生院学位论文 语音识别,提出了一系列语音识别技术的新瑷论动态规划线性预测分析技术,较 好豹解决7 语啻信号产生浆模型耀趣。当射程 犍爨范囝内,囊动了露关语音识别 的三项关键项鞲:1 r e a 实验室的m a r t i n 掇出了一种繁本的对闻妇化方法, 这种方法脊散的解决了语啬事件时间尺度的非均匀性,黼w 靠的检测到语音的憨 媲点彝终止点,有效蛾解执了识别结果的可变牲 2 。前苏联的n t s y n k 提取了勘 悫规划方法,_ i 是种方法是对一组语音在时间上进行棱准它甑含了时间伸缩的概 念:3 c e r n e g i em e l l o n 大学的鼬d d y 对音素渤态鼹踪科,开始了连续语膏识莉的 研究工作,为瓶来的获撂黩大成功的逡续语鸯识别奠定丁基础。 7 0 年代,谦音识别舔究取褥了爨丈的具鸯量程簿塞义鲍袋果,转随饕鑫然谣 言理解的研究以及微电子技术的发展,语音识别领域取得了突破性进展。模式识 嗣、动态攥翅技术在语音疆剐辛褥喇畿露,撬墨了矢量爨仡和豫马拳嚣走摸受鬻 论,著姆 猢m 摸型秘矢整量饯毽论g l 入窭魏,锼j 拜l 囊 & 特率缠码中取褥成功驰 线性预测编码( l p c ) 作为语音的谱特征参数l j ,实现了基于线性预测理论和动态 藏谶技术靛将窥天稳擞语裔谖囊。最疑有意义豹怒 b m 公霹舞殆了大量诞花语鬻 溅剃匏磷究毒十划,b l 实骏室也开始避行7 嚣特邂人语鬻识剐系统鲍辑究i 8 l 。 8 0 年代,疆啻识别技术进一步是巍澡a ,勰匏tb d 实验室r a m n e r 等辩学家 把霹【本 琳撩d 纯数学模羹工程优,从箍为曼多的研究者理解靳认识,馊褥语音识 剐技术在研究方法上发生了改交,由麓于模檄的方法转为基予统计的方法_ h m m 摸型的使嗣,遮秘方法现在还是诲鹰识另研究韵主流。8 0 每谯来,鬓验塞语音识 剐研究取得了巨大的突破,人们终子突破了大量词汇、涟续语音、# 特定人三大 障礴,第次把三个特性都集中氍一个系统中,眈较典爨的燕美国p 耐基梅隆大 学( c a m e 瘿em e l o n ) 开发豹连续语整识别聚统一s h i n x 州,它是籀一个离性能 的非特定入、大量词汇的连续语脊识捌系统:还宥b b n 公司开发了连续语音识剐 系搿卜b y b 己o s 等; 进入9 0 年健,涟罄雾媒嚣辩代瓣来瞌,疆帮谖鬟技零跫广泛瘟麓予实际中, 语骜识别麓统遴入亵熬让开发黔羧。诲多萋盘熬大公蜀麴携挞、孳絮、斌砬t 嚣 对语音识别的实用化投以臣资。语音识别有个报好的评估基准,就是识别准确 率,焉这璞攥拣在粥年代中螽期褥到箍离,魄较骞健表性的鸯:i b m 公司推高鹣 、遁a v 。 m 公司推高鹣、遁a v 。i c 搴秘蛰r a g o n s 榉e 黻公司熬n a 船矗玲鼬e a 妊矗g , nh8粥。公司鹣nn嬲co v 0i c e plaefo廿n语音平台,microso盘的w1li8per,sun的voicetone等。ibm公司 国防科技大学研究生院学位论文 长度。 图2 1h m m 的组成示意图 2 2h m m 的三个基本问题 上一节给出了h m m 的定义,要将h m m 应用于具体实际,还需要解决一些 关键性技术问题。归纳为三个方面【2 0 】: 1 如果给定了一个h m m 模型且= ( 口,爿,层) ,那么,怎样计算一个观测值序列 o = o 。馥,岛出现的概率p ( o l a ) ? 2 观测值序列0 = 0 l ,0 2 ,0 ,和模型 = 印,4 ,b ) 确定后,怎样选择相应的、 最佳的、能最好的解释观测序列的状态序列? 3 怎样调整模型a = ( f ,一,b ) 参数,使得条件概率p ( o ) 最大? 问题l 是评估问题,通过对它的求解我们能够选择出给定观测序列下最匹配 的模型。 问题2 是解码问题,找出模型中隐藏的部分,即正确的状态序列,而实际中 我们常常用一个最佳判据来尽可能的求解这个问题。 问题3 模型参数最优化问题,调整模型参数使模型能最好的描述给定的观测 序列。求这个问题过程就是h m m 模型训练过程。 2 3h m m 基本算法 上两节介绍了h m m 的概念,但是仅仅知道这个是不够的,我们必须知道如 何应用h m m ,要了解它的应用,就需要首先对h m m 的各种基本算法有所了解。 我们都知道h m m 的基本理论是b e i l l n 和w e l c h 等人在2 0 世纪6 0 年代末和7 0 年 代初建立起来的,其关键部分是估计和训练h m m 参数的重估公式。下面我们就 介绍h m m 的算法【1 4 】。 23 1 前向后向算法 在问题l 中,在给定模型五的条件下,产生观测序列。的概率,即求p ( d i ) 。 第7 页 := := : 里坚型堡奎茎塑垒耋墼耋堡篁塞:一= := :一 如图2 1 所示,根据概率论的知识,我们可以直接计算p ( o 协) 如下: 对于每一个给定的状态序列s | = g ,g :,g ,有: r p ( 叩,a ) 。g p ( 0 f k ) 26 。( 0 1 ) 6 。,( 0 2 ) 6 ( q ) ( 2 - 5 ) 其中6 。( 0 f ) 是状态吼产生观测0 f 的概率。而对给定的a ,产生s 的概率为: p ( 刮 ) = 。 ( 2 6 ) 式中g ,初始状态,z 。为初始状态g ,的概率,口。为初始状态吼转移到f = 2 时 刻状态g :的概率。因此,根据概率知识所求的概率为: p ( o ,s 丑) = j p ( o l s ,五) p ( s i 五) ( 2 7 ) 将所有可能状态序列所对应的联合概率求和,便可以得到给定的模型z 条件下 产生观测序列d 的概率,即 p ( o i z ) = 尸( o p ,兄) p ( s | ) ( 2 8 ) a l ls 将( 2 - 5 ) ,( 2 - 6 ) ,( 2 7 ) 代入上式得到: p ( o | 2 ) = 7 r 。6 m ( d 】) 日。:屯。( o :) 口。( q ) ( 2 9 ) 自,q l 秆 然而,存在的问题是,式( 2 9 ) 的计算量是非常大的,近似的计算为2 7 r 数 量级,当= 5 ,r = 1 0 0 时,计算量达到1 0 ”,所以,必须寻求更加有效的算法。 2 3 1 1 前向算法 定义前向变量为: d ,( f ) = p ( o l ,0 2 ,- ,o ,目,= s 1 ) 2 r , ( 2 1 0 ) 按下面的步骤进行迭代计算: 1 初始化 口l ( f ) = ,r f6 f ( 0 1 ) , l f ( 2 1 1 ) 2 递归 r 1 a f + i = j a ,( f ) 口“1 6 ,( o ,“) ,1 r r 一1 ,1 j ( 2 1 2 ) l f 1 j 3 终结 p ( d l 五) = 昕( f )( 2 1 3 ) ,日 其中 6 ( d f + ) = 6 n ld f 。= k 国防科技大学研究生院学位论文 可以看出( 1 ) 是把前向变量初始化为初始状态s ,和初始的观测量0 的联合概 率。前向算法的核心部分是( 2 ) ,用图2 2 ( a ) 可以直观的说明。根据前向变量 的定义式( 2 1 1 ) ,第三步( 3 ) 将最后一次迭代的计算结果d ,( f ) 对f 求和就可以得 到尸( 0 l 们。 岛 兔 焉 岛 t 4 讳j q “( d ( a ) 格型结构( b ) t 时刻递归关系 图2 2 前向算法示意图 这种算法是一种典型的格型结构,如图2 2 ( b ) 所示。这种算法能使得计算 量大为减少,变为:( + 1 ) ( r 一1 ) + 次乘法和( 一1 ) ( r 一1 ) 次加法。当= 5 , 丁= 1 0 0 时,只需要3 0 0 0 次乘法。比起按定义计算,前向算法已将计算量降到最低 值。 2 3 1 2 后向算法 后向算法和前向算法类似,前向算法和后向算法统称为前向后向算法。定义 后向变量: 屈( 1 ) = 尸( o ,+ l ,o ,+ 2 ,o r i g ,= j ,兄) 1s ,r 一1 ( 2 1 4 ) 其中屏( f ) = 1 ,它表示的是在给定模型 和f 时刻下所在状态s 的条件,产生 部分观测序列( 0 f 。0 f 。,q 的概率,计算步骤如下: 1 初始化 屏( f ) = l ,1 z ( 2 1 5 ) 2 迭代 屈( f ) = f q ( 0 f “) 肛“( ,) , f = r 一1 ,r 一2 ,1 ,1 f ! ( 2 1 6 ) j = l 3 终结 第9 页 :里堕垒些奎兰塑窒皇些耋堡篁塞:= ;:= = := = := := : p ( d l 五) = 届( f ) t - l 后向算法也是格型结构,计算量和前 向算法差不多。第二步的迭代计算用图 23 来说明,前向后向算法可以解决h m m 建模的第一个问题,对于问题2 和问题 3 的求解都是有帮助的。 2 32v i f e r b i 算法 i 属( 0 最 是 s , s h 讳1 辟。( 力 图2 3 后向变量计算示意图 这个算法解决了给定一个观测序列0 = o l ,d :,一,q 和h m m 模型 2 = ( z ,爿,b ) ,在最佳的意义上确定一个状态序列q = g :,q ;,目;的问题。 在求解模型的第二个问题时,求解给定观测序列产生的最佳状态序列,主要 取决于最佳的判据。当然了,由于最佳的定义有很多种,从不同的最佳定义出发 可以得到不同的结论。这里所谓的最佳判据就是要使“正确”的状态数目的期望 值达到最大。为了解决这个问题,我们首先定义变量: 一( f ) = 尸( 吼= j j d ,五) ( 2 1 7 ) 可以看出它是在给定观测序列和模型的条件下f 时刻所处状态s 的概率。 在前向变量和后向变量的定义中,我们知道,前向变量口,( i ) 说明的是部分观 测序列 d = d l ,0 :,q 和f 时刻所处的状态,而后向变量屈( f ) 说明观测序列的 剩余部分( d f 。q 。,0 , ( 已知r 时刻所处的状态砖) ,那么产生整个状态序列0 而且f 时刻所处的状态j 。的概率可以写成口。( f ) 属( f ) ,即口。( f ) 肛( ,) = p ( o ,吼= j 。l ) 。 所以一( f ) 可以用前向变量和后向变量表示为: 蹦泸篱2 嚣 协1 8 ) 可以看出它是一个条件概率。 利用一( f ) 各个在,时刻所处最可能的状态吼,使得正确的状态数目最大。 鼋。= a r g m a x 以( f ) 】 1 r r ( 2 1 9 ) 如果我们定义一条状态路径g 。,吼,吼,观测序列沿时间轴的可能状态转移路 径如图2 4 ( a ) 。求最佳状态的过程实际上就是求状态变化的最优路径 第1 0 页 国防科技大学研究生院学位论文 g = 慨,g :补) 使得p ( q p , ) 最大,这实际上可以看成是一个动态规划的问题, 采用v i t e r b i 算法来实现。 t ( a ) 观测序列状态转移路径 ( b ) f 时刻状态j 可能的转移来源 图2 4 观测向量的可能状态转移图 t e r b i 算法如下: 定义五( f ) 为f 时刻沿着一条路径g 。,g :,吼,且吼= s 。,产生出 0 = d 。,d :,q 的最大概率,那么求取最佳状态序列q 的过程是: 1 初始化 4 ( f ) = 石,6 ,( d f ) 1 f s _ ( 2 2 0 ) 纯( f ) = 0 , l f 2 递归 4 = m a x 4 一l ( f ) a 】, 2 f 蔓r ,1 , ( 2 - 2 1 ) 伊r ( ,) 2a r g 器野【4 一】( f ) 。口2 f r ,1 , ( 2 2 2 ) 3 终结 p 2 臀孵。j ( 2 _ 2 3 ) g ;2 ”g 翟紧畴( f ) 4 状态序列的求取 g ;= 仍+ ( g ,“) ,r = r l ,r 一2 ,- 一,l ( 2 - 2 4 ) 这样我们就可以求出各个时刻系统所处的状态,得到一条唯一的最佳状态转 移路径,使得观测序列的概率最大,求取第2 个问题。实际上l e r b i 算法也是一 种格型结构,类似于前向算法。 233b a u m _ w e l c h 算法 b a u m w e l c h 算法能解决h m m 的训练问题,也就是h m m 参数的重新估计问 第1 1 页 题,或者说,给定一个观测值序列0 = 0 ,d ,q ,该算法能确定一个 z = ( f ,4 ,b ) ,使得p ( o i z ) 最大。一般来讲选择一个z = ( f ,4 ,使得| p ( o i ) 达 到局部最大,可以有二种方法:1 、迭代处理的方法( 如b a u m - w j i c h 算法或是期 望值修正( e m ) ) 。2 、利用梯度技术。本课题用的是迭代处理的方法,所以只对 选择模型参数的迭代处理方法进行讨论。 由前面的推导和定义,有: p ( o i ) = 口。( f f 6 ,( 0 + 。) 最+ l ( ,) ,1 f 蔓r 一2 ( 2 2 5 ) ,- lj = 1 这里,求取丑使得p ( o 阻) 最大是一个泛函极值问题,由于给定的训练数据有 限,因此没有一个最佳的方法来估计兄,b a u m w e l c h 算法利用递归的思想,使得 j d ( d 协) 达到局部最大,最后得到模型的估计参数 = ,4 ,b ) 。 定义毒( f ,) 为给定训练序列0 和模型 时,时刻f 时m a r k o v 链处于状态s 和 时刻f + l 时状态为j ,的概率: 善,( f ,歹) = p ( d ,q ,= s i ,q + 1 = s l 兄) ( 2 - 2 6 ) 为了计算这个联合事件的概率,用图2 5 来说明。根据前向后向变量的定义, 从图2 5 中可以推出: 夤( f ,) : a ,( f ) a f 屯( o ;。) 屈+ ,( ,) p ( o 兄) :1 。;j 翌! 正2 1 2 1 生! 鱼二! l 一 ( 2 2 7 ) a ,( ) b ( d f + ,) 屈+ ( ) 在v i t e r b i 算法的定义中把一( f ) 定义为在 给定观测序列和模型的条件下f 时刻所处的状 态j 的概率。那么时刻f 时m a r k o v 链处于状 态s 的概率为: 一( f ) = 乏:最( f ) = 口,( f ) 属( ,) p ( o 丑) ( 2 - 2 8 ) j - i “ii l + it + 2 噶雠) 属。( 赍 图2 s 计算鼻( f ,) 的示意图 一( f ) 对f 求和就是求访问j ,次数的时间期望值,将点( i ,) 对时间求和可以得到 状态s ,到状态s ,的期望值,因此在b a m - w e l c h 算法导出的重估公式为: 1 自时间f = 1 处于状态s 的次数的期望值 万= ,1 ( f )( 2 2 9 ) 国防科技大学研究嫩院学位论文 2 执状态_ 转移到状态s ,的期望数和执状态s ,转移的期望数的拢 一 rr 8 f = 蠡( 1 ,) 皇( j ) ( 2 _ 3 0 ) f * 扭 3 参数b 的重估 r, 6 p = 蟊( ( ,) ( 2 - 3 1 ) l - l “# 自 马* 嗨 总结的说,h m m 的参数 = ( ,r ,爿,口) 求取过程为:选取一个初始的模型 = ( 以爿,嚣) ,根据观测序列,由煎估公式得到一组新参数,从而得到一个新的攒 黧,遥伐下去,壹蜀p ( 醣) 速餮牧敛隽壹。滥然 捌酣魏调练是一个远运没有完 善解决的问题,b a u m 。w e l c h 算法贝是其中的并且经典的一种方法,并不是唯一的。 上面对h m m 的算法进行了较为详细的分缨,可以看出,这些算法应用于具体 实褒孛还肖许多要考惑戆蠢嚣,毙鲡在b a l m w 掩l 穗彝法燕佶参数薅受考虑到视始 模型的选取问题,不同的初始模型会带来不同的实验效果。还有训l 练数据的不足 带来的问题,并且由予语音的特点,不同的说话人甚至圊一个人在不同的时间和 缝蠢说话都哥戆不一襻,所鞋说活人鳇影响穗楚一个要考褒舞懿阍瑟。 2 4 隐马尔可爽的类型 隐骂尔可夫模登衡连续马尔冒夹摸垄、璃敏马尔可失模型、半连续马尔胃夫 模型。为了语音信号处理和识别的方便,在h m m 的大概架下也形成了几种不嗣 的形式,一般常用的誊如下几种“5 l :如图 第1 3 贾 国防科技大学研究生院学位论文 ( a ) 有跨越式壶左向右摸熬 ( e ) 全连接横溅 良默炎蛤 曲) 无跨越式盎左虞右模囊 ( ) 并行由发彝袁模型 图2 、6h m m 模型韵不同类型 在左右模型中,状杰转移只能从左自右而不能反过来,这种模型根适合随时 闻变化的傣磅,语音信号裁是一静随时闯变他的售号。在零文所建立的语音识别 系统中使用肖踌越式、从左自右的模型,状态数为6 。上面讨论的都照幽状态产生 输出的h 模型系统,还有由转移弧产生输出的h 姗系统,在这里就不做多的介 缀。 各种形式静隐马尔可夫模型和簿法已经目趋成熬,以京为基础已经形成了语 甯识别的基本框架模型。他统一了语音识别中声学层和谱街学层的算法结构。制 定了最佳的搜索积匹配爨法,以概率蛇形式将声学层褥到的信息和语寿学层已番 的信惠完美她缩台在一起。因此,薅马尔可夫语音识别模型和算法照趸今为止爨 为完美的一个语音识别模型,从马尔可夫模型的成功应用中我们可以看出完美的 瑷论体系对研究工作所超的重要指母意义作用。 2 5 本章的小结 本章介缀了用于本课题磅突中的隐马尔霹夹模型基本概念帮蒙蠖。铁马尔 夫链的基本溉念入手,弓 掇h m m 的定义,并介绍h m m 的参数;然衙介绍了将 h m m 应用到语音识别中经常会面临的3 大基本问题及其解决方案,即给出了3 个 第i 4 页 基本算法:前向一后向算法、t e r b i 算法和b a u m w j l c h 算法。此外提出了实现这 些算法应注意的问题。最后介绍了隐马尔可夫模型的类型。 以这一章所讨论的基本理论知识为前提,接下来在下一章我们的工作是如何将 其成功的运用到语音识别的建模中。 国防科技大学研究生院学位论文 得到一个频谱。下图图3 2 是采用汉明窗分帧,“开始”中a i 的频谱特性。 0 一l2 一 4 一孙 叫# 4 1 m 一 3 1 2 语音信号的数学模型 频率,h z 图3 2“开始”中a v 的频谱特性 语音的产生不仅是一个复杂的生理和心理过程,而且与声道的形状、声道中 的激励等因素都有关系,所以要建立一个十分精确的语音产生模型是很困难的。 下图图3 3 是一个比较简单的模型,但是可以满足大多数语音处理研究和应用的需 要【2 6 】。 3 13 语音信号的短时性特点 图3 3 语音信号产生的数学模型 语音信号是随时间变化而变化的。它是典型的非平稳信号,具有很强的“时 变特性”,只有在一段短时间的间隔中才认为语音信号保持短时平稳的特性,所以 语音信号一个重要的特性就是其“短时性”。在有些短时段中它呈现出随机噪声的 特性,在另外的短时段中又是周期信号的特性,有些段是两者的混合,这个特性 为语音信号的处理和语音识别的研究都带来了很大的方便。也因为这样,在对语 音信号的处理中,我们提取“短时特征”和“短时参数”,比如:短时能量、短时 过零率、短时自相关函数、短时频谱等,这些都是建立在语音的“短时性”基础 上的。 短时段一般是5 5 0 m s 。短时特性是语音数字信号处理的一个出发点。 第1 7 页 31 4 语音信号的时域、频域分析 语音信号携带许多的信息。包括时域、频域、或声道模型参数等。为了有效 地提取语音信息,研究人员提出了各种各样的方法来进行信息提取,根据所分析 的参数不同,语音信号分析大致的说有三种方法: 1 时域方法 2 频域方法 3 倒谱域方法 每种方法又有细分的多种方法。 语音信号时域分析的参数主要有:短时能量、短时幅度、短时平均过零率、 自相关函数和幅差函数等”9 】 2 ”。 一短时平均能量 语音信号具有短时平稳特性,对语音我们进行分段或分帧处理,因此定义每 帧语音信号的短时能量为: 2 h 2 e = x ( m ) w ( h 一卅) 】= x ( m ) w ( n 一卅) ( 3 - 1 ) 一+ t 若分帧时使用的窗口是矩形窗,有 月 2 e 。= 【x ( m ) 】 一+ l 若令 。= w 2 ( ) 则 e 。= x 2 ( m ) ( n 一) = z 2 ( 月) + ( n ) 2 ( 3 2 ) 则可以看出,若 ( ”) 为一个线性滤波器的单位采样响应,首先将语音信号各个样 值点平方,然后语音平方信号通过这个线性滤波器输出,输出为短时能量构成的 时间序列。因此, ( n ) 的选择或者窟函数的选择直接影响着短时能量的计算。 短时平均能量的主要用途有三:1 由于浊音的e 。比清音的e 。要大,所以可以 作为区分清音段和浊音段的特征参数2 可以用来区分声母和韵母、有声和无声、 和连字的分界 3 作为辅助参数用于语音识别中。 二,短时平均过零率 在离散时间信号下,当相同的两次抽样具有不同的代数符号,我们就称发生 第1 8 页 了过零。短时平均过零率就是指单位时间内信号通过零值的次数,这个量可以用 来大致的估计正弦波频谱的性质。例如:一个频率为 的信号的抽样速率为正, 正弦波一个周期内有兀正抽样,而每个周期内发生两次过零,所以过零率为 2 五工。用过零率来度量语音信号的频率是不准确的,但是可以得到谱特性的粗 略估计。 语音序列为x 0 ) ,窗口序列为w ( n ) ,短时平均过零率的定义如下: z 。= i s 却 x ( 聊) 一5 加h ( 删一1 ) | w 一m ) = 1 s 如【x ( n ) 一s 纠b 一1 ) ”w ( ) ( 3 4 ) 其中: 娜h ! 。浆: 短时平均过零率也可以用来区分清音和浊音, 清音的过零率相对于浊音的要高。右图3 4 是清 音和浊音每1 0 m s 内的概率分布曲线,可以看出这 两条曲线大致里正态分布,利用它对在背景噪声中 找出语音信号和语音的起点和终点的位置都是十分 有用的。 胤 八。i m 冉黼糟簟 图3 4 过零率概率分布图 三自相关函数和短时平均幅度 语音序列为x ( h ) ,定义自相关函数: r 。( 七) = x ( m ) w 0 一册扯( 州+ 七) w ( ”一m 一七) = 【x ( m ) x ( 聊一七) 】w ( ”一卅) w ( 一川一七) ( 3 5 ) = x ) x ( m 一七) h 0 一m ) = 陋( ”) x ( 一七) + 巩( ) k ( ) 为一个线性滤波器的单位采样响应,自相关函数可以看着是语音序列 x ( ”) x 0 一女) 通过这个数字滤波器的输出。 由于语音信号的浊音有准周期性,我们可以用短时平均幅度来代替短时自相 关函数分析语音,定义短时平均幅度为: 1 三 e ( 七) = j 一l z 0 + 删) w l ( m ) 一x 研+ 七十m ) w 2 ( 州+ 七) l ( 3 - 6 ) 第1 9 页 语音的频域分析在语音信号分析处理中有极其重要的意义,在语音识别中, 许多特征参数的提取都是建立在对语音信号的频域分析基础上。频域分析具有如 下的优点:时域波形较易随外界环境的变化,但是语音信号的频谱对外界环境具 有一定的顽健性。另外语音信号的频谱具有非常明显的声学特性,利用频域分析 获得的语音特征具有实际的物理意义。 x ( 一) 为通过一个窗函数w ( ) 后切取出来的语音序列,我们定义这段语音序列 的短时傅立叶变换( d f t ) 和短时傅立叶反变换( i d f t ) 为: d f t : z ( ) = x j ( ) e x p ( 一2 m ) i 。f t : x ,( n ) = 古墓,( ) e x p ( ,2 n ”) ( o s 七一1 ) ( 0 m 一1 ) ( 3 7 ) ( 3 - 8 ) 由于d f t 的计算量很大,在计算时我们一般采用快速傅立叶变换( f f 丁) 算 法提高运算速度。 3 15 语音信号的倒谱分析 一倒谱的概念 倒谱定义为信号短时振幅谱的对数傅立叶反变换。 c ( n ) 盘z d 。f 丁( 1 0 9 1 0 l x ,( 七) i ) ( o 月一1 ) ( 3 - 9 ) c ,( n ) 第,帧语音信号的倒谱系数。 同时考虑到防( ) l 的对称性,求取倒谱系数如下: 1 型 c ,( n ) = 专l o g l o ,( 刮e x p ( j 2 m ) , ( o n j v 一1 ) ( 3 _ 1 0 ) o t = o 所谓的倒谱( c e p s ) 直接的解释有将谱线作反变换的意义,模仿英文单词 “s p e c t m m ”,其横轴是模仿英文单词“f r e q u e n c y ”,其量纲为时间。 频谱特征和倒谱特征是语音识别中十分有效的特征。我们知道语音产生的模 型实际上是由一个周期脉冲序列激励的线性滤波器,在语音识别中对语音的处理 都是分帧处理的,在一帧的时间内可以认为滤波器是时不变的,由语音信号序列 可以看作是激励源和滤波器的冲激响应的卷积,因此把语音信号作同态滤波处理, 把卷积计算变为相加计算的方法来计算倒谱,如下图3 5 所示: 第2 0 页 = := = := = 。:星些型塞窒耋丝窒塞堕兰篁篁耋 = = : : ! 斗鬲即午二 l 【。,一l - - 一 鹜3 5 翔谱特征求取过程 二倒谱的在语音识别中的用途 频谱弱毽终蒋瞧爱浚了语音懿啻靛祷 薹,嚣频谱熬缎徽结鞠爱映了音添爨鏊 本频率,通过倒谱分析,可以把频谱的包络成分极其细微的结构区分开来,所以 在语音识别中,通常手巴倒谱系数作为语音信号的特征参数米提取。 3 2 语音识别技术 3 2 1 基乎突耋耋纯瓣谖饕接零 矢量擞化( v e c t o rq u a n t i z a t i o n ) 是2 0 世纪7 0 年代束才发展起米的。他广泛的 应鼹于语畿编码、语啻谈剐秘合成,匿像鲍羼缝等领域。在语音售号处理中占十 分重要的地位。 量化可以分为两大类:一类愚标量量化,另一类是矢量量化。桥量量化是将 采样禹的绩号值逐一瓣进括量纯,这时将一维的零到无穷大值之阉设萋若干个鬟 化阶梯的德。而矢量纛亿是将若予个采样信母分成一缎,即构成一个矢量,然蜃 对此矢量谶行一次量化。它是k 维无限空间划分为r 个区域边界,每个区域称为 一个胞腔,然后将输入信号的矢爨与这些憨黢的边界进纷比较,并驶萎化为距离 最小的脆腔的中心矢掇值。矢量爨化不可避兔的会带来信惠的损失。在矢量量纯 中主要有两个问题: 1 如侮划分r 个区域的边券。这个过怒称为“训练”或建立码本。一般慕用 l b g 算法。 2 如何确定两个矢量在进行比较时的侧魔,一般采用欧式距离、似然比失真 等方法。 在语密谖嗣中鬻采用韵方法祷两稃:秃辩阐规正的矢量量纯和裔记忆的矢量 量化。 3 2 + l 。l 茏粒离燕歪戆灸藿耋证 若有m 类语音( 如m 个孤立调) ,每一类备有一组训练集, x :) ,f = 1 ,2 ,m 第2 l 蕊 一= :一星:墼燮塞塑兰堡竺圣:一:= d ( c 7 ) 。言d ( 一,* ) 1 ,= i 劳且溃是。= 3 毽趣遮娥茸,芦) 爿e c 卿 如果 d ( c ( 2 ) = m i n d ( c f ) ) ( 3 。1 3 ) ( 3 1 4 ) 翳爱类辩为谖裁缝聚,这是瓣巍焉第k 令谒率量纯输入矢量净鹅霹翡平均失 真最小。 3 2 。1 2 霄记忆的矢量爨纯 在无记忆矢量量化系统中,对于每一个输入矢量的餐化与过去矢量的量化情 况无关。而在有记忆的矢量量化祭统中,对予当前语音帧特征矢量的孱他与过去 鲍量纯拭撬奄关,这嚣裁_ 霉鞋聪羹l 语音赣之淘麓耀美整采撬高量袍静效率。 设某个词的某次发膏有t 个k 维谱矢量,每次将其中相邻的n 个谱矢量同时 量化,那么平均量化失冀为: d 。# 磊善翁1 毫) ( 3 _ 1 5 ) 其中,肖。= “,x 。,x 。+ 。 使一个谱矢擞序列,使一个足”的矩阵。 嚣 膏:= a 辖m i i l d ( x :,誓) e c 其中c 是个大小为r 的码本:c = 王:) 兰,它的每个码字都是n k 维的。 葵中失真臻l 寝霹l 冀簿亿袭示鸯: d ( x ,) c 讹廿,儿) ( 3 1 6 ) ”尸l 它是赞对每个适设诗麴玛本,褐本豹设诗也是基于0 转g 筹法,敲谖嗣靖分爨 用各个码本进行如上所述的矩阵炙量量化,将量化失真最小的码本所对应的词判 别为识别结果。 3 22 葫态时间弱正的识别技术 我们都知道,在语密识别中。简单的将输入模板与稿应的参考模板直接的作 篦较存在缀丈静袭点。掰为语音傣号其有藕警太兹涟穗饿,都使弼一个人在不潮 时刻发的同一个语音,也不可能具有完全相同的时间长度,因此时间归正处理时 必不可少的a 动态时闻弯折( d y n a m i ct i m ew a f p i n g ,d t w ) 是把时间蛸正和距离测 :;里堕墼垫奎兰至塞塞堕茎堡篁塞 : = := 度计算结合起来的一种菲线性归正技术。它是语音识剐的一种很成功的算法。在 这里我们介绍其基本原理。 动态鞋重闻弯拆实采用动态规划技术( d 辨8 m i cp f o g r 鑫| l i n g ,d p ) 将一个复杂鲍 全局最优化闽题转纯为许多局都最优化同题,一步一步地进行决策。假设参考摸 板的特征矢量序列为= 饥,岛,z ,) ,输入的语音特征矢最为y = y ,y :,n ) , ,。d t w 算法就是要寻找一个最佳的时闻归正函数,使褥待识别语音蛉妥重阕 轴,非线性韵映射到参考模板的时闻轴i 上,使总的累计失真量最小,如下围3 7 。 特识g u 的莲啬时间轴j 黧3 。7 动态辩瓣努歪过毽 设时问归正函数为: c 篇 c ( 1 ) ,c ( 2 ) ,c ( ) ( 3 - 1 7 ) n 必路径长度;# 砖= 暇h ) ,( 国) 表示簧n 个薤琵煮瓣楚峦参考摸棱的第f ( n ) 令 特征矢鬣与待测模板的第( n ) 个特征矢量构成的篮羁己点对。两者之间的躐离 d ( 。枷) ,y m ,) 称为局部匹配距离。d t w 算法就是通过局部优化的方法实现加权距 饔慧蠢最小,鄂: d ( ,y 巾) ) t 形】 d = m i n e l * ( 3 一1 8 ) 。 致 h l 式中暇是加枚函数。上式袭达的是优化过程,在这个过程中+ 可以对时间归 芷丞数e 傲一些5 裁,基保证匹配路径对零违背语毒信号各部分特缝豹瞻闻l 夔序。 一般来讲,要求归藏函数满足如下约束: 1 单调性 f ( n ) f 一1 ) ,( n ) ,0 一1 ) 2 起点积终点静终柬 f ( 1 ) = ,( 1 ) = l ;搀哟= ? ( ) = , 3 连续性一般捌定不允许掰b 过任何一点,即 f ( n ) 一f 一1 ) 1 和j ( ”) 一,一1 ) l 第2 4 爱 特麓辍 := 。:;:。= 。:垦墼墼彗查塑塞塞壁薹垡塞:= : :。: 语啬识别中的应用。期隐马尔可失模型刻蕊语酱傣号薅簧磷个镁竣,是蠹帮状 态的转移只与上一个状态有关,二是输出值只与当前的状态有关。这两个假设大 大的减低了模型的复杂渡,将语瓷器成了连$ 的特定状态,这莓串状态是不r 鞍 观测到的( 这种状态肖可熊就是满音的一个鬻素) ,蔼是以巢耱隐窘的关系与淡测 值相关联,而这种隐含的关系在隐马尔可夫横型中以概率的彤式袭现出来,模型 的输出绪臻也赣概率的形式给如。茹一方蕊,运用隐马尔可夫模型,窀很好的解 决了分类及其铷练上韵豳滩,蕊中v i t e r b i 搜索语音识别簿法很好的勰决了基尊闷黼 的规一亿问题,h m m 模型在语音识别上的应用魑一个极大的成功。但是h m m 算 法嗣祥窍蛰理论土酌疑点,其中乏一就是它骰设谣音是个严穆的马尔w 夫过程。 3 。2 ;毒耪经瓣终谖剐接零 尽管统计模型法穗语蓊识嬲中占鹰主露蛾茁,但是亳孛经网络的独特优点及强 大绱分类能力瓤输入输出映射能力程语音识粼领域缀鸯啜l 力。祷缀翳络本质上 是一个自适应非线性动力学系统,它探讨人类的神经机理,模拟丁人类神经元潺 动酌原理,其商自学、联怒、对比、推理秘概攥的能力,改进语嚣识别系统鹊性 能。将神经嘲络应瘸刘语鬻识别中,奠中最蠢散的一耱方法赣是艇蠲多层毒孛经元 镩9 络,不硒屡之间的神经元通过定的加权系数相互连搂,这些加掇系数在i j i i 练 中鑫叠敬学习。每个神经元甜所商的输入避彳亍读取,然震搬缝累传劐下一层髀瓣缀 节点上。肖很多成渤鹣研究是将神经网络和h m m 超缡台,谗为h m m 模型的懿 处理和精处理部分。 3 ,3 1 语音识别系统的分类 3 _ 3 谱舞援鬟蘸辘 语酱谈嗣系统 带来“音乐嗓声”,同时彩个采集器也不是那么现实,胤 控怒对变鹩。只有当新取褥语音驹帧长趋于秃穷太豹时候,才能近似的认为是典 有裔新纛麓i嚣器凄我销霹铲妻璧甚舅楚翻莹垂莩更二酾明融鼹褰卵莛羹箩璧 镬美露虬7 式黧罗蠹争! 瑚骑孽碰善熬谮垂嚣甄囊髓鬟i 鎏f 影蟊豇p p 黪鬻黧 型垂#美) 、大词汇赞语 密识别系统( 避常毯括忍乎及凡万个谣豹谖剐系统) ,这整不阚的词汇整识剐也确 定了语鸯谈剿豹弱建毽瘦,识剐的词汇量越大,研究和实蕊的疆难程度淑藏越大; 援矮其照务辩象分可璐分为特定八语音识别和j # 特定 语督识别。现代的语音识 = 。:一:= := :。:壁墼鏊奎篓彗墼耋鲨圣= = : ! = := : 警今采瓣静主流算法仍然是隐舄拳哥夫摸黧方法。不遭遥年来麓予种经麓络、 支持矢量机、遗传算法等语音识别技术方戥来芟。 3 3 2 诿酱设剐系绫的缝掩 语啬识别系统本质上属于模式识别的范畴,目前主流的语音识别披术是熬予 统计模式识瓤的基本理论,一个完攘的语案识瓤系统丈致分为三都分” f 2 5 胁1 : l ,话瞽特征撬取;冀强的怒获语音渡形中掇取出麓时间变纯韵语酱特征净列。 2 ,声学模型与模式旺配( 识别算法) :声学模型通常将获取的语酱特征通过学 习算法产生。在识踟时将输入的语齿特征阐声学模型( 模式) 进行医配与比较, 褥裂最傣貔谖裂缝果。 3 语言模型与语害处理:语言模型包括由识别语啬命令构成的语法网络或出 统计方法构藏的语畜模麓,语言处理可醴避杼语法、语义分析。对小词表语奁识 瓣系绕, 薹 妻不霰要诱富楚理郫分。 声学模型是识别系缆的底层模型,并且是语音识别系统中最关键的一部分a 声学摸麓驹鹣的是提供一释膏靛静方法计簿语寄的祷征矢爨序剜和每个发音横掇 之闻弱簇蔫。声学搂整瓣设计帮语囊发音特点豢弱稿燕。声学摸黧挚元大小( 字 发音模型、半音节模型或音素模型) 对语街训练数据量大小、系统识别率以及灵 活毪有较大艴影响。必须粳据不藏语言豹拳等患、识捌系统词汇量的大小决定识羽 零元骢大枣。 语商模型对中、大词汇量的诣街识别系统特别重骚。当分类发生错误时可以 掇据语富学模型、语法络构、语义学进行羯繇鲻正,祷剐燕些弼音字刘必须遥 过上_ f 文结车驽才& 确定谰义。语言学理论包括语义缝稳、诿法撬粼、器言熬数学 描述模型等有关方颇。目前比较成功的语言模粼通常是采用统计语法的语言模型 与基于簸到滠法结梭食令语言摸黧。语法绥构胃鞋陵定不鞠运之间鲍翱互连接蓑 系,减少了识别系统抟搜索空耀,邀有聪予摄离系统鳇谖剩。 根据模式识别的基本理论,采知语音的模式和已知语酱的参考模式逐进行 跑较,毂佳嚣配的参考模型就是谈剿懿缝粜。下嚣3 。8 楚攫瓣搂式疆懿鹣原理擒或 豹语音识别蘩统鲍琢理攮图: 第2 7 页 = :。:= 。= 一:。:墼墼薹鐾堡塑鎏坚;:一:;: 语誊 = 圈,网副溅徽l 蕊38 语鸯识剐系统憋主簧框架 识别结果 首竞臻入一系列琵辩麴语音搭号,提取它稍豹参数并存储在诤簿税肉释为参 考模式。待识别的语音( 语音信母) ,加在识别系统的输入端,经过预处理,提取 疆密特薤,然箍辗疆安鞣钓需要选祥语音游征参数,由邀盛特征参数韵时商穿弼 褪戏待识剐语巍模式,褥其与基存谤雾规蠹麴参考模式进行逐孛寅廷酝,最佳匹配 的参考模式就是识别缩果。 这样,最镳匿醚结果静获褥奄特征的选耩、建立的语音模墅等都脊粳大的较 为褒接弱笑蘸。 现代的语街识别系统将信号处理、模式识别、语言举、语音学等多技术领域 寄辍匏敲人戮绫诗数学方法兹程絮,著逶运舞法黎诗葵枫梭术稆鲢台的方式来实 现。蟊嚣这样翅系统能够擞到识别理解数十万条溺汇斡连续溢音售号。这种魂代 模式识别系统除了在语音领域的j :豇用外,可以广泛的应用于信号处理和模式识别 熬篡熊镶域,代表着僚号鸯信患娃鹫疑彗经戳解橱结论戢数字模拟占主辱遗位瀚 方法论穗系统王程趣现代钍丈飙模程学数撂积累淹基穗,娃簸杂系缀或过程中菊 部与整体燮互演化的功能宓现为主要目标的方法给和系统工程的革命性转变。 3 4 筵予h m m 模型语音识别系统的基本实瑷 34 1 语音识别系统的声学分析 所谓的谣裔声学分擀,就是对语裔僖号避行声学信霹处瑷,它憩搔蘸处瑾郄 特征提取。最终得到以桢为单位的语膏信号的特镊向量。语音声学分析魑为隐马 尔可夫模型鲍建摸和训练佟准备。 3 0 1 。l 羲疆理 无论袋熙弼穆特援自爨提取方式+ 语啻馁姆蓉先要经过馁娃理。它馥捺数字 七,预舰墓、分蜮、搬密、斌点捻测l ”2 1 捌+ 颈加重 旃黯页 国舫科技大学研究生院学位论文 盎予语齑菇号翡乎瓣功率港,受声门激赫粕疆彝辐射浆影璃,语啻信号瓤弱 彝辐射盾就出现衰减,因此在对语鸯分析前,甍对语啬加以提升,提升的方法有 廷静,一蹙鲻模拟电潞实现,= 燕用数字电黪实现,本文来样的是数字电路实现 预热重熬数字滤波嚣鳇形式莠; ( ) = x ( n ) 一研一1 ) ( 3 * 2 2 ) 劫) 是添始语密痔捌,y 燕颈窥重焉驹语音序列,拜是颡翩霪系数,一簸 取0 。9 l ,本文取的是g = 0 9 7 。 = 杰譬察 爨穷手语音信磅势褥垒过程躲楚“短辩势辑技术”;壤攥对谱鬻髂鼍兹磺究, 其特性是随时间变化的,是一个非平稳过程,但是虽然语街信号具谢时变特性, 健不匾瓣港游是出人黥黧缝飘褒运酾擒成疹遥豹菜转形凝谣产生瓣确鹰,嚣这耱 脱鸯运动频率相对予疆聱频率采说是稿对缓慢懿,医藤在一令短霹媳藏围杰,冀 频谱特征和某些物理特征参数可都可以近似的筲作是保持不变,近似的看成是 个稳态l 毫磴

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论