




已阅读5页,还剩60页未读, 继续免费阅读
(信号与信息处理专业论文)言语信息验证系统.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北京邮电大学硕士学位论文 言语信息验证系统 摘要 言语信息验证系统 从上个世纪的八十年代,说话人身份认证作为模式识别领域类一 个的分支,越来越受到研究人员的青睐身份认证技术分为文本无关 和基于文本的两种。文本无关说话人认证系统均是基于高斯混合模型 并结合背景模型的,这类系统忽略说话人说话的内容、语言等,因而 其工程应用价值相对较小。基于内容的身份认证技术是指通过说话人 所讲的内容,来辨析说话人的身份的技术,这种技术相对文本无关的 说话人认证有更强的实用价值,也是本课题研究的重点。 本课题着重介绍了言语信息验证技术韶与其密切相关的说话人确 认技术。对于前者,课题中讨论了h m m ,v q 和d t w 三种传统技术 的性能,并将三者相结合得到良好的系统性能。后者是一种典型的基 于内容的说话人认证系统,也是课题讨论的重点,课题中采用在线废 料模型和多层置信度的方法,并根据对h m m 模型进行评测得到的结 果,提出了对不同子词得分赋予不同的权重,并最终有效地提高了传 统的言语信息认证系统的性能。 由于内容相关的说话人认证技术与语音识别技术关系密切,尤其 好的模型是言语信息认证系统的基础,因此本课题中对h m m 的训练 进行了讨论,并通过实验得到了用于身份认证系统的h m m 模型。 课题的最后将说话人确认和言语信息验证技术相结合,提出搭建 完整的基于内容的身份认证系统的方法,并通过实验证明了其可行 性。 关键字说话人确认语义信息验证h m m 模型语音识别 北京邮电大学硕士学位论文言语信息验证系统 v e r b a li n f o r m 随t i o nv e r 匝i c a t l 0 ns y s t e m a b s t r a c t a sa l li m p o r t a n tb r a n c hi nt h ea r e ao fp a t t e mr e c o g n i t i o n ,s p e a k e r v e r i f i c a t i o nh a sa t t r a c t e da t t e n t i o nf r o mm o r ea n dm o r es c i e n t i s t ss i n c e t h el a s tt w e n t yy e a r so ft h el a s tc e n t u r y t h e r ea r et w ow a yt op e r f o r m s p e a k e rv e r i f i c a t i o n :t e x t - d e p e n d e n ta n dt e x t - i n d e p e n d e n t c u r r e n t l y , g a u s s i a nm i x t u r em o d e l u n i v e r s a lb a c k g r o u n dm o d e lb a s e ds p e a k e r v e r i f i c a t i o n , d o m i n a t e st h ef i e l do ft e x t - i n d e p e n d e n ts p e a k e rv e r i f i c a t i o n u n f o r t u n a t e l y , d u et ot h er e g a r d l e s so fc o n t e n ta n dl a n g u a g ei n f o r m a t i o n , m i sk i n do fs y s t e mh a si t si i m i t a t i o nw h e na p p l i e dt oc o m m e r c i a lt a s k s t e x t - d e p e n d e n ts p e a k e rv e r i f i c a t i o nv e r i f i e sas p e a k e rw i t ht h ec o n t e n to f u t t e r a n c e s t h i sm e t h o dw i l l g e t ab e t t e rp e r f o r m a n c et h a n t e x t i n d e p e n d e n ta n dc a nb ew i d e l yu s e di nc o m m e r c i a lt a s k s s ot h e r e s e a r c hw o r ki nt h i st h e s i si sf o c u so nt h i sm e t h o d t e x t - d e p e n d e n th a sac l o s er e l a t i o nt os p e e c hr e c o g n i t i o n ,s ow ef i r s t i n t r o d u c eh o wa nh m mm o d e lw i t hw e l lp e r f o r m a n c ei st r a i n e d v o c a l t r a c tl e n g t hn o r m a l i z a t i o ni su s e di nt h i st h e s i sa n dt h eh m mt r a i n e di s u s e di nt e x t - d e p e n d e n ts p e a k e rv e r i f i c a t i o n t h i st h e s i sg i v e si n t r o d u c t i o no ns p e a k e rv e r i f i c a t i o na n dv e r b a l i n f o r m a t i o nv e i l f i c a t i o n f o rs p e a k e rv e r i f i c a t i o n ,w ei n t r o d u c e dh m m , v e c t o rq u a n t i t ya n dd y n a m i ct i m ew a r p i n ga l g o r i t h m s s c o r e sf r o m t h e s ea l g o r i t h m sa r em e r g e da n dw ef i n a l l yg e ta g o o dp e r f o r m a n c e d i s c u s s i o no nv e r b a li n f o r m a t i o nv e r i f i c a t i o n ( v i v ) i st h ek e yp o 硫o f t h et h e s i s u t t e r a n c ev e r i f i c a t i o ni sa g e n e r a ls o l u t i o nf o rt h i st e c h n o l o g y i n l i sp a p e r , c o n f i d e n c em e a s u r e sb a s e do nm u l t i p l el e v e l so fa c o u s t i c l a y e r sa n dm o d e l sa lep r o p o s e dt og i v et h ev e r i f i c a t i o n 翻x 糨a n db a s e d o nt h eh m mm o d e lt r a i n i n ge x p e r i m e n t s w ei n 仃o d u c e dav i vs y s t e m b a s e do nw e i g h t e ds u b w o r ds c o r e a tt h ee n do ft h et h e s i s w ec o m b i n e dt h es va n dv i vt om a k eu pa w h o l es y s t e mo ft e x t - d e p e n d e n ts p e a k e rv e r i f i c a t i o ns y s t e m i t sf e a s i b i l i t y 北京邮电大学硕士学位论文 i sp r o o f e db ye x p e r i m e n tr e s u l t s 言语信息验证系统 k e yw o r d sv e r b a li n f o r m a t i o nv e r i f i c a t i o n s p e a k e rv e r i f i c a t i o n h m m s p e e c hr e c o g n i t i o n 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:日期:丝里2 :兰:! 三 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。 本人签名: 导师签名: 日期: 日期: d 夕上tr 加口2 fr 北京邮电大学硕士学位论文言语信息验证系统 1 1 课题背景 第一章绪论 语音技术是计算机智能接口与人机交互的重要手段之一,在现存的各种生物认证 技术中,作为一种方便、廉价、高效、对人体无副作用的绿色技术,被广泛应用于设 备控制、身份验证等领域语音技术包括语音识别,语音合成等。 语音识别的研究工作始于二十世纪五十年代,五十多年来随着计算机的广泛应用 和计算机多媒体、电子技术的迅速发展,语音识别技术及其应用研究越来越受到人们 的重视,也取得了一定的成果。在国外国内,具有语音拨号功能的手机、电话等一些 产品已经投入应用。语音识别系统的实用化开发研究成果已达到相当高水平。 语音识别技术从总体上看,可以粗分为语音识别和说话人识别。二者从原理上讲 并没有本质的区别,只是实现的途径和目的不同。本课题所介绍的语音识别系统,目 的是通过利用计算机处理说话人的语音,判断语音的内容,达到类似密码认证的功能。 语音技术无论是作说话人认证还是作语音识别,都遵循着如图一所示的结构。 卜圆圆囤一 l 瘳霍蛰一坝 图1 - 1 语音识别技术总体结构图 1 2 说话人身份认证概述 说话人认证最早由b e l l 实验室的p r u z a n s k y 提出【1 1 ,这里我们将其中的说话人身 份认证技术根据识别的内容,如图1 2 说话人认证系统分类所示可以分为两类:( 1 ) 文本无关( t e x t i n d e p e n d e n t ) 的说话人识别( s p e a k e rr e c o g n i t i o n ) :不规定说话人发 音的文本,模型建立相对比较困难,但用户使用方便,即不需要在给定的文本下发音, 可以说任何的内容;( 2 ) 文本相关( t e x t d e p e n d e n t ) 的言语信息验i i e ( v c r b a li n f o r m a t i o n v e r i f i c a t i o n ) 【2 1 :在训练时用户需要按照给定的文本发音,这需要系统对此建立相应 的模型,在识别时要求用户也必须按原先指定的文本发音,以比对两种声音模式是否 北京邮电大学硕士学位论文言语信息验证系统 匹配,这里的文本可以是系统固定的也可以是用户自选的。如果这个文本是系统固定 的,则将其称为固定文本的说话人确认( f i x e d - t e x ts p e a k e rv e r i f i c a t i o n ) ,另一种情 况称为用户自选密码的说话人确认( c u s t o m i z e dp a s s w o r ds p e a k e rv e r i f i c a t i o n ) 。对于 固定文本的说话人确认来说,完全是根据声纹来判断说话人的身份:而在用户自选密 码的说话人确认中,我们还能够根据不同的密码文本来区分说话人。在这一点上,用 户对后者自选密码的接受程度更高,用户感觉越安全。因此在本论文中,主要考虑用 户自选密码的情形。 r _ l 厂j l 兰至仝竺坠1l 塑堡尘鲞兰ji _ ji _ j 1 3 评测方法 图1 2 说话人认证系统分类 我们可以将说话人认证归结为这样一个统计假设检验问题,其中零假设风:认 证结果正确,与之对应的是备选假设凰:认证结果错误。说话人认证就是对零假设 进行验证。根据假设本身的性质( 真假) 与假设检验的结果( 接受拒绝) ,可能有四 种结果出现:正确接受( t a ) 、错误拒绝( f r ) 、错误接受( f a ) 和正确拒绝( t r ) , 如表1 1 所示。这里正确接受率( 瓜) 与错误拒绝率( f r r ) 之和为l ,而正确拒 绝率( t r r ) 和错误接受率( f a r ) 之和也为l 。 表1 1 假设捡- 马奎表 这样,要评价一个认证系统,可以只从两个方面来考虑:错误拒绝率和错误接 2 北京邮电大学硕士学位论文言语信息验证系统 受率,也被分别称为第一类错误和第二类错误。假设我们用一个得分人来表示认证结 果,系统给定了一个阈值0 对该得分进行判决,当人0 时接受该说话人,当a 0 时 拒绝。如图1 2 所示,用户的得分分布和冒充者得分可以认为是一个高斯分布,当给 定阈值0 时,小于0 的用户得分分布就被记为错误拒绝率砟( 0 ) ,而大于0 的冒充者 得分分布的累积概率就被记为错误接受率( 占) ,这样有: , ( ,纷 易( 秒) 2 去p 2 一西 式( 1 1 ) + - ! ! = 些 厶( 口) 2 去g 2 印前 式( 1 2 ) 这里缛,略表示用户得分的均值与方差,鸬,q 表示冒充者得分的均值与方差 e 图1 1 冒充者与用户得分分布 当判决阈值口在不断变化时,易( 口) 和厶( 汐) 也在不断改变,这两类错误可以看 成是一个以9 为变量的函数,易( p ) 单调递增,而( 口) 单调递减。接受工作特性 ( r e c e i v e ro p e r a t i n gc h a r a c t e r i s t i c s ,r o c ) 曲线可以反应出这种交换,如图1 - 3 所示。 当易( 口) = 厶( 矽) 时称为等错误率( e q u a le r r o r r a t e ,e e r ) ,当冒充者分布与用户得 分分布严格服从正态分布时,可以证明r o c 曲线将近似为一条双曲线 3 北京邮电大学硕士学位论文言语信息验证系统 错 口 1 _ 天 拒 绝 率 p 髓c o ) p 力( p ) 错误接受率 图1 - 2 r o c 曲线 为了能够使评价曲线更加直线化。可以将图l - 2 的r o c 曲线的横纵轴的错误率 映射为正态分布的标准差,这样以( 口) 为横轴,易( 9 ) 为纵轴的变化曲线就能近似 用直线表示出来,这种曲线称为检测错误折衷( d e t e c t i o ne r r o r t r a d e o f f , d e t ) 曲线 3 1 ,如图1 3 所示。最初由n i s t 提出并推广,在现行的说话人确认领域d e t 曲线已 经成为了非常标准的评价方式,在我们的系统中,也采用了d e t 曲线作为系统的评 价。 确蝴t y 对曲脚t y 硝 a o o 印l 舯嘲 峨即嘲 图1 - 3r o c 曲线与d e t 曲线 4 奢i籀董皇-罡奄奢薯叠藿善蕃善土叠墨jq薯量霍 北京邮电大学硕士学位论文言语信息验证系统 1 4 研究工作概述 整个课题的研究面向电话信道下的基于内容的说话人身份认证课题的重点在于 以下几个方面: ( 1 )模型训练:由于言语信息认证系统本质是对内容进行认证,因此一个好的模 型是言语信息认证系统性能的基础本文中对如何训练一个好的h m m 模型进行了讨 论,并采用了声道归一化方法提高模型的性能。 ( 2 ) 言语信息认证系统:在说话人认证方面,除了利用声纹进行的生物认证外, 最直接的是利用其密码内容信息验证,此项技术是近年来新兴的说话人认证方式,用 于验证用户的密码内容。从对言语信息表示的分析上看,此项技术和语音识别的关系 很大,这里本论文采用了传统的说话验证方式对语音中的内容进行验证,使用了多层 次的置信度检验公式多层置信度结合研究不同训练次数和不同层次置信度对v 系 统性能的影响,并且通过对不同子词在认证过程中对置信度的贡献不同,提出一种计 算子词权重的方法,使系统性能进一步提高。 ( 3 ) 说话人确认技术:在用户自选密码的说话人识别场合,往往需要直接对声纹 密码进行直接比对,甚至没有其文本信息,同时有可能此系统还要面对跨语种的说话 人确认。为了面对这些挑战,我们采用了传统的说话人确认策略进行研究,这些方法 是:矢量量化技术、动态时间弯折和隐马尔可夫模型。并且通过a d a b o o s t 增强学习 方法将这三种测度融合,得到更好的系统性能。 此外,文中还将说话人确认技术和言语信息认证技术相结合,得到一个统一的基 于内容的身份认证系统,同时对冒充者对说话人认证系统的攻击行为做了一些分析, 并给出相应的系统测试结果 5 北京邮电大学硕士学位论文言语信息验证系统 第二章特征提取技术 语音信号是一种冗余度很高的随机信号,进行语音信号处理的时候,需要必须经 过特征提取才能有效地降低信号的冗余度,而语音特征的提取又是通过对语音信号的 分析来获得表征语音信号的参数的。因此表征语音信号参数的准确性是语音处理正确 的保证,而提取的语音特征参数的简洁度又成为能否实时提取语音特征的关键。 常用的语音特征有时域特征( 如过零率、能量等) 、频谱特征、倒谱特征等。在 语音识别系统中,我们一般使用倒谱特征。根据语音信号的产生模型,语音信号s ( n ) 是激励信号e ( n ) 和单位冲激响应h ( n ) 的卷积,倒谱运算d ( j ( 刀) ) 的目的是把 j ( 砂= 颤帕j l ( 功 这种卷积运算变成加法运算: 式( 2 1 ) j ( 刀) = 量( 刀) + j i ,( 力)式( 2 2 ) 此过程包括三步,首先,将信号进行z 变换,卷积信号变成乘积形式: s ( :) = x ( z ) 日( z )式( 2 3 ) 再将其取对数,乘积信号变为相加的形式: l o g s ( z ) 】= l o g 【x ( z ) 】+ l o g 【日( z ) 】= x ( z ) + 日( z ) = s ( z )式( 2 4 ) 由于这个信号是加性的对数倒谱,使用起来比较不方便,经常再经过一次变换成 为时域信号,由于反z 变换保持加性,因此最后得到 z - i 【j ( z ) 】= z 一1 【j ( z ) + 疗( z ) 】= 曼( 帕+ 石( 玎) = j ( 帕 式( 2 5 ) 这样,一个非线性系统就可以转化为一个线性系统来处理。 2 1l p c 倒谱特征提取 一多音黼一冈厢一周哆量敷网! 鲥一 【j i ji j i 。一 图2 - 1l p c 倒谱特征提取过程 l p c 倒谱的提取首先由i t a l c i 啪提出【4 j 。在谱估计中有自回归( a r ) 、移动平均( i v y ) 、 自回归移动平均( 舢m 队) 模型三种a r 模型可以与基于级连无损声管的语音模型 产生联系,因此被广泛应用于语音处理中a r 模型性能的讨论大部分是建立在线性 6 北京邮电大学硕士学位论文 言语信息验证系统 预测分析( l p ) 的理论上 将语音信号看成输入序列激励一个全极点系统h ( z ) 而产生的输出: 日( z ) = 式( 2 6 ) l 一q 一 ,i i 其中,g 为增益,口为实数,p 为模型的阶数显而易见,这是一个全极点模型, 定义p 阶的线性预测器: f ( z ) = 口j z 一 式( 2 7 ) t - i 事实上,l f c 倒谱特征的提取,最核心的问题是求取线性预测方程组的解,在线 性预测分析中,一般采用两端具有平滑特性的窗函数( 如h a m m i n g 窗) ,加窗后的自 相关函数可以表示为: * i 1 r ( 七) = ( m ) ( m + 七) 式( 2 8 ) 其中,r ( 七) 为短时自相关函数,它仍然保留了自相关函数的特性,即满足偶函 数的特性,有r ( _ 七) = 足( 七) 同时,r 。( k - 0 仅与k ,i 的相对值有关,而与k ,i 的 绝对值无关,因此自相关方程组可以表示为: 兰r 日七一爿) 4 :r ( 七) ,七= 1 ,2 ,p 式( 2 9 ) - - i 其中,p 表示a r 模型的极点个数,这个自相关方程组可以理解为,用信号的前 p 个样本预测当前的样本值,将其表示成矩阵形式: 民( 0 ) 兄( 1 ) r ( 2 ) 足( p 1 ) 心( 1 ) 兄( o ) 兄( 1 ) 焉( p 一2 ) r ( 2 ) 足( 1 ) 足( 0 ) 兄( p 一3 ) 兄( p 一1 ) r ( p 一2 ) 民( p 一3 ) : 焉( 0 ) q 啦 码 : 口, 用自相关法解线形预测系数,一般我们使用列维- 德宾算法, 1 ) 初始化,e o = 尺( 0 ) 2 ) 进行迭代运算,对于,= 1 ,p ,做如下的递推运算 ,一i、, 毛= ir i - l q i - j l 矿1 7 兄( 1 ) 足( 2 ) r ( 3 ) 兄( p ) 式( 2 1 0 ) 算法的过程如下: 式( 2 1 1 ) 北京邮电大学硕士学位论文言语信息验证系统 一= 七 巧= 方1 一七l 粥,l j l = ( 1 - 砰) e 卜1 3 ) 最终结论 a j = 衫 1 歹 i 式( 2 1 2 ) 式( 2 1 3 ) 式( 2 1 4 ) 式c 1 5 ) 其中,上标表示预测器的阶数,口:即为第i 阶预测器的第j 个预测系数,e 为第 i 阶预测器的预测残差能量。这样经过递推计算后,可以得到扛l ,2 p 各阶预测器的 解。 频率响应反应了声道的频率响应和被分析信号的谱包络,经求对数后做反傅立叶 变换,得到的便是l p c 倒谱系数。l p c 倒谱系数与预测系数有如下关系: c o = l n g = 口_ + 喜( 去) q 书- m s b 式e d 气= 薯( 去) q 夕 巴 i 卅 巴 c h c l c l 式( 2 2 6 ) 图2 4 中心削波函数图 其中,在进行“中心削波”处理中,需要确定c ,的值。方法为找到语音帧的前 三分之一和最后三分之一内各自的最大绝对峰幅度i p k l 与i p k 2 ,取两者较小的一个 再乘以系数k ,一般取k 为6 0 , - - - , 8 0 。 则“中心削波”的输出信号为: 咒( m ) = c 【毛( m ) 1 式( 2 2 7 ) h i 自相关计算及基音估计 此时自相关计算的信号是“中心削波的输出以( 册) 。短时自相关函数为: n i - k 民( 七) = 儿( 胁玑( 朋+ 七) ( o 七k ) 式( 2 2 8 ) = o 则自相关函数曲线会以一定的距离出来一个峰值,其中,出现的第一个峰值的位 置即为基音周期的位置。例如,距离零点第8 0 个样本的地方出现了峰值,如果语音 信号的频率是8 k h z ,则基音周期t = 8 0 8 0 0 0 - l o m s ,基频为l o o h z 。 1 3 矗以 ,f【 i i x q 即 北京邮电大学硕士学位论文 言语信息验证系统 第三章声学模型训练 声学模型的性能是影响整个语音识别系统性能的关键部分,而后文中即将讨论的 言语信息验证系统实际上是一个变异的语音识别系统,因此有必要对声学模型的训练 进行一定的讨论。本课题中使用隐马尔科夫模型作为声学模型的,训练基于 b a u m w e l c h 算法和前向后向算法,在此基础上,使用声道归一化( v o i c et r a c tl e n g t h n o r m a l i z a t i o n ,v t l n ) 1 7 1 对模型进行改进,得到性能良好的声学模型 3 1 隐马尔科夫模型理论 马尔科夫( m a r k o v ) 模型是由a n d r c i a m a r k o v 提出的现在用途十分广泛的一个 统计模型。在它基础上,又发展了各种不同的m a r k o v 模型。隐马尔科夫模型【2 3 】是 m a r k o v 模型的一种,它在语言建模,特别是语音识别中应用特别广泛尽管有些限 制,但h m m 在这个领域仍被认为是最成功的模型之一 h m m 是在马尔科夫链的基础上发展得来的。所谓马尔科夫链,是马尔科夫随机 过程的一个特殊情况,是状态和时间都离散的马尔科夫过程,数学上的定义如下: 随机序列置,在任意时刻t ,它可以处在状态q 9o -1 9 靠,r 它在t + k 时刻所处的 状态为g ,+ 。的概率,只与它在t 时刻的状态有关,而与之前的状态无关 尸( 五+ i = g ,+ ti 置= g ,置一i = 毋- l ,五= 吼) = 户( 置“= 研+ 。i 五= 吼) 式( 3 1 ) 其中 吼,9 2 ,岛,吼+ 。( o l ,岛,oo * 9 知)式( 3 2 ) 则称置为马尔科夫链,并称只为k 步转移概率,表示如下: 弓( ,t + k ) = p ( g ,+ t = qlg ,= 圮) 式( 3 3 ) 式中,i 和j 是介于l 和n 之间的正整数,t 是正整数。当( ,t + k ) 与t 无关时, 称这个马尔科夫链为齐次马尔科夫链,此时 日( r ,+ 七) = 0 ( 七) 式( 3 4 ) 本课题中只研究齐次马尔科夫链。当l e = l 时,弓( 1 ) 称为一步转移概率,记为嘞, 也简称为转移概率。所有转移概率构成一个转移概率矩阵: 1 4 北京邮电大学硕士学位论文言语信息验证系统 j :f 1 【。吲 都渤 且有 o 呜s l 式( 3 6 ) h 嘞= l 式( 3 7 ) i = i 此外,还有一个初始概率刀= ( 磊,) ,用来描述马尔科夫链的初始状态。 h m m 与普通马尔科夫链不同之处在于,删中每次所观察到的事件并不是与 状态一一对应的,而是通过一组概率分布相联系。我们不能够直接看到状态,而是通 过一个随机过程去感知状态的存在和类型。因此,需要更多的特征来描述一个 m 皿订: n :洲中状态的个数。虽然在h m m 中状态数是隐含的,但在实际应用中, 它是由确切的物理意义的。以后的讨论中,我们将各个状态简记为 l ,2 ,3 】,在t 时刻所处的状态为吼 m :每个状态对应可能的观察值数目,在普通马尔科夫链中,此数目为l ,由此 可见马尔科夫链是h m m 的一个特例这里我们记m 个观察值为v = v l t v z ,。) 观察序列为0 = 0 1 ,0 2 ,d ,) ,在t 时刻,观察值为o i 牙:初始状态概率,与普通马尔科夫链中的概念相同; j :转移状态矩阵,与普通马尔科夫链中的概念相同: 雪:观察值概率矩阵,( k ) x ,在普通马尔科夫链中,此概率矩阵为l 行l 列 值为l 的矩阵。 6 肚= 尸( 匕= 圪i 吼= 嘭) ,l n ,l 七m 式( 3 8 ) 基于这些参数,h m m 产生观察序列d = d l ,0 2 ,d ,) 的过程可以描述如下: ( 1 ) 根据初始状态概率分布石,选择一个初始状态毋= , ( 2 ) 置观察时间卢l ( 3 ) 根据当前状态下观察符号的概率分布雪,选择q = k ( 4 ) 根据状态转移矩阵j ,从当前状态g = f 转移到下一个状态g | h = j ( 5 ) 置卢t + l ,如果t t ,则返回第三步,否则结束 这样,我们可以把一个洲记为 名= ( ,膨,乃4 b ) 式( 3 9 ) 1 5 北京邮电大学硕士学位论文 言语信息验证系统 可以简记为 3 2h m m 的分类 名= 阮彳,b 一)式( 3 1 0 ) 3 2 1 按状态转移概率矩阵分类 ( 1 ) 各态历经型( 遍历型) 各态历经型,是指经过有限的转移步之后,系统能达到任何一个状态。这样的 h m m 的状态转移矩阵中的每一个元素均大于零,没有零元素。显然,各态历经性不 满足时间顺序的要求,只能用于不要求时间顺序的语音信号处理,例如与文本无关的 说话人识别系统。 ( 2 ) 从左至右型 从左至右模型,就是随时间的推进,状态的转移只能够从左向右或者是停在原来 的状态,而不能出现返回以前的状态。因此,其状态转移矩阵具有如式式( 3 1 1 ) 的形 式,它是一个上三角矩阵,即从编号高的状态跳转到编号低的状态的情况不存在 q i a i z 0 a n 0o 吗 对考虑时间变化的信号时,利用从左到右的h m m 建立模型比较合适,因为它反 应了时序结构,因此,语音识别中一般使用的都是从左到右h m m 。 3 2 2 按输出概率矩阵分类 ( 1 )离散型h m m 在3 1 中我们介绍的就是离散删。在这种h m m 中,每一个状态的输出概率 是按照观察字符离散分布,每一次转移时输出的字符,是从一个有限的离散字符集中 按照一定的离散概率分布选出的。在使用离散型t t m m 时,需要对语音特征参数向量 进行量化,之后转化成一个符号的码表形式量化过程中带来的误差会影响识别率, 但是由于其计算量较少,计算速度比较快,因此易于实时实现。本课题中也使用这种 离散h m m 。 ( 2 )连续型h m m 由于离散型h m m 中的量化误差会影响整个系统的识别性能,为了提高系统的识 别率,又提出了连续概率分布的h m m ,简称c h m m 在连续h m m 中,由于可以 1 6 北京邮电大学硕士学位论文言语信息验证系统 输出的是连续值,不是有限的,所以不能用矩阵表示输出概率而是用概率密度函数 ( x ) 表示。其中x 是多维矢量,( x ) 一般用高斯概率密度函数: ( x ) = p ( x 协,) = 西南e x p 一三( x 一心) 写1 ( x 一鳓) ) 式( 3 1 2 ) 另一方面,由于在实际的语音信号处理系统中,往往用l 个高斯密度函数不足以 描述语音参数x 的输出概率分布,所以引入了一种。m 元高斯混合密度函数”,即用 多个高斯概率分布的加权组合来表示输出概率密度函数: ( x ) = ( x ) = 薹南e x p 一互1 ( x 一) :( x 一) 。) 式( 3 1 3 ) 2 刍历1 三= 了唧t 一互x - 品x - l 式3 j 3 ) 这里是混合系数,又称分歧概率;( x ) 叫做分歧密度。这种h i v i m 被称为 连续混合密度h i v f l v l ( c m h m m ) 。对于与说话人无关的语音识别,由于语音参数分 布比较散,所以c m h m m 使用比较多,本课题中就是使用这种h m m 。 3 3 模型基元描述 如之前提到的,子词基元分为类音素( p h o n e m e 1 i k e ) 单元和声学分割( a c o u s t i c s e g m e n t a t i o n ) 单元两类 类音素单元的确定完全是根据语言学上的定义,一个类音素集的构成往往和语言 的特性关系最大。例如,在汉语中,拼音可以作为类音素集构成的基础参考,而在英 语中,音标是最简单的类音素集定义方法。在类音素单元的训练过程中,对于一个词 组,首先将各音素单元做等时间的分割。之后选择所有含有相同音素符号的词组
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 核电站钢结构模块化吊装工程验收及保修协议
- 返乡标兵就业协议书
- 项目结束清算协议书
- 事故车转让理赔协议书
- ktv管理承包协议书
- pvc水管合同协议书
- 逆风集团攻略协议书
- 门店部分转让协议书
- 养殖羊合作合同协议书
- 修理厂车辆质保协议书
- 《能源转型绿色发展》演讲课件
- 医疗器械购置审批制度
- 2024版民政局离婚协议书格式范文
- 安检五步法的安检流程
- AQ/T 2076-2020 页岩气钻井井控安全技术规范(正式版)
- 肿瘤学概论课件
- 外挂悬挑式花篮盘扣脚手架施工方案5-16
- HJ 651-2013 矿山生态环境保护与恢复治理技术规范(试行)
- 关爱生命-急救与自救技能智慧树知到期末考试答案章节答案2024年上海交通大学医学院
- 2024年浙江省金华市东阳市中考二模语文试题(原卷版+解析版)
- 幼儿园高瞻课程
评论
0/150
提交评论