




已阅读5页,还剩59页未读, 继续免费阅读
(计算机科学与技术专业论文)基于hmm的说话人识别改进研究及应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
作者从浇话人识别的各个角度进行了研究,实现了包括语音采集、特征提取 直到产生识别结果的在内的说话人i 别系统。在该系统的基础上,做了下列几个 方面的改进研究: 1 得分计算方法的改进 陌音中有很多的特征能够反应晓话人识别的性能, 但是所占的比重不样,传统的说话人识别得分计算同等对待所有特征。引入假 设检验原理到说话人识别中,建立反模型,可以消除掉无关因素的影响。本文中 讨论了两种反模型的建立方法。考虑到这两种模型可以优势互补,提出了一种结 合的方法,改进了性能。l 2 训练方法的改进日l h m m 用密度函数来模拟特征的分布,但是这种模拟 和实际情况有一些偏差。另外,基于最大似然准则的说话人识别只用说话人自己 的数据来训练,不能有效刻画说话人之州的差异。而基于最小分类错误准则 ( m c e ) 的方法能解决上述两个问题。本论文讨论了m c e 方法并在闭集说话人 系统中实现并做了改进。y 3 内嵌语音识别的说话人识别在实际情况下的应用f l 说话人识别的性能现 在还不能满足实际环境的要求,而语音识别的发展已经比较成熟。所以,融合说 话人识别和语音识别来进行身份认证是一种能满足实际要求的可行方法。论文讨 论了各种融合的思路,并基于离敬数字音简单地实现了融合。, 关键词:说话人识别、隐马尔可夫模型、反模型、语音识别 雀fh m m 的波i 。人识州改逍m l 驶川 a b s t r a c t t h i st h e s i ss t u d i e st h ei m p r o v e m e n ta n da p p l i c a t i o no fh m mb a s e ds p e a k e r r e c o g n i t i o n s p e a k e rr e c o g n i t i o n w a sab i o m e t r i c st h a t r e c o g n i z ep e o p l ev i a t h e i r v o i c e ,a n di - i m mw a st h eb e s ta n dp r e v a i l e dm o d e li nt h ef i e l do fs p e a k e rr e c o g n i i t o n t h ea u t h o rd i s c u s st h eh m mb a s e ds p e a k e rr e c o g n i t i o ni n r a r i t ya s p e c t sa n d f u l f i l l e da r e c o g n i t i o ns y s t e m ,i n c l u d i n gs p e e c hc o l l e c t i o n ,f e a t u r ee x t r a c t i o na n dg a i n t h er e c o g n i t i o nr e s u l t s o m ei m p r o v e m e n th a v em a d eb a s e do nt h es y s t e m 1 t h e r ea r el o t so fs p e e c hp a r a m e t e r sc o u l dm o d e lt h ec h a r a c t e ro ft h es p e a k e r b u tt h e i rw e i g h t sa r ed i f f e r r a t h e rt h e e q u a l l y d e a lw i t ht h e s e s p e e c h p a r a m e t e r s ,w ef o r m u l a t et h er e c o g n i t i o np r o b l e ma s ah y p o t h e s i s t e s t i n g p r o b l e m i m p l e m e n ti tb yt r a i n i n gt w oa n t i s p e a k e rm o d e l s a n da d o p ta l i k e l i h o o dr a t i ot e s tt oe l i m i n a t et h ep a r a m e t e r sw i t h o u tt h ed i s c r i m i n a t i n g a b i l i t yc o n s i d e rt h e s et w oa n t i s p e a k e rm o d e l sb a s e d o nd i f f e r e n tp a r a d i g m s , t h e yc a nb ec o m b i n e dt of o r m u l a t ean e w m e t h o d ,w h i c he f f i c i e n t l ye n h a n c e t h ep e r f o r m a n c e 2 u s i n gh m l v l ,t h ed i s t r i b u t i o no ff e a t u r e sw a sf o r m u l a t eb yd e n s i t yf u n c t i o n , w h i c hd i d n tm a t c ht h e f a c t ,r e s u l t i n r e c o g n i t i o n e r r o r f u r t h m o r e c o n v e n t i o n a ls p e a k e rt r a i n i n ga l g o r i t h m sa r eb a s e do nm a x i m u ml i k e l i h o o d ( m l ) e s t i m a t i o no ft h em o d e id i s t r i b u t i o na n dt h ep a r a m e t e r so ft h es p e a k e r m o d e l sa r ee s t i m a t e du s i n go n l yt h et r a i n i n gd a t af r o mt h es a m es p e a k e r t h e s e p r o b l e m s c o u l db es o l v e d b y an e wf o r m u l a t i o ni n s t e a d t h e f o r m u l a t i o na i m e da td e f i n e dam i s c l a s s i f i c a t l o nm e a s u r e m i n m i z et h e m i s c l a s s i f i c a t i o ne r r o r i i m p l e m e n t t h ef o r m u l a t i o ni nc l o s e s e t t e x t - i n d e p e n d e n ts p e a k e ri d e n t i f i c a t i o n 3 ,t h ep e r f o r m a n c eo fs p e a k e rr s e c o g u i t i o nw a ss t i l lc a n 。tr e a c ht h er e a l w o r l d d e m a n d b u tt h es p e e c hr e c o g n i t i o nc o u l d s o 、t h ec o m b i n a t i o nt h et w ow a s af e a s i b l et e c h n i q u ef o rs p e e c hb a s ep e r s o n a lv e r i f i c a t i o n 1d i s c u s s e dv a r i t y o f c o m b i n a t i o ni d e aa n d i m p l e m e n tu s i n gi s o l a t e dd i g i ts p e e c h k e y w o r d :s p e a k e rr e c o g n i t i o n ,h m m a n t i - s p e a k e r m o d e l s p e e c h r e c o g n i t i o n ,m c e 培于h m m 的说i 舌人识别改进研究及乓应用 1 1 身份认证 第1 章引言 在我们的生活中,有很多的场合需要身份认证。身份认证也就是鉴定一个人的真实身份 或者确定一个人所宣称的身份与他的真实身份是否符合。 网络信息化时代的一个特征就是身份的数字化和隐性化。如何准确鉴定一个人的身份, 保护信息安全是当今信息化时代必须解决的一个关键社会问题。 身份认证的方法一般是把身份认证的问题转化为鉴别一些标识个人身份的事物,这包括 两个方面:( 1 ) 身份标识物品,比如钥匙、证件等;( 2 ) 身份标识知识,比如用户名和密码。 在一些安全性要求严格的系统中,可以将这两者结合起来,比如a t m 机要求用户同时提供 a t m 卡和密码。 以上两个方面都是传统的身份认证方式。这两种方式在现在都有了了长足的发展。比如 各种证件防伪技术的采用。而对于密码的使用,现代密码学和各种其他技术的发展使得密码 在网络系统已经能够安全的使用。用户认证的机制主要包含三种:基于d c e k e r b e r o s 的认 证【l 】,基于公共密钥的认证,基于挑战,应答的认证。 尽管这些方法取得了长足的进步,但是这些方法还是存在固有的问题,就是无法区分真 正的拥有者和取得身份标识物的冒充者。而基于生物特征识别的身份鉴定技术就能够克服以 上的问题, 简而言之,我们可以把身份认证的方法分为一下三类: 1 你拥有些什么? ( w h a t y o u o w n ? ) 2 你知道些什么? ( w h a t y o u k n o w ? ) 3 你“是”什么? ( w h a t y o u a r e ? ) 传统的方法是前两种,而生物认证的方法是第三类。 1 2 生物认证技术 生物认证技术,也称为生物测定学技术、生物识别技术,是指以人们自身的物理特征作 为身份认证依据的技术,这些特征称为生物特征,包括生理特征和行为特征两类。生理特征 是人们在生理结构上就存在的,如指纹、面孔、视网膜、虹膜和d n a 等,行为特征是人们 行为过程中动作的特征,如卢音、签名的动作、行走的步态和击打键盘的力度等。生物认证 技术从根本上区别于传统的基于“你所拥有的东西”或者“你所知道的东西”的认证技术, 真正以人臼身作为身份认证的依据,自己真正代表了自己。 j 然不娃人f f j a 任河生理或者行为特征都可以作为生物特征用于生物认证技术需要具 第1 盯 基于h m m 的说话人识别改进研究及其应用 有如下几个属性: 瓤多t 六即每个人都应该有: 攒静拦,即没有两个人有同样的特征; 虐碧丝,即这个特征是不会变化的; 刃敬集店i 即这个特征是可以量化度量的。 在实践中,还要满足一些其他重要的要求 5 】 ( i )拦膨:指的是可以达到的身份鉴别的精确度,达到可以接受得精确度所需要的资 源以及影响精确度的工作和环境因素; 以f j 可爱受t 垒指的是人们接受这个生物特征认证的最大限度j ( i i i ) 安全拦膨:系统是否能够防止被攻击: t ( i v ) 是否具有相关的、可信的研究背景作为技术支持; ( v ) 提取的特征容量,特征模板是否占有较小的特征空间; “f j 纷荇:是否达到用户所接受的价格; “f f j 透4 参是否具有较高的注册和识别速度; ( v i i i ) 是否具有非侵犯性; 到目前为止,还没有任何一种单独的生物特征可以满足上述的全部要求。基于各种不同 生物特征的身份鉴别系统都有各自的优缺点,适用于一定的范围。 目前已经存在和正在研究的用于生物认证技术的生物特征有:脸部、指纹、手形、击键、 手背脉络、虹膜、视网膜模式、签名、声音、红外脸部温谱图、气味、d n a 、步法以及耳 形”。这些特征都在一定程度上满足了对生物特征的要求。其中有些特征已经被用于实际 的系统,有些具有变成有效的生物特征技术的潜能。 1 3 说话人识别 说话人识别指的是根据说话人所发语音,确定出说话人是谁的过程,也就是基于声音这 种生物特征作为身份认证依据的识别技术。为此,需要从各个说话人的发音中找出说话人之 间的个性差异,它涉及到说话人发音器官上的个性差异、发音声道之间的个性差异、发音习 惯之间的个性差异等不同级别上的差异。说话人识别是交叉运用心理学、生理学、语音信号 处理、模式识别、统计学习理论和人工智能的综合性研究课题。 以人们的语音作为身份认证的手段,据说是从1 6 6 0 年英国查尔斯一世之死的判决开始 的,首次利用语音作为推断犯人作案的线索f 6 1 。其后随着技术的发展,电话克服了距离的 障碍,录音手段克服了时间的障碍,从而使得对语音的说话人个性的分析得到了关注。从 1 9 3 7 年开始,以c a l i n d b e r g h 先生的儿子拐骗事件为开端,对语音的说话人个性开展了 科学的测量和研究。1 9 4 5 年,美国贝尔实验室的r k p o o r e r 发明了语音频谱图,能把所谓 的声纹( v o i c e p r i n t ) 目动描述出来。1 9 6 2 年,贝尔实验室的l q k e r s m 第一次介绍了采用 上述方法进行说话人识别的可能性。1 9 6 6 年,美国法院第一次采用此方法进行了取证 3 1 】。 第2 页 基于h m m 的说活人识别改进研究及其应用 近年来,无论是在语音特征提取还是在识别模型方面,说话人识别的研究都取得了很大 的进展。原先的说话人识别,往往是用视觉来判断声音频谱图,或者用听觉判断是谁的声音。 随着计算机的发展,自动说话人识别( a s r ) 的研究得到了迅速的发展,自动说话人识别是 指利用计算机技术,不需要人们的干预,自动的进行身份认证。本文所说的说话人识别,均 指说话人的自动识别。 1 4 隐马尔可夫模型 1 4 1 基本概念 从8 0 年代中期开始,随着b e l l 实验室r a b i n e r 等人对h m m 在语音识别中应用的深入 浅出的介绍 7 】,在语音处理领域得到了广泛的应用【8 ,9 】现在在说话人识别也有了一些成功 的运用。 m a r k o v 链是m a r k o v 随机过程的特殊情况,即m a r k o v 链是状态和时间参数都离散的 m a r k o v 过程。实际中,m a r k o v 链的每一状态可以对应于一个可观测到的物理事件。 h m m 是在m a r k o v 链的基础之上发展起来的。由于实际问题比m a r k o v 链模型所描述 的更为复杂,观察到的时间并不是与状态一对应,而是通过一组概率分布相联系,这样的 模型就称为h m m 。它是一个双重随机过程,其中之一是m a r k o v 链,这是基本随机过程, 它描述状态的转移。另一个随机过程描述状态和观察值之间的统计对应关系。这样,站在观 察者的角度,只能看到观察值,通过一个随即过程去感知状态的存在及其特性。因而称之为 “隐”m a r k o v 模型。 隐马尔可夫模型能成功运用是因为隐马尔可夫模型特有的双重随机性能可以描述语音 信号的短时平稳性和总体非平稳性,同时又提供了一套完整的训练和解码算法,非常易于实 现。在连续语音识别上h m m 的优点在于可以把单个基元的h m m 级联成为一个大的句子级 的h m m t 从而可以按照和基本h m m 相同的方式进行描述;另方面它可以和高层的语言 知识即统计语言模型( s l m ) 无缝的结合起来,使得整个连续语音识别过程可以用一个统 一的概率统计模型表示出来,得到一个整体的解决方案,因而h m m 在连续语音识别上获得 了空前的成功,可以说,h m m 方法的引入是语音识别技术在短短几十年里就和产生了实质 性突破的主要原因。 由图i 可以看出,h m m 很适合于表示连续特征串,可以把一个一个小的h m m 组成一 个大的h m m ,图中每个模型有若干个状态组成。如果把整段特征矢量串看作一个h m m , 则可以把每一个模型看作一个大h m m 的状态。 墨l z x j 签女。:x j ,x h x d 一- x p x 口x r n j r ? 7 7 。r 一? r o 一o v 。r - 一k v l j v l :一k ,r - 状态1 状悉2 状态2 苎态l,、状态1,状悉l 状丢2 状态2 、v - j = :! ? 一、,一k 、一 模型i 模型2 摸垂o 图1 对应一段特征矢量串的h m m 结构图 旃3 页 基于h m m 的说话人识别改进研究及其应用 一个h m m 2 = ( 口,a ,b ) 由以下的特征描述: m a r k o v 链的状态数目n 每个状态能对应的特征数目m 马尔可夫过程a = ( 口口) ,a = p q = s ,lq i = s ,】, 1 f ,j n 输出概率函数b ;( b i t ) b ,( q ) ,b ( q ) = h 0 f iq ,= s j 】。h m m 的输出概率函数分为离 散函数和连续函数。离散输出函数一般用矢量量化( v q ) 函数模拟,而连续函数一般用混 合高斯函数( g m m ) 模拟。 状态初始值口,= p g l = s i 】 l i s n 应用h m m 到实际问题中,有三个基本的问题要解决: 已知观察值特征值序列o = o l ,d 2 ,q 和模型参数 ,如何有效地计算出p ( o l0 ) ,即 这个模型生成此特征的概率。这个问题也叫做评估( e v a l u a t i o n ) f 司题。 已知观察值特征值序列o = o r , 0 2 ,0 ,和模型参数z ,在最佳的意义上确定一个状态 序列的问题。在这里,“最佳”指使p ( o i a ) ) 最大。这个问题也叫做解码( d e c o d i n g ) i a 题。 h m m 参数如何估计,即训练问题,如何调整模型参数,使p ( o | ) ) 最大化。 前两个问题比较容易解决,而且都有了经典的算法。 1 4 2 h m m 的种类 按照h m m 状态之间的联系,h m m 一般可分为两种,叫做遍历h i v i m 和自左至右h m m 。 对于遍历h m m 任意两个状态之间的转移都是有可能的。对于自左至右h m m ,有 d ,= 0 ,p i + 1 ,即一个状态只可能转移到自身或者下一个状态。自左至右h m m 的应用比 较广泛。 另外还有一种h m m 模型是线性预测h m m ,也叫做高斯自回归h m m 。 线性预测h m m 是以语音处理中著名的l p c 分析理论为基础。 l p c 的基本概念是,一个语音抽样能够用过去若干个语音抽样的线性组合来逼近,通 过使实际语音抽样和线性预测值之间差值平方和达到最小值,能够唯一决定一组预测器系 数,这就是l p c 系数。 线性预测h m m 的输出概率函数为: 6 ,) = ( 扫) 坦e x p 一j ( j ;叫 其中,k 为归一化语音帧的帧长,a 为描述b ,( x ) 的参数,是一组系数。 第4 页 基于h m m 的说话人识别改进研究及其应用 i 4 3 经典问题 应用隐马尔可夫模型解决了三个经典问题,标志着隐马尔可夫模型走向了实际应用。下 面介绍一下这三个经典问题的具体解决办法。 1 评估问题 第一个问题的解决有两个经典的算法,叫做前向算法和后向算法。 a 前向算法:定义前向变量嘶( f ) = e ( o l 0 2 ,o t ,吼= 0 i , ) , i fs n ( 1 1 ) a 初始化: 口l ( f ) = 厅。b ( 0 1 ) , l f s n ( 卜2 ) b 递归:a t + 1 ( ,) = 口。( f ) 口】6 j ( d 。+ 1 ) , i - t t - 1 ,l j ( i - 3 ) n c 签结p ( o a ) = 口r ( f ) b 后向算法:定义后向变量 屏( i ) = p ( o t + i ,0 f + 2 ,一,0 7 q t = o i ,五) , 1 蔓t t 一1 a 初始化: 屏( i ) = 1 , l f n ( 1 - 5 ) ( 1 - 6 ) ( i - 4 ) n b 递归属( f ) = 口口b ,( d f + 1 ) 屈+ l ( ,) , f = t - 1 ,t - 2 , - - - , 11 n ( 1 - 7 ) c 鲧结:p ( o 2 ) = 屈( f ) ( 1 - 8 ) 2 解码问题 这个问题也有一个经典的算法叫做v t e r b i 算法 算法叙述如下:定义玩为时刻f 时沿一条路径g l ,9 2 ,q ,且q 。= p ,产生特征序列 o 。、o :o ,的最大概率,即有 j ,( f ) = m a x ( q l , q 2 ,碍,q 。= 0 ,0 1 ,0 2 ,一o ,兄) ”“2 , q t - i ( 1 9 ) 求取最佳状态序列q 的过程为 a 初始化: 函( f ) = 巩b i ( 0 1 ) ,妒1 ( f ) = 0 1 s i s n ( 1 1 0 ) b 递归:t ( _ ,) 。m 。a ;。x 4 一i ( f ) 口p 】6 j ( q ) , 2 t r ,l j 玉n ( 1 - 1 1 ) 纪( j ) = a r g m a x 4 一i ( i ) a 。】,2 ,t ,1 n ( 1 1 2 ) i s j s n c 斑结:p m 。a ;。x 6 r ( 例 g ;- m g 。m :a x 6 r ( 第5 页 毕j h m m 的说【 人氓别改进 - j l 冗戊j l f f , 用 d 状态序列求取: g ? = 纪+ l ( 叮二) , ,= t l ,t 2 一,l( 1 一i 4 ) 对皓音处理戍惭言而呀x p q 。m 张j 二是善p ( q ,叫五中举足轻重的唯一 成分冈比使川呀x p a ,d ,彻荨p ( q d 肠蜡琊么v 沁惭粥她能瞅计 算p ( o ,五) 。 3 训练问题 解决第三个问题也就是h m m 训练的问题,h m m 的训练是h m m 麻j 目中最关键的问题。 解决这个问题基本的算法有两个,都是基3 - - m l e ( m i n i m u m l i k e l i h o o d e s t i m a t i o n ) 准 则,是最人似然估计。分别是b a u m w e l c h 算法和v i t e r b i 算法。算法是利川递门的思想,使 p ( o ,五) 局部极人t 即找定模酗的参数,使五= a r g m a x p ( x l ) 最后得到模型参数 五= ( 盯,a ,b ) 。 对丁训练问题,还有很多其他的改进方法,将在第三章中详细介耋f 。 b a u m w e l c h 算法 由第一章( 1 ) 和( 5 ) 定义的前向莆i 后向变鼙有: p ( o 2 ) = z 口t ( i ) a 。b ,( q + ) 屈+ l ( j ) ,i 曼f t - i t 。l j 。1 ( 1 1 5 ) 定义i 。( i j ) 为训练0 和模型 时,时刻t 时m a r k o v 链处r0 ,状态羊时刻t + l 时为o 状态的概率即 f r ( j ) 2p ( o - q ,2 0 i , q ,十l2 口, ) 【1 1 6 ) 可以推导山:告,( f ,j ) = 口f ( f ) n 。b ,( d ) 卢( j ) p ( o ) ( 1 - 1 7 ) 骄么,时刻t 时m a r k o v 链处j - :状态的概率为: 品( , = p ( o g ,= 岛i a ) = 毒( j = 口r ( i ) b t 0 3 1 p ( o i a ) ( 卜i sj v 定义h ( n 为:状态s 疗:t 时刻的慨率值t , f jy ,( f ) = 毒j j = l 呵以甜: z t j 2j 7 1 l z ,:扎门f 堆十h m m 的说活人识别改进研究搜j c 心用 弓( 女) = n ( ,) ,h ( ,) ( 1 - 2 1 ) 仁lt = l 口= v k 反复迭代,直剑收敛。在说活人识别的麻川中一般只要迭代二次就够了。 v i t e r b i 训练算法 v i t e r b i 训练算法是b a u m w e l c h 算法的改进。 v i t e r b i 算法和b a u m w e i c h 算法的思想是一致的。部是通过t 时刻从状态i 到状态i 的 概率来计算住训练特征序列输出的时候( 时刻i 剑时刻t ) i 到j 的转移发生次数的期望值 ( 域称为计数) ,由此米估计a u 和b j ( k ) 。和b a u m - w e l c h 算法中计算鼻( j ,) ( 公式2 0 ) 不同, v i t e r b ii j i l 练算法中概率根据v i t e r b i 搜索得到的最佳路径x l t + i 来计算,弓成公式为: 州) = :z 。i , q 。o j ( 1 - 2 2 ) 川新的h ( i ,) 代替旧的毒( j j ) 即可得剑v i t e r b i 训练算法。 可以看到,h ( f ,) 在任一时刻t 只有一个值( 对应一个转移) 为l ,对应其他的转移的 值则全为0 。也就是说,在任一刻此算法的数据只对一个转移的参数估计有贡献,不同的转 移在这个时刻不能共享训练数据。而b a u m w e l c h 算法的数据对多个转移的参数估计都有贡 献不同的转移在这个时刻可以共享训练数据。冈此,为获得同样的训练效果,v i t e r b i 算法 要求的训练数据量比b a u m - w e l c h 算法多但他的速度要怏得多,在训练数据比较充分的情 况f 易丁使刖。 连续h m m 对丁i 连续h m m ,b a u m - w e l c h 算法中的重估公式,需要对b ( x ) 加以一定的限制才能成 立,b a u m 等人给出重估公式时,要求b j ( x ) j , j 一个对数凹函数,后来,l i p o r a c e 引h f a n 提 山的表达定理,重新定义了辅助函数,将h ( x ) 的限制拓宽为椭圆对称多变鼙分布函数,即 有 b j ( x ) = f r i _ 2h j ( 占j ( x ) )其中g j f x ) = ( x 一叩) 丁尺一x 一叩,) 为一个 止定一次州。j u a n g 筲人进一步放宽了b j ( x ) 的限制,认为重f 占公式成立基础可以扩展为:b ( x ) 链对数凹函数、椭吲对称函数以及他州的线陛纲台,由丁这种线性细合可以逼近f 艮多有时间 意义的函数形式,从而为迮续h m m 住语音处理中的声川打p 了i 坚实的基础。 当然,不同形式的b ( x ) 是由不同的参数米描述的,而竹计这种参数的重竹公式也是不 ”的。这里以一种j 泛戍川的概率幽数一高! 圻叫b ( x ) 为删: kk b j ( x ) = c j k b h ( x ) - c j k n ( x 叫旷u 川i ! j n ( 1 - 2 3 ) 女= lt = 1 k ,肛7 , j , t :j f l i 、j l ,u , 乃寸莘m k 山j i d i ? 眦? 钙1 赦c 肚乃爿i 介系数r 1 c 止 = l 辘u 则町推导 u 连续概率的h m m 重f 占公式为 且 i 止= 彳专一 ( 1 - 2 4 ) 蹦) ,= l t = 】 u 业= 7 ,( 0 h ( t ) r y ,( ,女) ( d r 一掣斗) ( d r 一肚) r h ( ,女) f :i ( 1 - 2 5 ) ( 1 - 2 6 ) 其中h ( t ) 为在时间t 时,序列0 。的第k 个分堵处于状态j 的概率即 7 ,( k ) = 口。( ) 反( 1 q ( ,) 屏( , c j k o ( o t 业u 业) 可一 c p ( o 一u 。) ,t = i ( 1 2 7 ) 这二个公式的推导时比较直观的,一c j t 表示特征第k 个混合分苗由状态j 表现的总数目 和所有的特征分昔由状态j 表现的总数目的比值。 1 4 4 h m m 的固有不足与解决办法 尽管住说话人识别手语音识别领域,h m m 的应j + j 取得了巨人的成果。但是,也要看纠 h m m 本身所具有的缺陷。 最t 婴的缺帑f 丁这种方法是毪土佐连续观察值( 语音帧) 序列烛独立的这种暇设之上 丁 n 勺u 即观察序列的慨率值可可为单独概率的乘积。p ( 0 1 0 2 ,d r ) = 兀p ( o ,) 。现住所有 怍i 的训约、弹i 上f f :址以返个骶睾的弛j t 山 仃提的。汀上献提m j _ 冲新n 勺h m m 结糊能拦脱这 个啦蝉1 1 0j , 其i j :,似改近续h m m 帕眦察仉溉# 分币”r 以f “灯的g m m 米丧1 i ,是这种帜改与 戈e 示瞒i 址j | 小砧、j 。戈:环 :! _ 己,这f 难j 9 # 蛆,猜5t th7 jm c e 寸法钾决 、nk 坫卜h m m 的浇l 一k h 刷改进1 0 1 ,己歧j u 一, h 1 5 应用前景 信息时代的一人特祉就是身份的数字化制强性化如何准确鉴定身份,保证信息安全 呢? 信州 号、银行帐号、网络登录:j ,我可能被生活中过多需要记忆的密码搅得心烦, 如 口f 不_ l j 记忆这些密码而义不川担一c 自己身份无法认定呢? 已经兴起的生物识别技术止女r 可以解决上述问题。 生物识别技术虽然在机场、银行、公安等方面有j 。阔的应州前景,但是它最有戍_ l 】前途 的地方还是在电子商务领域。预计剑2 0 0 2 年,全球通过入门网站达成的贸易额将达5 万亿 美元。此外,到2 0 0 5 年全球冈特网州户将达到7 6 5 亿。与此同时,网络黑客的破坏活动 也会层出不穷,人们不难想象信息安全如果得不到保障会造成多么人的损失。鉴丁生物识别 的可靠性,朱来人们在上网购物或者交易时,首先住声音上进行身份认证,这可以保证网络 管理机构有效监督网络交易的参与者人人降低不法分子对网络交易的破坏活动。 说话人识别作为生物认证技术的一种,有它独特的优势。主要表现在: 说话人识别有着天然的优点,即以声音作为是非接触的、自然的,用户容易接受。在说 活人识别中,明户不用刻意的将手指放住传感器上,或者把眼睛凑向摄像头,只需要简单的 说一两句话,就足够了。特别对r 文本无关的说活人识别,话语的选择全在丁用户,想说什 么就说什么。 对丁远程应州,如通过电话进行身份验证,声音恐怕是目前已知的唯一可h 的生物特扯, 说话人识别所朋剑的设备成本相对比较低。输入设备如麦克风、电话活筒笛:进行采样、 越化、特征提取对芯片的要求也不赢:对幞型训练、匹配也只需要 ! 誓通的服务器或者专h j 硬 什即可。另外由丁普遍存住的电活网络和壶克风、电脑的一体化,说话人识别系统的代价也 i 乍就仅仅是软什上的花费了。 其他生物特n e i _ f ! ) ;i j 技术的缺点。指纹识别技术确实已经根成熟了,怛州户的接受度不高。 人仃j 经常把指纹同把轿联系在一起不p 生足另外一个不利冈素。虹膜、视网膜识别技术的 精确度虽然很高,也很能烂最精确的生物特址了旦所需的殴备i r 常昂贵行且据研究,这 些特征中会包含川户的健康j 状况信息,人众接受度不高。脸部、步法、。n 键笛特祉,虽然比 较臼然,川户也弈易 安受皿实现难嗖艘人。 1 6 所作工作和论文组织结构 本文的l 作l 要地以r 二个方面: 菏先,从政进说活人的训约;踅1 j 圩究了- 罄1 - 撮小t f 谍分类( m c e ) 方法,诈往说活 人以圳i | i 锨j 。l t 进f i i 卅j tj , e 以f i 1 2 【2 n 世世、i : 卜:0 二m f 法眠d ! 弁婀y , - 的心世j 、心t j ,j , m i - 哦卜h m m 的悦l 。 、识别改逃州咒歧! c j 一讲l 然后,住说晒人i _ r ! 剧的框架中引入了语爵u j f i i 台两行爿:敢得r 较女r 的性能, 本文的组织结陶安排如r : 第一章简介说话人识削的基本概念哐点介 “r 说话人识! l ;l j 的特,址提取过佯。 第二章介纠了基r 隐马尔可丈说活人识别需要钾决的问题,并提出了荐种改进的思想。 第四章对本文进行各种各样的实验使j h 的系统进行了说明。 第五章士要介 “了如何在训练的层次改进基丁- h m l v l 的说话人识别的胜能。采川的方法 有基丁虽小错误分类的训练方法。 然后,第八章介纠了如阿从识别、得分计算的角度米改进基丁- h m m 的说活人识别。采 用的方法有全局模型、伴随模型以及两者的结合。 第七章介鲋了结合语音识别承1 说话人汉刖的优势所在羊”锌种结合的方法。 最后是总结与展望。 1 7 参考文献 【i 】k o h tj cn e u m a n “t h ek e r b e r o sn e t w o r ka u t h e n t i c a t i o ns e r v i c e ( v 5 ) r f c 1 51 0 ”,d i g i t a l e q u i p m e n tc o r p o r a t i o n u s c i n f o r m a f i o ns c i o e o ni n s “t u t e s e p t e m b e r1 9 9 3 【2 】“i t u t r e c o m m e n d a t i o nx 5 0 9t h ed i r e c t o r y a u t h e n t i c a t i o nf r a m e w o r k j ”c o n s u l t a t i o n c o m m i t t e e ,i n t e r n a t i o n a lt e l e p h o n ea n d t e l e g r a p h i n t e r n a t i o n a lt e l e c o m m i c u t i o n su n i o n 1 3 1cr i g n e y , ar u b e n a ws i n q n o n sw i l l e m a r f c2 1 3 8 ,r e m o t ea u t h e n t i c a t i o nd i a li nu s e r s e r v i c e ( r a d i u s ) j 1 9 9 7 0 4 - 1 8 【4 1a j a i n r b o l l ea n ds p a n k a n t i “i n t r o d u c t i o nt ob i o m e t r i c s ” 【5 1 于蕴红谭铁牛“现代片份蛭圳新技术:生物特征识圳技术”中国琏础科# 2 0 0 0 【6 1 张军英并说话人识 ;| j 的现代方法+ 。技术,p q 北人。学i u 舨弛1 9 9 4 年i oh 第t 版。 1 7 1 lr a b i n e r ”at u t o r i a ll ) nh i d d e nm a r k o vm o d e l sa n ds e l e c t e d a p p l i c a t i o n s i n s p e e c h r e c o g n i t i o n “p r o c e e d i n g so ft h ei e e e v o l u m e :7 7 s s u e ;! 、f e b 1 9 8 9p a g e ( s ) :2 5 7 2 8 6 8 】k fl e e a n dh 一wh o n l a r g e v o c a b u l a r ys p e a k e r i n d e p c n d e n 【c o n t i n u o u ss p e e c h r e c o n g i t i o n ”p r o co c a s s p 一8 8 ( n e wy o r k ) p p 1 2 3 1 2 6 【9 1o s t e n d o f f - 、i :d i g a l a k i s v 、? :k i m b a l l 0a f r o mh m m 。 l 1x e g m c mm o d e l s :au n i f i e d v i e wo fs t x :h a s t l c m o d e l i n gf i ws p e e c hr e c o g n i t i o n ”s p e e c ha n da u d i op r o c e s s i n g e e e t r a n s a c t i t m so n v o l u m e :4i s s u e :5 s e p t1 9 埯p a g e s _ i :3 6 0 3 7 s 1 0jb a g g e n s t o s s ,p l m 一am o d i f i e db a u m 。w e l c ha l g o r i t h mf o rh i d d e nm a r k o vm o d e l s w i t h m u l t i p l e o b s e r v a t i o n s p a c e s s p e e c h a n da u d i o p r o c e s s i n g ,i e e e t r a n s a c t l o n so nv o tl l m e :9i s s h e :4 ,m a y2 0 0 1p a g e fs ) 4 t 1 4 1 6 堪干h m m 的说l i 人识别改进研究及其应用 2 1 语音识别简介 第2 章说话人识别 说话人识别技术的研究与发展离不开语音识别技术的发展,而且现在在大多数的说话人 识别系统中,所用的特征和语音识别时致的,所以,有必要对语音识别做一点介绍。 语音识别是机器通过识别和理解过程把语音信号转变为相应的文本文件或命令的高技 术。作为一个专门的研究领域,语音识别又是- f - i 交叉学科,它与声学、语音学、语言学、 人工智能、数字信号处理理论、信息理论、模式识别理论、最优化理论、计算机科学等众多 学科紧密相连 1 。语音识别经过四十多年的发展,已经显示出巨大的应用前景,高性能的 语音识别系统相继问世 2 、3 。 语音识别起始于5 0 年代,6 0 年代末和7 0 年代初语音识别最重要的发展是语音信号线 性预测编码( l p c ) 技术和动态时间规整( d t w ) 技术的发展e 6 - - 9 ,它有效地解决了语音的特 征提取和不等长匹配问题,对特定人的语音识别十分有效。研究特点以孤立字语音识别为主, 通常把孤立字作为一个整体来建立模板 1 0 。 8 0 年代语音识别研究的重点之一是连接词语音识别,各种连接词语音识别算法被开发, 如多级动态规划语音识别算法e 6 3 。另一个重要发展是语音识别算法从模板匹配技术转向基 于统计模型技术。人们研究从微观转向宏观,不再刻意追求细化语音特征,而是更多从整体 平均( 统计) 的角度来建立最佳的语音识别系统。隐含马尔可夫模型( h m m ) 是其中的一个典 型。它能很好地描述语音信号的时变性和平稳性 1 0 。统计语言模型也开始取代基于规则 语言模型的方法 1 0 。h m m 研究使大词汇量连续语音识别系统的开发成为可能。1 9 8 8 年, 美国c m u 大学用v q h m m 方法实现了9 9 7 词的非特定人连续语音识别系统s p h i n x 1 1 。 这是世界上第一个高性能的非特定人、大字表、连续语音识别系统,开创了语音识别的新时 代。美国于7 0 年代实施了a 融) a ( u s a d v a n c e r e s e a r c hp r o j e c t a g e n c y ) 计划,对语音识别研 究给予很大支持。从8 7 年起,美国n i s t ( n a t i o n a li n s t i t u t eo f s t a n d a r d sa n dt e c h n o l o g y )
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年北交所招聘面试高频题库解析
- 2025届德阳市罗江区中考数学押题试卷含解析
- 2025年宠物训导师笔试重点复习题集
- 2025年妇联笔试高频题解析
- 投资合作协议细则
- 2025年高空作业登高架设考试试题及解析
- 2025年植保无人机面试高频问题集
- 2025年滑雪中级指导员考试要点与模拟题
- 2025年安全生产安全操作规程试题集
- 2025年品质检测员执业考试试题及答案解析
- 第六章 人体生命活动的调节 大单元教学设计 人教版(2024)生物八年级上册
- 中小学教师违反职业道德行为处理办法
- 追忆列宁PPT课件2
- 高中地理 必修一 地球上的大气 问题研究 何时“蓝天”常在 课件
- 2020阿里云产品图标
- 2023-2024-CSSCI经济管理类期刊排名
- GB/T 39856-2021热轧钛及钛合金无缝管材
- 《国际结算(第五版)》第十一章 国际非贸易结算
- 基础教育改革专题课件
- 安全监理巡视检查记录
- CRD法、CD法、三台阶法、台阶法工程施工程序示意图
评论
0/150
提交评论