(计算机应用技术专业论文)基于gmm的说话人识别技术研究与实现.pdf_第1页
(计算机应用技术专业论文)基于gmm的说话人识别技术研究与实现.pdf_第2页
(计算机应用技术专业论文)基于gmm的说话人识别技术研究与实现.pdf_第3页
(计算机应用技术专业论文)基于gmm的说话人识别技术研究与实现.pdf_第4页
(计算机应用技术专业论文)基于gmm的说话人识别技术研究与实现.pdf_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 说话人识别技术是指通过说话人的语音自动鉴别说话人身份的技术,它是生 物认证技术之一。与其他生物认证技术相比,具有数据采集简单,能实时识别, 远程识别等优势,能够广泛应用于各种身份鉴定领域如门禁系统,密码系统,数 据库系统,电话银行系统等。 目前,说话人识别的方法主要有模板匹配,矢量量化( v q ) ,人工神经网络 ( 舢蝌) ,隐马尔科夫模型( h m m ) 和高斯混合模型( g m m ) 等。g m m 方法 与其他方法相比,具有独特的优越性,特别是对于文本无关( t e x t i n d e p e n d e n t ) 的说话人识别系统。研究表明,g m m 在文本无关的说话人辨认和说话人确认中 都取得了较好的识别效果。 在系统构建方面,本文利用v c + + 实现了一个完整的说话人识别系统,包括 前期的语音处理,特征提取以及后期的模型训练,识别。实现了说话人识别的两 大功能:说话人辨认和说话人确认。在前期语音处理和特征提取方面,使用了 m e l 倒谱系数( m f c c ) 作为特征参数,它与线性预测倒谱系数( l p c c ) 相比, 能更好的体现人耳的听觉特性。在说话人模型方法,采用了高斯混合模型,它使 用不同高斯密度的叠加来反映语音的声纹特征。 在性能研究方面,研究了不同高斯混合密度下说话人辨认系统的识别率,认 为高斯密度个数的选择与训练语音数据量相关。本文还着重研究了高斯混合模型 的训练方法,分析了语音长度对最大似然法的影响;分析了模型初始迭代法的特 性,认为它在嵌入式系统中能够有较大应用空间;分析了区别性训练与非区别性 训练的优缺点,证明了区别性训练能更好的区分各个说话人模型,取得更好的识 别效果。 在系统改进方面,由于说话人辨认系统已经很成熟,本文着重研究了在说话 人确认方面的改进。说话人确认系统的关键是训练一个好的冒充者模型,针对特 定背景模型和通用背景模型的优缺点,提出了改进的归一化背景模型方法,并且 通过实验证明了改进后的方法能有效降低确认系统的等错率。 关键词:说话人识别;g m m a b s t r a c t a b s t r a c t s p e a k e rr e c o g n i t i o ni st h et e c h n o l o g yt h a tr e c o g n i z e st h es p e a k e r si d e n t i t yb y t h es p e e c h i ti so n eo ft h eb i o l o g ya u t h e n t i c a t i o nt e c h n o l o g i e s c o m p a r e dt oo t h e r a u t h e n t i c a t i o nt e c h n o l o g i e s ,i th a sal o to fa d v a n t a g e s ,s u c ha se a s ys p e e c hd a t a c o l l e c t i o n ,r e a lt i m er e c o g n i t i o na n dl o n g - d i s t a n c er e c o g n i t i o n ,e t c i tc a nb eu s e d w i d e l yi nm a n yi d e n t i t yr e c o g n i t i o nd o m a i n ss u c ha sg u a r ds y s t e m ,p a s s w o r ds y s t e m , d a t a b a s e ,p h o n eb a n ka n ds oo n t h e r ea r em a n ym e t h o d su s e df o rs p e a k e rr e c o g n i t i o n ,e g ,t e m p l a t em a t c h i n g , v e c t o r q u a n t i f i c a t i o n ( v q ) ,a r t i f i c i a l n e u r a ln e t w o r k s ( a n n ) ,h i d d e nm a r k o v m o d e l ( h m m ) a n dg a u s s i a nm i x t u r em o d e l ( g m m ) m a n yr e s e a r c hr e s u l t sh a v e s h o w e dt h a tg m mh a si t sp a r t i c u l a ra d v a n t a g e si n t e x t i n d e p e n d e n tr e c o g n i t i o n s y s t e m i na s p e c to fs y s t e mc o n s t r u c t i o n ,t h i sp a p e rd e s c r i b e st h ei m p l e m e n t a t i o no faf u l l s p e a k e rr e c o g n i t i o ns y s t e mb yv i s u a lc + + ,i n c l u d i n gs p e e c hs i g n a lp r o c e s s i n g ,f e a t u r e e x t r a c t i n g ,m o d e lt r a i n i n ga n dr e c o g n i t i o n i tu s e sm e lf r e q u e n c yc e p s t r a lc o e f f i c i e n t s ( m f c c ) a sf e a t u r ep a r a m e t e r c o m p a r e dt ol i n e rp r e d i c t i o nc e p s t r a lc o e f f i c i e n t s ( l p c c ) t h em f c ci sm u c hm o r el i k et ot h eh u m a nh e a r i n gc h a r a c t e r i s t i c s i ta l s o u s e sg m mf o rs p e a k e rm o d e l i n g i nt h ea s p e c to fp e r f o r m a n c er e s e a r c h ,t h i sp a p e rh a ss t u d i e dt h ep e r f o r m a n c eo f d i f f e r e n tn u m b e r so fg a u s s i a nm i x t u r e s ,i nw h i c ht h ec h o i c eo fm i x t u r en u m b e r s r e l a t e dt o t r a i n i n gd a t aa r ec o n c l u d e d t h ep a p e ra l s o t e s t st h ep e r f o r m a n c eo f d i f f e r e n tt r a i n i n gm e t h o d s ,s u c ha sm a x i m u ml i k e l i h o o dt r a i n i n g ,o n l i n et r a i n i n g ,a n d d i s c r i m i n a t i v et r a i n i n g i nt h ea s p e c to fs y s t e mi m p r o v e m e n t ,t h i sp a p e rf o c u s e so ns p e a k e rv e r i f i c a t i o n t h e k e yt os p e a k e rv e r i f i c a t i o ni st ot r a i nag o o di m i t a t o rm o d e l a f t e rm a k i n ga na n a l y s i s o nt h ea d v a n t a g e sa n dd i s a d v a n t a g e so fd e d i c a t e db a c k g r o u n dm o d e la n du n i v e r s a l b a c k g r o u n dm o d e l ,t h i sp a p e rc o m e su pw i t han e wu n i t a r yb a c k g r o u n dm o d e l t h e t e s tr e s u l t ss h o wt h a tt h i sm e t h o dh a se f f e c t i v e l yi m p r o v e dt h ep e r f o r m a n c eo f v e r i f i c a t i o ns y s t e m k e yw o r d s :s p e a k e rr e c o g n i t i o n 。g m m 厦门大学学位论文原创性声明 兹呈交的学位论文,是本人在导师指导下独立完成的研究成果。本人在 论文写作中参考的其他个人或集体的研究成果,均在文中以明确方式标明。 本人依法享有和承担由此论文产生的权利和责任。 c :印鲫 6 , e je 日 厦门大学学位论文著作权使用声明 本人完全了解厦门大学有关保留、使用学位论文的规定。厦门大学有权保留 并向国家主管部门或其指定机构送交论文的纸质版和电子版,有权将学位论文用 于非赢利目的的少量复制并允许论文进入学校图书馆被查阅,有权将学位论文的 内容编入有关数据库进行检索,有权将学位论文的标题和摘要汇编出版。保密的 学位论文在解密后适用本规定。 本学位论文属于 1 保密( ) , 2 不保密( 密后适用本授权书。 ( 请在以上相应括号内打“4 ”) 日期:m 年6 月i 日 日期:刀夕年 6 月6 日 第一章绪论 第一章绪论 1 1 课题研究背景 随着信息时代的到来,计算机已经成为人们生活中不可缺少的一部分,长期 以来,计算机与人类的交互主要通过键盘,鼠标和显示器来实现。为了使计算机 与人类的交流更简洁,更友好,人们不断开发出新的人机交互方式,语音交互便 是其中的一种。人类与外界最自然,最简单的交流方式便是通过自己的口述语言, 如果计算机能“听懂人类的语音,那么计算机操作将变得非常简单。于是,越 来越多的人投入到语音识别,说话人识别等领域的研究中来。 随着人工智能技术和生物科学技术的不断发展,生物认证技术越来越受到人 们的重视。人类从一出生开始,便可以慢慢通过人脸,气味,声音等识别周围的 亲人,生物认证技术就是要模拟人类来对这些特征进行分析和识别,目前生物认 证技术已经在很多领域有实际应用,如头像,指纹,虹膜等识别技术在刑事侦查, 安全等领域有着广泛的应用。 语言是人类进行思想,观点和情感交流最重要的途径,不同的人说话声音特征会 有不同,人类可以通过声音辨别跟自己熟悉的人的身份。人类声音特征的不同主 要是由每个人不同的发声器官结构特征引起的,如果能用计算机来自动区别语音 特征,将会有非常广泛的实际用途。 基于语音的生物认证从1 9 3 7 年开始,以c a l i n d b e r g h 先生的儿子拐骗事件为 开端,对声音的说话人个性展开了科学的测量和研究,1 9 4 5 年美国贝尔实验室 的r k p o o r e r 发明了声音频谱图,并且能把所谓的声纹( v o i c ep r i n t ) 自动描 绘出来。从此对声音频谱开始使用“声纹这个词,1 9 6 2 年贝尔实验室的 l g k e r s t a 第一次介绍了采用上述方法进行说话人识别的可能性,1 9 6 6 年美国 法院第一次采用此方法进行了取证h 1 。 1 2 应用前景及意义 比尔盖茨认为:“以人类生物特征( 指纹,语音,脸相等) 进行生物认证的 技术,在今后数年内将成为i t 产业最为重要的技术革命。 近年来,生物认证技 基于g m m 的说话人识别技术研究与实现 术得到长足发展,各种各样的生物认证技术层出不穷,如指纹认证,虹膜认证, d n a 认证等,这些认证技术的正确率较高,但难度较大。需要较专业的设备,测 试人员等,不能大规模的商用。而声纹识别具有其特有的优越性:( 1 ) 获取语音 数据简单,只需要简单的麦克风即可,而且不需要专业的操作人员;( 2 ) 支持远 程识别,如电话银行,电子购物等( 3 ) 识别算法简单,识别正确率高,能够支 持实时识别,这对一些应用领域如门禁系统,数据库管理员身份验证等尤为重要, 而一些其他的生物认证技术需要较长时间才能得出结果。 随着信息技术的发展,特别是网络技术的发展,人们越来越认识到信息安全 的重要性。传统的信息安全主要依靠各种密码系统来保护,但是密码保护也存在 着自身的缺点,没有哪种密码是不可破解的,而且复杂的密码保护体系必然导致 使用的不方便。而生物认证技术具有识别正确率高,伪造困难等特点,所以越来 越受到人们的重视。 由于声纹验证具有经济,简便,应用广泛等特点,必将广泛应用于日常生活 的各个领域,现今以及将来可能的应用领域主要有: ( 1 ) 传统的依靠密码验证的领域:如数据库管理员身份识别,门禁系统等。 ( 2 ) 远程验证领域:主要通过电话,网络( 如v o i p ) 传播语音进行识别,如电 话银行,电子购物,远程电脑控制等。 ( 3 ) 手持设备领域:如p d a ,智能手机等。 ( 4 ) 刑事侦查领域:通过犯罪现场的录音判定犯罪嫌疑人。 1 3 研究历史与现状 说话人识别作为语音识别的一个分支,是伴随着语音识别的发展而发展的。 2 0 世纪6 0 年代贝尔实验室研究人员为自动说话人识别奠定了理论基础,6 0 年代 末7 0 年代初语音信号线形预测编码( l p c ) 技术和动态时间规整( d t w ) 技术的 发展,有效地解决了语音的特征提取和不等长匹配问题。而到了8 0 年代,统计 方法被广泛引入到人工智能的各个领域,隐马尔可夫模型( h i d d e nm a r k o v m o d e l ,h m m ) 是其中的佼佼者。在特定文本的说话人领域取得了较好的成就。后 来在隐马尔科夫模型的基础上又提出了高斯混合模型( g a u s s i a nm i x t u r e m o d e l ,g 删) ,g m m 在非特定文本的说话人识别领域取得了较突出的成就。另外人 2 第一章绪论 工神经网络技术的发展也给人工智能各个领域提供了新的方法。应用人工神经网 络技术的说话人识别技术也取得了可喜的成就。 目前,说话人辨认已经取得了较好的效果,有比较成熟的产品,而说话人确认由 于难度较大目前仍然是研究的热点。 目前声纹识别的实际应用系统有:a t & t 应用说话人辨认技术研制出了智能卡 ( s m a r tc a r d ) ,已经应用于自动取款机。欧洲电信联盟在电信和金融领域应用 声纹识别技术,于1 9 9 8 年完成了c a v e ( c a l l e rv e r i f i c a t i o ni nb a n k i n ga n d t e l e c o m m u n i c a t i o n ) 计划,并于同年启动了p i c a s s o ( p i o n e e r i n gc a l l a u t h e n t i c a t i o nf o rs e c u r es e r v i c eo p e r a t i o n ) 计划,在电信网上实现了说 话人辨认。同时,m o t o r o l a 和v i s a 等公司成立了y c o m m e r c e 联盟,希望实现 电子交易自助化,声纹识别是其中一个重要组成部分。i t t 公司的s p e a k e r k e y 实现了电话声音的说话人确认。另外还有k e y w a r e 公司的v o i c e g u a r d i a n , t - n e t i x 公司的s p e a k e z 等陆1 。另外还有很多公司和科研院校提供了很多方便的 s d k 供研究者使用。这方面的佼佼者有卡耐基梅隆大学( c m u ) 的s p h i n x 系统, m i c r o s o f t 公司的语音处理s d k 包,剑桥大学的h t k 工具包等。国内也有很多的 高校和科研院所开展了声纹识别的研究,并且取得了较好的研究成果。 从研究的具体方向来看,目前研究的热点主要有: 语音前期处理,包括语音的采集方式,采样方式,特征表示方式等 各种识别方法,包括支持向量机,隐马尔科夫模型( h m m ) ,神经网络,高斯混合 模型( g 删) 等方法的改进,结合,以及一些新的识别方法等。 各种模型训练方式,包括各种非区别性训练方法和区别性训练方法等的提出和改 进等。 信道噪声消除技术,由于不同信道对识别的效果影响很大,所以各种信道差异消 除技术也是研究的热点,如各种归化技术。 背景模型的构建,即说话人确认系统中冒充者模型的构建方法。 1 4 研究难点 说话人识别技术虽然研究了很多年,但是仍然有一些技术难点没能很好解 决。说话人识别的难点主要体现在以下几个方面: 3 基于g m m 的说话人识别技术研究与实现 声纹特征很难独立提取出来。人类的语音包含了声纹,内容,音量等众多 信息,目前还没有太好的技术能够把说话人的个性声纹特征很好的独立提 取出来。 人的个性声纹特征会因为不同的时间,不同的年龄,不同的身体状况而发 生一定的改变。 各种电子录音设备会带来噪音,影响识别准确率。虽然目前有很多信道差 异消除技术,但是信道对识别效果的影响依然存在。 声音容易被模仿,人们可以通过模仿,语音合成等多种手段模仿别人的声 音。怎样区分真实的语音与模仿的语音也是说话人识别的难点之一。 1 5 1 基本原理 1 5 说话人识别技术简介 说话人识别技术是指通过计算机自动识别测试语音说话人身份的技术,最基 本的原理是将测试语音的说话人模型特征与已有的训练好的模型进行匹配,从而 来判断是具体哪个说话人或判断是否是某个被指定的说话人。 目前,还没有很好的技术将说话人的个性特征从语音中独立分离出来,所以说话 人的特征模型实质上还是说话人的语音特征,因此说话人识别跟语音识别的前期 处理过程是基本一致的,不同之处在于后期的模型建立,训练测试方法等。 说话人识别技术主要分为以下几个步骤h 1 : ( 1 ) 语音信号的前期处理与特征提取。主要分为预加重,加窗,特征提取等几 个步骤。 ( 2 ) 说话人模型的建立和模型参数的训练,包括各种不同的模型及其训练方法 笙 寸o ( 3 ) 测试语音与说话人模型的匹配距离计算。 1 5 2 基本类型 说话人识别技术主要可以分为两种任务,一种是说话人辨认( s p e a k e r i d e n t i f i c a t i o n ) n 1 ,判定一段语音的说话人是给定的一个说话人集合中的具体 4 ) ) ) ) 1 2 3 4 ( ( ( ( 第一章绪论 哪一个人说的,也就是一个n 选1 的问题。一般来讲我们是假定这段测试语音的 说话人是给定的说话人集合中的某个人说的,也就是说是一个封闭集合 ( c l o s e d - s e t ) 的任务。另一种任务是说话人确认( s p e a k e rv e r i f i c a t i o n ) 乜3 1 , 首先给定一个假定的目标说话人集合( 可以是一个人或多个人,一般假定一个 人) ,然后判断测试语音是否是假定的目标说话人集合中的人说的,也就是说这 是一个选择y e s 还是n o 的问题。因为测试语音的说话人有可能在假定的目标说 话人集合里面,也有可能不在假定的目标说话人集合里面,所以这是一个开放集 合( o p e n s e t ) 的任务。 用户特征模板 图1 1 a 说话人辨认 j i 廷 ? 该j 。说 话j j 人j + 咚 ? ? ; i 图1 1 b 说话人确认 根据说话人识别测试语音的内容是否是特定的文本,又可以将说话人识别分 为文本相关( t e x t d e p e n d e n t ) 说话人识别和文本无关( t e x t i n d e p e n d e n t ) 说话 人识别。文本相关的说话人识别是指测试者读一段事先约定好了的文本内容,然 后再来进行说话人辨认或确认,文本无关是指测试语音的内容可以是任意的,显 然,文本无关的说话人识别更有实际应用价值,当然在难度上也会比文本相关的 说话人识别要难得多。 5 基于g m m 的说话人识别技术研究与实现 1 5 3 常用识别方法 ( 1 ) 基于模板的说话人识别 模板匹配技术是模式识别中最常用的一种相似度计算与匹配方法。在说话人 识别中,在规定了语音内容的前提下,以说话人发规定内容的语音得到的语音特 征序列作为这一说话人的个性特征模板。识别时,将要识别的说话人说同样内容 的语音特征序列与各说话人模板进行距离计算和模式匹配,取距离最小的那个模 板对应的说话人作为识别结果。 由于同一说话人对同一个音的不同次发音也会有发音长短不一的问题,因此需要 使用动态时间规整t w ) 技术,d t w 技术可以将测试语音序列弹性缩放,使得 测试语音能够跟模板对齐。弹性缩放的准则是使得缩放后的测试语音特征序列与 模板的匹配距离最小。 ( 2 ) 基于v q 的说话人识别 矢量量化( v e c t o r u a n t i z a t i o n ) 是一种高效的数据压缩技术,是标量量化 的一个发展。矢量量化是将n 维欧氏空间r ”中的模拟矢量x 依据某种准则用n 维空间中的有限个点hji = 1 ,2 ,足) 表示。其中x 称为输入矢量,咒称为量化矢 量,码字或码矢,融ii = 1 , 2 ,k ) 称为码书或码本,码字的数目k 称为码本大小。 设训练数据为n 维的语音特征矢量i 五l ,在训练数据已知的情况下,矢量量化的 准则是在给定码本大小k 时使量化造成的失真最小,也就是说是每个矢量量化成 与它距离最近的码字。常用的矢量失真度量有平方失真测度,加权平方失真测度, 最大失真测度和似然失真测度等。 码字主要通过聚类方法得到,常用的聚类算法有k m e a n s ,l b g 等。 ( 3 ) 基于人工神经网络的说话人识别( a n n ) 近年来,神经网络技术得到了飞速发展,神经网络在说话人识别中的应用也 得到了良好的效果,神经网络有很多种,目前应用在说话人识别上面最普遍的是 多层感知器网络。用多层感知器结构的人工神经网络进行说话人识别,就是将说 话人的个性特征作为网络的输入,通过对网络的训练,用网络的强有力的分类能 力,在网络输出端得到说话人识别结果。 然而,多层神经网络的结构设立也存在着很多问题。究竟要多少个输入节点, 多少个输出节点,网络层次的数目等,都没有很好的规律可循,只能通过经验或 6 第一章绪论 实际结果进行调整。 ( 4 ) 基于h m m 的说话人识别 每一说话人的语音特征都是随着时间的变化而变化的,如果将这种特征的变化过 程用状态间的转移来描述,就构成了说话人的隐马尔科夫模型( h m m ) 。测试时, 将测试语音作为观察值,将说话人模型作为隐含状态,测试语音在每个说话人模 型下都有一个条件概率,取条件概率最大的说话人模型作为测试语音的说话人识 别结果。经研究证明,嗍对特定文本( t e x t d e p e n d e n t ) 的说话人识别效果较 好。 ( 5 ) 基于g 麟的说话人识别 高斯混合模型( g m m - - g a u s s i a nm i x t u r em o d e l ) 是近年来说话人识别采用的最主 流的技术,它是在h m m 模型的基础上发展起来的。 高斯混合模型是用多个高斯分布的线性组合来近似模拟说话人特征分布,每个说 话人对应一个g m m 模型,识别时,将产生测试语音条件概率最大的那个g m m 模型 对应的说话人作为识别结果。经研究证明,g m m 对非特定文本( t e x t i n d e p e n d e n t ) 说话人识别效果较好。本文主要采用g m m 方法进行实验。 1 6 1 说话人辨认 1 6 说话人识别性能评价指标 说话人辨认( s p e a k e ri d e n t i f i c a t i o n ,s i ) 主要判定一段语音的说话人是 给定的一个说话人集合中的具体哪一个人说的,也就是一个n 选l 的问题。所以 评价指标主要是指识别的正确率有多高,只要一个简单的识别率就可以表示 1 6 2 说话人确认 说话人确认( s p e a k e rv e r i f i c a t i o n ,s v ) 是指给定一个假定的说话人集合 ( 可以是一个人或多个人,一般假定一个人) ,然后判断测试语音是否是假定的 说话人集合中的人说的,也就是说这是一个选择y e s 还是n o 的问题。 定义未知声音确实是被假设说话人声音的状态为s ,未知声音为非被假设说话人 声音的状态为n ,在不同状况下获得的测试结果只有四种情况s s ,s n ,n s , 7 基于g m m 的说话人识别技术研究与实现 n n ,对应的概率分别为p ( s i s ) ,p ( s n ) ,p ( n s ) ,p ( n n ) 。我们将测试语音是 被假设说话人,但测试结果为非该说话人的错误率称为错误拒绝率( f r r ) 或遗漏 率( m i s sp r o b a b i l i t y ) ,即p ( n s ) ;将测试语音是非假设说话人,但测试结果 却认为是该假设说话人的错误率叫做错误接受率( f a r ) 或错误报警率( f a l s e a l a r mp r o b a b i l i t y ) ,即p ( s n ) 。 要提高说话人确认的系统性能,就要求错误拒绝率( f r r ) 和错误接受率( f a r ) 都尽可能小,但实际上,这两者是相互制约的,阈值的调整会使f r r 减小的同时 增大f a r 或者使得f a r 减小的同时增大f r r 。将横坐标为f a r ,纵坐标为f r r 的 曲线称为d e t ( d e t e c t i o ne r r o rt r a d e o f f ) 曲线。d e t 曲线上f r r 与f a r 相等 的点称为等错误率e e r ( e q u a t ee r r o rr a t e ) ,我们一般用e e r 来衡量说话人确 认系统的性能。 癸 寒 憨 躲 图1 2 :说话人确认系统阈值和错误率关系。 8 第一章绪论 f a l s e l j a r r np r o b a b i l i t y 扣) 图1 3 :d e t 曲线 1 6 3 实际工程评价指标 对于实际的工程应用系统来说,不同的应用领域又有很多不同的要求,主要 表现在以下几个方面h 1 : ( 1 ) 训练时间和训练的样本数 好的系统应该是训练时间尽可能短,训练样本数尽可能低,这样才能使用户能很 快训练自己的样本。如果一个系统训练一个新样本需要很长时间,需要很多的训 练样本,用户将会失去耐心,从而对该系统失去兴趣。另外,在一些特殊场合, 如犯罪现场,采集到的罪犯录音可能只有一两句,因此要作出正确的判定就需要 有一个性能很好,训练样本需求较少的系统。 ( 2 ) 对噪声的兼容度 不管是语音识别还是说话人识别,都面临同样一个问题,噪声干扰。有些系统可 能在安静的实验室环境下能获得较好的识别效果,但是在嘈杂的环境下识别效果 就很糟糕。而实际工程应用环境一般都达不到实验室的安静环境,有些甚至需要 在十分嘈杂的环境如马路边,机器轰鸣的车间等环境下使用,所以噪声消除技术 对说话人识别系统的性能至关重要。对噪声的处理包括在无噪声环境下训练在有 噪声环境下测试,在有噪声环境下训练并在相同噪声下测试以及在有噪声环境下 训练并且在不同的噪声环境下测试等几种情况。 另外,不同的信道也会带来很严重的信道噪声,这就需要对信道进行归一化等处 理。 9 基于g m m 的说话人识别技术研究与实现 ( 3 ) 识别速度 在工程应用中,很多场合都需要实时的说话人识别,如对设备的实时控制,军事 指挥等领域。所以系统的识别速度也是衡量一个说话人识别系统性能好坏的重要 因素。 ( 4 ) 限制条件 说话人系统对系统使用者的不同限制条件,也是评价一个系统好坏的重要因素。 限制条件主要包括说话人说话的语速,说话的声音强度,语音的内容是否是限定 文本的,语音是否是限定语言种类的等等。对于说话人识别系统来讲,应该做到 在保证识别正确率的前提下,尽可能减少对说话人识别系统的限制。 ( 5 ) 识别人数 在说话人识别系统,特别是说话人辨认系统中,人数增多必然带来识别正确率的 下降,然而在一些应用领域如电话银行等,需要系统支持较大量的说话人数量。 因此,识别人数的多少也是衡量一个实际说话人应用系统的重要 1 0 第二章语音信号处理 2 1 1 语音产生的机理 第二章语音信号处理 2 1 语音基础知识 语音是由一连串音所组成,这些音在相互间的过渡就是代表信息的符号。携 带语音信息的语音声波就是语音信号。人在发音时,首先由肺部收缩送出一股直 流空气,经气管流至喉头声门处,在发声之初,声门处的声带肌肉收缩,声带并 拢间隙小于l m m ,这股直流空气冲过很小的缝隙,使声带得到横向和纵向速度, 此时,声带向两边运动,缝隙增大,声门处压力下降,使声带产生振动。压力的 大小决定了声音的强度,声带的张力与质量决定了声音的频率。一般把声门以上, 经咽喉,口腔( 舌,唇,腭,小舌) 的这一管道成为主声道,一般成年男子的主 声道长度约1 7 e m ,而小舌和鼻腔的管道称为鼻道。声道的形状是区分声音的重 要因素。声波通过声道后就引起声道的共振,声道的谐振频率称为共振峰频率或 共振峰。不同的声道对应着不同的共振峰。 甲状 气管 图2 1 :发音器官的生理解剖图 2 1 2 语音的分类 臂 语音按其激励形式的不同大致可以分为三类: 基于g m m 的说话人识别技术研究与实现 ( 1 ) 浊音( v o i c e ds p e e c h ) 浊音也称为有声的语音。当气流通过声门时,如果声带的张力刚好使声带产生 张弛振荡式振动,产生一股准周期脉冲气流,这一气流激励声道就会产生浊音。 ( 2 ) 清音( u n v o i c e ds p e e c h ) 清音也成为摩擦音或无语声音。当气流通过声门,声带不振动,而声道在某处 收缩,迫使气流以高速通过这一收缩部分而产生湍流就会产生清音。 ( 3 ) 爆破音( p l o s i v es p e e c h ) 如果声道闭合( 一般在声道前部) ,在闭合后建立起的气压突然释放,就会形成 爆破音。 2 1 3 语音的发音模型 说话人发音信号的数字模型可以用图2 2 所示8 1 。 增益因子g声遂横礁辐射模 图2 2 :语音信号产生的数字模型 堰 开关k 对应于声门对声道的激励信息。发浊音与1 相连,发清音或摩擦音与o 相连。发浊音时,激励信号是周期为t 的脉冲信号,其频率大概在3 0 5 0 0 h z , 我们可以用一个脉冲序列发生器来模拟浊音的激励信号。发清音或摩擦音时,激 励信号是一个湍流,类似于宽带噪声,所以我们可以用一个伪随机噪声发生器来 模拟清音或摩擦音的激励信号。增益因子g 表示声音的响度。 声道的形状可以用数字滤波器h ( z ) 来模拟,在处理时,通常可以认为在一个短时 间内声道形状基本不变,即可以假设短时段内数字滤波器是时不变的。h ( z ) 是一 个离散函数,通常可以用全极点函数来表示: 日( z ) = 瓦_ 万孑与丽 1 2 ( 2 1 ) 第二章语音信号处理 2 2 语音信号前期处理 从说话人的语音信号中提取出说话人的个性特征是说话认识别的关键。说话 人所发的语音信号中既包括了语音内容的特征,也包括了说话人个性身份的特 征,是二者的混合体,但是目前还没有较好的方法将他们区分过来。但是,通过 对语音信号的特征提取,我们仍然能得到很多有用的说话人个性特征。语音信号 的数字化和预处理主要包括以下几个步骤: ( 1 ) 采样与量化 首先将模拟信号s ( t ) 以采样周期t 进行采样,将其变成一个个离散信号,采 样周期可根据实际需要来确定,一般在说话人识别中采样频率为8 k 或1 6 k 。 采样由于将连续的语音离散化,所以会带来一定的失真,但一般人耳很难分 辨出来。 采样与量化发生在录音的时候,如果是对已经录好音的文件进行处理,实际 上已经跳过了采样与量化这一步。 ( 2 ) 预加重 对于语音信号的频谱,一般是频率越高频谱值越小,在语音信号的频率提高 两倍时,其功率谱的幅度约下降6 d b ,因此需对其高频进行加重处理。为此我 们给它加一个数字滤波器,其z 传递函数为: h ( z ) = 1 一藏q ( 2 2 ) 口称为预加重系数,一般取0 9 a 1 。 假设在n 时刻语音采样值为石( ,1 ) ,则经过预加重处理后的结果为 y ( n ) = x ( n ) - a x ( n - 1 ) ( 2 3 ) ( 3 ) 加窗 语音信号只有在短时间内才表现出准平稳特性,在短时间内可以把它看成平 稳信号,每一个短时间段称为一帧,为了从语音信号中提取n 帧波形,需要 用一个有限长度的窗函数序列w ( ,1 ) 。该窗函数可以按时间方向滑动,以便分 析任一时刻附近的信号。加窗运算定义为: s 。( ,1 ) = s ( m ) w ( n m ) ( 2 4 ) 设窗长为n ,窗函数主要有以下几种: 1 3 基于g m m 的说话人识别技术研究与实现 方面( r e c t a n g u l a rw i n d o w ) 以功= 乜潞 哈明窗( h a 舢 i l i n gw i n d o w ) “小一jq 5 挑4 觚罂) v - 4 ) 刚) 删= o( 赫 l 哈宁窗( h a n nw i n d o w ) 删= p 0 8 狰黼, l 2 3 1 过零分析 2 3 语音信号的时域分析方法 ( 2 5 ) ( 2 6 ) ( 2 7 ) 对于以时间为横轴的时域信号,最简单的一种分析方法是观察语音信号通过横轴 的情况。在离散语音信号情况下,如果相邻的采样具有不同的符号就发生了过零。 单位时间内的过零次数称为过零率( s h o at i m ea v e r a g ec r o s sz e r or a t i o ) z n 。 乙= ls g n x ( m ) - s g n x ( m - 1 ) 1w ( n - m ) ( 2 8 ) 其中s g n x ( m ) = 1 工( ,竹) 0 ,s g n x ( m ) = 一1x ( ,竹) 0 。 其流程图如图所示5 1 : s g n。j 低通滤波 卜 一阶差分 +取绝对值一 w ( n ) 图2 3 :语音信号的短时平均过零率 1 4 第二章语音信号处理 2 3 2 短时平均能量和短时平均幅度 信号量的分帧是由平移的窗口加权得到的。定义短时平均能量易为嘲: b = b ( m ) w ( 疗一m ) 】2 期i = n n + l n = 工2 ( m ) h ( n m ) ( 2 9 ) 式中x ( m ) 为以某一采样频率采样而得到的语音采样序列,w ( 咒) 为窗口函数, h ( n ) = w 2 ( ,1 ) 。短时平均能量函数可以用来区分清音段和浊音段,浊音的短时平 均能量比清音大很多。对于高信噪比的语音信号,短时平均能量函数还可以用来 确定声母与韵母,无声与有声等。不同的窗函数将决定不同的平均能量性质。一 般取中心对称的窗函数如汉明窗或方窗等。 由于短时能量函数是信号的平方和,因此它对高信号电平很敏感。所以对于高电 平信号,可以定义短时平均幅度胁为: m ,l = i 石( ,1 ) 1 w ( n m ( 2 1 0 ) m = n n - 1 式中x ( m ) 为以某一采样频率采样而得到的语音采样序列,w ( n ) 为窗函数。 2 4 语音信号的频域分析方法 2 4 1 短时傅立叶变换 定义信号x ( n ) 的短时傅立叶变换为: x n ( p 徊) = x ( m ) w ( n - m ) e 啪 式中w ( n ) 是一窗函数。 ( 2 1 1 ) 由上式可以看出频域信号品( p 徊) 是窗函数序列与x ( m ) e 一伽的卷积,对于某个 绌,可以将短时傅立叶变换理解为软件实现的带通滤波器组。 对于上式,如果将n 看成一个给定的值,那么愚 归) 就是语音段x ( m ) w ( n m ) 的 傅立叶变换。对品( 口徊) 求反变换,就能得到语音段函数: 基于g m m 的说话人识别技术研究与实现 戈( m ) w ( 儿一m ) = 瓦1 ( p _ 国) e 绷砌 ( 2 1 2 ) 当w ( o ) 0 时,由上式可得 x ( n ) = 丽 - 。,l x 九( p _ 缈) p j 姗d 缈 ( 2 1 3 ) 由此可见,当w ( o ) 0 时,由短时傅立叶变换可以反变换得到原始语音信号。 短时傅立叶变换幅度兄( p 埘) 的平方表示语音信号工( n ) 在时间1 1 处的频谱能量密 度函数r ( 动,可以证明它是信号z ( ,1 ) 的短时自相关函数风( 尼) 的傅立叶变换, 即 p n ( 缈) = ix 疗( p 7 m ) 1 2 = 尺n ( 忌) p 一7 础( 2 1 4 ) 其中尼( 七) = z ( 砌以儿一砌x + 忌) w ( n - m - k ) 在实际计算时,一般会将上式中的连续分布的密度函数用离散傅立叶变换代替, 因此要对信号进行周期性扩展。将z ) w ( n ) 看成是周期信号的一个周期,对它 作离散傅立叶变换,就得到功率谱。 2 4 2 语谱图 以时间n 作为横轴,彩为纵轴,功率谱的值用灰度级表示的二维图像就称为语谱 图( s p e c t r o g r a m ) 。由于短时傅立叶变换的时间分辨率和频率分辨率是相互矛盾 的,所以在语音分析中根据带通滤波器的带宽不同,又分为了两种语谱图,即宽 带语谱图和窄带语谱图。宽带语谱图主要用于动态语音音色的研究,它给出元音 及浊辅音的共振峰频率及清辅音的能量汇集区。窄带语谱图主要用于音高的研 究,它给出元音的基频及其各次谐波。 1 6 第二章语音信号处理 ,、 n 墨 己彳 褥 爨 时间t ( s ) 图2 4 :语谱图 2 5 语音信号的同态倒谱分析方法 2 5 1 倒谱和复倒谱 语音信号是声门激励信号和声道冲击响应的卷积。根据语音信号分别求解声门激 励信号和声道冲击响应具有非常重要的意义。例如对于说话人识别来说,说话人 个性特征主要由说话人发音声道的形状所决定,即由声门激励信号决定。而声道 冲击响应对于某一帧来说又有一定的随机性,将他们有效分离对说话人识别具有 重要的应用价值。由于语音信号是声门激励信号和声道冲击响应的卷积,可以利 用将信号作适当的同态滤波的方法将两个部分分离,滤波的关键是先将卷积处理 化为乘积,然后作对数处理,使之化为可以分离的加法。 信号x ( n ) 的复倒谱2 ( n ) 是指x ( n ) 的z 变换的对数的反z 变换: 舅( 凡) = z 一1 1 0 9z z ( ,z ) ( 2 1 5 ) 设x ( n ) 的z 变换为x ( z ) = z 【工( ,z ) 】,其复倒谱为x ( z ) = l o g ( x ( z ) ) : x ( z ) = l o g ( ix ( z ) lo e 一7 缸8 x 。) = l o gix ( z ) l j a r gx ( z ) ( 2 1 6 ) 图2 5 :复倒谱流程图 基于g m m 的说话人识别技术研究与实现 只考虑x ( z ) 的模便得到倒谱( c e p s t r u m ) c ) ,其定义为x ( n ) 的z 变换的幅度的 对数的反z 变换: c ( n ) = z 一1 1 0 9iz 【z ( ,1 ) 】l = z 一1 1 0 9ix ( z ) i 】 ( 2 1 7 ) 由z 变换的性质可知,倒谱即为复倒谱的偶部: c ( n ) = 舅( ,z ) + 舅( 一万) 】2 ( 2 1 8 ) 羝裔傣臣债号频敬对数灌 d f t l 0 9 1 1逆d f t 2 5 2 同态解卷系统 图2 6 :倒谱流程图 同态解卷积实际上就是计算语音信号x ( n ) 的复倒谱y ( n ) 的过程。在频域信号上 是两个分量卷积,在复倒谱中便是两个分量的和了。在z 变换域中,由于两个信 号卷积的z 变换等于其变换之乘积,因此只要通过对数变换就能得到和的形式【5 】 x ( z ) = l o g x ( z ) = l o g x l ( z ) x2 ( z ) 】= l o g x i ( z ) - i - l o g x2 ( z ) = xz ( z ) + x 2 ( z ) ( 2 1 9 ) 然后再通过线性滤波技术使二者分离,再通过指数变换恢复到z 变换域,就得到 了时域状态下的声门激励信号或声道冲击响应。 线燃处雕 l 【+ 】 图2 7 :z 变换域的同态解卷图 对于非z

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论