(计算机软件与理论专业论文)基于mfcc和gmm的说话人识别系统研究.pdf_第1页
(计算机软件与理论专业论文)基于mfcc和gmm的说话人识别系统研究.pdf_第2页
(计算机软件与理论专业论文)基于mfcc和gmm的说话人识别系统研究.pdf_第3页
(计算机软件与理论专业论文)基于mfcc和gmm的说话人识别系统研究.pdf_第4页
(计算机软件与理论专业论文)基于mfcc和gmm的说话人识别系统研究.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(计算机软件与理论专业论文)基于mfcc和gmm的说话人识别系统研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 说话人识别作为生物认证技术的一种,是根据应用语音波形中反映说话人生 理和行为特征语音参数,自动鉴别说话人身份的一种技术。与其它生物识别技术 相比,说话人识别具有更为简便,经济及可扩展性良好等众多优势,可广泛应用 于电话银行,数据库访问,计算机远程登录,安全验证,控制等领域。正因为说 话人识别具有如此广阔的应用前景,国内外许许多多的工作者投身于这一领域的 研究中。在众多的说话人识别技术中,本文主要研究了基于m e l 频率倒谱系数 ( m e l - f r e q u e n c yc e p 咖】i i lc o e f f i c i e n t s ,简称m f c c ) 和高斯混合模型( g a u s s i a n m i x t u r em o d e l ,简称为g ) 的说话人识别系统。 人的声道响应是反映说话人个性特征的重要的物理量。而语音信号中声道响 应是和声门激励信息卷积在一起的。为了从语音信号中得到声道响应就必须对语 音信号实现解卷积。本文介绍了对语音信号实现解卷积求取倒谱系数的两种方 法:线性预测分析和同态分析处理。通过对语音信号进行解卷,从而获得与声道 响应有关的倒谱系数,组成特征向量。 现实生活中人耳是一个比较好的说话人识别系统,而人耳对声音频率的感知 却不是线性的。本文通过对人耳听觉的生理和心理特性的分析介绍,提出了利用 音调特性来进行倒谱特征提取的方案,即用m e l 频率对短时功率谱做频率弯折 处理。在这种新的倒谱提取过程中,用符合临界带分布的等效滤波器组来模拟人 耳听觉的非线性特性,从而得到了m e l 频率倒谱系数( m f c c ) 。文中详细介绍 了提取m f c c 倒谱系数的理论基础和实现方案,并与传统的线性预测技术作了 比较,实验结果表明这种改进后的倒谱特征提取方法比较有效。 说话人识别中有许多先进有效的识别技术,其中高斯混合模型( g m m ) 由 于性能较好、复杂度小、方法简单,是目前最好的说话人识别算法之一。本文介 绍了g m m 模型的概念、模型参数的估计以及g m m 的识别算法,并通过实验研 究分析了g m m 模型的阶数对识别性能的影响。 另外,本文还介绍了倒谱系数的动态特征,从m f c c 对时间的一阶导数得到 了反映倒谱动态特性的m f c c 。通过实验验证了动态特征( m f c c ) 中的确 含有有用的说话人个性信息。在原来m f c c 倒谱系数的基础上加入m f c c 构 成更高维的特征向量,并通过实验验证了这种组合特征对提高系统识别性能的有 效性。 关键词:说话人识别,特征提取,m f c c 倒谱系数,高斯混合模型 a b s tr a c t a so n eo ft l l eb i o m e t r i c st e c h n i q u e s ,s p e a k e rr e c o g n j t i o ni sm ep r o c e s so f a u t o m a t i c a l l yr e c o g n i z i n gw h oi ss p e a l 【i n go nt h eb a s i so fi n d i v i d u a li n f o 珊a t i o n i n c l u d e di ns p e e c hw a v e s b e c a u s eo fi t sp a r t i c u l a r l ya d v a l l t a g eo nc o n v e i l i e n c e , e c o n o m y a 1 1 de x t e n s i b i l i 职t l l i st e c m q u ec a i lb ea p p l i e dt oan u m b e ro fa r e a s ,s u c ha s b a n :i 【i n gb yt e l e p h o n e ,t e l 印h o n es h o p p i l l d a t a b a s ea c c e s ss e r v i c e s ,s e c u r i t ) ,c o n t | o l f o rc o l l f i d e n t i a li n f b m a t i o na 1 1 dr e l n o t ea c c e s st oc o m p u t e r s b e c a u s eo ft h a t ,l o t so f s c i e n t i 蠡cr e s e a r c h c r sa th o m ea n da b r o a da r ei n v o l v e di nt h er e s e a r c h i 陆sp a p e r f o c u s e so nt h es p e a k e rr e c o g l l i t i o ns y s t e mb a s e do nm e l 一f r e q u e l l c yc e p s 胁 c o e m c i e n t s ( m f c c ) a 1 1 dg a u s s i a l lm i x t u i em o d e l ( g m m ) t h ei m p u l s er c s p o n s eo f 也ev o c a l 乜l c ki sa i li m p o n 趾tf e a t l l r eo fas p e a k e ta s p e e c hs i g n a li sac o n v o l u t i o no fs 咄es i 印a l ( a ni m p l l l s e 仃a i n ) 、v i m 也ei m p l l l s e r e s p o n s eo ft l l ev o c a l 仃a c k t h i sp 印e ri n 订o d u c e s 铆om e 也o d st 0g e tc e p 蛐 c o e 衢c i e m sb yd e c o n v o l u t i o n :l i n e a r p r c d i c i 廿o n c o e 伍c i e n t a n a l y s i s 柚d h o m o m o f p h i c 仃a n s f o m a t i o n a 盘e rd e c o n v o l m i o n ,w ec a n 内a c tt 1 1 ec 印s t r u m c o e 伍c i e n t sr e l a t e dt 0m ei i n p u l s er e s p o n s ea 1 1 df o mm ef b a t u r ev e c t o r s b yi n t m d u c i l l gt 1 1 eh u m a na u d i t o t ys y s t e m ,t l l i sp a p e r 酉v e san e wm e t h o dt o e x 仃a c tc 印s 饥nc o e 伍c i e n t sb yb e n d i i l gt h ep o w e rs p e 蛐谢也t l l em e l 一舶q u e l l c y s c a l e i i lt h ep r o c e s so f e 船a c t i n gm e l 一f r e q u e n c yc c p s t r l l l nc o e 伍c i e n t s ( m f c c s ) ,w e u s eaf i l t e r b a n k d l i c hi sc o n s i s t e n t 谢t hm ed i g 晒b 血o no fc r i t i c a lb a i l do f h 岫a n c o c h l e a ,t o1 1 1 i 谢ct l l eh u m a i le a r sn o n 一1 m e a rc h a r a c t e r i s t i c 诵t h 缸q u e n c y t h j sp 印c r g i v e st l l e 也e o r yb a s i sa n dp r o c e s s i n ga r i m m e t i ct oc o i n p u t em e l 一丘e q u e n c yc 印s 砌 c o e m c i e m si nd e t a i l s ,a n dp r a v e st 1 1 e 1 i d i t ) ro ft h i sm e t l l o db yc o m p a r i n gt l l e p e r f b m a l l c e b e t 、v e e nm f c ca 1 1 d 仃a d i t i o 砌l p c ci 1 1s p e a k e rr e c o 鲥t i o ne x p 谢m e n t g m mi so n eo ft h eb e s tp a n e mr e c o g l l i t i o nt e c h n j q u e sb e c a l l s eo fi t s g o o d p e r f o 彻a n c e ,s i m p l e n e s sa 1 1 d1 0 、v e rd e 掣e eo fc o m p l e x i 吼t h j sp a p e ri n t r o d u c e st l l e c o n c e p to fg m m ,p m c e s s i n ga r i t h m e “co fc o m p u t i n gm i x t l l r er r m d e lp a i a r n e t e r sa n d m em e l o di ns p e a k e rr e c o g 血i o ns y s t e mb yu s i n gg m m ,a i l da l s o 柚a l y s e st h e p e r f b 彻a n c eo f d i 圩宅r e n tn u m b e r so f m i x t l l r em o d e lb ye x p e r i m e n t i na d d i t i o n ,t h em f c cf e a t u r e 、v i t hn o 玎1 1 a l i z e ds h o tt i m ee n e r g ya 1 1 dd y n 锄i c i n f o r m a 6 0 nj sd i s c u s s e db a s e do nt h em f c cf e a t i 】r ea 1 1 dt h ei n n u e n c et om e i d e n t i f i c a t i o np e r f o m a n c ei sa n a l y z e d k e y w o r d s :s p e a k e r r e c o g n i t i o n 、f e a t u r ee x t r a c t i o n 、m f c c 、g m m 河海大学硕士学位论文 第一章绪论 1 1 研究背景和现状 伴随着全球化、网络化、信息化、数字化时代的到来,我们对高可靠性的身 份验证技术与身份识别技术的需求也日益增长。传统的以密码为特征的身份认证 技术暴露出巨大的弊端,很难满足高安全性和长效安全性的要求,而在生物学和 信息科学高度发展的今天,生物认证技术作为一种便捷、先进的信息安全技术已 经在现实生活中得到广泛的应用。这是根据人体自身的生理特征( 指纹、手形、 脸部、虹膜) 和行为特征( 声音、签名) 来识别身份的技术,它是集光学、传感 技术、红外扫描和计算机技术于一身的第三代身份验证技术,能满足现代社会对 于身份鉴别的准确性、安全性与实用性的更高要求。在信号检测与处理、模式识 别、人工智能、机器学习等理论与技术迅速发展的推动下,不久的将来,生物认 证技术必将进入一个光辉的时代。比尔盖茨曾经预言“以人类生物特征进行身份 验证的生物识别技术,在今后数年内将成为i t 产业最为重要的技术革命”“1 。 语音是人的自然属性之一,由于说话人发声器官的生理差异以及后天形成的 行为差异,每个人的语音都带有强烈的个人色彩,这使得通过分析语音信号来识 别说话人成为可能。用语音来鉴别说话人的身份有着许多独特的优点,如语音是 人的固有特征,不会丢失或遗忘;语音信号的采集方便,系统设备的成本低;另 外利用电话网还可以实现远程客户服务等等。近年来,利用语音特征进行身份鉴 别的说话人识别( 也叫声纹识别) 在生物认证技术领域中越来越受到研究者的关 注。 真正意义上的“自动”说话人识别的研究始于2 0 世纪6 0 年代,从那时开始 到现在的4 0 多年问,随着数字滤波、快速傅立叶变换、线性预测编码、同态信号 处理、矢量量化等算法的不断出现和完善,加之微电子技术的发展和计算机的普 及,使这一领域的研究取得了很大的进展。如今,说话人识别技术已逐渐走入实 际应用,其中,a t t 应用说话人识别技术研制出了智慧卡( s m a r tc a r d ) ,并已应 用于自动提款机。欧洲电信联盟在电信与金融结合领域应用说话人识别技术,于 1 9 9 8 年完成了c a v e ( c a l l e rv e r i f i c a t i o ni nb a n k i n ga n dt e l e c o m m u n ic a t i o n ) 计划,并于同年又启动了p i c a s s 0 ( p i o n e e r i n gc a l la u t h e n t i c a t i o nf o rs e c u r e s e r v i c eo p e r a t i o n ) 计划,在电信网上完成了说话人识别。同时,m o t o r o l a 和v is a 等公司成立了v c o m m e r c e 联盟,希望实现电子交易的自动化,其中通过声音确定 人的身份是此项目的重要组成部分。其它一些商用系统还包括:i t t 公司的 s p e a k e r k ey 、k e y w a r e 公司的v o i c e g u a r d i a n 、t n e t i x 公司的s p e a k e z 等。 基于m f c c 和g m m 的说话人识别系统研究 1 2 说话人识别概述 1 2 1 说话人识别的概念 说话人识别( s p e a k e rr e c o g n i t i o n ,简称s r ) 是一种自动识别说话人的过程。 它是人体个性特征识别中的重要分支,它是根据语音波形中反映说话人生理和行 为特征的语音参数自动识别说话人身份的技术。3 。广义上,说话人识别可以看着语 音识别( s p e e c h r e c o g n i t i o n ) 技术的一个分支,两者都属于语音信号处理的范围, 它们有很多共同的理论基础和处理技术,并且两者都依赖于语音信号本身的特性。 但不同的是:语音识别的目的是识别出语音信号中的言语内容,忽略说话人是谁, 并力图对不同人发声的差别加以归一化,强调的是不同说话人之间的共同之处, 而说话人识别的目的是识别说话人是谁,而不关注语音信号中的语义内容,在处 理过程中强调的是不同说话人之间的区别。由于说话人之间的发音差异涉及到说 话人发音器官之间的差异,声道之间的差异,发音习惯之间的差异,因此说话人 识别是一门应用生理学,语音信号处理,模式识别与人工智能技术的跨越多学科 的综合性研究课题“1 。 1 2 2 说话人识别的分类 说话人识别按其最终完成的任务可以分成两类:说话人确认( s p e a k e r v e r m c a t i o n ,简称s v ) 和说话人辨识( s p e a k e r i d e n t i f i c a t i o n ,简称s i ) “1 。本质上它 们都是根据说话人所说的测试语句或关键词,从中提取与说话人本人特征有关的 信息,再与存储的参考模型比较,做出正确的判断。不过说话人确认是确认个 人的身份,只涉及一个特定的参考模型和待识别模式之间的比较,系统只作出“是” 或“不是”的二元判决,如图1 1 所示,可表示为:f ( x ,i ) = f 0 ,1 ;而对于说话人辨 识,系统则需要在一个指定人群当中,确定某测试语音是其中哪一个说话人发出 的,有时还要对这个人以外的语音做出拒绝的判别。如图1 2 所示,可表示为: f ( x ) = 1 ,2 ,n ,由于需要比较和判决,所以说话人辨识的误识率要大于说话人 确认,并且随着数量的增加,其性能将会逐 是 a j 讲 话 ? 图】l 说话人确认 板 用户特征模板 图1 2 说话人辨识 河海大学硕士学位论文 另外,用户在使用说话人识别系统时,需要向系统提供一段语音。根据所需 要的语音,说话人识别系统可分为:文本有关( t e x t d e d e n d e n t ) 和文本无关 ( t e x t i n d e p e n d e n t ) ”1 。前者需要用户按照规定的内容发音,据此建立精确的模型, 训练和测试语料一致。这种识别方法的识别效果好,但需要用户配合,若发音与 规定的内容不符合,则无法正确识别用户。后者则不规定说话人的发音内容,且 训l 练语料和测试语料也不要求一致,这种识别方法建立精确的识别模型较难,识 别效果也较差。此外,以待测语音的说话人是否在已有的说话人集合内来区分说 话人辨识的话,则说话人辨识可分为:闭集( c l o s es e t ) 辨识和开集( 0 口e ns e t ) 辨识。闭集辨识是待测说话人在已有的说话人集合内,开集辨识是待测说话人不 一定在已有的说话人集合内。显然,闭集辨识的效果要好于开集辨识但开集辨识 与实际情况更为一致。 1 2 3 说话人识别的基本原理和系统结构 说话人识别本质上是一个模式识别问题,分为训练( 注册) 阶段和识别阶段口1 。 在训练阶段,系统的每个使用者说出若干训练语料,系统对这些训练语料进行数 字化处理,根据特征参量建立每个使用者的模板或模型参数参考集。在识别阶段, 把从待识别说话人说出的语音信号中提取的特征参量,与在训练过程中得到的参 考参量集或模型模板进行对比,根据一定的相似性准则进行决策从而得出识别结 果。对于说话人辨识来说,所提取的参数要与训练过程中的每一个人的参考模型 加以比较,并把与它距离最近的那个参考模型所对应的使用者辨认为是发出输入 语音的说话人。对于说话人确认而言,则是将从输入语音中提取的特征参量与其 声称为某人的参考模板比较,如果两者之间的距离小于一定的阀值,则予以确认, 否则拒绝。图1 3 是说话人识别系统的结构框图,它由预处理,特征提取,模型训 练,模式匹配,和判决等几个大部分组成。 图1 3 说话人识别系统框图 基于m f c c 和g m m 的说话人识别系统研究 1 3 说话人识别的主要技术 说话人识别技术是沿着两条路线不断进步的,即特征提取和模式匹配。特征 提取的任务是选取唯一表现说话人身份的有效且稳定可靠的特征,模式匹配的任 务是对训l 练和识别时的特征模式做相似性匹配。 1 3 1 特征提取 1 3 1 1 特征提取的原则 说话人识别中的特征提取就是从说话人的语音信号中提取出表示说话人个性 的基本特征。在理想情况下,选取的特征应该满足下述准则“1 : 能够有效地区分不同的说话人,但又能在同一个说话人的语音发生变化时 相对保持稳定; 易于从语音信号中提取; 不易被模仿; 尽量不随时问和空间变化。 1 3 1 - 2 常用的特征参数 考虑到特征的可量化性,训练样本的数量和系统性能的评价问题,目前的说 话人识别系统主要依靠较低层次的声学特征进行识别。经过人们的多年实验,总 结出目前说话人识别中常用的特征参数大致有以下几类。1 : ( 1 ) 线性预测参数及其派生参数 通过对线性预测参数进行正交变化得到的参量,其中阶数较高的几个方差较 小,这说明它们实质上与语句的内容相关性小,而反应了说话人的信息“。另外, 由于这些参数是对整个语句平均得到的,所以不需要进行时间上的归一化,因此 可用于与文本无关的说话人识别。由它推导出的各种参数,例如部分相关系数、 声道面积比函数、线谱对系数以及l p c 倒谱系数,都是可以利用的。目前,l p c 倒谱系数和差值倒谱系数是最常用的短时谱系数,并获得了较好的识别效果。 ( 2 ) 语音频谱直接导出的参数 语音短时谱中包含有激励源和声道的特性,因而可以反映说话人生理上的差 别。而短时谱随时间变化,又在一定程度上反映了说话人的发音习惯,因此,由 语音短时谱中导出的参数可以有效地用于说话人识别中。已经使用的参数包括功 率谱、基音轮廓、共振峰及其带宽、语音强度及其变化等。现已证实基音周期及 其派生参数携带有较多的个人信息。但基音容易被模仿,且不稳定,最好与其它 参数组合使用。 ( 3 ) 混合参数 为了提高系统的识别率,部分原因也许是因为对究竟哪些参数是关键把握不 河海大学硕士学位论文 够,相当多的系统采用了混合参量构成的矢量。如将“动态”参量与“统计”分 量相结合,还有将逆滤波器谱与带通滤波器谱结合,或者将线性预测参数与基音 轮廓结合等参量组合方法。如果组成矢量的各参量之间的相关性不大,则效果会 很好,因为它分别反映了语音信号中不同的特征。 ( 4 ) 其它鲁棒性参数 包括m e l 频率倒谱系数,以及经过噪声谱减或者信道谱减的去噪倒谱系数等。 综上所述,常用于说话人识别的特征参数有:语音短时能量、基音周期、语音 短时谱或b p f g 特征、线性预测系数l p c 、共振峰频率及带宽、l p c 倒谱、m f c c 倒谱等,以及反映这些特征动态变化的线性回归系数等“。 1 3 1 3 特征参量的评价方法 在给定了一种识别方法后,识别的效果主要取决于特征参数的选取。对于某 一维单个的参数而言,可以用f 比来表征它在说话人识别中的有效性。同一说话 人的不同语音会在参数空间映射出不同的点,若对同一个人这些点分布比较集中, 而对不同说话人的分布相距较远,则选取的参数就是有效的。可以选取两种分布 的方差之比( f 比) 作为有效性准则”1 。 , 一,2 。不同说话人特征参数均值的方差 i 1 同一说话人特征方差的均值 。, 这里f 大表示有效,即不同说话人的特征量的均值分布的离散程度分布得越 散越好;而同一个说话人得越集中越好。式中, j 是指对说话人作平均, 。 是指对某个说话人各次的某语音特征作平均,五为第i 个说话人的第a 次语音特 征。,2 。是第i 个说话人的各次特征的估计平均值,而2 。是将所 有的“平均所得的均值。 需要说明的是,在f 比的定义过程中是假定差别分布是正态分布的,这是基 本符合实际的。虽然f 比不能直接得到误差概率,显然f 比越大误差概率越小, 因此,f 比可以作为所选特征参数的有效性准则。 1 3 2 模式匹配 在目前语义特征与说话人个性特征还不能很好地从语音特征中得到分离地情 况下,为每一说话人建立的说话人个性特征模型实际上是话者的语音特征模型。 为了对说话人个性特征描述的一致起见,系统一般将每一个说话人的模型结构取 得相同,不同的只是模型的参数。目前针对各种特征而提出的模式匹配方法大体 基于m f c c 和g m m 的说话人识别系统研究 可以归为下述几种: ( 1 1 概率统计方法 语音中说话人信息在短时间内较为平稳,通过对稳态特征如基音、声门增益、 低阶反射系数的统计分析,可以利用均值、方差等统计量和概率密度函数进行分 类判决。其优点是不用对特征参量在时域上进行归整,比较适合于文本无关的说 话人识别。 ( 2 ) 动态时间归整方法( d t w ) 说话人信息不仅有稳定因素( 发声器官的结构和发声习惯) ,而且有时变因素 ( 语速、语调、重音和韵律) 。将识别模板与参考模板进行时间比对,按照某种距 离测度得出两模板问的相似程度。常用的方法是基于最近邻原则的动态时间归整 d t w 。 ( 3 ) 矢量量化方法( v q ) “2 1 矢量量化最早是用于聚类分析的数据压缩编码技术。它是把每个人的特定文 本训练成码本,识别时将测试文本按此码本进行编码,以量化产生的失真度作为 判决标准。利用矢量量化的说话人识别方法的判断速度快,而且识别精度也不低。 ( 4 ) 隐马尔可夫模型方法( h m m ) 隐马尔可夫模型是一种基于转移概率和输出概率的随机模型“”“”。它把语音 看成由可观察到的符号序列组成的随机过程,符号序列则是发声系统状态序列的 输出。在使用隐马尔可夫模型识别时,为每一个说话人建立发声模型,通过训练 得到状态转移概率矩阵和符号输出概率矩阵。识别时计算未知语音在状态转移过 程中的最大概率,根据最大概率对应的模型进行判决。对于文本无关的说话人识 别一般采用各态历经型h m m ,对于与文本有关的说话人识别一般采用从左到右型 h m m 。h m m 不需要时间归整,可节约判决时的计算时间和存储量。缺点是训练 时计算量较大。 f 5 ) 人工神经网络方法( a n n ) 人工神经网络在某种程度上模拟了生物的感知特性,它是一种分布式并行处 理结构的网络模型,具有自组织和自学习能力、很强的复杂分类边界区分能力以 及对不完全信息的鲁棒性,其性能近似理想的分类器。其缺点是训练时间长,动 态时间归整能力弱,网络规模随说话人数目增加时可能大到难以训练的程度“卯“。 1 4 说话人识别系统性能的评价标准 目前对于说话人识别系统的性能评价还没有统一的标准。各系统所具有的识 别性能尽管看起来很好,但是它们所依据的条件却是差别很大的。一个说话人识 别系统的好坏是由许多因素决定的。其中主要的有:系统的正确识别率( 或出错 率) ,鲁棒性,训练时间的长短,识别时间,性能随时间推移的稳定性,对参考模 河海大学硕士学位论文 板存储量的要求,使用者使用的方便程度,以及价格等“3 。 如果训练时间过长会造成用户的厌恶情绪。同样,若识别的时间过长在某些 场合下也是不能接受的。但这往往又与系统的其它性能要求相矛盾,因此需要在 设计中加以折衷。 对于说话人确认系统来说,表征其性能的最重要的两个参量是错误拒绝率 ( f a l s er e j e c t i o nr a t e ,简称为f r ) ,又称为i 型差错;以及错误接受率( f a l s e a c c e p t a n c er a t e ,简称为f a ) ,又称为i i 型差错。前者是拒绝真实的声言人所造成 的差错,后者是把冒名顶替者错认为是其声言人而引起的差错。通常这些差错率 与说话人确认系统的门限设定有很大的关系。如果门限取得过低,有可能接受冒 名顶替者,从而使得错误接受率升高,如果把门限设得过高,又有可能把真正的 说话人拒绝,造成错误拒绝率上升。这两种差错率与接受门限之间的关系如图1 4 所示。 图1 4 接受门限与f r 和f a 的关系 判决门限 通常这两种错误率决定了对判决门限的估计,一般情况下判决门限都应该选 取在f r 和f a 两条曲线的交点附近。但这个点的确定需要较多数据的实验结果, 还不一定得到正好相等的点。通常,每一个说话人的数据都很少,因此,说话人 门限确定的统计性不太明显。必须注意,f a 和f r 都是门限的离散函数,点的个 数决定于对真实者的f r 测试和对假冒者的f a 测试次数。很明显,如果两者的测 试点相等,f a 和f r 会在某一个点相交。然而在实际实验中通常假冒者要比真实 者多许多,因此用上面的方法,我们会发现f r 和f a 不会相等,但会很接近。此 时,一些实验就将此接近点作为门限。f a ,f r 这两类差错造成的影响是不一样的。 比如在非常机密场所的进入控制场合下,应该使错误接受率( f a ) 尽量的低,以 避免非法侵入造成严重的后果。一般要求f a 要在o 1 以下,这样f r 就会有所上 7 桨锝蹬姆0 基于m f c c 和g m m 的说话人识别系统研究 升,但这可以通过一些辅助手段来弥补。错误拒绝率( f r ) 的要求没有这么高, 因为如果真正的用户第一次被拒绝了,他还可以进行多次尝试以获得通过。尽管 如此,通常仍然要求保证f r 在1 以下。f r 过高肯定会造成用户的不方便。 说话人辨识系统的性能是与用户数量有关的。因为它工作时把输入测试语音 的特征参数与系统所存储的每个合法使用者的参考模型相比较,所以当用户数量 增多时,不仅处理时间变长,而且各个用户之间变得难以区分,导致差错率增大。 而对于说话人确认系统差错率基本上不会随用户数量的增加而改变。 1 5 说话人识别技术的应用前景 由于与其它生物识别技术相比,说话人识别具有不会遗失和忘记、不需记忆、 使用方便等优点,同时说话人识别还具有更为准确、经济及可扩展性良好等众多 优势,因此,说话人识别技术在如下等许多方面得到广泛应用。 1 用于银行,证券系统: 目前电话银行,远程炒股等业务不断增加,如果采用说话人确认技术并结合 密码输入,可安全有效地实现用户身份的确认。 2 网络安全: 现在人们越来越多地依赖于口令和密码,随着密码在不同场合的频繁应用, 其安全缺陷非常明显,同时,记忆并定期修改众多的密码是非常让人头疼的事情。 在说话人识别过程中,每次发音都可由随机产生的提示文本来控制,可有效的防 止复制和剽窃,并且用户不需要记忆和修改任何东西。因此,说话人识别技术与 其他的生物识别技术相比有较明显的优势,可以为臼益发展的电子购物,电子商 务,国际贸易保驾护航,且操作方便,简洁,很容易为广大计算机使用者接受。 3 刑事案件侦破: 对于各种电话勒索,绑架,电话人身攻击等案件,说话人识别技术可以在一 段录音中查找出嫌疑人,帮助对嫌疑人的查证。另外,相当多的法庭已经使用声 纹作为鉴别罪犯的依据。 4 语音检索: 对于大量的录音素材,将说话人识别技术与连续语音识别技术相结合,可以 检索出其中我们感兴趣的特定人所说的内容。 5 医学应用: 说话人识别的主要依据是说话人声道结构的差异,一方面生理学和解剖学的 进展可以促进说话人识别问题的研究,另一方面也可借助说话人识别技术进行声 道特性的研究。 河海大学硕士学位论文 1 6 说话人识别目前研究的难点和热点 1 6 1 说话人识别研究的难点 虽然说话人识别的研究得到了迅速的发展,其应用领域也在不断扩大。但是 说话人识别技术也存在以下一些难点: ( 1 ) 尚未找到简单可靠的说话人语音特征参数。语音信号中既包含了讲话内容 的语义信息,又包含了说话人发声特征的个性信息,是语义特征和说话人 特征的混合体。到目前为止,还没有很好的方法将说话人个性特征从语音 特征中分离出来,也没有找到简单可靠的声学参数能够识别说话人。 ( 2 ) 语音信号的变易性。说话人的语音特征不是静态的,固定不变的,它具有 时变特性,并常常与说话人所处的环境,情绪,健康状况有密切关系,会 随时间的推移和年龄的变化而变化“”,传输语音的通信信道的时变效应问 题也是语音信号产生变异的主要方面。语音信号的变异性从本质上使说话 人特征空间发生移动,说话人模式产生变异,从而增加识别过程中的不确 定性。 ( 3 ) 特征空间有限。在汉语语音识别中,全体音节( 字音) 的集合很小,其数 目仅几百个,而全体汉语说话人却有1 3 亿,对于由同一语音信号组成的 特征空间,语音识别要将其划分为m 个子空间( m = 音节个数) ,而说话 人识别要将其划分为n 个子空间( n = 说话人个数) ,由于n 远大于m , 使得识别说话人要比识别所说内容复杂,而且当n 很大时,说话人识别 还在理论上存在将有限特征空间进行无限划分的问题,这是说话人识别所 面临的新问题。 另外,说话人识别还存在以下一些实用性的问题需要在将来的研究中加以考 虑和解决: ( 1 ) 说话人识别系统设计的合理化及优化问题。即在一定的应用场合下对系统 的功能和指标合理定义、对使用者实行明智的控制以及选择有效而可靠的 识别方法( 既能正确识别说话人,又能拒绝模仿者) 等问题。 ( 2 ) 如何处理长时和短时说话人的语音波动? 如何区别有意模仿的声音? 这 一点对于说话人识别在司法上的应用尤为重要。如何将语音识别和说话人 识别有机地结合起来? 对于这一点,指定文本型的说话人识别是一个有益 的尝试。 ( 3 ) 说话人识别系统的性能评价问题。需要建立与试听人试验对比的方法和指 标;由于目前对于说话人识别的性能尚无一致的评价方法,所以这一问题 的解决还需长期的努力。 ( 4 ) 可靠性和经济性。和语音识别系统相比,说话人识别的使用者要多几个数 基于m f c c 和g m m 的说话人识别系统研究 量级,例如有信用卡的人可以是几百万或上千万,当然不一定所有的都用 一个系统来处理,但是在把说话人识别系统用于社会以前,必须先设想万 位以上的说话人进行可靠性试验。同理,在经济性方面,每一个说话人的 标准模型必须使用尽量少的信息,因此样本和特征量的精选也是急待解决 的。 1 6 2 目前说话人识别研究的热点 由于应用的需求和数字信号处理技术的飞速发展,说话人识别的研究越来越 别人们所重视。在国际声学、语音和信号处理会议( i n t e r n a t i o n a lc o n f e r r e n c e o na c o u s t i c ,s p e e c ha n ds i g n a lp r o c e s s i n g ,简称i c a s s p ) 论文集中,每年都 有关于说话人识别的专题。说话人识别的研究已经逐渐从实验室走向实际应用, 目前,说话人识别的研究主要集中在如下几个方面: ( 1 ) 、语音特征参数的提取和混合 语音特征参数对说话人识别系统的性能至关重要,虽然倒谱参数得到广 泛应用,但语音特征参数仍是一个研究热点。寻找新的有效的语音特征 参数以及和已有特征参数的有效组合是语音特征参数研究的两个方向。 ( 2 ) 、在模型训练和识别技术方面 h m m 模型与其他模型结合,改善说话人识别系统的性能。如h m m 模 型与神经网络,h m m 模型与支持向量机s v m ( s u p p o r t v e c t o r m a c h i n e ) 的结合都可以有效地改善系统的性能。 高斯混合模型方面:模型参数估计方法的改进,减少模型运算量及算法 复杂度的研究 矢量量化方面:量化方法的鲁棒性及改进算法。 神经网络方面:大人群的识别,级联神经网络 ( 3 ) 、带噪语音( 特剐是电话和移动通信环境中的语音) 的说话人识别是现今 说话人识别的一个热点和难点。 ( 4 ) 、文本无关的说话人识别技术是当今说话人识别研究的又一个热点和难 点。 1 7 本文的主要工作 本论文研究的主要内容是基于m f c c 倒谱系数和高斯混合模型( g m m ) 的说 话人识别系统。其中包括以下一些方面: ( 1 ) 、比较详细的介绍了提取语音信号倒谱系数的分析技术,即线性预测分析 技术和同态信号处理。用这两种方法对语音信号实现解卷,从而获得了与声道响 应有关的倒谱系数,组成特征向量。 1 0 河海大学硕士学位论文 ( 2 ) 、通过对人耳听觉的生理和心理特性的介绍,提出了利用音调特性来改进 倒谱特征提取的方案,即用m e l 频率对短时功率谱做频率弯折处理。在这种新的 倒谱提取过程中,用符合临界带分布的等效滤波器组来模拟人耳听觉的非线性特 性,从而得到了m e l 频率倒谱系数( m f c c ) 。文中比较详细的给出了提取m f c c 倒 谱系数的理论基础和实现方案,并与传统的线性预测技术( l p c c ) 作了比较。 ( 3 ) 在g m m 模型中混合数决定了用几个高斯分量来拟合真实的说话人特征的 总体发布,从而成为模型训练过程中的绝对功能因素,文中通过实验研究分析了 g m m 模型的阶数对识别性能的影响。 ( 4 ) 、讨论了加入规一化能量的m f c c 以及m f c c 动态过渡信息对系统识别性能 的影响。提出了在原来m f c c 的基础上加入动态系数( m f c c ) 组成高维特征向 量的方法,并与静态特征系数做了实验对比,对实验结果进行了分析,最终给出 了总结性的结论。 ( 5 ) 、通过实验分析了m f c c 的前两维分量( 。o 和。- ) 对系统识别性能的影响。 1 8 论文的结构安排 全文分为六章,按以下顺序组织: 第一章绪论,介绍了说话人识别研究的背景和现状,说话人识别的概念、分 类和应用、说话人识别中常用的技术、说话人识别系统的评价标准以 及本文的主要工作和组织结构。 第二章语音信号的倒谱分析,比较详细的介绍了对语音信号实行解卷求取倒 谱系数的两种方法:线性预测分析技术和同态信号处理技术。 第三章m f c c 倒谱系数及其提取算法,介绍了人耳听觉系统的生理和心理特 性,引出了m e l 频率刻度和符合人耳听觉特性的等效滤波器组,给出 了用音调特性来改进倒谱系数提取的具体算法,以及规一化能量和动 态特征的计算算法。 第四章高斯混合模型,介绍了g m m 模型的概念、模型参数的估计以及g m m 的识别算法。 第五章基于m f c c 和g m m 的说话人辨识系统的实验和分析,通过实验分析了 g m m 模型的阶数对系统性能的影响,比较分析了l p c c ,m f c c ,加入 规一化能量的m f c c ,以及m f c c 加动态m f c c 等特征参数的识别效果。 第六章总结全文并提出下一步的工作。 基于m f c c 和g m m 的说话人识别系统研究 第二章语音信号的倒谱分析 在说话人识别系统中特征提取是比较关键的一个步骤。特征提取就是从说话 人的语音信号中提取出表示说话人个性的基本特征。如果提取的特征参数能够比 较好地刻画语音的本质特征,那么在后续处理中就有可能取得理想的效果。目前 在说话人识别系统中,频谱包洛特征特别是倒谱特征“”用得比较多,这是因为一 些实验已经证明,用倒谱特征可以得到比较好的识别性能,而且稳定的倒谱系数 比较容易提取。 目前对语音信号的分析主要有时域分析,频域分析和倒谱分析,语音信号的 倒谱分析就是求取语音倒谱特征参量的过程啼3 。根据语音信号产出的模型可知,语 音信号s ( z ) 是一个线性非时变因果稳定系统v ( z ) 的输出,这个线性非时变因果稳定 系统v ( z ) 受到信号e ( z ) 的激励,其中v ( z ) 反映了声道的特性,e ( z ) 反映了激励信号 的特性。从时域角度来看,语音信号s ( n ) 就是声门激励信号e ( n ) 和声道冲击响应v ( n ) 的卷积”1 。而人的声道响应是一种反应说话人个性特征的重要物理量,为了将语音 信号的声门激励信息与声道响应信息分离开来,就必须对语音信号进行将卷积关 系变换为求和关系的分离处理,即解卷。通过解卷积的方法将激励信号和系统冲 击响应分开,可以得到倒谱系数。它可以将信息量较小的峰值信息和更重要的声 道形状信息相分离,倒谱系数反映了声道的共振性能,它是目前普遍采用的说话 人特征参数。 目前求取倒谱特征参数的方法有两种,一种是线性预测分析,一种是同态信 号处理。 2 1 线性预测分析 线性预测分析的基本思想是:由于语音样点之间存在相关性,所以可以用过 去的样点值来预测现在和未来的样点值,即一个语音的抽样能够用过去若干个语 音抽样或它们的线性组合来逼近。通过使实际语音抽样和线性预测抽样之间的误 差在某个准则下达到最小值来决定唯一的一组预测系数。而这组预测系数就反映 了语音信号的特性,可以作为语音信号的特征参数来使用。 将线性预测应用于语音信号处理,不仅是因为它的预测功能,而且更重要的 是因为它能提供一个非常好的声道模型及模型参数估计方法。线性预测系数 ( l i n e a rp r e d i c t i o nc o e f f ic i e n t ,简称l p c ) 是语音信号处理的非常重要得参 数之一。 河海大学硕士学位论文 2 1 1 线性预测的基本原理 线性预测分析的思想是:用过去样点值来预测现在或未来的样点值儿”1 p s ( ”) = 口,j ,= 1 其中p 是预测器阶数,口,( i _ 1 ,2 p ) 为线性预测系数。 预测误差s ( h ) 为: ( 2 1 ) p 占( n ) = s ( n ) 一s ( ,z ) = s ( 刀) 一q s ( n f ) 闰 ( 2 2 ) 由于线性预测是和语音信号数字模型密切相关的。根据参考文献 1 8 的分析, 如图2 1 所示,可以用准周期脉冲( 在浊音语音期问) 或白噪声( 在清音语音期 间) 激励一个线性时不变系统( 声道) 所产生的输出作为语音的模型。 图2 1语音信号产生模型 这里,系统的输入e ( n ) 是语音激励,s ( n ) 是输出语音,模型的系统函数h ( z ) 可 以写成有理分式的形式: h ( z ) = g 1 + 艺岛z 1 l 一饶z 1 ( 2 3 ) 式中,系数a ,、b ,及增益因子g 是模型的参数,而p 和q 是选定的模型阶数。 根据h ( z ) 的形式不同,有三种不同的信号模型: ( 1 ) h ( z ) 同时含有极点和零点,称做自回归一滑动平均模型,( a u t o r e g r e s s i v e m o v i n ga v e r a g e ,简称a r m a 模型) ,这是一种一般的模型。 ( 2 ) h ( z ) 中的分子多项式为常数,即6 ,2o 时,h ( :) 为全极点模型,这时模型 1 3 基于m f c c 和g m m 的说话人识别系统研究 的输出只取决于过去的信号值,这种模型称为自回归模型 ( a u t o r e g r e s s iv e ,简称为a r 模型) 。 ( 3 ) 如果h ( z ) 的分母多项式为1 ,即日,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论