




已阅读5页,还剩65页未读, 继续免费阅读
(信号与信息处理专业论文)说话人识别中特征提取的方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大连理工大学硕士学位论文 摘要 说话人识别作为生物认证技术的一种,是根据语音波形中反映说话人生理和行为特 征的语音参数,自动鉴别说话人身份的一项技术。说话人识别技术以其独特的方便性、 经济性和准确性等优势受到世人瞩目,并曰益成为人们臼常生活和工作中重要且普及的 安全验证方式。因此,研究种识别率高、鲁棒性强的说话人识别方法是国内外众多研 究者努力的目标。在众多的说话人识别方法中,本文重点研究了基于m e l 频率倒谱系数 ( m e l - f r e q u e n c yc e p s t r u r nc o e f f i c i e n t s ,简称m f c o 特征和高斯混合模型的说话人识别系 统,结合f 比、主分量分析和独立分量分析等方法做了以下研究工作: ( 1 ) 对比了常用特征l p c c ( l i n c a rp r e d i c t i v ec e p s t r a lc o e f f i c i e n t s ,简称l p c c ) 、 a c w ( a d a p t i v ec o m p o n e n t sw e i g h t i n g ,简称a c w ) 和m f c c 对系统识别性能的影响, 并通过实验验证了使用m f c c 特征可以使得系统取得较高识别率。 ( 2 ) 在m f c c 的基础上,讨论了加入归一化短时能量的m f c c 以及提取m f c c 的 过渡信息对系统识别性能的影响。并利用f 比这种特征评价方法来选取特征分量,验证 了f 比方法的有效性。 ( 3 ) 借助于f 比方法直接选取m f c c 中对识别性能贡献较大的特征分量,并给出一 种基于m f c c 特征的加权f 比方法。 f 4 1 将主分量分析和f 眈方法应用于m f c c 特征提取过程之中,去除了特钲分量之 间的相关性,同时又可以选取出区分度最大的特征分量。 ( 5 ) 将独立分量分析和f 比方法应用于m f c c 特征提取过程之中,去除了特征分量 之间的冗余信息,同时选取出对识别性能贡献较大特征分量。 对上述各种特征提取方法进行了实验对比,对实验结果进行了较为详尽的分析,并 给出了总结性的结论。文中最后对以后的研究工作进行了展望。 关键词:m f c c ;高斯混合模型 主分量分析;独立分量分析 说话认识别中特征提取的方法研究 s t u d y o nf e a t u r ee x t r a c t i o ni ns p e a k e r r e c o g n i t i o n a b s t r a c t s p e a k e rr e c o g n i t i o na so n eo f t h eb i o m e t r i c st e c h n i q u e si st or e c o g n i z es p e a k e r si d e n t i t y f r o mi t sv o i c ew h i c hc o n t a i n sp h y s i o l o g i c a la n db e h a v i o r a lc h a r a c t e r i s t i c s s p e c i f i c t oe a c h i n d i v i d u a l s p e a k e rr e c o g n i t i o nh a sc a u g h tm a n ya t t e n t i o n sf o ri t sp a r t i c u l a r l ya d v a n t a g eo n c o n v e n i e n c e ,e c o n o m ya n dv e r a c i t y a n db e c o m ea l l i m p o r t a n ta n dp o p u l a ra u t h e n t i c a t i o n t e c h n i q u ei nh u m a n l i f ea n dw o r k t h e r e f o r e ,am o l er o b u s tm e t h o df o rs p e a k e rr e c o g n i t i o n 、v i mk g h a c c u r a c yo f r e c o g n i t i o n r a t ei st h ea i mf o rr e s e a r c h e r sa th o m ea n da b m a d t h i s p a p e r f o c u s e so nt h es p e a k e rr e c o g n i t i o ns y s t e mb a s e do nm e l f r e q u e n c yc e p s t r u mc o e f f i c i e n t s ( m f c c la n dg a u s s i a nm i x t u r em o d e l ( g m m ) ,w h i c h a r ec o m b i n e dw i t ht h em e t h o d so ff r a t i o ,p r i n c i p a lc o m p o n e n ta n a l y s i sa n di n d e p e n d e n tc o m p o n e n ta n a l y s i s i nt h i sp a p e r ,t h e f o l l o w i n g r e s e a r c hw o r ki sp u r s u e d : ( 1 ) c o m p a r e dt h es y s t e mp e r f o r m a n c eu s i n gt h ef e a t u r e so f l i n e a rp r e d i c t i v ec e p s t r a l c o e f f i c i e n t s ( l p c c ) ,a d a p t i v ec o m p o n e n t sw e i g h t i n g ( a c w ) a n d n 伊c c ,a n dp r o v e d t h a tb y u s i n gm f c c a h i g h e ra c c u r a c yo f r e c o g n i t i o n r a t ei so b t a i n e d ( 2 ) t h em f c c f e a t u r ew i t hn o r m a l i z e ds h o r tt i m ee n e r g ya n dd y n a m i ci n f o r m a t i o ni s d i s c u s s e db a s e do nt h em f c cf e a t u r ea n dt h ei n f l u e n c et ot h ei d e n t i f i c a t i o np e r f o r m a n c ei s a n a l y z e d f r a t i oa sa ne v a l u a t i o nm e t h o df o rf e a t u r ei su s e dt oc h o o s ef e a t u r ec o m p o n e n t s f r a t i oi sp r o v e dt ob ee f f i c i e n tf r o mt h er e s u l t so f e x p e r i m e n t s ( 3 ) c h o o s et h em o s tc o n t r i b u t i v ef e a t u r ec o m p o n e n t sf o rt h er e c o g n i t i o np e r f o r m a n c eb y u s i n g fr a t i om e t h o d , a n da w e i g h t e d fr a t i om e t h o di sp r o p o s e db a s e do nt h ef e a t u r eo f m f c c ( 4 ) p r i n c i p a lc o m p o n e n ta n a l y s i sa n df r a t i om e t h o da r ei n t r o d u c e di n t ot h em f c c f e a t u l ee x t r a c t i o n ,w h i c ht h ec o r r e l a f i o ni n f o r m a t i o nb e t w o 豇lc o m p o n e n t si sc a n c e l l e da n dt h e m o s td i f f e r e n t i a lc o m p o n e n t sa l ec h o s e n f 5 ) i n d e p e n d e n tc o m p o n e n ta n a l y s i s ( i c a ) a n df r a t i om e t h o da r ei n t r o d u c e di n t ot h e m f c cf e a t u r ee x t r a c t i o n , d u r i n gw h i c ht h er e d u n d a n c yi n f o r m a t i o nb e t w e e nc o m p o n e n t si s t a k e no u ta n dt h em o s tc o n t r i b u t i v ef e a t u r ec o m p o n e n t sf o rt 1 1 ei d e n t i f i c a t i o np e r f o r m a n c ea r e c h o s e n t h e a p p m a c h e s m e n t i o n e da b o v ea l ec o n l r a s t e dt h r o u g hs i m u l a t i o nr e s u l t s ,a n de l a b o r a t e a n a l y s i sa n d t h ec o n c l u s i o na l eg i v e n f i n a l l yt h ee x p e c t a t i o n f o rf e a t u r ew o r ki ss u g g e s t e d k e yw o r d s :m e l - f r e q u e n c yc e p s t r u mc o e f f i c i e n t s ( m f c c ) ;g a u s s i a n m i x t u r em o d e l ; p r i n c i p a lc o m p o n e n ta n a l y s i s ;i n d e p e n d e n t c o m p o n e n ta n a l y s i s i i 。 独创性说明 作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究 工作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得 大连理工大学或其他单位的学位或证书所使用过的材料。与我一同工作 的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢 意。 作者签名:主懿日期:逸堕坦园) 旦 大连理工大学硕士学位论文 1 绪论 研究背景与现状 在生物学和信息科学高度发展的今天,生物认证技术作为一种便捷、先进的信息安 全技术开始在全球电子商务时代崭露头角。这是一种根据人体自身的生理特征付旨纹、 手形、脸部、虹膜、视网膜、气味等) 和行为特征( 声音、签名、击键方式等) 来识别身份 的技术。它是集光学、传感技术、红外扫描和计算机技术于一身的第三代身份验证技 术,能满足现代社会对于身份鉴别的准确性、安全性与实用性的更高要求。在信号检测 与处理、模式识别、人工智能、机器学习等理论与技术迅速发展的推动下,不久的将 来,生物认证技术必将进入一个光辉的时代。 语音,作为信息交流的最自然、最有效、最方便的途径,近年来,在生物认证技术 领域中越来越受到研究者的关注【1 】,而说话人识别则被认为是最自然的利用语音特征进 行身份鉴别的方式。1 6 6 0 年,在英国国王查尔斯一世之死的侦破过程中,就是利用声 音作为线索找出了罪犯。从那时起,人们逐渐开始关注通过语音对人身份进行鉴别的可 能性。1 9 4 5 年贝尔实验室发明了声音语谱图,它能够把声纹描绘出来,就好像识别指 纹一样,人们可以通过对图形的直观判断,去区分不同的人,1 9 6 6 年美国法院第一次 采用此方法进行取证。 真正意义上的“自动”说话人识别的研究始于2 0 世纪6 0 年代,从那时开始到现在 的4 0 多年间,随着数字滤波、快速傅立叶变换、线性预测编码、同态信号处理、矢量 量化等算法的不断出现和完善,加之微电子技术的发展和计算机的普及,使这一领域的 研究取得了很大的进展。如今,说话人识别技术已逐渐走入实际应用,其中,a t & t 应 用说话人识别技术研制出了智慧卡( s m a r tc a r d ) ,并已应用于自动提款机。欧洲电信联盟 在电信与金融结合领域应用说话人识别技术,于1 9 9 8 年完成了c a v e ( ( :a l l e r v e r i f i c a t i o n i n b a n k i n g a n dt e l e c o m m u n i c a t i o n ) 计划,并于同年又启动了p i c a s s o 巾i o n e e r i n gc a l la u t h e n t i c a t i o n f o rs e c u r es e r v i c eo p e r a t i o n ) 计划,在电信网上完成了说话 人识别。同时,m o t o r o l a 和v i s a 等公司成立了v - c o m m e r c e 联盟,希望实现电子交易的 自助化,其中通过声音确定人的身份是此项目的重要组成部分。其他一些商用系统还包 括:i t t 公司的s p e a k e r k e y 、k e y w a r e 公司的v o i c e c m a r d i a n 、t - n e t i x 公司的 s p e a k e z 等。 说话认识别中特征提取的方法研究 国内的说话人识别研究主要由一些大学和研究所在进行。例如:北京大学迟惠生教 授领导的科研组、清华大学吴文虎教授领导的科研组、东南大学陈永斌教授领导的科研 组、中科院自动化所、中科院声学所、哈尔滨工业大学高文教授领导的科研组等。 1 2 说话人识别的应用 说话人识别这种技术有着广阔的市场应用前景。通过这种技术,可以利用人本身的 生物特性进行身份鉴别,例如为公安部门进行语音验证,为一般用户提供防盗门开启功 能等等。在互联网应用及通信领域,说话人识别技术可以应用于诸如声音拨号、电话银 行、电话购物、数据库访问、信息服务、语音e - m a i l 、安全控制、计算机远程登录等领 域。在呼叫中心应用上,说话人识别技术同样可以提供更加个性化的人机交互界面。当 顾客以电话方式对呼叫中心进行请求时,系统能够根据话音判断出顾客的身份,从而提 供更个性化、更贴心的服务。另外,在军事领域,可以用于战场上的侦听,以辨认出敌 方的指挥员。在医疗领域,可以用于患者的确认等等。 l _ 3 说话人识别的基本原理 本节将简要介绍说话人识别的基本原理,其中包括说话人识别的基本概念、分类以 及常用方法。 】3 1 说话人识别的基本概念 说话人识别指的是根据说话人所发的语音来确定说话人的过程,也就是将声音这种 生物特性作为身份认证依据的识别技术。为此,需要从各个说话人的发音中找出说话人 之间的个性差异,它涉及到说话人发音器官上的个性差异、发音通道之间的个性差异、 发音习惯之间的个性差异等不同级别上的差异。说话人识别是交叉运用心理学、生理 学、语音信号处理、模式识别、统计学习理论和人工智能的综合性研究课题。 说话人识别可以看作是语音识别的一种,它和语音识别一样,都是通过对所接收的 语音信号进行处理,提取相应的特征,建立相应的模型,然后据此做出判断。说话人识 别与语音识别的区别在于,前者希望从语音信号中提取出人的特征,希望挖掘出包含在 语音中的个性因素,因此在处理方法上力图强调不同人之间的差别;而后者注意语音信 号中的语义内容,希望从不同的语音信号中寻找共同因素,因而力图对不同说话人的差 别加以归一化。 图1 1 给出了说话人识别系统框图。和语音识别系统一样,建立和应用这一系统可 以分为两个阶段,即训练阶段和识别阶段。在训练阶段,系统的每个使用者说出若干训 练语句,系统据此建立每个使用者的模板或模型参量参考集。而在识别阶段,待识别说 2 大连理工大学硕士学位论文 话人语音中导出的参量要与训练中的参考参量或模板加以比较,并且根据一定的相似性 准则形成判断。 图1 1 说话人识别系统 f i g 1 1s p e a k e rr e c o g n i t i o ns y s t e m 1 3 2 说话人识别的分类 说话人识别根据实现的任务不同,可分为说话人辨认( s p e a k e ri d e n t i f i c a t i o n ) 和说话 人确认( s p e a k e rv e r i f i c a t i o n ) 两种类型。说话人辨认是指对于说话人的集合s ,根据一个 未知说话人的语音x ,判断x 是否是集合s 中的元素,以及是s 中的哪一个元素。由此 可见,说话人辨认是一个多者选一的问题。而说话人确认是指验证一个人是否与他( 她) 宣称的身份相符。其判断结果只有接受( a c c e p t ) 和拒绝e c t ) 两种,属于二者选一的问 题。 说话人识别根据系统对待识别语音内容的不同,可分为与文本有关( t e x t - d e p e n d e n t ) 和与文本无关( t e x t - i n d e p e n d e n t ) 两种方式【2 。其中与文本有关又称为固定文本( f 1 ) 【e d - t e x t ) ,它要求待识别的说话人按规定的内容发音,与文本无关又称为任意文本( f r e e t e x t ) ,即用来识别的语音内容可以是任意的。 1 3 3 说话人识别的常用方法 一般的说话人识别系统包括两个部分,即特征提取和识别模型,本节分别简要介绍 这两个部分已有的方法。 1 特征提取 由图1 1 可知,说话人识别最重要的组成部分是特征提取和识别模型,由于语音信 号通常以8 k h z 或更高的速率数字化,每个采样至少用8 比特表示,所以几秒的语音就 有很大的数据量,提取说话人特征的过程,实际上就是去除原来语音中的冗余信息,减 小数据量的过程。从语音信号中提取的说话人特征参数应满足以下准则:对局外变量 f 例如说话人的健康状况和情绪,系统的传输特性等) 不敏感;能够长期地保持稳定;可 以经常表现出来;易于对之进行测量;与其它特征不相关。 3 - 说话认识别中特征提取的方法研究 按参数的稳定性来分,说话人特征参数可以大致分为两类:一类是说话人生理决定 的固有特征( 如声道构造的个体差异等) 【3 。这类特征不易模仿,但容易受健康状况的影 响;另一类是声道运动的动态特征,也就是发音方式、发音习惯等,这类特征相对稳定 却比较容易模仿。 说话人识别研究中已使用过的特征参数主要有基音周期【3 】、线性预测系数( l i n e a r p r e d i c t i v ec o e f f i c i e n t s ,简称l p c ) 、声道的冲激响应、自相关系数、声道面积函数、 l p c c 特征、m f c c 特征、感知线| 生预测系数( p e r c e p t u a ll i n e a rp r e d i c t i v e ,简称p l p ) 以 及差值倒谱等等 4 - 9 1 。 不同特征参数的物理意义不同,基音及共振峰是表征说话人固有特征的参数,以全 极点模型为基础的l p c 可以较为精确地反映语音信号的频谱幅度,把语音信号每一段 看成准周期脉冲或随机噪声激励一个线性时不变系统的输出,使用解卷积的方法将激励 信号和系统冲激响应分开。倒谱系数反映了声道的共振性能,在与文本无关的方式下, 说话人语音特征一般用倒谱参数表征。倒谱是信号的f f t 谱取对数后的逆f f t 变换, 它可将信息量较小的峰值信息和更重要的声道形状信息相分离,是目前普遍采用的说话 人特征参数,倒谱系数也可由线性预测系数推得,称为线性预测倒谱,它是语音帧倒谱 的自相关序列,与直接计算倒谱相比,线性预测倒谱的计算量较小。对大多数语音信号 来说,全极点模型能很好地模拟声道的效应,然而对于鼻音和摩擦音往往需要零极点模 型才能更好地模拟声道的效应,所以a r m a 模型和a c w 特征也已被用来提取说话人 语音特征【1 0 】。利用发音机理,p l u r n p emd 等进行了基于声门特性的说话入特征提取 1 1 】。听觉模型也已被用于说话人特征提取和说话人识别【12 】,利用听觉频率非线性特 性的m f c c 和p l p 则是两种常见的考虑听觉特性的说话人特征。 2 识别模型 对于说话人识别系统,特征被提取出来以后,需要用识别模型为说话入建模,并对 特征进行分类,以确定属于哪一个说话人。所谓的识别模型,是指用什么模型来描述说 话人的语音特征在特征空间的分布。目前常用的模型大体上可以分为参数模型,非参数 模型,人工神经网络模型( a r t i a e i a ln e u r a ln e t w o r k ,简称a n n ) 以及支撑向量机( s u p p o r t v e c t o r m a c h i n e ,简称s v m ) 1 3 。1 7 。参数模型是指采用某种特定的概率密度函数来描述 说话人的语音特征在特征空间的分布情况,并以该概率密度函数的一组参数来作为说话 人的模型。典型的参数模型包括高斯混厶模p d ( g a u s s i a nm i x t l l f em o d e l ,简称g m m ) 和 隐马尔可夫模型( h i d d e nm a r k o vm o d e l ,简称h m m ) 1 8 - 2 3 ,而非参数模型是指说话人 模型是由语音特征经过某种运算直接得来。典型的非参数模型是模板匹配方法【2 4 】和矢 4 大连理工大学硕士学位论文 量量化模型( v e c t o rq u m l t i z a t i o nm o d e l ,简称v q ) 2 5 1 。下面分别简要介绍这几种分类模 型。 n ) 模板匹配法 模板匹配方法利用语音信号某些特征的长时间均值来辨认说话人,这一均值也称为 统计平均。使用模板匹配方法就是对待识别语音计算平均值,并与已经储存的每一说话 人的训练平均值进行比较。对文本无关的说话人辨认,理想的情况是应用数秒或数分钟 的训练语音,以保证说话人的模型是由各种语音的平均特征产生,而不是由某一特殊语 音的平均特征产生,待识别的语音则与训练模板所使用的平均特征间的距离进行比较。 在模板匹配方法中可使用多种距离尺度,欧式距离和马式距离是经常使用的两种。使用 特征统计平均的识别结果通常是次优的,这种方法对信号或背景噪声的变化特别敏感。 上述两种变化可改变说话人的特征,导致均值的漂移。 f 2 1 矢量量化模型 矢量量化是一种极其重要的数字处理方法,已广泛应用于图像压缩、语音压缩等领 域。所谓矢量量化是将若干个幅度连续取值的时域采样信号分成一组,即构成矢量,然 后用若干离散的数字值( 或标号) 来表示各种矢量。用矢量量化模型识别说话人的过程如 下:对某一说话人,其训练语音的特征矢量序列通过聚类算法可以聚为m 类,求每类 中所有矢量的均值( 或选择类中的一个成员) 就得n - y 每类的码本矢量,m 个码本矢量构 成了该说话人的矢量量化模型。在识别过程中,将待识别语音的每特征矢量到某一说 话人的m 个码本矢量的一个最小距离进行累加,累加和最小的说话人作为识别结果。 矢量量化模型具有很好的分类特性,能通过对长时语音特征参数统计信息的量化来区分 不同说话人,同时还能有效地压缩数据,因而用它建立识另q 模型,数据量少,训练时间 短,识别响应快。尽管矢量量化模型被成功地应用于在说话人识别中,但在矢量量化模 型中,聚类的矢量仅用一个中心来表示,且各个码本对距离的贡献相等,由此可见。非 参数模型对说话人特征的描述尚欠细致。 ( 3 ) 隐马尔可夫模型 隐马尔可夫模型也是一种比较常用的模型,它是马尔可夫链的推广。在h m m 模型 中,观察到的事件与状态通过一组概率分布相联系,是一个双重随机过程,其中一个是 马尔可夫链,它描述了状5 2 _ 间的转移;另一个随机过程描述了状态和观察值之间的统 计对应关系。h m m 模型的状态是隐含的,可以观察到的是状态产生的观察值,因此称 为马尔可夫模型。 5 说话认识别中特征提取的方法研究 h m m 模型的优点在于它既能用短时模型状态解决声学特性中相对稳定段的描述, 又能用状态转移规律刻画平衡之间的时变过程,所以能统计地吸收发音的声学特性和时 间上的变动。因此,将此模型用来描述语音信号的产生是8 0 年代语音信号数字处理技 术的项重大进展。但是,h m m 模型的分类能力比较弱,而且对噪声的鲁棒性较低, 所以很多在实验室里具有很好识别性能的基于h m m 的说话人识别系统,在实际环境下 识别性能会显著降低。另外在利用电话语音的说话人识别系统中,3 k h z 频带以外的说 话人信息的丢失,包括电话机在内的传输线路特性的变化,来自不同干线的话音质量存 在差异,以及通话环境的噪音等等,都严重影响说话人识别系统性能。 ( 4 ) 高斯混合模型 由于每一个说话人的语音特征在特征空间中都形成了特定的分布,所以可以用这一 分布来描述说话人的个性。高斯混合模型使用多个高斯分布的线性组合近似说话人的特 征分布,将最能够产生测试语音特征的说话人分布模型所对应的说话人作为识别结果。 对于高斯混合模型,训练时,为每个人的语音建立一个模型,训练的目的本质上是估 计这个模型参数的过程,当所有人训练结束后,保留每个人对应的参数:识别时,将未 知语音与每个人的参数相结合,求出与每个人相对应的似然函数,其中对应最大似然函 数的说话人被认为是识别结果。有关高斯混合模型详细的建模及识别方法将在后续章节 中给出。 岱) 神经网络模型 虽然参数模型和非参数模型方法都已成功地用于说话人识别,然而这些方法都达不 到人脑的识别水平。人工神经网络可在一定程度上模仿人脑的功能,它为说话人识别提 供了一个新的途径,说话入识别使用过的神经网络类型较多,前向神经网络以其结构简 单、分类性能较好在说话人识别中获得了广泛的使用。多层前向神经网络是映射型神经 网络,可完成从说话人特征空间向说话人集合的映射。说话人识尉使用的前向神经网络 多为b p 网络和r b f 网络,而基于逐级判决思想,将单个神经网络进行组合而成的级联 神经网络也己应用于说话入识别。 目前,使用神经网络进行说话人识别所面临的问题是,如果使用一个网络作为分类 器,当待识别的人群( ) 改变时,网络的结构( 至少输出神经元个数) 将随之改变,需要 重新对网络进行训练。再者,当增大时,神经膀络的训练时间以指数增大,理论上当 无限增大时,将无法完成神经网络的训练。解决这一问题的方法是将单个大网络化成 许多完成部分功能的子网络,再将各个子网络进行组合来完成大网络的功能。r u d a s il 6 大连理工大学硕士学位论文 等人和k e v i nrf 等人已用b p 网络分别尝试了说话人识别的两分网络方法和神经树网 络方法。 ( 6 ) 支撑向量机 支撑向量机是一种较新的机器学习方法,深入的研究近些年才开始。在手写体识 别、文本分类、人脸检测等模式识别问题中,s v m 技术已经得到应用,并取得了较好 的效果。对于传统的基于贝叶斯判决的分类器( 如g m m ) 或神经网络分类器,其缺点是 需要用交叉验证来估计参数的数目以防止出现有限样本的学习。而支撑向量机是在统计 学习理论的基础上发展起来的一种新的通用学习方法。与传统统计学相比,统计学习理 论是一种研究有限样本情况下机器学习规律的理论。v a p n i kv 等人从2 0 世纪六七十年 代开始致力于此方面研究,到九十年代中期,随着其理论的不断发展和成熟,也由于神 经网络等学习方法在理论上缺乏实质性进展,统计学习理论开始受到越来越广泛的重 视。统计学习理论是建立在一套较坚实的理论基础之上的,为解决有限样本学习问题提 供了一个统一的框架。它能将很多现有方法纳入其中,有望帮助解决许多原来难以解决 的问题( 比如神经网络结构选择、局部极小点和过学习等问题) 。s v m 已初步表现出很多 优于已有方法的性能,在解决有限样本、非线性及高维模式识剐问题中表现出许多特有 的性能。s v m 正在成为继神经网络研究之后新的研究热点,并将有力地推动机器学习 理论和技术的发展。 1 4 说话人识别的难点 虽然说话人识别已进入实用阶段,但仍然存在以下诸多难点: n ) 说话人识别的信息来源是说话人所说的话,其语音信号中既包含了说话人语音 内容的信息,也包含了说话人的个性信息,是语音特征和说话人个性特征的混合体。目 前还没有很好的方法把说话人的特征从说话人的语音特征中分离出来。 ( 2 ) 说话人的发音常常与环境、说话人的情绪、说话人的健康状况有密切关系,说 话人的特征不是固定不变的,而是具有长时变动特性,会随着时间和年龄的变化而变 化;说话人说话时所处的环境,会对说话人的发音造成影响,而且不同的环境噪声也增 加了说话人识别的难度;人在患感冒等疾病时,发音与正常情况下有较大变化,这也增 加了说话人识别的难度。 ( 3 ) 声音容易被录音模仿。 ( 4 ) 电话信道的说话人识别是目前研究的热点。但声音在电话线路上传输时,会受 到线路噪声的影响,不同的通信线路的噪声也可能不同,而且,受电话线路带宽的限制 f 人耳能感受声音的频率范围在2 0 h z - - 2 0 0 0 0 h z 之间,而电话线路的通带在3 0 0 比一 7 说话认识别中特征提取的方法研究 3 4 0 0 h z 之间) ,语音信号在电话线路上传输时会产生较大的失真。在移动通信中,由于 语音信号要经过声码器压缩,语音信号会产生更大的失真。 由此可见,说话人识别的难点问题主要集中在特征提取部分,能否使用相对简单的 方法提取到一种最能体现说话人个性信息的特征将是今后研究的热点,本文正是基于这 一点对说话人识别的特征提取进行了较为深入的研究。 1 5 论文的结构安排 本文的结构安排如下:第1 章简要介绍了说话人识别的基本概念、分类、常用方法 以及面临的问题和难点。第2 章介绍了后续章节所用到的基础知识和基本原理。第3 章 则详细给出了常用的特征提取方法,并基于m f c c 特征采用了几种方法进行改进。第4 章讨论了基于g m m 的说话人识别系统。在本文的最后一章,针对前面的方法进行了计 算机仿真实验,并对实验结果进行了分析和结论。 8 大连理工大学硕士学位论文 2 基础知识 在本章中,将针对后续章节中所用到方法的基本原理给出简要的介绍。其中包括: 语音信号的倒谱特征,它是求取基于倒谱的各种特征的基t i i 2 6 2 8 1 ;语音信号的线性预 测分析 2 9 ,3 0 】,它是求取l p c c 特征的基础;而独立分量分析是独立特征抽取的基础 3 1 3 4 】。因此,本章的目的是为后面章节所用到的复杂的方法做一个简单的铺垫,同 时,这些基本原理也是做进一步研究所必不可少的基础知识。 2 1 语音信号的倒谱特征 倒谱特征是用来表征说话人个陛特征的说话人识别的最有效特征之一,语音信号是 由激励信号源与声道响应相卷积的结果,而“倒谱特征”则是利用了对语音信号作适当 的同态滤波可以将激励信号与声道信号加以分离的原理。一帧语音信号 s ( n ) = p ( h ) + ( ”) 的倒谱c ( n ) 的计算过程如图2 1 所示。用f f t 计算s ( n ) 的短时傅立叶 变换,在b 点得到音源激励p ( 功和声道响应h ( n ) 的傅立叶变换之乘积,取此结果幅度 的对数,在c 点得到的是e ( n ) 和 ( 以) 的对数之和。其后,经傅立叶反变换o f v r ) ,在d 点得到s ( n ) 的倒谱c ( h ) 0 = 1 n ,n 为一帧的采样点数) ,它为音源激励e ( m ) 的倒谱 ;( n ) 与声道响应晟( n ) 的倒谱 ( ”) 之和。因为5 ( n ) 描述了说话人的声道特征,因此倒谱 特征是非常有效的表征说话人个性的特征参数。 意乒意e ( kh ( k 田素l 意 s ( ) = p ( n ) + ( ,z ) ) ) 一应( t ) + 由( ) 。a ( ,1 ) + ( ”) 图2 1 倒谱的计算过程 f 喀2 1c a l c u l a t i o np r o c 髓s f o rc e p s t r u m 另外,复倒谱与倒谱有密切联系,只需在图2 1 中将f f t 和 f f t 换成z 变换和z 反变换即可得到复倒谱。下面进一步分析语音信号的音源激励分量与声道分量对语音信 号的倒谱所产生的影响。 f 1 ) 声道分量:由图2 1 所示的语音信号产生模型可知,令声道的传输函数为 郴) 2 孑i 与。彳珥p 而i 了 ( 2 1 ) 9 说话认识别中特征提取的方法研究 式中, 1 ,则 矗( z ) = h 日( z ) 】= l n a 一圭h ( 1 一b , z 一,) ( 2 2 ) i l 其中( h l o ,i 吼 1 ) ( 2 3 ) ( n p ) 这种l p c 分析的重要性在于,它提供了一组简捷的语音信号模型参数,这组参数 较精确地表征了语音信号的频谱幅度,而且分析它们所需的运算量相对来说并不大,将 它作为模板存储,可以提高识另4 率并减少时间。但是,l p c 倒谱系数也有它的缺点,因 为它基于全极点模型的假设,因此对于清音和鼻音来说并不确切,而声道响应都含有零 点的影响,因此,从理论上讲,应该采用极零点模型。 3 3a c w 特征提取 对于给定的一帧语音数据,其全极点模型为 酢,2 去2 善南 s , 其中 a ( z ) = 1 - - e a ,z “ ( 3 9 ) a ,为语音信号的线性预 9 1 系数,z ,为h ( z ) 的极点,为与五有关的常数。这样, 日( z ) 可以看作由p 个组成成分并联而成。全极点模型中极点= ,和线性预测系数吒之间 存在如下关系 1 6 大连理工大学硕士学位论文 鱼:_ ! l :能 啪一,(310)0 1 p lo)o 。2 ,。一。z , z ,豇= ,( 3 a k nz f z ,) 从式( 3 1 0 ) 可以看出,极点z ,对线性预测系数q 误差的灵敏度正比于系数l 。因 此,可以通过把所有组成成分的l 归一化的方法来降低或削弱r 的影响,这相当于把 h ( z ) 的第i 个组成成分乘以系数二。修改后的语音模型为 鳓2 喜南2 等a t = 】l z 。zl zj 其中 ( z ) = 1 7 ( 1 一z 。) ( 3 1 2 ) n ( z ) 还可以写成如下形式 ( z ) = p ( 1 一以z 。)( 3 1 3 ) 其中系数以和语音线性预测系数晖之间的关系为 以:堕qk :l 2 ,p p ( 3 1 4 ) 如果用c a 。,( 疗) 表示a c w 倒谱,q 。,( = ) 为其z 变换,则有 l o g h ( z ) - l 。g 等= l 。g 高乩g 志 ( 3 1 5 ) ) = l o g 弓兰= l o g 击一l o g 磊去 ( 3 ) 于是有 ( o ) = l o g p ( 3 1 6 ) q c 酽( 功= c l p ( n ) 一c w ( h ) ( 3 1 7 ) 其中c 。a n ) 为对应于( z ) 的倒谱,其值可由与l p c 倒谱相似的计算式递推求得。具体 计算式如下 c 。( 1 ) = b l ( 3 1 8 ) ( 加屯+ 薹鲁c 水蟓。 以文卯( 3 1 9 ) 综上所述,从语音信号中提取a c w 倒谱的步骤如下 1 0 】f 3 5 】: 1 计算语音信号的l p c 倒谱系数。 1 7 说话认识别中特征提取的方法研究 2 利用式( 3 1 4 ) 由线性预测系数a 。计算n ( z ) 的系数以。 3 利用式( 3 1 8 ) 和( 3 1 9 ) 计算对应于n ( z ) 的倒谱系数。 4 由式( 3 1 6 ) 和( 3 1 7 ) 计算a c w 倒谱。 3 a m f c c 特征提取 m f c c 特征是说话人识别中另一个常用的语音特征参量,其计算是基于语音信号的 滤波器组分析【3 6 】。 数字滤波器组分析是语音信号处理中最基本的方法之一。滤波器组可看作人类听觉 感知系统前端的一个粗糙模型。语音信号滤波器组分析的理论依据是基于人对语音感知 的两个基本事实。首先,人的大脑皮层对单个音调的感知强度近似与该音调频率的对数 成正比。m e l 频率表达了一种常用的从语音频率到“感知频率”的对应关系,其表达式 如下 厶严2 5 9 5 1 0 9 。( 1 + f 7 0 0 )( 3 2 0 ) 在m e l 频率域内人对音调的感知为线性关系,即如果语音信号a 的m e l 频率为另 一个语音信号b 的两倍,则人耳听起来a 的音调也是b 的音调的两倍高。 表3 1 临界频带滤波器组 中心频率临界带宽临界带宽 滤波器标号滤波器标号中心频率( h z ) ( h z )( h z )( h z ) 11 0 01 0 0 1 1 1 1 4 91 6 0 22 0 01 0 01 21 3 2 01 8 4 33 0 0l o o1 31 5 1 62 1 1 44 0 01 0 01 41 7 4 12 4 2 55 0 01 0 01 52 0 0 0”8 66 0 01 0 01 62 2 9 73 2 0 77 0 01 0 01 72 6 3 93 6 7 88 0 01 0 01 83 0 3 l4 2 2 99 0 01 0 01 93 4 8 24 8 4 1 0 1 0 0 01 0 02 04 0 0 05 5 6 其次,对于复杂的语音信号,人耳不能有效地区分开某一中心频率附近一定带宽内 语音信号的所有频率分量。只有当这个语音信号的某一成分落在一定的带宽之外,才能 被人耳有效地区分开来。这个带宽称为临界带宽( c r i t i c a ab a n d w i d t h ) ,其计算方法如下 1 8 大连理工大学硕士学位论文 曰= 2 5 + 7 5 1 1 + 1 4 ( 1 0 0 0 ) 2 0 6 9( 3 2 1 ) 其中正为中心频率,这样,就可以构造临界频带滤波器! f l ( c r i t i c a lb a n d w i d t hf i l t e rb a n k ) 来模仿人耳的感知特性。临界频带滤波器组是指每个滤波器的中心频率在m e l 频率域内 线性分布、带宽在临界带宽之内的一组滤波器。实际应用中,通常把m e l 频率做如下近 似:对1 0 0 0 h z 以下的语音信号采用线性频率;对1 0 0 0 h z 以上的语音信号采用对数频 率。这是同人耳的听觉机理相对应的。表3 1 给出临界频带滤波器组的一种典型的中心 频率和带宽参数。 滤波器组的输出取对数,再经过离散余弦变换,即可得到m e l 倒谱系数。图3 1 给 出了提取m e l 倒谱系数的计算过程,具体计算过程如图3 1 所示。 图3 1m e l 倒谱系数的计算过程 f i g 3 1c a l c u l a t i o np r o c e s s f o rm f c c f 1 ) 语音信号的预处理,对语音进行预加重、有音无音检测、分帧及加窗处理,得 到可以用于提取特征参数的语音向量。 对已经经过预处理的语音向量分别进行离散傅立叶变换( d r x ) 。 ( 3 ) 将得到的离散频谱用序列三角滤波器进行滤波处理,得到一组系数m ,m , 这组滤波器的作用是通过m e l 尺度把声音信号的频域空间向人的感知的频域空间进行映 射,以使滤波器的空间尺度接近人类听觉的感知尺度。滤波器组中每个三角滤波器的跨 度在m e l 标度上是相等的。所用滤波器总体上覆盖从0 h z 到n y q u i s t 频率,即采样频率 的二分之一。在系统中,滤波器的个数p 为2 0 ,其中计算m 的公式如下 码:埘窆i z ( 酬e ( i ) ) f - 1 2 ,p( 3 2 2 ) 女;o 1 9 说话认识别中特征提取的方法研究 其中 够( 是) = o 2 ( k f i 一1 ) ( f i + l l - f i 一1 ) ( ,【f 一f z l 】) 2 ( f i t - 1 卜k ) k f i + 1 】 f t i 一1 】王f i 】(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年全球市场营销中英文合作合同
- 2025西安工程公司劳动合同
- 福建物流考试题及答案
- 废钢检装工考试题及答案
- 防洪考试题答案及解析
- 俄罗斯国情考试题及答案
- 动画概论补考试题及答案
- 2025年中国铝材轧制油项目创业计划书
- 电脑美术自考试题及答案
- 中国水质快速检测试剂盒行业市场前景预测及投资价值评估分析报告
- 班组日常自主管理手册
- 入校陪读申请书模板范文
- 小学生细菌与卫生课件
- 事故隐患内部报告奖励制度
- 《铁路工务维修现场实战技巧》课件 任务3.12 钢轨钻孔作业
- 2024-2025学年广东省深圳市高二上学期第一次月考数学检测试题(含解析)
- 【MOOC】中国传统艺术-篆刻、书法、水墨画体验与欣赏-哈尔滨工业大学 中国大学慕课MOOC答案
- 2024-2025华为ICT大赛(实践赛)-网络赛道理论考试题库大全-中(多选题)
- 数据中心运维服务投标方案
- 语文-安徽省鼎尖名校(安徽小高考)2025届高三11月联考试卷和答案
- 膜结构车棚施工方案
评论
0/150
提交评论