(控制理论与控制工程专业论文)说话人识别的自适应算法研究.pdf_第1页
(控制理论与控制工程专业论文)说话人识别的自适应算法研究.pdf_第2页
(控制理论与控制工程专业论文)说话人识别的自适应算法研究.pdf_第3页
(控制理论与控制工程专业论文)说话人识别的自适应算法研究.pdf_第4页
(控制理论与控制工程专业论文)说话人识别的自适应算法研究.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(控制理论与控制工程专业论文)说话人识别的自适应算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

武汉理工大学硕士学位论文 摘要 本论文主要内容是基于矢量量化( v q ) 和隐马尔可夫模型( h m m ) 的说话人 识别算法的研究和改进。 说话人识别是根据人的声音来识别人的一种生物认证技术,具有非常好的应 用前景。而矢量量化和隐马尔可夫模型相结合则是在说话人识别领域中应用最广 泛,效果最好的手段之一。 作者对说话人识别的各个环节的相关知识进行了广泛学习,其中包括语音信 号预处理、获取特征量以及基于不同模型的识别方法。在研究过程中,重点对识 别方法,即识别算法方面做了下列三个方面的工作: ( 1 ) 基于v q 的说话人识别研究:适合于特定人识别,但该方法对于由说话人 差别引起的语音特征的变化却无能为力。 ( 2 ) 基于 m 蹦的说话人识别研究:适合于非特定人识别,因为它作为统计模 型能够吸收由不同说话人引起的语音特征的变化。 ( 3 ) 基于模糊矢量量化以及隐马尔可夫模型( f v q h m m ) 的说话人识别研究: f v q h m m 作为h m m 的特殊形式,其模型参数数量较传统h m m 少,模型学习对训练 数据量要求不高;具有学习收敛速度快,适合于实时自适应学习;识别速度快, 适合于实时大词汇量连续语音识别等特点。另外,它和传统分段v q 识别方法相 比,f v q h l n 可以得到最佳的分段效果,且通过模糊c 一均值( f c m ) 聚类分析减少 了码本的量化误差。 关键词:说话人识别,自适应,矢量量化,隐马尔可夫模型,模糊矢量量化 武汉理工大学硕士学位论文 a b s t r a c t t h es u b s t a n c eo ft h i s m a g i s t e r i a l t h e s i si st h er e s e a r c ha n di m p r o v e m e n to f s p e a k e rr e c o g n i t i o n w h i c hi sb a s e do nt h ev q ( v e c t o rq u a n t i z a t i o n ) a n dh m m ( h i d d e nm a r k o vm o d e l ) w i t hc h e e r f u lp r o s p e c t ,s p e a k e rr e c o g n i t i o ni sab i o m e t r i c st h a tr e c o g n i z e sp e o p l e v i at h e i rv o i c e ,a n dt h ec o m b i n a t i o no fv qa n dh m m i so n eo ft h eb e s ta n dm o s t p r e v a i l i n gm e t h o d i nt h ef i e l do f s p e a k e rr e c o g n i t i o n t h ea u t h o rw i d e l ys t u d i e st h ek n o w l e d g eo fe v e r yp a r to fs p e a k e rr e c o g n i t i o n w h i c hi n v o l v e sv o i c e s i g n a lp r e p r o c e s s i n g ,c h a r a c t e r v e c t o re x t r a c t i n ga n dr e c o g n i t i o n m e t h o db a s e do nd i f i e r e n tm o d e l d u r i n gt h i sw o r k ,t h em a i nb o d y i st h er e c o g n i t i o nm e t h o d ,n a m e l y , r e c o g n i t i o n a l g o r i t h m t h r e ea s p e c t so f i ta r ea sf o l l o w s : ( 1 ) s t u d y o fs p e a k e rr e c o g n i t i o nb a s e do nv q :i ti sa p p l i c a b l e t os d ( s p e a k d e p e n d e n t ) r e c o g n i t i o n b u tu n a b l et od e a lw i t ht h ev a r i e t yi nv o i c ec h a r a c t e rw h i c h r e s u l tf r o md i f f e r e n ts p e a k e r ( 2 ) s t u d y o f s p e a k e rr e c o g n i t i o nb a s e d o nh m m :a sak i n do fs t a t i s t i c a lm o d e l ,i t i sa p p l i c a b l et os l ( s p e a ki n d e p e n d e n t ) r e c o g n i t i o nb e c a u s ei ti n c l u d e st h ev a r i e t yi n v o i c ec h a r a c t e rw h i c hr e s u l tf r o md i f f e r e n ts p e a k e r ( 3 ) s t u d y o fs p e a k e rr e c o g n i t i o nb a s e do nf v o ( f u z z yv q ) h m m :i ti s t h e s p e c i a lf o r m o fh m m c o m p a r e dw i t ho r i g i n a lh m m ,i th a sl e s sp a r a m e t e r st or e d u c e t r a i n i n gd a t af o rl e a r n i n g ,h i g h e rc o n s t r i n g e n c ys p e e d o fl e a r n i n gt ob ea p p l i c a b l et o r e a l t i m e s e l f - a d a p t i n gl e a r n i n g a n dh i g h e r r e c o g n i t i o ns p e e d t ob e a p p l i c a b l e t o r e a l t i m ec o n t i n u o u sv o i c er e c o g n i t i o nw i t hl a r g ev o c a b u l a r 弘c o m p a r e dw i t ho r i g i n a l d i v i s i o nv q ,i th a sb e a e re f f e c to fd i v i s i o na n dl e s sq u a n t i z a t i o ne r r o ro fc o d e b o o kb y f c m ( f u z z yc m e a n s ) c l u s t e r i n ga n a l y s i s k e y w o r d s :s p e a k e rr e c o g n i t i o ns e l f - a d a p t i n g v qh m mf v q n 武汉理工大学硕士学位论文 1 1 说话人识别概况 第1 章绪论 说话人识别是通过对说话人语音信号的分析和提取,自动确定说话人是否在 所登记的说话人的集合中,以及说话的人是谁。它又分为说话人确认( 即核对或 核实) 和说话人辨认( 即辨别或识别) ,说话人识别分类如表1 - 1 所示。这两类有 共同性的要求,也有不同的地方。它们的共同性要求是采用表示个性的语音特征 参数,而忽视语音的共同存在的特征。 表1 - 1 说话人识别分类 说话人辨认说话人确认 说话人未必合作说话人主动合作 存在发音伪装问题存在发音模仿问题 必须与n 个模式进行比较只需与一个模式进行比较 系统响应可以缓慢系统响应必须快速 词汇表可以各不相同词汇表限于标准试验短语 通道特性可能不良或不同通道特性往往可以调整 信噪比可能太低信噪比通常可调 在说话人识别中,待识别语音可以是固定文本,也可以是任意的文本”1 。当 待识别语音为一预先确定的文本“口令”时,称该方式为文本相关方式 ( t e x t d e p e n d e n t ) ,反之则称为文本无关方式( t e x t i n d e p e n d e n t ) 。文本相关方式和文 本无关方式有着不同的应用场合,比如在保密等应用中,前者可做到既识别说话 人又识别密码( 既文本) ,从而加大了保密度,而后者又可减少由于使用密码可能 造成的密码更换、密码遗忘等麻烦,更加方便推广使用。 从本质上讲,说话人识别是一个语音信号模式识别问题,它由训练和识别两 个过程完成。提取说话人特征的过程称为训练过程,根据待识别语音对说话人身 份作出判断称为识别过程。训练过程是从某一说话人大量语音信号中提取出该说 话人的个人特征,并形成参考模式。识别过程是从待识别语音中提取特征形成待 识模式,与参考模式进行比较和判决,从而确定说话人身份。 说话人识别可以用于说话人身份未知,而说话人身份的问题又很重要的那些 场合”“。主要的应用有: ( 1 ) 说话人核对:语音邮f ,| :、电子交易、安全保卫等常需要身份核对。说话 武汉理工大学硕士学位论文 人识别可用于电话预约服务、计算机人机界面等,使其只响应合法使用者。 ( 2 1 司法鉴定:从犯罪时所记录的声音确定罪犯。有时嫌疑人中可能不包含 真正的罪犯,这时常常需要说话人识别和说话人确认技术的有机结合。 ( 3 ) 语音检索:电话录音等设备每天产生大量信息,而人们常常仅对某些特 定身份的说话人感兴趣,将说话人识别技术与连续语音识别技术相结合,就可检 索出录音中特定人所说的内容。 ( 4 ) 医学应用:说话人识别的主要依据是说话人声道生理结构的差异,一方 面生理学和解剖学的进展可促进说话人识别问题研究,另一方面也可借助说话人 识别方法进行声道特性的研究。例如使说话人识别系统响应患者的命令,从而实 现对机器假肢的控制等。 虽然以上罗列并不完全,但却给出了说话人识别的基本应用类型和些典型 应用。与其他身份辨别方法f 如指纹、眼虹膜、d n a ) 相比,说话人识别使用的语 音信号具有获取简单的特点,故其具有广泛的应用前景。 说话人识别的技术难点在于: f 1 ) 尚未找到简单可靠的说话人语音特征参数,还没有很好的方法将说话人 的个体特征从语音特征中分离出来,也没有找到简单的声学参数能够可靠地识别 说话人。 ( 2 ) 玉音信号的变异性,说话人语音特征不是静态的、固定不变的,它具有 时变特性,与说话人所处的环境、情绪、健康状况有密切的关系,会随着时间的 推移和年龄的变化而变化,另外传输语音的通道信道的时变效应问题也是语音信 号产生变异的重要方面。 1 2 国内外发展现状 ( 1 ) 自动说话人识另- j j ( a s r ) 研究始于2 0 世纪6 0 年代,1 9 6 2 年b e l l 实验室的 l g k e r s t a 第一次介绍了采用声纹进行说话人识别的可能性。1 9 6 6 年美国法院第 一次采用此方法进行了取证。近四十年来说话人识别研究取得了巨大的进展。 近年来,人们采用说话人自适应( s p e a k _ a d a p t a t i o ns a ) 算法有效地解决了 特定人( s p e a k d e p e n d e n ts d ) 和非特定人( s p e a k i n d e p c n d e n ts i ) 系统各自的缺点 ”“。该方案利用系统使用者的少量训练语音,调整系统的参数,使得系统对 于该使用者的性能有明显的提高。与s i 系统相比,s a 系统由于考虑了用户 的特殊信息,因此识别性能优于s i 系统;而与s d 系统相比,s a 系统纳入了 s i 系统的先验信息,需要用户的提供的训练音数量远低于s d 系统,有更好的 实膈性。因此非特定人+ 自适应成为当前各语音i _ ! 别系统采用的实用框架,自 适应算法也成为近年来语音识别界研究的丰要热 之一。而快速自适应是目前 2 武汉理工大学硕士学位论文 说话人自适应研究的一个主要方向。它认为不同语音单元间存在相关性,语音单 元在模型空间上有某种结构关系并通过充分利用相关信息和结构信息等先验知 识来达到快速自适应的目的。 f 2 1 国内有关说话人识别的研究相对较少,各大科研机构和高校的主要研究 对象是连续自然语言识别”1 。现把近年来国内有关说话人识别研究的部分内容予 以介绍: 提出过一种二次特征提取方法,通过综合运用加权、微分、组合、筛选等方 法,对原始特征向量序列进行分析,进一步挖掘说话人语音背后的隐形个性差异。 用f 比与d 比( 可分性测度) 衡量各分量的有效性,对不同的特征向量予以不同的 权重,特征向量的内部也可采用此方法。加权系数一般采用升半正弦函数,理由 是特征向量的高维分量对表征语音特征能力有限( 维数不必太高) ,特征向量的微 分,可获取语音特征的变化快慢信息:多种特征值的组合可以更为全面地反映说 话人的发声与感知器官特征:测试语音数据库为y o h u 。 理论上得出结论:隐马尔可夫模型( h m m ) 是较为有效的一种说话人识别方 法,但传统的模型训练方法( b a u m w e l c h 算法) 不仅运算量较大,而且经验不足( 如 初值设置不当1 会导致算法发散或迭代收敛到非全局最优。该研究在大量语音分 析实验的基础上,利用h m m 技术将状态分割、动态聚类、模糊统计与传统的 b a u m w e l c h 算法相结合应用于说话人识别,建立了输出序列为多维特征矢量且 其概率密度函数为多个正态分布函数拟合的说话人识别系统。 针对背景噪声存在的条件下,使得说话入识别系统的训练环境和测试环境发 生失配,导致系统性能发生急剧下降的情况,提出过一种加权特征值补偿算法, 把带噪语音信号特征值与纯净语音特征值发生偏差的部分去除,从而使进入识别 器的特征值接近纯净语音的特征值。在特征值补偿过程中引入了信噪比加权的方 法。 提出过用二阶神经网络进行文本无关的说话人识别方案,同时采用多人共用 一张大网的做法,并针对说话人识别的特点分析了方案中语音预处理和特征提取 的问题,最后对方案进行了计算机模拟实现,取得了满意的识别效果。 1 3 本文研究的意义 目前语音识别技术中使用的自适应方法主要分为两大类: ( 1 ) 基于晟大后验概率( m a x i m u m a p o s t e r i o r ) f ¥j 算法 ( 2 ) 基于变换的方法 目前这两种算法分别在大词汇量语音识别和小词汇量语音识别- p 获得了很 大的成功,但仍有很多问题需要解决。主要困难在于: 武汉理工大学硕士学位论文 ( 1 ) 在有监督、批处理自适应时,自适应语音数量需要尽可能地少,否则会 使用户感觉不方便,因此如何从有限的语音中尽量地提高识别性能是该阶段的主 要问题。 ( 2 ) 在无监督、在线式自适应时,自适应语音的数量是很大的主要问题在于 如何减少识别错误对无监督自适应的影响和如何使系统能充分利用大量的训练 语音。 为了达到实用的目的,针对以上难点出现了多种改进方法,其中快速说话人 自适应算法是近年来的一个研究热点和主流方向:如何用少量的训练语音f 几秒 语音数据) 快速的调整模型实现自适应,这在口语对话信息查询系统有着重要作 用。比较典型的方法有: ( 1 ) 基于特征语音( e i g e n v o i c e ) 模型的变换方法,该方法采用一组特定人识别 模型来快速自适应新的说话人模型。 ( 2 ) 基于扩展的最大后验概率( e x t e n d e dm a x i m u m ap o s t e r i o r ) 自适应算法,该 方法考虑模型之间的相关性,采用这些相关信息来变换在训练语音数据中不包括 的模型参数。 快速自适应的关键问题是,在只有少量自适应数据的条件下,如何更多更有 效的利用先验知识,以提高现有的快速自适应算法的识别效率。 本文需要研究声音采集硬件的性能及其输入输出特性,声学模型的建立和特 点,相关自适应算法的逻辑原理、实现途径和优缺点,实际应用中应当注意的具 体要求和现场环境。 本文着重针对现有的说话人识别的自适应算法,分析其数学模型和逻辑结 构,并加以验证和改进,同时选择较为优化的声学模型,以求能够在有限训练、 时间和空蚓的限制条件下实现较高的识别率。 1 4 本文内容安排 本文以晚话人识别系统的实现为背景,主要涉及的内容有:说话人识别系统 的结构,语音信号处理,语音特征向量,矢量量化和隐马尔可夫模型以及基于自 适应的说话人识别算法。论文章节安排如下: 第1 章绪论。对说话人识别的概况进行了叙述,随后指出了本文研究工作 的背景、意义以及将解决的问题。 第2 章说话人识别系统。针对要解决的问题,从整体上逐个分析说话人识 别的各个环节比较全面的介绍了在预处理、特征量和识别方法中的基础理论和 方法。 第3 章基于矢量量化的说听人沮别。本章首先介绍了矢量量化的抽象特点 4 武汉理工大学硕士学位论文 及其优势,并指出矢量量化在说话人识别领域中的应用前景,随后就基于矢量量 化的特征提取进行了专门的分析,并着重阐述了矢量量化本身的原理及相关算 法,最后进一步探讨了在传统矢量量化基础上进行改进的可能性。 第4 章基于隐马尔可夫模型的说话人识别。着重分析了隐马尔可夫模型的 结构,详细阐述了隐马尔可夫模型的特点,并指出隐马尔可夫模型在说话人识别 领域的重要地位。 第5 章基于f v q h m m 的说话人识别。在分析了矢量量化和隐马尔可夫模 型两种模式的优缺点后,针对两者各自的特点提出设想去改进现有的单一算法, 并从数学模型和实验的角度予以论证。 第6 章总结与展望。最后,对预定设想的算法实现及所做的工作进行了总 结,在此基础上给出了对说话人识别未来发展的一些展望。 5 武汉理工大学硕士学位论文 第2 章说话人识别系统概述 说话人识别是一个模式识别问题,即模式归类问题,将表征不同说话人的特 征向量进行合理归类,在识别时给出正确的结果。说话人识别主要包括语音信号 预处理、语音特征参数提取、特征向量压缩、训练分类和识别等几个阶段。说话 人识别框架如图2 1 所示。 厂一一一一一? 图2 - 1 说话人识别系统框架 2 1 语音信号预处理 识别结果 语音经声音采集设备,如麦克风,进行声电转换变为模拟信号,然后经由 a d 进行采样、量化变为数字信号”“。对得到的数字信号进行信号能量的归 化处理以提高分析的稳定性,然后进行预加重以提升高频部分。此外由于对语音 信号常采用短时分析技术,在语音信号分析之前,首先要对其进行分帧加窗,常 用的窗函数有: ( 1 ) 矩形窗 ( 2 ) 汉明窗 f l 0 s ns l 一1 ”以) 2 o其他(2-1) 州2 r 地4 6 焉沏舭柚m 5 巍p z , 卅r q 警刎d m 5 蒜 c z - 。, 6 武汉理工大学硕士学位论文 分帧时,每帧长度为2 0 m s 左右,帧与帧之间的偏移通常取帧长的1 1 2 或1 3 , 即每隔帧长的1 2 或1 3 进行分帧。分帧后是加窗,频域分析时常采用的是汉明 窗,以减轻短时语音段边缘的影响。在分帧加窗的基础上即可对语音信号进行语 音分割和特征提取等处理“。 2 2 特征提取 2 2 1 典型的几类特征参数 声学特征的选择与提取是语音识别的一个重要环节。声学特征的提取既是一 个信息、大幅度压缩的过程,也是一个信号解卷过程,目的是使模式划分器能更 好地划分。 人的发音是由先天因素和后天养成习惯共同决定的,先天因素主要是指人的 发声器官,如声带、声道、鼻腔、舌、唇等。后天养成习惯是由童年所在的方言 区、父母等诸多因素综合作用而形成的。在研究与个体相关的语音特征时,寻找 能反映上述两个因素的特征参数是研究的一重要方向。除了研究与人的发音方式 相关的个体特征参数外,研究人的听觉系统如何辨音也是发现新语音特征的重要 手段。研究人员已在这几方面取得了一定的成绩:反映人的声道特征的参数有 l p c 系数、声道截面积比、基音频率、共振峰等,根据人的听觉特性导出的有 m f c c 等。能反映人后天发音习惯的基频包络、s u p e r l d 等。根据特征参数所反 映信息的层次,可将上述三类特征参数划归两个层次:一是反映人发声、听觉器 官特性的低层特征参数,二是反映人后天发音习惯的高层特征参数。目前,人们 对低层语音声学特征的研究最为透彻,高层特征参数的研究才刚刚起步( 如 s u p e r l dv r o j e c t ) 。下面就说话人识别系统中用到的特征参数作一个较为全面的介 绍: ( 1 ) 基频 基频是指声带振动的频率它是语音信号分析的一重要参数。声道特性因人 而异,因而基频的变化范围比较大。常用的基音检测算法有自相关函数法、平均 幅度差函数法、倒谱法等。 ( 2 ) 线性预测系数l p c 信号处理中系统传递函数参数模型主要有三种:第一种是只有零点没有极点 的滑动平均模型( m a ) ,第二种足只有极点没有零点的自回归模型( a r ) ,第三种 是既有零点又有极点的自回归滑动平均模型j ( a r m a ) 。考虑到声道的反射作用, 其精确的模型应该是一个a r m a ,但a r m a 的参数求解繁杂,在应用场合不宜 实现。a r 模型能够很好地近似卢逆模型,且其参数求解相对容易,有多种解法, 武汉理工大学硕士学位论文 如针对自相关方程的d u r b i n 递推算法和s c h u r 递推算法、针对协方差方程的乔 里斯基算法、b u r g 算法,所以一般用一个a r 模型来表示声道模型。 以z ) = g 。少( z ) 脚) - 高2 f 毒f ( 2 - 4 ) 式中g 为增益系数,在下面的分析中不对其进行考虑。由上述传递函数可 得到有关信号s ( n ) 的差分方程: s o ) = 三。q s m f ) + g “( n ) ( 2 5 ) s ( h ) 的线性预测s ( n ) 可近似表达为: g o ) 一品q s o f ) ( 2 6 ) 预测信号j 0 ) 的误差为:e 0 ) - s 0 ) 一j 0 ) 一a u ( n )( 2 - 7 ) 线性预测j 0 ) 的传递函数为:尸( z ) = 罗三,q z 。 ( 2 8 ) 误差e ( n ) 是信号s ( n ) 通过如下系统而产生的: 彳( z ) = 1 罗厶d i z 。( 2 - 9 ) 由上可知a ( z ) 是声道模型传递函数的逆滤波器。 i 4 ( z ) 参数可通过使e ( n ) 在均方误差最小的准则下求得,求解算法有多种。 线性预测分析从人的发声机理入手,通过对声道的短管级联模型的研究,认 为系统的传递函数符合全极点数字滤波器的形式,从而n 时刻的信号可以用前若 干时刻信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间 达到均方差最小( l m s ) ,即可得到线性预测系数( l p c ) 。对l p c 的计算方法有自 相关法( 德宾d u r b i n 法) 、协方差法、格型法等等。计算上的快速有效保证了这一 声学特征的广泛使用。 ( 3 ) 倒谱系数c e p c 利用同态处理方法,对语音信号求离散傅立叶变换d f t 后取对数,再求反 变换0 n f 就可得到倒谱系数。实验表明,使用倒谱可以提高特征参数的稳定性。 ( 4 ) 线性预测倒谱系数l p c c 对于l p c 倒谱系数( l p c c ) ,在获得滤波器的线性预测系数( l p c ) 后,可以用 下面递推公式计算得出。 c # n , c n l ;a l n + k ,- 。( 1 一告) 。c 一。1 s ns p(2-10) ( 5 ) 美尔倒谱系数m f c c 美尔倒谱系数不同与l p c ,。e 不是从声道模型入手进行分析,它的产生建亩 武汉理工大学硕士学位论文 在人耳对声音频率的非线性感知基础之上,人耳对声音感知的灵敏度随频率的变 化而变化,对低频声音比高频声音敏感,下面是m f c c 的计算步骤: 1 、对信号作加窗处理 2 、对加窗的信号帧进行快速傅立叶变换( f f n 3 、对变换系数取其幅度能量 4 、将频率变换到m e l 美尔尺度 5 、取对数 6 、作离散余弦变换( o c t ) m f c c 弱化了语音谱高频成份,m f c c 对噪声具有适应性,是鲁棒说话人系 统中常用的一种特征参量。 ( 6 ) 感知线性预测系数p l p c 不同于l p c 等是通过对人的发声机理研究而得到的声学特征,感知线性预 测( p i j p ) 是受人的听觉系统研究成果推动而导出的声学特征。对人的听觉机理的 研究发现,当两个频率相近的音调同时发出时,人只能听到一个音调。临界带宽 指的就是这样一种令人的主观感觉发生突变的带宽边界,当两个音调的频率差小 于临界带宽时,人就会把两个音调听成一个,这称之为屏蔽效应,m e l 刻度是对 这一临界带宽的度量方法之一。 p l p 仍用德宾法去计算l p c 参数,但在计算自相关参数时是对听觉激励的 对数能量谱进行d c t 。 ( n 高层特征参数s u p e r l d 说话人识别和自然语言识别是帽融合的:交谈语音中多个说话人讲话内容的 提取,首先要进行不同说话人身份的标识,而说话人识别所用的语音特征许多是 从语音识别方面借鉴过来的,随着人类发声物理模型研究的成熟,人们开始对更 高层次的、与说话人后天习惯及语义相关的说话人特征进行研究,s u p e ri d 就是 如此。 美国约翰霍普金斯大学的w s 2 0 0 2 ( 2 0 0 2j h us u m m e rw o r k s h o po nh u m a n l a n g u a g et e c h n o l o g y ) 对表征语者个体特性的高层语音信息进行了研究。s u p e r i d 目标:抽取和应用语音信号所有层次的、能表征说话人特征的信息。为了利用高 层语音信息提高说话人识别系统的效能,研究方向由基于与文本无关的说话人识 别向与文本有关的说话人识别转变。 综上,目前说话人识别系统特征参数研究的方向是:寻找鲁棒性的特征参数, 充分挖掘和利用高层语音信息,如何将语音中反映说话人特征的低层和高层信息 进行有效融合。 9 武汉理工大学硕士学位论文 2 2 2 特征参数选择准则 对特征参数所希望具有的属性: ( 1 ) 实用性。语音中自然蕴含、频发且容易测量。 ( 2 ) 鲁棒性。不因时间的推移、个人身体状况的变化而变化,对一定的背景 噪音有适应性,不依赖于特定的传输信道。 f 3 ) 安全性。不易受模仿之攻击。 目前,还没有任何特征参数具有上述所有的特性,由语音谱导出的语音特征 经实践证明具有良好的特征。 判断特征参数有效性的最直接的方法是在给定识别方法后,考察它对识别率 的影响。如果有限的参数不能达到较低的差错率,则可把若干参数构成一个特征 矢量。至于其中每个分量的影响,则可以通过增加或去掉它对识别率造成的影响 来确定。但这种方法受到识别方法的影晌,使用不同识别方法的两个参数不能通 过识别率来比较它们的效能,因而通常用f 比和d 比来衡量。 ( 1 ) f 比 对于某一维的特征x ,若同一说话人的不同次发音,这一特征的均值变化较 小而对不同说话人,这一特征的变化却较大,则较为适合作说话人识别的特征 参数,f 比的定义如下: 一何不同说话人特征各自的均值方差 同一说话人各次特征的方差的均值 c 【。一互】2 ,c 【z ? 一心】2 。 望篁塑互差【全塑塑堡查塑! 方差的均值( 同一说话人之间) ( 2 - 1 1 ) 式中z ! ”表示第i 个说话人第a 次发音得到的特征参数: c ,;表示对i 求平均运算; 。表示对说话人的不同语音平均; “= c z :。,。表示第f 个说话人参量的估计平均; ;c 肛,表示对所有说话人平均参数的总均值的估值。 如果参量的f 比较大,则一般会得到较好的性能,但这也不是绝对的。f 比 较大只是说明不同说话人的分散程度平均而言要大于每个说话人自身的分散程 度,但并不能保证这些分布彼此之间不重叠。而且,这种对单一参量的评价并没 有考虑到参量问的相关性,因此对于构成参量集的指导意义不大。 ( 2 ) d 比 类似f 比,对于多维特征矢量x 定义说话人p q ( w i t h i ns p e a k e r ) 特征的协方 差矩阵w 和说话人f q ( b c t w e e ns p e a k e r s ) 特征的协方差矩阵b 分别为: 武汉理工大学硕士学位论文 一c g ? 一纯) 7 雠一以) ) 。 ( 2 一a 2 ) b = ( 肛f 一) 2 ( 卢f p ) 。( 2 一1 3 ) 式中胁和卢同f 比中的约定,在d 比中求出的是多维矢量。这样,可得到 d 比的定义式: 肚- r , “w - 段 一c 矽“ d 值越大,这种参数越好。 2 2 3 特征向量的常用压缩方法 在选定说话人特征后,很重要的一步是特征向量的压缩,选用的特征值越多, 特征向量的维数就越大,这有几点不利之处: ( 1 ) 需要占用大量的存储空间 ( 使后续谢练与识别阶段的计算量急剧增加 ( 3 ) 特征向量维数的大,识别的效果不一定好 鉴于以上三点不足。很有必要在训练之前,对数据进行压缩处理,常用的压 缩处理包括两个方面,一是减少冗余的特征向量数,二是降低特征向量的维数。 本小节针对后者介绍两种常用的降维数据压缩方法:p c a 和l d a 。 f 1 ) 主分量分析法p c a 主分量分析法的主要思想是:对于一组高维空间中的向量数据,找出最佳的 投影方式,将其投影到低维度空间,使得投影后的数据能尽可能分散,并保持原 数据在高维空问分布的特性,以方便后续处理。 主分量分析法的具体计算方法:首先假设给定的一组高维向量为:x ;忸。 , 其中1 s is n ,x r ”,x ,为m 维列向量 1 、求x 的均值向量弘= 古罗。x 。 2 、求x 协方差矩阵c ,= 古罗芏。( 爿。) ( 并,一) 7 3 、求协方差矩阵c ,的特征值轨 和特征向量缸; 4 、将选特征值从大到小排列,选择前l 个特征值所对应的特征向量胡成变 换矩阵a ,其中l c m 5 、。a 7 x i ,得到降维矩阵y = 傲,匕,圪 ( 2 ) l d a 说话人识别系统l ,常采用混合特征向量来提高说话人识别率但并非所采月 武汉理工大学硕士学位论文 的混合特征越多,识别的效果越好,当特征向量的维数超过一定的数目后,说话 人识别的效率会出现不升反降的结果。为了找到最佳的说话人识别特征向量可采 用l d a 技术,下面对l d a 予以简略介绍。 l d a 属于对包含类别信息的数据进行分类的方法,其主要目的是希望找出 最适合投影的方向,使一组已事先分好类的数据投影到低维度空间,同一类的数 据尽可能集中,而不同类的数据则尽量区分开来。 从下式开始,解释l d a 的原理: t = b + ( 2 - 1 5 ) 式中t ( t o t a lc l a s s e s ) 为所有数据的协方差矩阵,b ( b e t w e e nc l a s s e s ) 为类间协方差 矩阵,w ( w i t h i nc l a s s e s ) 为类内协方差矩阵。 假设有一个m 月的数据矩阵a ,代表一组有m 个向量各包含n 个特征值的 数据,a 可写为: 该组数据的均值向量可表示为: 4 = 一言私 假设这m 组数据属于c 类,则矩阵a 亦可表示成分块矩阵 爿篁 ( 2 - 1 6 ) ( 2 1 7 ) f 2 一l s ) 式中,4 表示第k 类数据,其中k = 1 , 2 ,c 。假设第k 类数据所包含的部量 组数为m 。,则有: 一毫m t 口= 去鼾心 综上,可将t = w + b 的各个成员写为: ( 2 - 1 9 ) 武汉理工大学硕士学位论文 r 2 善( 旷p ) 一卢矿 3 酗。j 一卢7 。a a 7 一m g l 2 7 圳l 苫俐t p ; 口。荟打t ( 弘t p ) ( t 一弘) 7 2 荟刚t 肛:训肛7 ( 2 - 2 0 ) ( 2 2 1 ) ( 2 - 2 2 ) 识别分析的目的是希望找个单位投影向量d 以尽可能加大c ,其中c 为 c ;d :r b d d2 w d ( 2 2 3 ) 直观地讲就是希望尽量缩小投影后类内协方差w ,同时尽量增大投影后类 间的协方差b 。隶属于同一类的数据要尽量集中,而类与类间要尽量分散。 根据上面的条件,可将识别分析的步骤归纳为以下三条: 1 、寻找能得到最大c 的单位向量式 2 、在符合d ;蒯。的条件下,寻找能得到最大c 的单位向量d : 3 、在符合d ;h 留,d 的条件下,寻找能得到最大c 的单位向量以,其中 ls is k 。p 。 称为最能识别该组资料的识别向量,这里扛。 的并未限定必须是 两两相互垂直的向量集合,然而在这样的弹性条件下,不宜找到适当的目标函数 来实现上述算法。为此d u c h e n c 及l e c l e r o q 在1 9 8 8 年曾提出了对该问题的新观 点。 2 3 说话人识别的主要方法 2 3 1 基于模板模型的方法 几乎所有传统的说话人识别系统都是利用说话人的声音信号建立个人的特 征模型,并且为了处理上的一致t i :和运算上的简单性,一般将每一说话人的信口| tpi “ i 小一 r t 4 i 孵 。v自。孓自 = 昌 矿 武汉理工大学硕士学位论文 特征模型在形式上是相同的,只是其中的参数不同。因此,模型参数是说话人语 音信号特征的显式表示,参数估计的速度和精度直接影响到建模的速度和识别性 能。 ( 1 ) 模板模型 为每一说话人发的每一字音建立这个语音的特征序列的模板。识别时测试音 特征序列与每一说话人的每一字音的模板进行比较和匹配。由于即使是同一说话 人发同一字音的不同次发音,在各瞬间的速度都有一定的差异,即测试音特征序 列的长度与模板长度不一致,这时,采用将测试音特征序列弹性缩放,使得侧试 音特征序列的长度能够与模板长度对齐,而弹性缩放的准则是使得弹性缩放后的 测试音特征序列与模板的匹配距离最小,将这一距离作为测试音与模板的匹配距 离。 在模扳模型系统中,补偿说话率偏差的最流行方法是动态时间规整( d t w ) 方法。特征序列对应于发音长度。一个文本无关的模板模型是模板序列z l ,z 。, 它要与输入序列工l 一,z 。匹配。通常,因为时间的不完全一致,n 与m 并不相 等。目标是找使这两个特征序列的总体平均匹配距离满足 k y d ( c 让) ) 啡) d 研,| b ) 一叫n 盟1 _ ( 2 2 4 ) y w ) 馒 式中的f 将作为a 和b 的匹配路径。 特点:注意到了特征的时序性,但未能做到与文本无关的说话人识别,且计 算量较大。 ( 2 ) 矢量量化模型v q 模板模型的另外一个形式是使用多模板去代替声音的各帧,它就是v q 模 型。每一说话人的语音特征在特征空问中都形成了他的特定的特征聚类中心( 在 矢量量化中称这些聚类中心为说话人的电码本) ,因此可用这些聚类中心作为说 话人个性特征的描述模型,识别时只要求测试音特征与每一说话人特征聚类中心 的距离,以距离最小的作为识别出说话人的准则。 v q 的电码本是一个编码词的集合。电码本由用户注册时的训练数据产生 通常是读一个特定的短语。模式匹配值由输入向量x 与声明者的v q 电码本c 中的编码词之间的最小距离组成。l 帧声音的匹配值为 2t 罗m i n d ( x ,z ) ) ( 2 2 5 ) 臼一 ,7 、 利用聚类中心形成电码本的编码词,这样就使得。 信号的暂时信息达到均 武汉理工大学硕士学位论文 衡。于是就没有必要进行时间规整。由于不需要时间规整,故极大的简化了系统, 但它忽略了一些在提示语句下可以体现说话人个体特征的时态信息。 每一说话人的电码本只描述了这一说话人语音特征在特征空间的分布中,t h , ( e i j 聚类中心) 。 每一说话人的电码本都描述了这一说话人发音的语音特征在特征空间中的 统计分布的中心情况,它是文本无关的说话人识别方法。因此要求训练语音足够 长,以能够充分反映说话人的个性特征。 进行说话人识别时,测试语音的特征在特征空间中的分布能够与相应的说话 人的电码本吻合,所以测试语音也要足够长。当测试语音较短时,这种方法的识 别率会急剧下降。 如果说话人使用特定文本的语音对电码本进行训练,并用同样的文本作为测 试语音,则同一说话人的特征在特征空间中将吻合得较好,故也可用于与文本有 关的说话人识别,性能不错。 特点:用语音信号特征的分布中一1 1 , 描述说话人的个性特征,却没有描述语音 信号特征的时序性。 2 3 2 基于随机模型的方法 模板模型的合理性显而易见,因而在早期的文本有关的说话人识别的研究中 占主导地位。后来,研究人员提出了灵活性更大的随机模型,它能获得更有理论 意义的可能值。 利用随机模型,可以通过计算观测值的可能性来系统陈述模式识别问题。观 测是指从某一说话人上提取特征向量,该向量取决于不同说话人的条件概率密度 函数,该函数可以从训练矢量中估计得到。在给出了估计的密度后,概率值就可 以确定了。估计得到的概率密度函数可以分为参数型和无参型两类。通过这一模 型,说话人的每一帧( 或是一组帧的平均值) 的概率就可以计算得到,这个概率就 被称为匹配值。如果模型是参数型的,就先提出一概率密度函数,从而计算该密 度函数的极大似然估计量。如果不知道密度,那就通过g m m 来近似或是用无参 数估计来计算匹配值。 ( 1 ) 混合高斯模型g m m 每一说话人的语音特征在特征空问中都形成了特定的分布,可以用这一分布 来描述说话人的个性。高斯混合模型( g m m ) 是用多个高斯分布的线性组合近似 说话人的特征分布,识别是将最能够产q i 测试音特征的说话人分布模型对应的说 话人作为识别结果1 。 每一说话人的概率密度函数的函数形式是相同的,所不同的只是函数中的参 武汉理工大学硕士学位论文 数。m 阶高斯混合模型g m m 用m 个单高斯分布的线性组合来描述帧特征在特 征空间中的分布,即: p o ) = e 岛o ) ( 2 - 2 6 ) 式中 b i 0 ) = n 0 ,雎,r i ) ;了i i 可i ! r 1 面e x p f i 1o p ) r _ 1 0 f i ) l ( 2 - 2 0 r i 2 面严面f 似9 一i o 叫t ) 1 o 叫t ) j 式中,p 是特征的维数。6 j 0 ) 为核函数,是均值矢量为地、协方差矩阵为r i 的高斯分布函数,m 称为g m m 模型的阶数,在建立说话人模型以前设为一确 定整数。a 兰亿,“,r il i ;1 2 ,肘 为说话人特征分布g m m 中的参数。作为高 斯混合分布的加权系数只应满足使得: f _ :o p ( x l ;o d x ;1( 2 - 2 8 ) 即 _ 1 f 只= l ( 2 2 9 ) 当m = i 时,特征的分布只有一个分布中心“,这时的分布就是高斯分布。 对于 ft 1 的情况,g m m 可以有多个分布中心h ( f 一1 ,2 ,m ) ,可以描述包括 高斯分布在内的更广的非高斯分布。但由于计算g m m 中的p ( x ) 需要求p p 维 方阵r 。o = 1 , 2 ,m ) 的逆,运算量大。为此,常将尺,设为对角阵,将求逆运算 转化为求倒数运算,提高运算速度。 ( 2 ) 隐式马可夫模型h m m 在随机模型中,最适合处理声音信号的是h m m 。每一说话人的语音特征都 是随着时问的变化而变化的,如果将这种特征的变化过程用状态问的转移来描 述,则构成了说话人的隐马尔可夫模型。 2 3 3 基于人工神经网络的方法 人工神经网络模仿人脑的信息处理机制,把大量结构非常简单的计算单元相 互连接起来,实现高度并行和分散的信息处理,尤其适合于象说话人识别这类与 入的感知有关的信息处理问题,它可以通过从示例中学习,实现网络的自我组织 和调整。人工神经嘲络足近年来发展起来的新兴领域,人工神经网络具有优良的 自我组织、自适应、f _ 1 。产爿能力。从语音中说话人个性特征与说话人的,应关系 武汉理工大学硕士学位论文 上讲,说话人识别是一个非常复杂的非线性分类问题,而人工神经网络,尤其是 多层感知器结构的人工神经网络有着传统分类方法所不能比拟的分类能力“,基 于神经网络的说活人识别系统的结构如图2 2 所示。 说 话 人 p 音 隐层 输 出 得 分 用人工神经网路进行说话人识别三种的基本结构有: ( 1 ) 为所有的人建立一个神经网络,用所有的的语音对网络进行训练。 ( 2 ) 为每一说话人建立一个神经网络,用所有的的语音对网络进行训练。 ( 3 ) 为每一说话人建立一个神经网络,只用本人的语音进行训练。 将说话人的个性特征作为网络的输入,通过对网络有指导的训练,通过网络 输出识别结果。 2 3 4 基于支持向量机的方法 支持向量机( s v m ) 理论源于v a p n i k 在1 9 6 3 年提出的用于解决模式识别问题 的支持向量方法。这种方法从训练集中选择一组特征子集,使得对特征子集的线 性划分等价于对整个数据集的分割。这组特征子集称为支持向量s v 。在说话人

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论