(通信与信息系统专业论文)说话人识别方法的研究.pdf_第1页
(通信与信息系统专业论文)说话人识别方法的研究.pdf_第2页
(通信与信息系统专业论文)说话人识别方法的研究.pdf_第3页
(通信与信息系统专业论文)说话人识别方法的研究.pdf_第4页
(通信与信息系统专业论文)说话人识别方法的研究.pdf_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

哈尔滨t 稃大学硕士学付论文 摘要 说话人识别作为生物认证技术的一种,是根据应用语音波形中反映说话 人生理和行为特征语音参数,自动鉴剃说话人身份的一种技术。与其它生物 识别技术相比,说话入识别具有更为简便,经济及可扩展性良好等众多优势, 可广泛应用于电话银行,数据库访问,计算机远程登录,安全验证,控制等 领域。正因为说话人识别具有如此广阔的应用前景,国内外许许多多的工作 者投身予这一领域的研究中。 人的声道响应是反映说话人个性特征的重要的物理量。而语音信号中声 道响应是和声门激励信息卷积在一起的。为了从语音信号中得到声道响应就 必须对语音信号实现解卷积。本文介绍了对语音信号实现解卷积求取倒谱系 数的两种方法:线性预测分析和同态分析处理。通过对语音信号进行解卷积, 从而获得与声道响应有关的倒谱系数,组成特征向量。 说话人识别中有许多先进有效的识别技术,其中高斯混合模型( g m m ) t 盏 于性能较好、复杂度小、方法篱单,是曩前最好的说话入识剐算法之一。本 文介绍了g m m 模型的概念、模型参数的估计以及g m m 的识别算法,并通 过实验研究分析了g m m 模型的阶数对识别性能的影响。 本文阐述了小波分析理论应用予语音增强的原理,并将基于自适应阈值 小波去噪算法应用于说话人识别系统的预处理。实验结果表明,这种方法具 有语音增强效果,应用于噪声环境下的说话人识别系统时,能够提高系统的 鲁棒性。 通过分析当今说话人识别系统中常用的一些特征参数,以提高说话入识 别的识别率为目的,研究了将m e l 频率倒谱( m f c c ) 、线性预测倒谱( l p c c ) 及它们的一阶差分和基音周期等多种特征有效结合进行说话人识别的方法。 采用自相关法提取基音周期。经过实验证骧,使用多特征有效结合眈使用单 个特征效果要好,能在一定程度上提高系统区分说话人的能力。 关键词:说话人识别;特征提取;高斯混合模型;小波变换 哈尔滨t 稃大学硕十学何论文 i iiii i a bs t r a c t a so n eo ft h eb i o m e t r i c st e c h n i q u e s ,s p e a k e rr e c o g n i t i o ni st h et e c h n o l o g yo f a u t o m a t i c a l l yr e c o g n i z i n gw h oi ss p e a k i n go nt h eb a s i so fi n d i v i d u a li n f o r m a t i o n i n c l u d e di ns p e e c hw a v e s b e c a u s eo fi t sa d v a n t a g e so nc o n v e n i e n c e ,e c o n o m y a n de x t e n s i b i l i t y ,t h i st e c h n i q u ec a nb ea p p l i e dt oan u m b e ro fa r e a s ,s u c ha s t e l e p h o n eb a n k i n g ,d a t a b a s ea c c e s ss e r v i c e s ,r e m o t ec o m p u t e rl o g i n ,s e c u r i t y v e r i f i c a t i o na n dc o n t r o l 。b e c a u s eo f t h a t ,l o t so f s c i e n t i f i cr e s e a r c h e r sa th o m ea n d a b r o a da r ei n v o l v e di nt h er e s e a r c h t h ei m p u l s er e s p o n s eo ft h ev o c a lt r a c ki sa ni m p o r t a n tf e a t u r eo fas p e a k e r as p e e c hs i g n a li sac o n v o l u t i o no fg l o t t i se x c i t a t i o ns i g n a lw i 搬t h ei m p u l s e r e s p o n s eo ft h ev o c a lt r a c k t h i sp a p e ri n t r o d u c e st w om e t h o d st og e tc e p s t r u m c o e f f i c i e n t sb yd e c o n v o l u t i o n :l i n e a rp r e d i c t i o n a n a l y s i sa n dh o m o m o r p h i c t r a n s f o r m a t i o n a f t e rd e c o n v o l u t i o n ,w ec a ne x t r a c tt h ec e p s t r u nc o e f f i c i e n t s r e l a t e dt ot h ei m p u l s er e s p o n s eo ft h ev o c a lt r a c ka n df o r mt h ef e a t u r ev e c t o r s 。 a tp r e s e n tg m mi so n eo ft h eb e s ts p e a k e rr e c o g n i t i o na r i t h m e t i cb e c a u s eo f i t sg o o dp e r f o r m a n c e ,s i m p l e n e s sa n dl o w e rc o m p l e x i t y t h i sp a p e ri n t r o d u c e st h e c o n c e p t h ep a r a m e t e re s t i m a t e sa n dt h er e c o g n i t i o na l g o r i t h mo fg m mm o d e l t h eo r d e ro fg m mm o d e lr e l a t e dt os p e a k e rr e c o g n i t i o np e r f o r m a n c ei sd i s c u s s e d a n ds o m ee x p e r i m e n t a lr e s u l t sa r ea l s og i v e n t h i sp a p e re l a b o r a t e st h ep r i n c i p l e so fa p p l y i n gw a v e l e ta n a l y s i st h e o r yt o s p e e c he n h a n c e m e n t ,w a v e l e td e - n o i s i n ga l g o r i t h mw i 也a d a p t i v et h r e s h o l dv a l u e i sa p p l i e dt ot h ep r e p r o c e s s i n go fs p e a k e rr e c o g n i t i o ns y s t e m t h er e s u l t ss h o w t h a tt h i sm e t h o dn o to n l yh a se x c e l l e n ts p e e c he n h a n c e m e n te f f e c t sb u ta l s oc a n i m p r o v er o b u s t n e s so ft h es p e a k e rr e c o g n i t i o ns y s t e mi nn o i s ye n v i r o n m e n t s i no r d e rt oi n c r e a s et h er e c o g n i t i o nr a t eo fs p e a k e rr e c o g n i t i o n , s o m ef e a t u r e s t h a tb eu s e du s u a l l yi np r e s e n ts p e a k e rr e c o g n i t i o ns y s t e mi sa n a l y z e d as p e a k e r r e c o g n i t i o nm e t h o dt h a tc o m b i n i n ge f f i c i e n t l ym o r ef e a t u r es u c ha sm f c c ,p l c c a n dt h e i rf i r s to r d e rd i f f e r e n c ea n dp i t c hp e r i o di sp u tf o r w a r di nt h i sp a p e r p i t c h p e r i o di se x t r a c t e db ya u t o c o r r e l a t i o nm e t h o d t h er e s u l t ss h o wt h a tt h em e t h o d 哈尔滨t 糨大学硕十学僦论文 o fc o m b i n i n gm u l t i - f e a t u r ei sb e t t e rt h a nt h em e t h o do fu s i n gs i n g l ef e a t u r ea n d t h ea b i l i t yo fs p e a k e r r e c o g n i t i o ni si m p m v e d k e yw o r d s :s p e a k e rr e c o g n i t i o n ;f e a t u r ee x t r a c t i o n :g m m ;w a v e l e ta n a l y s i s 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导 下,由作者本人独立完成的。有关观点、方法、数据和文 献的引用已在文中指出,并与参考文献相对应。除文中已 注明引用的内容外,本论文不包含任何其他个人或集体已 经公开发表的作品成果。对本文的研究做出重要贡献的个 人和集体,均已在文中以明确方式标明。本人完全意识到 本声明的法律结果由本人承担。 作者( 签字) : 日期:略年月f 的说话人识别 翠在1 9 6 0 1 9 7 0 年闻,b a u m 等就发表过多篇文章阐述了h m m 的基本理 论,但因为h m m 理论大多发表在数学杂志上,且理论叙述不很详细不便于 理解,没有引起工程人员的重视,因此h m m 理论只初步应用到语音信号处 理( s p e e c hp r o c e s s i n g ) 当中。8 0 年代后期,随着有关h m m 理论详尽叙述的 展开和一些指导性文章的发表,以及h m m 模型参数最优化估计方法的解决, h m m 理论开始广泛地应用到语音信号处理当中。 哈尔滨下榉大学硕七学位论文 h m m 应用概率统计憨方法来撼述时变语音信号,露时它可以擐好她攒 述语音特征统计分布的统计模型,是准平稳时变语音信号分析和说话人识别 的有力工具。应用h m m 模型进行说话人识别时,针对每一个说话入的语音 信号提取特征矢量,然蜃为每一个说话人建立一个h m m 模型,院懿设名为 第f 个说话人的模型参数。识别时计算未知语音信号的特征矢量o 以及概率 p ( d 1 名) ,i l ,n 。对于说话人辨认,其中概率p 最大的模型五对应的说话 人隽谈别结果;对于说话夫确认,将计算褥裂的尹蓬与己确定阙值相逮较, 小于阂值拒绝,大于湖值接受。 4 。基于高斯混合模型的说话入识别 奏于每一个说话入酶语音特征在特征空闻中都形成了特定的分毒,所以 可以用遂一分布来描述说话人的个性。高斯混合模型使用多个高斯分布的线 性组合近似说话人的特征分布,将最能够产生测试语音特征的说话人分布模 型所对应的说话太作为识剔结果。对于高囊混合模型,训练时,隽每一个人 的语音建立一个模型,训练的爵的本质上是估计这个模型参数的过程,当所 有人训练结束后,保留每个人对应的参数;识别时,将未知语音与每个人的 参数穗结合,求窭与每个人相对痘的觳然丞数,其中瓣瘟最大似然遗数的说 话入被认为是识别结聚。 5 基于人工神经网络的说话人识别 人工神经瓣络( a r t i f i c i a ln e u r a ln e t w o r k ,篱猕a n n ) 是出大量豹神经 元互连丽成的网络。它是在现代神经科学研究成果的基醚上提惠的,反映了 人脑功能的基本特征。但它并不是入脑的真实描写,只是它的某种抽象、简 纯与模拟的一种工程系统。 说话入识别爸含着从低层次剽离层次的各个除段及其彼此之闻的相互律 用,这是个非常复杂的模式识别过程,而人工神经网络尤萁适合于此类问 题。其中较为成功的例子多数应用在说话人个性特征抽取这层次上,用于 1 4 哙尔滨t 耩大学硕士学位论文 说话人识别酶辩经瓣络结构主要是多层感翔器结构豁神经鼹络,如反蠢传播 人工神经网络( b p - b a c kp r o p a g a t i o nn e t w o r k ) 、入工神经预测网络( n p - n e u r a lp r e d i c t i o n ) 、径向基函数神经网络( r b f r a d i a lb a s i sf u n c t i o n ) 、时间 延迟太王棒经鼷络( t d n n - t i m ed e l a yn e u r a ln e t w o r k ) 等。与传缓瓣说话入 识别方法相比,人工神经网络的出现和发展为说话入识别开拓了新的思路, 它通过入工神经网络强有力的自适疯、自学习和稳组织能力实现对说话人谢 音蔷号特征翡分类和谈剐,其潮络投值形成了说话入个性特蕊的隐式表示, 是一种缀有前途的识剐方法。但网络训练速度、瓣络训练的收敛性以及识别 系统的通用性等方面仍存在许多问题,沿着这一思路进行说话人识别的研究 将谈赖予人工神经霹络理论鹣不断成熟霜发震攒誉 2 2 说话人特征提取 说话人静模型不是彝语音信号誊接褥到豹,嚣是通过铁语酱信号孛提取 的说话入特征恧得烈,是说话太特征盼模型。鞴练语音照有进行特征提取磁 才能得刘其特征的模型,识别语音也只有在经过特征提取履才与说话人的模 型进行蹉配,因此特链提取是说话人识别系统中的重要组成部分,特征提取 将蛊接影响戮系统的识嬲效果。 2 2 1 预处理 在语音翁号迸行分橱处理之魏,毖须进行语音售号的羡簸理。语音信号 的预处理主要包括:抗混叠滤波、语音信号数字化采祥、放大与自动增盏控 制、分帧与拥窗、端点捡测、预加煎处理。经过预处理之后,即可对所得语 音薅号进行特征提取,下西对其过程遴褥简要介绍。 l 。语音信号数字纯 语音信号经预滤波、a d 采样,幽模拟信号转换为数字信号。其中预滤 波麴基静是是了抑制输入信号串各频域分量中频率超过2 语音抽样s ( ”) 和 g 1 8 ) 即语音样点间有相关性,可以用过去的样点值预测朱来样点值。对于浊音, 激e ( n ,是以基音周期重复的单使冲激;对于清音,g 拜,是稳衡自噪声。 在信号分析中,模型的建立实际上是用信号来估计模型的参数的过程。 因为信号是实际客观存在豹,因此用模型表示它是不可能完全精确的,总是 存在误差。且较点除数p 无法事先确定,霹麓选褥过大或过小,况豆蓓号是 时变的。因此求解模型参数的过程是一个逼近过程。 在模型参数估计过程中,把如下系统称为线性预测器。 je s 毒a i s ( n 1 )辖1 1 9 ) 式中喁称为线性预测系数。从而,p 阶线性预测器的系统函数具有如下形式 j 已 p ( z ) 2 q z 叫 ( 2 2 0 ) 在式0 1 7 ) 申,蠢0 ) 称为逆滤波器,其传输亟数为 哈尔滨r 1 :稳大学硕士学位论文 预测误差为 尹 a ( z ) = i - g z 一 ,崔l 笤( 斑) = s ( 拧) - 窆a , s ( n - i ) = 伪( 嚣) ( 2 2 1 ) 霆诧瘸线性预测对语音蔷号进行解卷实际上是把激励分量始入预测残差 中得到声道响应的全极模型h ( z ) 的分量,从而得到这个分量的矾参数。 3 戡性预测倒谱系数( l p c c ) 特征提取 在语音萤号酶线性预测模型中,声道夔传递函数凳 l h ( z ) 粼_ - ( 2 2 2 ) 1 - e o ,z 一 t = l 式中p 为线性预测除数,色g = 1 , 2 ,p ) 秀p 阶线性预溅系数。 对h ( z ) 两边取对数,然后再对名卅作傅立叶级数展开,得 k 嚣砖篇c := e 舻( 蓐弦呻( 2 - 2 3 ) 其中称毙语音信号酶l p c 倒谱系数。把式( 2 - 2 2 ) 代入式( 2 - 2 3 ) 得 衄每_ = ( 糟) , ( 2 2 4 ) l 一罗碾= 卅 归1 葛 式( 2 - 2 4 ) 两边对z 。求导,荐简化得 y i a , z ) 一- 蔓一=nc舻(n)z。(n-t(2-25)p i l 一瞒z 。 1 t = l 式2 2 5 ) 可写成如下形式 芑趣z 触= ( 1 一艺q z ) 削。翻) 暑一舯( 2 - 2 6 ) t = l j = ln = l 在式( 2 - 2 6 ) 中,令方程两边z q 各次幂的系数相等,则可以得到l p c 倒谱系数 锄哟与线性预测系数绣= l ,2 ,妒) 鲢关系 2 i 哈尔滨下稷大学硕+ 学位论文 ( 1 ) 拦嚷 ( 蝴= 善- i 磊k ( 七) + l p 这种l p c 分析的重要性在于,它提供了一组麓捷的语音信号模型参数, 这组参数较精确建表征了语音蕾号的频谱幅度,丽且分柝它襁魇需酶运算薰 相对来说并不大,将它作为模板存储,可以提高识别率并减少运算时间。佩 是,l p c 倒谱系数也有它的缺点,因为它基于全极点模型的假设,因此对于 清音和鼻音来说并不确切,两声道响应都含有零点憨影嚷,因此,跌理论上 讲,应该采用极零点模型。 4 美尔倒谱系数m f c c 特征提取 m f c c 特征是说话入识鬟孛另一个棠焉蕊语音特征参量,箕诗算是基予 语音信号的滤波器组分析。 数字滤波器组分析是语音信号处理中最基本的方法之一。滤波器组可看 髂人类昕觉感絮系统蓊端鳇一令狡糙模垄。语音信号滤波器组分析酶理论依 据是基于入对语音感知的两个基本事实。首先,入的大脑皮屡对单个音调的 感知强度近似与该音调频率的对数成正比。m e l 频率表达了种常用的从语 音频率到“感翔频率”浆对应关系,其表达式舞下 = 2 5 9 5 l o g t o ( 1 + f 7 0 0 ) ( 2 - 2 8 ) 在m e l 频率域内人对音调的感知为线性关系,即如果语音信号a 的m e l 频率荛另一个语音信号b 鲍两蟹,刘入耳瞬超来a 韵音调也是b 翡音谲戆两 倍高。 其次,对于复杂的语音信号,人耳不能有效地区分开某一中心频率附i 跹 一定带宽癌语音德号的所有频率分量。只有当这个浯音售号的某一藏分落在 哈尔滨t 稳大学硕十学位论文 一定翁带宽之雏,才能被入耳有效地区分开来。这个带宽称为瞌赛蒂宽 ( c r i t i c a lb a n d w i d t h ) ,其计算方法如下 艿= 2 5 + 7 5 1 1 + 1 。4 ( 五l o o o ) 2o 舶( 2 2 9 ) 其中隽孛心频率,这样,裁可以椅造瞌界频带滤波器组( c r i t i c a lb a n d - w i d t hf i l t e rb a n k ) 来模仿入耳的感知特性。临界频带滤波器组是指每个滤波器 的中心频率在m e l 频率域内线性分布、带宽在临界带宽之内的一组滤波器。 实际应用中,透常把m e l 频率徽如下近俊:对1 0 0 0 h z 戳下熬语音蔷号采用 线性频举;对1 0 0 0 h z 以上的语音信号采用对数频率【8 1 。这是同入耳的听觉机 理相对应的。表2 1 给出临界频带滤波器组的一种典型的中心频率和带宽参 数。 表2 i 临界频带滤波器缀 滤波器组的输出取对数,再经过离敖余弦变换,即可褥到m e i 倒谱系数。 ( 1 ) 语音信号的预处理,对语音进行预加重、肖音无音检测、分帧及加窗 处理,褥到可以用于提取特征参数麴语音向量。 罐) 对露经经过预处理的语音商量分别进行离教博立时变换( d f t ) 。 2 3 哈尔滨j 口鼙大学硕+ 学位论文 ( 3 ) 将得到麓离散频谱雳序列三角滤波器进行滤波处理,得到一组系数 ,l i ,m ,这组滤波器的作用是通过m e i 尺度把声音信号的频域空间向入 的感知的频域空间进行映射,以使滤波器的空间尺度接近人类听觉的感知尺 度。滤波器缰中每个三角滤波器的跨度在m e l 标度上是福等的。所用滤波器 总体上覆盖从o i - i z 到n y q u i s t 频率,即采样频率的二分之一湖。在系统中, 滤波器的个数p 为2 0 ,其中计算聊,的公式如下 。n - 。i 觋= 遮f x ( k ) t 。h a k ) ) ! 嚣l ,乏,p 0 3 0 ) k = o 其中 毽 k ,参一l 薹羹蠢歹参+ 骂 即,_ 而秽篇犏, f i - 1 k 蕊f i 】 ( 2 3 1 ) 而可磊2(fi+l1-k而)f-1xfi+1- ,朋毒簿+ l 】 ( 邝+ l 】一羹国 一。一 f i 】是三角滤波器的中心频率,满足 m e l ( f i + 1 ) - m e l ( f i ) = m e l ( f i ) - m e l ( f j 一1 】)( 2 - 3 2 ) 滤波器缓输毒取对数浆好处是:第一,哥泼压缩谱嚣动态范邈;第二, 做同态处理,把语音储号在时域上的卷积成分和线性能量谱域上的乘性成分 转变为对数能量谱域的加性成分,从而比较容易将环境、信道带来的不良影 嚷剔除。勇外穗藩线性麓量谱 嚣言,对数憩量谱域靛统计分布特性更加适合 统计建模。 ( 4 ) 利用离散余弦变换( d c t ) 将滤波器输出变换到倒谱域,这样做的主瑟 瑟豹是对不嗣频段熬频谱残分徽鳃槌关处理,方便进一步豹建模和计算。离 散余弦变换的公式如下 c := 层妻,m j c o s 唔( 舢5 ) 】 ( 2 - 3 3 ) 哈尔滨下程大学硕士学能论文 2 。3 语音信号小波分析时频原理 传统的语音信号分析方法包括时域分析、频域分析、倒谱域分析等,由 于频域分析曼麓揭示信号懿本质特征,蠢姥频域分辑中豹短时傅立醉交换成 为语音信号分析酌主甍工具。但是,以短时傅立时变换为代表的分析方法是 在语音信号短时平稳假定的基础上狭取时频局部化信息的,无论对于任何语 音段,其时频分辨率均是潼定不变的,不可能爨时都缀熹,这使得转统的语 音分析技术在语音特征的更精细剡滋及分辨率的提高上变褥更加困难,从两 影响了后续相关技术的发展。这些因素使得人们将注意力转向其它时频分析 方法的磷究,以解决黠频分辨率豹矛盾,小波分析就是其孛的个磷究热点。 本节主要介绍语音信号的小波分析篦时频分辑藤理。 2 1 3 1 短时傅立叶变换 短时傅立时变换( s h o r t t i m e - f o u r i e r - t r a n s f o r m ,s t f t ) 亦称加密傅立时变 换,是传统的语音分析方法。目前在语音信号分析方面得到了广泛应用。s t f t 熬时频空阔划分如图2 2 瑟示。矗隽对域窗霾,a r o 为频域窗弱,称a t a r o 隽时频密的密露面积。从匿2 2 中瞬显看出,一曼窑函数被选定,矗缈耩矗f 邈 就随之确定。同时,s t f t 在时频平面中任意一点给出的关予信号的信息, 都是出时间域中豹r 和频率域中的a r o 这两个确定量新限定的,嚣这个局域 分蒺精度在整个时频室闻帮是一样的,繇整个时频空阕中的肘频窑处处均 匀一致。另外,时频分辨率可用时频窗的面积大小来衡量,面积越小,时频 局部化能力越强,然掰受h e i s e n b e r g 测不准原理豹制约,时频窗不可能任意 静夺。上述黠频分辨率麴矛盾限制了短时傅立时变换在语音信号分桥串的癜 用。实际存在的语音信号中不仅含有频谱时变比较缓慢的部分,而且含有频 谱的时变趋势较快且复杂的部分,例如某些过渡皆征、爆破音、塞擦音和摩 擦音等,这样静语音段虽然在时阊上所占艮重不是很大,餐往往携带声音感 哈尔滨下糕大学硕士学能谂文 2 游g 缈# 2 鎏2 :2s 墨擎零麓娅叛窆翔裂转 知舱熏纂倍患。此时繁塑短时倦立时变换的分析鬻足够短默熊鹱峡这些平穗 性很差的“速变”语音段的频谱特征,然丽短的鬻长又不适合予分耩平稳段的 蕊号瑗。露魏在语音嚣号分鬟孛,短时博立醉变换蘧誊模鞲了语音鳃凌繁特 征,导致一些对语音诫潮和说话入谈剐等语音处蠼过程非常重辫信息的丢失。 2 ,3 2c r r o s s m a n n - - m o r l e t 奎装变换 语卷信号的小波燮换是由m a r t i n e t 、m o r l e t 、g r o s s m a n n 撬蹬米的。恁键 称之为谱音信号的可视化表现。它是剥用连续小波变换逐步耩细地分析语酱 静絮蕊,其孛憋努拆避数甄,嵇是交母枣渡爹静透过平移管魏足度捧绩窿褥 到的,弗保持能量不嶷。郎 影黜寥= 搿一l ,2 梦垒= b ,摇 0 , r e r叠董 醛 2 6 哈尔滨工程大学硕+ 学位论文 式孛,搿称为尺度因予,在一定意义上代表频率0 2 的翻数,f 称为平移因子。 母小波j f ,( f ) 具有很好的时频局部化特性,其f o u r i e r 变换满足 f 醴盟如 y 代表内积。符号x 了拽表共掘。 与s 鞭f 毙较,g r o s s m a n n - m o r l e t 小波交换的优势在予,的时频域 窗口中心及宽度均随尺度因子口的变化而变化。幽口值较小时,时间轴上观 察范围小( 时域窗口窄) ,频率域土观察范围大( 频域窗口宽) ,相当于用 高频夺波作细致囊察,当g 值较大时,情况刚好粳反,相当于鼹低频夺波作 概貌观察,如图2 3 所示。值得注意的是,分析频率有高有低,但在各分析 频段内分析的品质因数q ( 即中心频率t o o l 带宽a r o ) 却保持一致。这是一项很 符合实际工作需要的特点,因隽如果希望在对域上蕊察褥愈缨致,就愈要压 缩观察范围,并提高分析频率。因为语音信号中时间和频率分辨特性的同等 重要性,丽且由于高斯函数满足最小或最佳不确定性,因此g r o s s m a n n - m o r l e t 枣渡变换孛,常常选菇囊函数襻羹语音的分褥夺波( 也称黄m o r l e t 小渡) ,此 函数的频域表达式为 妙( 国) = e x p - ( a , 一姣2 2 ,鳓 5 。5 o 1 3 ) g m s s m a n n m o r l e t 小波变换不仅提供了更好的描述时频域的基,而且和 人类听觉的加工特点相一致。例如,生理学研究证明,对听觉起关键作用的 哈尔滨t 程大学硕十学位论文 位 l l t i 呻_ 一 i l l a o l l i l l i lll l illl li 。ll l i ll 图2 3 尺度因子a 舱交化辩s 专r 豹瓣。频空闽划分 耳蜗内基底膜,其作用相当于一组建立在薄膜振动基础上的恒q 带通频率分 析器。另外声音信号被分解后常表现出高频分量持续时间较短,低频分量持 续时闻较长的特点。这也正和小波分柝熬性质互相吻合。 2 4 本耄小结 本章介绍了有关说话入识别的基本原理、说活人识别的主要方法、说话 入特征提取等,是说话人识瘸具体要研究方面的理论基础,也是后续各章的 理论基础。介绍了小波理论的时频分析特点。给出对语音信号实行解卷提取 倒谱系数鹣方法,线性颈溺分折技术。出于线性预测分析是基予语音售号产 生酶全极点模型酶假设,两声道响应含有零点的影赡,因瑟在某些方瑟l p c c 不能很好地表征说话人的本质特征。 哈尔滨r 穰火学硕+ 学能论文 第3 章基于高斯混合模型的说话人识别 基予高斯混合模型的说话人识别方法是现代说话人识别技术的重要方法 之一,愁霄鼹一些识潮性能较姆熬系统大多都是基于这静方法建立起来的。 说话人识剐是模式识别的一种,丽离斯混合模型则是属于统诗模式谚 爨的一 种方法。人体的发音器官和过程都是很复杂的,擞接对人体的发音过程建立 模型显然是非誊困难的,健可以把声音豹产生抽象为一个随机过程f 实际上是 麸声音中提取窭酶特 菠参数在特征空闻中鲍分蠢是一个隧枫过程) ,这祥针对 发音过程就可以建立一个概率模型,而高斯混合模型就是这样的一个概率模 型1 1 4 1 。幽予它的性能较好、复杂度小、方法简单,所以被认为是当前最好的 说话入识剐模型之一。 3 1 高斯混合模型的概念 基予高斯混合模型的说话人识别的基本原理是对说话人集合中的每一个 说话人建立一个概率模型高薪混合模型,该概率模型孛翁参数是毒说话入 的特征参数分布决定的,因此表征了说话人的麝份。为了使处理简单,令每 一个说话人的概率密度函数形式相同,所不同只是涵数中的参数,这时说话 人模型燹| j 是在特定概率密度丞数形式下靛一组参数。硒究表臻,说话人的特 征分布并非严格服从某特定分布( 比如高斯分布) ,然而任何分布都可以漱 高斯分布的加权和来逼近,这样就得到了g m m 模型,它是由m 个多维高斯 分毒热投叠热褥裂1 1 5 l ,帮 丝 p ( x i ) 黜哆b 如) ( 3 一1 ) 其中,弼为d 维语音特征矢量;鼠( ) 为高斯混合模型分量,它是d 维高斯 分毒番数;氆鸯对蠹分量p a x , 麴期权系婺;m 冀离囊混合模型孛分量的个 数。对予魏( 五) 和a t ,它们满足以下式子 酏) 端士e x p 一垃型军竖盟( 3 - 2 ) ( 2 n - ) z | ; 。 哈尔溟1 :张大学硕士学佗论文 唾= 差 。一3 ) 由此可见,高斯混合模型的各个分量p , c x , ) 可由均值向量鸬和协方差矩 阵,来描述,故上述g m m 模型可由参数集五拳曦,熙,( f = l ,2 ,掰) 来表 示。 对于上述的g m m 模型,协方麓矩阵,可取为对角阵,即 i = d i a g c r i 0 2 , 1 2 ,_ 1 2 ( 3 4 ) 其中致2 承= 识l ,d - 1 ) 是高巍混合模型第i 个分量新对应的特征蠢量第k 维分量的方差。将式( 4 4 ) 代入式( 4 - 2 ) 可以得到 娟) 燃击e x 卅虻丛掣 ( 2 露2 酬三 = 骡d q 面1 酬一与学 p 5 ) 在说话天识别系统中,壶于每个说话天都赢其对应的离斯溉台模型来籀 述。所以当给定了某个人的训练语音后,下一步需要经过训练建立说话人模 型。在这墨使用了g m m 模型,为说话人建模就是估计g m m 模型的参数。 信计g m m 参数最常用酌一种方法是最大截然估计。最大徽然估计戆曩蔚是 在给定训练矢量集的情况下,寻找含适的模型参数名,使g m m 模型的似然 函数最大。假设可用的训练矢量集为x = 五,j c 2 ,x r ,则高斯混合模型的似 然函数蠢下式给爨 p ( x l a ) = i i p ( x , ,名) ( 3 - 6 ) 一般情况下,上式中似然函数p ( x x ) 和参数集旯之间存在很复杂的非 线性函数关系,不易用常规戆方法宣接找到极大点。餐是,参数磊可数通过 e m 算法迭代求得。e m 算法的基本思路是从一个初始模型开始,来估计一个 新的模型参数旯,使其满足 菝x ,毒) p ( x a )0 - 7 ) 哈尔滨下獠大学硕士学位论文 然后,蒜以丢茺裙始值按上式懿方法开始下一次迭代,迭筏最终会满足收敛 条件。 3 2e m 算法 e m ( e x p e c t a t i o n - m a x i m i z a t i o n 简称e m ) 算法是最大磐然( m a x i m u ml i k e l 。 i h o o d 简称m l ) 和最大后验概率( m a x i m u map o s t e r i o r i 简称m a p ) 估计的常用 方法,适合由非完整数据最优的估计概率模型参数。在d e m p s t e r ,l a i r d 和 r u b i n 对该算法进行介绍后,e m 算法开始被广泛应用。e m 算法常被用来嵇 计高斯混合模型参数f 1 6 1 。另外,e m 算法作为一种最大似然估计的通用算法, 也被用于估计h m m 簿其它模型参数。 e m 算法获穰始豹对模型参数的猜测开始,利建最大戳然的原嬲,迭代 地估计模型参数。每次迭代首先根据已知学习样本和当前参数估计( 最初值融 初始化得到) 得到未学习数据的分布,然后在假设前一步所得到的分布正确的 情况下,最大戳然地计算摸型参数,并不断重复妻舞蜀部最大。霹竣涯臻, 每一次迭代都增大或不改变似然度( 局部最大值孵,似然度傻将不会改变) 。 3 2 1 最大似然估计 最大叛然煞计是把待佶的参数看成固定但未知戆量,然盾求出能够使学 习样本蕊现概率最大的参数篷,著把它作为参数的估僮。把待估的p 令参数 五,如,以记作a = ( ,如,以) 假设服从该分布的样本黛 x = x i 憋,x 尹) 寄n 个样本,概率密度函数表示为覆并) 。求出2 的最 大戳然嵇计值,就是把p ( x 窿) 看成是磊的函数,并求鑫使其最大时酶蠢值。 因为假设各种学习样本是独立的从样本集中抽取得到,所以 r 职阳= n p ( x , l a ) = l ( j t i x ) 3 - 8 ) 1 = t 其中l ( , z l x ) 被称为对样本集x 的参数名的似然度或似然函数。似然度可看 作样本熊给定时,模烈参数五的函数。现在的问题是希望找到个五使l 的 蕾最大纯,帮找到盖。满足 哈尔滨丁= 獠大学硕士学何论文 2 a r g 峄三 | 并 ( 3 - 9 ) 为了分析方便,通常用l o g l ( , q x ) 既l o g p ( 爿协) 来分析。因为对数函数 是单调魏所瑷使对数似然函数最大酶名也会使原来翁戳然函数最大。 r l o gp ( x l , t ) = l o gp ( x , l 五)( 3 - l o ) i = 1 将式( 3 - l o ) 对a 求微分并令它为0 的求极值法,则可知五的最大似然估计必然 满是方程 a 弘 艿 a 天p r l o g 罗轼| 名) 嚣o 3 一1 1 ) f 毒l 根据概率密度函数p ( x l 互) 形式不同,最大似然闯题可以很简单也可以很 爨难。例瓣,如票尹( 瞻是一维蕈个的高薪凳森,粼曼= 积,拶2 ) 。透过取 l o g 三( 五i 搿) ) 的微分并令其为0 ,可以直接解出,o r 2 值 的估计值 r 黍娑睾鼍 ( 3 1 2 )娑= 己鼍释 工t = i 盯2 的估计值 。 r 拶2 = 睾编一雾) 2 $ 1 1 3 一 拶= 一 菱一露;。 j 甲一、 7、。 工i = l 但很多时候l o g 三( 旯l x ) 不易于分析,这时只能求助于更有效的方法。 3 2 2e m 算法漂理 e m 算法是一耪通震酶方法,它能够最大儆然缝倭计菲完整数据集的概 率分布模型参数。它是种迭代算法,每一次迭代都包括两个步骤:计算期 望僮( e x p e c t a t i o n ) 和最大化期望值( m a x i m i z a t i o n ) ,所以称为e m 算、法【1 7 1 。 e m 算法有两种主要酶应用,种应震是震子估计丢失斡数据。枣予观 3 2 哈尔滨丁程大学硕七学位论文 测过程中的闯题或限制,数据集中有一些数据丢失了。铡蟊,获得的一副图 像的某些缘素点的值藏失了,就属于这种情况。另种应用是用于估计概率 分布的参数。在最大似然估计中,童接对似然函数求极大值往往很困难。但 是,如果假设某些隐藏的或没有观测到的数撵存在霹叛篱纯戳然函数,使利 用似然函数求极大值成为可能,这时可使用e m 算法估计概率分布的参数, 这里e m 算法的应用主要是后一种。 现在假设羔是蕊测到敕祥本集,服欲菜释概率分布毒,称髫失菲完全样 本集。这璺假设一个完全样本集z ( x ,y ) 存在,则有联合密度函数 ( z l 旯) = p ( ,y l a ) = p ( y i x ,2 0 p ( x a ) ( 3 - 1 4 ) 对这个薪的概率密度蚕鼗,可以定义一令新豹似然丞数 上( 五 z ) = l g c x ,聊= p ( x ,y 1 名) ( 3 - 1 5 ) 式( 3 1 5 ) 中的x 和a 是常量,假设y 是隐藏信息,是未知的,随机的,服从概 率分布允的。 e m 算法首先要做的是在已知并和名的情况下,找到完全样本集z 的对 数似然度函数l o g p ( x ,y i z ) 的数学期望,定义为 囊名,扛) 一e i o gp ( x ,r t , 乏) l x ,盖扣】p 一16 ) 这里的兑( 卜1 是当前参数的估计,用于计算期望。名是新的参数值,由五( 卜” 增加q 褥到,上式中,x 和2 “。1 是常量。 , 上面对数学鬻望的估计嘲徽e m 算法酶e 步,注意到最数戮叁意有蕊 个参数,第一个参数a 最终被最大似然的优化,第二个参数用来计算数学期 望。 e m 算法懿第二步称隽鹾步,用来最大诧嚣步褥到黧数学期望。絮下式 五。踹a r g 烈允,五卜1 ) ( 3 1 7 ) 以上两个步骤根据需要将不断藿复,可以证明,每一次燕复都使似然值 增大,并虽算法麓傈证收敛予似然函数的焉部最大点溺。 哈尔滨1 :襁大学硕十学位论文 3 2 。3 用e m 算法健计g m m 昀参数 在计算机模式识别中,g m m 参数估计是e m 算法用的最多的应用之一。 g m m 的概率密度函数为 联菇陋) = 噶露( x b ) 一l 龄 式( 3 - t s ) q a 五= ( q ,五,五,如) 。,有燃t ,并且每个高斯概率密 度模型的参数为五。p ( x ) 由m 个高斯混合模型按照混合系数伐混合得到。 菲完整样本集菇的对数儆然遗数表示蠹 i o g l ( t l x ) = l o g h p ( x , l t ) = l o g ( 哆日) ( 薯l 穆) ( 3 1 9 ) 其中,f 为x 中样本个数,m 为混合模型中的高斯模型混合数。在式( 3 1 9 ) 孛包含对数熬帮,该似然度蠡数难以求极蓬。然 嚣,懿票考虑x 是毒 完整酌 情况,假设存在未观测到的数据项y 瓴 r 。t ,y 的值表明每个x 集中的样 本是由混合模型的哪个单个模型产生的,这时,似然函数的表达式将简化。 霰设髯l ,乏,m 。如蒙第f 个样本交潼合摸型串魏第k 个模型产生,羹鞋取 y t = k 。7 1 入y 后,完整样本集的似然函数可以骂为 l o g l ( t l x ,d = l o g ( p ( x ,y l a ) ) = l o g ( 巩) ( 一l 九) ( 3 - 2 0 ) 对于惑舞潼会模型,掇据e m 算法熬e 步计算芏式议然螽数豹数学期望 q ( 2 ,五皇) 茹e 1 0 9 ( l ( a x ,玢) 】( 3 - 2 1 ) 上式可展开为 q ( a ,盖) = l o g 辑g | 鼍,冀嚣) + l o g ( p ,( x , 1 2 , ) ) p ( 1 l x l ,戈蠡) ( 3 - 2 2 ) 其中,l e l ,2 ,m ,p ( i i x t ,毒茬) 表示在已知样本集合和模型参数情 况下,某样本西属于混合模型中第1 个模型的尉验概率。由下式计算,后代 表第k 次循环 p 馥g | 本,名嚣) 搿# 尘竺要区边( 3 - 2 3 ) 。c j ( k ) p j ( x i ,t o ) 在e m 算法静醚步,需要找到在使骸然螽数最大诧煞模型参数。由主述 哈尔滨下稃大学硕十学位论文 似然丞数q ( 4 ,) 的展开式( 3 - 2 2 ) 看出,该式由两顼相加褥到,第一顼只跟q 有关,后项只跟疋有关。最大化前一项可得到新的混合系数估计,最大化 后一项,可得到新的均值和协方差矩阵估计,新的参数为 加权系数 r q 膳= 亭p 砷( i x , ,z ) ( 3 - 2 4 ) jt = l 均僮矢量 其中 方差 ,( 七+ 1 ) 一 m r p 仕( i x , ,五) 鼍 !:j【。一 r 轴( i x , ,五) t = l ( 3 2 5 ) 7 p ( i x , ,五) ( 磁一玩“1 ) 2 2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论