(信号与信息处理专业论文)说话人识别鲁棒性增强研究.pdf_第1页
(信号与信息处理专业论文)说话人识别鲁棒性增强研究.pdf_第2页
(信号与信息处理专业论文)说话人识别鲁棒性增强研究.pdf_第3页
(信号与信息处理专业论文)说话人识别鲁棒性增强研究.pdf_第4页
(信号与信息处理专业论文)说话人识别鲁棒性增强研究.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

(信号与信息处理专业论文)说话人识别鲁棒性增强研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

话人识别鲁棒性增强研究 摘要 说话人识别又称声纹识别,是语音信号处理中的重要组成部分,是 当前的研究热点之一。说话人识别技术即是一种基于说话人的声音鉴权 说话人身份的技术。本文介绍了说话人识别系统的基本原理和研究现状, 着重就如何提高与文本无关的说话人识别系统的鲁棒性展开深入研究。 本课题对目前主流的高斯混合模型和支撑向量机两大系统进行了详细的 讨论,并从特征域、模型域、得分域等不同角度对说话人识别鲁棒性增 强技术进行了系统的探讨,并在此基础上提出了基于高斯混合模型超矢 量的支撑向量机系统及其测试得分归一化,提出了基于交叉相似度测量 的说话人自适应的得分归一化和对称得分技术。 本课题在剑桥开发的开源的h t k 语音识别工具基础上构建说话人识 别确认系统,系统最终采用高斯混合模型超矢量的基于广义线性内核的 支撑向量机系统,选用感知线性预测静态及动态参数、r a s t a 滤波、特 征补偿及变换、自适应模型、得分归一化、噪声因子消除等技术。通过 多种说话人识别鲁棒性增强技术结合运用,课题整体系统取得了良好的 识别性能,已达到美国标准与技术研究院( n i s t ) 公布的2 0 0 6 年及2 0 0 8 年评测结果水平前列。 本课题研究主要针对电话信道和麦克风信道下的说话人识别确认系 统,但本课题所涉及的许多技术及思想对于其他条件下的说话人确认系 统、说话人辨认系统、乃至语音识别系统都有参考、借鉴及应用价值。 关键词:说话人识别文本无关高斯混合模型超矢量支撑向量机 交叉相似度测量鲁棒性增强 r e s e a r c ho nt h er o b u s t n e s s e n h a n c e m e n ti nt h es p e a k e r r e co g n i t i o n a b s t r a c t s p e a k e rr e c o g n i t i o n ,a l s o k n o w na s v o i c e p r i n tr e c o g n i t i o n ,i s a l l i m p o r t a n tb r a n c ho fs p e e c hs i g n a lp r o c e s s i n ga n di so n eo ft h em o s tp o p u l a r r e s e a r c hf i e l d sa b o u ts p e e c h s p e a k e rr e c o g n i t i o ni st h eo n et h a ta u t h o r i z e s t h es p e a k e ri d e n t i t yb a s e do ni t sv o i c eo rs p e e c h n i sp a p e ri n t r o d u c e dt h e b a s i cp r i n c i p l eo fs p e a k e rr e c o g n i t i o na n dr e s e a r c hh i s t o r ya n ds t a t u sq u o ,a n d m a i n l yf o c u s e so nh o wt o e n h a n c et h er o b u s t n e s so ft h et e x t - i n d e p e n d e n t s p e a k e rr e c o g n i t i o n t w oo ft h ed o m i n a t i v em o d e l i n gm e t h o d s :g a u s s i a n m i x t u r em o d e la n ds u p p o r tv e c t o rm a c h i n ew e r ed i s c u s s e d v a r i o u sk i n d so f t e c h n o l o g i e sf o rt h er o b u s t n e s se n h a n c e m e n tw e r ea n a l y z e di n t h ef e a t u r e , m o d e la n ds c o r ed o m a i nr e s p e c t i v e l y t h i sp a p e rp r o p o s e dac o m b i n e ds v m s y s t e mu s i n gg m ms u p p e r v e c t o ra n di t st e s ts c o r en o r m a l i z a t i o n ,a n dac r o s s s i m i l a r i t ym e a s u r e m e n ta n di t su s ef o rt h es c o r en o r m a l i z a t i o na n ds y m m e t r i c s c o r i n g i nt h er e s e a r c h ,t h ep r e v a l e n ta n do p e n s o u r c es p e e c hr e c o g n i t i o nt o o l k i t d e v e l o p e db yc a m b r i d g eu n i v e r s i t yi su s e dt ob u i l dt h ev e r i f i c a t i o ns y s t e m t h ef i n a ls y s t e me m p l o y st h ep l pf e a t u r ep a r a m e t e ra n dv a r i o u st e c h n i q u e s , s u c ha sr a s t af i l t e r i n g ,f e a t u r ec o m p e n s a t i o na n dt r a n s f o r m a t i o n ,m o d e l a d a p t a t i o n ,s c o r en o r m a l i z a t i o na n dn u i s a n c ea t t r i b u t ep r o je c t i o n ,w e r eu s e d t o o p t i m i z e t h e s y s t e m a st h ee x p e r i m e n t a l r e s u l t ss h o w n ,t h ef i n a l r e c o g n i t i o ns y s t e mp e r f o r m e dw e l la n da p p r o a c h e dt h es t a t e o f - t h e - a r tl e v e l a c c o r d i n gt ot h er e s u l t so fn i s ty e a r2 0 0 6a n d2 0 0 8s p e a k e rr e c o g n i t i o n i i e v a l u a t i o n sa n n o u n c e db yt h en a t i o n a l i n s t i t u t eo fs t a n d a r d sa n dt e c h n o l o g y i nt h i s p a p e r e x p e r i m e n t s w e r e m a i n l y c o n d u c t e do nt h e t e x t i n d e p e n d e n ts p e a k e r v e r i f i c a t i o n s y s t e mu n d e rt h et e l e p h o n i ca n d m i c r o p h o n i cc h a n n e l s b u ti ti sw o r t h w h i l et op o i n to u tt h a tm a n yt e c h n i q u e s a n dm e t h o d sa r ev a l u a b l ef o rt h er e f e r e n c ea n da p p l i c a t i o nb yo t h e rs p e a k e r v e r i f i c a t i o nt a s k s s p e a k e ri d e n t i f i c a t i o na n de v e ns p e e c hr e c o g n i t i o n k e yw o r d s :s p e a k e rv e r i f i c a t i o n ,t e x t i n d e p e n d e n t ,g a u s s i a nm i x t u r e m o d e ls u p p e rv e c t o r , s u p p o r tv e c t o rm a c h i n e ,c r o s ss i m i l a r i t ym e a s u r e m e n t , r o b u s t n e s se n h a n c e m e n t u l 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。 尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人 已经发表或撰写过的研究$ 果,也不包含为获得北京邮电大学或其他教育机构的学位 或证书而使用过的材料。与我。1 、工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:查型l日期:鱼盗盈堕旦 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国 家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以 公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇 编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在年解密后适用本授权书。非保密论文注 释:本学位论文不属于保密范围,适用本授权书。 本人签名: 导师签名: 1 j 、) 日期:四筮鱼坚旦 醐:母相瑚蹲 北京邮电大学硕士研究生学位论文第一章绪论 1 1 研究背景 第一章绪论 随着科学技术的迅猛发展,信息化的不断深入,计算机、网络已渐渐改变了世界、 国家、个人的生存和生活方式。与此同时,对于计算机、网络日益增加的、极其紧密 的依赖唤起了对于安全性的呼声一浪高过一浪。随着科学技术的发展,越来越多的生 物特征信号以其唯一性、永久性、理论上极高的防伪能力被应用于各种生物识别系统 中。在这些生物特征中,目前应用最广的有指纹、声音、虹膜和人脸等。此外,可用 的生物特征还有视网膜、气味、血管纹路、d n a 、签名、步态、耳形等等。声音作 为一种引人注目的生物特征,有以下两个优势:首先,声音是一种人们自然发出的信 号,其采集不会对人体带来任何伤害,消除了人们的顾虑;有些应用( 如基于电话的 引用) 中,语音是主要的通信媒质,因而用户不会感到提供语音数据是一个累赘的过 程。其次,语音的采集非常方便,对于基于电话的应用,公用电话系统提供了几乎到 处存在的电话网络采集并传送语音信号,不需要专门的采集设备和传送语音的网络; 即便不是基于电话的应用,也只需要声卡和麦克风即可,代价低廉。 基于声音的生物特征识别称为说话人识别,也叫声纹识别,是基于说话人的声音 鉴权说话人身份的技术。说话人识别按识别任务可以分为两类:说话人辩认 ( s p e a k e ri d e n t i f i c a t i o n ) 和说话人确认( s p e a k e rv e r i f i c a t i o n ) 。前者用 以判断某段语音是若干人中的哪一个人所说的,是“多选一 问题;而后者用以确定 某段语音是否是声言的某个说话人所说的,是“一对一的判别问题。 对说话人识别的研究始于2 0 世纪3 0 年代。早期工作主要集中在人耳听辨和探讨 听音识别的可能性方面。随着研究手段和工具的改进,研究工作逐渐脱离了单纯的人 耳听辨。b e l l 实验室的l gk e s t a 目视观察语谱图进行识别,提出“声纹 ( v o i c e p r i n t ) 的概念。之后,电子技术和计算机技术的发展,使通过机器自动识 别人的声音成为可能。b e l l 实验室的s p r u z a n s k y 提出了基于模式匹配和概率 统计方差分析的说话入识别方法,引起信号处理领域许多学者的注意,形成了说话人 识别研究的高潮,其间的工作主要集中在各种识别参数的提取、选择和实验上,并将 倒谱和线性预测分析等方法应用于说话人识别。7 0 年代末至今,说话人识别的研究 重点转向对各种声学参数的线性或非线性处理以及新的模式匹配方法上,如动态时间 北京邮电大学硕士研究生学位论文 第一章绪论 规整、主成分分析、隐马尔可夫模型、神经网络和多特征组合等技术。 随着信息社会化发展,说话人识别作为具有语音识别与理解功能的智能人机接 口,是新一代计算机的重要组成部分,其应用领域广泛:在司法领域中,可以帮助对 嫌疑人的查证,对嫌疑人的电话语音跟踪等;在保安领域中,可以用于机密场所的进 入控制、机要设备的身份核查、电话银行、电话购物、信息服务、计算机远程登陆等: 在医学领域,如使识别系统仅响应患者的命令,则可实现对假肢的控制等;在玩具、 家用电器等领域也有广泛的应用前景。此外,说话人识别技术还可帮助提供更加个性 化的人机交互界面,提供更人性化、更贴心的服务。 针对以上领域中的许多商用系统已投入使用。如a t & t 应用说话人识别技术研制 出智慧卡( s m a r tc a r d ) ,已应用于自动提款机。欧洲电信联盟在电信与金融结合领 域应用说话人识别技术,于1 9 9 8 年完成了c a v e 计划,并于同年 p i c a s s o ( p i o n e e r i n g c a l la u t h e n t i c j 气t i o nf o rs e c u r es e r v i c eo p e r a t i o n ) 计划启动,在电信网上完成了说话人识别。同时,m o t o r o l a 和v i s a 等公 司成立了v - c o m m e r c e 联盟,希望实现电子交易的自助化,其中通过声音确定人 的身份是此项目的重要组成部分。其他的一些商用系统还包括ti t t 公司的 s p e 创 ( e 砌江y 、k e y w a r e 公司的v o i c e g u a r d i a n 、t - n e t i x 公司的s p e 蛐江z 等。 但是就现今的各商用系统而言都是基于特定文本的说话人识别的应用,这样可以 极大地增加系统的性能,使实现的难度降低,但同时也使系统的灵活性受到了非常大 的限制,极大地限制了广泛应用。目前,与文本无关的说话人识别引起了人们的广泛 关注,激起了研究的热潮。面对语音纷繁复杂的使用环境、变化各异的说话人特性, 如何提高与文本无关的说话人识别的鲁棒性是说话人识别亟待解决的一大难题。本课 题将针对说话人识别鲁棒性增强技术展开系统深入的研究。 1 2 可行性分析 随着人们对安全性和操作简单化的要求日益增加,传统的通过文本密码进行身份 认证的方式已经不能满足人们的需求:首先,文本密码难以记忆,给用户带来了诸多 的不便;其次,密码容易被不法分子窃取,造成很大的损失。而声音是一个人的生理 特征,不会有使用起来不方便的问题,同时也不易被他人模仿。因而,使用声音进行 身份验证是一个很有实用价值的研究方向。 说话人识别,从根本上说是一个模式识别的问题,主要需要解决的问题是特征的 2 北京邮电大学硕士研究生学位论文第一章绪论 选取和分类器的设计。说话人识别是语音信号处理的一个重要分支,它是建立在统计 学、信号处理和模式识别等学科的基础之上的,因此统计学、信号处理和模式识别领 域的研究成果给与文本无关的说话人识别提供了坚实的理论依据。近几十年来语音识 别的研究成果给说话人识别提供了很多值得借鉴的地方,如特征提取、模型的建立等。 经过研究人员们十余年的努力,目前与文本无关的说话人识别技术已经有了很大的发 展。 1 3 本论文结构安排 本课题论文主要分为六部分:第一部分首先对说话人识别技术的背景、现状及应 用作简要介绍,并对文章结构列出大体纲要。第二部分主要阐明说话人识别基本原理。 第三部分系统地探讨说话人识别鲁棒性增强的各项技术。第四部分对本课题最终系统 技术做出阐述。第五部分对所设计系统的相应实验结果做一展示分析。最后一部分对 本文研究工作做总结展望。 北京邮电大学硕士研究生学位论文第二章说话人识别基本原理 第二章说话人识别基本原理 说话人识别又称声纹识别,可以看作是语音识别的一种。它和语音识别一样,都 是通过对所收到的语音信号进行处理,提取相应的特征或建立相应的模型,然后据此 做出判断。说话人识别和语音识别的区别在于,它并不注意语音信号中的语义内容, 而是希望从语音信号中提取出人的特征。从这点上说,说话人识别是力图挖掘出包含 在语音信号中的个性因素,而语音识别是力图从不同的人的词语信号中寻找共同因 素。在处理方法上,说话人识别力图强调不同人之间的差别,而语音识别则力图对不 同人说话的差别加以归一化【l l 。 说话人识别问题的解决涉及到人的发音器官、发音习惯、声学原理、语言学知识、 自然语言理解等多方面的内容。因此,说话人识别是交叉运用心理学、生理学、数字 信号处理、模式识别、人工智能等知识的- f 3 综合性研究课题。 说话人识别技术按其识别任务可以分为两类:说话人辨认( s p e a k e ri d e n t i f i c a t i o n ) 和说话人确认( s p e a k e rv e r i f i c a t i o n ) 。前者用以判断某段语音是若干人中的哪一个人所 说,是“多选一 问题;而后者用以确定某段语音是否是声言的某个说话人所说,是 “一对一”的判别问题。 根据识别对象的不同,说话人识别又可分为与文本有关( t e x t - d e p e n d e n t ) 和与文本 无关( t e x t - i n d e p e n d e n t ) 。与文本有关的说话人识别技术,要求说话人提供发音的关 键词或关键句子作为训练文本,而识别时也必须按相同的内容发音。而与文本无关的 说话人识别技术,不论是在训练时还是在识别时都不规定说话内容,即其识别对象是 自由的语音信号。两者相比较而言,与文本无关的说话人识别的实现要困难得多,由 于其使用环境无法控制,因而必须在自由的语音信号中找到能够表征说话人信息的特 征和方法,建立其说话人模型的困难就比较大。当然与文本无关的说话人识别具有用 户使用方便,可应用范围较宽等优点【z 】。 本课题主要针对与文本无关的说话人识别理论的研究及系统的设计。 说话人识别系统的目标是从语音信号中提取特征参数,对目标说话人个性化建 模,基于所建模型从说话人测试语音中鉴权测试人身份【3 】。 图2 1 是说话人识别系统的基本框图。 图2 1 中与文本无关的说话人识别系统总体上可分为两个工作阶段,即:训练阶 段和测试阶段。训练阶段主要包括特征提取,模型建立。测试阶段主要包括特征提取, 比较,判决。 4 北京邮电大学硕研究学位* 文 镕= $ 说话人识别基本原g 21 特征提取 训练语音 测试语音二霹嚣 一睡 臣吵二圳 回黼鬈 图2 - 1 说话人识别系统的基本框图 语音信号中含有丰富的与说话人相关的信息,如何将这些信息提取出来就成为说 话人识别的关键。特征提取就是完成这项工作的,它对语音信号进行分析处理,去除 冗余信息,获取与说话人相关的信息。特征提取一般包括消除静音、参数提取、信道 补偿、特征变换等环节。常用的特征参数一般有线性预攫愫数l p c 、m d 倒谱系数 m f c c 、感知线性预测倒谱系数p l p ,这些都将在下文中逐一详细介绍。 21 1 消除静音 消除静音是特征提取的第一步,用于消除说话人语音中的非话音成分,以便更好 地从语音中提取与说话人相关的信息,也减少了后续处理的计算量。有许多语音激活 检测方法可| = 工用于消除静音常用的消除静音方法有基于能量的方法和基于基音 ( p i t c h ) 的方法,都可以达到较好的较果。另外,对于双话路电话信道的对端回波也 应被消除,否则会影响模型的训练和最终的判决。目前常用的回波抵消方法通常是基 于预测的算法。到目前为止彻底的消除静音的方法还有待于进步研究。语音中的 非话音成分会一定程度地影响| 兑话人识别的性能,不过这种影响也可以通过复杂的建 模方法来克服。 212 参数提取 特征参数提取是指将语音信号转换为一组特征向量。作这种变换的目的是用一种 更加紧凑、适合于进行统计建模及计算距离的表示方法柬表征语音信号。常用的语音 特征有时域特征( 如过零率、能量等) 、频谱特征、倒谱特征等。在说话人识别中, 一般都选用倒谱特征来表征语音信号。倒谱一般用语音信号的频谱模值取对数柬表 示,引入倒潜的目的在于将信源的激励与信道的传递函数分离开来。用x ( n ) 表示信源 北京邮电大学硕士研究生学位论文第二章说话人识别基本原理 的激励,| i 伽) 表示信道的传递函数,则在不考虑信道加性噪声的情况下,经过信道传 输后的语音信号s ( n ) 可以表示为x ( n ) 和h ( n ) 的卷积: s ( 玎) = x ( 以) l l | ( 拜) 型e ( 2 - 1 ) 作傅立叶变换后,得到s ( w ) 、x ( w ) 和h ( w ) 的关系为: s ( w ) = x ( w ) 日( w ) 式( 2 2 ) 在信号处理中,希望得到的是x ( w ) ,尽可能减小( w ) 的影响。但在时域和频 域,信源的激励和信道的传递函数是非加性的关系,难以消除信道的传递函数对信源 的影响。于是引入倒谱的概念,即对频谱取对数,则式( 2 3 ) 变为: l o g s ( w ) = l o g x ( w ) + l o g h ( w ) 式( 2 3 ) 这样,信源与信道因素的关系成为加性,易于将信源激励分离出来。 常用的特征参数一般有m e l 倒谱系数m f c c 、线性预测系数l p c 、感知线性预测 倒谱系数p l p 。这些特征参数都试图从输入语音信号的频谱形状中扑捉说话人的声道 传递函数的相关信息【4 】。 2 1 2 1m f c c 倒谱系数提取 m f c c 倒谱系数是对短时语音的频谱作非线性变换后得到的,这种非线性变换接 近听觉系统对声音的频响。其求解框图如图2 2 : 语 倒 图2 - 2 倒谱系数求解框图 由于语音信号的高频部分在产生和传输的过程中容易受到衰减,因而语音信号首 先通过一个预加重滤波器对高频部分进行加重,该滤波器表达式为: x p ( t ) = x ( f ) 一a x ( t 1 ) 式( 2 _ 4 ) 其中a 的取值在0 9 5 , 4 ) 9 8 之间,本课题中选用的是0 9 7 。 由于语音信号具有短时平稳的特性,因而对语音信号的处理一般是分帧进行的。 分帧的方法是:首先对语音信号进行加窗,窗长通常选在2 0 m s 3 0 m s 之间,相邻两 6 北京邮电大学硕士研究生学位论文 第二章说话人识别基本原理 窗数据之间有重叠,通常每一帧长度选为l o r e s 。根据信号处理的理论,为了消除频 谱的边缘效应,常用的窗是汉明窗或哈明窗,因为在频域,语音信号的谱和窗的谱是 相卷积的关系,汉明窗和哈明窗有较好的选择性,可以避免频谱泄漏。图2 3 给出了 对语音信号进行段时分析的示意图: 图2 毒语音信号短时分析示意图 语音信号加窗后,用f f t 算法得出语音的频谱,f f t 的点数一般取2 的幂次, 比一窗内的语音样点数要大。 f 0 后 以m 一1 】 j 丽意一 f i r e - 1 _ k 九m + 1 】 这种滤波器用于计算中心频率附近的平均频谱,见图2 - 4 o 】贝1 】九2 】 3 】t 4 】 5 】t 6 】 7 】 图2 - 4 用于计算m f c c 的三角滤波器 令石和五分别表示滤波器组的最低和最高频率( 单位为h z ) ,只为采样频率,膨 为滤波器的数目,为f f t 的点数。则中心频率t i m 在m e l 频率坐标上呈均匀分布: 7 北京邮电大学硕士研究生学位论文 第二章说话人识别基本原理 j i m ,= ( 筹 曰q ( b c 彳,+ 历皇骅) 式c 2 6 , 这里m e l 频率坐标表示为: b ( f ) = 1 1 2 5 1 n ( 1 + f 7 0 0 )式( 2 7 ) b 。为其反函数,即 曰1 ( 6 ) = 7 0 0 ( e x p ( b 11 2 5 ) - 1 )式( 2 8 ) 然后通过滤波器后,输出的对数能量: 研历】- i n i l x , d k 1 2 以圳, o m m 式( 2 9 ) 最后对对数能量作d c t 变换,即可得到m f c c 参数: c 【刀 - s m c o s ( n n ( m + 1 2 ) m ) 0 n m 式( 2 - 1 0 ) 通常,m 取2 似0 之间的一个值。m f c c 参数对噪声有较好的鲁棒性,目前应用 得比较多。 2 1 2 2l p c 倒谱参数提取 l p c 分析基于产生语音的线性模型,常使用的线性模型是自回归( 创u 似) 模型【5 1 。 语音的产生器官有以下四个部分:( 1 ) 声门激励。对于浊音,可以认为是一串脉 冲;对于清音,可以认为是白噪声。( 2 ) 声道( 3 ) 咽腔( 4 ) 唇。这四个部分都可以用 一个滤波器来表示:声门激励可以用一个低通滤波器来表示,声道可以用一个a r 滤 波器来表示,咽腔可以用一个a r m a 来模拟,唇可以用一个m a 滤波器来模拟。因 而,从总体上来说,整个发声的器官可以用一个a r m a 滤波器来模拟,该滤波器的 系数即可以用来表征语音信号。为了简化求解滤波器系数的过程,通常将a r m a 滤 波器简化为a r 滤波器。 l p c 分析的实质是求解a r 滤波器的系数,该求解是针对每一段加窗后的语音数 据,采用d u r b i n 递归算法或其他算法,得出一组l p c 系数。d u r b i n 算法的流程如下 ( 上标表示第几次迭代) : ( 1 ) 毛= r ( 1 ) r ( o ) ( 2 ) 口:d = 毛 ( 3 ) 五= ( 1 一砰p ( o ) ( 4 ) 令m = 2 ( 5 ) k m = 【厂( ,1 ) 一孝”n r ( m - i ) e 。一, 北京邮电大学硕士研究生学位论文第二章说话人识别基本原理 ( 6 ) 口? - k ( 7 ) 西帕= g ”n k 啦n ,i = l 2 ,m - 1 ( 8 ) e = ( 1 一) 一。 ( 9 ) m p ? 是,则令m = m + l ,转入( 5 ) 继续进行: 否,停止计算, 口f 朋,气a 2 p ) ,口) 即为预测结果。 其中,互是第i 阶的能量,而勺是第i 阶的反射系数,当且仅当l 岛i 1 时,模型才 是稳定的。 有了l p c 系数,就用下面的公式可以计算倒谱系数f l 】: c o = l n c r 2 勺= + 各”- l i 、f i kj q 口。圳1 sm p , 式( 2 一1 1 ) = 蓦( 砉) 彬m 其中仃2 代表l p c 模型的增益,是l p c 系数,p 是l p c 系数的个数。l p c 倒谱求 解的框图如图2 5 : 图2 - 5l p c 倒谱求解的框图 2 1 2 3p l p 倒谱参数提取 感知线性预测p l p ,是采用d u d 3 i n 算法来计算l p c 系数。但与标准l p c 求法不 同的是,求取p l p 时的自相关系数不是由时域的信号样值直接求出的,而是对功率 谱求d f t 得到的【s 1 。求解框图如图2 - 6 : 图2 - 6p l p 倒谱求解的框图 首先,同求m f c c 参数一样,对短时信号作f f t ,用三角滤波器处理后得到功率 9 北京邮电大学硕士研究生学位论文 第二章说话人识别基本原理 谱;其次,将功率谱乘以一个响度曲线,并开三次方,作谱的压缩;再对功率谱作i f f t , 得出自相关系数;最后用d u r b i n 算法得出l p c 系数。 实验证明,p l p 抗噪能力优于m f c c 和l p c 。本课题中采用p l p 参数。 2 1 2 4 差分系数 倒谱系数求出以后,可以在原有的静态参数基础上加入一些动态信息,g p 倒谱系 数随时间的变化,用以捕获说话人语音中的瞬时变化特性。常用的差分系数有一阶差 分系数a 和二阶差分系数信息【6 】,目前,三阶差分系数也常被采用: 肾孥 柳2 ) 蚧擎篆掣 蛔3 , 课题中取k = 2 ,大量的实验证明,将静态信息和动态信息结合起来,可以使系 统的性能有很大的提高。 2 2 建模与分类方法 2 2 1 说话人模型选择 说话人识别系统需要模型具备如下三个条件:l 、具有一套完整的建模理论;2 、 模型具有通用性,不会对训练数据形成过匹配,而是也能适合新的测试数据;3 、模型 表示紧凑,尽量节省存储空间和计算资源。符合上述条件的建模方式有很多,目前比 较流行的说话人建模技术包括:模板匹配、最近邻法、神经网络、隐马尔可夫模型p j 等。 模板匹配:此方法中,说话人模型为一系列来自一个固定语句集合的特征向量组 成的模板。在测试阶段,测试语句特征向量与说话人模板进行比较计算出一个匹配得 分,依据匹配得分做出判决。此方法通常只应用于与文本相关的说话人识别应用中。 最近邻法:此方法中并不建立明确的模型,而是保留所有说话人相关的训练特征 向量用以表征此说话人特性。在测试阶段,匹配得分为测试语句与声称说话人模型训 练向量集合中k 个最相近的特征向量的累积距离和。为限制存储空间和计算量可对 每个说话人模型训练向量集作适当裁剪。 神经网络:神经网络是一大类建模方式,其具体的建模具有许多种形式,例如: 多层感知模型、径向基函数等。神经网络建模最大的特点是说话人模型明确地判别测 1 0 北京邮电大学硕士研究生学位论文第二章说话人识别基本原理 试语句是否属于声称说话人,而不是一个概率得分。神经网络模型训练计算量较大并 且模型有时会表现出过训练的情况。 隐马尔可夫模型h m m :h m m 模型可以建模特征向量的短时渐变特征并且可以 高效地建模特征向量的统计变化,h m m 模型提供被训练说话人发声方式的统计特征 表示。在训练阶段,h m m 模型参数可对训i 练特征向量由成熟的前向后向算法迭代估 计获得。在测试阶段,测试语句针对声称的说话人模型计算似然得分,由似然得分与 预先设定的门限做出最终判决。对于与文本相关的说话人识别系统的应用,整个短语 或音素可由从左向右的多状态h m m 模型表征。对于与文本无关的说话人识别系统的 应用,单状态的h m m 模型( 通常称作高斯混合模型g m m ) 表现出非常好的性能。 在现今与文本无关说话人识别领域,高斯混合模型g m m 和支撑向量机以其突出 的性能成为目前两大主流。本课题中也采用基于似然比判决的g m m 模型对系统建模 和基于支撑向量机的模型,并将讨论此两种方法的结合应用。 2 2 2 基于似然比判决的高斯混合模型g m m 对于说话人确认( s p e a k e r v e r i f i c a t i o n ) 任务,给定一段语音y 和假定的说话人s , 其任务是检测y 是否是s 发出的。对于说话人辨认( s p e a k e ri d e n t i f i c a t i o n ) 任务,给 定一段语音】,和一说话人集合,其任务是辨别y 是集合中哪个说话人说出的。课题中 只讨论单个说话人的说话人确认任务,即,中只有来自一个说话人的语音。但值得指 出的是,对于多个说话人的说话人确认任务,以及说话人辨认任务均可以在单个说话 人的说话人确认任务基础上加以改进实现。 单个说话人确认可以归于对两个假设进行假设检测【7 1 ,两个假设为: h o :y 由假定的说话人s 发出, h 1 :】r 不是由假定的说话人s 发出。 对这两个假设进行判决的最好方法是采用似然比( l r ) ,即 船p ( r 鬻 埘4 , ih 1 ) i 0 接受 a 0 的所有点及边界区域点的线性 组合。 通过使用内核( k e r n e l s ) 可以将非线性边界问题转化为线性边界问题求解。事实 上内核核函数定义了一个比当前特征空间维数更高的特征空间,原特征空间的每个 数据点都对应于核函数空间的某一簇。核函数空间下的最优决策超平面与簇相交,该 超平面映射到原空间中形成一个非线性边界。原空间特征向量间的点积可以简单地用 其对应在核函数空间的向量簇的点积代替以实现原空间到核函数空间的映射。核函数 空间的向量簇的点积通常由核函数来定义,其形式通常为原空间对应特征向量间的某 个函数。 多项式内核是广泛使用的内核函数之一,其函数形式为 k ( 玉,石,) = ( 薯x j + 1 ) 4 式( 2 - 4 4 ) 公式( 1 3 ) d f ln 为多项式的阶数。则线性不可分数据集情况下的公式( 2 4 2 ) 式转化为 吵( q + 口,乃乃k ( i i ) ) 式( 2 - 4 5 ) 。 i i j o q c ,f 片= 0 内核是支撑向量机的核心部分,内核的选取及实现方法将极大地影响支撑向量机 的性能及计算复杂度。 广义线性判别序列内核是目前在说话人识别中广泛采用的一种支撑向量机内核, 是由w i l l i 锄m c a m p b e l l 于2 0 0 2 年提出的f 1 2 】,可达到良好的性能。广义线性判别序 列内核的序列内核特性可以提供对测试语音整体上的数值比较而不是各帧概率的平 均。另外广义线性判别序列内核还有许多其他的优点:第一、它使用原空间向核函数 空间的显示转换,可使说话人模型仅用所有支撑向量的一个系数向量表示,大大减少 了说话人模型的大小。第二、它保持了广义线性判别式可用最小均方误差准则求解的 较低计算复杂度特性。 2 2 3 1 广义线性判别打分 线性判别函数通常具有如下形式 厂( 石) = w - i 6 ( 工)式( 2 - 4 6 ) 公式( 2 - 4 6 ) 中6 ( ;) 为输入特征向量;在更高维核函数特征空间的映射形式。我们采 用多项式作为广义线性判别式,则b ( x ) 为输入特征向量x 的n 阶多项式扩展形式。例 如,设原空间中输入特征向量;= 【五,x 2 ,毛】,其二阶多项式扩展形式为1 3 1 6 ( 为= n 而,五,x 3 ,彳,五而,五毛,专,而玛,毫】式( 2 4 7 ) 北京邮电大学硕士研究生学位论文 第二章说话人识别基本原理 公式( 2 4 6 ) 中万为分类器参数向量,其为决策超平面法向量,建模说话人模型。 该决策超平面法将整个说话人空间分成两大区域,一面为目标说话人区域,另一面为 冒名者说话人区域,如图2 7 所示: 母 覃 母 s p e 球盯 图2 7 分类器决策起平面示意图 已知一说话人模型品,此说话人出现概率为p 沏= s p k ) ,对于任一输入特征向量 工分类器判别得分为测试语音每帧得分算术均值 s :上争! :墼! n 冒p ( 缈= s p k ) 品高s p k 善6 ( _ ) 式( 2 4 8 ) 肋 = ) 智一 、。 一w 云( ;) p ( 缈= s p k ) 其中 硒) = 专善i 公式( 2 4 8 ) 式说明此分类器判别得分可以简单地由说话人模型与测试语音核函数 空间特征向量的帧间均值的内积得到,如此大大方便了计算,也减少了计算中的存储 需求。 2 2 3 2 广义线性分类器训练 接下来我们讨论广义线性判别分类器w 的训练,说话人模型利用最小均方误 差准则求解。设y ( 国) 为分类器的理想输出,即,y ( 目标说话人y = l ,y ( 冒名者) = 0 ,则 所需求解的说话人模型眦为 2 l 北京

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论