(控制理论与控制工程专业论文)基于fisher准则和数据融合的说话人识别方法研究.pdf_第1页
(控制理论与控制工程专业论文)基于fisher准则和数据融合的说话人识别方法研究.pdf_第2页
(控制理论与控制工程专业论文)基于fisher准则和数据融合的说话人识别方法研究.pdf_第3页
(控制理论与控制工程专业论文)基于fisher准则和数据融合的说话人识别方法研究.pdf_第4页
(控制理论与控制工程专业论文)基于fisher准则和数据融合的说话人识别方法研究.pdf_第5页
已阅读5页,还剩67页未读 继续免费阅读

(控制理论与控制工程专业论文)基于fisher准则和数据融合的说话人识别方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

向大学硕j 学位论文 摘要 说话人识别作为生物认证技术的一种,是一项根据语音波形中反映说话人生 理和行为特征的语音参数,自动鉴别说话人身份的技术。说话人识别技术以其独 特的方便性、经济性和准确性等优势受到世人瞩目,并日益成为人们日常生活和 工作中重要且普及的安全验证方式。 在说话人识别系统中,如何提高反映说话人个性的语音信号特征参数的有效 性和实时性是关键问题之一。本论文以作者攻读硕士学位期间承担课题的工作为 基础,提出一种基于f i s h e r 准则构造混合特征参数和基于b p 神经网络进行数据 决策级融合的说话人识别方法。本文的工作主要集中在以下几个方面: 一、在使用线性预测倒谱系数l p c c 和美尔倒谱系数m f c c 的基础上利用 f i s h e r 准则,构造了一种新的混合特征参数。这种新的参数在不增加系统计算量 的同时,结合了l p c c 和m f c c 各自的优点,具有更好的表征说话人特征的能力, 并在一定程度上消除特征的信息冗余,实现了可观的信息压缩,有利于信息的实 时处理。 二、基于加权平均的数据融合算法。本文采用b p 神经网络确定权值,对不 同特征参数的识别结果进行数据的决策级融合。通过实验证明该方法有助于识别 率的提高,为说话人识别进行了一种新的探索和尝试。 三、在v c + + 6 0 平台上实现了一个不依赖文本的说话人辨识系统,对上述各 种方法进行了实验对比,对实验结果进行了较为详尽的分析,验证了文中所提出 的理论和方法的有效性。 关键词:说话人识别;f i s h e r 准则;特征参数降维;e b f 网络;数据融合 v 。海人学坝卜学位论文 a b s t i 己a c t s p e a k e rr e c o g n i t i o na so n eo ft h eb i o m e t r i c st e c h n i q u e si st or e c o g n i z es p e a k e r s i d e n t i t yf r o mi t sv o i c ew h i c hc o n t a i n sp h y s i o l o g i c a la n db e h a v i o r a lc h a r a c t e r i s t i c s s p e c i f i ct oe a c hi n d i v i d u a l s p e a k e rr e c o g n i t i o nh a sc a u g h tm a n ya t t e n t i o n sf o ri t s p a r t i c u l a r l ya d v a n t a g e o nc o n v e n i e n c e ,e c o n o m ya n dv e l a c i t ya n db e c o m ea n i m p o r t a n c ea n dp o p u l a ra u t h e n t i c a t i o nt e c h n i q u ei nh u m a nl i f ea n dw o r k t h e r e f o r e ,a m o r er o b u s tm e t h o df o rs p e a k e rr e c o g n i t i o nw i t hh i g ha c c u r a c yo fr e c o g n i t i o nr a t ei s t h ea i mf o ra l lt h er e s e a r c h e r s h o wt oe x t r a c tt h ev a l i da c o u s t i cf e a t u r e sw h i c hh a sg o o dr e p r e s e n t a t i o na n d r e a l - t i m ep r o b a b i l i t yi so n eo f t h ek e yp r o b l e m sf o rs p e a k e rr e c o g n i t i o n an o v e lf e a t u r e e x t r a c t i o nm e t h o df o rs p e a k e rr e c o g n i t i o ni sp r o p o s e di nt h i sp a p e r t h em a i nw o r k sa r e a sf o l l o w : 1 n l ef e a t u r ev e c t o r sc o m b i n e db yl i n e a rp r e d i c t i o nc e p s t r u mc o e f f i c i e n t sr l p c c ) a n dm e l f r e q u e n c yc e p s t r u mc o e f f i c i e n t s ( m f c c ) a r ec o n s t r u c t e d a n dt h e nb e d o n ed i m e n s i o n a ld o w nu s i n gf i s h e rd i s e r i m i n a n tc r i t e r i o n e x p e r i m e n tr e s u l t s s h o wt h a tt h em i x e df e a t u r ev e c t o r sw i t hd i m e n s i o n a ld o w ne f f i c i e n t l yi m p r o v e d t h es p e a k e ri d e n t i f i c a t i o na c c u r a c yw i t hb e t t e rf e a t u r ec h a r a c t e r i z a t i o n 2 w e i g h t e dd a t af u s i o na l g o r i t h mi ss t r a i g h t f o r w a r da n do f t e nu s e d w ea c h i e v e d g o o dp e r f o r m a n c ew i t ht h ea p p l i c a t i o no fb p n na st h ea d a p t i v ew e i g h t e dd a t a f u s i o na l g o r i t h mu s e df o rt h eo u t p u td e c i s i o nw i t hs e v e r a ld i f f e r e n tf e a t u r ev e c t o r s 3 f i n a l l yat e x ti n d e p e n d e n ts p e a k e ri d e n t i f i c a t i o ns y s t e mb a s e do nv c + + 6 0i s i m p l e m e n t e d t h ea p p r o a c h e sm e n t i o n e da b o v ea r ec o n t r a s t e dt h o r o u g hs i m u l a t i o n r e s u l t s ,a n de l a b o r a t i o na n a l y s i sa n dt h ec o n c l u s i o n sa r eg i v e n k e y w o r d s :s p e a k e rr e c o g n i t i o n ;f i s h e rd i s c r i m i n a n tc r i t e r i o n ;f e a t u r ev e c t o r s d i m e n s i o n a ld o w n ;e b fn e u r a ln e t w o r k ;d a t af u s i o n v i 原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作。 除了文中特别加以标注和致谢的地方外,论文中不包含其他人已发表 或撰写过的研究成果。参与同一工作的其他同志对本研究所做的任何 贡献均己在论文中作了明确的说明并表示了谢意。 签名:披去日期:立 本论文使用授权说明 本人完全了解上海大学有关保留、使用学位论文的规定,即:学 校有权保留论文及送交论文复印件,允许论文被查阅和借阅;学校可 以公布论文的全部或部分内容。 ( 保密的论文在解密后应遵守此规定) 签名:避导师签名:日期: i 一海大学硕上学位论文 1 1课题来源 第一章绪论 本课题来源于上海市科委启明星项目:“稳健说话人识别有效参数及其特征补 偿技术的研究”。 说话人识别就是根据待识语音以及预先提取的说话人特征来确定或鉴别说话 人的身份,被广泛应用于身份鉴别、信息检索等领域。由于说话人识别系统的性 能在训练与测试环境失配的情况下会发生严重的退化,因而提高其稳健性成为目 前研究的热点。 针对上述问题,本课题拟通过对说话人识别的有效特征参数的研究,筛选和 组合复杂环境下具有良好表征特性的语音特征参数群,以提高基于电话语音系统 的说话人识别的稳健性。 1 2 课题研究的目的和意义 在生物学和信息科学高度发展的今天,生物认证技术作为一种便捷、先进的 信息安全技术开始在全球电子商务时代崭露头角。这是一种根据人体自身的生理 特征( 指纹、手形、脸部、虹膜、视网膜、气味等) 和行为特征( 声音、签名、 击键方式等) 来识别身份的技术。它是集光学、传感技术、红外扫描和计算机技 术于一身的第三代身份验证技术,能满足现代社会对于身份鉴别的准确性、安全 性与实用性的更高要求。在信号检测与处理、模式识别、人工智能、机器学习等 理论与技术迅速发展的推动下,不久的将来,生物认证技术必将进入一个光辉的 时代。 语音,作为信息交流的最自然、最有效、最方便的途径近年来,在生物认 证技术领域中越来越受到研究者的关注,而说话人识别则被认为是最自然的利用 语音特征进行身份鉴别的方式。1 6 6 0 年,在英国国王查尔斯一世之死的侦破过程 中,就是利用声音作为线索找出了罪犯。从那时起,人们逐渐开始关注通过语音 海人学硕:i :学位论文 对人身份进行鉴别的可能性。1 9 4 5 年贝尔实验室发明了声音语谱图,它能够把声 纹描绘出来,就好像识别指纹一样,人们可以通过对图形的直观判断,去区分不 同的人,1 9 6 6 年美国法院第一次采用此方法进行取证。 真正意义上的“自动”说话人识别的研究始于2 0 世纪6 0 年代,从那时开始 到现在的4 0 多年间,随着数字滤波、快速傅立叶变换、线性预测编码、同态信号 处理、矢量量化等算法的不断出现和完善,加之微电子技术的发展和计算机的普 及,使这一领域的研究取得了很大的进展。如今,说话人识别技术已逐渐走入实 际应用,其中,a t t 应用说话人识别技术研制出了智慧卡( s m a r tc a r d ) ,并已应 用干自动提款机。欧洲电信联盟在电信与金融结合领域应用说话人识别技术,于 19 9 8 年完成了c a v e ( c a l l e rv e r i f i c a t i o ni nb a n k i n ga n dt e l e c o m m u n i c a t i o n ) 计划, 并于同年又启动了p i c a s s o ( p i o n e e r i n gc a l la u t h e n t i c a t i o nf o rs e c u r es e r v i c e o p e r a t i o n ) 计划,在电信网上完成了说话人识别。同时,m o t o r o l a 和v i s a 等公司 成立了v - c o m m e r c e 联盟,希望实现电子交易的自助化,其中通过声音确定人的 身份是此项目的重要组成部分。其他一些商用系统还包括:i t t 公司的 s p e a k e r k e y 、k e y w a r e 公司的v o i c e g u a r d i a n 、t - n e t i x 公司的s p e a k e z 等。 目前,说话人识别技术可以或已经应用于以下一些场合: 1 ) 个人身份辨别:这是最广泛的一类应用,用于进入系统的控制以保护重要的 资源。它可以用在语音邮件、电子交易、安全保卫等场合。说话人可通过电 话或计算机界面,以语音方式使其只响应合法的使用者。例如以用户的声音 办理金融业务、以特定人员的声音控制、检查重要场所的人员出入等等。随 着我国经济的飞速发展,说话人识别技术也将在许多领域,如各个部门需要 保密的计算机系统、信用卡识别、自动电话交易和声音传真交易的进入识别 等,得到广泛的应用。 2 ) 司法鉴定:依据犯罪时所记录的声音确定罪犯与语音检索技术相结合,可以 建立犯罪语音档案,以快速确定罪犯身份【1 】1 2 。 3 ) 语音检索:对电话录音设备记录的大量信息,通过说话人识别与连续语音识 别技术相结合的方法,检索出特定说话人的讲话内容。还可以建立居民语音 档案,和身份证制度相结合,方便城市居民管理。 2 l 海大学顺士学位论文 4 ) 医学应用:可用于声控假肢的动作,使其只响应患者的命令。另外,如a b r a u n 使用说话人语音特征参数研究吸烟者和非吸烟者声道特征的差异【3 】;f p h a n 等应用说话人识别技术于人工耳蜗,以模仿听觉的“鸡尾酒会”效应等【4 】。 随着信号处理技术和计算机技术的发展,最近十五年来语音和说话人识别的 研究有了实质性的突破,各种语音或说话人识别系统相继问世。这些系统部分或 全部地克服了特定说话入、孤立词、小词汇量、有限语法等约束,达到了很高的 识别率【5 】。然而,大多数类似的系统都只适合于识别“干净”的语音,当它们 应用于噪声环境中时,性能会大大下降。研究表明,大多数说话人识别系统在训 练和实际操作的环境类似时( 在环境匹配条件下) ,性能很好;而在训练与测试环 境不同时( 在环境失配条件下) ,性能将显著下降【6 】。大量实验证明,现有的说 话人识别系统在使用不同于训练时所用的麦克风或当环境有变化时,即使在另一 个安静的办公室内测试,性能都会下降,而对电话信号或处于汽车、工厂及室外 环境的语音信号来说,鲁棒性就更差了。 产生上述现象的主要原因在于语音信号在受到各种实际影响后表现出的多变 性【7 】。这种多交性包字苫: 1 音素可变性:最小语音单位音素的确定严重依赖于上下文。比如,英 语单词t w o ,t r u e 中的,t ,需分别划分到音素和t r 中,单词边界的发音受上下 文影响可能发生变异。 2 声学可变性:环境、声音传感器( 麦克风或电话) 的位置及传输特性的变 化导致语音的变化。 3 说话人本身的可变性:说话人本人的情绪、身体状况、语速、音质的变化 导致语音的变化。 4 不同说话人之间的可变性:说话人间不同的社会背景、方言、声道形状、 长短也会影响识别效果。 针对以上问题,1 9 9 2 年美国国家自然科学基金会提出有关语音识别的十大关 键课题中,将语音识别的鲁棒性、识别系统的可移植性、识别系统对环境的自适 应,识别系统对说话人、麦克风的自适应及语言模型的建立等分别列在前五位。 鲁棒语音技术【8 】中的鲁棒性是指在输入语音质量退化,或语音的音素特性、分 l 姆大学颂 学位论文 割特性或声学特性在训练和测试环境中不同时,语音识别系统仍然保持较高识别 率的性质。其中声学特性( 如声道、麦克风、电话特性) 的差别和环境的差别是 研究的重点。随着语音识别技术进入实际应用,鲁棒语音识别系统,即在复杂且 动态时变的环境中保持较好识别率的语音识别系统的开发越来越重要。 八十年代以来,基于隐马尔可夫模型( h m m ) 的统计模型匹配技术和动态搜 索算法的应用使语音识别的研究上了一个新的台阶。然而,基于统计的声学模型 和语言模型需要训练数据具有充分的代表性。当训练环境与测试环境失配时,由 训练数据所得模板的代表性降低,识别系统的性能因而大幅度下降。虽然依靠增 大训练数据量,使尽可能覆盖所有失配的情形,可部分地解决问题,但不是最终 的解决方案。因此,鲁棒说话人识别系统除鲁棒性之外的另一个重要目标就是降 低对大量训练语音数据的依赖性,更有效地利用有限的数据,提取准确的统计模 型以适应不同声学环境的变化。 1 2 1 国外研究概况 1 9 6 2 年,b e l l 实验室的k e r s t a 等人研究了声纹图( v o i c e p r i n t ) ,发现同一位 说话人某音节的若干次发音的声纹图与不同说话人相比更相似,论证了应用“声 纹”识别说话人身份的可能性。随后最早的说话人识别系统便在l i n c o l n 实验室 诞生了,第一个说话人识别系统比第一个语音识别系统整整滞后了一年。1 9 6 2 年 底,b e l l 实验室的p r u z a n s k y 采用模式匹配原则把三维语图( 时间频率一能量) 应 用于说话人识别研究,1 9 6 4 年,p r u z a n s k y 和m a t h e w s 利用方差分析的方法进行 说话人识别研究,提出了有名的衡量说话人特征参数有效性的f 比值公式。同时, b e c k e r 等人采用自适应系统对说话人确认进行了实验研究,至此,说话人识别己 明确划分为确认和辨认两大研究任务。在这之后,g l e n n 等研究了基于鼻辅音的 说话人辨认研究,发现从鼻辅音中可以提出说话人有效特征。l u c k 首先将基频, 倒谱技术与最邻近判别准则结合应用于说话人确认研究。a t a l 根据基频随时间变 化的规律,用统计技术对基频参数进行主分量分析,选择代表个人特征明显的参 数用于说话人识别,使识别系统性能有了较大提高。6 0 年代后期,将线性预测编 码技术应用于说话人特征分析,发现倒谱系数比预测器系数、脉冲响应、自相关 海人学硕l :学位论文 函数和对数面积比函数更有效。在特征研究的同时,各种形式的失真测度便应运 而生。7 0 年代中期,f u r u i 动态时间规整( d t w ) 技术应用于说话人识别中取得 了很好的效果。同时基于统计方法的隐马尔可夫模型( h m m ) 作为描述语音信号 时变特性的一种有效手段开始用于说话人识别研究,解决了由于d t w 方法在运 算时和连续语音基元切分等方面所遇到的困难。7 0 年代后期,墨西哥旅美学者 b u z o 根据s h a n n o n 信源编码模型提出了基于矢量量化( v q ) 的语音编码方法, 后来b u z o 和他的同事们将线性预测系数应用矢量量化方法,提出了著名的l b g 算法,即离散隐马尔可夫模型,很快被应用于说话人识别中,并取得了明显效果。 8 0 年代中期,人工神经网络以其较强的模式识别能力、自学习、自组织能力给说 话人识别研究带来了新的思想和方法,有着良好的前景。 目前,a t & t 、t i 与美国著名的通讯公司s p r i n t 都已经展开了有关在说话人 声音识别领域的实验,应用的领域范围有如进入控制、电子银行远程登陆、快速 通关系统等等,也有少量成熟产品问世。 如何在一定程度上消除特征的信息冗余,实现可观的信息压缩,从而更有效 地利用有限的数据,有利于信息的实时处理以适应不同声学环境的变化是目前研 究的热点之一。广泛使用的一种特征降维方法是:根据f i s h e r 准则来分析特征向 量,确定鉴别矢量集,使其在最佳鉴别矢量方向上模式具有最大的可分性。在最 近的国内外文献中,用于这方面的主要改进方法有:基于f o l e y s a m m o n 鉴别准 则( f s d ) 和f i s h e r 判别提出的正交f i s h e r 判别 9 1 ,既可以进行正交矢量方向 上的f i s h e r 判别又避免了f s d 的计算复杂和费时。文献【1 0 1 结合隐马尔科夫模 型( h m m ) 用线性判别函数( l d a ) 综合分析经f i s h e r 判别筛选的特征矢量。 文献【1 l 】提出了一种独立分量分析( i c a ) 和核函数主元分析( k p c a ) 相结合 的方法,先利用核函数主元分析( k p c a ) 技术提取全局特征,然后利用独立分 量分析技术提取局部特征,最后分别挑选出部分局部特征向量与部分全局特征向 量组合成新的特征向量进行识别,比较实验结果显示基于组合特征方法的识别率 明显优于其它方法。 另外,不同特征进行有机组合可显著提高说话人识别的性能,如n 兀实验 室的tm a t s u i 和s f u r u i 使用倒谱、差分倒谱、基音和差分基音组合特征,在干 海人学碗l 学位论文 净的语音环境下得到9 9 3 的说话人确认率【1 2 】。 1 2 2 国内研究概况 我国语音技术研究工作一直紧跟国际水平。国家也很重视,并把大词汇量语 音识别的研究列入“8 6 3 ”计划,由中科院声学所、自动化所及北京大学等单位研究 开发。鉴于中国未来庞大的市场,国外也非常重视关于汉语语音的研究。美国、 新加坡等地聚集了一批来自大陆、台湾、香港等地的学者,研究成果已达到相当 高水平。目前国内的说话人识别研究主要由些大学和研究所在进行。例如:北 京大学迟惠生教授领导的科研组、清华大学吴文虎教授领导的科研组、东南大学 陈永斌教授领导的科研组、中科院自动化所、中科院声学所、以及哈尔滨工业大 学高文教授领导的科研组等。 最近的文献中有关国内说话人识别系统在特征方面的研究也有很多,王金明 等研究并提取了几种重要的语音特征参数,通过仿真和实验,证明m f c c 参数较 之l p c c 参数具有更好的识别效果,而将语音动态特征和静态特征相结合,则会 使系统的误识率有明显的下降【1 3 1 。在较大用户群的情况下,由于特征覆盖范围 不够导致性能下降。鉴于此,马志友等提出了一种新的二次特征提取方法,它通 过综合运用加权、微分、组合、筛选等方法,进一步挖掘说话人语音背后的隐性 个性差异【1 4 。甄斌等采用增减特征分量的方法研究了m f c c 各维倒谱分量对 说话人识别和语音识别的贡献,实验表明,最有用的语音信息包含在m f c c 分量 c 1 到c 1 2 之间,最有用的说话人信息包含在m f c c 分量c 2 到c 1 6 之间。m f c c 分量c o 和c l 包含有负作用的说话人信息,将其作为特征会引起识别率的降低。 低阶m f c c 分量较高阶分量更容易受加性噪声和卷积噪声干扰【1 5 】。丁佩律等 提出了一种基于主分量分析和f i s h e r 准则的新的m e l 频率域特征参数。它是在 m e l 域频谱的基础上做主分量分析,并且根据f i s h e r 准则按f i s h e r 比的大小进 行特征参量的选择而得到的。它充分的利用了各频带间的相关统计信息,能更紧 致有效的区分说话人。这样得到的特征矢量。与传统的按相应特征值进行特征选 择的方法相比,在相同维数时具有最大的类别区分度【1 6 l 。汪峥,连翰等人提出 了一种新的说话人识别中特征参数的提取方法。在分别使用傅立叶分析和小波分 j 海大学硕上学位论文 析得到两组特征参数之后,进一步利用f i s h e r 准则进行参数选取,构造了一种新的 混合特征参数,在不增3 n ) l l 练和识别时计算量的同时,结合了傅立叶分析和小波 分析两者的优点,具有更好的分类能力。实验结果显示,这种新的混合参数有效 地提高了说话人的识别率,能更好地表征说话人的特征1 3 9 1 。 1 3论文的主要研究内容 本论文以作者攻读硕士学位期间承担的课题工作为基础,提出一种基于 f i s h e r 准则构造混合特征参数和基于b p 神经网络进行数据决策级融合的说话人 识别方法。方案一,在使用线性预测系数倒谱l p c c 和美尔倒谱系数m f c c 计算 特征参数的基础上利用f i s h e r 准则,构造了一种新的混合特征参数。这种新的参 数在不增加系统计算量的同时,结合了l p c c 和m f c c 各自的优点,具有更好的 表征说话人特征的能力,并在一定程度上消除特征的信息冗余,实现了可观的信 息压缩,有利于信息的实时处理。方案二,先采用降维后的l p c c 和m f c c 特征 分别得出两项结果,再采用b p 神经网络进行数据的决策级融合,通过实验证明 该方法有助于识别率的提高,为说话人识别进行了一种新的探索和尝试。 本文按以下方式编排: 第一章阐述了课题研究的来源、目的、意义以及国内外研究的现状。 第二章介绍了说话人识别的相关概念和一般步骤,详细讨论了说话人识别系 统最主要得两部分,即特征提取部分和模式匹配部分的各项常用技术。 第三章讨论了神经网络的基本原理及其在说话人系统中建模及匹配的应用。 第四章介绍了f i s h e r 分析方法,阐述了有关说话人识别的特征参数选择准则, 提出了一种基于f i s h e r 准则构造说话人特征的先进算法。 第五章提出了一种基于b p 神经网络的数据融合方法,并通过实验证明此方 法有助于最后决策正确率的提高。 第六章采用t i m i t 和n t i m i t 语音数据库进行说话人确认实验,验证本文所 采用的各项方法的有效性。 第七章对全文的研究工作进行了概括和总结,指出目前说话人识别仍然存在 的一些问题,并对下一步的工作及该领域的前景进行了展望。 j :海人学倾:1 :学位论文 第二章说话人识别技术概述 2 1 说话人识别系统 2 2 1 说话人识别系统分类及特点 说话人识另t j ( s p e a k e rr e c o g n i t i o n :s r ) ,一般可以分为两类,即说话人辨认 ( s p e a k e ri d e n t i f i c a t i o n :s i ) 和说话人确认( s p e a k e rv e r i f i c a t i o n :s v ) 。前者用以判 断某段语音是若干人中的哪一个所说的,需要将待识别语音和已知人群中每一个 人的特征逐一进行比较,是“多选一”问题;而后者用以确认某段语音是否是指 定的某个人所说的,需将待识别语音与己注册说话人的模型进行比较,是“一对 一判别”问题( 如图2 1 所示) 。说者辨认和说者确认的根本区别在于它们的决策 选择数目的不同。说话人辨认的决策选择数目和人数有关,具体来说,对人数为 n 的说话人群,决策选择数为n + i ( 判决未知语音属于n 个已知说话人中的某一 个或不属于其中任何一个) 。因而,说话人辨认系统通常随用户数的增加会导致性 能下降;说话人确认则是一个二值判决问题( 接受或拒绝) ,和人数无关【5 】。比 如,缩小刑侦范围时可能需要辨认技术,而银行交易时则需要确认技术。 说话人识别还可以分为有文本相关的说话人识另d ( t e x t - d e p e n d e n ts p e a k e r r e c o g n i t i o n :t d s r ) 和文本独立的说话人识别( t e x t - i n d e p e n d e n ts p e a k e r r e c o g n i t i o n :t i s r ) 两种。与文本相关的说话人识别系统要求用户按照规定的内容 发音,即在训练和测试中都使用相同文本,每个说说话人模型逐个被精确地建立, 该系统需要用户配合,如果用户的发音与规定的内容不符合,则无法正确识别该 用户。而与文本独立的识别系统则不规定说话人的发音内容,即文本可以是任意 的。该方式的模型建立相对困难,但用户使用方便,可应用范围较宽。比如,在 银行交易时可以使用文本相关的说话人识别,因为用户自己进行交易时是愿意配 合的:而在刑侦或侦听应用中则无法使用文本相关的说话人识别,因为你无法要 求犯罪嫌疑人或被侦听的人配合。 r 海火学硕l 学位论文 语音 + ( a ) 说话人辨认 说话 人 确认结果 ( 接受或拒绝) ( b ) 说话人确认 图2 1说话人识别系统的基本结构 在说话人辨认方面,根据待识别的说话人是否在注册的说话人集合内,说话 9 埔 学硕士学位论文 人辨认可以分为开集( o p e n s e t ) 辨认和闭集( c l o s e - s e t ) 辨认。前者假定待识别说话人 可以在集合外,而后者假定待识别说话人在集合内。显然,开集辨认需要有一个 对集外说话人的“拒识问题”,而且闭集辨认的结果要好于开集辨认结果。本质上 讲,说话人确认和开集说话人辨认都需要用到拒识技术,为了达到很好的拒识效 果,通常需要训练一个假冒者模型( i m p o s t o rm o d e l ) 或背景模型( u n i v e r s a l b a c k g r o u n dm o d e l :u m b ) ,以便拒识时有可比较的对象,闽值容易选定。而建立 背景模型的好坏直接影响到拒识甚至说话人识别的性能。一个好的背景模型,往 往需要通过预先采集好的若干说话人的数据,通过某种算法去建立。 2 2 2 说话人识别系统模型 说话人识别系统主要包括两个重要部分,即特征提取和模式匹配。特征提取 的任务是选取惟一表现说话人语音的有效且稳定可靠的特征,模式匹配的任务是 对训练和识别时的特征模式傲相似性匹配。 在提取音频特征时,训练模块和测试模块采用的方法相同。而在做测试部分 的概率估计时,需先将特征提取的结果带入到原来训练得出的数学模型中,计算 出概率。将多个特征谱的概率取对数求和,就能计算出该说话人是否符合这个数 学模型的概率。概率较大时即可进行身份确认和检验。 图2 2 显示了说话人识别系统的基本模型框架。在说话人辨认中。先分析来 自待识别说话人的语音特征并与已知说话人模型相比较,将参考模型与输入语音 匹配最好的说话人作为辨认结果。在说话人确认中,待识别说话人提出身份确认 要求,其语音将与已注册的该说话人模型进行比较,如果匹配程度高于某确定 的闺值,则认为该身份要求被确认。阈值较高可以使假冒者难于被接受,但真正 的用户也有被拒绝的危险。反之,低的闽值可以确保用户总是被接受,但却有被 假冒者闯入的危险。 海大学删士学位论文 分粪识别单元 图2 2 说话人识别系统 说话人的语音特征具有时变性,与说话人所处的环境、情绪、健康状况有密 切联系,而且会随着时间和年龄的变化而变化。语音信号的变异性使说话人特征 空间发生转移,从而增加识别过程的中的不确定性。如何找到稳定有效的特征参 数来表征说话人,是说话人识别中的根本问题之一。 2 2 特征提取 在说话人识别系统中特征提取是最重要的一环,特征提取就是从说话人的语 音信号中提取出表示说话人个性的基本特征,此特征应能有效地区分不同的说话 人且对同一说话人的变化保持相对稳定,从而使模式划分器能更好地划分。人的 发音是由先天因素和后天养成习惯共同决定的,先天因素主要是指人的发声器宫, 如声带、声道、鼻腔、舌、唇等。后天养成习惯是由童年所在的方言区、父母等 诸多因素综合作用而形成的。在研究与个体相关的语音特征时,寻找能反映上述 两个因素的特征参数是研究的一个重要方向。除了研究与人的发音方式相关的个 体特征参数外,研究人的听觉系统如何辨音也是发现新语音特征的重要手段。研 究人员已在这几方面取得了一定的成绩:反映人的声道特征的参数有l p c 系数、 声道截面积比、基音频率、共振峰等,根据人的听觉特性导出的有m f c c 等,能 反映人后天发音习惯的基频包络、s u p e r l d 等。根据特征参数所反映信息的层次, 可将上述三类特征参数划归两个层次:一是反映人发声、听觉器官特性的低层特 征参数,二是反映人后天发音习惯的高层特征参数。目前,人们对低层语音声学 特征的研究最为透彻,高层特征参数的研究才刚刚起步。下面我们就说话人识别 上海人学硕士学位论文 系统中用到的特征参数作一个简单的介绍。 2 2 1 短时功率谱 谱包络参数语音信息通过滤波器组输出以合适的速率对滤波器输出抽样并将 它们作为说话人识别特征。 语音特有的短时功率谱密度:在某些频率上语音信号的短时功率出现峰值, 而在另一些频率上出现谷值。这些峰值频率,也就是能量较大的频率,通常成为 共振峰频率。此频率不止一个,最主要的是第一个和第二个,由它们决定了不同 的语音特征。 2 2 2 基音轮廓,共振峰频率带宽及其轨迹 这类特征是基于发声器官如声门、声道和鼻腔的生理结构而提取的参数。 2 2 3 线性预测系数( l i n e a rp r e d i c t i v ec o e f f i c i e n t ,l p c ) 以线性预测导出的各种参数、如线性预测系数自相关系数、反射系数、对数 面积比、线性预测残差及其组合等参数,可以作为识别特征。 线性预测系数l p c ( l i n e a rp r e d i c t i v ec o e f f i c i e n t ) 从人的发声机理入手。通过 对声道的短管级联模型的研究,认为系统的传递函数符合全极点数字滤波器的形 式,从而1 3 时刻的信号可以用前若干时刻的信号的线性组合来估计。通过使实际 语音的采样值和线性预测采样值之间达到均方差晟小l m s ( l e a s tm e a ns q u a r e ) , 即可得到唯一的一组线性预测系数l p c 。对l p c 的计算方法有自相关法( 德宾 d u r b i n 法) 、协方差法等等。 与l p c 这种预测参数模型类似的声学特征还有线谱对l s p 、反射系数等等。 2 2 4 倒谱系数( c e p s t r u mc o e f f i c i e n t s ,c e p c ) 利用同态处理方法,对语音信号求离散傅立叶变换d f t 后取对数,再求反变 换( i d f t ) 就可得n f l j 谱系数。实验表明,使用倒谱可以提高特征参数的稳定性。 卜海大学硕上学位论文 2 2 5 线性预测倒谱系数( l i n e a rp r e d i c t i v ec e p s t n m ac o e f f i c i e n t s ,l p c c ) 对于l p c 倒谱系数( l p c c ) ,在获得滤波器的线性预测系数( l p c ) 后, 可以用下面的递推公式计算得出。 c l = a i :( 2 1 ) c n 2 a n + :t ( 1 一言) a 。c n ,1 s n p ( 2 2 ) l p c c 参数的优点是计算量小,对元音有较好的描述能力,其缺点在于对辅 音的描述能力较差,抗噪声性能较差。 2 2 6 美尔倒谱系数( m e t f r e q u e n c yc e p s t m lc o e f f i c i e n t s ,m f c c ) 对人的听觉机理的研究发现,当两个频率相近的音调同时发出时,人只能听 到一个音调。临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界, 当两个音调的频率差小于临界带宽时,人就会把两个音调听成个,这称之为屏 蔽效应。m e l 刻度是对这一临界带宽的度量方法之一。 美尔倒谱系数m f c c 的产生建立在人耳对声音频率的非线性感知基础之上, 是在频谱上采用滤波器组的方法计算出来的,这组滤波器在频率的美尔( m e l ) 坐标 上是等带宽的。因为人耳对声音感知的灵敏度随频率的变化而变化,对低频声音 比高频声音敏感,即人类在对1 0 0 0 h z 以下的声音频率范围的感知遵循近似线性 关系;对1 0 0 0 h z 以上的声音频率范围的感知不遵循线性关系,而是遵循在对数 频率坐标上的近似线性关系。图2 3 显示的是m f c c 的计算步骤及图示。 第一步:对信号作加窗处理; 第二步:对加窗的信号帧进行快速傅立叶变换( f f t ) ; 第三步:对变换系数取其幅度能量; 第四步:将频率变换到m e l 美尔尺度; 第五步:取对数; 第六步:作离散余弦变换( d c t ) ; ! :海大学倾t 。学位论文 叫鳓鳓输 n m e l s c a l ef i l t e r b a n k x 1x 2x 3 x n 图2 3m f c c 的计算步骤图示 m f c c 弱化了语音频谱高频成份,对噪声具有适应性,是鲁棒说话人系统中 常用的一种特征参量。 2 , 2 7 感知线性预测系数( p e r c e p t u a ll i n e a rp r e d i c t i v ec o e f f i c i e n t s ,p l p c ) p l p 参数也是一种基于听觉模型的特征参数。该特征参数是全极点模型的预 测多项式的一组系数,等效于一种l p c 特征。 相比较l p c ,p l p 仍用德宾法去计算l p c 参数,但在计算自相关参数时是对 听觉激励的对数能量谱不同,它不是从声道模型入手进行分析,而是将输入的语 音信号经听觉模型处理,用所得到的信号替代传统的l p c 分析所用的时域信号。 2 2 8 高层特征参数( s u p e r i d e n t i t y ,简写为s u p e r l d ) 说话人识别和自然语言识别是相融合的:交谈语音中多个说话人讲话内容的 提取,首先要进行不同说话人身份的标识,而说话人识别所用的语音特征许多是 从语音识别方面借鉴过来的,随着人类发声物理模型研究的成熟,人们开始对更 高层次的、与说话人后天习惯及语义相关的说话人特征进行研究,s u p e r l d 就是 如此。 2 0 0 2 年m i t 、j h u 、d o d 、i b m 、美国约翰霍普金斯大学等多家科研机构组 成了w s 2 0 0 2 ( 2 0 0 2j h us u n m a e rw o r k s h o po nh u m a nl a n g u a g et e c h n o l o g y ) 对 表征语者个体特性的高层语音信息进行了研究。s u p e r l d 主要目标:抽取和应用 t - 海大学硕士学位论文 语音信号所有层次的、能表征说话人特征的信息。为了利用高层语音信息提高说 话人识别系统的效能,研究方向由基于与文本无关的说话人识别向与文本有关的 说话人识别转变。 综上所述,目前说话人识别系统特征参数研究的方向是寻找具有鲁棒性的特 征参数,充分挖掘和利用高层语音信息,将语音中反映说话人特征的低层和高层 信息进行有效融合。 2 3 常用的建模方法 目前针对各种特征而提出的模式匹配方法大体可归为下述几类 2 3 1 动态时间规整方法( d y n a m i ct i m ew a r p i n g , d t w ) 说话人信息不仅有稳定因素( 发声器官的结构和发声习惯) 而且还有时变因 素( 语速语调、重音等等) 。将识别模板与参考模板进行时间对比按照某种距离测 定得出两模板间的相似程度。 常用的方法是基于最近邻原则的动态时间规整。d t w 通过将待识别语音信 号的时问轴进行不均匀地扭曲和弯曲,使其特征与模板特征对齐,并在两者之间 不断的进行两个矢量距离最小的匹配路径计算,从而获得两个矢量匹配时累积距 离最小的规整函数。这是一个将时间规整和距离测度有机结合在一起的非线性规 整技术,保证了待识别特征与模板特征之间最大的声学相似特性和最小的时差失 真,是成功解决模式匹配问题最早和最常用的方法。 2 3 2 概率统计方法 由于语音中说话人信息在短时内较为平稳。概率统计方法是指对稳态特征如 基音、声门增益、低阶反射系数等等的统计分析,可以利用均值、方差等统计量 和概率密度函数进行分类判决。其优点是不用对特征参量在时域上进行规整,比 较适合文本无关的说话人识别。 常见的有如:基于长时统计的模板匹配方法,用语音信号某些特征的长时间 均值来分辨说话人。文献【1 7 1 【1 8 】【1 9 中使用的是模板匹配方法,即计算待 i :海大学硕j 。学位论文 识语音的统计平均值,并与已经存储的说话人训练均值进行比较。该方法中可使 用多种距离量度进行待识语音与训练模板的平均特征距离的比较,比较常用的是 欧氏距离( e u c l i d e a nd i s t a n c e ) 和马氏距离( m a h a l a n o b i sd i s t a n c e ) 。用长时统计 平均方法的识别结果通常是次优的,且该方法对信道作用或背景噪声的变化过于 敏感,上述两种作用都可能改变说话人特征,导致均值漂移。 2 3 3 矢量量化的方法( v e c t o rq u a n t i z a t i o n ,v q ) 矢量量化的发展可追溯到1 9 5 6 年由s t e i n h a n s 第一次系统地阐述了最佳矢量 量化问题,1 9 7 8 年b u z o 第一个提出实际的矢量量化器,1 9 8 0 年l i n d e ,b u z o 和 g r a y 将l l o y d m a x 算法推广,发表了第一个矢量量化器设计算法l b g 算法, 这是矢量量化技术研究的一个里程碑,从此,人们对矢量量化的理论和应用展开 了全面的研究,包括各种矢量量化器、码书设计算法、码字搜索算法、码字索引 分配算法、图像的矢量量化压缩、语音的矢量量化编码和识别等。 作为一种非参数模型,矢量量化模型是目前文本独立的说话人识别方法的评 估基准。从语音信号中提取的说话人特征,常是一多维矢量的时间序列。矢量量 化模型就是从这些矢量中寻找到少数具有代表性的典型矢量进而构造的说话人模 型。寻找代表矢量( 码本) 的问题可用矢量聚类来解决。f k s o o n g 等首先将矢 量量化成功的应用于说话人识别【2 0 】,此后矢量量化法被普遍使用。近年来, 袁中选等人使用二进制量化方法改进了其鲁棒性 2 1 】,张炜等也使用距离加权方 法改进了该方法 2 2 1 。但在矢量量化模型中,聚类的矢量仅用一个中心来表示, 因而对说话人特征的描述

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论