




已阅读5页,还剩61页未读, 继续免费阅读
(信号与信息处理专业论文)说话人识别算法研究(1).pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 说话人识别就是根据说话人语音信号所包含的信息来是动确定浣话人身 份的过程,可以应用在门禁、数据库存取、信用卡确认、银行电话交易服务等 系统静谈臻控制中。 本文主要研究基于参数模型的说话人识剐方法,主要特征参数的选择、提 取及识别算法。特征参数的选择就是鞭找出一组可代表每位说话人特性的特征 参数,该参数盛不荔受环麓予我,其有鲁捧性,眭在不同静使靥者和背景噪声 上都能维持一定的识别性能。本文主要对线性预测编码( l p c ) 、线性预测编码 倒谱系数( l p c c ) 和梅尔倒谱系数( m f c c ) 三种特征参数在说话人识别上的特性 送行了毙较研究。 说话人识别有很多种算法。本文使用k 一最相邻法( k n n ) 作为分类依据,对 比了各种参数使用k 一晟相邻法时的识别效果。此外,为了提高运算速度和节省 存储空阕,在滋话入模型调练上,采蹋了k - m e a n s 、模糊c m e a n s 等数据缩躐 算法,并与未进行数据缩减时进行了对比实验,实验结果显示了这些算法的有 效性。 太工章率经嘲络逮过学习可戬实现对输入向量的分类。穰据褥缀网络豹分类 作用,本文尝试了用章申经网络学习向熳量化方法( l v q ) 进行泌话人识别,并取 得了较为满意的结果。 关键词:说话人识别;倒谱;线性预测;学习i 甸壤量化 a b s t r a c t s p e a k e ri d e n t i f i c a t i o ni st h ep r o c e s so fr e c o g n i z es p e a k e ra u t o m a t i c a l l yb yt h e i n f o r m a t i o no fs p e a k e r sv o i c es i g n a l 。i tc a r lb eu s e di ns e c u r i t ys y s t e m ,d a t a b a s e a c c e s s ,c r e d i tc a r dc o n f i r m a t i o n ,t e l e p h o n et r a d i n gs e r v i c eo fb a n ka n dm a n yo t h e r s i t u a t i o n s t h i sp a p e rf o c u s e do np a r a m e t e r sm o d e ls p e a k e ri d e n t i f i c a t i o n i tm a i n l yi n c l u d e s s e l e c t i o n ,e x t r a c t i o no ff e a t u r ep a r a m e t e r sa n ds p e a k e ri d e n t i f i c a t i o na l g o r i t h m s t h es e l e c t i o no ff e a t u r e si st of i n da g r o u po f p a r a m e t e r sw h i c hc a nb er e p r e s e n tt h e s p e a k e r sv o i c ec h a r a c t e r s t h e s ef e a t u r e ss h o u l db ei n s u s c e p t i b l eo fe n v i r o n m e n t s , r o b u s t ,k e e p i n ga c c e p t a b l ep e r f o r m a n c ef o rd i f f e r e n tu s e r sa n dc a nb eu s e du n d e r t h en o r m a lb a c k g r o u n dn o i s el e v e l i nt h i s p a p e r , l i n e a rp r e d i c t i v ec o e f f i c i e n t s ( l p c ) ,l i n e a rp r e d i c t i v ec o e f f i c i e n t sd e r i v e dc e p s t r u mc o e f f i c i e n t s ( l p c c ) a n d m e l f r e q u e n c yc e p s t r u mc o e f f i c i e n t ( m f c c ) i sd i s c u s s e d t h ep e r f o r m a n c e so f t h e s ef e a t u r e si nt h es p e a k e ri d e n t i f i c a t i o na r ec o m p a r e d m a n ya l g o r i t h m sc a nb eu s e di ns p e a k e ri d e n t i f i c a t i o n t h i sp a p e rt a k et h ek - n e a r e s t n e i g h b o ra l g o r i t h m ( k n n ) a st h ec l a s s i f ym e t h o d t h ep e r f o r m a n c eo fd i f f e r e n t f e a t u r e su s e dk - n na sc l a s s i f i e ri sc o m p a r e d m o r e o v e r , i no r d e rt oa c c e l e r a t et h e a l g o r i t h ma n ds a v em e m o r y , i nt h em o d e lt r a i n i n gs t a g eo fs p e a k e ri d e n t i f i c a t i o n , k - m e a n sa n df u z z yc m e a n sa l g o r i t h mi su s e dt or e d u c et h em o d e l ss i z e c o m p a r e d w i t ht h ep e r f o r m a n c eo fd a t an o tr e d u c e dm o d e l ,t h er e s u l t ss h o wt h a tt h e s ed a t a r e d u c e dm e t h o d sa r ee f f i c i e n t l yi ns p e a k e ri d e n t i f i c a t i o n a r t i f i c i a ln e u r a ln e t w o r k ( a n n ) c a l lb eu s e da sc l a s s i f i e rt h r o u g h t r a i n i n g a c c o r d i n gt h ef u n c t i o no fc l a s s i f yo fa n n ,t h i sp a p e rt r yt oa p p l yl e a r n i n gv e c t o r q u a n t i z a t i o n ( i n q ) o fa n ni nt h es p e a k e ri d e n t i f i c a t i o n ,a n do b t a i ns a t i s f y i n g r e s u l t s k e yw o r d s :s p e a k e ri d e n t i f i c a t i o nc e p s t r u m ;l i n e a rp r e d i c t i o n ;l e a r n i n gv e c t o r q u a n t i z a t i n 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得 的研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经 发表或撰写过的研究成果,也不包含为获得墨盗盘堂或其他教育机构的学 位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已 在论文中作了明确的说明并表示了谢意。 学位论文作者签名:獬签字日期:却。二年f 月g 日 学位论文版权使用授权书 本学位论文作者完全了解叁注盘茔有关保留、使用学位论文的规定。 特授权苤壅盘堂可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学 校向国家有关部门或机构送交论文的复印件和磁盘。 f 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:椭 导师签名: 妻卜t 币j 签字日期:勘。f 年月g 日 签字日期:一6 年,月g 日 第一章序论 第一章序论 1 1 语音信号处理的发展与应用 戆着语寄信号处理理论与半导体技术的发展,语音债号处理系统的普及与实 用化的目标不再难以实现,市面上已经有一些关于语音输入的产品陆续报出问 擞,就寝焉拣与商犍纯方蔷蔼言,语音签遴有藩极大酶发袋空闼。语音楚联的应 用发展主要埘分为下列几类: 1 听力障碍辅助系统:该应用针对听觉或是视觉障碍的人。由于听障者本 身瞬不搦声裔舔秃法学霹发啻,鼗遴常都会裔发声雾常酶缓象,因戴撩提供借助 出感测声音加以视觉显示来做辅助学习。藤视觉障碍的使用者因为看不到丽无法 接收到想要的信息,所以可以经过语音器材来提供视觉障碍者使用。 2 + 谎话久确认系统:说话久确认是在一群说话久孛,确认貌说话久静鑫傍, 避恧限制此位说话人的权艰蕊困。如公司及大楼的门禁管制系统或银行的保全系 统,此外也有应用在监昕系统方面,如可在一卷监听所录制的录音带中找出参与 谈话静对象,由说话入确诀系统来送行确谈就姥更蠢效穗得知箍昕的绪采。 3 语音识别系统:语啻识别是将使用者的说话声齑通过计算枫或机器识 别,且转换委q 对应的信息数据,便机器执行动作并加以处理。例如:听写机或语 裔输入法等。 4 语者质量的改善:语皆绩母的改善是为了避免受到信道效应噪声的影响 而造成不良的效果,所以需抗噪声来加以强化系统的功能;此外因为说话人本身 翡说话腔诱、速度及发裔习攒也会彰噙箕语音豹质萋,为了清除筵效应,西借韵 说话人的垂遴应技术来加以调整并修正,使系统识别质量能够提赢。 5 语音压缩与传输:语音压缩的主要目的是降低语街信号传送时所需要的 带宽,因为带宽在无线遴信、光绎遴信及至星遴信上菲拳震贵,其稳增效率是逐 信系统主要麴性能指标之一。惩在数字语啻利用与储存上,语音压缩也是必须的。 6 关键词提取系统:所谓的关键词提取就怒将整段语音中包含关键词的地方 撵取蠢来然籍齑鞋黻谖爨。 1 2 说话人辨识概述 泌话人辨识( s p e a k e rr e c o g n i t i o n ) 的研究大约起始于7 0 年代,辨呶方法大约 第一章序论 可分为三类。第一类也是最早的一类方法,用的是语音声学特征的长期平均 ( 1 0 n g - t e r ma v e r a g e ) 。这种方法有一个缺点就是需要较长的语音( 通常大于2 0 秒) 才能求得比较准的说话人特性。第二种方法用的是区别性类神经网络 ( d i s c r i m i n a t i v en e u r a ln e t w o r k s ,) ,这个方法是求得一个鉴别函数( d i s c r i m i n a t i v e f u n c t i o n ) 来使得所有说话人可以区分得最好,这个方法的缺点是每当一个新的说 话人加入时,鉴别函数就必须重新计算。第三种方法是对每一个说话人语音的声 学特征及内容用一组模型来表示。而适用的模型依照对语音内容分段方法的不同 而有不同。例如,如果我们想要对说话人的语音细分到音素的地步,就可以用隐 马尔可夫模型。如果不对说话人的语音内容作区分的话,则可以用向量量化或高 斯混和模型1 2 0 1 来作说话人辨认。 说话人辨识系统主要分成说话人确认( s p e a k e rv e r i f i c a t i o n ) 和说话人识别 ( s p e a k e ri d e n t i f i c a t i o n ) 两类。说话人确认系统是一个接受或拒绝某个说话人身份 宣称的过程。当输入的声音和说话人语音模型库中某个注册说话人的声音做比较 时,两者之间相似程度的估算差值若小于某个阈值,则该输入语音的说话人身份 就可被接受:否则,就被拒绝。说话人识别系统是从一群已知的说话人中识别出 与一个输入声音最相似的说话人。 本文研究的重点是说话人识别。说话人识别可认为是语音识别的一种特殊形 式,它和语音识别都需要提取语音信号中的有用特征做出判断,区别在于它并不 分析语音内容,只确定关于说话人的信息。比如说话人是否在使用者的集合中, 说话人是谁等内容。由于语音识别关注的是语音信号中包含的语言信息,而说话 人识别只关注包含在语音信号中的说话人特征,所以在处理时,语音识别尽量排 除不同说话人之间的区别,将不同说话人间的差别归一化,而说话人识别则力图 充分利用不同说话人间的区别。 r 1r 9 1 p 臣亟圃 ! ! ! 壅! 至划特征参数提取毕! ! ! ! ! 墨一说话人模型训练卜+ _ 一- 厂、五刁:i i i 习 l ( f e a t u r ee x t r a c t i o n ) l l ( s p e a k e rm o d e lt r a i n i n g ) il 一 。一 去 图1 - 1 说话人模型训练步骤 说话人识别系统主要包括说话人模型训练( s p e a k e rm o d e lt r a i n i n g ) 斤和说话人 识别两个步骤,图1 1 表示说话人模型的训练步骤。首先将n 位说话人的训练数 据经过特征参数提取处理后,得到d 维的特征参数向量( f e a t u r ev e c t o r ) ,再经过 说话人模型训练得到每位说话人的参考模型,以此代表每位说话人的特性。 第一章序论 将n 位说话人的语音数据训练成n 个说话人模型的参考样本后,接着进行说 话人识别,如图卜2 所示。将一段测试语句经过特征参数提取处理后得到测试的 特征参数向量,其维数为d ,接着将特征参数向量当作输入语音向量输入分类器 ( c l a s s i f i 神中进行分类,从p , v l l 练好的说话人模型中找出最相近的说话人身份, 即为识别出的说话人。其中,说话人识别的分类器结构如图1 3 所示。 图1 2 说话人识别步骤 给定一组测试语句,代表t 个特征向量或语音帧( f r a m e ) ,然后输入分类器 中和每个说话人模型进行比较,找出最有可能产生这一组测试语句的说话人模 型,即为识别出的说话人。分类器有很多种,例如k 一最相邻( k - n e a r e s tn e i g h b o r , k - n n ) 分类器、向量量化分类器等等。 f 说话人模型i 判决 l 说话人模型2r _ ( d e c i s i o n ) : l 说话人模型n 卜- 图1 3 说话人识别中的分类器结构 此外,根据测试语句可将说话人识别系统分为文本相关( t e x td e p e n d e n t ) 和文本无关( t e x ti n d e p e n d e n t ) 两类。文本相关系统使用预先确定的文字内容来 训练每位说话人模型,形成文本相关的说话人语音模型库,接着要求测试者念 段同样的文字来与说话人语音模型库进行比较。文本无关系统可以不受文字内容 的限制,将每位说话人所说的所有文字内容训练成一个文本无关的说话人语音模 型库,在测试时也不对测试者所念的内容做要求。本文主要探讨文本无关的说话 人识别系统。 4 3 说话人识别的研究方法 语音信号以很多种形式来传达说话人的信息,如说话方式、说话者的情绪状 态、方言等,这些特征通常是人类用来识别说话人的依据。所以如何容忍说话人 声音的改变并从语音中找出说话人的特性或特征是很重要的。本文主要对说话者 第一章序论 来识别身份。 说话人识别基本上有两种解决方式,一种是从说话人特征参数着手,一种是 从说话人模型着手。只要找到一种完美的说话人特征( 就像指纹一样) ,这种特征 是每一个说话人所独有的,则问题便得到解决。在说话人模型方面,则是要强调 一个模型能够广泛的涵盖并精确区分所有说话人的声学特性。 本文重点研究特征参数在说话人识别中的应用,即找出一组可代表每位说话 人特性的特征参数,其应不易受环境干扰,具有鲁棒性( r o b u s t ) ,在不同的使用 者和背景噪声上都能维持一定的识别性能 应用于说话人识别的特征参数有多种,线性预测系数( 1 i n e a rp r e d i c t i v e c o e f f i c i e n t s l p c ) 和倒谱( c e p s t r u m ) 参数等已研究多年,本文主要比较线性 预测编码、线性预测编码导出的倒谱系数( l p cd e r i v e dc e p s t r u mc o e f f i c i e n t s l p c c ) 和梅尔倒谱系数( m e l f r e q u e n c yc e p s t r u mc o e f f i c i e n t m f c c ) 三种不 同特征参数在说话人识别上的影响。 提取特征参数后,接着进行说话人识别。说话人识别有很多种算法。本文主 要使用k 一最相邻法“1 作分类依据,但由于每个测试点需与全部的说话人参考模型 进行比较以寻找最近邻居,所需时间和内存空间较大,所以在说话人模型训练上, 采用了一些数据缩减的方法。如:k - m e a n s 、模糊c - m e a n s ( f u z z yc m e a n s ,f c m ) 和学习向量量化( l e a r n i n gv e c t o rq u a n t i z a t i o n ,l v q ) 进行数据缩减运算。 1 4 论文结构 本文各章节安排如下:第一章是绪论,说明本论文研究目的、说话人识别研 究历史和本论文研究内容:第二章是说话人识别的基本理论和参数提取方法,介 绍了特征参数提取的整个流程,包括语音信号的预处理和说话人特征参数提取方 法:第三章是基于参数的说话人识别方法,介绍了k n n 算法,以及几种数据缩 减的算法,如k - m e a n s 、模糊c m e a n s 等;第四章是在第三章算法基础上的m a t l a b 实现,把第三章中提到的算法用s i m u l i n k 或m a t l a b 编程进行了实现;第五章是 基于这些算法进行的说话人识别实验,提取了各种特征参数并做了大量的说话人 识别实验,然后对结果进行了分析和比较;第六章介绍了基于神经网络的学习向 量量化方法,并用该方法进行了说话人识别实验;最后第七章是结论,对本论文 实验结果做了简单归纳和讨论。 第二章说话人识别基础及参数提取 2 1 概述 第二章说话人识别基础及参数提取 说话人识别是语音识别的一种特殊形式,它和语音识别都需要提取语音信 号中的有用特征做出判断,区别在于它并不分析语音内容,只确定关于说话人 的信息。如说话人是否在使用者的集合中,说话人是谁等内容。由于语音识别 关注的是语音信号中包含的语言信息,而说话人识别只关注包含在语音信号中 的说话人特征,所以在处理时,语音识别尽量排除不同说话人之间的区别,将 不同说话人间的差别归一化,而说话人识别则力图充分利用不同说话人间的区 别。图2 1 是一般说话人识别系统的构成框图: 图2 1说话人识别系统框图 说话人识别系统应尽量提取能表征说话人特点的基本特征。这些特征应该 具有可分性强、稳定性好、计算方便、不易模仿等特点。 不同说话人间的差别有很多方面,有生理上的,也有说话人习惯、情感状 况上的等等。常用的语音参数中,说话人的语音特征和个性特征交织在一起, 虽然还没有找到合适的方法将它们完全分离,但语音信号的特征参数已经可以 从不同侧面反映出况话人的个性特征,因此也可以用来表征说话人特征。实际 中常综合使用多个参数的集合。 2 1 1 特征参数的评价方法 常用于评价说话人识别特征的统计参数有f 比和d 比等“。 描述说话人的基本特征应该有如下的特性:对自一个说话人的特征来说, 其均值变化很小,而不同说话人的特征其相应的变化很大。根据这- - g j j 断特征 有效性的思想,可以定义f 比如下: 第二章说话人识别基础及参数提取 ,= 焉鬃= 筹暑 , 同一说话人均值的方差 ,一,1 2 7 其中:“是第i 个说话人参数的均值估值:万是所有说话人参数的总均值 估值;是第i 个说话人第c 1 次发音的特征参数。 对于多维特征向量x ,常用可分比测度d 比来表征其有效性。定义两 个协方差阵:说话人内特征的协方差矩阵w 和说活人间特征的协方差矩阵b , 如下所示: 2 ( z 一) 。( 工一一) a 一 ( 2 2 1 b = ( ,一万) 。( ,一万) , d 比定义如下: 。:黪琵:弥矿b 陋s , = 0 矿。一万) 7 以,一万) ) ,= 形。1 其中t r 为矩阵的迹。 2 1 2 常用特征参数 特征参数提取的目的是找出一组可代表每位说话人声音特性的参数来傲 识别,该参数应不易受环境干扰并能具有鉴别力。对语音信号而言,倒谱可以 将频谱上的高低频成分分离,所以只要取前面几项参数,就能代表语音信号的 特性,使得识别率提高。如线性预测系数( l i n e a rp r e d i c t i v ec o e f f i c i e n t , l p c ) 导出的倒谱系数“1 和梅尔倒谱系数”“”都是属于倒谱域上的语音特征。线性 预测系数导出的倒谱系数被广泛地应用在说话人识别的研究上。另外,梅尔倒 谱系数考虑了人耳的昕觉特性,具有较强健的优点,它的识别效果比线性预测 编码导出的倒谱系数更好。语音识别中几种常用的特征参数如下: 1 l p c 系数及其派生参数。 2 由语音频谱直接导出的参数。语音的短时谱中包开有激励源和声道的 特性,可以反映出说话人生理上的区别。基于频谱的参数有功率谱、共振峰及 其变化轨迹、基音轮廓、语音强度及变化轨迹等 3 混合参数。为提高系统的识别率,同时由于对各种参数表征说话人特 征的特性并不充分,因此很多系统采用了混合参数构成的特征向量。 第二章说话人识别基础及参数提取 2 1 3 语音信号特征参数提取的处理流程 一般语音信号特征参数提取的处理流程如图2 2 所示。 鲎,怔竺墼- 图2 - 2 特征参数提取处理流程 该流程主要包括两个步骤:语音信号的预处理和特征参数提取。下面分别 叙述这两个过程。 2 2 语音信号预处理 语音信号处理的一般过程是:用麦克风录制一段声音,经过取样后( 一般 取样速率可选8 1 d - i z ) 变成数字语音信号。语音信号是时变信号,其波形变化速 度相当快。但从频域上观察数字语音信号,可发现频谱随时间变化缓慢,因此 可把短时间内的语音信号视为“短时稳定”( s h o r tt i m es t a t i o n a r y ) 信号,可以采 用“短时处理”( s h o r tt i m ep r o c e s s i n g ) 方法。这种方法是假设在一短时问中,其 特性是固定的,通常称这个短时间为一个语音帧( f r a m e ) 。本文中,将整段语音 信号切割成许多语音帧,每个语音帧的长度为2 5 6 点,再对这些语音帧进行特 征参数的提取。语音信号预处理的主要步骤如下: 1 归一化处j 堡( n o r m a l i z a t i o n ) :因为说话音量的大小会影响每个语音帧的 能量值,为了消除每个人说话大小声的差异,因此将能量做归一化处理。 2 预加重( p r e e m p h a s i s ) :声音经过1 0 k h z 的取样后转成数字语音信号, 接着通过一个一阶高通滤波器作预加重处理,以突出高频成分。 语音从嘴唇发出后,会有高频损失,为弥补这些高频损失,在此须做预加 重处理,把每帧内的语音信号用下面的高频滤波器来加强高频分量: y ( z ) = 日( z ) x ( z ) = ( 1 一o 9 5 z 。) x ( z ) r 2 - 4 、 h ( z 1 = 1 一a z 。 其中 a = 0 9 1 从时域观点看,原取样值x n 通过高频滤波器后变成y n 。 y o 】= 4 0 】 ( 2 - 5 ) y f n 】= x n 卜0 9 5 x n l 】, 1 n l 3 取语音帧:取2 5 6 点为个语音帧( 2 5 6 m s ) ,语音帧与语音帧之问重迭 1 2 8 点0 2 8 m s ) ,即每次位移1 2 8 点后再取2 5 6 点作为下一个语音帧,这样可 第一二章说话人识别基础及参数提取 以避免语音帧之间的特性变化太剧烈。 4 加窗处理:乘上汉明窗( h a m m i n gw i n d o w ) 后通过低通滤波器。对每一 个语音帧乘上汉明窗可以消除语音帧两端的不连续性,避免分析时受到前后语 音帧的影响。将语音帧通过低通滤波器,可去除异常高起的噪声。 汉明窗函数为: 矗( 珂) :0 5 4 0 4 6 c o s f 兰等l 0 玎n 一1 ( 2 6 ) 其中,n 代表帧长度。 5 计算短时能量( s h o r t - t i m ee n e r g y ) :短时能量代表音量的高低,可根据短 时能量大小来删掉所处理的声音一些细小噪声。短时能量计算公式为: e ( 以) = x 2 ( 甩) ( 2 7 ) 若某语音帧能量小于一个规定的阈值,则此语音帧可不予考虑,认为此时 没有声音。 经过上面几个步骤后,可将一段数字语音信号转成许多语音帧,并去除语 音信号中一些噪声或无声的信息,接着使用特征参数提取方法,从有效的语音 帧中提取适当的特征参数。 2 3 特征参数提取 根据语音信号产生的模型可知,语音信号s ( z ) 是一个线性非移变因果稳定 系统矿( z ) 受到信号u ( z ) 的激励后产生的输出。在时域上,可以相应把语音信 号s ( n ) 看成是由该系统的单位取样响应v ( 膣) 和激励信号u ( n ) 的卷积。对于一个 人而占,形象的可以认为“( ”) 表示人说话时气流的冲击函数,而v ( h ) 则是人的 声道响应。那么,在说话人识别中,如果可以通过语音信号j ( ”) 来得到声道响 应函数v ( 打) ,以此作为判别说话人的特征,说话人识别就可以实现。信号的同 态处理就可以实现这一功能。 信号的同态处理可以完成由卷积运算转换成和运算的功能。对于语音信号 而占,由于在z 域上有s ( z ) = u ( z ) v ( z ) ,频域上的乘积等于时域上的卷积,设 此三者的复倒谱分别为s ( ”) ,( 盯) 和v 。( ”) ,经过同态处理后可以得到: s i ( 胛) = u l ( ) + v l ( 胛) 得到如上函数后再采用一个倒滤波器就可以分离出v ,( ”) 。 以上一系列同态处理过程可以称之为解卷。本文中采取了参数解卷的方 法,即首先为线性系统建立一个模型,然后对模型参数按照某种最佳准则进行 第二章说话人识别基础及参数提取 估计。如果所采取的模型中只包含有限值极点而没有有限值零点( 即全极点模 型) ,那么系统的函数可表示为: m ) = 去 其中,彳( z ) = 口,z l o = l ,p ) ,这时解卷算法就可以转化成对各模型参 数q i 的估计。如果采用最小均方误差对该模型进行参数估计,这就是我们所说 的线性预测编码算法。 由此可知,我们面临的问题集中到如何求得参数解卷问题即求得系数a i 及 其阶数p 的问题。上面已经提到,线性预测估计能按照“最小均方误差”给出 问题的解。 2 3 1 线性预测系数( l p c i 特征参数以帧为单位,每帧都可以求出一组特征参数。 线性预测系数是线性预测方程的一组解。线性预测的基本原理是:假设目 前的声音取样值可由其前面p 个取样值的线性组合来预测,即语音样点间具有 相关性,可以用过去的样点值预测未来的样点值。线性预测公式为: s ( h ) :g u ( n ) + 芝ds s(盯一f)(2-8) ,;i 其中a 。称为线性预测系数,共有p 个:( 肝) 为激励信号,g 为激励增益。 将其转换为z 域表示,可得下式: p s ( z ) = g u ( z ) + 口,z 叫s ( z ) ( 2 9 ) i = 1 在此模型中,语音信号可视为被声源脉冲或随机噪声激励声道滤波器所产 生的输出信号,声道滤波器可用一个全极点滤波器表示。全极点滤波器定义为: 一器2 万g 。丽1 陋 据此线性组合,所预测的语音信号f m 为: p f ( 盯) = 口,s 一f ) ( 2 1 1 ) , l 因此,得到的预测误差e ( n ) 可表示为: p p ( ) = s ( ”) 一芎( 疗) = j ( 胛) 一口,s ( n f ) ( 2 - 1 2 ) 卢i 第二章说话入识别纂础及参数撬取 我们的豳标是希望对一个帧内的所有取样馕,求出一组线性预测系数,这 缀预测系数能使误差的虢量和达到最小,即希望求出上式的平方误麓最小值。 簸上式求蘸溅系数鬻溺靛诗舞方法各自稳关法( a u t oc o r r e l a t i o nm e t h o d ) 与 协方差法( c o v a r i a n c em e t h o d ) 等m 。 2 3 2 倒谱系数( l p c c ) 这里的铡谱( c e p s t n n n ) 系数是攒由线缝琰测系数导出戆耱参数。蓄先, 按照前面章节语音信号预处理的步骤,将数字语音信号作处理形成语音帧,再 将这些语音帧一一骰秘相关运算,求得矽阶的自褶关系数( a u t o c o r r e l a t i o n c o e f f i c i e n t s ) 。然威,根据这终基提关系数,霹算出筘除豹线性预测系数,褥枣 倒谱公式求得线性预测导出的倒谱系数。 倒谱定义为斑时对数频谱( s h o r t t i m el o g a r i t h m i cs p e c t r u m ) 的反傅立 蛄交羧。使耀倒谱分拆囊要楚能表示语誊售号孛频撰弱波峰及缨节交纯,辫于 语音信号及其复数倒谱,其z 变换为: ,fl c ( 加h 旧( 2 ) 】1 n l 赢l ( 2 - 1 3 ) 将上式对z 住微分,可以得到以下公式: q 嚣口1 1 1 ) 分类法进行分类。 第二章基丁参数的说话人识g u 方法 k - n n ( k 1 ) 的识别方法主要是对一个测试向量周围前k 个最近的邻居来进 行投票,票数最高的邻居即为所属的类别,而其余识别部分与卜n n 相同。 卜n n ( k 1 ) 的优点主要是比较公正,尤其当说话人模型库中人数越多,测试点 周围的邻居会更加混乱,通过多人投票来决定所属类别会比较准确,而缺点是 所花的时间比卜n n 要多。 k - n n 具体算法是:对于每一个待分类特征向量工,计算x 与训练集中每个 特征向量之间的距离,找出最近的k 个特征向量,用r 。( x ) 表示:然后根据这 k 个特征向量的特性来判定未待分类向量的类别。判别规则定义如下式所示“”: y ( x ,q ) = s i m ( x ,d ,沙( d ,q ) 一b j ( 3 3 ) d t | e k n n 其中,y ( x ,c ) 表示x 与类别c j 之间相似度的和;j ,( z ,c j ) o ,l 代表训 练文本d j 与类别c ,之间的相似度,即若d ,c ,则y ( d ,c ,) = 1 ,否则 y ( 矿,c j ) = 0 ;s i m ( x ,z ) 表示x 与d ,之间的相似度,可用向量间的欧几里得距 离或夹角的余弦来计算;b ,为类别c j 的阈值,只有y ( x ,q ) b j 的情况下才将 x 分到类别c 中。 向量x = 瓴,x 2 ,x 。) 和y = y l ,y 2 ,y 。) 之间的欧几里得距离公式为: 一 d i s c ( x ,_ ) ,) = 1 ( x ,叫) 2 ( 3 4 ) i = 1 向量间夹角的余弦公式为: m m ( x ,y ) = c o s ( x ,j ,) = x ,y , ,:i t y ,l 露露 ( 3 5 ) 上式也可称为余弦系数( c o s i n ec o e f f i c i e n t ) 。由余弦系数公式可知,当两向 量的维度间的比例均相同,即两向量互相平行,向量间的夹角为0 ,两向量的 余弦值为l ,代表着两向量具有极高的相似度。反之,当两向量的每一维度比 例越不相同,余弦值为将越低,代表着两向量并不相似。 k n n 算法需要储存所有训练的语音帧,且对于每一个测试语音帧均需要对 所有f 司l l 练的数据作彻底的比对来找出最近的邻居,不但需要较大的内存来储 存训练模型且花费较多的计算时间。因此,可使用向量量化方法来减少内存占 用和计算时间。 第二章基丁参数的说话人识别方法 3 2 向量量化分类法 原则上,一位说话人所说的训练语句经特征参数提取处理后,产生了许多 训练特征向量,其中包含许多有用的信息,可直接代表这位说话人,如上节介 绍的k n n 法,就是将每位说话人的所有训练特征向量当作说话人模型的参考 模型。然而,直接使用大量的特征向量进行分类计算量很大,且占用较多的内 存空间,不太实用。 向量量化方法提供一种高效率的压缩技术,其主要工作是码本( c o d e b o o k ) 的设计,也就是找出一组编码向量( c o d ev e c t o r ) 来代表每位说话人在空间中 全部的特征向量,称这一组编码向量为每位说话人的参考码本( s p e a k e r s c o d e b o o k ) 。向量量化法可以降低计算的复杂度并可减少数据储存量。在文本 无关的说话人识别系统中,向量量化分类法的识别率较高。 向量量化应用在说话人训练和识别上的主要结构图如图3 - 1 所示: 图3 一l 向量量化法说话人语音训练和识别系统 向量量化分类法的主要步骤如下: 步骤一:计算参考码本 假设每位说话人经特征参数提取处理后有l 个训练特征向量 _ ,屯,x 。) , 现在要找一组大小为k 的说话人参考码本,则可使用聚类法来求出k 个代表说 话人的向量,以减少大量训练数据的数目。 步骤二:说话人识别 接着进行说话人识别,即将一组待测试的特征向量进行分类。将一个测试 向量,输入向量量化分类器,对所有说话人的参考码本作全体搜索,找出距离 最小的码本向量。若距离最小的码本向量所属的说话人模型和输入语音的说话 人是相同的,则为正确地识别,反之,则识别错误。 重复上面步骤将所有测试的向量均找到最相近的码本向量并统计正确识 别的次数。最后,说话人识别率如式( 3 1 ) 所示。同样,若以一个语音帧( 一个 特征向量) 为输入的单位长度来识别,识别率一般偏低,所以可仿照上节所提 的分段方法来提高识别率。 6 第二章基于参数的说话人识别方法 下面几节将介绍几种聚类方法,包括用k - m e a n s 聚类法、模糊c m e a n s 和 学习向量量化”1 方法,产生说话人码本的过程。 3 3k - m e a n s 聚类算法 k - m e a n s 聚类法属于分割式聚类法( p a r t i t i o n a lc l u s t e r i n g ) 的一种,首 先给定预分的簇( c l u s t e r ) 数或称码本向量数,然后通过反复修正,达到聚类 的目的。 一般来说,分割式聚类法的目的是希望尽量减小每个群中,每一点与群中 心的距离平方差。k - m e a n s 聚类法主要是不断重复更新码本向量和寻找最近邻 居两步骤直到收敛为止。假设每位说话人的特征参数向量用k 个码本向量代表, 则k - m e a n s 算法可概述如下: 步骤一:初始值任意产生k 个值当作码本向量。 步骤二:搜索最近邻居对每一个特征向量点x ,查找与之最接近的类 中心,并将x 加入该群。 步骤三:更新码本向量重新计算各群的码本向量,并将码本向量更新。 步骤四:重复步骤二、三,直到每一数据点和码本向量的平均距离小于一 个闽值。 最后所得的一组码本向量 c ,c 。,c 。) 作为一个说话人的参考码本。说话 人训练过程就是重复上述步骤建立所有说话人参考码本的过程。 3 4 模糊c m e a n s 聚类算法 模糊c m e a n s ( f u z z yc m e a n s ,f c m ) 聚类算法是k - m e a n s 算法的改进算法。 两者之间主要的差别是模糊c - m e a n s 加入了模糊逻辑的概念,即每个数据点可 以同时属于多个类,而不是绝对地属于某一个类,且用介于o 一1 之间的系数来 表示数据点x 属于任一类的权重。 设预分的类数为k ,类中心为( c ,c 2 i ”,c 。) ,且整组数据共有n 个数据点 ( x 。x i 一,x 。) ,则可用一个矩阵u ( 大小为c n ) 来表示每个数据点属于每个群 的权重。假如有一数据点,则此数据点属于k 的权重总和必为1 ,如( 3 6 ) 式所 示。 k “= 1 ,v = 1 , 2 n ( 3 6 ) 根据矩阵u ,可定义出目标函数j 如( 3 7 ) 式所示。 第二章基于参数的说话人识别方法 j ( u ,。,c 2 ,。) :麦一:圭主0 ,7 | ,咖,( c ,一) : ( 3 7 ) i = li = i3 = i 其中,m 为权重系数,取值范围是 1 ,一 。d i s c ( c ,工,) 是c 与与之间的欧 几里得距离。 为满足式( 3 - 6 ) ,可根据式( 3 7 ) 重新定义新的目标函数j n 。如下: ,一( 【,c i ,c :,c , ,如,以) = ,一( u ,c 。,c :,c ) + ( 一1 ) 户l j z l kn。n女 = 0 ,户d i s t ( c , , 工,) 2 + 乃( 一1 ) ( 3 - 8 ) 其中入j ,j = l ,n 为l a g r a n g em u l t i p l i e r s 。 最后,为求得最佳入。,求各个参数的微分,得到: 窆0 ,p _ 。 窆0 ,户 甜口2 t 始厂 ( 3 9 ) ( 3 - 1 0 ) 根据上面定义,整个模糊c - m e a n s 算法的步骤如下: 步骤一:任意填写u 中各行列位置的数值( 0 一1 ) 步骤二:根据式( 3 - 9 ) ,计算每一类的中心c ,。 步骤三:根据式( 3 8 ) ,计算函数厶。假如j ;。已小于某个标准,或 ( 以。) 小于某种标准,则结束。 步骤四:根据式( 3 - l o ) ,计算新的矩阵u ,并回步骤二。 模糊c - m e a n s 的优点就是每个测试点可以同时属于多个类,不仅仅属于菜 一个类,所以可以提供许多信息来供识别,但缺点是所花费的时间更长。 3 5 本章小结 本章介绍了基于参数的说话人识别算法的原理,主要包括两类:数据未缩 减,如k _ n n 算法,和数据缩减的方法,如k - m e a n s 聚类法和模糊c m e a n s 算 法等,这些算法都属于模式识别的范畴。本章说明了这些算法的原理,并给出 了实现算法的步骤。 第四章基r 参数的说话入识别方法的m a t l a b 实现 第四章基予参数的说话人i , q n 方法的m a t l a b 实现 第二章和第三章分别介绍了语音参数的提取方法和说话人识别的一些算 法,本章麓这些方法秘算法憝具体实瑗。撮挺翦甏豹瑾论,本章瘸b l t l a b 谮 言编写出一套说话人识别系统,其中特征参数的提取是在m a t l a b 巾s i m u l i n k 环境下进行的。 4 。1 特征参数提取的s i m u l i n k 模块和m a t l a b 程序 特薤参数撬敢是在镕a t l a b 熬s i m u l i n k 参l :壤下或壹接逶过m a t l a b 编程实瑗, 下面分别叙述各个模块的构成及功能。 l 。 2 3 4 5 , 6 下面的模块中,备种参数的设置如下: 誊频数据采群率:1 0 k t i z ,取样穰魔:1 6 经 窗口宽度:2 5 6 点 数据重叠:1 2 8 点 线瞧羲溺系数( l 既) :1 6 除 倒谱系数( l p c c ) :1 6 阶 梅尔倒谱系数( 肼c c ) 相关参数:三角滤波器2 4 个,参数阶数为1 6 阶 4 1 1 语音信号预处理模块 语音信号预处理模块如图4 - 1 所示。求取特征参数所使用的窗长度为2 5 6 点 ( 2 5 6 m s ) ,语音帧重疆长度为1 2 8 点( 1 2 8 m s ) ,并用汉鲷窗做平滑处理,接着 霉经繇逶滤波爨滤除捧一些雾常裹起敬杂音,鞋避滤簿能量太低懿浯音筷。最 后,对每个语音帧求取】6 维的特征参数。 其中,“f r o mw a v ef i l e ”模块的功能怒读取w a v 声音文件,矮求采用未 压缨戆w a v 文传。该模块孛,霉撂定声音文传酝在路经葶爨文传名; “d i r i d ” 模块用
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 重难点解析人教版八年级上册物理《物态变化》同步练习练习题(含答案解析)
- 烘培考试题目大全及答案
- 机器人中级运维员考试题及答案
- 2025年自考法理学专业考试题库及答案
- 2025年病理学试题库和答案解析
- 钛合金腐蚀防护研究-洞察与解读
- 2025年事业单位招聘考试综合类职业能力倾向测验真题模拟试卷(备考易错解析备考)
- 2025年宁波市鄞州区面向社会公开招聘社区专职工作者55人模拟试卷有完整答案详解
- 2025广东佛山市顺德区红岗第一幼儿园临聘带班教师模拟试卷含答案详解
- 鹤壁交警考试题库及答案
- SYH公司爬坡生产:产能学习曲线构建与应用探索
- 《液冷数据中心设计标准》(征求意见稿)
- 2025年全国国家版图知识竞赛(中小学组)题库及答案
- 房屋设备设施保养方案(3篇)
- 兄妹断绝协议书
- 2025广西公需科目培训考试答案(90分)一区两地一园一通道建设人工智能时代的机遇与挑战
- 双胎妊娠教学课件
- 新教科版五年级上册科学教案
- 酒店物品处理合同协议书
- 中医肿瘤诊疗指南
- DB14∕T 3344-2025 煤矿其他从业人员安全生产培训大纲及考核要求
评论
0/150
提交评论