




已阅读5页,还剩57页未读, 继续免费阅读
(计算机应用技术专业论文)基于声纹特征的身份认证技术研究和实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
华东师范大学硕士学位论文基于声纹特征的身份认证技术的研究和实现 摘要 身份认证技术在日益成为业界和学术界的研究重点。作为语音处理技术和信 息安全技术相结合的一种新技术,基于声纹特征的身份认证技术取得了很多研究 成果。但与此同时,这一技术也存在着许多问题,集中在下面三个方面:一是关 于如何从语音信号中提取尽量多与身份相关且比较稳定的个人特征信息,二是关 于改进训练方法以使其针对现有特征能得到推广性更好的模型;三是关于声纹特 征在移动环境中的使用技术。本文以上述三个方面为研究对象,详细研究基于声 纹特征的身份认证系统中的关键技术并实现了一个系统原型( v o i c e d ) 。 本文的贡献在于: 1 ) 针对传统的矢量量化算法码书效率的不足,提出了改进的初始码书生成 算法a c b i 。 2 ) 利用并证明码字间的特性可以显著提高识别过程中码字搜索的速度,提 出了f n s 码字快速搜索算法。 3 ) 实现一个基于声纹的身份认证平台v o i e e l d ,支持无线移动环境的用户语 音登录。 本文的研究成果已成功运用于“基于移动工作流的企业数字版权保护系统 i n f o t r u s t ”。经过实际使用表明,v o i e e l d 可以有效增加不同级别企业用户帐户的 安全性和保密性,为企业重要资料信息提供一把语音安全锁。 关键词: 身份认证;声纹识别;矢量量化;l b g 算法;自适应码书生成;快速临近搜 索 华东师范大学硬士学位论文基于声纹特征的身份认证技术的研究和实现 a b s t r a c t t h ct e c h n o l o g yo fi d e n t i t ya l n h e n l i c 硝h a sb e c o m cr e s e a r c hh o m p o ti nt h ei u d u s 缸ya n d a c a d e n l i cf i e l d a sac o m b i n a t i o no f v o i c ep r o c e s s i n ga n di n f o r m a t i o ns e c u r i t yt e d m o l o g y , t h e t e c h n o l o g yo f i d e n t i t ya u t h e n t i c a t i o nb a s e do nv o i c e p r i n tf e a t u r eh a sg a i n e dal o to f r e s e a r c hf r u i t a tt h e 嗣哪t i m e i tc x p o $ e dl o t so fd r a w b a c k s :f i r s to fa l lh o wt oe x t r a c ts t a b l ep e r s o n a l c h a r a c t e r i s t i ci n f o r m a t i o na sm u c ha sp o s s i b l ef r o mv o i c e ;3 e c o n d l y , h o wt oi m p r o v ee a i n i n g m e t h o dt og e tb c t t e rm o d e la c c o r d i n gt o 衄出凼gf e a t u r e ;t h i r d l y , h o wt ot t s et h ev o i c e p r i n tf e a m r e i nm o b i l ee n v i r o n m e n t a i m 避a tt h e s es h o r t a g e s ,t h i sp a p e rr e s e a r c ht b ck e yt e c h n o l o g yo f i d e n t i t ya u t h e n t i c a t i o nb a s e do l lv o i c e p r i n tf e a t m e v o i c e d 蛆i d e n t i t ya u t h e n t i c a t i o nb a s e do l l v o i c e p r i n tf e a t u r es y s t e mi sa l s oa c h i e v e d m a i nc o n t r i b u t i o n t h ca u t h o r m a d e i n l h i s p a p e r m b e c o n c l u d e d f o l l o w s : 1 ) ai m p r o v e da l g o r i t h mo f i n i t i a lc o d e b o o kg e n e r a t i n gi sp r o p o s e da c c o r d i n gt ot h es h o r t a g e o f l o w - e f f i c i e n c y c o d e b o o k g e n e r 甜o na r t r a d i t i 蚴l v e c t o rq i 瑚虹z 硝0 na l 罢埘岫 2 ) f n s f f a s tn e a r e s ts e a r c h ) ,af a s tc o d ew o r ds e a r c ha l g o r i t h m i sg i v 雠b a s e do 虹t h et h e o r y t h a tf e a t u r e sb e t w e e nc o d ew o r d s i m p r o v et h es p e e do f c o d ew o r ds e a r c hm a r k e d l y 3 ) v o i c e ) ai d e n t i t ya u t h e n t i c a l i o np l a t f o r mi si m p l e m e n t e d , w h i c hs u p p o mt h ev o i c e l o g i ni nm o b i l ee n v i r o n m e n t t h er e s e a r c hf n d to ft h i sp a p e ri su s e dt oi n f o t r u s t , ae n t e r p r i s ed i g i t a lr i g h tp r o t e c t i o n s y s t e mb a s e do l lm o b i l ew o r kf l o w v o i c c i dc o u l di m p r o v et h es e c u r i t ya n ds e c r e c yo fd i f f e r e :m l e v e lo f 咖a c c o u n t so fa 她r p f i a n dp r o v i d eav o i c el o c kf o rt h ei m p o r t a mi n f o r m a t i o no f c n t c r p r i i np r a o d c e k e y w o r d s :i d e n t i t ya u t h c u t i c a t i o n ;c 印r 眦m m 倒甜o n ;v e c t o rq u a n t i z a t i o n ;l b ga l g o r i t h m ;a d a p t i v e c o d c b o o k i n i t i a l i z e r ;f a s t n e a r e s t s e a r c h 学位论文独创性声明 本人所呈交的学位论文是我在导师的指导下进行的研究工作及取得的 研究成果据我所知,除文中已经注明引用的内容外,本论文不包含其他个 人已经发表或撰写过的研究成果对本文的研究做出重要贡献的个人和集 体,均已在文中作了明确说明并表示谢意 作者签名:雄 j 授权使用声明 日期: 本人完全了解华东师范大学有关保留、使用学位论文的规定,学校有权保留 学位论文并向国家主管部门或其指定机构送交论文的电子版和纸质版。有权将学 位论文用于非赢利目的的少量复制并允许论文进入学校图书馆被查阅。有权将学 位论文的内容编入有关数据库进行检索。有权将学位论文的标题和摘要汇编出 版。保密的学位论文在解密后适用本规定。 学位论文储摊:懈 日期:坦 。羔! 蛰 志r2 淤尹 庸乍 l 、 涔 师期导日 华东师范大学硕士学位论文第1 章绪言 1 1 引言 第1 章。绪论 如今,身份鉴别活动已经应用到人们日常生活的许多方面,且已经被广泛地 应用了许多年。例如,在银行存取资金时需要输入银行卡号的密码,在计算机上 登陆需要输入口令等等。这些都是传统意义上的身份鉴别方式,主要是依靠持有 物和口令来确认身份,但是持有物容易被伪造或丢失,口令则容易被忘记或盗用, 与之相比,生物特征具有更好的安全性和可靠性,随时具备,与生俱来。生物特 征【l 】包括指纹,声纹,人脸,瞳孔识别等等。其中指纹识别 2 1 技术很常见,并且 这种技术已经十分成熟;人脸认i 正t 3 和瞳孔识别池技术的数据获取比较困难;而 人的语音声纹特征作为人的基本生理特征,具有得天独厚,不易伪造,不易模仿 和不可替代的作用,并且相对来说更容易获取,传统的语音输入设备如电话、麦 克风等都可以作为声纹识别的输入设备,不需要额外的成本。 声纹识别的应用领域十分广阔,可以应用在: 说话人核对:在电子商务和电话委托等服务中,以用户的声音作为认证 手段实现转帐汇款等;用特定人的声音实现机密场所的出入检查等。 司法取证;判断嫌疑犯的说话声音和犯罪时所记录的声音是否吻合。 医学应用:如使声纹识别系统只响应患者的命令,从而实现对患者假肢 的控制等。 声控电子密码锁:实行执行军事指挥管和飞机驾驶员的口述命令,只有 权限许可的操作人员才能进行的高级别操作等。 声纹识别( v o i c e p r i n tr e c o g n i t i o n ) 又称为说话人识别( s p e w e rr e c o g n i t i o n ) 。 声纹识别就是用待识别语音信号和预先提取的说话人的声纹特征来确定或鉴别 说话人的身份【5 嘲人类的语音包含着极其丰富的信息,不仅包含语意内容方面 的信息,同时也包含有关说话人身份的个人信息。每个人由于自己独特的声道特 性和发音特点,使其讲话具有区别于他人的特征,这是声纹识别的基本依据。 声纹识别和语音识别一样,都是通过对采集到的语音信号进行分析和处理, 提取相应的特征或建立相应的模型,然后据此做出判断:但它与语音识别又有区 别,其目的不是识别语音的内容,而是识别说话人的身份,因此它不注重语音信 号的语义,而是希望从语音信号中提取个人声纹特征。从这点上说,声纹识别是 企求挖掘出包含在语音信号中的个性因素,而语音识别是从不同人的词语信号中 寻找共同因素。由于以上区别,在处理方法上,说话人识别力图强调不同人之间 华东师范大学硕士学位论文 第l 章绪言 的差别,而语音识别力图对不同人说话的差别加以归一化,力争排除由不同说话 人引起的差异嗍。 1 2 声纹识别的基本原理 声纹识别是模式识别的一种,一般有以下几个模块组成:语言信号预处理、 特征参数提取、建立模型( 训练) 、模式匹配( 识别) 。其系统组成框图如图卜1 所 示 训练 1 3 声纹识别的分类 田i - !声皱识别原理围 根据声纹识别的目的,可以将其分为声纹确认( v o i c e p r i n t v e r i f i c a t i o n ) 和声纹 辨认( v o i c e p r i n t i d 酬丘c a i o n ) 两类【9 】: 1 ) 声纹确认( v o i c e p r i n tv e r i f i c a t i o n ) 声纹确认是根据待测说话人的语音特征,确定是否与所声称的参考说话人相 符,这种确认只有两种结果,是个二择一的问题,即只有肯定( 即得到确认) , 或是否定( 拒绝承认) 两种结果。在这种应用中,通常要求使用人提供个人信息 ( 如帐号d 等) ,系统通过验证判决d 与说话人语音信息是否符合。这时系统 会把待识别的说话人特征和计算机预先保存的标志为此d 的声纹特征相比较作 出判决。 2 ) 声纹辨认( v o i c e p r i n ti d e n t i f i c a i o n ) 声纹辨认是把待测说话人的声纹特征与系统保存的多个声纹参考模版进行 比较,来确定是参考说话人的哪一个,这是一个多选一的问题。在这种应用中, 通常不要求用户提供d 。 根据待识剐用户提供的语音内容来分,可以分为文本无关( t e x t - l n d e p e n d e n o 和文本有关嗽t - d 印即d e n t ) 两判l o - n l : 2 华东师范大学硕士学位论文第1 章绪言 1 ) 文本无关( t e x t - i n d e p e n d e n t ) 与文本无关的声纹识别系统,不规定说话人的发音内容,这就要求在模版训 练阶段能够较为全面的保存用户的语音特征,使得在识别时用户可以任意的朗读 一段文字或者一句话甚至一个短语就能被系统识别,目前的解决方法是在训练时 输入用户长时间的说话声音进行训练。 2 ) 文本有关( t e x t - d e p e n d e n t ) 与文本有关的声纹识别系统,要求用户在训练和识别时按照规定的文本内容 进行发音,使系统能够精确的建立模型,能够达到比较好的效果,但是这种识别 需要用户的配合,如果用户不按照规定内容发音,系统就会将其拒之门外。 按照识别的方法分类,目前的声纹识别可以分为模版匹配法r 1 ) l ,) “习、概率 模型法口加旧【1 3 】、神经网络法( 叼【1 棚和矢量量化法( v q ) 【堋。其中矢量量化方法 是7 0 年代后期发展起来的一种信源编码技术,之后广泛应用于语音识别、语音 编码、语音合成和声纹识别等领域。作为一种十分重要的数字信号处理方法,该 技术是根据讲话者语音特征参数空间分布来为用户建模的。使用矢量量化建立模 型,无须像d t w 那样需要进行时间规整;在训练时计算量,运算复杂度及训练 时间开销方面矢量量化方法优于传统的语音识别方法h m m ,无须对语音进行切 分计算;在推广性能方面则要好于神经网络识别方法( 神经网络不是为每个说话 人训练一个模型,而是训练出一个判决函数来区分一个训练集内的不同说话人, 所以当每次有新成员加入训练集时,需要重新训练整个网络) 1 6 2 。因此,本文采 用矢量量化的方法来进行声纹特征的建模和识别。 1 4 声纹识另u 技术的发展与现状 对说话人识别的研究始于2 0 世纪3 0 年代。早期的工作主要集中在人耳听辨 实验和探讨听音识别的可能性方面。随着研究手段和工具的改进,研究工作逐渐 脱离了单纯的人耳听辨。b e l l 实验室的l gk e s t a 用目视观察语谱图的方法进 行识别,提出了“声纹( v o i c e p r i n t ) ”【1 7 】的概念。之后,电子技术和计算机技术 的发展,使通过机器自动识别人的声音成为可能。b e l l 实验室的s 1 r u z a a s k y 提 出了基于模式匹配和概率统计方法分析的说话人识别方法,而引起信号处理领域 许多学者的注意,形成了说话人识别研究的一个高潮,其问的工作主要集中在各 种识别参数的提取、选择和实验上,并将倒谱和线性预测分析等方法应用于说话 人识别。 二十世纪七十年代末至今,说话人识别的研究重点转向语音中说话人个性特 征的分离提取、个性特征的增强、对各种反映说话人特征的声学参数的线性或非 3 华东师范大学硕士学位论文 第l 章绪言 线性处理以及新的说话人识别模式匹配方法上,如动态时间规整( d t w ) 、主分量 分析f l e a ) 、矢量量化( 、,q ) 、隐马尔可夫模型( h m m ) 、人工神经网络方法 n ) 等。 由于应用的需求和数字信号处理技术的飞速发展,说话人识别的研究得到了 广泛而深入的发展。在国际声学、语音和信号处理会议0 c a s s p , i n t c r n a t i o n a l c o a f c r r c eo n a c o u s t i c ,s p e e c ha n ds i g n a lp r o c e s s i n g ) 论文集中,每年 都有关于说话人识别的专题。说话人识别的研究已经逐渐从实验室走向实际应用 1 1 研。 在国外,如今声纹识别技术已经逐渐投入实际应用, t & t 应用声纹识别技 术研究出了智慧卡( s m a r t c a r d ) ,已经应用于自动提款机。欧洲电信联盟在电信与 金融结合领域应用声纹识别技术,于1 9 9 8 年完成了c a v e ( c a l l e rv c h d _ f i c a t i o ni n b a n k i n ga n dt e l e c o m m t m i c a t i o n ) 计划,并于同年又启动了p i c a s s o ( p i o n e e r i n g c a l la u t h e n t i c a t i f o rs e c u r es e r v i c eo p e r a t i o n ) 计划,在电信网上完成了声纹识 别。同时摩托罗拉公司和v i s a 等成立了v - c o m m e r c e 联盟,希望实现电子交易的 自助化,其中通过声音确定说话者身份是该项目的重要组成那个部分。 国内对语音识别的研究主要集中在汉语自然语言处理方面,对声纹识别方面 的研究相对要少得多,在中国主要的自然语言研究单位有:中科院声学研究所、 北京大学计算语言学研究所、清华大学智能技术与系统国家重点实验室之语音技 术中心、微软研究院自然语言研究小组、i b m 中国研究中心自然语言处理小组 等单位【嘲。 1 5 本文研究工作 声纹识别研究的关键内容是语音信号的特征提取和模式匹配两部分。本文在 研究了语音信号处理的基础上,分析了特征提取的方法和过程,对基于矢量量化 的识别方法进行了深入的研究,在m a t l a b 上实现了基于v q 的声纹识别系统, 针对传统的l b g 算法所存在的不足,提出了改进的算法a c b i ,并在码字搜索 过程中采用基于不等式的快速临近搜索算法f n s ,提高了识别的速度,实验证明, 通过对码书生成和码字搜索算法的改进,有效提高了矢量量化在声纹训练和识别 上的性能。此外,本文提出了支持无线移动环境的声纹验证系统,实现一个基于 声纹的身份认证平台v o i c e i d ,并应用到基于移动工作流的企业数字版权保护系 统( i n f o t r u s t ) 中,提高企业资料和用户帐户的安全性。 全文结构如下: 第一章介绍了声纹识别的原理和分类以及发展现状;第二章研究了语音信 4 华东师范大学硕士学位论文第1 章绪言 号的处理方法;第三章对特征参数的提取进行了研究与分析;第四章研究矢量 量化的声纹识别技术,改进传统的识别算法;第五章建立一个基于声纹的身份 认证系统v o i c c m ;第六章对作者的研究做出总结,阐述下一步开展的工作。 华东师范大学硕士学位论文第2 章语音信号处理基础 第2 章语音信号处理基础 语音的产生,来源于正常呼吸时肺部呼出的稳定气流,喉部的声带既是一个 阀门又是一个振动部件,在说话的时候,声门呼出气流冲击声带产生振动,然后 通过声道响应变成语音,由于发不同音时,声带振动频率不同和声道响应效果不 同,所以能听到不同的语音刚。人的语音一般分为两类:第一类为浊音( 又称 “有声语音”,v o i c e ds p e e c h ) ,由声带振动而产生,每一次振动使一股空气从肺 部流迸声道,形成准周期性的空气脉冲,这些空气脉冲激励声道便产生浊音,浊 音既包含元音,也包括浊辅音( 如汉语中的1 ,m ,n ,r 英语中的b ,d ,j ,p ,r ,z 等) 。; 第二类为清音( 又称“无声语音”,u n v o i c e ds p e e c h ) ,它是空气通过声道时,受 声道某些部分的挤压而引起的,一般又分为摩擦音和爆破音( p l o s i v es p e e c h ) 两种 情况,前者以空气通过声道的狭窄部分产生的湍流作为音源;后者声道在瞬间闭 合,然后在气压激迫下迅速地放开而产生了爆破音源,语音由这些音源产生,传 过声道再从口鼻送出,所有清辅音( 汉语中除l ,m n ,r 外的声母) 都属于清音。 浊音的脉冲周期称为基音周期,其倒数称为基音频率,而清音则具有更大的 随机性,发浊音时声带合拢,因声门受气流的冲击而张开,但由于声带韧性而又 迅速闭合,随后又张开和闭合,不断张开和闭合的结果,使声门向上送出一连串 喷流,声带每开启和闭合一次的时间,就是基音周期【2 l 】。通常,基音周期取决于 声带的大小、厚薄、松紧程度以及声门上下之间的气压差的效应等,随发音人的 性别、年龄及讲话时的情绪而定,男、女声的基音周期分别为5 - 2 0 m s 和2 5 - 1 0 m s , 而典型的浊音约持续l o o m s 。 时域中的基音周期,在频域中反映出一种线谱出现,该线谱的包络是浊音信 号在时域中实际波形的函数,这条频谱包络有一个上下限频率,通常在 3 k i - i z - 4 k h z 之间,在这条包络上还有几个明显的峰点,称为共振峰,共振峰所对 应的频率,也就是能量较大的频率,通常称共振峰频率网,由它们决定了不同的 语音特征。 2 1 语音信号产生模型 在研究了语音的产生过程以后,便可以建立一个离散时域的语音信号产生 模型。这个语音信号数字模型包括四个子模型:激励模型、声管模型、共振峰模 型和辐射模型嘲。 6 华东师范大学硕士学位论文第2 章语音信号处理基础 2 1 1 激励模型 发浊音时,由于声带不断张开和关闭,将产生间歇的脉冲波。此时的激励 信号是一个以基音周期为周期的斜三角脉冲串。此脉冲可看作加权的单位脉冲串 激励单个斜三角脉冲的结果。这时的整个激励模型用公式( 2 1 ) 表示: u ( 力= e ( 力g ( 力2 ( 亡芝:= f i = j 丐_ ) 2 ( 2 1 ) 其中c 为常数,t 为基音周期,氐为幅度控制因子,e ( z ) 为单位脉冲串的z 变换形式,g ( z ) 为斜三角波形二极点模型。发清音时,声道被阻碍形成湍流,所 以可以模拟成随机白噪声。实际上,通常使用均值为0 、方差为1 并在时间或幅 度上为随机分布的序列表示。 2 1 2 声管模型 最简单的声道模型是将其视为多个不同截面积的管子串联而成的系统,这 就是声管模型。在语音信号的某一。短时”期间,声道可表示为形状稳定的管道。 由于语音的短时平稳性,假设在短时间内,各段管子的截面积彳是常数。设第口 段和矿j 段的声管的截面积分别是厶4 。设: l = _ a m + ! 一- - a m ( 2 2 ) ? 以+ l + 以 丘称为“面积和差比”,其取值范围为- l k , r ,且设分子与分母无公因子及分母无重根,则上式可分解为部分 分式之和,即并联型的共振峰模型: 心) = 喜两南 ( 2 6 ) 矿( z ) = _ 亡争j 了 ( 2 6 ) ,- o 一,t 、 2 1 3 3 混合型 将级联型和并联型结合起来的混合模型是比较完备的一种共振峰模型,该 模型能够根据不同性质的语音进行切换。 2 1 4 辐射模型 声道的终端为口和唇,从声道输出的是速度波,而语音信号是声压波,声 压波与速度波二者之比称为辐射阻抗忍。它表征口和唇的辐射效应,也包括圆 形的头部的绕射效应等。口屠端辐射在高频端较为显著,在低频端时影响较小, 所以辐射模型r ( z ) 应是一阶类高通滤波器的形式。口唇的辐射效应可表示为式 s 华东师范大学硕士学位论文第2 章语音信号处理基础 ( 2 6 ) 的一阶后向差分: r ( o = r 。0 z 。) ( 2 6 ) 完整的语音信号数字模型可以用三个子模型:激励模型、声道模型和辐射 模型的串联来表示,其传递函数为: h ( z ) = u ( z ) v ( z ) r ( z ) ( 2 7 ) 2 2 语音信号的分析方法 2 ,2 1 时域分析 时域分析的参数主要有短时能量、短时平均幅值、短时平均跨零率、短时 自相关函数和平均幅度差函数等1 7 a 。利用从语音信号中取出一小帧窗函数,可以 看作一个屏蔽其它语音信号的过滤函数。设窗函数w ( t ) ,语音信号函数x ( n ) , 某帧语音的起始样本为n ,样本数( 帧长) 为n ,那么该帧的各个参数表示如下。 2 2 1 1 短时能量 e = 【x ( m ) 以栉一哟】2 = 【x ( m ) ,( 疗一m ) 】2 ( 2 8 ) _ - 一+ l 短时能量是指语音信号在该帧中的平均能量,它的主要用途是区分无声与 有声的分界、声母与韵母的分界连字之同的分界等。 2 2 1 2 短时平均幅值 日 鸩= i x ( m ) i “万一哟= 4 x 卜以以) ( 2 9 ) 月i o q 短时平均幅值在某种情况下用来代替短时平均能量,因为短时平均能量对 于电平而言其平方运算就显得过于灵敏,改用短时平均幅值可以避免一些单个突 发的高电平噪音产生太大的影响。 9 华东师范大学硕士学位论文 第2 章语音信号处理基础 2 2 1 。3 短时平均过零率 乙= s g n x ( m ) - s g n x ( m - 1 ) 卜( n - m ) ( 2 1 0 ) _ 鼽蛳c 咖e 。浆:为符髑数; 螂书临t 藉 n - l + p 时( 所) 为零,所 以此时c 哪也为零,即没有预测误差。基于上式加窗信号的均方误差又可写成: 华东师范大学硕士学位论文第3 章语音信号的特征参数研究 一- d r e = e :( 眇,并且 i o n - l + p 丸( f ,七) = j 。( m - 0 s 。( m - k ) ,1 i s p ,o j | p :。纛小哪却脚s p q 1 7 由上式可知,丸( f ,k ) 只取决于j 和k 的差值,而与这两个变量的绝对值无 关。如果定义晶( 所) 的自相关函数鼻( d 如下: ,- 1 - i e ( ,) = j 。沏) s 。+ ) , ,= 0 ,1 ,p ( 3 1 8 ) i o 那么丸( f ,七) 可以用r ( i ) 来表示,并且具有自相关函数的三种特性,即: 丸( f ,动= r o 一七) = r ( k - o = 焉乖一印r ( o ) 这样采用自相关法时l p c 方程组 九( f ,o ) :羔瓦妒( f ,的 可以表示成: 兄( 力= 艺盈刭f 一叫f p 用矩阵表示: 兄( 1 ) 兄( 2 ) 民( 3 ) b ( p ) 兄( 0 )心( 1 )砖( 2 )兄 兄( 1 )e ( 0 ) 兄( 1 )兄。 也( 2 ) 毛( 1 )凡( o )盂。o 1 ) 2 1 3 ) e 一1 ) 见( p 一2 ) e ( p 一3 ) b ( o ) q 玎2 呜 ( 3 1 9 ) ( 3 2 0 ) ( 3 2 1 ) ( 3 2 2 ) ( 3 2 2 ) 式的系数矩阵r 是一个对称矩阵r r = r 。同时它的所有3 z x , 角线和副 对角线上都具有相同的元素。这种矩阵称为托伯里兹矩阵( t o e p l i t 矗- l a t r i x ) 。 当一个方程组具有这种性质时,可以采用高效的递推算法求解,下面介绍用递推 算法求取线性预测系数的过程,该算法又称为德宾( b 哪z b i n ) 自相关递推算法d 3 1 。 1 9 华东师范大学硕士学位论文第3 章语音信号的特征参数研究 圈3 吨蕾宾求解过程 用德宾( d u r b i n ) 自相关递推算法的求解公式: 1 ) e = r ( o ) ,瑚 l - i r 。o ) 一a s o - s ) r 。( i - j ) 2 ) ,k t = 3 ) a 。= k e 4 ) ,a j o = q “。1 一毛h “,l j s i - 1 5 ) e = ( 1 一t 2 ) e o 川 6 ) 若i 仉z 1 ( 3 2 4 ) 其中a t = 1 ,2 ,p ) 为p 阶线性预测的系数。将上式带入上上式,并两边对 z 。1 求导,可得: 解得: 扩d 忑1 石。舌缸咕 ( 3 2 5 ) 步, k a k z 一。 旦_ 一= k c k z 州 ( 3 2 6 ) , - 2 - z 4 1 c l = a 1 n - i 巳= ( 1 - k n ) a i c ,i + 口 1 p k = l 根据上式即可由l p c 系数推导出倒谱系数,即l f c 倒谱( l p c c ) 。当l p c c 的阶数不超过l p c 的阶数p 时用第二式进行计算;当l p c c 阶数大于p 时,就需 要用第三式来进行计算。由上式可见l p c c 的计算过程实际上也是种向前递推 的过程。 标准的l p c c 参数只反映了声道参数的静态特性,而同一个说话人的声道参 数变化比不同人参数变化的动态特性要细微、敏感,反映说话人声道动态变化的 华东师筵大学硕士学位论文第3 章语音信号的特征参数研究 参数就是线性预测差分倒谱。其定义如下: k i o + d ( 3 2 8 ) 这里,和c 。( f + 力都表示一帧语音参数,k 为常数,通常取2 ,此时差 分参数就成为当前帧的前两帧和后两帧参数的线性组合。由此式计算得到的差分 参数为一阶差分参数,如果用同样的公式再对一阶差分参数进行计算,可得到二 阶差分参数。由于一阶差分参数需要参考前后两帧的值,因此一阶差分参数只包 括从第3 帧开始至倒数第3 帧的信息,即倒谱相比,缺少首尾各两帧。 l l p c c 及其一阶差分参数的程序实现代码d i f l p c c n l ,为注释符: 主函数d i f l p c c 差分l p c c 计算 f u n c t i o nr e s u l t d i f l p c c ( x ) x x - f i l t e r “1 0 9 3 7 5 】,1 ,x ) ; 预加重 y - e n f r a m e ( x x ,2 5 6 ,8 0 ) ;分帧 b ,c 】- s i z e ( y ) ;j - l ; l p c c - z e r o s ( b ,1 2 ) ;初始化l p c c 矩阵 l p c c 导推计算 f o ri - 1 :b z = y ( i ,:) ; a i p c ( z ,1 0 ) ; c c l l p c 2 l p c c ( a ) ; c c c c ( 2 :1 3 ) ; l p c c ( j ,:) - - c c ; j = j + 1 ; e n d g 初始化差分l p c c 参数矩阵 d l p c c - z e r o s s i z e ( i p c c ) ) , l _ b m 生堡= om 缸 华东师范大学硕士学位论文 第3 章语音信号的特征参数研究 f o ri - 3 :s i z e ( i p c c ,1 ) 一2 g 计算阶差分l p c c d l p c c ( i ,:) - - 2 + i p c c ( i 一2 ,:) 一i p c c ( i 一1 ,:) + i p c c ( i + 1 ,:) + 2 + i p c c ( i + 2 ,:) ; e n d d l p c c - d l p c c l o ; r e s u l t - f i p c c ,d l p c c , r e s u l t - r e s u l t ( 3 :s i z ec d l p c c ,1 ) 2 ,:) , 语音分帧 f u n c t i o nf - e n f r a m e ( x ,w i n ,i n c ) n x = l e n g t h ( x ) , n w i n - l e n g t h ( w i n ) j i f ( n w i n 一1 ) l e n w i n ; e l s e l e n - n w i n ; e n d i f ( n a r g i n 1 ) w w i n ( :) ; f - f + w ( o n e s ( n f ,1 ) ,:1 ; e n d 根据l p c 导出l p c c f u n c t i o nl p c c = l p c 2 工p c cci p c ) n _ i p c - - l o ;n _ i p c c - 1 6 ; i p c c 。z e r o s ( nl p c c t1 ) ; l p c c ( 1 ) - i p c ( 1 ) , f o rn = 2 :n _ i p c i p c c ( n ) ,1 p c ( n ) ; f o r1 - 1 :n - 1 i p c c ( n ) - i p c c ( n ) + i p c ( 1 ) i p c c ( n 1 ) + ( n 1 ) i n ; e n d e n d f o rn - n _ i p c + l :nl p c c i p c c ( n ) - 0 ; 华东师范大学硕士学位论文第3 章语音信号的特征参数研究 f o ri - 1 :n _ i p c i p c c i n ) 1 1 p c c i n ) + i p c 1 ) + l p c c n 一1 ) + n 一1 ) n ; e n d e n d i p c c - 一i p c c ; 3 3 美尔倒谱系数i v i f c c 在2 0 世纪8 0 年代,倒谱类型的参数由于具有两个明显的优势而逐渐取 代线性预测( l p ) 分析,其中一个优势是可以通过对倒谱域的滤波和加权来对基 于l p 的频率进行处理,第二个优势就是可以方便地应用m e l 倒谱( m e l b a s e d c e p s t r u m ) 理论。与普通实际频率倒谱分析不同,m f c c 的分析着眼于入耳的听 觉特性,因为,人耳所听到的声音的高低与声音的频率并不成线性正比关系,而 用m e l 频率尺度则更符合人耳的听觉特性叫。所谓m e l 频率尺度,它的值大体 上对应于实际频率的对数分布关系。m e l 频率与实际频率的具体关系可用式 ( 3 2 9 ) 表示: m e l 0 9 = 2 5 9 5 1 0 9 l o ( 1 + f 7 0 0 ) ( 3 2 9 ) 在解释 i f c c 的提取过程以前,首先说明一下临界带宽( c r i t i c a l b a n d ) 的概念。研究发现:在声压恒定的情况下,当噪声被限制在某个带宽时,其人耳 感觉的主观响度在该带宽内是恒定的。同样地,当声压恒定时,在这个带宽内的 一个具有复杂包络的信号的响度等价于在这个带宽中心频率位置上的。个纯音 的响度,而与信号本身的频率分布无关。根据z w i c k e r 的工作,临界带宽随着 频率的变化而变化,并与m e l 频率的增长一致,在1 0 0 0 h z 以下,大致呈线性 分布,带宽为l o o h z 左右;在1 0 0 0 h z 以上呈对数增长。根据临界频带的划分, 可以将语音频率划分成一系列三角形的滤波器序列,即m e l 滤波器组( 如图3 3 所示) 。 华东师范大学硕士学位论文第3 章语音信号的特征参数研究 粼 搬 d c t l o g ( )l f f c c 参数也是按帧计算的,参数的提取如上图所示。其中w e l 滤波的作用 是利用人耳听觉特性相似的三角滤波器组对语音信号的幅度平方谱进行平滑。对 数操作的作用是压缩语音谱的动态范围并将频域中的乘性成分变成对数谱中的 加性成分,以便过滤乘性噪声,即前面所介绍的同态处理。离散余弦变换( d c t ) 的主要作用是对不同频段的频谱成份进行解相关处理,使得各维向量之间相互独 立。提取某帧信号的美尔倒谱需要先通过f f t 得到该帧信号的功率谱s ( n ) ,转换 为w e l 频率下的功率谱。这需要在计算之前先在语音的频谱范围内设置若干个带 通滤波器:日。( 疗) ,州= o , 1 ,m 一1 ,一= o , l ,n 2 1 m 为滤波器的个数,通常取2 4 ;n 为一帧语音信号的点数,为了计算f f t 的 方便,通常取n 为2 5 6 。滤波器在频域上为简单的三角形,其中心频率为兀,它 们在m e l 频率轴上的分布是均匀的。每个滤波器的三角形的两个底点的频率分别 华东师范大学硕士学位论文 第3 章语音信号的特征参数研究 等于相邻两个的中心频率,即每两个相邻的滤波器的过渡带相互搭接,且频率响 应之和为1 。在线性频率上,当n l 较小时,相邻的厶间隔较小,随着1 1 1 的增加, 相邻的l 间隔逐渐拉开。另外在频率较低的区域,厶和,之间有一段是线性的。 带通滤波器的参数事先计算好,在计算m f c c 参数时直接使用。 m f c c 参数的计算流程如下: 1 ) 首先确定每一帧语音采样序列的点数,即确定帧长,取n = 2 5 6 ,对每帧 序列s ( n ) 进行预加重处理后再经过离散f f i r 变抉,取模的平方得到离散功率频 谱s ( n ) 。 2 ) 计算s ( n ) 通过m 个三0 ( 疗) 后得到的功率值,即计算s ( n ) 和点乙( 吣在各离 散频率点上乘积之和,得到m 个参数p - ,m = 0 ,l ,妒1 。 3 ) 计算p i 的自然对数,得到l - ,m = 0 ,1 ,y - 1 。 4 ) 对k ,l l ,”,l r 。计算其离散余弦变换,得到d - ,m = 0 ,l ,m - 1 。舍去代表 直流成分的d o ,取d 。仉,d 。作为m f c c 参数。 m f c c 系数的个数k 通常取最低为1 2 至1 6 。在谱失真测度定义中通常不用0 阶倒谱系数,因为它是反映频谱能量的。在频域进行带通滤波是对能量谱进行滤 波,而不是对幅度谱进行滤波。在为每帧计算出k 阶m f c c 参数后,通常还要为 这k 个系数分别乘以不同的权系数,实际上是一个短的窗口: 气= c 。 ( 3 3 0 ) w 。= l + 要s i n ,( 1 m 曼k ) ( 3 3 1 ) za 倒谱提升能够改善低信噪比时的特征性能,中间阶数和高阶m f c c 分量较低 阶m f c c 分量稳定,增加其在识别中的权重有助于提高特征的抗噪性能。 与l p c c 类似,标准的m f c c 参数只反映了语音参数的静态特性,而人耳对 语音的动态特征更为敏感,可以用差分倒谱来反映语音的动态变化。 , t f c c 差分参数的计算公式如下: d ( 以) = t f c ( n + 0 ( 3 3 2 ) l - - 毒 上式( 3 3 2 ) 中,c 和d 都表示一帧语音参数,k 为常数通常取2 ,这时差分 参数就称为当前帧的前两帧和后两帧参数的线性组合。由此式计算得到的差分参 数为一阶差分参数,用同样的公式对一阶差分参数进行计算,可得二阶差分m f c c 参数。而在实际使用中,可将m f c c 和各阶差分参数合并为一个矢量,作为一帧 一酉 华东师范大学硕士学位论文第3 章语音信号的特征参数研究 语音信号的参数,因为首尾两帧无法计算差分参数,所以合并后需要将首尾两帧 的参数舍去。 下面给出按照图3 6 计算肝c c 参数的主要代码: f u n c t i o nc c c = m f c c ( x ) g 归- - 制6 m e l 滤波器组系数 b a n k = m e l b a n k m ( 2 4 ,2 5 6 ,8 0 0 0 ,0 ,0 5 ,。m ) ; b a n k = f u l l ( b a n k ) ; b a n k = b a n k m a x b a n k ( :) ) ; 计算d c t 系数,1 2 2 4 f o rk = l :1 2 n = o :2 3 ; d c t c o e f ( k ,:) = c o s ( ( 2 + n + 1 ) k + p i ( 2 + 2 4 ) ) ; e n d 。 归一化倒谱提升窗口 w l + 6 s i n ( p i + 【1 :1 2 】1 2 ) , w = w m a x ( w ) ; 预加重滤波器 x x = d o u b l e ( x ) ; x x = f i l t e r ( 【1 0 9 3 7 5 】,1 ,x x ) , 语音信号分帧 x x = e n f r a m e ( x x ,2 5 6 ,8 0 ) , 计算每一帧的m f c c 参数 f o ri = l :s i z e ( x x ,1 ) y x x ( i ,:) , s y + h a m m i n g ( 2 5 6 ) ; t a b s ( f f t ( s ) ) 7 t 攀t “2 j c l = d c t c o e f + l o g ( b a n k
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年公共关系策划师职业技能水平考核试题及答案解析
- 2025年安全员B17考试模拟题库
- 2025年安全生产管理实操培训题集
- 护理教学课件资源有哪些
- 2025年渗透测试初级面试模拟题集宝典
- 2025年安全员招聘面试问题及答案解析
- 2025年村级水管员供水管理笔试题库
- 2025年机关节能面试模拟题及解析
- 2025年安全员C证复审强化复习题库
- 扁鹊见蔡桓教学课件
- 医院病历单请假用
- 肝胆外科专科知识题库及答案
- 《数字媒体基础与实践》数字媒体技术概述
- 滁州市珠龙广卫绢云母粉厂滁州市南谯区将军山绢云母矿1万吨-年露天采矿工程项目环境影响报告书
- 迷你中长导管-
- 钢质防火门安装施工方法
- 优化物理教学策略的思考(黄恕伯)
- GB/T 26358-2022旅游度假区等级划分
- GB/T 25146-2010工业设备化学清洗质量验收规范
- GB/T 14825-1993农药可湿性粉剂悬浮率测定方法
- GB/T 12008.7-2010塑料聚醚多元醇第7部分:黏度的测定
评论
0/150
提交评论