(信号与信息处理专业论文)说话人识别系统的鲁棒性研究与实现.pdf_第1页
(信号与信息处理专业论文)说话人识别系统的鲁棒性研究与实现.pdf_第2页
(信号与信息处理专业论文)说话人识别系统的鲁棒性研究与实现.pdf_第3页
(信号与信息处理专业论文)说话人识别系统的鲁棒性研究与实现.pdf_第4页
(信号与信息处理专业论文)说话人识别系统的鲁棒性研究与实现.pdf_第5页
已阅读5页,还剩69页未读 继续免费阅读

(信号与信息处理专业论文)说话人识别系统的鲁棒性研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕士学位论文 摘要 舢 i | | | i f | i f i i i | i i i | | l | 1 l l | i | i i | i i | i | 洲 y 2 0 8 3 7 2 2 说话人识别技术是一种基于个人独特的语音特征进行身份鉴别的技术。 当前,很多说话人识别系统仍处于实验阶段,少数实用系统也都有限定条件, 其主要问题有两个:一是系统在噪声环境中的性能都不可避免会急剧下降;二是 需要较长的语音文本以及大量的训练数据来建立话者模型。本课题针对以上两 点,用m a t l a b 搭建了基于矢量量化( v q ) 和基于高斯混合模型( g m m ) 的两个说话人 识别系统,深入研究了多种语音增强算法,并融入到两个识别系统中,在噪声环 境下有效提高了识别系统的鲁棒性能;使用尽可能少的训练数据( 2 s ) 建立有效的 话者模型,实现鲁棒的抗噪声说话人识别系统。此课题的研究具有一定的现实意 义。 本课题主要工作如下: ( 1 ) 研究了两种特征提取方法:l p c c 和m f c c ,选用了在有信道噪声和频 谱失真时鲁棒性较好的m c c 作为说话人识别系统的特征参数。 ( 2 ) 研究并实现了基于v q 和基于g m m 的与文本无关的说话人识别系统, 实现了对文件语音的识别和对来自麦克风声音的实时的身份识别,以及查阅和删 除数据库信息、各参数图谱分析、语音播放等功能。并对传统的l b g 算法作了 去除空胞腔及分裂上的优化。 ( 3 ) 实验室环境录制了2 3 人的6 9 段各2 秒的短语音库,于v q 和g m m 两 系统上进行了多组实验:确定了系统最佳m f c c 维数2 0 m f c c + 2 0 m f c c ( 4 0 维) 和预加重系数;证实了v q 识别率随质心数增加而增长;而对训练数据不充分的 短语音,g m m 识别率却并不随混合数增长而增加! 综合考虑识别速率,确定了 最佳质心数和混合数。实验结果也表明g m m 系统的鲁棒性优于v q 系统。 ( 4 ) 研究了基于小波的语音增强方法,包括d a u b e c h i e s 小波( d b 2 、d b 4 ) 的全 阈值消噪和s y m l e t s 小波的四种阈值消噪( h e u r s u r e 启发式阈值、r i 伊s w e 自适应阈 值;s q 咐o l o g 固定阈值;m i l l i l i l a ) ( i 极大极小值阈值) ,并融入到v q 与g m m 识 别系统中,实验测试了各种阈值小波增强对系统识别率的影响。 ( 5 ) 研究了w f 维纳滤波、s s 谱减、s 讲师s 软判决噪声抑制滤波、小波自 摘要 适应阈值消噪和m m s e s t s a l o g 短时对数谱最小均方误差五种语音增强方 法,并提出了种自适应阈值小波与子空间联合增强的新方法。先从各时域波形 图与语谱图噪点进行分析,并将各增强算法载入v q 和g m m 模型的话者识别系 统上进行实验,对测试语音进行了多种信噪比的文本相关和文本无关的识别率测 试。实验结果表明:m m s e s t s a l o g 增强有效地提高了g m m 系统的抗噪鲁 棒性;而新增强方法在噪声环境下,识别性能优于单纯的小波增强和单纯的子空 间增强,有效地提高了v q 识别系统的抗噪鲁棒性。 关键词:说话人识别短语音语音增强鲁棒矢量量化高斯混合模型 n 硕士学位论文 a b s t r a c t ,n l es p e a l ( e rr e c o 印i t i o ni sak i n do ft e c l m o l o g ) ,t h a ti su s e dt od i f f e r e n t i a t e s p e a k e r s s t a _ t u sw h i c hb a s e do np e r s o n a ls p e c i a ls p e e c hc h a r a c t e r s c u r r e n t l y ,m a i l ys p e a k e rr e c 0 9 1 1 i t i o ns y s t 锄sa r es t i l l 访e x p e r i m e n t a lp h a s e ,a n d s o m e 印p l i e ds y s t e m sa uh a v el i i i l i t a t i v ec o n d i t i o n s t 1 1 e r ea r e 铆op r o b l e m s f i r s t , s y s t e mp e 响硼a n c ei i ln o i s ye n v i r o n m e n t sw i l li 1 1 e v i t a b l yd e c l i l l es h a 印l y s e c o n d ,i t n e e d sl o n gs p e e c ht e x ta l l dl o t so f 订a i n i n gd a t at os e tu ps p e a k e rm o d e l s t h i sp a p e ri s d e a da g a i n s tt 1 1 e 铆op o i n t s ,s e t su pv e c t o rq u a i l t i z a t i o n ( v q ) 觚dg a u s s i a l lm i x t u r e m o d e l ( g m m ) s p e a k e rr e c o 印i t i o ns y s t e m so nm a t l a b ,d i s c u s s e ss e v e r a lk i l l d so f e i l h a i l c e m e n ta l g o r i t h m s 锄da d d st h e mt o 铆os y s t e m st oi m p r o v er o b u s tc a p a b i l i t ) ,i i l n o i s ys u n o u n d i i l g se f 诧c t i v e l y s e t su pe f c t u a ls p e a k e rm o d e lb ya sl i t t l ea s 仃a i l l i i l g d a t a ( 2 s ) t oa c h i e v er o b u s ta i l t i n o i s es p e a l ( e rr e c o 印i t i o ns y s t e m r e s e a r c ho nt 1 1 i s t o p i ch a sc e r t a i np r a c t i c a ls i 印i f i c a n c e t h em a i l lw o r ko ft h es u b j e c ti sa sf o l l o w s : ( 1 ) t w om e t h o d so ff e a t u r ee x t r a c t i o n l p c ca i l dm f c ca r ed i s c u s s e di nd e t a i l , t h em f c cw h i c hh a sb e t t e rr o b u s t 仃a i ti i lc h 锄e ln o i s ea i l ds p e c t n l md i s t o r t i o ni s s e l e c t e dt ob et 1 1 ec h a r a c t e rp a r 锄e t e ri 1 1s p e a l ( e rr e c o g n i t i o ns y s t e m ( 2 ) v qa 1 1 dg m ms p e a k e rr e c o 印“i o ns y s t e m sa r e 咖d i e di i i l p l e m e n t e d f u n c t i o n sa r ea c c o m p l i s h e d ,s u c h2 l sa d d i n gan e ws o u i l d 丘o mf i l e so rm i c r o p h o n e ; s p e a k e rr e c o g n i t i o n 心o mf i l eo rm i c r o p h o n ei l lt i m e ;l o a d i n gas o u n df 两mf i l e0 r m i c r o p h o n ef o rl i s t e n i l l g ;a n a l y s i so fp a r 锄e t e rs p e c t n 】m ;d a t a b a s ei l l f o r m a t i o n ; d e l e t i n gd a t a b a s ea n ds o0 n t h e n ,i t 曲p r 0 v e s 仃a d i t i o n a l l b ga l g o r i t i 吼,0 p t i i n i z e s m ee m p 够v o r o n o ia i l da b m p t i o nm e t h o d ( 3 ) s p a r s e 仃a i l l i i l gd a t a ( 2 s ) 6 9s e g m e n t so f2 3p e o p l ea r er e c o r d e di l l l a b c o n d i t i o n m a n ye x p e r i l l l e n t sh a v eb e e nd o n eo nv qa n dg m ms y s t e m 1 1 b eb e s t c o e 伍c i e n to f 匝c cp r h m p h a s i sa n d2 0 m f c c + 2 0 m f c c ( 4 0d i i n e n s i o n ) a r e 弱c e r t a i n e d t h e n ,i t 印p r 0 v e st l l a tv qr e c o 印i t i o nr a t ei si i l c r e 觞e d 雒也ec e n t r o i d s n i a b s 仃a c t n u m b e ra d d i l l g b u tm i x t i l r en u m b e rd o e s n ts 0t or e c o 盟i t i o nr a t eo fg m m s y s t e m o ns p a r s et r a i n i n gd a t a h 1v i e wo ft h er e s u l t ,c o n s i d e 血gt h es p e e ds y n t h e t i c a l l y ,t h e s y s t e ms e l e c t st h eb e s tc e m r o i dm i m b e ra l l dm i ) ( t u r en u m b e r t h ee x p e r i m e n t a lr e s u l t s a l s os h o w st h a tg m m s y s t e mi sm o r er o b u s tt h e nv qs y s t e m ( 4 ) t h er e s e a r c ho fs p e e c he n h a l l c 锄e n ti ss t u d i e db a s e d0 nw a v e l e t ,s u c ha s d a u b e c h i e sw a v e l e t ( d b 2 、 d b 4 ) w h o l er a n g ea n ds y m l e t sw a v e l e tf o u rr a n g ew h i c h n 锄e d h e u r s u r e ,r i 驴u r e ,s q 铆0 1 0 9a 1 1 dm i i l i i l l a x i t h e n ,t l l e ya r ea d d e dt ov q a i l d g m m s p e a l ( e rr e c o 盟i t i o ns y s t e m s ,a 1 1 dc o m p a r e de 髓c to ft h e mb yr e c o 盟i t o nr a t e ( 5 ) s o m ek i i l d so fs p e e c he n h a n c e m e n ta l g o r i t h m sa r eb es t u d i e d ,w h i c hn a m e d w i e n e rf i h e r ,s p e c 仃a ls u b 仃a c t i o n ,s o r d e c i s i o nn o i s es u p p r e s s i o nf i l t e r ,a u t o r i g r s l 聪w a v e l e t 锄dm i n 硫u mm e a l l 一s q u a r e e r r o rs h o r t - 1 妇e l o gs p e c t r a l a i l p l h d e ,a i l dt h i sp a p e rp r o p o s e s an e ws p e e c he i l h a n c e m e n tm e t h o dw h i c h c o m b i n e dt h es u b s p a c ew i t ht h ea d a p t i v es h r i n k a g ev a l u ew a v e l e td e n o i s i n gm e t h o d t h ew a v e f o 吼i 1 1t i m ef i e l da l l dn o i s ep o i l l ti i ll o gp o w e rs p e c t n h na r ea i l a l y s e d ,a l l di t d o e st h ee x p e r i m e n t s0 nt 、】l r os p e a l ( e rr e c o 印i t i o ns y s t e ma r e ra d d i n ge n h a n c e m e n t si n t e s tm o d e l ,a 1 1 dc o m p a r e si d e n t i f i c a t i 叽r a t e0 nd i 疏r e n ts n ro ft e x t - d e p e n d e n ta i l d t e x t - i n d e p e n d e n t t h ee x p e r i m e n tr e s u l ts h o w st h a tm m s e s t s a - l o gi sm o s t s u i t a b l ef j wg m m s y s t e m ,a i l dt h en e wm e t h o di sb e t t e rt h a nt h eo n l yu s eo fs u b s p a c e o rw a v e l e t ,“sm o s ts u i t a b l ef o rv qa i l di n l p r 0 v e sr o b u s tc 印a b i l i 够o fa n t i n o i s ef o r t h eb e s t k e y w o r d s :s p e a k e rr e c o 印i t i o n ;s p a r s e 仃a i n i n gd a t a ;s p e e c he n h a n c e m e m ; r o b u s t ;v e c t o rq u a n t i z a t i o n ;g a u s s i a i lm i x t u r em o d e l 硕士学位论文 1 1 引言 第1 章绪论 说话人识别又称话者识别或声纹识别,是指通过对说话人语音信号的分析处 理,自动确认说话人是否在所纪录的话者集合中,以及进一步确认说话人身份。 其研究涉及到人的发音器官、发音习惯、声学原理、语言学知识、自然语言理解 等多方面内容,因此它是交叉运用生理学、数字信号处理、模式识别、人工智能 的综合性研究课题【l 】。 语音是人的自然属性之一,每个人的声带、咽喉、口腔和鼻腔的构造不同, 而且每个人在肺部收缩,压迫气流由支气管经过声门和声道的方式不同,导致每 个人的语音都带有强烈的个人色彩。说话人识别是利用语音信号来识别出说话人 的身份,与指纹识别、人脸识别、虹膜识别等同属于生物识别范畴。用语音来鉴 别说话人的身份有着许多独特优势:如语音是人的固有特征,不会丢失或遗忘; 数据采集设备成本低廉,一个麦克风即可,其非接触性和简易性是其他生物特征 所不具备的优点;在使用通讯设备时更无需额外的录音设备;另外利用电话网络 还可实现远程客户服务等等。因此说话人识别具有广泛的应用前景。 在司法领域中,可以帮助对嫌疑人的查证;在保安领域中,可以用于机密场 所的进入控制、机要设备的身份核查及电子银行转帐业务的安全检查等;在互联 网应用及通信领域,可应用于声音拨号、电话银行、电话购物、数据库访问、信 息服务、语音e m a i l 、安全控制、计算机远程登陆等;在医学领域,如使识别系 统仅响应患者的命令,则可实现对假肢的控制。它能广泛的应用到各种身份鉴定, 安全保密,门警等系统中。 当前,很多说话人识别系统仍处于实验阶段,少数实用系统也都有限定条件, 其不能大规模商业化的主要问题有两个:一是说话人识别系统在噪声环境中的性 能都不可避免会急剧下降;二是需要较长的语音文本以及大量的训练数据来建立 话者模型。本课题针对电话、手机语音参数较短问题和噪声问题,利用尽可能少 的训练数据( 2 s ) 建立有效的说话人模型,先搭建了m f c c + v q 和m f c c + g m m 两 第l 章绪论 个说话人识别系统,研究测试了多种语音增强对系统识别率的影响,并提出一种 自适应阈值小波与子空间联合增强法,从带噪语音信号中提取尽可能纯净的原始 语音,消除背景噪声,提高信噪比,增强语音处理和分析系统的性能,从而增加 说话人识别系统的抗噪鲁棒性,实现高性能的抗噪声说话人识别系统,具有现实 意义。 1 2 研究背景 对说话人识别的研究始于2 0 世纪6 0 年代,早期工作主要集中在人耳听辨实 验和探讨听音识别的可能性方面。 在说话人识别的特征参数提取方面,1 9 6 3 年b e l l 实验室的s p m z 锄k y 旧 提出了用短时谱中的信息作为说话人特征,1 9 6 8 年b s a t a i 采用基音频率。1 9 7 1 年d o d d i n g 采用共振峰频率,1 9 7 2 年j j w 6 1 f 和1 9 7 5 年m r s 撇b u r 从元音和 鼻音中提取出较好的说话人特征,1 9 7 4 年b a t a l 通过比较各种参数得出倒谱系 数的性能最优,倒谱成为说话人识别系统的首选参数。1 9 8 3 年l ia 1 1 dw r e n c h 采 用l p c 倒谱参数【3 1 ,1 9 9 5 年r e y i l o l d s 【1 0 】等人采用了m e l 倒谱,取得了较好的效 果,1 9 9 6 年c 0 1 0 m b i 【1 3 1 将倒谱、差分倒谱相结合作为混合特征参数。之后r e ”o l d 又采用了m e l 倒谱和差分m e l 倒谱相结合,j u n g p as e o 、p e 仃y 等人于2 0 0 1 年 将分形维数与差分l p c 倒谱参数相结合均取得了很好的效果。 在识别方法方面,7 0 年代到8 0 年代初,多数说话人识别系统都采用模板匹 配法( p a t t e mm a t c h ) ,1 9 7 4 年,a t t 的a t a l 用模板匹配法进行了与文本有关的 说话人识别研究,其说话人辨识( o 5 s ) 的误识率及说话人确认( 1 s ) 的等差错率都是 2 。f u m i 将倒谱矢量规格化,仍然用模板匹配法对说话人确认进行了研究,获 得了o 2 的等差错率【3 】;1 9 7 9 年m a r k e l 和d a v i s 采用线性预测系数和长时统计 的方法建立了1 7 人的与文本无关的说话人辨认系统,测试语音长度为3 9 秒,其 误识率为2 。1 9 8 2 年s c h w a n z 等人利用功率谱密度估计的方法分析了对数面积 比系数在与文本无关说话人辨认中的应用,当用户数为2 1 人时误识率为2 5 。 此后,矢量量化( v q ) 方法在说话人识别中得到了广泛应用,逐渐成为与文本无 关说话人识别系统的主要方法,同时统计形式的识别方法也开始出现:1 9 8 8 年 的j b a t t i l l i 的贝叶斯辨别分析和1 9 9 3 年的a l h i g g i i l s 等人的最近邻分类器。 2 硕士学位论文 之后,神经网络技术开始应用于说话人识别,1 9 9 0 年j o g l e s b y 和j a m a s o n 的 多层感知器和1 9 9 1 年的放射状基函数,1 9 9 1 年y b e 皿a l l i 和p g a l l l i n a r i 的时延 神经网络。混合高斯模型g m m ( 见“英文缩略语中英文对照表) 和隐马尔可夫 模型h m m 也逐渐应用于说话人识别中。 实际环境中噪声无处不在。许多学者在2 0 世纪6 0 年代就在这一领域展开了工 作,2 0 世纪7 0 年代研究取得了一些基础性成果,并使语音增强发展成为语音信号 数字处理的一个重要分支。1 9 7 4 年,w e i s s ,a s c h l ( e n a s y 和p a r s o n s 提出了用谱相 减法来抑制噪声,利用噪声平均谱来估计含噪语音段的噪声抑制加性噪声。1 9 7 9 年,l 血和o p p e h e 硫提出了维纳滤波语音增强方法,估计带噪语音的a r 模型参数 以迭代的方式进行维纳滤波。进入8 0 年代后,v l s i 技术的发展为语音增强的实 时实现提供了可能。使用统计方法的语音增强方法成为研究的中心。1 9 8 0 年, m a u l a y 和m a l p a s s 3 2 提出了软判决噪声抑制方法,1 9 8 4 年,e p h r a i l l 和m a l a l l 【3 l 】提 出了基于m m s e 短时谱估计的语音增强方法。在4 0 多年的研究中,许多语音增强 方法不断被提出,奠定了语音增强的基础并使之逐渐走向成熟。 9 0 年代后,移动通信的飞速发展为语音增强的研究提供了十分现实的动力, 同时d s p 技术的进步以及其它相关理论在语音增强领域的应用,都促使了新增强 方法的出现。例如对带噪语音信号进行小波增强,或者进行子空间增强【2 1 ,或者 进行离散余弦变换来进行语音增强,以及基于人耳听觉掩蔽效应的语音增强等, 这些新方法可以改善说话人识别和语音识别的抗噪鲁棒性。 1 3 国内外研究现状 随着社会、军事以及安全等领域需求的增长,美国、日本、欧洲等一些发达 国家都相继加强了说话人识别的研究工作,我国一些科研院校和机构也对说话人 识别进行了深入研究,并取得了一定的研究成果。 当前说话人识别的研究重点转向话者个性特征的分离提取、个性特征的增 强、去除背景噪声、对各种反应语者的特征声学参数的线性或非线性处理以及新 的话者识别模式匹配方法【1 6 】上,如动态时间规整( d t 、聊、主分量分析( p c a ) 、隐 马尔可夫模型 6 】与人工神经网纠2 7 】等。 在产业化方面,美国国家安全局是应用说话人识别技术最早的部门,其安全 第1 章绪论 系统在2 0 世纪7 0 年代就应用了移动电话声纹认证技术,现美国的声纹认证技术在 金融领域的应用极其广泛。2 0 0 4 年美国电话电报公司最大的银行自动出纳机制造 商n c r 分部开始在银行中试验装有声纹认证程序的微处理机和存储芯片的自动 出纳机的声纹合适效果,5 月b e e p 2 c a r d 公司发明了装有声纹认证系统这一特殊安 全功能的信用卡。 欧洲在声纹认证的应用上也处于全球领先,欧洲电信联盟在电信与金融结合 领域应用说话人识别技术,于19 9 8 年完成了c a v e ( c a l l e rv e r i f i c a t i o ni nb a n k i i l g a n dt e l e c o m m u n i c a t i o n ) 计划,并于同年又启动了p i c a s s 0 ( p i o n e e r i n gc a u a u t h e n t i c a t i o n 矗ns e c u r es e i c eo p e r a t i o n ) 计划,在电信网上完成说话人识别。 同时,m o t o r o l a 和s a 等公司成立了v - c o i i 皿e r c e 联盟,希望实现电子交易的自助 化,其中通过声音确认人的身份是该项目的重要组成部分。其他一些商用系统还 包括:i t t 公司的s p e a l ( e r k e y 和1 - n e t i x 公司的s p e a k e z 等。 我国自执行8 6 3 计划以来,语音识别和说话人识别技术不断发展,研究水平 已经基本上与国外同步。中国科学院自动化所模识科技公司成功推出了p a l v r e k s v 声纹识别产品,它将声纹鉴别软件和其核心识别引擎集成在一起,创建语音 行业最安全、最具伸缩性、最方便的解决方案。同时,中科院自动化所研制的电 话身份认证系统集成了基于声纹的身份认证技术和语音识别技术,通过一个电话 语音对话系统与用户交流,在人机语音对答的过程中在后台进行用户的身份认 证,具有良好的性能。 国内有关说话人识别研究状况如下:针对背景噪声存在使话者识别系统的训 练和测试环境不配,导致系统性能不稳定情况,提出过一种加权特征值补偿算法; 通过综合加权、微分、组合、筛选等方法,对原始特征向量序列进行分析,提出 了一种二次特征提取方法,进一步挖掘语者语音背后的隐性个性差异。把带噪音 的语音特征值与纯净语音特征值发生偏差的部分去除,使进入识别器的特征值接 近纯净语音的特征值。在特征值补偿过程中引入了信噪比加权的方法,且提出了 用二阶神经网络进行文本无关的话者识别方案。 总之,近年来语音技术的高速发展使得声纹认证技术日趋成熟,由于语音这 一媒介自身特殊的优势,通过声纹进行身份认证的技术正在迅速走向实用化,有 较大的市场潜力。 4 硕士学位论文 1 4 本文的主要工作 本课题主要工作:首先研究并实现了基于v q 和基于g m m 的两个说话人识 别系统,选用了在有信道噪声和频谱失真时鲁棒性较好的m f c c 作为说话人识 别系统的特征参数,实现了对语音文件的身份识别和对来自麦克风声音的实时的 身份识别,以及查阅和删除数据库信息纪录、各参数图谱分析和语音播放功能。 并对传统的l b g 算法作了除空胞腔及分裂上的优化。实验室环境录制了2 3 人的 6 9 段各2 秒的短语音库,在上述两种话者识别系统上进行了多组实验的训练和 识别率的测试:确定了本系统最佳m f c c 维数和预加重系数:证实了v q 识别 率随质心数增加而增长;而对短语音,g m m 识别率却并非随着混合数提高而增 加! 由此并综合考虑识别速率确定了最佳质心数和混合数。实验结果也证明了两 系统在最佳参数下,g m m 系统的鲁棒性优于v q 系统。 接着,为使系统有抗噪鲁棒性,对加噪测试语音先进行了d a u b e c h i e s 小波 ( d b 2 、d b 4 ) 的全阈值消噪和s y m l e t s 小波的四种阈值消噪( h e u r s u r e 启发式闽值、 r i 伊s u r e 自适应阈值;s q t 、) i r o l o g 固定阈值;m i l l i i l l 觚i 极大极小值阈值) ,并融入到 识别系统中,对比了各种方法对识别率的影响。除此,还研究了w f 维纳滤波、 s s 谱减法、s d n s f 软判决噪声抑制滤波法、小波自适应阈值增强法和m m s e 短时对数谱最小均方误差法五种语音增强方法。先从各时域波形图与语谱图噪点 进行分析,而后在v q 和g m m 模型的两个话者识别系统上载入五种增强进行了 实验,测试了多种信噪比下的本文相关和文本无关的识别率,测试结果表明:小 波自适应阈值增强较适合v q 系统,m m s e 增强较适合g m m 系统。 最后,提出了一种自适应阈值小波与子空间联合增强的新方法,利用两者 在消噪上的互补性,克服仅用子空间和仅用小波的各自弊端,在保证较小失真的 同时尽力去除噪声。通过时域波形图比较分析,在两系统上实验测试了多信噪比 下的文本无关的识别率,证实了该方法在噪声环境下,识别性能优于单纯的小波 增强和子空间增强,较有效地提高了v q 识别系统的抗噪鲁棒性。 笫2 章说话人识别基理 第2 章说话人识别基理 说话人识别( 又称话者识别) 是一种基于个人独特的语音特征进行身份鉴别 的技术。与语音识别的目的不同,在处理策略上也有本质的差异。语音识别重点 在语义信息,力图对不同说话人的差别加以归一化;而说话人识别则力求将语音 信号中语义信息平均化,挖掘出包含说话人的个性因素,强调不同人之间的特征 差异,提取个性特征。 2 1说话人识别原理及分类 说话人识别基本原理如图2 1 所示,主要包括两个阶段:训练阶段和识别阶 段。训练阶段,根据话者集中的每个说话人的训练语料,经特征提取后,建立各 说话人的模板;识别阶段,由待识别话者说的语音经特征提取后,与系统训练时 产生的模型进行比较,取与测试语音相似度最大的模型所对应的说话人作为识别 结果。 图2 1 说话人识别系统原理图【1 】 f i g 2 一lm ed i 楚阳mo fs p e a k e rr e c o g n i t i o ns y s t e m 由此,该系统的实现可分解成几个基本问题:语音信号的预处理和特征提取; 说话人模型的建立和模型参数的训练;测试语音和说话人模型的匹配计算;识别 与判决策略。 说话人识别技术按其识别任务可分两类;说话人辨识s i 和说话人确认s v 。 前者是以语音来辨识话者身份,是多元判决问题,后者以语音来确认话者是否为 所声称人之身份,是二元判别问题。 6 硕士学位论文 根据识别对象不同,还可将说话人识别分为三类:与文本有关( t e x t d e p e n d e n t ) 、与文本无关( t c x ti 1 1 d 印e n d e n t ) 和文本提示型( t e x tp r o m p t e d ) 。第一类 训练和识别时采用相同的固定语句。第二类训练与测试采用不固定语句,即识别 对象是自由的语音信号,实现难度相对较大。第三类则是每次识别时,系统在一 个大规模的文本集合中选择提示文本,要求说话人按提示文本的内容发音。识别 和判决是在说话人对文本内容正确发音的基础上进行的,为了防止说话人的语音 被盗用。 2 2 说话人识别的难点 ( 1 ) 语音的时变性问题 研究表明,人类语音具有时变性,规律如下:三周以内基本没变化;一个月 后开始变化;三个月时确认率和辨认率分别下降1 0 和2 5 左右;三个月以后 识别率下降缓慢,基本无大变化。识别参数的时间变化主要由声源特性变化引起, 可考虑把声源和声道分离,只用后者组成经得起语音长期变动的说话人识别系 统。 ( 2 ) 鲁棒的说话人识别技术问题 说话人识别侧重寻找能够突现说话人独有特征的稳定参数及其相似度的计 算方法。说话人自身心理或生理因素变化、采集环境变化等都可能会使说话人语 音的声学特征发生变异,从而造成说话人识别系统识别率的下降。采用怎样的技 术来补偿环境的加性噪声、通道的卷积噪声、麦克风的非线性反应特性、说话人 自身因短期病变和情绪波动等带来的语音声学的变异和故意伪装声音。 ( 3 ) 信道话者识别问题和短语音问题 移动通信中,由于语音信号要经过声码器压缩,语音信号会产生更大的失真。 有实验表明,语音长时统计信息中包含着较为有效的说话人个性特征,因此说话 人识别系统一般需要足够长的训练语音,才能保证具有较高的识别率,然而当今 电话或手机语音参数较短,难以充分构建个人特性参数模型。 由此可见,说话人识别的难点主要为有效特征参数的提取、模型的匹配计算 以及抗噪鲁棒性。 7 第2 章说话人识别基理 2 3 说话人语音特征参数的提取 特征提取【2 】部分的作用是从语音信号波形中提取一组或几组能描述语音信 号特征的参数,如平均能量、过零率或平均过零数、共振峰、倒谱、线性预测系 数及音长、音调、声调、基音周期等超音段信息等。较好的特征要具有很高的区 别说话人能力,充分体现说话人个体间的较大差异,在特征的各维参数之间有较 好的独立性,在高识别率下尽可能减少识别维数,受到噪声和传输通道影响时能 有较好的鲁棒性。 特征参数的提取【3 】对说话人识别至关重要。基音频率和共振峰是表征语音信 号的两个重要参数,共振峰反映的是声道特性,基音频率反映的是语音激励的特 性,倒谱法是典型的基音频率检测法之一。其中基音周期因说话人的不同差异性 较大,一般女声比男声的基音频率高,童音比成人的语音基音频率高,这些基频 参数通常不独立存在,混杂在说话人声道特性和讲话内容信号中,必须运用合适 的检测算法提取,如:小波法、并行处理法、平均幅度差函数法、倒谱法等。 2 3 1 线性预测系数l p c l p c 主要是对语音信号的共振峰进行分析,重要性在于提取一组简洁的语音 信号模型参数,比较精确地表征语音信号的幅度谱,计算量不大,能够由预测系 数构成的多项式精确地估计共振峰频率和带宽。 在语音信号的l p c 模型中,语音信号样本s ( 朋) 可由如下差分方程表示: p s ( 刀) = 口i s ( 刀一露) + g 甜( 厅) ( 2 - 1 ) 七互l 式中,“( ,z ) 为激励函数,g 是增益, 吼;七= 1 ,2 ,办是l p c 系数,p 为线性预 测阶数。相应的数字滤波器传递函数徘) 为: ( 2 - 2 ) 式( 2 - 1 ) 还可以表示为p 个极点的级联髯式:日( z ) = 南,式中,乙= 嚷 硕士学位论文 是( z ) 在z 平面上第尼个极点。若( z ) 是稳定的,其所有极点都在z 平面的单 位圆内。则第足个共振峰的频率和带宽b 分别为e = 吼2 灯, b 。= 一1 n ( 以) 玎,丁为语音信号采样周期。语音信号的共振峰可以由传递函数 ) 进行估计,最直接的方式是对比) 进行多项式求根,由所求的根来判断共振 峰或谱形状极点 1 6 】。图2 2 为“南京工业大学语音与l p c 算法合成的波形图。 0 1 0 0 5 巷 口 e 0 0 5 0 1 o r i g i n a g n a i = “南京工业大学 一 一 舢。【m 。“i 删i 叫山i ij m ; 一 “” 一l 呷卯1 0 20 4060811 2 s y n t h e s i z e ds p e e c ho f 甫京工业大学“u s m gl p ca i g o 一 舢】业慢_ - - -。山l i | l | 眦山”山m l 一 一 “旧_ “m 啊_ _ 1 一册唧”肌 ”1 一 m e s 】 图2 2 原始语音与经l p c 算法合成的波形图 f i g2 20r i g i n a ls p e e c ha n dw a v e f o n ns y n t h e s i z e db yl p c 2 3 2线性预测倒谱系数l p c c l p c c 是以基于d u r b i n 或l e v i n s o n 迭代算法求解“维纳霍夫方程 获得l p c 预测系数为基础而得到l p c 倒谱系数。 在实际说话人识别系统中,很少直接使用l p c 系数,而是利用l p c 系数推导 出倒谱系数,即线性预测倒谱系数( l p c c ) 【1 8 】。它主要反映声道响应,而且往往 只需要十几个倒谱系数就能较好的描述语音的共振峰特性,因此在语音识别应用 中得到了良好的效果。对式( 2 2 ) 两边取对数,然后对z _ 作傅立叶级数展开: l n 日( z ) = c ( z ) = c 。p ( ,2 ) z ” ( 2 3 ) n = l 其中c 。尸为语音信号l p c 倒谱系数( l p c c ) 。 第2 章说话人识别基理 l n ( ) = c 卯( ,z ) z 一,式子两边对z - 1 求导,再简化得: 1 一y 口,z 卅 ”1 圭f a ,z 廿t ) _ ( 1 一圭q z 一,) 艺玎c 凹( 船) z 巾哪 ( 2 4 ) ,= l ,= l竹等1 上式中,令方程两边z 。1 各次幂系数相等,则可以得到l p c 倒谱系数吒p ( 功与线性 预测系数口,( 江1 ,2 ,p ) 的关系: p 功钏1 _ c 驴c ,z ,= 善告口。一。c 凹c 七,+ 口。 p ( 2 - 5 ) 上式看似可以无穷尽的递推下去,即l p c c 的阶数q 可以无穷大。q 越大,可 以使系数保存更多的语音信息,但是随着q 增大,高维的c 工p 将变得很小,不起 作用。一般q 取3 p 2 比较适合,若尸取8 ,q 就取1 2 。上述l p c c 提供了一组方便 且简捷的语音信号模型参数,较准确地表征了语音信号的频谱幅度,运算量不大, 将它作为模板存储,可以提高识别率并减少时间。 2 3 3m e i 频率倒谱系数m f c c 在说话人识别中,常用的语音特征是基于m e l 频率的倒谱系数m f c c 【。其 参数是将人耳的听觉感知特性和语音产生机制相结合,目前大多数识别系统中广 泛使用该特征。 据1 9 4 0 年s t e v e n s 和v o u c n l a i l 的研究,人类听觉系统所感知到的声音频率与该 声音的物理频率的对应关系并非不是线性的,而是在一定范围内呈对数关系。人 耳在嘈杂的环境中或各种变异情况下仍能正常地分辨出各种语音,其中耳蜗起了 关键作用。耳蜗的滤波作用是在对数频率尺度上进行的,在l 0 0 0 h z 以下为线性 尺度,而在1 0 0 0 h z 以上为对数尺度,这使得入耳对低频信号比对高频信号更敏 感,根据这一原理,研究者根据心理学实验得到了类似于耳蜗作用的一组滤波器 l o 硕士学位论文 组,这就是m e l 滤波器组。19 5 9 年f a i l t 提出的实际频率和m e l 频率对应的近似公式: 允= 2 5 9 5 l o g ( 1 + 厂7 0 0 ) ,其中伪线性频率。图2 - 3 为m e l 域与频域转换图。 f r e q u e n c yt om 9 i f r e q u e n a yc u r v e f r e q u e n c y 图2 3m e l 域与频域转换图 f i g2 3d i v e r s i o n0 fm e lr e g i o n 锄d 毹q u e n c yr e g i o n m e l 参数也是按帧计算的,语音信号先由f f t 从时域转换到频域,再由d c t 将频域转换到倒谱域。图2 - 4 为m e l 频率倒谱系数的提取框图。 时域频域倒谱域 盈年斗一组 丑岖 时间 s 】频率【h z 】 逆频【s 】 图2 4m e l 频率倒谱系数提取 f 追2 4e x n a c t i o no fm e l 毹q l l e n c yc 印s 臼m mc o e f f i c i e n t 先将语音信号分帧、预加重、加汉明窗处理,再进行快速傅立叶变换得到其 频谱和能量谱。并用m e l 带通滤波器组滤波,将每个滤波器频带内的能量进行叠 加,再将每个滤波器输出取对数,得到相应频带内的对数功率谱,并进行离散余 弦变换,得到m f c c 系数。将这种直接得到的m f c c 特征作为静态特征,再对 此做一阶或二阶差分,得到相应的动态特征。 分帧:语音信号是典型的非平稳信号,然而在1 0 2 5 m s 的时间范围内却可 以被认为是平稳的,所以可以用分帧来对语音信号进行分析。为避免相邻两帧的 变化度过大的截断效应,保证帧之间的平滑性和语音的连续性,帧与帧之间应有 部分重叠,一般取l 2 或1 3 帧移。本文系统帧长2 5 6 点,帧移1 2 8 点。 第2 章说话人识别基理 预加重:语音能量主要集中在低频,如果不加重高频会使高频信息相对很少, 加重可有效的利用高频信息。它按6 d b 倍频提升,去加重用6 d b 倍频衰减。实现 是通过一个f 瓜滤波器,日( z ) = 1 一舷,一般取0 9 口o 9 9 ,图2 5 为加重系 数取0 9 7 的波形图。 原始语音8 ( n ) :南京工业大学 誊睁寸籼卿帆 蒜b t 叫h j 频域表示为:( ) = 0 5 4 ) + 0 2 3 一号备) + + 号三) 】。其中, 1 2 硕士学位论文 o2 04 06 0j oosj 图2 6

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论