(通信与信息系统专业论文)基于加权fsvq和svm的说话人识别算法研究.pdf_第1页
(通信与信息系统专业论文)基于加权fsvq和svm的说话人识别算法研究.pdf_第2页
(通信与信息系统专业论文)基于加权fsvq和svm的说话人识别算法研究.pdf_第3页
(通信与信息系统专业论文)基于加权fsvq和svm的说话人识别算法研究.pdf_第4页
(通信与信息系统专业论文)基于加权fsvq和svm的说话人识别算法研究.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

(通信与信息系统专业论文)基于加权fsvq和svm的说话人识别算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

鼍 独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及 取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得 武汉理工大学或其他教育机构的学位或证书而使用过的材料。与我一 同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说 明并表示了谢意。 签名:乏僻日期:二i 尘j l 学位论文使用授权书 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即 学校有权保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权武汉理工大学可以将本学位论文的 全部内容编入有关数据库进行检索,可以采用影印、缩印或其他复制 手段保存或汇编本学位论文。同时授权经武汉理工大学认可的国家有 关机构或论文数据库使用或收录本学位论文,并向社会公众提供信息 服务。 ( 保密的论文在解密后应遵守此规定) 研究生( 签名) 叫德彳爷师( 签 期乙秒1 9 ff i坎j l t - | i j 说话人识别技术是生物认证技术的一个范畴,由于语音采集容易、经济性高 等优点,使得说话人识别成为生物识别领域上研究的一个焦点。本论文首先讨论 了端点检测以及特征提取的方法,然后在v q 的基础上提出了加权f s v q ,并将 其与s v m 融合进行说话人识别,取得了一定的研究成果。 一些端点检测技术包括倒谱特征,信息熵,谱熵等对孤立词语音的端点检测 都能达到很好的效果,但是说话人识别中用到的更多的是连续语音,实验结果显 示,短时能量和过零率对连续语音的端点检测更为有效。这主要是因为短时能量 和过零率综合考虑了语音的能量和频率。 矢量量化作为一种比较常用的说话人识别方法,虽然在编码率较低的情况 下,其识别率并不高,但是其训练速度快。因此,本论文为了提高矢量量化在低 编码率情况下的识别率,提出了加权f s v q 。加权f s v q 认为任一时刻系统都处 于一个特定的状态,当前系统的状态是由前一时刻的语音帧决定的。由于考虑到 了语音信号帧间的关联性,使得加权f s v q 相比传统v q 有着更高的识别率。实 验证明该方法相对于传统矢量量化在识别率上有一定的提高,特别是在码字较少 时( 少于8 ) ,识别率有1 0 以上的提高。 对加权f s v q 的加权系数进行探讨是本论文的另外一个重点,对比分析了按 贡献率加权、按量化精度加权、按贡献率和量化精度结合加权以及未加权四种加 权策略,实验结果证明按贡献率和量化精度结合加权可使加权f s v q 可达到最高 识别率。 加权f s v q 继承了v q 在训练速度上的优点,这主要体现在当编码率较低时, 加权f s v q 能够快速实现对大样本的训练,而这一点正是s v m 所欠缺的。相比 加权f s v q ,s v m 的主要优势在于对小样本的识别精度上,s v m 能够对小样本 实现高精度的快速识别。针对两类方法存在的缺陷,为了有效地提高说话人识别 的识别率,将二者进行融合,并最大可能地发挥二者的优势。基于加权f s v q 和 s v m 融合的说话人识别方法采用的是先选定候选人,后确定的原则。实验数据 显示:采用加权f s v q 作为第一种语音模型,s v m 作为第二种语音模型的级联 模式进行融合,在将2 0 人作为候选人的情况下,能够将单一识别率由8 3 7 2 1 提高到9 4 0 8 0 。 关键词:说话人识别,端点检测,加权f s v q ,支持向量机 a b s t r a c t s p e a k e rr e c o g n i t i o n t e c h n o l o g yi s ac a t e g o r yo f b i o m e t r i c l u t h e n t i c a t i o n t e c h n o l o g i e s s p e e c hi se a s yt oc o l l e c t ,a n dh a sl o wd e m a n do ns p e e c ha c q u i s i t i o n e q u i p m e n t t h ea d v a n t a g e so fs p e e c hm a k es p e a k e rr e c o g n i t i o na so n eo ft h ef o e u s e s o fb i o m e t r i ca u t h e n t i c a t i o na r e a s t h i sp a p e r f i r s t l yd i s c u s s e dt h em e t h o d so fe n d p o i n t d e t e c t i o na n df e a t u r ee x t r a c t i o n s e c o n d l yi tp r o p o s e dw e i g h t e df s v qb a s e do n v q a tl a s t ,c o m b i n a t i o no f w e i g h t e df s v qw i t hs v mw a su s e df o rs p e a k e rr e c o g n i t i o n a n ds o m er e s e a r c hr e s u l t sw e r eo b t a i n e d s o m em e t h o d so fe n d p o i n td e t e c t i o n i n c l u d i n gc e p s t r u mf e a t u r e s ,i n f l o n n a t i o n e n t r o p y , s p e c t r a le n t r o p ya n ds oo n ,c a l la c h i e v eg o o dr e s u l t sf o rt h ei s o l a t ew o r d s p e e c he n d p o i n td e t e c t i o n b u ti ns p e a k e rr e c o g n i t i o n ,c o n t i n u o u ss p e e c hi s u s e d m o r e t h ee x p e r i m e n t a lr e s u l t ss h o wt h a tt h em e t h o do fs h o r t - t i m ee n e r g ya n dz e r 0 c r o s s i n gr a t ec a l ld e t e c tm o r ee x a c t l y t h i si sm a i n l yb e c a u s et h em e t h o do fs h o r t t i m e e n e r g ya n dz e r oc r o s s i n gr a t et a k e sb o t he n e r g ya n d 仔e q u e n c yo f s p e e c hi n t oa c c o u n t a sac o i n m o ns p e a k e r r e c o g n i t i o nm e t h o d ,t h er e c o g n i t i o nr a t eo fv e c t o r q u a n t i z a t i o ni sl o ww h e ni th a ss m a l lc o d e w o r dn u m b e r ,b u ti t st r a i n i n gs p e e di sf a s t 1 h i s p a p e rp r o p o s e dw e i g h t e df s v qt o i m p r o v et h ei s s u ee x i s t e di nv e c t o r q u a n t i z a t i o n aw e i g h t e df s v qd i v i d e ss y s t e mi n t os e v e r a ld i f f e r e n ts t a t e s a ta 1 1 v m o m e n t ,t h es y s t e ml si nac e r t a i ns t a t e s y s t e m sc u r r e n ts t a t ei sd e t e r m i n e db yt h e p r e v i o u si n p u tv e c t o r d u et ot h ec o n s i d e r a t i o no ft h ec o r r e l a t i o no fs p e e c hs i g n a l si n t i m ed o m a i n ,t h ew e i g h t e df s v qh a sah i g h e r r e c o g n i t i o nr a t e ,c o m p a r e dw i t l l c o n v e n t i o n a lv q t h ee x p e r i m e n t a lr e s u l t ss h o wt h a tt h i s m e t h o di ss u p e r i o rt o t r a d i t i o n a lv e c t o rq u a n t i z a t i o n e s p e c i a l l yi nt h es m a l lc o d e w o r dn u m b e r ( n o tm o r e t h a n8 ) ,t h er e c o g n i t i o nr a t ei n c r e a s e sm o r et h a n10 t h ed i s c u s s i o no fw e i g h t e dc o e f f i c i e n t so ft h ew e i g h t e df s v q i sa n o t h e rf o c u s mt h i sp a p e le x p e r i m e n t sa r ec a r r i e do u ti nf o u rm e t h o d s :n ow e i g h t e d w e i g h t e d a c c o r d i n g t o c o n t r i b u t i o n ,w e i 曲t e da c c o r d i n gt o q u a n t i z a t i o na c c u r a c ya n d c o m b i n a t i v ew e i g h t i n g c o m b i n a t i v ew e i g h t i n gi sc h o s e na st h e w e i g h t e dm e t h o d b e c a u s ei tc a no b t a i nt h eh i g h e s tr e c o g n i t i o nr a t e w e i g h t e df s v qi n h e r i t st h ea d v a n t a g e so fv qi nt r a i n i n gs p e e d t h em a i n l v r e f l e c t i o ni st h a tt h ew e i g h t e df s v qc a nq u i c k l yr e a l i z eal a r g es a m p l ef o rt r a i n i n g w h e nt h ee n c o d i n gr a t ei sl o w , w h i c hi sw h a ti st h ed e f i c i e n c yo f s v m c o m p a r e d t o t h ew e i g h t e df s v q ,s v m sa d v a n t a g e sa l er e f l e c t e d i ns m a l ls a m p l e s s v mc a n i l o , , n。n o q u i c k l yr e c o g n i z e 、析t | lh i g hp r e c i s i o ni ns m a l ls a m p l e s i no r d e rt oi m p r o v et h e s p e a k e rr e c o g n i t i o nr a t ee f f e c t i v e l y , t h i sp a p e rc o m b i n e sw e i g h t e df s v qw i t hs v m t h ei n t e g r a t i o nc a nm a k ew e i g h t e df s v qa n ds v m p l a yt h eg r e a t e s tp o s s i b l e a d v a n t a g e so ft h e m m e t h o do fs p e a k e rr e c o g n i t i o nb a s e do nw e i g h t e df s v qa n d s v ma d o p t sc a s c a d em o d e l t h ec a s c a d em o d eu s e sw e i g h t e df s v qa st h ef i r s t s p e e c hm o d e la n ds v m a st h es e c o n ds p e e c hm o d e l w e i g h t e df s v qf i r s t l yc h o o s e s c a n d i d a t e s ( t h en u m b e rh e r ei s2 0 ) ,a n dt h e ns v mc o n f i r mo n ea st h ef i n a lr e s u l t e x p e r i m e n t a lr e s u l t ss h o wt h a tt h ec a s c a d em o d eo fi n t e g r a t i o nc a l lh e l pt oi n c r e a s e t h es i n g l er e c o g n i t i o nf r o m8 3 7 2 1 t o9 4 0 8 0 k e y w o r d s :s p e a k e rr e c o g n i t i o n ,e n d p o i n td e t e c t i o n ,w e i g h t e df s v q ,s v m 1 1 i 坩一 。 1 ,j r 目录 第1 章引言。1 1 1 说话人识别的研究背景及意义1 1 2 说话人识别的发展2 1 3 说话人识别概述4 1 3 1 说话人识别的原理4 1 3 2 说话人识别面临的问题5 1 4 论文的研究内容和结构6 第2 章语音前端处理与说话人识别方法8 2 1 预处理一8 2 1 1 预加重、加窗分帧8 2 1 2 各种端点检测方法的实验比较l o 2 2 语音信号的特征提取1 3 2 2 1l p c c 特征提取1 3 2 2 2m f c c 特征提取。1 4 2 2 3m f c c 与l p c c 的比较18 2 3 说话人识别方法与语音库18 2 3 1 语音库介绍18 2 3 2 说话人识别方法讨论1 9 第3 章基于加权f s v q 的说话人识别2 1 3 1 基于v q 的说话人识别2 1 3 1 1 矢量量化方法实现2 2 3 1 2 矢量量化的最佳码本设计2 3 3 2 加权f s v q 的说话人识别_ 2 5 3 2 1f s v q 算法2 5 3 2 2 加权f s v q 方法设计2 7 3 3 加权f s v q 说话人识别相关实验结果与分析2 8 3 3 1 加权系数公式的分析2 8 3 3 2 加权系数对识别结果的影响2 9 3 3 3 加权f s v q 与传统v q 以及f s v q 的实验结果对比3 0 第4 章基于支持向量机的说话人识别3 2 4 1 线性支持向量机3 2 4 1 1 线性可分s v m 3 2 4 1 2 线性不可分s v m 3 5 4 2 非线性支持向量机3 7 4 3 基于s v m 的说话人识别3 9 4 4 影响s v m 性能的因素的实验结果比较4 1 第5 章基于加权f s v q 和s v m 的说话人识别实验结果与分析4 5 5 1 加权f s v q 和s v m 的说话人识别的可行性分析4 5 5 2 1 融合方法的两种形式4 5 5 2 2 加权f s v q 和s v m 说话人识别方法的实现4 7 5 2 基于加权f s v q 和s v m 的说话人识别实验结果4 8 第6 章总结与展望5 2 致谢5 4 参考文献一5 5 攻读硕士学位期间发表的学术论文5 8 v 武汉理工大学硕士学位论文 第1 章引言 语言是人类独有的功能,是人们日常生活中交流、沟通的最直接有效的手 段。语言在声学上表现为语音,由于语音带有浓重的个人色彩,因此可将其作 为身份认证的一种有效特征。说话人识别就是将语音作为特征来进行身份认证 的一种生物认证技术。 与其他生物认证技术不同,说话人识别是跨学科的综合性应用研究领域: 每个人说话时都受声带,情绪,情感的影响,因此从这个角度出发,说话人识 别涉及到的领域包括声学、语言学,心理学,生理学等学科。正是由于说话人 识别所涉及的领域较广,使得说话人识别所面临的挑战异常艰巨,同时也正因 为这一点,使得语音相对于其他生物特征更能体现一个人的个性特征。因此, 说话人识别也越来也受到人们的关注。 1 1 说话人识别的研究背景及意义 说话人识别,又称声纹识别,其主要任务是将一未知语音和数据库中存在 的说话人模型( 或模板) 按某种方法进行比较,从而确认或辨认该未知语音的 话者身份。相比其他生物特征,语音具有许多优点:不易丢失或遗忘,容易采 集,采集设备成本低廉,不易模仿可用来做远程认证川。语音的这些优点使得说 话人识别技术得到快速的发展,并且广泛应用在各个领域。 当今世界是信息的世界,信息的保密与安全显得格外重要。生物认证技术 作为信息安全的一种认证技术,已经应用到各种场合。而作为生物认证技术的 一个重要范畴,说话人识别技术以其特有的优势在相当广泛的领域中发挥着重 要的作用。在电子商务,网上银行等金融领域中,由于网上购物,网上银行的 用户与日俱增,加上网络流行病毒和木马的盛行,使得用户仅通过文本账号和 密码作为通行手段己无法保证账户安全,通过加入说话人识别技术实行双重通 行证可有效保障账户的安全。在军事领域中,通过说话人识别技术可对命令发 出人进行身份认证,从而达到辨清敌我的目的。在公安司法领域中,可通过对 现场采集的声音进行说话人识别,从而辨认或确认声音的话者身份,可以有效 地对罪犯身份进行鉴定。在医学领域中,说话人识别技术可实现机器假肢对患 - , 一 武汉理工大学硕士学位论文 者的响应,帮助患者更好的控制机器假肢。在保安领域中,通过说话人识别技 术可记录出入人员。在工厂里,可通过工人的声音来对工人进行到厂签名。说 话人识别技术还可应用在一些机密场所的门禁系统中,如重要档案室,银行自 动取款机,声纹锁等,甚至可在身份卡中植入声纹芯片以便通过身份卡进出一 些特殊通道【2 5 j 。 说话人识别技术目前虽然还处于成长阶段,许多方面都还不成熟,但是其 独特的方便性、经济性、有效性使得其越来越受到人们的关注。并且比尔盖 茨曾说:“以人类生物特征( 指纹、语音、人脸等) 进行身份验证的生物识别技 术,在今后数年内将成为i t 产业中最为重要的技术革命。 6 1 因此,有理由相 信说话人识别将会成为生物识别认证技术中研究的焦点。 1 2 说话人识别的发展 对说话人识别的研究始于2 0 世纪3 0 年代,当时的工作主要是研究人耳如 何对声音进行辨识,并且通过听觉探索声音的可辨性。1 9 4 5 年,贝尔实验室的 p k p o o t e r 发明了语谱图,这使得声音通过视觉辨识成为可能。1 9 6 2 年,贝尔实 验室的l g :k e s t a 通过目视观察语谱图进行说话人识别,并首次提出了“声纹 的概念,使得机器自动识别说话人成为可能【7 j 。 自动说话人识别研究的第一个高潮是2 0 世纪6 0 年代,当时贝尔实验室的 s p r u z a n s k y 提出了基于模式匹配和概率统计方差分析的说话人识别方法。识别 参数的提取和选择是这个时期的主要工作。这一时期的主要成果是提出了动态 规划【8 】( d y n a m i cp r o g r a m m i n g ,d p ) 和线性预测分析【9 。( l i n e a rp r e d i c t i o n ,l p ) 方法,前者解决了语音长短对应问题,后者解决了语音信号模型的产生问题, 对促进自动说话人识别的发展有着重要的影响。 2 0 世纪7 0 年代中期,a t a l 研究了多种特征参数包括线性预测系数i 1 0 1 ( l i n e a r p r e d i c t i o nc o e f f i c i e m s ,l p c ) 、声道的冲激响应、自相关系数、声道面积函数以 及倒谱系数等,并通过实验证明了这些参数的有效性,还指出倒谱系数是当中 最为有效的特征参数。这一时期说话人识别方法也得到迅猛发展,其中最有代 表性的是基于动态规划技术的动态时间规整【1 1 1 ( d y n a m i ct i m ew a r p i n g ,d t w ) , 区分性模型矢量量化u 2 j ( v e c t o rq u a n t i z a t i o n ,v q ) 以及概率统计模型隐马尔可 夫模型l l 引( h i d d e nm a r k o vm o d e l ,h m m ) 。这些说话人识别方法的出现显著提 高了说话人识别系统的性能。d t w 作为这一时期的主要识别方法,在说话人确 2 i 武汉理工大学硕士学位论文 认方面取得了较显著的成果。 2 0 世纪8 0 年代,随着h m m 的发展成熟以及人工神经网络( a r t i f i c i a ln e u r a l n e t w o r k ,a n n ) 的崛起,一些大型公司包括a t & t 公司、t i 与美国著名的s p r i n t 公司也开始致力于说话人识别技术的研究说,话人识别进入一个崭新的时代。 通过a t & tb e l l 实验室r a b i n e r 等人的努力,h m m 由单纯的数学模型转变为可 实际应用的工程化模型,并由于其良好的概率统计特性,使其成为这个时期最 为有效的文本有关的说话人识别模型。同时期根据人耳听觉特性提出来的美尔 频率倒谱系数1 1 4 1 ( m e lf r e q u e n c yc e p s t r u mc o e f f i c i e n t ,m f c c ) 被认为是 最为有效的说话人识别特征参数,并一直沿用至今。 9 0 年代以来,高斯混合模型”j ( g a u s s i a nm i x t u r em o d e l ,g m m ) 的出现使 得原本主流的文本相关的说话人识别转变为文本无关的说话人识别,并迅速成 为说话人识别中的主要识别方法。随着模式识别与机器学习理论的发展,v a p n i k 和他的合作者于9 0 年代中期提出的支持向量机【16 j ( s u p p o r tv e c t o rm a c h i n e , s v m ) 由于其在有限训练样本的学习精度和泛化能力之间取得良好的平衡,使 其被广泛的被应用于各种模式识别领域,其中就包括说话人识别。1 9 9 6 年以来, 各种新的说话人识别技术层出不穷,如g m m u b m 结构、大规模连续语音识别 ( l v c s r ) 应用于与文本无关的说话人识别i l7 1 、s v m 和g m m 的结合基于评分 的说话人规整技术h n o r m l l 引、z n o r m t l 9 1 和t n o r m t 2 0 1 ,语音高层信息的探讨, 以及针对信道失配问题的说话人模型合成i z i j ( s p e a k e rm o d e ls y n t h e s i s ,s m s ) 技术等和特征映射瞄j ( f e a t u r em a p p i n g ) :这两年又在g m m 模型域提出了联合 因子分析1 2 3 】( j o i n tf a c t o r a n a l y s i s ) 以及本征信道1 2 4 j ( e i g e nc h a n n e l ) 的概念, 从而对信道失配问题有了比较好的解决方案,取得了识别性能的大幅度提高。 随着各种说话人识别方法的发展以及许多科研人员的努力,说话人识别技 术也逐步走出实验室向实用化发展。在说话人识别技术已经逐步成熟的今天, 许多公司诸如a t & t 、苹果公司、欧洲电信联盟、v i s a 和m o t o r o l a 等公司建立 的v - c o m m e r c e 联盟、t - n e t i x 公司、i t t 公司、k e y w a r e 公司等都有自己的实 用研究中心,并推出了关于说话人识别的产品【2 5 j 。上述基本上都是关于英文说 话人识别系统的研究,而关于汉语的说话人识别技术,国内外也有许多科研机 构及公司对其进行研究,并取得相当不错的成果。包括i n t e l 中文语音研究中心、 微软亚洲中国研究院语音组、i b m 中文语音研究中心、a t & t 公司、d i a l o g i c 公 司以及日本松下等在内的公司都对汉语说话人识别技术有一定的研究成果。国 内许多院校和公司在说话人识别技术的研究上也有着不小的成果。在国家自然 武汉理工大学硕士学位论文 科学基金及“8 6 3 计划的支持下,北京大学视觉与听觉信息处理国家重点实验 室在应用a n n 进行说话人识别的研究方面代表着国内的先进水平,并取得了许 多成果。中国科学院自动化研究所模式识别国家重点实验室首批筛选推出的科 研项目就有说话人识别技术i z 6 1 。国内对说话人识别技术的发展做出重大贡献的 院校还包括清华大学、中国科技大学、中科院声学所、浙江大学、西安电子科 技大学、上海交通大学、大连理工大学、北京邮电大学模式识别与智能系统实 验室等国家重点院校【2 7 1 。特别值得一提的是科大讯飞在2 0 0 8 年获得了国际说话 人识别评测大赛( n i s t2 0 0 9 ) 等奖,并在2 0 0 9 年获得国际语种识别评测大赛 ( n i s t2 0 0 9 ) 高难度混淆方言测试指标冠军、通用测试指标亚军,一举奠 定了自己在说话人识别技术上的国际领先地位。 1 3 说话人识别概述 1 3 1 说话人识别的原理 说话人识别技术是指通过语音信号提取说话人信息,并对语音的话者身份 进行辨认或确认的一种生物认证技术。有别于语音识别,说话人识别不需要知 道语音的具体内容是什么,它更在意的是语音的个性信息,通过语音的个性信 息辨认出语音的话者身份。一个完整的说话人识别系统包括预处理、特征提取、 模型训练以及模型匹配,其系统框图如图1 1 。 待 图1 - 1 说话人识别系统框图 说话人识别按最终任务的不同可分为两类:说话人辨认( s p e a k e r i d e n t i f i c a t i o n ) 和说话人确认( s p e a k e rv e r i f i c a t i o n ) 。本质上它们都是通过提取 待识语音的说话人个性特征与参考模型进行比较,并做出最终的判决结果。但 是识别结果却有所差异,前者通过判决后得到的是待识语音的话者身份,后者 通过判决后得到的是“是或者“不是 的结果。可见说话人辨认是一种一对 多的选择,主要是通过待识模型与参考模型库中的所有模型进行比较,得到与 自己最为相似的模型,并将该模型的话者身份作为最终结果,其原理框图如图 4 武汉理工大学硕士学位论文 1 2 所示。 待识语音 时 u 参考模型 国 与哪个岳 影 相似 待识语音l j 虱 的说话人i j 赢 u 图1 - 2 说话人辨认框图 说话人确认则是一种一对一的是否选择,通过待识模型与一特定模型进行比 较,通过判断是否超过阈值来做出“是 与“不是 与该特定模型匹配,其原 理框图如图1 3 所示。 待识语音 特定模型 图1 - 3 说话人确认框图 1 3 2 说话人识别面临的问题 说话人识别技术发展到今天,虽然已经取得了很大的进展,但是要使说话 人识别技术能够广泛地应用到各种场合,还需要解决许多问题。说话人识别技 术迫切需要解决的问题以及面临的难点包括: 武汉理工大学硕士学位论文 ( 1 ) 噪声问题。虽然许多时候噪声问题可归结为语音增强问题,但是不可 否认的是,噪声问题也是说话人识别技术迫切需要解决的一个重要问题。现今 说话人识别技术的研究一般只局限于纯净语音,对于非纯净语音的研究则停留 在一个较不成熟的阶段。但在现实应用中,噪声是不可避免的,因此如何在低 信噪比的情况下提高说话人识别系统的性能就显得及其必要了。 ( 2 ) 特征的有效性问题。一段语音信号既包括文本信息,又包含说话人的 个性信息,甚至还有噪声信息。对于说话人识别技术来讲,有效信息仅仅是说 话人的个性信息,而文本信息和噪声信息则是冗余信息。语音信号特征包含的 信息越多,特征的复杂度越高,说话人识别系统的性能就会降低,而目前还很 难找到一种有效的方法将这些信息分离开来。 ( 3 ) 语音的稳定性问题。一个人的语音会受情绪,心理,健康状况甚至年 龄的影响,这会导致训练时的语音和识别时的语音出现差异,从而影响说话人 识别系统的性能。虽然可以通过不问断训练( 比如每隔一个月训练一次) 来提 高语音的稳定性,但是这无疑会对整个系统的实效性产生影响,而且在实际应 用中也很难实现这一点。如何找到一个人在不同情感,不同心理状况,不同健 康状况以及不同年龄段下声音的共性是说话人识别面临的另外一个难题。 ( 4 ) 训练样本与识别率之间的平衡问题。训练样本越多,识别率也就越高, 这是显然的,但是由此带来的训练时间增长,数据库管理困难的问题也就凸显 了。说话人识别技术的目标应该是用少量的训练样本实现高识别率,而目前的 技术还很难实现这一点。 ( 5 ) 阈值的选择问题【2 引。对于说话人确认来讲,阈值的选择问题从来就是 一个难点。通过实验来确定阈值是一种有效的方法,但对于实际应用,这种方 法就变得无效了,因为不可能在应用前就获得训练样本。 1 4 论文的研究内容和结构 本文主要研究说话人识别常用的各种模型,并在基于矢量量化的基础上提 出了一种新的说话人识别算法一一加权有限态矢量量化( f i n i t es t a t ev e c t o r q u a n t i z a t i o n ,f s v q ) 。本文研究的另外一个重点是寻找说话人识别方法的一种 有效组合,使其能够确实有效地提高说话人识别率。 论文的结构如下: 第一章主要介绍说话人识别的研究背景及意义,简述了说话人识别技术的 6 武汉理工大学硕士学位论文 发展及现状,并对说话人识别进行概述:包括其分类,以及所面临的难点。 第二章对语音信号的预处理和特征提取方面进行分析。预处理方面主要是 分析如何对语音信号进行有效地端点检测,而特征提取方面则详尽介绍了线性 预测倒谱系数( l i n e a rp r e d i c t i v ec e p s t r a lc o d i n g ,l p c c ) 以及m f c c 的提取过 程,并对二者进行比较。 第三章则是在分析v q 的基础上,提出了一种新的说话人识别算法一加权 f s v q ,并对其如何进行说话人识别进行详尽的介绍。实验部分主要是对对加权 f s v q 的加权系数对识别结果的影响进行实验分析,并对比其与v q 和f s v q 的 说话人识别识别率。 第四章对s v m 进行详尽的介绍,包括其分类和求解最优分类超平面( 广义 分类超平面) 的过程以及非线性可分情况下核函数的选择。 第五章主要对加权f s v q 和s v m 的可行性根据实验结果进行分析。 第六章对论文内容进行总结,并对说话人识别的研究未来进行展望。 7 武汉理工大学硕士学位论文 第2 章语音前端处理与说话人识别方法 预处理和特征提取作为说话人识别的前端部分,是说话人识别系统的重要 环节。预处理的主要目的是消除说话人发声器官和采集语音信号设备( 包括麦 克风,电话等) 所引起的混叠、高次谐波失真现象,并尽可能地去除语音信号 中的噪声信号。预处理的一般流程是对语音信号进行预加重、加窗、分帧以及 端点检测。特征提取则主要用来从说话人的语音信号中提取出能够体现说话人 的个性信息,常见的语音特征参数有线性预测系数( l p c ) ,线性预测倒谱系数 ( l p c c ) 以及美尔倒谱系数( m f c c ) 。预处理和特征提取这两个环节如果处理 得当,将会显著提高说话人识别系统的性能。 2 1 预处理 , 2 1 1 预加重、加窗分帧 预处理的第一个环节就是对语音信号进行预加重,由于语音信号的平均功 率谱受声门激励和口鼻辐射的影响,高频端大约在8 0 0 h z 以上按6 d b 倍频程跌 落,即6 d b o c t ( 2 倍频) 或2 0 d b o c t ( 1 0 倍频) 所以求语音信号频谱时,频率 越高相应的成分小,高频部分的频谱比低频部分难求,为此要在预处理中进行 预加重处理。预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在 低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道 参数分析【2 9 1 。通常对语音信号的预加重可让语音信号通过一个一阶数字滤波器 实现: - ( z ) = l 一z 一1 ( 2 1 ) 式( 2 1 ) 中,一般取0 9 5 0 9 9 ,本文取0 9 7 。 语音信号的特性从长时间看是随时间变化的,是一个非平稳随机过程。但 是,由于人的发声器官也就是口腔肌肉在发声过程中存在着惯性,不可能瞬间 实现从发一个音到另外个音的转变,这期间语音的基本特性保持不变。也就 是说语音信号特性从整体上讲是变化的( 即时变特性) ,但存在着局部的“短时 8 武汉理工大学硕士学位论文 平稳性 。语音信号的“短时平稳性”是语音信号的重要特性,这使得在处理和 分析语音信号时可进行短时分析,因此可视语音信号是一个准平稳过程。实现 语音信号短时平稳性的方法就是对语音信号进行加窗分帧,一般取3 3 1 0 0 帧 秒。分帧可采用连续分段的方法也可采用交叠分段的方法,但为了实现帧与帧 之间的平滑过渡,一般采用后割3 0 】。采用交叠分段进行分帧需要定义两个概念, 一个是帧长,一个是帧移,帧长是指每一段短时语音的长度,帧移是指帧与帧 之间的交叠部分,帧移与帧长之间的比值理论上可取o 1 之间,本文取1 2 。一 段采用交叠分段进行分帧后的语音信号如图2 1 所示。 fl 门 ;八| | ll f j v v 0 帧长 e i , 一 一:l 叭口 帧长 p 贝移帧移 帧移 图2 - 1 语音信号的分帧图 语音信号的分帧是通过加窗来实现的,通过移动有限长度的窗1 3 并进行加 权来实现对语音信号的分帧。语音信号的加窗可通过语音信号与窗函数进行卷 积来实现: 艺( 疗) = x ( 聆) 幸o j ( n ) ( 2 2 ) 式( 2 2 ) 中,x ( n ) 为语音信号,c o ( n ) 为窗函数,瓦 ) 为加窗语音信号。 语音信号处理中常用的窗函数包括矩形窗和汉明窗: 矩腿 舯 l ,。鼍。 协3 , 汉腑 卅f 以4 6 c o 缸2 翮“肛1 刀0 鼍。( 2 - 4 ) 式( 2 - 3 ) 与( 2 4 ) 中,n 表示帧长。考虑到矩形窗会使语音信号的高频成分丢 失,因此本文采用汉明窗对语音信号进行加窗分帧。 9 武汉理工大学硕士学位论文 2 1 2 各种端点检测方法的实验比较 一段语音信号不仅包含说话人的语音信号,也包含着环境噪声( 无用的语 音信号) ,这主要是因为语音在采集开始前,录音结束前,说话人讲话间断中都 会产生小片段的无用语音。非说话人语音信号的加入会使得表征说话人特征的 语音片段比例减小,从而影响说话人识别的效果。端点检测的目的就是确定语 音的起始和终止点,从而区分语音信号和非语音信号。精确的端点检测技术不 仅能减少说话人识别系统中所需处理的数据量,还能有效地消除噪声段和无声 段的干扰,提高说话人识别的识别率。 常见的端点检测技术包括基于短时能量和短时平均过零率的端点检测,基 于倒谱特征的端点检测,基于熵( 信息熵和谱熵) 的端点检测以及基于复杂性 的端点检测。各种端点检测技术对于语音“0 的检测效果如图2 2 至图2 5 所 示。 卜 夕h j y、 八 卜 j _、 02 04 0e 08 01 0 01 2 0 图2 2 基于短时能量和过零率的端点检测 嘲渺 l r 舨 弋 7、一 2 04 06 08 01 0 01 2 0 图2 3 基于倒谱特征的端点检测 l o 武汉理工大学硕士学位论文 呲。_ n “。 一 l 孵。ti , l 可, i 啊 r 图2 - 4基于信息熵的端点检测 图2 - 5 基于谱熵的端点检测 从图2 2 至图2 5 中可以看出,不同的端点检测技术基本上都能很好的检测 出语音“o ”的起止点,而相对于其他端点检测技术来讲,基于短时能量和过零 率的端点检测技术是最为成熟也是用得最多的一种端点检测技术,特别是在连 续语音的说话人识别中,其检测效果相对于其他端点检测技术来讲优势显著。 语音是有能量的,如果语音是在理想情况下( 无噪声下) 采集得到的,则 具有能量的片段即为语音段。对于同时含有说话人语音信号和噪声信号的语音, 二者在能量上是有差异的,在语音段,其能量是语音能量和噪声能量的叠加, 在非语音段,则只存在噪声信号的能量,这是用短时能量进行端点检测的基础。 假设语音信号第,? 帧通过加窗处理后得到x 。( 肌) ,则矗( 聊) 应满足: 矗( ,z ) = c o ( m ) x ( n + m ) ,0 所n - 1 ( 2 5 ) 式( 2 5 ) 中,c o ( m ) 是汉明窗,是帧长。定义蠢( 啪) 的能量计算公式如下: 武汉理工大学硕士学位论文 v l e = ( 聊) ( 2 - 6 ) m = 0 式( 2 6 ) 采用信号的平方作为衡量能量大小的一个标准,虽然能够表达信 号能量的幅度变化,但这个方法存在一个缺陷:对高电平过于敏感,使得高低 电平的落差变大3 1 1 。因此,一般采用短时平均幅度函数作为度量语音信号能量 变化的标准,其表达式如下: 一l e = e i 毛( m ) l ( 2 7 ) 语音分为清音和浊音,在浊音段,语音的能量较大,容易用短时能量的方 法检测出来,而在清音段,语音能量小,通过短时能量的方法容易将其与噪声 混淆,不易检测。为了有效地检测出语音段,需要在短时能量的基础上,加入

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论