(电路与系统专业论文)基于子带和神经网络的话者辩识的研究.pdf_第1页
(电路与系统专业论文)基于子带和神经网络的话者辩识的研究.pdf_第2页
(电路与系统专业论文)基于子带和神经网络的话者辩识的研究.pdf_第3页
(电路与系统专业论文)基于子带和神经网络的话者辩识的研究.pdf_第4页
(电路与系统专业论文)基于子带和神经网络的话者辩识的研究.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

(电路与系统专业论文)基于子带和神经网络的话者辩识的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 从语音信号中有效地提取话者的仑厶数延焦垦进行谌茧厶身翰r j 县剔? 是语 音识别研究领域的一个重要方面,也是计算机的人工智能之一。f 随着信息化社 会的发展,其研究具有越来越重要的社会意义及实用价值,应用前景十分广阔。 因此,长期以来面向实用化的话者识别系统的研究在国际及国内都受到了极大 的关注和重视。本文以实用为目标,从系统结构简单、用户注册和使用方便着 手,采用基于短语音( 两个音节的汉语词发音,约0 6 秒) 的、与文本有关的 话者识别方式,围绕如何利用感知频域谱参数从短语音中有效获取话者个人蛙分一” 身份特征、如何有效地提高话者模型的识别性能及其噪声鲁棒性! 对感知频域 谱参数在不同方法下对话者辨识性能的影响进行了较为深入的研究。 厂 ( 本文的主要研究内容和工作成果如下 第一部分探讨了采用模板匹配方法建立话者辨识系统的各个环节,包括系 统的结构及特征参数的选择、提取、时间规正、幅度规正和模板优化等方法, 并采用传统的模板优化方法建立了一个短语音、与文本有关的话者辨认实验系 统。 第二部分采用模板匹配方法研究m e l 通道谱参数对话者辨识性能的影响, 讨论了m e l 通道谱参数的提取方法,通过大量实验分析了处于不同频带的m e l 通道的话者识别性能得出了频域的各通道的重要性排列,由此给出了子带( 通 道) 选择和组合的依据,以较少的通道获得有较好识别性能的话者辨识系统。 第三部分对b p n n 用于话者识别时,有关网络结构、隐层结点数的选取、b p n n 话者模型的混合训练等问题进行了研究;利用神经网络的自学习、自适应等功 能对不同频率的子带进行非线形拟和,弥补了模板匹配方法中各子带等权重的 缺点。提出了一种基于神经网络的话者辨识系统,有效地提高了系统的辨识性 能。 第四部分探讨了两种方法下辨识系统的噪声鲁棒性,研究了在高斯平稳噪 声情况下不同m e l 通道组合对系统辨识性能的影响,并利用了神经网络方法使 系统在噪声情况下取得较好的辨识性能。, a b s t r a c t o n eo ft h ei m p o r t a n tr e s e a r c ha r e a sr e g a r d i n gs p e e c hr e c o g n i t i o n ,a n d a l s oa n a p p l i c a t i o no f a r t i f i c i a li n t e l l i g e n c e ,i st or e c o g n i z et h ei d e n t i t yo f a c e r t a i ns p e a k e rb y m e a n so fe f f i c i e n te x t r a c t i o no fi n d i v i d u a lc h a r a c t e r i s t i ci n f o r m a t i o ne m b e d d e di nh i s s p e e c hs i g n a la l o n gw i t ht h ed e v e l o p m e n to f a ni n f o r m a t i o ns o c i e t y , r e s e a r c h i n go n s p e e c hr e c o g n i t i o nh a sb e e np l a y i n gi n c r e a s i n g l yi m p o r t a n tr o l e f u ri t ss o c i a la n d p r a c t i c a ls i g n i f i c a n c e ,w i t he x t r a o r d i n a r i l yb r o a dp r o s p e c to fv a r i o u sa p p l i c a t i o n s h e n c e ,ag r e a td e a lo fa t t e n t i o nh a sb e e ng i v e ni nt h ep a s tf e wy e a r st ot h es t u d ya n d d e v e l o p m e n to fap r a c t i c a ls y s t e mf u rs p e a k e rr e c o g n i t i o na i m i n ga tt h i sg o a l ,i nt h i s p a p e rw es e e kar e l a t i v es i m p l es y s t e ms t r u c t u r e ,c o n v e n i e n tf u ru s e r sr e g i s t r a t i o n a n do p e r a t i o n ,b ye m p l o y i n gat e x t - d e p e n d e n ts p e a k e rr e c o g n i t i o nt e c h n i q u eb a s e do f t s h o r tt e x t ( u t t e r a n c eo fm a n d a r i nd i a l e c tc o m p r i s i n gt w os y l l a b l e so fa b o u t0 6s e c o n d d u r a t i o n ) t h ep a p e ri si n v o l v e di nm a k i n gu s eo fp e r c e p t u a ls p e c t r u mp a r a m e t e rt o e x t r a c tu s e f u ls p e a k e rf e a t u r e s ,s e e k i n gw a y st oi m p r o v er e c o g n i t i o np e r f o r m a n c e a n dn o i s e - r o b u s t n e s so ft h es p e a k e rm o d e la d d i t i o n a l l y , w em a k ed e e p e rr e s e a r c h e s o ni n f l u e n c eo fp e r c e p t u a ls p e c t r u mp a r a m e t e ru p o ns p e a k e rr e c o g n i t i o nb y d i f f b r e n tm e t h o d s t h em a i nc o n t e n ta n dr e s u l t so f s t u d yi n v o l v e di nt h i sp a p e ra r ea sf o l l o w s t h ef i r s ts e c t i o nd e a l sw i t hv a r i o u sa s p e c t sc o n c e r n i n gt h eg e n e r a t i o no fs p e a k e r r e c o g n i t i o ns y s t e m m o d e lb a s e do n t e m p l a t e m a t c h e dm e t h o d ,i n c l u d i n g e s t a b l i s h m e n to fs y s t e ms t r u c t u r e , s e l e c t i o no fc h a r a c t e r i s t i cp a r a m e t e r s ,a l g o r i t h m s o f p a r a m e t e r - e x t r a c t i n g ,t i m e - n o r m a l i z i n g ,a m p l i t u d e n o r m a l i z i n g a n dm o d e l o p t i m i z i n g ,e t c m o r e o v e r ,w ee s t a b l i s hat e x t - d e p e n d e n ts p e a k e rr e c o g n i t i o ns y s t e m b a s e do nt r a d i t i o n a lt e m p l a t eo p t i m i z a t i o nm e t h o d i nt h es e c o n d s e c t i o n ,t h ei n f l u e n c eo fm e lc h a n n e ls p e c t r u mp a r a m e t e ro n p e r f o r m a n c eo fs p e a k e rr e c o g n i t i o ni s s t u d i e du s i n gt e m p l a t e m a t c h e dm e t h o d t h r o u g hd i s c u s s i o no fm e t h o df u rm e ls p e c t r u mp a r a m e t e re x t r a c t i o na n da n a l y s i so f ap l e n t yo fe x p e r i m e n t ,w eg e ti m p o r t a n c eo fe a c hm e lc h a n n e l a sar e s u l t ,w e p r e s e n tas u b h a n da p p r o a c h ,w h i c hi m p r o v e dt h ep e r f o r m a n c eo fs p e a k e rr e c o g n k i o n s y s t e m i no r d e rt oi m p r o v et h ep e r f o r m a n c e ,w ea p p l yb pt y p ea r t i f i c i a ln e u r a ln e t w o r k st o s p e a k e rr e c o g n i t i o n ,i ns e c t i o nh i , w eh a v es t u d i e dp r o b l e m sr e g a r d i n gn e t w o r k s t r u c t u r e ,s d e c t i o no ft h en u m b e ro fh i d d e nl a y e rn o d e s ,g e n e r a l i z a t i o np e r f o r m a n c e o fn e t w o r k , a n dm i x e dt r a i n i n go fb p n ns p e a k e rm o d e l b yt a k i n gt h ea d v a n t a g eo f b p n no v e r t e m p l a t e - m a t c h e d m e t h o dt on o n l i n e a rc o n s i s t e n c yf i to fd i f f e r e n t s u b b a n d s ,w ep r e s e n tas p e a k e rr e c o g n a i o ns y s t e mb a s e do nb p n n ,w h i c hp r o v i d e s g r e a ti m p r o v e m e n t i nt h ed e e p e rd i s c u s s i o no fn o i s e r o b u s tu n d e rt w om e t h o d sp r o v i d e da b o v e ,t h e i n f l u e n c eo fd i f f e r e n ts u b b a n d so np e r f o r m a n c eo fs p e a k e rr e c o g n i t i o ni ng a u s s i a n n o i s ee n v i r o n m e n ti sc o m p a r e d i ti ss h o w nt h a tb p n nm e t h o dh a sb e t t e rn o i s e r o b u s t 第一章绪论 中罾科学技术丈学磺士论文 第一章缝论 随着社会信息化程度的发展,越来越多的场合需要对人的身份进行快速、 可靠地识剐或确认,常用的身份谈别或确认方法有密码谈澍、撩纹识别等等, 颟利用人的语音避哲身份确认以英特有的优点越来越受到入们的注意;难如指 纹一样,缚个人都有自己的发音器官特铽以及讲话时特殊的语亩习惯,它们都 爱浃在说话入酶漭话鲍诱啻信号审,逶j 篷辩语蠢信号送行分褥黧处理,藏夺可 能识别出是谁在讲话,这就是利用语音进行说话人的身份识别的物理依据。 不同的话者辨认方法应用予特定的领域都有各自的优点,德也存在一些不 足之处,皴有的方法要求训练样零集过大,造成照户注艇不便;有的方法识别 时间过长等。随着现代社会生活节奏的加快,人们需要自够快瀵、方便地进行 鸯份辫谈,免魏,本文撬密一耱袋惹m e l 逮遂谬参数作势话者特薤参数褥翻豹 与文本有关的话糟辨识方法。 第一节论文研究背景和意义 话者识嬲( s p e a k e rr e c o g n i t i o n ) 1 - 3 是语巍识别鹊一个分支,我囊3 在曩 常生活中有很多识别说话人的经验。母亲能从众多的孩子的哭声中辨出自己的 孩子懿声酱,我稍邀经常胃虢煲声音识剐出謇己艨熬悉懿入。这过程始采交 机器自动实现,鼹然有赘切实而广泛的成用前景。例如,可以制出凭声凿验证 来客身份的“声纹锁”,作为住房或汽车上的门锁;还可以用于锻行业务的身份 骏涯,运谌网终巾各静救密瓷辩戆查谗关口,以及一些电话或i n t e r n e t 嬲终上 的自动交易等;在案件侦破中,如果所谓的“声纹鉴别”也能豫指纹鉴别一样 藏为可靠髂莜摇,许多法律淹憨簸透刃黼鼹了廷】。因蘧,蕨语音识羽兴起之酲 至今,话者识别一直是语音识别巾一个较活跃的领域。 话者识别的黎本原理和过程怒:先收集说话入的声膏“资料”,从中提取反 姣该说话入个人性信息的特薤参数擞为参考模数;识别酣,将德识语誊蠡鼋特征 势数与参考模板拔一定规则相比较,得出识别结果。这过程与我们日常生活 中谈剐说话入静过程类钡:我翻遴常氇怒先觚两某入的接触中了解7 该久静发 齑特征,在脑子爨建立了个该人的“参考样本”;以后这个人掰说话时,我们 第一章绪论 中国科学技术大学硕士论文 就能分辨出来,当然人脑的这识别过程要比现有的机器方法复杂得多。说话 人识别就是通过对所收到的语音信号进行处理,提取相应的特征或建立相应的 模型,然后据此判断出说话人的身份;它与语音识别的区别在于并不注意语音 信号中的语义内容,而是希望从语音信号中提取出表征个人性的语音特征。说 话人识别( s p e a k e rr e c o g n i t i o n ) 又分为两个方面,即说话人辨认( s p e a k e r i d e n t i f i c a t i o n ) 和说话人确认( s p e a k e rv e r i f i c a t i o n ) 。前者是把未标记的语音判 定为属于n 个参考说话人之中的某一个所说,是一个多者选一的问题。后者则 是根据说话人的语音确定是否与其所声言的参考说话人相符,这种确认只有两 种可能,或是肯定( 即接受) ,或是否定( 即拒绝) ( 图1 1 ) 。利用计算机对说 话人的语音进行话者辨认所提出的问题是:“未知语音是已知说话人中的哪一个 说话人的语音呢? ”,而话者确认提出的问题是:“自报姓名的未知语音是不是 该说话人的语音呢? ”,因此两者的主要区别是判决选择的数目,话者辨认是在 全部注册话者的范围内进行的,因此辨认性能将与注册话者的人数有关,随着n 的增加,辨认性能将有所下降,而话者确认与注册话者的人数多少的关系较小, 随着n 增大,确认性能接近常数;这两个范畴之间的另一个差别是,话者确认时, 说话人都是主动合作的,以便使其身份尽快得到确认;而在话者辨认情况下则 不一定,有些应用时,说话人是不能合作的。利用电话录音查出打匿名电话对 他人进行威胁的犯罪分子,是话者辨认的一个例子。而利用口令对希望进入保 密区或机要部门的人员进行身份甄别,则是话者确认的一个例子。 待识 是 a j 的 讲 话? ( a ) 话者辨认( b ) 话者确认 图l - l 话者辨认及话者确认 2 第一章绪论 中国科学技术大学硕士论文 对于说话人识别来说,不管是辨认还是确认,都可分为文本有关( t e x t d e d e n d e n t ) 的话者识别和文本无关( t e x ti n d e p e n d e n t ) 的话者识别。“与文本 有关”,即说话人按规定的文本发音或者按提示文本发音,“与文本无关”则对说 话的内容不作要求,说话人可讲任意语音。通常,“与文本有关”的方式不仅可 以获得比“与文本无关”高的识别性能,而且模型或模板的建立也要简单容易 些。 我们知道,任何语音都至少载有两类信息:与语言意义内容相关的音韵性 信息( 简称为语义信息) 以及表征说话人个人身份的个人性信息。这两类信息 是互相绞合在一起,以复杂的形式存在于声波及其频谱之中,要将其准确分离 及提取是很困难的,一般来说,需要从很长的语音数据( 3 0 秒) 才能较好地 提取出个人性信息,而对于短语音( 1 秒左右) ,要从中准确地分离出个人性信 息则是十分困难的;因此,短语音常采用“与文本有关”的方式;而且,采用 长语音文本,会使系统建立相应的话者模型算法的复杂性大大增加,也会使匹 配的时间和系统存储空间大大增加。另外,对于说话者不能配合的应用,则只 能用“与文本无关”的方式,为了提高文本无关的话者识别系统的性能,通常 需要采用较长的语音文本( 几秒以上) 。文献酬定量地分析了文本长度和识别 率之间的关系,采用较长的语音文本,有利于提高文本无关的系统识别性能: 因此,我们必须根据系统的应用范围来适当选取文本的长度及相应的算法。 第二节目前话者身份识别的研究概况 从四十年代刚开始语音识别的研究,就有人从事说话人识别工作。那时的 工作多是研究入耳对说话人的识别功能,机器识别说话人的工作并未引起注意。 直到1 9 6 2 年,b e l l 的k e r s t a 仔细考察了用语图仪( s o n o g r a p h ) 绘出的语谱i 圉( s o u n d s p e c t r o g r a p h ) ,发现同一个人发同一个音的谱总是比不同人发同一个音的谱更 相似,证明了机器自动识别发音人的可能性。正是在k e r s t a 同年发表的文章中 首次使用了“声纹”( v o i c ep r i n t ) 这一名词。他用比较语谱图的方法对1 2 个人做 固定内容的辨认实验,正确率达9 9 t ”i s 。但这实际上并不是机器自动识别说 话人,而是由入看语谱图做结论,带有很大的主观性。但这一工作激发了人们 第一章绪论 中国科学技术大学硕士论文 对说话人识别的兴趣,使更多的人投入到这一工作中,不断有新结果和论文发 表,除继续研究语谱图在说话人识别方面的作用外,还将各种语音分析技术尝 试用于说话人识别。六十年代末期,计算机应用日益普及,大大推进了说话人 识别的研究工作。1 9 6 9 年l u c k 首次将倒谱技术用于说话人识别,得出了较好 的结果。这以后,人们纷纷将l p c 类系数用于说话人识别,提高了识别系统的 精度,其中以b e l l 实验室的工作最早、最深入。随后的七十年代是说话人识别 的活跃阶段,除出现了一些接近实用的识别系统外f 9 i ,一些学者还对各种参数 的性能做了大量的理论及实践研究,为以后的工作打下了基础。 八十年代,各种信号处理技术趋于成熟,一些快速信号处理器件被广泛使 用,矢量量化技术也被引入语音识别领域,这些因素使说话人识别有了较为迅 速的发展。1 9 8 5 年b e l l 实验室用l p c 系数和矢量量化技术对1 0 0 个说话人做 与文本有关的( 十个英文数字) 的话者辨认实验,测试音是长度为l o 的任意数 字串时正确辨认率为9 8 t ”。同年美国海军研究室用类似技术做的话者确认系 统正确接受率也是9 8 t 。另外t i 公司1 9 8 6 年推出的话者确认系统使用的也 是l p c 系数,正确接受率达9 9 以上。 话者识别是一个相当复杂的问题,人们对它的认识也是随着研究的不断深 入而提高的;今天我们所能达到的识别水平是六十年代所不能比拟的,但是到 实用阶段还有不少距离。它的主要困难表现在:1 从信号模式的角度来看,语 音信号是非平稳随机信号,取决于发音人当时的发音状态,而且人与人之间的 差别很大,即使同一个人发同一个语音,两次的发音也是不一样的;2 人的听 觉过程是人脑的高级活动,这种听觉机制至今尚未完全被人们所认识,因此我 们还缺乏一种真正反映人类听觉过程的感知模型,虽然我们并不认为语言识别 系统必须完全模拟人类听觉感知过程,但人类的语音感知机能仍然是我们努力 期望达到的识别性能的标准;3 语言包含了丰富的信息量,人们对语音的理解 是一个复杂而漫长的积累过程,需要不断的学习。 虽然有以上种种困难,但随着研究的深入和技术手段的进步,发展出针对 特定领域应用的系统还是完全可能的。 4 苎= 雯堕兰 主里型堂垫查盔堂堡主丝! l 目前所采用的话者识别方法有: 1 模板匹配法 模板匹配法的要点是:在训练过程中从每个说话人的训练语音中提取出 相应的特征矢量,从这些特征矢量优化建立各说话人的参考模板。测试阶段从 说话人发出的语音信号中按同样的处理方法提取测试语音特征参数,与参考模 板匹配比较,根据二者的距离对说话人身份进行判决;为使测试语音特征参数 与模板在时间的等效点上加以比较,常用动态时间规正法( d t w ) 对二者进行 时间规正,但这种方法必须与文本有关。 模板匹配法的优点是简单而有效,影响其性能的关键是如何制作充分反映 话者特征的模板;其缺点是在测试语音特征参数与模板匹配时采用d t w 计算量 大,实时性不好。 2 模型法 模型法主要有隐马尔可夫模型( h m m ) 法和神经网络建模法。 隐马尔可夫模型( 删) 法首先为每个话者建立一个h m m 模型 1 3 , 1 4 l ,h m m 模型有连续、半连续、离散h m m - - - 种,以离散h m m 模型为例:先用v q 技术, 设计一个尺寸为m 的码本,然后用该话者的多次重复的训练语音对其h m m 模型 进行训练,得到最优的模型参数;测试时对待识语音用上面所得的模型进行评 估,根据得出的吻合概率( v i t e r b i 评分) 进行话者身份确认。 采用这种方法,如果能够采集到充分的话者语音以训练h m m 模型,可以取 得好的效果,但由于需要大量的训练语音样本,这给用户注册带来很大的不便。 采用神经网络进行话者识别时,首先为每个话者建立一个神经网络模型,利 用从训练语音样本中提取的特征参数对模型进行训练,得到表征话者特征的网 络模型的权矩阵参数;测试是将提取出的测试语音特征参数输入模型,根据相 应的输出进行话者身份辨识。 神经网络具有在解决复杂的模式识别问题时的较强的自组织、自学习能力和 区分模式边界的能力,特别适合语音识别及话者识别的分类问题 1 5 , 1 6 】,在结构和 算法上都显示出实力,其主要的缺陷在于训练话者网络模型所需的时间过长, 第一章绪论 中国科学技术大学硕士论文 另外训练时容易陷入局部最优,计算量大,结构复杂。 3 基于v q 的方法【1 “”】: 这种方法以少量表征话者个人性特征的v q 码本作为特征矢量,训练时通 过聚类产生注册话者的码本,识别时,输入语音样本用每个话者的v q 码本进行 矢量量化,以累积的v q 失真作为识别判断的依据1 1 0 。”。 v q 方法的缺点是未能利用语音样本中的时间信息,并且其性能与码本大 小有关,码本越大,性能越好。 我们知道,话者个人性特征信息的表现与语音文本的长度和内容有很大的 关系;通常认为,语音文本越长,则越能表现出发音人的特征,而且,话者个 人性特征信息的提取也较容易,但需要较大的计算量和存储量,目前大多数系 统需十几秒,甚至几十秒的语音文本,因而当用户人数较多时,其庞大的计算 量和存储量将是影响其面向实用的一个致命弱点,然而,采用短的语音文本则 会由于话者个人性特征信息表现的不充分以及提取困难等因素,而影响到系统 的识别性能。尽管如此,采用短语音文本仍将是一个实用的话者识别系统所必 须首选的,然后通过其它途径及方法去改进和提高系统的性能。 第三节论文的主要研究内容与目标 目前已有的话者辨识的方法,如采用d t w 的模板匹配法、h m m 方法、 基于神经网络的方法等;有的可以达到很低的误识率,但在实际应用中,还存 在一些不足,如有的方法要求训练样本集过大,造成用户注册不便,系统建立 比较复杂。因此,本文以实用为目标,从系统结构简单、用户注册和使用方便 着手,采用基于短语音( 两个音节的汉语词发音,约0 6 秒) 的、与文本有关 的话者识别方式,围绕如何利用感知频域谱参数从短语音中有效获取话者个人 性身份特征、如何有效地提高话者模型的识别性能及其噪声鲁棒性,对感知频 域谱参数在不同方法下对话者辨识性能的影响进行了较为深入的研究。 本文选取基于听觉感知机理的m e l 通道谱参数作为语音的特征参数,采用 模板匹配方法研究了m d 通道对话者辨识性能的影响。通过实验比较了b p n n 和模板匹配两种方法下全通道和不同通道组合的辨识性能,从而得到一种能较 6 第一章绪论 中国科学技术大学硕士论文 充分地反映话者个人特征、并具有一定噪声鲁棒性的话者辨识系统。 本论文由以下五个部分组成: 第一章介绍了话者识别的基本概念、研究现状和主要困难,分析了目前所 用的各种方法的特点和不足之处以及用于话者辨认的语音文本的长短对于辨认 效果的影响,在此基础上提出了本文的研究目标。 第二章探讨了采用模板匹配方法建立话者辨识系统的各个环节,包括系统 的结构及特征参数的选择、提取、时间规正、幅度规正和模板优化等方法,并 采用传统的模板优化方法建立了一个短语音、与文本有关的话者辨认系统。 第三章采用模板匹配方法研究m e l 通道谱参数对话者辨识性能的影响,通过 大量实验讨论j m e l 通道谱参数的提取方法,分析了处于不同频带的m e l 通道的 话者识别性能得出了频域的各通道的重要性排列,由此给出了子带( 通道) 选 择和组合的依据,以较少的通道获得有较好识别性能的话者辨识系统。 第四章对b p n n 用于话者识别时,有关网络结构、隐层结点数的选取、b p n n 话者模型的混合训练等问题进行了研究;利用神经网络的自学习、自适应等功 能对不同频率的子带进行非线形拟和,弥补了模板匹配方法中各子带等权重的 缺点。提出了一种基于神经网络的话者辨识系统,有效地提高了系统的辨识性 能。 第五章探讨了两种方法下辨识系统的噪声鲁棒性,研究了在高斯平稳噪声 情况下不同m e l 通道组合对系统辨识性能的影响,并利用了神经网络方法使系统 在噪声情况下取得较好的辨识性能。 第六章对本文的主要研究工作进行了总结,并对进一步的工作进行了展望。 7 第二章基于模板匹配方法的话者辨识系统 中国科学技术大学硕士论文 第二章基于模板匹配方法的话者辨识系统 第一节引言 目前,话者识别系统中所采用的方法可以分为:模板匹配法、统计建模法 ( 如隐含m a r k o v 模型法) 、人工神经网络法以及上述几种方法的混合1 1 7 - 2 1 1 。对 于短语音的、与文本有关的话者识别,可以采用基于模板匹配技术的模板匹配 法,这是一种将输入语音与所存储的所有使用者的参考模板之间进行时间轴的 动态弯折匹配,并且根据一定的相似性准则形成判断的方法。由于采用了同一 发音的短语音,故可以获得比与文本无关方法高的识别性能。本章对基于采用 模板匹配方法的话者辨识系统的建立中的一些关键环节进行了分析讨论。 第二节语音信号的时变特征及短时处理技术 2 2 1 语音信号产生的数学模型 + 基音频率 a u 图2 1 语音信号产生的离散时域模型 图2 1 给出了语音产生的离散时域模型,这是一个较简单的模型,对于大 多数研究和应用而言( 例如语音编码、语音识别等) ,这个模型完全可以满足需 要。它包括三个部分:激励源、声道模型和辐射模型。在浊音的情况下,激励 信号由一个周期脉冲发生器产生,所产生的序列是一个周期为m 的冲激序列。 为了使浊音的激励信号具有声门气流脉冲的实际波形,还需要使上述的冲激序 列通过声门脉冲模型滤波器,其z 域传递函数g 闭= l a - g , z 9 ( 1 - g ,z - ) ,g 。,9 2 接近1 。在清音的情况下,激励信号由一个随机噪声发生器产生。 第二章基于模板匹配方法的话者辨识系统 中国科学技术大学硕士论文 声道模型v i ,z ) 给出了离散时域的声道传输函数,把实际声道作为一个变截 面声管加以研究,在大多数情况下它是一个全极点函数。v ( z ) 可以表示为: z ( z ) = ,l 一,= 1 ,t 2 i 为实数 ( 2 1 ) q z l 辐射模型模型r f :矽与唇型有关,一般r 亿j 可表示为目刁= ( ,z 1 ) ,一1 。 2 2 2 语音信号的短时处理技术 由于语音信号的准平稳特性,任何语音信号数字处理算法和技术都建立在 “短时”基础上。为了实现各种具体应用目的而做进一步的处理之前,一些常 用的、共同的短时分析技术必不可少。 l _ 预滤波 预滤波的目的有两个:( 1 ) 抑制输入信号各分量中频率超出 2 的所有 分量( 九为采样频率) ,以防止混叠干扰。( 2 ) 抑制5 0 h z 的电源干扰。预滤波器 是一个带通滤波器,上下截止频率分别为厶和以。当采样频率正= 1 0 k h z 或正= 2 0 k h z l 耐,厶= 4 5 0 0 h z 或8 0 0 0 胁,五= 6 0 h z 。 2 数字语音的存储及加窗 第k 帧 在语音信号处理中可用循环队列来存储已数 r _ 磊l 帧 字化 的语音序列,这样可实现用有限容量的数 卜_ 据区处理大量的语音数据。在进行处理时,按先 第k + 2 帧 卜_ 1 进先出的原理读取语音帧。帧长一般取2 0 m s 3 0 m s i _ 二了k :i 叫 不等,帧移与帧长之比一般为。1 2 ,如图2 2 图2 2 帧长和帧移的示例 所示。已取出的一帧语音s ( n ) 要经过加窗 处理,即用一定的窗函数w ( n ) 来乘s ( n ) ,从而形成加窗语音s ( n ) ,s ( n ) = s ( 1 3 ) w ( 1 1 ) 。在语音信号处理中常用的窗函数是方窗和哈明窗,其表达式如下( n 为帧长) , 第二章基于模板匹配方法的话者辨识系统 中国科学技术大学硕士论文 方窗 哈明窗 ,、f 1 ,n = 0 ( 一1 ) w ( 门) 2 1 0 ,l :其他值 w ”p + 0 6 。c o s ( 告h 一州川, 1 0,行= 其他值 3 语音短时特征参数 语音信号经采样、编码、分帧和加窗处理后,必须逐帧对语音信号进行声 学参数分析,提取能充分表征语音短时特征的一组参数即特征参数。虽然,每 帧语音的全部样值可以构成一组输出元,脚标刀即是帧的时序标号,但是, 直接以元作为语音的特征参数并不常见。原因在于: 这种元的维数太高( 一般都在1 2 8 以上) 处理十分困难。 元是时域序列,而入耳对语音的频率特性( 语音短时谱) 敏感,时域序列不能 恰当地反映这种特征。 目前,语音信号处理中较常使用的特征参数有: m e l 频率域谱参数( m e l 通道谱参数) m e l 通道谱参数考虑了人耳对声音感知的非线性特征,能够有效地模仿人 耳的听觉模型,具有好的实用性,一般取2 1 组m e l 滤波器。 m f c c 频率域倒谱参数 肝c c 是通过对m e l 通道谱参数进行d c t 变换得到的,在语音处理中的应用 很广泛。 线性预测倒谱系数( l p c c ) l p c c 反映了语音全极点模型平滑谱的对数幅值,应用也很广泛,它的维数 一般取为1 2 2 0 。 线谱特征参数( l s p ) l s p 特征参数能够表征短时语音谱中共振的特点,因此正日益受到重视, 1 0 第二章基于模板匹配方法的话者辨识系统 中国科学技术大学硕士论文 它的维数一般取为1 0 - - 2 0 。 以上四种参数的共同特点是能够表征语音短时幅度谱的特性且计算简便。 4 语音信号的短时能量、短时平均幅度和短时过零率 当窗的起点n = 0 时,语音信号的短时能量用反表示,其计算公式如下; e o = s $ c n ) ( 2 2 ) 如果窗w 阳j 的起点不是n = o 而是某个其他整数m ,那么相应的短时能量用点 m 表示,其取和限为r t = m + - ) 。 窗起点为n = o 时,语音的短时平均幅度用表示,其计算公式为: m 。= k 向川 ( 2 3 ) 同样,当窗的起点为任意整数m 时,可表示为m 。 磊也是一帧语音信号能量 大小的表征,它与e 的区别在于计算时小取样值和大取样值不因平方而造成较 大差异,在某些应用领域中会带来一些好处。 当窗的起点为n = o 时,语音信号的短时过零率用z 。表示,以表示一帧语音 信号中波形窗过横轴( 零电平) 的次数。它可以用相邻两个取样改变符号的次数 来计算如下: 。:i 11 f ”乙- i zi 昭w b 。r j 】一昭”b 。r 阼一1 ) l ( 2 4 ) 。= i 1 乙i 昭w b 。r j 】一昭”b 。r 阼一 ( 2 4 ) 二ln = lj 其中s g n 为符号函数,即 聊陆k 釜髦 同样,当窗的起点为任意整数m 时,过零率用z 表示。 e 、m 和z 都是随机参数,但是对于不同性质的语音它们具有不同的概率分 布。例如,对于无声( 用s 表示) 、清音( 用u 表示) 、浊音( 用v 表示) 三种情况, e ,m 和z 具有不同的概率密度函数,图2 3 示出了m 和z 在三种情况下的条 件概率密度函数。 在语音处理技术中常常要判断一段输入语音中那些是语音段,那些是无声 段( 这时只有背景噪声) ,这对于提高语音系统的性能很重要。由于不同性质的 第二章基于模板匹配方法的话者辨识系统 中国科学技术大学硕士论文 语音的各种短时参数具有不同的概率密度函数以及相邻的若干帧语音应具有一 致的语音特性,它们不会在s ,u ,v 之中随机的变化,这为我们的判断提供了 依据。 p ( m s ) n 7 吡m ,m 队m 九n i o l0 2o3 o4m p ( z v ) v ( z s ) o1 02 03 04 05 06 07 0 8 0 9 0 1 0 0 z 图2 3 在s 、u ,v 三种情况下, 短时平均幅度m 和短时过零率z 的条件概率密度示意 本文研究的话者识别系统采用了由两个字组成的发音文本,采用语音的短 时平均幅度m 和短时过零率z 结合的方法判断输入语音的起点和终点,如下式: f = k + m + + z ) i l l f t ,语音起始( 2 5 ) 卜 2 0 0 0 h z ) 1 4 ,1 5 ,1 6 ,l7 ,1 8 ,1 9 ,2 01 5 ,1 6 ,1 7 ,1 8 ,1 9 ,2 01 7 ,1 8 ,1 9 , 2 0 中频( 6 0 0 h z - 2 0 0 0 h z )8 ,1 1 ,1 2 ,1 31 1 , 1 3 9 。1 2 ,1 3 低频( 6 0 0 h z ) 5 , 65 , 6 3 , 4 ,5 ,7 表3 l 2 不同频段的重要通道分布 由表3 8 和表3 1 2 我们可以得到以下结论: 第三章m d 通道谱参数及其对话者辨识的影响 中国科学技术大学硕士论文 高频段的通道更具有话者特点,对话者辨认性能的贡献较大,它们在对话 者辨识性能起重要作用的通道中占有较大的比例,且重要性排列中的位置 也比较靠前, 通道对话者辨认的影响与文本选择有一定的关系,但三种文本的重要通道 有较多的相同,尤其在高频段。 因此我们希望通过对通道进行组合,使得其对文本的依赖性减小,即对本文中 的三种文本都有较好的识别性能。根据上节的通道重要性排列,我们将三种文 本下识别率达到最高时剩余的通道数目取平均,得到通道数为1 2 ,作为通道组 合的初始通道数。这1 2 个通道中不同频段的通道分布比例依据为表3 1 1 ,其 中高频段、中频段和低频段的通道数目分别取6 、3 、3 ,选取通道的同时要兼 顾三个语音文本的共性和特性。 将初始通道数定为1 2 ,先将表3 1 2 中出现次数大于等于2 的通道列入被选 择的通道,就有通道组合l :( 5 ,6 ,1 1 ,1 2 ,1 3 ,1 5 ,1 6 ,1 7 ,1 8 ,1 9 ,2 0 ) ,数目为1 1 个,发现低频只选了2 个,将表3 1 2 中出现的低频段的通道除5 、6 外的通道 取一个与组合1 排列组合,并比较相对应的识别率,得到一种较好的组合2 : ( 3 ,5 ,6 ,1 1 ,1 2 ,1 3 ,1 5 ,1 6 ,1 7 ,1 8 ,1 9 ,2 0 ) 。 由组合2 开始采用筛选法依次产生三种文本的通道数目分别为l 1 、1 0 、9 的各三种最好的通道组合,筛选中采用综合评判和个别评判相结合的通道组合 评判标准,即三种文本下识别率的加权平均和每种文本下的识别率的结合。表 3 1 3 为三种文本在不同通道数目的情况下产生出的最佳通道组合及相应的话者 识别率。 通道数通道组合开门关门溜冰 1 2 ( 3 561 1 ,1 2 ,1 3 ,1 5 ,1 6 ,1 7 ,1 8 ,1 9 ,2 0 ) 9 1 8 29 8 88 1 1 ( 3 ,5 ,1 l 。1 2 ,1 3 ,1 5 ,1 6 ,1 7 ,1 8 , 1 9 ,2 0 ) 9 l1 8 43 8 8 1 0 ( 3 ,5 ,i l ,1 2 ,1 3 ,1 5 ,1 7 ,1 8 ,1 9 ,2 0 ) 9 l 8 43 8 82 9 ( 3 ,5 ,1 l ,1 2 ,1 5 ,1 7 ,1 8 ,1 9 , 2 0 ) 9 1 8 3 4 8 73 表3 1 3 不同通道组合时的识别率 从上表对通道进行组合的实验中我们可以得到以下结论: 通道3 对于话者识别较重要,通道3 所在的频率范围为1 5 0 - 3 0 0 h z ,从语音 的发音机理,我们知道这个频段主要反映了语音的基音周期( p i t c h ) 部分, 3 4 第三章m e i 通道谱参数及其对话者辨识的影响 中国科学技术大学硕士论文 基音周期对于话者辨识性能的影响较大。 通道数目从1 2 减少到9 个,其识别率的变化很小,通道数目为9 时的识别 率还比采用1 8 个通道时的识别率略有提高,但它的通道数只是原来的一半, 这表明了重要通道对话者辨识的作用,当我们选择其中的最佳组合时,不 仅可以有效地提取出话者个人性特征信息,获得较高的话者识别率,而且 采用了较少的通道数目,减少了系统的存储量和计算量。 在表3 1 3 中的最佳通道组合中,高频段的通道数目所占的比例较大,说明 高频成分对于话者辨认的贡献较大。但表3 1 3 所示的话者识别率是采用模 板匹配方法得出的,组合中每个通道对识别性能贡献的权重是相同的,然 而各个通道由于说话人的不同,语音文本的不同,体现出来的话者特征存 在着差异,且差异的程度也是不一样的,仅仅利用不同频段通道数目的增 减是不能完全将这些差异描述出来的,因此需要采用更好的结构策略体现 通道对识别的贡献,从而进一步提高话者辨认系统的性能。 第五节本章小结 本章采用模板匹配方法研究了m e l 通道谱参数对话者辨认系统的性能的 影响,讨论了m e l 通道谱参数的选取和产生,通过大量实验分析了处于不同 频带的m e l 通道的话者识别性能及其重要性排列,得到以下结论: 1 采用m e 通道谱参数作为建立话者模型的特征参数,依据人的主观感 知频域的划定并不是线性的和关键带这两个听觉感知机理,不仅可以 利用人耳的听觉掩蔽效应,同l p c 全极点模型分析相比,去除了因激 励影响而引起的语音频谱峰值的波动。话者辨认主要反映话者之间的 差别,采用m e l 通道谱参数可以研究不同频段所体现出的话者个人性 特征的程度及对话者识别的重要性,为进一步提高系统性能提供依 据。 2 通过筛选法的话者识别实验表明,每个m e l 通道对话者识别的贡献都 是不相同的,其中高频段的通道对于话者识别的影响较大,低频和中 频相对小一些。通道1 、通道2 和通道2 l 对于话者辨识的作用可以忽 第三章m c l 通道谱参数及其对话者辨识的影响中国科学技术大学硕士论文 略,由于这三个通道所在的频率范围包含极少的语音信息,因此在识 别中不起什么作用。 3 m e l 通道对话者辨识性能重要性的排列次序为我们减少通道数目,选 择和产生最佳通道组合提供了实验依据,经过分析和选择产生的9 个 通道的组合,不仅获得了比全通道更好的识别性能,而且减少了系统 的计算量和存储量。 第四章基于子带和人工神经网络( a d 的话者辨识系统中国科学技

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论