(电路与系统专业论文)说话人识别中分类器的研究[电路与系统专业优秀论文].pdf_第1页
(电路与系统专业论文)说话人识别中分类器的研究[电路与系统专业优秀论文].pdf_第2页
(电路与系统专业论文)说话人识别中分类器的研究[电路与系统专业优秀论文].pdf_第3页
(电路与系统专业论文)说话人识别中分类器的研究[电路与系统专业优秀论文].pdf_第4页
(电路与系统专业论文)说话人识别中分类器的研究[电路与系统专业优秀论文].pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(电路与系统专业论文)说话人识别中分类器的研究[电路与系统专业优秀论文].pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘蔓 摘要 生物特征认证技术,由于其广泛应用前景,将在社会生活中占据越来越重要 的位置。在生物认证技术领域中,说话入识别技术以其独特的方便性、经济性和 准确性等优势受到世人瞩目。 表征说话者声音特性的特征参数和分类器的选择,是说话人识别的两个重要 方面,对分类器的改进和研究,对说话人识别性能的提高起着重要作用,这主要 表现在识别准确率的提高上。 针对说话人识别分类器的某些方面,本文进行了探索和改进。 ( 1 ) 提出一种可用于说话人识别的简化径向基函数( r b f ) 网络阵列。r b f 网设计的核心在于确定网络中心的数目及位置,该简化算法有效地融合了输入输 出聚类法( i o c ) 、递归正交最小二乘算法( r o l s ) 以及梯度下降法的优点,很 好的优化了网络的结构。在说话人识别系统中,该方法与传统的r b f 分类器相 比,简化r b f 网具有较好的识别性能以及精简的网络结构等优点。 ( 2 ) 提出一种融合了径向基函数与f i s h e r 线性判别( f l d ) 的分类方法 ( r b f f l d ) 。径向基函数网的设计思想是在确定网络中心点之后采用最小线性 方差作为目标函数解得最优权重,该方法并不能得到最优分类效果。结合f l d 判别函数,替代r b f 中的误差目标函数来求取最优权重。用说话人识别系统对 该算法进行了验证,r b f f l d 方法提高了r b f 分类能力,比传统的r b f 算法 以及简化r b f 算法具有更好的识别效果。识别性能接近高斯混合模型( g m m ) 方法并且计算量大幅度减少。通过分析,r b f f l d 可以看成是r b f 网络中心来 代替训练集的核f i s h e r 判别方法( k f l d ) 。 ( 3 ) 对k f l d 分类法训练集的选择进行了研究。如果直接使用训练样本进行 k f l d 分类,会导致计算量过大的问题,因此有必要择优选择k f l d 分类器的训 练集。对贪婪算法选择训练集的方法进行了两方面改进:迭代中剔除部分训练样 本来减少计算量,在贪婪算法中考虑输出元素提高分类能力。用于说话人识别中, 实验验证了改进贪婪方法得到的训练集比贪婪算法更加有效,且训练效率高。在 小样本情况下,与r b f - f l d ,支持向量机( s v m ) 方法进行比较,该方法训练 的识别系统具有更高的识别正确率。 关键字:模式识别、说话人识别、径向基函数网络、f i s h e r 线性判别法、核f i s h e r 判别法 中图分类号:t n 9 1 2 3 4 摘要 a b s t r a c t b i o m e t r i ca u t h e n t i c a t i o na n di d e n t i f i c a t i o nt e c h n o l o g yw i l lb em o r ea n dm o r e i m p o r t a n ti no u rs o c i a ll i r eb e c a u s eo ft h e i rb r o a da p p l i c a t i o n s s p e a k e rr e c o g n i t i o ni s o n eo ft h em o s tn a t u r ew a y c o m p a r i n gw i t ho t h e rb i o m e t r i cf e a t u r e s ,s p e a k e r r e c o g n i t i o ni sm o r ed i r e c t ,t o m f o r t a b l ea n dc o n v e n i e n t ,a n di tw i l lb ea c c e p t e db y u s e r se a s i l y t h et w om o s ti m p o r t a n ta s p e c t so fas p e a k e rr e c o g n i t i o ns y s t e r na r et h e d i s c r i m i n a t i n gf e a t u r e sa n dt h ec h o i c eo fc l a s s i f e r s t h e s et w oa r ec r i t i c a lt ot h e o v e r a l lp e r f o r m a n c eo fa n ys p e a k e rr e c o g n i t i o ns y s t o m t h r o u 【g ht h er e s e a r c ho f c l a s s f i e r s t h ei m p r o v e m e n to fi d e n t i f i c a t i o na c c u r a c yc a nb ea c h i e v e d f o c u s e do nc l a s s f i e r s ,w ed i ds o m er e s e a r c hw o r ki nt h i st h e s i s ( 1 ) w ep r o p o s e da i le 伍c i e n tr e d u c e dr a d i a lb a s i sf u n c t i o n ( r b f ) n e t w o r k s a r r a yf o rs p e a k e rr e c o g n i t i o n t h er e d u c e dm e t h o dc o m b i n e st h ea d v a n t a g e so f i n p u t - o u p u tc l u s t e r i n g ( i o c ) ,r e c u r r e n to r t h o g o n a ll e a s ts q u a r ea l g o r i t h m ( r o l s ) a n dg r a d i e n td e s c e n ta l g o r i t h m ,n o to n l yt h en u m b e rb u ta l s ot h ep o s i t i o n so fd a t a c e n t e r sa r ea d a p t e di nt r a i n i n gp r o g r e s s w h i c ho p t i m i z e st h es t r u c t u r eo fn e t w o r k v e r yw e l l m o r e o v e r ,t h ee x p e r i m e n t so nac l o s e ds e t ,t e x t i n d e p e n d e n ts p e a k e r r e c o g n i t i o ns y s t e ms h o wt h a t ,b e t t e rr o b u s t n e s sa n ds i m p l e rn e t w o r k sc a nb ea c h i e v e d t h r o u g ht h i sr e d u c e da l g o r i t h mi nc o m p a r i s o nw i t hc l a s s i c a lr b f n ( 2 ) w ep r o p o s e dan o v e lf u s i o nm e t h o do fr b fa n df i s h e rl i n e a rd i s c r i m i n a n t ( f l d ) f o rs p e a k e rr e c o g n i t i o n u s u a l l yi nd e s i g no fr b fn e t w o r k s a r e rt h ec e n t e r s h a v eb e e nf i x e d ,t h eo p t i m a lw e i g h t sa r ed e t e r m i n e db ym i n i m i z i n gl e a s ts q u a r e s f u n c t i o n h o w e v e rt h i sm e t h o dc a nn o tl e a dt oo p t i m a lc l a s s i f i c a t i o n an e wr b f d e s i g n i n gm e t h o db a s e do nf i s h e rd i s c r i m i n a n tf u n c t i o ni sp r e s e n t e di nt h i s 恤e s i s e x p e r i m e n t so ns p e a k e rr e c o g n i t i o ns y s t e ms h o w t 1 1 a th i 曲e ra c c u r a c yc a nb e a c h i e v e dt h r o u 甜1f l d r b fn e t w o r kt h a nc l a s s i c a lr b f na n dr e d u c e da l g o r i t h m m o r e o v e r , t h i sm e t h o di sm o r ee m c i e n tt h a ng a u s s i a nm i x t u r em o d e lf g m m ) a t i e r a n a l y s i s f l d r b fn e t w o r kc a l lb er e g a r d e da s as p e c i a ls t r u c t u r eo fk e l t l e lf i s h e r l i n e a rd i s c r i m i n a n t ( k f l d ) ,i nw h i c ht h et r a i n i n gs e ti sd e t e r m i n e db vi o cm e t h o d ( 3 ) o n ep a r t i c u l a rd r a w b a c kw i t hk f l di st h ec o m p l e x i t yo ft h ef u n c t i o ns c a l e s w i t ht h el a r g en u m b e ro ft r a i n i n gd a t a t h ec o m p u t a t i o n a lc o s ti sg o i n gt ob eh i 曲i t i sn e c e s s a r yt of i n dap a r s i m o n i o u sd e s c r i p t i o nf o rt h en o n l i n e a rd i s c r i m i n a n tf u n c t i o n w ep r o p o s e da ni m p r o v e dg r e e d ya l g o r i t h m ,w h i c hi n c l u d e dt w oi m p r o v e m e n t s : d e l e t i n gu n n e c e s s a r yt r a i n i n gs a m p l e sf o rc o m p u t a t i o n a lr e d u c t i o na n di n v o l v i n g o u p u tv e c t o r si nt r a i n i n gp r o c e s sf o rm o r ee f f e c to ft r a i n i n gs e t e x p e r i m e n t so n s p e a k e rr e c o g n i t i o ns y s t e ms h o wt h a t ,i ns m a l ls a m p l ec o n d i t i o n ,h i g h e ra c c u r a c yc a n b ea c h i e v e dt h r o u g ht h ek f l dt r a i n i n gb yi m p r o v e dg r e e d ya l g o r i t h m ,t h a nt h o s ei n s u p p o r tv e c t o rm a c h i n e ( s v m ) a n dr b f f l dm e t h o d s a n dt h et r a i n i n gs e ta e h i e v d b yi m p r o v e dg r e e d ya l g o r i t h mi sm o r ee f f e c t i v et h a nt h eo n eb yg r e e d ya l g o r i t h m k e y w o r d s :s p e a k e ri d e n t i f i c a t i o n ,p a t t e r nr e c o g n i t i o n ,r a d i a lb a s i sf u n c t i o nn e t w o r k , f i s h e rl i n e a rd i s c r i m i n a n t ,k e r n e lf i s h e rl i n e a rd i s c r i m i n a n t 2 第一帝缔论 第一章绪论 l 。l 生物特征认证技术 同常生活中有很多场合需要身份认汪。身份认证指的是鉴定个人的真实身 份或者确定一个人所声称的身份与他的真实身份是否符合。当今网络信息化时代 的一个重要特征就是身份的数字化、泛化和隐蔽化。如何准确识别一个人的身份 并保证信息的安全是个亟待解决的社会问题。 身份认证的实现通常通过把身份认证的问题转化为如何鉴别个人身份的表 征。传统的表征主要有两个方面:( 1 ) 身份标志物品,比如钥匙、证件等:( 2 ) 身份标识知识,比如用户名和密码。尽管传统身份认证方式有了长足的发展,比 如各种证件防伪技术的采用。但是它们毕竟都受制于固有的缺陷:个人拥有的物 品容易丢失或者被伪造,个人密码容易遗忘或记错。更为严重的是这些系统无法 区分真正的拥有者和取得身份标识物的冒充者。一旦他人获得了这些身份标识事 物,就可以拥有相同的权力。传统的身份认证方式无法准确区分谁是真正的身份 标识的 | j 有者,谁是攫取身份标识的冒充者。而基于生物认证的身份认证方式就 能够克服以上困难,生物认证的优势在于生物特征的唯一性带来的高安全性和认 证过程的简便性。 生物认证( b i o m e t r i c s ) u 1 ,也称为生物测定学、生物特征识别,是利用 人体所固有的生理特征或行为特征作为身份认证依据的方法。这里将先天性的生 理特征和后天养成的行为特征统称为生物特征。生理特征是与生俱来的属性,是 人们客观存在的生理结构,如指纹、面孔、视网膜、虹膜和d n a 等;而行为特 征是后天习得的属性,它的形成基于人们在日常行为过程中产生的一系列动作所 构成的规律,如签名的动作、行走的步态和击打键盘的力度等。 随着生物学和信息学高度发展的2 1 世纪的来临,生物认证技术作为一种更 加便捷、先进的信息安全技术开始在全球电子商务时代崭露头角。这是一种集光 学、传感技术、红外扫描和计算机技术于一身的第三代身份验证技术,能满足现 代社会对身份鉴别的准确性、安全形与实用性的更高要求【2 1 。生物认证技术的崛 起得益于信号检测与处理、模式识别、人工智能、机器学习等理论与技术的发展, 出于它为身份识别提供了一个可靠的解决方案,其应用前景必定广阔,并能为构 筑2 1 世纪基于自主研究开发的国家信息安全体系提供强有力的技术支持。比 尔盖茨认为:“以人类生物特征( 指纹、语音、脸像等) 进行身份验证的生物 识别技术,在今后数年内将成为r r 产业最为重要的技术革命。” 3 1 箱一常绪论 1 2 说话人识别简介 说话人识别属于生物认证技术的一种,是一项根据语音波形中反映说话人生 理和行为特征的语音参数,自动识别说话人身份的技术。说话人识别根据说话人 所发语音以确定说话人身份,从各个说话人的发音中找到相互之间的个性差异, 涉及到说话人发音器官上的个性差异、发音声道之间的个性差异、发音习惯之间 的个性差异等。说话人识别是交叉运用心理学、生理学、语音信号处理、模式识 别、统计学习理论和人工智能的综合性研究课题。 在众多的生物特征中,具有实际应用价值的特征通常需要具备以下几个特 点:普遍性、唯一性、稳定性、取样的方便性、用户的接受性、样本的防伪性、 计算的复杂性。这些也是评判生物特征选取好坏的重要标准。考虑到以上因素, 利用语音特征进行身份验证,相比其它人体生物特征具有直接、友好、方便的特 点,易于为用户所接受。 说话人识别作为生物认证技术的一种,有它独特的优势。主要表现在: ( 1 ) 用户友好性:说话是人们自然的交流方式,说话人识别是非侵犯性的 生物认证; ( 2 ) 采集便利性:无须特殊的采集设备,只要有麦克风即可; ( 3 ) 支持远程认证:采用手机,电话等通讯设备使得远程身份认证成为可 能: ( 4 ) 隐蔽性认证:说话人识别可以在用户不知不觉的情况下完成身份识别; ( 5 ) 无所不在的认证:说话入识别可以是无所不在,无时不可的。 近年来,在生物认证技术领域中,说话人识别技术以其独特的方便性、经济 性和准确性等优势受到世人瞩目,并日益成为人们日常生活和工作中重要且普及 的安全验证方式。 1 2 1 说话人识别的分类 说话人识别是语音识别的一种 4 1 。它和语音识别一样,都是通过对收到的语 音信号进行处理,提取相应的特征或建立相应的模型,然后根据它做出判决。说 话人识别和语音识别的区别在于,它不注意语音中的语义内容,而是希望从语音 信号中提取人的特征。从这点上看,说话人识别是希望挖掘语音信号中的个性因 素,而语音识别则希望从不同人的语音信号中寻找共同因素。从处理方法上,说 话人识别力图强调不同人之间的差别,而语音识别则力图把不同人说话的差别加 以归一化。 根据认证方式的不同,说话人识别按照具体应用通常分为说话人辨认 ( s p e a k e ri d e n t i f i c a t i o n ) 与说话人确认( s p e a k e rv e r i f i c a t i o n ) 两类 4 1 ,如图1 - 1 。说话 第一章绪论 人辨认要完成的任务是把说话人的信号特征与数据库中的众多人员的模板相比 较,从而确定说话入的身份;说话人确认要求说话入进行身份申明,系统的任务 就是把输入信号与库中的相应身份的语音模板进行匹配以确定说话人身份的真 伪。说话人辨认要做的匹配是一对多的,而说话人确认要做的匹配则是一对一的。 可见说话人辨认对系统在数据库存储的模板数比较大的时候,系统的识别速度问 题尤为关键。 是 a i 的 讲 话 吗 ? 板 ( a ) 说话人辨认( b ) 说话人确认 图1 1 :说话人辨认与说话人确认示意图 预先确定识别用发音内容的说话人识别称为与文本相关( t e x t d e p e n d e n t ) 说话 人识别;发音内容预先不确定,无论说什么话都可进行的说话人识别,称为与文 本无关( t e x t i n d e p e n d e n t ) 说话人识别【4 j 。前者需要用户配合,如果用户的发音与 规定的内容不符合,则无法正确识别该用户。而后者建立精确的模型较为困难, 识别效果较差。另外,若考虑待识别的说话人是否在注册的说话人集合内,则说 话人辨认分为开集( o p e n - s e t ) 辨认和闭集( c l o s e s e t ) 辨认。显而易见,闭集辨认 的结果要好于开集辨认。本篇论文的研究重点是文本无关的闭集说话人辨认,后 文就简称为说话人识别。 1 2 2 说话人识别系统的组成 说话人识别的基本原理是为每一个说话人建立一个能够描述这一说话人个 性特征的模型,作为这一说话人个性特征的标准模板,进一步进行说话人识别的 过程。即首先从未知说话人的个性特征参数,构成特征模式,与已存在的参考模 板进行比较,利用判决逻辑给出判断,如图1 2 。 圈1 2 :说话人识别系统的组成 结果 第一市绪论 声音是个复杂的信号,它是在不同级别上进行了不同的转换得到的结果:语 义的、语言的、分节的、声学的。这些转换上的差别体现了声音信号的声学属性 的差异。说话人有关的差异是声道在解剖学上的差异和后天说话习惯差异的综合 结构。在说话人识别中,所有的这些差异都可以被用来区别不同的用户。如果是 文本有关的,还可以利用文本的音节,音素信息,增加系统的可信度。 只有获得声音的数字信号,才可以有效的进行处理和特征提取。经过语音输 入设备,如麦克风和电话听筒,把声波转化为模拟信号。模拟信号被过滤,同时 还对信道的损失进行适当的补偿。接着该模拟信号被抽样并通过a d 转换器变 成数字信号。 要使系统能够识别说话人,需要用分类器进行判别。说话人识别分类器包括 分类器模型和判决逻辑两部分。分类器模型,不是由语音信号得到的,而是通过 从语音信号中提取特征训练的。测试时,语音也需要经过特征提取后,才能与说 话人的模型进行比较和匹配。 n _ l l 用来表征说话者声音特性的特征参数和分类器的选择,是说话人识别的 两个重要方面,如图l 一3 。 讲肯俏堡+ r 磊磊五i 售i 磊i 牮话人识别 图1 - 3 :说话人识别的两个重要方面 1 2 3 说话人识别系统的评价 一个说话人系统的性能可以从系统的识别结果来评价。对于说话人辨认来 说,识别的结果只可能是正确或错误两种,正确识别的概率与错误识别的概率之 和为l 。因此,可简单地用正确识别的概率( 常称为识别率) 或者错误识别概率 ( 常称为错误率) 作为评价识别系统性能的指标 6 1 。 对于说话人确认系统来说,表征其性能的最重要的两个参量是错误拒认率 ( f a l s er e j e c t i o nr a t e ,f r ) ,又称为i 型差错;以及错误接受率( f a l s ea c c e p t a n c e r a t e ,f a ) ,又称为i i 型差错【5 】。前者是拒绝真实的声明人所造成的差错,后者是 冒名顶替者错认为是声明人引起的差错。 除了以上评价指标,对于实际应用于工程中的说话人识别系统,还要注意以 下几个方面: ( 1 ) 训练样本数和训练速度:在不影响识别性能的情况下,要求训练所需 的样本数尽可能少,训练速度尽可能快,训练时间尽可能短; ( 2 ) 识别响应速度:希望识别系统的响应速度越快越好; ( 3 ) 对说话方式的限制:说话人说话的方式,就说话速度而言,可能是快 笫帚持论 遽、中遽、慢速等;就说话时的语念而苦,可能是大声、温柔、生气、疑问等。 对于说话人系统来讲,当然希望它能适应说话人的各种各样的说话方式,但这并 不是一件容易的事,目翦希望在保证系统淤剐性能的前提下,尽可能减少对说话 方式的限制; ( 4 ) 处理嗓音的能力:大部分的工程应用领域都要求浼话人识别系统具有 良好的处理噪声的能力; ( 5 ) 识别人数:以用户声音实现汇款、转帐、用工厂职工的口令实现对职 工的签名管理在此类服务性、管理性领域中,尤其要求识别系统能识别的说话 入数较多。 1 2 4 说话人识别的应用前景 用说话人识别进行身份认证有传统的密码认证方式无法比拟的优点。语音含 有说话人的生理和社会习性特征,不会忘记、不需记忆,与其他生物识剐技术相 比,说话人识别使用方便,可以远距离操作,并且不涉及隐私问题,用户容易接 受。同时声音输入设备造价低廉,甚至无需额外购置设备的费_ 辟j ( 电话) ,而其 他生物识别技术的输入设备往往造价昂贵,在基于网络的身份识别应用中,说话 人识别更有优越性。 在激界范围内,说话入识别技术f 广泛应用于诸多领域。截止到去年初,说 活人识别产品的市场占有率为1 5 t 8 ,仅次于指纹识别和掌形识别。目前,我国 市场尚褥启动阶段,其发展空间更为广阔,在金融、证券、社傈、公安、军队及 其他民用安全认证等行业和部门有着广泛的需求 7 i : ( 1 ) 说话人核对:包括电话预定业务中的声音确认转帐、汇款、余额通知、 股票行情咨询以及i n t e r n e t 信息服务中的声音身份确认:用特定人的声音实现机 密场所的出入人员检查;用工厂职工的口令实现职工签名管理等。 ( 2 ) 搜索罪犯:判断犯罪现场记录的声音是十多个嫌疑犯中的哪一个人的 声音,有时可能嫌疑犯中不包含真正的罪犯,我时常常需要将说话人辨认与说话 人确认结台起来。 ( 3 ) 医学应用:如使说话人识别系统楣应患者的命令,扶而实现对机器缀 肢的控制等。 1 2 5 说话人识剐的发展及现状 以人们的语音作为身份认证的手段,据说是从1 6 6 0 年英国查尔斯一世之死 的判决开始的,首次利用语音作为推断犯人作案的线索c 8 j 。其后随着技术的发展, 电话克服了距离的障碍,录音手段克服了时间的障碍,从而使得对语音的说话人 个性的分析得到了关注。对说话入识别的研究始于2 0 世纪3 0 年代。早期的工作 笫一带绪论 主要集中在人耳听辨实验和探讨听音 _ 别的可能性方面。随着研究手段和工具的 改进,研究工作逐渐脱离了单纯的人耳听辨。b e l l 实验室的l g k e s t a 目视观察 语谱图进行识别,提出了“声纹( v o i c e p r i n t ) ”的概念。之后,电子技术和计算机 技术的发展,使通过机器自动识别人的声音称为可能。b e l t 实验室的s p m z a n s k y 提出了基于模式匹配和概率统计方差分析的说话人识别方法,而引起信号处理领 域许多学者的注意,形成了说话人识别研究的一个高潮。其间的工作主要集中在 各种识别参数的提取、选样和实验上,并将倒谱和线性预测分析等方法应用于说 话人识别p 1 。 7 0 年代末至今,说话人识别的研究重点转向对各种声学参数的线性或非线性 处理以及新的模式匹配方法上,如动态时阳j 归整、主成分分析、隐马尔可夫模型、 神经网络和多特征组合等技术。现在,有很多企业、国家实验室、大学都在进行 说话人识别的研究。其中某些机构研究并设计了几代说话人识别系统 j j ,如 a t & t ( 及其派生机构) ;b o l t b e r a n e k 和n e w m a n ;d a l l em o l e e 学院人工智能所( 瑞 士) :i t t ,麻省理工学院林肯实验室:清华大学( 台湾) ;名古屋大学( 日本) : r e n s s e l a e rp o l y t e c h n i c 学院;r u t g e r s 大学;德州仪器( t i ) 。 如今,说话人识别技术已逐渐走入实际应用,a t & t 应用说话人识别技术研 制了智能卡( s m a r tc a r d ) ,已应用于自动提款机。欧洲电信联盟在电信与金融结 合领域应用说话人识别技术,于1 9 9 8 年完成了c a v e ( c a l l e rv e r i f i c a t i o ni n b a n k i n ga n dt e l e c o m m u n i c a t i o n ) 计划,在电信网上完成了说话人识别。同时, m o t o r o l a 和v i s a 等公司成立了v - c o m m e r c e 联盟,希望实现电子信息的自助化, 其中通过声音确定人的身份是此项目的重要组成部分。其他的一些商用系统还包 括:i t t 公司的s p e a k e r k e y 、k e y w a r e 公司的v o i c e g u a r d i a n 、t - n e t i x 公司的 s p e a k e z 等p l 1 0 i 。但在迅速发展的过程中仍然有许多问题需要解决,特别是系统 的鲁棒性问题,使这项技术距离实用化还仍有一定距离,至少在近期商品化的系 统还不很成熟。 国内开展说话人识别研究比较早的机构有北京大学、中科院声学所、中科院 自动化所、清华大学等。 1 2 6 目前说话人识别领域的困难及研究热点 说话人识别的信息来源是系统用户所说的话。语音信息是说话人个性特征和 c 兑话内容的综合体,目前还没有找到一种方法可以将说话人的个性特征完全独立 地从语音特征中脱离出来,从而对识别系统的性能提高带来困难【5 1 。说话人的发 音常常与环境、情绪、健康状况有关。它不像指纹、虹膜等生物特征具有静态的、 固定的物理特征,一旦出生就基本保持不变。语音的稳定性比较差,说话人的语 音具有长时变动性,并随着时间和年龄变化而变化。 招一帝绪论 识别系统对噪声的鲁棒性很不乐观,在实际情况下,噪声是不可避免的。日 常生活中的嘈杂声,录入语音的硬件通道噪声,通讯信道噪声等,这些噪声会随 着时间、硬件的变化而变化。 此外语音往往会被入模仿,录音设备及其存储媒介( 诸如磁带、光碟、硬盘) 的存在为语音赝本提供了滋生温床。所以说晤人识别还必须解决如何抵抗冒名顶 替者这一难题。 尽管说话人识别有一定的难度,但语音中所包括的个性信息一般有两种,一 种是由声道长度、声带等先天性发音器官的个人差异所产生的,另一种是由方言、 语调等后天性说话习惯产生的,而先天性发音器官的个人差异是难于模仿的。所 以利用语音来进行身份验证是具备可行性的。目前说话人识别领域研究重心主要 在: ( 1 ) 各种特征提取手段的不断完善和现代信号处理技术,如时频分析、小 波分析、模糊、混沌、遗传算法等的应用。由于说话人识别的大部分应用与电话 信道有关,考虑噪声条件和信道补偿的鲁棒性说话人语音特征提取,则是目前说 话人特征提取研究的热点。 ( 2 ) 各种识别技术,分类方法的不断完善。对于矢量量化方法,在量化方 法的鲁棒性及改进算法上有定的进展。高斯混合模型的研究包括模型参数估计 方法的改进和减少模型运算量及算法复杂度的研究。在神经网络方面,大人群的 识别,级联神经网络都是研究的热点。 ( 3 ) 传统的语音识别技术与其他相关技术的互相融合。由于到目前为止, 还没有找到说话人个性特征从语音中分离出来的方法,其他的辅助特征与现有特 征的结合也可以作为说话人识别的特征,它与听觉信息的融合是解决噪声环境中 说话人识别的一条新思路。 13 说话人识别分类器简介 无论是与文本有关的说话人识别,还是与文本无关的说话人识别,其基本原 理都是建立个能够区分不同说话人个性特征的模型,以模型参数作为说话人识 别的判别依据,将模型训练和判决逻辑统称为说话人识别分类器。要实现对说话 入的识别,需解决两个基本问题【1 2 j : ( 1 ) 对语音信号的预处理和特征提取: ( 2 ) 说话人分类器的建立和训练。 其中说话人分类器的建立是关键问题之一,对分类器的改进和研究,对说话 人识别性能的提高起着重要作用。 分类器中的参数,通过用训练语音对分类器进行训练得到。采用不同的说话 饿一章绪论 人模型结构对应了说话人识别的不同分类方法。随着计算机和数字信号处理、人 工智能等的不断发展,说话人识别分类器已从单一的模板模型向矢量量化模型 ( v o - - v e c t o r q u a n t i z a t i o n ) 、高斯混合模型( g m m g a u s s i a n m i x t u r e m o d e l ) 、 人工神经网络( a n n - - a r t i f i c i a ln e u r a ln e t w o r k ) 模型以及它们的混合模型等多 方向发展【5 】 ”1 。对说话人个性特征的描述也越来越精细和完善,并且从无噪声环 境下的识别向复杂背景噪声下的识别方向发展。同时各种高速信号处理芯片、专 用语音信号处理芯片的出现,电为语音信号处理和说话人识别提供了有力的支 持,从而使说话人识别技术不断走向应用。 1 3 1 说话人识别分类器的分类 说话人识别分类方法大致有三类:非参数模型方法、参数模型方法和人工神 经网络方法。这三类方法之间常被相互结合,构成更高效的说话人识别方法。 非参数模型方法 这是基于模板匹配的方法。这种方法的要点是,在训练过程从每个说话人发 出的训练语句中提取相应的特征向量,作为说话人的参考模板,而在测试阶段, 按同样的处理方法从说话人发出的声音中提取测试模板,并与相应的参考模板相 比较。建立模板时应考虑两个问题,一是语音信号量化后产生的畸变尽可能小, 即不会失去原信号中包含的刻画说话人特征的信息;二是模板的数据应尽可能压 缩存储。其方法包括动态时间归整方法( d t w ) 、矢量量化( v q ) 、最近近邻法 ( k n n ) 等。 参数模型 尽管矢量量化被成功地应用于说话人识别中,但其聚类的矢量仅用一个中心 码本来表示,且各个码本对距离的贡献相等,因此非参数模型对说话人特征的描 述尚欠细致。参数模型通常假设模型的概率分布类型已知,概率分布参数可通过 估计得到。通常假定语音特征矢量间相互独立,这样训练语音特征矢量序列就可 看成是说话人特征分布事件的观测矢量,从观测矢量中我们就可估计出概率分布 参数。在说话人识别领域,经典的参数模型为高斯混合模型( g m m ) 。 神经网络方法 人工神经网络( a n n ) 模仿人脑的信息处理机制,把大量结构非常简单的计 算单元( 神经元) 相互连接起来,实现高度并行和分散的信息处理,尤其适合于 像说话人识别这类与人的感知有关的信息处理问题。它可以通过从示例中学习, 实现网络的自我组织和调整。 人工神经网络是近年来发展起来的新兴领域,它具有优良的自我组织、自适 应、自学习能力。从语音中说话人个性特征与说话人的对应关系上讲,说话人识 别是一个非常复杂的非线性分类问题,而人工神经网络在非线性分类问题上有着 鹕一章精论 传统分类方法所不能比拟的分类能力。应用到说话人识别的神经网络类型较多, 掘哺日向型神经网络、自组织映射网络( s o m ) 等。前向神经网络以其结构简单、 分类性能较好在浼话人识别中获得了广泛的使用,使用较多的为b p 网和r b f 网络。基于逐级判决思想、将单个神经网络进行组合的级联神经网络也已用于说 话人识别。另外支持向量机( s v m ) 等基于核的方法也为说话人识别开辟了一 条新的途径。 1 3 2 说话人识别分类器的发展及现状 在说话人识别技术的发展过程中,各种各样的分类器应用到说话人识别系统 中f j ”。早期方法中通常将测试语音和训练语音进行直接比较,计算其欧氏距离进 行判别。上世纪8 0 年代,e k s o o n g 等人提出用矢量量化方法( v q ) 来进行说 话人识别【i ”,v q 是一种无监督训练方法,成为当时文本无关说话人识别系统的 基准方法;8 8 年,j b a t t i l l i t i 应用经典统计学习方法贝叶斯分类器( b d a ) 1 4 i ,9 3 年,a l h i g g i n s 等人采用最小近邻方法( k n n ) 来实现话者识别【1 5 】;9 0 年代以来,随着神经网络发展,各种不同类型的人工神经网络( a n n ) 应用到 说话人识别领域上,如多层感知器( m l p ) 1 6 1 ,时延神经网络( t d n n ) 1 7 】,径 向基函数网络( r b f ) t l s ,学习矢量量化( l v q ) 等。 9 5 年,d r e y n o d l s 等人成功使用了另一种无监督学习方法,高斯混合模型 ( g m m ) 【2 0 i 。该技术把每个说话者模型看成是多个高斯模型的混合,相当于一 利,单状态的隐马尔可夫模型( h m m ) ,由于g m m 方法在说话人识别应用中卓越 的系统性能而成为当今说话人识别系统中的通用方法。 9 6 年,m s c h m i d t 等人用支持矢量机( s v m ) 实现对两个说话者进行分类【2 ”。 s v m 是一种基于统计学习理论的学习方法,同时也是静态分类能力很强的分类 器。用s v m 实现文本无关的说话人识别是把说话人识别问题看作一个单纯的分 类问题【2 ”,训练样本对于s v m 是一个散点集,s v m 通过找到一个最合理的分 界面来把属于各个说话人的训练语音归类。其算法的基本思路是在两类样本之间 找到它们的边缘点,即最靠近边界的点,把它们当作支持向量,进行分类时,计 算测试样本与支持向量的距离即可。 在模型这一层次上,一个需要讨论的问题是关于模型整体框架的问题。神经 网络和支持向量机方法可以认为属于同一框架一一直接进行分类器的设计; g m m 认为是依赖于统计知识的贝叶斯分类器。 9 9 年,w m c a m p b e l i 提出多项式分类器应用在说话人识别 2 2 1 ,多项式分类 器同s v m 一样都是基于核的分类方法。 2 1 世纪以来,涌现大批基于g m m 、n n 、s v m 方法的改进技术和组合方法, 如在神经网络分类中应用遗传技术 2 3 1 【2 4 】、将g m m 与s v m 相结合【2 5 】、利用 第一尊绪论 b o o s t i n g 方法加强分类方法2 6 1 等。另外研究工作者提出了一些基于不同于贝叶斯 判别准则的系统框架,主要有最大相互信息估计( m m i e ) 1 2 7 和最小错误率估计 ( m c e ) 2 8 1 。m m i e 的基本思想是在训练时使训练样本和给定模型的相关信息 熵最大,而m c e 把说话人识别问题直接看作一个模式识别中典型的分类问题, 它为每个类构造一个区分性函数来实现分类,在许多语音识别系统中的应用都普 遍得到性能的改善。 由此可见,现在乃至今后,关于说话人识别中分类器的研究,都将是科学领 域上一个活跃的舞台。 1 4 主要工作 本文主要研究对说话人识别中分类器某些方面的改进。主要工作包括三个方 面可以看出这三方面工作是一个循序渐进的过程,依次是: 1 提出一种可用于说话人识别的简化r b f n 阵列。r b f 网设计的核心在于 确定网络中心的数目及位置,该简化算法有效地融合了i 。c 法、r o l s 算法以及 梯度下降法的优点,不仅能动态调节r b f 网的隐节点数,还能使网络的数据中 心自适应变化,很好的优化了网络的结构。用与文本无关的闭集说话人识别系统 对该算法进行了验证,实验结果表明,陔方法与传统的r b f 分类器相比,简化 r b f 网具有较好的分类性能以及精简的网络结构等优点。 2 提出一种新的可用于说话人识别的分类方法r b f - f l d 网络。径向基函数 网的设计思想是在确定网络中心点之后采用最小线性方差作为目标函数解得最 优权重,该方法并不能得到最优分类效果。f l d 判别函数是一种寻找最佳投影 方向的方法,使得类间离散度最大化,类内离散度最小化。使用f l d 判别函数, 替代r b f 中的误差目标函数来求取最优权重。用与文本无关的闭集说话人识别 系统对该算法进行了验证,r b f f l d 方法提高了r b f 分类能力,比传统的r b f 算法以及简化r b f 算法具有更好的分类效果。识别性能接近g m m 方法并且计 算量大幅度减少。通过分析,r b f f l d 可以看成是r b f 网络中心来代替训练集 的k f l d 分类器,从而将k f l d 方法引入到了说话人识别分类器领域。 3 对k f l d 分类法训练集的选择进行了研究。由于如果直接使用训练样本 进行k f l d 分类,会导致计算量过大,训练效率极低的问题,因此有必要择优 选择k f l d 分类器的训练集。对贪婪算法选择训练集的方法进行了两方面改进: 迭代中剔除部分训练样本来减少计算量,在贪婪算法中考虑输出元素提高分类能 力。用于说话人识别中,实验验证了改进贪婪方法得到的训练集比贪婪算法更加 有效,且训练效率高。在小样本情况下,与r b f f l d ,支持向量机( s v m ) 方 法进行比较,该方法训练的识别系统具有更高的识别正确率。 筘一章绪论 1 5 论文的安排 本文结构安排如下: 第二章,介绍说话人识别技术,包括语音信号预处理,特征提取,并详细介 绍说话人识别的各种分类方法。 第三章,介绍一种可用于说话人识别的简化r b f n 阵列,与传统的神经网络 方法进行了比较,通过实验证明其有效性。 第四章,介绍f l d 方法和k f l d 方法的关系,并介绍r b f n 和f l d 融合的 新方法r b f f l d ,应用于说话人识别系统并测试了其效果。 第五章,介绍对k f l d 训练集选择方法贪婪算法的改进,并实验了改进贪婪 方法应用在说话人识别上的效果。 第六章,对研究生工作的总结和对未来工作的展望。 第二帝说话人识别技术 第二章说话人识别技术 2 1 概述 说话人识别是个模式识别问题,即模式归类问题,将表征不同说话人的特 征向量进行合理归类,在识别时给出难确的结果。要实现对说话人的识别,需解 决以下两个基本问题:( 1 ) 特征提取;( 2 ) 分类器训练及识别。前者包含了语音 信号采样、量化、预处理技术、语音特征参数提取技术,而后者则包含训练分类 器和识别两个阶段。 本章首先介绍特征提取的相关知识,其中介绍特征参数m f c c 系数的提取过 程,接着介绍说话人识别中几种主流的分类方法。 2 2 特征提取 在处理语音信号过程中,我们必须先对大量的样本进行参数化,也就是提取 较少的有代表性的部分数据来表征某一段语音信号,这个过程就是特征提取【6 1 如图2 。l 。 图2 一l 特征提取不

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论