(通信与信息系统专业论文)基于智能群体和盲源分离的说话人识别.pdf_第1页
(通信与信息系统专业论文)基于智能群体和盲源分离的说话人识别.pdf_第2页
(通信与信息系统专业论文)基于智能群体和盲源分离的说话人识别.pdf_第3页
(通信与信息系统专业论文)基于智能群体和盲源分离的说话人识别.pdf_第4页
(通信与信息系统专业论文)基于智能群体和盲源分离的说话人识别.pdf_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕十学位论文 摘要 说话人识别在干净语音条件下已取得不错的识别率,但由于噪声的存在,语音信号 会发生畸变,造成训练环境与测试环境的不匹配,严重影响了系统的识别率。如何从复 杂的噪声背景中提取反映说话人个性特征的语音参数和设计行之有效的分类器是说话 人识别应用于实际的个难点。针对上面存在的问题,本文从噪声环境下语音参数的提 取和分类器的设计这两个方面出发,提出自己的解决方案,并通过实验来验证其可行性。 本文的主要工作包括: 1 针对说话人识别中混合噪声环境影响语音识别准确率的问题,考虑将i c a 算法 进行改进并应用于语音信号的去噪过程,基于独立分量分析的盲源分离算法的传统实现 都是基于梯度的,其收敛性能及求解性能均取决于学习步长的选择,而且收敛速度较慢。 为了克服这些缺点,提出一种粒子群算法改进的独立分量分析算法,对语音特征参数 m f c c 系数进行增强。试验结果表明,改进的i c a 算法可以快速有效地得到b s s 的最 优解,能有效地抑制环境噪声,从而提高语音质量。 2 针对支持向量机在大样本情况下训练速度慢的缺点,引入权重最优位置策略改进 量子粒子群优化算法,通过改进的m i c h i g a n 编码方案对语音参数进行编码,构造分类 规则适应度函数,实现基于加权量子粒子群的分类器设计。在说话人识别中的应用结果 表明,该分类器具有较好的抗噪性能和较高的识别速度仿真结果表明改进的 w q p l a s s i f i e r 和其它分类器相比,有较好的抗噪性能和识别速度。 关键词:说话人识别;独立分量分析;粒子群分类器;支持向量机 a b s t r a c t s p e a k e rr e c o g n i t i o nh a sg o te x c e l l e n tr e c o g n i t i o nr a t ei nt h ec l e a nv o i c es i g n a l b u tw h e n e f f e c t e db ye n v i r o n m e n t a ln o i s e ,t h ec l e a ns p e e c hs i g n a lw i l l b ed i s t o r t e d t h i sm a d en l e t r a i n i n ge n v i r o n m e n td i d n tm a t c hw i t ht h et e s t i n ge n v i r o n m e n t ,a n dr e c o g n i t i o nr a t eo f s y s t e mi si n f l u e n c e ds e r i o u s l y i ti sad i f f i c u l tp o i n th o wt oe x t r a c tv o i c es i g n a lp a r a m e t e r s w h i c hi n d i c a t ei n d i v i d u a lf e a t u r eo fs p e a k e ra n dd e s i g ne f f e c t i v ec l a s s i f i e r , w h j c h p r e v e n t s p e a k e rr e c o g n i t i o ns y s t e mf r o ma p p l y i n gi n t or e a le n v i r o n m e n t b a s e do i lt h ea b o v ed r a w b a c k ,s t a t i n gf r o mt h et w oa s p e c t so fv o i c ef e a t u r ee x t r a c t i o na n d d e s i g no fc l a s s i f i e r , t h ep a p e rp r o p o s et h es o l u t i o na n dd e m o n s t r a t et h e yf e a s i b i l i t vb v e x p e r i m e n t s 1 t h er e c o g n i t i o nr a t eo fs p e a k e rr e c o g n i t i o nw i l ld e c l i n ed r a m a t i c a l l yu n d e rt h em i x i n g n o i s ee n v i r o n m e n t ;w ea p p l yt h ei m p r o v e di n d e p e n d e n tc o m p o n e n t a n a l y s i s ( i c a ) i n t o d e n o i s i n gs p e e c hs i g n a l t h et r a d i t i o n a l s e a r c h i n gs c h e m eo fi c ai sa l w a y s g r a d i e n t - b a s e da l g o r i t h m ;h o w e v e rt h ec o n v e r g e n c ea n dt h ep e r f o r m a n c eo fi ta r ed e p e n d o nt h ec h o i c eo fl e a r n i n gs t e ps i z e t oo v e r c o m et h ed r a w b a c k s ,a ne f f i c i e n ti m p r o l v e d i c a a l g o r i t h mw h i c hi sb a s e do np a r t i c l es w a y i i io p t i m i z a t i o n ( p s o ) i sp r e s e n t e di nt h e p a p e r a n dt h em e l f r e q u e n c yc e p s t r a lc o e f f i c i e n t s ( m f c c ) i se n h a n c e db yt h ei m p r o v e d a l g o r i t h m ,s i m u l a t i o nr e s u l t ss h o wt h em e t h o di se f f e c t i v ef o ri l s e r st o g e to p t i m a l r e s o l u t i o nt ot h em i x e dn o i s ev o i c e s i g n a l 2 a i m i n ga tt h es h o r t a g eo fs u p p o r tv e c t o rm a c h i n e ( s v m ) s l o wp r a c t i c es p e e di nt h ec a s e o fl a r g es a m p l e , 删sp a p e ri n t r o d u c e sw e i g h t e do p t i m a lp o s i t i o n s t r a t e g yt oi m p r o v e q u a n t u mp a r t i c l es w a r mo p t i m i z a t i o n ( q p s o ) a l g o r i t h m ,p r o c e s s e sc o d i n gf o rv o i c e p a r a m e t e r sb yi m p r o v i n gm i c h i g a nc o d i n gs c h e m e ,a n dc o n s t r u c t sn e wc l a s s i f i e dr u l e f i t n e s sf u n c t i o nt or e a l i z ed e s i g n i n g o fc l a s s i f i e rb a s e do nw e i g h t e dq u a n t u mp a r t i c l e s w a l n l ( w q p s - c l a s s i f i e r ) a p p l i c a t i o nr e s u l t so fs p e a k e rr e c o g n i t i o ns h o wt h a tt h i s c l a s s i f i e rh a sb e t t e rp e r f o r m a n c eo fn o i s e i m m u n i t ya n dr e c o g n i t i o ns p e e d k e y w o r d s : s p e a k e rr e c o g n i t i o n ; i n d e p e n d e n tc o m p o n e n ta n a l y s i s ;p a r t i d es w a r m o p t i m i z a t i o n ;s u p p o r tv e c t o rm a c h i n e n 硕十学位论文 插图索引 图2 1 说话人识别模型框图6 图2 2m f c c 系数框图:10 图2 - 3 基本的g m m u b m 说话人确认系统1 1 图2 4 最优化超平面示意图1 3 图3 1 盲源分离的概念图解1 5 图3 2i c a 框图说明1 6 图3 3 不同步长下的i c a 性能变化。2 1 图4 1 语音和高斯类信号的平均互信息两的比较( 帧的大小为2 0 m s 0 5 s ) 一2 3 图4 2 原始的语音信号的波形2 7 图4 3 混合噪声后的语音波形2 7 图4 4d p s o i c a 输出的语音波形2 7 图4 5f a s t l c a 输出的语音波形2 7 图5 1 两维空间中三个超平面的分类3 2 i l l 基于智能群体和盲源分离的说话人识别 i i i i 一一 一 一; ;i 曼曼量曼曼曼曼曼曼曼曼寰曼曼舅曼曼皇曼曼皇曼量曼曼鼍曼曼曼曼曼曼曼曼曼曼皇曼曼曼 附表索引 表4 1 两种算法输出语音峭度值和收敛步骤的比较2 8 表5 1 粒子数取1 0 时各个算法性能比较( ) 3 3 表5 2 语音信号在不同信噪比的情况下平均识别率( )( h = 1 0 ) 3 3 i v 兰州理工大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的 研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或 集体己经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均 已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。 作者签名:虏f 昂明 日期:刀届年月7 r 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有 权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和 借阅。本人授权兰州理工大学可以将本学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同 时授权中国科学技术信息研究所将本学位论文收录到中国学位论文全文数据 库,并通过网络向社会公众提供信息服务。 作者签名:名伟确 剔噬叫 纩v 删 日期:刀,年i ! f 月7 日 日期:a ) 矿肠年5 月7 日 硕十学何论文 第1 章绪论 说话人识别( s p e a k e rr e c o g n i t i o n ,s r ) 是生物身份认证技术的一个重要分支,又称 声纹识别( v o i c e p r i n tr e c o g n i t i o n ) ,是由计算机利用语音波形中所包含的反映特定说话 人生理和行为特征的语音特征参数来自动识别说话人身份的技术i l 】。语音信号可以非常 自然地产生和采集,模型的训练和识别时不需要特别的输入设备,因此说话人识别系统 的价格也比较低。说话人识别和语音识别的区别在于,说话人识别关注的不是语音段中 的语义内容,而是语音段中隐含的说话人生理特征。说话人识别寻找说话人的个性特征, 强调不同说话人之间的差异,而语音识别寻找的是语音中的共性特征,强调不同说话人 说同一句话的共通点。 说话人识别应用非常广泛,在金融、证券、社保、公安、军队及其他民用安全认证 等行业和部门有着广泛的应用需求,如门禁系统、数据库存取、信用卡确认、银行电话 交易服务等身份认证,公安司法和军事上的电话语音监听、网络资源准入、金融证券安 全,以及一些个人设备如手机、p d a 的个性化设置等。随着互联网的蓬勃发展以及网络 资源的“爆炸式”增长,自动说话人识别也可以广泛的应用于“数字化图书馆中的语 音检索以及信息获取( i n f o r m a t i o nr e t r i e v a l ) ,目前在这方面的研究越来越深入l n j 。 1 1 说话人识别的概述 说话人识别和人脸识别,指纹识别、虹膜识别等,都属于生物识别的一种,是一种 从语音信号中提取说话人信息,来进行身份鉴别与验证的方式。s r 基本上有两种方式, 一种是从说话人特征参数着手,一种是从说话人模型着手。只要能找到一种完美的说话 人特征,这种特征为每一个说话人所固有的,问题便可以得到解决;在说话人模型方面, 则是要找到一个模型能够广泛的涵盖并精确的区分所有说话人的声学特征。目前多是这 两个方面的结合使用i 其基本原理是:采集人的语音信号,根据发声和听觉特性提取语 音参数,并根据语音建模模型为每个说话人训练一组模型参数;对于每个输入的测试语 音,由计算机将它和已经训练好的模型进行精确匹配,根据匹配结果辨认出说话人是谁。 说话人识别技术属于生物识别技术的一种,它利用语音信号中的说话人信息,强调说话 人的个性,利用个性构造模型。说话人识别技术已经经历了很长一段发展时期,而且在 当今社会中日趋凸显它的重要性。经过多年的研究发展,说话人识别的研究重点已经从 实验系统转移到实际系统,如实用背景环境下特别是基于手机电话语音的识别系统上 来。面对复杂背景和通道条件带来的挑战,针对实际环境中的说话人识别是目前的一个 研究热点【3 1 。 基于智能群体和盲源分离的说话人识别 1 1 1 说话人识别的分类 s r 根据识别任务不同可以分为两个范畴:即说话人确认( s p e a k e rv e r i f i c a t i o n ) 和说 话人辨认( s p e a k e ri d e n t i f i c a t i o n ) 。说话人确认是证实某一说话人是否与他所声称的身份 一致的过程,系统只需给出接受或拒绝两种选择,是“一对一判决”的问题,它的系统 性能与说话人集合的规模无关。说话人辨认是指通过一段语音从注册的有限说话人集合 中分辨出其身份的过程,是“多选一”的问题。它的系统性能随着说话人集合规模的增 大而降低1 4 引。 说话人识别按照与说话内容的关系可以分为与文本相关( r e x d e p e n d e n 0 的( 规定语 音内容,即注册和识别时说同样的话) 、与文本无关t 拘( t e x i n d e p e n d e n t ) ( 不规定语音内 容,及注册和识别时可以说任意的话) 、文本提示( t e x t p r o m p t ) 的( 从大数据库中提取提 示用户说- d , 段话,也可以归为与文本相关) 1 6 j 。 “文本相关的说话人识别要求说话 人按照规定的内容发音,“文本无关 的说话人识别则不需要知道先前的说话内容。前 者可以利用说话内容的音节和因素,结合语音识别的技术可以提高识别性能,但是在很 多实际应用中,与文本无关的说话人识别系统更为通用,更受欢迎,但是训练和测试时 都需要较长且音素内容丰富的语音。 1 1 2 研究现状 说话人识别最初的应用是在法庭上,1 6 6 0 年,语音被用于查尔斯一世之死一案罪犯 判定的关键证据。自动说话人识别的研究始于2 0 世纪6 0 年代,b e l l 实验室的s p m z a n s k y 提出了基于模式匹配和概率统计方差分析的声纹识别方法,引起信号处理领域许多学者 的关注,形成了说话人识别研究的一个高潮。在以后的几十年中,7 0 年代末至今,说话 人识别的研究重点转向对各种声学参数的线性或者非线性处理及新的模式匹配方法上, 如动态时间规整( d t w ) 、主分量分析( p c a ) 、隐马尔科夫模型( h m m ) 、神经网 络模型和多特征组合等技术。此后研究人员不断在特征提取、模型匹配、对环境的适应 性等方面深入研究,说话人识别技术也从小型的、实验室条件下、受控制的系统向实用 化发展。如今,说话识别技术已逐渐走入实际应用,a t & t 、欧洲电信联盟、m o t o r o l a 和v i s a 等公司、r r r 公司、k e y w a r e 公司、t - n e t i x 公司等相继开展了相关实用化研究 7 1 。 目前国际上许多著名大学、研究机构以及很多大公司的实验室都在进行说话人识别 方面的研究,如麻省理工学院林肯实验室( l i n c o i nl a b o r a t o r y ) 、美国i c s l ( i t e m a t i o n a l c o m p u t e rs c i e n c ei n s t i t u t e ) 、美国的s r i 公司的语音技术与研究实验室( s t a r ) 、法国的 l i a ( l a b o r a t o i r ei n f o r m a t i q u ea v i g o n o n ) 、加拿的c r i m ( c e n t r e d er e c h e r c h ei n f o r m a t i q u e d em o n t r e a l ) 实验室等。 我国语音识别研究工作一直紧跟国际水平,中国科技大学和科大讯飞公司联合建立 的科大讯飞语音联合实验室,在“2 0 0 9n i s t ( n a t i o n a li n s t i t u t eo fs t a n d a r d sa n dt e c h n o l o g y ) 硕十学何论文 l a n g u a g er e c o g n i t i o ne v a l u a t i o n l 一国际语种识别测评大赛上,科大讯飞语音实验室宋 彦、戴礼荣研究团队提交的参赛系统在各项评测中取得了优异的成绩:在对方言测试中 综合指标排名第一,在通用测试中综合指标排名第二。这是该实验室在连续获得b l i z z a r d c h a l l e n g e 英文语音合成国际大赛冠军以及2 0 0 8n i s t 说话人识别评测大赛桂冠后,取得 的又一重大荣誉。这表明中国科学技术大学不仅在语音合成技术研究上处于国际领先水 平,而且在说话人识别、语种识别等语音识别技术研究上也处于国际领先地位。此外, 国内许多高科技公司,如中科模识科技公司、中科信利技术有限公司等,也都专门开发 了许多说话人识别方面的应用产品。因此,国内除了要加强理论研究外,更要加快说话 人识别早日进入到实用化阶段,进入人们的生活中去。 1 1 3 技术难点 说话人识别技术在实验室状态下已经取得较好的识别率,然而在实际的应用环境 中,都不能达到理想的识别性能,这不仅与语音信号本身易受噪声干扰特点有关,而且 也和目前使用的分类技术有关,因此寻找更加优良的研究方法仍然任重道远,仍然有许 多难点有待解决,如: ( 1 ) 特征参数的提取问题。说话人识别目前常用的特征参数是倒谱系数和其差分, 与语音识别所用的参数完全一样,是否能寻找一组更适用于说话人识别的参数的问题, 针对说话人的语音特征随着年龄、情绪和健康状况等因素而变化的问题,寻找更具鲁棒 性的特征参数; ( 2 ) 如何提高鲁棒环境下算法识别的有效性。包括:如何提高h m m 算法或者g m m 算法的训练和识别速度的问题,寻找比h m m 或者g m m 算法更简单的模型来描述语音的 动态模式的问题,提高模型的区分性的问题。 ( 3 ) 如何分辨故意伪装声音的问题。在司法机构的说话人识别应用中,这个问题 具有特殊的重要性,因为罪犯常常伪装或模仿另一个人的声音来达到自己的目的。 ( 4 ) 考虑到人的状况在不断变化,为使系统更加可靠,如何使它的参考量不断的 更新以适应新的使用者,即使系统处于二_ 个相对开放的环境中,就有自适应不断更新的 能力。 ( 5 ) 说话人识别系统的稳健性问题:由于不同的训练和测试环境导致的语音声学 参数的变异,使得识别系统的性能大大降低。引起语音声学参数变异的音素有:环境的 加性噪声、通道的卷积噪声、麦克风的非线性反应特性、麦克风在空间上不同方向上的 反应特性、说话人自身的语音声学变异等因素。采用怎样的技术来补偿上述语音变异对 说话人识别系统性能的影响是一个重要的研究课题。 由此可见,说话人识别的难点问题同样集中在特征提取和设计分类器以提高说话人 识别系统识别率两个方面,本文正是从这一点出发对说话人识别的特征提取和识别算法 进行了较为深入的研究。 3 基丁智能群体和盲源分离的说话人识别 1 2 说话人识别的性能评价 一个系统性能的好坏有很多的评价标准,其中包括识别率、训练样本数、训练时间 的长短、识别时间、说话方式要求、对环境的鲁棒性、识别人数、存储量的要求、用户 的接受程度等多种标准。有的标准是相互矛盾的,在评价时候必须采取折中的策略。说 话人识别系统要求识别率高、适应能力强和计算复杂度低。一般采用三个指标去评价说 话人识别系统,它们分别是识别率( r e c o g n i t i o n a c c u r a c y ) ,鲁棒性( r o b u s t n e s s ) 和复杂度 ( c o m p l e x i t y ) 1 8 1 。 ( 1 ) 识别率 评价说话人识别系统最直接、最重要的性能指标是识别率。故通常用识别率来表示 说话人识别系统性能的好坏。测定说话人识别系统的识别率时,将所采集的语音数据分 为两部分,训练部分和测试部分,不能用训练部分的数据进行对评价系统的识别率,否 则将使识别率不准确。 ( 2 ) 鲁棒性 鲁棒性是评价说话人识别系统的另一个重要准则。说话人识别系统在训练环境下是 可靠的。但是一般情况下,说话人识别系统并不在训练环境下使用,它使用时的环境条 件可能存在信道失真、背景噪声、讲话方式不同或者其他说话人的影响等不良因素,这 些将导致系统的识别率降低。 ( 3 ) 复杂度 说话人识别系统能否实现的决定因素就是系统的复杂度。系统的复杂度指是模型的 复杂度或计算的复杂度。降低模型的复杂度,不仅可以较小算法的存储空间,而且可以 减少算法的计算量,便于算法的实现。 1 3 本文的主要工作及内容结构安排 实验环境中的说话人识别已经有了很大的进展,但是还不能满足现实生活的需要, 本文主要研究如何提取能代表说话人独特个性的语音参数,及如何克服支持向量机不适 合大样本情况下的识别,提高说话人识别系统的识别率和准确度。 本论文从这两个方面出发,将粒子群算法引入到独立分量分析中,并用改进的独立 分量分析算法对噪声环境下提取的语音参数进行语音增强:由于传统的支持向量机在大 样本情况下训练速度慢的缺点,提出一种新的量子粒子群分类器,并将其应用到说话人 识别,通过实验平台对改进算法的可行性进行验证。 主要进行了以下两个方面的工作: 1 针对提取的噪声环境下的语音信号,用粒子群算法对传统的基于梯度算法独立分量 分析算法进行改进,改善其收敛性能及求解性能都依赖学习步长的缺点。将改进后 的算法用于语音增强处理,提取更有意义的语音信号。 4 硕十学位论文 2 针对s v m 在大样本情况下训练速度慢的缺点,提出一种新的粒子群分类器,并将其 应用到说话人识别中。 本论文的创新点主要体现在两个方面:1 ) 用改进的粒子群算法对独立分量分析算 法进行改进,提出一种有效的基于改进的粒子群算法的b s s 算法:首先,引入进化速度 和聚集强度来更新粒子群算法中的动态惯性权重;然后定义基于改进p s o 的i c a 算法的 适应性函数;最后给出算法的具体步骤。2 ) 提出一种新的量子粒子群分类器,并将其 应用到说话人识别中。其中包括引入权重最优位置的策略对量子粒子群算法改进,采用 改进的m i c h i g a n 编码方案对语音参数进行编码,并构造新的分类规则适应度函数,实现 带权重的量子粒子群分类器( w q p s - c l a s s i f i e r ) 的设计。 本论文的内容结构安排如下: 第一章主要对说话人识别技术研究现状进行了介绍。 第二章对说话人识别基本模型进行了阐述和分析,之后对噪声环境下语音信号的处 理和信道鲁棒性的分析方法进行了总结,最后给出常用的说话人识别模型。 第三章介绍盲源分离算法的基本理论,给出其常用的算法一独立分量分析基本的 模型,并对独立分量分析中常用的3 种算法及其不足之进行分析。 第四章提出一种基于改进的粒子群算法的独立分量分析算法,对语音特征参数 m f c c 系数进行增强。 第五章构造基于权重的量子粒子群分类器,并用于说话人识别。 5 基于智能群体和盲源分离的说话人识别 第2 章说话人识别技术 说话人识别是- 1 3 应用生理学,语音信号处理,模式识别与人工智能技术的跨越多 学科的边缘研究课题,下面就说话人识别技术的系统原理、最新的特征参数提取及处理 的方法,以及说话人识别模型做以简单介绍。 2 1 说话人识别基本模型 说话人识别系统一般由预处理、特征提取、建立模型、模式匹配、判决等部分组成, 图2 1 给出了其模型框图。 一一 ,识别 。 参考模型 册 预 端 l 加 点 u 特征 检 :l 提取 、r t _ j 重 测 模式匹配一判决 识疑 一j 霜 k 珈 1 j练7 图2 1 说话人识别模型框图 从图中可以看出说话人识别系统由三个阶段组成: ( 1 ) 语音信号的处理阶段:这一阶段主要包括语音信号的去噪,预加重( 提升语音信 号的高频段) ,端点检测,及特征提取部分。特征提取就是提取能够有效表征说话人特 征的参数。实际上现在采用的特征都是从语音信号模型中得到的,这些特征既包含了说 话人的语音特征,又包含说话人的个性特征,互相交织在一起,以复杂的形式存在于语 音参数中,目前还没有建立起准确分离和提取这两种特征的技术【9 1 。 ( 2 ) 模型训练部分:模式匹配的目的也就是进行识别,包括矢量量化,模板匹配法, 隐马尔可夫模型,高斯混合模型等。要系统能够识别说话人,首先需要用说话人的声音 对系统进行训练,这一过程常可以离线进行。无论是在识别系统建立时,还是在识别系 统扩展时( 需要增加或减少系统所登记的人数) ,对模型的训练是必需的。由于说话人声 音常随时间和年龄而变化,常常需要在说话人辨认或说话人证实结果是正确时,用测试 音对已经识别正确的说话人的模型进行自适应调整和修正,从而构成自适应说话人识别 系统,这时模型的训练则应是在线进行的【1 0 】。 ( 3 ) 模型参数存储部分:对模型的训练实际上是用训练语音的特征模型参数进行估 计,估计出的参数就表示了说话人的个性特征,应很好地保存下来,以便在说话人识别 时用于与测试者匹配测试。 ( 4 ) 匹配计算部分:测试音的特征与说话人模型进行匹配,计算匹配距离。说话人证 实时,只与所声称的说话人的模型进行匹配和匹配距离计算,说话人辨认时,与所有说 6 硕十学传论文 话人模型进行匹配和匹配距离计算。 ( 5 ) 判决部分:根据匹配距离的计算结果判决说话人是否是为声称的说话人或说话人 到底是谁。 2 2 语音噪声信号的处理 实际应用中,说话人可能处于各种各样背景噪声环境中,语音质量的好坏,将会直 接影响说话人识别系统的性能,噪声环境已经成为说话人识别走向实用化的一个屏障。 以前传统的语音特征处理方法如,m f c c 系数,l p c c 系到1 1 1 等已经远远不能满足现在 的实际需求,所以,众多学者研究将更新的信号处理技术融入于对说话人特征的处理, 一般可以分为两方面:一个是消除噪声信号,另一个是消除信道的影响。 2 2 1 噪声信号的分类 ( 1 ) 根据噪声干扰语音的方式,噪声可以分为加性噪声、卷积噪声和非线性叠加噪声。 ( 2 ) 根据噪声的统计特性随时问变化的程度,可以分为平稳噪声、慢变噪声和非平稳 噪声。 当存在噪声干扰时,我们接收到的是噪声和纯净语音混合在一起的信号。噪声语音 的统计特性会发生变化,如纯净语音的特征分布原来是高斯的,现在可能是非高斯的; 原来是单峰的,现在可能是多峰的;原来是平稳的,现在可能是非平稳的。总之,噪声 的影响使得原来纯净语音的模型对于含噪语音来说失配,从而造成识别性能的急剧下降 2 2 2 噪声信号的处理 ( 1 ) 信号处理方法去噪: 该类算法主要是从信号处理的角度出发,去除噪音的影响,提高语音信号信噪比及 抗干扰性。它包含了信噪分离技术、信号检测、以及语音信号增强等。常用的算法盲源 分离算法( b l i n ds o u r c es e p a r a t i o n ,b s s ) ( 主要指独立分量分析,i n d e p e n d e n tc o m p o n e n t a n a l y s i s ,i c a ) 1 2 j 、谱减( s p e c t r a ls u b t r a c t i o n ,s s ) 法t 1 3 1 钔、r a s t a 滤波法【1 5 j 、线性判别 分析( l i n e a rd i s c r i m i n a t i v ea n a l y s i s ,l d a ) 1 1 6 l 、主分量分析( p r i n c i p a lc o m p o n e n t a n a l y s i s ,p c a ) 法【1 7 - 1 8 】等 盲源分离中的i c a 方法是一种将线性混合信号进行分离,得到统计独立的源信号的 技术,能用于提取组合语音的特征基函数,尤其是受麦克风效应影响的语音信号;s s 是处理宽带噪声较为传统和有效的方法。它是在假定加性噪声与短时平稳的语音信号相 互独立的条件下,从带噪语音的功率谱中减去噪声功率谱。从而得到较为纯净的语音频 谱;谱减和r a s t a 滤波相结合的处理方法简单实用,运用在汉语孤立数字识别时,有 较明显的抗加性噪声和卷积性噪声的能力。结合其他抗噪声的措施,如加上端点检测等, 7 摹于智能群体和盲源分离的说话人识别 曼兽曼曼曼曼曼曼皇曼曼曼曼皇1 1i 曼量曼曼曼皇皇皇曼曼曼曼皇 将会有更好的结果,但该方法在信噪比较高的时候效果明显,但是信噪比很低时效果不 甚理想。p c a 的方法从超矢量分布的方差角度来评价信道对说话人的影响,但并没有明 确哪种信道是本征信道,可以认为是一种连续特征映射的概念,在基线系统较高时的情 况下能够取得比较好的提升,也可以快速降低语音信号特性维数和简单快速的计算等优 点。 ( 2 ) 声学模型级去噪:该类方法主要是通过模型补偿( m o d e l c o mp e n s a t i o n ) 技术【1 9 2 0 l , 减少测试集和训练集的不匹配,从而提高系统对含噪语音的识别性能。这些工作主要围 绕噪声环境下语音声学模型与静态特征和动态特征相对应的静态参数和动态参数补偿 新方法、噪声补偿模型自适应训练方法等方面进行了较详细的研究和探索。目前国际上 广泛使用的p m c ( p a r a l l e lm o d e lc o m b i n a t i o n ) 和v r s ( v e c t o rt a y l o rs e r i e s ) 声学模型参 数补偿方法只能达到其线性展开的一阶近似,文献 2 0 1 提出了的针对噪声环境下语音声 学模型静态参数补偿算法_ ii t ( u n s c e n t e dt r a n s f o m a t i o n ) 变换补偿技术,可以达到 对声学模型的二阶近似,得到更加精确的声学模型。 2 2 3 信道鲁棒特性 在实际应用中,说话人系统往往与电话等结合应用。由于说话者使用的设备不同( 如 不同型号的手机、座机等) 、或者传输信道( o ng s m 、c d m a 、小灵通等) 的不同,导致 录制的语音受到不同程度的影响,这些影响统称为信道差异。信道差异的存在会使得测 试语音和训练语音之间存在一定的不匹配,从而降低说话人识别系统的性能。因此,对 信道差异这一问题解决的好坏将直接影响到说话人识别系统能否投入实际应用。 信道补偿主要是针对目前复杂电话信道影响,经典的算法包括特征映射( f e a t u r e m a p i n g ) 2 1 l 、说话人模型合成( s p e a k e rm o d e ls y n t h e s i s ,s m s ) f 2 嬲j 、扰动属性映射 ( n u i s a n c ea t t r i b u t ep r o i e c t i o n ,n a p ) z 4 1 、因子分析( f a c t o ra n a l y s i s ,f a ) 1 2 5 l 等等。其中, 特征映射主要指的是特征域的方法,主要研究的是特征参数半生的处理及特征参数的提 取过程及参数特征变化方面的。而s m s ,f 及n a p 都是属于模型域的方法。该类算法 主要是在模型空间对信道进行补偿或消除,根据信道问题来调整模型,使得模型和世界 环境匹配。文献针对影响支持向量机识别性能的跨信道问题,s o l o m o n o f f 等人【2 6 】提出了 n a p ,该算法采用主元分析( p c a ) 的方法去除信道信息,但是n a p 算法需要大量的 有信道信息标注的语音数据,针对这一不足,文献 2 7 1 采用联合因子分析( j o i n tf a c t o r a n a l y s i s ) 的方法生成一个合适支持向量的去除信道信息的超向量,取得了比较理想的 结果。信道子空间投影【2 引,后面有些学者从单通道子空间方法引出多通道信号子空间方 法【2 9 1 ,它对幅相误差的敏感度不高,且不需要配置麦克风阵,又不像维纳滤波以牺牲语 音质量来换取消噪效果,还可以通过调节拉格朗日乘子的值进一步消除噪声。 8 硕+ 学位论文 2 3 说话人识别特征参数 2 3 1 线性预测倒谱系数l p c c 倒谱特征是用于说话人个性特征表征和说话人识别的最有效的特征之一。语音信号 是声道频率特性和激励信号源二者共同作用的结果,后者对于某帧而言常带有一定的随 机性,而说话人的个性特征很大程度上取决于说话人的发音声道,因此要将二者进行有 效的分离。由于语音信号是由激励信号与声道频率响应相卷积的结果,因此可通过对信 号做适当的同态滤波,将相卷积的两个部分分离。滤波的关键是先将卷积处理化为乘积, 然后做对数处理,使之化为可分离的相加成分。 线性预测倒谱系数( l i n e a rp r e d i c t i o nc e p s t r u mc o e f f i c i e n t ,l p c c ) 是一种比较重要 的特征参数,它能够比较彻底地去除语音产生过程中的激励信息,能较好地描述语音信 号的共振峰特性【2 2 1 。在实际计算中,l p c c 不是由信号直接得到的, 而是由线性预测参 数( l i n e a rp r e d i c t i o nc o e f f i c i e n t ,l p c ) 求得。l p c c 系数c ,以) 与l p c 系数 一, a i “= 1 ,2 ,p ) 之间的关系如下: ( 1 ) = a l c g ( n ) = 薹等。c ) + ,( 1 p ) 当l p c c 系数个数不大于l p c 系数个数时用上式中的第二式,当l p c c 系数个数 大于l p c 系数个数时,用上式中的第三式进行计算。 2 3 1 梅尔倒谱系数m f c c 梅尔倒谱系数( m e lf r e q u e n c yc e p s t r u m c o e f f i c i e n t ,m f c c ) 是由d a v i e s 和 m e r m e l s t e i n 提出的,该参数利用了听觉原理和倒谱的解相关特性,从人耳对频率高低 的非线性心里感觉角度,反映了语音短时幅度谱的特征。m e l 频谱尺度更符合人耳听觉 特征,大体上对应于实际频率的对数分布关系,根据z w i c k e r 的结论,临街频率宽带随 着频率的变化而变化,并与m e l 频率增长一致。1 0 0 0 h z 一下呈线性分布,1 0 0 0 h z 以上 呈对数增长。具体关系为: r e e l ( f ) = 1 1 2 7 x l n ( 1 + 7 0 0 ) ( 2 2 ) 由此得到m e l l 滤波器组日。仰) 。 9 基于智能群体和盲源分离的说话人识别 曼曼曼曼曼曼曼皇曼曼曼曼量曼量曼曼量量曼曼皇曼曼曼皇皇曼量曼曼曼量j ri i _i n 曼曼鼍旨 图2 2 船c c 系数框图 谱 m f c c 的实现框图如图2 2 所不,其计算过程如f 。 1 对每帧语音信号求点的离散傅氏变换,取模的平方得到离散功率谱s ( n ) s ( 以) = l d f r ( x ( 以) ) 1 2 ,咒- 0 ,1 ,n 2 - 1 2 计算s ( n ) 通过m 各带通滤波器巩o ) 后得到的功率己,m 一0 ,m 一1 。 己2 薹玑q ) 3 计算己的自然对数,得到,m - - - 0 ,m - 1 。 l = l l l ( 只) ( 2 3 ) ( 2 4 ) ( 2 5 ) 4 计算匕,k 一。的离散余弦变换,将结果换到倒谱域,得到q ,k ;0 ,m - 1 。 c 。一警荟m - 1 k 叫堕2 m 当 ( 2 5 ) m 镪h 、 。 、。 其中 口( 七) ;j5 2 - 七= o( 2 6 ) 1 七= 1 ,m 一1 5 从原理上看,m f c c 是将各帧的频谱成分经过m e l 刻度的滤波器组滤波后形成一组 子带合成频谱能量系数,再经过对数压缩和d c t 变换获得的。这个处理过程的特点是, 首先,语音的时频演化特性通过观测向量序列各成分的变化表现出来;其次,m e l 滤波器 组近似地表现了人耳的听觉特性;最后,对数变化压缩了幅度谱的动态范围,均匀了各子 带能量对识别的贡献。m f c c 特征是目前使用最广泛的语音特征之一,具有计算简单、 区分能力和抗噪声能力好等突出的优点,因而常常成为许多实际识别系统的首选。 2 4 说话人识别方法及分类模型 2 4 1 说话人识别模型 早期说话人识别方法主要是模板匹配法,它是在训练过程中从每个说话人发出的训 练语句中提取相应的特征矢量,用这些特征是用来描述各个说话人的行为,其中主要的 1 0 硕士学何论文 是动态时间规整( d y n a m i ct i m ew a r p i n g , d t w ) i 删和矢量量化( v e c t o rq u a n t i z a t i o n ,v q ) 【3 。它们对说话人模型的存储需求较大,在说话入集合规模比较多的情况下,识别性能 不好,后来逐渐被概率模型法所代替。 在语音识别领域中,统计模型被证实是一种非常成功的模型。概率统计方法主要有 隐马尔科夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 1 3 2 】和高斯混合模型( g a u s s i a nm i x t u r e m o d e l ,g m m ) 3 3 1 。h m m 在9 0 年代初就被用在说话人识别中,是一种基于转移概率和传 输概率的随机模型,可以有效地解决辨识具有不同参数的短时平稳信号段,最早在c m u 和i b m 被用于语音识别。在大量的实验中,表明h m m 可以非常精确地描述语音信号 的产生过程。高斯混合模型是一种多维概率密度函数,在与文本无关的话者确认中,高 斯混合模型在语音模型建模中使用的比较多,其中一种基于统一背景模型在说话人识别 中到得了比较高的认可,即大多采用基于高斯混合模型背景模型1 3 4 1 ( g a u s s i a nm i x t u r e m o d e l u n i v e r s a lb a c k g r o u n dm o d e l ,g m m u b m ) ,本文后续的工作也是在此模型基础上进 行的,下面我们主要对此模型进行详细的介绍。 按照g a u s s 混合模型,对于一个d 维的语音特征矢量x ,其概率密度函数都可以用m 个g a u s s 函数来拟合: p ( x x ) = 罗雌a

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论