




已阅读5页,还剩57页未读, 继续免费阅读
(通信与信息系统专业论文)改进的核函数算法及其在说话人辨认中的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 摘要:说话人识别以其独特的方便性、经济性和准确性的特点,在生物特征 识别领域具有广阔的应用前景。但由于现有的说话人识别算法面临训练量大、实 时性差以及受信道干扰严重等问题,使得说话人识别技术在实际应用方面受到了 限制。在统计学习理论基础上发展起来的支持向量机,因其优良的泛化性能得以 在说话人识别领域受到广泛的关注。但由于支持向量机尚处于发展阶段,很多方 面尚不完善,因此研究并完善说话人识别技术的理论和实现算法具有重要意义。 本文围绕着如何提高说话人辨认系统的识别率和鲁棒性的问题进行了研究, 重点在基于超向量的核函数的生成方法上进行了探索,主要做了以下的工作: ( 1 ) 对特征参数提取的改进。首先,将高斯混合模型通用背景模型 ( g m m u b m ) 引入到说话人辨认中来,利用说话人无关的特征分布来近似说话人训 练语音未覆盖到的发音情况,弥补了说话人训练语音不足的缺点;然后,采用m a p 自适应算法对特征参数均值进行自适应后排列生成超向量。 ( 2 ) 采用新的核函数( k l 散度核函数、l 2 内积核函数和基于n a p 映射的核函 数) 应用于说话人辨认。这三种核函数都是以超向量为特征参数得到的,超向量 的特性使得支持向量机可以在整体语音序列上进行分类,而传统的支持向量机是 基于帧一级的处理,是将不等长的语音段切割为彼此独立的的帧来处理的,通过 平均各个帧上的决策值来判定语音对应的话者身份。由于不需要在分帧时加入冗 余信息,并且降低了运算复杂度,因而提高了支持向量机的分类能力。同时,为 了减小交叉信道干扰和噪声等因素对系统识别率的影响,采用基于n a p 映射的核 函数,将说话人超向量中与说话人特征向量无关的信道子空间的冗余信息去除掉, 提高了系统的鲁棒特性。 ( 3 ) 在自建语音库的基础上,用m a t l a b 进行仿真实验。首先将本文改进后 的特征提取方法与改进前的方法进行了比较。随后,将本文采用的三种新型核函 数应用于支持向量机。实验结果显示,本文采用的改进的核函数与传统的r b f 核 函数和多项式核函数相比较,它们的识别率都相对提高了1 2 以上。通过系统鲁 棒性能实验可以看出,使用基于n a p 映射的核函数的系统的鲁棒性得到了很大的 提高。 关键词:说话人辨认;支持向量机;核函数;g m m 超向量;主成分分析( p c a ) ; n a p 映射 分类号:t p 3 9 3 a b s 瞰c t a b s t r a c t :d u et oi t ss p e c i a lm e r i t so ff l e x i b i l i t y , e c o n o m ya n da c c u r a c y , s p e a k e r r e c o g n i t i o nt e c h n o l o g yh a sab r o a da p p l i c a t i o nf u t u r ei nb i o m e t r i c si d e n t i t yv e r i f i c a t i o n f i e l d h o w e v e r , s p e a k e rr e c o g n i t i o nh a ss o m el i m i t si na p p l i c a t i o nb e c a u s et h et r a i n i n g a l g o r i t h mi sc o m p l i c a t e d , a n dt h er o b u s t n e s si sn o ti d e a l s u p p o r tv e c t o rm a c h i n e ( s v m ) i san e wc l a s s i f i c a t i o nm e t h o d o l o g y i th a sb e e np r o v e dt ob eap o w e r f u l t e c h n i q u ei np a t t e r nc l a s s i f i c a t i o nf o ri t sg o o dg e n e r a l i z a t i o na b i l i t y b u ts v m h a ss o m e d i s a d v a n t a g e si ns o m ea s p e c tf o ri t ss t i l li nt h ed e v e l o p i n gs t a g e t h et h e s i sf o c u so nh o wt oi m p r o v et h er e c o g n i t i o nr a t i oa n dr o b u s t n e s so fs p e a k e r r e c o g n i t i o ns y s t e mb yg e n e r a t i n gn e wk e r n e l sb a s e do ns u p e r v e c t o r t h em a i n c o n t r i b u t i o n so ft h ed i s s e r t a t i o na r ea sf o l l o w s : ( 1 ) t h ea d v a n c e df e a t u r ep a r a m e t e re x t r a c t i o n t h i st h e s i si n t r o d u c e s g a u s s i a n m i x t u r eu n i v e r s a lb a c k g r o u n dm o d e l ( g m m - u b m ) i n t os p e a k e rr e c o g n i t i o nm o d e l i n g u b mu s e ss p e a k e r - i n d e p e n d e n td i s t r i b u t i o np a r a m e t e r st oa p p r o x i m a t ep a r a m e t e r sf o r a c o u s t i cu n i t sw h i c ha r ea b s e n ti ns p e c i f i e ds p e a k e r st r a i n i n gd a t a t h e ns t a c kt h e m e a n so ft h eg m mm o d e lw h i c hi sa d a p t e db ym a pa l g o r i t h mt of o r mg m mm e a n s u p e r v e c t o r ( 2 ) t h ea d o p t i o no fn e wk e r n e l s ,s u c ha sk u l l b a c kl e i b l e rd i v e r g e n c ek e r n e l ,r i n n e rp r o d u c tk e r n e la n dn a pk e r n e l t h e s et h r e en e wk e r n e l sa r ea l lb a s e do ng m m s u p e r v e c t o r t h es v mu s i n gt h ek e r n e l sb a s e do ng m ms u p e r v e c t o rc a nb eu s e dt o c l a s s i f yw h o l l yo nt h es e q u e n c e m e a n w h i l e ,i no r d e r t oe n h a n c et h er o b u s t n e s so ft h e s y s t e m ,t h et h e s i sa d o p tk e r n e lb a s e do nn u i s a n c ea t t r i b u t ep r o j e c t i o n t h i sk i n do f k e r n e lg e t sr i do fr e d u n d a n ti n f o r m a t i o nf r o mt h es u b s p a c ew h i c hh a sn or e l a t i o n s h i p w i t ht h es p e a k e rf e a t u r e ( 3 ) b a s e do np e o p l ev o i c ed a t a b a s e ,w e t a k ee m u l a t i o ne x p e r i m e n t s f i r s t , w e c o m p a r et h ea d v a n c e df e a t u r ee x t r a c t i o nm e t h o dw i t hr b fk e r n e la n dp o l y n o m i a l k e r n e l s e c o n d , w ea p p l yt h e s et h r e en e wk e r n e l st os p e a k e ri d e n t i f i c a t i o n f r o mt h e r e s u l t ,w ec a ns e et h e s et h r e en e wk e r n e l si m p r o v e dr e c o g n i t i o nr a t i oa tl e a s tb y1 2 , a n dn a pk e r n e li m p r o v e dt h er o b u s t n e s so ft h es y s t e mal o t k e y w o r d s :s p e a k e ri d e n t i f i c a t i o n ;s u p p o r tv e c t o rm a c h i n e ;g m ms u p e r v e c t o r k e r n e l ;p r i n c i p a lc o m p o n e n ta n a l y s i s ( p c a ) ;n u i s a n c ea t t r i b u t ep r o j e c t i o n ( n a p ) c i a s s n o :t p 3 9 3 图 图2 1 说话人系统结构图7 图2 2 说话人确认示意图8 图2 3 说话人辨认示意图8 图2 4 支持向量机示意图。1 6 图2 5 最优分类面1 7 图2 6 核函数映射原理图2 0 图3 1 说话人辨认系统框图2 3 图3 2m f c c 系数提取过程2 5 图3 3u b m 参数和模型生成方法一2 9 图3 4u b m 参数和模型生成方法二2 9 图3 5 通过大量背景语音数据训练后得到的u b m 模型3 1 图3 - 6 自适应模型的步骤图示。3 3 图3 7g m m u b m 模型的生成原理图3 3 图3 8 超向量的形成过程3 4 图3 9 说话人的超向量3 8 图4 _ 1 训练过程示意图4 4 图禾2 识别过程示意图。4 5 图4 3m f c c 系数4 6 图似降维后的m f c c 系数。4 6 图禾5 不同系统的识别率在白噪声加噪之后随信噪比的变化情况4 9 表 表4 _ 1 特征参数的实验4 7 表4 - 2 基于不同核方法的s v m 的识别率4 7 表4 3 基于不同核函数的s v m 在白噪声加噪之后的识别率4 8 学位论文版权使用授权书 本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特 授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索, 并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国 家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名: 调芳午 导师虢仫徽 签字日期:抛8 年6 月,2e l签字日期:歹郇旁年6 月fz 日 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研 究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或 撰写过的研究成果,也不包含为获得北京交通大学或其他教育机构的学位或证书 而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作 了明确的说明并表示了谢意。 学位论文作者签名:吉日名年 签字日期:z 0 0 8 年参月,土日 致谢 论文的工作是在我的导师张有根教授的悉心指导下完成的,张老师严谨的治 学态度和科学的工作方法给了我极大的帮助和影响。在此衷心感谢近两年来张老 师对我的关心和指导。感谢陈常嘉老师和胡师舜老师在读研期间对我的关心和督 促。 在实验室工作及撰写论文期间,刑玉娟、郝元宏同学及危婷学姐对我论文修 改工作给予了热情帮助,并对本文提出许多有价值的意见和建议,在此向他们表 达我的感激之情。同时感谢北京交通大学通信网络实验室给我的研究提供了良好 的实验环境和学习氛围。 另外也感谢我的家人,他们的理解和支持使我能够在学校专心完成我的学业。 1 引言 1 1 研究背景及意义 近年来,随着生物学和信息科学的高度发展,生物认证技术以其不需记忆、 不会遗忘、使用方便等优点,逐渐成为信息产业中极为重要的前沿技术。 传统的身份认证技术是把身份认证的问题转化为鉴别一些标识个人身份的事 物,如钥匙、证件、i d 卡、密码以及一些相关的用户认证知识等。虽然随着密码 学和各种防伪技术的采用,使传统的身份认证方式有了很大的发展。但是这些方 法还是存在固有的缺陷:用户拥有的物品携带不便、容易丢失、被盗窃、被伪造; 用户拥有的密码容易遗忘、记错或者被破解盗用。据报道美国每年由于信用卡失 窃而损失上亿美元,而且随着计算机网络的发展,电子商务、电子银行等的安全 问题变得更加严峻。由此,生物特征识别技术应运而生,它利用人体固有的生理 特征( 指纹、手形、脸部、虹膜) 和行为特征( 声音、签名) 等进行个人身份鉴定, 在安全等诸多方面优于传统的身份鉴定手段。 通过人的语音来确定说话人的身份就是所谓的说话人识别,包括说话人辨认 和说话人确认两种类型。说话人识别也可以看作是语音识别的一种特殊形式,它 和语音识别一样,都是通过对所收到的语音信号进行处理,提取相应的特征,建 立相应的模型,然后据此做出判断。说话人识别与语音识别的区别在于,说话人 识别着重于希望从语音信号中提取出入的个性特征,强调不同人之间的差别,而 语音识别希望从词语信号中寻找共性因素,尽量剔除说话人的个性特征,突出语 音信号的语义差别。 近年来,说话人识别已经在相当广泛的领域内发挥出重要的作用,主要有以 下几个方面: ( 1 ) 说话人核对:在电话预约服务中,利用用户的声音实现汇款、转账、余 款通知、股票行情信息咨询;用特定的声音实现机密保管场合的出入人员检查; 用工厂职工的口令实现职工签名管理;以及在i n t e r n c t 未来可能出现的声音身份确 认或安全控制等等。 ( 2 ) 声控电子密码锁:实时执行军事指挥员或飞机驾驶员的口述命令,只有 有经验的操作员才能进行高精度控制等。 ( 3 ) 医学应用:通过说话人识别系统响应患者的需求,从而实现对假肢、轮 椅等的控制。 ( 4 ) 搜索罪犯:判断所记录的声音究竟是多个嫌疑犯中的哪一个人的声音。 有时嫌疑犯中不包括真正的罪犯,这时常常需要说话人辨认和说话人确认的结合 ( 5 ) 在军事领域:使用说话人识别进行指挥员的鉴别,判断不同的指挥员所 处的位置,获取敌方作战部署的意图。 在信号检测与处理、模式识别、人工智能、机器学习等理论与技术迅速发展 的推动下,不久的将来,说话人识别技术必将进入一个光辉的时代。 1 2 说话人识别国内外研究现状 1 2 1技术研究现状 经过多年的发展,目前说话人识别已经有了自己的主流技术。 在特征提取方面:最常用的特征参数是线性预测系数( l i n e a rp r e d i c t i v e c o d i n g ,l p c ) ,线性预测倒谱系数( l i n e a rp r e d i c t i v ec o d i n g c e p s t r u m ,l p c c ) , m e l 倒谱系数( m e l s c a l e dc e p s t r u mc o e f f i c i e n t s ,m f c c ) ,可以描述语音动态特征 的m f c c 差分系数。最近几年,基于小波技术的特征参数,也有很好的识别效果。 在说话人模型方面,目前常用的方法大致有【1 1 : ( 1 ) 矢量量化方法( v q ) :该方法比较简单,实时性好,数据的存储量小, 但其鲁棒性不是很好。 ( 2 ) 隐马尔可夫模型方法( h m m ) :该方法对关键词的识别效果很好,在文 本无关说话人识别中的识别率并不是很好,且训练复杂。 ( 3 ) 高斯混合模型( g m m ) :该方法性能较好,方法简单,是目前最好的说 话人识别模型。 ( 4 ) 人工神经网络( 创烈) :该方法具有很强的聚类能力和静态分类能力,具 有高度的并行性,它可以进行快速判决并具有容错能力,某些节点的损伤不会影 响判决结果,所以在识别判决方面具有一定的优越性。但对大多数神经网络方法 来讲,当需要增加一个新的说话人时,整个网络要重新训练,系统可扩性不好, 且神经网络训练比较复杂。 ( 5 ) 支持向量机( s v m ) :该方法是一种基于结构风险最小的机器学习方法, 具有很好的泛化和分类能力,在说话人识别中取得很成功的应用,成为本领域的 研究热点。 目前,说话人识别的研究重点转向语音中说话人个性特征的分离提取、个性 特征的增强、对各种反映说话人特征的声学参数的线性或非线性处理以及新的说 话人识别模式匹配方法上,如动态时间规整( d t w ) 、主成分分析( p c a ) 、隐马 2 尔可夫模型( h m m ) 与人工神经网络( 砧蝌) 的组合等。 由于每一种识别方法都各自的优缺点,故利用各种方法优点的融合,在目前 的说话人识别中得到广泛的应用,也是本领域的研究热点。如: ( 1 ) 识别方式的结合:这种结合方式主要是s v m 分类器与别的识别方式结合, 如s v m 与g m m 结合的说话人识别系统1 2 , 3 1 。g m m 能够处理连续信号,s v m 适合分 类,g m m 的结果反映了同类样本的相似度,而s v m 的输出结果则体现了异类样本 间的差异,s v m 和g m m 结合充分利用了各自的优点,取得了很好的识别效果。通 过对g m m 自适应后与s v m 结合的技术,从大量的语音数据中有效地提取了典型特 征向量,从而大大改善了传统的s v m g m m 技术。 ( 2 ) 维数约简与识别方法结合:局部p c a 和g m m 结合的说话人识别系统h ; 局部模糊p c a 和g m m 结合的说话人识别系统【5 】;核p c a 与g m m 结合的说话人识别 系统1 6 】,既提高了训练速度又达到了很高的识别率。 ( 3 ) 对核函数的改进:目前,对于核函数的研究基本都是围绕如何生成或选 择合适的核函数来提高s v m 或其他基于核函数的学习方法的性能。如何去构造、 选择核函数及参数成为人们关注的问题。比如,对核函数参数的优化r7 ,引,从而有 效地减少支持向量的数量,可大大减小误差率;对局部核函数和全局核函数的组 合使用【9 , 1 0 ,进一步提高了s v m 分类器的性能和推广能力;构造新的核函数【1 1 , 1 2 , 本文就采用这一思路,通过构造k l 散度核函数和l 2 函数空间内积的核函数来提高 支持向量机的识别率。 ( 4 ) 超向量的概念i 由c a m p b e l l 等人于2 0 0 6 年提出,主要用于两个方向,第一, 用于构造新型核函数并用于支持向量机分类1 1 3 】,由于特征向量经过m a p 自适应后, 其均值的维数变换为等长的,可直接将其作为输入用于支持向量机进行整体分类, 这样,就可以提高系统的识别率和识别速度不过目前提出的基于超向量的核函数 仅应用于说话人确认,还未有文献将其应用于说话人辨认中;第二,用于实现任 务多变性补偿【1 4 j ( s c s s i o nv a r i a t i o nc o m p e n s a t i o n ) 。目前,对基于g m m 超向量的s v m 系统的任务多变性补偿的两种最好的方法有两种:第一种是i s v ( i n t e r - s e s s i o n v a r i a b i l i t y ) 建模;第二种是采用映射( n u i s a n c a t t r i b u t ep r o j e c t i o n ,n a p ) 的方法 将说话人超向量中与说话人特征参数无关的信息去除,从而提高系统的鲁棒特性, 其实质是通过映射生成一个新的核函数。 1 2 2 应用研究现状 目前国内外己经有了一些成熟的产品,国外一些研究机构已经开发出几代说 话人识别系统。例如美国电话电报公司( 灯& t ) 应用说话人识别技术研制出了智 3 慧卡,并已经应用于自动提款机。欧洲电信联盟在电信与金融领域应用说话人识 别技术,于1 9 9 8 年完成了c a v e ( c a l l e rv e r i f i c a t i o ni n b a n k i n g a n d t e l e c o m m u n i c a t i o n ) 计划,并于同年启动了p i c a s s o ( p i o n e e r i n gc a l la u t h e n t i c a t i o n f o rs e c u r es e r v i c eo p e r a t i o n ) 计划,在电信网上实现远程用户身份认证。同年, m o t o r o l av i s a 等公司也成立了v - c o m m e r c e 联盟,希望实现电子交易自助化,其中, 通过声音实现远程身份认证是该项目重要组成部分。英国a c u l a b 公司在 s p e e c h t e k 2 0 0 2 上发布其最新的声纹鉴别软件s v i ( s p e a k e rv e r i f i c a t i o n a n d i d e n t i f i c a t i o n ) ,它是第一个由语音板卡制造商自主开发、提供并非依赖第三方的声 纹鉴别软件。其他商用系统还包括m 公司的s p e a k e r k e y , t - n e t i x 公司的s p e a k e z , k e y w a r e 公司的v o i c eg u a r d i a n 等。美国国家标准与技术协会n i s t 、s a n d i a 国家实验 室和美国国家安全局都开展了说话人识别系统的测试和分析。其中n i s t 的测试吸 引了众多研究机构参与,有广泛的影响力。它组织的大规模对比测试对确定说话 人识别的研究重点和制定技术标准发挥了重要作用。 国内进行说话人识别研究的主要机构是一些大学和研究所,例如:北京大学信 息中心、清华大学自动化系,浙江大学,东南大学,中科院自动化所,中科院声 学研究所,哈尔滨工业大学等单位。并先后得到了国家自然科学基金重大和重点 项目、攀登计划等基金的支持,取得了丰硕的研究成果。例如:中国科学院自动化 所模识科技公司推出的p a t t e ks v 声纹识别产品,将声纹鉴别软件和其核心识别 引擎集成在一起,具有良好的识别性能。同时,中国科学院自动化所研制的电话 身份认证系统集成了基于声纹的身份认证技术和语音识别技术,通过一个电话语 音对话系统与用户交流,在人机语音对答的过程中,在后台进行用户的身份认证。 又如:北京得意音通公司在国际上率先推出的“声纹s 锁 ,利用对人类具有唯一性 的声纹,把声纹识别技术和数据安全技术紧密结合在一起,对个人电脑甚至服务 器中的重要数据进行双重安全认证,有效地保证了数据的安全性。 1 2 - 3 说话人识别技术的难点 说话人识别技术己进入实用阶段,但仍然存在许多因素不能达到令人满意的 效果。要在实际中广泛的应用,仍然存在很大的技术问题【1 5 j : 1 、仍然没有很好的方法将说话人语音特征参数从说话人的语音特征中分离出 来。语音信号中即包含了说话人语音内容的语义信息,又包含了说话入发声特征 的个性信息,是语音特征和说话人特征的混合体,到目前为止,还没有很好的方 法将说话人的个性特征从语音特征中完全分离出来,也没有找到简单的声学参数 能够更可靠地识别说话人。 4 2 、说话人的特征具有长时变动性。说话人的发音常常与说话人所处环境、说 话人的情绪和健康状况密切相关,而且会随着时间的推移和年龄的变化而变化。 3 、系统的鲁棒性差。语音通过通信线路传输时不可避免地受到噪声的影响, 并且不同的通信线路所带来的噪声情况可能是不同的,而且受电话线路带宽的限 制,语音信号会产生更大的失真。尤其在移动通信系统中,由于语音信号要经过 声码器压缩,语音信号会产生更大的失真。 4 、训练速度和识别速度目前还不能很好地达到实时的要求。 5 、语音容易被录音模仿。 对于说话人辨认还有一个难题就是用户规模问题。当用户数目增大时,辨认 系统的识别率和运行速度都会受到影响。目前的说话人辨认系统大多都只有数百 人的规模,而在实际应用中,系统的用户数目是相当大的。现有的识别方法在用 户数目较大( 千人以上) 时,识别性能会显著下降,识别率不能令人满意,并且 系统的运行速度也会显著下降,难以在用户期望的响应时间内得到准确的识别结 果。 1 3本课题的主要工作 本文围绕着如何提高说话人辨认系统的识别率和鲁棒性的问题进行了研究, 重点在基于超向量的核函数的生成方法上进行了探索,主要做了以下的工作: 1 、对说话人识别研究现状进行分析,重点研究了基于支持向量机的说话人识 别技术。 2 、对特征参数提取的改进。首先,针对说话人识别模型建模时计算量大、鲁 棒性能差等特点,采用主成分分析法对m f c c 系数进行降维和去噪;其次,将通用 背景模型( u b m ) 引入到说话人辨认领域来。最后,采用m a p 自适应算法对u b m 参数进行自适应,将适应后的均值向量排列起来生成超向量,可以直接用于支持 向量机进行整体分类。 3 、采用了新的核函数。为了提高支持向量机的分类能力,首先,通过两个高 斯混合模型之间k l 散度距离的近似表达式得到k l 散度核函数。然后,利用函数空 间的标准内积公式得到基于函数空间内积的核函数,这两种核函数都基于超向量, 超向量的特性使得支持向量机可以在整体语音序列上进行分类,而传统的支持向 量机是基于帧一级的处理,由于不需要在分帧时加入冗余信息,并且降低了运算 复杂度,因而提高了支持向量机的分类能力。为了进一步提高支持向量机对噪声 的鲁棒特性,减小交叉信道干扰和任务多变性对系统识别率影响,采用一种基于 n a p 映射的核函数,将说话人超向量中与说话人特征参数无关的信道子空间的信 5 息去除。 4 、通过对现有的几种支持向量机:一对一支持向量机、一对多支持向量机和 多向无环图支持向量机的优缺点进行分析后采用一对一的多分类方法进行多类分 类。 5 、在自建语音库的基础上,用m a t l a b 进行仿真实验,首先将本文改进后 的特征提取方法与改进前的方法进行了比较,随后,将本文采用的三种新型核函 数应用于支持向量机,与传统的核函数r b f 核函数和多项式核函数进行了比较, 并对结果进行了理论分析。 1 4本论文的内容安排 第一章、绪论。主要介绍了说话人识别的基本概念、应用背景、国内外研究 现状以及本课题的主要工作和论文结构的安排。 第二章、说话人识别技术。根据说话人识别原理,主要从特征提取和说话人 模型这两个方面作了简单介绍。重点从统计学习方法分析了支持向量机的基本原 理、结构和学习训练方法。 第三章、基于改进核函数的说话人辨认系统的设计。首先,介绍了本文采用 的改进的特征参数提取方法,重点讲述了g m m 超向量的生成方法;然后,推导了 基于超向量的k l 散度核函数、l 2 函数空间内积核函数和基于n a p 映射的核函数。 最后,探讨了三种多类分类方法的优缺点,并选取一对一的分类方法用于本文的 说话人辨认系统。 第四章、通过仿真实验验证本文改进后的特征提取方法以及三种新型核函数 的优越性,并从理论上进行了分析。 第五章、总结了本文主要提出的方法及其优缺点,对今后研究重点进行了预 测和展望。 6 2 说话人识别技术 2 1说话人识别的基本原理 2 1 1 基本概念 说话人识别( s p e a k e rr e c o g n i t i o n ,s r ) ,也称声纹识别( v o i c 七p d n tr e c o g n i t i o n ) 1 1 6 j , 就是利用说话人的语音信号同预先提取的说话人语音特征相比较来确定或鉴别说话人 身份的技术。说话人的语音信号中不仅包含有语义内容方面的信息,同时也包含有关说 话人身份的个性信息。每个人由于自己独特的声道特性和发音特点,使其讲话具有区别 于其他说话人的特征,这就是说话人识别的基本依据。 说话人识别的基本原理是为每一说话人建立一个能够描述这一说话人个性特征的 模型【1 7 1 ,即语音特征模型。在进行说话人辨认时,取与测试音匹配距离最小的说话人模 型对应的说话人作为说话人辨认的结果;在进行说话人确认时,用测试音的模型与所声 称的说话人的模型进行比较,若匹配距离小于一个规定的阈值,则该说话人得到确认。 说话人识别系统的逻辑结构图如下图2 - 1 所示。 说话人识别系统的基本原理主要包括三个阶段,即语音预处理和特征提取,训练和 识别。如图2 1 所示,在训练阶段,系统的每个使用者说出训练语句,提取说话人的语 音特征,系统据此建立并存储每个使用者的参考模型;在识别阶段,由待测说话人的语 音信号经过特征提取后形成待测模型,然后将其与系统训练时产生的参考模型进行比 较。 图:2 - 1 说话人系统结构图 f i g2 - 1t h ei l l u s t r a t i o no fs p e a k e rr e c o g n i t i o ns y s t e m 7 2 1 2 说话人识别的分类 根据判别方式的不同,可以将说话人识别技术划分为两类【1 8 1 ,即说话人确认 ( s p e a k e rv e r i f i c a t i o n ,s v ) 和说话人辨认( s p e a k e ri d e n t i f i c a t i o n ,s i ) 。 说话人确认是根据待测说话人的语音,确定是否与其声称的参考说话人相符,如图 2 - 2 所示,这种确认只有两种情况,或是肯定( 即得到确认) ,或是否定( 即拒绝承认) , 是“一对一式的判别。 接受拒绝 一 图2 - 2 说话人确认示意图 f i 9 2 2i l l u s t r a t i o no fas p e a k e rv e r i f i c a t i o np r o c e s s 说话人辨认是把待测说话人的语音判定为属于多个参考说话入之中的某一个,是 “多选一刀式的判别,如图2 - 3 所示。说话人辨认需要将输入的语音与所存储的每个参 考说话人的特征进行比较,当用户增多时,不仅处理时间变长,而且各个用户之间也变 得难以区分,辨认错误率大大增加。而对于确认来说,其错误率不随用户数目的增加而 变化,是一个趋于常数的值。 图2 - 3 说话人辨认示意图 r i g2 - 3i l l u s t r a t i o no fac l o s e ds e ts p e a k e ri d e n t i f i c a t i o ns y s t e m 8 根据训练和测试说话人的语音内容的不同,说话人识别还可以分为与文本有关的 ( t e x t d e p e n d e n t ) 和与文本无关的( t e x t i n d e p e n d e n t ) 的说话人识别两种方式与 文本有关的说话人识别,即要求说话人按规定的文本发音或者按提示发音,每个人的声 纹模型逐个被精确地建立,而识别时也必须按规定的内容发音,因此可以达到较好的识 别效果。与文本无关的说话人识别不规定说话人的发音内容,无论说话人说什么都可以 进行识别,因此可应用范围也更为广泛,近年来成为研究的热点。 说话人识别根据测试说话人的类别可以分开集( o p e ns e t ) 识别和闭集( c l o s es e t ) 识别。开集识别是有的待测说话人不属于注册说话人集合;闭集识别是所有待测说话人 都属于已注册说话人集合。显然,说话人开集识别的难度要大于说话人闭集识别。说话 人辨认是闭集问题,被测试人一定属于训练集合。而说话人确认往往是开集问题,系统 应有能力确认“假冒者,并予以拒绝。 2 1 3 系统的性能评价 说话人系统的好坏是由很多因素共同决定的。主要有:正确识别率( 或出错率) 、 鲁棒性、训练时间长短、识别时间、算法复杂度、对参考存储量的要求、使用者的方便 程度,价格因素等。 说话人识别系统评价有三个常用的指标:识别率( r e c o g n i t i o na c c u r a c y ) 、鲁棒性 ( r o b u s t n e s s ) 和算法复杂度( c o m p l e x i t y ) 。 l 、识别率 识别率是说话人辨认系统最重要、最直接的性能指标,即待识别语音样本中有多大 比例能够被正确地确定是由哪个说话人所说,计算公式如下: 识别率;黑嚣x 1 0 0 ( 2 - 1 ) 在说话人辨认系统中,通常用误识率表示,误识率越低,系统性能越好。而说话入 确认主要使用错误拒绝率( f r r ) 和错误接收率( f a r ) 来表征其性能。 2 、鲁棒性 说话人识别系统由一定条件下所采集的大量语料训练而成。在训练环境下使用时, 识别系统是可靠的。然而,说话人识别系统一般都不是在训练环境下使用的,实际的环 境可能有背景噪声、信道失真、说话人语调及情绪的不同等,这些都会使系统的性能急 剧下降。寻找具有鲁棒性的参数,要求其具有以下条件: ( 1 ) 能有效区分不同的说话人,含有说话人的个性特征; ( 2 ) 对同一说话人,当说话人的说话方式改变时特征参数变化小: ( 3 ) 抗噪声和信道干扰能力强。 9 3 、复杂度 复杂度是说话人识别系统能否实现的关键因素。通常说话人系统的复杂度是指模型 的复杂度和计算复杂度。模型复杂度的降低,即可降低算法的存储空间,又可减少计算 量,便于算法的实现。 2 2 特征提取技术 特征提取是说话人识别系统中最重要的一环,是对语音信号波形进行分析处理,获 得对说话人识别有用的重要信息的过程。这些特征参数应该满足如下准则才能将其输入 到模式匹配器中,并做出有效的判决: ( 1 ) 能够充分体现说话入个体间较大的差异,而对说话人自身的差异则体现不明显; ( 2 ) 对局外变量( 如说话人的健康状况和情绪,系统的传输性等) 不敏感; ( 3 ) 能够长期保持稳定; ( 4 ) 易于测量; ( 5 ) 可以经常表现出来; ( 6 ) 与其它特征不相关。 一般将说话人的特征分为两类: 第一类是时域特征参数。通常将一帧语音信号中的各个时域采样直接构成一个矢 量,如时域上的幅度( 或能量) 、平均过零率等。这类特征参数由于不稳定和不能很好 地表征语音特征,现在已经很少用。 第二类是变换域参数。即对一帧语音信号进行某种变换以后产生的相应矢量,如线 性预测系数( l i n e a rp r e d i c t i v ec o d i n g ,l p c ) 、l p c 倒谱系数( l i n e a rp r e d i c t i v ec o d i n g c e p s t r u m ,l p c c ) 、线谱对参数( l s p ) 、共振峰率( 前三个共振峰) 、短时谱、m e l 频 率倒谱系数( m e l s c a l e dc e p s t r u mc o e f f i c i e n t s ,m f c c ) 。 2 2 1 线性预测系数( l p c ) 线性预测分析的基本思想【1 9 1 :由于语音样点之间存在相关性,所以可以用过去的样 点值来预测现在或未来的样点值,即一个语音的抽样能够用过去若干个语音抽样或它们 的线性组合来逼近。通过使实际语音抽样和线性预测抽样之间的误差在某个准则下达到 最小值来决定唯一的一组预测系数,而这组预测系数反映了语音信号的特性,可以作为 语音信号特征参数用于语音识别、语音合成等。l p c 系数是基于人的声道模型提取的参 数,通过使实际语音的采样值和线性预测采样值之间达到均方差最小,即可得到l p c 系 数。提取过程如下: 1 0 设p 。;刀一0 工,n q 为一帧的语音采样信号序列,将第捍个语音采样值用前p 个 语音采样值进行预测,则s 。的预测值为: s - 一艺口。一 ( 2 - 2 ) 其中,a i l o f 一1 2 ,p ) 为线性预测系数。 预测误差为 e 万) 。瓯一毫。薹口;一( 2 3 ) 其中口o - 1 ,系数口;可由使这一帧的预测误差e o ) 的平方和e 罗p 。一蔓a i s n i 】 笳缁 最小得到。 2 2 2l p c 倒谱系数( l p c c ) “倒谱 的概念来源于同态处理技术。同态处理技术也是语音分析中的重要技术, 是将非线性问题转化成线性问题进行处理的一种方法。我们将语音信号产生过程建模成 一个激励信号通过时变系统的过程,即一个卷积的过程。同态处理可以将卷积变成倒谱 域中的线性问题,达到解卷积的目的,生成的特征参数称为倒谱参数。对于语音信号来 说,倒谱参数所包含的信息较其它参数多,能够较好地描述语音信号的共振峰特性。 语音信号的倒谱参数可以通过l p c 系数直接求得。根据线性预测系数l p c 而直接 推导出来一组倒谱系数,利用同态处理方法,对语音信号求离散傅立叶变换d f t 后取对 数,再求反变换i d f t 就可得到倒谱系数。在获得滤波器的线性预测系数后,l p c c 可 以用一个递推公式计算得出l 捌。 递推如下: c 。一l o g ( g 2 )( 2 - 4 ) 用- 1 ,- c 。一雕+ 罗三c k a m _ k , ( 1 sms p )(2-5a k m )c 。 雕+ 【ls s p ,【, 蠲川 m - i , c ,- 罗三c k a m _ t ,, 仰 p ) ( 2 - 6 ) c ,。 一仰 j lj 箱m 其中,c o 是直流分量,一般不予考虑,它反映频谱能量,其值大小不影响谱形。 口。,a p 为p 阶l p c 特征向量。c m m ;1 ,p ,p 为倒谱的前p 个值,当l p c c 的阶 数不超过l p c 阶数p 的时候,用第二式进行计算;如果l p c c 阶数大于p ,则用第三式 进行计算,由于倒谱参数c 。是由l p c 系数得到的,所以可称为线性预测倒谱系数。 1 1 2 2 3m e l 倒谱系数( m f c c ) 人耳对不同频率的语音具有不同的感知能力,在1 0 0 0 h z 以下,感知能力与频率成 线性关系,而在1 0 0 0 h z 以上,感知能力遵循在对数频率坐标上的近似线性关系。为了 模拟人耳对不同频率语音的感知特性,人们提出了m f c c 系数。基于符合人耳听觉的 m e l 频率尺度提取出的倒谱系数m f c c 比l p c c 具有更好的识别性能。 m f c c 系数基于人耳的听觉原理,大量的研究表明m f c c 参数能够比l p c c 参数 更好地提高系统的识别性能。m f c c 不同于l p c c ,它是在频谱上采用滤波器组的方法 计算出来的,这组滤波器在频率的美尔( m e l ) 坐标上是等带宽的。其转换公式为: m e w ) 一2 5 9 5 1 9 ( 1 + 勺 ( 2 - 7 ) 其中,1 m e l 为1 0 0 0 h z 的音调感知程度的1 1 0 0 0 。 m f c c 的计算首先用f f r 将时域信号转化成频域,之后对其对数能量谱用依照m e l 刻度分布的三角滤波器组进行卷积,最后对各个滤波器输出构成的向量进行离散余弦变 换( d c t ) ,取前n 个系数。m f c c 最符合人耳的听觉特性,特别是在有噪音和频谱失 真的情况下,能以更准确的特征来描述语音模型,提高识别精度。 2 3说话人识别模型 说话人识别模型就是对得到的说话人特征参数进行训练,建立一个能够描述这一说 话人个
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年单克隆抗体诊断试剂项目提案报告模板
- 2025年钢结构用H型钢项目立项申请报告模板
- 2025年秋人教版(2024)初中英语八年级上册Unit 5《What a Delicious Meal》教学设计(共2课时)
- 城市道路照明节能改造方案
- 应急预案的书
- 福建防洪应急预案
- 松江区绿色家具施工方案
- 园林工程雨季施工方案
- 2 我们有精神(第一课时)(教学设计)统编版道德与法治一年级下册
- 施工现场材料管理与使用方案
- 科学教育:未来启航
- 金太阳九年级数学月考试卷及答案
- 地质技能竞赛试题及答案
- 现代农业装备与应用课件
- 2024年甘肃省临夏县人民医院公开招聘护理工作人员试题带答案详解
- 2025年氢气传感器市场分析报告
- 结肠癌围手术期的护理
- 环保科技股东合作协议示范文本
- 中职语文(拓展模块)中国科学技术史序言
- 子宫肌瘤教学查房
- 云南省昆明市2023-2024学年高一下学期7月期末质量检测英语试卷(含答案)
评论
0/150
提交评论