![(电路与系统专业论文)抗噪声说话人识别技术研究[电路与系统专业优秀论文].pdf_第1页](http://file.renrendoc.com/FileRoot1/2019-12/13/2efbcdd6-31d6-4bb9-a31a-e9b50ae9a98f/2efbcdd6-31d6-4bb9-a31a-e9b50ae9a98f1.gif)
![(电路与系统专业论文)抗噪声说话人识别技术研究[电路与系统专业优秀论文].pdf_第2页](http://file.renrendoc.com/FileRoot1/2019-12/13/2efbcdd6-31d6-4bb9-a31a-e9b50ae9a98f/2efbcdd6-31d6-4bb9-a31a-e9b50ae9a98f2.gif)
![(电路与系统专业论文)抗噪声说话人识别技术研究[电路与系统专业优秀论文].pdf_第3页](http://file.renrendoc.com/FileRoot1/2019-12/13/2efbcdd6-31d6-4bb9-a31a-e9b50ae9a98f/2efbcdd6-31d6-4bb9-a31a-e9b50ae9a98f3.gif)
![(电路与系统专业论文)抗噪声说话人识别技术研究[电路与系统专业优秀论文].pdf_第4页](http://file.renrendoc.com/FileRoot1/2019-12/13/2efbcdd6-31d6-4bb9-a31a-e9b50ae9a98f/2efbcdd6-31d6-4bb9-a31a-e9b50ae9a98f4.gif)
![(电路与系统专业论文)抗噪声说话人识别技术研究[电路与系统专业优秀论文].pdf_第5页](http://file.renrendoc.com/FileRoot1/2019-12/13/2efbcdd6-31d6-4bb9-a31a-e9b50ae9a98f/2efbcdd6-31d6-4bb9-a31a-e9b50ae9a98f5.gif)
已阅读5页,还剩71页未读, 继续免费阅读
(电路与系统专业论文)抗噪声说话人识别技术研究[电路与系统专业优秀论文].pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要摘要说话人识别是生物识别技术的一种,目前常用的说话人识别系统对纯净语音的说话人识别率已经达到很高的水平,但实际环境中无处不在的噪声带来t n 练模型和测试语音之间的失配,使得噪声环境中说话人识别系统的识别率急剧下降。因而鲁棒性是影响说话人识别系统能否实用的一个关键问题,本文的研究重点是说话人识别系统的鲁棒性能,提高噪声环境下的说话人识别率。抗噪声说话人识别的目的是尽量减小或者消除噪声所带来的训练模型和测试语音之间的失配,从而提高含噪语音的说话人识别率。消除噪声所带来的失配可以映射到信号空间、特征空间和模型空间。本文重点研究基于高斯混合模型的说话人识别系统中具有鲁棒性的特征参数提取、含噪语音的增强二个关键技术,也就是从这信号空间和特征空间来进行研究。主要工作如下:1 ) 提出了一种改进的m e l 频率倒谱系数,记为:p lm f c c ,并成功的将p l p c c 用于说话人识别;研究p lm f c c 、p l p c c 、m f c c 、l p c c 及其一阶差分的性能,并研究动静态组合特征参数的抗噪性能;2 ) 研究各种参数和基音组成联合特征参数的鲁棒性能;研究基音和共振峰及p l p c c 组合成的组合特征参数的鲁棒性能。3 ) 信号空间采用谱减法、w i e n e r 滤波法来增强语音,提高信噪比。实验表明上述的方法能不同程度的提高噪声环境下的说话人识别率。关键词:说话人识别、高斯混合模型、特征参数、组合特征参数、语音增强a b s t r a c ta b s t r a c ta u t o m a t i cs p e a k e rr e c o g n i t i o n ( a s r ) t e c h n o l o g yh a sab r o a da p p l i c a t i o nf u t u r ei nb i o m e t r i c ss e c u r i t yf i e l da c c o r d i n gt oi t ss p e c i a lm e r i t so ff l e x i b i l i t y , e c o n o m ya n da c c u r a c y p r e v a i l i n gs p e a k e rr e c o g n i t i o ns y s t e m sc a no b t a i nv e r yh i 出a c c u r a c yf o rc l e a ns p e e c h ,b u tt h e i rp e r f o r m a n c ew i l ld e g r a d er a p i d l yi nn o i s ye n v i r o n m e n t so w i n gt ot h em i s m a t c hb e t w e e nt h ea c o u s t i cm o d e l sa n dt h et e s t i n gs p e e c h t h e r e f o r e ,n o i s er o b u s tt e c h n o l o g yi sac r u c i a lp r o b l e mf o rt h ea p p l i c a t i o no fs p e a k e rr e c o g n i t i o ns y s t e mi nr e a ll i f e r o b u s ts p e a k e rr e c o g n i t i o ns y s t e m st r yt od e c r e a s et h em i s m a t c hb e t w e e nt h e a c o u s t i cm o d e l sa n dt h et e s t i n gs p e e c hi n :c r o d u c e db yi n t e r f e r i n gn o i s ea n di m p r o v et h ep e r f o r m a n c eo ft h es p e a k e rr e c o g n i t i o ns y s t e m t h em i s m a t c hc a nb em a p p e di n t ot h r e es p a c e s ,i e s i g n a ls p a c e ,f e a t u r es p a c ea n dm o d e ls p a c e s ot h ei n v e s t i g a t i o n so ns p e a k e rr e c o g n i t i o ns y s t e mf o rn o i s ys p e e c hc a l la l s ob ec l a s s i f i e di n t ot h r e ec a t e g o r i e s t h i sd i s s e r t a t i o na d o p t sa s rb a s e do no a u s s i a nm i x t u r em o d e l ( g m m ) ,s or e s e a r c he m p h a s i z e so nr o b u s tf e a t u r e sa n ds p e e c he n h a n c e m e n tt e c h n i q u e s f o l l o w i n gi st h em a i nw o r ko ft h i st h e s i s :1 ) t h i sp a p e rf i r s tb e g i n s 谢t hr e s e a r c ho nt h eb a s i ct h e o r yo fs p e a k e rr e c o g n i t i o n ,a n dt h e np r o p o s e sam o d i f i e dm f c cf e a t u r e ( n o t e dp l _ m f c c ) i nt h i st h e s i s ,p e r c e p t u a ll i n e a rp r e d i c t i v ec e p s t r a lc o e 箭c i e n t s ( p l p c c ) ,m f c c ,l p c ca n dc o m b i n e dt h e i rd e l t ac o e f f i c i e n t s ( d e l t a - m f c c ,d e l t a - l p c c ,d e l t a - p l p c ca n dd e l t a - p l _ m f c c ) a l eu s e di ns p e a k e rr e c o g n i t i o n t h ee x p e r i m e n t ss h o wc o m b i n a t i o nf e a t u r e sc a ne f f e c t i v e l yi m p r o v et h es y s t e mp e r f o r m a n c e 2 ) c o m b i n a t i o n so fp i t c ha n dl p c c ,p l p c c ,p l m f c co rm f c cc a r lf u r t h e ri m p r o v ea s rs y s t e ma c c u r a c y p i t c ha n df o r m a n tf r e q u e n c yc o m b i n ew i t c hp l p c cc a ni n c r e a s ea s ra c c u r a c yf o rn o i s ys p e e c h 3 ) w i e n e rf i l t e ra n ds p e c t r a ls u b t r a c t i o na r ea p p l i e dt ot h es p e a k e rr e c o g n i t i o ns y s t e mi nt h i sp a p e r t h ee x p e r i m e n tr e s u l t ss h o wt h a ta f t e rs p e e c he n h a n c e m e n t ,t h er e c o g n i t i o nr a t ei se n h a n c e dg r e a t l y s ot h es o l u t i o nb a s e do ns p e e c he n h a n c e m e n tp r o v e st ob ea ne f f e c t i v ew a yt oi m p r o v et h ea c c u r a c yo fa s rs y s t e mi nn o i s ye n v i r o n m e n t k e yw o r d s :s p e a k e rr e c o g n i t i o n , g m m ,f e a t u r e s ,c o m b i n e df e a t u r e s ,s p e e c he n h a n c e m e n ti i ih m mg m ma s rd t wv qa 全沦ts v ml pl p cl p c cm f c cp l p cp l p c cl s p缩写词列表h i d d e nm a r k o vm o d e l隐马尔可夫模型g a u s s i a nm i x t u r em o d e l高斯混合模型a u t o m a t i o ns p e a k e rr e c o g n i t i o n( 自动) 说话人识别d y n a m i ct i m ew a r p i n g动态时间规整v e c t o rq u a n t i z a t i o n矢量量化a r t i f i c i a ln e u r a ln e t w o r k人工神经网络s u p p o r tv e c t o rm a c h i n e支持向量机l i n e a rp r e d i c t i o n线性预测l i n e rp r e d i c t i o nc o e f f i c i e n t s线性预测系数l i n e a rp r e d i c t i o nc e p s t r u mc o e f f i c i e n t s线性预测倒谱系数m e l - f r e q u e n c yc e p s t r u mc o e f f i c i e n t s美尔倒谱系数p e r c e p t i o nl i n e a rp r e d i c t i o nc o e f f i c i e n t s 感知线性预测系数p e r c e p t i o nl i n e a rp r e d i c t i o nc e p s t r u mc o e f f i c i e n t s感知线性预测倒谱系数l i n es p e c t r u mp a i r线谱对参数i v学位论文独创性声明本人郑重声明:1 、坚持以“求实、创新刀的科学精神从事研究工作。2 、本论文是我个人在导师指导下进行的研究工作和取得的研究成果。3 、本论文中除引文外,所有实验、数据和有关材料均是真实的。4 、本论文中除引文和致谢的内容外,不包含其他人或其它机构已经发表或撰写过的研究成果。5 、其他同志对本研究所做的贡献均已在论文中作了声明并表示了谢意。作者签名:日期:学位论文使用授权声明南京师范大学、国家图书馆、中国学术期刊( 光盘版) 杂志社、中国科学技术信息研究所的中国学位论文全文数据库有权保留本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文,并通过网络向社会提供信息服务。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权南京师范大学研究生部办理。作者签名率- _ 上_ _ 一刖吾一、选题意义身份确认是一个古老的话题,数千年前人们就采用信物或者口令来识别人的身份。随着科技的进步人类社会进入了现代信息社会,身份确认已成为日常生活中不可分割的一都分。现在最常用的仍然是通过个人口令、密码或信物来确认人的身份,但是这种古老的方式已经不适应现代社会对人的身份确认快速、准确、便捷的要求。日常生活中人们不得不携带各种各样的卡片,需要记太多各种各样的口令和密码,为了获得服务而证明白己身份花费过多的精力。很多人都有这样的经历:由于密码被遗忘,无法登录服务器或自己的计算机,无法领取自己的汇款,无法查阅所需的信息。另外:由于i c 卡、身份证的丢失,不但平添了无数麻烦,而且还可能导致个人财产蒙受损失或者明明已经是某某企业呼叫中心的常客了,但拨通该呼叫中心的号码时,还是必须向客服人员解释你是他们某某产品的用户,从而获得他们的维修服务,这个自报家门的工作也许足够繁琐到令你放弃这次呼叫。以电话卡为例,在美国,每年都会有大量的假冒电话卡,一九九五年的损失估计是1 0 亿美元。由于密码被盗用导致损失不胜枚举,这一个个惨痛的教训给安全认证系统敲响了警钟。这些事例自然促使人们想办法提高系统的安全性,防止被非法用户入侵,从而更有效的保护个人的隐私、保护机密资料。现在为了防止身份证明资料的遗失和被盗的同时保证用户服务的便利性,利用人自身的生物特征进行用户身份认证的技术生物特征识别技术越来越引起人们的重视。生物特征识别包括人的生理特征识别和行为特征识别。生理特征指相对稳定的人的物理特征,如指纹、手形、视网膜、虹膜、面像等,这些特征基本不变,除非损伤造成变化。行为特征则指某些建立在生理特征基础上的,在一段时间内相对稳定的统计学特征,如签名、键盘打字、声音等。目前,在某些安全保密的重要场所,指纹识别系统和虹膜识别系统等已经得到了成功的应用,然而这些系统并没有得到大量的推广,原因在于:( 1 ) 、必须依赖特定设备,如指纹扫描仪或虹膜扫描仪。这样户必须到特定的地方去才能进行认证,缺乏灵活性;( 2 ) 、价格较贵,整个扫描仪系统加一套相应软件,一般价格不菲,因而无法替代传统的身份卡,不易普及和推广:( 3 ) 、光学设备要经常维护,使用寿命也有限。例如:扫描仪脏了会严重影响正确辨识率,而使用率越高,设备脏的就越快;( 4 ) 、使用方式不够人性化。在公共场合,一户必须用手触摸指纹扫描仪,前言或把眼睛贴近虹膜扫描仪,这样不符合卫生标准,用户也会难以接受。与其他生物识别技术相比,说话人识s o ( 声纹识别) 具有更为简便、准确、经济及可扩展性良好等众多优势,可广泛应用于安全验证、控制等各方面。另一方而,随着移动通信技术的迅速发展,尤其是网络和电子商务的繁荣,电话的使用率空前增加,远程身份认证越来越频繁。如果能够实现张口打一个电话就可以获得服务、进行交易,那我们的生活是何等的方便和快捷。归纳起来,说话人识别的独特优点在于:( 1 ) 、认证方式易于接受。用户只需拿起电话或手机打个电话即可,不必像指纹识别或虹膜识别那样,把手或眼睛贴近扫描仪;( 2 ) 、不需昂贵的易损的硬件设备,如各种指纹、掌纹、或虹膜扫描仪,只要简单的声音输入设备即可;( 3 ) 、在基于电信网络的身份识别应用中,如电话银行、电话炒股、电子购物等,与其他生物识别技术相比,声纹识别更易于应用,得天独厚。比尔盖茨认为:“以人类生物特征( 指纹、语音、脸像等) 进行身份验证的生物识别技术,在今后数年内将成为t i 产业最为重要的技术革命。”说话人识别技术则以其独特的方便性、经济性和准确性等优势受到业内人士的瞩目,并日益成为人们日常生活和工作中重要且容易普及的安全验证方式。总之,说话人技术是当前安全认证系统研究和发展的一个重要的发展方向,而且具很强的科学研究意义和广阔的市场应用前景。二、说话人识别技术的发展及应用自动说话人识别作为一项新的技术与许多其它新兴的技术一样首先来自军事的需求。在第二次世界大战期间,美国国防部向贝尔实验室提出的课题,目的是根据窃听的电话语音进行判断说话人是哪一位德国高级将领,这对分析当时的德军战略部署具有重要的意义【l 】。早期的工作主要集中在人耳听辨实验和探讨听音识别的可能性方面。随着研究手段和工具的改进,特别是计算机的出现,说话人识别的研究工作逐渐脱离了单纯的人耳听辨。b e l l 实验室的l gk e s t a 目视观察语谱图进行识别,提出了“声纹( v o i c e p r i n t ) 的概念【2 】。每个人的指纹都是唯一的,数百万人之间才会发现有两个人有相同的指纹;与此类似,声纹也是人的个性特征,很难找到两个声纹完全一样的人。之后,电子技术和计算机技术的发展,使通过机器自动识别人的声音成为可能。b e l l 实验室的s 1 r u z a n s l c y 提出了基于模式匹配和概率统计方差分析的说话人识别方法【3 】,而引起信号处理领域许多学者的注意,形成了说话人识别研究的一个高潮,其间的工作主要集中在各种识别参数的提取、选择和实验上,并将倒谱和线性预测分析等方法应用于说话人识别。7 0 年代末至今,说话人识别的研究重点转向对各种声学参数的线性或非线前言性处理以及新的模式匹配方法上,如动态时间规整、主成分分析、隐马尔可夫模型、神经网络和多特征组合等技术。如今,说话人识别技术已逐渐走入实际应用,说话人识别技术有着广阔的市场应用前景【4 】。例如电话网络的银行账目的交易、电话购物、信息服务、保密业务电话服务、数据库访问、语音e m a i l 、安全控制、计算机远程登录等领域;另外说话人识别系统的识别还可以应用在保密通信、保密部门的身份验证、法庭鉴别( 包括电话信道罪犯缉拿、法庭中电话录音信息的身份确认、电话语音跟踪) 等方面。在呼叫中心的应用上,当顾客以电话方式对呼叫中心进行请求时,说话人识别技术同样可以提供更加个性化的人机交互界面。系统能够根据话音判断出来者的身份,从而提供更个性化、更贴心的服务。a t & t 应用说话人识别技术研制出了智慧卡( s m a r tc a r d ) ,已应用于自动提款机。欧洲电信联盟在电信与金融结合领域应用说话人识别技术,于1 9 9 8 年完成了c a v e ( c a l l e rv e d f i c m i o ni nb a n k i n ga n dt e l e c o m m u n i c a t i o n ) 计划l 5 j ,并于同年又启动了p i c a s s o ( p i o n e e r i n gc a l la u t h e n t i c a t i o nf o rs e c u r es e r v i c eo p e r a t i o n )计划,在电信网上完成了说话人识别【6 j 。同时,m o t o r o l a 和v i s a 等公司成立了v - c o m m e r c e 联盟,希望实现电子交易的自助化,其中通过声音确定人的身份是此项目的重要组成部分。其他的一些商用系统还包括:i t t 公司的s p e a k e r k e y 、k e y w a r e 公司的v o i c e g u a r d i a n 、t - n e t i x 公司的s p e a k e z 等。可见现在说话人识别系统正逐步走向实用,试验表明在纯净语音下,说话人的识别率已经达到很高的水平,但是在噪声环境中,系统的性能下降很快。因此噪声成为说话人识别系统走向实用的主要障碍。三、说话人识别技术的研究重点和难点由于应用的需求和科技( 主要是计算机和数字信号处理理论) 的飞速发展,说话人识别的研究得到了广泛而深入的发展。国际声学、语音和信号处理会议( i c a s s p ,i n t e r n a t i o n a lc o n f e r e n c eo na c o u s t i c ,s p e e c ha n ds i 鲫融p r o c e s s i n g ) 论文集中每年都有关于说话人识别的两个专题。说话人识别已经从理论研究发展到了实际应用。目前说话人识别的研究主要集中在以下几个方面:( 1 ) 语音特征参数的提取。语音特征参数直接决定对说话人识别系统的性能。目前最流行的、最常用的参数是倒谱类参数,但是倒谱类参数并不能完全令人满意。寻找新的有效的语音特征参数【7 】和已有的特征参数的有效结合,如基音信息与谱特征的结合博j ,是语音特征参数研究的两个方向。( 2 ) 不同识别模型之间的有效结合。理论和实验表明不同模型都有自身的优缺点,不同识别模型之间的结合后会起到互补的效果,从而改善说话人识别系统的性能。如h m m 模型与神经网络1 9 1 ,h m m 模型与支持向量机( s u p p o r tv e c t o rm a u c l l i n e ) 的结合【l o 】,r m m 模型与m d d ( m i x t u r ed e c o m p o s i t i o n ) 1 1 】结合都可以在不同程度上改善系统的性能。前言噪声环境下的说话人识别( 含噪语音) 是如今说话人识别研究的一个难点和热点。现在机器在某些方面的表现已经超过了人:在短的训练语句、测试语句和大量的说话入的情况下。说话人识别系统的性能远远超过了人。但是在语音有失真的情况下,如在噪声环境中或经过传输信道,说话人识别系统的性能会下降很快,而此时人耳则会表现出非常优秀的抗噪声的能力。在文献1 9 0 0h e c k 提出了一种在特征抽取部分应用人工神经网络( a n n ) ,来补偿噪声失真的方法:在文献【1 2 】中r e y n o l d s 用实验结果验证了倒谱均值消除算法可以较好的提高系统的性能。在文献 1 3 】中g a r c i a 提出一种改进的c m s 算法结合频率弯折技术改善电话语音的识别系统性能的方法;在文献 1 4 q us i v a k u m a r a 把子带倒谱技术应用于带噪的说话人识别系统中,使系统的性能得到了提高;在文献 e 1 5 l w o a g 把在语音识别中应用的并行模型合并( p m c ) 算法用于带噪的说话人识别系统中,取得了不错的效果。虽然说话人识别已经进入了实用阶段,由于下列原因,说话人识别至今仍然不能达到令人满意的效果:( 1 ) 目前科技人员没有找到很好的方法从说话人的语音中把说话人的特征从说话人的语音特征中分离出来1 1 6 1 。因为说话人识别的语音信息来源说话人所说的话,其语音信息中既包含了说话人所说话的信息,也包含了说话人的个性信息,是话音特征和说话人个性特征的混合体。( 2 ) 说话人的语音具有长时变动性,说话人的发音会随时间和年龄的变化而变化;话人的发音不是固定不变的,常与说话人所处的环境、说话人的情绪、说话人的健康状况有密切关系;如说话人患有感冒的疾病时,发音会大受影响。说话入所处不同环境的噪声也增加了说话人识别的难度。( 3 ) 声音容易被录音模仿。( 4 ) 系统自身带入的噪声。声音在电话线路上传输时,会受到线路噪声的影响,不同的线路的噪声也可能不相同;麦克风广一麦克风类型的不匹配也会影响说话人识别系统性能的最主要原因。系统训练和识别时麦克风的差异会导致同一说话人语音的统计分布发生不同的变化。而且用户在使用麦克风时还可能随时变换姿势,这些都对麦克风采集语音信号有一定的影响。说话人识别的研究已进行了七十多年,方法也由最初的人的听觉和语谱的比较,到简单的模板匹配,再到动态时间规划,到更加先进的统计模式匹配如神经网络,隐马尔可夫模型。语音库也有小的私人的实验室环境、纯净语音到大的公共的更加真实的语音。这也使得允许技术的比较和集中精力在普遍的难题。另外,在噪声环境中怎样才能提高系统的性能,入耳的抗噪声能力能给我们带来什么样的启发,这些f a l 题都是说话人识别的根本性问题,也是许多研究人员共同努力的方向。4前言四、论文研究的内容及章节安排本文是以基于g m m 的说话人识别技术为主要研究对象,研究了噪声环境下提高说话人识别率的两个主要方法:1 ) 寻找更具鲁棒性的特征参数。首先介绍l p c c 和m f c c 这两个经典参数,在国内将p l p c c 参数用于说话入识别尚不多见,本文将p l p c c 参数用于说话人识别工作中,在分析m f c c 的提取过程的基础上提取一种新的参数p lm f c c ,研究了多种组合特征参数,如基音、共振峰与上述参数结合来进行说话人识别;2 ) 研究语音增强在说话人识别中的作用,通过语音增强提高信噪比,提高说话人识别率。各章内容安排如下:前言主要介绍了说话人识别技术研究的意义、说话人识别技术的发展历史、说话人识别技术的应用、说话人识别技术研究的重点和难点以及本论文的内容安排。第一章主要讲述说话人识别技术的原理、分类、主要方法为下文进一步研究奠定理论基础。第二章主要讲述语音信号的模型、特征参数的提取,对常用单一主流特征进行说话人识别的仿真。第三章提出一种改进的p l m f c c 参数,并将p l p c c 用于说话人识别;对说话人的动态和静态特征参数的进行研究,将基音和p l p c c 组成联合特征参数用来a s r 仿真实验;将基音和共振峰和p l p c c 相结合组成进行说话人识别实验,以及各种动静态特征参数组合:研究各参数的在不同的噪声下的鲁棒性能。第四章讲述语音增强技术在说话人识别技术的中的应用,主要讲述了减谱法、标准维纳滤波、改进维纳滤波器的扩展谱相减法来降低语音中的噪音,从而能够提高噪声环境下的说话人识别率。结束语部分对本论文做一总结,提出文章的不足和进一步研究设想。第一章基于g m m 的说话人识别系统概述人们通过人的语音来确定说话人的身份就是所谓说话人识别。自动说话人识另l j ( a u t o m a t i cs p e a k e rr e c o g n i t i o n ,a s r ) 是利用计算机对待识别人的语音进行处理,根据待识别语音的特征来确定说话人身份的一项技术。如无特别说明,本文以后提到的说话人识别都是指自动说话人识别。说话人识别与语音识别的区别在于说话人识别是利用语音信号中的说话人的个性特征,而不考虑语音中的字词含义,强调的是语音的个性:而语音识别的目的是识别出语音信号中的语义内容,不考虑说话人的个性特征,强调的是语音的共性。1 1 说话人识别的分类说话人识别系统有许多不同的分类方法。无论是下述的何种分类方法都要求:说话人要和系统密切合作,以便系统可以获得尽可能多的信息,得到更好的识别结果;否则,若说话人不合作或者没有意识到这个工作,那将缺少必要的信息,识别工作也会大受影响。1 1 1 根据识别的任务根据说话人识别的目标,可分为说话人辨认( s p e a k e ri d e n t i f i c a t i o n ) 和说话人确认( s p e a k e rv e r i f i c a t i o n ) 【1 7 1 。( 1 ) 说话人辨认( s p e a k e ri d e n t i f i c a t i o n ) 是指根据给出的一段语音,判断是已知的n 个人中的哪个人说的,所要解决的是“你是谁 的问题。如果这个人一定包含在这n 个人中,则称为“闭集 ( c l o s e s e t ) ,否则,称为“开集 ( o p e n s e t ) 。( 2 ) 说话人确认( s p e a k e rv e r i f i c a t i o n ) 是根据给出的一段语音,判断是否是某个特定人说的,所要解决的是“你是否是你所声明的那个人的问题。可以将它看作是n - - 2 的说话人鉴别问题。涉及“真正的说话人 和“冒充者 的识别问题。说话人确认的一个优点是其识别率与潜在的冒充者的个数无关。随着社会需求的发展,出现了一些新的识别任务,如交谈语音中的说话人检测( s p e a k e rd e t e c t i o n ) 和说话人跟踪( s p e a k e rt r a c k i n g ) 1 8 】。( 1 ) 说话人检澳l j ( s p e a k e rd e t e c t i o n ) 是给定一段交谈语音,判断该语音中是否含有特定说话人的语音。和说话人确认非常相似,也属于二元检测问题,区别在于说话人确认中的给定语音是属于同一个人的,而说话人检测中的语音是属于多个人的。( 2 ) 说话人跟踪( s p e a k e rt r a c k i n g ) 是在说话人检测的基础上,如果该交谈语音中包含特定的说话人的语音,那么哪些话是该说话人说的。第一章基于g 埘的说话人识别系统概述1 1 2 根据工作的模式分类根据说话人识别系统的工作模式,可将其分为与文本有关( t e x t - d e p e n d e n t )和与文本无关( t e x t i n d e p e n d e n t ) 的两种t 1 9 】。( 1 ) 文本有关( t e x t d e p e n d e n t ) 的识别,一般以字或音素为基础,多数建立在语音识别的基础上,通过说话人与识别系统的合作,使系统获得更多的信息,同时使所需的语音数据最少。这种情况要求说话人严格按照系统的要求,否则将出错。( 2 ) 文本无关( t e x t i n d e p e n d e n t ) 的识别,是指系统没有事先获得说话人所说的内容的信息,这样,无论获得什么样的语音信息,都可用于训练和识别。显然,与文本无关的系统和与文本有关的系统相比,较为通用,但是识别率较低。本论文主要研究和实现的是与文本无关、闭集的说话人辨认系统。1 2 说话人识别系统的框图和工作过程图1 1 是说话人识别系统的典型结构框图,包括说话人确认和识别两种方式,该系统主要解决以下几个基本问题:图l - l 说话人识别系统框图( 1 ) 、语音信号的预处理和特征提取;( 2 ) 、说话人模型参数的训练和模型的建立;( 3 ) 、识别语音与说话人模型的相似度匹配;( 4 ) 、识别或判决策略。根据匹配距离的计算结果判决说话人是否是所声称的说话人( 说话人确认) 或说话人到底是谁( 说话人辨认) ;可见,说话人识别的过程主要分为两个阶段:训练阶段和识别阶段。下面分别加以介绍。1 2 1 训练阶段在训练阶段,系统要求每个用户说出若干语句用来训练说话人的模型,系统为每个用户建立对应的模板或模型。特征提取:说话人的模型不是由语音信号直接得到的,而是通过从语音信号第一章基于g 删的说话人识别系统概述中提取特征而得到,是说话人语音特征的模型。训练语音只有进行语音特征提取后才能得到其特征的模型,测试语音也只有在经过特征提取才与说话人的模型进行匹配,因此特征提取是说话人识别系统中的重要组成部分。模型训练:要求系统能够识别说话人,首先需要用说话人的语音对系统进行训练,这一过程常可以离线进行。无论是在识别系统建立时,还是在识别系统扩展时( 如需增加或减少系统所登记的人数) ,对模型的训练都是必须的。由于说话人的声音常随时期和年龄而变化,因此常常需要在得到正确识别结果后,对说话人的模型进行自适应调整和修正,从而构成自适应说话人识别系统。模型参数存储:对模型的训练实际上是用训练语音的特征对模型参数进行估计,估计出的参数就表示了说话人的个性特征,应很好的保存下来,以便在说话人识别时用来与测试语音进行匹配。1 2 2 识别阶段待识别语音经预处理和特征提取后,与系统训练时产生的用户模板或模型参数进行相似度匹配,得到最后的识别结果。在进行说话人辨认时,测试语音要与所有说话人的模型进行相似度匹配,计算匹配距离,取与测试语音匹配距离最小的说话人模型所对应的说话人为最后的识别结果。在说话人确认时,测试语音只有与所声称的说话人的模型进行匹配,通过判断产生的匹配距离是否小于某一阈值,来做出拒绝和接受该说话人的判决。1 3 说话人识别的主要方法+1 3 1 基于模板匹配模型的方法基于模板匹配( p a t t e r nm a t c h ) 模型的方法原理是:在训练阶段,从每个说话人训练语句中提取特征参数,构成说话人参考模板;在识别阶段,将测试特征参数序列与相应的参考模板比对,按照一定的距离测度方法,做出识别判决。动态时间规整( d t w ) 和矢量量化q ) 就属于这类方法【1 】。( 1 ) 基于动态时间规整模型的说话人识别方法动态时间规整( d y n a m i ct i m ew a r p i n g ,d t w ) 是一种典型的基于模板匹配的说话人识别方法。d t w 是一种较为成熟的传统说话人识别方法,其系统结构如图1 2 所示。8第一章基于g m m 的说话人识别系统概述图1 2 基于d t w 的说话人识别系统它在规定了语音内容的情况下,以说话人发规定内容语音得到的语音特征序列作为这一说话人的个性特征模板( t e m p l a t e ) 。识别时,将要识别的说话人发同样内容语音的特征序列与说话人模板进行距离计算与模式匹配,取与模板距离最小的那个模板对应的说话人作为识别结果,从而实现了基于文本的说话人识别。由于语音信号的准平稳随机特性,使得即使是同一个说话人发同一语音的不同次发音不同,语音的音长也往往不同,相应的语音特征序列的长度( 帧数) 也不相同,因此存在着将测试语音特征序列与模板特征序列在时间上对齐的问题,称为动态时间规整( d t w ) ,这是基于模板匹配的说话人识别技术的关键。基于d t w 模型的说话入识别现在已经相对成熟,而且能达到较好的识别效果。( 2 ) 基于矢量量化的说话人识别矢量量化( v e c t o rq u a n t i z a t i o n ,v q ) 是8 0 年代发展起来的信源压缩编码技术,它具有很好的分类特性。矢量量化技术在语音编码、语音识别、语音合成、图像数据压缩、说话人识别等领域有着广泛的应用,使其成为数字信号处理的有力工具。在基于矢量量化的说话人识别中,可以把每个待识别说话人的语音看作一个信号源,用一个码本来表征,该码本是从说话人的训练语音序列中提取的特征矢量聚类而成。理想状况下,只要训练序列足够长,这个码本就可以认为包含该说话人的个人特征,也就是说,说话人的矢量量化模型是用语音信号特征的分布中心描述说话人的个性特征。对于n 个人的系统,需要建立n 个码本。识别时,从待识别的语音中提取一组矢量,若针对说话人辨认过程,则应用系统中建立的n 个码本依次对待识别语音的特征矢量进行矢量量化,来判断这组矢量与特征空间中的哪一个码本的分布最为吻合,从而得出辨认结果;而确认则只由所声称的码本对待识别语音进行量化,将得到的失真距离与事先规定的阈值进行比较,从而得出确认结果。基于矢量量化的说话人识别是一种效果较好且容易实现的方第一章基于g m ) , i 的说话人识别系统概述法,所以许多系统所实现的语音控制门锁系统软件算法采用的就是矢量量化法。1 3 2 基于概率模型的说话人识别方法语音中说话人信息在短时间内较为平稳,通过对稳态特征如基音、声门增益、低阶反射系数的统计分析,然后可以利用均值、方差等统计量和概率密度函数进行分类判决。与模板匹配模型相比,概率统计模型具有更大的灵活性,说话人识别的问题可以表示为给定说话人模型,然后利用该模型计算产生一个可观察的特征矢量的似然概率,某一说话人的条件概率密度可以由训练矢量估计得出,给定概率密度函数,则该说话人产生特征矢量的概率即被确定。这类方法优点是不用对特征参数在时域上进行归整,适用于文本无关的说话人识别,但准确的概率统计模型需要长时间的训练才能获得,而且训练和识别的计算量都比较大。( 1 ) 基于隐马尔可夫模型m m m ) 的说话人识别【2 0 】【2 1 】【2 2 】【2 3 】基于h m m 的说话人识别系统结构图如图2 3 所示。早在1 9 6 0 1 9 7 0 年间,b a u m 等就发表过多篇文章阐述了h m m 的基本理论,但因为h m m 理论大多发表在数学杂志上,且理论叙述不很详细不便于理解,没有引起工程人员的重视,因此h m m 理论只初步应用到语音信号处耍j ! ( s p e e c hp r o e e s s i n g ) 当中。8 0 年代后期,随着有关h m m 理论详尽叙述的展开和一些指导性文章的发表,以及h m m模型参数最优化估计方法的解决,h m m 理论开始广泛地应用到语音信号处理当中。图l 一3 基于h m m 的说话人识别系统h m m 应用概率统计的方法来描述时变语音信号,同时它可以很好地描述语音特征统计分布的统计模型,是准平稳时变语音信号分析和说话人识别的较有力工具【7 1 。应用h m m 模型进行说话人识别时,针对每一个说话人的语音信号提取特征矢量,然后为每一个说话人建立一个h m m 模型,比如设丸,为第f 个说话人的模型参数。识别时计算未知语音信号的特征矢量0 以及概率p ( o 2 i ) ,i = 1 2 ,n 。对于说话人辨认,其中概率p 最大的模型五对应的说话人为识别结果;对于说话人确认,将计算得到的p 值与已确定阈值相比较,小于阈值拒绝,大于阈值接受。1 0第一章基于g 删的说话人识别系统概述2 ) 基于高斯混合模型的说话人识别在说话人识别中,不同说话人的差异主要表现在其短时语音谱的差异,而这又可以用每个说话人的短时谱特征矢量所具有的概率密度函数来衡量,我们可以用高斯混合模型( g a u s s i a nm i x e dm o d e l ,g m m ) 来表示这一概率密度函数【2 4 1 。典型单峰高斯说话人模型代表了一个以均值矢量和协方差矩阵表示的说话人特征分布,而矢量量化模型代表了说话人特征模板的离散分布。通过高斯函数的离散组合,每一个高斯函数用其均值和协方差矩阵表示,即得到高斯混合模型( g m m ) 。在某种意义上讲,高斯混合模型( g m m ) 是单峰高斯模型和矢量量化模型的混合,它的一个强有力的属性是能够形成任意分布的光滑近似,可以更好的表示模型的概率密度。高斯混合模型( g m m ) 本质上是一种基于参数估计的多维概率统计模型,g m m 模型认为每一个说话人的语音特征在特征空间中都形成特定的分布,并且可以用多个高斯分布组合对每个说话人的语音特征分布进行拟和,不同参数的高斯分布组合可以用来表征不同的说话人,即每个说话人特征参数对应一个g m m模型。g m m 目前常被用于与文本无关的说话人识别,具有良好的识别性能【2 5 1 。本论文研究的是与文本无关的说话人识别模型,基于g m m 模型的良好的性能,本文选用为g m m 模型来组建说话人识别系统。1 3 3 基于判决域的说话人识别方法相对于概率统计模型而言,用人工神经网络( a n n ) 和支持向量机( s v m ) 的方法来进行说话人识别是一种基于判决模型的方法【2 6 】。1 ) 基于人工神经网络的说话人识别人工神经网络( a r t i f i c i a l n e u r a l n e t w o r k ,简称a n n ) 2 r l r 8 1 是由大量的神经元互连而成的网络。它是在现代神经科学研究成果的基础上提出的,反映了人脑功能的基本特征。但它并不是人脑的真实描写,只是它的某种抽象、简化与模拟的一种工程系统。基于入工神经网络的说话人识别系统结构图如图2 1 4 所示。隐差说话人尸音量图l - 4 基于人工神经网络的说话人识别系统结构图说话人识别包含着从低层次到高层次的各个阶段及其彼此之间的相互作用,这是个非常复杂的模式识别过程,而人工神经网络尤其适合于此类问题。其中输出得分第一章基于g 贼的说话人识别系统概述较为成功的例子多数应用在说话人个性特征抽取这一层次上,用于说话人识别的神经网络结构主要是多层感知器结构的神经网络,如反向传播人工神经网络( b p b a c kp r o p a g a t i o nn e t w o r k ) 、人工神经预测网络( n p - n e u r a lp r e d i c t i o n ) 、径向基函数神经网络( r b f r a d i a lb a s i sf u n c t i o n ) 、时间延迟人工神经网络( t d n n t i m ed e l a yn e u r a ln e t w o r k ) 等。与传统的说话人识别方法相比,人工神经网络的出现和发展为说话人识别开拓了新的思路,它通过人工神经网络强有力的自适应、自学习和自组织能力实现对说话人语音信号特征的分类和识别,其网络权值形成了说话人个性特征的隐式表示,是一种很有前途的识别方法。但网络训练速度、网络训练的收敛性以及识别系统的通用性等方面仍存在许多问题,沿着这一思路进行说话人识别的研究将依赖于人工神经网络理论的不断成熟和发展。2 ) 支持向量机的说话人识别支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 理论源于v a p n i k 在19 6 3 年提出的用于解模式识别问题的支持向量方法1 2 9 1 1 3 0 。这种方法从训练集中选择一组特征子集,使得对特征子的线性划分等价于对整个数据集的分割。这组特征子集称为支持向量s v 。支持向量机( s v m ) 是基于结构风险最小化的机器学习模型。s v m应用于说话人识别思路是:每个人作为一类,从每个人的语音信号提取出来的特征向量序列作为各类的输入,训练的结果就是构成多类s v m 的支持向量。识别时,同样提取出测试音的特征向量序列,输入s v m 模型,该模型对每个特征向量作分类,统计特征向量序列中向量的归属类,于哪个类的特征向量最多,那么就把这类对应的说话人作为识别的结果。1 4 基于高斯混合模型的说话人识别系统1 4 1 高斯混合模型g m m ( g a u s s i a nm i x t u r em o d e l ) g m m 可以看作一种状态数为1 的连续h m m 模型 2 s 】,一个m 阶混合高斯模型的概率密度函数是由m 个高斯概率密度函数加权求和得到的,如下式所示:一兰一p ( x 旯) = 国,b i ( z )( 1 1 )上式中z 表示观测向量,哆表示每个混合加权值,满足,坂;) 表示每个混合的d
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025至2030股份商业银行行业市场发展现状及竞争格局与投资价值报告
- 年终工作总结自我评价
- 消防安全月培训教学课件
- 项目管理全流程课件
- 矿山合作协议及承包权转让与执行监管协议
- 离婚法律协议变更与子女抚养权调整执行顾问合同
- 家庭关系调整与财产分配分居协议示范
- 离婚协议补充协议范本:家庭财产分割补充条款
- 离婚房产分割及婚后财产增值补偿协议书
- 砂石料运输合同范本:绿色环保物流合作
- 2024年度食品行业互联网营销合同协议
- 工程款结清协议书书
- PCB设计检查表(评审检查表模板)
- 国家职业技术技能标准 4-01-06-01 电子商务师S 人社厅发202233号
- 电梯维保服务应急处理方案
- 事业单位公开招聘报名表
- 生活垃圾发电厂炉渣综合处理及建筑垃圾资源化项目可行性研究报告写作模板-备案审批
- 癌症患者生活质量量表EORTC-QLQ-C30
- 小区门卫合同范本(2024版)
- IBM-i2数据分析演示-课件
- 雨污分流管网工程施工方案
评论
0/150
提交评论