




已阅读5页,还剩51页未读, 继续免费阅读
(信息与通信工程专业论文)基于矢量量化的说话人识别研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
国防科学技术大学研究生院学位论文 摘要 说话人识别技术作为语音信号处理的一个重要组成部分,其巨大的应用前景和广阔的 未知领域正受到越来越多人的重视。说话人识别是通过对说话人语音信号的分析和特征提 取,自动地确定说话人是否在所登记的说话人集合中,以及说话人是谁的过程。通常,根 据训练和测试说话人语音内容的不同,说话人识别可以分为与文本有关和与文本无关的说 话人识别。论文主要是基于矢量量化的与文本无关说话人识别技术的研究。 在说话人识别方面,由于矢量量化技术可以有效地提取说话人的个性特征,矢量量化 码本可以在最佳意义上代表说话人特征矢量空间中的所有矢量,因而矢量量化码本可作为 说话人有效的识别模型,而模型建立的关键问题是获得高质量的码本。l b g 算法是目前矢 量码本聚类的经典算法,但该算法对初始码书的依赖性较大,容易陷入局部最优,论文在 基于矢量量化的与文本无关说话人识别试验中研究了r l s 聚类算法。试验表明,r l s 算法 在语音参数聚类中表现出了很好的性能,得到的码书质量优于经典的l b g 算法,从而为 设计全局准最优码书提供了一种新思路。 我们在进行说话人识别试验时分别建立了2 0 个男说话人和1 0 个女说话人用于训练和 测试时的语音数据库。在录制不同说话人的语音库时,充分考虑到了语速快慢、音量、时 间、噪音等影响说话人识别性能的因素。 在与文本无关说话人识别试验中,我们还分别研究了码本容量大小和说话人语音时长 与其识别效果的关系,试验结果表明,考虑到各方面综合因素时,矢量量化中码本容量选 为5 0 _ 8 0 之间较合适些,在进行说话人测试时,其语音时长取为5 8 秒较合理些。 此外,我们在说话人识别试验中对常见的语音特征参数进行了研究,主要研究了线性 预测倒谱( l p c c ) 、美尔倒谱( m f c c ) 等参数,并且分别基于计算机平台试验比较了l p c c 和m f c c 参数的识别效果。针对单独使用l p c c 或m f c c 应用于说话人识别中存在识别 率还不够高的问题,分析了原因,然后又对长时频谱特征进行了研究,并把长时频谱特征 分别与l p c c 和m f c c 结合起来共同应用于说话人识别试验,从而在一定程度上减少了单 独使用l p c c 或m f c c 运用于说话人识别中存在的问题,提高了系统的识别性能,取得了 较好的效果。 【关键词】说话人识别特征提取l p c c 参数m f c 参数矢量量化聚类 l b g 算法r l s 算法 第i 页 国防科学技术大学研究生院学位论文 a b s t r a c t s p e a k c rr e c o 鲥t i o ni sm ep r o c e s s i i l go fa u t o m a 垃c a l l yr o g l l i z i n g 订i l i c hi s 印e a k i i l gb y 璐i n gs p e a l 【e rs p c c i f i ci i l f 0 删i n c l u d e di ns p e c c hs i 鄹i a l s p e a k e rr e c o 卿t i o nh 硒b r o a d a p p l i c a t i f b g r 0 哪di nm a n y 丘e l d ss l l c h 嬲e l e 咖cb u s i s s 锄di n f o 珊a 廿o ns e 喇蛳h g e n 删,i tc 吼b cc l 船s i 丘e di n t os p e a k e ri d e n t i f i c 撕呲锄ds p e a k e rv e r i 矗c a t i o na c c 0 础n gt 0 d e c i s i m o d e s t l l i st l l e s i sf o c u sa t 恸嘣o no nr e a r d ho f t 既t - i n d e p e n d e n ts p 髓k e r 糟c o 鲥t i o n t e c h n o l o g yb 船e do nv c c t o rq u a n t i z a t i o n l b ga l g o r i t h mi so n eo fm ec o m m o na n di m p o r t a mm e l l l o d su di s p c a k e rr e c 0 删o n i b u t 也em a i l ld r a w b 础:o 儿b ga 1 9 0 r i t h r ni st l l a ti to 船ng e t s 仃a p l ,e di i ll o c a l0 p t i m t 王l a _ t 黜 s i g n i 矗啪u yw o r t l l ;眦t l l e 宙d b a lo p t i n l 哪t 1 1 i s 也e s i sp r e s e n t sa 朋n d o m i 髓dl o c a l a r c h a l g 耐t l 瑚( r l s ) f o rt h ev c c t o r 删z a t i o i lr e s u l 乜i 1 1 d i c a t et 1 1 a t 日”p r o p o s e da l g o r i t h l ni se a s y t 0i n l p l 锄e n t 强dc o m p e t i 6 v e 、v i m 也eb c s tc h i t e i i n gm e t b o d sc 硼训y h la d d i 廿o n ,i ti s d e m s 昀t e dt ob em o e 如c t i v ei l l1 1 l ec l l l s t c r j h gf o rs p e e c hp a 删【i l e t e 塔姐db co b 乜i i i l e db c 廿盯 c o d e b o o kq l 】a l 蚵i nc o m p a r i nw i 血l b ga l g o r i t l m 1 1 1 cp r 叩o s e da l g 嘶t l mi nt h i s 廿l e s i sa l s 0 曲【o w san e wi d e ai nd e s i 掣血gt h eb e s tc o d e b o o kf o rs o l 、r i i l gm o r ec o m p l e xp r o b l 锄i i ls p c a k e r f o g n i t i o n 1 w os p e e c hc o r p l 珞e sw l l i c hi 1 1 d u d et e 斌一砌e 删e n ts p e e c hr e c o r d e d 丘0 mt w e t ym a l e s p k e 培觚dt e nf c m a l es p e a k e r sr e s p e c t i v e l yw e mb u i ho n 【p e r i m e n t a d o ms o m ef a c t o r ss u c h 硒s p e e d ,v o l 啪e 髓dt i i n ei n t e r v a lw 1 1 i c ha 觚tt h ep 曲衄a n c eo f s p e a k e ri d e n t i f i c a t i o ns y s 蜘 w e r et a k 吼i n t oc 吼s i d e 枷o n i na d d 硒o l l t h ep l q ,e n i 船a n de x 瓣t i m e t h o d so f m ec o m m f e a n l 陀p 哦m l e t e r sa r e s h l d i e di nd e t a i l 1 np a n i c l 】l 屿栅ok i n d so fm p r e s 僦v c 如妇s ,1 i n e 村p r e d i c t i o nc e p 蛐 c o c 伍c i e m ( l p c c ) a n dm d - 丘明u 跖c yc 印s 觚吼c o c 伍c i e n t ( m f c c ) ,a a n a l y z e d 删 r e 辩砌e do na 【p e r i n l 即僦o f 、,e c t o rq u 删z a t i o ni l lt e x t - 砌e p e n d e n ts p e a k e rr e c 0 鲥d o n ,恤p e 响瑚删e so fl p c c 强dm f c c 眦c o m p a r e dr e s p e c t i v e l yo nc o m p u t e rp l a 怕珊 a f t e r 。锄_ a l y 西n gt l er c 鳓ho f t h ce x l _ 甜西e i l t 柚dt l l ef c a t i l r ef o rt e ) 【t - i i l d e p 锄d e t 化c o 罂l m o n ,w e m a k ea l u t i o nt ot h ed c f c c t so ft l l es y s t 锄t h e nl o l l g - 恤es p e c 岫p 啪或盯趾dl p o co r m f c ca 糟b l 如d e dt ob cs t i l d i e di i ld e t a i lt 0m k c 廿他f e a n 鹏p a r ;珈威e lu s i n g 也e s e t e d m o l o g i e s ,al l i g hr c c o 罂曲o n 船t cw 嬲撇d e 【k e ) 唧o r d s ls p e a k e r嗽。弘i 勘n , f e 叠t i n 旺t n c t i 蛐,l p c c ,m f c c ,圮t o r q u 蚰血m t i 蚰,c l u s t 盯i n g l b gr l s 第i i 页 国防科学技术大学研究生院学位论文 图目录 图1 1 说话人辨认和确认示意图一4 图1 2 说话人识别原理框图5 图1 3 说话人确认中错误概率与判决闺值的关系8 图2 1 语音信号产生的数字模型1 1 图2 - 2 语音信号预滤波前后的频谱图1 3 图2 3 分帧示意图1 4 图2 4 倒谱特征的求取过程1 9 图2 5 语音信号波形及l p c c 特征参数2 1 图2 6 m e l 倒谱参数( m f c c ) 提取框图2 2 图2 7 一段语音信号的m f c c 特征参数2 3 图3 1 矢量量化系统的构成框图2 8 图3 2l b g 算法流程图3 1 图3 - 3 随机局部搜索算法的流程图3 4 图3 4 两种算法在语音样本集2 2 2 4 帧l p c c 时聚类结果比较3 6 图3 5 两种算法在语音样本集1 7 “帧l p c c 时聚类结果比较3 7 图4 1 说话人识别系统结构简图3 8 图4 2 分别使用l p c c 和m f c c 作为码本时码本容量与其识别效果的比较。4 0 图4 3 同一说话人说三次不同语句时的长时频谱包络比较图4 3 图两个说话人说不同语句时的长时频谱包络比较图4 3 图4 5 在长时频谱包络特征情况下的说话人识别系统结构简图4 4 第i 页 国防科学技术大学研究生院学位论文 表目录 表2 1 实验l :采用l p c c 参数的说话人确认结果2 5 表2 2 实验2 :采用m f c c 参数的说话人确认结果2 6 表3 1l b g 算法和r l s 算法在语音样本集2 2 2 4 帧l p c c 时聚类结果比较3 6 表3 2l b g 算法和i 也s 算法在语音样本集1 7 6 4 帧l p c c 时聚类结果比较3 7 表4 1 说话人辨认中使用l p c c 作为码本时码本容量与其相应的识别率结果3 9 表4 - 2 说话人辨认中使用m f c c 作为码本时码本容量与其相应的识别率4 0 表4 3 说话人辨认中使用l p c c 作为码本时其语音时长与其相应的识别率。4 0 表4 4 说话人辨认中使用m f c c 作为码本时其语音时长与其相应的识别率4 l 表4 5 说话人确认中使用l p c c 和m f c c 作为码本时f a 和f r 在不同情况下的结果。4 l 表4 6 l p c c 和m f c c 结合l t s 作为码本时f a 和f r 在不同情况下的结果4 5 第1 v 页 独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已 经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它教育机构的学 位或证书而使用过的材料与我一同工作的同志对本研究所做的任何贡献均已在论文 中作了明确的说明并表示谢意 学位论文题目:谚垆j 墼王基量量也盟选适厶迟型噩盎一 学位论文作者签名1 隰茸! 丝! ! 日期:叼年,月一跏 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留、使用学位论文的规定。本人授权国 防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子文档,允 许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据库进行检索, 可以采用影印、缩印或扫描等复制手段保存、汇编学位论文 ( 保密学位论文在解密后适用本授权书) 学位论文题目:基王叁量量焦鲍迸适厶堡型盈窥 学位论文作者签名:。这! 盘型日期:川年。a 月日 作者指导教师签名:茎盔釜望日期:。r 年,。月毛日 国防科学技术大学研究生院学位论文 第一章绪论 随着信息处理与人工智能技术的迅速发展,特别是计算机科学的发展,社会信息化程 度进一步提高,生物特征识别技术i l 】作为一种更加先进、便捷的信息安全技术已经开始在 全球电子商务中得到了广泛应用。生物特征识别技术是一种根据人体自身的生理特征( 如 指纹、虹膜、脸部、手形、视网膜等) 和行为特征( 如声音、签名等) 来识别身份,是集 光学、传感技术、红外扫描和计算机技术于一身的第三代身份验证技术。近年来,在生物 特征识别技术领域中,说话人识别( s p e a l 【e rr e c o 画吐) 【2 j 以其独特的方便性、经济性和 准确性等优势受到世人瞩目。在电子商务、机密场所和公安司法查证等方面,说话人识别 的应用前景非常广泛。 1 1 说话人识别的意义及应用 说话人识别,也称为声纹识别( v o i o e p r i mr e 。o 鲥6 ) ,属于生物特征识别技术的一 种,就是利用说话人的语音信号同预先提取的说话人语音特征相比较,从而来确定或鉴别 说话人身份的技术。说话人识别是交叉运用心理学、生理学、语音信号处理、模式识别与 人工智能的综合性研究课题。 说话人识别也可以看作是语音识别( s p e e c hr 肮。卿t i o n ) 【2 j 的一种特殊形式,它和语 音识别一样,都是通过对所收到的语音信号进行处理,提取相应的特征,建立相应的模型, 然后据此做出判断。说话人识别与语音识别的区别在于:语音识别是识别出说话人所说的 话的内容的过程,着重于从词语信号中寻找共性因素,尽量剔除说话人的个性特征,突出 语音信号的语义差别;而说话人识别则是通过对说话人语音信号的分析和特征提取,自动 地确定说话人是否在所登记的说话人集合中,以及说话人是谁的过程。因而,说话人识别 需要从各个说话人的发音中找出说话人之间的个性差异,它涉及到说话人发音器官上的个 性差异、发音习惯之间的个性差异等不同级别上的差异。 , 与其他生物特征识别技术如指纹识别、手形识别、虹膜识别等相比较,说话人识别除 了具有不会遗失和忘记、不需记忆、使用方便等优点外,还具有它独特的优势,主要表现 在:价格比较低廉,使用方便,属于非接触性的,容易被用户接受,而且在已有的各种生 物特征识别技术中,是唯一可以用作远程验证的识别技术。 因此,说话人识别相比其他生物特征识别技术更具有简便、经济以及可扩展性良好等 众多独特的优势。在公安司法查证、电话语音交易的身份验证、机密场所及关键部门的出 入等各方面,特别是基于电信网络的身份识别中,说话人识别的应用前景更为广泛。下面 给出说话人识别一些典型应用: l 、日常经济活动中的应用。可以在电话服务中实现汇款、转帐、余额通知、股票买 卖等金融活动。 国防科学技术人学研究生院学位论文 2 、保密安全中应用。可以用特定的声音实现机密场所的人员检查,甚至是普通家庭 的身份确认。也呵用于电话预约服务、计算机人机界面等,使其只响应合法使用者。 3 、司法鉴定中的应用。根据现场记录的声音,可以帮助司法系统判断并确认嫌疑犯 中真实罪犯的身份,帮助对嫌疑人的查证。还可从犯罪时所记录的声音确定罪犯,有时嫌 疑人巾可能不包含真正的罪犯,这时常常需要说话人识别和说话人确认技术的有机结合。 4 、军事领域中的应用。可以用于战场的侦听,以区别对方指挥人员。可以辨认出电 话交谈过程中是否有关键说话人出现,继而对交谈的内容进行处理等。 5 、生物医学中的应用。如使说话人识别系统只响应患者的命令,从而实现对患者假 肢的控制等。 6 、网络安全中的应用。说话人识别可有效地防止复制和剽窃,可以为日益发展的电 子购物、电予商务、国际贸易保驾护航,且操作方便、简洁,很容易为广大计算机使用者 接受。 品而易见,说话人识别已成为在信息高速公路、多媒体技术、办公自动化、现代通信、 智能系统、银行金融、医学工程、公安司法及机要保密等众多领域应用的核心技术之。 因此,实用化的说话人识别系统在国际上愈来愈受到极大的关注和重视,其应用前景非常 乐舰。 1 2 说话人识别的发展状况 说话人识别的研究始于1 9 3 0 年初,早期的工作手要集中在人耳听辨实验和探讨听音 识别的可能性方面。随着研究手段和工具的改进,研究工作逐渐脱离了单纯的人耳听辨。 1 9 6 2 年,b e l l 实验室的lgk e s t a 通过目视观察语谱图( s p e c t o g r 帅) 进行说话人识别n 提山了声纹的概念,意义类似于指纹( f i n g e r p m t ) 。接着,随着电子技术和计算机的发展, 人们通过机器来自动识别人的声音成为了可能。b e u 实验窜的s p r i l z a n s k y 提出了基于模式 匹配和概率统计方差分析的说话人识别方法,引起了信号处理领域的许多学者注意,形成 了说爵人识别研究的一个高潮,当时的主要】:作集中在各种识别参数的提取和选择上,将 倒游和线性预测分析等方法实际应用于说话人识别中p j 。 然后,说话人识别的研究重点转向对各种声学参数的线性或非线性处理以及新的模式 匹配方法卜。在7 0 年代末,动态时间舰整( d y n a m i cn m ew b p p i n g ,d t w ) 1 5 j 和矢量量 化( v e c t o rq u a i l t i z a t i o n ,v q ) 1 6 j 技术被应用到浇话人识别上米,使说话人识别的性能得到 了大幅度的提高。8 0 年代以来,隐马尔可夫模型( h i d d e nm a r k o vm o d e l , 玎v i m ) 、人工神 经网络( a n i f i c i a ln e u r a ln e 铆。睐,a n n ) o 碍口主成分分析、多特征组合等技术,在语音识 别领域中得到了成功和广泛的应用,并日逐渐成为说话人识别的核心技术。进入9 0 年代 后,特别是1 9 9 5 年,r e y n o l d s 对高斯混合模型( g a u s s i a nm i x t u r em o d e l ,g m m ) 进行了 详细的介绍和应用,由十其简单、灵活、有效以及具有较好的鲁棒性( r o b u s t ) ,因而便迅 速成为与文本无关的说话人识别中的酉要技术。在说话人识别特征参数方面,b s a t a l 【9 l | l 第2 页 国防科学技术大学研究生院学位论文 研究了l p c 系数、声道的冲激响应、自相关系数、声道面积函数以及倒谱系数等不同的特 征参数在自动说话人识别系统中的有效性,并指出倒谱系数是较为有效的语音特征。随后, 倒谱系数及其各种变形被广泛应用。 近年来,说话人识别的研究取得了重大进展,并且成为了一个很热门的研究领域,并 逐渐进入了实际应用。美国h 嘲e s h o p p i n g n 出嘲出公司采用与文本有关的说话人确认与 语音识别来进行基于电话语音的订货:苹果公司利用语音进行个人计算机的使用控制; a t t 应用说话人识别技术研制出了智能卡( s m a n c a r d ) ,用于自动提款机;1 9 9 8 年,在 电信与金融结合领域中,欧洲电信联盟应用说话人识别技术完成了c a v e ( c a l l c r v i 疵f i c a t i o n i l l b 锄l 【i n g 勰dt e k c o m m u n i c 嘶o n ) 计划,然后又启动了p i c a s s o ( p i o m e r i n g c a l la u m e n 廿c a t i f o rs e c i 瞄s e r v i c e0 i 嫩a t i ) 计划。在电信网上完成了说话人识别:与 此同时,m 砷d m l a 和v i 翰等公司成立了v - c o m m e r c e 联盟,希望实现电子交易的自助化, 其中通过声音确定人的身份是此项目的重要组成部分;其他的一些商用系统还包括:i t t 公司的s p e a l 【e rk e y 、k e y w a 托公司的v o i c eg u a r d i 姐、t n e t 公司的s p 明l ( e z 等等【l i 】。 国内开展说话人识别研究的主要有北京大学信息中心、南京大学、中国科技大学、清 华大学和中国微软亚洲研究i 完等单位,也取得了一些成果,但毕竟由于国内开展这项研究 的时间较晚,且投入的资源不多,研究水平与国外相比还有较大的差距。 1 3 1 说话人识别的分类 1 3 说话人识别概述 通常,根据判别方式的不同可以将说话人识别划分为两类,即说话人辨认( s p k 盯 i d 锄t i f i c a l i 蚰) 和说话人确认( s p k 叮v c 桶c a t i ) 聊。说话人辨认和确认示意图如图1 1 所示。说话人辨认是把待测说话人的语音判定为属于多个参考说话人之中的某一个,是“多 选一”式的判别;说话人确认则是根据待测说话人的语音,确定是否与其声称的参考说话 人相符,这种确认只有两种情况,或是肯定( 即得到确认) ,或是否定( 即拒绝承认) ,是 “一对一”式的判别。在说话人确认的情况下,说话人都是主动合作的,以便使其身份尽 快得到确认,而在说话人辨认的情况下则不一定。 另外,根据训练和测试说话人的语音内容的不同,说话人识别还可以分为与文本有关 的( t e 小d e p e n d e m ) 和与文本无关的( t e 小i i l d 印e n d t ) 两种方式1 2 j 。与文本有关即要求 说话人按规定的文本发音或者按提示发音,每个人的声纹模型逐个被精确地建立,而识别 时也必须按规定的内容发音,因此很容易就能达到较好的识别效果。而与文本无关是指不 规定说话人的发音内容,无论说话人说什么都可以进行识别,因此其应用范围更为广泛。 目前对于与文本无关的说话人识别在实用上还有一段距离,主要原因在于从说话人自 由说的语音信号中提取满足识别条件的准确特征参数还比较困难,还无法对说话人建立精 确声纹模型。 第3 页 国防科学技术大学研究生院学位论文 a ) 说话人辨认 s 鞴一鬻卜 未知说话人 一 s l 声音 说话人确认 b ) 说话人确认 图1 1 说话人辨认和确认示意图 本课题主要是关于与文本无关的说话人识别的研究。 1 3 2 说话人识别的基本原理【2 】 参 考 说 话 人 集 台 参考 说话人 模型 无论是与文本有关的说话人识别,还是与文本无关的说话人识别,其基本原理都是为 每一说话人建立一个能够描述这一说话人个性特征的模型,根据该模型就可把它作为这一 说话人个性特征的标准模板。在目前话音特征与说话人个性特征还没有很好地从语音特征 中得到分离的情况下,为每一说话人建立的说话人模型实际上就是说话人的语音特征的模 型。 说话人识别在本质上是一个语音信号模式识别问题,主要由训练和识别两个过程完 成。提取说话人特征的过程称为训练过程,根据待识语音对说话人身份做出判断称为识别 过程。训练过程是从某一说话人大量语音信号中提取出该说话人的个人特征,并形成参考 模式;识别过程是从待识语音中提取特征形成待识模式,与参考模式进行比较和判决,从 而确定说话人身份。 第4 页 国防科学技术大学研究生院学位论文 图1 2 说话人识别原理框图 说话人识别的基本原理【2 j 如图1 - 2 所示,主要包括两个阶段,即训练和识别。在训练 阶段,系统的每个使用者说出训练语句,提取说话人的语音特征,系统据此建立并存储每 个使用者的参考模型;在识别阶段,由待识烈说话人的语音信号经过特征提取后形成的待 测模型,然后与系统训练时产生的参考模型进行比较。对于说话人确认系统,通过判断测 试语音两个模型的匹配距离是否小于一定闽值来做出判决,若确认成功,则接受,若确认 不成功,则拒绝;对于说话人辨认系统,则是取与测试语音匹配距离最小的说话人模型所 对应的说话人作为识别结果。显然,说话人辨认与确认并没有本质的差别。 通常,实现说话人识别应当解决如下几个基本问题: l 、语音信号的预处理。通过预处理滤除掉各种噪声和干扰,提升信号中的高频部分 并进行端点检测,去掉菲有效语音帧。为特征提取提供有效的语音段。 2 、语音特征参数的提取。即从预处理得到的语音中获得能够有效表征说话人个性特 质的特征参数。现在采用的特征参数普遍都是从语音信号模型中得到的,它们既包含说话 人的语音特征,又包含说话人的个性特征,并且相互交织在一起。以复杂的形式存在于语 音参数中到目前为止,还没有找到很好的方法将说话人的个性特征从语音特征分离出来, 也没有找到更为简单的声学参数来更可靠的识别说话人。 3 、说话人参数模型的建立和模型参数的计算。实际上,我们采用的说话人模型结构 对应于说话人识别的不同方法。随着科学技术的发展,各种说话人识别的方法不断出现, 包括动态时间归整,矢量量化,隐马尔柯夫模型,高斯混合模型,人工神经网络以及支撑 向量机 1 2 】的方法等。而不同的识别方法对应着不同的模型匹配距离计算方法。 4 、测试音与说话人模型的匹配距离计算。测试音的特征与说话人模型进行匹配,计 算匹配距离。说话入确认时,只与所声称的说话入的模型进行匹配和计算匹配距离,说话 人辨别时,与所有说话入的参考模型进行匹配和计算匹配距离,最后才进行比较,作出判 决。 第5 页 国防科学技术大学研究牛院学能论文 1 3 3 说话人识别的主要方法 在说话人识别中,最天键的问题是如何建立说话人模型。为了对说话人个性特征进行 一致的描述,常常将每蜕话人的模型结构取得相同,不同的只是模型中的参数,通过用 训练语音对模型进行训练得到。采用不同的说话人模型结构就对应了说话人识别的不同方 法口l 。随着计算机、数字信号处理、人工智能等的不断发展,说话人模型已从单一的模板 模型1 3 i 【舢向矢量量化( v q ) 模型【i 7 1 、高斯混合模型( g m m ) 【1 8 1 【1 9 1 、隐马尔柯夫模型 ( h m m ) 【捌【2 ”、人j r :神经网络( a 町【2 2 1 模型以及它们的混合模型等多方向发展。对说话 人个性特征的描述也越来越精细和完善,并且从兀噪声环境下的识别向复杂背景噪声下的 识别方向发展,同时各种高速信弓处理芯片,专用语音信号处理芯片的出现,也使说话人 识别技术不断走向实用。 说话人识别的方法主要有以下儿种: 1 、模板匹配方法。它是用语音信号某些特征的长时间的均值来辨认说话人,这一均 值通常称为统计平均。使用模板匹配方法,就是对待识语音计算其平均值,并且与已经储 存的每一说话人训练平均值进行比较。对文本无关的说话人辨认,理想的情况是:应用数 秒或数分钟的语音以保证说话人的模型由各种语音的平均特征而不足某一特殊音的平均 特征产生。待谚 语音与训练模板使用平均特征间的距离进行比较,该技术使用的所有变量 都来自于所选的特征矢量及其距离尺度。在模板匹配方法中可使用多种距离尺度,欧式距 离和马式距离是经常使用的两种。使用特征统计平均的识别结果通常是次优的,这种方法 对信号或背景噪卢的变化特别敏感。 2 、矢量量化( v q ) 方法。矢量量化模型作为一种非参数模型,是目前文本无关的说 话人识别方法的常见评估基准。从语音信号中提取的说话人特征,常是一多维矢量的时间 序列。矢量量化模型就是从这些矢量中寻找到少数具有代表性的典型矢量,进而构造说话 人模型。寻找代表矢量( 码本) 为一矢量聚类问题,可通过聚类等算法来实现。 用矢量量化模型进行说话人识别的过程如下:对某说话人,其u 1 1 练语音的特征矢虽 序列通过聚类算法可聚为m 类,求每类中的所有矢量的均值( 或选择类中的一个成员) 就 得到了每类的码本矢量。m 食码本矢量构成了该说话人的矢量量化模型。在识别过程中, 将待汉语音的每特征矢量到某一说话人的m 个码本矢量的一个最小距离进行累加,累加 和最小的说话人作为识别结果。f k s o o n g 等人首先将矢量量化成功地用于说话人识别。 3 、高斯混合模型( g m m ) 方法。每一说话入的语音特征在特征空问中都形成了特定 的分布,可以用这一分布来描述说话人的个性。已有的研究表明【1 ,说话人特征分布并非 严格服从某一特定分布( 比如高斯分弗) ,但是任何分布都可由高斯分布的加权和来逼近, 这样就得到了高斯混合模型。高斯混合模型是用多个高斯分布的线性组合近似说话人的特 征分布。识别时,将最能够产生测试音特征的说话人分布模型对应的说话人作为识别结果。 存各神模型中,高斯混合模型给出了较好的结果,主要在于两方面的原因:一是高斯 分柿能够较好地模拟各种形状的分伽函数,二是不同的高斯混合描述了各种声学的类别, 第6 页 国防科学技术大学研究生院学位论文 比如元音、鼻音等。 4 、隐马尔柯夫模型( m 口v i ) 方法。每一说话人的语音特征都是随着时间的变化而变 化的,如果将这种特征的变化过程用状态之间的转移来描述,则构成了说话人的隐马尔柯 夫模型。m m d 模型对于时间序列的变化提供了一个良好的概率描述,特别是状态间的转 移概率反映了语音信号的短时变化。m m l 模型能够很好地对频谱特征进行建模,当前在 语音识别的研究中也得到了较为广泛应用【m 。 5 、人工神经网络( a n n ) 方法。人工神经网络模仿入脑的信息处理机制,把大量结 构非常简单的计算单元相互连接起来实现高度并行和分散的信息处理,尤其适合于像说话 人识别这类与人的感知有关的信息处理问题,它可以通过从实例中学习实现网络的自我组 织和调整。人工神经网络是近年来发展起来的新型领域,具有优良的自组织、自适应、自 学习能力,从语音中的说话人个性特征与说话人的对应关系上讲,说话人识别是一个非常 复杂的非线性分类问题,而人工神经网络,尤其是多层感知器结构的人工神经网络有着传 统分类方法所不能比拟的分类能力。用人工神经网络进行说话人识别主要有以下三种结 构:一是为说话人集合中的每一说话人建立一个人工神经网络,以将这一说话人与其他说 话人区分开;二是用一个神经网络实现对多个说话人的分类;三是为每一对说话人建立 一个神经网络以将每一对说话人区分开。 1 3 4 说话人识别的性能评价 评价一个说话人识别系统脚】需要考虑多个因素的影响,比如正确识别的概率、识别时 间、训练时间长短以及模板存储量大小等,但通常而言,最重要的是正确识别的概率。对 于说话人辨认,识别的结果只可能是正确或错误两种,正确识别的概率与错误识别的概率 之和为l ,因此,可简单地用正确识别的概率( 识别率) 或者错误识别概率( 错误率) 作 为评价说话人辨认系统性能的指标。对于说话人确认,系统的性能常常采用错误拒绝率 ( f a l s er 苟e c t i o nr a t e ,f r ) 和错误接受率( f 萄a c c e p t i r 叠i e ,f a ) 来表现。 在说话人辨认实验中,正确识别的概率( 识别率) 常常用下面的公式来计算: 识别率= 丽甄茄糯鬻羔丽腼 ( 1 _ t ) 以别率2 硬甬虿历磊衫鼯而手爵匠荇丽面丽恧孩甄 ( 1 。1 ) 在说话人确认实验中,如何评价其结果则稍有些复杂。通常,错误拒绝率( f r ) 和错误 接受率( f a ) 采用如下计算方法获得: 错误拒绝率c 踊= 丽高嚣器裂鬻溉 c 国 错误接髀脚丽翥需餮鬈箍矗溉 m 。, 错误拒绝是指拒绝真实的说话人所造成的差错,错误接受是指把冒充者错认为真实说 第7 页 旧防科学技术大学研究生院学位论文 话人而引起的错误。在实际的系统l + _ i ,f r 和f a 这两个指标是相互矛盾的,当错误拒绝率 较低时,错误接受率就会比较高:反之亦然。这两种差错率与判决阈值之间的关系如图l 一3 所示。图中曲线上的点表示在某个给定的判决闽值下得到的错误拒绝率和错误接受率,可 以通过改变判决阈值的大小来调整f r 和f a 的桐对大小,但是无论如何选择阈值,都不能 使两种差错率同时降低。 错 误 概 塞 在确定判决阈值时,应根据具体的应用进行折衷:在安全性要求很高的场合,应使错 误接受( f a ) 尽可能的低( 如图l 一3 中的a 点) ,以避免非法进入者造成严重损失,存真 实说话人遭到错误拒绝时,可以采用其他辅助手段( 例如密码等) 获准进入;在一些安全 性要求较低的场合,错误接受不至于造成严重的损失,为了避免用户因为经常被错误拒绝 而产生不满情绪,应使错误拒绝率设低( 如图1 3 中的c 点) ;图l 一3 中b 点所对应的判决 阈值是f r 和f a 两个错误率相等的点,称为等错误概率点( e q u a ie n l o rr a t e ,e e r ) ,存 般的应用场合,多选择该点作为判决闽值。 1 4 说话人识别存在的问题 虽然说话人识别已经取得了许多成就,在实际工作和,e 活中也得到了较为广泛的应 用,但还存在。一些问题有待于寻找更好的解决方法,这些问题主要在于以下几个方而:。 l 、更精确地提取说话人语音特征参数还有待于进一步的研究。语音信号中既包含了 讲话内容的语义信息,又包含了说话人发声特征的个性信息,是语音的共性特征和说话人 的个性特征的混合体。到目前为止,还没有最好的方法将说话人的个性特征从其所发的语 音特i i f 中分离出来,也还没有找到更简睁的卢学参数来更可靠地识别说话人,从而存定 程度卜给说话人识别带来了难度。 第8 页 国防科学技术大学研究生院学位论文 2 、说话人的语音信号还存在变异性。即使对同一说话人和同一文本。语音信号也有 很大的变异性,这主要因为说话人的语音特征不是静态的,也不是固定不变的,它具有时 变特性,并常常与说话人所处的环境、情绪、健康状况有密切关系,而且会随着时间的推 移和年龄的变化而变化。另外,传输语音的通信信道的时变效应问题也是语音信号产生变 异的重要方面。语音信号的变异性从本质上使说话人特征空间发生移动,说话人模式产生 变异,从而增加了识别过程中的不确定性。 3 、对于汉语而言,在说话人识别中,由于全体音节的集合较小,其数日仅几百个, 而全体汉语说话人却超过了1 0 亿。因此对于由同一语音信号组成的特征空间,语音识别 要将其划分为m 个子空间( m = 音节个数) ,而说话人识别要将其划分为n 个子空间( n = 说话人个数) ,由于n 可能远大于m 。使得识别说话人要比识别所说内容复杂。特别是当 n 很大时,说话人识别还在理论上存在将有限特征空间进行无穷划分的问题,这是说话人 识别所面临的新问题。 1 5 论文的主要工作及内容安捧 本课题重点是对基于矢量量化的说话人识别聚类算法进行了详细研究,其主要工作如 下: l 、试验中分别建立了2 0 个男说话人和1 0 个女说话人用于训练和测试时的语音数据 库。在录制不同说话人的语音库时,充分考虑到了语速快慢、音量、时间、噪音等影响说 话人识别性能的因素。 2 、在说话人识别中对常见的语音特征参数进行了研究,主要研究了线性预测倒谱 ( l p c c ) 、美尔倒谱( m f c c ) 等参数并且分剔基于计算机平台试验比较了l p c c 和m f c c 参数的识别效果。 3 、对矢量量化中经典算法l b g 算法进行了研究,重点研究了i 也s 算法在说话人识别 中矢量码本聚类效果,同时根据试验结果分析比较了r l s 算法与l b g 算法的优劣。试验 表明,i 也s 算法在语音参数聚类中表现出了很好的性能,得到的码书质量优于经典的l b g 算法,从而为设计全局准最优码书提供了一种新思路。 4 、分别详细研究了l p c c 和m f c c 在基于矢量量化的说话人识别试验中的性能,然 后针对试验结果中出现的不足,分析了原因;接着再把长时频谱特征分别与l p c c 或m f c c 结合起来,对说话人识别效果作了进一步研究。通过采用混合语音特征参数运用于说话人 识别试验,在一定程度上减少了单独使用l p c c 或m f c c 运用于说话人识别中存在的问题j 提高了系统的识别性能,取得了较好的效果。 这篇论文的内容安捧如下: 第一章介绍了研究说话人识别的背景,对说话人识别技术研究的发展状况进行了回 顾,阐述了说话人识别的基本原理。第二章说话人语音特征参数的研究。主要介绍了语音 信号的数字模型、语音信号的预处理,语音信号的时域分析方法,同时对说话人识别中常 第9 页 国防科学技术大学研究生院学位论文 见的语音特征参数进行了研究,重点分析研究了线性预测倒谱( l p c c ) 、美尔倒谱( m f c c ) 等参数的性能。第三章基于矢量量化的说话人识别聚类算法。主要介绍了矢量量化的原理, 对矢量量化中经典算法l b g 算法进行了研究,重点研究了r l s 算法在说话人识别中的码 本聚类效果。第四章基于矢量量化的说话人识别试验。分别对l p c c 和m f c c 在基于矢量 量化的说话人识别试验中的性能作了详细研究,然后再分别结合长时频谱特征与l p c c 或 m f c c 对说话人识别效果作了进一步研究。第五章总结了论文的工作,同时对下一步要研 究的内容傲了展望。 第1 0 页 国防科学技术大学研究生院学位论文 第二章说话人语音特征参数的研究 提取说话人语音特征参数的目的在于保留反映说话人个性差异的特征,消除其他冗余 和无用的信息。对于说话人识别系统来说,语音特征参数的选择和提取,对系统的识别性 能有直接的影响口5 】。语音信号中所包含的个人特征信息有两种,一种是声道长度、声带等 先天性发音器官的个人差别所产生的,属于生理特征;另一种是由方言、语调等后天性讲 话习惯产生的,属于行为特征。每个说话人的语音个性特征都和他当时的生理和心理发音 系统有关,是动态变化的。 说话人识别系统中的特征检测,即提取语音信号中表征说话人特点的基本特征,该特 征应能有效区分不同的说话人,而且对同一说话人的变化要保持相对稳定。通常而言,要 使说话人识别系统得到较好的识别性能,有效的语音特征参数应当具备这些特点:可分性 强,能够有效地区分不同说话人;稳定性好,能稳定表示同一说话人的特征,不随时间和 说话人状况的改变而改变,也不受背景噪声及传输信道的影响;易于从语音信号中提取, 计算方便;不易被别的说话人模仿等等。 在实际上,完全满足上述条件的声学特征到现在还没有找到,但是确实有一些语音特 征,无论是对语音识别、说话人识别,还是对语音合成、语音编码以及语音增强,都是非 常重要的。已有的研究表明,基音周期、共振峰、语音谱、倒谱等特征是说话人识别技术 中比较有效的特征参量,特别是倒谱特征已得到了更为广泛的应用。 基音周期 2 1 语音信号的数字模型 图2 1 语音信号产生的数字模型 号 第l l 页 园防科学技术大学研究生院学位论文 建立语音信号的数字模型对于语音处理具有重要意义,但是要建立一个十分精确的语 音产生模型是却是比较困难,因为语音的产生不仅是一个复杂的生理和心理过程,而且与 声道的形状、声道中的激励等因素都有关。通常,在语音处理研究和应用领域中,一般都 采用如图2 1 所示的语音信号的数字模型【2 6 1 。 说话人发音信号的等效数字模型包括三个部分:激励源、声道模型和辐射模型。激励 源分为浊音和清音两种,按照浊音清音开关所处位置来决定产生的语音是浊音还是清音。 浊音时,激励信号由一个周期脉冲发生器产生,所产生的序列是一个周期为。的冲激序 列。周期以取决于基音频率和语音信号的采样频率z ,虬= 一。当正= 8 五眈,0 的变化范围为5 0 5 0 0 h z 时,。的变化范
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 熔析炉工晋升考核试卷及答案
- 11 蓝天白云教学设计-2023-2024学年小学语文一年级上册人教版生活语文(特殊教育)
- 自适应光学病理成像-洞察及研究
- 初中语文文言文背景知识讲解
- 《第二十九课 珍爱生命》教学设计-2023-2024学年心理健康一年级下册北师大版
- 第二单元乐海泛舟 《☆G大调弦乐小夜曲(第一乐章)》说课稿 2024-2025学年人音版八年级音乐下册
- 第16课《驱遣我们的想象》说课稿 2025-2026学年统编版语文九年级下册
- 2024-2025学年新教材高中物理 第4章 第2节 实验:探究加速度与力、质量的关系说课稿 新人教版必修第一册
- 在线支付系统安全与保障服务合同书
- 医院护理部人员责任分工细则
- 邮轮餐饮服务与管理 课件 1.走进邮轮
- GB/T 7019-2024纤维水泥制品试验方法
- GB/T 44808.4-2024人类工效学无障碍设计第4部分:不同年龄人群最小可辨认字符尺寸的估计方法
- 体育训练安全应急预案
- 《航空保险》课件
- 《电商直播》中职全套教学课件
- 45号钢的安全系数和许用应力
- 夏商西周王朝的更替课件
- 设备拆装施工方案
- 矿山项目前期手续办理流程图
- 2024-2030年中国合成生物学行业重点调研及应用需求潜力分析报告
评论
0/150
提交评论