(计算机软件与理论专业论文)基于语音的身份识别系统的研究与设计.pdf_第1页
(计算机软件与理论专业论文)基于语音的身份识别系统的研究与设计.pdf_第2页
(计算机软件与理论专业论文)基于语音的身份识别系统的研究与设计.pdf_第3页
(计算机软件与理论专业论文)基于语音的身份识别系统的研究与设计.pdf_第4页
(计算机软件与理论专业论文)基于语音的身份识别系统的研究与设计.pdf_第5页
已阅读5页,还剩70页未读 继续免费阅读

(计算机软件与理论专业论文)基于语音的身份识别系统的研究与设计.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 基于语音的身份识别是指通过对说话人的语音信号的分析和特征提取,从而 确定说话人是否在所记录的说话人集合中,进而确定说话人是谁的过程。随着计 算机技术和信息化社会的发展,说话人识别技术越来越受到重视,它在许多领域 内都有良好的应用前景。本文通过分析说话人识别基本原理与系统结构,考察现 有的说话人识别技术,研究采用线性预测倒谱系数和美尔倒谱系数为特征参数, 运用矢量量化的说话人识别方法,建立说话人识别系统。目前在说话人识别中, 要提高识别率有两个重要问题需要解决:一是如何选取能够有效表征说话人特征 的可靠参数;二是如何选取最佳的识别模型和模式分析方法,使计算简单可靠。 本文对说话人识别系统的设计与实现作了初步探讨,主要做了以下工作: ( 1 ) 本文在研究语音信号的一般处理方法的基础上,研究了语音信号的数字模 型,包括激励模型、声管模型和辐射模型三个子模型。 ( 2 ) 在研究说话人识别的参数和特征提取原理的基础上,重点研究了线性预测倒 谱系数( l p c c ) 、美尔倒谱系数( m f c c ) 等特征参数的原理和特点,并在计算机 上提取和比较了l p c c 和m f c c 参数的识别效果。实验表明采用m f c c 参数比 采用l p c c 参数有更好的识别效果。训练时间越长,两种参数的识别效果越 好。 ( 3 ) 在介绍各种建模方法基本原理的基础上,重点研究了矢量量化器最佳码本设 计的算法一l b g 算法,并选择为本系统的矢量量化方法。设计了基于矢量量 化的说话人识别方案,并在m a t l a b 上进行了仿真实验,基本实现了说话人 识别。最后,对系统进行了改进,并介绍了模式分析中的一种核方法:新颖 检测法,将之用于说话人识别。 目前说话人识别技术在实用中遇到的最大问题在于系统的噪声的稳健性a 如 何在噪声环境发生变化的情况下保持系统性能不下降,将需要进一步的研究和实 践。随着相关学科的发展,一些更实用、更高性能的说话人识别系统,必将出现 并广泛应用在人们的现实生活中。 关键字:说话人识别;特征参数;矢量量化;模式分析 广东工业大学工学硕士学位论文 a b s t r a c t t h ei d e n t i t yr e c o g n i t i o nb a s e do nv o i c ei st h ep r o c e s s i n go fa u t o m a t i c a l l y r e c o g n i t i o nw h e t l l e rt h es p e a k e ri n t h es p e a k e r sw h o s ev o i c er e c o r d sh a sb e e n g a t h e r e d ,t h e nd e t e r m i n ew h o t h es p e a k e ri s ,b ya n a l y z i n gt h es p e a k e r sp r o n u n c i a t i o n s i g n a l sa n dp i c k i n gu pt h es p e a k e r sc h a r a c t e r i s t i c w i t ht h ed e v e l o p m e n to fc o m p u t e r t e c h n o l o g ya n di n f o r m a t i o ns o c i e t y , t h es p e a k e rr e c o g n i t i o nt e c h n o l o g yr e c e i v e sm o r e a n dm o r ea t t e n t i o n , a n di th a sg o o da p p l i c a t i o np r o s p e c t si nm a n yf i e l d s b ya n a l y z i n g t h eg e n e r a lp r i n c i p l e sa n ds y s t e ms t r u c t u r eo fs p e a k e rr e c o g n i t i o na n dc o n s i d e r i n g s u b s i s t e n tt e c h n o l o g yo fs p e a k e rr e c o g n i t i o n , l i n e a rp r e d i c t i o nc e p s t r u mc o e f f i c i e n t a n dm e lc e p s t r u mc o e f f i c i e n ta r ea d o p t e da sc h a r a c t e r i s t i cp a r a m e t e r s ,t h ev e c t o r q u a n t i z a t i o ni su s e d 够s p e a k e rr e c o g n i t i o nm e t h o dt o s e tu ps p e a k e rr e c o g n i t i o n s y s t e m c u r r e n t l y i nt h ef i e l do fs p e a k e rr e c o g n i t i o n , t h e r ea r et w oi m p o r t a n t q u e s t i o n sn e e dt os o l v ef o rt h ee n h a n c e m e n to fr e c o g n i t i o nr a t e o n ei sh o w t os e l e c t m o r ee f f e c t i v ea n dm o r er e l i a b l es p e a k e r sc h a r a c t e r i s t i c ,t h eo t h e ri sh o w t os e l e c tt h e b e s tr e c o g n i t i o nm o d e la n dp a t t e r na n a l y s i sm e t h o d s t h i sa r t i c l eh a sm a d et h e d i s c u s s i o nf o rt h i s ,a n dm a d ef o l l o w i n ga s p e c t sr e s e a r c ha n di m p r o v e m e n t ( 1 ) i nt h i sp a p e r , ia n a l y z et h ec o m m o np r i n c i p l eo ft h ev o i c es i g n a l ,a n df o c u so n t h er e s e a r c h a b o u t t h e t h r e es u b - m o d e l o f d i g i t a l m o d e l o f v o i c es i g n a l i n s p i r e d m o d e l ,s o u n dg a t em o d e l ,a n dr a d i a n tm o d e l ( 2 ) b a s e do nt h ep r i n c i p l eo ff e a t u r ep a r a m e t e r , is t u d yt h ep a r a m e t e r sr 印r e s e u t i n g t h ev o i c es i g n a lo f t h es p e a k e r t w ok i n d so f r e p r e s e n t a t i v ef e a t u r e s ,l p c ca n d m f c c ,a r ea n a l y z e da n do b t a i n e d t h er e r f o r m a n c e so fl p c ca n dm f c ca r e c o m p a r e dr e s p e c t i v e l yo nc o m p u t e rp l a t f o r m e x p e r i m e n t s i n d i c a t et h a tt h e s y s t e m sc a ng a i nb e t t e rp e r f o r m a n c e sa d o p t m gm f c ct h a na d o p t i n gl p c co n c o m p u t c rp l a t f o r m ,a n dt h eh i g h e rp r o b a b i l i t yo fr e c o g n i t i o ni so b t a i n e dw i t h m o r et r a i n i n gt i m e ( 3 ) ie x p l a i nt h ep r i n c i p l eo fs o m ep r i m a r ym o d e l i n gm e t h o d sa b o u ts p e a k e r r e c o g n i t i o n , a n dv qi se m p h a s i z e d ,a l s oi l l u m i n a t et h eb e s ta l g o r i t h mt ob u i l d a s p e a k e r - u n s p e c i f i cv q c o d e b o o k - - l b ga l g o r i t h m id e s i g na n dr e a l i z et h e a b s t r a c t s y s t e mo fs p e a k e rr e c o g n i t i o n 谢t hv qm o d e lo nm a t l a bp l a t f o r ma n d 西v c t h ed e t a i lt e s tr e s u l t sa n da n a l y s i s f k n a l l y ,a i m i n ga tt h ed e f i c i e n c yo fv q ,w e p u tf o r w a r dt h ei m p r o v e dm e t h o df o rc l u s t e r i n g w ea l s oi n t r o d u c ea n dr e a l i z ea k e r n e lm e t h o df o rp a t t e r na n a l y s i sn a m e dn o v e ld e t e c t i o n n en o i s er o b u s t n e s si so n eo ft h ek e yp r o b l e m sf o rt h ep r a c t i c a b i l i t yo fs p e a k e r r e c o g n i t i o ns y s t e m h o wt ok e e pp e r f o r m a n c eo ft h es y s t e m sn o td r o p p i n gi na s i t u a t i o nt h a tt h en o i s ee n v i r o n m e n tc h a n g e s ,f u r t h e rr e s e a r c ha n dp r a c t i c ei s n e c e s s a r y w i t ht h ed e v e l o p m e n to fr e l e v a n ts u b j e c t s ,s o m em o r ep r a c t i c a la n dm o r e h i g h - p o w e r e ds p e a k e rr e c o g n i t i o ns y s t e mw i l la p p e a ra n da p p l yt op e o p l e sa c b 1 a ll i f e e x t e n s i v e l y k e yw o r d s :s p e a k e rr e c o g n i t i o n ;f e a t u r ep a r a m e t e r s ;v q ;p a t t e ma n a l y s i s 1 1 1 独创性声明 独创性声明 秉承学校严谨的学风与优良的科学道德,本人声明所里交的论文是我个人在 导师的指导下进行的研究工作及所取得的研究成果。尽我所知,除了文中特别加 以标注和致谢的地方外,论文中不包含其他人已经发表或者撰写过的研究成果, 不包含本人或其他用途使用过的成果。与我一同工作过的同志对本研究所做的任 何贡献均已在论文中作了明确的说明,并表示了谢意。 本学位论文成果是本人在广东工业大学读书期间在导师的指导下取得的。论 文成果归广东工业大学所有。 申请学位论文与资料若有不实之处,本人承担一切相关责任,特此声明。 指导老师签字吻勤z 论文作者签字:石枷 2 0 0 7 年f 月如日 7 1 第一章绪论 1 1 课题背景 第一章绪论 1 1 1 基于语音的身份识别系统研究的意义 基于语音的身份识别简单来说就是说话人识别。说话人识别是根据人的声音 来识别人的一种生物认证技术,其以独特的方便性、经济性、准确性等优势受到 世人瞩目。它是一个通过对说话人语音信号的分析和特征提取,自动确定说话人 是否在所记录的说话人集合中,进而确定说话人是谁的过程。与语音识别不同的 是,说话人识别利用的是语音信号中的说话人信息,而不考虑语音中的字词意思, 它强调说话人的个性;而语音识别的目的是识别出语音信号中的言语内容,并不 考虑说话人是谁,它强调共性【1 j 。 我们可以将生物认证所使用的生物特征分为生理特征与行为特征,但是部分 生物特征同时具有了生理特征与行为特征的特点。作为人类自然属性之一的语 音,目前的研究者大多将语音归类到行为特征,正如其它生物特征一样,如:指 纹,人脸。每个人的语音特征是由其自身的发音器官的结构、发音习惯等因素决 定的。由于说话人的语音个体特征以极其复杂的形势存在于语音波形中,而且说 话人语音的个体特征信息远小于语音本身的语义信息,因此,从语音中完全分离 出说话人的个体特征几乎是不可能。但某些语音特征在结合适当的识别模式的条 件下,仍有可能建立性能优良的说话人识别系统。作为一种易于使用的生物认证 方式,说话人识别具有以下不可多得的几个特点: ( 1 ) 用户友好性:说话是人们自然的交流方式,说话人识别是非侵犯性生物认证。 ( 2 ) 采集便利性:无须特殊的采集设备,只要有麦克风即可。 ( 3 ) 支持远程认证:采用手机,电话等通讯设备使得远程身份认证成为可能。 ( 4 ) 隐蔽性认证:说话人识别可以在用户不知不觉的情况下完成身份识别。 ( 5 ) 无所不在的认证:说话人识别可以是无所不在,无时不可的。 广东工业大学工学硕士学位论文 1 1 2 课题背景 随着科学技术和通信技术的迅猛发展,语音识别系统迅速从实验室走向市 场。在过去的几十年里,许多基于语音识别技术的系统在市场上得到了成功的应 用。目前,语音识别和说话人识别技术主要用于语音拨号,电话网络的银行帐目 交易、电话购物、电子商务、各类信息的预约服务、语音信件、保密业务电话服 务、数据库存储管理、保密信息、保密部门的身份验证、法庭鉴别( 包括电话信 道罪犯缉拿,法庭中电话录音信息的身份确认、电话跟踪等) ,发展前景非常广阔。 随着i n t e r n e t 的发展,已出现通过国际互联网进行银行交易。因此,人们越 来越关心它的安全性,其加密方法像许多i c 卡电话一样,一般需要用户键入口令。 在进行身份确认时,目前最广泛的是使用磁卡,但磁卡容易被伪造,1 9 9 5 年美国 由于伪造的电话卡的损失达l o 亿美元,在欧洲国家也有类似的现象。因此寻求新 的身份确认和识别方法有重要的现实意义。目前,应用人体生物特征作为身份鉴 别手段的研究正处于世界前沿,以香港理工大学张大鹏教授为首的研究小组在这 方面处于领先地位。说话人识别正是利用了人体生物特征语音信息,来进行身份 鉴别,其特征具有唯一性和可靠性,是当前研究的热点。 1 2 说话人识别技术的发展历史及研究现状 1 2 1 说话人识别技术的发展历史 战争往往催生一些新技术,说话人识别技术的产生也是源自于战争的需要。 通过声音来识别人的思想最早起源于二战时期的德国,是德国军事通讯部门的情 报服务机关用来鉴别广播声音的。到了1 9 世纪6 0 年代,美国的联邦调查局在贝尔 实验室的帮助下,把声音进行分类。贝尔实验室的工程师劳伦斯科斯塔逐渐相 信声音图谱或声纹( 他命名的) 能够提供一种有效的个人识别方法,最早提出了 “声纹( v o i c ep r i n t ) ”的概念并提出了基于模式匹配和概率统计方差分析的声 纹识别方法,从而形成了声纹识别研究的一个高潮,其间的工作主要集中在各种 识别参数的提取、选择和实验上,并将倒频谱和线性预测分析等方法应用于声纹 识别【2 j 。7 0 年代末至今,声纹识别的研究重点转向对各种声学参数的线性或非线 2 第一章绪论 性处理以及新的模式匹配方法上。近几年,声纹识别技术已逐渐走出实验室,在 个人身份识别、刑事侦破中得到应用。 从说话人识别所采用的方法来看,说话人识别取得了很大的发展。下面我们 简要介绍一下。 动态时间规正的方法是说话人识别很重要的一个方法。该方法主要适用于限 定内容的说话人识别方法,因为同一音素,词素或语句长度都不一致,这样就必 须进行时间规正,不同的人所发的语音信号,其模型有很大差别,即使是同一个 人,在不同时间,由于发声方法不同,也会产生速度不同及其他特征参数的变化。 模式匹配时,为了克服两句同样的发音而时间长短不同的问题,采用了对未知语 音信号均匀的伸长或缩短,直到它与标准模式的长度一致的手段。该方法识别的 精度完全取决于端点检测的精度。该方法对于基于文本相关的说话人识别不失为 一种好方法。 矢量量化( v e c t o rq u a n t i z a t i o n ) 的方法,自从y l i n d e ,a b u z o 和r m g r a y 于1 9 8 0 年提出l b g 算法以后,基于矢量量化的方法己广泛用于语音的压缩编码, 语音识别和说话人识别之中。其中,f k s o n g 于1 9 8 5 年首次将矢量量化引入说话 人识别中来,它为非限定内容的说话人识别提供了强有力的武器。 大约在1 9 7 5 ,c 删和m i t 的学者就把马尔科夫链用到语音处理中,成功的解决 了模型参数与语音信号最佳搭配的方法。每一说话人的语音特征用状态间的转移 来描述,则构成说话人的隐马尔科夫模型( h 删) 。隐马尔科夫模型通过状态转移 概率来表示语音信号的动态变化信息,同时又描述了语音特征的统计分布。随着 协眦广泛用于说话人识别并得到良好的效果,现在的流行研究趋势是将删与v q 和a n n 紧密结合形成一个更复杂的说话人识别系统。 神经网络分类器工作原理是建立在模式变换的基础上的,或者说神经网络模 型实质上是一种模式分布模型。1 9 8 8 英国人j q g l e s h y 和j s m a r s o n 首次把人工 神经网络( a n n ) 应用于说话人识别方面,他们指出了神经网在小范围说话人识别 方面有较好的特性,随后很多学者将神经网络应用于说话人识别研究。 1 2 2 说话人识别技术的应用现状 在国外,a t t 研制的基于声纹识别技术的智慧卡( s m a r t c a r d ) 已应用于自动 广东工业大学工学硕士学位论文 提款机。欧洲电信联盟于1 9 9 8 年完成了c a v e 计划,并于同年又启动了p i c a s s 0 计 划,在电信网上完成了声纹识别;同时,m o t o r o l a 和y i s a 等公司成立了v - c o m m e r c e 联盟,希望实现电子交易的自助化,其中通过声音确定人的身份是此项目的重要 组成部分。其他的一些商用系统还包括:i t 公司的s p e a k e r k e y ,k e y w a r e 公司的 v o i c e g u a r d i a n 。t - n e t i x 公司的s p e a k e z 等例。 国内说话人识别技术则主要应用于司法鉴定,例如上海思壮信息技术有限公 司的v i s 声纹分析鉴定系统;还有i p 呼叫系统,比如南京北极星软件公司的 f i n e s u p p o r t 系统中就用到了声纹技术。 目前声纹识别技术的识别率,t - n e t i x 公司的s p e a k e z 达至u 9 4 - - 9 5 :日本 岩井公司在此基础上研制的同类产品据称其识别率己达到9 9 8 。根据最近的报 道,国内的北京得意音通技术有限责任公司开发的“得意”身份证开发工具据其 自称辨认和确认准确度都可以接近1 0 0 。 1 3 本文的主要研究内容 本文讨论了说话人识别的研究应用、历史现状、原理和主要技术,指出说话 人识别的两个关键在于个人特征的提取和识别模型的建立。本文将文本无关的闭 集说话人辨认作为主要的研究内容,论文重点介绍并讨论了l p c c e p 系数、美尔倒 谱系数的原理以及提取过程:v q 模型的建立以及v q 在说话人识别系统中的应用, 并对结果进行了分析。通过实验得出结论:l p c c 的每一维参数对说话人识别都是 有效的,只是从第6 维至第1 2 维特征分量的有效性更大,更明显;m f c c 从第9 维开 始的权值和前8 维的权值相比要大得多,说明维度靠后的分量在说话人识别中起 着比较重要的作用;v q 建立识别模型是很有效的,它具有分类准确、存储量小、 实时响应速度快的优点。在前面的基础上,针对整个系统,对其模式分析方法提 出了改进,得到了较高的识别率。最后介绍了模式分析核方法中的新颖检测法, 并将其应用于说话人识别。 4 第二章说话人识别技术简介 第二章说话人识别技术简介 说话人识别( s p e a k e rr e c o g n i t i o n ) ,是由计算机利用语音波形中所包含 的反映特定说话人生理和行为特征的语音特征参数来自动识别说话人身份的技 术。 说话人识别可以看作是广义语音识别的一种,与普通意义上的狭义语音识别 不同的是,说话人识别希望从语音信号中提取出说话人的特征,而不考虑语音信 号的语义内容。也即说话人识别强调说话人的个性,试图挖掘出包含在语音信号 中的个性因素;而狭义的语音识别则企求从不同人的语音信号中寻找共同因素, 强调共性。说话人识别是一个跨学科的综合性应用领域,它涉及到语音学、语音 信号处理、模式识别与人工智能等学科。本章对说话人的生理学依据,原理,识 别的关键技术以及系统性能评价等做一些简单的介绍。 2 1 说话人识别技术的生理学依据 说话人识别也称为声纹识别,究竟何为声纹? 最初的含义是指使用特殊的仪 器描绘出来的表现语音特征的图谱,也可广义地解释为所有声音的特征图谱,本 文所论述的是前一种意思。而声纹识别是指通过对语音图谱的分析归纳出一组体 现个人独一无二的特征的因素来确定一段语音资料的从属者身份。 人的发声系统构造复杂,由肺、气管及支气管、声门( 声门即声带开口处) 、 喉腔、咽腔、口腔及鼻腔等部分组成,这套系统又分为三个子系统:一般把声门 以上,经咽喉、口腔( 舌、唇、胯、小舌) 的这一管道称主声道,而经小舌和鼻的 这一管道称为鼻道。此外,经肺、支气管和气管的管道称为次声门系统或声门下 系统【4 j 。 这套系统发出声音的过程如下:人发音时由肺部收缩送出一股气流经气管流 至喉头声门处。在发声之初,声门处的声带肌肉收缩导致声带并拢,间隙缩小( 小 于l m m ) ,这股气流冲过这很小的缝隙使声带得到横向和纵向的力,此时声带向两 边运动使其间的缝隙增大( 资料表明成年男性开到最大时截面积约为2 0 咖2 ) 。之 5 广东工业大学工学硕士学位论文 后声门处压力下降,声带的弹性恢复力将其拉回平衡位置并继续趋向闭合,从而 声带产生振动,而且具有一定的振动周期。由声带振动激发声道中空气发生振动, 并从口和鼻两处向外辐射产生声音。而构成主声道及鼻道分支的器官,在人发出 语音时,在声道的肌肉运动作用下组成一定的声道位形,从而发出特定音色的语 音。 2 2 说话人识别的分类 根据说话人识别是通过对说话人语音信号的分析和提取,确定说话人是否在 所登记的说话人的集合中,以及说话人是谁的过程,可以将说话人识别分为说话 人辨认和说话人确认。 说话人辨认与说话人确认如图2 - 1 所示: 来 谁 的 讲 话 ? 未 是 a i 的 讲 话 9 记录讲话者 a ) 辨认 b ) 确认 图2 - 1 辨认和确认 f i g u r e 2 1i d e n t i f i c a t i o n a f f i r m a n c e ( 1 ) 说话人辨认( s p e a k e ri d e n t i f i c a t i o n ) 说话入辨认是把待测的说话人的语音判定为属于多个参考说话入之中的某 一个,是多选一的问题。在说话人辨认中,需要将待识别的语音和已知人群中的 每一个人的特征逐一进行比较,从中辨别出说话人,系统地决策选择数目为说话 者的数目,因此,说话人辨认系统的性能是随说话人集合的规模增大而降低。在 这种应用中,通常不要求使用人提供个人姓名或个人编号,系统把说话人的信号 特征与计算机中预留下的众多人员的特征相比较,从而确定是谁在说话。 ( 2 ) 说话人确认( s p e a k e rv e r i f i c a t i o n ) 说话人确认是根据待测说话人的语音,确定是否与所声称的参考说话人相 6 第二章说话人识别技术简介 符,这种确认只有两种情况,即得到确认或拒绝承认。在这种应用中,通常要求 使用人提供个人姓名和编号,系统验证说话人与声言人是否为同一人。这是系统 把说话人信号特征与计算机中预留下的声言为某人的特征相比较从而做出判别, 是接受还是拒绝。它只是一个肯定与否定的问题,属于二选一的问题。因此,说 话人确认系统的性能与说话人集合的规模无关。 上面定义的说话人辨认有一个隐含的先决条件,即已经假定测试的语音信号 来自给定的说话人集合s 中的一个元素,这样的识别被称为闭集( c l o s e - s e t ) 的 说话人辨认。与闭集的数话人辨认不同的是,对于开集( o p e n s e t ) 的说话人辨 认,测试语音有可能不来自集合s 中的任何一个说话人。开集的说话人辨认不但 要从集合s 中找到最相似的说话人,而且要判断测试语音是否真正属于这个最相 似的说话人。显而易见,闭集辨认的结果要好于开集辨认,但开集辨认与实际情 况更为一致,开集辨认是闭集辨认同说话人确认的结合。 根据对训练和测试语音内容的要求不同,还可以将说话人识别分为文本相关 ( t e x t d e p e n d e n t ) 的说话人识别和文本无关( t e x t i n d e p e n d e n t ) 的说话人识 别。 ( 1 ) 文本相关 文本相关的识别系统要求用户按照规定的内容发音,并根据特定的发音内容 建立精确的模型,从而达到较好的识别效果,但系统需要用户配合,如果用户的 发音与规定的内容不符合,则无法正确识别用户。 ( 2 ) 文本无关 与文本无关的识别系统则不规定说话人的发音内容,因而要建立精确的模型 较为困难,识别效果较差。但是较文本相关需要限定说话人说话内容而言,文本 无关的说话人识别系统更符合实际应用的需要,应用更加广泛。 2 3 说话人识别技术的原理 无论是与文本有关的说话人识别,还是与文本无关的说话人识别,其基本原 理都是为每一说话人建立一个能够描述该说话人个性特征的模型,以其作为这一 说话人个性特征的标准模板。说话人辨认时,取与测试音匹配距离最小的说话人 模型所对应的说话人为说话人辨认的结果;在说话人确认时,用测试音的模型与 7 广东工业大学工学硕士学位论文 所声称的说话人的模型进行比较,若匹配距离小于一个规定的阂值,则该说话人 得到确认,否则,该说话人不是他所声称的那个身份。由此可见,说话人辨认和 说话人确认在本质上没有什么差别。要实现对说话人的识别,需解决以下几个基 本问题: 1 对语音信号的预处理和特征提取; 2 说话人模型的建立和模型参数的训练; 3 测试音与说话人模型的匹配距离计算。 说话人识别本质上是一个模式识别问题,其实现的大致流程如下【5 】: 图2 - 2 说话人识别系统 f i g u r e 2 2s p e a k e rr e c o g n i t i o ns y s t e m 图2 2 表示一个说话人识别系统。这个系统主要有特征提取、建模、模式 匹配和决策这四个部分。 特征提取:是指用各种模拟和数字处理技术、运用软件和硬件的手段,处理语 音信号,选择和提取表征语音信号的特征。说话人的模型不是由语音信号得 到的,而是通过从语音信号中提取特征而得到的,是说话人语音特征的模型。 测试音和训练音只有进行语音特征提取后才能进行后续处理。 建模:是指建立说话人模型的过程。说话人模型可以是单一的模板模型、矢量 量化模型( v q - v e c t o rq u a n t i z a t i o n ) 、高斯混合模型( g m m - g a u s s i a nm i x t u r e m o d e l ) 、隐马尔可夫模型( h 砌- h i d d e nm a r k o vm o d e l ) 、人工神经网络 ( n n n e u r a ln e t w o r k ) 模型以及它们的混合模型。不管什么模型,参数估计 和优化都在这一步骤完成。 模式匹配:测试音的特征与说话人模型进行匹配,计算匹配距离。说话人确认 时,只与所声称的说话人的模型进行匹配和计算匹配距离;说话人辨认时, 第二章说话人识别技术简介 与所有人的模型进行匹配和计算匹配距离,这实际上是一个得分计算过程。 决策:根据匹配距离的计算结果,判决说话人是否是所声称的说话人( 说话人 确认) 或说话人到底是谁( 说话人辨认) 总的来说,说话人识别过程主要包括两个阶段,即训练和识别。无论是训练 还是识别,都需要首先对输入的原始语音信号进行预处理,滤除掉原始信号的不 重要的信息以及背景噪声等。然后进行特征提取,提取出反映信号特征的关键特 征参数,以降低维数并便于后续处理。在训练阶段,系统的每个说话人说出若干 训练语句,对这些训练语句进行数字化处理,提取特征向量,系统据此建立每个 使用者的模板或模型参数,或者对已在库中的该用户的模板或模型作适应性修 正。在识别阶段,由待测说话人的语音经特征提取后与系统训练时产生的每一个 人的参考模型进行比较,并将它和与它距离最近的那个参考模型相对应。 2 4 说话人识别的特征参数 人之所以能够根据语音信号将说话人识别出来,是因为语音信号中包含了与 说话人相关的信息。首先,语音信号中包含了与说话人有关的一些高级信息 ( h i g h - l e v e li n f o r m a t i o n ) ,如方言、遣词用句特点、说话的习惯风格等。这 些高级信息是人类区分不同说话人的主要依据,也是说话人识别系统最理想的特 征参数。但是由于目前的技术水平还不能模仿人的这种能力,也找不出这些高级 信息同语音参量之间的定量关系,所以它们还不能在自动说话人识别系统中得到 应用。除了上述高级信息外,还有一些低级信息( l o w l e v e li n f o r m a t i o n ) 。 不同人的发声器官的生理结构有所差别,在不同的环境中成长的人即使发同一个 音时发声器官的动作也不尽相同。这种能够表征说话人的信息,是通过共振峰频 率及带宽、平均基频、频谱基本形状等这些可测量的参数特征表现出来的【6 】。 从语音信号中提取出的特征参数应满足以下准则: 1 ) 对局外变量( 如:说话人的健康状况、情绪、系统的传输特性等) 不敏感; 2 ) 能够长期的保持稳定; 3 ) 可以经常表现出来; 4 ) 易于对之进行测量; 5 ) 与其它特征不相关。 9 广东工业大学工学硕士学位论文 但是,同时满足以上的特征通常不易找到,一般要采取一些折衷措施。 在这里我们进行以下归纳,说话人特征大体可归为以下几类【7 】: 1 )线性预测系数或其派生参数 线性预测系数是能够有效地表征语音的全极点模型的参数。以线性预测导出 的多种参数,如线性预测系数、自相关系数、部分相关系数、反射系数、声道面 积比函数、对数面积比、线谱对系数、l p c 倒谱系数及其组合等参数,作为识别 特征,可以得到较好的效果。其主要原因是线性预测与声道参数模型是相符合的。 2 )由语音频谱直接导出的参数 语音的短时谱中包含有激励源和声道的特性,因而可以反映说话人生理上的 差别,而短时谱随时间的变化,又在一定程度上反映了说话人的发音习惯,因此 由语音短时谱导出的参数可以有效地用于说话人识别中。已经使用过的参数有功 率谱,共振峰及其变化轨迹等。谱包络参数语音信息通过滤波器组输出,以合适 的速率对滤波器输出抽样,并将它们作为说话人识别特征。 3 ) 其他稳健性参数 为反映听觉特性,模拟人耳对声音频率感知的特性提出了多种参数,如美尔 倒谱系数、感知线性预测等。包括b a r k 频率倒谱系数,以及经过信道谱减或噪声 谱减的倒谱等。 4 )混合参数 为了提高系统的识别率,相当多的系统采用了混合参数构成的矢量。如果组 成矢量的各参数之间相关性不大,则会更有效一些,因为它们分别反映了语音信 号的不同特性。 2 5 说话人识别的主要方法 ( 1 ) 模板匹配法 模板匹配法的要点是在训练过程中从每个说话人发出的训练语句提取相应 的特征矢量,这些特征矢量能够充分描写各个说话人的行为。这些特征矢量称为 各说话人的模板。 动态时间规整( d t w ) 方法 b r r w 是基于最近邻原则的动态时间规整法的简称,它是将识别模板与参考模板 1 0 第二章说话人识别技术简介 进行时间对比,按照某种距离测定得出两模板间的相似程度。 矢量量化( v q ) 方法 矢量量化最早是基于聚类分析的数据压缩编码技术。h e l m s 首次将其用于说话 人识别,把每个人的训练数据通过标准的聚类过程生成码本,识别时将测试输 入矢量按此码本进行编码,以量化产生的失真度作为判决标准。 ( 2 ) 概率统计方法 语音中说话人信息在短时内较为平稳,通过对稳态特征如基因、声门增益、 低阶反射系数的统计分析,可以利用均值、方差等统计量和概率密度函数进行分 类判决。 隐马尔可夫模型方法 隐马尔可夫模型是一种基于转移概率和传输概率的随机模型,它把语音看成由 可观察到的符号序列组成的随机过程,符号序列则是发声系统状态序列的输 出。 高斯混合模型 高斯混合模型本质上是一种多维概率密度函数,可以用来表示语音特征矢量的 概率密度函数。通过对特征矢量进行聚类,把每一类看作是一个多维高斯分布 函数,然后求出每一类的均值、协方差矩阵和出现的概率,将此作为每个人的 训练模板。最后将观测序列代入每个人的模板,找到最大的后验概率,即对应 所识别的人。 ( 3 ) 辨别分类器方法 人工神经网络( a n n ) 方法 人工神经网络在某种程度上模拟了生物的感知特性,它是一种分布式并行处理 结构的网络模型,具有自组织和自学习能力、很强的复杂分类边界区能力以及 对不完全信息的稳健性,其性能类似理想的分类器。 支持向量机( s v m ) 方法 支持向量机方法是建立在统计学习理论的v c 维理论和结构风险最小原理基础 上的,根据有限的样本信息在模型的复杂性( 即对特定训练样本的学习精度) 和学习能力之间寻求最佳折中,以期获得最好的推广能力。 ( 4 ) 混合方法 把以上分类方法与不同特征参数进行有机组合,对最终结果进行融合,可显 广东工业大学工学硕士学位论文 著提高说话入识别的性能【8 1 。 2 6 说话人识别系统的性能评价 说话人识别系统的性能评价有多种指标,其中最重要的是识别结果的正确 性,而该指标对于说话人辨认和说话人确认系统有些差别。在说话人辨认系统中, 常使用正确识别概率( 识别率) 或错误识别概率( 误识率) 来表征正确识别率【粥。说 话人确认系统中,该指标的表现形式为错误拒绝率( f a l s er e j e c t i o nr a t e ,f r ) 和错误接受率( f a l s ea c c e p t a n c er a t e ,f a ) 。f r 是指真正的用户被系统拒绝接 受,f a 是将冒名顶替者识别为用户造成的差错。这两个参量互相矛盾,通过改 变接受阕值可以调整f r 和f a 的相对大小,下图2 3 示出了判决阈值和两种错误概 率的关系。 毒 毫 1 2 第二章说话人识别技术简介 ( 3 ) 对说话方式的限制; ( 4 ) 处理噪声的能力; ( 5 ) 识别人数; ( 6 ) 与语音内容识别的结合。 广东工业大学工学硕士学位论文 第三章语音信号的特征分析与提取 3 1 语音产生模型 人的声音的差异,主要来自于两个方面:发声器官不同和后天养成的习惯不 同。发声器官的不同主要表现在构成发声器官的声道中各个生理器官的体积和形 状的差异上。发声器官主要由三个子系统构成:肺和气管、喉、声道和鼻道。声 道始于声门( 声带的开口) 止于嘴唇,肺、气管、支气管构成了次声门系统,它 是产生语音的源泉。这些结构对于每个人来说都有差异,由此就造成了每个人的 声源谱、基谱、共振峰频率以及带宽的不同。后天人们学习发音的过程中,还形 成了自己的发音习惯,而这些习惯所带来的差异主要表现在:说话人的发音方式、 停顿方式以及轻重程度等方面,因此就造成了说话人的语调和韵律的不同,即声 道的动态性能方面的不同【l 。 无论先天发声器官的不同还是后天发音习惯的不同,都可以作为识别说话人 考虑的因素。但是由于语音波形中包含着复杂的信息,发声器官与后天养成的习 惯所产生的特征虽有一定的度量方法,但是还不能将它们截然分开。所以对于语 音的分析,首先应该从语音的产生机理入手,寻求一种数学模型加以描述。 经过前人的大量研究,人们认为语音信号主要的不同产生于空气从次声门系 统呼出后的传播过程中,语音信号的处理便是对以后的传输过程进行模型化。气 流从次声门系统呼出后,由于声道某一处的收缩而受到扰动,这种扰动可以看成 是抽象出来的语音模型的激励。对于浊音而言,这种扰动发生在气流通过声门时, 由于声带张力的影响,产生准周期的空气脉冲,其频率为3 0 - 5 0 0 h z ,我们称之 为基音频率。对于清音和摩擦音而言,扰动发生在声道的某处,一般在接近嘴唇 的那端,这一扰动迫使空气以高速冲过这一处而产生湍流,这个湍流十分类似宽 带噪声,所以对于清音激励抽象为随机噪声。 声道和鼻道类似于非均匀声管,当声音顺着声管传播时,它的频谱会被声管 选择性地改变,所以声道和鼻道对语音信号起调制作用。声道通过其形状变化将 信息加入到语音信号当中,在语音信号的数字模型中,声道和鼻道相当于对信号 1 4 第三章语音信号的特征分析与提取 起调制作用的系统。声道管的固有频率称为共振峰( f o r m a t ) ,共振峰和声道的 大小,形状有关,共振峰反映了语音的谱特性,因而当声道形状改变时,语音信 号的谱特性也随之改变。经过以上的分析,我们可以抽象出语音信号的简单的模 型,如图3 - i 所示【l l j : 图3 - i 语音产生的抽象模型 f i g u r e 3 1n o n o b j e c t i v em o d e lo f v o i c eg e n e r a t i o n 然而,实际的系统远比图3 - 1 复杂得多,声音在鼻道和声道中还要受到其他 许多因素的影响,使得信号在传播过程中有能量损失。从声学理论去考虑,这些 影响因素主要包括: 1 ) 声道形状的时变性质; 2 ) 由于声道壁的热传导和粘滞摩擦的损耗: 3 ) 声音在嘴唇中的辐射; 4 ) 鼻腔的耦合; 5 ) 声道壁的柔度。 把所有这些因素放到一起考虑,得到图3 2 的模型 图3 2 语音产生的离散时域模型 f i g u r e 3 - 2d i s c r e t et i m em o d e lo f v o i c eg e n e r a t i o n 完整的语音信号的数学模型可以用三个子模型:激励模型、声道模型和辐射 广东工业大学工学硕士学位论文 模型的串联来表示1 2 j 。如图3 2 所示。它的传输函数h ( z ) 可表示为: h ( z ) = u ( z ) v ( z ) r ( z ) 这里,u ( z ) 是激励信号。发浊音时,由于声带不断张开和关闭,将产生间歇 的脉冲波。此时的激励信号是一个以基因周期为周期的斜三角脉冲串,可看作加 权的单位脉冲串激励单个斜三角脉冲的结果,浊音激励模型可表示为: 荆娟协荆2 南。正哥 式中,c 为常数,t 为基因周期,e ( z ) 为单位脉冲串的z 变换形式。 发清音时,无论是发阻塞音还是摩擦音,声道都被阻碍形成湍流。所以,可 以把清音激励模拟成随机白噪声。实际情况一般使用均值为0 、方差为1 ,并在 时间和幅度上为随机分布的序列。 v ( z ) 是声道传输函数,既可用声管模型,也可用共振峰模型等来描述。实际 上就是全极点模型: y ( = ) = 百l 一 1 一吼z 。 辐射模型r ( z ) 的传递函数可用一个一阶高通函数来表示: r 0 ) = r o ( 1 一z 。) 这种语音产生模型的基本思想是将激励与系统相分离,使语音信号

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论