(信号与信息处理专业论文)基于高斯混合模型的说话人识别系统的研究.pdf_第1页
(信号与信息处理专业论文)基于高斯混合模型的说话人识别系统的研究.pdf_第2页
(信号与信息处理专业论文)基于高斯混合模型的说话人识别系统的研究.pdf_第3页
(信号与信息处理专业论文)基于高斯混合模型的说话人识别系统的研究.pdf_第4页
(信号与信息处理专业论文)基于高斯混合模型的说话人识别系统的研究.pdf_第5页
已阅读5页,还剩67页未读 继续免费阅读

(信号与信息处理专业论文)基于高斯混合模型的说话人识别系统的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理工大学硕士学位论文 摘要 说话人识别技术属于生物认证技术的一种,是一项根据语音波形中反映说话人生理 和行为特征的语音参数来自动识别说话人身份的技术。在生物认证技术领域中,说话人 识别技术以其独特的方便性、经济性和准确性等优势受到世人关注。 本文的工作是围绕基于高斯混合模型的说话人识别系统展开研究,在完成多项基本 性能的测试和比较的基础上,对特征提取、分类算法、识别统计中的某些环节进行一定 的改进,以便获得较高的识别率。本文的工作主要有以下几个方面: ( 1 ) 系统构建:在给出语音分段和识别率计算原则的基础上,首先研究了不同测 试语音单位长度对识别率的影响情况,证明了这些原则的正确性和系统的可靠性;针对 预处理过程中的预加重系数和加窗分帧帧长的选择进行实验,取得了预加重系数的最优 值,以及在不同高斯混合模型阶数条件下的最佳帧长。 ( 2 ) 性能研究:在相同的测试条件下,研究了l p c 、l p c c 、m f c c 这些主流基本 特征的优劣,证明了m f c c 这种充分模仿人耳听觉特性的特征对提高识别率的作用;在 相同的测试条件下,研究了高斯混合模型的阶数对系统识别率的影响,分析了阶数过大 或过小对系统的负面影响,并结合实际情况进行了选择;提出在e m 算法的迭代过程中 设置协方差阈值,并对不周阂值条件下的识别率进行实验对比,证明了将协方差阈值设 置为o 1 0 的普适性和可行性。 ( 3 ) 系统改进:对较为可靠的基本特征m f c c 进行改进,引入差分倒谱概念并对 改进前后的特征进行实验,证明了这种综合考虑前后帧影响的差分特征的有效性;考虑 到传统最大期望算法存在着会出现奇异阵的缺陷,引入参数口来控制修正比例对迭代结 果进行修正,验证了改进算法在参数估计上的有效性;针对系统判别准则中常用的传统 概率打分法,采用归一化投票和设置比例阈值的方法改进,验证了归一化改进的局限性 和比例阈值改进的有效性。 最后对本文工作进行了总结,同时对未来的研究工作进行了展望。 关键词:说话人识别;高斯混合模型;特征提取;分类模型 基于高斯混合模型的说话人识别系统的研究 s t u d y o ns p e a k e rr e c o g n i t i o ns y s t e mb a s e do ng a u s s i a nm i x t u r em o d e l a b s t r a c t s p e a k e rr e e o g n i t i o ni sak i n do fb i o l o g i c a lc e r t i f i c a t i o nt e c h n o l o g ya n di tm a k e 8u s eo f t h es p e e c hc o e f f i c i e n t sw h i c hr e p r e s e n tt h es p e a k e r sp h y s i o l o g i c a la n dp h y s i c a lf e a t u r et o i d e n t i f ys p e a k e r i nt h eb i o l o g i c a lc e r t i f i c a t i o na r e a , s p e a k e rr e c o g n i t i o nw i d e l yd r a w st h e a t t e n t i o nb e c a u s eo f i t sc o n v e n i e n c e ,e f f i c i e n c ya n da c c u r a c y t h i st h e s i ss t u d i e st h es p e a k e rr e c o g n i t i o ns y s t e mw i t hg m m ( g a l l s sm i x t u r em o d e l ) o nt h eb a s i so f p e r f o r m a n c et e s t sa n de o m p a r i s o n ,t h et h e s i sm o d i f i e st h em o d u l e so f f e a t u r e e x t r a c t i o n , c l a s s i f i c a t i o na l g o r i t h ma n dr e c o g n i t i o ns t a t i s t i c st oi m p r o v et h er e c o g n i t i o nr a t e t h es t u d yw o r ko f t h i st h e s i sh a ss e v e r a la s p e c t s : ( 1 ) c o n s t i t u t i n gt h ei n t e g r a t e ds y s t e m : o nt h eb a s i so fs p e e c hs e g m e n t a t i o na n dr e c o g n i t i o nr a t ec a l c u l a t i o n , t h ei m p a c to f d i f f e r e n tl e n g t ho fs p e e c hu n i t so nr e c o g n i t i o nr a t ei ss t u d i e dt ov e i l f yt h es y s t e mc o r r e c t i o n a n dr e l i a b i l i t y n l et e s t so i lp r e - e m p h a s i sc o e f f i c i e n ta n dw i n d o w i n gf r a m el e n g t hi np r e - e m p h a s i s p r o c e s s i n ga r em a d et og e tt h eb e s tp r e - e m p h a s i sc o e f f i c i e n ta n dt h eb e s tf r a m el e n g t hi n g m mw i t hd i f f e r e mo r d e r s ( 2 ) s t u d yo nt h ec a p a b i l i t yo fs y s t e m : o nt h es a m et e s tc o n d i t i o n , t h ea d v a n t a g ea n dd i s a d v a n t a g eo fl p c ,l p c ca n dm f c c f e a t u r e sa r es t u d i e d t h em s d t ss h o wt h a tm f c cw h i c hs u f f i c i e n t l ym o d e l st h eh u m a n h e a r i n gf e a t u r eh a s a h i g hp e r f o r m a n c eo ni m p r o v i n gr e c o g n i t i o n r a t e o nt h es a m et e s tc o n d i t i o n , t h ei m p a c to ft h eo r d e ro fg m mo ns y s t e mr e c o g n i t i o nr a t e i ss t u d i e d n l cn e g a t i v ei m p a c to fh i g h e ro rl o w e ro r d e ri sa n a l y z e d ,a n dt h ec h o i c ei sm a d e a c c o r d i n gt ot h ep r a c t i c a lc i r c u m s t a n c e s e t t i n gc a ) v a r i a n c et h r e s h o l di ne ma l g o r i t h mi t e r a t i o ni sp u tf o r w a r d t h ec o m p a r i s o n o f e x p e r i m e n t so nd i f f e r e n tt h r e s h o l di sm a d e f i n d i n go 1 0i sa u n i v e r s a la n dp r a c t i c a lv a l u e f o rt h ec o v a r i a n c et h r e s h o l d ( 3 ) a m e l i o r a t i o no nt h es y s t e m : i m p r o v e m e n to nb a s i cf e a t u r em f c ci sm a d ea n dd i f f e r e n c ec e p s t r u mi si n t r o d u c e d d i f f e r e n tt e s t sv e r i f yt h a tt h ee f f i c i e n c yo fc o n s i d e r i n gt h ed i f f e r e n c ef e a t u r eo fa d j a c e n t 触r n e s c o n s i d e rt h a tt h ec o n v e n t i o n a le ma l g o r i t h mh a st h ed e f e c to fs i n g u l a r i t ym a r x , p o e 伍c i e n t 口i si n t r o d u c e dt oc o n t r o lt h ee o r r e c t i o ns c a l i n gi no r d e rt oc o r r e c tt h er e s d t ,a n d t h ee f f i c i e n c yo f t h ei m p r o v e da l g o r i t h r ao ne o e f f i c i e n te s t i m a t i o ni sv e r i f i e d 大连理工大学硕士学位论文 a c c o r d i n gt ot h ec o n v e n t i o n a lp r o b a b i l i t yr a t i n gm e 也o di nt h es y s t e mj u d g m e n t , u n i f i e d v o t i n ga n ds e a l i n gt h r e s h o l da r ea d o p t e d t h el i m i t a t i o no ft h eu n i f i e dv o t i n ga n dt h e e f f i c i e n c yo fs e a l i n gt h r e s h o l da r ev e r i f i e d , i nt h ee n d ,ac o n c l u s i o no f t h i st h e s i sa n dt h ep r o s p e c to f t h ef u t u r ew o r ka r ed r a w r l k e yw o r d s :s p e a k e rr e c o g n i t i o n ;g m m ( g a n s s i a nm i x t u r em o d e l ) ;f e a t u r e e x t r a c t i o nc l a s s i f i c a t i o nm o d e l - i i i 大连理工大学硕士学位论文 1 绪论 1 1 研究的背景及意义 1 1 1 研究的现实意义 随着生物学和信息学高度发展的2 l 世纪的来临,生物认证技术作为一种更加便捷、 先进的信息安全技术开始在全球电子商务时代崭露头角。这是一种根据人体自身的生理 特征( 如:指纹、手形、脸部、虹膜、视网膜、气味等) 和行为特征( 如:声音、签名、 击键方式等) 来识别身份的技术,它是集光学、传感技术、红外扫描和计算机技术于一 身的第三代身份验证技术,能满足现代社会对于身份鉴别的准确性、安全性与实用性的 更高要求i ”。生物认证技术的崛起得益于信号检测与处理、模式识别、人工智能、机器 学习等理论与技术的发展,由于它为身份识别提供了一个可靠的解决方案,其应用前景 必定广阔,并能为构筑2 l 世纪基于自主研究开发的国家信息安全体系提供强有力的技 术支持。 近年来,在生物认证技术领域中,说话人识别技术以其独特的方便性、经济性和准 确性等优势受到世人瞩目,并日益成为人们日常生活和工作中重要且普及的安全验证方 式。说话人识别属于生物认证技术的一种,是一项根据语音波形中反映说话人生理和行 为特征的语音参数,自动识别说话人身份的技术【2 】。与语音识别不同的是,说话人识别 利用的是语音信号中的说话人信息,而不考虑语音中的字词意思,它强调说话人的个性; 而语音识别的目的是识别出语音信号中的言语内容,并不考虑说话人是谁,它强调共性。 与其他生物识别技术,诸如指纹识别、掌形识别、虹膜识别等相比较,说话人识别 除具有不会遗失和忘记、不需记忆、使用方便等优点外,还具有以下特性闭:( i ) 用户 接受程度高,由于不涉及隐私问题,用户无任何心理障碍;( 2 ) 利用语音进行身份识 别可能是最自然和最经济的方法之一声音输入设备造价低廉,甚至无费用( 电话) , 丽其他生物识别技术的输入设备往往造价昂贵;( 3 ) 在基于电信网络的身份识别应用 中,如电话银行、电话炒股、电子购物等,与其他生物识别技术相比,说话人识别更为 擅长和得天独厚。 由于与其他生物识别技术相比,说话入识别具有更为简便、准确、经济及可扩展性 良好等众多优势,可广泛应用于安全验证、控制等各方面,特别是基于电信网络的身份 识别【4 l 。比尔盖茨认为:“以人类生物特征( 指纹、语音、脸像等) 进行身份验证的 生物识别技术,在今后数年内将成为i t 产业最为重要的技术革命。” 基于高斯混合模型的说话人识别系统的研究 1 1 2 主要的应用领域 早在1 6 6 0 年,英国国王查尔斯一世之死的侦破过程中,就利用了声音作为找出犯 人的线索。1 9 6 6 年美国法院就第一次采用此方法进行取证。随着时代的进步,在世界范 围内说话人识别技术正广泛应用于诸多领域。截止到去年初。说话人识别产品的市场占 有率为1 5 8 ,仅次于指纹识别和掌形识别。目前,我国市场尚属启动阶段,其发展空 间更为广阔,在金融、证券、社保、公安、军队及其他民用安全认证等行业和部门有者 广泛的需求【4 】。目前,说话人识别主要应用在以下几个方面; ( i ) 民用领域 目前,民用业务对用户所做的身份认证只是采用密码方式,其安全性令人担忧。如 果采用说话人确认技术并结合原来的密码,可安全有效地实现用户身份的确认,这对用 户来说并没有增加任何负担。比如,可供普通家庭使用的声控电子密码锁;用特定人的 声音实现机密场所的出入人员检查;用员工的口令实现员工考勤管理;在电话服务中, 以用户的声音完成查询、交费、转账等业务,等等。 ( 2 ) 通信领域 在互联网应用及通信领域,说话人识别技术可以应用于诸如声音拨号、电话银行、 电话购物、数据库访问、信息服务、语音e - m a i l 、安全控制、计算机远程登录等领域。 在呼叫中心应用上,说话人识男技术同样可以提供更加个性化的人机交互界面。当顾客 以电话方式对呼叫中心进行请求时,系统能够根据话音判断出顾客的身份,从而提供更 个性化、更贴心的服务。 ( 3 ) 经济领域 现在人们越来越多地依赖于口令和密码,随着不同场合的频繁应用其缺陷越发明 显。在说话人识别过程中,每次发音都由随机产生的提示文本来控制,可有效地防止复 制和剽窃,可以说,说话人识别技术与其他生物识别技术相比有着明显的优势,可以为 日益发展的电子商务、国际贸易保驾护航,且操作方便、简洁,很容易为广大计算机使 用者接受 ( 4 ) 司法领域 对于各种电话勒索、绑架、电话人身攻击等案件,说话人识别技术可以在一段录音 中查找出嫌疑人,帮助对嫌疑人的查证在美国,有关机构还利用这一技术来判断监外 执行人员是否在其寓所中。 ( 5 ) 医学领域 说话人识别可以用于患者的确认;或者,说话人识别系统只响应患者的命令,从而 一2 一 大连理工大学硕士学位论文 实现对患者假肢的控制等。 ( 6 ) 军事领域 说话人识别技术可以辨认出电话交谈过程中是否有关键说话人出现,继而对交谈的 内容进行处理。另外,在通过电话发出军事指令时,可以对发出命令的人的身份进行确 认。 1 2 研究的历史与现状 1 2 1 研究的历史 对说话人识别的研究始于2 0 世纪3 0 年代。早期的工作主要集中在入耳听辨实验和 探讨昕音识别的可能性方面。随着研究手段和工具的改进,研究工作逐渐脱离了单纯的 人耳听辨。b e l l 实验室的l g k e s t a 目视观察语谱图迸行识别,提出了“声纹( v o i c e p r i n t ) ” 的概念。之后,电子技术和计算机技术的发展,使通过机器自动识别人的声音成为可能。 b e l l 实验室的s p r u z 蛐提出了基于模式匹配和概率统计方差分析的说话人识别方法, 而引起信号处理领域许多学者的注意,形成了说话人识别研究的一个高潮,其间的工作 主要集中在各种识别参数的提取、选择和实验上,并将倒谱和线性预测分析等方法应用 于说话人识别p 1 。 真正意义上的“自动”说话人识别的研究始于2 0 世纪6 0 年代,从那时开始到现在 的4 0 多年问,随着数字滤波、快速傅立叶交换、线性预测编码、同态信号处理、矢量 量化等算法的不断出现和完善,加之微电子技术的发展和计算机的普及,使这一领域的 研究取得了很大的进展【6 1 。说话人识别的研究重点转向语音中说话人个性特征的分离提 取、个性特征的增强、对各种反映说话人特征的声学参数的线性或非线性处理以及新的 说话人识别模式匹配方法上,如动态时间规整( d t w ) 、主分量( 成分) 分析( p c a ) 、 矢量量化( v o ) 、隐马尔可夫模型( h m m ) 、人工神经网络方法( a n n ) 以及这些方 法的组合技术上等。 1 2 2 研究的现状 如今,说话人识别技术已逐渐走入实际应用,其中,a t & t 应用说话人识别技术研 制出了智慧卡( s m a r t c a r d ) ,并已应用于自动提款机。欧洲电信联盟在电信与金融结合 领域应用说话人识别技术,于1 9 9 8 年完成了c a v e ( c a l l e rv e r i f i c a t i o ni nb a n k i n ga n d t e l e c o m m u n i c a t i o n ) 计划,并于问年又启动了p i c a s s o ( p i o n e e r i n gc a l la u t h e n t i c a t i o n f o rs e c u r es e r v i c eo p e r a t i o n ) 计划,在电信网上完成了说话人识别。同时,m o t o r o l a 和 v i s a 等公司成立了v c o l n l n e r c e 联盟,希望实现电子交易的自助化,其中通过声音确定 基于高斯混合模型的说话入识别系统的研究 人的身份是此项目的重要组成部分。其他一些商用系统还包括:r r r 公司的s p e a k e r k e y 、 k e y w a r e 公司的v o i c e g u a r d i a n 、t - n e t i x 公司的s p e a k e z 等。 国内的说话人识别研究主要由一些大学和研究所在进行。例如:北京大学迟惠生教 授领导的科研组、清华大学吴文虎教授领导的科研组、东南大学陈永斌教授领导的科研 组、中科院自动化所、中科院声学所、哈尔滨工业大学高文教授领导的科研组等。 1 2 3 研究的难点 虽然说话人识别已进入实用阶段,但仍然存在以下诸多难点: ( 1 ) 目前还没有很好的方法把说话人的特征从说话人的语音特征中分离出来; 说话人识别的信息来源是说话人所说的话,其语音信号中既包含了说话人语音内容 的信息,也包含了说话人的个性信息,是语音特征和说话人个性特征的混合体。 ( 2 ) 说话人的特征具有长时变动特性,会随着时间和年龄的变化而变化; 说话人的特征不是固定不变的,常常与说话人所处的环境、说话人的情绪、说话人 的健康状况有密切关系。不同的环境噪声增加了说话人识别的难度;人在患感冒等疾病 时,发音与正常情况下有较大变化,这也增加了说话人识别的难度。 ( 3 ) 声音容易被录音模仿; 用尚精度的数字录音机可以窃取他人的声音,从而降低了声音在身份验证方面的可 靠性。 ( 4 ) 信道中的说话人识别研究比较困难; 声音在电话线路上传输时,会受到线路噪声的影响,不同的通信线路的噪声也可能 不同。而且,受电话线路带宽的限制( 人耳能感受声音的频率范围在2 0 h z - - 2 0 0 0 0 h z 之间,而电话线路的通带在3 0 0 h z - - 3 4 0 0 h z 之间) ,语音信号在电话线路上传输时会 产生较大的失真。在移动通信中,由于语音信号要经过声码器压缩,语音信号会产生更 大的失真。 1 3 说话人识别基本介绍 说话人识别是从说话人所发语音中提取出说话人是谁的信息的过程。为此,需从各 个说话人的发音中找出说话人之间的个性差异,它涉及到说话人发音器官上的个性差 异、发音声道之间的个性差异、发音习惯之间的个性差异等不同级别上的差异,因此, 说话人识别是交叉运用运用心理学、声学、语音学、语言学、人工智能、数字信号处理、 信息理论、模式识别理论、最优化理论、计算机科学等的综合性课题。随着数字信号处 理理论和人工智能等的不断发展,近年来说话人识别研究得到了迅速的发展。 大连理工大学硕士学位论文 1 3 1 说话人识别的基本原理 说话人识别是机器通过识别和理解,对说话人的语音信号进行特征提取后与数据库 中的模板进行匹配后以达到鉴别或确认说话人身份的技术。说话人识别与通常所说的语 音识别有很大的区别。语音识别关注的是说话入说的内容,而不在乎这话是谁说的;相 反,说话人识别却是判断这话是谁说的,而忽略说的是什么话。因此,语音识别强调的 是所说的内容,而淡化说话人的音色音质等特征因素;说话人识别着重的是说话人的声 道变化和说话的习惯等个性特征。 图1 1 给出了说话人识别系统框图。和语音识别系统一样,建立和应用这一系统可 以分为两个阶段,即训练阶段和识别阶段。在训练阶段,系统的每个使用者说出若干训 练语句,系统据此建立每个使用者的模板或模型参量参考集。而在识别阶段,待识别说 话人语音中导出的参量要与训练中的参考参量或模板加以比较,并且根据定的相似性 准则形成判断。对于说话人辨认来说,所提取的参数要与训练过程中的每一人的参考模 型加以比较,并把与它距离最近的那个参考模型所对应的使用者辨认为是发出输入语音 的说话人。对于说话人确认而言,则是将从输入语音中导出的特征参数与其声音为某人 的参考量相比较,如果两者的距离小于规定的阈值,则予以确认,否则予以拒绝。 图1 1 说话人识别系统 f i g 1 1as p e a k e rr e c o g n i t i o ns y s t e m 实现说话人识别需要解决以下几个基本问题:( 1 ) 说话人特征的提取;( 2 ) 说话 人模型的建立和模型参数的训练;( 3 ) 测试人与说话人模型的匹配距离计算。其中最 关键的两个问题是提取什么样的特征和建立什么样的模型。对这两个问题的解答就构成 了一个说话人识别算法,而一个说话人识别系统的效果也是由这两部分决定的。 1 3 2 说话人识别的几种类别 ( 1 ) 根据识别的任务分类 传统的根据说话人识别的目标,可分为说话人辨认( s p e a k e ri d e n t i f i c a t i o n ) 和说话 人确认( s p e a k e rv e r i f i c a t i o n ) 。随着需求的发展,出现了一些新的识别任务,如交谈 语音中的说话人检测( s p e a k e r d e t e c t i o n ) 和说话人跟踪( s p e a k e r t r a c k i n g ) 。 基于高斯混合模型的说话人识别系统的研究 说话人辨认( s p e a k e ri d e n t i f i c a t i o n ) 根据给出的一段语音,判断是已知的n 个人中的哪个人说的,所要解决的是“你 是谁”的问题。如果这个人一定包含在这n 个人中,则称为“闭集”( c l o s e s e t ) ,否 则,称为“开集”( o p e n s e t ) 说话人确认( s p e a k e rv e r i f i c a t i o n ) 根据给出的一段语音,判断是否是某个特定人说的,所要解决的是“你是否是你所 声明的那个人”的问题。可以将它看作是n - - 2 的说话人鉴别问题。涉及“真正的说话 人”和“冒充者”的识别问题。说话人确认的一个优点是其识别率与潜在的冒充者的个 数无关。 说话人检测( s p e a k e rd e m c t i o n ) 根据给出的一段交谈语音,判断该语音中是否含有特定说话人的语音。和说话入确 认非常相似,也属于= 元检测问题,区别在于说话人确认中的给定语音是属于同一个人 的,而说话人检测中的语音是属于多个人的。 说话人跟踪( s p e a k e rt r a c k i n g ) 在说话人检测的基础上,如果该交谈语音中包含特定的说话人的语音,那么哪些话 是该说话人说的。 ( 2 ) 根据工作的模式分类 根据说话人识别系统的工作模式,可将其分为与与文本有关( t e x t - d e p e n d e n t ) 和与 文本无关( t e x t - i n d e p e n d e n t ) 的两种。 与文本有关( t e x t - d e p e n d e n t ) 一般以字或音素为基础,多数建立在语音识别的基础上,通过说话人与识别系统的 合作,使系统获得更多的信息,同时使所需的语音数据最少。这种情况要求说话人严格 按照系统的要求,否则将出错。 与文本无关( t e x t - i n d e p e n d e n t ) 系统没有事先获得说话人所说的内容的信息,这样,无论获得什么样的语音信息, 都可用于训练和识别。显然,与文本无关的系统和与文本有关的系统相比,较为通用, 但是识别率较低。 1 3 3 说话人识别常用的特征 为了从语音信号中提取出表征各个不同说话人的有用信号,语音信号在经过预处理 后要进行语音特征的抽取。说话人样本模型的训练和特定说话人的识别都是基于所选取 的语音特征参数来进行的。因此,语音特征参数的提取是说话人识别系统中的一个关键 6 一 大连理工大学硕士学位论文 部分。选取不同的特征参数对识别结果将产生较大的影响,如何选取合适的参数以达到 最佳的识别效果也是本课题的一个难点。一般而言,说话人所发出的语音信号中既包含 说话人所要表达的语音信息,又包含说话人本人特有的个性特征。 在理想情况下,选取的特征应当满足下述准则 ”:( 1 ) 能够有效地区分不同的说话 人,但又能在同一说话人的语音发生变化时相对保持稳定;( 2 ) 易于从语音信号中提 取;( 3 ) 不易被模仿;( 4 ) 尽量不随时间和空间变化。同时满足上述全部要求的特征 通常是不可能找到的( 至少在目前是如此) ,只能使用折衷方案。 按参数的稳定性来分,说话人特征参数可以大致分为两类:一类是说话人生理决定 的固有特征( 如声道构造的个体差异等) 。这类特征不易模仿,但容易受健康状况的影 响;另一类是声道运动的动态特征,也就是发音方式、发音习惯等,这类特征相对稳定 却比较容易模仿。 说话人识别研究中已使用过的特征参数主要有基音周期、线性预测系数( l i n e a r p r e d i c t i v ec o e 撒c i e n t s ,简称l p c ) i s 】、声道的冲激响应、自相关系数、声道面积函数、 l p c c 特征【9 】、m f c c 特征【埘、感知线性预测系数( p e r c e p t u a ll i n e a rp r e d i c t i v e ,简称 p l p ) 以及差值倒谱l 等等。 不同特征参数的物理意义不同,基音及共振峰是表征说话人固有特征的参数,以全 极点模型为基础的l p c 可以较为精确地反映语音信号的频谱幅度,把语音信号每一段 看成准周期脉冲或随机噪声激励一个线性时不变系统的输出,使用解卷积的方法将激励 信号和系统冲激响应分开【1 2 1 。倒谱系数反映了声道的共振性能,在与文本无关的方式下, 说话人语音特征一般用倒谱参数表征【1 1 】【l3 1 。倒谱是信号的f f t 谱取对数后的逆f f t 变 换,它可将信息量较小的峰值信息和更重要的声道形状信息相分离,是目前普遍采用的 说话人特征参数,倒谱系数也可由线性预测系数推得,称为线性预测倒谱,它是语音帧 倒谱的自相关序列,与直接计算倒谱相比,线性预测倒谱的计算量较小【1 4 1 。对大多数语 音信号来说,全极点模型能很好地模拟声道的效应,然而对于鼻音和摩擦音往往需要零 极点模型才能更好地模拟声道的效应,所以a r m a 模型和a c w 特征也已被用来提取 说话人语音特征。利用发音机理,m d p l u m p e 等进行了基于声门特性的说话人特征提 取。听觉模型也已被用于说话人特征提取和说话人识别,利用听觉频率非线性特性的 m f c c 和p l p 则是两种常见的考虑听觉特性的说话人特征。 1 3 4 说话人识别主要的分类方法 对于说话人识别系统,特征被提取出来以后,需要用识别模型为说话人建模,并对 特征进行分类,以确定属于哪一个说话人。所谓的识别模型,是指用什么模型来描述说 基于高斯混合模型的说话人识别系统的研究 话人的语音特征在特征空间的分布。目前常用的模型大体上可以分为参数模型,非参数 模型,人工神经网络模型( a r t i f i c i a l n e u r a l n e t w o r k ,简称a n n ) 以及支撑向量机( s u p p o r t v e c t o rm a c h i n e ,简称s v m ) 【j 孓1 9 1 。参数模型是指采用某种特定的概率密度函数来描述 说话人的语音特征在特征空间的分布情况,并以该概率密度函数的一组参数来作为说话 人的模型。典型的参数模型包括高斯混合模型( g a u s s i a nm i x t u r em o d e l ,简称g m m ) 和隐马尔可夫模型( h i d d e nm a r k o vm o d e l ,简称h m m ) p 0 - 2 5 ,而非参数模型是指说话 人模型是由语音特征经过某种运算直接得来。典型的非参数模型是模板匹配方法和矢量 量化模型( v e c t o rq u a n t i z a t i o nm o d e l ,简称v q ) 【2 6 】。下面就分别简要介绍这几种分类 模型。 ( 1 ) 模板匹配法 模板匹配方法幂h 用语音信号某些特征的长时间均值来辨认说话人,这一均值也称为 统计平均使用模板匹配方法就是对待识别语音计算平均值,并与已经储存的每一说话 入的训练平均值进行比较。对文本无关的说话入辨认,理想的情况是应用数秒或数分钟 的训练语音,以保证说话人的模型是由各种语音的平均特征产生,而不是由某一特殊语 音的平均特征产生,待识别的语音则与训练模板所使用的平均特征间的距离进行比较。 在模板匹配方法中可使用多种距离尺度,欧式距离和马式距离是经常使用的两种。使用 特征统计平均的识别结果通常是次优的,这种方法对信号或背景噪声的变化特别敏感。 上述两种变化可改变说话人的特征,导致均值的漂移。 ( 2 ) 矢量量化模型 矢量量化是一种极其重要的数字处理方法,己广泛应用于图像压缩、语音压缩等领 域。所谓矢量量化是将若干个幅度连续取值的时域采样信号分成一组,即构成矢量,然 后用若干离散的数字值( 或标号) 来表示各种矢量。用矢量量化模型识别说话人的过程 如下:对某一说话人,其训练语音的特征矢量序列通过聚类算法可以聚为材类,求每 类中所有矢量的均值( 或选择类中的一个成员) 就得到了每类的码本矢量,m 个码本 矢量构成了该说话人的矢量量化模型。在识别过程中,将待识别语音的每一特征矢量到 某一说话人的m 个码本矢量的一个最小距离进行累加,累加和最小的说话人作为识别 结果。矢量量化模型具有很好的分类特性,能通过对长时语音特征参数统计信息的量化 来区分不同说话人,同时还能有效地压缩数据,因而用它建立识别模型,数据量少,训 练时间短,识别响应快。尽管矢量量化模型被成功地应用于在说话人识别中,但在矢量 量化模型中,聚类的矢量仅用个中心来表示,且各个码本对距离的贡献相等,由此可 见,非参数模型对说话人特征的描述尚欠细致。 ( 3 ) 隐马尔可夫模型 一8 一 大连理工大学硕士学位论文 隐马尔可夫模型也是一种比较常用的模型,它是马尔可夫链的推广。在h m m 模型 中,观察到的事件与状态通过一组概率分布相联系,是一个双重随机过程,其中一个是 马尔可夫链,它描述了状态之间的转移;另一个随机过程描述了状态和观察值之间的统 计对应关系 2 7 1 。h m m 模型的状态是隐含的,可以观察到的是状态产生的观察值,因此 称为隐马尔可夫模型。 h m m 模型的优点在于它既能用短时模型状态解决声学特性中相对稳定段的描述, 又能用状态转移规律刻画平衡之间的时变过程,所以能统计地吸收发音的声学特性和时 间上的变动。因此,将此模型用来描述语音信号的产生是8 0 年代语音信号数字处理技 术的一项重大进展。但是,h m m 模型的分类能力比较弱,而且对噪声的鲁棒性较低, 所以很多在实验室里具有很好识别性能的基于h m m 的说话人识别系统,在实际环境下 识别性能会显著降低。另外在利用电话语音的说话人识别系统中,3 k h z 频带以外的说 话人信息的丢失,包括电话机在内的传输线路特性的变化,来自不同干线的话音质量存 在差异,以及通话环境的噪音等等,都严重影响说话人识别系统性能j 。 ( 4 ) 高斯混合模型 由于每一个说话人的语音特征在特征空间中都形成了特定的分布,所以可以用这一 分布来描述说话人的个性。高斯混合模型使用多个高斯分布的线性组合近似说话人的特 征分布,将最能够产生测试语音特征的说话人分布模型所对应的说话人作为识别结果 例。对于高斯混合模型,训练时,为每一个人的语音建立一个模型,训练的目的本质上 是估计这个模型参数的过程,当所有人训练结束后,保留每个人对应的参数;识别时, 将未知语音与每个人的参数相结合,求出与每个人相对应的似然函数,其中对应最大似 然函数的说话人被认为是识别结果】。有关高斯混合模型详细的建模及识别方法将在后 续章节中给出。 ( 5 ) 神经网络模型 虽然参数模型和非参数模型方法都已成功地用于说话人识别,然而这些方法都达不 到人脑的识别水平。人工神经网络可在一定程度上模仿人脑的功能,它为说话人识别提 供了一个新的途径,说话人识别使用过的神经网络类型较多,前向神经网络以其结构简 单、分类性能较好在说话人识别中获得了广泛的使用。多层前向神经网络是映射型神经 网络,可完成从说话人特征空间向说话人集合的映射。说话人识别使用的前向神经网络 多为b p 网络和r b f 网络,而基于逐级判决思想,将单个神经网络进行组合而成的级联 神经网络也己应用于说话人识别。 目前,使用神经网络进行说话人识别所面临的问题是,如果使用一个网络作为分类 器,当待识别的人群( ) 改变时,网络的结构( 至少输出神经元个数) 将随之改变,需 基于高斯混合模型的说话人识别系统的研究 要重新对网络进行训练。再者,当增大时,神经网络的训练时间以指数增大,理论上 当无限增大时,将无法完成神经网络的训练。解决这一问题的方法是将单个大网络化 成许多完成部分功能的子网络,再将各个子网络进行组合来完成大网络的功能。r u d a s il 等人和k e v i nrf 等人已用b p 网络分别尝试了说话人识别的两分网络方法和神经树网 络方法。 ( 6 ) 支撑向量机 支撑向量机是一种较新的机器学习方法,深入的研究近些年才开始。在手写体识别、 文本分类、人脸检测等模式识别问题中,s v m 技术已经得到应用,并取得了较好的效 果。对于传统的基于贝叶斯判决的分类器( 如g m m ) 或神经网络分类器,其缺点是需 要用交叉验证来估计参数的数目以防止出现有限样本的学习。而支撑向量机是在统计学 习理论的基础上发展起来的一种新的通用学习方法。与传统统计学相比,统计学习理论 是种研究有限样本情况下机器学习规律的理论。v a p n i kv 等人从2 0 世纪六七十年代 开始致力于此方面研究,到九十年代中期,随着其理论的不断发展和成熟,也由于神经 网络等学习方法在理论上缺乏实质性进展,统计学习理论开始受到越来越广泛的重视。 统计学习理论是建立在一套较坚实的理论基础之上的,为解决有限样本学习问题提供了 一个统一的框架。它能将很多现有方法纳入其中,有望帮助解决许多原来难以解决的问 题( 比如神经网络结构选择、局部极小点和过学习等问题) 。s v m 已初步表现出很多 优于已有方法的性能,在解决有限样本、非线性及高维模式识别问题中表现出许多特有 的性能。s v m 正在成为继神经网络研究之后新的研究热点,并将有力地推动机器学习 理论和技术的发展1 1 5 1 。 1 3 5 说话人识别系统的性能评价 对于说话人识别来说,识别的结果只可能是正确或错误两种。且正确识别的概率与 错误识别的概率之和为l ,因此,可简单地用正确识别的概率( 常称为识别率) 或者错 误识别率( 常称为错误率) 作为评价识别系统性能的指标 2 9 1 。 定义未知声音确实是本人声音的状态为j ,未知声音为非本人声音的状态珂,识别 结果也只有s 和n 这两种情况,在不同的情况下获得这两种结果的概率只有如下四种情 况:j fs 、,f 疗、阼f s 、疗f 拧,将它们的概率分布记为p ( s f ,) 、地f 功、p ( n f s ) 、p ( n 功, 则有: f p ( s l s ) + ,( 栉is ) = 1 【以j f 力+ 以露f 力= l 大连理工大学硕士学位论文 因此,只采用p ( s ls ) 和p ( s i n ) 就可评价一个说话人确认系统。分别称p ( s ls ) 和 p ( s i 胛) 为正确接受概率和错误接受概率,而称p ( n ls ) 为错误拒绝率。若将p ( s l 聆) 和作 p ( sis ) 为横坐标和纵坐标,并改变判断本人声音的判决阀值,则对各识别系统就能获得 如图1 2 所示的r o e ( r e e e i v e r - o p e r a t i n g - e h a r a c t e r i s t i ec a r v e ) 曲线。 图1 2r o c 曲线 f i g 1 2r e c e i v e r - o p e r a t i n g - c h a r a c t e r i s t i cc a l n e 在图1 2 中,方法b 始终优于方法a ,而c 相当于没有识别能力的场合。当然,错 误拒绝率p ( n l s ) 和错误接受率p ( s l 以) 也可以作为评价确认系统性能的指标。很明显, 对于不同的判决阀值,有着不同的错误识别概率,通常希望这两种错误概率都小,但不 管阀值怎么选取,并不能使两种错误概率都小,常常是一个大了则另一个就变小了,因 此判决阀值通常选择使这两种错误概率相等的位置,而这时系统的性能则完全由这两种 错误概率中的任意一个确定,称这两中错误概率相等时的其中每一个错误概率为等错误 概率或等错误率( 髓r ) ,所以等错误率也可以作为评价确认系统性能的指标p 】。 1 4 本文的结构安排 本文的结构安排如下:第1 章简要介绍了说话人识别的基本概念、常用特征、分类 方法以及面临的问题和难点。第2 章介绍了后续章节所用到的语音信号相关的基础知识 和基本原理。第3 章则介绍了常用的特征提取方法,并基于m f c c 特征采用几种方法进 行了改进。第4 章详细讨论了基于高斯混合模型的说话人识别系统。在本文的第5 章中, 对前面介绍的方法进行了计算机仿真实验,而且针对特征提取、分类和统计方法进行了 一系列的改进实验,并且对每一个实验结果都进行了分析。最后是本文的结论等。 基于高斯混合模型的说话人识别系统的研究 2 语音信号的分析与预处理 2 1 语音产生的机理 2 1 1 人体发声机理 人的发声系统由肺、支气管、气管组成的次声门系统、声带、以及位于声带之上的 由咽喉、口咽、口腔组成的声道和由鼻咽、鼻腔组成的鼻道构成。声道起始于声带的开 口即声门处而终止于嘴唇,鼻道则从小舌开始到鼻孔止,当小舌下垂时,鼻道和声道发 生声耦合而产生语音中的鼻音。 人在呼吸时,空气自由进入肺部。发音时,声带受到肺部来的气流的激励,由一套 巧妙的控制喉部软骨、肌肉运动的系统使声带合拢,当空气从肺部呼出时,压力使声带 振动。压力的大小决定声音的强度,声带的张力与质量决定声音的频率声道的形状是 区别声音的重要因素,当声波通过声道后,就引起声道的共振。声道的谐振频率称为共 振峰频率或共振峰,共振峰频率和声道的形

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论