(计算机软件与理论专业论文)说话人识别中的模式匹配方法研究.pdf_第1页
(计算机软件与理论专业论文)说话人识别中的模式匹配方法研究.pdf_第2页
(计算机软件与理论专业论文)说话人识别中的模式匹配方法研究.pdf_第3页
(计算机软件与理论专业论文)说话人识别中的模式匹配方法研究.pdf_第4页
(计算机软件与理论专业论文)说话人识别中的模式匹配方法研究.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(计算机软件与理论专业论文)说话人识别中的模式匹配方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西华大学硕士学位论文 说话人识别中的模式匹配方法研究 计算机软件与理论专业 研究生何金瑞指导教师潘世永 说话人识别是一项根据语音中反映说话人生理和行为特征的语音参数, 自动识别说话人身份的技术,属于生物特征识别技术的一种。近年来,说话 人识别技术日趋成熟,由于语音这一媒介自身特殊的优势,正在迅速走向实 用化,能广泛的应用于各行各业。 本文以l p c c 和m f c c 特征参数作为识别的主要特征,还实验性地使用了 基于小波变换的特征提取参数。运用矢量量化( v q ) 、高斯混合模型( g m m ) 和人工神经网络( a n n ) 技术实现与文本无关的说话人识别,分别在1 5 人、 2 5 人、4 1 人大小的语音库上进行了识别实验。 本文的主要工作有: ( 1 ) 在特征提取部分,详细阐述了特征提取阶段的时域特征和l p c c 、 m f c c 等倒谱特征的提取过程,并用不同于传统的短时傅里叶变换的小波变 换进行了特征提取; ( 2 ) 对各个系统的性能进行了研究。在v q 模型中,研究了码本尺度对 系统性能的影响和具体选取问题;在g m m 模型中,研究了高斯混合模型的阶 数和训练语音的长度对系统性能的影响,并在大量实验的基础了,提出了对 不同的训练语音长度给出了推荐的模型阶数;在神经网络中进行了尝试性的 实验研究;分析了各系统的优缺点,为以后建立混合识别系统奠定了基础。 最后介绍了各个系统的实现和实验,对结果进行了分析和比较,对各种 参数的设置均给出了实验验证,对未来的研究工作进行了展望。 关键词:说话人识别,矢量量化,高斯混合模型,人工神经网络 z r e s e a r c ho ft h ep a t t e r n m a t c h i n gm e t h o di n s p e a k e rr e c o g n i t i o ns y s t e m c o m p u t e rs o f t w a r ea n dt h e o r y m d c a n d i d a t e :h e j i n r u i s u p e r v i s o r :p a ns h i y o n g s p e a k e rr e c o g n i t i o nm a k e su s eo ft h es p e e c hc o e f f i c i e n t sw h i c hr e p r e s e n t t h e s p e a k e r s v o i c ef e a t u r et o i d e n t i f ys p e a k e r , i sak i n do fb i o l o g i c a l c e r t i f i c a t i o nt e c h n o l o g y i nr e c e n ty e a r s ,s p e a k e rr e c o g n i t i o nw i d e l yd r a w s t h e a t t e n t i o nb e c a u s eo fi t sc o n v e n i e n c e ,e f f i c i e n c ya n da c c u r a c y i tc a l lb ea p p l i e d t oan u m b e ro ff i e l d s ,i s r a p i d l ym o v i n gt o w a r dp r a c t i c a lu s e ,c a nw i d e l yb e u s e di na l lw a l k so fl i f e t h i sp a p e ri sm a i n l ya b o u ta t e x t - i n d e p e n d e n ts p e a k e rr e c o g n i t i o ns y s t e m b a s e do nv e c t o rq u a n t i f i c a t i o n ( v q ) m e t h o d s ,a t e x t i n d e p e n d e n ts p e a k e r r e c o g n i t i o ns y s t e mb a s e do ng a u s s i a nm i x t u r em o d e l ( g m m ) a n da r t i f i c i a l n e u r a ln e t w o r km o d e l ( a n n ) ,w eu s el p c ca n dm f c cc o e f f i c i e n ta st h e f e a t u r ep a r a m e t e rs e t ,r e s p e c t i v e l y , i n15 、2 5 、41 o ft h es p e a k e rr e c o g n i t i o n l i b r a r yc o n d u c t e de x p e r i m e n t s m a i n l yw o r k si nt h i sp a p e r : ( 1 ) f e a t u r ee x t r a c t i o ni ns o m ed e t a i lt h ef e a t u r ee x t r a c t i o np h a s eo ft h e t i m e d o m a i nc h a r a c t e r i s t i c sa n dl p c c ,m f c cf e a t u r e s ,s u c h 缸t h ee x t r a c t i o n p r o c e s s ,a n dd i f f e r e n tf r o mt h et r a d “i o n a ld f to ft h ew a v e l e tt r a n s f o r mf e a t u r e e x t r a c t i o n ( 2 ) i tr e s e a r c hi n t os y s t e m s t h ep e r f o r m a n c eo fv a r i o u ss y s t e m sw a ss t u d i e d v qm o d e lt os t u d yt h ec o d eo ft h es c a l eo ft h ei m p a c to ns y s t e mp e r f o r m a n c e 正 a n dt h es e l e c t i o no ft h r e s h o l df o rt h eo p t i m a ld e s i g nc o d e b o o ks o m ei d e a sp u t f o 刑a r d i nt h eg m mm o d e l ,g a u s s i a nm i x t u r em o d e lt os t u d yt h eo r d e ro f t h e n 啪b e ra n dl e n g t ho ft r a i n i n gi nv o i c ei m p a c to ns y s t e mp e r f o r m a n c e ,a n dt h e b a s i so fal a r g en u m b e ro fe x p e r i m e n t s ,t h ep r o p o s e dv o i c e - t r a i n i n go f d i f f e r e n t l e n 础o ft h em o d e lg i v e nt h er e c o m m e n d e do r d e r ;n e u r a ln e t w o r ki nt h et r i a l o f t h ee x p e r i m e n t a ls t u d i e s ;a na n a l y s i so ft h ea d v a n t a g e s a n dd i s a d v a n t a g e s0 t v a r i o u ss v s t e m sf o rh y b r i dr e c o g n i t i o ns y s t e mc r e a t e da f t e rt h ef o u n d a t i o n mt h ee n d ,i n t r o d u c e dt h es y s t e ma n dt h ev a r i o u se x p e r i m e n t s ,t h er e s u r so f t h ea n a l y s i sa n dc o m p a r i s o no f v a r i o u sp a r a m e t e r so nt h ee x p e r i m e n t a ls e t t i n g s a l ev e r i f i e d ,t h ef u t u r ep r o s p e c to fr e s e a r c hw o r k c a r r i e do u t k e yw o r d s :s p e a k e rr e c o g n i t i o n , m o d e l ,a r t i f i c i a ln e u r a ln e t w o r k v e c t o rq u a n t i z a t i o n , g a u s s i a nm i x t u r e 皿 西华大学硕士学位论文 声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取 得的研究成果。除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得西华大学或其他教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡 献均己在论文中作了明确的说明并表示谢意。 本学位论文成果是本人在西华大学读书期间在导师指导下取得的,论文 成果归西华大学所有,特此声明。 氆何卺哮 聊6 月夕日 翩躲骺侈永 。严月尸日 西华大学硕士学位论文 西华大学 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规 定,同意学校保留并向国家有关部门或机构送交论文的复印件和 电子版,允许论文被查阅和借阅,西华大学可以将本论文的全部 或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复印手段保存和汇编本学位论文。 本学位论文属于 1 、保密口,在年解密后适用本授权书; 2 、不保密影适用本授权书。 ( 请在以上口内划4 ) 学位论文作者签名:句雹哮 日期: 妙叼,7 指导教师虢添钐糸 日期:呷t “夕 西华大学硕士学位论文 1 绪论 1 1 说话人识别概述 说话人识别又称声纹识别【1 】【2 】,属于生物特征识别技术的一种,是一项 根据语音中反映说话人生理和行为特征的语音参数,自动识别说话人身份的 技术。 生物认证【3 】( b i o m e t r i c s ) ,也称为生物测定学、生物特征识别,是通过 计算机利用人所固有的生理特征或是行为特征来进行个人身份鉴定的技术。 具有不可替代性、广泛性、唯一性、稳定性等特点。现有的生物识别技术大 致上包括说话人识别技术、指纹识别技术、人脸识别技术、虹膜识别技术等。 一些生物特征识别技术存在着缺点。如指纹识别技术目前已经很成熟 了,但用户的接受度不高,不方便、不卫生也是它存在的问题。虹膜、视网 膜、d n a 识别技术的精确度虽然很高,也很可能是最精确的生物特征了,但 所需的设备非常昂贵,操作过程复杂,并且据研究,这些特征包含用户健康 状况信息,大众接受程度不高。人脸、步法、笔迹、静脉等特征,虽然比较 自然,用户也容易接受,但实现的难度大。 说话人识别技术与其他生物特征识别技术相比,除具有不会遗失和忘 记、不需记忆等优点外,还具有一些特殊的优势。比如:语音获取方便、自 然,用户比较容易接受;获取语音的设备成本低廉,使用简单;适合远程身 份认证等。 近年来,说话人识别技术日趋成熟,由于语音这一媒介自身特殊的优势, 通过声音进行身份认证的技术正在迅速走向实用化,凸现出巨大的市场潜 力,能广泛的应用于各个领域【4 】【5 】【6 】 包括: ( 1 ) 信息安全领域 说话人识别技术与其他生物识别技术相比有着明显的优势,可以为日益 发展的电子商务、国际贸易保驾护航,且操作方便、简洁,很容易为广大计 算机使用者接受。比如,声控密码锁;声纹门禁系统;声纹考勤系统;在电 话服务中,以用户的声音为密码完成查询、交费、转帐等业务。 ( 2 ) 通信领域 7 西华大学硕士学位论文 在互联网应用及通信领域,说话人识别技术可以应用于诸如声音拨号、 电话银行、电话购物、数据库访问、远程登陆等领域。在呼叫中心应用上, 说话人识别技术同样可以提供更加个性化的人机交互界面。当顾客以电话方 式对呼叫中心进行请求时,系统能够根据语音判断出顾客的身份,从而提供 个性化、更贴心的服务,在国内已有公司开发出相关的应用。 ( 3 ) 司法领域 对于各种电话勒索、绑架、电话人身攻击等犯罪案件,说话人识别技术 可以在一段语音中有效地查找出嫌疑人或缩小侦察范围,还可以在法庭上提 供身份确认的旁证。 ( 4 ) 军事领域 说话人识别技术可以辨认出电话交谈过程中是否有关键说话人出现,继 而对交谈的内容进行跟踪处理( 战场监听) ,在美国的侦察机上已有相关的技 术实用。另外,在通过电话发出军事指令时,可以对发出命令的人的身份进 行确认( 敌我身份识别) 。 1 2 说话人识别的发展及现状 说话人识别的研究最早始于2 0 世纪3 0 年代。初期工作主要集中在入耳 听辨实验和探讨听音识别的可能性方面。随着研究手段和工具的改进,研究 工作逐渐脱离了单纯的人耳听辨。电子技术和计算机技术的发展,使通过机 器自动识别人的声音成为可能。b e ll 实验室提出了基于模式匹配和概率统 计方差分析的说话人识别方法 7 1 ,而引起信号处理领域许多学者的注意,形 成了说话人识别研究的一个高潮,其间的工作主要集中在各种识别参数的提 取、选择和实验上,并将倒谱和线性预测分析等方法应用于说话人识别。7 0 年代末至今,说话人识别的研究重点转向对各种声学参数的线性或非线性处 理以及新的模式匹配方法上,如主成分分析、矢量量化、高斯混合模型、人 工神经网络和支持向量机等技术瞵j 。 如今,说话人识别技术已逐渐走入实际应用,例如a t & t 应用说话人识 别技术研制出了智慧卡( s m a r tc a r d ) ,己应用于自动提款机。欧洲电信联盟 8 西华大学硕士学位论文 在电信与金融结合领域应用说话人识别技术,于1 9 9 8 年完成了c a v e ( c a ll e rv e r i f i c a t i o ni nb a n k i n ga n dt e l e c o m m u n i c a t i o n ) 计划,并于 同年又启动了p i c a s s o ( p i o n e e r i n gc a l la u t h e n t i c a t i o nf o rs e c u r e s e r v i c eo p e r a t i o n ) 计划,在电信网上进行说话人识别。同时,m o t o r o l a 和v i s a 等公司成立了v - c o m m e r c e 联盟,希望实现电子交易的自助化,其中 通过声音确定人的身份是此项目的重要组成部分。 国内开展说话人识别研究比较早的机构有北京大学、中科院声学所、中 科院自动化所、中科大、清华大学等,并先后得到了国家自然科学基金重大 和重点项目、攀登计划等基金的支持,取得了丰硕的研究成果。涌现了像科 大讯飞、北京得意、南山高科、等一批专注于语音技术,拥有自主核心技术、 业界知名的高科技公司。 说话人识别在几十年的研究和开发中尽管取得了很大的成果,但还有许 多问题需要进一步的探索【9 j 。如: ( 1 ) 短话音问题,能否用很短的语音进行模型训练,而且用很短的时间 进行识别,这主要是声音不易获取及其出于实际生活应用的方便的应用所需 求的; ( 2 ) 声音模仿( 或放录音) 问题,要有效地区分开模仿声音( 录音) 和真正 的声音及消除信道差异带来的影响; ( 3 ) 多说话人情况下目标说话人的有效检出; ( 4 ) 消除或减弱声音变化( 不同语言、内容、方式、身体状况、时间、 年龄等) 带来的影响,减少背景噪音的影响; ( 5 ) 我们对人类的听觉理解,知识积累和学习机制以及大脑神经系统的 控制机理等分面的认识还很不清楚;说话人识别系统从实验室演示系统到商 品的转化过程中还有许多具体问题需要解决,如果要使说话人识别系统性能 有大的提高,就要综合应用语言学,心理学,生理学以及信号处理等各门学科 有关知识,只用其中一种是不行的。 目前说话人识别的研究主要集中在以下几个方面: ( 1 ) 提高说话人识别系统的抗噪声能力和稳定性。当前的说话人识别系 统都存在抗噪声能力不强和推广的稳定性差的问题。 9 西华大学硕士学位论文 ( 2 ) 寻找新的语音特征参数及现有特征参数的有效混合。语音特征参数 对说话人识别系统的性能至关主要,虽然倒谱参数得到广泛的应用,但语音 特征参数仍是一个研究热点。寻找新的有效的特征的语音特征参数以及及已 有的特征参数的有效组合是语音特征参数研究的两个方向。 ( 3 ) g m m 模型与其他模型的结合,改善说话人识别系统的性能。如g m m 模型与人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k ,a n n ) ,g m m 模型与支持向量 机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 的结合,分别结合各自的优点以有效地改善 系统的性能。 1 3 本论文的主要结构及创新 本文结构安排如下:第一章介绍了说话人识别的背景、发展、现状及趋 势。第二章对说话人识别系统做了详细的描述,并介绍了语音信号相关的基 础知识和相关原理,对相关常用特征和常用识别方法作了简要地说明。第三 章介绍了矢量量化的基本原理和最优码本设计及其在说话人识别中的应用。 第四章介绍了高斯混合模型的基本原理和阶数的设定、训练语音的长度对系 统的影响及其在说话人识别中的应用。第五章介绍了人工神经网络的基本原 理及其在说话人识别中的应用。第六章介绍了说话人识别系统的实现和实验 结果分析。 在本文中,我主要是针对说话人系统中的识别阶段所用的模式匹配方法 进行了研究。现阶段应用于最多的识别方法还是矢量量化( v q ) 和高斯混合模 型( g m m ) ,因为这两种识别方法的识别效果较好。矢量量化技术实质是在一个 多维特征矢量空间中,用少数的几个特殊的点来代表空间中全部的有效点, 以达到压缩、识别的目的,其关键在于码本设计,本文对最优码本的设计进 行了深入的分析和讨论。高斯混合模型( g m m ) 本质上是一种多维概率密度函 数,其用多个高斯分布的概率密度函数组合来描述特征矢量在概率空间的分 布状况,性能较好,方法简单,是目前最好的说话人匹配方法之一。但是由 于g m m 算法的训练准则是使似然度最大,而非分类错误最小,因此不能产生 识别性能最佳的模型,本文对模型的阶数设定和训练语音长度之间的关系进 1 0 西华大学硕士学位论文 行了讨论,给出一个参考数值。对神经网络在说话人识别上应用的难题隐含 层和模型训练次数对识别结果的影响进行了实验,得出了一些结论。本文还 把小波变换引入识别系统,于前端处理时用于频谱变换的离散短时傅利叶变 换进行了比较,对小波变换参数的设计进行了有益的尝试。 最后通过大量的实验对采用不同的识别算法和识别参数的说话人识别 系统进行了纵向和横向比较,最终达到提高说话人识别系统的稳定性和识别 率的目的。 西华大学硕士学位论文 2 说话人识别系统简介 说话人识别与通常所说的语音识另s ( s p e e c hr e c o g n i t i o n ) 有所不同。语音 识别关注的是说话人说的内容,而不在乎这话是谁说的,关注的是不同人说 话时的共性信息,相反,说话人识别却是要判断这话是谁说的,而忽略所说 的内容,关注的是不同人说话时的个性信息。 2 1 系统的基本原理 说话人识别( s p e a k e rr e c o g n i t i o n ) 又称为声纹识别【3 j ,是指通过对说 话人语音信号进行相应的分析处理,提取相应的特征,建立相应的模型,然 后依次做出判断,从而达到对说话人进行辨认或者确认的目的。 说话人识别按其最终完成的任务可以分为两类,即说话人辨认 ( s p e a k e ri d e n t i f i c a t i o n ) 和说话人确认( s p e a k e rv e r i f i c a t i o n ) 。前者用 以判断某段语音是若干人中的哪一个所说的,是“多选一”问题;而后者用以 确认某段语音是否是指定的某个人所说的,是“一对一”的判别问题。从另 一方面,按被输入的识别用的语音来分,还可将说话人识别分为三类,即与 文本有关的( t e x t d e p e n d e n t ) 、文本无关的( t e x t i n d e p e n d e n t ) 和文本指 定型( t e x t - d e p e n d ) 。根据不同的任务和应用会使用不同的说话人识别技术, 比如刑侦或侦听应用中需要辨认技术和与文本无关的技术,而银行交易时则 可以使用确认技术和文本指定型的技术。 一个完整的说话人识别系统包括语音信号的采集和预处理、语音信号的 特征提取、说话人模型的建立和模型参数的训练、测试音与说话人模型的匹 配距离计算。训练和识别是说话人识别系统的两个重要环节。系统从每个说 话人的语音波形中提取出与说话人相关的特征参数,来为每个说话人建立一 个自己的模板或模型参数,称此过程为识别系统中的训练阶段。从要识别的 语音波形中提取特征参数,并将这些特征参数与训练阶段建立起的模板或模 型参数进行某种意义上的距离匹配达到最终识别说话人是谁的目的,称此过 程为识别系统中的识别阶段,实际上是一个模式匹配的过程。 1 2 西华大学硕士学位论文 别 果 f i g 2 1 s p e a k e rr e c o g n i t i o ns y s t e mc h a r t 图2 1 说话人识别系统框 说话人识别有两大关键技术:一是特征提取;二是模式匹配。 ( 1 ) 特征提取 特征提取的任务是提取并选择对说话人具有可分性强、稳定性高等特性 的声学或语言学特征。寻找具有良好性能的特征及其提取算法是提高识别系 统性能的根本途径之一。 虽然哪些参数能较好地反映说话人的个人特征,现在还没有完全搞清 楚,但是在声音中包含的个人特征信息一般有两种:一种是由声道长度、声 带等先天性发音器官的个人差别产生;另一种由方言、语调等后天讲话习惯 产生。前者以共振峰频率高低、带宽大小、平均基频、频谱基本形状等特征 来表现;后者以基频、共振峰频率的时间图案、单词的时间长度等特征表现。 在说话人识别中,频谱包络特征特别是倒谱特征用的特别多,这是因为一些 实验已经表明,用倒谱特征可以得到比较好的识别性能,而且稳定的倒谱系 数比较容易提取。和倒谱相比,基音特征只存在于浊音部分,而且准确稳定 的基音特征比较难提取。 在理想情况下,选取的特征应当满足以下的准则:能够有效的区分不同 的说话人,但又能在同一说话人的语音产生变化时相对保持稳定;易于从语 音中提取;不易模仿;尽量不随时间和空间变化 一般而言,同时满足上述全部要求的特征通常是不可能找到的( 至少目 前还没找到) ,只能使用折衷的方案。目前,在说话人识别中常用的语音特 征大体可归为下述几类: 基于发声器官如声门、声道和鼻腔的生理结构而提取的参数。如谱包络、 西华大学硕士学位论文 基音、共振峰等。 基于声道特征模型,通过线性预测分析得到的参数。如线性预测倒谱系 数( l p c c ) 、部分相关系数、反射系数、对数面积比、线谱对( l s p ) 、线性预 测残差等。 基于人耳的听觉机理,反映听觉特性,模拟人耳对声音频率感知的特征 参数。如美尔倒谱系数( m f c c ) 等。 混合参数:为了提高系统的识别率,部分原因也许是因为究竟哪些参数 是关键因素把握不充分,相当多的系统采用了混合参量构成的矢量。如将“动 态”参量( 对数面积比与基频随时间的变化) 与“统计分量( 由长时间平 均谱导出) 相结合,还有将逆滤波器谱与带通滤波器谱结合,或者将线性预 测参数与基音轮廓结合等参量组合方法。如果组成矢量的各参量之间的相关 性不大,则效果会很好,因为它们分别反映了语音信号中不同的特征。 ( 2 ) 模式匹配 模式匹配技术主要研究是如何根据已经提取出来的说话人的特征有效 地得到正确的识别结果。在识别阶段,由待识人说话的语音中导出参量,再 与训练过程中建立的模板或模型参数进行。目前针对各种特征而提出的模式 匹配方法的研究越来越深入,其主流方法大致可分为:动态时间规整 ( d t w ) 、矢量量化( v q ) 、高斯混合模型( g m m ) 、人工神经网络( a n n ) 、 支持向量机( s v m ) 方法。此外还有许多学者将离散小波变换( d w t ) 、模 糊逻辑、非线性主元特征提取m ip c a ) 、加权、自适应等方法与以上方法相 结合进行说话人识别,取得了广泛应用。 2 2 语音信号的分析和预处理 2 2 1 语音的产生和感知 人们讲话时发出的话语叫语音,它是一种声音,具有称为声学特征的物 理特性。语音的作用就是为了交流通信,是种特殊的声音,是人们进行信 息交流的声音,是组成语言的声音。因此,语音( s p e e c h ) 是声音( a c o u s t i c ) 1 4 西华大学硕士学位论文 和语言( l a n g u a g e ) 的组合体。 语音的产生依赖于人类的发声器官。发声器官主要包括:肺、气管、喉、 咽、鼻和口。这些器官共同形成一条形状复杂的管道。喉的部分称为声门。 从声门到嘴唇的呼气通道叫做声道( v o c a lt r a c t ) 声道的形状主要由嘴唇、鄂 和舌头的位置来决定,由声道形状的不断改变,而发出不同的语音。 语音信号的感知过程与人耳的听觉系统密不可分。现在对于人耳是怎 样分辨不同频率的声音,还没有完全的研究透彻,目前比较认可的是频率学 说,以w 卢瑟福( w r u t h e r f o r d ) 为代表的频率学说认为,基底膜( 耳 蜗中阶的底膜) 的工作与电话的机制相类似。当有刺激时,整个基底膜产生 振动,所有的毛细胞对每个声音都有反应,将机械振动转换为相应频率、振 幅与相位的神经电位活动。声波频率决定神经冲动的频率形成音调感觉。兴 奋的毛细胞数量多少决定音响的大小,振动的不同形式决定音色。 人们认为听觉系统有两个重要特性,一个是耳蜗对于声信号的时频分 析特性;另一个是人耳听觉掩蔽效应。对于说话人识别而言,耳蜗的时频分 析特性是现在研究的重点,也是难点。正常人的听觉系统相对而言是极为灵 敏的,人耳所能感觉的最低声压接近空气分子热运动产生的声压。可听声音 的频率范围为1 6 h z - - 一1 6 k h z ,年轻人可听到2 0 k h z 的声音,而老年人可听 到的高频声音要减少到1 0 z 左右。因此在这个范围以外的音频分量就是 听不到的音频分量,在语音信号处理中就可以忽略。 2 2 2 基于短时傅立叶变换的语音信号分析 语音信号是一种非平稳的时变信号,不能用处理平稳信号的数字信号 处理技术对其进行分析处理。但是由于不同的语音是由人的口腔肌肉运动构 成声道某种形状而产生的响应,而这种口腔肌肉运动相对于语音频率来说是 非常缓慢的,因此可以认为在短时间内( 一般为1 0 3 0 m s ) 是平稳的。这样就 可以使用信号处理中的“短时分析技术”。所谓的短时分析就是短时傅里叶 变换技术,就是将语音信号分为一段一段来分析其特征参数,其中每一段称 为一“帧”,帧长一般取1 0 m s 3 0 m s 。 西华大学硕士学位论文 用计算机处理语音信号时,一般先通过声卡,进行语音信号的采集, 通常采用的8 k h z - - - 10 k h z 的采样率。语音信号通过声卡处理已经数字化。 随后由于在语音信号的频谱中,频率越高相应的成分越低,高频部分的频谱 比低频部分的难求,但是语音中的多数重要特征都在高频部分,为此要进行 预加重( p r e e m p h a s i s ) 处理。其目的是要提升高频部分,使信号的频谱变得平 坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱。一般用一 个数字滤波器实现:h ( z ) = 1 一u g 1式中,对于清音信号,u 值一般很小, 而对于浊音信号,u 值接近于1 ,典型的取值在0 9 4 - 0 9 7 之间。 进行预加重数字滤波处理后,我们采用一个长度有限的窗函数进行加权 的方法截取语音信号形成分析帧,分帧虽然可以采用连续分段的方法,但一 般要采用交叠分段的方法,这是为了帧与帧之间平滑过渡,保持其连续性。 前一帧和后一帧的交叠部分称为帧移。而采用的窗函数的标准是:在时域因 为是语音波形乘以窗函数,所以要减小时间窗两端的坡度,使窗口边缘两端 不引起急剧变化而平滑过度到零,这样可以使截取出的语音波形缓慢降为 零,减小g i b b s 效应。常用的窗函数是矩形窗、汉宁窗和汉明窗: 一个n 点的矩形窗函数定义为: w = 乜9 翟履( 2 - 1 ( 2 - 1 ) w ( 玎) 2 1o其他 ) 一个n 点的汉宁窗窗函数定义为: r w ( 加| 0 5 卜c o s ( 2 万高) 】畎眯( 2 - 2 ) l0其他 一个n 点的汉明( h 锄m i n g ) 窗函数定义为: r w ( 刀) :0 5 4 - 0 4 6 c o s ( 2 兀意) o ,z n ( 2 - 3 ) n 1 w ( 刀) = 、 一7 10其他 图2 1 画出了矩形窗、汉宁窗、汉明窗在n = 2 5 6 时的时域波形图。 1 6 西华大学硕士学位论文 f i g 2 2t i m ed o m a i nw a v e f o r mo ft h ew i n d o w 图2 2 各窗时域波形图 各窗都有各自的优势所在,使用范围有所差异,在语音频谱分析时常使用汉 明窗来获得分帧语音,以便考察语音的频率,而在计算短时能量和平均幅度 时通常使用矩形窗。 2 2 3 基于小波变换的语音信号分析 上面所说的基于短时傅立叶变换的语音信号分析是传统意义上语音分 析方法,它假定语音信号在一小段时间内平稳,这样就人为地将语音信号分 割成l o - 3 0 m s 的小帧来满足短时平稳的要求。而语音信号是一种典型的非平 稳信号,它的频谱特性随时间而改变,由于短时傅立叶变换只具有单一分辨 率的分析,不能够随着信号变化调整其时频分辨率,所以本质上并不适合对 语音信号这种非平稳时变信号的分析,用它提取的特征参数是不完善的。短 时平稳的方法仅对说话人的静态特征进行了描述,忽略了说话人的动态特 征,而各种实验已经证明,语音中的动态信息是说话人的重要特征之一。 小波是是2 0 世纪8 0 年代发展起来的一种数学分析方法,由于它采用多 1 7 西华大学硕士学位论文 分辨率分析的思想,在语音信号的分析和表示方面取得了一定的成功,有很 大的发展潜力【1 0 】【1 1 1 。小波变换具有分辨率可变、实现简单和无平稳性要求 等诸多优点,在时变信号的处理上受到了极大的美注。小波变换不但在时域 和频域同时具有良好的局部化特性,而且对高频成分采取逐渐细分的时域和 频域步长,从而可聚焦到任何细节,提取出语音信号中携带的丰富的非平稳 信息。而且在小波变换的基础上,小波包变换能够为语音信号提供一种更加 精细的分析方法,可以将信号的高频频带进一步划分,并能够根据信号的频 率特点自适应的选择划分方式,使之与语音频谱相匹配。同时,小波变换 和小波包变换都属于子带分析技术,子带分析技术可以提取出具有较强抗噪 能力的特征参数【1 2 】1 1 3 】。因此,由小波分析得到的特征参数是鲁棒性的特征 参数。 在下面的m f c c 特征提取过程中,会详细叙述二者在用于说话人识别中的 联系和区别,进行了实验对比。 2 3 常用的识别特征, 2 3 1 时域特征 语音信号的时域分析就是分析和提取语音信号的时域参数。对语音进行 分析时,最直观的方法就是它的时域波形,语音信号的典型时域特征有短时 能量、短时平均过零率、短时自相关函数、短时平均幅度差函数f 3 】【1 4 】。 短时能量是语音信号的平方经过一个线性低通滤波器的输出,用在在区 分清音和浊音,有声段和无声段的应用中效果比较明显。由于短时能量是对 信号进行平方运算,因而增加了高低信号之间的差距,在一些应用场合并不 合适。解决这个问题的简单方法是采用短时平均幅值来表示能量的变化。短 时平均过零率是指每帧内信号通过零值的次数,对于离散语音信号,实质上 就是信号采样点符号变化的次数,它既可以用于粗略地描述信号地频谱特 性,也可以与短时能量相结合进行端点检测。短时自相关函数提供了一种获 取周期性信号周期的方法。短时平均幅度差函数是出于计算短时自相关函数 西华大学硕士学位论文 需要很大的计算量而产生的另一种与自相关函数有类似作用的参量。 2 3 2 基于频域的线性预测分析 信号的变换域分析在信号处理中十分重要,在变换域上研究语音信号, 可以使某些在时域上无法表达出来的特征变得十分明显。线性预测分析的基 本思想是:由于语音样点之间存在相关性,所以可以用过去若干个语音抽样 或者他们的线性组合来逼近现在或者未来的样点值。通过使实际语音抽样和 线形预测抽样之间的误差在某个准则下达到最小值来决定唯一的一组预测 系数。而这组预测系数就反应了语音信号的特性,可以作为语音信号的特征 参数【1 5 】1 1 6 1 。 通过线形预测分析,由若干帧语音可以得到若干组l p c 参数,每组参 数形成一个描绘该帧语音特征的矢量,即l p c 特征矢量。由l p c 特征矢量 可以进一步得到很多种派生特征矢量,例如线性预测倒谱系数、线谱对系数、 对数面积比等等。不同特征矢量具有不同的特点,它们在语音编码和识别领 域有着不同的应用价值。 在实际应用中,我们常常采用由线性预测系数推导出来的其倒谱参数 ( l p c c ) ,l p c c 提供了一组方便而简捷的语音信号模型参数,这组参数较精 确的表征了语音信号的频谱幅度,而且分析它们所需的运算量相对来说并不 大,将它作为模板存储,可以提高识别率并减少时间。但是,l p c c 也有它 的缺点,因为它是基于全极点模型的假设,而声道响应都含有零点的影响, 因此对于清音和鼻音来说并不确切,而且对噪声的影响特别敏感。 2 3 3 基于倒谱域的m el 频率倒谱参数 与l p c c 倒谱分析不同,m e l 频率倒谱参数( m f c c ) 的分析着眼于人 耳的听觉特性1 7 】【18 1 ,人耳具有一些特殊的功能,使人耳能在嘈杂的环境中 以及各种异变情况下仍能分辨出各种语音,其中耳蜗起了关键作用,耳蜗实 质上就相当于是一个滤波器组,这组滤波器在频率的m e l 坐标上是等宽的。 1 9 西华大学硕士学位论文 这是因为人类在对1 0 0 0 h z 以下的声音频率范围的感知遵循近似线性的关 系;对1 0 0 0 h z 以上的语音频率范围的感知不遵循线性关系,而是遵循在对 数频率坐标上的近似线性关系,根据这一原则研究了一组类似于人耳蜗作用 的一组滤波器即m e l 频率滤波器。 m e l 频域倒谱系数( m f c c ) 是使用傅立叶分析提取的语音特征参数, 是类似于指数的形式,它和实际频域之间有下面的公式 f 吖。,= 11 2 7l n ( 1 + f 片z 70o ) ( 2 - 4 ) 式中,f m c l 是以m e l 为单位的感知频域,f h z 是以h z 为单位的实际频域。将 语音信号的频谱变换到感知频域中,能更好的进行模拟听觉过程的处理。 m e l 频率的分布是按临界频率分布的,临界带宽是划分m e l 频率刻度的重要 依据。临界带宽的引入是为了描述窄带噪声对纯音的隐蔽效应。一个纯音可 以被以该纯音的频率为中心频率并且具有一定频带宽度的噪声所隐蔽,这种 窄带噪声对纯音的隐蔽量当加宽噪声带宽时最初是隐蔽量增大,但超过某一 带宽后就不再增大,这一带宽称为临界带宽。根据上式和临界带宽的划分, 可将语音频域划分成一系列三角形的滤波器序列,即所谓m e l 滤波器组。 每个滤波器的m e l 频率刻度的带宽是恒定的,通常取带宽为3 0 0m e l ,间隔 1 5 0m e l ,而频域的带宽则随频率增加而成对数增加。 我们定义一个有m 个三角形滤波器组成的滤波器组,中心频率为f ( m ) , m = l ,2 ,m 。则其频率响应为( 2 5 ) : 日。( 七) 0 ,k f ( m 一1 ) 而可差f ( m 焉岩而f ( m 而川一1 ) 吲( 所)( 厂( 胴+ 1 ) 一一1 ) ) ( 厂( 聊) 一一1 ) ) 7。、7 i了i;-itf二三f量(m兰;蠡弓乏苎-4- ,厂( ,咒) | j ( m + t ) ( ( ,行+ 1 ) 一一1 ) ) ( ( 聊1 ) 一( ,刀) ) 。、7 。、7 0 ,k f ( m + 1 ) 滤波器组中的滤波器的个数一般与信号中的抽样频率有关,一般对于 l l k h z 的抽样频率,滤波器的个数取2 0 。本文所做的实验中,滤波器的个 数取p = 2 0 。 m f c c 参数的计算过程是: ( 1 ) 对语音信号进行预处理,分帧,加窗。得到用于特征提取的语音向 2 0 西华大学硕士学位论文 量。 ( 2 ) 对于已经进行预处理的语音数据进行傅立叶变换。 ( 3 ) 将得到的离散频谱通过三角形滤波器组进行滤波,再将得到的输出 作对数能量运算,得到一组系数s ,( f = 1 ,p ) ,滤波器的个数为p ,计算公式 如下: 墨= i n ( ix ( 七) 卜h 。( 七) ) i = 1 , 2 ,p ,- 1 ( 2 6 ) ( 4 ) 最后对对其作离散余弦变换。 q2 昙委s ,c 。s c 型pc ,一。5 ,z = ,2 ,p 。2 7 , m f c c 由于考虑到人耳的听觉感知机理,其识别效果和噪声鲁棒性都比 较好,同时相对于其他一些基于人耳听觉感知机理的特征参数而言,因而成 为语音识别中特征参数的首选。现阶段大多数说话人识别系统都采用m f c c 作为表征说话人的特征参数,以取得更好的效果。 2 3 4 基于小波变换的新特征参数w p d c 的提取 目前大多数的说话人特征提取方法都利用了语音信号的短时平稳特性, 并认为语音信号的相邻帧间相互独立,这样的特征提取方法丢失了语音信号 的动态特征,随着时频分析、小渡分析等信号处理方法的出现,人们研究了 利用说话人语音动态特性的说话人特征提取方法【1 2 】【1 9 】【2 0 】。 对语音信号的采样频率为8 k l - l z ,即最高语音频率约为4 k h z ,根据f 括界带的 划分与m e l 滤波器组在频带上的分布,选取2 4 个小波包分析结点频带进行 6 层小波包分解。在m f c c 参数提取方法的基础上用小波包分析取代m f c c 提取过程中的h 变换和m e l 滤波器组两步,得到一种特征参数w p d c 。 w p d c 的提取计算过程如下: ( 1 ) 对输入的语音信号进行预处理。 预加重:用于提升高频部分,减少尖锐噪声影响,提升高频信号,使信 2 1 西华大学硕士学位论文 号的频谱变得平坦。 分帧、加窗:这里的分帧并不是为了截取得到平稳信号,而是为了提高特征 参数提取的精度,加汉明窗。 ( 2 ) 对各帧信号进行小波包分解,得到各子带系数嘲。,其中 嗽。为第k 个子带的第m 个小波系数,本文选择c o i f 3 小波包函数进行 小波包分解一 一 ( 3 ) 计算所选结点频带内信号的对数能量: n w p x , ,。】2 sk=10952二:1丁,:=:1,2,。,。2: ( 2 8 ) 其中:k 为子带序号;川为第k 个子带中小波包分解系数的个数:k 为所选频带的数目。 ( 4 ) 最后对对其作离散余弦变换,p 为特征参数的维数。 嘶) :羔跏s l 华卜克轼,2 ,p ( 2 - 9 ) k = ll l j 从以上基于小波特征参数的提取过程可以看出,它是基于m f c c 的提取 思想与小波包函数分析而产生的,根据临界带宽的划分,用相应的小波包分 析结点频带内的信号能量来取代m f c c 提取时m e l 滤波器输出的信号能量, 这样就没有滤波器的设计和d f t 。 从整个计算过程来看,基于小波的特征与基于傅里叶变换而来的特征均 遵循m f c c 的原理,因此应该具有相似的属性,并且基于小波包的特征更精 细,包含更多动态的信息,理论上具有更好的效果。 2 4 常用的模式匹配方法 在识别阶段,由待识人说话的语音中导出参量,再与训练过程中建立的 模板或模型参数进行目前针对各种特征参数提出的模式匹配方法的研究越 来越深入,常用的模式匹配方法大体有以下几种: 西华大学硕士学位论文 ( 1 ) 动态时间规整( d t w ,d y n a m i ct i m ew a r p i n g ) 方法; ( 2 ) 矢量量化( v q ,v e c t o rq u a n t i z a t i o n ) 方法; ( 3 ) 隐马尔可夫模型( h m m ,h i d d e nm a r k o vm o d e l ) 方法; ( 4 ) 人工神经网络( a n n ,a r t i f i c i a ln e u r

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论