(计算机应用技术专业论文)基于小波变换的说话人语音特征参数研究.pdf_第1页
(计算机应用技术专业论文)基于小波变换的说话人语音特征参数研究.pdf_第2页
(计算机应用技术专业论文)基于小波变换的说话人语音特征参数研究.pdf_第3页
(计算机应用技术专业论文)基于小波变换的说话人语音特征参数研究.pdf_第4页
(计算机应用技术专业论文)基于小波变换的说话人语音特征参数研究.pdf_第5页
已阅读5页,还剩47页未读 继续免费阅读

(计算机应用技术专业论文)基于小波变换的说话人语音特征参数研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 说话人识别是利用说话人的语音特征对说话人的身份进行辨认或确认。在况 话人识别系统中,最重要的是能够从语音片断中提取代表说话人独有特征的稳定 参数。 针对短时傅立叶分析在提取浣话人特征参数时的缺陷,本文通过对小波理论 和说话人识别技术的研究,借鉴了一种传统的基于听觉机理的特征参数m f c c ( m e l 频域倒潜系数) ,利用小波变换、小波多分辨分析和小波包变换,构造出了 两利r 基于小波变换的说话人识别特征参数:i w p t c ( 不完全小波包变换系数) 和 w p t c ( 小波包变换系数) 。通过在m a t l a b 平台上构建的说话人识别系统( 包括文 本有关和文本无关) ,验证了这两种参数的有效性:它们的识别率均高于m f c c 参 数。理论和实验证明,利用小波变换提取的晚话人识别特征参数相比于传统的短 时分析方法确实具有更好的识别特性。 关键词:说话人识别小波变换m f c c 参数 a b s t r a c t s p e a k e rr e c o g n i t i o n ( s r ) a i m s t o i d e n t i f y o r v e r i f y a p e r s o n s i d e n t i t yb y e x t r a c t i n g t h e s p e a k e ri n d i v i d u a l i t y f r o ma p r e s e n ts a m p l e u t t e r a n c e u s i n gs i g n a l m e a s u r e m e n t t e c h n i q u e si nar a n g eo fr e g i s t e r e dp e r s o n s a c c o r d i n gt ot h ed i f f e r e n c eo f r e c o g n i t i o nm o d e ,i tc a n b ed i v i d e ds p e a k e ri d e n t i f i c a t i o n ( s i ) a n ds p e a k e rv e r i f i c a t i o n ( s v ) o n eo ft h em o s ti m p o r t a n tp r o b l e m si nas p e a k e rr e c o g n i t i o ns y s t e mi st h a th o w t oe x t r a c tt h ea p p r o p r i a t ea n ds t a b l ec h a r a c t e r i s t i cf e a t u r e so fs p e e c ht h a tc a nr e p r e s e n ta s p e a k e r ,w h i c hd i r e c t l y r e f l e c tt h es y s t e m sa b i l i t y s t f t ( s h o r t t i m ef o u r i e rt r a n s f o r m ) i sa t r a d i t i o n a lm e t h o di ns i g n a la n a l y s i s a n d p r o c e s s ,a n d m o s to fc o m m o n s p e e c h f e a t u r e sa r ee x t r a c t e db yi t w a v e l e tt r a n s f o r m i saw o n d e r f u lm e t h o d ,w h i c hh a v ea d j u s t a b l er e s o l u t i o ni nt i m ea n df r e q u e n c yf i e l d s l e a d i n g t om o r es u b t l y a n a l y s i s f o ras i g n a l s e g m e n t i tw o r k si n ag o o dp a t t e r n a c c o r d i n gw i t ht h er u l eo f h u m a ne a r sd i s t i n g u i s h i n gf r e q u e n c i e sf r o mv o i c e f o rs t f t h a v i n gi n e v i t a b l ed i s a d v a n t a g e si na n a l y s i so f u n s t a b l es i g n a ls u c ha ss p e e c hs i g n a l ,a sa r e s u l to fs t u d yo nw a v e l e tt h e o r ya n ds p e a k e rr e c o g n i t i o nt e c h n i q u e s ,t w of e a t u r e p a r a m e t e r s ,i w p t c ( i n c o m p l e t ew a v e l e tp a c k e tt r a n s f o r mc o e f f i c i e n t s ) a n dw p t c ( w a v e l e tp a c k e tt r a n s f o r mc o e f f i c i e n t s ) ,a r eg o tb a s e do nw a v e l e tt r a n s f o r m t h e y d e r i v ef r o mt h e s et h e o r i e si n c l u d i n gw a v e l e ta n a l y s i s ,w a v e l e tm u l t i r e s o l u t i o na n a l y s i s a n dw a v e l e t p a c k e ta n a l y s i s ,a l s o ac o n v e n t i o n a lf e a t u r e p a r a m e t e r , m f c c ( m e l f r e q u e n c yc e p s t r a lc o e f f i c i e n t s ) ,w h i c h b a s e do nh u m a na u d i t o r y m e c h a n i s m ,f o r r e f e r e n c e as p e a k e ri d e n t i f i c a t i o ns y s t e m ,w h i c hi sb u i l tb ym a t l a bt o o l sa n dc a n i d e n t i f yas p e a k e rw h e t h e ri nt h em o d eo ft e x t d e p e n d e n to ri nt e x t i n d e p e n d e n t ,s h o w s t h a tt h ee f f i c i e n c yu s i n gt h e s et w on e wf e a t u r e si sh i g h e rt h a nt h a tu s i n gm f c cf e a t u r e p a r a m e t e r s t h e o r ya n de x p e r i m e n ta l lt e s t i f yt h a tt h er e c o g n i t i o np e r f o r m a n c e so f t h e s e n e wf e a t u r ep a r a m e t e r si ns rs y s t e me x t r a c t e db yw a v e l e ta n a l y s i sm e t h o da r eb e t t e r t h a nt h a to ff e a t u r e se x t r a c t e db ys h o r t t i m ea n a l y s i sm e t h o d k e y w o r d :s p e a k e rr e c o g n i t i o n w a v e l e tt r a n s f o r mf e a t u r ep a r a m e t e r s 创新性声明 y5 8 3 3 7 8 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容n j , t , ,论文中不 包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或 其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做 的任何贡献均已在论文中做了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:基蛰盈 日期: 怂生:l ! 里 关于论文使用授权的说明 本人完全了解西安电子科技大学有若保留和使用学位论文的规定,即:研究 生在校攻读学位期问论文工作的知识产权单位属西安电子科技大学。本人保证毕 业离校后,发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。 学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全 部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。( 保密的论文 在解密后遵守此规定) 本学位论文属于保密在一年解密后适用本授权书。 本人签名:丞垫坠 日期: 地! l i 导师签名 精缸 日期 动口华,7 绪论 绪论 每个人的指纹都是唯一的,数百万人之间刁会发现有两个人有相同的指纹; 与此类似,声纹也是人的个性特征,很难找到两个声纹完全一样的人,研究表明: 年龄、语言习惯、发音器官等的差异会导致声纹各不相同,且声纹从十几岁到五 卜几岁基本不变,据此,构成声纹识别基础。说话人识别( s p e a k e r r e c o g n i t i o n ) , 又称“声纹识别”( v o i c e p r i n tr e c o g n i t i o n ) ,目标就是“闻声知人”,它是生物 识别技术的一种,能够从语音波形中提取出反映说话人个性特征的语音参数,即 通过分析声纹唯一性作为识别身份的手段。基于不同的应用环境,说话人识别包 含两个方面:( 1 ) 说话人辨认:判断某段语音是已经登记在册的若干人中的哪一 个说的;( 2 ) 说话人确认:确认某段语音是否是声称的某个人说的。 近二十年来,说话人识别技术得到了很大的发展。目前,说话人识别产品的 市场占有率约1 6 ,仅次于指纹识别、掌形识别,在诸多行业有着广泛市场需求, 并以其特有准确性、方便性、经济性倍受瞩目,成为重要且普及的身份验证方式。 如欧洲电信联盟运用说话人识别原理将通信技术与金融系统相结合,于1 9 9 8 年完 成了c a v e ( c a l l e r v e r i f i c a t i o n i n b a n k i n ga n d t e l e c o m m u n i c a t i o n ) 计划,并于同年 启动了p i c a s s o ( p i o n e e r i n gc a l la u t h e n t i c a t i o nf o rs e c u r es e r v i c eo p e r a t i o n ) 讨j 戈0 , 在电信网上实现远程用户身份认证。m o t o r o l a 、v i s a 等公司也成立了v - c o m m e r c e 联盟,希望实现电子交易自助化,其中,通过声音实现远程身份认证是该项目重 要组成部分。其他商用系统还包括i t t 公司的s p e a k e r k e y 、t - n e t i x 公司的 s p e a k e z 、k e y w a r e 公司的v o i c e g u a r d i a n 等。 说话人识别技术虽然在近二十年得到了迅速发展,但仍然有许多问题需要解 决,其中最关键的问题是,究竟用语音信号的哪些特征或特征变换来表征说话人 才是有效而可靠的? 语音信号是一种典型的非平稳时变信号,但是在1 0 3 0 m s 的短时段内,语音 信号是近似平稳的,这是由于人的发音器官不可能是毫无规律地快速变化,因此 其频潜特性和某些物理特征参量可以近似看作是不变的,这样我们就可以用平稳 过程的分析方法来处理语音信号了。传统意义上的特征参数构造就是基于短时平 稳的假设,需要将原始信号分成1 0 3 0 m s 的短时帧,主要采用短时傅立叶变换的 分析手段。由于短时傅立叶变换只具有单一分辨率的分析,所以本质上并不适合 对语音信号这种非平稳时变信号的分析,用它提取的特征参数必是不完善的。 时频分布理论和小波理论的兴起为非平稳信号的分析和表示提供了新的手 段,并已经在语音信号的分析和表示方面取得了一定的成功,有很大的发展潜力。 小波变换采用多分辨分析的思想,非均匀的划分时频空间,在低频时有高的频率 基于小波变换的说话人语音特征参数研究 分辨率和低的时问分辨率,在高频时有低的频率分辨率和高的时间分辨率。这样 对于频率成分复杂的语音信号,在服从不确定性原理的前提下,使不同的时频区 都可以获得比较合适的时一频分辨率。 目前,小波分析应用于端点检测、基音提取、语音编码等方面都有较成功的 应用,但是对于说话人识别的特征参数提取方面涉及较少。用小波变换构造新的 语音识别特征参数,不必受短时平稳假设的限制,所以作者希望借助于小波分析 工具能够得到更高效的说话人识别特征参数。在这个过程中,作者借鉴了m f c c 参数的提取过程,提取出了两种基于小波变换的特征参数:i w p t c ( 不完全小波 包变换参数) 、w p t c ( 小波包变换参数) ,在m a t l a b 平台上进行了测试,结果表 明,采用这两种参数的说话人识别系统的识别率均高于m f c c 参数。 论文组织 本文的题目是:基于小波变换的说话人语音特征参数研究,论文遵循研究线路 腱”。第章介绍了晚话人识别的基本理论,包括基本原理、技术发展状况、应 用和难点问题等;第二章介绍了说话入识别中的特征参数,其中提到了频率群和 临界带的概念:第三章介绍了小波分析,涉及n d , 波分析、小波多分辨分析、小 波包分析的概念;第四章介缁了新参数的提取思路和步骤:第五章给出了实验结 果和分析。 第一章说话人识别的基本理论 第一章说话人识别的基本理论 1 1 说话人识别的分类 说话人识别和语音识别可以看作是同一个问题的两个方面,它们都是通过对 所收到的语音信号进行处理,提取相应的特征或建立相应的模型( 或模板) ,然后 据此做出判断。不同之处在于,语音识别的目标是识别说话人的内容,即蜕的是 什么;而说话人识别的目标是识别说话人的身份,即是准说的? 因此,从这点上 说,说话人识别是寻找包含在语音信号中的个性因素,而语音识别是力求从不同 人的相同词语语音信号中寻找共同因素。在处理方法上,蜕话人识别力图强调不 同人之间的差别,而语音识别则力图对不同人说话的差别加以归一化。或者说, 前者是个性的识别,而后者则是共性的识别。 萨如指纹一样,每个人都有自己的发音器官特征以及讲话时特殊的语言习惯, 这些都将反映在语音信号中。通过对语音信号进行分析,就有可能识别出是谁在 讲话a 然而,语音信号与指纹不同,指纹具有静态的、固定不变的物理特性,而 语音信号则具有动态特性,它和说话人所处的环境、情绪、健康状况都有密切关 系,因此相对来说,识别难度较大。 基于不同的应用,说话人识另1 ( s p e a k e rr e c o g n i t i o n ) s l 分为说话人确认( s p e a k e r v e r i f i c a t i o n ) 和说话人辨认( s p e a k e ri d e n t i f i c a t i o n ) ,两者之间既有相同之处也有不同 之处。前者是判断说话人是否是指定的某人,只要使用一个特定的模板和待识别 的测试语音进行匹配,系统只需回答“是”或“不是”,是二中选一:后者是从已 知的群人中( 假设有n 个) 识别出其中的某人,需要使用n 个模板和测试语音 图l1 说话人识别分类 说话人辨认( s i ) 一 一 谁蜕的。 一 基于小波变换的说话人语音特征参数研究 进行匹配,系统需望凹答待识别的语音是n 个人中的哪一位,有时还要求对这n 个以外的测试语音作出正确的判断,是多中择一。显然,随着n 的增加,其性能 将急剧下降。如图1 1 所示。 根据发音内容,识别可以分为与文本有关( t e x t d e p e n d e n t ) 和与文本无关 ( t e x t - i n d e p e n d e n t ) 两种,前者常指定一些最能反映讲话者个人特征的专用词汇, 或者考虑使用要求限定文本内容作为语音识别内容,以提高识别率,例如:为了 拼删刺方1 s 机驾驶员,常用网答地面命令的口语作为文本。系统根据这些特定的 发音内容能够建立比较精确的训练模板,因而可以达到较好的识别效果,但是用 户要与系统紧密配合,如果用户发音与规定内容不一致,则会造成误识;对于后 者,系统彳i 限定用户的发音内容,用户的随意性很大,常采用段语音信号的某 些参数作为模板的参考参量,但是由于很难提取精确的训练模板,识别效果较差, 目前在实用上还有一定距离。 此外,根据待识别的说话人是否在注册的说话人集合内,说话人识别可以分 为丌集( o p e n s e t ) 识别和闭集( c l o s e s e t ) 识别,显然,由于开集的范围大于闭 集的范围,使得闭集识别的识别率要好于开集识别,但开集识别更符合实际情况。 1 2 说话人识别的基本原理 泌话人识别的基本原理( 或系统结构) 如图1 2 所示。图中,建立和应用说话 人识别系统分为两个阶段:训练( 或注册) 阶段和识别阶段。在训练阶段中,系 图12 说话人识别原理图 统的每个用户根据要求说出若干训练语句( 文本相关或者文本无关) ,系统由此为 饵个人建立模板或模型参量参考集。在i f 别阶段,由待识别人发出的语音导出参 第一章说话人识别的基本理论 5 量( 与训练中提取方法相同) ,并与训练阶段得到的模型或模板参考量集加以比较, 最后根据一定的相似性准则作出判断。对于说话人辨认来说,所提取的参量要与 训练过程中提取出的每个人的参考参量加以比较,并把与它距离最近的那个参考 参量所对应的的说话人辨认为最终的说话人。对于说话人确认而言,则是将输入 语音导出的参量与其声言为某人的那个确定模板的参考参量相比较,如果j ? 者的 距离小于规定的阈值,则予以确认,否则予以拒绝。 因此,对于说话人识别系统来说,面临的基本问题有如下,l 个: 1 ) 如何选取能够唯一表征人的有效而可靠的参量,如何对它进行处理。 2 ) 如何规定相似性的测度使相似性的计算既简单又可靠。 3 ) 考虑到人的状况在不断变化,为使系统能够可靠工作,如何使它的参考参 量不断更新以适应使用者。 在这三个问题中,第一个是说话人识别系统所特有的。其余二个在语音识别 系统中也会遇到。 一个说话人识别系统是否适用于一定的场合,是由许多因素决定的。其中主 要的有;系统的正确识别率( 或出错率) 、训练时间的长短、识别时间、对参考参量 存储量的要求、使用者使用的方便程度,以及价格等。如果训练时间长会造成用 户的厌烦情绪,而识别时间长在有些场合下是不能接受的;但这往往又与系统的 其它性能要求相矛盾,因此需要在设计中加以折衷。 1 3 说话人识别的性能评价 评价一个说话人识别系统的识别性能有多种指标,其中最重要的指标是识别结 果的正确性,而这个指标对于说话人辨认和说 话人确认系统又有所差别。对于前者,识别的 结果只有“正确”或“错误”之分,且正确识 别的概率和错误识别的概率之和为1 ,因此, 可以简单地用正确识别的概率( 常称为识别 率) 或者错误的识别概率( 常称为误识率) 作 为评价识别系统性能的指标。 对于说话人确认系统的评价则稍微复杂 一些。 沈话人确认有四种可能的组合,表l1 表示这四种组合所发生概率的定义。其 中p ( s ls ) 表示正确接受的概率,用t a 表示( t r u ea c c e p t a n c e ) ,称为正确接受率; p ( s in ) 表示错误接受的概率,用f a 表示( f a l s ea c c e p t a n c e ) ,称为错误接受率( 即是 捧潞曙攀 基于小波变换的说话人语音特征参数研究 将冒名顶替者作为真正的说话人加以接受) ;p f nls ) 表示错误拒绝的概率,用f r 表示( f a l s er e j e c t i o n ) ,称为错误拒绝率( 即是将真正的说话人当成冒名顶替者加以 拒绝) ;p ( n ln 1 表示正确拒绝的概率,用t r ( t r u er e j e c t i o n ) 表示,称为正确拒 绝率。这时因为存在如卜- 关系: f 尸s ) + j d ( = l 1 ,n ) + p ( l n ) = 1 因此,只采用p ( s s ) s f 口p ( s n ) ,就可以评价这个识别系统。当然,错误拒绝概率 p ( nis ) 和错误接受概率e ( sln ) 也可以作为评价确认系统的性能指标。 表1 1说话人确认的四种可能状态 状态 s ( 本人)r t ( 他人) 判s ( 接受)p ( s i s )p ( s ln ) 定 n ( 拒绝)p ( n f s )p ( n n ) 图1 3 3 】示出了判决门限与这两种错误概率的关系,显然,对于不同的判决门 限,有着不同的错误识别概率,通常希望两种错误概率都小,但由图中可知,这 两种概率指标是矛盾的,门限的选取不易使得两种错误概率都小,而常常是使一 个小了另一个就变大了( 如a 、b 点) ,因此判决门限常常选在使这两种错误概率 相等的位置( 如c 点) ,而这时系统的性能则完全由这两种错误概率中的任意一个 确定,称这两种错误概率相等时的其中每一个错误概率为等错误概率或等错概率, 所以等错概率也可以作为评价确认系统的性能指标。 说话人辨认系统和说话人确认系统 的不同之处还在于识别率与用户数的关 系,图14 口j 给出了一个例子,说明了两 种系统的误识率与用户数的关系。 从图中可以看出,说活人确认系统的 差错率基本不随用户数变化,因为它的 判别是选择与声明身份的模板匹配最相 近的人得来的,对它来说,能够容纳多 少用户,是由系统的存储能力决定的。 说话人辨认系统的误识率随着注册用户 图1 4 说话人辨认和确认系统的 误识率与用户数的关系 辨认 l 确认 数 数的增加而增加,因为它是通过把输入语音的参量特征与所存储的每个注册用户 的参考模板相比较,所以当用户数增多时,不仅处理时f i j 3 h 长,而且各个用户变 得难以区分,相当于在有限的概率空间中区分多个点,显然点数越多越难区分。 因此,在评价说话人辨认系统时,必须充分考虑说话人数目对误识率的影响。 第一章说证人识别的基本理论 对于说话人识别系统性能的评价识别率和等错概率是最重要的评价指标。 对于实际应用于工程中的说话人识别系统,不同的应用领域又提出了不同的要求, 一要表现存以下儿个方面: 1 ) 训练样本数和训练速度:在不影响识别性能的条件下,训练所需的样本数 应该尽可能少,训练速度尽可能快,训练时间尽可能短,这样就能方便系统对新 的说话人的注册工作,使系统很快适应对一个新用户的识别。 2 ) 识别响应速度:要求识别时的应答速度越快越好,这个要求在用说话人的 语音进行实时控制时尤其重要,如特定人对设备的控制命令。 3 ) 对既话方式的限制:说话人说话的方式,就说话速度讲,可能是快速、中 返、慢速等,就说话时的语态讲,可能是温柔、生气、疑问等,就语言讲,可能 是中文、英文等,中文又可能是普通话或方言等。系统应该能够适应用户的各种 说话方式,但这并不是一件容易的事情,此方面的研究也还在探索之l ; = i 。 4 ) 对环境的鲁棒性:有许多应用领域环境恶劣,所以要求系统具有良好的处 删噪声的能力,以适应环境的干扰。 5 ) 识别人数:某些应用领域的用户数量巨大,比如银行、电信业等,对系统 的识别人数能力要求较高。 1 4 说话人识别关键技术的发展 从本质上看,说话人识别方法和语音识别的过程是相同的,都需要经过系统 训练和系统测试阶段。尽管在训练阶段需要从语音信号中提出的特征会有某些差 别,但是所采用的对语音信号处理技术却是相同的。为了在测试阶段将测试语音 中提出的特征与参考特征相比较,都需要确定相似性的测度和判决准则,这里二 种识别方法也并无根本差别。可以看出,最主要的两个步骤就是特征参数的提取 和识别方法。下面就这两个方面的发展分别作以介绍。 1 4 ,1 特征参数 1 ) 特征参数提取的初期:研究重点从声学角度出发,对提取反映语音特征的 物理参数的研究。以d o d d i n g 提出的利用共振峰进行说话人确认的研究为代表。 1 9 7 2 年a t a l 用提取出的基频轮廓进行说话人识别。 2 ) 特征参数提取的成熟期:将数字信号处理技术应用到语音信号处理上,人 们提取出了间接反映语音特征的参数,如:l p c 谱系数、l s p 谱系数、部分相关 !茎! ! :丝兰垫塑塑堕堕墨塑笙至錾婴塾一 系数等【l :| 【2 【3 1 。 3 ) 特征参数提取的新时期:各种特征提取于段的不断完善和利用现代信号处 殚技术如时频分析、小波分析、神经网络等新技术提取新的特征参数。如利用发 音机理,p l u m p e m 等进行了基于声门特性的说话人特征提取1 7 u 1 ;m i c h a e l r d a v e n p 0 1 1 等利用神经网络和小波分析提取声学语音特征【2 i l ;考虑嗓声条件和 信道补偿的鲁棒性说话人语音特征提取,也是一个热点问题;刘鸣等提供了一种 基于离散小波变换和感知频域滤波的特征参数【6 】。 1 4 2 识别方法 1 仞期( 1 9 7 6 年以前) 1 ) 动态时间弯折( d t w ,d y n a m i c t i m ew a r p i n g ) :这是在匹配过程中使参考 样本与测试样本中的相应部分在时间上对齐的技术,借助于动态规划和选择恰当 的规整函数,可以使参考样本和测试样本得到最好的匹配,使识别率得到大幅度 的提高。 2 ) 隐马尔可夫模型( h m m ,h i d d e nm a r k o vm o d e l ) :与模式匹配法相比, h m m 是一种迎然不同的概念。在模式匹配法中,“参考样本”是由事先存储起来 的“模式”本身充任的,而h m m 则是把这一“参考样本”用个数字模型( 马 尔可夫链) 表示,待识别的语音与这一数学模型相比较。采用h m m 模型进行语 音识别,实质上是一种概率运算,这种模型更能适应语音发音的各种微妙的变化, 使用起来比模板匹配方法灵活的多1 3 “。除丁训练时运算量较大外,识别时的运算 量仅有模式匹配法的几分之一。 2 中期( 1 9 7 1 1 9 8 7 ) 矢量量化( v q ,v e c t o rq u a n t i z a t i o n ) :矢量量化技术是8 0 年代发展起来的信 源压缩编码技术。v q 具有很好的分类特性,能通过对长时语音特征参数统计信息 的量化来区分不同的说话人,同时还能有效的压缩数据,因而用它建立识别模型, 数掘量少,训练时间较短,识别相应较快,同时避开了较难处理的语音分段和时 间规整问题。 3 近期( 1 9 8 5 现在) 1 ) 人工神经网络模型:人工神经网络是为了模拟人脑思维和推理功能而形成 的一种全新的概念,是一种分布式并行处理结构的网络模型,具有自组织和自学 刿能力、很强的复杂边界区分能力以及对不完全信息的鲁棒性,其性能近似理想 的分类器。缺点是训练时间长,动态时间规整能力弱,网络规模随说话人数目增 奴j 时i 可能大到难以训练的程度。 2 ) 各种技术的不断完善和联合使用。比如在矢量量化技术方面,量化方法的 第章说活人识圳朐基本理论 9 鲁棒性和改进算法都有一定的进展;在神经网络方面,大人群的识别,级联神经 网络都是研究的热点。文献 3 9 1 结合使用人工神经网络和矢量量化进行识别;文献 f 1 7 1 伸1 用神经网络结合小波理论构造了一个说话人识别系统 3 ) 传统语音识别技术与其他相关技术的互相融合。如将嘴唇运动信息结合听 觉信息是解决噪声环境中说话人识别问题的一条新思路。 1 5 说话人识别的应用 晓话人识别也称为“声纹识别”,与其它生物识别技术,诸如指纹识别、掌形 识别、虹膜识别等相比较,具有不会遗失和忘记、不需记忆、使用方便等优点外, 还具有以f 特性: 1 ) 用户接受程度高,由于不涉及隐私问题,用户无任何心里障碍。 2 ) 利用语音进行身份识别可能是最自然和最经济的方法之。声音输入设备 造价低廉,甚至无费用( 如电话) ,而其它生物识别技术的输入设备往往造价昂贵。 3 ) 在基于电信网络的身份识别应用中,如电话银行、电话炒股、电子购物等, 与其它生物识别技术相比,说话人识别更为擅长、得天独厚。 在世界范围内,说话人识别技术正广泛应用于诸多领域。到2 0 0 0 年初,晓话 人识别产品的市场占有率为1 5 8 ,仅次于指纹识别和掌形识别。目前,我国市 场尚属启动阶段,其发展空间更为广阔,在金融、证券、社保、公安、军队及其 它民用安全认证等行业和部门有着广泛的需求: 1 ) 用于银行、证券系统 随着电话银行、远程炒股等业务的不断增加,这些业务对用户所作的身份认 证只是采用密码方式,其安全性令人担忧。如果采用说话人识别技术并结合密码, 可安全有效地实现用户身份地确认,对用户来说,并未增加什么负担。 2 ) 为网络安全出力 现在人们越来越多地依赖于口令和密码,而随着不同场合的频繁应用其缺陷却 越发明显在声纹识别过程中,如果每次发音都出随机产生的提示文本来控制,可有 效地防止复制和剽窃,为f 1 益发展的电子购物、电子商务、国际贸易保驾护航。 3 ) 为破案立功 对于各种电话勒索、绑架、电话人身攻击等案件,声纹识别技术可以在一段 录音中查找出嫌疑人,帮助对嫌疑人的查证。在美国,有关机构还利用这一技术 来判断监外执行人员是否在其寓所中。 4 ) 在军队安全系统中的应用 声纹识别技术可以辨认出电话交谈过程中是否有关键说话人出现,继而对交 基丁小波变换的说话人语音特征参数研究 谈的内容进行处理。另外,在通过电话发出军事指令时,可以对发出命令的人的 身份进行确认。 16 说话人识别技术的难点问题 正如前面所介绍的,虽然说话人识别技术目前已取得了很多的成就,但仍然 存在讷:多叫题有待寻找更好的解决途径。最主要的原因在于从说话人自由说出的 语音信号中很难提取合适的特征。问题归结如下: 1 ) 尚未找到简单可靠的说话人语音特征参数。语音信号中既包含了讲话内容 的语义信息,又包含了说话人的个性信息,而个性信息中既有先天因素,也有后 灭因素,但是实际上很难将说话人个性特征与语义特征分离开来,究竟哪种或哪 些特征参数可以完全表征说话人的个性特点呢? 到目前为止,还没有找出这样可 靠的浣话人识别特征参数。 2 ) 如何处理声音的变化? 说话人的语音特征不是静态不变的,具有动态时变 性,并常常与说话人所处的环境、情绪、健康状况有密切关系,也会随着时间的 推移和年龄的变化而变化。语音信号的变异性从本质上是说话人的特征空间发生 转移,从而会导致产生误识。 3 ) 特征空问有限。对于由某个或某些特征参数构成的有限特征空间,包含n 个人的识别系统要将其划分为n 个子空间,当n 很大时,特征子空间就有可能产 生交集,从而降低系统的f 确识别率。 第,章说话人识别中的特征参数 第二章说话人识别中的特征参数 21 语音信号的数字模型 人类的发声是由于肺部的收缩,压迫气流由支气管经过声门和声道引起音频 振荡而产生的。其中声道起始于声| 、j 处而终止于嘴唇,包括咽喉f 连接食道和口) 、 口腔,鼻道则是从小舌开始到鼻孔为止。当小舌下垂时,鼻道与声道发生耦合而 产生语音中的鼻音。 发音过程中声道各处的截面积取决于舌、唇、颌以及小舌的位置。声道截面 积是随纵向位置而变的函数,称为声道截面积函数,声道的共振峰特性主要取决 于声道截面积函数,它决定所发声音的频谱特性,即音色。人类发音过程有三类 不同的激励方式,因而能产生三种不同的声音,即浊音、清音和爆破音。当气流 通过声门时声带的张力刚好使声带发生较低频率的张弛震荡,形成准周期的空气 脉冲,这些空气脉冲激励声道变小产生浊音;如果声道中某处而积很小,气流高 速冲过此处时产生湍流,当气流速度与横截面积之比大于某个门限时便产生摩擦 音,即清音。如果声道某处完全闭合建立起气压,然后突然释放而产生的声音就 是爆破音。 利用数字技术来模拟语音信号的产生称为语音信号的数字模型,或者说利用数 字信号处理技术来实现发音器官的模拟。发音器官能发出一系列声波,那么数字 模型就能产生与此声波相对应的信号序列,这种模型是一种线性系统,它的一一组 参数选定之后就可以使得系统的输出具有所希望的语音性质,系统的这些参数是 和语音产生过程有关的,为了表示采样的语音信号,我们采用的是离散时间模型。 当发音时,激励和声道形状都是随时间而改变的,但语音信号随时间的改变 是非常缓慢的。对大多数语音信号来说,通常认为激励与声道的面积函数在1 0 3 0 i l l s 的时间范围内是近似不变的。在发浊音时,激励为准周期脉冲。在发清音时, 激励为随机噪声。因而可以设想,语音的数字模型是一个缓慢时变的线性系统, 这个线性系统的参数在1 0 3 0 m s 时间范围内是近似不变的。目前语音处理的许多 场合都是基于上述短时平稳的假定的i 】7 1 2 1 扪。 综合考虑声门激励、声道和嘴唇辐射影响就可以得到图2 i 所示的语音信号发 生的离散系统模型。这就是说,语音信号可以看作是激励信号【辔例激励一个线性 系统研矽而产生的输出,其中h ( z j 是声道响应啊纠与嘴唇辐射模型r 俐相级联而成, 即 基丁小波变换的说瞒人语音特征参数研究 h ( z ) = z ( z ) 十r ( z ) 列于浊音来说,我们还可以把声门脉冲的影响也归并到传递函数中,即 h ( z ) = g ( z ) + 矿( z ) * r ( z ) 这j ,浊音信弓就1 _ | _ 以看作是个准周期性的脉冲串激励一个离散线性系统日倒 而产生的输出。 基音周期 图21 语音信号产生的数字模型 2 2 常用特征参数 在语音信号中,包含着非常丰富的特征参数,不同的特征向量表征着不同的 物理和j i 学意义。选择什么特征参数对说话人识别系统的成败意义重大。如果选 择了一个不适合的参数,即此参数不能很好地表征说话人的个性特征,则此系统 毫无疑问将是失败的:如果选择了好的特征参数,将有助于提高系统的识别率。 特征选取往往都要舍去语义信息而保留个人特征信息。声音中所包含的个人特征 信息有两种,一种是声道长度、声带等先天性发音器官的个人差别所产生的;另 一种是由方言、语调等后天性讲话习惯产生的。 一般用来在说话人识别系统中作为个性语音参数的有:语音帧能量、语音音 调、共振峰频率及其带宽、b p f g 特征、线性预测系数及其派生系数、倒谱系数、 k l ( k a r h u n a n l o e v e ) 特征等等 2 4 1 2 7 1 1 2 ”。另外,过渡特征能较好地表征说话人个 人的发音习惯,如音调轮廓特征、倒谱过渡特征等。 为了提高系统的识别率,部分原因也许是由于究竟哪些参数是关键因素把握 不充分,干“j 多的系统采用了混合参数构成的矢量。如果组成矢量的各参数之间 相关性不大,则会更有效一些,因为它们分别反映了语音信号的不同特征。如文 第二章说话人识别中的特征参数 献2 1 采用了频率参数f 和线性预测系数l p c 的组合作为特征参数;文献l 构造了 一种m c 系数,它是由平均对数能量、平均基音频率、自相关系数、p a r c o r 系 数和l p c c 系数组成的;文献【”采用1 2 阶l p c c 、短时语音帧能量和基音周期, 组成1 4 维的特征矢量进行识别;文献0 】选用了基于声道模型的动、静态倒谱参数 和基于声带激励源特点的基音参数进行优化组合构成的特征参数;文献哺构造了一 种基于听觉感知线性预测的r a s t a p l p 特征。 还有一些经过改进某些步骤或结合其它技术方法得到的参数。文献f i 2j 采用了 先以短时傅立叶变换为基础获得说话人的长时平均频谱( 即短时频谱的长利平 均) ,再将其经过能量归一化和频率归一化后作为说话人的特征参数;文献4 1 1 提出 了种基于主分量分析和f i s h e r 准则的新m d 频域特征参数;文献【6 】提出了一种基 于离散4 、波变换和感知频域滤波的语音特征参数d w t - m f c ;文献1 挖】给出了一种 利用小波变化提取的基音周期;文献| _ 1 3 】叫采用小波变化提取倒谱参数:文献| :3 4 1 构造了优化的基于昕觉的特征。 2 3 1 人耳的构造 2 3 语音感知的认识 人耳由外耳、中耳和内耳构成, 血的一个小小的骨腔,里面有锤骨、 耳一 外耳包括耳廓、耳道和鼓膜,中耳是鼓膜后 砧骨和镫骨等三块小骨,由它们共同作用使 幽2 2 人耳的绷剖面图2 _ 3 耳蜗的横剖面 内耳与鼓膜建立机械链,参见图22 【1 】。内耳深埋在头骨中,由半规管、前庭窗和 耳蜗三部分组成。声波引起外耳腔空气振动,由鼓膜经三块小骨传到内耳的前庭 窗。由于鼓膜的面积比前庭窗大2 5 倍左右,因此传到内耳的振动强度可放大2 5 ! !苎王尘鎏壅垫塑塑至堕童堑笙垒垫型塑 倍。耳蜗是一条盘起来的像蜗牛形状的管子,里面充满淋巴液。耳蜗中间和外面 包着前庭膜和基底膜,参见图2 3 。基底膜上附有数以万计的纤毛细胞,纤毛细胞 把接收到的机械振动转化为神经冲动,由听神经传到大脑。基底膜具有与频谱分 析器十料似的作用。 2 3 2 听觉感受性 人耳能感受的频率范围约为2 0 2 0 0 0 0 h z ,此外,人耳对频率的分辨能力是非 均匀的,在1 0 0 5 0 0 h z 范围中,可分辨的两个纯音的频率之差为甸吨1 8 h z ,而在 5 0 0 1 6 0 0 0 h z 范围中,相对频率分辨率几乎恒定,即彳厂f , - 一3 5 ,因此, 2 0 2 0 0 0 0 h z 的频率范围总共约有6 2 0 个频率间隔。当然,人耳对于频率的分辨能 力是受声强的影响的,对于过强或者太弱的声音的频率分辨能力都会降低。 人耳刘时间的分辨可以短至2 m s ,这是用两个紧连着的高低不同的音进行测 听,看能否说出是两个音而测得的结果。 人类听觉器官对声波的音高、音强、声波的动态频谱具有分析感知能力。音 色、音高、响度和时长是人类能够感受到的语音的四大要素,人们对这种感受特 肚已经订了比较深入的认识,提出了各种各样的听觉模型,并应用于浯音识别与 语音编码中,获得了一定的效果。但是大脑是如何存储语言信息的,对语音的相 似度是如何进行估算的,如何利用区别特征进行模式分类,如何识别语音、理解 语意,目前的认识还比较肤浅。因此,目前的语音识别系统的稳健性还无法与人 类听觉系统相比拟。 2 33 掩蔽效应与频率群 1 ) 掩蔽效应 掩蔽效应是使一个声音a 能感知的阈值因另个声音b 的出现而提高的现象, 这时b 叫掩蔽声,a 叫被掩蔽声。被掩敲音刚能听到对的掩蔽音的强度穆为掩蔽 闽限。研究掩蔽效应,有助于我们对音色、响度和音高的理解和估计。在语音编 码中,利用掩蔽效应改善输出语音质量己经取得了很大的效益。掩蔽现象有同时 性掩蔽和非同时性掩蔽,非同时性掩蔽在研究音联现象时很重要,这里我们主要 讲同时性掩蔽。 2 ) 临界带宽 用一个中心频率为,带宽为矽的白噪声来掩蔽一频率为厂的纯音,先将这 个白噪声的强度调节到使被掩蔽纯音恰好听不见为止。然后将巧由大到小逐渐减 小,而保持单位频率的噪声强度( 即噪声谱密度) 不变,起初这个纯音一直是听不见 笙三童塑堡塑型! 堕堑堑萱鍪堡 的,但当卅“小到某个临界值时,这个纯音就突然可以听见了。如果再进一步减小 ,被掩蔽音,会越来越清晰。这里刚刚开始能听到被掩蔽声时的巧宽的频带, l 【l 故频率厂处的临界带。当掩蔽噪声的带宽窄于临界带的带宽时,能掩蔽住纯啬厂 的强度是随噪声的带宽的增加而增加的,但当掩蔽噪声的带宽达到临界带后,继 续增加噪声带宽就不再引起掩蔽量的提高了。临界带宽是随其中心频率而变的, 被掩蔽纯音的频率( 即l 临界带的中心频率) 越高,临界带宽也越宽。不过二者的变化 关系不是一种线性关系。 3 ) 频率群 掩蔽效应具有临界带的现象可以从听觉生理上找到依据。人耳基底膜具有与 频谱分析器相似的作用。在2 0 l6 0 0 0 h z 范围内的频率可分成2 4 个频率群,表2 1 就是这样的频率群表。频率群的划分相应于基底膜分成许多很小的部分,每一部 分对应一个频率群。掩蔽效应就在这些部分内发生,对应于同一基底膜部分的那 些频率的声音,在大脑中似乎是叠加在起进行评价的,如果它们同时发声,可 以互相掩蔽。因此,频率群与临界带之间存在密切的联系。 表2l撷率群表 频率群序号 中心频率( h z )临界带宽( h z )下限频率( h z )上限频率( h z ) 1 5 08 02 01 0 0 2 1 5 01 0 01 0 02 0 0 3 2 5 01 0 02 0 03 0 0 43 5 0 1 0 03 0 04 0 0 54 5 01 1 04 0 05 1 0 6

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论