(通信与信息系统专业论文)基于gmm的说话人识别算法的研究.pdf_第1页
(通信与信息系统专业论文)基于gmm的说话人识别算法的研究.pdf_第2页
(通信与信息系统专业论文)基于gmm的说话人识别算法的研究.pdf_第3页
(通信与信息系统专业论文)基于gmm的说话人识别算法的研究.pdf_第4页
(通信与信息系统专业论文)基于gmm的说话人识别算法的研究.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中南大学硕士论文 摘要 摘要 从语音信号中有效地提取个人特征信息进行说话人身份的辨认 和确认,是语音识别研究领域的一个重要研究方向。从人机交互、身 份验证、信息检索等各个应用方向而言,说话人识别都具有广泛的应 用前景,其研究具有越来越重要的理论意义和实用价值。 论文首先讨论了g m m 模型作为说话人模型的优越之处及物理 意义。重点分析了模型的训练算法一e m 算法,并针对判别时帧似然 概率的得分容易受到噪声干扰等缺点,对帧似然概率进行加权,加权 后的说话人辨认系统受噪声影响较小,识别率有所提高。 论文针对g m m 的说话人确认系统,在背景模型和阈值设置两个 方面进行深入的讨论,并针对基于g m m 模型的说话人确认系统缺乏 目标说话人和非目标说话人之间区分性信息的描述,提出了一种基于 模板相似性度量的判决方法。新的确认系统在充分利用g m m 统计特 性的同时,能够更好描述目标说话人与非目标说话人之间的区分性信 息,提高了识别性能。 论文对基于网络环境下的说话人辨认系统进行了研究,采用拉格 朗日插值法对丢包进行补偿时,能获得较高的识别率。当丢包过多时, 造成了语音数据不充分,引起说话人辨认系统性能下降。针对这种情 况提出了基于g m m d m 的说话人辨认算法。改进后的说话人辨认系 统在d , i ) i l 练样本与测试数据不够充分的情况,识别率得到了提高。 最后论文介绍在m a t l a b 环境下,用图形用户界面设计的一个简 单实用的基于g m m 的与文本无关的说话人识别系统。并给出了部分 源程序代码。 关键词g m m 模型,说话人辨认,说话人确认,背景集模型,帧似 然概率得分 中南大学硕士论文 a b s t r a c t a b s t r a c t i t so n eo ft h ei m p o r t a n tr e s e a r c hf i e l d so fs p e e c hr e c o g n i t i o nt h a t u s i n gi n f o r m a t i o ne x t r a c t e df r o m t h es p e e c hs i g n a lt op e r f o r ms p e a k e r i d e n t i f i c a t i o no rv e r i f i c a t i o n i th a sw i d ea p p l i c a t i o np r o s p e c t si nu s e r i n t e r f a c e ,i d e n t i t ya u t h e n t i c a t i o n ,i n f o r m a t i o n r e t r i e v a la n de t c t h e r e s e a r c ho fs p e a k e rr e c o g n i t i o nh a sb e e nc a r r i e do u ta l lo v e rt h ew o r l d b e c a u s eo fi t sp r o m i s i n gr o l ei nt h ei n f o r m a t i o ns o c i e t y f i r s t l y , t h es u p e r i o r i t ya n dp h y s i c a lm e a n i n go fg m mm o d e li s i n t r o d u c e d a f t e re m p h a s i z i n gt h e t r a i n i n ga r i t h m e t i c - e ma r i t h m e t i c ,a n e ww a yi sp r e s e n t e df o rw e i g h i n gt h ef r a m el e v e ls c o r et or e d u c et h e n o i s ei n t e r f e r e n c e t h er e s u l t ss h o wt h a tt h en e wi d e n t i f i c a t i o ns y s t e m h a sh i g h e rp e r f o r m a n c et h a nc l a s s i cs y s t e m s e c o n d l y , b a c k g r o u n dm o d e la n dt h r e s h o l ds e t t i n g o fs p e a k e r v e r i f i c a t i o ns y s t e mb a s e do ng m ma r ed i s c u s s e d f o rs h o r to fd e s c r i p t i o n o fd i s t i n g u i s hf r o md i f f e r e n tp e o p l ei ng m m m o d e l ,an e wm e t h o df o r v e r i f i c a t i o ns y s t e mb a s e do nt e m p l a t es i m i l a r i t i e si sp u tf o r w a r d t h en e w v e r i f i c a t i o n s y s t e m c a nb o t hd e s c r i b e d i s t i n g u i s h b e t w e e n d i f f e r e n t s p e a k e rb e t t e r a n dm a k et h eb e s to ft h eg m mm o d e l ss t a t i s t i c a l c h a r a c t e r i s t i ct oi m p r o v ep e r f o r m a n c e t h i r d l y , i nt h es p e a k e ri d e n t i f i c a t i o ns y s t e ma p p l i e do ni n t e m e t , t h e s y s t e mc a ng e tb e t t e rr e c o g n i t i o nr a t ew i t hl a g r a n g i a nc o m p e n s a t e d m e t h o df o rl o s i n gp a c k a g e s f o rl o s i n gt o om a n yp a c k a g e s ,t h ed a t af o r t r a i n i n gm o d e li si n a d e q u a t ea n d t h ei d e n t i f i c a t i o ns y s t e m 、h a v eb a d c a p a b i l i t y , s oan e wm e t h o d - - g m m d mm e t h o di sb r i n gf o r w a r d t h e n e wm e t h o dc a ng e th i g h e rr e c o g n i t i o nr a t ei ni n t e m e ts p e a kr e c o g n i t i o n s y s t e mw h e nt h ev o i c ed a t ai s n te n o u g h f i n a l l y , ar e l i a b l ea n dc o n v e n i e n ts p e a k e rr e c o g n i t i o ns y s t e mb a s e d o ng m mb ym a k i n gu s eo ft h em a t l a bs o f ti sp r o p s o s e d ,a n ds o m e p r i m a r yc o d e i sg i v e n k e yw o r d sg a u s s i a nm i x t u r em o d e l ,s p e a k e rv e r i f i c a t i o n ,s p e a k e r i d e n t i c i f a t i o n ,b a c k g r o u n dm o d e l ,f r a m el e v e ls c o r e 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢 的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不 包含为获得中南大学或其他单位的学位或证书而使用过的材料。与我 共同工作的同志对本研究所作的贡献均已在论文中作了明确的说明。 作者签名: ! 塑亟 日期:出年互月盟日 关于学位论文使用授权说明 本人了解中南大学有关保留、使用学位论文的规定,即:学校 有权保留学位论文,允许学位论文被查阅和借阅;学校可以公布学位 论文的全部或部分内容,可以采用复印、缩印或其它手段保存学位论 文;学校可根据国家或湖南省有关部门规定送交学位论文。 作者签名:导师签名盔垒日期:赳年卫,凰型日 中南大学硕士论文 第一章绪论 1 1 说话人识别概述 1 1 1 说话人识别定义 第一章绪论 说话人识别是指从说话人发出的语音信号中自动提取说话人信息,并对说话 人进行识别的研究领域。它是一类特殊的语音识别,其目的不是识别说话人讲的 内容,而是识别说话人是谁。很多语音中使用的特征或建模方法也可以应用到说 话人识别中。但是由于两者识别的目的不同,在处理策略上存在着实质性的差异。 在语音识别中,特别是对非特定人语音识别,为了提取语音信号中所包含的语义 信息,应尽可能地将不同人说话的差异归一化;而说话人识别技术则恰恰相反, 力求通过将语音信号中的语义信息平均化,挖掘出包含在语音信号中的说话人的 个性因素,强调不同人之间的特征差异。 从信源角度看,说话人生理上的发音器官、说话时的心理和情感等、都对说 话人说话时的语言及其发音产生影响,因此这一领域涉及声学、心理学、生理学、 语言学等学科;从信号表述、自动信息提取和说话人识别的角度,它涉及到数字 信号处理、模式识别和大规模集成电路实现等学科和研究领域。因此,说话人识 别是跨学科的综合性应用研究领域【1 1 。 1 1 2 说话人识别的分类 说话人识别技术按其识别任务可以分为两类:说话人辨认( s p e a k e r i d e n t i f i c a t i o n ) 和说话人确认( s p e a k e rv e r i f i c a t i o n ) 2 1 。如图卜1 所示。前 者用以判断某段语音是若干人中的哪一个人所说,是“多选一”的问题;而后者 用以确定某段语音是否是指定的某个说话人所说,是“一对一”的判别问题。其 中,说话人辨认又可分为“闭集”和“开集”两种1 3 】。开集假定待识说话人可以 在集合外,而闭集假定待识说话人一定在集合内。如果话者集中注册的说话人的 个数为n ,则在识别时,说话人辨认需要进行n 次比较和判决,即测试语音与 话者集中的每个说话人的参考模型间都要进行一次匹配计算。如果是开集的情 况,还要对这n 个人以外的语音作出拒绝的判别。因此,说话人辨认系统的识 别率一般会随话者集人数的增加而降低。 评价说话人识别系统性能的指标有很多,例如系统的识别率、训练时间的长 中南大学硕士论文第一章绪论 短和训练语料的数量、识别响应时间、话者集规模、说话方式要求以及价格等。 在上述这些指标中最重要的是识别率,识别结果的正确性必须最先得到保 证,这也是设定其他性能指标的出发点。在说话人辨认系统和说话人确认系统中, 表征这一指标的参量又有所不同。说话人辨认系统常用的是正确识别的概率( 常 称为识别率) 以及错误识别的概率( 常称为错误率或误识率) 。对说话人确认系 统,则常用两个错误率来表示:错误拒识率( f a l s er e j e c t i o nr a t e ,e r r ) 和错误接受 率( f a l s ea c c e p t a n c er a t e ,e r a ) 【4 】o 说话人识别技术根据识别对象的不同还可以分为两类【5 】:与文本有关 ( t e x t - d e p e n d e n t ) 和与文本无关( t e x t i n d e p e n d e n t ) 的说话人识别。与文本有关的说话 人识别技术,要求说话人提供发音的关键词或关键句子作为训练文本,而识别时 也必须按相同的内容发音。与文本无关的说话人识别技术,不论是在训练时还是 在识别时都不规定说话内容,即其识别对象是自由的语音信号。两者相比较而言, 与文本无关的说话人识别的实现要困难得多,由于其使用环境无法控制,因而必 须在自由的语音信号中找到能够表征说话人信息的特征和方法,建立其说话人模 型的困难就比较大。当然与文本无关的说话人识别具有用户使用方便,可应用范 围较宽等优点。例如在法庭鉴别、安全监控等领域,由于使用者的不配合,事先 无法规定语音文本内容,只能采用与文本无关的识别方法。 ( a ) 辨认 是 a i 的 讲 话 ? 话者集合 ( b ) 确认 图卜1 说话人辨认和说话人确认 1 1 3 说话人识别的应用及发展例程 说话人识别作为计算机的一种智能接口有着广泛的实际应用1 6 1 ,例如: l _ 远程说话人核对。作为说话人确认系统,在电话服务中以用户的声音实 现汇款、转帐股票买卖等经济活动的身份核对。 2 作为保密措施的说话人确认。作为说话人确认系统,用特定人的声音实 现机密保管场所的出入人员检查。 中南大学硕士论文第一章绪论 3 搜索罪犯。作为说话人辨认系统判断犯罪现场记录的声音究竟是多个嫌 疑犯中的哪一个的声音,帮助司法人员捉拿罪犯。 4 军事领域的应用。作为说话人辨认系统用于场所的侦听,以辨认对方指 挥人员。 对说话人识别的研究始于6 0 年代,近4 0 年来,这一研究领域取得了重大进 展,商用系统已在若干领域得到了应用。与当时的语义识别中的技术手段相同, 当时主要是基于频谱和模板匹配的方法。进入7 0 年代,动态时间规正( d y n a m i c t u n ew a r p ,d t w ) 和矢量量化( v e c t o rq u a n t i f i c a t i o n ,v q ) 技术【_ 1 被用于说话人识 别,使得说话人识别的性能得到了较大的提高;8 0 年代人工神经网络( a r t i f i c i a l n e u r a ln e t w o r k ,a n n ) 和隐马尔可夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 怫】在语音 识别领域得到了成功和广泛的应用,成为说话人识别的核心技术。进入9 0 年代, 特别是r e y n o l d s 对高斯混合模型( g a u s s i a nm i x t u r em o d e l ,g m m ) 做了详尽的 介绍后,g m m 以其简单灵活有效以及具有较好的鲁棒性,迅速成为目前与文本 无关的说话人识别中的主流技术。将说话人识别带入一个新的领域。1 9 9 5 年来, 各种新的说话人识别技术层出不穷,如g m m - - u b m 结构、大规模的连续语音 识别应用于说话人识别、支撑向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 1 9 】,语音 高层信息的探讨,以及针对通道适配问题的s m s 技术等。从上个世纪6 0 年代以 来,说话人识别所处理的语音已经从小规模语料库( 包含较少说话人) 、干净语 音和受限文本发展到今天的大规模语料库( 包含很多说话人) 、任意内容的文本 以及各种真实环境下的语音。经过4 0 多年的研究,说话人识别研究的重点也从 实验室系统转移到实用系统。从上个世纪8 0 年代以来,已经有很多商用的说话 人识别系统产品问世。如美国的h o m es h o p p i n gn e t w o r k ,同时采用与文本有关 的说话人确认和语音识别来进行基于电话语音的订货。另外,苹果公司在1 9 9 9 年1 0 月份在m a co s9 中加入了v o i c 印f i m p a s s w o r d 功能【l ,利用语音进行个人 计算机的使用控制;另外a t & t 等公司都在开发新一代的v o i c e m a l l 的集成管理 系统( 如a t & t 的s c a n m a i l ) 【l l 】,利用连续语音识别和说话人识别技术将音频 形式的语音邮件转换为文本,并自动识别发送人的名字,便于收信人浏览。 1 2 说话人识别使用的方法 1 2 1 说话人识别过程 说话人识别的基本原理如图卜2 所示,主要包括两个阶段,即训练阶段和识 别阶段。训练阶段,根据话者集中的每个说话人的训练语料,经特征提取后,建 立各说话人的模板或模型。识别阶段,由待识人说的语音同样经特征提取后,与 中南大学硕士论文第一章绪论 系统训练时产生的模板或模型进行比较。在说话人辨认中,取与测试语音相似度 最大的模型所对应的说话人作为识别结果;在说话人确认中,则通过判断测试 音与所声称说话人的模型之间的相似度是否大于一定的判决门限,作出确认与否 测试结果 图1 - 2 说话人识别系统图 的判断。由此可见,说话人辨认和说话人确认仅在判决策略上有所不同。 由图卜2 可见,说话人识别系统的实现可以分解成如下几个基本问题: 1 语音信号的预处理和特征提取,即提取能够有效表征说话人特征的参数; 2 说话人模型的建立和模型参数的训练: 3 测试语音与说话人模型的匹配计算; 4 识别与判决策略,即根据匹配计算的结果,采用某种判决准则判定说话 人是否是所声称的说话人( 说话人确认) 或说话人到底是谁( 说话人辨认) 。 1 2 2 说话人识别中常用的方法 1 模板匹配法 即在训练过程中从每个说话人发出的训练语句中提取出能充分描述各说话 人特性的特征矢量,形成特征矢量序列,并依据某种方法对其进行优化,求取一 个特征矢量的集合有效地代表特征矢量序列,并将此集合作为参考模板。识别时, 对待识别语音用同样的处理方法提取特征矢量序列,并且按一定匹配规则与所有 的参考模板进行比较。匹配往往通过特征矢量间的距离测度来实现,以累计距离 为匹配结果。在说话人识别中最常用的模板匹配方法有动态时间归正( d t w ) 和矢量量化( v q ) 方法等。 2 模型概率法 即训练过程中,在从某人的一次或多次发音中提取出有效的特征矢量的基础 上,为其建立相应的模型,最后依靠得到的模型进行匹配,从而达到识别的目的。 其中最常用的模型是隐马尔可夫模型( h m m ) ,它能很好的描述语音信号的平稳 性和可变性,并能准确地描述人的声道变化特性。 3 人工神经网络法 4 中南大学硕士论文第一章绪论 人工神经网络以类比于生物神经系统处理信息的方式,用大量简单的处理单 元并行连接而构成一种独具特点的信息处理系统。这种系统具有自组织、自学习 的能力。它可以随着经验的积累而改善自身的性能。正是利用这一点人们能通过 对它的训练,更好地提取语音样本中所包含的关于说话人的特征。 1 3 说话人识别所面临的主要问题 近年来,说话人识别的研究重点已从实验性系统转入到实用化系统,系统的 规模( 说话人数目) 也越来越大,使用语音不仅限于采自麦克风,电话、手机等 的应用越来越多,因而实用背景下的说话人确认研究是实现实用化系统的关键, 有许多亟待解决的问题。例如:究竟用语音信号的哪些特征来描述说话人才是有 效和可靠的;采用什么模型来刻画说话人语音特征的分布最为合适,从而获得尽 可能正确地分类的效果;如何提高一个自动说话人识别系统对环境噪声及信道的 鲁棒性等等。这些问题归结起来,主要有以下几点: 1 说话人特征的提取 语音波形信号难以处置,特征提取的任务就是把冗余度高,难处理,特征不 明显的原始语音波形转换为冗余度低,易于后端处理,并且带有尽可能多的分类 特征信息的特征参数。理想情况下,语音特征参数应具有不易模仿,易于提取, 能够有效区分不同人,并在同一人的发音中保持稳定等特点。 尽管实际上这样的理想特征参数是不存在的,但从上世纪5 0 年代人们开始 对自动语音识别进行研究以来,人们一直在向这个目标努力迈进,目前已经达到 了相当高的识别率。目前常用的特征参数仍有很多缺点。首先,语音信号是多种 因素综合作用的结果,它主要由语义内容决定,同时也受说话人个人特征影响, 而目前的特征参数通常既可以用来做语义识别,也可以用作说话人识别。人的语 音特征信息是丰富多样的,机器识别中的参数大多为基于声道特征的短时谱参 数,如m f c c 、l p c c 等,而语音信号中所包含的其他一些能表征说话人个人特 征的特征信息,尤其是高层信息,如口音、话题、说话风格( 惯用语和常用句式) 等,这些特征信息对人们日常生活中识别说话人很有帮助,但在机器识别中,由 于比较难以提取和表示,故尚未得到广泛的应用。目前已有文献对语音中能够代 表说话人特征的声道特征以外的信息如l p c 残差【1 2 1 、基因频率【1 3 1 、韵律【1 4 】、习 惯用语等进行了初步研究【1 5 】。因此,提取声道外的描述说话人个性发音特征的 超音段信息作为声道特征参数的补充,对于提高说话人确认系统的性能是十分重 要的。 2 说话人特征的建模 说话人特征的建模是对说话人特征参数进一步抽象的过程。说话人模型用来 中南大学硕士论文第一章绪论 描述特定说话人的特征,并在将来同未知语音进行匹配,得到该语音同该说话人 的相似程度,供后续步骤进行判决。在说话人识别研究的早期,人们直接用说话 人的一条或者几条语音的特征矢量作为说话人的特征,并利用动态规划的方法同 未知语音匹配。随着信息技术的发展,利用v q 、a n n 和s v m 等方法为说话 人建模,获得了很好的效果。但目前最方便、高效而且性能最好的说话人模型当 属概率统计模型h m m ( 与文本有关) 和g m m ( 与文本无关) 。 随之而来的一个问题是:h m m 或g m m 是不是描述说话人特征的最优的模 型? 实际上,人们也逐渐发现了统计模型用来描述语音的一些缺点。比如h m m 虽然能够较好地描述语音的动态本质,但语音是连续变换的,而h m m 在时间上 用来进行描述的却只是一些孤立的状态。g m m 虽然在与文本无关的说话人识别 里获得了当今最高水平的性能,但由于g m m 更关注模型观察数据的内在分布, 而不关心不同类别之间的区分信息,因而常规的g m m 用来解决分类问题时缺乏 区分能力。另外,g m m 的参数五一般是通过e m 算法使p ( o la ) 达到最大得到 的,其中0 为训练语音,但其训练准则并不能保证与系统的分类代价或评估标准 一致,从而不能达到性能的最优化。针对这种情况,已经有人在统计模型的改进 方面做了很多工作,并提出了一些改进的系统和算法 1 6 , 1 7 1 。 3 环境及通道鲁棒性 噪声鲁棒性是当今语音识别领域里所面临的一个非常重要的课题。由于语音 信号本身性质所致,在传输的过程中会不可避免地受到噪声的干扰。语音信号中 的噪声一般分两种,一种是加性噪声,例如说话时的背景噪声,还有一种是卷积 噪声,也就是由于传输信道的非理想性所造成的信号失真。无论哪种噪声,都会 影响到语音信号的性质,进而会对识别造成负面效应。特别是如果在训练和识别 阶段的噪声性质也在一定程度上不相同,则会带来严重的信道失配问题,系统的 性能将严重下降。 有关说话人识别中的鲁棒性和信道不匹配问题依然是对信号处理的挑战。例 如,虽然在电话通信中的不匹配条件下,信号处理技术获得了对性能的很大改善, 但是在i n t e m e t 电话兴起以后,训练和测试中出现了不同的甚至更困难的不匹配 问题,针对这种环境条件的新方法确实显得非常必要。这样的解决办法可能依赖 于深入了解人类在不利条件下胜过机器的能力所在【18 1 ,因此,需要提出新的非 线性听觉模型【1 9 捌,以及符合语音产生机制中非线性特性的模型【2 1 l 。 4 有限的训练及测试样本 由于说话人的个人性信息的周期比较长,要充分地反映说话人特征需要比较 充分的语音,如十几秒甚至几十秒的长度。人类的经验和有关文献均表明【2 “, 测试时的确认文本越长,确认准确率就越高。但是,说话人确认作为人机交互的 !j 中南大学硕士论文第一章绪论 一种手段,在使用者配合的场合,必须要考虑使用者的耐心程度。对于基于概率 统计模型的说话人确认,说话人模型的训练对训练样本数据有较大的依赖性。因 而如何降低这种依赖性,更加有效的利用有限地数据,提取准确的模型参数从而 适应不同声学环境的变换便成为说话人确认研究中的另一个目标。 5 确认阈值及确认策略 确认阈值是说话人确认研究中的一个特有的问题,它直接关系到未知语音能 否被正确确认,因而确认阈值的设置是非常重要的。通常确认阈值是在训练阶段 确定的,因此训练数据的充分性和代表性会影响到确认阈值的性能。确认阈值的 设置通常涉及到两部分训练数据,即目标说话人数据( t a r g e ts p e a k e r ) 和冒认者也 称为背景说话人( b a c k g r o u n ds p e a k e r ) 数据。一般情况下用户提供的训练样本不会 太多,因而确认阈值比较难以确定。一个解决办法是使所有用户共享一个公用闽 值,这样可以充分利用所有人的训练样本,但这样做的问题又很明显,因为实际 上不同目标说话人的理想确认阈值是有所差别的。因此,通过适当调整确认策略, 可以从一定程度上降低系统对确认阈值的依赖性。 虽然对于以上这些问题的研究近几十年来已经获得了相当大的进展,但由于 人们对语音信号本质的了解和对人的听觉感知机理理解的局限性,这些问题仍然 是阻碍一个自动说话人识别系统实用化的主要原因,值得全世界的语音研究者不 懈地进行探索。 1 4 论文主要研究内容 针对说话人识别系统所面临的上述问题,论文对基于g m m 的说话人辨认系 统和说话人确认系统,在特征提取,确认阈值设定,判决决策的改进等方面进行 了深入的研究和探讨,并取得了一些研究成果和有用的结论。 本论文由以下几个章节的内容组成: 第2 章介绍了语音信号特征提取的过程与方法,并着重讨论了常用于说话人 识别的两种参数:m f c c 参数和l p c c 参数。 第3 章详细讨论了在与文本无关的说话人识别系统中最常用的基于概率统 计的说话人模型:g m m 模型。并针对g m m 算法用于说话人辨认时,帧似然 概率容易受到噪声干扰,提出了将帧似然概率进行加权的新的识别算法。 第4 章针对基于g m m 的说话人确认系统,在背景模型和阂值设置两个方面 进行深入的讨论;并针对g m m 模型缺乏目标说话人和非目标说话人之间区分性 信息的描述,提出了一种基于模板之间相似性度量的新的判决方法用于说话人确 认系统中。 第5 章模拟了网络环境下的说话人辨认系统,采用拉格朗日补偿法对丢包进 中南大学硕士论文第一章绪论 行补偿。针对丢包过多,建模数据不够充分的情况,提出了一种改进的基于 g m m d m 的说话人辨认算法。 第6 章介绍了如何利用m a t l a b 图形用户界面设计一个基于g m m 的与文本 无关的说话人识别系统。本系统包括端点检测,特征提取,参数训练,说话人 识别四部分。 中南大学硕士论文第二章说话人识别的特征选i 玟 第二章说话人识别的特征选取 2 1 语音信号的特征分析 根据所分析参数的不同,语音信号分析可分为时域、频域、倒谱域等方法。 进行语音信号分析时,最先接触到的,也是最直观的是它的时域波形。语音信号 本身就是时域信号,因而时域分析是最早使用的应用范围最广的一种方法。时域 分析具有简单直观、清晰易懂、运算量小、物理意义明确等优点;但更为有效的 分析多是围绕频域进行的,因为语音中最重要的感知特性反映在其功率谱中,而 相位变化只起着很小的作用。 常用的频域分析方法有带通滤波器组方法,傅立叶变换法和线性预测分析法 等。其中线性预测方法将具体分析介绍。频谱分析具有如下优点:时域波形较容 易随外界环境变化,但语音信号的频谱对外界环境变化具有一定的顽健性。另外, 语音信号的频谱具有非常明显的声学特性,利用频域分析获得的语音特征具有实 际的物理意义。如共振峰参数、基音周期等参数。 倒谱域是将对数功率谱进行反傅立叶变换后得到,它可以进一步将声道特性 和激励特性有效地分开,因此可以更好地揭示语音信号的本质特征。 按照语音学观点,还可将语音信号分析为模型分析法和非模型分析法两种。 模型分析法是指依据语音信号产生的数学模型,来分析和提取表征这些模型的特 征参数。共振峰模型分析及线性预测分析即属于这种方法,凡不进行模型化分析 的其它方法都属于非模型分析法,包括上面提到的时域分析法、频域分析法及同 态分析法等。 贯穿于语音信号分析全过程的是“短时分析技术“。根据对语音信号的研究, 其特性是随时间而变化的,所以它是一个非稳态过程 2 2 1 。但从另一方面看,虽 然语音信号具有时变特性,但不同的语音是由人的口腔肌肉运动构成声道的某种 形状而产生的响应,而这种肌肉运动频率相对于语音频率来说是相对缓慢的,因 而在一个短时间范围内,其特性基本保持不变,即相对稳定,所以可以将其看作 是一个准稳态过程。基于这样的考虑,对语音信号的分析和处理必须建立在“短 时”的基础上,即进行“短时分析”。将语音信号分为一段一段分析其中每一 段称为一“帧”。由于语音信号通常在1 0 r e s 3 0 m s 之内保持相对平稳,因而帧长 一般取1 0 m s 3 0 m s 。 9 中南大学硕士论文 第二章说话人识别的特征选取 2 1 1 语音信号的数字化 语音信号数字化之前,必须先进行防混叠滤波及防工频干扰滤波。其中防混 叠滤波指滤除高于1 2 采样频率的信号成分或噪声,使信号带宽限制在某个范围 内。否则,如果采样率不满足采样定理,则会产生频谱混叠,此时信号中的高频 成分将产生失真;而工频干扰指5 0 h z 的电源干扰田】。 1 语音信号的采样与量化 语音信号是时间和幅度都连续变化的一维模拟信号,要想在计算机中对它进 行处理,就要先进行采样和量化,将它变成时间和幅度都离散的数字信号。所谓 采样,就是把模拟信号在时间域上进行等间隔取样,其中两个取样点之间的间隔 称为采样周期,它的倒数称为采样频率。根据采样定理,当采样频率大于信号最 高频率的两倍时,在采样过程中就不会丢失信息,并且可以用采样后的信号重构 原始信号。实际的信号常有一些低能量的频谱分量超过采样频率的一半,如浊音 的频谱超过4 k h z 的分量比其峰值要低4 0 d b 以上:而对于清音,即使超过8 k h z , 频率分量也没有显著下降,因此语音信号所占的频率范围可以达到1 0 k h z 以上。 虽然这样,但对语音清晰度有明显影响部分的最高频率为5 7 k h z 以上。c c i t t ( 国际电报电话咨询委员会) 提出的g 7 1 1 标准建议采样频率为8 k h z ,但一般 情况下这只适合电话语音的情况,因为电话语音的频率范围大概是6 0 - 3 4 0 0 h z 左右。在实际的语音信号处理中,采样频率一般为8 k h z 一1 0 k h z 。有一些系统为 了实现更高质量的语音合成,或者使语音识别系统得到更高的识别率,将可处理 的语音信号扩展到7 k h z 一9 k h z ,这时的采样频率一般为1 5 k h z 2 0 k h z 之间。 采样后的信号在时间域上是离散的形式,但在幅度上还保持着连续的特点, 所以要进行量化。量化的目的是将信号波形的幅度值离散化。一个量化器就是将 整个信号的幅度值分成若干个有限的区间,并且把落入同一个区间的样本点都用 同一个幅度值表示,这个幅度值称为量化值。 2 语音信号的预加重 经过采样和量化过程后,一般还要对语音信号进行一些预加重。由于语音信 号的平均功率谱受声门激励和口鼻辐射的影响,所以高频端大约在8 0 0 h z 以上按 - - 6 d b 倍频程跌落,为此要在预处理中进行预加重,其目的就是提升高频部分, 使信号的频谱变得平坦,便于进行频谱分析或声道参数的分析。预加重可以在 a d 变换前,这样不仅能够进行预加重,而且可以压缩信号的动态范围,有效地 提高信噪比。预加重也可以在a d 变换之后进行,用具有6 d b 倍频程提升高频 特性的预加重数字滤波器实现【2 4 】。预加重滤波器一般是一阶,形式为 h ( z ) = l 一船1公式( 2 1 ) 0 中南大学硕士论文第二章说话人识别的特征选取 式中,“值接近于1 ,典型的取值在0 9 4 0 9 7 之间。预加重后的信号在分 析处理之后,需要进行去加重处理,即加上- - 6 d b 倍频程下降的频率特性来还原 成原来的特性。 3 语音信号的短时加窗处理 经过数字化的语音信号实际上是一个时变信号,为了能用传统的方法对语音 信号进行分析,应假设语音信号在1 0 m s 3 0 m s 短时问内是平稳的。后面的所有 分析都是在语音信号短时平稳这个假设条件下进行的。 为了得到短时的语音信号,要对语音信号进行加窗操作。窗函数平滑地在语 音信号上滑动,将语音信号分成帧。分帧可以连续,也可以采用交叠分段的方法, 交叠部分称为帧移,一般为窗长的一半。 2 1 2 语音信号的时域分析 对信号分析最自然最直接的方法是以时间为自变量进行分析,语音信号典型 的时域特征包括短时能量、短时平均过零率、短时自相关系数和短时平均幅度差 等1 2 5 】。在这一节中主要对这些时域的特征及它们的具体应用加以介绍。 典型的语音信号特性是随着时间的变化而变化的。例如,浊音和清音之间激 励的改变,会使信号峰值幅度有很大的变化;在浊音范围内基频有相当大的变化。 在一个语音信号的波形图中,这些变化十分明显,所以要求能用简单的时域处理 技术对这样的信号特征给以有效的描述。 1 短时能量分析 语音信号的能量随着时间变化比较明显,一般清音部分的能量比浊音的能量 小得多。语音信号的短时能量分析给出了反应这些幅度变化的一个合适的描述方 法。对于信号 x ( h ) 短时能量的定义为 2 e = 【x ( 埘) w 一所) 】= x2 ( m ) h ( n - m ) = x 2 ( ”) + ( ) f f 式( 2 - 2 ) t n ; m = 一 式中,h ( n ) = w 2 ( n ) ,e n 表示在信号的第一个点开始加窗函数时的短时能量。可 以看出,短时能量可以看作语音信号的平方经过一个线性滤波器的输出,该线性 滤波器的单位冲激响应为 ( h ) 。 冲激响应h ( n ) 的选择,或者说窗函数的选择决定了短时能量表示方法的特 点。为了反映窗函数选择对短时能量的影响,假设式( 2 2 ) 中的h ( n ) 非常长,且 为恒定幅度,那么e 。随时间的变化将变为很小,这样的窗就等效为很窄的低通 滤波器。很明显,我们要求的是对语音信号进行低通滤波,但还不是很窄的低通 中南大学硕士论文第二章说话人识别的特征选取 滤波,至少短时能量应能反映语音信号的幅度变化。因此出现了窗长选取上的矛 盾,这种矛盾将在语音信号的短时表示方法的研究中反复出现。即希望有一个短 时窗( 冲激响应) ,以响应快速的幅度变化。但是,太窄的窗将得不到平滑的能 量函数,并且窗函数的形状和长短直接影响着短时能量的性质。如果用x 。( ”) 表 示x ( n ) 经过加窗处理后的信号,窗函数的长度为, 则短时能量可表示为 e = x 。2 ( m ) 公式( 2 - 3 ) 短时能量主要有以下几个方面的应用:首先利用短时能量可以区分清音和浊 音,因为浊音的能量要比清音的能量大得多;其次可以用短时能量对有声段和无 声段进行判定,对声母和韵母分界,以及对连字分界等。在语音识别系统中,短 时能量一般也作为特征中的一维参数来表示语音信号能量的大小和超音段信息。 短时能量由于是对信号进行平方运算,因而人为增加了高低信号之间的差 距,在一些应用场合不太适用。解决这个问题的简单方法是采用短时平均幅值 来表示能量的变化,其公式 m 。= i x ( m ) 1 w ( n m + 一l 川) = i x 。( m ) 1 公式( 2 4 ) m ;n 这里用加窗后信号的绝对值之和代替平方和,使运算进一步简化。 2 短时平均过零率 短时平均过零率是语音信号时域分析中最简单的一种特征。顾名思义,它是 指每帧内信号通过零值的次数。对于连续语音信号,可以考察其时域波形通过时 间轴的情况。对于离散信号,短时平均过零率实质上就是信号采样点符号变化的 次数。如果是正弦信号,它的平均过零率就是信号的频率除以两倍的采样频率, 而采样频率是固定的,因此过零率在一定程度上可以反映出频率的信息。因为语 音信号不是简单的正弦序列,所以平均过零率的表示方法就不那么确切。然而短 时平均过零率仍然可以在一定程度上反映其频谱性质,可以通过短时平均过零率 获得谱特性的一种粗略估计。短时平均过零率的公式为 乙= 去 s g n x ( m ) - s g n x ( m - 1 ) w ( n 一珊) 。 公式( 2 5 ) 1n + n - 1 、 = 去l s g n b 。( m ) 卜s g n x 。( m 一1 ) 】i m 。n 式中,s g n * 是符号函数,即 公式( 2 - 6 ) o o 胛 胛 x x 1 一 他 妇 珂xn g s 中南大学硕士论文第二章说话人识别的特征选取 短时平均过零率可以用于语音信号分析。在发浊音时,声带振动,因而声门 激励是频率为基频的声压波,它在经过声道时产生共振。尽管声道有若干个共振 峰,但由于声门的影响,其能量分布主要集中在3 k h z 频率范围内;反之,在发 清音时,声带不振动,声道的某部分受到阻塞产生类白噪声的激励,该激励通过 声道后能量集中在比浊音时更高的频率范围内。因此,浊音时的能量集中于低频 段,而清音的能量集中在高频段。由于短时平均过零率可以在一定程度上反映频 率的高低,因此在浊音段,一般具有较低的过零率,而在清音段具有较高的过零 率,这样可以用短时平均过零率来初步判断清音和浊音。然而这种高低仅是相对 而言的,没有精确的数值关系。 2 2 说话人识别的特征提取 从说话人的语音信号中提取出说话人的个性特征是说话人识别的关键。语音 信号中既包含了所发话音的特征,也包含了说话人的个性特征,是语音特征和说 话人个性特征的混合体。它们以非常复杂的形式交织在一起。在说话人识别中, 特征选取往往都要舍去语义内容信息而保留个人特征信息。声音中所包含的个人 特征信息分为两种,一种是声道长度、声带等先天性发音器官的个人差别所产生 的;另一种是由方言、语调等后天性讲话习惯产生的。前者是以共振峰频率的高 低、带宽的大小、平均基频,频谱基本形状的斜率等所表现的;后者是以基频、 共振峰频率的时间图案,单词的时间长等所表现。两种特征要准确地分离并提取 是困难的。为此,多采用同时含有两种特征的特征参数。 说话人识别所用的特征包括: 1 语音帧能量 2 基音周期 3 帧短时谱 4 线性预测系数( 1i n e a rp r e d i c t i o nc o d i n g ,l p c ) 5 共振峰频率及带宽 6 基于听觉特性的m e l 频率倒谱系数 2 2 1 线性预测系数 语音信号是一种典型的时变信号。然而如果把观察时间缩短到十毫秒至几十 中南大学硕士论文 第二章说话人识别的特征选取 毫秒,则可以得到一系列近似稳定的信号。人的发音器官可以用若干段前后连接 的声管进行模拟,这就是所谓的声管模型。由于发音器官不可能毫无规律地快速 变化,因此语音信号是准稳定的。全极点线性预测模型( l p c ) 可以对声管模 型进行很好的描述,这里信号的激励源是由肺部气流的冲击引起的,声带可以有 周期振动也可以不振动,分别对应浊音和清音,而每段声管则对应一个l p c 模 型的极点。一般情况下,极点的个数在1 2 1 6 个之间,就可以足够清晰地描述语 音信号的特征了【2 。图2 5 是以声管模型为基础的l p c 模型。可见,l p c 参数 是模拟人的发音器官的,是一种基于语音合成的参数模型。 下面讨论l p c 参数的计算,对于一个l p c 系统,采样点n 的输出x ( n ) 可以 用前面p 个样本的线性组合来表示 工( n ) t 2 1 x ( f t 一1 ) + 口2 x ( n 一2 ) + + d 。x ( 一p ) 公式( 2 7 ) 其中, a l ,口:,d 。为常数。 上式可以改写为 p x ( 胆) = 吼z 4 ( z ) + g u ( z ) 公式( 2 8 ) 女= i 可以得到系统的传递函数为 一器2 面1 2 丽1 卿9 ) 图2 2 中,声道模型和辐射模型的级连就是h ( z ) ,实际上是一个短时稳定的 时变化的,但是在几十毫秒内被认为是稳定不变的。h ( z ) 的激励由清浊开关控 制,当发音为浊音时,激励源为归一化冲击序列和增益系数g 的乘积,冲击序 图2 - 2 语音信号的声管模型 1 4 中南大学硕士论文 第二章说话人识别的特征选取 列的周期就是语音的基音周期,而增益系数g 控制着声音的音量。当发音为清 音时,激励信号为随机噪声和增益系数g 的乘积。这里周期和g 在一个分析帧 内部都是稳定的常数,而实际上它们也是随着时间缓慢变化的。 定义系统输出的估计为 p z ( h ) = 吼x ( n t ) 公式( 2 - l o ) k = l 由此得到的系统的估计误差 p e ( n ) = x ( n ) 一譬( 以) = x ( n ) -

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论