![(电路与系统专业论文)说话人识别的前端处理研究[电路与系统专业优秀论文].pdf_第1页](http://file.renrendoc.com/FileRoot1/2019-12/14/ff649d4c-ad56-496c-8ae0-b170b2e34023/ff649d4c-ad56-496c-8ae0-b170b2e340231.gif)
![(电路与系统专业论文)说话人识别的前端处理研究[电路与系统专业优秀论文].pdf_第2页](http://file.renrendoc.com/FileRoot1/2019-12/14/ff649d4c-ad56-496c-8ae0-b170b2e34023/ff649d4c-ad56-496c-8ae0-b170b2e340232.gif)
![(电路与系统专业论文)说话人识别的前端处理研究[电路与系统专业优秀论文].pdf_第3页](http://file.renrendoc.com/FileRoot1/2019-12/14/ff649d4c-ad56-496c-8ae0-b170b2e34023/ff649d4c-ad56-496c-8ae0-b170b2e340233.gif)
![(电路与系统专业论文)说话人识别的前端处理研究[电路与系统专业优秀论文].pdf_第4页](http://file.renrendoc.com/FileRoot1/2019-12/14/ff649d4c-ad56-496c-8ae0-b170b2e34023/ff649d4c-ad56-496c-8ae0-b170b2e340234.gif)
![(电路与系统专业论文)说话人识别的前端处理研究[电路与系统专业优秀论文].pdf_第5页](http://file.renrendoc.com/FileRoot1/2019-12/14/ff649d4c-ad56-496c-8ae0-b170b2e34023/ff649d4c-ad56-496c-8ae0-b170b2e340235.gif)
已阅读5页,还剩59页未读, 继续免费阅读
(电路与系统专业论文)说话人识别的前端处理研究[电路与系统专业优秀论文].pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 说话人识别作为新兴的生物识别技术中的一个重要组成方面,在社会生活 中将会占据越来越重要的位置。而在目前的说话人识别技术的应用中,识别系统 的鲁棒性普遍不高,一旦脱离实验室的环境,应用到实际中性能会严重下降。造 成这种情况的原因包括环境的噪音,特征向量表征说话人特性的能力不强,录入 设备和信道的不匹配,说话人自身特点的改变等等。本文在这个背景之下,对包 含以上问题的说话人识别的前端处理方面进行了相关研究。 在语音增强方面,对目前使用最广泛的基于短时谱估计的几种方法进行了 研究。针对幅度谱最小均方误差方法的先验信噪比估计中使用固定的权值的问 题,提出了一种权值随着帧数和频段变化的最优估计子。它能更好的适应信号和 噪声的变化,维持声音的可懂度。在增强效果的实验中,以及作为识别系统的预 处理时,都取得了很好的效果。 在特征提取方面,提出了一种新的特征提取框架,它采用语音编码时分而 治之的观点,对不同部分采用不同的特征来表示,有效地结合了各种特征的优势, 充分利用了语音中的信息。在和其它各种方法的对比实验表明,采用新的提取框 架后系统识别率取得了较大的提高。 在特征分量的选择方面,我们提出了- - , o o 评价各维贡献率的方法,并对不 同的特征向量都作了实验,得到了各种特征向量各维的表征能力。接着介绍了基 于主分量分析( p c a ) 的特征变换方法在高斯混合模型模型中的应用。然后介绍 了处理录入设备和信道不匹配的特征补偿技术,并作了相关的实验来检验其功 能。最后研究了模型的自适应技术,借鉴高斯混合模型通用背景模型 ( g m m u b m ) 方法中从通用背景模型自适应到说话人模型的自适应算法,对两 个语音库进行了说话人自适应的实验研究。 在上面的各种算法的研究基础上,最后完成了一个可配置的说话人识别系 统,可供进一步的学习研究之用。 关键字:语音信号处理,说话人识别,语音增强,特征抽取,模型自适应 图书分类号:t n 9 1 2 3 摘要 a b s t r a c t s p e a k e rr e c o g n i t i o n a s a ni m p o r t a n tc o p , s t i t u t e o ft h en e w a r i s i n g b i o m e t r i c a u t h e n t i c a t i o na n di d e n t i f i c a t i o nt e c h n o l o g y ,w i l lp l a yam o r ea n dm o r ei m p o r t a n tr o l e i no u rs o c i a ll i f e b u tp r e s e n tt h er o b u s t n e s so ft h es p e a k e rr e c o g n i t i o ns y s t e mi s n t h i 曲e n o u g h w h e nw ea p p l yt h es y s t e mi nt h er e a le n v i r o n m e n t ,t h ep e r f o r m a n c eo f t h es y s t e mw i l ld e g r a d ev e r ym u c hc o m p a r e dw i t ht h el a be n v i r o n m e n t t h ec a u s e s a r ee n v i r o n m e n tn o i s e ,p o o ra b i l i t yo ft h ef e a t u r ev e c t o r , t h em i s m a t c ho fr e c o r d d e v i c ea n dc h a n n e l ,c h a n g eo f t h es p e a k e r sb i o m e t f i cf e a t u r e s oi nt h i st h e s i s ,ih a v e d o n es o m ew o r ka n dr e s e a r c h e si nt h ef i e l do ff r o n t e n ds p e a k e rr e c o g n i t i o nw h i c h c o v e rt h ea b o v ep r o b l e m s i nt h es p e e c he n h a n c e m e n ta s p e c t w ef i r s ts t u d yt h em o s tw i d e l yu s e dm e t h o d sc u r r e n t l y b a s e do ns h o r tt i m es p e c t r a le s t i m a t i o nt h e nf o c u so nt h ep r o b l e mo fc o n s t a n tw e i g h tf a c t o ru s e d i ne s t i m a t i o no fap r i o r is n rf o rm m s ea m p l i t u d es p e c t r a lm e t h o d ,w ep r o p o s ea no p t i m u m w e i g h tf a c t o rc h a n g e dw i t hf r a m ea n df r e q u e n c yi tc a na d a p tw i t ht h ec h a n g eo ft h es p e e c hs i g n a l a n dn o i s eb e t t e ra n dk e e pt h es p e e c hu n d e r s t a n d a b l e w eg e tag o o dr e s u l tw h e np u ti tt ot h e s p e e c he n h a n c e m e n te x p e r i m e n ta n da st h ep r e p r o c e s s o ro f t h er e c o g n i t i o ns y s t e m t h e nw ep r o p o s ean o wf e a t u r ee x t r a c t i o nf r a m e i tu s et h ei d e ao fc o d i n g ,e x t r a c td i f f e r e n t f e a t u r ef o rd i f f e r e n ts p e e c hs e g m e n t s oi te f f i c i e n t l yc o m b i n e st h ea d v a n t a g eo fd i f f e r e n tf e a t u r e a n dm a k e su s e 、o ft h ei n f o r m a t i o ni nt h es p e e c h c o m p a r ew i t ho t h e rm e t h o d s ,t h er e c o g n i t i o n s y s t e mu s i n gt h en e wf e a t u r ee x t r a c t i o nf r a m eg e tah i g h e rr e c o g n i t i o nr a t e an e wc o n t r i b u t i o ne v a l u a t i o nm e t h o dt ot h ec c n t r i b u t i o nr a t eo fd i f f e r e n tc o m p o n e n to ft h e f e a t u r ev e c t o ri sp r o p o s e d a n db ye x p e r i m e n tw eg e tt h ec o n t r i b u t i o nr a t eo fd i f f e r e n tc o m p o n e n t o ft h ef e a t u r ev e c t o r t h e nw ei n t r o d u c et h ep c af e a t u r et r a n s f o r m a t i o nm e t h o dt ot h eg m m m o d e la n dt h ef e a t u r ec o m p e n s a t i o nm e t h o d st or e d u c et h em i s m a t c ho fr e c o r d d e v i c ea n d c h a n n e la r ea l s os t u d i e d l a s tw er e s e a r c ht h em o d e la d a p t a t i o nm e t h o d s ,a n da p p l yt h ea d a p t a t i o n a l g o r i t h m si ng m m u b mt ot h en e wa p p l i c a t i o no f s p e a k e rr e c o g n i t i o n f i n a l l y , b a s e do nt h er e s e a r c hr e s u l t so fa l lt h ea b o v em e t h o d s ,w ef i n i s h e dac o n f i g u r a h l e s p e a k e rr e c o g n i t i o ns y s t e mw h i c hc a l lb eu s e dt 。f u r t h e rs t u d y , k e yw o r d s :s p e e c hs i g n a lp r o c e s s i n g ,s p e a k e rr e c o g n i t i o n ,s p e e c he n h a n c e m e n t , f e a t u r ee x t r a c t i o n ,m o d e la d a p t a t i o n 2 第一章绪论 1 1引言 第一章绪论 生物特征认证技术,作为2 0 世纪术期丌始蓬勃发展的高新技术,将在社 会生活中占据越来越重要的位置,从而改变人们的生活方式。语音、虹膜、指纹、 d n a 、人脸这些人体本身的特点,将逐步取代现有的密码、钥匙、成为鉴定身 份的方式。这些技术将最大限度的保证个人资料的安全,最大限度的防止各种类 型的刑事、经济犯罪活动。 与传统的身份鉴定手段相比,基于生物特征的身份鉴定技术具有以下优点: 1 1 不易遗忘或丢失; 2 ) 防伪性好,不易伪造或被盗; 3 )“随身携带”,随时随地可用。 在国外,经过3 0 多年地发展,生物特征认证技术的软硬件相对比较成熟, 生物 = 别技术的产品在社会中丌始了比较大舰模的应用。特别在美国9 1 1 事件以 后,很多国家都要求必须采用生物识川技术作为法律实施的保证。 在众多的生物特征识别技术中,利用说话人语音特征进行身份验证是很自 然和直接的手段。与其他生物身份认证技术相比,声纹识别技术具有自己独特的 优势:( 1 ) 蕴含声纹特征的语音获取方便,使用者的接受程度高;( 2 ) 获取语音的 识别成本低廉,使用简单:( 3 ) 适合远程身份确认,使用麦克风或电话、手机就 可以通过网络( 通讯网络或互联网络) 实现远程登录;( 4 ) 声纹辨认和确认的算法复 杂度低;( 5 ) 配合一些其他措施,如通过语音识别进行内容鉴别等,可以提高准 确率;( 6 ) 不涉及隐私问题,用户无任何心理障碍。 自动说话人识别问题,最初是在二战期间,美国国防部向贝尔实验室提出 的课题,目的是根据窃听的电话录音进行判断说话人是哪一位德军高级将领,这 对分析当时的德军战略部署具有重要的意义。1 9 4 1 年的贝尔实验室中,工程师 劳伦斯科斯塔开始对声音图谱或声纹( 他命名的) 提供个人识别方法【2 1 。从那以 后,卢纹识别即说话人识别走上了缓慢发展的道路。 目前欧美各国有许多研究组在从事说活人识别的研究,受到政府、军方及 大公司的高度重视和资助。美国n i s t ( n a t i o n a li n s t i t u t eo fs t a n d a r d sa n d t e c h n o l o g y ) 组织每年都有说话人识别的标准评估【3 1 。在国内,也有相当的学校、 科研机构、公司从事相关的研究。近几年来在这个领域的研究不断进步,国际上 发表有关论文的数量也很多,每年的国际会议上关于说话人识别的专题也屡屡可 第一章绪论 见。 说话人识别可分为说话人辨认f s r ) 和说话人确认( s v ) 两类【4 i 。说话人辨认是 通过一段语音确认说话人身份的过程,系统的决策选择数目为说话人的数目,因 此波话入辨认系统的性能是随着说话人集合的规模增大而降低的。在说话人辨认 方面,根据待识别的说话人是否在注册的说话人集合内,说话人辨认可以分为开 集( o p e n s e t ) 辨认和闭集( c l o s e s e t ) 辨认。翦者假定待识别说话人可以在集合外, 而后者假定待识别说话人在集合内。况话人确认则是证实某说话人是否是他所 声称的身份的过程,系统只需给出接受或拒绝两神选择。因此,说话人确认系统 的性能与说话人集合的规模无关。 根据系统所完成功能不同,晚话人识剐系统也有不同的评定标准 5 】。对于说 话人验证( s v ) 系统,它的目的是验证“声称者”是否正确,它的评价主要有 两个指标:1 1 错误接受率,f a r ( f a l s ea c c e p tr a t e ) ,也就是将一个“非声称者” 用户,系统接受为其声称用户;2 ) 错误拒绝率f r r ( f a l s er e j e c tr a t e ) ,也就是 拒绝承认合法用户其声称的身份。这二者之间是存在矛盾的,所以在实际问题中 往往需要进行某种折衷。如,在安全性要求较高的计算机登录系统中,必须要求 错误接受率要尽可能低,而错误拒绝率则可以高一些,这样只是增加合法用户的 登录时间,并不会降低计算机系统的安全性。这两个标准同样适用于说话人检测 与定位。在说话人检测中,根据场合不同,可以选择使用检测出更多可能性的说 活人或者选择使用检测出更确定性的说话人。 目酊的说话人识别系统按照语料库罩的内容,还可以分为与内容有关的( 验 证和注册时说同样的话) 以及与内容无关的( 验证和注册时可说不同的话) 这两种 陋l 。从系统安全性上考虑,内容无关的安全性较好,但正确率相对较低。目前正 确率较高的是内容提示的方式,即从语料库中提示说话人说特定的语料。然而, 有些应用领域,比如法庭鉴别和说话人语音跟踪等,事先人们不可能知道说话人 的语音文本的内容,这样一来内容无关的说话人识别研究倍受重视。此外,由于 内容无关的说话人识别不要求说话人重复说特定的关键词,所以也比较容易为用 户所接受。 1 。2 说话人识别目前的难点 说话人识别的系统设计,包含前段处理和模型选择这两个主要的方面。和这 两个过程相对应的现在说话人识别所面临的主要问题有如下几个: 1 如何选取能够唯一表征说话人的有效并且可靠的特征参数,如何对它进 行处理。 每个人的语音都有其独特的风格和音质,这种个体特l 生( i n d i v i d u a l i t y ) 主要由 第一章绪论 社会的和生理的因素决定。 社会的因素包括说话人的年龄、方言、社会地位、家庭环境等等。这些因 豢能够使每个人的声音具有独特的堪音轮廓、语速、节奏、重音和遣词用旬的特 点等等。 生理的因素主要反映了说话人自身器官构造的特点,例如声带的长度和宽 度、声道的长度和宽度、嘴唇的位置和形状以及肺活量等等。 2 如何不断更新参考参量,使得系统能够随说话人自身声学特征的改变而 改变。 因为一个人生理的构造不容易更改,所以般自动说话人识别系统着重描述 说话人的生理特征,认为这些特征是不会随时间变化的。但是实际上,因为声道 运动的不同形状、不同的说话语速以及说话人器官的变化( 可能是健康问题引起 的,也有可能仅仅是器官随着时间的“老化”1 ,同一个说话人也无法在不同的 时间精确的重复同一句话,而对于说话人i :l 别系统的应用场合而言,恰恰要碰到 这样的问题,这也是一个难点。 3 如何消除环境噪声,信道以及设备的影响。 现在很多研究都是在实验室的安静环境下进行的,而实际应用时的各种场合 不可避免环境噪声的影响。如果录音通过电话线路传播,则必然受到信道的影响。 还有,不同的话筒、数字化设备之间的差异,也会对录音产生不同的效果。这些 都会对系统的性能带来严重的影响。 4 如何规定相似性的测度,使得相似度的计算简单而可靠。 现在的主流是基于统计的方法。为说话人建立一个统计模型,并利用训练数 据来训练模型的参数,测试时通过计算模型的概率来进行判决。 1 3 研究前端处理的意义 晚话人识别的系统框图如图l 所示 图1 - 1 说话人识别系统框图 从图1 可以看到,整个系统在选择开关处,可以分为前端处理和模型选择 两个方面,自适应技术则与两个部分都有联系。本文的内容主要集中于前端处理 第一章绪论 和自适应技术的研究。 从系统框图可以看出,对输入的语音信号,第一步是进行语音增强,它的目 的足为了降低环境噪声的影响。我们希望找到一种既能很好的抑制噪声,同时又 能很好的保持语音的可懂度的方法,并将其用到说话人识别中去。 系统框图的第二个部分是特征向量相关的操作。它又包含了下面几个方面: 首先是特征向量的抽取,即如何找到有效和可靠的特征向量来表征说话人,一直 是人们研究的重点;对得到的特征向量,如何作进一步的处理和变换,以得到更 好的分类和表征能力,也是一个值得研究的问题;最后,特征补偿技术的研究和 应用,可以减小信道和录音设备不匹配所造成的影响,在某些应用如通过电话线 路传输时,也具有十分重要的作用。 模型的自适应技术,由于需要额外的新信息来调整模型,故对这种情况的研 究不是很多。但它可以减小说话人声学特性改变带来的影响,所以也具有一定的 研究价值。 1 4 前端处理中的常用方法 应该说前端处理的方法有许多并4 i 局限于i = ;皂话人识别,在很多其他的应用如 语音识别,语音编解码中都要用到。当然,同样的技术在用到说话人识别的时候, 需要进行相应的改进和适应。下面对本文要用到的各种方法进行概述。 l 。4 1 语音增强方法 现实中我们得到的语音信号不可避免地要受到来自周围环境的噪声干扰。 语音增强就是对带噪语音进行处理,以消除背景噪声,进而改善语音质量,提高 语音的清晰度、可懂度和舒适度,使人易于接受并提高后续语音处理系统的性能。 在应用到说话人识别时,语音增强一般作为对说话人进行特征提取和分类之前的 预处理器。 语音增强又可以分为单通道和多通道增强。由于多通道需要特殊的录入设 备,如麦克风阵列,所以它的应用受到限制,远不如单通道的方法适用广泛。目 前,比较流行的单通道语音增强算法主要有以下几种: 1 噪声对消法 显而易见,如果能直接从带噪语音中,在时域中或者在频域中,将噪声分量 减去,则能有效增强带噪语音。噪声对消法就是以此作为出发点,其最大特点是 需要采集背景噪声作为参考信号,参考信号准确与否直接决定着噪声对消法的性 能。在采集背景噪声时,往往采用自适应滤波技术,以便使参考信号尽可能接近 第一章绪论 带噪语音中的噪声分量。 2 谐波增强法 出于语音中的浊音具有明显的周期性,这种周期性反映到频域中则为一系列 分别对应基频( 基音) 及其谐波的一个个峰值分量,这些频率分量占据了语音的大 部分能量,我们自然可以利用这种周期性来进行语音增强。这时可采用自适应梳 状滤波器来提取基音及其谐波分量,抑制其他周期性噪声和非周期的宽带噪声。 由于语音是时变的,语音的基音周期也是不断变化的,能否准确地估计出基音周 期以及能否及时跟踪基音变化,是这种基于谐波增强法的关键。 3 基于语音生成模型的增强算法 语音的发声过程可以建模为一个线性时变滤波器。对不同类型的语音采用不 同的激励源。在语音的生成模型中应用最广泛的是全极点模型。基于语音生成 模型可以得到一系列语音增强方法,比如时变参数维纳滤波及卡尔曼滤波方法。 维纳滤波的背景噪声白化效果很好。卡尔受滤波能有效消除有色噪声。但基于语 音生成模型的增强方法运算量比较大,系统性能也有待于进一步提高。 4 基于短时谱估计的增强算法 基于语音短时谱估计的增强方法种类繁多,如谱相减法、维纳滤波法、最小 均方误差法等。该类方法具有适应信噪比范围大、方法简单、易于实时处理等优 点。该方法具有很强的生命力,成为应用最广泛的语音增强方法。 5 基于小波分解的增强算法 小波分解法是随着小波分解这新的数学分析工具的发展而发展起来的,同 时它又结合了谱相减法的一些基本原理。 6 基于听觉屏蔽的增强算法 听觉屏蔽法是利用人耳的听觉特性的一种增强算法。人耳可以在强噪声的干 扰下分辨出需要聆听的信号,也可以在多个说话者同时发声时分别将它们提取出 来。正是由于以上这些原因,人们对听觉屏蔽法寄予了厚望,有理由相信,随着 人们对人耳特性了解的加深,听觉屏蔽法会更深人的发展。 在以上的六种增强算法中,基于短时谱估计的增强算法是最为常用的,这 是因为它的运算量较小,容易实时实现,而且增强效果也较好。近几年人们也开 始了小波分解法和听觉屏蔽法的研究。随着人们对小波分解研究的深人,自然也 会导致对小波分解增强算法研究的发展。听觉屏蔽法是随着人们对人耳听觉系统 的认识发展而发展起来的,目前入们对它的研究还是处于初级阶段。另外,人们 也在尝试将隐马尔可夫模型、神经网络等理论用于语音增强,但尚未取得实质性 的进展。 第一章绪论 1 4 2 特征提取方法 在语音信号中,包含着非常丰富的特征参数,不同的特征向量表征着不同 的物理和声学意义。如何找到稳定有效的特征参数来表征说话人,是说话人识别 中的根本问题。 在说话人识别的研究中,人们通过对语音信号时域和频域的分析,己提取 出各种各样的语音参数,诸如:基音周期,线性预测系数,倒谱系数,小波系数 等。目前看来倒谱系数识别效果最好,鲁棒性也很强,应用最为广泛;l p c 系数 次之;基音周期由于其变化范围比较大,所以一般不单独使用,通常与其它参数 相结合:小波系数的研究较晚,且单独应用时效果不如倒谱系数,但其对某些音 素的表征能力强于倒谱系数。对以上几种特征简单介绍如下: 1 基音周期 浊音的声带振动基频称为基音频率。对应在语音信号的数字模型中,即为 浊音的激励信号,脉冲序列的周期。由于基音周期反映了声带的特性,很自然地 可以将其作为说话人分类的特征。 基音周期提取的方法主要有自相关法,平均幅度差法,倒谱法,逆滤波法 等等,近来小波分析的方法也被用到了基音提取之中。 自相关法和平均幅度差法计算简单,但会有倍频点。倒谱法和逆滤波法计 算量稍大,但鲁棒性较好。基于小波分析的方法,通过检测语音的突变点来判决 声门的闭合,抗噪性能较好,但是判决过程较为繁琐。 2 线性预测系数 从语音信号的数字模型可以知道,语音信号可以看作激励信号通过声道传 输函数的结果,而声道传输函数可以看作一个全极点的滤波器。由于每人的声道 差异,自然反映在滤波器的系数上,将其构成的向量就可以作为各个人的一种表 征。 线性预测分析( l p c ) 是对一给定的时域离散线性系统用输出信号的过去值 的线性组合来估计即将到来的输出值。它和上面的全极点滤波器的传输函数正好 吻合。于是,我们就可以利用线性预测分析的技术来求得上面的滤波器系数,所 以用这种方法得到的特征向量就叫做线性预测系数。 3 倒谱系数 倒谱特征是用于说话人个性特征表征和说话人识别最有效的特征,一般是 通过同态信号处理技术得到的。 语音信号是声道频率特性和激励信号源两者的共同结果,后者一般取决于 说话的内容,而既话人的个性特征很大程度上取决于说话人的发音声道,即声道 第一章绪论 频谱特性,因此需将这两者进行有效的分离。两者的分离是一个解卷积的问题, 线性预测分析时剥用了声道的假设模型,属于参数解卷;倒谱系数提取时鼯用的 同态信号处理技术,不需要假设一个模型,输入非参数解卷。 m e l 频域倒谱系数在一般同态处理的过程中,利用人耳对声音的感知在频域 是非线性的特点,采用m e l 域分布的滤波器组,取得了很好的效果。 4 小波系数 小波变换采用多分辨分析,非均匀的划分时频空间。对于既有低频又有高 频的信号,利用多分辨分析可以同时兼顾它们的需求。原则上用短时傅立叶变换 处理信号的地方均可以利用小波变换。小波分析的时域和频域的局部变换特性, 与语音信号“短时平稳”的特点j 下好吻合,因此近年来有不少对小波分析在特征 抽取方面的研究。如何将小波系数参数化,直是将小波变换用于识别的一个重 要问题,一般都是借鉴短时傅立叶变换提取特征参数的做法。 1 4 3 特征变换、补偿及自适应技术 在进行特征提取之后,为了获取各特征向量中各维的表征能力,进一步降 低特征向量的冗余度,提高它的分类能力,解决信道和录音设备不匹配的影响, 以及利用获得的少量新环境下语音数据的信息,出现了相应的处理技术。简单介 绍如下: 1 加权技术 由于特征向量的各维分量具有不同的意义,因此其表征说话人的能力也各 不相同。通过一定的方法得到各维分量的重要性之后,对各维分量进行加权处理。 对贡献大的分量加大的权值,对贡献小的分量加小的权值,或者舍弃。 评价特征各维分量对识别的贡献主要有两种方法:一种是通过定义各分量 的f 比得到各个特征分量的区分能力;另一种是直接进行识别,通过增减分量的 方法考察每个特征分量的贡献。 2 特征变换 在获取特征向量之后,我们还可以采用特征变换的方法,将其投影到一个 新的特征空间,以减少各维分量之间的冗余和提高分类能力。特征变换又包括线 性变换和非线性变换。线形变换中的典型方法就是p c a ,它可以很好的消除各维 的相关性。近来,也有不少对各种非线性变换的研究,这些非线性方法虽然提高 了少许性能,但是同时增加了计算的复杂度。 3 特征补偿 特征补偿可以看作是基于特征空间的自适应方法,它着眼于语音信号的特 征提取这个环节。它的目的是希望通过对语音信号的处理以消除录入设备和噪声 第一章绪论 的影响,得到纯粹的语音信号特征,或者得到与训练环境下的语音特征相近的特 征参数。倒谱均值归一化是减少信道卷积噪声的影响的一种简单有效的方法。分 段倒谱归一化方法在倒谱均值归一化的基础上,加入了对方差的估计和利用。 4 模型的自适应 在我们用原始的数据训练好模型之后,在新的环境下,我们得到了少量新 的数据,为了提高我们的系统在新的坏境f 的识别率,通过对模型参数的自适应 调整,使得模型更接近于测试环境的特点。这相当于把模型从训练环境特征往测 试环境特征方向移动,从两改善环境不匹配所引起的畸变。 目前说话人识别中采用的白适应方法主要分为两大类:( 1 ) 基于最大后验概 率( m a x i m u map o s t e r i o r i ,m a p ) 的算法;( 2 ) 基于变换的方法。前者的基本准则 是后验概率最大化,利用贝叶斯( b a y e s ) 学习理论,将系统的先验信息与被适应人 的信息相结合实现自适应;而后者则是估计系统模型与被适应人之间的变换关 系,对系统的模型或输入语音特征作变换,减少系统与被适应人之间的差异。 i 5本人的工作和创新点 针对前端处理中的关键问题,本文在下面几个方面进行了研究和探索: 1 在语音增强方面,对目前使用最广泛的基于短时谱估计的几种方法进行 了研究。针对幅度谱m m s e 方法的先验信噪比估计中使用固定的权值的问题,提 出了一种最优估计子,它能更好的适应信号和噪声的变化,维持声音的可懂度。 在增强效果的实验中,以及作为识别系统的预处理,都取得了很好的效果。 2 在特征提取方面,提出了一种新的特征提取框架,它采用编码时分而治 之的观点,对不同部分采用不同的特征来表示,有效地结合了各种特征的优势, 充分利用了语音中的信息。在和其他各种方法的对比实验表明,采用新的提取框 架后系统识别率取得了较大的提高。 3 在特征分量的选择方面我们提出了一种评价各维贡献率的方法,并对 不同的特征向量都作了实验,得到了各种特征向量各维的表征能力。 接着介绍了基于p c a 的特征变换方法在g m m 模型中的应用。 然后介绍了处理录入设备和信道不匹配的特征补偿技术,并作了相关的实 验来检验其功能。 最后研究了模型的自适应技术,借鉴g m m u b m 说话人确认方法中的自适应 算法,进行了说话人自适应的实验研究。 4 在上面研究的各种算法的基础上,开发了一个可配置的实用系统,并可 供进一步研究之用。 第一章绪论 1 6论文主要内容安排 第二章,介绍了基于短时谱估计的语音增强方法,提出了一种新的先验s n r 估计子,并测试了该方法的效果。 第三章,介绍了特征提取的方法,提出了一种新的特征提取框架,和原有的 一些提取方法做了比较。 第四章,介绍了对特征迸一步处理的方法和自适应的技术,并测试了其效果。 第五章,介绍了根据前面几章的研究完成的一个系统:可配置的说话人识别 系统。 最后,对研究生工作的总结和对未来工作的展望。 第二章一种改进的短时谱语音增强方法及其在说话人识别中的应用 第二章一种改进的短时谱语音增强方法及其在说话人识 另0 中的应用 2 ,1 语音增强技术简介 现实中我们得到的语音信号不可避免地要受到来自周围环境乃至其它讲话 者语音的干扰、传输媒介引入的噪声或通讯设备的内部噪声。这样,我们最终得 到的是已非纯净的语音,而是受到噪声污染的带噪语音信号。 在这样的情况下就需要对带噪语音进行语音增强处理。语音增强就是对带 噪语音进行处理,以消除背景噪声,进而改善语音质量,提高语音的清晰度、可 懂度和舒适度,使人易于接受并提高后续语音处理系统的性能。语音增强技术广 泛应用在各种语音信号处理领域中。在语音识别系统、语音编码系统中,由于这 些系统在设计时一般针对的是纯净语音,当这些系统在实际情况下工作的时候, 噪声的污染将导致系统性能的急剧恶化,甚至不能正常工作,这时可以在其前端 加上语音增强系统作为预处理器,以提高其抗干扰能力,维持其系统性能。 下面是两幅语音增强的效果图。第一幅是时域上的效果图,最上面是原始 语音,中间是加了噪声的结果,最下面是采用语音增强方法之后得到的估计语音。 第二幅是频谱图,左上是原始语音,右上是加噪语音,左下是恢复的语音。 图2 - 1 语音增强的时域表示 第二章一种改进的短时谱语音增强方法及其在说话人识别中的应用 图2 2 语晋增强的频谱图 语音增强这个研究课题早在6 0 年代即引起人们的注意,随着数字信号处理 理论的成熟,7 0 年代取得了一些基础性成果,并使语音增强发展成为语音信号 处理领域的一个重要分支,8 0 年代及9 0 年代初这十几年间,各种语音增强方法 不断提出,进而奠定了语音增强理论的基础并使之逐渐走向成熟。近些年来随着 v l s i 技术的发展和高速d s p 芯片的出现,使得语音增强方法走向实用,新的语 音增强方法相继涌现。 这期间具有代表性的语音增强方法主要有:基于噪声对消的方法,基于谐 波增强的方法,基于参数估计的语音再合成法,基于语音短时谱估计的方法【7 1 , 基于小波分解的方法1 8 9 1 ,基于听觉屏蔽的增强算法“”等。 语音增强不但与语音信号数字处理理论有关,而且涉及到人的听觉感知和 语音学。再则,噪声来源众多,随应用场合各异,他, f p 的特性也各不相同。即使 在实验室仿真条件下,也难以找到一种通用的语音增强算法能适用于各种噪声环 境。必须针对不同噪声,采取不同的语音增强策略。 下面的讨论集中于基于短时谱估计的增强算法。它们具有适应信噪比范围 大、方法简单、易于实时处理等优点。该方法具有很强的生命力,成为应用最广 泛的语音增强方法。近年来,各种改进方法也不断提出。我们针对短时幅度谱的 l | q l m s e 方法,提出了一种最优的先验信噪比估计子。实验证明,这种方法取得了 很好的效果。 箱二章一种改进的短时谱语音增悒方法及其在说话人识别中的应用 2 2 基于短时谱估计的语音增强方法 噪声有宽带噪声,如热噪声、电磁噪声等;也有窄带噪声,如直升机和汽 车引擎噪声、计算机电源风扇噪声等。噪声对语音可以是叠加关系,以加性干扰; 也可以与语音是相乘关系,咀乘性干扰:也可以与语音是卷积关系,以卷积干扰。 考虑到环境噪声一般是加性噪声,其更普遍且易于分析问题,并且对乘性干扰和 卷积干扰都可经过同态处理变成加性干扰,因此,讨论围绕加性噪声干扰展开。 带噪语音的模型如图所示: 圈2 3 带噪语音模型 除此之外,我们还做如下假设: 1 噪声是局部平稳的。也就是说,可以根据语音开始前那段噪声来估计语音 中所叠加的噪声统计特性。 2 噪声与语音统计独立或不相关。 3 人耳对语音相位的不敏感性。人们经过对语音的振幅谱和相位谱的大量研 究表明,对人耳听觉起主要作用的是语音的振幅谱,而人耳对语音相位谱的误差 并不敏感,因此研究语音增强的方法主要从振幅谱入手,这正是基于短时幅度谱 语音增强方法的基础。 4 。只有带噪语音可以利用,没有其他参考信号。 上面的条件基本上都经过实验的证明,所以说是合理的。下面的几种短时 谱方法中,都用到了这些假设条件。 在实现语音增强方法时,一般需要进行分帧处理,恢复时大多采用重叠相 加法。由于对语音信号分帧的时候是有重叠的,所以对每一帧降噪处理之后,叠 加回连续语音时也是有重叠的。这时只要帧长是帧移的整数倍,那么叠加就不会 产生混叠。采用重叠相加法的好处是:在语音短时平稳允许的时间间隔内,增加 可处理帧数:可以减少语音分帧处理造成的不连续性。 重叠相加法示意图: 第二章一种改进的短时谱语音增强方法及其在说话人识别中的应用 图2 4 重叠相加法示意图 以矩形,三角窗为例) 在本论文的重叠相加法中采用矩形窗,窗长选择4 8 0 点,重叠长度为1 6 0 电。对叠加后的信号幅度除以3 以归一化。 下面我们就具体来介绍各种短时谱估计的算法。 2 2 1 谱相减法 由于各种短时谱方法的最终表达式具有相似的形式,所以有的文献将他们 广义的称为谱减法( s p e c t r u ms u b t r a c t i o n ) 。这里我们还是指狭义的谱减法,即振 幅谱和功率谱相减法。 ( 1 ) 振幅谱相减估计器 带噪语音的加性模型 y ( n ) = j ( ,2 ) + 以玎) ( 2 1 ) 式中y ( n ) 是观测信号即带噪语音,s ( n ) 是纯净语音,似月) 是噪声。对( 2 1 ) 两边 进行傅立叶变换,则得 y ( e ”) = s ( e ) + w ( e ”)( 2 2 ) 在估计出噪声频谱和得到带噪语音频谱之后,利用人耳对语音相位的不敏 感性,我们可以直接从带噪语音振幅谱中减去噪声的振幅谱作为语音的振幅谱, 而用带噪语音的相位来近似语音的相位,从而达到消除噪声的影响、实现语音增 强的目的。得到的振幅谱相减估计器为: j ( e 归) = 【iy ( e t 。) | - i 矿0 ,“) l 】p 。,町( 2 3 ) 式中i y ( e 扣) l 为带噪语音振幅谱,i w ( e ”) l 为噪声振幅谱,o y ( m ) 为带噪语音 的相位谱。实际中是用非语音段噪声振幅谱的数学期望来作为噪声振幅1 w ( e 如) l 的估计,这时式( 2 3 ) 可写为 j ( p ,。) = f iy ( p ,”) i p ( b 川) e 7 0 。( 2 4 ) 第二章一种改进的短时谱语音增强方法及其在说话人识别中的应_ 【 j 式中t t ( e 扣) = 叫i w ( e 一) 1 ,研】代表数学期望,x - 戈( 2 。4 ) 亦可写成 s ( e ”) = h ( e ”) r ( e ,。)( 2 5 ) 其恻- l _ 蹁。 ( 2 ) 一般形式的功率谱相减估计器 带噪语音的加性模型 y ( n ) = s ( n ) + 从,z )( 2 6 ) 式中y ( n ) 是观测信号即带噪语音,j ( ”) 是纯净语音,w ( n ) 是噪声。对( 2 6 ) 两边 进行傅立叶变换,则得 y ( e “) = s ( e ) + w ( e )( 2 7 ) 计算带噪语音的功率谱可得 l1 2 = 艺巧= i ,咒i2 + i 。1 2 + s 。阡:+ s :( 2 8 ) 由于s ( ”) 与w ( n ) 独立,所以s 。与形,独立。又假设为零均值高斯分布,所以 对上式求期望可得 e ir f 2 = e i s 2 + e 1 孵1 2 】 ( 2 - 9 ) 对于一个分析帧内的短时平稳过程,则有 i 匕1 2 = is ,1 2 + ) 、。( n )( 2 - 1 0 ) 其中( n ) 为噪声的功率谱密度,即无语音时i 形l z 的统计平均值。 由此可得原始语音幅度谱的估计为: i 雪。卜 1 匕i2 - e ( q n 。| 2 ) z = 1 匕1 2 一0 ) 】j ( 2 1 1 ) 实际计算中,可能会出现lk2 小于( n ) 的情况,此时可修改( 2 一1 1 ) 如下: ! l 瓯i = m a x “ikl 二一、。( h ) 】2 ,e ) ( 2 1 2 1 其中占是一个大于o 的常数。 在幅度谱上加上带噪语音的相位信息,则得到完整的功率谱相减估计器为: s = i s h 高= c 哗产声k p 哟 定义第一个频谱分量的增益函数为g = l 置i i t i ,以及后验信噪比为 y 。= | y n1 2 九( n ) ,式( 2 1 3 ) 可以改写为: 文= 瓯昏卜e ( 2 - 1 4 ) 从上式可以清楚地看出谱相减法的物理意义:它相当于对带噪语音的每一 第二章一种改进的短时谱语音增强方法及其在说话人识别中的应用 个频谱分量乘以一个系数g 。后验信噪比高时,含有语音的可能性大,衰减小。 反之,则认为还有语音的可能性小,衰减增大。 在实际的增强过程中,很多时候使用的是谱相减法的改进形式: 丹! 瓦= g n - k = 1 _ 。k ( 2 - 1 5 ) y 这种改进形式与普通谱相减法的差别在于引入了口和p 两个参数。这两个参数 为算法提供了很大的灵活性。容易看出,当口= 2 ,= 1 时即退化为一般的谱相减 方法。 噪声估计值乘以系数卢是基于这样一种考虑:由于在谱相减法过程中,是 以无声期间统计平均的噪声方差代替当前分析帧各频率点的噪声频谱分量。而噪 声频谱具有高斯分布,即其幅度随机变化范围很宽。因此相减时,若该帧某频率 点噪声分量较大,就会有很大一部分保留,在频谱上呈现随机出现的尖峰,在听 觉上形成有节奏起伏的类似音乐的残留噪声。为了解决上述问题,在语音能量较 高的区域,可以令 l ,即有意识的多减去一些,这样可以更好的相对突出语 音频谱。当然,此时引起的失真也可能会增大。参数a 也可以获得类似的效果。 2 2 2 维纳滤波法 同样有带噪语音的观测模型为: y ( n ) = s ( n ) + w ( r t ) ( 2 - 1 6 ) 式中y ( n ) 是观测信号即带噪语音,s ( n ) 是纯净语音,w ( n ) 是噪声。 按最小均方误差准则对s ( n ) 进行估计,即选取s ( h ) 的估计j ( n ) ,使均方误 差j = e s 0 ) 一j 0 ) 】2 ) 最小。 即要设计一个数字滤波器h ( n ) ,当输入为y ( n ) 时,滤波器的输出 j ( 胛) = h ( n ) + y ( n ) ( 2 - 1 7 ) 去估计s ( n ) ,使均方误差最小。 根据线性系统的理论,可以得到: r 。( ,h ) = h ( m ) 十r y ( ) ( 2 - 1 8 ) 对上式两边耿傅立叶变换得,并利用噪声和信号的不相关性,可以得到传递函数 的频域形式: g ”2 币p 再s ( n 而) ( 2 一1 9 ) 其中只( n ) 、( n ) 分别为语音和噪声功率谱密度。 第章一种改进的短时谱语音增强方法及其在说话人识别中的应用 此时输出的估计信号的频域形式为: j 。= 丽p 两d n 而) ( 2 2 。) 由于实际上语音只是短时平稳的,而且语音功率谱无法得到,因此改写上式为 卧熟 若定义先验信噪比 。= 耳1 只门、( ,t ) ,则有 ( 2 - 2 1 ) g 贵 ( 2 2 2 ) 在上式中,可i s 。1 2 的获得可以有多种途径,例如可以用谱相减法或其它谱估计 方法先得到1 只i2 ,然后把相邻的几帧的l j 。1 2 进行平滑作为研l e1 2 】。也可以先平 滑l 1 2 ,得到研1 门的近似值,然后再减去噪声功率作为研i 最门。当然,个 最简化而且实时的方法是直接以该帧谱相减的结果代替目is 。1 2 1 ,此时前式变为 e = 哗产斗专 c z z 。, 其中一 lf 2i 、,( n ) 定义为后验信噪比。 与前面的式对比,可以看出此时增益系数相当于谱相减法时的平方。 与谱相减法类似,维纳滤波【乜有如下的推广的式子: g 。2 惫 “ 采用维纳滤波的好处是增强后的残留噪声类似于白噪声, 伏的音乐噪声。 2 2 3 谱减法和维纳滤波法的比较和联系 ( 2 - 2 4 ) 而不是有节奏起 基于语音短时谱估计的语音增强方法都可写成统一的表达式 s 。= g 。e ( 2 2 5 ) 式中匕为观测信号在第n 个频点上的谱分量,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 物业企业战略联盟合作续约合同及资源共享方案
- 机械臂式管道清理设备的应用技术研究
- 楼盘活动策划方案
- 金库建筑项目方案设计书
- 2025年光伏电站智能化运维管理平台在光伏电站智能运维服务模式变革中的应用报告
- 2025年古典吉他乐理题库及答案
- DB65T 4378-2021 滴灌冬小麦化肥农药减施增效技术规程
- DB65T 4353-2021 风力发电机组塔筒倾斜度测量方法
- 2025年教育行业质量评估与认证体系下的教育改革趋势报告
- 动画专业面试题目及答案
- 高中心理健康课程《人际关系-寝室篇》课件
- 水产微生物学
- 电力系统继电保护课程设计报告-三段式距离保护
- 香港永久性居民在内地所生中国籍子女赴香港定居申请表
- 部编人教版五年级上册小学道德与法治 第5课 协商决定班级事务 课件
- 跨境电商亚马逊运营实务完整版ppt课件-整套课件-最全教学教程
- GB∕T 31038-2014 高电压柴油发电机组通用技术条件
- 基层工会经费财务规范化建设
- 亚硒酸 MSDS危险化学品安全技术说明书
- 预防接种家长课堂(课堂PPT)
- 重庆高等教育学会2017-2018年高等教育科学研究课题拟立
评论
0/150
提交评论