(模式识别与智能系统专业论文)基于gmm的声音信号分类器研究.pdf_第1页
(模式识别与智能系统专业论文)基于gmm的声音信号分类器研究.pdf_第2页
(模式识别与智能系统专业论文)基于gmm的声音信号分类器研究.pdf_第3页
(模式识别与智能系统专业论文)基于gmm的声音信号分类器研究.pdf_第4页
(模式识别与智能系统专业论文)基于gmm的声音信号分类器研究.pdf_第5页
已阅读5页,还剩67页未读 继续免费阅读

(模式识别与智能系统专业论文)基于gmm的声音信号分类器研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 声音信号的分类是模式识别技术的一个重要应用方向。近年来它从语音识 别技术等具体的模式识别应用技术中汲取了大量的有益经验并根据自己的特 色,发展出了有自己特色的研究成果。与此同时,这一技术也存在着许多问题, 集中于怎样从声音信号中提取出表征信号本身的比较稳定的特征信息,以及怎 样改进训练方法使其针对现有的特征改进训练方法得到推广性更强的模型。本 文将详细介绍作者攻读硕士学位期间在基于高斯混台模型( g m i s ) 的声音信号 分类器方面的一些工作。 我们首先研究了今年来基于声纹的说话人识别技术,特别是文本无关的说话 人识别。在分析了对说话人识别效果影响的一些因素的基础上,建立了一个文 本无关的说话人识别系统。并针对现有建模技术对距离度量的不合理性,以及 对数据间共有信息的忽视,提出了基于方差共享的结构聚类方法挖掘了相近 类中数据所包含的共有信息,更为有效地刻画了数据的分布状况。这个方法在 一定程度上解决了数据稀疏问题。 其次,基于g m m 的说话人识别系统框架和技术,研制开发了油田管道声音信 号艨测系统。浚系统在实际使用中取得了较好的效果。在系统的开发过程中 仔细分析了m f c c 特征提取方法对声音信号特征的提取,并针对实际信号对该方 法作了改进。同时,针对实际工程的需要,实现了定点程序的声音信号分类系 统,并将识别过程中求取所有高斯组件的概率打分和作了改进,提高了识别速 度,识别率基本保持不变。 再次,在油田管道声音信号分类系统开发过程中,采集并建立了大量的现场 信号,为声音信号的进一步分析提供了数据保障。 本文提出的各种算法和以及改进都在实际信号中作了大量测试验证其效果, 并在试验后作了有针对性的分析。 关键词: 浯音识别投术,模式识别,高斯混合模型( g m m s ) ,m f c c a b s t r a c t s o u n dc l a s s i f i c a t i o ns y s t e mi so n e i m p o r t a n ta p p l i c a t i o nf o rp a t t e r nr e c o g n i t i o n r e c e n ty e a r s ,s o u n dc l a s s i f i c a t i o ns y s t e mb e n e f i t sa l o tf r o mt h er e s e a r c hi nt h ef i e l d o f p a t t e r nr e c o g n i t i o ns u c ha sa u t o m a t i cs p e e c hr e c o g n i t i o n ,e t c ,a n di s b e c o m i n ga r e a s o n a b l es e l e c t i o na si n d e p e n d e n tr e s e a r c h a s p e c t h o w e v e r , t h et e c h n i q u eo fs o u n d c l a s s i f i c a t i o nh a sm a n yq u e s t i o n st ob es o l v e d ,w h i c hf o c u s e so nh o w t og e tm o r e m b “s tf e a t u r ef r o ms o u n ds i g n a l a n dh o wt o i m p r o v et h et r a i n i n gp r o c e s st o g e t r o b u s tm o d e l sb a s e do nt h ec u r r e n tt e c h n i q u eo f f e a t u r ee x t r a c t i o n t h i sd a p e rw i l l p r e s e n ti nd e t a i lt h ea u t h o r sr e s e a r c hw o r ko nt h e s ep r o b l e m si nt h ec o u r t so f s t u d y a sam a s t e rc a n d i d a t e f i r s t l y ,w ed os o m ew o r kt ou n d e r s t a n dt h es p e a k e r r e c o g n i t i o nt e c h n i q u eb a s e d o ns p e e c h s i g n a l ,e s p e c i n l yo nt e x t i n d e p e n d e n ts p e a k e rr e c o g n i t i o n a f t e rt h e a n a l y s i so fs o m ef a c t o r si n s p e a k e rr e c o g n i t i o n ,w es e t u po n et e x t i n d e p e n d e n t s p e a k e rr e c o g n i t i o n s y s t e m w ef i n ds o m e u n r e a s o n a b l e q u e s t i o n o nd i s t a n c e m e a s u r e m e n ta n dt h e n e g l e c to ft h em u t u a li n f o r m a t i o nb e t w e e nd a t ao fd i 艉r e m 8 0 u n dc l a s s e s s ob a s e do nt h e s e f a c t o r s ,w ep r o p o s e dan o v e lm e t h o d n a n l e l v c o v a r i a n c e 。t i e dc l u s t e r i n gm e t h o d ,t om i n i n gt h em u t u a li n f o n n a t i o nb e t w e e nd a t a o fd i f f e r e n tc l a s s e s ,a n de f f e c t i v e l yt a k ei nm u c h i n f o r m a t i o no fd a t ad i s t r i b u t i o nf o r d i s t a n c em 。8 s u r e m e n tt h i sm e t h o d c a r la v o i dd a t a s p a r s e n e s st os o m ep u r p o s e 第一章绪论 中科院自动化所硕士学位论文 s e c o n d l ub a s e do nt h eg m m ss y s t e m f r a m eo ft e x t - i n d e p e n d e n ts p e a k e r r e c o g n i t i o n ,w ed e v e l o p e d t h es y s t e mo fs o u n dm o n i t o rf o ro i lp i p e l i n e t h i ss y 3 t e r n g e t sb e t t e rp e r f o r m a n c ei n t h ea p p l i c a t i o n i nt h ed e v e l o p m e n to fo i ls y s t e m ,w 。 a n a l y z e d t h em f c cm e t h o do ff e a t u r ee x t r a c t i o nf o rs p e e c hs i g n a l ,a n di m p r o v e i tf o r t h eo i ls o u n d i nt h e s a r f l et i m e ,i no r d e rt omt h er e a l i z a t i o n i nh a r d w a r e ,w e a c h i e v e dt h ei n t e g e rp r o g r a mf o rt h es o u n dc l a s s i f i c a t i o ns y s t e m ,a n dm o d i f i e dt h e r e c o g n i t i o np r o c e s s t os a v em o r et i m ew h i l et h er e c o g n i t i o nr a t ei sa l m o s t i n v a r i a b l e t h i r d l y , d u r i n gt h ec o u r s eo fd e v e l o p i n gt h es o u n dm o n i t o r f o ro i lp i p e l i n e ,w e c o l l e c tt h es o u n d so fo i lp i p e l i n ea n dc o n s t r u c t e dac o r p u so f a c t u a ls o u n da n de n s u r e t h ef a r t h e rm a a l y s i so f p i p e l i n es o u n d s k e y w o r d s o u n dc l a s s i f i c a t i o ns y s t e m ,p a t t e r nr e c o g n i t i o n ,a u t o m a t i cs p e e c hr e c o g n i t i o n , t e x t i n d e p e n d e n ts p e a k e rr e c o g n i t i o n ,c o v a r i a n e e - t i e dc l u s t e r i n gm e t h o d ,g m m s , m f c c , 致谢 在论文刘将完成之际,我想向所有关心爱护我的亲人、老师和朋友们表示最 衷心的感谢,也希望我三年以来认真完成的这份劳动成果能给你们带来几许欣慰 和快乐。 首先,我要感谢我的导师徐波研究员。是他亲手指引我进入了声音信号分类 研究领域,并存研究方向、研究内容和研究重点等多个方面给我指导和教诲。徐 老帅渊博的学术知识和严谨的治学态度给我留下深刻的印象,尤其让我佩服的是 他始终如。、孜孜不倦的工作态度。两年以来,徐老师的言传身教令我受益匪浅, 对我今后的发展也必将大有帮助。 我还要感谢语音组的其他各位老师,他们是黄泰翼研究员、宗成庆副研究员、 刘文举副研究员、张树武副研究员和蒲剑涛。各位老师工作兢兢业业,特别是黄 老师,花甲之年尚自耕耘不辍,让我敬佩万分。 我尤其要感谢语音组的全体同学对我的帮助和支持。在这样一个充满活力、 团结友爱的集体中学习和生活的经历,必将成为我人生中最美好的回忆。衷心感 谢贸磊、陈振标、丁鹏、丁国宏、贾川、刘洋、张化云、胡伟湘、张翼燕、王卓、 胜民、韩兆兵、祝韶晖、朱一b 、张健等各位同学,与他们的交流和讨论给我 极大的帮助,他们的真诚和热情令人难忘。 我要感谢实验室和自动化所的各位领导和工作人员,你们辛勤的工作为我们 提供了方便的学习和工作环境。 我要感谢班上的各位同学和朋友,尤其是我的室友何余良、王东升、陈龙宾 和信伦, i 午以来我们在学习上相互促进,生活卜彼此关心,结下深厚的友谊。 最后,我要感谢我的亲人,尤其要郑重对我的父母道声谢谢。是你们二十多 年来h 夜操劳、默默奉献将我培养成人,是你们无时无刻给予我关心、照顾、支 持和鼓励,是你们使我感受到世间最无私、最伟大的爱。本文敬献给你们。 第章绪论 中科院自动化所硕士学位论文 第一章绪论 本章将介绍语音分类技术发展的概述以及面临的问题,并以此延伸到声音信 号的分类,从而阐明论文工作的背景;在分析了当前语音分类技术研究的现状 后,提出了论文工作的目的,并简要介绍了论文工作的主要内容。 1 1 研究目的和意义 声音是遍布在人类社会中,无所不在,无所不有的一种自然现象。它冲击着 人的听觉器官,给人类带来对事物更新的认识。同时作为一种最方便快捷的 交流手段,在语言出现以后,它极大地推动了人类社会的发展。 语音是人类社会中最自然流畅、最方便快捷的信息交流方式。当把语音信号 转化为文字,就得到语音信号中的文字内容或者更准确的说是文本信息,这就 是语音识别问题。这一问题作为语音问题中最重要、最困难的问题得到了充分 的研究,取得了令人瞩目的成就;除此之外,语音信号还反映了说话人的性别, 方言或语种,身份地位,情绪,年龄,健康状况,受教育程度等等各种各样的 信息。语音分类所研究的就是从人的语音信号中提取可以进行个人身份认证、 或者特征分类的信息。由于同样的处理人的语音信号,语音分类从语音识别领 域借鉴了许多重要的技术和成果,同时也为语音识别提供了有益的帮助。 说话人识别是语音分类的核心问题,信息技术的发展同时也给说话人识别技 术提供了更为r 。1 阔的空间。简单来讲,具体的一些应用方向如下【4 8 :、权 限控制。用于计算机网络或网站的控制权限,也可用于密码的自动重置服务。 、交易授权。例如电话银行除了使用帐户权限控制,更高级的认证技术可 以用 j 更敏感的交易或事务。另外,远程电子交易中的身份认证也是近年来的 个应用方向。、法律的执行。用于对滞留在家的假释犯的监视( 随时联络 中科院自动化所硕十学位论文 声音信号分类器 假释犯,保证其呆在家里) 和监狱的电话监视。现在还有一些讨论,希望使用 自动系统对声音采样进行确认以用于刑事分析。、语音数据管理。 同时,作为生物特征识别问题的一个子问题,与指纹、虹膜、脸孔和笔迹等 特征一起成为进行生物身份认证的重要手段。与指纹、虹膜等特征相比,语音 信息进行身份认证具有十分显著的优点:( 1 ) 、在移动互联网迅猛发展的今天, 用户访问数据的手段更加方便和快捷,手机,p d a 等通讯设备的使用已经成为一 种时尚。现有硬件空间使得语音成为最自然方便的用户界面,不需要额外的增 加任何硬件设备,非常便于推广。( 2 ) 、它是远程身份认证技术的合理选择,它 所依赖的语音数据可以方便地由现代远程通信设备进行采集,使得用户可以随 时随地地访问远端数据库;( 3 ) 、它是真正无接触,非侵犯性认证,即在使用过 程中不需要与用户的肢体发生接触;( 4 ) 、针对现有的远程通讯系统,语音身份 认证可以直接嵌入到当中,身份确认于“谈笑间”。由于对用户是透明的,从而 提供了一种防止恶意侵犯摹仿登录的严重后果的方法。 声音识别同样具备了说话人识别的大部分优点,广泛地应用于各种认证系统 中。目前针对声音的检测系统,往往要依赖于人做出判断,造成了大量的人力 浪费。而且,当检测人员疲劳的时候,容易造成失误,这样就带来了不必要的 损失。如果能够使用声音分类设备对信号进行分类,就可以减少检测人员的工 作量,同时也避免了人为的失误。石油和天然气是目前国家主要的自然资源。 如果能够有效地防止偷盗事件的发生,就可以为国家减少大量的损失。目前在 各大油f = 【1 企业,对偷盗石油的行为往往要依靠两种手段:一是依靠传输两端的 油量测量;由于石油是一种粘稠性液体,石油在油田管线的传输,往往需要加 温打压。这样,造成了油量检测的不准确性。其次由于油管很长,为了防止误 报,系统中留有大量的冗余度。当偷盗者偷盗的油量不是很大时,依靠油量检 测的系统就失去了他应有的意义。二是依靠巡线员每日在油f 日管线上巡逻:石 油为了远距离传输,管线不仅距离长,而且被埋入地下,这样巡线员只能依靠 留在地面上的印记作为判断偷油行为的依据。而目前在油田发生的偷盗行为, 第一章绪论 中科院自动化所硕士学位论文 偷盗者一是不会在油管附近留下明显的标记,其次也不会在现场直接进行偷油, 再者偷盗行为往往在晚上发生。这样,如果不能在偷盗者破坏石油管线时当场 抓获,巡线员也难以找到被破坏的油管,进行必要的补救。而且偷盗者在油管 上留下了暗门,如果不能及时地发现,偷盗行为就会成为一个经常性的行为, 给企业带来大量的损失。如果能够使用声音分类器对油田管线上的声音进行分 类识别,不仅减少了巡线员的工作量,而且能够实时对偷盗行为进行监测,为 油罔石油天然气的监控提供了一个有效的手段。 1 2 研究现状 1 2 1 语音分类技术综述 说话人识别是语音分类的核心问题。说话人识别任务有许多类型。一般来说, 可以分为三类:说话人辨识( s p e a k e ri d e n t i f i c a t i o n ) ,说话人认证( s p e a k e r v e r i f i c a t i o n ) 和说话人探测腽艮踪( s p e a k e rd e t e c t i o n t r a c k i n g ) 。说话人辨认是指, 给定一个用户集,当用户集中的某个用户进行测试时,系统把他( 她) 从给定 的用户集中区分出来。用公式表示为厂( 局= 1 , 2 ,n ) :说话人确认是针对单个 用户,即通过用户测试语音来判断其是否就是其所声明的用户身份,可表示为 i , f ( 2 ,f ) = 0 ,1 ) ;说话人探测是指对一段包含多个说话人的语音,要正确标注在 这段语音中说话人切换的时刻,可表示为f ( y ,i ,f ) = o ,1 ) 。值得一提的是,前两 个问题在某种程度上是相通的,即如果把说话人确认问题看作是一个两类的说 话人识别问题,则其基本算法是一致的。 另外,声纹识别任务从对语音的要求上可以分为三类:与文本无关的说话人 谚 别( t e x t i n d e p e n d e n ts r ) 、与文本有关的说话人识别( t e x t d e p e n d e n ts r ) 和文本提示的说话人识别( t e x t p r o m p t e ds r ) 。与文本无关的说话人识别指模 型训练语料不要求特定的语言和内容,而且训练语料与测试语料之间也不要求 中科院向动化所颂 学位论文 声音信号分类器 一致;与文本有关的说话人识别指模型的训练语料是由用户按照给定的文本朗 读得到,测试语料应与训练语料相一致;文本提示的说话人识别技术是指用户 根据系统提示的内容发音测试。具体的内容是由系统根据某种规则产生。其中, 文本无关的浣话人识别在使用上讲是最为方便和自然的。用户不必记忆密码和 其他信息,用户的密码就是他本身固有的声纹特征。另外,内容无关就意味着 对用户没有任何显性的限制,用户在发音过程中甚至无法察觉到认证过程的进 行:,这就在一定程度上减轻了对于会有恶意摹仿的担心。 基于以上原因本文着重研究的是文本无关条件下的说话人辨认和说话人确 认问题。 蚓 i 说话人识别技术基本框架图 上图为况话人辨认技术的基本框图可见主要的处理步骤可以简洁的表示为 几个变换。定义信号空间s ,特征空间f ( 其中的每一个点都是由一帧语音提取 出的一个特征向量,其维数由特征提取算法决定) ,共有n 个说话人,则上述系 7of0 统可以表示为:s 斗fj 1 ,2 ,) ,其中,映射t :saf 表示特征 提取,映射,1 f0 【 1 , 2 ,n ) 就是分类任务的形式化表示,换句话况映射厂就是 说话人识别这任务所要寻找的在某种特定意义下最优的分类器。值得指出的 是,在把用户输入的语音提取成一系列的特征矢量之后,特征矢量之间的序列 关系被忽略水计,这对的说话人建模问题就转化为一个构造静态分类器的问题。 第一章绪论 中科院自动化所硕士学位论文 研究人员在以上框架中的各个环节都做出了卓有成效的研究。 在特征提取部分,采用的技术与语音j = 别技术中的相应模块基本相同:输入 的语音信号进行的一系列初步变换,包括加窗处理( h a m m i n g 窗) 以及预加重等; 将数字语音信号从信号域变换到特征域,包括l p c ( l i n e a rp r e d i c t i v e c o f f ic i e n t ) 以及把l p c 在转化成倒谱系数进行处理,l p c 残差【1 】, m f c c ( m e l s c a l ef r e n q u e n c yc e p s t r a c o e f f i c i e n t ) ,以及声调信息【2 】等; 对提取得到的倒谱系数进行差分处理来引入动态信息【3 】:另外有研究人员对 倒谱系数进行滤波,来消除慢变的信道噪声【4 】:等等。可见,几乎所有语音 识别系统中的特征提取技术在说话人识别中都有应用。 在模型训练部分:语音识别中的主流建模技术h m m 同样被应用到说话人识别 中对发音特点建模【5 】,但是存在着很多局限性:矢量量化方法( v e c t o r q u a n t i z a t i o n ) 应用到晓话人识别中比h m m 方法更为适宜,得到广泛的应用1 6 1 ; 主流的建模方法是1 9 9 5 年提出的高斯混合模型法( g a u s s i a nm i x t u r em o d e l s ) , 这一方法相当于单状态的h m m 模型,并采用e m 算法来进行模型参数的估计【7 】; 基于高斯混合模型的自适应方法比较显著的提高了系统性能:有的研究人员采 用模型的区分度训练方法【8 】;其他的一些建模方法,如神经网络,支持向量 机技术也被用来进行晚话人建模 9 1 。 在判决准则部分:根据说话人辨认和说话人确认两个任务的不同,同样有非 常丰富的研究,主要涉及背景模型的选取,判决门限的设定【1 0 】等方面。 说话人识别技术是利用语音进行身份认证的主流,同时研究人员也致力于发 掘其他语音信息来帮助进行身份认证【l l 】【1 2 】。一般的身份认证主要采取的 是三类身份认证信息【1 3 】:一是你捌有些什么,例如身份证、护照等:二是你 知道些什么;主要指的是个人的私人信息,目前网络身份认证中普遍采取的就 是这种方法,这种方法由于充分利用了用户个人信息的私密性而具有很高的安 全性。三是你“是”什么;主要指个人的私人特征,例如指纹,虹膜,声音, 脸相,笔迹,掌纹等等。基于语义的身份认证方法语音借助对个人私人信息的 中科院白动化所硕十学位论文 声音信号分类器 描述,将第二类信息结合到声纹识别中【1 4 1 ,具有高度的有效性。 尽管说话人识别技术已经得到了比较充分的研究,但是在实际中还是存在不 少的问题。说话人识别中怎样为每个说话人训练比较合适的反模型;判决门限 怎样能比较灵活的选取;特征提取之后的特征向量中不同意义的特征分量是否 会相互影响;足否存在更为有效的分类方法,等等许多问题还是需要进一步的 研究解决。 1 22 声音分类技术综述 声音的分类技术中最基本的一个问题就是语音和音乐的区分相对来讲 两种摄普遍和重要的声音。鉴于语音和音乐在多方面的不同,例如音调、频带 f 宽度、激励方式、音调的持续时间,能量序列【1 5 】等等。s a u n d e r s 【1 6 利用 平均过零率和能量特征,采用门限比较的方法,试验取得了很好的效果。s c h e i r e r 和s l a n e y 使用了时域、频域和倒谱域共1 3 种特征,并使用了一些基本的分类方 法( m a p ,g m m ,k n n ,e t e ) ,取得了鲁棒性的效果。这两种方法的试验结果 均给出了9 0 以上的识别效果。这也说明了,语音和音乐具有不同的谱分布和 短时变化模式【1 7 1 ,因此,并不难产生一个好的识别结果。声音信号的进一步 分类需要考虑更多的信号,w y s e 和s m o l i a r 开始研究音乐、语音、和其它声音 三类信号的分类问题【 8 1 。在他们的工作中先根据在一个窄带频域中存在一 定峰值的信号的平均时间长度,将音乐信号提取出来;然后,根据基频的轨迹 提取语音信号。他们将这种方法用在了新闻故事的解析上。k i m b e r 和w i l c o x 也 提出了一种类似的声音分类方法,将声音分为语音、笑声、非语音( 例如音乐) 、 以及其它无用的信息【1 9 】,并把语音按照说话人进行分类。该方法采用倒谱系 数作为特征,并使用了h m m s 的建模作为分类器。p f e i f f e r1 2 0 1 则针对声音基 本属性的分析物理属性,心理学上的听觉属性和生理属性,从幅度、频率、 摹频,以及人类声音感知的模拟出发,提取特征分割数据流和识别音乐。这些 特征也可用j j 对包含暴力信息的声音检测。针对语音、音乐、环境噪声和静音 第一章绪论中科院自动化所硕士学位论文 的典型分类系统还有【2 1 】。该系统使用了六种特征:高过零率比率、低短时能 量比率、谱通量、l s p 距离量度、子带周期和噪音帧率,采用自顶向下基于规则 的区分方法,首先利用前四种特征,借助k n n 和l s p 分析,区分语音和非语音, 然后利用后三种特征进一步分类为音乐、环境噪音和静音。 声音分类系统中,还有许多专业信号的分类问题,例如军事上所使用的声纳 信号【2 2 1 ,以及我们下面所要讨论的油田管道上的声音信号等。它们已经不具 备通用的价值,但在各自的应用领域,都具有它广阔的应有前景和实用价值。 1 3 论文的组织结构 本文其它章节的内容组织如下: 在第二章中,将对声音分类技术进行简要的介绍,主要内容包括声音识别原 理和识别系统框架,语音信号的前端处理,以及模型的建造。 在第三章中,将具体讨论在文本说话人识别过程中各个环节对识别系统的 影响,并通过试验数据分析了m f c c 倒谱特征中各维对识剐效果的影响,以及 在数据不足的情况下,利用二叉树的结构进行方差映射,以及二叉树聚类的方 法对高斯混合模型的建模。 在第四章中,将具体讨论油田检测系统的构建,识别系统的框架和组成。并 对识别器各个环节对识别结果的影响进行了讨论。 最后,在第五章中对本文的工作进行了总结,并提出了下一步工作的期望。 声商信号分类器中科院自动化所硕士学位论文 第二章声音信号分类主流技术介绍 本章将详细介绍声音分类系统中所使用的主流技术,并在典型系统的框架 下,分别讨论信号的端点检测、特征提取、模型的建立、判别准则以及通道补 偿技术。 21 声音信号分类的系统框架 前面我们已经介绍了,从说话人识别任务上分,可以分为说话人辨识( s p e a k e r i d e n t i f i c a t i o n ) ,说话人认证( s p e a k e r v e r i f i c a t i o n ) 和说话人探测雇艮踪( s p e a k e r d e t e c t i o n t r a c k i n g ) 。通常来讲,声音信号的分类包括两部分,声音信号的辨识和 声音信号的确认。 h 堕型! p 1 p 判 i 别 准 ; 则 冈, 图2 1 声音辨识系统的简单框架 上图是声音辨识问题的简单系统框架图。从上图可知,声音辨识是闭集问题, 所以我们也可以认为它实质是一个直向最大可能分类器。具体来讲,对于一个 包含s 种信号的已知候选集甲= l ,2 ,a ,研,其中每种信号具有一个模型 五1 丑z ,a ,五。,那么声音辨识就是相当于在该模型集中寻找能够使特征序列 _ + 斗 _ + ,= ( 亿l ,j 一厂,) 具有最大后验概率。如果使用基于最小错误率的贝叶斯决策, 第一章说话人识川主流技术介绍 中科院自动化所硕士学位论文 问题描述如下 雪= a r g m 。;,a ;x 。p r ( 五,i 声) ( 2 1 1 ) 如果假定每种信号具有相同的先验概率,那么p r ( 五。) 和p ( 声) 恒为常值,因 此可以被忽略。则 = a r g m a x p ( 簪l ( 2 1 2 ) 被认定的声音 一_ 判 信号模型 别 准 y n 一鸶喜囊篷羞卜 则 图2 2 声音信号确认的简单系统框架 上图是声音信号确认系统的简单框架图。从上图可以看出,声音信号的确认 问题是一个二分问题,即 o ,1 ) 。当识别结果是0 的时候,该声音信号被否认, 即系统认为这种声音与被声明的声音不是同一种声音;当识别结果是1 的时候, 该声音信号被确认。使用假设理论框架,对于一个给定的特征序列 f = ( ,j ,a 厂,) 和一个被认定的声音信号,那么认证系统需要在两个选择 ( h 。日。) 中进行抉择。 。:f = 一, ,a :,) 来自被认定的声音种类。 中科院自动化所硕t 学传论文 声音信号分类器 h + :f 。: z ,元,az ,并非来自被认定的声音种类。 这样,声音确认实质是一个二分问题,似乎要比声音辨识要简单,但实际上 更难。 2 2 端点检测技术 端点检测位于信号的预处理阶段,目的是去除不包含有用信息的信号,从而 提高对声音模型建模的准确性。因此,端点检测实质是一个典型的分类问题, 即将输入的声音信号分为有用声音和背景噪声两类。 声音信号分类不同于语音识别,分类系统本身并不包含单独的噪音模型概 念,因此对于噪音数据,在模型训练中,往往会作为有用声音数据的部分, 从而对声音信号模型产生一定的于扰,使模型间的区分性降低;在分类器中, 一段声音的似然积分将被噪音所分散,导致分类准确性的降低。如果能够从背 景嗓音中检测出有用信号的端点,删除不包含有用成分的背景噪音,减少了数 据量,从而也降低了系统计算和处理的时间【2 2 】。 语音信号的端点检测算法的研究是目前研究最广泛的,因此,我们下面将针 对语音信号的端点检测算法来对声音信号检测的思想进行回顾。 总体来讲,一个好的端点检测算法应该具有以下性能 2 3 】:( d 、在信噪比 较低的情况下( 如:在汽车噪声中、在麦克风噪音中、在有嘈杂人声的环境中 等) ,仍应浚具有端点的检测能力;、对于一些能量较低的有用信号,能保持 良好的检测性能;、能有效地对字问间隙进行平滑,消除字间间隙对端点检 测可能造成的误判。 对于这一两类分类的问题,目前主要的方法可以大致分为两类 2 4 】:、 基于门限区分的方法:直接在信号中提取具有区分性的特征,在特征层上设定 合适的门限进行比较,或是采取某种较复杂的判别机制将二者进行区分;、 模式匹配的方法:采用建立不同模型,在识别层上进行打分比较。 第章说活人t 【 圳i 流技术介纠 中科院自动化所硕七学位论文 2 2 1 基于门限的方法 在基于门限的端点检测算法中,最常用的特征主要有短时能量、过零率 2 5 】、 基频和语音熵。短时能量又包含了短时全能量 2 6 1 、听觉范围( 3 0 0 - - 3 7 0 0 h z ) 的带通能量、高频区间( 2 k - - 4 k ) 的能量、峰值、l p c 残差的能量【2 7 】和噪 声滤波后的能量。 其中,最简单直观的就是基于短时能量的方法,其检测过程类似于一个四过 程的状态机:噪声,噪声到语音的过渡态,语音,语音到噪音的过渡态。通过 对门限值的比较,来判断该短时信号属于哪种状态。但该方法有一个很大问题 就是鲁棒性的问题。当信噪比很低的时候,系统会引入以下三种错误 2 8 1 :1 ) 、 丧失了对能量低的摩擦音的检测能力;2 ) 、容易把其它能量高的突发噪声( 例 如滴答声、枪声等) 归为语音;3 ) 、容易把背景噪音当作真实的语音,而把真 正的语音丢弃了,尤其在b a b b l e 噪音环境下。于是,有人看到了各种能量尺度的 各自的特点,提出了使用多种特征融合的端点检测方法【2 9 】。短时全能量和听 觉范围( 3 0 0 一3 7 0 0 h z ) 的带通能量是比较常用的两种能量尺度;高频带的能量 能够有效地检测辅音。不用低频段能量,是因为有些噪音,象汽车噪音,就集 中在低频段;峰值有助于检测浊音;l p c 残差能量对低频噪音比较鲁棒:而噪 音滤波则有助于去除背景噪音的影响,往往使用前端非语音建模的维纳滤波器。 作者使用了卜述六种能量尺度,在各个特征各自门限判别的基础上,使用c a r t ( c l a s s i f i c a t i o na n dr e g r e s s i o nt r e e ) 建模的方法,综合各个特征的预分类结果, c a r t 作最终的判定。结果证明,较单种特征判别,准确率提高了4 1 0 。 短时过零率也常作为端点检测的一个特征,其定义为 1 z 0 z 。:争兰f 。g 。( 钆( 。) 一s g n ( 虬,一1 ) ) 其中s g n ( x ) : 。实验证明, = 0 一1 x 0 清音的短时能量较低,但短时过零率却高于浊音和噪音。在信噪比较好的情况 f ,短叫过零率作为端点检测的一个辅助手段,能够起到很好的作用。 巾科院 动化所倾十学位论文 声音信号分类器 基频是一个重要的代表语音激励源周期性的重要特征,它包含了语音信号的 韵律信息。由于浊音具有明显的周期性,因此通过检测浊音可以用来检测语音 信号的端点。但是,试验结果表明,在纯净语音环境下,效果很好。但在信噪 比较低的情况下,由于受噪音的干扰,信号基频提取的准确率很低,性能迅速 下降。【2 9 1 指出在某些噪音情况下很难准确提取基频参数,而且不能解决b a b b l e 噪音f 的检测问题。 利用编码理论的信息熵理论,有人根据语音和噪音熵的差异性,提出了谱熵 理论【3 0 1 。为了加大区分度,作者统计了大量语音的频谱分布,用于计算熵的 生 公式中对每一项的加权求和:h = 一w p l o gp k 。改方法在低信噪比和 t ;l 非平稳噪声f ,尤其是机器声,更为有效。但是谱熵不能解决b a b b l e 声和音乐 声背景下的检测,因为b a b b l e 和音乐声的谱熵与音乐近似。有人针对这个弊端, 将能量和谱熵两种特征结合起来【3 l 】,取长补短。试验证明,使用这种熵一能 量特征,较单独使用能量的方法提高了1 0 。 混沌和分形的方法也被用于了端点检测。【3 2 1 通过研究混沌系统的循环时 阳j 统计量,发现在时间序列中的非平稳性和暂态是由于信号的非循环性和缺乏 分形结构导致的。作者利用p o i n c a r e 循环度量确定用于端点检测的平稳性的变 化,提出平均p o i n c a r e 循环点数变化算法检测时间序列中的状态转移。试验表 明,该方法对不同类型的噪声都具有很好的鲁棒性,尤其是在低信嗓比下。 如何确定门限值的方法主要有三种【3 3 】:第一种方法基于在噪声中的语音 信号的短时l o g 能量的分布柱状图呈双峰分布。这两个分布可以用两个高斯密度 函数近似,从中可以找到一个统计优化的决策门限,如图2 3 所示。第二种方法 有两个门限,分别作为起点门限和终点门限。起点门限是过去的平均对数能量 值e 加l i ;w 定值e 。d b ,这个固定值e 。反映了噪声的变化。在语音段,e 的大小 不变,所以 h 噪音能量在语音段改变很大,终点门限就会做出错误的检测。 第三种方法认为噪音的对数能量分布较语音更易建立模型,所以在非语音段持 第一章说话人b 荆寸搦c 技术介绍 中科院臼动化所硕士学位论文 续地估计噪声地均值u 和方差o 。起点门限和终点门限都具有类似的形式,t 。 “+ 。o 。对应不同的门限,a 有不同的门限。这种方法在慢变的非平稳噪声 环境下较前两种方法更有效。 图2 3 能量检测方法的l o g 能量直方图表示 2 2 2 模型匹配的方法 米尔倒谱系数( m f c c ) 是语音识别器常用的特征,是根据人的听觉系统提 取的声学特征。 3 4 】中用m f c c 作为分类特征,建立噪音模型,计算每帧信号 对噪音模型的似然打分,将得分与门限进行比较,把每帧信号初步分为语音和 噪声,最后有一个根据多帧信号的分类情况平滑和判断的过程。整个过程分为 三步:训练、检测和自适应。其中,训练是指估计噪声模型的参数,每个特征 分量为单高斯建模。自适应是为了解决训练环境下和测试环境下的不匹配,动 态调整模型的参数。试验结果指出,在强嗓音的隋况下,浚方法优于短时全能 量和基频的方法。【3 5 】将l d a ( l i d _ e ,a rd i s c r i m i n a t i v ea n a l y s i s ) 用于m f c c , 使得m f c c 如同。个单系数用于端点检测。l d a 的目的在于对端点检测分类的 问题,找到了一个线性函数来最大化类问差异,最小化类内差异。经l d a 线性 中科院自动化所硕十学位论文卢音信号分类器 变换的m f c c 特征结合能量获得好于短时全能量方法的效果,尤其在噪音环境 下( 1 5 d b 以h ) h m m 模型方法是比较常见的模型匹配方法。1 3 6 提出h m m 模型方法, 分别用一个h m m 模型对背景噪声和语音建模,取得了较好的效果,但是单个 h m m 模型不足以描述所有可能出现在端点附近的因素,所以1 3 7 提出了为语 音建立多个h m m 模型的方法。首先提取特征,然后用一数帧长的滑动窗,沿 时问轴移动。根据检测目的,假设每个滑动窗被分为一前一后的噪音和语音两 部分或是语音和噪音两部分。对噪音部分计算在噪音的h m m 模烈下的前向概 率,对语音部分,分别计算在多个语音h m m 模型下的前向概率并从中挑选最 大的概率作为语音部分的概率,将两部分的概率相乘作为联合概率,所要求的 端点即是联合概率最大的地方。这种方法需要事先用b a u m w e l c h 算法训练模 型。试验结果表明当噪声的谱特性和语音相差越大时,如低频噪声,检测性能 越好。 2 3 特征提取技术 语音信号中携带有许多有用的信息,这些信息在说话人识别起决定性作用。 但是语音信号本身非常复杂,受到通道、噪声以及某些超语言学因素的影响, 因此也混杂了大量的冗余信息。特征提取就是要把表示这些有用信息的参数从 语音信号中提取出来,并且要尽量避免通道、噪声等因素的干扰,还要保证参 数的形式和运算环要太复杂。好的语音特征参数,应当具备以下几个特点:首 先要能有效地代表语音特征,包括声道特征和听觉特征,具有很好的区分性; 其次在各阶特征参数之间要有良好的独立性:最后特征参数要计算方便,最好 有高效的计算方法,以保证说话人识别的实时性。 第一章说活人识别主流技术介绑 中科院自动化所硕士学位论文 一 2 3 1m f c c 特征提取 m i ? c c 倒潜特征1 3 8 1 是目前说话人识别中主要使用的特征。下面以m f c c 特 征参数为例讲述特征提取的过程( 见图2 4 ) 。 图2 , 4m f c c 特征提取过程 假设有离散时域语音信号s ( 功,可按下列步骤提取m c c 特征参数: 1 ) 预加重( p r e e m p h a s i z e ) : 在提取语音特征参数之前,先要对语音信号进行预加重。由于声门脉冲形状 和口唇辐射的影响,语音频谱呈现高频衰落的现象( 约为5 d b o c t a v e ) ,能量大 多集中于低频带【6 】。通过预加重进行高频提升,可以使语音频谱趋于平缓, 有利于后续识别。通常的做法是使用个简单的一阶有限冲击响应( f i r ) 滤波器: h ( z ) = l 一口三,0 9 口1 0 ( 2 - 3 1 ) 其中口可以是固定值,也可以是根据背景噪声等进行自适应得到的变化值, 通常取口= 0 9 7 3 9 】。 语音信号s ( n ) 经过预加重后,得到j ( 仃) : s ( n ) = s ( n ) 一a s ( n 1 )( 2 3 2 ) 2 ) 分帧( f r a m i n g ) : 语音信号是典型的非平稳随机信号,具有“短时性”,其频谱特性随着时j - b j 显著变化。但是浯音信号的这种非平稳性主要来自于发音器官的物理运动过程, 相对于声波振动的速度来讲要缓慢得多,所以在一段较短的时间间隔内( 长度 中利院臼动化所碗十学位论文声音信号分类器 在1 0 5 0 m s ) ,可以假定语音信号是“准平稳”的【6 】1 2 5 】。在短时平稳的假 设前提下,就可以利用短时傅立叶分析等稳态分析方法来对语音信号进行频谱 分析。因此在对语音信号进行特征提取时,通常把语音信号分割成长度为2 0 3 0 m s ,= 步长为1 0 1 5 m s 的相互重叠的语音帧( f r a m e ) 。 如果将语音s ( n ) 分割成包含个采样点的帧,帧步长( 帧间不重叠部分的长 度) 记做m ,不妨设s ( n ) 共含有上帧,将其中的第f 帧记做x ,( ) ,则有: x ,( 月j = s ( m l + n ) , = 0 , 1 ,a ,n 一1 ,f = 0 , 1 ,a ,工一i( 2 3 3 ) 3 ) 加窗( w i n d o w i n g ) : 为了去除短时帧两侧语音信号的影响,通常要对各帧语音信号做加窗处理。 汉明( h a m m i n g ) 窗是语音特征提取时最常用的窗函数,其定义为: w ( n ) = 0 5 4 - 0 4 6 c o s ( 是) ,o _ n _ n - i 叫, 将x ,( ) 经过加窗处理后,得到;,( n ) : 4 ) 快速傅立叶变换( f f t ) 、计算能量谱 0 月s n 一1 ( 2 3 5 ) 利用短时傅立叶变换( 7 点的f f t ) 将时域信号变换为频域信号,再计算 其频谱幅度的平方,得到信号能量谱。 以:篁

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论