




已阅读5页,还剩51页未读, 继续免费阅读
(通信与信息系统专业论文)语音识别中置信度技术的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 语音识别中置信度技术的研究 专业: 通信与信息系统 硕士生:樊丽辉 指导老师:张军教授 摘要 语音识别技术也称自动语音识别,是将人的说话内容转换为机器可以理解的输 入的技术。语音识别技术在实践应用中遇到了很多挑战,例如随机噪声,信道失真, 说话人变化等其他一些不匹配因素。针对这些因素,一方面可以通过专门的技术来 提高语音识别系统在上述不利条件下的鲁棒性。另一方面,考虑到语音识别系统必 然包含着错误的识别结果,通过置信度使得系统输出可靠性比较高的结果,而对于 不可靠的识别结果进行其他的处理,使得系统的性能在一个可以接受的范围内。 当前语音识别技术的主流是基于经验风险最小化原则的隐马尔可夫模型 ( h m m ) 。由v n v a p n i k 等人提出的支持向量机分类技术( s v m ) 是基于结构风险最小 化原则,它有很好的泛化能力,算法具有全局最优性。本文主要研究语音识别中置 信度估值方法及其应用。本文主要针对在h m m 框架的基础上的置信度的研究主要 包括:置信度信息源的选择及综合;信息综合模型的选择等。 本文构建的语音识别系统针对汽车环境语音识别,识别系统由识另u ( r e c o g n i t i o n ) 和验i 正( v e r i f i c a t i o n ) 两个部分组成。识别部分,语音信号的特征通过h m m 识别器, 得到识别结果及相关的信息,作为s v m 多分类器的分类对象,得到分类结果。验 证部分,s v m 进行二分类,对分类结果即识别结果信息作置信度评价。本文的创新 点:结合多分类s v m 的h m m 识别器,并将s v m 的输出作为置信信息的来源之一。 同时,本文对s v m 的多分类、输出概率化及大量数据训练问题进行了研究。s v m 多分类器与二分类器在识别与验证两个阶段的应用有效降低了系统的等错误率 ( e e r ) 。 关键词:语音识别,隐马尔可夫模型,支持向量机,置信度 英文摘要 r e s e a r c ho nc o n f i d e n c em e a s u r ei ua s r m a j o r :c o m m u n i c a t i o na n di n f o r m a t i o ns y s t e m n a m e :f a nl i h u i s u p e r v i s o r :p r o f e s s o rz h a n g j u n a b s t r a c t s p e e c hr e c o g n i t i o na l s on a m e da u t o m a t i cs p e e c hr e c o g n i t i o n ( a s r ) i sa na p p r o a c h t ot r a n s l a t i n gh u m a ns p e e c hi n t om a c h i n el a n g u a g et h a tm a c h i n ec a l lu n d e r s t a n d t h e r e a r em a n yc h a l l e n g e sw h e na s ri sa p p l i e dt or e a ls y s t e m n o r m a l l y , s y s t e mp e r f o r m a n c e u s u a l l yd r a m a t i c a l l yd e g r a d e sb e c a u s eo fr a n d o mn o i s e s ,c h a n n e ld i s t o r t i o n s ,s p e a k e r v a r i a t i o n sa n dm a n yo t h e rm i s m a t c h e s o nt h eo n eh a n d ,m a n ya p p r o a c h e sh a v ea l r e a d y b e e nu s e dt oi m p r o v er o b u s t n e s so fa s rs y s t e mi nt h er e a le n v i r o n m e n t o nt h eo t h e r h a n d ,c o n s i d e r i n gt h er e s u l t so fa s rs y s t e ma l w a y si n c l u d ei n c o r r e c tr e c o g n i t i o no u t p u t s i n e v i t a b l y , r e s e a r c h e r sh a v ei n t r o d u c e dc o n f i d e n c em e a s u r e ( c m ) t oo u t p u tt h o s em o r e r e l i a b l er e s u l t s m e a n w h i l ec mc a nd e a lw i t hu n r e l i a b l er e s u l t st ol i m i ta s rs y s t e m s i m p r o p e rp e r f o r m a n c ew i t h i na na c c e p t a b l er a n g e c u r r e n t l y , t h em o s tp o p u l a rf r a m e w o r ko fa s r i sh i d d e nm a r k o vm o d e l ( h m m ) , w h i c hb a s e do ne m p i r i c a lr i s km i n i m i z a t i o np r i n c i p l e v n v a p n i ke ta lp u tf o r w a r d s u p p o r tv e c t o rm a c h i n e ( s v m ) t h e o r yw h i c hi sb a s e do ns t r u c t u r a lr i s km i n i m i z a t i o n ( s i t ) t h i st h e s i sd i s c u s s e dt h ea p p l i c a t i o no fc mi na s r r e s e a r c hw o r ko fc m i nt h i s t h e s i si sb a s e do nt h eh m m f r a m e ,i n c l u d e s :c o n f i d e n c es c o r es e l e c t i o n ,c o m b i n a t i o n , c mm o d e ls e l e c t i o na n ds oo n i nt h i st h e s i st h ei n - v e h i c l ea s rs y s t e mc o n s i s t so ft w op a r t s :r e c o g n i t i o na n d v e r i f i c a t i o n i nt h er e c o g n i t i o np a r t ,s p e e c hs i g n a l sw e r ep u ti n t ot h eh m mr e c o g n i z e r a n dr e c o g n i t i o nr e s u l ta n do t h e ri m p o r t a n ti n f o r m a t i o nw e r ep a s so n t ot h es e c o n dp a r t i n t h ev e r i f i c a t i o np a r t ,ab i - c l a s sc l a s s i f i e rb a s e do ns v mi su s e dt oe v a l u a t et h er e c o g n i t i o n r e s u l t i nt h i st h e s i s ,s v ma n dh m mw e r ec o m b i n e d ,s o m ei s s u e se n c o u n t e r e dd u r i n gt h e e x p e r i m e n ta l s od i s c u s s e d ,s u c ha s ,m u l t i c l a s s i f i c a t i o no fs v m ,p r o b a b i l i s t i co u t p u t sf o r s v m ,l a r g es c a l et r a i n i n gs e tf o rs v ma n ds oo n s v mu s e da sm u l t i c l a s sc l a s s i f i e ra n d t w o - c l a s sc l a s s i f i e ri nt h ea s r s y s t e mr e d u c e st h ee q u a le r r o rr a t ee f f e c t i v e l y k e y w o r d s :a s r ,h m m ,s u p p o r tv e c t o rm a c h i n e ,c o n f i d e n c em e a s u r e 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所 取得的成果。除文中已经注明引用的内容外,本文不包含任何其它个人或集体已经发表 或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方 式标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名: 蝴埠 日期:加加年莎月2 日 使用授权声明 本人完全了解中山大学有关保留、使用学位论文的规定,即:学校有权保留学位论 文并向国家主管部门或其指定机构送交论文的电子版和纸质版,有权将学位论文用于非 赢利目的的少量复制并允许论文进入学校图书馆、院系资料室被查阅,有权将学位论文 的内容编入有关数据库进行检索,可以采用复印、缩印或其他方法保存学位论文。 学位论文作者签名: 蝴 日期:劢7 d 年易月2 日 、 导师签名:力 学孚 1 日砌口年6 月多 语音识别中置信度技术的研究 1 1 课题背景 1 1 1 语音识别 第一章引言 随着信息时代的到来,计算机成为人类生活中不可或缺的工具,为了使得人机 交互界面的更加友好,让计算机“听懂”人类语言的技术,即语音识别技术便应运 而生。语音识别,又称自动语音识另l j ( a u t o m a t i es p e e c hr e c o g n i t i o n ,a s p ) ,一般是 指机器通过学习实现从语音信号到文字符号的复杂过程。从上世纪5 0 年代第一台语 音识别机器的诞生起,让机器计算机识别并理解人类的语言这项工作已经进行了 6 0 多年。人与机器自由交流的理想,激荡着人类的创新欲望,研究人员投入了大量 的精力去制造这样的机器,虽然让这样的机器去理解任何人在任何环境下所讲的任 何主题仍是语音识别的终极挑战,但是,语音识别理论已经获得了令人瞩目的成就, 从动态时间弯折( d y n a m i c t i m e w a r p i n g , d t w ) 算法的出现,到线性预测编码( l i n e a r p r e d i c t i v ec o d i n g , l p c ) 的应用,特别是隐马尔科夫模型( h i d d e nm a r k o vm o d e l s , h m m ) 的应用使得非特定人大词汇量连续语音识另l j ( l a r g ev o c a b u l a r yc o n t i n u o u s s p e e c hr e c o g n i t i o n , l v c s r ) 算法逐步成熟,是语音识别技术发展道路上的里程碑。 语音识别技术的发展使得它的应用也日趋广泛。从最初只能识别自己名字的玩 具狗“r a d i or e x ”,到贝尔实验室开发的可以识别l o 个英文数字的a u d r e y 语音识 别系统,再到李开复实现的大词汇量连续语音识别系统s p h i n x 及在股票交易、电话 语音拨号、听写机技术的成功使用,都让人们对语音识别的未来充满憧憬。 1 1 2 置信度研究 语音识别得到了飞速发展,但是语音识别理论和技术应用到实践当中也出现了 很多问题,使在实际应用中往往得不到理想的结果。这与诸多因素,例如随机噪声, 信道失真,说话人变化等其他一些不匹配因素有直接关系,因此越来越多的研究致 力于提高语音识别的稳健性。另一方面,如何使系统能在一定程度上输出相对可靠 的、正确的识别结果,而忽略那些不可靠的、有很大可能是错误的识别结果,也是 研究的重要方向。由此,语音识别中引入了置信度概念来度量一个被识别的结果是 正确识别结果的程度。 1 第一章引言 语音识别是一个复杂的分类任务,语音识别系统是为机器学习和模式识别的一 个领域。现在主流的语音识别系统一般基于h m m 框架,h m m 已经成功解决语音 识别领域的评估、状态序列、训练三大问题【l 】【2 1 。 虽然建立在隐马尔可夫模型基础上的语音识别取得了一定成功,但它仍存在着 一些问题【3 】。相应的,利用v n v a p n i k 等人提出的支持向量机分类技术( s u p p o r t v e c t o rm a c h i n e ,s v m ) ,利用核函数( k e r n e lf u n c t i o n ) 提高数据的维度把非线性分类问 题转换成线性分类问题,在一定程度上解决了传统算法中训练集误差最小而测试集 误差仍较大的问题。理论上s v m 基于结构风险最小化原则,有很好的泛化能力, 算法具有全局最优性【4 1 。 现实生活中,识别器( r e c o g n i z e r ) 试图理解说话人( s p e a k e r ) 所说的语音( s p e e c h ) 时,可能会遇到以下几个难题: 1 说话者周围环境的噪声过大。 2 语音传输媒介的影响,如电话( 有线电话或者移动电话) 信道。 3 说话者语音为某种方言或者带有口音。 4 说话者所说的词为词表外词( o u to f v o c a b u l a r y , o o v ) 。 5 说话者说话不流利或者不清楚。 还有很多因素都会降低了语言识别系统的整体性能。而本文着重研究的置信度 就是解决这一问题较为有效的方法之一。 置信度研究的重要意义主要表现在以下几个方面【5 】: 1 在孤立词语音识别系统中,提高拒识能力:在实际系统中,置信度对集外 词的拒识能力具有重要意义,可以减少系统的误操作,提高系统可靠性。因此识别 过程中得到了相应的置信度,就可以通过门限减少系统的误操作。 2 提高关键词检钡1 ( k e y w o r ds p o t t i n g ) 系统的检测效率:目前关键词检测系统 的主要机制就是先给出大量的候选,降低系统漏报,然后用置信度度量方法,确认 这些候选哪些是比较可信的,降低系统误报。关键词检测系统希望同时降低漏报和 误报率,其性能就跟于置信度的选择有相当大的关系。 3 大词汇量连续语音识别系统的无监督自适应:在无监督说话人自适应中如 果使用全部的识别结果作为自适应数据,错误识别的部分就会影响自适应的效果, 因此如果引入置信度算法,将相对比较可靠的数据挑出来,将识别不可靠的数据去 掉,这样就可以在一定程度上提高自适应的效果。 2 语音识别中置信度技术的研究 4 在声学模型轻监督( s l i g h t l ys u p e r v i s e d ) i j l l 练中的应用:在某些语音识别系统 中最大的困难是标注语音比较少,训练数据不充分。实际中通常采用的作法,是用 现有的通用声学模型与相关的语言模型去自动标注语料,将标注比较可靠的用于训 练,如此循环,以提高系统的性能。置信度的应用与在无监督自适应中的应用类似, 只是数据量更大。 5 在多识别系统识别结果融合中的应用:不同的语音识别系统,虽然识别率 相差不多,但识别结果上的差异往往比较明显,这说明这些系统中具有一定的互补 性。如果能够根据置信度将这些识别结果整合成一个新的结果,就可能提高系统的 识别率。 置信度在语音识别系统中具有很多应用,对推动语音识别技术向实际应用具有 重要意义。 1 2 国内外的研究现状 国外语音识别技术的研究比较早就起步了,美国的国际电话电报公司( i t t ) ,b e l l 实验室,i b m ,m i c r o s o f t ,l & h 等研究机构及公司相继投入到语音识别技术的研究 中。从基于模板的匹配技术到统计模型技术,从孤立词识别到连续语音识别等等都 是语音识别技术的重大突破。进入2 0 世纪9 0 年代后,针对汉语的语音识别技术也 越来越受到重视。与此同时,我国语音识别研究工作也发展很快,我们国家的8 6 3 智能计算机专家组为语音识别技术研究专门立项,中科院自动化所、中科院声学所、 北京大学、清华大学等,都取得了一定成果,并且应用到实际生活中。 在2 0 世纪,语音识别大半个世纪的发展历程,研究重点也不断发展。5 0 年代 研究人员致力于探索声学、语言学的基本概念;6 0 年代,语音识别中的几个重要思 想相继出现;7 0 年代,孤立词语音识别技术成功地应用到现实生活中,l p c 和d t w 技术,分别解决了语音信号的特征提取和不等长语音匹配问题,v q 和h m m 理论 的初步提出也成为这个时期的标志性进步。连读语音识别问题则成为8 0 年代的研究 焦点。语音识别研究也向统计模型方法进行转变。9 0 年代之后的研究重点则转向自 然语音的识别处理及人机语音交互,包括口语识别等。进入2 1 世纪,随着消费类电 子产品的普及,嵌入式语音处理技术发展迅速【6 】,基于语音识别芯片的嵌入式产品 也越来越多。 第一章弓i 言 目前在语音识别研究领域非常活跃的方向为鲁棒语音识别或者称之为稳键语音 识别、说话人自适应、大词汇量语音识别、语音识别的置信度评测算法,以及自然 语音的理解【_ 7 1 。置信度技术从关键词识别系统发展而来,现在已经用到很多的语音 识别问题中。8 0 年代,在基于d t w 技术的系统中,采用的是补白模板( f i l l e r t e m p l a t e ) 方法。随着h m m 方法在语音识别中的流行,关键词识别系统采用了与补白模型对 应的垃圾模型( g a r b a g em o d e l s ,也称为f i l l e rm o d e l s 和s i n km o d e l s ) ,垃圾模型成为 置信度技术的主流方法。以及后来补白模型与部分维特比回溯技术( p a r t i a lv i t e r b i b a c k t r a c e ) 等在关键词识别系统中的结果验证部分都得到应用。9 0 年代中期,b o i t e 和b o u r l a r d 等人提出的在线垃圾模型( o n l i n eg a r b a g em o d e l s ) 方法,成为比较验证方 法常用的基准方法。r a h i m 、l e e 、j u a n g 等人提出的反词模型( a n t i w o r dm o d e l ) 起 初用来提高英语连续数码识别率,后来得到广泛应用。随着语音识别系统实际应用 的成熟,人们也注意到o o v 对于系统识别率的较大影响,o o v 的检测对系统的更 新及自然度的提高都有重要作用,其中的方法如:通过新词检测更新词表及语言模 型等。但是,这些置信度技术都是词表任务相关的( t a s kd e p e n d e n to rv o c a b u l a r y d e p e n d e n t ) ,即系统的训练和调试都是针对特定的词表或任务的,词表或任务的改 变需要重新训练系统。随着实时性需求及识别系统需要面向大词汇量任务,置信度 技术开始转向词表任务无关( t a s ki n d e p e n d e n to r v o c a b u l a r yi n d e p e n d e n t ) 系统。而且 这些技术也使语音识别渗透到其他领域,如:自然语言理解、多模式人机交互等。 无监督说话人自适应、文本相关说话人识别等任务也成为置信度技术新的应用场所。 置信度技术在国外已有多年的研究工作,国内的置信度技术研究与国外研究处 在相近的程度,清华大学的郑方、刘加等人所提的方法,都是国内具有代表性的研 究工作。 总的来说,语音识别技术虽然还有面临很多的挑战,但是已经步入实用阶段, 正在向更加实用化前进。而语音识别的研究工作正在朝深度和广度不断发展。 1 3 本文中的语音识别系统 本论文的语音识别系统的基线系统采用一般的h m m 框架。其中语音识别系统 基于模式匹配原理的一般框图如下: 4 语音识别中置信度技术的研究 图1 1 语音识别系统基本原理框图 语音识别系统主要包括: ( 1 ) 语音信号预处理模块:端点检测、去除背景噪声和其他干扰,语音分帧、 去除支流分量及预加重处理等。 ( 2 ) 特征提取模块:语音信号的信息量很大,其中对语音识别有用的信息只 是其中一部分,因此提取可以较好反映对语音识别语音信号特征的关键特征参数用 于模型训练及识别过程更为实用。常用特征有很多:基音周期、线性预n ( l e c ) 参 数、线谱对( l s p ) 参数、美尔频标倒谱系数( m f c c ) 、感觉加权的线性预n ( p l p ) 特征、 口音敏感参数( n s c c ) 等。实际系统中最为常用的为m f c c 特征,本文的识别系统 也是采用m f c c 特征。 ( 3 ) 模型训练模块:利用训练集语音信号特征建立参考模型库,在本文的系 统中为h m m 模型。 ( 4 )识别模块:将测试集语音信号特征与参考模型( 主要包括声学模型) 进行 相似性度量,并结合一定的语言规则进行约束,得到识别结果。 虽然现有的研究成果已经取得令人瞩目的结果,但是实际应用中,语音识别系 统的性能还是不尽如人意,因此也进一步促进了对置信度等语音识别的研究,并且 对各种置信度模型的综合也成为研究的热点之一。 1 4 论文主要工作及论文结构 状。 本文共分为六章进行叙述,其主要内容和框架如下: 第一章介绍了课题的相关背景及国内外语音识别技术及置信度技术的发展现 第一章引言 第二章叙述了置信度在语音识别中的重要作用、分类、技术重点及目前的研究 热点。 第三章阐述了统计学习理论及支持向量机在模式识别方面的应用,l i b s v m 工 具简介。 第四章主要讨论了支持向量机在语音识别中的应用,并对所遇到的问题进行了 解决,如支持向量机的概率化输出、支持向量机作为多分类器、大规模样本中支持 向量机的训练及支持向量机特征信息源的选取与合成,并提出在h m m 语音识别框 架中加入s v m 处理,得到具有更好区分性的置信度。 第五章的主要内容为论文系统的实现及实验结果分析。 第六章对全文进行了总结,并对今后仍需进行的工作提出了一些建议。 6 语音识别中置信度技术的研究 2 1 引言 第二章语音识别中的置信度 在语音识别中,置信度被定义成一个用来衡量模型和观测数据之间匹配程度的 函数,而且这个函数对不同的观测数据具有可比性【8 1 。通常置信度在语音识别中是 一个数值,它用来表征我们对识别器输出单元( 短语、词、音子等) y g i e 确的信任程 度。置信度在语音识别领域起到非常重要的作用,例如:在语音确认、关键词检出、 词表外词( o u to f v o c a b u l a r y , o o v ) 检出等方面的应用。 2 2 定义 本文中将置信度定义为函数c ( x ) ,它具有如下的性质: 如果:事件五发生的可能性比五发生的可能性高,则c ( s ) 满足 c ( 五) c ( 五) ,其中石为事件空间 五,五9 b 9 五,) 中的元素。 置信度在语音识别应用中,可以理解为:设语音的参考模型为形,观测语音信 号特征为o = o id 2 ,d j l ,) ,则d 相对于的置信度c ( oi 形) 表示语音d 是 由语音模型矿产生的可信程度,从而判断识别假设正确与否的程度。 比较通俗的来讲,置信度本质上是正、误两种结果某一方面( 例如:概率分布) 具有较强可区分性的标志信息。例如,声学置信度定义为单独从声学模型得到的值 或者得分( s c o r e ) ,语言模型置信度定义为单独从语言模型得到的值或者得分,联合 置信度定义为声学模型、语言模型的联合得分。 语音识别中,声学模型与相应的词不一定完全匹配,所以用置信度来表征这种 匹配程度的时候就会对置信度有更高的要求,从而更好的区分不同的声学模型。图 2 1 与图2 2 【7 】直观的表现了以语音帧作为度量,模型与其相应词“b e d o u i n ”的音素 的匹配程度,图中实线为音素实例,虚线为音素对应模型,横轴为语音帧即时间, 纵轴为实例与模型的匹配程度即音素级后验概率值。图2 1 为“较差匹配”,图2 2 为“较好匹配”。 7 第二章语音识别中的置信度 毪e h 稿 童i h 堂a h c 曩a l r d o 盘 葛w 爰n 岔 鏊b 鼍b c l o 瓮d x i n s t a n c eo ft h ew o r d ”b e d o u i n ” 。- 一0 一, 。 ! 厂味 一 一厂弋 f 。1 l :列 r 二、d :”。 j , 厂n _ r 7 t 。t 厂邓 5 6 35 6 85 7 35 7 85 8 35 8 85 9 3 t i m e ( f r a m e s ) 图2 1 强制对齐得到的“b e d o u i n 各音素b c lbe hd xa x fwa h1 1 【7 】 磐e h 嚣 兰i l l 笾 釜a h o 盛a x e 2 急w 甾n 2 臻b 嚣 u b c l o 菱d x i n s t a n c eo ft h ew o r d ”b e d o u i n ” 。 ! 厂弋, * _ * w _ 一 y : 1 歹弋之 一。“ z :飞。 f : :腮 y 厂 , 7 , t r n 5 6 35 6 器5 7 j,7 苕5 8 55 8 85 9 3 t i m e ( f r a m e s ) 图2 2 强制对齐得到的“b e d o u i n 各音素b c lbe hd xa x rw i hn 7 】 从上两幅图可以看出,第5 8 6 帧到第5 8 8 帧的语音a h 并没有相应的声学模型与 之对应,而i h 在这段语音帧内却有相应的模型与之匹配,这表明语音音素的混淆是 较为严重的,所以可靠的置信度应该可以将这些模型之间的不同突显出来。理论上 讲,凡是具有这种区分性能的信息均可作为置信度。但也要考虑实际应用中的复杂 度和实际情况需要。 从理论出发,我们可以分为假设检验和模式识别两个角度来理解置信度【7 1 。 语音识别中置信度技术的研究 2 2 1 假设检验 在数理统计理论中,当总体分布的具体参数未知,并且不知道总体分布函数或 只知道总体分布函数的形式时,可以通过对总体进行假设,对总体分布进行拟合, 从而得到总体的某些性质。 语音识别中,置信度原理同样可以用假设检验理论来解释。对于由语音模型集 合中某形得到语音假设结果d 的置信度c ( oi 形) ,则语音识别器的输出结果d 对于 参考语音模型形存在的假设日有两种状态即g o 和q 。 原假设风:假设结果d 由语音模型形产生即识别结果正确。 备择假设h :假设结果。由语音模型形以外的其他模型产生即识别结果错误。 从假设检验角度来讲,就是根据得到的观测样本对所得到的假设做出是接受假 设风还是拒绝假设h o 的判断,从而检验统计量被分成拒绝和接受两个域,对于不 同的空间维数,域的边界呈现不同的实体。落在接受域则接受假设,反之则拒绝假 设。 2 2 2 模式识别 从模式识别角度来讲,可以假设语音模型形为类别l ,除之外的所有模型形 为类别2 。判断语音d 是否由语音模型产生的问题变成判断语音d 是属于类1 还 是类2 的识别问题。假设该问题的识别函数为d ( o ) ,满足 女口果o ( o ) 0 ,贝00 w 。 如果d ( o ) 0 是一个常数。 如果一个问题在其定义的空间中不是线性可分的,可以考虑通过构造新的特征 向量,把问题转到一个新的空间中,这个空间一般比原空间维数增加,但却可以用 线性判别函数实现原空间中的非线性判别函数。 2 1 第三章统计学习理论与支持向理机 3 3 3 核函数 常用的核函数主要有多项式核函数、径向基函数、双曲正交函数。 1 多项式核函数: k ( x ,y ) = ( x 】,+ 1 ) p ( 3 - 6 ) 2 径向基函数( r b f ) : k ( x , y ) - e x p ( 一等) ( 3 7 ) 3 双曲正交函数: k ( x ,】r ) = t a n h ( k x y 一万) ( 3 8 ) 3 3 4 支持向量机的构造 在s v m 理论中,解决一个特征空间中的最优线性分类问题,我们只需要知道 这个空间中的内积运算即可。对于一个非线性问题可以设法将它通过非线性变换转 化为另一个空间中的线性问题,在这个变换空间求最优或广义最优分类面。 如果用内积k ( x ,x i ) 代替最优分类面中的点积,就相当于把原特征空间变换到 了某一新的特征空间,此时优化函数变为: 形( 口) = q 一9 芝 ( 3 9 ) 相应的判别函数也应变为: a i a j y t y j ( x x j ) 矗2 赢( 3 - 1 0 ) 算法的其他条件均不变,这就是支持向量机。 3 4s v m 在语音识别中的应用 虽然现在语音识别系统的主流技术是h m m ,但是其他的一些技术如s v m , m l p 等也在语音识别有一定的应用。其中s v m 用于语音识别已经有一定的研究, 已经有研究将其成功地运用到说话人识别和孤立数字识别任务中。 目前,h m m s v m 语音识别框架,以及在置信度综合中利用s v m 2 7 】【3 4 1 也是 研究的热点。由于h m m 本身的特性,多数对现有连续语音识别方法的改进也都是 基于h m m 基本框架的。从现有的s v m 在语音识别中的应用进行总结可以得到, 2 2 语音识别中置信度技术的研究 h m m 框架中引入s v m 分类器的这种混合建模方法一般有两种:一种是利用s v m 输出带有概率意义的值,作为h m m 的输入通过h m m 进行处理;一种是在h m m 基本输出上应用s v m 作进一步处理。本论文中所用的处理方法即是第二种,将 h m m 的输出作为s v m 的输入。 例如文献 3 5 】中使用混合建模h m m s v m 应用在孤立词语音识别任务中。利用 h m m 的输出信息将语音信号进行合适分段并提取相应的与时间、频率特征,再利 用s v m 对上述的特征进行分类。作者利用此方法使得识别率相对于基线模型有了 1 2 的提升。文章 3 6 】将s v m 应用在汉字数字语音识别任务中,实验结果论证了 s v m 较之于h m m 更强的学习能力和推广能力,及在小样本训练集下s v m 性能更 优。文献 3 7 将神经网络( r o t , r ) 与h m m 相结合构成混合网络,保留了n n 硬件易于 实现的优点,并且两者的结合优于单纯的h m m 和n n 。文献 3 8 】将s v m 与h m m 相结合,s v m 的输出通过s i g m o i d 函数和高斯模型转化为概率,并作为h m m 中各 个状态的输出概率,根据两者的侧重点将它们组合起来,得到很好的效果。其余的, 文献【1 】、【3 】、【3 9 “4 0 也分别对孤立语音识别中s v m 的应用进行了阐述,相对于 h m m 及其改进算法来说,识别结果可比的情况下,速度也有了提高。 h m m 适于处理连续信号,s v m 适于处理分类问题,h m m 更多地表达了类别 内部的相似性,s v m 则很大程度上反映了类别间的差异。 3 5s v m 在本论文中的应用 s v m 作为识别器的主要优点为【3 0 】: 1 在有限样本的情况下,可以得到已有信息下的最优解; 2 算法可以转换为一个二次型寻优问题。从理论上说,可以是全局最优点。 在一定程度上,避免了在神经网络方法中无法避免的局部极值问题。 3 算法将实际问题通过非线性变换转换到高维的特征空间,在高维空间中构 造线性判别函数来实现原空间中的非线性判别函数 本论文选用s v m 作为语音识别系统的辅助识别器,并将s v m 应用于识别结果 的后处理阶段即置信度估值阶段。s v m 的应用在一定程度上是h m m 识别器的补 充。 2 3 第三章统计学习理论与支持向理机 i i 3 6 本章小结 本章主要介绍了统计学习理论的基本理论框架及统计学习理论的核心概念v c 维,并在此基础上引出对支持向量机方法的介绍,对支持向量机寻找最优分类面基 本思想进行了描述,并针对线性可分与线性不可分情况进行讨论,同时,也对s v m 在语音识别中的应用进行了概述,重点讲述了s v m 在本论文中的应用。 语音识别中置信度技术的研究 4 1 引言 第四章基于s v m 的置信度计算 前面的两个章节重点介绍了置信度研究的重要意义及s v m 在语音识别中的应 用。本论文的主要观点为将h m m 与s v m 的优点较为协调的综合起来。s v m 在语 音识别的应用中会涉及到特征选择,分类器的设计,概率化输出及训练样本规模等 方面的问题。 4 2 问题的提出 本论文主要研究语音识别中的置信度方法,重点是s v m 分类器在语音识别置 信度计算中的应用。本论文的主要思路是:s v m 用于处理连续的语音信号,在h m m 语音识别框架中引入s v m 多分类器,利用h m m 识别输出的结果信息对语音数据 进行分段,并将分段后的语音特征作为s v m 多分类器的特征矢量序列,最终得到 s v m 分类结果即识别结果,并选择合适的对象作为基于s v m 置信度信息源,对识 别结果进行验证,得到更为可靠的识别结果。因此,本论文所研究的语音识别系统 的基本框架主要分为语音识别和识别结果的验证两大部分。 在构建识别与验证框架之前,需要解决以下的几个问题: 1 特征维数的变长问题 语音信号在模式识别中属于比较典型的信号,因为需要处理信号的变长模式。 在利用s v m 这个静态模式识别方法处理变长模式的分类问题时,需要把变长的模 式映射为等长的模式。这就需要从变长的模式特征中重新选择一些信息子集,并将 这些信息作为新的特征,以符合s v m 对输入的要求。 2 多分类器的设计问题 单个s v m 是用来完成两个模式分类的,经典的s v m 只给出了二分类的算法, 而在本论文的孤立词语音识别应用中,有多个模式需要区分,因此需要建立多分类 的s v m 来解决多分类问题。在当前的支持向量机领域,多分类算法也是目前的研 究热点。 3 置信度信息源合成问题 第四章基于s v m 的置信度计算 在本论文中,考虑到训练模型复杂度问题,无音调的音节约有4 2 0 类,而音子( 声 韵母) 即声韵母单元的类别不多于7 0 类,所以在本论文中所采用的建模单元为音子 级单元,从而s v m 的输入特征矢量是以音子为单位进地分段的,得到的是音子级 的分类结果,这相对于最终的识别结果还是有一定差别的,需要获得词一级的结果, 因此需要研究从音子级到词级的置信度合成问题。 4 s v m 概率化输出问题 语音识别属于连续输入信号的分类问题,其输出值为o 到1 之间的概率值或不 具有概率意义的得分。但是s v m 的输出值为忽略掉了一些信息,只提供了一个区 分或距离,其分类结果只与输出值的符号有关,需要将其输出值转换为可用的概率 值才能对其进行后续的处理。 5 大规模训练数据问题 传统s v m 算法对大规模训练样本难以实施,由于s v m 是借助二次规划来求解 支持向量,而求解二次规划将涉及m 阶矩阵的计算( m 为样本的个数) ,当m 数目 很大时该矩阵的存储和计算将耗费大量的机器内存和运算时间。 4 3 训练及测试样本等长矢量问题 s v m 是静态分类器,需要用一个固定长度的向量来表示一个样本,但是通常语 音发音长度是变化的。在典型的语音识别问题中,从一个语音样本中可以分帧提取 基本的声学特征,这样可以得到一个以帧为基本单位的矢量序列作为这个语音样本 的特征。在本论文中,虽然所用的语音特征不是通过帧长进行分段,而是以音子 ( p h o n e m e ) 为单位进行的分段,但是发音的长度是变化的,特征矢量序列的长度也是 变化的,s v m 要求输入的模式都必须是维数固定的向量,这就需要从变长的模式特 征中选择其具有代表性的子集作为新的特征,以符合s v m 对输入的要求。对于选 择具有代表性的子集特征在文章 4 1 与 4 2 】中都进行了研究,提出了在最小期望泛性 误差( g e n e r a l i z a t i o ne r r o r ) 的条件下从n 维特征中获得m 维特征或在最大允许泛性误 差条件下获得最小m 值的方法。对应到本论文中所研究的问题,则意味着要把每个 语音模式用一个统一尺寸的向量表示,即“时间对齐 ( 或“长度归一化) 问题。 目前已有一些方法可以将不同长度的特征矢量序列映射为等长的矢量序列,从 而得到符合s v m 输入格式要求的合成矢量。这些方法如:向量平均化、从每个语 语音识别中置信度技术的研究 音段中选择具有“代表性”的观察量。但是这些方法可能会忽略掉许多有效信息。 在文献 4 2 中,将利用全部数据,用这些数据的生成性概率模型定义变长矢量到等 长矢量空间的映射。快速简单的解决方法如线性对齐方法:每一个语音样本按线性 比例抽取出n 个语音帧,每帧语音均提取m 维的声学特征参数,然后这n * m 矩阵 按时间顺序重新排列为n * m 维的矢量,作为s v m 分类器的输入矢量。还可以对矢 量进行线性插值,使得不同维数的矢量转为具有相同维数的矢量。 4 4s v m 多分类问题 由s v m 二分类器构造s v m 多分类器的方法主要有两种:一种是直接构造法, 即在目标函数上将分类面的参数求解,并对分类面参数进行合并,将其归纳于一个 最优化问题中,通过求解这一合并后的最优化问题,实现s v m 多分类。这种方法 的计算复杂度比较高,适合用于小型问题中;另一种是间接构造法,即通过多个二 分类器的组合实现s v m 多分类器的构造,常见的间接构造方法有一对多、一对一 和层次支持向量机方法等。 一对多法( o n e - v e r s u s r e s t ,1 v _ rs v m ) :训练时对样本进行分类,把某一类别的 样本归为一类,剩余样本归为另一类,得到k 个类别的样本就可以构造出k 个s v m 。 对未知样本进行分类测试时,未知样本所属类别为具有最大分类值的那一类。本论 文中所用的s v m 软件工具l i b s v m 中的多分类就是根据这个方法实现的。 一对一法( o n e v e r s u s o n e ,1 v 1s v m ) :训练时对样本进行分类,任选两类样本, 并设计一个s v m ,因此k 个类别的样本就需要设计k ( k 一1 ) 2 个s v m 。对未知样本 进行分类测试时,对未知样本进行投票,未知样本所属类别为最终得到票数最多的 那一类。 层次支持向量机( h s v m ) :首先将所有类别分成两个子类,再将子类进一步划 分成两个次级子类,如此循环,直到得到一个单独的类别为止。 其他多分类方法,如d e c i s i o nd i r e c t e da c y c l i cg r a p hs v m ( d d a g s v m ) 4 3 1 、有 向无环图s v m ( d i r e c t e da c y c l i cg r a p hs v m ,d a g s v m ) 和对类别进行二进制编码 的纠错编码s v m 。 文献 4 4 中也提到了多类判决的理论性解决,而在语音识别的实际应用中,一 般要解决多类的分类问题可以通过文献 4 5 】与【4 6 】提到的方法用多个二类支持向量 2 7 第四章基于s v m 的置信度计算 机的组合来解决。其提到的方法主要有一对多组合模式、一对一组合模式和s v m 决策树;或者通过构造多个分类器的组合来解决。主要原理是克服s v m 固有的缺 点,结合其他算法的优势,解决多类问题的分类精度。 文献 4 7 中对s v m 二分类器构造多分类器的三种实现方法o n e - a g a i n s t o n e 、 o n e - a g a i n s t - o n e 、d a g s v m 进行对比,其实验证明了一对一分类方法精确性较高。 但考虑到s v m 分类器训练复杂度问题,在本论文中,将会采用一对多分类方法构 造s v m 多分类器。 4 5s v m 置信度合成问题 由基本单元的置信度或者置信得分的合成问题大致包括两种,一种是对一定的 单元,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 营销咨询方案(3篇)
- 木质素复合材料生态友好性评估
- 药抗生素使用课件
- 市场对绿色包装接受度分析报告
- 建筑方案设计与总图审批
- 2025版司法局《财产保全反担保申请书》(空白模板)
- 高徽浆灌浆施工方案
- 药品经营监督检查课件
- 中式建筑方案设计图
- 惠农区网络推广营销方案
- GB/T 19227-2008煤中氮的测定方法
- 《鱼》 一种提高士气和改善业绩的奇妙方法
- 民航安全检查员(四级)理论考试题库(浓缩500题)
- 临床护理实践指南全本
- 拆墙协议书范本
- 下肢深静脉血栓及肺栓塞
- 河南省地图含市县地图矢量分层地图行政区划市县概况ppt模板
- 绩效管理全套ppt课件(完整版)
- 钢筋锈蚀原理及应对措施案例分析(54页图文丰富)
- 核电站安全ppt
- 计算机科学技术专业毕业论文--展会管理信息系统设计
评论
0/150
提交评论