




已阅读5页,还剩84页未读, 继续免费阅读
(信号与信息处理专业论文)语音识别基本算法的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
些查奎翌奎兰堡主兰些笙兰一i 堡 摘要 本文的研究取得三项结果:1 ) 提出一种用于实现“语境相关矢量量化”的 算法;2 ) 为解决汉语识别中存在的多字词且词边界不明确的问题,提出一种基 于语言模型概率“等级化”和候选( 多字) 词的( 词图) 启发搜索,从而简化 了汉语识别的“词图搜索”过程:3 ) 阐述了训练数据自动切分及声学模型自动 训练的重复迭代过程,从而给出了实现声学模型自动训练的基本算法。但体阐述 如下: 1 ) 提出一种实现c r 语境相关矢量量化”的i n t e r p o l a t i o n 算法 在目前发表所有的有关文献中,只阐述了语境相关矢量量化算法的基本原 理,均末给出这种算法的具体实现方法。因此,在本文的第二章中,提出一种自 适应地确定分裂增益和融合损失的算法,从全部发音语境中挑选出发音差异最大 的若干语境的训练数据单独构成混合密度中的分量,而发音差异较小的其它语境 的训练数据共同构成一个混合分量。因此,这种算法实际上是一种训练声学模型 的i n t e r p o l a t i o n 算法。 2 ) 提出一种基于语言模型概率“等级化”和候选词的( 词图) 启发搜索算 篮 语音识别由“音节( 词) 树搜索”和“词图搜索”两个过程实现。树搜索用 于确定要扩展的音节或词,而词图搜索用于确定最大后验概率的句子( 词序列) 。 树搜索算法分为时间同步搜索,如v i t e r b ib e a ms e a r c h ,和时间异步搜索,如a 算法。为保证识别率,明确较多地采用a + 算法。彳+ 算法要求快速声学匹配结果 作为启发函数,而快速声学匹配可以采用v i t e r b i 时间同步搜索来实现。词( 音 节) 树搜索的结果为进一步完成词图搜索提供候选( 可能的词串或音节串) 。 词图搜索要求同时使用语言模型概率和声学匹配概率来确定最大后验概率 的词序列( 句子) 。而一般语言模型概率和声学匹配概率是两种不同范围的概率 测度,不能直接共同用于计算词序列的后验概率。为此,本文第三章提出将语言 模型概率按其l o g 值大小等级化,l o g 语言模型概率愈高,等级值愈低。这样, 等级化的语言模型概率可以直接与等级化的l o g 声学匹配概率的时间平均值累 加,而获得似然词序列的后验概率。 为实现词图搜索,在第三章还提出为似然音节解码路径中的每音节分配一 个结构,用于记录其所构成的词在路径中的匹配情况,包括其实际长度,当前已 匹配长度,在路径中的位置,以及声学匹配概率等级时间平均值,等等,从而极 大地简化了词图搜索的实现过程。此外,在词图搜索过程中,用来得到语言模型 第 j页 韭互兰望查兰壁:! 堂丝丝苎:塑兰 概率确证的候选词作为启发函数( 即每一t r i g r a m 或词对的尾词) ,来确定该 t r i g r a r n 的中间词或该词对的头词是否能够构成最大后验概率的句子,从而构成 “启发搜索”。 3 j 阐述了声学模型自动训练的基本原理 当前语音识别系统的进步,不仅体现在系统性能的提高,例如:可以获得较 高的非特定人、大词汇表、连续语音的识别率,及系统应用范围的拓展,如:可 以用于电话语音识别和人机对话系统,等等,而且还表现在当前的识别系统在 很大程度上可以自动构成,如:训练数据可以自动切分和标注,声学模型可以自 动训练,等等。这些进步都是促使识别系统在不断降低研究人员的工作量和工 作强度的前提下,依然能够迅速更新,性能不断提高的重要保证。 训练数据的自动切分及标注是声学模型自动训练的前提。本文第四章将训练 数据的自动切分过程分为四个阶段,第一个阶段是用孤立音节训练的声学模型自 动切分连续语音( 将连续语音切分成音节) ;第二个阶段是用人工切分的( 音素) 初始化训练数据训练音索模型;第三个阶段是用初始化训练的音素模型切分连续 语音( 将音节切分成音素) ;第四个阶段是不断重复音素模型的训练过程及其对 训练数据的切分,直至收敛为止。文中详细论述了用音节模型自动切分连续语音 的方法。 在第四章还阐述了仅凭最大似然性或最大后验概率不能确定语音识别的可 信度,语音识别的可信度必须利用多模态信息处理能力获得,这是因为语音本身 存在着不确定性,必须借助于多模态信息来进步明确。此外第四章还讨论了等 级解码对于提高系统噪声鲁棒性的作用。2 一 ? 第2页 ! ! 塑奎垄查兰堡主兰焦笙茎二丝笪至! ! l a b s t r a c t t h ep a p e rc o n c e r n so n t h e i m p l e m e n t a t i o n o ft h ek e r n e lo fe x i s t i n g s p 。h r e c o g n i t i o ns y s t e m sw h i c ha r e s t a t e - o f - t h e a r t ,a n dp r e s e n t s t h r e e a l g o r i t h m s t o i m p l e m e n t t h e s ek e r n e lt e c h n i q u e s : 1 、a n i n t e r p o l a t i o na l g o r i t h mf o ,f a e i m p l e m e n t a t i o no fc o n t e x t _ d e p e n d e n t v e c t o rq u a n t i z a t i o n i na l lo f t h ec o n c e r n e dp a p e r sh a v i n gb e e np u b l i s h e d ,o n l yt h ep r i n c i p l eo f c o n t e x t d e p e n d e n t v e c t o rq u a n t i z a t i o nh a sb e e nd e s c r i b e d ,a n dn o n eg i v e st h ei m p l e m e n t a t i o n o ft h i sa l g o r i t h m s oa i li n t e r p o l a t i o na l g o r i t h mi sp r e s e n t e di nc h a p t e r2 o ft h e p a p e r ,w h i c ht o b ee m p l o y e di nf i n d i n go u tt h ep h o n e t i cc o n t e x t sw h o s et r a i n i n g d a t a d i s t r i b u t i o na r et h em o s td i f f e r e n tf r o mt h eo t h e rp h o n e t i cc o n t e x t s ,a n de a c h o ft h ec o n t e x t sg a i n sad e n s i t yw i t hi t st r a i n i n gd a t a ,m e a n w h i l ea l lt h eo t h e rc o n t e x t s s h a r eas a m ed e n s i t y a l lt h ed e n s i t i e sa b o v ef o r mam i x t u r ed e n s i t yw i t he a c ho f t h e ma sam i x t u r ec o m p o n e n t 2 ) ah e u r i s t i cs e a r c ha l g o r i t h mb a s e d o nl a n g u a g em o d e l p r o b a b i l i t y r a n k sa n d c a n d i d a t ew o r d sh a v i n gn o tb e e nc o n f i r m e d w i t hl a n g u a g em o d e l p r o b a b i l i t i e s l a n g u a g em o d e lp r o b a b i l i t i e sa r en e c e s s a r yf o rw o r dg r a p hs e a r c h t oo b t a i nt h e w o r ds e q u e n c eh a v i n gm a x i m u ma p o s t e r i o rp r o b a b i l i t y b u tl a n g u a g e m o d e l p r o b a b i l i t y i sd i f f e r e n tf r o ma c o u s t i cm a t c hp r o b a b i l i t yw h i c hi s e s t i m a t e df r o m d i f f e r e n tk i n do fd a t a i nt h i sp a p e r ,l a n g u a g em o d e lp r o b a b i l i t i e sa r ea r r a n g e d i n t od i f f e r e n tr a n k sa c c o r d i n gt ot h e i rl o g a r i t h m i cv a l u e s ,t h eh i g h e rav a l u e ,t h e l o w e ri t sr a n k i nt h i sw a y ,t h ev a l u eo fal a n g u a g em o d e lp r o b a b i l i t y r a n kc a n b ea d d e dt ot h ev a l u eo fa na c o u s t i cm a t c h p r o b a b i l i t y r a n ki no r d e r t oc o m p u t et h e a p o s t e r i o rp r o b a b i l i t yo f t h ew o r ds e q u e n c e a l s oi nt h i s p a p e r ,e a c hw o r di nt h ed i c t i o n a r yf o rs p e e c hr e c o g n i t i o nh a s a s t r u c t u r et or e c o r de a c ht i m ei t sb e i n gu s e di nt h el i n g u i s t i cd e c o d i n gt of i n dt h em o s t l i k e l yw o r ds e q u e n c e ,i n c l u d i n gi t sl e n g t h ,i t sl e n g t hh a v i n gb e e nm a t c h e di naw o r d s e q u e n c e ,i t sa c o u s t i cm a t c hp r o b a b i l i t yr a n k ,a n di t sp o s i t i o ni naw o r ds e q u e n c e , e t c t h eu s e so fe a c hw o r d ss t r u c t u r ec a l l s i m p l i f yt h ei m p l e m e n t a t i o no fw o r d g r a p h s e a r c h i na d d i t i o n a l , 3 ) a p r o c e d u r et oi m p l e m e n tt h ea u t o m a t i ct r a i n i n go f a c o u s t i cm o d e l s 第 1页 韭互銮望奎堂苎主兰些丝苎 一生竺q 三! ! 三 a ni t e r a t i v e p r o c e d u r e i sd e s c r i b e di nt h i s p a p e r t o i m p l e m e n t t h ea u t o m a t i c t r a i n i n go fa c o u s t i cm o d e l s i nt h i sp r o c e d u r e a l lt r a i n i n gd a t aa r ea l i g n e di n t o d h o n e m e - b a s e ds e g m e n tw i t hp h o n e m em o d e l sa n dl a b e l e dw i t ht h i sp h o n e m ea n dt h e l e f ta n dr i g h tp h o n e m e a n da l lp h o n e m em o d e l sa r et r a i n e dw i t ht h e s ea l i g n e dd a t a , t h i sp r o c e d u r ec o n t i n u e su n t i lt h ep h o n e m e m o d e l s p a r a m e t e r sc o n v e r g e n c e t h e e x p e r i m e n tr e s u l to ft r a i n i n gd a t a a u t o m a t i ca l i g n m e n t i sg i v e ni nt h ep a p e ra l s o t h e p e r f o r m a n c eo f t h er a n kb a s e dd e c o d i n gw h e n w o r k i n g i nn o i s ei sd i s c u s s e d 一 第2页 ! ! 互至望查兰堕主兰竺丝墨 一一 致谢 在论文完成之际,我首先感谢我的导师袁保宗教授! 感谢导师在学业上的精 心指导和在生活中的亲切关怀。他对科学事业执著追求的精神和身体力行的工作 作风,深刻影响了包括作者在内的众多的学生。本篇论文自始至终倾注了袁老师 的心血,在此谨表深深的谢意。 感谢林碧琴老师,在语音处理研究室学习、工作的多年期间,总是乐观豁达 的林老师一直为作者提供极大的支持和帮助。对多年来林老师在工作、生活上对 作者的悉心教诲,作者的感激之情难以言述。 阮秋琦教授、裘正定教授在百忙的工作中,经常关,心作者的学业进展、生活 情况,在多个具体的疑难问题上为作者提供了非常宝贵的意见和建议。 唐晓芳老师牺牲了个人的大量宝贵时间帮助作者完成论文的准备和打印工 作,尹作友老师、黄友能硕士为作者使用实验室的各种设备提供了很大的方便, 资料室的雷莉老师为作者查找文献提供了帮助。 在完成论文工作期间,与师姐陈芳博士、师兄傅秋良博士之间展开的多次讨 论,启发作者做了很多尝试性的思考。作者在这样一个充满宽松的学术气氛的环 境中能够自由地思考一些理论性的问题,还离不开赵耀、黄浴、薛健、江铭虎等 博士在学术、生活各方面的关心和帮助。 比作者低几年的在读的博士们,如王海滨博士、丁车博士,和已在大洋彼岸 的师弟侯晓兵博士,平时无论自己工作、学业何等繁忙,都不曾耽搁对作者的 关心和帮助,何伟博士还为作者提供了语音的训练数据。同时,己毕业的蔡平、 张颍、寇园园、兰娟、包江华、孙国冉等硕士,以及在读的舒志龙、陆宽、董娜、 陆俊、刘俊等硕士,数不清他( 她) 们给过作者多少慷慨的帮助。此外,图像研 究室在读的邹国辉、刘汝杰、王延江、刘渭滨、李梦东、刘剑秋等博士,以及卢 耀辉、杨桦、李华、韩旭等硕士在融洽相处的日子里教过作者一些图像处理和计 算机视觉领域的信息理论。最后,作者还必须感谢几位学长在工作经验方面给予 的帮助,李学明博士后、董林博士后曾不厌其烦地教给作者一些有关电路硬件 和做网页的经验。 如果离开上述老师和各位博、硕士的关心和帮助,这篇论文将不可能顺利地 完成。 许晓斌 19 9 9 9 2 0 第 1页 韭垄銮望盔堂堕圭兰竺丝苎兰= 兰_ 至童燮垄一 第一章语音识别概述 近两年,自动语音识别技术取得了突破性的进展。然而,现有系统在噪声 鲁棒性、说话人自适应等方面的性能离实际要求还有差距。为解决这些问题,要 求不断改进声学模型训练和识别搜索的方法。本章要阐述的是:】) 目前语音识 别系统中存在的问题;2 ) 现有系统中使用的核,t l , 技术及其基本原理:3 ) 听觉模 型及其作用:4 ) 本论文要研究的问题及论文的基本结构。 第一节问题与挑战 人们一直梦想着通过语音与机器自由地对话。在这世纪之交,作为多年研究 工作的凝聚,自动语音识别技术在近两年取得了突破性的进展:非特定人、大词 汇量、连续语音识别系统已经可以在安静环境中使用,并且识别率可以达到9 0 左右。 这种系统是在声学模型、语言模型、语言译码算法及大数据量的训练过程的 基础上实现的。其中,声学模型的关键组成部分是与发音语境相关的量化码本和 混合密度;语言模型的基本核心是n g r a m 模型;而语言译码算法都是v i t e r b i 算 法的某种实现,用于声学层的音元匹配和语言层的“词汇获取”( 1 e x i c a la c c c s s ) 两个过程。 可以为语音识别的应用前景勾画一幅蓝图,从中我们可以清晰地看到语音识 别技术芷在和即将进入的应用领域,如图1 一l 所示f 贾颧9 9 9 1 : 即兴语音 说 话流畅语音 风 格 朗读语音 连接语音 孤立发音 图- 1 语音识别技术正在和即将进入的应用领域 就图1 - 1 所示的广泛应用领域而言,现有系统的性能指标还远未满足实际使 用的要求。目前系统存在的问题,主要集中在以下几个方面限c o 】“1 9 9 5 ) : 第 1页 j ! 塑至望查兰苎! :兰堡堡塞兰二兰蔓童塑型塑垄一 声学模型不能自动适应发音特性( 如口音) 和发音方式( 如即兴式语音中的 语速、停顿等) 的变化; 无法消除环境噪声或信道畸变产生的影响,当有环境噪声或信道畸变存在时 语音识别率迅速降低; 声学模型只给出一个最佳声学匹配结果,但不能保证这个结果是否正确,即 不能给出识别的确信度( 或叫做“可信度”,m e a s u r e o f c o n f i d e n c e ) 。 声学模型不能自动完成训练,为保证声学模型的训练的可靠性,需要大量的 训练数据,对这些训练数据的切分和标注要求巨大的手工工作量: 语言模型是通过对大量文本的统计而建立的,难以避免数据稀疏造成的统计 不充分的影响,并且还无法自动获得对文本语意的理解,以及对中文雨言也 不能自动提取句子中的语法结构。 相 对 可 靠 性 高 低 k o 。鼗薪 f ;:_ | j j i :川 k 历西二二二孤立发音会语 灵活性 ( 词汇量、易混淆度、说话风格) 图卜2 现有系统只有在限制应用领域、主题和工作环境 等条件下,性能才能达到为人们接受的程度 由于存在上述问题,为保证可靠性指标,现有系统不得不在一定程度上牺牲 灵活性指标。“可靠性”指标是指:字识别率、n 个最好的候选语句的识别率等。 “灵活性”指标指的是:词汇量、易混淆度、发音方式,以及使用环境,等等。 图1 2 表明“可靠性”指标与“灵活性”指标之间的关系i j 目前j :在限制应用领域 和主题( 词汇量、易混淆度、语法) 、工作环境( 安静、特定麦克风、房间声学 特性) 、发音方式( 语速、发音连贯度和清晰度、口音、方言、儿化音) 等条件 下,现有系统的识别率可以为人们接受。如果放松其中任何一个限制,识别率都 会急剧下降。 第二节语音识别的核心技术 第2页 i ! 互奎望盔兰堡主兰堡丝苎 一兰二重j 墨童望型! 曼! 查一 目前识别系统的核心技术对基于二值规整编码的语音识别是必要的。这些核 心技术是:基- t - h m m 的声学模型、基于m e l 标度临界频段的特征矢量、语言译 码的基于v i t e r b i 搜索和启发搜索( h e u r i s t i cs e a r c h ) 的词汇获取算法、基于简化 声学模型的快速声学匹配,以及统计语言模型。 2 1 声学模型 每一个声学模型对应于一条具有特定拓扑结构( 即状态及其之间的转移路 径) 的m a r k o v 链,后者由一定数目的状态和状态转移构成,并用状态转移的分 布密度、转移概率来描述。为实现非特定人、大词汇量的连续语音识别,其中每 个状态转移的输出都是用( 高斯) 混合密度( g a u s s i a nm i x t u r ed e n s i t y ) 来描 述f j “b e i l e 9 8 r d 8 ,1 9 9 0 x o h u a n g 、9 9 0 lr 8 a h ,1 9 9 4 l ,因而可以表示出状态输出的多种 变化特性。不仅如此,而且,为了能够在每一个状态转移的输出中描述特征矢量 的动态变化特性,混合密度中的每一个混合分量不仅包括m e t 倒谱矢量的统计特 性,而且还包括一定时间间隔( 2 0 8 0 m s ) 的一、二阶差分倒谱矢量,以及瞬时 能量、( 1 0 9 ) 基音频率的一、二阶差分的统计特性( 通过训练而获得的结果) x d h u a n g ,1 9 9 3 0 】【l r 8 a h l ,1 9 9 5 1 。一般地,每个混合密度由4 i o 个混合分量构成。 2 2 特征矢量 基于r e e l 标度的临界频段( 经过能量滤波) 倒谱系数( m f c c ) 作为特征矢 量,特征矢量的各维分量之间的相关性较弱,与声学模型关于特征矢量的g a u s s 分布及协方差矩阵的对角化的假设吻合得更加一致【贾颞,1 9 9 9 儿陈景东1 9 9 8 1 。m f c c 的 提取过程如图1 3 所示。通常取1 1 2 阶倒谱系数而忽略0 阶倒谱系数,这是为 了避免频段能量包络中无用的直流强度对特征矢量的影响。由于高频频段能量幅 度一般较低,所以往往需要进行预加重,但这与对高阶倒谱系数进行加权【陈景 东”1 是完全不同的两个概念。高阶倒谱系数加权是为了加强频段能量包络中变 化较剧烈的波形部分( 般是特征较集中的区域) 在特征矢量中占有的比重。 注意到图1 3 中m e l 倒谱系数是通过m e l 滤波而得到的l o g 频谱再经过余弦 变换( d c t ) 而得到的,不同于定义中的:倒谱系数是l o g 频谱的f o u r i e r 变换 这一基本概念。这是因为,用于计算倒谱系数的l o g 频谱是实对称函数,因而其 f o u r i e r 变换就是余弦变换。 语榔u 婴卜伍j 辽 r - 二t 二一一一 m e i 矗* 叶cl o g 叫d c t 卜e i 斟谱系数 第 3 页 i ! 查奎望查堂堡兰= 兰堡堡墨堡二! l 至童兰生! ! ! 查一 图i - 3r e e l 倒谱特征提取框图 2 3 搜索算法 搜索算法用在语音识别的最后阶段:声学匹配和语言解码过程。目的是为了 获取具有最大后验概率( m a x i m u map o s t e r i o rp r o b a b i l i t y ) 或者是最大似然的 c m o s rl i k e l y ) 音节序列和词序列,如图1 - 4 所示,图中的译码器包括声学匹配和 语言解码。 图1 4自动语音识别系统的一般结构示意图 为了节省计算开销并且不牺牲识别率,识别过程是基于启发搜索来完成 v i t e r b i 译码,启发搜索用于寻找落入一定门限宽度内的候选音节序列和词串,根 据后者确定最大似然的词序列而实现“束形”搜索( b e a ms e a r c h ) 。【p 5g o p a l a k r l s h n ”, 1 9 9 5 在语言译码过程中,要求基于语境知识和语言模型构成启发搜索。脱离开语 境知识和语言模型,每个发音都对应着多个可能的结果( 称为“发音困惑度”) 。 如果再加上噪声的影响,或者是即兴式语音( s p o n t a n e o u ss p e e c h ) 的语速急剧变 化和发音断续现象的影响,语音识别的准确性更难以得到保证。然而,就人的听 觉感知而言,听者理解一个语句的速度几乎不受发音困惑度的影响。事实上,在 听一个语句的过程中,对大多数发音的理解几乎是在对该发音的听觉感知刚一结 束就已经完成。这一点说明短时语境知识对语音感知过程的启发搜索起着主要作 用。 2 4 语言模型 字( 词) n g r a m 模型【f 川“e k 、1 9 7 6 1 9 8 5 i i l 8 8 a h l ,1 9 8 3 1 和有限状态文法( f s g 第 4 页 j ! 塑奎婆奎鲎堡兰兰垡堡墨 一一童二墨j 墨量篓型! 垦! 查一 蠢n i t e s t a l e m 礅a r ) 是当前识别系统中最为常见的语言模型。n g r a m 模型是通 过对丈量文本谗料的统计褥到的,一般多用的是t m i g r a m 、b i g , r a m 、t r i g r a m 二枰 模型。事实上,n g r a m 模型楚“语境树”统计语言模型( t r e e b a s e d s t a t i s t i c l a n g u a g e m o d e l ) 的特殊形式【l 8 8 a h l 1 9 8 9 b 1 n 。黼模型存在的主要阀题是“数据鞴疏”导致某些语境现象不能褥到可靠 的统计 l r b 曲 ,1 9 8 3 1 7 。嘛2 - 9 弧1 9 9 ”。语境的拓震即n 的增加,可以降低识剐过 程中的语言困惑度,有利于掇嵩识别率。但是另方蕊,隧着n 的增加,为保证 各萃孛可能的谬境都得到可靠、充分的统计,所要求的统计语料的规模拇以攒数量 绂“爆炸”,面实际的统计语料总是有限的,因此数据稀疏的问题将随着n 的增 加而变得更加突磁【轹景象1 9 9 8 】l 贾鞭,1 9 9 引。解决这个问题的方法之一楚进行数据平滑 s m k a t z 、:9 8 7 i f 蚓i n e o ,1 9 8 5 硅r l a u 、1 9 9 孤。实际上,数据平滑算法都楚以不同的方式, 对不同形式的等价类叫c 1 ”咄撑轴的出现频度进行估计。 阍一语意存在多种表达方式,奢限的文本语料不可能覆盖膨套可能出现的语 意,同时难以覆盖同一语意的所有可能的表达方式。只有基于等价炎避彳亍统计, 才能获得可靠的统计结果。对予西文语言,词住是较好的一种等价类,这是茵为 蕊文的词性很少随语境变化。丽汉语的词性则恰恰相反,词性往往陡语境方式变 化,难以获褥显蔫的统计结果。对予汉语恧害,多字调体现出对搬邻字的一秽滚 意上的约束。事实上,中文是将同音或阉形字与不同的话节或字进行组合而表达 出不问的语意。所戳,多字词可戳看作是汉语中的一种萋本的语法结构。 第三节对声学模型的分析 3 。l 声学模型与语音感知的关系 声学模型不仅描述了语音的产生梳理,而且在一定程度上也同样反映出语音 的昕凳感知机璎。 声学模型( h m m ) 描述了听觉对语音的兰个声学感知层,分别为特征提取 屡、短时记忆匹配爨、长时记忆匹醚爨,如图l 。5 鼹示。其中,短时记忆匹配层 桶当子h m m 中由各个状态和状态转移构成的m a r k o v 链。它将提取出的连续多 犊特征矢量按照时浠顾净构成一个高维矢量( 通过颓时记忆丽实现) ,然后耨该 离缎矢鬟对各个h m m 状态转移进行韪配,取其中后验概率最高的一个状态转移 作为匹配结果。长时记忆匹配熙根攮短时记忆旺既层中对各个h m m 状态转移产 生的匹配结果而获得艇个特征矢麈序歹u 的声学匹配概率( 通过长时记忆丽实 现) 。 葵5页 兰童銮璧盔篓釜主鐾垒燕塞一一墨= 曼- 至堂里垡塑! ! i 一 短时记忆选配 h m m 敲卷 嚣l + 5 错觉对语密豹三个声学惑氟屡 可以认为,上述声学匹配概率的大小,反映在听觉中枢内是听觉中枢神经元 产生臼冲动强度和持续时间,声学匹配概率愈高,神经元冲动的强度愈高,持续 时间落愈长。 3 。2 声学模型的原理 h m m l k b a k e , r , 1 9 7 5 1 铲j e l l n e k ,1 9 7 5 ,1 9 7 6 1 采掰豹是掇大辍然( m a x i m 暂掰l i k e l i h o o d ) 骧理。当h m m 豹冬释参数不辫变化爨。这晕孛方法找出数据豹最大后验概率 ( m a p ,m a x i m u m 据p o s t e r i o r p r o b a b i l i t y ) 。对最大后骏概率的钴冀是剿用b a u m 和他在美国防部系统分析研究所的同事们发明的个有效的迭代训练过程 r l 8 8 a u r a ,9 6 b 1 9 7 2 】完成的。这个过程有各种叫法,如f o r w a r d - b 口c k w 口r d ,b a “ w e l c h ,e x p e c t a t i o n m a x i m i z a t i o n 算法。下面先解释一下h m m 作为声学模型的 原理,然蔚阐述如何安现厢于训练h m m 参数的e m 算法。 3 2 1酬的基本原理 h m m 用于描述各种袭现为m a r k o v 过程的信号统计特性,当作为语音信号 的声学模戮不言而喻地认为:语音信号中的每一个特征矢量都看作是m a r k o v 状态( 转移) 的输出。那么,如何精m a r k o v 状态参数来掐述语音信号的统计特 性? 每一条m a r k o v 链由若干个状态及这魑状态之间的转移构成。当俸为声学模 型时,其中饪个状态( 或状态转移) 的输密蒸有不溺的獭率分布密度。正是游 子h m m 状态输出其毒这一特羰鹊表珑形式,决定了语音馕号中侄一模特缝矢蹩 作为一个h m m 状态( 或状态转移) 熬羧匙不再是按“o l ”约概率采分礴,弱 是具有个概| 攀密度函数。 竣出愚“o 一】”分毒蛇戋爰态( 转移) 是可聪测瓣,换句话说,霹以凌寇每 个特征矢爨是哪一个状态( 转移) 的输出:丽输出是概率密度函数的状态( 转移) 就无法做至这一点,因此称之为是“不可观测”的。因此,一般常用“隐会,来 强调h m m 的这种不确定性,抉句话说,强调的是:对于h m m 而亩,无法确定 第6爱 垄塑窒望叁堂堡生兰堡堡兰 墨二兰堕童巡垄一 某帧特征矢量是否是某一个h m m 状态( 或转移) 的输出,而只可确定该帧特 征矢量作为某一个h m m 状态( 转移) 的输出的概率密度。 每一个h m m 的状态转移概率和输出分布( 密度) ,必须使其所有训练数据 作为它的输出的平均后验概率为最大,而这些状态转移概率和输出分布可以用 e m 算法来估计。e m 算法多用于从观测不完全的数据( 或者是不可完全观测的 数据) 中“抽象”出具有最大似然性的“特征”( 或称为“参数”) ,有关e m 算法的一些注释可参看本论文的附录b 。 3 2 2 e m 算法的原理 声学模型是根据有关训练数据的最大平均后验概率来训练的,所以先来阐述 如何计算训练数据的后验概率。 假设一个h m m 得到u 个训练数据,其中的第“( “= 1 , 2 ,个训练数据 为y - ) = y ,0 l 夕:0 l ,y m 0 ) ,y ,- ) 是该特征矢量序列中的第,( ,= 1 ,2 , ( “) ) 个特征矢量,致“) 是序列长度。将该h m m 的状态记作s = 毛,52 ,s 。,其 中第f ( f = 1 , 2 ,) 个状态s ,的第k ( 女= 1 ,2 ,k ,) 个转移记作,其转移概 率为p 如果将乃( “) 使h m m 处于j ,的后验概率记作一0 ,“) ,那么,以g ,”) 可以写 成( 它的) 前向概率口,0 ,“) 与后向概率f l , 0 ,“) 的乘积的形式: 一( ,) = 口,“,) 0 ,) ( 1 1 ) 上式中,各参数的物理意义可以解释如下: y 心,“j y ,0 j 使h m m 处于s ,的后验概率; a ,( s ,“) _ 一m “) 使h m m 进入状态5 ,的概率: ,【s ,“) 一h m m 从状态出发并输出y 。( ”) 的概率。 口,( s ,“) 、屈( j ,“) 分别存在如下递归关系: qs i ,l d ) :兰,g b 月,q ” ) z l f l , ( s ,“) :窆屈+ ,0 ,。b ,。o ) ) ,= ( 1 2 a ) ( 1 2 b ) 式中,日,是从j 至j ,的转移概率,如果在h m m 中5 ,与j ,之间不存在这一转移, 则口,。0 。宁,0 ) ) 是从j ,至j ,的转移输出只0 ) 的概率密度,如果口。= 0 ,则 q j , ,0 ) ) 20 。利用一( s ,“) ,u 个训练数据的平均后验概率p r 沁“) 可以用下式表 示: 第 7 页 j ! 变奎塑查兰塑主兰垡堡兰墨二! l 堕堂望型! ! 查一 1 一掣,f 1 ( 13 1 3 ) ) = y 小,“) () 但是,上式不能实现e m 算法。这是因为e m 算法是一个迭代过程,要求使 用h m m 参数的迭代公式,而式( 1 3 ) 中没有反映出前后两次退代得到的参数 之间的关系。因此,我们在( 1 _ 3 ) 中增加另一次迭代( 假设为后一次迭代) 得 到的参数。将式( 1 3 ) 改写如下: ,“、un 州“) 一 9 i , i = y ,0 ,“) l o g y ,0 ,“) ( 1 4 ) “= l ,= 1 ,= 1 式中, 代表前一次迭代得到的参数,o 是后一次迭代得到的参数,相应地, y 知,“) 、y ,g ,“) 分别是前后两次迭代过程中的后验概率。 我们希望,当 d , i 9 ( ,o ) ( 1 5 ) l 时,就可得到 p r 伍u ) 2 p r 也“) ( 1 6 ) 式( 1 6 ) 中, ,、u 州“) 一 p r ) = ,g ) 换句话说,如果每一次迭代可使式( 1 5 ) 成立,那么,也要求它可使式( 1 6 ) 成立,即:对于e m 算法而言,每一次迭代可使训练数据的平均后验概率增加。 这一点可以证明。 定理1 1 若q lo ,oi o ( o , ) 则p r “) p r 也“) 其中的等号只在0 = 时成立。 证明: 由于l o g x x 一1 对于任何x o 均成立,且等号只在x = 1 时成立,所以可 得到下式 第 8 页 苎蒸奎矍查兰鉴主兰些建奎 一羔二羔。j 要童墨型! ! ! l 扣,o 卜o ( o , ) = 攀姜黔叫魄矧 q fo , f 一, ) = ,扛,“h l o g 黼 攀姜鼽,叫矧一 y 知,“) 等岩一 :;,) 一p r ) 这撙,定理1 1 戢焊到了证明。 禳据定理1 1 可稚,e m 蓐法的每一次迭代可使p r 汜”j 增加,当o = 9 时, 迭代过程收敛。如果q ( 。,寸p r 以“) 是凸函数,则。,寸p r 融”) 收敛刘一 个全局最大值( 觅黼录君) 。然丽,在绝大多数情况下,d 。,。 、p r 融“) 并不 是凸函数,因而最终不一定收敛到全局最大值,栩反,却可能收敛n - - 个局部极 大值。 3 。2 3 e m 算法的实现 ,、 根据定理1 1 ,我们知道,当刭 ,o 达到极大值时,e m 算法的迭代过程收 厂、 敛。因此,我们可以求do , f 对各个h m m 参数的偏导数,并令其等于0 ,从 , 两获褥使p r 娥”) 达到极大馑的各个h m m 参数的这代公武。 酋先来求玎。的输出分布毂c y ) 的迭代公式。窖抟) 的迭代公式可以通过式 ( 1 4 ) 对) 袋徨导数豹结槊等专二0 瑟获褥。将式( i ,) 改写如下: ,、u r “t 剑 ,ol = 缸。o ,“如。q 。( y ,0 ) ) 鼠0 ,“) r 一 一 m 】o g | q 。,白,“概孙抚国眦矗,“) f ( 17 ) 假设譬埔) 是混合o a u s s i a n 分布,帮 ;。) :氖。y ;o 蠢,i s , 毂) = 6 。州y ;删。瓯,i ( 1 8 ) 第9燕 i ! 垄茎鎏查鲎丝主兰生婆茎 一篓= 兰j 曼曼望型! ! ! l 式中,甄,是混合系数,| y ;脚幻。艿“ 楚歌) 鲍第个混合分璧,为g a a s 8 i a n 分布,掰。悬其均值矢量,氏,是其对角协方差矩阵。 将式( 1 8 ) 代入式( 1 7 ) ,并分鞠辩雕丸,、6 幻求编导数,劳令求编导鹩 结果等于0 ,即可以得到州、矗,的迭代公式: 兰型档。;,掰。b 。,囊掰觏,矗,娩o ,“,扭) 档。;,掰* 的,红l 掰觏,- 矗,坦b ,“抄,担) 噶。鼍u = lt - i 夏忑画b 蕊蕊i 雨s芝d 。g ,”m 睹,b ,0 x m ,以,溉,“) 羔窆,o 扫。,( y ,o 小。,氐。溉o ) f 只o ) 一未嚣_ ) ( ”o ) 一二嚣) 铲1 k 瓦赢而丽五蕊i 一 ” g 。( “* ,q 辫蛳,5 蚶溉0 ,辩 ( 1 1 0 ) 相似地,式( 1 7 ) 分别对k ,和p 。求偏导数,并令求偏导的结果为0 ,可 以得裂,帮办静迭代公式 , 兰窆,k 。概蚝,g ,q x ,艿崴,搬 “) , 盘。( 文,”如。蚝,b ,q x 掰灯,艿崴,搬如,“) 莲墨面i b 而i 丽 一,0 场一幻0 1 炙;,肛0 ,“) 兰窆兰札,o 。k ,( y ,o l m 蚴,以。汹o )口。0 。k ,c y ,0 x m 蚴,以。溉0 ) 旷2 袁蔑i 石丽丽面g 。冬,掰) p 。6 。,囊撒。氏,搬,“) ( 1 ,1 2 ) 训练算法通过估算后验概率的分子和分母而达到次优,典型的训练算法可能 包含以下步骤: 第1 0页 篓查兰蓬奎篓堡主兰些笙苎筻兰兰皇堕璺墅塑! :! l 1 初始化 对每一转移和输如概率设置初值。 2 ,计算佑算籁黧值 利用骺有壤搴的最新 吉算值计算所有分子、分母的期望值。 3 璧新估算期望值 作为往上一步骤中的期望值的比率,重新计算每一概率。 4逐代 跳到步骤2 或搏建。 在实际训练过程中,步骤2 拳口3 通常迭代5 - 6 次就足够了。 3 3 如谤建立准确憋声学模型 3 3 ,1 最小声学单元的选撵 为减少诗算搿销秘对莓臻窒阑的甏求,紊素模型对予 # 特定人、大词汇量、 连续语音识别是必须的。丽对于音素来说,它受发音谮境的影响更是突出,不同 的发啬语境往往带来个音索的发音出现显蓍变化。为解决这一问题,要求音素 模型是与发音语撬相关的。这种模型称为“语境相关声学模型”或是“异音模型”。 3 + 3 2 谢练与发音语境裙关的声学模型 a f j g , 8 0 年代初开始研究异音穰垄& 羟j b a h l 拶s o l ,g o 年代中期提涪其有实用 撵的语境相关声学模凝( t r i p h o n e 模型) p 1 s c h ” 1 鳃4 1 9 8 鄂。两盔至8 0 年代末才 繁一次利薅 t r i p h o n e 模型粪芷实聪;# 特定夫熬连续语音识爨系统* 止“1 9 9 。利 慰t r i p h o n c 模型构成实用系统的主要方法是对不凰语境的t r i p h o n e 模型进行聚类 ( 合并) ,从而有效地减少了模型的数目,使得可以利用有限的训练数据获得可 靠的训练。 台并整个t f i p h o n e 模型是不准确的,奄可能导致分布密度的过分平滑。从9 0 年代初开始,由以往的对整个t r i p h o n e 模型的合并,改变为仅对近似的分布密度 进行合并,称这种t r i p h o n e 模型为“分布共享模型”m h “”g ,9 黠,9 9 粥。 减少语境相关声学模篷的数目的方法之一是如上所述的,先训练t r i p h o n e 模 螫,然后合并分布密度。这种方法存在的隅题楚对分布密度的合并是稚据对分布 密度的楣近程度懿衡蘩来释高的,蠢聪分布密度静衡蘩往往不够嘏确,因为这种 簿量过程不是妻接根据训练数握完成豹,嚣是根攮来基于较少堋练数爨约分布密 度。在未获褥可靠的训练之兹,分布密度可能是不准确的。 减少语境捏关声学模型的另一令方法是先训缘语境无关声学模型,然鼯裂用 语境无关声学模型完成训练数据的v i t e r b ia l i g n m e n t 。通过对由v i t e r b ia l i g n m e m 获
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年事业单位工勤技能-江苏-江苏垃圾清扫与处理工二级(技师)历年参考题库含答案解析(5套)
- 2025年事业单位工勤技能-新疆-新疆造林管护工二级(技师)历年参考题库含答案解析(5套)
- 2025年事业单位工勤技能-广西-广西水工监测工一级(高级技师)历年参考题库含答案解析
- 2025年事业单位工勤技能-广西-广西广播电视天线工三级(高级工)历年参考题库含答案解析
- 2025年事业单位工勤技能-广西-广西园林绿化工一级(高级技师)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-广东-广东计算机文字录入处理员二级(技师)历年参考题库含答案解析
- 2025年事业单位工勤技能-广东-广东水文勘测工三级(高级工)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-安徽-安徽土建施工人员五级(初级工)历年参考题库典型考点含答案解析
- 2020-2025年初级经济师之初级经济师财政税收高分通关题库A4可打印版
- 2025年事业单位工勤技能-北京-北京不动产测绘员五级(初级工)历年参考题库典型考点含答案解析
- (2025)公开选拔科级领导干部考试笔试试题和答案
- 2025重庆市璧山区辅警考试试卷真题
- 新疆水利面试试题及答案
- 工程挂靠免责协议书
- 物流中心建设的施工难点及应对措施
- 政府采购法律法规规章培训课件(供应商版)
- 监控维护培训
- 医学实验室质量控制知识试题及答案
- 碘125粒子植入护理
- 2025年内燃机车钳工(中级)职业技能鉴定参考试题库(含答案)
- 《2025年CSCO前列腺癌诊疗指南》更新要点解读 2
评论
0/150
提交评论