


全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 摘要 迄今为止,在连续语音识别领域应用最成功壤广泛的是h m m 模型。为了获得高效的 训练和识别算法,h m m 假设特征之间相互独立,这是z i 符合语音信号的实际分布的。为 此研究者们解除独立性假设,提出了更一般的模型一一分段模型。奉义对参数轨迹模州进 行了全面的研究和深入的探讨,包括声调结合建模、搜索问题,以及它的可信度度帚t 作 等。主要贡献如下: 完成了参数轨迹模型系统的实现,对模型的概率表达方式进行了分析。! 。1 多项式拟 合阶数退化为0 时,它相当于精确时长建模的h m m 。在分段模型实验巾,从数据拟 合的角度验证了参数轨迹模型比起h m m 模型具有更加精确的建模能力。参数轨迹模 型方法对静音建模时存在希理论缺陷,、我们设想静吝有一条期望的亩线轨迹来实现 其参数轨迹的建模。同时发现,时长模掣对小帧数静音的识别非常重要; 探讨了结合声调特征的参数轨迹建模。它的软结合方法在特征层把基频作为第1 4 维 特征,对其进行轨迹拟合后得到的是这段语音的声调。参数轨迹模州的物理意义决 定了它能盲接反映基频曲线在空间的分布特性。硬结台方法在模型层将声调模州与 声学模型相结合,利用的是参数轨迹模型作为分段模型的特性:它的框架结构在进 行统计识别时可阻很好地结合段特征。 参数轨迹模型获得了比h m m 模狲更加精确f ;| q 建模能力,这是以计算复杂度增加为代 价的。为了解决这个问题提出了定长参数轨迹模型方法。它将一化时间轨迹上 的点重采样到丽定的区域巾,避免了h i 同时间点在i i 同段巾的重复概率汁算。论文 还对模型实现过程巾遇到的句了得分归一化等问题进行了处理。定长参数轨迹模掣 在数字串识别率略有下降( 05 ) 的情况下,计算时问降低t 9 0 倍左右: 提出了参数轨迹模型和h m m 模型相结合可信度度景方法,克服了传统可信度方 法的不足。具体的方法有两种,一是得分的应用,可以和h m m 得分相结合或者替 代h m m 得分使用方埘引入了新的信息,另一方面改善了h m m 划语音信写描述 不够准确的缺陷;一:是模,鸭的融合在同一系统i 1 出珧了两种小同的声学模州,它 们提供了各自的识别结果相互验证。这样做避免了采用似然得分所带来的种种问 题,在不同的句子问可以相互比较。在搜索阶段,对词图t 1 1 要进行叫溯的语音段提 供新的声学模型( 参数轨迹模删) 识别,原h m m 的识别结果在这个新的序列巾所处 的位置不同,其得到的可信度支持也小同,从而改变路径川溯的优先顺序,提高系 统的识别率。在假设检验阶段提出参数轨迹模州校验的扣识方法,在此基础1 , 为了满足系统提出的对评价指标的小同要求,增加了f i s h e l 分类器后处理部分,j t 引入参数轨迹模型得分作为新的特征输入。通过刈参数轨迹模,“校验和得分的蚓时 运用,取得了较好的接受拓识性能。 关键词:语音识别、参数轨迹模 弘、搜索、可倍度度节 英文摘要 a b s t r a c t s of a rh m mw a sm o s ts u c c e s s f u l l ya n dw i d e l yu s e di nc o n t i n u o u ss p e e c h r e c o g n i t i o n i ta s s u m e dt h ei n d e p e n d e n c eo ff e a t u r ev e c t o r sf o rt h ee f f i c i e n tt r a i n i n ga n dr e c o g n i t i o na l g o r i t h m h o w e v e rt h ea s s u m p t i o nd i d n ta c c o r dw i t ht h e a e t u a ld i s t r i b u t i o no fs p e e c hs i g n a l s a l t e r n a t i v em o d e l st h a ta t t e m p tt oo v e r c o m et h i sd i f f i c u l t yw e r ep r o p o s e d t h e yw e r eu s u a l l yk n o w nb yt h en a m es e g - m e n t a lm o d e l s t h ed i s s e r t a t i o nt h o r o u g h l y 出s c c u s s e dp a r a m e t r i ct r a j e c t o r y m o d e i s ( p t m ) ,i n c l u d i n gt o n ea ss e g m e n t a lf e a t u r e si nt h em o d e l ,t h es e a r c ho f c o n t i n u o u ss p e e c hr e c o g n i t i o na n di t sa p p l i c a t i o ni nc o n f i d e n c em e a s u r e s t h e m a i nw o r k sa x ea sf o l l o w i n g : w er e a l i z e dt h ep t mr e c o g n i t i o ns y s t e ma n da n a l y s e di t sp r o b a b i l i t ye x p r e s s i o n s w h e np o l y n o m i a lr a n kri sz e r op t md e g e n e r a t e dt oh m mw i t he x p l i c i t d u r a t i o nm o d e l i n g i nm u l t i - s e g m e n tm o d e l i n g s ,t h ed a t af i t t i n ge x p e r i m e n t sv e r i f l e dt h a tp t mh a sm o r ea c e u r a t em o d e l i n ga b i l i t yc o m p a r e dw i t hh m m f o r b a c k g r o u n ds i l e n c ew es u p p o s e dt h a ti th a da ne x p e c t e dl i n e a rt r a j e c t o r yt h o u g h i t ss i g n a lp o i n tw a si r r e l a t e dt ot i m e t h ed u r a t i o nm o d e lw a si m p o r t a n tt ot h e r e c o g n i t i o no fs i l e n c ew i t hf r 8 l n e sl e s st h a n5 t o n ea ss e g m e n t a lf e a t u r ew a sa p pt ! i 西t e di np t mi t ss o f ti n t e g r a t i o nu s e ( 1 p i t c ha st h e1 4 t hf e a t u r ej u s ta sm f c ce m u l a t i n gj t st ra e e t o r yw eg o tt h e t o n eo ft h es p e e c hs e g m e n t t h em a t he s s e n c eo fp t md e t e r m i n e dt h a tt h es o f t i n t e g r a t i o nc a r ls t r a i g h t l yr e f l e c tt h ed i s t r i b u t i o nc h a r a c t e r i s t i co fp i t c hi ns p a c e t h eh a r di n t e g r a t i o nm e t h o dc o m b i n e dt o n em o d e lw i t ha c o u s t i cm o d e l w h i e l l u t i l i z e dt h ep r o p e r t yo fp t ma ss e g m e n t a lm o d e l s :i t ss t r u c t u r ea l l o w e ds e g m e n t a l f e a t u r em e a s u r e m e n t s p t mh a dm o r ea c c u r a t em o d e l i n gt h a nh m ma tt h ee x p e n s eo fm u c hh i g h e l c o m p u t a t i o nc o m p l e x i t y t os o l v et h i sp r o b l e mt h ed i s s e r t a t i o np r o p o s e df i x e d f r a m ep a r a r n e t r i ct r a j e c t o r ym o d e i ( f p t m ) w h i c hr e s a n p l e dt h ep o i n t si nt h e n o r m a l i z e d t i m et r a j e c t o r yt ot h ef i x e dr e g i o n sa n dt h u sa v o i d e dt h er e p e a t e d p r o b a b i l i t yc a l c u l a t i o n s o fd i f i e r e n tt i m ep o i n t si nd i f i e r e n ts p e e c hs e g m e n t s f p t mc a nc u t9 0t i m e sc o m p u t a t i o nc o m p l e x i t yw h i l et h ed i g i ts t r i n ga c c u r a c y f a l i e d0 5 , p t mw a sa t t e m p t e di nt h ew o r ko fc o n f i d e n c em e a s u r e st w om e t h o d sv v e l c i n t r o d u c e d o n ew a st h ea p p l i c a t i o no fs c o r e s w h i c hc a nb ec o m b i n e dw i t ho l s u b s t i t u t e df o rh m ms c o r e s t h eo t h e rw a st h ea p p l i c a t i o no f r e c o g n i t i o nl e s u i t s w h i c hv e r i f i e dh m mr e s u l t , t h ef o r m e ri n t r o d u c e dn e wi n f o r m a t i o na l l ( 1 i m p r o v e dt h ed e s c r i p t i o no fs p e e c hs i g n a l t h el a t t e ro v e r c o m e dt h el i m i t a t i o no f t l a d i t i o n a lh m m st h a ti tc a n n o tb ec o m p a r e db e t w e e ns e n t e n c e si na 8s e a r c h w er e - r e c o g n i z e dt h es p e e c hs e g m e n t st ob et r a c e di nt h ew o r dl a t t i c eu s i n gp f m h m mr e s u l tw a si nt h ed i f i e r e n tp o s i t i o ni nt h en e wr e c o g n i t i o ns e q u e n c ea n d i tg o td i f f e r e n tc o n f i d e n c ew e i g h ts ot h ep r i o r i t yr a n k i n go ft r a e i u gp a t h sw a s a l t e r e da n dt h er e c o g n i t i o na c c u r a c yw a si m p r o v e d i nh y p o t h e s i st e f ;t i n g ,o nt h e b a s i so fp t mv e r i f i c a t i o nf i s h e rc l a s s i f i e rw a su s e dt os a r i s f yt h ep a it , i c u l a xy c l l l 英文摘要 q u e s t sf o re v a l u a t i o ni n d e x e s p t mn b e s ts c o r e sw e r en e wi n p u t s c a ng e td e s i r e da c c e p t a n c e r e j e c t i o np e r f o r m a n c e k e yw o r d s :s p e e c hr e c o g n i t i o n ,p a r a m e t r i ct r a j e c t o r ym o d e l f i d e n c em e a s u r e s 1 v t h es y s t e m 独创性声明 本人声明所递交的论文是我个人在导师指导下进行的研 究工作及取得的研究成果。尽我所知,除了文中特别加以标 注和致谢的地方外,论文中不包含其他人已经发表或撰写过 的研究成果。与我一同工作的同志对本研究所做的任何贡献 均已在论文中作了明确地说明并表示了谢意。 签名:煞篁整日期:园:翌:丝 关于论文使用授权的说明 本人完全了解中国科学院自动化研究所有关保留、使用 学位论文的规定,即:中国科学院自动化研究所有权保留送 交论文的复印件,允许论文被查阅和借阅:可以公布论文的 全部或部分内容,可以采用影印、缩印或其他复制手段保存 论文。 签名:勉望整导师签名 日期: 绪论 第一章绪论 机器能听懂人类的语言吗? 我们能扔掉键盘、鼠标用自然语言操作计算机 吗? 随着语音识别技术的发展,梦想正在变为现实。 语音识别的研究一f :作大约开始于5 0 年代,在6 0 到7 0 年代,采用的技术是基 于知识的“分析识别”和基于模板匹配的“全局识别”,它的重要进展来自于 统计模型的应用。语音识别面临的最大困难在于语音信号的多样性,统计模型 比较成功地解决了这一问题。本章首先介绍隐马尔可夫模型及其局限性;在此 基础上引出分段模型,并详细描述了它的统一数学模型、特点、关于典型实现 方法的识别结果报告等;最后介绍了可信度度量的基本概念,现有的方法及具 不足之处。 5 1 1自动语音识别的隐马东可夫模型及其局限性 1 1 1自动语音识别的统计模型 自动语音识别器是一种将语音转化为文本的设备,对这种转换如何实现的 研究反映了语音识别这个领域所走过的历程。到现在,比较流行也很成功的做 法是基于统计模型,其基本特性是有一些可以调整的参数,并且这些参数,、1 t 以 根据观察数据在某种优化标准下直接求解出来。统计模型的一个应用足统计模 式识别,它的目的是分析并识别未知样本为何种预先定义的类别。 对问题的精确描述有助于把问题分解为一些较容易处理的小问题。天于语 音识别,可以形式化地描述如下: 对于某句话,假设y 表示识别器将要解码的声学观察数据,a 表示可能的币 训序列,p ( a i y ) 表示给定观察y 单词系列a 被说出的概率,由统汁进行决策, 识别器应该根据下式做出决定: a2a r g m a x p ( a w ) ( 1 - 1 ) 就是说,挑选相对于观察数据而言最有可能的单浏串。列一意,这j h 采川的 语音参数轨迹模型研究及其在可信度度量中的应用 是0 一l 风险决策,假设了所有单词对用户的重要性一样,错误识别造成的损失不 依赖于误识的单词。 根据著名的贝叶斯公式,式1 1 的右边的概率可以展开为: p ( a i y ) = p ( a 矿) p ( y ja)(1-2) 其中p ( j 4 ) 是单词串a 被说出的概率,p ( y l a ) 是假设说出的单词串是a 情况 下观察到数据y 的概率。对于所有可能的a ,p ( y ) 都是一样的,所以公式1 ,1 可 以进一步简化为: a = a r g r a 4 a xp ( y i a ) p ( a ) ( 1 - 3 ) 从公式l 一3 可以看出识别器包括下面的几个部件: 前端处理 对于输入的语音波形,识别器需要首先确定观察数据y ,这部分过程i :前 端处理器中完成,一般是预处理和特征提取。可以将语音信号分成一些小段 ( 帧) ,对每- 4 , 段作短时相关处理,比如提取线性预测谱参数l p c c , : t l 基 于m e l 频率尺度的短时能量频谱m f c c 。试验证明,后者在抗噪方面比较鲁 棒,所以使用较多。每帧提取出来的参数作为特征,组成观察序列y 。 声学模型p ( y i a ) 公式1 3 中假设输入词串为a 情况下观察到序列y 的概率p ( y i a l 由声学模型 得出。这个概率必须现场计算,因为所有可能的a 和y 对实在是太多了,简单 的查表是不可能的,因此需要建立统计声学模型,可能的方案有隐马尔可夫模 型h m m 、分段模型等。 语言模型p ( a ) 计算公式l 一3 中右边乘积时还必须知道对任何可能的浏串a q 。,口:,o 。的先验概率p ( a ) ,这就是语言模型的功能。一般采用的是n g r a m 语言模型,就是每个侧出现的概率只与该词前面n 1 个有关。 2 绪沦 解码过程 搜索对于观察y 而言最有可能的词串五是解码过程的任务,对于大词汇量连 续语音,搜索空问非常大,一般采用动态规整和多遍搜索相结合,充分利用可 能的知识指导解码过程。 后处理 不同的应用程序可能需要对识别结果作一些特殊处理,比如对识别结果作 检验等,这是后处理模块的功能 典型的语音识别器工作流程示意框图如图1 1 所示。 一 堕咂到:;望塑 s 1 1 ,2 隐马尔可夫模型 识别器的任务简单来说就是搜索可能的词串系列。公式1 3 右边的概 率p ( y i a ) 如何展开决定于声学模型。它的目的是提供一种有效的方法计算语音 的特征矢量序列和每个发音模板之间的距离,目前最流行的统计方法是隐马尔 可夫模型( h m m ) 。 7 0 年代,刚刚出现的h m m 就被用于解决连续语音谀剐中的问题f 12 、3 4 1 。8 0 年代中期,出于b e l l 实验室r a b i n e r 等人对h m m 理论的详细阐述 5 】以及 成功用于孤立测识别的报道f 6 ,7 ,8 ,9 1 ,使得h m m 成为各国从事语音处理的研究 人员共同关注的一个焦点,在以后几年问直至现在,h m m 几乎在语音处理的各 个方面都获得了极其广泛的应用并取得了极大的成功。 假设m y , r 表示t 帧观察序列y :y 。,y 2 ,一,弦,对于基本建模单元m 为 了计算概率p ( y t l a ) ,假设这些观察序列由隐含的状念序列s i s ,s r 产 生,那么: 3 语音参数轨迹模型研究及其在可信度度量中的应用 p ( y b ,s l ,s 2 , ( 1 4 ) ( 1 - 5 ) = i i p ( y t l o c ,s t ) p ( & ks ) ( i - 6 ) t = 1 丁 = i i n 。,。b s , ( 仇) ( 1 7 ) = l 公式的展开过程使用了模型所作的假设:到1 4 式假设了语音帧之问相互独 立:到1 5 式运用了马尔可夫特性,当前状态只与前一个状态有关,说明这是一 个马尔可夫过程: i l j l 一6 式假设了当前观察只与当前状态有关;n i 一7 式是用跳转 概率和输出概率对1 6 式的另一种写法。 总结前面公式推导过程,可以看出因为作出一些假设刊得以逐步展丌直 到简化的最后一步。其中外界所知的只是观察序列,而与各观察向量对应的状 态是不为人知的,所以这种模型也叫“隐马尔可夫模型”h m m ( h i d d e nm a r k o v m o d e l ) ,它由跳转概率矩阵( 啦j ) 和输出概率分布坑。( 虮) 决定。 关于隐马尔可夫模型,有三个基本问题: 给定模型口的参数和观察序列f ,如何计算观察序列对模型的吻合挫 度p ( 蓼 i a ) ? 给定模型0 1 的参数和观察序歹6 萝 ,如何计算产生观察序列的最有町能的状 态序列? 给定模型。的一组观察序列,如何估计模型的参数( 包括跳转概率和输出 分布) ? 上面三个问题的解决算法可以直接用于识别解码和模型训练,有关文献参 考【1 0 ,1 l 】。 1 1 3 隐马尔可夫模型的局限性 目前绝大多数比较成功的语音识别系统都是基于隐马尔可夫模型的,特别 4 s & so 玑0 p r | 1 7 s s 血 剪0 p 丁 = 绪论 是在连续语音识另i j 领域,h m m 是声学模型的主流方法。尽管如此,它仍然是有 缺点和局限性的。总的来说,主要有以下三方面: 常规h m m 的状态驻留分布与语音信号的实际特性不符,因而引出了显式 状态驻留h m m ,用各种各样的显式r ( d ) 表示状态驻留概率分布。它与常 规h m m 相比,虽然增强了模型描述能力,但也带来新的缺点,计算复j 度和存储要求都较大幅度增加。用参数方法代替非参数方法可以在一定程 度上减小其存储要求,例如可以假定只( d ) 服从伽玛分布。 对于给定的状态,它假定各观测矢量是相互独立的,即假设各帧之州可不 相关,这也是不符合实际的。显然,放松独立性的假设条件是一种自然的 解决办法,但却不易实现。一种简单的解决方法是利用特征参数前后,i 顷刚 的差值作为特征矢量的扩展维数。另外人们提出了许多h m m 的变化形式 用于体现帧问的相关性,包括高砌m m 、分段h m m 及轨迹模型。 基于短时帧为基础的特征,无法描述语音段作为一个整体所具有的时序肚 和相关性。针对这一缺陷,人们考虑增加段信息加以弥补,如引入时长、 声调等特征,通过a + 搜索等算法集成到在h m m 识别平台中作为肩发信息 加以利玎。更有甚者,直接对语音段而非帧建模,这是分段模型出现的最 初原动力,其结构允许纳入段层次上的特征。 h m m 这些缺点或称局限性。本质原因在于语音信号及语音识别问题的复杂 性,人们为了研究的方便作了附加条件的假设。当人们对这一限定条件的制约 作了深入的研究之后,要迸一步提高语音识别系统性能,就要没法股松一r 条 件或用其他措施弥补其不足。因为完全解除限制条件是不i q + 能的,因而为研究 者们提供了广阔的思维空间,可以提出各式各样的改进措施,提出更般的模 型。这种更一般的模型显得更加复杂,有的需要肩发性知识或后验分m ,。除了 后验分布模型,m a r io s t e n d o r f 等人对各种随机模型进行归纳总结,认为相当多 的模型可以归入一个统一的框架,称为分段模型或随机分段模型,卜阳i 将简1 7 l 地介绍这种更为一般性的框架。 5 语音参数轨迹模型研究及其在可信度度量中的应_ i 1 2 分段模型 1 2 1 统一的数学模型描述 对于统计方法的语音识别来讲,把单词串a 展开为标号序列a = n f f a l ,a 2 ,a n ,则公式1 3 可以重写为: 祥一g m 。a x ? p ( 。i 井) 2a r g 蹯p ( 口f ) p ( m ) ( 1 - 8 ) 在h m m 模型中,观测序列 通过状态序列s 与模型联系起来: 其中 p ( 蝌) = p ( ,s i 口f ) = p ( y i s j l ,o ,) p ( s 蝌) ( 1 - 9 ) s s f l l ) 1 p ( s fa q f ) = m 1 ,o ,) p ( s t l 8 t - i ) ( i - 1 1 ) t = l 一般情况下,( s f ,o f ,) 等于1 ,表示模型序列o r 和状态序列s 相对应。以 上公式成立的条件是h m m 假设。对于式( 1 - 1 0 ) 来说,假设观测矢量之i 训相丌 独立并且只与当前状态有关;式( 1 - 1 1 ) 假设状态链为h m m 链。特征变化用基 于帧的观测矢量分布b 。( - ) 描述,时问变化则由状态模型p ( s i s 。) 描述,它在每 一个状态上随时间变化呈几何分布。 在分段模型中, 通过切分与。,相匹配。切分可以通过段长序列d = d 一一d ) 唯一确定,则: 其中, f 1 1 2 1 p ( y t i d f ,。,) = l i p ( 耀,) + 1i d i 崩) t = 1 = k 江( ,犯) ( h 3 ) 6 可以 ,h s 觚p t n 嘲 = 1 再鳍西 o d p , d r y p = d d r y p | | o y p 绪论 p ( d ,1 n ,) = h p ( d d a 。d1 ,一1 ) ( 1 1 4 ) t = 1 t ( 2 ) 是第i 段的结束时问,d 。= t ( i ) 一t ( i 一1 ) 是第i 段的段长。如果把状态 的概念扩展到”模型一段长”,那么,得到式( 1 - 1 3 ) 和( 1 - 1 4 ) 的假设条件与 ( 1 - 1 0 ) 和( 1 - 1 1 ) 相同。在分段模型中,特征变化用基于“状态”( ”模型。段 长”对) 的段观测矢量序列描述,时间变化则用时长概率描述。 以上是用分段模型进行语音识别的一种统一框架。文献1 2 1 对照h m m 的训 练和识别算法,给出了分段模型的识别_ 和参数估计方法。 1 2 2 分段模型与h m m 0 9 比较 分段模型是为了克服h m m 的局限性而提出的改进模型,通过对其数学模型 的介绍,我们发现它在描述特征变化和时间变化等方面都与h m m 不同,具体总 结特点如下: l 产生观测矢量的方法不同。 为了说明h m m 和分段模型的区别,我们以图1 2 说明它们作为生成模型是 如何产生观察矢量的。前者每次产生一个矢量,前后矢量是瓦不相关的,后者 每次产生若干个相互关联的矢量。从编码理论的角度看,在给定比特率的情况 下,量化一个样本序列比量化单个样本可以获得更小的量化失真,分段编码方 案也应比以帧为基础的编码方案效率高。由于在高斯模型中最小失真与最大似 然度相联系,分段模型作为识别策略应比以帧为基础的t t m m 更有效。 分段模型中,特征变化用不同长度观测序列的一组输出概率密度雨数拙 述,特征之闯具有一定的联系不冉是h m m 中的相互独立。 2 对时长模型的描述能力不同。 h m m 计算概率时隐含了状态驻留概率分布函数是指数型的,其概率随驻科 次数的增加呈指数下降。这显然是不合理的,通常各状态都应陔在平均驻留i j f f 近的概率最高。这是常规h m m 用隐式描述状态持续期的重要缺点。 分段模型中p ( d i n f ) 表示段长似然度的驻留分布,它对时长模型给_ ,清晰 的描述,可以通过参数法或非参数法建模。 7 语音参数轨迹模型研究及其在可信度度量中的应用 嘲 ( a ) p ( 1 a ) s m ( b ) 图1 - 2h m m : 1 分段模型( s m ) 产生观测矢量的过程 ( a ) 一个h m m 状态生成一帧矢量; ( b ) 今与随机长度l 有关的s m “状态”生成个变 长的矢量帧序列d = f 0 ,o z ,一,o ) 3 搜索复杂度不同。 h m m 模型假设特征之问相互独立,获得了高效的训练和识别算法,经 典的v i t e r b i 搜索可以邢作状态切分。而分段模型解除独立性假设,路径的扩 展与合并不仅与当前点有关,还加入了段起始点的历史信息,需要用改进 的v i t e r b i 算法寻找最佳切分,搜索的时闻和空问巨大。 总结以上分析,分段模型和h m m 模型比较,优点是具有更精确的对模型的 描述能力,能够对时长更准确建模;缺点则是搜索与段驻留时问相关,计算量 巨大,这也是论文中我们要解决的问题之。 1 2 3 典型分段模型及其相关工作简述 对分段模型的分布形式作各种假设,便可以得到不同的模型。下面是几种 常见的、具有一定影响力的分段模型,以及它们与h m m 模型的实验结果比较。 l i 随机分段模型( s t o c h a s t i cs e g m e n tm o d e l i n g ,简称s s m ) 8 h n un un u h n u 绪睑 最初的基于帧的s s m 模型是定长观测序列f 1 3 1 ,它假设模型。产生一个随 机长度的观测序列y = ( 饥,9 2 ,虮) ,其中,玑是一个d 维的特征矢量,l 是 语音段长度。通过时间采样死,可以得到关于y 的定长表示x = y 死= 陋1 ,z 2 ,z 。1 。死是l m 的矩阵,x 是d m 的矩阵。x 和y 二者的关系可以 表述为:x 是y 的隐含倒谱轨迹,y 是x 的由于语速不同而产生的不同实现。建 模是基于x 的,p ( x 1 n ) 表示为多变量高斯密度函数。在模型结构中,假设x 中 韵m 个采样相互独立。 类似的系统还有f 1 4 1 ,它基于变长观测序列。b o s t o n 大学有关人员 对s s m 模型进行了更深的探索,研究了不同的帧层次分布和参数捆绑等 问题f 1 5 ,1 6 ,1 7 】,证明其在无限制词汇量听写机上的性能与h m m 系统相当 ( 即:1 9 9 4 年a r p a 上1 0 0 - 1 1 ,5 的刊正确率【1 8 】) 。【1 9 】中报告模型的识别率 好于h m m ,大约等同于左语境相关的h m m ,搜索对蒯是原来的1 0 倍。 2 随机轨迹模型( s t o c h a s t i ct r a j e c t o r ym o d e l i n g ,简称s t m ) 方法提出的动机 语音识别应该依靠语音的轨迹而不是其在参数空问中的几何位置 由于左右环境的影响,语音段中间部分观测矢量的方差要小于边缘部分。 给予中划部分更大的权重有助于提高识别率。 f 2 0 1 首先尝试用多条轨迹建模,音索的轨迹用矢量量化的轨迹模极 表示,险1 1 给出了识别算法。在此基础上,建立了一些连续语音识别系 统f 2 2 ,2 3 ) 并测试了不同的识别任务f 2 4 ,2 5 】。到了f 2 6 】用混合概率密度函数对 轨迹的集合建模,每一个混合函数定义为一条轨迹,每一条轨迹用一系列状态 表示,每个状态对应一个概率密度函数。 s t m 和h m m 的最本质区别在于前者的混合密度是定义在状态序列i :的, 而后者则是对孤立的状态而者。对于一个特定人、2 0 1 0 浏_ ) l :量、侧对混淆5 0 f | j 连续语音识别系统,s t m 识别的词错误率为1 ,没有差分和带有差分特钲 时,s t m 的性能都要远远好于h m m 。 3 条件高斯模型( c o n d i t i o n a l l yg a u s s i a nm o d e l s 、简称c g m ) 9 语音参数轨迹模型研究及其在可信度度量中的应用 除去观测矢量相互独立外,最简单的假设就是m a r k o v 属性。对于高斯分布 来说,对应于分段区域、h m m 状态内部的或之间的高斯马尔可夫假设,即: l 州y ) = n p ( w l v , 一t 2 gf t ) t = l 这样的m a r k o v 假设,称为条件高斯h m m 。w e l l e k e n sf 2 7 1 完成了最早期的 r 作,描述了扩展的v i t e r b i 年h b a u m w e l c h 算法,b r o w nf 2 8 t 蠊t 模型进行了研 究。 k e n n y 2 9 和d i g a l a k i s 3 0 】等发现条件高斯模型在使用基本倒谱特征时性能 更好,对于差分特征却没有同样结论。d e n g 把参数轨迹模型f 3 1 】扩展到高斯马 尔可夫的形式f 3 2 1 ,报告了倒谱差分的积极结果,在特定说话人的c v c 识别系 统中获得了1 0 4 0 的误识率下降。 除去上面介绍的几种常见模型外,还有动态系统模型( d y n a m i c a ls y s t e m m o d e l ) 3 3 1 等等。总体来讲分段模型不再假设特征之间相瓦独立,具有 l k h m m 更精确的描述能力和建模能力。它的识别性能也好于对应的h m m 系 统,结论对没有差分和带有差分的特征同样成立,尤其是没有差分的特征时更 是如此。 l ,3 可信度度量 1 3 1 可信度度量及其可能的应用 可信度度量( c o n f i d e n c em e a s u r e m e n t ) 是对部分全部假设的定量评判尺 度。在语音识别中,可信度度量通常定义为模型匹配声学观察的函数,它的取 值应该在不同的句子之间具有可比性。更具体一点说,声学可信度度量可以定 义为完全来源于声学似然比的一个函数,而一个综合可信度度量可能来源于声 学和语苦模型的某种组合。通俗一点说,可信度度量取值表明对识别结果有多 大的把握和信心,是为评估输出或中间结果而定义的一个指标。举个简单的 例子,在命令识别系统中,对一个未知样本,根据经验,如果最佳候选和其他 候选之问的似然比差别比较大,就更有把握未知样本是最佳候选。这时,我们 就可以定义最佳候选和次佳候选之问的似然得分之差或商作为可信度度量的一 个指标。 1 0 绪论 在自动语音识别中,可信度度量可能应用于下面一些功能中:过滤、搜 索、和解码相关的假设检验。 过滤丰要是检测语音段的有无,区分音乐、语音、嗓声和静音等。 搜索:有可能在可信度帮助下指导搜索过程。比如部分解码结果根据可信 度进行排序,优先扩展可信度较高的路径。搜索的结果将是最可信的一条路 径。有可信度作肩发,搜索将更加高效、精确和迅速。 解码有关的假设检验:语音识别基于贝叶斯统计假设,和解码有关的假设 有一些需要检验。首先就是识别器本身输出的假设( 比如可能的词序列) ,然 后还有一些后续的假设,t e 如这个假设是否正确,这影响到是应该接受还是拒 绝。 可信度度量适合应用到假设检验,因为它本身刻划的是观察序列和声学模 型之间匹配的程度。匹配较差往往意昧着错误的解码假设。除了整体上判断解 码假设是对还是错以外,可信度度量还可以用于更细致的检验。比如说,检测 集外词,这是导致错误解码假设的一仑原因。因为集外词的声学实现很可能较 好地匹配某个基本模型序列,而该序列和系统发音词典中的任何发音标准匹配 都不够好。 从上面可信度度量可能的一些应用场合来看,可信度在识别过程的整个阶 段( 包括前端处理、搜索过程中和后续阶段) 都可能有潜在的应用。 s 1 3 2 已有的研究工作 在大多数自动语音识别系统中,声学模型是用传统的h m m 形式化的。根据 声学模型可以计算出给定假设情况下观察声学序列的似然得分p ( x 一 h ) ,而声 学与语言。模型的组合提供声学和假设的联合概率的估计pf x r h ) ,这些定量 的结果反映了观察序列与模型匹配的程度,对可信度计算有很大潜力。但它们 和声学观察序列本身以及p 伍,n ) 相关,在不同的句子之间不具有可比性,不能 直接作为可信度度量,一般需要做些变换或者后处理。在混合h m m a n n 系统 中情况不同,后验概率pf h i j 掣) 可以高效地直接产生,在4 i 同的句了问这是n j 以比较的,所以可以作为可信度度量。 对可信度的研究绝大多数是有关基于h m m 的似然得分和联合概率如何转化 成可信度度量的。其中年要是两大类方法:通过某种方式归化概率值以便存 语音参数轨迹模型研究及其在可信度度量中的应用 不同的句子之渊可以比较;或者训练应用程序特定的后处理器,将包括声学似 然比、语言模型概率和来自n b e s t 候选的信息等作为后处理器的输入特征。 对可信度度量研究的大量f 作集中在解码假设的检验,包括以下三方面相 关但稍有不同的任务: 话语校验( u t t e r a n c ev e r i f i c a t i o n ) :其任务是确定给定的解码假设是否f 确,它假定所有输入单词都是集内的; 关键词检测( k e y w o r ds p o t t i n g ) :这时应用程序只需要探测相对来说比 较少的些关键词是否被说出。识别器假定将碰到无限制的词汇量,包括非关 键刊、关键词、静音、语音段等。这方面的一个例子是自动转接分机业务,用 户通过电话线拨入总机,然后就象对接线员一样用口语说出自己的要求,自动 识别器的任务是检测一些人名关键词,并转接相应的分机。用户可以随心所欲 说出自己的要求,比如“ 麻烦您,嗯,接一下,那 个张三”,其中关键词是“张三”; 集外例检测( o o vw o r ds p o t t i n g ) :其任务是检测是否有集外刊被说 出,它假定识别器输入的大多数是集内单词。对于纯净的输入语音,集外训将 是导致解码错误的主要原因。 后面的三小节将分别展开叙述。 5 l3 2 1 话语校验 话语校验可以看作检验这样一个假设:给定的解码假设是正确的。一个比 较流行的做法是根据一些“反模型”来归一化给定解码假设情况下观察数据的 似然得分。 归化似然得分的一种方法是训练显式的反模型。在文献3 4 ,3 5 ,3 6 ,3 7 3 研中有相应报道。r a h i m 等【3 4 l 、l l e i d a 和r o s e 【3 5 】、s u k k a r 等( 3 6 $ o s e t l u r 等 f 3 7 1 还使用了复合反模型和区分讽练技术。复合反模型由其它声学模型的通用模 型和“反关键词”( a n t i k e y w o r d ) 或“假”( i m p o s t e r ) 模型组成。区分训练 技术优化系统模型和或反模型参数,采用观察序列两套模型的似然比作为训绦 优化目标函数。 归一化解码假设似然得分的方法还可以利用竞争候选的似然得 分。c o x 和r o s ef 3 9 1 研究了用最佳v i t e r b i 搜索路径的似然得分归化其它部分路 径的方法,结果表明这种可信度不比采用反模型策略提高性能。r i v l i n 等f 4 0 1 川 t 2 绪沦 上下文无关的音节的后验概率作为音节一级的可信度,词一级的可信度再利 用音节一级的可信度来估计。c a m i n e r o 等f 4 1 1 使用“在线垃圾”技术作话语校 验,其方法包括在帧级平均n b e s t 候选的似然得分,并使用其它的似然得分 来归一化。 另一类校验技术是训练后分类器来估计解码结果是正确的概率。分类器 采用的特征包括似然得分、语言模型概率、语速、解码假设长度和n b e s t , 芡 选信息等| 4 2 ,4 3 ,4 4 ,4 5 】。e i d e 等 4 2 采用二龠决策树形式,除计算可信度外, 还可用于诊断。从诊断的角度看,他们的报告指出短词和语速增加与刊误识 率w e r 有关。w e i n t r a u b 等 4 3 】使用人一日十经网络a n n 作后处理器。他们的研 究表明较短的解码假设往往不正确。g i l l i c k 等【4 4 l 把范化线性模型( g e n e r a l i z e d l i n e a rm o d e l ) 和基于互信息熵的评估矩阵作后分类器。s c h a a 拜i k e m p 【4 5 研 究了一些不同的特征并用错误率和基于熵的评估矩阵评估了后分类器。他们发 现a n n 是适合作后分类器的最佳形式。前面的研究t 作都表明从n b e s t 候选得 出的信息在校验解码结果时最有价值。 s 132 2 关键词检测 通常的关键词检测方法是采用一些“填充”模型,有时也叫“垃圾”模 型,目的是希望那些非关键词能落入这些垃圾填充模型。关键侧检测出来后一一 般还有验证阶段。由于没有语苦模型,在解码时模型之问的竞争表现为似然得 分比。 比较早开始使用显式垃圾模型的是r o h l i c e k 等1 4 6 】。他们采用整词建模,组 合系统中其他所有的关键词来训练简单的填充模型。l l e i d a 等f 47 研究了不同形 式的填充模型,包括p h o n e - - 级、音节一
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年老年病科考试题及答案
- 2025年公路检验工程师桥梁隧道工程章节试题及答案
- 桃子类培训知识课件
- 公务员甄选面试题及答案
- 2025年残疾人专职委员招聘考试复习策略与建议
- 2025年经济师高级考试必-备微观经济学模拟题解析
- 2025年城市规划与管理专业公务员考试冲刺题库
- 2025年VR初级笔试工程师答案
- 2025年贸促会政府会计实操模拟题及答案
- 福建省莆田市七中2026届高二化学第一学期期中质量跟踪监视模拟试题含解析
- 高二年级培优措施及策略
- 2025年中国人寿:养老险上海分公司招聘笔试参考题库含答案解析
- 2025至2031年中国特种工业气体行业投资前景及策略咨询研究报告
- 2025年福建中闽海上风电有限公司招聘笔试参考题库含答案解析
- 合同能源管理
- 中国航空集团有限公司介绍
- 2025年下半年吉林省松原市前郭县事业单位招聘高校毕业生带编入伍19人历年高频重点提升(共500题)附带答案详解
- 地板胶施工方案
- 第二类医疗器械经营范围、经营方式说明
- 《灌区数字孪生平台与-四预-功能建设》
- 沙滩承包合同范例
评论
0/150
提交评论