已阅读5页,还剩59页未读, 继续免费阅读
(模式识别与智能系统专业论文)嵌入式语音识别系统中拒识算法的研究及实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 摘要 语音识别技术经过多年发展正日趋成熟,各种语音识别系统也不断被 开发出来。走向产品化是语音识别技术的终极目标,为此需要解决抗噪声、 环境适应性、集外词检测与拒识等关键问题,以增强系统的鲁棒性和可靠 性。其中,由于现在大多数识别器存在词表限制,高效拒识功能的加入对 提高系统性能尤为重要。 本文首先回顾了拒识算法研究所依据的统计语音识别理论与方法,并 给出两种主流的汉语孤立词语音识别器;进而对语音识别拒识问题的本质 及各种解决方法进行深入剖析,包括主流的显式建模方法和隐式建模( 即 可信度度量) 方法;由于拒识算法目前大多受识别平台限制、与任务高度 相关,因此本文针对两种不同的孤立词识别器,分别研究对应的平台相关 拒识算法。在上述研究的基础上,本文进行平台无关拒识算法方面的一些 探索,提出基于音节段模型识别的拒识方法。 语音识别技术在嵌入式平台的应用是语音识别实用化、产品化的主要 方向。嵌入式语音识别系统( e s r s ) 的研究开发涉及软件和硬件、资源和性 能等多方面的协调,还涉及嵌入式环境下的特定算法,因而是一项富有挑 战性的课题。本文对此进行系统分析和研究,并结合具体实例详细阐述嵌 入式语音识别系统的设计原则、软硬件开发相关问题等。最后,对嵌入式 语音识别系统的未来工作进行了展望。 关键词:语音识别统计拒识嵌入式系统 垒! ! ! 璺! ! a b s t r a c t a f t e rm a n yy e a r s d e v e l o p m e n t ,a u t o m a t i cs p e e c hr e c o g n i t i o n ( a s r ) t e c h n o l o g yh a sb e e nm a t u r e ;a n dm a n ya s rs y s t e m sh a v eb e e nd e v e l o p e d h o w e v e r , t h e r ea r es t i l l m a n yc h a l l e n g e sc o n f r o n t i n gr e s e a r c h e r s ,s u c ha s n o i s er e d u c i n g ,e n v i r o n m e n t a d a p t a t i o na n do u t o f - v o c a b u l a r y ( o o v ) w o r d s d e t e c t i o na n dr e j e c t i o ne t c i ti si m p o r t a n tt os o l v et h e s ep r o b l e m st oe n h a n c e t h er o b u s t n e s sa n d r e l i a b i l i t yo f a s rs y s t e m s i nt h i s p a p e r w eb r i e f l yl o o kb a c ko ns t o c h a s t i c s p e e c hr e c o g n i t i o n f u n d a m e m a l sa n dt h ef r a m e w o r ko fa s rs y s t e m s t h e nw ef o c u so nt h e r e j e c t i o np r o b l e m i na s r o u rd i s c u s s i o no f r e j e c t i o np r o b l e mr a n g e sf r o mi t s d e f i n i t i o n ,e s s e n c ea n de v a l u a t i o nt ot h ep o p u l a rs o l u t i o n sn o w a d a y sw en o t e t h a tr e s e a r c h e r su s u a l l ys o l v ei ti nt w ow a y s ,n a m e l ye x p l i c i tm o d e l i n ga n d i m p l i c i tm o d e l i n g ( m a i n l yb yc o n f i d e n c em e a s n r e ) d u et ot h ec o n s t r a i n t so f s p e c i f i ca s r t a s k sa n ds p e c i f i cr e c o g n i z e rt or e j e c t i o n ,w ep r o p o s es e v e r a l p l a t f o r m d e p e n d e n tr e j e c t i o na p p r o a c h e si nt w oa s rp l a t f o r m sw h i c hm o d e l s w h o l ew o r da n dm a n d a r i nt r i - p h o n er e s p e c t i v e l y i na d d i t i o n r et r ys o m e p l a t f o r m i n d e p e n d e n tr e j e c t i o na l g o r i t h m s b a s e do n s y l l a b l es e g m e n t a l m o d e l s ( s s m ) t h e a p p l i c a t i o no f a s r t e c h n o l o g yi ne m b e d d e ds y s t e m si sa ni m p o r t a n t d i r e c t i o nf o ri t s p o p u l a r i z a t i o n t h ed e v e l o p m e n t o fe m b e d d e d s p e e c h r e c o g n i t i o ns y s t e m s ( e s r s ) i n v o l v e si nm a n yf a c t o r ss u c ha sh a r d w a r ea n d s o f t w a r e ,r e s o u r c e sa n dp e r f o r m a n c e se t c i nt h i sp a p e r ,w ea n a l y z ea n d e x p o u n d t h em a i n p r o b l e m so fe s r si nd e t a i l sa n dg i v es e v e r a le x a m p l e sw - e m a d e d u r i n gp o s t g r a d u a t es t a g e f i n a l l yw e d i s c u s st h ep r o m i s i n g p r o s p e c to f a s rs o c k e y w o r d s :s p e e c hr e c o g n i t i o n ,s t o c h a s t i cm e t h o d s ,r e i e c t i o n e m b e d d e d s y s t e m s 独创性声明 本人声明所成交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知 除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果。与 我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确地说明并表示了谢意。 懿方参鼽地生曼了 关于论文使用授权的说明 本人完全了解中国科学院自动化研究所有关保留、使用学位论文的规定,即:中国科学院自 动化研究所有权保留送交论文的复印件,允许论文被奄阅和借阅;可以公布论文的全部或部分内 容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名: 去 移墙师签名:厶二一导师签名:衄 日期:刎笋匡瞿, 第一章绪论 第一章绪论 语言是人类智慧的产物,是知识和信息的重要载体。人类自然而随意 的语言交流之中,包含着极为丰富的声学、语言学以及情感等信息。1 8 4 0 年英国的c h a r l e sb a b b a g e 发明了世界卜第一台计算机的雏形a n a l y t i c a l e n g i n e 。用来进行简单的自动计算;此后人类便梦想也有这样一种机器: 它能像人一样与人进行自如的语言交流,准确地识别人类的语言并对其q 所包含的信息进行处理和应用,给人的工作和生活带来更多的便利。自 1 9 4 6 年世界上第一台真正的计算机e n i a c 诞生以来,科学家们便开始了 对自动语音识别( a s r ) 技术的系统研究,迄今已取得了丰硕成果。 语音识别技术的根本目的在于让人机交互更加方便、自然、易用,无 论从应用角度还是从科学研究角度都具有极为重大的意义。从语音识别技 术的发展历史来看,综合应用语音识别、人工智能、网络等新技术的智能 设备正在给人类的工作和生活带来极大方便;而语音识别技术的研究也极 大地推动了统计学、模式识别、信号处理、语音学、语言学和声学等多学 科的发展,并为各种新算法、新技术提供了广阔的发展和应用舞台。 1 1 语音识别迄今已取得的成就 系统的语音识别技术研究始于2 0 世纪5 0 年代,先后经历了几个阶段 和几次重大突破。简单回顾,语音识别发展史有以下一些重要事件值得提 及: t 9 5 2 年,b e li 实验室通过滤波器组提取语音信号的谱信息,采用模 板匹配方法开创性地实现了一个孤点数字语音识别系统。 6 0 年代末,前苏联的v i n t s y u k 首次提出用动态规划( d p ) 方法解决语 音信号不等长的对齐问题;在此基础上,至7 0 年代末,基于d p 的 动态时问规整( d t w ) 技术在语音识别领域得到了令面应用。 7 0 年代,人们将在语音压缩编码领域取得极大成功的线性预测编码 ( l p c ) 技术弓l 入语音识别,随后基f - l p c 的导出参数如线谱列( l s p ) 、 嵌入式语音识别系统中拒识算法的研究及实现 对数面积比( l a r ) 等也有具体研究;这些频域参数在稳定性和区分能 力上都大大好于以前采用的幅度、能量、短时过零率之类的时域特 征参数,实现了语音信号特征提取的第一次突破。其后,倒谱域特 征参数的引入实现了特征提取方面的第二次飞跃,包括最早的基于 线性预测的倒谱系数( l p c c ) 及后来广泛应用的借鉴人类听觉特性的 m f c c 倒谱系数。倒谱系数比频域系数更接近高斯分布,而后来应用 广泛的h m m 声学建模方法正是利用高斯( 或高斯混合) 概率密度函数 来描述特征分布。此外,动态差分倒谱也被应用于语音识别,大大 提高了系统性能。 7 0 年代中期,隐马尔可夫模型( h m m ) 开始应用于语音识别领域的声学 建模。8 0 年代,h m m 经b e ll 实验室的r a b i t i e r 介绍,开始成为主流 的声学建模方式,被世界上几乎所有的研究者采用,完成了声学模 型从模板建模到统计建模的转变。基于h m m 的模型参数估计和解码 等经典算法纷纷被提出并应用。 80 年代,以n 元文法为代表的统计语言模型开始广泛应用于语音识 别。至此,以c m u 的s p i n x 系统为代表,统计语言模型、h m m 声学建 模技术的成熟让人们开始突破原有障碍,开始将大词汇量、连续语 音、非特定人三大语音识别特性集成到一起。此外,人工神经网络 ( a n n ) 在语音识别中也得到了一些应用。 经过前面的积累和突破,进入9 0 年代后,语音识别进入高速发展时 期,在某些领域已走向成熟并迅速产品化。而语音识别在成熟的同 时也开始与其他领域相关技术相结合,如与自然语言处理技术结合 产生了基于口语识别和理解的人机对话系统,与机器翻译技术结合 发展多语种的直接语音翻译技术等。 从以上简单同顾可以看出,语音识别的研究思路经历了从结构主义 到统计主义的转变,所涉及学科也从最初的单一模式识别发展到后来的信 号处理、声学、语言学、心理学等多学科交叉。语音识别技术日臻成熟, 主流技术日趋完善,大规模语音、文本语料库及一系列科学的评估和测试 体系纷纷建立,再加卜计算机软硬件飞速发展,使语音识别逐步从实验室 走向,阔的应用舞台。 第一章绪论 1 2 语音识别今后需解决的问题 尽管语音识别在数十年研究中取得了长足进步,并产生了一些实用系 统,但语音识别的发展史让人们认识到,要想让机器像人们希望的和人一 样进行语音交流,远非易事。究其原因,是因为语音信号具有多变性、动 态性、瞬时性和随机性等特点,这些因素使语音识别的研究难度大大增加。 目前学术界普遍认为语音识别技术需着重解决以下问题: 提高系统鲁棒性:训练和测试的声学环境及通道特性不同时,系统 性能能像训练测试条件一致时一样或者接近,达到足够鲁棒。 提高系统自适应能力:环境变化时,系统能自动调整参数以提高自 身对环境的适应性。 完善语言模型:词表大大增加时,现在主要采用的统计语言模型不 足以描述其信息,有必要加入更多约束信息( 如句法和语义信息等) 来减小搜索空问及解决声学识别结果的歧义问题。 可信度度量:当今的识别系统一般词表有限,主要根据候选词的得 分高低来判断识别结果,而得分只能说明各候选与被测语音相对的 近似程度,并不能说明某个候选是不是就是正确的识别结果。因此, 估计候选结果的可信度在许多场合很有必要。 检测和拒识集外词:目前的语音识别系统总有词表限制,这必然就 有集内词和集外词之分。在实际的应用中集外词经常出现,丽当识 别器遇到噪音或者集外词等非正常语音时,也会给出一个候选词作 为结果,这显然是错误的。因此,势必要求识别器其有准确检测并 处理集外词的能力。 利用韵律信息:实验表明,人的听觉从说话的韵律中获取了很多重 要信息,如何将韵律信息有效应用到现在的语音识别系统中足值得 深入研究的课题。 由此不难看出,语音信号的特性决定了完美语音识别技术的实现尚需 要解决以上几个问题。这样,j 能使语音识别技术走向更为广阔的应用。 壁垒苎堡童望型墨竺主塑塑簦鲨塑堑窒丝壅翌 1 3 嵌入式语音识别系统的研究和实现 无论从应用角度还是从研究角度,根据不同的分类方式,语音识别技 术都可分为若干类。目前常用分类方式有:孤立词识别和连续语音识别、 特定人识别和非特定人识别、小词汇量识别和大词汇量识别、朗读语言和 口语识别等。 从技术的研究和实现难度上讲,小词汇量、孤立词语音识别已经比较 成熟,完全可以产品化,需要着重解决产品化过程中遇到的如环境自适应、 可信度度量、集外词检测和拒识及有效的端点检测等问题;大词汇量、连 续语音、低信噪比语音的识别技术现在己部分成熟,还有语言模型、抗噪 等实用化的关键技术需要继续研究。 前两节分析了语音识别已经取得的成就及面临的挑战,而技术研究也 是4 i 断的在系统开发和实用中逐步进步的。随着智能设备的小型化和无线 互连、无所不在的计算等现代理念的不断发展,低端语音识别产品将具有 广阔的应用前景。从应用上来说,在嵌入式平台实现既有语音识别算法, 并在实际嵌入式应用中进行端点检测、拒识、抗噪等关键技术研究和实验 均具有重大的意义。 研究开发嵌入式语音识别系统需要解决的主要问题有: 适用语音识别技术的选用:即根据用户要求的不同,选用针对性 强的语音识别技术。如对一般的语音命令控制任务,可选用实现 难度小、系统性能相对高的低端语音识别技术。 适用软硬件平台的选用:当今软硬件技术飞速发展,在嵌入式语 音识别系统实现中如何合理地进行系统性能和成本的折中,大有 讲究。因此,需要评估同一系统在不同平台卜= 的性能、同一平台 上不同系统的性能等。 嵌入式应用环境下的关键技术研究:包括拒识技术、端点检测技 术、抗噪声技术、高效搜索技术、系统优化技术等。其中,对系 统界面和智能性影响很大的集外发声拒识算法和各种复杂应用 场合的噪声削减技术尤其重要。 4 第一章绪论 1 4 本文的研究意义和内容组织 本文主要研究语音识别中的拒识算法及嵌入式语音识别系统中拒识 问题的有效解决。由于在语音识别系统的应用中,经常出现集外词、噪声 等非正确语音,因此有效的拒识成为系统相当重要的性能指标。实践表明, 缺乏有效拒识模块的语音识别产品在应用中局限性很大。如后所述,当前 大部分拒识方法都高度任务相关、识别器相关,在不同的识别系统中,算 法不够通用、难于移植。因此,研究通用的适合于嵌入式语音识别系统的 拒识方法具有很大理论意义和应用意义。 本文主要内容及章节组织如下 第二章简要介绍研究拒识算法所依据的基本语音识别理论与方法。主 要论述目前主流的统计语音识别理论与方法,包括统计方法基本原理、系 统框架、基于统计方法的语音识别系统各组成部分( 特征提取、声学建模、 发音词典、统订。语言模型和解码器) 。在此基础上,介绍了采用不同声学 建模方法和识别策略的两种语音识别器,以此作为本文相关j 二作的实验和 测试平台。 第三章系统讨论语音识别中的拒识问题。首先从拒识的定义、对象、 研究难度及拒识算法性能的评价参数方面阐述了拒识问题的外延和内含。 然后详细论述了当今一些主要的拒识算法,包括基于显式建模和隐式建模 的多种方法,分析了各自的应用场合,并进行了综合评价。 第四章是本文的重点,针对当前应用情况详细研究了平台相关的拒识 算法和平台无关的拒识算法。对于目前存在多种孤立词语音i j l y , j i 器的情 况,本章首先研究了平台相关的拒识方法,包括基于整词h 狲建模识别器 i :的垃圾模型、反模型、可信度等方法和基于汉语三音予建模识别器上的 各种可信度方法。针对当前大多数拒识方法存在任务相关、泌别器相关、 可移植性差的缺点,本章在平台无关的拒识算法方面进行了 些探索,提 出了基于音节段模型识别的汉语孤立词识别器和拒识方法。 第五章系统介绍了嵌入式语音泌别系统( e s r s ) 研究利 发。茜先对 e s r s 的原理、硬件平台和软件流程进行了简要介绍。然后分别介绍了基 嵌入式语音识别系统中拒识算法的研究及实现 于a r m 处理器和d s p 处理器的两种具体系统,从具体实例分析了e s r s 的 特点、实现方面的一些情况。最后,讨论了嵌入式语音识别系统的相关技 术研究方向和实现方面的一些问题。 第六章对本文工作做了总结,并对未来相关工作进行了简单展望。 6 第二章统计语音识别理论与方法 第二章统计语音识别理论与方法 现在绝大多数语音识别系统都是基于统计模式识别理论的,利用隐马 尔可夫模型对语音进行声学建模方法的普及也加强了统计方法在语音识 别领域的统治地位。目前绝大多数与识别相关的算法( 包括本文后面重点 研究的拒识算法) 都沿着统计方法的思路进行。因此,本章首先对统计语 音识别理论与方法做一简单介绍。 2 1 统计语音识别的理论基础 当前主流的统计语音识别技术建立在贝叶斯决策理论之上,从系统响 应的角度来研究问题。 统计语音识别器的根本目标在于:绘定其输入为一段语音信号s 经过 特征提取后的声学特征向量序列0 ( o ,0 :,o t ) ,要求其输出为一个最可 能的词串矿,即 矿= a r g m a x p ( w i p )( 21 ) w 其中p ( w 1 0 ) 表示在特征序列0 ( o 。,d :,o ,) 已知的前提下,s 对应 的词序列为w ( w ,w :,w 。) 的概率。根据贝叶斯公式,式( 2 一1 ) 可以进一 ;后表示为 = a r g ,m a x p ( wi 。) _ a r g ,m a x 警( 2 _ 2 )旷j _ l , 上式中,p ( ) 表述了词序列( w 。,w :,w 。) 出现的概率,叮用语言 模型描述;p ( o t ) 表示当词序列为( w ,w 。) 时产生声学特征序列 0 ( o 。,。,o ,) 的概率,叮用声学模型描述;p ( 0 ) 则为( ) ( o t ,d z , ,d ,) 出 现的平均概率: “d l - y p ( w ) p ( o t w ) 2 3 计 嵌入式语音识别系统中拒识算法的研究及实现 由于在解码过程中,声学特征序列0 ( o 。,o :,o ,) 是给定的,因此 对于不同的w ( w 。,w :,w 。) ,式( 2 2 ) 中可进一步忽略p ( d ) 而演变为 = a r g m a x p ( w ) p ( 0iw ) ( 2 4 ) w 式( 2 - 4 ) 便是统计语音识别的理论基础。 可以看出,基于统计方法的语音识别系统包含四个部分:语音信号声 学特征序列0 ( o ,0 ,0 ,) 的获取( 特征提取) 、声学模型p ( o i ) 的获得 ( 声学建模) 、语言模型p ( ) 的获得( 统计语言建模) 及给定 0 ( 0 1 ,0 2 ,0 ,) 时使j p ( ) p ( f ) i ) 最大的词序列w ( w 1 ,w 2 ,w ) 的获得 ( 解码算法) 。其中,声学模型、语言模型为从大量样本中预先统计出来为 分类所需的先验知识。此外,还需要用到发音词典以描述深层次的词信息。 2 2 统计语音识别系统框架 基于上面的分析,一个统计语音识别系统可用下图表示 图2 1统计语音识别系统框图 2 2 1 声学处理 图2 1 中,声学处理需要完成的任务是将模拟信号的语音转化成识别 器可以处理的声学特征序列。这个过程包含以下部分: 口预处理 依次包括以下步骤: 1 ) 数字化:完成语音信号从模拟到数字的a d 转换: 2 ) 放大及增益控制: 第二章统计语音识别理论与方法 3 ) 反混迭滤波:按照香农采样定理,当采样频率低于信号中最高有效频 率的2 倍时,会产生信号的混迭失真,采样后数字信号将无法恢复为 原信号。可用一个截止频率相当于最高采样频率的1 2 以下的低通滤 波器防止语音高频信号的混迭;此外,当要抑制工频电源干扰( 5 0 h z 或6 0 h z ) 时,需用一个带通滤波器滤除低频成分; 4 ) 预加重:语音信号在8 0 0 h z 以上的高频段会按6 d b 倍频程跌落,为了 使信号频谱变得平坦以便进行频谱分析或声道参数分析,需要进行预 加重以提升高频部分。一般用一个一阶的预加重滤波器实现: j v ( z ) = 1 一肛,接近1 ; 5 ) 分帧加窗:建立在语音信号具有短时平稳的特性之上,为此,对语音 信号进行短时分帧,用可移动的有限长窗口进行加权实现。选择短时 窗主要考虑窗口的形状和长度对语音信号在时域和频域形状的影响, 目前常用的短时窗有哈明窗、方窗等。 口特征提取 2 0 世纪5 0 年代初,人们发现,要对语音信号进行识别,必须先从语 音波形中提取能够反映语音特性的某些参数,这样一来可以减小模板的数 目、运算量和存储量,二来可以滤除语音信号中对识别贡献不大的冗余信 息。人们使用的能充分反映语音特性的参数经历了时域到频域再到倒谱域 的过程。 时域参数包括:幅度、短时平均能量、短时平均过零率、短时自相关 系数等。频域参数包括:共振峰系数、l p c ( 线性预测) 频谱系数、l s p ( 线 谱对) 系数等。倒谱参数包括:l p c c ( 基于线性预测的倒谱系数) 、l f c c ( 线 性频率倒谱系数) 、p l p ( 感知线性预测系数) 、m f c c ( m e 刻度频率倒谱系 数) 等。 各种参数提取原理不同,也具有不同用途。短时能量和短时过零率可 用米做清音和浊音的分类及从背景噪声中提取语音;i p c 系数用一个全极 点模型来模拟语音信号产生过程,用极少的模型参数有效地表现语音波形 及频谱的性质:m f c c 系数主要借鉴心理学研究成果,首先用快速傅立叶 变换( f f t ) 将语音从时域变换到频域,然后利用同人耳听觉特性相似的一 角滤波器组对语音信号的幅度平方频谱进行平滑,再通过对数操作压缩谱 嵌入式语音识别系统中拒识算法的研究及实现 的动态范围,最后通过离散余弦变换( d c t ) 对不同频段的频谱成分进行解 相关处理。当前最常用的是m f c c 系数。 此外,对特征参数进行动态变换对于提高系统性能也大有好处,主要 采用特征的一阶差分和二阶差分。 2 2 2 声学建模 公式( 2 - 1 ) 中的声学模型e ( o l ) 是语音识别的核心之,其任务是 插述每一个声学基本建模单元的统计特性。声学建模主要涉及语音学的建 模单元、词的发音特性及模型本身的数学物理特性。建模单元可以是词、 字、音素等。可能的建模方案有隐马尔可夫模型( h m m ) 、人工神经网络 ( a n n ) 、动态时间规整( d t w ) 。其中,h 自2 0 世纪8 0 年代以来由于其有 效的学习算法和解码算法而得到了广泛应用,成为声学建模的主流。下面 首先简要介绍h m m 的基本原理和主要问题及算法,然后介绍h m m 在语音识 别中的应用。 口h m m 建模简介 h m m 由b a u m 在1 9 7 2 年首次提出。h m m 认为,可见的观测序列 o ( o i ,0 2 ,o r ) 是由隐藏的状态序列s ( s 。,s 2 ,s ,) 产生的a 这样, e ( o l ) 可表示为p ( o l ,02 ,0 ri w ,s l ,s2 ,s r ) 。 h m m 基于三个假设: ( 1 ) 观测序列内各项之间相互独立: ( 2 ) 状念序列内当前状态只与前一个状态有关( 即为马尔可夫过程) ; ( 3 ) 当前观测项只与当前状态有关。 在这些假设下,可以将e ( 0 1 ) 进一步展开为 p ( 0 1r v )= p ( o l ,0 2 ,o7i ,j i ,s 2 ,s t ) e p ( d l ,0 2 ,o ,s l ,s 2 ,s t ) s w 7 丌p ( s f ,0 ,i w ,吣,s t - i ) s ,矿r = l 7 = 丌e ( s 一,i w ,札,) ( 2 5 ) ( 2 6 ) ( 2 7 ) 第二章统计语音识别理论与方法 = 兀p ( o ,h 2 嚣珥p ( d r ( 2 8 ) ( 2 9 ) h 述展开中,式( 2 5 ) 是对所有的状态序列s 和词序列w 进行,式( 26 ) 依据假设( 1 ) ,式( 2 7 ) 依据假设( 2 ) ,式( 28 ) 依据假设( 3 ) ,式( 2 - 9 ) 用最 优状态序列来近似所有的情况,即将求和近似为求最大。 式( 2 9 ) 表明,可以用如下三个参数来表述h m m :状态转移概率矩阵a , 其元素a 。表示相邻时刻状态t 跳转到s ,的概率p ( s ,h ) :状态初始概率 分布向量n ,其元素石,表示初始状态为s 的概率;观测输出概率矩阵b , 其元素b 。表示系统在状态s ,下产生观测o ,的概率j p ( o is 。) 。这样,用三 个参数( a ,b ,n ) 就可以准确描述h m m 。 由此,引申出h m m 的三个基本问题: ( 1 ) 评估( e v a l u a t i o n ) :在已知观测序列0 ( o 】,0 2 ,0 7 ) 和h m m 模型( a , b ,n ) 的前提下,计算该模型产生该输出的概率p ( o ia ,b ,兀) ; ( 2 ) 解码( d e c o d i n g ) :在已知观测序列0 ( o 。,0 ,0 ,) 和h m m 模型( a ,b , 兀) 的前提下,求取产生该观测隐含的最佳状态序列s ( s 。,s :,s ,) ; ( 3 ) 训练( t r a i n i n g ) :由若干观测向量组成的样本来估计h 的模型参 数( a ,b ,兀) 。 针对这三个问题,人们陆续提出了许多卓有成效的算法。其中,评估 可用前后向算法( f b ) 或v i t e r b i 算法解决:解码可用v i t e r b i 算法解决; 训练可用b a u m w e l c h 前后向算法解决。 语音识别用h 唧建模时,特征序列就是可见的观测,需要通过大量的 特征样本得到建模单元的h m m 模型。语音识别的目标就是寻找在不同模型 f 产生给定观测概率最大的模型及概率最大的状态序列。 口h m m 建模在语音识别中的应用 自2 0 世纪8 0 年代h m m 建模方法开始大量应用于语音识别以来,人们 使h m m 得到了很大发展,如在离散h m m 模型的基础上提出了半连续概率密 度t l m m 模型、连续概率密度h m m 模型。目前,对于观测输出概率,最常用 的是混合高斯模型( g m m ) : 嵌入式语音识别系统中拒识算法的研究及实现 p ( o is ) = 。p ( d l j ,埘) = 。( 。;,。,。,。) ( 2 1 0 ) m m 将h m m 应用到语音信号的声学建模,首先要考虑的是选取什么声学建 模单元。h m m 可以用来描述任何语音单元,包括音素、音节、字、词等。 选取建模单元一般需要考虑两点,即模型的一致性和模型的可训练性。另 外,不同的语言具有不同的特点,如汉语的字均为单音节,每个音节都是 规范的声母加韵母的结构:这样,就有适合于各自的建模单元,如英语一 般对音素建模,在汉语中则对声韵母建模。其次,还要充分考虑语音中的 协同发音现象。 这里对不同层次的建模单元及相应的识别方法进行比较: 整词建模 对整词进行h 删建模时,在中小词汇量下,可以采用简单的模板匹配 方法进行识别,识别率高:其缺点在于模型空问及计算量会随词汇量增加 而增大且模型没有通用性。 上t 文无关音子建模 对卜下文无关( c o n t e x t i n d e p e n d e n t ,c i ) 音子( 如汉语的声韵母) 进 行i i m m 建模,可以将词表用发音词典等数据结构来约束,这样相对于整词 建模模型通用性好。但是在连续语流中,由于发声器官的惯性和连续动作, 每一个音子的发音都受左右相邻音子的强烈影响,即产生协同发音现象。 简单的音予模型由于忽略了协同发音现象,模型虽小但粗糙,势必导致系 统性能下降不少。 上下文辐关音子建模 鉴于上述两种建模单元各自的优缺点,既要考虑模型的通用性,又要 考虑模型的精度,因此人们想到上下文相关( c o n t e x t d e p e n d e n t ,c i ) ) 音 子建模单元。相比c i 音子模型,c d 音子模型的优点是能够更精确地刻画 语音,如果进一步考虑上下文音调的影响,模型将更精确;但其明显的缺 点在于,模型的数量会急剧增加,这样一方面训练过程中估计的参数增多, 需要的训i 练数据也大规模增加,容易导致数据稀疏引起的训练不足,另一 方面模型复杂度增加会导致识别过程中的搜索复杂度大大增加。 为了充分保证模型的精度和数量都满足要求,常采用模型参数共享技 术。其基本思想是利用数据驱动或知识驱动的方法,采用自上而下或自下 第二章统计语音识别理论与方法 而上的方法对需要共享的参数进行分类,将相近的参数捆绑在一起。 2 2 3 语言模型 对于连续语音识别来说,需要公式( 2 4 ) 中的语言模型p ( 缈) 为识别 器提供语法和句法层次的约束。目前,大词汇量连续语音识别系统中常用 统计浯言模型。根据贝叶斯公式,可以将p ( 矽) 做如卜| 的分解: 卫 p ( w ) = p ( w ,l w o ,w i 一,一1 ) ( 2 一1 1 ) = l 在大词汇量的系统中,词表规模很大,词串w 的长度n 也不确定,这 样,要可靠地估算系统中所有词在任意长度词串中的条件概率,会带来计 算代价爪人及参数空问急剧膨胀的负面影响。为此,在实际应用中,可考 虑语言概率的简化计算方法。类似于h m m 建模中的当前状态仅取决于前一 状态的假设,在式( 2 一1 1 ) 中,可假设当前词仅与前n 个词有关,这样就得 到n 元统计语言模型: p n ( w ) = l q p ( w ,lw i - n + 1w 。,w 。) ( 2 - 1 2 ) 扭l 一般系统中会选取n 为2 或3 ,即二元语言模型或二元语言模型。类 似于声学模型,语言模型的训练也会遇到数据稀疏的问题,一般用回退或 者插值的方法进行平滑。 2 2 4 发音词典 发音词典是词表用声学模型间的连接表示的一种约束。通过词树之类 的数据结构表示。 2 2 5 解码策略 回到公式( 2 - 4 ) ,在声学模型p ( o 矽) 和语言模型p ( w ) 都已训l 练好 的情况下,识别器的任务就是通过解码策略找到与当前语音最相近的词 串。为此,需要搜索所有可能的词串,但当词汇量很大时,无法用穷举法, 必须考虑从输入语音中提取一些可参考的信息,减小搜索空间。这样,搜 索过程需要充分利用声学、语音学、语言学及语法语义方面的信息。绌化 的统计识别搜索框架i 叮用图22 表示。 从图22 可以看出,语音信号经过预处理、特征提取得到声学特征序 列;在基于h m m 的系统中,声学层由h m m 的状态构成空问中的每个点表 嵌入式语音识别系统中拒识算法的研究及实现 示一个h 唧状态,状态间的连接受h 娜拓扑结构约束,声学特征经过声学 层的解码得到基本的模型阵列;然后在语音层,通过发音词典( 词表) 约束 h 删模型间的连接,模型阵列经过词表匹配得到初始的词阵列;最后是语 言层,由语言知识来约束词与词之间的连接( 即语占模型) ,词阵列经过语 言解码得到最后的词串。 语音信号 声学特征,j ;声学层; 模型阵列 语音崖: :! 词阵列一一 一语言层: 识别结果 图2 2 细化的统计语音识别框架 基本的搜索策略有深度优先和宽度优先两种。在语音识别中,常用的 深度优先搜索算法有时间异步的堆栈搜索和4 搜索;常用的宽度优先搜 索算法有时间同步v i t e r b i 搜索。 以上是一个大词汇量连续语音识别系统的所有模块。特别地,对于小 词汇量孤立词而言,系统可以适当简化:无需语言模型,可以整词建模( 无 需发音词典来约束模型问的连接) ,无需复杂的搜索,取而代之以简单的 逐个匹配。 2 3 本文采用的两种识别器 本文后续算法研究和实验主要针对中小词汇量的孤立词语音识男4 。实 验中用到了两种识别器,根据前述的洲建模单元及识别方法的不同,分 别是对整词h m m 建模、采用时间同步的v i t e r b i 搜索、通过简单的模板匹 配获得识别结果的孤立词识别器和对汉语进行上下文相关的三音子建模、 采用一遍搜索识别的孤立词识别器。下面分别介绍。 昌园 第二章统计语音识别理论与方法 2 3 1 基于整词h m m 建模的识别器 对于小词汇量的孤立词语音识别任务,采用经典的隐马尔可夫建模, 在识别率和实时性上能满足实用的要求,因此比较适合嵌入式应用。此识 别器( 见图2 3 ) 采用的特征为1 维能量加1 2 维m f c c ,加上一二:阶差分共 3 9 维;声学模型方面,对整词进行8 状态单混合h 删建模,采用段k 均 值算法训练;采用v i t e r b i 算法解码识别。 八竺大 图2 - 3 整词h m m 建模识剐器框图 2 3 。2 基于汉语三音子建模的识别器 本识别器基于实验室的汉语大词汇量连续语音识别系统 7 1 ,经过简 化,成为现在的中小词汇量的孤立词语音识别器( 见图2 4 ) a 由于这个 平台既可扩展为连续语音识别,也可简化为孤立词识别,其基本框架对于 拒识算法的研究是很重要的,因此这里着重说明。先从声学建模和搜索策 略两个方面简述: 图2 - 4 汉语三音予建模遍搜索 = 别器框图 多 候 选 例 从声学建模角度来看,在语音识别中,对特定任务,声学建模单元越 大,瞽元越稳定,但模型数目越多,可训练性也较差;其体应用中,总是 嵌入式语音识别系统中拒识算法的研究及实现 在模型的鲁棒性和准确性之间进行折中;大词汇量识别任务一般选择音素 或音节建模,汉语中声韵母是最好的选择;为提高模型对语音信号的描述 能力必须考虑语境影响,现在常用语境相关的三音子建模;而语境相关建 模又带来一系列问题:模型数目大增,训练量对语音库和内存要求都很高, 为此需要进行模型聚类,将相似的建模单元的模型参数聚在一起,以减少 模型和参数的数目,提高模型训练的鲁棒性和准确性;决策树技术是解决 汉语三音子建模的聚类和参数共享问题的很好的方案,本识别器采用基于 v i t e r h i 分割、k 均值聚类和多个高斯函数混和的决策树分类算法。 从搜索角度来看,搜索算法的衡量标准是有效性、准确性和可移植性; 系统中包含了三层知识,分别是声学模型知识、语音学知识和语言模型知 识;对应地搜索空间从底层到顶层也分为三层:由h m m 状态构成的空阳j ( 受 h m m 拓扑结构约束) 、由h m m 模型构成的空间( 受汉语音节表或发音词典的 约束) 、由统计语言模型和语法语义知识构成的空间( 受语言知识约束) 。 搜索从最底层声学匹配开始,把特征序列和删状态序列对应起来,逐渐 搜索出h 模型序列、词序列、句子序列。 本识别器基本建模单元为汉语声韵母,采用h m m 描述;在此基础上利 用语境相关知识的约束构建三音子模型;然后用基本建模单元的级联构成 词句。本识别器集成了三音子模型、语境知识和词典知识,构成了一遍搜 索空间。搜索则采用基于深度优先的帧同步v i t e r b i 搜索,采用一遍搜索 策略。搜索的过程是路径在搜索空间沿时间的不断演化过程。知识引导和 约束路径的扩展,搜索以路径为中心,对路径的操作包括路径的扩展、奄 找、插入和替换。 第三章语音识别中的拒识 第三章语音识别中的拒识 3 1 拒识概述 从语音识别研究最初起,由于识别本身固有的词表限制特性,拒识就 是人们一直努力解决的问题。伴随着语音识别技术逐步走向实用,高效的 拒识方法的引入对于系统性能具有极大的影响。下面从拒识的定义、意义 及研究方面的难度对这个问题加以阐述: 3 1 1 拒识的定义 。义的拒识是指识别器对集外( o u to fv o c a b u l a r y ,0 0 v ) 发声的检测、 拒识和正确文本的转换过程。因此,首先需明确相对于集外的集内指什么。 对于孤立词识别器,集内是指识别器的词表之内的所有孤立词:对于连续 语音识别器,集内是指声学模型、语言模型中包含的所有词句。典型的集 外发声有:与集内词相同意义上的语音、非语音的噪声及说话人的停顿、 咳嗽、犹豫等。狭义的拒识就是指孤立词识别中对集外词的检测和拒绝。 对于一般的集外词,拒识需要解决三个主要问题 2 0 3 :一是检测其存 在;二是识别其次词串表示:三是声音到文本的转换。目前大多解决的是 问题一,如在孤立词识别中,只需要检测出语音是集内还是集外即可,实 际是二元模式分类问题。常见的解决方法如用垃圾模型检测集外词,垃圾 模型在关键词检测中很有用,因为在那里,只对关键词感兴趣,对于非关 键词只要检测出来抛弃即可,无需别的处理。但在很多场合下不仅要解决 问题,还需要解决问题二和问题三,比如对于连续语音识别,集外不仅 包含整句语音每个词都是集外的情况,也包含句子中部分词是集外的情 况,这样在应用巾不仅要求检测出整句话巾哪些词是集外的,可能还要求 将这些集外词通过某种途径正确地转换为一定文本,以供后续处理。这时, 单纯的垃圾模型就不行了,需要其他的方法。 3 1 2 拒识的意义和难点 研究者最初试图发现集外词出现概率随词表规模和覆盖范刚的变化 而变化的规律,并寻求集外词对系统整体性能的影响规律。首先,词表一 嵌入式语音识别系统中拒识算法的研究及实现 般是这样确定的:对于特定任务如电话语音拨号来说,词表可以固定为数 字和一些常用命令;对于更加宽泛的应用而言,词表一般从数据集中确定, 比如可根据在数据集中某个词出现的次数多少决定是否将其划到词表中。 先后有研究者对词表规模随数据集规模增大而增大的规律以及集外词出 现的概率变化进行了定量研究,发现,词表基本是随着数据集增大而线性 增大,集外词比率相应基本线性下降,但是总有一个下降的极限,即表明 集外词是不可避免的;集外词的出现概率随任务不同有比较大的差异,如 有的应用场合下出现概率较高,有的情况下偏低。同时,即便出现单个集 外词的概率较小,但若干集外词出现可能导致整句的错误率可能较大,由 此可见,对于大词汇量连续语音识别来说,集外词的影响尤为明显。 凶此无论对于孤立词识别还是连续语音识别,有效的集外词检测、拒 识及转换对于提高系统的性能、优化系统的界面、增强系统的实用性都具 有十分重要的意义。有效的集外词拒识不仅能够防止系统对用户指令的误 动作、误响应,箍且能够提高自然语言理解的正确度。 由此可见集外词问题对系统性能的影响很大。然而有效检测和拒识集 外词绝非易事。f e t t e r 1 5 对集外词性质进行了研究,主要关注集外词的 平均词长和新的声学性质( 如集外词中包含的新的音素、音节) 。研究发现, 集外词平均词长比集内词略高但不明显,集外词中所包含的新的声学性质 也很少,即其音素序列中的音素在集内词中大都存在。正是由于集外词在 词长、声学性质等方面与集内词没有本质差别而使集外词检测和拒识显得 相当困难。 图3 1识别及拒识各种倩况分类 第三章语音识别中的拒识 3 。2 拒识算法的性能评价 应用拒识算法对集外词进行检测和拒识必然有两面性,即在正确检测 出集外词的同时有可能把集内词错误地认为是集外词。因此,对拒识算法 有效性的评价不仅要考虑其检测集外词的效果,还要考虑其对识别器集内 词识别率的负面影响。很多方法也都力求平衡这一矛盾。在识别拒识的 结构下,先识别后拒识会出现多种情况,如图3 1 所示。 定量地,可用表3 一l 所示参数来评价拒识算法的性能。这
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年播音员主持人资格考试广播电视概论章节题
- 中国饲料加工行业市场规模与竞争格局深度研究-专题研究报告
- 人工智能在金融科技服务中的深度应用研究-专题研究报告
- 软件开发人才供需缺口与薪酬趋势研究报告
- 混凝土车辆定位追踪方案
- 海洋牧场养殖密度优化方案
- 高频使用设备操作失误的实时监测系统
- 高血压患者自我管理教育需求分层研究
- 高端影像设备供应商评估的临床维度权重
- 高端医疗设备供应商准入与绩效评估模型
- 2026年测自己性格测试题及答案
- 2026中国文创产品市场消费趋势与商业模式创新研究报告
- 带状疱疹临床路径完整版
- 北京2025年国家艺术基金管理中心招聘应届毕业生笔试历年参考题库附带答案详解(5卷)
- 《安全预评价提供基础资料清单》
- 铜砭刮痧的基础及临床应用
- (广东一模)2026年广东省高三高考模拟测试(一)政治试卷(含官方答案)
- 2025年广西初中学业水平考试中考(会考)地理试卷(真题+答案)
- 新疆兵团建设工程标准化手册最终版
- 离婚协议书下载电子版完整离婚协议书下载
- 《高数双语》课件section 6.1
评论
0/150
提交评论