(计算数学专业论文)一个新的语音识别算法.pdf_第1页
(计算数学专业论文)一个新的语音识别算法.pdf_第2页
(计算数学专业论文)一个新的语音识别算法.pdf_第3页
(计算数学专业论文)一个新的语音识别算法.pdf_第4页
(计算数学专业论文)一个新的语音识别算法.pdf_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 语音识别是人机接口设计的一项重要内容,也是语音信号处理中非常重要的 应用技术。语音识别技术要走向实用必须解决语音信息的变化多样性( 如用户多 样性,方言口音等) 问题和噪声问题。它们对语音识别技术有着严重的影响。一 个特定系统针对不同的说话人,识别率可能相差几十个百分点。噪声带来训练模 型和测试语音之问的失配,使得识别系统的性能急剧下降,如噪声可能使单词的 端点检测造成困难,从而降低识别率。 为解决多用户不同口音语音的识别问题,本文提出了一种新的语音识别方 法。新的算法充分考虑了误识语音。本文应用隐马尔可夫模型,在训练集中,对 特别容易误识的语音增加其训练样本,而对不易误识的语音减少其训练样本,从 而提高了语音识别系统的性能。 为减少环境噪声的影响,提出了基于离散余弦变换的语音增强算法,并将其 应用于语音识别系统,增强了语音识别系统的鲁棒性。 关键词:语音识别,h m m 模型,语音增强,离散余弦变换 a b s t r a c t s p e e c hr e c o g n i t i o ni so n eo ft h ei m p o r t a n tc o n t e n to fm a n - m a c h i n ei n t e r - f a c ed e s i g n ,a n di ti sa l s oav i t a la p p l i e dt e c h n o l o g yi ns p e e c hs i g n a lp r o c e s s i n g m a n yp r o b l e m sn e e dt ob es o l v e ds u c ha sv a r i a b l es p e e c hi n f o r m a t i o n ( m u l t i - u s e r ,d i a l e c ta c c e n t ) a n db a c k g r o u n dn o i s e t h e s ep r o b l e m si n f l u e n c et h es p e e c h r e c o g n i t i o np e r f o r m a n c eg r e a t l y w h e nt h ep a r t i c u l a rs y 8 t e mi sa p p l i e df o rv a r i o u ss p e a k e r ,t h es p e e c hr e c o g n i t i o nr a t ec a nb ed i s c r e p a n tt e n so fp e r c e n t n o i s e c a r tl e a dt ot h em i s m a t c h i n go ft r a i n i n gm o d e la n dt e s t i n gs p e e c hu t t e r a n c e , w h i c hm a k et h er e c o g n i t i o no ft h es y s t e md e c l i n es e r i o u s l y n o i s ec a nm a k et h e d e t e c t i o no fe n d p o i n to ft h ew o r dd i f f i c u l t ,a n da c c o r d i n g l yd e c r e a s et h es p e e c h r e c o g n i t i o nr a t e f o rt h em u l t i - n s e rd i a l e c ta c c e n tp r o b l e m ,w ed e v e l o p e dan e ws p e e c hr e c o g - n i t i o nm e t h o db yu s i n gt h eh i d d e nm a r k e rm o d e li nt h i sd i s s e r t a t i o n t h en e w m e t h o dc o n s i d e r sm o r eo ft h es p e e c hu t t e r a n c e sw h i c ha r ee a s yt ob ef a l s er e c o g - n i z e d s oi nt h et r a i ns e s s i o n ,w eu s em o r es p e e c hu t t e r a n c e st h a ta r ee a s yt ob e f a l s er e c o g n i z e d ,w h i l eu s el e s ss p e e c hu t t e r a n c e st h a ta r ee a s yt ob er e c o g n i z e d t h i si m p r o v e st h ep e r f o r m a n c eo ft h es p e e c hr e c o g n i t i o ns y s t e m i no r d e rt or e d u c et h ei n f l u e n c eo ft h eb a c k g r o u n dn o i s e tw ep r o p o s e da s p e e c he n h a n c e m e n tm e t h o db a s e do nd i s c r e t ec o s i n et r a n s f o r m ,a n da p p l i e di t t ot h es p e e c hr e c o g n r i o ns y s t e m e x p e r i m e n t ss h o wt h a tt h em e t h o di m p r o v e s t h er o b u s t n e s so ft h es p e e c hr e c o g n i t i o ns y s t e m k e y w o r d s :s p e e c hr e c o g n i t i o n ,h m m ,s p e e c he n h a n c e m e n t ,d i s c r e t ec o s i n e t r a n s f o r m i i 原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作。除了文中特 别加以标注和致谢的地方外,论文中不包含其他人已发表或撰写过的研究成果。 参与同一工作的其他同志对本研究所做的任何贡献均已在论文中作了明确的说 明并表示了谢意。 签名:洱栖日期:加。7 车识妒b 本论文使用授权说明 本人完全了解上海大学有关保留,使用学位论文的规定,即:学校有权保留 论文及送交论文复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容。 ( 保密的论文在解密后应遵守此规定) 虢浯耨导师貔涨曼争吼矽a 7 、幻口 2 0 0 7 年上海大学硕士学位论文 第一章绪论 1 1 语音识别的基本概念和相关理论 l 1 1 1 语音识别的基本概念 语音识别就是让机器能听懂人说的话,从本质上讲它属于模式识别,其根本 目的是研究一种听觉功能的机器,使机器能直接接受人的口呼命令,“理解人”的 意图并做出响应。它的基本原理是含有语音识别技术的智能物体能够根据发出 的声音信号,将信号转换成文字,然后根据需要做记录,查询或做出相应的操作 工作。语音识别是一门涉及面很广的交叉科学,涉及到生理学、心理学、语言学、 计算科学以及信号处理等诸多领域,甚至还涉及到人的体态语言( 如说话人的表 情,手势等行为动作可帮助对方理解) 。 语音识别系统按照不同的角度,不同的应用范围和不同的性能要求会有不同 的系统设计和实现,也会有不同的分类。一般语音识别系统按不同的角度会有以 下几种分类方法【2 】【3 】。 ( 1 ) 按照词汇量大小分有:小词汇表( 词汇量小于1 0 0 ) ,中词汇表( 词汇表 在1 0 0 和1 0 0 0 之间) ,大词汇表( 1 0 0 0 词以上) 语音识别。一般而言,随着词汇表 中词汇量的增多,各词之间的混淆性增加,系统的实现将变得更加困难,系统的 识别率也会降低。 ( 2 ) 按照发音方式分可以分为:孤立词识别,连接词识别和连续语音识别三 种方式。孤立词识别是指在发待识语音时,每次只含词汇表中的一个词条,比如 一个词,一个词组或者一条命令。连接词识别每次说词汇表中的若干个词条来进 行识别,该若干词条以慢速连续的方式连续说出,一般指o n 9 十个数字连接而成 的多位数字的识别,并包含其他一些少量的操作指令等。连续语音识别足说话人 以日常自然的方式讲述并进行识别。 ( 3 ) 按照说话人的限定范围分有:特定人识别和非特定人识别两种方式。所 谓特定人识别是指识别系统只针对特定的某个用户进行识别工作的方式。非特定 人语音识别需要针对不同人建立模型,实现起来难度比较大,但是通用性好,应 用需求更广。 2 0 0 7 年上海大学硕士学位论文 2 ( 4 ) 按照识别方法分有:模板匹配法,概率模型法等。所谓的模板匹配法是 指把不同内容的语音转换成不同的模板,并基于对模板匹配的相似性度量进行语 音识别的方法。而概率模型法主要是指利用隐马尔可夫模型的概率参数来对似 然函数进行估计判决并得到识别结果的方法。目前还有基于人工神经网络,支持 向量机等方法的语音识别技术。 1 1 2语音识别系统的构成 语音识别系统是建立在一定的硬件平台和操作系统之上的一套应用系统软 件。硬件平台可以是一台个人计算机或工作站,操作系统是u n i x 或w i n d o w s 系 统。由于对语音识别的要求来自于不同的领域和部门,因此对语音识别应具有的 性能和指标提出了不同的要求。尽管设计和实现的细节不同,但语音识别系统所 采用的基本技术是相似的。语音识别的步骤可以分两步。第一步是根据识别系统 的类型选择能够满足要求的一种识别方法,采用语音分析方法分析出这种识别方 法所需要的语音特征参数,这些参数作为标准模式由机器储存起来,形成标准模 式库,这个语音参数库称为“模板”,这一过程称为“学习”或“训练”。第二步 就是“识别”或“测试”阶段。语音识别本质上是一种模式识别的过程,其基本结 构,主要包括预处理,特征提取,特征建模( 建立参考模式库) ,模式匹配( 相似 性度量) 和后处理等几个功能模块,其中后处理模块为可选部分。 典型的语音识别基本框图1 4 】为: 输厶语毫压亟亘丑砸茧亘垂因识别屯垂亘亘虱量至蔓卜一识别结果 呦趾唯葫 图1 1 语音识别基本框图 一个语音识别系统主要包括训练和识别两个阶段。无论是训练和识别,都需 要首先对输入的原始语音进行预处理,并进行特征提取。下面具体说明各个模块 的功能。 预处理模块,对输入的原始语音信号进行处理,滤除掉其中的不重要的信息 以及背景噪声等,并进行语音信号的端点检测,即判定语音有效范围的开始和结 2 0 0 7 年上海大学硕士学位论文 3 束位置,并进行语音分帧以及预加重等处理工作。 特征提取模块负责计算语音的声学参数,并进行特征的计算,以便提取出反 映信号特征的关键特征参数,以降低维数并便于后续处理。语音识别系统常用的 特征参数有幅度、能量、过零率、线性预测系数、倒谱系数、m e l 倒谱系数等。特 征的选择和提取是识别系统构建的关键,此后所有处理都是建立在特征参数之 上,一旦特征参数不能很好地反映语音信号的本质,识别就不能成功。 在训练阶段用户输入若干次训练语音,系统经过上述预处理和特征提取后得 到特征矢量参数( 序列) ,通过特征建模模块建立训练语音的参考模式库,即建 立语音声学模型,或者已在模式库中的参考模式作适应性修正。声学模型是语音 识别系统中最底层的模型并且也是识别系统中最关键的一部分。 在识别阶段,将输入语音的特征矢量参数和参考模式库中的模式进行相似性 度量比较,将相似度量最高的模式所属类别作为识别的中问候选结果输出。 1 1 3 语音信号分析及特征提取 语音识别中对语音信号的分析从传统的f f t 分析、线性预测分析和倒谱分析 一直发展到今天的小波分析、神经网络技术,已取得了很大的发展。语音识别的 首要步骤是特征提取。特征的选择对语音识别的效果是至关重要的。选择的标准 应该体现对异音字之间的距离要尽可能大,同音字之问的距离尽可能小。此外, 还要考虑特征参数的计算量。 语音信号的特征参数主要有: 1 短时能量磊 短时能量序列反映了语音振幅或能量随着时间缓慢变化的规律。从原始语 音信号图中可以看到语音信号幅度随时间有相当大的变化,特别是清音段的幅度 一般比浊音段的幅度小很多,语音信号的短时能量给出了反映这些幅度变化的一 个合适的描述方法。 语音信号s ( n ) 的短时能量定义为: n + r 一1 晶= 【s ( m ) u 一m ) 】2 ( 1 1 ) l = n 式中u m ) 为窗函数,这里窗长的选择对于反映语音信号的幅度变化起着决定的 作用。如果很大,它等效于很窄的低通滤波器,此时r 随时间的变化很小,不 2 0 0 7 年上海大学硕士学位论文4 能反映语音信号的幅度变化,信号的变化细节就看不出来;反之,太小时,滤 波器的通带变宽,b 随时间有急剧的变化,不能得到平滑的能量函数。因此,窗 口长度的选择应合适。短时能量的主要用途有: ( 1 ) 区分清音段和浊音段。语音为浊音时的短时能量值比清音时大很多,根 据语音信号短时能量值的变化,可大致判定浊音变为清音和清音变为浊音的时 刻。 ( 2 ) 在高信噪比的语音信号中,可以用来区分有无语音。此时,无语音信号 的噪声能量很小,而有语音信号时短时能量值显著地增大到某一数值,由此可以 区分语音信号的开始和终止点。 但是,既值对于高电平信号非常敏感,因此在实际使用时需加以处理,例如 取对数等,以便将数值限制在一定范围内。 2 短时平均过零率磊 过零率分析是语音时域分析中最简单的一种,过零率就是信号通过零值的频 率。对于连续信号,可以考察其时域波形通过时间轴的情况。而对于离散时间信 号,如果相邻的取样值改变符号则称为过零。由此可以计算过零率,过零率就是 改变符号的次数。单位时间内的过零率称为平均过零率。 如果是正弦信号,它的平均过零率就是信号的频率除以两倍的采样频率,而 采样频率是固定的,因此过零率在一定程度上可以反映频率的信息。因为语音信 号不是简单的正弦序列,所以平均过零的表示方法就不那么确切。然而短时平均 过零率仍然可以在一定程度上反映其频谱特性的一个粗略估计。短时过零率的 公式为: z j = ;i s g n s ( m ) w ( n m ) 】一s g = s ( m 一1 ) w ( n m + 1 ) 】l ( 1 2 ) 式中,s 卵 】是符号函数,即 s 州s ,= 1 7 8 嘉曼 s , u ( n ) 为窗口函数。 根据声学原理,发浊音时能量主要集中在3 k h z 以下,而发清音时,多数能量 出现在较高频率上。既然高频意味着高的平均过零率,低频意味着低的平均过零 2 0 0 7 年上海大学硕士学位论文 5 率,那么就可以认为发浊音时具有较低的平均过零率,而发清音时具有较高的平 均过零率,因而可以根据平均过零率来粗略区分清音和浊音。 3 短时自相关函数心( ) 语音信号s ( n ) 的短时自相关函数定义为: n + n - k - 1 ( ) = 乏二s ( m ) u ( 几一m ) s ( m + 七) u ( n 一( m4 - ) ) ( 1 4 ) m = n 短时自相关分析在语音识别中可有下面两个方面的应用:用来区分清音或 浊音,因为浊音信号是准周期的,对浊音语音可以用自相关函数求出语音波形序 列的基音周期;另外在进行语音信号的线性预测分析时,也要用到短时自相关函 数。 4 基音周期 浊音是准周期信号,其周期为基音周期,基音周期的倒数为基因频率。基音 周期可用于清、浊音判决,也是汉语语音声调识别的主要参数。通常可以采用短 时自相关函数和短时平均幅度差函数估计基音周期。 短时自相关函数在基音周期的各个整数倍点上有很大的峰值,可以用来估计 语音信号的基音周期;短时平均幅度差函数是通过比较原始语音信号和其时移的 相似性来估计语音信号的基音周期。 上述语音参数是较常用的特征参数。此外还有声道面积比系数和对数面积 比系数等,它们对语音识别,语音合成等都是十分重要的。 1 2 语音识别的发展研究 1 2 1 国外语音识别的发展 语音识别的起源是在2 0 世纪的3 0 至1 j 5 0 年代,这个时期的研究主要是针对语音 特征,特别是语音频域特性及人耳的功能等方面。当时,美国a t & t 公司的b e l l 实 验室实现了第一个可识别十个英文数字的语音识别系统一a u d r y 系统。 1 9 3 9 年美国b e l l 实验室d u d l e y 发明了声码器。1 9 4 1 年日本人千页尾山对元音 做了声学、生理学和心理学等等方面的研究。在此基础上,f r a n t 明确了音调和声 音的关系,于1 9 6 0 年建立了语音产生的声学理论。这些研究工作为语音识别的发 展打下坚实的基础。 2 0 0 7 年上海大学硕士学位论文 6 1 9 5 6 年,o l s o n 和b e l a r 依据元音部分的谱测量实现了1 0 个单音字节字的识 别。1 9 5 9 年,f r y 和d e n e s 利用谱分析和模式匹配进行4 个元音和9 个辅音的音素 识别,并提出利用英语中音素的顺序统计信息提高识别率。同年,麻省理工大学 的j w f o r g i e 等人设计了1 0 个元音嵌入结构的非特定人语音识别系统。这是该时 期较有影响的识别系统。 6 0 年代初,日本的东京无线电实验室、京都大学和n e c 实验室都制作了能够 进行识别的专用硬件,在语音识别领域进行了开拓性的工作。同时在世界范围 内,也进行了对今后语音识别研究和发展有着深远意义的研究工作。r c a 实验室 为解决语音时间尺度的非均匀性问题,以便能可靠地检测语音的起始点和终止 点,提出了一组基本的时间归一化方法,有效地减少了识别结果的可变性。前苏 联的v i n t s y u k 提出了使用动态规划的方法,对一组语音在时间上对准,包含了动 态时间轴归正的思想。c a r n e g i em e l l o n 大学的r e d d y 通过对音素的动态跟踪,对 连续语音识别方法做了开创性的工作。 6 0 年代中期以后,计算机产业的迅速发展给语音识别提供了实现复杂算法的 软件、硬件环境,并提出了使用要求。同时,数字信号处理理论和算法也取得了 飞跃的发展,产生了快速傅立叶变换、倒谱计算、数字滤波器等算法和理论,大 大促进了语音识别技术的发展并使语音识别的研究从模拟技术转到数字技术。 6 0 年代语音识别技术的发展产生深远影响的两大技术是线性预测技术和模 板匹配技术。1 9 6 8 年日本电报电话公司电气通讯研究所和美国b e l l 实验室发表了 有关语音信号线性预测分析方法的文章。该技术能够解决语音信号时域建模的 参数估计问题,对后续语音识别产生了深远的影响。 7 0 年代,语音识别领域取得突破,语音识别技术在理论和实践方面都有了很 大的发展,语音识别的两大基本技术一特征提取和模板匹配取得了长足的进步。 在理论上,l p c 技术得到进一步发展,动态时间归正技术( d t w ) 基本成熟,特 别是提出了矢量量化( v q ) 和隐马尔可夫模型( h m m 理论) 。在实践上,实现了 基于线性预测倒谱和d t w 技术的特定人孤立词识别系统。 这一时期也开始出现了一些连续语音识别系统。1 9 7 1 至1 9 7 5 年,美国国防 部推出a r p a 五年计划,目标是1 0 0 0 词的连续语音识别。在参与此计划的单位 中,c a r n e g i em e l l o n 大学的1 0 0 0 词、连续语音、安静环境条件下的语音识别系 统h e a r s a y - h a r p y 效果较好。 2 0 0 7 年上海大学硕士学位论文 7 8 0 年代,语音识别研究进一步走向深入,逐渐从特定人、小词汇表、孤立词 识别走向非特定人、大词汇表、连续语音识别转移,出现了以隐马尔可夫模型 为建模的语音识别方法。这一时期较好的系统还有日本电气公司s a k o e 等开发的 连接词语音识别系统,它采用双层动态时间规正技术,将识别率提高l 1 j 9 9 。英国 的b r i d l e 和b r o w n 利用全字模板和帧同步算法设计的连接词识别硬件系统;i b m 公 司开发的3 0 0 0 0 词的语音打字系统t a n g o r a 等。 除了h m m 技术以外,神经网络也被广泛用于语音识别中。1 9 8 7 年,s h a m m a 设 计了一种基于听觉神经系统原理的语音识别系统。1 9 8 8 年,h u a n g 等人利用多层 感知器b p 算法实现了统计模式分类并将其用于语音识别系统当中。芬兰的科学 家k o h o n e n 利用自组织特征映射神经网络实现的芬兰语识别,取得了9 0 的识别 率。1 9 8 7 年w 缸b e l 等提出用一种时延神经网络模型来识别日语语素,对所有辅音 的识别获得了优于h m m 的识别率。 进入9 0 年代,随着多媒体时代的来临,迫切要求语音识别系统从实验室走向 实用。许多发达国家如美国、日本、韩国等国的著名公司都为语音识别系统的实 用化开发研究投以巨资。而且小波理论得到系统迅速发展,出现了各种基于小波 理论的算法,也有研究者尝试把小波分析技术应用于特征提取,但目前性能不太 理想,有待进一步研究。 1 2 2国内语音识别的发展 我国语音识别技术研究工作起步较晚,但是进步较快,一直紧跟国际水平, 国家也很重视,并把大词汇量语音识别的研究列入“8 6 3 ”计划,由中科院声学所, 自动化所及北京大学等单位研究开发。国家8 6 3 智能计算机专家组于1 9 9 8 年4 月组 织了对国内大词汇量连续语音识别系统的测评。清华大学电子工程系的语音识别 系统获得了较好的成绩:字正确率为9 3 ,句子正确率为6 2 5 ,其结果和i b m 语 音识别系统水平相当。中科院自动化所研制的非特定人,连续语音听写系统和汉 语语音人机对话系统,字正确率和系统响应率达9 0 以上。这些成果表明我国的 语音识别的研究已经接近国际水平。鉴于中国未来庞大的市场,国外也非常重视 汉语语音识别的研究,美国,新加坡等地集了一批来自大陆,台湾,香港等地的学 者,研究成果已经能够达到相当高水平。a p p l e 公司在1 9 9 5 年推出第一个商用的连 接词语音识别系统。i b m 公司也于1 9 9 7 年正式推出中文听写机系统( v i a v o i c e ) 。 2 0 0 7 年上海大学硕士学位论文 8 语音技术的应用已经成为一个具有竞争性的新兴高技术产业。 1 3目前存在的问题和发展方向 作为高科技应用领域的研究热点,语音识别技术从理论到产品的开发已经走 过了五十多个春秋并取得了长足的进步。它正在办公或商业系统的数据库语音 查询,工业生产部门的声控制,电话与电信系统的自动拨号以及医疗和卫生等领 域发挥重要的作用,并且极有可能成为下一代操作系统和应用程序的用户界面。 然而,目前语音识别技术的研究水平还远远不能达到使计算机与人进行自然 交流的终极目标。实用语音识别技术的研究是一项极具市场价值和挑战性的工 作,但是存在的问题是不可忽视的。在语音识别中,必然涉及到人是怎样从声音 中提取信息和理解含义的问题。只有弄清人在收听声音时的生理过程并研究模 仿这些过程的模型,语音识别才可得到一个飞跃的发展。如何充分借鉴和利用人 在完成语音识别和理解时所利用的方法和原理就是一大话题,因而语音识别与人 工智能之间有密切的关系。而目前只能从语音信号出发,用“隐过程”( 如隐马 尔可夫模型) 来进行神经系统和听觉过程的模拟,这是无法达到理想的识别和理 解的效果的。 实用语音识别研究中存在主要问题和困难如下: ( 1 ) 语音识别系统的适应差,对环境依赖性强。在某种环境下建立的语音识 别系统只能在这种环境下应用,否则系统性能能将急剧下降,而且全世界共有上 千种语言,每种语言又有许多种方言,这样,随着环境的改变识别系统的性能必 然会下降。 ( 2 ) 语音识别的一种重要的应用是自然语音的识别结果和理解。这一目的的 实现首先是连续的讲话必须分解成单词,音节或因素单位,其次是要建立一个理 解寓意的规则或专家系统。 ( 3 ) 语音信息的变化很大的。语音模式对不同的说话者是不同的,就是说找 不到两个说话人的发音是完全相同的,而且同一个说话人在随意说话和认真说话 时语音信息也是不同的。同一说话者在相同方式( 随意或认真) 说话时,也受长 时间变换的影响,即今天及一个月后同一说话者说相同词语时,语音信息也不相 同。这还没有考虑同一说话者发声系统的改变( 如病变等) 。 2 0 0 7 年上海大学硕士学位论文 9 ( 4 ) 语音的模糊性。说话者在讲话时,不同的词语可能听起来很相似,这一点 不论在汉语还是在英语中都常见的现象。 ( 5 ) 单个字母及单个词语音特性受上下文环境的影响,使相同字母有不同的 语音特性。单词或单词的一部分在发音过程中其质量,音调,重音和发音速度可 能不同。 ( 6 ) 高噪声环境下语音识别进展困难。实际环境中总是存在各种各样的噪声, 而我们实验中的语音数据大多是在理想的环境下采集的,所以当识别系统走向实 用时,环境噪声的存在所带来的问题变得越来越突出。因为环境噪声会使得所分 析出的特征参数数据发生偏差,噪声越大这种偏差越严重,从而使正确识别的几 率逐步下降直至识别完全失效。此外,在高噪声背景下,人的发音变化也很大, 象声音变高,语速变慢,音调及共振峰变化等等,这就是所i w l o m b a r d 效应,必 须寻找新的信号分析处理方法。 ( 7 ) 语言学,生理学,心理学方面的研究成果已有不少,但如何把这些知识量 化,建模并用于语音识别,还需要研究。而语言模型,语法及词法模型在中,大 词汇量连续语音识别中是非常重要;我们对人类的听觉理解,知识积累和学习机 制以及大脑神经系统的控制机理等方面的认识还很清楚,即使把这方面的现有成 果用于语音识别,也还有一个非常艰难的过程要走。 ( 8 ) 语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题 需要解决,如识别速度、拒识问题以及关键词( 句) 检测技术( 即从连续语音中 去除诸如“啊”,“唉”等语音,获得真正待识别的语音部分) 等等技术细节。 2 0 0 t 年上海大学硕士学位论文 第二章基于h m m 的语音识别系统 l o 2 。l 引言 隐马尔可夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 作为语音信号的一种统计 模型,如今在语音处理的各个领域获得了广泛的应用。隐马尔可夫模型技术使用 马尔可夫链来模拟信号的统计特性的变化,而这种变化又是间接地通过观察序列 来描述的。因此,隐马尔可夫模型是一个双重的随机过程。人的言语过程就是这 样一种双重的随机过程。语音信号本身就是一个可观察的序列【6 j :它是由大脑里 的( 不可观察的) ,根据言语需要和语法知识( 状态选择) 所发出的音素( 词,句 子) 的参数流。所以语音信号的描述使用隐马尔可夫模型是合适的。 将h m m 应用于语音识别问题时基于如下的假设:虽然语音信号本身受各种 因素的影响而表现为很强的不确定,但声学信号中隐含的语义信息是确定的,并 且所能观测到的语音信号的变化是由隐含的语义信号的变化决定的。换句说,语 义信号时间的演变经过人的语音发生系统,从而产生了随机变化的观察信号。 在语音识别领域中,通过对大量的训练样本的发音的统计可以得到h m m 的 各个参数,h m m 在描述发音的物理过程方面比动态时间规正等传统方法更有效, 更灵活。在语言理解领域,统计模型的提出,使得以往用有限自动机理论描述的 语言模型也可以用h m m 来建模,底层和顶层在数学形式上具有很大的一致性。 h m m 方法使用灵活,使得语音识别系统可以选择各种语音单元,如:音素, 半音节,音节,词以至整个语句等等。 h m m 具有三种基本类型【1 ,离散隐马尔可夫模型,连续隐马尔可夫模型和 半连续隐马尔可夫模型。 2 2h m m 的基本原理 语音是由人的发音器官产生的,在说话的时候,声门的气流冲击声带产生振 动,然后通过对声道的调制变成语音。声道的变化决定了语音信号的非平稳随机 特性。而声道的下一个时刻的状态可以看成仅与当前的状态有关,与以前声道的 历史没有关系,因此可以用隐马尔可夫模型来描述语音信号。对于观察者来说, 2 0 0 7 年上海大学硕士学位论文1 1 只能观测到语音信号的状态,而无法直接观测到隐马尔可夫模型的内部状态序列 以及其转移过程。 用于描述随机过程统计特性的h m m ,是由马尔可夫链演变过来的。这里所 说的随机过程,在语音识别领域,包括说话人识别和语词识别等方面,一般都是 有限长的随机序列,它可能是一维的观察值序列或编码符号序列,也可以是多维 的矢量序列。通常一个语音段( 如词,音素或短语) 可以用一串特征矢量表示,这 就是一个观察矢量序列,也叫做观察序列,记为0 = 0 l ,0 2 ,o r ,它是一种随机 序列。一个有个状态( 记为魏,岛,s ) 的h m m 由三元参数a = ( 7 r ,a ,b ) 来 表示,其中: ( 1 ) 7 r = 【丌l ,丌2 ,7 r n 】为初始分布,用于描述观察序列0 在t = 1 时刻所处状 态q l 属于模型中各状态的概率分布,即: f f i = p ( q l = s i ) = 1 ,2 ,n( 2 2 1 ) 死满足: ( 2 2 2 ) ( 2 ) a = ( a o i i ,j = 1 ,2 ,n y g 状态转移概率分布矩阵,这里只考虑一 阶h m m ,是t 时刻由状态最转移到t + l 时刻状态岛的概率,当前所处状态吼只 与前一时刻所处状态q t 一1 有关,即: a o = p ( 啦= 5 i l 啦一1 = 最,q t 一2 = 瓯,) = p ( q t = 5 引吼一1 = 最) ( 2 2 3 ) 满足: ( 2 24 ) ( 3 ) b 是输出观察值概率的集合,有离散型和连续型两类,分别相应于离散隐 马尔可夫模型和连续隐马尔可夫模型。 n ) 在离散h m m 情况下,观察序列为符号序列,b 为一概率矩阵: b = b a k ) ,j = 1 ,2 ,;k = 1 ,2 ,m )( 2 2 5 ) l = 巩 :i j i 叼 傅 2 0 0 7 年上海大学硕士学位论文 1 2 b a k ) 为j 状态下出现第个符号的概率。b a k ) 满足: m b a k ) = 1 ( 2 2 6 ) k = i 式中m 为编码符号集中符号的总数。 6 ) 在连续h m m 情况下,观察序列为矢量序列( 设维数为d ) ,b 就是个d 维 概率密度函数的集合: b = b ( o ) ,j = 1 ,2 ,)( 2 2 7 ) 式中0 为观察矢量空间中的任一矢量,每一个概率密度函数都满足归一化的条件, 即: , b a o ) e o = 1 ( 2 2 8 ) j 嘶 式中表示第j 状态的观察概率空间,它可以是矢量o 所在的全部空间,也可以 是其中的一个子空间或一个区域。从这个定义看出,h m m 与有限状态的一阶马 尔可夫链一样,用初始分布,状态转移概率矩阵来描述有限长随机序列的统计特 性,但它不同于马尔可夫链由每一观察即可确知当前所处的状态,而是由每一观 察仅能估算出当前处于各种状态的概率。这就是说,它具有双重随机性,是一种 双重随机过程。 2 3h m m 在语音识别的三个基本问题 为了利用h m m 在语音识别领域进行实际的应用,有三个基本问题必须先得 到解决。 1 已知模型参数,计算给定的观测序列的概率。此概率值反映了模型和语音 的匹配程度。 假设给定观测序列o = ( 0 1 ,0 2 ,o r ) ,已知模型参数a = ( 丌 a ,口) ,求p ( o i a ) 。 最直接的方法是将所有可能的状态序列q 产生观测序列的概率进行累加,即: p ( o l a ) = e q , ( o ,) = e q , ( o i q a ) p ( o j a ) 眦1 ) = 驰q 2 盯1 1 ( d 1 ) 口叮l q 2 ( d 2 ) a e r - 坩r 6 卵( d r ) 按( 2 3 1 ) 式计算p ( d i a ) ,计算量是巨大的。需要( 2 丁一1 ) r 次乘法,n r _ 1 个 加法。在实际应用中并不可行。利用前向后向算法可有效地计算p ( d i a ) 。 2 0 0 7 年上海大学硕士学位论文 1 3 前向算法: 定义前向变量啦( i ) 为: d t ( i ) = p ( o l ,0 2 ,o t ,q t - - ms l a )( 2 3 2 ) 表示给定h m m 模型参数a ,部分观察序列0 1 ,0 2 ,o t 在t 时刻处于状态s :的概率。 我们可以通过迭代的方法计算a t ( i ) : ( 1 ) 初始化:对于初始时刻t = 1 的前向概率: a t ( i ) = 仉瓯( d 1 ) ,1 i s n( 2 3 3 ) ( 2 ) 迭代: n 啦+ l o ) = 【a * ( i ) a o l b j ( o t + 1 ) ( 2 3 4 ) e 1 其中,l t s t 一1 ,1 j n ,n 为状态总数,丁为训练语音总帧数。 ( 3 ) 终止:模型a 对于输入序列y 的似然值为: n v ( o l x ) = a t ( 0 ( 2 ,3 5 ) = l 后向算法: 类似地,定义一个后向变量厦( i ) 为: 屈( ) = p ( o t + l o t + 2 o r ) q t = s ,a )( 2 3 6 ) 表示给定h m m 模型参数a ,观察序列在t 时刻处于状态鼠,对部分观测序列从时 刻o t + 1 0 t + 2 叼的概率。 ( 1 ) 初始化: 厨( ) = 1 ,1 i n( 2 3 7 ) ( 2 ) 迭代: 屏( i ) = 口巧幻( m + 1 ) 岛+ l o ) ( 2 3 8 ) y = l 其中,t = t 一1 ,t 一2 ,1 ;1 i ; , ( 3 ) 终止: p ( o i a ) = 肿) ( 2 3 9 ) 2 0 0 7 年上海大学硕士学位论文 1 4 2 给定模型和特征序列,选择最有可能产生观测序列的最佳状态序列,从而 揭示h m m 的隐含部分,给出识别结果。v i t e r b i 译码是解决此问题的常用方法。 定义: 瓦( ) = m a xp ( q l q 2 q t 一1 ,g t = i ,0 1 0 2 d t i a )( 2 3 1 0 ) 口1 驰吼一1 即盈( t ) 为在时刻t ,以状态& 为终止状态,对于部分观测序列o 1 0 2 0 5 ,部分路 径q l q 2 ,吼的最大似然值。v i t e r b i 算法为迭代上式的动态规划算法: ( 1 ) 初始化: d l ( t ) = r r i b i ( 0 1 ) ,1 i n( 2 3 1 1 ) 妒l ( ) = 0 ( 2 3 1 2 ) ( 2 ) 迭代: 巩0 ) = 燃 盈一1 ( ) 】b ( d t ) ,2 t z l j n ( 2 3 1 3 ) 4 恍0 ) = n 憎i m s i a x s n 限一1 ( ) ,2 t 1 j n ( 2 3 1 4 ) ( 3 ) 终止: 最大概率 矿2 黝盼( i ) 】 ( 2 3 1 5 ) 最佳路径的最后的状态 西2n r g l 銎( 2 ,_ a n s t ( i ) 31 6 ) ( 4 ) 路径回溯,最佳状态链的确定: 醛= 仇+ l ( q h l ) ,t = t 一1 ,t 一2 ,1 ( 2 3 1 7 ) 可以看出,民( f ) 用来记录在时刻各状态产生部分输出的最大概率,而忱则 用来记录路径的连接信息。 3 调整模型参数a = ( 7 r ,a ,b ) ,使p ( o l x ) 最大,这是h m m i 吾音识别中最重 要的训练过程。上面的d 是训练用的数据,调整参数实际上是如何从已知数据中 最大限度的提取信息,使得模型参数能好的匹配训练数据。b u a m - w e l c h 算法可 以解决这个参数估计问题。 2 0 0 7 年上海大学硕士学位论文 1 5 为了给出重估公式,先定义变量: 仉( i ) = p = 最i o ,a ) = p ( 啦= 最,d l a ) p ( d l a ) ( 2 3 1 8 ) = 吼( 0 a ( 0 e 墨。啦( i 璩( i ) 仇( i ) 为对于给定的模型a 和观察序列0 ,在时刻处于状态最的概率。m ( i ) 是一种 概率测度,必然满足: 饥( ) = 1 ( 2 3 1 9 ) i = 1 再定义: & ( t ,j ) = p ( 吼= s ,吼+ l = 岛i o ,a ) ( 2 3 ,2 0 ) 6 ( 1 ,j ) 为对于给定的模型a 和观察序列o ,在t 时刻处于状态s ,在t + 1 时刻处 于岛的概率。用前向变量表示,有: & ,j ) = 。h ( i ) 玎吣( o t + 1 ) 展+ 1 ( j ) p ( d i a ) = 0 t t ( t ) o 巧b j ( o r + - ) 展+ - 0 ) 篓1 墨。o t ( i ) a q b a o , + ) 成+ ,0 ) ( 2 3 2 1 ) 根据上述两个变量的定义,不难得出它们的关系: n 竹( i ) = 靳,j ) ( 2 3 2 2 ) j = l 于是可以给出如下的一组合理的重估公式: 在时n t = 1 处于状态最的概率。 而= ,y 1 ( 1 ) 2 即状态s 过渡到岛的平均次数除于从状态s 向其它状态转移的平均次数。 ( 2 3 2 3 ) ( 2 3 2 4 ) 一b a k ) = 孥 ( 2 。) 一等等掣 ( 2 心) 处于状态j 并出现观察d 的平均次数除于处于状态j 的平均次数。 2 0 0 7 年上海大学硕士学位论文 第三章一个新的语音识别算法 1 6 3 1 引言 语音识别技术要走向实用,必须解决用户发音多样性以及训练环境和识别环 境不一致的问题,这就要求语音数据库包括尽可能多的语言现象,如不同地区, 不同方言甚至不同母语的用户语音。鉴于语音库在语音处理中的重要性,国外和 国内都非常重视语音数据库的建设和研究。对于一个非特定人连续语音识别系 统来说,说话人的变化对系统识别率的影响很大【2 0 1 :一个特定系统对不同的说话 人,识别率可能相差几十个百分点。长期的理论和实践证明,说话人口音自适应 技术1 2 l 】2 1 ( 例如m l l r ) 和针对不同的方言口音建立相应的声学模型是解决用户多 样性的有效方法。但是,训练新的声学模型的代价很高,需要大量的语料数据和 计算,尤其国内地广人多,方言繁多复杂,对每种方言口音都训练不同的模型几 乎是不可能的。因此建立一个对多种方言口音都适用的鲁棒识别系统是非常有 意义的。 图3 12 和8 的特征示意图 本章,我们针对上述问题提出了一个新的语音识别方法。新的方法充分考虑 了不同口音语音对不同语音的区分程度。例如对语音2 和8 ,如图3 1 所示,假设语 音模型2 的特征为,这语音特征是在考虑所有不同地区,不同口音语音后训练生 成的均值特征,而语音模型8 的均值特征为o 。 对某些地区,例如浙江口音的发音8 的特征可能主要集中在附近。由图3 1 所 示,这些发音8 很容易被误识为2 。如果我们在训练过程中充分考虑到这部分语音, 2 0 0 7 年上海大学硕士学位论文 1 7 而设法使得8 的特征向量位于o 处,则系统的识别率会有很大提高。基于上述考虑, 应用隐马尔可夫模型,在训练集中,对特别容易误识的语音增加其训练样本,而 对不易误识的语音减少其训练样本,从而提高了语音识别系统的性能。对由2 6 0 人 的语音数据库进行模拟实验,结果也表明我们提出的方法比传统的识别方法有更 高的识别率。 3 2 系统设计 同传统的语音识别系统一致,我们提出的语音识别系统包括特征提取,模型 训练和识别几个部分。 3 2 1 特征提取 语音识别常用的特征参数有线性预测系数,倒谱系数,m e l 频段倒谱系数 ( m f c c ) 及其一阶差分等动态信息。我们的系统采用了m f c c 及其一阶、二阶差 分。 m f c c 提取过程为如下图: 图3 2m f c c 特征提取过程 度谱 一般m f c c 参数的提取过程主要包括加窗,离散傅里叶变换( d f t ) ,m d 频 率滤波,取对数,反d f t 等几个步骤。 1 ) 加窗目的是减少g i b b s 效应造成的频谱混叠,通常用h a m m i n g 窗: ( n ) :0 5 4 0 4 6 c o s ( 罢) ,扎= o ,n 一1 2 ) d f t 变换计算语音帧的功率谱。 3 ) m e b s c a l e d 滤波m d s c m e d 滤波器组是一组带通滤波器,每个滤波器具 有三角形滤波特性。滤波器中心频率的划分依据为m e 垓0 度,这些滤波器在线性 频率下看不是均匀分布。在低频段,滤波器带宽较窄,分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论