




已阅读5页,还剩62页未读, 继续免费阅读
(计算机应用技术专业论文)基于神经网络的语音信号识别及其实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于神经网络的语音信号识别及其实现 摘要 语言是人类之间交流信息的主要手段之一,自电脑发明以来, 人们就一直致力于使电脑能够理解自然语言。语音识别技术是集声 学、语音学、语言学、计算机、信息处理和人工智能等诸领域的一 项综合技术,应用需求十分广阔,长期以来一直是人们研究的热点。 神经网络是在现代科学研究成果的基础上提出来的模拟人脑结 构机制的一门新兴科学,它不是人脑真实的全面描述,而是这类生 物神经网络的抽象、模拟和简化,其目的在于探索人脑的信息加工、 存储和搜索机制,从而为人工智能和信息处理等学科的研究开辟新 途径。人工神经网络就是采用物理可实现的系统来模拟人脑神经细 胞的结构和功能的系统,它模拟了人类神经元活动的原理,具有自 学习、联想、对比、推理和概括能力,为很好地解决语音识别这样 一个复杂的模式分类问题提供了新的途径。本文对语音信号的预处 理、特征提取、以及神经网络模型的建立,都进行了较深入的研究。 所作的主要工作如下: 1 对国内外语音识别和神经网络技术发展状况作了较全面的总 结分析,对语音识别技术的分类、语音识别系统的构成、语音信号 的预处理、语音信号特征提取等关键环节的技术问题进行了深入的 理论分析。 2 在深入理解传统语音识别基本原理的基础上,做了适当的改 进,详细的给出了语音识别的模型和关键技术,其重要的技术是端点 检测和特征提取。尤其是在传统的d t w 语音模式匹配的基础上,通 过对搜索宽度限制和整体路径约束等方法,使得系统能够实现快速 的识别响应,有效的提高系统的识别率和响应速度已 3 针对汉语数字语音的识别问题,建立了一个神经网络模型。 将对汉语数字语音的识别转化为分类问题,采用神经网络模型作为 分类器,并在m a t l a b 环境下进行了相关的仿真实验i 实验结果表明, 神经网络在进行元音识别的时候具有不错的识别率。 关键词:语音识别,端点检测,特征提取,d t w ,b p 网络 t h er s r e a r c ha n d i m p l e m e n t a t i o n o fs p e e c hr e c o g n i t i o nb a s e d o nt h en e u r a ln e t w o r k a bs t r a c t l a n g u a g ei s o n eo ft h em o s ti m p o r t a n tm e a n so fe x c h a n g i n g i n f o r m a t i o na m o n gt h em a n k i n d s i n c et h ec o m p u t e rw a si n v e n t e d , m a n ys c i e n t i s t s h a v eb e e nd e v o t e dt oe n a b l i n gt h ec o m p u t e rt o u n d e r s t a n dt h en a t u r a ll a n g u a g e s p e e c hr e c o g n i t i o ni sac o m p r e h e n s i v e t e c h n o l o g yo fs u c ha r e a sa sa c o u s t i c s ,p h o n e t i c s ,l i n g u i s t i c s ,c o m p u t e r s c i e n c e ,i n f o r m a t i o np r o c e s s i n ga n da r t i f i c i a li n t e l l i g e n c e ,w h i c hc a nb e u s e dw i d e l y t h er e s e a r c ho fs p e e c hr e c o g n i t i o nt e c h n o l o g yh a sb e e n f o c u s e db yt h ew o r l df o ral o n gt i m e t h en e u r a ln e t w o r ki san e w d e v e l o p i n gs c i e n c e ,w h i c hs i m u l a t e st h em e c h a n i s mo fh u m a nb r a i na n d w a sp u t t e df o r w a r db yt h ed e v e l o p i n go fm o d e r ns c i e n c e i ti sn o tt h e o v e r a l ld e s c r i p t i o no fh u m a nb r a i n ,b u tt h ea b s t r a c t ,s i m u l a t i o na n d s i m p l i f y i n go ft h ep h y s i c a l n e u r a ln e t w o r k so fh u m a nb e i n g s 。t h e p u r p o s eo ft h er e s e a r c h i nt h i sa r e ai se x p l o r i n gt h eh u m a nb r a i n m e c h a n i s m si ni n f o r m a t i o np r o c e s s i n g ,s t o r i n ga n ds e a r c h i n g i fp e o p l e c a nu n d e r s t a n dt h e s em e c h a n i s m s ,an e ww a yf o rt h er e s e a r c h o f a r t i f i c i a li n t e l l i g e n c e ,i n f o r m a t i o np r o c e s s i n ga n de t cc a nb eo p e n e du p 。 a r t i f i c i a ln e u r a ln e t w o r ki sas y s t e mw h i c hu s i n gap h y s i c a l l yf e a s i b l e s y s t e mt oi m i t a t et h es t r u c t u r ea n df u n c t i o no fn e r v ec e l l si nh u m a n b r a i n ,w h i c hh a st h ea b i l i t yo fs e l f l e a r n i n g ,c o n t r a s t i n g ,r e a s o n i n ga n d s u m m a r i z i n gi t h a v eo f f e r e dan e ww a yi ns o l v i n gs u c hc o m p l i c a t e d p a t t e r n c l a s s i f i c a t i o n p r o b l e m s a s s p e e c hr e c o g n i t i o n t h e c h a r a c t e r i s t i c so fs p e e c ha n dt h es e t u po fn e u r a ln e t w o r km o d e lw e r e r e s e a r c h e dd e e p l yi nt h i sd i s s e r t a t i o n 1 t h ed e v e l o p m e n t si nt h ea r e a so fs p e e c hr e c o g n i t i o na n da r t i f i c i a l n e u r a ln e t w o r kw e r es u m m a r i z e da n da n a l y z e d t h ei m p o r t a n t t e c h n o l o g i e si ns p e e c hr e c o g n i t i o ns u c ha st h ec l a s s i f i c a t i o no fs p e e c h r e c o g n i t i o nt e c h n o l o g i e s ,t h ec o m p o s i t i o no ft h es p e e c hr e c o g n i t i o n s y s t e m ,p r e p r o c e s s i n go fs p e e c hs i g n a l sa n dt h ef e a t u r ee x t r a c t i o no f s p e e c hs i g n a l sw e r er e s e a r c h e d 2 o nt h eb a s i so ft h et r a d i t i o n a ls p e e c hr e c o g n i t i o n ,aa p p r o p r i a t e i m p r o v e m e n ti sg i v e n a tt h es a m et i m e ,t h em o d e l sa n di m p o r t a n t m e t h o d sa r ed e t a i l e d i n p a r t i c u l a re n d p o i n td e t e c t i o na n df e a t u r e e x t r a c t i o n t h ec o n s t r u c t i o n o fs p e e c hr e c o g n i t i o ns y s t e mb a s e do n d t wa n di t sa p p l i c a t i o na r es t u d i e d 3 ap r o b a b i l i s t i cn e u r a ln e t w o r km o d e lw a se m p l o y e di nt h e r e c o g n i t i o nt oc l a s s i f yd i g i t a ls i g n a l si n t ot h er e s p e c t i v ec a t e g o r i e s t h e n e u r a ln e t w o r kt o o l b o xi nm a t l a bw a su s e dt oi m p l e m e n tt h ea n n m o d e lf o rc l a s s i f i c a t i o no fv o w e ls p e e c hs i g n a l s s a t i s f y i n gr e s u l t sw a s o b t a i n e di nt h i se x p e r i m e n t k e yw o r d s :s p e e c h r e c o g n i t i o n ,e n d p o i n td e t e c t i o n ,f e a t u r e e x t r a c t i o n ,d t w , b pn e t w o r k 一 m 陕西科技大学硕士学位论文 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究所取得的成果。除文中已经注明引用的内容外,本 论文不包含任何其他个人或集体已经发表或撰写过的科研成果。 对本文的研究做出重要贡献的个人和集体,均已在文中以明确方 式标明。本人完全意识到本声明的法律责任由本人承担。 论文作者签名: 随绳塾熟 日 期: 2 q q2 生茎旦 关于学位论文使用授权的声明 本人完全了解陕西科技大学有关保留、使用学位论文的规定, 同意学校保留或向国家有关部门或机构送交论文的复印件和电 子版,允许论文被查阅和借阅;本人授权陕西科技大学可以将本 学位论文的全部或部分内容编入有关数据库进行检索,可以采用 影印、缩印或其他复制手段保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名: 醢缝塾、导师签名:衄 日期:2 q q 星生 基于神经网络的语音信号识别及其实现 1 绪论 1 1 课题背景 语言是人类最重要的交流工具,它自然方便、准确高效。语音是语言的表 现,语音通信是一种理想的人机通信方式。语音通信的研究涉及到人工智能、 模式识别、数字信号处理、微机技术、语言声学、语言学和认知科学等许多学 科领域,是一个多学科的综合性研究领域,其研究成果具有重要的学术价值和 应用价值。随着社会的不断发展,各种各样的机器参与了人类的生产活动和社 会活动,因此改善人和机器之间的关系,与机器进行语音交流,让机器明白你 说什么,这是人们长期以来梦寐以求的事情。随着电子计算机和人工智能机器 的广泛应用,人们发现,人和机器之间最好的通信方式是语音通信,而语音是 语言的声学表现形式。要使机器能听懂人的讲话,需要做很多的工作,这就涉 及到了语音识别问题。 语音识别是一门涉及面很广的交叉学科,它是目前发展最为迅速的信息研 究诸领域中的一个,它与语音学、语言学、数理统计学和神经生理学等学科有 非常密切的关系。语音识别的目标是让机器能听懂人类口述的语言,语音识别 中的汉语数字语音识别,具有更为重要的意义。汉语数字语音识别的任务是识 别“o 到“9 等1 0 个非汉语数字语音。信用卡号码、电话语音拨号、个人 身份证号码、电子密码等都是具有数字化特征,因此,数字语音识别成为语音 识别中极其重要的一项任务,是语音识别领域中一个就具有广泛应用背景的分 支。 科学技术推动了社会发展,满足人们的需求,社会需求也反过来推动科学 技术的发展。多媒体时代的来临,迫切要求语音识别技术的快速发展,必然推 动语音识别理论和应用研究的进展,语音识别技术将会在理论上和应用上都取 得突破性进展。到那时,我们将体会到语音识别带来的种种便利,它将有可能 涉足人类生活的每一领域。本课题正是在这样的大环境下而开发的。 1 2 汉语语音识别技术的发展现状 语音识别技术萌芽于5 0 年代机器翻译研究时期,当时a t & b e ll 课题室实 现了第一个可识别是个英文数字的语音识别系统一一a u d r y 系统。 二十世纪6 0 年代,计算机的应用推动了语音识别的发展。语音识别系统 陕西科技大学硕士学位论文 的构成基本上都是用硬件实现的滤波组提取频谱特征,用计算机进行匹配算法 和判决。由于当时计算机技术和信息处理技术的限制,这十年来没有取得令人 鼓舞的突破性进展。 进入7 0 年代,语音技术取得了许多实质上的进展:( 1 ) 用于语音信号的 信息压缩和特征提取的线性预测分析方法;( 2 ) 用于以线性预测编码表示语音 参数时相似度测量的线性预测残差;( 3 ) 用于输入语音与参考样本之间时间匹 配的动态规划方法;( 4 ) 一种新的聚类分析的数据压缩编码的矢量量化方法等。 1 9 7 8 年夏,t i 公司首次推出单片语音合成器,它采用超大规模集成电路技术。 进入8 0 年代,国外对语音技术的研究和发展更加活跃。8 0 年代新一代智 能计算机的研制,以及模式识别、自然语言理解等技术的成熟,为语音识别技 术的突破打下了基础。 9 0 年代初,国外许多研究机构都研制出词汇量达到几万的大词汇量识别系 统。i b m 公司于1 9 9 7 年推出的汉语听写机产品,为语音识别技术在汉语输入方 面的实际应用开辟了新的渠道。 尽管语音技术的研究工作迄今已5 0 多年,也有很大的进展。但是研究出 一台听懂任何人、任何内容的机器,从技术的实现上还有很大的距离。系统的 识别速度、系统词汇量的大小、机器对说话者的依赖程度、语音的类型等等问 题都达不到实际需要。我们不能否认许多著名公司研究开发的语音识别成果具 有划时代意义,影响深远。 语音识别本身的难度相当大。识别系统的特征提取就是一个很难彻底解决 的难题;语音识别中匹配算法的研究,尽管人们已进行了大量的跟踪,做出了 许多卓有成效的创造,取得了重要进展,可是至今仍不能说这方面的研究可以 打上句号。可以预测在近五十年内,语音识别系统的应用将更加广泛,各种各 样的语音识别系统产品将出现在市场上。 我国语音识别研究工作一直紧跟国际水平,国家也很重视,并把大词汇量 语音识别的研究列入“8 6 3 计划,由中科院声学所、自动化所及北京大学等 单位研究开发。鉴于中国未来庞大的市场,国外也非常重视汉语语音识别的研 究。美国、新加坡等地聚集了一批来自大陆、台湾、香港等地的学者,汉语大 词汇量语音识别都达到了相当高的水平。 与此相反,汉语数字语音识别( 即“o 到“9 ”汉语语音识别) 技术虽然 在移动通信、电脑话务员、电话证券交易等领域有着极大的应用价值,并因此 受到国内科研单位广泛的重视,但是其进展却相当缓慢。这主要是因为汉语数 字语音识别存在诸多困难,语音间高混淆的问题,由于汉语数码语音的音节数 2 基于神经网络的语音信号识别及其实现 少,因此,语音混淆高;汉语是一种多方言语种,由于各地人群在普通话中带 有或多或少的方言,因此这种数字语音识别系统仍然具有很大的难度。 1 3 论文的主要研究内容 本文建立了一个基于神经网络的汉语数字语音识别系统,介绍识别的关键 技术和方法,在设计好算法之后,并采用m a t l a b 软件进行仿真。利用线性预 测分析方法提取特征参数,线性预测分析法是最有成效的语音分析技术之一, 它在语音识别、合成等方面都得到了成功的应用,并详细介绍了动态时间规整 ( d t w ) 算法的实现。 主要内容如下: 第一章首先叙述了汉语语音识别技术的背景和意义,并介绍了研究汉语语 音识别技术的发展状况。 第二章对语音信号进行详细地分析,并论述了语音识别技术的基本理论。 其中详细论述特征提取和模式匹配的方法,提取特征主要是采用线性预测缝隙 方法,着重介绍了线性预测分析及其倒谱分析的原理n 羽。模式匹配主要是介 绍了动态时间规划算法的基本理论。 第三章主要研究动态规整算法( d t w ) ,主要针对放宽端点限制和减小存储 空间,讨论了几种改进方法。用d t w 算法实现了语音控制媒体播放系统的指令 识别,对改进以后的d t w 算法进行了仿真实验,并对结果进行了分析。 第四章介绍了人工神经网络的概念,深入讨论了b p 神经网络及其训练算 法。将b p 神经网络用于语音识别,并对其做了一些修正改进。 第五章用m a t l a b 对语音识别系统进行仿真,得到仿真结果。 第六章是对本课题的一个总结,讨论了文中存在的问题,并对语音识别今 后研究工作进行了展望。 3 陕西科技大学硕士学位论文 2 语音识别的关键技术和模型 语音识别( s p e e c hr e c o g n i t i o n ) 是机器通过识别和理解过程把人类的语音 信号转换为文本或命令的技术。其根本目的是研究出一种具有听觉功能的机 器,这种机器能直接接受人的语言,理解人的意图,并做出相应的反映,从技 术上来看,它属于多维模式识别和智能借口的范畴,语音识别技术是一项集声 学、语音学、计算机、信息处理、人工智能等于一身的综合技术,可广泛应用 在信息处理、通信与电子系统、自动控制等领域。 数字语音处理的方法常常分为时域方法、频域方法、同态方法、线性预测 编码方法等。时域方法直接涉及到语音信号的波形,利用时域方法来分析的语 音信号的特征参数,包括语音的短时平均幅度和能量,短时平均过零率,短时 自相关函数以及短时平均幅度差函数等等口1 。而短时傅立叶分析法可以从频域 完善的解决许多语音信号处理问题,使信号的一些特性变得更明显嫡1 。 2 1 语音识别系统的分类 一个复杂的语音识别系统,根据服务对象、词汇量大小、工作环境、发音 方式、人物性质等诸多因素的不同,可以分为以下几类: ( 1 ) 按发音方式分类 按发音方式语音识别系统可以分为孤立词语识别系统、连接词语音识别系 统和连续语音识别系统。 孤立词语音识别系统指人在发音时,以单个词的发音方式向语音识别系统 输入语音、词与词之间要有足够的时间间隙,以便系统能够检测到始末点。采 用这种方式的语音识别系统已经有了较为成熟的算法,实现起来较为容易。连 接词语音识别系统指以词或词组为发音单位向系统输入语音。与孤立词发音相 比,这种发音方式比较自然,且输入效率也比较高。中小词汇量连接词语音识 别系统的识别率目前可以做得很高,并达到了实用水平。连续语音识别系统指 在输入语音时,完全按照人的最自然的说话方式输入。这种系统是最方便的输 入系统。但是,实用系统也是最复杂和最困难的。 ( 2 ) 按应用对象分类 按应用对象语音识别系统可分为特定人和非特定人识别系统。特定人的语 音识别系统,对于每一个使用者都必须建立专用的参考模板库。非特定人语音 识别的原则是事先用许多人( 通常3 0 一4 0 人) 的语音样本训练系统,使用者 无论是否参加过采样训练都可以共用一套参考模板,使用该系统进行语音识 4 基于神经网络的语音信号识别及其实现 别。 这两类系统的应用对象大不相同,为了达到良好的识别效果,其系统结构、 特征参数选择、识别方法都可能有极大的差别。对于非特定人的语音识别系统 来说,由于要考虑各种复杂因素,实现起来要比特定人的语音识别系统困难得 多。 ( 3 ) 按词汇量的大小分类 按词汇量的大小可分为小词汇量识别系统、中等词汇量识别系统、大词汇 量识别系统和无限词汇量识别系统。随着词汇数目的增加,潜在的词间相似性 会增加,系统的搜索运算开销及存储开销相应增加,识别系统的难度一般也会 增加。当系统所能识别的词汇量越大时,实现起来就越困难钉1 。 2 2 语音识别系统的构成 一个典型的语音识别系统的原理图如图2 - 1 所示: 别结果 图2 1 语音识别原理图 f i g u r e2 - it h ep r i n c i p l ef r a m eo fs p e e c hr e c o g n i t i o n 待识别的语音经过话筒变换成电信号后加在识别系统的输入端,首先要经 过预处理,预处理包括反混叠失真滤波、预加重和端点检测。经过预处理后, 语音信号的特征被提取出来。常用的特征包括:短时平均能量或幅度、短时平 均过零率、短时自相关函数、线性预测系统、倒谱、共振峰等。根据实际需要 选择语音特征参数,这些特征参数的时间序列便构成了待识别语音的模式,将 其与已经存储在计算机内的参考模是逐一进行比较,模式匹配,最佳匹配,由 判决规则确定的参考模式便是识别结果。参考模式是在系统使用前获得并存储 起来的,为此,要输入一系列已知语音信号,提取它们的特征作为参考模式, 这一过程为训练过程阳1 0 1 。 5 陕西科技大学硕士学位论文 最佳匹配结果的获得与特征矢量的选择、语音模型的好坏、参考模板是否 准确都有直接的关系,这也是目前语音识别过程中的一个难点。 按照简单的模板匹配原理工作的小词汇标、孤立词语音识别系统的原理框 图如图2 2 所示: 输出 图2 2 语音识别系统的原理框图 f i g u r e2 - 2t h ep r i n c i p l el a m eo fs p e e c hr e c o g n i t i o ns y s t e m 设计这样一个语音系统的一般步骤如下:首先建立一个包含要识别单词的 语音苦,这个语音库的一部分发音作为训练集,用来训练模板。另一部分发音 作为测试集,用来统计识别率。无论是训练阶段还是识别阶段,都要对输入的 语音信号作预处理。接着对信号逐帧进行特征提取,提取出的参数用来训练或 识别。如果是训练阶段,则按照某种规则将特征矢量序列压缩为参考模式存入 模式库中。如果是识别阶段,则将特征矢量序列构成的测试模式与模板中的参 考模式作相似度比较,将距离最短的模式对应的单词作为识别结果。 下面讨论语音识别系统的三项关键技术n :预处理技术、特征提取技术和 模式匹配及模型训练技术。然后围绕这三个方面作具体分析和实现。 2 3 语音识别系统中的关键技术 语音识别系统中的关键技术主要包括预处理技术、特征提取技术、模式匹 配准则及模型训练技术三个方面。此外,还涉及到语音识别单元的选取。而对 于一个汉语数字语音识别系统而言,主要考虑以下三项关键技术: ( 1 ) 预处理技术铂 语音识别中的预处理一般包括预加重、加窗、端点检测。这些处理都是建 立在对语音信号短时分析的基础上的。由于语音是不平稳的随机过程,其特征 是随着时间变化的,但这种变化很缓慢。基于此,就可以将语音信号分成一些 6 基于神经网络的语音信号识别及其实现 相继的短段进行处理。这就是所谓的短时处理技术。这些短段一般长1 0 2 0 m s , 称为帧。相邻帧可以有部分重叠,通常取帧长的1 2 或1 3 。对信号进行预加 重以提升高频。对信号加窗以避免短时语音段边缘的影响。端点检测的作用是 找到语音的起始位置。通常的端点检测方法采用短时能量和短时过零率作为语 音起止点的判决参数。 ( 2 ) 特征提取技术 声学特征的提取与选择是语音识别的一个重要环节。声学特征的提取既是 一个信息大幅度压缩的过程,也是一个信号解卷的过程,目的是使模式划分器 能更好的划分。声学特征的选择对识别效果至关重要。选择的标准应体现对异 音字特征间的距离应尽可能大,而同音字间的距离应尽可能小。同时,还要考 虑特征参数的计算量,在保持高识别率的情况下,尽可能减少特征维数,以利 于减少存储要求和实时实现。 反映短时谱包络的特征参数是语音识别中采用的主要特征参数。其中常用 的有以下三种: ( a ) 线性预测系数( l p c ) :线性预测分析从人的发声机理入手,通常对 声道的短管级联模型的研究,认为系统的传递函数符合全极点数字滤波器的形 式,从而n 时刻的信号可以用前若干个时刻的信号的线性组合来估计。通过使 实际语音的采样值和线性预测采样值之间达到均方差最小,即可得到l p c 系 数。对l p c 的计算方法有自相关法、协方差法、格型法等等。计算上的快速 有效保证了这一声学特征的广泛使用。与l p c 这种预测参数模型类似的声学 特征还有线谱对l s p 、反射系数等等。 ( b ) 倒谱系数( c e p ) :利用同态处理方法,对语音信号求离散傅立叶变 换d f t 后取对数,再求反变换i d f t 就可得到倒谱系数。实验表明,使用倒谱 可以提高特征参数的稳定性。考虑到直接求倒谱的运算量太大,一般使用l p c 倒谱( l p c c e p ) 代替它。在获得滤波器的线性预测系数后,l p c c e p 可以用 一个递推公式计算得出。 ( c )m e l 倒谱系数( m f c c ) :不同于l p c 等通过对人的发声机理的研究 而得到的声学特征,m f c c 是受人的听觉系统研究成果推动而导出的声学特 征。对人的听觉机理的研究发现,当两个频率详尽的音调同时发出时,人只能 听到一个音调。临界宽带指的就是这样一种令人的主观感觉发生突变的带宽边 界,当两个音调的频率差小于临界带宽时,人就会把两个音调听成一个,这称 之为屏蔽效应。m e l 刻度是对这一临界宽度的度量方法之一。m f c c 的计算首 先用f f t 将时域信号转化成频域,之后对其对数能量谱用依照m e l 刻度分布 7 陕西科技大学硕士学位论文 的三角滤波器组进行卷积,最后对各个滤波器的输出构成的向量进行离散余弦 变换d c t ,取前n 个系数。m f c c 最符合人耳的听觉特性,特别是在有噪声 和频谱失真的情况下,能以更准确的特征来描述语言模型,提高识别精度。 上面三种参数的计算复杂度是依次递增的,试验中发现他们对识别率的贡 献也是依次递增的。与特征提取直接相关的内容就是特征间的距离测度。 ( 3 ) 模式匹配及模型训练技术 语音识别系统在信号的特征参数提取出来后要做的工作就是进行模型训 练或模式识别。模型训练是指按照一定的准则,从大量已知模式中获取表征该 模式本质特征的模型参数。而模式匹配则是根据一定准则,使未知模式与模型 库中的某一个模型获得最佳匹配。 语音识别应用的模式匹配和模型训练技术主要有动态时间规整技术 ( d t w ) 、隐马尔可夫模型( h m m ) 和人工神经网络( a n n ) 。h m m 是一种 用参数表示的,用于描述随机过程统计特性的概率模型,它是由马尔可夫链演 变而来的。a n n 是受动物神经系统的启发,利用大量简单单元互联而构成复 杂系统,以便解决一些复杂模式识别与行为控制问题。适合于小词汇表孤立词 识别系统的是d t w 算法。 d t w 是把未知量均匀地伸长或缩短,直到它与参考模式的长度一致时为 止。在时间规整过程中,未知单词的时间轴要不均匀地扭曲或弯折,以便使其 特征与模型特征对正。d t w 是一种非常有力的对正措施,对提高系统的识别精 度极为有效。h m m 是语言信号时变特征的参数表示法,由相互关联的两个随机 过程共同描述信号的统计特性。模型参数包括h m m 拓扑结构,状态转移概率 和描述观察符号统计特性的一组随机函数。h m m 的性能在很多应用中都可以和 d t w 相比,而计算代价只有后者的几分之一。采用这种技术,我们要以一个只 具有有限不同状态的系统作为语音生成模型。每个状态皆可产生有限个输出。 在生成个单词时,系统不断地由一个状态转移到另一个状态,每一个状态 都产生一个输出,直到整个单词输出完毕。状态之间的转移是随机的,每一状 态下的输出也是随机的。由于允许随机转移和随机输出,所以h m m 能适应发 音的各种微妙变化。在识别词表中,每一个单词都要用一个这样的模型来表 示。识别器要做的工作就是输出,识别的任务就是决定由哪一个模型提供输 出。因为模型本身对识别器来说是看不见的,它只能根据获得的数据推导出 来,故称为隐马尔可夫模型。a n n 在语音识别中的应用是目前研究的热点。 该网络本质上是一个自适应非线性动力学系统,模拟了人类大脑神经元活动 的基本原理,具有学习、记忆判断、联想、对比、推理、概括等能力,适合连 8 基于神经网络的语音信号识别及其实现 续语音大词汇量语音识别系统。与h m m 和a n n 相比,d t w 是较早的一种 模式匹配和模型训练技术,它应用动态规划法成功地解决了在语音信号特征 参数序列比较时时长不等的难题,在孤立词语音识别中获得了良好的性能。 语音识别单元的选取是语音识别研究工作很重要的第一步,语音识别单元 有单词、音节、音素三种,具体选哪种,由研究任务决定。单词单元适用于中 小词汇语音识别系统,不适合于大词汇系统。因为庞大的模型库意味着繁重的 模型训练任务和复杂的模型匹配算法,这难以满足实时性要求。音节单元多见 于汉语识别,主要因为汉语是单音节结构的语言,而英语等语言是多音节。如 果不考虑声调的话,汉语大约有4 0 0 个音节,这个数量相对较少。所以,对于 大词汇量汉语语音识别系统而言,以音节为识别单元是较为合适的。音素单元 多用于英语语音识别研究,因为英语是多音节语言。但大、中词汇汉语语音识 别系统也在越来越多地采用n 3 i 。 2 4 语音识别系统的实现 语音识别本质上是一种模式识别的过程,主要包括语音信号预处理、特征 提取、特征建模( 建立参考模式库) 、模式匹配等几个功能模块。一个语音识别 系统主要包括训练和识别两个阶段。无论是训练还是识别,都需要首先对输入 的原始语音进行预处理,并进行特征提取。 2 4 1 语音信号的预处理钉 语音信号的预处理过程包括:预加重、加窗、端点检测。预处理单元的输 入是采样得到的原始语音信号,输出是去除了非语音段的数帧语音信号。 ( 1 ) 预加重 预加重的作用是将高频提升,以弥补声音在唇部辐射时产生的高频损失。 它将数字化的语音信号s ( n ) 通过一个低阶数字系统( 一般是一个一阶f i r 滤波 器) 。这个数字系统可以是固定的,也可以是缓慢自适应的( 如平衡传送条件、 噪声背景或平衡信号频谱) 。预加重是一阶网络,用来对声音信号的高频部分 进行加重,以增强声音的高频分辨率,可由软件来实现,表示为:数字信号s ( n ) 通过一个高通滤波器, - ( z ) a1 一a z 。1( 0 9 a 1 ) ( 2 - 1 ) 后得到经过预加重的信号为: s ( n ) 为n 时刻的声音采样值,s ( n ) 为预加重处理后的结果。 s ( 珂) ts ( n ) 一a s ( n - 1 )( o 9 a 1 ) ( 2 - 2 ) ( 2 ) 加窗 9 陕西科技大学硕士学位论文 语音信号是一种典型的非平稳信号,其特性是随时间变化的。但是,语音 的形成过程是与发音器官的运动密切相关的,这种物理运动比起声音振动速度 来讲要缓慢的多,因此语音信号常常可假定为短时平稳的,这样,就可以采用 平稳过程的分析处理方法来处理了。由这个假定导出了各种“短时”处理方法。 这种依赖于实践处理的基本方法,是将语音信号分隔为一些短段( 帧) 在加以处 理。这些短段就好像是来自一个具有固定特性的持续语音片断一样。这些短段 一般都按要求重复( 常是周期的) ,对每个短段语音进行处理就等效于对固定 特性的持续语音进行处理。短段之间彼此经常有一些重叠,对每一帧的处理结 果或是一个数或是一组书。经过处理后将从原是语音序列产生一个新的依赖于 时间的序列,被用于描述语音信号的特征d 钉晦3 。 设原始语音信号采样序列为x ( m ) ,将其分成一些短段等效于乘以移动窗 w ( n m ) 。对语音信号的各个短段进行处理,实际上就是对各个短段进行某种变 换或施以某种运算,其一般式为 幺tr x ( m ) 1 w ( n t i t ) ( 2 3 ) 石= k, 其中t 表示某种变换,它可以是线性的也可以是非线性的, x ( m ) ) 为 输入语音信号序列。q n 是所有割段经过处理后得到的一个时间序列。 对语音信号加窗,在理论上应使用两端具有平滑过渡特性的窗口。即其目 的就是为了减少帧起始和结束处的信号不连续性。用得最多的窗函数是矩形 窗、汉明窗、汉宁窗,其分别定义为: 1 ) 矩形窗( r e c t a n g u l a rw i n d o w ) : 嘶) 。e(o绷s。n-1)(2-4)忡) 4 1 0 ,o o 踟 ) j w万,5乍154一。46。s(器)o喜 0 s g n ( m ) = o ,x 沏) ;0 ( 2 - 1 0 ) l - 1 , x ( m ) p ( 2 2 1 ) 式中,c m 为倒谱系数,a 。为预测系数,m 为倒谱系数的阶数( m = 1 一q ) ,p 为预测系数的阶数。 ( 2 ) m e l 频率倒谱系数( m f c c ) 由于语音信号在时域上的变化快速而不稳定,所以通常都将它转换到频域 上来观察,此时它的频谱会随着时间作缓慢的变化。所以通常将加窗后的帧经 过快速傅立叶变换( f f t ) ,求出每帧的频谱参数 。再将每帧的频谱参数通过 一组n 个( n 一般为2 0 3 0 个) 三角形带通滤波器所组成的梅尔频率滤波器,将 每个频带的输出取对数,求出每一个输出的对数能量( 1 0 9e n e r g y ) e k ,k = l , 2 ,n 。再将此n 个参数进行余弦变换( c o s i n et r a n s f o r m ) 求出l 阶的m e l s c a l ec e p s t r u m 参数。 余弦转换公式如下- 1 4 基于神经网络的语音信号识别及其实现 c m = 荟n c o s 仰 一吾) 号) ,z = 1 ,2 ,上 ( 2 2 1 ) 2 4 3 模式匹配 模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本质特 征的模型参数,而模式匹配则是根据一定准则,使未知模式与模型库中的某一 个模型获得最佳匹配u 7 1 。 本系统欲采用动态时间规整( d t w ) 算法作为模式匹配及模型训练技术。 下面介绍d t w 算法的基本原理及其实现。 ( 1 ) 动态时间规整( d t w ) 方法 依照模式匹配原理所构成的孤立单词语音识别系统,其基本思想是依赖于 语音的不变性( 每个语音都有其不变的参考模式一模板) 。然而在语音识别中, 由于语音信号具有相当大的随机性,即使是同一个人在不同时刻的同一句话发 的同一个音,也不可能具有完全相同的长度,因此不能简单的将输入模式和相 应的参考模式作比较,有必要对输入模式进行时间规整处理。 由于人们把单词读长或读短时并不是按线性时间标度产生失真的,因此采 用普通的线性规整技术将使识别精度大为下降。最佳非线性时间规整( 即动态 时间规整,简称d t w ) 是把时间规整和距离测度计算结合起来的一种非线性 规整技术。它提供了实际得多的时间标度补偿处理,可以适应较大的变异性, 不像线性规整那样受到端点检测的影响。所以基于d t w 技术的孤立单词语音 识别的性能要好得多n 引。其原理如下:设 1 ) 参考模板特征矢量序列为a l e , 口:4 ,a m 。,各矢量维数为l : 2 ) 输入语音特征矢量序列为v ,f ,k 。,m - n ,各矢量尾数为l :那么动 态时间规整是要寻找时间规整函数册一w ) ,它把输入模式的时间轴n 非线性 的映射到参考模板的时间轴m ,并且该w 满足: d m i n 罗讲以,w o ) 】 ( 2 - 2 2 ) 籀 式中d n ,w 0 ) 】是第n 帧输入矢量和第m 帧参考矢量的距离,d 是象英于最 优时间规整下两模式的距离测度。d t w 是一个典型的最优化问题,它用满足 一定条件的时间规整函数w 0 ) 描述输入模式与参考模式的对应关系,求解两模 式匹配时累积距离最小所对应的规整函数。所以d t w 保证了两模式间存在的 最大声学相似性。 ( 2 ) d t w 算法实现 陕西科技大学硕士学位论文 d t w 的具体实现方法采用动态规整技术( d y n a m i cp r o g r a m m i n g ,简称 d p ) 。动态规划是一种最优化算法,它实质上是一个两频处理过程,首先计算 输入模式与参考模式的距离矩阵,第二步是在距离矩阵中找出一条最佳路径 来,该路径的累加距离最小。这条路径就是两个模式的时间算度之间的非线性 关系。 动态规划就是利用局部最佳化处理最终达到全局解。使用局部判决函数和 距离矩阵,即可构成另一个矩阵即累加距离矩阵。局部判决函数确定最佳路径 累加距离的计算公式如下: d a ,j ) 一d ( f ,j ) + m i n d ( i - 1 , j ) ,d g 一1 ,j f 一1 ) ,d ( i ,j 一1 ) 】 ( 2 - 2 3 ) 式中1 墨fsm ,1sj sn ,m ,n 分别是被比较的两模式的帧数;d ( i ,j ) 是一 个模式的第i 帧与另一个模式的第j 帧之间的距离;d ( i ,j ) 是到o ,j ) 点的最佳 路径累加距离;d ( m ,) 是两模式间的总距离。 沿最佳路径的总累加距离取决于构成该路径的距离和延长线的总数。因 此,两个长单词模式间的比较必然会比两个短单词模式间的比较要产生更大的 总距离。为了避免出现这个问题,我们对最终的累加距离归一化,这样便得到 路径单位长度的平均距离。 实际计算中,为了减少计算量,我们对路径搜索范围加以限制。通过实验 证明,对搜索范围作适当的限制可以在不影响系统识别率的情况下,使计算量 大大减小。 1 6 基于神经网络的语音信号识别及其实现 3 动态时间规整( d t w ) 语音识别算法m , 动态时间规整算法( d y n a m i ct i m ew a r p i n g ) 是较早的一种模式匹配和模 型训练技术,它应用动态规划方法成功解决了语音信号特征参数序列比较时时 长不等的难题,在孤立词语音识别中获得了良好的性能。又由于d t w 算法本 身既简单又有效,因此在特定的场合下获得了广泛的应用。本章介绍了d t w 算法的基本原理,通过对语音识别数学模型d t w 的研究,主要针对d t w 算 法的实用性进行改进,通过对搜索宽度限制和整体路径约束等方法,使得系统 能够实现快速的识别响应,尤其是对于小词汇量和特定人识别,可以有效的提 高系统识别率和响应速度。 3 1 动态时间规整算法基本原理 语音识别时首先选定语音的特征作为识别参数的模板,然后用一个可以衡 量未知模板和参考模板的似然度的测度函数,最后选用一个最佳测度准则及专 家知识作为识别决策,对识别候选者作最后判决。但说话人对同一个词的两个 发音不可能完全相同,这些差异不仅包括因强的大小、频谱的偏移,更重要的 是发音时音节的长短不可能完全相同,而且两次发音的音节往往不存在线性对 应关系。 如果参考模板由m 帧矢量怛( 1 ) ,尺( 2 ) ,尺( m ) ,尺) 为第m 帧的语音特征 矢量,测试模板有n 帧矢量弘( 1 ) ,丁( 2 ) ,r ( ) ,r o ) 为第n 帧的语音特征矢量。 线性时间规整技术假设说话速度是按不同说话单元的发音长度等比例分布的, 并且和所说的声音相互独立。因此参考模板和测试模板之间的畸变度量 d 仃瓴) ,r ( f 肼) ) 是按纯,乙) 平面上矩形的对角线进行计算,d 仃( f ) ,r 蛾) ) 表示t 中 的第帧特征与r 中的第m 帧特征之间的畸变度量,通常用欧几里德距离。其 中: l 。旦f 。 ( 3 。1 ) k4 万 。j 。, 很显然,这种对于说话速度差异的呆板限制不符合实际语音的发音情况, 需要一种更加符合实际情况的语音时间规整方法。 动态时间弯折( d t w ) 是把时间规整和距离测度计算结合起来的一种非线 1 7 陕西科技大学硕士学位论文 性
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 阿拉山口市2024-2025学年八年级下学期语文期中模拟试卷
- 安徽省六安市霍邱县2024-2025学年高一上学期期末考试英语试卷及答案
- 生产文员工作总结2025年
- 社区知识及业务知识培训课件
- 社区消防知识培训课件学校
- 河北省邯郸市复兴区2024-2025学年八年级下学期期末考试数学试卷(含答案)
- 2024-2025学年广东省肇庆市七年级(上)期末数学模拟试卷(含答案)
- 材料复合加工合同范本
- 纸品厂承包送货合同范本
- 衣柜重装服务合同范本
- CJ/T 120-2016给水涂塑复合钢管
- 水厂各项卫生管理制度
- T/CECS 10214-2022钢面镁质复合风管
- 2025CSCO子宫内膜癌新进展及指南更新要点
- 2025年贵州省存量房买卖合同
- 2024-2025学年湖北省武汉市高一上学期1月期末考试英语试题(解析版)
- 既有供暖蒸汽管网及设施改造项目建议书(参考范文)
- 2025-2030中国细胞分选机行业市场发展趋势与前景展望战略研究报告
- 马工程西方经济学(精要本第三版)教案
- 电信装维人员服务规范
- 2025年水文勘测工(中级)职业技能考试题(附答案)
评论
0/150
提交评论