(管理科学与工程专业论文)基于人工神经网络的语音识别研究.pdf_第1页
(管理科学与工程专业论文)基于人工神经网络的语音识别研究.pdf_第2页
(管理科学与工程专业论文)基于人工神经网络的语音识别研究.pdf_第3页
(管理科学与工程专业论文)基于人工神经网络的语音识别研究.pdf_第4页
(管理科学与工程专业论文)基于人工神经网络的语音识别研究.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

(管理科学与工程专业论文)基于人工神经网络的语音识别研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

独创声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成 果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得( 注:如没有其他需要特别声 明的,本栏可空) 或其他教育机构的学位或证书使用过的材料。与我一同工作的同志对 本研究所做的任何贡献均己在论文中作了明确的说明并表示谢意。 学位论文作者签名:始 导师签字 学位论文版权使用授权书 印幸 本学位论文作者完全了解堂撞有关保留、使用学位论文的规定,有权保留并向 国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权堂 圭生可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印 或扫描等复制手段保存、汇编学位论文。( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:苁赡 签字日期:2 0 0 岁年步月f 1 日 翩繇刃饬哆导师签字:0 侈巾 签字目期:2 0 0 上砗协) i 日 山东师范大学硕士学位论文 摘要 语言是人类之间交流信息的主要手段之一,自电脑发明以来,人们就一直致力于 使电脑能够理解自然语言。语音识别技术是集声学、语音学、语言学、计算机、信息 处理和人工智能等诸领域的一项综合技术,应用需求十分广阔,长期以来一直是人们 研究的热点。 神经网络是在现代科学研究成果的基础上提出来的模拟人脑结构机制的一门新 兴科学,它不是人脑真实的全面描述,而是这类生物神经网络的抽象、模拟和简化, 其目的在于探索人脑的信息加工、存储和搜索机制,从而为人工智能和信息处理等学 科的研究开辟新途径。人工神经网络就是采用物理可实现的系统来模拟人脑神经细胞 的结构和功能的系统,它模拟了人类神经元活动的原理,具有自学习、联想、对比、 推理和概括能力,为很好地解决语音识别这样一个复杂的模式分类问题提供了新的途 径。本文对语音信号的预处理、特征提取、以及神经网络模型的建立,都进行了较深 入的研究。所作的主要工作如下: 1 对国内外语音识别和神经网络技术发展状况作了较全面的总结分析,对语音识别 技术的分类、语音识别系统的构成、语音信号的预处理、语音信号特征提取( 文 中主要研究了线性预测倒谱参数l p c c 的提取和美尔频率倒谱系数m f c c 的提 取) 等关键环节的技术问题进行了深入的理论分析。 2 针对非特定人的英语元音识别问题,建立了一个概率神经网络模型。将对英语元 音的识别转化为分类问题,采用概率神经网络模型作为分类器,并在m a t l a b 环境 下进行了相关的仿真实验。实验结果表明,概率神经网络在进行元音识别的时候 具有不错的识别率。 3 对国内外模糊神经网络的发展状况作了比较全面的总结分析,深入研究了多层前 向神经网络及b p 算法,以及它们与模糊逻辑理论的结合,在此基础上,对传统 的s u g e n o 模型作出修正,并建立了一个模糊神经网络模型。 4 针对非特定人英语元音识别的问题,推导了一种多输入多输出的既能学习数值数 据,又能学习模糊规则的模糊神经网络。针对b p 算法学习速度慢的特点,文中 采用增加动量项和变学习因子,大大加快学习速度。 山东师范大学硕士学位论文 语音识别所遇到的难题是搜索最佳识别结果和参数训练。由于神经网络反映了人 脑功能的基本特征,具有自组织性、自适应性、和连续学习的能力。这种网络是可以 训练的,即可以随着经验的积累而改变自身的性能。同时由于高度的并行性,它们能 够进行快速判决并具有容错性,特别适合于解决像语音识别这类难以用算法来描述而 又有大量样本可供学习的问题。神经网络在语音识别领域的应用虽然还不广泛,但是 却有着非常大的发展潜力。 关键宇:人工神经网络,语音识别,特征提取,概率神经网络,模糊神经网络 中图法分类号:t p l 8 3 山东师范人学硕士学位论文 a b s t r a c t l a n g u a g ei so n eo ft h em o s ti m p o r t a n tm e a n so fe x c h a n g i n gi n f o r m a t i o na m o n gt h e m a n k i n d s i n c et h ec o m p u t e rw a si n v e n t e d ,m a n ys c i e n t i s t sh a v eb e e nd e v o t e dt oe n a b l i n g t h ec o m p u t e rt ou n d e r s t a n dt h en a t u r a ll a n g u a g e s p e e c hr e c o g n i t i o ni sac o m p r e h e n s i v e t e c h n o l o g yo fs u c ha r e a sa sa c o u s t i c s ,p h o n e t i c s ,l i n g u i s t i c s ,c o m p u t e rs c i e n c e ,i n f o r m a t i o n p r o c e s s i n ga n da r t i f i c i a li n t e l l i g e n c e ,w h i c hc a nb eu s e dw i d e l y t h er e s e a r c ho fs p e e c h r e c o g n i t i o nt e c h n o l o g yh a sb e e nf o c u s e db yt h ew o r l df o ral o n gt i m e t h en e u r a ln e t w o r ki san e wd e v e l o p i n gs c i e n c e ,w h i c hs i m u l a t e st h em e c h a n i s mo f h u m a nb r a i na n dw a sp u t t e df o r w a r db yt h ed e v e l o p i n go fm o d e ms c i e n c e i ti sn o tt h e o v e r a l ld e s c r i p t i o no fh u m a nb r a i n ,b u tt h ea b s t r a c t ,s i m u l a t i o na n ds i m p l i f y i n go ft h e p h y s i c a ln e u r a ln e t w o r k so fh u m a nb e i n g s t h ep u r p o s eo ft h er e s e a r c hi nt h i sa r e ai s e x p l o r i n gt h eh u m a nb r a i nm e c h a n i s m s i ni n f o r m a t i o np r o c e s s i n g ,s t o r i n ga n ds e a r c h i n g i f p e o p l e c a nu n d e r s t a n dt h e s em e c h a n i s m s ,an e ww a yf o r t h er e s e a r c ho fa r t i f i c i a l i n t e l l i g e n c e ,i n f o r m a t i o np r o c e s s i n ga n de t cc a nb eo p e n e du p a r t i f i c i a ln e u r a ln e t w o r ki s as y s t e mw h i c hu s i n gap h y s i c a l l yf e a s i b l es y s t e mt oi m i t a t et h es t r u c t u r ea n df u n c t i o no f n e r v ec e l l si nh u m a nb r a i n ,w h i c hh a st h ea b i l i t yo fs e l f - l e a r n i n g ,c o n t r a s t i n g ,r e a s o n i n g a n ds u m m a r i z i n gi th a v eo f f e r e dan e ww a yi ns o l v i n gs u c hc o m p l i c a t e dp a t t e r n c l a s s i f i c a t i o np r o b l e m sa ss p e e c hr e c o g n i t i o n t h ec h a r a c t e r i s t i c so fs p e e c ha n dt h es e t u p o f n e u r a ln e t w o r km o d e lw e r er e s e a r c h e dd e e p l yi nt h i sd i s s e r t a t i o n 1 t h ed e v e l o p m e n t si nt h ea r e a so fs p e e c hr e c o g n i t i o na n da r t i f i c i a ln e u r a ln e t w o r k w e r es u m m a r i z e da n da n a l y z e d t h ei m p o r t a n tt e c h n o l o g i e si ns p e e c hr e c o g n i t i o ns u c h a st h ec l a s s i f i c a t i o no fs p e e c hr e c o g n i t i o nt e c h n o l o # e s ,t h ec o m p o s i t i o no ft h es p e e c h r e c o g n i t i o ns y s t e m ,p r e p r o c e s s i n go fs p e e c hs i g n a l sa n dt h ef e a t u r e e x t r a c t i o no f s p e e c hs i g n a l s ( l p c c ,m f c c ) w e r er e s e a r c h e d 2 ap r o b a b i l i s t i cn e u r a ln e t w o r km o d e lw a se m p l o y e di nt h er e c o g n i t i o nt oc l a s s i f y v o w e ls i g n a l si n t ot h er e s p e c t i v ec a t e g o r i e s t h en e u r a ln e t w o r kt o o l b o xi nm a t l a b w a su s e dt oi m p l e m e n tt h ep n nm o d e lf o rc l a s s i f i c a t i o no fv o w e ls p e e c hs i g n a l s 生查些整盔兰堡圭堂皇兰苎 一 s a t i s f y i n gr e s u l t sw a so b t a i n e di nt h i se x p e r i m e n t 3 t h ec o n c e p to ft h ef u z z yn e u r a ln e t w o r ka n dt w om e t h o d sf o rb u i l d i n gt h ef u z z yn e u r a l n e t w o r k sa r ep r o p o s e d ak i n do fm u l t i p l ei n p u ta n dm u l t i p l eo u t p u tf u z z yn e u r a l n e t w o r kl e a r n i n gf r o mf u z z yr u l e sa n dn u m e r i c a ld a t ai sd e d u c e di nt h i sd i s s e r t a t i o n f o ri m p r o v i n gt h el e a r n i n gs p e e d ,t h em o m e n t u mt e r ma n dv a r i a b l el e a r n i n gr a t ea l e a d d e dt ot h ea l g o r i t h m 4 t h es u g e n om o d e l ,w h i c hi saw i d e l yu s e dn e u r a lf u z z ys y s t e mm o d e l si sm o d i f i e d b ya d d i n ga ne l l o ft e r m t h ef u z z yn e u r a ln e t w o r ki su s u a n yf i r s t l yi n i t i a l i z e db yu s i n g e x p e r tk n o w l e d g e ,a n dt h e ni sf i n e - t u n e db yu s i n gn u m e r i c a ld a t aa n di t sa d v a n t a g ei s p o i n t e do u t i n d e xt i 舶 i l s a n n ,s p e e c hr e c o g n i t i o n ,p n n ,f e a t u r ee x t r a c t i o n ,f n n c l a s s i f i c a t i o n t p l 8 3 6 山东师范大学硕士学位论文 第一章绪论 1 1 神经网络的研究状况 神经网络领域研究的背景工作始于1 9 世纪末和2 0 世纪初。它源于物理学、心理 学、神经生理学的跨学科研究,主要代表人物有h e r m a nv o nh e l m h o t s ,e r n s tm a c h 和i v a np a v l o v 。早期的研究主要着重于有关学习、视觉和条件反射等一般理论,并没 有包括有关神经元工作的数学模型。 现代的神经网络开始于2 0 世纪4 0 年代w a r r e nm c c u l l o c h 和w a l t e rp i t t s ( 1 9 4 3 ) 的开拓一t 作 m c p i 4 3 3 1 。他们结合了神经生理学和数理逻辑的研究描述了一个神经 网络的逻辑演算。其中神经元模型假定遵循一种所谓的“有或无”( a l l - o r = n o n e ) 规则, 如果如此简单的神经元数目足够多和适当设置突触连接并且同步操作,m c c u l l o c h 和 p i t t s 证明这样构成的网络原则上可以计算任何可计算函数。这是一个有重大意义的结 果,有了它就标志着神经网络和人工智能学科的诞生。 神经网络第二个重要发展是在1 9 4 9 年d o n a l dh e b b 的书n l eo r g a n i z a t i o no f b e h a v i o r ) ) ( 行为组织学) f 4 】出版,他在书中第一次清楚说明了突触修正的生理学学习 规则。特别是,h e b b 提出人脑的连接方式在机体学习不同功能任务时是连续变化的, 神经组织就是通过这种变化创建起来的,由此h e b b 提出了自己现在著名的学习假说, 即两个神经元之间的可变突触的作用被突触两端神经元中一个对另一个的重复的激 活加强了。 人工神经网络的第一个实际应用出现在2 0 世纪5 0 年代后期,m c c u l l o c h 和p i a s 的经典论文发表1 5 年以后,f r a n kr o s e n b l a t t ( 1 9 5 8 ) 【5 】提出了感知机网络和联想学 习规则。r o s e n b l a t t 和他的同事构造了一个感知机网络,并公开演示了它进行模式识 别的能力。这次早期的成功引起了许多人对神经网络研究的兴趣。不幸的是,后来研 究表明基本的感知机网络只能解决有限的几类问题。 同时,b e r n a r dw i d r o w 和t e dh o f f ( 1 9 6 0 ) 1 6 】引入了一个新的学习算法用于训练 自适应线性神经网络,它在结构和功能上类似于r o s e n b l a t t 的感知机。w i d r o w - h o f f 学习规则至今仍然还在使用。 但是,r o s e n b l a t t 和w i d r o w 的网络都有同样的固有局限性。这些局限性在m a r v i n 山东师范大学硕士学位论文 m i n s k y 和s y m o l l rp a p e r t ( 1 9 6 9 ) 【7 1 的书中有广泛的论述。他们利用数学证明单层感 知机网络所能计算的根本局限,在有关多层感知机网络的简短一节中,他们认为没有 任何理由假定单层感知机网络的任何局限可以在多层的情况在被克服。他们的观点提 出后,许多人受到他们的影响,相信神经网络的研究已走入了死胡同。同时由于当时 没有功能强大的数字计算机来支持各种实验,从而导致许多研究者纷纷离开这一研究 领域。神经网络的研究就这样停滞了十多年。 即使如此,在2 0 世纪7 0 年代,科学家们仍然在该领域开展了许多重要的工作, l9 7 2 年t e u v ok o h o n e n i 剐和j a m e sa n d e r s o n l 9 分别独立提出了能够完成记忆的新型神 经网络。在这一时期,s t e p h e ng - r o s s b e r g 1 0 】在自组织网络方面的研究也十分活跃。 到了八十年代,随着个人计算机和工作站计算能力的急剧增强和广泛应用,以及 不断引入新的概念,克服摆在神经网络研究面前的障碍,人们对神经网络的研究热情 空前高涨。有两个新概念对神经网络的复兴具有极其重大的意义。其一是:用统计机 理解释某些类型的递归网络的操作,这类网络可作为联想存储器。物理学家j o h n h o p f i e l d ( 1 9 8 2 ) 1 l 】的研究论文论述了这些思想。 其二是:在2 0 世纪8 0 年代,几个不同的研究者分别开发出了用于训练多层感知 机的反传算法。其中最具影响力的反传算法是d a v i dr u m e l h a r t 和j a m e sm c c l e l l a n d ( 1 9 8 6 ) 1 2 1 提出的。该算法有力地回答了6 0 年代m i n s k y 和p a p e r t 对神经网络的责 难。 这些新进展对神经网络研究领域重新注入了活力,在过去的十几年内,神经网络 的研究进入了第二个高潮。 1 2 语音识别的研究状况 语音识别作为一门交叉学科,涉及到了信号处理、统计模式识别、人工智能、计 算机科学、语言学和认知科学等众多学科。随着这些学科的快速发展,语音识别技术 在近几十年里取得了长足的进步。 语音识别的研究历史可以追溯到二十世纪五十年代初,在五十年代,a t & tb e l l 实验室开发了个特定人的孤立数字语音识别系统a n d r ys y s t e m 【1 4 ;r a c 实验 室识别了特定人的十个单音节词中所包含的不同音节;m i t 的l i n c o l n 实验室开发了 针对十个元音的非特定人语音识别系统。这些识别系统都是针对孤立语音,都是基于 山东师范大学顺士学位论文 模式匹配器和滤波器组提供的谱信息的,并且由于理论技术水平不够,都未取得明显 的成功。 六十年代,计算机的应用推动了语音识别的发展。在六十年代初,日本的东京无 线电研究实验室、京都大学和n e c 实验室都制作了能够进行语音识别的专用硬件, 对语音识别领域进行了开拓性的研究工作。而在世界范围内,这一时期的重要成果是 提出了语音信号线性预测编码( l i n e a rp r e d i c t i v ec o d i n g ,l p c ) 技术和动态时间规划 ( d y n a m i ct i m ew a r p i n g ,d t w ) 技术。l p c 技术有效地解决了语音的特征提取问题: 动态时间规划( d t w ) 算法可以有效的解决孤立词识别中说话速度不均匀的问题, 它对特定人的语音识别十分有效。当词汇量较少,词条不易混淆时,d t w 算法可以 获得很好的效果。d t w 算法的成功,引发了最初的语音识别研究的热潮 i ”。 在七十年代,伴随着自然语言理解的研究以及微电子技术的飞速发展,语音识别 领域有了突破性进展,取得了许多重大的具有里程碑意义的成果。在理论上,线性预 测分析技术( l p c ) 得到进一步发展,它被用来作为语音的谱特征参数,并沿用至今; 动态时间规划( d t w ) 基本成熟;这时期提出了矢量量化和隐马尔可夫模型( h i d d e n m a r k o vm o d e l ,h m m ) 理论。在实践中,实现了基于线性预测倒谱和d t w 技术的 特定人孤立词语音识别系统【1 3 】。最具意义的是i b m 公司开始了有关大词汇量语音识 别的长期的、庞大的研究计划,b e l l 实验室也开始进行了一系列旨在完成真正非特定 人的识别系统的实验,这些项目都持续了十多年的时间,并获得了极具价值的研究成 果。 七十年代语音研究的重点还是孤立词语音识别,而在八十年代,连续语音成为研 究重点,并出现了大量的连续语音识别算法,如n e c 公司提出的二层动态规划算法, b e l l 实验室的m y e r s 、r a b i n e r 和l e e 等人提出的分层构造算法,以及帧同步分层构 造算法等。另外,在八十年代中后期,语音识别研究所用的技术方法发生了变化:声 学建模的方式由基于模板的方法全面向统计建模的方法转变,显著特征是h m m 模型 和人工神经网络在语音识别中的成功应用,h m m 模型方法现在已成为语音识别研究 的主流。 这一时期,美国国防部发起了一个大规模的研究计划d a p r a 计划,旨在提 高用于完成数据库管理任务的1 0 0 0 词范围内的连续语音识别的识别率。美国有不少 著名的大学和研究机构都参与了此计划,并做出了卓越的贡献,如开发了大词汇量、 山末师范大学硕士学位论文 非特定人、连续语音识别系统s p h i n x 的c a r n e g i em e l l o n 大学,开发了连续语 音识别系统b y b l o s 的b b n 公司,还有m i t 的l i n c o l n 实验室,s r i 研究院,b e l l 实验室等。由于有了d a r p a 计划,在八十年代的这十年重大词汇量的连续语音识别 系统有了长足的进展,人们终于在实验室突破了大词汇量、连续语音和非特定人这三 大障碍,第一次把这三个特性一起集成于一个系统中,并以此确定了统计方法和模型 在语音识别和语言处理中的主流地位。 进入九十年代,语音识别步入了高速发展时期,语音识别在某些领域已经走向成 熟,同时随着多媒体时代的来临,迫切要求语音识别系统从实验室走向实用。九十年 代语音技术的另一个主要趋势是语音识别在日趋完善的同时开始与其他领域的技术 相结合。九十年代初期人们开始进一步研究语音识别与自然语言处理的结合,产生了 基于口音识别和理解的人机对话系统。九十年代中期语音识别与机器翻译技术相结 合,发展面向不同语种人类之间交流的直接语音翻译技术,这些技术在有些领域内( 如 火车、飞机订票等) 开始走向实用化。目前,i b m 、d r a g o n 、p h i l i p s 等公司都已经能 够提供相应的产品。 我国在七十年代末就开始了语音技术的研究,但在很长一段时间内,都处于缓慢 发展的阶段,直到八十年代后期,随着计算机应用技术在我国的逐渐普及和数字信号 处理技术的进一步发展,国内许多单位纷纷投入到这项研究工作中去,其中有中科院 声学所,自动化所,清华大学,四川大学和西北工业大学等科研机构和高等院校,大 多数研究者致力于语音识别的基础理论研究工作、模型及算法的研究和改进。但由于 起步晚、基础薄弱、计算机水平不发达,导致在整个八十年代,我国在语音识别研究 方面并没有形成自己的特色,更没有取得显著的成果和开发出大型性能优良的实验系 统。但进入九十年代后,我国语音识别研究的步伐就逐渐紧追国际先进水平了,在“八 五”、“九五”国家科技攻关计划、国家自然科学基金、国家8 6 3 计划的支持下,我国 在中文语音技术的基础研究方面也取得了一系列成果。在语音合成技术方面,中国科 大讯飞公司已具有国际上最领先的核心技术;中科院声学所也在长期积累的基础上, 研究开发出颇具特色的产品;在语音识别技术方面,中科院自动化所具有相当的技术 优势:社科院语言所在汉语言学及实验语言科学方面同样具有深厚的积累。但是,这 些成果并没有得到很好的应用,转化成产业,相反,中文语音技术在技术、人才、市 场等方面正面临着来自国际竞争环境中越来越严峻的挑战和压力。 山东师范大学硕士学位论文 当前,国际上的一些跨国公司也看好了中国潜力巨大的市场,纷纷涉足中文语音 技术,加紧技术、产品、市场的全面扩展。i b m 微软、英特尔都把研究院办到了中 国,并把包括中文语音技术在内的综合性中文智能平台的研究开发列为重点,1 9 9 8 年1 1 月初,在北京举行了由i n t e l 举办的首届语音技术国际论坛,各国际大公司争 相展示自己的最新识别系统,包括i b m 、d r a g o n 、l u c e n t 和p h i l l i p s 等,让大家耳目 一新。i n t e l 、m i c r o s o f t 等也都在讲演时对自己的系统进行了演示。中国中科院 自动化研究所展示了自己的独立产品,尽管在识别速度和识别率上还无法与国外先进 水平相比,但也显示了我国在这一国际竞争所做的努力。现在,英特尔已经完成了电 话语音识别演示系统:l & h 正在深圳和北京等地全力推广其成型产品:m 的 v i a v o i c e 已占领了中文语音识别9 0 以上的市场;微软则有详细的中文语音开发和捆 绑计划;目前已经将语音识别技术捆绑到了办公软件o f f i c e x p 当中。微软研究院院 长、微软副总裁李开复博士演示的大词汇量、自纠错中文语音识别系统更让人看到了 语音识别美好的前景【5 。 1 3 神经网络在语音识别中的应用 神经网络是在现代科学研究成果的基础上提出来模拟人脑结构机制的一门新兴 科学,它不是人脑真实的全面描述,而是这类生物神经网络的抽象、模拟和简化,其 目的在于探索人脑的信息加工、存储和搜索机制,从而为人工智能和信息处理等学科 的研究开辟新途径。人工神经网络就是采用物理可实现的系统来模拟人脑神经细胞的 结构和功能的系统。它是由很多处理单元有机的连接起来进行并行的工作,它的处理 单元虽十分简单,但其工作却是“集体”进行的,它的信息传播、存储方式与神经网 络相似,它没有运算器、存储器、控制器等这些现代计算机的基本单元,而是相同的 简单处理器的组合,其信息处理是存储在处理单元的连接上i l 。 语音识别在实现过程中通常涉及多种因素,需要同时考虑。由于计算量很大,再 加上语音信号的随机性,以及我们对人类听觉机理了解甚浅,因此,目前机器自动识 别语音的能力要比人类差得多,尤其是对非特定人的连续语音识别更是如此。神经网 络模型作为分类器或聚类器。发展出一些新的语音识别方法。 语音识别所遇到的难题是搜索最佳识别结果和参数训练。人工神经网络中大量神 经元并行分布运算的原理、高效的学习算法以及对人的认知系统的模仿能力等都使它 山东师范大学硕士学位论文 非常适宜于解决类似于语音识别这一类课题,它既适用于底层又适用于顶层。 幽于神经网络反映了人脑功能的基本特征,具有自组织性、自适应性、和连续学 习的能力。这种网络是可以训练的,即可以随着经验的积累而改变自身的性能。同时 由于商度的并行性,它们能够进行快速判决并具有容错性,特别适合于解决像语音识 别这类难以用算法来描述而又有大量样本可供学习的问题。 传统的语音识别和采用神经网络的语音识别是有区别的。在传统的语音识别方法 中,模式匹配法是在对语音做过预处理之后,通过特征参数的提取及模式匹配完成识 别。由于语音信号的高度多变性,输入模式要与标准模式完全匹配是几乎不可能的。 因此,识别时要预先制定好计算输入的语音特征模式与各特征模式的类似或距离的规 则,距离最小这就是最类似的模式。而句法模式识别法当认为输入的未知模式属于某 个对象时,就要检查一下输入模式与识别对象的结构,当与对象模式结构相同或在某 范围内结构一致时,则判定该未知模式就是识别对象的语音。神经网络的语音识别方 法与传统方法的差异在于提取了语音的特征参数后,不像传统方法那样有输入模式与 标准模式的比较匹配,而是靠神经网络中大量的连接权对输入模式进行非线性运算, 产生最大兴奋的输入点就代表了输入模式对应的分类。 神经网络的连接权系数是在使用中根据识别结果的正确与否不断地进行自适应 修正。神经网络的特性依赖于网络结构及连接权值,而不同与传统方法中依赖于统计 参数。比较起来,神经网络识别系统更接近人类的感知过程。为了研究和模拟神经系 统如何感受各种刺激信号,引起不同的感觉并产生和传递相应的神经冲动及完成各种 功能,必须深入研究神经元的各种特性,并建立相应的数学模型【1 9 】。 八十年代中后期以来,关于神经网络在语音信号处理中的应用研究十分活跃,其 中以在语音识别方面的应用最令人瞩目。目前,主要是从听觉神经模型中得到启发, 以便构成一些具有类似能力的人工系统,使它们在解决语音信号处理( 特别是识别) 问题时能得到较好的性能。研究神经网络以探索人的听觉神经机理,改进现有语音识 别系统的性能,是当前语音识别研究的一个重要方向。 1 4 本文的主要工作及内容安排 如前所述,随着语音技术的发展和成熟,语音时代正向人们走来,语音识别技术 也已经从实验室走向了市场,走向了应用。本文以语音识别和神经网络的基本理论为 山东师范大学硕士学位论文 基础,研究了神经网络模型在语音识别中的应用问题。基于基本的语音识别技术,介 绍了线性预测编码的原理以及线性预测参数、线性预测系数倒谱系数和美尔倒谱系 数的计算方法。针对非特定人的英语元音识别问题,提出了两种神经网络模型,一种 是概率神经网络,另一种是改进的模糊神经网络模型。 本文具体内容安排如下: 第一章作为前言介绍了神经网络和语音识别技术的发展历史和现状,对神经网络 在语音识别中的应用进行了分析,由此引出本论文的研究背景和意义,提出了本文的 研究目的和内容。 第二章阐述了语音识别的基本原理,介绍了语音识别的过程,并对各个环节进行 了详细的分析。 第三章针对非特定人的英语元音识别问题,建立了个概率神经网络模型,分析 了概率神经网络用于语音识别中的问题。 第四章介绍了神经网络的b p 算法和模糊逻辑系统,并对神经网络与模糊逻辑相 融合的s u g e n o 及其修正模型进行了介绍。 第五章在上一章的基础上,针对非特定人的英语元音识别问题,推导了一种既能 学习数值数据又能学习模糊规则的多输入多输出模糊神经网络算法。 第六章总结了论文的主要工作,得出结论及进一步的工作设想。 山东师范大学硕士学位论文 第二章语音识别基本原理与技术 语音是众多信息载体中具有最大信息容量的信号,具有最高的智能水平,也是人 类用来交流的最自然、最有效的手段,如果计算机具备了这种语言功能,其智能程度 和应用价值将会大大增加,但计算机要想具有语言交流能力,首先必须对语言进行识 别和理解。 语音识别是将人发出的声音、句子或短语转换成电信号,然后将电信号转换成赋 予相应含义的编码图形,也就是将说出的文字翻译成一种机器可读的形式。语音识别 将可能取代键盘和鼠标成为计算机的主要输入手段,这将大大扩展计算机的应用范 围,所以语音识别所具有的商业前景是不言而喻的。 2 一语音识别技术的分类 语音识别的研究范围比较广,归纳而言,一般集中于以下三个方面: 一、按照语音的输入方式,语音识别的研究集中于孤立词、连接词和连续语音的 识别。 孤立词语音识别是指,词表中的每个条目,无论是单音节还是短语,发音时都是 以条目为单位的,条目间有明显的停顿,而条目内的音节要求连续。如识别0 - 9 十个 数字、人名、地名、控制命令、英语单词、汉语音节或短语。 连呼词表中的几个条目,识别时进行切分,最后给出连呼词的识别结果,这种识 别需要用到词与词之间的连接信息,所以成为连接词识别,如连呼字符串的识别。 语音识别的最终目的是让计算机能理解自然语言,而自然语言的最大特点是连续 语音,这是语音识别中最困难的课题,如听写机、翻译机、智能计算机中人机语音对 话都需要连续语音识别。 二、根据能识别词汇量的多少,语音识别可分为小、中、大词汇量三种。一般来 说,能识别词汇量小于1 0 0 的,称为小规模词汇量语音识别;大于1 0 0 的称为中等词 汇量语音识别;大于1 0 0 0 的称为大词汇量语音识别。 三、对说话人的识别可分为特定人、限定人和非特定人三种。对于特定人进行语 音识别的系统,使用前须有特定人对系统进行训练,具体方法是由特定人口呼待识词 山东师范大学硕士学位论文 或指定字表,系统建立相应的特征库,之后,特定人即可口呼待识词由系统识别,这 样的系统只能识别训练者的声音;如果需要限定的几个人使用同一系统,即可以研制 成限定人识别系统;如果一个系统不必经使用者训练就可以识别各种发言者的语音, 则称为非特定人语音识别。 语音识别研究的最终目标是要实现大词汇表、非特定人连续语音的识别,这样的 系统才有可能完全听懂并理解人类的自然语言。 2 2 语音识别系统构成 语音识别系统除了包括核心的识别程序,还必须包括语音输入手段、参数分析、 标准声学模型、词典、文法语音模型等,以及所有这些方面所需的工具。由于识别结 果要在实际环境下实现一定的应用,还必须考虑耐环境技术,用户接口输入和输出技 术等。因此,语音识别技术加上各种外围技术的组合,才能构成一个完整的实际应用 的语音识别系统。从语音识别系统的各个功能划分的角度出发,语音识别系统可分为 语音信号的预处理部分、语音识别系统的核心算法部分以及语音系统的基本数据库部 分。图2 1 给出了一般语音识别系统的组成框图。鲫【2 1 1 1 2 2 】 语音信号输入 应用( a p p l i c t t i o r 。 蓄 9 斋 于 山东师范大学硕士学位论文 图2 - 1 一般语音识别系统框图 2 3 语音信号的预处理 在对语音信号进行分析处理之前,必须对其进行预处理。一般包括数字化、反混 叠滤波、预加重、加窗分帧及端点检测等。 2 3 1 抗混叠滤波与预加重 将话筒中传来的语音信号转换成计算机所能处理的数字信号,这就是语音采集的 任务,由a d 转换电路和语音采集程序完成。研究表明,语音信号的频谱分量主要 集中在3 0 0 - 3 4 0 0 h z 的范围内。因此需用一个防混叠的带通滤波器将此范围内的语音 信号的频谱分量取出,然后对语音信号进行采样,得到离散的时域语音信号。由 n y q u i s t 采样定理知,如果模拟信号的频谱带宽是有限的( 例如不包含高于2 f m 的频 率成分) ,那么用等于或高于2 f m 的采样频率进行采样,则所得到的等间隔离散时间 取样值( 取样信号) 能够完全唯一的表示原模拟信号,或者说毫无失真的恢复出原始 信号。实际应用中,大多数情况选用8 k h z 的取样频率。尽管如此,必须顾及到语音 信号本身包含着4 k h z 以上频率成分这样一个事实。即使有的语音的频谱能量主要集 中在低频段,但由于噪声环境的宽带随机噪声叠加的结果,使得在取样之前,语音信 号总包含着4 k h z 以上的频率成分。因此,为了防止混叠失真和噪声干扰,必须在取 样前用一个锐截止模拟低通滤波器对语音信号进行滤波。该滤波器称为反混叠失真滤 波器或去伪滤波器。 语音从嘴唇辐射会有6 d b o c t 的衰减,因此在对语音信号进行处理之前,希望能 按6 d b o c t 的比例对信号加以提升( 或加重) ,以使得输出的信号电平相近似。当用 数字电路来实现6 d b o c t 预加重时,可采用以下差分方程所定义的数字滤波器: _ y ( ”) ) - a x ( n 1 ) ( 2 1 ) 式中,系数日常在0 9 至1 之间选取。 2 3 2 加窗 语音信号从整体来看其特性及表征其本质特征的参数均是随时间而变化的,是一 山东师范大学硕士学位论文 个典型的非平稳过程,但是在一个短时间段内( 1 0 - - - 3 0m s ) ,其特性保持相对稳定, 因而可以看作是一个准平稳过程,即语音信号的短时平稳性。目前绝大多数的语音信 号处理技术均是在“短时”的基础上,将语音信号分为许多段来逐段分析其特征参数, 其中每一段称为一“帧”,分段的过程称为“分帧”处理,通过对语音信号加窗口函 数来实现,帧长一般取1 0 3 0m s 。分帧可以连续分段,但一般是通过一个滑动窗口 进行交叠式分段,这样使帧与帧之间平滑过渡,保持了信号的连续性。 用的最多的三种窗口是矩形窗、汉明窗( h a m m i n g ) 、汉宁窗( h a r m i n g ) ,定义 如下1 2 2 1 ( 其中n 为窗口长度) : i 】矩形窗 砌) :接叱”i 。1 ( 2 2 ) ( 玎) = 1 0 肛= 已b g ( 2 2 j 【2 】汉明窗 删= f 。0 4 6 c 0 s 口训肛d x = 沙1 , 3 】汉宁窗 特舻卜c o s 。别1 ”x 0 n j 肛1 n = e l s e 不同的短时分析方法以及求取不同的语音特征参数对窗口函数的要求不同,可以 根据实际需要选择合适的窗口函数和窗口长度。 2 3 3 端点检测 语音信号端点检测的目的是从连续采样得到的数字信号中检测出语音信号段和 噪声段,它是任何一个语音识别系统必不可少的组成部分。只有准确地找出语音段的 起始点和终止点,才有可能使采集到的数据是真正要分析的语音信号,这样不仅可以 减少计算量,而且可以提高系统的识别率。因此,端点作为语音分割的重要特征,在 很大程度上影响语音识别系统的性能,如何在噪声环境下设计一个鲁棒的端点检测算 法还是一个非常棘手的问题。传统的端点检测算法只依赖于一个特征,例如信号能量、 过零率、持续时间及线性预测能量误差。这些方法在高信噪比时有良好的性能,但是 在低信噪比时性能很差。语音处理系统通常工作在不同的噪声环境下,系统采用的端 山东师范大学硕士学位论文 点检测方法应该适用于各种不利情况,以使系统达到良好的性能。 2 3 3 ,1 双门限比较法 双门限端点检测法是一种基于能量过零率的两级判决法,即首先用短时能量作 第一次判别,然后在此基础上用短时过零率作第二次判别。首先要分别为短时能量和 过零率确定两个门限,在用短时能量作第一次判别时,为了不至于把语音能量的局部 下降点错误地当作起止点,因此采用双门限比较法。高门限被超过基本可以确定语音 的起始端点,低门限用于确定语音真正的端点。低门限被超过未必就是语音的起始端 点,也有可能是短对的噪声。当高门限已经确定语音起始端点,再返回去利用低门限 确定语音的真正起始点。有时噪声的能量也相当大,可能超过高门限,但是噪声一般 持续时间比较短,可以用持续时间来决定是噪声还是语音。 ( a ) 短时能量 ( b ) 过零率 图2 - 2 利用短时能量和过零率的语音端点检测 如图2 2 所示,首先根据语音短时能量选取一个较高的门限a m p l ,语音短时能 山东师范大学硕士学位论文 量大多数情况下都在此门限之上。这样可以进行一次粗判:语音起止点位于该门限与 短时能量包络交点对应的时间间隔之外( 如图a b 段之外) 。然后根据背景噪声的平 均能量确定一个较低的门限a m p 2 ,并从a 点向前,从b 点向后搜索,分别找到短时 能量包络第一次与门限a m p 2 相交的两个点c 和d ,于是c d 段就是双门限方法根据 短时能量所判定地语音段,完成了第一级判决。接着进行第二级判决,这次通过由短 时过零率确定的门限来判断。从c 、d 两点分别向前向后搜索,找到短时平均过零率 第一次低于门限z c r 的两个点e 和f 。这便是判断的语音段的起止点 2 3 i 。 2 3 。3 2 窗长动态改变的语音端点检测技术 根据语音信号的短时平稳性,可以采用平稳过程的分析方法进行处理,语音端点 检测首先也要进行分帧处理,然后一次判断每一帧是否为语音的端点。如果帧长比较 大,计算量比较小,进行端点检测时速度比较快,但是这样端点检测的误差容易增加。 端点检测时如果采用较小的窗长,计算量随之增加,语音识别的速度会降低。为了解 决这一矛盾,可以采取如下解决方法:在语音静音段时,采用较长的窗;在语音和静 音的过渡段时采用较小的窗,可以确切判断语音的起始点;旦确定语音的起点,就 改用常规窗长。 我们认为,在实际应用中,可以将这种窗长动态变化的端点检测方法和经典的双 门限端点检测算法有机结合起来,这样既可以提高语音识别速度,又可以精确检测语 音的端点。这种思想的流程可以表示为图2 3 。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论