(管理科学与工程专业论文)基于神经网络的语音识别鲁棒性研究.pdf_第1页
(管理科学与工程专业论文)基于神经网络的语音识别鲁棒性研究.pdf_第2页
(管理科学与工程专业论文)基于神经网络的语音识别鲁棒性研究.pdf_第3页
(管理科学与工程专业论文)基于神经网络的语音识别鲁棒性研究.pdf_第4页
(管理科学与工程专业论文)基于神经网络的语音识别鲁棒性研究.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(管理科学与工程专业论文)基于神经网络的语音识别鲁棒性研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

山东师范大学硕士学位论文 摘要 语音识别技术已经取得令人鼓舞的成就,市场上也出现了许多相对成熟 的语音识别产品,但是大部分语音识别系统仍局限于特定的环境,距离真正 的实用化还相差很远。本文以提高语音识别系统的鲁棒性为目标,进行了相 关的实验和研究。 本文主要内容为语音信号处理,包括特征提取分析和模式识别,介绍国 内外这一领域的研究成果和进展,针对其中的问题提出自己的解决方法和思 想,并实现了一些相关的算法。第一章为引言,介绍论文研究的背景意义和 国内外的研究现状。第二章为研究方法和技术的介绍,主要是神经网络基础 知识。第三章为语音信号的特征提取和分析,介绍了各种常用的语音特征参 数以及特征分析的方法与工具,给出特征提取过程中一些问题的解决方法和 算法,第四章为神经网络识别部分,对语音识别中常用的几种神经网络模型 进行了分析和比较。第五章是论文的总结。 主要内容包含如下: 语音识别的基本概念、发展历史和现状。 人工神经网络的主要原理和概念以及在语音识别中的应用。语音识别系 统一般由特征提取和模式识别这两个模块构成。 特征提取阶段主要使用线性预测编码技术从语音信号中提取特征向量。 采样和量化完成语音信号的数字化过程;语音特征分析分为时域分析和频域 分析,时域分析常用的特征参数有短时平均能量和短时过零率,短时傅立叶 分析、线性预测编码和倒谱分析则是三种常用的频域分析方法;语音信号特 征提取中的端点检测问题以及检测方法的分析 e 较;提出清浊音检测问题的 一种解决方法并在基于m a t l a b 的环境下实现了算法,实验分析算法的性能; 分析汉语数字语音的基频和共振峰特征;讨论语音特征参数的噪声鲁棒性和 语音信号的情感特征参数。 山东师范大学硕士学位论文 神经网络应用于语音识别的模式识别阶段。首先是网络模型的训练和学 习过程,调整好的网络模型就可以应用于识别了。多层感知机以及反向传播 算法在语音识别中应用广泛;时间延迟神经网络可以很好地适应语音信号频 谱参数的时变性,使用的训练算法也是反向传播算法;循环神经网络是一种 既有前馈通路,又有反馈通路的神经网络,这一特点使得循环神经网络具有 良好的连续信号处理性能,一种反向传播算法的变形将用于循环神经网络模 型的学习和训练。 关键词:语音识别:人工神经网络;特征提取;线性预测编码;鲁棒性。 分类号:t p 3 9 1 9 i i i 山东师范大学硕士学位论文 a b s t r a c t a l t h o u g hs p e e c hr e c o g n i t i o np r o d u c t sa r ea l r e a d ya v a i l a b l ei nt h em a r k e ta t p r e s e n t ,t h e i rd e v e l o p m e n ti sm a i n l yb a s e do ns t a t i s t i c a lt e c h n i q u e sw h i c hw o r k u n d e rv e r ys p e c i f i ca s s u m p t i o n s ,m o s ts p e e c hr e c o g n i t i o ns y s t e m sa r es t i l li n t h e i r i n f a n c ya n dh a v ep r o b l e m sj fm i g r a t e df r o ml a b o r a t o r yt oa c t u a l a p p l i c a t i o n s a i m i n ga t t h er o b u s t n e s so fs p e e c hr e c o g n i t i o ns y s t e m ,t h i s d i s s e r t a t i o na t t e m p t st os t u d y , i nd e p t h , o nt h et h e o r ya n dt e c h n i q u e so fs p e e c h r e c o g n i t i o nb yu s i n gt h ec o n c e r n e de x p e r i m e n t s t h es t r u c t u r eo ft h ed i s s e r t a t i o ni sa sf o l l o w s :t h ef i r s tc h a p t e rg i v e st h e r e s e a r c hb a c k g r o u n dw i t h $ o m ek n o w nr e s u l t s t h es e c o n dc h a p t e ri n t r o d u c e s t h eb a s i cc o n c e p t so ft h i sd o m a i n i nt h i r dc h a p t e r , w ed i s c u s st h ef e a t u r e e x t r a c t i o no ft h es p e e c hs i g n a l t h em o d e lb a s e dt h en e u r a ln e t w o r ki si nf o r t h c h a p t e r t h el a s tc h a p t e ri st h ec o n c l u s i o n o u rr e s e a r c hi ss h o wa sf o l l o w s : as p e e c hr e c o g n i z e rs y s t e mc o m p r i s e do ft w od i s t i n c tb l o c k s ,af e a t u r e e x t r a c t o ra n dar e c o g n i z e r t h ef e a t u r ee x t r a c t o rb l o c ku s e sas t a n d a r dl p c ( l i n e a rp r e d i c t i v ec o d i n g ) c e p s t r u mc o d e r , w h i c ht r a n s l a t e st h ei n c o m i n g s p e e c hi n t oat r a j e c t o r yi nt h el p cc s p s t r u mf e a t u r es p a c e a c c o r d i n ga st h e c h a r a c t e r i s t i co ft h es h o r t t i m ea v e r a g ee n e r g ya n ds h o r tt i m ez e r o - c r o s s i n gi n t h es p e e c hs i g n a l ,w ed i s c u s st h em e t h o do ft h es t a r t i n g - p o i n td e c i s i o n , a l s o d e s i g na n di m p l e m e n tt h ev o i c i n gd e c i s i o no f t h es p e e c hs i g n a lu s i n gt h ew a v e l e t t r a n s f o r m t h ep i t c hd e t e c t i o na n df o r m a n td e t e c t i o ni nt h em a n d a r i nd i g i t s p e e c hr e c o g n i t i o ns h o wah i g hp e r f o r m a n c e n o i s er o b u s t n e s sa n de m o t i o n a l f e a t u r ea n a l y s i sb e c o m et h eh a r d n e s so f s p e e c hs i g r 湖p r o c e s s i n g d e s i g n so ft h er e c o g n i z e rb l o c k sb a s e do nt h r e ed i f f e r e n ta p p r o a c h e sa g e 山东师范大学硕士学位论文 c o m p a r e d t h ep e r f o r m a n c eo fm u l t i l a y e rp c r c e p t r o n s ,t i m ed e l a yn e u r a l n e t w o r ka n dr e c u r r e n tn e u r a ln e t w o r kb a s e dr e c o g n i z e r sw i l lb ed i s c u s s e d k e yw o r d s :s p e e c hr e c o g n i t i o n ;a r t i f i c i a ln e u r a ln e t w o r k ;f e a t u r e e x t r a c t i o n ;l i n e a rp r e d i c t i v ec o d i n g ;r o b u s t n e s s c l a s s i f i e a t i o n :1 1 p 3 9 1 9 v 独创声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成 果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得( 注:如没有其他需要特别声 明的,本栏可空) 或其他教育机构的学位或证书使用过的材料。与我一同工作的同志对 本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名: 栖寿, 翩繇彩晦 学位论文版权使用授权书 本学位论文作者完全了解堂撞有关保留、使用学位论文的规定,有权保留并向 国家有关部门或机构送交论文的复印件和磁盘。允许论文被查阅和借阅。本人授权堂 查生可以将学位论文的全部或部分内容编入有关数据库进行检索,可阻采用影印、缩印 或扫描等复制手段保存、汇编学位论文。( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:搦乐 签字日期:2 0 0 虹9 4 月加 铈擗刃- z 香q cj 节 导师签字:无局 签字日期:2 0 0f 年物彩日签字日期:1 年恫劲日 v 山东师范人学硕士学位论文 第1 章引言 1 1 研究背景和意义 语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式 识别的一个分支,涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸 多领域,甚至还涉及到人的体态语言( 如人在说话时的表情、手势等行为动作可帮 助对方理解) ,其最终目标是实现人与机器进行自然语言通信。 目前,对于理想环境下的语音数据语音识别系统已经达到很好的性能,然而在 我们实际的应用环境下不可避免的遇到一些在实验环境下未曾考虑到的问题。方言 和口音、背景噪音和口语就是语音识别在实际应用中遇到的三个难题,这三个方面 的问题直接影响到语音识别系统的鲁棒性、灵活性和自适应性,从而也阻碍了语音 识别的进一步发展和推广应用。这些问题是实现自然状态人机语音交流所亟需解决 的。 现在的语音识别技术主要基础就是一种叫做隐含马尔可夫模型的算法。隐含马 尔可夫模型的方法是一种典型的模式匹配的方法。基于这种算法的语音识别技术对 于设定的场景,设定主题的对话,会有比较好的表现效果。但对于达到自如的相互 交谈来说还远远不够。 人工神经网络可以构造出类似人类神经元的模型,从而在语音识别上使计算机 具有近似人的智能。人工神经网络可以把存在于语音特征、音素和单词各层次的要 素的作用结合起来,无需设置复杂的控制机构,从而在语音识别的特征抽取和因素 变换方面优于传统的方法。神经网络还能进行大规模的并行处理和分布式的信息存 储,具有良好的自适应性、自组织性以及很强的学习能力、联想能力和容错能力。 这些能力是传统的模型所不具备的,将神经网络与传统的识别方法结合起来,可以 很明显地提高语音识别的鲁棒性和自适应性。 人工神经网络技术已经被成功应用于解决一些模式分类问题,并被证明具有巨 大的潜力。 山东师范大学硕士学位论文 国内外对这一领域的研究一直保持着很高的势头。 文 1 9 1 对影响语音识别鲁棒性的各种因素进行了分析。 文1 6 0 使用循环神经网络来进行因子概率估计,提出的基于循环神经网络的全 反馈模型提高了系统的识别性能和系统的稳定性,并且模型的分类性能也有明显的 提高。 c h a n g r a i nk i ma n ds o o y o u n gl e e 在文 6 】中采用径向基神经网络对带嗓语音 进行分类。 文 3 0 】中m i c h a e lt r o m p f 在单词识别之前使用一种多层前馈神经网络从带噪语 音中提取语音特征向量。 文【2 2 】作者j o h n - p a u lh o s o m ,r o n a l da c o l e ,a n dp i e r oc o s i 改进了神经网络的 训练算法用于连续数字的语音识别。 文 1o 】 1 l 】中d o n g s u k y o o k 提出了人工神经嬲络与隐含马尔科夫模型相结合的 方法。 s a d a o k if u r u ia n dd a i s u k ei t o h 在文 4 3 冲使用包含两个隐含层的多层神经网络 模型对原有的h m m 模型进行改进,从而能够很好地适应带噪语音信号。 语音识别是实现人机语音交互中的一项关键技术,经过近十年的快速发展,语 音识别已经渗透到了很多行业,包括工业、教育、通讯和军事等各种领域。随着技 术的不断成熟和推广,必将会对社会和科技的进步产生深远的影响,可以说语音识 别的应用前景是十分广阔的。 山东师范大学硕士学位论文 1 2 程序及工具软件说明 本文所有程序都是在基于x 8 6 架构的处理器环境下开发调试运行,操作系统为 w i n d o w s2 0 0 0s e r v e r ( s e r v i c ep a c k a g e4 ) 。所有m 文件使用m a lw o r k s 公司发布 的m a t l a b 软件编写,软件版本为:m a t l a bv e r s i o n7 0 1 2 4 7 0 4 限1 4 ) s e r v i c ep a c k1 。 另外还借助了工具软件c o o le d i t p r o2 0 简体中文版,下载网址为: h t t p :w w w m i t i 2 0 0 0 t o m 。 山东师范大学硕士学位论文 第2 章语音识别和神经网络 本章主要介绍语音识别和神经网络基本概念和理论以及这两个领域的发展和 现状。 2 1 语音识别 2 1 1 声音和语音 声音是通过空气传播的种连续的波,叫声波。声音的强弱体现在声波压力的 大小上,音调的高低体现在声音的频率上。声音用电表示时,声音信号在时问和幅 度上都是连续的模拟信号。 对声音信号的分析表明,声音信号由许多频率不同的信号组成,这类信号称为 复合信号,而单一频率的信号称为分量信号。声音信号的一个重要参数就是带宽, 它用来描述组成复合信号的频率范围。 声音信号的两个基本参数是频率和幅度。信号的频率是指信号每秒钟变化的次 数,用h z 表示。人们把频率小于2 0h z 的信号称为亚音信号,或称为次音信号 ( s u b s o n i c ) ;频率范围为2 0h z 2 0k h z 的信号称为音频( a u d i o ) 信号;虽然人的发音 器官发出的声音频率大约是8 0 3 4 0 0h z ,但人说话的信号频率通常为3 0 0 3 0 0 0 h z ,人们把在这种频率范围的信号称为话音( s p e e c h ) 信号;高于2 0k h z 的信号称为 超音频信号,或称超声波( u l t r a s o n i c ) 信号t 2 8 1 。在多媒体技术中,处理的信号主要是 音频信号,它包括音乐、话音、风声、雨声、鸟叫声、机器声等。本文中处理的信 号主要是话音信号,也称作语音信号。 语音的声学特征是音强、音调、音长和音色,简称语音四要素。 2 1 2 什么是语音识别 语音识别就是研究让机器最终能听懂人类口述的自然语言。听懂有两种含意, 第一种是将这种1 2 述语言逐词( 字) 逐句地转换为相应的文字,例如对口授文章作听 写;第二种则是对口述语言中所包含的要求或询问做出正确的响应,而不拘泥于所 4 山东师范大学硕士学位论文 有的字词正确地转换为书面文字。语音识别和语音合成相结合,即构成一个完整的 “人一机对话通讯系统”。 简单的讲,语音识别技术就是让机器通过识别和理解过程把语音信号转变为相 应的文本或命令的高技术。 一般语音识别系统的分类方式及依据如下【冽: 根据对说话人说话方式的要求,可以分为孤立字( 词) 语音识别系统,连接字 语音识别系统以及连续语音识别系统。 根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统。 根据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量 语音识别系统。 2 1 3 研究现状和发展1 2 4 j f 3 6 l f 6 1 l 语音识别的研究工作大约开始于五十年代,其间经历了六、七十年代的 基础突破期,八十年代的综合发展期。九十年代,语音识别进入了一个相对成熟期, 语音识别中最困难的非特定人大词汇量连续语音识别已经达到了很高的性能。 5 0 年代,当时a t & tb e l l 实验室实现了第一个可识别十个英文数字的语音讽 别系统a u d r y 系统。 6 0 年代,计算机的应用推动了语音识别的发展。这时期的重要成果是提出了动 态规划( d p ) 和线性预测分析技术( l p ) ,其中后者较好地解决了语音信号产生模 型的问题,对语音识别的发展产生了深远影响。 7 0 年代,语音识别领域取得了突破。在理论上,l p 技术得到进一步发展,动 态时间归正技术( d t w ) 基本成熟,特别是提出了矢量量化( v q ) 和隐含马尔可 夫模型( h m m ) 理论。在实践上,实现了基于线性预测倒谱和d t w 技术的特定人 孤立语音识别系统。 8 0 年代,语音识别研究进一步走向深入,其显著特征是h m m 模型和人工神经 元网络( a n n ) 在语音识别中的成功应用。h m m 模型的广泛应用应归功于a t t b e l l 实验室r a b i n e r 等科学家的努力,他们把原本艰涩的h m m 纯数学模型工程化, 山东师范大学硕士学位论文 从而为更多研究者了解和认识。 9 0 年代,随着多媒体时代的来临,迫切要求语音识别系统从实验室走向实用。 语音识别中最困难的非特定人大词汇量连续语音识别已经达到了很高的性能。各研 究机构推出的识别系统包括:i b m 公司的v i a v o i c e 系统,剑桥大学的h t k 系统, m i c r o s o f t 的w h i s p e r 系统等。 进入2 1 世纪,各种语音产品层出不穷,语音识别在进行科学研究的同时,越 来越推向工程和应用。包括n u a n c e 通信公司,s c a n s o f t 公司和i b m 在内的许多著 名公司都推出自己的产品。2 0 0 4 年3 月微软推出了它的语音应用服务器s p e e c h s e r v e r 。 我国语音识别研究工作一直紧跟国际水平,国家也很重视,并把大词汇量语音 识别的研究列入“8 6 3 ”计划,由中科院声学所、自动化所及北京大学等单位研究 开发。 2 1 4 语音识别的应用 语音识别是实现人机语音交互中的一项关键技术,具有广阔的应用前景。 应用背景及学科基础如图2 1 所示。 山东师范大学硕士学位论文 图2 - i 语晋识别的应用背景和学科基础 语音识别已经渗透到了很多行业,目前市场上的语音识别产品基本可分为: 特定人非特定人:是按照声学模型建立的方式来划分。特定人识别的声学模型 是针对某一特定用户训练的。一般来说用户需要先训练系统,然后才能识别该用户 的发音。而非特定人识别的声学模型是针对某一种特定的语言来训练的,发音人不 需要训练既可使用。虽然在建立模型时需要大量的语料,对用户来说却提供了更大 方便,他们甚至不需要了解该过程。 嵌入式服务器模式:嵌入式是将语言识别软件及模型,写在设备( 如手机) 的存 储器里,识别过程在终端完成。在服务器模式,终端只负责收集和传导语音信号, 由服务器负责完成识别。因此,对于大规模,多用户和有大量识别需求的系统,服 务器模式提供了有效的方式。 m 前运营商和企业用户的需求多数适合采用非特定人服务器模式的服务。 山东师范大学硕士学位论文 2 2 神经网络 2 2 1概述 神经网络是一门活跃的边缘性交叉学科。研究它的发展过程和前沿问题,具有 重要的理论意义。 神经网络理论是巨量信息并行处理和大规模平行计算的基础,神经网络既是高 度非线性动力学系统,又是自适应组织系统,可用来描述认知、决策及控制的智能 行为。它的中心问题是智能的认知和模拟。从解剖学和生理学来看,人脑是一个 复杂的并行系统,它不同于传统n e u m a n 式计算机,更重要的是它具有“认知”、“意 识”和“感情”等高级脑功能。我们以人工方法模拟这些功能,毫无疑问,有助于加深 对思维及智能的认识。8 0 年代初,神经网络的崛起,己对认知和智力本质的基础研 究乃至计算机产业都产生了空前的刺激和极大的推动作用。 2 2 2 神经网络的基本原理 ”j 2 9 j 神经网络的基本组成单元是神经元,在数学上的神经元模型是和在生物学上的 神经细胞对应的。或者说,人工神经网络理论是用神经元这种抽象的数学模型来描 述客观世界的生物细胞的。 在人体内神经元都是由一些基本的成份组成的。神经元的生物学解剖可以用图 2 2 所示的结构表示。从图中可以看出:神经元是由细胞体,树突和轴突三部分组 成。 山东师范大学硕士学位论文 图2 - 2神经元的生物学解剖示意图 从神经元的特性和功能可以知道,神经元是一个多输入单输出的信息处理单元, 而且,它对信息的处理是非线性的。根据神经元的特性和功能,可以把神经元抽象 为一个简单的数学模型。一个简单的人工神经元模型如图所示。 图2 3 简单的人1 二神经兀网络模型 在图中,x l ,x 2 ,x 1 1 是神经元的输入,即是来自前级n 个神经元的轴突 的信息只是i 神经元的阈值;w i l ,w i 2 ,w 。分别是i 神经元对x l ,x 2 , x 。的权系数,也即突触的传递效率;y i 是i 神经元的输出;f 【】是激发函数,它决定 i 神经元受到输入x l ,x 2 ,确的共同刺激达到阈值时以何种方式输出。 2 2 3 发展历史及现状【2 7 】【2 9 l 【3 6 】 山东师范大学硕士学位论文 神经网络诞生半个多世纪以来,经历了5 个阶段: 1 ) 奠基阶段。早在4 0 年代初,神经解剖学、神经生理学、心理学以及人神经 元的电生理的研究等都富有成果。其中,神经生物学家m c c u l l o c h 与青年数学家p i t t s 合作提出了第一个神经计算模型,即神经元的闽值元件模型,简称m p 模型,从而 开创了神经网络的研究。 1 9 4 9 年神经生物学家h e b b 提出了h e b b 学习规则。h e b b 对神经网络的发展起 到了重大的推动作用,至今仍然被人们引证。 人工智能的一个主要创始人m i n s l c y 于1 9 5 4 年对神经系统如何能够学习进行了 研究,后来他对r o s c n b l a t t 建立的感知器( p e r c e p 的n ) 的学习模型作了深入分析。 2 ) 第一次高潮阶段。1 9 5 8 年计算机科学家r o s e n b l a t t 基于m p 模型,提出了 感知器模型,首次把神经网络理论付诸工程实现。激发了许多学者对神经网络研究 的极大兴趣。神经网络形成了首次高潮。 1 9 6 0 年w i d o w 和h o f f 提出了自适应线性元件a d a c 圳e 网络模型这是第一个 对实际问题起作用的神经网络。 ? 我国中科院生物物理所在1 9 6 5 年提出用矩阵法描述一些神经网络模型。重点 研究了视觉系统信息传递过程和加工的机理以及建立有关数学模型。 6 0 年代中、后期,g r o s s b e r g 建立了一种神网络结构,他给出了内星( i n s t a r ) 、 外星( o u t s t a t ) 的结构。 3 ) 坚持阶段。m i n s k y 证明了感知器的一些局限性,引发了学术界的争议。 1 9 6 9 年m i n s k y 和p a p e r t 在m i t 出版了一本论著p e r c e r t r o n s ,对当时与感知器 有关的研究及其发展产生了恶劣的影响。 但是仍然有少数天才的具有远见卓识的科学家在坚持不断的研究神经网络理 论,有的科学家在此期间投入到这个领域,带来了新的活力。他们取得了理论上 的一系列重要成果。 h o l l a n d 从1 9 6 0 年开始经过长期探索与实践,建立了遗传算法理论。从而开拓 了神经网络理论的一个新的研究方向。 1 0 山东师范大学硕士学位论文 1 9 7 6 年g r o s s b e r g 提出自适应共振理论( a r t ) 。 w e r b o s 提出了b p 理论即反向传播原理。 等等这些研究成果的影响逐步扩大,坚定的神经网络理论家仍在继续研究,为 掀起第二次高潮作好了准备。 4 ) 第二次高潮阶段。k o h o n e n 提出了自组织映射网络模型。1 9 8 2 年生物物理 学家h o p f i e l d 提出h o p f i e l d 神经网络的神经元模型并向美国科学院提交了关于神 经网络的报告建议收集和重视以前对神经网络所做的许多研究工作,第二次高潮的 序幕拉开了。 h o p f i e l d 于1 9 8 2 年至1 9 8 6 年提出了神经网络集体运算功能的理论框架,随后, 引起许多学者研究h o p f i e l d 网络的热潮,对它作改进、提高、补充、变形等。 1 9 8 3 年k i r k p a t r i c k 等人将模拟退火算法应用于n p 完全组合优化问题的求解。 1 9 8 4 年h i n t o n 等人提出了b o l t z m a n n 机模型。1 9 8 6 年r u m e l h a r t 提出了多层网络 b a c k - p r o p a g a t i o n 法或称e r r o rp r o p a g a t i o n 法,这就是后来著名的b p 算法。 此外,我国系统科学家钱学森在8 0 年代初倡导研究“思维科学”。1 9 8 6 年他主 编的论文集关于思维科学出版,书中有一些神经网络方面的论文。 1 9 8 7 年召开了首届国际神经网络大会,国际神经网络联合会( i n n s ) 宣告成立。 嗣后,i n s s 创办的刊物j o u r n a l n e u r a l n e t w o r k s 问世,还诞生了十几种国际著名的 神经网络学术刊物。 我国学术界大约在8 0 年代中期关注神经网络领域,1 9 8 9 年召开了全国一个非 正式的神经网络会议,1 9 9 0 年我国的八个学会联合在北京召开了神经网络首届学术 大会。 总之,这次高潮吸引了许多科学家来研究神经网络理论,优秀论著,重大成果 如雨后春笋,新生的应用领域受到工程技术人员的极大赞赏。 5 ) 新发展阶段。从神经网络理论的发展史看,它的高潮阶段是很容易度过的。 i j c n n 9 1 大会主席r u m e l h a r t 意识到这一点,在他的开幕词中有一个观点,神经网 络的发展己到了一个转折的时期,它的范围正在不断扩大,其应用领域几乎包括各 山东师范大学硕士学位论文 个方面。半个世纪以来,这门学科的理论和技术基础已达到了一定规模,神经网络 到了新发展阶段,需要不断完善和突破,使其技术和应用得到有力的支持。 2 3 神经网络和语音识别 2 3 1 语音识别技术 语音识别技术主要包括特征提取技术、识别技术两个方面。此外,还涉及到语 音识别单元的选取。 语音识别的过程如下图所示: 图2 - 4 语音识别的过程 】) 语音识别单元的选取【2 4 l 选择识别单元是语音识别研究的第一步。语音识别单元有单词( 句) 、音节和 音素三种,具体选择哪一种,由具体的研究任务决定。 单词单元广泛应用于中小词汇语音识别系统,但不适合大词汇系统,原因在于 模型库太庞大,训练模型任务繁重,模型匹配算法复杂,难以满足实时性要求。 音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而英语是 多音节,并且汉语虽然有大约1 3 0 0 个音节,但若不考虑声调,约有4 0 8 个无调音 1 2 山东师范大学硕士学位论文 节,数量相对较少。因此,对于中、大词汇量汉语语音识别系统来说,以音节为识 别单元基本是可行的。 音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识 别系统也在越来越多地采用。原因在于汉语音节仅由声母( 包括零声母有2 2 个) 和韵母( 共有2 8 个) 构成,且声韵母声学特性相差很大。实际应用中常把声母依 后续韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高了易混淆音节 的区分能力。 2 ) 特征参数提取技术 语音信号中含有丰富的信息,但如何从中提取出对语音识别有用的信息呢? 特 征提取就是完成这项工作,它对语音信号进行分析处理,去除对语音识别无关紧要 的冗余信息,获得影响语音识别的重要信息。对于非特定人语音识别来讲,希望特 征参数尽可能多的反映语义信息,尽量减少说话人的个人信息( 对特定人语音识别 来讲,则相反) 。 线性预测( l p ) 分析技术是目前应用广泛的特征参数提取技术,许多成功的应 用系统都采用基于l p , 技术提取的倒谱参数。但线性预测模型是纯数学模型,没有: 考虑人类听觉系统对语音的处理特点。 m e l 参数p 1 1 1 “l 和基于感知线性预测( p l p ) 分析【1 8 1 提取的感知线性预测倒谱, 在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的一些研究 成果。实验证明,采用这种技术,语音识别系统的性能有一定提高。 小波分析也可以应用于特征提取【5 5 1 。 3 ) 模式匹配及模型训练技术 模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的 模型参数,而模式匹配则是根据一定准则,使未知模式与模型库中的某一个模型获 得最佳匹配。 语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术 ( d t w ) 、隐马尔可夫模型( h m m ) 和人工神经元网络( a n n ) 。 山东师范大学硕十学位论文 d t w 3 那是较早的一种模式匹配和模型训练技术,它应用动态规划方法成功解决 了语音信号特征参数序列比较时时长不等的难题,在孤立词语音识别中获得了良好 性能。但因其不适合连续语音大词汇量语音识别系统,目前已被h m m 模型和a n n 替代。 h m m 模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程 共同描述信号的统计特性,其中一个是隐蔽的( 不可观测的) 具有有限状态的m a r k o r 链,另一个是与m a r k o r 链的每一状态相关联的观察矢量的随机过程( 可观测的) 。 隐蔽m a r k o r 链的特征要靠可观测到的信号特征揭示。这样,语音等时变信号某一 段的特征就由对应状态观察符号的随机过程描述,而信号随时问的变化由隐蔽 m a r k o r 链的转移概率描述。模型参数包括h m m 拓扑结构、状态转移概率及描述观 察符号统计特性的一组随机函数。按照随机函数的特点,h m m 模型可分为离散隐 马尔可夫模型( 采用离散概率密度函数,简称d h m m ) 和连续隐马尔可夫模型f 5 1 ( 采用连续概率密度函数,简称c h m m ) 以及半连续隐马尔可夫模型( s c h m m , 集d h m m 和c h m m 特点) 。 人工神经元网络在语音识别中韵应用是现在研究的又一热点。a n n 本质上是 一个自适应非线性动力学系统,模拟了人类神经元活动的原理,具有自学、联想、 对比、推理和概括能力。这些能力是h m m 模型不具备的。 语音识别技术的研究方向应该是把各种方法的优点有机结合起来,从而可以提 高整个模型的鲁棒性【1 1 】【3 7 1 1 4 3 1 。 2 3 2 神经网络语音识别 神经网络的大量并行运算能力以及可以通过例子学习的特点使得它在语音识 别中广泛应用。 采用神经网络进行语音识别的过程如下图所示: 1 4 山东师范大学硕十学位论文 圈日圉日圈日圈 圈馏馏围镯 图2 5 神经网络语音别的过程示意图 神经网络在语音识别中主要用在参数提取之后的模式识别阶段。语音信号的预 处理可以看作语音特征提取的一个阶段,神经网络学习是语音识别中最为重要的一 个阶段。 多层前向网络【2 7 】是语音识别中使用最多的神经网络模型【1 】,它与1 - i m m 模 型相结合的达到了很好的识别性能 】另外,径向基函数2 4 1 、联想记忆存贮器【4 】、 波尔兹曼机2 4 1 等神经网络模型在语音识别研究中也曾经被采用。时间延迟神经网络 1 1 3 】m 1 和循环神经网络【2 】【4 5 】贝0 是近来常用的神经网络模型。 到目前为止,用于神经网络的模型越来越多,很多模型都是经过一定的相关改 进以适应不同的系统需要1 1 5 l 【2 2 】【2 3 】,更多的则是各种不同的网络模型互相结合起来使 用1 3 2 】【“1 。 山东师范大学硕士学位论文 第3 章特征提取和分析 语音信号特征的提取是语音信号处理( 语音识别,语音合成,语音压缩) 的基 础。本章主要叙述了语音信号特征提取的过程以及每一步骤中所采用的方法技术, 对特征提取过程中的一些问题提出了相应的解决方法。 3 1 特征提取概述 语音信号是冗余度很高的随机信号,在进行语音信号处理( 语音识别、语音合成、 语音压缩) 的时候,必须经过特征提取才能有效地降低信号的冗余度,而语音特征的提 取又是通过对语音信号的分析来获得表征语音信号的参数的。因此表征语音信号参 数的准确性是语音处理正确的保证,而提取的语音特征参数的简洁度又成为能否实 时提取语音特征的关键。 3 1 1 特征提取的过程 语音信号特征提取的过程如下图所示: 圈音圜囤日 圈口圈扫圆圈 图3 1 特征提取过程示慝图 采样和量化就是把语音信号数字化的过程。 端点检测就是语音的首尾判定,主要是提取出有效的语音信号段。 预加重对语音信号进行高频提升。 窗口化对语音信号流进行分帧处理。 l p c 分析即线性预测编码,简写为l p c ,是常用的一种语音特征提取 方法。利用l p c 分析可以从语音信号中抽取出声道特性。 山东师范大学硕士学位论文 倒谱为信号短时振幅谱的对数傅里叶反变换。在语音识别中主要用于提取声道 特征信息和音源信息。 3 1 2 采样量化 采样和量化是对语音信号进行计算机处理的前提,两者是同时进行的。 3 1 2 1 声音信号数字化 声音信号的数字化过程也就是采样和量化的过程。 要想用计算机分析人的语音,就要将话筒中传来的语音信号转换成计算机所能 处理的数字信号。这个从模拟量到数字量的转变过程称模一数变换。现在只要在计 算机上利用声卡再外接一个话筒就可以很容易地将话筒中传来的模拟语音信号采 集成数字信号存入计算机。 、 连续时间的离散化通过采样来实现,就是每隔相等的一小段时间采样一次,这 种采样称为均匀采样;连续幅度的离散化通过量化来实现,就是把信号的强度划分 成- 4 , 段一小段,如果幅度的划分是等间隔的,就称为线性量化,否则就称为非线 性量化 2 8 1 。 声音数字化需要两个方面的两个问题:1 ) 每秒钟需要采集多少个声音样本, 也就是采样频率是多少,2 ) 每个声音样本的比特数应该是多少,也就是量化精度。 3 1 2 2 采样频率 采样频率的高低是根据奈奎斯特理论和声音信号本身的最高频率决定的。奈奎 斯特理论指出,采样频率不应低于声音信号最高频率的两倍,这样就能把以数字表 达的声音无失真地还原成原来的声音,这叫做无损数字化。 根据奈奎斯特采样定理,信号的采样速度只需大于信号带宽两倍以上即可保证 信号的采集不会丢失信息。由于语音信号的能量绝大部分集中在4 k h z 以下的频段 内,因此,语音识别时常用的采样频率为1 0 k h z 或1 6 k h z 。 3 1 2 3 采样精度 样本大小是用每个声音样本的比特( b i t ) 数表示的,它反映度量声音波形幅度 的精度。例如,每个声音样本用1 6 比特( 2 字节) 表示,测得的声音样本值是在o 山东师范大学硕士学位论文 6 5 5 3 6 的范围里,它的精度就是输入信号的1 6 5 5 3 6 。样本比特数的大小影响到声音 的质量,比特数越多,声音的质量越高,而需要的存储空间也越多;比特数越少, 声音的质量越低,需要的存储空间越少。 采样精度的另种表示方法是信号噪声比,简称为信噪比( s i g n a l t o - n o i s e r a t i o , s n r ) ,单位是分贝( d b ) 。信噪比越高声音质量越好【5 4 1 。 3 1 2 4 声音文件存储格式 声音文件格式很多,本文采用的也是比较流行的是以w a y ( w a v e f o r m ) 为扩展名 的文件格式,w a v 格式主要用在p c 上,用w a v 为扩展名的文件格式称为波形文件 格式( w a v e f i l ef o r m a t ) ,它的标准是由i b m 和微软公司于1 9 9 1 年8 月联合开发 的,它是一种为交换多媒体资源而开发的资源交换文件格式,即r i f f ( r e s o u r c e i n t e r c h a n g ef i l ef o r m a t ) 。 波形文件格式支持存储各种采样频率和样本精度的声音数据,并支持声音数据 的压缩。波形文件有许多不同类型的文件构造块组成,其中最主要的两个文件构造 块是f o r m a tc h u n k ( 格式块) 和s o u n dd a t ac h u n k ( 声音数据块) 。格式块包含有描述波 形的重要参数,例如采样频率、样本精度等等,数据块则包含有实的波形声音数据。j 下面是一段语音信号的采样输出的波形图,采样频率1 1 k i - i z ,单声道,样本存 储为1 6 位。 山东师范大学硕士学位论文 图3 - 2 语音信号“再见”的波形围 3 1 3 时域分析 语音信号具有时变性,其中反映声道响应的部分,其变化的随机性很强;另一 部分变化则是受到发音器官的控制,这部分的变化则是相对缓慢的,因而可以把语 音信号分成一段一段来分析,并且假定在每一段内其性质是相对平稳的,也就是假 定它具有短时平稳性,这些段通常称为分析帧,帧长一般取1 0 m s 至3 0 m s 之间,正 是这一特点引出语音信号的短时分析和处理方法。 信号流的分帧是采用可移动的有限长度窗口进行加权的方法来实现的。矩形窗 和h a m m i n g ( 海明) 窗是两种经常使用的窗口函数州。 矩形窗: w ( n )= 海明窗: l 0 n i v 一1 o 其他 9 山东师范大学硕士学位论文 w :n ) = 鬈o s 等胚附一 定义以n 为标志的某帧语音信号的短时平均能量e n ,如下: e 。= eb 如少g m ) 】 2 月 2 = b 如如g 一所) 】 除了短时能量之外,时域分析中另外一个重要的参数就是短时过零率。 过零是指信号通过零值。过零数就是每秒内信号通过零值的次数。对于离散时 间序列,过零则是指序列取样值改变符号,过零数则是指相当每个样本的改变符号 的次数。过零数可以作为信号序列的“频率”的一种简单量度,尤其对于窄带信号列 入正弦序列是很精确的。语音序列是一类宽带的局部平稳信号序列,仍然可以用短 时平均过零数作为粗略估计其频谱性质的参数。 短时平均能量和短时过零率这两个参数常用于语音信号的端点检测和清浊音 检测中。 3 2 端点检测和预加重 3 2 1 端点检测 所谓语音的端点检测,就是语音的首尾判定,它是把一段语音定为有效语音段 的粗判,是进一步进行有效语音段细判和字词分割的基础阱】。 作为进行语音的端点检测的指标量,有好几种可供选择。比较常见的有利用短 时能量或短时过零率来进行判定的,也有利用两者综合判定的。选择指标量的原则 是:一要尽量准确,二要简便易行。两者综合判定可以有两种使用方法。 第一种方法是先用能量阈值取出作为候补用的语音端点 n 1 ,n 2 】,再用过零数阈 值加以修正并获得最终端点i n b ,n e l 。 山东师范大学硕士学位论文 第二种方法基于这样一种考虑:有的音节,帧过零率很小但帧能量却较大:有 的音节,帧能量很小,但帧过零率却很大,不管如何,二者的乘积与无语音段的相 比却大的多。所以可以采用短时能量与短时过零率的乘积作为端点检测的标量,这 个指标量可以称作为能零量。具体做法为:在语音开始前,一旦有某一帧的能零量 超过阈值,就认为有效语音已经开始。在有效语音开始后,只有当有连续的几帧语 音的能零量低于闽值时,才认为有效语音结束。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论