




已阅读5页,还剩52页未读, 继续免费阅读
(系统分析与集成专业论文)孤立词语音识别算法研究及dsp实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
目录 l i i ll lul ii ii lli ii ll l i y 18 9 15 6 7 目录 摘要i a b s t r a c t i i 第一章绪论l 1 1 选题目的及意义。l 1 2 语音识别技术研究现状2 1 2 1 国外研究现状。2 1 2 2 国内研究现状 1 3 语音识别面临的难点4 1 4 研究内容及论文结构 第二章语音信号分析7 2 1 语音信号产生的基本原理。7 2 2 语音信号的预处理8 2 2 1 预滤波 2 2 2 预加重9 2 2 3 分帧与加窗l0 2 3 端点检测。1 2 2 4 本章小结15 第三章语音信号特征参数提取方法研究l6 3 1 线性预测倒谱系数1 6 3 1 1 线性预测的基本原理l6 3 1 2u p c 倒谱1 8 3 2 梅尔频率倒谱系数1 9 3 3 改进的梅尔频率倒谱系数2 l 3 4 本章小结2 2 第四章语音信号的模板匹配与训练算法研究2 4 4 1 动态时间规整算法。2 4 4 1 1 模板匹配。2 4 4 1 2d i w 算法原理2 5 4 2 模板训练2 7 l 南京信息工程大学硕士学位论文 4 3 仿真实验及分析2 8 4 4 语音去噪 4 4 1 谱减法。3 0 4 4 2 改进的谱减法3 l 4 4 3 降噪效果实验及分析3 2 4 5 本章小结3 3 第五章语音识别系统的d s p 实现3 5 5 1t m s 3 2 0 v c 5 4 1 6 硬件开发平台3 5 5 2d s p 集成开发环境c c s 简介3 7 5 3 语音识别算法的d s p 实现3 8 5 3 1d s p 软件设计3 8 5 3 2d s p 实验结果与分析4 0 5 4 本章小结4 2 第六章全文总结4 3 参考文献4 5 致谢4 9 攻读硕士学位期间发表的论文5 0 摘要 摘要 语音识别是语言链中的一环,它研究使机器能准确地听出入的语音内容的问 题。语音识别的最终目的是使计算机能够听懂任何人、任何内容的讲话。在实 际应用中,环境噪声的存在会对识别结果产生很大影响,因此,有必要对噪声 环境下的语音识别进行研究。本论文在分析语音识别的基本理论和算法原理的 基础上,对特征提取及模板训练阶段的算法进行了较为深入的研究,提出了相 应的改进算法,理论分析及仿真实验结果均表明,改进后的算法有效提高了识 别率。 本文所作的主要工作如下: ( 1 ) 介绍了语音识别技术的基本概念,对语音识别技术的研究现状进行了 较为全面的综述,分析了语音识别系统及语音识别面临的难点。 ( 2 ) 系统的分析了语音信号的产生机理,研究了信号的预加重、加窗及端 点检测,并对各步所用算法进行了m a t l a b 仿真。 ( 3 ) 对线性预测倒谱系数和梅尔频率倒谱系数两种特征提取算法进行研 究,并针对梅尔频率倒谱系数在噪声环境中的不足,以提高算法的抗噪性能为 目标,加入了一个比重系数,用于衡量各个频带分量在整体计算中的重要性, 由于考虑到了各频带受噪声影响的情况,改进算法在噪声环境下能取得更好的 效果。 ( 4 ) 提出了基于平均路径长度的模板训练方法,即采用少量样本,通过计 算平均路径长度得到参考模板。该算法与使用单个样本训练的算法相比,提高 了识别率及鲁棒性,同时相对于需要使用大量样本的矢量量化( v q ) 技术,只 需较少的训练样本,降低了算法的复杂度。 考虑到噪声影响,研究分析了一种改进的谱减法,仿真结果表明,算法有 效起到了降噪作用。 ( 5 ) 在t m s 3 2 0 v c 5 4 1 6d s p 处理器上实现语音识别算法。在集成开发环境 c c s 中,用c 语言编写代码,通过调试实现了基于m f c c 和d t w 的语音识别算法。 关键词:语音识别,m f c c ,d t w ,平均路径长度,d s p 南京信息工程大学硕士学位论文 a b s t r a c t s p e e c hr e c o g n i t i o ni sap a r to f t h el a n g u a g ec h a i n , w h i c hi st h es t u d yo f t h e m a c h i n ec a na c c u r a t e l yi d e n t i f yt h ev o i c ec o n t e n to f t h ep e r s o n t h eu l t i m a t eg o a lo f s p e e c hr e c o g n i t i o ni s t om a k ec o m p u t e r su n d e r s t a n d a n yp e r s o n , a n y c o n t e n t o fs p e e c h w i t ht h ei n c r e a s i n ga p p l i c a t i o nr e q u i r e m e n t s ,t h er e c o g n i t i o nr a t ea n d r o b u s l i l e s so ft h el r a d i t i o n a ls p e e c hr e c o g n i t i o na l g o r i t h m sa 托n o ts a t i s f a c t o r y t h i sp a p e r a n a l y z e st h e b a s i c t h e o r y a n d a l g o r i t h m s o fs p e e c hr e c o g n i t i o n , w ec o n d u c t e di n - d e p t hs t u d yo f t h et h e o r yo ff e a t u r ee x t r a c t i o na n dt e m p l a t et r a i n i n g , t h es i m u l a t i o nr e s u l ts h o w st h a tc o m p a r e sw i t ht h et r a d i t i o na l g o r i t h m , t h ei i c w a l g o r i t h mi m p r o v e st h er e c o g n i t i o na c c u r a c y t h em a i n j o b so f t h i st h e s i sa 北f o l l o w s : ( 1 ) i n t r o d u c e st h eb a s i cc o n c e p t so f s p e e c hr e c o g n i t i o nt e c h n o l o g y t h es t a t u s o f s p e e c hr e c o g n i t i o nt e c h n o l o g y a r ed e s c r i b e da n dt h ed i f f i c u l t i e so fs p e e c h r e c o g n i t i o na r ea n a l y z e d ( 2 ) t h eg e n e r a t i o no fs p e e c hr e c o g n i t i o na n dt h es p e e c hr e c o g n i t i o ns y s t e ma l e s y s t e m a t i ca n a l y z e d t h i sp a p e rr e s e a r c h e st h ep r e e m p h a s i s ,a d dw i n d o w a n dv o i c e d e t e c t i o no fs p e e c hr e c o g n i t i o n ,t h ep r o c e s s e s 剐呛p e r f o r m e dw i t hm a t l a b ( 3 ) l p c ca n dm f c c a l er e s e a r c h e d b e c a u s eo ft h ed e f i c i e n c yo ft h et r a d i t i o n a l g o r i t h mi nn o i s ye n v i r o n m e n t , t h i sp a p e rp r o p o s e da ni m p r o v e da l g o r i t h mw h i e l a c a l li m p r o v e st h er e c o g n i t i o na c c u r a c ya n dt h er o b u s t n e s sf o rc o n s i d e r i n gt h en o i s e c o r r u p t i o no f e a c hs u b - b a n db ya d d i n gaw e i g h tc o e f f i c i e n t ( 4 ) at e c h n i q u ef o rp r e p a r i n gr e f e r e n c et e m p l a t e sa 他p r o p o s e d ,t h ed e v e l o p e d t e c h n i q u ei m p r o v e dw a yf o rp r e p a r i n gr e f e r e n c et e m p l a t e s t h i st e c h n i q u ee x t r a c t s t h er e f e r e n c et e m p l a t ef r o mas e to fe x a m p l e sb yc o m p u t i n gt h ea v e r a g el e n g t h , t h e s i m u l a t i o nr e s u l t ss h o wt h a tc o m p a r e d 诵t hu s i n gas i n g l er e f e r e n c et e m p l a t e ,t h i s t e c h n i q u ei m p r o v e st h er e c o g n i t i o na c c u r a c ya n dt h er o b u s t l l e s s b e s i d e s ,c o m p a r e d w i t ht h ev q ,i tn e e d sf e w e re x a m p l e sa n dr e d u c e st h ec o m p l e x i t yo ft h ea l g o r i t h m t h ee x p e r i m e n t sg e tf i n ei d e n t i f i c a t i o ne f f e c t c o n s i d e r i n gt h en o i s ei n f l u e n c e ,锄i m p r o v e ds p e c t r a ls u b t r a c t i o nm e t h o di s 摘要 r e s e a r c h e da n da n a l y z e d t h es i m u l a t i o nr e s u l t ss h o wt h a tt h ea l g o r i t h mr e d u c e st h e n o i s ee f f e c t ( 5 ) s p e e c hr e c o g n i t i o na l g o r i t h mi si m p l e m e n t e db yt h et m s 3 2 0 v c 5 4 16d s e a l g o r i t h m c o d ew a s c o m p i l e d w i t hcl a n g u a g ei ni n t e g r a t e d d e v e l o p m e n t e n v i r o n m e n t ( c c s ) ,t h ea l g o r i t h mc o d ew a si m p l e m e n t e db ys i m u l a t i n g a n d d e b u g g i n g t h es i m u l a t i o nr e s u l tp r o v e st h ee f f e c t i v e n e s so f t h es p e e c hr e c o g n i t i o n a l g o r i t h mi m p l e m e n t a t i o nb yd s e k e yw o r d s :s p e e c hr e c o g n i t i o n , m f c c ,d t w , a v e r a g el e n g t h , d s p m 第一章绪论 1 1 选题目的及意义 第一章绪论 语音是人类相互间进行通信的最自然和最简洁方便的形式,语音通信是一种理想的人 机通信方式。语音通信的研究涉及到人工智能、数字信号处理、微型计算机技术、语言声 学、语言学等许多科学领域,所以说语音通信是一个多学科的综合性研究领域,其研究成 果具有重要的学术价值和应用价值。另外通过语音来传递信息是人类最重要、最有效、最 常用的交换信息的形式。语言是人类特有的功能,声音是人类常用的工具,是相互传递信 息的主要手段,同时也是人们构成思想交流和感情沟通的最主要的途径。 现在,人类已经进入了信息化时代,利用现代手段研究处理技术,使人们能够更加有 效的产生、传输、储存、获取、应用语音信息,这对于促进社会发展、提高人们生活水平 有着十分重要的意义。让计算机能“听懂”和处理人类的语言,是自计算机诞生以来人们 梦寐以求的想法。在不远的将来,语音识别技术有可能作为一种重要的人机交互手段,辅 助甚至取代传统的键盘、鼠标等输入设备,在个人计算机上进行文字录入和操作控制。而 在智能家电、手持式p d a 、工业现场控制等应用场合,语音识别技术则有更加广阔的发展 前景。尤其是在包括p d a 、手机等掌上型嵌入式系统中,键盘的存在已大大妨碍了系统的 小型化,然而这些系统越来越趋向于智能化和信息化,不仅可以显示大量的文字和图形, 还需要提供方便的文字输入能力,因此,传统的键盘输入方式已经不能胜任,而语音识别 技术就是一种极富潜力的替代手段【1 1 。 作为- - f - j 综合学科,语音识别以语音为研究对象,是语音信号处理中的一个重要研究 方向,是模式识别的一个分支,并且还涉及到语言学、心理学、生理学、计算机科学、以 及信号处理等许多领域,其最终目标是实现人和机器之间自然的语言通讯。语音信号处理 技术作为高科技应用领域中的研究热点,目前在理论的研究和产品的开发上都已取得了长 足进步,它正直接的与金融、公安、办公、旅游、交通、商业、工业生产、以及医疗卫生 与福利事业等各种实际应用领域相互联系接轨,并有望成为下一代操作系统与应用程序的 用户界面。如今,语音识别的相关产品不仅在人机交互中所占的市场比例越来越大,而且 在许多领域中都了广阔的应用前景,在人们的社会生活中起着举足轻重的作用。 南京信息工程大学硕士学位论文 1 2 语音识别技术研究现状 1 2 1 国外研究现状 语音识别的研究工作可以追溯到2 0 世纪5 0 年代,a t & t 贝尔实验室的a u d r y 系统是 第一个能够识别十个英文数字的语音识别系统,它也标志着语音识别研究工作的真正开始。 在文献【2 2 】中,i t a k u r a 将线性预测编码( l i n e a rp r e d i c t i v ec o d i n 吕l p c ) 扩展到了语音 识别技术中。文中给出了一个通过最小预测偏差来识别的特定人孤立词系统,将线性预测 系数作为待识别的参考模板,根据最小预测偏差对输入信号进行识别。系统使用d d p - 5 1 6 计算机进行2 0 0 个词的识别实验,采用电话输入的指定男性语音,识别率达到9 7 3 。 同时,a t & tb e l l 实验室开始分析不同人之间语音的可变性,并广泛地研究了与说话 人无关的语音识别技术。r a b i n e r 和w i l p o n 等人在文献 2 】中对大量数据采用聚类分析而得 到模板,对未知单词采用线性预测分析和动态时间规整技术,降低了出错的概率。 文献【3 】将隐马尔科夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 应用在了语音识别中,h m m 由b a t u n 和p e t r i e 提出,到7 0 年代开始应用于语音识别中,但一直到r a b i n e r 等人在8 0 年 代对 删m 系统介绍后才得到广泛研究。文中分析了h m m 理论的实用点,指出了该理论 在语音识别中应用时存在的问题,识别过程中运用待识别语音序列与h m m 参数之间的似 然概率达到最大值所对应的最佳状态序列作为识别输出。将统计模型应用在识别中,是个 突破性进展。 文献【4 】中,$ a k o e 等人提出了一种动态规划神经网络( d y n a m i c 脚o g r m m i n gn e u r a l n e t w o r k ,d n n ) 。该网络利用动态规划方法进行时间规整,并利用反向传播算法来分析频 谱的变化。文中描述了一种基于神经网络模型的独立人语音识别系统,即d n n ,它是多层 神经网络和动态规划技术的融合。 文献【5 】中提出的$ o m 成功用于声控打字机。$ o m 最初是用来对静态模式分类,为了 包含信号随时间变化的动态信息,i c a i r i l g a s 提出了响应积成模型和模式并置模型。虽然神经 网络克服了 m 订中许多不足,但由于单独使用神经网络并没有达到比h m m 更好的识别 效果,因此h m m 仍为目前语音识别的主流技术。 文献 6 - 9 提出了贝叶斯网,贝叶斯网是模式识别模型图式结构的一种,它能更好的开 发随机变量之间的概率关系,z w e i g 将其拓展为动态贝叶斯网【l o 】,从而能够更好的描述语 音信号的时域动态特性,可以把动态贝叶斯网看成一种在h m m 基础上更为宽泛的统计模 型。在应用研究上,动态贝叶斯网可以自适应的描述语言识别的要求。 2 第一章绪论 文献【l l - 1 3 】提出了随机轨道模型,通过计算倒谱和动态倒谱系数之间的关系,求出音 轨可能达到的最大值,从而由隐马尔科夫模型生成音轨。在h m m 中声学特征参数被建模 为观测独立,而随机轨迹模型则考虑了语音信号观测的时域相关性。 文献【1 4 】和文献 1 7 1 提出了一种多空间隐马尔科夫模型( m u l t is p a c ed i s m b u t i o nh m m , m s d - h m m ) 进行隐含的声调建模时,声调特征包含在浊音段的声学特征中,而声调模型隐 含在声学模型中。由于声调只存在于各个音节的浊音段,不存在基音频率的清音段,因此 需要对这种不连续做特殊处理。作者提出的方法利用不同的特征空间来刻画基音频率存在 或者缺失的情况下h m m 模型的概率输出密度函数,有效解决了这个问题 文献【1 5 】提出了阵列信号处理的方法。在噪声及有回声的环境中定位移动声源一直是 个难题,本文提出了一种基于3 dv i t e r b i 搜索的语音识别算法,为完成3 dv i t e r b i 搜索,语 音识别和声源定位将在同一个数据框架中完成。在实时环境中进行的实验结果表明,新算 法大幅度提高了识别能力。 文献 1 8 1 结合了显示声调模型和隐式声调模型。首先利用隐式建模方法得到格( 1 a t t i c e ) 输出,进而利用改进的声调模型进行二次解码而得到更精确的识别结果。用隐式声调方法 产生的l a t t i c e 结构能够去掉更多的错误识别假设,更能将争取的识别结果包含在l a t t i c e 的 搜索空间里,然后利用具有超音段特性的声调模型进行二次解码就能获得更好的识别结果。 随着语音识别技术的不断成熟,并开始向市场提供产品,许多发达国家开始都为语音 识别系统的实用化开发研究加大投人。m m 推出的v i a v o i c e 系统标志着非特定人大词景连 续语音识别的实用化,以及剑桥大学的h t k ( h m m t o o l k i t ) 系统t 阍,这些系统代表了目前语 音识别技术的最高水平。 1 2 2 国内研究现状 我国的语音识别技术起步较晚,但近年来发展很快。研究水平也从实验室逐渐走向实 用。在我国的8 6 3 计划中,语音识别的研究得到大力支持。目前,我国的语音识别技术研 究水平已经与国外基本同步,对于汉语语音识别技术,除了达到国际先进水平,还有自身 的特点与优势。 文献【1 9 】为解决双语混合现象及减少统计建模所需的数据量,通过音素混合聚类方法 建立起一个统一的双语识别系统。在聚类算法中,提出了一种新型的基于混淆矩阵的两边 音素聚类算法,并将该方法和传统的基于声学似然度准则的聚类方法比较;针对双语语音 中非母语语音识别性能较低的问题,提出一种新型的双语模型修正算法,可用于提高母语 3 南京信息工程大学硕士学位论文 语音的识别性能。 文献c 拍】提出了在提取参数过程中用不同的感知规整因子对不同人的参数进行归一化, 从而实现在非特定人语音识别中对不同人的归一化处理。感知规整因子是基于声门上和声 门下的耦合作用产生声门下共鸣频率来估算的,和采用声道第三共振峰作为基准频率的方 法相比较,它能够较多的滤除语义信息的影响,可以更好的体现说话人的个性特征。 文献【2 l 】研究了一种基于卷积盲分离算法与m f c c o e l - f r e q u e n c yc e p s t r a lc o e f f i c i e n t ) 特征相结合的噪声鲁棒语音识别方法。在预处理阶段,首先计算预白化观测数据的多阶自相 关协方差矩阵,从而获得多时延处理的二阶解相关统计信息。再用得到的二阶统计信息构建 两个对称正定矩阵,通过一系列变换得到唯一存在的矩阵,可根据此矩阵估算语音信号并且 提m f c c 特征参数用于后续识别。 语音识别是一项综合技术,经过几十年的发展,表现出了巨大的应用前景。随着语音 识别技术几年来逐渐向互联网、移动通讯等领域,以及各种手持设备,如娱乐系统、车载 g p s 定位系统等硬件领域渗透,可供其施展的舞台日益宽广。它正迅速成为一个具有竞争 力的关键技术,必将改变未来人们的生活。 1 3 语音识别面临的难点 语音识别系统本质上是一种模式识别系统包括特征提取、模式匹配、参考模式库等 三个基本单元。语音识别系统的基本结构如图1 - 1 所示。 图1 - 1 语音识别系统 未知( 待识别) 语音经过话筒变换成电信号( 即语音信号) 后加在识别系统的输入端, 首先经过预处理,然后根据人的语音特点建立语音模型,分析输入的语音信号,并抽取所 需特征,从而建立语音识别所需的模板。在识别过程中,根据语音识别的模型,计算机将 对已存放好的语音模板和输入的语音信号的特征进行比较,根据一定的搜索和匹配策略, 找出一系列最优的与输入语音匹配的模板。而这种最优的结果与特征的选择、语音模型的 好坏、模板是否准确都有很大的关系口13 2 1 。 4 第一章绪论 作为一项复杂的技术,语音识别技术距离大规模的应用还有一定距离,尽管各种产品 层出不穷,但和语音识别的最终目标依然有定的距离。人类对语音信号有着难以置信的 分辨与学习能力:并且,我们会依赖己有的知识背景对语音信号进行判断及处理,而这些 都是目前计算机所不具备的能力。因此,相对人类而言,计算机对语音的处理距离理想状 态还很远。结合汉语语音识别的特点,语音识别的难点主要表现为以下几个方面田l : ( 1 ) 语音信号的声学特征随着与之前后相连的语音的不同而有很大的变化,并且连续 语音流中各语音单位之间不存在明显的界限。 ( 2 ) 几乎没有两个语音是完全一样的。由于性别、年龄、声带等多种因素的不同,同 样内容的发音也存在很大差异;并且情绪和环境影响也会使发音发生改变。而即使是同一 个人用同样的语气说的同样的话,也不可能完全一样。因此,语音识别系统的适应性远无 法与人类本身相比。 ( 3 ) 环境噪声和传输设备的差异也会直接影响语音特征的提取。所以,鲁棒性也就成 为了语音识别系统能否更好的应用于实际的关键因素。 ( 4 ) 一个语句所表达的意思与上下文内容、说话时的环境条件及文化背景等因素有关, 而语句的语法结构又是多变的,并且语境信息几乎是计算机识别无法利用的,这些都给语 义的理解带来了很大困难。 ( 5 ) 地方口音在汉语中十分常见,因此不能忽略方言的影响,所以建立适应性强的语 音识别系统成为一个很有意义的方向。 实现小词汇量语音识别系统最可靠是孤立词语音识别。虽然孤立词语音识别相比其他 类型的语音识别更加成熟完善,基本能够达到使用要求,但在实际的应用环境中,仍然存 在一些因素会降低其识别率,孤立词语音识别的难点问题如下 2 4 冽: ( 1 ) 同一发音信号的随机性变化 ( 2 ) 噪声问题 ( 3 ) 端点检测 即使在安静环境下,语音识别系统的很大一部分错误都来自端点检测,而提高端点检 测技术关键在于找到稳定的语音参数。 ( 4 ) 环境影响 发音时,室内环境对声音的能量存在很大的影响。 ( 5 ) 词与词的特征空间混叠 语音识别的常规方法是利用短时平稳特性将采样信号分为若干帧,计算每一帧的相应 5 南京信息工程大学硕士学位论文 特征矢量,而后得到该帧语音的特征矢量序列瞄1 。但从这些矢量的空间分布上看,许多不 同词语的矢量序列在特定的空间存在混叠现象。要克服这个问题,首先要基本准确的找到 发音者发音的短时周期,尽量使用合理的特征,还要充分利用特征序列的时序特征。 1 4 研究内容及论文结构 本文在对语音信号进行分析的基础上,对线性预测编码倒谱系数l p c c 与梅尔倒谱系 数m f c c 进行了详细分析,并对m f c c 的求取过程及模板训练过程进行了改进。同时,根 据系统需求,选择d t w 为识别算法。分别对传统算法与改进算法进行了仿真实验,进行 了比较。最后,对语音识别系统进行了d s p 实现。全文共分六章,研究内容安排如下: 第一章:绪论。主要介绍语音识别的研究背景和意义,就目前国内外在这一领域的研 究现状进行了综述,在对语音识别系统进行分析的基础上,阐述了语音识别面临的问题。 并介绍了本文的研究内容和结构安排。 第二章:介绍了语音信号产生的基本原理,对系统的预加重、分帧加窗及端点检测过 程进行了详细的分析,通过性能比对,选取汉明窗为窗函数,并对各部分算法进行了 m a t l a b 仿真。 第三章:对比分析了l p c c 和m f c c 两种特征向量提取算法,并针对梅尔频率倒谱系 数在噪声环境中的不足,提出了改进方法,加入了一个比重系数,用于衡量各个频带分量 在整体计算中的重要性,由于考虑到了各频带受噪声影响的情况,改进算法在噪声环境下 能取得更好的效果。 第四章:介绍了动态时间规整算法。在对算法进行详细分析的基础上,提出了一种基 于平均路径长度的模板训练方法,即采用少量样本,通过计算平均路径长度得到参考模板。 该算法与使用单个样本训练的算法相比,提高了识别率及鲁棒性,同时相对于需要使用大 量样本的矢量量化( v q ) 技术,只需较少的训练样本,降低了算法的复杂度。并通过仿真 实验说明方法的有效性。 考虑到噪声影响,分析了一种改进的谱减法,并通过实验验证算法的降噪效果。 第五章:语音识别系统的d s p 实现。介绍了d s p 芯片的结构、特点以及片内存储器; d s p 集成开发环境c c s 。最后在d s p 上实现语音识别系统。 第六章:全文总结。论文工作总结以及需进一步研究的内容。 6 第二章语音信号分析 第二章语音信号分析 按说话人的讲话方式,语音识别可分为孤立词识别、连接词识别和连续语音识别。不 同的语音识别系统,虽然实现时细节有所不同,但识别过程相似。本文研究采用特定人孤 立词语音识别系统,系统结构如图1 - 1 所示。 2 1 语音信号产生的基本原理 人类产生语音的发音器官自下而上:肺部、气管、喉、咽、鼻腔、口腔和上、下唇, 它们作为整体形成了一个连续的管道。在发音过程中,肺部和相连的肌肉相当于声道系统 的激励源。当声道处于收紧状态时,流经的气流使声道振动,这时产生的声音称为浊音, 不伴有声带振动的音称为清音。当声道处于放松状态时,有两种发声方式;一种是通过舌 头,在声道某一部分形成狭窄部位,当气流经过此处时会产生湍流,形成摩擦音。另一种 是声带处于松懈状态,利用舌头和嘴唇关闭声道,暂时阻止气流,当气流压力升高时,突 然放开舌和屠,气流被突然释放,形成爆破音叨。 根据语音信号的产生机理,可以模拟语音信号的发生系统。语音生成系统可分为三个 部分,分别为:激励系统,声道系统和辐射系统【勰l 。这个过程可以用一个时变线性系统来 模拟,如图2 - 1 所示。 图2 一l 语音信号产生的离散系统模型 ( 1 ) 激励模型 激励模型一般分成浊音激励和清音激励来讨论。浊音波形类似于斜三角型的脉冲,它 的数学表达式为嘲: 7 南京信息工程大学硕士学位论文 阻堋s ( 删l 】 怄以l g ( 帕= c o s 【万伽一m ) 2 2 】m 刀m + 2 ( 2 1 ) 1 0其他 【 而清音信号是由一个白噪声序列激励一个线性系统而产生的输出,在时间或幅值上为 均匀分布的序列。 ( 2 ) 声道模型 目前常用的有两种声道建模方法。一是。声管模型”,把声道视为由许多等长的不同 截面积的管子串联而成的系统。另一种是把声道视为一个谐振腔,称为“共振峰模型”。 一般采用级联型共振峰的全极点模型: y ( z ) = 品一 ( 2 2 ) 、“7 1 一y g t z _ j 一 七= l ( 3 ) 辐射模型 从声道模型输出的是速度波u ( 刀) ,而语音信号是声压波y ( 刀) ,二者之倒比称为辐射 阻抗,其z 变换为r ( z ) 。 综上所述,语音信号的数学模型可表示为: 日( z ) = 彳u ( z ) y ( z ) 尺( z ) ( 2 3 ) 其中u ( z ) 为激励信号。 根据对语音信号的研究,其特性是随时间而变化的,所以它是一个非稳态过程。但从 另一方面看,虽然语音信号具有时变特性,但不同的语音是由人的口腔肌肉运动构成声道 的某种形状而产生的响应,而这种肌肉运动频率相对于语音频率来说是较缓慢的,因而在 一个短时时间范围内,其特性基本保持不变,即相对稳定,所以可以将其看作是一个准稳 态过程。因此,对语音信号的分析和处理必须建立在。短时”的基础上,即进行“短时分 析”踟。将语音信号分成一段一段分析,其中每一段称为。一帧”。语音信号通常在i o n s 一3 0 m s 内保持相对平稳,因此帧长一般取l o m s 一3 0 m s 。 为了便于对语音信号进行分析,以下所有的分析及处理都是在语音信号短时平稳这个 假设条件下进行的。 2 2 语音信号的预处理 对语音信号进行分析处理之前,需要对其进行预处理,预处理包括预滤波、预加重、 加窗分帧。语音识别率的高低,很大程度上取决于信号预处理的准确性。 8 第二章语音信号分析 2 2 1 预滤波 语音信号数字化之前,要进行预滤波,即进行防混叠滤波和防工频干扰滤波: ( 1 ) 防混叠滤波指滤除高于1 2 采样频率的信号成分或噪声,使信号带宽限制在某个 范围内,否则,如果采样率不满足采样定理,会产生频谱混叠,信号中的高频成分将产生 失真。 ( 2 ) 工频干扰指5 0 1 4 _ z 的电源干扰。系统上电后,会产生一个固定的5 0 1 - i z 的电源干扰, 这是系统所不需要的,因此预滤波使用的是一个下截止频率大于等于5 0 h z 的带通滤波器, 上截止频率需定义,本系统定为8 0 0 0 h z 。 2 2 2 预加重 预加重是为了提高语音信号中的高频成分。语音信号的平均功率受声门激励与口鼻辐 射的影响,超过8 0 0 h z 的高频段按6 d b 倍频跌落。因此求取频谱时,频率越高相应的成分越 小,高频部分的频谱更加难以辨认,所以要通过预加重来提升高频部分,使信号频谱总体 变的平坦,保持在整个频带中能用相同的信噪比求频群3 3 】。方法是将语音信号通过一个高 通滤波器。这里采用一个一阶数字滤波器: 日( z ) = 1 一z 一1( 2 4 ) 式中的取值通常为o 9 卸9 8 ,这里对的值分别取0 9 3 8 和0 9 8 ,预加重后可以看到,当 取0 9 3 8 时,信号低频部分减弱的更加明显,信号整体频谱更平坦,而这也正是预加重的主 要目的,因此,本系统取的值为0 9 3 8 。滤波器的频谱图如图2 2 所示。语音信号预加重 前后的频谱如图2 - 3 所示。 _ ,_ 一 7 z 厂 l 图2 吃预加重滤波器 9 南京信息工程大学硕士学位论文 以h k w 1v yv r 、融仁q v p ,卜产 、门厂矿 v y 2 2 3 分帧与加窗 翔搴卅2 图2 3 语音信号预加重前后频谱 在对语音信号预加重滤波后,接下来要进行分帧加窗处理。前文已注明,本文所有的 分析都是建立在语音信号短时平稳这个前提下的,为了得到短时信号,就要对语音信号进 行加窗操作晔l 。窗函数平滑的在语音信号上滑动,将语音信号分成帧。分帧可以连续,也 可以交叠分段,交叠部分称为帧移,通常为帧长的l ,2 或1 :3 ,本文设计取1 3 。 实际分帧就是用可移动的有限长度的窗口进行加权来实现的,即用一定的窗函数乘上 语音信号口卯。加窗时,不同的窗口选择将影响语音信号的分析结果。选择窗函数主要考虑 以下两点: ( 1 ) 窗函数形状 常用的窗函数有矩形窗和汉明窗。矩形窗为: 以功= 乏怄髫。 眨5 , 汉明窗为: w = o 5 4 乩4 锄警删。0 髫。1 眩6 , 式中,n 为窗口长度。 虽然这些窗函数的频率响应都具有低通特性,但不同的窗函数形状将影响分帧后短时 特征的特性。比较图2 _ 4 和图2 - 5 ,可以看出,矩形窗的主瓣宽度小于汉明窗,但是矩形 窗的旁瓣峰值较大,因此频谱泄漏比较严重。汉明窗旁瓣衰减较大,具有更平滑的低通特 1 0 第二章语音信号分析 性,能够较好的反映短时信号的频率特性。矩形窗和汉明窗的窗函数性能如表2 - 1 所示。 表2 - i 矩形窗和汉明窗性能 窗类型 主瓣宽度旁瓣峰值最小阻带衰减 矩形窗 4 丌n一1 3_ 2 1 汉明窗8 靠n一4153 ( 2 ) 窗函数长度 窗函数的长度决定了其能否反映语音信号的幅度变化。如果窗口长度n 过大,即等于 几个基音周期量级,此时窗函数等效于很窄的低通滤波器,信号短时信息将缓慢变化,不 能充分反映波形变化的细节;如果n 过小,滤波器通带变宽,则不能得到较为平滑的短时 信息。 通常认为在一个语音帧内,含有l - 7 个基音周期。但不同人的基音周期变化范围很大, 从女性或儿童的2 m s 到很低音调男性的2 5 m s 。为避免相邻语音变化过大,一般让两帧数据 间有重叠区域p q 。综合分析,本文的分帧函数采用汉明窗,每帧语音信号取3 2 m s ,帧移为 l o m s 。图2 - 6 为语音信号中国第3 0 帧加汉明窗前后的波形变化。 蜒形亩时t 渣韶螺韶亩粗址垃籀 图2 _ 4 矩形窗时域和频域波形 汲啊膏时墟波弗扳啊亩撕蛾嫒形 图2 - 5 汉明窗时域和频域波形 l l 南京信息工程大学硕士学位论文 1 0 5 螽 。 馨 扣5 1 2 3 端点检测 婚楚h o 。蛩k 蕊一a 八 v 附 k ,。t ,- v 01 0 01卯22如 采样点n 图2 - 6 一帧语音信号加汉明窗前后波形 在实际应用中,环境噪声会对语音识别系统的稳定性产生严重的影响,大大降低系统 的识别性能,因此,找出每个词的信号范围十分重要。在孤立词语音识别系统中,正确判 定输入语音的起点和终点是是完成最终识别必不可少的步骤。不同性质语音的各种短时参 数具有不同的概率密度函数,并且相邻的若干帧语音具有一致的语音特性,它们不会在无 声、清音和浊音之间随机的跳动3 7 1 。 本文采用短时平均能量和短时平均过零率来进行语音信号的端点检测: ( 1 ) 短时平均能量 语音信号的能量随时间变化比较明显,一般清音部分的能量比浊音部分小的多。短时 能量分析合理反映了这些幅度变化。短时能量定义如下嗍: e = 【x ( 七) “刀一七) 】2 ( 2 7 ) 其中x ( 七) 为输入信号,畎刀) 表示窗函数。 短时能量由于对信号进行了平方运算,增加了高低信号之间的差距针对这一点,可 以采用短时平均幅度来表示能量的变化,公式如下: m ( 刀) = i x ( 七) 纵n - k ) ( 2 8 ) l 罩- - 用加窗后信号的绝对值之和代替平方和,简化了运算。短时平均幅度的实现如图2 - 7 所示 1 2 第二章语音信号分析 图2 - 7 短时平均幅度 ( 2 ) 短时平均过零率 短时平均过零率是语音信号时域分析中的一种特征。对于连续信号,可以考察其时域 波形通过时间轴的情况;对于离散信号,过零率就是信号采样点符号变化的次数。当离散 时间信号相邻的两个数据正负号异号时,就称之为。过零”。短时平均过零率的公式为 2 7 1 : z := is g n x ( n ) 一s g n x ( n 1 ) 】1w ( n k ) ( 2 9 ) 式中,s g n 】是符号函数,即 帅眯,浆三 位t 。; 为避免低频干扰,可设立一个门限,将过零率的含义修改为跨过正负门限的次数,如 下式: 2 := i 踺妒【】d 一刀一s g n x ( k 1 ) 一t i + 1s g n x ( k ) + t 一s g n k 1 ) + 刀i 如砌一d ( 2 1 1 ) 公式( 2 1 1 ) 增强了短时平均过零率的抗干扰能力,即使存在小的随机噪声,只要不超过 正负门限构成的带,就不会产生虚假过零率 3 9 1 。 端点检测时,首先根据短时能量进行初步判断,此时对终点的检测已比较准确,但由 于大多数声母是清声母,它的能量相当弱,依靠能量无法讲其与无声段区分开,所以在进 行起点检测时,很难仅仅通过短时能量进行判断。但对于清辅音而言,它的过零率明显高 于无声段,所以可以根据短时过零率进一步准确检测。 倒 毫 初始信号 i ! l 一一。 。 - ii 飞咿: l t 时间t 能量圜 :八一卜7 、:1 帧序列n 过零率囹 帧序列n 图2 - 8 初始语音的端点检测结果 1 3 碍算捌 南京信息工程大学硕士学位论文 首先对初始的纯净语音进行端点检测,得到如图2 8 所示的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 粮食作物栽培工三级安全教育(公司级)考核试卷及答案
- 非织造布卷绕分切工技能操作考核试卷及答案
- 建筑房子外观改造方案设计
- 中职物流管理专业课程体系建设
- 七年级生物上册 第二单元 第一章 第一节《练习使用显微镜》说课稿 (新版)新人教版
- 增城成人健康咨询方案
- 核电站施工成本效益分析报告
- 急救站考试题目及答案解析
- 第13章 土壤里的生物教学设计-2025-2026学年初中生物学苏科版七年级下册-苏科版
- 2023年教育行业薪酬调查报告
- 模具凸凹模工艺文件工序卡
- 麻醉科降低围术期低体温PDCA
- GB 42590-2023民用无人驾驶航空器系统安全要求
- 《精神科护理学》练习题及答案
- 护士执业注册体检表
- 直升机结构与系统版
- 新生儿疾病诊疗规范诊疗指南诊疗常规2022版
- 外科学 胃十二指肠疾病
- 《智能投顾 大数据智能驱动投顾创新》读书笔记思维导图
- 职工自愿放弃社会保险协议
- 高中英语Unit5Firstaid文章BasicFirstAid人教版必修五
评论
0/150
提交评论