




已阅读5页,还剩68页未读, 继续免费阅读
(通信与信息系统专业论文)小词汇量非特定人的孤立词语音识别系统研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
小词汇量非特定人的孤立词语音 识别系统研究 学位论文完成日期: 指导教师签字: 答辩委员会成员签字: | | i i iiii ii i 11 1 1 1 11 1111i 18 2 7 9 12 霉罅 兰 篓 独创声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含未获得 l 注! 麴遗直墓丝盏蔓挂型虚明的:奎拦亘窒2 或其他教育机构的学位或证书使 用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,有权保留并 向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人 授权学校可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用 影印、缩印或扫描等复制手段保存、汇编学位论文。同时授权中国科学技术信息 研究所将本学位论文收录到中国学位论文全文数据库,并通过网络向社会公 众提供信息服务。( 保密的学位论文在解密后适用本授权书) 学位论文作者签名 签字日期:x 矽年岁月父妇 聊搏枷 签字日期:) 驴年占月日 小词汇量非特定人的孤立词语音识别系统研究 摘要 语音识别是一门交叉学科,涉及数字信号处理、人工智能、计算机科学和数 学模型等许多学科领域,它是目前发展最为迅速的信息研究领域之一。随着人们 的需求以及嵌入式芯片和移动终端设备等技术的不断发展,使得语音识别系统, 尤其是非特定人的孤立词语音识别系统,越来越多的应用到我们的日常生活中 ( 比如手机的语音拨号,汽车上的语音导航等) ,为我们带来了极大的便利。 本文针对小词汇量、非特定人的孤立词语音识别进行了深入研究,主要的工 作包括: 提出了一种基于短时平均幅度增量和短时平均过零率的语音端点检测方法, 该方法利用语音的短时幅度的连续上升做出第一级判决,以短时平均过零率为特 征做出第二级判决。实验结果表明,在信噪比理想的情况下,该方法准确,简单, 可靠。 研究了语音识别中的几种特征提取算法:基于人的发音模型的线性预测系数 ( l p c ) 、线性预测倒谱系数( l p c c ) 和基于人耳听觉特性的梅尔频率倒谱系数 ( m f c c ) ,并且列出了几种提高梅尔频率倒谱系数性能的方法。针对孤立词语音识 别,本文研究了动态时间规整( d t w ) 和隐马尔科夫模型( h m m ) 算法。对于d t w 算法, 介绍了动态规划( d p ) 技术和松弛端点的d t w 算法。在介绍隐马尔科夫模型时,从 其概念入手,介绍了它的三个基本问题及其解法和连续隐马尔科夫模型。 在对语音识别技术深入研究的基础上,提出了一套构建小词汇量非特定人的 孤立词语音识别系统的算法方案,并在m a t l a b 环境中实现了对语音识别系统的 仿真;详细介绍了在实现系统的过程中所遇到的问题和解决问题的方法,并在最 后通过实验对系统的性能进行了验证。该语音识别系统主要包括:语音信号的预 处理( 其中包括:预加重,归一化,分帧加窗和本文提出的端点检测算法) ,改进 的梅尔倒谱系数的特征提取算法和连续型的隐马尔科夫模型识别几个部分。 关键词:语音识别;端点检测;梅尔频率倒谱系数;动态时间规整;隐马尔科夫 模型 i t h er e s e a r c ho fs m a l lv o c a b u l a r ys p e a k e r - i n d e p e n d e n t i s o l a t e dw o r ds p e e c hr e c o g n i t i o ns y s t e m a b s 仃a c t s p e e c hr e c o g n i t i o n i sac r o s s d i s c i p l i n a r yw h i c hi n v o l v e s d i g i t a ls i g n a l p r o c e s s i n g ,a r t i f i c i a li n t e l l i g e n c e ,c o m p u t e rs c i e n c e ,m a t h e m a t i c a lm o d e l sa n dm a n y o t h e rd i s c i p l i n e s ,a n di so n eo ft h ef a s t e s tg r o w i n gf i e l do fi n f o r m a t i o nr e s e a r c hn o w 、阮mt h ec o n t i n u o u sd e v e l o p m e n to fp e o p l e sn e e d sa n dt h et e c h n o l o g yo ft h e e m b e d d e dc h i pa n dm o b i l et e r m i n a l e q u i p m e n t , s p e e c hr e c o g n i t i o ns y s t e m ,i n p a r t i c u l a r , t h es p e a k e r - i n d e p e n d e n ti s o l a t e dw o r ds p e e c hr e c o g n i t i o ns y s t e mi sa p p l i e d m o r ea n dm o r ei n t oo u rd a i l yl i v e s ( s u c ha sv o i c ed i a l i n go fc e l lp h o n e s ,c a rv o i c e n a v i g a t i o n ,e t c ) ,w h i c hb r i n g su sav e r yg r e a tc o n v e n i e n c e t h i sp a p e rm a k e si n - d e p t hr e s e a r c hf o rs m a l lv o c a b u l a r y , s p e a k e r - i n d e p e n d e n t s p e e c hr e c o g n i t i o no f i s o l a t e dw o r d ,m a j o rw o r ki n c l u d e s : a ni m p r o v e dd u a l t h r e s h o l ds p e e c h e n d p o i n td e t e c t i o n a l g o r i t h mb a s e do n s h o r t - t i m ea v e r a g em a g n i t u d ei n c r e m e n ta n ds h o r t - t i m ea v e r a g ez e r o c r o s s i n gr a t ei s p r e s e n t e d ,w h i c hu s e st h ec o n t i n u o u sr i s eo fs p e e c hs h o r t t i m ea v e r a g em a g n i t u d ea s t h ef i r s t - l e v e ld e c i s i o nt h r e s h o l da n ds h o r t - t i m ea v e r a g ez e r o c r o s s i n gr a t ea s t h e s e c o n d l e v e ld e c i s i o nt h r e s h o l d e x p e r i m e n t a lr e s u l t ss h o wt h a tt h i sa l g o r i t h mi s a c c u r a t e ,e a s ya n dr e l i a b l ei nt h ec a s eo fi d e a ls i g n a lt on o i s er a t i o ( s n r ) s e v e r a lf e a t u r ee x t r a c t i o na l g o r i t h m so f s p e e c hr e c o g n i t i o na r er e s e a r c h e d :l i n e a r p r e d i c t i v ec o d i n g ( l p c ) b a s e do nt h em o d e lo fh u m a np r o n u n c i a t i o n ,l i n e a r p r e d i c t i o nc e p s t r u mc o e f f i c i e n t ( l p c c ) a n dm e lf r e q u e n c yc e p s t r a l c o e f f i c i e n t ( m f c c ) ,a n ds e v e r a lm e t h o d st h a tc a ni m p r o v et h ep e r f o r m a n c eo fm e lf r e q u e n c y c e p s t r a lc o e f f i c i e n ta r el i s t e d t h ep a p e ri n t r o d u c e st h ea l g o r i t h m so fd y n a m i ct i m e w a r p i n g ( d t w ) a n dh i d d e nm a r k o vm o d e l ( h m m ) f o ri s o l a t e dw o r ds p e e c h r e c o g n i t i o n f o rt h ed t wa l g o r i t h m ,d y n a m i cp r o g r a m m i n g ( d p ) t e c h n i q u ea n d r e l a x a t i o ne n d p o i n td t w a l g o r i t h ma r ei n t r o d u c e d w h e ni n t r o d u c i n gh i d d e nm a r k o v m o d e l ,t h ep a p e rs t a r t sf r o mt h ec o n c e p t ,i n t r o d u c e si t st h r e eb a s i cp r o b l e m s ,t h e i r s o l u t i o na n dc o n t i n u o u sh i d d e nm a r k o vm o d e l i i i i i 目录 l 绪论1 1 1 研究背景1 1 2语音识别的研究历史与现状。1 1 3 语音识别的难点和面临的挑战2 1 4 语音识别系统的分类3 1 5本文的主要工作及章节安排4 2语音信号的声学原理和预处理6 2 1 语音信号的声学原理6 2 1 1 语音信号的产生6 2 1 2 语音信号产生的数字模型7 2 1 3 语音信号的声学特性8 2 2语音信号的数字化和预处理8 2 2 1 语音信号的数字化8 2 2 2 语音信号的预处理9 2 2 3 语音信号的时域分析10 2 2 3 1 短时能量和短时平均幅度1 0 2 2 3 2 短时平均过零率1l 2 2 4 端点检测1 l 2 3 2 4 2 2 4 1 传统的双门限端点检测算法1 2 2 2 4 2 改进的双门限端点检测算法1 2 实验结果及分析1 4 本章小结1 4 3语音信号的特征提取16 3 1线性预测1 6 3 2线性预测倒谱系数18 3 3梅尔频率倒谱系数( m f c c ) 1 9 3 4 提高m f c c 参数性能的几种方法2 2 3 5本章小结2 3 4 语音信号的识别算法2 4 4 1动态时间规整( d t w ) 2 4 4 1 1 动态规划技术( d p ) 2 5 4 1 2 松弛端点的d t w 算法2 8 4 2 隐马尔科夫模型( h m m ) 2 9 4 2 1 隐马尔科夫模型的概念2 9 4 2 1 1 隐马尔科夫模型的信号模型2 9 4 2 1 2 隐马尔科夫模型的定义3 0 4 2 1 3 隐马尔科夫模型的类型31 4 2 2 隐马尔科夫模型的三个基本问题及其求解3 2 4 2 2 1 隐马尔科夫模型的三个基本问题3 2 4 2 2 2 “前向一后向”算法一问题1 的解决方法3 3 4 2 2 3v i t e r b i 算法一问题2 的解决方法3 4 4 2 2 4b a u m w e l c h 算法一问题3 的解决方法3 5 4 2 3 连续隐马尔科夫模型3 6 4 3本章小结3 8 5系统的设计与实现3 9 5 1 系统的总体框图3 9 5 2语音库的建立3 9 5 3预处理4 0 5 4特征提取4 2 5 5h m m 模型的训练4 4 5 5 1h m m 模型的初始化。4 5 5 5 2h m m 模型的多样本训练4 6 5 6基于h m m 模型的识别5 0 5 7 实验及结果分析5 2 5 8本章小结5 4 6总结与展望5 5 6 1总结5 5 6 2展望5 5 参考文献5 7 致谢6 0 个人简历6 1 发表的学术论文6 2 v 小词汇量非特定人的孤立词语音识别系统研究 1 绪论 1 1 研究背景 语音不仅是人类进行思想、观点和情感交流最自然、最方便、最有效的手段, 而且也是人与机器之间进行通信的重要工具。随着以数字技术为代表的信息时代 的到来,智能化的工具逐渐进入人们的日常生活。从科学研究到日常生活,计算 机已经渗透到社会生活的各个方面,并已经成为人们不可或缺的日常工具。通常 人们是通过键盘和鼠标与计算机进行交互的,计算机要报告运行状态只能通过各 种的显示装置。而计算机语音识别作为智能计算机系统的重要特征之一,该技术 的推广与应用将会从根本上改变传统的人机交互方式,进而对计算机的发展和推 广产生深远的影响。 语音识别作为智能计算机研究的主导方向和人机语音交互的关键技术,它得 到了世界各国科学家们的广泛关注【1 1 。伴随着语音识别技术日臻成熟,并且在某 些方面已经达到了实用化的程度,我们可以在许多领域看到语音识别的身影:银 行信用卡查询、计算机控制、股票查询服务、语音通信系统、声控拨号系统等, 语音识别几乎深入到社会的各行各业。除了应用于公共服务等大型系统,在手 机、掌上电脑等终端设备上我们也可以看到嵌入式语音识别系统。随着技术的进 步,手持终端设备的体积越来越小,操作要求更加简单,而利用语音进行控制和 输入无疑是最佳的人机交互方式,其应用前景非常广阔。 1 2 语音识别的研究历史与现状 语音识别的研究大约始于2 0 世纪5 0 年代初期,当时研究人员大都局限在声 学和语音学的基本概念的探索上,并没有实质性的进展。直到6 0 年代末7 0 年代 初,随着计算机技术的发展,能够为语音识别的实现提供硬件和软件上的支持, 更重要的是语音信号线性预测编码( l p c ) 技术和动态时间规整( d t w ) 【2 ,3 】技 术的提出,语音识别有了进一步的发展。l p c 有效地解决的语音信号的特征提取 问题,对语音识别的发展产生了至关重要的作用。动态时间规整( d t w ) 技术 有效地解决了孤立词识别中的时间不等长匹配的问题,它对特定人的语音识别特 别有效。当词汇表较小以及各个词条不易混淆时,d t w 算法可以取得较好的识 小词汇量非特定人的孤立词语音识别系统研究 别结果。 2 0 世纪8 0 年代,语音识别研究进步走向深入。继孤立词语音识别成为7 0 年代的研究重点之后,连接词语的语音识别成为了8 0 年代的研究重点。其目标 是创建用由单个词的模式串连在一起进行匹配,并能识别由词汇串连接组成的流 畅话语的可靠系统。各种连接词语识别和关键词识别算法在这个时期被提出,如 多级动态规划语音识别算法。另一个重要发展是语音识别算法由模版匹配方法 向统计模型方法转变,其显著的标志是隐马尔科夫模型( h m m ) 和人工神经元 网络( a 1 州) 的成功应用。 进入2 0 世纪9 0 年代后,语音识别的研究重点转向大词汇量、非特定人的自 然语音识别。语音技术在细化模型的设计、参数的提取与优化、压缩,以及系统 的自适应技术上取得了一些关键进展。语音识别技术进一步成熟,同时在计算机 技术、电信应用等领域飞速发展的带动下,实用化的语音识别系统和语音服务应 用纷纷出现。在嵌入式应用领域,有具有语音拨号的手机,声控的儿童玩具;在 计算机应用中,出现了i b m 开发的v i a v o i c e 和m i c r o s o f t 开发的中文识别引擎【4 】, 它们代表了当前汉语识别的最高水平;在商业服务领域出现了以语音识别为核心 技术的信息网络查询、应急服务等。 我国的语音识别研究始于5 0 年代,中国科学院声学所用频谱分析的方法研 究了汉语1 0 个元音的识别,直到1 9 7 3 年才由中国科学院声学所开始进行计算机 的语音识别研究。1 9 8 7 年8 6 3 计划启动,作为智能计算机系统研究的一个重要 组成部分,语音识别被专门立项,每两年滚动一次。在8 6 3 计划的支持下,从 1 9 9 1 年开始,专家组每隔两年举行一次全国性的语音识别专题会议,从此汉语 语音识别研究走上了组织化的道路,语音识别技术进入了一个前所未有的发展阶 段。我国语音识别技术的研究水平基本上和国外水平是同步的,并在汉语识别的 技术上拥有自己特点及优势,其中我国对大词汇量连续语音识别系统的研究已经 接近国外最高水平。 1 3 语音识别的难点和面临的挑战 语音识别是一项复杂的技术,特别是对于汉语语音识别来说。尽管在实验室 的环境下语音识别系统已经达到了很高的识别率,但是在实际应用中尚有很多问 题。 2 小词汇量非特定人的孤立词语音识别系统研究 1 ) 方言或口音会降低系统的语音识别率。中国的民族众多,不同地区之间 的发音变化很大,方言很多,这将会给语音识别带来很大的困难。 2 ) 背景噪声的问题:这个主要体现在强噪声环境下,语音识别变得困难。 目前的语音识别系统大多只能工作在安静的环境下,在受到环境噪声的干扰时语 音识别系统的性能就会严重下降。在嘈杂的环境中,人能够有意识的摒弃环境噪 音并从中提取自己所需要的有用信息,如何让语音识别技术也能拥有这个能力 呢? 这的确是个艰巨的任务1 3 ) 语音识别系统的适应性差,主要体现在对环境的依赖性强,要求测试条件 和训练条件需要保持一致,否则系统的性能就会严重下降。目前,语音识别系统 在实验室的环境中已经具备了良好的性能,但是在实际的应用中,由于受到说话 人的不同,心理的影响,背景噪声,语速和声强等因素的影响,系统的性能会急 剧下降。另外一个问题就是,系统对于用户的错误输入一般不能够作出正确的响 应。 4 ) 韵律特征的不稳定性。韵律特征是一种体现说话人个性的特征。很多研 究者已经做过一些韵律特征的相关研究,表明即使同一个说话人在不同时期、不 同的环境中韵律特征都是不同的。 5 ) 语音识别系统从实验室的演示系统到成为我们身边成熟的商品还有很长 的路要走,还有很多的问题亟待解决。识别速度、硬件的性能、拒识问题以及关 键词检测技术等技术细节都要逐一解决。 1 4 语音识别系统的分类 语音识别主要有以下几种不同的分类方式: 1 ) 根据识别的词汇量的大小来分。每一个语音识别系统都必须有一个词汇 表,系统只能识别词汇表中有的词条,词汇表之外的词条则无法识别。通常根据 词汇表中词条的数目,语音识别系统可以分为:小词汇量语音识别系统,通常包 括几十个词条;中等词汇量语音识别系统,通常包括几百到上千个词条;大词汇 量语音识别系统,通常包括几千到几万个词条。系统的识别率随着词汇量的增加 下降,语音识别的难度随着词汇量的增加而逐渐增加。 2 ) 根据发音方式分,语音识别系统可以分为:孤立词( i s o l a t e dw o r d ) 语 音识别系统,该系统要求输入的语音只能是一个个的孤立的音节、词或是短语等; 3 小词汇量非特定人的孤立词语音识别系统研究 连接词( c o n n e c t e dw o r d ) 语音识别系统,该系统的输入一般特指十个数字( 0 9 ) 连接而成的多位数字或是少数指令构成的连接词条:连续语音( c o n t i n u o u s s p e e c h ) 识别系统,该系统可以对说话人的日常讲述进行识别。三种识别难度逐 次增加。 3 ) 根据说话人的限定范围分,语音识别系统可以分为特定人( s p e a k e r d e p e n d e n t ) 和非特定( s p e a k e ri n d e n e n d e n t ) 人语音识别系统。前者只能识别 某个固定人的语音,其他想要使用该系统的人必须事先录入大量的语音数据进行 训练,之后才可以使用。而后者则对说话人没有特定的要求,但是它的实现也要 难上许多。 1 5 本文的主要工作及章节安排 本文主要针对小词汇量、非特定人的孤立词语音识别系统所用到的各项技术 进行研究与比较,提出了一种改进的双门限的端点检测方法,实验证明该算法简 单高效。在对语音识别各项技术比较研究的基础上,选择合适的算法构建小词汇 量非特定人的孤立词语音识别系统,并且详细的介绍了在系统的设计实现过程中 的参数设置,程序流程,所遇到的问题和解决办法,并在最后通过实验对系统的 性能进行了验证。 本文的结构安排如下: 第一章绪论。介绍了本论文的研究背景,语音识别的研究历史和现状,语 音识别的难点和面临的挑战,还有语音识别的分类。 第二章语音信号的声学原理和预处理。本章主要介绍了语音信号的产生及 数字模型、语音信号的声学特性;语音信号的数字化和预处理,其中预处理部分 包括预加重、归一化、分帧加窗和端点检测。最后通过实验对传统的双门限端点 检测算法和本文提出的改进的双门限算法进行了比较。 第三章语音信号的特征提取。主要介绍了基于发声模型的线性预测系数, 线性预测倒谱系数和基于人耳听觉特性的梅尔频率倒谱系数,并介绍了几种提高 梅尔倒谱系数性能的方法。 第四章语音信号的识别算法。主要介绍了动态时间规整算法和隐马尔科夫 模型。详细介绍了隐马尔科夫模型的概念,主要包括隐马尔科夫模型的信号模型, 其定义和分类;还有隐马尔科夫模型的三个基本问题及其解法;最后介绍了连续 4 小词汇量非特定人的孤立词语音识别系统研究 隐马尔科夫模型各个参数的重估算法。 第五章系统的设计与实现。本章详细介绍了小词汇量非特定人的孤立词语 音识别系统各个环节的具体实现过程,以及实现过程中所遇到的问题和解决办 法,在最后进行了仿真实验以测试系统的性能。本章内容主要包括:语音库的建 立,预处理,特征提取,h m m 模型的训练,h m m 模型的识别,实验及结果分析几 个部分。 第六章总结与展望。对本文的主要研究工作进行了总结,分析了研究中存 在的问题,并对未来的工作进行展望。 小词汇量非特定人的孤立词语音识别系统研究 2 语音信号的声学原理和预处理 2 1 语音信号的声学原理 2 1 1 语音信号的产生 人类的发音器官主要包括肺、气管、喉、咽、鼻和口等。这些器官共同形成 了一条发声管道,其中喉以上的部分称为声道,其形状根据发出声音的不同而变 化。喉的部位称为声门。 如图2 - 1 所示,它是语音产生的机理图。正常呼吸时,肺部收缩产生空气流。 当空气流通过声带时,若声带是绷紧的,则声带将周期性地开启和闭合。声带开 启时,空气流将从声门喷射出来,形成一个脉冲;声带闭合时相当于脉冲序列的 间隙期。所以,这种情况下在声门出将产生出一个准周期性脉冲序列状的空气流。 f 肌力 ) ) 喜 ) ) 暑 图2 1 语晋信号产生原理 该空气流经过声道响应后最终从嘴唇辐射出声波一浊音。若声带是完全舒展开来 的,空气流将顺利的通过声门。这之后空气流将会遇到两种不同的情况:如果声 道的某个部位收缩形成了一个狭窄的通道,空气流就会被迫高速通过该收缩区并 在收缩区附近产生空气湍流,空气湍流通过声道后便形成摩擦音或清音;如果声 道的某个部位完全闭合在一起,当空气流到达此处时就会产生空气压力,一旦闭 6 小词汇量非特定人的孤立词语音识别系统研究 合点突然开启便会让气压快速释放,经过声道后就会产生爆破音。 由此可见,语音是由空气流激励声道产生的。三种不同的激励源激励声道产 生了浊音、清音和爆破音三种不同类型的声音。浊音激励源是位于声门处的准周 期脉冲序列,清音的激励源是位于声道的某个收缩区的空气湍流( 类似于噪声) , 而爆破音的激励源是位于声道某个闭合点建立起来的气压及其突然地释放。 2 1 2 语音信号产生的数字模型 通过研究发声器官和语音信号的产生过程便可以建立一个语音信号产生的 数字模型。如图2 - 2 所示,该数字模型包括激励源、声道模型和辐射模型三个部 分。激励源分为浊音和清音两个分支,根据开关所处的位置决定产生的是浊音还 号 如 图2 - 2 语音信号产生的数字模型 是清音。当开关接在浊音的分支上时,激励信号由一个准周期脉冲序列发生器产 生,其重复频率由基因频率决定。为了使浊音的激励信号具有声门气流脉冲的实 际波形,还需要让冲击序列通过一个声门脉冲模型滤波器。为了能够调节浊音信 号的幅度或是能量,还要乘上系数4 。当开关接在清音分支上时,激励信号由 随机噪声发生器产生。为了能够调节清音信号的幅度或是能量,需乘上系数4 ,。 大量实验证明,对于大多数的语音来说,声道模型的传递函数是全极点函数。辐 射模型与嘴型有关。 在该数字模型中,除了声门脉冲模型和辐射模型参数保持不变外,基因频率、 4 、以、清浊音开关位置和声道模型参数都是随时间变化的。但是,由于发生 器官的惯性使得声道模型参数的变化速度十分缓慢,在1 0 3 0 m s 的时间间隔内 7 小词汇量非特定人的孤立词语音识别系统研究 可以认为参数保持不变,所以在作语音信号的短时处理时帧长一般取1 0 3 0 m s 。 2 1 3 语音信号的声学特性 语音是由人的发音器官发出来的一种声波,它和其它的各种声音一样,具有 声音的各种物理特性。也就是说,语音也具有一定的音色、音调、音强和音长。 音色一也称为音质,它是一种声音区别与其它声音的一项基本属性。音色由 以下三个因素所决定:声带是否振动、是否采用送气的方法和声道的形状和尺寸。 音调一它是指声音的高低,在汉语语音学中又称为音高。音调的高低取决于 声波的频率,而声波的频率又与声带的长短、薄厚以及松紧程度有关。 音强一声音的强弱。它由声波振动的幅度所决定。 音长一声音的长短。它由发音持续时间的长短所决定。在汉语的普通话中, 一个音节中的各个音素由于作用不同,其音的长短就不同。对于一个多音节的词, 由于每个音节的轻重不同,其长短也就不一样。 音节一它是最容易觉察,最自然的语音单位,是语音的基本结构单位,由一 个或多个音素构成。音素是语音的最小单位。 任何语言的语音都包括元音和辅音两种音素。元音是由声带振动产生的语 音。元音的性质由声道的形状和尺寸所决定。辅音是由肺呼出的气流克服发音器 官的阻碍产生的。汉语的一个音节由声母、韵母和声调构成。声母都是由辅音充 当的,但辅音不一定都是声母。汉语中共有2 2 个辅音,其中2 1 个可以充当声母。 韵母可以由元音充当,也可以由复合元音充当,还可以由元音加上鼻音充当,所 以汉语中共有3 9 个韵母。 2 2 语音信号的数字化和预处理 2 2 1 语音信号的数字化 语音信号的数字化是信号处理的前提条件,一般包括两个步骤:采样和量化。 根据奈奎斯特采样定理,采样频率必须大于或等于信号最高频率的2 倍,这样才 能完整的保留原始信号中的信息。又由于语音信号的频谱分量主要集中在 3 0 0 3 4 0 0 h z 范围内,所以在应用中一般使用的采样频率为:8 k h z ,1 0 k h z 或 1 6 k i - i z 。本文采用8 k h z 。为了抑制输入信号频谱分量中频率超过1 2 采样频率 小词汇量非特定人的孤立词语音识别系统研究 的分量,以防止混叠失真,在采样之前需要对语音信号作低通( 反混叠) 滤波, 然后再进行a d 转换,如图2 3 。 采样之后要对语音信号进行量化,量化后的取值与信号的实际值之间的差值 成为量化误差。目前,我们一般采用8 b i t 量化。 漠拟语音信号 反混 数字语音信 a d 变化 叠滤波 图2 3 语音信号的数字化 2 2 2 语音信号的预处理 语音信号的预处理过程一般包括预加重,归一化,加窗分帧和端点检测等几 个步骤。具体的过程如图2 - 4 所示。 图2 - 4 语音信号预处理过程示意图 由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,高频端大约在 8 0 0 h z 以上按6 d b 倍频程跌落【5 】,而对于清音等某些发音,高频成分( 6 k h z ) 的信息在语音识别中有较大作用,为此要对语音信号进行预加重。预加重的目的 是提升高频部分并使信号的频谱变得平坦,以便于频谱分析或声道参数分析。预 加重可以放在低通滤波与a d 变换之间,也可以放在a d 变换之后进行。通常 采用一阶的预加重滤波器来提升语音信号的高频部分,它的形式如下: h ( z ) = 1 一口z 。1 ( 2 1 ) 式中0 口 1 ,通常取为0 9 4 。 为了方便后面数据的处理和阈值的设定,需要进行归一化,把语音信号的动 态范围归一化到 - l ,1 】区间内。 语音信号是不平稳随机过程,其特性是随时间变化的,但是人的发音器官的 肌肉运动速度缓慢,所以语音信号的变化又是缓慢的,可以认为在1 0 3 0 m s 内 是平稳的,即短时平稳。基于此,可以把语音信号进行分帧处理,以便做短时分 析,进行特征参数的计算。为了解决时、频域对帧长选择的不同要求,帧与帧之 间有部分相重叠【6 l 。 小词汇量非特定人的孤立词语音识别系统研究 设语音信号为x ( k ) ,分帧加窗处理后得到第n 帧语音信号为( 肌) ,则矗( 聊) 满足下式: ( 所) = w ( m ) x ( ,z + m ) 0 m n 一1 ( 2 2 ) 其中刀= 0 ,1 l ,2 l ,n 为帧长,三为帧移。w ( m ) 这里采用矩形窗,表达式 如下: w c ,行,= 毛 :盖:一1 2 2 3 语音信号的时域分析 ( 2 3 ) 短时时域处理技术主要包括:短时能量、短时平均幅度和短时平均过零率。 它们都是以语音信号的时域波形为基础的。主要优点是直观、简单,处理结果能 够描述语音的某些重要特性,所以获得了广泛的应用。 2 2 3 1 短时能量和短时平均幅度 语音信号一帧的能量成为短时能量。第,z 帧的短时能量用e 表示,如图2 - 5 所示,它等于该帧语音取样值的平方和,它的表达式为: n - 1 e = ( 优) m = o 图2 5 语音信号短时能量的计算 ( 2 4 ) 短时能量的主要用途主要包括:由于浊音的短时能量要比清音的大很多,所 以它可以区分清音和浊音;它可以用来确定声母与韵母,无声和有声,连字的分 界;还可以作为一种超音段信息用于语音识别。 短时能量计算的基础是求各个取样值的平方,对于高电平信号,这种处理方 式显得过于灵敏,在处理器字长有限的时候容易产生溢出。基于这个原因,提出 了能够表示语音信号能量时变特性的另一个参数一短时平均幅度。 若第门帧的短时平均幅度用m 。表示,则它的表达式如下: l o 小词汇量非特定人的孤立词语音识别系统研究 2 2 3 2 短时平均过零率 一l 鸠= l 吒( 肌) m = o ( 2 5 ) 离散语音信号相邻的两个取样值符号相反时,便会出现“过零”现象。信号 单位时间内的过零次数称为过零率。如果信号按段分割,就称为短时,把各段信 号的过零率作统计平均,就是短时平均过零率( s h o r tt i m ea v e r a g ec r o s sz e r o r a t i o ) 。 第,z 帧的短时过零率用乙表示,则表达式如下: z 。= 吉 薹i s g n ( m ) 一s g n ( 所一) 1 ) c 2 6 , 其中s g i l 【】表示取符号,即: s g n 【x 】= 兰, :三三 ( 2 7 , 短时平均过零率在语音信号处理中主要用途就是判别清音和浊音。发浊音 时,声带振动,这个振动频率的声压波在声道中共振,尽管有很多个共振峰但其 能量主要集中在3 k h z 以下的频率范围内。而发清音时,声带不振动,声道的某 个部位收缩产生狭小的通道,阻塞气流产生类白噪声,它的能量主要集中于比较 高的频率范围内。所以通过短时平均过零率可以区分清浊音。 在实际的应用中,由于噪声的存在,就必须规定一个噪声门限,超过该门限 正值的值置为+ 1 ,低于该门限负值的值置为一1 ,界于门限正负值之间的值置为 + 1 【7 1 。 2 2 4 端点检测 在语音识别系统中,准确的确定语音的起始点不仅可以大大减少系统的计算 量,而且可以提高识别率。它还是语音分析,语音合成,语音编码中的一个重要 组成部分,所以进行有效的端点检测是语音信号处理中的重要环节。 系统研究 景噪声的短时能量大小基本相等,所以要想可靠的检测出语音的起点很困难。双 门限法是考虑到语音开始以后相当大的可能出现的是浊音,而浊音的短时能量又 图2 - 6 传统双门限算法检测示意图 比噪声和清音的短时能量要高,所以先设定较高的短时能量门限值e 。当一帧 语音信号的e 值超过毛时,就判定该帧进入语音段。如图2 6 ,利用邑可以判 定语音中的前后两个点藏和或,藏硬之间肯定是语音段,但是精确的语音 起始点还要在面之前和矾之后继续判定。为此在取一个比邑稍低的门限蜀,根 据巨从砖点向前搜索,从见点向后搜索,找到更加精确地两点l 和2 。以上 只是完成了第一级判决,接着根据短时过零率进行第二级判决。设定一个短时过 零率的门限z c r ,从l 点向前,点向后继续搜索,找到低于门限z c r 的两点l 和靓,该两点就是语音的起始点。 2 2 4 2 改进的双门限端点检测算法 如图2 - 7 所示,选择合适的窗宽和帧移,短时能量就能及时的反映语音能量 缓慢的变化规律。从静音段进入语音段,语音的短时幅度逐渐上升;从语音段进 入静音段,语音的短时幅度逐渐下降。所以,可以通过判定短时幅度的持续上升 和持续下降来确定语音的起始点和结束点。 1 2 小词汇量非特定人的孤立词语音识别系统研究 1 0 5 暑 墨 0 扣5 1 lil l 止一- l 。 i i ,”一1 i l r 1 i 02 0 4 0 0 06 08 01 1 3 0 0 01 2 咖1 4 0 0 01 印叩 图2 - 7 语音信号的时域波形图和短时平均幅度波形图,其中n = 1 2 8 l = 3 2 由于语音的清音部分的短时幅度很小,如果只依靠短时幅度增量,有时就会 把清音漏掉,所以就需要用到短时过零率再次判别语音段的起始点。 本文提出的端点检测算法是基于语音信号的短时能量增量和短时过零率,具 体算法如下: ( 1 ) 设定短时能量增量阈值参数丝,短时过零率阈值参数z c r 。 ( 2 ) 如果第刀帧的短时幅度满足:e + 丝e + l ,我们记录该帧的位置: p o s i t i o n = n 。 ( 3 ) 如果接下来的q 帧中有p 帧满足上述条件,那么就判定第p o s i t i o n 帧为 语音信号的起始点;如果不满足,重新定位p o s i t i o n ,把第n 帧后第一次满足 e + 衄e + l 条件的帧的帧号赋值给p o s i t i o n ,然后继续判定,直到满足条件 为止。 ( 4 )以上只完成了第一级判决,接着要进行第二级判决,这次是以短时过 零率为判决条件。从已找到的语音起始点p o s i t i o n 向前搜索,找到短时过零率第 一次低于z c r 的帧,该帧的位置即为起始点。终止点的检测可以类比起始点的检 测得到。 在检测过程中,为了避免突发噪声的影响,需要设定语音的最小持续期。当 检测出的语音段长度小于语音的最小持续期时,则认为该段为偶然的脉冲干扰, 而非真正的语音段。本文中设定语音的最小持续期为1 0 0 m s 。 小词汇量非特定人的孤立词语音识别系统研究 2 3 实验结果及分析 本实验的目的是对传统的双门限端点检测算法和本文所提出的改进的端点 检测算法进行比较。实验所用到的语音都是在比较安静的环境中,利用录音笔所 录制,保存为单声道的w a v 格式;采样频率8 k h z ,1 6 b i t 量化。两种算法中帧长 和帧移都选取相同的值,帧长取1 2 8 ,帧移取3 2 。把短时幅度增量和短时过零率 分别设置为:a e = 0 5 ,z c r = 3 0 。: 6 a _ 薹。: 。, a4 。: 口 。 童。: 由2 由 o ( o o o 量。: - o : 司 ( a ) 安静环境下 “i“址。 1 r 胛下 b ) 语音信号加入1 0 d b 的高斯白噪声 jjll 山 l _ r 1 _ ( a ) 安静环境下 ( b ) 语音信号加入l o d b 的高斯白噪声 ( c ) 语音信号加入5 d b 的高斯白噪声( c ) 语音信号加入5 d b 的高斯白噪声 图2 - 8 改进算法的检测结果图2 - 9 传统算法的检测结果 如图2 - 8 ,2 - 9 所示,两条红色的竖线分别表示检测出的语音的起始点。比 较图3 - 6 和图2 - 9 可知,在安静环境下,改进的双门限端点检测算法比传统的算 法能够更加精确地找到语音的起始点;而且,随着噪声的增加,改进算法的鲁棒 性更好。 2 4 本章小结 本章首先介绍了语音信号的产生及数字模型、语音信号的声学特性,目的是 加深对语音信号的特性的了解,为进一步的处理作准备。之后介绍了如何对模拟 的语音信号采样和量化。在进行特征提取前,需要对语音信号进行预处理。预处 1 4 ,。蚰一一。 。 。一一。 童 量t 秀 小词汇量非特定人的孤立词语音识别系统研究 理部分主要包括预加重、归一化、分帧加窗和端点检测,其中端点检测对减少系 统的计算量,提高系统的识别率起到了重要作用。本文在传统的双门限端点检测 算法的基础上提出了一种基于短时平均幅度增量和平均过零率的改进算法。最后 通过实验对传统的双门限端点检测算法和本文提出的改进的双门限算法进行了 比较,实验证明改进的算法的性能略优于传统的算法。 1 5 小词汇量非特定人的孤立词语音识别系统研究 3 语音信号的特征提取 语音信号是十分复杂的非平稳信号,它不仅包含语意信息,还有个人的特征 信息,对其特征参数的研究不仅是语音识别的基础,而且直接关系到语音识别系 统性能的好坏。特征提取就从语
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 环境监测销售知识培训课件
- 丰田打造标准工程方案(3篇)
- 房屋加固工程专项方案(3篇)
- 猫咪饮食基础知识培训课件
- 小学语文散文类课文教学的优化策略
- 猫咪的聚会课件
- 返乡老屋改造工程方案(3篇)
- 安全教育校本培训课件
- 电网工程安全评估方案(3篇)
- 安全教育干部培训会讲话课件
- 超市改造方案
- 国企清产核资制度
- 动画运动规律-动画概论
- 中级注册安全工程师考试《安全生产专业实务道路运输安全》模拟卷及详解
- 龙虎山正一日诵早晚课
- 米粉及杂粮类制品课件
- 楔形平板产生的等厚干涉
- 骨髓腔穿刺在急诊急救中的应用课件
- 机械动力学PPT完整全套教学课件
- 年产2.03万吨高端精细化学品及5G新材料项目环评报告书
- 群众文化副高答辩问题及答案
评论
0/150
提交评论