




已阅读5页,还剩61页未读, 继续免费阅读
(应用数学专业论文)小语音库的语音识别及实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中山大学硕士学位论文:小语音库的语音识别及实现 v o i c er e c o r d i n gr e s e a r c ha n di m p l e m e n t a t i o no fs m a l l v o i c el i b r a r y m a j o r :a p p l i e dm a t h e m a t i c s n a m e :z e n gj i n g s u p e r v i s o r :p r o f f e n gg u o c a n a b s t r a c t a l o n g w i t ht h ed e v e l o p m e n to ft h er e s e a r c ho fs p e e c h r e c o g n i t i o n ,t h e t e c h n o l o g yo fs p e e c hr e c o g n i t i o nh a sm a t u r e d ,a n db e e ng r a d u a l l ya p p l i e di na l lf i e l d s o fp e o p l e sl i f e t h i st h e s i sf o c u s e so nt h es y s t e ms i m u l a t i o no fs p e a k e r d e p e n d e n t m e d i u m s m a l l v o c a b u l a r yi s o l a t e d - w o r da n dc o n t i n u o u s - w o r ds p e e c hr e c o g n i t i o n , a n de x p l o r e st h ea l g o r i t h mt oi n c r e a s et h ec o r r e c ts e g m e n t a t i o nr a t ea n dt h e r e c o g n i t i o nr a t e ap r o c e s sf o rs p e a k e r d e p e n d e n ts p e e c hr e c o g n i t i o ns y s t e mi sp r e s e n t e ds t a r t i n g f r o mp r e p r o c e s s i n gi e d i g i t a ls a m p l i n g ,n o i s ef i l t e r i n g ,a n dw i n d o w i n ga n ds oo n i t i sf o l l o w e db yb a c k g r o u n dk n o w l e d g e ,u t i l i t ym o d e l ,e n d p o i n td e t e c t i o n ,t h ec h o i c e o fs p e e c hs i g n a l sp a r a m e t e r s ,m e t h o d sf o rs p e e c ht r a i n i n ga n dr e c o g n i t i o na r e d i s c u s s e da sw e l l e x p e r i m e n t a lr e s u l t sa r ea n a l y z e da n dc o m p a r e di nd e t a i l am a j o r i m p r o v e m e n ti ne n d p o i n td e t e c t i o ns e g m e n t a t i o na l g o r i t h m h a sb e e na c h i e v e d c o m p a r e dt oc l a s s i c a lm e t h o d s e v e n t u a l l yas y s t e mf o rs p e a k e r d e p e n d e n ts p e e c h r e c o g n i t i o ni sw o r k e do u t t h e s ea r et h em a i nc o n t e n t so ft h i sp a p e r : f i s t ,p r e p r o c e s s i n ga n df e a t u r es e l e c t i o n a r ed i s c u s s e d t h e nw et a l ka b o u t d i g i t a ls a m p l i n g ,w i n d o w i n g ,n o i s ef i l t e r i n g ,e n d p o i n td e t e c t i o n ,t i m e d o m a i nv e c t o r a n dt r a n s f o r m d o m a i nv e c t o r s e c o n d ,a l g o r i t h m so fs p e a k e r d e p e n d e n ti s o l a t e d w o r da n dc o n t i n u o u s 。w o r d s p e e c hr e c o g n i t i o na r em e n t i o n e d ,i n c l u d i n ge n d p o i n td e t e c t i o na n ds e g m e n t a t i o n i i i 中山大学硕士学位论文:小语音库的语音录入研究及实现 论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研 究工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个 人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集 体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名: 日期:年月日 学位论文使用授权声明 本人完全了解中山大学有关保留、使用学位论文的规定,即:学校有权保留 学位论文并向国家主管部门或其指定机构送交论文的电子版和纸质版,有权将学 位论文用于非赢利目的的少量复制并允许论文进入学校图书馆、院系资料室被查 阅,有权将学位论文的内容编入有关数据库进行检索,可以采用复印、缩印或其 他方法保存学位论文。 学位论文作者签名: 日期:年月日 导师签名: 日期: 年月日 第一章前言 1 1 选题背景 第一章前言 计算机迅速的发展,对我们的吃,行,住,穿都产生了深远的影响。虽然 目前有键盘,鼠标,手写板,触摸屏等各种人机交流的界面,但是人和电脑的交 流仍然是以键盘和鼠标为主。与人类习惯的语音交流,肢体语言交流相比,人与 电脑的交流还主要是人在适应机器的要求,而不是真正意义上的机器为人服务。 几十年来,人们一直努力设计更加友好能够为人服务的人机界面,如人脸 识别技术,表情识别技术,语音识别技术等等,期待某一天人与电脑的交流跟人 与人之间的交流一样自然,顺畅。自然语言作为一种理想的人机通信方式,可为 计算机、自动化系统等建立良好的人机交互环境,提高社会的信息化和自动化程 度。目前,语音技术处于蓬勃发展时期,有大量产品投放市场,并且不断有新产 品被开发研制,具有广阔的市场需要和应用前景。而在语音技术中,语音识别是 重要的一环,并且也在不断有新的进展。 技术的价值就在于它能服务于应用。虽然现在,语音识别在实验室已经拥 有比较高的识别率,并且新的技术正在使识别率不断上升。但是真正应用在我们 日常生活中,却有很多的难题需要我们去克服,在语音识别技术从各个不同的突 破口进行应用和产业化的过程中,很多影响识别结果的关键问题t t 2 3 1 凸现出来, 成为研究的重难点。 ( 1 ) 方言或口音会降低语音识别率。不同的国家讲一样的话会产生不一样的 口音,而即使是同一个国家,同一个地区,由于各方面生活环境的不同,每个人 都有着不同的口音和方言,特别是对于拥有很多方言区的中文来说,应用的难度 无疑是非常大的。 ( 2 ) 背景噪音。人多的公共场所或施工场所等,其巨大的噪音对语音识别影 响自不用说,就算在理想状态下的实验室环境中,敲击键盘、挪动麦克风等都会 成为背景噪音。它将破坏原始语音的频谱,或者把原始语音部分或全部掩盖掉, 造成识别率下降。同时,由于l o m b a r d 效应的存在,也就是说,在噪音存在的 情况下,说话的语速,强度和音调都会随着噪音的存在而发生相应的改变,进一 步又降低了识别率。既然在实际应用中,噪声无法避免,因此如何把原始语音从 第一章前言 ( 4 ) 家用智能声控电器:比如通过语音命令控制智能电子玩具的移动 等。 语音识别技术下的系统按照不同的角度、不同的应用范围、不同的性能要 求有不同的系统设计和实现,也会有不同的分类。一般语音识别系统按不同的角 度有下面几种分类方法。 根据对说话人的依赖程度可以分为特定人( s p e a k e rd e p e n d e n t ) 和非特定人 ( s p e a k e ri n d e p e n d e n t ) 语音识别:根据词汇量的大小可以分为小词汇量( s m a l l v o c a b u l a 拶) ,中等词汇量,大词汇量( l a 唱ev o c a b u l a 叫) 以及无限词汇量语音 识别;根据对说话人说话方式的要求可以分为孤立词( i s o l a t e dw o r d ) 和连续词 ( c o n t i n u o u sw o r d ) 或连接词( c o n n e c t e dw o r d ) 语音识别。 1 3 语音识别技术的现状 1 3 1 语音识别技术的早期发展0 6 ,7 语音识别的研究工作大约开始于上世纪5 0 年代初。世界上最早能够识别语 音的系统a u d r e y 是1 9 5 2 年b e l l 实验室开发的,还有1 9 5 6 年普林斯顿大学r c a 实验室开发的单音节词识别系统。 6 0 年代以后,各种语音识别的研究才开始真正展开,r c a 实验室的研究成 果是解决了语音在时间标尺上的非均匀问题。1 9 6 8 年,前苏联科学家首次将动 态归化算法( d p ,d y n a m i cp r o g r a m m i n g ) 应用于语音分析。 7 0 年代语音识别开始快速发展,研究重心是孤立词语音识别。时间归整技 术【8 9 】( d t w ,d y n a m i ct i m ew a r p i n g ) 搭配基于线性预测编码【3 】( l p c ,l i n e a r p r e d i c t i o nc o d i n g ) 的谱系数提取,使得孤立词识别的效率大大提高,实现了基于 线性预测倒谱和d t w 技术的特定人孤立词语音识别系统。 1 3 2 国内外语音识别技术的中期发展1 6 ,7 l 8 0 年代,语音识别研究进一步走向深入,人们开始沿三个不同方向拓展研 究领域和目标: ( 1 ) 特定人向非特定人拓展 中山大学硕士学位论文:小语音库的语音识别及实现 采用k m e a n s 聚类算法对多个人的发音样本进行聚类 ( 2 ) 孤立词往连接词拓展 提出了l e v e l b u i i d i n 0 1 ,t w o s t a g ed p 【1 1 1 ,等基于d p 的新的匹配方法。以上两 个拓展基本上都是基于小词汇量,尤其是数字识别( 0 9 ) ( 3 ) 小词汇量向大词汇量拓展 这一拓展遇到了计算量和存储虽急剧增加的困难。相应出现了以下方法: 矢最量化( v e c t o rq u a n t i z a t i o n ) 技术【1 2 】:它具有很好的数据压缩能力及理 想的聚类功能,因此人们将v q 用于语音识别进行预处理或预选,以减少识别运 算量。音节、音素等的提出和应用,主要用以减少运算最和存储量。 采用分级识别( 粗分类) 进行预选( 1 3 】。 1 3 3 语音识别技术的近期发展1 6 7 l 而8 0 年代中期以来,随着信号特征的提取和优化、声学模型的细化、自然 语言理解领域中语言模型的建立和解码搜索算法新技术的不断成熟,语音识别同 时在大词汇量,非特定人,连续语音三个方面取到了重要进展。 渐渐的连接词和大词汇量连续语音识别成为研究热点,统计模型取代模板匹 配的方法成为当时语音识别和语音处理中的主流地位。隐马尔可夫模型【1 2 ,1 4 ,。5 】 ( h m m ,h d d e nm a r k o vm o d e l s ) 成为大词汇量连续语音识别系统的基础。结合矢 量量化技术,c m u 于1 9 8 8 年开发了s p h i n x ,这是世界上第一个非特定人大词 汇量连续语音识别系统。s p h m x 能识别包括9 9 7 个词汇的4 2 0 0 个连续语句, 在语言复杂度为6 0 且环境匹配时,识别率可以达到9 4 7 ,经过多次改进,其 识别率达到9 5 8 。 8 0 年代中期重新开始的n n 研究【l5 1 ,也给语音识别带来一片新的生机。由于 n n 具有自组织和自动学习各种复杂分类边界的能力,以及很强的区分能力,使 它特别适用于语音识别这一特殊的分类问题。 与上述基于统计分析和强有力的算法的研究几乎并行开展的是以m i t 的 s u e 教授、m c g i i l 大学的d em o r i 教授和法国c r i n i n r j a 的h a t t o n 教授为代表 的基于语音学知识的语音识别研究。m l t 的s u m m i t 系统,则是基于知识的语 音识别的典范,它实现了非特定人、大词汇量和连续语音的识别。 4 第一章前言 1 3 4 语音识别技术的现状1 6 - 7 i 语音识别在实验室环境下已经取得了良好的效果,因此,9 0 年代至今,语 音识别技术开始向实用化发展。近年来在语音识别领域非常活跃的课题为鲁棒性 语音识别、说话人自适应技术、大词汇量关键词识别算法、语音识别的可信度评 测算法、基于构建类的语言模型和自适应语言模型以及深层次的自然语言的理 解:研究的方向也越来越侧重于口语对话系统。 我国语音识别研究工作起步于五十年代,比较晚,因为国家现今比较重视, 所以近年来发展很快。研究水平也从实验室逐步走向实用。从1 9 8 7 年开始国家 执行8 6 3 计划后,中科院自动化所以及清华大学等单位研究开发,已经取得了 高水平的科研成果。如:中科院自动化所研制的汉语语音人机对话系统,其字准 确率或系统响应率可达9 0 以上;清华大学电子工程系的语音识别系统也获得了 很好的成绩:字正确率为9 3 。句子正确率为6 2 5 ,这是目前国际上最好的识 别结果之一。 所以我国语音识别技术的研究水平已经基本上与国外同步,在汉语语音识别 技术上还有自己的特点与优势,并达到国际先进水平。但从目前的市场应用范 围来看,语音产品的实际应用还很狭窄,这说明语音技术产品还存在缺陷,达不 到市场化、商品化的要求,在技术上还有很多工作要做。而非特定人、大词汇量、 连续语音识别仍是目前阶段语音识别研究的重点和难点。 1 4 语音识别技术面临的主要问题 虽然语音识别的研究取得了很大进展,但还存在很多困难。目前的语音识别 还远不能做到使机器能如同人类一样能“听懂”或理解自然语言。在语音识别研 究过程中,语音识别技术中难点问题成了大家研究工作获得进展的绊脚石,其中 具体的难点【1 7 1 8 ,1 9 】表现为: 1 、语音特征变化大。语音特征随发音人的不同、发音人生理或心理状态 的变化而有很大的差异; 2 、语音的模糊性,同音词大量而普遍存在; 3 、对韵律信息的利用不足,韵律信息指的是说话之中的重音、语调等超 第一章前言 比如工业命令控制、计算机控制、家庭电器服务、个人信息确认、个人移动通信 呼叫等。 目前,语音识别市场由国外公司和机构占据了很大的份额,而且系统主要以 英语为主 1 7 , s s 。因为如上节所叙述的汉语的语音识别难度较大,所以基于汉语的 语音识别系统有待大力开发和完善。 此外,尽管特定人汉语语音识别相对于其它类型的语音识别比较完善,基本 可以达到实用的要求,但也存在很多影响鲁棒性的因素,导致通常情况下识别率 不是很高,甚至很低。这些因素 6 , 7 , 8 , 1 7 , 18 , 2 0 】主要是: ( 1 ) 语音信号的多变性 语音信号是非平稳随机信号,不但不同发音者发音之间存在着重大的差异, 即使同一人同一语音的每次发音,也存在很大差异。在心态、体力、呼吸等诸多 人自身内在因素和外在环境的影响下,人的发音会产生很大的随机性变化,这样 发音速度、强度以及各音节相对瞬时速度都有可能和正常时大有不同,从而降低 识别系统的性能。 ( 2 ) 噪声影响 语音识别系统通常是在安静的环境下训练得到的参数应用于实际环境中。 如果实际环境也是安静的,则语音识别系统可以令人满意的工作。然而,当实际 环境中有噪声存在时,语音识别系统性能急剧下降。统计表明识别系统一半以上 的识别错误来自于端点检测错误。而当噪声的能量和语音信号的能量接近时就可 能造成端点检测的误差:另外汉语的辅音大部分是清辅音,能量较少,容易受到 噪声的干扰。因此噪声始终影响着语音识别系统的性能。 ( 3 ) 词与词的特征空间混叠 语音识别的常规方法是利用语音信号的短视周期特性将语音时域采样信号 分为若干段,计算出每一段的特征矢量序列作为识别参数。但是很多不同的词语 的欠量序列在特征空间中存在混叠现象,甚至有些不同词语的混叠程度会超过同 一词语的每次发音,从而降低识别率。 ( 4 ) 语音单词的切分 连续语音句子中各汉语单词的发音之间通常是没有停顿的,即各单词之间 不存在明显的边界;而且单词序列的长度是完全未知的; 7 第二章语音识别系统的基本原理 第二章语音识别系统的基本原理 2 1 语音信号产生模型 2 1 1 语音产生的机理1 1 2 ,3 ,2 1 l 语音是人的发声器官发出的一种声波。人的发音器官包括:肺、气管、喉( 包 括声带) 、咽、口和鼻。这些器官共同行成一条形状复杂的管道。喉的部分称为 声门。从声门到嘴唇的呼气通道叫做声道。声道的形状主要由嘴唇、颚和舌头的 位置来决定。人类的发声过程是由于肺部的收缩,压迫气流由支气管经过声门和 声道引起音频振荡而产生的:声道形状不断改变而发出不同的语音。 人类发音过程有三类不同的激励方式,相应的产生三类不同的声音,即浊音、 清音、和爆破音。当气流通过声门时声带的张力刚好使声带发生较低频率的张弛 振荡,形成准周期性的空气脉冲,这些空气脉冲激励声道发声便产生浊音,比如 元音。浊音的基本频率就是基音频率,如果声道中某处面积很小,气流高速冲过 此处时而产生清音,比如辅音s ,s h ,f 等。如果声道某处完全闭合建立起气压, 然后突然释放而产生的声音就是爆破音,如寒音p ,t ,k 等。 2 1 2 语音产生的数学模型| l 2 3 ,2 1 l 语音生成系统分为三个部分,在声门( 声带) 以下,称为声门子系统,他 产生激励振动,是激励系统;从声门到嘴唇的呼气通道是声道系统;语音从嘴唇 辐射出去,所以嘴唇以外是辐射系统。因此,完整的语音信号的数学模型可以用 三个子模型:激励模型、声道模型和辐射模型的串联表示。 其中,激励模型分浊音和清音两个分支,浊音清音开关决定产牛的语音是 浊音还是清音。发浊音时,由于声带不断的振动,将产牛准周期的脉冲波,其 周期称为基音周期,频率即为基音频率。 由周期脉冲发生器输出的单位冲激序列,其冲击之间的间隔即为所要求的基 因周期。这一冲激串去激励系统函数g ( z ) 的线性系统,经过幅度控制么v 后的输 出即为所要求的浊音激励。 在发清音的情况下,声道被阻碍形成湍流,所以可以模拟成随机白噪声 9 第二章语音识s i 系统的基奉原理 理语音信号的重要方法。傅里叶分析j 。1 是分析线性系统和平稳信号稳态特性 的强有力币段。它在许多工程和科学领域中得到了广泛的应用。这种以复指数函 数为基函数的正交变换,理论卜根完善,计算卜很方便概念_ 卜易于为人们理解, 在语音处理领域也是一个非常重要的工具。另一方面按照语音学观点,可将语 音分析分为模型分析法和非模型法两种其中模型分析法是指依据语音产生的数 学楼茸1 来分析和提取这些模帮的特征参数;共振峰模型分析、声管模型( 即线 性预测模型) 分析和听觉模型( 如e i h 模型) 即属丁这种分析方法。而不进行模 型化分析的其他方法都属于非模型分析法包括时域分析法、频域分析法、同态 分析往等。 语音信号是一种典型的非平稳信号。但是语音的形成过程与发音器官的运动 密切相关,这种物理运动比起声音振动速度来讲要缓慢的多因此语音信号可假 定为短时平稳的其频谱特性和某些物理参数在1 0 - 3 0 m s 时问段内址近似不变 的。所以通常将语音信号分为一段一段来分析其中罐一段成为一帧 语音波形被用来在时域上表征语音数据。圈2 2 是从m a t l a b 巾得到的一 个女性声音埘。始的发音的波形国。通常用三十状态来描述不同的语音段:静 止,当没有产生任何声音时;清音,当声带没有振动,语音波形是非周期性的; 浊音当声带出于紧张状态,气流从肺部到达时产生周期性的振动,因此得到的 语音波形是准j f i 期的。 ”f 1 i r 1 i ;r 1 ;布_ 蜥商旷 州 圉2 2 始的l 语音波j 陟 中山大学硕士学位论文:小语音库的语音识别及实现 2 3 汉语语音识别系统 2 3 1 汉语语音识别系统的组成与原理 汉语语音识别其实也是一种模式识别,因为它与常规的模式识别系统样 包括预处理、特征提取、模式匹配、参考模式库等基本单元。但通常完整的汉语 语音识别系统的系统结构却要复杂得多。本论文研究的基于模板匹配的小词汇量 汉语语音识别系统其结构也比较复杂,但是其基本构成如图2 3 所示: 识别 图2 3 连续语音识别系统流程图 其中,预处理部分包括语音信号的采样、滤波,语音增强,去除声门激励和 口唇辐射以及噪声影响等,而在预处理中最重要的步骤是端点检测。尤其在连续 词语音识别中,由于连续词信号没有明显的时间间隙,端点检测的难点语音分割 就是整个连续词语音识别系统的核心。特征提取部分的作用是从语音信号波形中 提取一组或几组能够描述语音信号特征的参数,如平均能量、过零数或平均过零 数、共振峰、倒谱、线性预测系数、m e l 频率倒谱系数等等,以便训练和识别。 在这个过程中,特征参数的选择直接关系着语音识别系统识别率的高低,不同侧 重点的语音识别系统需要不同的特征参数。训练是练习模式库的必备过程,此时 一般是对于孤立词的训练。词表中每个词都对应个参考模式,它由这个词重复 发音多遍,再经特征提取和某种训练得到。模式匹配部分是系统中最后一个环节, 是最为关键的,因为识别效果的好坏就在于最后的模式匹配部分。它的作用是按 照一定的准则来求取待测语音特征参数和语音信息与模式库中相应模板之间的 失真距离测度,其中我们将最匹配的也就是距离最小的作为最后的识别结果。 综上可知,语音识别系统【l 2 1 ,2 2 ,2 3 ,2 4 ,2 5 】大致分为以下几个部分: ( 1 预处理:包括选择性能好的话筒和抗噪声,语音信号的模数转换,也包 括前面提到的信号的采样,滤波,语音增强等处理,滤除掉其中不重要的信息以 r e a da d d r i 3 3 0r e a dd a t a j1 6 9 蠢荔霉鼋雾 理; 耋薹蔷蓁雾妻j 妻蓁萋萼| 耋薹蓁霪誓蓁攀冀一 篓萋薹鍪翼哥菥薹i 蓁鎏奏丽薹霎霎蓁喜差鎏冀薹 薹餮蓁, i 3 i 薹d a 鏊耋| | 娄; w r i t e a d d r :3 3 3w r i t e d a t a ;13 0篓8 2 5 5 1 蓁 囊。冀鎏霎塞薹鋈篓0 ;型娄蓁羹薹i 薹雾矍薹囊l 霉鍪t l c _ 7 2 2 6 藿篓羹羹嚣薹:耄v ; w r i t e a d d r :3 3 1 w r i t e d a t a :1 8 4 雾8 2 5 5 垂j 蚕 喇囊爹蚕羹0 j 1 ;2 耋0 :t l c 7 2 2 6 一w r * 0 i t l c 7 2 2 6 i a l “0 j 妻蓁蓬囊擎褰褰一a 0 i w r i t e a d d r :3 3 0w r i t e d a t a :1 6 9 诲笺爹薹鋈 囊。囊d a c i v a g c l 薹薹耄霪蓁;萎警囊蚕l w r i t e a d d r :3 3 0w r i t e d a t a ;2 0 0 冀囊| 善萋篓 鍪;薹d a c i v a g c l 翼霪妊耋3 9v 耄霎i 霪囊羹羹殴! d a 囊冀篓薹羹霞囊伪塞鬈耄霎薹; 鎏薹鋈菱需些羹囊茎v c o 茎霎担塞羲。 萋鬟雾薹篓型鎏薹霎薹雾严塞冀:摹鎏鬻露型 嚼。鋈壤;薹萋羹雨辆蟛基埋冀萋薹萋墓番耄鐾羹 羹i 冀霎羹攀囊薹萋夔蠢篓薹霪雾萋;擎粪茎薹萋 荔i 薹萋雾囊鎏薹霎蓁薹薹i 鍪| 妻羹蓁薹萋薹薹,薹 冀霎荔;璧薹雾囊军垒霎二 蠹羹囊| 羹 31i a l t e r ac o r p o r a t i o n ;m a x 3 0 0 0 ad a t as h e e t ;j u n e2 0 0 3 ; v e r i34 。w n c w ja h e r a ? c o r n ! 享e d a 囊薹薹鎏嵯:a l t e r af p g a c p l d 委冀! 妻雾萎! ! 垂l ,耋霎! 茎蔓蓁雾羹薹囊;2 0 0 5 。 ! ll i 娄;m i c h a e l 莲,c i l e t t i = v e r i l o gh d l 薹竖羹寒至蕈 中山大学硕士学位论文:小语音库的语音识别及实现 关的声韵母等音节作为基本的研究模型;词层模型是在基本的声学模型和语音学 模型之上建立的以子词作为基本的输出单元。它应用一部词典来规定词表中每一 个单词使用哪些子词,并且它们以何种方法组成;语音学模式是在词层之上一个 基于文法的模型,用来排除声学识别中不合乎语法或者语义规则的语音结果并输 出最终的识别结果。 虽然在上个世纪九十年代,连续汉语语音识别技术取得了很多方面的突破, 但是在声学一语音学模型这一语音识别系统底层模型上依然还需要深入研究,具 体的问题表现在基本声学单元的选择和训练上。按照常理,声学单元越小,那么 一个语音信号的声学单元数量也就越多,那么训练模型和识别模型等各个环节的 工作量都会越大,而且声学单元如果很小,那么对上下文的敏感度也会很大,就 越容易受到前后相邻单元的影响而发生变化;反之如果声学单元很大,其声学单 元数量相对比较少,那么此时各种音联的内在关系就得不到充分训练,而且由于 各个音素的重复出现会造成大量的不必要的冗余计算和存储。因此在计算量,工 作量方面与充分训练的程度之间就存在着很大的矛盾,需要一个非常好的动态平 衡。所以声学一语音学模型的设计和训练样本的采集比较困难:其次是词层模型 和语言学模型,目前也还没有一种很好的模型可供大家借鉴。 因此,虽然现在有工作在研究汉语语音识别的声学模型,但是真正将这种 理论中的模型应用到实践中,还有很多工作要做。 1 4 第三章:语音识别的预处理和特征提取 第三章语音识别的预处理和特征提取 3 1 预处理 3 1 1 流程简介 在整个语音识别系统中要进行的第一个环节就是预处理。预处理在整个系 统中起着非常重要的作用,其主要步骤如图3 1 所示: 图3 1 预处理流程图 预加重的位置也可以放在分帧和加窗之间。这没有明确的限定。此外有的 系统为了获得更好的识别效果还会增添一些步骤,例如在低通滤波和端点检测之 间增加语音增强步骤,这样可以更好地加强系统的抗噪性能。语音增强是指语音 质量的改善或提高。实际语音都是在有噪声和干扰的环境下产生的,语音增强的 目的就是去掉语音信号中的噪声和干扰,改善它的质量。 端点检测对于用d t w 【l 2 ,8 ,一l ( d y n a m i ct i m ew a r p i n g ,动态时间弯折) 进行训练 和识别的系统是必须要做的,但对于使用h m m 的系统则可以省略,不过如果在 h m m 语音识别系统中,加入适当的端点检测步骤也可以起到一定的优化系统作 用,例如可以减少系统的插入、删除等错误。 3 1 2 采样和量化 语音信号是一个时间和幅度都连续变化的一维模拟信号【1 , 2 , 3 , 2 1 ,无法直接被 计算机处理,故语音识别的过程首先是一个对语音信号进行数字化处理的过程。 所谓数字化,就是将模拟的连续信号转换为数字的文件格式。这个过程我们称为 模数( a d ) 转化。模数转化要经过采样和量化两个过程,从而得到时问和幅度上 的离散数字信号。根据奈奄斯特采样定律,采样频率应为原始信号频率的两倍以 上,才能在采样过程中不会丢失信息,而且能从采样信号中准确的重构原始信号 的波形。此外在语音信号数字化之前,还必须先进行防混叠滤波,滤除高于1 2 采样频率的信号成分和噪声。 中山大学硕士学位论文:小语音库的语音识别及实现 语音信号所占据的频率范围可达1 0 k z ,而对语音清晰度和可懂度有明显影 响的成分主要集中在3 0 0 3 4 0 0 h z 范围内。其中正常人的发音范围是从4 0 h z 到 3 4 0 0 h z 左右,因此在本论文实验中,语音信号的采样频率均为8 k h z 。 波形声音( w a v ) 文件格式是w i n d o w s 环境中最常使用的音频文件。w a v 格式是将声音源发出的模拟音频信号通过采样、量化转换成数宁信号,再进行编 码存储的波形文件格式。而且它并没有对音频信号进行压缩,所以它保存了完整 的声音特征。因此在本论文实验中,所录制的声音文件都是w a v 格式的。 3 1 3 预加重 根据人体发声系统模型1 , 2 , 2 1 l ,语音受声带振动会导致语音信号的平均功率 谱受声门激励和口鼻辐射的影响。语音信号从嘴唇辐射出去后,高频端大约在 8 0 0 h z 以上的功率幅度有6 d b 倍频的衰减。高频部分能量较小,幅度较小,易 受噪音的干扰。因此,频率越高相应的成分越少,高频部分比低频部分难求,所 以在进行语音信号分析之前,需要预加重。它的主要目的就是去除声门激励和口 鼻辐射的影响,使得到的语音信号更能反应发声源本来的特性,具有一定的抗噪 性。预加重的方式是对语音的高频部分进行提升或者加重,滤除低频,尤其是 5 0 h z 或者6 0 h z 的工频干扰,使信号的频谱变得平坦,保持在低频到高频的整个 频段中,幅度相当,使得能用同样的信噪比去求频谱,便于频谱分析。 语音信号的预加重一般在模数转化后进行,利用6 d b 倍频的一阶数字预加 重滤波器实现。预加重处理如公式( 3 1 ) 所示: j ,k 一1 】= x k 】一x k l 】 ( 3 1 ) 其实现框图3 2 为: = 芦 图3 2 这相当于在原始语音进行处理之前,先让它经过一个滤波器,该滤波器的 系统函数为: 日( 2 ) = 1 一z z 一1( 3 2 ) c o d e s ) 是一类可以用非常稀疏的校验矩阵h ( p a 而- t y c h e c km a t r i xh ) 或二分图( b i p a n i t eg r a p h ) 来 描述的线性分组纠错码,由r g g a l l a g e r 于1 9 6 2 年首次提出。g a l l a g e r 证明l d p c 码的最小汉明距 离随着码长的增加而线性增加,并且进行后验概率 迭代译码时具有随码字长度增加而比特错误概率 降低的特征,是一种渐进好码。1 9 9 6 年,m a c k a y 和 n e a l 从现代编码理论观点出发,证明利用迭代译码 算法的l d p c 码具有逼近香农限的性能。 2 b p 译码算法 建立在t a n n e r 图上的l d p c 码,其b p 译码的 每次迭代包括两步:校验节点的处理和变量节点的 处理。在每次迭代中,所有校验节点从其相邻的变 量节点处接收消息,处理后,再传回到相邻的变量 节点;然后所有的变量节点进行同样的过程。最后 变量节点收集所有可以利用的消息进行判决。在 l d p c 码的译码过程中,每一个校验( 或变量) 节点 可以看作是一个处理器,所有校验( 或变量) 节点的 处理可以同时进行,因此利用并行结构可以构造高 速l d p c 码的译码器。 根据消息的表示形式,b p 译码可以分为概率 b p 算法和l l rb p 算法。概率b p 算法的消息是用 概率形式表示,是b p 算法的通用形式,可以适用非 二进制的l d p c 码的译码。对二进制l d p c 码,消 息可以表示为对数似然比形式,相应的译码算法称 为l l rb p 译码。 ( 1 ) 概率b p 算法 设调制后每一个码字c = ( c 。,c :,c 。) 映射为 传输序列z = ( z ,戈:,) ,通过信道传输后,接 收到的序列为y = ( y ,) ,:,扎) 。根据) ,译码得到 译码序列为占。 2 0 0 9 三7 r 鬟毳羹霾 j 垂;2 0 0 9 囊7 篓 e l e c t r o n l c t e s t n o 一7 囊薹m c u 萋l a b v i e w 蓊羹羹霪雾羹薹篓薹蓁鬻藿蓁蓁 蠹藿羹霉= 囊纛 ;鋈墓翼萋薹霎囊冀羹姜薹萋鋈蓁塞蓁4 3 4 0 2 3i 哩霪;萋茎霆囊攀萋蠢霪m c u 妻l a b v i e w 篓萋薹裔峙萎毫矍蠹妻霪日月叁,萎堇萄些雾茎馨霪薹薹薹耄霎 雯囊鋈霎鉴i 一薹薹雾塞耋懦叁篓耋薹蓁茎鬓曩主囊i 薹| 誊薹雾蓦;:鍪冀一彗羹冀萎豸藩;曼雾妻夔薹篓雾冀 薹;荔翼鐾薹! 撑墓l 鬟雾骑霎霎霎学琴囊霪薹雕琶羹薹褰囊;藿薹骊嚣羹萌型鋈鎏妻雾毳西主薹鬟羹哆囊薹雾 囊囊篓霎j 霎羹蕈蚕墓薹囊冀婆霎篓蓁鎏鍪饪;惑羹鏊雾霞;鏊i l 霪鍪薹n 里至一。蠢墓孽耋ii 二囊粪篓蒌 鋈零2 0 0 ;7 2 0 a 。6 0 0 1 5 0 0 a 蠹;霎薹蠢薹蠢薹萋墓雾妻0 = 1 羹; 蒸雾薹i 霎羹薹霪! 囊 系统资源,方便实时分析 的效果。而端点检测的好坏无疑将影响识别率的高低,由于大多数声母是清声, 塞音和塞擦音,其能量非常小,与环境噪声区别开来是比较难的。目前,小词汇 量孤立词语音识别系统多采用dtw算法,而大词汇量连续词语音识别系统 则以采用hmm算法居多。对于dtw算法,要求有比较精确的端点检测算法进 行预处理,hmm算法可以通过端点检测减少插入与删除等一些错误,提高识别 率。由于本沦文实 验主要是小词汇量的汉语语音识别,采用的主要是dtw算法。所以端点 检测占着举足轻重的作用。此外由于系统中也包含连续词语音识别,故对端点检测 的要求有了很大的提高。将多个汉字检测为个汉字或将一个汉字检测为多个汉 字等等很多错误都会极大的影响最终的识别结果。但是鉴于各方面条件的有限性 x 互感器在线校验系统的设计,实现了对2 2 0k v 电 流互感器在线高精度的校验。 1 系统结构与原理 本文在线校验系统用电流互感器( 简称被校通 道) 对计量回路进行监测和校对。将标准的在线电 流测量输出( 简称标准通道) 与在线测量的被校验 道信号进行比对,获得两路测量信号之间的比差和 角差。根据比对结果,可判断出该被校验电流互感 器的误差是否在允许的范围内,结构框图如图1 所 示。 i i i _ i _ _ 。_ 1 传感部分p 高压哗线标丁 准陌赢 遁j 采集与通信 遭l t - 一光纤i集篓嚣瞄蓟 采集。j 通信i 匕= = 二三l 一 图1 系统结构框图 2系统设计要点分析 2 1 系统误差分配 从信号获取的流程分析,该在线校验系统可分 解成一次电流测量、信号采集与通信及数据处理3 部分,误差主要来源于一次电流测量以及信号采集 与通信。为了使系统精度达到0 1 级,误差分配 时,每一档电流测量范围内传感部分的误差小于 0 0 7 ,传感信号的采集与通信部分的误差小于 0 0 3 。鉴于以上要求,本在线检验系统中标准通 道的传感部分采用基于p c b 的钳形空芯线圈,被校 通道的传感部分采用电磁式钳形电流互感器,传感 第三章;语音识别的预处理和特征提取 罔33 是其中一个端点检测实验结果 品 。1 6 0 拿柏 u2 0 0 3 。 5 加 1 0 0 n j 厂,一n 飞一 3 2 3 白适应门限算法 圈33 汉字你的双门阻端点检测结果 本论文实验开始是用传统的双门限检测算法,而通过实验也发现这种方法检 测前先要根据经验值或根据环境噪声来估计门限造成了端点检测的结果对噪声 非常敏感,抗噪性比较低, 于是结合r 参考文献口”所给出的一种改进的方法变帧长自适应门限的端点 榆测方法。该方法的门限是随语音信号的变化而变化,q i 需要通过人丁干预调整 门限。同时帧长可变,在语音静音段时采用较长的宙,存语音和静音的过渡段时 采用较小的窗,可以确切判断语音的起始点,一旦确定语音的起点就改用常规 窗长,这样做的好处是既可以提高语音处理速度叉可以精确检测语音的端点。 3 3 特征参数的提取 3 3 1 常用声学特征 声学特征( 又称特征矢量) 的提取选择是语音识别的一个重要环节。原始的 语音信号是时域波彤,含有大量冗余信息,直接对其进行处理不但效率很低,而 且对识别效粜也不好,冈此必须通过定的变换,拙取数据的一般特性作为参数 进行比较识别。声学特征的目的就是去掉原始语音信号中的相关性,并且突出那 些对识别有利的信息,使模式识别器能更好地区别不同的声音。提取的语音特征 第三章t 语音识别的预处理和特征据取 时能量和短时过零率图像的曲线波峰波谷比较多而且曲线波动比较频繁虽然 振幅不是根太。所以需要对他们进行一个平滑。 平滑具体的计算方式是:每一帧的平滑后的短时能量或者短时过零率等于它 原始的短时能量或者短时过零率的前后m 帧的平均值。 如果是前瑚或者后面小于m 的帧数为了不会造成溢出,可以直接定义为 原始的值。通过这个计算实验证明短时能最和短时过零率的曲线确实得刘r ,p 滑的效粜对实验中关,波峰波谷的端点检测分割算法起到了很大的简化作用, 大大提高了语音分割的效率和正确率。如图3 4 。图3 5 分别是原始的短时能最 和过零率和已经、r 滑后的短时能最和过零率的曲线: 2 0 4 o 6 o b 0 1 0 0 2 0 口o1 4 01 目瑚 e 。o l :4 。0 刚3 , 4 词组收到的原始的信号和l 短时能量和过雩率的罔像 2 0 0 0 4 0 0 00 瑚b t ) 0 0 0 0 0 01 a 0 0 01 4 嘟1 锄 图35 词组收到的原始的信弓和平滑后短时能最和过零率的刚像 中山大学硕士学位论文:小语音库的语音识别及实现 2 ) 基音周期【1 2 2 1 ,3 8 】也是语音信号中一个非常重要的参数,基音是指发浊音 时声带振动的周期性,基音周期则是声带振动频率的倒数。由于基音周期只具有 准周期性,所以暂时只能采用短时平均方法估计该周期,这个过程就称为基音周 期检测。 基音周期的检测方法大概可分为三类: l 、波形估计法,直接使用语音波形来估计基音周期,分析出波形上的周期 峰值等。 2 、相关处理法,先将信号提取声道模型参数,然后利用它对信号进行逆向 滤波,得到音源序列,最后再利用自相关法求出基音周期。 3 、变化域法,将语音信号变化到频域或者倒谱域来估计基音周期,虽然基 音周期估计效果好,但这种方法的计算量较大而且复杂。 3 3 3 频域特征参数 在语音信号的频域特征参数中,目前使用最为广泛的是线性预测倒谱系数 ( l p c c ) 和美尔频率倒谱系数( m f c c ) 【2 1 , 3 9 , 4 0 , 4 1 , 4 2 】。语音信号的l p c 特征和m f c c 特 征主要反映语音的静态特征,语音信号的动态特征可以通过这些静态特征的差分 谱来描述。将这些动态信息和静态信息结合一起,能够很大程度上提高系统的识 别性能。 线性预测倒谱系数的主要思想是利用语音信号采样点之间的相关性,用过去 的样点值来预测现在或者未来的样点值,也就是一个语音信号的抽样能够用过去 若干个语音抽样或者它们的线性组合来逼近。它是采用最小均方误差逼近的方法 来估计模型的参数。倒谱是指频域内语音对频谱的傅里叶逆变换。线性预测倒谱 系数是线性预测系数l p c 在倒谱域中的表示,利用线性预测分析得到倒谱系数, 线性预测倒谱系数的求取过程如下图所示: 2 4 第三章:语音识别的预处理和特征提取 语音 图3 6 求l p c c 的流程 一般计算l p c c 系数的公式如下: c ( 1 ) = a 。 n - l p c ( 胛) = a 。+ ( 1 一兰) 口。( 聆一后) ,1 刀p ( 3 7 ) k = l n c ( 刀) = 圭( 1 一生) 口。c ( ,z 一后) ,甩 p 其中c ( n ) 为倒谱系数,a 。为预测系数,p 为预测系数的阶数,1 1 为倒谱系数 的阶数。 l p c c 参数的优点是计算量小,对元音有较好的描述能力,现在l p c c 在语音 识别的各个领域中都有相当多的应用。如;说话人识别的应用【4 3 1 ;说话人无关 的连续语音识别中的应用【4 4 1 。其缺点在于对辅音的描述能力比较差,抗噪声性 能比较差。它在所有的频率都是线性逼近语音的,这与人的听觉特性不一致;而 且包含了语音高频部分的大部分噪声细节,这些都会影响到系统的性能,并且它 对采样率的变化有敏感的反应。 而美尔频率倒谱系数与线性预测系数不同,它是将人耳听觉感知特性与语音 的产生相结合的一种特征参数。现在很多通过对人的听觉机理的研究发现,当两 个频率
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 基于机器学习的熔炼过程预测建模-洞察阐释
- 噪音暴露与听力保护研究-洞察阐释
- 物联网与多传感器融合优化-洞察阐释
- 工业互联网-洞察阐释
- 重庆财经职业学院《社会体育学》2023-2024学年第二学期期末试卷
- 辽宁工业大学《师德与教育政策法规》2023-2024学年第二学期期末试卷
- 漳州理工职业学院《证券投资学》2023-2024学年第二学期期末试卷
- 德阳科贸职业学院《基础医学概论(二)》2023-2024学年第二学期期末试卷
- 许昌学院《照明工程施工及管理》2023-2024学年第二学期期末试卷
- 大连职业技术学院《民族传统人居生态智慧实验》2023-2024学年第二学期期末试卷
- 《基础护理学(第七版)》考前强化模拟练习试题库500题(含答案)
- 国家开放大学《应用写作(汉语)》形考任务1-6答案
- 2024年西藏初中学业水平考试生物卷试题真题(含答案解析)
- 非法医疗美容培训
- 成人脑室外引流护理-中华护理学会团体 标准
- 顺丰运作主管
- 2024年代持挂名法人协议书模板范本
- 植物蛋白功能性修饰优化
- 2024年黔东南州能源投资限公司招聘(高频重点提升专题训练)共500题附带答案详解
- JGJ100-2015 车库建筑设计规范
- 2024年陕西省西安市碑林区西北工业大学附属中学丘成桐少年班选拔复试数学试题
评论
0/150
提交评论