




已阅读5页,还剩51页未读, 继续免费阅读
(信号与信息处理专业论文)基于快速沃尔什变换的藏语音识别技术.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
西南交通大学硕士研究生学位论文第1 页 摘要 藏语音识别技术由于研究的起步较晚现在还处于初级阶段,且使用人口众 多,能促进藏族同胞与外界的学习交流,影响到民族团结和国家稳定,所以对 藏语音识别技术的深入研究和识别系统的广泛应用具有重要意义。 对于藏语音孤立词识别而言,当语音库逐渐扩充的时候,识别速度将越来 越不能满足实时性的要求,对孤立词识别系统的实际应用造成很大限制。为了 解决这个问题,将快速沃尔什变换应用到提取m f c c 特征参数中,使提取和计 算特征参数的时间大为缩短,有利于识别系统实时性的实现。 对于连续藏语音识别而言,如何准确的将其分割成可供识别用的藏语音单 元是进行连续藏语音识别的重要前提。首次将基于小波变换的两次筛选和 m f c cf w t 的分割算法应用到连续藏语音的分割中,将连续藏语音分割成孤 立的语音单元后再进行识别。 主要工作和贡献如下: 1 对藏语的发音特点和藏语句子的句法特征进行了分析,介绍了藏语音识 别系统的基本原理,对预处理和端点检测技术进行深入研究。 2 对m f c c 的特征提取算法进行介绍,并根据其在实际使用中计算速度不 尽人意的问题将快速沃尔什变换应用其中,改进后提取m f c c 的速度得到很大 提升,并且能保证提取参数的有效性。 3 对d t w 和h m m 两种识别算法分别进行分析并应用到中等词汇量藏语 音孤立词识别系统中。d t w 算法对特定人的孤立词识别简单有憨,h m m 算法 具有极强的建模能力,可以方便的表征任何语音基元,对孤立和连续的藏语音 都具有很好的识别效果。 4 首次将基于小波变换的两次筛选和m f c cf w t 的分割算法应用到对连 续藏语音的分割中,将连续藏语音分割成孤立的藏语音单元后再进行识别,大 大简化了连续藏语音识别系统实现的难度。 关键词:藏语音识别;美尔频率倒谱系数;快速沃尔什变换;相关;连续藏 语音分割 西南交通大学硕士研究生学位论文第1 l 页 a b s t r a c t t h er e s e a r c ho ft i b e t a ns p e e c hr e c o g n i t i o ni s s t i l li nt h ei n i t i a ls t a g ed u et o t h ev a r i o u sr e a s o n s b e c a u s et h e r ci sal a r g ep o p u l a t i o nu s et i b e t a na n d d e v e l o p m e n to ft h et e c h n o l o g yc a np r o m o t ea c a d e m i ce x c h a n g ea n dc o n n e c t i o n b e t w e e nt i b e ta n do u t s i d ew o r l dw h a tm a k e sg r e a ts e n s ei np r o m o t i n gn a t i o n a l u n i t ya n ds t a b i l i ty s oi tp l a y se x t r e m e l yi m p o r t a n tr o l ei nw i d er a n g ea p p l i c a t i o n s o fs p e e c hi d e n t i f i c a t i o ns y s t e m s i d e n t i f i c a t i o ns p e e di so n eo ft h em o s tp r i m et a r g e t sf 0 rt h er e c o g n i t i o no f i s 0 1 a t e dt i b e t a ns p e e c h b u ti tw i l lb eu n a b l et om e e tt h er e a l 一t i m er e q u i r e m e n t w h e nt h ev o c 2 l b u l a r yi n c r e a s e sg r e a t ly t h ef a s tw a l s ht r a n s f o mw a sa p p l i e dt o e x t r a c tt h ef c a t u r ep a r a m e t e r si n s t e a do fm f c ct os 0 1 v et h i sp r o b l e m i ts h o r t e n s t h ed u r a t i o no fp a r a m e t e r sc a l c u l a t i o na n dt h es y s t e m si m p r o v e do b v i o u s l y f o rt h er e c o g n i t i o no fc o n t i n u o u st i b e t a ns p e e c h ,t h ep r e c i s i o no fd i v i d i n g t h ec o n t i n u o u s s p e e c h i n t ou n i t sd e t e m i n e st h e r e c o g n i t i o n e f f b c t m f c c f w ta n d s c r e e n e dt w i c eb a s e do nw a v e l e tt r a n s f o m s e g m e n t a t i o n a l g o r i t h m w e r ea p p l i e dt o p r o c e s st h ec o n t i n u o u ss p e e c 阜 o ft i b e t a n s ot h e c o n t i n u o u ss p e e c hw a sd i v i d e di n t ou n i t sa n di tc o u l db ei d e n t i f i e d t h em a i nw o r ka n dc o n t r i b u t i o n sa r ca sf b l l o w s : 1 a n a l y s i st h et i b e t a np r o n u n c i a t i o nf e a t u r e s a n ds e n t e n c e s s y n t a c t i c f c a t u r e s f i r s t l y i n t r o d u c et h eb a s i cp r i n c i p l e so ft i b e t a ns p e e c hr e c o g n i t i o n s y s t e m i n d e p t hp r e s e n t e dt h ep r i n c i p l e so fp r e p r o c e s s i n ga n de n d p o i n td e t e c t i o n t e c h n o l o g y 2 i n t r o d u c e dt h ea l g o r i t h mo fm f c c i n t r o d u c et h ef a s tw a l s ht r a n s f o mi n t o i tt oi m p r o v et h ec o m p u t a t i o n a le f f i c i e n c y a r e rt h ei m p r o v e m e n t ,t h ec o m p u t e d s p e e di n c r e a s e dg r e a t l y a n di tc a na l s oe n s u r et h ee f f 宅c t i v e n e s so fc h a r a c t e r i s t i c p a r a m e t e r s 3 p r e s e n tt h eb o t hd t w 粕dh m m r e c o g n i t i o na l g o r i t h m sa n da p p l i e dt h e m i n t ot h ei s o l a t e dw o r dt i b e t a ns p e e c hr e c o g n i t i o ns y s t e mo fm e d i u mv o ca _ b u l a r y d t wa l g o r i t h mi sr a t h e rs i m p l ea n de 行e c t i v ef o ri s 0 1 a t e dw o r dr e c o g n i t i o no fa p a n i c u l a rp e r s o n h m ma l g o r i t h mh a ss t r o n gm o d e l i n gc a p a b i l i t y ,s oi tc a n c o n v e n i e n t l yr e p r e s e n ta n yv o i c e b a s e de l e m e n t h m mi ss u i t a b l ef o rb o t h i s o l a t e dw o r da n dc o n t i n u o u ss p e e c hr e c o g n i t i o ns y s t e m s 4 m f c cf w ta n ds c r e e n e dt w i c eb a s e do nw a v e l e tt r a n s f b mw e r e 西南交通大学硕士研究生学位论文第1 ii 页 a p p l i e dt ot h es e g m e n t a t i o na l g o r i t h mo fc o n t i n u o u ss p e e c h i nt i b e t a nf 0 rt h e f i r s tt i m e t h e nr e c o g n i z et h ec o n t i n u o u ss p e e c ha f t e ri tw a sd i v i d e di n t ot h e i s o l a t e du n i t s i t g r e a t l ys i m p l i 疗e s t h e s y s t e m sr e a l i z a t i o nd i f n c u l i t i e s f 6 r c o n t i n u o u st i be t a ns p e e c h k e y w o r d s : t i b e t a n s p e e c hr e c o g n i t i o n ;m f c c ; f a s t 、再,a l s ht r a n s f o m ; c o r r e l a t i o n ;c o n t i n u o u st i b e t a ns p e e c hs e g m e n t a t i o n 西南交通大学硕士研究生学位论文 第1 页 1 1 研究背景及意义 第一章绪论 近年来国内外语音识别研究蓬勃发展,汉语、英语的语音处理技术突飞猛 进,然而在我国同样有着悠久历史,且使用人口众多的藏语技术研究却相当薄 弱。国内对藏语言的重文字而轻语音技术的研究状态形成了鲜明对比,境外有 些机构在藏语音技术方面作了许多工作,其中不乏有政治意义上的应用。藏语 音识别技术的问世不仅可以为西藏的文化、经济、教育等一系列的应用领域解 决语言不通的障碍,也将民族语言推向世界,为西藏的发展更好的服务。因此 加大国内的藏语音技术研究力度,使广大藏族同胞切实感受到国家的关心和重 视,已成为关系民族团结与社会和谐稳定的重大政治问题。 目前国内的藏语音研究多数集中在藏语音孤立词的预加重、端点检测、基 音周期检测和语音特征提取等初级阶段。声学建模、语言学建模和连续藏语音 识别等方面仍有待进行深入的研究。如何将特定人的大词汇量藏语音识别系统 实用化;如何实现对连续藏语音的准确分割和识别;如何将现有的计算听觉场 景分析、盲信号处理方法用于藏语音处理,从多说话人藏语音和背景声中分割 出“可用藏语音段”来提取藏语音信息;如何在回波及噪声条件下,用自适应 滤波、波束形成等技术分离感兴趣的藏语音成分等都是藏语音研究中厄待解决 的问题。总之,目前国内的藏语音处理技术还极不完整,迫切需要在现有语音 处理技术的基础上发展适用于藏语音的信号处理技术。 本文总结前人的对藏语音识别的研究成果发现,当前研究阶段存在的两个 主要困难如下: ( 1 ) 对藏语音的孤立词识别而言,在词汇量不断扩大的情况下,识别速度 和准确率会逐渐下降。因此有效地改善当词汇量逐渐增大时识别的速度和准确 度是藏语音孤立词识别技术向前发展的一个重大飞跃。为了解决这个问题最有 效的办法就是在保证准确识别的前提下,提升识别过程中的数据计算速度。 ( 2 ) 对于连续藏语音识别技术而言,现在面对的首要困难就是如何将连续 藏语音句子分割成可训练和识别用的孤立藏语音单元。为了保证连续藏语音分 割后识别的准确率,分割的精度尤为重要,因此找到一种有效的分割算法是连 续藏语音准确识别的前提。 本文主要针对以上两个困难进行了深入的分析研究,对藏语音孤立词识别 系统中的特征参数的计算方法进行了改进,有效的提升了特征参数的计算速 度,保证词汇量增大时系统同样能能快速准确的进行识别。对连续藏语音进行一 西南交通大学硕士研究生学位论文 第2 页 了有效地分割,大大简化了连续藏语音识别系统的难度,保证其能准确识别。 1 2 国内外研究现状 语音识别技术的研究起始于二十世纪中期,当时的研究理念多是基于共振 峰分析的方法;b e l l 实验室在1 9 5 2 年成功研制开发了一个特定人的英语孤立 数字语音识别系统,开启了语音识别发展历程的里程碑【l 】。与此同时,m i t 林 肯实验室研制出了能识别1 0 个元音的非特定人识别器【2 】【3 1 。 六十年代,随着计算机技术的快速发展,语音识别所需要的硬件和软件的 需求逐渐得到满足和巩固【4 1 。随后动态规划技术( d y n a m i cp r o g r a m m i n g ,d p ) 和 线性预测分析技术( l i n e a rp r e d i c t i o n ,l p ) 的相继出现为语音信号模型的产生 提供了可靠的保证,语音识别中存在的不等音长的对正问题通过d p 技术得到 较好的解决【5 】【6 1 。 提取语音谱特征参数的技术出现于七十年代,当时主要采用的是线性预测 编码的方法( l i n e a rp r e d i c t i o nc o d i n g ,l p c ) 【7 】,在此基础上演化出来了线性预 测倒谱系数( l i n e a rp r e d i c t i v ec e p s t r a lc o d i n g ,l p c c ) ,这两种语音特征参数提 取方法的成功应用将语音识别的研究进程向前推进了一大步。但是这两者的共 同缺点是都没有充分的利用人耳的听觉特性,识别效果总是不能令人满意。美 尔频率倒谱系数( m e lf r e q u e n c yc e p s t n l mc o e 伍c i e n t ,m f c c ) 的典型特征是成 功的将人耳的听觉特性引入到语音识别的研究中来,该系数的突出特点是充分 利用了人耳的听觉感知特性,有效的解决了语音识别准确率低的难题,至今还 得到广泛的使用。l p 技术在理论上得到进一步的发展,动态时间规整( d y n a m i c t i m ew a r p i n g ,d t w ) 技术【8 】【9 】日渐成熟,模式识别技术也开始在语音识别系统 中初步应用。 到了八十年代,连续语音识别逐渐发展成为研究的热点【3 】。矢量量化技术 ( v e c t o rq u a n t i z a t i o n ,v q ) ,隐马尔可夫模型( h i d d e nm a r k o vm o d e l s ,h m m ) 和人工神经网络( a n i f i c i a ln e u r a ln e t w o r k ,a n n ) 在语音识别中相继得到成功 应用。v o 的最主要特点是无需进行时间规正或动态时间伸缩的处理工作,其 不足之处是无法解决由话者差别引起的语音特征变化的问题【1 0 】。h m m 的主要 优点是具有对动态时间序列极强的建模能力,但是缺点是其分类能力比较差, 必需有语音信号的先验统计知识作为基础【1 1 1 。h m m 不但有一套高效的算法计 算参数,而且可以很方便的表征各种语音基元,正逐渐成为语音识别算法的研 究重点【1 2 】【13 1 。 随着九十年代多媒体技术的盛行,研制商用的语音识别系统成为大势所 西南交通大学硕士研究生学位论文 第3 页 趋,鲁棒语音识别逐渐成为研究的热点【l4 1 。为了克服语音识别算法各自的缺点, 强化其优点,许多学者将多种识别算法结合起来使用,取到了很好的识别效果 【1 5 】。到了九十年代末期,小波变换理论被应用到语音识别领域中来满足识别率 必须不断提高的难题【1 6 】。语音识别发展至今,其理论和研究方法总结为如下两 个方面:一方面是通过将神经网络理论和小波变换技术结合起来分析和模拟人 的听觉感知特性。另一方面是把语音信号当作一种短时平稳信号来进行处理, 如何建立更完整的语音模型是进一步深入研究的方向。与此同时,语音识别产 品的实用化随着语音识别技术的发展而越来越广泛。语音识别系统的商品化起 始于八十年代中期。d s p 技术的发展和成熟促进了语音识别产品的实用化进程 【1 7 】,其中最典型的就是i b m 公司的v i av b i c e 听写机和剑桥大学的h t k 系统, 微软也在其多个主流产品中集成了多种语音识别技术【l8 1 。 国内藏语音识别的研究工作从2 0 0 5 年才开始启动,首先出现了对合成藏 语音的频谱分析转换的藏语音处理技术【l9 】【2 0 1 。藏语音信号的多级特征参数提 取的方法和端点检测技术随后出现【2 ,对藏语音的预处理技术的研究开始于 0 6 年,为藏语音的进一步处理打好基础【2 2 1 。2 0 0 7 年建立藏语音单音节数据库 方法的出现将藏语发音特性等方面的研究进程又向前推进了一大步【2 3 1 。为了更 好的抑制藏语音识别过程中噪声的影响,2 0 0 8 年研究产生了基于动态贝叶斯 网络( d y n a m i cb a y e s i a nn e t w o r k ,d b n ) 【2 4 】和将r b f 网络与自动听觉特征相结 合【2 5 】的两种语音识别算法应用到藏语音的识别中。 到了2 0 0 9 年,为了提高大词汇量连续藏语音识别的准确率,出现了以三音 素【2 6 】和以半音节【2 7 】为基元建立藏语连续语音库的技术,为连续藏语音识别的 进一步发展提供了基础。深入研究d b n 语音识别算法并将其用于连续藏语音的 识别中,克服了h m m 假设各观察序列必须是独立的缺陷【2 引。在d b n 的基础上 对藏语音信号进行积极的学习,与传统的d b n ,h m m 和a n n 的方法相比,在 保证识别率不变的情况下大大的减小了藏语音库标注的工作量【2 9 1 。藏语孤立词 语音识别系统【3 0 】的出现标志着藏语音识别技术即将进入实用阶段。 2 0 10 年,主动学习和半监督学习开始加入到藏语音识别中,来最小化人工 转录和标注所花费的代价【3 1 】【3 2 1 。在对话藏语音识别中,长元音和短元音是一 种重要的语音音素,通过对两者之间的发音方式,音质,基频和发音持续时间 进行统计分析来研究在音素系统中元音的长短所起的作用【3 3 1 。 虽然藏语音识别技术的起步较晚,但是有对英语和汉语语音识别的研究基 础,藏语语音识别技术已经在其预处理、端点检测、藏语语音韵律参数提取、 语音数据库的建立及藏语孤立词语音识别系统等方面都取得了理想的成果。而 接下来的藏语连接词语音识别、非特定人的大词汇量的藏语连续语音识别、藏 西南交通大学硕士研究生学位论文 第4 页 语关键词识别、藏语音信息检索和连续藏语音识别等技术仍是我们未能实现却 必须面对的挑战。 1 3 本文内容安排 本文通过应用快速沃尔什变换对提取m f c c 特征参数的算法进行了改进, 有效的提高了计算特征参数的速度;将基于小波变换的两次筛选和 m f c cf w t 的分割算法应用到连续藏语音的分割中,大大简化了连续藏语音 识别系统的实现难度。 本文的主要工作及内容安排如下: 第二章,藏语音识别系统基本理论。本章首先分析了藏语音的发音特点和 连续藏语音的语法句法特征;然后给出藏语音识别系统的基本原理,并对藏语 音识别前的预处理等工作分别进行了介绍;最后给出了双门限端点检测方法的 原理和实验仿真结果。 第三章,基于快速沃尔什变换的藏语音特征参数提取研究。本章首先对 m f c c 特征参数的提取原理和过程进行了系统的介绍;然后对快速沃尔什变换 进行分析并将其应用到m f c c 的提取过程中来替代通常用的f f t 变换,并给 出改进的理由和改进前后的实验对比仿真结果。 第四章,藏语音孤立词识别技术研究。本章主要介绍了d t w 和h m m 两 种识别算法,将其分别应用到中等词汇量藏语音孤立词的识别系统中,并对其 识别系统的性能进行评价。 第五章,连续藏语音分割及识别。本章首先介组了基于小波变换的两次筛 选和m f c cf w t 的连续藏语音分割方法,分割完成后运用h m m 和d t w 算 法进行识别。 西南交通大学硕士研究生学位论文 第5 页 第二章藏语音识别系统基本理论 2 1 藏语特点分析 藏语是汉藏语系藏缅语族藏语支,是一种具有很大影响力的民族语言,主 要在青海,四川,云南,甘肃,西藏自治区和印度,不丹等地区使用,使用人 数约6 15 万人。 7 不同藏语音的区别主要是由于发音部位和发音方法的不同决定的,传统的 发音器官大概有如下三个部分:动力器官( 胸和肺部) 、发音体( 声带和喉) 和共鸣器( 鼻腔和口腔) 。这三个部分相互作用从而产生了不同内容的语音。 而藏语音的发音器官主要有如下部位:胸部( 目 1 ) ,喉部( 图气。q 1 ) ,上腭 ( 叫币气1 ) ,舌( 窘1 ) ,鼻腔( 翟。图 。1 ) ,脑腔( 冈气。q 。1 ) ,齿( 式1 ) 和唇 ( 因西。商。1 ) 【3 4 1 。 v i 、 藏语主要由4 个单元音闽。愚闽阕1 和3 0 个辅音字母1 尸q 。5 。击 乓弓丐。目。气。百日。司目因苍。击乓图q 司仅q 弋冈q 。翁。弓阏1 组成,每个音节都可以横向或者纵向拼写。藏文是多字母构成的音节,这是藏 文不同于一般拼音文字的一个重要特点,藏文音节组成至少包含一个字母,最 多不超过七个字母【3 纠。藏语中的3 0 个辅音字母都可以充当基字,可以带上元 音,前加字,后加字,又后加字,上加字和下加字,每个音节都必须有基字, 见图2 1 【3 5 】所示。 在汉语中,一个字就代表一介音节,是成词、成句的最基本的语音单位。 同样也可以将汉语的词组或者句子分成一个个独立的字或者词。但是在藏语语 法中,每个字母都具有阴性、阳性和中性的区别,又可分为字根类、前加字类、 后加字类和又后加字类等;通过这些分类在一定的规则下将字母组织成音节, 词汇或者句子,在其字性组织结构上必须结合后加字才能表达一定的意思【3 6 1 。 对于连续藏语音而言,其句法结构和汉语句子有很大的不同,汉语动词句 式的句法结构主要由“主谓宾”的结构组成,主语在前,动词居中,谓语最后, 句法结构和理解的顺序相对应,通俗易懂。但是藏语属于“动居句尾”的结构, 即动词一般都在句子的最后【37 1 。比如在汉语中的句子“我一喜欢一向日葵 在藏 语中的旬序为“我一向日葵一喜欢( 弓因因亏1 。闰气1 仅。目囱气。1 ) ”。所 以对藏语音句子的理解应该按照它本身的语法句法特点先调整语序再组合成 西南交通大学硕士研究生学位论文第6 页 句子。 上加字 基 又后加字 下加字 后加字 图2 一l 藏文结构图 2 2 藏语音识别技术的基本原理 2 2 1 藏语音识别系统的结构 藏语音识别的原理是模式识别和匹配的过程。识别过程分为两个阶段,第 一个阶段是建立藏语音模型,对藏语音信号进行分析,提取有效的藏语音特征 参数,将这些藏语音特征参数用机器存储起来作为标准模式,由此建立藏语音 识别所需要的模板,这个过程是“训练”阶段;第二阶段是按照同样的方法提 取待识别的藏语音信号的特征参数,并将其与已经存在的模板进行匹配计算, 按照一定的匹配和搜索规则,找出与待识别的语音最匹配的模板,通过识别出 的模板所对应的模板号,就可以得到识别结果,这个过程被称为“识别”阶段 【5 】【9 1 。通过上述的“训练”和“识别”的过程,就构成了一个最基础的藏语音 识别系统。 藏语音识别系统的原理图如图2 2 【5 】所示: 藏语 图2 2 藏语音识别系统原理框图 褚上 因j 一 可i 一 目 西南交通大学硕士研究生学位论文 第7 页 2 2 2 藏语音识别系统的分类 藏语音识别系统根据不同的应用范围和不同的性能要求,系统的设计和实 现方法不同,分类方法也不一样。常见的有如下几种分类方式: ( 1 ) 小词汇量,中等词汇量和大词汇量藏语音识别系统 随着藏语音识别技术的不断向前发展,识别的词汇量也在不断地增大,同 时对系统各方面的性能要求越来越高。如果只是为了实现一个藏语音拨号系 统,那么该系统只要能准确的识别十个数字的藏语音就可以了,这属于小词汇 量藏语音识别系统,一般最多包含5 0 个以内的词汇;如果要完成一个天气预 报查询系统,那么这个藏语音库应该包含所有城市的名称,这属于中等词汇量 藏语音识别系统,这种系统的词汇量的范围在5 0 一10 0 0 之间;如果这个系统 是要实现一个藏语音听写打字机的功能,那么它应该对常见的藏语都能准确的 识别,这属于大词汇量藏语音识别的范畴,一般指1 0 0 0 词汇以上的系统【5 1 。 ( 2 ) 孤立字,连接词和连续藏语音识别系统 孤立字识别系统一般用于简单命令的藏语音控制系统中,例如想对一个声 控汽车玩具进行控制,只需要能识别出“前进”,“后退”,“左转”和“右转 等简单的词汇即可;连接词识别系统一般特指的是对由0 9 中的多个数字构成 的词进行识别。随着语音识别技术的快速发展和应用,连续藏语音识别已经成 为大势所趋【5 】。 ( 3 ) 特定人和非特定人藏语音识别系统 特定人识别系统是指主要对一个人的藏语音进行识别,使用之前必须由特 定的用户输入大量的藏语音进行训练,训练的越充分,识别率越高,常用于个 人使用的藏语音听写机等场合;非特定人识别系统是指对任何人都能进行识别 【5 】,由于每个人的发音和语音特征差异较大,要达到较高的识别率难度很大, 所以系统必须从大量的不同人的藏语音数据中学习到非特定人的发音方式,语 音的强度和发音的速度等信息,常用于门禁系统中。 2 2 3 藏语音识别系统的性能评价 近年来很多语音识别系统已经投入商用,其中以汉语和英语的识别系统最 为常见,藏语音识别系统的商用化还有一段研究历程。在实验室评价藏语音识 别系统性能的好坏有如下两个主要标准:识别准确率和识别速度。 ( 1 ) 识别准确率 在藏语音孤立词识别系统中,用正确识别词的数量与总的词条数之比来表 西南交通大学硕士研究生学位论文第8 页 示识别的准确率。 识别率= 号澄 ( 2 1 ) 在连续藏语音识别系统中,通常用该连续藏语音中的词正确率来评测识别 准确率【38 1 。 词正确率= 主量篓蒌糕 c 2 2 , ( 2 ) 识别速度 识别速度一般定义为识别一秒钟内输入藏语音所需要的时间,用实时因子 i 汀来描述【38 1 。例如3 r t 意味着识别的时间是原语音信号持续时间的三倍。 2 3 藏语音识别的预处理 人发出的藏语音信号都是模拟信号,为了能用计算机对其进行分析处理, 必须首先将模拟信号转换成数字信号,然后对转换后得到的数字信号进行分 析。在录制藏语音信号的过程中,可能存在噪声的干扰,预处理可以强化有用 的信号,弱化干扰信号的影响。对藏语音信号进行预处理,一般包含如下三个 部分:量化、预加重和加窗分帧三部分工作。 ( 1 ) 藏语音信号的采集量化 通过声卡采集藏语音信号实现将模拟的藏语音信号转换为数字信号,信号 从模拟量到数字量的转变过程称为模一数转换。p c 机采集藏语音信号的过程很 简单,通过麦克风和p c 机声卡即可采集得到。 ( 2 ) 预加重 预加重通常是在藏语音信号转换为数字信号后进行的,对藏语音信号的预 加重处理可以提升藏语音信号的高频部分以使其频谱变得更加平坦,以利于藏 语音信号的后续处理工作【39 1 。预加重的方法是将藏语音信号通过一个高通滤波 器,通常使用一阶数字滤波器。传递函数为: 日( z ) = 1 一拓- 1 ( 2 4 ) 公式( 2 4 ) 中,k 值取比l 稍小的值 ( 3 ) 分帧加窗 藏语音信号是典型的非平稳信号,直接对非平稳信号进行处理非常困难。 通过分析藏语音信号的短时特性,发现在很短的时间段内,藏语音信号是平稳 的。所以考虑对原始藏语音信号进行分帧处理将连续的非平稳的藏语音信号分 成小段的平稳信号。为了保证分帧后信号的连续性,分帧时必须重合叠加,这 西南交通大学硕士研究生学位论文 第9 页 样处理既能保留藏语音信号的自相关性,而且也保证了帧与帧之间的平滑过 渡。 分帧的方法如图2 3 【5 】所示: 第一帧第三帧 图2 3 藏语音分帧( 帧移) 示意图 通过用可移动的窗口进行加权的方法来实现对藏语音信号的分帧处理,各 段处理后得到的时间序列表示为为【3 9 】 q = r 【x ( m ) ( n 一所) 】 ( 2 5 ) 公式( 2 5 ) 中,u ( ,l 一小) 为加在各个藏语音帧上的窗函数,石( m ) 为输入的藏 语音信号序列,丁- 1 表示信号处理的方法。在时域将藏语音信号和窗函数相乘 时,要尽量减小时间窗两端的坡度,保证其能平滑过渡到零,减小藏语音帧的 截断效应;为了达到这个效果,使用的窗函数在频域要有较小的边带最小值和 较大的带宽。 在藏语音信号处理中,矩形窗和汉明窗应用最为广泛5 1 。 矩形窗表达式为【9 】: 一 ,】 o 甩 一1 u ( ,1 ) 2 1 0 飞吾 ( 2 。6 ) 汉明窗表达式为 9 】: ) = 舻4 o 4 6 c o s 【2 叫- 1 刀、。妻爹- l ( 2 - 7 ) 由于藏语音短时分析参数的特性受到窗函数u 0 ) 的形状和长度的选择影 响较大,所以选择合适的窗口至关重要。由于汉明窗的带宽和带外衰减都要比 矩形窗大,有利于防止损失高频成分和产生频谱泄露,所以在对藏语音信号进 行加窗处理的时候,选择汉明窗更加合适。 西南交通大学硕士研究生学位论文 第10 页 2 4 藏语音的端点检测技术 对藏语音信号进行端点检测的目的是为了有效区分其中的藏语音信号和 背景噪声,检测出藏语音信号的起点和终点,将有效的语音成分从信号中分离 出来,保证后续的工作都只处理真正有用的信号。大量的研究表明“语音识别 系统大部分的识别错误都是因为信号端点检测的不准确性所造成的” 4 0 】。所以 有效的端点检测技术是保证藏语音识别系统识别率的一个关键因素。论文中研 究了双门限的端点检测方法来对藏语音信号检测端点。 藏语音信号一般都是由清音段,浊音段和无声段三部分组成。因为藏语音 信号的浊音段是由声带的振动所发出来的,其平均能量最高;和浊音段藏语音 信号相比,无声段藏语音信号由于属于背景噪声,平均能量要低的多。而清音 段的藏语音信号的产生是来源于空气在口腔中摩擦或者冲击爆破而发出来的, 平均能量位于前两者之间。所以可以通过能量特征来检测浊音,但是如果信号 的信噪比较低,通过提取藏语音信号的能量特征来鉴别清音信号就不是很可靠 了。此时必须考虑用藏语音信号的其他特征来鉴别。藏语音信号的过零率表征 在单位时间内藏语音信号穿越零电平的次数。无声段藏语音信号变化比较缓慢 其过零率较低,但是藏语音的清音信号由于气流的摩擦,幅度的变化很剧烈, 单位时间内穿越零电平的次数较多;大量的实验结果表明,通常情况下藏语音 清音段的过零率较大,而其浊音段的过零率较小,因此通过过零率可以较好的 检测藏语音的清音信号【l7 】。 由以上分析可知,为了检测的准确性,清音通过使用过零率特征来检测, 浊音通过使用能量特征来进行检测。将这两种特征结合起来使用,可以使藏语 音的浊音和清音都得到较好的检测效果。 ( 1 ) 短时平均能量表达式为p 】: e = 【x ( m ) u ( 刀一聊) r = 【z ( m ) u ( 万一m ) 】2 ( 2 8 ) m = 一_ = 月一+ l 实现框图如图2 4 【5 】所示: 工( ,1 )工2 ( 咒) e () 2 ( 刀) 图2 4 藏语音信号的短时能量 ( 2 ) 藏语音信号序列x ( ,1 ) 的短时平均过零率乙定义为9 1 乙= 妻l s 盟 工( 聊) 卜s 弘卜( 研一1 ) 】i u ( 刀一聊) = i s 乒【x ( 以) 卜s 驴卜( 行一1 ) 仆u ( 万) ( 2 9 ) 西南交通大学硕士研究生学位论文 第”页 其中s 印 】是符号函数: s 啪) 】- ! - 。捌: u ( 甩) 是窗函数,过零率的计算方法见图2 5 5 1 。 s 鲫【 ( 2 1 0 ) 一阶差分 - i 取绝对值卜_ 低通滤波u 0 ) 图2 5 藏语音信号的短时平均过零率 ( 3 ) 基于短时能量和短时平均过零率的双门限端点检测方法 在检测藏语音信号的端点前,首先要为藏语音信号的短时能量和过零率这 两个特征各设定一高一低两个门限值。两者的高门限值,只有具有一定强度的 藏语音信号才能超过。两者的另一个门限都较低,当藏语音信号变化时都会比 较容易超过这两个低门限。在检测的过程中发现高门限被超过时才可以确定是 由藏语音信号所导致的。但是如果只超过了低门限则不能确定是藏语音信号的 真正开始,因为短时环境噪声的两个参数值也同样可以超过这两个特征的低门 限。 对藏语音信号进行端点检测的整个过程可以分为如下四个部分:无声段、 过渡段、藏语音信号段和结束。在藏语音信号的无声段中,如果藏语音信号的 短时能量或者短时过零率两个特征的其中之一超过了低门限,则表明此时进入 藏语音的过渡段:在藏语音信号的过渡段中,由于两个参数的数值都较小,此 时还不能确定是否真正的进入了语音段。如果藏语音信号的两个参数值都降低 到其对应的低门限以下,则表明此时的藏语音信号状态进入无声段。如果在过 渡段中任一参数值超过高门限,此时就完全可以确定当前状态真正的进入了语 音信号段【1 4 】【4 2 1 。 在实际藏语音识别系统中,由于某些突发的噪声的影响也会导致短时能量 和过零率的数值突然变得很大,但是这种情况通常只能维持很短的一段时间, 可以通过设置最短时间门限来判定排除这种干扰。当处于藏语音段时,如果藏 语音信号的短时能量和过零率的值都降低到比低门限的值还小,而且持续时间 短于所设定的最短时间门限值,则可以判定这一部分是环境噪声,继续计算后 续的藏语音信号,直到检测完成【1 4 】。 下图是对藏语音信号“爱惜”采用双门限端点检测的仿真结果。 西南交通大学硕士研究生学位论文 第12 页 1 癸 磊。 设1 蜩 2 0 口口 位 0 瓣5 0 潍 捌 0 2 5 本章小结 骷 2 0 0 04 0 0 06 0 0 08 0 0 01 0 0 0 01 2 0 0 0 1 4 0 0 0 1 6 0 0 0 藏语音采样点 j 1 0 0 1 5 02 0 0 藏语音帧数 饥j 1 0 01 5 0 2 0 0 藏语音帧数 图2 6 藏语音信号“爱借”的端点检测结果 本章首先介绍了藏语的发音特点和与汉语相比所具有的特殊的语法句法 结构;分析了藏语音识别系统的基本原理,从识别系统的结构,分类和性能评 价三个方面进行阐述。接着介绍了在对藏语音识别前必须进行的预处理,包括 对藏语音信号的采集和量化,预加重,分帧与加窗等工作。最后介绍了藏语音 信号端点检测的原理和方法,并对双门限的端点检测方法给出检测藏语音信号 端点的实验仿真结果。 西南交通大学硕士研究生学位论文 第13 页 第三章基于快速沃尔什变换的藏语音特征提取 3 1 引言 藏语音信号的特征参数提取是藏语音识别系统中一个重要的环节,提取的 特征参数的有效性直接影响到识别系统的性能。由于原始的藏语音信号是时域 上的连续信号,其中存在大量的冗余信息。如果直接进行计算则会浪费大量的 计算时间和存储空间来处理无用的信息,同时也会对藏语音识别系统产生干 扰。提取藏语音特征参数的思想是将其中表示语音信号本质的特征参数提取出 来,此后所有的工作都是在该参数的基础上进行的。 在语音识别的研究进程中使用最广泛的特征参数除了线性预测倒谱系数 ( l p c c ) 外,还有m e l 频率倒谱系数( m f c c ) 。l p c c 是一种合成的参数,对噪 声的影响特别敏感。长期研究发现,人耳能从嘈杂的噪声环境中辨别出所关注 的语音信号是因为人耳基础膜具有对外来语音的调谐作用,不同频率的声音会 引起基础膜上不同位置的振动【5 】。为了模拟人耳这种特殊的听觉特性,用m e l 带通滤波器组可以达到目的。 m f c c 和l p c c 相比的主要优势在于:m f c c 充分利用了人耳这种特殊的 听觉感知特性,在存在环境噪声的情况下,m f c c 与l p c c 相比有更好的鲁棒 性,使语音识别系统能获得更好的识别性能,因此m f c c 得到了普遍的推广利 用。本文以m f c c 为基础进行研究和改进,用于藏语音信号的特征提取工作中。 3 2m f c c 提取原理和过程 3 2 1m e l 频率与m e l 滤波器组 通过深入研究人的听觉系统,发现人耳对声音音调的感知并不满足线性规 律,由此定义了一种新的频率单位,该频率单位的划分考虑到人耳听觉系统的 非线性特性。物理学上用h z 来表示频率的单位,用m e l 来表示符合人耳听觉 特性的频率【9 1 。m e l 频率的频率分布是按照临界频率分布的,临界带宽是划分 m e l 频率刻度的重要依据。临界带宽的引入是为了描述窄带噪声对纯音的隐蔽 效应。一个纯音可以被以该纯音的频率为中心频率并且具有一定频带宽度的噪 声所隐蔽,这种窄带噪声对纯音的隐蔽量当加宽噪声带宽时最初会增大,但是 西南交通大学硕士研究生学位论文 弟1 4 贞 当超过某一个带宽的范围后就不再增大,这个带宽称为“l 临界带宽”。所以m e l 频率又称为感知频域,是着眼于人耳听觉机理来分析语音的频谱,能比其他的 语音特征参数更加符合人耳对频率高低的非线性感知特性。 实验发现,在1 0 0 0 h z 以下,感知能力与频率成线性关系,而在1 0 0 0 h z 以上时,听觉感知能力是与频率成对数关系【9 1 。两者之间的关系见图3 1 【9 】所 示。m e l 频率以人耳的听觉机理为基础,与人耳对频率高低的非线性听觉感知 特性相一致:在高频处分辨率较低,在低频处分辨率较高【4 3 】【“】【4 5 】【4 6 1 。 一4 0 0 0 芝 趟3 0 0 0 骶 慕2 0 0 0 1 0 0 0 o 1 0 1 0 01 0 0 0 1 0 0 0 0 频率h z 图3 lm e l 刻度与自然频率的关系 两者之间的具体关系如式( 3 1 ) : 心,( 厂) = 2 5 9 5 l g ( 1 + 厂7 0 0 ) ( 3 一1 ) 上式中,脓,( 厂) 为m e l 频率;厂表示线性频率,单位为h z 。 通过上述的m e l 频率和频率的对应关系,可设计出m e l 频率滤波器组,它 将藏语音信号的频率划分为一系列的三角形滤波器序列。 由大量的研究表明,进行语音识别的时候m e l 滤波器组形状选为三角形的 时候取得的识别效果最好【5 】。 从图3 2 【9 】可以看到,m e l 滤波器组在低频段分布比较密集,在高频段分 布比较稀疏,因为人耳对低频的信号较敏感,大概只能感知到2 0 h z 2 0 0 0 h z 范围内的信号【9 1 ,所以设计m e l 滤波器组的时候在低频段划分得更细,使语音 信号在其信息集中的区段能被处理的更充分。 西南交通大学硕士研究生学位论文第15 页 毯 善 螂 馨 2 0 m e l 尺度频率响应 l 盯l 。j湖 f f 弧虬 ; ;l i j i 0 5 0 01 0 0 01 5 0 02 0 0 02 5 0 03 0 0 03 5 0 0 4 0 0 0 频率( 仃h z ) 图3 2m e l 滤波器组示意图 3 2 2m f c c 提取过程 m f c c 特征参数提取过程如图3 3 【9 1 所示: 二k j u 垃,口 z ( 后) m e l 滤波 s ( m ) 匝c c 音输入 f f t l o g d c t x )器 c ( ,1 ) 一 图3 3m f c c 提取过程示意图 提取算法的流程为: ( 1 ) m f c c 参数计算是以帧为单位的,对输入语音帧预加重、加汉明窗和 端点检测后进行快速傅里叶变换得到信号的短时频谱,将时域信号x 伽) 转化为 短时频域信号x ( 七) 【4 l 】。 (
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025停车场经营权转让合同样本
- 胫骨骨折护理
- 2025年人工肝知识试题
- 隐匿性冠心病的临床护理
- 电气点检培训体系构建
- 耳石症个案护理
- 转移性小肠肿瘤的临床护理
- 小学语文教师试用期转正工作总结模版
- 面试技巧完整课件
- 循证医学实施难点与对策
- 民用爆炸物品仓库管理规定培训课件
- 康复医学科作业治疗技术操作规范2023版
- 活动安保应急预案
- 人教版八年级物理下册 实验题02 压力压强实验(含答案详解)
- 马克思主义基本原理智慧树知到课后章节答案2023年下宁波大学
- 肝硬化病人的护理练习题
- 一文读懂-特鲁索综合征病例、影像、诊断、治疗
- CW6163B万能卧式车床的控制线路图解
- 贵州省情学习通超星课后章节答案期末考试题库2023年
- 小学随班就读学生教育随笔
- 新能源系统 课件 第10章 多能互补、可持续能源系统
评论
0/150
提交评论