(计算机应用技术专业论文)小词汇量连续语音识别系统的研究.pdf_第1页
(计算机应用技术专业论文)小词汇量连续语音识别系统的研究.pdf_第2页
(计算机应用技术专业论文)小词汇量连续语音识别系统的研究.pdf_第3页
(计算机应用技术专业论文)小词汇量连续语音识别系统的研究.pdf_第4页
(计算机应用技术专业论文)小词汇量连续语音识别系统的研究.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(计算机应用技术专业论文)小词汇量连续语音识别系统的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 小词汇量连续语音识别系统的研究 计算机应用技术专业硕士研究生李原 指导教师邓辉文教授 摘要 现代信息科学的迅猛发展。智能化工具进入人们的生活,致使人们渴望人与机器的交互, 甚至期盼人与机器的对话能达到人与人之间交流的那种自然的水平。在种种思潮的触动_ 卜, 对人机交互的研究近儿年来趋于活跃。实现对语音的识别是人机交且研究的核心之一,也是 它的一个重要研究课题。作为一项具有j “泛社会效益和经济效益的现代信息技术,语音识别 技术虽然已经取得了很大的成就,但是面临实用化时还存在一系列的问题。要实现性能优良、 实用化的语音识别系统,人们仍需要不断对语音识别的理论、算法进行研究,解决和完善语 音识别中所存在的各种问题。另外,随着各种科学理论的不断发展和深入,一些新技术、新 理论也不断出现,这些都为语音识别的研究奠定了基础。 本文根据近期国内外对语音识别技术的集中研究方向,以及目前语音识别技术在实用性 方面存在的一些问题,对语音识别技术在声学模型的改进以及语言学知识的引入方面进行了 学习和研究。首先将代数算法和b p 算法应用丁i 孤立词的语音识别系统中,通过实验验证了代 数神经网络的优越性。在此基础上,考虑到隐马尔可丈模型自身的一些缺i 辅和人l :神经网络 具有可以与隐马尔可夫模型互补的一些特点, 玎代数神经网络代替高斯混台器来计算隐马尔 可夫模型的观测概率,以此提出了一种代数神经网络和删模型的混合模型。之后,文中对基 丁混合模型的连续语音识别系统进行了设计,将语言学知识引入到模型中,选取三音素作为 基本卢学单元,为训练语音数据中圳到的所有三音素建立了隐马尔可大模型,并采用了基于 决策树的状态共享策略以保证对声学模型参数的充分估计,最后将训练好的各个二音素模 犁根据本文中提山的混合模型的原理,构建了相应的代数神经网络,并用相应训练数据对其 训练,晟终实现了一个基于混合模型的连续语音识别系统。 最后,本文在h t k 平台的基础上,结合j a v a 语言实现了基于混合模型的连续语音识别系 统。结果证明将混合模裂结合语言学知识应用丁语音识别系统是切实可行的。通过实验数据 的对比可得知,依据此混合模型构建的非特定人连续语音识别系统克服了删模型自身的一 些缺陷,识别率优于基于嗍模型构建的识别系统。 关键字:隐马尔可夫模型音素代数算法语音识别 a b s t r a c t r e s e a r c ho nt h es m a l l 一、厂o c a b u l a qc o n t i n u o u s s p e e c hr e c o g n i t i o ns y s t e m m a j o r :c o m p u t e ra p p l i c 撕o n d i r e c t i o n :c o m p u t a t i o n a li n t e l l i g e i l c e s u p e r 、,i s o r :p m f e s s o r d e n gh u i w 蛐 a u t h o r :l i1 姐( s 2 0 0 5l2 9 8 ) a b s t r a c t w i l l it h ed e v e l o p m e n to fi i l f o m 豫d t c c h n o l o g y ,m i c l l i g e f l tm 觚h m e sa 北b 咖g h ti 1 1 t oo u rl j f c 舒v i n g 嘴t h eh o p eo f c o r n 舢血c a t i n gw i m m a c h i n e s a sar e s u l t ,t 1 1 er e 鸵a r c ho nh u i n a 璐i n t c r 盘曲鸸 w i mc o m p u t e r si sb e c o i i l i n gm o r ea n dm o r ep o p u l 札s p e e c h 嘟o g n i t i o ni so n eo ft 1 1 em o s t i n 】p o 咖ti s s u e si nt l l er e s e a r c h i nt l l i sd i s s e r t a t i o n ,t l l ed e v e l o p m e n t d8 p p l i c a 矗0 no ft h es p c h r e c o g n i n 彻i si m r o d u c e da i l dm e n 缸m e t h o di sd i s c u s s e d + an o v e l l e a m i n ga l g o r i m mi s i n 打o d u c e d 粕dm i ) e dw i t i lh m m t h i sm i x e dm o d e l i sp u ti i l t ot l l es p e e c hr e c o g n i t i o ns y s t e m o nt l l i sb 船i s , w em a k eam o f cs y s t e m a t i cs n l d yo n 廿1 el l 啪o p h o r 峙h m m s ,仃i - p h o n eh m m s ,t l 】呛n o v e l i 锄i n g a 1 9 0 r i 恤1 lf o rn e u m ln e t 、v o r l ( sa n dl l l i x t l l r cm d d e l t h es p e e c hr e c o 鲈i “o ns y s t e mh 船t 、v op a m ,i n c l u d i n gf e a t l l r ce x 妇c t i o na n dc o 坤a 1 9 0 r i m m f e a t u r ee x t r a c t i o ni n c l u d e ss e v e r a ls t 印st h ea d c ,p r e e m p h 私i s ,f m m i n 昏a d d i n gw i n d o w e n d p o i n t d e t e c t i o n ,e x n 挑t i o nl p c co rm h c c 1 ec o r ca l g 嘶t 1 1 mc o r n p d s e so ft h er e c o g n i t i o ns y s t e m 疵l u d i n gt h et e l p l a t em a t c h i n gm e t i l o d 、l ep r o b a b km o d e lm e t h o da n dl l l e a m f i c i a l 眦l l 豫l n c 押o r km e t h o d a l lo ft h e s ep r o v i d es o l u t i o i l sf o rt l l es p e e c hr e c o g n j t j o ns y s t e m sr e c o g 面t i o nm t e n l i sp a p e rr e l i e so nt h e s e t e c h n o l o g i 器,a i l dd i s c u s s c sm i x t u r em o d c li n 血ea p p l i c a t i o na n d i n 甲l e m e n t a t i o no f as p e e c hr e c o g n i h o ns ”t c m t h es p e e c hf e c o 印i t i o ns y s t e mb a s e do nh m mh a sah i 曲r e c o 鲥t i o nr a t cb u ti sl i m i t e db y 山e b o 砌e n e c ko f l es p e e c hr e c o 印i t i o ns y s 忙m c o m p a r e dt ot r a d i t i o 1p a n e mr c c o 弘i t i 伽,a n nh a s s om a l l yd i 髓r e n c e s ni sad i s m b u t e dp a r a l l e li n f o r n l a t i o np m c e s s i n gs y s t e m a n ni ss u i 协b l et o s o l v es u c hp r o b l e n u 站s p 咕e c hr e c o g n i t i o na si th 硒al o to f n e r v ec e ut l l a tc 锄d op a r a l l e ic o m p u n n g 虬d1 1 a sh i g l lp e r f o f r i l a n c ei e a m i n ga i g o r i n n an o v e i l e a n l i n ga l g o 一岫i sp u ti n t oh i 幔mi nt h i s p a p e li no r d e rt oo v e r c o m eh m m sf 如1 协,a l g e b r an e u 糟ln e m o r l ( sa 化u s e dt oc o h l p u t et h eh m m s 0 b s e r v a t i o np r o b a b i l i t yi n s t e a do f g a u s sm i x e r o nt h o s eb a s i s ,t i i sp a p e ra n a l y s e st l i es e l e c t i v ep n c i p l e so fab 船i cv o i c eu n i t 锄dc h o o s e s p h o n 锄et ob et l l eb a s i cv o j c eu n na c c o r d i n gt 0 妇c h a r a c t 甜s t j c so f t l l ep h o n e n l e si nav o i c e 1 1 1 明, l i sp a p e r h 勰c r e a l e dh m mf o ra l lp h 咖e si i it l l e 吣i n gv o i c ed a 忸柚dd i s c u s s e st b e n i 柏南人学硕十学位论文 i m p l e m e n t a ln o wi nt h ea c o u s t i cm o d e la n d1 a n g u a g em o d e ld u et o 出ec o o r d i n a t ep r o n u n c i a t i o n p r o b l e mi np h o n e m e s ,w ep u tc o n t c “si i i t om ea c o l i s t i cm o d e l 蛐dc 伽喀t 邝c t e da 埘_ p h o n eh m m d e c i s i o nt r e e _ b a s e ds 诅t ei y i n gt e c l l l l o l o g yw a su dt oo p l i m i z c 咖es p e e c hr e c o 印i t i o ns ”t e m t h i s m e t l l o dw i l le n s u r ct h ee s t i m a t e 址) 0 u tm ea r g 啪e n to fa c o u s t i cm o d e l ,t h ed e s i g np r i n c i p ka b o u t d e c i s i o n e 卸dt h ei m p i e m e n t 撕o n0 fd e c i s i o n 仃e e a tl a s t ,m i sp a p c t1 1 a sc r e a t e da l g e b mm i 蚰l n e t o r l 【sf o ra 1 1 埘- p h o n eh m m s k e yw o r d s :h m m p h o n 锄e a l g e b f aa l g 嘶t h ms p e e c hr o g n i t i 独创性声明 学位论文题目:j :固! 生墨垂壁堡查型! 竖垫翊垒 本人提交的学位论文是在导师指导下进行的研究工作及取得的研究成果。论 文中引用他人已经发表或出版过的研究成果,文中已加了特别标注。对本研究 及学位论文撰写曾做出贡献的老师、朋友、同仁在文中作了明确说明并表示衷 心感谢。 学位论文作者:辟反签字日期:知一彦年f 月巧 日 学位论文版权使用授权书 本学位论文作者完全了解西南大学有关保留、使用学位论文的规定,有权 保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借 阅。本人授权西南大学研究生院( 筹) 可以将学位论文的全部或部分内容编入 有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位 论文。 ( 保密的学位论文在解密后适用本授权书,本论文:啪:保密, 口保密期限至年月止) 学位论文作者签名:名振 导师签名:砭缓 签字日期:咯年r 月吵日签字日期:年 月 日 1 绪论 1 绪论 1 1 课题的背景与意义 人们可以通过多种手段获得外界信息但最重要、最精细的信息源只有语言、图像和文字 三种。卢音是人类常用的r :具,是相互传递信息最主要的手段。与用声音传递信息相比,显 然用视觉和文字进行信息传递的效果要差得多。因此,语音信号是人们思想沟通和感情交流 最主要的途径。 语音识别技术是让机器通过识别和理解过程把语音信号转变为相应文本或命令的技术。 随着信息时代的到来,智能化工具进入人们的生活,从科学研究到日常生活,计算机已经渗 透到人们生活的各个方面,在人们逐渐习惯借助计算机来完成各项事务的同时,人们对计算 机的智能化要求也越来越高。在这种情况下,如何让计算机智能化地与人进行通信,让机器 理解人的自然语言从而实现更加自然方便的人机交互成为现代计算机科学的重要研究课题之 一。语音识别技术以语音信号为研究对象,将人发出的声音、音节或短语转换成文字和符号, 或者给出响应,如执行控制、做出回答等,它是模式识别的重要分支【1 】。语音识别在工业、金 融、商业、文化、教育等诸多方面,特别是在计算机、信息处理、通信与电子系统、自动控 制等领域更有着极为“泛地应用b 删。 语音识别作为一项具有广泛社会效益和经济效益的现代信息技术虽然已经取得了很大 的成就,但是面i 鼯实用化时还存在一系列的问题。为了达到实用化和商业化的目标,语音识 别系统必须具有自然性、可靠性、鲁棒性。然而,语音信号的声学特征随其前后与之相连的 语音的不同而有很大的变异;语音特征会随发音人的不同、发音人心理或生理状态的变化而 产生很人的羔异;语音特征的准确提取会受传声设备的差异及环境噪卢的影响而环境噪声 还将直接影响发音人的发音过程;一个语句所表达的意思,与上卜i 文内容、说话时的环境条 件以及文化背景等闲素有关,而语句的语法结构义有很多变化并且语境信息也几乎是计算 机自动语音识别所无法利用的。以上问题给语音识别带来很大的困难【4 1 。如果从应用和实现的 角度来考虑还存在系统复杂度的问题,系统的复杂度将决定系统的麻j 日场合。冈此要实现性 能优良、实用化的语音识别系统,人们仍需要不断对语音识别的理论、算法进行研究,解决 和完善语音识别中所存在的各种问题。另外,随着计算机技术的e 速发展和各种科学理论的 不断发展和深入,一些新技术、新理论也不断出现,这些都为语音识别的研究奠定了基础。 研究这些新理论、新技术在语音识别中的应用也具有重要的意义。 1 2 语音识别技术发展的历史及现状 二十世纪五十年代,a t t b e l l 实验室开发了第一个特定人的孤立英文数字语音识别系统 a n d r ys ”t e m ,标志着语音识别研究的开始。随后r c a 实验室识别了特定入的十个单音 节词中所包含的不同音节;m i t 的l i n c o l i l 实验室开发了针对十个元音的1 f 特定人语音识别系 1 两南人学硕十学位论文 统。这些识别系统都是针对孤立语音,部是基1 :模式匹配器和滤波器组提供的谱信息的,并 且由于理论技术水平不够,都米取得明显的成功。 在六十年代,计算机技术的发展推动了语音识别理论与技术的发展。日本的东京无线研 究实验室、京都大学和n e c 实验室都制作了能够进行语音识别的专用硬件。在t 眭界范围内, 这一时期的重要成果是提出了语音信号线性预测编码( l p c ) 技术和动态时间规划( d t w ) 技术。 l p c 技术有效地解决了语音的特征提取问题,对语音识别产生了深远的影响;动态时间规划 ( d t w ) 算法可以有被的解决孤立词识别中说话速度不均匀的问题,它对特定人的语音识别十分 有效。当词汇量较少,词条不易混淆时,d t w 算法可以获得很好的效果。 七十年代,伴随着对自然语肓理解的研究以及微电子技术的飞速发展,语音识别领域有 了突破性进展。在理论上,线性预测分析技术得到进一步发展,它被用来作为语音的谱特征 参数,并沿用至今;这时期动态时问规划基本成熟,还提出了矢量量化和隐马尔可夫模型( 删) 理论。在实践中。实现了基于线性预测倒谱和d t 技术的特定人孤立词语音识别系统。最具 意义的是i b m 公司开始了有关大词汇量语音识别的长期的、庞大的研究计划,b e l l 实验室也 开始进行了一系列旨在完成真正非特定人的识另系统的实验,这些项目都持续了十多年的时 间,并获得了极具价值的研究成果。但这一时期研究的重点还是孤立词语音识别。 在八十年代,对语音识别的研究进一步走向深入,连续语音成为研究重点,并出现了大量 的连续语音识别算法,如n e c 公司提出的二层动态规划算法,b e l l 实验室的m y e r s ,r a b i n e r 和l e e 等人提出的层构筑法( t h e l e v e lb u i l d i n g a p p r o a c h ,l 卧) ,以及帧同步层构筑法( t h e f r es y n c h r o n o u sl e v e lb u i l d i n ga p p r o a c h ,f s l b a ) 。另外,在八十年代中后期,语音识 别研究所用的技术方法发生了变化,声学建模的方式由基于模板的方法全面向统计建模的方 法转变,显著特征是嗍模型和人j 二神经网络在语音识别中的成功应用1 胴【6 l o 九十年代,语音技术在细化模型的设计、参数提取和优化以及系统的白适应等技术上取 得了一些关键性的进展。语音技术的另一个土要趋势是语音识别在日趋完善的同时开始与其 他领域的技术相结合。九十年代初期人们开始进一步研究语音识别与臼然语言处理的结合, 产生了基丁:语音识别和理解的人机对话系统。九十年代中期语音识别与机器翻译技术相结合, 发展面向不同语种人类之闻交流的话青翻译技术,这些技术在有些领域内开始走向实用化。 一些有限词汇星的语音识别系统已经在实际中得到应用,如a i 鄱的通_ ;l 信用卡语音系统 能识别英文发音的信用 号。台湾的一些人学和研究所也开发出犬词汇量非特定人连续语音 识别演示系统。日本p h i l i p s 公司开发的s p e e c hm e d i a 和s p e e c hp e a r l 两套软件,涵盖了 自然语音识别与理解的对话系统,在语音识别领域人展头角。 国内的语音识别研究开始丁七十年代,从1 9 8 7 年起国家8 6 3 智能计算机主题专家组为语 音识别立项,经过二十余年的发展,汉语语音识别也获得了丰富的成果。越来越多的大学、 科研院所加入到语音识别的研究中米。在1 9 9 8 年的8 6 3 测试评比中,清华人学电子j r 程系以 王作英教授为首的课题组完成的大词汇量连续语音识别系统的字识别率达到9 0 以上,句子的 2 1 绪论 正确率为6 2 5 。柜汉语小词耸语商识圳发麻川方面,清华人学电子i :程系以刘润生教授为首 的课题组已推出了基于非特定人汉语数码语音识别的语音拨号电话机,并继续致力于语音识 别专用芯片的设计研究1 7 j 。 近阶段语音识别的研究课题主要集中在以下四个方面: 1 ) 声学语音层m 删模型的细化,指的是更多地汲取语音学的专家知识以改进模型结 构,采用更好的训练算法以解决训练数据不充分的困难,研究更优的特征参数和更好的 蛐博【 法。 2 ) 自然语音数据库的设计。包括人与人之间语音对话的研究和自然口语说话方式的研究。 3 ) 语音识别系统对环境和说话人的自适应性、抗噪声干扰性、鲁棒性、训练工作量和识 别速度等。 4 ) 人工神经网络( a r t i f i c i a l u r a ln e t r k ,a 刖) 的应用。语音识别所遇到的困难 是搜索最住识别结果和参数训练。人_ e 神经网络领域的研究也给语音识别带来了新的活力。 由于人工神经元网络具有刻划各种复杂分类边界的能力,十分适用于语音识别领域。 随着用户对语音识别系统性能的要求不断增加,新的问题不断出现,语音识别技术必须 不断发展进步。新技术和新理论的不断出现,必将进一步推动语音识别技术的发展。 1 3 语音识别系统的应用及研究趋势 1 3 1 语音识别系统分类 语音识别系统按照不同识别系统的要求,可以划分成很多不同的种类1 j 嗍。语音识别根据 识别对象的不同,可分为三类:孤立字( 词) 识别、连接词识别、连续语音识别和理解。孤 立字( 词) 识别主要针对单个的字或者词的识别,也包括对音素和音节的识别等。它要求说 话人一次只说一个字( 词) 、一个词组或一条命令让识别系统识别。连接词识别一般特指十个 数字( o 一9 ) 连接而成的多位数字识别或有少数指令构成的连接词条的识别。语音理解是在语 音识别的基础上,用语言学知识来推断语音的含义,它不必完全地识别出语音内容,只需要 理解语句的意思。 根据词汇量的大小,可以分为大词汇量、中词汇量和小词汇量语音识别系统。语音识别 系统都设置有一个专州的词汇表,系统能对包含丁:该词汇表中的词条进行识别,通常,词汇 表越人,各词汇之间的混淆性越明显,系统也就越难实现,识别率也就越低。一般来说,小词汇 量系统是指能识别小丁1 0 0 个词汇的语音识别系统、中词汇量系统是指能识别1 0 0 一1 0 0 0 个词 汇、大词汇量系统是指能识别l 0 0 0 个以上的词汇识别系统。 按照说话人的限定范围分可以分为两类:特定人( s p e a k e rd e p e n d e n t ,s d ) 和非特定人 ( s p e a k e ri n d e p e n d e n t ,s i ) 语音识别系统。从讲话人的范嗣来分,有单个特定讲话人识别 系统、多讲话人( 即有限的讲话人) 和与讲话者无关( 理论上是任何人的声音都能识别) 的 语音识别系统三种。特定讲话人的语音识别比较简单,能得到较高的识别率,但使用前必须 3 两南人学硕十学位论文 由特定人的川户输入人量的发音数据,对其进行训练。后两种为扑特定说话人识别系统,这 种识别系统通用性好,应用面广,但难度也较大,不容易得到高的识别率。 按照识别方法分,语音识别的方法主要有模扳匹配法、概率模型法、基于人工神经网络 等。其中,模板匹配法是通过对不同内容的语音建立不同的模板,然后利用模板匹配的相似性 来进行度量,而实现语音识别的方法;概率模型法主要是指利用隐马尔可大模型的概率参数 来对似然函数进行估计、判决,并得到识别结果的方法;基于人工神经网络的语音方法是利 用神经网络强人的自学习、臼组织及分类等能力实现语音识别。 1 3 2 语音识别技术的应用领域 语音识别技术的应用从火的方面来分可分为三个方面:桌面应用、网络,电话系统应用和 w 曲应用。桌面应用是指集成于桌面的应用软件,例如市场上现己山现的一些用于p c 机的语 音输入、语音识别的软件。网络电话系统应用是指把语音技术与远程信息查询、处理、生成 等相结合的软件。w 曲应用是把语音技术与w 曲应用结合起来的软件,例如可运用语音技术 开发语音浏览器、网上交谈室等。 目前市场上的语音识别产品基本可分为: 1 ) 特定人月e 特定人:是按照声学模型建立的方式来划分。特定人识别的声学模型是针对 某一特定用户训练的。一般来说用户需要先训练系统,然后才能识别该用户的发音。而非特 定人识别的声学模型是针对某一种特定的语肓来训练的,发音人不需要训练既可使用。虽然 在建立模型时需要人量的语料,对用户来说却提供了更大方便,他们甚至不需要了解该过程。 2 ) 嵌入式服务器模式:嵌入式是将语言识别软件及模型,写在设备( 如手机) 的存储器里, 识别过程在终端完成。在服务器模式,终端只负责收集和传导语音信号,由服务器负责完成 识别。因此,对于大规模,多用户和有丈量识别需求的系统,服务器模式提供了有效的方式。 目前语音识技术的一些典型的应用方式,例如: 语音听写机:可以用口述代替键盘,实现文字输入并且打印输出,这是人们长久以来的 一个迫切愿望。这对于办公自动化将带来革命性的变化( 用机器秘书代替人类秘f 5 ) 。由于汉语 计算机输入的特殊性,汉语语音听写机的重要性尤其突山。一方面,它使人机接口更加友好 和自然,但更重要的是,它可以促进计算机麻片j 在中国的普及。 在通信上程中的应用:世界各大通信公司,如美国a t t 公司,日本n t t 公司都长期致 力丁i 语音识别的研究,因为它在通信的各个领域都有着广泛的应用。例如手机语音拨号、股 市查洵、信坩 认证等问题。在通信方面,一项更加雄心勃勃的计划是实现两种语言之间的 直接交流,即通过“语音识别一机器翻译一语音合成”技术将一种语言直接转换成为另外一 种语言。日前有一些欧美及日本的研究组织正在开发这个领域的产品。 数据库检索:政府部门、银行、金融机构、军事指挥所和一r 业管理部门无不需要对庞大 的数据库进行频繁的检索和查询,其中很多是通过电话米进行的。通过自然语言直接检索数 4 l 绪论 据库可以免除人鼙操作人员的重复劳动,既经济x 快速。 语音命令控制:在很多场合下,由丁手脚已被占用,进行其它动作或照明不足无法进行 操作时,必须用语音发出指令,例如驾驶员在高速行驶的汽车中拨打电话。另一方面,随着 第三代移动通信技术的发展。个人智能终端体积越来越小,通过按键进行控制越来越不方便, 语音命令控制是十分理想,便利的人机接口方式。 1 3 3 实用性方面存在的主要问题和发展趋势 1 鲁棒性。主要体现在对外界环境的依赖性上,要求测试条件和训练条件保持一致,否 则系统的性能会严重下降。语音识别系统在实验条件下具有很好的性能,在现实生活中,由 于存在不同的说话人、说话方式、环境噪卢、传输信道等因素,l 笾者语言环境的改变,系统 性能会变得很差。 2 嵘声的干扰。主要体现在强嵘声干扰环境下语音识别困难。现有的语音识别系统大多 只能在安静的环境下使用,一旦在噪卢环境下t 作,环境噪声会使分析出的特征参数发生偏 差,这种偏筹与噪声的强度成正比,并且人在噪声环境中极易产生情绪或心理上的变化。而 导致发音火真、发音速度和音调改变,即产生l o m b a r d 效应或l o u d 效应,所有这些都将造成 系统的识别率下降甚至识别完全失效。 3 基元的选择。语音识别的一种重要的应用是自然语音的识g u 和理解。这一目的的实现 首先是连续的讲话必须分解成单词、音竹或音素单位,其次是要建立一个理解语义的规则或 专家系统。 4 韵律特征的不稳定性。韵律特征是一种体现说话人个性的特征。很多研究者己经做过 一些韵律特征相芙的研究,并取得了不错的结果,但是即使同一个说话者在不同时期、不同 环境中的韵律特征都是不同的。 5 上下文关联。单个字母及单个词语发音时语音特性受上下文环境的影响,使相同字母 有不同的语音特性。单词或单词的一部分在发音过程中其音调、重音和发音速度可能不同, 连续语音词与词之问没有明显的停顿,这也造成词与词之间的分割比较凼难。 6 语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决。识 别速度、拒识问题以及关键词( 句) 检测技术( 即从连续语音中去除诸如“啊”、“唉”等语音, 获得真正待识别的语音部分) 等等技术细。竹要解决。 1 4 本文研究目的及内容 语音识别技术是人机交互的核心技术之一,它已越来越多的出现在人们的日常生活中。 随着接触和使用的增多,人们对语音识别系统的识别率有了更高的高求,在识别内容上也不 愿仅仅停留丁对简单口令的识别。而语音识别系统要真正应用于现实生活就必须有足够高 的识别率和好的健壮性。 本文的研究目的是通过对声学模型的研究和添加入语言学知识以提高语音识别系统的识 曲南大学硕十学位论文 别率。本文的主要:作集中在语音识别系统的声学模型的建模上,把一种新型前馈网络学习 算法引入到语音识别系统中,将其与三音素隐马尔可夫模酗相结合,取长补短,以弥补隐马 尔可夫模型的自适应性和鲁捧性差等诸多缺陷,提高语音识别系统的识别率。语音识别系统 本身是一个庞大的系统,在本文篇幅有限及本人有限的技术和知识的限制下无法对诸多方 面都有研究,根据自己的知识结构,我选择以下儿个方面做综述和研究: 1 ) 对代数神经网络进行了学习研究,根据代数神经网络具有的特点,将其与隐马尔可夫 模型相结合,构造了一个混合模裂。 2 ) 将构造的混合模型引入到语音识别系统中,加入语言学的基本知识,设计了一个基于 混合模型的语音识别系统。 1 5 本章小结 本章首先介绍了本论文所研究课题的背景与语义,然后通过国内外的应用发展现状来引 出了语音识别技术目前存在的问题和研究趋势,同时重点分析了语音识别技术在实用性方面 存在的主要问题和发展趋势,最后阐述了本文的研究目的和主要内容。 6 2 语音识别系统概述 2 语音识别系统概述 2 1 系统框架 语音识别本质上属于模式识别,虽然按照不同识别系统的要求,可以将语音识别系统划 分成很多不同的种类”,但每一类识别系统都具有相似的原理和技术,在人体结构上都主要由 四个部分构成:预处理、语音特征参数的提取、语音样本模型训练和语音的识别。一个典型 的语音识别系统的框架如图2 1 所示。 囱2 1 语音识别系统框架 f i g2 1t h e 血m 他o f s p c hr c c o 弘m o ns y s t e m 2 2 语音声学分析 通过对语音声学信号的处理,将原始的模拟语音信号转换为时域离散的数字信号,并从 中提取出能反映语音特征的特征向量,以保证识别系统获得理想的处理对象,从而具有良好 的识别性能。语音卢学信号处理主要包括:语音信号的预处理、语音信号的特征参数提取及 语音信号的时间j 月整。 2 2 1 语音信号的预处理 1 采样 语音信号是随时问变化的一维信号,要让计算机能够对其识别,必须对模拟的语音信号 经过采样和量化两个步骤,将模拟信号转换为在时间和幅度上都离散的数字信号。语音信号 本身冗余度较人,但是对语音清晰度和可懂度有明显影响的成分的最高频率约为5 7 k h z 。因 此,虽然n y q u i s t 采样定理1 9 1 中要求采样频率至少为2 0 k h z ,但在实际应用中,语音识别常用 的采样频率为8 k h z ,1 0 k h z 或1 6 k h z 。本系统中采用1 0 k h z 。 由丁i 语音信号的频谱分量土要集中在3 0 3 4 0 0 h z 的范同内,在对语音信号进行采样之前, 需用一个防混叠的低通滤波器将此范同内的语音信号的频谱分量取出,否则,高频成分可能 7 西南人学硕+ 学位论文 产生火真:其次需川一个高通滤波器抑制5 0 h z 的l 。频干扰,即电源噪卢干扰。 2 预加重n ” 语音信号的平均功率谱受声门激励和口鼻辐射的影响,高频端大约在8 0 0 h z 以上按 6 d b o c t 跌落【9 l 为此在预处理中通过预加重来提升高频部分,使信号的频谱变得平坦,以便 于进行频谱分析或声道参数的分析。预加重的操作可以在采样和防混叠滤波之前进行,也可 以在采样之后。前一种方式不仅能够进行预加重,而且可以压缩信号的动态范围,能有效地 提高信噪比。后者则用具有6 d b o c t 提升高频特征的预加重数字滤波器实现。通常是用一阶数 字滤波器来实现预加重,形式如下; 日( z ) = l 一肛。1( 2 一1 ) 式中,为预加重系数。其值接近于l ,典型的取值在o 9 4 一田9 7 之间。本系统中取值为o 9 7 。 这样,预加重网络的输出和输入的语音信号的关系可用差分方程表示: j ( n ) - = s 0 ) 一声 一1 )( 2 七) 式中,s ( n ) 为原始信号序列。预加重之后,语音高频部分的分辨率增加。 3 分帧和加窗 语音信号属于非平稳信号,其特性是随时间而变化的。由于语音信号由发声器官的运动 产生,这种物理运动比起声音振动速度来讲要缓慢得多,因此在一个短时间范围内,其频谱 特性和物理特征参量可近似地看作是不变的,即相对稳定。基于这样的假定,在对语音信号 进行分析和处理之前都是将其分割为若干短的时间段,以保证在每一个短的时间段内语音信 号可近似看作具有同定特性的连续语音片段。这样的一个短的时间段被称为一帧,对每一帧 进行处理也就等效于对具有同定特性的一段连续语音进行处理。 将语音信号分成若干帧的常用手段是对语音信号进行加窗处理,即用一个有限长度的窗 函数截取一段语音信号来进行分析。窗函数通过将需要处理的区域之外的样点置零,来获得 当前的语音帧。常用的窗函数有以下几种: 1 ) 矩形窗 1 10 h 一1 ( n ) 2 1 0 其他n 值 ( 2 _ 3 ) 2 ) 汉明( h a m m i n g ) 窗 一。c 玎,= 。5 4 一言4 6 。8 2 一万“一1 萎茬_ :盖一1 c z - 4 , 3 ) 汉中( h t l i l l g ) 窗 州咖卜2 - o 5 c o s ( 2 万高) + o 0 8 c o s ( 2 丌高) o “ ( 2 - 5 ) l o 其他 其中为窗长,理想的窗函数的频率响应要求无频谱泄漏但这种理想的窗函数在实际工程 2 语音识别系统概述 中是无法实现的,只能通过上面儿种窗函数近似逼近。矩形寓的谱平滑性较好,世波形细节 容易丢失并且矩形窗会产生泄漏现象:汉明窗的应用范围比较广泛,它可以有效地克服泄 漏现象。 窗晒数的长度是相对丁:语音信号的基音周期而言的。长度越大,对信号的平滑作用越显 著;长度越小,滤波器的带通变宽,随时间有急剧的变化,不能得到平滑的能量函数。但如 果长度过大,则相当于儿个基音周期每级,窗函数等效丁二很窄的低通滤波器不能反映语音 信号的幅度变化,信号的变化细节就看不出来。对于采样率为1 0 h z 的语音信号,通常窗函数 的长度选取在l0 1 1 1 p 3 0 b 之间。由于信号在时域上的变化很难看出信号的特性。所以通常将 它转换成频域上的能量分布米观察,不同的能量分布,就能代表不同的语音的特性。所以语 音信号在加窗之后,还必须再经过f f r 以得到频谱上的能量分布。 4 端点检测 语音的数据量非常大,而且通常获取的语音信号都掺杂着无声段或是短时噪声等无用的 冗余信息,降低了数据质量的同时,也增大了模扳数据增加了系统的运算量和存储量。因 此,为了从语音波形中提取出能够反映语音特性的参数,常采用端点检测的方法来确定一段 信号中语音的起点和终点。语音信号端点检测的常用方法有以f 几种: 1 ) 短时能量:主要利用清音段与浊音段能量值的差异,对两者进行区分。清音比浊音的 幅度小很多,清音段的能量值明显小于浊音段,因此可以用能鼙函数大致定出浊音语音和清 音语音的变化时刻。在高信噪比的条件下,可以用短时能量来区分有无语音。语音信号的短 时能量可做如下定义: e 。= l ( ) “九一聊) r ( 2 6 ) 其中窗函数可以选取任意一种,但窗函数长度的选择对反映语音信号的幅度变化起着决定性 作用。 2 ) 短时平均过零率:在清音段,由于口腔空气摩擦的效果,造成波形在幅度上的变化比 较剧烈,通常可以用一帧信号中波形穿越零电平的次数来描述这种变化的剧烈程度,称为过 零率。单位时间内的过零数称为平均过零数。在语音信号中,根据声学原理,由丁i 卢门波引 起了谱的高频跌落,所以浊音语音能量约集中在3 k h z 以f ,然而对r 清音语音,多数能量出 现在较高的频率上。那么就可以认为发浊音时具有较低的平均过零数,而发清音时具有较高 的平均过零数,因而可以根据平均过零数来粗略区分清音和浊音。短时平均过零率定义为: z 0 = 三i 耄i s g n c ( 枷_ s 驴( 。一- 圳l g 忉 二ln ,0l f l工o 8 弘o ) 2 一1j o ( 2 。8 ) 3 ) 双f j 限法l ”】:采用短时能量和短时平均过零率相结合的端点检测方法,称为取门限语音 9 西南人学硕十学位论文 信号端点检测法。先用短时能苗的方法榆测语音信号的起点和终点,再川短时平均过零率来 精确其起点。 在进行端点检测之前,先为短时能量和过零率分别设定两个门限,一个是比较低的门限, 其数值比较小,对信号的变化比较敏感,根容易就会被超过。另一个是比较高的fj 限,数值 比较大,信号必须达到一定的强度,该门限才可能被超过。低门限被超过未必就是语音的开 始,有可能是时间很短的噪声引起的,高l 、j 限被超过则可以基本确信是由1 二语音信号引起的。 整个语音信号的端点检测可以分为四段:静音、过渡音、语音段、结束。如果能量或过零率 超越了低fj 限,就应该开始标记起点,进入过渡段。在过渡段中,由丁二参数的数值比较小, 不能确信是否处于真正的语音段,因此只要两个参数的数值都同落到低门限以下,就将当前 状态恢复到静音状态。而如果在过渡段中两个参数中的任一个超过了高门限,就可以确信进 入语音段,并标记起始点。 如果当前状态之前处于语音段,而此时两个参数的数值均降低到低门限以下,并且持续 时闻人于设定的最长时间门限,那么就认为语音结束了,返回到参数数值降低到低门限以下 的时刻,标记结束点。一些突发性的噪声也可以引起短时能量或过零率的数值很高,但是往 往不能维持足够长的时间,如门窗的开关,物体的碰撞等引起的噪声,这些都可以通过设定 最短时间门限来判别。 2 2 2 特征参数的提取 语音的特征参数提取实质是起降维的作用,用较少的维数来表示语音的特征。在所有的 模式识别系统中,特征提取是必须而且重要的,特征参数的选取对识别效果有很大的影响。 性能良好的特征参数及其提取算法是提高识别系统性能的根本途径之一。对语音识别系统来 说,特征参数的选取是识别系统成功的关键理想的特征参数庶该满足如下几个标准: ”能有效的表祉语音特眭,具有很好的区分性和较好的健壮性: 2 ) 各阶参数问有很好的独立性,在保持高识别率的同时,特征参数的维数应尽可能的少; 3 ) 特征参数的计算方便简单,最好有高效的计算方法,以保证识别的实时性要求; 4 ) 不易被模仿。 目前对语音信号进行特征提取的方法有很多种,主要分为两大类:一类是基于发声系统 模型导出的特征参数,如线性预测系数( l p c ) 以及由它导出的其他特征参数;另一类是基于 听觉系统模型导出的特征参数,如美尔频率倒谱参数( m f c c ) 。 1 线性预测倒谱系数( l p c c ) 线性预测分析技术是目前应用比较广泛的一种基于声管模型的特征提取技术,它的基本原 理是建立在语音信号的发声机理之上的【1 4 l 。 人类的发声过程是由丁肺部的收缩,压迫气流由支气管经过声门和声道引起音频振荡而产 生的。发音过程中声道各处的截面积取决于舌、唇、颌以及小舌的位置。语音按其激励形式 l o 2 语音识别系统概述 的不同人致可以分为二类:当气流通过卢j 时,卢带的张力刚好使卢带发生较低频牢的张弛 振荡,形成准周期性的空气脉冲,这些空气脉冲激励声道便产生浊音或称为有声语音:如果 声道中某处面积很小,气流高速冲过此处时而产生湍流,得到一种类似噪声的激励,这种方 式对应丁摩擦音或清音;如果声道某处完全闭合建立起气压,然后突然释放而产生的声音就 是爆破音。 线性预测分析是在短时平稳这一假定基础上进行的,即一段语音信号是各态历经的平稳随 机过程。对于浊音而言综合考虑声门激励、声道和嘴唇辐射影响,语音信号可看作是由一 个准周期的脉冲串激励一个离散线性系统而产生的输出,口( z ) = g ( z ) y ( z ) r ( z ) 。而清音 则可看成激励信号激励一个线性系统产生的输出,h ( z ) 由声道响应矿( z ) 与嘴唇辐射模型 月( z ) 相级联而成,h ( z ) = 矿( z ) r ( z ) 。依据这整个发生过程所构建的声管模型是一个时变 线性系统“】,如下图2 2 所示; 图2 2 语音信号的发声模型 f i g - 2 2 、r o c a lt r a c tm o d e lo f s p e c c hs i g 皿l 采样点n 的输出j 0 ) 可以用前面p 个样本的线性组台表示为: s ( 弹) q j ( 刀一1 ) + 口2 s ( 以一2 ) + - + 。s ( n p ) ( 2 9 ) 式中q ,口2 ,口。为常数,p 也即是预测器阶数,一般取l o 。 这样语音抽样j ( 胛) 和激励信号p 0 ) z 间的关系可以_ h j 下列的差分方程表示: j ( n ) = ( n ) + 口,s 伽一f ) ( 2 一l o ) g 是一非负实数,用于控制系统输出序列s ( 一) 的幅度大小,该式的z 域表达形式为: s ( z ) = g

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论