




已阅读5页,还剩69页未读, 继续免费阅读
(信号与信息处理专业论文)非特定人孤立词语音识别系统若干关键技术的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大连理工人学硕士学位论文 摘要 近年来,随着语音识别技术的不断发展,在小词汇量语音识别领域,已经形成一些 成熟算法,并且有了成功的应用实例。随着f p g a 技术的快速发展,芯片计算速度也随 之飞速上升。如何选择一个适合在f p g a 上实现的方案,已成为目前这一研究领域中重 要的课题之一。本文系统的研究了组成小词汇量语音识别系统的各种技术,并在此基础 上提出了一个适合在f p g a 上实现的小词汇量、非特定人、孤立词语音识别系统。 论文主要完成了以下五个方面的内容 l 、设计了一个包括语音文件、录音信息和管理系统的人名语音数据库,并实际采 集r 一定规模的语音数据。 2 、介绍了动态时间弯曲( d t w ) 和隐马尔可夫模型( h m m ) 算法,分别用这两种方法 实现了个容量4 8 人的人名语音识别系统,并对系统性能进行了详细的分析。 3 、针对可能存在的噪声环境,利用状态转移图辅助进行平滑和去噪。讨论了 m f c c 各阶分量对语音识别的贡献。改进了基于h m m 进行说话人性别识别的方法,以 用来构建男女两个不同的模型参数。 4 、改进系统实时实现的几个关键技术:在实时的硬件数据处理及端点检测实现 中,存储空间复用及对数运算等问题;根据m f c c 算法的特点,得到快速定点化处理 的m f c c 算法。 5 、就系统的每个关键参数进行实验和分析,给出了小词汇量语音识别系统的实现 方案,取得了识别率和复杂度较为均衡的结果。 关键词:语音识别:马尔可夫模型;m e l 倒谱:特征提取;端点检测 非特定人孤立词语音识别系统若干关键技术的研究 a b s t r a c t r e c e n t l y ,、v i t l lt h ed e v e l o p m e n to f t h es p e e c hr e c o g n i t i o ns y s t e m ,i nt h er e s e a r c hf i e l do n s m a l lv o c a b u l a r ys p e e c hr e c o g n i t i o ns y s t e m ,s o m ea l g o r i t h m sh a v eb e e ns u c c e s s f u l l ya p p l i e d a st h ed e v e l o p m e n to ff p g a t e c h n i q u e t h ec o m p u t i n ga b i l i t yo fc h i pi n c r e a s e sa tav e r yf a s t s p e e dc h o o s i n gas c h e m ew h i c hi sc o m p a t i b l ef o rt h ei m p l e m e n t a t i o nf p g a i sb e c o m i n ga i t l o r ea n dm o r ei m p o r t a n tt o p i c t h i st h e s i ss y s t e m i c a l l ys t u d i e sv a r i o u st e c h n i q u e sw h i c ha r e r e l a t e dt os m a l lv o c a b u l a r ys p e e c hr e c o g n i t i o ns y s t e m t h e nap r a c t i c a ls c h e m ew h i c hi s c o m p a t i b l ef o rt h ei m p l e m e n t o fs m a l lv o c a b u l a r ys p e a k e r i n d e p e n d e n ti s o l a t e dw o r d ss p e e c h r e c o g n i t i o ns y s t e m o nf p g ai sp r o p o s e d t h ew o r ki n c l u d e di nt h i st h e s i sc a nb ed i v i d e di n t ot h e f o l l o w i n g 5 p a r t s : 1 d e s i g na n dc r e a t e as p e a k e r - n a n a ed a t a b a s ea n dm a n a g i n gs y s t e mf o rt r a i n i n ga n d t e s t i n g 2 i n 订o d u c et h ed t wa n dh m m s p e e c hr e c o g n i t i o ns y s t e m s ,a n dr e a l i z ean a l t l e s p e e c h r e c o g n i t i o ns y s t e mb yt w om e t h o d s a n d a l s oa n a l y z et h es y s t e mc h a r a c t e r i s t i ci nd e t a i l 3 b r i n gf o r w a r dt h es t a t et r a n s i t i o nm e t h o dt or e d u c et h ea f f e c t i o no fn o i s e a n da l s o d i s c u s st h ec o n t r i b u t i o no fe a c hm f c c w e i 曲tf o rt h es p e e c hr e c o g n i t i o ns y s t e m i m p r o v eo n t h et e c h n i q u eo f s e x r e c o g n i t i o n 4d i s c u s st h ek e yt e c h i f i q u e s ,s u c ha s :u s ei t c r a i v em e m o r y s p a c eo nt h er e a l i z a t i o no f d a t ap m c e s s i n go fr e a l t i m eh a r d w a r ea n de n d - p o i n td e t e c t i o n ;a c c o r d i n gt ot h ec h a r a c t e ro f m f c c a l g o r i t h m ,g e tf a s tf i t t e dm f c ca l g o r i t h m 5 d oe x p e r i m e n ta n da n a l y z ee a c hk e yp a r a m e t e r ,d e s i g ns m a l lv o c a b u l a r ys p e e c h r e c o g n i t i o ns y s t e m ,a n dg e t b a l a n c eb e t w e e nc o r r e c tr e c o g r d t i o nr a t ea n ds y s t e mc o m p l e x i t y k e yw o r d s :s p e e c hr e c o g n i t i o n ;m a r k o vm o d e l ;m e ic e p s t r u m ; e n d - p o i n td e t e c t i o n ;c h a r a c t e r i s t i c e x t r a c t i o n i i 独创性说明 作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究 工作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得 大连理工大学或其他单位的学位或证书所使用过的材料。与我一同工作 的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢 意。 作者签名: 墨堑 日期:渺r 。;- ,孑 大连理工大学硕士学位论文 致谢 本论文是在导师殷福亮教授的悉心指导下完成的。从论文的选题、研究方法到技术 路线以及在论文撰写的整个过程中,殷老师都给予我精心指导和孜孜不倦的教诲。导师 精深的理论知识基础、渊博的学识、严谨的治学作风、敏捷的思维、授以学问、教以为 人的工作方法,都将使我终生受益。每次与导师的促心交谈都使我受益匪浅,导师的言 传身教让我铭记在心,必会导航我今后的人生道路,谨此向殷老师表示诚挚的感谢。 在我学习、科研、生活中,自始至终得到陈哲老师的精心指导,陈老师不仅授以我 专、l k 知识,而且从他身上学到为人处世的做人道理,在同陈老师进行项目研发合作中, 他扎实的理论、解决问题的技巧、一丝不苟的态度都在潜移默化地影响着我,成为我学 习的楷模。“低调处世、着别人所想”是他人格的写照,在论文研究方法和实验方案上 均得到了陈老师的无私帮助,这些连同研究生阶段的生活铭记我的脑海。 在攻读硕士期间,感谢邱天爽教授给予我悉心的帮助和耐心的指导,谦虚的态度和 渊博的学识留下至深的印象,并将使我终生受益。还要感谢传授我专业知识的郭成安老 师、孔祥维老师、马晓红老师和李建华老师。正是从这些老师那里,我学到了信号处理 方面的专业知识和很多做人的道理。 奉论文能够j i 骄j j 完成,还要感谢给我带来快乐的数字信号处理实验室这个大家庭的 所有师弟、师妹们,他们营造了良好的实验氛围,读研期间,我的师兄徐晓聃、史满娇 等给了我很多帮助,特向他们表示感谓 。同时对同届的王志飞、复庚申、任尧等同学做 论文期间对我的帮助表示谢意。 我还要感谢本科时曾教过我的老师们,让我在大学早打下了扎实的基础知识。 我还要感谢尊敬的邵春亮教授,在生活上和学习t 都得到了他老人家无微不至的关 怀,并在此祝福他身体安康,万事顺利。 最后,谨将论文献给所有关心爱护我的亲人和朋友们。 大连理上人学硕士学位论文 第1 章概论 1 1 本课题研究的目的和意义 语音信号处理技术的进步也促进了与其关联的相关学科的发展,尤其是在认知科学 和人1 :智能等研究领域。例如:近年来,人工神经网络的研究,其重要动力之一就是语 音信号数字处理的各项课题的要求;同时它的一些研究成果也应用于语音信号的研究 中。技术必须与应用紧密结合。现在语音识别已经在许多领域崭露头角:语音识别听写 器、卢控拨号、银行信用卡查询等。这是因为,一方面语音识别技术在某些方面已经达 到了实用化的程度;另一方面用户的需求出越来越迫切。在手机、p d a 等设备中可加入 嵌入式语音识别系统。目前的趋势是手持终端体积越来越小,操作要求更加简单,而利 用语音进行控制和输入则是十分理想的人机接口方式,其应用前景十分广阔。 本课题从上述研究和实用的关系出发,建立了一个非特定人孤立词小词汇量的语音 识别系统。从应用角度看,该系统可以应用到移动电话上实现语音声控拨号功能,也可 以应用到掌上电腩等手持终端设备实现电话号码查询或语音控制等功能。从研究角度来 看,语音识别技术涉及多学科而且技术实现十分复杂,选择人名语音识别系统作为开展 语爵识别研究的入手点是比较合理的。因为该系统结构完整、功能简洁,涵盖了语音识 别技术的主要内容,有利于掌握基础理论和基本方法,为深入研究奠定基础。 1 2 语音识别简介 1 2 ,l 语音识别的分类 对于语音识别系统,较为普遍的分类如下 1 ( 1 ) 从识别的词汇量来分 每个语音识别系统都必须有一个词汇表。系统只能识别表中所包含的词条。通 常,词条越多,则相似的词越多,这样其误识率也相应增加;此外,随着词数增加,搜 索运算使计算开销迅速增加。因此词的数量越多,则系统实现越困难。词汇表的大致划 分标准是,词数少于1 0 0 只寸,称为小词汇表;1 0 0 至5 0 0 称为中词汇表;超过5 0 0 时称 为大词汇表。 ( 2 ) 从识别的基本单元来分 语音。识别按系统的识别对象可分为孤立词、连接词和连续语音:= 利r 方式。孤立词识 丹j ( i w r ,i s o l a t e dw o r dr e c o g n i t i o n ) 是指对说话人每次只说一个字、一个词组或一条命 令这样的孤立词进行识别,其中的词组或命令在词汇表中都作一个独立的词条;连接词 非特定人孤立词语音识别系统若干关键技术的研究 识g o ( c w r ,c o m l e c t e dw o r dr e c o g n i t i o n ) - - 般特指对十个数字( 0 9 ) 连接而成的多位数字 的识别,有时还可加上少量的操作指令,这时词汇表只由这十个数字及少数指令构成; 连续语音识另o ( c s r ,c o n t i n u o u ss p e e c hr e c o g n i t i o n ) 是对说话人以日常自然的方式讲述 而进行的识别。这三种方式,其识别困难是依次递增的。 ( 3 ) 从识别对象来分 语音识别系统可以是只针对一个用户的,例如个人专用的语音打字机,这称为特定 人工作方式( s d ,s p e a k e rd e p e n d e n o ;系统若是针对任何人的,则称为非特定人方式 ( s i ,s p e a k e ri n d e p e n d e n t ) ,电话和数据检索系统中所用的识别器即属这种情况。显然, 后者的实现难度较前者大得多。 1 2 2 孤立词语音识别研究的历史与现状 早在2 0 世纪5 0 年代初期,人们就开始对语音识别进行研究,但是直到2 0 世纪6 0 年代中期以后才作为一个重要的课题开展工作,并且逐步取得实质性的进展。2 0 世纪 7 0 年代日本学者i t a k u r a 将动态规划的概念用于解决孤立词识别时说话速度不均匀的难 题,提出了著名的动态时间规整算法,简记为d t w ( d y n a m i ct i m ew a r p i n g ) 。当词汇表 较小以及各个词条不易混淆时,该算法取得了很大成功。于是自2 0 世纪6 0 年代末期以 来,掀起了语音识别的研究热潮【2 】。 早期的语音识别系统大多是按照简单的模板匹配原理工作的特定人、小词汇表、孤 立词识别系统,这种语音识别系统的原理框图如图1 1 所示。在训练阶段,用户将词汇 表中的每一个词依次说几遍,并且将其特征矢量序列作为模板进行相似度比较,将相似 度最高者作为识别结果输出。为了得到好的识别效果,说话者在训练和识别阶段的说话 速度庇当一致,但是这很难做到。因此,一旦用d t w 算法克服了说话速度不均匀造成 的时问变化这一困难后,这种系统的性能有显著提高。但是,对于要求更高的语音识别 系统,如非特定人、大词汇表、连续语音识别系统,d t w 方法则效果较差。 2 0 世纪7 0 年代以来语音识别研究取得了一系列重大进展,尤其是h m m ( 隐马尔可 夫模型) 的提出,使得非特定人、大词汇表、连续语音识别这一个课题的研究取得了重 大突破。目前语音识别研究的主流便是采用 蹦m 的方法。概言之,就是从语音层直到 句法层,将全部浯音的统计知识容纳在个统一的h m m 框架之内。虽然这一方法还有 不少缺陷有待改进,但是其成果是过去的研究无法比拟的。 2 一 大连理工大学硕士学位论文 图1 1 早期的特定人、小词汇表、孤立词识别系统原理框图 f i g 1 1p r i n c i p l ed i a g r a m o f t h e s p e a k e rd e p e n d e n t ,s m a l lv o c a b u l a r y , i s o l a t e dw o r d r e c o g n i t i o ns y s t e mi ne a r l yt i m e 与早期的孤立词识别系统相对应,基于h m m 的孤立词识别系统的原理框图如图 1 2 所示。这种系统的基本思想为,在训练阶段,用h m m 的训练算法( 例如b a u m w e l c h 算法) ,建立系统词汇表中每个词彬对应的h m m 参数,记为a ;在识别阶段, 用前向一后向算法或v i t e r b i 算法求出概率p ( 0 丑) 值,其中0 为待识别词的观测序列: 后处理就是选取最大尸( 0 丑) 值所对应的词彬为0 的识别结果。 ,l 后面摆释 图1 2 基于h m m 的孤立词识别系统原理框图 f 培1 1 2p r i n c i p l ed i a g r a m o ft h ei s o l a t e dw o r d r e c o g n i t i o ns y s t e m b a s e do nh m 以前,只有i b m 、c m u 等少数研究机构使用h m m 方法,而2 0 世纪8 0 年代以 后,h m m 开始广泛使用。尤其美国的1 0 0 0 单词规模的d a r p a 项目在很大程度上推 动了语音识别的研究进度。以此为契机,s r i 、m i t 、c m u 、b b n 等展开激烈竞争,并 且取得许多非常重要的研究成果。在2 0 世纪8 0 年代术期由c m u 推出的s p h i n x 系 统,率先突破了语音识别中非特定人、连续语音、大词汇量三大难题,公认为语音识别 技术发展中的一个里程碑。 汉语语音识别技术起步较晚,但发展很快。目前,国内从事语音识别研究的单位超 过了几 个,如清华大学、中科院自动化所、中科院声学所、中国科技大学等。他们结 一馓响一 乡军一 面吝 对。 + 谯一 练一 然 非特定人孤立词语音识别系统若干关键技术的研究 合汉语语音学和语言学的特点,在基础理论、模型和实用系统等方面作了大量的工作, 并取得了重要的成果。在我国的“八五”计划和“8 6 3 ”计划中,汉语语音识别的研究 得到了大力支持,强有力的推动了汉语语音识别技术的发展。台湾在汉语语音识别方面 的研究也具有较高水平,其中以李林山教授主持的研究小组最为出色,他们研制成功了 一个实时汉语语音听写机g o l d e nm a n d a r i n 。 1 23 语音识别的难点和所面临的挑战 语音识别的研究工作可以追溯到2 0 世纪5 0 年代a t & t 贝尔实验室的a u d r y 系统, 它是第一个可以识别十个英文数字的语音识别系统。实验室语音识别研究的重大突破产 生于2 0 世纪8 0 年代末,一些小词汇量的识别系统具备了较高的识别率。同时,人们突 破了大词汇量、连续语音和非特定人这三大障碍,并把这三个特性集成在一个系统中。 语音识别技术获得突破的主要原因在于识别算法、半导体技术、软件技术和存储技术突 飞猛进的发展。 语音技术掀起的第一次浪潮始于2 0 世纪9 0 年代前期,许多著名的大公司如i b m 、 苹果、a t t 和n t t 等都对语音识别系统的实用化研究投以巨资。在1 9 9 7 年有人提 出,“语音时代”已经来i 临,商家也都对此充满了信心,希望语音识别能力能跟人一 样。 然而,事实并非如此。在实际应用中,实验室中“成功”的语音识别系统在鲁棒性 ( r o b u s m e s s ) 、灵活性和自适应能力上还远不能满足实际的需要,技术上也显得力不从 心。日前,在市场上较少有语音识别系统的成熟应用。厂商并没有去追求完美的应用一 一“听写机”一类的非特定人、连续语音、大词汇量的语音识别,而是把当前已经成熟 的那部分技术应用到实际的产品中。例如以中小词表为主的命令式语音识别,包括呼叫 中心、语音拨号,移动设备中的嵌入式命令控制等,并且对于普通话能达到相当高的识 别率。 尽管在实验室系统下语音识别系统达到了很高的识别率,但在实用中尚有许多问 题。 首先,方言或口音会降低语音识别率。对于拥有八大方言区的中文来说,应用的难 度会更大。 问题之二是背景噪音。公共场所大的噪音对语音识别影响很大,即使在实验室环境 下,敲击键盘、挪动麦克风都会成为背景噪音。实际应用中,噪音研究的问题就是如何 把原始语音从背景噪音中提取出来,这将会使识别系统具有很强的适应性。 第三个就是“口语”的问题。它既涉及到自然语言理解,又与声学有关。语音识别 4 大连理工大学硕士学位论文 技术的最终目的是要让用户在“人机对话”时,能够像进行“人与人对话”一样自然。 而一旦用户以跟人交谈的方式来进行语音输入时,口语的语法不规范和语序不正常的特 点会给语义的分析和理解带来困难。 1 3 本文所作的工作 本文研究小词汇量孤立词非特定人语音识别的问题, ( 1 ) 设计并建立一个用于训练和测试的人名语音数据库及其管理维护系统 这个数据库不但包括人名语音文件( 4 8 个人名) ,而且还包括与录音环境和录音者相 关的信息,如:录音环境、麦克风类型、姓名、性别等,这些信息有利于数据库的分 类、整理和查找。目前,数据库中已经存放了2 5 个人( 其中女性1 0 人) 的采样数据,每 个人在安静的实验室环境下采集5 至6 组。本课题以此数据作为实验数据。 ( 2 ) 建立基于d t w 的非特定人、人名语音识别系统 该系统词汇量为4 8 个人名,在不放松端点的条件下平均识别率可以达到8 03 : 当起点终点各放松两帧、搜索区域变大时,平均识别率为8 i 0 8 。 ( 3 ) 建立基于v q h m m 的非特定人、人名语音识别系统 选择m f c c 作为特征参数,h m m 作为语音识别模型,建立了语音识别系统。 ( 4 ) 分析m f c c 中各参数对语音识别的影响及改进h m m 模板的方法,提高了说话 人分类的白适应性。 针对噪声环境,提出利用状态转移图辅助进行平滑和去噪。讨论了m f c c 的各阶分 量对语音识别的贡献。研究了基于h m m 进行说话人性别识别的方法。 ( 5 ) 研究了系统实时实现的j l 个关键技术 考虑了在实时的硬件数据处理及端点检测实现中,存储空间复用及对数运算等问 题;根据m f c c 算法的特点,得到快速定点化处理的m f c c 的算法。 1 4 本文结构安排 本文可以分作两部分。第二章介绍语音识别概述。第三章阐述语音识别中所用到的 具体实现方法。第四章将针对非特定人、孤立词、小词汇量的人名语音识别系统的特 点,改进了几个关键技术。第五章详细描述了小词汇量语音识别系统实现过程中的重要 细节,并对实验结果进行了客观的分析,最后给出了全文的总结和展望。 大连理一f :大学硕士学位论文 第2 章语音识别概述 2 1 语音信号的声学原理 2 1 1 语音的声学分析 在声学范畴中,语音信号的基本组成单位是音素。音素又可分为“清音”和“浊 音”两大类,也可加上“无声”的情况作为一个特别类【1 】。在语音信号短时分析的基础 上,可以判断某一段语音是属于哪一种类型。针对不同的类别,需要进行不同的特征提 取与判断方案。语音中,发声的最小单位是“音节”,而音节又构成了更高一级的语音 单位“词”。通常认为一个汉语音节由元音和辅音构成。从持续时间和能量大小来看, 元音是音节的主要部分,而且所有元音都是浊音。辅音出现在音节的前后两端,有“清 辅音”和“浊辅音”之分。 汉语普通话中,每个音节都是由“辅音( c o n s o n a n t ) 元音( v o w e l ) ”( c v ) 构成,也 称辅音为声母,元音为韵母。汉语的这种结构,显示出其有更好的识别特性。当然,汉 语也有其特殊之处,就是普通话的四种声调。通过检测语音流中短时基音频率随时间的 变化情况,就可以识别出汉语的四声特征。在大规模识别系统中,应用汉语的声调信息 可以大大减小误识率 1 ,2 】。 语音信号的产生是一个复杂的生理过程。为进行各项语音研究和各种具体应用,建 立一个离散时域的语音信号产生模型非常重要。对于大多数研究和应用( 如语音编码、 语音识别) 而言,常采用图2 1 所示的离散时域模型。该模型模仿了语音的自然产生过 程,包含了激励源、声道模型和辐射模型等三个部分。 图2 1 语音信号产生的离散时域模型 f i g 2 1d i s c r e t et i m em o d e lo f s p e e c hg e n a r a t i o n 一7 一 非特定人孤立词语音识别系统若干关键技术的研究 激励源分为清音和浊音两个分支,按照清音浊音开关所处的位置,来决定所产生 的语音是浊哥还是清音。在浊音的情况下,激励信号由一个周期脉冲发生器产生。周期 n o 取决于基音频率e 和语音信号的采样频率工,即n o = 圪f o 。为了使浊音的激励信 号具有卢门脉冲的实际波形,还需要上述的冲击序列通过一个声门脉冲模型滤波器,其 z 域传输函数g ( z ) = l ( 1 g l z 一1 ) ( 1 一g :z 。) ,其中g 和岛都很接近1 。这样形成浊音激 励信号频谱很接近声门气流脉冲的频谱。乘系数a 。的作用是调节浊音信号的幅度或能 量。在清音的情况下,激励信号由一个随机噪声发生器产生,乘系数a 。的作用是调节 清音信号的幅度或能量。 声道模型v ( z 1 给出了离散时域的声道传输函数,它是一个全极点函数。 m ) = 再1i ,:是数 ( 2 - 1 ) f “,川戈戢 台“ 辐射模型和嘴形有关,一般月( z ) 可以表示为 r ( z ) = ( 1 一 1 ) ,r z 1( 2 2 ) 21 2 语音信号的特性 人类语音信号的频谱分量主要集中在3 0 0 - - 3 4 0 0 h z 范围内。目前较多的语音识别 系统采样率多选8 k h z 、1 0 k h z ( 识别芯片、d s p 等硬件处理) 或l1 0 2 5 k h z ( 计算机处理) 甚 至更高的采样频率。 语音信号的一个重要特性就是其“短时平稳眭”。虽然语音信号从整体上看是一个 非平稳波形,但由于人类发声器官是随时问而逐渐变化的( 即不可能产生“跳跃式”变 化1 ,与此相应,语音在较短的时间内具有较好的平稳性,这个周期通常在5 - - 5 0 m s 。 在大多数的语音信号处理中,多数取周期为1 0 m s 或3 0 m s 。当语音信号采样完毕后,按 此进行分帧( 每帧对应一个短时语音段) ,随后逐帧进行处理。 2 1 3 语音的产生 l 、清音、浊音和爆破音 语音按其激励形式的不同可以分为三类 1 ) 浊音( v o i c e ds p e e c h ) 。当气流通过声门时,如果声带的张力刚好使声带发生 张驰式的振荡,产生一股准周期的气流,这一气流激励声道就产生浊音。 2 ) 青音( u n v o i c e ds p e e c h ) 。当气流通过声门时,如果声带不振动,而在某处收 缩,迫使气流以高速通过这一收缩部分而产生湍流,就得到清音。 大连理工大学硕士学位论文 3 ) 爆破音( p l o s i v es p e e c h ) 。如果使声道完全闭合,在闭合后建立起气压,然后 突然释放就得到爆破音。 表2 1 汉语语音的频率特征 t a b l e2 1s u m m a r i z eo f m a n d a r i n s p e e c hf r e q u e n e y f e a t u r e f 浊音 清辅音 兀首浊辅音 频低频1 k h z 至o 4低频f o 1 k h z 至o 4 1 d - l z 奎 k h z 间1 能量较高;间) 能量较高; 高频( 3 5 k h z 以上) 特中频f 0 6 4 k h z 至中频f o 6 4 k h z 至能量较高 性 2 8 k n z ) 能量较高2 8 k a z ) 能量较低 图2 2 典型的声门脉冲串波形 f i g 2 2t y p i c a l w a v ef o r mo f g l o t t i sp u l s e 2 、基音频率 当发浊音时,气流通过声门使声带发生振动,产生准周期激励脉冲串,典型的波形 如图2 2 所示。这个脉冲串的周期就称为基音周期( p i t c h ) ,其倒数称为基音频率。 基音频率与个人声带的长短、厚薄、韧性、劲度和发音习惯等有关,这在很大程度 上反映了个人的特征。一般来说,男性说话者的基音频率大致分布在5 0 2 0 0 h z 的范围 内,而女j | 生说话者和小孩的基音频率在2 0 0 - 4 5 0 h z 之间。 3 、共振峰 人类的声道和鼻道都可以看作是非均匀截面的声道管。声道管的谐振频率称为共振 峰频率,简称共振峰。共振峰与发声器官的确切位置有很大的关系,即共振峰频率与声 道的形状和大小有关。每种形状都有一套共振峰频率作为其特征。改变声道的形状就产 生不同的声音。因此,当声道形状改变时,语音信号的频谱特性就随之改变。共振峰频 率由低到高排列依次为第一共振峰,第二共振峰,第三共振峰,相应的频率用 ,1 l ,尼,乃,表示。一般的浊音中可以辨别的共振峰有5 个,其中前面3 个对于区 一9 一 1 e 特定人孤立词语音识别系统若干关键技术的研究 别不同语旨至关重要。可利用倒谱法求语音信号的共振峰频率。 2 2 非特定人小词汇量孤立词语音识别方法概述 2 2 1 语音识别系统构成 语音识别系统一般由预处理单元、端点检测单元、特征提取单元和识别单元构成。 预处理单元的功能是通过高频预加重来平滑信号频谱,并利用窗函数把语音数据序列分 成连续的信号帧。端点检测单元主要完成确定单词的起始帧与结束帧的检测。特征提取 单元的功能是完成基于频谱的特征矢量的计算。当端点检测单元检测到当前语音信号帧 为起始帧时,特征提取单元开始特征提取计算,并存储帧特征矢量。在小型语音识别系 统中,为了节省系统的计算量和存储量,需要对语音帧特征矢量进行矢量量化计算。从 信息论的角度看,矢量量化也可归入特征提取单元。矢量量化的码本要预先在计算机上 生成并加以优化,同时还要给出矢量量化码本的搜索算法。在大型语音识别系统中,由 于不存在存储量与计算量方面的限制,一般直接利用语音帧特征矢量,作为识别模型的 特征参数。最后,声音匹配单元将完成特征观察参数与已知的语音信号模板之间的匹配 计算,并选择其中匹配程度最高的语音信号模板作为识别结果。 对于非特定人大词汇量、连续语音、语音识别系统而言,不可能为每一个词都建立 相应的语音识别模板,那将导致识别难度和计算量大大增加。现在,建立更加精细的语 言转换概率库已成为大词汇量语音识别系统中的一个研究热点 2 】。 获取非特定人语音字词模板的过程为:尽量收集更多的,代表各种类型人群的语音 数据;将这些语音数据转化为特征矢量序列的形式,作为训练数据;对初始h m m 语音 模型进行参数设置;利用重估算法使模型的参数达到最优化,从而形成最终的语音单词 模板。 2 2 2 识别方法简介 1 v q 识别方法 每帧语音经过特征提取后,得到一个n 维特征矢量,该矢量可以看作n 维特征空间 中的一个点。这样,一个发音转化为特征序列后,在特征空间中形成相剥应的一组点。 观察大量这样的特征点组合可以发现,这些点并非随机无序分布,而是构成了一个一个 的集合,这些集合在语音特征空间中称为“类”。v q 的主要工作是聚类,即通过训练 在特征空间中合理的拟定一组点( 点的个数可以事先确定) ,作为各个类的中心,这一组 点称为该字音的码本,其中每个点称为码字。对于整个识别系统,每个字音各自具有其 单独的码本。识别时,将待识别语音特征序列的每个特征与某字音码本的各码字作比 1 m 大连理工大学硕士学位论文 较,记下其最小距离,则整个序列的各帧最小距离之和作为判别用距离。最小距离所对 应的字音,即为识别判决的结果。 2 动态时间规整t w ) 间一个人对同一字音的两次发音,在总体速度以及字音内部相对瞬时速度上必然存 在一定的差异。在对两个发音的特征序列进行距离计算时,两序列总长度通常不一致, 无法直接对对应帧进行距离计算。虽然将较短的帧进行线性扩张或将较长的帧进行线性 压缩后可以解决长度不等问题,但由于两次发音内部相对瞬时速度会有非线性的变化, 仅以这两个发音的特征序列的对应帧进行匹配,通常难以达到理想的效果。日本学者 l t a k u r a 将动态规划( d p ) 的概念用于解决这一问题,提出了著名的动态时间规整算法,获 得了极大的成功。该算法实质上是在一个限定范围内对起止点相同的多条匹配路径进行 搜索,按照沿路径匹配累积距离最小准则,寻找其中的最优路径作为匹配路径,沿该路 径匹配累积距离作为两个特征序列问距离。 该方法用于语音识别得到了较好的效果,但其缺点是计算量大,当语音序列较长 时,难以保证实时识别。 3 v q h m m 识别方法 v q 技术可以有效的将可能发生的各种音素( p h o n e m e ) ,由维数不多( 几十个) 的特征 空间中的点来足够近似的表征。在学习过程后可以得到的这些点,称之为码字。在识别 过程中,将待识别序列中各特征点与各码字比较,以距离最近的码字代之,于是得到一 个量化的时间序列( 码字序列) 。现在的问题是这样的时间序列究竟应判为字表中的何 字。对每个字音的模型如图2 _ 3 所示,图中的每个态对应某音节,模型中每个峨表示当 前时刻属于i 态对应音节时,下一时刻变为,态的概率。这些口,值可以通过已知字类的 训练码本时间序列的考察和统计计数等方法来估出。令待识别码字时间序列由1 态到4 图2 3 音节状态转移模型 f i g 2 3s y l l a b l es t a t et r a n s i t i o nm o d e l b 渺 4 + 参r 碜 璺菱 晕一 漫 玲 特定人孤立词语音识别系统若干关键技术的研究 态,计算其最佳途径相应的计分。比较各字音对该待识别样本的计分,最大计分相应字 音即为识别结果。 当每个码字能准确的与音节( 态) 相对应时,上述方法概念明确,可以直接应用。但 当音节难以划分或想省去音节划分计算时,仍使用此模型则将发生一个状态不对应一个 音节( 码字) 的情况。此时应该建立这样的概念,即一个状态对应于码本上的所有码字, 但由训练( 学习) 过程给出各个码字相应的出现概率( 常用口概率阵表示,的含义为f 态下 输出码字,的概率) 。这样的,对于一个码字输入序列,可以有很多状态序列与之相对 应,可据此计算各状态序列对该码字序列的计分。然而上述的每个状态序列与码字序列 只是以一定概率相对应,故称此模型与状态序列之间的相对关系是“隐”的f 码字序列 可以直接观测,是“显”的1 。因而称该模型为“隐马尔可夫模型( h m m ,h i d d e n m a r k o v m o d e l ) ”。 本文第三章将对h m m 模型做详细的介绍。 4 基于时序特征差( 声谱差) 的动态时配识别系统 除前述办法外,解决发音速度的非线性变化的另一个思路,就是找出音韵特征( 元 音、过渡音等) 相对源,来求彼此间的距离。方法是按时序找出顺序的各元( 特征) 的差值 ( 称为声谱差) ,再将直到某一元为止的声谱差相加起来除以整个字音的总声谱差,于是 对于任一序列中的任一帧,都有一新的标志量。实验表明,尽管发音存在非线性变化, 但相对累计声谱差相同的对应点却接近于与之音韵特征相同的点。以此相应点进行对应 距离匹配计算总距离,可以得到较好的效果。 5 其它识别系统 除上述各识别系统外,还有基于先验知识或规律的识别系统,基于音素的识别系 统,基于神经网络的识别系统以及多种改进型的h m m 识别系统等。这些不同的识别方 法从不同角度利用语音的某些特性、人脑的感知过程、先验知识规律等信息进行识别, 起到了良好的作用。此外,使用几种不同识别方法级联构成的多级识别系统,也为某些 问题的解决提供了有效的办法。 12 _ 大连理工大学硕士学位论文 第3 章孤立词语音识别算法 3 1 端点检测 有效语音段截取是语音预处理的重要一步。端点检测的准确性对识别的效率和结果 有直接影响【8 。下面将逐一介绍短时能量法、过零率法和能量积法。 3 1 1 端点检测的短时能量法 语音信号的短时能量反映了语音信号幅度随时间的变化,计算公式为 9 】 乞= 妻f ( m ) ( ”一坍) f ( 31 ) 亦可表示为 e = x 2 ( ) ( m 一脚)( 3 2 ) 其中h ( n ) = 2 ( ”) 。为使算法简化,避免它对高信号电平的敏感,本文采用平均幅度函 数m 。= i x ( 酬 一川) 来代替短时能量函数【1 。 这时能量的主要意义在于,能量函数可甩来大致定出浊音语音变为清音语音的时 刻。可用来区分声母与韵母,无声与有声。 3 1 2 端点检测的短时过零率法 离散时间情况下,若相邻的抽样具有不同的代数符号,就称为发生了过零。一段语 音波形中,单位时间内信号通过零线的次数称为过零率。它可作为信号频率的一个度 量。由于语音信号是宽带信号,故采用了短时平均过零率来粗略估计其谱特性【3 。具体 计算公式为 z 。= i s g n x ( n ) 一s g n x ( m 一1 ) j w ( n 一卅) ( 3 3 ) 其中 s 啡也鬟: ,、1 1 2 n ,0 n 一1 w 2 t 0 其它 d 4 ) ( 3 5 ) 语音信号中,浊音语音能量集中在较低的频率段内( 3 珏 z 以下) ,清音语音能量多集 中在较高频率段内,而频率的高低又意味着过零率的高低,所以据此可以大致判断出清 1 3 一 非特定人孤立词语音识别系统若干关键技术的研究 音与浊音。 3 1 _ 3 端点检测的能量积法 短时能量与平均过零率的乘积,定义为能量积【2 。用于端点检测,计算公式为 a = e 。z 。 ( 3 6 ) 根据语音信号的短时能量和过零率的特点,经实验比较发现,采用短时能量法和平 均过零率法相结合比较有效。 3 _ 2 特征参数提取 特征提取量就是从语音信号中抽取有效的信号特征,同时还要尽量去除语音信号中 的噪声信息,提高识别的精度。 由于语音具有短时特性,因此语音特征参数可以按帧进行信息提取,获得帧特征矢 量。一段语音经过特征提取后,变成了一个矢量序列。这种矢量序列再按某种语音识别 模型进行训练后就形成了语音模板。语音特征参数的提取十分重要,直接影响到语音识 别的准确性。一个好的语音特征参数要满足三方面的要求 1 0 1 1 ) 能有效的提取语音的信号特征,包括人的声道特征与听觉模型; 2 1 各阶参数之间有良好的独立性; 3 ) 特征参数有高效的计算方法。 当前,最常用的两种特征参数是线性预测倒谱系数( l p c c ,l i n e a rp r e d i c t i o n c e p s t r u mc o e f f i c i e m s ) 和m e l 倒谱系数f m f c c ,m df r e q u e n c yc e p s t m mc o e f f i c i e n t s ) 。 m f c c 与l p c c 是两种有效的特征参数。研究结果表明,这两种方法都对语音识别的性 能有所提高【l l ,1 2 。也有研究者将小波分析 1 3 1 5 d i x t 特征提取中,虽然对识别的准 确率有所改善,但是其所需的计算量较大,不适用于本课题。 3 2 1 线性预测 线性预测1 6 ,1 7 ,通常又称为线性预测编码。它首先由维纳提出,并于1 9 6 7 年首 先应用于语音信号分析。线性预测的计算效率很高,而且还能与声道发音模型相联系, 并发展出了多种与人们听觉联系紧密的谱失真测度方法 1 8 2 0 1 。 线性预测分析的基本思想是:每个语音信号采样值,都可以用它过去的取样值的加 权和来表示,各加权系数应使实际语音采样值与线性预测采样值之问误差的平方和达到 最小,即进行晟小均方误差的逼近。这里的加权系数就是线性预测系数。 线性预测用简单的模型参数来描述,如图3 1 所示, 1 4 - 人连理工大学硕士学位论文 丽 图3 1 信号模型图 f i g 3 1s i g n a lm o d e l 设“( n ) 表示模型的输入,s ( n ) 表示模型的输出,则模型的系统函数h ( z ) 表示为 式中a 为系数,p 为预测模型的阶数。 s ( n ) 与u ( n ) 的关系可用差分方程表示 ( 3 7 ) s ( 叻= 吼j ( 一七) + g “( 月) ( 3 8 ) k = l 即用信号前p 个样本来预测当前样本,定义预测器 口 f ( 功= 日。s 一七) ( 3 9 ) k = l 由于预测系数慨 在预测过程中可看作常数,所以它是一种线性预测器。这种线性 预测技术最早应用于语音编码,因此常称为线性预测编码。 此线性预测器的系统函数可表示为 p ( z ) = d 。z “ ( 3 1 0 ) 实际中存在预测误差。预测误差可用下式表示, p p ( ”) = s ( ”) - y ( n ) = s ( n ) - 口l j ( 月一女) ( 3 1 1 ) j = 】 能使信号序y o s ( n ) 产生上面的预测误差序列的系统,其函数表达式可以表示为 爿( z ) = 1 一艺即“ ( 3 1 2 ) 可以看出,预测误差滤波器a ( z ) 是系统函数h ( z ) 的逆滤波器。要使此模型能尽可 能精确的描述信号s ( n ) ,预测误差能量在某一短时内的总能量应该尽量小,在此准则下 求出最佳预测系数k 。 。短时平均误差能量定义为 一1 5 一 喈 非特定人孤立词语音识别系统若干关键技术的研究 占: 跏) 一圭筇( ”一女) 1 ( 3 1 3 ) li = il s ( ”) 表示宽度为的语音数据帧。使占达到最小值的 a 。 必定满足 c 3 e o a ,= 0 (
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 自助画室加盟合同范本
- 高校承包食堂合同范本
- 销售空调维修合同范本
- 运损货车出售合同范本
- 门面租户租赁合同范本
- 济南股份转让合同范本
- 维稳设备安装合同范本
- 瓷砖原厂采购合同范本
- 运输合作协议合同范本
- 校车公司入股合同协议
- 临床骨筋膜室综合征护理业务学习
- 午托机构安全协议书
- 企业与高校合作共建实验室协议
- 采血错误安全教育警示
- 家政日常保洁培训
- 【初中英语】15天背完英语3500词
- 九年级化学(全一册)知识点总结
- DB11∕T 2178-2023 城市河道边坡水土保持技术规范
- GB 7300.304-2024饲料添加剂第3部分:矿物元素及其络(螯)合物甘氨酸铁络合物
- 2025届高考语文一轮复习:文言文主观题答题策略+课件
- 新高考背景下2025届高三历史一轮复习策略讲座
评论
0/150
提交评论