(信号与信息处理专业论文)基于dhmm和vq的关键词识别研究与实现.pdf_第1页
(信号与信息处理专业论文)基于dhmm和vq的关键词识别研究与实现.pdf_第2页
(信号与信息处理专业论文)基于dhmm和vq的关键词识别研究与实现.pdf_第3页
(信号与信息处理专业论文)基于dhmm和vq的关键词识别研究与实现.pdf_第4页
(信号与信息处理专业论文)基于dhmm和vq的关键词识别研究与实现.pdf_第5页
已阅读5页,还剩47页未读 继续免费阅读

(信号与信息处理专业论文)基于dhmm和vq的关键词识别研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

武汉理1 :人学硕十学位论文 摘要 关键词识别k w r 是一种自动语音识别a s r 技术,其目的是在自然语音流 中检测和确认一组由特殊场合决定的特定词。随着自动语音识别技术的发展, 关键词识别技术已经延伸到通讯、自动控制、人机交互和信息检索等诸多领域。 现有关键词识别系统主要是基于p c 机的,不符合片上系统s o c 体积小和低功 耗的要求,因此基于集成电路i c 的关键词识别系统成为当前的研究热点。基于 i c 的语音识别系统主要通过d s p 和f p g a 两种途径来实现,由于我国没有高性 能d s p 的自主知识产权,因此从成本控制上考虑,拥有开发成本低、体积小和 速度快等诸多优点的f p g a 成为我国发展语音识别专用芯片的首选。 目前,现有关键词识别系统中的许多软件算法很难用f p g a 硬件电路来设 计实现。本文在研究k w r 基本原理及主流识别算法的基础上,通过研究分析离 散隐马尔可夫模型( d h m m ) 和引入矢量量化( v q ) 模块,研究设计了易于f p g a 硬件电路实现的基于d h m m 和v q 的关键词识别系统。 本文主要工作内容如下: ( 1 ) 分析了h m m 基本原理,重点研究了前向一后向算法、模型参数重估 b a u m w e l c h 算法和最佳状态搜索v i t e r b i 算法,并分析解决了多观察值序列的模 型参数重估问题。 ( 2 ) 分析了语音信号预处理、端点检测和特征参数提取的基本原理及常用算 法,重点研究实现了m f c c 特征提取算法和设计实现了基于硬件电路实现的状 态机法端点检测。 ( 3 ) 分析了现有k w r 系统的基本结构,研究了离散化模型d h m m 的训练 算法,设计实现了易于f p g a 硬件电路实现的基于d h m m 的关键词识别系统。 ( 4 ) 为了保证系统的识别率和识别速度,在研究分析v q 矢量量化信号聚类 原理、初始码书生成和最佳码书设计l b g 算法的基础上,引入v q 矢量量化模 块,设计实现了基于d h m m 和v q 的关键词识别系统。 ( 5 ) 完成了大量的模型训练实验,仿真实现了所设计的2 种关键词识别系统, 检验了系统的识别性能,并对实验结果进行了统计、分析和比较。 关键词:语音处理;关键词识别;d h m m ;v q ;f p g a 武汉理r 大学硕十学位论文 a b s t r a c t k e y w o r dr e c o g n i t i o n ( k w r ) i sak i n do fa u t o m a t i cs p e e c hr e c o g n i t i o n ( a s r ) t e c h n o l o g y , a n di t sa i mi st od e t e c ta n dc o n f i r mag r o u po fs p e c i a lw o r d sd e c i d e db y s p e c i a lo c c a s i o n sf r o mn a t u r a lv o i c ef l o w a st h ed e v e l o p m e n to fa s rt e c h n o l o g y , k w r t e c h n o l o g y h a se x t e n d e dt oc o m m u n i c a t i o n s ,a u t o m a t i o n ,h u m a n - c o m p u t e r i n t e r a c t i o na n di n f o r m a t i o nr e t r i e v a la n do t h e ra r e a s e x i s t i n gk w r s y s t e mi sm a i n l y b a s e do np c ,d on o tf i tt h er e q u i r e m e n to fs m a l ls i z ea n dl o wp o w e rf o rs y s t e mo na c h i p ( s o c ) ,t h e r e f o r e ,k w rs y s t e mb a s e do ni n t e g r a t e dc i r c u i t s ( i c ) h a sb e c o m et h e h o t s p o tr e c e n t l y i c - b a s e ds p e e c hr e c o g n i t i o ns y s t e m sa r ea c h i e v e dp r i m a r i l yt h r o u g h t h ed s pa n df p g a s i n c et h e r ei sn oi n d e p e n d e n ti n t e l l e c t u a lp r o p e r t yr i g h t so f h i g h p e r f o r m a n c ed s pi nc h i n a , f r o mt h ec o n s i d e r a t i o no fc o s tc o n t r 0 1 f p g aw h i c h h a sm a n ya d v a n t a g e ss u c ha sl o wd e v e l o p m e n tc o s t ,s m a l ls i z ea n ds oo nb e c o m e st h e f i r s tc h o i c et od e v e l o ps p e e c hr e c o g n i t i o na s i c c u r r e n t l y , m a n ys o f t w a r ea l g o r i t h m si nt h ee x i s t i n gk w rs y s t e ma r ed i f f i c u l tt o b ei m p l e m e n t e db yf p g ah a r d w a r ec i r c u i t o nt h eb a s i so ft h eb a s i cp r i n c i p l eo f k w ra n dm a i n s t r e a mr e c o g n i t i o na l g o r i t h m s ,t h i sp a p e rh a sd e s i g n e dt h ed h m m a n dv q - b a s e dk w r s y s t e mw h i c hi se a s yt ob ea c h i e v e db yf p g ah a r d w a r ec i r c u i t t h r o u g hr e s e a r c ha n da n a l y s i so fd i s c r e t eh i d d e nm a r k o vm o d e l ( d h m m ) a n dt h e i n t r o d u c t i o no fv e c t o rq u a n t i z a t i o n ( v q ) m o d e l t h em a i nr e s e a r c hc o n t e n t so ft h i st h e s i sa r er e c a p i t u l a t e da sf o l l o w s : ( 1 ) t h i st h e s i sd e s c r i b e dt h eb a s i cp r i n c i p l eo fh m m ,a n dd e e p l ya n a l y z e dt h e f o r w a r d b a c k w a r da l g o r i t h m ,t h ev i t e r b ia l g o r i t h m ,t h em u l t i o u t p u tp a r a m e t e r s r e - e v a l u a t i o nb a u m w e l c ha l g o r i t h mw i t hm u l t io b s e r v a t i o ns e q u e n c e ( 2 ) t h i st h e s i sd e s c r i b e dt h eb a s i cp r i n c i p l e sa n dc o l t l m o na l g o r i t h m so fs p e e c h s i g n a lp r e p r o c e s s i n g ,e n d p o i n td e t e c t i o n ,f e a t u r ee x t r a c t i o n ;a n dd e e p l yd i s c u s s e da n d a c h i e v e dt h ef e a t u r ee x t r a c t i o na l g o r i t h mo fm f c c ,s t a t em a c h i n em e t h o de n d p o i n t d e t e c t i o nb a s e do nh a r d w a r ec i r c u i t ( 3 ) t h i st h e s i sd e s c r i b e dt h eb a s i cs t r u c t u r eo fe x i s t i n gk w rs y s t e m ;a n a l y z e d i i 武汉理i :人学硕士学位论文 t h et r a i n i n ga l g o r i t h mo fd i s c r e t em o d e ld h m m ;d e s i g n e da n dr e a l i z e dt h ek w r s y s t e mb a s e do nd h m m ,w h i c hw a se a s i l yi m p l e m e n t e db yf p g ah a r d w a r ec i r c u i t ( 4 ) t oe n s u r et h er e c o g n i t i o nr a t ea n ds p e e do fs y s t e m ,o nt h eb a s i so f r e s e a r c h i n gc l u s t e r i n gp r i n c i p l e ,t h ei n i t i a lc o d e b o o kg e n e r a t i o na n dt h eb e s t c o d e b o o kd e s i g nl b g a l g o r i t h mo fv q ,t h r o u g ht h ei n t r o d u c t i o no fv qm o d u l e ,t h e t h e s i sd e s i g n e da n dr e a l i z e dt h ek w r s y s t e mb a s e do nd h m m a n dv q ( 5 ) t h i st h e s i sc o m p l e t e dal a r g en u m b e ro ft h em o d e lt r a i n i n ge x p e r i m e n t s ; s i m u l a t e da n dr e a l i z e dt h et w ok i n d so fd e s i g n e dk w rs y s t e m s ;t e s t e dt h e p e r f o r m a n c eo ft h es y s t e m s ;a n a l y z e da n dc o m p a r e dt h ee x p e r i m e n t a lr e s u l t s s t a t i c a l l y k e y w o r d s :s p e e c hp r e p r o c e s s i n g ,k e y w o r dr e c o g n i t i o n ,d h m m ,v q ,f p g a 1 i i 独创性声明 本人声明,所呈交的论文是我个人在导师指导下进行的研究工作及取得的 研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其它教 育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 学位论文使用授权书 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即: 学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许 论文被查阅和借阅。本人授权武汉理工大学可以将本学位论文的全部内容编入 有关数据库进行检索,可以采用影印、缩印或其他复制手段保存或汇编本学位 论文。同时授权经武汉理工大学认可的国家有关机构或论文数据库使用或收录 本学位论文,并向社会公众提供信息服务。 ( 保密的论文在解密后应遵守此规定) 研制:m 翩( 糊:畸弘醐卅、v 武汉理1 j 人学硕十学位论文 第1 章绪论 1 1 课题研究的目的与意义 语言在人类的智能组成中充当着极其重要的角色,语音的交互使得人们之 间8 0 以上的交流和沟通能够有效地完成。人与人之间思想、观点和情感交流 最方便、自然和快捷的手段就是语言,因此人们希望语言也能成为人与计算机 交流的媒介l l 2 1 。自动语音识另l ( a u t o m a t i cs p e e c hr e c o g n i t i o n ,a s r ) 就是研究如 何让计算机听懂人类语言的一门科学,主要包括孤立词识别、关键词识别和连 续语音识别l j i 。 关键词识另l ( k e y w o r dr e c o g n i t i o n ,k w r ) 就是要求在自然语音流中检测并确 认出一组由特殊场合决定的特定词。它是一种处于孤立词识别和连续语音识别 之间的自动语音识别技术【4 】。k w r 摆脱了孤立词识别的局限性,具有更加广泛 的实用意义;而相对于连续语音识别而言,k w r 不要求检测出语音流中的每个 语音,节约了宝贵的系统资源,另外k w r 对语音的质量要求较低,具有良好的 鲁棒性【5 】。这些k w r 的自身特点为构建广泛应用、实时处理和功能稳定的语音 识别系统奠定了基础。 k w r 拥有广阔的市场前景,目前主要在以下领域中得到了实际应用陋9 1 。 ( 1 ) 语音监听:为了从来自地球各地的庞大语音数据中提取有效信息,世界 各国正在努力研究语音监听技术。近年来的恐怖行动和反恐行动更是凸显了语 音监听的重要性。关键词识别系统能够2 4 小不间断监控电话和网络,当检测到 敏感词汇时,可以及时给出预警并跟踪语音数据源所在地;这样就可以在占用 有限的资源下,获得了最大化的安全效益。 ( 2 ) 语音控制:语音拨号和自动电话转接是关键词识别在电话领域的应用热 点。关键词识别系统可以通过分析语音命令来控制电子设备内部的功能模块, 于是就可以用语音来代替键盘进行命令输入,节约了大量的人力资源。 ( 3 ) 语音检索:随着信息技术的发展和网络的同益发达,语音数据库的容量 不断增大,并且在信息库中占据着越来越重要的地位。如何从庞大的语音数据 库中提取所需要的信息是一个急需解决的问题。关键词识别技术为语音信息检 武汉理厂人学硕+ 学位论文 索提供了一条性价比高的解决方案。 关键词识别技术研究主要有两个趋势:基于p c 的软件实现和基于i c 的硬 件实现。现有关键词识别系统主要是基于p c 机的,不符合片上系统s o c 体积 小和低功耗的要求,因此基于集成电路i c 的关键词识别系统成为当前的研究热 点。基于i c 的语音识别系统主要通过d s p 和f p g a 两种途径来实现,由于我国 没有高性能d s p 的自主知识产权,因此从成本控制上考虑,拥有丌发成本低、 体积小和速度快等诸多优点的f p g a 成为我国发展语音识别专用:芯片的首选i l 。 但是现有关键词识别系统大都采用很难用f p g a 硬件电路准确描述的连续隐马 尔可夫模型( c o n t i n u o u sh i d d e nm a r k o vm o d e l ,c h m m ) 作为识别模型,因此本文 提出用离散隐马尔可夫模型( d i s c r e t eh i d d e nm a r k o vm o d e l ,d h m m ) 作为系统的 识别模型,并通过引入矢量量化( v e c t o rq u a n t i z m i o n ,v q ) 模块来保证离散关键 词识别系统的识别率和识别速度。本文研究设计的基于d h m m 和v q 的关键词 识别系统为k w r 系统的f p g a 硬件实现研究提供了参考和基础。 1 2 关键词识别的发展和研究现状 2 0 世纪7 0 年代,c h r i s t i a n s e n 等人的文章探讨了利用信号的l p c 参数对连 续语音中的关键词进行检测和确认,文章称该方法对4 个词和1 0 个数字的识别 取得很好的效果,这也揭开了关键词研究的序幕i l 。 2 0 世纪8 0 年代是关键词识别研究的起步阶段。基于d t w 的局部最小算法 的研究、填料模板的提出、连续隐马尔可夫模型c h m m 的引入和模板连接方法 的研究等为后续对关键词识别的研究提供了重要基础。b e l l 实验室研究实现的 基于h m m 的电话用语实用关键词识别系统标志着关键词识别研究的崛起i l 引。 2 0 世纪9 0 年代是关键词识别研究的快速发展阶段。利用关键词识别技术检 测和确认语音短信中重要信息的研究,以及应用关键词识别技术作为p d a 语音 命令控制的研究和结合关键词识别技术与网络的研究等实用性研究都取得了重 大突破【1 3 j 。 进入2 1 世纪,随着信息技术的发展和计算机计算能力的提高,关键词识别 在理论研究和实际应用上都得到了空前发展。h t k 、s p h i n x 和r w t h 等优秀语 音试验平台的搭建、各类语音国际论坛和国际学术会议的举办、w a l ls t r e e t j o u r n a l 等优秀语音数据库的建立都会关键词识别的进一步发展支持【i 4 。 2 武汉理r 人学硕十学位论文 在国内,刘建对关键词识别系统的移植性进行了研究,提出可定制关键词 识别系统;袁长海把语音识别技术、关键词捕捉技术、分布式语音识别和网页 浏览器相结合,实现了一个基于k w s 技术的中文语音网页浏览器;燕鹏举等人 将关键词语音识别技术应用到一个电话自动航班查询系统e a s yf i g h t i ”j 。 当前关键词识别研究主要集中在特征参数提取、模式划分和系统硬件移植 等几个方面,同时这些也是当前关键词识别研究的难点和热点【l 纠引。 ( 1 ) 语音特性参数提取:未经压缩的语音信号数据量是非常之庞大的,会致 使系统的运算和存储负担过重,而且由于语音信号自身的多变性和复杂性,加 上协同发音和过渡音等情况会极大的影响系统的识别率,所以不能直接对未经 压缩处理的语音信号进行模板训练和识别处理。压缩处理就是去除语音信号的 相关性,用较少的参数有效地表征语音信号,这一过程也称为特征参数提取。 ( 2 ) 识别模型的选取:即模式划分,识别模型能否准确描述语音信号包含的 丰富信息及物理特性将直接影响关键词识别系统的性能。实际的连续语音流中 各个音节在时域相对位置上通常是随机的、不稳定的,另外加上噪声、说话人 心情和方言的影响,因此很难用数学模型精准的描述语音信号的变化规律。人 工神经网络、动态时间规整和隐马尔柯夫模型是当f j 比较流行的模式划分解决 方案。 ( 3 ) 系统硬件移植:现有关键词识别系统大多是基于连续隐马尔可夫模型 c h m m 的,属于连续系统,并不适合用f p g a 硬件电路来实现。关键词识别系 统硬件移植就是为了满足关键词识别系统硬件化、微型化和实用化的要求,而 对识别系统结构和识别关键算法进行的分析研究。其目的是实现关键词识别系 统在硬件电路( 如f p g a ) 上的独立运行,从而推动关键词识别系统在实用性方面 的进一步发展。 1 3 本文的主要研究内容 现有关键词识别系统主要是基于p c 机的,不符合片上系统s o c 体积小和 低功耗的要求,因此基于集成电路i c 的关键词识别系统成为当前的研究热点。 但是现有关键词识别系统大都采用很难用硬件电路准确描述的连续隐马尔可夫 模型c h m m 作为识别模型,因此本文在研究分析现有关键词识别系统结构和基 本原理的基础上,针对小词汇量非特定人的关键词识别系统,提出用离散隐马 武汉理一f :人学硕十学位论文 尔可夫模型d h m m 作为系统的识别模型,并通过引入v q 矢量量化模块来保证 离散关键词识别系统的识别率和识别速度。 本文的具体结构安排如下: 第1 章分析当前关键词识别的理论研究热点和难点及实际应用前景,总结 关键词识别的发展趋势,提出本文的研究重点,最后阐述本文的主要研究内容。 第2 章讨论关键词识别的基本原理和框架,探讨现有关键词识别系统的一 般结构在系统硬件化方面存在的问题,通过对h m m 识别模型的离散化和引入 v q 矢量量化模块,研究设计了一种新的基于d h m m 和v q 的关键词识别系统。 第3 章分析模式匹配模块之前对语音信号必须进行的前端处理过程,包括 语音信号预处理、端点检测和特征参数提取。重点研究实现了m f c c 特征参数 提取算法和设计实现了基于硬件电路实现的状态机法端点检测。 第4 章研究离散模型d h m m 的基本原理和实现过程,完成了大量关键词 d h m m 模型的训练,实现了基于d h m m 的关键词识别系统,并统计分析实验 数据和评价关键词识别系统性能。 第5 章分析v q 矢量量化的原理,研究v q 的初始码书和最佳码书生成设计 算法。在基于d h m m 的关键词识别系统的基础上,引入v q 矢量量化模块,实 现了基于d h m m 和v q 的关键词识别系统,统计比较实验数据和识别系统性能。 该系统弥补了基于d h m m 的关键词识别系统在识别率和识别速度上的缺陷。 第6 章对本文所做研究工作进行总结,展望本文的后续工作思路。 4 武汉理i :入学硕十学位论文 第2 章关键词识别系统的总体结构设计 上一章讨论了关键词识别的发展和研究意义,本章将具体分析关键词识别 的基本原理和识别系统的基本框架,讨论现有关键词识别系统的结构,在此基 础上,通过对h m m 识别模型的离散化和引入v q 矢量量化模块,研究设计基于 d h m m 和v q 的关键词识别系统的总体结构。 2 1 关键词识别原理 关键词识别的任务是在自然语音流中检测和确认组由特殊场合决定的特 定词。它是一种处于孤立词识别和连续语音识别之问的自动语音识别技术 4 1 。 k w r 摆脱了孤立词识别的局限性,具有更加广泛的实用意义;而相比连续语音 识别,k w r 对发音人和环境的要求较低,具有更好的鲁棒性。 关键词识别主要包含训练和识别两大部分【2 。训练是识别的前提,训练的 结果是能够表征关键词语音特征的诸多模型参数:识别过程就是将输入语音信 号与关键词模型进行模式匹配,计算各个模型的输出概率。 关键词识别系统的基本框架可总结为如图2 1 所示。 _ 墅h 竺! 竺h ! 蔓兰h 竺型 模板参数 图2 1 关键词识别系统的基本框架 关键词识别系统各个组成模块的功能分析如下。 ( 1 ) 语音信号预处理:语音预处理的目的是将自然语音采集量化成便于计算 机处理的数字信号,去除自然语音流中的噪声干扰,对由于语音采集仪器或其 他因素造成的信号退化现象进行恢复,并对有用信息进行加强,为后续的端点 武汉理i :人学硕- 十学位论文 检测和语音特征参数提取工作奠定基础1 2 1 | 。语音预处理主要包括语音信号采集、 预加重和分帧加窗。 ( 2 ) 端点检测:自然语音流中包含许多对识别系统而言无效的信息段,包括 噪声段、静音段等。端点检测就是根据某些特征参量对语音信号进行判定,准 确的找到有效语音的起止点【2 列。其准确性直接影响系统的识别效率和性能,是 语音识别系统的一个重要环节。 ( 3 ) 特征参数提取:未经压缩的语音信号数据量是非常之庞大的,例如采样 频率为8 k h z ,量化精度为1 6 位,那么每秒的数据量为1 2 8 k b 。因为语音信号数 据量太大会致使系统的运算和存储负担过重,而且原始语音信号包含的许多随 机因素会极大的影响系统的性能,所以不能直接对未经压缩处理的语音信号进 行模板训练和模式匹配【2 3 1 。压缩处理就是去除语音信号的相关性,用较少的参 数有效地表征语音信号,这一过程也称为特征参数提取。 关键词识别系统首先通过特征参数提取将语音信号压缩变换到特征空间 中,类似于将时域信号变换到频域空间,然后针对特征矢量序列进行模板训练 或模式匹配。压缩变换不仅可以去掉语音信号中的大量冗余,而且可以将在时 域空间中很难划分模式样本变得更加清晰可分1 2 4 j 。 ( 4 ) 模板训练:要想让计算机理解人类的语言,首先必须让计算机通过某种 方式学习认识它们。最直接、简单的方法就是让计算机记住每个关键词所对应 的所有语音波形,但是计算机存储量的限制否定了这种方法的现实可行性1 2 引。 即便是经过特征参数提取压缩处理后,每个关键词的所有语音波形数据量依然 十分庞大,所以人们就想模拟人类的发声机理用某些参数的相结合来描述表征 语音,即对关键词进行建模【2 6 】。在确定对关键词采取怎样的模型后,将面临模 板训练和模式匹配两个问题。 模板训练即计算机学习语言的过程,其目的就是获取关键词模型的各个参 数。计算机通过对多个关键词语音特征参数矢量序列进行反复分析和对比,归 纳总结出该关键词语音的内在特征,即确定该关键词模板的参数,然后保存这 些参数【2 7 1 。在模式匹配阶段,计算机就可以用这些参数组合来表征该关键词。 ( 5 ) 模式匹配:是关键词识别系统的一个关键环节。模式匹配就是计算输入 语音特征参数矢量序列相对于各个关键词模板的输出概率或失真距离。关键词 模板的参数由模板训练模块对关键词进行学习而取得【2 引。输出概率越大或失真 距离越小就说明输入语音与该关键词模板所对应的关键词更接近。 6 武汉理:人学硕。= 学位论文 ( 6 ) 识别判定:是关键词识别系统的判定环节,其任务就是根据输入语音相 对于各个关键词模板的输出概率或失真距离来确认识别结果【2 9 j 。根据不同的应 用场合,尽量避免第一类错误或者第二类错误,可以制定不同的判定原则。 2 2 关键词识别系统的总体结构设计 2 2 1 现有关键词识别系统的一般结构分析 现有关键词识别系统的一般结构可归纳为如图2 2 所示。 训练l 语音信号ii 双门限法1i l p c c 1 c h m m 图2 2 现有关键词识别系统的一般结构 现有关键词识别系统的一般结构中各个组成模块的算法选取如下。 ( 1 ) 双门限法端点检测:端点检测的实质就是从自然语音流中提取有效语音 并分割出各个语音音节1 3 们。基于短时能量或短时平均幅度的检测法、基于短时 能量和短时过零率的检测法是比较常用的两种端点检测方法。 基于短时能量或短时平均幅度的检测法一般通过统计语音流前面几帧背景 噪声的短时能量来设定能量门限值,然后将每帧语音信号的短时能量或者短时 平均幅度和能量门限值的进行比较,以此来判断此帧信号是否为语音帧【3 。这 种检测法最大优点就是算法简单,在高信噪比的语音环境下有很理想的效果, 当信噪比大于2 0 d b 时,准确性接近1 0 0 6 1 。但是这种检测法不完善,很容易 遗漏清音发音,会降低系统的识别率,并且适当的能量门限值很难准确估计。 基于短时能量和短时过零率的检测法,即双门限法,这种检测法首先用短 时能量进行第一次判定,然后在此基础上用短时过零率做第二次判定。用短时 能量进行第一次判定时,为了不至于把语音能量的局部下降点或者干扰噪声能 量的局部高点当作起止点,常采用两次判定i l 。相对上一种检测法而言,双门 限法端点检测能够保留更完整的语音信息,降低了系统对环境的要求。 7 武汉理l :入学硕十学位论文 ( 2 ) l p c c 特征提取:特征参数提取算法必须具备以下能力【3 2 】:提取的特征 参数能有效地代表语音信号的声道特征和听觉特征,并且各个识别基元之间要 求拥有较好的区分性;在满足语音样本相似度与特征参数间距离成反比的前提 下,确保各阶参数之间的独立性;提取算法的效率要高,计算量不能太大。 语音信号的主要特征参数包括1 3 3 j :短时能量、短时过零率、线性预测系数 l p c 、线性预测倒谱系数l p c c 、m e l 频率倒谱系数m f c c 等。其中短时能量和 短时过零率主要用于端点检测,l p c 、l p c c 和m f c c 主要用于语音信号的压缩。 线性预测技术是一种基于全极点模型假定和均方预测误差最小准则的波形 逼近技术。l p c 参数体现了语音信号的声道谐振特性,较广泛的应用于语音信 号处理中1 3 4 1 。线性预测分析的基本思想是:根据语音采样点之间的相关性原理, 当前语音信号的抽样值可以由过去若干个抽样值的线性组合来逼近【3 5 1 。 但是在语音识别中,很少直接使用l p c 参数,而是选择由l p c 推导出的另 一组参数l p c c 。m e l 倒谱实际上是一种同态信号处理方法,标准的倒谱系数计 算流程需要进行f f t 变换、对数操作和相位校正等步骤,运算比较复杂【3 6 。但 是如果已经计算取得l p c ,那么就可以通过一种简单有效的递推法求解l p c c 。 l p c c 相对于l p c 而言,具有更强更稳定的语音特征描述能力【3 7 】。 ( 3 ) c h m m 模板训练与模式匹配:当前比较流行的关键词识别模式划分解决 方案主要有以下几种。 动态时间规整d t w :动态时间规整实质就是一种动念规划思想,利用局部 最佳化的准则来自动搜寻一条最佳路径,使两个特征参数矢量之间的失真量累 积最小,即失真度最小【3 8 j 。d t w 通过对特征参数序列进行时间校准,可以有效 解决语音信号的时间不对准问题。但是d t w 要求对关键词的所有可能样本进行 训练,且仅仅对特定人的语音识别有较理想的识别效果。 人工神经网络a n n :人工神经网络的思想是用大量简单的处理单元相互交 叉连接构成一种复杂的信息处理系统,属于高度复杂的自适应非线性动力学系 统。a n n 模拟了人类神经元活动的原理,具有自学和推理能力,且有高度的并 行处理及容错能力【3 9 1 。但是a n n 的模板训练和识别匹配算法的实现过程较复 杂,数据计算量较大,并且对识别率的贡献并不高于其他统计模型。 隐马尔柯夫模型h m m :隐马尔柯夫模型是一种能描述信号特征动态变化及 其统计分布的具备动态时间规整能力的统计模型,是准平稳时变信号的有利分 析工具,是一种双重随机过型4 0 1 。而语音信号就是一种准平稳信号,人的发声 8 武汉理一r 人学硕十学位论文 过程就是一种双重随机过程,因此h m m 模型能够较准确的描述语音特征。但 h m m 模型的建立必须依赖一个较大的语料库,并且模板训练和识别匹配的运算 量也相对较大1 4 。 虽然关键词识别模型划分的各种解决方案都存在局限性,但相比而占,基 于h m m 模型的关键词识别系统有较高的综合性能【4 2 1 。h m m 模型分为c h m m 和d h m m 两类,为了更好地描述语音信号的时变特征,现有关键词识别系统大 多都采用c h m m 模型作为系统的模式划分准则。 c h m m 模板训练就是根据关键词的多个样本特征矢量通过迭代重估来确定 该关键词c h m m 模板的参数值。c h m m 模式匹配就是计算各个关键词c h m m 模板产生输入语音样本特征参数矢量序列的概率1 4 3 1 。 ( 4 ) 阈值表:各个关键词模型产生所对应关键词语音训练样本特征参数矢量 序列的最小输出概率称为该关键词模型的阈值。通过统计各个关键词模型的输 出概率实验数据可以制作一张阈值表,以此作为识别判定的依据。 2 2 2 基于d h m m 和v q 的关键词识别系统的总体结构设计 上一章节分析的系统结构中的c h m m 模型虽然尽量保留了语音信号的时变 特征,有助于提高系统的识别性能,但是c h m m 模型的计算量较大且不易于用 硬件电路来描述实现。为了满足关键词识别系统的硬件化需求,本章节将针对 上一章节识别系统结构在端点检测、特征提取和模式划分等几个模块上进行改 进设计,构建了基于d h m m 的离散关键词识别系统。为了保证离散关键词识别 系统的高识别率,本章节通过引入v q 矢量量化模块,进一步构建了基于d h m m 和v q 的关键词识别系统。 本文研究设计的基于d h m m 和v q 的关键词识别系统的总体结构如图2 3 所示。 鼍鬻h 徽篱h 器 一一- | i 誉 :模板参数 ,姗 蚓错h 羹套鬈菰h 箍矗h 矢器化h 裂戳h 识别判定 图2 3 本文关键词识别系统总体结构 9 武汉理i :人学硕十学位论文 对比图2 2 和2 3 可知,本文针对现有关键词识别系统的一般结构主要进行 了以下几个方面的改进。 ( 1 ) 基于硬件实现的状态机法端点检测设计:虽然双门限法改进了检测的效 果,但这种检测法不易于用硬件电路实现及对语音信号进行实时的端点检测。 因为双门限法的前提是必须采集到一段完整的语音流之后再对其进行处理,但 是在实际应用中却要求对语音信号进行实时的端点检测。 为了解决双门限法的缺陷,本文设计了一种状念机法端点检测,这种检测 法非常适合对语音信号进行实时的硬件端点检测。基于状态机的检测法实质就 是基于能量状态和过零率状态变迁的一种实时端点检测方法。这种检测法根据 语音信号短时能量和短时过零率及其持续时间可能出现的情况将每帧信号转换 成状态值,然后根据状态值序列的逻辑关系完成端点检测。状态机法端点检测 算法压力小,存储空问小,并且易于硬件实现。 ( 2 ) m f c c 特征提取方法的引入:入的听觉系统是一个特殊的非线性系统, 对不同频率信号的响应灵敏度不同,响应和激励接近对数对应关系。研究表明, 当频率小于1 0 0 0 h z 时,m e l 与频率大致是线性关系;当频率大于1 0 0 0 h z 时, m e l 与频率的对数大致成线性关系】。因此,m e l 频率倒谱系数即m f c c 在一 定程度上模拟了人耳听觉感知方面和对语音的响应特征,更符合人类的听觉特 性。另外,m f c c 不依赖全极点模型的假定,因而在噪声环境下表现出良好的 鲁棒性和识别性能,在非特定人语音识别中能有效减小因说话人不同而带来的 干扰影响,已经成为h m m 模型的首选特征参数。大量的研究表明,m f c c 参 数比l p c c 参数更有效的提高了系统的识别性能1 45 。 ( 3 ) 离散识别模型d h m m 的选取:c h m m 模型中的参数8 是一种概率密度 函数,导致模型参数存储量和计算量都较大,很难用硬件电路来进行描述,因 此这种模型不符合关键词识别系统硬件化的发展趋势i l0 1 。本文选择参数b 为离 散概率分布的d h m m 模型作为模式划分模型。具有离散分布的概率分布函数矢 量曰构成一个矩阵,所要求的存储量和计算量都较小,可以方便利用硬件逻辑设 计中的查找表和乘法器共同实现,并且可以通过引入v q 矢量量化模块来提高识 别系统的识别率和识别速度。 ( 4 ) v q 矢量量化的引入:由于基于离散模型d h m m 的关键词识别系统的识 别率和识别速度很不理想,为了改善识别系统的性能以适应实用化的需求,本 文引入了v q 矢量量化模块。v q 矢量量化是一种高效的编码技术,其基本思想 l o 武汉理r :人学硕十学位论文 就是将若干个标量数据组成一个矢量,然后在矢量空问上进行整体量化,以较 小的信息损失为代价换来高效的数据压缩4 6 1 。v q 矢量量化的重点是初始码书生 成算法和最佳码书训练算法。 2 3 本章小结 本章通过讨论关键词识别的基本原理和识别系统的基本框架,分析现有关 键词识别系统的一般结构,通过识别模型的离散化和引入v q 矢量量化模块,完 成了基于d h m m 和v q 的关键词识别系统的总体结构设计,为后续章节的算法 分析研究和系统实现奠定了基础。 武汉理i :人学硕十学位论文 第3 章关键词识别系统的前端处理实现 上一章完成了基于d h m m 和v q 的关键词识别系统的总体结构设计,本章 将主要分析和实现在进入模式匹配模块之前对语音信号必须进行的前端处理, 包括语音信号预处理、端点检测和特征参数提取。重点设计实现了基于硬件电 路实现的状念机法端点检n s t jm f c c 特征提取算法。 3 1 语音信号预处理实现 语音预处理包括语音信号采集、预加重和分帧加窗三个主要过程。语音信 号采集就是将语音信号以数字信号的形式保存起来;预加重的目的是提升语音 信号的高频分量,使信号的频谱更加平坦:加窗分帧是为后续对语音信号进行 短时处理做准备【4 7 1 。 3 1 1 语音采集与量化 语音信号是时变一维信号,最高频率约为5 7 k h z ,但是绝大部分语音信号 频带在3 4 k h z 以内【i o l 。综合考虑系统存储空间、计算量和识别率等因素,本文 选择的采样频率为8 k h z ,量化精度为1 6 位,语音文件保存格式为w a v e 。 3 1 2 预加重 根据语音信号的声学模型,语音信号x 。的平均功率受声门激励和e l 鼻辐射 的影响:当频率高于8 0 0 h z 时,功率衰减速度为6 d b 倍频程。因此为了在通频 带内采用相同的标准进行频谱分析和参数分析,通常需要提升语音信号x 。的高 频分量,使信号的频谱变得更加平坦,即预加重过程【6 】。提升高频分量可以用一 阶数字滤波器来实现。一阶数字滤波器的表示公式为【8 j h ( z ) = l - a x z ,0 9 口1 0 ( 3 1 ) 其中a 为预加重系数,为了方便预加重过程的硬件电路实现选取a = 0 9 4 。 则预加重网络的输入信号l 和输出信号戈:的关系如下【6 】 1 2 武汉理i :凡。t 硕十学忙论文 x o ( m ) = x o ( m ) 一d 。( 一1 )( 3 - 2 ) 语音信号“欢迎光临”经过采样量化和预加重后波形分别如图3 - l 所示。 ,苎垩垄些。苎竺要兰! 年枷瓶枞 茹i 1 茄o8 r 耐面面而 欢迎光临预加重后波形 ol 耐* 势 _ i 钞 o2 0 0 04 0 0 06 0 0 08 0 0 01 0 0 0 01 2 8 0 01 4 0 0 0 。5 0 0 0 图3 - 1 “欢迎光临”量化后和预加莺后波形 分析比较语音信号量化后波形和预加重后的波形可知,预加熏过程使信号 的语音特征更加明显,方便了后续对语音信号的进一步处理。 313 分帧加窗 语音信号属于短时平稳信号,即其物理特征和频谱特性在1 0 - , - 3 5 m s 时问段 内可以看作是不变的。因此可以采用类似于平稳信号的处理方法柬分析语音信 号,称为短时处理q 。本文后续对语音信号的分析及处理都是基于短时处理的。 为了应用短时处理,首先必须把语音信号分隔成短时时间段,即分帧处理。 分帧有连续法和交叠法两种黄略口i 。本文为了保证帧与帧之问的平滑过渡,保留 语音的自相关性,采用交叠法进行分帧。每帧包含的语音采样点数称为帧长, 前后帧的交叠部分称为帧移。帧移与帧长的比值一般小于或者等于1 2 。结合语 音信号的短时平稳特性和采样频率本文选取的帧长工为2 5 6 ,帧移,为1 2 8 。 分帧处理在一定程度上钝化了信号的自身特征,因此需要采用加窗处理来 尖锐信号特征主瓣口”。语音信号处理中常用窗函数是矩形窗和汉明窗,虽然矩 形窗有更高的频率分辨率,但比较严重的泄露了信号的频谱:而汉明窗拥有更 加平滑的低通特性,能更好的反应短时语音信号的频率特性。因此本文选取汉 明窗。其计算公式为“o 武汉理i 人学硕十学忙论文 。( 小0 5 。一on s c 。s 2 _ 1 ) 嘶s 3 _ 。) 1 0o t h g 阳 语音信号“欢迎光临”经过分帧加窗处理后,被分隔成1 2 3 帧。 3 2 端点检测实现 端点检测的优劣直接影响关键词识别系统的性能,是系统中的一个重要环 节。双门限法端点检测是语音识别中最常用端点检测技术,本立为了设计易于 硬件电路实现的关键词识别系统,参考双门限法端点检测的原理,设计了基于 硬件电路实现的状态机法端点检测。 端点检测利用的两个语音信号参数分别是短时能量和短时过零率。第月帧 爿。的短时能量和短时过零率分别定义为【6 1 t :圭伽) z c r 一2 ;善1 8 9 n k _ ) 卜s g l l k ( 埘+ 1 ) i , ( 3 _ 4 ) 语音信号“欢迎光临”1 2 3 帧的短时能量和短时过零率如图3 - 2 所示。 歌延旦光临硕加重后语音 o2 。0 0 4 0 喂迎6 q 光0 0 瞄,8 的0 0 短0 日臻器若0 0 0 ”0 0 0 1 6 0 0 0 图3 - 2 “欢迎光临”的短时能量和短时过零率 分析上图可得知,信号的短时能量参数和短时过零率参数分别从不同的角 度反映了语音的起止信息。在语音状态时,信号的短时能量和短时过零率都

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论