已阅读5页,还剩59页未读, 继续免费阅读
(信号与信息处理专业论文)基于fpga孤立词语音识别系统设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 近年来语音识别技术的研究主要集中在算法改进和软件实现的方向,并取 得了丰富的研究成果,然而在硬件实现方面的研究进展却相对迟缓,现有产品 很难满足市场对语音识别的便捷、节能、实时和低成本等方面的要求。随着微 电子技术的高速发展和理论研究的不断深入,语音识别系统逐渐向实用化、小 型化方向发展成为必然的趋势,这使得基于硬件的语音识别系统的研究成为当 前语音处理领域的研究热点。 本文在使用m a t l a b 软件对孤立词语音识别系统各部分算法进行可行性仿 真的基础上,以x i l i n x 公司v i t e r xi ip r o 开发板作为开发平台,使用i s e l 0 1 集 成开发环境,实现了基于f p g a 硬件的孤立词语音识别系统,并利用在线逻辑 分析仪( c h i p s c o p e a n a l y z e ) 对硬件实现进行了功能验证。在系统设计中灵活运用 了基于f p g a 硬件开发的各种设计技巧,并利用f p g a 的高速并行处理优势, 提高了孤立词语音识别系统的数字信号处理能力。 论文主要研究内容如下: ( 1 ) 研究了语音识别系统原理,给出了软件算法流程,设计了孤立词语音识 别系统的硬件框架,同时在分析v i t e r x i ip r o 芯片的各种资源的基础上,确定了 基于f p g a 硬件的系统设计方案。 ( 2 ) 研究分析了孤立词语音识别系统各部分算法,包括语音信号预处理、端 点检测、特征提取及模式匹配等算法,并采用m a t l a b 进行了算法仿真,同时 提取了m e l 滤波器组系数、v q 最佳码本和h m m 模板参数。 ( 3 ) 采用模块化方法对孤立词语音识别系统进行了设计,使用v e r i l o gh d l 硬件描述语言完成了孤立词语音识别系统的预处理、基于能量的端点检测、基 于m f c c 的特征提取、v q 矢量量化和基于h m m 的模式匹配等模块的电路设计, 并对各个模块进行了功能仿真,同时在硬件上实现了各个模块,并通过 c h i p s c o p e a n a l y z e 抓取实验数据,验证了硬件模块功能。 ( 4 ) 整合了各个功能模块,构成了完整的孤立词语音识别系统,对系统进行 了整体测试,分析了孤立词语音识别系统的性能,实验结果表明了该系统能够 较好的满足孤立词语音识别实时性和稳定性的要求。 关键词:语音识别;孤立词:f p g a :h m m :c l d p s c o p e a b s t r a c t i nr e c e n ty e a r s ,t h es t u d yo f s p e e c hr e c o g n i t i o nt e c h n o l o g yc o n c e n t r a t e dm a i n l y i l it h ed i r e c t i o no fa l g o r i t h mi m p r o v e m e n ta n ds o f t w a r ei m p l e m e n t a t i o n , a n dh a s m a d eaw e a l t ho fr e s e a r c hr e s u l t s h o w e v e r , t h ep r o g r e s sw a sv e r ys l o wi nt h e h a r d w a r ei m p l e m e n t a t i o n 1 f 1 舱e x i s t i n gp r o d u c t so fs p e e c hr e c o g n i t i o na r ed i f f i c u l tt o m e e tt h er e q u i r e m e n t so fm a r k e tf o rc o n v e n i e n t , e n e r g ys a v i n g ,r e a l - t i m ea n dl o w c o s t 晰t l lt h er a p i dd e v e l o p m e n to fm i c r o e l e c t r o n i c st e c h n o l o g ya n dt h e o r e t i c a l i n - d e p t hs t u d y , t h es p e e c hr e c o g n i t i o ns y s t e mw i l lg r a d u a l l yb e c o m em o r ep r a c t i c a l , s m a l l e r , w h i c hm a k e ss p e e c hr e c o g n i t i o ns y s t e mb a s e do nh a r d w a r et ob e c o m eah o t r e s e a r c hf i e l do fs p e e c hp r o c e s s i n g i nt h ef i r s tp a r to ft h i sp a p e r , i tu s e dm a t l a bs o f t w a r et os i m u l a t ee a c hp a r to f t h ea l g o r i t h mi nt h ei s o l a t e dw o r ds p e e c hr e c o g n i t i o ns y s t e m b a s e do nt h a t ,t h i s p a p e ra p p l i e dx i l i n x sv i t e r xi ip r od e v e l o p m e n tb o a r d 勰ap l a t f o r mt or e s e a r c h t h e n , i tu s e di s eio 1t h a tw a sa ni n t e g r a t e dd e v e l o p m e n te n v i r o n m e n tt oa c h i e v et h e i s o l a t e dw o r ds p e e c hr e c o g n i t i o ns y s t e mw h i c hb a s e do nf p g a i ta l s ou s e dt h e o n l i n el o g i cc h i p s c o p ea n a l y z e rt ov e r i f yt h eh a r d w a r ec a p a b i l i t i e s i nt h i ss y s t e m ,i t f l e x i b i l i t yu s e dav a r i e t yo fs k i l l st h a tb a s e do nt h ed e s i g no ff p g a h a r d w a r ea n dt a k e a d v a n t a g eo ft h eh i g h s p e e dp a r a l l e lp r o c e s s i n gs u p e r i o r i t yt h a tt h ef p g ah a d t h e s e m a d et h ec a p a b i l i t yo fd i g i t a ls i g n a lp r o c e s s i n gt oh a v eag r e a ti m p r o v e m e n to nt h e i s o l a t e dw o r ds p e e c hr e c o g n i t i o ns y s t e m t h er e s e a r c ho ft h i sp a p e rc o n t a i n st h ef o l l o w i n ga s p e c t s : ( 1 ) t h ep r i n c i p l eo fs p e e c hr e c o g n i t i o ns y s t e mi ss t u d i e d ,t h es o f tf l o wd i a g r a m i sg i v e n ,a n dh a r d w a r ef r a m eo fi s o l a t e dw o r ds p e e c hr e c o g n i t i o ns y s t e mi sd e s i g n e d m e a n w h i l e ,b a s e do nt h ea n a l y s i so fr e s o u r c 圮i nv i t e r xi ip r oc h i p ,t h i sp a p e r d e t e r m i n e dt h e o v e r a l ld e s i g no fi s o l a t e dw o r ds p e e c hr e c o g n i t i o ns y s t e mw h i c h b a s e do nf p g a ( 2 ) t h es p e e c hr e c o g n i t i o ns y s t e mp r i n c i p l ei sa n a l y z e da n ds t u d i e d ,s u c ha s s p e e c hs i g n a lp r e t r e a t m e n t ,e n d p o i n td e t e c t i o n ,f e a t u r ee x t r a c t i o n a n d p a t t e r n m a t c h i n gm o d u l e ,t h e nd i df u n c t i o n a ls i m u l a t i o nf o re a c hm o d u l eb a s e do nm a t l a b m e a n w h i l e ,i nt h i sp a p e r , t h ec o e f f i c i e n t so fm e lf i l t e rb a n k ,t h eb e s tc o d e b o o ko f v q a n dt h et e m p l a t ep a r a m e t e r so fh m ma r ee x t r a c t e d ( 3 ) i nt h i sa r t i c l e ,t h ei s o l a t e dw o r ds p e e c hr e c o g n i t i o ns y s t e mu s e sam o d u l a r d e s i g na p p r o a c ht h a tu s e sh a r d w a r ed e s c r i p t i o nl a n g u a g e ( v e r i l o gh d l ) t oc o m p l e t e t h ec i r c u i td e s i g no ft h e i s o l a t e dw o r ds p e e c hr e c o g n i t i o ns y s t e m ,s u c h 嬲s p e e c h e n d p o i n td e t e c t i o na l g o r i t h mb a s e do i le n e r g y , f e a t u r ee x t r a c t i o nb a s e do i lm f c c , v e c t o rq u a n t i z a t i o na l g o r i t h ma n dp a n e mm a t c h i n ga l g o r i t h mb a s e do nh m m m e a n w h i l e ,e a c hm o d u l eh a sb e e na c h i e v e do nt h eh a r d w a r e a n dt h e nt e s ta n d v e r i f i e de a c hm o d u l ev i a c h i p s c o p ea n a l y z e a tl a s t ,t h i sp a p e rc o m b i n e da l l m o d u l e si n t oi s o l a t e dw o r ds p e e c hr e c o g n i t i o ns y s t e m ( 4 ) i nt h el a s tp a r to ft h i sp a p e r , i th a sd o n et h eo v e r a l ls y s t e mt e s ta n da n a l y z e d t h ep e r f o r m a n c ea n dr e a l - t i m eo fi s o l a t e dw o r ds p e e c hr e c o g n i t i o ns y s t e m a c c o r d i n g t oa n a l y z e dt h i ss y s t e mw ec a nk n o wt h a ti th a sag o o ds t a b i l i t ya n dr e a l t i m et od e a l w i t l it h et a r g e t k e y w o r d s :s p e e c hr e c o g n i t i o n ;i s o l a t e dw o r d ;f p g a ;h m m ;c h i p s c o p e i i i 武汉理工大学硕士学位论文 第1 章绪论 1 1 课题研究的目的和意义 在人类交换信息的过程中,使用语音是最便捷的交流方式之一,并且语音 信号具有其特殊性,如语音信号因具有较长的波长,易产生衍射效应,不易受 到实际条件和环境因素的影响,使其具有其独特的优势【i 】。当今高速发展的信息 社会中,语音信号处理作为- l - j 近十年来逐渐成为研究热点的边缘性学科,其 发展是十分迅速的,在智能家居、自动翻译机、语音导航、工业控制及军事应 用等众多领域都有着广泛的应用【2 j 。 语音识别技术( s p e e c hr e c o g n i t i o n ) ,其目标是将语音信号中的词汇内容转换 为计算机或其他硬件设备可处理的数据( 如二进制编码等) ,并辨别相应的语意或 执行相应的命令。语音识别与说话人识别和说话人确认不同,后者尝试辨认发 出语音的说话人而非语音信号本身的内掣引。 根据不同的目的和要求,语音信号处理分为了不同的研究领域。大致有以 下三类:根据说话人说话方式的要求,可以分为孤立词语音识别系统、连接词 语音识别系统及连续语音识别系统;根据说话人依赖的程度,可分为特定人和 非特定人语音识别系统;根据词汇量大小,可分为小词汇量、中词汇量、大词 汇量和无限词汇量语音识别系统【l 】。 多变、动态、瞬时和连续是语音信号自身特性1 4 1 ,正是这些特性为语音识别 的研究与实现造成了很大的难度。目前语音识别的主要研究方向集中在基于统 计模式识别的理论,然而基于此理论的模型计算复杂且计算量大,一般只能采 用计算机通过软件来实现。但是,近几年来随着电子技术的高速发展,出现了 一系列的适用于在小型化研究中使用的硬件设备,而逻辑器件无疑是当前研究 的重点与热点。目前逻辑器件主要分为两类,一类是已定制的( 如a s i c ) , 另一 类是可编程的或可变的( 如d s p 、a r m 和f p g a 等) 。这些硬件设备的出现,使 得语音识别技术的实现平台有了更多的选择。在众多选择中,f p g a 作为可编程 逻辑器件最大的优点在于设计者可以根据产品实际需求,通过编程的方法来进 行系统设计,并且这种设计是可以根据用户对程序的改变而改变的【5 1 。由于f p g a 具有系统可编程( i s p ) 的功能i 们,即能够进行动态配置,这就对设计人员带来了很 武汉理工大学硕士学位论文 大的优势,如便于对模块程序进行修改和对已完成的产品更新换代和对产品的 移植工作等。 本文采用x i l i n x 公司v i t e r xi ip r o 开发板作为语音识别的设计平台,首先使 用m a t l a b 软件对孤立词语音识别系统进行了可行性仿真,在此基础上结合使 用x i l i n x 公司i s e l 0 1 集成开发环境,实现了基于f p g a 硬件的孤立词语音识别 系统。该系统在识别的速度、鲁棒性与系统的小型化等方面有了较大改进,对 实现性能优良的小型化语音识别系统的研究有十分重要的意义。 1 2 语音识别的发展与研究现状 语音识别的研究工作开始于是2 0 世纪5 0 年代,其代表是a t & t 贝尔实验 室的蛐系统,它是第一个可以识别l o 个英文数字的语音识别系统【7 1 。但语 音识别技术真正取得实质性进展,并将其作为一个重要课题则是在2 0 世纪6 0 年代末【2 】。这是由于当时计算机技术的发展,提供了能实现复杂算法的软件、硬 件环境,同时数字信号处理理论及算法研究在当时有了蓬勃发展。在这一时期 中,动态规划( d p ) 和线性预测分析技术( l p c ) 的提出是最为突出的研究成果【8 j , 其中后者在解决语音信号产生模型的问题上性能比较突出。其后的线性预测倒 谱系数( l p c c ) 和m e l 频域倒谱系数( m f c c ) 更成为语音特征参数的主流模型9 j 。 语音识别技术的发展历程可概括如图1 1 所示。 第一个语音ii 线性预测分li 动态时间弯ii 隐马尔可夫i1 人工神经网i i 语音识别系 识别系统il 析( l p ) ii 折( d t w ) li 模型( h m m ) ji 络( a l 州) l l 统走向实用 5 0 年代 印年代i 7 0 年代t o o 年代 网网l ( d p ) ll ( v q ) i 图卜1 语音识别技术发展历程图 2 0 世纪7 0 年代,语音识别技术的研究有了突破性进展。在理论上,动态时 间弯折技术( d t w ) 基本成熟,特别是矢量量化q ) 和隐马尔可夫模型( h m m ) 理 论的提出,使得语音识别技术有了新的理论依据【l o 】。在实践上,成功的将基于 l p c 频谱参数的合适距离测度应用于语音识别中。随后,在7 0 年代末和8 0 年 代初,l i n c h 、b u z o 、g - r a y 等人成功的解决了v q 码本的生成方法,从此v q 技 术很快就被推广应用1 1 1 】。 2 武汉理工大学硕士学位论文 从8 0 年代开始,识别算法开始向基于统计模型的技术方向发展,以追求建 立最佳的语音识别系统为目的【1 2 1 。隐马尔可夫模型( h m m ) 技术就是其中的一个 典型应用。2 0 世纪8 0 年代中期,由于电子技术的发展,研究人员重拾的人工 神经网络( 技术l i 引,给语音识别的研究注入了新的源泉。人们将a n n 和 h m m 在同一识别系统中结合使用,使得a n n 比较容易用于连续语音识别问题。 在8 0 年代末,s p h i n x 系统成为世界上第一个用v q h m m 实现的高性能、非 特定人、大词汇量、连续语音识别系纠列。 9 0 年代之后,随着多媒体时代的到来,人们迫切希望语音识别从实验室走 向实际应用,开创了语音识别的新时代。如i b m 公司于1 9 9 7 年开发出汉语 v i a v o i e e 语音识别系统,次年又开发出可以识别上海话、广东话和四川话等地 方口音的语音识别系统v i a v o i c c 9 8 。它带有一个3 2 0 0 0 词的基本词汇表,可以 扩展到6 5 0 0 0 词,还包括办公常用词条,具有“纠错机制 ,其平均识别率可 以达到9 5 【3 1 。 进入2 l 世纪的1 2 年间,简单语音识别技术已经出现在人们的生活中。如 2 0 0 0 年开始生产的r s c 一3 6 4 ,由美国s e n s o r yi n t e g r a t e dc i r c u i t 公司开发,是一 颗为消费类电子产品应用的低价位的语音识别专用芯片。r s c 3 6 4 使用预先学习 好的人工神经网络进行非特定人语音识别,不需要经过训练就可以识别“y e s 、 “n o ”、“o k ”等简单语句,2 0 0 9 年底美国n u a n c e 公司在针对苹果手机用户 基础上推出了d r a g o nd i c t a t i o n 语音识别应用软件,2 0 1 0 年g o o g l e 公司推出了 语音搜索引擎等产品1 4 l 。随着研究的深入,语音识别技术在实际应用中将不断的 发展和进步。 通过分析和研究,可以认识到语音识别系统的实现具有相当的难度。这主 要体现在一方面人类语音信号的多变性及复杂性【1 4 j ,在识别过程中要去除各种 干扰,抽取稳定的语音特征信息;另一方面,现有的语音识别技术尚未成熟, 离实际应用还有很长的距离,其存在的问题主要体现在说话人特征和语音特征 的分离、语音信号的变异性、鲁棒性、识别速率、数据量和阈值的设计【1 5 】。 本文在详细分析研究了语音识别理论算法后,采用m a t l a b 进行了算法仿 真,提取了m e l 滤波器组系数、v q 最佳码书和h m m 模板参数。同时确定了 基于f p g a 硬件孤立词语音识别系统的整体设计的方案,实现了语音信号预处 理模块、端点检测模块、m f c c 特征提取模块、v q 矢量量化模块和h m m 识别 模块等硬件模块的设计并在硬件上实现其功能,利用在线逻辑分析仪进行了硬 件功能验证,最终将各个模块进行整合构成了孤立词语音识别系统。 武汉理工大学硕士学位论文 1 3 本文研究的主要内容及章节安排 本文的主要工作是迸孤立词语音识别算法研究,并在此基础上实现基于 f p g a 孤立词语音识别系统的硬件设计。系统整体设计以x i l i n x 公司的v i t e r xi i p r o 开发板作为平台,采用了模块化的设计方法,通过m o d e l s i m 对各个模块 进行功能仿真后下载到硬件开发板上,并利用在线逻辑分析仪( c h i p s c o p e a n a l y z e ) 进行了硬件功能仿真,最后将各个模块进行整合构成了基于f p g a 硬件 的孤立词语音识别系统。具体研究内容如下: 第l 章主要讨论了语音识别研究的目的及意义,并研究了语音识别发展与 研究现状,最后总结了本文的研究内容及章节安排。 第2 章主要研究了语音识别的原理和系统设计的总体方案,分析了孤立词 语音识别系统的算法流程,根据语音识别算法流程对各个模块的功能进行了讨 论,同时研究了f p g a 的开发环境和流程,构建了系统硬件框架,确定了基于 f p g a 硬件孤立词识别系统的开发环境,最后研究并归纳了f p g a 设计中经常使 用的各种技术手段。 第3 章主要分析研究了语音识别常用的理论算法,并综合不同算法的优劣, 选择了适于在f p g a 硬件上实现的算法。如预处理、端点检测、特征参数提取、 v q 矢量量化和模板匹配等算法。 第4 章主要内容是孤立词语音识别系统中各个关键模块以及各个模块中功 能单元的设计,如语音信号预处理、基于能量的端点检测、基于m e l 频率倒谱 参数( m f c c ) 的特征参数提取、v q 矢量量化编码和基于h m m 的模板匹配等模 块。并通过m o d e l s i m 对其功能进行仿真测试,最后将各模块进行器件编程加 载并利用在线逻辑分析仪( c h i p s c o p ep r o ) 抓取硬件内部数据进行分析,验证各个 模块在硬件上是否能够正确实现。 第5 章的内容为系统的总体实现,即将各个模块进行整合,构成了基于f p g a 硬件的孤立词语音识别系统,并对孤立词语音识别系统的资源利用率、实时性 和识别性能进行了分析。 第6 章归纳全文工作,对研究成果进行了总结,同时对该系统在今后需改 进之处进行了讨论,并对语音识别技术的发展进行了展望。 武汉理工大学硕士学位论文 第2 章孤立词语音识别系统原理与方案设计 本章首先研究语音识别系统的原理,对孤立词语音识别系统的算法流程进 行分析,并对各个模块的功能进行讨论。其次对f p g a 硬件开发环境和设计流 程进行研究,并根据实验室现有条件,选择合适的硬件开发板和软件开发环境 构建系统硬件框架,同时对f p g a 开发时常用的设计方法进行归纳。 2 1 孤立词语音识别系统的原理 语音识别的本质就是一种基于语音特征的模式识别,而进行识别的前提和 基础是对语音信号分析和处理。只有通过对语音信号的分析,从中得出可以表 示语音信号的本质特征,并对其进行相应的处理,提取出语音信号的特征参数, 才可以进行语音识别。因此,在语音识别中,语音信号分析方法和处理方式的 选择非常重要。 根据不同的应用领域,语音识别系统大致可以分为三类:特定人与非特定 人的语音识别、孤立词与连续语音的语音识别、小词汇量与大词汇量以及无限 词汇量的语音识别。 语音识别基本过程即结构或模型,主要根据实际中的应用而有所不同,并 且面向不同任务的语音识别系统也有多种设计方案。但基本上都包括了特征提 取、模板匹配和参考模板库这三个最为基本的单元。孤立词语音识别系统原理 如图2 1 所示。 图2 1 孤立词语音识别原理图 本文语音识别系统是针对孤立词语音识别系统而设计。对于孤立词语音识 别来说,系统进行语音识别的过程一般由预处理、端点检测、特征参数提取、 矢量量化、模板训练、模板匹配和结果识别组成。 武汉理工大学硕士学位论文 2 2 孤立词语音识别系统软件算法流程设计 在综合分析语音识别中涉及到的各种不同算法,并考虑到算法的难易度以 及硬件实现的可行性上,本文关键各模块选择的算法分别为:基于能量门限的 端点检测算法、基于梅尔倒谱系数的特征提取算法、v q 矢量量化算法和基于隐 马尔可夫模型的模板匹配算法,算法流程如图2 2 所示。 语音 输入 预 处 理 能量 门限 端点 检测 梅尔 倒谱 特征 提取 练 v qr 矢量i 量化趔 隐马尔可 夫模板 模板匹配 识别 结果 图2 2 孤立词语音识别算法流程图 ( 1 ) 对于孤立词语音识别系统,以上流程中的各个模块都有其特定功能,在 整个系统的组成中这些功能模块都是不能缺少的。在进行预处理之前需要对语 音信号进行数字化处理,在此可以通过利用m a t l a b 对采集到的语音数据进行处 理,生成所需要的数字信号。 ( 2 ) 在语音信号预处理过程中,一般包括语音信号预加重、数据分帧和加窗 处理三个流程。这部分算法的功能是通过高通滤波器预加重语音信号的高频部 分来平滑信号频谱,并利用窗函数把语音数据序列分成连续的信号帧。 ( 3 ) 端点检测的功能是确定有效语音的起始与结束帧。在采集到的语音信息 中,可能包含有有效信息,也可能包含有各类非话语信息,例如各类背景噪声 和无声信息。这些无用信息对语音识别率是有影响的,需要将其去除,同时也 减少了数据处理量,降低了资源消耗量,提高了识别速度。 ( 4 ) 在语音识别中,特征参数提取是非常关键的模块,其目的是用于进行基 于频谱的特征的计算,并获得语音信号的特征参量。通过研究语音信号特征参 数提取的各种算法,可以将其归纳为两类,即时域特征参量和变换域特征参量。 前者通常将语音中一帧信号的各个时域采样直接构成一组参量,方法简单直观, 但是无法有效体现相应语音信号的基本特征;后者则是对一帧语音信号进行某 种变换,并产生的相应的一组参量,计算量较大,但可以较好的描述语音信号 的基本特征。在此本文选择了基于变换域的特征参量,特征提取的算法为基于 梅尔倒谱系数的特征参数提取。 ( 5 ) v q 矢量量化主要包括码书生成和优化,还包括矢量量化码本的搜索算 法。矢量量化其实是一种对信号数据进行压缩的算法,其理论基础是信息论中 6 武汉理工大学硕士学位论文 的“率一失真”理论,是香农信息论在信源编码理论方面的一个发展。在矢量 量化过程中,由于充分利用了矢量中的各分量之间隐含的各种内在关系,因此 将特征参数提取与矢量量化结合后,能在体现语音信号特征参数同时又减少计 算量和节省存储量。 ( 6 ) 在语音识别的训练阶段,语音信号经过预处理、特征提取和矢量量化后, 得到特征矢量参数,然后通过其得到的参数建立模型参考库,即参考模板,或 者对已建立的参考模板作适应性更新。而在识别阶段,则将输入语音信号的特 征矢量参数和所有参考模板进行相似性度量比较,将相似度量最高的模板作为 语音识别的结果,并将识别结果输出。 2 3 孤立词语音识别系统硬件框架设计 系统硬件框架设计即是对孤立词语音识别系统在整体上进行安排与布局。 在进行硬件框架设计时,需要了解所使用f p g a 的开发环境和流程,根据开发 环境及开发流程的特点进行硬件的框架设计。 2 3 1f p g a 开发环境与开发流程 现在f p g a 主流的大生产商有两家,分别是x i l i n x 公司和a l t e r a 公司。他 们都针对自己厂家的芯片设计了相应的开发环境,x i l i n x 公司的开发环境是i s e 系列套件,a l t e r a 公司则是q u a r t u s 系列套件【5 1 。基于实验室现有的设备是x i l i n x 公司的芯片,因此本文的设计是基于i s e 开发环境完成的。 f p g a 属于可编程硬件芯片中的一种。因此,在基于f p g a 对系统进行设计 时,需要对其硬件及软件两个部分分别考虑和设计。硬件部分设计包括:f p g a 芯片电路、外围存储电路、输输出接口电路以及其他设备电路,软件部分设 计即是相应用h d l 语言编程的程序,如v h d l 语言、v e r i l o gh d l 语剖们。 在进行项目和系统开发时,总体的设计方向为自项向下。首先,从系统级 设计开始,即确定出系统功能和外围接口的设计,将整个系统划分为若干个二 级单元,其原则是划分的每个单元为具有能独立完成某功能的模块:其次,按 同样的原则把各个二级单元划分为更低层次的单元,直到能够使用基本功能模 块或者i p 核为止。 f p g a 的开发流程就是利用开发软件和编程工具对芯片进行开发的过程,主 要的开发流程如图2 3 所示【7 1 。 7 武汉理工大学硕士学位论文 图2 3f p g a 开发流程图 从图中可以看出,f p g a 的开发流程包括了电路功能设计、设计输入、综合、 实现与布局布线和器件编程等主要步骤。然而,每个步骤并不是依次连续进行 的,在每个步骤完成后都需要进行仿真和验证,并且根据其结果进行反复的设 计,直到所设计的功能在硬件上正确运行为止。 2 3 2 硬件框架构建 基于f p g a 硬件的语音识别系统硬件框架的设计,是本文研究的重点内容。 按照算法流程和结构设计,系统硬件实现部分主要包含预处理模块、端点检测 模块、特征参数提取模块、矢量量化模块和h m m 识别模块。其中预处理部分 是将语音信号做相应的前端处理从而为后续模块的有效运行提供前提条件,端 点检测模块的最终目的是为了获得有效的帧语音信息,m f c c 特征提取模块和 v q 矢量量化模块的结合产生了供匹配识别所用的矢量量化编码数据,最终通过 h m m 识别模块进行匹配识别获得识别结果并通过开发板上的l e d 灯显示,实 现了基于f p g a 硬件的语音识别系统。v q 矢量量化模块和h m m 识别模块未设 计用于训练的硬件电路模块,识别中所用的v q 码书和h m m 模板的训练数据是 在m a t l a b 中实现并进行数据格式转换后存储在f p g a 中的r o m 中。 武汉理:e 火学硕士学位论文 基于f p g a 孤立词语音识别系统硬件架构如图2 4 所示。 图2 - 4 孤立词语音识别系统硬件架构图 图中整个系统有四大模块,分别为预处理与端点检测模块、特征参数提取 模块、v q 矢量量化模块和h m m 识别模块。实验系统如图2 5 所示。 图2 5 实验系统图 在进行设计时,利用在线逻辑分析仪( c h i p s c o p ep r o ) 抓取硬件内部的数据流 并进行分析,验证各个模块在硬件上其功能是否能够正确实现。 9 武汉理工大学硕士学位论文 2 4f p g a 常用设计方法 在f p g a 的设计中需要遵循其系统设计的基本原则,并在这些原则下灵活 运用一些设计的技巧以简化设计,提高设计的性能。 2 4 1f p g a 系统设计的基本原则和常用技巧 f p g a 系统设计的基本原则有三点,分别为面积与速度的平衡互换原则、硬 件可实现原则和同步设计原则【引。其中,面积是指f p g a 的芯片资源,速度则指 的是f p g a 芯片的最高工作时钟频率;硬件可实现就是所编写的代码描述的电 路能在硬件上运行;同步设计的核心电路是由各种触发器构成的,其输出都是 在时钟的边沿驱动触发器产生,不易产生毛刺造成冒险。设计中需遵循以上原 则,才能设计出好的产品1 9 l 。 f p g a 系统设计的常用的技巧有乒乓操作技巧、串并并串转换技巧和流水 线操作技巧等。在设计中灵活应用这些技巧可以简化设计,节约资源,优化系 统结构,改善系统的性能。 2 4 2f p g a 系统设计中的碑模块 i p 模块是一些在许多设计场合都需要用到的具有特定功能的电路模块,并 且这些电路模块已经设计完成并通过了验证。设计人员在使用时可以方便的调 用,并可以根据需求对i p 核进行参数修改,以满足设计要求。 在进行设计时经常用到的口包括算数类( 如乘法器、加法器、除法器等) 、 逻辑门类( 如与、或、非门等) 、存储器类( 如f i f o 、r a m 、r o m 等) 、i o 类( 如 双向i o 、p l l 等) 、接口类( 如m a c 、p c i 等) 以及需要付费购买的具有商业用途 的m 核。灵活使用以上的m ,可以提升设计的性能,降低设计的复杂度和工作 量,使所设计的系统具有更强的稳定性。 2 5 本章小结 本章总结了语音识别的原理及软件算法流程,同时分析并分析了各模块的 功能,设计制定方案结构并构建了硬件框架。其次研究了在进行f p g a 的开发 过程中所经常使用到的设计思路及技巧,为进一步实现基于f p g a 硬件语音识 别系统各个功能模块的设计工作做准备。 1 0 武汉理工大学硕士学位论文 第3 章语音识别系统算法研究与仿真实现 本章通过分析语音识别各种常用算法的优劣,以及基于对所选硬件实现的 考虑,对算法选择进行着重分析,并采用m a t l a b 对部分算法进行仿真,包括 基于汉明窗的加窗算法、基于能量的端点检测算法、基于m f c c 特征参数提取 算法、v q 矢量量化算法和h m m 识别算法等。 3 1 语音信号预处理算法及仿真 现实生活中的人们发出的声音都是模拟信号,因此在进行数字处理前,需 要将模拟语音信号进行数字化,即采样和量化。在有了数字化的语音信号后, 需要对语音信号进行预处理。预处理的过程主要包括预加重、分帧和加窗。 3 1 1 采样量化 采样就是在时间域上,等间隔地对模拟信号进行抽取,得到音频信号的模 拟序列。在此必须遵循奈奎斯特采样定理,即采样频率必须大于或等于模拟语 音信号最高频率的两倍,以避免采样后的语音信号在频域产生混叠失真【l 们。量 化则是将时间上离散,幅度依然连续的序列进行离散化,使之成为数字音频信 号序列1 9 1 。同时,量化决定了信号幅值的动态范围,以位( b i t ) 为单位。例如1 6 位可以把幅值分成6 5 5 3 6 级。 语音信号的频率范围通常在3 0 0 h z - - , 3 4 k h z 范围以内,因此本文选择8 k h z 作为采样频率。根据处理的需要,在数据位宽的选择上采用了两种格式,分别 为1 6 位q 8 定点格式和3 2 位标准浮点格式。 3 1 2 预加重算法及仿真 进行预加重的原因是受口唇辐射的影响,语音信号在8 0 0 h z 以上频率部分, 功率谱以约6 d b 倍频程的速度衰减。预加重的目的就是增强语音信号的高频分 量,使语音信号的频谱特性在整个频域范围内较为平坦【5 1 。在实际应用中,一般 通过传递函数为式( 3 - 1 ) 的一阶f i r 数字高通滤波器来实现预加重。 h ( z ) = l a g 一( 3 1 ) 武汉理工大学硕士学位论文 其中a 为预加重系数,其范围是0 9 口 1 0 ,其幅频特性如图3 - l 。本文选 取a = 0 9 3 7 5 ,这是为了在f p g a 编程时便于实现。 高通滤波器的幅频特性 图3 1 一阶高通滤波器幅频特性曲线 上图为一阶高通滤波器的幅频特性图,可以看出滤波器的滤波特性在高频 部分有明显的提升。 3 1 3 分帧加窗算法 语音信号是一种时变的信号,但在较短时间内( 一般为1 0 m p 3 0 m s ) 可以认为 其近似不变,即语音信号具有短时平稳性。因此可以将不利于处理的较长语音 信号分为较短语音进行处理。其方法大多是采用移动窗函数进行加权来实现的。 在实际应用中,常用的窗有两种,一种是矩形窗,窗函数如下( j v 代表帧长) : w ( n ,= s 掣。1 仔2 , 另一种是汉i j j ( h a m m i n g ) 窗,窗函数如f ( n 代表帧长) : w ( 力) = 爱5 4 一n 4 6 c o s 2 石刀7 一d l :丢:一1 ( 3 - 3 ) 矩形窗形式简单,平滑性好,但高频部分容易产生干扰,无法反映波形细 节;而汉明窗具有较好的低通特性,比矩形窗能更好反映信号频谱特征,因此 本文选取的窗函数为汉明窗。由于语音信号分割为帧,为使每帧之间过渡平滑, 保持语音信号的连续性,需要采用交叠分段方法对信号进行改善,如图3 2 所示。 _ 一帧长一 i ! 瓤帧l 删 一m k + l 坝 - i i - 帧移制 i 嘲长i 图3 2 语音信号分帧 1 2 武汉理工大学硕士学位论文 其中相邻两帧的重叠部分称为帧移,本文选择帧移与帧长的比值为0 5 。帧 长的选择影响语音信号的分析。当过大时,其等效的频域带宽会很窄,高 频分量被抑制,信号的幅度变化不能得到真实反映;j 过小,则带宽会变的过 大,短时能量的变化会过于激烈,使得能量函数不够平滑,对后续处理产生阻 碍。通常考虑到便于硬件实现,在8 k h z 的采样率下,语音信号的帧长选择为 2 5 6 点比较合适。 3 2 端点检测算法及仿真 端点检测是语音识别系统中的一个非常重要的环节,在极大的减少系统计 算量的同时,也对识别率产生较大的影响。特别在孤立词语音识别中,端点检 测的准确性直接关系到系统识别率的高低。如引入非语音帧,将增大计算量, 并影响特征提取的有效性;如丢失有效帧,则无法得到足够的语音信号的特征 信息,影响系统识别率。 端点检测的实质就是获得某种特征量,此特征量要能区分语音信号的噪声 段和语音段,从而找出二者的边界点【i l 】。常用的特征量有平均幅度特征、平均 过零率特征、能量特征和自相关特征等。本文所用的语音信号具有较高的信噪 比,经对比研究并基于硬件实现的考虑,本文选取了基于能量特征的端点检测 算法。其中语音短时能量表示式如( 3 - 4 ) 所示。 土 层= x 2 ( m ) ( 3 - 4 ) 州l l 语音信号“北京 利用基于能量特征算法的端点检测结果如图3 3 所示。 。北京。基于能量特征量算法的端点检测结果 0 5 0 旬5 4 0 0 06 0 8 0 0 0 1 0 0 1 2 0 1 4 0 0 0 图3 3 基于能量特征语音信号“北京”端点检测结果 图中可以看到“北京 被准确的分为了两个字,并且在边界处可以清楚看 出语音段与非语音段的区别。 武汉理工大学硕士学位论文 3 3 特征参数提取算法及仿真 原始语音信号经过预处理和端点检测处理之后,需要提取出特征参数,且 这些特征参数要能够反映语音信号的本质特征【l z l 。在识别之前,不能直接将未 经处理的原始语音信号用作模板训练和匹配,其原因有两点【1 3 l : ( 1 ) 原始语音信号数据量庞大,需要的运算量和存贮负担过重,在硬件实现 时会造成实时性差和资源不足。 ( 2 ) 原始语音信号随机性较大,因为人们不能保证每次说出同一个词时是完 全相同的,这就极大的影响了系统的识别率。 然而,语音信号通过特征参数提取后,可以解决以上两个问题。一方面压 缩了数据量,降低了系统的运算量和存贮量,降低了硬件资源的开销;另一方 面提高了系统的识别率。 通常使用的较为成熟的参数特征提取方法有线性预测倒谱系数( l p c c ) 和 m e l 频率倒谱系数。总体来看,基于l p c c 特征提取算法在当前是应用最为广泛 的一种算法。然而基于m f c c 特征提取算法融入了人耳听觉感知领域的研究成 果,因此m f c c 相对于l p c c ,具有更高的识别精度,并且在噪声环境下具有较 强的鲁棒性1 1 4 j 。因此,基于以上研究本文选用了基于m f c c 的特征提取方法。 根据m f c c 特征参数提取的理论依据,其提取过程如图3 - 4 所示。 图3 - 4m f c c 特征参数提取流程 在m e i 频率滤波器组中,式( 3 5 ) ;为m e l 频率和线性频率的转换公式。 厶= 2 5 9 5 l g ( 1 + f 7 0 0 ) ( 3 - 5 ) m e i 频率和
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 劳务工资付款协议书
- 广东人民政府驻成都办事处招考人员易考易错模拟试题(共500题)试卷后附参考答案
- 树木砍伐包工协议书
- 宿迁市广播电视总台招考栏目组人员招考易考易错模拟试题(共500题)试卷后附参考答案
- 写印刷合同范本模板
- 格栅定制合同协议书
- 出租房避税合同范本
- 档案带领委托协议书
- 桥梁板承揽合同协议
- 代客理财赔偿协议书
- 中国五矿校招面试题及答案
- 员工工作责任心培训-课件
- 《第13课 分解问题步骤》教学设计教学反思-2023-2024学年小学信息技术浙教版2023三年级上册
- 大型方格沉井施工方案
- 2025年大学《电缆工程-电缆电气性能测试》考试备考题库及答案解析
- GB/T 21782.8-2025粉末涂料第8部分:热固性粉末贮存稳定性的评定
- 江苏2025年工贸行业企业主要负责人及安全管理人员真题模拟及答案
- 2025年咖啡产业咖啡产业数字化发展研究报告及未来发展趋势预测
- 2025中国南水北调集团水网智慧科技有限公司秋季招聘14人笔试历年典型考点题库附带答案详解2卷
- 2025年上海市春考语文真题作文7篇范文:我们的劳动使大地改变了模样
- 个人求职简历模版(三页)带封面(可编辑)含实践经历下载
评论
0/150
提交评论