已阅读5页,还剩72页未读, 继续免费阅读
(信号与信息处理专业论文)基于dsp的语音识别算法研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
r e s e a r c ha n di m p l e m e n t a t i o no fs p e e c hr e c o g n i t i o na l g o r i t h m b a s e do nd s p b y z h a n gb a o f e n g b e ( s o u t h w e s tu n i v e r s i t yo fs c i e n c ea n dt e c h n o l o g y ) 2 0 0 5 at h e s i ss u b m i t t e di np a r t i a ls a t i s f a c t i o no ft h e r e q u i r e m e n t sf o rt h ed e g r e eo f m a s t e ro fe n g i n e e r i n g s i g n a la n di n f o r m a t i o np r o c e s s i n g i nt h e g r a d u a t esc h o o l o f l a n z h o u u n i v e r s i t yo ft e c h n o l o g y s u p e r v i s o r p r o f e s s o ry us h i c a i j u n e ,2 0 11 兰州理工大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取 得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其 他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个 人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果 由本人承担。 作者签名:结客i 峰日期:厶年6 月7 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学 校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文 被查阅和借阅。本人授权兰州理工大学可以将本学位论文的全部或部分内容 编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇 编本学位论文。同时授权中国科学技术信息研究所将本学位论文收录到中 国学位论文全文数据库,并通过网络向社会公众提供信息服务。 作者签名: 导师签名: 耘辑 吲竹 日期:勋,f 年多月 日期:力,f 年月 1 3 本文的研究内容6 1 4 本文的组织结构7 第2 章语音识别的理论基础8 2 1 概j 苤8 2 2 语音信号的数字化和预处理9 2 2 1 预滤波、采样和a d 转换9 2 2 2 预处理1 1 2 3 语音信号的时域分析1 4 2 3 1 短时能量及短时平均幅度分析1 4 2 3 2 短时过零率分析1 5 2 4 基于谱分析的语音端点检测1 6 2 5 语音信号特征参数提取1 8 2 6 模型训练与识别19 2 7 本章小结2 0 第3 章语音识别的硬件模块2 l 3 1 系统关键硬件模块功能介绍2 1 3 1 1t m s 3 2 0 v c 5 4 0 2 芯片的简介2 1 3 1 2 模数转换芯片t l c 3 2 0 a d 5 0 c 及与d s p 的接口设计2 2 3 1 3f l a s h 存储器2 4 3 1 4 控制芯片a t 8 9 c 5 1 2 4 3 1 5 电路设计要点一2 5 3 2 语音识别系统总体流程硬件综述2 6 3 2 1 系统硬件设计2 7 3 2 2 数据流程一2 7 3 3 本章小结2 7 第4 章语音识别的软件设计一2 9 4 1 特征参数提取3 0 基于d s p 的语音识别算法研究与实现 i i i i 4 1 1 美尔频率倒谱系数( m f c c ) 基本原理3 0 4 1 2 美尔频率倒谱系数( m f c c ) 的实现3 1 4 2 孤立词语音识别技术3 2 4 2 1 相似性度量3 2 4 2 2 动态时间规整算法3 2 4 2 3d t w 算法改进技术及流程一3 4 4 2 4 参考模板的训练方法及流程3 8 4 3 本章小结4 1 第5 章d s p 程序加载与实验结果及分析4 2 5 1d s p 程序加载4 2 5 1 1d s p 自举引导方式简介4 2 5 1 2 并行存储器自举引导方式4 2 5 1 3 程序的固化4 4 5 2 实验结果及分析4 6 总结与展望4 8 参考文献5 0 致j 射5 4 附录a 攻读硕士学位期间所发表的学术论文5 5 硕十学位论文 摘要 现代社会已经迈入信息化高速发展时代,以前的信息传播与存储手段已经无 法满足人们的日常使用需求。为了使日常工作、生活更加快捷、方便,人们渴望 通过说话就可以解决一些事务,如语音拨号、语音导航、语音输入等。同时,随 着语音识别算法和数字信号处理器件的发展,使得语音识别系统步入实用化,语 音识别将会应用于更加宽广的领域。因此,语音识别系统具有极高的研究与应用 价值。 本文主要就语音识别系统的理论知识、软硬件设计及相关算法进行了详细阐 述。首先简要介绍了语音识别的理论基础,在此基础上详述了语音信号的前端预 处理。 其次介绍了d s p 特点和t m s 3 2 0 v c 5 4 0 2 结构,然后提出基于d s p 的语音识别 系统。对以t m s 3 2 0 v c 5 4 0 2 芯片为核心的系统硬件设计进行了研究,阐述了系统 的构成,分析了系统的工作过程,整个系统以t m s 3 2 0 v c 5 4 0 2 为核心电路进行设 计,由t l c 3 2 0 a d 5 0 c 进行a d 转换,t m s 3 2 0 v c 5 4 0 2 进行训练和识别语音信号, 最后由单片机控制l c d 显示识别结果。 针对汉语语音的特点,引用已有的算法进行软件系统设汁,论述了系统的软 件设计过程,主要过程是预处理、端点检测、提取特征和模式匹配。预处理包括 语音信号模数( a d ) 转换、预加重以及加窗处理等;端点检测采用抗噪性能更 好的基于谱分析的提取方法进行语音端点检测;特征提取考虑到人耳听觉特性, 采用了美尔频率倒谱系数m f c c ;考虑到系统的要求是设计出一个特定人、小词 汇量、孤立词的语音识别系统,选取动态时间规整( d t w ) 算法作为系统的识别算 法,并给出语音模板库的鲁棒性训练方法;从提高系统的识别率和识别速度着手, 研究了动态时间规整算法的改进技术,提出了模板阈值的计算方式。 接着对d s p 的程序加载进行了详细介绍,包括d s p 的自举引导方式分类,并 行存储器的自举引导方式及程序的固化等。最后在d s p 评估板上对整个系统的性 能进行了验证。 关键词:语音识别;端点检测;数字信号处理器d s p ;美尔频率倒谱系数m f c c ; 动态时间规整d t w 厂一 曼曼量曼曼曼曼曼曼曼曼寰寰曼量垒兰塑垒圣寰寡曼葛鼍量鼍曼寰皇置曼曼曼一 a b s t r a c t m o d e r ns o c i e t yh a se n t e r e dt h ee r ao fr a p i dd e v e l o p m e n to fi n f b r n l a t i o n t h e p r e v l o u sm e a n so fi n f o r m a t i o nd i s s e m i n a t i o na n ds t o r a g eh a v eb e e nu n a b l et om e e t t h en e e d so fp e o p l e i no r d e rt o m a k eo u rw o r ka n d d a i l yl i f ef a s t e ra n dm o r e c o n v e n i e n t , w ee a g e rt or e s o l v es o m em a t t e r sb y t a l k i n g ,s u c ha sv o i c ed i a l i n g ,v o i c e n a v l g a t l o n , v 0 1 c ei n p u ta n ds o o n m e a n w h i l e , w i t ht h e d e v e l o p m e n to fv o i c e r e c o g n l t l o na l g o r i t h m sa n dd i g i t a ls i g n a l p r o c e s s i n gd e v i c e s ,t h ep r a c t i c a ls p e e c h r e c o g n l t l o ns y s t e mh a sb e e na p p l i e da n dw i l lb ea p p l i e dt ob r o a d e ra r e a s t h e r e f o r e t h es p e e c hr e c o g n i t i o ns y s t e mh a sa v e r yh i g hv a l u eo fr e s e a r c ha n da p p l i c a t i o n 1n l sp a p e ri n t r o d u c e st h et h e o r e t i c a lk n o w l e d g eo f s p e e c hr e c o g n i t i o ns y s t e m s , s o f t w a r ea n dh a r d w a r e d e s i g na n dr e l a t e da l g o r i t h m si n d e t a l a b o v ea 1 1 ,w e d e s c r i b et h eb a s i so fs p e e c hr e c o g n i t i o n t h e o r yb r i e f l y ,a n dd i s c u s st h ef r o n t e n d s p e e c hs i g n a lp r e p r o c e s s i n g jh e n , i ti n t r o d u c e f e a t u r e so fd s pa n ds t r u c t u r eo ft m s 3 2 0 v c 5 4 0 2 a n d p r o p o s et h es p e e c hr e c o g n i t i o ns y s t e mb a s e do nd s p w er e s e r c ht h e h a r d w a r e s y s t e md e s l g n d e s c r i b et h ec o m p o s i t i o no ft h es y s t e m ,a n da n a l y z et h ew o r k i n g p r o c e ss t h ec o r ec i r c u i to ft h e e n t i r es y s t e mi s t m s 3 2 0 v c 5 4 0 2 ,a n d 刖d c o n v e r s l o nc o m p l e t e d b yt l c 3 2 0 a d 5 0 c ,a n dt h es p e e c h s i g n a l i st r a i n e da n d r e c o g n i z e db y t m s 3 2 0 v c 5 4 0 2 f i n a l l y ,m c uc o n t r o l st h el c dd i s p l a v o f r e c o g n i t i o nr e s u l t s 。 a c c o r d l n gt ot h ec h a r a c t e r i s t i c so fc h i n e s ep h o n e t i c s ,w ed e s i g n s o f t w a r e s y s t e mu s l n ge x i s t i n g a l g o r i t h m s ,d i s c u s st h ed e s i g np r o c e s so fs o f t w a r es y s t e m , w h l i t sm a i np r o c e s si st h e p r e t r e a t m e n t ,e n d p o i n td e t e c t i o n ,f e a t u r ee x t r a c t i o na n d p a t t e m m a t c h i n g - p r e p r o c e s s i n gi n c u l d e sv o i c e s i g n a l a n a l o g d i g i t a l ( a d ) c o n v e r s l o n , p r e - e m p h a s i sa n d w i n d o w i n gp r o c e s s i n e n d p o i n td e t e c t io n u s e e x t r a c t i o nm e t h o d sw i t hb e t t e ra n t i - n o i s e p e r f o r m a n c e ,w h i c hi sb a s e do ns p e c t r a l a n a l y s i s ; c o n s i d e r i n gt h eh u m a ne a rh e a r i n gc h a r a c t e r i s t i c s ,f e a t u r ee x t r a c t i o nu s e d t h em f c c c o n s i d e r i n gt h er e q u i r e m e n t si st od e s i g nas p e e c h r e c o g n i t i o ns y s t e m w h l c hc o m b i n et h et h r e ec h a r a c t e r ,s p e c i f i cp e r s o n ,s m a l l v o c a b u l a r ya n di s o l a t e d w o r d , w es e l e c td y n a m i ct i m en e a t ( d t w ) a l g o r i t h ma si d e n t i f i c a t i o na l g o r i t h m so f t h es y s t e m ,a n dg i v e sr o b u s t n e s st r a i n i n gm e t h o d so f v o i c et e m p l a t el i b r a r v f r o m t h ev 1 e wo fi m p r o v i n g s y s t e mr a t ea n dt h es p e e do fr e c o g n i t i o n ,w es t u d vt h e ,fj|fl|jifjifjlfjlfiljilllijiijliiliillillii 基于d s p 的语音识别算法研究与实现 i m p r o v e m e n tt e c h n o l o g yo ft h ed y n a m i ct i m en e a ti m p r o v e da l g o r i t h m s ,a n dp u t f o r w a r dc a l c u l a t i o nm e t h o do ft h et e m p l a t et h r e s h o l d t h ep r o g r a ml o a d e do nt h ed s pa r ed e s c r i b e di nd e t a i l ,i n c l u d i n gb o o t l o a d e r m o d eo fd s p ,b o o t l o a d e rm o d eo fp a r a l l e lm e m o r ya n dc u r i n gp r o c e s sa n ds oo n f i n a l l y ,t h ew h o l es y s t e mp e r f o r m a n c ew a sv e r i f i e do nt h ed s pe v a l u a t i o nb o a r d k e y w o r d s :s p e e c hr e c o g n i g t i o n ;e n d p o i n td e t e c t i o n ;d i g i t a ls i g n a lp r o c e s s o r ( d s p ) ; m e l f r e q u e n c yc e p s t r u mc o e f f i c i e n t s ( m f c c ) ;d y n a m i ct i m ew a r p i n g ( d t w ) i i 3 2 系统硬件结构框图2 7 3 3孤立词语音识别系统数据流程图2 7 4 1系统软件总体框图2 9 4 2 m f c c 的计算过程3 0 4 3 d t w 算法示意图3 3 4 4 整体路径约束示意图3 4 4 5 局部路径约束示意图3 6 4 6 放宽端点限制后的整体路径约束3 6 4 7 d t w 的改进型算法流程图3 8 4 8模板库训练算法流程图4 0 5 1 并行自举引导流程图4 3 5 2 d s k 5 4 0 2 开发板一4 6 5 3仿真器4 7 i l l 图图图图图图图图图图图图图 基于d s p 的语音识别算法研究与实现 附表索引 表2 1汉明窗与矩形窗的比较13 表5 1并行引导模式的源程序数据格式4 4 表5 2 识别率对比4 7 i v 硕十学位论文 第1 章绪论 1 1 论文的研究背景及意义 人类最常用、最重要、最方便和最有效的交换信息的形式是通过语音传递信 息。作为人类特有的功能,语音是人类常用的工具,是相互之间信息传递的最主 要的手段。所以,语音信号是人们进行信息沟通和情感交流的最重要的途径。而 且,由于语音和语言与人的智力活动密切相关,与社会文化的进步密切相连,所 以它具有巨大的信息容量和高超的智能水平。目前,人类已经进入了信息化时代, 用现代科学技术研究语音信息处理,使人们能更加快捷、方便地产生、传输、存 储、获取和运用语音信息,这对于促进社会的进步具有及其重要的意义。 让计算机能听懂人类的语言、实现人机交互,是科学家梦寐以求的想法。随 着计算机越来越向微型化方向发展,以及工作环境的日趋复杂化,人们越来越迫 切要求摆脱键盘的制约而使用语音输入这样便于使用的、快捷的、人性化的输入 方式。尤其在汉语方面,汉字输入一直是计算机应用普及的障碍,所以利用汉语 语音进行人机交互是一个非常重要的研究课题。作为信息化时代高科技应用领域 的研究热点,语音信息处理技术从理论的研究到实用产品的开发已经走过了几十 个春秋并且取得了巨大的进步。它正在直接与办公、智能家居、交通、金融、公 安、商业、旅游等行业的语音咨询与管理,工业生产制造部门的语声控制,电话 和电信系统的语音自动拨号、辅助控制与查询以及卫生医疗和福利事业的生活支 援体系等各种现实应用领域相接轨,并且很有希望成为以后系统操作和程序应用 的用户界面。可见,语音信号处理技术的研究和应用将是一项非常具有市场价值 和挑战性的工作。我们目前进行这一领域的研究和开拓工作就是要让语音信号处 理技术进入人们的日常工作、生活当中,并不断朝着更高的目标而继续努力。 随着计算机、信息技术和大规模集成电路的飞速发展,数字信号处理技术已 形成一门独立的学科系统,并且在理论和实现技术两个方面都获得了高速的发 展。数字信号处理是采用数值计算的方法对信号进行处理的一门学科。它研究的 是怎样对模拟信号进行采样,将其转换为数字序列,然后对其进行变换、滤波、 增强、压缩及识别等加工处理,从而提取有用信息并进行应用的理论和算法。而 数字信号处理器则是一种用于数字信号处理的可编程微处理器,它的诞生与快速 发展,使各种数字信号处理算法得以实时实现,为数字信号处理的研究和应用打 开了新局面,提供了低成本的实际工作环境和应用平台,推动了新的理论和应用 领域的发展。目前,d s p 技术在通信、航空、航天、雷达、工业控制、医疗、网 基于d s p 的语音识别算法研究与实现 络及家用电器等各个领域都得到了广泛应用1 2 j 。 1 2 国内外的研究现状 语音信号处理【2 】这门学科长期以来之所以深深地吸引广大科研人员不断地 对其进行探索和研究,除了它自身具有很强的实用性之外,另一个非常重要的原 因是,它始终与当时信息科学方面最活跃的前沿学科一起发展,并保持密切的联 系。语音信号处理是以数字信号处理和语言语音学为基础理论而形成的一门涉及 面非常广的综合性的学科,与语言学、生理学、计算机科学、通信与信号处理科 学以及模式识别和人工智能等很多学科都有着非常紧密的关系。对语音信号处理 技术的研究一直是数字信号处理技术发展的主要推动力量。因为许多信号处理的 新方法的提出,最初是在语音信号处理中获得成功,然后再推广到其它相近领域 的。比如,很多高速信号处理器的诞生和发展是与语音信号处理的研究发展分不 开的,语音信号处理算法的复杂性和实时处理的需求,促使人们去设计许多更加 先进的高速信号处理器。当产品问世之后,又是首先运用在语音信号处理中得到 最有效的推广应用。语音信号处理成果的商品化对这种处理器有着巨大的市场需 求,反过来它又进一步推动了微电子技术研究和应用的发展。语音信号处理作为 一个非常重要的应用领域,有很长的研究历史。但是它的高速发展确是从1 9 4 0 年前后d u d l e y 的声码器和p o t t e r 等人的可见语音( v i s i b l es p e e c h ) 开始的【3 j 。1 9 5 2 年 贝尔( b e l l ) 实验室的d a v i s 等人首次研制成功能识别1 0 个英语数字的实验装置; 1 9 5 6 年o l s o n 和b e l a r 等人采用8 个带通滤波器组提取频谱参数作为语音的特征, 研制成功一台简单的语音打字机。2 0 世纪6 0 年代前期,经过f a u t 和s t e v e n s 的努力, 形成了语音生成理论的基础,在此基础上语音合成的研究也得到了扎实的进展 1 4 】。6 0 年代中期形成的一系列数字信号处理算法和技术,如快速傅里叶变换 ( f f t ) 、数字滤波器等都成为了语音信号数字处理的理论和技术基础。在方法上, 随着高速计算机的发展,以往的主要以硬件为中心的科学研究逐渐步转化为以软 件为主的处理研究。不过,在语音识别领域内,最初的几种语音打字机的研究也 比较活跃,但后来全部都停了下来,这表明人们对当时语音识别难度的认识也得 到了加深。因为19 6 9 年美国贝尔研究所的p i e r c e 曾感叹地说:“语音识别将走向 何处? 到了l9 7 0 年,似乎像在反驳p i e r c e 的批评,单词的识别装置开始了实用化的 阶段,其后实用化的进程进一步高涨,实用机的生产销售也上了轨道。另外社会 上所宣传的声纹( v o i c e p r i n t ) 识别,即说话人识别的研究也扎扎实实地开展起来, 经过科研人员的努力,并且很快就迈入了实用化的阶段。进入到19 7 1 年,以美国 a r p a ( a m e r i c a n r e s e a r c h p r o j e c t s a g e n e y ) 为主导的“语音理解系统 的研究计划 开始起步。这项研究课题不仅在美国国内,而且对世界各国都产生了很大的影响。 2 硕十学佗论文 它极大的促进了语音识别应用研究的兴起。历时5 年的复杂庞大的a r p a 研究计 划,虽然在语音理解与识别、语言统计分析模型等方面的研究积累了一部分经验, 取得了较多成果,但依然没能达到巨大投资应得的成果,在l9 7 6 年就停了下来, 进入了深刻的反省总结阶段。但是,在7 0 年代期间还是有一些研究成果对语音信 号处理技术的发展和进步产生了重大的影响。这就是7 0 年代初由板仓( i t a k u r a ) 提 出的动态时间规整( d t w ) 技术,使语音识别研究在匹配算法方面开辟了一些新思 路;7 0 年代中期线性预测技术( l p c ) 被应用于语音信号处理,此后隐马尔可夫模 型法( h m m ) 也获得初步成功,该技术此后在语音信号处理的多个方面获得巨大 成功;7 0 年代末,l i n d a 、b u z o 、g r a y 和m a r k e l 等人经过研究解决了矢量量化( v q ) 码书生成的方法,并初次将矢量量化技术用于语音编码获得成功。从此矢量量化 技术不仅在语音识别、语音编码和说话人识别等语音信号处理方面发挥了非常重 要作用,而且很快被推广到其它许多应用领域。因此,8 0 年代开始出现的语音信 号处理技术产品化的浪潮,与上述语音信号处理不断发展的新技术的推动作用是 无法分开的p 】。 2 0 世纪8 0 年代期间,由于隐马尔可夫模型、矢量量化和人工神经网络( a n n ) 等先进算法被相继应用于语音信号处理,并且经过不断完善和改进,最后应用在 语音信号处理方面,使得语音信号处理技术产生了突破性的进展。其中,隐马尔 可夫模型作为语音信号的一种统计分析模型,在语音信号处理的各个领域中获得 了宽广的应用。它的理论基础是l9 7 0 年后,由b a u m 等人建立起来的,随后,由 美国卡内基梅隆大学( c m u ) 的b a k e r 和美国i b m 公司的j c l i n e k 等人将其应用到 语音识别处理中。由于美国贝尔实验室的r a b i n e r 等科研人员在8 0 年代中期,对 隐马尔可夫模型详细的介绍,才使其被世界各国从事语音信号处理的科研人员所 了解和熟悉,进而成为一个众做周知的研究热点,这也是目前语音识别等的主流 研究途径。 进入2 0 世纪9 0 年代以来,语音信号处理技术在实用化方面取得了许多突破性 的研究进展。其中,语音识别逐步由实验室走向实用化。一方面,由于对声学语 音学统计模型的研究逐渐深入,具有较强鲁棒性的语音识别、基于语音段的建模 方法及隐马尔可夫模型与人工神经网络的结合应用成为研究的热点。另一方面, 为了语音识别实用化的需求,讲者听觉模型、自适应、快速搜索识别算法以及进 一步的语言模型的研究应用等课题倍受科研人员关注。 在语音合成方面,有限词汇的语音合成群已在自动报时、报警、报站、电话 查询服务、发音玩具等方面得到了广泛的应用。关于文本一语音自动转换系统 ( t t s ) 的研究,许多国家、多个语种都已在2 0 世纪9 0 年代初达到了商品化程度, 其语音质量能被广大公众接受。从研究技术上可分为发音器官参数合成、声道模 型参数合成和波形编辑合成;从合成策略上可分为频谱逼近合成和波形逼近合 基于d s p 的语音识别算法研究与实现 成。其中采用波形拼接来合成语音的方法,越来越被广泛地应用。其中最具代表 性的是基音同步叠加法( p s o l a ) ,这种方法既能保持所发语音的主要音段特征, 又能在拼接时灵活调整其基频、时长和强度等超音段特征,在语音合成中影响较 大。 在5 0 多年的时间里,语音编码已取得了迅速的发展。最早的标准化语音编码 系统是速率为6 4 k b i t s 的p c m 波形编码器;至1 1 9 0 年代中期,速率为4 8 k b i t s 的 波形与参数混合编码器,在语音质量上已接近前者的水平,且已达到实用化阶段。 当前的研究主要集中在4 k b i t s 码率以下的高音质、低延迟的声码器,提高在噪 声信道中低码率编码器的性能,并能传输多种信号,包括音频信号。为此在寻找 更为有效的参数量化技术、非线性预测技术( n o n l i n e a r p r e d c t i o n ) 、多分辨率时 频分析技术( 如w a v e l e t s ) 和高阶统计量的使用、对人耳感知特性的进一步研究和 探索等方面有较多的研究工作。 数字信号处理技术从十八世纪开始,截止目前,已经在许多领域取得巨大发 展,如语音信号传输和识别、语音通信、声纳、雷达、地震学、智能机器人、数 据通信、生物医学工程等领域都显示出其重要应用。目前,数字信号处理技术在 实现方案、算法、仿真与设计工具及硬件结构等诸多方面也在不断更新发展。自 1 9 8 0 年以来,d s p ( d i g i t a ls i g n a lp r o c e s s i n g ) 芯片得到了突飞猛进的发展。d s p 芯片也称数字信号处理器,是一种适合于数字信号处理的微处理器,能够实时快 速地实现各种数字信号处理算法【6 j 。 1 9 8 2 年德州仪器( t i ) 推出的通用可编程的d s p 芯片,为数字技术带来了突 破性应用。最初d s p 仅仅是一种专门为实时处理大量复杂数据而设计的微处理器 芯片,但随着技术的不断创新,d s p 器件的性能已经得到了长足的改进和提高。 从运算速度方面来看,m a c ( 一次乘法和一次加法) 所花费的时间已经从2 0 世纪8 0 年代初的4 0 0 n s 突降到1 0 n s 以下,处理能力则提高了好几十倍。d s p 芯片内部重 要的乘法器部件已经从1 9 8 0 年的占膜片区的4 0 左右下降到5 以下,片内随机 存储器r a m 的数量增加了一个数量级以上。从制造工艺方面来看,1 9 8 0 年采用 的是4 u m 的n 沟道m o s ( n m o s ) i 艺,而现在则采用亚微米c m o s 工艺。同时,d s p 芯片的引脚数量也从1 9 8 0 年的最多6 4 个增加到现在的2 0 0 个以上,引脚数的大量 增加,意味着结构灵活性的巨增,比如外部存储器扩展和处理器间的通信等。另 外,d s p 芯片的发展也使得d s p 系统的体积、成本、质量和功耗都有了极大程度 的下降和减少。 随着d s p 芯片的性能和技术档次的不断提高,d s p 芯片正在向高性能化、多 功能化、低功耗化方向发展着,并且已经在诸多不同应用领域取得了及其重要的 进展。现在,d s p 芯片被越来越多地应用于语音识别、音频视频产品、网络、高 速调制解调器、无线通信等诸多领域,可以说,d s p 技术的应用已经遍布各个领 4 硕十学何论文 域【7 1 。 d s p 芯片是一种特别适合于进行高速数字信号处理运算的微处理器,其主要 应用是非常实时快速地实现各种数字信号处理算法。根据数字信号处理的性能要 求,d s p 芯片一般具有如下的主要特点: 1 ) 哈佛结构: 哈佛结构能够将程序和数据存储在不同的存贮空间中,即程序存贮器和数据 存贮器两者是相互独立的,每个存贮器都可以独立编址、独立访问。与两个存贮 器相对应的是在系统中设置的程序总线和数据总线两条总线,从而可以使数据的 吞吐量提高一倍。 2 ) 多总线结构 很多d s p 芯片内部都采用了多总线结构,这样保证可以在一个机器周期内部 多次访问程序空间和数据空间。对于d s p 而言,如果内部总线越多,那么可以完 成的功能就越复杂。 3 ) 流水线结构 在哈佛结构的基础上,d s p 芯片内部广泛的采用了流水线操作方式,以减少 指令执行所花费的时间,这样就可以进一步增强处理器的数据分析处理能力。 4 ) 多处理单元 d s p 芯片内部一般都包括多个处理单元,如辅助寄存器运算单元( a r a u ) 、 算术逻辑运算单元( a l u ) 、累加器( a c c ) 及硬件乘法器( m u l ) 等。它们 能够在一个指令周期内同时进行运算操作,以提高系统的运行速度。 5 ) 特殊的d s p 指令 d s p 拥有一套专门为数字信号处理应用而设计的指令系统。在这种特殊的指 令集中,有些一条指令就能够完成在别的系统中需要多条指令才可以完成的功 能。 6 ) 快速的指令周期 流水线操作、哈佛结构、专用的硬件乘法器、特殊的d s p 指令集以及集成电 路的优化设计,能够使得d s p 芯片的指令周期达至u 2 0 0 n s 以下。快速的指令周期 使得d s p 芯片能够实时实现很多数字信号处理应用。 7 ) 较高的预算精度 最初的d s p 芯片字长为8 位,后来逐步提高到16 , 4 、2 4 位和3 2 位。为杜绝运 算过程中的溢出现象,某些累加器能够达到4 0 位。同时,一些浮点型d s p 芯片可 以提供更加宽广的动态范围。 8 ) 丰富的硬件配置 新型的d s p 芯片接口功能变得越来越强大,片内即具有锁相环时钟产生器、 主机接口( h p i ) 、d m a 控制器以及符合i e e e l1 4 9 1 标准的j i a g 澳0 试仿真接口等, 5 检测;特征提取采用基于人耳听觉特征的美尔频率倒谱系数m f c c ;在语音识别 方面,对传统的动态时间规整技术d t w 加以改进采用了高效的d t w 算法,提高 了语音识别的正确率和实时性。 图1 2语音识别系统硬件结构框图 6 硕十学位论文 皇曼曼曼量曼曼曼曼曼曼曼曼曼曼曼曼曼曼曼曼曼曼曼曼曼曼皇曼曼曼曼寰曼曼! 曼! ! ! ! 曼曼曼曼曼曼曼量曼曼曼曼曼曼曼曼! 曼曼曼曼曼曼曼曼曼曼曼皇量曼笪皇曼曼曼皇曼曼曼曼曼曼! 皇曼曼曼 最后在d s p 试验箱上对相关算法进行了运行及验证,并对实验结果进行了分 析。 1 4 本文的组织结构 本文分为六章,具体安排如下: 第一章,绪论。介绍了论文的研究背景及意义,国内外的研究现状,本文的 研究内容和组织结构。 第二章,语音识别的理论基础。重点介绍了语音信号的前端处理、端点检测, 介绍了语音信号特征参数提取、模型训练与识别的分类及特点。 第三章,语音识别系统的硬件实现。重点介绍了系统关键硬件模块功能介绍, 包括数字信号处理芯片d s p 、数模转换芯片、程序存储器f l a s h 和数据存储器 s r a m 等。 第四章,语音识别的软件设计。介绍了美尔频率倒谱系数m f c c 的基本原理 及实现步骤;在语音识别方面,分别对相似性度量、动态时间规整算法进行了阐 述,重点研究 参考模式库。 第五章, 分类,包括引 固化;最后, 在文章结 的特性及表征其本质特征的参数均是随时间而变化的,所以它是一个非平稳态过 程,不能用处理平稳信号的数字信号处理技术对其进行分析处理。但是,由于不 同的语音是由人的口腔肌肉运动构成声道某种形状而产生的响应,而这种v i 腔 肌肉运动相对于语音频率来说是非常缓慢的,所以从另一方面看,虽然语音信号 具有时变特性,但是在一个短时间范围内( 一般认为在l o - - 3 0 m s 的短时间内) ,其 特性基本保持不变,即相对稳定,因而可以将其看做一个准稳态过程,即语音信 号具有短时平稳性。所以任何语音信号的分析和处理必须建立在“短时 的基础 上,即进行“短时分析 ,将语音信号分为一段一段来分析其特征参数,其中每 一段称为一“帧,帧长一般取为l o - - 一3 0 m s 。这样,对于整体的语音信号来讲, 分析出的是由每一帧特征参数组成的特征参数时间序列。 根据所分析出的参数性质的不同,可将语音信号分析分为时域分析、频域分 析、倒频域分析等;根据分析方法的不同,又可将语音信号分析分为模型分析方 法和非模型分析方法两种。时域分析方法具有简单、计算量小、物理意义明确等 优点,但由于语音信号最重要的感知特性反映在功率谱中,而相位变化只起着很 小的作用,所以相对于时域分析来说,频域分析更为重要。 模型分析法是指依据语音信号产生的数学模型来分析和提取表征这些模型 的特征参数,如共振峰分析及声管分析( 即线性预测模型) 法;而不进行模型化分 析的其他方法都属于非模型分析法,包括上面提到的时域分析法、频域分析法及 同态分析法( 即倒频域分析法) 等。 不论分析怎样的参数以及采用什么分析方法,在按帧进行语音分析,提取语 音参数之前,有一些经常使用的、共同的短时分析技术必须预先进行,如语音信 号的数字化、语音信号的端点检测、预加重、加窗和分帧等,这些也是不可忽视 的语音信号分析的关键技术。 8 硕十学何论文 2 2 语音信号的数字化和预处理 语音信号的数字化是数字处理的前提,语音信号的数字化包括两个步骤:取 样和量化。n y q u i s t 采样定理要求取样率必须大于或等于信号带宽的2 倍,因此一 般需要对输入的语音信号作低通即反混叠滤波,然后进行a d 转换,如图2 1 所示。 如果工频干扰( 5 0 h z 或6 0 h z ) 不严重或另有措施抑制,则不必用带通滤波器而 只需用低通滤波器就可以了,截止频率由实际语音信号带宽确定。典型的反混叠 滤波器的技术指标是:通带内波动绝对值小于ld b ,通带带宽3 4 0 0 h z ,在4 0 0 0 h z 处衰减1 4 d b ,4 6 0 0 h z 以上衰减3 2 d b ,对某些更高要求的应用,阻塞衰减5 0 d b 以 上。 1一i,一 图2 1语音信号的数字化 语音信号的前端预处理通常包括语音信号的预加重、加窗以及分帧等。当然, 在提取特征参数之前必须要把待处理的语音信号部分从输入信号中分离出来,即 语音信号的端点检测。 2 2 1 预滤波、采样和a d 转换 预滤波的目的有两个:抑制输入信号各频域分量中频率超出疋2 的所有 分量( f 为采样频率) ,以防止混叠干扰;抑制5 0 h z 的电源工频干扰。这样, 预滤波器必须是一个带通滤波器,设其上、下截止频率分别是厶和五,则对于 绝大多数语音编译码器,厶= 3 4 0 0 h z ,五= 6 0 - - - 1 0 0 h z ,采样率为z = 8 k h z ;而对 于语音识别而言,当用于电话用户时,指标与语音编译码器相同。当使用要求较 高或很高的场合时,厶= 4 5 0 0 h z 或8 0 0 0 h z ,五= 6 0 h z ,z = l o k h z
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 勤工部面试题及答案
- 前端高级面试题及答案
- 浦发面试题及答案
- 配件文员面试题及答案
- 南昌导购面试题及答案
- 2025建筑工程设计与施工一体化合同范本
- 民航地勤面试题及答案
- 2025建筑工程分包合同协议书模板
- 面试题及答案技巧
- 2025餐饮企业食堂外包服务合同
- 月子会所食品安全应急预案
- 骨科新进展课件
- 警察抓捕战术课件
- 2025年江苏省农垦集团有限公司人员招聘笔试备考及答案详解(各地真题)
- 电子厂安全生产知识培训课件
- 加油站监理实施细则
- 知道智慧树商业伦理与企业社会责任(太原科技大学)满分测试答案
- PE管道工程质量监理细则与验收标准
- 绵竹市属国有企业招聘考试真题2024
- 药物制剂新技术研发与应用
- 无人机在应急救援中的应用
评论
0/150
提交评论