（控制科学与工程专业论文）基于dsp的语音处理及识别算法研究.pdf

上传人：扣*** IP属地：宁夏上传时间：2019-12-09 格式：PDF 页数：53 大小：2.52MB 积分：0 举报 版权申诉

已阅读5页，还剩48页未读，继续免费阅读

（控制科学与工程专业论文）基于dsp的语音处理及识别算法研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

武汉理1 ：大学硕士学位论文摘要当今社会已经进入高速信息化时代，传统的信息储存与传播已经满足不了人们的同常生活需求。为了使生活更加快捷、方便，人们渴望通过说话就可以解决一些事务，如语音拨号、语音门禁系统、语音输入等。同时，随着数字信号处理器和语音识别算法的发展，使得对语音识别成为现实，语音识别将会应用于更加广泛的范围。因此，语音识别系统具有非常高的研究与实用价值。本文研究一个基于d s p 的特定人、孤立词、小词汇量的语音识别系统，详细介绍了识别系统的硬件设计过程，分析和改进了语音识别算法，并给出了语音识别仿真结果。本文首先简单介绍语音信号基础理论知识和相关声学原理，并从语音信号预处理、特征提取、训练以及匹配这四个方面对语音识别的基本问题进行了探讨。接着，着重研究了基于d s p 的语音识别系统的硬件设计。整个系统以 t m s 3 2 0 v c 5 4 0 2 作为硬件核心，外围电路包括语音信号采集模块t l v 3 2 0 a i c 2 3 、电源电路、l c d 显示、存储器扩展、j t a g 接口电路，最后给出系统硬件相关的驱动程序设计。在软件方面，本文系统讨论了基于d s p 的语音识别系统的软件设计，为提高识别率，系统采用双门限比较法进行端点检测，特征向量选用2 4 维美尔频率参数( m f c c ) ，采用动态时间规整( d t w ) 识别高效算法进行语音模型的训练和识别。最后，在p c 机上m a t l a b 2 0 0 6 中实现语音识别d t w 算法仿真设计，介绍仿真环境并分析仿真结果。关键词：t m s 3 2 0 v c 5 4 0 2 ；语音识别；m f c c , d t w 武汉理t 人学硕士学位论文 a bs t r a c t t o d a y , w i t ht h er a p i dd e v e l o p m e n to fc o m p u t e rt e c h n o l o g y , s o c i e t yh a se n t e r e d t h eh i 曲一s p e e di n f o r m a t i o na g e ，t r a d i t i o n a li n f o r m a t i o ns t o r a g ea n dd i s s e m i n a t i o no f p e o p l e sd a i l yl i v e sh a v eb e e nu n a b l et om e e td e m a n d t om a k el i f ef a s t e ra n dm o r e c o n v e n i e n t ，p e o p l ee a g e rt os p e a kc a nb er e s o l v e dt h r o u g han u m b e ro fm a t t e r s ，s u c h a sv o i c ed i a l i n g , v o i c ea c c e s ss y s t e m s ，v o i c ei n p u ta n ds oo n m e a n w h i l e , w i t ht h e d i g i t a ls i g n a lp r o c e s s o ra n dv o i c er e c o g n i t i o na l g o r i t h md e v e l o p m e n t ，a n dm a k e s s p e e c hr e c o g n i t i o nar e a l i t y , s p e e c hr e c o g n i t i o nw i l lb ea p p l i e dt oab r o a d e rr a n g e t h e r e f o r e ，t h es p e e c hr e c o g n i t i o ns y s t e mh a sav e r yh i g hr e s e a r c ha n dp r a c t i c a lv a l u e i nt h i sp a p e r , ad s p - - b a s e dh u m a n - s p e c i f i cs m a l l v o c a b u l a r yi s o l a t e dw o r d s p e e c hr e c o g n i t i o ns y s t e m ，r e c o g n i t i o ns y s t e md e s c r i b e di n d e t a i lt h eh a r d w a r e d e s i g np r o c e s s ，a n a l y s i sa n di m p r o v e m e n to fs p e e c hr e c o g n i t i o na l g o r i t h m s ，a n d s i m u l a t i o nr e s u l t sa r eg i v e nv o i c er e c o g n i t i o n f i r s t l y ，ab r i e fs p e e c hs i g n a lb a s i ct h e o r yo fk n o w l e d g ea n dr e l e v a n ta c o u s t i c p r i n c i p l e s ，f o u ra s p e c t so fs p e e c hr e c o g n i t i o no ft h eb a s i ci s s u e sf r o mt h es p e e c h s i g n a lp r e p r o c e s s i n g ，f e a t u r ee x t r a c t i o n ，t r a i n i n ga n dm a t c ht h e s ea r ed i s c u s s e d t h e n ， f o c u so nr e s e a r c ha n dd e s i g no fd s p - b a s e ds p e e c hr e c o g n i t i o ns y s t e mh a r d w a r e d e s i g n t m s 3 2 0 v c 5 4 0 2a sah a r d w a r ec o r eo ft h ee n t i r es y s t e m ，p e r i p h e r a lc i r c u i t s ， i n c l u d i n gv o i c es i g n a la c q u i s i t i o nm o d u l et l v 3 2 0 a i c 2 3 ，p o w e rc i r c u i t ，l c dd i s p l a y , m e m o r ye x p a n s i o n ，j t a gi n t e r f a c ec i r c u i t t h ed r i v e rr e l a t e ds y s t e mh a r d w a r ei s g i v e n s y s t e md i s c u s s e ds p e e c hr e c o g n i t i o ns y s t e mb a s e do nd s ps o f t w a r ed e s i g n ， s y s t e mt h r e s h o l dc o m p a r i s o nm e t h o dw i t he n d p o i n td e t e c t i o n ，f o c u so nt h e 2 4 - d i m e n s i o n a lm e lf r e q u e n c yp a r a m e t e r s ( m f c c ) a n dd y n a m i ct i m ew a r p i n g ( d t w ) i d e n t i f i c a t i o no fe f f i c i e n ta l g o r i t h m s f i n a l l y , o nt h em a t l a b 2 0 0 6o fp c ，d t ws p e e c hr e c o g n i t i o na l g o r i t h ms i m u l a t i o n d e s i g n h a sb e e ng i v e n ，t h e nd e s c r i b e sa n da n a l i z e ss i m u l a t i o ne n v i r o n m e n ta n d s i m u l a t i o nr e s u l t s k e yw o r d s ：t m s 3 2 0 v c 5 4 0 2 ；s p e e c hr e c o g n i t i o n ；m f c c ；d t w 玎独创性声明本人声明，所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得武汉理工大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名：学位论文使用授权书本人完全了解武汉理工大学有关保留、使用学位论文的规定，即：学校有权保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权武汉理工大学可以将本学位论文的全部内容编入有关数据库进行检索，可以采用影印、缩印或其他复制手段保存或汇编本学位论文。同时授权经武汉理工大学认可的国家有关机构或论文数据库使用或收录本学位论文，并向社会公众提供信息服务。 ( 保密的论文在解密后应遵守此规定) 研究生。：磅k 譬新。签名 ( 注：此页内容装订在论文扉页) 醐协口( ! 订武汉理_ 1 j 大学硕十学位论文 1 1 研究目的与意义第1 章绪论语音信号处理技术作为目前发展最为迅速的一个信息科学研究领域，其研究范围涉及一些比较前沿的科研课题，所得研究成果也具有同样重要的研究与应用价值。近年来，随着数字信号处理【l 】与语音识别算法【2 1 不断发展，许多过去语音处理算法仿真和研究中出现的难题都基本得到解决。不管要求多么复杂，语音信号处理系统都可以集成在一块数字信号处理器( d s p ，d i g i t a ls i g n a l p r o c e s s i n g ) 芯片上，处理速度也随着d s p 运算速度提升而飞速增长，因此语音信号处理技术应用越来越广泛，也越来越为人们所关注。语音信号处理研究范围包含了许多学科，如语音学、语言学、数字信号处理、电子通信、计算机技术、模式识别等【3 1 。因此，研究语音识别系统除了加强语音识别系统本身的学习外，还需要了解很多其他方面的知识，一个好的语音识别系统应当考虑到输入设备、说话人的状态、说话环境、硬件平台、识别算法等多方面的因素。在实际应用中，语音识别应用范围非常广泛，各行各业都可以见到语音识别系统，例如通讯系统语音拨号、语音识别昕写器、银行查询系统、家庭智能玩具、酒店服务、股票证券交易、汽车导航设备、工业控制、翻译系统等等。随着社会发展，语音识别系统的实用性越来越广，人们对语音识别系统的需求也越来越高，未来语音识别系统发展趋势是终端体积越来越小，操作越来越简单，嵌入式复杂度越来越高，而此时，语音识别系统可作为语音输入和语音控制，是一个十分理想的人机界面。本文设计一个基于d s p 的特定人、孤立词和小词汇量语音识别系统。该系统以d s p 硬件平台作为载体，以动态时间规整( d t w ，d y n a m i ct i m ew a r p i n g ) 高效算法作为语音识别核心算法，实现特定人、孤立词和小词汇量语音识别，可以实际应用到门禁系统中身份识别、语音拨号、号码查询等方面。武汉理t 大学硕士学位论文 1 2 国内外研究现状语音识别系统最开始出现的是1 9 5 2 年b e l l 实验室开发的a u d r y 系统【4 】，该系统结构简洁，功能简单，只可识别1 0 个英文数字，紧接着1 9 5 6 年普林斯顿大学r c a 实验室开发的单音节识别系统面世，该系统的复杂度要高于a u a r y 系统。早期的识别系统的运算关系基本上都是采用模拟电路来实现。 6 0 年代末7 0 年代初，语音识别技术真正取得实质性进展，已经成为一个重要的课题并开展研究。一方面，计算机技术的发展为语音识别的发展提供了硬件和软件的支持，使早期不能达到的硬件条件得到了实现；另一方面，在语音信号算法上提出了线性预测编码( l p c ，l i n e a rp r e d i c t i o nc o d i n g ) 技术和动态时间规整技术，这两种技术分别有效的解决了特征提取和发音长短不等的匹配问题，实现了语音识别算法的突破。此时的语音识别是基于模板匹配原理，其主要研究领域为孤立词、特定人、小词汇量的识别，而基于线性预测倒谱和d t w 技术的语音识别系统技术也走向成熟的同时进一步的提出了矢量量化( v q ，v e c t o r q u a n t i z a t i o n ) 和隐马尔可夫模型( h m m ，h i d d e nm a r k o vm o d e l s ) 等理论。 7 0 年代末期，语音识别的应用范围逐渐扩大，孤立词、小词汇表、特定人等约束条件已经限制了语音识别技术的发展，为打破这些条件的约束，人们又要解决一些新的问题。比如：连续语音中各发音单位受上下语音影响；扩大词汇表又使得在选区建立模板时很困难；不同人说话时声学特征有很大的差异，在不同的时间、环境等因素影响下，就算说同样的内容也会有很大的差异；语音中如果存在干扰或噪音，则原有的模板匹配方式也会受很大影响。此阶段出现的比较有代表性有c a r n e g i e m e l l n 大学( c m u ，c a r n e g i em e l l o nu n i v e r s i t y ) 的h e a r s a y - i i 和i b m 的自动听写系统。 8 0 年代，实验室语音识别研究取得巨大进展，大词汇量、连续语音和非特定人已成为科学家的研究重点，h m m 模型为大词汇量连续语音识别提供的基础技术。最典型的是卡耐基梅隆大学开发的s p h i n x 系统，将这三个特性都集中到该系统中，该系统的识别高达9 5 8 。 9 0 年代，语音识别的研究进一步深入，h m m 模型和a n n 模型分别在语音识别中应用成功。技术方面，语音信号特征提取和优化、语言模型建立和算法技术越来越成熟，一些较成功复杂度较高的语音识别系统也相继面世，如 m i c r o s o f t 的w h i s p e r 、i b m 的v i a v o i c e 系列和c m u 的s p h i n x i i 等。我国语音识别研究始于五十年代，这些年进展较大，技术水平也从实验室 2 武汉理工大学硕士学位论文研究逐步走向实用。1 9 8 7 年，国家专门设立8 6 3 专家组，约定每一年或者两年举行一次公开的语音识别系统测试。我国在这方面研究水平已达到国际先进水平，特别是在汉语识别技术上还有自己的特点与优势。2 0 0 2 年中科院自动化所及其所属模式科技( p a t t e k ) 公司研究开发“天语中文语音识别系列产品 p a t t e ka s r 5 1 ，从此，在语音识别领域占有了一席之地。尽管如此，汉语语音识别系统相关产品在市场上应用并不广泛，还面临着许多问题。 1 3 语音识别面临的问题 1 9 9 7 年，有人提出“语音时代已经到来，人们也对语音识别的发展前景充满期待，希望机器能做到像人类一样能“听懂人的语言，能与人类自然的沟通。因此，语音识别技术又掀起热潮，许多著名大公司如i b m 、苹果和n t t 等都在语音识别技术领域投入了大量的精力与资金【6 1 。然而，语音识别的应用研究进度较慢，相关技术没有突破。实际应用中，语音识别系统的鲁棒性、灵活性和适应能力达不到市场需求，这点从目前市场很少有成熟的语音识别系统相关产品上可以看出。尽管对这些问题有新的方案出现，但是在普遍性和实用性方面还存在很多问题，具体来说有以下几个方面【7 】： 1 ) 算法模型方面，一方面，随着硬件资源发展，语音识别相关算法如特征提取和训练与识别有可能进一步改进。另一方面，语音识别系统鲁棒性较差，对周边环境依赖性较重，在实际应用中，如何将原始语音从噪音中提取出来，这将提高语音识别系统的鲁棒性。 2 ) 自适应方面，由于语音识别系统的灵活性差，还不能达到与人类自然对话，而且在使用前需要对用户进行大量的语音训练，以让语音识别系统能记住用户的语音特征。汉语中众多的方言、口语；发音人的特征、心里状态；语音的模糊，同义词大量存在；语句的不规范以及语序的错乱等，这些因素都会降低语音识别系统的识别率。 3 ) 连续语音方面，相比数字和英文连续识别，汉语的有其独特的特性，如如何对汉语韵律的利用；需要考虑语言中重音、语调、声母和韵母等因素；各音节之间相似度极高，不容易区分等。 4 ) 硬件平台方面，目前所研究的语音识别系统大多是基于p c 的，利用计算机丰富的内部资源和运算速度来完成相应的语音识别。然而，在实际运用中，使用更广泛的是嵌入式语音识别系统。武汉理1 ：大学硕十学位论文 1 4 论文内容与结构本文研究的主要内容如下：首先，详细介绍了语音信号基本理论知识与基本算法，讨论了语音识别各个步骤算法的优缺点，具体探讨了语音信号的特征提取与训练识别模型的建立。其次，在硬件平台方面，介绍t m s 3 2 0 v c 5 4 0 2 、t l v 3 2 0 a i c 2 3 等相关芯片的特性和基本电路，着重设计以d s p 为核心构建的语音识别系统的硬件电路图，并说明各个模块的电路原理。同时，完成了与语音识别系统相关的硬件驱动程序并给出了关键代码，对d s p 的硬件平台进行在线调试。最后，深入研究d t w 模型，详细阐述d t w 的基本算法和高效算法，并对 d t w 算法的流程与应用进行了详细的说明，给出了语音识别系统算法的流程图。将d t w 高效算法在m a t l a b 2 0 0 6 中仿真，并分析仿真结果。本文分为六章，具体安排如下：第一章，概述了本文的研究目的与意义，介绍了语音识别技术的发展状况以及面临的问题，最后阐述了本文研究的主要内容和结构安排。第二章，简要介绍了语音识别基础理论知识，说明了识别算法的基本流程以及各个步骤所采取的方法。第三章，重点介绍语音识别系统的硬件电路，根据系统要求设计各模块电路，给出驱动程序设计，在线调试基于d s p 的语音识别硬件平台。第四章，深入讨论语音识别系统端点检测、特征提取、训练和识别算法，详细的说明了d t w 算法的流程在系统中实现过程。第五章，给出并分析语音识别算法在m a t l a b 2 0 0 6 中的仿真结果。第六章，对全文的工作进行了总结，指出系统不足之处并提出了改进的方向，进一步完善本系统。 4 武汉理1 ：大学硕士学位论文第2 章语音识别基础理论语音识别是指利用计算机对人体语音进行自动识别的一门技术，语音识别总体分为两类：第类是指计算机识别出语音信号表达的内容，即准确地理解语音含义并将理解的内容表示出来；第二类是指通过语音内容来判断说话人的身份，即说话人识别技术。本文所研究的是第一类，识别语音内容并做出正确的表示。 2 1 语音识别系统的类别语音识别系统按照不同的方式，可以分为几种不同的类别【8 】，其中主要分以下三种： 1 ) 如果从说话者限定范围来分，通常可以分为3 类：特定人识别系统：只针对特定用户进行识别的方式；非特定人识别系统：可以针对任何人进行识别，通常要通过对大量不同人的语音数据库对识别系统进行训练，建立起不同的模型；多人识别系统：或者可以称为特定组语音识别系统，通常只识别一组人的语音，该系统只要求对所需要识别的特定组人进行训练。 2 ) 如果从说话者说话的方式来分，通常可以分为3 类：孤立词识别系统：要求在输入所需识别的语音只含词汇表中的某个独立的词，并且每个词后要需要停顿一小段时间；连接词识别系统：可以识别一连串的词，但是该连续的词应当慢速连续的说出；连续识别系统：可以对说话者以正常语速方式说出的连续词语进行识别。 3 ) 如果从识别系统的词汇量大小来分，通常也可以分为3 类：小词汇量系统：词汇量不多于1 0 0 ，一般只有几十个词：中等词汇量识别系统：词汇量的范围在 1 0 0 到1 0 0 0 之间；大词汇量识别系统：通常包括词汇量在1 0 0 0 以上的语音识别系统。词汇表中的词汇量越多，系统的算法就越复杂，实现起来难度就更大，系统的识别率也会有所下降。在实际应用中，不同的系统对功能有不同的要求，不同类别的语音识别系统所采用的算法也会不同，在开发系统的时候可以对这些功能要求进行分类，将待开发的系统分别归类，以便于查找相关资料，缩短开发周期。武汉理工大学硕七学位论文 2 2 语音识别系统的基本流程不同的语音识别系统，虽然在各自细节实现方面有所不同，但所采用的基本流程相似，如图2 1 所示，包括预处理、特征提取、模型训练和识别几个环节。语 2 2 1 语音信号预处理图2 1 语音识别流程图果在语音信号处理中，预处理通常包含a d 转换、预加重、加窗、端点检测等基本步骤。 1 ) 语音信号模数( a d ) 转换语音信号是随时间和幅度而变化的一维信号，语音信号处理是对语音信号进行数字处理，所以在对语音信号处理之前需要将语音信号数字化，即进行模数 ( a d ) 转换。一个完整的模数转换必须包含有采样、保持、量化和编程四个基本过程，一般在运算过程中将采样于保持简化成一步，量化和编程简化成一步。由奈奎斯特采样定理可知，采样频率要大于或者等于原始信号频率的2 倍，才能在采样的过程中保持信号的完整性【9 】。本系统采用1 6 位a d 转换芯片t l v 3 2 0 a i c 2 3 ，由于适用于孤立词的识别，因此采样频率为8 k h z 。 2 ) 语音信号的预加重语音信号在完成a d 转换后可以进行预加重了，由于受声道模型中声门激励和嘴唇辐射的影响，语音信号的高频端大约在8 0 0 h z 以上会产生衰减，斜率通常为6 d b 倍频。为了抵消这种现象，使高频信号曲线平滑，在分析语音信号之前应对原始语音信号进行预加重来滤除低频干扰，采用一个阶滤波器，提高语音信号的高频成分。 3 ) 语音信号加窗处理加窗处理其实分为两个步骤：分帧与加窗。在语音信号处理中，由于信号是一种非平稳的时变信号，但可以认为语音信号在1 0 m s 一- , 3 0 m s 短时段是平稳 6 武汉理工人学硕士学位论文的，将语音信号划分成一个一个这样的小时段，此为分帧，每一个小时段称为帧。为了得到语音信号中的样本信号，用时间窗函数去乘原始信号，相应于频域就是离散信号的频谱与窗函数频谱的卷积，此为加窗。常用的时间窗函数有矩形窗、汉宁窗和汉明窗，本系统中采用的是汉明窗。 4 1 语音信号端点检测端点检测，主要用来检测语音识别中样本信号的起点和终点，因此，又被称为起止点检测。在语音信号处理中，语音信号的数据量非常庞大，如果对全部语音信号都加以处理，不仅增加系统处理器的负荷，还会影响系统的识别率。为了将有用的语音信号从系统采集的原始语音信号中提取出来，则就要对采集的语音信号进行分析，将语音的信号段和噪音段从语音信号中检测区分开来，从而准确的检测出语音段的起点与终点，去除从语音信号中无声段，极大的减少了数字信号处理器的运算量和处理时间，提高系统的性能和识别率。端点检测是语音信号预处理的核心部分，在整个语音识别过程中也处于非常关键的位置f 1 0 】。一般来说，端点检测位在语音信号处理的最前端，其正确与否将直接影响到整个语音识别系统的性能，由于语音信号的识别算法的前期数据是参考端点检测时的结果，所以也将直接影响到识别算法的准确性，从而影响到整个系统的性能，降低系统的识别率。因此，作为语音信号识别系统的前端处理，必须确保其优化性与准确性。端点检测的算法有很多，本系统采用的是基于双门限比较法的端点检测，即通过语音信号的短时能量检测与过零率检测进行语音信号的端点检测。 2 2 2 语音信号特征参数提取经过语音预处理中端点检测后，已经将语音信号中清音、噪音区别出来，这时就可以对所需语音信号进行特征参数提取，在分析语音信号的同时去掉无用信息，这些信息又比较占空间，最后获得对识别算法有用的重要参数。在提取过程中，并不是很广泛的提取，毕竟语音识别系统的内存有限，为了减少处理器的运算量，提高识别率，要求所提取的特征参数能充分代表说话者的语音特征，与其他的说话者有很好的区分性，各个特征参数之间能相互独立。此外，为保证语音识别便于实现，所提取的特征参数应该便于计算。语音信号的特征参数分为两种：时域特征参数，在一帧短时信号中由各个时域采样而直接组成一个参数矢量，如基音周期、短时平均能量等；频域特征 7 武汉理：l 入学硕士学位论文参数则是在一帧短时信号经过了些变化后再组成的参数矢量，如m e l 频率倒谱系数、l p c 倒谱系数、短时频谱等【1 1 1 。线性预测倒谱系数( l p c c ) 是基于人的发声机理原理，使系统的传递函数的形式和全极点数字滤波器达到一致，由于语音信号采样点之间具有相关性，从而现在某个时刻或将来的某个时刻的语音信号的抽样能够用之前的若干语音抽样的线性组合来估计。得到语音信号的实际采样值和线性预测采样值间的均方误差( m s e ) ，令m s e 最小可得到线性预测系数( l p c ) ，最后求出线性预测倒谱系数( l p c c ) 。美尔频率倒谱系数( m f c c ) 是基于入耳听觉特征，将语音的产生与之相结合的一种特征参数。该特征参数充分考虑了人耳的听觉特性，接着将频谱转化成基于m e l 频率的非线性频谱，最后转换到倒谱域上。线性预测倒谱系数( l p c c ) 参数的优点是计算量小，对元音有较好的描述能力，其缺点在于对辅音的描述能力较差，抗噪声性能较差。而美尔频率倒谱系数 ( m f c c ) 因为模拟了人的听觉特性，且没有任何前提假设。由于汉语孤立词的识别过程中对辅音需要有很高的分辨力，同时m f c c 参数具有识别性能和抗噪能力，所以，在汉语语音识别中m f c c 参数的性能优于l p c c 参数，本文所采用的是美尔频率倒谱系数( m f c c ) 。 2 2 3 模型训练与识别语音识别的过程实质上就是模式匹配的过程，在模型训练匹配的过程中，先从已知模板中获得模型参数，再按照相似度量法则，将未知模式与参考模式库匹配而获得最佳匹配。目前，比较流行的识别算法主要有动态时间规整 ( d t w ) 、隐马尔可夫模型( h m m ) 以及基于人工神经网络( 龇州) 的识别算法【1 2 】。动态时间规整( d t w ) 是较早流行的语音识别算法，它应用动态规整方法，将时间规整与距离测度计算结合起来，有效的解决了孤立词识别时语速不均所造成的发音长短不一的难题，是一种经典的非线性时间规整模板匹配算法。由于动态时间规整( d 刑) 对端点检测的要求较高，而端点检测会因为不同的语音情况产生不同的变化。因此，在将未知模板与参考模板比较的时候，不能直接进行比较，而是需要找到最佳匹配点。由于d t w 算法简洁，计算简单，对于孤立词识别率高，所以，d t w 被广泛运用于孤立词语音识别系统中。 8 武汉理一l ：大学硕十学位论文尽管d t w 应用广泛，但是仍然存在一些不足之处，比如模板运算量大，因此需要将d t w 进行改进。首先可以改进端点检测算法和d t w 算法中模板匹配过程中弯折的斜率，可以有效的减少语音识别的时间，降低语音数据的储存量，提高系统运算效率。隐马尔可夫模型( h m m ) 是在2 0 世纪8 0 年代初引进的一种算法。它实质上是一个双重随机过程，即该信号的语音特征由两个彼此关联的随机过程来一起描述，其中一个是不可观测的有限状态马尔可夫链，另一个是观察矢量的可观测的随机过程。在h m m 算法中统计了大量的语音数据，然后分别建立起相应识别条的统计模型，从待识别语音中提取相关特征，通过与语音数据库模型匹配而得到结果。由于其语音数据库含有大量统计的语音，因此整个统计模型相当稳定同时也具有较高的识别性与抗噪性能。h m m 算法数据量大，但性能好，又有强大的语音库支持，因此被广泛运用于连续词的语音识别系统。人工神经网络( a n n ) 是2 0 世纪8 0 年代后期发展的一种新型算法，是现在语音识别应用中的研究的一个新方向。a n n 实质上是一个大规模的自适应非线性动力学系统，运用大量处理单元来模拟人类神经元活动，最后将处理单位连接成一种信息处理系统。该信息处理系统既具有连续时间非线性动力学，较高的稳定性和较强的自学联想能力，又具有相互吸引性、广泛联接性与自适应性等特征。但在语音识别模式匹配中，a n n 在反映语音动态特征存在较大的缺点，从而导致a n n 很少能够单独的应用在语音识别当中，现阶段，多是将a n n 与h m m 算法配合使用【l 3 1 。 2 3 本章小结本章介绍了现代语音识别系统的分类与信号处理技术，语音识别的基本步骤包括语音信号模数( a d ) 转换、语音信号的预加重、语音信号加窗处理、语音信号端点检测、语音信号特征参数提取以及语音识别模型训练与识别等方面的知识。通过本章的介绍，对语音识别系统有个初步的、系统的认识，为后面详细讨论与深入研究语音识别系统设计打下基础。 9 武汉理- 火学硕士学位论文第3 章语音识别系统硬件电路设计通常在语音识别系统中，编程软件基本使用c 语言和汇编语言相结合的编程方法，硬件电路则会根据系统的具体性能要求、实现功能、投入成本的不同会采取不同的方案来实现。一般来说，基于单片机的语音识别系统价格便宜，但是功能性不强，实用性不高；基于p c 的语音识别系统体积过大，使用不方便；而基于d s p 的语音识别系统实用性强、稳定性高、片内资源丰富、易于移植，是一种比较理想的实现语音识别的硬件平刽1 4 】。 3 1 方案论证一个高性能的语音识别系统，首先要保证实用、可靠和稳定，另外系统成本也在考虑的范围内。经过查阅语音识别相关资料，综合本系统的功能要求，主要有以下三种方案： 1 ) 方案一【1 5 】：s p c e 0 6 1 a + f l a s h s p c e 0 61 a 单片机按键设置。- 。_ 。_ 。时钟电路1 0 位a d c l定时器 c p u 2 m b f i a s h 存储器 m - c 输入卜 2 k s r a m 双通道 1 0 位d a c 语音输出 3 2 k 字f l a s h 图3 1 方案一原理图 s p c e 0 6 1 a 是凌阳科技最新推出的高性能1 6 位单片机，该系统的优点是电压低、工作频率高，能够快速处理数字信号，片内集成麦克风输入和双通道1 0 位d a c 音频输出，是单片机中最适合用作语音识别的芯片。该系统结构简单，功能齐全，而且具有很丰富的语音处理函数库，系统开 l o 武汉理工人学硕士学位论文发简便，开发周期短，实用性较高。选用s p c e 0 6 1 a 作为语音识别系统核心处理器，处理器的运算速度不能得到升级，系统扩展能力不强，比较适合应用于运算量较小的语语音识别系统，对于运算量较大或者对后期扩展有很高要求的系统则不适用。 2 ) 方案二【1 6 1 ：a r m s 3 c 2 4 1 0 + u d a l 3 4 1 t s 图3 2 方案二原理图 $ 3 c 2 4 1 0 是三星公司开发的基于a r m 9 的处理器，片内集成，2 s 控制器，配以最新l i n u x 2 6 内核的操作系统作为软件平台。u d a l 3 4 1 t s 是p h i l i p s 公司提供的，2 s 编解码芯片，价格便宜，高频达4 8 k h z ，3 线控制，是较常用的全双工音频芯片。本系统接口灵活，l i n u x 系统更是可以根据硬件需求制定内核，使系统显得更加精简，最小的l i n u x 系统可达到1 5 0 k b ，适合应用于内部资源有限的嵌入式系统。 3 ) 方案三【1 7 l ：t m s 3 2 0 v c 5 4 0 2 + t 【3 2 0 a i c 2 3 + f l a s h + r a m 武汉理丁大学硕士学位论文圃 t l v 3 2 0 a i c 2 3 t m s 3 2 0 v c 5 4 0 2i r 图3 3 方案三原理图选用t i 公司的c 5 0 0 0 系列d s p 作为核心处理器，t l v 3 2 0 a i c 2 3 为语音信号采集模块，片外扩展f l a s h 和r a m 存储器，l c d 作显示电路，整个系统性能可靠，价格便宜，实用性高，符合本系统的要求。但d s p 既要配置与编解码芯片a i c 2 3 ，又要处理语音信号，还要支持l c d 显示，如在后期算法和识别程序上不加以精简和升级，则会导致d s p 负荷过高，影响系统的运算速度，从而拖累整个语音识别系统的运算效率和降低系统的性能。综上所述，考虑到系统的实用性、稳定性、可靠性、投入成本以及后期的优化升级，本文采用第三种方案。 3 2 系统硬件原理图设计根据第三种方案，系统的硬件电路图包括：d s p 核心电路、电源电路、语音信号采集电路、l c d 液晶显示电路、j t a g 电路和存储器电路，具体分析如下： 3 2 1d s p 核心电路 t m s 3 2 0 v c 5 4 0 2 ( 简称v c 5 4 0 2 ) ，是德州仪器公司推出的具有的为实现低功耗，高性能而专门设计的定点数字信号处理器，v c 5 4 0 2 的主要特性【1 8 】如下： ( 1 ) 哈佛结构，流水线操作，指令周期为i n s ，操作速率可达1 0 0 m i p s 。总线结构包含8 条1 6 b i t 的总线，其中1 条程序总线，3 条数据总线和4 条地址总线，具有很好的并行性。功耗较低，片内i o 电压3 3 v ，内核电压1 8 v 。 ( 2 ) c p u 结构包括：4 0 b i t 算术逻辑单元( a l u ) ，包括4 0 位桶形移位寄 1 2 武汉理：l = 人学硕士学位论文存器，2 个独立的4 0 位累加器；2 个4 0 b i t 的累加器，分为保护位，高位字，低位字；1 7 x 1 7 位乘法器，4 0 位加法器：比较选择和存储单元，数据地址产生器，程序地址产生器。 ( 3 ) 丰富的片内外设：通用i o 引脚x f 和b i o ：硬件定时器；软件可编程等待状态产生器；可编程块开关模块；增强型并行主机接i e ( h p l 8 1 6 ) ；两个多通道缓冲串口( m c b s p ) ；带锁相环p l l 的时钟发生器；d m a 控制器； i e e e l l 4 9 1 标准j t a g 接口。了解v c 5 4 0 2 的相关特性后便可进行d s p 核心电路设计，由第三种方案可以知道系统板所包含的各个模块，d s p 核心电路则设计与这些模块的接口。其中要注意v c 5 4 0 2 可以运行在微处理器或者微控制器两种模式，这两种不同的模式决定v c 5 4 0 2 的工作方式，通过m p # m c 管脚的电平来的控制的。复位电路采用常见的按键复位方式，可以很方便的对系统板进行在线调试。 3 2 2 电源电路由于本系统中d s p 芯片内核电压与外围供电电压不同，内核电压为1 s v ，外部供电电压为3 3 v ，为同时满足两种不同电压同时供电，本系统采用 t p s 7 6 7 d 3 1 8 电源芯片供电，为系统板分别提供3 3 v 和1 8 v 的电压。为方便调试，系统板上留有电源插座，可由通用的5 v 电源适配器供电，但要注意电压极性是里正外负的那种。喜；毛上2 上3 螂 if ! 韦韦 5v葛ju 4t p s 7 f d 3 1 $ 毫3 堑 l 幢一描 4 c p l 2盈 l d5 v52 4i 8 r r i l 3 土i r f o w z r o i l 一j 1 7j 62 31i f i i i c p - 57：2 2t s o a l 2m 出， 8 一2 1 1 0 0 k “离毫 92 0 i o d l l d 卵l l 一塑皇堕c p l 3 1 i 】 1 2 1 6 1 1 3 对i i i | | - 1 l c 凫1 3 一 l ! 兰 r _ = 图3 4 系统电源电路图 t p s 7 6 7 d 3 1 8 是1 i 公司的一款应用于双输出电压的电源芯片，输出电流范围从o 毫安到1 安，3 3 v 2 5 v 3 3 v 1 8 v , 和3 3 v 自适应输出，快速的瞬态响应，武汉理：【大学硕七学位论文 2 容忍过载和温度，双开漏电复位的2 0 0 m s 延迟，2 8 引脚t s s o p 封装。根据系统要求绘制的电路图如图3 4 所示。 3 2 3 语音信号采集电路语音信号采集电路是语音识别系统中的核心部分，其作用是将语音信号采集提供给d s p , 为d s p 处理语音信号做好准备。 1 ) t l v 3 2 0 a i c 2 3 相关介绍 t l v 3 2 0 a i c 2 3 是t i 公司推出的一款高性能立体声音频编解码器【l9 1 ，内部含有耳机输出放大器，可以选择l i n ei n 和m i e 等不同输入方式。该器件中数模转换器和模数转换器都集成在芯片内部，可在8 k h z 至9 6 k h z 的采样率下提供1 6 b i t 到3 2 b i t 四种不同的采样数据。同时，t l v 3 2 0 a i c 2 3 还具有很低的功耗，回放模式为2 3 m w ，节电模式仅为1 5 1 x w 。因此，t l v 3 2 0 a i c 2 3 是一款实用性非常高的音频编解码器。 t l v 3 2 0 a i c 2 3 通过外部处理器对其内部寄存器进行编程配置，其配置接口支持s p i 总线接口和1 2 c 总线接口。数据传输格式支持右判断模式、左判断模式、 1 2 c 模式和d s p 模式4 种方式。其中d s p 模式专门针对t i 的d s p 设计。c 5 4 0 2 的多通道缓冲串口m c b s p 可以按照s p i 总线接口模式配置，该模式下其串行数据传输格式与a i c 2 3 的d s p 模式下的格式兼容，此外，这两款芯片的i 0 电压兼容，从而使得二者可以无缝连接，中间也无需进行电压转换，二者的连接也非常的简单方便。 2 ) t l v 3 2 0 a i c 2 3 外围电路设计 v c 5 4 0 2 具有2 个多通道缓冲串口m c b s p , 且pm c b s p 0 和m c b s p l ，且2 个 m c b s p 口可以设置成不同的工作方式，m c b s p 0 配置为1 2 c 模式和m c b s p l 配置成s p i 模式【2 0 1 。多通道缓冲串口m c b s p 通过5 个引脚使其数据通路、控制通路与外部设备相连。数据通过m c b s p 的b d r l 和b d x l 引脚传输，同步信号则由b c l k x l ，b f s x l ，b f s r l 等3 个引脚实现。v c 5 4 0 2 的多通道缓冲串1 3 m c b s p 0 配置为1 2 c 总线接口，在主控程序初始化时负责对其内部寄存器进行配置。m c b s p l 配置成s p i 总线接口，其串行数据传输格式与a i c 2 3 的d s p 模式兼容【2 l 】，在v c 5 4 0 2 与a i c 2 3 的接口设计中，m c b s p l 以s p i 接口方式与a i c 2 3 的控制接口相连，a i c 2 3 中采集的数据通过s p i 模式输送到d s p 芯片处理。a i c 2 3 的外围电路如图3 5 所示。 1 4 武汉理- t 大学硕十学位论文图3 5a i c 2 3 外围电路原理图为了降低数字信号和模拟信号间的相互干扰，减少数字部分电源和地上的噪声会对其它信号，特别是模拟信号通过传导途径有干扰，故将模拟地与数字地分开【勿。可以用磁珠，电容，电感或者o 欧姆这四种元件连接。0 欧电阻相当于很窄的电流通路，能够有效地限制环路电流，使噪声得到抑制。电阻在所有频带上都有衰减作用，因此选择使用0 欧姆连接，连接图3 6 如所示。卜刍图3 6 数字地与模拟地连接图为达到比较好的语音输入效果，可以直接在系统板上设计的小型麦克风直接输入，如果条件允许，也可以通过j 6 外接话筒，有效的减少外界噪音干扰，提高语音输入效果。输入电路如图3 7 所示。勺撒图3 7 a i c 2 3 输入电路

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（控制科学与工程专业论文）基于dsp的语音处理及识别算法研究.pdf

文档简介

温馨提示

最新文档

评论

（控制科学与工程专业论文）基于dsp的语音处理及识别算法研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档