已阅读5页,还剩48页未读, 继续免费阅读
(控制科学与工程专业论文)基于dsp的语音处理及识别算法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
武汉理1 :大学硕士学位论文 摘要 当今社会已经进入高速信息化时代,传统的信息储存与传播已经满足不了 人们的同常生活需求。为了使生活更加快捷、方便,人们渴望通过说话就可以 解决一些事务,如语音拨号、语音门禁系统、语音输入等。同时,随着数字信 号处理器和语音识别算法的发展,使得对语音识别成为现实,语音识别将会应 用于更加广泛的范围。因此,语音识别系统具有非常高的研究与实用价值。 本文研究一个基于d s p 的特定人、孤立词、小词汇量的语音识别系统,详 细介绍了识别系统的硬件设计过程,分析和改进了语音识别算法,并给出了语 音识别仿真结果。 本文首先简单介绍语音信号基础理论知识和相关声学原理,并从语音信号 预处理、特征提取、训练以及匹配这四个方面对语音识别的基本问题进行了探 讨。接着,着重研究了基于d s p 的语音识别系统的硬件设计。整个系统以 t m s 3 2 0 v c 5 4 0 2 作为硬件核心,外围电路包括语音信号采集模块t l v 3 2 0 a i c 2 3 、 电源电路、l c d 显示、存储器扩展、j t a g 接口电路,最后给出系统硬件相关的 驱动程序设计。在软件方面,本文系统讨论了基于d s p 的语音识别系统的软件 设计,为提高识别率,系统采用双门限比较法进行端点检测,特征向量选用2 4 维美尔频率参数( m f c c ) ,采用动态时间规整( d t w ) 识别高效算法进行语音 模型的训练和识别。 最后,在p c 机上m a t l a b 2 0 0 6 中实现语音识别d t w 算法仿真设计,介绍仿 真环境并分析仿真结果。 关键词:t m s 3 2 0 v c 5 4 0 2 ;语音识别;m f c c , d t w 武汉理t 人学硕士学位论文 a bs t r a c t t o d a y , w i t ht h er a p i dd e v e l o p m e n to fc o m p u t e rt e c h n o l o g y , s o c i e t yh a se n t e r e d t h eh i 曲一s p e e di n f o r m a t i o na g e ,t r a d i t i o n a li n f o r m a t i o ns t o r a g ea n dd i s s e m i n a t i o no f p e o p l e sd a i l yl i v e sh a v eb e e nu n a b l et om e e td e m a n d t om a k el i f ef a s t e ra n dm o r e c o n v e n i e n t ,p e o p l ee a g e rt os p e a kc a nb er e s o l v e dt h r o u g han u m b e ro fm a t t e r s ,s u c h a sv o i c ed i a l i n g , v o i c ea c c e s ss y s t e m s ,v o i c ei n p u ta n ds oo n m e a n w h i l e , w i t ht h e d i g i t a ls i g n a lp r o c e s s o ra n dv o i c er e c o g n i t i o na l g o r i t h md e v e l o p m e n t ,a n dm a k e s s p e e c hr e c o g n i t i o nar e a l i t y , s p e e c hr e c o g n i t i o nw i l lb ea p p l i e dt oab r o a d e rr a n g e t h e r e f o r e ,t h es p e e c hr e c o g n i t i o ns y s t e mh a sav e r yh i g hr e s e a r c ha n dp r a c t i c a lv a l u e i nt h i sp a p e r , ad s p - - b a s e dh u m a n - s p e c i f i cs m a l l v o c a b u l a r yi s o l a t e dw o r d s p e e c hr e c o g n i t i o ns y s t e m ,r e c o g n i t i o ns y s t e md e s c r i b e di n d e t a i lt h eh a r d w a r e d e s i g np r o c e s s ,a n a l y s i sa n di m p r o v e m e n to fs p e e c hr e c o g n i t i o na l g o r i t h m s ,a n d s i m u l a t i o nr e s u l t sa r eg i v e nv o i c er e c o g n i t i o n f i r s t l y ,ab r i e fs p e e c hs i g n a lb a s i ct h e o r yo fk n o w l e d g ea n dr e l e v a n ta c o u s t i c p r i n c i p l e s ,f o u ra s p e c t so fs p e e c hr e c o g n i t i o no ft h eb a s i ci s s u e sf r o mt h es p e e c h s i g n a lp r e p r o c e s s i n g ,f e a t u r ee x t r a c t i o n ,t r a i n i n ga n dm a t c ht h e s ea r ed i s c u s s e d t h e n , f o c u so nr e s e a r c ha n dd e s i g no fd s p - b a s e ds p e e c hr e c o g n i t i o ns y s t e mh a r d w a r e d e s i g n t m s 3 2 0 v c 5 4 0 2a sah a r d w a r ec o r eo ft h ee n t i r es y s t e m ,p e r i p h e r a lc i r c u i t s , i n c l u d i n gv o i c es i g n a la c q u i s i t i o nm o d u l et l v 3 2 0 a i c 2 3 ,p o w e rc i r c u i t ,l c dd i s p l a y , m e m o r ye x p a n s i o n ,j t a gi n t e r f a c ec i r c u i t t h ed r i v e rr e l a t e ds y s t e mh a r d w a r ei s g i v e n s y s t e md i s c u s s e ds p e e c hr e c o g n i t i o ns y s t e mb a s e do nd s ps o f t w a r ed e s i g n , s y s t e mt h r e s h o l dc o m p a r i s o nm e t h o dw i t he n d p o i n td e t e c t i o n ,f o c u so nt h e 2 4 - d i m e n s i o n a lm e lf r e q u e n c yp a r a m e t e r s ( m f c c ) a n dd y n a m i ct i m ew a r p i n g ( d t w ) i d e n t i f i c a t i o no fe f f i c i e n ta l g o r i t h m s f i n a l l y , o nt h em a t l a b 2 0 0 6o fp c ,d t ws p e e c hr e c o g n i t i o na l g o r i t h ms i m u l a t i o n d e s i g n h a sb e e ng i v e n ,t h e nd e s c r i b e sa n da n a l i z e ss i m u l a t i o ne n v i r o n m e n ta n d s i m u l a t i o nr e s u l t s k e yw o r d s :t m s 3 2 0 v c 5 4 0 2 ;s p e e c hr e c o g n i t i o n ;m f c c ;d t w 玎 独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其它教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。 签名: 学位论文使用授权书 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即:学校有 权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅 和借阅。本人授权武汉理工大学可以将本学位论文的全部内容编入有关数据库 进行检索,可以采用影印、缩印或其他复制手段保存或汇编本学位论文。同时 授权经武汉理工大学认可的国家有关机构或论文数据库使用或收录本学位论 文,并向社会公众提供信息服务。 ( 保密的论文在解密后应遵守此规定) 研究生。:磅k 譬新。签名 ( 注:此页内容装订在论文扉页) 醐协口( ! 订 武汉理_ 1 j 大学硕十学位论文 1 1 研究目的与意义 第1 章绪论 语音信号处理技术作为目前发展最为迅速的一个信息科学研究领域,其研 究范围涉及一些比较前沿的科研课题,所得研究成果也具有同样重要的研究与 应用价值。近年来,随着数字信号处理【l 】与语音识别算法【2 1 不断发展,许多过去 语音处理算法仿真和研究中出现的难题都基本得到解决。不管要求多么复杂,语 音信号处理系统都可以集成在一块数字信号处理器( d s p ,d i g i t a ls i g n a l p r o c e s s i n g ) 芯片上,处理速度也随着d s p 运算速度提升而飞速增长,因此语音 信号处理技术应用越来越广泛,也越来越为人们所关注。 语音信号处理研究范围包含了许多学科,如语音学、语言学、数字信号处 理、电子通信、计算机技术、模式识别等【3 1 。因此,研究语音识别系统除了加强 语音识别系统本身的学习外,还需要了解很多其他方面的知识,一个好的语音 识别系统应当考虑到输入设备、说话人的状态、说话环境、硬件平台、识别算 法等多方面的因素。 在实际应用中,语音识别应用范围非常广泛,各行各业都可以见到语音识 别系统,例如通讯系统语音拨号、语音识别昕写器、银行查询系统、家庭智能 玩具、酒店服务、股票证券交易、汽车导航设备、工业控制、翻译系统等等。 随着社会发展,语音识别系统的实用性越来越广,人们对语音识别系统的需求 也越来越高,未来语音识别系统发展趋势是终端体积越来越小,操作越来越简 单,嵌入式复杂度越来越高,而此时,语音识别系统可作为语音输入和语音控 制,是一个十分理想的人机界面。 本文设计一个基于d s p 的特定人、孤立词和小词汇量语音识别系统。该系 统以d s p 硬件平台作为载体,以动态时间规整( d t w ,d y n a m i ct i m ew a r p i n g ) 高效算法作为语音识别核心算法,实现特定人、孤立词和小词汇量语音识别, 可以实际应用到门禁系统中身份识别、语音拨号、号码查询等方面。 武汉理t 大学硕士学位论文 1 2 国内外研究现状 语音识别系统最开始出现的是1 9 5 2 年b e l l 实验室开发的a u d r y 系统【4 】,该 系统结构简洁,功能简单,只可识别1 0 个英文数字,紧接着1 9 5 6 年普林斯顿 大学r c a 实验室开发的单音节识别系统面世,该系统的复杂度要高于a u a r y 系 统。早期的识别系统的运算关系基本上都是采用模拟电路来实现。 6 0 年代末7 0 年代初,语音识别技术真正取得实质性进展,已经成为一个重要 的课题并开展研究。一方面,计算机技术的发展为语音识别的发展提供了硬件 和软件的支持,使早期不能达到的硬件条件得到了实现;另一方面,在语音信 号算法上提出了线性预测编码( l p c ,l i n e a rp r e d i c t i o nc o d i n g ) 技术和动态时间 规整技术,这两种技术分别有效的解决了特征提取和发音长短不等的匹配问题, 实现了语音识别算法的突破。此时的语音识别是基于模板匹配原理,其主要研究 领域为孤立词、特定人、小词汇量的识别,而基于线性预测倒谱和d t w 技术的 语音识别系统技术也走向成熟的同时进一步的提出了矢量量化( v q ,v e c t o r q u a n t i z a t i o n ) 和隐马尔可夫模型( h m m ,h i d d e nm a r k o vm o d e l s ) 等理论。 7 0 年代末期,语音识别的应用范围逐渐扩大,孤立词、小词汇表、特定人 等约束条件已经限制了语音识别技术的发展,为打破这些条件的约束,人们又 要解决一些新的问题。比如:连续语音中各发音单位受上下语音影响;扩大词 汇表又使得在选区建立模板时很困难;不同人说话时声学特征有很大的差异, 在不同的时间、环境等因素影响下,就算说同样的内容也会有很大的差异;语 音中如果存在干扰或噪音,则原有的模板匹配方式也会受很大影响。此阶段出 现的比较有代表性有c a r n e g i e m e l l n 大学( c m u ,c a r n e g i em e l l o nu n i v e r s i t y ) 的h e a r s a y - i i 和i b m 的自动听写系统。 8 0 年代,实验室语音识别研究取得巨大进展,大词汇量、连续语音和非特 定人已成为科学家的研究重点,h m m 模型为大词汇量连续语音识别提供的基础 技术。最典型的是卡耐基梅隆大学开发的s p h i n x 系统,将这三个特性都集中到 该系统中,该系统的识别高达9 5 8 。 9 0 年代,语音识别的研究进一步深入,h m m 模型和a n n 模型分别在语音 识别中应用成功。技术方面,语音信号特征提取和优化、语言模型建立和算法 技术越来越成熟,一些较成功复杂度较高的语音识别系统也相继面世,如 m i c r o s o f t 的w h i s p e r 、i b m 的v i a v o i c e 系列和c m u 的s p h i n x i i 等。 我国语音识别研究始于五十年代,这些年进展较大,技术水平也从实验室 2 武汉理工大学硕士学位论文 研究逐步走向实用。1 9 8 7 年,国家专门设立8 6 3 专家组,约定每一年或者两年 举行一次公开的语音识别系统测试。我国在这方面研究水平已达到国际先进水 平,特别是在汉语识别技术上还有自己的特点与优势。2 0 0 2 年中科院自动化所 及其所属模式科技( p a t t e k ) 公司研究开发“天语 中文语音识别系列产品 p a t t e ka s r 5 1 ,从此,在语音识别领域占有了一席之地。尽管如此,汉语语音识 别系统相关产品在市场上应用并不广泛,还面临着许多问题。 1 3 语音识别面临的问题 1 9 9 7 年,有人提出“语音时代 已经到来,人们也对语音识别的发展前景 充满期待,希望机器能做到像人类一样能“听懂 人的语言,能与人类自然的 沟通。因此,语音识别技术又掀起热潮,许多著名大公司如i b m 、苹果和n t t 等都在语音识别技术领域投入了大量的精力与资金【6 1 。 然而,语音识别的应用研究进度较慢,相关技术没有突破。实际应用中, 语音识别系统的鲁棒性、灵活性和适应能力达不到市场需求,这点从目前市场 很少有成熟的语音识别系统相关产品上可以看出。尽管对这些问题有新的方案 出现,但是在普遍性和实用性方面还存在很多问题,具体来说有以下几个方面【7 】: 1 ) 算法模型方面,一方面,随着硬件资源发展,语音识别相关算法如特征提取 和训练与识别有可能进一步改进。另一方面,语音识别系统鲁棒性较差,对周 边环境依赖性较重,在实际应用中,如何将原始语音从噪音中提取出来,这将 提高语音识别系统的鲁棒性。 2 ) 自适应方面,由于语音识别系统的灵活性差,还不能达到与人类自然对 话,而且在使用前需要对用户进行大量的语音训练,以让语音识别系统能记住 用户的语音特征。汉语中众多的方言、口语;发音人的特征、心里状态;语音 的模糊,同义词大量存在;语句的不规范以及语序的错乱等,这些因素都会降 低语音识别系统的识别率。 3 ) 连续语音方面,相比数字和英文连续识别,汉语的有其独特的特性,如 如何对汉语韵律的利用;需要考虑语言中重音、语调、声母和韵母等因素;各 音节之间相似度极高,不容易区分等。 4 ) 硬件平台方面,目前所研究的语音识别系统大多是基于p c 的,利用计算 机丰富的内部资源和运算速度来完成相应的语音识别。然而,在实际运用中, 使用更广泛的是嵌入式语音识别系统。 武汉理1 :大学硕十学位论文 1 4 论文内容与结构 本文研究的主要内容如下: 首先,详细介绍了语音信号基本理论知识与基本算法,讨论了语音识别各 个步骤算法的优缺点,具体探讨了语音信号的特征提取与训练识别模型的建立。 其次,在硬件平台方面,介绍t m s 3 2 0 v c 5 4 0 2 、t l v 3 2 0 a i c 2 3 等相关芯片 的特性和基本电路,着重设计以d s p 为核心构建的语音识别系统的硬件电路图, 并说明各个模块的电路原理。同时,完成了与语音识别系统相关的硬件驱动程 序并给出了关键代码,对d s p 的硬件平台进行在线调试。 最后,深入研究d t w 模型,详细阐述d t w 的基本算法和高效算法,并对 d t w 算法的流程与应用进行了详细的说明,给出了语音识别系统算法的流程图。 将d t w 高效算法在m a t l a b 2 0 0 6 中仿真,并分析仿真结果。 本文分为六章,具体安排如下: 第一章,概述了本文的研究目的与意义,介绍了语音识别技术的发展状况 以及面临的问题,最后阐述了本文研究的主要内容和结构安排。 第二章,简要介绍了语音识别基础理论知识,说明了识别算法的基本流程 以及各个步骤所采取的方法。 第三章,重点介绍语音识别系统的硬件电路,根据系统要求设计各模块电 路,给出驱动程序设计,在线调试基于d s p 的语音识别硬件平台。 第四章,深入讨论语音识别系统端点检测、特征提取、训练和识别算法, 详细的说明了d t w 算法的流程在系统中实现过程。 第五章,给出并分析语音识别算法在m a t l a b 2 0 0 6 中的仿真结果。 第六章,对全文的工作进行了总结,指出系统不足之处并提出了改进的方 向,进一步完善本系统。 4 武汉理1 :大学硕士学位论文 第2 章语音识别基础理论 语音识别是指利用计算机对人体语音进行自动识别的一门技术,语音识别 总体分为两类:第类是指计算机识别出语音信号表达的内容,即准确地理解 语音含义并将理解的内容表示出来;第二类是指通过语音内容来判断说话人的 身份,即说话人识别技术。本文所研究的是第一类,识别语音内容并做出正确 的表示。 2 1 语音识别系统的类别 语音识别系统按照不同的方式,可以分为几种不同的类别【8 】,其中主要分以 下三种: 1 ) 如果从说话者限定范围来分,通常可以分为3 类:特定人识别系统:只针 对特定用户进行识别的方式;非特定人识别系统:可以针对任何人进行识别,通 常要通过对大量不同人的语音数据库对识别系统进行训练,建立起不同的模型; 多人识别系统:或者可以称为特定组语音识别系统,通常只识别一组人的语音, 该系统只要求对所需要识别的特定组人进行训练。 2 ) 如果从说话者说话的方式来分,通常可以分为3 类:孤立词识别系统:要 求在输入所需识别的语音只含词汇表中的某个独立的词,并且每个词后要需要 停顿一小段时间;连接词识别系统:可以识别一连串的词,但是该连续的词应 当慢速连续的说出;连续识别系统:可以对说话者以正常语速方式说出的连续 词语进行识别。 3 ) 如果从识别系统的词汇量大小来分,通常也可以分为3 类:小词汇量系统: 词汇量不多于1 0 0 ,一般只有几十个词:中等词汇量识别系统:词汇量的范围在 1 0 0 到1 0 0 0 之间;大词汇量识别系统:通常包括词汇量在1 0 0 0 以上的语音识别 系统。词汇表中的词汇量越多,系统的算法就越复杂,实现起来难度就更大, 系统的识别率也会有所下降。 在实际应用中,不同的系统对功能有不同的要求,不同类别的语音识别系统 所采用的算法也会不同,在开发系统的时候可以对这些功能要求进行分类,将 待开发的系统分别归类,以便于查找相关资料,缩短开发周期。 武汉理工大学硕七学位论文 2 2 语音识别系统的基本流程 不同的语音识别系统,虽然在各自细节实现方面有所不同,但所采用的基本 流程相似,如图2 1 所示,包括预处理、特征提取、模型训练和识别几个环节。 语 2 2 1 语音信号预处理 图2 1 语音识别流程图 果 在语音信号处理中,预处理通常包含a d 转换、预加重、加窗、端点检测 等基本步骤。 1 ) 语音信号模数( a d ) 转换 语音信号是随时间和幅度而变化的一维信号,语音信号处理是对语音信号进 行数字处理,所以在对语音信号处理之前需要将语音信号数字化,即进行模数 ( a d ) 转换。一个完整的模数转换必须包含有采样、保持、量化和编程四个基本 过程,一般在运算过程中将采样于保持简化成一步,量化和编程简化成一步。由 奈奎斯特采样定理可知,采样频率要大于或者等于原始信号频率的2 倍,才能在 采样的过程中保持信号的完整性【9 】。本系统采用1 6 位a d 转换芯片t l v 3 2 0 a i c 2 3 , 由于适用于孤立词的识别,因此采样频率为8 k h z 。 2 ) 语音信号的预加重 语音信号在完成a d 转换后可以进行预加重了,由于受声道模型中声门激 励和嘴唇辐射的影响,语音信号的高频端大约在8 0 0 h z 以上会产生衰减,斜率 通常为6 d b 倍频。为了抵消这种现象,使高频信号曲线平滑,在分析语音信号 之前应对原始语音信号进行预加重来滤除低频干扰,采用一个阶滤波器,提 高语音信号的高频成分。 3 ) 语音信号加窗处理 加窗处理其实分为两个步骤:分帧与加窗。在语音信号处理中,由于信号 是一种非平稳的时变信号,但可以认为语音信号在1 0 m s 一- , 3 0 m s 短时段是平稳 6 武汉理工人学硕士学位论文 的,将语音信号划分成一个一个这样的小时段,此为分帧,每一个小时段称为 帧。为了得到语音信号中的样本信号,用时间窗函数去乘原始信号,相应于 频域就是离散信号的频谱与窗函数频谱的卷积,此为加窗。常用的时间窗函数 有矩形窗、汉宁窗和汉明窗,本系统中采用的是汉明窗。 4 1 语音信号端点检测 端点检测,主要用来检测语音识别中样本信号的起点和终点,因此,又被 称为起止点检测。在语音信号处理中,语音信号的数据量非常庞大,如果对全 部语音信号都加以处理,不仅增加系统处理器的负荷,还会影响系统的识别率。 为了将有用的语音信号从系统采集的原始语音信号中提取出来,则就要对采集 的语音信号进行分析,将语音的信号段和噪音段从语音信号中检测区分开来, 从而准确的检测出语音段的起点与终点,去除从语音信号中无声段,极大的减 少了数字信号处理器的运算量和处理时间,提高系统的性能和识别率。 端点检测是语音信号预处理的核心部分,在整个语音识别过程中也处于非 常关键的位置f 1 0 】。一般来说,端点检测位在语音信号处理的最前端,其正确与 否将直接影响到整个语音识别系统的性能,由于语音信号的识别算法的前期数 据是参考端点检测时的结果,所以也将直接影响到识别算法的准确性,从而影 响到整个系统的性能,降低系统的识别率。因此,作为语音信号识别系统的前 端处理,必须确保其优化性与准确性。 端点检测的算法有很多,本系统采用的是基于双门限比较法的端点检测, 即通过语音信号的短时能量检测与过零率检测进行语音信号的端点检测。 2 2 2 语音信号特征参数提取 经过语音预处理中端点检测后,已经将语音信号中清音、噪音区别出来, 这时就可以对所需语音信号进行特征参数提取,在分析语音信号的同时去掉无 用信息,这些信息又比较占空间,最后获得对识别算法有用的重要参数。在提 取过程中,并不是很广泛的提取,毕竟语音识别系统的内存有限,为了减少处 理器的运算量,提高识别率,要求所提取的特征参数能充分代表说话者的语音 特征,与其他的说话者有很好的区分性,各个特征参数之间能相互独立。此外, 为保证语音识别便于实现,所提取的特征参数应该便于计算。 语音信号的特征参数分为两种:时域特征参数,在一帧短时信号中由各个 时域采样而直接组成一个参数矢量,如基音周期、短时平均能量等;频域特征 7 武汉理:l 入学硕士学位论文 参数则是在一帧短时信号经过了些变化后再组成的参数矢量,如m e l 频率倒 谱系数、l p c 倒谱系数、短时频谱等【1 1 1 。 线性预测倒谱系数( l p c c ) 是基于人的发声机理原理,使系统的传递函数 的形式和全极点数字滤波器达到一致,由于语音信号采样点之间具有相关性, 从而现在某个时刻或将来的某个时刻的语音信号的抽样能够用之前的若干语音 抽样的线性组合来估计。得到语音信号的实际采样值和线性预测采样值间的均 方误差( m s e ) ,令m s e 最小可得到线性预测系数( l p c ) ,最后求出线性预测 倒谱系数( l p c c ) 。 美尔频率倒谱系数( m f c c ) 是基于入耳听觉特征,将语音的产生与之相结 合的一种特征参数。该特征参数充分考虑了人耳的听觉特性,接着将频谱转化成基 于m e l 频率的非线性频谱,最后转换到倒谱域上。 线性预测倒谱系数( l p c c ) 参数的优点是计算量小,对元音有较好的描述能 力,其缺点在于对辅音的描述能力较差,抗噪声性能较差。而美尔频率倒谱系数 ( m f c c ) 因为模拟了人的听觉特性,且没有任何前提假设。由于汉语孤立词的识 别过程中对辅音需要有很高的分辨力,同时m f c c 参数具有识别性能和抗噪能力, 所以,在汉语语音识别中m f c c 参数的性能优于l p c c 参数,本文所采用的是美尔 频率倒谱系数( m f c c ) 。 2 2 3 模型训练与识别 语音识别的过程实质上就是模式匹配的过程,在模型训练匹配的过程中, 先从已知模板中获得模型参数,再按照相似度量法则,将未知模式与参考模式 库匹配而获得最佳匹配。目前,比较流行的识别算法主要有动态时间规整 ( d t w ) 、隐马尔可夫模型( h m m ) 以及基于人工神经网络( 龇州) 的识别算 法【1 2 】。 动态时间规整( d t w ) 是较早流行的语音识别算法,它应用动态规整方法, 将时间规整与距离测度计算结合起来,有效的解决了孤立词识别时语速不均所 造成的发音长短不一的难题,是一种经典的非线性时间规整模板匹配算法。由 于动态时间规整( d 刑) 对端点检测的要求较高,而端点检测会因为不同的语 音情况产生不同的变化。因此,在将未知模板与参考模板比较的时候,不能直 接进行比较,而是需要找到最佳匹配点。由于d t w 算法简洁,计算简单,对于 孤立词识别率高,所以,d t w 被广泛运用于孤立词语音识别系统中。 8 武汉理一l :大学硕十学位论文 尽管d t w 应用广泛,但是仍然存在一些不足之处,比如模板运算量大,因 此需要将d t w 进行改进。首先可以改进端点检测算法和d t w 算法中模板匹配 过程中弯折的斜率,可以有效的减少语音识别的时间,降低语音数据的储存量, 提高系统运算效率。 隐马尔可夫模型( h m m ) 是在2 0 世纪8 0 年代初引进的一种算法。它实质 上是一个双重随机过程,即该信号的语音特征由两个彼此关联的随机过程来一 起描述,其中一个是不可观测的有限状态马尔可夫链,另一个是观察矢量的可 观测的随机过程。在h m m 算法中统计了大量的语音数据,然后分别建立起相 应识别条的统计模型,从待识别语音中提取相关特征,通过与语音数据库模型 匹配而得到结果。由于其语音数据库含有大量统计的语音,因此整个统计模型 相当稳定同时也具有较高的识别性与抗噪性能。h m m 算法数据量大,但性能好, 又有强大的语音库支持,因此被广泛运用于连续词的语音识别系统。 人工神经网络( a n n ) 是2 0 世纪8 0 年代后期发展的一种新型算法,是现 在语音识别应用中的研究的一个新方向。a n n 实质上是一个大规模的自适应非 线性动力学系统,运用大量处理单元来模拟人类神经元活动,最后将处理单位 连接成一种信息处理系统。该信息处理系统既具有连续时间非线性动力学,较 高的稳定性和较强的自学联想能力,又具有相互吸引性、广泛联接性与自适应 性等特征。但在语音识别模式匹配中,a n n 在反映语音动态特征存在较大的缺 点,从而导致a n n 很少能够单独的应用在语音识别当中,现阶段,多是将a n n 与h m m 算法配合使用【l 3 1 。 2 3 本章小结 本章介绍了现代语音识别系统的分类与信号处理技术,语音识别的基本步 骤包括语音信号模数( a d ) 转换、语音信号的预加重、语音信号加窗处理、语 音信号端点检测、语音信号特征参数提取以及语音识别模型训练与识别等方面 的知识。通过本章的介绍,对语音识别系统有个初步的、系统的认识,为后面 详细讨论与深入研究语音识别系统设计打下基础。 9 武汉理- 火学硕士学位论文 第3 章语音识别系统硬件电路设计 通常在语音识别系统中,编程软件基本使用c 语言和汇编语言相结合的编 程方法,硬件电路则会根据系统的具体性能要求、实现功能、投入成本的不同 会采取不同的方案来实现。一般来说,基于单片机的语音识别系统价格便宜, 但是功能性不强,实用性不高;基于p c 的语音识别系统体积过大,使用不方便; 而基于d s p 的语音识别系统实用性强、稳定性高、片内资源丰富、易于移植, 是一种比较理想的实现语音识别的硬件平刽1 4 】。 3 1 方案论证 一个高性能的语音识别系统,首先要保证实用、可靠和稳定,另外系统成 本也在考虑的范围内。经过查阅语音识别相关资料,综合本系统的功能要求, 主要有以下三种方案: 1 ) 方案一【1 5 】:s p c e 0 6 1 a + f l a s h s p c e 0 61 a 单片机 按键设置 。- 。_ 。_ 。 时钟电路1 0 位a d c l定时器 c p u 2 m b f i a s h 存储器 m - c 输入卜 2 k s r a m 双通道 1 0 位d a c 语音输出 3 2 k 字f l a s h 图3 1 方案一原理图 s p c e 0 6 1 a 是凌阳科技最新推出的高性能1 6 位单片机,该系统的优点是电 压低、工作频率高,能够快速处理数字信号,片内集成麦克风输入和双通道1 0 位d a c 音频输出,是单片机中最适合用作语音识别的芯片。 该系统结构简单,功能齐全,而且具有很丰富的语音处理函数库,系统开 l o 武汉理工人学硕士学位论文 发简便,开发周期短,实用性较高。选用s p c e 0 6 1 a 作为语音识别系统核心处 理器,处理器的运算速度不能得到升级,系统扩展能力不强,比较适合应用于 运算量较小的语语音识别系统,对于运算量较大或者对后期扩展有很高要求的 系统则不适用。 2 ) 方案二【1 6 1 :a r m s 3 c 2 4 1 0 + u d a l 3 4 1 t s 图3 2 方案二原理图 $ 3 c 2 4 1 0 是三星公司开发的基于a r m 9 的处理器,片内集成,2 s 控制器, 配以最新l i n u x 2 6 内核的操作系统作为软件平台。u d a l 3 4 1 t s 是p h i l i p s 公司 提供的,2 s 编解码芯片,价格便宜,高频达4 8 k h z ,3 线控制,是较常用的全双 工音频芯片。 本系统接口灵活,l i n u x 系统更是可以根据硬件需求制定内核,使系统显 得更加精简,最小的l i n u x 系统可达到1 5 0 k b ,适合应用于内部资源有限的嵌 入式系统。 3 ) 方案三【1 7 l :t m s 3 2 0 v c 5 4 0 2 + t 【3 2 0 a i c 2 3 + f l a s h + r a m 武汉理丁大学硕士学位论文 圃 t l v 3 2 0 a i c 2 3 t m s 3 2 0 v c 5 4 0 2i r 图3 3 方案三原理图 选用t i 公司的c 5 0 0 0 系列d s p 作为核心处理器,t l v 3 2 0 a i c 2 3 为语音信 号采集模块,片外扩展f l a s h 和r a m 存储器,l c d 作显示电路,整个系统性 能可靠,价格便宜,实用性高,符合本系统的要求。但d s p 既要配置与编解码 芯片a i c 2 3 ,又要处理语音信号,还要支持l c d 显示,如在后期算法和识别程 序上不加以精简和升级,则会导致d s p 负荷过高,影响系统的运算速度,从而 拖累整个语音识别系统的运算效率和降低系统的性能。 综上所述,考虑到系统的实用性、稳定性、可靠性、投入成本以及后期的 优化升级,本文采用第三种方案。 3 2 系统硬件原理图设计 根据第三种方案,系统的硬件电路图包括:d s p 核心电路、电源电路、语音 信号采集电路、l c d 液晶显示电路、j t a g 电路和存储器电路,具体分析如下: 3 2 1d s p 核心电路 t m s 3 2 0 v c 5 4 0 2 ( 简称v c 5 4 0 2 ) ,是德州仪器公司推出的具有的为实现低 功耗,高性能而专门设计的定点数字信号处理器,v c 5 4 0 2 的主要特性【1 8 】如下: ( 1 ) 哈佛结构,流水线操作,指令周期为i n s ,操作速率可达1 0 0 m i p s 。总 线结构包含8 条1 6 b i t 的总线,其中1 条程序总线,3 条数据总线和4 条地址总 线,具有很好的并行性。功耗较低,片内i o 电压3 3 v ,内核电压1 8 v 。 ( 2 ) c p u 结构包括:4 0 b i t 算术逻辑单元( a l u ) ,包括4 0 位桶形移位寄 1 2 武汉理:l = 人学硕士学位论文 存器,2 个独立的4 0 位累加器;2 个4 0 b i t 的累加器,分为保护位,高位字,低 位字;1 7 x 1 7 位乘法器,4 0 位加法器:比较选择和存储单元,数据地址产生器, 程序地址产生器。 ( 3 ) 丰富的片内外设:通用i o 引脚x f 和b i o :硬件定时器;软件可编 程等待状态产生器;可编程块开关模块;增强型并行主机接i e ( h p l 8 1 6 ) ;两个 多通道缓冲串口( m c b s p ) ;带锁相环p l l 的时钟发生器;d m a 控制器; i e e e l l 4 9 1 标准j t a g 接口。 了解v c 5 4 0 2 的相关特性后便可进行d s p 核心电路设计,由第三种方案可以 知道系统板所包含的各个模块,d s p 核心电路则设计与这些模块的接口。其中要 注意v c 5 4 0 2 可以运行在微处理器或者微控制器两种模式,这两种不同的模式决 定v c 5 4 0 2 的工作方式,通过m p # m c 管脚的电平来的控制的。复位电路采用常 见的按键复位方式,可以很方便的对系统板进行在线调试。 3 2 2 电源电路 由于本系统中d s p 芯片内核电压与外围供电电压不同,内核电压为1 s v , 外部供电电压为3 3 v ,为同时满足两种不同电压同时供电,本系统采用 t p s 7 6 7 d 3 1 8 电源芯片供电,为系统板分别提供3 3 v 和1 8 v 的电压。为方便调 试,系统板上留有电源插座,可由通用的5 v 电源适配器供电,但要注意电压极 性是里正外负的那种。 喜;毛上2 上3 螂 if ! 韦韦 5v葛ju 4t p s 7 f d 3 1 $ 毫3 堑 l 幢一 描 4 c p l 2盈 l d5 v52 4i 8 r r i l 3 土i r f o w z r o i l 一j 1 7j 62 31i f i i i c p - 57:2 2t s o a l 2m 出, 8 一2 1 1 0 0 k “离 毫 92 0 i o d l l d 卵l l 一塑皇堕c p l 3 1 i 】 1 2 1 6 1 1 3 对i i i | | - 1 l c 凫1 3 一 l ! 兰 r _ = 图3 4 系统电源电路图 t p s 7 6 7 d 3 1 8 是1 i 公司的一款应用于双输出电压的电源芯片,输出电流范 围从o 毫安到1 安,3 3 v 2 5 v 3 3 v 1 8 v , 和3 3 v 自适应输出,快速的瞬态响应, 武汉理:【大学硕七学位论文 2 容忍过载和温度,双开漏电复位的2 0 0 m s 延迟,2 8 引脚t s s o p 封装。 根据系统要求绘制的电路图如图3 4 所示。 3 2 3 语音信号采集电路 语音信号采集电路是语音识别系统中的核心部分,其作用是将语音信号采 集提供给d s p , 为d s p 处理语音信号做好准备。 1 ) t l v 3 2 0 a i c 2 3 相关介绍 t l v 3 2 0 a i c 2 3 是t i 公司推出的一款高性能立体声音频编解码器【l9 1 ,内部 含有耳机输出放大器,可以选择l i n ei n 和m i e 等不同输入方式。该器件中数 模转换器和模数转换器都集成在芯片内部,可在8 k h z 至9 6 k h z 的采样率下 提供1 6 b i t 到3 2 b i t 四种不同的采样数据。同时,t l v 3 2 0 a i c 2 3 还具有很低的功 耗,回放模式为2 3 m w ,节电模式仅为1 5 1 x w 。因此,t l v 3 2 0 a i c 2 3 是一款实用 性非常高的音频编解码器。 t l v 3 2 0 a i c 2 3 通过外部处理器对其内部寄存器进行编程配置,其配置接口 支持s p i 总线接口和1 2 c 总线接口。数据传输格式支持右判断模式、左判断模式、 1 2 c 模式和d s p 模式4 种方式。其中d s p 模式专门针对t i 的d s p 设计。c 5 4 0 2 的多通道缓冲串口m c b s p 可以按照s p i 总线接口模式配置,该模式下其串行数 据传输格式与a i c 2 3 的d s p 模式下的格式兼容,此外,这两款芯片的i 0 电压 兼容,从而使得二者可以无缝连接,中间也无需进行电压转换,二者的连接也非 常的简单方便。 2 ) t l v 3 2 0 a i c 2 3 外围电路设计 v c 5 4 0 2 具有2 个多通道缓冲串口m c b s p , 且pm c b s p 0 和m c b s p l ,且2 个 m c b s p 口可以设置成不同的工作方式,m c b s p 0 配置为1 2 c 模式和m c b s p l 配 置成s p i 模式【2 0 1 。多通道缓冲串口m c b s p 通过5 个引脚使其数据通路、控制 通路与外部设备相连。数据通过m c b s p 的b d r l 和b d x l 引脚传输,同步信 号则由b c l k x l ,b f s x l ,b f s r l 等3 个引脚实现。v c 5 4 0 2 的多通道缓冲串1 3 m c b s p 0 配置为1 2 c 总线接口,在主控程序初始化时负责对其内部寄存器进行配 置。m c b s p l 配置成s p i 总线接口,其串行数据传输格式与a i c 2 3 的d s p 模式 兼容【2 l 】,在v c 5 4 0 2 与a i c 2 3 的接口设计中,m c b s p l 以s p i 接口方式与a i c 2 3 的控制接口相连,a i c 2 3 中采集的数据通过s p i 模式输送到d s p 芯片处理。a i c 2 3 的外围电路如图3 5 所示。 1 4 武汉理- t 大学硕十学位论文 图3 5a i c 2 3 外围电路原理图 为了降低数字信号和模拟信号间的相互干扰,减少数字部分电源和地上的 噪声会对其它信号,特别是模拟信号通过传导途径有干扰,故将模拟地与数字 地分开【勿。可以用磁珠,电容,电感或者o 欧姆这四种元件连接。0 欧电阻相 当于很窄的电流通路,能够有效地限制环路电流,使噪声得到抑制。电阻在所 有频带上都有衰减作用,因此选择使用0 欧姆连接,连接图3 6 如所示。 卜 刍 图3 6 数字地与模拟地连接图 为达到比较好的语音输入效果,可以直接在系统板上设计的小型麦克风直 接输入,如果条件允许,也可以通过j 6 外接话筒,有效的减少外界噪音干扰, 提高语音输入效果。输入电路如图3 7 所示。 勺撒 图3 7 a i c 2 3 输入电路
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年司钻(井下)考试题及答案
- 深度学习算法实践应用案例介绍
- 2025年市场营销学课程测试题及答案
- 2025新脑血管病学核心题库题目及答案
- 2026年人工智能算法培训服务协议
- 医药产品运输合同
- 2026农业智慧灌溉系统行业市场现状供需分析及投资评估规划分析研究报告
- 2026中国黑色金属期货市场发展前景及交易策略与风险管理报告
- 2026中国细胞治疗产品审批流程优化与支付体系构建研究报告
- 2025中考时事政治必考题和答案
- 《居家安宁疗护服务规范(征求意见稿)》编制说明
- 高中化学与生物跨学科融合:化学键视角下的营养素相互作用教学设计
- 浙江省省杭州市上城区建兰中学2026届中考数学四模试卷含解析
- 乌鲁木齐地区房屋建筑与市政工程施工图文件审查常见问题汇编2025版(勘察专业)
- 青海青江实业集团有限公司招聘笔试题库2026
- 2026贵州黔晟投资有限公司第一批社会招聘8人备考题库附答案详解(完整版)
- 感染质控中心工作制度
- (完整版)2026年党建基础知识应知应会试题及答案
- 农业行政处罚程序和文书制作课件
- 输电线路改造工程验收交底
- 气动冲床设备日常点检标准作业指导书
评论
0/150
提交评论