




已阅读5页,还剩57页未读, 继续免费阅读
(电路与系统专业论文)基于语音识别技术的智能地球仪系统设计.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要中又捅要 摘要:现代语音识别技术与嵌入式技术相结合,使语音控制成为设备可选用的控 制方法之一。许多大型公司和研究机构也设计出一批性能优越、可靠性高的语音 识别芯片,它们被广泛应用于消费类电子如:家电、智能玩具、手机、游戏机等, 在工业控制领域也被用来实现远程控制等。在未来物联网领域,语音识别技术必 将成为广泛采用的技术。可以预测,语音识别技术在现代电子领域的应用会更广 泛。 本文在对现代语音识别技术进行深入研究的基础上,结合嵌入式技术实现对 地球仪的智能控制,完成基于识别技术的智能地球仪系统的设计。论文主要工作 内容包括以下几个方面: 1 研究了语音识别技术的发展历史和研究现状,根据当前语音识别系统的研 究情况,提出了基于语音识别芯片l d 3 3 2 0 的能够实现非特定人语音识别的系统设 计方案。 2 设计了语音识别部分,实现对语音( 普通话) 的有效识别,在实验测试中, 系统有较高的识别准确度。设计的地球仪控制模块,以单片机为控制核心,实现 通过电机对地球仪转动的稳定控制。 3 将各个模块组成一个完整系统,并通过调试提高系统运行的稳定性。系统 设计完成后,对于系统性能有待提高的部分提出一些可行的解决方案,同时提出 一些可以扩展的系统功能。 实验调试结果表明,基于语音识别的智能地球仪系统实现了对非特定人语音 的有效识别,识别后能够控制地球仪转动至目标国家。设计中多采用可靠成熟的 芯片器件,通过合理的设计,保证了系统运行的稳定。系统可以在扩展系统功能、 提高系统稳定性、降低背景声音干扰等方面进行进一步的研究。 本文包括图2 7 幅,表2 个,参考文献3 1 篇。 关键词:语音识别;单片机;地球仪;非特定人 分类号:t n 9 1 2 3 4 a bs t r a c t a b s t r a c t :w i t ht h e d e v e l o p m e n to ft h es p e e c hr e c o g n i t i o nt e c h n o l o g y a n d e m b e d d e dt e c h n o l o g y , t h es p e e c hr e c o g n i t i o ni sc h o s et ob eo n eo ft h ec o n t r o lm e t h o d s o fe q u i p m e n t m a n yl a g e rc o m p a n i e sa n dr e s e a r c hi n s t i t u t i o n sh a v ed e s i g n e dah u g e n u m b e ro fv o i c er e c o g n i t i o nc h i p sw i t hs u p e r i o rp e r f o r m a n c ea n dh i g hr e l i a b i l i t y t h e s e c h i p sa r eu s e di nc o n s u m e re l e c t r o n i c s ,f o re x a m p l e ,h o u s e h o l da p p l i a n c e s ,i n t e l l i g e n t t o y s ,m o b i l ep h o n e s ,g a m ec o n s o l e s ,e t c i nt h ef u t u r e ,t h es p e e c hr e c o g n i t i o n t e c h n o l o g ym u s tb ew i d e l yu s e di nt h ef i e l do f t h ei n t e m e to ft h i n g s p r e d i c t a b l e ,s p e e c h r e c o g n i t i o nt e c h n o l o g yw i l lb em o r ee x t e n s i v ei nt h ea p p l i c a t i o no fm o d e m e l e c t r o n i c s i nt h i sp a p e r , if i n i s h e dt h ed e s i g no ft h ei n t e l l i g e n t g l o b eb a s e d o n s p e e c h r e c o g n i t i o nt e c h n o l o g y t h i sp a p e ri n c l u d e st h ef o l l o w i n ga s p e c t s : f i r s t ,a f t e rd o i n gr e s e a r c ha n da n a l y s i sa b o u t t h eh i s t o r ya n dt h ep r e s e n ts i t u a t i o no f t h es p e e c hr e c o g n i t i o nt e c h n o l o g y , an e ws y s t e md e s i g no ft h es p e e c hr e c o g n i t i o nw a s d e f i n i t ew h i c hc o u l da c h i e v et h er e c o g n i t i o no f n o n s p e c i f i cs p e e c h s e c o n d ,id e s i g n e dt h es p e e c hr e c o g n i t i o np a r t t h ef u n c t i o no ft h i sp a r ti sd o i n gt h e r e c o g n i t i o no fs p e e c h i nt h ee x p e r i m e n t a lt e s t ,t h ea c c u r a c yo ft h i ss y s t e mi s s a t i s f a c t o r y a n dt h eg l o b e c o n t r o lp a r tw a sd e s i g n e d i nt h i sp a r t ,t h em i c r o c o n t r o l l e ri s t h em o s ti m p o r t a n tc o m p o n e n t t h et u r no ft h eg l o b ei sc o n t r o l l e db yt h em c u a tl a s t ,t h e s em o d u l e sa r ec o n n e c t e dt ob eaw h o l et h i n g t h e nid i ds o m e d e b u g g i n gt om a k es u r et h i ss y s t e mw o r kw e l l a f t e rc o m p l e t i n gt h es y s t e m ,s o m e p o s s i b l es o l u t i o n so fi m p r o v i n gt h es y s t e mp e r f o r m a n c ew e r ep r o p o s e d a n dig a v e s o m es u g g e s to fe x t e n d i n gt h es y s t e mf u n c t i o n t h er e s u l to ft h ee x p e r i m e n ts h o w e dt h a tt h ei n t e l l i g e n tg l o b eb a s e do ns p e e c h r e c o g n i t i o nt e c h n o l o g ya c h i e v e dt h ef u n c t i o no fr e c o g n i t i o no ft h en o n s p e c i f i ch u m a n s p e e c ha n dc o n t r o l l i n gt h eg l o b et ot u r nt ot h et a r g e tp o s i t i o n i nt h i sd e s i g n ,m o s tc h i p a n dd e v i c e sc h o s ea r et h o s et h a th a v eb e e n p r o v e dt ob em a t u r ea n dr e l i a b l e t h ed e s i g n i ss t a b l ea n de f f i c i e n t m o r er e s e a r c hc o u l db ed o n ei nu p g r a d i n ga n di m p r o v i n gt h i s s y s t e m ,i n c l u d e s :e x p a n s i o no ft h e i d e n t i f i e de n t r i e s ,r e d u c i n gt h ea f f e c t i o no ft h e b a c k g r o u n dn o i s e ,i m p r o v i n gs t a b i l i t y ,e x p a n s i o nt h es y s t e mf u n c t i o n s k e y w o r d s :s p e e c hr e c o g n i t i o n ;m i c r o c o n t r o l l e r ;g l o b e ;n o n s p e c i f i c c l a s s n o :t n 9 1 2 3 4 致谢 本论文的工作是在我的导师侯建军教授的悉心指导下完成的,从论文选题到 最后的定稿都凝聚着侯老师的心血。在整个的论文完成过程中,侯建军教授严谨 的治学态度和科学的工作方法给了我极大的帮助和影响。在此衷心感谢三年来侯 建军老师对我的关心和指导。 朱明强老师对于我的科研工作和论文都提出了许多的宝贵意见,在此表示衷 心的感谢。 在实验室工作及撰写论文期间,实验室同学对我的研究工作给予了热情帮助, 在此向他们表达我的感激之情。 另外也感谢我的家人,他们的理解和支持使我能够在学校专心完成我的学业。 在此,向他们表示诚挚的感谢! 1 引言 语言作为人类最重要的交流工具,是人类个体获取外界信息的重要来源。通 过技术使机器能够听得“懂”人类的自然语言,就能够使人和机器更好的进行交 流。 1 1 语音识别技术的发展背景 语音识别是一项综合运用多门学科的应用技术。语音识别所涉及的学科领域 包括:物理学( 声学) 、信号处理、模式匹配、生理学、语言语音学、计算机科学、 通信及信息理论、心理学等【l 】。在经过6 0 多年的研究积累,语音识别技术获得巨 大的发展。特别是最近二三十年来,语音识别技术获得长足的进步,并逐渐在生 活、工业领域有了实际的应用。 在计算机发明之前,自动语音识别就已经走进人们的设想中。最早的语音识 别器可能是生产于1 9 2 0 年代的“r a d i or e x ”玩具狗,当呼喊这只狗的名字时,它 能够弹跳起来。1 9 5 2 年贝尔研究所d a v i s 等人研究成功了世界上第一个能识别1 0 个英文数字发音的实验语音识别系统a u d r e y 。其识别判断方法是跟踪人类语音中 的共振峰,该系统达到了9 8 正确率。1 9 6 0 年英国的d e n e s 等人研究成功了第一 个以计算机为运算基础的语音识别系统。6 0 年代,计算机的应用与推广也推动了 语音识别技术的发展。人工神经网络被引入到语音识别技术中,这一时代产生了 两项对语音识别技术影响深远的进展:线性预测编码l p c ( l i n e a rp r e d i c t i v e c o d i n g ) ,动态时间规整d y n a m i c t i m ew a r p 技术。7 0 年代,各项技术继续发展。 特别是隐马尔可夫模型( h m m ) 和矢量量化理论的应用。2 0 世纪8 0 年代,随着 各项技术的应用发展,人们终于在实验室完成了对非特定人、连续语音和大词汇 量这三大语音识别障碍的突破。19 8 8 年,f u l e ek a i 等用v q i i m m 方法实现了 非特定人的连续语音识别系统s p h i n x 。作为世界上首个高性能的语音识别识别系 统,它实现了非特定人、连续语音、大词汇量这三大特点。8 0 年代末,一种新的 语音识别方法被提出,就是利用人工神经网络。9 0 年代之后,语音识别技术逐渐 发展成熟,并开始向市场提供可靠的产品。诸多发达国家的研究机构以及i b m 、 m i c r o s o f t 、a p p l e 、a t & t 等公司都投入巨资进行语音识别系统的实用化开发研究。 在2 1 世纪,嵌入式语音处理技术发展极快,基于语音识别芯片的嵌入式设备 不停的涌现出来,推动了语音识别产品在各类电子设备上的广泛应用。另外在软 件上,也出现了不少成功的语音识别软件,比如:n u a n c e 、m i c r o s o r 的s a p i 和 j e互! 窒迪厶堂亟堂簋途塞曼i吉 i b m 的v i a v o i c e ,以及丌源软件h t k ,这几个都是面向非特定人、连续语音、大 词汇量的语音让湖j 系统。 最新的语音 1 1 u 。i j 研究不仅仪限于单纯的语音信号的分析,更是与图像识别结 合起来,通过对说话时人类面部肌肉运动引起的表面图像的变化进行相关分析, 综合判断用户所要传递的信息。代表性的研究机构有i b m 及雅典的n a t i o n a l t e c h n i c a lu n i v e r s i t y 等。 图1 1 图像处理与语晋识别结合 f i g u r e1 - 1c o m b i n a t i o no fi m a g ep r o c e s s i n ga n ds p e e c hr e c o g n i t i o n 我国语音识别研究的历史、在1 9 8 5 年,中国科学院声学研究所利用电子管电路 实现了识别1 0 个元音。这是我国语音识别研究的开端。直到1 9 7 3 年才开始计算 机语音识别。由于条件所限,此一阶段我国的语音研究一直发展缓慢。进入8 0 年 代以后,计算机应用技术在科研领域逐渐普及,数字信号处理技术进一步发展, 为国内很多机构进行语音技术的研究提供了基本条件。随着国际语音技术的发展 热潮,国内许多研究单位投入到语音识别研究工作中。1 9 8 6 年3 月,高科技发展 计划( 8 6 3 计划) 启动,语音识别作为未来智能计算机系统的一个重要组成部分而 被列为研究课题。在8 6 3 计划的支持下,我国语音识别技术进入了有组织的研究 阶段,并决定每隔两年召开一次语音识别的专题会议【2 1 。从此我国的语音识别技术 进入了高速发展阶段。 1 2 语音识别技术发展趋势 目前,语音识别在理论和实验室条件下达到了一定的水平,但要进入实用系 统还有很多问题要解决。 语音识别系统的各种不足都来源于语音信号和人类语言的复杂性和多变性。 声音可以分割为基本的声学识别单元,但每一个基本的声学识别单元的发音受到 前后识别单元发音的影响,使其特征不稳定;说话时的连续语音词与词之间没有 明显的停顿,这造成词与词之间的分割比较困难;人类说话的语音不仅包括了需 要传达到基本的词义特征,还包括了大量的个人信息,包括说话人年龄、性别、 情绪等,这些信息在只是要识别语义时是干扰信息,需要分离,而要识别说话人 时,这些又是作为主要识别信息;不同个体、不同心理和生理以及在不同语境下 说同一词时,所传递出的语音信号特征都是不同的;人类的自然语言复杂而又多 变,难以用语法规则进行全部的描述,造成在识别编程上的困难【3 j 。 环境噪声的干扰对语音识别的影响严重。语音识别库中的语音信号模板通常 是在理想情况下采集而成,没有环境噪声和混响的影响。当使用环境中存在噪声 时,会使词语的端点检测不准确,降低识别率。 针对语音信号的这些特点,语音识别系统还存在很多不足需要进一步的探索。 语音识别可靠性有待提高。现有语音识别系统对使用环境要求较高。通常在 特定使用环境下可以达到一个较高的识别率,一旦周围语音环境改变,识别效果 会大打折扣。人类语言在日常使用过程中,有着极大的随意性,不确定性,不同 的人还带有截然不同的说话习惯。这也会对语音识别系统造成识别困难。现在, 语音识别研究要提高语音识别系统工作在各种环境下的可靠性,同时综合应用多 种技术是系统向智能化方向发展,使系统能够适应人类语言的随意性。 扩展可识别词汇量。可识别词汇量是衡量语音识别系统性能的重要标准。如 果使用的语音模型过少,在超出识别范围的语音会被误识别,直接影响使用。影 响词汇量的因素包括算法效率和硬件资源。随着软件算法的革新和硬件性能的提 高,极大降低了可识别词汇量对语音识别系统的限制因素。 语音识别应用范围的扩展。语音识别技术有着广泛的应用需求。通过语音识 别技术,可以省去手动操作这一步骤,从而解放出双手。在危险的工业控制领域、 远距离操作、家用电气设备控制等方面,语音识别技术都有着明朗的应用前景, 会更加方便人们的工作和生活。在下一代物联网中,语音识别技术更是可以作为 控制应用的基础。 语音识别系统的使用成本有待降低。随着微电子芯片技术的发展,现在能够 将具有先进性能的语音识别系统固化到微小的芯片上,可以有效降低使用成本, 同时更小的体积将有利于在消费类电子产品上的广泛应用。语音识别系统在现在 电子技术的支撑下,将会引领我们的信息技术发展到一个新的阶段。 2 l 世纪是信息时代,i n t e m e t 和移动网络的结合把世界连接起来。网络的终 端将从电脑手机扩展到各种生活电器和工业设备。将实现人类语音对各种设备的 直接控制,实现人与机器的语音沟通,让人们方便的享受信息时代的现代化服务。 这也是语音识别技术研究和发展的主要方向。 1 3 单片机应用系统 单片机是单片微型计算机的简称,正式名称为微控制器m c u ,是典型的嵌 入式微控制器,是把中央处理器、存储器( r a m 、r o m ) 、定时计数器、多输入 输出接口( i o ) 和中断系统,采用超大规模集成电路技术集成在一片芯片上构成 一个完整的微型计算机【4 j 。 单片机发展过程。单片机的发展包括几个阶段:第一个阶段( 1 9 7 6 1 9 7 8 ) ,单 片机初级低性能阶段。因工艺限制,单片机功能简单。以i n t e l 公司的m c s - 4 8 为 代表,在芯片包含有8 为、位c p u 、8 位定时计数器、r a m 和r o m 等。寻址范 围有限,一般不超过4 k 字节。第二个阶段( 1 9 7 8 1 9 8 2 年) ,高性能单片机阶段。 这一阶段的单片机带有串行i o 口,控制总线、完善的指令系统、8 位数据线、1 6 位地址线,寻址范围可以达到6 4 k b 。这一类单片机应用范围广,并且在不断的发 展和改进中。第三个阶段( 1 9 8 2 1 9 9 0 ) ,1 6 位单片机阶段。c p u 达到1 6 位,r a m 和r o m 容量增大,突出特点是实时处理能力更强。第四阶段( 1 9 9 0 ) ,微控制器 全面发展,各公司产品不断向着运算更高速、运算能力更强、寻址范围更大以及 廉价小型化方向发展。今后的单片机发展主要在以下方面:更高的集成度,高集 成度意味着开发难度降低开发成本下降,除了常见的集成各种外围器件的增强型 单片机,还出现了集成特定功能的单片机如语音识别单片机;更快的运算速度, 随着需要大量运算产品的需求出现,单片机的计算能力也要更进一步发展;降低 功耗提高稳定性,单片机的稳定性是应用中的非常重要的关键性因素,采用新技 术提高单片机稳定性,降低价格是则应用厂家的永远要求。 单片机在实际应用中有着明显的优点。单片机的特点适用于控制,能完成各 种简单或复杂的控制任务,有着较高性价比。能够在各种环境中稳定工作,适应 温度广,抗干扰能力强,让单片机胜任各种工作。单片机成本低、体积小、适用 范围广、性能稳定、运用灵活,方便地组成各种设备,使机电仪一体化。 当前单片机的的主要应用范围是低端和中端的嵌入式系统。单片机应用领域。 目前,单片机广泛应用与生产生活的各个领域,大致分为以下几个方面。 4 1 工业控制中的应用,如:数控机床,温度控制,电机控制,传感器控制 世 2 哥: 2 电器设备,包括家用电器和商用电器,如:电视、音响、空调机、自动 售货机等; 3 仪器仪表,通常是与各种传感器结合实现对物理量的测量; 4 计算机和通信领域,如:手机、复印机、打印机、智能终端等; 5 汽车设备方面,包括发动机控制、g p s 导航、计费器、制动系统等。 1 4 语音识别系统 语音识别系统可以将分为两类,一种是在计算机平台上实现,一种是应用专 门的硬件系统实现。目前小型化、便携式的语音产品如汽车设备的语音控制、智 能玩具、家电遥控等都属于第二种。 目前基于硬件实现的语音识别系统有以下几个共同点。一是中小词汇量的识 别系统,即只能够识别1 0 - q 0 0 词条。二是一般仅限于特定人语音识别的实现,即 需要使用者对所识别的词条先进行学习或训练。三是多为实时系统,对运算速度 要求较高,同时要求可靠性高、耗电低、价格低等。 语音智能地球仪系统实现了通过人类语音对地球仪的控制,可以将地球仪转 动至目标位置,同时播放语音。该系统能够应用于地理教学、展览馆演示设备等 方面,体现了智能时代在控制应用方面新的发展水平。 语音智能地球仪的突出特点是实现了对非特定人语音的实时识别,无需使用 前的训练学习过程。这样一来就降低了设备的使用限制,提高了使用者的使用体 验。 1 5 论文的主要工作和总体结构 本论文的工作以语音识别技术为背景,利用语音识别芯片实现对人类语音的 准确识别,并设计相关的控制系统,实现能够利用语音识别信号的智能地球仪系 统。 本论文主要包括以下几个部分: 第一章绪论部分简要介绍了本系统中所应用的技术的发展背景和当前发展情 况,包括语音识别技术的发展历史和研究现状,以及单片机技术的发展背景和现 状。 第二章主要介绍了语音识别技术的相关理论及系统的总体设计,详细介绍了 现有语音信号处理的相关理论以及语音识别的过程和常用模型尤其是隐马尔科夫 模型的相关理论。 第三章完成了系统的硬件设计,分为几大模块进行了详细的说明。包括:语 音识别模块、地球仪控制模块、语音播放模块。对各个模块的硬件情况进行全面 介绍。 第四章是完成对系统软件的设计。分别对语音识别的程序实现过程和地球仪 控制的程序框架进行了详细的介绍。 6 2 语音识别技术 2 1 语音信号初步分析及系统总体设计 2 1 1 智能地球仪系统方案的选择 衡量一个语音识别系统的性能通常考察四个方面。一是可识别词汇范围:指 的是系统能够准确识别的词或者词组的范围,一般分为两类:有限识别范围和无 限识别范围。无限识别范围是指识别范围包括了所有人类语音。二是说话人的限 制:这是指系统能够识别的语音是来自特定的某个说话人,还是可以对所有人的 语音实现识别。三是训练要求:这个是指语音识别系统在使用前是否需要进行训 练,让系统收集足够次数的语音进行处理,得出并记忆可识别的语音。四是识别 准确度:语音识别系统的识别效果指标,与前面三个有关系。 针对本系统,目前需要识别的是国家的名字,因此既可以选用有限识别范围 的方案,也可以选用无限识别范围的方案,考虑到未来系统的可扩展性及可选用 的芯片性能,选用了无限识别范围方案,能够识别所有的语音。 特定人的识别实现相对容易。常用的特定人识别以凌阳特定人识别单片机为 例,语音识别的实现部分集成在单片机中,设计完成外围设备即可。该类系统在 使用时首先进行的是芯片的训练学习过程,将待识别条目进行存储。由于单片机 的处理性能有限,直接限制了可识别条目的数量和识别效果。更重要的是对t i ) l i 练者的语音识别效果差。 语音智能地球仪系统完成后的使用不限定某个人,要求所有人的语音都能够 被有效的识别,所以必须选用非特定人语音识别。随着现代电子技术的发展,性 能更先进的处理芯片的出现满足了语音识别所要求的处理性能。 训练过程会限制系统的实际使用情况,现在已经可以实现将语音特征库存储 在芯片内,无须在使用时自己建立。另外芯片内固化的特征库是在采集大量人语 音的基础上建立的,要优于自己训练建立的特征库。因此系统选用的是不需要进 行训练的解决方法。 识别准确率在前面几个影响因素已经确定的情况下,主要与识别算法、实际 使用情况等有关系。系统选用经过测验,识别准确率较高的芯片解决方案。 除了以上语音识别系统的主要指标,选择时还要求可靠性尽可能高、耗电小、 抗干扰性好、价格低廉等。 语音智能地球仪系统设计功能要求能够准确识别非特定人的语音,并根据识 别结果控制外围设备,实现地球仪转动,进行语音播放等操作。 可以把系统分为几个模块,分别实现要求功能。语音识别模块采用嵌入式电 路控制识别芯片,实现对语音的采集和分析识别,得出识别结果,语音识别过程 完全在芯片内部实现,外部电路为芯片提供语音信号,输出识别结果,芯片的工 作状态由外部单片机进行控制。地球仪控制模块实现对识别结果的接收,并根据 识别结果控制外围设备。地球仪的转动可以由电机带动,因此就可以采用单片机 控制电机的电路设计方案。语音播放模块同样接收识别结果并根据识别结果播放 语音,模块采用音频解码芯片,实现语音的播放功能。 2 1 2 语音信号的模型 人类的语音是由人体的发声器官在脑部的控制下进行生理运动产生的。发音 器官包括肺,喉,声道等。空气由肺部进入喉部,经过声带进入声道,最后有嘴 和鼻辐射出声波,形成语音【5 】。 语音由声道运动产生,可以用一个时变线性系统来描述。发音过程中,声道 有三种不同的作用方式,分别对应发音的三种方式。浊音,声带闭合和开启,在 声门处产生一个准周期性脉冲序列。清音,声带完全舒展开,但在声道的某个位 置发生收缩,从而形成一个相对狭窄的通道,空气流动到此时被迫以高速经过狭 窄区域,这样就在附近产生空气湍流,类似于白噪声。爆破音,声带完全舒展, 但声道的某个部分完全闭合起来,当空气流动到此,形成空气压力,当气压达到 临界点,闭合的声道突然开启,有压力的空气快速放出,也形成一种空气湍流。 可以构建表示语音信号产生的模型如图2 1 : 振幅 图2 - 1 语音信号产生模型 f i g u r e2 - 1v o i c es i g n a lg e n e r a t i o nm o d e l 由上图所示模型可知:建立的语音信号产生模型由三个子模型串联组成,激 励模型g ( z ) 、声道模型v ( z ) 、辐射模型r ( z ) 。 激励模型可以用以下表达式来表达 g ( z ) = 矿去 0 n m l n l + n 2 o t h e r s 声道模型可分为级联型( 元音) 和并联型( 大部分辅音) 。 级联型是一组串联的二阶谐振器( 一个谐振腔对应一个共振峰频率) v 1 卜、 v 2 卜 v 3 卜 v 4 ( 2 1 ) ( 2 2 ) 图2 - 2 级联型声道模型 f i g u r e2 - 2c a s c a d e dc h a n n e lm o d e l 每个传输函数是一个全极点的i i r 滤波器,这些极点确定了声管的共振峰。 传输函数为: y ( z ) = n k ( z ) = ( 2 3 ) 扣1 1 一y a z 靠 z k = e - t ;j e 一幼f k 丁 ( 2 3 ) 其中:为极点个数,g 是增益参数,a k 为常系数,丁为采样周期。 唇端辐射损耗在高频段较为显著,而在低频段影响较小,r 俐应具有高通特性。 对高频提升大约为每倍频程6 d b 。 尺( z ) = r 0 一z 叫) ( 2 - 4 ) 由此可以得出完整的语音信号的数学模型。 完整的传输函数为: h = g 纠v c z ) r ( z ) ( 2 - 5 ) 2 1 3 语音识别过程 m jm枷州 。 一 一” 5 j 2 m o = 聆 咖 计算机语音识别过程和人对语音的处理过程基本是一致的。目前主流的语音 识别技术是基于统计模式识别的基本理论【6 1 。通常一个完整的语音识别系统包括以 下三个部分: 1 语音特征的提取:这一步的目的是把随时间变化的语音特征序列从人类 语音的波形中提取出来,为下一步的处理做准备,相当于人类听到声音,并将其 转化为神经信号传递给大脑。 2 建立相应的声学模型和模式匹配:将预处理后的语音信号提取特征参数, 并且构建合适的数学模型。相对于人类学习语言的过程,在大脑中存储各种语音 信息,以后听到的声音都将与这些信息进行匹配。 3 语言处理:在建立数据库后,获取的语音信息都将与库中的信息比较, 得出最匹配结果。 整个的语音识别过程可以用图2 3 来表示。 预处理 一霎赫薯 模板匹配后处理 么一 参考模式库 训练 2 2 语音信号的处理 图2 - 3 语音识别过程 f i g u r e2 - 3s p e e c hr e c o g n i t i o n 西r o c e s s 对采集的语音信号进行处理,从中提取出需要的信息,利用这些信息进行识 别等操作。语音信号的处理主要包括预处理和提取特征参数。 2 2 1 语音信号预处理 预处理主要包括语音信号的放大( 预加重) 、防混叠滤波、消除噪声、端点检 测、自动增益控制、模数转换等。 1 0 1 预加重 语音信号的频谱特点是,频率越高其幅值越小,例如当语音信号的频率增加 两倍时,其功率谱的幅度下降大约6 d b ,求语音信号的频谱时,频率越高的部分对 应的成分越少,使得高频部分比低频部分的频谱相对难以计算。所以必须对高频 进行加重处理,使其更平坦,在从低频到高频的整个完整频带中,都可以用相同 的信噪比计算频谱,进行相关的频谱分析和声道参数的分析。 预加重可以在语音信号数字化时的反混叠滤波之前,同时进行语音信号的预 加重和压缩信号的动态范围,这样可以明显的提高信噪比。但一般是在完成语音 信号的数字化之后和进行参数分析之前,进行语音信号的预加重。 加重方法通常是将语音信号通过一个一阶高通滤波器,叫做预加重滤波器。 即: h ( z ) = 1 一, u x z 1 目的就是为了滤除低频干扰,特别是5 0 h z 到6 0 h z 的工频干扰,这样一来就 将有效地对语音识别更为有用的高频部分进行频谱提升。 在某些时候,如果需要进行信号的恢复,对测量值进行预加重的反过程去加 重处理,就能够从做过预加重的信号频谱中求得实际的频谱。 加窗。完成对语音信号的预加重处理之后,接下来就是加窗分帧处理,一般 为3 3 1 0 0 帧s 。语音信号是典型的非平稳信号,随时间而变化。但是语音信号的 产生是由于相关肌肉的运动造成,而这种肌肉运动的频率相对缓慢,这就使语音 信号在短时间内频谱特性保持稳定,这就是语音信号的短时平稳性。 因此,可以将语音信号截短为一帧一帧,然后对每一帧信号进行处理。通常, 语音信号可以保持8 3 0 m s 之间的相对稳定。所以一帧信号可以截取为2 0 m s 。相 邻的两帧会有一个交叠部分,称为帧移,帧移通常小于帧长的1 2 。 加窗分帧是用可移动的一定长度的窗e l 进行加权来实现的。常用的三个窗函 数是矩形窗、汉宁窗( h a n n i n g ) 和汉明窗( h a m m i n g ) ,他们的函数表达式分别为; 矩形窗:w ( ,z ) = j 1 0 , 。o t h e ,l r s ;l 一1 ; ( 2 6 ) 汉宁窗:w ( 玎) = 0 5 1 1 - c o s ( 2 以万( 一1 ) ) 】;。一1 ; ( 2 - 7 ) 汉明窗:似n ) = 0 5 4 - 0 4 6 c 。s 【2 刀万一1 ) ,。三一1 ; ( 2 8 ) 窗函数的选择,不仅要考虑形状,也要考虑窗函数的长度( l ) 。通常来讲一 个好的窗函数的标准是:在时域处理中,要把语音波形函数与窗函数相乘,因此 必须要求降低窗函数两端的坡度,使得窗口边缘两端不会发生快速的变化,而是 逐渐的变化到零,这样能够降低语音帧的阶段效应;在频域中有较小的边带最大 值和较宽的3 d b 带宽。窗口函数的长度选择时主要考虑语音信号的基音周期。一 般来说一个语音帧包括1 7 个基音周期,但是不同的人的基音周期变化较大,例 如女性儿童的2 m s 、老年男性的1 4 m s ,因此窗函数的长度n 选择为折中的1 0 2 0 m s 。 过窄的窗函数对信号几乎没有任何平滑作用,窗函数越宽,就越能更好的使信号 平滑。 经过以上处理过程,原始的语音信号被分为一帧一帧的,并且每一帧都是加 过窗函数的短时信号,这样的短时语音信号可以看作是平稳的随机信号,就可以 用数字信号处理技术进行语音信号的特征提取。 2 端点检测 语音端点检测是指对语音信号的处理,从包含有效语音的一段信号中找出字、 词的起点和结束点,从而取出有效的语音信号进行下一步处理。语音信号的端点 检测对于语音的识别有着重要的意义。在孤立词的语音识别系统中,准确的确定 单个语音的开始位置和终止位置能够极大降低非实时系统的计算量。而在连续语 音识别系统中,识别基元的划分( 字词、音节) 可用于语音识别的语音训练过程。 经过实验统计,在语音识别中的起始点和终止点的选取值的偏离会对最终的识别 结果有较大的影响,实验表明3 0 m s 内的偏移会使识别准确度下降2 ,当偏移超 过9 0 m s 时,识别准确度下降3 0 【7 】。因此可以说端点检测在某种程度上决定了整 个语音识别系统的优劣。 最近3 0 年来,科研人员对语音识别的端点检测方法做了全面的研究,目前主 要的端点检测方法可以分为两种: 一是利用语音信号的时域特征进行计算,包括音量和过零率。最简单方法是 只利用音量进行语音信号的端点检测,但是这种方法会对发声时的气音造成误判。 同时利用音量和过零率,以音量为主。以过零率为辅,能够有效的降低气音对端 点检测的误判影响。 二是利用语音信号的频域特征进行计算,利用频谱的变异数和熵能够作为判 定端点的依据,有声音的频谱变化比较有规律,相应的变异数较低,能够作为端 点检测的判断基准。 进行端点检测的基本参数主要包括短时能量、过零率、幅度和相关函数等。 最常见的端点检测方法是短时能量、短时过零率双门限端点检测。一个优秀的端 点检测算法必须满足一些条件,首先门限值能够应对环境噪音一定范围的变化, 其次是要把短时的冲击噪声等干扰信号纳入无声段,把爆破音的寂静段纳入语音 的范围而不是归为无声段,最后语音检测时尽最大可能性把弱摩擦音等与噪声相 似的语音判别出来。 3 短时平均能量和短时平均过零率 人类语音的信号在长时间里是变化的,但是在极短时间内可以看作是稳定的, 因此具有瞬时稳定性。也就是将这么极短的时间内的语音数字信号看作为平稳、 非时变的信号。一般来说这个极短的时间通常取作5 5 0m s 。可以用经典的处理 平稳信号的方法对这极短信号进行处理。 短时平均能量可以用来区分语音的清音段和浊音段。语音的清音比浊音幅值 要小得多,对应的能量也要明显小。因此可以依据能量函数大致划分清音语音和 浊音语音。在高信噪比的情况下,可以用来区分是否有语音。 短时能量:1 1 时刻某语音信号的短时平均能量e n 定义为: 色= x ( m ) w ( n w ) 2 = x ( r n ) w ( n w ) 2 ( 2 9 ) m 一= - - m = n 一- ( n 一 式中n 为窗长,可知短时平均能量为一点样点值的平方和。特殊地,当窗函 数为矩形窗时,有:e =z 2 ( m ) ; ( 2 1 0 ) m :n 一- ( n n 短时平均过零的定义是一帧语音信号的波形越过横轴( 零电平) 的次数。分 两种情况,对于离散信号来说,过零表示相邻的取样值改变符号;而对于连续语 音信号来说,时域波形通过时间轴则称为过零。 样本改变符号的次数就被称为过零率。平均过零率是一个估计正弦频率的适 当方法。在人类语音信号中,由上面的语音信号产生模型可以得出,浊音的语音 能量主要集中在3 k h z 下,而清音语音的能量更多的出现在较高的频率。高频率有 着高过零率,低频率的过零率较低。可以得出:清音的过零率较高,浊音的过零 率较低【8 1 。如果没有声音,语音信号的过零率变化范围交大,比浊音的过零率要低。 可以把语音信号的短时过零率z n 定义为: l z 。= :l s g n x m - s g n x ( m 一1 ) 】i 以刀- m ) ; ( 2 1 1 ) 其中,跏刀即是符号函数,s g n l x ( n ) l = ! 发裳o ; ( 2 1 2 ) 短时平均能量和短时平均过零率都是随机参数,但是对于语音中不同性质的 片段,它们的分布概率是不同的。对于语音信号中的无声、浊音、清音三种情况, 短时平均能量和短时平均过零率有不同的概率密度函数。实际应用中,短时能量 和过零率可以应用在以下情况:在信噪比高的情况下,可以用来作为区分无声和 有声的依据;区分浊音段和清音段的特征参数;作为辅助的参数用于语音识别中。 2 2 2 提取语音信号的特征参数 语音信号包含了有关信息和无关信息。特征参数提取就是把无关信息剔除, 取出反映信号特点的关键特征参数,同时把数据进行适当的数据压缩,减少信息 总量,便于后续的信号处理。 语音识别处理中基本的特征参数主要有:短时平均能量、幅度、过零率、频 谱、倒谱和功率谱、共振峰、线性预测系数等。特征选择和提取是构建语音识别 系统的关键点。一般这些参数都是选用十到十五维的特征矢量的时间序列来表示。 通常提取出的特征参数还需要进行进一步的变换处理,包括正交变换、最大可分 性变化、主元素变换等,这样做是为了节省模式存储容量和识别运算的计算量, 提高识别性能等。特征参数的选择还与正识率以及复杂度的矛盾有关。一般来说, 选取的特征参数包含的信息越多分析时的复杂度( 计算量) 越大。 线性预分析的基本原理是把被分析的信号用一个模型来表示,就是将信号看 作是某一个模型的输出。然后就可以使用模型的参数来描述信号。语音的线性预 测分析是建立在语音信号产生模型基础上的。 一个语音信号的抽样可以由过去一定数目的语音抽样的线性组合进行逼近。 通过使线性预测抽样和实际语音抽样之间差值的平方和达到最小值,即进行最小 均方误差的逼近,可以决定唯一的一组预测系数。 由此可以定义一个p 阶线性的预测器荆: f ( z ) = 口f z 。1 ; ( 2 1 3 ) 由过去p 个样本可以对当前样本进行逼近,由此能够得出预测值x ( n ) : j l x ( 以) = 芝:a i x ( n f ) ; ( 2 - 1 4 ) 进行最小均方误差的逼近,能够得出唯一的一组线性预测器的系数,这就是 a r 模型的系数,又被称为线性预测系数。以上就是线性预测系数的建立。 线性预测系数( l p c ) 在倒谱域中进行表述,可以得到线性预测倒谱参数 ( l p c c ) 。线性预测倒谱参数是假设语音信号是一种自回归的信号,因此可以运 用线性预测分析的方法得到在倒谱域中的倒谱系数。,线性预测倒谱参数( l p c c ) 相对于线性预测系数优点是计算总量较小,易于实现,对元音能够进行的描述效 果较好,缺点是对辅音不能进行很好的描述。 设通过线性预测的分析方法得到的声道模型系统函数为: 日( z ) : ;( 2 - 1 5 ) 以+ 即“ 1 4 它的激励响应设为h 向) ,可设五o ) 表示j i z 例的复倒谱,则有: h ( z ) = i n 日( z ) ; ( 2 1 6 ) 可以得出: j i 2 ( o ) = o ; 五( 1 ) = 一a i ; j i ;( ,2 ) = 。一艺( 1 一尼咒) j j ;( n 一尼) ;( 1 咒p ) ( 2 - 1 7 ) k = l 上 h ( n ) = 一( 1 一k n ) a i 五( ,z 一七) ;( ,l p ) ; k = l 按上式得出的复倒谱j i ( 刀) 称为l p c 复倒谱。 线性预测系数( l p c ) 是在语音信号产生模型的基础上建立的,严重依赖于模 型的精度。人类在周围吵杂的环境中,仍然能够准确的识别出目标语音,而将无 关的语音进行有选择性的忽略,这是由于耳蜗的过滤作用,它充当了一个滤波器 组。 梅尔频谱倒谱参数是一种能够充分利用人耳的特殊感知特性的系数。 梅尔频谱倒谱系数与线性频率的转换关系是: m ( 门= 2 5 9 5 1 0 9 l o ( 1 + f 7 0 0 ) ; ( 2 - 1 8 ) 梅尔频谱倒谱系数也是按帧进行计算的,流程如下: 1 预处理:首先将语音信号分割为帧,即确定采样长度( 如n = 2 5 6 ) ,对信 号的预处理包括对每帧序列进行预加重、分帧和加窗处理; 2 计算离散功率谱:对预处理过后的每帧信号进行短时傅里叶变换得到其 频谱,并计算出离散功率谱洲; 3 计算每帧的能量谱,使功率谱通过带通滤波器组:计算荆通过m 个带 通滤波器后所得的功率值,即计算在各离散频率点上的乘积之和,得到肘个参数 砌;然后计算砌的自然对数,得到l m ; 4 离散余弦变换:对l m 计算其离散余弦变换,得到d m ,舍去d o ,因为其 代表这信号中的直流成份,取d 1 ,d 2 ,d k 作为梅尔频谱倒谱参数。 2 3 语音
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 20xx教师社会实践报告3篇
- 辞职后的安全培训课件
- 基于工业物联网的冲洗机设备全生命周期数据安全与合规存储方案
- 基于区块链的刨切木方全生命周期溯源系统与供应链金融创新
- 城市立体绿化政策驱动下空调外机隐蔽式安装的工程实践探索
- 国际药典新增大黄质量控制标准对国内生产端的冲击与应对
- 后疫情时代定制刺绣旗袍的碳足迹核算与可持续时尚实践路径
- 可降解纤维在制服领域的规模化应用瓶颈与成本效益平衡策略
- 反诈中心与运营商协同响应的实时数据接口标准
- 医疗影像分析设备算法偏见对临床决策的隐性影响
- 铁路劳动安全 课件 第五章 安全标志标识
- 教师严慈相济课件
- 肛肠科个案护理
- 果园机器人课件
- 数智时代高校微专业的内涵特征、建设机制与推进路径
- 4第四节决策树与集成算法
- 汽车零部件质量培训
- 眼科学检查课件
- 成都银行招聘真题
- 1.1.1 地球的宇宙环境(第1课时 地球在宇宙中)(原卷版)
- 8古诗二首 登鹳雀楼 公开课一等奖创新教学设计-1
评论
0/150
提交评论