已阅读5页,还剩65页未读, 继续免费阅读
(通信与信息系统专业论文)轮椅机器人语音识别控制系统的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 机器人发展至今,智能机器人成为研究的热点之一。对于机器人的控制, 语音控制无非是最自然、最便捷的控制方式。语音识别技术使机器人能听懂人 的自然语言,由识别得到的信息可以作为声控信号应用到机器人的多种技术领 域。智能轮椅作为助老助残服务机器人系列产品中的一个重要研究领域,将语 音识别技术应用于普通轮椅,用语音来控制轮椅的运动为使用者带来了极大的 方便。因此研究并开发实用的机器人语音识别控制系统对于智能机器人的广泛 应用具有重要的意义。论文的主要内容如下: 首先,实现了轮椅机器人语音指令识别算法。基于语音识别的原理,对轮 椅语音指令进行了预滤波、数字化、预加重处理、分帧、小波降噪和双门限端 点检测;对m d 频率倒谱系数( m f c c ) 与线性预测倒谱系数( l p c c ) 的性能进行 了对比分析,选取性能较好的m f c c 作为识别特征参数,采用动态时间规整 ( d t w ) 的高效算法,实现了易于硬件实现、识别性能较好、执行效率较高的轮 椅机器人语音指令识别算法。 其次,设计完成了轮椅机器人的语音识别控制系统。采用凌阳1 6 位单片机 s p c e 0 6 1 a 作为系统核心,完成了轮椅机器人语音识别控制系统的硬件设计;基 于s p c e 0 6 1 a 的集成开发环境编写了轮椅语音识别控制系统的软件。实验结果 表明,实现的语音识别控制系统的识别性能及轮椅运动的机械性能较好。同时, 该系统结构简单,性价比高,易于功能扩展和移植,具有广阔的应用前景。 关键词:轮椅机器人;语音识别;s p c e 0 6 1 a a b s t r a c t a b s t r a c t w i t ht h ed e v e l o p m e n to f r o b o t , t h ei n t e l l i g e n tr o b o tb e c o m e so n er e s e a r c hf o c u s f o rt h ec o n t r o lo ft h er o b o t , s p e e c hc o n t r o li st h em o s tn a t u r a la n dc o n v e n i e n tw a y s p e e c hr e c o g n i t i o nt e c h n o l o g yc a nm a k er o b o tu n d e r s t a n dh u m a nl a n g u a g e ,t h e s i g n a lf i o mr e c o g n i t i o nc a nb eu s e da sv o i c ec o n t r o ls i g n a la n da p p l i e di nm a n y t e c h n o l o g yd o m a i n so fr o b o t t h ei n t e l l i g e n tw h e e l c h a i ri so n ei m p o r t a n tr e s e a r c h d o m a i no f t h es e r i e so f t h ee l d e r - a i da n dh a n d i c a p p e d - a i dr o b o t s b ya p p l y i n gs p e e c h r e c o g n i t i o nt e c h n o l o g yt ot h ec o m m o nw h e e l c h a i r , i ti sv e r yc o n v e n i e n tt ou s ev o i c e t oc o n t r o lt h em o v e m e n to f w h e e l c h a i r t h e r e f o r e ,i ti sv e r yi m p o r t a n tt or e s e a r c ha n d d e v e l o pp r a c t i c a lr o b o ts p e e c hr e c o g n i t i o nc o n t r o ls y s t e mi no r d e rt oa p p l yt h e s e r v i c er o b o tw i d e l y t h em a i nc o n t e n to f t h ep a p e ri sb e l o w 、 f i r s t l y , t h es p e e c hi n s t r u c t i o nr e c o g n i t i o na l g o r i t h mo ft h ew h e e l c h a i rr o b o ti s r e a l i z e d a c c o r d i n g t ot h et h e o r yo fs p e e c hr e c o g n i t i o n , t h es p e e c hi n s t r u c t i o no ft h e w h e e l c h a i ri sp r e - p r o c e s s e d ,i n c l u d i n gp r e f i l t e r i n g , d i g i t a l i z a t i o n , p r e - e m p h a s i s , p a c k e t i z a t i o n , w a v e l e td e n o i s i n g , e n d p o i n td e t e c t i o nw i md o u b l et h r e s h o l d t h e p e r f o r m a n c eo fm e lf r c q u e n c yc c p s t r a lc o e f f i c i e n t sa n dl i n e a rp r e d i c t i v ec e p s t r a l c o e f f i c i e n t si sc o n t r a s t e da n da n a l y z e d ,m f c ch a sb e t t e rp e r f o r m a n c ea n di ti s s e l e c t e d 勰t h ef e a t u r ep a r a m e t e r t h em o r ee f f i c i e n td y n a m i ct i m ew a r p i n ga l g o r i t h m i sa d o p t e da st h er e c o g n i t i o na l g o r i t h m t h ew h e e l c h a i ri n s t r u c t i o nr e c o g n i t i o n a l g o r i t h mi sp r o g r a m m e d , i th a sb e t t e rp e r f o r m a n c ea n de f f i c i e n c ya n di ti se a s i l y r e a l i z e do nh a r d w a r e s e c o n d l y , t h es p e e c hr e c o g n i t i o nc o n t r o ls y s t e mo ft h ew h e e l c h a i rr o b o ti s d e s i g n e d t h eh a r d w a r ed e s i g no f t h es p e e c hr e c o g n i t i o n c o n t r o ls y s t e mw h i c hs e l e c t s s p c e 0 6 1 aa st h ec o r ei sc o m p l e t e d ,a n dt h es o f t w a r eo f t h es y s t e mi sp r o g r a m m e di n t h ei n t e g r a t e dd e v e l o p i n ge n v i r o n m e n to fs p c e 0 6 1 a t h ee x p e r i m e n tr e s u l ts h o w s t h a tt h es y s t e mh a sb e t t e rr e c o g n i t i o np e r f o r m a n c ea n dm e c h a n i c a lp e r f o r m a n c e i n t h em e a n t i m e ,t h es y s t e mh a ss i m p l es t r u c t u r ea n db e t t e rp e r f o r m a n c e - p r i c er a t i o ,a n d i t 锄b ee n l a r g e di nf u n c t i o na n dt r a n s p l a n t e de a s i l y t h e r e f o r e t h es p e e c h r e c o g n i t i o ns y s t e mh a sb r o a da p p l i c a t i o np r o s p e c t s k e y w o r d s :w h e e l c h a i rr o b o t ;s p e e c hr e c o g n i t i o n ;s p c e 0 6 1 a 学位论文独创性声明 学位论文独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得直昌太堂或其他教育机构的学位或证书而使用过的材料。与 我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确 的说明并表示谢意。 学位论文作者签名( 手写) :撕 签字日期:2 0 07 r 年,2 月扣日 学位论文版权使用授权书 本学位论文作者完全了解直昌盍堂有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权直昌太堂可以将学位论文的全 部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描 等复制手段保存、汇编本学位论文。同时授权中国科学技术信息研究 所将本学位论文收录到中国学位论文全文数据库,并通过网络向 社会公众提供信息服务。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:李导夸子 导师签名: 签字日期:2 。7 年2 月弓n 日签字日期:立椰年,月7 日 第1 章绪论 第1 章绪论 1 1 引言 语音识别是人机接口设计的一项重要内容,也是语音信号处理中非常重要 的应用技术,正逐步成为信息技术中人机交互的关键技术。目前,语音识别技 术已经在诸多领域得到应用。随着信息产业的迅速发展。包括计算机、办公自 动化、通信、国防、机器人在内的各个领域,都迫切需要采用语音识别技术来 改变极其不方便的人机接口方式。 与机器进行语音交流,让机器明白人说什么,这是人们长期以来梦寐以求 的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应 的文本或命令的一种技术,其根本目的是研究出一种具有听觉功能的机器,这 种机器能直接接受人的语音,理解人的意图,并做出相应的反应1 1 1 。如果能把这 种具有语音信息处理能力的机器和设备纳入人的语音交互对象,使之像人一样 具备昕、说、写功能,能对语音做出理解和反应,并在交互方式上不受时间和 地点的限制,将使人类的生活和工作方式发生革命性的变化【2 】。 在机器人研究领域,智能机器人成为研究的热点。智能机器人系统综合运 用了多种人工智能技术,其目标是建立起一个。人”的模型,让机器人听懂人 的语言就是其中之一,语音识别技术的重要性也得以体现p l 。人机交互系统是当 前机器人控制系统的重要组成部分,机器人的听觉与语言系统以语音识别和语 音合成技术为基础,语音识别使机器人能听懂人的自然语言,由识别得到的信 息可以作为声控信号应用到机器人的多种技术领域1 4 j 。 随着社会的发展和入类文明程度的提高,老年人和残疾入的服务需求将日 益增加,助老助残服务机器人系列产品的研发有助于形成未来老年和残疾人生 活的新模式和新概念,为解决人口老龄化等带来的重大社会服务问题,以及2 0 1 5 年实现我国“人人享有康复服务”的国家战略目标和社会协调发展提供技术支 撑。智能轮椅是助老助残服务机器人系列产品中的一个重要研究领域。轮椅作 为广大老弱病残人员使用的辅助运动工具,随着人工智能和机器入技术的发展, 智能轮椅的研发也逐渐开展起来【5 l 。智能轮椅的关键技术之一就是要实现与使用 者和谐交互的技术,其中语音交互是一种最自然的交流方式,并且是参与项目 第1 章绪论 多模态人机交互中的一种重要交互控制方式,适合于大多数的轮椅使用者,给 使用者带来了极大的方便。因此,研究并开发实用的服务机器人语音识别控制 系统具有重要的意义。 1 2 语音识别技术理论基础 1 2 1 语音识别基本原理 一个典型的语音识别过程包括语音信号的预处理、特征提取、训练、识别、 后处理五个基本单元。语音识别系统的基本结构 6 1 如图1 1 所示。 图1 1 语音识别的原理框图 ( 1 ) 预处理 语音信号的预处理,包括预滤波、语音信号的数字化、预加重处理、分帧、 噪声抑制和端点检测等。语音信号的预处理是语音识别过程的前期预备工作, 为以后各个环节的处理奠定了基础。 ( 2 ) 特征提取 预处理后进行特征参数的提取,合理的选用语音特征是语音识别的一个根 本问题,并且对系统的识别性能有着重要的影响。因此,针对系统的实际需求, 选用合理的语音特征参数是非常关键的。 ( 3 ) 模型训练 经过预处理及特征提取,进行模型训练,训练过程的目的是让系统从大量 的真实语音中学习必要的模型参数形成语音参考模式库。 ( 4 ) 模式匹配 根据一定的规则,利用上述模型参数对输入的语音进行模式匹配,并给出 一个识别结果。 ( 5 ) 后处理 后处理单元可能涉及语句分析、语句理解、语义网络以及语言模型等。它 第1 章绪论 往往不是一个孤立的单元,而是与匹配计算单元、参考模式库融合在一起,构 成一个逻辑关系复杂的系统整体【”。目前后处理在小词汇量实用语音系统中还很 难使用。 1 2 2 语音识别系统的分类1 7 i 语音识别系统可以根据对输入语音的限制加以分类。如果从说话者与识别 系统的相关性考虑,可以将识别系统分为3 类:( 1 ) 特定人语音识别系统:仅考 虑对于专人的话音迸行识别;( 2 ) 非特定入语音识别系统:识别的语音与人无关, 通常要用大量不同人的语音数据库对识别系统进行学习;( 3 ) 多人的识别系统: 通常能识别一组人的语音,或者成为特定组语音识别系统,该系统仅要求对要 识别的那组人的语音进行训练。 语音识别应用系统根据对说话方式的要求,可以将识别系统分为3 类:( 1 ) 孤立词语音识别系统:孤立词识别系统要求输入每个词后要停顿;( 2 ) 连接词语 音识别系统:连接词输入系统要求对每个词都清楚发音,一些连音现象开始出 现;( 3 ) 连续语音识另i j 系统:连续语音输入是自然流利的连续语音输入,大量连 音和变音会出现。 如果从识别系统的词汇量大小考虑,也可以将识别系统分为3 类:( 1 ) 小词 汇量语音识别系统:通常包括几十个词的语音识别系统。( 2 ) 中等词汇量的语音 识别系统:通常包括几百个词到上千个词的识别系统。( 3 ) 大词汇量语音识别系 统:通常包括几千到几万个词的语音识别系统。随着计算机与数字信号处理器 运算能力以及识别系统精度的提高,识别系统根据词汇量大小进行分类也不断 进行变化。目前是中等词汇量的识别系统到将来可能就是小词汇量的语音识别 系统。这些不同的限制也确定了语音识别系统的困难度。 1 2 3 语音识别的方法及分析 一般来说,语音识别的方法有三种【8 】:基于语音学和声学的方法、模板匹配 的方法以及利用人工神经网络的方法。 1 基于语音学和声学的方法 该方法起步较早,在语音识别技术提出的开始,就有了这方面的研究。但 由于其模型及语音知识过于复杂,现阶段没有达到实用的阶段。 2 模板匹配的方法 第1 章绪论 模板匹配的方法发展比较成熟,目前已达到了实用阶段。在模板匹配方法 中,要经过四个步骤:特征提取、模板训练、模板分类、判决。常用的技术有 三种:动态时间规整( d t w ) 、隐马尔可夫模型( h m m ) 理论、矢量量化( v q ) 技 术。 ( 1 ) 动态时间归整技术【9 】 动态时间归整算法d t w ( 功,i l a i i l i ct i m ew a r p i n g ) 是将时间归整和距离测 度结合起来的一种非线性归整技术。d t w 算法就是运用动态规划的思想,利用 局部最佳化的处理来自动寻找一条路径,使得参考模板与测试模板的两个特征 矢量之间的积累失真量最小,从而得出识别结果,同时避免了由于时间长度不 同而可能引入的误差。 d t w 算法的缺点是只对特定人语音识别有较好的识别性能,对大词汇量、 连续语音、非特定人语音识别效果较差,并且在使用前需要对所有词条进行训 练。 但d t w 算法具有较为简洁,容易实现、正确识别率较高的优点,在小词汇 量孤立词语音识别以及小词汇量连接词语音识别系统中有较为广泛的应用,因 而对其进一步的研究以提高其j 下确识别速度具有很强的实用价值。 ( 2 ) 隐马尔可夫模型技术【l o l 隐马尔可夫模型h m m ( h i d d e nm a r k o vm o d e l ) 技术目前已成为语音信号处 理中的主流技术。这是r a b i n e r 等人在2 0 世纪8 0 年代引入语音识别领域的一种语 音识别算法。该算法通过对大量语音数据进行数据统计,建立识别词条的统计 模型,然后从待识别语音中提取特征,与这些模型匹配,通过比较匹配分数以 获得识别结果。通过大量的语音,就能够获得一个稳健的统计模型,能够适应 实际语音中的各种突发情况。因此,h m m 算法具有良好的识别性能和抗噪性能。 基于h m m 技术的识别系统可用于非特定人,不需要用户事先训练。它的缺 点在于统计模型的建立需要依赖一个较大的语音库。这在实际工作中占有很大 的工作量。且模型所需要的存储量和匹配计算( 包括特征矢量的输出概率计算) 的运算量相对较大,这对硬件实现提出了更高的要求,通常需要具有一定容量 s r a m 的d s p 才能完成。在嵌入式语音识别系统中,由于成本和算法复杂度的限 制,h m m 算法特别是c h m m ( c o n t i n u o u sd e n s i t yh m m ) 算法尚未得到广泛的应 用。 ( 3 ) 矢量量化技术【川 4 第1 章绪论 矢量量化v q ( v e c t o rq u a n t i z a t i o n ) 技术是七十年代后期发展起来的一种数 据压缩和编码技术,广泛应用于语音编码、语音合成、语音识别和说话人识别 等领域。矢量量化在语音信号处理的应用原理就是将一帧语音数据中提取的特 征矢量在多维空间给予整体量化,从而可以在语音信息量损失较小的情况下压 缩数据量。矢量量化有效地应用了矢量中各元素之间的相关性,可以得到较好 的压缩效果。在实际的应用过程中,人们还研究了多种降低复杂度的方法,这 些方法大致可以分为两类:无记忆的矢量量化和有记忆的矢量量化。无记忆的 矢量量化包括树形搜索的矢量量化和多级矢量量化。 与h m m 相比,矢量量化主要适用于小词汇量、孤立词的语音识别中。例 如文献 1 2 介绍了一种基于v q 的小词汇量特定人快速语音识别方法,并对该方 法中的关键参数进行了比较性研究。这一方法尤其适用于汉语特定人小词汇量 语音识别。与典型的h m m 和a n n 识别算法相比,该方法复杂度低、系统资源 消耗少而识别率高。 3 神经网络的方法。 利用人工神经网络的方法是8 0 年代末期提出的一种新的语音识别方法。人 工神经网络( a n n ) 本质上是一个自适应非线性动力学系统,模拟了人类神经活 动的原理。具有自适应性、并行性、鲁棒性、容错性和学习特性。其强的分类 能力和输入输出映射能力在语音识别中都很有吸引力。 但由于存在训练、识别时间太长的缺点,目前仍处于实验探索阶段。由于 a n n 不能很好的描述语音信号的时间动态特性所以常把a n n 与传统识别方 法结合,分别利用各自优点来进行语音识别。这些结合形成的算法提高了识别 的性能,并弥补了神经网络的缺点,增强了识别系统的鲁棒性【1 3 _ b 】。 1 3 国内外语音识别的研究现状和发展趋势 语音识别的研究始于2 0 世纪5 0 年代。6 0 年代末和7 0 年代初语音识别最重 要的发展是语音信号线性预测编码( l p c ) 技术和动态时间归整( d t w ) 技术, 有效地解决了语音的特征提取和时间不等长匹配问题,对特定人的语音识别十 分有效。研究特点以孤立词语音识别为主,通常把孤立词作为一个整体来建立 模板。 第1 章绪论 2 0 世纪8 0 年代,语音识别研究的重点之一是连接词语音识别,开发了各种 连接词语音识别和关键词识别算法。另一个重要发展是语音识别算法从模板匹 配技术转向基于统计模型的技术。人们的研究从微观转向宏观,不再刻意追求 细化语音特征,而是更多地从整体平均的角度来建立最佳的语音识别系统。统 计语言模型也开始取代基于规则语言的模型i 1 6 1 。 进入9 0 年代后,在细化模型的设计、参数提取和优化,以及系统的自适应 技术上取得了一些关键进展。随着多媒体时代的来临,迫切要求语音识别系统 从实验室走向实用。许多发达国家如美国、日本、韩国以及i b m ,a p p l e ,a t t ,n t t 等著名公司都为语音识别系统的实用化开发研究投以巨资。当前,美 国在非特定人大词汇表连续语音隐马尔可夫模型识别方面起主导作用,而日本 则在大词汇表的连续语音神经网络识别,以及模拟人工智能进行语音后处理方 面处于主导地位。 我国的语音识别研究工作近年来发展很快,同时也从实验室逐步走向实用。 从1 9 8 7 年开始执行8 6 3 计划后,国家8 6 3 智能计算机主题专家组为语音识 别研究立项。每两年滚动一次,从1 9 9 1 年开始,专家组每一至二年举行一次全 国性的语音识别系统测试。参加测试的系统代表了国内这一领域的研究水平。 汉语语音识别研究已经走上了组织化的道路i j ”。目前,我国语音识别技术的研 究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势, 并达到国际先进水平。中科院自动化所、中科院声学所、清华大学、北京大学、 哈尔滨工业大学、上海交通大学、中国科技大学、北京邮电大学、华中科技大 学等机构都有实验室进行过语音识别方面的研究。 语音识别技术还有很多问题没有很好解决,主要表现在理论上一直没有突 破。虽然各种新的修正方法不断涌现,但还缺乏普遍适用性i l 町。主要表现在: 就算法模型方面而言,需要有进一步的突破;就自适应方面而言【l ”,语音识别 技术也有待进一步改进;就强健性方面而言【2 0 】,语音识别技术需要能排除各种 环境因素的影响;多语言混合识别以及无限词汇识别方面;多语种交流系统的 应用方面等。相应地,这些问题的出现促使这些领域成为研究的热点。目前在 语音识别研究的领域非常活跃的课题为稳健语音识别、说话人自适应技术、大 词汇量关键词识别算法、语音识别的可信度评测算法、基于类的语言模型和自 适应语言模型,以及深层次的自然语音的理解。研究方向也越来越侧重于口语 对话系统1 2 1 。 第1 章绪论 从各大公司、各研究机构的语音研究项目看,语音识别项目也在向综合化 方向发展。总之,语音识别的研究正在朝深度和广度不断发展。 1 4 本文研究内容及结构安排 本课题的研究目标:为轮椅机器人建立规定为孤立词、小词汇表、特定人 的实用语音识别系统,实现对轮椅机器人运动的语音控制。不仅可以提供自然、 和谐的人机交互方式,而且可为使用人群带来极大的方便。同时为研制更高性 能、更复杂的机器人语音识别控制系统奠定了基础。 针对本课题的研究目标,本文的主要研究内容如下:首先,基于语音识别 的原理,分别对语音识别的各个环节进行研究分析,确定性能较好的端点检测 算法、特征参数及适合系统要求的识别算法,实现易于硬件实现、识别性能较 好、执行效率较高的轮椅语音指令识别算法。其次,为轮椅机器人设计实用的 语音识别控制系统。采用1 6 位单片机s p c e 0 6 1 a 作为系统核心,建立轮椅机器 人语音识别控制系统的硬件平台;基于s p c e 0 6 1 a 的集成开发环境编写轮椅语 音识别控制系统的软件,然后软硬件联调进行实验对系统进行改进完善,使系 统的识别性能与轮椅机械性能达到实用要求。本文在结构上分为五章,具体如 下: 第一章主要介绍了本课题研究的背景及意义,语音识别技术的理论基础, 并简单介绍了国内外语音识别的研究现状和发展趋势;给出了课题的研究目标、 研究内容及论文结构安排。 第二章对轮椅命令词语音信号进行了预处理,包括预滤波、语音信号的数 字化、预加重处理、分帧、噪声抑制和端点检测。其中,采用小波变换进行降 噪,确定了以短时能量与短时过零率为特征的双门限端点检测算法。 第三章对轮椅命令词进行了语音特征参数的提取及识别算法的实现。基于 目前语音识别过程中应用最为流行的两种特征参数l p c c 与m f c c 性能的对比 分析,选用m f c c 作为系统的特征参数;针对轮椅识别控制系统的实用要求选 用d t w 高效算法作为系统的识别算法,实现了易于硬件实现、识别性能较好、 执行效率较高的轮椅机器人语音指令识别算法。 第四章设计完成了轮椅语音识别控制系统。针对s p c e 0 6 1 a 的性能特点, 采取s p c e 0 6 1 a 作为整个硬件平台的核心,建立了包括音频电路模块、电源模 第1 章绪论 块、电机驱动模块、直流电机及执行机构等部分的硬件平台;基于s p c e 0 6 1 a 的集成开发环境编写了轮椅语音识别控制系统的软件设计,主要包括主程序、 用于语音识别或播放的中断处理程序、功能模块子程序、语音播放子程序及相 关文件的添加。 第五章,结论与展望。对论文全文的工作进行了总结,并对将来下一步的 工作进行了展望。 1 5 本章小结 本章主要介绍了课题研究的背景及意义,语音识别技术的理论基础,并简 单介绍了国内外语音识别的研究现状和发展趋势;给出了课题的研究目标、研 究内容及论文结构安排。 8 第2 章轮椅命令词语音信号的预处理 第2 章轮椅命令词语音信号的预处理 2 i 引言 语音信号的预处理,是把采集进来的原始语音信号,在语音特征参数提取 前进行的前期预备工作,但对整个识别系统的性能有着重要的影响。语音信号 的预处理包括预滤波、语音信号的数字化、预加重处理、分帧、噪声抑制和端 点检测等。预滤波、语音信号的数字化、预加重处理、分帧、噪声抑制等环节 在端点检测之前,为了表述的方便,因此暂且称为端前处理;噪声抑制、端点 检测作为两种重要的预处理,分别单独介绍。 针对轮椅所用的命令词及算法性能测试所需,在低噪声环境下利用w m d o w s 录音设备录制了1 0 个人( 五男五女) 的语音,内容为1 6 个命令词,分别为服 务机器人、阿福、开始、准备、停止、左拐、右拐、前进、后退、加速、减速、 左翻、右翻、倒车、注意、唱歌;在一定噪声环境下对于每个人,每个词的语 音均被采集两次,存储为w a v 文件,分别作为识别算法中的测试语音和模板语 音。 2 2 端前处理 2 2 1 预滤波与数字化 语音信号的频谱主要集中在3 0 0 1 - i z 3 4 0 0 h z 的范围内,为了防止频谱混叠, 一般在进行采样之前需要对输入的语音信号作预滤波处理,预滤波的目的有两 个【1 1 1 : ( 1 ) 抑制输入信号各频域分量中频率超出厂。2 的所有分量,其中,。为 采样频率,以防止频率混叠干扰。( 2 ) 抑 1 6 j j s o m 或6 0 h z 的电源工频干扰。预滤 波器必须是一个带通滤波器,设其上、下截止频率分别是厂。和厂,根据不同 的应用要求和场合,厂。和厂,取不同的值。 预滤波后,再进行语音信号的数字化,如图2 1 所示。 图2 1 语音信号的致字化 第2 章轮椅命令词语音信号的预处理 语音信号的数字化是语音信号数字处理的前提,语音信号的数字化包括两 个步骤:采样和量化。以厂的采样频率对语音信号采样,然后对信号进行量化, 就可以得到离散时域的语音信号。 在实际系统中,语音信号由话筒输入给计算机系统或硬件实现平台,原始 语音信号被以一定的频率进行数据采样,然后进行a d 转换,将转换后的语音原 始数据存储起来。“服务机器人”的数字语音信号如图2 2 所示。 图2 2 服务机器人的数字语音信号 2 2 2 预加重 由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,高频端大约在 8 0 0 h z 以上按6 d b 倍频程跌落,为此要在预处理中进行预加重。预加重的目的是 提升高频部分使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用 同样的信噪比求频谱,以便于进行频谱分析或声道参数分析1 2 1 。预加重可在a d 变换前,在预滤波之后进行,也可在a d 变换之后进行。语音信号数字化时在反 混叠滤波器之前进行,这样不仅可以进行预加重,而且可以压缩信号的动态范 围,有效地提高信噪比。但是预加重一般是在语音信号数字化之后,用具有6 d b 倍频程的提升高频特性的预加重数字滤波器实现,它一般是一阶的,即: 日( z ) = 1 一z - 1( 2 1 ) 式中,值接近于1 ,本文选取u 值为0 9 3 7 5 ,数字语音“服务机器人”经 过预加重后的波形如图2 3 所示。 第2 章轮椅命令词语音信号的预处理 如图2 | 3 服务机器人的预加重信号 2 2 3 加窗分帧 由于语音信号是非平稳过程,是时变的,但是人的发音器官的肌肉运动速 度较慢,所以语音信号可以认为是局部平稳的,或短时平稳的。因此,语音信 号分析常分段或分帧来处理,一般每秒的帧数约为3 3 1 0 0 ,视实际情况而定, 分帧既可用连续的,也可用交叠分段的方法,在语音信号分析中常用“短时分 析”表述【2 】。本文中采用交叠分段的方法,可以保证帧与帧之间平滑过渡,保持 其连续性。每帧的长度称为帧长,相邻两段交叠的部分称为帧移,帧长和帧移 对应的点数由于采样频率的差异而不同,本文采取的帧长为2 5 6 ,帧移为8 0 。数 字语音“服务机器人”经分帧得到的帧数为6 6 5 。 信号流的分帧是采用可移动的有限长度的窗口进行加权的方法来实现的。 这就是用一定的窗函数缈( 疗) 来卷积x ( n ) ,x 。( 功= m ( 月) + 工( 甩) 即是形成的加窗语 音信号。在语音信号数字处理中常用的窗函数是矩形窗和汉明窗,它们的表达 式如下( 其中为梭长) : 矩形窗: 删= 1 。眶姑 亿z , 口( 疗) :0 5 4 - 0 , 4 6 c o s ( n - - 备1 ) l0 0 厅 ( 2 3 ) 其他 窗函数c o ( n ) 的选择,对于短时分析参数的特性影响很大。当窗d - k 度太 大时,它等效于很窄的低通滤波器,不能真实反映语音信号的幅度变化:反之, 第2 章轮椅命令词语音信号的预处理 若太小时,滤波器的通带变宽,短时能量随时间有急剧变化,不能得到平滑 的能量函数。矩形窗频谱高频成分必将影响语音信号的高频部分,一般用高频 分量幅度较小的窗形,以避免这些影响。汉明窗对原语音特性的影响要比矩形 窗小得多1 2 1 1 。本文选用2 5 6 个采样点长度的汉明窗。长度为2 5 6 个点的矩形窗与 汉明窗的波形及加汉明窗后“服务机器人”数字语音的第l o 帧信号波形如图2 4 所示。 1 0 5 0 x1 矿 1 0 01 5 02 矩形窗与汉明窗波形 01 0 01 5 02 0 02 姗 加汉明窗的信号波形 图2 4 矩形窗与汉明窗波形及加窗后第1 0 帧效果图 经过端前处理后,语音信号就已被分割成一帧一帧的加过窗的短时信号, 把每一个短时语音帧看作平稳的随机信号,这样就可以进行端点检测,然后逐 帧地提取语音信号的特征矢量,最后得到由每一帧参数组成的语音特征参数的 矢量序列。 2 3 噪声抑制 大多数实际应用环境中总是存在各种各样的噪声,由于训练环境与识别环 境不匹配,现有的绝大多数语音识别系统在噪声环境中的性能都不可避免地急 剧下降。环境噪声已经成为语音识别技术逐渐走向实用化的一个主要障碍,因 此寻求一种合理有效的方法滤出信号噪声是语音识别系统获得良好识别性能、 实用化的重要基础和重要前提。 传统的降噪方法主要包括线性滤波方法和非线性滤波方法,如中值滤波和 w i e n e r 滤波等。传统降噪方法的不足在于使信号变换后的熵增高、无法刻画信 号的非平稳特性并且无法得到信号的相关性。为了克服上述缺点,人们开始使 第2 章轮椅命令词语音信号的预处理 用小波变换解决信号降噪问题 2 2 1 。小波变换具有下列良好特性: ( 1 ) 低熵性:小波系数的稀疏分布,使信号变换后的熵降低; ( 2 ) 多分辨率特性:可以非常好地刻画信号的非平稳性,如边缘、尖峰等; ( 3 ) 去相关性:可取出信号的相关性,且噪声在小波变换后有白化趋势, 所以比时域更利于去噪; ( 4 ) 选基灵活性:由于小波变化可以灵活选择基函数,因此可根据信号特 点和去噪要求选择适合小波。 小波在信号去噪领域己得到越来越广泛的应用。阈值去噪方法是一种实现 简单、效果较好的小波去噪方法。阈值去噪方法的思想就是对小波分解后的各 层系数中模大于和小于某阈值的系数分别处理,然后对处理完的小波系数再进 行反变换,重构出经过去噪后的信号。 下面针对阈值去噪步骤、阈值处理方法、阈值选择规则及阈值重整方法分 别介绍如下; 般地,一个含噪的一维信号模型可表示为如下形式: j ( 七) = 厂( 七) + 占,g ( 七) ,k = o ,l ,胛一1 ( 2 4 ) 式( 2 4 ) 中,( 七) 为有用信号,e ( k ) 为噪声信号,s ( k ) 为含噪信号。 语音信号是声压随时间变化的一维信号。一般而言,小波阈值去噪的过程 可分为如下3 个步骤:, ( 1 ) 信号的小波分解。选择一个小波并确定分解的层次n ,然后对信号进 行n 层小波分解计算。 ( 2 ) 小波分解高频系数的闽值量化。对各个分解尺度下的高频系数选择一 个阈值进行软阈值量化处理。 ( 3 ) 一维小波重构。根据小波分解的底层低频系数和各层高频系数进行一 维小波重构。 在以上3 个步骤中,最关键的是如何选择阈值及如何进行阈值量化,在某种 程度上,它关系到信号降噪的质量。小波分析进行阈值处理一般有下述3 种方法: ( 1 ) 默认阈值消嗓处理。采取默认阈值,可信度较低。 ( 2 ) 给定阈值消噪处理。在实际的消噪处理过程中,阈值往往可通过经验 公式获得,且这种阈值比默认阈值的可信度高。 ( 3 ) 强制消噪处理。该方法是将小波分解结构中的高频系数全部置为o , 第2 章轮椅命令词语音信号的预处理 即滤掉所有的高频部分,然后对信号进行小波重构。这种方法比较简单,且消 噪后的信号比较平滑,但是容易丢失信号中的有用成分。 阈值选择规则有以下4 种: ( 1 ) 使用s t e i n 的无偏似然估计原理进行自适应阈值r i 掣s u r e 选择。给定一个 阈值t ,得到它的似然估计,再将非似然f 最小化,就可得到所选的阈值。这是 一种软件阈值估计器。 ( 2 ) 阈值为s q r t ( 2 l o g ( 1 e n g t h ( x ) ) ) 的固定阈值s q t w o l o g 选择。 ( 3 ) 最优预测变量阈值h e m s u r e 选择,其是前两种阈值的综合,如果信噪比 很小,在这种情况下,采用这种固定的阈值形式比较好。 ( 4 ) 极大极小原理选择阈值m i n i m a x i 。产生一个最小均方差的极值,而不 是无误差。在统计学上,这种极值原理常用来设计估计器。因为被降噪的信号 可以看作是与未知回归函数的估计式相似,这种极值估计器可在给定的函数中 实现最大均方误差最小化。 由于小波分解是分层次逐级进行的,闽值选定后,每一层系数采用的阈值 是否需要重新调整,就是阈值重调问题,阈值重调问题对去噪效果同样产生重 要的影响,一般有三种情况: ( 1 ) 不需要重新调整( 记为“o n e ”) ,这种情况主要用于噪声为标准高斯白 噪声n ( o ,1 ) 的情形。 ( 2 ) 只调整小波分解的第一层的阈值( 记为“s i n ”) ,这种情况主要用于 噪声为方差未知的白噪声情形。 ( 3 ) 在每一层都重新调整闽值( 记为“m l n ”) ,这主要用于噪声为非白噪 声的情形。 对于语音信号,在实验考察的离散小波系中,采用s y m 8 d , 波取得的去噪效 果最好;大多数情况下,采用5 层分解去噪后可以得到相当令人满意的信噪比: 在相应的阈值选择规则和阈值重调方法中,采取h e u r s u r e 阈值、“s l i l ”阈值重调 方法可以得到最优的去噪性能 2 4 - 2 6 1 。 对于含噪语音信号“服务机器人”,选用s y m 8 d 、波对其进行5 层分解,采用 h e u r s i 】r e 阈值选取规则和“s l n ”阈值重调方法进行降噪,降噪效果如图2 5 所示。 第2 章轮椅命令词语音信号的预处理 图2 5 小波阙值降噪效果 2 4 端点检测 语音信号的端点检测是语音识别必要的预处理过程。语音信号处理中的端 点检测技术就是检测出语音信号的起始点及结束点,有效的端点检测技术不仅 能减少系统的处理时间、提高系统的处理实时性,而且能排除无声段的噪声干 扰,从而使后续的识别性能得以较大提高。语音的端点检测在语音识别中起着 非常重要的作用,直接影响着后续工作的正确率。 端点检测的进行首先基于语音信号的特征来判断信号流中的语音非语音 信号;其次在信号流中检测到语音信号后,判断此处是否是语句的开始或结束 点。 个优秀的端点检测算法应该能够满足f l l 】: ( i ) 门限值应该可以对背景噪声的变化有一定的适应。 ( 2 ) 将短时冲击噪声和人的咂嘴声等瞬间超过门限值的信号纳入无声段而 不是有声段。 ( 3 ) 对于爆破音的寂静段。应将其纳入语音的范围而不是无声段。 ( 4 ) 应该尽可能避免在检测中丢失鼻韵和弱摩擦音等与噪声特性相似、短 时参数较少的语音。 第2 章轮椅命令词语音信号的预处理 ( 5 ) 应该尽可能避免使用过零率作为判决标准而带来的负面影响。 本文采用结合短时能量和短时平均过零率的一种双门限端点检测算法,在此 之前,先介绍算法中使用的两个特征参数:短时能量与短时平均过零率。 2 4 1 短时能量 短时能量序列反映了语音振幅或能量随着时间缓慢变化的规律。短时能量 的定义如下【2 7 l : e ,= b ,( 打) ) 2 ( 2 5 ) n - 0 式( 2 5 ) 中,e ,为第帧语音信号的短时能量,_ ,为帧的编号;x j ( n ) 为原 样本序列x ( n ) 从,时刻起,由长度为的窗口c o ( n ) 所切取出的短时语音段。 短时平均能量特征的用途有i 硼: ( 1 ) 用于区分清音段与浊音段。因为语音为浊音时短时能量值要比清音大 的多,根据语音信号短时能量值的变化情况可大致判定清音变为浊音与浊音变 为清音的时刻。 ( 2 ) 在高信噪比的语音信号里,可以区分有无语音。此时,无语音信号的 噪声能量很小,而有语音信号的能量值很显著地增大某一数值,由此可以区分 语音信号的起始点和终止点。 综上所述,若将语音分帧后计算每帧的短时能量,再设定一个门限,就可 以实现一个简单的端点检测算法。但这样的算法是很不可靠的。语音和噪声的 区别可以体现在它们的能量上,语音段的能量比噪声段能量大,语音段的能量 是噪声段能量叠加语音声波能量的和。在信噪比很高时,如果环境噪声和系统 输入噪声比较小,能够保证系统的信噪比相当高,那么只要计算输入信号的短 时能量或短时平均幅度就能够把语音段和噪声背景区分开。但低信噪比情形下, 此算法就将失效捌。另外,人的语音分清音和浊音两种,浊音为声带振动发出, 对应的语音信号有幅度高、周期性明显的特点,而清音则不会有声带的振动, 只是靠空气在口腔中的摩擦、冲击或爆破而发声,其短时能量一般比较小,往 往会被基于能量的算法漏过去。 2 4 2 短时平均过零率 过零分析是语音时域分析中最简单的一种,顾名思义,过零就是信号通过 第2 章轮椅命令词语音信号的预处理 零值。对于连续语音信号,可以考察其时域波形通过时间轴的情况。而对于离 散时间信号,当相邻的两次抽样具有不同的代数符号时就称为发生了过零,由 此可以计算过零率,过零率是指单位时间内信号由正变负、由负变正的总次数。 短时过零率是一帧信号中波形穿越零电平的次数,它描述了信号波形在幅度上 变化的剧烈程度。可以用相邻的两个取样值改变符号的次数来计算如下【3 1 j : z c r ( j ) = l s g n x 知) 卜s g n x 如一圳 ( 2 6 ) 式( 2 6 ) 中,z c r u ) 表示第,帧语音信号的短时平均过零率,- 为帧的编 号;x ,( ,f ) 为原样本序列x ( n ) 从,时刻起,由长度为的窗口a , c n ) 所切取出的短 时语音段。 s 醇【】是符号函数,即: s 卧】= 1 _ 1 怒笔 ( z 9 过零率有两类重要的应用 3 2 2 , 3 :第一,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 团队目标转化为主管工作计划的具体方法
- 高效能人士工作计划与时间管理技巧-借鉴成功经验
- 无损检测员磁粉-MT-中级工作计划及安排
- 品牌推广活动计划及媒体合作方案
- 2025年师范英语考研真题及答案
- 项目投融资风险评估分析报告
- 年度品质管理工作总结撰写指南
- 推拿拔罐一体机创新创业项目商业计划书
- 挖掘机械高效能发动机创新创业项目商业计划书
- 多功能塑料浴室置物篮创新创业项目商业计划书
- 社工服务保密协议书
- 护理给药制度
- 2025年康复治疗师职业考试试卷及答案
- 销售提成制度管理制度
- 农村集体经营性建设用地入市试点
- 浙江首考2025年1月普通高等学校招生全国统一考试 历史 含解析
- 《综合实践 记录我的一天-淘气的一天》(教学设计)-2024-2025学年数学一年级上册北师大版2024
- 2025年团课结业考试试题及答案
- 警车安全驾驶课件大全
- 《烹饪概论》(第二版)课件:项目5 烹饪工作者-饮食文化的创造者和传承者
- 外科学-外科感染
评论
0/150
提交评论