




已阅读5页,还剩65页未读, 继续免费阅读
(通信与信息系统专业论文)嵌入式语音识别系统的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
武汉理工大学硕士学位论文 摘要 近年来语音识别的嵌入式应用受到业界和用户日益广泛地关注,嵌入式语 音识别的应用形式和领域不断拓展。通常在以计算机为语音识别处理平台的系 统中,一般采用隐含马可夫模型进行语音识别,该算法需要进行大量的前期训 练工作,需要系统具有较高的运算速度和庞大的系统存储资源。这对于那些需 要识别的语音命令不多的特定应用场合,无疑是很不经济的,使用起来也不方 便。根据嵌入式设备运算能力和存储资源都较小的特性,本文研究了适合嵌入 式小词汇量语音识别系统的相关技术。 介绍了语音识别系统的相关理论。包括语音预处理、端点检测、特征参数 提取,模板匹配等方面。具体研究了l p c c 、m f c c 特征参数提取的相关理论, 短时能量和过零率相结合的端点检测方法,以及适合于嵌入式小词汇量语音识 别系统的动态时间规整的原理以及实现方法等。 分析了适合进行嵌入式语音识别应用的硬件平台。d s p 芯片是专门为进行 数字信号处理计算而设计开发的一种芯片,故使用d s p 芯片的硬件平台比较适 合于语音识别的嵌入式应用。 研究了改进d t w ( 端点放松) 和改进模板匹配( 使用双模板) 的方法,并 对不同特征提取方法( l p c c 和m f c c ) 、不同建模方法( 单模板和双模板) 和 不同模板匹配算法( 传统d t w 和改进d t w 算法) 相组合的8 种方案进行了仿 真实验和分析,结果表明本文所研究的方法的识别率达到了9 7 9 9 ,是可 以满足实用化要求的。特别是使用了改进的建模方法和改进的模板匹配方法后, 识别率可以达到9 8 7 5 以上。在使用改进方法时,识别率会有所提高,但计算 量会有相应的增加。所研究的几种方案都基本能满足实用化要求,为语音识别 的嵌入式应用提供了参考依据。可以应用到许多嵌入式系统中去,在家电语音 遥控、玩具、p d a 、智能仪器及移动电话等领域内有着非常好的应用前景。 关键词:语音识别;嵌入式;动态时间规整;线性预测倒谱参数; 美尔频标倒谱参数 武汉理工大学硕士学位论文 a b s t r a c t i nr e c e n ty e a r s ,e m b e d d e ds p e e c hr e c o g n i t i o ns y s t e ma t t r a c t sm o r ea n dm o r e a t t e n t i o nf r o mt h ei n d u s t r ya n dn s a s t h ef o r m sa n dt h ea p p l i c a t i o nf i e l do f e m b e d d e ds p e e c hr e c o g n i t i o na r ce x p a n d i n g u s u a l l yi nt h ec o m p u t e rp r o c e s s i n g p l a t f o r mf o rv o i c e 心c o g i l i t i o ns y s t e m s , h i d d e nm a r k o vm o d e lc o m m o n l yu s e di n s p e e c hr e c o g n i t i o n n 圮a l g o r i t h mr e q u i r e sal o to fp r e p a r a t o r yt r a i n i n g a n dh i g h s y s t e mc o m p u t a t i o n a ls p e e da n dh u g es t o r a g es y s t e mr e s o u r e 君s t h i si s n o t e c o n o m i c a la n dc o n v e n i e n tf o rt h eo c c a s i o n st h o s ew h i c hd o n tn e e dr e c o g n i z em u c h v o i c ec o m m a n d s a c c o r d i n gt op r o p e r t i e so ft h ee m b e d d e dd e v i c e st h a tb o t h c o m p u t ea b i l i t ya n ds t o r a g er e s o u r c e si sn o te n o u 出r e l a t e dt e c h n o l o g i e so ft h e s m a l l - v o c a b u l a r ys p e e c hr e c o g n i t i o ns y s t e mf o re m b e d d e da r es t u d i e di nt h i sp a p e r t h er e l a t e d t h e o r y o ft h es p e e c h r e c o g n i t i o ns y s t e m , i n c l u d i n gv o i c e p r c t r e a t m e n t ,e n d p o i m d e t e c t i o n , f e a t u r ee x t r a c t i o n , t e m p l a t em a t c h i n ga r e i n t r o d u c e d n l cr e l a t e dt h e o r i e so fl p c c 匝c cp a r a m e t e re x t r a c t i o n , s h o r t - t e r m e o c r g ya n d z i or a t ec o m b i n e dv o i c ee n d p o i n td e t e c t i o nm e t h o d sa n dt h ep r i n c i p l e a n dr e a l i z a t i o no ft h ed y n a m i ct i m ew a r p i n gs u i tf o rs m a l l - v o c a b u l a r ye m b e d d e d s p e e c hr e c o g n i t i o ns y s t e mi se s p e c i a l l ya n a l y z e d t h eh a r d w a r ep l a t f o r ms u i tf o rt h ea p p l i c a t i o no f e m b e d d e dv o i c er e c o g n i t i o ni s a n a l y z e d d s pi sd e s i g n e ds p e c i a l l yf o rt h ed i g i t a ls i g n a lp r o c e s s i n gc a l c u l a t i o n s o h a r d w a r ep l a t f o r m 、撕md s pi sm o r es u i t a b l ef o rt h ea p p l i c a t i o no f e m b e d d e ds p e e c h r e c o g n i t i o ns y s t e m t h ei m p r o v e dd t w ( e n d p o i n tr e l a x ) ,a n di m p r o v e dt e m p l a t em a t c h i n g ( u s i n g d o u b l et e m p l a t e s ) a s t u d i e d e i g h ts c h e m e sc o m b i n e db yd i f f e r e n tf e a t u r e e x t r a c t i o nm e t h o d s ( l p c ca n dm f c c ) ,d i f f e r e n tm o d e l i n gm e t h o d s ( s i n g l et e m p l a t e a n dd o u b l et e m p l a t e ) a n dd i f f e r e n tt e m p l a t em a t c h i n ga l g o r i t h m ( t r a d i t i o n a ld t w a n di m p r o v e dd t w ) a r es i m u l a t e da n da n a l y z e d t h er e s u l ts h o w st h a t t h e r e c o g n i t i o nr a t eo ft h i sm e t h o dr e a c h e s9 7 0 0 - 9 9 e s p e c i a l l y , t h er e c o g n i t i o nm t e c a nr e a c hm o r et h a n9 8 7 5 w h e nt h ei m p r o v e dm o d e l i n ga n di m p r o v e dt e m p l a t e 亟堡望三奎兰堡主兰垡垒奎 m a t c h i n gm e t h o di su s e d a n di tm e e t st h ea p p l i c a t i o nr e q u i r e m e n t s 叼 v h e ni m p r o v e d m e t h o d sf i l eu s e d , t h er e c o g n i t i o nm t ew i l li n c r e a s e b u tt h e r ew i l lb e a c o r r e s p o n d i n gi n c r e a s ei nc a l c u l a t i o n t h e s er e s e a r c h e ds c h e m e sm e e tt h ep r a c t i c a l r e q u i r e m e n t se s s e n t i a l l y a n dt h e yp r o v i d ear e f e r e n c et ot h ea p p l i c a t i o no f e m b e d d e ds p e e c hr e c o 鲥t i o ns y s t e m t h e yc a l lb ea p p l i e dt om a n ye m b e d d e d s y s t e m , a n dh a v eag o o dp r o s p e c ti na r e a so f v o i c ec o n t r o li nh o m ea p p l i a n c e s ,t o y s , p d a , m o b i l ep h o n e sa n di n t e l l i g e n td e v i c e se t c k e yw o r d s :s p e e c hr e c o g n i t i o n ;e m b e d d e d ;d t w ;l p c c ;m f c c m 此页若属实请申请人及导师签名。 独创性声明 本人声明,所呈交的论文是我个人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢 的地方外,论文中不包含其他人已经发表或撰写过的研究成果, 也不包含为获得武汉理工大学或其它教育机构的学位或证书而使 用过的材料。与我一同工作的同志对本研究所做的任何贡献均已 在论文中作了明确的说明井表示了谢意。 研究生签名:亟荛盟日期丝! :! ! 关于论文使用授权的说明 本人完全了解武汉理工大学有关保留、使用学位论文的规定, 即:学校有权保留送交论文的复印件,允许论文被查阅和借阅; 学校可以公布论文的全部内容,可以采用影印、缩印或其他复制 手段保存论文。 ( 保密的论文在解密后应遵守此规定) 研究生签名 注:请将此 期丝丑:! 武汉理工大学硕士学位论文 第1 章绪论 1 1 课题的研究背景、目的和意义 随着计算机软硬件技术、半导体技术、电子技术、通信技术和网络技术等 的飞速发展,人类已经进入后p c 时代。这个时代一个典型的特征就是:各种 新型智能化的设备日益广泛地走进人们的工作和生活,而人与这些智能化终端 之间的自然、快捷、稳定可靠的交互方式有助于提高人机交互的效率,增强人 对智能化设备的控制。作为人机交互最自然的方式,语音技术的研究近几十年 来取得了长足的进展,其中语音识别由于其重要性和研究的难度更成为研究的 热点【l 】。 语音识别应用的形式很多,目前主要分两大类:一是作为文稿数据的纯输 人转换工具,如口述输入文稿或电子邮件等,其语音并不对机器实施控制,因 此对语言“理解”的要求不高,重在正确地将输人转换为储存,器件所需词汇 处理容量较大,如p c 机中普遍应用的m m 语音输人软件,处理能力可达1 5 万单词;二是对口述语言中所包含的要求或询问加以理解,作出正确响应,而 不拘泥于所有词的正确转换,如手机语音拨号、t v 音控选台、音控开关等,为 减少设备内存并加快“理解”响应速度,器件的词汇容量往往被简化处理,目 前最大不过数千单词,绝大多数不到一百个单词。上述的后一种应用,虽然语 音处理量小,但却为形形色色的电器设备提供了更为灵便( 徒手化) 、微型( n - i 省略手动键盘按钮空间) 、高效( 提高输人和指令控制速度) 的人机界面,因而 使设备更具亲和力、人性化,如只需通过语言就可调节空调温度、选择电视频 道等。这种语音识别器件与其他各种设备的“联姻”,就是所谓的语音识别的嵌 入式应用1 2 1 。 嵌入式语音识别系统可广泛应用于语音导航、语音拨号、智能家电和玩具 的语音控制等领域。嵌入式语音识别系统是指应用各种先进的微处理器在板级 或是芯片级用软件或硬件实现语音识别技术。语音识别系统的嵌入式实现要求 算法在保证识别效果的前提下尽可能优化,以适应嵌入式平台存储资源少、实 时性要求高的特点。实验室中高性能的大词汇量连续语音识别系统代表当今语 武汉理工大学硕士学位论文 音识别技术的先进水平。但由于嵌入式平台在资源和速度方面的限制,其嵌入 式实现尚不成熟。而中小词汇量的命令词语音识别系统由于算法相对简单,对 资源的需求较小,且系统识别率和鲁棒性较高,能满足大多数应用的要求,因 而成为嵌入式应用的主要选择【l 】。 嵌入式语音识别系统有助于提高人机交互的效率,增强人对智能化设备的 控制,具有广阔的市场应用前景。分析语音识别系统嵌入式实现的最小运算量、 最低存储资源和系统优化的方法和方向,为语音识别系统板级及芯片级的设计 开发提供参考依据。对系统进行算法的改进、模型的压缩、数据结构的精简和 代码优化之后,能大大降低系统实现平台的资源配置要求,并保证较高的实时 性能。可以进一步降低嵌入式语音识别系统的成本,提高实时性能,增强市场 竞争力。 1 2 语音识别系统的国内外研究现状 语音识别技术是2 0 0 0 年至2 0 1 0 年信息技术领域十大重要技术之一,语音 识别正逐步成为信息技术中人机接口的关键技术,语音识别技术的应用已经成 为一个具有竞争性的新兴高技术产业。语音识别是模式识别的一种,它是让机 器通过识别和理解过程将语音信号转变成相应的模型参数。作为一个专门的研 究领域,语音识别又是一门交叉学科。它与语音学、语言学、数字信号处理、 模式识别、最优化理论、计算机科学等众多学科紧密相连,是一门既有理论价 值又有实际意义的学科。 语音识别的研究工作大约开始于2 0 世纪5 0 年代,当时a t & t 贝尔实验室 实现了第一个可识别十个英文数字的语音识别系统一a l l d r y 系统。 2 0 世纪6 0 年代,计算机的应用推动了语音识别的发展。这个时期的重要 成果是提出了动态规划( d y n a m i cp r o g r a m m i n g ,d p ) 和线性预测分析技术 ( l i n e a rp r e d i c t i o n , l p ) ,其中后者较好地解决了语音信号产生模型的问题,对 语音识别的发展产生了深远影响。 2 0 世纪7 0 年代,语音识别领域取得了突破。在理论上,线性预测技术得 到进一步发展,动态时间规整技术( d y n a m i ct u n ew r a p ,d t w ) 基本成熟,特 别是提出了矢量量化( v e c t o rq u a n t i z a t i o n , v q ) 和隐马尔可夫模型( h i d d e n m a r k o vm o d e l , m 似) 理论。在实践上,实现了基于线性预测倒谱和d t w 技 2 武汉理工大学硕士学位论文 术的特定人孤立语音识别系统。 2 0 世纪8 0 年代,语音识别研究进一步走向深入,其显著特征是h m m 模 型和人工神经网络( a r t i f i c i a l n e u r a l n e t w o r k , a n n ) 在语音识别中的成功应用。 h m m 模型的广泛应用应归功于a t & t 贝尔实验室r a b i n e r 等科学家的努力, 他们把原本艰涩的h m m 纯数学模型工程化,从而为更多研究者了解和认识。 a n n 和h m m 模型建立的语音识别系统性能相当【6 1 1 7 。 2 0 世纪9 0 年代,随着多媒体时代的来临,迫切要求语音识别系统从实验 室走向实用。许多发达国家如美国、日本、韩国以及i b m ,a p p l e ,a t & t ,n 兀 等著名公司都为语音识别系统的实用化开发研究投以巨资。 近年来语音识别的嵌入式应用受到业界和用户日益广泛地关注,众多世界 著名大公司纷纷涉足嵌入式语音市场的开发与竞争,嵌入式语音识别的应用形 式和领域不断拓展,已成为电脑、电视、洗衣机、p d a 、服务器、移动电话、 固定电话、智能玩具、m p 3 播放机、机器人等各种电子电器设备实现功能升级 而取悦市场的新支点、新亮点【1 0 】【1 1 】f l2 1 。尤其是语音嵌人汽车导航控制的趋势, 预示着嵌入式语音识别市场化更广阔的前景,如德国梅塞德斯公司已尝试在其 新款e 系列轿车上配备这种新型语音导航系统,可识别8 0 0 个地名,车内驾乘 人员只需要说出目的地,导航系统便能很快找出最佳路线,而后在行驶过程中 的每个路口均给出语音提示,并在仪表盘旁的屏幕上显示出相关路线。而美国 m m 公司则与世界著名的日本本田汽车公司签订协议,将目前语音识别领域最 先进的i b mv i a v o i c e 与汽车导航系统合为一体,其目的不仅要使汽车能受音控 而自动开关车门、选择行车路线、加油站,而且汽车也能以语音应答,对司机 的语音标准度将进一步降低,趋于日常化、生活化。未来嵌入式语音识别要向 连续语音、大词表、非特定人的识别方向发展 2 1 。 我国语音识别研究工作一直紧跟国际水平,国家也很重视,近年来发展很 快。研究水平也从实验室逐步走向实用。从1 9 8 7 年开始执行国家8 6 3 计划后, 国家8 6 3 智能计算机专家组为语音识别技术研究专门立项,每两年滚动一次。 我国语音识别技术的研究水平已经基本上与国外同步,在汉语语音识别技术上 还有自己的特点与优势,并达到国际先进水平。中科院自动化所、声学所、清 华大学、北京大学、哈尔滨工业大学、上海交通大学、中国科技大学、北京邮 电大学、华中科技大学等科研机构都有实验室进行过语音识别方面的研究,其 中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识 3 武汉理工大学硕士学位论文 别国家重点实验室【3 】。 清华大学电子工程系语音技术与专用芯片设计课题组,研发的非特定人汉 语数码串连续语音识别系统的识别精度,其性能已经接近实用水平。中科院自 动化所及其所属模式科技( p a t t e k ) 公司2 0 0 2 年发布了他们共同推出的面向不 同计算平台和应用的“天语”中文语音系列产品p a 仳c ka s r ,结束了中文 语音识别产品自1 9 9 8 年以来一直由国外公司垄断的历史。目前国内有多家生产 嵌入式语音识别产品和提供嵌入式语音识别技术的公司或研究机构 9 1 。 近年来,一些语音识别系统在通讯、金融、公安、财政、保密和消费电子 等方面有了一定程度的应用。但是由于语音信号具有时变特性,同时,语音信 号随说话人( 说话人特征、社会背景、方言,说话速度、说话情绪、说话方式) 、 声学环境( 背景话语、背景噪声等) 、话筒( 谱特性、非线性、电噪声、方向性) 、 用户与语音识别系统之间的通信信道( 谱失真、加性噪声、回声) 的改变而变 化极大,使得语音识别仍然存在识别率不高、鲁棒性较差等问题,因此语音识 别的产品化、商业化、实用化仍然面临巨大的困难和挑战【4 】【5 】。特别是在嵌入式 应用中,由于嵌入式平台计算能力和存储资源配置的限制,语音识别的应用还 有许多亟待解决的问题。 1 3 本文的主要工作和组织结构 1 3 1 主要工作 本文的主要工作是研究了适合于嵌入式语音识别系统的相关理论和方法。 研究了适合于嵌入式语音识别运用的硬件平台。提出了一种改进的建模方法, 即使用双模板的方法。并针对不同特征提取方法( l p c c 和枷f c c ) 、不同建模 方法( 单模板和双模板) 和不同模板匹配算法( 传统d t w 和改进d t w 算法) 相组合的8 种方案进行了分析和比较,为构建嵌入式语音识别系统提供了参考 依据。最后指出了在嵌入式应用中应注意或可改进的地方。 1 3 2 组织结构 本文第一章介绍了嵌入式语音识别系统的研究现状和本文研究课题的意 义。第二章从语音信号与处理、特征参数提取以及训练与识别这三个方面研究 4 武汉理工大学硕士学位论文 了语音识别系统的相关原理。第三章研究了语音端点检测的几种方法,并着重 研究了适合于嵌入式语音识别的端点检测方法。第四章研究了适合构建嵌入式 语音识别系统的硬件平台。第五章对嵌入式语音识别系统的软件设计进行了详 细的说明,并对实验结果作了相关分析。最后对本文的研究工作进行了总结和 展望。 5 武汉理工大学硕士学位论文 2 1 概述 第2 章语音识别系统的基本原理 语音识别是机器通过识别和理解过程把人类的语音信号转变为相应的文本 或命令的技术。其根本目的是研究出一种具有听觉功能的机器,这种机器能直 接接受人的语音,理解人的意图,并做出相应的反应。从技术上看,它属于多 维模式识别和智能接口的范畴。语音识别技术是一项集声学、语音学、计算机、 信息处理、人工智能等于一身的综合技术,可广泛应用在信息处理、通信与电 子系统【3 】。 让机器听懂人类的语言,一直是人们追求的目标。要达到这一目标面临着 诸多的困难。这些困难具体表现在: ( 1 ) 语音信号的声学特征随与之前后相连的语音的不同而有很大的变化,且 连续语音流中各语音单位之间不存在明显的界线; ( 2 ) 语音特征随发音人的不同、发音人生理或心理状态的变化而有很大的差 异; ( 3 ) 环境噪声和传输设备的差异也将直接影响语音特征的提取; ( 4 ) 一个语句所表达的意思与上下文内容、说话时的环境条件及文化背景等 因素有关,而语句的语法结构又是多变的,并且语境信息几乎是计算机语音识 别无法利用的,所有这些都给语意的理解带来很大的困难。 语音识别技术解决将语音信号转换为计算机可处理的信息的问题。根据识 别方式和应用范围的不同,语音识别系统可以有多种不同的实现方式: ( 1 ) 按说话人分,可分为特定说话人和非特定说话人两种。前者只能识别固 定某个人的声音。其他人要想使用这样的系统,必须事先输入大量的语音数据, 对系统进行训练;而对后者,机器能识别任意人的发音。由于语音信号的可变 性很大,这种系统要能从大量的不同人( 通常3 0 4 0 人) 的发音样本中学习到 非特定人的发音速度、语音强度、发音方式等基本特征,并归纳出其相似性作 为识别的标准。使用者无论是否参加过训练都可以共用一套参考模板进行语音 识别。从难度上看,特定说话人的语音识别比较简单,能得到较高的识别率, 6 武汉理工大学硕士学位论文 并且目前已经有商品化的产品;而非特定人识别系统,通用性好、应用面广, 但难度也较大,不容易获得较高的识别率。 ( 2 ) 按照词汇量大小来分,可以分为小词汇量,中等词汇量和大词汇量三种。 通常1 0 0 以下的为小词汇量系统,1 0 0 以上1 0 0 0 以下为中等词汇量系统,1 0 0 0 词以上为大词汇量系统。 ( 3 ) 按照发音方式分,可以分为孤立词,词组和连续语音识别三种。孤立词 是诸如0 到9 数码,一些菜单操作命令等无语法含义的单个词。目前孤立词的 主要难点是易混淆词的区分技术。词组是若干个孤立词连接而成的含有少量语 法信息的语音串。如数码串,一些简单的短语,成语,命令组合等。连续语音 通常是含有较完整语法信息的连续语句,最接近于人的自然讲话方式。 ( 4 ) 从语音识别的方法分,可以分为模板匹配法、随机模型法和概率语法分 析法三种。这些方法都属于统计模式识别方法。其识别过程大致如下:首先提 取语音信号的特征构建参考模板,然后用一个可以衡量未知模式和参考模板之 间似然度的测度函数,选用一种最佳准则和专家知识做出识别决策,给出识别 结果。其中模板匹配法是将测试语音与参考模板的参数一一进行比较与匹配, 判决的依据是失真测度最小准则。随机模型法是一种使用h m m 来对似然函数 进行估计与判决,从而得到相应的识别结果的方法。由于隐马尔可夫模型具有 状态函数,所以这个方法可以利用语音频谱的内在变化( 如说话速度、不同说 话人特性等) 和它们的相关性。概率语法分析法适用于大范围的连续语音识别, 它可以利用连续语音中的语法约束知识来对似然函数进行估计和判决。其中, 语法可以用参数形式来表示,也可以用非参数形式来表示。 图2 - 1 语音识别系统的原理框图 语音识别系统本质上是一种模式识别系统。它的基本框图如图2 - 1 所示, 与常规的模式识别系统一样,包含有特征提取、模式匹配和参考模式库等三个 7 武汉理工大学硕士学位论文 基本单元。但是由于语音识别系统所处理的信息是结构非常复杂、内容极其丰 富的人类语言信息,因此它的系统结构比通常的模式识别系统要复杂得多。一 个完整的语音识别系统可大致分为4 个部分: ( 1 ) 语音信号预处理与特征提取:其目的是从语音波形中提取出随时间变 化的语音特征序列; ( 2 ) 建立声学模型:通常将获取的语音特征通过学习算法产生; ( 3 ) 模板匹配:在识别时将输入的语音特征同声学模型进行比较,得到最佳 的识别结果: ( 4 ) 语言模型与语言处理:由识别语音命令构成的语法网络,可以进行语 法、语义分析。对小词量语音识别系统,往往不需要语言处理部分。 通常在以计算机为语音识别处理平台的系统中,一般采用隐含马可夫模型 ( h m m ) 进行语音识别,该算法需要进行大量的前期训练工作,需要系统具有 较高的运算速度和庞大的系统存储资源。这对于那些需要识别的语音命令不多 的特定应用场合,无疑是很不经济的,使用起来也不方便。而基于d t w 算法 则容易满足嵌入式应用要求,且基于该算法的语音识别系统的硬件便于实现。 2 2 语音信号预处理 语音信号预处理是负责语音特征参数提取前的准备工作,在对语音信号进 行分析和处理之前,必须对所采集的语音信号进行预处理。预处理包括语音信 号的数字化、反混叠失真滤波、预加重、分帧加窗及端点检测等。 2 2 1 语音信号数字化和滤波 根据n y q u i s t 采样定理,如果模拟信号的频谱带宽是有限的( 例如不包含 高于厶的频率成分) ,那么用不小于2 厶的取样频率进行取样,则能从取样信 号中恢复出原模拟信号。就语音信号而言,浊音语音的频谱一般在4 k h z 以上 便迅速下降,而清音语音信号的频谱在4 k h z 以上频段反而呈上升趋势,甚至 超过了8 k h z ,以后仍然没有明显下降的趋势。因此,为了精确表示语音信号, 一般认为必须保留1 0 k h z 以下的所有频谱成分,这意味着采样频率应当等于或 大于2 0 k h z 。但是在许多实际应用中并不需要采用这么高的取样频率,实验表 明对语音清晰度和可懂度有明显影响的成分,最高频率约为5 7 k h z 。例如i t u 武汉理工大学硕士学位论文 ( i n t e r n a t i o n a lt e l e c o m m u n i c a t i o n u n i o n ,国际电信联盟) 在g7 2 9 中提出的语 音编解码系统采样频率为8 k h z ,只利用了3 4 k h z 以内的语音信号分量,虽然 这样的采样频率对语音清晰度是有损害的,但受损失的只是少数辅音,而语音 信号本身的冗余度又比较大,少数辅音清晰度下降并不明显影响语句的可懂度。 因此语音识别时常用的采样频率为8 k h z ,1 0 k h z 或1 6 k h z 。 语音信号在采样之前要进行预滤波处理。预滤波的目的是: ( 1 ) 低通滤波器抑制输入信号各频率分量中频率超过采样频率一半的分量, 以防止混叠干扰。 ( 2 ) 高通滤波器抑制5 0 h z 的电源噪声干扰。 2 2 2 预加重 由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,高频端大约在 8 0 0 h z 以上按6 d b 倍频程跌落,为此要在预处理中进行预加重脚。进行预加重 的目的就是为了消除声带和嘴唇的效应,来补偿语音信号的高频部分,使信号 的频谱变得平坦。预加重可以在a d 交换前,在反混叠滤波之后进行,也可在 a d 变换之后进行。在数字语音信号处理中,数字语音信号通常都通过一个低 阶的系统( 典型的是一个一阶的f i r 高通滤波器) ,这样可以在频域平滑信号, 使得在信号处理的后面阶段对有限字长效应不是那么敏感。其中数字滤波器的 系数可以是固定的或者是缓慢的自适应的( 例如用来平均传输环境,噪声背景, 甚至是平均信号的频谱) 。而最为广泛应用的预加重系统还是固定的一阶系统, 即 (力=1一az4(2-1) 在上面这个系统中,输出z ( n ) 是输入,( 行) 的一个差分输出。 舅( ,力= x ( 功一( 万一1 ) ( 2 2 ) 式中x ( 玎) 为原始信号序列,舅( 功为预加重后序列,a 为预加重系数,通常a 最 为常用的取值是在0 9 5 附近。 2 2 3 语音信号分帧加窗 由于语音信号是非平稳过程,是时变的,但是人的发音器官的肌肉运动速 度较慢,所以语音信号可以认为是局部平稳的,或短时平稳。因此语音信号分 9 武汉理工大学硕士学位论文 析常分帧来处理,研究发现,语音信号在帧长为1 0 m s 3 0 m s 之内是相对平稳 的,一般每秒的帧数约为3 3 1 0 0 ,视实际情况而定,分帧即可用连续的,也 可用交叠分段的方法,在语音信号分析中常用“短时分析”表述。 对每一帧语音进行加窗是为了减少在每一帧语音的开始和最后的不连贯 性。使用加窗可以使每一帧的开始和最后逐渐变为0 。如果窗函数为“厅) ,则 信号加窗的结果就是: 槲= 似帕0 嚣肛1 ( 2 3 ) 最为典型的应用在语音识别系统中的窗是h a m m i n g 窗,它的窗函数是: 以功:0 5 4 - 0 4 6 c o s ( n 2 - - - 三_ 1 ) ,o ”一l( 2 4 ) t o , 其他 2 2 4 端点检测 端点检测是指用数字处理技术来找出语音信号中的各种段落( 如音素、音 节、词素、词等) 的始点和终点的位置,从语音信号中排除无声段。在汉语中, 主要目的是找出字的两个端点,进而找出其中的声母 1 0 l 。 在语音识别中,端点检测的性能对于识别的正确率、识别速度都有很大的 影响:为使整句的似然得分累计更多的集中在语音段,不被噪音所分散,必须 去除掉静音段,这样有助于识别率的提高;在不断变换的环境下对噪音和静音 建模是非常困难的。准确的端点检测能够事先移除单纯噪音的时段,这对于噪 音和静音模型的精确建立有很大帮助;当所处理信号含过长的非语音时段时, 准确的端点检测可以极大提高计算速度【1 2 】。 端点检测一般要用到的语音特征参数是语音信号的短时能量和短时平均过 零率: ( 1 ) 语音信号的短时能量。语音信号的能量随着时间变化变化比较明显,一 般清音部分的能量比浊音的能量小得多,语音信号的短时能量分析给出了反应 这些幅度变化的一个合适的描述方法。对于信号工( 帕,短时能量的定义如下: 三 e n = p ( 研) 以胛一所) 】2 ( 2 - 5 ) l o 武汉理工大学硕士学位论文 短时能量主要应用于以下几个方面:首先利用短时能量可以区分清音和浊 音,因为浊音的e 要比清音的e 大得多;其次可以用来对有声段和无声段进 行判定,对声母和韵母分界,以及对连字分界等;最后还可以作为一种超音段 信息用于语音识别。 但是,e 值对于高电平信号非常敏感( 因为计算时用的是信号的平方) , 因此在实际使用时需加以处理,例如取对数等,以便将数值限制在一定的范围 内。 ( 2 ) 语音信号的短时平均过零率。它是指每帧信号通过零值的次数。对于连 续语音信号,可以观察其时域波形通过时间轴的情况。对于离散信号,短时平 均过零率实质上就是信号采样点符号变化的次数。短时平均过零率是信号频率 量的一个简单度量。例如:一个频率为昂的正弦信号以只速率抽样,正弦波的 一周内有就有昂e 个抽样,每一周内有两次过零,所以短时平均过零率为: z=2ee(2呦 由于采样频率f 是固定的,因此过零率在一定程度上可以反映出频率的信 息。虽然语音信号不是简单的正弦序列,但是短时平均过零率仍然可以在一定 程度上反映其频谱性质,可以通过短时平均过零率获得谱特性的一种粗略估计。 短时平均过零率的公式为: z = 吉l i s g n ( x ( , o ) 一s g n ( x ( n - 1 ) ) | | ( 2 7 ) 式中,s g n n 是符号函数: 出纠= 豸! 。 因此,短时平均过零率是一个估计正弦频率的适当方法。在语音信号中, 语音产生模型表明,由于声门波引起了谱的高频跌落,所以浊音语音能量约集 中在3 k i - i z 以下,然而对于清音语音,多数能量确实出现在较高的频率上。高 频意味着高的过零率,低频意味着低的过零率,合理的归纳是,过零率高,语 音信号是清音;过零率低,语音信号就是浊音;同时,无声段的过零率变化范 围较大,一般情况下比浊音低一点。 武汉理工大学硕士学位论文 2 3 语音特征参数提取 语音信号完成分帧处理和端点检测后,下一步就是特征参数的提取。在语 音识别中,我们不能将原始波形直接用于识别,必须通过一定的变换,提取语 音特征参数来进行识别,而提取的特征必须满足: ( 1 ) 特征参数应当反映语音的本质特征,对于非特定人语音识别,特征参数 则应尽量不含有说话人的信息。 ( 2 ) 特征参数各分量之间的藕合应尽可能地小,以起到压缩数据的作用。 ( 3 ) 特征参数要计算方便,最好有高效的算法。 语音特征参数可以是能量、基音频率、共振峰值等语音参数,目前在语音 识别中较为常用的特征参数为线性预测倒谱参数( l i n e a rp r e d i c t i 0 1 1c e p s t r u m c o e f f i c i e n t , l p c c ) 与美尔频标倒谱参数( m e lf r e q u e n c yc e p s t r u mc o e f f i c i e n t , m f c c ) 。二者都是将语音从时域变换到倒谱域上,前者从人的发声模型角度出 发,利用线性预测编码( l i n e a rp r e d i c t i o nc o e f f i c i e n t ,l p c ) 技术求倒谱系数。 后者则构造人的听觉模型,以语音通过该模型( 滤波器组) 的输出为声学特征, 直接通过离散傅利叶变换进行变换。 2 3 1 线性预测倒谱皴o l p c c ) l p c c 是l p c 在倒谱域中的表示。该特征是基于语音信号为自回归信号的 假设,利用线性预测分析获得倒谱系数。l p c c 参数的优点是计算量小,易于 实现,对元音有较好的描述能力,其缺点在于对辅音的描述能力较差,抗噪声 性能较差。 由于通过自相关法求得的l p c 系数保证了系统的稳定性,利用这一特性, 可以推导出语音信号的倒谱c ( 玎) 与l p c 系数之间的递推关系: c ( o = a l 咖) = + 荟n - i o 一知咖叫,l n p 式中,p 是l p c 分析的阶数。或是由l p c 得n - 武汉理工大学硕士学位论文 c 眦= c 删( 疗) + 旦三兰( n - 七) c 删( 七) ( 2 1 0 ) k - i 根据同态处理的概念和语音信号产生的模型,语音信号的倒谱c 伽) 等于激 励信号的倒谱;( 甩) 与声道传输函数的倒谱 ( 疗) 之和。通过分析激励信号的语音 特点以及声道。传输函数的零极点分布情况,可知( ) 的分布范围很宽,c ( 栉) 从 低时域延伸到高时域,而 ( 哟主要分布于低时域中。我们知道,语音信号所携 带的语义信息主要体现在声道传输函数上,因而在语音识别中通常取语音信号 倒谱的低时域构成l p c 倒谱特征c ,即 c = 【c ( 1 ) ,c ( 2 ) ,c ( g ) 】,1 0 s q 1 6 ( 2 1 1 ) 式中,q 为l p c 倒谱特征的阶数。 然而l p c c 同时也继承了l p c 的缺陷,其中主要的一点就是l p c 在所有 的频率上那是线性逼近语音的,而这与人的听觉的特性是不一致的;而且l p c 包含了语音高频部的大部分噪声细节,这些都会影响系统的性能。针对以上的 问题提出了m f c c 参数。 2 3 2 美尔频标倒谱# 4 韪t o v w c o m f c c 考虑了人耳的听觉特性,将频谱转化为基于美尔频标的非线性频谱, 然后转换到倒谱域上。由于充分考虑了人的听觉特性,而且没有任何前提假设, m f c c 参数具有良好的识别性能和抗噪能力,但其计算量和计算精度要求高【3 l 。 m f c c 不同于l p c c 。实验证明,在汉语数码语音识别中m f c c 参数的性 能明显优于l p c c 参数。m f c c 是采用滤波器组的方法计算出来的,这组滤波 器在频率的美尔坐标上是等带宽的。这是因为人类在对约1 0 0 0 i - - i z 以上的声音 频率范围的感知不遵循线性关系,而是遵循在对数频率坐标上的近似线性关系。 式( 2 1 2 ) 是美尔刻度与频率的关系式,图2 - 2 给出了二者的关系图。 武汉理工大学硕士学位论文 4 0 0 0 奇3 0 0 0 量 纂2 0 0 0 乓 粼1 0 0 0 0 频率肫 图2 2 美尔刻度与频率的关系 i v l f c c 计算过程如图2 - 3 所示,具体计算步骤如下: 图2 3i v l f c c 计算过程示意图 ( 1 ) 语音信号在经过加窗处理后变为短时信号,用快速傅立叶变换( f a s t f o m i e r t r a n s f o r m , f f t ) 将这些时域信号x ( n ) 转化为频域信号z ( 神,并由此可 以计算它的短时能量谱p ( 力。 ( 2 ) 将e l f ) 由在频率轴上的频谱转化为在美尔坐标上的p ( m ) ,其中m 表 示美尔频率,式( 2 1 2 ) 可以完成该变换。 , m e t ( f ) = 2 5 9 5 1 0 9 - 。( 1 + 靠) ( 2 - 1 2 ) ( 3 ) 在美尔频域内将三角带通滤波器加于美尔坐标得到滤波器组巩,( 七) 。然 后计算美尔坐标上的能量谱p ( m ) 经过此滤波器组的输出; o ( m 小l n l 壹l 础) 1 2 以( 足) i ,j _ 1 ,如,k ( 2 - 1 3 ) l k = lj 式中,k 表示第k 个滤波器,k 表示滤波器个数,联 以) 表示第k 个滤波器的 输出能量。 ( 4 ) 美尔频率倒谱g 在美尔刻度谱上可以采用修改的离散余弦反变换求 得: 1 4 武汉理工大学硕士学位论文 g = 粪口( ) c 。s ( 珂( k - o 5 ) 三 ,胛= 1 ,2 ,p ( 2 - 1 4 ) g = 口( ) c os i 珂5 ) 詈i ,胛= 1 ,2 , ( 2 - t - io、 式中,p 为m f c c 的阶数。为所求的m f c c 参数c 为; c = 乜k : ( 2 - 1 5 ) 2 4 语音的训练与识别 2 4 1 动态时间规整0 d x w ) 的原理 语音识别中,不能简单的将输入模板和相应的参考模板作比较,因为语音 信号具有相当大的随机性,即使是同一个人在不同时刻发的同一个音,也不可 能具有完全相同的长度。动态时间规整( 功啪1 1 1 i c t i m ew r a p ,d t w ) 算法应用 动态规划( d y n a m i cp r o g r a m m i n g , d p ) 方法成功地解决了语音信号特征参数序 列比较时两矢量长度不相等的难题,在孤立词语音识别中获得了良好的性能。 d t w 算法从目前来看,可能是一个最为小巧的语音识别的算法,系统开销小, 识别速度快,在小词汇量的语音命令控制系统中是一个非常有效的算法【1 0 】。 图2 _ 4 动态时间规整过程示意图 d
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 39 选择性必修1 素养加强课7 兴奋传导与传递的相关实验探究
- 2025年福建省南平市中考地理真题及答案
- 循环额度房屋按揭贷款合同范本
- 商场超市清洁作业及食品安全保障合同
- 智能化商场委托运营管理与系统升级合同
- 餐饮企业员工薪酬福利与劳动权益保障协议
- 蒙古象棋教学课件
- 高中一年级化学《化学能与电能(第2课时)》
- 化学反应器设计与工程实践考核试卷
- 中草药种植机械自动化作业的智能病虫害预警系统开发考核试卷
- 乒乓球社团活动记录
- (高清版)JTT 529-2016 预应力混凝土桥梁用塑料波纹管
- 小学科学培训讲座
- DLT 5100水工混凝土外加剂技术规程
- 2024届湖北省仙桃市小升初复习语文模拟试卷含答案
- AI技术在智能旅游中的应用
- FZ/T 07025-2022针织行业绿色工厂评价要求
- 《物理化学48学时》课程教学大纲
- 全国职业大赛(中职)ZZ006水利工程制图与应用赛项赛题第1套
- 火锅店领班的岗位职责和工作流程
- 基恩士静电测量仪说明书
评论
0/150
提交评论