(通信与信息系统专业论文)基于arm技术的语音识别研究.pdf_第1页
(通信与信息系统专业论文)基于arm技术的语音识别研究.pdf_第2页
(通信与信息系统专业论文)基于arm技术的语音识别研究.pdf_第3页
(通信与信息系统专业论文)基于arm技术的语音识别研究.pdf_第4页
(通信与信息系统专业论文)基于arm技术的语音识别研究.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

(通信与信息系统专业论文)基于arm技术的语音识别研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 语音识别技术是近几年来语音处理领域出现的一个关键技术。语音识别的目 的就是研制出一种具有人类听觉功能的机器,以便能够直接听懂人的讲话,并做 出相应的反应。这种具备了语音识别功能的系统在互连网、通信、军事、国防等 方面具有着十分重要的价值。随着集成电路尤其是超大规模集成电路的快速发 展,嵌入式的功能越来越强大,语音识别技术在嵌入式系统上的应用成为了可能。 本文研究了基于a r m 技术的语音识别系统。论文分别从理论分析、系统总 设计、系统硬件电路、系统软件来说明语音识别在a r m 芯片上的实现过程。理 论上详细介绍了h m m 模型及与语音识别相关的语音数字信号处理。其中具体分 析了一些算法,包括m e l 倒谱参数、初值问题、数据下溢等问题。为了得到一个 高性能、低运算量的特定人孤立词汇的识别系统,本文在识别算法做了分析与改 进,并在此理论的基础上进行了相关的实验;系统硬件主要包括电源电路、复位 电路、时钟电路等;系统软件主要是对b o o t l o a d e r 、内核、根文件系统等进行了 详细的说明。最后通过一个现实的语音识别系统来说明语音识别在a r m 上的应 用,包括音频的驱动、语音训练、语音识别等程序在a r m 上的移植。 经过实验测试,该系统可以有效的进行语音识别,可满足苛刻环境下的实用 化的要求。 关键词:语音识别;特征提取;h m m :删;嵌入式 a b s t r a c t s p e e c hr e c o g n i t i o ni so n eo fk e yt e c h n o l o g i e sc o m i n gi n t oe x i s t e n c ei nf i e l do f s p e e c hp r o c e s s i n gi nr e c e n ty e a r s t h ep u r p o s ef o rt h i st e c h n o l o g yi st ou n d e r s t a n d h u m a nl a n g u a g ed i r e c t l ya n dm a k ea c c o r d i n gr e a c t i o nb yu s i n gak i n do fm a c h i n e 、i ms e n s eo f h e a r i n gl i k eh u m a nb e i n g t h es y s t e mw i t l ls p e e c hr e c o g n i t i o nf u n c t i o n h a sg r e a tv a l u ei nm a n yf i e l d ss u c h 罄n e t w o r k , c o m m u n i c a t i o n m i l i t a r y , n a t i o n a l d e f e n s ee t e w i t hr a p i dd e v e l o p m e n to fa s i ce s p e c i a l l ye x t r e m e l yl a r g es c a l e i n t e g r a t e dc i r c u i t r y , t h ef u n c t i o n so fe m b e d d e ds y s t e ma r em o r ea n dm o r es t r o n g e n t h i sm a k ei tp o s s i b l ef o rs p e e c hr e c o g n i t i o nt e c h n o l o g yi m p l e m e n t e do ne m b e d d e d s y s t e m t h i sp a p e rs t u d i e ds p e e c hr e c o g n i t i o ns y s t e mb a s e do na r mt e c h n o l o g y i t i n t r o d u c e s t h ep r o c e s so fs p e e c hr e c o g n i t i o nr e a l i z i n gw i t ha r mc h i pi nt h e o r y a n a l y s i s ,s y s t e mc o l l e c t i v i t yd e s i g n ,s y s t e mh a r d w a r ed e s i g na n ds y s t e ms o f t w a r e d e s i g n t h i sp a p e ra l s oi n t r o d u c e sh m m m o d e la n ds p e e c hd i g i u ds i g n a lp r o c e s s i n g a s s o c i a t e dw i t hs p e e c hr e c o g n i t i o n s o m ea l g o f i t h m sa r ei n t r o d u c e dc o n c r e t e l yi nt h i s p a p e rs u c h 雒m e lr e v e r s es p e c t r u mp a r a m e t e r s i n i t i a lv a l u ep r o b l e m , d a t ao v e r f l o w p r o b l e me t c t h i sp a p e ra n a l y s e sr e c o g n i t i o na l g o r i t h m sa n dd os o m ei m p r o v e m e n tt 0 b u i l dah i g hp e r f o r m a n c ea n dl o wo p e r a t i o nr e c o g n i t i o ns y s t e mo fp a r t i c u l a rp e r s o n w o r d s a l lo ft h e s ea r ee x p e r i m e n t e da n db a s e do nt h i st h e o r y t h eh a r d w a r ep a r to f t h i ss y s t e mm a i n l yi n c l u d ep o w e rc i r c u i t , r e s e tc k c u l t ,a n dc l o c kc k c u i t t h es o f t w a r e p a r to ft h i ss y s t e mm a i n l yi n c l u d eb o o tl o a d e r , k e r n e l ,r o o tf i l es y s t e me t c f i n a l l y , t h i sp a p e rt a l k sa b o u ts p e e c hr e c o g n i t i o nt e c h n o l o g yb a s e do na r m b yar e a ls p e e c h r e c o g n i t i o ns y s t e mi n c l u d i n gt r a n s p l a n t a t i o no fa u d i od r i v e r , s p e e c ht r a i n i n g , s p e e c h r e c o g n i t i o na n ds o m eo t h e rp r o g r a m s a c c o r d i n gt ot h ee x p e r i m e n t , t h i ss y s t e mc a nr e c o g n i z ee f f e c t i v e l ys p e e c h i tc a l l m e e tt h er e q u e s tf o rb e i n gu s e di nt o u g he n v i r o n m e n t k e yw o r d s :s p e e c hr e c o g n i t i o n ;f e a t u r ee x t r a c t i o n ;h m m ;a r m ;e m b e d d e ds y s t e m 学位论文独创性声明: 本人所呈交的学位论文是我个人在导师指导下进行的研究工作 及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写过的研究成果。与我一同工 作的同事对本研究所做的任何贡献均已在论文中作了明确的说明并 表示了谢意。如不实,本人负全部责任。 论文作者( 签名) :磊鱼缬呷年;月二蝈 学位论文使用授权说明: 河海大学、中国科学技术信息研究所( 含万方数据库) 、国家图 书馆、中国学术期刊( 光盘版) 电子杂志社有权保留本人所送交学位 论文的复印件或电子文档,可以采用影印、缩印或其他复制手段保存 论文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内 的保密论文外,允许论文被查阅和借阅。论文全部或部分内容的公布 ( 包括刊登) 授权河海大学研究生院办理。 论文作者( 签名) i 叠监弘彳年? 月厶胡 河海大学硕士学位论文 基于a r m 技术的语音识别研究 1 1 课题背景 第一章绪论 语言是人类创造的,也是人类区别于地球上其它生物的本质特征之一【1 1 ,更 是人类最重要的交流工具,有着自然、方便、准确性高等特点。随着计算机和人 工智能机器的广泛应用,人们发现:人与机器最方便、最直接的沟通方式是语言 通信。让机器听懂人类所说的话,明白人所表达的意思,并且根据说话者的意思 而做出相应的动作,这就是语音识别技术。 语音识别就是指智能机器自动识别语音的技术1 1 l ,有广义和狭义之分。广义 上的语音识别技术是指识别出语音信号中“感兴趣的内容”其中包括:识别说话 人的内容、说话人的身份、说话人的语言等。而狭义上语音识别技术是指准确的 识别出语音信号所表达的意思,准确的理解语音信号所表达的含义。在计算机普 及的今天让计算机听懂人的语言是人类所向往的事,对计算机用直接用语言发号 施令,解放我们的双手就显的特别重要了。世界上各大i t 的著名公司如: p h i l i p s 、i b m 、i n t e l 等都投入巨大的财力、精力对语音识别进行研究。微软总 裁盖茨曾经就说过:“我们将在这几十年中,克服语音识别的障碍,下一代的系 统操作软件及应用程序的用户界面将抛弃键盘与鼠标,代以真正意义上的人机对 话【2 】。” 现在,嵌入式技术无所不在,a r m 几乎成了嵌入式技术的代名词。a r m 这个 名词被越来越多的人所熟悉,她不仅代表了一个公司,还代表了一类微处理器; 不仅代表了一种技术,还代表了一种新型的产业发展模式,即c h i p l e s s 模式吼 在全世界a r m 公司的合作伙伴已经超过了1 0 0 个,包括i n t e l ,s a n s u n g 等。所以 利用a r m 技术实现语音的识别是目前语音识别的又一个挑战点。 目前主流的语音识别技术是基于统计模式识别的理论,由于统计模型训练算 法复杂,运算量大,一般由p c 机来完成,这无疑限制了它在便携设备中的运用。 本文针对基于h 姗技术的训练及其识别算法的特点,选取了a r m 系列的s 3 c2 4 1 0 芯片进行语音识别的研究,为语音识别在便携设备中的运用做出了一些有意义的 工作。可以预测在近5 0 年内,便携式语音识别设备的应用将更加广泛,根据美 国专家预测到2 0 0 8 年,具有语音识别功能的产品可达到5 0 亿美元。 第一章绪论 1 2 语音识别技术的发展历史 语音识别技术的研究工作开始于2 0 世纪的5 0 年代,第一个可以用来识别 1 0 个英文数字的语音识别系统a u d r y 系统是在a t & b e l l 实验室研制成功的。 2 0 世纪6 0 年代,计算机的应用推动了语音识别的发展。在这个阶段主要是 提出了线性预测分析( l p ) 和动态规划( d p ) ,主要解决了语音信号的产生模型 问题。b e l l 实验室的s p r u z a n s k a y 提出了基于模式匹配和概率统计来进行语音 识别,这对语音识别的发展产生了深远的影响。 2 0 世纪7 0 年代,语音识别技术得到了快速发展。具体表现在:理论上,线 性预测分析得到进一步的发展,动态时间弯度( d t w ) 技术基本成熟,特别提 出了矢量量化( v q ) 和隐马尔可夫模型( h m m ) 理论。在实践上,实现了基于 线性预测倒谱和d t w 技术的特定人孤立词汇的识别系统。 2 0 世纪8 0 年代,语音识别技术得到了进一步发展。其中显著的特征是h m m 模型和人工神经网络( a n n ) 在语音识别中得到应用。经过a t & b e l l 实验室 r a b i n e r 等科学家的共同研究,把原来h m m 的纯数学模型工程化,从而得到推 广。经过实验证明,采用h m m 和a n n 模型建立的语音识别系统,性能很好。 进入2 0 世纪9 0 年代,随着多媒体时代的来临,迫切需要语音识别系统从实 验室走向实用。许多发达国家如美国、日本、韩国及i b m 、a p p l e 、a t & t 、n t t 等著名的公司都为语音识别系统的研究投入大量的资余 2 1 。 而a r m 技术发展就比较迟,a r m 公司成立于1 9 9 0 年1 1 月,全称为a d v a n c e d r i s cm a c h i n e sl t d ,它是由英国的a c o r n 公司提供技术支持,美国苹果等公司出 资合作的美英公司。a r m 公司本身不直接从事芯片生产,也不销售芯片,靠转 让设计许可,由合作伙伴生产出各种特色的芯片。 1 3 语音识别研究的现况与难点 经过近5 0 年的发展,语音识别已经发展到一个较高的水平,并从实验室走 向市场,进入了一个实用化阶段。 由于矢量量化,h m m 和人工网络等技术被用于语音信号处理,并经过不断 改革与完善,使语音信号处理技术产生突破性的发展。英语的连续数字语音识别 的正确率已经达到了9 9 以上,而具有高度混淆的英语字母的识别也达到了9 7 以上。目前对语音识别的研究主要是一方面对语音学的统计模型的研究,对语音 段的建模方法及h m m 与人工网络。另外一方面是为了语音识别的实用化的需 要,讲者自适应,听觉模型,快速搜索识别算法以及进一步语音模型的研究。 语音识别研究中也存在下面几个难题: 2 河海大学硕士学位论文基于a r m 技术的语音识别研究 1 、语音识别的一种重要应用是自然语言的识别和理解。这一工作要解决的 问题首先是因为连续语音中的因素、音节或单词之间的调音结合引起的音变,使 基本模型的边界变的不明确。其次要建立一个理解语法和语义的规则的专家系 统。 2 、语音信息变化很大。语音模型不仅对不同的讲话者是不同的,而且对于 同一个讲话者也是不同的。例如,同一个说话者在随便说话和认真说话时的语音 信息也不同;即使同一说话者用相同的方式说话时,其语音模式也受时间的影响, 即今天及一个月后,同一个说话者说相同的话时候,语音信息也不相同。 3 、语音的模糊性。说话者在讲话时,不同的语音听起来很相似。这一点不 仅仅在汉语中体现,在其他语言也有说体现。 4 、在强噪声的环境下语音识别困难。语音数据都是在接近理想的条件下采 集而成的,然而当语音从实验室走向实际应用时,环境噪声所带来的问题就显得 越来越重要了。 1 4 本文研究的内容及思路 本文的内容为5 章,结构安排如下: 第一章是绪论,简单介绍了语音识别的发展历史,应用领域和研究状况,并 给出课题研究的背景,意义和主要内容。 第二章是语音学的基础,对语音的基础做了简单介绍,并对语音特征提取做 详细的分析,为下一章的语音识别做了铺垫。 第三章是重点介绍了语音识别的原理,利用删技术来进行语音训练和语音 识别做了详细的分析,最后通过实验说明了孤立词汇语音识别。 第四章是介绍系统所用到的开发环境,并详细说明了系统的硬件和软件。重 点分析了硬件中的各个模块及系统软件。 第五章重点说明了利用$ 3 c 2 4 1 0 芯片,在l i n u x 的开发环境下进行对语音识 别进行实现过程。详细的介绍了程序流程,源代码等。 第六章是总结和展望,给出了合理的系统评价,并对语音识别的研究与实现 提出了一些具体的看法。 第二章语音信号分析 2 1 语音学知识 第二章语音信号分析 在研究语音识别技术之前,首先需要了解语音信号的一些重要特征,在此基 础上才可以建立即实用又便于分析的语音信号模型。所以必需把对语音识别的研 究细化到语音学的层次上,包括对音素、音节及声调等方面的研究。 2 1 1 语音信号的发音器官 人类用来产生语音的器官自下而上包括:肺部、气管、喉、咽、鼻腔、口腔、 上下唇。它们作为一个整体形成一个连续的管道,其中喉以上的部分称为声道, 随着发音的不同,其形状是可变的。 在发音过程中,肺部及与其相连的肌肉相当于声道系统的激励源。当声带处 于收紧状态时,流经的气流使空气振动,这时候产生的声音叫做浊音,不伴声带 振动的声音称为清音。当声道处于放松状态时,有两种方式能发出声音:一种方 式是通过舌头,在声道的某一部分形成狭窄部位,当气流通过这个狭窄的部分时 将产湍流,形成噪声型声音。另外一种方式是声带处于松懈状态,利用舌头和嘴 唇关闭声道,暂时阻止气流。当气流压力非常高时,突然放开舌与唇,气流被突 然释放产生短暂脉冲音。对于声道紧闭点的位置的不同和声道的形状,形成不同 的爆破音。 声道的变化是非常复杂的,但是我们可以把它拉直而完全不影响其声学特征 2 1 。这样可以从物理学的角度来分析声道,并可以方便的使用声道模型来描述它。 2 1 2 音素、音节及汉语的音调 根据声音产生机制可知,通过激励方式不同而形成两种不同的语音清音 和浊音【4 l 。这两种语音又形成两种音素:元音和辅音。音素是语音中最小的单位。 元音是由不同的口腔形状而形成的,辅音是由发声部位和发声方法而形成的。 汉语语音的最小单位是音节。所谓的音节就是一个元音的前后加上一个或两 个辅音所构成的音素结合。汉语中只选择了四种音节,即:元音,元音+ 辅音, 辅音+ 元音,辅音十元音+ 鼻音。一般来说把汉语语音划分为声母和韵母两部分。 4 河海大学硕士学位论文 基于a r m 技术的语音识别研究 通常来说把音节前部分的辅音称为声母,把元音加元音后可能出现的鼻音称为韵 母。在汉语中声母为2 3 个,韵母为3 4 个。 汉语是一种声调语言,相同的声母和韵母构成的音节随着声调的不同而具有 完全不同的意思【2 l 。汉语的声调有阴平、阳平、上声和去声。声调的变化就是浊 音周期的变化,各个韵母段中的基音随时间的变化而产生了声调,变化的轨迹称 为声调曲线。声调曲线从韵母的起始端开始,到韵母的终止端结束。声调以调频 方式调制在整个音节上,使之具有较强的抗噪声干扰能力。 汉语音节是声母、韵母、声调的统一体,它在词语中有一定的独立性,相连 音节比较容易分割,因而词句的清晰度高。 2 1 3 语音信号数学模型 语音是由声道激励发生共振而产生的,由于在发声过程中声道是运动的,因 此可以用一个时变线性系统来描拟。当在一个较短的时间间隔内表示语音信号 时,可以采用线性时不变模型,可用如图2 1 表示语音信号的产生模型。 声道参数 图2 1 语音信号产生模型 由图2 1 可知完整的语音信号模型有三个子模型串联组成的:激励模型,声 道模型和辐射模型。 激励模型:激励模型可以分为清音激励和浊音激励。对于清音来讲,激励信 号相当于白噪声,对于浊音来讲,由于声带不断张开和关闭,将产生间隙性脉冲 波。可用下面的表达式来表达: i ( 1 2 ) 1 一c o s ( 万n l 】,0 s i g ( 肛) c o s 7 r ( n i v , ) 2 2 1 ,l n l + 2 ( 1 1 ) 【o ,其他 声道模型:目前经常用到的声道模型是共振峰模型。一般人的声道长度为 1 7 c m ,可以计算出在5 0 0 h z 、1 5 0 0 h z 、2 5 0 0 h z 、3 5 0 0 h z 、4 5 0 0 h z 附近有5 个共振 峰【4 】。每个共振峰对于系统函数的一个极点。其系统函数v ( z ) 可用下面的表达 式来表达:一般采用级联级,其中n 是极点个数,g 是幅值因子,a 。是常系数。 第二章语音信号分析 矿( z ) = 气l ( 1 2 ) 1 一a x z 。 f l 辐射模型:声道的终端为口和唇,从声道输出的是速度波,而语音信号是声 压波,二者的比称为辐射阻抗。即:r ( z ) = r ( 卜1 z ) 。 由此可以得出语音信号是由激励信号g ( n ) 和传输函数h ( z ) 线性系统而产生 输出的。h ( z ) 是由激励模型、声道模型和辐射模型串连“1 而组成的。 2 2 语音信号的数字化 为了将原始的模拟语音信号变为数字信号,必须进行数字化,从而得到时间 上和幅度上都是离散的语音数字信号。 2 2 1 语言信号的采样与量化 在采样和量化之前,必须进行语言信号的预滤波。预滤波的目的是:1 、防 止高频噪声,特别是滤除高于1 2 采样频率的成分。2 、防止5 0 h z 的工频干扰。 这样的滤波器一般是一个带通滤波器,上限频率为3 4 0 0 h z ,下限频率为6 0 h z 。 语音信号经过预滤波,然后通过1 1 0 2 5 h z 进行采样,得到离散时域的语音信 号。在通过a d 转换得到1 6 位的二进制的数字语音信号。 2 。2 2 预处理与加窗 由于语音信号的平均功率受声门激励和鼻辐射的影响,高频端大约在8 0 0 h z 以上按6 d b 倍频率衰减,所以求语音信号频谱的时候,频率越高响应的成分越 小,高频部分的频率比低频部分难求,为此要在预处理中进行预加重。在语音合 成时进行去加重处理,就可以恢复原来的语音。实现预加重的一种简单的方法是 将语音信号通过仅有零点的滤波器,其传输函数为:h ( z ) = 卜u z ,其中u 接近或 等于1 。通过实验分析等到u 在o 9 1 嘲之间得到的结果大致相同。 语音信号在短时段中呈现出随机噪声的特征,也会在短时间中出现周期信 号的特征,或者是两者的混合,所以必须对信号进行加窗处理。一般采用窗函数 来乘语音信号,在语音信号处理中常用的窗函数是矩形窗和h a n u n i n g 窗【5 】,它们 的窗函数如下: l 、矩形窗: ,、f 1 ,0 ,z s ( n 一1 ) w ( 哪! o ,其他 6 ( 1 3 ) 河海大学硕士学位论文基于a r m 技术的语音识别研究 2 、汉明窗: 以玎) = 0 5 4 - 0 4 6 c 。s 【2 册( 一1 ) 】。竹一1 ( 1 4 ) 2 3 语音信号的短时处理 语音信号的时域处理包含短时能量,短时平均幅度,短时过零率和短时自 相关函数等方面的计算。 2 3 1 短时能量和短时平均幅度 若第m 帧的短时能量用e n 表示,即该帧语音采样值的平方和,计算公式为: 一l e = ( m ) ( 1 5 ) m = o 同样短时平均幅度m 。的计算为: 一l m 。= i x ( m ) l ( 1 6 ) m - - o 短时能量e i l 的主要用途有:( 1 ) 可用来区分清音和浊音。因为浊音的e n 比清音的大的多。( 2 ) 对于汉语来说可以用来区分声母和韵母的分界,无声和有 声的分界,连字的分界。( 3 ) 作为一种超声段的信息,可以用来进行语音识别f 刀。 2 3 2 短时平均过零率 所谓的“过零”即指相邻两样点取不同符号的情况,在单位时日j 内信号通 过零的次数叫做“过零率”。对于语音信号这样的宽带且时变的信号来说,短时 过零率z ( m ) 是描述变频谱的一种简单的方法,z ( m ) 的计算方法如下: 1n l 三( 肼) = 寺ls g n 【矗( 肌) 卜s g n x ( m 1 ) 】 ( 1 7 ) m l o 2 3 3 短时自相关函数 自相关函数是描述一个随机信号的重要特性,在短时处理技术中,短时自相 关函数为: - i - k b ( 七) = 毛( 肌) 矗( 肌+ 七) ,( o 七 定) ( 1 8 ) m z o 自相关函数可以用来判断语音的清音段和浊音段,浊音段的周期性可以很清 7 第二章语音信号分析 楚地从( k ) 中看出来,而清音段表现为噪声的无周期段。同时凡( k ) 的傅立叶变 换就是短时频谱,也是语音信号的短时频域的一种计算方法【钔。 2 3 4 短时频域处理 频域处理是数字信号处理的一个基本方法,特别是语音信号。对于语音信 号的缓慢变化的特点,一般进行短时频域处理【6 1 。语音信号第1 1 1 帧的短时傅立叶 变换为: 一t x n ( e ”) = ( 卅) p 一” ( 1 9 ) m r 0 短时频域的变化反应语音信号的频谱随时间变化的性质。短时傅立叶变化的 结果可以作为语音识别的特征【9 1 。 2 4 语音信号的特征提取 汉语在很多方面有区别于西方的字母语音。从文字来看,大部分汉语属于象 形【l o l 文字,几乎每个汉字都代表一个独特的含义,从发音来看汉语是特殊的单音 节有调语言。每个汉语的发音由一个声母和一个韵母组成,声韵母之间有固定数 目的关系,发音相互影响很大,有时会出现变调的情况。因此必须在建立语音模 型的情况时进行语音信号的特征提取,通常采用l p c c l s j 和m f c c 悸】来提取语音信号 的特征参数。 2 4 1l p c c 特征参数的提取 线性预测分析( l p c c ) 是较为常用的语音特征分析方法。可以有效的解决 短时平稳信号的模型化问题,仅用1 2 个l p c c 系数【8 j 就可以很好的表达复杂的 语音信号特征,大大的降低了信号的冗余度,可有效的减少了计算量和存储量。 l p c c 的基本原理为:语音的每个样值可由过去若干个样值的线性组合来逼 近,同样可采用实际语音抽样和线性预测之间的均方差最小的方式,解出一组预 测系数。 p s ( 月) = q j ( ,l 1 ) ( 1 1 0 ) t - i 语音信号s ( n ) 可由p 个过去的样值s ( n - 1 ) 来预测。其中a 为加权系数,即l p c 系数,p 为l p c c 预测阶数,预测误差为: e ( 以) = s ( n ) - s ( 蚪) = s ( 哟一q s ( ,l f ) ( 1 1 1 ) 8 河海大学硕士学位论文摹于a r m 技术的语音识别研究 l p c c 系数记录了语音信号谱的极值点的轨迹,用l p c c 来表示语音信号的 特征,我们就可以得到平滑的语谱图【1 0 l 。 2 4 2m f c c 特征参数的提取 l p c c 模型是基于发音模型建立的,这种参数没有充分利用人耳的听觉特性。 实际上人耳的听觉特性是一个特殊的非线性系统,它的响应不同频率的信号的灵 敏度也不同,是一个倒数的关系。所以现在常用的一个语音特征参数是基于人的 听觉的特征参数,即m e l 频率倒谱参数,简称m f c c 。m f c c 参数是研究人的听 觉系统的基础上得出的声学特征。对于人的听觉机理研究发现,当两个频率相近 的音调同时发出时,人只能听到一个声调。临界带宽指的就是这样一种令人主观 感觉发生突变的带宽边界。当两个音调的频率小于临界带宽时,人们就把两个音 调听成一个,这就是掩蔽效应。m e l 刻度就是对这个临界带宽的量度方法之一。 标准m f c c 特征参数提取过程是:首先将语音信号进行f f t 变换到频域, 通过m e l 尺度的滤波器阵列后,滤波器输出后进行离散余弦变换。 m f c c 的参数计算流程如下: 1 、假定有一帧采样语音 x ( t ) ) ,t = l ,2 ,3 n ,n 为帧长,确定每一帧语音 采样序列的点数,实验中取n = 2 5 6 ,对 x ( t ) ,t = l ,2 ,n 经过预加重处理,加 h a m m i n g 窗后作n 点f f t ,取得到信号幅度谱i x ( k ) i 。 2 、将实际频率尺度转换为m e l 频率尺度: m e l ( f ) = 2 5 9 5 l g ( 1 + ,7 0 0 ) ( 1 1 2 ) 其中,实际频率f 的单位是h z 。 3 、在整个m e l 轴配置l 个三角形滤波器,如图2 2 所示。每个三角形滤波 器的中心频率c ( 1 ) 在m e l 频率轴上等间隔分配。设o ( 1 ) 、c ( 1 ) 、h ( 1 ) 分别是第l 个三角形滤波器的下限,中心和上限频率,相邻滤波器之间的下限中心和上限频 率有如图的关系: c ( 1 ) = h ( 1 一1 ) 邗( 1 + 1 ) ( 1 1 3 ) l i 1 l + i c 0 ( h ( 1 ) ) h r ( f i t 、- 1 ) h ( l ) o 。( l 。“+ 1 、 c ( l + 1 ) 图2 2m e l 频率相连三角形滤波器的犬系 4 、根据语音信号幅度i x ( k ) i 求每一个三角形滤波器的输出: 9 。m 一警形m ixf 圳1 :1 2 1 2 ,l ( 1 1 4 ) m ( f ) = 形( 圳。( 吼= 1 ”,o 1 t - o ( t ) 形( ) = k o ( f ) 。浆知驰( 1 ) c ( f ) ( j ) q 1 5 h ( 1 ) - c ( 1 ) 5 、对所有滤波器输出作为对数运算,再进行离散余弦变换,可以得到m f c c : ( i ) = 丽喜l o g 卿o s 【( 1 - i 2 ) - 等1 触2 ,q “1 6 其中,q 为m f c c 参数的阶数,本文取q = 1 2 。c ( i ) 为所求的m f c c 的参数 2 5 本章小结 本章主要从语音信号的基础方面,介绍了语音学的发音原理,数字化及特征 参数的提取,并重点说明了其中所涉及的一些算法。为下节进行基于语音模型的 训练及语音识别做了铺垫。 河海大学硕士学位论文 基于a r m 技术的语音识别研究 第三章语音识别技术 3 1 语音识别的基础 语音识别技术发展到今天,人们提出了各种各样的识别方法,但主要的识别 技术仍然是基于模板匹配法,h m m 模型法及神经网络法【l ”。这些方法都有一个 相同的基本的原理,即如图所示3 1 ,语音信号经过采集后,被送到特征提取模 块中处理,得到一组反映该段语音特征的参数模型,然后这些特征参数送入模型 库模块,声音模式匹配模块根据模型库对该段语音进行识别,最后得出识别结果 1 2 1 。对大量词汇,非特定人等情况的语音识别还需要通过语言模型对结果进行进 一步的处理,最终得到正确的识别结果。 图3 1 语音识别系统的基本结构 3 1 1h m m 基本原理 结果 隐马可夫模型( h i d d e nm a r k o vm o d e l s ) 作为语音信号的一种统计模型,在 语音处理各个领域中得到了广泛的应用。到1 9 7 0 年由c m u 的b a k e r 和i b m 的 j e l i n e k 等人将其应用到语音识别中,进几年来,h m m 技术无论是在理论上还是 在实践上都有了快速的发展。 从本质上讲语音信号是一个非平稳的随机信号。由于发音器官对气压和气流 进行调制以产生人耳听到的一系列的语音,尽管某个语音包含很高的频率,但是 发音器官仅以每秒1 0 次左右的变化。所以语音模型包含以下几个方面:一方面 是长度在1 0 毫秒这样数量级上作短时语音段的频谱分析;另一方面是由于发音 器官各个部分的组合构成的变化的不同,长度在1 0 0 毫秒这样数量级上的短时语 音序列在比较长时间内缓慢展开的特征描述。 如果把短时语音看作时问序列,那么就有很多描述其特征的方法。比较好的 一种方法就是利用h m m 模型对短时谱向量【1 3 】的时间序列进行建模,这样在数学 上具有一致性的框架来统一描述。 第三章语音识别技术 h m m 是一个双重随机过程,一个随机模型表示状态的转移,另一个表示随 机过程表示状态和观察值之间的统计对应的关系。它用概论的方式来描述时变信 号的变化过程。该模型中,马尔可夫链中的一个状态转移到另外一个状态取决于 该状态的统计特性【1 3 l ,而某一个状态的观察值也取决于该状态生成语音观察值的 概论。这样在观察者的角度只可以看到观察值,而看不到状态,所以叫做隐马尔 可夫模型,即h m m 。 在语音识别中可以这样理解:h m m 认为人的发音器官只有有限个状态,同 时每个状态所产生的语音会有一定的变化;状态之间的转移按照一定的转移概率 来进行,而对每个状态上可能产生的语音特征,由概率分布或概率密度来描述。 3 2h m m 模型算法 3 2 1h m m 的定义 马尔可夫链描述了一个有限状态自动机在时间t 内的状态变化,该自动机在 任一离散时刻t ,只能处于有限状态集s 中的某一状态,s = s t , s :s 。用 x 。,x 2 ”x t ,表示自动机在时刻t = - i ,2 ,t 时刻所处的状态。如果在时刻m + k 时刻所处的状态为q m + k 的概论,只与其在m 时刻的状态q m 有关,而与m 时刻 以前的状态有关,即: p ( x + k = q 。k i x q ,x 。= q - ,x - = q - ) = p ( x “= q 4 l l = q 。) 其中q ,q 。,m 属于s ,那么x 。为马尔可夫链【1 4 j 。 如果在任何时刻t ,外界无法观测到系统所在的状态x 。,而只能得到与这个 状态有关的一个随机矢量o 。,这个就构成了一个一阶隐马尔可夫模型。 h m m 成功利用概率及统计学理论解决了如何识别不同参数的短时平稳信号 段以及如何跟踪它们的转化的问题。 一个h m m 模型可以由下列参数描述1 1 4 1 : n 一模型中状态的数目。马尔可夫模型的状态是隐藏起来的,但在很多实际 的问题中通常有物理意义。状态的集合表示为s = s 。,s :s ,t 时刻的状态 表示为q 。 m 一表示观察符号数,即每个状态可能输出观察符号的数目。 万一初始状态概论矢量,第一次选中某个状态的概论。 卜状态转移概论矩阵,a = ( a 。) 1 i ,j n 。a 。当前状态下取下个状态的概 论。 b 一观察值的概论矩阵,b = ( b j 。) i j n ,l k n 。b 指在某一个状态下观 察某个符号的概论。 河海大学硕士学位论文 基于a r m 技术的语音识别研究 于是可以把 i 删看作一个五元素组护( n ,m ,石,a ,b ) 。其中n 、m 描 述了h m m 的规模,而疗,a ,b 1 1 6 1 描述了h m m 的统计特征。所以可以用舻( 1 , a ,b ) 对于语音识别用的h m m 也可以用这三个模型参数来表示。 h m m 分为两个部分:一部分是马尔可夫链,由,r 、a 来描述,产生的输出 为状态序列;另外一部分是一个随机过程,由b 来描述,产生的输出为观察值 序列。 3 2 2 各种形式的h m m 模型 h m m 有很多结构,并且有不同的分类方法。根据不同的实际需要,选择不 同的类型h m m 模型: 一、按照h m m 的状态转移概率矩阵分类 历经型和遍历型1 1 5 1 。所谓的遍历模型就是经过有限步的转移后,系统能达 到任何一个状态。即系统从一个状态可以允许转移到任何一个状态。这样的h m m 转移矩阵的每一个元素都为大于0 的数,没有o 元素。所以,各态历经型不合乎 语音识别的要求,应为它可以回到从前的状态。 从左到右型的h m m i l6 j 。所谓的从左到右的模型,就是指随着时间的增加, 状态的转移只能是从左到右进行或者挺留在原来的地方,而不能返回到原来的状 态的情况。如图所示。这实际是一个时间序列,从高向低进行状态转移。其状态 转移矩阵是一个上三角阵,表示终止状态的最后一行除最后一个元素外全为0 。 显然从左到右的状态转移参数具有如下的特性:a 。= 0 ,j i ;初始状态概率分布 如下特征:c i 在i ! = i 时为o ,当i = i 时为1 。即状态的转移必须从l 开始。由 从左到右模型的特征可知,对考虑随时间变化的信号时,利用从左到右的模型来 建立比较合适。由于语音识别的特征参数是一个时间序列,所以在语音识别中所 使用的h m m 一般都采用从左到右的h m m ,如图3 2 所示。 图3 2 由左向右的模型 二、按照h m m 的输出概率分布分类 l 、离散型的h m m 0 6 1 在这种h m m 中,每一个状态的输出概率是按观察字符离散分布的,每一次 转移时状态输出的字符是从一个有限的离散字符集中按照一定的离散概论分布 选出来的。在语音信号分析处理中,经过语音特征分析后,语音信号就被割成若 第三章语音识别技术 干帧,每帧求取一个特征参数向量,即每帧用一个参数向量来表示。如果要建 立离散的h m m 模型,需要将语音特征参数向量的是序列进行矢量量化,通过矢 量量化使每一帧语音信号由特征参数向量表示转变为用码字符号表示的形式。由 于矢量量化必然引起量化误差,从而影响h m m 系统的识别率。不过比较连续型 的h m m 模型,离散h m m 模型的计算量比较小。 2 、连续型的h m m 在连续型的h m m 哺】中,由于输出的是连续的。所以不能用矩阵表示输出概 率,而使用概率密度来表示。在实际的连续h m m 模型的训练中,采用语音信号 处理的概率密度函数来表示输出概率分布。即: 哆( 曲= ( 2 万,) 4 ”e x p + x 7 i 1 硼 ( 3 1 ) 一 这样h m m 称为连续混合密度h m m ,简称c h m m 。对于与单个说话人无关的 语音识别,由于语音识别的参数分布比较分散,所以语音识别中通常使用 c h m m 。 3 2 3h m m 的基本算法 在应用h m m 进行语音识别的建模时还要解决以下三个问题: l 、观察序列0 = o l ,0 2 o t 和模型护( a ,b ,万) 确定后,如何有效的 计算在给定模型 条件下产生观测序列o 的概论e ( o x ) ? 2 、观察序列0 = o l ,0 2 o t 和模型扣( a ,b ,石) 确定后,如何根据状 态序列的使用目的,选择相应的最佳状态序列? 3 、如何调整模型参数( a ,b ,7 ) 以使条件概论p ( o x ) 最大? 第问题常用前向后向算法i 加】来解决。 对于p ( 0 ) 直接求的方法如下:对个固定状态的序列0 = q 。,q :q t 有 p ( o iq ,入) = 兀p ( o :f 吼, ) = ( d i ) 6 如( d 2 ) b ,( d ,) ( 3 2 ) 其中:气( 0 r ) = 屯tk 。;1 冬, 阶( o 。) = b ml t t 而对于给定的 ,产生q 的概论为:p ( 0j ) = 兀。a 口( t _ l j q , 所以求的概论为: p ( o a ) = p ( o ls ,h ) p ( s l ) = 民( o ,) 。乞( d 2 ) k ( o o ( 3 1 3 ) j q t q 2 q t 这种计算量是非常大的,达到2 t n 数量级。前向后向算法是解决这一个问题 的有效的算法。 定义前向变量为:a 。( i ) = p ( o o 。o 。,q 。= i l 凡) 那么有 1 ) 初始化:对于l i n 有:a ,( i ) = z r );,bi(q 2 ) 递推:对l t t l ,i j p ( o i n ) 。那么重复这个过程, 逐步改进模型参数,直到p ( o i n ) 不再明显的增大,此时的n 即为所求的模型。 b a u m w e l c h 算法为: 定义皇( f ,j ) 为给定训练序列0 和模型五时,马尔可夫链在时刻t 处于s ,状态, 并且在时刻t + l 状态处于s j 状态的概率: 磊o ,_ ,) = p ( 吼= ,吼+ 。= i 。,a ) = ! 尘! “专铲( 3 1 。) 那么马尔可夫链在时刻t 处于s ,状态的概率为: 第三章语音识别技术 胁p ( o , q t = s ,= 篙 ( 3 用六( f ) 表示从s l 状态转移出去的次数的期望值,而点( f ,) 表示s t 状态 转移到s ,状态次数的期望值。由此可以导出b a u m - w e l c h 算法的重估公式: 毒( f ,) 嘞= 警广_ ( 3 1 2 ) 磊( d 毒( ,) = 等擎一 ( 3 1 3 ) ( ) h m m 训练或参数估计问题,是h m m 在语音处理中应用的关键问题,也是 比较困难的问题。b a u m w e l c h 算法是解决这一问题的普遍的应用方法,但是并 不是最完善的方法。 3 2 4h m m 算法现实中有关问题 1 、初值问题【2 3 1 采用根据b a u m w e l c h 算法有训练得到h m m 参数时,一个比较重要的问题 就是初始模型的选择,如果选择合适的初始值时可以使局部最大值尽量的接近全 局最优点。而且也可保证达到收敛所需要次数也最小。由b a u m w e l

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论