(通信与信息系统专业论文)基于动态环境自适应端点检测的语音识别系统研究.pdf_第1页
(通信与信息系统专业论文)基于动态环境自适应端点检测的语音识别系统研究.pdf_第2页
(通信与信息系统专业论文)基于动态环境自适应端点检测的语音识别系统研究.pdf_第3页
(通信与信息系统专业论文)基于动态环境自适应端点检测的语音识别系统研究.pdf_第4页
(通信与信息系统专业论文)基于动态环境自适应端点检测的语音识别系统研究.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(通信与信息系统专业论文)基于动态环境自适应端点检测的语音识别系统研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 语音信号是人类传播信息和感情交流的重要媒体,是听觉器官对声音传媒 介质的机械振动的感知,也是人类最重要、最有效、最常用、最方便的通信方 式。语音信号处理是信息科学研究领域中目前发展最迅速的学科之一,其研究 涉及众多f i 沿课题。端点检测是语音识别中的一项关键技术。现阶段的各种端 点检测算法在信噪比较高时检测性能均较好,但随着信噪比的下降各算法性能 都明显下降,且目前算法大多没有自我学习能力,在信号噪声发生大幅度变化 时往往失效,无法适应充斥实际生活中室外各种复杂的噪声环境。 本课题主要针对实际生活噪声环境下的孤立词语音识别,研究能够动态适 应环境的语音识别系统。实际生活环境中的噪声往往以高斯白噪声为主,且环 境经常变化。高斯混合模型( g m m ) 能够描述复杂的随机量,且具有很强学习 能力,能够动态自适应随机量分布的变化。本文用高斯混合模型来描述环境中 的背景噪声,并通过对高斯模型和噪声特性的分析,研究了基于高斯混合模型 的端点检测算法,详细阐述了该算法流程。对语音识别其它模块的算法进行了 研究,选择了相应的优化算法,包括语音增强、特征提取以及模板匹配模块, 研究了各模块的设计方案。通过对语音识别系统各个模块的研究,最后组成了 一套完整的能够动态自适应环境的语音识别系统并对系统识别性能进行了仿真 实验。 本系统主要针对复杂环境下的孤立词识别,在环境发生改变时能够进行自 我学习更新,无需人为干预。但在环境噪声发生较大突变时学习速度有限,需 要较长时间来适应突变后的噪声环境;另外系统整体的计算量较大,识别速度 有限,在实时性方面仍有待改进。 关键字:语音识别,端点检测,高斯混合模型,自适应 a b s t r a c t s p e e c hs i g n a li st h ee s s e n t i a lm e d i u mo fi n f o r m a t i o nt r a n s m i s s i o na n de m o t i o n i n t e r c o u r s e ,a n da p p e r c e i v eo fh u m a na c o u s t i c a la p p a r a t u s t os o u n da n dl i b e r a t i o n i t i sa l s ot h em o s ti m p o r t a n t ,e f f i c i e n t ,c o m m o n ,a n dc o n v e n i e n tt o o l sf o rh u m a n c o m m u n i c a t i o n s s p e e c hs i g n a lp r o c e s s i n gi s o n eo ft h eb o o m i n gi n f o r m a t i o n s c i e n c es u b j e c t s ,w h i c hr e f e rt om a n yf i e l d so fs c i e n c e e n d p o i n td e t e c t i o ni so n eo f t h em o s ti m p o r t a n tp a r ti nas p e e c hr e c o g n i t i o ns y s t e m e f f i c i e n te n d p o i n td e t e c t i o n i sa b l et oi n c r e a s es y s t e mp r o c e s s i n gs p e e d ,e n h a n c es y s t e mr e a l - t i m ec o n c u r r e n c e , a v o i dd i s t u r b a n c ef r o mn o i s ea n dm u t es e c t i o n ,a n de n h a n c et h er e c o g n i t i o n p e r f o r m a n c e n o w a d a y s ,m o s to ft h ee n d p o i n td e t e c t i o na l g o r i t h m sc a n n o tp e r f o r m w e l lu n d e ral o ws n r e n d p o i n td e t e c t i o ni sak e yt e c h n i q u ei ns p e e c hr e c o g n i t i o n n o w a d a y sm o s t k i n d so fe n d p o i n td e t e c t i o na l g o r i t h mp e r f o r mw e l li nt h ee n v i r o n m e n t so fh i g h s i g n a l t o n o i s e ( s n r ) ,b u tt h e y a l lp e r f o r mw o r s ew h i l es n ri sr e d u c i n gw h i c h c o u l dn o ta d a p tt h ec o m p l i c a t e do u t d o o re n v i r o n m e n tw i t hm e s so fn o i s e f o rt h e r a n d o mc i t yo fw h i t eg a u s s i a nn o i s ei no u t d o o re n v i r o n m e n t s ,i ti sa d v a n c e dt ou s e g m mt od e s c r i b et h ew h i t eg a u s s i a nn o i s ei no u rc o m m o ne n v i r o n m e n t s b yt h e i n v e s t i g a t i o no fg m ma n dn o i s e s , i ti sa d v a n c e dt h a tt h ee n d p o i n td e t e c t i o n a l g o r i t h mb a s i n go no m m ,a n dt h ef l o wo ft h ea l g o r i t h mi se x p a t i a t e di n d e t a i l a n dt h ea l g o r i t h m so fe a c hm o d u l ei nas p e e c hr e c o g n i t i o na r ei n v e s t i g a t e da n d i m p r o v e d ,i n c l u d i n gs p e e c he n h a n c i n g ,f e a t u r ee x t r a c t i o na n dt e m p l a t em a t c h i n g t h e ni td e s i g n e da l lo ft h em o d u l e sa n dd e s i g n e dai n t e g r a t e ds p e e c hr e c o g n i t i o n s y s t e mw h i c h w o u l da u t o m a t i c a l l ya d a p tt h ec h a n g eo fe n v i r o n m e n t s t h es y s t e mi sa c h i e v e dt ot h er e c o g n i t i o no fs i n g l ew o r di nc o m p l i c a t e d e n v i r o n m e n t ,a n du p d a t eb yi t s e l fa c c o r d i n gt ot h ee n v i r o n m e n tc h a n g e h o w e v e r ,i t s s t u d ys p e e di sl i m i t e df o rt h ea m o u n to fc a l c u l a t i o n ,w h i c hn e e d st ob ei m p r o v e d k e yw o r d s :s p e e c hr e c o g n i t i o n ,e n d p o i n td e t e c t i o n ,g m m ,a d a p t i v e i i 独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其它教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。 签名:理乏逮址导师签名:童皿日 关于论文使用授权的说明 期:即:三:竺 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即学校有权 保留、送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部 或部分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:毯丝亟垒 日期: 丝2 :丝 武汉理工人学硕士学位论文 1 1 研究背景和意义 第1 章绪论 语音是由人的发音器官发出来的代表一定意义的声音,是语言存在的物质 外壳【1 1 。语音是人类相互之间进行交流时使用最多、最自然、最基本也是最重 要的信息载体。在高度信息化的今天,语音处理的一系列技术及其应用已经成 为信息社会不可或缺的重要组成部分1 2 j 。 语音识别是试图使机器能“听懂 人类语音的技术【3 j 。语音识别的作用是将 语音转换成等价的书面信息,也就是让计算机听懂人说话。作为一门交叉学科, 语音识别又是以语音为研究对象,是语音信号处理的一个重要研究方向,是模 式识别的一个分支,涉及到计算机、信号处理、生理学、语言学、神经心理学、 人工智能等诸多领域,甚至还涉及到人的体态语言( 如人在说话时的表情、手势 等行为动作可帮助对方理解) ,其最终目标是实现人与机器进行自然语言通信【4 j 。 目前的语音识别系统对纯净语音可以达到非常高的识别精度,但是无处不 在的噪声带来了训练模型和测试语音之间的失配,识别器的性能在噪声环境中 将会急剧下降语音识别已取得重大的进展,正在步入实用阶段。但目前的识 别系统大都是在安静环境下工作的在噪声环境中尤其是在强噪声环境下,语音 系统的识别率将受到严重影响因此滤除噪声问题是语音识别达到真正实用所 必须解决的关键1 6 j 。 识别率降低的主要原因之一是噪音的干扰。现有的语音识别方法都对语音 端点的准确性十分敏感,而噪声模糊了语音信号的开始与结束点,因此带噪语 音信号的端点检测是目前语音识别领域的一大课题。 本文针对这一问题尝试将高斯混合模型( g i v i m ) j 立用到端点检测中,同时通 过对多种算法的综合应刚和改进,研究了能够动态自适应复杂的噪声环境的语 音识别系统。 1 武汉理t 大学硕士学位论文 1 2 语音识别概述 语音识别本质上是一种模式识别的过程,其基本原理框图如图1 - 1 ,主要包 括语音信号预处理、特征提取、特征建模、相似性度量和后处理等几个功能模 块,其中后处理模块为可选模块。 输入语音 预处理 上 特征提取 1,上 i 参考模式库 二毒二一相似性度量 后处理 图1 1 语音识别基本原理图 识别结果 预处理模块,对输入的原始语音信号进行处理,滤除掉其中的不重要的信 息以及背景噪声,并进行语音信号的端点检测、语音分帧以及预加重等处理。 特征提取模块负责计算语音的声学参数,并进行特征的计算,以便提取出反映 信号特征的关键特征参数,以降低维数并便于后续处理。在训练阶段,用户输 入若干次训练语音,系统经预处理和特征提取后得到特征矢量参数,建立或修 改训练语音的参考模式库。在识别阶段,将输入的语音的特征矢量参数和参考 2 武汉理【:人学硕士学位论文 模式库中的模式进行相似性度量比较,将相似度最高的模式所属的类别作为识 别的中间候选结果输出。 后处理模块对候选识别结果继续处理,通过语言模型、词法、句法、和语 义信息的约束,得到最终的识别结果。 端点检测,即语音信号起止点的判别,是语音识别系统预处理模块中必不 可少的组成部分。只有准确的找出语音段的起始点和终止点,才有可能使采集 到的数据是真正要分析的语音信号,端点检测不但减少了语音识别的数据量、 运算量和处理时间,同时也有利于系统识别率的改善。 常见的语音端点检测算法有有基于短时能量和短时过零率的算法,在信噪 比较高的情况下一般采用短时能量和短时过零率相结合的双门限法法来进行端 点检测。但是,倘若噪声增大,信噪比降低,可能导致短时过零率法首先失效, 过零率的波形变得类似于白噪声信号,而导致只能使用短时能量来进行端点检 测;而当噪声再增大时,带噪语音信号的语音部分和噪音部分幅值相近,整个 波形看上去类似白噪声,此时短时能量法也无法检测出准确的语音端点。其他 传统端点检测的方法大多在低信噪比下也会失效。因此,噪声环境下端点检测 己成为当前语音识别领域的一大课题。 1 3 研究内容和创新点 本文通过对语音识别系统各个模块的研究,组成了一个针对高斯白噪声环 境下的孤立词识别的,能够动态适应噪声环境变化的语音识别系统。 通过对语音识别系统的各个模块和多种算法的研究分析,选择和应用了优 化算法来实现各个模块,提高了系统在低信噪比环境以及背景噪声不断变化的 环境中的运行表现和识别率。 本文的创新点有: ( i ) 将高斯混合模型( g m m ) 应用到端点检测 本文针对当日仃语音算法在环境适应性方面的缺陷,通过对语音信号的特点 和g m m 算法的研究,研究了基于g m m 模型的端点检测算法。分析了g m m 在语 音识别中应用的可行性,研究了应用g m m 模型端点检测的算法,详细设计了基 于g m m 的端点检测模块的实现流程,研究了能够动态适应信噪比变化的岛斯白 噪声环境的端点检测模块,为语音识别系统在实际环境中的应用提出了新的参 3 考方向。 ( 2 ) 各模块算法的选择和应用 本系统主要针对复杂环境中的孤立词的识别,围绕此目标,针对算法的运 行效率、环境适应性方面综合选择和应用了相应的优化算法来实现语音识别系 统的其他模块。 ( 3 ) 多线程系统设计 多线程是为了使得多个线程并行的工作以同时操作多项任务的技术。由于 本系统主要目标是实时语音孤立词识别。考虑到系统实时性需求,这里应用多 线程和缓冲池技术来改进系统的运行效率。 4 武汉理工人学硕士学位论文 第2 章系统整体设计 2 1 系统参数设定 采样:研究表明,对于语音识别,信号采样率8 k h z ,采样位数1 6 b i t 已经足 够【2 1 。因此本系统取采样率8 k h z ,采样位数1 6 b i t 。 分帧:语音信号是短时平稳信号,对语音信号的分析处理通常是短时分析, 因此必须对语音信号进行分帧。研究表明,语音信号在1 0 3 0 m s 内相对平稳,本 系统取帧长3 0 m s ,由于采样率为8 k h z ,则帧长应为2 4 0 个采样点,为了便于计 算机系统运算,这里帧长取2 5 6 ,即2 的8 次方。帧与帧之间的偏移根据经验取帧 长的1 2 ,即帧问交叠1 2 8 个采样点。 2 2 系统框架设计 本系统主要针对高斯白噪声环境下的语音孤立词识别。 为了提高系统的抗干扰能力,在预处理中加入了语音增强模块。 系统主要由g m m 端点检测模块、谱减法语音增强模块、m f c c 参数提取模 块、d t w 模板匹配模块组成( 如图2 1 ) 。 端点检测模块:日常生活中,噪声往往以高斯白噪声为主,传统的方法在 信噪比较高的情况下都得到了检验,并取得了良好的效果,但是在信噪比很低 的情况下往往无能为力1 1 2 d7 1 ,无法适应实际生活中复杂的噪声环境。这罩应用 用高斯混合模型来进行端点检测,提高了系统的环境适应能力。 语音增强模块:目前应用的语音增强算法大致可以分为:参数方法、非参 数方法等。参数方法主要依赖于使用的语音生成模璎,需要提取模型参数,由 于本课题是基于复杂环境下的孤立词识别,噪声会使得语音模型扭曲较大,而 短暂的孤立词指令难以生成稳定的模型参数,参数方法失效,因此选用非参数 方法中的谱减法进行语音增强。 参数提取模块:m e l 频率倒谱系数( m f c c ) 能够准确有效的描述语音信号 的特性,足目前最常用的语音特征参数之一。这里选择m f c c 作为语音特征参数。 5 武汉理: 人学硕十学位论文 模式匹配模块:动态时间归整( d y n a m i ct i m ew a r p i n g ,d t w ) 是模式匹配计 算中一种简单有效的方法,在语音孤立词识别领域有着优秀的表现,这里选择 d t w 来进行模式匹配计算。 2 3 多线程结构设计 图2 - 1 系统框架结构图 本系统主要针对孤立i j l q 另j 。一般情况下,孤立词语音长度在2 秒以下,例 如“开灯 、“前进 等指令,指令数据量不大,且通常人们不会连续发出指 令,参数提取以及识别模块对实时性要求不高。因此采取以下设计方案( 如图 2 - 2 ) : 1 采用多线程模型。 6 武汉理工大学硕十学位论文 语音指令可能随时出现,为了使系统能实时采集到所有时刻的声音信号, 采集过程中不能出现运行阻塞。多线程模型可以保证这一点。程序启动后,创 建两个线程。线程1 只负责声音信号的采集和端点检测,以提高该线程的运行效 率,线程1 永久循环执行采集和端点检测计算;线程2 负责其它模块的计算,没 有语音信号时,线程2 处于空闲状态。出现语音指令时,线程2 计算负载可能远 大于线程1 ,但即使线程2 计算负载过大而出现运行阻塞,也不会影响线程1 的声 音采集。因此只需保证端点检测计算的速度足够快、缓冲区容量足够大,就不 会出现漏掉语音帧的情况。两线程之间的数据交互和同步控制见步骤2 ,3 ,4 。 2 创建一个缓冲池存放端点检测模块提取到的待识别的孤立词。 3 端点检测模块在线程1 中执行,每接收到一帧语音信号就进行检测,一 旦检测到有效语音信号,则将数据写入缓冲池。 4 线程2 不断扫描缓冲池,一旦检测到有语音数据,则将数据从缓冲池中取 出并送入后续模块进行处理。 7 武汉理工大学硕士学位论文 图2 - 2 系统线程结构图 8 武汉理工人学硕十学位论文 第3 章端点检测模块设计 实际环境中,由于噪声干扰,很难获取完全纯净的语音信号,而语音识别 系统的处理对象是有效语音信号,这就需要从带噪语音信号中找到语音段的起 止点。端点检测的目的就是从带噪语音信号中确定有效语音信号的起点及终点, 又称语音活动检测( v a d ,v o i c ea c t i v i t yd e t e c t i o n ) a 3 1 传统端点检测算法 传统的端点检测算法都是针对实验室安静环境的,随着语音识别研究工作 的开展,近几年人们才开始研究噪声环境下语音的端点检测。在语音识别中, 背景噪声使得端点检测变得复杂,传统的端点检测算法包括利用过零率和短时 能量,短时自相关和低短时能量i :l ( l s t e r ,l o ws h o r t t i m ee n e r g yr a 2 t i o ) 进行 等。这些方法在信噪比较高的情况下都得到了检验,并取得了良好的效果,但 都无法适应信噪比较低且不断变化着的复杂噪声环境1 1 二1 。 实际生活环境往往信噪比较低,且环境信噪比会经常发生变化,在这种复 杂环境下,传统端点检测算法往往准确率较低,直接影响了语音识别的准确率。 3 2 基于高斯混合模型的端点检测 3 2 1 应用高斯混合模型描述高斯白噪声的基本思想 实际环境中的噪声多种多样,高斯白噪声是最常见的噪声之一。假设实际 环境中的高斯白噪声是由多个平稳噪声源的噪声加性混合构成的,又假设每个 平稳噪声源的噪声可以用一个或多个高斯分和来表征,则可用多个高斯分饰的 加权相加,即高斯混合模型末描述环境中的高斯白噪声,而模型中包含的每一 个高斯分布分别对应着环境噪声的一个平稳状态。 根据高斯模型定义:一个高斯混合模型的概率密度函数是由多个高斯概率 密度函数加权线性组合而得剑的 1 8 j 。 用高斯混合模j _ 弘- i ( g m m ) 描述高斯白噪声信号的基本思想是:对高斯白噪声 9 武汉理工人学硕士学位论文 信号采样序列进行分帧,定义信号帧共有k 个随机状态,每帧信号符合这k 个 高斯分布中的某一个分布,定义混合高斯分布p 由k 个独立的高斯分量加权相加 构成( k 通常取3 5 ,k 值越大,建立的模型能更准确的描述噪声,但计算量 也越大。) ,则可以用p 来表征每一个噪声信号采样点,设每个采样点取值为x , 贝, l j t 时刻该采样点值的概率为【2 5 】: 阵, 为环 t e 2 一雎。) ,艺: 一。,) 1 2 是第i 个高斯分布所占的权重、 示当前环境噪声时,需要建立 境噪声的变化,需要不断实时更新模型( 见3 2 2 ) 。 k 个高斯混合分布根据置信度;c l 的值从大到小排序【2 6 1 。 ( 3 1 ) 均值和协方差矩 模型;其次,因 3 2 2 应用高斯混合模型判别高斯白噪声和语音的仿真实验 在m a t l a b7 0 1 中进行仿真实验,应用高斯模型描述高斯白噪声,并尝试判 别噪声和语音信号。 本系统主要应用是孤立词识别,孤立词的特点是语音信号持续时间短,而 环境噪声持续时间较长,例如室外马路的喧闹声,车内环境下的空调声,发动 机声等。这里取了两段各3 0 秒来自同一噪声源的机器轰鸣噪声( 以下用噪声1 , 噪声2 表示) 和“你好”孤立词的纯净语音信号分别进行实验,信号采样率8 0 0 0 h z , 采样大d x l 6 b i t ,均为单声道信号,计算时以帧为单位,帧长取2 5 6 ,帧间交叠5 0 。 对噪声信号建立高斯混合模型的基本方法是( 实际应用时模型建立具体算 法见3 2 2 ,这里不考虑单个高斯分布的权重) : 1 、l 求出每一帧的均值和方差。 2 1 对帧均值序列进行k 阶量化,得到帧均值的k 个量化值及对应的k 个量化 区i 、口j 。 3 、对k 个帧均值量化区间所包含的帧的方差进行统计并计算平均值,得到 k 个均值量化值对应的k 个方差量化值。 4 ) 得到的k 个均值和k 个方盖即高斯混合模型中的k 个高斯分布。 1 0 一 、删 表趔 型! 叫 口 濮磊赫x善。厍 、j e r 1 ”一,聃 咄q 娴札k y 得 武汉理工大学硕士学位论文 ( 1 ) 噪声1 的实验 对噪声1 信号分帧并建立高斯混合模型,取高斯分布个数k = 5 。计算该噪声 信号每一帧的均值和方差,得到帧均值和方差波形( 如图3 1 ) ,其中均值最小 值卢血= - 0 0 0 1 3 ,最大值= 0 0 0 1 6 ,信号总帧数n = 1 9 6 0 。 o2 0 0 4 0 0 e g o8 0 01 0 0 01 2 0 。1 4 0 c1 6 0 0 1 8 0 。2 0 0 0 x 1 0 3 图3 - 1 噪声1 帧均值和方差波形 ( 上图为原始信号,中图为均值波形,下图为方差波形) 对均值波形进行均匀量化统计,量化阶数为高斯分布个数k = 5 ,则量化区 间长度为f 一似一- # “) 1 5 - - d 0 0 0 5 8 ,5 个均值量化区间中间值几( k - - 1 ,2 5 ) 分别为( 统计直方图如图3 2 ) : “枷0 0 1 1p 2 = _ 0 0 0 0 5 鸬- 0 0 0 0 1 地- - 00 0 0 7m = 0 0 0 1 3 武汉理t 大学硕士学位论文 5 x1 0 3 图3 2 噪声1 帧均值序列均匀量化直方图 对第k 个均值量化区间,设区间内帧数为。,对该帆帧信号的方差进行统 计,得n 5 个均值量化区间内帧的方差的分布觑( 统计直方图如图3 - 3 ) 。 2 0 1 0 0 4 0 0 2 0 0 o 4 0 0 2 0 0 0 2 0 0 1 0 0 0 4 0 2 0 o 2345678 x1 0 - 4 023456 78 x1 0 4 023 45678 x1 0 4 02 o 一r 一l o12 345 678 x1 0 4 一r 一一t 。r r 一 j _ l 一 345678 x1 0 4 图3 3 噪声1 各均值区问内帧方差统计直方图 ( 从上至下依次对应k = l ,2 ,3 ,4 ,5 均值量化区问) 1 2 武投理工太学硕士学位论文 由圈3 - 3 n 知,各均值区间内帧的方差值分布,以( k = 1 2 5 ) 都近似符合 正态分布,取,d 。的平均值q ; o 1 = 5 1 5 7 5 0 0 4 仃m 52 1 4 6 e 4 ) 0 4 - o a = 52 2 0 9 e 4 1 0 4 d 。= 5 2 3 8 3 c 埘d f5 1 7 2 3 c 一0 0 4 用v ( 蜥,以) ( k = 1 2 5 ) 近似表示该噪声中包含的5 个平稳状态,对应高斯 混合模型中的5 个高斯分布,即: d 0 1 1 5 1 5 7 5 x 1 0 4 1 n ( - 0 0 0 0 5 52 1 4 6 1 0 4 1 ( 0 0 0 0 1 52 2 0 9 1 0 4 1 n ( - 0 0 0 1 1 5 2 3 8 3 x 1 0 4 、 ( 0 0 0 1 3 , 5 1 7 2 3 x 1 0 4 ) ( 2 ) 噪声2 的实验 与( 1 ) 中噪声1 进行相同的计算分析,噪声2 的原始波形,帧均值波形,帧 方差波形如图3 4 。 固3 4 噪声2 帧均值和方差波形 ( 上图为原始信号,中图为均值波形,下图为方差波形) 5 个均值量化区间中间值p 。( k = l ,2 5 ) 分别为( 统计直方图如n 3 5 ) j u l 00 0 2 2p 2 00 0 1 1p 3 = - 00 0 0 1p 4 = 0 0 0 0 9p j - - 0 0 0 1 9 武汉理t 大学硕士学位论文 图3 5 噪声1 帧均值序列均匀量化直方图 x1 0 - 3 5 个均值量化区间内帧的方差的分御慨( 统计直方图如图3 6 ) 。 1 2 一i l 一j 。0123 4 56 78 4 x1 0 8 8 i 1 二二二二二二二二= = i i i 二 100一_- 一上j_j上_jl一 。0123 4 5 678 x1 0 4 掷二= 二二二二二二】i 【= 二2 0 2 :一。 ,l i i 一 。012345678 x1 0 - 4 2 0 0 1 0 0 0 0 1234 5 6 2 0一r 一一- 1 0 0 - - l 一上一一 01 2 78 x1 0 。4 3 456 图3 6 噪声2 各均值区间内帧方差统计直方图 ( 从上至下依次对应k = l ,2 ,3 ,4 ,5 均值量化区| h j ) 1 4 78 1 0 。4 武汉理t 大学硕士学位论文 取各均值区间内帧的方差值分布f o , ( k - l 2 5 ) 的平均值吒: 吼= 5 0 5 2 7 9 - 0 0 4 口,= 52 3 1 5 e 0 0 4 以= 5 1 8 5 8 e - 0 0 4 o = 5 2 3 4 2 e - 0 0 4d ;= 5 2 6 7 8 e 4 4 则噪声2 对应的高斯混合模型中的5 个高斯分布分别为: _ 0 0 2 2 , 5 0 5 2 7 x 1 0 4 1 细0 0 1 1 5 2 3 1 5 x 1 0 4 1 n ( - 0 0 0 0 1 , 5 1 8 5 8 x 1 0 4 1 n ( 0 0 0 0 5 2 3 4 2 x 1 0 4 ) ( 0 0 0 1 9 ,5 2 6 7 8 x 1 0 4 ) 与噪声1 信号对应的5 个高斯分布进行比较,差异甚小。 ( 3 ) “你好”孤立词的纯净语音信号的实验 对语音信号进行分帧,计算该语音声信号每一帧的均值和方差,得到帧均 值和方差波形( 如图3 - 7 ) ,信号总帧数n 5 ,= 4 4 。 o1 0 0 02 0 0 03 0 0 0 4 0 0 05 0 0 0 6 0 0 0 x 10 3 图3 7 “你好”孤立词的纯净语音信号的帧均值和方差波形 ( r 罔为原始语音幅度谱,中图为均值波形,下图为方差波形) 。 舶 。 。 七 嘶 武汉理工大学硕士学位论文 设第n ( n = 1 , 2 ,n 。y ) 帧信号均值为p s 。,方差o s 。,用语音信号帧的高斯分布 ( 声。,田。) 与( 1 ) 中的噪声信号对应的高斯分布n 0 , 。,吼) ( k = 1 ,2 ,5 ) 进行比 较,差异明显。语音帧中与噪声分布差异最小的几帧为第1 帧胛。= 0 0 0 0 1 , 田2 = o 0 0 0 3 ,第1 9 帧u s l 9 = o 0 0 0 1 ,0 3 1 9 = 0 0 0 0 2 ,第4 4 帧( 最后1 帧) p “= o 0 0 0 1 , 0 5 “= 0 0 0 0 2 。 ( 4 ) 结果分析 综上所述,对同一平稳噪声源在不同时刻的噪声采样分别建立高斯混合模 型,得到的两模型相似度很高,模型很稳定,说明平稳噪声信号组成的高斯白 噪声可以用高斯混合模型描述;而噪声信号的高斯混合模型与语音信号的分布 存在很大差异。可以应用高斯混合模型将噪声段和语音段区分开。 本系统主要应用方向是孤立词识别,孤立词的特点是语音信号持续时间短, 可假定语音信号发生时前后一段时间内环境噪声没有发生突变,即可认为语音 信号相邻的前后噪声段属于同一高斯混合模型,可以尝试应用高斯混合模型进 行端点检测。 3 2 3 基于高斯混合模型的端点检测算法研究 对每一帧的采样点,用高斯混合模型来为其建模【3 2 ,3 3 1 ,使用k 个高斯模型组 成的高斯混合模型来表征每一帧信号。每获得一帧信号时更新高斯混合模型, 用该帧中的每个采样点与当前高斯混合模型进行匹配计算,如果匹配成功则判 定该帧为背景噪声帧,否则为带噪语音帧或突变噪声帧。 实际应用中,整个识别过程包括三个计算步骤:建立模型,匹配计算和模 型更新。 ( 1 ) 建立模型 设模型建立的阶段,即初始化阶段所需时间为t ,假设此阶段中只有环境噪 声,没有语音信号输入。按如下步骤建立模型: a 对环境噪声信号分帧,t 时间内共分为n 帧,计笄每一帧信号序列的均值 。和方差伊,n 为帧序号。 b 对各帧方差组成的均值序列。( n = 1 , 2 ,n ) 进行k 阶量化,用心序列 的第k ( k = 1 ,2 ,k ) 阶量化区间的中间值和权重作为第k 个高斯分布的方差和权 重t j 、咄,。 c 取u 。序列的第k 阶量化区问内帧刈应的方差甲均值作为第k 个高斯分布的 1 6 武汉理t 大学硕士学位论文 方差。 d 得到描述环境高斯白噪声的k 个高斯分布,即高斯混合模型n ( a k ,, 吼。2 ) , 各高斯分布权重为魄。( k = 1 ,2 ,k ) 。 ( 2 ) 模型更新 模型初始化完成后,每获得新一帧信号,进行匹配计算( 匹配计算在( 3 ) 中介绍) 。若结果匹配,则认为新一帧信号属于背景噪声帧,进行模型更新; 若不匹配,则认为是语音帧。 对于与模型匹配的信号帧,认为该帧是噪声帧。由于环境噪声可能出现变 化,按以下方式对高斯混合模型进行更新【5 1 。 设第k 个模型为k 个高斯分布中与当前帧相匹配的那个模型,每次更新只对 第k 个模型的参数进行更新。 计算其均值。和方差,2 ,取常数q 为学习速率,它反映了当前背景噪声 模型变化的速率,实际应用时可根据情况调节。则第k 个模型的权值调整为 甜t ,f 一( 1 一a ) i ,f 一1 同时,均值和方差调整为 乒l f = ( 1 一口) t 。f l 吼,2 - 0 一a ) i 叮乙4 + 口( 以,一心,4 ) 2 其中,( - o k , t _ 1 、肛聃- 、纠为第k 个模型更新前的权重、均值和方差,吡,、 n 、仃k , t 为第k 个模型更新后的权重、均值和方差。其中权重更新后,高斯混 合模型中各分布的权重等比例缩放,保持权重之和为1 。 ( 3 ) 匹配计算 j e f f r e y 值足目前常用的高斯分布距离参数之一【3 6 1 ,这早使用j e f f r e y 值来进 行高斯分布的比较。 计算当前帧的均值4 和方差伊,然后对当前帧与背景噪声高斯混合模型的 k 个高斯分布分别计算j e f f r e y 值( j e f f r e yd i v e r g e n c em e a s u r e ) 1 3 6 l : 姒力2 净净11 飞,2j 1 7 武汉理j r 大学硕十学何论文 其中,雎和q 为第i 个高斯分布的均值和方差。 对于背景噪声混合高斯模型,f 。( 肛;,6 产) ,定义,( ,g ) 为当前帧与背景 噪声高斯混合模型中所有高斯分布的j e f f r e y 值的最小值。当,( ,g ) 不大于一 定的阈值t h 时,认为当前帧和高斯混合模型中的第j 个分布f j 匹配,按第( 2 ) 步中的更新算法更新模型;当所有j ( 厂f ,f ) ( i = 1 ,2 k ) 都大于阈值t h 时,则 认为当前帧与高斯混合模型不匹配,认为是检测到语音端点。实际应用中t h 可 根据实际情况调节。 3 3 模块具体设计 基于上节的分析,按以下流程进行端点检测( 流程图如图3 8 ) : 1 建立背景噪声g m m 模型: 当系统启动时,会以当前所处环境里的噪声来建立当前背景噪声的k 阶 g m m 模型,即含有k 个独立高斯分布的高斯混合模型,k 为预设值,可调节。此 初始化需要一定时间( 大约1 0 秒) 来建立模型,此时间内无法进行语音识别。 2 计算当前帧高斯分布: 背景模型建立完成后,便进入实时的语音信号获取和处理阶段。系统每获 取一帧数据,都会计算出当前帧的高斯分布,即计算当前帧的均值和方差。 3 判断当前帧高斯分布与背景模型是否匹配: 根据当前帧的高斯分布与背景模型中存在的k 个高斯分布相比较。如果当前 帧与背景高斯混合模型中的某个分布匹配,进入s t e p4 ;否则跳至s t e p5 。匹配阈 值t h 取高斯混合模型中各分布之间l 拘j e f f r e y 值最大值的5 0 ( 试验后发现这样取 值最佳) 。 4 自我学习的方式更新背景模型: 如果当前帧与背景模型匹配,则认为当前帧也是背景噪声帧。背景模型按 3 2 3 节的算法进 j :更新。 5 语音帧判决。 如果当前帧与背景模型不匹配,假定环境噪声是由加性平稳噪声混合而成 1 8 武汉理= 人学硕十学位论文 的高斯白噪声,则此时有几种可能情况。 1 ) 带噪孤立词语音信号。此情况是需要识别的孤立词语音信号。 2 ) 突发噪声,如开关门声,咳嗽声等。此情况本端点检测算法无法屏蔽, 会将噪声信号误判为有效语音指令信号,进行提取并交给识别模块进行处理, 经过识别模块进行匹配计算后,发现与所有语音模板不匹配,最后丢弃。 3 ) 背景噪声模型变化。如在行驶的车内突然开打空调,噪声从马达噪声变 化为马达噪声和空调噪声的混合加性噪声等,此情况下背景噪声模型需要进行 大幅度更新,即重新建立模型。 对于情况1 ) 和2 ) ,在本模块中可视为同一种情况,都是短时突发信号; 因此可归纳为: 幻短时的突发信号; b ) 背景模型的改变: 为此本文提出辨别这两种情况处理算法:若当前帧与当前背景模型不匹配, 背景模型暂时停止更新,记录下当前帧位置s ,假定其为突发信号的初始帧,并 继续获取信号。设置一个超时门限m ,若从假定的初始帧s 丌始,超过m 帧的信 号都与当前背景模型不匹配,则认为系统处于情况b ,并利用这m 帧重建噪声背 景;反之,若从初始帧s 开始经过e 帧以后( e 0 ) d t = 1 : e l s e d t = 一l : e n d e n d i f ( d t = :1 ) i f ( y ( j ) d e l t a ) z c r ( i ) = z c r ( i ) + 1 : d t = 1 : e n d e n d 计算短时能最 e s ( i ) = y ( j ) 术y ( j ) + e s ( i ) : 武汉理工大学硕士学位论文 e n d e n d f b = f b + e c h o f : 2 语音端点检测代码 双门限法语音端点检测 y :包含噪声段的语音信号 z e r o t :过零率门限 e n e r g e t l :短时能量高门限 e n e r g e t 2 :短时能量低门限 s p :检测到得语音段开始位置 e p :检测到得语音段结束位置 f u n c t i o n ( s p ,e p ) 2e n d p z e r o e n e r g e ( y ,z e r o t ,e n e r g e t l ,e n e r g e t 2 ) l e n = s i z e ( y ,1 ) :信号长度 f r a m e = 2 5 6 :帧长 e c h o = 0 5 :帧交叠率 e c h o f :f r a m e 木e c h o :帧交叠长度 f r a m e c o u n t = i n t l 6 ( ( 1 e n f r a m e ) e c h o f ) :总帧数 ( z c r 。e s ) = z e r o e n e r g e ( y ) :获得过零率序列和短视能最序列 a50 : 短视能量高门限进行第一次检测 f o ri = l :f r a m e c o u n t i f ( e s ( i ) e n e r g e t l ) a2i : e n d e n d i f ( a 0 ) ( e s ( i ) e n e r g e t l ) b = i : b r e a k ; e n d 短视能帚低门限进行筇二次检测 f o ri 5a :一l :0 i f ( e s ( i ) e n e r g e t 2 ) c 2i : b r e a k ; e n d e n d f o ri = b :f r a m e c o u n t i f ( e s ( i ) z e r o t ) s p = i :获得语音开始位置 b r e a k : e n d e n d f o ri = d :f r a m e c o u n t i f ( z c r ( i ) z e r o t ) e p = i :获得语音结束位置 b r e a k : e n d e n d 图3 1 0 是m a t l a b 计算的分别两种噪声条件下的短时过零率和短时能量谱, 其中原始信号波形图的纵轴表示采样值,横轴表示采样点数;均值和方差波形 图的纵轴表示均值和方差值,横轴表示采样帧数。 由图3 1 0 可见,在低信噪比条件下,短时过零率已经无法体现出语音端点, 短时能量谱虽然可以大致体现出语音信号的起止点,但是从时间轴上对比可知, 语音的清音部分已经与噪声混淆,无法检测出来。因此在环境信噪比较低时, 双门限法端点检测失效。 2 5 武汉理工大学硕士学位论文 x l o o o 2 0 0 3 0 04 0 0 5 。o6 0 07 0 0 o o2 0 03 0 04 0 05 0 0右0 07 0 0 a 高信噪比下短时过零率和短时能量谱 o 2 r,一t一 t o,m叫4一一j o 2一ll一j-j一l_ o12 3 4 567891 0 x 1 0 4 2 0 0 rtr一rr1一 o1 0 0 2 0 。 3 0 00 0b o o 0 0 2 0 03 0 04 0 05 0 06 0 07 0 08 0 0 b f 氐信噪比下短时过零率和短时能量谱 图3 1 0 “你好”孤立词噪声下的短时过零率和短时能 量谱波形图( 上方波形为原始语音信号幅度谱,中间波形为 短时过零率,下方波形为短时能量谱1 。 雌 。 武汉理工人学硕十学位论文 3 4 3 基于高斯模型端点检测算法仿真 均值和方差是高斯模型

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论