




已阅读5页,还剩60页未读, 继续免费阅读
(计算机应用技术专业论文)基于多级小波神经网络的模糊说话人识别(1).pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 本文从实际出发,提出了一种任意文本的说话人识别的新方法。该方法首先 采用小波包分析进行语音信号的消噪处理,然后提取说话人语音信号的静态特征 和动态特征,再建立多级小波神经网络进行模式识别,最后结合模糊理论进行多 种特征识别信息的数据融合。实验结果表明,本文提出的方法有一定的积极效果和 良好的可借鉴性。 本文主要做了以下几方面的工作: 采样语音信号,建立包括6 个说话人,每个人6 段语音,共3 6 个语音文件 的语音库。录制的语音库考虑了语速快慢、音量、时间间隔等影响说话人 识别系统性能的主要因素。 利用小波包变闽值分析方法进行采样信号的消噪处理,并对语音信号进行 适当的滤波处理。 提取常见的说话人语音信号特征,比如:基音周期、m e l 倒谱特征参数、 m e l 倒谱差分动态特征参数、线性预测系数l p c 以及线性预测倒谱参数 l p c c 等等。 研究b p 网络、r b f 网络和小波神经网络算法,结合模糊数学方法,建立 基于多级小波神经网络的模糊说话人识剐系统。 综合分析说话人识别的系统,改善各环节的技术参数,以提高系统的识别 率和鲁棒性。 最后给出详细的实验结果与分析报告。 关键词:说话人识别特征提取小波包分析多级小波神经网络模糊识别信息融合 a b s t r a c t i nr e c e n ty e a r s ,t h er e s e a r c ho ns p e a k e rr e c o g n i t i o nh a so b t a i n e da ni m p o r t a n t p r o g r e s s ,a n d i t s a p p l i e df o r e g r o u n db e c o m e sm o r ea n dm o r ee x t e n s i v e b u t ,t h e s y s t e mo nt e x t i n d e p e n d e n ts p e a k e rr e c o g n i t i o ns t i l ld o e sn o tr e a l i z ei t sp r a c t i c eo n c o m p l e t em e a n i n g t h e r ea r em a n yr e a s o n so ft h a t ,s u c ha st h ei n t e r f e r e n c eo fn o i s e , t h ei n f e r i o rp e r f e c t i o no ff e a t u r ep a r a m e t e r s ,t h er o b u s tp r o p e r t yo ft h es y s t e mn e e d i n g i m p r o v e d ,e t c s e to u ti np r a c t i c e ,t h et h e s i sb r i n g sf o r w a r dan e wm e t h o do nt e x t - i n d e p e n d e n t s p e a k e rr e c o g n i t i o n i ts u g g e s t st h a tf i r s t l yd oaw i p i n go f f n o i s es i g n a lb yaw a v e l e t p a c k e ta n a l y s i sw a y ,a n ds e c o n d l ye x t r a c tt h es t a t i ca n dd y n a m i c f e a t u r eo fas p e e c h , a n dt h e nb u i l da m u l t i p l e w a v e l e tn e u r a ln e t w o r km o d e lt o c a r r yt h r o u g h t h e r e c o g n i t i o n ,a n df i n a l l yd oa ni n f o r m a t i o n f u s i o nw i t hf u z z ym a t h e m a t i c st h e o r y s o m e e x p e r i m e n t a l r e s u l t sh a v e p r o v e d t h a tt h em e t h o dh a ss o m ep o s i t i v ea f f e c t i o n ,i n a d d i t i o na sa g o o ds u g g e s t i o n i nt h i st h e s i s ,t h em a i nw o r k sa r ea sf o l l o w s : c o l l e c ts o m e s a m p l e s o f s p e e c hs i g n a l s ,a n de s t a b l i s has p e e c hl i b r a r y ,w h i c h i n c l u d e so f6m a l ep e r s o n sw h od i v i d e di n t o3 6p i e c e so f s p e e c h d o c u m e n t s w h e n r e c o r d i n g ,w eh a v eg i v e l lac o n s i d e r a t i o nt os o m e f a c t o r ss u c ha ss p e e d , v o l u m ea n dt i m ei n t e r v a l ,w h i c ha f f e c tt h ep e r f o r m a n c eo fs p e a k e r r e c o g n i t i o n s y s t e m d oaw i p i n go f fn o i s e s i g n a lb y aw a v e l e t p a c k e ta n a l y s i sw a y a n dd o s o m e f i l t e ra p p r o p r i a t e l y e x t r a c ts o m eu s u a lf e a t u r e so ft h es p e e c h s i g n a l s ,s u c h a s p i t c hp e r i o d , m e l b a s e dc e p s t r u m ,m e l b a s e dd i f f e r e n c i n gc e p s t r u m ,l p c b a s e dc e p s t r u m , l p c c b a s e d c e p s t r u m ,e t c r e s e a r c hb pn e u r a ln e t w o r k r b fn e u r a ln e t w o r ka n dw a v e l e tn e u r a ln e t w o r k a s s o c i a t i n gw i t hf u z z ym a t h e m a t i c st h e o r y ,b u i l dam u l t i p l ew a v e l e tn e u r a l n e t w o r km o d e lt oc a r r yt h r o u g ht h er e c o g n i t i o n s y n t h e t i c a l l ya n a l y z et h es p e a k e rr e c o g n i t i o ns y s t e m ,a d j u s ti t sp a r a m e t e r s a n dt h e ni m p r o v ei t sr o b u s tp r o p e r t y f i n a l l yg i v eo u tt h ed e t a i l e de x p e r i m e n tr e s u l t si nar e p o r t 班; k e yw o r d s :s p e a k e rr e c o g n i t i o n ;f e a t u r ee x t r a c t i o n ;w a v e l e tp a c k e ta n a l y s i s ;m u l t i p l ew a v e l e t n e u r a ln e t w o r k ;f u z z yp a t t e r nr e c o g n i t i o n ;i n f o r m a t i o nf u s i o n i l l 长沙理工大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所 取得的研究成果。除了文中特i i i i i 以标注引用的内容外,本论文不包含任 何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡 献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的 法律后果由本人承担。 作者签名:史张l 三琴日期:丑肋悻岁月,弓日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意 学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文 被查阅和借阅。本人授权长沙理工大学可以将本学位论文的全部或部分内 容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存 和汇编本学位论文。 本学位论文属于 l 、保密口,在年解密后适用本授权书。 2 、不保密四。 ( 请在以上相应方框内打“”) 作者签名:波绉埠7 日期:沙平年岁月f 弓日 导师签名:夏鬟汜 日期:许广月少日 1 1 话人识别概述 第一章引言 1 1 1 基本概念 说话人识别是语音识别的一种特殊情况,它利用待识别语音和预先提取的说 话人语音信号特征来确认或辨识说话人身份“1 。语音信号中营有说话人的声道特性 和发音特点等固有的个性特征,它们一般不会随着说话的内容而改变,这是说话 人识别的基本依据。而这种利用说话人语音来分析其身份的过程就称作说话人识 别。作为一种模式识别形式,说话人识别也包括i j i i 练和识别两个予过程。 1 1 2 说话人识别的分类 从映射关系上讲,说话人识别包括两种形式:说话人确认,和说话人辨识( 又 称说话人识别) “1 。说话人确认只需将待识别语音与预定的说话人模型比较,以判 定其是不是该说话人的语音;然而说话人识别则需将待识别语音和目标人群中的 每一个对象的模型进行逐一比较,从中辨别出说话人。 从文本信息角度讲,说话人识别也包括两种形式:文本相关方式,文本无关 方式。在说话人识别中,待识别语音可以是固定文本,也可以是任意文本,基于 前者的说话人识别称为文本相关方式,而基于后者的说话人识别称为文本无关方 式。 1 2 发展现状及其应用前景 近年来,说话人识别的研究取得了重大进展,并且成为了一个很热门的研究 领域。每年都有大量的文章发表,实际的系统已经在某些领域得到了初步应用, 但在迅速发展的过程中仍然有许多问题需要解决,特别是系统的鲁棒性问题,使 这项技术距离实用化还仍有一定距离,至少在近期商品化的系统还不会很成熟。 国内开展说话人识别研究的单位主要有北京大学信息中心、南京大学和清华 大学自动化系等单位。但由于国内开展这项研究的时间较晚,进行这项研究的学 者也不多,研究水平也相对较低。 说话人识别是国际上的热点领域,目前已有多种方法应用于此,并且识别率 h 益提高,主要有:非参数模型方法,参数模型方法和人工神经网络方法,或者 三类方法之间的相互结合,构成更高效的说话人识别方法。国外在普通实验室条 件下能达到9 0 以上的识别率,国内也已接近该水平。 说话人识别有广阔的应用前景,它可以用于军事上的说话人身份的判别或监 听,刑侦与司法方面的当事人鉴定,语音邮件、电子交易、安全保卫等环境下的 说话人核对,还有医学中的应用等等。在现实生活中,一个最典型的应用是用于 双胞胎的辨认。“。 1 3 存在的问题与研究热点 尽管,在国际范围内,说话人识别的研究取得了很大进展,但说话人识别的 商业化还未走向成熟。其中一个很重要的原因是国内还没有完全统一的语音信号 标准库,也没有完全统一的规范用于评价说话人识别的性能;另外,也没有考虑 伪装发音与语音合成对说话人识别系统的攻击,一个没有能力鉴别模仿发音的系 统是始终不可能走向实际应用的;另外,识别系统对噪声的鲁棒性是很不乐观的, 况且经常情况下,噪声是不可避免的。因此,仍有待从说话人的特征提取和识别 方法入手,研究具有更高识别率和鲁棒性的系统。 目前该领域仍然存在许多问题。列举如下: ( 1 ) 语音信号去噪方面 如上所述,常见的语音信号去噪方法( 比如一系列的滤波器法) ,主要基于噪 声是可以被精确估计的,并且是比较平缓的稳定信号,而实际情况往往并非如此, 噪声可能更加复杂,没有确定的可预测模型,或许也可能是瞬变的冲激信号。另 外,一些方法的实现也是相当困难的,如同态滤波法、减谱法等等。 ( 2 ) 特征提取方面 “ 尽管人们发现了几种比较实用的特征参数,但是目前尚未找到一种简单可靠 的特征参数能够很好地描述说话人语音信号特征。语音信号中既包含了讲话内容 的语义信息,又包含了说话人发声特征的个性信息,是语音信号特征和说话人发 音特征的混合体,到目前为止,还没有很好的方法将说话人的发音个性特征从语 音特征中分离出来,也没有找到简单的声学参数能够可靠地识别出说话人。 而且,语音信号有变异性,即使对同一个说话人和同一文本语音信号也有很 大的变异性。因为,说话人的语音特征不是静态的、固定不变的,它具有时变特 性,并常常和说话人所处的环境、情绪、健康状况有密切关系,会随着时间的推 移和年龄的增长而变化。另外,传输语音的通信信道的时变效应问题也是语音信 号产生变异的重要方面。语音信号的变异性。从本质上说是使说话人语音信号的 2 特征空间发生移动,说话人模式产生变异,从而增加识别过程中的不确定性。 另外,当识别人群很大时,特征空间的子划分也将会很大,因此,说话人识 别还在理论上存在将有限特征空间进行无穷划分的问题,从而影响识别的真正实 现。 还有,近年来,我国教学和科研机构相继也开展了说话人识别的研究工作, 取得了一系列的研究成果,但是就说话人语音信号特征提取方法而言,绝大部分 的研究采用国际上普遍使用的特征提取方法,未考虑汉语语音的特点,因此对汉 语说话人识别问题,在借鉴国外已有的基础上,应研究具有汉语语音特点的说话 人语音信号特征提取和识别方法。 最重要的是,如上所述的一些大多数特征提取方法都利用了语音信号的短时 平稳特性,并认为语音信号的相邻两帧问相互独立,这样的特征提取方法丢失了 语音信号的动态特征。而且,由于实际应用的影响,大多数的方法都局限于语音 信号低频特性的研究,这是不很科学的。 ( 3 ) 识别方法方面 在识别方法方面存在的问题是,传统的参数模型和非参数模型方法都达不到 人脑的识别水平。目前,人们提出的一些实验阶段的人工神经网络可在一定程度 上模仿人脑的功能,它为进行说话人识别提供了一个新的途径。但是,它也存在 着待识别人群很大时识别率下降以及待识别样本增加时网络需要重新训练的问 题,另外还有神经网络训练时收敛速度慢、训练时间长的问题。 在识别过程中还存在着一个晦涩的大家都不愿提到的问题,如前所述的所谓 9 0 识别率实际上存在着某种假象,在说话人识别过程中,并未考虑到伪装发音的 干扰问题,尽管现实生活中讲话声音相似的人不多,但是能够模仿别人发音的人 却很多。 总而言之,尽管说话人识别的研究已取得了很大进展,形成了许多说话人语 音信号特征提取和说话人识别方法,但与文本无关的说话人识别仍未从实验室走 向商业应用。一个有待解决的问题是,说话人识别应用环境中的噪声问题以及传 输信道的效应问题。说话人实用化的另外的一个关键问题却仍是说话人语音信号 特征的提取。末来的说话人识别的研究应继续从说话人语音信号特征的提取方法 和说话人识别方法入手。从语音信号中寻找具有长期时效性、适应不同传输信道 和不同噪声环境的语音信号特征参数和具有更强鲁棒性的说话人识别方法“1 。 i 4 说话人识别系统的组成 一般的模式识别( p a t t e r nr e c o g n i t i o n ) 问题都要经过训练和识别两个阶段。 建立和应用说话人识别系统也一样,要经过训练和识别两个阶段。一个人要想识 别说话人,首先必须要让他长期地了解说话人的语音信号特征;同样,一台计算 机要能识别出说话人,也要有一个能让计算机“熟悉”说话人的过程,这就是训 练。 在训练阶段,需要系统的每个用户说出若干训练语句,系统据此建立每个说 话人的模板或模型。语音信号的数据量很大,将全部语音数据直接用于说话人识 别既无必要又不可能。因此,就需要从语音信号中提取一些和说话人语音信号相 关的特征参数,并根据这些特征参数建立每个说话人的模型。 在识别阶段,首先要从语音信号中提取出相同的特征参数,并用这些参数与 训练阶段建立的模板或模型相比较,然后根据一定的模式分类算法得到判决结果。 对于说话人辨识,要把所提取的特征参数应用于系统中每个人的模板或模型,并 把和它距离最近的模型所对应的说话人作为判决结果。对于况话人确认系统,则 是将由输入语音得到的特征参数与宣称的说话人的模型相比,如果二者的距离小 于规定的阀值,则给予确认,否则给予拒绝。 一个说话人识别系统的一般构成框图如图1 1 所示: 1 5 本文的主要工作 本文从实际出发,提出了一种任意文本的说话人识别的新方法。该方法首先 采用小波包分析方法进行语音信号的消噪处理,然后提取说话人语音信号的静态 特征和动态特征,再建立多级小波神经网络进行模式识别,最后结合模糊理论进 行多种特征参数识别信息的数据融合。本文的主要工作有以下几方面: 第一,在语音库方面,本文进行语音信号的采样,建立了包括6 个说话人,每 个人6 段语音,共3 6 个语音文件的语音库。录制的语音库考虑了语速快慢、音量、 时间间隔等影响说话人识别系统性能的主要因素。 第二,在语音信号的预处理方面,本文结合常用的语音信号预处理方法,对 语音信号进行适当的滤波处理,然后利用小波包分析方法对采样信号的进行消噪 处理。该方法根据噪声信号的分布特性,首先对语音信号进行小波包分解,然后 选取变阈值自适应地对语音信号的小波包分解的高、低频分解系数进行阈值量化。 最后根据量化处理后的小波包分解系数进行语音信号的重构。 4 圈1 1 说话人识别系统构成框图 第三,在语音信号特征提取方面,本文提取基音频率、线性预测参数l p c 、线 性预测倒谱参数l p c c 、m e l 倒谱参数以及m e l 倒谱差分动态特征参数。经过实验 分析确定,通常情况下m e l 倒谱参数及其差分动态特征参数,性能相对较好,但 也发现没有那一种特征参数能完全意义上的满足说话人识别的需要,故本文将线 性预测倒谱参数l p c c 与m e l 倒谱参数及其差分动态特征参数相结合来完成说话人 识别。 第四,在说话人识别方法方面,本文研究b p 网络、r b f 网络和小波神经网络 算法,建立基于多级小波神经网络的模糊说话人识别系统。该方法首先结合小波 变换的时频变焦局域化特性和传统人工神经网络的自学习功能,优化网络训练的 收敛性能,缩短网络训练时间,并通过设置隐含层的阈值来抑制其输出信号的超 调,建立小波神经网络;然后通过划分网络输入的样本空间和特征空间,分别组 建小波子网,缩小网络的输入空间,简化网络规模从而构成多级小波神经网络; 最后运用模糊聚类方法,压缩特征数据,并考虑引用模糊数学的方法,建立模型 函数融合多种特征参数的识别信息,提高系统的识别率。 第五,在说话人谚 别系统研究方面,本文综合分析晚话人识别的系统,改善 各环节的技术参数,提高系统的识别率和鲁棒性。将一个较大的样本的语音段和 s 其几个分段分别输入系统进行识别,然后按统计方法取均值作为最终的识别结果。 第六,最后给出详细的实验结果与分析报告。 6 第二章语音信号的预处理 2 1 语音学基础简介 在说话人识别系统的研究中,适当地了解一些语音学知识,有助于理解语音 信号的特点,了解特征参数的形成过程,为以后的说话人识别系统的建立打下基 础。下面仅从本文将要涉及到的几个方面加以介绍。 1 ) 语音学是研究言语过程的学科,它包括发音语音学、声学语音学和听觉语 音学三大分支。发音语音学研究发音器官在发音过程中的运动和语音的音位特性; 声学语音学研究语音的物理属性,如语音声波的频率、振幅和频谱特性等;听觉 语音学研究听觉和语音感知* 。 2 ) 语音信号处理与语言学存在十分密切的关系。语音信号处理简称语音处 理,它是以语音学和数字信号处理为基础而形成的一门综合性学科,它包括语音 识别、语音合成、语音编码和说话人识别等四大分支。 3 ) 从声学角度讲,语音或声波是一种枫械振动,它只能在气体、液体和固体 中传播,不能在真中传播,作为一种振动,语音声波也具有振幅和频率等基本物 理属性。 4 ) 一般认为语音声波是由多个正弦波组成的一种信号形成,其中各个频率的 最大公约数通常称为基音频率,相应的个声波成分称为基音,丙频率相当于基 因频率整倍数的正弦形声波称为谐音。 5 ) 从发音语音学角度讲,声带振动为语音提供了主要的激励源,声带每开启 和闭合一次的时间即称为基音周期,而其振动频率为基音频率。 6 ) 语音传播主要在咽、喉和鼻腔等系列声道中进行,声道可认为是一个分布 参数系统,它有许多自然谐振频率。谐振频率又称共振频率或共振峰,共振峰和 声道形状与大小密切相关。基音频率的范围大约在5 0 5 0 0 h z 左右,它因人而异。 2 2 语音库的录制 2 2 1 语音信号采样 一般来说,语音的声压波形必须转换为适合于计算机处理的数字信号。语音 信号首先经过麦克风或话筒变成模拟的电信号,然后通过无偏带通滤波器有时 为了补偿信道的衰减和干扰,上截止频率为采样频率的二分之一( n y q u i s t 采样定 理”1 ) ,将语音限制在有效频率带宽以内。最后用a d 转换器采样经过滤波的模拟 信号就可以得到了所需的数字语音信号。以后讨论的语音信号都是指数字语音信 号。 输入的模拟语音信号首先要进行预处理,包括滤波、采样和量化、加窗、端 点检测、预加重等。语音信号经预处理后,接下来很重要的一个环节是特征参数 提取。 声卡的工作原理:声卡主要用于声音的输入、输出,主要负责模拟信号和数 字信号的互相转换”3 。播放时,声卡接收c p u 传来的数字信号,经过处理转换成模 拟信号后,由音箱送出声音。 录音时,声卡接收话筒送来的模拟信号,处理后,以数字的形式交由c p u 存 储于系统中,以供选用。 2 2 2 语音库的建立 从事说话人识别系统的研究,一般应该有标准的语音库。因为,一方面要用 语音库测试程序,另一方面要跟踪国际上在说话人识别方面的最新研究进展,必 须拿我们目前的水平与之相比较,知道我们的差距有多大。但由于说话人识别系 统在不同的语音库上的识别率差别很大,如果不是基于同一种语音库,不是在相 同的条件下进行说话人识别,则无法进行很好的比较。 国际上现在有几种比较常用的语音库0 1 ,下面简要加以简介: 1 ) t i m i t 语音库:它本来是一个用于自动语音识别系统评估的语音库,由m i t 、 s r i 和t i 联合录制提供。由于它可以很容易地用低廉的价格购买到,所以被广泛 地用于说话人识别。它包括4 3 8 个男性和1 9 2 个女性的语音资料。语音库首先在 安静的环境中以2 0 k h z 的采样率录制,然后又重新采样,采样频率降低到1 6 k h z 。 2 ) n t i m i t 语音库:将t i m i t 语音库的语音通过不同的电话线路后再重新采样 得到的语音库。 3 ) y o h o 语音库:用于固定文本的说话人确认研究,由i t t 录制。包括1 0 6 个男性和3 2 个女性的语音资料。在普通的办公室环境中以8 k h z 的采样率录制。 4 ) s w i t c hb o a r d 语音库:用于任意文本的说话人辨识的连续语音识别,由t i 录制提供。包括3 0 2 个男性和2 4 1 个女性的语音资料。语音内容是通过电话的日 常谈话,用8 k h z 的采样频率录制。 5 ) s p i d r e 语音库:用于任意文本的说话人辨识,它是s w i t c hb o a r d 语音库的 一个子集。 6 ) k i n g 语音库:用于任意文本的说话人辨识或确认,由i t t 录制。包括5 l 8 个男性的语音资料,每个人的语音分成两部分:一部分通过电话录制,另一部分 通过高质量的麦克风录制。 目前,在国内还没有标准的汉语说话人识别语音库,不过据说国家8 6 3 计划 研究办公室有试用版本的说话人识别语音库可以出资索取。 为了研究和测试的需要,本文在普通的试验室条件下建立了一个比较小的语 音库。该语音库包括6 个男性在三种情况下的语音瓷料,即正常语速、较慢语速 和较快语速。每种情况下每人的录音时间为6 0 秒。录音的环境为普通实验条件下 进行。录制时采用8 k h z 采样率,1 6 位字长。每段语音再分成6 个小的片段,共3 6 段语音。 2 3 语音信号的分析方法 2 3 。1 语音信号的分析概述 语音信号的分析是语音通信、语音合成、语音识别、说话人识别和语音增强 等语音信号处理的前提和基础。只有将语音信号分析成描述其本质的特征参数, 才有可能利用这些参数进行高效的语音通信,建立语音库,。构造识别模板或知识 库。 根据所分析的参数不同,语音信号分析可分为时域、频域、倒谱域等方法, 其中频域分析包括语音信号的频谱、功率谱、倒频谱、频谱包络等。按照语音学 观点,可将语音分析分为模型分析法和非模型分析两种,其中模型分析法是指依 据语音产生的数学模型来分析和提取表征这些模型的特征参数,共振峰模型分析 声管模型( 即线性预测模型) 即属于这种分析方法。而不进行模型化分析的其他方 法都是属于非模型分析法。包括上面提到的时域分析法、频域分析法及同态分析 法等。 在传统的语音分析过程中有一个必要的理论前提一一“短时分析技术”,即一 般认为语音信号是准平稳的时变信号,它只有在一个较短的时间段内才是平稳的, 时间通常在1 0 3 0 m s 范围内。绝大部分的说话人识别系统都是建立在短时谱分析 的基础上。我们将在下面介绍几种在后面的预处理中用到的短时分析技术。 2 3 3 语音信号的倒谱分析 语音信号的倒谱分析用于解决数字信号处理领域普遍存在的“解卷”问题, 即将各卷积分量分开。解卷是一项十分重要的研究课题,对其深入研究还将涉及 许多重要的概念和参数,它们对于编码、合成、识别等许多研究工作和应用技术 口。 都是至关重要的。解卷的方法目前主要有两种,一种是同态处理,另一种是线性 预测分析。 在语音信号的产生模型分析中,可以将其用一个线性非时变系统的输出表示, 即看作是声门激励信号和声道冲激响应的卷积。在语音信号数字处理所涉及的各 个领域里,根据语音信号求解声门激励和声道响应具有非常重要的意义。例如, 为了求得语音信号的共振峰就要知道声道传递函数( 共振蜂就是声道传递函数的 对复数共轭极点的频率) 。又如,为了判断语音信号是清音还是浊音以及求得浊音 情况下的基音频率,就应知道声门激励序列。在实现各种语音编码、合成、识别 以及说话人识别时无不需要由语音信号来求得声门激励序列和声道冲激响应,而 这切都可由同态分析迎刃而解 对语音信号进行同态分析后将得到倒谱参数,所以同态分析又称为倒谱分析。 由于对语音信号分析是以帧为单位进行的,所以得到的是短时倒谱参数。无论是 对于语音通信、语音合成还是语音识别,倒谱参数所含的信息比其他参数多,也 就是说语音质量好、识别正确率高;其缺点是运算量较大。尽管如此,倒谱分析 仍是一种有效的语音信号分析方法。 同态信号处理的基本原理主要基于对数运算可将乘积运算转变为加性运算, 其语音信号进行倒谱或同态分析的结果可以用于提取基音周期。 倒谱分析特征系统与其逆特征系统原理框图2 1 如下( 其结果也即倒谱参数) : 叵亟,一医 虹王卜五 匝困 或者描述为: 叵亟,一巨 虹王卜互 _ 至回 图2 1 倒谱分析系统框图 2 3 3 语音信号的小波包分析 作为一种信号处理手段,小波包分析( w a v e l e tp a c k e ta n a l y s is ) 能够为信号 提供一种更加精细的分析方法,它将信号频带进行多层次划分,对多分辨分析不 能再细分的高频信息进一步分解;并能够根据信号的特征,自适应地选择相应频 带,使之与信号频谱相匹配从而提高了时一频分辨率,比线性等间隔划分频带 的短时傅里叶变换更具优越性,是信号高低频动态特性分析的得利工具。 关于小波包分析的理解,下面给出以一个三层小波包分解实例进行说明,其 小波包分解树“”如图2 2 所示。 在图2 2 中,a 表示低频,d 表示高频,末尾的序号数表示小波包分解的层数 ( 也即尺度数) 。分解具有关系:s = 从a 3 + d 从3 + a d a 3 + d d a 3 + a a d 3 + d a d 3 + a d d 3 + d d d 3 。 图2 2 原始信号s 的小波包分解示意 2 3 4 语音信号的线性预测分析 线性预测作为一种信号分析工具,普遍地用于语音信号处理的各个方面,它 是最有效和最流行的语音信号分析技术之一。在各种语音信号分析技术中,它是 第个真正的实际应用的技术。线性预测技术的发展给语音处理带来了巨大突破, 目前它仍然是信号分析的最重要的技术基础。 线性预测分析所包含的基本概念是,一个语音的抽样能够用过去若干个语音 抽样的线性组合来逼近。通过使实际语音抽样和线性预测抽样之间差值鲍平方和 ( 在一个有限间隔上) 达到最小值,即进行最小均方误差的逼近,能够决定唯一 的组预测系数。 线性预测主要应用在对语音信号的预测分析上,并能提供一个良好的声道模 型,而这种声道模型对理论研究和实际应用具有重大价值:;线性预测分析得到的 预测系数是说话人识别的非常重要的信息来源,而得到的声道模型是语音信号编 码的重要依据。线性预测的基本原理和语音信号数字模型密切相关。 2 3 5 语音信号的短时傅里叶变换分析 短时傅里叶变换是窗选语音信号的标准傅叶变换1 。其定义如下: x 。0 ,”) 一罗z ( m ) h ,伽一m ) e 一” ( 2 1 ) 褊 短时傅里叶变换有两个自变量:h 和w ;它即是关于时间的离散函数,又是关 于角频率的连续函数。如令w = 2 n k n ,则锝离散的短时傅罩叶变换,其基本原理 与傅里叶变换一样。 1 盟i 2 4 语音信号的端点检测 在语音信号采样中不可避免的会存在静音段和噪声段,这些非正常语音的存 在,会直接影响说话人特征的提取,如l p c c 参数,它是基于一种递推算法来完成 的,它根据前一帧的l p c 来推算后一帧的印c c ,如果前一帧的信号为零,后一帧 的计算可想而知。另外噪声信号对说话人识别的影响是大家所共识的。因此它通 常是说话人识别的第一步,检测的正确与否将直接影响识别率。所以,很有必要 去除静音段和噪声段,对语音信号进行端点检测来提高系统的识别率。 语音的端点检测,任务就是从包含语音的一段信号中确定出语音的起点及结 束点,它不仅能使处理时间减到最少( 帧数最少) ,而且能排除无声段的噪声干扰, 从而使处理质量得到保证。端点检测通常涉及到语音信号的分帧,短时能量的计 算,过零率的计算等方面的知识。下面分别加以介绍。 1 1 语音信号的分帧 一般认为,语音信号是一种典型的非平稳信号,但是其非平稳性是由发音器 官的物理运动过程而产生的,这个物理运动过程与声波振动的速度比起来要缓慢 得多,因此可以假定它在1 0 3 0 m s 这样短的时间段内是平稳的。因此,有必要对 语音信号进行分帧,使每一帧语音信号的长度都符合短时平稳的前提。分帧时, 将语音信号分成每2 0 - - - 3 0 m s 一段,相邻两帧起始点之间间隔为1 0 m s ,也就是说 两帧之间有l o 2 0 m s 的交叠。对于采样频率为8 k h z 的语音信号可以选取帧长 2 5 6 ,间隔8 0 。 2 1 短时能量的计算 实际上,短时能量的概念是用来描述语音信号的幅度的。它能区分出语音信 号中的清音和静音,因为它们比浊音的幅度都是相对要小的,。其计算公式如式 ( 2 2 2 6 ) ; 设输入的语音信号z 佃) ,其中n 为采样点,以帧长、帧移m 分帧。 对于第i 帧,序号为n 的样本,它与原始语音信号的关系为: z f ( n ) = 工【( f 一1 ) m + ,l 】 ( 2 2 ) 其短时能量有几种算法: e ( f ) ;k ( 一) | ; ( 2 3 ) 啪= 如) ( 2 4 ) e ( ) 2 善1 。g x 衲 3 ) 过零率的计算 语音信号的清音和静音的区别是由过零率的计算来完成的。 ( 2 5 ) 计算公式为: z c r ( o 一k ) - - x i o + 圳 ( 2 - 6 ) 4 、端点检测的流程【1 2 1 在开始进行端点检测之前,首先为短时能量和过零率分别确定两个门限。一 个比较低的门限,其数值比较小,对信号的变化比较敏感,很容易就会被超过。 另一个是比较高的门限,数值比较大,信号必须达到一定的强度,该门限才可被 超过。低门限被超过未必就是语音的开始,有可能是时间很短的噪声引起的。高 的门限被超过则可以基本确信是由于语音信号引起的。 整个语音信号的端点检测可以分为四段:静音段、过渡段、语音段、结束。 2 5 语音信号的小波包去噪 2 5 1 语音信号去噪的概述 说话人识别在特定的环境下可达到很高的识别率,大部分的说话人识别器对 于纯净语音有相当不错的识别效果。可一旦运用于实际中特别是在噪声环境下识 别性能显著下降。因此环境噪声成为语音识别技术实用他的圭要辣碍之一。语音 信号去噪声的研究可以使说话人识别系统真正意义上盼从科学研究到商品化打下 基础。 : ? 为了改善语音处理系统的性能,提高其抗噪声千扰特性,人们提出了很多语 音信号去噪的方法,如用于消除周期性噪声的固定滤波嚣法、自适应滤波器法以 及傅里叶变换滤波器法,又如用于消除白噪声韵中心削波法、同态滤波法、减谱 法等等。这些方法中的滤波器法主要基于噪声是可以被精确! 估计的,并且是比较平 缓的稳定信号。但是语音信号往往是,存在一磐瞬变分璧的尤其是一些高频动态 信号。 一。t 考虑到说话人语音录入时的实际情况以及硬件设备酌性能,采样语音信号不 可避免要混入一些噪声信号,而且由以往的相关经验j 可知,如果语音经过严重的 噪声干扰,说话人识别系统的性能将急剧恶化。因此,有效的消噪技术是系统实 用化的一个关键。 2 5 2 基于小波包变换的去噪 本文提出了一种基于小波包变换的说话人识别语音信号去噪方法“。该方法 根据噪声信号的分布特性,从语音信号的小波包分解的高低频域,分别运用变阂 值自适应地进行噪声信号的抑制处理,然后重构出有用信号。有关小波包变换的 知识,前文已有论述,这里不再重述。下面对本文的小波包变换去噪方法加以论 述。 1 ) 噪声信号的小波包分析特性 运用小波包分析进行一维信号消噪处理是小波包分析的一个重要应用之一, 其时频分析的自动变焦能力,可以更有效地区分信号中的突变部分和噪声,从而 实现信号的消噪。 一个含噪声的一维信号的模型可以表示成如下的形式: s o ) = 厂g ) + ( r + 。( f ) ,i ;o ,- 一,跨一1( 2 。7 ) 其中,( f ) 为真实信号,e ( f ) 为噪声信号,s ( f ) 为含噪声的信号。 在工程实际中,信号噪声在整个频带内的分布是一样的,噪声经过带通滤波 器后还是噪声,一个信号加上噪声,其小波包分解系数要远大于噪声的分解系数; 而且有用信号能量通常表现为低频信号或是一些比较平_ 稳的信号,噪声则通常表 现为高频信号。 在语音信号的分析牛,考虑到对说话人语音信号的高低频动态特性都要研究, 因此在消去高频噪声的同时,也要恰当地提取高频有用信号。 下面是用小波包分解系数特性去噪阀值选取的基本依据: a ) 信号和白噪声的小波包系数在不同尺度上有着不同的特征表现; b ) 对于信号,大部分行为集中在小波包系数空间的一小部分子集内; c ) 白噪声污染了所有的小波包系数,且贡献相同; d ) 白噪声经过带通滤波器后仍是自噪声。 2 ) 小波包分析去嗓基本算法步骤 经过以上分析,在用小波包分析进行消噪时主要由三步完成: s t e p l 语音信号的小波包分解。选择一个小波基函数并确定其分解的层数n , 然后对说话人的语音信号进行n 层小波包分解( 高低频同时进行) 。 s t e p 2 小波包分解高低频系数的阈值量化。对第1 到第n 层的每一个分解系 数,分别选择一个适当的闽值进行软阈值量化处理。反复的实验分析噪声的分布 特征,优化阕值。 在这个步骤中,关键是如何选取闽值和如何进行阈值的量化,其结果在定 程度上说,直接关系着信号消噪的质量。在应用中,应根据实际情况及滤噪要求 来进行实验,测定比较合适的量化阈值“。经过测试本文的蛹值选为: 1 o ( x ) 一( 1 + x ) 。( x + 1 5 ) 。( 2 8 ) s t e p 3 语音信号的重构。根据经过量化处理后的小波包分解的第l 到第n 层 的系数进行语音信号的重构。所得信号即可用于说话人的高低频动态特性分析。 s t e p 4 结束。 第三章语音信号的特征提取 3 1 语音信号特征参数概述 说话人的语音信号蕴涵着两种信息:一是说话人的文本内容信息,二是说话 人的发音个性特征。在与文本无关的说话人识别方式下,主要考虑以说话人的语 音个性特征而不是以说话人的语音文本特征来构造特征空间。说话人的语音信号 特征参数应满足以下要求:1 ) 具有相对稳定性,即它不易受说话人的健康状况、 情绪念度等影响;2 ) 容易实践提取;3 ) 不易被模仿:4 ) 各特征间不相关。事实 上能同时满足以上条件的语音特征目前还很难找到,只能考虑采取一些折衷措施。 按照稳定性,说话人的语音特征大致可分为两类:一是静态特征,它表现为 说话人的声道构成等生理特性,主要反映在基音、低频共振峰上。这类特征不易 模仿,但容易受健康状况影响;二是动态特征,它主要表现为说话人的发音方式、 发音习惯等,这类特征相对稳定却比较容易模仿。 目前用于说话人识别特征很多,这些特征主要包括基音周期、共振峰频率、 线性预测系数、倒谱系数等静态特征,还有基于静态特征差分谱的动态特征等。 与文本无关的说话人识别,其语音特征一般用倒谱参数,它是信号的f f t 谱 取对数后的逆f f t 变换。倒谱可将信息量较小的峰值信息和更重要的声道形状信 息相分离,是以前常常采用的说话人特征参数。 3 2 常用的特征提取方法 目前语音信号分析与特征提取的方法很多,如前所述的短时傅里叶变换、同态 分析( 倒谱分析) 、线性预测分析等等,但是这些方法大多数都利用了语音信号的 短时平稳特性,并认为语音信号的相邻两帧间相互独立,这样的特征提取方法丢 失了语音信号的动态特征。另外,由于实际应用环境的影响,大部分特征提取的 方法只局限于语音信号低频特性的研究。 3 2 1 语音信号基音周期 语音詹号的浊音信号是一种准周期性信号,其周期称为基音周期( p i t c h ) 。 由于它只是准周期性的,所以只能采用短时平均方法估计。基音周期估计也常称 为基音周期检测( p i t c h d e t e c t i o n ) 。 值得说明的是,只有浊音才有基音周期,而清音没有基音周期。到目前为止, 其判决和准确检测还是一个公开的难题,其困难主要体现在:语音信号的时变性, 背景噪声的影响,共振峰的影响,区别清音和低电平的浊音较困难,确定基音周 期的起止点较困难。另外,语音信号包含十分丰富的谐波分量,基音频率最低可 达8 0 h z 左右,最高可达5 0 0 h z 左右,但基音频率通常处在1 0 0 2 0 0 h z 的情况占 多数。因此,浊音信号可能包含有三四十次谐波分量,而其基波分量往往不是最 强的分量。因为语音的第一共振峰通常在3 0 01 0 0 0 h z 范围内,这就是说,2 8 次谐波分量常常比基波分量还强。丰富的谐波分量使语音信号的波形交得非常复 杂,也给基音检测带来了困难,经常发生基频估计结果为其实际基音频率的二三 倍频,可以说,至今没有一种万能的方法在任何情况下都能准确可靠地出估计出 基音周期。 基音周期检测方法“5 。“1 ,大体上可以分为三大类:时域方法、频域方法和综 合利用信号的频域和时域特性的方法。 时域的方法,直接处理语音信号的采样点,计算信号的波峰、波谷和过零率 等。其特点是简单,计算量小,典型的方法是g o l d 和r a b m e r 提出的并行处理方法 ( p p r o c ) 。 频域的方法主要计算信号的相关功率谱和最大似然函数等。其精度要高于时 域的方法,典型的方法有中央削彼自相关法( a u t o c ) 、平均幅废差分函数( a m d f ) 和倒谱法( c e p ) 等。 , 近些年来,又提出了一些精度更高、抗噪能力更强的检测算法,但计算量都 很大。考虑到本文处理的语音信号的信噪比是较高的,并且与文本无关的说话人 识别主要基于语音的统计信息,而对于一些语音信号基音周期检测不准,对系统 的影响不大。所以这里选用较简单的中央削波自相关法( a u t o c ) 。 自相关法的原理是语音的短时自相关函数在基音周期的整数倍数点上有很大 的峰值。只要找到最大峰值点的位置,便能估计出基音周期。但实际上并不这么 简单,最大峰值点的位置有时并不能同基音
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 别墅装修设计合同模板
- 购物中心家电产品专区承包经营合同
- 农村基础设施改造项目质量保证补充协议
- 网约车司机加盟平台安全驾驶责任协议
- 艺术展览馆软装设计制作与运营合同
- 抖音网红合作权益补充协议
- 网络直播行业网红助手兼职劳动合同
- 塑料粒子供应与客户忠诚度提升合作合同
- 培训机构兼职讲师兼职收入分配与结算合同
- 铜器交易中介合同
- 2025年山东省聊城市高唐县中考二模英语试题(原卷版+解析版)
- 中国生铁行业发展现状及市场前景分析预测报告
- 企业数字化转型培训课件
- 2025年中国白杨树市场现状分析及前景预测报告
- 建筑工程质量管理试题及答案
- 龙岩市五县2025届初三5月教学质量检测试题语文试题含解析
- 浙江开放大学2025年《行政复议法》形考作业4答案
- 2025年新媒体营销职业能力考试试卷及答案
- 2025年陕西省高三高考三模历史试卷(含答案详解)
- 糖尿病老人护理讲课课件
- 2025沪教牛津版七年级英语下册全册培优讲义
评论
0/150
提交评论