(纺织工程专业论文)基于时间序列分析方法的说话者识别[纺织工程专业优秀论文].pdf_第1页
(纺织工程专业论文)基于时间序列分析方法的说话者识别[纺织工程专业优秀论文].pdf_第2页
(纺织工程专业论文)基于时间序列分析方法的说话者识别[纺织工程专业优秀论文].pdf_第3页
(纺织工程专业论文)基于时间序列分析方法的说话者识别[纺织工程专业优秀论文].pdf_第4页
(纺织工程专业论文)基于时间序列分析方法的说话者识别[纺织工程专业优秀论文].pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

(纺织工程专业论文)基于时间序列分析方法的说话者识别[纺织工程专业优秀论文].pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于时间序列分析方法的说话者识别 中文摘要 基于时间序列分析方法的说话者识别 中文摘要 说话者识别是基于声音这个生物特征进行身份认证的识别技术。近年来,随着信 息时代的到来,信息安全备受关注,使得说话者识别无论是在司法、军事和国家机要 还是在社区安全、公司考勤和个人信息防护等领域都具有广泛的应用前景。说话者识 别的研究具有较高的理论价值和实用价值,受到国内外学者和企事业单位的关注。 从应用场合的角度,说话者识别可分为说话者辨认和说话者确认。本文就与文本 有关的说话者辨认问题,应用多项式回归分析和时变参数自回归模型的方法,在语音 倒谱、特征频率时间序列簇、基于回归模型的趋势分量和波动分量分离、波动分量序 列簇平稳性检验、t v p a r 模型的识别算法和判别算法的建立与选择等各个方面进行 了比较深入的分析和研究。 通过分析语音信号,选择了特征频率并构建了特征频率幅值时间序列簇,接着分 析了时间序列簇中不同时刻的幅度值与序列均值之间的关系,并结合时间序列分析的 方法建立了说话者识别模型,应用信息判别准则s b c 讨论了模型的定阶问题。 在我们自己录制的语音库中,对模型进行了说话者辨认实验,取得了较满意的识 别率。实验结果表明基于时间序列分析的说话者识别模型是可行的,同时拓宽了时间 序列分析的应用领域和对t v p a r 进行了验证。 关键词:非平稳性;时间序列簇;特征参数;说话者识别;t v p a r 模型 作 者:张伟杰 指导老师:费万春 s p e a k e rr e c o g n i t i o no nt h eb a s i so f t i m es e r i e sa n a l y s i sa b s t r a c t s p e a k e rr e c o g n i t i o no nt h eb a s i so f t i m es e r i e sa n a l y s i s a b s t r a c t s p e a k e rr e c o g n i t i o ni so n eo ft h eb i o l o g i c a lr e c o g n i t i o nt o p i c sa n di ti st h ep r o c e s so f i d e n t i f y i n gt h es p e a k e rb a s e do ns p e e c h i nr e c e n ty e a r s ,w i t ht h ei n f o r m a t i o nt i m e s c o m i n g ,t h es e c u r i t yh a sa t t r a c t e dm u c ha t t e n t i o na n di th a sw i d ea p p l i c a t i o np r o s p e c t sn o t o n l yi nj u s t i c e ,m i l i t a r ya f f a i r , a n dn a t i o n a ls e c r e tb u tc o m m u n i t ys e c u r i t y , c o m p a n y a t t e n d a n c e ,a n di n d i v i d u a li n f o r m a t i o n t h er e s e a r c ho fs p e a k e rr e c o g n i t i o nh a sb e e n c a r r i e do u ti nt h ew h o l ew o r l db e c a u s eo fi t sp r o m i s i n gr o l ei nm o d e m s o c i e t y a c c o r d i n gt o i t sa p p l i c a t i o n , s p e a k e rr e c o g n i t i o nc a nb ec l a s s i f i e da s s p e a k e r i d e n t i f i c a t i o na n ds p e a k e rv e r i f i c a t i o n t h i sp a p e ri sf o c u s e do nt e x t - d e p e n d e n ts p e a k e r i d e n t i f i c a t i o nb a s e do nr e g r e s s i v em o d e la n dt i m ev a r y i n gp a r a m e t e ra u t o - r e g r e s s i v e 0 v p a r ) m o d e l t h ec e p s t r u mo fs p e e c h ,f e a t u r ep a r a m e t e r sa n ds p e a k e rm o d e l sw i t h t h e i rt r a i n i n ga l g o r i t h mf o rh a n d l i n gp r o b l e m sa r ei n v e s t i g a t e di nd e t a i l b a s e do na n a l y s i so fs p e e c hs i g n a l ,f e a t u r ef r e q u e n c ya n dt i m es e r i e sc l u s t e ra r e c o n s t r u c t e d t h e nt h ec o r r e l a t i o n sb e t w e e nt h ea m p l i t u d e sv a r y i n gw i t ht i m ep o i n t sa n dt h e m e a no fs e r i e sa r ea n a l y z e d ,i nt h ec l u s t e r s p e a k e rr e c o g n i t i o nm o d e l sa r ee s t a b l i s h e d a c c o r d i n gt ot h em e t h o do ft i m es e r i e sa n a l y s i s ,a n dt h eo r d e ri sd i s c u s s e db yu s i n gs b c t h et e x t - d e p e n d e n ts p e a k e ri d e n t i f i c a t i o ne x p e r i m e n t sb a s e do nt h e s em o d e l sa lec a r r i e d o u t t h er e s u l t sa r es a t i s f a c t i o na n di n d i c a t et h a tt h es p e a k e rr e c o g n i t i o nm o d e l sa r e f e a s i b l e a sw h i l e ,a p p l i c a t i o no ft h et i m es e r i e sa n a l y s i si se x p l o i t e da n dc o r r e c t n e s so f t v p a rm o d e lo nn o n - s t a t i o n a r yt i m es e r i e si sv a l i d a t e d ,r e s p e c t i v e l y k e y w o r d s :n o n s t a t i o n a r i t y ;t i m es e r i e sc l u s t e r ;f e a t u r ep a r a m e t e r s ;s p e a k e rr e c o g n i t i o n ; t v p a rm o d e l w r i t t e n b yz h a n gw e i - j i e s u p e r v i s e db yf e iw a n - c h u n 苏州大学学位论文独创性声明及使用授权的声明 学位论文独创性声明 本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进 行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含 其他个人或集体已经发表或撰写过的研究成果,也不含为获得苏州大学 或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡 献的个人和集体,均己在文中以明确方式标明。本人承担本声明的法律 责任。 研究生签名:丕醯丛。日期:丝髯。纽军 学位论文使用授权声明 苏州大学、中国科学技术信息研究所、国家图书馆、清华大学论文 合作部、中国社科院文献信息情报中心有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本 人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文 外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分 内容。论文的公布( 包括刊登) 授权苏州大学学位办办理。 研究生签名:羽奎刍睦盘日期:互碰羔! 旦 导师签名:二受j 吐日 期:塑! 西 旦工憎 基于时间序列分析方法的说话者识别 第一章引言 1 1 研究背景 第一章引言昂一早j i苗 说话者识别是生物识别的一种,又称为声纹识别。它和语音识别一样,都是通过 对采集到的语音信号进行处理分析,然后作出判断。但二者又是不同的,说话者识别 希望从语音中提取不同说话者的个性特征,并加以区分;而语音识别则是尽量减少不 同说话者对于同一语音的差别,寻找的是不同说话者对于同一语音的共同特征。说话 者识别是通过对说话者语音信号的分析和特征提取,确定说话者是谁。 根据不同的应用场合,说话者识别可以分为两种,即说话者辩认( s p e a k e ri d e n t i f i - c a t i o n ) 和说话者确认( s p e a k e rv e r i f i c a t i o n ) 【。前者根据个人的语音来判定说话者是若 干个已知说话者之中的某一个说话者,是多选一的问题;后者则根据说话者的语音来 确定是否与其所声明的参考说话者相符,这种确认只有两种可能,要么接受,要么拒 绝,是二选一的问题。 按照对说话语音内容的约束又可以分为与文本有关( t e x t - d e p e n d e n t ) 和与文本无 关( t e x t - - i n d e p e n d e n t ) 两种识别方式。前者要求说话者提供指定内容的语音,可以用在 使用者比较配合的场合,例如机密场所的出入控制;后者则不关心语音信号中的具体 语义内容,因此它可以用在使用者不配合的场合,例如电话语音监听。一般说来,与 文本无关的说话者识别的应用研究更为灵活和广泛,但难度较大,训练和测试时都需 要较长的语音和内容丰富的文本;与文本有关的说话者识别相对容易达到较高的识别 率,而且可以采用较短的文本语音。 近年来,说话者识别技术以其独特的方便性、经济性和可靠性等优势受到瞩目, 在信息安全例如:银行、证券的身份确认、公安司法的取证、敌军要员的监控、及保 安和证件的防伪等领域的应用尤为突出。这是因为与其他生物识别技术,诸如指纹识 别、脸型识别及虹膜识别等相比较,声纹识别除了具有不会遗失的优点外,还具有以 下特性: ( 1 ) 经济性声音输入设备造价低廉,而其他生物识别技术的输入设备造价相对 较高。 ( 2 ) 机动性由于声音向四面八方传播,声音信号的采集灵活性较大。而其他生 物识别技术,在采集信号时,一般要求有确定的方向性,比如采集虹膜信号时,眼睛 基于时间序列分析方法的说话者识别第一章引言 须正视采集设备。 说话者识别技术作为生物识别技术的一种,具有较高的理论研究和实际应用价 值。 1 2 说话者识别研究现状和难点 说话者识别的研究始于上世纪6 0 年代,同语音识别中的主要技术一样,当时的 主要手段是基于频谱和模板匹配的方法【2 ,3 】。7 0 年代中期,动态时间规整( d t w , d y n a m i ct i m ew a r p i n g ) 嗍和矢量量化( v q ,v e c t o rq u a n t i z a t i o n ) 1 5 被应用到说话者识 别中,使得说话人识别的性能得到了大幅度的提高。8 0 年代以来,隐马尔柯夫模型 ( h m m ,h i d d e nm a r k o vm o d e l ) 【6 7 】、人工神经网络嗍和主成分分析【9 】、多特征组合【1 0 1 等技术,在说话者识别领域中得到了成功,并且迅速成为说话者识别的核心技术。进 入上世纪9 0 年代后,特别是r e y n o l d s 对高斯混合模型( g m m ,g a u s s i a nm i x t u r e m o d e l s ) h a 2 做了详细的介绍之后,由于其简单灵活有效以及具有较好的鲁棒性,迅 速成为当今说话者识别中的主流技术,将说话者识别带入到一个新的阶段。1 9 9 5 年 以来,各种新的说话者识别技术层出不穷,如g m m - - u b m ( u n i v e r s a lb a c k g r o u n d m o d e l ) 结构1 3 1 、隐马尔可夫模型与人工神经网络相结合【1 4 】、支持向量机( s u p p o r t v e c t o rm a c h i n e ) 和g m m 的结合 1 5 , 1 6 、基于评分的说话者规整技术 h n o r m 1 3 j 刀( h a n d s e tn o r m a l i z a t i o n ) 、z n o r m ( z e r on o r m a l i z a t i o n ) t 1 8 】以及t z n o r m ( t e s t - d e p e n d e n tz e r o - s c o r en o r m a l i z a t i o n ) 1 9 1 ,语音深层次信息的探讨 2 0 , 2 1 】、针对通道失 配问题的s m s ( s p e a k e rm o d e ls y n t h e s i s ) 2 2 , 2 3 1 技术以及自组织神经网络( a a n n ) 【刎 竺 寸。 说话者特征参数也从原来的帧能量、基音周期、线性预测系数l p c ( l i n e r p r e d i c t i o nc o e f f i c i e n t s ) 发展到现在的l p c c ( l i n e rp r e d i c t i o nc e p s t r a l sc o e f f i c i e n t s ) 倒 谱系数及m f c c ( m e lf r e q u e n c yc e p s t r a l sc o e f f i c i e n t s ) 倒谱系数 2 5 1 ,近年来多特征参 数组合2 6 2 7 】和二次提取2 8 】得到了很快的发展。 说话者识别的语料库也不断的扩大。从上世纪6 0 年代到现在,说话者识别所处 理的语音从小语料库( 较少的说话者) ,干净语音和受限文本发展到今天的大规模语料 库,各种类型语音以及任意内容的文本,同时对说话者语音的情感【2 0 2 1 1 和伪装语音的 说话者识别【2 9 】也有较多的研究。 尽管说话者识别的方法和技术在近十几年来已经取得了相当大的进展,在实验室 2 基于时间序列分析方法的说话者识别第一章引言 条件下获得了良好的识别效果,但将说话者识别技术大规模地应用到实际生活中仍还 有很长的一段路要走。主要是因为实验室条件和实际条件的差异很大。一方面,实验 室条件较少考虑噪声的问题,而实际应用中,噪声是不可避免的。另一方面,实验室 用到的说话者集合相对较小,实际应用中的集合可能相当大,当说话者集合扩大时, 不论是系统的运算效率还是识别率往往会急剧降低。目前,说话者识别的难点主要包 括以下几个方面: 语音信号既包含了说话者所说的内容信息,也包含了说话者的个性信息,目 前还不能有效地将二者完全分离。说话者识别中所需要的个性特征不能很好的提取出 来,造成识别率不高。 说话者的语音具有非平稳性,且与说话者的情绪、健康状况有密切的关系。 语音易被模仿和录制,造成声纹识别在说话者身份验证方面遇到困难。 1 3 说话者识别的基本原理和主要识别模型 说话者识别和一般模式识别问题一样,建立和应用说话者识别模型要经过训练和 识别两个阶段,基本原理如图1 1 所示【1 】: 语音 输入 识别 结果 图1 1 说话者识别基本原理图 对图1 1 中涉及到的处理模块说明如下: ( 1 ) 预处理:预处理包括对语音信号进行降噪、预加重、分帧和加窗处理等。 ( 2 ) 特征提取:在说话者识别系统中特征提取是最重要的环节之一,特征提取就 是从包含说话者特征信息的语音信号中提取出代表该说话者的个性特征。提取的特征 必须有助于区分不同的说话者,并且对同一说话者保持相对稳定。 ( 3 ) 模型训练:在训练过程中,利用得到的特征参数对每一个说话者的模型结构 或模型参数进行估计和修正,以便能够有效地描述不同说话者特征空间的分布。 ( 4 ) 距离测度:计算被识别语音与说话者模型的匹配距离。 3 基于时间序列分析方法的说话者识别第一章引言 ( 5 ) 判别策略:根据计算的匹配距离,在一定的规则下进行说话者判别。 由图1 1 知,在整个说话者识别中,特征参数选取的好坏和说话者语音模型建立 准确与否,决定了识别算法的好坏和识别率的高低。目前,m f c c ( m e l - l 到谱系数) 特征参数是说话者识别中使用最为广泛的语音特征之一。 在对说话者建模方面,主要有以下几种方法: ( 1 ) 动态时间规整( d t w ) 【l 】 说话者信息不仅有稳定因素( 发声器官的结构和发声习惯) ,而且有时变因素( 语 速、语调、重音和韵律) 。将识别模板与参考模板进行时间对比,按照某种距离测定 得出两模板间的相似程度。常用的方法是基于最近邻原则的动态时间规整d t w 。 ( 2 ) 矢量量化( v q ) 【l 】 矢量量化是一种极其重要的数字处理方法,已广泛应用于图像压缩、语音压缩等 领域。所谓矢量量化是将若干个幅度连续取值的时域采样信号分成一组,即构成矢量, 然后用若干离散的数字值( 或标号) 来表示各种矢量。基于矢量量化的说话者识别的过 程如下:对某一说话者,其训练语音的特征矢量序列通过聚类算法可以聚为m 类, 求每类中所有矢量的均值( 或选择类中的一个成员) 就得到了每类的码本矢量,m 个 码本矢量构成了该说话者的矢量量化模型。在识别过程中,将待识别语音的每一帧矢 量到某一说话者的m 个码本矢量的一个最小距离进行累加,将累加和最小的说话者 作为识别结果。 矢量量化模型具有很好的分类特性,能通过对长时语音特征参数统计信息的量化 来区分不同说话者,同时还有效地压缩数据,因而用它建立识别模型,数据量少,训 练时间短,识别响应快。尽管矢量量化模型被成功地应用于在说话者识别中,但在矢 量量化模型中,聚类的矢量仅用一个中心来表示,且各个码本对距离的贡献相等,由 此可见,非参数模型对说话者特征的描述尚欠细致。 ( 3 ) 隐马尔可夫模型( h m m ) f j 】 隐马尔可夫模型是一种基于转移概率和传输概率的随机模型,被用于语音识别。 它把语音看成由可观察到的符号序列组成的随机过程,符号序列则是发声系统状态序 列的输出。在使用h m m 识别时,为每个说话者建立发声模型,通过训练得到状态 转移概率矩阵和符号输出概率矩阵。识别时计算未知语音在状态转移过程中的最大概 率,根据最大概率对应的模型进行判别。h m m 不需要时间规整,可节约判别时的计 算时间和存储量,在目前被广泛应用。缺点是训练时计算量较大。 4 基于时间序列分析方法的说话者识别第一章引言 ( 4 ) 高斯混合模型( g m m ) 隐马尔柯夫模型虽然被广泛的应用于描述语音信号在特征空间的分布。但是t m a t s u i 的研究0 0 j 表明:基于连续h m m 的与文本无关的说话者识别系统的识别率取 决于模型中总的混合分量个数,而与h m m 中的状态数无关。这种模型称为高斯混合 模型( g m m ) 。 ( 5 ) 人工神经网络( a n n ) 8 】 人工神经网络在某种程度上模拟了生物的感知特性,它是一种分布式并行处理结 构的网络模型,具有自组织和自学习能力、很强的复杂分类边界区分能力以及对不完 全信息的鲁棒性,其性能近似理想的分类器。其缺点是训练时间长,动态时间规整能 力弱,网络规模随说话者数目增加时可能大到难以训练的程度。 ( 6 ) 支撑向量机( s v m ) 支撑向量机是基于结构风险最小化的机器学习模型。s v m 应用于说话者识别的 思路是,每个说话者作为一个类别,从每个说话者的语音信号提取出来的特征向量作 为每一类的输入,训练的结果就是构成多类支持向量机。测试时,同样提取出测试数 据的特征矢量序列,输入s v m 模型。该模型对每个特征矢量作分类,统计特征矢量 序列中向量的归属类,属于哪个类的特征矢量最多,那么就把这一类对应的说话者作 为识别的结果。 1 4 时间序列分析方法 本课题采用的时间序列分析方法也在不断的发展,从平稳序列分析到非平稳序列 分析,由对单一序列分析到对向量序列分析等等。随着时间序列分析模型理论的完善, 时间序列分析方法在各领域得到广泛应用。针对语音信号的非平稳性,本文采用时变 参数自回归模型( ,r v p a r ) ,对语音进行说话者识别。有关时间序列分析的相关知识, 在第二章中作了详细的介绍。 1 5 本课题研究的意义 本课题主要研究的是与文本有关的说话者辨认方法。在说话者识别中,鲁棒的特 征参数和良好的说话者模型是识别率提高的关键。目前广泛使用的特征参数和说话者 识别模型分别是m f c c 和h m m 。要想在现有的说话者识别技术上有所突破,可以考 虑从新的特征参数和新的说话者模型上着手。本文基于时间序列分析p 玎的方法,将语 5 基于时间序列分析方法的说话者识别 第一章引言 音信号中某个频率上的幅度随时间变化的数列看作时间序列,然后构建时间序列簇, 进而提取特征参数并建立说话者模型。 把语音信号看作时间序列,通过考察序列前后数据之间的相关性,分离时间序列 簇的趋势分量和波动分量,提取某特征频率的能量随时间变化的信息,进而对说话者 进行识别。本文应用回归分析的方法,分离时间序列簇的趋势分量和波动分量,针对 波动分量,运用t v p a r ( 时变参数自回归) 模型对其进行预测,根据预测的残差,进 行说话者识别。一方面,对新的特征参数和新的说话者识别模型进行了探索;另一方 面对t v p a r 模型理论进行了验证和应用研究。 1 6 本论文的主要工作安排 本论文工作安排如下: 第一章对说话者识别技术进行概述。介绍了说话者识别的基本分类及较其它生物 识别技术的优点,描述了说话者识别技术的历史、发展现状及说话者识别的基本原理 和主要的识别模型,阐述了本课题研究的学术意义。 第二章介绍了时间序列分析的概念,t v p a r 模型及程序开发软件m a t l a b 。比 较了平稳时间序列和非平稳时间序列的不同,介绍了t v p a r 模型的由来,列举了几 种形式的t v p a r 模型,分析了各个模型使用时应注意的问题。简单介绍了m a t l a b 软件的主要功能。 第三章重点讨论了语音分析技术的几种方法。主要讨论了语音的预处理及相关分 析,分述了各种分析方法的作用及存在的不足;利用m e l 频率,求得了m e l 一倒谱, 提升了高频部分的能量;讨论了帧长和帧移对语音分析的影响。 第四章着重描述了说话者语音特征时间序列簇。比较了时间序列和时间序列簇的 异同,并对各自的平稳性进行了检验。分析了如何构造语音时间序列簇,以及如何分 离时间序列簇的趋势分量和波动分量。讨论了如何选择说话者语音的特征时间序列 簇。 第五章进行了与文本有关的说话者辨认研究。通过对时间序列簇的分析研究,提 出了基于利用回归方程式提取时间序列簇趋势量的说话者识别和基于t v p a r 模型的 说话者识别。结合s b c ( s c h w a r t zb a y e sc r i t e r i o n ) 信息准则,讨论了模型的定阶问题, 并分别讨论了模型的开集和闭集识别率及影响识别率的因素。实验识别率为9 7 9 4 , 表明本文提出的说话者识别方法的可行性。 6 基于时间序列分析方法的说话者识别第二章时间序列分析与时变参数自回归模型 第二章时间序列分析与时变参数自回归模型 时间序列通常是某随机过程按照某种( 如时间) 顺序排列的一系列被观测数据,其 观测值按固定的间隔采样。 2 1 时间序列分析的概念、特征和应用 时间序列分析是一种重要的现代统计分析方法,广泛地应用于自然科学领域和社 会科学领域。时间序列分析是研究一组按某种( 如时间) 顺序排列的动态数据的统计规 律。研究的目的是正确掌握实际数据建模的基本方法和预测序列的发展趋势。 时间序列分析的特征主要有两个:一是时间序列分析是依靠过去的序列变化趋势 预测未来的发展变化;另一个是时间序列数据存在着趋势。 时间序列分析的应用主要有以下几类3 2 】: ( 1 ) 预报分析根据对某个变化量的一段观测数据序列,预报该序列在未来时刻 的取值,将时间序列分析的方法应用于预报,在金融序列分析中应用十分广泛。 ( 2 ) 频谱分析根据时间序列的记录值,分析出序列中的周期谐波分量或对此序 列中的周期特征进行统计分析,都称为频谱分析。如语音中声带的振动,包含有周期 分量。 ( 3 ) 时间序列的趋势分析采用移动平均对时间序列进行趋势分析是一种常用的 方法。移动平均可以减少不希望出现的波动,但会丢失原序列中的开头或结尾的数据。 ( 4 ) 相似性匹配在医疗诊断分析、目标识别等领域有很大的应用价值。 时间序列分析的应用领域非常广泛,这里就不再赘述了。 2 2 时间序列的分解 我们研究的时间序列一般是比较复杂的、非平稳的,是由多种因素共同作用的结 果,不容易直接对其进行观察分析,而需要首先对其进行分解。 一般时间序列可以分解为趋势分量和波动分量。趋势分量可以由回归分析的方法 求取,原序列减去趋势分量可以求得波动分量。针对本文中时间序列的分解,在第四 章有详细的讨论。 7 基于时间序列分析方法的说话者识别第二章时间序列分析与时变参数自回归模型 2 3 平稳时间序列分析 平稳时间序列分析的主要内容是研究时间序列的分解、预测、时间序列的白回归 模型( a r ) 、滑动平均模型( m a ) 、自回归滑动平均模型( a r m a ) 以及一整套的建模、 参数估计和控制等。一个序列经过预处理后,被识别为平稳非白噪声序列,那就说明该 序列是一个蕴含着相关信息的平稳序列,就可以运用a r m a 模型进行分析拟合。 z ,是平稳、正态和零均值的时间序列,则a r ( p ) 模型形式如下: iq , j = 1 , 乃= 1 兰吼气一_ = 2 ,3 ,哆 ( 2 - 1 ) l k = l 模型中,占,是白噪声随机数,与前面的钔值无关。 z ,是平稳、正态和零均值的时间序列,则其自回归滑动平均a r m a ( p ,q ) 模型 为:【3 1 3 2 】 z ,= 仍z 卜l + 伊2 z 卜2 + + 伊,z 卜,+ 占j b 占卜i a 2 c ,一2 一一巳占卜g ( 2 - 2 ) 式中,p 和口是模型的自回归阶数和移动平均阶数;仇( 七= 1 ,2 ,p ) 和o l ( t = 1 , 2 ,留) , 是待定系数;占。是独立的随机过程项。 2 4 非平稳时间序列分析 a r m a 模型对平稳时间序列能够较好的拟合和预测,理论也比较成熟。实际上, 在自然界中绝大部分的序列都是非平稳的,因而对非平稳序列的分析更普遍、更重要, 这方面的研究也在不断的深入。 确定性时序分析中,趋势分析的方法包括趋势拟合法和平滑法。这种方法具有原 理简单、操作方便、易于解释和直观明了等优点,在宏观经济预测领域有着广泛的应 用。 但随着研究方法的深入和研究领域的拓宽,人们发现确定性时序分析方法还存在 一些问题,主要有 3 1 1 : ( 1 ) 确定性时序分析只能提取强劲的确定性信息,对随机性信息浪费严重。 ( 2 ) 确定性时序分析不能有效判断各个影响因素之间确切的作用关系。 基于时间序列分析方法的说话者识别第二章时间序列分析与时变参数自回归模型 这些问题使得确定性时序分析不能充分利用观察序列中的有效信息,导致拟合的 精度通常不够理想。随机时序分析方法就是为了弥补确定性时序分析的不足而发展起 来的。 随机时序分析方法主要包括差分一求和自回归移动平均模型( a r i m a ) 、自回归条 件异方差模型( a r c h ) 。 对非平稳时间序列的建模和研究,有大量的文献。8 0 年代基于非平稳随机过程 由趋势项、周期项及平稳随机项的理论假设,建立了非平稳时间序列模型并成功应用 到船舶航迹的预测上【3 3 1 ,9 0 年代高紫光等通过对非平稳时间序列状态空间建模的研 究,提出新的方法摆脱了建立a r i m a 模型的繁琐程序阴j 。近年来在异方差自回归模 型鲫,基于经验模式和支持向量自回归模型的研究【3 6 】等方面都取得了一定的进展。 变参数的自回归模型也成为研究的热点。从g r e r d e r y 提出时变a r m a 模型【3 刀,到 参数估计算法的改进【3 踟,再到t v a r ( t i m e - v a r y i n ga u t o r e g r e s s i v e ) 模型的应用 3 9 , 4 0 , 4 1 , 4 2 , 4 3 ,时变自回归模型得到了较大的发展。 在t v a r 模型中,时变自回归系数被假设为一组基时间函数的线性组合【3 8 1 。不 同形式的基时间函数对模型参数的估计产生影响,目前还没有统一的选择标准,这就 限制了模型的应用和预测的准确性。针对语音信号非平稳时间序列,本文利用t v p a r 模型对其进行分析预测。 2 5t v p a r 模型 2 5 1t v p a r 模型的由来 通过对茧丝纤度序列的观察研究,发现从外层到内层有相似的变化历程 4 4 1 ,茧丝 纤度序列( 也称茧丝纤度曲线) 中蕴藏着数学问题。如图2 1 所示。 e 魁 姑 长度( 5 & 2 钿朝固) i 图2 1 某庄口的茧丝纤度序列 在茧丝长度序列上,按每5 0 回长度测得一个纤度值,将记录下来的数据按顺序 9 基于时间序列分析方法的说话者识别第二章时问序列分析与时变参数自回归模型 排列得到一组时间序列,对同一庄口的茧丝纤度进行多次测试,得到如图2 1 所示的 茧丝纤度序列簇。对此序列簇经长度归一化、提取趋势分量得到波动分量后,经过数 学推导和实验仿真,得到了时变参数自回归模型即t v p a r ( t i m ev a r y i n gp a r a m e t e r a u t o - r e g r e s s i v e ) 模型。 2 5 2t v p a r 模型及参数估计 目前,对非平稳时间序列分析主要方法有两种:一种是将非平稳时间序列转化成 近似平稳的序列,然后利用平稳序列的解决方法,对该序列进行分析预测;另一种是 建立非平稳时间序列模型。t v p a r 模型属于非平稳时间序列模型。 对于零均值非平稳时间序列 z ;,) ,其中f _ 1 ,2 ,j ,t = 1 , 2 ,t ,t 是一个 大于等于2 的正整数。时变参数自回归模型( t v p a r ) 主要有三种形式包括:满阶 t v p a r 模型、非时变阶次t v p a r 模型和时变阶次t v p a r 模型嗍。分别介绍如下: 满阶t v p a r 模型及其自回归系数的求解 8 i 0 f = 0 , t v 眦z 扩1 杰坳f :1 , 2 ,t 。 q 固 由最小二乘法得,自回归系数的求解公式如下: 其残差方差为: q 一1 j 一1c t 一2 ,一1 c t - 1 j 一2c i 一2 - 2 i i c ,一1 0c r 一2 0 c 卜1 j c t _ 2 j : c o 。毛= e ( z u 一言仇矗肚) 2 = 姥7 1 善1 ( 钆一喜仇产沪t ) 2 ,r = l ,2 工 ( 2 啕 p 阶t v p a r 模型及其自回归系数的求解 h o ,t = o , t v p a r z u2 怪岍h 嘞, f _ 1 ,2 正口= 嘶川 q 固 由最小二乘法得,自回归系数的求解公式如下: 1 0 j j j 吼;吼 vooooooo八 q 4 0 , ,; 孔 印印; 饥 基于时间序列分析方法的说话者识别第二章时间序列分析与时变参数白回归模型 q i , t l c t i j - 2 c t l ,f - 口 其中q = m i n ( t ,p ) 。其残差方差为: c l l j c 卜2 j : c 卜q , 。b = e ( z i , t - 羔删o k 矗h ) 2 = ;受号喜( 钆一言吼,i z 沪。) 2 q = m 血( r ,p ) ( 2 呦 h o ,t = o , 眦心口2 1 兰 坳,2 肌鲺 q 忉 三三兰三耋ct-2:i,t-11!;ct-p,二,t-三1页i(汐l,二t=三c二t-i:l,t 观2 j l i _ m 。l 百岁 ( z j j 1 ( p k :z i r - k ) 2 ( 2 - 8 ) 由上述几节知,在a r 模型中,自回归系数是不随时间变化的,且a r 模型适用 范围为平稳时间序列;在t v a r 模型中,自回归系数看作是一组基时间函数的线性组 合,且预测精度受基时间函数影响;以上两类模型都是对单一时间序列分析预测,而 t v p a r 模型,是在分析自协方差非平稳的时间序列簇的基础上提出来的,集合了数 理统计的相关知识,其自回归系数纯,随时间点变化,且与序列簇的自协方差有关, 残差占的方差也是随时刻点的变化而变化。 2 6 模型应用需注意的问题 满阶t v p a r 模型是针对有限长度序列提出来的,随着阶次的增加自回归系数的 量会急剧增加。同时,由于现实生活中样本的采集是有限的,当模型阶次增加时,序 仍仡; v0i00j0贝 ; ” 厶a 研 乏; 基于时间序列分析方法的说话者识别 第二章时间序列分析与时变参数自回归模型 列簇的自协方差矩阵可能出现奇异问题。 在说话者识别时,序列的分析长度可以取全部也可以取部分,通过实验,依据识 别率的高低进行选择。文中对序列长度和识别率之间关系也作了探讨。 2 7m a t l a b 介绍【4 6 】 本论文使用的编程软件是m a t l a b 。m a t l a b 是由美国的m a t h w o r k s 公司推出 的一个为科学和工程计算而专门设计的高级交互式软件,是具有通用科学计算、图形 交互系统和程序设计语言的科技应用软件,是世界公认的最优秀的科技应用软件之 一。 与其他高级语言相比,m a t l a b 提供了一个人机交互的数学环境,并以矩阵作 为基本的数据结构,大大节省了编程时间。同时,m a t l a b 语法规则简单、容易掌 握、调试方便,在调试过程中可以设置端点,显示中间结果,便于查出程序中的错误, 节省了编程和调试时间。本文运用m a t l a b 进行信号分析处理、建模和仿真模拟。 2 8 小结 本章首先介绍了时间序列分析的概念、特征等,接着分别介绍了平稳时间序列分 析模型和非平稳时间分析的研究历程,描述了t v p a r 模型的由来和几种表达形式以 及需注意的问题,同时简单介绍了m a t l a b 软件。 1 2 基于时间序列分析方法的说话者识别 第三章语音信号分析技术 第三章语音信号分析技术 语音信号的分析处理技术主要包括语音的预处理、时域分析、频域分析和时频分 析等,本章系统的归纳了语音信号分析方法,分析了各个处理方法的优缺点,并结合 实验选择了语音分帧长度和帧移长度。 3 1 语音信号的采样率和量化 目前,电话语音频率大致范围在6 0 - - - 3 4 0 0 h z ,根据奈奎斯特采样定律,当采样 频率大于语音信号最高频率的两倍时,取样过程不会丢失信息,且可以重构原始信号 波形。本文采样频率为1 1 0 2 5 h z ,单声道,1 6 位,语音采用w i n d o w s 自带的录音 机录制。 3 2 语音信号的预处理 语音信号的预处理一般包括预加重、分帧、加窗以及端点检测等。 3 2 1 预加重 语音信号的频谱通常是频率越高谱值越小,语音信号的频谱提高两倍时其功率谱 的幅度约下降6 d b ,因此需对其进行高频增强,将语音信号通过一阶的数字滤波器 卜0 9 3 7 5 z 。1 进行过滤的过程叫做预加重。预加重的目的在于滤除低频干扰,尤其是 5 0 h z 或6 0 h z 的工频干扰( 电源) ,以便于频谱分析。 3 2 2 分帧 由于语音信号可以近似看作具有短时平稳性,例如:可以认为在1 0 - 3 0 m s 内语 音信号近似不变,因此可以将语音信号分成一些段来进行分析处理,这些短段语音具 有固定的特性,这种分析处理方法就称为短时分析方法。图3 1 为分帧示意图。 语音的分帧一般采用部分重叠分段的方法,这是为了使相邻帧之间平滑过渡,保 持其连续性。前后相邻两帧的非重叠部分称为帧移。 1 3 基于时间序列分析方法的说话者识别 第三章语音信号分析技术 3 2 3 加窗 图3 1 分帧示意图 将信号数据截取并进行加窗函数操作的过程叫做加窗。 作用:( 1 ) 加窗后的语音信号的两端的幅值都等于零,这样满足了通过傅立叶变 换将时域信号转换成频域信号的条件;( 2 ) 用窗函数加权,使得有限长度的输入信号, 在周期延拓后,边界上尽量减少不连续程度,防止频谱泄露。 在本文中采用的是汉宁窗( h a n n i n g ) ,公式如下: ,、io 5 0 5c o s 2 n n ( n 一1 ) 】,0 n n 一1 w ( 儿) = 10 一(31)n e l s e f , = i 卜1 j 加窗语音信号是用可移动的有限长度窗口进行加权的方法来实现的,这就是用一 定的窗函数而) 来乘语音信号工o ) ,从而形成了加窗语音信号:x w 0 ) = j ( ,1 ) w m ) 。 通过分帧和加窗而得到了加窗语音信号,见图3 2 。 时间( n s ) 图3 2 一帧语音信号加窗前后比较图 1 4 基于时间序列分析方法的说话者识别第三章语音信号分析技术 3 3 语音信号的时域分析 时域分析的参数主要有短时能量、短时幅值、短时过零率等。语音信号的端点检 测就是在语音分析处理之前把要分析的语音信号部分从输入信号中分离出来。 幅度归一化:在进行端点检测之前,为了计算处理的方便,首先要将输入的语音 信号进行幅度归一化,将其幅度限制在 一1 ,1 之间。为了更加准确地检测出语音信号 的起始端点和终止端点,在这里将采用设置门限的方法【4 7 1 。 3 3 1 短时厶匕b e 量( 绝对值) 或短时幅度 短时能量表示一帧加窗语音信号幅度之和, m 忍= n c m ) l 其计算公式见( 3 - 2 ) 。 其中x n ( m ) 表示分帧加窗后第n 帧内第m 时间点信号幅度, 短时能量。 3 3 2 短时过零率 ( 3 - 2 ) 为帧长,为要求的 短时过零率表示一帧语音中语音信号波形穿过横轴( 零电平) 的次数。相邻的采 样值改变符号就称为过零。过零率就是信号改变符号的次数。 语音信号x n ( m ) 的短时过零率z 。为: z n = 去i s g n 【石一( m ) 】- s g n x n ( m 一1 ) 】i ( 3 - 3 ) 公式( 3 - 3 ) ,s g l l 是符号函数:s g n 【明= :l ,甚三篙 在实际应用中,通常是利用过零率来检测清音,用短时能量来检测浊音,两者配 合实现了可靠的端点检测。 端点检测时,首先为短时能量和过零率分别确定两个门限。一个门限是用于检测 语音信号的起始端点,其预设值较大。另一个门限是用于检测语音信号的终止端点, 其预设值较小。 此外,还要考虑到短时突发性的噪音对检测的干扰,噪音也是可以引起短时能量 和过零率的数值很高,而误判成语音信号的开始,将噪音当成要检测的语音信号,因 基十h 目序列分析方法的说话者识别 第= 章语音信号分析技术 此,还需要设定一个最短时间门限。当检测处于非静音时,如果短时能量和过零率的 数值降低到低门限以下,而且总的计时长度小于最短时间门限,则认为这是一段噪音。 某语音的端点检测情况,如图33 所示。 图33 语音的端点检测 333 语音信号长度归一化 由于声音的时变性,说话者每次说话的时长也是不一样的,致使端点检测出的各 个语音段的长度不一样,为方便对信号的处理,语音信号分帧时,需要对各语音段进 行长度归一化,即各语音段所分的帧数相同。步骤如下: f 1 1 先将各语音段原先的帧数求取平均,得到平均帧数。 r 2 1 通过改变帧移来使各个语音段的帧数向平均帧数靠近。方法就是,如果原来 语音段较长,即原来帧数较多,通过增大帧移,向平均帧数靠近:反之,则 缩小帧移向平均帧数靠近。这样就使各个语音信号的帧数得到了统一。 334 时域分析的作用 本课题是研究与文本有关的说话者识别,属于孤立词的语音识别。这就需要在一 连串的语音信号中进行

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论