(信号与信息处理专业论文)基于矢量量化(vq)和混合高斯模型(gmm)的说话人识别的研究.pdf_第1页
(信号与信息处理专业论文)基于矢量量化(vq)和混合高斯模型(gmm)的说话人识别的研究.pdf_第2页
(信号与信息处理专业论文)基于矢量量化(vq)和混合高斯模型(gmm)的说话人识别的研究.pdf_第3页
(信号与信息处理专业论文)基于矢量量化(vq)和混合高斯模型(gmm)的说话人识别的研究.pdf_第4页
(信号与信息处理专业论文)基于矢量量化(vq)和混合高斯模型(gmm)的说话人识别的研究.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(信号与信息处理专业论文)基于矢量量化(vq)和混合高斯模型(gmm)的说话人识别的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 基于矢量量化( v q ) 和混合高斯模型( g 埘) 的说话人识别的研究 硕士研究生许百林导师赵力教授 东南大学无线电工程系 说话人识别始于2 0 世纪3 0 年代,从2 0 世纪6 0 年代开始目益成为当今的一个研究热点。 说话人识别具有广泛的应用前景,如保安、公安司法、军事、财经和信息服务等领域。正因 为说话人识别具有如此广阔的应用前景,国内外许许多多的工作者投身于这一领域的研究中, 使得说话人识别方面出现巨大发展。但它还远远没有成熟。 本课题以语音信号的l p c 倒谱系数、基音周期和维格纳一威利谱的混合特征参数作为识别 的特征矢量集。运用矢量量化( v q ) 和高斯混合模型( g 删) 技术实现与文本有关及无关的说 话人识别。在一个1 0 人,2 4 0 0 个的语音库上进行了系统的识别实验。 本论文的主要工作有:l 、在说话人识别系统的语音特征参数提取部分,详细阐述了声道 模型、线性预测编码( l p c ) 分析、l p c 侄口谱系数、m e l 倒谱系数的求解;2 、介绍了说话人识 别的不同方法,主要介绍了矢量量化技术及其在说话人识别中的应用,其本质是在一个解空 间中用少数的几个特殊的点来代表空间中全部的有效点,以达到编码、压缩的目的。同时, 还介绍了高斯混合模型( g 删) 的理论和实现,包括该模型的训练和识别;3 、阐述了遗传算 法的基本思想和处理方法。将遗传算法的全局优化与v q 技术、g m m 技术结合起来,采用科学 的编码方案,动态的定标技术,高效的交叉策略,得到了模型的优化作用,提高了说话人识 别率。 : 、 本篇论文从以上三方面讨论了说话人识别的理论,最后介绍了系统的实现与实验结果, 并对实验结果进行了讨论、比较。, 关键词:说话人识别;矢量量化;高斯混合模型:l p c 倒谱系数;遗传算法 m a a b s t r a c t r e s e a r c ho nt h es p e a k e rr e c o g n i t l o n b a s e do n v o a n dg m m c a n d i d a t e :x ub a i l i n ,s u p e r v i s o r :z h a ol i d 印a n m e m o f r a d i oe n g i n e e r i n g ,s o u m e a s tu n i v e r s i 阢c 址n a s 1 :a n i n gi n 】9 3 0 s ,s p e a l ( e rr e c o g n i t i o nh a si n c r e a s i n g l yb e c o m eah o t s p o to fr e s e a r c hs i n c e1 9 6 0 s i tc a nb e a p p l i e dt oan u m b e ro ff i e l d s ,s u c ha ss e c l i t y ,j u s t j c e ,m i l n a r y 析a i r s ,n n a n c ea i l ds e r v i c e s b e c a u s eo ft h a t ,l o t s o fs c i e m i f i cr e s e a r c h e r sa r ei n v 0 1 v e di nt h er e s e a r c h ,m a k j n gg r e a ld e v e l o p m e n t h o w e v e ri ti sn o tr i p ev e r y m u c h t m sp a p e ri sm a i n l ya b o u tat e x “d o p e n d e ms p e a k e rr c c o g n i t i o ns y s t e mb a s e do nv e c t o rq u a n t i f i c a t i o n ( v q ) m e t h o d s ,at e k t _ m e p e n d e n ts p e 以。rr e c o 罂砒o ns y s t e mb a s e do ng a u s s i a 士1m i x t u r em o d e l s 。w eu s el p c d e r i v e d c e p s 帆lc o e 面c i e n t s ,p i t c h e sa i l dw i g n e r - v i l l e ( w v ) s p e c 咖ma sl h ef e a t u r ep a r 锄e t e rs e t t h r o u 曲t 1 1 et e s to f as p e e c hl i b r a r yc o m p o s e do f l os p e a k e r sa n d2 4 0 0s p e e c h e s m 曲d yw o r k si nt h i sp a p e r :i ) t h ep r o b l e mo ft h ef e a t u r ep a r 锄e t e rp i c k u pi ns p e a k e rr e c o g n j t i o 巩 e x p o u n dt 1 ev o c a l 仃a c k ,l p ca t la l y s i s ,l p c d e r i v e dc 印s 廿a lc o e m c i e n t ,c e p s t r a ic o e m c i e m ,m e i c e p s t r a l c o e m c i e n tj nd e t a 订i i ) ,i tm a i l l l yi m r o d u c es o m ed i a b r e mm e t h o d so ft l l es p e a l ( e rr e c o g n i t i o n t h eu s a b i i i t yo f t h ev e c t o rq u a n t i z a t i o n ( v q ) t e c h n i q u ea n df u z z yv qt e c b 血q u ei ns p e a k e rr e c o g i l i t i o ni sd l s s e r t a t i o n md e t a i l t h ee s s e n c eo f v qi st ou s es e v e r a ls p e c i a lf e a m r e st or e p r e s e n tt h ew h 0 1 ef e a t u r e si ns o l u t i o ns om a tt oa d m e v e t h ea i l no fc o d i n ga 1 1 dc o m p r e s s i n g a tt h es a h l et i m e ,t t l i sp a p e ri n 订o d u c e sm em e o r ya f l dc a o i y i n go u to ft h e g m m ,i n c l u d j n gt r a i l l i n ga n dr e c o g l l i t i o no ft h i sm o d e l i i i ) ,i tm a i n l ye x p o u n d st h eb a s et h o u g h ta n dd i s p o s a l m e t h o d so f 1 e 蜘n e t i c a l g o r i t i l m w ei fw ec o m 咖eg e n e t i c a l g o r i t h mw i t hv qt e c l l 工l i q u ea n dg m m ,u s i n g s c i e n t 讯cc o d i n gm e t h o d ,d y n a m i c a ls c a l e rt e c h n i q u e ,e 廿i c i e n tc r o s s o v e rs t r a t c g y ,w ec a i lo p t i 删z et | 1 es p e a k e r m o d e l ,s ot 1 1 a tt oi n c r e a s er e c o g n i t i o nr a t e t h i sp 印e ri n 廿0 d u c e st h et h e o r yo f t h es p e a k e rf e c o g n i t i o nt c c h n i q u e t h m u 曲a b o v eo f t l l r e ea s p e c t s f i n a i l y , 、忧i n t r o d u c em er e a l i z a t l o no fm es p e a k e rr e c o 印m o ns y s t e ma n dm er e s u l t so fm es p e a k e rr e c o g n l t i o n e x p e r i m e n t s ,锄dc o n 协l s tw i t l le a c ho t h e l k e yw o r d s :s p e a k e rr e c o g n i t i o n ; l p c d e r i v e dc e p s l r a lc o e 俑c i e n t s ;v e c t o rq u a n t m c a l i o n ;g a u s s i a nm i x l = l l r e m o d e l :g e n e n c a l g o r i t l l i n 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。 尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过 的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我 一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示了谢意。 研究生签名:茸丝日 期:丛 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印 件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质 论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布( 包括 刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权东南大学研究生院办理。 研究生签名:型l ! 竺导师签名: 垫一 第一章结论 第一章绪论 1 1 说话人识别的基本概念及其分类 说话人识别是语音信号处理技术的一个重要分支,它是指通过对说话人语音信号进行相应的分析处 理,提取相应的特征或建立相应的模型,然后依次做出判断,1 动确定说话人是否在所记录的说话人集合 中,进而确定说话人是谁的过程。 自动说话人识别( a u i o m a t i cs p e a l ( e rr e c o 曲i i i o n :a s r ) 很久以来是一个既具有巨大吸引力而又有 相当困难的课题,说话人识别技术按其最终完成的任务可以分为两大类:自动说话人辨认( a u t o m a t i c s p e a k e r i d e n t m c a t i o n ,a s l ) 和说话人确认( a m o m a d cs p e a k e rv c n c 撕o n ,a s v ) ( 如圈1 1 ) 。 来 记录讲话者 未 是 a i 的 讲 话 7 话者 ( a ) 辨认( b ) 确认 图1 1 说话人确认和说话人辨认 本质上,它们都要求说话人说一句或几句测试语句,从中提取与说话人本质特征有关的信息,再与存 储的参考模型比较,做出正确的判断。不过a s v 是确认一个人的身份,只涉及一个特定的参考模型和待 识别模板之问的比较,系统要求做出“是”或“不是”的二元判决;a s i 则不同,系统必须辨认出待识别 的语音是来自待考察的个人中的哪一个,由于需要比较和判断,所以a s i 的误识率要大于a s v ,并且随着 数量的增加,其性能将为逐渐下降。 根据说话人识别的内容上来分类,不管是辨认还是确认,说话人识别按照话语的文本可以分为与文本 有关( t e x t - d c p e n d e n t ) 的说话人识别、与文本无关的( t c x t - i n d e p e n d e n t ) 的说话人识别和文本指定型 ( t e x t d e 口e d ) 的说话人识别。与文本有关的说话人识别用同样的词汇表进行系统的识别和训练;与文本 无关的说话人识别的训练和识别采用不同的词汇表。与文本有关的说话人识别由于发音内容固定,较早被 研究和应用,识别率高,但容易被录音模仿;与文本无关说话人识别发音内容随机,识别率低些,但不易 被录音模仿,是当前研究的重点。然而只有这两种类型是不完全的,因为如果没法事先用录音装置把说话 人本人的讲话内容记录下来,然后用于识别,则往往被识别装置有误接受的危险。而在指定文本型说话人 识别中,每一次识别时必须先由识别装置向说话人指定需发音的文本内容,只有在系统确认说话人对指定 文本内容正确发音时才可以被接受,这样可以防止本人的语声被盗用。 1 2 说话人识别的基本原理 东南大学硕士学位论文 无论是与文本有关的说话人识别还是与文本无关的说话人识别,其基本原理都是为每一个说话人建立 一个能够描述这一说话人个性特征的模型。在目前话音特征与说话人个性特征还未很好地从语音特征中得 到分离的情况下,为每一个说话人建立的说话人模型实际是说话人的语音特征模型。在进行说话人辨认时, 取与测试音匹配距离最小的说话人模型所对应的说话人作为说话人辨认的结果;在进行说话人确认时,用 测试音的模型与所称的说话人的模型进行比较,若匹配距离小于一个规定的阚值,则该说话人得到确认。 由此可以看出,说话人辨认和说话人确认在本质上并没有什么区别。 因此,若要实现说话人的识别,需解决以下几个基本问题: 7 对语音信号的预处理和特征提取; 说话人模型的建立和模型参数的训练; 测试音与说话人模型的匹配距离计算; 考虑到说话人的状态在不断的变化,如何使说话人识别系统的特征参数不断更新以适应说话人。 图1 1 说明了说话人识别系统的基本过程: 洲练 识别结果 图l _ l说话人识别系统框图 建立和应用这一系统可分为两个阶段,即训练( 注册) 阶段和识别阶段。在训练阶段,系统的每一使 用者说出若干个训练语句,系统据此建立每个使用者的模板或模型参量参考集。而在识别阶段,把从待识 别人说的语音信号中提取的特征参数,与在训练过程中得到的参考参量集或模型模板加以比较,并且根据 一定的相似性准则进行判定。对于说话人辨认来说,所提取的参量要与训练过程中的每一人的参考参量加 以比较,并把与它距离最近的那个参考量所对应的使用者辨认为是发d 输入语音的说话人。对于说话人确 认而言,则是将从输入语音中导出的特征参数与其声音为某人的参考量相比较,如果两者的距离小于规定 的闽值,则予以确认,否则予以拒绝。 说话人识别系统主要由以下几部分组成: 1 预处理 预处理包括对语音数据进行降噪、预加重、分帧和加窗等处理。 2 特征提取 在说话人识别系统q i 特征提取是最重要的一环,特征提取就是从说话人的语音信号中提取出表示说话 人的个性特征。提取的特征应能有效地区分不同地说话人,并且对同一说话人保持相剥稳定。说话人识别 系统中常用的特征参数有: 1 )由语音信号直接导出的参数:短时能量、短时平均幅度、短时过零率和基音频率。 2 )由于语音的短时谱中包含有激励源和声道的特性,因而可以反映说话人的差别。所以分析语音频 谱导出说话人个人特征的参数:功率谱、基因轮廓、共振峰频率带宽及其轨迹、复倒谱、m e l 倒 谱系数等。 。 2 第一蕈绪论 3 ) 由语音信号的线性预测分析也可得一些表示说话人特征的参数:基因频率、声道冲激响应、自相 关函数、声道面积比函数、线性预测系数( l p c ) 、l p c 倒谱系数和线谱对参数( l s p ) 等,目前, l p c 倒谱系数和差值倒谱系数是最常用的短时谱参数,并获得了较好的识别效果。 4 ) 混合参数:为了提高系统的识别率,部分原因也许是因为究竟哪些参数是关键因素把握不充分, 相当多的系统采用了混合参量构成的矢量。如将“动态”参量( 对数面积比与基频随时间的变化) 与“统计”分量( 由长时间平均谱导出) 相结合,还有将逆滤波器谱与带通滤波器谱结合,或者 将线性预测参数与基音轮廓结合等参量组台方法。如果组成矢量的各参量之间的相关性不大,则 效果会很好,因为它们分别反映了语音信号中不同的特征。 综上所述,常用于说话人识别的特征参数有:语音短时能量、基音周期( 现己证实基音周期及其派生 参数携带有较多的个人信息) 、语音短时谱或b p f g 特征( 包括1 4 1 6 个b p f ) 、线性预测系数l p c 、共 振峰频率及带宽、l p c 倒谱等,以及反映这些特征动态变化的线性回归系数等,其它的特征参数还包括鼻 音联合特征、谱相关特征、相对发音速率特征、基音轮廓特征等。其中倒谱特征和基音特征是较常用的特 征,并获得了较好的识别效果。1 9 9 0 年日本人m a t s l l i 和胁u i 在与文本无关的说话人识别系统中利用倒谱 系数、差值倒谱系数、基音频率、差值基因频率作为特征矢量,得到了比单用任意一个参数好得多的识别 效果。 3 模式匹配方法 目前针对各种特征而提出的模式匹配方法的研究越来越深入。这些方法大体可归为下述几种: 1 ) 概率统计方法 语音中说话人信息在短时内较为平稳,通过对稳态特征如基音、声门增益、低阶反射系数的统计分析, 可以利用均值、方差等统计量和概率密度函数进行分类判决。其优点是不用对特征参量在时域上进行规整, 比较适合文本无关的说话人识别。 2 ) 动态时间规整方法( d t w ) 说话人信息不仅有稳定因素( 发声器官的结构和发声习惯) ,而且有时变因素( 语速、语调、重音和 韵律) 。将识别模板与参考模板进行时间对比,按照某种距离测定得出两模板间的相似程度。常用的方法 是基于最近邻原则的动态时间规整d t w 。 3 ) 矢量量化方法( v q ) 矢量量化最早是基于聚类分析的数据压缩编码技术。h e l m s 首次将其用于说话人识别,把每个人的特 定文本编成码本,识别时将测试文本按此码本进行编码,以量化产生的失真度作为判决标准。b e l l 实验室 的r o s e n b e r g 和s o o n g 用v 0 进行了孤立数字文本的说话人识别研究。这种方法的识别精度较高,且判断 速度快。 4 ) 隐马尔可夫模型方法( m 邮 隐马尔可夫模型是一种基于转移概率和传输概率的随机模型,最早在c m u 和i b m 被用于语音识别。它 把语音看成由可观察到的符号序列组成的随机过程,符号序列则是发声系统状态序列的输出。在使用h m m 识别时,为每个说话人建立发声模型,通过训练得到状态转移概率矩阵和符号输出概率矩阵。识别时计算 未知语音在状态转移过程中的最大概率,根据最大概率对应的模型进行判决。h m m 不需要时间规整,可节 约判决时的计算时间和存储量,在目前被广泛应用。缺点是训i 练时计算量较大。 5 ) 人工神经网络方法( a n n ) 人工神经网络在某种程度上模拟了生物的感知特性,它是一种分布式并行处理结构的网络模型, 具有自组织和自学习能力、很强的复杂分类边界区分能力以及对不完全信息的鲁棒性,其性能近似理 东南大学硕士学位论文 想的分类器。其缺点是训练时问长,动态时间规整能力弱,网络规模随说话人数目增加时可能大到难 以训练的程度。 其中话人模型的建立的是问题的关键。为了对说话人个性特征描述的一致起见,常将每一说话人的模 型结构取得相同,不同的只是模型中的参数,通过训练语音对模型进行训i 练得到。采用不同的说话人模型 结构对应了说话人识别的不同方法。随着计算机、数字信号处理、人工智能等的不断发展,说话人模型已 从单一的模板模型向矢量量化( v q v e c t o rq u a n d z 撕o n ) 模型、高斯混合模型( g m m g a u s s i m i x n l r e m o d e l ) 、隐马尔柯夫模型( h m m - h i d d c i lm a r k o vm o d e l s ) 、人工神经网络( n n n e i i r a ln 咖o f k ) 模型以及 它们的混合模型等多方向发展,对说话人个性特征的描述也越来越精细和完善,并且从无噪声环境下的识 别向复杂背景噪声下的识别方向发展,同时各种高速信号处理芯片、专用语音信号处理芯片的出现,也为 语音信号处理和说话人识别提供了有力的支持,从而使说话人识别技术不断走向使用。 1 3 说话人识别的应用领域 对于说话人识别的研究始于6 0 年代,近4 0 年来,在这一领域取得了重大进展,商用系统已经在若干 领域中得到应用。说话人辨认系统在司法领域中可以帮助对嫌疑人的查证,通过犯罪记录中所记录的声音 判断究竟是多个嫌疑犯中的哪个声音,或者判断罪犯是否真的存在于嫌疑犯中。在军事领域中,它可以用 于战场的侦听,以辨认敌方指挥员。同时,它也可以应用在对于实时执行军事指挥员和飞机驾驶员的口述 命令( 如实时发炮命令) 等需要特定指挥人员的场所。说话人识别系统较多的应用在保安领域,如机密场 所的进入控制、合法使用通信线路、机要设备的身份核查。在电话服务中,可以利用说话人系统以用户语 音来实现汇款、转帐、余额通知、转款、股票行情信息查询等服务。在医学领域中,如使说话人识别系统 只响应患者的命令,则可以实现对患者假肢的控制。 随着h n e m e t 的飞速发展以及大规模宽带网络的迅速建立,过去只能在电话网络上进行各类语音增值 服务已经可以在互联网上找到新的增长点。随着网络上各类商务流程的蓬勃发展,网上交易和网上购物已 经逐步成为人们日常生活中不可缺少的一个重要环节。利用说话人识别技术,结合现在使用的各种安全密 码技术,来辨识标志各人身份的i d 代码,以及各种购物卡、信用卡等,将使网上交易更安全,使人们购 物放心。同时,将电话系统中已有的利用用户语音实现汇款、转帐、余额通知、转款、股票行情信息查询 等服务转移到互联网络上,可以建筑真正的一天2 4 小时营业的网上银行和网上股市。 1 4 说话人识别的发展和现状 由上节可知,说话人识别技术能广泛的应用于现代通信、银行金融、公安司法及机要保密等众多研究 领域,因而,说话人识别系统的研究在国际上受到了极大的关注和重视。 说话人识别的研究始于2 0 世纪3 0 年代。早期的工作主要集中在人耳听辨实验和探讨听音识别的 可能性方面。随着研究手段和工具的改进,研究工作逐渐脱离了单纯的人耳听辨。b e l l 实验室的l g k e s t a 目视观察语谱图进行识别,提出了“声纹( v o i c e p r i n t ) ”的概念。之后,电子技术和计算机技 术的发展,使通过机器自动识别人的声音成为可能。b e l l 实验室的s p r u z a n s k y 提出了基于模式匹配 第一章绪论 和概率统计方法分析的说话人识别方法,而引起信号处理领域许多学者的注意,形成了说话人识别研究的 一个高潮,其问的工作主要集中在各种识别参数的提取、选择和实验上,并将倒谱和线性预测分析等方法 应用于说话人识别。 从2 0 世纪6 0 年代开始,说话人识别的研究分别在参数的提取和选用、识别方法和模式匹配的测度等 方面蓬勃发展。现在,说话人识别的研究重点转向语音中说话人个性特征的分离提取、个性特征的增强、 对各种反映说话人特征的声学参数的线性或非线性处理以及新的说话人识别模式匹配方法上,如动态时间 规整( d t 忉、主分量( 成分) 分析( p c a ) 、矢量量化( v q ) 、隐马尔可夫模型( h m m ) 、人工神经网络方 法( a i q n ) 必及这些方法的组合技术上等。 1 5 论文内容安排 第一章主要介绍说话人识别的基本概念、分类和基本原理,并简述了说话人识别的发展及其现状。 第二章从语音的发声原理开始,分析n 吾音参数对说话人识别性能的影响,并详细介绍了基音周期、 l p c 系数、复倒谱、倒谱、维格纳威利谱和m b l 倒谱等参数特征。 第三章主要说话人识别的识别方法,讲述了矢量量化( v q ) 、模糊矢量量化( f v 0 ) 、混合高斯模型( g m m ) 等识别理论。 第四章介绍遗传算法在矢量量化和高斯混合模型中的应用。 第五章介绍系统的实现和实验结果。 东南大学硕士学位论文 2 1 概述 第二章说话人识别的特征参数分析及提取 1 9 6 3 年b e l l 实验室的s p r u z a n s k y 和1 9 7 1 年pd b r e a k e re ta 1 f 2 1 提出了短时谱中的信息提 供说话人特征。随后在1 9 6 8 年b s a t a l 【3 1 采用基音频率、1 9 7 1 年g ,d o d d i n g t o n 4 1 提出共振峰频率、 1 9 7 2 年m r s a m b u r 【7 】的线性预测系数( 1 p c ) 、1 9 7 3 年c l u i s 【5 1 的时域音栓配合法的语音响度、1 9 7 3 年s f r u r u i 和f i t a k u r a 【6 j 的语音对数域比例、1 9 7 2 年j j w 0 1 f 【8 1 和1 9 7 5 年m r s a b u r 【9 1 从元 音和鼻音中提取出最好的说话人个人特征、1 9 7 4 年b a t a l 【i 。1 通过比较各种参数得出倒谱系数为说话人 识别提供最好的结果。 在说话人识别系统中特征提取是最重要的一环,特征提取就是从说话人的语音信号中提取出表示说 话人个性的基本特性。为了从语音信号中提取出表征各个不同说话人的有用信号,语音信号在经过预处理 后要进行语音特征的抽取。说话人样本模型的训练和特定说话人的识别都是基于所选取的语音特征参数来 进行的。因此,语音特征参数的提取是说话人识别系统中的一个关键部分。选取不同的特征参数对识别结 果将产生较大的影响,如何选取合适的参数以达到最佳的识别效果也是本课题的一个难点。一般而言,说 话人所发出的语音信号中既包含说话人所要表达的语音信息,又包含说话人本人特有的个性特征。在理想 情况下,选取的特征应当满足下述准则: 1 能够有效地区分不同的说话人,但又能在同一说话人的语音发生变化时相对保持稳定; 2 易于从语音信号中提取: 3 不易被模仿; 4 尽量不随时间和空间变化。 同时满足上述全部要求的特征通常是不可能找到的( 至少在目前是如此) ,只能使用折衷方案。对人 的语音感知多年研究表明,不同人之间说话的差别既有先天因素也有后天的因素。不同的说话人的发音器 官的生理尺寸有差别,发音时的器官动作电不同,这些差别会影响收听者对语音的感知以及在收听过程中 的回忆性能;此外,还有一些通过语音信号间接表现出来的信息,如说话人的习惯风格、情感状态、遣词 用句的特点等。人们往往是利用这些高层次的间接效应来帮助进行说话人识别的,尽管也曾尝试过把这些 特征量化,但迄今为止还没有成功的例子。因而现在的说话人识别系统不得不利用物理上可以度量的参量 来表征说话人,而单一的参量很难达到可靠的性能要求,所以实际应用中往往使用多种参量的集合。 2 2 语音信号产生原理 人们用来产生语音的器官,自下而上有肺、气管、喉、咽、口和唇。其中,喉位于气管的上端,由四 块软骨组成,在喉上有声带,两片声带之间的空隙成为声门 o m s ) 。喉以上由咽腔、鼻腔和口腔组成的传 输声音的通道称为声道( v o c a l t r a c t ) 。肺中呼出的气流是语音产生的动力。在发音时,肺r f 】的气流向上经过 气管到达喉,喉中的声带在呼出气流的作用下振动,形成一连串的脉动气流,称为声门波,声门波经过口 6 第二章语音信号的特征参数分析及提取 腔等组成的声道,从口和鼻辐射出去,就形成语音。 下面给出一个离散时域的语音产生模型,如图2 一l 所示。这个模型是许多研究和应用的基础,它由激 励源、声道模型和辐射模型三个部分组成。激励源分为清音和浊音两个分支。声道模型改出了离散时域的 声道传输函数v ( z ) ,把实际声道等效成一个变截面管加以研究,在大多数情况下可以看成一个全极点函数。 基音颂率 。= l ;q 为实数 激励部分 血 调制部分 ( 2 1 ) 图2 1 语音信号产生的离散时域模型 人类发音过程有三类不同的激励方式,因而能产生三类不同的声音,即浊音、清音和爆破音。当气流 通过声门时声带的张力刚好使声带发生较低频率的张驰振荡,形成准周期性的空气脉冲。这些空气脉冲激 励声道便产生浊音。若声道中某处截面积很小,气流高速冲过此处时而产生湍流,当气流速度与横截面积 之比大于某个门限值时便产生摩擦音,即清音。而声道某处完全闭合建立起气压,然后突然释放而产生的 声音就是爆破音。 由发音方式和声道形状的不同,人类可以发出无穷多种、听觉系统可以将它们相互区分的声音。但语 音又可以分割成可辨别的基本语音单位,印音索,且这样的音素是有限的。这样一个语句就可阻分解为一 串音素,但一串音紊不等于一个语句,语句中还含有反映语义、语感的韵律信息。这里的韵律信息包括各 音素的相对强度、相对时长、相对音高、音高之间的停顿以及音素之间相互影响而产生音素的变异等。 2 3 基音周期估计 基音周期是语音信号最重要的参数之一。基音周期估计的方法很多,本论文采用了基于求短时自相关 函数的算法。 语音按其发生方式分为清音和浊音。发清音时,声道完全封闭,声道不受声门周期脉冲的激励而是利 用口腔内存有的空气释放出来而发声,因而清音并没有基音。在作基音周期的估计时,必须先去除清音。 本论文中利用语音信号的短时过零率z 。( 见22 式) 来区分清浊音,一般而言,在相同条件下,清音的 短时过零率分布的平均值最高。利用这一点,可以设一门限区分清浊音。 7 方 = 、i, z ,【 矿 东南大学硕士学位论文 1 l z 。= 去 蹭n 【j 。 ) 卜踞n s 。仰一1 ) i ) s g n 小 1 , i l 当x 0 当x f c 。f 、h t l l 以i ,对上式的量求逆变换 可得复倒谱: 轨- 忡一善鲁妒肌詈争c , + 善知旷静叫 心屯。 拈*兀旦。 = 露” 。dh + h 口 i 。1 。 +, 一” 。dh z 箜n 。 第二章语音信号的特征参数分析及提取 上式可等价为 x ( 踞) l n l 爿i 堡一笠 惫”急n 笠一塑 台”台h ( 疗= o ) o ) p ( 2 3 0 ) ( 2 3 1 ) 由上式可知,x ( 疗) 也是一个周期为,的冲击序列,即一个有限长度的周期冲击序列,其复倒潜也是 一个周期冲击序列,且周期不变,只是序列变为无限长序列。同时其振幅随着 的增大而衰减,且衰减读 等价于1 瓜,因此衰减速度比原来的序列要快。这种性质用于语音信号分析中,就意味着除原点外,可以 用“高时窗”从语音信号的频谱中提取浊音激励信号的倒谱( 对于清音激励,也只是损失了o 门一n 的一部分激励信息) ,从而使得用倒谱法提取基音周期成为现实。 在上述复倒谱的分析中,z 变换后得到的复倒谱是复数,这时存在相位的多值性问题,称为“相位 卷绕”。为了确保定义的唯一性( 即避免相位卷绕) ,则在分析和计算中要加约束条件,从而得出不同的复 倒谱的求取方法: 1 、限制法: 限制法的思想是将复倒谱的相位限制在一石 p ) j r 的范围内,从而有p ) = 巾劬) 。但对于语 音信号来讲,由于语音信号是随机的,因此这种限制是不科学的。所以这不是解决相位卷绕的有效方法。 2 、微分法 这是利用傅立叶变换的微分特性和对数微分特性,避免求复数对数而又可求出复倒谱的方法。由傅立 叶变换的微分特性可知: ,工( p ,。) = y ”x ( ”) e j “ ( 2 3 2 ) d 一 复倒谱x ) 和对数谱x p ”) 之间也满足这种关系: _ ,昙量) = 薹”;一 协s s ) 利片j 对数微分特性,上式可改写为 ,瓤1 :寺秽肛,曾:套而矿,。 这就可得复倒谱的求法,用图表示如下: 4 ( 2 3 4 ) 、j 坼 0 生七 。hm h 第二章语音信号的特征参数分析及提取 x ) 图2 5 利用微分特性求复倒谱的框图 这种方法虽然避免了求复倒谱的问题,但其缺点是会产生严重的混叠。这是因为,( 门) 的频谱中的高 频分量比x 0 ) 多,所以仍使用x ( 功原来的取样率必定会引起混叠。这样求出的z 0 ) 并非x ) 的复倒谱。 因而这也不是一种理想的方法。 3 、最小相位信号法 由于语音信号模型一般都是极点在单位圆内的全极系统或极零点在单位圆内的最小相位系统,所以我 们可以用最小相位序列的复倒谱性质和月一6 p ,f 变换的性质导出新的求解方法。它能较好的解决相位卷绕 问题,但它仅适用于最小相位信号序列。 由最小相位信号序列的复倒谱性质可知,若x ) 是最小相位信号,则x ) 必然为稳定的因果序列。 另外,由爿z 而8 一变换的性质可知,任一个因果的复倒谱序列x ) 都可以分解为偶对数分量;。( n ) 和奇对 数分量x o ( n ) 之和,即: x 加) = x 。) + 工。( 功 ( 2 3 5 ) l 而且,这两个分量的傅立叶变换分别为“n ) 傅立叶变换的实部和虚部。设: 则 又由于 可得 石( 8 ”) = z ( 疗) p 1 “= x 一( p ”) + 。( 87 。) = l n x 。) = l n p o7 。) l + z o 。) r ( p ”) = x 。0 ) p 1 “ x 。( 8 ”) = ( 门) p 1 “ ;。( 聍) = 三 ;( 胛) + ;( 一n ) 【:。( 珂) = : ;( 门) 一:( 一门) 】 1 n l 0 7 。) i 么瞵( 8 ”) ( 23 6 ) ( 2 3 7 ) ( 23 8 ) 舄 寺j,翌胪 东南大学硕士学位论文 l o “疗) = z e ( 功 【2 吃( ”) 疗 o 由上可知,一个因果序列可有偶对称分量来恢复。引入一个辅助因子g ( 仃) ,并设占( 聆) 为 则 f 0 g 即) = 1 1 2 x ( 仃) = g ( 胆) x 。( 拧) ” o ( 23 9 ) ( 24 0 ) ( 2 4 1 ) 由以上讨论和倒谱的定义可知,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论