(计算机系统结构专业论文)存在情感差异性语音的说话人识别算法研究.pdf_第1页
(计算机系统结构专业论文)存在情感差异性语音的说话人识别算法研究.pdf_第2页
(计算机系统结构专业论文)存在情感差异性语音的说话人识别算法研究.pdf_第3页
(计算机系统结构专业论文)存在情感差异性语音的说话人识别算法研究.pdf_第4页
(计算机系统结构专业论文)存在情感差异性语音的说话人识别算法研究.pdf_第5页
已阅读5页,还剩68页未读 继续免费阅读

(计算机系统结构专业论文)存在情感差异性语音的说话人识别算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 说话人识别技术被认为是最自然的生物认证技术,它是一项根据语音中反映的说话 人生理和行为特征的语音参数,自动识别说话人身份的技术。传统说话人识别系统当使 用者在平静状态下训练、测试时,己取得了非常出色的识别性能,但是,当说话人在不 同情感状态间改变时,因说话人的态度发生改变,语音急剧变化,进而识别率会下降。 在详细分析情感语音特性和情感语音研究方面的最新进展,特别是如何提高情感影响时 说话人识别性能研究现状的基础上,本文针对如何更好的处理含有情感因素的说话人语 音上进行了大量的尝试,提出了相关的模型和算法。本文的主要工作集中在以下四个方 面: 第一,对情感语音特征和在情感语音影响下提高说话人识别性能的研究工作做了详细 调研工作,并了解情感语音数据库方面的现状,针对现阶段缺少多说话人录制的中文情 感语音数据库,设计、采集并建立了一个可用于情感语音分析和说话人识别的语音数据 库m a s c c c n t 。 第二,选择用于情感语音特性分析的特征,从基音频率构造、发音持续时间比较、元 音共振峰分析、能量分析四个方面对一个中文情感语音库( m a s c c c n 曰和一个英文 情感语音库( e p s t ) 上的语音信号进行详细的实验分析,并通过和不带情感的中性语音 信号比较,找出了不同情感信号特征的分布规律,并对比中西语音库上的分析结果,得 出中西方在表达情感方式上的差异,总体来说,东方人在表达情感时语音变化不如西方 人激烈,相对含蓄,而西方人情绪变化时会采用外露、夸张的表达方式。 第三,在e p s t 情感语音库上,先通过声学特征统计量的分析,包括基音频率平均值 ( m e a np i t c h ) 、基频动态范围( p i t c hr a n g e ) 、基频方差( p i t c hv a r i a n c e ) 、基频歪 斜度( p i t c hs k e w n e s s ) 和基频动态范围扩展方式( p i t c he x p a n s i o n ) ,对1 4 种情感进行 了分类,将具有相近特性的情感类别归于同一个组,然后为每个说话人的中性语音中分 别加入很小量的情感信息,按照情感缀别进行说话人模型训练。该方法用于实际的说话 人识别系统中,在情感先验知识不足的情况下可进行结构化训练并测试,极大地提高了 说话人识别系统在情感语音影响时的性能。 第四,通过讨论用于说话人识别的传统倒谱特征和基音频率( f 0 ) 在说话人处于 不同的情感状态时的差异性,本文认为,当说话人情绪发生变化时,基音频率的改 变会影响到倒谱特征( m f c c 等) ,这种影响会增加说话人的自身距离( i n t r a - s p e a k e r d i s t a n c e ) ,从而使说话人识别系统的性能降低。本文提出了基于倒谱特征线性情感补偿 的说话人识别方法,实验结果表明,这种特征补偿方法能够使倒谱特征更能描述说话人 个性信息,从而提高说话人识别系统的性能,使得其识别率升高。 本文得到以下基金资助:国家自然科学基金( 6 0 2 7 3 0 5 9 ) 、国家杰出青年科学基金 ( 6 0 5 2 5 2 0 2 ) 、教育部“跨世纪优秀人才培养计划”专项基金( n c e t - 0 4 0 5 4 5 ) 、国家自 然科学基金重点项目( 6 0 5 3 3 0 4 0 ) 。 关键词:说话人识别情感语音情感特征基音频率 第i 页,共6 7 页 童兰:奎兰至三墼蚤垒呈! 三呈垒至三 a b s t r a c t s p e a k e rr e c o g n i t i a n ( s r ) ,w h i c hi d e n t i f i e so rv e r i f i e sp e o p l eb yt h e i rv o i c e ;i sr e g a r d e d a st h em o s tn a t u r a la n dc o n v e n i e n to n ea m o n gt h em e t h o d so fb i o m e t r i c s c u r r e n ts p e a k e r v e r i f i c a t i o na n di d e n t i f i c a t i o ns y s t e m sa t el i m i t e db yt h ee f f e c to ns p e e c ho ft r a n s i e n ts t a t e c h a n g e st os p e a k e r s ,s u c ha sc o g n i t i v ea n dp h y s i o l o g i c a ls t r e s s ,e m o t i o n a ls t a t ea n ds p e a k e r a t t i t u d e t h ev a r i a b i l i t yo fi n t r a - s p e a k e ri nt h e s es i t u a t i o n sc a l lc a u s eu n a c c e p t a b l yh i g h e r r o rr a t e si nt h i st h e s i s w ef i r s tm a d eas t u d yo fe m o t i o n a ls p e e c hf e a t u r e s 孟h ec u r r e n t a d v a n c e m e n t so fi t ,a n dt h er e c e n tm e t h o d so fi m p r o v i n gt h er e c o g n i t i o no fa f f e c t i v e l y s t r e s s e ds p e a k e r s t h e nb a s e do ni t ,w ep r o p o s e do n em e t h o d sa n da l i g o r i t h m st od e a lw i t h t h ee m o t i o n a ls p e e c hi ns rs y s t e m t h em a i nc o n t r i b u t i o no fo u rw o r ka r ea st l a ef o l l o w i n g s :j 1 al a r g ee m o t i o n a ls p e e c hd a t a b a s em a s c c c n tf m a n d a r i na l i e c t i v es p e e c hc o r p u s ,a tc c n tl a b ) i sd e s i g n e da n de r e a t e d t h i sd a t a b a s ei sc o n s t r u c t e df o rp r o s o d i c a n dl i n g u i s t i ci n v e s t i g a t i o no fe m o t i o ne x p r e s s i o ni nm a n d a r i n i tc a na l s ob eu s e df o r r e c o g n i t i o no fa f f e e t i v e l ys t r e s s e ds p e a k e r s 2 as e r i e so ft y p i c a lf e a t u r e sa r ee m p l o y e dt oi n v e s t i g a t et h ec h a t a c t e r i s t i co fe m o t i o n a l s p e e c h t h es t u d yf o c u s e so np i t c hs t r u c t u r e ,d u r a t i o na n dt h eo m i s s i o n so fs e g m e n t s ,v o w e l f o r m a n ta n a l y s i s e n e r g ya n a l y s i so nt w oe m o t i o n a ls p e e c hd a t a b a s e ,m a s ca n de p s t m a s cw a sr e c o r d e di nm a n d a r i nb v6 8n a t i v es p e a k e r s e p s tw a sr e c o r d e di ne n g l i s hb y 8a c t o r sa n da c t r e s s e s t h er e s u l t ss h o wac o m p a r i s o no fe m o t i o ne x p r e s s i o nb e t w e e nt h e e a s t e r na n dt h ew e s t e r n 3 t w op r o c e d u r e st h a to n l yn e e das m a l lq u a n t i c vo fa f f e c t i v et r a i n i n gd a t aa r ea p - p l i e dt oa s rt a s k w h i c hi sv e r yp r a c t i c a li nr e a l - w o r l ds i t u a t i o n s t h ea p p 南a c hi n e l u d e s e l a s s i f y i n gt h ee m o t i o n a ls t a t e sb ya c o u s t i c a lf e a t u r e s ( m e a np i t c h ,p i t c hr a n g e ,p i t c hv a r i - a n c e ,p i t c hs k e w n e s sa n dp i t c he x p a n s i o n ) a n dg e n e r a t i n ge m o t i o n a d d e dm o d e ib a e do n t h ee m o t i o ng r o u p i n g f 姆p e r i m e n t a lw o r k sa r ep e r f o r m e do ne p s ta n ds h o ws i g n i f i c a n t i m p r o v e m e n t 4 am o d e lo fp i t c h - d e p e n d e n ts p e c t r a lf e a t u r ec o m p e n s a t i o na g a i n s te m o t i o n a ls p e e c h v a r i a b i l i t yi sp r o p o s e d w eh a v ep o i n t e do u tt h a tt h eu n a f f e c t e dc e p s t r a lf e a t u r e sw o u l d b e h a v i o rm o r ed i s c r i m i n a t i v et h a nt h et r a d i t i o n 融o n e s ap r e l i m i n a r yw o r ki se l i c i t e dt o u s eb o t hl o n g - t e r ma n ds h o r t t e r mf e a t u r e st og e tt h ec o m p e n s a t e do n e s n o v e ls t r a t e g y f o rs e l e c t i n gt h ec o m p e n s a t i n gp a r a m e t e r si sd e s i g n e d d rg m m ( g a u s s i a nm i x t u r em o d e l ) t r a i n i n g e x p e r i m e n t sa r ep e r f o r m e do nb o t he p s ta n dm a s cd a t a b a s e t h i sw o r ki ss u p p o r t e d b yn a t i o n a ln a t u r a ls c i e n c ef o u n d a t i o no fp r c h i n a ( 6 0 2 7 3 0 5 9 ) ,n a t i o n a ls c i e n c ef u n df o rd i s t i n g u i s h e dy o u n gs c h o l a r s ( 6 0 5 2 5 2 0 2 ) ,p r o g r a m f o rn e wc e n t u r ye x c e l l e n tt a l e n t si nu n i v e r s i t yf n c e t 一0 4 - 0 5 4 5 1a n dk e yp r o g r a mo f n a t u r a ls e i e n c ef o m m a t i o no fc h i n a ( 6 0 5 3 3 0 4 0 ) k e y w o r d s :s p e a k e rr e c o g n i t i o n ,e m o t i o n a ls p e e c h ,e m o t i o n a lf e a t u r e s ,h e - q u e n e yf u n d a m e n t a l “7 0 1 第i i 页共6 7 页 浙汪穴擘顼士论x插图目录 插图目录 2 - 1 语音处理3 2 - 2 说话人识别系统原理图( 虚线内为可选部分) f 1 4 2 - 3 说话人识别系统逻辑框图 2 4 特征提取的基本过程 2 - 5 倒谱计算过程 2 - 6 说话人识别模型( 1 ) f l7 2 - 7 说话人识别模型( 2 ) l7 1 2 - 8 一个说话人的g m m 模型 2 - 9 距离和情感变化示意图 2 - 1 0m a s c 语音库的录音过程示意 2 - 1 1m a s c 语音库基准实验的逻辑框图 3 - 1 情感轮 m a s c 和e p s t 情感信号基频改变的对比 各个情感与中性项比较的l m q 值 m a s c 一男性说话人的元音共振峰分布( 中性愤怒) m a s c 一男性说话人的元音共振峰分布( 中性兴高采烈) m a s c - - 男性说话人的元音共振峰分布( 中性惊慌) m a s c - - 男性说话人的元音共振峰分布( 中性悲伤) e p s t - - 男性说话人的元音共振峰分布( 中性愤怒) e p s t 一男性说话人的元音共振峰分布( 中性兴高采烈) e p s t 一男性说话人的元音共振峰分布( 中性惊慌) e p s t 一+ 男性说话人的元音共振峰分布( 中性悲伤) 情感发音平均能量差分布( m a s c l 情感发音平均能量差分布( e p s t ) 基频动态范围的扩展方式7 2 1 基频均值的统计分析 基频动态范围的统计分析 基频方差的统计分析 基频歪斜度的统计分析。 基频动态范围的扩展方式的统计分析 情感模型的结构化训练方法 6 _ l 同一个说话人在不同情感状态时基音频率的分布 6 - 2 同一个说话人在不回情感状态时第二维和第三维m f c c 的分布 6 - 3 重复e m 训练的过程示意图 第v i 页,共6 7 页 6 7 8 9 m挖口m醇驸嚣 弱 驼弱弘弘驺盯盯弘 蛆蛆蛆鹞够姐哥: 蛆船 0 1 2 蚍抛邺“蛳”蚰“ w弛粥“铋:暑w 浙噩大盛颐= :鬯x插图目录 6 - 4s f c r e m 算法流程图 6 - 5e p s t 语音库上的实验结果 6 - 6 m a s c 语音库上的实验结果 第v i i 页,共6 7 页 5 3 5 4 5 5 渐百丈学颈士谚又表格目录 表格目录 2 - 1 现有情感语音库简况一 2 - 2 录音者情况 2 - 3m a s c 录音人员年龄分布 2 - 4 m a s c 语音库上基准实验的结果一 4 - 1m a s c 语音库的基频分析 4 - 2e p s t 语音库的基频分析 4 - 3m a s c 语音库的情感特征变化 4 - 4 e p s t 语音库的情感特征变化 5 一l 对情感状态的分类 5 - 2 对情感状态的随机分类 5 _ 3 全局测试的实验结果 5 4 局部测试的实验结果 5 - 5 基准实验的结果: 5 - 6 随机分组的测试结果 6 _ 1 在e p s t 和m a s c 上分别的说话人识别结果i r ( 1 第v i i i 页,共6 7 页 玷珀坞翦 姐嚣船 “的的们蛳蛎 h - 一 一 一 一 一 一 = _ 一 一 一 一 茎兰:盔兰鐾= = 兰奎箜二主! ! 主 第一章引言 广义的语音议别应该是一个统称,指与数字信号处理相关的各种意义上的识别,具体 地讲,它包括:识别说话的内容,识别说话人是谁,识别说的是什么语言,评价说话的 标准程度等。说话人识别技术( s p e a k e rr e c o g n i t i o n ) f 3 】是语音处理的一部分,同时也 是生物认证技术b i o m e t r i c s ) 【5 】 6 】的一种。 1 1 说话人识别技术概述 近年来,生物认证技术得到了飞速发展,并不断地进入到众多领域中,例如在物理安 全( 大楼的门禁系统) 和逻辑安全( p c ,网络等) 领域都得到了广泛应用。生物识别技 术是利用人的生理或行为特征,比如指纹或话音模式来核对( v e r i f y ) 或确剖i , ( i d e n t i f y ) 入 的身份。主要生物识别技术有手指扫描、手掌扫描、手掌几何结构、视网膜扫描、虹膜 扫描、面部扫描、面部几何结构、签名扫描、动态扫描、话音扫描、话音或话者识别。 说话人t 别技术,或称声纹识别技术是一种行为识别技术。作为最自然的生物特征 识别身份鉴定方式,说话人识别以其独特的方便性、经济性和准确性等优势受到世人瞩 目,并日益成为人们日常生活和工作中重要且普及的安全验证方式。 说话人识别是利用包含在说话人的语音波形中特有的个体信息,自动识别说话人 身份的过程f 3 1 。随着计算机技术的发展,自动说话人识别( a u t o m a t i cs p e a k e rr e e o g n i - t i o n ,a s r ) 的研究得到了迅速的发展,自动说话人识别是指利用计算机技术,不需要人 们的干预,自动的进行身份认证。本文所说的说话人识别,均指自动说话人识别。 说话人识别基于的语音,既包含了人的生理特征,即先天的解剖学上的差异,又包含 了人的行为特征,即后天的发音习惯的不同。与语音识别( s p e e c hr e c o g n i t i o n ) 不同的 是,说话人识别利用的是语音信号中说话人的信息,而不考虑语音中的字词意思,他强 调的是说话人的个性化特征;而语音识别的目的是识别出语音信号中的语言内容,并不 考虑说话人是谁,他强调的是说话人的共性特征。 说话人识别任务有许多类型,根据认证方式的不同,可以分为三类: 说话人鉴别( 也称说话人辨认,s p e a k e ri d e n t i f i c a t i o n ) ,是指从给定用户集中把测 试语音所属的说话人区分出来; 说话人确认( 也称说话人检测,s p e a k e rv g r i f i c a t i o n ) ,针对单个月扩,即通过测试 语音来判断其是否是所声明的用户身份; 说话人探测跟踪一( 也称说话人切分与聚类,s p e a k e rs e g m e n t a t i o n 1 dc l u s t e r i n g ) ,是指对一段包含多个说话人的语音,正确标注这段语音中说话人切换的时 孰 第l 页,共6 7 页 浙江大学硕士论曳 第一章引言 在说话人鉴别系统中,又可以分为开集( o p e n - s e t ) 的说话人鉴别和闭集( c l o s e - s e t ) 的说话人鉴别两种: 闭集的说话人鉴别,是指系统具有这样的先验知识:测试的说话人肯定是训练的数 据集中出现过的说话人; 开集的说话人鉴别,足指所测试的说话人还有可能是训练集中没有出现过的用户。 说话人识别从对语音的要求上又可以分为:文本无关( t e x t - i n d e n p e n d e n t ) 的说话 人识别,是指模型训练语料不要求特定的语言和内容,而且训练语料与测试语料之间也 不要求一致;文本相关( t e x t d e p e n d e n t ) 的说话人识别,是指模型的训练语料是由用 户按照给定的文本朗读得到,测试语料应与训练语料相一致。 一般来说,文本无关的说话人识别更具难度。 说话人识别的研究始于2 0 世纪3 0 年代,早期的工作主要集中在人耳听辨实验和探讨 听音识别的可能方面。随着研究手段和研究工具的改进,研究工作逐渐脱离了单纯的人 耳听辨。b e l l 实验室的l g k e s t a 目视观察语谱图迸行识别( s p e c t r o g r a mm a t c h i n g ) , 提出了“声纹”( v o i c e p r i n t ) 的概念;之后,电子技术和计算机技术的发展,使通过 机器自动识别说话人的声音成为可能。b e l l 实验室的s p r u z a a s k y 提出了基于模式匹配 ( t e m p l a t em a t c h i n g ) 和概率统计方差分析的说话人识别方法,而引起信号处理领域许 多学者的注意,掀起了说话人识别的一个研究高潮,期问的工作主要集中在各种识别参 数的提取、选择和实验上,并将倒谱和线性预测分析等方法应用于说话人识别。f 1 8 从7 0 年代末至今,说话人识别的研究重点转向对各种声学参数的线性或非线性处 理以及新的模式匹配方法上,如动态时间规整( d y n a m i ct i m ew a r p i n g ) f 1 9 1 、矢量量 化( v e c t o rq u a n t i z a t i o n ) 2 0 1 、高斯混合模型( g a u s s i a nm i x t u r em o d e l i n g ) f 2 1 】、隐马尔 可夫模型( h i d d e nm a r k o vm o d e l i n g ) 【2 2 】、神经网络( n e u r a ln e t w o r k ) 【2 3 】支持向量 机( s u p p o r tv e c t o rm a c h i n e ) 1 、动态贝叶斯网络( d y n a m i cb a y e s i a nn e t w o r k ) 【2 】和多特征 融合( m u l t i f e a t u r ef u s i o n ) 等技术。如今,说话人议别技术已经逐渐走入实际应用。 1 2 说话人识别中的问题 尽管已经经历了半个世纪的研究,说话人识别的研究也已经取得了很大的进展,但是 声音识别系统应用于实际情况时仍然存在很多问题,还远远达不到社会对其实用化的需 求,主要表现在: 说话人自身的变异性。即使对于同一说话人和同一文本,语音信号也有很大的变异 性,说话人的语音特征,也就是“声纹”不是静态的,也不是固定不变的,它会跟随 时间的推移有所变化,并常常与说话人所处的环境、情绪、健康状况都有着密切联 系,也会随年龄的变化而变化,这些变化都会引起说话人自身的变化( v a r i a b i l i t yo f 第2 页1 共6 7 页 第一章引言 i n t r a - s p e a k e r ) 。声音信号的变异性从本质上说使说话人特征空间发生了改变,说 话人模式发生变异,从而增加了识别过程中的错误率。说话人识别中存在的噪音, 多通道,时飘,情感等热点研究方向都属于这个方面。因此,本文将针对声音信号 的变异性针对情感语音对说话人识别系统的影响做系统的分析,并通过特征变换的 方法,研究抗情感变化的说话人识别方法。 尚未有简单可靠的说话人语音特征参数。传统自动说话人识别系统仅仅采用底 层的短时声学特征( 如m f c c 、l p c c 等) ,忽略了高层次的声音信息,比如韵 律特征( p r o s o d i cf e a t u r e s ) 、音素特征( p h o n ef e a t u r e s ) 、词汇特征( l 缸i c a l f e a t u r e s ) 、对话特征( c o n v e r s a t i o n a lf e a t u r s ) 等,这些高层语音信息在说话人识 别中同样可以表征说话人的语音特征。到目前为止,还没有很好的方法将说话入的 个体特征从语音特征中分离出来,也没有找到简单的语音特征参数能够可靠的识别 说话人 3 1 【7 8 】 9 1 。为此,本文的另一个重心放在了研究不同情感状况下各种语音特 征的变化情况上,并对中西情感表现的差异进行了研究。 说话人分类方法的局限性。诚然,目前已经有很多说话人分类方法,如上文提到的 高斯混合模型、隐马尔可夫模型、支持向量机模型,这些方法也取得了比较好的识 别率。但是,上述方法的高复杂度使得说话人识别所需的时间很长。在训练阶段, 为了获得最太的似然度和精确的说话人模型,要进行很多次的迭代计算。在测试阶 段,比较待识别的语音,需要计算每个模型的得分,也需要大量时间。因此,这些 高复杂度的精确的建模方法并不适用于实时的说话人识别应用。 其他问题。如发音伪装,短语音训练识别等。 从本质上讲,说话人识别技术大体上可分为特征提取和说话人分类两个部分,因此, 从某种意义上来讲,上述种种问题的存在都可以归结为特征提取部分或者说华人分类部 分的局限性所引起的。大量研究表明,目前说话人识别的问题主要来自于说话人的特征 提取上,如何寻求新的更具有个性特狂的表现力、拥有更强的健壮性的语音特征,或者 对现有特征进行优化的选择、融合、补偿等方法来增强现有系统的性能,是说话人识别 技术领域中一个有待解决的重要问题。 1 3 情感语音对说话人识别的影响 人类的话语中不仅包含了文字符号信息,而且还包含了人们的情感信息。例如,同 样一句话,往往由于说话人在不同的情绪状态;其意思和给听者的印象就会不同,所谓 同样一句话,往往会由于说话人的情感不同,其意思和给听者的印象就会不同,所谓”听 话听音”就是这个道理f 4 0 1 。传统的语音处理系统多着眼于语音词汇传达的准确性,而忽 略了包含在语音信号中的情感因素。与指纹一样,世界上没有两个人的声音是完全相同 第3 页,共6 7 页 涝西大学畈士论趸 第一章引言 的。也许有相似的声音,但是肯定不存在完全相同的声音,也许生理结构类似使声音听 上去形似,但人的个性心理和情绪是不可能完全相同的,即神不似。 传统的语音处理系统只是反映了信息的一个方面,而忽略了与知识世界相对应且具 有同等重要地位的感性科学吐界1 1 1 ,这其实也是信息处理的个重要组成部分。近几年 来,语音识别与合成技术在语音分析、自然语言处理、信号处理、随即过程处理等方法 的推动下获得了很大的发展。但从语音信号中提取情感特征,分析人的情感与语音信号 的关联,只是国内外刚刚兴起的研究课题。 现有的声音特征实际上只是粗略地勾勒了声音的形貌,而未传达其神韵,忽略了蕴含 在语音信号中的情感因素,构建在此基础上的声纹识别系统智能化程度较低;常常会给 出貌合神离的错误识别结果,存在诸如声音漂移和模仿伪装这样的问题。 1 3 1 4 研究意义 目前,语音识别方面的研究工作进展缓慢,虽然各种新的修正方法不断涌现,但其 普遍适用性都值得商榷。另一方面,语言学、生理学、心理学的研究成果已有不少, 但如何把这些知识量化、建模并用于语音处理,还需继续研究。比尔盖茨满怀信心 地指出:c c 电脑冷冰冰毫无表情的时代即将结束:2 l 世纪将是情感电脑大行其道的新时 代。”f 1 2 1 说话人识别将与语音识别一起从听觉渠道为实现“个性化”和情感电脑奠定了基 础,实现安全、和谐、自然的人机语音交互,具有巨大的产业前景。 研究语音在情感状态改变时的变化特性以及如何提高情感语音影响下的说话人识别性 能,其意义在于: ( i ) 对情感语音进行分析和比较,更准确的理解在说话人情绪状态发生变化时,语音表 达上的差异和说话人自身语音特征的改变。情感的发生是一个复杂的过程,它与心 理、感知、文化、说话人自己的性格、语言表达风格各个方面都有非常密切的关 系,本文通过对一个中文情感语音库和一个英文情感语音库的分析,不仅得出不同 情感状态时语音的变化规律,还得出中西方在情感表达方式上的差异。 ( i i l 对于情感语音影响下的说话人识别系统,现有的研究都集中在训练情感模型帮助识 别说话人和寻找更好的语音特征上,而训练情感模型需要大量的情感先验知识,这 在实际应用中是很难满足的。我们通过声学特征统计量的分析,对1 4 种情感进行了 分类,将具有相近特性的情感归于同一个组,然后为每个说话人在训练模型时只需 加入极少量的情感信息,即可获得较高的说话人识别率。该方法可有效地用于实际 的说话人识剐系统中,在情感先验知识不足的情况下也能使说话人识别性能得到较 大程度的提高。 ( i i i ) 针对基音频率和声道特征之间的相关性,提出了消除情感状态改变对倒谱特征影响 盼模型和补偿算法,我们认为,当说话人情绪发生变化时,基音频率随之改变,同 第4 页,共6 7 页 渐i j 穴堂硬士论文 第一章引言 时影响到倒谱特征( m f c c 等) ,这种影响会增加说话人的自身距离( i n t r a - s p e a k e r d i s t a n c e ) ,从而使说话人t 别系统的性能降低。我们将补偿模型适当简化为基于基 音频率的情感线性补偿算法,将补偿过的特征用于说话人识别,提高了说话人识别 系统的性能,使得识别率提高。 1 5 本文内容安排 本文内容共分六章,包括:本章即为第一章“引言”,是问题的引出部分,。并给出全 文的组织结构;第二章到第六章为文章的主要内容,最后一章是“总结与展望”。 第二章“说话人识别与语音库”,结合我们的实验系统详细的介绍了说话人识别系 统;另外,因现在的情感语音资源缺少用中文录制的数据和多说话人录制、可用于说话 人识别实验的库,我们自行设计、采集并建立了一个普通话多说话人情感语音数据库? 文中将对此语音库和另外一个用于实验的情感库做详细介绍。 第三章“情感语音及相关的说话人识别研究现状”,主要介绍了现阶段情感语音的研 究背景和有情感状态变化影响的说话人识别系统的研究现状。 第四章“情感语音特性及中西情感表达差异的研究”,选择用于情感语音特性分析的 特征在一个中文情感语音库和一个英文情感语音库上进行分析研究,得出各个情感状态 时说话人语音特征变化规律以及中西方在情感表达上的差异。 第五章“基于情感语音归类的结构化训练方法”,首先对声学特征的统计量进行分析 并将情感状态根据其特性分组归类,然后针对在实际应用中情感先验知识不足的问题, 用结构化训练的方法提高说话人识别系统的性能。 第六章“基于倒谱特征线性情感补偿的说话人识别方法”,首先讨论了在不同的情感 状态下基音频率和倒谱特征分别表现出的差异性,然后,提出基于基音频率的情感特征 补偿模型,并将其适当简化为线性的倒谱特征情感补偿,应用于情感语音库,消除倒谱 特征在情感影响下产生的差异,能更好的描述说话人个性信息。 第七章“总结与展望”,对文章的工作做了简单的概括,并提出下一步努力的方向。 第5 页,共6 7 页 浙江走 7 酊、主论文第一章引言 时影响到倒谱特征( m f c c 等) ,这种影响会增加说话人的自身距离( i l _ 1 t r a - s p e a k e r d i s t a n c e ) ,从而使说话人识别系统的性能降低。我们将补偿模型适当简化为基于基 音频率的情感线性补偿算法,将补偿过的特征甩于说话人识别,提高了说话人识别 系统的性能,使得识别率提高。 1 5 本文内容安排 本文山容共分六章包括;本章即为第一章“引言”是问题的引m 部分+ 并给出全 文的组织结构;第二章到第 章为文章的丰要内客,最后一章是“总结与展望”。 第二章“说话人识别与语音库”,结合我们的实验系统详细的介绍了说话人识别系 统;另外,因现在的情感语音资源缺少用中文录制的数据和多况话人录制、可用于说话 人识别实验的库,我们臼行设计、采集并建立了一个普通话多说话人情感语音数据库, 文中将对此语音库和另外一个用于实验的情感库做详细介绍。 第三章“情感语音及相关的说话人泌别研究现状”,主要介绍了现阶段情感语音的研 究背景和有情感状态变化影响的说话人识别系统的研究觋状。 第四章。情感语音特性及中两情感表达差异的研究”,选择用于情感语音特性分析的 特征在一个中文情感语音库和一个英立情感语音库上进行分析研究,得出各个情感状态 时说话人语音特征变化规律以及中西方在情感表达上的差异。 第五章“基于情感语音归类的结构化训练方法”,首先对声学特征的统计量进行分析 并将情感状态根据其特性分组归娄,然后针对在实际应用巾情感先验知识不足的问题, 用结构化训练的方法提高说话人说别系统的性能。 第六章“基于倒谱特征线性情感补偿的说话人识别方法”,首先讨论了在不同的情感 状态下基音频率和倒谱特征分别表现出的差异性,然后,提出基于基音频率的情感特征 补偿模型,并将其适当简化为线性的倒谱特征情感补偿,应用于情感语音库,消除倒谱 特征在情感影响下产生的差昴,能更好的捕述说话人个性信息。 第七章“总结与展望”,对文章的工作做了简单的概括,井提出下一步努力的方向。 第七章“总结与展望”,对文章的工作做了简单的概括,井提出下一步努力的方向。 第5 页,共6 7 页 第二章说话人识别与语音库 第二章说话人识别与语音库 本文主要研究闭集上的说话人识别系统,本章将结合我们的实验系统对该问题做一个 详细的介绍和说明,其中包括系统的各个模块和语音数据库。 2 1 说话人识别原理 说话人识别是语音识别的一个特殊形式( 2 - 1 1 3 1 ) 。说话人识别是要通过对说话人语音 信号的分析和提取,自动确定说话人是否在所登记的说话人集合中,以及说话的人是 谁。这个过程需要从各个说话人的发音中找出话者之间的个性差异,涉及到说话人发音 器官上的个性差异、发音声道之问的个性差异、发音习惯之间的个性差异等不同级别上 的差异。说话人识别是综合运用心理学、生理学、语音信号处理、模式识别、统计学习 理论和人工智能的综合性研究课题。 语音处理 ,r - 分析合成识别,编码 r - 语膏波别说话人识别语肓鉴别 r - 圉2 - l 语音处理 3 | 如引言所说说话人识别可以划分为两个范畴,即说话人鉴别( s p e a k e ri d e n t i f i c a - t i o n ) 和说话人确认( s p e a k e rv e r i f i c a t i o n ) 。鉴别是把待测说话人的语音判定为属于多 个参考说话人之中的某一个,是多者选一的问题。确认则是根据待测说话人的语音,确 定是否与其所声称的参考说话人相符,这种确认只有两种情况,或是肯定( 即得到确 认) ,或是否定( 拒绝承认) 。对于说话人识别来说,不管是鉴别还是确认,都可以分 为与文本相关的( t e x k - d e p e n d e n t ) 和与文本无关的( t e x t i n d e p e n d e n t ) 两种方式。 在自动说话人识别技术中,无论是哪一种识别方式,其原理都是为每一个说话人建立 一个雒够描述其个性特征的模型,以其作为这一说话人特征的标准模板,如图2 2 所示, 第6 页,共6 7 页 澎五犬掌暖一l t t 支 第二章说话人识别与语音库 主要包括两个阶段,训练阶段和识别阶段。训练时,系统的每个使用者说出若干训练语 句,系统据此建立每个使用者的模板或模型参数。识别时,由待识别人说的语音经特征 提取后与系统训练时产生的模板或模型参数进行比较。说话人鉴别时,取其与测试语音 匹配距离最小的说话人模型所对应的说话人为说话人鉴别的结果;在说话人确认时,用 测试音的模型与所声称的说话人的模型进行比较,若匹配距离小于一个规定的阀值,则 该说话人得到确认,否则,该说话人不是他所声称的那个身份。由此可见,说话人鉴别 和说话人确认在本质上没有什么区别。实现说话人识别,需要解决以下几个基本嗣题: ( 1 ) 语音信号的预处理和特征提取; ( 2 ) 说话人模型的建立和模型参数的训练; ( 3 ) 测试音与说话人模型的匹配距离计算; ( 4 ) 识别或判决策略; ( 5 ) 自适应( 可选) 。 厂址! 登j :卜 r i - 1 4 i 一竺墨! ! 竺卜| 训练if _ = 兰= 习l 遍厂它l 1li # 崩1 i 叫! 燮:卜堙至甘 图2 - 2 说话人识别系统原理图( 虚线内为可选部分) f 1 4 1 2 2 说话人识别系统框架 说话人识别系统的逻辑框图如图2 - 3 所示,包括特征提取、模型训练、模式匹配、以 及逻辑决策四个主要模块。 特征提取模块:是指用各种模拟和数字处理技术、运用软件和硬件手段,处理语音 信号,选择和提取表征语音信号的特征。说话人的模型是说话人语音特征的模型, 也就是说,说话人模型不是由语音信号得到的,而是通过从语音信号中提取特征而 得到的。测试音和训练音只有进行语音特征提取话才能进行后续处理。 、 模型训练模块:建立说话人模型的过程。说话人模型可以是单一的模板模型、矢 量量化模型( v q v t c t o rq u a n t i z a t i o n ) 2 0 、高斯混合模型( g m m g a u s s i a nm i x t u r e m o d e l ) 2 1 、隐马尔可夫模型( h m m h i d d e nm a r k o vm o d e l ) 2 2 】、人工神经网络( n n - n e u r a ln e t w o r k ) 2 3 模型、支持向量机( s u p p o r tv e c t o rm a c h i n e ) j 1 1 、动态贝叶斯网 第7 页,共6 7 页 逝江大学礁士论x 第二章说话人识别与语音库 圈2 - 3 说话人口 别系统逻辑框图 援型教 槲库 络( d y n a m i cb a y e s i a nn e t w o r k ) 2 】以及它们的混合模型。不论什么模型,模型的参数 估计和优化都在这一步骤完成。 模式匹配模块:测试音与说话人模型的匹配距离计算。说话人确认时,与所声称的 说话人的模型进行匹配和匹配距离计算:说话人鉴别时,与所有人的模型进行匹配 和匹配距离计算。这个过程实际上是进行得分计算。 逻辑决策模块:根据匹配距离的计算结果,判断说话人是否是所声称的说话人( 说 话人确认) 或说话人到底是谁( 说话人鉴别) 。 说话人识别技术中最关键的是特征提取部分和说话人模型部分。上个世纪以来,这两 方面的技术得到了长足的发展,下面我们将针对这两个方面分别给出具体的介绍。 2 2 1 特征提取 说话人识别首先要进行特征提取。声音是一种复杂的信号,它是在不同级别上进行了 不同转换后得到的结果:语义的、语言的、分节的、声学的。这些转换上的差别体现了 声音的声学属性的差异。说话人有关的差异是声道解剖学差异和后天说话习惯差异的综 合结果f 1 5 1 ,语音特征和说话人的个性特征总是交织在一起。在说话人识别中,所有这些 差异都可以作为用来区分不同的用户的特征。 特征提取( f e a t u r e - e x t r a c t i o n ) 把声音的每个片断( 1 0 - 3 0 m s ) 映射到多维的特征空 间,从而得到能表征说话人的特征向量序列。对于说话人识别,提取的特征具有下列要 求:具有高的区别用户的能力;能够充分体现用户个体问( i m e r - s p e a k e r ) 较大的差异; 第8 页,共6 7 页 浙江大学硬士论文第二章说话人识别与语音库 而对用户自身的差异( i n t r a - s p e a k e r ) 则体现的不明显。目前,主流的说话人特征主要有 美尔倒谱系数( m e l f r e q u e n c yc e p s t r

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论