




已阅读5页,还剩74页未读, 继续免费阅读
(通信与信息系统专业论文)分数阶傅里叶变换在耳语音说话人识别研究中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
苏州大学学位论文使用授权声明 本人完全了解苏州大学关于收集、保存和使用学位论文的规定, 即:学位论文著作权归属苏州大学。本学位论文电子文档的内容和纸 质论文的内容相一致。苏州大学有权向国家图书馆、中国社科院文献 信息情报中心、中国科学技术信息研究所( 含万方数据电子出版社) 、 中国学术期刊( 光盘版) 电子杂志社送交本学位论文的复印件和电子 文档,允许论文被查阅和借阅,可以采用影印、缩印或其他复制手段 保存和汇编学位论文,可以将学位论文的全部或部分内容编入有关数 据库进行检索。 涉密论文口 本学位论文属在 年一月解密后适用本规定。 非涉密论文口 论文作者签名:丛堕丝 e 1 导师签名:槛日 期: 丝! 至:= f 期:兰掣 分数阶傅单叶变换订:耳语爵说话人识别中的心用 摘要 分数阶傅里叶变换在耳语音说话人识别中的应用 摘要 耳语音作为j 下常音的补充和替代,是人们r 常生活中广泛使用的语言交流方式之 一。随着社会经济的发展,耳语音在手机通信、金融服务行业、公安司法等领域中发 挥着越来越重要的作用。在耳语音说话人识别的实际应用中,大多数参数都是建立在 j 下常语音特征参数的修j 下上,其稳健性较差,且易遭受信道的干扰,因此研究一种有 效的耳语音特征参数用于说话人识别系统是一个亟待解决的问题。另外,考虑到实际 情况下耳语音数据的采集是相当困难的,那么在无法获得充分耳语音训练数据的前提 下,如何提高耳语音说话人识别系统的性能也是值得思考的。针对以上问题,本文做 了以下几个方面的工作。 一、考虑到语音信号是时变的非平稳信号,因此本文引入了分数阶傅里叶变换 ( f r f r ) 作为语音的分析工具,它不仅适于处理非平稳信号,而且多一个参数( 阶 数) ,在语音信号处理中取得了很好的效果。 二、根据语音产生过程中的非声学现象,介绍了从共振峰调制角度来描述语音产 生的调幅- 调频( a m - f m ) 模型,并详细叙述了基于此模型的t e a g e r 能量算子、能量 分离算法和多带解调分析理论。 三、利用分数阶傅罩叶变换提取耳语音特征参数的关键问题是如何确定最优阶数 p 来达到处理的最佳效果。本文提出了一种基于瞬时频率分段线性拟合的自适应分数 阶傅旱叶变换倒谱系数( a 早r c c ) 。将这个新参数应用于g m m 的耳语音说话人识别 实验,并和基于步进搜索的分数阶傅罩叶变换倒谱参数( s - f r c c ) 、瞬时频率估计 ( 吨) 参数进行比较,结果说明新的参数可以观测到更加精细的语音结构,刻画出 更具说话人个性的特征,有效地提高了识别率和算法鲁棒性。 四、针对耳语音数据不充分的情况,引入了一个与说话人和信道均无关的通用 背景模型( u b m ) ,在此基础上训练形成g m m - u b m 说话人模型。通过实验比较, 在较少的训练数据情况下同样可以提高识别率,并且新特征a - f r c c 的效果最好。 关键词:分数阶傅罩叶变换;a m - f m 模型:能量分离;瞬时频率;自适应 作者:钱晓红 指导老师:赵鹤鸣 i f r a c t i o n a lf o u r i e rt r a n s f o r ma n di t sa p p l i c a t i o ni nw h i s p e r e ds p e a k e ri d e n t i f i c a t i o n f r a c t i o n a lf qu r i e r a c t i o n a l0 n r l e r 。1 a n di t sa p p l i c a t i o n a n s t o r ma ni t sa p p l i c a t i o ni n w h i s p e r e ds p e a k e r i d e n t i f i c a t i o n a b s t r a c t w h i s p e r e ds p e e c h ,a sac o m p l e m e n ta n ds u b s t i t u t et ot h en o r m a ls p e e c h ,i so n eo ft h e w i d e l yu s e dc o m m u n i c a t i o nw a y si nd a i l yl i f e w i t ht h ed e v e l o p m e n ti n s o c i a la n d e c o n o m i c ,w h i s p e r e ds p e e c hh a sp l a y e dam o r ea n dm o r ei m p o r t a n tr o l ei nt h ef i e l d so f m o b i l ec o m m u n i c a t i o n ,f i n a n c es e r v i c e ,p u b l i cs e c u r i t ya n ds oo n u n d e rt h ep r a c t i c a l a p p l i c a t i o ni nw h i s p e r e ds p e a k e ri d e n t i f i c a t i o n ,m o s to ft h ep a r a m e t e r sa r eb a s e do nt h e r e v i s i o no ft h ef e a t u r ep a r a m e t e r so fn o r m a ls p e e c h ,w h i c ha r ep o o ri nt h er o b u s t n e s sa n d v u l n e r a b l et ot h ei n t e r f e r e n c eo ft h ec h a n n e l s h e n c e ,i t sa nu r g e n tp r o b l e mt or e s e a r c ha n e f f e c t i v ep a r a m e t e r so fw h i s p e r e ds p e e c hf o rs p e a k e ri d e n t i f i c a t i o ns y s t e m i na d d i t i o n , t a k i n gi n t oa c c o u n tt h a ti ti sv e r yd i f f i c u l tt oc o l l e c tw h i s p e r e dd a t ai nt h ea c t u a ls i t u a t i o n , a n dt h e nh o wt oi m p r o v et h ep e r f o r m a n c eo ft h ew h i s p e r e ds p e a k e ri d e n t i f i c a t i o ns y s t e mi s w o r t hc o n s i d e r i n gi nt h ec a s eo fn o th a v i n ge n o u g ht r a i n i n gd a t a t h ec o n t r i b u t i o no ft h i s p a p e r t ow h i s p e r e ds p e a k e ri d e n t i f i c a t i o na r ea sf o l l o w s 1 t a k i n gi n t oa c c o u n tt h a tt h es p e e c hs i g n a l i st i m e - v a r y i n ga n dn o n - s t a t i o n a r y , t h e r e f o r e ,f r a c t i o n a lf o u r i e rt r a n s f o r m ( f r f t ) i si n t r o d u c e dt oa c tt h ea n a l y t i c a lt o o l so f t h es p e e c hi nt h i sp a p e r , w h i c hi sn o to n l ys u i t a b l et oh a n d l et h en o n - s t a t i o n a r ys i g n a l ,b u t a l s oh a sa n o t h e rp a r a m e t e r ( o r d e r ) a sar e s u l t ,a c h i e v i n gg o o dr e s u l t si ns p e e c hs i g n a l p r o c e s s i n g 2 a c c o r d i n gt ot h en o n - a c o u s t i cp h e n o m e n o ni nt h ep r o c e s so fs p e e c hp r o d u c t i o n ,t h e a m - - f mm o d e li si n t r o d u c e dt od e s c r i b et h es p e e c hp r o d u c t i o nf r o mt h ef o r m a n t m o d u l a t i o na n g l e t h e nt h et e a g e ro p e r a t o r , e n e r g ys e p a r a t i o na l g o r i t h ma n dm u l t i b a n d d e m o d u l a t i o na n a l y s i st h e o r yb a s e do nt h i sm o d e la l ed e t a i l e dd e s c r i p t i o ni nt h i sp a p e r 3 h o wt od e t e r m i n et h eo p t i m a lo r d e ro ff r a c t i o n a lf o u r i e rt r a n s f o r mt oe x t r a c t f e a t u r e so fw h i s p e r e ds p e e c hi no r d e rt oa c h i e v et h eb e s tr e s u l ti sak e yi s s u e t h e nak i n d o ff e a t u r eb a s e do np i e c e w i s el i n e a rf i u i n go fi n s t a n t a n e o u sf r e q u e n c y , n a m e l y , a d a p t i v e f r a c t i o n a lf o u r i e rt r a n s f o r mc c p s t r a lc o e f f i c i e n t s ( a - - f r c c ) i sp r e s e n t e di nt h i sp a p e r a p p l y i n gt h en e wp a r a m e t e r s f o rw h i s p e r e ds p e a k e ri d e n t i f i c a t i o nb a s e do ng m m , e x p e r i m e n t a lr e s u l t ss h o wt h a tt h en e wf e a t u r e sc a r lo b s e r v em o r es o p h i s t i c a t e ds t r u c t u r eo f s p e e c ha n dm o r ep e r s o n a l i z e d o fs p e a k e r s ,a tt h es a m et i m e ,e f f e c t i v e l yi m p r o v et h e f r a c t i o n a lf o u r i e rt r a n s f o r ma n di t sa p p l i c a t i o ni nw h i s p e r e ds p e a k e ri d e n t i f i c a t i o na b s t r a c t r e c o g n i t i o n r a t ea n dr o b u s t n e s s ,c o m p a r i n gw i t ht h es t e ps e a r c hf r a c t i o n a lf o u r i e r t r a n s f o r mc e p s t r a lc o e f f i c i e n t s ( s 年r c c ) a n di n s t a n t a n e o u sf r e q u e n c ye s t i m a t i o n ( i f e ) 4 b a s e do nt h es i t u a t i o nt h a tt r a i n i n gd a t ai sn o te f f i c i e n t ,a l lu n i v e r s a lb a c k g r o u n d m o d e l( u b m ) ,w h i c hi sas p e a k e r - i n d e p e n d e n ta n dc h a n n e i i n d e p e n d e n t m o d e l ,i s i n t r o d u c e dt ot r a i ns p e a k e rm o d e l sc a l l e dg m m - u b m b yt h ee x p e r i m e n t a lc o m p a r i s o n , t h i sm o d e lc a na l s oi m p r o v et h er e c o g n i t i o nr a t e i nt h ec a s eo fl e s st r a i n i n gd a t aa n dt h e n e wf e a t u r e sa - f r c cp e r f o r mb e s t k e y w o r d s :f r a c t i o n a lf o u r i e rt r a n s f o r m ;a m - - f mm o d e l ;e n e r g ys e p a r a t i o n ;i n s t a n t a n e o u s f r e q u e n c y ;a d a p t i v e r i w r i t t e nb yq i a nx i a o h o n g s u p e r v i s e db yz h a oh e m i n g 目录 第一章绪论l 1 1 研究背景和意义1 1 2 研究现状概述2 1 2 1 说话人识别研究概述2 1 2 2 耳语音说话人识别研究概述4 1 3 本文的主要工作5 1 4 本文的章节安排6 第二章耳语音的声学特性8 2 1 耳语音的发声机理8 2 2 耳语音的时频域分析l o 2 2 1 耳语音的时域分析1 0 2 2 2 耳语音的频域分析1 l 第三章分数阶傅罩叶变换( f r f r ) 1 3 3 1 傅罩叶变换1 3 3 1 1 连续傅里叶变换1 3 3 1 2 离散傅罩叶变换1 3 3 1 3 短时傅里叶变换1 4 3 2 分数阶傅罩叶变换( f r f r ) 一1 5 3 2 1f r f t 的发展进程1 5 3 2 2f r f t 的基本定义1 6 3 2 3f r f t 的基本性质1 8 3 2 4f r f t 的数值计算1 8 3 3f r f t 的相关应用。2 2 3 3 1f r f t 在l f m 信号中的应用。2 2 3 3 2f r f t 在语音信号中的应用2 5 第四章基于f r f t 的耳语音特征参数提取2 7 4 1 语音产生的a m - f m 模型2 7 4 2 瞬时频率提取算法:2 9 4 2 1t e a g e r 能量算子。2 9 4 2 2 能量分离算法3 l 4 2 3 应用能量分离算法获得瞬时频率3 3 4 3 多带解调分析3 5 4 3 1g a b o r 带通滤波器3 5 4 3 2g a b o r 带通滤波器的多带解调实验3 7 4 4 应用f r f t 提取a - f r c c 特征参数4 0 4 4 1f r f t 阶数搜索算法一4 0 4 4 2a - f r c c 的提取步骤4 l 第血章应用于g m m 的耳语音说话人识别系统4 3 5 1 高斯混合模型( g m m ) 4 3 5 1 1g m m 的基本概念4 3 5 1 2g m m 的参数估计4 4 5 1 3g m m 的识别方法4 5 5 。2 基于g m m 的耳语音说话人识别实验4 6 5 2 1 实验数据4 7 5 2 2 实验步骤与参数设置一4 7 5 2 3 实验结果4 8 5 2 4 实验结果分析5 2 第六章应用于g m m - u b m 的耳语音说话人识别系统5 4 6 1g m m - u b m 说话人模型5 4 6 1 1 通用背景模型( u b m ) 的描述5 4 6 1 2 说话人模型的自适应5 5 6 2 基于g m m - u b m 的耳语音说话人识别实验5 7 6 2 1 实验数据一5 7 6 2 2 语音的前端处理5 8 6 2 3g m m - u b m 模型的训练5 8 6 2 4 模型测试5 9 6 2 5 实验结果5 9 6 2 6 实验结果分析6 2 第七章总结和展望6 4 参考文献。6 6 攻读学位期间发表的学术论文7 l 致谢7 2 分数阶傅单叶变换n :耳语占说话人识别中的j 衄用 第一帝绪论 1 1 研究背景和意义 第一章绪论 随着现代信息化技术的高速发展,耳语音说话人识别在社会生活中扮演着越来越 重要的角色,已成为近年来备受关注的一个研究课题。同时,耳语音作为j 下常音的补 充和替代,对于耳语音说话人识别的研究也是对说话人识别系统的一种完善。 说话人识别( 也称声纹识别) 就是指根据说话人的声音信息自动识别出说话人的 身份l 。由于每个人的声道形状、喉大小和其它一些发音器官的生理差异,没有两个 人的声音是完全相同的,再加上每个人都有自己独特的说话方式,如具有特殊的口音、 节奏、语调风格、发音方式、习惯用语等,使得语音中包含有强烈的个人色彩,通过 对语音信号进行分析来识别出说话人就成为了可能。语音是人的固有属性,不会遗忘 丢失或被盗,而且采集容易,系统设备成本低,这些优势表明用语音来鉴别说话人的 身份有着广泛的应用前景。下面列写出一些说话人识别技术已经或即将应用的领域: ( 1 ) 访问控制。在一般的密码和口令中加入生物识别技术,最初只是用于物理 设备,近年来多用于控制计算机网络的访问和站点的访问( 对于订购网站的访问可以 防止密码的共享) ,还可用于自动密码重置服务。 ( 2 ) 交易验证。用于电话银行中账户的访问确认,对于机密的交易则需要更高 级别的验证信息。在新兴的电子和移动商务中,交易的完成可通过使用者的身份验证 进行确认。 ( 3 ) 公安司法。用于假释监督( 可在任何时间确认假释在家的罪犯) 和监狱的 呼叫监控( 识别出是哪个罪犯的呼叫) ,还可以利用声纹识别作为罪犯定罪的有力证 据。 ( 4 ) 语音数据管理。在语音信箱浏览或智能机中,利用说话人识别技术标记传 入的声音邮件,根据姓名进行浏览和回复;在电话会议和视频节目中,自动提取主题 和参与者的姓名、性别,并进行记录存档,方便以后的信息检索。 说话人识别技术的发展基本上是对正常音的研究进行的,然而耳语音作为正常音 第一章绪论分数阶傅罩叶变换在耳语音说话人识别中的应用 的补充和替代,是人们日常生活中广泛使用的语言交流方式之一。耳语音是一种单一 的发音类型,发音时声门前部的韧带完全靠拢,后部的杓状软骨有一个宽三角裂隙, 来自肺部的气流通过这个丌放区时产生摩擦噪声,经过咽腔、鼻腔和口腔后形成耳语 音【2 】。其主要特点是:激励源类似于随机噪声,声带不振动,没有基频,又由于是气 声发音,其能量比正常发音大约低2 0 d b 。 从我们日常生活中的听觉感知可以发现,耳语音的音量较低而且传播距离短,用 耳语发音时可以掩盖说话人的身份信息和语言信息,具有隐秘性。因此,在很多场合 下,耳语音都发挥着重要作用。在需要保持安静的场所( 如会场、音乐厅、图书馆等) , 为防止打扰他人,说话者通常会选用耳语的方式交流;在电话银行等会融服务行业中, 为了防止信息泄露,用户在进行身份验证和密码口令输入时会用到耳语音;在公安司 法和国家安全领域,为鉴别罪弛当事人的身份信息时,也常常会涉及到耳语音。 因此,耳语音说话人识别不仅可以满足一般说话人识别的应用,而且由于耳语音 中常常包含了说话人故意隐藏的信息,在公共场所的通信中、金融服务行业中的身份 验证、公安司法中的罪犯识别等广大领域中都发挥着重要作用。所以对耳语音说话人 识别的研究具有巨大的潜在价值。 1 2 研究现状概述 针对耳语音说话人识别的研究本文分别从说话人识别的研究和耳语音说话人识 别的研究进行阐述。说话人识别的研究是整个系统的实现部分,包含了说话人识别系 统的几大组成模块,了解说话人识别系统发展中的各种方法,建立合理的识别系统是 耳语音说话人识别的前提:耳语音说话人识别的研究是在说话人识别的基础上,了解 耳语音的特性,从而建立适合于耳语音的说话人识别系统。 1 2 1 说话人识别研究概述 说话人识别的研究源于2 0 世纪3 0 年代1 1 1 ,早期的工作主要是集中在人耳听辨实 验的实施和探讨说话人识别的可能性方面。随着研究手段和工具的不断改进,研究工 作逐渐脱离了单纯的人耳听辨。1 9 4 5 年,b e l l 实验室的k e s t al g 用目视观察语谱图 的方法进行识别,提出了“声纹 ( v o i c e p r i n t ) 的概念。1 9 6 2 年,b e l l 实验室的p r u z a n s k y s 2 分数阶傅坦叶变换柏:耳语爵说话人识别中的心用第一章绪论 采用模板匹配原则把三维语谱图( 时间- 频率甫邑量) 应用到说话人识别研究中。1 9 6 4 年,p r u z a n s k y & m a t h e w s 基于统计方差分析的方法进行说话人识别研究,提出了著 名的评价说话人特征参数有效性的f 比公式。 以上是对说话人识别的初步研究,之后的工作重点主要集中在反映说话人个性特 征的识别参数的提取、选择和实验上。1 9 6 9 年l u c k 首先将倒谱( c e p s t r u m ) 技术用 于说话人识别,取得了很好的效果。a t a l 将线性预测倒谱系数( l p c c ) 用于说话人 识别,提高了识别系统的精度【3 1 。d a v i s 最早提出了美尔频率倒谱系数( m f c c ) 这 一概念【4 】,因为m f c c 参数是根据人耳的听觉感知机理来划分频带的,具有较好的说 话人识别效果和鲁棒性,因此成为了语音识别中使用的主流参数。1 9 9 6 年r e y n o l d s 采用m f c c 和一阶差分m f c c 相结合( m f c c + m f c c ) 的参数进行说话人识别, 获得了较高的识别率。继而倒谱和差分相结合的参数成为了说话人识别中最为有效也 最为常用的特征参数。 2 0 世纪8 0 年代以来,说话人识别的重点转向新的说话人识别模式匹配方法上, 如动态时间规整( d t w ) 、主分量分析( p c a ) 、矢量量化( v q ) 、隐马尔可夫模型 ( h m m ) 、人工神经网络( a n n ) 以及这些方法的组合技术等。2 0 0 0 年,r e y n o l d s 对高斯混合模型( g m m ) 5 1 和通用背景模型( u b m ) 1 6 1 做了详尽的介绍后,g m m - u b m 以其简单、灵活、有效、包容性强和鲁棒性高的优点,迅速成为目前说话人识别中的 主流技术,将说话人识别研究带入一个新的阶段。 如今,很多商用的说话人识别系统已经融入到人们的同常生活中。如美国的h o m e s h o p p i n gn e t w o r k ,利用说话人确认和语音识别技术来进行电话语音的自助订货;1 9 9 9 年1 0 月,苹果公司在m a co s9 中加入声纹密码功能,以便对个人计算机的使用进行 访问控制;a t & t 公司应用v o i c e p r i n t 识别技术研制出了智慧卡( s m a r tc a r d ) ,已经 应用于自动取款机;同时a t & t 等公司正在开发新一代的v o i c em a i l 集成管理系统, 利用连续语音识别和说话人识别技术将音频形式的语音邮件转换为文本,并自动识别 发送人的名字,便于收信人浏览和恢复;m o t o r o l a 和v i s a 等公司成立了v - c o m m e r c e 联盟,希望实现电子交易的自助化,其中确定说话人的身份是该项目的重要核心技术。 国内对于说话人识别的研究起步较晚,但发展迅速。目前拥有的说话人识别产品主要 包括言丰声纹识别器、p a t t e ka s r 3 o t s p 说话人识别系统、得意声纹识别引擎和中 科信利说话人识别引擎( t s i e ) 等。 第一章绪论 分数阶傅罩叶变换矗:耳语音说话人识别中的应用 1 2 2 耳语音说话人识别研究概述 早在二十世纪六十年代,语音学家们就对耳语音进行了初步探讨 7 - 8 l 。而后,相 关领域的研究也陆续展歼。最初的研究主要集中在耳语音的基础性研究上,同本宇都 宫大学的m a s t u d a m 利用声道的电路模型,从声学角度解释了耳语音元音中第一、第 二共振峰频率略高于正常音的这现象1 9 l 。名古屋大学的i t o h t 深入分析了耳语音和 正常音之间的声学差异,并将最大似然线性回归( m l l r ) 自适应算法用于耳语音识 别,取得了较好的识别效果【l o l 。i c a t f 等人研究了土耳其语元音和耳语音在时域、频 域、能量、共振峰频率和带宽等方面的不同点【l 。为了提高耳语音的质量,m a t h u r a 提出了种新的谱比方法来检测耳语音中质量较高的语音流,继而剔除那些含有少量 谐波并带有大量噪声的语音段【1 2 】。中国南京大学声学所徐柏龄等人,根据耳语音的特 点,提出了基于听觉模型和熵函数的耳语音声韵切分法f ”4 卅并进行声调特征的研究 l l5 1 。苏州大学电子信息学院赵鹤鸣等人在听觉模型基础上,进行了汉语耳语音的端点 检测6 1 、声调检测【1 7 1 和声调特刎1 8 】的研究。 近几年来,耳语音的研究已经从早期的声学理论迈向更加实际的应用,比如耳语 音增强、耳语音转换为j 下常音、耳语音说话人识别和确认、耳语音情感分析等。在现 实环境中,耳语音的信噪比要比实验室环境更低,因此,使得耳语音说话人识别的处 理要比证常音来的困难的多。x i n gf a n 等人发现,耳语音说话人识别系统性能的降低 主要集中于若干个说话人中,继而提出了一种评价耳语音质量的方法,用该方法找到 含有较少说话人信息的差语音,然后进一步补偿这种差语音,同时保存质量较好的语 音,以此来提高系统的性能1 1 9 l 。王敏在基于调幅调频( a m 午m ) 模型基础上提取了 一种新的瞬时频率估计( i f e ) 特征,实验证明其稳健性比m f c c 要好的多 2 0 l 。南京 大学林玮、徐伯龄等人在修j 下的m f c c 参数和h m m 模型下,提高了耳语音说话人 的识别率【2 。对于非匹配环境下的耳语音说话人识别研究是一个极具挑战的课题,目 前的成果有:q i n f i n 等人对语音参数采用特征弯折技术,分别对安静和噪声、匹配 和非匹配情况下的不合作说话人进行识别,有效的提高了噪声环境下非匹配测试的识 别率i 捌;x i a o j i a n g 利用支持向量机( s v m ) 和因子分析( f a ) 技术来处理信道变异 问题 2 3 1 ,取得了好的效果:x i n gf a n 为了改善j 下常音训练,耳语音测试情况下识别系 统的性能,分别提出了修正线性频率倒谱系数( l f c c ) 参数结合特征映射的方法 2 4 1 , 4 分数阶傅卑叶变换柏:耳语爵说活人识别中的心用第一帝绪论 基于清辅音在耳语音中的重要性提取线性和指数频率尺度下新参数的方法l 2 5 1 。 从以上大量的论述中,我们看到了耳语音说话人识别研究取得了令人可喜的成 果,但同时也存在着一些不足。在耳语音说话人识别中主要还是运用了说话人识别的 技术,尤其在语音参数的研究中,大多围绕着对正常语音特征参数的修正上,如对 m f c c 参数的修正,而新的语音参数提及和研究的较少。在模型的训练和测试上,含 噪语音的情况考虑较多,但对多信道测试下,耳语音特征参数的鲁棒性讨论较少。另 外,在现实社会生活中,采集耳语音的难度要远大于正常音,在无法获得充分耳语音 数据进行模型训练的情况下,怎样有效地提高耳语音说话人的识别率是一个急需解决 的问题。因此,对于耳语音说话人识别的研究,还有很多可以继续改进和完善的地方。 本文将分数阶傅罩叶变换应用于耳语音说话人识别的研究中,来进一步探索解决这方 面的问题。 1 3 本文的主要工作 本文在耳语音说话人识别研究中主要展丌了以下几个方面的工作。 ( 1 ) 本文针对短时傅罩叶变换在处理语音这种非平稳信号时只是提供了一种 时间- 频率分辨率上的折中,不能“看到”语音的精细结构,由此引入了一种新的语 音分析工具分数阶傅里叶变换1 2 6 1 ( f r a c t i o n a lf o u r i e rt r a n s f o r m ,f r f t ) ,它是一 种广义的傅罩叶变换,适于处理非平稳信号,尤其是c h i r p 类信号。 ( 2 ) 传统的频谱参数大多是建立在语音产生的线性源虢波器模型基础上的,但 这个模型忽略了语音产生过程中的很多非声学现象1 2 7 瑚】,利用调幅调频( a m - - f m ) 模型【2 9 l 来描述语音的产生过程更为全面。从而本文介绍了一系列用于a m 午m 信号分 析的t e a g e r 能量算t 3 0 j ( t e a g e re n e r g yo p e r a t o r ) 、能量分离算法1 2 9 3 l 】( e n e r g y s e p a r a t i o na l g o r i t h m ,e s a ) 和语音的多带解调分析( m u l t i b a n dd e m o d u l a t i o na n a l y s i s , m d a ) 理论【3 2 1 。 ( 3 ) 分数阶傅罩叶变换的最大特点是有一个阶数p ,如何确定最优阶来获取最 佳的特征参数是个关键问题。本文针对目前的几种阶数搜索算法进行分析比较,并结 合语音产生的a m - f m 模型和能量分离算法,提出了一种基于瞬时频率分段线性拟合 的自适应分数阶傅罩叶变换倒谱系数( a d a p t i v ef r a c t i o n a lf o u r i e rt r a n s f o r mc e p s t r a l 第一章绪论 分数阶傅里叶变换在耳语音说话人识别中的应用 c o e f f i c i e n t s ,a - f r c c ) 。将这个新特征应用于g m m 的耳语音说话人识别系统,并和 基于步进搜索的分数阶傅罩叶变换倒谱参数( s t e pf r a c t i o n a l f o u r i e rt r a n s f o r m c e p s t r a lc o e f f i c i e n t s ,s - - f r c c ) 、瞬时频率估计2 0 1 ( i n s t a n t a n e o u sf r e q u e n c ye s t i m m i o n , i f e ) 参数进行了比较。 ( 4 ) 耳语音数据的采集是一项艰巨的任务,所以往往得不到充分的数据来训练 一个高性能的识别模型,尤其在信道失配的情况下会产生很大的影响。针对此情况, 本文引入了一个与说话人和信道均无关的高阶高斯混合模型一一通用背景模型1 6 1 ( u n i v e r s a lb c a k g r o u n dm o d e l s ,u b m ) ,在此基础上训练形成g m m - u b m 说话人模 型【6 】。将本文的新特征a - f r c c 结合s - f r c c 、i f e 输入系统进行耳语音说话人识别 实验,并和基于高斯混合模型1 5 i ( g u a s s i a nm i x t u r em o d e l ,g m m ) 的说话人实验进行 了比较。 1 4 本文的章节安排 全文分为七章,按以下顺序组织内容。 第一章,绪论。介绍了本课题的研究背景和意义,介绍了说话人识别的研究现状,并 且对当前耳语音说话人识别的研究成果和不足进行了阐述,概述了本文的主 要研究工作。 第二章,耳语音的声学特性。概述了耳语音的发声机理,分析了耳语音在时频域的声 学特性。 第三章,分数阶傅罩叶变换( f r f t ) 。首先介绍了传统傅里叶变换的一系列计算方法, 然后引入f r f t 相关的定义、性质和数值实现,对f r f l r 在线性调频( l f m ) 信号和语音中的应用作了介绍。 第四章,基于f r f t 的耳语音特征参数提取。介绍了语音产生中的非声学现象和语音 的调幅- 调频( a m - f m ) 模型,引入测度语音能量的t e a g e r 能量算子和能量 分离算法来获取信号的瞬时频率,继而介绍了多带解调分析理论,最终提出 了一种基于瞬时频率分段线性拟合的自适应分数阶傅罩叶变换倒谱系数 ( a - - f r c c ) 作为耳语音特征参数。 第五章,应用于g m m 的耳语音说话人识别系统。介绍了说话人识别的经典模型 6 分数阶傅单n i 变换以:耳语爵说话人识j j u 中的心用第一章绪论 高斯混合模型( g m m ) ,在g m m 的基础上,设计了多信道环境下,不同测 试时问和不同人数的耳语音说话人识别实验,将a - f r c c 特征和基于步进搜 索的分数阶傅罩叶变换倒谱参数( s - f r c c ) 、瞬时频率估计( i f e ) 参数进 行了比较,并对实验结果做了分析。 第六章,应用于g m m - u b m 的耳语音说话人识别系统。介绍了通用背景模型( u b m ) 和说话人模型g m m - u b m ,在训练数据不充分的情况下,进行了不同信道、 不同测试时间和不同人数的耳语音说话人识别实验。比较了a - f r c c 、 s - - f r c c 、i f e 特征参数在不同说话人模型g m m - u b m 和g m m 下的实验结 果,并对实验结果做了分析。 第七章,总结和展望。总结了本文的研究工作所取得的成果,并提出了本文还存在的 不足之处以及今后的研究方向。 7 第二二章耳语肾的声学特性分数阶傅罩叶变换在耳语爵说话人识别中的应用 第二章耳语音的声学特性 2 1 耳语音的发声机理 人的发音器官主要由肺、喉( 包括声带) 、声道三个部分组成【3 3 1 ,它们共同形成 了一条形状复杂的管道。在发声机制中,产生语音的能量来源于正常呼吸时肺部呼出 的稳定气流,气流经过气管输送到喉部。喉将来自肺部的气流调制成周期脉冲或者类 似于随机噪声的激励声源,并将其送入声道。声道通过形状的不断改变,对声源的频 谱进行整形润色,最后在嘴唇处的气压变化就形成了可传播的声波,被人感知为语音。 肺的功能在于吸入和呼出空气,它相当于一个动力源。当吸入空气时,胸腔的体 积增大,肺内的气压降低,导致空气通过声道和气管进入肺部。当呼出空气时,胸腔 的体积减小,肺部的气压增大,迫使空气通过气管流向喉部。 喉是连接肺部和声道的一个纽带,它是由软骨、肌肉和韧带组成的微小而又复杂 的系统,喉在发声中的作用是控制声带( v o c a lf o l d s ,v o c a lc o r d s ) 。声带是可以在喉 的前后之间伸展的两片带有肌肉及韧带的组织。两片声带之间的裂缝称为声门。声门 的大小受杓状软骨和声带肌的控制,声门的打开和闭合由声带控制,开闭动作主要由 甲杓肌、环杓后肌、杓横肌、杓斜肌、环杓侧肌和环甲肌来调节,如图2 1 为喉部的 肌肉结构图。来自肺部的气流经过声门时,产生各类调制气流,也就是声源,因此, 声学意义上真正的语音激励就是在这个部位产生的。 声道是从声门到嘴唇的呼气通道,包括咽腔,鼻腔和口腔,声道中各器官对语音 起调音作用。人在说话时,声门处气流冲击声带产生振动,通过声道响应形成语音。 由于发不同的音时,声道的形状不同,所以能够听到不同的语音。 由上所述可见,声门、声带和声道是对发音起决定性作用的器官。一般来说,声 带主要有以下四种状态,如图2 2 所示。图( a ) 是一般呼吸状态,声门打开;图( b ) 处于深呼吸状态,声门打开幅度更大;图( c ) 是耳语发音状态,声带基本闭合,但 杓状软骨之间有一个三角形裂隙,肺部的气流通过这个开放区产生摩擦噪声:图( d ) 是j 下常发音状态,声带闭拢,肺部的气流被阻断,在声门下聚集到一定压力后声门再 次打开,如此反复声带不断开闭形成连续振动,肺部气流由此变成一段段类似于周期 8 分数阶傅掣叶变换n :耳语音说讯人识j 】| j 中的心用第二章耳语爵的声学特性 脉冲的喷流。 从声门和声带的不同运动状态来看,耳语音和j f 常音的发音区别主要集中在喉部 的形态差异上。f 常音的声母部分发音时,声道某处有一定阻碍,韵母部分发音时, 声道没有阻碍,声带相对靠拢,形成窄缝声门,如图2 2 ( d ) 所示,气流从窄缝挤出 时引起声带振动,形成准周期的脉冲串声源,通过声道谐振形成共振峰。耳语音的清 擦音、塞擦音和塞音声母部分与j 下常音的发音方式没有大的差异,而韵母部分发音时, 声门保持半丌状态,声门前部完全靠拢,后部的气声门有一个宽三角裂隙,如图2 2 (
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 ISO/IEC 24760-2:2025 EN Information security,cybersecurity and privacy protection - A framework for identity management - Part 2: Reference architecture and requirements
- 2025秋统编版三年级(2024)新教材语文上册《手术台就是阵地》练习题及答案
- 编织品耐候性测试技术改进考核试卷及答案
- 稀土离子浮选回收工艺考核试卷及答案
- 兴趣点地理信息采集员5S管理考核试卷及答案
- 建筑五金制品制作工三级安全教育(公司级)考核试卷及答案
- 信息技术考试题及答案
- 服务心理学(第四版)课件 项目三 任务二 转变角色意识
- 马克思主义基本原理核心考点综合测试卷
- 银行押韵员面试题及答案
- 玻璃体切除手术护理查房
- 第三届全国大学生未来农业律师大赛试题
- 审批及决策流程管理制度
- 泌尿系结石 课件
- 物业投标书样本
- 【组织沟通障碍及其对策探究-以A企业为例12000字(论文)】
- 殡葬礼仪服务投标方案(技术方案)
- 血液灌流治疗癌症的原理与前景
- 2024年四川能投宜宾市叙州电力限公司招聘高频考题难、易错点模拟试题(共500题)附带答案详解
- -广告制作报价单-明细
- 屁屁辅助脚本
评论
0/150
提交评论