(计算机应用技术专业论文)vq声纹识别算法的研究.pdf_第1页
(计算机应用技术专业论文)vq声纹识别算法的研究.pdf_第2页
(计算机应用技术专业论文)vq声纹识别算法的研究.pdf_第3页
(计算机应用技术专业论文)vq声纹识别算法的研究.pdf_第4页
(计算机应用技术专业论文)vq声纹识别算法的研究.pdf_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 说话人识别是指通过对说话人语音信号的分析和特征提取,从而确定说话人是否在 所记录的说话人集合中,进而确定说话人是谁的过程。随着计算机技术和信息化社会的 发展,说话人识别技术越来越受到重视。 目前在说话人识别中,要提高识别率有两个重要问题需要解决:一是如何选取能够 有效表征说话人特征的可靠参数;二是如何选取最佳的失真测度,使计算简单可靠。本 文对v q ( v e c t o rq u 卸t i z a t i o n 矢量量化) 识别算法失真测度的选取方面做出了初步探讨, 做了以下几个方面的工作: 1 本文介绍了一种新算法,将算法中定义的平均自差异函数、平均互差异函数 以及平均互一自差异比函数计算所得到的值应用到w d m v q 算法的加权系数中。 本文对分别采用平均自差异值、平均互差异值、平均互一自差异比值加权系数 时的算法以及传统算法进行了大量的对比实验。 2 在加权系数的计算中加入经验值,重新定义了平均自差异函数、平均互差异 函数以及平均互一自差异比函数。以期望加入经验值后的加权系数能更准确地 反映各维分量的离散度。对函数中使用的经验值进行了讨论,把说话人识别 中各倒谱分量的相对重要性理论作为经验值选取的依据。实验证明使用加入 经验值后所得到的加权系数的w d m v q 算法时间鲁棒性更好。 关键词:说话人识别特征参数矢量量化w d m v q a b s t r a c t t h es p e a k e rr e c o g i t i 彻i st h ep r o c e s s i n go fa u t o m a t i c a l l yr e 。0 9 n i t i o nw h e t h e rt h es p e a k e ri t 1 1 es p e a k e r sw h j c hr c c o r d sg a t h e f s ,t h e nd e t e 瑚i n e dw h o t h e 印e a k c ri s ,b ya n a l y z j n gt l l e s p e a k e r sp m n u n c i a t i o ns i 印a l s a i l dp i c k i n gu pt h e s p e a l 【e r s c h a r a c t e r j s t i c w i i ht h e d e v e l o p m e n to fc o m p u t e rt e c h n o l o 斟锄di n f o i m a t i o nb a ds o d e 吼n l es p e a k e rf c c o 印i t i o nt e c h n o l o g y f e c e i v e sm o r ea n dm o r ea t t e m i o n c u 玎c n t l yi nt h ef i e l do fs p e a k e rr c c 0 印i t i o n ,t h e r ea r cm oi m p o n 粕tq u e s t i 叫sn e e dt o s o l v ef o rt h ee l l h a n c e m e n to fr e c o g n 谢o r a t e o n ei sh o w | os e l e c tm o r ee f f c d i v ea i l dm o r e r e l i a b l es p e a k e rc h 盯a c t e r i s l i c ,t h e0 t h e ri sh o wt os d e dt h eb e s td i s t o r t e dm e a s u r e t h i s a n i c l eh a sm a d et h ed i s c u s s i o ni nl i g h to ft l l i s ,a n dm a d ef 0 o w i n ga s p e c t si m p r 0 v e m e n t 卸d r e s e a r c h 1 2 t h i sa n i c l ei n t r o d u c e san e wa 1 9 0 r i t h mt h a tc o u l db e t t e rd e s c r i b et h es p e a k e rv o i c e c h a r a c t e r i s t i c sf i n es t m d u r ei nt 1 1 ec h a r a c t e f i s t i cs p a c e a i l du s et h i sa 1 9 0 r i t mi n t l l cw d m v q s y s t e m a m di nt l l ea n i c k ,w eh a sd o n em a s s i v ec o n t r a s t se x p e r j m e n t 1 i lt l i e m p u t a t i o no fw e i g h t i i l gc o e m c i e n tw eu s et l l ee m p i r i c a lv a l u e a n dt h i s a n i c l er c d e f i n e st h ef u n c t i o ns ot h a tw ec o u l de x p e c tt h ew e i g l l t i j l gc o e m c i e n tm a y b ea b l et 0a c c l l r a t e l yf e n e c tt b ed i v e r g e n c cl e a v e s0 fe a c hc o m p o n e n t a n dh 髂u s e d t l l et h e o r ) ,o ft l l ei m p o n a i 戕o ft l l em f c c 斑t l l ed i s c u s s i o no ft h ee m p i r i c a lv a l u e a i l dw ec a r r yo nt h ed i s c u s s i 0 o fw h c m e ft od i s c a r dt h es e c o n dc o m p o n e n to f m f c c n ee x p e 矗m e n tr c s u l t sp r o v et h a tw d m v qw i t hn e ww e i 曲t i n gc o e f f i c i e t i s b e t e l k e y w o r d :s p e a k e rr e c o g m o nf h t u r e 肼i 肿e t e r v e c t o ri i u a n t i z a t o n( v q ) w d m v q 创新性声明 y8 5 9 0 7 1 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他 人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或其它教育机构的 学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文 中做了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:趣玺日期! ! :壁:兰兰 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在校 攻读学位期间论文工作的知识产权单位属西安电予科技大学。本人保证毕业离校后,发 表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。学校有权保留送交论 文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内容,可以允许采 用影印、缩印或其它复制手段保存论文。( 保密的论文在解密后遵守此规定) 本学位论文属于保密在一年勰密后适用本授权书。 本人签名:趣垩 铷签名:粒 日期! ! :! :三! 日期鱼:! :兰) 第一章引言 第一章引言 1 1 论文研究背景 说话人识别( s p e a k e rr e c o g i l i t i o n ,s r ) 技术是一项通过对说话人语音信号的 分析和特征参数的提取,从而自动识别说话人身份的技术【“。说话人识别亦称之 为声纹识别。 在上世纪3 0 年代国外已经开始了对声纹认证的研究【2 】,主要是人耳听辨实 验。真至1 9 6 2 年b e l l 实验室的【g k e s t a 开始目视观察语谱图进行认证, 提出了“声纹( v o i c e p r i n t ) ”的概念。随着电子技术和计算机技术的发展,使通 过机器自动认证人的声音成为可能。刚年底,b e l l 实验室的s ,p r u z a n s k y 提出 了基于模式匹配和概率统计方差分析的声纹认证方法,从而引起信号处理领域许 多学者的注意,形成了声纹认证研究的个高潮。1 9 6 4 年p r u z a n s k ya n dm a t h e w s 利用方差分柝法进行研究,提出了重要的用于衡量特征参数有效性的f 比值公 式。同时,b e c k e r 等人采用自适应系统对声纹确认进行研究,从此声纹认证明确 分成确认和辨认两大研究方向。g 1 e n n 等研究了基于鼻辅音的说话人辨认研究, l u c k 首先将基频、倒谱技术与最邻近判别准则结合应用于说话人确认研究。a t a l 根据基频随时间变化的规律,用统计技术对基频参数进行主分量分析,选择代表个 人明显特征的参数用于说话人认证,使认证系统性能有了较大提高。 在实际应用中,美国国家安全局是应用声纹认证技术最早的部门,其安全系统 在上世纪7 0 年代就应用了移动电话声纹认证技术。现在美国的声纹认证技术在 金融领域的应用极其广泛。2 0 0 4 年美国电话电报公司最大的银行自动出纳机制造 商n c r 分部,开始在若干银行中试验自动出纳机的声纹核实效果,该出纳机使用 装有声纹认证程序的微处理机和存储芯片。同年5 月美国b e e p 2 c a r d 公司发明了 一种带有特殊安全功能的信用卡,这种信用卡只有在认出主人声音确认身份后才 能正常操作。欧洲在声纹认证的应用上也处于全球领先阶段,1 9 9 8 年欧洲电信联 盟开始在电信、金融领域应用声纹认证技术,完成了c a v e ( c a l l e rv e r i f i c a t i o n i nb a n k i n ga n dt e l e c o 嗍u n i c a 2 t i o n ) 计划,同年启动p i c a s s o ( p i o n e e r i n g c a l la u 2 t h e n t i c a t i o nf o rs e c u r es e r v i c eo p e r a t i o n ) 计划。还有一些商务认 证系统包括t n e t i x 公司的s p e a k f 7 、i t t 公司的s p e a k e r k e y 等。 目前,我国在这一领域的基础研究刚刚起步,一些专家、学者和科研单位正致 力于开发具有自主知识产权技术的研究,主要有北京大学信息中心、南京大学、中 国科学院自动化所和清华大学自动化系等单位。 v q 声纹识别算法的研究 1 2 说话人识别的应用领域 与其他生物识别技术,诸如指纹识别、掌形识别、虹膜识别等相比较。声纹识 别除具有不会遗失和忘记、不需记忆、使用方便等优点。其主要应用领域包括以 下几方面i 2 7 l : ( 1 ) 说话人核对:包括电话预约业务的声音确认转帐、汇款、余额通知、股 票行情咨询等。 ( 2 ) 搜索罪犯:判断犯罪现场记录的声音是多个嫌疑犯中的哪一个人的声音, 有时可能嫌疑犯中不包有真正的罪犯,此时常常需要将说话人辨认与确认合起来。 ( 3 ) 医学应用:如使声纹识别系统响应患者的命令,从而实现对机器假肢的控 制等。 ( 4 ) 军事领域应用:通过电子侦听,在众中信号找出侦听对象信号:通过语音 辨别确认己方指挥员的命令而不致为敌方查假信号所欺骗。 1 3 论文组织结构 本论文对v q 识别算法失真测度的选取方面做了初步探讨。 本论文的组织结构如下: 第一章引言。介绍了说话人识别以及其研究历史,应用领域和本论文的工作 及论文的组织。 第二章说话人识别的技术简介。对说话人识别的概念、识别的系统结构、识 别的关键技术以及识别的性能评价等做一些简单介绍。 第三章特征参数的提取。主要介绍了时域特征中的基音频率、过零率、短时 能量和短时平均幅度、明亮度和频域特征中的l p c 、l p c c 、m f c c 。 第四章矢量量化。介绍了矢量量化的基本原理、矢量量化器的码本设计。 第五章距离加权矢量量化算法实现。主要介绍了所实现的w d m v q 算法的理 论基础,并介绍了算法的实现步骤。研究了m f c c 各维分量的相对重要性,并将 此理论运用到对传统的v q 识别方法的改进中。 第二章说话人识别技术简介 第二章说话人识别技术简介 说话人识别是从说话人所发语音中提取出说话人是谁的过程,为此,需从各 个说话人的发音中找出说话人的个性差异,它涉及到说话人发音器官上的个性差 异、发音声道之间的个性差异、发音习惯之间的个性差异等不同级别上的差异, 因此说话人识别是一个跨学科的综合性应用领域,它涉及到语音学、语音信号处 理、模式识别与人工智能等学科。本章对说话人识别的概念、识别的系统结构、 识别的关键技术及识别的性能评价等做一些简单介绍。 2 1 说话人识别的基本概念 说话人识别可分为说话人辨认( s p e a l 【e d e n t i f i c a t i o n ) 和说话人确认( s p e a k e r v e r i f i c a t i o n ) 两类。说话人辨认是通过一段语音确认说话人身份的过程,在说话 人辨认中,需要将待识别的语音和已知人群中的每一个人的特征逐一进行比较, 从中辨别出说话人,系统的决策选择数目为说话者的数目,因此,说话入辨认系 统的性能是随说话人集合的规模增大而降低。说话人确认是证实某一说话人是否 是其所声称的身份的过程。在说话人确认中,只需将待识别语音与注册说话人自 己的模型比较,以确定是否是注册者本人的声音,系统只需要给出接受或拒绝两 种选择,它只是一个肯定与否定的问题,属于二选一的问题。因此,说话人确认 系统的性能是与说话人集合的规模无关。 上面定义的说话人辨认有一个隐含的先决条件,即已经假定测试的语音信号 来自给定的说话人集合s 中的一个元素,这样的识别被称为闭集( a o s e t - s e t ) 的 说话人辨认。与闭集的说话人辨认不同的是,对于开集( o d e n s e t ) 的说话人辨 认,测试语音有可能不来自集合s 中的任何一个说话人。开集的说话人辨认不但 要从集合s 中找到最相似的说话人,而且要判断测试语音是否真正属于这个最相 似的说话人。显而易见,闭集辨认的结果要好于开集辨认,但开集辨认与实际情 况更为一致,开集辨认是闭集辨认同说话人确认的结合。 根据对训练和测试语音内容的要求不同,还可以将说话人识别分为与文本有 关( t c x t d 印e n d e n t ) 的说话人识别和与文本无关f r c x t 。i n d e p e n d e n t ) 的说话入识别。 与文本有关的识别系统要求用户按照规定的内容发音,并根据特定的发音内容建 立精确的模型,从而达到较好的识别效果,但系统需要用户配合,如果用户的发 音与规定的内容不符合,贝无法正确识别该用户。而与文本无关的识别系统则不 规定说话人的发音内容,因而要建立精确的模型较为困难,识别效果较差。一般 来讲,与文本有关的系统的正确识别率要高于与文本无关的系统。与文本无关的 v q 声纹识别算法的研究 系统也需要更多的语音数据来更准确的提取与说话人有关的信息。 2 2 说话人识别系统的组成 建立和应用一个说话人识别系统可分为两个阶段,即训练( 注册) 阶段和识别 阶段1 3 】。 在训练阶段,系统的每一个使用者说出若干训练语料,系统根据这些训练语 料,通过训练学习建立每个使用者的模板或模型参数参考集。而在识别阶段,把 从待识别说话人说出的语音信号中提取得特征参数,与在训练过程中得到的参考 参量或模型模板加以比较,并且根据一定的相似性准则进行判定;对于说话人辨 认来讲,所提取得参数要与训练过程中的每一个人的参考模型加以比较,并把与 它距离最近的那个参考模型所对应的使用者辨认为是发出输入语音的说话人。对 二f 说话人确认而言,则是将从输入语音中导出的特征参数与其声音为某人的参考 量相比较。如果两者的距离小于规定的阈值,则予以确认,否则予以拒绝。图2 - 2 给出了说话人识别系统的框图。 语音辅入 困 图2 一l说话人识别系统框图【3 】 识别结果 - - 2 3 说话人识别的关键技术 2 3 1 说话人识别的特征参数 人和计算机能够根据语音信号将说话人识别出来,是因为语音信号中包含了 与说话人有关的信息。首先,语音信号中包含了与说话人有关的一些高级信息 ( h i g h 1 e v c ii n f o 册a t i o n ) 。如方言、遣词用旬特点、说话的习惯风格等。这些高 级信息是人类区分不同说话人的主要依据,也是说话人识别系统最理想的特征参 数。但是由于目前的技术水平还不能模仿人的这种能力,也找不出这些高级信息 同语音参量之间的定量关系,所以它们还不能在自动说话人识别系统中得到应用。 除了上述高级信息外,还有一些低级信息( b w 1 e v e lh l f o m a t i o n ) 。不同人 的发声器官的生理结构有所差别,在不同的环境中成长的人即使发同一个音时发 声器官的动作也不尽相同。这种能够表征说话入的信息,是通过共振峰频率及带 宽、平均基频、频谱基本形状等这些物理可测量的参数特征表现出来的。 特征参数对于不同的说话人应该是有差异的,这种差异称为话者间的差异 第二章说话人识别技术简介 ( i n t e r s 口e a l 【e rv a r i a n c e ) 。话者间的差异是由说话人不同的声道特性产生的,正是 这种差异将不同的说话人区分开来。另外还有一种差异称为话者本身的差异 ( 1 1 l t r a s p e a k e rv h r i 锄c e ) 。人不能将一句话或一个单词完全一致的重复两次,两者 之间总是有差异的。这种差异主要是由说话人的速率、说话人的情绪、说话人周 围的环境、录音设备和传输信道的失真等因素引起的。总的说来从语音信号中提 取出的特征参数应满足以下准则: 1 ) 对局外变量( 例如,说话人的健康状况、情绪、系统的传输特性) 不敏感。 2 ) 能够长期的保持稳定。 3 ) 可以经常表现出来。 4 ) 易于对之进行测量。 5 ) 与其它特征不相关。 但是,同时满足以上的特征通常不易找至4 ,一般要采取一些折衷措施。 2 3 2 说话人识别的方法 说话人识别方法大致有以下几种【4 】【5 l 【6 】: 1 ) 基于模板的说话人识别 2 ) 基于v 0 的说话人识别 3 ) 基于g m m 的说话人识别 4 ) 基于h m m 的说话人识别 5 ) 基于人工神经网络( n n ) 的说话人识别 以上这些方法并不是相互独立的,在实际应用中它们常常互相结合,构成更 高效的说话人识别方法。随着计算机技术和数字信号处理、人工智能等的不断发 展,各种识别技术不断完善。在矢量量化技术方面,量化方法的鲁棒性及改进算 法都有一定的进展。高斯混合模型的研究包括模型参数估计方法的改进和减少模 型运算量复杂度的研究。在神经网络方面,大人群的识别,级联神经网络都是研 究的热点。 2 4 如何评定说话人识别系统性能的好坏 一个说话人识别系统的好坏是由许多因素决定的。其中主要是正确识别率、 训练时间的长短、识别时间、对参考参量存储量的要求、使用者使用的方便程度 等,实用中还有价格因素。如果训练时间过长会造成用户的厌烦情绪,而且识别 时问过长在某些场合是不能接受的;但这往往又与系统的其它性能要求相矛盾, 因此需要在设计中加以折衷。 对于说话人确认系统来说,表征其性能的最重要的两个参数是错误拒绝率及 错误接受率。根据使用场合的不同,这两类差错造成的影响也不同。比如在非常 v q 声纹识别算法的研究 机密的场所的进入控制下,应该使错误接受率尽量低,以免非法进入者造成严重 后果,一般要求错误接受率在千分之一以下,这样即使错误拒绝率会有所上升, 也是可以通过一些其它的辅助手段加以弥补。在大量使用者利用电话访问公共数 据库的情况下,由于缺少对使用者环境的控制,错误拒绝率过高会造成用户的不 满,而错误的接受也不至于引起严重后果。这时可以把错误拒绝率定在百分之一 以下,同时相应的错误接受率会略有上升。 说话人辨认与说话人确认的不同还在于说话人辨认系统的性能与用户数相 关。因为它是通过把输入语音的特征与所存储的每个合法者的参考模型相比较, 所以当用户数增多时,不仅处理时间变长,而且个别用户之间变得难以区分,即 差错率变大。而对于说话入确认系统来讲,其差错率是不会随用户数的增加而变 化。对其而言,能够容纳的用户数是由存储量来决定的。 同时由于人的语音会随着时间的变化而变化,而且会受到健康和情感等因素 的影响,所以随着训练时间与使用时间间隔的加长,系统的性能肯定会有所下降。 为了维持系统的性能,一种办法是在训练时使用来自不同的时间的语音样本,比 如相隔几天或几周。但这样会加长训练时间,而且这也是难以做到的,因为用户 很难接受这样的安排。另一种解决办法就是在使用过程中不断更新参考模型,比 如,在每次成功地识别以后,即把当时说话人的语音提取所得到的特征按照一定 比例加入到原来的参考模板中去,以保证对使用者说话状态的跟踪。 第三章特征参数的提取 第三章特征参数的提取 确定说话人识别系统性能的两个最主要的因素:语音信号的特征提取和识别 模型。如何选取能更好地表征说话人的特征参量也是说话人识别系统面l | 每的基本 问题。 说话人识别系统中的特征检测即提取语音信号中表征人的基本特征,此特征 应能有效地区分不同的说话人,且对同一说话人的变化保持相对稳定。考虑到特 征的可量化性、训练样本的数量和系统性能的评价问题,目前的声纹识别系统主 要依靠较低层次的声学特征进行识别。说话人特征大体可归为下述几类1 2 j : 1 ) 基音轮廓、共振峰频率带宽及其轨迹:这类特征是基于发声器官如声门、 声道和鼻腔的生理结构而提取的参数。 2 ) 谱包络参数:语音信息通过滤波器组输出,以合适的速率对滤波器输出抽 样,并将它们作为声纹识别特征。 3 ) 线性预测系数:使用线性预测系数是语音信号处理中的一次飞跃,以线性 预测导出的各种参数,如线性预测系数、自相关系数、反射系数、对数面积比、 线性预测残差及其组合等参数,作为识别特征,可以得到较好的效果。主要原因 是线性预测与声道参数模型是相符合的。 4 ) 反映听觉特性的参数:模拟人耳对声音频率感知的特性而提出了多种参数, 如美尔倒谱系数、感知线性预测等。 其中1 ) 属于时域的特征参数,2 ) 、3 ) 、4 ) 属于频域的特征参数。 此外,人们还通过对不同特征参量的组合来提高实际系统的性能,当各组合 参量问相关性不大时,会有较好的效果,因为它们分别反映了语音信号的不同特 征。下面本文将对时域及频域的常用特征参数做简要的介绍。 3 1 时域特征参数 3 1 1 基音 基音频率f o 是与声带振动直接相关的重要参量。基音变化范围很大,汉语 统计资料表明成年或老年男子f o 大约为7 0 h z ,而青年女子可达4 5 0 h z 左右, 几乎有三个倍频的变化。基音还受肌肉、软骨的张弛程度影响。下图为不同发音 人发同一音时的基音轨迹,从下图中可以看出不同人的基音轨迹差别较大,发“9 ” 时不但基音频率不同,曲线弯度差别也很大【捌。 v q 声纹识别算法的研究 3 0 0 出2 0 0 、 1 0 0 出2 0 0 、 1 0 0 0 i 02 03 04 0 5 0 t n s 图3 一l3 名说话人数字l 发音的基音轨迹【2 6 】 t m 8 图3 23 名说话人数字9 发音的基音轨迹【2 6 j 首先将整段语音讯号经语音讯号前处理后,针对每个音框做自相关演算,并 经由中央滤除器( c e n t e rc l i p p i n g ) 将中央原点附近的噪声滤除,此时相邻蜂点 在时间轴的距离,即为基频的倒数。最后累积所有音框的基频,便可得到整个语 音讯号的基频分布图。求取基音频率的过程如图3 3 所示。 3 1 2 短时平均过零率 单位时间内过零发生的次数称作短时过零率,其定义如下: z 。一i s 印b o ) 卜s 印降。一圳w o 一搠) - i s 肼b o ) 卜s 鲷卜。一1 ) 】1 w o ) ( 3 一1 ) 其中,s g n x 是取符号函数,它和窗函数w ( n ) 的定义如下 s 酬一仁,黜忡彤拼蒜f 肌d z , 由定义可以看出,短时过零率对噪音的存在非常敏感,如果背景中有反复穿 第三章特征参数的提取 越坐标轴的随机噪声,那么会产生大量的“虚假”的过零,影响计算结果。 因此修正过零率的定义,加入门限的定义,如图3 4 所示。 ( t ) 语音信号圈 ( c ) 游除中央微弱信号詹 f b ) 游除中央徽弱f i 母前 图3 3 基音周期的提取过程示意图 :! :i 挖一 如冗- l 一i j 蕊¥划m 一蚺 9 图3 4 加门限后的过零率定义示意图 设一个门限值itl ,将过零的定义修正为穿越正负门限,带门限的过零率计算 公式为 z 。一妻 s 鲫p o ) 一引一s 印k 伽一1 ) 一z + i s 缈陋( 蚪) + r 卜s g n 【x 伽一1 ) + f i ( n ) ( 3 4 ) 这样,噪音信号的震荡只要不超过门限间的区域,就不会对真实的过零率产 生影响。 1 0 v q 声纹识别算法的研究 3 1 3 短时能量和短时平均幅度 能量是语音的一个重要特性,清音的能量较小,浊音的能量较大。对语音能 量的分析主要集中在短时能量和短时平均幅度上。 短时能量的定义如下 e ;妻b 沏) w o 一川) 】2 ;“蓼( m ) 吣一胁) 】2 ( 3 5 ) 其中,w ( n ) 是窗函数,n 是窗长。 令_ i l o ) - w 2 0 ) ,则上式变为 e 。* b 2 ( 埘) w 2 0 m ) 】一工2 ( 埘) _ h o 一小) - x 2 0 ) o ) ( 3 6 ) 上式有更好的物理含义,我们可以将短时能量看作语音信号的平方通过一个 冲激响应为h ( n ) 的线性滤波器后的输出。 由于计算能量时对语音信号取平方运算,因此短时能量对高电平信号很敏感。 为此采用另一种度量方法,称作短时平均幅度,其定义如下 j l f 。一) 一所) 一) w ( 一) i ( 3 7 ) 但是,在清音和浊音的区别上,短时幅度的电平差不如短时能量明显。 3 1 4 明亮度 同样一句话,往往会由于说话人的情感不同,其意思和给听者的印象就会不 同,所谓“听话听音”就是这个道理【1 2 j 。传统的语音处理系统多着眼于语音词汇传 达的准确性,而忽略了包含在语音信号中的情感因素。 传统的语音处理系统只是反映了信息的一个方面,而忽略了与知识世界相对 应且具有同等重要地位的感性科学世界,这其实也是信息处理的一个重要组成部 分。近几年来,语音识别与合成技术在语音分析、自然语言处理、信号处理、随 即过程处理等方法的推动下获得了很大的发展。但从语音信号中提取情感特征, 分析人的情感与语音信号的关联,只是国内外刚刚兴起的研究课题。 明亮度就是情感语音特征的一种。明亮度定义为低频能量和高频能量的比值, 用以反映语音的清亮特性。 明亮度( b r i g h t n e s s ) 主要应用在较特殊的声音上,像是风声、关门声、笑 声、动物声等等【1 3 】【1 4 】【1 5 】。明亮度主要计算每个音框的频谱( s p e c t r u m ) 强度的质 量中心,声音越明亮,高频的份量就越大,因此其质量中心( 即平均频率) 也越 大,反之,则质量中心越小。 第三章特征参数的提取 3 2l p c 及l p c c e p 特征参数 3 2 1 线性预测系数l p c l p c 为用线性预测法分析语音时得到的有关语音相邻样值间某些相关特性的 参数组。线性预测分析基于如下的基本概念,即一语音样本值能用过去若干语音 样值的线性组合来近似估计。按在某分析帧( 短时) 内实际的各语音样本与各预测 得到的样本间差值的平方和最小准则,可以决定唯一的一组预测系数,即l p c ( 语 音短时自相关系数) 。l p c 特征参数提取的方法如下: 1 ) 将语音分成序列的音框( f r a m e ) 处理语音信号这种不固定周期式的信号时,最好先将其分段处理,把每一段 当成一个固定周期的信号。因此提取特征参数前,需先把语音信号分成一小段的 序列( 称为语音帧) ,而且帧与帧之间可以有部分重复。举例来说,如果帧长为3 0 0 点,两个帧之间的距离为1 5 0 点的话,那么第2 帧的起始就是第1 5 0 点,第3 帧就应 由第3 0 0 点开始,依此类推。 所谓短时段语音分析就是将一帧中的语音信号作分析,以一帧为单位,求出 此时的语音特征参数。若将此组特征参数是为一个向量,则一串帧即可得出一串 的特征向量,各参数沿着时轴的变化,就可以明显的沿着音框看出来 高频滤波器的处理 语音从嘴唇发出后,会有高频的损失为了弥补这些损失,我们把每一个音框 内的语音讯号,用下面的高频滤波器来加强高频成分: y z ) 。( z ) x ( z ) 。( 1 0 9 豫4 ) ( z ) f 3 8 1 小】。趣珂卜o9 撕m 1 玉旭s2 9 9 h 0 1 4 o 】 ( 3 9 1 如果在时域上来看,原取样值通过高频滤波器后变成将各个音框乘上汉明窗口 ( h 枷m i n gw i n d o w ) 圳- o 小s 螂【高卜以一t们 其中的n 值代表音框大小 3 1 为了让各个音框在频谱上的能量更集中,我们将每个音框内的取样值再乘 上一个汉明窗口,汉明窗口的方程式为: 觅n 】= y m l j l m 】,拧一o 工,2 9 9( 3 1 1 ) 如果一个音框内的取样点重新编号为o ,l ,2 ,3 ,2 9 9 ,而各取样点的值假设为 y 【n 】,n = 0 ,1 ,2 9 9 ( y 【n 】是已经用高频滤波器处理过的讯号) 的话,那么乘上汉明 窗口后,所得到的值为: v q 声纹识别算法的研究 4 1 替每个音框求出一组线性预测系数 特征参数是以音框为单位,每个音框皆可求一组特征参数,求倒频谱特征参 数前,需先求出另一组线性预测系数( u n e 盯p r e d i c t i v e c o e f f i c i e n t ,简称:l p c ) 出来。 线性预测的基本原理,是假设目前的声音取样值,可由在前面的p 个取样值 以线性组合来预测,这个假说是很合理的,因为大部分的语音讯号都具有周期性, 然而,预测还是会有误差产生,所以线性预测的公式为: 贝n 】t 罗口【七】贝h 一| 】+ b 【以】 ( 3 1 2 ) 嗣 其中的a k 即称为线性预测系数,共有p 个,p 值可以自己决定。 e 一d n 】2 我们的目的是希望对一个音框内的所有取样值,求出一组线性预测系 数,而这组线性预测系数能使误差的能量和达到最小( m i n i l l l i z e ) ,亦即希望求出 下式的最小值:e = 芝( 觅”】一砉n 吲歹砷一】) 代换后得 求解最小值的问题,可以用数学上偏微分的方法来解,而最后求出来的结果 为: ,【0 】 r 【1 】 r 【2 】 r 【p 一1 】 ,【1 】 r 【o 】 r 【1 】 r 【p 一2 】 ,【2 】 r 【1 】 r 【o 】 ,【p 一3 】 ,咖一1 】 r 协一2 】 r 【p 一3 】 r 【o 】 口【1 】 口【2 】 口【3 】 : 口【叫 r 【1 】 r 1 2 】 r 【3 】 : ,p 】 ( 3 - 1 3 ) 其中的r 【i 】称为自相关系数( a u t o c 0 玎e l a t i o nc o e f f i c i e n t ) ,求r 【j 】的公式为: 一k - 1 ,阶轰歹【玎】+ m 州,2 = 咄扣p ( 3 - 1 4 ) 其中p 代表线性预测系数的阶数,一般在做语音辨识时会采用8 到1 4 阶的p 值。 a y 一屯 七,。( r p 卜蓦a j :;l r p 一,) ,e 。一。, - s ;s pc 3 - ,5 , e lr 【0 】 求线性预测系数交成一个求反矩阵解的问题,解这个矩阵最有名的方法是由 d l l r b i n 提出来的一个算法,其演算流程为; 第三章特征参数的提取 口【,卜口;, 1 sjs p - ( 1 一七? ) e “一d 口p ;口j 。”一也a 岛”, 1 s ,s f 一1 1 3 ( 3 1 6 ) 3 2 2l p c 倒谱 l p c 系数可用来估计语音信号的倒谱,这也是语音信号短时倒谱分析中一种特 殊的处理方法。线性预测分析推定的声道模型系统函数为: 日( z ) = l ( p 17 ) 卜薹矿 其冲击响应 如) ,设| ;o ) 表示1 1 0 ) 的倒谱,则有 疗( z ) _ 1 n 日( z ) = 五( h ) z “ ( 3 1 8 ) 将式( 3 ) 代入并将其两边对数求导数,有 ( 1 + 薹n t z ) 耋“o 弘一1 一耋加t z 4 “ ( 3 1 9 ) 令上式左右两边的常数项和各次幕的系数分别相等,而可由n 。求出1 ;0 ) : ( o ) t o _ j ;( 1 ) - n 。 ( 3 2 0 ) 露( 一) a 口。+ 薹( 1 一七再- 。j j ;( n 一豇) ,1 s 雄墨p _ | i o ) ;薹( 1 一t 以弦。j i ( n 一_ | ) ,n 乏p 按式( 3 2 0 ) 求得的倒谱称为l p c 倒谱( l p c c ) 。式中p 为l p c 阶数( p = 8 1 2 时,能较好 地表征声道特性) ,n 为l p o c 阶数。l p c 倒谱是由语音信号的全极点模型导出的,其 值与语音信号的共振峰位置有关。l p c 倒谱( l p c c ) 由于利用了线性预测中声道系统 函数的最小相位特性,避免了相位卷积,求复对数的复杂;且l p c 倒谱的运算量小, 仅是用f f t 求倒谱时运算量的一半,适于实时应用。 以上提取的l p c c 特征参数是静态参数,为描述语音帧之间的相关性,可以引 入一阶差分,二阶差分等动态参数。 3 3m f c c 特征参数 m f c c 不同于l p c c ,它是在频谱上采用滤波器组的方法计算出来的,这组 1 4 v q 声纹识别算法的研究 滤波器在频率的美尔( m e l ) 坐标上是等带宽的。这是因为人类在对1 0 0 0 以下的 声音频率范围的感知遵循近似线形关系。式( 3 2 1 ) 是美尔刻度与频率的关系式,图 3 6 给出了二者的关系图。 工。一3 3 2 2 2 3 l o g 【1 + o m l kj ( 3 - 2 1 ) m f c c 正是基于这个现象提出的。它是在m e l 标度频率域提取出来的倒谱参 数,m e l 标度描述了人耳对频率感知的非线性特性,它与频率的关系可用下式近 似表示: m e l ( ,) = 2 5 9 5 如9 1 0 ( 1 + ,7 0 0 ) 或者:m e l ( ,) = 1 1 2 7 胁( 1 + ,删( 3 - 2 2 ) 式中,为频率,单位是h z 。 m f c c 参数的具体提取过程如下【6 l 【1 6 1 7 】: 1 ) 对输入的语音信号进行分帧、加窗,然后作离散傅立叶变换,获得频谱分 布信息。设语音信号的d f t 为 x 。睡) 。蔓x m ) e 一删州 o s 七s ( 3 2 3 ) 莉 式中x ( n ) 为输入的语音信号,n 表示傅立叶变换的点数。 2 ) 再求频谱幅度的平方,得到能量谱。 3 ) 将能量谱通过一组m e l 尺度的三角形滤波器组【1 捌。( m e l 滤波器组的频带 划分如表3 1 所示) 定义一个有m 个滤波器的滤波器组( 滤波器的个数和临界带的个数相近) , 采用的滤波器为三角滤波器,中心频率为,( m ) ,m = 1 ,2 ,m ,本文取m = 2 4 。滤 波器组中每个三角滤波器的跨度在m e l 标度上是相等的,本文取1 5 0 m e l 。三角滤 波器的频率响应定义为: 以( 七) - i j 2 一,沏一1 ) ) ( ,( m + 1 ) 一,o 竹一1 ) ) ( ,加1 ) 一,( 研一1 ) ) 2 ( ,( ,竹+ 】) 一七) ( 厂( m + 1 ) 一,沏一1 ) ) ( 厂扣+ 1 ) 一,) l t ,沏一1 ) ,o h 一1 ) 墨七妄,( ,砷 ( 3 2 4 ) ,( 聃) s 七量,o 以+ 1 ) 七苫,o 行+ 1 ) 其中荟日乩 4 ) 计算每个滤波器组输出的对数能量为: 酬岫嗡防。例2 础) ) t m( 3 - z s ) 第三章特征参数的提取 5 ) 经离散余弦变换( d c t ) 得到m f c c 系数: c b ) 。磊s ( 卅) c o s ( 册( m o 5 ) ,肘) o 墨n m( 3 2 6 ) m f c c 系数个数通常取1 2 。1 6 ,通常不用o 阶倒谱系数,因为它反映的是频 谱能量,故在一般识别系统中,将c 。称为能量系数,并不作为倒谱系数,本文选 取1 6 阶倒谱系数。 表3 - 1m e l 滤波器组的频带划分表【1 8 1 频率范围中心频率 频率范围中心频率 滤波器号滤波器号 ( h z )( h z )( h z )( h z ) 1o 8 92 81 31 0 4 3 1 3 4 31 1 8 7 22 8 1 5 48 91 41 1 8 7 1 5 1 21 3 4 3 38 9 2 2 41 5 41 51 3 4 3 1 6 9 41 5 1 2 41 5 4 - 3 0 02 2 41 61 5 1 2 1 8 9 21 6 9 4 52 2 4 3 8 33 0 01 71 6 9 4 - 2 1 0 61 8 9 2 63 0 0 - 4 7 23 8 31 81 8 9 2 2 3 3 82 1 0 6 73 8 3 5 6 94 7 21 92 1 0 6 2 5 8 92 3 3 8 8 4 7 2 - 6 7 45 6 92 02 3 3 8 2 8 6 02 5 8 9 9 5 6 9 _ 7 8 76 7 42 12 5 8 9 - 3 1 5 42 8 6 0 1 06 7 4 - 9 0 77 8 72 22 8 6 0 - 3 4 7 23 1 5 4 1 17 8 7 1 0 4 39 0 72 33 1 5 4 _ 3 8 1 73 4 7 2 1 2 9 0 7 1 1 8 71 0 4 32 43 4 7 2 4 0 0 03 8 1 7 3 4 特征参量有效性评价 1 ) f i s h e r 比:用于标量参量的特征评价 对于单个参量而言,可以用f 比来表征它在说话人识别中的有效性。对一个 说话人的一段语音所进行的一组量度相当于把该段语音映射到多维参量空间的一 格点。同一说话人的不同语音会在参量空间产生不同的点,其分布可用多变量概 率密度函数来描写。如果对于同一个人来说,这些点的分布比较集中:而不同说 话人的分布彼此相距较远,则所选择的参数就是有效的。可以取这两种分布的方 差比( 称为f i s h e r 比,简称f 比) 来作为有效性准则。其定义如下: 。 说话人参数均值的方差 ,。吼 ,2 虿雨丽天翦砑覆丽 u 叫 f 比定义式的分子针对不同话者,它反映了不同话者特征参数分布的离散程 度,而分母体现了同一话者特征参数的散度。因此其值越大,参数或矢量的某维 分量的区别特性越好。 1 6 v q 声纹识别算法的研究 如果参量的f 比较大,则一般会得到较好的性能,但这也不是绝对的。f 比 较大只是说明不同说话人的分散程度平均而言要大于每个说话人自身的分散程 度,但并不能保证这些分布彼此之间不重叠。而且,这种对单一参量的评价并没 有考虑到参量之间的相关性,因此对于构成参量集的指导意义受到了局限。 2 ) 采用系统性能来评价参量有效性 在给定了一种识别方法之后,判断哪些语音参量是有效的一种最直接的方法, 就是考察他们对识别率的影响。如果有限的参量不能达到较低的误差率,则可以 把若干参量构成一个矢量,至于其中每个分量的影响则可以通过增加或去掉该分 量时对系统识别率产生的影响来确定。这也就是本文将在第五章用到的理论。 图3 7 为1 6 阶l p c 、1 6 阶l p c c 和2 0 阶l f c c 三种不同特征参数的总识别率 比较图。横坐标为输入的测试语音长度,纵坐标为说话人识别系统的总识别率。 从图中可以很明显地发现m f c c 在说话人识别上的总识别率效果比l p c 和l p c c 好。 因此本文在第五章中对算法改进所做的讨论仅针对m f c c 特征参数。当然对l p c c 特征参数亦可进行同样的讨论,本文不再赘述。 图3 5 美尔刻度与频率的关系 频率( 如) 图3 6 使用不同特征参数总识别率比较图 第四章矢量量化 第四章矢量量化 1 7 基于v q 的说话人识别模型,相对于其它的识别模型( 如g m m ) 来说,其识 别率相对较低,但是它计算简单,具有实时性【8

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论