(计算机应用技术专业论文)基于矢量量化的说话人识别分析与研究.pdf_第1页
(计算机应用技术专业论文)基于矢量量化的说话人识别分析与研究.pdf_第2页
(计算机应用技术专业论文)基于矢量量化的说话人识别分析与研究.pdf_第3页
(计算机应用技术专业论文)基于矢量量化的说话人识别分析与研究.pdf_第4页
(计算机应用技术专业论文)基于矢量量化的说话人识别分析与研究.pdf_第5页
已阅读5页,还剩48页未读 继续免费阅读

(计算机应用技术专业论文)基于矢量量化的说话人识别分析与研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 说话人识别是生物认证技术的一种,是根据语音波形中反映的说话人生理和行为 特征的语音参数自动鉴别说话人身份的技术,有着广阔的市场应用前景。本文研究的 是基于矢量量化方法的说话人识别。 本文首先对语音信号的特征参数进行分析,重点研究了线性预测系数、线性预测 倒谱系数、m e l 频率倒谱系数的基本原理和提取方法。接着重点研究了基于矢量量化 的说话人识别方法,针对l b g 算法的码本设计,提出了一种新的初始码本生成算法; 在匹配判决上,提出了基于标准差描述的加权欧氏距离失真测度。 在实验测试中,得出加权m f c c 参数是性能较为优良的特征参数,能够保证系统 有较高的识别率;验证了码本生成算法的正确性和可靠性,并且考察了码本尺寸对系 统识别性能的影响;测试了特征参数加权与识别方法加权两种不同加权策略,对系统 的性能均有所改善。最后在m a t l a b 下设计了与文本无关的说话人辨认系统平台,在1 0 个说话人的语音库上作了测试,得到了较高的识别率。 关键字:说话人识别矢量量化i _ b g 算法初始码本加权策略 a b s t r a c t s p e a k e rr e c o g n i t i o nb e l o n g st ob i o m e t r i c st e c h n o l o g y i ti st h et e c h n i q u et or e c o g n i z e t h es p e a k e ri d e n t i t y a u t o m a t i c a l l yo nt h eb a s i so ft h ei n d i v i d u a l sp h y s i o l o g i c a la n d b e h a v i o r a lc h a r a c t e r i s t i c si n c l u d e di ns p e e c hw a v e s i th a sab r o a da p p l i c a t i o np r o s p e c ti n m a n yf i e l d s t h i s t h e s i sf o c u s e sa t t e n t i o no ns p e a k e r r e c o g n i t i o n b a s e do nv e c t o r q u a n t i z a t i o n f i r s t l y , f e a t u r ep a r a m e t e r so ft h es p e e c hs i g n a la r ea n a l y z e di nt h i st h e s i s ,a n dt h e nt h e e l e m e n t a r yt h e o r i e sa n de x t r a c t i o nm e t h o d so fl p c 、l p c ca n dm f c ca l ed i s c u s s e di n d e t a i l s e c o n d l y , t h i st h e s i sm a i n l ys t u d i e st h es p e a k e rr e c o g n i t i o nb a s e do nv q a c c o r d i n g t ot h el b g a l g o r i t h m ,p r e s e n t san e w a r i t h m e t i cf o ri n i t i a lc o d e b o o kd e s i g n ;a c c o r d i n gt ot h e m a t c h i n gd e c i s i o n ,p r e s e n t saw e i g h t e de u c l i d sd i s t a n c ed i s t o r t i o nm e a s u r eb a s e do nt h e s t a n d a r dd e v i a t i o n d u r i n gt h ee x p e r i m e n t s ,i ti ss h o w n t h a tw e i g h t e dm f c ci sak i n do fw e l l p e r f o r m a n c e f e a t u r ep a r a m e t e r , w h i c hc o u l de n s u r eh i i g hr e c o g n i t i o nr a t i of o rt h es y s t e m ;e x p e r i m e n t s h a v ev a l i d a t e dt h ec o r r e c t n e s sa n dr e l i a b i l i t yo ft h ec o d e b o o kd e s i g n a r i t h m e t i c ,a n d r e v i e w e dt h ei n f l u e n c eo fc o d e b o o kd i m e n s i o no i lt h es y s t e mr e c o g n i t i o np e r f o r m a n c e ; e x p e r i m e n t sh a v ea l s ot e s t e dt w od i f f e r e n tw e i g h t e ds t r a t e g i e s ,o n ei sw e i g h t e df e a t u r e p a r a m e t e r , a n dt h eo t h e ri sw e i g h t e dr e c o g n i t i o nm e t h o d ,w h i c hb o t hh a v ei m p r o v e dt h e s y s t e mp e r f o r m a n c e l a s t l y , at e s tp l a t f o r mo ft e x t - i n d e p e n d e n ts p e a k e ri d e n t i f i c a t i o ns y s t e m i se s t a b l i s h e du n d e rt h em a t l a bs o f t w a r e e x p e r i m e n t sh a v et e s t e do nas p e e c hd a t a b a s e c o n t a i n e dt e ns p e a k e r s ,o b t a i n e dam u c hh i g h e rr e c o g n i t i o nr a t i o k e yw o r d s :s p e a k e rr e c o g n i t i o n v e c t o rq u a n t i z a t i o nl b g a l g o r i t h m i n i t i a lc o d e b o o k w e i g h t e ds t r a t e g y 长春理工大学硕士学位论文原创性声明 本人郑重声明:所呈交的硕士学位论文,基于矢量量化的说话人识别分析与 研究是本人在指导教师的指导下,独立进行研究工作所取得的成果。除文中已经 注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成 果。对本文的研究做出重要贡献的个人和集体,均己在文中以明确方式标明。本人 完全意识到本声明的法律结果由本人承担。 作者签名:萎兰奎习年二月监日 长春理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“长春理工大学硕士、博士学位论文版权 使用规定”,同意长春理工大学保留并向中国科学信息研究所、中国优秀博硕士学 位论文全文数据库和c n k i 系列数据库及其它国家有关部门或机构送交学位论文 的复印件和电子版,允许论文被查阅和借阅。本人授权长春理工大学可以将本学位 论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫描等复 制手段保存和汇编学位论文。 作者签名:兰兰坌童! ! ! 年立月监日 指导导师签名: 5 1 年一月一日 第一章绪论 1 1 概述 在人类的社会生活中,身份认证是一个不可缺少的重要内容。尤其在信息飞速发 展的今天,交往中人与人之间的直接接触逐渐减少,更多的交互是借助各种媒介和工 具来完成。自动取( 存) 款机、手机电话银行、安全门禁系统、网络远程登录等等, 高效快捷的服务系统都要有安全可靠的身份认证来保障。 证件、密码、口令等都是传统且常用的身份认证手段,这些手段存在着易丢失、 遗忘、伪造等弊端,影响其使用过程中的安全性和可靠性。相比之下,每个人自身所 携带的生物特征有着独一无二、不易丢失、难以伪造、难以假冒等优点,是身份认证 的极佳载体。随着科技的飞速发展和人类文明的不断进步,对于生物特征认证的研究 越来越深入,应用也越来越广泛。作为生物特征认证的一个重要分支,语音识别同指 纹识别、人脸识别、虹膜识别一样,一直是研究者们关注和探索的热点之一【1 1 。 说话人识别( s p e a k e rr e c o g n i t i o n ) 又称话者识别,是语音识别的一种特殊形式, 也是身份鉴证的一种重要手段。它是根据语音波形中反映出来的说话人生理、心理和 行为特征的语音参数自动鉴别说话人身份的一项技术。与语音识别的不同之处在于, 它并不注重语音信号中的文字内容和语义信息,而是希望从语音信号中提取特定人的 特征;在处理方法上,语音识别对不同说话人的特征差异力图“求同”,尽可能地做出 归一化处理,而说话人识别则强调不同人之间的特征“存异”,尽量挖掘出说话人的个 性因素。 说话人识别技术按其识别任务的不同可以分为两类:说话人辨认( s p e a k e r i d e n t i f i c a t i o n ) 和说话入确认( s p e a k e rv e r i f i c a t i o n ) 。前者用于判断待识别说话人是话者 集中哪一个,是多元判决问题;后者用于判断待识别说话人是否和指定的说话人相符 合,是二元判决问题。 根据识别对象的不同,还可将说话人识别技术分为三类,即与文本有关 ( t e x t d e p e n d e n t ) 、与文本无关( t e x t i n d e p e n d e n t ) 和文本提示型( t e x t p r o m p t e d ) 。与 文本有关是要求说话人在训练和识别时必须按照相同的文本内容发音;与文本无关则 是在训练和识别时都不规定说话内容;文本提示型是在识别时要求说话人按照所提示 文本内容发音。 说话人识别技术的实现方法是【2 】,在提取原始语音信号中某些特征参数的基础上, 建立相应的参考模板或模型,然后按照一定的判决规则判定说话人是否是所声称的说 话人( 说话人确认) 或 兑话人到底是谁( 兑话人辨认) 。说话人识别主要包括两个阶段, 即训练阶段和识别阶段。在训练阶段,根据话者集中的每个说话人的语音训练资料, 进行相应的语音参数特征的提取,然后建立起每个说话人的模板或模型;在识别阶段, 同样对待识别人的语音进行特征提取,与之前生成的模板或模型进行比对,最后根据 匹配结果进行判决。在说话人辨认中,取与测试语音相似度最大的模型所对应的说话 人作为识别结果;在说话人确认中,则要判断测试语音与所声称说话人的模型之间的 相似度是否大于指定的门限,进而做出判决。说话人识别的基本原理如图l 。1 所示。 图1 1 说话人谚 别系统原理框图 1 2 课题研究的目的及意义 每个人都有自己的发音器官和各自的说话习惯,这些差异都以复杂的形式反映在 说话人语音信号的波形中,使得每个人的发音都带有浓重的个人色彩,这是说话人识 别得以实现的客观保证。说话入识别涉及到人的发音器官、说话习惯、语言构造和发 声原理等多方面的内容,是综合运用生理学、语音学、数字信号处理、模式识别、人 工智能等学科知识的一个研究课题,有着广阔的市场应用前景。通过说话人识别技术, 可以实现利用语音信息进行说话人的身份鉴别,例如缉拿电话信道罪犯,法庭上根据 录音信息做出身份确认,为用户提供防盗门开启功能等等。说话人识别技术还可以通 过语音实现对一些服务的控制,例如语音拨号、电话银行、电话购物、数据库访问服 务、信息服务、语音信箱、金融财经信息、保密情报领域的安全控制和计算机的远程 访问等等。而且,说话人识别技术有望产生新的服务,给人们的工作和生活带来极大 的方便【3 j 。 随着社会信息化进程的发展,越来越多的场合需要对人的身份进行快速、可靠地 识别,常用的身份识别方法有密码、指纹识别等,而利用人的语音进行身份识别以其 特有的优点越来越受到人们的重视:如它不会被丢失或遗忘;由于非接触、自然的方 式而乐意被人们接受和使用;且语音信号采集方便,所用到的设备( 麦克风、电话等) 成本相对比较低i 4 。 说话人识别技术发展到今天虽然已经有几十年的历史,也取得了许多优秀的成果, 但是仍然存在着大量难点,直到今天还未达到令人十分满意的程度。尽管有些识别器 已经投放市场,并用于商业、军事、工业控制等领域,但基本上还停留在实验与探索 阶段。过去人们对于说话人识别的研究前景曾经相当的乐观,但现在却有了更加清醒 的认识,例如对于人是怎样通过语音来识别说话人的机理尚无基本的了解,也不清楚 究竟是何种语音特征( 或其变换) 能够唯一携带说话人识别所需的特征。这些基本问 题的解决,还需借助于认知科学等基础研究领域的突破及跨学科的协作,但这些都不 是在短时间内就能实现和完成的。当然在语音处理领域,相对于语音识别来浣,说话 2 人识别更加困难。一个很典型的例子就是在接听电话时一般不会搞错通话内容,却经 常不知或误判对方的身份。 在说话人识别技术中,还有很多尚需进一步探索和解决的问题。f u r u i 曾经对说话 人识别系统中的问题作以总结和归纳【5 l 这些问题指明了说话人识别技术的研究方法和 发展前景。其中,主要的问题有以下几点: ( 1 ) 有限的训练及测试样本问题,即在声音不易获取的应用场合,能否用很短的语 音进行模型训练,而且用很短的时间进行识别: ( 2 ) 声音模仿( 或播放录音) 问题,即怎样有效地区分开模仿声音( 或录音) 和真 正的声音; ( 3 ) 在有多个说话人说话的情况下,怎样有效地提取目标说话人的声纹特征; ( 4 ) 怎样消除或减弱声音变化( 不同语言、内容、方式、身体状况、时间、年龄、 情绪、心理等) 带来的影响; ( 5 ) 环境及声道鲁棒性问题,即怎样消除声道差异和背景噪音带来的影响;等等。 面对多方面的问题,这就要求研究者们一方面针对特征提取技术,找出更易于和 准确区分说话人的语音参数,例如通过语音感知机理的研究进展带动说话入识别中特 征参数选择的发展1 6 j ,在有限的测试样本中用简单的方法提取出有效的参数,对说话人 的个性信息形成可靠而稳定的表征。另一方面,寻求更为简捷和高效的识别算法,包 括对现有算法的改进和完善以及提出新的思路和方法,进一步提高算法模型的区分性 和识别速度,增强识别效能。 1 3 国内外研究现状 从二十世纪七十年代发展至今,说话人识别技术的研究已经有了几十年的历史, 也打下了比较坚实的科学理论基础1 7 j 。在过去的十几年中,说话人识别技术更是有了长 足的发展,在一些商业产品的开发中崭露头角,并且随着理论的不断充实和硬件设备 的完善,这些新的产品正逐渐走向实际应用。国外在这方面的研究比较早,并且已经 有一些相对成熟的产品出现。例如,a t & t 应用说话人识别技术研制出的智慧卡( s m a r t c a r d ) ,已经应用于自动提款机上;欧洲电信联盟于1 9 9 8 年完成了c a v e ( c a l l e r v e r i f i c a t i o ni nb a n k i n ga n dt e l e c o m m u n i c a t i o n ) 计划,并于同年启动了p i c a s s o ( p i o n e e r i n gc a l la u t h e n t i c a t i o nf o rs e c u r es e r v i c eo p e r a t i o n ) 计划,在电信网上完成了 说话人识别;s p r i n t 公司的语音电话卡也已经在许多客户中应用。其他一些国外的商 用说话人识别系统还包括:i t t 公司的s p e a k e rk e y 、k e yw a r e 公司的v o i c eg u a r d i a n 、 t n e t i x 公司的s p e a ke z 等等【8 j 。 在国内,一些大学和科研机构也在说话人识别领域开展了大量的研究工作,并取 得了一定的研究成果。开展研究比较早的机构有北京大学、中科院声学所、中科院自 动化所、清华大学等。其中,中科院声学所于2 0 0 2 年组建了平均年龄只有3 0 岁、专 业从事语音研究的科研团队中科信利语音实验室,到2 0 0 3 年止,该实验室就已初 3 步完成奥运语音导航系统概念机、股票查询系统、听写机系统、嵌入式语音识别系统、 说话人识别系统的研制,在国内外一系列相关评测中取得了很好的成绩。此外,一些 软件公司也开展了相关的研究,如南京北极星软件公司主要构造了“训练模块”和 “识别模块 来实现说话人识别技术,吉大博硕科技有限责任公司将说话人识别技术 应用于门锁,南山高科开展了与发音内容、发音语种、方言无关的先进统计模式识别 技术的研究等等,均取得了不错的成绩。其中,由科大讯飞和中国科学技术大学共建 的实验室科大讯飞语音联合实验室,在今年六月份结束的“2 0 0 8n i s t s p e a k e r r e c o g n i t i o ne v a l u a t i o n ”国际说话入识别评测大赛上,获得综合指标第一名的优异 成绩,这表明科大讯飞语音联合实验室不仅在语音合成技术上处于国内领先地位,而 且在说话人识别技术上也己取得了领先成果。但总的来说,国内由于开展说话人识别 方面研究的时间相对较晚,研究水平也相对较低。 近年来,说话人识别研究依然围绕着特征参数的选取和模式识别的方法展开,主 要有以下这些热点方向:如何用最简单的方法提取到或组合出最能体现说话人个性信 息的特征是研究的一个热点和难点【9 j 【1 0 l :对于由于说话人自身、采集环境及传输通道 变化所造成的识别率下降问题,提出一些补偿技术【1 1 l ;针对噪声干扰也研究出一些抗 噪方法【1 2 j 【1 3 】。识别方法中则更多的偏重于高斯混合模型( g m m ) 的应用和研究【1 4 1 【1 5 】; 对于基于隐马尔可夫( h m m ) 和矢量量化( v q ) 这类的传统识别方法更多的是研究 如何改进其算法1 1 6 】【1 7 1 ,提高识别的速度和准确率:基于人工神经网络( a n n ) 1 1 8 】、支 持向量机( s v m ) 1 1 9 1 【驯【2 l l 及模糊理论【2 2 j 等新近发展起来的方法也在逐渐地被开发和采 用;此外,多种方法的组合也是一个值得尝试的研究方向i 引。 1 4 论文的主要研究内容 1 研究说话人识别系统的组成、分类和应用,掌握语音信号的时域、频域和倒谱 域分析的基本原理和思想。分析语音信号的声学基础、产生机理,对目前常用的几种 说话入特征参数的性质和提取方法进行分析与研究,包括线性预测系数l p c 、线性预 测倒谱系数l p c c 、m e l 频率倒谱系数m f c c 等,并对特征参数的加权方法作以研究。 2 研究d t w 、h m m 、v q 、g m m 等几种说话人识别的建模方法和识别方法,分 析这几种方法的各自特点和识别效果。重点研究基于v q 的说话人识别方法,通过对 现有算法的改进和完善来提高说话人识别系统的性能,主要是对l b g 算法中的初始码 本生成算法及识别时的匹配算法作以改进。 3 在实验室环境下,建立小型语音数据库。利用m a t l a b 工具对说话人辨认系统进 行仿真实验,考察不同特征参数对系统识别性能的影响,测试改进算法是否对系统效 能有所优化。 4 第二章语音信号的特征参数分析 2 。1 语音信号的时域分析 根据分析的参数不同,语音信号分析可分为时域、频域、倒谱域等方法。语音信 号本身就是一维时域信号,具有简单易懂、清晰直观、便于计算等优点,因而时域分 析是最早使用的应用范围最广的一种方法。语音信号典型的时域特征主要有短时能量、 短时平均过零率、短时自相关系数和短时平均幅度差等。 图2 1 ( a ) 是一个女性说“你好”的时域波形,语音数据是在安静的实验室环境下用 普通麦克风采集的,录制软件应用的是c o o le d i tp r o2 1 ,波形编辑采用的是软件 m a t l a b 7 1 。信号采样频率为8 k h z ( 即f s = 8 k h z ) ,每个采样点用1 6 位进行量化( 即 b i t s = 1 6 b p s ) 。图中横轴为采样点,纵轴为信号幅度。虽然从图中无法辨别语音信号的 细节,但可以看出语音能量、信号波形随时间变化的起伏。由此也可以看出,语音信 号是一种时变信号,在一段时间内是非平稳的。 图2 1 ( b ) 是将“好”的辅音部分“h ”展开后的波形,图2 1 ( c ) 是元音部分“a ” 的波形展开图。可以看出,元音的幅值明显的强于辅音,且有较强的准周期性。虽然 语音信号是长时非平稳信号,但仍可以认为在很短时间内( 1 0 m s - 3 0 m s ) 是相对平稳 的,后面所作的工作就是建立在语音信号的这种短时平稳的假设基础上进行的。 s a m p en u m b e r ( a ) 语音信号“你好”的时域波形 ( b ) 辅音部分“h ”的展开波形 5 2 1 1 短时能量 ( c ) 元音部分“a o ”的展开波形 图2 1 语音信号“你好”的时域波形及其展开图 对于信号仁o ) ,短时能量定义为 e 。t b ) 。( 提一m ) 】2 一x 2 如) j f l ( # i - - 搬) mx 2 0 ) 宰是加) ( 2 1 ) 式中,h ( n ) = 2 0 ) ,e 表示从信号的第咒个点开始加窗函数时的短时能量。由此可见, 短时能量即为语音信号的平方经过一个单位冲激响应为h ( n ) 的线性滤波器的输出,如 图2 2 所示。 图2 2 短时能量的方框图 短时能量的主要应用有: ( 1 ) 区分清音和浊音,因为浊音的能量要比清音的能量大得多1 2 4 】; ( 2 ) 可以用短时能量来判定有声段和无声段; ( 3 ) 对声母和韵母、连续的字进行分界。 2 1 2 短时平均过零率 短时平均过零率是最简单的一种特征,指的是每帧内信号通过零点的次数。对于 连续的语音信号,可以考察其时域波形通过时间轴的情况。对于离散信号来说,短时 平均过零率就是信号采样点符号变化的次数。短时平均过零率在一定程度上可以反映 语音信号的频谱性质,通过它可以对频谱特性做一些粗略的估计。对于信号& g ) ,短 时平均过零率的定义为 z 。一了1 i s g n k b ) 】_ s g n b b 一1 g 一胁) 一吾”羔| l s g n k 。b ) _ s g n k 。m 一1 ) 】 ( 2 2 ) 6 式中,n 是所选取窗函数的窗口长度,s g n j 是符号函数,即 s 幽) 】也拣三 晓3 , 从式( 2 2 ) 可以看出,在长度为n 的一帧信号内,符号每变化一次,则表示有一次过 零现象发生,z 。的数值便会加1 ,从而得出短时平均过零率。 由于上式定义的短时平均过零率容易受到低频的干扰,特别是5 0 h z 交流干扰的影 响,所以将上述定义作以简单修改,解决方法是设立门限丁,将过零率的概念修改为 跨过正负门限的次数,这样就有了一定的抗干扰能力,减少产生虚假过零率的可能。 此时,短时平均过零率的定义修改为 弘圭型js g n x ( m ) 一, 一s g n x ( m 一1 ) 一丁】l +( 2 4 ) ls 印b 如) + 丁】一s g i l b b 一1 ) + r 】lb g m ) 此外还可以根据实际需要设置多门限过零率陋1 ,如图2 3 所示。 门限3 门限2 门限1 门限1 j 、j 限2 门限3 图2 3 多门限短时平均过零率 短时平均过零率的主要应用有两方面,一是用于粗略描述信号的频谱特性,即用 多带滤波器将信号分为若干个通道,对各通道进行短时平均过零率和短时能量的计算; 二是用于初步判别清音和浊音、有话和无话。此外,还可以将短时平均过零率和短时 能量结合起来进行语音信号的端点检测【矧。 2 2 线性预测系数 2 2 1 线性预测的基本原理 1 9 4 7 年维纳首次提出了线性预测( l i n e a rp r e d i c t i o n ) 这一术语,而板仓等人在1 9 6 7 年将线性预测技术应用到了语音分析和合成中【2 7 l 。将线性预测应用于语音信号处理, 不仅是因为它的预测功能,而且更重要的是因为它能提供一个非常好的声道模型及模 型参数的估计方法。作为一种很重要的技术,线性预测普遍地应用于语音信号处理的 诸多方面。 对语音信号进行线性预测分析的基本思想是:一个语音的采样能够用过去若干个 7 语音采样的线性组合来逼近。通过使线性预测到的米样在最小均方误差意义上逼近实 际语音采样,可以求取一组唯一的线性组合中所用的加权预测系数,这种线性预测分 析最早用于语音编码中,因此被称为l p c ( l i n e a rp r e d i c t i o nc o d i n g ) 。 线性预测分析对语音的产生过程有一个基本的假设,即认为语音是由一个激励信 号( 声门波形) 通过一个滤波器( 滤波器的响应函数就是声道的响应函数) 而得到的。 通过对声道的短管级联模型的研究,可以认为系统的传递函数符合全极点数字滤波器 的形式。系统的传递函数如式( 2 5 ) 所示。 h ( z ) 。 生一 ( 2 5 ) 卜荟叩。 式中,p 是极点个数即模型的阶数,g 是幅值因子,a 。是模型系数,由p 和a 。两者决 定了声道特性,描述了说话人的特征,比如e l 腔的形状、大小、运动方向等。对于一 个线性预测系统,采样点的输出s 0 ) 可以用前面p 个样本的线性组合来表示,定义系 统输出的预测值f 0 ) 为 f g ) = 黔s o f ) ( 2 6 ) 其中,系数仁i ) 皆为实数,称为线性预测系数或l p c 系数,p 称为预测阶数。预测值f 如) 与真实值s g ) 之间的误差称为系统的预测误差,用p g ) 来表示 e g ) 一s g ) 一f g ) = s g ) 一黔s o i ) ( 2 7 ) 为了在最小均方误差意义上计算一组最佳预测系数,定义短时预测均方误差为 。一善e 2 ( 门) 2 ; ,( 甩) 一f ( ,z ) 】24 革 s ( 刀) 一砉口r s ( 门一z ) c 2 8 , 显然,e 。越接近于零,预测的准确度在均方误差最小的意义上越为最佳。为使e 最小, 应满足e 。对各系数a 。的偏微分o e 。妇i 一0 ( k 一1 ,2 ,p ) ,即 鲁捌辜s m 一七) + 2 静善s g z 七) ;。 9 , 得到线性预测的标准方程组 s ( 疗) s ( ,z 一七) = 口,s ( 以一f b ( n 一七) 七= 1 ,2 ,p ( 2 1 0 ) 若定义中似,j ) ;s 0 一七b g i ) ,k z 1 ,2 ,p ,f = 0 ,1 ,2 ,p ,则式( 2 1 0 ) 可简写为 艺以,仅,f ) = 巾仅,o ) 七“2 ,p ( 2 1 1 ) 式( 2 1 1 ) 是由p 个方程组成的含有p 个未知数的线性方程组,求解方程组可以得到各 个预测系数a ,a :,p 。利用式( 2 8 ) 、式( 2 1 0 ) ,同样可求得最小均方误差能量值 。 e 一s 2 g ) 一口;s o b g f ) “1 4 ( 2 1 2 ) t ( o ,o ) 一萝a i t 奎( o ,i ) 舒 由此可见,最小预测误差能量是由一个固定分量和一个依赖于预测系数的分量组 成。求解最佳预测系数,必须首先计算西 ,i x ls f ,ksp ) ,一旦求出了这些数值,即 可按式( 2 1 1 ) 求出 痒i 。 2 2 2 线性预测系数的计算 在上一小节关于线性预测原理的介绍中只给出了m ( 足,f ) 的一般表达式和一个比较 模糊的定义,式中,l 的求和范围也没有具体化。m ( 七,i ) 可以定义为自相关函数,也可以 定义为协方差函数,这两种定义所确定的系数矩阵枷( 七,讲的性质不同,由此决定的线 性方程组的解法也不同。针对自相关函数的解法主要有莱文逊一杜宾递推算法和舒尔递 推算法;针对协方差函数的解法主要是乔里斯基分解法;还有就是避开自相关和协方 差函数的计算,直接由信号样本递推的线性预测解法格型法【捌。 这些方法各有特点。自相关法的误差较大,计算结果的精度也不如协方差法,但 协方差法的稳定性不如自相关法,计算量也较大。在实际应用中由于容易满足采样点 数远远大于模型阶数的条件,因此协方差误差小的优点就不再突出,而具有高效递推 算法的自相关法的优势就非常明显。格型法的计算精度很高,对系统的稳定性也有保 证,尽管运算量相对来说巨大,但随着各种针对减少计算量的改进方法地提出,格型 法将成为一种很有潜力的线性预测算法。在语音信号处理中,自相关法应用得较多。 在m a t l a b 软件中有直接求取线性预测系数的函数勿c ,它采用的是自相关法中的 莱文逊杜宾递推算法,通过输入语音信号的波形数据和模型阶数就可以求出线性预测 系数。 2 2 3 线性预测模型阶数的确定 l p c 参数是模拟人的发音器官的,是一种基于语音合成的参数模型。每段声管则 对应一个l p c 模型的极点。一般情况下,极点的个数在1 2 1 6 个之间,就可以足够 清晰地描速语音信号的特征了。 要使模型的假定更好地符合语音产生模型,应该使l p c 模型的阶数p 与共振峰个 数相吻合,其次是考虑声门脉冲形状和口唇辐射影响的补偿。通常一对极点对应一个 共振峰,1 0 k h z 采样的语音信号通常有5 个共振峰,取p = 1 0 ,对于8 k h z 采样的语音 9 信号可取p = 8 。此外为了弥补鼻音中存在的零点以及其他因素引起的偏差,通常在上 述阶数的基础上再增加两个极点,即分别是p = 1 2 和p = 1 0 。有实验表明,l p c 模型阶 数p 应选在8 至1 2 之间,选择p = 1 2 可以对绝大多数语音信号的声道模型取得足够近 似的逼近。p 值选得过大虽然可以略微改善逼近效果,但也带来一些负作用。一方面 是加大了计算量,另一方面有可能增添一些不必要的细节,比如在用声道模型谱进行 共振峰分析时反而使效果变坏。图2 4 分别模拟了一帧语音信号的1 0 阶、1 2 阶和1 4 阶线性预测系数。 s a m p l es i g n a l s a m p i en u m b e r ( a ) 原始语音信号 l i n e a rp r e d i c t i o nc o e f f i c i e n t s l i n e a rp r e d i c t i o no r d e r ( b ) 线性预测系数 图2 ,4 语音信号的线性预测系数示意图 1 0 2 3 线性预测倒谱系数 2 3 1 同态处理基本原理 同态信号处理1 2 9 1 ( h o m o m o r p h i cs i g n a lp r o c e s s i n g ) 是一类重要的非线性信号处理方 法。它的基本思想是首先将不符合叠加原理的输入通过一个变换系统,使之符合叠加 原理,然后用熟知的线性系统的处理方法进行处理。语音信号、图像信号、地震信号、 通信中的衰落信号及调制信号都不是线性信号,都是乘积性信号或卷积性信号。因此, 这样的信号就必须用满足该组合规则的非线性系统来处理。又因为对非线性系统的分 析非常困难,所以利用同态信号处理方法将非线性问题转化为线性问题来处理。按被 处理的信号来分,大体分为乘积同态处理和卷积同态处理。 同态处理理论的一个重要方面就是任何同态系统都能表示为三个同态系统的级 联。如图2 5 所示,同态系统可分解为两个特征系统和一个线性系统。第一个系统是以 若干信号的卷积组合作为输入,并将它变换成对应输出的相加性组合。第二个系统是 一个普通线性系统,服从叠加原理。第三个系统是第一个系统的逆变换,即它将信号 的相加性组合反变换成卷积组合。 工。g ) 木x :0 )戈。g ) + 戈:0 )夕。0 ) + 夕:g ) y 1 0 ) 木y :0 ) 图2 5同态系统的组成 设输入信号 工( ,1 ) 。工1 如) 宰z 2 b ) ( 2 1 3 ) 其中工。( ,1 ) 和工:g ) 分别是声门激励和声道响应序列,特征系统d 】将卷积信号转化 为加性信号。它包括三部分,首先是进行z 变换,将卷积信号转变为乘积性信号,这 时得到的就是输入信号的频谱 z b o ) 】= x ( z ) = x 。( z ) x :( z ) ( 2 1 4 ) 然后进行对数运算,将乘积运算转变为加性运算 l o g x ( z ) = l o g x ,( z ) + l o g x :g ) 一譬。g ) + j :( z ) = j ( z ) ( 2 1 5 ) 最后再将上面的加性对数信号转变为时域信号,即进行逆z 变换 z 。1 j ( z ) 】= z 。 j 。( z ) + j :g ) 一j 。g ) + j :g ) = 戈o ) ( 2 1 6 ) 由于加性信号的z 变换或者逆z 变换仍然是加性信号,因而j b ) 这种时域信号可 以用线性系统处理。经过线性处理后,将其恢复为卷积性信号,可以通过特征系统 d 1 ll 实现。首先将线性系统输出的加性信号进行z 变换,然后进行指数运算,得到 乘积性信号,最后得到卷积性的语音恢复信号。 2 3 2 倒谱和复倒谱 由式( 2 1 4 ) 和( 2 1 6 ) 可得 爻( ,1 ) ;z - l o g z k g 灌 ( 2 1 7 ) 我们定义j 0 ) 为z g ) 的复倒谱( c o m p l e xc e p s t r u m ) ,通过对x 0 ) 的z 变换的对数 的逆z 变换得到。其中,x g ) 的z 变换为x ( z ) 一z k g ) 】,可以表示为 x ( z ) 。i x ( z l 宰e 小喀口( :) 】 ( 2 1 8 ) 对其取对数得 膏g ) :l o g k ( z ) 】= l o d x ( z l j a r g x ( z ) 】 ( 2 1 9 ) 如果我们只考虑x ( z ) 的模,而忽略相角a r g x ( z ) ,并令 c g ) ;z 。1 l 。g z x ( 咒) ;z 。 1 0 9 l x ( z l 】 ( 2 2 0 ) 得到的c b ) 即为倒频谱,简称倒谱。从z 变换的性质可知,倒谱是复倒谱的实部,即 c g ) = 瞄0 ) + 戈( 一n ) 2 ( 2 2 1 ) 2 3 3 线性预测倒谱系数的计算 一 线性预测是一种谱估计方法,其系统函数的频率响应h k 加) 反映声道的频率响应 和被分析信号的谱包络,因此用l o g h ( e p ) 做反傅立叶变换求出线性预测倒谱系数 ( l i n e a rp r e d i c t i o nc e p s t r u mc o e f f i c i e n t 简称l p c c ) ,是描述语音信号的良好参数。其 主要优点是比较彻底地去掉了语音产生过程中的激励信息,主要反映声道响应,而且 往往只需要十几个倒谱系数就能较好地描述语音的共振峰特性,因此在说话人识别中 得到了良好的应用。设通过线性预测分析推导的声道模型的系统函数为 ( z ) :j - ( 2 2 2 ) 1 一y 口z 。 矧。 其冲激响应为j 1 0 ) ,首先求其序列厅g ) 的倒谱厍g ) ,根据同态处理方法 疗( z ) = , o g n ( z ) = 罗j l l 0 矿 ( 2 2 3 ) 篇 代入式( 2 2 2 ) ,将其两边对z 。求导,得 即 一嘉弘) z ” 旺2 4 , 等沓矿+ - 卜酗z 4 篙 ( 2 2 5 ) 一, 士 一 一 g b 土矿 亦即 薹砌t z i + 12 ( ,一:霪:口t z 一) 耋,z h ( n ) z 一 + 1 c 2 2 6 , 令式( 2 2 6 ) 左右两边的常数项和z 一1 各次幂的系数分别相等,即可得到五g ) 和口。之 间的递推关系为 石( o ) = 0 m ) = 口, 五( ,1 ) = 口。+ 薹( 1 一七订b 。石( 五一七) ,l n p 式( 2 2 7 ) q b4 。,口p 为p 阶l p c 特征向量。当l p c c 阶数不超过l p c 的阶数p 时, 用第三式进行计算;当l p c c 的阶数大于p 时,则用第四式进行计算。图2 6 ( a ) 描 述了一帧( 2 5 6 个采样点) 原始语音信号的波形,图2 6 ( b ) 为其1 6 阶线性预测倒谱 系数。 s a m p l es i g n a l 1 0 5 0 s s a m p l en u m b e r ( a ) 原始语音信号 l i n e a rp r e d i c t i o nc e p s t r u mc o e f f i c i e n t s a ,_ 一 ,。 i i 、。; i ; liil 0 2 46 81 0 1 21 41 6 l i n e a rp r e d i c t i o nc e p s t r u mo r d e r ( b ) 线性预测倒谱系数 图2 6 语音信号的线性预测倒谱系数示意图 1 3 2 4m el 频率倒谱系数 2 4 1m ei 频率倒谱系数的基本原理 l p c 模型是基于发音模型建立的,l p c c 系数是一种基于合成的参数,这种参数 没有充分利用人耳的听觉特性。心理学的研究表明,无论对于纯音还是语音,人类对 于声音音调的感受都不是线性的,新的频率单位的划分方法,应该考虑到人耳听觉系 统的特性,而不同于物理学对频率的描述。物理上的频率是以h z 为单位的,符合人的 听觉特性的频率则以m e l 或b a r k 作为单位。 临界带宽概念的引入是为了描述噪音对纯音的遮蔽效应( m a s k i n ge f f e c t ) :一个纯 音可以被以该纯音的频率为中心频率并且具有一定频带宽度的噪声所遮蔽,条件是临 界带宽内噪声的功率超过了纯音。在一个相同的临界带宽内,如果噪音的声压保持恒 定,无论噪音的带宽是否扩展到了整个临界带宽,其响度是相同的,但是一旦超过了 这个临界带宽,就可以感受到响度的变化。 进一步得出结论:如果总功率相同,在一个相同临界带宽内,多个不同频率的声 音组成的混合声音,跟位于此临界频带中央的单频声音具有相同响度。如果混合声音 所处的频带范围超过了相应的临界带宽,混合声音会比纯音听起来更加响亮。 通过实验,人们己经知道:当中心频率在1 0 0 0 h z 以下时,临界带宽一般保持恒定, 约为1 0 0 h z 。当中心频率超过1 0 0 0 h z 时,随着中心频率的增长,临界频带的带宽呈线 性增长。符合人的听觉系统的频率刻度划分方法,应该满足在低频上具有较高的分辨 率、在高频上具有较低的分辨率,符合临界带宽的特性,以m e l 为单位的频率刻度就 是符合这种特性的一种频率刻度。由于基于m e l 频率的倒谱系数( m e lf r e q u e n c y c e p s t r u mc o e f f i c i e n t 简称m f c c ) 是将入耳的听觉感知特性和语音的产生机制相结合, 因此在语音识别和说话人识别系统中得到广泛的应用。 m e l 频率尺度( m e l f r e q u e n c ys c a l e ) ,它的值大体上对应于实际频率的对数分布关 系。m e l 频率与实际频率的具体关系如公式( 2 2 8 ) 所示,图2 7 描述了m e l 频率与实 际频率之间的对应关系。 m e l ( f ) 。2 5 9 5 x l o g ( 1 + f 7 0 0 ) ( 2 2 8 ) 3 0 0 0 2 5 0 0 2 0 0 0 墨1 5 0 0 1 0 0 0 5 0 0 o ; ,r ! r ,- o , 7 一? o1 0 0 02 0 0 03 0 0 04 0 0 05 0 0 06 0 0 07 0 0 0b 0 0 0 & l - t z 图2 。7m e l 频率与实际频率的对应关系 1 4 2 4 2m e i 频率倒谱系数的计算 m f c c 参数也是按帧计算的,其提取框图如图2 8 所示。其中,m e l 滤波的作用是 利用同入耳听觉特性相似的三角滤波器组对语音信号的幅度平方谱进行平滑。对数操 作( l o g ) 的用途至少有两点,其一是压缩语音谱的动态范围,其二是将频域中的乘性 成分变成对数谱域中的加性成分,以便滤除乘性噪声,这也就是前面介绍过的同念处 理。离散余弦变换( d c t ) 主要用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论