(电路与系统专业论文)说话人识别相关技术的研究[电路与系统专业优秀论文].pdf_第1页
(电路与系统专业论文)说话人识别相关技术的研究[电路与系统专业优秀论文].pdf_第2页
(电路与系统专业论文)说话人识别相关技术的研究[电路与系统专业优秀论文].pdf_第3页
(电路与系统专业论文)说话人识别相关技术的研究[电路与系统专业优秀论文].pdf_第4页
(电路与系统专业论文)说话人识别相关技术的研究[电路与系统专业优秀论文].pdf_第5页
已阅读5页,还剩68页未读 继续免费阅读

(电路与系统专业论文)说话人识别相关技术的研究[电路与系统专业优秀论文].pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西北大学硕士学位论文摘要 摘要 说话人识别是语音信号处理的一项重要技术,是当前研究的热点之一。本文 在整理、归纳、总结前人工作的基础上,着重介绍了矢量量化技术和小波分析理 论在说话人识别中的应用并作了如下几方面的工作: 1 在w i n d o w s2 0 0 0 环境下,利用v c + + 6 0 编译系统开发了实时语音数据采 集系统,建立了语音数据库,为后续研究和测试做准备。 2 研究了矢量量化理论在说话人识别中的应用,对基于倒谱系数的方差加权 算法进行了分析和实验验证,结果表明该方法是有效的。 3 阐述了小波分析理论应用于语音增强的原理,并将基于自适应阈值小波去 噪算法应用于说话人识别系统的预处理。实验结果表明,这种方法具有语音增强 效果,应用于噪声环境下的说话人识别系统时,能够提高系统的鲁棒性。 关键词:说话人识别:特征提取;矢量量化;小波分析;语音增强 a b s t r a c t s p e a k e rr e c o g n i t i o n i st h em a i n a p p l i c a t i o n s o f s p e e c h p r o c e s s i n gt e c h n i q u e s a n do n eo fh o t s p o ta t p r e s e n t v e c t o r q u a n t i z a t i o na n dw a v e l e t ea n a l y s i st h e o r ya r e i n t r o d u c e d i nt h i s p a p e r s o m ew o r k i n g s a r ea sf o l l o w s : f i r s t ,b a s e do nv c + + 6 0 ,ar e a lt i m es p e e c hd a t as a m p l i n g p r o g r a m i sd e v e l o p e da n d p r o v i d er e a lt i m ed a t af o rt h er e s e a r c ho f “s p e e c hr e c o g n i t i o n a n d s p e a k e rr e c o g n i t i o n ” s e c o n d ,v qa n di m p r o v e m e n t a lv q a r i t h m e t i ci sp r e s e n t e di n t h i sp a p e r m o d e lb u i l tf o rt h es p e a k e rc o n s i d e r sf r a m ec h a r a c t e ro f s p e a k e ra b o u ts u b t l yp r o b a l i t yd i s t r i b u t i n g e x p e r i m e n ts h o w 廿l a t t h i s m e t h o di m p r o v e dr e c o g n i t i o nr a t a t h el a s t ,t h ep r i n c i p l eo fw a v e l e tb a s e ds p e e c hi m p r o v e m e n t i s e x p a t i a t e da n d a r i t h m e t i ci sp r e s e n t e d e x p e r i m e n ts h o wt h a tt h e a r i t h m e t i cn o to n l yh a se x c e l l e n te f f e c t so ns p e e c hp r e - p r o c e s s i n g b u ta l s oh a s p o t e n t i a lt oi m p r o v er o b u s t n e s so f as p e a k e r r e c o g n i y i o n s y s t e mi nn o i s ye n v i r o n m e n t s k e y w o r d s : s p e a k e rr e c o g n i t i o n ;f e a t u r ee x t r a c t i o n ;v e c t o rq u a n t i z a t i o n ; w a v e l e ta n a l y s i s ;s p e e c hi m p r o v e m e n t i l 西北大学学位论文知识产权声明书 本人完全了解学校有关保护知识产权的规定,即:研究生在校攻 读学位期间论文工作的知识产权单位属于西北大学。学校有权保留并 向国家有关部门或机构送交论文的复印件和电子版。本人允许论文被 查阅和借阅。学校可以将本学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学 位论文。同时,本人保证,毕业后结合学位论文研究课题再撰写的文 章一律注明作者单位为西北大学。 保密论文待解密后适用本声明。 学位论文作者签名:指导教师签名: 年月日年月日 西北大学学位论文独创性声明 本人声明:所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,本论文不包含其他人已经发表或撰写过的研究成果,也不包含 为获得西北大学或其它教育机构的学位或证书而使用过的材料。与我 一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的 说明并表示谢意。 学位论文作者签名: 年月日 西北大学硕士学位论文 第一章绪论 1 1 引言 根据语音来识别说话人的问题,最初是在第二次世界大战期间,美国国防部 向贝尔实验室提出的课题,其目的是根据电话窃听的录音材料,判断讲话人是哪 位德军高级将领,这对于分析德军战略部署具有重要意义。这项研究持续了三年 多,到二次世界大战结束,并未达到预期目的,但却产生了语谱图描记技术 ( s o n o g r a p h y ) ,为语音的三维图表征奠定了声纹分析技术的基础。这一研究经过4 0 年代到7 0 年代的逐渐积累过程,形成了靠说话人语音识别罪犯的声纹鉴定技术, 开始了说话人识别的研究潮流。说话人识别属于语音信号处理四大分支( 即语音识 别、语音合成、语音编码和说话人识别) 之一。说话人识别( s p e a k e r - r e c o g n i t i o n ) 和语音识别或言语识别( s p e e c h r e c o g n i t i o n ) 既有共同基础,又有不同的要求。 前者要求从语音信号中提取个体差异:后者要求排除个体差异,寻求不因人而异的 语词因素。说话人识别是从说话人所发语音中提取出说话人是谁的信息的过程为 此,需从各个说话人的发音中找出说话人之间的个性差异,它涉及到说话人发音 器官上的个性差异、发音声道之间的个性差异、发音习惯之间的个性差异。因此, 根据文献 1 :说话人识别是交叉运用心理学、生理学、语音信号处理、模式识别 与人工智能的综合性学科,从计算机学科角度来看,它可视为智能计算机的接口 科学:从信息处理科学来看,它属于信息或通信系统的信源处理科学:而从自动控 制学科来看它可看成模式识别中的一个主要部分。 说话人识别包括两个方面的基本内容:说话人辨认( s p e a k e r i d e n t i f i c a t i o n ) 和说话人确认( s p e a k e r v e r i f i c a t i o n ) 。正如图1 1 所示,说话人辨认是把待测 说话人的语音判定为属于多个参考说话人之中的某一个,是多者择一的问题。说 话人确认则是根据待测说话人的语音,确定是否与其所声称的参考说话人相符。 显然,说话人确认是一个严格的二元判决问题,即回答是还是不是这一说话人的 发音,而说话人辨认是一个多元判决问题,即回答是哪一位说话人的发音。习惯 上说话人识别这个词有时也常专指说话人辨认。 对于说话人识别来说,不管是辩认还是确认,都可以分为与文本有关的 ( t e x t d e p e n d e n t ) 和与文本无关的( t e x t i n d e p e n d e n t ) 两种方式。预先确定识 西北大学硕士学位论文 别发音内容的说话人识别称为与文本有关( t e x t d e p e n d e n t ) 说话人识别:不预先 确定发音内容,无论说什么话都可以进行识别的说话人识别,称为与文本无关 ( t e x t i n d e p e n d e n t ) 说话人识别。现在研究的方法多采用各个说话人说出惯用的 关键词句( 口令、暗号、姓名等) ,因为不同的关键词句也能作为线索使用,在实 用化方面容易得到比较高的识别率。 记录讲话者 是 a i 的 讲 话 ? 图1 - 1 说话人辨认和说话人确认 1 2 说话人识别基本原理与结构 本质上讲,说话人识别是一个语音信号统计模式识别问题,它由训练和识别 两个过程完成,提取说话人特征过程称为训练,根据待识别语音对说话人身份做 出判断称为识别过程。训练过程是从某一说话人大量语音信号中提取出该说话人 的个性特征,并形成参考模式。识别过程是从待识别语音中提取特征形成待识别 模式,与参考模式比较和判决,从而确定说话人身份。 1 2 。1说话人识别原理 无论是与文本有关的说话人识别,还是与文本无关的说话人识别,其基本原 理都是为每一个说话人建立一个能够描述这一说话人个性特征的模型,以其作为 这一说话人语音信号特征的标准图案。实际上现在采用的特征都是从语音信号 模型中得到的,它们既包含说话人的语音特征,又包含说话人的个性特征,并且 互相交织在一起以复杂的形式存于语音参数中,目前还没有建立起准确分离和 提取这两种特征的技术。因此当前为每一个说话人建立的说话人模型实际上是 浇话人的语音特征模型。说话人辨认,取与测试语音匹配距离最小的说话人模型 所对应的说话人为辨认的结果:在说话人确认中,用测试音的模型与所声称的说话 西北大学硕士学位论文 人的模型进行比较,若匹配距离小于一定的闽值,则该说话人得到确认,否则, 该说话人不是他所声称的那个人。由此可见,说话人辨认和说话人确认本质上没 有什么差别。图1 2 示出了说话人识别的原理图。 圈臣圈 l 语音输入厂;再i 司厂五磊云;磊i f 厂丽;r 识别结果 i 叫取卜_ 啼i 然函数计算r 叫策略卜_ i - - - - - - - - - - - - - - j - - - _ - - - - - - - - - - _ _ - - - - - - _ _ - ji - - - - j 图1 2 说话人识别原理图 因此若要实现对说话人的识别,需解决以下几个基本问题:1 对语音信号的预 处理和特征提取。2 说话人模型的建立和模型参数的训练。3 测试音与说话人模 型的匹配距离计算。从说话人的语音信号中提取出说话人的个性特征是说话人识 别的关键。为了对说话人个性特征描述的一致起见,常将每一说话人的模型结构 取得相同,不同的只是模型中的参数,通过用训练语音对模型进行训练得到参数。 采用不同的说话人模型结构对应了说话人识别的不同方法 2 。 1 2 2 说话人识别系统结构 说话人识别系统的基本结构示于图1 3 中,其基本组成部份如下: 1 语音信号的预处理和特征提取:声音是个复杂的信号,它是在不同级别上进行了 不同的转换后得到的结果:语义的、语言的、分节的、声学的。这些转换上的差别 体现了声音信号的声学属性的差异。与说话人有关的差异是声道在解剖学上的差 异和后天说话习惯差异的综合结果。在说话人识别中,这些差异都可以被用来区 别不同的说话人。特征提取( f e a t u r e e x t r a c t i o n ) 把声音的每个片段( 1 0 3 0 m s ) 映 射到多维的特征空间,从而得到能表征说话人的特征向量序列。对于说话人识别, 提取的特征应该具有下列要求:具有很高的区别用户的能力,能够充分体现用户个 体间的较大的差异,而对用户自身的差异则体现的不明显。目前,主流的浇 西北大学颈士学位论文 图l 一3 说话人识别原理圉 结果 话人特征主要有美尔倒谱系数( m e l ) 和线性预测系数( l p c ) 以及它们的变体。 2 说话人模型的建立和模型参数训练:要求系统能够识别说话人,需要首先用说话 人的语音对系统进行训练,这一过程一般不需要在线进行。无论是在识别系统建 立时,还是在识别系统扩展时( 如需增加或减少系统所登记的人数) ,对模板训练 部是必需的。由于说话人的声音常随时期和年龄而变化,常常需要在说话人辨认 或说话入确认结果是正确时,由测试音对已识别正确的说话人的模型进行自适应 调整和修正,从而构成自适应说话人识别系统,这时模型的训练则是在线进行的。 对模型训练实际上是用训练语音的特征对模型参数进行估计,估计出的参数就表 示了说话人的个性特征 2 。 3 测试音与说话人模型的匹配距离计算:测试音的特征与说话人模型进行匹配,计 算匹配距离。说话人确认时。只与所声称的说话人的模型进行匹配和匹配距离计 算,说话人辨认时,与所有说话人的模型进行匹配和匹配距离计算。 4 识剐或判决策略:根据匹配距离的计算结果判决说话的人是否是所声称的说话人 ( 说话人证实) 或说话人到底是谁( 说话人辨认) 。 5 自适应部分:考虑人的状况不断变化,有的系统设有这一部分,从而能够根据说 话人识别的结果对其模型参数进行实时更新。 1 3 说话人识别的应用领域 4 西北大学硕士学位论文 说话人识别的应用源远流长,首次利用声音作为推断犯人作案的线索,据说 是从1 6 6 0 年英国查尔斯一世之死的判决开始。其后随着时代的进展,电话克服了 距离的障碍,录音手段克服了时间的障碍从而对声音的说话人个性特征的分析 得到了关注,从1 9 7 3 年开始,以c a l i n d b e r g h 先生的儿子被拐骗事件为开端, 对声音的说话人个性开展了科学的测量和研究,1 9 4 5 年美国贝尔实验室r k p o o t e 发明了声音频谱图,并且能把所谓的声纹( v o i c e - p r i n t ) 自动描绘出来。从此对声 音频谱开始使用“声纹”这个词,1 9 6 2 年贝尔实验室l g k e r s t a 第一次介绍了采 用上述方法进行说话人识别的可能性,1 9 6 6 年美国法院第一次采用此方法进行了 取证。 在说话人识别研究中,除了研究用视觉判断声音频谱图的线索外,在由听觉 判断是谁的声音时,研究了利用声音的各种特征问题。近几年来,由于计算机的 发展,自动说话人识别方法的研究得到了迅速的发展。随着信息化社会的发展, 说话人识别作为具有语音识别与理解功能的智能人机接口,是新一代计算枫的重 要组成部分,其应用领域正在不断扩大,主要方面有: 1 说话人核对:在电话预约服务中,以用户的声音实现汇款、转账、余款通知、转 款、股票行情信息咨询,以及未来可能出现的 n t e r n e t 信息服务中的声音身份确 认等:用特定人的声音实现机密保管场所的出入人员检查:用工厂职工的口令实现 职工签名管理等。 2 声控电子密码镀:实时执行军事指挥员或飞机驾驶员的口述命令( 如实时发炮命 令等) 、只有有经验的操作人员才能进行高精度控制等。 3 搜索罪犯:判断罪犯时,所记录的声音究竟是多个嫌疑犯中的那一个人的声音, 有时可能嫌疑犯中不包括真正的罪犯,这时常常需要说话人辨认和说话人确认的 结合。 4 医学应用:如果使说话人识别系统只响应患者的命令,从而实现患者对假肢的控 制等。 利用说话人的声音较之利用说话人的文字有如下的特点: 1 意图能更快地在发出声音时得到反应,这一点对于实时控制和实时指挥尤其重 要: 2 语音信号一般没有严格的方向性,可在黑暗中传播,并且可以方便地通过电话 西北大学硕士学位论文 线传播: 3 即使是人手被占用的情况下声控也是可以实现的。 1 4 说话人识别技术的发展状况 对说话人识别的研究始于2 0 世纪3 0 年代。早期的工作主要集中在人耳听辨实 验和探讨听音识别的可能性方面随着研究手段和工具的改进,研究工作逐渐脱 离了单纯的人耳昕辨。b e l l 实验室的l g k e s t a 目视观察语谱图进行识别,提出 了“声纹( v o i c e p r i n t ) ”的概念。之后,电子技术和计算机技术的发展,使通过 机器自动识别人的声音成为可能。b e l l 实验室的s p r u z a n s k y 提出了基于模式匹 配和概率统计方差分析的声纹识别方法,而引起信号处理领域许多学者的注意, 形成了声纹识别研究的一个高潮,其问的工作主要集中在各种识别参数的提取、 选择和实验上,并将倒谱和线性预测分析等方法应用于声纹识别。 7 0 餐代寒受今,说话入识鄹的研究重点转向j c 重各秘声学参数的线谯或非线性 处理及新的模式匹配方法上,如动态时间规整( d t w ) 、擞分量分析p c a 隐马尔可来 模型( 瓣) 、李枣经霹终模燮羁多特廷缝会等技零。如今,说话入识别穗逐澎是入 实际应用。a t t 应用说话人识别技术研制出智能卡,积应用于自动提款机。欧洲 瞧逶联装在魄痿与众麓结会矮域斑霜说话又谖象技术,予t 9 8 8 年竞成 c a v e ( c a l l e v e r i f i c a t i o ni nb a n k i n ga n dt e l e c o m m u n i c a t i o n ) 计划,并于同年 启动7p i c a s s o ( p i o n e e r i n gc a l l 矗u t h e n t i c a t i o nf o rs e c u r es e r v i c e o p e r a t i o n ) 计划,在电信网上完成了说话人识别。同时,m o t o r o l a 和v i s a 等公圊 成立了v c o m m e r c e 联盟,希望实现电子交易的自动化,其中通过声音确定人的身份 是j 逛矮霪豹璧要缀成鄢分。其德瓣一些藏用系统还包拯:i t t 鲍s p e a k e r k e y , k e y w a r e 公司的v o i c e g u a r d i a n ,tn e t i x 公司的s p e a k e z 等。 说话入谖翮嚣子浮密谈裂戆研究谍驻。惑瓣来谤浚把簪 究势为姆经骚突方 面和模型研究方面。 1 ) 特征研究方瑟:孚在1 9 7 4 a t & t 的a t a l 5 2 雳谮啬信号豹缓谱系数( c e p s t r u m c o e f f i c i e n t s ) 特征和模式匹配的方法进行文本依赖的说话人议剐,得如c e p s t r u m c o e f f i c i e n t s 比a r e ac o e f f i c i e n t s 肖更高的识剐率。随后,用新特征和新说剐 方法鲶谈嬲工 窜殪续出现。特诬有l p c c ,f i i t e r b a n k ,m e l c e p s t r u m ,和它们之 5 西北大学硕士学位论交 间的有效组合:文献 5 3 中已提出寻找新的语音特征是研究的热点。如文献 5 4 提 出基音与谱特征的结合组成的多空间概率分布特征。 2 ) 模型研究方面:先后有d t w ,v q ,h m m ,g m m ,n e u r a ln e t w o r k o 。d o d d i n g t o n 5 5 用f i i t e r b a n k 和d t w ,s o o n g 用v q ,r e y n o l d s 用m e l c e p s t r u m 和g m m 无文本说话人 识别 5 6 此外还有g 姗模型与支持向量机s v m ( s u p p o r t v e c t o rm a c h i n e ) 的混 合模型 5 7 j 。随着n e u r a ln e t w o r k 研究进展,用n e u r a ln e t w o r k 及其与其他模型 ( 删,g 删) 组成的混合模型也大量出现。如o g l e s b y 和m a s o n l s l 研究c e p s t r u m c o e f f i c i e n t s 作为b p n e t w o r k 输入的识剐方法,他们的实验证明这种方法与识别 的效果相当。后来,他们又进行了基于r b fn e t w o r k 的有文本识别。n t t 实验室的 t m a t s u i 和s f u r u i 使用倒谱、差分倒谱、基音和差分基音,采用v q 与删混和 的方法得到9 9 3 的说话人确认率。还有t a d a s h ik i t a m u r a 的基于有文本二维 m e l c e p s t r u m 作特征的p r e d i c t i v en e t w o r k 方法 5 8 等等。另外,近两年基于s v m 的说话人识别的研究较热,出现了较多的基于s v m 及其混合模型的研究,除了文献 5 7 ,国内还有候风雷,他实现了基于说话人聚类和支持向量机的说话人确认 5 9 。在说话人辨认方面,他结合语音信号的特点,解决了大数据量情况下s v m 的 训练阃题【6 0 。由于 嘞适合于处理连续信号,而s v m 适合于处理分类问题,忻栋 6 1 以s v m 结合删提出一个文本无关的说话人确认的算法。该算法将支持向量机 ( s v m ) 的输出通过s i g m o i d 函数和高斯模型转化为概率,并作为隐式马尔可夫模型 ( h 姗) 中各个隐状态的输出概率。 1 5 说话人识别技术难点 语音识别和说话人识别属于语音处理的两个领域,但相对于语音识别来说, 说话人识别更加困难,一个简单的例子是我们在接电话时一般不会搞错通话内容, 却常常不知或误判对方的身份,这主要由说话入特征提取问题所引起,大致可归 结为以下几个方面: 1 未找到简单可靠的说话人语音特征参数:语音信号中既包括了讲话内容的语义信 息,又包括了说话人发音特征的个性信息,是语音特征和说话人特征的混合体, 到目前为止,还没有好的方法将说话人的特征从说话人所发语音的语音特征中分 离出来,也没有找到简单的声学参数能够可靠的识别说话人,从而给说话人识别 带来一定的难度。 西北大学硬士学位论文 2 语音信号的变异性:既使对同一说话人和同一文本,语音信号也有很大的变异性。 说话人的发音常常与环境、情绪、健康状态有密切关系,说话人的特征与“指纹” 不同,指纹是静态的、固定不变的物理特性,而说话人特征具有长时变动特性, 会随着时间和年龄的变化而变化,这种具有变动性质的说话人个性特征与“声纹” 这个词是不一致的。另外传输语音的通信信道的时变效应问题也是语音信号产生 变异的重要方面。语音信号的变异性从本质上使说话人特征空间发生移动,说话 人模式产生变异,从而增加识别过程的不确定性。 3 数量的差异:在汉语语音识别中,全体音节( 字音) 的集合较小,其数目仅几百个, 而全体说话人却有1 3 亿。对于由同一语音信号组成的特征空间,语音识别要将其 划分为m 个子空间( 归音节个数) ,而说话人识别要将其划分为n 个子空间( n - 说 话人个数) ,由于n 可能远大于m ,使得识别说话人要比识别所说内容复杂。而且 当n 很大时,说话人识别还在理论上存在将有限空间进行无穷划分的问题,这是 说话人识别所面临的新问题。 4 。声音往往是可以模仿的;尽管说话人识别有一定的难室,但语音中所包括的个性 信息一般有两种,一种是由声道长度、声带等先天性器官的个人差异产生的:另一 种是由方言、语调等后天性说话习惯产生的:而先天性发音器官的个人差异是难于 模仿的 2 3 4 7 。在目前没有将说话人的个性特征从语音特征中分离出来的 好办法时,采用固定文本内容从而得出说话人个性特征的方法,和不固定文本内 容从语音信号的统计信息中得出说话人个性特征的方法。 1 6 研究的任务 1 8 1 语音信号数据平台的建立 在“语音识别”和“说话人识别”的实际系统中,都需要采集现场的数字语 音数据:其对数据的实时性要求较高。本文在w i n d o w s2 0 0 0 环境下,采用v c + + 6 0 开发了一个实时语音数据录入系统。本系统采用低层音频服务函数,这些函数允 许应用程序直接与底层音频驱动程序通信,对录音和播放提供更强更灵活的控制, 以达到系统硬件所能提供的功能极限 8 。实验表明,该平台能够为说话人识别系 统提供实时的数据支持。 1 ,6 2 矢量量化及其改进算法在说话人识别中的应用 西北大学硕士学位论文 在对矢量量化及其改进算法的基本原理迸干亍了分析的基础上,深入研究了基 于方差修正的v q 算法。实验表明,改进后的方法能提高系统识别率。 1 6 3小波分析理论在语音增强上的应用 语音增强是在说话人识别系统的前端预处理中对语音信号进行去噪,提取原 始语音的过程。本文阐述了小波语音增强方法的原理,研究了一种小波语音增强 算法在说话人识别中的应用效果。实验结果表明,这种方法能增强语音效果,应 用于噪声环境下的说话人识别系统时,能够提高系统的鲁棒性。 第二章语音信号的一般分析方法 语音信号是一种典型的非平稳信号,对非平稳信号常采用短时平稳方法来分 析,经研究在l o - 3 0 m s 内,人的发声模型是相对稳定的所以在这样一个短的时 间间隔内,可用平稳信号的分析方法来处理声音信号。实践中我们常取2 0 m s 时间 间隔来对语音信号进行分帧处理。 2 1 语音信号的时域处理方法 1 采样与量化 首先将模拟语音信号s ( t ) 以采样周期t 采样,将其离散化为s ( n ) ,采样周期 的选取应根据模拟语音信号的带宽( 依香农定理确定) ,以避免信号的频域混叠失 真。在对离散后的语音信号进行量化处理过程中会带来一定的量化噪声和失真。 2 预加重处理 对于语音信号的频谱,通常是频率越高谱值越小。在语音信号的频率提高两 倍时,其功率的幅度约下降6 d b ,因此,需对其进行高频增强。预加重部分也应采 用6 d b o c t 来增强语音信号的高频部分。经预加重处理后的语音信号,其高频部 分可与中频部分( 1 - - 2 k h z ) 的幅度相当。硬件实现时,可用6 d b o c t ( 2 0 d b d e c ) 梯 度的高频增强型滤波器,其传递函数为 矗( s ) = 丘尚 软件实现时,数字滤波器的z 传递函数为 h ( z ) = l - a z 。 其中a 为预加重系数。可取为1 或比l 稍小的值。一般取值为a = o 9 3 7 5 。 3 加窗 语音信号是一种典型的非平稳信号。但是,由于语音的形成过程与发音器官 的运动密切相关,这种物理运动比声音振动速度要缓慢得多,因此语音信号常常 可假设为短时平稳的,即在1 0 2 0 m s 这样的时间段内,其频谱特性和某些物理特 征参量可近似地看作是不变的。这样,我们就可以采用平稳过程的分析处理方法 来处理了。这种依赖时间处理的基本手段一般是用一个长度有限的窗序列 w ( 【i ) 1 0 堕! ! 查堂堡圭茎垡堡奎 截取一段语音信号来进行分析,并让此窗序列滑动以便分析任意时刻附近的信号, 其一般式为: q n 历三c o , x ( 用) 矿( 力一仞) c z 刊 其中t 表示某种运算,x ( m ) 为输入信号序列,式( 2 1 ) 是卷积形式,因此q n 可以 理解为离散信号t x ( m ) 经过一个单位冲激响应f w ( m ) 】的f i r 低通滤波器产生的输 出。如图2 - i 所示。由于窗函数一般取为使x ( n ) 中间大两头小的光滑函数,这样 的冲激响应所对应的滤波器具有低通特性。其带宽和频率响应取决于窗函数的选 择。用得最多的三种窗函数是矩形窗、汉明窗、汉宁窗。 图2 - i 短时分析原理的一般表示 在对语音信号进行分析时,需将语音信号划分为一个一个的短时段,每一短 时段称为一帧,用窗函数乘以语音信号就从语音信号中提取出含有n 个样本的语 音信号波形。为尽可能不丢失语音信号动态变化的信息,常采用滑动窗,即帧与 帧之间有一定的重叠,帧移量常取为帧长的一半 2 1 0 11 。 4 特征提取 语音信号通常以8 k h z 或更高的速率数字化,每个采样值至少用8 比特,几秒 钟的语音就有很大的数据量。提取说话人特征的过程,类似于对语音信号编码以 减少数据量的过程。从语音信号中提取的说话人特征参数应满足以下准则:对局外 交量( 例如说话人的健康状况和情绪。系统的传输特性等) 不敏感:能够长期保持稳 定:可以经常表现出来:易于对之进行测量:与其它特征不相关。同时满足以上要求 的特征通常不易找到,一般采取一些折衷措施。按参数的稳定性,说话人特征参 数可大致分为两类:一类是说话人生理决定的固有特征( 声道构造的个性差异等) 反映在基音和低频共振峰,这类特征不易模仿但容易受到健康状况的影响:另类 是声道运动的动态特征,也就是发音方式、发音习惯等,这类特征相对稳定却比 较容易模仿。 说话人识别研究中已使用过的特征参数主要有基音及其共振峰,线性预测系 西北大学硕士学位论文 数,倒谱系数,m e l 频率倒谱系数。不同的特征参数的物理意义不同,基音及共振 峰是表征说话入固有特征的参数:以全极点模型为基础的线性预测系数可以较为 精确地反映语音信号的频谱幅度。把语音信号每一段看成准周期脉冲或随机噪声 激励一个线性时不变系统的输出,用解卷积的方法将激励信号和系统冲激响应分 开,倒谱系数反映了声道的共振性能。利用听觉系统频率的非线性特性得到m e l 频率倒谱系数 1 1 。 2 2 语音信号的端点检测 在进行语音信号特征的提取前,需要判断从麦克风采样与量化后的数据是否 是语音数据即有话与无话的判断。特另4 是在实时处理系统中,利用语音来激活说 话人识别系统,更需要准确的判断是否是有话,然后再进行数据的处理,否则系 统不管是否是话音数据都进行处理,从而占用系统大量的资源。这就涉及到语音 的端点检测,利用信号的短时能量与短时平均过零率来达到自动检测语音的起止 点。 2 2 1 短时能量和短对平均过零率 信号 x ( n ) 的短时能置定义为: 乞: 鐾 j ( 历) 术甲( 门一甸 2 c z z ) 令 0 ) = w 2 ( 一) ,则有 吒:莹x ( 功2 卑由( 力一历) ( 2 - - 3 ) 此含义可以用图2 1 中的低通滤波器作用来解释,h n ) 是低通滤波器的单位冲击 响应。 信号f x ( r 1 ) ) 的短对过零率定义为: 乙= s g n 盖( 门) 一s g n z ( n 1 ) l ( 仃一册) ( 2 4 ) 一般耿 w ( 以) = y ( n ) = c ( n ) = o 刀 c l 时 0当lx ( n ) i c l 时 x ( n ) + 0 l当x ( n ) 一0 l 时 信号的过零率是其频率量的一种简单的度量,窄带信号尤其如此。特别地, 当信号为一正弦波时,过零率是信号频率的二倍。对于采样率为居、频率为r 的 正弦波数字信号,平均每个样本的过零数为2 f j f s 。 过零率有两类重要应用:第一,用于粗略地描述信号的频谱特性,这就是用 多带滤波器将信号分为若干个通道,对各通道进行短时平均过零率和短时能量的 计算,即可粗略地估计频谱特性。第二,用于判别清音和浊音、有话与无话。利 用上述定义计算过零率易受低频干扰,特别是5 0 h z 交流干扰的影响。解决这个问 题的方法。一个是做高通滤波器或带通滤波,减小随机噪声的影响。另一个有效 的办法是对上述定义做一点修改,设一个门限t ,将过零的含义修改为跨过正负门 限,参见图2 _ 2 该图设有多个门限,可供选择。 门限3 门限2 门阴1 r j 稍1 门限2 门限3 于是,定义可改为 。 j,、 z n = s g n x ( n ) - t - s g n e x ( 月一1 ) 一, 7 = - - c o s g n x ( 厅) + , 一s g n x ( _ ,7 1 ) + , l w ( n m ) 时间 这样计算的过零率就有一定抗干扰能力了。p p 使存在小的随机噪声只要它不使 信号越过正负门限所构成的带,就不会产生虚假的过零数。在语音识别前端检测 时还可采用多门限过零率,进一步改善检测效果 1 2 。 2 2 2 双门限前端检测算法 汉语的音节末尾都是浊音,只用短时能量就能较好地判断一个词语的末点。 当然,有时韵尾拖得长,衰减比较缓慢,有时韵尾衰减比较快,难免有点误差。 一般只要短时平均幅度降到该音节最大短时平均幅度的1 1 6 左右以后,就可以认 为该音节已经结束。实际上截掉一点拖尾,也不会明显影响识别效果。因此汉语 孤立词语的末点检测不存在什么困难。 汉语词语的起点检测不仅有一定难度,而且检测是否准确对语音识别性能影响 颇大,因为大多数声母都是清音母,还有送气与不送气的赛音和塞擦音,将它们 与环境噪声分辨是比较困难的。语音刚开始的一段,其短时能量的大小与背景噪 声的短时能量大小差不多,因此要想可靠地检测到语音起点,存在较大困难。双 门限法是考虑到语音开始以后会出现那能量较大的浊音,设一个较高的门限t t 用 以确定语音的开始,再取一比t 。稍低的门限t 。,用以确定真正的起止点n l 及结束 点n 。判断清音与无话的差别,是采用另一个较低的门限t 。,求越过该门限“过 零率”。只要t 。取得合适,通常背景噪声的低门限过零率值将明显低于语音的低门 限过零率值,如图2 3 所示。 t h t l t 能量 厂、 7 - - 。- 一 过零n 1 n 2n 3 n , 山一 n n 2n 3 图2 - - 3 双门限前端检测法 d n n 西北大学硕士学位论文 这种方法普遍地用于有话、无话鉴别或词语前端检测。通常窗长( 即帧长) 取 l o 1 5 m s ,帧间隔( 采样间隔) 取5 1 0 m s 。双门限法与一般的单门限过零率相比, 可明显地减少前端误判,但是有时存在较大时延。因此首次找到高门限越过点, 再往前推可能要搜索2 0 0 m s 左右才能找到清音的起点,这就不大便于实现实时特 征提取。多门限过零率法是设置多个高低不同的门限,如三个门限:t 。 t : z 。时判为有话帧,z 吒时 0 当ix ( n ) i c l o t x ( n ) + c l当x ( 力) o 时 当y ( n ) = o 时 当y ( n ) 0 时 显然y ( n ) 只有一1 ,0 ,+ l 三种可能的取值,因而这里的互相关计算只需做加减法 而这个互相关序列的周期性与 y ( n ) 的自相关序列是近似相同e l3 1 j 。 2 4 倒谱系数:倒谱系数是用于说话人特征和晚话人识别的有效的特征之一。 1 6 西北大学硕士学位论文 2 4 1 倒谱定义 语音信号是声道频率特性和激励信号源二者共同作用的结果,后者对于某帧 而言常带有一定的随机性,而说话人的个性特征很大程度上取决于说话人的发音 声道,即声道频率特性。因此,需将这两者进行有效地分离。由于语音信号是由 激励信号与声道频率响应相卷积的结果,可将信号作适当的同态滤波,将卷积的 两个部分分离。滤波的关键是先将卷积处理化为乘积,然后作对数处理,使之化 为可分离地相加成分。将一帧中的语音信号s 。= i 。搴h 处理为其倒谱系数c 。的过程如 图2 5 所示。图中i 表示语音信号的音源激励分量,h 。表示声道分量( 即声道冲 激分量) 。用f f t 算法计算s 。的短时付里叶变换,就会在b 点得到音源激励与声道 冲击响应付里叶变换的乘积,取这一乘积的幅度的对数,在c 点就得到了音源激 励与声道冲击响应的付里叶变换对的对数和。对其进行付里叶逆变化,将在d 点 所得到的信号称为是s 。的例谱c 。,也称为倒谱系数,它是音源激励分量的倒谱i 。 和声道分量的倒谱h 。之和。因h n 描述了说话人声道的频谱,故是非常有效地说话 人个性特征参数。 图2 - 5 倒谱分析 2 4 2 倒谱特性 若语音信号用全极点模型表示,则声道特征可以写成如下的极点描述形式 h ( 妒两2 一磨- 南 q _ g e p i b 。i 1 ,故啊= l n h ( z ) = l n a - 蠢l n ( 1 - b k z 。1 ) 对in ( 1 一a z 。1 ) 作幂级数展开,有恒等式 ( 吲 0 ,ib kk1 ) ( n 0 ) 由上式可知声道分量的倒谱系数按1 n 的趋势随n 的增加而衰减,即 h n cl 百a n i( o 几 o o ,i i 1 ) 其中c 为常数,a 为抗中的最大值。因此,声道分量的倒谱将集中在语音信号倒谱 的低时部分。 对于音源激励分量,当语音为浊音时,可以表示为周期性的冲激信号 i 。:兰a ,a ( 一r n ,) 。=a ,6 【仃一 ,j ,= 0 其中毋为冲击强度,膨为冲击串间隔,由上式得 ( 2 7 ) ( z ) :罢黾z 一 p ( 2 - 8 ) r = 0 可见i ( z ) 是变量z 唯的多项式,可将i ( z ) 写成若干个形为 ( 1 + a z 、,) 与( 1 + b z + 、一) 的因式乘积的形式,故可得 而忏掣们i z _ n p ) + ,i n ( 1 + b j z 一) ( 2 - 9 ) 将( 2 - - 6 ) 式代入( 2 - - 9 ) 式得 而:誊( 一1 ) 仃+ 1a 7z n p + 萎( - 1 ) n + 1b ;z n n p ( 2 一l 。) 对i ( z ) 进行z 变换,可知_ 也是一冲激串,冲激串间隔为n p 。当语音为清音时, 音源激励为随机噪声,导致在i n ( z ) 6 f 产生一个快速变化的随机成分( 即其倒谱不含 有周期性脉冲) ,除此外,与浊音语音情况基本相同。由上面的分析,可知语音信 号倒谱具有如下性质: 醒o m 西北大学硕士学位论文 ( 1 ) 倒谱的低时部分对应于语音信号的声道分量,且按i n 的趋势随n 的增加而衰 减,故用维数不多的倒谱分量足以表征语音的声道分量。 ( 2 ) 倒谱的高时部分对应于语音信号的音源激励分量。当激励源为周期性脉冲时, 倒谱的对应分量也为等间隔的冲激脉冲串,k 较大,故处在高时段。 由此可见,由于声道和音源激励所处的倒谱时段不同,通过语音信号倒谱的 低时段和高时段可以将它们分离,彼此基本互不干扰,尤其是可避免声道分量受 到具有随机变化的音源激励分量的干扰。由于倒谱的低时部分描述了说话人发音 的声道特性,故常用于说话人识别的说话人个性特征参数。 在时域,冲激串与声道是卷积的关系,各周期之间常常存在混叠,无法把两者 很好的分离。但是,在复倒谱域中冲激串与声道分量是相加的关系,采用宽度小 于n ,的倒谱窗,就可以去掉冲激串得到声道分量的估值,在通过反特征系统,实 现解卷。在倒谱系数的提取中常常会采取加权,这是由r a b i n e r 等人首先提出来 的。其基本理论依据是低阶倒谱系数对由信道干扰引起的谱的畸变较为敏感,而 高阶倒谱系数对噪声比较敏感,如果选择合适的权值,对各阶倒谱系数进行适当 的加权处理,以提升那些受谱的畸变和噪声影响小的成份在整个谱向量中的作用, 则可以提高系统的鲁棒性。常采用一种半个正弦波或类似两头小中间大的倒谱窗 来提取倒谱系数,效果较好。加权倒谱窗有多种形式,较典型的一种是: ,( 几) =j js n ( n7 r 7 n 。 in i 尺 式中,口称为尺度因子,在定意义上代表频率“j的倒数,r 称为平移因子。 母小波妒( ) 具有很好的时频局部化特性,其f o u r i e r 变换满足 已0 0l 丛! ! 止d u 。 j 一 。 上式称为小波函数的允许性条件。 设信号x ( t ) 取尺) ,连续小波变换( c w t ) 由下式定义 咏= 5 5 g r o s s m a n n - m o r l e t 小波变换不仅提供了更好的描述时频域的基,而且和人类听 觉的加工特点相一致。例如,生理学研究证明,对听觉起关键作用的耳蜗内基底 膜,其

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论