(计算机软件与理论专业论文)说话人识别系统中语音特征参数提取方法的研究.pdf_第1页
(计算机软件与理论专业论文)说话人识别系统中语音特征参数提取方法的研究.pdf_第2页
(计算机软件与理论专业论文)说话人识别系统中语音特征参数提取方法的研究.pdf_第3页
(计算机软件与理论专业论文)说话人识别系统中语音特征参数提取方法的研究.pdf_第4页
(计算机软件与理论专业论文)说话人识别系统中语音特征参数提取方法的研究.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

(计算机软件与理论专业论文)说话人识别系统中语音特征参数提取方法的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

沈阳工业大学硕士学位论文 摘要 说话人识别指的是根据说话人所发语音,确定出说话人是谁的过程,也就是基于声 音这种生物特征作为身份认证依据的识别技术。为此,需要从各个说话人的发音中找出 说话人之间的个性差异,它涉及到说话人发音器官上的个性差异、发音声道之问的个性 差异、发音习惯之间的个性差异等。 本文设计的系统是文本相关的说话人辨认系统。为了较好地提取语音特征参数,首 先要获得去噪后的干净语音信号,在本文中采用的是小波去噪的方法去除语音信号中的 环境噪声。为了得到有效的语音段,本文采用能频值来检测语音信号的端点。并且为了 体现能频值端点检测算法的优越性,本文对比了传统的双门限端点检测算法和能频值端 点检测算法对同一语音端点检测的效果。实验结果发现,能频值端点检测算法能够更好 的检测到语音起始点和终止点,只需要调节一个相对阈值就能很好地确定语音端点,优 点非常明显。 本文采用线性预测倒谱系数、美尔倒谱系数和基音周期并通过对它们进行加权、微 分、组合和过滤操作获得三维特征参数的策略,进一步挖掘语音特征参数背后的隐性特 征,并对比了传统特征参数的单维提取与三维提取的实验结果。实验结果表明三维参数 提取有效的提高了系统的识别性能。识别算法采用隐马尔可夫模型来匹配模板。实验结 果表明,本系统识别率高,语音段长度短,容易采集,计算速度快。 在安全级别要求较高的场合采用文本相关说话人识别系统,不仅能识别口令或密 码,而且保证了系统的安全性能。 关键词:说话人识别,能频值端点检测,三维特征参数,隐马尔可夫模型 说话人识别系统中语音特征参数提取方法的研究 r 船e 盯c ho f e ) 心a c t i o nm e t h o dt 0s p e e c hf e a t u r e 心g u m e n t i ns p e a l ( e rr e c o g i l i t i s y s t e m a b s l t a c t s p e a l 【盯r e c o 酬o ni st h 砒d e t c 】m l i l l i 】唱w h oi st h cs p e a k 盯b yh i sv o i c e ,a n da l i sa p f l 暑c o 嘶t i v ct e c h l l o l o g ) rt h a tb a s e d v o i c e 笛t b e 嘲l t i sa l i i 【h e 鲥c a t i o n f t h i s ,i :t n 凼 i 础v i d u a ld i 丘h e 船锄n gt h es p e a l 【e 璐f 妇t h c i rv o i ,s u c h 硒i n d i v i d u a ld i 仃曲嘶c 嚣o f s p e a k 哪s p c ho r 髓崛i n d i v i d u a ld i | 渤煳粥o fs p e a l 【e 撂p 舢岫t l n dn l 【sa n d i n d i “d u a ld 珊酿眦嚣o f 印e 豳嘲p f o u 勰h a b i 乜 1 1 l i sp a p 盯d c s i g 衄at c :n d e p a l d 髓ts p e a k e ri d 酬6 c a t i s y g t e m f 研e 赋r a c t i n gt l l e 觑血嘴删驷n e n to fv o i w e l l ,“n d st a k et l l ec l e 锄s p e hs i 弘a la 胁彻n o v 证g i s y 6 r s t _ i y ,l b i sp a p 盯崩n o v 酷“删m 雠t i s yo fs p e e c hs i g n a ll l s e db y 啪v e l e t 删f 盯 t a l 【i n g u 辩m is p e e c h c t i 汕i sp a p c r 咖i 嬲v e n l o fs p e hs i 鲫i a ll l s e db y e n e f g y n 明啪c y - v a l 化f o rm a n i f e s 血g 蚰p e r i o ro f 髓咐丘蜘眦眦y - v a l mm 酏o d i tg i v 懿 m p a r i no f 也et w oe n d p o i n t 麟删蛳t h o d s 批t h 砒d o u b l e - g 砒ct h r e s b h o l d 删地o da n d e q 驴矗q y 删u cm 甜1 0 d e x p e r i m e “bs h o wt i l a l 朗e r g y - 缸q u 蚰c y - 恤 m e t h o d 啪e x 鲫n i l s t a r ta n d 髓do fs p c hs i g n a i t h e 既盯g y - 矗屯q l l e n c y - 、融u eo n l yn d 鲥j 璐ta r e l a l i 、,ct h r e s h o l dv 羽u ef o rd e t e m l i i 】i i n gw 咖旺o f s p e c c k “h 勰o b v i 邮s u 删o r i t i 船 1 1 l i sp 印盱u s e dl i n 谢刚i 甜c e p 叫c o e 艏c i e n l l p c c ) ,m e l - 丘蜘u 咖yc e p 叫 c m c i 锄t s ( m f c c ) 锄dp 沁h t h i sf l l 劬唧角砷l l m 呱的c t i 蛐m e t h o di sp r o p o s o c l i l lw 蛐c h e 弼e c t i v em g u 瑚s 眦h 鹪w e i g h t ,d i 野b 陀鲥a l ,c o m b i m 瞳i a n d 矗,a t a l 【t oe x p l o 曲b v o i d 塌船c t e i i s 蛞c st l l a l 锄b eu d 幻d i s t i l i g l l i s hd i 妊h 明吐s l e a k e 招a n d “g i v e s a 嘲脚锄o f t b e 咖e n l p 献嘲蝴n m e 吐i o d s 蛳也缸仃a d i ! t i o i l a l f e a 士i l r e e x b :a c t i o n 锄d 矗l n :h 盯f e a n 鹏嘞麓c t i m 劬o d e x p e r i i 】榭1 忸s h o w 也砒f l l n h 盱f n 鹏麟舰c 吐咖 珊弛o dc 雏h e i g h t e i ls y g t e mf i l | 1 c t i o no f 舢印硒t h cf i g 哪o fr _ e c o g i l i t i u s e dp 砒锄 m a t c h i n gm c t j l o d h i d d m a r k o vm o d e l ( h m m ) e x p 盯i i 幻恻她s 蛔啊t h a l 嗍嘶t i v e 豫t eo f t h i ss y s t 锄i sg d ,s p e h 辩商o ni ss h o n ,t a l ( i n g 髑鳓ya n dc a l c i l l 础gq l l i c h y h 璐e 蛔出d e p e n d e n ls p e a k 盯佗c o 印m s y g 比m 砒o 雒i o 璐a 衄e dg 嘲d y s a f e t y ,n o to i l l ym s t i n g l i i s hp a 鹃w o r d s ,b u ta l e 地i 玳鞠f b t yo fs y g t c l n 一一 沈阳工业大学硕士学位论文 i ( 巧w o r d s :s p e a k e rr 艘。驴i t i o n ,e e r 斟f r e q u 蛐c y - v a l e ,f h n h 盯蛔恤n , 独创性说明 本人郑重声明:所呈交的论文是我个人在导师指导下进行的研究工 作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得 沈阳工业大学或其他教育机构的学位或证书所使用过的材料。与我一同 工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表 示了谢意。 签名:堕日期缓比 关于论文使用授权的说明 本人完全了解沈阳工业大学有关保留、使用学位论文的规定,即: 学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公 布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论 文。 ( 保密的论文在解密后应遵循此规定) 签名:邀导师签名:丕耋奎拿日期:盟: 、j 。 沈阳工业大学硕士学位论文 1 绪论 1 1 身份认证 在我们的生活中,有很多的场合需要身份认证。身份认证也就是鉴定一个人的真实 身份或者确定一个人所宣称的身份与他的真实身份是否符合。网络信息化时代的一个特 征就是身份的数字化和隐性化。如何准确鉴定一个人的身份,保护信息安全是当今信息 化时代必须解决的一个关键社会问题。 身份认证的方法一般是把身份认证的问题转化为鉴别一些标识个人身份的事物,这 包括两个方面:( 1 ) 身份标识物品,比如钥匙、证件等;( 2 ) 身份标识知识,比如用 户名和密码。在一些安全性要求严格的系统中,可以将这两者结合起来,比如删机 要求用户同时提供a 1 _ m 卡和密码。 尽管这些方法取得了长足的进步,但是这些方法还是存在固有的问题,就是无法区 分真正的拥有者和取得身份标识物的冒充者。而基于生物特征识别的身份鉴定技术就能 够克服以上的问题。 1 2 生物认证技术 生物认证技术,也称为生物测定学技术、生物识别技术,是指以人们自身的物理特 征作为身份认证依据的技术,这些特征称为生物特征,包括生理特征和行为特征两类。 生理特征是人们在生理结构上就存在的,如指纹、面孔、视网膜、虹膜和d n a 等,行 为特征是人们行为过程中动作的特征,如声音、签名的动作和行走的步态等。生物认证 技术从根本上区别于传统的认证技术,真正以人自身作为身份认证的依据,自己真正代 表了自己。 当然不是人们的任何生理或者行为特征都可以作为生物特征用于生物认证技术,需 要具有如下几个属性: ( 1 ) 普遍性,即每个人都应该有; ( 2 ) 独特性,即没有两个人有同样的特征; ( 3 ) 恒定性,即这个特征是不会变化的; ( 4 ) 可收集性,即这个特征是可以量化度量的。 说话人识别系统中语音特征参数提取方法的研究 在实践中,还要满足一些其他重要的要求【2 】: ( 1 ) 性能:指的是可以达到的身份鉴别的精确度,达到可以接受的精确度所需要 的资源以及影响精确度的工作和环境因素: ( 2 ) 可接受性:指的是人们接受这个生物特征认证的最大限度; ( 3 ) 安全性能:系统是否能够防止被攻击: ( 4 ) 是否具有相关的、可信的研究背景作为技术支持: ( 5 ) 提取的特征容量,特征模板是否占有较小的特征空间; ( 6 ) 价格:是否达到用户所接受的价格; ( 7 ) 速度:是否具有较高的注册和识别速度; ( 8 ) 是否具有非侵犯性。 到目前为止,还没有任何一种单独的生物特征可以满足上述的全部要求。基于各种 不同生物特征的身份鉴别系统都有各自的优缺点,适用于一定的范围。 目前已经存在和正在研究的用于生物认证技术的生物特征有:脸部、指纹、手形、 击键、手背脉络、虹膜、视网膜模式、签名、声音、红外脸部温谱图、气味、m q a 、步 法以及耳形。这些特征都在一定程度上满足了对生物特征的要求。其中有些特征己经被 用于实际的系统,有些具有变成有效的生物特征技术的潜能。 1 3 说话人识别 1 3 1 计算机语音技术概述 众所周知,语言是人类进行相互通信和交流的最方便快捷的手段。在高度发达的信 息社会中用数字化的方法进行语音的传送、储存、识别、合成、增强等是整个数字化通 信网中最重要、最基本的组成部分之一 计算机的高速发展既对语音信号数字处理提出了越来越高的迫切要求( 如用语音输 入代替键盘输入以实现直接的人机对话) ,同时也提供了效率不断提高的软、硬件实现 手段。同时语音也是人类思维的一种主要表现形式,因此这一学科与认知科学和人工智 能等研究领域有着千丝万缕的联系。近年来人工神经网络的研究有了飞速的发展,语音 信号数字处理各项课题是促进其发展的重要动力之一。语音信号数字处理涉及一系列前 沿科研课题,是目前发展最迅速的信息科学研究诸领域中的一个。语音处理的研究涉及 2 沈阳工业大学硕士学位论文 三方面互相密切配合的任务和课题,这就是:应用、算法( 包括基础理论和软件) 和硬件 系统,三者缺一不可 计算机实现文字到语音的转换过程,通常称为文语转换( 渤出s p e e c h ,简称t t s ) , 也就是人们常说的计算机朗读,涉及计算机语音合成技术。而由文字到语音转换的逆过 程一由语音到文字,却相对困难得多。这种逆过程的技术就是计算机语音识别技术。今 天,几乎所有的具有智能的系统中都装备有计算机,对这样的系统讲话并让它“理解” 人所说的内容,这就是语音识别技术的目的。2 0 世纪7 0 年代末到8 0 年代,采用计算机 语音识别技术研制成一些实用的系统例如,1 9 7 6 年由f l 孤鸩舭报道的“实验的航空 查询和购票服务系统”,用于顾客和航空公司的计算机之间关于机票查询及记帐购票的 服务1 9 8 0 年报道的日本新干线火车预约座位系统,它叫作v o i c eq a 系统( 语音问答 系统) 。它在问讯时进行会话识别,而在回答时进行语音合成输出。再有f a m 报道的瑞 典的语音识别系统,它已被瑞典e r i c s s 蚰公司用来装备内部快呼通讯网,使用这种系统 打电话时,人们不必再拨号或按数字键,只需要说出受话人的姓名便可接通了。这个系 统比日本东芝公司的语音拨号电话机更为先进。后者只能识别数字,而前者能识别相当: 数量的词或词组。采用语音识别的产品还有声控打字机、声控摄影机、声控卡拉o k 机 口】等。在通信方面一项更加雄心勃勃的计划是实现两种语言之间的直接国际通僚:即通 过“语音识别一机器翻译一语音合成”将一种语言直接转换成另一种语言,日本和欧洲 都有一些很具实力的研究组织正在开发这个领域的产品。 1 3 2 语音识别分类 语音识别主要有两大类:语音识别和说话人识别。对这两类识别系统的共同要求是 对自然会话的识别率高。语音识别系统的基本任务是准确地识别全部的话语,或者是“理 解”所说的话语说话人识别的任务是确认说话人( 即证实说话的人是否是所要求的那 个人) 或者从某个已知的人群集合中辨认出那个说话人因此,说话人识别系统又可以 分为说话人确认与说话人辨认两个方面。语音识别是识别讲话的内容是什么,是对语音 共性的识别。 语音识别按照所要识别的单元分,有孤立词识别、音素识别、音节识别、单句识别、 连续语音识别和理解;按照说话人分,有单个特定说话人,有限的说话人和无限的说话 说话人识别系统中语音特征参数提取方法的研究 人:按照识别方法分,有模板匹配法、随机模型法和概率语法分析法。从目前的水平来 看,特定说话人语音用模板匹配法的单词识别已达到实用阶段。今后的发展和研究方向 是非特定说话人以音素为识别单位的自然会话的语音识别系统。语音识别的一般方法如 图1 1 所示。 图1 1 语音识别的一般方法 f 酶1 1g 胁啪lm c l o do f s p e hr e 鲥石 1 3 3 说话入恹射 说话人识别指的是根据说话人所发语音,确定出说话人是谁的过程,也就是基于声 音这种生物特征作为身份认证依据的识别技术。为此,需要从各个说话人的发音中找出 说话人之间的个性差异,它涉及到说话人发音器官上的个性差异、发音声道之间的个性 差异、发音习惯之间的个性差异等不同级别上的差异。说话人识别是交叉运用心理学、 生理学、语音信号处理、模式识别、统计学习理论和人工智能的综合性研究课题。 以人们的语音作为身份认证的手段,据说是从1 6 6 0 年英国查尔斯一世之死的判决 开始的,首次利用语音作为推断犯人作案的线索【4 】。其后随着技术的发展,电话克服了 距离的障碍,录音手段克服了时间的障碍,从而使得对语音的说话人个性的分析得到了 关注。从1 9 3 7 年开始,以c a l i n d b e r g h 先生的儿子被拐骗事件为开端,对语音的说话 人个性开展了科学的测量和研究。1 9 4 5 年,美国贝尔实验室的r k p 0 0 t e r 发明了语音频 谱图,能把所谓的声纹( v o i c 印r i n t ) 自动描述出来。1 9 6 2 年,贝尔实验室的l g k e r s t a 第 一次介绍了采用上述方法进行说话人识别的可能性。1 9 6 6 年,美国法院第一次采用此方 法进行了取证。 4 一 沈阳工业大学硕士学位论文 近年来,无论是在语音特征提取还是在识别模型方面,说话人识别的研究都取得了 很大的进展。原先的说话人识别,往往是用视觉来判断声音频谱图,或者用听觉判断是 谁的声音随着计算机的发展,自动说话人识别( a s r ) 的研究得到了迅速的发展,自动 说话人识别是指利用计算机技术,不需要人们的干预,自动的进行身份认证。本文所说 的说话人识别,均指说话人的自动识别。 说话人识别是通过对说话人语音信号的分析和提取,自动确定说话人是否在所登记 的说话人的集合中,以及说话的人是谁。它又分为说话人确认( 即核对或核实) 和说话人 辨认( 即辨别或识别) 。这两类有共同性的要求,也有不同的地方。它们的共同性要求是 采用表示个性的语音特征参数,而忽视语音的共同存在的特征说话人识别的两类系统 的比较【5 】见表l _ 1 袭1 1 说话人识别的两类系统比较 1 曲1 1c 彻仃a s t i n gh 岫s y s 晒n so f s 脚r o 印i t i 说话人辨认说话人确认 说话人未必合作 存在发音伪装问题 必须与n 个已知模式进行比较 系统响应可以缓慢 词汇表可以各不同 通道特性可能不亮或不同 信噪比可能太低 说话人主动合作 存在发音模仿问题 只需与一个已知模式进行比较 系统响应必须快速 词汇表限于标准试验短语 通道特性往往可以调整 信噪比通常可调 在说话人识别中,待识别语音可以是固定文本,也可以是任意的文本。当待识别语 音为一预先确定的文本“口令”时,称该方式为文本相关方式m 哪司印印d 朋t ) ,反之则 称为文本无关方式( 慨t h i c l 脚d e m ) 。文本相关方式和文本无关方式有着不同的应用场 合,比如在保密等应用中,前者可做到既识别说话人又识别密码( 既文本) ,从而加大了 保密度,而后者又可减少由于使用密码可能造成的密码更换、密码遗忘等麻烦,更加方 便推广使用。 说话人识别系统中语音特征参数提取方法的研究 从本质上讲,说话人识别是一个语音信号模式识别问题,它由训练和识别两个过程 完成。提取说话人特征的过程称为训练过程,根据待识别语音对说话人身份做出判断称 为识别过程。训练过程是从某一说话人大量语音信号中提取出该说话人的个性特征,并 形成参考模式。识别过程是从待识别语音中提取特征形成待识模式,与参考模式进行比 较和判决,从而确定说话人身份。 1 3 4 说话人识别的技术难点 ( 1 ) 说话人识别的信息来源是用户所说的话。这个语音信息是说话人个性特征和 说话内容特性的综合体,目前还没有很好的方法将说话人的个性特征从语音特征中分离 出来,从而对识别系统的性能提高造成一定的困难。 ( 2 ) 说话人的发音常常与环境、情绪、健康状况有关,它的稳定性比较差,不像 指纹,具有静态的、固定的物理特征,而说话人特征具有长时变动特性,会随着时间和 年龄的变化而变化。 ( 3 ) 声音要通过通讯线路来传输,所以就不可避免地带来线路噪声,而且,这个 噪声性能会随着时间的变化而变化。这就要求高性能的信号获取设备。而且声音往往是 可以被模仿的【6 7 l 。 尽管说话人识别有一定的难度,但语音中所包括的个性信息一般有两种,一种是由 声道长度、声带等先天性发音器官的个人差异所产生的,另一种是由方言、语调等后天 性说话习惯产生的,而先天性发音器官的个人差异是难于模仿的。所以利用语音来进行 身份验证是具备可行性的( 羽。 1 4 本论文研究的内容 在国外,说话人识别( s p e a k 盱r 船。鲥t i 蛐,简称s r ) 技术获得了广泛的研究,同时 也有少量成熟产品问世。a 1 & t ,t i 与美国著名的通讯公司s 研n t 都已经展开了在声音 识别领域的实验和实际的应用【9 】。在我国的s r 研究中,南京北极星软件公司的研究走 在前列,它主要构造了“训练模块”和“识别模块”来实现s r 技术。 在国内外说话人识别领域前人研究的基础上,本论文开发了一套文本相关的说话人 辨认( s p e a k e ri d c n t i f i c a t i 叽。s i ) 系统,它主要用于具有保密性质、需要安全密码的场所 沈阳工业大学硕士学位论文 进出口检查等。为了体现本文所使用算法的优良性能,本文做了文本相关的说话人识别 系统的比较,获得实验所需的结论。该系统的系统框图如图1 2 所示。 图1 2 说话人辨认系统框图 f i 昏1 2f i g u o f s p e a l 【盯i 酗n 墒c 融i s y s 咖 系统框图的方框内的部分通常称为预处理阶段。先将输入的模拟语音信号数字化一 量化和采样,也就是通过声卡的采集,获得数字化的语音信号。再将含噪的语音信号通 过小波进行去噪处理,得到干净的语音信号后再通过预加重技术滤除工频干扰,以此提 升信号的高频。预处理的最后部分是语音端点检测,通过能频值端点检测算法,求出语 音信号的起始点和终止点,为特征提取提供有效的语音段。并且为了体现能频值端点检 测算法的优越性,本文对比了传统的双门限端点检测算法和能频值端点检测算法对同“ 语音端点检测的效果。实验结果发现,能频值端点检测算法能够更好的检测到语音起始 点和终止点 在文本相关说话人识别系统中,本文采用线性预测倒谱系数、美尔倒谱系数和基音 周期的三维特征参数策略,进一步挖掘语音特征参数背后的隐性特征,并对比了传统特 征参数的单维提取与三维提取的效果。在m a l r i 。a b 语音处理工具箱的帮助下,本系统 编制了较为简洁、高效的获取语音特征的m 文件,为后续的训练和识别提供参数实 验结果表明三维参数提取有效的提高了系统的识别性能。识别算法采用隐马尔可夫来匹 配模板。实验结果表明,识别率非常的高,语音段长度短,容易采集,计算速度快。在 安全级别要求较高的场合采用文本相关说话人识别系统,不仅能识别口令或密码,而且 保证了系统的安全性能。 以后的几章节将对系统的建立加以详细的论证说明。 说话人识别系统中语音特征参数提取方法的研究 2 语音信号预处理 由于说话人识别是语音识别的一个大类,则它的一般处理方法也同语音识别系统基 本相同。在本论文中说话人识别的一般原理框图如图1 2 所示,方框内部分为说话人识 别的第一环节一语音信号预处理,它包括反混叠滤波、模,数变换、自动增益控制、去除 声门激励和口唇辐射的影响,以及去噪和语音端点检测。本章就介绍有关的知识。 2 1 语音信号获取 人类的发声过程是由于肺部的收缩,压迫气流由支气管经过声门和声道引起音频振 荡而产生的,其中声道起始于声门处而终止于嘴唇,包括咽喉、口腔;鼻道则是从小舌 开始到鼻孔为止。当小舌下垂时,鼻道与声道发生耦合而产生语音中的鼻音。 人类发音过程有三类激励方式,因而能产生三类不同的声音:浊音、清音和爆破音 当气流通过声门时声带的张力刚好使声带发生较低频率的张驰振荡,形成准周期性的空 气脉冲,这些空气脉冲激励声道便产生浊音。这些周期脉冲的周期称作基音周期,其饲 数称为基音频率。如果声道某处面积很小,气流高速冲过此处时产生湍流,当气流速度 与横截面积之比大于某个门限时便产生摩擦音,即清音。如果声道某处完全闭合建立起 气压,然后突然释放而产生的声音就是爆破音【埘 产生语音信号的框图如图2 1 所示。声道是一个谐振腔,气流激励声道发生共振产 生语音信号。声道发生共振的不同的谐振频率称为共振峰频率,简称共振峰。 f 培2 1m o d e lo f p f o d u c t i o f s p c e c hs i 割i a l 沈阳工业大学硕士学位论文 为了将原始模拟语音信号变为数字信号,必须经过采样和量化两个步骤,从而得到 时间和幅度上均为离散的数字语音信号l n l 。在将语音信号进行数字化前,必须先进行防 混叠滤波,滤除高于l 陀采样率的信号成分或噪声这种防混叠滤波通常与模数转换器 做在一个集成块内,市面上购买到的普通声卡在这方面做的都很好,语音声波通过话筒 输入到声卡后直接获得的是经过防混叠滤波、a 巾变换、量化处理的离散的数字信号【1 2 1 在实际工作中,我们可以利用w i n d o 哪自带的录音机录制语音文件,声卡可以完 成语音波形的d 转换,获得w a 、,e 文件,为后续的处理储备原材料。调节录音机保 存界面的“更改”选项,可以存储各种格式的w a 、r e 文件。 采集到语音信号之后,需要对语音信号进行去噪处理。本研究中采用小波去噪处理, 获得了较好的去噪效果,具体应用是调用m a l r i a b 信号处理工具箱中的小波处理函数。 2 2 语音信号的数学模型 完整的语音信号数学模型可以用三个子模型:激励模型、声道模型和辐射模型的串 联来表示。下砸分别介绍这三个模型。 2 2 1 激励模型 发浊音时,由于声带不断张开和关闭,将产生间歇的脉冲波。此时的激励信号是一 个以基音周期为周期的斜三角脉冲串此脉冲可看作加权的单位脉冲串激励单个斜三角 脉冲的结果。这时的整个激励模型用公式2 1 表示: u g ) = g ( z ) e ( z ) 2 南南 ) 其中c 为常数,r 为基音周期,e g ) 为单位脉冲串的z 变换形式。 发清音时,声道被阻碍形成湍流,所以可以模拟成随机白噪声实际上,通常使用 均值为o 、方差为l 并在时间或幅度上为随机分布的序列表示。 2 2 2 声道模型 最简单的声道模型是将其视为多个不同截面积的管子串联而成的系统,这就是声管 模型。在语音信号的某一“短时”期间,声道可表示为形状稳定的管道。由于语音的短 时平稳性,假设在短时间内,各段管子的截面积4 是常数。设第m 段和册+ l 段的声管 说话人识别系统中语音特征参数提取方法的研究 的截面积分别是彳。、4 。,设七。= 0 。一4 。) 0 。+ 一,) ,称为“面积和差比”,其 取值范围为一l 砸+ - ,+ 1 ) ( 2 1 7 ) 式中,为寻找峰点时的最大帧数: ( 4 ) 计算比值矗, r = 帮 c z 埘 矿( ,) ( 5 ) 如果, p , 这里岛实际上是直流分量,反映频谱的能量,其值的大小不影响谱形,通常也不去 计算。当l p c c 的阶数不超过u c 阶数p 的时候,用第二式进行计算;如果l p c c 阶 数大于p ,则用第三式进行计算,此时实际上是一种外推。由于本系统的线性预测模型 选择的阶数为l o ,在求l p c c 的时候。拟选择其阶数为1 2 阶。 3 4 美尔频率倒谱系数 l p c 模型是基于发音模型建立的,l p c c 系数是一种基于合成的参数,这种参数没 有充分利用人耳的听觉特性。实际上,人的听觉系统是一个特殊的非线性系统,它响应 不同频率信号的灵敏度是不同的,基本上是一个对数的关系。近年来,一种能够比较充 分利用人耳这种特殊的感知特性的参数得到了广泛的应用,这就是m e i 尺度倒谱参数 ( m d s c a l e dc 印s 咖mc 施c i 招) 或称m e l 频率倒谱参数lf r e q 嘲yc e p s t r l 吼 c m c i e m ,简称枷p c c ) 大量的研究表明,m f c c 参数能够比l p c c 参数更好地提高 系统的识别性能利用听觉频率非线性特性的陀c 【2 1 1 和感知线性预测p l p ( p 郫c e i v c l i 盯p r e d i c 矗o n ) 【2 2 捌是两种常见的考虑听觉特性的说话人特征 3 4 1 美尔频率倒谱系数的提取 m f c c 参数的计算是以“b a r k ”为其频率基准的,它和线性频率的转换关系如下公 式: 厂,、 厶- 2 5 9 5 1 0 9 ”【“去j 1 1 ) 说话人识别系统中语音特征参数提取方法的研究 m f c c 参数也是按帧计算的,提取框图如图3 2 所示。其中m e l 滤波的作用是利用 同入耳听觉特性相似的三角滤波器组对语音信号的幅度平方谱进行平滑。对数操作( l o g ) 的用途至少有两点,其一是压缩语音谱的动态范围,其二是将频域中的乘性成份变成对 数谱域中的加性成份,以便滤除乘性噪声,这也就是前面介绍的同态处理。离散余弦变 换( d c d 主要用来对不同频段的频谱成份进行解相关处理,使得各维向量之间能够相互 独立瞄j 。 加窗语音 图3 2m e l 倒谱( 肝c c ) 的提取 f i g 3 2e x h 锨i 彻o f m f c c 提取某帧信号的美尔倒谱首先要通过f f t 得到该帧信号的功率谱剐弗,转换为 槲 频率嗍下的功率谱。这需要在计算之前先在语音的频谱范围内设置若干个带通滤波器: 日。协) | 胛= o ,l ,肘一l ,詹= o ,l ,2 一l ( 3 1 2 ) m 为滤波器的个数,通常取2 4 ;为一帧语音信号的点数,为了计算f f t 的方便, 通常取为2 5 6 。滤波器在频域上为简单的三角形,其中心频率为五,它们在m e i 频 率轴上的分布是均匀的。每个滤波器的三角形的两个底点的频率分剐等于相邻的两个滤 波器的中心频率,即每两个相邻的滤波器的过渡带相互搭接,且频率响应之和为l 。在 线性频率上,当m 较小时,相邻的厶间隔很小,随着所的增加,相邻的厶间隔逐渐拉 开。另外在频率较低的区域,厶和之间有一段是线性的。带通滤波器的参数事先计 算好,在计算m f c c 参数时直接使用。3 2 阶美尔尺度滤波器组输出如图3 3 所示 m f c c 参数的计算通常采用如下的流程: ( 1 ) 首先确定每一帧语音采样序列的点数,本系统取- 2 5 6 点。对每帧序列s ( n 1 进行预加重处理后再经过离散f f t 变换,取模的平方得到离散功率谱s o ) : ( 2 ) 计算s 如) 通过肘个。o ) 后得到的功率值,即计算s 如) 和日。0 ) 在各离散频 率点上乘积之和,得到m 个参数p 。,所= o l ,m 一1 : 沈阻工业大学硕士学位论文 ( 3 ) 计算p 。的自然对数,得到上。,肼= o l ,m l 。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论