(计算机应用技术专业论文)基于特征模糊度分析的说话人识别.pdf_第1页
(计算机应用技术专业论文)基于特征模糊度分析的说话人识别.pdf_第2页
(计算机应用技术专业论文)基于特征模糊度分析的说话人识别.pdf_第3页
(计算机应用技术专业论文)基于特征模糊度分析的说话人识别.pdf_第4页
(计算机应用技术专业论文)基于特征模糊度分析的说话人识别.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(计算机应用技术专业论文)基于特征模糊度分析的说话人识别.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

南京邮电学院l | i j 、l :研究生学位论文 捕要 摘要 说话人识别与指纹、脸型等识别技术一样是生物特征识别。它利用包含在说话人的语音 波形中特有的个体信息来自动识别说话人,可广泛用于银行、证券、军队等的安全系统中。 与目前流行的计算机语音识别技术相比,说话人识别技术的实用化水平还不高。 说话人识别可分为文本有关和文本无关两种,前者需用户按照规定的内容发音,能取得 较好的效果;而后者则不规定说话人的发音内容,因而要建立精确的模型较为困难,议别精 度不高。特征提取和模式匹配是说话人识别的两个关键问题。不同的语音特征反映语音不同 方面的特性,如何找到那些最能表达说话人个体特性的特征组合是一个难点。用于说话人模 式匹配的分类器主要有矢量量化、隐马尔可夫模型、人工神经网络等等,对各种分类器进行 优化也是说话人识别研究的一个热点。 本文设计了一个与文本无关的说话人识别系统。将模糊逻辑中的模糊度概念引入到系统 中,以模糊度作为选择说话人特征的标准。实验结果表明,按此方法选择出的特征能取得比 一般文献中常用的特征更好的识别效果。此外,本文还利用近年流行的小波变换,对语音信 号进行分析,以不同阶小波系数短时平均幅度比和高阶小波系数的近似过零率作为说话人识 别的特征,模糊度分析和实验结果表明,这些特征具有很好的区分度。 关键词:说话人识别,模糊度,小波变换,人工神经网络,特征提耿 南京邮电学院颅l :研究生学位论文 摘要 a b s t r a c t s p e a l c e rr e c o g i l i t i o ni sak i n do f b i o m e t r i ci d e n t i f i c a t i o nt e c h n o l o g ya sf i n g e r p r i n tr e c o 印i t i o n 锄df k er e c o g n i t i o n i tu 解st h es p e c i a l i n f o m l a t i o nc o m a i n e di nt h ev o i c et or e c o g n i z et l l ei d e n t i t y o f s p e a l 【e r t h i st e c h n 0 1 0 9 yc 锄b ew i d e l y 印p l i e dt 0t h es e c u r 时s y s t e mo f b a l l k ,s t o c ke x c h 锄g e , t l l em i l i t a r ye t c c o m p a r e dw i t ht h em a t u r ct c c i r l o l o g y 一s p e e c hr e c o g n i t i o n ,t h eu t i l i t yo fs p e a l ( e r r e c o g n i t i o ni s1 0 w e r s p e a k e rr e c o g n i t i o nc a nb ed i v i d e di n t ot e x t d e p e n d e n tr e c o g n i t i o na n dt e x t i n d e p e n d e n t r e c o g n i t i o n f o rt l l ef i r s t ,t h eu s e rm u s ts p e a kf o l l o w i n gm ef i x e dt e x t ,i tc a i lg e tg o o dr c s u l t f o r t h e s e c o n d ,t h ec o n t e n to ft h es p c hi sr a i i d o m ,t h e r e f o r ei ti sh a r dt od e s i g nap r e c i s em o d e l ,m e r e c o g n i t i o nr e s u l ti sn o ts a t i s f 配t o 阱f e a t u r ee x t r a c t i o na n dp a n e mm a t c h i n ga r et h et w ok e yp o i n t s i ns p e a k e rr e c o g n i t j o n d i 跪r e n tf e a t u r e sr e f l e c td i 雎r e n ta t t r t b u t eo ft h es p e e c h ,h o wt of i n dt l l o s e f b a t u r e sm a tc a l lb e s tr c p r e s e n t 也es p e a k e ri sad i 币c u l tp r o b l e m c l a s s i f i c a t i o nm a c h i n e su s c di n s p e a k e rr e c o g n i t i o ni n c l u d ev e c t o rq u a n t i z a t i o n ,h i d d e nm a r k o vm o d e l s ,a n i 矗c i a ln e u r a ln e t w o r k e t c t h eo p t i m i z a t i o no fc l a s s i f i c a t i o nm a c h i n e si sa n o t h e rh o tp o i n ti ns p e a k e rr e c o g n i t i o n t h i sp a p e rd e s i g n san e wt e x t i n d e p e n d e n ts p e a k e rr e c o g n i t i o ns y s t e m i ti n t r o d u c e st h e c o n c e p to ff u z z yv a l u ei nf u z z yl o g i ct os p e a k e rr e c o g n i t i o n ,u s i n gf u z z yv a l u ea st h ec r i t e r i o nt o s e l e c tf e a t u r e t h er c s u l t so ft h ee x p e r i m e ms h o wt l l ef 色a t u r ec o m b i n a t i o ng o tb yt h i sm e t h o di s b e t t e rm a nm eu s u a lf c a t u r e su s e di nc o m m o nl i t e r a t u r e f u n h e m l o r e ,i nt h i sp a p e rw a v e l e t t r 蛐s f b h ni su s e dt oa n a l y s i st h es p e e c hs i g n a l t h er a t i oo fs h o r t t i m ea v e r a g em a g n i t u d ea 1 1 d 印p r o x i m a t ez e r oc r o s s i n gr a t ef o rh i g ho r d e rw “e l e tc o e m c i e n t sa r ce x t r a c t e da st h ef b a t u r e so f s p e a l ( e lf u z z yv a l u e鲫a l y s i s a n de x p c r i m e n tr e s u l ts h o wt h e s ef e a t i l r e sh a v et h e9 0 0 d d i s c r i m i n a t i o na b i l i 何 k e yw o r d s :s p e a k e rr e c o g n i t i o n ,f u z z yv a l u e ,w a v e l e tt r a n s f o n t l ,a r t i n c i a ln e u m ln e t w o r k , f e a t u r ee x t r a c t i o n i l 南京邮电学院学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的 地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包 含为获得南京邮电学院或其它教育机构的学位或证书而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了 明确的说明并表示了谢意。 研究生签名: 日期 南京邮电学院学位论文使用授权声明 南京邮电学院、中国科学技术信息研究所、国家图书馆有权保留 本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其 他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一 致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布 ( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权 南京邮电学院研究生部办理。 研究生签名: 一导师签名:日期: 南京鄄龟学院螭 :研究生学位论文 翦蠢 刖茜 说话久谈鄹( s p e a k e rr e c o g n i t i o n ,s r ) 技术是跌话音对说话人进行医分,麸丽避行身 份鉴别妁认证的技术。在国外,说话人识别技爿之获得了广泛的研究,a 他t 、t i 与美国潜名的 逯讯公裁s 驰i n t 都恐缀展开了在声誊识别领域麴蜜验帮实际靛应用。通避s r 技拳,弼以裁 用人奉赛的生物特性避行身份鉴剐,例如为公嶷部门避行语潦验证、为一般用户提供防漆门 开启功能等等。在互联网应用及通信领域,s r 披术可以应用于诸如声音拨号、电话银行、电 话购扬、数据痒访阉、信息服务、溢鸯e 一鼹a i l 、安全控制、计冀枫远程爨最等方嚣。 和语音识别一样,说话人识别也需要提取谮音信号各个方面的特征,以各种特征的组合 矢量作为语音信号的袋征,送往特定的分类器进行分类判别。不同豹是,语音识别是嚣识别 鑫一蔽谬酱的爨钵诿义蠹容,舔浚诿天谖澍愚簧我舞这段诱蠢中毯台静静说话者稿联系静信 息。特征的提取和选择以及分类器的设计是髓话人识别系统中的两个关键问题。语音信号的 特征众多,有时域特撼、频域特缎、线性预测参数等等,此外,近几年斧日用小波变换提取时 藏参数瞧逐濒袋走一个方向。嚣 ; f 鬻内外鼹谎话入谖剐酌磉究主要集中程备耪分类嚣鹣设诗 以及分擞方法的改进上,对于各种各样的语音特征如何进行肖效性的评价,如何取舍则少有 涉及。 模糊邋髯是嚣蘸人工餐l 领域耩静理论基磁,它捺述靛楚与久类模穰懋维貔方式、方法 相关的宏观过程。本论文将模糊逻辑中的模糊腱概念引入到说话人识别系统之中,以模糊度 作为各个特 芷区分说话者能力的发爨,根据模糊度这一指标来进行特征墩舍。论文中设计的 说话灭谈爨系绫中,蒋一令包食众多特征的袄逸特 蒌集,蒸中是一些鬻嚣抟语音信号特征耪 采用本论文中的方法撼取的小波特征,对这些特征计算模糊度,以此为标准选出识别所用的 正选特撼。这样做的好处是可以盥溅地看出各个特征的区分熊力,剔除对分类有副作用的特 征,麓馥:了丰聿经弼络分类器魏设计。觚本系统弼子说话入谈剐蠲语音检索瀚结票来看,方 面文中摄淑的小波特征有很好的有效性,另一方面利用模糊度指标选择出的最优特征组合能 取得比一般说话人系统中常用的m f c c 系数更好的效果。 全论文静内吝分凳矗章: 第一章介绍了说话人识别的基本概念、系统结构和需要解决的关键闭联。对本论文所做 的工作做了进一步的斓述。 第= 章是语音蔼弩的特征分鞭,介绍了谮齑信号瓣辩域、猿域、线馁颈溺参数等务种特 1 南京邮电学院硕士研究生学位论文 前占 征的计算方法,对近年兴起的小波分析做了重点阐述。本章的最后还给出了已有的说话人识 别特征有效性的判定方法f 比法。 第三章主要介绍三种常用的分类器矢量量化技术,隐马尔可夫模型和人工神经网络。 其中对实验系统中采用的人工神经网络做了重点介绍。 第四章是模糊理论部分。首先介绍模糊逻辑的一些基本概念,然后是模糊理论在说话人 识别中的应用,详细说明了特征模糊度评价的方法。 第五章是实验系统设计和实验结果分析。首先是系统结构和模块功能介绍,接着是候选 特征集的组成和小波特征的提取方法,最后是实验结果分析和未来的工作。 寿豪邮电学院矮七研究生学缎论文第一章避旗人识掰 第一章说话人识别 l 。l 语音信号处理概述引 通过语音传递信息是人类最熬簧、最有效、蠼常用和最方便的信息交换形式。语苦是人 类特鸯魏功能,声蠢蹩天类最豢弱蠡鼋信惠羲遂王疑。诖计葜秘能褥攫大类弱语音,是入类童 计算机诞生以来梦寐以求的想法。尤其是汉语,它的汉字输入一直是计算机应用普及的障碍, 因此,利用汉语语音进行人机交甄是一个极其嫩要的课题。作为高科技应用领域的研究热点, 语毒痿嚣处理技术从壤论豹疆究到产暴豹拜笈范经走过了a 卡个誊歉势显数褥了长怒懿透 步。 语音信号处理感以语音语吉学和数字信母处理为基础而形成的一门涉及面很广的综合 牲擎辩,与心理、垒瀵、诗雾掇秘攀、逶攘与穰怠辩学疆及骥式谈到秘入工智憝等学秘爨寿 着非常密切的关系。它的理论和研究包括紧密结合的两个方灏:一方面怒从语音的产生和感 知来对其进行研究,这一研究与谮皆、语言学、认知科学、心理、生理学等学科密不菌丁分。 勇一方簇是将语謇传瓷一耱蓿号泉送嚣处理,氛摇传统豹数掌售号处理技零渡及一肇麓夔应 用于语胬信号的处理方法和技术。 作为个重要的研究领域,谬音信号处理融经有很长的研究历史。假是它的快速发展可 殴谶是麸| 9 4 0 年蘩蘸d u d l e y 懿声鹣嚣( e o d e r ) 巍p o 蟪露簿久豹可怒诿密( v i s 遗l es p e h ) 开始的。2 0 世纪8 0 年代,由于矢蹩量化、隐玛尔可夫模型釉人工神经网络( a n n ) 簿相继 被应用于语音信号处理,并经过不断改进与完罄,使得语音信号处理技术产生了突破性的进 震。语蠢缡鹤、语蠢念戒、浯啻浚嬲、滢话人鼋鳗麓敬爱语蠢璞强是语音绥号处理襞究髑建爝 的几个方面。 语裔编码属于倍源编码的范畴。随着数字系统取代模拟传输系统,为了降低传输嗣存储 鹣费弱,爨要j 雩语塞穗号遂嚣压绥,蚤耱缓璐技拳豹嚣兹裁楚隽了减少健浚褥率或存继爨, 以提高传输或存储的效率。语音编码通常分为三类:波形编码( w j v e f o 蝴c o d e r ) 、参数编码 ( p 删_ c r i cc o d e r ) 与混合编码。波形编码与参数编码的主要区别在于黧建的语音时域信号 是否奁波形上尽量与舔媲缓号一致。波形编码力嚣夔重建嚣戆语音瓣域繁号翡波形每羰语音 信号波形保持一致,窀具有适应能力强、话啻旗量好等优点,缺点是编码速率高。自邋应差 分脉冲编码调制( a d a p t i v ed e l t a p u l s ec o d em o d u l a t i o n a d p c m ) 是这种编码的代表。参数编 璃一般穆为“声玛器鼓笨”,它擐撵鼹声音影残橇理戆势掇,羟疆重建诿鬻倍号翼奏廷够兹蕾 3 壅塞业皇兰堕堡! :婴壅皇堂竺兰苎 兰二童塑堕生塑型 懂性的原则上,通过建立语音信号的产生模型,提取代表语音信号特征的参数来编码,而不 一定在波形上与原始信号匹配。参数编码的优点是编码速率低,缺点是合成语音质量差,对 说话环境的噪声敏感,典型的参数声码器有共振峰声码器和线性预测声码器。混合编码综合 了以上两种编码技术的优点,在采用语音产生模型进行分析合成的同时,又利用了语音的时 间波形信息,增强了重建语音的自然度,使得语音质量有明显提高。多脉冲激励线性预测编 码( m u l t i p u l s ee x c i t a t i o nl p c ) 、规则脉冲激励线性预测编码( r e g u l 扑p u l s ee x c i t a t i o nl p c ) 等都属于混合编码。 由人工制作出语音称为语音合成( s p e e c hs y n t i l e s i s ) 。语音合成是人机语音通信的一个 重要组成部分,它解决的是如何让机器像人那样说话的问题。机器说话包括两个方面的可能 性:一方面是机器能再生一个预先存入的语音信号,就像录音机一样,不同的是采用了数字 存储技术,这种合成本质上是个声音的还原过程,不能控制声调、语调,也不能根据所讲内 容的上下文来变音、转调或改变语气等,因此具有这一功能的系统又称为语声响应系统。另 一种是让机器像人一样说话,在机器中以字符代码的形式存储要讲的内容,然后按照复杂的 语言规则,将字符代码转换成由基本发音单元组成的序列,同时检查内容的上下文,决定声 调、重音等韵律特性,以及陈述、命令、疑问等语气,并给出相应的符号代码表示。这样组 成的代码序列相当于一种“言语码”,从“言语码”出发,按照发音规则生成一组随时间变化 的序列去控制语音合成器发出声音。这两种合成统称为语音合成。语音合成从技术上可以分 为三类:波形合成法、参数合成法和规则合成法。波形合成法有两种形式,一种是波形编码 合成,另一种是波形编辑合成,它本身是一种相对简单的语音合成技术,通常只能合成有限 词汇的语音段。参数合成法一般有发音器官参数合成和声道模型参数合成,都必须先对语音 信号进行分析,提取出语音的参数,然后由人工控制这些参数的合成。规则合成法是一种高 级的合成方法。它通过语音学规则产生语音,系统中存储的是最小的语音单位的声学参数, 以及由音素组成音节、由音节组成词、由词组成句子和控制音调、轻重音等韵律的各种规则。 给出待合成的字母或文字后,合成系统利用规则自动将他们转换成连续的语音声波。这种方 法可以合成无限词汇的词句。 语音识别( s p e e c hr e c o g n i t i o n ) 主要指让机器听懂人说的话,即在各种情况下,准确地 识别出语音的内容,从而根据其信息,执行人的各种意图。它是一门涉及面很广的交叉学科, 与计算机、通信、语音语占学、数理统计、信号处理、神经生理学、神经心理学和人工智能 等学科都有着密切的关系。语音识别系统按照不同的角度、不同的应用范围、不同的性能要 求会有不同的系统设计和实现,也会有不同的分类。一般语音识别系统按不同的角度可以分 为以下几类:孤立词、连接词、连续语音识别系统以及语音理解和会话系统;大词汇、中词 4 寿寨部电学兢蛹七壤究垒学袋谂文 第一章说逐人识剩 汇和,l 、词汇量语音识别系统;特定入和非特定入语音识别系统。也可以从谮啻识剐所浆桶的 方法来蝓语音识别系统分类,可以分为:模板熙配法、随机模型法和概率语法分析法,这三 静方法郡是建立在最大识然决策贝时骺( b a y e s ) 判决的基础上。语音识别一般分两个步骤: 第一拳魑系统“学习”或“训练”阶段,这一阶段的任务是逮立识剐基本肇元的声学模整戳 及进行文法分析的语谱模型等:第二阶段是“识别”或“测试”阶段,根据议别系统的类型 选舞能够溅是要求的葶中识到方法,采矮语音分橱方法分辑出这秘识别方法所要衷豹落骜特 征参数,按照一定的嘏则和测度与系统模型进行眈较,通过判决得出识剐结果。虽然谮酱识 别技术从理论研究到产品丌发已经道过了五十辩个春秋并且取得了长足的j 拄步,但还邋远达 不到使计冀枫与人类之间能够鑫然交流豹这个终搬舅标,罄露专家比喻其难度要超过“入类 登上月球”。可觅实用语音识掰技术蹙一项极其市场价值和攒战性的工作。 现爨生活中的语皆不可避免的疆受到周围环境的影响,抗噪声技术是实环境下应周语音 信号处瑷豹关键,噪声螅消减对诱密识别、低碣率 寄号化等豹实翅纯是必要豹。有关抗噪声 技术静研究以及实环撬下的语音信号处理,在霞外取得了丰寓的成果。弱前国内外的研究成 果大体分为三类解决方法。一类悬采用语音增强算法等,提满语音识别系统前端预处穰的抗 噪能力,提寒输入信号豹痿噪毙。第二类方法怒尊找稳毽的瓣噪声豹语窘特薤参数。簿三类 方法是纂子模型参数邋应化的噪声补偿算法。遮类方法可瞪s l 入语音和噪声的统计知识,提 出具有定环境稳健性的处理算法。语音增强怒解决噪声污染的有效方法,它的首要翻标就 是在接受端尽可能扶蘩嗓语啻信号巾攫取纯净钓浯音痿号,敬饕其质量。溪啻增强不纹涉及 信号检测、波形估计镣传统信号处瓒理论,而且与语音特性,入耳感知特性密切稽关;褥则, 实际应用中噪声的来2 嚆i 及种类各不相同,从而越成处理方法的多样性。 至予说话人识别技术将在下一小节傲介绍。 1 2 说话人识别 。2 ,l 说话天谖剽概述潍l 自动说话人识别( a u t o m a t i cs p e a k e r r e c o g n i t i o n ) 是一种自动识别蠛话人的过程,它和语 音识别豹送别在予,它不注重包含凌语音信号中的文字符号以及谮义内容憾息,丽是篝暇于 包含在语音信号中靛个入特征,强敬出说话人瀚这些个人信崽特征,以达到谈别漉话入的鹾 的。 人类谗言数产生爨人体语吉中橼与发音器窘之间一个复杂豹生理物理过程,入在游落封 使焉的教声器官落、牙齿、喉头、肺、赛靛在尺专和形态方瑟每个入鼢差异穰大,所戳 蠹 查塞鲤皇堂堕璺主竺塞兰兰垡丝兰 塑二皇塑堕垒堡型 任何两个人的声纹图谱都有差异。每个人的语音声学特征既有相对稳定性,又有变异性,不 是绝对的、一成不变的。这种变异可来自生理、病理、心理、模拟、伪装,也与环境干扰有 关。尽管如此,由于每个人的发音器官都不尽相同,因此在一般情况下,人们仍能区别不同 的人的声音或判断是否是同一人的声音。 与其他生物特征相比,应用语音进行个人身份识别有一些特殊的优势:( 1 ) 蕴含个人特征 的语音获取方便、自然,语音的提取可在不知不觉中完成,因此使用者的接受程度也高;( 2 ) 获取语音的识别成本低廉,使用简单,一个麦克风即可,在使用通讯设备时更无需额外的录 音设备:( 3 ) 适合远程身份确认,只需要一个麦克风或电话、手机就可以通过网路( 通讯网络或 互联网络) 实现远程登录;( 4 ) 语音辨认和确认的算法复杂度低;( 5 ) 配合些其他措施,如通 过语音识别进行内容鉴别等,可以提高准确率等等。近年来自动说话人识别在相当广泛的领 域内已经发挥出重要作用,如安全保卫领域( 如机密场所入门控制) 、公安司法领域( 如罪犯 监听与鉴别) 、军事领域( 如指挥员鉴别) 、财经领域( 如自动转帐和出纳) 等等。 1 2 2 说话人识别的分类1 3 8 l 说话人识别有两类,即说话人辨认( s p e a k e ri d e n t i 矗c a t i o n ) 和说话人确认( s p e a k e r v c r i f i c a t i o n ) 。前者用以判断某段语音是若干人中的哪一个所说的,是“多选一”问题:而后 者用以确认某段语音是否是指定的某个人所说的,是“一对一判别”问题。不同的任务和应 用会使用不同的说话人识别技术,如缩小刑侦范围时可能需要辨认技术,而银行交易时则需 要确认技术。 从另一方面,说话人识别有文本相关的( t e x t d e p e n d e n t ) 和文本无关的( 1 瓿t - i n d e p e n d e n t ) 两种。与文本有关的说话人识别系统要求用户按照规定的内容发音,每个人的声音模型逐个 被精确地建立,而识别时也必须按规定的内容发音,因此可以达到较好的识别效果,但系统 需要用户配合,如果用户的发音与规定的内容不符合,则无法正确识别该用户。而与文本无 关的识别系统则不规定说话人的发音内容,模型建立相对困难,但用户使用方便,可应用范 围较宽。根据特定的任务和应用,两种是有不同的应用范围的。比如,在银行交易时可以使 用文本相关的说话人识别,因为用户自己进行交易时是愿意配合的;而在刑侦或侦听应用中 则无法使用文本相关的说话人识别,因为你无法要求犯罪嫌疑人或被侦听的人配合。 1 2 3 说话人识别的方法和系统结构1 4 l 说话人识别的基本原理与语音识别相同,也是根据从语音中提取的不同特征,通过判断 逻辑( 也叫分类器) 来判定该语句的归属类别。但是,说话人识别又不同于语音识别,它利 用的是语音信号中说话人的个性特征,不考虑包含在语音中的字词的含义,强调的是说话人 6 南京邮电学院硕士研究生学位论文第一币说话人识别 的个性;而语音识别的目的是识别出语音信号中的语义内容,并不考虑说话人的个性,强调 的是语音的共性。说话人识别的特点包括:( 1 ) 语音按说话人划分,因而特征空间的界限也 应按说话人划分;( 2 ) 应选用对说话人区分度大,而对语音内容不敏感的特征参量;( 3 ) 由 于说话人识别的目的是识别出说话人而不是所发的语音内容,故采取的方法也有所不同,包 括用以比较的帧和帧长的选定,识别逻辑的制定等等。 图一是说话人识别的系统结构图,它由预处理、特征提取、模式匹配和判决等几大部分 组成,除此之外,完整的说话人识别系统还应包括模型训练和判决阈值选择等部分。 语 图说话人识别系统框图 建立和应用一个说话人识别系统可分为两个阶段,即训练阶段和识别阶段。在训练阶段, 系统的每一个使用者说出若干训练语料,系统根据这些训练语料,通过训练学习建立每个使 用者的模板或模型参数参考集。而在识别阶段,把从待识别说话人说出的语音信号中提取的 特征参数,与在训练过程中得到的参考参量集或模型摸板加以比较,并且根据一定的相似性 准则进行判定:对于说话人辨认来说,所提取的参数要与训练过程中的每一个人的参考模型 加以比较并把与它距离最近的那个参考模型所对应的使用者辨认为是发出输入语音的说话 人。对于说话人确认,则是将从输入语音中导出的特征参数与其声音为某人的参考量相比较, 如果两者的距离小于规定的闽值,则予以确认,否则予以拒绝。 1 2 4 说话人识别的关键问题m l 说话人识别可以说有两个关键问题,一是特征提取,二是模式匹配。 特征提取的任务是提取并选择对说话人具有可分性强、稳定性高等特性的声学或语亩特 征。与语音识别不同,说话人识别的特征必须是“个性化”特征。虽然目前大部分说话人识 别系统用的都是声学层面的特征,但是表征一个人特点的特征应该是多层面的,包括:( 1 ) 与人类的发音机制的解剖学结构有关的声学特征( 如频谱、倒频谱、共振峰、基音、反射系数 等等) 、鼻音、带深呼吸音、沙哑音、笑声等;( 2 ) 受社会经济状况、教育水平、出生地等影 响的语义、修辞、发音、占语习惯等:( 3 ) 个人特点或受父母影响的韵律、节奏、速度、语 调、音量等特征。可见,说话人识别可以采用的语音特征很多,但较好的特征,应该能够有 效地区分不同的说话人,但又能在同一说话人语音发生变化时保持相对的稳定:同时这些特 妻室塑皇鲎塞堡! 壁塞兰鲎焦鎏壅 篓= 塞塑壁幽 征不翁教健入模仿葳能够较好魄嬲决被谴入模彷问题,鬟裔较好的抗嗓襁能。特征选择静闰 题是说话入识别中的一个难点,到现在也没有比较好的锵魄办法,本论文对这一方面做了适 当的研究,尝试剥用模糊理论中的模糊度进行特征的有效燃玲耩。进露决定特征豹取念,摆 关内容农论文的第霸帮有详鳐奔纲。 对于模式匹配,一般有以下几大类方法: ( 1 ) 模扳匹配方法:剩用动念黠闽弯折( d 下w ) 以对准训练和测试特链序判,主要髑手霾 定谲缀的应用( 通常为文本裙关谈掰) ; ( 2 ) 最近邻方法:训练时保斛所有特征矢魈,识别时对每个矢量都找到训练矢薰中最近 的k 个,据此进行议别,通常摸戮存储秘楣似计算的量都缀犬 ( 3 ) 隐马尔可必模型( h m m ) 方法;逶鬻傻用荦状态的h m m 或离麓淀含模登( g m m ) , 是比较流行的方法。效果比较好; ( 4 ) v 0 聚类方法( 如卫g ) ;效果比较好,雾法复杂度也不毫,翻 m m 方法聚会超 来霹酸糗刘更好静效聚; ( 5 ) 多项式分兴器方法:有较高的精度,但模型存储和计算量都比较大; 此钋还巍本论文中使粥的人工神经网络方法,蔽第三章商谨缨余绍。 说话入识剐需要解决的其他闷趱还有:短话音问题,能螽用穰短的落酱送行模型堋练, 而且用搬短的时间i j 搬行识别,这主要是声音不舄获取的应用所需求的:声音模仿( 或放录音) 闯题,黉有效地区分歹 模贫声音f 袋酱) 帮真最的声音;多滋话人情况下鼹标说话人的鸯效捡 密;消酴或减弱声音窝纯f 不褥添富、内容、方式、身体状况、酎鲻、霉龄等) 带柬的彩螭; 消除信邋差异和背景噪音带来的影响等等,此时需要用到其他些技术柬辅助完成,如去噪、 自适应簿技术。对说话入确认,述稼妪一个两难选择闫题。邋常,表征没话入确认系统往毙 的两个鬟簧参数是错诶拒绝率帮镣谟接受率,褥者是拒绝真币说话人丽造成的错误,艏者是 接受集外说话人而遗成的错误,二者与闽值的设定相关。在现有的技术水平下,两者嚣法同 时达到谶小,需要调熬潮值柬满慰不同应翅蛇褥求,毙如农黎簧“爨弼瞧”的情况下,可以 让错误糖绝率低一些,此时错误接受率会增加,驮孺安全谶降低;在对“安全性”要求商的 情况下,可以让错误接受率低一貔,此时错误撒绝率会增加,从而易用性降低。前者w 以概 括为“宁错匏漏”,聪慧者可以“宁潺匆错”。我粕把真正鲷缓豹调整称为“揉终点”调整。 好斡系统应该允许对操作点的自融调整。 8 鸯裹辩电举巯联士硗究生拳链论文 粲一枣说远太识熬 1 3 本论文的工作 语巍信号的哪些特征能较好地反映浇话入个性特征,觋程还没有完龛撼渣楚,但掰以肯 定这样的特征帮谎话入的发音器露特性相关,觚生理学和数学模型韵角度对待征进行分辑莠 不是我们研究的范畴。日常生活中人们对说话人的辨认有很大的模糊性,本论文将模糊理论 孛的特锻模糊度评价方法寻i 入到说话入识别中,设计了一个姆文本无关舂臼说话人辨认鬈统。 系统中鸯一个候逡特征集,箕中惫含了语音信蟹的各稀时域、频域和小波特征,我们簸终选 择用来进行说话人识别的正选特授集是候选集的子集,选择的标准就是候选集中特征的模糊 度。这种说话入识别系统的结构w 髑塑二表示。 潞匕匦邢塑甲 ! 章 区章固岖回 衰i 磊;一兰堡竺笙釜窒h型型卜 l, 烹皇 识别结果 图二本论文中的说话人识别系统框图 辍圈孛饕凄,本文联掇塞豹系统慰耪征提取环节邂嚣了缨绽,透过对调练谌考媛选特缝集豹 筛选来褥到正选特缀,用正选特舐去训练神经网络和进行谈别。实验结果表明,通过这种方 法选择的特征组合能取得比一般文献中常用的特,征( 如m f c c 系数) 更好的效果。 就势,怼手薅号,l 、波势辑褥藏懿众多系数皴露莲一多掇敬爨表这说舔入令蠖熬特缎建嚣 前研究的个热点,臌然取得了一些进展,但效果不是很明驻。本文在这方面也做了一些尝 试,提出了用不同阶小波系数短时平均幅度比,以及高阶小波系数的近似过零率来做为与文 本无关貔说话久识别熬特薤,对遮些褥,蔹豹摸颧发势掇鞠嫒皴瓣谈嗣实竣表甥这些褥缀其有 一定的有效性。 9 南京邮电学院硕f :研究生学位论文 第二带语音信吁的特征提取,选择 第二章语音信号的特征提取与选择 2 1 语音信号的预处理川 语音信号从整体来看其特性及表征其本质的参数均是随时间变化的,所以它是一个非平 稳态过程,不能用处理平稳信号的数字信号处理技术对其进行分析处理。虽然语音信号具有 时变特性但是在一个短时间范围内( 一般认为在1 0 3 0 m s 的短时间内) ,其特性基本保持 不变即相对稳定,因而可以将其看作是一个准稳念过程。即语音信号具有短时平稳性。所以 任何语音信号的分析和处理必须建立在“短时”的基础上,将语音信号分为一段一段来分析 其特征参数,每一段称为一“帧”,帧长一般取为1 0 3 0 m s 。这样,对于整体的语音信号来 讲,分析出的是由每一帧特征参数组成的特征参数时间序列。 语音信号的分帧是通过加窗进行的。分帧虽然可以采用连续分段的方法,但一般要采用 图三所示的交叠分段方法,这是为了使帧与帧之间平滑过渡,保持其连续性。前一帧和后一 帧的交叠部分称为帧移。帧移与帧长的比值一般取为o l 2 。分帧是用可移动的有限长度窗 口进行加权的方法来实现的,就是用一定的窗函数州m ) 来乘x ( m ) ,从而形成加窗语音信号 x 。( m ) = w ( ,1 ) + x ( m ) 。 i 制hh 帧移 帧k 图三帧长与帧移的示例 在语音信号处理中常用的窗函数是矩形窗和汉明窗,它们的表达式如下( 其中n 为帧长) : 矩形窗: 删= 怯雌:三:1 0 4 6 c o s 【2 册( 一1 ) 】,o , 一1 0,=efse 窗函数的选择( 形状和长度) ,对于短时分析参数的影响很大。为此应选择合适的窗口,使其 短时参数更好地反映语音信号的特性变化。 1 0 舛m , | | ) m 以 窗明汉 南京邮电学院硕士研究生学位论文 第一二帝语音竹i ,的特征提取0 选掸 经过上面介绍的处理过程,语音信号就被分割成一帧一帧的加过窗函数的短时信号,然 后再把每一个短时语音帧看成平稳的随机信号,利用数字信号处理技术来提取语音特征参数。 2 2 时域特征 2 2 1 短时能量l 嘲 设加窗分帧处理后得到的第珂帧语音信号为x 。( 肌) ,则工。( 脚) 满足下式 x 。( 朋) = w ( 聊) x ( 门+ 棚) o s 聊j 一1 其中, = 0 ,l + ( 一r ) ,2 + ( 一,) ,j v 为帧长,丁为帧移。 设第n 帧语音信号x 。( ,2 ) 的短时能量用e 。表示,则其计算公式如下 e = x :( m ) e 。是一个度量语音信号幅度值变化的函数。 2 2 2 短时平均幅度1 4 i 短时能量由于是信号的平方,它对高电平非常敏感。另一个度量语音幅度变化的函数是 短时平均幅度m 。,它定义为: m 。也是一帧语音信号能量大小的表征,它与e 的区别在于计算时小取样值和大取样值 不会因平方造成较大差异,在某些应用领域中会带来好处。 2 2 3 平均过零率 平均过零率表示一帧语音中信号波形穿过横轴( 零电平) 的次数。过零率就是样本值改 变符号的次数。平均过零率的计算公式如下: z = 击篓i 跏( “删一跏( “删i 其中辨,= ! 。蒜 南京揶电学院碳七哥f 究生学证论文 第二章游鹰信号的特征提敷嘲毫择 矗( m ) 为经过颈憝理璐的音频数掇。 按上式定义的过零率容易受到随机噪声的干扰,一个有效的方法是对上述定义做点修 改,设一个f 1 限# ,憋过零靛含义修改为跨过艰氛f 1 限,定义始下【3 孕1 : 删2 六蕃。跏咪m ) 一巾脚m m 一1 ) 一川+ i 跏晰m ) + 咿跏( 脚一1 ) + f 】l 这榉诗冀弱过零率羧露一定鲍抗予撬能力了。 2 2 4 短时自相关黼数1 4 i 设也( m ) 为加窗谶音信号,它的短时自相关函数定义为: r 。( 女) = x 。( m 扣。( 卅+ ) ( o g 足) 这里足鼹最大延迟点数。对于浊鬻谮音豹自相获函数具有一定的周期性,掰以用来焦爨浊音 周麓,清音语音酶彝褶关函数则不英备餍簸惶,类雏爻予离颥酶噪声。 2 2 5 短时平均幅艨差函数1 4 i 平均旗发差丞数缀常翔采伐饕叁楣关函数遴嚣语音分攒。麴榘薅号其寿一定豹蠲攒瞧, 则相距为周期整数倍的样点的幅度羞将达到极小值。短时平均幅度差函数定义如下: 只( j ) = | 矗( 脚) 一矗( 拼+ 女) i 短时自关函数和缀时平均幅度差函数包含裔语音信号的旗音周期信息,因此,可以用它 们来进行语音信号的短时基音周期估计。 2 3 颓域特征 2 。3 。l 予带能量比i 糟i 计辫子带能量眈时,首先将语音信号的频带划分为4 个子带区间j 6 “= o ,l ,2 ,3 ) ,分剐是 o ,w 1 6 , w 1 6 ,w 8 , w 8 ,w 4 , w ,4 ,w ,分别计算备个子带的能量 s 磁;i ( 奶1 2 妇,剃予豢能量院s 冁= s 鬈,嚣。这犟w ;,2 ,声兔撼榉频率。 ,嗤施 2 3 2 亮度l 协i 亮浚用凌率谱震心来播述,玄蔽浃了信号熊羹谱的分奄穆况。 1 2 赢豪雄屯拳照疆土研究生学靛论文 第二章谱魏信萼豹特托挺欺4 i 选择 车一l i 爿。( j ) 1 2 ,c = 生生疗 e 羹孛五( 露) 为工。( 掰) 瓣蕊敬薅墨聱交换。 2 3 3 带宽l 侣1 絷爨楚饕量语啻皴域莛围熬拯糕 2 3 4 裔渭1 3 9 丑m 其中m ) ;嚣 语凿信号的基音频率提取也悬语音信号处理中的一个研究热点,有多种方法,有在时域 遴行豹,蠢在频域避褥躬,还有蠲铡谱法实瑷豹,惶是没有葶孛万戆豹方法在 壬褥攮溅下帮 能准确w 靠地估计出藻音周期f 8 l 。经常采用的谐波积谱法如下。 信母并。( m ) 的谐波积谱( 5 阶) 您义为: ( | | ) s 秘区藤) |素= o ,l ,2 ,2 一l ,# l 公式为释次谐波幅度谱的累乘,。( 施) 的频谱锚构是以( ) 谯频域压缩r 倍的结果,它的,次 谴波豹波蜂垃置总是鬈蒸渡频率霹豢豹,遮藏楚谐波积蘧法鹣基本器理。瞧毒跨公式枣熬蠖 度谱改为功率谱,图瞪为一帧音频数据的谐波积谱图使用的是各次谐波功率谱的累乘。由 图中可精出,很容易找到最高峰,进而算出基静频率。 t 、嗥 图四一帧语音数攒的谐波积谱阁 摩索邮窀学兢硬士研究生学撼论文 第二章谱爵楼号熬特征键数蛾睦择 2 3 sm f c c 系数 人鞠瞬觉系统是一个特殊的 # 线性系统,崧响应不同频摩信号豹灵敏发是不嗣豹。基本 上楚一个对数关系,豁嚣所求的鄂魏参数都没蠢考虑嚣这一点,隧e l 足痰错谱系数 ( m e 卜f r e q u e n c yc e p 8 t r a lc o e f f i c i e n t s ) ,或称m e l 频率倒谱系数,简称m f c c ,比被充分 迪署| j 用? 入耳这种感知特性,因藏,得到了广泛黔应用。大爨磷究表明,! i l f c c 系数可以缀好 静提离谈剐系统的健熊,蔼且赫f c c 系数有较好翡鲁棒性( r o b u s t n e s s ) 。 m e l 刻度以“b a r k 为频率纂准,它和线性频率的转换关系是【4 0 】: , 如毛5 9 5 1 双n 静 公式中,为线性频率,厶。,为m e l 刻度频率。m 心c 系数的计算也是按帧进行的。它的计算要 基于信号的功率谱,骤把线性频攀上的功率谱转化为m e l 频帮下的功率谱。这需要在计葵之 嚣竞在绥等翦频谱范辫内设置著予露逶滤滚黎; , 。( )( 蜥= o ,1 , ,一l n = o ,i , 一i ) z 影为滤波嚣的个数,邋常取2 4 ,为一峻音频馈号的撼样点数。滤波器农频域上为藏罄的 三角形,其中心频率以在m e l 频率轴上是均匀分布的。每个滤波器三角形两个底点的频率分 别等于栩邻两个滤波器的中心频搴,即每两个桐邻的滤波器的过渡带相酉搭接,且所肖滤波 器戆频率鹣应之彝燕l 。在线性貘攀,当掰较小瓣,靼邻翁五淘疆穰小,夔罄磁懿壤麴。 相邻的厶间隔逐渐挝火。另外在频率较低的区域,厶和,之间有一段是线性的”1 。 带遁滤波器组躲参数要事先计簿好,在计辣骐f c c 参数聪巍接使用,下藤是一组带遇滤波 器的铡予。从这个图巾可以直蕊逸辫出带通滤波器维的特点。 图赢带逶滤波嚣缀示意图 1 4 南京邮电学院硕士研究生学位论文 第二章语音信号的特征提取矧量择 m f c c 系数的计算通常采用如下的流程【4 1 l : ( 1 ) 首先确定每帧音频采样序列的点数,对经过预处理的音频数据做f f t 变换,取 模的平方得到离散功率谱s ( n ) ; ( 2 ) 计算s ( h ) 通过村个带通滤波器后得到的功率值,即计算s ( ,f ) 和。( 肝) 在各离散频 率点上的乘积之和,得到m 个参数只,m = 0 ,l ,2 ,m 一1 ; ( 3 ) 计算只的自然对数,得到上。,小= o ,1 ,2 ,m l : ( 4 ) 进行下式的计算 m l d 后= 工m c o s k 西一o 5 ) 叫m 】 七= o ,l ,2 ,k ( 5 ) 舍去代表直流成分的d o ,取其它的d 。作为m f c c 系数。 2 4 线性预测参数 1 9 4 7 年维纳首次提出了线性预测( l i n e a rp r e d i c t i o n ) 这一术语,而板仓等人在1 9 6 7 年首 先将线性预测技术应用到了语音分析和合成中。线性预测分析的基本思想是:由于语音抽样 点之间存在相关性,所以可以用过去的样点值来预测现在或未来的样点值,即一个语音的抽 样能够用过去若干个语音抽样或它们的线性组合来逼近。通过使实际语音抽样和线性预测抽 样之间的误差在某个准则下达到最小值来决定唯一的一组预测系数。这组预测系数就反映了 语音信号的特性,可以作为语音信号特征参数用于语音识别、语音合成、说话人识别等【4 1 。 语音抽样不仅与前一时刻的样值有关,而且与前几个时刻的语音样值都有关。用s ( n ) 表 示某个时刻的语音信号抽样值,线性预测( l i n e a rp r e d i c t i o n ) 模型假定,现时刻的语音样 值可以用前p 个时刻的样值的线性组合表示,即: 童( 九) :圭吼s ( n 一) ( 2 t = i 这就是线性预测的基本原理。其中,口。,口:,口。称为线性预测系数。 实际语音样值与由线性预测得到的语音预测值的差,称为语音残差: e ( 玎) = s ( h ) 一;( n ) 根据使语音样值的总残羞最小的原则,可以求得式( 2 一1 ) 中的一组线性预测系数,而使语音 南京邮电学院硕士研究生学位论文第_ 二章语者信号的特征提取j 选择 的预测值达到与原始语音样值的最佳逼近。为此,定义短时平均预测误差 e = e :( 肌)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论