（信号与信息处理专业论文）与文本有关的说话人确认技术研究与应用.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-09 格式：PDF 页数：99 大小：2.06MB 积分：0 举报 版权申诉

已阅读5页，还剩94页未读，继续免费阅读

（信号与信息处理专业论文）与文本有关的说话人确认技术研究与应用.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要摘要说话人识别是指通过说话人的语音来自动识别蜕话人的身份，它在许多领域内有良好的应用前景。自动说话人识别根据说话内容可以分为与文本有关和与文本无关两类。论文采用基于动态时酬规整和高斯混合模型的方法，从与文本有关的角度，对端点检测、特征提取、模型训练以及噪声鲁棒性等方面进行了深入研究。论文对语音信号进行了端点检测，滤除了语音信号的无声段。论文还比较了双门限语音端点检测方法与能频值端点检测算法的性能，实验证实自& 频值端点检测算法能很好的区分含噪语音端点。论文深入分析了美尔频率倒谱参数的各阶系数在高斯白噪声f 的鲁棒性以及各阶系数选取的最优范围，同时结合动态参数，在相关实验中获得了较好的性能。论文提出了谱相减算法和倒谱均值相减算法来分别消除加性噪声和信道噪声的干扰，取得了不错的效果。论文实现了噪声环境下基于高斯混合模型的与文本有关的说话人确认系统，从语音信号的预处理，到特征提取，再到模式匹配，介绍了各个部分的原理和实现方法。论文实现了在片上可编程系统平台下的基于智能射频卡的说话人确认系统；讨论了生物识别技术与智能卡技术相结合的应用以及美好的前景；介绍了动态时间规整算法，并详述了动态时间规整算法的实现方法。关键词：说话人确认，能频值，美尔差分倒谱，动态时间规整，高斯混合模型。 a b s l r a c t a b s t r a c t s p e a k e r r e c o g n i t i o ni sl h ep r o c e s so f a u t o m a t i c a j l yr e c o g n i z i n gw h o j ss p e a k i n go nt h eb a s i so fi n d i v j d u a li n f b 玎i l a t i o nj n c l u d ei ns p e e c hs j g n a l s 】th a sw e j ja p p l i c a t j o np r o s p e c t si nm a n yf j e l d s s p e a k e rr e c o g n j l j o n m e t h o d sc a nb ed i v i d e di n t ot e x t d e p e n d e n ta n dt e x t j n d e p e n d e n tm e t h o d s a c c o r d i n gt oi h ev e r b a lc o n t e n to fl h es p c e c hs i g n a l t h el h e s i sb a s e so n d y n a m i ct i m ew a r p j n ga n dg a u s s j a nm i x t u r cm o d e l ，s t u d j e se n d p o i n t d e t e c t j o n ，s p e a k e rf e a t u r ee x t r a c l i o n ，t r a j n i n gm e t h o d so ft h es p e a k e rm o d c l ， a n dt h en o i s e o b u s t n e s si n d e p t h 7 】1 l ei h e s i sf i n dt h es j g n a l se n d p o i n ta n df j l t e rt h es p e e c hs j l e n c e s e g m e n t w eg i v ec o m p a t j s o no fl h et w oe 盯d p o i n le x a m i n a t j o nm e t h o d s ： d o u b l e g a t et h r e s h - h o 】dm e t h o da n de n e r g y f r e q u e n c y - v a l u em e l h o d e x p e r i m e n t ss h o wt h a t l a t t e tc a np a r t i t i o nt h ee n d p o i n t0 fn o i s es p e e c h b e “e r t h et o b u s t 眦s so fe v e r yc o m p o n e n t so ft h em e lf r e q u e n c yc e p s t r a l c o e f 氍c i e n tf o rg a u s s j a na d d i t i v eb a c k g r o u n dn o j s ei ss t u d i e d t h eo p t i i 玎a i t a n g co fi o b u s to o n l p o n e n t s i sa l s oe v a l u a i e d c o m b i n e dw i l hd y n a m i c c o e f f i c i 曲l s ，p f 锄j s i n gf e s u n sa f c 百v e ni ns o m ee x p e f m e n t s n et h e s i si l i l p l e m e m st w om e t h o d s0 fs p e d t a ls u b t t a d i o na n d c e p s t r i l mm e a ns u b t r a c “o n t h et h e s i si m p l e m e 盯t st e x t d e p e n d e n ts p e a k e r v e r i f j c a t i 伽s y s t e mb a s i n go ng a u s s i a nm i x t l i r em o d e l i nt h en o j s e e n v i r o n 珊e n t t h et h e s j si m p l e m e m sas p e a k e rv e i i 矗c a t i o ns y s t e mb a s j n go ns y s t e m 咖p r o g r a m 珈a b l cc h j pa n dr f s m a r tc a r dt e c h n o l o g y t 1 i et h e s i sd i s c u s s e s f h ef i n ep r o s p e c ta b o u tt h ec o m b i n a t i o no f s y s t e i i lo np r o g 阳m m a b l ec h i p a n dr fs m a nc a r dt e c h n o l o g y 1 r h et h e s i si n t r o d u c e st h em e t h o do fd y n a m j c t j m ew a i p i n ga n dt h ej m p l e m e m 瑚e t i l o d k e y w o r d s ：s p e a k e rv e t j f j c a t j o n ，e n e r g y 仃e q u e n c yv a l u e ，m e l f r c q u e n c yc e p s t n l mc o e f f j c i e n td i 丘- c r e i k e ，d y n a m i ct i m ew a f p j n g a u s s i a n m i x t l l r em 0 ( i e l m 独创性声明、8 7 9 弓2 l 本人声明，所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽本人所知，除了文中特别加以标注和致诩的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得北京交通大学或其他教学机构的学位或证一 s 而使川过的材料。与我一起工作的同志对本研究所做的任何贡献已在论文中作了明确的说明并表示了谢意。本人签名：歪筵鲴日期：二堕年二l 月里_ 日关于论文使用授权的说明本人完全了解北京交通大学有关保留、使用学位论文的规定，即：学校有权保留送交论文的复印件，允许论文被查阅和借阅；学校可以公布论文的全部或部分内容，可以采用影印、缩印或其他复制手段保存论文。论文中所有创新和成果归北京交通大学计算机与信息技术学院所有。未经许可，任何单位和个人不得拷贝。版权所有，违者必究。日期：1 圆年；月盟日本人签名：丕簋骂绪论第一章绪论 1 1 说话人识别的基本概念晚话人识别( s p e a k e rr e c o g n i t i o n ) 又称为声纹( v o i c e p r j n t ) 识别，与指纹识别、人脸识别、虹膜识别等同属于生物以别的范畴。语音是人的一种特殊的生物特征，在语音中既包含了说话人所表达的语义信息，又包含了说话人的个性特征。说话人识别就是从说话人的段语音中提取出说话人的个性特征，从而达到对说话人进行辨别的ij 的。自动说话人识另( a s r ，a u t o m a t i cs p e a k e rr e c o g l l j t i o n ) 就是利用汁算机对待识别人的语音进行自动识别。醅话人识别不同于一般的语爵以别，说话人识别利用的是语音信号中的说话人的个性特征，而不考虑语音中的字词含义，它强调说话人的个性；而语音识别的目的是识别出语音信号中的语义内容，并不考虑说话人是谁，强调的是语音的共性。图1 1 是说话人识别系统的典型结构框图。说话人识别系统主要有以下几部分组成：图1 。1 说话人识别系统框图预处理预处理包括对语音数据进行预加重、加窗、分帧、端点检测等。特征提取北京交通_ 人学硕士学位论文在说话人识别系统中特征提取是重要的一环，特征提取就是从说话人的语音信号中提取出表征说话人的个性特征。提取的特征应能有效地区分不同的说话人，并且对同一说话人保持相对稳定。说话人识别系统中常用的特征主要有： ( 1 ) 线性预测系数及其派生系数，如l p c 系数、声道的冲激响应、自相关系数、声道面积函数以及倒谱系数等，其中倒谱系数有最好的谚别效果。 ( 2 ) 由语音频谱赢接导出的参数，由于语音的短时谱中包含有激励源和声道的特性，因而可以反映说话人的差别。已经使用的参数主要有功率谱、基音轮廓、其振峰频率带宽及其轨迹、语音帧能量、m e l 倒谱系数等。另外，各种特征参数的有效结合也可以提高系统的性能。模式匹配模式匹配就是把从测试语音中提取的特征参数与参考模板进行失真度量，将其失真度大小作为判决的依据。不同的特征参数有不同的模式匹配方法。说话人识别采用的方法主要有以下几种脚： ( 1 ) 长时统计方法：不同谱特征的长时样点统计，例如谱特征的均僮和方差，作为文本无关的特征很早就被使用。可是，长时谱平均是说话人语音谱特性的高度压缩，因此，缺少短时谱特征的区分能力。 ( 2 ) 动态时间规整( d t w ) 方法：说话人信息不仅有稳定因素( 发声器官的结构和发声习惯) ，而且有时变因素( 语速、语调、重音和韵律) 。将识别模板与参考模板进行时间对比，按照某种距离测度得出两模板问的相似程度。常用的方法是基于最近邻原则的动态时间规整( 【t w ) 。 ( 3 ) 矢量量化( v q ) 方法：矢量量化最早是基于聚类分析的数据压缩编码技术。在说话人识别系统中应用矢量量化，把每个人的特定文本 2 绪论编成码本，识别时将测试文本按此码本进行编码，以量化产生的失真度作为判决标准。这种方法的识别精度较高，且判断速度快，但是码本需要较大的存储空间。 ( 4 ) 隐马尔可夫模型( h m m ) 方法：隐马尔可夫模型是一种随机模型，在语音识别中得到广泛应用。它把语音看成由可观察到的观测值序列组成的随机过程，观测值序列则是发声系统状态序列的输出。在使用h m m 模型识别时，为每个说话入建立发声模型，通过训练得到状态转移概率矩阵和观测值输出概率矩阵。识别时计算未知语音在状态转移过程中的最大概率，根据最大概率对应的模型进行判决。h m m 模型可以很好地捕述语音一类的短时平稳的随机过程，在语音识别和说话人识别研究中被广泛应用。 ( 5 ) 人工神经网络( a n n ) 方法：人工神经网络在某种程度上模拟了，l 物的感知特性，它是一种分布式并行处理结构的网络模型，具有自组织和自学习能力、很强的复杂分类边界区分能力以及对不完全信息的鲁棒性，其性能近似理想的分类器。其缺点是训练时间长，动念时问观整能力弱，网络规模随说话人数目增加时可能大到难以训练的程度。 1 2 说话人识别概述 1 2 1 说话人识别系统的分类根据应用分类说话人识别可以分为说话人辨认( s p e a k c fi d e n t 湎c a t i o n ) 和说话人确认( s p c a i 澍v e r i a t i o n ) 两大类。说话人辨认是说话人不声明身份，由 3 北京交通大学硕士学位论文系统刿定目标声音属于一群中的某个特定人，是一个多元判决问题。说话人确认是说话人先声明身份r 如输入用户号1 ，然后系统由目标声音判断是不是他所声称的人，是一个二元判决问题。根据待识别的文本分类说话人识别可以分为与文本有关( 1 e x t d e p e n d e n t ) 的说话人识别和与文本无关f r c x t i n d e p e n d e n t ) 的说话人识别。与文本有关说话人识别用同样的语句内容进行系统的训练和识别，一般采用基于模板的方法f 如 d n ) ；与文本无关说话人识别的训练和识别用不同的语句，一般采用基于统计的方法( 如g m m 模型) 。与文本有关说话人识别由于发音内容固定，较早被研究和应用，识别率高，但容易被录音模仿：与文本无关说话人识别发音内容不固定，识别率差些，但不易被录音模仿。 1 2 - 2 说话人识别的应用领域用说话人识别进行身份认证有传统的密码认证方式无法比拟的优点，语音含有说话人的生理和社会习性特征，不会遗失和忘记、不需记忆、使用方便。与其他生物识别技术相比，如指纹识别、人脸识别、虹膜识别等，说话人识别使用方便，尤其是在用户处于远离识别系统情况时( 如通过电话) ，且用户接受程度高，由于不涉及隐私问题，用户无任何心理障碍。利用语音进行身份识别是最自然和最经济的方法之一。声音输入设备造价低廉，甚至无需额外购置设备的费用( 电话) ，而其他生物识别技术的输入设备往往造价昂贵。在基于电信网络的身份识别应用中，如电话银行、电话炒股、电子购物等，与其他生物识别技术相比，说话人识别更为擅长，得天独厚。说话人识别具有简便、准确、经济及可扩展性良好等众多优势， 4 绪论在金融、证券、社保、公安、军队及其他民用安全认证等行业和部门有着广泛的需求。用于银行、证券系统截止到2 0 0 5 年8 月，全国的固定电话用户总数达到3 4 2 亿，全国移动电话用户达到3 9 3 亿，用户数量稳居世界第一。电话的普及使电话银行、电话炒股等业务不断增加，目前这些业务只采用密码方式对用户进行身份认证，其安全性令人担忧。如果采用浇话人确认技术并结合原来的密码，可安全有效地实现用户身份的确认，这对用户来说并没有增加任何负担。用于网络安全目前，随着互联网的普及，电子商务、网上购物等日益发展，越来越多的人利用网络从事商业活动。说话人识别由于其操作简单，应用方便，是种理想的网络安全认证方式，很容易为广大计算机使用者接受。用于法庭破案对于各种电话勒索、绑架、电话人身攻击等案件，说话人识别技术可以在相关的录音资料中查找出嫌疑人，帮助对嫌疑人的查证。用于军队安全系统说话人识别技术可以辨认出电话交谈过程中是否有关键说话人出现，继而对交谈的内容进行处理。对于一些重要的军事指令，说话人识别技术可以对发出命令的人的身份进行确认。 1 2 3 说话人识别的发展嘲对说话人识别的研究开始于2 0 世纪3 0 年代。早期的工作主要集北京交通大学硕士学位论文中在人耳听辨实验和探讨听音识别的可能性方面。随着研究手段和工具的改进，研究工作逐渐脱离了单纯的人耳听辨。b e 】l 实验室的 l g k e s l a 目视观察语谱图进行识别，提出了“声纹( v o i c c p r i n t ) ”的概念。之后，电子技术和计算机技术的发展，使通过机器自动识别人的声音成为可能。b e 实验室的s p 邝z a n s k y 提出了基于模式匹配和概率统计方差分析的说话人识别方法，从而引起信号处理领域许多学者的注意，形成了说话人识别研究的一个高潮，其问的工作主要集中在各种识别参数的提取、选择和实验上，并将倒谱和线性预测分析等方法应用于说话人识别。 7 0 年代束至今，说话人识别的研究重点转向对各种声学参数的线性或非线性处理以及新的模式匹配方法上，如动态时间规整( d t w ) 、主分量( 成分) 分析p c a 、隐马尔可夫模型( h m m ) 、人工神经网络( a n n ) 和多特征组合等技术。如今，说话人识别技术已逐渐走入实际应用， a t & t 应用说话人识别技术研制出了智能卡( s m a nc a r d ) ，己应用于自动提款机。欧洲电信联盟在电信与金融结合领域应用说话人识别技术，于 1 9 9 8年完成了 c a ( c a n 盱 v e r j f i c a t i o ni nb a n k i n ga n d t e l e c o m m 帅i c a t j o n ) 计划，并于同年又启动了p l c a s s o ( p i o n e e r j n gc a i l a u t h e n i j c a t i o nf o rs e c u f es e r v i c eo p c 珀t i o n ) 计划，在电信网上完成了漉话人识别。同时，m o t 0 1 0 l a 和s a 等公司成立了v - c o m m e r c e 联盟，希望实现电子交易的自助化，其中通过声音确定人的身份是此项目的重要组成部分。其他的一些商用系统还包括：l t t 公司的s p e a k e r k e ” k e y w a r c 公司的v o i c e g u a r d j a n 、t n e t l x 公司的s p e a l ( e z 等。 6 绪论 1 2 4 说话人识别技术的研究现状由于应用的需求和数字信号处理技术的飞速发展，滋话人识别的研究得到了广泛而深入的发展。在国际声学、语音和信号处理会议 ( 1 c a s s p ， i n t e m a l i o n a ic o n f e r e n c eo na c o u s t i c s p e e c h a n d s j g n a j p r o c e s s i n 曲论文集中，每年都有关于说话人识别的两个专题。说话人识别的研究已经逐渐从实验室进入实际应用，e = | 的，说话人识别的研究主要集中在如下几个方面： ( 1 ) 语音特征参数的提取和结合：语音特征参数对说话人识别系统的性能至关重要，虽然倒谱类参数得到广泛应用，但语音特征参数仍是一个研究热点。寻找新的有效的语音特征参数和已有特征参数的有效结合，如基音信息与谱特征的结合州是语音特征参数研究的两个力。向。 ( 2 ) h m m 模型与其它模型结合，改善说话人识别系统的性能，如 h m m 模型与人工神经网络( a n n ) 嘲，h m m 模型与支撑向量机 s v m ( s u p p o nv e c t o rm a c h i n e ) 的结合嘲，h m m 模型与m d d ( m i x t u r e d e c o m p o s j t i o nd j s 谢m j d a t j o n ) 结合m 都可以有效改善系统的性能。 ( 3 ) 带噪语音( 特别是电话或者是移动通信环境中的语音) 的蜕话人识别，是现今说话人识别研究的一个热点和难点肛”。在文献圈中 h e c k 提出了一种在特征提取部分应用人工神经网络1 ，来补偿噪声失真的方法；在文献旧中r e y i l o l d s 用实验结果验证了倒谱均值消除 ( c m s ) 算法可以较好地提高系统的性能；在文献1 中g a r c i a 提出了种改进的c m s 算法结合频率弯折技术改善电话语音的识别系统性能的方法；在文献吲中s j v a k u m a r 柚把子带倒谱技术应用于带噪的说话人识别系统中，使系统性能得到提高；在文献u 4 1 中w o n g 把在语音识别中应 7 北京交通人学硕士学位论文用的并行模型合并( p m c ) 算法用于带噪的说话人识别系统，取得了不错的效果。虽然说话人识别己进入实用阶段，但由于以下原因，说话人识别至今仍然不能达到令人满意的效果： f 1 1 说话人识别的信息来源是说话人所浼的话，其语音信号中既包含了说话人的语义信息，又包含了说话人的个性信息，是话音特征和说话人个性特征的混合体。目前还没有很好的方法把说话人的特征从说话人的语音特征中分离出束“6 l 。 ( 2 ) 说话人的发音常常与环境、说话人的情绪、说话人的健康状况有密切联系，说话人的特征不是固定不变的，说话人的特征具有长时变动特性，会随着时间和年龄的变化而变化；说话人说话时所处的环境，会对说话人的发音造成影响，而且不同的环境噪声电增加了说话人识别的难度；人在患感冒等疾病时，发音与正常情况下有较大的变化，这也增加了说话人识别的难度。 ( 3 ) 声音容易被录音模仿。 ( 声音在电话线路上传输时，会受到线路噪声的影响，不同的通信线路的噪声也可能不同，而且，受电话线路带宽的限制( 人耳能感受的声音的频率范围在2 0 h z 2 咖z 之间，而电话线路的通带在 3 0 0 h z 3 删z 之间) ，语音信号在电话线路上传输时会产生较大的失真。在移动通信中，出于语音信号要经过声码器压缩，语音信号会产生更大的失真。 8 绪论 1 3 说话人确认 1 3 1 说话人确认系统的组成判决结果 ( 居否) 图1 2 说话人确认的基本框图如图1 2 说话人确认系统一般分为三个部分，即丽端处理、说话人建模以及判决。自端处理负责对高冗余度的语音波形信号进行预处理，去冗余，然后提取出易处理的，我们所感兴趣的代表蜕活人特征的信息，也就是特征参数。因此前端处理一般包括预加重、端点检测、特征参数提取及后续处理等步骤。模型是对说话人特征的进一步抽象。根据任务的不同，需要为其建立不同类型的模型。对于与文本有关的说话人确认而言，说话人模型可以为说话人的一条或几条训练语音特征参数的样本( 测试时利用d 叮w 匹配) ，但更好的方法是概率统计模型，如h m m ；对于与文本无关的说话人确认而言，说话人模型有矢量量化 ( v q ) 、高斯混合模型( g m m ) 等。此外，还有一些常用的说话人模型，如人工神经网络o 蝌n ) 和支持向量机( s v m 滓。说话人确认分为训练和测试两个阶段。在训练阶段，由说话人的注册语音通过相应算法训练得到该说话人的模型( 如h m m ) 。在狈试阶段，测试语音在被给出的同时会附带一个身份声明。此语音信号在经过前端处理转换成特征参数序列之后，将与身份声明所指定的说话人 9 北京交通火学硕十学位论文模型进行匹配，给出一个相似度的得分( 如语音o 由该说话人模型a 输出的概率：p ( d 恤) 。然后这个得分将与确认闽值进行比较，最终获得确认结果( 接受、拒绝或待定) 。由于说话人确认可以看作一个假设检验问题，即判断测试语音是由真实说话人发出( h 。) 和由冒认者发出( h 。) 两种事件中的哪一个，因此h j g 西n s l l 刀提出在说话人确认中用似然比( l i k e l j h 0 0 dr a t i o ) 表示确认得分的方法。似然比定义为待识语音o 由真实i 兑话人模型输出的概率与由冒认者模型输出的概率的比值。我们用九代表真实说话人模型， p ( o 阻) 代表语音。由模型a 输出的概率，则似然比可表示为：蚺端葛其中模型 a i a 一为冒认者模型，被用来做评分规整。利用似然比作为评分的优点在于】8 l ： ( 1 ) 它是b a y e s 准则下最优评分的一种近似； ( 2 ) 增加不同说话人之间的可区分性； ( 3 ) 降低确认系统对闽值的依赖性； ( 4 ) 可以依靠两个概率取比值的形式从一定程度上削弱输入语音被噪声污染时对确认评分的影响。被广为研究的恤一大致上可以分为两种，一种叫做背景模型 ( u n j v e 瑚lb a c k g m u n dm 0 d e i ，u b m ) ，另一种叫做竞争者模型( c o h o n m o d e 】s ) 。前者对于一个任务中所有的注册说话人均采用同一个能够代表说话人的一般特征的模型，而后者则引入竞争者( c o h o n ) 的概念1 川，事先选择一批竞争者，为每个人建立一个模型，然后为每个注册说话 1 0 绪论入按照一定的规则选择若干个竞争者模型( 一般选择与注册说话人较类似的) 作为式f 1 1 ) 中评分规整用的模型。一般丽言，通过适当的c o h o n 选择算法，c o h o r t 模型规整比u b m 模型规整的性能要好2 1 0 2 1 ，但很明显无论从计算量还是存储量上都比u b m 规整的开销要大。并且近年来 u b m m a p 结构已成为与文本无关的说话人确认中最好的模型规整技术2 3 0 钔，因此现在c o h o n 模型规整在说话人确认里般较少被采用。判决部分的作用是根掘待识语音和模型匹配的得分，根据一定的规则得到确认结果。这一般是通过将得分与确认闽值进行比较得出的。与一般的分类问题不同，对于说话人确认而言，存在着两种错误，即冒认者被接受的错误和真实说话人被拒绝的错误，因而存在两种错误率：错误接受率( f a l s ea c c e p t a n c er a t e ，f a ) 和错误拒绝率( f a l s er e j e c i i o n r a l e ，f r l 。确认阈值的设定必须兼顾到这两种错误率，而它们与确认闽值的关系则是相反的。f r 和f a 与判决阈值的关系如图l 一3 所示。确认阈值一般是在训练阶段确定的。显然，较高的闽值会使得冒认者难以得逞，但同时真实的说话人更容易被拒绝，反之，较低的阈值使得真实说话人被拒绝的机会减小，但同时会增大冒认者成功的几率。因此为了得到一个合适的阈值，必须对真实说话人和冒认者得分的分布具有足够的了解。错误衷 e e r 图1 3f a 、f r 确认阈值曲线 1 1 北京交通大学硕士学位论文 1 3 2 说话人确认系统的评估手段一般的分类问题如说话人辨认可以用分类错误率束作为最直观和最权威的评估手段。但是对于说话人确认两言，出于存在着两种错误类型，因此系统的评估变得复杂起来。目前存在着多种评估方法，本节简单介绍了一些说话人确认系统的评估方法。 f a 和f r 最简单的评估方法就是在确定确认阔值之后，根据实际的分类错误来计算分类错误率。因此系统的评估标准就有了两个，即错误接受率f a 和错误拒绝率f r 。用f a 和f r 直接作为系统评估标准虽然简单，但缺点是不直观，不仅无法判断各拥有一个较优指标的两个确认系统的优劣，而且只能衡量系统在某个确定阈值下的性能，无法衡量系统的整体分类能力。然而在我们特别关注f a 和f r 中某个量的时候，这种方法是个不错的选择。等误识率实际情况下f a 和f r 曲线总是有交叠的，两条曲线相交处的两种错误率相等，称为等误识率( e q u a le 肿r r a t e ，e e r ) ，如图1 3 所示。髓r 经常被用来作为确认系统的评估标准，简单而且直观。但e e r 只能衡量系统在等误识率阈值下的性能，无法衡量系统的整体分类能力。检涮代价函数美国国家标准及技术署( n a t i 鲫a li n s t i t u t eo fs t a n d 缸da i l d t e c h n o l o g y ，n l s d 自1 9 9 6 年以来举行的每年一次的说话人识别评测伫4 2 毋中定义了一个量：检测代价函数p c t e c t i o nc o s tf u n c t j o n ，d c f ) ，用公式表示为： d c f 2 。职+ c 血觑吃， ( 1 2 ) 绪论其中c 。和c ，。分别是错误拒绝和错误接受的代价，p t 。，和p l 。分别是真实说话人和冒认者的先验概率，例如在n i s t 2 0 0 3 年的评测计划中，定义c n = l o ，c 。= 1 ，p t a ，= 0 0 1 ，p 】。= 0 9 9 。这样，在实际评估中，只要给定一个阂值，就会得到相应的f a 和f r ，带入式( 1 2 ) 便会得到对应阈值下的实际检测代价。d c f 将系统性能用个量表示，并且考虑到了两种错误带来的不同代价以及真实说话人和冒认者的不同的先验概率，要比e e r 更为合理。一个说话人确认系统中可能包含很多个真实说话人，这样我们既可以用以上评估手段对每个说话人进行评估，然后将结果融合f 比如将每个人的e e r 取平均，得到总体的e e r l ；还可以将所有说话人的真实评分和冒认者评分分别取并集，然后一起进行评估。这其实等价于我们是为每个真实兑话人设雹单独的阈值，还是为所有人设置一个全局的阈值。一般系统会根据实际情况，比如训练样本的多少，对计算开销的要求等决定选择哪一种方式。 1 3 3 说话人确认所面临的主要问题近年来，说话人确认的研究重点己从实验性系统转入到实用化系统，系统的规模( 说话人数目) 也越来越大，使用语音不仅限于采自麦克风，电话、手机等的应用越来越多，因而实用背景下的说话人确认研究是实现实用化系统的关键，有许多亟待解决的问题。例如：究竟用语音信号的哪些特征或特征变换来描述说话人才是有效和可靠的；采用什么模型来刻画每个说话人语音特征的分布最为合适，从而获得尽可能正确地分类的效果；如何提高一个自动说话人识别系统对环境噪声及信道的鲁棒性( r o b u s t 雎s s ) 等等。这些问题归结起来，主要有以下北京交通大学硕士学位论文几点，我们分别加以介绍。说话人特征的提取语音波形信号难以直接处理，特征提取的任务就是把冗余度高，难处理，特征不明显的原始语音波形转换为冗余度低，易于后端处理，并且带有尽可能多的分类特征信息的特征参数。理想情况下，语音特征参数应具有以下特征： ( 1 ) 能够有效地区分不同人，但在同一人的发音中能够保持稳定 ( 2 ) 不易被模仿 ( 3 ) 易于从语音信号中提取尽管实际上这样理想的特征参数是不存在的，但自从上世纪5 0 年代人们开始对自动语音识别进行研究以来，人们一直在向这个日标努力，目前己经达到了相当高的识别率。目前常用的特征参数仍有诸多缺点。首先，语音信号是多种因素综合作用的结果，它主要由语义内容决定，同时也受说话人个人特征的影响，而目前的特征参数通常既可以用来做语义识别，也可以用做说话人识别，它们并没有能够把两。种信息分开：其次，说话人的特征信息是丰富多样的，从语言学角度来看，说话人特征有口音、话题、说话风格( 惯用语和常用句式) 等，这些特征信息对人们日常生活中识别说话人很有帮助，但机器识别中的参数大多为基于声道特征的短时谱参数，如m f c c ，l p c c 等，而语音信号中所包含的其他一些能表征说话人个人特性的特征信息，尤其是高层信息，由于比较难以提取和表示，故尚未得到广泛的应用。目前己有文献对语音中能够代表说话人特征的声道特征以外的信息如l p c 残差伫劫、基音频率伫s 2 卿、韵律渊、习惯用语d 1 ，3 萄等进行了初步研究。因此，提取出声道外的描述说话人个性发音特征的超音段信息作为声道特征参数的补充，对于提高说话人确认系统的性能是十分重要的。 1 4 绪论说话人特征的建模说话人特征的建模是对说话人特征参数进一步抽象的过程。说话人模型用来描述特定说话人的特征，并在将来同未知语音进行匹配，获得该语音同该说话人的相似程度，供后续步骤进行判决。在说话人识别研究的早期，人们直接用说话人的一条或者几条语音的特征矢量组作为浅话人的特征，并利用动态规划的方法同未知语音匹配。随着信息技术的发展，v o ，a n n 和s v m 等被用来为说话人建模，获得了很好的效采。但目前最方便、高效而且性能最好的说话人模型当属概率统计模型h m m 和g m m 。随之而来的一个问题是：h m m 或g m m 是不是描述况话人特征的最优的模型? 人们自然期望否定的答案。实际上，人们也逐渐发现了统计模型用来描述语音的一些缺点。比如h m m 虽然能够较好地描述语音的动态本质，但语音是连续变化的，两h m m 在时闻上用来进行描述的却只是一些孤立的状态。g m m 虽然在与文本无关的说话人识别里获得了当今最高水平的性能( s t a t e 。o f - t h e a n ) ，但由于g m m 更关注模拟观察数据的内在分布，而并不关心不同类别之间的分类信息，因而常规的g m m 用来解决分类问题时缺乏区分能力。另外，g m m 的参数般是通过b 卸m w e l c h 算法使p ( o 协) 达到最大得到的，其中。为训练语音。但其训练准则并不能保证与系统的分类代价或评估标准一致，从而不能带来性能的最优化。针对这种情况，己经有入在统计模型的改进方面做了很多工作，并提出了一些改进的系统和算法阐。环境及通道鲁棒性噪声鲁棒性是当今语音识别领域里所面临的个非常重要的课题。由于语音信号本身性质所致，在传输的过程中会不可避免地受到北京交通大学硕士学位论文噪声的干扰。语音信号中的噪声一般分两种，一种是加性噪声，例如说话时的背景噪声，还有一种是卷积噪声，也就是由于传输信道的非理想性所造成的信号失真。无论哪种噪声，都会影响到语音信号的性质，进而会对识别造成负面效应。特别是如果在训练和识别阶段的噪声性质也在定程度上不相同，则会带来严重的环境失配问题，系统的性能将严重下降。在实验室条件下，目前的说话人确认技术完全可以满足大多数情况下的使用需要，但当将其放到实际环境下时，由于背景环境噪声以及非理想传输信道的影响，其确认性能往往会下降到难以满足使用要求。因此寻找鲁棒性( r o b u s i n e s s ) 的说话人确认手段已成为说话人确认实用化过程中一个非常迫切的问题，并且这种抗噪：f 段应具有复杂度低、速度快等特点。有限的训练及测试样本由于说话人的个人性信息的周期比较长，要充分地反映况话人特征需要比较长的语音，如十几秒甚至几十秒的长度。入类的经验和有关文献均表明田l ，测试时的确认文本越长，确认准确率就越高。但是，说话人确认作为人机交互的一种手段，在使用者配合的场合，必须要考虑使用者的耐心程度；而在使用者不配合的场合，必须考虑实际条件下所可靛获得的语音的长度。对于基于概率统计模型的说话人确认，说话人模型的训练对训练样本数据有较大的依赖性。因而如何降低这种依赖性，更加有效地利用有限的数据，提取准确的模型参数以适应不同声学环境的变化便成为说话入确认研究中的另一个重要目标。确认阈值及确认策略确认阐值是说话人确认研究中的一个特有的问题，它直接关系到未知语音能否被正确确认，因而确认阙值的设置是非常重要的。通常确认阈值是在训练阶段确定的，因此训练数据的充分性和代表性会影 1 6 绪论响到确认闺值的性能。确认阈值的设置涉及到两部分i f f 练数据，即真实说话人数据和冒认者群体数据。一般情况下用户提供的训练样本不会太多，因而确认阈值比较难以确定。一个解决办法是使所有用户共享个公用闽值，这样可以充分利用所有人的训练样本，但这样做的问题又很明显，因为实际上不同目标说话人的理想确认阈值是有所差别的。因此，通过适当调整确认策略，可以从一定程度上降低系统对确认阈值的依赖性。虽然对于以上这些问题的研究近几十年来已经获得了很大的进展，但由于人们对于语音信号本质的了解和对人的听觉感知机理理解的局限性，这些问题仍然是阻碍一个自动说话人确认系统实用化的主要原因，值得全世界的语音研究者不懈地进行探索。 1 4 本论文的工作特点及内容安排针对与文本有关的说话人确认方式，我们分别对语音信号的预处理、特征参数的噪声鲁棒性、抗噪算法等方面作了一些研究与实现i 并在此基础上实现了在s o p c 平台上基于r f 智能卡技术的与文本有关说话人确认系统以及基于g m m 模型的与文本有关的说话人登录系统。论文的主要工作有以下几个方面： ( 1 ) 语音信号预处理算法中端点检测算法的实用化改进。 ( 2 ) m f c c 特征参数及其派生系数作了详细的噪声鲁棒性分析。 ( 3 ) 针对加性噪声和信道噪声，分别实现了用谱相减( s s ) 法和倒谱均值消除( c m s ) 算法来滤除噪声。 ( 4 ) 噪声环境下，利用两种噪声消除算法实现了基于高斯混合模型 ( g m m ) 的说话人确认系统。 1 7 北京交通夫学硕十学位论文 ( 5 ) 在s o p c 平台下，利用动态时间规整算法( d t w ) 实现了与文本有关的说话人确认系统。针对上述内容，论文的组织结构安排如下：第一章绪论：介绍了说话人识别的基本概念，说话人识别的分类与应用说话人识别的发展与研究现状。并重点介绍了说话人确认系统的组成以及它的评估手段，详细论述了晚话人确认技术所面临的主要问题。第二章语音信号预处理：介绍了语音信号的数字模型，语音信号的时域分析，并从语音信号的获取丌始，详细介绍了语音信号的预处理过程，并实现了一种新的能频值端点检测算法，与传统的双门限端点榆测算法相比显示出了优越性。第三章语音信号的特征选择及其噪声鲁棒性，介绍了说话人识别常用的特征，并对目前最流行的m f c c 特征参数及其派生系数作了详细介绍，包括m f c c 系数的提取过程，m f c c 系数的倒谱提歹优化， m f c c 系数的噪声鲁棒性分析。第四章噪声消除技术研究，介绍了几种噪声消除技术，针对加性噪声和乘性噪声，分别提出了用谱相减( s s ) 法和倒谱均值消除( c m s ) 算法来滤除相应的噪声，取得了不错的效果。第五章噪声环境下基于g m m 说话人确认系统的实现，介绍了基于g m m 模型的说话人识别，详细讨论了与文本有关的说话人确认系统的结构与实现。第六章基于声纹特征的智能r f 卡的研究与应用，讨论了生物识别技术与智能卡技术相结合的应用以及美好的前景，介绍了动态时间规整算法( 嘶，) ，介绍了基于s o p c 平台和r f 智能卡技术的说话人确认系统的结构以及各部分算法的实现。 1 8 语音信号预处理第二章语音信号预处理说话入识别是语音识别的一个大类，它的一般处理方法也同语音识别系统基本相同。在本论文研究中说话人识别的般原理框图如图 2 1 所示，其中虚线框内的部分为说话人识别的第一环节，那就是语音信号预处理，它包括反混叠滤波、模，数变换、自动增益控制、去除声门激励及口唇辐射的影响等，以及去噪和语音端点检测。本章就介绍有关的知识。图2 1 说话人识别原理框图 2 1 语音信号获取 2 1 1 语音的产生人类的发声过程是由于肺部的收缩，压迫气流由支气管经过声门和声道引起音频振荡而产生的，其中声道起始于声门处而终止于嘴唇，包括咽喉、口腔，鼻道则是从小舌开始到鼻孔为止。当小舌下垂时，鼻道与声道发生耦合而产生语音中的鼻音。人类发音过程有三类激励方式，因而能产生三类不同的声音：浊音、清音和爆破音。当气流通过声门时声带的张力刚好使声带发生较低频 1 9 北京交通大学硕十学位论文率的张驰振荡，形成准周期性的空气脉冲，这些空气脉冲激励声道便产生浊音。这些周期脉冲的周期称作基音周期，其倒数称为基音频率。如果声道某处面积很小，气流高速冲过此处时产生湍流，当气流速度与横截面积之比大于某个门限时便产生摩擦音，即清音。如果声道某处完全闭合建立起气压，然后突然释放而产生的声音就是爆破音d s l 。产生语音信号的框图如图2 2 所示。音谤艘生三一振幅l a v 蒽”醉匦堕亘卜刊振幅fa n 声道参数霾h 燃p 髑图2 ，2 语音信号的产生模型声道是一个谐振腔，气流激励声道发生共振产生语音信号。声道发生共振的不同的谐振频率称为共振峰频率，简称共振峰，它是声道的重要声学特性。每一个共振峰对应声道的系统函数的一对极点。 2 1 - 2 语音信号的数字化为了将原始模拟语音信号变为数字信号，必须经过采样和量化两个步骤，从而得到时间和幅度上均为离散的数字语音信号。根据采样定理d 日，当采样频率大于信号的两倍带宽时，采样过程不会丢失信息，利用理想滤波器可从采样信号中不失真地重构原始信号波形。语音信号是随时间而变的一维信号，它所占据的频率范围可达 1 0 k h z 以上，但是对语音清晰度和可懂度有明显影响的成分，最高频率约为5 7 k h z 。c c r r t ( 国际电报电话咨询委员会碾出的数字电话g 7 1 1 语音信号预处理建议，采

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（信号与信息处理专业论文）与文本有关的说话人确认技术研究与应用.pdf

文档简介

温馨提示

最新文档

评论

（信号与信息处理专业论文）与文本有关的说话人确认技术研究与应用.pdf

文档简介

温馨提示

最新文档

评论

相关文档