（信号与信息处理专业论文）基于小波包分析和支持向量机的说话人识别.pdf

上传人：扣*** IP属地：宁夏上传时间：2019-12-09 格式：PDF 页数：65 大小：2.33MB 积分：0 举报 版权申诉

（信号与信息处理专业论文）基于小波包分析和支持向量机的说话人识别.pdf_第2页

（信号与信息处理专业论文）基于小波包分析和支持向量机的说话人识别.pdf_第3页

（信号与信息处理专业论文）基于小波包分析和支持向量机的说话人识别.pdf_第4页

（信号与信息处理专业论文）基于小波包分析和支持向量机的说话人识别.pdf_第5页

已阅读5页，还剩60页未读，继续免费阅读

（信号与信息处理专业论文）基于小波包分析和支持向量机的说话人识别.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

哈尔滨工程大学硕士学位论文摘要说话人识别是根据语音波形中反映说话人生理和行为特征的语音参数，自动识别出说话人的过程，它是语音信号处理的一个重要研究方向，作为一种生物认证技术，具有广泛的应用前景，得到人们越来越多的研究。本文从语音信号的预处理开始分析，采用短时能频值端点检测算法对语音信号进行了端点检测，滤除语音信号的无声段。重点比较了该算法与双门限语音端点检测方法的性能，实验证实短时能频值端点检测算法能很好的区分语音端点。说话人识别系统中，最重要的是能够从语音片断中提取代表说话人独有特征的稳定参数。针对短时傅立叶分析在提取说话人特征参数时的缺陷，本文从听觉感知特性出发，研究了两种说话人识别特征，首先研究了基于小波包分析代替傅立叶变换的一种新的特征参数；然后给出了衡量各种特征参数识别能力的f 比准则，利用f 比准则构造出另一种新的混合特征参数。分类器设计部分重点研究了支持向量机，构建了支持向量机分类器。支持向量机算法是基于结构风险最小化原则的，采用一个非线性核函数来表示特征空间的内积，在小样本情况下具有很大的优势，有较好的泛化推广能力。通过特征提取阶段，提取出新的特征参数，将其生成基于s v m 的特征向量序列，最后使用支持向量机分类器，基于样本进行训练和测试，实现说话人的分类识别。在自己建立实验语音库的基础上，通过采用不同时间段语音、不同信噪比和不同s v m 核函数，用本文所构造的两种新的特征参数与m f c c 参数进行了对比实验，结果表明了本文所提出的两种新特征参数有更好的鲁棒性，能够在各种环境下有效地提高说话人识别系统的识别性能。关键词：说话人识别；能频值；小波包；f 比准则；支持向量机哈尔滨工程大学硕士学位论文 a b s t r a c t o nt h eb a s i so ft h e s p e e c h p a r a m e t e r s r e f l e c t e d b yp h y s i o l o g i c a la n d b e h a v i o r a lc h a r a c t e r i s t i c so ft h es p e a k e ri nt h es p e e c hw a v e f o r m ，s p e a k e r r e c o g n i t i o ni st h ep r o c e s so fa u t o m a t i c a l l yr e c o g n i z i n gw h oi ss p e a k i n go n i ti s 觚i m p o r t a n tr e s e a r c hf i e l do fs p e e c hs i g n e dp r o c e s s i n g a sa k i n do fb i o m e t r i c s ， s p e a k e rr e c o g n i t i o nh a sab r o a da p p l i c a t i o np r o s p e c ta n dm o r ea n dm o r e r e s e a r c h e r sa l es t u d y i n gt h i si s s u ei np r e s e n t t h ep r e t r e a t m e n to fs p e e c hs i g n a li sa n a l y z e di nt h eb e g i n n i n go ft h ea r t i c l e ， a n dt h e ne n e r g y f r e q u e n c y - v a l u ea l g o r i t h mi su s e dt od e t e c tt h ee n d p o i n to f s p e e c hs i g n a la n df i l t e ro u tt h es i l e n ts e g m e n to fs p e e c hs i g n a l i nt h ee n d ，w e g i v e ac o m p a r i s o no ft h e s et w ok i n d so fe n d p o i n td e t e c t i o n a l g o r i t h m s ： d o u b l e g a t e t h r e s h h o l dm e t h o da n de n e r g y f r e q u e n c y v a l u em e t h o d t h e e x p e r i m e n t ss h o wt h a tt h e l a t t e rc o a lp a r t i t i o nt h ee n d p o i n to fs p e e c hs i g n a l b e t t e no n eo ft h em o s ti m p o r t a n tp r o b l e m si nas p e a k e rr e c o g n i t i o ns y s t e mi s t h a th o wt oe x t r a c tt h es t a b l ep a r a m e t e r sw h i c ha r ea b l et or e p r e s e n tt h eu n i q u e f e a t u r e so ft h es p e a k e r , f r o mt h es p e e c hc l i p s i nt h i sp a p e r , t h ec o m m o n p a r a m e t e r so ft h es p e a k e ra n dt h e i ra p p l i c a t i o n si nt h es p e a k e rr e c o g n i t i o na r e s u m m a r i z e d ，a n dt h e nw ea n a l y z et h ee x i s t i n gp r o b l e m sa n dp r o p o s et h e s o l u t i o n s t oa d d r e s st h ep r o b l e mt h a tt h e r ea r es o m ed e f e c t sw h e nw eu s e s h o r t t e r mf o u r i e ra n a l y s i st oe x t r a c tt h ec h a r a c t e r i s t i cp a r a m e t e r so ft h e s p e a k e r , w er e s e a r c ht w ok i n d so fc h a r a c t e r i s t i c so ft h es p e a k e rr e c o g n i t i o n b a s e do nc h a r a c t e r i s t i c so fa u d i t o r yp e r c e p t i o n f i r s t l yw ee x t r a c tan e w p a r a m e t e rb yu s i n gw a v e l e tp a c k e tt r a n s f o r mi np l a c eo ff o u r i e rt r a n s f o r m ，t h e n p u tf o r w a r dfr a t i oc r i t e r i o nw h i c hi su s e dt om e a s u r et h er e c o g n i t i o na b i l i t yo f v a r i o u sp a r a m e t e r s ，a n dc o n s t r u c tan e wh y b r i dp a r a m e t e r sf i n a l l y t h ed e s i g no fc l a s s i f i e rf o c u s e so nt h es u p p o r tv e c t o rm a c h i n e t h es v m a l g o r i t h mb a s e do nt h ep r i n c i p l eo fs t r u c t u r a lr i s km i n i m i z a t i o n , c o n s t r u c t i n ga n o n l i n e a rk e r n e lf u n c t i o nt op r e s e n ta l li n n e rp r o d u c to ff e a t u r es p a c e ，h a s 哈尔滨工程大学硕士学位论文 t r e m e n d o u sa d v a n t a g e si nt h ec a s eo fs m a l l s a m p l e s ，a n dp o s s e s s e sb e t t e r g e n e r a l i z a t i o na b i l i t y n e wc h a r a c t e r i s t i cp a r a m e t e r sa r ed e r i v e di nt h ef e a t u r e e x t r a c t i n gp h a s ea n dc o m p o s e di n t of e a t u r ev e c t o rs e q u e n c e sb a s e do ns v m a m u l t i - c a t e g o r ys v ma l g o r i t h mi sa p p l i e dt or e a l i z et h es p e a k e rc l a s s i f i c a t i o n a n dr e c o g n i t i o nb ym a k i n g t r a i n i n ga n dt e s t i n gb a s e do ns a m p l e s o nt h eb a s i so fe s t a b l i s h i n gas p e e c hl i b r a r y , t h ep a p e rc o n s t r u c tt w on e w c h a r a c t e r i s t i c p a r a m e t e r sb ya d o p t i n g d i f f e r e n t s p e e c ho ft i m eq u a n t u m ， d i f f e r e n ts n ra n dd i f f e r e n ts v mk e r n e lf i m c t i o n , a n dt h e nw em a k ea n e x p e r i m e n t a lc o m p a r i s o nb e t w e e nt h en e wc o n s t r u c t e dc h a r a c t e r i s t i cp a r a m e t e r s a n dm f c cp a r a m e t e r s t h er e s u l ts h o w st h a tt h ep r o p o s e da l g o r i t h m sh a v ea g r e a t e rr o b u s t n e s sa n dc a ne f f e c t i v e l yi m p r o v et h ep e r f o r m a n c eo ft h es p e a k e r r e c o g n i t i o ns y s t e mi nav a r i e t yo fc i r c u m s t a n c e s k e yw o r d s ：s p e a k e rr e c o g n i t i o n ；e n e r g yf r e q u e n c yv a l u e ；w a v e l e tp a c k e t ； fr a t i oc r i t e r i o n ；s u p p o r tv e c t o rm a c h i n e 哈尔滨工程大学学位论文原创性声明本人郑重声明：本论文的所有工作，是在导师的指导下，由作者本人独立完成的。有关观点、方法、数据和文献的引用已在文中指出，并与参考文献相对应。除文中已注明引用的内容外，本论文不包含任何其他个人或集体己经公开发表的作品成果。对本文的研究做出重要贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。作者( 签字) ：亲亥苏日期： 2 矿毋9 年乡月阴哈尔滨工程大学学位论文授权使用声明本人完全了解学校保护知识产权的有关规定，即研究生在校攻读学位期间论文工作的知识产权属于哈尔滨工程大学。哈尔滨工程大学有权保留并向国家有关部门或机构送交论文的复印件。本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数据库进行检索，可采用影印、缩印或扫描等复制手段保存和汇编本学位论文，可以公布论文的全部内容。同时本人保证毕业后结合学位论文研究课题再撰写的论文一律注明作者第一署名单位为哈尔滨工程大学。涉密学位论文待解密后适用本声明。本论文( 母在授予学位后即可口在授予学位1 2 个月后口解密后) 由哈尔滨工程大学送交有关部门进行保存、汇编等。作者( 签字) ：触日期：2 口7 年朔f g e l - , g n ( 签字) ：降叫爷砂7 年3 其j 8 日哈尔滨工程大学硕士学位论文第1 章绪论 1 1 论文研究目的和意义人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，这些发音器官在尺寸、形态以及发音时发音器官相互配合的运动习惯方面每个人的差异很大，以及后天形成的行为差异。每个人的语音都带有强烈的个人色彩，所以任何两个人的声纹图谱都有差异，这就使得通过分析语音信号来识别说话人成为可能。说话人识别( s p e a k e rr e c o g n i t i o n ，s r ) 也称声纹识别( v o i c e p r i n t r e c o g n i t i o n ，v p r ) ，是指通过对说话人语音信号的分析处理，自动确认说话人是否在所记录的话者集合中，从而进行身份鉴别和认证。它是属于生物特征识别技术的一种【l 】。同其他生物识别技术，如人脸识别、指纹识别等技术相比，说话入识别除具有不会遗失和忘记、不需记忆、使用方便等优点外。还具有以下特性：用户接受程度高，由于不涉及用户隐私问题，用户没有任何心理障碍；利用语音进行身份识别可能是最自然和最经济的方法之一，声音输入设备造价低廉，而其他生物识别技术的输入设备往往造价昂贵。说话人识别以其准确、方便、安全、有效的特性，日益成为身份认证及人工智能领域研究的热点，并且具有广阔的应用前景。例如在司法部门中可根据电话录音和犯罪现场记录的声音信息判别犯罪嫌疑人的身份；在互联网应用及通信领域，可以应用于诸如电话银行、数据库访问、安全化的人机交互系统等，系统能够根据语音判断出来者身份，为用户提供安全验证功能，提供更具有个性化的服务；在军事领域上可以通过电子侦听，在众多信号找出侦听对象信号，通过语音辨别确认己方指挥员的命令而不被敌方假信号所欺骗。目前信息化时代已经到来，对说话人识别系统产品化的要求极为迫切。而且计算机芯片性能的提高也为计算密集的说话入识别技术的应用化提供了可能，因此说话人识别技术已经成为目前身份认证及信号处理领域研究的一个热点，具有美好的应用前景。哈尔滨工程大学硕士学位论文 1 2 国内外研究和发展现状说话人识别研究涉及到人的发音器官、发音习惯、声学原理、语言学知识等多方面的内容，是交叉运用心理学、生理学、数字信号处理、人工智能等知识的- - l - j 综合性研究课题 2 - 6 。它的研究始于2 0 世纪3 0 年代，最初是在第二次世界大战期间由美国国防部向贝尔实验室提出的研究课题，目的是根据窃听到的电话录音来判断说话人是哪一位德军高级将领。可是直到战争结此项研究并未达到预期目的，但却为说话人识别的研究拉开了序幕。随着研究手段和工具的改进，b e l l 实验室的l gk e r s t a 在1 9 6 2 年通过目视观察语谱图( s p e c t r o g r a m ) 进行人工的说话人识别，并将语谱图称为声纹 ( v o i c e p r i n t ) 。之后，电子技术和计算机技术的发展，使得通过机器自动识别人的声音成为可能。b e l l 实验室的s p r u z a n s k y 提出了基于模式匹配和概率统计方差分析的声纹识别方法，形成了声纹识别技术的一个高潮。 7 0 年代中期b s a t a l 研究了l p c 系数、声道的冲激响应、自相关系数、声道面积函数及倒谱系数等不同的特征参数在自动说话人识别系统中的有效性，并指出倒谱系数是较为有效的语音特征。 7 0 年代末至今，说话人辨识的研究重点转向对各种声学参数的线性或非线性处理的模式匹配方法上，如动态时间规整、主成分分析、隐马尔可夫模型、神经网络和多特征组合等技术。说话人识别技术已经进入到实际应用中，但仍有许多问题需要解决，尤其是在噪声或失真环境下的稳定性能问题，严重阻碍了说话人识别技术的进一步应用。总的说来，说话人识别技术主要存在以下问题： ( 1 ) 说话人识别的信息来源是说话人所说的话，其语音信号中既包含了说话人语音内容的信息，也包含了说话人的发音特征个性信息，是语音特征和说话人个性特征的混合体。目前还没有很好的方法把说话人的特征从说话人的语音特征中分离出来。 ( 2 ) 说话入的发音常常与环境、说话人的情绪、说话人的健康状况有密切关系，随着时间和年龄的变化而变化；不同的环境噪声也会影响说话人识别的难度；人在患病时，发音与正常情况下有较大变化，这也增加了说话人识别的难度。 2 哈尔滨工程大学硕士学位论文 ( 3 ) 如何获得充分的训练语音和充分的模拟说话人语音时变性的问题，或是说，选取一个有效的模型用最少的训练数据就能达到良好的识别分类效果。可见，说话人识别的重点难点问题就是语音特征提取，能否找到简便可行的方法提取到一种最能反映说话人语音信息特征将是今后研究的热点。 1 2 说话人识别的基本原理 1 2 1 说话人识别系统说话人识别的基本原理是为每一个说话人建立一个能够描述这个特定说话人的语音模型，作为这个说话人语音特征参数的标准模板，然后再根据采样而来的语音信号进行说话人识别的过程【7 - 9 1 。也就是首先从说话人的语音信号中抽取出这个说话人的语音特征参数，构成特征模式，再与己经建立了的参考模板进行比较，利用判决条件给出判决。整个过程可以被分为训练和识别两个主要的过程，如图1 1 所示。输图1 1 说话人识别系统框图从图1 1 可知，说话人识别系统的实现可以分解成如下几个基本问题： ( 1 ) 输入语音信号的预处理和特征提取，提取能够有效表征说话人特征的参数； ( 2 ) 说话人的模型的建立和模型参数的训练； ( 3 ) 测试语音与说话人模型的匹配计算； ( 4 ) 识别与判决策略，即根据匹配计算的结果，采用某种判决准则判定说话人到底是谁。 3 哈尔滨工程大学硕士学位论文 1 2 2 说话人识别的分类基于不同的应用环境，说话人识别可以分为两类：说话人确认( s p e a k e r v e r i f i c a t i o n ) 和说话人辨认( s p e a k e ri d e n t i f i c a t i o n ) 。本质上它们都是根据分析说话人所说的测试语句或关键词，从中提取与说话人有关的特征信息，再与存储的参考模型比较，做出正确的判断。不过说话人确认是确认一个人的身份的过程，只涉及一个特定的参考模型和待识别模式之间的比较，系统只做出“是”或“不是”的二元判决；而对于说话人辨认，系统则必须辨认出待识别的语音是来自参考说话人中的哪一个，有时还要对参考说话人以外的语音做出拒绝的判别。用户在使用说话人识别系统的时候，需要系统提供一些参考语音，根据语音资料，可分为文本相关( t e x t d e p e n d e n t ) 和文本无关( t e x t i n d e p e n d e n t ) 两种识别系统。与文本有关的系统要求用户按照指定的文本朗读输入语音信息，并且根据特定的发音内容建立精确的参考模型，从而可以达到比较好的识别效果。但是这种系统必须要得到用户的配合，如果用户不按照规定内容发音，那么就无法正确识别用户。与文本无关的系统则不要求用户朗读规定文本内容，因而要建立精确的说话人参考模型比较困难。此外，和其他生物信息识别技术一样，如果考虑待识别的说话人是否在己经注册的用户集合之内，则说话人辨识分为开集( o p e n s e t ) 辨识和闭集( c l o s e s e t ) 辨识，所以闭集辨识的结果要好于开集辨识，但是开集辨识与实际情况更为相似。本文主要是关于闭集情况下的与文本无关的说话人辨认。 1 3 说话人识别的主要方法目前说话人识别研究中所采用的方法粗略地被分成三类：模板匹配法、概率统计方法、辨别分类器方法【1 , 9 - 1 1 】。 ( 1 ) 模板匹配法模板匹配法是在训练过程中，从每个说话人的训练语句中提取出能充分描述各说话人特性的特征矢量，形成特征矢量序列，并依据某种方法对其进行优化，求取一个特征矢量的集合来有效地代表特征矢量序列，并将此集合作为参考模板。识别时，对测试语音用同样的处理方法提取特征矢量序列， 4 哈尔滨工程大学硕士学位论文并且按照一定匹配规则与所有的参考模板进行比较。匹配往往是通过特征矢量间的距离测度来实现，以累计距离为匹配结果。最常用的模板匹配方法是动态时间规整( d t w ) 方法和矢量量化( v q ) 方法。同一人发同一声音的瞬时速度通常会在一定范围内变动，导致训练特征序列与待识别特征序列的长度不同，因此需要寻找一种待识别样本和各模板时间轴之间的一种变换关系，用来消除它们做匹配比较时由于相应时间上的差异所造成的同类音距离偏大的现象。这种结合时间变换关系来求特征序列之间距离的方法，称为d t w 方法。 v q 方法主要工作是聚类，即在特征空间中合理地拟定一组点( 该组点整体称为码本，每个点称为码字) ，于是特征空间中任一点均可按最小距离准则用码本之一来代表( 称为该点的矢量量化点) 。训练时由训练语音特征序列生成相应的一组码本，识别时计算待识音特征序列各帧矢量到各码本的总畸变，取畸变值最小同时满足一定距离要求的码本对应音作为识别结果。v q 方法不需要对时间进行对齐，简化了系统的复杂度，识别精度较高，且判断速度快。 ( 2 ) 概率统计方法概率统计方法是在训练过程中，在从某人的一次或多次发音中提取出有效特征矢量的基础上，根据其统计特性为其建立相应的数学模型，使其能够有效地刻画出此说话人特征矢量在特征空间中的分布规律。这样的数学模型一般可以通过少量的模型参数来表示和存储。在识别时，将测试语音的特征矢量序列与表征说话人的数学模型进行匹配，从概率统计的角度，计算得到测试语音与模型间的相似度，并以此作为识别判决的依据。其中最常用的模型是隐马尔可夫模型( m 伍压) 和高斯混合模型( g m m ) 。隐马尔可夫模型是一种基于转移概率和传输概率的随机模型，最早在 c m u 和i b m 被用于语音识别。它把语音看成可观察到符号序列组成的随机过程，符号序列则是发声系统状态序列的输出。h m m 为有限状态，每个状态s j 具有相应的p d f ( 或特征矢量随机模型) e ( xfj ，) ，各个状态链接为一个状态转移网络，其转移概率为a t j = p l s ，l 丑) 。在使用h m m 识别时，为每个说话人建立发声模型，通过训练得到状态转移概率矩阵和符号输出概率矩阵。识别时计算未知语音在状态转移过程中的最大概率，根据最大概率对应的模型进 5 哈尔滨工程大学硕士学位论文行判决。可通过b a u m w e l c h 算法求解出h m m 模型对一序列语音帧模型所产生的概率。高斯混合模型本质上是一种多维概率密度函数，可以用来表示语音特征矢量的概率密度函数。通过对特征矢量进行聚类，把每一类看作是一个多维高斯分布函数。然后求出每一类的均值、协方差矩阵和出现的概率，将此作为每个人的训练模板。最后将观测序列代入模板，找到最大的后验概率，即对应所识别的人。优点是可以平滑的逼近任意形状的概率密度函数，并且是个易于处理的参数模型，相当稳定。 ( 3 ) 辨别分类器方法辨别分类器的方法主要有人工神经网络( a n n ) 方法和支持向量机 ( s v m ) 方法。人工神经网络在某种程度上模拟了生物的感知特性，它是一种分布式并行处理结构的网络模型，具有自组织和自学习能力，以及复杂分类边界区分能力和对不完全信息的稳健性，其性能近似理想的分类器。目前常用的神经网络有多层感知器、时间延迟神经网络、径向基函数网络和自组织映射网络。支持向量机方法是建立在统计学习理论的vc 维理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性之间寻求最佳折中，以期获得最好的推广能力。本文就是采用s v m 方法作为分类器，将在第 4 章详细介绍。 1 4 论文的研究内容及结构安排本文的研究对象是与文本无关的说话人识别系统，主要针对识别系统中的特征提取和模式分类两部分进行了认真的研究。本文以下各章节的内容安排如下：第2 章语音信号预处理和常用特征。首先简单介绍语音信号的前端处理并对对常用的说话人特征参数及其在说话人识别中的应用进行了总结，分析了它们存在的问题及解决方法。然后重点比较了双门限语音端点检测方法和能频值端点检测法。最后给出语音信号特征参数的评价方法。第3 章小波分析在说话人识别中的应用。首先介绍小波分析和小波包的基本理论与性质；以及它们算法和常用的核函数。然后借鉴m f c c 提取过程， 6 哈尔滨工程大学硕士学位论文利用小波包进行语音信号特征提取，并给出基于加权f 比的w p t c 。第4 章基于支持向量机分类器的设计。主要介绍了支持向量机作为分类器的原理和算法。第5 章实验结果与分析。通过实验验证了本文所设计算法的有效性。最后，总结所做工作并对今后工作进行了展望。 7 哈尔滨工程大学硕士学位论文第2 章语音信号预处理和常用特征说话人识别的本质实际上是利用人的语音对人进行个性的识别。如同指纹一样，语音也是人的自然属性。说话人的语音特征具有时变性，与说话人所处的环境、情绪和健康状况有密切关系，而且会随着时间和年龄的变化而变化。语音信号的变异性使说话人特征空间发生转移，从而增加识别过程中的不确定性。如何找到稳定有效的特征参数来表征说话人，是说话人识别中的根本问题。特征参数好坏直接影响说话人识别系统的识别结果。 2 1 语音信号预处理 2 1 1 语音信号的数字化语音信号的数字化是数字处理的前提，语音信号的数字化包括两个步骤：取样和量化【7 1 1 1 。n y q u i s t 采样定理要求取样率必须大于或等于信号带宽的2 倍，因此一般需要对输入的语音信号作低通滤波，然后进行a d 转换。语音信号的数字化过程如图2 1 所示。图2 1 语音信号的数字化 2 1 2 语音信号的预处理语音信号的预处理主要包括预加重( 高频提升) 、分帧、端点检测和语音去噪等。 ( 1 ) 预加重由于语音信号的平均功率谱受到声门激励和口鼻辐射影响，高频端大约在8 0 0 h z 以上按6 d b 倍频程跌落，所以求语音信号频谱时，频率越高相应的成分越小，为此要在预处理中进行预加重处理。目的就是提升高频部分，使 8 哈尔滨工程大学硕士学位论文信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，以便于频谱分析或声道参数分析。通常的措施是用一阶数字滤波器实现预加重，其公式表示为：日( z ) = 1 一, u z 一但1 ) 式中的值接近于l ，一般取0 9 4 。 ( 2 ) 加窗、分帧由于语音信号是非平稳过程，是时变的，但是人的发音器官的肌肉运动速度较慢，所以语音信号可以认为是局部平稳的，或短时平稳。因此，语音信号分析必须分段或分帧来处理。需要将语音信号划分为一个个的短时段，每一短时段称为一帧，每一帧的长度约为1 0 m s 3 0m s 。分帧可以采用连续分段的方法，但为了使帧与帧之间平滑过渡，保持其连贯性，一般采用交叠分段的方法，即每一帧的帧尾与下一帧的帧头是重叠的。常用的窗函数有矩形窗、汉i j , , q ( h a m m i n g ) 窗和海宁( h a r m i n g ) 窗等，其中矩形窗和汉明窗的表达式如下( 其中n 为帧长) ： w ( n ，= ：，：絮肛d ，喇书4 m 4 6 c o s p 驯。1 刀：三象肛d ( 2 - 3 ) 窗函数的选择，对短时分析的多数特性影响很大。选择合适的窗口，可以使短时参数更好的反硖语音信号的特性变化。一般来讲，一个好的窗函数的标准是：在时域，因为是语音波形乘以窗函数，所以要减少时间窗两端的坡度，使窗口边缘两端不引起急剧变化而平滑过渡到零，这样可以使截取出的语音波形缓慢降为零，减小语音帧的截断效应；在频域，需要克服因时域信号截断而引起的频谱泄漏。直接分帧就相当于默认加一个矩形窗，矩形窗的谱平滑性能较好，但损失了高频成分，使波形细节丢失：而汉明窗则相反，从这一方面来看汉明窗比矩形窗更为合适。所以本文选取汉明窗进行加窗和分帧。 9 哈尔溟工程大学硕士学位论文 2 1 3 常用语音信号端点检测端点即语音信号的有效起始点和终止点，包括音素、音节、词素、字、词等的起始点和终止点。端点检测就是把连续信号中感兴趣的部分与其他无关的信息分离开。汉语语音的起点检测不仅有一定难度，而且检测是否准确对语音识别性能影响颇大，因为大多数声母都是轻声母，还有送气与不送气的塞音和塞擦音，将它们与环境噪声区分开来是比较困难的。下面介绍一种传统的语音端点检测方法，通常也称为双门限端点检测算法。双门限端点检测算法是根据短时能量与短时平均过零率进行端点检测。 ( 1 ) 短时能量语音信号的能量随着时间变化比较明显，一般清音部分的能量比浊音的能量小得多。语音信号的短时能量分析给出了反应这些幅度变化的一个合适的描述方法。对于信号s ( n ) 的短时能量的定义为： e = 【x ( m ) w ( n 一肌) 】2 = 【x ( m ) w ( n 一朋) 】2 = x 2 ( 刀) 毒办( 刀) ( 2 - 4 ) 式( 2 - 4 ) 中的以刀) 为上节所讨论的窗函数的一种，e 表示在信号的第厅个点开始加窗函数时的短时能量。可以看作语音的平方经过一个线性滤波器的输出，该滤波器的单位冲激响应为办( 聆) 。短时能量主要可以区分清音和浊音，并且对有声段和无声段进行判定，对声母和韵母分界，以及对连字分界等。 ( 2 ) 短时平均过零率短时平均过零率是语音信号时域分析中最简单的一种，语音信号j ( ) 的短时过零率定义为：乙2 互m g 酬呻_ 1 ) 】1 w ( 万一川 ( 2 - 5 ) = i s g n 【x ( 刀) 卜s g n 【x ( 甩- 1 ) 1 木w ( 刀) 式中，s g n n 是符号函数： s 蝴) 】= & 描 ( 2 - 6 ) 以甩) 一般选用矩形窗，为了平均，窗的幅度取为i 1 ，为了使过零率作为 1 0 哈尔滨工程大学硕士学位论文似刀，= 毒j 其0 e f ( t + j + 1 ) 式中，为寻找峰点时的最大帧数。 ( 4 ) 计算比值，：e f i ( t + j ) 。砂【” ( 5 ) 如果， t ( t 为相对门限值) ，则时刻f 对应的语音不是起点，令 f = f + j + l ，转( 3 ) ；否则，就认为时刻f 对应的语音为起点。语音终止点的判定与之类似，只是判定时从时刻f 向前搜索。 1 2 哈尔滨工程大学硕士学位论文图2 2 某人语音o ”的端点检测图2 2 为能频值端点检测算法和双门限端点检测算法的比较，从中可以发现能频值端点检测算法的输出结果比双门限算法较为准确。虽然双门限算法也可以很好地确定语音的端点，但由于环境的变化，参考能量值在变化，有时计算很难确定端点。从图2 2 中双门限检n n 的语音起始点的波形可以看出，发音“l 堍的声母“l 有能量和过零率，但是双门限端点检测算法检测到的起始点靠后些，这是因为在“0 字结束处噪声能量较大，因此可认为语音在继续，所以端点靠后，要想检测到较好的起始端点就必须同时调整能量和过零率。而在在“0 ”字结束处，噪声能量较大，因此还认为语音还在延续，所以端点靠后。对于连续语音，能频值端点检测算法的输出结果比双门限算法也较为准确，图2 3 是一句某人约3 秒的连续语音“北京奥运会端点检测示意图，而图中用双门限算法检测到的端点同样出现了和图2 3 中一样的语音终点的靠后。原因在于语音终点处的噪声突然增大所致。哈尔滨工程大学硕士学位论文图2 3 某人连续语音的端点检测表2 1 列出了两种端点检测算法的区别，从实验结果和表中可以看出，利用短时能频值进行端点检测的优越性是显而易见的，它消除了噪声的影响，具有很好的鲁棒性。能频值语音端点检测算法对语音端点的检测效果非常好，能较好地检测出语音的起始点和终点。所以本文采用能频值端点检测算法为后续语音特征提取提供有效的语音段。表2 1 两种端点检测方法的比较 2 2 语音信号常用特征检测到语音的端点以后，就可以对语音信号进行处理，提取对语音识别 1 4 哈尔滨工程大学硕士学位论文有用的特征参数，去除对语音识别无用的冗余信息。声音中所包含的个人特征信息有两种，一种是声道长度、声带等先天性发音器官差别所产生的；另一种是由方言、语调等后天性讲话习惯产生的。语音信号是一种典型的非平稳信号，对非平稳信号采用短时平稳方法来分析，经研究在1 0 m s 3 0 m s 内，人的发音模型是相对稳定的，因此可以在这样一个短的时间间隔内，可以用平稳信号的分析方法来处理信号，同理语音特征参数的提取需要分帧进行，每帧特征参数构成一个矢量序列，矢量序列经过压缩以后成为语音的模板。特征的选取对识别效果有很大的影响，它是语音识别系统成功的关键。一个特征参数应该具有以下特点：( 1 ) 具有良好的区别说话人的能力，能够充分体现说话人个体间的差异，而在同一说话人本身语音发生变化时保持相对稳定，能有效代表语音的特征，包括声道特性和听觉特性；( 2 ) 输入语音受到传输通道和噪声的影响时，特征参数应具有较好的稳定性；( 3 ) 特征参数应该计算方便，有尽可能少的特征维数，以及有高效的计算方法，从而保证语音识别系统的实时处理。语音信号中，包含着非常丰富的特征参数，不同的特征向量表征着不同的物理和声学意义。通常语音特征参数主要可以分为两大类：一类是基于发声系统模型导出的特征参数，如经线性预测分析( l p c ) 得到的线性预测系数以及由它导出的其它特征参数：另一类是基于听觉系统模型导出的特征参数，如m e l 频率倒谱参数( m f c c ) 1 1 , 7 。 2 2 1 线性预测倒谱系数 2 2 1 1 语音信号的数字模型利用数字技术来模拟语音信号的产生称为语音信号的数字模型，或者说利用数字信号处理技术来实现发音器官的模拟。语音生成系统分为三个部分，在声门以下，称为“声门子系统，它负责产生激励振动，是“激励系统；从声门到嘴唇的呼气通道是声道，是“声道系统；语音从嘴唇辐射出去，所以嘴唇以外是“辐射系统”。发音器官能发出一系列声波，那么数字模型就应能产生与此声波相对应的信号序列，这种模型是一种线性系统，它的一组参数选定之后就可以使得系统的输出具有所希望的语音性质，系统的这些参数是和语音产生过程紧密 1 5 哈尔滨工程大学硕士学位论文相关的。为了表示采样的语音信号，我们采用的是离散时间模型。当发音时，激励和声道形状都是随时间而改变的，但语音信号随时间的改变是非常缓慢的。对大多数语音信号来说，通常认为激励与声道的面积函数在1 0 3 0 m s 的时间范围内是近似不变的。在发浊音时，激励为准周期脉冲。在发清音时，激励为随机噪声。综合考虑声门激励、声道和嘴唇辐射影响就可以得到图2 4 所示的语音信号发生的离散系统时域模型。其中日0 ) 是声道响应y ( z ) 与嘴唇辐射模型r ( z ) 相级联而成，即日( z ) = y ( z ) 幸尺( z )( 2 8 ) 对于浊音来说，还可以把声门脉冲的影响也归并到传递函数中，即日( z ) = g ( z ) 幸矿( z ) 奎r ( z )( 2 - 9 ) 这时，浊音信号就可以看作是一个准周期性的脉冲串激励一个离散线性系统日( z ) 产生的输出。 ii 图2 4 语音信号产生的离散时域模型 2 2 1 2 线性预测分析线性预测( l i n e a rp r e d i c t i o n ，l p ) 分析技术是语音处理中有效的分析技术之一。语音线性预测分析的基本思想是：一个语音信号的抽样值可以用过去若干个取样值进行线性组合逼近。通过使线性预测得到的采样在最小均方误差意义上逼近实际语音采样，可以求取一组唯一的预测系数。这里的预测系数就是线性组合中所用的加权系数。线性预测分析最早用于语音编码中，因此也常被简称为l p c ( l i n e a rp r e d i c t i o nc o d i n g ) 。根据参数模型功率谱估 1 6 哈尔滨工程大学硕士学位论文计思想和图2 4 所示，语音信号s ( n ) 可以看作是由一个输入序列“( 刀) 激励一个全极点的系统日( z ) 而产生的输出信号。系统的传递函数为一器。万g 智式中g 为增益常数，口j 为实数，这些参数随时间而变化，p 为模型的阶数，这是一个全极点模型即a r 模型。当p 足够大时，这个模型几乎可以模拟所有语音信号的声道系统，即使鼻音和摩擦音也可以模拟，因为一个零点可用足够多个极点来逼近。用系数绣可以定义一个p 阶的线性预测器f ( z ) y ( z ) = q z 叫 ( 2 - 1 1 ) 从时域角度来看，用信号s ( n ) 的前p 个样本来预测当前的样本得到如下的预测值歹( 力) ：；( 刀) = a f x ( n f ) ( 2 - 1 2 ) 因为线性预测器f ( z ) 是用a r 模型的系数 q j 来构造的，该模型是在最小均方意义上对数据的拟合，所以f ( z ) 必然是一个最佳预测器，预测误差短时总能量最小。线性预测分析就是根据这一性质，从语音信号x ( 功出发，依据最小均方误差准则，估计出一组线性预测器的系数 q ，这就是a r 模型的系数，被称为线性预测系数或者l p c 系数。 2 2 1 3l p c 倒谱系数 “倒谱”的概念来源于同态处理技术。同态处理技术也是语音分析中的重要技术，是将非线性问题转化成线性问题进行处理的一种方法。我们将语音信号产生过程模拟成一个激励信号通过时变系统的过程，即一个卷积的过程。同态处理可以将卷积变成倒谱域中的线性问题，达到解卷积的目的，生成的特征参数称为倒谱参数。对于语音信号来说，倒谱参数所包含的信息较其它参数多。语音信号的倒谱参数可以通过l p c 系数直接求得。根据线性预 1 7 晗尔滨工程大学硕士学位论文测系数l p c 直接推导出来的一组倒谱系数，利用同态处理方法，对语音信号求离散傅立叶变换d f t 后取对数，再求反变换i d f t 就可得到倒谱系数。由l c p 参数进一步推导出线性预测倒谱参数( l p c c ) ，在己知一个实序列 x ( n ) 的复倒谱交( 珂) ，那么可由i ( 刀) 求出它的倒谱c ( n ) ，如下式； c ( 以) = f q ( 1 1 1i 。r o 归) i ) = 专【舅( ，1 ) + 量( 刀) 】( 2 - 1 3 ) 标准的倒谱系数计算流程需要进行f f t 变换、对数操作和相位校正等运算，较为复杂。在实际计算中，当序列x ( n ) 为最小相位的情况下，可以利用序列x ( n ) 及其复倒谱系数y c ( n ) 之间的递推关系来简化计算。如果t n x ( z ) 是解析的，则：掣= 掣= 鬻陆一= o - = _ l ，4 l 出比x f z ) 一7 对上式进行逆z 变换，根据z 变换的微分性质，有： r f f ( 咿砌) = n x ( n ) 删= 薹盼泓o - k ) ，。0 ) ( 2 - 1 5 )七i “ 设x ( 刀) 为最小相位信号序列，而最小相位信号序列及其复倒谱一定是因果的，所以有： f x ( 栉) = o ，n 0 ( 2 1 6 ) 由此可得到下面的递推公式：跏，= 器一薹睁的等。上式就是序列x ( n ) 及其复倒谱系数舅( 刀) 的递推关系。 l p c c 参数是一种重要的参数，它不直接由原始信号x ( n ) 和倒谱得到，而是

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（信号与信息处理专业论文）基于小波包分析和支持向量机的说话人识别.pdf

文档简介

温馨提示

最新文档

评论

（信号与信息处理专业论文）基于小波包分析和支持向量机的说话人识别.pdf

文档简介

温馨提示

最新文档

评论

相关文档