（通信与信息系统专业论文）基于mel倒谱和bark谱失真距离的汉语音质客观评价研究.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-14 格式：PDF 页数：70 大小：2.22MB 积分：0 举报 版权申诉

（通信与信息系统专业论文）基于mel倒谱和bark谱失真距离的汉语音质客观评价研究.pdf_第2页

（通信与信息系统专业论文）基于mel倒谱和bark谱失真距离的汉语音质客观评价研究.pdf_第3页

（通信与信息系统专业论文）基于mel倒谱和bark谱失真距离的汉语音质客观评价研究.pdf_第4页

（通信与信息系统专业论文）基于mel倒谱和bark谱失真距离的汉语音质客观评价研究.pdf_第5页

已阅读5页，还剩65页未读，继续免费阅读

（通信与信息系统专业论文）基于mel倒谱和bark谱失真距离的汉语音质客观评价研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

望至塞奎鋈盎堂拣学位论文筹l 贾摘要在语音研究翡各个颥域，都涉及到语音质量评价的问题，它牮已为语音传输系统研究、设计、生产以及使用者所关心和重视。各种语音通信系统或通信阕络在规划、汗发、研制以及投入运营之时，都必须进行音质的评价。有效的酱震谖徐手羧涂了霹骧浮徐缓羁器戆镶鑫往囊羧韩，还毒虢臻寒溺试羡遂逶臻质量的好坏。由于语音质爨的好坏最终是由人通过人耳来评判的，因此，近代的音质评价方法主要采用的是主观评价方法。然而，主观评价只能在条件允许麴情况下才戆进行，丽虽还会受到人对鸯爱反应的举重复性的影响。这样，人街藏对音震容疆评价摄毽了要求。本文首先介绍了音质客观评价的发展简史。由予音质评价的研究不仅涉及剿信号处理领域，还涉及剿心理声学知识，因此，本文在研究音质客观评价以藏，对久类豹发蠢系统霸毪蓐爨系统作了谨缎介绍。关于语音信号游失真测瘦麴研究，本文童簧深入研究了m e l 倒谱系数失真测度鞠b a r k 谱失豢溺度，_ 莠将菸用于汉语连续语句语音和数字串汉语语音的客观评价，得到了比以往的谱失疑测度与主观m o s 更高的统计相关度。间时，针对汉语连续语句语鬻，作者在深入骚究改逶豹b a r k 谱失囊测发静德况下，提高了广义冬释对燕藏矩箨兹概忿，并将其用于该测度方法中，使其与主躐m o s 的统计捆关度提高了l 至q2 个百分点。对于数譬串汉语语音，考虑到数字汉语语音特徽的特殊性，柱做短时截取的对候，借黢了语音识别中的方法，将矩形窟代替常用的汉明窗，使m e l 倒谱系数失真灞瀵与圭疆m o s 豹绫诗穗关庶捷衷了接运l 令委分点。袋嚣，终者瓣本文的工作做了总结。荚链词客鼹洋徐；失真测发；m e l 剿谱；b a r k 谱西南交通大学硕士学位论文第页 a b s t r a c t t h es p e e c hq u a l i t ym e a s u r eh a sb e e nu s e di ne v e r yf i e l do fs p e e c h i n v e s t i g a t i o na n da r o u s e dg r e a ta t t e n t i o na m o n gr e s e a r c h ，d e s i g na n d p r o d u c t i o no fs p e e c ht r a n s p o r t a t i o ns y s t e m e v e r ys p e e c ht r a n s p o r t a t i o n s y s t e m o rn e t w o r km u s tb em e a s u r e db e f o r e p r o g r a m m i n g ，e x p l o i t i n g ， p r o d u c i n g ，e t c a ne f f e c t i v em e a s u r ew a yc a nt e s tn o to n l yt h es p e e c h c o d e rb u ta l s ot h ec h a n n e lo fc o m m u n i c a t i o n n e o t e r i cw a yi n s p e e c h q u a l i t ym e a s u r ei ss u b j e c t i v em e a s u r em a i n l yb e c a u s ei ti sa s s e s s e db y h u m a ne a rt h a tt h eq u a l i t yo fs p e e c hc a nb ef i n a l l ye v a l u a t e d h o w e v e r ， s u b j e c t i r em e a s u r e c a nb ed o n eo n l yu n d e rac e r t a i nc i r c u m s t a n c e w h a t s m o r e ，i tw i l lb ei n f l u e n c e ds i n c ei ti si m p o s s i b l ef o rh u m a nt og i v et h e s a m em e a s u r ea td i f f e r e n tt i m e i ti sb e c a u s eo ft h i 8 ，o b j e c t i v em e a s u r e f o rs p e e c hq u a li t yi sr e q u i r e d f i r s t ，t h ed e v e l o p m e n to fo b j e c t i v em e a s u r ei s i n t r o d u c e di nt h e p a p e r t h e n ，h u m a np r o n u n c i a t i o n s y s t e m a n da c o u s t i c a l s y s t e m a r e p r e s e n t e df o rt h er e s e a r c ho fs p e e c hq u a l i t ym e a s u r ei n v o l v e sn o to n l y t h ek n o w l e d g eo fs i g n a lp r o c e s s i n gb u ta l s ot h a to fp s y c h o l o g i ca c o u s t i c s a st ot h er e s e a r c ho fd i s t o r t i o ne s t i m a t e ，m e lc e p s t r u md i s t o r t i o na n d b a r ks p e c t r u md i s t o r t i o na r ed i s c u s s e di nd e t a i l a n dt h e ya r eu s e dt o e v a l u a t et h es p e e c hq u a l i t yo b j e c t i v e l ys ot h a th i g h e rc o r r e l a t i o n s b e t w e e no b j e c t i v em e a s u r ea n ds u b j e c t i v em o sa r eg a i n e d m e a n w h il e ，t o t h ec h i n e s ec o n t i n u o u ss e n t e n c eg r o u p ，t h ed e f i n i t i o no fc o m p l e m e n t a r y b l a s k i n g m a t r i xi s p r o p o s e d u s i n g i tt om e a s u r et h es p e e c h ，t h e c o r r e l a t i o nt om o se n h a n c ef r o mo n et ot w op e r c e n t s c o n s i d e r i n gt h e p a r t i c u l a r i t yo ft h en u m b e rw i t hc h i n e s ep r o n u n c i a t i o n ，h a m m i n gw i n d o w t h a ti so f t e nu s e dt oc u ts p e e c hs i g n a ls h o r ti sr e p l a c e db yr e c t a n g l e w i n d o wi nt h em e lc e p s t r u md i s t o r t i o nm e a s u r e a n df e wl e s st h a no n e p e r c e n ti se n h a n c e d f i n a l l y ，t h ec o n c l u s i o na n dt h ee x p e c t a t i o na b o u t t h isp r o j e c ta r ep r e s e n t e d k e y w o r d so b j e c t i v em e a s u r e ；d i s t o r t i o nm e a s u r e ；m e lc e p s t r u m ；b a r ks p e c t r u m 蓬壅窒鎏燮臻学位论文第1 燹第1 章绪论 1 1 语音质量客观评价的意义通过语鼗榻茎传递信息是人类最熏豢懿基本功憩之一。语富怒人类特有的功能。声蠢怒入类的常惩互其，是襁曩传递信意静鬣重要手段。缀然，人可骏通过多种手段获得外界倍恩，但是，溉重要、最常用的信息源只肖语言、图像和文字三种。语音是人类主动发送信息的最主要途径。语音中除了包含实际发窘内骞魏语塞绩患终，还镪括发啻者是谯戳及喜怒衮笨等蚤耱售惑。掰戳，溅富是人类最震要、最有效、最常用和最方便的交换信怠方式。努方面，语蠢和语音与人的智力活动密切相关，与文化和社会的进步紧密相谶，它具有最大蚋信息容量釉最高的智g & 7 k 平。因此，语音信号处联就成为许多信息领域应用瓣孩心技术之，霹霹，识楚强蘸发燕簸势逐速耱臻怠辩学礤究镁域串懿一个。其研究涉及一系列前沿科研课题，且娥予迅速发展之中；其研究成果具有重要的学术及应用价值。人类对予酱糜评价的磺究，是随饕语音编码的发疑应运丽生的。由于语意璇量的好舔壤终是出入逶遗久莓来评雾l 豹，霞穗，瀵代的音爱浮价方法主要袋用的是主观评价方法，它以一组听音人对原始语音和失真语音的比较试听为熬础，根据某种预先设定的原则，对失真语音的音质划分等级。它反映了昕音人慰音矮好坏豹一秘主蕊印象。语音瑷繁主漤浮徐豹方法攫多，主要鸯平均意见分( m e a no p i n i o ns c o r e ，m o s ) 方法、潮断兹字溺试( d i a g n o s t i cr h y m et e s t ， d r t ) 方法和判断满意度测试( d i a g n o s t i ca c c e p t a b i l i t ym e a s u r e ，d a m ) 方法n ，。i t u t 推荐的音质斑观评价方法主要有以下几种m ：绝对簿级译徐( a b s o lu t ec a t e g o r yr a tin g ，a c r ) a c r 主要通过平均意觅分( m e a no p i n i o ns c o r e ，m o s ) 对鬻质进行主蕊评价。这种情况下没有参考谱，听音人只听失真语音，然后对该语酱作出1 5 分躺评价，其标准如表卜l 所示。 a c r 评价方法不需蘩参考音，霞羹： t 较灵活，然嚣，壶予入辫不阉声音瓣喜好不同，这种灵活性会爵致一定的不公平性。鞭泰交通大攀磺圭学位论文繁2 贾表卜1i i o s 等级标准 m o $ 等级语音质量善捷 4 良好 3一般 2 差 l 恶赛失真簿级评价( d e g r a d a t io nc a t e g o r yr a tin g d c r ) d c r 主要遵过失真平均意见分( d e g r a d a t i o nm o s ，隧蕊) 来实现音质的烹躐评价。这稃评价方法瑟求昕音入在绘失真语音打分静，登矮营笼昕熬原始语音( 参考语静) ，然后，将失真语音与原始语音的藏异用表卜2 的标准来描述。表卜2 胤o s 等级标准翻姆等级失寞程瘦 5 觉察不到差异 4刚好能觉察到差异假是并不吵 3能觉察到菱异，并且让人激得有点不适 2有点畛，毽是还不令入霉雩厌 l 非常吵，让人觉得无法忍受 d c r 常努鼹米译价以谴翅汽车噪声、餐道噪声绒其德说话人乎扰等为背晨嗓声情况下静啻质。噪声鹩类型纛数慧将童接影酶评定的失真等级。由于d m o s 的评定形式类似于大多数客观评价的结构，因此，些专家认为，用客观评价预测语音的d m o s 比m o s 更恰当。据对簿缀浮魏( c o m p a r is o nc a t e g o r yr a tln g ，c c r ) c c r 方法主要采用相对平均意觅分( c o m p a r i s o dm o s 。c m o s ) 对音质避稃主观评价。c c f f 类似于d c r ，但不同的鼹，在c c r 方法中，原始语音和失真语脊的播放次序怒随枫的，晰皆人也不会预先知道哪是艨始音、哪怒失真音。听谱人只是在上一令音懿基磁上，浮定密受麓警招辩予上音懿努舔，其栝准魏袭 l 一3 所示。西南交通大学硕士学位论文第3 页表1 - 3o l o s 等级标准 c m o s 等级相对优良程度 3好得多 2 更好 1稍好一点 0 大约相同一l 稍差一点一2更差 - 3差得多 c c r 方法允许对处理后语音( 失真语音) 的评价高于原始音的评价，因此，它可以用来评价具有噪声抑制和语音增强功能的编码器，也可以用来比较两种未知编码器的性能优劣。我们现阶段运用的主观评价方法，最典型的是由a c r 发展而来的m o s 方法，它用于对语音整体满意度或语音通信系统质量的评价。音质主观评价的优点在于直接、易于理解，然而，主观评价只能在条件允许的情况下才能进行，如听音人达到一定数量、一个良好的听音室等，既费时又费力；同时，它还会受到人对音质反应的不重复性的影响。既然如此，人类就对音质客观评价的产生提出了要求。音质客观评价的优点在于，它只需有分析测试设备及专业操作人员对采集的语音进行操作，因此也不会受人为主观因素的影响，一般也不容易受测试设备性能的影响，其灵活性、适应性及效率都较主观评价高得多。另外，它还可以用在主观评价失效的地方，比如，v o i p 网络监控系统就只能通过音质的客观评价来对系统作出实时的反馈：语音通过网络又回到起始位置，原始语音和处理后语音都通过客观评价设备，由此产生的预测分可以反映处理后语音的质量，从而反映网络的通信质量，并使该网络系统快速作出反应，使处理后语音尽可能接近原始语音。音质主观评价方法对于这样的实时系统只能是爱莫能助、望洋兴叹。然而，客观评价虽然明显优于主观评价，但是，客观评价必须以主观评价为基础，借鉴主观评价的高智能和人性化过程。同时，它也存在着本身的局限性，因为不可能找到一个绝对完善的客观测度和十分理想的测试方法，人们只能尽量利用所获得的信息作出基本正确的评价。本文的研究目的也就是寻找与音质主观评价方法效果尽可能接近的音质客观评价方法。溪壹窒鋈盍警鼙圭学整论文筹4 燹 1 2 语音膜量客观评价发展现状锌对音质主观评价方法的不足之缝，基于客鼹失粪澳度懿音箴客观评价方法相继被提出。音质的客观评价主要分为基于输入一输出的客观评价和基于输出的客观评价两种方法。 1 2 1 基于输入一输出的客观评价方法基于输入一辕出的客淡译价系统的基本结构如图1 - 1 所示，主要包括三个疹骤： l 蝴昀n m e n tl l l 蠹置聚枣蠖s l 。弗m e 醛珏陪 l 封m e 矗v e 限9 1 姆毽i - 1 客蕊详赞基车结拇器蘩 n 同步处理在该步骤中，原始信号与失真信号对比，使其在霹蓠上瓣步。否列，将_ ；l 重运算结暴造成巨大豹锈误，其直按影响是，鄯使失真不大的信号，通过鬻观测度的结果也会很熬。分帧失真测度在该步臻中，嚣羧谬簧售号与失凑语音售号酃被分成若干短小的段，我们称每一小段为一帧。帧通常为l o m s 到2 5 m s 。然后，分别计算每一帧的失真。其必真度既可以猩时域内计算，也可以在频域肉诗算，甚至可敬在谱域、惑翔域痰诗算。在磺多的计算域中，由于感知域模拟了人蛘的昕觉感如特性，因此是性能最优良的测度。 3 ) 农时溅i ；c 攘为肇元取算术平均在该疹骤中，褥掰旁筷鑫毒失囊取算术平筠，作为失真语礴信号总的失真量。再用这个参数去映射主观评价结聚。最旱懿谗誊蒺量客戏谨羧方法可以逡溅囊2 0 夔纪4 0 年我，内n 。r 。f r e n c h 和j c s t e i n b e r g 于1 9 4 7 年提出的清晰度指数( a r t i c u l a t i o ni n d e x ，a i ) 方法m 。由于受到当时科技发展水平的限制，有关语音质量客观评价方法的研究工乍并未得到很大发展。矗蚕送入7 e 年莰戬嚣，蘧着逶绩碜整鹃逮猛发淡，必矮对落澎蘧综壤码技西南交通大学硕士学位论文第5 页术、通信设备系统进行大规模的评测工作，这样，具有方便、快捷、省时、省力等优点的客观评价方法才得到蓬勃的发展。在这一时期，g i t 的t p b a r n w e l l 1 1 1 和s r q u a c k e n b u s h 在这一领域作出了令人瞩目的工作。他们建立了2 6 4 种失真条件，通过回归分析得出了与主观评价值相关性较高的几种音质客观评价方法“，为以后的音质客观评价工作奠定了基础。在8 0 年代后期提出的音质客观评价方法主要有：加拿大b e l ln o r t h e r n r e s e a r c h 提出的相关函数方法( c o h e r e n c ef u n c t i o n ，c h f ) t s l l a ，这是一种加权信号失真比测度方法，它通过描述人的听力敏感度、人耳对噪声的阈值效果以及电话听筒接收的敏感度等，对电话语音质量进行评价。日本电报电话公共公司( n i p p o nt e l e g r a p ha n dt e l e p h o n ep u b l i cc o r p o r a t i o n ，n t t ) 的n k i t a w a k i 等人提出的倒谱距离( c e p s t r a ld i s t a n c e ，c d ) 方法n ，是当时与主观评价相关性较好的一种方法，它是根据输入和输出语音信号的线性预测系数( 1 i n e a r p r e d i c t i v ec o e f f i c e n t ，l p c ) 推出的各自的倒谱系数，然后求它们之间的倒谱距离，其相关度达到0 9 。法国j l a l o u 于1 9 9 0 年提出了信息指数 ( i n f o r m a t i o ni n d e x ，i i ) 方法n ，这种方法将语音频谱分为1 6 个临界带，在每个频带内运用频率加权和听力阈值等计算方法来评价语音质量。美国电信科学研究院的r k u b i c h e k 和e a q u i n c y 等人提出的专家模式识别方法”1 ，运用贝叶斯估计原理以寻找语音信号的特征参数与语音质量之间的非线性关系，在i t s 测试中其相关度达到o 8 9 。这四种评价方法也是原c c i t t 建议方法。进入9 0 年代以后，音质客观评价方法取得了突飞猛进的发展，特别是近几年取得的成绩，与主观评价的相关度达到了0 9 5 左右。s w a n g 于1 9 9 2 年提出的巴克谱失真( b a r ks p e c t r a ld i s t o r t i o n ，b s d ) 测度方法，对以后的相关研究产生了很大的影响n m 。继s w a n g 等之后，r y a n t o m o ，w y a n g 等学者也对b s d 进行了进一步研究，提出了改进的巴克谱失真测度( m o d i f i e db a r ks p e c t r a l d i s t o r t i o n ，m b s d ) 方法，相关度达到了0 9 5 左右n ”。，。国内的学者也对这一方法做了许多研究工作m n “，。i t u t 于1 9 9 6 年公布了对电话频带内语音编解码器质量的客观评价方法建议p 8 6 1n “，即感知语音质量测度方法( p e r c e p t u a l s p e e c hq u a l i t ym e a s u r e ，p s q m ) 。该方法将表示语音的物理信号转换成符合人听觉机理的物理表现形式，与语音的内在表现形式( 语音在大脑中的表现形式) 尽可能相匹配，其相关度可达到0 9 4 。另外，美国i t s 的s v o r a n 曾对这种方法的计算做过简化m ，效果也较好。但p s q m 方法只是对高速率编码语音的质量评价效果较好，且要求没有传输比特误码、帧丢失( 如在无线移动通信中) 或信元丢失( 如在a t m 网络中) 的信道降级等“。西南交通大学硕士学位论文第6 页 1 9 9 7 年，s v o r a n 在总结前人工作的基础上，提出了一种测量标准化段 ( m e a s u r i n gn o r m a l i z i n gb l o c k ，m n b ) 的方法“”，并于1 9 9 9 年又提出了基于 m n b 的听觉距离( a u d i t o r yd i s t a n c eb a s e do nm e a s u r i n gn o r m a l i z i n g b l o c k ，a d 舢b ) 评价方法n ”。他认为人对语音质量好坏的评价过程应包括两个方面，一个是听( h e a r i n g ) 的过程，另一个是( j u d g e m e n t ) 过程。虽然这两个过程不能严格区分，但是，人在感觉语音质量时在这两个过程中行为的确是有所不同的。以往的方法，如m b s d 、p s q m 等都比较注重模拟听的过程，即听觉模型，而对判断过程则予以很大的简化。a d 删b 则在考虑听过程的基础上，采用b 方法来模拟人的判断过程，在此基础上再求出听觉距离a d ，以其作为评价语音质量的尺度标准。由于这种方法综合了昕过程和判断过程，因而评价结果与主观评价值的相关程度极高。在具体实现上，s v o r a n t 提出了两种m n b 结构：州b l 型和m n b 2 型，基于这两种结构的a d 与主观评价结果的相关度都达到了0 9 5 左右”。本文的第三章和第四章将详细阐述作者在基于输入一输出评价方法和系统上所做的一些工作。 1 2 2 基于输出的客观评价方法近3 0 年来，音质客观评价的研究主要集中在基于输入一输出方式的评价上。但实际上，在许多领域，如无线移动通信、航天航海以及现代军事等，往往要求评价方法具有较高的灵活性、实时性和通用性，而且在得不到原始输入语音信号情况下也要能对语音质量进行评价，所以在9 0 年代基于输出的客观评价方法也开始受到研究者的重视。 r k u b i c h e k 等人尝试用低阶感知线性预测( p e r c e p t u a l1 i n e a rp r e d i c t i v e p l p ) 模型为基础，对没有参照信息的输出语音信号进行质量评价。该方法首先对无失真样本( 并非原始语音样本) 进行p l p 特征提取，并进行聚类分析，找出参考类集，以此参考类集作出评价基准模板，求出待测试语音与参考类集的最近距离，以其作为该语音质量好坏的评价标准。他们分别采用了p l p 、p l p c d ( p l p 倒谱距离) 和p l p - - d c d ( p l p 差分倒谱距离) 等参数进行实验测试，与主观评价值的相关度分别达到o 8 2 、0 8 4 和0 6 7 左右。“。 r k u b i c h e k 等的研究工作表明这种基于输出的客观评价方法与主观评价具有一定的相关性，但还不很成熟，有待于做进一步的深入研究。同时，也可看到，虽然这种方式的评价方法还是依赖了一个可参考的输入信息，只不过这个亘直至追盍堂甄士学位论文第7 页参考信息是经过学习、归纳等过程形成的，这就正如人在进行主观评价时，实质上也是把语音系统的输出信号与人在自身成长过程中不断学 - - j 、记忆得到的经验知识做比较，从这个意义上讲，基于输出的客观评价方法实际上是一种广义的基于输入一输出的客观评价方法。此外还有必要指出两点。第一，在对一种语音系统进行质量评价时，主观评价和客观评价的应用往往是结合在一起的。一般的原则是，客观评价用于系统的设计阶段，以提供参数调整方面信息，主观评价用于实际听觉效果的检验。第二，一种客观方法的优劣取决于它与主观评价结果在统计意义上的相关程度。一般在一个新的客观评价方法的设计过程有三个主要的步骤：首先要对大量失真条件进行主观评价，主观评价结果能确实反映用户感知质量；然后是客观评价测度的提出和实现；最后是客观评价算法的验证。候选客观评价测度可否能被接受的一个重要原则就是它是否与主观感知质量准确地相关。 1 3 本文的研究背景和主要贡献本文的研究工作是以一军事预研课题为背景的。该课题的主要任务是，用神经网络方法实现语音质量的客观评价。就作者的工作而言，主要是研究多种待测语音的失真测度方法，并将其用于音质的客观评价中，寻找与主观评价相关度更高的测度方法。同时，生成有效的数据作为神经网络的学习样本。这里，每种待测语音均由对应的原始语音经过伴有不同加性噪声的不同调制信道所得。研究的语音为汉语连续语句语音和数字串汉语语音。对于前者，作者在深入研究b s d 测度方法以及m b s d 测度方法的基础上，提出了广义的瞬时掩蔽矩阵，并将此用于改进巴克谱失真测度方法，即瞬时掩蔽巴克谱失真( b s db a s e do n t e m p o r a lm a s k i n g ，t b s d ) 测度方法。研究发现，将t b s d 测度方法用于汉语连续语句语音的音质客观评价，与主观m o s 的统计相关度比b s d 高出l 到2 个百分点。对于后者，由于矩形窗频域主波瓣更窄，更能准确地反映数字串汉语语音的时域特点m ”，因此在对语音做短时截短的时候，借鉴语音识别中的做法，用矩形窗代替常用的汉明窗。研究发现，其用于m e l 倒谱系数失真测度，与主观m o s 的统计相关度高出近1 个百分点。本文分为六章，内容组织和主要贡献如下：第一章为绪论，首先通过对语音质量主观评价和客观评价的简要对比，阐瓣南交透夫学鞭士学控论文筹8 页述了语音质爨客观评价的灏大意义。其聪概述了语音质量评价方i 焱的研究进展，井总结了客观评价和主观评价相辅相成的学术思想。第二章童装获又豹生壤结穆窭发，分绥了心瑾声学翡基穑翘谈耧语音娃理的基本方法。第三章酋先介绍失真测度的相关知识，然后着熏研究了m e l 倒谱系数失真测度，并对其侔了一定的改进，使其用予数字串汉语语啻的客观评价时，与主鼹, ) d o s 静统谤相关废较一般豹m e l 例谗系数失真溺发骞爨疆奁。第四章主要研究了巴兜谱失真测魔方法，提出了广义的瞬时掩蔽矩阵的概念，并运用予反映瞬时掩蔽效应的参量瞬时掩蔽矩阵中，使汉语遴续语句语音靛窖强失真测发与主蕊m o s 戆统诗摇荚发褥到了提惑。第五章奎溪是对研究缭梁的分耩与讨论。结论部分概括性地总结了全文，并提出了可以进步研究的问题和需要进步做的工作。匾塞奎鋈塞璺亟圭学位论文第9 燹第2 章声学的基础知识对于语啻豹疆究是簸入获发砉系统嚣始熬。本豢蘩先奔缨入豹发害系绞戮及由此演绎的语音产生数举模型，再介绍人的听觉系统，然后介绍一些心理声学的基础知识。最后介绍语音处理的熬本方法。， 2 1 人的发音系统模型 2 。1 1 人的发謇系统人的发膏器官包括：肺、气管、喉( 包括声带) 、咽、鼻和口，如图2 - 1 簿2 - t 带帮瓣雷的掌瑶簿裁所示。对发音影响最大的是从喉结至杓状软骨之闼懿朔带捃，称海声带。声黪豹长度仅约 1 0 1 4 r a m ，比指甲述小。发音辩国肺部收缩邀出一股直流空气，缀气管流至喉头声门处( 声带开朋处) 。在发声之初，声门处的声带肌肉蔽缀，声鬻芳拢( 润羧小于1 r a m ) ，这段壹浚空气冲过很小的缝隙，使声带褥剿横向和纵向的速魔，此时，声带向两边运动，缝隙增大( 成年男性好到最大时，截面积约为2 0 珈费) ，声门娃送力下降，弹穗後复力将声辩控霾孚黉畿蚤并燃续趋向闭合，声带产生振动，这种振渤具有一定的周期，也即基音周期。图2 2 给出了发1 2 5 h z 基频时声带开痘面积与对闻豹关系趣线。发音爵声怒逐渐开痞，终占基音周期懿 5 0 ，达到歼启面积最大。然后逐渐关闭，到完全闭合，约占基音周期的3 5 。蕊音周期1 5 的时间内，声门是完全闭含的，这样，声门开启到下一次声门开痉就形成一个基砉羯絮。它戆弱数帮淹鏊音频率( 麓嚣萋频) ，其有薅变性郛准周期性，与个人声带的长短、后薄、韧性、劲度和发音习惯膏荚，其范丽约为6 0 4 5 0 h z 左右，在很大程度上反映了个人特征。基频范围随发音人的性别、年龄丽定。老年男性偏低，小孩和青年女性偏高。基频决定了声礴频率的高低，频率大懿誊满篱，猿率夺鲻音调琵。西南交通大学硕士学位论文第1 0 页 j b 一 3 5 1 5 1 2 5 l h 烈卜f 图2 - 2 声带开启面积与时间的关系曲线。竹1 声门以上，经咽喉、口腔( 舌、唇、腭、小舌) 的这一管道一般称为主声道。成年男子的主声道长度约1 7 c m ，最大截面积可达2 0 c m 2 左右。主声道是一个分布参数系统，它有许多自然谐振频率，在这些频率上，其传递函数具有极大值。谐振频率由每一瞬间的声道外形决定。讲话时，舌和唇连续运动，使声道常常改变外形和尺寸，随即改变谐振频率。如果声道的截面是均匀的，谐振频率将发生在 e ；警 ( 2 - 1 ) n 。l 2 ，3 ，表示谐振频率序号；c 为声速，在空气中约为3 5 0 m s ；l 为声道长度。若按照l = 1 7 c m 计算，则谐振频率发生在5 0 0 h z 的奇数倍上，即 f ；5 0 0 h z ，；1 5 0 0 h z ，只= 2 5 0 0 h z ，发元音e 的时候，声道截面最接近均匀断面，故谐振频率也最接近上述值。而发其它音时，声道形状很少是均匀断面的，谐振点之间的间隔也不同，但声道谐振点的平均密度仍然大约为每l k h z 有一个谐振点。谐振频率又称为共振峰频率，简称为共振峰，它是声道的重要声学特性。共振峰与声道的形状和大小有关，一种形状对应一套共振峰。语音的频率特性主要就是由共振峰决定的，当声音沿着声道传播时，其频谱形状就会随声道而改变。共振峰用依次增加的多个频率表示，如第一共振峰，第二共振峰等。通常情况下，语音的频率特性主要反映在前三个共振峰。经小舌和鼻腔的这一管道称为鼻道。此外，经肺、支气管和气管的管道称为次声门系统。由声带振动激发声道中空气发生振动，并从口和鼻两处向外辐射产生声音。声道的口、鼻两个管道中，从鼻咽部到鼻孔的分支称为鼻道分支，只有在发鼻音时才打开，从声门到唇是主声道，它被舌面隆起点隔开，近似可分为咽腔( 后腔) 、小管、口腔( 前腔) 等几部分。咽腔是连接喉和食管与鼻腔和口腔的一段管子。在讲话时，咽腔的形状是有变化的a 咽腔与口腔一起使得声道形状的变化增多，因而能发出较多的不同的声音。鼻腔从咽腔一直延伸到鼻孔，约1 0 c m 长。发鼻化语音时，软腭下垂；如果它上抬，则完全由口腔发出嚣南交遗失攀磁士学位论文第l l 滠语音了。口腔是声道最藏瑟的部分，窀的大小和澎状可以通避调燕舌、麟、齿 _ 帮颚来跛窝。嚣最滔歇t 它戆尖部、边缘熬、审炎粼都鼹分潮囊蠹活动；熬今雷体也耱上下静岳懑渤。双蘑位予翻簸的末端，京瞧冒活动成腐平状耪麟状。齿的作用怒发齿化音的必键，如 8 】裔等。最膳，獭中的软麟皴瓣所述，楚发鼻音与否的阀门。至于璇腭及黄龈则魑声道管蹙浆构成部分，也参与了发港过程。当发穗一语音辩，声遥髋疼( 霞戆嚣瑟) 运淤蠲令符定黪部分，梅娥一定声道嬲豫形，形成该谣酱鹣特定瞽惫。语啻按其激励形式的不同大致可以分为三类。獭气流通过声门时，如果声带豹张力强好傻声带产蹩张撼振荡，产黛一股准髑麓躲狰气流，邀一气流激颡渗遥藏产囊浚巍( v o i c e ds p e e c h ) 浚髂露声语音。熬聚声带不搬凌，两在莱鲶收缩，追饿气流以高速邋j 矍这一收缩部分丽产生湍流就产生潢啻( u n v o i c e d s p e e c h ) 绒艨擦音，戏称光声语音。如果声道程究全闭合的情况下突然释放就产生爆破费( p l o s i v es p e e c h ) 。产童谣鸯麓能量，来源予正常孵激辩毒部蜉瞧斡稳定气浚。“瓣”静妻鬃凌能是使搬液和空气之间谶行交换，即将空气中蛉氨气吸入斑液，谣将血液中的二氧化碳气体排入空气中。肺内可褰纳豹1 7 5 l 的密气。正常呼气时大约能孵壅2 7 5 m 懿空气，奁滋话孵黪懿气聪魄大气压大嚣分之一庄蠢。不讲话露，移秘吸的时阙大致糨等。谨讲话时霹硬睁气辩闻达到熬令呼吸髑蠲麓8 5 麓卷。气管是由一魑环状软臀缀成的，讲话时它将来自肺都的空气送到喉部。 2 ， 2 谬酱信号酶净生数学楱黧基于| 2 七上讨论的人的发音器官特点和语音产生枫骥，语酱信母的产生数学模萋尹滞玮卞 | 瞳野莲酗辫2 - 3 谱营信弩产蹙的黼数时城臻帮f 列黼嚣南交邋穴攀颈士学位论文第1 2 璇型褥以产擞。完蘩瓣产囊模型霄以惩激励模激、声邋模整、璇毒重模整等三个子模型鹃拳联来表示。皴黧2 - 3 掰承，纛鹣传递缀数掰q ) 如式2 2 ) ；嚣仁) - a 秽( z 妒( z ) 霄0 ) ( 2 - 2 ) 其中，u 0 ) 楚激励信号，浊啻时0 熄声门脉冲即辅三角形脉冲序列盼z 交换；在潼鸯璃凝- f ，u ( z ) 楚一个隧掇噤声的z 交换。y 秘) 楚声遵传逡溺数，麓霹以嗣声瞽棱糕，也可以嗣必振峰模型采捺述，帮全檄点模型 y 一n 三一 ( 2 3 ) l 一叩。震( z ) 的阶黼邋形式为贾q ) 一r 。( 1 一z 。) ( 2 - 4 ) 鬻錾指出鹣怒，式( 2 2 ) 掰添模羹稳凑帮缝梅势不霸游酱产生静稳溪过程竞众数，但送榉模型和真实模激在输出处怒簿敲的。 2 2 入的瞬觉系统 2 2 。人麟断觉器宙的生理结构入靛嘶潞系统是一个十分巧妙瓣畿频信号娥璞器。瞬觉系统辩声音僚罨的黼2 4 姘骷蕊常的擞剖簌f 卅嚣密交逶大学磺士学谴论文繁1 3 癸处理能力来囱予它巧妙的擞理结构。人的听缴系统如图2 - 4 所示。耳由内耳、中耳和外耳三部分组成。癸霉是瞬爨器富豹麓一篷，虽然毙羧楚摹，瞧程瞬觉系统孛怒到重要终援。外耳由耳廓、外耳道和鼓膜构成，是一个类似于声邀的管子，一端开启，另一端由鼓膜封健，总长2 5 r a m 左右，直径约0 7 c m ( 均指成年人) 。由计算可知它的谐振频率约3 4 0 0 h z 左右。在3 4 k h z 舱频率范围内，由于外耳邋豹共振效应，霹使乡珲遂入秘受雏声垂毅大鳕2 4 穰，毽就是鼓袋经静声压璜大了终3 6 d b 左右，折合成声音约为l o d b 左右的放大。鼓膜在声聪的作用下会产生位移，日常谈话中，数膜位移约为1 0 一c m 。另外，在生理上，外耳还起到了保护鼓膜的作翅。中耳雹疆澎锤骨、醅餐和镫雷这三涣听小黄稳成斡湃督链戳及咽鼓管等缀成，它具有两个主要的用谂。一是放大声压，3 块听小骨起着机械杠杆的放大作用，可使其放大1 5 倍左右；更重要的放大作用是骨传导产生的，可增强声压终2 2 蘧左骞。二是保护内溪兔受特强黟豢戆擐害。蠢薄浃枣要琏亵( 连接鼓貘豹 c 奎毫。叁= = = 秽 3 2 叫嚣2 - 5 蠹霉弱构造l 卅辅臻謇蠢一块和联接镊曾的一块) 穗很响的声裔时起反射作用，使听小骨的传导减弱。另外，锤骨与鼓膜相接触，镫骨则与内珲戆兹庭窑稳接霆盘。孛嚣瓣终蠲是透露声阻抗的变换，即将中耳两端的声阻抗匹配起来。同时，在一定声强范围内，孵小嚣对声巍进行线性传递，面在特强声辩，褥小费迸行 # 线缝传递，这群对内耳起着保护的作用。内耳是颅骨腔内一个小而复杂的系统，对畈觉怒生要贡献静怒充满液体豹浑蠕。它是瞬觉的受纳器，把声音逶避机械变换产生神经发放信号。耳蜗高约 2 c m ，宽约1 5 c m ，呈螺旋状盘旋2 5 2 7 5 霾，款纛惹长约3 3 。2 c m 。图2 5 为拉直后的驿蜗纵剖面以及耳蜗横断面。可以看到，除了尖端部分以外，熬个耳蜗由耳蜗隔膜隔开成三个区域。巾润懿隔貘翻徽基庭簇，上郝为璃圭簇，鞭鸯交逯大攀鞭圭学位论文雾1 4 贾中部区域称为耳蜗导管，上下两个区域分别称为前庭阶和鼓阶，瓮们在尖端部分相通。耳蜗导管中充满筒粘度的胶状内淋巴滚。黼相通的前庭阶和鼓阶内则究溃蘩度为窳熬嚣繁豹漤憨滚。磷究表赘w ，基底簇瓣蠡蠢觉璃应冬潮滋戆频率鸯关。频率较低时，靠近耳蛹尖部的基底膜产生响应；反之，则靠j 垃圆形窗的窜而紧的基底脱产生响应。如图2 6 所永，如果信号熄一个多频率信号，则产擞的彳亍波将沿麓基底膜在不溺酌位置产擞凝大幅度。从这个意义上游，耳蜗就像令频谱分撩便，将复杂豹信号分瓣成备耱频率分蘩，跌瑟导致麓底膜上不阏位置的柯蒂氐器官的纤鼍细胞对不同频率的声音引怒弯曲，刺激其附近的听徽露2 - 6 基底骥辩频率响应分稚柚神经末梢，产生电化学脉冲，并沿听觉享孛经素绩递剿大脑。大脑澍送来的脉冲进行至今尚寒褥至l 充分研究酌一系列分析与判断，就可以识别出并理解到该语音的含义了。莠菲掰鸯豹声音都黢被入耳霹到，这取决于声鬻的强度和其频率范围。一般人可以感馓到2 0 h z 2 0 k h z 、强度为一5 1 3 0 d b 的声音信号。阑此，在这个藏整数羚熬蠢频分量藏是凝不妥戆音羰分量，在语膏信号处理中就可以忽略摔，以节省处理成本。然而，人耳的这种感觉并不是绝对的，它将随着信号特性的不嗣薅不同。 2 2 2 人耳的主观感j 5 性爨觉感麴豹主要翊题照璃度、音亵秘撬菠效应等。 2 2 2 1 响魔在物理土，客观测量声音强弱的单彼蹩声压( d y n l c m 2 或声强 w c m 2 。而在心理上，主观感觉声音强弱的单位则是方( p h o n ) ( 响度级) 或采汹n e ) ( 响度) 。它们既不阐，其间又有一定联系。当声音瓣疆弱小嚣大嚣朗好麓舞冕瓣，稼灸繇凌，越薅夔圭残躐凄级定义麓 0 方。研究袭明，听阈值是随频率交化的。例如，l k h z 纯费，在声强为 1 0 “6 w c m 2 时，刚好能被人听到；i 酊其它频率的纯音，可能比这更大或更小豹声强时，才能或裁能被入剐好薅见。通过实验得蹴的等晌度曲线，也即弗粟搦一盔森荫线，蟊鋈2 一? 掰示，最下露一条趋线藏燕疆阕一频率虢线t 它表汞务嚣瘫交逶大学矮士学毽论文骜1 5 贾频率时的听阂声强级，也就是0 方等响度级曲线。通常，人们以l k h z 纯音的声强级来表示晌发级。频率为l k h z 的纯膏，当声强级火到1 2 0 d b 左有时，人的群祭藏惑鬟疼瘫，这令溪篷称秀“褒溪”。舞强2 7 联示，最土露一壤錾线裁势痛阈一频率曲线，也就是1 2 0 方等响度级的主观感知曲线。听阈一频率益线和痛 f 勰 h 日黼强度量“ 2 n o 图2 7 等响度曲线。” i ，，，i ，，，，4 ， ? ，， | 虞肪盈2 - 8 “昀廑一响度级”霸线嗣阈一频率曲线中间的区域就是人耳的听觉藏嗣。然鬻，嫡凌缀劳不是嫡窿，宅只是心理学家用来表示“渐强”的标度。比如，一个响腱级为6 0 方戆声音跑4 0 方响黛，4 0 方的又磁l o 方的响一些，键没有指出确多少倍。响度则是数嫩的表示，熟单位称为“宋”。即2 朱的响度可蘧久惑剿魄l 寒熬穗发嫡了2 绩。人们规定，1 宋响度为l k t f z 纯音在其声强缀为4 0 d b 时的响度。实验时，让人听两个纯音并让他调节其孛一个声强级，捷德觉褥毙舅一令确嚣整。再由锋晌曲线图将所昕声音的声强级换算成响度缎，就可以= i ! 譬划如图2 8 所示的“响度一响度缀鳆线”。我髓可以看出，听觉的晌魔与晌浚级不是线镶成魄餐懿。魄魏，麸0 。l 宋到l o 宋，响度的感觉增大1 0 0 倍，而响艘级则仪从2 0 方增麓6 0 方。从阁2 7 还可以看出，对l k t t z 纯潦，声强缀扶2 0 d b 增搬爱 6 6 d b 。这4 6 d b 的增量，相警予声强增大了 4 0 0 0 0 倍，然而，响度的感觉则只增加了1 0 0 倍。这就说明，晌度感觉的变化远不如声强载交豫那么强烈。 2 2 2 2 音离物理上用频率表示声音的音调，其单僚为h z ，而人炎主观感觉蒲调是个心理过程，用音高爿芒表示，其单位是“美”( m e l ) 。这熙两个既不同又商联系熬橇念。蘸南交通犬学硕士学焱论文第1 6 页人的频率感觉范灏最低为2 0 h z 左右，最高可听频率约为1 8 k h z 左右，用八凄考表瑟麴舞9 】0 令，度啻。爱簿霉黉蒙率终海最诋霹骖羰率戆9 0 0 繁。音商盼感觉是随声强而变化的。音高测量以4 0 d b 声强为旗准，由主溉感觉 f l 。1 1 | f 鬟2 - 9 “音离一颡搴”曲线” 来定标。让听者听两个声强级为4 0 d b 的纯音，其巾一个纯音的频率固定，调节另一个缝音鹣频率，楚戆黪蘩螽耆豹酱舞是前

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（通信与信息系统专业论文）基于mel倒谱和bark谱失真距离的汉语音质客观评价研究.pdf

文档简介

温馨提示

最新文档

评论

（通信与信息系统专业论文）基于mel倒谱和bark谱失真距离的汉语音质客观评价研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档