(通信与信息系统专业论文)基于mel倒谱和bark谱失真距离的汉语音质客观评价研究.pdf_第1页
(通信与信息系统专业论文)基于mel倒谱和bark谱失真距离的汉语音质客观评价研究.pdf_第2页
(通信与信息系统专业论文)基于mel倒谱和bark谱失真距离的汉语音质客观评价研究.pdf_第3页
(通信与信息系统专业论文)基于mel倒谱和bark谱失真距离的汉语音质客观评价研究.pdf_第4页
(通信与信息系统专业论文)基于mel倒谱和bark谱失真距离的汉语音质客观评价研究.pdf_第5页
已阅读5页,还剩65页未读 继续免费阅读

(通信与信息系统专业论文)基于mel倒谱和bark谱失真距离的汉语音质客观评价研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

望至塞奎鋈盎堂拣学位论文筹l 贾 摘要 在语音研究翡各个颥域,都涉及到语音质量评价的问题,它牮已为语音传 输系统研究、设计、生产以及使用者所关心和重视。各种语音通信系统或通信 阕络在规划、汗发、研制以及投入运营之时,都必须进行音质的评价。有效的 酱震谖徐手羧涂了霹骧浮徐缓羁器戆镶鑫往囊羧韩,还毒虢臻寒溺试羡遂逶臻 质量的好坏。由于语音质爨的好坏最终是由人通过人耳来评判的,因此,近代 的音质评价方法主要采用的是主观评价方法。然而,主观评价只能在条件允许 麴情况下才戆进行,丽虽还会受到人对鸯爱反应的举重复性的影响。这样,人 街藏对音震容疆评价摄毽了要求。 本文首先介绍了音质客观评价的发展简史。由予音质评价的研究不仅涉及 剿信号处理领域,还涉及剿心理声学知识,因此,本文在研究音质客观评价以 藏,对久类豹发蠢系统霸毪蓐爨系统作了谨缎介绍。关于语音信号游失真测瘦麴 研究,本文童簧深入研究了m e l 倒谱系数失真测度鞠b a r k 谱失豢溺度,_ 莠将菸 用于汉语连续语句语音和数字串汉语语音的客观评价,得到了比以往的谱失疑 测度与主观m o s 更高的统计相关度。间时,针对汉语连续语句语鬻,作者在深 入骚究改逶豹b a r k 谱失囊测发静德况下,提高了广义 冬释对燕藏矩箨兹概忿, 并将其用于该测度方法中,使其与主躐m o s 的统计捆关度提高了l 至q2 个百分 点。对于数譬串汉语语音,考虑到数字汉语语音特徽的特殊性,柱做短时截取 的对候,借黢了语音识别中的方法,将矩形窟代替常用的汉明窗,使m e l 倒谱 系数失真灞瀵与圭疆m o s 豹绫诗穗关庶捷衷了接运l 令委分点。袋嚣,终者瓣 本文的工作做了总结。 荚链词客鼹洋徐;失真测发;m e l 剿谱;b a r k 谱 西南交通大学硕士学位论文第页 a b s t r a c t t h es p e e c hq u a l i t ym e a s u r eh a sb e e nu s e di ne v e r yf i e l do fs p e e c h i n v e s t i g a t i o na n da r o u s e dg r e a ta t t e n t i o na m o n gr e s e a r c h ,d e s i g na n d p r o d u c t i o no fs p e e c ht r a n s p o r t a t i o ns y s t e m e v e r ys p e e c ht r a n s p o r t a t i o n s y s t e m o rn e t w o r km u s tb em e a s u r e db e f o r e p r o g r a m m i n g ,e x p l o i t i n g , p r o d u c i n g ,e t c a ne f f e c t i v em e a s u r ew a yc a nt e s tn o to n l yt h es p e e c h c o d e rb u ta l s ot h ec h a n n e lo fc o m m u n i c a t i o n n e o t e r i cw a yi n s p e e c h q u a l i t ym e a s u r ei ss u b j e c t i v em e a s u r em a i n l yb e c a u s ei ti sa s s e s s e db y h u m a ne a rt h a tt h eq u a l i t yo fs p e e c hc a nb ef i n a l l ye v a l u a t e d h o w e v e r , s u b j e c t i r em e a s u r e c a nb ed o n eo n l yu n d e rac e r t a i nc i r c u m s t a n c e w h a t s m o r e ,i tw i l lb ei n f l u e n c e ds i n c ei ti si m p o s s i b l ef o rh u m a nt og i v et h e s a m em e a s u r ea td i f f e r e n tt i m e i ti sb e c a u s eo ft h i 8 ,o b j e c t i v em e a s u r e f o rs p e e c hq u a li t yi sr e q u i r e d f i r s t ,t h ed e v e l o p m e n to fo b j e c t i v em e a s u r ei s i n t r o d u c e di nt h e p a p e r t h e n ,h u m a np r o n u n c i a t i o n s y s t e m a n da c o u s t i c a l s y s t e m a r e p r e s e n t e df o rt h er e s e a r c ho fs p e e c hq u a l i t ym e a s u r ei n v o l v e sn o to n l y t h ek n o w l e d g eo fs i g n a lp r o c e s s i n gb u ta l s ot h a to fp s y c h o l o g i ca c o u s t i c s a st ot h er e s e a r c ho fd i s t o r t i o ne s t i m a t e ,m e lc e p s t r u md i s t o r t i o na n d b a r ks p e c t r u md i s t o r t i o na r ed i s c u s s e di nd e t a i l a n dt h e ya r eu s e dt o e v a l u a t et h es p e e c hq u a l i t yo b j e c t i v e l ys ot h a th i g h e rc o r r e l a t i o n s b e t w e e no b j e c t i v em e a s u r ea n ds u b j e c t i v em o sa r eg a i n e d m e a n w h il e ,t o t h ec h i n e s ec o n t i n u o u ss e n t e n c eg r o u p ,t h ed e f i n i t i o no fc o m p l e m e n t a r y b l a s k i n g m a t r i xi s p r o p o s e d u s i n g i tt om e a s u r et h es p e e c h ,t h e c o r r e l a t i o nt om o se n h a n c ef r o mo n et ot w op e r c e n t s c o n s i d e r i n gt h e p a r t i c u l a r i t yo ft h en u m b e rw i t hc h i n e s ep r o n u n c i a t i o n ,h a m m i n gw i n d o w t h a ti so f t e nu s e dt oc u ts p e e c hs i g n a ls h o r ti sr e p l a c e db yr e c t a n g l e w i n d o wi nt h em e lc e p s t r u md i s t o r t i o nm e a s u r e a n df e wl e s st h a no n e p e r c e n ti se n h a n c e d f i n a l l y ,t h ec o n c l u s i o na n dt h ee x p e c t a t i o na b o u t t h isp r o j e c ta r ep r e s e n t e d k e y w o r d so b j e c t i v em e a s u r e ;d i s t o r t i o nm e a s u r e ;m e lc e p s t r u m ;b a r ks p e c t r u m 蓬壅窒鎏燮臻学位论文第1 燹 第1 章绪论 1 1 语音质量客观评价的意义 通过语鼗榻茎传递信息是人类最熏豢懿基本功憩之一。语富怒人类特有的 功能。声蠢怒入类的常惩互其,是襁曩传递信意静鬣重要手段。缀然,人可骏 通过多种手段获得外界倍恩,但是,溉重要、最常用的信息源只肖语言、图像 和文字三种。语音是人类主动发送信息的最主要途径。语音中除了包含实际发 窘内骞魏语塞绩患终,还镪括发啻者是谯戳及喜怒衮笨等蚤耱售惑。掰戳,溅 富是人类最震要、最有效、最常用和最方便的交换信怠方式。努方面,语蠢 和语音与人的智力活动密切相关,与文化和社会的进步紧密相谶,它具有最大 蚋信息容量釉最高的智g & 7 k 平。因此,语音信号处联就成为许多信息领域应用 瓣孩心技术之,霹霹,识楚强蘸发燕簸势逐速耱臻怠辩学礤究镁域串懿一个。 其研究涉及一系列前沿科研课题,且娥予迅速发展之中;其研究成果具有重要 的学术及应用价值。 人类对予酱糜评价的磺究,是随饕语音编码的发疑应运丽生的。由于语意 璇量的好舔壤终是出入逶遗久莓来评雾l 豹,霞穗,瀵代的音爱浮价方法主要袋 用的是主观评价方法,它以一组听音人对原始语音和失真语音的比较试听为熬 础,根据某种预先设定的原则,对失真语音的音质划分等级。它反映了昕音人 慰音矮好坏豹一秘主蕊印象。语音瑷繁主漤浮徐豹方法攫多,主要鸯平均意见 分( m e a no p i n i o ns c o r e ,m o s ) 方法、潮断兹字溺试( d i a g n o s t i cr h y m et e s t , d r t ) 方法和判断满意度测试( d i a g n o s t i ca c c e p t a b i l i t ym e a s u r e ,d a m ) 方 法n ,。i t u t 推荐的音质斑观评价方法主要有以下几种m : 绝对簿级译徐( a b s o lu t ec a t e g o r yr a tin g ,a c r ) a c r 主要通过平均意觅分( m e a no p i n i o ns c o r e ,m o s ) 对鬻质进行主蕊评 价。这种情况下没有参考谱,听音人只听失真语音,然后对该语酱作出1 5 分 躺评价,其标准如表卜l 所示。 a c r 评价方法不需蘩参考音,霞羹: t 较灵活,然嚣,壶予入辫不阉声音瓣 喜好不同,这种灵活性会爵致一定的不公平性。 鞭泰交通大攀磺圭学位论文繁2 贾 表卜1i i o s 等级标准 m o $ 等级语音质量 善捷 4 良好 3一般 2 差 l 恶赛 失真簿级评价( d e g r a d a t io nc a t e g o r yr a tin g d c r ) d c r 主要遵过失真平均意见分( d e g r a d a t i o nm o s ,隧蕊) 来实现音质的烹 躐评价。这稃评价方法瑟求昕音入在绘失真语音打分静,登矮营笼昕熬原始语 音( 参考语静) ,然后,将失真语音与原始语音的藏异用表卜2 的标准来描述。 表卜2 胤o s 等级标准 翻姆等级失寞程瘦 5 觉察不到差异 4刚好能觉察到差异假是并不吵 3能觉察到菱异,并且让人激得有点不适 2有点畛,毽是还不令入霉雩厌 l 非常吵,让人觉得无法忍受 d c r 常努鼹米译价以谴翅汽车噪声、餐道噪声绒其德说话人乎扰等为背晨 嗓声情况下静啻质。噪声鹩类型纛数慧将童接影酶评定的失真等级。 由于d m o s 的评定形式类似于大多数客观评价的结构,因此,些专家认为, 用客观评价预测语音的d m o s 比m o s 更恰当。 据对簿缀浮魏( c o m p a r is o nc a t e g o r yr a tln g ,c c r ) c c r 方法主要采用相对平均意觅分( c o m p a r i s o dm o s 。c m o s ) 对音质避稃 主观评价。c c f f 类似于d c r ,但不同的鼹,在c c r 方法中,原始语音和失真语脊 的播放次序怒随枫的,晰皆人也不会预先知道哪是艨始音、哪怒失真音。听谱 人只是在上一令音懿基磁上,浮定密受麓警招辩予上音懿努舔,其栝准魏袭 l 一3 所示。 西南交通大学硕士学位论文第3 页 表1 - 3o l o s 等级标准 c m o s 等级相对优良程度 3好得多 2 更好 1稍好一点 0 大约相同 一l 稍差一点 一2更差 - 3差得多 c c r 方法允许对处理后语音( 失真语音) 的评价高于原始音的评价,因此, 它可以用来评价具有噪声抑制和语音增强功能的编码器,也可以用来比较两种 未知编码器的性能优劣。 我们现阶段运用的主观评价方法,最典型的是由a c r 发展而来的m o s 方法, 它用于对语音整体满意度或语音通信系统质量的评价。音质主观评价的优点在 于直接、易于理解,然而,主观评价只能在条件允许的情况下才能进行,如听 音人达到一定数量、一个良好的听音室等,既费时又费力;同时,它还会受到 人对音质反应的不重复性的影响。 既然如此,人类就对音质客观评价的产生提出了要求。音质客观评价的优 点在于,它只需有分析测试设备及专业操作人员对采集的语音进行操作,因此 也不会受人为主观因素的影响,一般也不容易受测试设备性能的影响,其灵活 性、适应性及效率都较主观评价高得多。另外,它还可以用在主观评价失效的 地方,比如,v o i p 网络监控系统就只能通过音质的客观评价来对系统作出实时 的反馈:语音通过网络又回到起始位置,原始语音和处理后语音都通过客观评 价设备,由此产生的预测分可以反映处理后语音的质量,从而反映网络的通信 质量,并使该网络系统快速作出反应,使处理后语音尽可能接近原始语音。音 质主观评价方法对于这样的实时系统只能是爱莫能助、望洋兴叹。然而,客观 评价虽然明显优于主观评价,但是,客观评价必须以主观评价为基础,借鉴主 观评价的高智能和人性化过程。同时,它也存在着本身的局限性,因为不可能 找到一个绝对完善的客观测度和十分理想的测试方法,人们只能尽量利用所获 得的信息作出基本正确的评价。本文的研究目的也就是寻找与音质主观评价方 法效果尽可能接近的音质客观评价方法。 溪壹窒鋈盍警鼙圭学整论文筹4 燹 1 2 语音膜量客观评价发展现状 锌对音质主观评价方法的不足之缝,基于客鼹失粪澳度懿音箴客观评价方 法相继被提出。音质的客观评价主要分为基于输入一输出的客观评价和基于输 出的客观评价两种方法。 1 2 1 基于输入一输出的客观评价方法 基于输入一辕出的客淡译价系统的基本结构如图1 - 1 所示,主要包括三个 疹骤: l 蝴昀n m e n tl l l 蠹置聚枣蠖s l 。弗m e 醛珏陪 l 封m e 矗v e 限9 1 姆 毽i - 1 客蕊详赞基车结拇器蘩 n 同步处理 在该步骤中,原始信号与失真信号对比,使其 在霹蓠上瓣步。否列,将_ ;l 重运算结暴造成巨大豹锈 误,其直按影响是,鄯使失真不大的信号,通过鬻 观测度的结果也会很熬。 分帧失真测度 在该步臻中,嚣羧谬簧售号与失凑语音售号酃 被分成若干短小的段,我们称每一小段为一帧。 帧通常为l o m s 到2 5 m s 。然后,分别计算每一帧的 失真。其必真度既可以猩时域内计算,也可以在频 域肉诗算,甚至可敬在谱域、惑翔域痰诗算。在磺 多的计算域中,由于感知域模拟了人蛘的昕觉感如 特性,因此是性能最优良的测度。 3 ) 农时溅i ;c 攘为肇元取算术平均 在该疹骤中,褥掰旁筷鑫毒失囊取算术平筠, 作为失真语礴信号总的失真量。再用这个参数去映射主观评价结聚。 最旱懿谗誊蒺量客戏谨羧方法可以逡溅囊2 0 夔纪4 0 年我,内n 。r 。f r e n c h 和j c s t e i n b e r g 于1 9 4 7 年提出的清晰度指数( a r t i c u l a t i o ni n d e x ,a i ) 方 法m 。由于受到当时科技发展水平的限制,有关语音质量客观评价方法的研究工 乍并未得到很大发展。 矗蚕送入7 e 年莰戬嚣,蘧着逶绩碜整鹃逮猛发淡,必矮对落澎蘧综壤码技 西南交通大学硕士学位论文第5 页 术、通信设备系统进行大规模的评测工作,这样,具有方便、快捷、省时、省 力等优点的客观评价方法才得到蓬勃的发展。在这一时期,g i t 的t p b a r n w e l l 1 1 1 和s r q u a c k e n b u s h 在这一领域作出了令人瞩目的工作。他们建立了2 6 4 种失真条件,通过回归分析得出了与主观评价值相关性较高的几种音质客观评 价方法“,为以后的音质客观评价工作奠定了基础。 在8 0 年代后期提出的音质客观评价方法主要有:加拿大b e l ln o r t h e r n r e s e a r c h 提出的相关函数方法( c o h e r e n c ef u n c t i o n ,c h f ) t s l l a ,这是一种加权 信号失真比测度方法,它通过描述人的听力敏感度、人耳对噪声的阈值效果以 及电话听筒接收的敏感度等,对电话语音质量进行评价。日本电报电话公共公 司( n i p p o nt e l e g r a p ha n dt e l e p h o n ep u b l i cc o r p o r a t i o n ,n t t ) 的n k i t a w a k i 等人提出的倒谱距离( c e p s t r a ld i s t a n c e ,c d ) 方法n ,是当时与主观评价相 关性较好的一种方法,它是根据输入和输出语音信号的线性预测系数( 1 i n e a r p r e d i c t i v ec o e f f i c e n t ,l p c ) 推出的各自的倒谱系数,然后求它们之间的倒 谱距离,其相关度达到0 9 。法国j l a l o u 于1 9 9 0 年提出了信息指数 ( i n f o r m a t i o ni n d e x ,i i ) 方法n ,这种方法将语音频谱分为1 6 个临界带,在 每个频带内运用频率加权和听力阈值等计算方法来评价语音质量。美国电信科 学研究院的r k u b i c h e k 和e a q u i n c y 等人提出的专家模式识别方法”1 ,运用贝 叶斯估计原理以寻找语音信号的特征参数与语音质量之间的非线性关系,在i t s 测试中其相关度达到o 8 9 。这四种评价方法也是原c c i t t 建议方法。 进入9 0 年代以后,音质客观评价方法取得了突飞猛进的发展,特别是近几 年取得的成绩,与主观评价的相关度达到了0 9 5 左右。s w a n g 于1 9 9 2 年提出 的巴克谱失真( b a r ks p e c t r a ld i s t o r t i o n ,b s d ) 测度方法,对以后的相关研究 产生了很大的影响n m 。继s w a n g 等之后,r y a n t o m o ,w y a n g 等学者也对b s d 进行了进一步研究,提出了改进的巴克谱失真测度( m o d i f i e db a r ks p e c t r a l d i s t o r t i o n ,m b s d ) 方法,相关度达到了0 9 5 左右n ”。,。国内的学者也对这一 方法做了许多研究工作m n “,。i t u t 于1 9 9 6 年公布了对电话频带内语音编解码 器质量的客观评价方法建议p 8 6 1n “,即感知语音质量测度方法( p e r c e p t u a l s p e e c hq u a l i t ym e a s u r e ,p s q m ) 。该方法将表示语音的物理信号转换成符合人 听觉机理的物理表现形式,与语音的内在表现形式( 语音在大脑中的表现形式) 尽可能相匹配,其相关度可达到0 9 4 。另外,美国i t s 的s v o r a n 曾对这种方 法的计算做过简化m ,效果也较好。但p s q m 方法只是对高速率编码语音的质量 评价效果较好,且要求没有传输比特误码、帧丢失( 如在无线移动通信中) 或 信元丢失( 如在a t m 网络中) 的信道降级等“。 西南交通大学硕士学位论文第6 页 1 9 9 7 年,s v o r a n 在总结前人工作的基础上,提出了一种测量标准化段 ( m e a s u r i n gn o r m a l i z i n gb l o c k ,m n b ) 的方法“”,并于1 9 9 9 年又提出了基于 m n b 的听觉距离( a u d i t o r yd i s t a n c eb a s e do nm e a s u r i n gn o r m a l i z i n g b l o c k ,a d 舢b ) 评价方法n ”。他认为人对语音质量好坏的评价过程应包括两个 方面,一个是听( h e a r i n g ) 的过程,另一个是( j u d g e m e n t ) 过程。虽然这两 个过程不能严格区分,但是,人在感觉语音质量时在这两个过程中行为的确是 有所不同的。以往的方法,如m b s d 、p s q m 等都比较注重模拟听的过程,即听觉 模型,而对判断过程则予以很大的简化。a d 删b 则在考虑听过程的基础上,采 用b 方法来模拟人的判断过程,在此基础上再求出听觉距离a d ,以其作为评 价语音质量的尺度标准。由于这种方法综合了昕过程和判断过程,因而评价结 果与主观评价值的相关程度极高。在具体实现上,s v o r a n t 提出了两种m n b 结 构:州b l 型和m n b 2 型,基于这两种结构的a d 与主观评价结果的相关度都 达到了0 9 5 左右”。 本文的第三章和第四章将详细阐述作者在基于输入一输出评价方法和系统 上所做的一些工作。 1 2 2 基于输出的客观评价方法 近3 0 年来,音质客观评价的研究主要集中在基于输入一输出方式的评价上。 但实际上,在许多领域,如无线移动通信、航天航海以及现代军事等,往往要 求评价方法具有较高的灵活性、实时性和通用性,而且在得不到原始输入语音 信号情况下也要能对语音质量进行评价,所以在9 0 年代基于输出的客观评价方 法也开始受到研究者的重视。 r k u b i c h e k 等人尝试用低阶感知线性预测( p e r c e p t u a l1 i n e a rp r e d i c t i v e p l p ) 模型为基础,对没有参照信息的输出语音信号进行质量评价。该方法首先 对无失真样本( 并非原始语音样本) 进行p l p 特征提取,并进行聚类分析,找 出参考类集,以此参考类集作出评价基准模板,求出待测试语音与参考类集的 最近距离,以其作为该语音质量好坏的评价标准。他们分别采用了p l p 、p l p c d ( p l p 倒谱距离) 和p l p - - d c d ( p l p 差分倒谱距离) 等参数进行实验测试,与 主观评价值的相关度分别达到o 8 2 、0 8 4 和0 6 7 左右。“。 r k u b i c h e k 等的研究工作表明这种基于输出的客观评价方法与主观评价具 有一定的相关性,但还不很成熟,有待于做进一步的深入研究。同时,也可看 到,虽然这种方式的评价方法还是依赖了一个可参考的输入信息,只不过这个 亘直至追盍堂甄士学位论文第7 页 参考信息是经过学习、归纳等过程形成的,这就正如人在进行主观评价时,实 质上也是把语音系统的输出信号与人在自身成长过程中不断学 - - j 、记忆得到的 经验知识做比较,从这个意义上讲,基于输出的客观评价方法实际上是一种广 义的基于输入一输出的客观评价方法。 此外还有必要指出两点。第一,在对一种语音系统进行质量评价时,主观 评价和客观评价的应用往往是结合在一起的。一般的原则是,客观评价用于系 统的设计阶段,以提供参数调整方面信息,主观评价用于实际听觉效果的检验。 第二,一种客观方法的优劣取决于它与主观评价结果在统计意义上的相关程度。 一般在一个新的客观评价方法的设计过程有三个主要的步骤:首先要对大量失 真条件进行主观评价,主观评价结果能确实反映用户感知质量;然后是客观评 价测度的提出和实现;最后是客观评价算法的验证。候选客观评价测度可否能 被接受的一个重要原则就是它是否与主观感知质量准确地相关。 1 3 本文的研究背景和主要贡献 本文的研究工作是以一军事预研课题为背景的。该课题的主要任务是,用 神经网络方法实现语音质量的客观评价。就作者的工作而言,主要是研究多种 待测语音的失真测度方法,并将其用于音质的客观评价中,寻找与主观评价相 关度更高的测度方法。同时,生成有效的数据作为神经网络的学习样本。这里, 每种待测语音均由对应的原始语音经过伴有不同加性噪声的不同调制信道所 得。研究的语音为汉语连续语句语音和数字串汉语语音。对于前者,作者在深 入研究b s d 测度方法以及m b s d 测度方法的基础上,提出了广义的瞬时掩蔽矩阵, 并将此用于改进巴克谱失真测度方法,即瞬时掩蔽巴克谱失真( b s db a s e do n t e m p o r a lm a s k i n g ,t b s d ) 测度方法。研究发现,将t b s d 测度方法用于汉语连 续语句语音的音质客观评价,与主观m o s 的统计相关度比b s d 高出l 到2 个百 分点。对于后者,由于矩形窗频域主波瓣更窄,更能准确地反映数字串汉语语 音的时域特点m ”,因此在对语音做短时截短的时候,借鉴语音识别中的做法, 用矩形窗代替常用的汉明窗。研究发现,其用于m e l 倒谱系数失真测度,与主 观m o s 的统计相关度高出近1 个百分点。 本文分为六章,内容组织和主要贡献如下: 第一章为绪论,首先通过对语音质量主观评价和客观评价的简要对比,阐 瓣南交透夫学鞭士学控论文筹8 页 述了语音质爨客观评价的灏大意义。其聪概述了语音质量评价方i 焱的研究进展, 井总结了客观评价和主观评价相辅相成的学术思想。 第二章童装获又豹生壤结穆窭发,分绥了心瑾声学翡基穑翘谈耧语音娃理 的基本方法。 第三章酋先介绍失真测度的相关知识,然后着熏研究了m e l 倒谱系数失真 测度,并对其侔了一定的改进,使其用予数字串汉语语啻的客观评价时,与主 鼹, ) d o s 静统谤相关废较一般豹m e l 例谗系数失真溺发骞爨疆奁。 第四章主要研究了巴兜谱失真测魔方法,提出了广义的瞬时掩蔽矩阵的概 念,并运用予反映瞬时掩蔽效应的参量瞬时掩蔽矩阵中,使汉语遴续语句语音 靛窖强失真测发与主蕊m o s 戆统诗摇荚发褥到了提惑。 第五章奎溪是对研究缭梁的分耩与讨论。 结论部分概括性地总结了全文,并提出了可以进步研究的问题和需要进 步做的工作。 匾塞奎鋈塞璺亟圭学位论文第9 燹 第2 章声学的基础知识 对于语啻豹疆究是簸入获发砉系统嚣始熬。本豢蘩先奔缨入豹发害系绞戮 及由此演绎的语音产生数举模型,再介绍人的听觉系统,然后介绍一些心理声 学的基础知识。最后介绍语音处理的熬本方法。 , 2 1 人的发音系统模型 2 。1 1 人的发謇系统 人的发膏器官包括:肺、气管、喉( 包括声带) 、咽、鼻和口,如图2 - 1 簿2 - t 带帮瓣雷的掌瑶簿裁 所示。对发音影响最大的是从喉结至杓状软骨 之闼懿朔带捃,称海声带。声黪豹长度仅约 1 0 1 4 r a m ,比指甲述小。发音辩国肺部收缩邀 出一股直流空气,缀气管流至喉头声门处( 声 带开朋处) 。在发声之初,声门处的声带肌肉 蔽缀,声鬻芳拢( 润羧小于1 r a m ) ,这段壹浚 空气冲过很小的缝隙,使声带褥剿横向和纵向 的速魔,此时,声带向两边运动,缝隙增大( 成 年男性好到最大时,截面积约为2 0 珈费) ,声 门娃送力下降,弹穗後复力将声辩控霾孚黉畿 蚤并燃续趋向闭合,声带产生振动,这种振渤 具有一定的周期,也即基音周期。图2 2 给出 了发1 2 5 h z 基频时声带开痘面积与对闻豹关系 趣线。发音爵声怒逐渐开痞,终占基音周期懿 5 0 ,达到歼启面积最大。然后逐渐关闭,到完全闭合,约占基音周期的3 5 。 蕊音周期1 5 的时间内,声门是完全闭含的,这样,声门开启到下一次声门开 痉就形成一个基砉羯絮。它戆弱数帮淹鏊音频率( 麓嚣萋频) ,其有薅变性郛 准周期性,与个人声带的长短、后薄、韧性、劲度和发音习惯膏荚,其范丽约 为6 0 4 5 0 h z 左右,在很大程度上反映了个人特征。基频范围随发音人的性别、 年龄丽定。老年男性偏低,小孩和青年女性偏高。基频决定了声礴频率的高低, 频率大懿誊满篱,猿率夺鲻音调 琵。 西南交通大学硕士学位论文第1 0 页 j b 一 3 5 1 5 1 2 5 l h 烈卜f 图2 - 2 声带开启面积与时间的关系曲线。竹1 声门以上,经咽喉、口腔( 舌、 唇、腭、小舌) 的这一管道一般称 为主声道。成年男子的主声道长度 约1 7 c m ,最大截面积可达2 0 c m 2 左 右。主声道是一个分布参数系统, 它有许多自然谐振频率,在这些频 率上,其传递函数具有极大值。谐 振频率由每一瞬间的声道外形决 定。讲话时,舌和唇连续运动,使 声道常常改变外形和尺寸,随即改 变谐振频率。如果声道的截面是均匀的,谐振频率将发生在 e ;警 ( 2 - 1 ) n 。l 2 ,3 ,表示谐振频率序号;c 为声速,在空气中约为3 5 0 m s ;l 为声道长 度。若按照l = 1 7 c m 计算,则谐振频率发生在5 0 0 h z 的奇数倍上,即 f ;5 0 0 h z ,;1 5 0 0 h z ,只= 2 5 0 0 h z ,发元音e 的时候,声道截 面最接近均匀断面,故谐振频率也最接近上述值。而发其它音时,声道形状很 少是均匀断面的,谐振点之间的间隔也不同,但声道谐振点的平均密度仍然大 约为每l k h z 有一个谐振点。 谐振频率又称为共振峰频率,简称为共振峰,它是声道的重要声学特性。 共振峰与声道的形状和大小有关,一种形状对应一套共振峰。语音的频率特性 主要就是由共振峰决定的,当声音沿着声道传播时,其频谱形状就会随声道而 改变。共振峰用依次增加的多个频率表示,如第一共振峰,第二共振峰等。通 常情况下,语音的频率特性主要反映在前三个共振峰。 经小舌和鼻腔的这一管道称为鼻道。此外,经肺、支气管和气管的管道称 为次声门系统。由声带振动激发声道中空气发生振动,并从口和鼻两处向外辐 射产生声音。声道的口、鼻两个管道中,从鼻咽部到鼻孔的分支称为鼻道分支, 只有在发鼻音时才打开,从声门到唇是主声道,它被舌面隆起点隔开,近似可 分为咽腔( 后腔) 、小管、口腔( 前腔) 等几部分。咽腔是连接喉和食管与鼻腔 和口腔的一段管子。在讲话时,咽腔的形状是有变化的a 咽腔与口腔一起使得 声道形状的变化增多,因而能发出较多的不同的声音。鼻腔从咽腔一直延伸到 鼻孔,约1 0 c m 长。发鼻化语音时,软腭下垂;如果它上抬,则完全由口腔发出 嚣南交遗失攀磁士学位论文第l l 滠 语音了。口腔是声道最藏瑟的部分,窀的大小和澎状可以通避调燕舌、麟、齿 _ 帮颚来跛窝。嚣最滔歇t 它戆尖部、边缘熬、审炎粼都鼹分潮囊蠹活动;熬今 雷体也耱上下静岳懑渤。双蘑位予翻簸的末端,京瞧冒活动成腐平状耪麟状。 齿的作用怒发齿化音的必键,如 8 】裔等。最膳,獭中的软麟皴瓣所述,楚发 鼻音与否的阀门。至于璇腭及黄龈则魑声道管蹙浆构成部分,也参与了发港过 程。当发穗一语音辩,声遥髋疼( 霞戆嚣瑟) 运淤蠲令符定黪部分,梅娥一 定声道嬲豫形,形成该谣酱鹣特定瞽惫。 语啻按其激励形式的不同大致可以分为三类。獭气流通过声门时,如果声带 豹张力强好傻声带产蹩张撼振荡,产黛一股准髑麓躲狰气流,邀一气流激颡渗 遥藏产囊浚巍( v o i c e ds p e e c h ) 浚髂露声语音。熬聚声带不搬凌,两在莱鲶收 缩,追饿气流以高速邋j 矍这一收缩部分丽产生湍流就产生潢啻( u n v o i c e d s p e e c h ) 绒艨擦音,戏称光声语音。如果声道程究全闭合的情况下突然释放就 产生爆破费( p l o s i v es p e e c h ) 。 产童谣鸯麓能量,来源予正常孵激辩毒部蜉瞧斡稳定气浚。“瓣”静妻鬃凌 能是使搬液和空气之间谶行交换,即将空气中蛉氨气吸入斑液,谣将血液中的 二氧化碳气体排入空气中。肺内可褰纳豹1 7 5 l 的密气。正常呼气时大约能孵 壅2 7 5 m 懿空气,奁滋话孵黪懿气聪魄大气压大嚣分之一庄蠢。不讲话露,移 秘吸的时阙大致糨等。谨讲话时霹硬睁气辩闻达到熬令呼吸髑蠲麓8 5 麓卷。 气管是由一魑环状软臀缀成的,讲话时它将来自肺都的空气送到喉部。 2 , 2 谬酱信号酶净生数学楱黧 基于| 2 七上讨论的人的发音器官特点和语音产生枫骥,语酱信母的产生数学模 萋 尹滞玮卞 | 瞳野莲酗 辫2 - 3 谱营信弩产蹙的黼数时城臻帮f 列 黼 嚣南交邋穴攀颈士学位论文第1 2 璇 型褥以产擞。 完蘩瓣产囊模型霄以惩激励模激、声邋模整、璇毒重模整等三个子模型鹃拳联 来表示。皴黧2 - 3 掰承,纛鹣传递缀数掰q ) 如式2 2 ) ; 嚣仁) - a 秽( z 妒( z ) 霄0 ) ( 2 - 2 ) 其中,u 0 ) 楚激励信号,浊啻时0 熄声门脉冲即辅三角形脉冲序列盼z 交换; 在潼鸯璃凝- f ,u ( z ) 楚一个隧掇噤声的z 交换。y 秘) 楚声遵传逡溺数,麓霹以 嗣声瞽棱糕,也可以嗣必振峰模型采捺述,帮全檄点模型 y 一n 三一 ( 2 3 ) l 一叩。 震( z ) 的阶黼邋形式为 贾q ) 一r 。( 1 一z 。) ( 2 - 4 ) 鬻錾指出鹣怒,式( 2 2 ) 掰添模羹稳凑帮缝梅势不霸游酱产生静稳溪过程竞众 数,但送榉模型和真实模激在输出处怒簿敲的。 2 2 入的瞬觉系统 2 2 。 人麟断觉器宙的生理结构 入靛嘶潞系统是一个十分巧妙瓣畿频信号娥璞器。瞬觉系统辩声音僚罨的 黼2 4 姘骷蕊常的擞剖簌f 卅 嚣密交逶大学磺士学谴论文繁1 3 癸 处理能力来囱予它巧妙的擞理结构。 人的听缴系统如图2 - 4 所示。耳由内耳、中耳和外耳三部分组成。 癸霉是瞬爨器富豹麓一篷,虽然毙羧楚摹,瞧程瞬觉系统孛怒到重要终援。 外耳由耳廓、外耳道和鼓膜构成,是一个类似于声邀的管子,一端开启,另一 端由鼓膜封健,总长2 5 r a m 左右,直径约0 7 c m ( 均指成年人) 。由计算可知它 的谐振频率约3 4 0 0 h z 左右。在3 4 k h z 舱频率范围内,由于外耳邋豹共振效应, 霹使乡 珲遂入秘受雏声垂毅大鳕2 4 穰,毽就是鼓袋经静声压璜大了终3 6 d b 左右,折合成声音约为l o d b 左右的放大。鼓膜在声聪的作用下会产生位移,日 常谈话中,数膜位移约为1 0 一c m 。另外,在生理上,外耳还起到了保护鼓膜的作 翅。 中耳雹疆澎锤骨、醅餐和镫雷这三涣听小黄稳成斡湃督链戳及咽鼓管等缀 成,它具有两个主要的用谂。一是放大声压,3 块听小骨起着机械杠杆的放大作 用,可使其放大1 5 倍左右;更重要的放大作用是骨传导产生的,可增强声压 终2 2 蘧左骞。二是保护内溪兔受特强黟豢戆擐害。蠢薄浃枣要琏亵( 连接鼓貘豹 c 奎毫。叁= = = 秽 3 2 叫 嚣2 - 5 蠹霉弱构造l 卅 辅臻 謇蠢 一块和联接镊曾的一块) 穗很响的声裔 时起反射作用,使听小骨的传导减弱。 另外,锤骨与鼓膜相接触,镫骨则与内 珲戆兹庭窑稳接霆盘。孛嚣瓣终蠲是透露 声阻抗的变换,即将中耳两端的声阻抗 匹配起来。同时,在一定声强范围内, 孵小嚣对声巍进行线性传递,面在特强 声辩,褥小费迸行 # 线缝传递,这群对 内耳起着保护的作用。 内耳是颅骨腔内一个小而复杂的系 统,对畈觉怒生要贡献静怒充满液体豹 浑蠕。它是瞬觉的受纳器,把声音逶避 机械变换产生神经发放信号。耳蜗高约 2 c m ,宽约1 5 c m ,呈螺旋状盘旋2 5 2 7 5 霾,款纛惹长约3 3 。2 c m 。图2 5 为拉直后的驿蜗纵剖面以及耳蜗横断 面。可以看到,除了尖端部分以外,熬 个耳蜗由耳蜗隔膜隔开成三个区域。巾 润懿隔貘翻徽基庭簇,上郝为璃圭簇, 鞭鸯交逯大攀鞭圭学位论文雾1 4 贾 中部区域称为耳蜗导管,上下两个区域分别称为前庭阶和鼓阶,瓮们在尖端部 分相通。耳蜗导管中充满筒粘度的胶状内淋巴滚。黼相通的前庭阶和鼓阶内则 究溃蘩度为窳熬嚣繁豹漤憨滚。磷究表赘w ,基底簇瓣蠡蠢觉璃应冬潮滋戆频率鸯 关。频率较低时,靠近耳蛹尖部的基底膜产生响应;反之,则靠j 垃圆形窗的窜 而紧的基底脱产生响应。如图2 6 所永,如果信号熄一个多频率信号,则产擞 的彳亍波将沿麓基底膜在不溺酌位置产擞凝大幅度。从这个意义上游,耳蜗就像 令频谱分撩便,将复杂豹信号分瓣成备耱频率分蘩,跌瑟导致麓底膜上不阏 位置的柯蒂氐器官的纤鼍细胞对不同频率的声音引怒弯曲,刺激其附近的听徽 露2 - 6 基底骥辩频率响应分稚 柚 神经末梢,产生电化学脉冲,并沿听觉 享孛经素绩递剿大脑。大脑澍送来的脉冲 进行至今尚寒褥至l 充分研究酌一系列分 析与判断,就可以识别出并理解到该语 音的含义了。 莠菲掰鸯豹声音都黢被入耳霹到, 这取决于声鬻的强度和其频率范围。一 般人可以感馓到2 0 h z 2 0 k h z 、强度为 一5 1 3 0 d b 的声音信号。阑此,在这个 藏整数羚熬蠢频分量藏是凝不妥戆音羰 分量,在语膏信号处理中就可以忽略摔, 以节省处理成本。然而,人耳的这种感觉并不是绝对的,它将随着信号特性的 不嗣薅不同。 2 2 2 人耳的主观感j 5 性 爨觉感麴豹主要翊题照璃度、音亵秘撬菠效应等。 2 2 2 1 响魔在物理土,客观测量声音强弱的单彼蹩声压( d y n l c m 2 或声强 w c m 2 。而在心理上,主观感觉声音强弱的单位则是方( p h o n ) ( 响度级) 或采 汹n e ) ( 响度) 。它们既不阐,其间又有一定联系。 当声音瓣疆弱小嚣大嚣朗好麓舞冕瓣,稼灸繇凌,越薅夔圭残躐凄级定义麓 0 方。研究袭明,听阈值是随频率交化的。例如,l k h z 纯费,在声强为 1 0 “6 w c m 2 时,刚好能被人听到;i 酊其它频率的纯音,可能比这更大或更小 豹声强时,才能或裁能被入剐好薅见。通过实验得蹴的等晌度曲线,也即弗粟 搦一盔森荫线,蟊鋈2 一? 掰示,最下露一条趋线藏燕疆阕一频率虢线t 它表汞务 嚣瘫交逶大学矮士学毽论文骜1 5 贾 频率时的听阂声强级,也就是0 方等响度级曲线。通常,人们以l k h z 纯音的声 强级来表示晌发级。频率为l k h z 的纯膏,当声强级火到1 2 0 d b 左有时,人的群 祭藏惑鬟疼瘫,这令溪篷称秀“褒溪”。舞强2 7 联示,最土露一壤錾线裁势 痛阈一频率曲线,也就是1 2 0 方等响度级的主观感知曲线。听阈一频率益线和痛 f 勰 h 日 黼 强 度 量“ 2 n o 图2 7 等响度曲线。” i , , ,i , , , ,4 , ? , , | 虞肪 盈2 - 8 “昀廑一响度级”霸线 嗣 阈一频率曲线中间的区域就是人耳 的听觉藏嗣。 然鬻,嫡凌缀劳不是嫡窿,宅 只是心理学家用来表示“渐强”的 标度。比如,一个响腱级为6 0 方 戆声音跑4 0 方响黛,4 0 方的又 磁l o 方的响一些,键没有指出确 多少倍。响度则是数嫩的表示,熟 单位称为“宋”。即2 朱的响度可 蘧久惑剿魄l 寒熬穗发嫡了2 绩。 人们规定,1 宋响度为l k t f z 纯音在 其声强缀为4 0 d b 时的响度。实验 时,让人听两个纯音并让他调节其 孛一个声强级,捷德觉褥毙舅一令确嚣整。 再由锋晌曲线图将所昕声音的声强级换算成 响度缎,就可以= i ! 譬划如图2 8 所示的“响度一 响度缀鳆线”。我髓可以看出,听觉的晌魔 与晌浚级不是线镶成魄餐懿。魄魏,麸0 。l 宋到l o 宋,响度的感觉增大1 0 0 倍,而响艘 级则仪从2 0 方增麓6 0 方。从阁2 7 还可以 看出,对l k t t z 纯潦,声强缀扶2 0 d b 增搬爱 6 6 d b 。这4 6 d b 的增量,相警予声强增大了 4 0 0 0 0 倍,然而,响度的感觉则只增加了1 0 0 倍。这就说明,晌度感觉的变化远不如声强 载交豫那么强烈。 2 2 2 2 音离物理上用频率表示声音的音调,其单僚为h z ,而人炎主观感觉蒲 调是个心理过程,用音高爿芒表示,其单位是“美”( m e l ) 。这熙两个既不同又 商联系熬橇念。 蘸南交通犬学硕士学 焱论文第1 6 页 人的频率感觉范灏最低为2 0 h z 左右,最高可听频率约为1 8 k h z 左右,用八 凄考表瑟麴舞9 】0 令,度啻。爱簿霉黉蒙率终海最诋霹骖羰率戆9 0 0 繁。 音商盼感觉是随声强而变化的。音高测量以4 0 d b 声强为旗准,由主溉感觉 f l 。1 1 | f 鬟2 - 9 “音离一颡搴”曲线” 来定标。让听者听两个声强级为4 0 d b 的 纯音,其巾一个纯音的频率固定,调节另 一个缝音鹣频率,楚戆黪蘩螽耆豹酱舞是 前

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论