（计算机应用技术专业论文）基于emodel的voip语音质量评估的研究.pdf

上传人：扣*** IP属地：宁夏上传时间：2019-12-13 格式：PDF 页数：96 大小：2.23MB 积分：0 举报 版权申诉

（计算机应用技术专业论文）基于emodel的voip语音质量评估的研究.pdf_第2页

（计算机应用技术专业论文）基于emodel的voip语音质量评估的研究.pdf_第3页

（计算机应用技术专业论文）基于emodel的voip语音质量评估的研究.pdf_第4页

（计算机应用技术专业论文）基于emodel的voip语音质量评估的研究.pdf_第5页

已阅读5页，还剩91页未读，继续免费阅读

（计算机应用技术专业论文）基于emodel的voip语音质量评估的研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要网络技术的日益成熟及v o i p ( v o i c eo v e ri n t e r n e tp r o t o c 0 1 ) 自身的价格优势，使得v o i p 已经作为一个重要的应用并期待承担越来越多的语音通信任务。然而由于目前网络自身的原因它只能提供尽力而为的服务。语音质量主要受到丢包，延时及延时抖动的影响。为此，有必要对v o i p 语音质量进行评估，而传统语音质量评估方法，没有考虑到v o i p 分组交换语音的特性，不能满足v o i p 的测量要求，因此我们对一种新的语音评估方法一g m o d e l 进行了研究。论文首先介绍v o i p 的基本原理，现有语音评价方法，v o i p 语音的压缩方法。分析了影响v o i p 语音质量的诸多因子如：回声、丢包、编解码器和延时等。在对当前最新的v o i p 语音质量评估方法e - m o d e l 算法进行了研究的基础上，从理论上分析了该算法在评估抖动对语音质量的影响方面尚存在的不足之处，因而文章重点研究了抖动及为消除抖动而采用的播放缓冲机制对v o l p 语音质量的影响，引入了抖动因子i j 对算法进行了改进，客观有效地量化了抖动对语音质量的影响。为了研究该算法的准确程度，对原算法与改进后的算法分别进行了仿真，仿真结果表明，改进后的算法提高了与主观评估的相关度，并且算法有很强适应性与实用性，完全可以作为v o i p 语音质量评估的重要参考工具。最后，使用c + + 实现了该算法，并在此基础上针对w i n d o w s2 0 0 0 操作系统开发了一个集成了该算法的v o i p 客观评估平台。平台开发中使用o o p ( 面向对象程序设计) 技术进行开发，为平台未来的功能扩展打下了良好基础。关键词：v o i r 客观评估，延迟，抖动，丢包 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fn e t w o r ka n dt h ea d v a n t a g ei nc o s t ， v o i ph a sb e i n gai m p o r t a n ta p p l i c a t i o ni nt h ec o m m u n i c a t i o n i tc a nb e f o r e s e e nt h a tt h e i n t e l l i g e n t i p p h o n es y s t e m w i l lb et h ec o r e c o m m u n i c a t i o np l a t f o r mi nt h ef u t u r e h o w e v e r , p r e s e n tn e t w o r kc a n o n l yo f f e rt h e “b e s t e f f o r t ”s e r v i c e ，t h es p e e c hq u a l i t yw a sd r o p p e db y t h ep a c k e tl o s s ，d e l a y , ji t t e ra n ds p e e c hc o d e c i ti sn e c e s s a r yt oe v a l u a t e t h e s p e e c hq u a l i t yo fv o i ey e tt h et r a d i t i o n a lm e a s u r e m e n t sa r en o t s u i t a b l ef o rt h es p e e c hq u a l i t ym e a s u r e m e n to fv o i p , s ow es t u d yo na n e ws p e e c hq u a l i t ym e a s u r e m e n tm e t h o d - - e - m o d e lw h i c hc a l lb e a d a p t e dt om o d e m v o i pn e t w o r k f i r s t l yt h i sd i s s e r t a t i o nf u l l yi n t r o d u c et h eb a s i ct h e o r yo fv o i pa n d t h et r a d i t i o n a l s p e e c hq u a l i t ya s s e s s m e n tm e t h o d ，t h es p e e c hc o d e c m e t h o d s ，a n a l y z e da l lf a c t o r st h a tw i l li n f l u e n c et h ev o i ps p e e c hq u a l i t y , s u c ha se c h o ，p a c k e tl o s s ，s p e e c hc o d e ca n dd e l a y s t u d yt h ea l g o r i t h m t h e o r yo fe m o d e l ，a n a l y s et h ed r a w b a c ko f t h i sa l g o r i t h m h o wj i t t e r a n db u f f e rs i z ei n f l u e n c et h e s p e e c hq u a l i t y h a sb e e n a n a l y z e d e m p h a t i c a l l y t oq u a n t i f yt h ei n f l u e n c ec a u s e db yj i t t e r , t h ee m o d e l a l g o r i t h e m h a sb e e n i m p r o v e db y i n t r o d u c ej i t t e r f a c t o 卜_ i j t h e s i m u l a t i o nr e s u l t sd e m o n s t r a t e dt h a tt h en e w a l g o r i t h m i s v e r y m e a n i n g f u la n dc a nb ea p p l i e dt ot h ee v a l u a t i o no f v o l ps p e e c hq u a l i t y f i n a l l y , ac + + i m p l e m e n t a t i o no f t h i sa l g o r i t h mw a si n t e g r a t e di n t oa o b j e c t i v e e v a l u a t i o n p l a t f o r m o fv o i p s p e e c hq u a l i t y o o p ( o b j e c t o r i e n t e dp r o g r a m m i n g ) w a su s e di nt h ed e v e l o p m e n to f t h i sp l a t f o r m k e yw o r d s ：v o l ro b j e c t i v ee v a l u a t i o n ，d e l a y , j i t t e r , p a c k e tl o s s 1 1 原创性声明本人声明，所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了论文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得中南大学或其他单位的学位或证书而使用过的材料。与我共同工作的同志对本研究所作的贡献均已在在论文中作了明确的说明。作者签名：日期：迎6 年垒月盈日关于学位论文使用授权说明本人了解中南大学有关保留、使用学位论文的规定，即：学校有权保留学位论文，允许学位论文被查阅和借阅：学校可以公布学位论文的全部或部分内容，可以采用复印、缩印或其它手段保存学位论文；学校可根据国家或湖南省有关部门规定送交学位论文。储虢娶哟翩签名挑魄址年卫日中南大学硕士学位论文第一章绪论 1 1 引言第一章绪论网络技术的飞速发展已经对人类的生产活动产生了重大变革，在日常生活中各种数据与语音资料的应用，包括文字，图像，声音，通过网络进行传送，给人们的生活和工作带来极大的便利。近年来i p 电话更是作为一项新兴电信业务，已在国内外迅速展开，并日益成为人们关注的焦点。与普通电话网比较，v o l p 网络采用语音压缩编码，用数据包的形式在分组交换网上传递，因此传输线路的时空利用率得到大幅度的提高，这就是i p 电话较普通电话话费便宜的主要原因。与此同时，v o l p 遇到的通话性能( 特别是语音质量) 问题也是传统电话不曾涉及的。能否对i p 电话语言质量进行准确的分析测量，并依据测量结果，对v o l p 网络中各器件进行调整，使其达到最佳的语音质量，不仅是网络测量与网络规划设计中相当关键的问题，更是决定v o l p 生存发展的必要条件。本论文的研究重点在于针对v o l p 语音的通信中产生的丢包、延时、抖动等固有特点，采用e m o d e l 语音质量评估算法，量化各种因素对语音质量的影响，从而实现对v o l p 语音质量进行客观有效的评估。目前利用i p 电话的用户都会遇到通话过程中随时出现令人难以忍受的语音畸变和频繁的断话现象。而产生语音质量恶化的原因主要在网络延时、丢包、抖动。非常明显，在v o l p 网络中影响语音质量的因素是由其结构决定的特殊问题，而且各因素之间存在着此消彼长的制约关系。因此，根据电信网络服务质量( q o s ) 的要求，建立一套客观评估标准，并对v o l p 网络的语音服务质量进行定量分析和测量，就成为当务之急。 1 2v o l p 的基本概念及特点所谓v o i p ( v o i c eo v e ri n t e m e tp r o t o c 0 1 ) ，就是通常所说的i p 电话，它是在i p 网上通过t c p i p 协议实时传送语音信息的应用。它是建立在在i p 技术上的分组化、数字化传输技术，其基本原理是：通过语音压缩算法对语音数据进行压缩编码处理，然后把这些语音数据按i p 等相关协议进行打包，经过i p 网络把数据包传输到接收地，再把这些语音数据包串起来，经过解码解压处理后，恢复成原来的语音信号，从而达到由i p 网络传送语音的目的。i p 电话系统把普通中南大学硕士学位论文第一章绪论电话的模拟信号转换成计算机可联入因特网传送的i p 数据包，同时也将收到的 i p 数据包转换成声音的模拟电信号1 1 j 。目前，v o l p 主要有四种形式，即：p c p c ，p c p h o n e ，p h o n e p c ， p h o n e p h o n e 2 1 。与传统电话相比，i p 电话的主要有如下几个优点： 1 节省带宽，传统电路交换电话消耗的带宽为6 4 k b p s 。而i p 电话是在多个逻辑连接中动态的共享带宽，一般每个连接只需6 1 6 k b p s 。 2 通话费用低，尤其是节省长途费用。 3 易于开发增值业务，i p 电话网利用计算机的强大功能和i n t e m e t 网的丰富资源，可以灵活地控制信令、连接和数据传输，有利于各种增值业务的开发，如语音邮件、语音信息广播等。 4 体系结构开放，有利于多种通信方式的统一。 i p 电话是语音数据集成与语音分组技术进展结合的经济优势，从而迎来一个新的网络环境，这个新环境提供了低成本、高灵活性、高生产率及效率的增强应用等优点【3 】【4 】。 v o | p 上述无可比拟的优越性，正是v o l p 能赢得巨大市场的原因。然而，由于v o l p 利用现有网络，采用语音压缩与分组传输方式，使得v o l p 也有其特有的缺点：网络传输造成的丢包，延迟和抖动；抖动缓冲所造成的端到端延迟；声音接口造成的声学回声；模拟接回在混合电路所造成的电气回声。为此，我们有必要对v o l p 语音质量进行评估。 1 3 语音评估方案语音质量评估从评估主体上讲可分为两大类：主观评估和客观评估。一般说来，主观评估是基于一个或一组评测人员在原始语音和失真语音进行对比听评的基础上，根据某种尺度来划分质量等级。客观评估是根据数值距离或者描述听觉系统如何来感知质量的模型来量化语音质量的评估方法。 1 主观评估主观评估是以人作为评估主体来评估语音的质量。这种方法虽较为繁琐，但由于人是语音的最终感受者，因此主观评估是语音质量的最真实反映。主观评估的结果是否公正、客观，关键在于是否有一个科学的评估方案。内容包括明确的主观评估的目标、调查表的准备和调查人群的确定。调查表中的项目要从心理声学的角度，依据语音评估规定来确定。另外，应选择听力正常的调查人群，人群以专业人员为主，非专业人员为辅。而且，调查应该挑选具有代表性的人群，人群的年龄结构、知识结构、性别比例、心理状态、地域状况、工作行业等等，都是需要精心考虑的。只有选择的调查人群数量足够大，中南大学硕士学位论文第一章绪论人群的代表性明显，才+ 能保证主观评定结果的客观、公正、可靠。显然，主观评估的优点是符合人对语音质量的真实感觉，缺点是耗费大量的时间，人力资源，以及金钱，且灵活性不够，重复性和稳定性较差，受人的个体的主观因素( 包括身体状况、情绪等) 影响较大等【3 】。到目前为止，主观评估已经建立起了许多套完整的、可靠的评估方案。目前，国内外使用较多而且比较完善的主观评估方案可以分为：可懂度 ( i n t e l l i g i b i l i t y ) 评估、音质( q u a l i t y ) 评估、其它评估方案三大类。可懂度评估反映了评听人对输出语音内容的识别程度。而音质则直接反映评昕人对输出语音质量好坏的综合意见，包括自然度和可辨识说话人能力等方面。在各种主观评估方案中，平均意见得分( 即m e a n o p i n i o ns c o r e ，以下简写为m o s ) 评分法是一种广为使用的评估方法。是由i t u te 8 0 0 所提出的一种对语音品质好坏的主观评定方法，根据i t u t 建议的要求。特定的发话者与听话者都在特定的环境下，透过收集测试者在各种不同情景下的主观感受，再根据建议的分析法则得出该语音的品质。i t u t 对测试的要求非常严格，所有的操作都严格地服从操作流程，对录音系统，语音系统，语音输入级别，昕者级别不同发话者( 8 男，8 女，8 儿童) ，多发话者( 多人同时讲话) 、差错处理、不同语音编码模式的兼容性，过失，环境噪声，音乐等，都作出了详细严格的规定。测试者的主观感受结果也被分为很多不同的范畴，如听者感受的网络品质结果、品质降级结果，比较结果等。一般而言依m o s 方法所评量出来的语音品质判别标准如下所示： 5 = 最佳 4 = 好( 4 5 4 o = 可收费电信级) 3 = 中级( 4 0 3 5 = 可通话通信级) 2 = 较差( 3 5 2 5 = 可建立连接级) 1 = 筹传统上，电话q o s ( q u a l i t yo fs e r v i c e ) 通过使用i t u p 8 0 0 建议规定的平均评价记分( m o s ) 给予评定。这涉及到使用有训练的个人听语音录制信文，然后根据1 - 5 级语音质量打分。m o s 试验方法主要因为依赖听者主观识别而有所欠缺，其测试结果很难对不同v o i p 设备之间的性能进行比较。此方法的基本特性决定了它确实是非常耗时的操作，它仅产生测量结果的取样，一般很难重复。 2 客观评估语音质量客观评估从评估结构上可分为：基于输入输出的评估、基于输出的评估，基于输入输出的评估是以语音系统的输入信号和输出信号之间的误差大小来判别语音质量的好坏，是一种误差度量：基于输出的评估是仅根据语音中南大学硕士学位论文第一章绪论系统的输出信号来进行质量评估1 5 j 。最早的客观评估方法可以追溯到四十年代末，由n r f r e n c h 和j c s t e i n b e r g 于1 9 4 7 年提出的清晰度指数a i 方法。七十年代以后，客观评估方法得到了蓬勃的发展。之后，t p b a r n w e l li i i 和s r q u a c k e n b u s h 对八十年代中期以前的语音质量客观评估研究工作作了系统总结，于1 9 8 8 年出版了一本关于语音质量客观评估的专著。s r q u a c k e n b u s h 和t e b a r n w e l li i i 首先建立了语义、语法和音素平衡的未失真语音库。他们的工作为以后语音质量客观评估方法的研究奠定了基础。此后，在八十年代及九十年代后，语音质量客观评估方法研究取得了飞跃的发展，特别是在近几年取得的成果最大，与主观评估的相关度达到了0 9 5 左右，同时，基于输出的客观评估方法也得到了一定发展。但基于输入输出的评估方法主要被用于对语音编解码器的客观评估。在九十年代中期基于输出的客观评估方法研究已开始有所进展，如 r k u b i c h e k ，j l i a n g ，c j i n 等学者提出了基于感官线性预测( 即p e r c e p t u a ll i n e a r p r e d i c t i v e ，简写为p l p ) 模型的客观评估方法与主观评估值的相关度分别达到 o 8 2 左右。在这个领域，我国学者陈国等提出了一种基于多标度分形理论的评估方法，相关度达到0 7 5 左右。在各种客观评分方案中，感知语音质量评估方法( p e r c e p t u a le v a l u a t i o no f s p e e c hq u a l i t y , 下简称p e s q ) 。v o l p 语音质量评估中与主观评估相关度较高，达到了o 9 3 5 1 6 1 。 p e s q ( i t u t 建议p 8 6 2 ) 是评价各类端对端网络条件和语音编码与解码的标准。p e s q 把输入信号与样本信号进行比较计算出差异值，再将此差异值按照听觉感知模型映射得到评分值。p e s q 可以根据一些感知标准来客观地评价语音信号的质量，从而提供可以完全量化的语音质量衡量方法，而这些衡量标准又是与人类对语音质量的感受完全吻合的。p e s q 针对现代通信系统中出现的可变延迟和系统引入的线性滤波这两方面做了改进，对差值曲面的解释中不但考虑误差的总量还考虑误差的分布，增强了对于端到端的通信系统质量的可靠评价【7 】【引。比其前身p s q m ( p e r c e p t u a ls p e e c hq u a l i t ym e a s u r e m e n t ，i t u t e 8 6 1 ，也包括在此次许可协议内) 有了长足的进展。图1 1 为p e s q 的结构。开始时两个信号都通过电平调整，再用输入滤波器模拟标准电话听筒进行滤波( f f t ) 。这两个信号要在时间上对准，并通过听觉变换。这个变换包括对系统中线性滤波和增益变化的补偿和均衡。提取出两个失真参数，在频率和时间上总和起来，映射到对主观平均意见分的预测。被测语音质量越接近参考语音，则分数越接近4 5 ，否则分数越低。p e s q i 扫于用软件实现，具有易于操作和评分可重复进行的优势。虽然p e s q 评分不能完中南大学硕士学位论文第一章绪论全替代m o s 评分，但是，大量的实验已经证明，p e s q - 与m o s 的评分相关度达 n t 0 9 3 5 。并且，二者成近似线性关系，可比性非常强。通常认为，4 0 的m o s 分与3 7 3 9 的p e s q 分数的语音质量相当。等匕! ：h 竺! 囱划虾邛失真信号ill 时间调整知校准听觉变换寸鬯 t 惰听觉变换重新调整失真问隔图1 - 1p e s q 模型的结构图感知语音但是，p e s q 不能准确给出影响v o l p 网络语音质量的各因素的量值，因为波形文件不能代表各种不同年龄、性别、语言的人类语音通过v o l p 网络时的真实情况，而单音频信号在通过语音编码器后本身就会产生畸变。同时，在具体测试中必须在波形文件信号返回后，才可进行比较，这样就根本无法测量网络端到端的单向延时。无论电路交换还是分组交换网络，其传输特性都与业务量密切相关的。在一定话务负载下的语言质量数据才有实际意义。因此，亦不能做为评价网络q o s 的指标数据。因而，我们有必要研究一种适合于v o l p 通信的语音质量评估方案。 1 4 课题的研究内容目前电信网络的发展正处在传统网络与i p 网络相融合的阶段，而i p 网络的宽带及i p 电话的低成本特性己越来越被众多的业内人士所重视，基于i p 网络传递数据和话音的业务也e t 渐普及并将得到飞速发展。然而由于目前网络只能供尽力而为服务( b e s t e f f o r ts e r v i c e ) ，由于语音编解码，网络延时，抖动，丢包，回音等因素导致目前网络语音( w o l p ) 质量还不尽如人意，为此有必要研究一种客观有效方法对i p 语音进行评估，并借此推动i p 语音技术与网络技术的发展。在本研究中，我们首先需要分析v o i p 的优缺点及其与传统语音的异同点，详细地研究与探讨影响v o l p 语音质量的各种因素。对当前最优秀的v o l p 语音质量评估方案e m o d e l 算法进行仔细的研究与分析，具体量化诸如丢包，延时，中南大学硕士学位论文第一章绪论抖动等各种因素对v o l p 语音质量的影响，分析该算法可能存在的不足之处，并期待对该算法进行拓展，以提高评估的准确性。对算法的可行性与有效性进行验证，最终构建一准确、有效、易操作的v o l p 质量评估平台。通过对v o l p 语音质量客观评估的研究，可以发现网络传输中存在的诸如网络是否拥塞，分组丢失恢复机制是否合理，压缩算法效率是否低下，抖动缓冲区设置是否适当，大业务量下的话音质量劣化以及静音压缩功能不足等问题。从而推动语音质量评估技术、网络q o s ( q u a l i t yo f s e r v i c e ) 技术、语音识别、极低速率语音编码、说话人情绪分析等相关学科和领域的发展。v o l p 语音质量客观评估研究无论是理论上还是在应用前景上都具有非常重要的意义。 6 中南大学硕士学位论文第二章影响v o l p 语音质量的因素第二章影响v o i p 语音质量的因素语音质量包括两方面内容：清晰度和自然度。前者是衡量语音中字、单词和句的清晰程度，而后者则是对讲话人的辨识水平。语音质量评估涉及到人脑如何感知语音，因此不但与语音学、语言学、信号处理等学科有关，而且还与心理学、心理声学、心理语言学、生理语言学、发音语言学等学科有着密切的联系，所以说语音质量评估是一个极其复杂的问题。清晰度诊断押韵测试法( d r t ) 是由v o i e r s ( 1 9 7 7 ) 发明的，是为了测试编码器的清晰度，韵律测试试听者判断一对押韵词的音节。例如，试听者要分辨出一对词比如m e a t b e a t ，p o o l t o o l ，s a w t h a w , c a u g h t t a u g h t 等中的一个词，然后就要确定是读的哪一个词。最后d r t 得分是按下式计算得到的百分数：p = 1 0 0 ( r w ) 亿其中r 是正确选择的数量，w 是选择错误的数目，t 是总共测试的单词对的数目，通常，7 5 d r t 9 5 ，良好的清晰度得分为9 0 ( p a p a m i c h a l i s1 9 8 7 ) 。清晰度同语音可理解性关系密切，后者是指可以从对话中提取多少信息的主观度量。语音清晰度依赖于很多因素，现在只了解其中的一部分。例如，音频谱中的一定频带比其他因素对声音清晰度更重要。 i p 电话网络和p s t n 网络交互时，呼叫的端到端路径的网络组件对语音清晰度都有影响。我们将利用图2 1 中简单的、高层次的包拓扑来讨论影响语音清晰度的一些因素。图2 - 1 语音质量度量的p o t s 到v o i p 的参考链接语音 t d m 干线中南大学硕士学位论文第二章影响v o l p 语音质量的因素呼叫两端的基本电话设备，如扬声器、麦克风以及讲话者和麦克风产生的不可弥补的回声，都会影响语音的清晰度。这是和传输语音的网络类型无关的参数，不过网络损耗会降低语音质量，因此所有因素都应该考虑在内。这一点在无线通信中非常重要。 p s t n 在交换机之间利用数字语音传输。数字化会略微增加信噪比，对声音清晰度有轻微的影响，但是不足以引起明显的、可察觉的语音质量的降低。 v o l p 网关连接到p s t n 上，并将t d m 干线中的数字语音样本转换为相同或不同编码的包形式。如果发生从p c m ( g 7 11 ) 到压缩语音的转换编码，那么这将可能使清晰度受损。影响清晰度的网关组件有网关语音编码解码器、可能的静音抑制机制、安慰噪音发生器、呼叫需要的转换编码类型。另外，如果不能保障q o s ，那么i p 网络也会影响传输的语音质量。它会导致过分抖动和包丢失。p s t n 可能效率不高，但是它很少丢失字节或数字化的语音样本。参考拓扑中的一般v o i p 介质网关也会通过语音编码解码器、可能的静音抑制和语音活动检测机制影响清晰度。而编解码，丢包，延时，抖动则会对语音的自然度造成影响，但自然度主要用于合成语音的质量判断，在此不作详述。传统的电话网络使用t d m ( t i m ed i v i s i o n m u l t i p l e x ) 设备传输语音电话，它可以为对时间敏感的语音应用提供最优服务，它要求低延迟、低抖动和稳定的低带宽。另一方面，i p 网络支持非实时数据应用，如文件传输或电子邮件。这些应用的特点是突发通信量，根据高带宽的需要偶尔出现峰值，但对延迟并不敏感。i p 网络的服务质量( q o s ) 一直是研究的重点，但是通常的目标集中在使由于损耗和通信量管理问题引起的包丢失最小化。q o s l h 题虽然难以处理，但是可以通过专用的完全基于i p 的网络来加以控制，尤其是在企业中。但是，在过去的几年中，i n t e m e t 已经成为网络上综合服务技术，特别是语音传输的实验环境，它并不能保证服务质量。人们在研究和开发过程中积累了很多经验，从中获得的技术改进有助于电话服务供应商建立基于i p 的语音电话网络，传输长途服务。将电话和数据网络融入一个基于包的网络，使之能够携带集成服务，这种愿望要求新的公用网使用的机制能够为所有的应用保证合理的、可预测的q o s 。考虑到p s t n 的用户已经习惯于高服务和长话质量语音质量标准，这一点显得尤为重要。提供和p s t n 具有可比性的质量和服务，会促使v o i p j 务的初步接受和成功。 v o l p 是建立在i p 技术上的分组化、数字化传输技术，其传输图如图2 2 所不：中南大学硕士学位论文第二章影响v o l p 语音质量的因素声波模拟电气信号二进制位流分组流 i p 数据报接收器 0 1 0 0 1 0 0 0 1 1 1 0 0 1 叭j1 0 1 0 0 1 f 1 0 0 0 t 1 1 1 1 0 l l o l 0 1 分组器 j 1 叫i p 封装发送、f 0 1 0 0 1 0 0 0 1 1 1 0 0 10 l 圆圆圆圆j j y i p 数据网络匝圃匾捌模拟电气信号二进制位流分组流 i p 数据报图2 2v o i p 传送过程简图表2 1 列出了一些影响用户使用电话服务的总体感受的关键因素一l 。表2 - 1 影响感觉质量的因素声音质量 p s t n 和v o i p 网络的相同点响度延迟回声清楚度可理解性噪声衰减串线 i p 网络的额外参数延迟抖动清晰皮包丢失带宽压缩 9 中南大学硕士学位论文第二章影响v o l p 语音质鲢的因素 2 1 丢包 p s t n 不会面对丢包这种问题。因为在p s t n 中，字节在干线之间交换，而带宽在呼叫期间被保留并维持不变。但是由于目前的网络只能提供“尽力而为”( b e s te f f o r t ) 服务，因此，在i p 数据网络中经常会发生包丢失。当载有声音的包流的路径拥塞时，路由器开始抛弃包。无论采用何种算法决定影响哪一个呼叫，包丢失并不一定意味着包永远不会到达目的地。对于语音电话，到达目的地太迟以致无用的包和包丢失一样，都会被接受者抛弃。包延迟到达对呼叫的净效果就是包丢失。但是，保留在端点的统计数据可以特别地分类和标识迟到的包。造成i p 网络丢包现象严重的因素主要是网络传输中的丢包和拥塞时网络设备主动丢包i l 。对于数据，端站点简单地重新发送丢失的数据并降低它们的通信速率；而对于语音，没有时间进行重新发送，所以语音软件必须适应。包丢失会严重降低i p 电话的话音质量，每一个i p 包一般包含3 0 8 0 m s 的话音信息，与语音的基本单位音素的持续时问大致匹配。在包被丢失的情况下，c o d e c 通过参考前面的分组可以推测丢失的信号是什么，这个技术帮助掩盖单个分组的丢失，但不能用于多个丢失包。在多个连续丢失包的情况下，c o d e c 简单插入安静时问段。这些技术的使用是进行统计的，可以用来帮助量化网络对语音质量的影响。但一般来况当丢失率超过5 时就会对通话的质量产生很大的影响。当语音经过使用丢包作为阻塞管理的一个手段的数据网络时，这是很麻烦的。除了由于中间网络部件引起的包丢失，语音网络中由于超出抖动缓冲区的可忍耐的到达延时也引起包丢失。i p 网络需要通信量管理机制。为了保证信令和介质传输的完整性，必须采用流量控制和话务优先算法。无论采用何种方法，系统总是存在个更深刻的问题。语音和其他应用的服务质量是定义在端到端的基础之上，因此要求在整个网络路径中提供足够的网络资源。数据包丢失会对音质产生大小不一的影响，这要看数据包是如何丢失的。有时候，既便丢失多达1 0 的语音数据包照样能获得可以接受的音质。然而有的时候，哪怕丢失1 的数据包也会导致音质极差。显然，出现这种不一致是因为数据包丢失有的呈随机性，有的呈突发性【1 1 1 。有时，一个v o l p 系统会在几秒钟时间内丢失2 0 至3 0 的数据包，这种情况就会导致非常明显的音质问题。同时还有点值得注意，语音包的大小对于语音质量有着很大的影响，虽然采用大包时丌销低，网络负荷也小；但是如果大包丢失时语音的断续则更明显，同时大包要求的缓冲空间也大，进一步增加了延迟。由于这个原因，所以在实际中语 o 中南大学硕士学位论文第二章影响v o l p 语音质量的因素音包一般不能太大，例如在6 4 k b i v s 的w a n ( w i d ea r e an e t w o r k ) 链路中，语音包的大小一般不超过2 5 6 b y t e s 。 2 2 语音编码解码器语音编码器的主要功能就是把用户语音的p c m ( 脉冲编码调制) 样值编码成少量的比特( 帧) 。这种方法使得语音在连路产生误码、网络抖动和突发传输时具有健壮性( r o b u s t n e s s ) 。在接收端，语音帧先被译码为p c m 语音样值，然后再转换成语音波形。 1 g 7 1 1 语音压缩技术 g 7 1 1 ( 6 4 k b i f f s ，脉冲编码调制p c m ) ，这是最基本的语音编码，在世界各地广泛使用，p c m 是将输入声波，以每秒8 kh z 的采样频率，对每一取样值使用 8 b i t s 做非均匀量化来编码，研究表明，人耳对同样的声音变化，在不同的环境下，会有不同的感受，在安静的环境下，人耳能感受到细微的变化，而在吵杂的环境下，只能感受到较大的变化，因此在对声波取样时，在振幅小的地方应该使用较小的量化值( q u a n t i z a t i o ns i z e ) ，而在振幅较大的地方，则使用较大的量化值i l “，若以横轴为声波值，纵轴为取样之值，则两者的关系类似一对数曲线，故有时也称为l o g p c m 编码。一般又细分为a 1 a w , 和1 1 a w , 目前在美国和日本使用的都是1 a w ，欧洲与中国使用a l a w 。 2 g 7 2 3 语音压缩技术 g 7 2 3 1 是i t u 所制定的语音编码标准，g 7 2 3 1 语音编码器有两种码率，分别为5 3 k b s 和6 3 k b s 。较高码率具有极好的音质，而低码率的也有良好的音质提供系统设计者有额外选择弹性 13 1 。由于g 7 2 3 1 良好的音质使它广泛应用在影像电话及网络电话上。 g 7 2 3 1 是为低比特率可视电话而设计的。在这种应用中，由于视频编码时延通常大于语音编码时延，因此对时延的要求不是很严格。g 7 2 3 1 编码器的帧长为3 0 m s ，还有7 5 m s 的前视。再加上编码器的处理时延，编码器的单向总时延为6 7 5 m s 。其他时延是由系统缓冲区和网络造成的。 g 7 2 3 1 编码器首先对语音信号进行传统电话带宽的滤波( 基于g 7 1 2 ) ，再对语音信号用传统的80 0 0 h z 频率进行采样( 基于g 7 1 1 ) ，并变换成位的线性p c m 码作为该编码器的输入。在解码器中对输出进行逆操作来重构语音信号。 g 7 2 3 1 系统用l p a s 编码方法将语音信号编码成帧。编码器能够产生两种速率的语音流量： ( a ) 用于高速率的6 3k b p s ；( b ) 用于低速率的5 3k b p s 。高速率编码器使用中南大学硕士学位论文第二章影响v o l p 语音质量的因素多脉冲最大自然量化( m p - m l q ) ，低速率编码器使用代数码激励线性预测 ( a c e l p ，a l g e b r a i c c o d e e x c i t e dl i n e a r p r e d i c t i o n ) 方法。编码器和解码器都必须支持此两种速率，并能够在帧间对两种速率进行转换。此系统同样能够对音乐和其他音频信号进行压缩和解压缩，但它对语音信号来说是最优的。编码器对帧进行操作，每帧包括2 4 0 个样点，采样频率为8 kh z 。在进一步的处理( 高通滤波器去直流分量) 后将把每帧分成4 个子帧，每个子帧包括6 0 个样点。其他的各种操作包括l p c 滤波器以及l s p 滤波器非量化系数的计算等，将会导致3 0m s 的分组时延。对于每个子帧，用未经处理的输入信号计算l p c 滤波器。最后一个子帧的滤波器系数用预测分裂矢量量化器( p s v q ，p r e d i c t i v es p l i t v e c t o rq u a n t i z e r ) 进行量化 l 。正如前面所介绍的，前视占有7 5 m s ，所以整个编码时延为3 7 5 m s 。这个时延在评价编码器，尤其是通过数据网络传输语音时是个很重要的因素，因为如果编码及解码时延比较小的话，就意味着在处理互连网中的时延及其抖动时具有更大的自由度。解码器的处理也是基于帧的。解码过程如下( g 7 2 3 1 算法摘要) ： 1 ) 对l p c 的量化索引号进行解码。 2 ) 构造l c 合成滤波器。 3 ) 对每个子帧，先对自适应码本激励和固定码本激励解码，然后再输入合成滤波器。 4 ) 激励信号经基音后置滤波器处理后，再送入合成滤波器。 5 ) 合成信号被输入到共振峰后置滤波器，该滤波器采用增益标度单元以使其输出能量维持在它的输入水平。静音压缩已经运用多年，它利用了在总会话时间中静音时间占了大约5 0 这一事实i l ”。其基本思路是在静音期间减少传送的比特数，从而节省了所需传输的总比特数。在电话网中，多年来对模拟语音信号都是用时间分配语音插值 ( t a s i ，t i m e a s s i g n e ds p e e c hi n t e r p o l a t i o n ) 方法进行处理。这一技术也就是将其他语音信号或者数据信号放置在谈话的静音期间内，从而为多信道链路提供附加容量。现今，t a s i 已被运用于数字信号中并被赋予新名称一其中的一个例子就是时分多址( t d m a ，t i m ed i v i s i o nm u l t i p l ea c c e s s ) 。简要地讲，t d m a 是将通常的信号划分成很小的、数字化的片段( s l o t s 目p 时隙) 。这些时隙和其他时隙一起在一个信道中进行时分复用。 g 7 2 3 1 采用了执行不连续传输的静音压缩，这就意味着在静音期间的比特流中加入了人为的噪声。除了预留带宽之外，这种技术使发信机的调制解调器保持连续工作，并且避免了载波信号的时通时断。 3 g 7 2 9 语音压缩技术中南大学硕士学位论文第二章影响v o l p 语音质量的因素 g 7 2 9 是i t u t 在1 9 9 6 年订制的8 k b s 语音压缩标准，其所接受的输入语音信号为8 k h z 取样，并以1 6 b i t s 量化而成的数位语音信号，它采用音框导向 ( f r a m e - o r i e n t e d ) 处理模式，将输入的语音讯号，切成一连串固定长度为1 0 m s 的语音帧( f r a m e ) ，并等分为二个子帧( s u b f r a m e ) ，再加以分析每个帧内的语音信号予以压缩编码。 g 7 2 9 的编码架构为共轭结构代数码激励线性预测( c o n j u g a t e s t r u c t u r e a l g e b r a i c - c o d e e x c i t e dl i n e a r - p r e d i c t i o n ，简称c s a c e l p ) ，其编码速率为8 k b s 。 c s - a c e l p 的思想是由共轭结构码激励线性预测( c s a c e l p ) 和代数码书激励线性预测( a c e l p ) 的思想整合而来。其中，“共轭”( c o n j u g a t es t r u c t u r e ，c s ) 的含义是指编码器对增益的矢量量化过程中采用了共轭结构；所谓“代数” ( a l g e b r a i c ，a ) 码书是指其固定码书采用了代数结构，其特点是码书矢量为4 0 维，其中只有4 个非零脉冲，它们的幅度为+ l 或一1 ，位置也在限定的范围内。这种码书的特点在于无须任何存储空间，只要解码端获得非零脉冲的幅度和位置信息，就可直接得到对应的输出矢量 ”i 。在此协议中，首先要对输入的模拟信号进行话带滤波，然后以8 0 0 0 h z 的频率进行采样，接着将采样值转换为16 b i t 的线性p c m 信号输入到编码器进行编码；从编码器输出的比特流经传输后进入译码器，译码后的输出则应通过类似的方式还原成模拟信号。 g 7 2 9 有两个版本：g 7 2 9 f t l g 7 2 9 a 。g 7 2 9 比g 7 2 3 1 复杂，而g 7 2 9 a 比 g 7 2 3 1 简单。这两个版本互相兼容但它们的性能有些不同，复杂性低的版本 ( g 7 2 9 a ) 性能较差。两种编码器都提供了对帧丢失和分组丢失的隐藏处理机制，因此在因特网上传送语音时，这两种编码器都是很好的选择。c o x 等人 c o x 9 8 】认为g 7 2 9 在处理随机比特错误方面的性能不好。建议在有随机比特错误的信道上不使用此编码器，除非利用信道编码( 前向纠错码和卷积码) 保护最敏感的比特。 g 7 2 9 编码器是为低时延应用设计的，它的帧长只有1 0m s ，处理时延也是 1 0m s ，再加上5m s 的前视，这就使得g 7 2 9 产生的点到点的时延为2 5m s ，比特率为8k b p s 。这些时延性能在互连网中很重要，因为我们知道任何能减少时延的因素都是非常重要的。利用g 7 2 9 语音压缩标准处理过的语音包会有三种不同的封包形态，分别是有意义包( a c t i v ep a c k e t ) 、不传送包( u n t r a n s m i t t e dp a c k e t ) 及静音包( s i d ) ，这些语音包所代表的意义是人的说话声音，不能任意丢弃，所以有意义包其重要性将远大于不传送包及静音包。 4 语音压缩技术的比较中南大学硕士学位论文第二章影响v o l p 语音质撞的因素表2 2 所示分别给出了目前常用语音压缩编码性能指标。表2 - 2 压缩技术的比较从表2 2 中可以看出，编码方案之间的权衡是很明显的。p c m 使用最多带宽，所以得到最好的m o s 等级，使用最少的处理功能，且引入最少的延时。这使p c m 部署起来成本低，而且在长距离传输语音时

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）基于emodel的voip语音质量评估的研究.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）基于emodel的voip语音质量评估的研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档