（应用数学专业论文）视频会议中语音混合的排队论研究.pdf

上传人：扣*** IP属地：宁夏上传时间：2019-12-12 格式：PDF 页数：45 大小：1.17MB 积分：12 举报 版权申诉

已阅读5页，还剩40页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

华中科技大学项士学位论文摘要 ( 在视频会议中，绝大多数时间都是一个人在发言，其他人在听，此时对于参加视频会议的其他用户来说，只需要传输发言人的语音和图像即可。在这种情况下，虽然不需要语音合成，但是为了保证语音传输的连续性，仍然设定一个决定开始启动的阀值。此阀值保证在数据包开始积累一定数量后，服务器开始传输数据包，这样使接收端用户能够得到持续连贯的语音信号。另外，多点之间的信息交互不可避免，这是视频会议的难点所在。处于多点模式时，多个参加者的图像和声音在参与会议的各方都应该能在任何一个终端上显现。对于视频信号，在一个终端上可以开多个窗口，同时显示多个参与者的图像，但是对于声音而言，采用多路切换方式无论切换的速度有多快，听者总会感觉到声音有断续，这样必将降低会议系统的表现质量。因此高性能的视频会议系统必须采用某种策略解决多点语音的混合问题3 彳本文运用了排队理论对视频会议中的声音数据包进行分析，对于单人发言的情况，本文建立了数学模型，并把其归于n 策略的休假排队模型。通过模型，得出了在不同服务率时，队长与预取值的关系，从而使语音连续的问题得以解决。对于多人的情况，本文建立了三个数学模型，利用排队模型、通过大量的试验及曲线拟合，多个模型之间的比较找出了会议规模、预取数据包的大小与缓冲队列长度之间的关系，使视频会议中的语音数据包的混合问题得以解决。关键词：休假排队视频会议多点交流计算机模拟语音混合 i 华中科技大学硕士学位论文 a b s t r a c t i n i n t e r c o m m u n i c a t e ，s i n g l e t o - m u l t i p o i n t i so nt h ef i r s t p l a c e ，w h i c ho n l y n e e d t r a n s l a t eo n e p e r s o n sd a t ao f v o c i e a n d i m a g e t oo t h e r s t h r o t m gs p e e c hm i x i n gi s n tw o r k o n ，a nb u f f e ri sd e s i g e n e db e c a u s eo f t h eq u a l i t yo fv o i c e i ti sn e c e s s a r yf o rv a r i o u su s e r s t oi n t e r c o m m u n i c a t ew i t i le a c ho t h e ri nm u l t i p o i n tc o m m u n i c a t i o n s e a c hu s e r s i m a g ea n d v o i c ec a nb er e a c h e da to t h e r s t e r m i n a l s a st ot h es i g n so f i m a g e ，m a n yw i n d o w s c a nb e o p e n e do na t e r m i n e da n dt h ep a r t i c i p a r t s i m a g e sc a nb eo nt h es c r e e na sw e l l h o w e v e l a st ov o i c e ，n om a t t e rh o wf a s tt h es p e e do ft r a n s m i s s i o ni s ，i ti sc o m m o nf o rl i s t e r n e r st o f i n dt h eg r e a td i s t i n c t i o n s ，b e t w e e nt h ev o i c eo fc o m m u n i c a t i o n sa n dt h a to ff a c e - t o f a c e c o m m u n i c a t i o n s ，w h i c hd e b a s e st h eq u a l i t yo fm u l t i p o i n tc o m m u n i c a t i o n s t h e r e f o r ，i ti s v i t a li m p o r t a n tt ot a k em e a s u r e st os o l v et h em i x e dv o i c e so f m u l t i p o i n tc o m m u n i c a t i o n s d u r i n g ah i g l lq u a l i t ys y s t e mo f m u l t i p o i n tc o m m u n i c a t i o n s i nt h i sa r t i c l e ，w et r yt os o l v et h et r o u b l eo fv o i c ei ns p e e c hm i x i n g t h et h e o r yo f q u e u e i sa p p l i e di nt h ea n a l y s i so fv o i c ed a t ao f m u l t i p o i n tc o m m u n i c a t i o n s ，w h i c hf o r m s t h em a t h e m a t i cm o d e l f r o mt h em o d e l ，t h ee q u a t i o n so fe s t a t et r a n s f e rw i l lb eo b t a i n e d a n dt h e nt h r o u g h c o m p u t e rs i m u l a t i o n ，w eg e tt h er e s u l t so fe q u a t i o na n dd a t aw ew a n t e d a l e p r e s e n t e da sw e l l w i t ht h em o d e lo fq u e u e ，m a s s i v ee x p e r i m e n t sa n dc u r v i l i n e a r r e g r e s s i o n ，t h er e l a t i o na m o n gt h es c a l eo fc o m m u n i c a t i o n ，t h et h r e s h o l do f w o r k i n g ，a n d t h eq u e u eb u f f e ri sf o u n d t h e r e f o r et h ee x p a n s i b i l i t yp r o b l e mo f v o i c ed a t ao f m u l t i p o i n t c o m m u n i c a t i o n sw i t hr e a l t i m es p e e c h m i x i n g i ss o l v e di nt h el a s tp a r to f t h i s p a p e r k e y w o r d s ：v a c a t i o nq u e u e c o m p u t e rs i m u l a t i o nm u l t i p o i n tc o m m u n i c a t i o n s s p e e c hm i x i n g 一 i i 华中科技大学硕士学位论文 1 1 视频会议技术的发展 l 绪论 6 0 年代发达国家就开始视频会议i l 】的研究，早期的视频会议系统以模拟方式传输，占用很大的带宽，其代表有美国贝尔实验室研制的可视电话、英国b t 公司的l m h z 带宽黑自视频会议系统。8 0 年代末、9 0 年代初，随着微电子、计算机、数字信号处理及图像处理技术的发展。视频会议的理论研究和实用系统研制方面也得到了迅速发展。总的来说，其发展主要经历了模拟视频会议、数字视频会议和国际统一标准的数字视频会议系统三个阶段，大体过程如下： 1 ) 6 0 年代始，世界发达国家开始研究模拟视频会议系统。并逐渐商用化。6 0 年代未期，在压缩编码技术的推动下，由模拟系统转向数字系统。 2 ) 8 0 年代初期，研制出2 m b s 彩色数字视频会议系统，日本和美国形成非标准的国内视频会议网。8 0 年代中期，大规模集成电路技术快速发展，图像编解码技术取得突破，信道费用降低，为视频会议走向实用提供了良好的发展条件。8 0 年代末至今，多媒体技术、计算机技术、通信网络技术曰新月异。原c c i t t 形成了h 2 0 0 系列建议，规定了统一的视频输入输出标准、算法标准、误码校验标准及一系列互通的模式转换标准，解决了不同厂商的设备互通问题，极大地推动了视频会议的发展。 3 ) 9 0 年代中期以来，计算机互联网的快速发展对电信业产生了巨大而深刻的影响。基于包交换网络的多媒体通信系统逐渐成为研究人员和电信，网络及计算机厂商关注的焦点之一。i n t e m e t 工程任务组( i e t f ) 也开发出实时音频视频流技术。 1 2 视频会议系统产品的发展 1 ) 第一代工控机平台产品数字视频会议产品出现于7 0 年代末，但实际意义上的应用开始于8 0 年代中期。从8 0 年代中期至9 0 年代初，视频会议产品结构均具有共同的特点统称为第一代视频会议产品。该产品具有以下特点：( 1 ) 产品结构为工控机底板上插各种功能卡，结构复杂，稳 l 华中科技大学硕士学位论文定性差；( 2 ) 处理能力弱，只能在2 m b s 速率实现较好的图像传输质量，在低速线路上，图像质量差；( 3 ) 价格昂贵，当时一套视频会议终端产品为7 8 万美元：( 4 ) 只能在高速带宽( 2 m b s ) j e _ 使用，d d n 的租用费很贵，运营成本高：( 5 ) 硬件故障率较高，如果某一块功能板发生故障，将导致系统失效；( 6 ) 设备兼容性较差，不同厂家的设备不能互通；( 7 ) 维护复杂，需专业维护人员；( 8 ) 用户面狭窄，主要应用于政府部门。受当时技术限制，第一代视频会议产品的性能在各方面均具有很大的局限性，特别在视频编码方面只支持h 2 6 1 算法，图像质量随带宽减少而下降得非常快。 2 ) 第二代_ p c 平台插卡产品由于第一代产品的限制，特别是价格，视频会议市场的发展受到阻碍。一些公司开始寻找其他解决办法以降低产品成本，简化产品结构，降低运营成本，开拓视频会议市场。得益于9 0 年代初p c 机的高速发展，p c 插卡型产品迅速出现，成为降低视频会议成本的一条捷径，并形成第二代产品。该产品具有以下特点：1 ) r a 于板卡从第一代产品的1 0 块左右减至3 4 块，故硬件故障率低于第一代产品；2 ) 由于应用程序建立在w i n d o w s 平台上和w i n d o w s 操作系统本身存在缺陷故软件故障率较高；3 ) 成本降低，价格低于第一代产品，一套视频会议终端产品3 4 万美元；4 ) 在低速带宽上，图像质量优于第一代产品；5 ) 维护复杂，维护人员需具备专业的计算机和通信知识；6 ) 设备工作状态极不稳定，且一旦出现故障，处理方法复杂。经常需要重新安装软件，甚至重新安装w i n d o w s 操作系统。第二代视频会议产品的固有问题很快为广大用户和厂商所认识。新一代高度集成化产品，即第三代产品，在1 9 9 8 年出现，并迅速占领市场。到1 9 9 9 年底，第三代产品已占有全球视频会议市场7 0 ，正在逐渐取代第一，第二代产品。 3 ) 第三代高度集成专业化产品第二代产品在价格上低于第一代产品，在低速带宽上图像质量优于第一代产品。但仍然具有工作不稳定，故障率高，操作复杂的弱点。且图像质量尽管有所提高，仍不能满足要求。在9 0 年代中期，对新一代产品的需求越来越强烈，第三代高度集成专业化产品应运而生。该产品具有以下特点：1 ) 高度集成化，非p c 结构，没有硬盘故障；2 ) 高度稳定，按7 * 2 4 持续工作设计可长时间运行；3 ) 设计结构先进，芯片运算能力强，功能强大，支持h 2 6 3 最新图像编解码算法；4 ) 声音、图像质量好，在低速带宽上实现高质量图像、声音传输：5 ) 华中科技大学硕士学位论文同时集成多种网络接口( 如i s d n 、v 3 5 、e 1 、i p 等接口) ，且支持实时网络接口转换；6 ) 无操作系统，软件直接驱动芯片级操作；7 ) 具有自适应功能，完全智能化，可根据网络情况选择最佳的音频、视频编解码算法；8 ) 易于操作，不需任何专业知识；9 ) 维护简单。 1 3 国际标准的确立 1 ) 9 0 年代初期至1 9 9 5 年是i s d n 上数字会议电视的发展阶段。该发展阶段是视频会议技术发展较快的一个时期，这主要得益于数字压缩技术的进步( 例如i t u t 通过 h 2 6 1 建议) 以及i s d n 技术和标准 2 1 1 3 1 的成熟。在此阶段，一些会议电视厂家生产出多种基于h 3 2 0 的、彼此兼容的会议电视设备，世界各国也建设了不同规模的视频网络。 2 ) 在9 0 年代中后期，a t m 技术也基本成熟，市场上出现了基于i t u t 的h 3 1 0 建议的、具有高分辨率的宽带会议电视设备，供特殊需求的用户应用。 3 ) 无论其他的网络具有何种优势，p s t n 依然是目前世界上覆盖面最广的网络。因此，人们一直没有停止开发在p s t n 上进行可视通信系统的努力。1 9 9 5 年以后，一方面在数字信号处理领域出台了低比特率的压缩标准即h 2 6 3 ，另一方面在电话网上传送数据信息的调制解调器也已经将在p s t n 上传输数据的速率提高到了3 3 6 k b s 。将这些技术集成起来便产生出了基于h 3 2 4 的、应用于p s t n 上的可视电话终端。 4 ) 随着基于i p 技术的网络和其上用户的快速增长，人们目益将基于i p 技术的网络看作是未来网络的雏形。技术人员便加速了基于i p 网络的视频会议系统和终端的标准的研究工作。1 9 9 6 年通过了h 3 2 3 ，在其后的几年中一直在对该建议进行修订，1 9 9 8 年2 月通过了该建议的最新版本。与此同时，i t u t 通过了低比特率的图像和声音压缩编码的建议h 2 6 3 ，g 7 2 3 1 和( 1 7 2 9 以及与数据处理有关的建议i t u t t 1 2 0 系列。 1 4 视频会议系统的发展目前h 3 2 0 视频会议产品在实际中得到广泛的应用，特别是在近年我国大力发展 i s d n ( 一线通) 业务，许多企业纷纷采用这种方式实现视频会议系统。根据我们对视频会议产品发展历史的了解，一般认为视频会议系统的发展趋势【4 】主要有两种： 1 ) 基于l a n 的h 3 2 3 产品目| 对信息高速公路的基础究竟是i p 还是a t m 仍存在着较大的争论，但无疑未来骨干网络将采用包交换的传输方式。发展包交换网络上的多媒体通信系统，包括视频华中科技大学硕士学位论文会议产品，也是一大趋势。部分发达国家已经开始实际提供i p 网上的多媒体通信业务了。i t u t 、i e t f 和有关厂商仍在致力于歼发新技术、制定和完善标准，视频会议系统厂商也纷纷推出既支持h 3 2 0 标准又支持h 3 2 3 标准的产品。 2 ) i n t e m e t 上的视频会议产品目前这种视频会议系统还不现实，因为它有许多技术方面的问题仍末被解决。但它具有许多l a n 产品所具有的特征，并且也被设计为多用户共同模式。它是一种支持多人讨论会的高效方式，只要愿意，一个人可以随时加入或退出会议。带宽6 4 k b s 或 1 2 8 k b s 或更高速率随时可用，使用过i n t e m e t 和w e b 的人都知道，在i n t e m e t 和w e b 上要快速到达许多地点是非常容易的。i n t e m e t 视频会议具有其服务器环境所具有的所有特征，它把i n t e m e t 本身的财富作为自己通信能力的一部分，所以它是通信能力和信息资源结合的产物，同时它还在全球性环境适用，没有时区、制式方面的问题。目前，流媒体技术也是i n t e m e t 上的一种发展，但只支持单向广播传输。随着技术的不断发展，双向流媒体技术的成熟，基于i n t e m e t 上的视频会议系统将得到更加广泛的发展。 1 5 蒙特卡罗模拟方法无论在实际或者理论里，排队问题可以用数学办法求得答案的究竟还是少数，对于许多复杂的问题我们依然束手无策。1 9 5 0 年以后电子计算机逐渐普及了，在解决排队问题方面我们跨进了一大步，这一步的迈出主要是依靠模拟的办法在这里我们所谓的“模拟法”指的是，利用一个数值模型来模仿一个真实的服务系统的运作的情形。一般来说，模拟的方法可分为两类，第一类称作“跟踪驱动法”，另一类称作“分布驱动法”，前者属于确定性的模拟，我们预先收集有关的统计资料，并把这些资料逐次输入模型，然后由模型的演算来观察结果。后一类的办法也称作“蒙特卡罗法”口】l “，是依据已有的资料或者凭我们的设计先决定好统计的分布，再由分布来产生随机数，以此输入模型来求其结果。举例来说，在一个g g l 队列的问题里，我们如果知道各个到达间隔和服务时间的长度，那么就可用跟踪驱动法来进行模拟，在这种情形下我们必须预先准备好所有到达间隔和服务时间的数值，因此在使用电子计算机时往往需要较大的储存空间倘若我们知道到达间隔和服务时间的分布，那么就可以在需要时逐次用随机数产生的方法来求得到达间隔或服务时间，这样我们就无需先存一大堆资料，而是随用随取，这个办法的缺点也正是在于必须先求出统计分布然后才能使用。 4 华中科技大学硕士学位论文在模拟的过程中，我们还需不时地把观察的结果逐渐累积起来并加以分析，以前面的 g g l 队列为例，在到达间隔和服务时间的数值求出之后，可以从模拟的模型里找出它们的相互关系来决定队长或者其他的统计量，每次队长的改变我们都加以记录，到了模拟过程结束后，我们就依据已有的记录来估计平均队长，或者队长的分布。最早倡议利用蒙特卡罗法来解决数学问题的文件大概要算是1 9 5 1 年的两篇论文【7 】【8 1 利用这个方法的动机至少有两点： 1 ) 问题本身过于复杂，我们没有任何可利用的理论基础来解决这个问题； 2 ) 即或我们知道如何求解但是在计算上太不经济。计算机模拟的步骤如图1 1 所示。应当说明。并非所有的计算机模拟都包括图1 1 中的所有步骤，而有些计算机模拟的步骤也可能在因1 1 中没有表示出来。还应说明，计算机模拟并不是一个严格的有顺序的过程，它不一定按图1 1 中的顺序进行，它可能在任步骤中根据模拟试验情况而转向任一其他步骤。图1 1 说明了计算机模拟的一般步骤。 ( 1 ) 提出问题像任何科学研究一样，计算机模拟的第一个步骤应当是详细说明所要研究的问题，否则，便不会成功。这就是说，在进行计算机模拟时，首先必须把想要解决的问题搞清楚。当然，要在模拟研究的一开头就完全把问题提清楚往往不可能，它需要在模拟研究的过程中不断深化，有时需要扩大，有时需要缩小等等。但是，尽可能地把想要解决的，问题描述清楚无疑是个重要原则。在明确所提出的问题的同时，还必须确定一些性能指标，以便说明模拟结果是否满足要求。有一些性能指标互相间是高度相关的，对其中之一优化则可使其他优化，但另一些性能指标之间则可能没有什么相关性。 ( 2 ) 收集和处理实际数据我们必须收集和处理所研究系统的实际数据，用来估计模型参数和确定模型中随机变量的概率分布等。我们还必须尽力收集有关系统性能指标的数据，以便用来确认模型的正确性。 ( 3 ) 构造数学模型一般来说，我们应当先构造简单的模型，必要时再逐步精确化。模型的复杂程度要看研究的目的，当然没有必要一定把实际系统的每一部件都反映在模型中。在构造模型时还应考虑该模型在计算机上模拟运行时所花费的计算时间和程序设计的时问。 5 华中科技大学硕士学位论文图1 1 计算机模拟流程| 墨| ( 4 ) 估计模型参数在这一步骤，我们用收集到的数据估计模型参数并确定它们的置信限。 ( 5 ) 确认应当说明，实际上在计算机模拟的每一步骤都应当进行正确性确认，但是在第5 步和第g 步进行确认特别重要。第5 步是在计算机模拟运行之前检验模拟模型的正确性，而在第8 步则是用计算机模拟运行结果检验模拟模型的正确性。 ( 6 ) 模拟程序设计可以用如c ，m a t l a b 的通用语占，也可以采用专门的模拟语言。采用通用语言编制 6 华中科技大学硕士学位论文的模拟程序的计算机运行时间较少，而采用专用模拟语言时程序设计花费的时间较少。 ( 7 ) 模拟程序的试运行通过试运行模拟程序来验证程序的正确性并收集一些模拟结果的数据，以便确认模拟模型的正确性。 ( 8 ) 确认根据模拟程序试运行的结果可检验模拟结果对输入参数变化的敏感性。若输入参数的微小变化即可使模型结果变化很大，则必须重新估计输入参数。此外，可通过检验模拟结果与系统的实际数据是否一致，确认模型的正确性。 ( 9 ) 试验设计在正式运行计算机模拟程序之前应当进行试验设计，以便用最少的运行次数获得最优的模拟结果。 ( 1 0 ) 进行计算机模拟试验按照试验设计确定的方案进行模拟试验，收集模拟试验数据。 ( 1 1 ) 模拟的数据分析 1 6 离散时间的排队系统在理论研究中，模拟一般定义为连续时间的排队模型，当用计算机模拟排队论问题时，排队论模型都是离散型的，离散时间排队问题在计算机及通讯系统中出现是非常自然的事情，其中数据单位看作顾客，而处理机，传输线，通道，终端，看作服务台，要求存储或记忆看作排队，这就是个排队系统，由于处理机是间断时间操作，把处理机的机械循环时间作为基本时间单位，或把通道或传输线上的信号的比特时间，或把固定数量的任何数据单元的脉冲持续时间取做基本时间单位，在这种系统中，所有事件的发生( 输入，运算，操作，输出) 都是在离散时刻出现，这就是一个离散时间的排队系统【9 】 1 0 儿1 。出于服务机构性能的关系，颞客到达与离开有三种类型：( 1 ) 早到达系统：顾客在n + 时刻到达系统( n = o ，1 ，2 ) ，服务完的时刻是n ，而且服务完后离开系统，如图1 _ 2 所示。( 2 ) 到达延迟通过系统：顾客在n 一时刻到达( n = 1 ，2 ) ，顾客服务完离开系统的时刻为n q - ( n = 2 ，3 ) ，如图1 3 所示。( 3 ) 迟到达立刻存取系统：顾客华中科技大学硕士学位论文在n 时刻到达( n = 0 ，1 ，2 ) ，服务完在n 时刻离开( n - 1 ，2 ) 。早到达，迟到达延迟通过系统如图所示。离散时间的排队问题可以与连续时间的排队问题平行的讨论，连续时间下的 p o i s s d 一流，在离散时间下转换为二项分布流；连续时间下的负指数分布，在离散时间下转换为几何分布。在本实验中，我们采用到达延迟通过系统。数据包个数数据包的个数图1 2 早到达系统 1 7 本文研究工作的介绍图1 - 3 到达延迟通过系统本文主要排队理论对视频会议中的声音数据包进行分析。为此在第二章中，介绍了多点语音的结构和所相关的数学基础。在第三章中，对单点对多点根据服务率的不同分别建立了数学模型，得出不同服务率下预取量的大小值。第四章是本文的重点，对于多点对多点的情况，对不同的情况分别建立排队模型，通过大量的试验及曲线拟合，找出了会议规模、预取数据包的大小与缓冲队列长度之间的关系。 8 华中科技大学硕士学位论文 2 视频会议中的排队问题和数学基础 2 1问题的描述及解决的方案在多点多媒体通信系统中，多点交互的不可避免。以h 3 2 3 系统为例，处于多点模式时，多个场景参加者的图像和声音在参与会议的各方都应该在任何一个h 3 2 3 终端上显现。对于视频信号，在一个终端上可以开多个窗口，同时显示多个参与者的图像，同时采用切换的方式将其他参与者的图像依次显示出来。但是对于声音而言，这种切换方式并非总是有效的。例如在自由讨论的情况下，多个参与者竞相发言进行辩论，此时采用多路切换方式无论切换的速度有多快，听者总会感觉到声音有断续，这样必将降低会议系统的表现质量。因此高性能的视频会议系统必须采用某种策略解决这个问题。在文献 1 2 1 2 2 1 5 u ，多点语音的混合问题得到一定的研究，本文的研究工作建立在这些已有的研究工作的基础之上。考虑到声音的传输具有波的特性，由于波的传输具有可叠加性，理论上多路声音的叠加不会改变声音的音质和其他的语音特征参数。基于此，我们提出了多路语音的混合策略。但是，在实时系统中，进行多路语音的混合，涉及到多路实时语音之间的群同步问题，其调度策略是相当复杂的。为了解决这个问题，本文参考了文献 2 3 1 2 6 1 的结构模型。 2 2 多路语音混合的结构模型在h 3 2 3 视频会议系统中有必要实现一种特定的语音混合( s p e e c hm i x i n g ) 功能，即对多个用户端传来的声音进行混合，从而使得某个接受者在需要时能够同时听到多个参与者说话的声音。在自由讨论的会议模式下，配备了这种功能的系统才能使参与者在没有任何障碍( 如出现声音断续) 的条件下真正地自由交谈。但是，在i p 网络上进行多路语音的实时混合并非易事，这一方面是因为i p 网络没有q o s 保证，基于这种网络上的视频会议系统不可避免要面临丢包、时延以及抖动等问题，严重地影响了网上传输业务的服务质量。而且，多个发送端是并发传送数据的，各方是否、何时发送数据以及它们发送语音包到达的相对次序等都具有很大的随机性和波动性。此 9 华中科技大学硕士学位论文外，对于基于软件实现的桌面会议系统，参与会议的各方的机器配置不可能完全一样 ( 即具有相同的c p u 、r a m 大小等) ，这就导致了同一算法或者软件在不同多媒体终端上的处理时间不一样，这在一定程度上会影响总端到端时延的不同。另一方面，由于分组网络没有统一的全局时钟，实时视频会议中发送端与接收端之间存在着潜在的时钟不匹配问题。在这种情况下，通信的双方按各自独立的时钟执行。若不采用措施同步这些时钟，则由于视频音频数据流基于发送端本地时钟产生，使得接收端的本地时钟与r t p ( r e a l t i m et r a n s p o r tp r o t o c 0 1 ) 、r t c p ( r t p c o n t r o lp r o t o c 0 1 ) 包所携带的时间戳的包时钟不一致，不能保证播放端的实时性和声音的连续性。h 3 2 3 会议系统采用r t p 来传送实时多媒体数据。将发送包“捆绑”上时戳和包序号等信息，保证网络传输媒体的实时性。但如果接收端时钟与发送端捆绑了时戳的包时钟不一致，即使接收到正确的数据，也不能保证播放的实时性和质量。 a u d i o 。k e t 。r 证：；谲i g r o u p ：丽函j 图2 1 语音混合结构模型图2 1 给出了进行语音混合的结构图，它由5 个部分组成：解码器( d e c o d e r s ) ：缓冲队列组( q u e u eb u f f e rg r o u p ：q b g ) ：混合器( m i x e r ) ：混合控制器( m i x e rc o n t r o l l e r ： m c ) 以及后处理器( p o s tp r o c e s s o r ：p p ) 。后四个部分构成了语音调度和混合系统 ( s p e e c hs c h e d u l i n ga n dm i x i n gs y s t e m ：s s m s ) 。新近到达的语音包根据其用户标识 ( u s e ri d ) 按照先来先服务( f c f s ) 的原则送给相应的解码器，然后解码后语音包进入q b q 中相应的队列缓存。若一个语音包来自用户i ，则其用户标识即为i ，则它首先进入解码器i 进行解码，然后将解码值送入q b q 中的第i 个队列缓存。q b q 中的语音包进入哪个队列以及队列中哪个语音包进入m i x e r 等由m c 进行管理和控制。 m c 决定哪一个或者哪几个语音包在什么时候进入m i x e r 。它还控制q b g 中需要预取 l n 华中科技大学硕士学位论文得语音包的个数，以及隔多长时间需要对q b g 中的各缓冲队列进行刷新。此外，它还可以调节s s m s 输出语音包的速率。混合器m i x e r 用于对不同的语音进行混合，同时负责检查是否有溢出现象。p p 用于对经m i x e r 处理后的语音数据进行平滑处理，以改善混合后的语音质量。以下几节将详细描述各部件的功能。 2 2 1 缓冲队列组q b g 本系统对参与会议的用户个数进行统计，并为每个用户分配一个用户标识( u s e r i d ) 。在混合端( m i x e re n d ) 为每个用户分配个缓冲队列，用以存储来自相应用户的语音包，多个缓冲队列一起组成q b g 。q b g 中各队列是循环队列，它们是实现群同步的基础。它们不仅用来记录不同语音流之间的时间关系( 完全取决于各语音流的包的到达时l 日j ) ，而且用来吸收抖动和调节不同发送者之间的时钟的不匹配。每个语音包在q b g 中的驻留时间由m c 控制。 q b g 中各循环队列的长度是相等的，且是固定长度的。其值与网络的性能有关，特别是与端到端的时延及抖动有关。瞬时的时延及抖动可以根据r t c p 的头部信息测试确定，但是，这只是局部的信息。要获取反应全局的延时信息，则要利用排队论方法分析分组网络上多点语音传输到混合端的模型。在h 3 2 3 系统中，h 2 2 5 0 利用 r t p r t c p 对媒体流打包，并且进行同步控制。它不要求所有的媒体和控制混合成一个单一的流，然后再对它打包。h 2 2 5 0 终端使用r t p 通过不可靠信道发送音频及视频数据以获取最小时延，音频、视频、呼叫信令与h 2 4 5 控制信息不在同一通道上发送，并不共享一个公共的消息结构。由于h 2 2 5 0 终端使用相互独立的r t p 实例在不同的传输端口地址( u d p p o r t p a i r s ) 上独立地发送和接收音频和视频流，因此，可以单独分析分组语音流的网络传输模型。当参与会议的用户个数在8 1 5 之间时，用 s e m i m a r k o v 模型和c o n t i n u o u s t i m em a r k o v 模型均可较好地反映网络状况。 2 2 2 混合器控制器m c m c 控制q b g 中各队列中的数据包如何及何时送入混合器。为了对算法进行调度及对数据包在b u f f e r 区中的驻留时间进行控制，本文引入了多个计数器：l n i t b u f c n t 对预取的包数进行计数；p r e s e n t b u f c n t 对当前q b g 中所有队列包含数据的语音包个数进行计数； r e v b u f c n t 对接收到的语音包总数进行计数， b u f c n t f i ( 1 _ o , 1 肛，j 对q b g 中队列f 内含有的语音包的个数进行计数。与这几个计数器相对应，本文定华中科技大学硕士学位论文义了两个阈值：一个为b u f c n t i 的阈值u s e r b u f n u m ，它给出了q b g 中队列的长度。该值由延时及其抖动参数估计后实验确定，它是实现群同步的基础；另一个是 i n i t b u f c n t 的阈值p r e f e t c h t h d ，用来控制预取语音包的个数，用于进一步平滑和减少网络抖动的影响。利用这些计数器和阈值，m c 在以下几个方面对算法进行控制： 1 ) 预取语音包考虑到输入数据到达时间的随机性及同步要求，本算法采用了预取机制，即首先将输入数据在按不同的用户号( u s e ri d ) 填入相应的对列中。同时，利用i n i t b u f c n t 对q b g 预取语音包的总数进行计数，只有当i n i t b u f c n t 的计数内容到达阈值川呱腰咒日托时，才进入下一阶段。在此阶段中，利用b u f c n f ，矾i = o , 1 ，- ，) 对各对列中加载语音包的情况进行监控。若接收到的用户f 语音包的个数( b u f c n t i 的内容) 已经达到阈值u s e r b u f n u mf 其对应的对列已满但q b g 中的语音包总数又小于p r e f e t c h t h d 时，则将该对列中最旧语音包直接输出至播放端播放( 旁路掉m i x e r 及p p ) ，然后在该位置填入新的语音包数据。预取的数据量( 阈值p r e f e 兀w m d 的设置) 是为了保证混合后语音的连续性，但它给系统引入了时延。该值不宜太大也不宜太小。预取量太大，虽对缓冲、同步及防抖动有利，但引入延时太大，这对实时系统来说也是不能接受的；太小则起的缓冲作用不大。本文的主要工作就是根据会议的规模，确定预取值的大小。 2 ) 执行调度算法 m c 的最重要的功能是执行调度算法。当一个新的语音包到达混合端时，m c 将执行如下调度算法：( 1 ) 判断是否需要对q b g 进行定时刷新。( 2 ) 对参与会议的用户个数进行统计，若用户数小于2 ，则无需混合，直接将该语音包从s s m s 的输出端输出。否则，转入第三步。( 3 ) 若l n i t b u f c n t p r e f e t c h t h d ，则预取缓冲数据；否则转入第四步，进入正常的混合过程。( 4 ) 若p r e s e n t b u f c n t 的计数值小于 u s e r b u f n u m ，则控制s s m s 仅接收数据而不输出数据，强制使得回放端播放速度变慢，然后转入第一步：否则进入第五步。( 5 ) 若q b g 中仅第i 个队列含有语音数据( 对应会议过程中，仅第i 个用户发言) ，并且该队列己满，则当新的语音包仍来自陔用户时，m c 控制无需进行混合。s s m s 直接将该队列最旧的语音包输出后，在相应位置填入新的语音包。然后，转入第一步；否则当前参与会议中，多个用户的队列 1 2 华中科技大学硕士学位论文中含有数据，转入第六步。( 6 ) 将q b g 中含有数据的各队列中当前输出位置的语音数据送入m i x e r ，控制m i x e r 执行混合操作。将混合后的结果送入p p 进行后处理后输出，并将新到数据填入相应的队列中。然后，转入第一步。一般会议中，绝大多数时间都是一个人在发言，其他人在听，只有在自由讨论时才有多个人同时讲话的情况。本调度算法考虑了会议的这个特点，利用调度策略来尽量减少运算量：算法中，只有执行混合算法处( m i x e r ) 的运算量最大，而按照本调度策略只有很少情况下才调用它。 3 ) 自适应调节速率 m c 的最后一个重要作用是可以自适应地调整输出速率。假设有一个n 点的会议系统，它有n 个独立的语音源。当每个参与者均在发言时( 自由讨论) ，假设各音源端以速率v 产生语音包。这些语音包由音频逻辑通道经过网络后到达混合端( m i x e r e n d ) ，则在混合端，语音包的数据到达率为n v 或者c v ，c 为音频逻辑通道的信道容量。当n c 时，到达率为n v ；否则为c v 。经过混合处理后，s s m s 的语音包的输出速率应该限定到v ，以便它能够与终端系统的语音速率保持同步。实际系统中，我们在各h 3 2 3 终端采用了静音检测技术对语音进行检测，若有讲话，则将之编码压缩后由r t p 中的音频发送线程发送出去；否则不作这些处理。一般情况下，当一个音源实际在讲话时，该音源可视作是活动的( a c t i v e ) 。在“活动”期间，音源以一定的速率产生固定长度的语音包。在静音( s i l e n c e ) 期间，音源是“非活动性的”，它不产生语音包。在正常谈话中，活动周期能很好地符合指数分布。 2 2 3 混合器( m i x e r ) m i x e r 的功能主要是从q b g 内包含“活动”数据的各队列中取出语音包，然后对这些参与混合的各语音包中的采样点进行线性叠加。实际上，它主要完成排队论中的对队列数据的服务功能。当前多媒体p c 上广泛使用的是1 6 b i t 的声卡，因此，它采用的数据精度通常是1 6 b r ，其取值范围为( 3 2 7 6 8 3 2 7 6 7 ) 。对于d s p 或者处理声音的a d d a 芯片而言，8 b i t 或者1 6 b i t 的数据精度也是较常用的。 2 。2 4 后处理器( p p 、 p p 用来平滑由m i x e r 检测到的有溢出的语音包数据。平滑方法是按照公式对语音包中的样点幅度进行调整。p p 的另一个任务是将这些浮点样值转换回p c m 数据 l3 华中科技大学硕士学位论文以便它们能够在m c u 上进行编码或者在端系统回放。 2 2 5 分析基础视频会议系统中，总的来讲，多路语音混合分为5 个阶段：1 ) 多个h 3 2 3 终端通过i p 网络向完成混合功能的服务器发送多媒体数据。由于是会议信息，其中包含语音、视频及控制、数据信息等。其中，音频和视频信息采用u d p 作为传输协议，通过r t p 将数据传送出去。而数据和控制信息则采用t c p 作为传输协议。在具体传输时，音频信息与视频信息采用的是不同的逻辑通道。基于此，我们可以将音频信息独立地加以分析，考察其经过网络传输的性能。此对，多点信息是同时并行向混合端发送。2 ) 服务器串行接收来自各用户的数据流，经解码后发往混合端。3 ) 混合模块串行接收解码后的数据包，根据各用户数据携带的i d 号的不同，将相应的数据包放入到相应的缓冲队列进行缓存。4 ) 混合调度算法根据各缓冲队列中的数据情况，从含数据包的队列( 1 到n 个队列) 中各取一个数据包进行实时混合。5 ) 将混合的结果输出。根据统计，在语音通信系统中( 如电话) ，人说话的概率占4 3 ，不说话的概率占5 7 。当一个音源实际在讲话时，该音源可视作是活动的。在“活动”期间，音源以定的速率产生固定长度的语音包。在静音期间，音源是“非流活性的”，它不产生语音包。在正常谈话中，活动周期能很好地符合指数分布。然而，文献中最常用的语音源的模型，均假设活动的与静止的周期两者都是指数分布的。在我们的基于w i n d o w s 系统开发的视频会议系统软件中，我们对声卡的操作指定为采集速率和精度与播放是完全一致的，且是实时双向工作的。发送数据的速率实际上是出声卡的采集速率同步，而在接收方接收数据的速率是由播放速率同步的。因此，要在接收端获得理想的播放效果，收发双方必须保持同步。在混合端，混合模块的输出是由播放速率同步的，其输入包含多路语音的数据。本来，对混合模块来说，数据的到达过程为多个到达过程的叠加。由于每个过程均为p o i s s o n 过程，到达率为九，叠加后总的效果仍为一个p o i s s o n 过程，总的到达率为况。混合模块的服务过程也满足 p o i s s o n ，服务率为。如前面所分析，由于声卡采集播放速率设置得一样，所以五= a , 这个速率关系的匹配主要是由于缓冲队列的缓冲以及混合模块的服务来维持的。混合系统具有多流的串行接收与并行服务的特点。 1 4 华中科技大学硕士学位论文 2 3 数学基础在本文第三，四章中，多次建立了排队论的数学模型。这些模型是经典排队模型的变换和延伸，虽然并不能通过状态方程直接解出结果，但是，通过对下列的模型分析，可以得到一些借鉴结果和定性的分析。 2 3 1 经典的m g 1 模型在m g 1 模型【2 7 】【2 8 】1 2 9 1 中，顾客到达服从参数为a 的p o i s s o n 过程，服务时间有一般分布函数b ( t ) ，其一阶矩和二阶矩和l s t 记为： i l = f t a a ( ，) 6 ( 2 ) = f r 2 如( ( j ) = p 抬( ，) ( 2 - 1 ) 假定达到时间间隔与服务时间相互独立，使用先到先服务( f c s f ) 排队规则。l ( 0 表示时刻t 系统中的顾客数，也称队长。以l 。研1 ) 表示的n 个顾客离去后瞬时系统内的顾客数，。，行1 ) 称为l ( t ) 的嵌入m a r k o v 链。 l 。，l 1 满足下列递推关系： k 。= 纠沼z ， a 是个服务时间内到达的顾客数，有分布和均值口，= p a 刊= f 咩e “招( f ) ，j i o ，l ，一 ( 2 - 3 ) e ( 4 ) = 兰= p ( 2 4 ) p 称

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（应用数学专业论文）视频会议中语音混合的排队论研究.pdf

文档简介

温馨提示

最新文档

评论

（应用数学专业论文）视频会议中语音混合的排队论研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档