（模式识别与智能系统专业论文）基于internet的多媒体交互平台关键技术的研究.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-12 格式：PDF 页数：70 大小：3.79MB 积分：0 举报 版权申诉

（模式识别与智能系统专业论文）基于internet的多媒体交互平台关键技术的研究.pdf_第2页

（模式识别与智能系统专业论文）基于internet的多媒体交互平台关键技术的研究.pdf_第3页

（模式识别与智能系统专业论文）基于internet的多媒体交互平台关键技术的研究.pdf_第4页

（模式识别与智能系统专业论文）基于internet的多媒体交互平台关键技术的研究.pdf_第5页

已阅读5页，还剩65页未读，继续免费阅读

（模式识别与智能系统专业论文）基于internet的多媒体交互平台关键技术的研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

中文摘要随着 i n t e r n e t基础架构的发展以及视频音频压缩技术的进步，基于工 n t e r n e t和通用软硬件平台的多媒体交互系统受到了越来越广泛的重视。本文以建立一个实用的工 n t e r n e t 多媒体交互平台原型为目标，对其中若干关键问题进行了研究和探讨。由于实时视频音频压缩巨大的计算复杂度，本文首先提出了一系列提高系统运行效率的方法。针对 i p网络不适应实时多媒体通信的一些特点，对多媒体流网络传输中的传输协议、 q o s 机制与流量控制、媒体同步、差错处理、延迟模型和缓存分配进行了研究，给出了相应的算法和具体实现方案。对于多媒体交互系统中共享工作文档以及会话自动记录的需求，提出了使用 a c t i v e d o c u m e n t和 s m i l 的方法，较好地解决了这两个问题。最后，探讨了视频内容分析与索引技术，给出了一个效率较高的镜头分割算法。关键词:多媒体通信、c s c w , r t p 、多媒体同步、s m i l ,镜头分割 ab s t r a c t wit h t h e r a p i d p r o g r e s s o f i n t e r n e t b a n d w i d t h , a n d m u l t i m e d i a c o m p r e s s i o n c o d i n g , m u l t i m e d i a c o m m u n i c a t i o n s y s t e m s b a s e d o n i n t e rn e t a n d c o m m o n s o f t w a r e / h a r d w a r e h a v e b e c o m e m o r e a n d m o r e i m p o r t a n t i n m a n y r e g i o n s . i n t h i s p a p e r , o u r r e s e a r c h f o c u s e d o n s o m e k e y t h e m e s o n i n t e r n e t m u l t i m e d i a c o m m u n i c a t i o n s i n o r d e r t o c o n s t r u c t a n a v a i l a b l e p r o t o t y p e s y s t e m. b e c a u s e o f t h e s i g n i f ic a n t c o m p u t i n g l o a d o f r e a l - t i m e v i d e o c o m p r e s s i o n , f i r s t , w e p r e s e n t a s e r i e s o f a p p r o a c h f o r o p t i m i z i n g s y s t e m p e r f o r m a n c e . t h e n , a g a i n s t t h e p o o r q o s c a p a b i l i t y o f i p n e t w o r k , s c h e m e s a n d a l g o r i t h m s o n t r a n s p o r t p r o t o c o l s , fl o w c o n t r o l , m u l t i m e d i a s y n c h r o n i z a t i o n , e r r o r c o n t r o l , d e l a y m o d e l a n d b u f f e r a l l o c a t i o n w a s s t u d i e d . f o r t h e p u r p o s e o f d o c u m e n t s s h a r i n g a n d s e s s i o n r e c o r d i n g , w e p r e s e n t a p p r o a c h b a s e d o n八 c t i v e d o c u m e n t a n d s mi l . f i n a l l y , w e p r e s e n t a a l g o r i t h m o f v i d e o s h o t s e g m e n t a t i o n w i t h h i g h p e r f o r m a n c e . k e y w o r d s : mu l t i m e d i a c o m m u n i c a t i o n s s y n c h r o n i z a t i o n , s h o t s e g m e n t a t i o n s mi l , mu l t i m e d i a 独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研究成果，除了文中特别加以标注和致谢之处外，论文中不包含其他人己经发表或撰写过的研究成果，也不包含为获得二玉建叁兰- 或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。二、人、_， *、、护、一_ _ ，_ ， _ 、_ ，_ 子 u l g 关作有金石补弋金子日朋 u ) 牛月。目学位论文版权使用授权书本学位论文作者完全了解. ) f- ;* k*. 有关保留、使用学位论文的规定。特授权达生左 _ 可以将学位论文的全部或部分内容编入有关数据库进行检索，并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名 : 诀愉签字日期 :。 ) 年王月日导师签名 : 育长折子签字日期 :0 3年 2月石日第一章绪论第一章绪论 1 . 1 课题的背景和意义能够足不出户地与远方的亲友或者业务伙伴进行面对面的交流，一直以来就是人们对于现代信息和通讯技术最大的期望之一。在这个需求的催促之下，从上个世纪七十年代以来，一代又一代的可视电话和视频会议产品被研发和实用化，催生了一系列相关国际标准的制定。然而，这一类远程视频交互系统一般都属于专用系统，由大量定制的处理芯片、终端和网关设备组成，使用专门的高带宽的电信网络，使用低层协议( 一般在数据链路层) 直接封装和传输媒体流。这些专用系统高昂的价格使其在面向大众的普及应用方面裹足不前。与此同时，近二十多年中，i n t e rn e t 作为一个通用的，最广泛的共享信息平台，在世界范围内得到了长足的发展，日益成为社会文化和生活方式的重要组成部分。当早期的 b b s 、新闻组、电子邮件这些非实时性的交互方式已经不在能够满足人们即时沟通的愿望时，一系列实时 c s c w 的方法和技术得到了广泛的应用，例如共享白板、w e b 聊天室、以及一些简单的协同编辑系统等等。然而，由于缺乏最为便捷的语音和图像交互的途径，这些技术仍然显得苍白和使用不便，人机接口的带宽限制成为突出的问题。进入八十年代中后期之后，随着计算机硬件技术的发展，在p c 这样的桌面系统上实现复杂的多媒体应用逐渐成为可能。同时，i s p 也越来越多地提供诸如 a d s l , i s d n , 1 0 m / 1 0 0 m l a n 等高速的i n t e r n e t 终端接入手段，以及主干网吞吐率的大幅度提升，这使得工 n t e r n e t 不再仅仅是一个窄带的、简单数据报业务的网络，同时，视频音频压缩编码技术获得了重大的进展，所有这些成果都使得在 i n t e r n e t这个通用的公众网络中，在通用的软、硬件平台上实现实时的视频音频处理和传输具备了可能性，因此，近些年以来，基于工 n t e r n e t 的分布式多媒体技术成为学术研究和商用开发中一个非常活跃的领域。在分布式多媒体技术领域中，目前最为成熟和实用化的方面，是流媒体方式的v o d( 视频点播)系统。目前m i c r o s o f t 公司的m e d i a s e r v e r , r e a l n e t w o r k s 公司的r e a l s e r v e r ,以及a p p l e 公司的q u ic k t im e s tr e a m i n g s e r v e r ( q t s s ) 等产品己经进入了激烈的市场竟争阶段。 “ 流媒体技术” 的本义是指在音/ 视频点播场合下 ( 单向传输) ，不需事先下载整个媒体文件再播放，只需先缓冲少量数据，边观看边传输的方案，比之传统的“ 下载一播放”方式，它的优势在于大大减少了观看节目的等待时间。流媒体点播系统与多媒体交互系统的核心都在于多媒体流在i n t e r n e t 上的传输，在技术实现上许多方面是一致的。然而，后者相对于前者又具有一些特别的复杂性，主要表现在，首先，前者一般基于单向的广播式发送，而后者要求双向的，交互式的通信。在这种情况下，前者对实时性的要求比后者宽松，侧重于延迟抖动 ( d e l a y j i t t e r ) 的消除因而可以简单地加大缓存分配，而后者对端到端延迟也有很高要求。其次，后者还涉及到共享数据对象 ( 演示文档、白板等) ，而前者一般只是视频音频流，这使得前者的同步控制更加复杂. 综合上面的讨论，我们认为，基于工 n t e r n e t 的远程多媒体交互系统可以认为是三个领域技术和需求相互渗透的结果，即由传统的专用可视通讯系统、简单第一章绪论 c s c w 系统、流媒体点播系统从不同的角度演进而来的( 它们的关系示于图1 - 1 ) 0 i n t e me 侈媒体交互系统专 i 讨通i 鑫系统 cs c w 系统图1 - 1各相关领域的关系示意它综合了以前各种系统的优势和技术成果，使用 i n t e r n e t 公众网和通用的软、硬件平台，较之使用专门网络和硬件的可视通讯系统，成本大大降低，功能基本靠软件实现，修改方便、易于升级和维护。同时还提供了更加丰富的功能，可以很方便地使用共享的白板和演示文档来辅助讨论。而在对协同工作的支持方面，又实现了“ 见其人，闻其声” ，使得交流的效率大大提高。这样的平台在远程教学、远程医疗、视频会议、协同设计、个人娱乐等领域，将有着广泛的应用前景。 1 .2 远程多媒体交互系统的结构及其主要技术问题基于i n t e rn e t 的远程多媒体交互系统总体结构如图1 - 2 所示，实现这样一个系统，其中主要的技术问题可以归结为以下几个方面: 图 1 - 2系统总体结构 1 , i p网络上的实时多媒体流传输:在当前基于数据报方式的、b e s t e f f o r t 的 i n t e r n e t网络中，采用什么样的机制和手段来控制实时媒体流的传输以满足其传输质量以及同步要求。我们将在第三章中详细论述这个问题。 2 、更加便利的交互方式: 视频音频信息引入之后，使用者之间交流的“ 带宽” 将获得很大的扩展，传统共享白板系统所提供的在“ 空白的” 工作区中简单地输入文字或勾画图形来进行沟通的方式其意义已不甚显著，而更希望白板系统向着 “ 共享数据对象” 的方向发展，即能提供工作文档的共享并在此基础上进行讨论。这就带来了针对各种异质文档类型的接口问题，能否采用一种基于组件的，易于扩展的方法来达到通用的数据对象支持?我们在第四章中提出了一种基于第一章绪论 a c t i v e d o c u m e n t 技术的解决方案。 3 、会话记录和多媒体资源库的组织: 像会议和教学中的录像手段一样，多媒体交互系统也有会话场景记录的需求，将整个交互讨论过程录制下来以备日后回放。那么，用何种方式记载交互过程中产生的各种类型的媒体数据，又如何描述它们之间的同步关系，更进一步地，怎样有效地管理和组织这些记载下来的数据以及其它来源的多媒体数据所组成的庞大的，非结构化的多媒体资源库。我们将在第五章和第六章中讨论这些问题。 4 、系统的性能问题:近十年以来，多媒体应用基本上可以认为是桌面系统计算能力飞速发展的主要动因，原因是音频、视频以及 2 d和 3 d图形等应用带来了庞大的数据吞吐率和惊人的计算负载，向系统计算能力的极限提出了挑战。图 1 - 2 所示系统中的视频与音频处理部分就是这方面一个典型的实例。为了能够构建一个实用的系统，就需要在系统设计时认真考虑性能的优化。在第二章中将详细介绍视频与音频处理部分的设计以及我们所采用的提高运行效率的方法。 1 .3 课题的目的和主要内容本课题的目的主要在于两个方面: 1 、实现一套比较完整、实用的多媒体交互系统，以用于实际的项目需求，并为今后进一步的研究工作和各种性能试验提供一个良好的平台。 2 、对基于 i n t e rn e t 的多媒体交互中的一些关键问题进行深入研究，提出解决的方案及相应算法。本课题研究以及本文的主要内容如下: 1 、完成了一个比较完整的 i n t e rn e t 多媒体交互原型系统，系统运行比较稳定，性能较好，可以应用于实际需求。 2 、针对实时多媒体采集、压缩和传输任务带来的繁重负载和支持平台的随机错误问题，详细分析了操作系统、支撑平台和编码解码器的运行机制，提出了一系列改善系统运行效率和稳定性的方法，包括帧批处理方式、环形队列、索引表方式的缓冲区结构、优化的线程调度和协作方法、多线程配合阻塞i / o 的网络接口控制等，运用于实践中取得了良好的效果。 3 、对i p 网络中不利于实时多媒体流传输的因素从各个角度进行了论述。对于传输协议、媒体流同步、差错处理、q o s 和流量控制等问题，在分析现有模型和算法特点的基础上，同时考虑到多点多媒体通信场合的特殊性，提出了改进或简化的算法。分析了网络传输的延迟模型，提出基于概率分布的参数估计来决定接收端的缓存分配的算法。从而给出了一套比较完整的网络传输方案。 4 、对于多媒体交互系统中共享工作文档的需求，提出并实现了一个基于 a c ti v e d o c u m e n t 的共享工作区方案，能够对各种类型的文档对象提供统一的支持，提高使用和交流的效率。由于采用了基于组件对象模型的架构，具有良好的扩展性。 5 、提出利用 s mi l技术来实现交互过程中的会话实时记录以及回放，对使用 s m i l的同步模型进行了研究，针对其存在的问题提出了解决方法，运用 l a m p o rt 逻辑时钟模型来避免时序错误的问题。 6 , 探讨了利用x m l 和基于内容的索引 ( c b r ) 方法进行多媒体数据库的组织。对视频内容索引的核心问题镜头分割进行了研究，给出了一套结合模板第一章绪论匹配和直方图距离判据的镜头分割方法，并采用了变步长和变阂值方法，使准确率和速度都得到了提高。第止章视频音频处理部分的结构及性能优化第二章视频音频处理部分的结构及性能优化本章将介绍视频/ 音频处理部分所使用的开发平台、压缩编码、缓冲区和多线程结构，以及我们采用的一些提高运行效率的措施。视频/ 音频处理的工作过程如图2 - 1 所示: 视频采集月番放卜叫视频压缩1 解压图2 - 1 视频了音频处理部分的的工作过程性能问题的焦点在于视频处理任务，若视频帧符合公用中间格式 c i f ( c o m m o n i n t e r m e d i a t e f o r m a t ) 即3 5 2 x 2 8 8 像素，每像素2 4 b it ，帧速率为2 0 f p s , 则最大 ( 连续)数据吞吐率将不小于: b . . . =3 5 2 x 2 8 8 x 2 4 x 2 0 - 4 8 .6 6 ( m b p s ) ( 2 - 1 ) 视频处理任务的三个模块中，采集模块和网络传输模块都需要频繁的访问慢速外部设备的操作，而压缩编码模块的计算量极大，为了避免各个任务之间彼此阻塞，保证实时性，必须采用多线程的程序结构，这又相应地带来了线程调度以及共享数据访问的互斥问题。如果不严密地考虑保护机制，容易出现运行中的随机错误。我们的系统中采用了 m p e g - 4视频压缩编码，传输比特率和图像的质量较之早期的压缩编码算法获得了显著的提高。但是 mp e g - 4压缩编码同其它压缩算法相比，计算复杂度进一步增大，这使得性能更加恶化。我们用原有的系统在一台p e n ti u m 1 1 3 5 0 , 1 2 8 m内存的p c 系统上运行时，当帧速率 = 1 5 f p s 的时候，实时的压缩编码操作己经很难顺利进行。因此，要求我们必须对开发支持平台、线程和缓冲区结构等进行认真的研究，以提高运行效率和稳定性。 2 . 1 v f w 和软件c o d e c 技术当前，主要的视频涪频应用支持平台包括j mf ( j a v a me d i a f o r m a t ) , v f w ( v i d e o f o r w i n d o w s ) ，以及d i r e c t s h o w等。其中， v f w在成熟性，兼容性和运行效率等方面达到了较好的统一，自1 9 9 2 年正式发布以来，绝大多数产品化的视频/ 音频应用都是基于v f w的。 v f w包括如下主要模块: a v i f i l e f u n c t i o n s a n d ma c r o s :提供了一套专用的a p i 来处理诸如a v i . w a v 这样的所谓r i f f ( r e s o u r c e in t e r c h a n g e f il e f o r m a t ) 文件。这类用于多媒体数据存储的文件格式有着自己鲜明的特点，首先，其尺寸往往很大，达到几十到几百mb数量级。其次，它们所包含的数据是时间敏感 ( t im e - s e n s i t iv e )的，有其特定的时间关系。由于这些原因，以传统的基于数据块的访问方式来对这些文第二章视频音频处理部分的结构及性能优化件进行操作，效率将是很低的。 a v i f i l e a p i 采用了基于流的方式来处理r i f f 文件，即将这些文件视为数据流而非简单数据单元的集合，并针对其特点进行了优化，从而使访问文件的效率大大提高。在第五章中，我们将使用a v i f i l e a p i 来实现会话场景记录的功能 v i d e o c a p t u 二在v f w出现之前，数字视频的采集是一项相当复杂的工作，开发者需要面对来自不同厂商的采集设备，熟悉它们各自提供的驱动程序和开发接口，而v i d e o c a p t u r e 提供了一套设备无关的接口用于控制采集设备、设置视频格式等。可以同时完成视频和音频流的采集，通过用户定义的回调函数 ( c a l l b a c k f u n c t i o n s ) 获取视频/ 音频数据以及时间戳等必要信息，使开发工作大大简化。 d r a w d i b : 提供一套高效率的图像显示a p i 用于视频的回放。采用了直接写入显示缓冲区的底层调用接口，具有丰富的图像操作功能。 v c m与a c m:视频压缩管理器v c m ( v i d e o c o m p r e s s i o n m a n a g e r ) 和音频压缩管理器a c m ( a u d i o c o m p r e s s io n m a n a g e r ) 是操作系统用于管理系统中所安装的视频和音频编码解码器的模块。由于视频/ 音频处理的核心问题在于压缩编码，因此 v c m和 a c m成为系统设计中最重要的部分。它秉承了v f w 贯穿始终的思路，以类似于协议栈的形式制定了独立于底层模块的标准调用界面，屏蔽了不同厂商，不同算法类别的视频/ 音频编码解码器的相异之处。这种调用和实现相分离的方法，贯彻了软件组件化的设计思路，提高了应用系统的可移植性。同时v c m和a c m负责编码解码器模块在操作系统中的安装、注册和卸载管理，提供枚举编码解码器列表的接口，使编码解鹤器模块的开发和使用都变得简便。符合v c m和a c m规范的编码解码器软件模块在v f w术语中称作c o d e c 在系统注册表中用一个 “ 四字节码” ，也就是一个3 2 位的特征字唯一标识。正是由于v c m和a c m 良好的体系结构，wi n d o w s 平台上第三方提供的软c o d e c 技术得到了良好的发展，因为在这种支撑环境下，不必为应用层接口的标准化问题绞尽脑汁，c o d e c只需同v c m和 a c m 打交道，任何人都可以按照规范编写c o d e c组件并被高层应用无差别地重用。很多大公司如 i n t e l 等，都开发了符合v c m和a c m标准的软c o d e c ，用于单独出售或以o e m的方式提供。软 c o d e c的开发技术成为被广泛关注的论题，一些非盈利组织和独立开发团体也推出了f r e e 形式的，同时性能相当优良c o d e c组件。加上wi n d o w s 操作系统本身预装了多种算法的c o d e c ，给应用开发提供了广泛的选择。以上的这些工作，大大促进了视频/ 音频应用在p c 平台上的发展。利用软c o d e c来开发多媒体应用系统虽然有着低成本、不需额外硬件、部署和扩展灵活的优势，但也存在一些必须注意的问题。首先是编解码算法全部要由c p u执行，这对系统的处理能力是一个挑战。其次，使用各种来自不同厂商的、运行时加载 ( r u n t im e l o a d e d )的c o d e c组件，有必要考虑到它们本身的运行时错误带来的影响，在系统设计中应该对此采用一定的对策。因为出于提高编解码算法执行效率的目的，基本上所有的c o d e c组件在算法实现时都使用了基于mm x汇编指令集的优化 ( 详见 2 . 2小节) 。这些汇编代码的引入有时确实容易导致程序的稳定性下降。另外，v c m试图提供一种 “ 包罗万象”的标准，但事实上，由于编码解码器的开发者有着各不相同的设计侧重点和实现方案，实际上并不是v c m中定义的所有的接口都得到了完全的、良好的支持。例如一些用于设置比特率、 k e y 帧速率、压缩质量的接口，有些控制手段仍需要通过直接第二章视频音频处理部分的结构及性能优化改写编码解码器的控制数据块 c o n t r o l b l o c k ) 来完成。为此，我们专门编写了一个用于调试编码解码器的工具，可以观察和测试编码解码器的控制数据块的内容，为系统研发提供了有力的支持。 2 . 2 视频压缩编码技术简述视频的压缩编码是整个系统成功与否最为关键的因素之一。一方面，客户端程序大部分的运算负载来自于视频压缩模块，它的执行效率对性能的影响最为突出。另一方面，基于i n t e r n e t 的多媒体交互系统的核心矛盾就在于高带宽、高实时性要求的多媒体流需要在没有带宽保证的i p网络上传输，而这其中视频流的带宽又占据了主要部分。在下一章讨论传输质量和传输控制机制等问题时，不可避免地需要考虑信源和信道的交互作用，因此，在此有必要对视频编码的算法及其特点进行研究。视频数据的数据量虽然极为庞大，但同时，视频数据往往又是高度相关的，相关性带来了信息的冗余。视频数据的冗余可以分为空间冗余、时间冗余、信息墒冗余 ( 编码冗余) 、结构冗余、知识冗余、视觉冗余等来源。这些形式的冗余就是视频压缩编码的出发点，编码算法要尽可能地消除这些冗余，以降低表示视频所需的数据量。如今己经投入使用的压缩算法基本上都是mc( 运动补偿) 十t c( 变换编码) + v l c( 变长编码)的结合。以m p e g - 1 为例9 1 ，它使用了基于 1 6 x 1 6 像素宏块的运动预测和补偿。在8 x 8 像素块内进行d c t 变换，进行量化后，大量d c t 系数将为0 ，此时进行行程编码是很有效的，再结合霍夫曼编码，信息量获得了很高的压缩比率。 mp e g - 1 的码率为用于音频，其余用于 mp e g - 1 1 .5 m b p s ，其中l . l m b p s 用于视频， 1 2 8 k b p s 系统本身。 mp e g - 1 将 1 / 3 0 秒时间间隔的帧序列图像以三种类型的图像表示 ( 如图2 - 2 所示) : 1 )帧内图 ( i n t r a p ic tu r e s ) 2 )预测图 ( p r e d i c te d p i c t u r e s ) 3 )双向图 ( b i d i r e c t i o n a l p i c t u r e s ) 图中帧内图 ( 1 ) 以静止图像压缩方法处理，帧内图进行预测，对预测误差作有条件的传送信息进行双向插补，必须传送;预测图( p ) 要用前面的 ; 双向图 ( b ) 可以根据前、后图的帧间的信息用运动补偿的方法确定。双向预测图2 - 2 mp e g - 1 的帧序列结构需要指出的是， m p e g - 1 的帧序列模式事实上并不适于网络传输的场合，原第二章视频音频处理部分的结构及性能优化因是b帧 ( 双向预测帧) 需要等待它后面的p 帧解码后才能解码，这不仅减少了对差错的抵抗能力 ( p 帧丢失或损坏将造成相关的b帧无法解码) ，而且使得帧传输顺序同解码顺序不一致，给各种控制带来了额外的麻烦。因此，h 2 6 1 和目前一些版本的m p e g - 4 实现中没有使用b帧， h 2 6 3 则提供了p b帧模式，将相邻的一个 p帧和一个b帧编码在一个帧结构中传输，这种编码方式对误码扩散有抑止作用。由于视频压缩编码的计算复杂度较大，目前绝大部分的软c o d e c在实现时都利用了处理器mmx和s s e指令集提供的优化手段。mm x和s s e是i n t e l 架构处理器专门为计算密集型的多媒体处理任务设计的处理器扩展指令集。可以使用s i md( 单指令流多数据流)的工作方式。以mmx指令集为例， c p u提供了 8 个通用6 4 位寄存器，可以将视频压缩中广泛使用的8 b i t ( 1 b y t e ) 数据元素每 8 个紧缩在一个寄存器中，有一系列指令可以并行地对这些数据元素进行算术和逻辑运算。一条 m mx指令可以同时操作8 个字节，一个处理器时钟周期可以执行两条这样的指令，这就意味着一个时钟周期中可以处理1 6 个字节数据元素。使用m m x和s s e指令集主要通过高级语言中嵌入的汇编语言，但目前已经有个别的高级语言编译器支持mm x和s s e优化。 m p e g - 1 和m p e g - 2 在消费类媒体市场取得了巨大的成功，但它们过高的比特率和内部结构不适合网络视频传输的需要。而mp e g - 4 和i t u - t的h .2 6 3 标准则将视频压缩的效率提升到了一个新的高度。更为重要的是mp e g - 4 和h .2 6 3 在制定是就充分考虑到了在时变的、不可靠的网络信道下多媒体流传输的应用需求，提出了一系列可分级扩展编码和检错容错的技术b . ,z ，为网络多媒体通信提供了有力的支持。 2 . 3 运行效率优化的方法客户端系统共有三个线程: 相互协作是影响性能的重要因素视频采集、视频压缩、网络传输，它们的调度和 1 、数据压缩的批处理方式: 纂拼1一 3k, izr 4#toj t _qj(f; cii a th94# 20 mite, ) , c )a# r if, a ttb gtaj ( .i t t777 -,%r.1 1 t* t -tnjia, ) k117i if-p # ,fa-,ttt1rk (x 14 n-1 *a) )jr*, -*f-yt)uatbf l 4 g$31i 11/no 程控毁操成后设备理的的实 2 、环形索引表的缓冲区数据结构 : 由于各个线程之间交换数据以及网络缓存的需要，系统中需要分配多处分别由不同线程读、写的数据缓冲区，缓冲区的粉恨仕如收升, 于奋干筋索六产卜导 n 向在不连续寻址的情况下，线性表的时间效率高于链式表，复杂度为o ( 1 ) ，而链表为。 ( n ) 线性表操作的时间但压缩的视频流是一种典型的v b r( 变比特率) ，各个数据包的大小差别很大，率上不如链表结构。因此，我们采用了索引表方式的缓冲区组织，这综合了线性夯卞者知浓务卞才卉时闻知2 -f n闻伪本卜 m 当t t l 为1 时，多址广播数据报就被发送到本地子网上;当 t t l 大于1 时，有多址广播能力的路由器就可以传送数据报，每传送一次，它就把t t l 值减1 ，如果t t l 值达到0 ，路由器就丢弃这个数据报。尽管多播方式对于多点多媒体通信系统是很好的方案，而且在客户端数量众多时，几乎是必须的方案，然而，由于目前工 n t e r n e t 上的软、硬件对多播的支持有限，使得多播的使用受到很大限制。目前较新的操作系统对多播的支持比较良好。 w i n d o w s 平台下， w i n s o c k 2 . 0 开始支持多播，而l i n u x 平台下，简单地通过s e t s o c k o p t 系统调用完成加入和退出多播组的操作，数据的发送和接收同标准u d p 完全相同。然而，多播的实现要求在路径上的所有路由器都支持多播，而在实际的网络运营中，出于网络安全和减轻负载的目的，很少有路由器真正开放了对多播的支持，即使在校园网内也是如此，这使多播的方式往往无法跨出发送端的子网，而只在局域网的范围内才有意义。此外，目前的多播机制本身也存在一定的问题，在一个多播组内只存在单个数据流，这给q o s 控制带来了一定的麻烦 ( 例如流量的调节、差错处理等) 。而且目前所实现的i p 多播只能是基于u d p 的，而且是不可靠的，在网络服务失败时没有恢复机制来恢复多播。可靠组播传输协议 r mt p ( r e l i a b l e mu l t i c a s t 第三章工 n t e r n e t 上的多媒体流传输 t r a n s p o r t p r o t o c o l r f c 2 3 5 7 ) 还很少被支持。多播的安全性管理也相当棘手，由于i p多播使用u d p ，任何主机都可以向某个多播地址发送 u d p包，并且低层多播机构将传送这些u d p 包到所有组成员。且组成员可以随时加入/ 退出多播组。同时，i n t e m e t 又缺少对于网络层的访问控制。这几点使多播安全性问题同多播的可靠性问题一样难以解决。月 r o 3 - 3 以上这些因素制约了多播方式的有效使用，有待于网络基础架构的进步来克我们的系统中也实现了多播功能，但更重要的工作方式还是依靠单播。多媒体同步在多媒体网络传输中，维护各个媒体流之间的同步，也就是正确地保持各个媒体对象之间木来的时态关系，是衡量传输质量的一个重要因素。相关研究给出了如下结论: a ) 当偏移在一 8 0 m s( 音频滞后视频) 一十 8 0 m s ( 音频超前视频) 范围内，多数观众不会有明显的感觉，可视为同步区间。 b ) 当偏移在一 1 6 0 m s -+ 1 6 0 m s 范围之外时，几乎所有观众都对播映不满意，可视为失步区间 2 3 1 多媒体同步问题可以从多媒体同步描述模型和多媒体同步控制策略两个层次来讨论。前者致力于给出一种规范地描述媒体对象之间时态关系的手段。后者则是针对诸如网络延迟与延迟抖动、进程调度延迟等各种因素带来的负面影响，研究同步信息的表达、传递以及同步控制算法，具体地实现比较满意的同步控制。 3 . 3 . 1 多媒体同步描述模型目前较为使用较为广泛的的同步描述模型包括层次同步模型，时间轴同步模型( 参考线同步模型) ，参考点同步模型，以及对象复合的p e tr i 网( o c p n ) 模型等。 1 ) 层次同步模型:层次同步模型将所有多媒体对象的关系作为一个树型结构来描述，由串并行演示子树组成，主要基于动作的串行同步和并行同步两种操作。它的优点是层次清晰，管理方便。但这种模型中每个节点 ( 对象) 的同步点只在开始和结束两处。用它来描述图片、文字等离散媒体的同步关系是非常合适的。但对于语音和视频等连续媒体的同步，由于其同步不仅在开始和结束两处需要，而且在中间过程也需要，因此很难适应。 2 )时间轴同步模型: 在时间轴同步模型中，将所有的单个媒体对象放在一个代表真实时间的时间轴上，各个媒体之间是相互独立的。这样一个对象的丢失或略去不会影响其它对象的同步，因此维护起来较为方便。这种模型对那些起始点固定的多媒体对象而言，无疑是非常适合的。但在本课题中，音频数据和视频数据都是经由网络传送过来的，由于i n t e rn e t 传输的延迟抖动使得媒体数据的开始点不固定。因此本课题也不适合采取此同步模型。 3 ) 参考点同步模型: 此同步模型将连续媒体看作由一系列离散的逻辑数据单元 ( l d u )构成的序列，每个l d u所在的位置称为一个参考点。不同的对象之间的同步是通过将其在同一时刻的l d u相连接来定义的。这种模型从理论上讲，是比较完各、严谨的，可以集成交互式媒体对象，也可以集成对偏移 q o s 的描述。由于该方法对媒体对象间的关系进行直接描述，因此维护起来较为复杂。第三章 i n t e r n e t 上的多媒体流传输在实现中，一般选择某一媒体对象作为主媒体流，在其l d u序列中选择同步点，其它媒体流称为从媒体流，按照主媒体流的同步点来进行同步。这样，主媒体流的差错有可能造成整个同步的瘫痪。需要考虑对这个问题的解决方法。 4 )对象复合的p e t r i 网( o c p n ) 模型及其扩展: p e t r i 网是一种并发系统及其同步关系的建模工具 2 5 ， p e t r i 网可以用直观易懂的图形表示，用户界面极好。它具有异步并发特性，并且与物理系统极其近似，在信息科学的许多领域得到了应用。简单p e t r i 网转移触发时间是不确定的。转移触发为一既时事件。为了描述p e t r i 网中的非零时间费用，需要在p e t r i 网中引入时间约束，既赋予每个转移一个触发期间或赋予每个位置一个运行时间。这种增强型p e t r i 网称为定时p e t r i 网 ( t p n ) 。以定时p e tr i 网为基础可以描述多媒体信息的同步关系。对象合成p e tr i 网定义为六元组n o c p n = t , p ,a , d , r , m 这里t 和p 分别为转移集和位置集; a : t x p u p x t - - i ,i = 1 , 2 , 3 - 二为有向弧集; d :p - r 为运行期间集，它定义了由位置集向实数集的映射，实数值 r i 表示对象合成 p e t r i 网中的时间约束; r : p - r l ,r 2 ,r 3 . . . r k 定义了由位置集向时间集的映射; m :p - - i ,i = 1 ,2 ,3 二定义了由位置集向整数集的映射，它表现位置集中标记的分布。对象合成p e t r i 网的触发规则为: a ) 当一个转移的所有输入位置均含有解锁标记时，该转移立即触发。 b ) 转移触发后，则从每一输入位置移去标记，赋予每一输出位置一个标记。 c ) 一个位置获得标记后，在运行期间内保持活动状态。在此期间，标记处于锁定状态。当运行期间耗尽时标一记转为解锁状态。令对象合成p e t ri网的资源集元素表示分布式多媒体系统中由数据库或通信信道获得的媒体对象，将媒体对象分解为一系列同步单元，赋予每一同步单元一个运行期间，令位置表示对各同步单元的处理过程，令转移表示媒体间的同步点。此时，可以利用对象合成p e t ri网描述媒体间的同步关系。如图所示为幻灯片演示的对象合成p e t r i 网模型。演示由一系列图像元素和声音元素组成，对应的图像元素和声音元素具有相同的运行期间。位置li 和位置a i i = 1 ,2 ,3 . . . n 分别表示图像元素和声音元素的运行期间，转移表示图像元素和声音元素的同步点。当第一个声音元素的运行期耗尽时，位置a i 解锁其标记，同时位置i i 也解锁其标记，转移得以立即触发。演示后继图像/ 声音对。媒体内和媒体间的各种时间关系均可以映射至对象合成p e t r i 网，调整运行期间t ，可以控制同步粒度。在以上几种同步模型中，参考点同步模型和 o c p n模型是比较深刻和丰富的，比较适合网络传输条件下连续媒体 ( 音频/ 视频)对象的描述。而且在某种程度上可以认为参考点模型与对象合成 o c p n模型是一致的，它们的共同点都是依靠同步点，这些同步点可以是时间维上的刻度，也可以是媒体本身携带的间隔标记。参考点同步模型将连续媒体简单地看作由一系列离散的l d u构成的序列，没有表现出媒体流的连贯特性，对于内部关系更加复杂的多媒体对象系统，对媒体对象之间的并发关系的描述相对困难，而 o c p n模型在这方面有着更大的潜力。在我们的系统中，同时包含离散媒体对象 ( 消息、白板和共享数据对象) 和连续媒体对象音频/ 视频) 。因此描述模型可以采用层次模型和o c p n模型结合。用层次同步模型的树状结构描述离散媒体对象相互之间及其与连续媒体对象之间的关系，用o c p n模型描述音频和视频这两个流之间的同步关系。如下图3 - 8 : 第三章 i n t e r n e t 上的多媒体流传输 v i d e o v i d e ov i d e ov i d e ov i d e o a u d i oa u d i o 图3 一 8 实时视频、音频同步的模型图3 - 8 中两个同步点之间的一个音频帧和若干视频帧的集合为一个播放控制的一个单元来处理。 3 . 3 . 2 同步信息的表达和传递同步模型确定之后，接下来的问题就是信源端应该怎样组织根据同步模型得到的各媒体对象之间的同步描述信息，并以何种方式在网络上传递这些信息。这是需要根据具体应用的需求，媒体对象的性质，以及信道的特点来决定的。目前，理论和实践中主要给出了如下一些方法: 1 ) 多路复用同步技术该方法将多个媒体流复用成为一个数据流，通过一条信道传输，接收方需要解复用而无须重新同步。该方法十分简单，同步信息实际上隐含地由数据对象的空间关系来描述。无须时钟同步，也不需要额外信道来传输同步信息。在目前的数字电视系统中 mp e g - 2视频流和音频流就通过这种方

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（模式识别与智能系统专业论文）基于internet的多媒体交互平台关键技术的研究.pdf

文档简介

温馨提示

最新文档

评论

（模式识别与智能系统专业论文）基于internet的多媒体交互平台关键技术的研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档