(模式识别与智能系统专业论文)基于internet的多媒体交互平台关键技术的研究.pdf_第1页
(模式识别与智能系统专业论文)基于internet的多媒体交互平台关键技术的研究.pdf_第2页
(模式识别与智能系统专业论文)基于internet的多媒体交互平台关键技术的研究.pdf_第3页
(模式识别与智能系统专业论文)基于internet的多媒体交互平台关键技术的研究.pdf_第4页
(模式识别与智能系统专业论文)基于internet的多媒体交互平台关键技术的研究.pdf_第5页
已阅读5页,还剩65页未读 继续免费阅读

(模式识别与智能系统专业论文)基于internet的多媒体交互平台关键技术的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中 文 摘 要 随着 i n t e r n e t基础架构的发展以及视频音频压缩技术的进步,基于 工 n t e r n e t和通用软硬件平台的多媒体交互系统受到了越来越广泛的重视。本文 以 建立一个实用的工 n t e r n e t 多媒体交互平台原型为目 标,对其中若干关键问 题 进行了研究和探讨。 由于实时视频音频压缩巨大的计算复杂度, 本文首先提出了一系列提高系统 运行效率的方法。针对 i p网络不适应实时多媒体通信的一些特点,对多媒体流 网络传输中的传输协议、 q o s 机制与流量控制、媒体同步、差错处理、延迟模型 和缓存分配进行了 研究, 给出了相应的算法和具体实现方案。 对于多媒体交互系 统中共享工作文档以及会话自 动记录的需求, 提出了使用 a c t i v e d o c u m e n t和 s m i l 的方法, 较好地解决了这两个问题。 最后, 探讨了视频内 容分析与索引技术, 给出了一个效率较高的镜头分割算法。 关键词:多媒体通信、c s c w , r t p 、多媒体同步、s m i l ,镜头分割 ab s t r a c t wit h t h e r a p i d p r o g r e s s o f i n t e r n e t b a n d w i d t h , a n d m u l t i m e d i a c o m p r e s s i o n c o d i n g , m u l t i m e d i a c o m m u n i c a t i o n s y s t e m s b a s e d o n i n t e rn e t a n d c o m m o n s o f t w a r e / h a r d w a r e h a v e b e c o m e m o r e a n d m o r e i m p o r t a n t i n m a n y r e g i o n s . i n t h i s p a p e r , o u r r e s e a r c h f o c u s e d o n s o m e k e y t h e m e s o n i n t e r n e t m u l t i m e d i a c o m m u n i c a t i o n s i n o r d e r t o c o n s t r u c t a n a v a i l a b l e p r o t o t y p e s y s t e m. b e c a u s e o f t h e s i g n i f ic a n t c o m p u t i n g l o a d o f r e a l - t i m e v i d e o c o m p r e s s i o n , f i r s t , w e p r e s e n t a s e r i e s o f a p p r o a c h f o r o p t i m i z i n g s y s t e m p e r f o r m a n c e . t h e n , a g a i n s t t h e p o o r q o s c a p a b i l i t y o f i p n e t w o r k , s c h e m e s a n d a l g o r i t h m s o n t r a n s p o r t p r o t o c o l s , fl o w c o n t r o l , m u l t i m e d i a s y n c h r o n i z a t i o n , e r r o r c o n t r o l , d e l a y m o d e l a n d b u f f e r a l l o c a t i o n w a s s t u d i e d . f o r t h e p u r p o s e o f d o c u m e n t s s h a r i n g a n d s e s s i o n r e c o r d i n g , w e p r e s e n t a p p r o a c h b a s e d o n八 c t i v e d o c u m e n t a n d s mi l . f i n a l l y , w e p r e s e n t a a l g o r i t h m o f v i d e o s h o t s e g m e n t a t i o n w i t h h i g h p e r f o r m a n c e . k e y w o r d s : mu l t i m e d i a c o m m u n i c a t i o n s s y n c h r o n i z a t i o n , s h o t s e g m e n t a t i o n s mi l , mu l t i m e d i a 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果, 除了文中 特别加以标注和致谢之处外, 论文中不包含其他人己 经发表 或 撰 写 过 的 研 究 成 果 , 也 不 包 含 为 获 得 二 玉 建叁兰- 或 其 他 教 育 机 构 的 学 位 或 证 书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 二、人 、_, *、 、 护、一_ _ ,_ , _ 、_ ,_ 子 u l g 关 作 有 金 石 补 弋金 子 日 朋 u ) 牛 月。目 学位论文版权使用授权书 本 学 位 论 文 作 者 完 全了 解. ) f- ;* k*. 有 关 保留 、 使 用 学 位 论 文 的 规 定。 特 授 权 达生左 _ 可 以 将 学 位 论 文 的 全 部 或 部 分 内 容 编 入 有 关 数 据 库 进 行 检 索, 并采用影印、 缩印或扫描等复制手段保存、 汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学 位 论 文 作 者 签 名 : 诀 愉 签 字 日 期 :。 ) 年 王 月 日 导 师 签 名 : 育 长 折子 签 字 日 期 :0 3年 2月石 日 第一章绪论 第一章绪论 1 . 1 课题的背景和意义 能够足不出 户地与远方的亲友或者业务伙伴进行面对面的交流, 一直以来就 是人们对于现代信息和通讯技术最大的期望之一。 在这个需求的催促之下, 从上 个世纪 七十年 代以 来, 一 代又一代的 可视电 话和视 频会议产品 被 研发和实 用化, 催生了一系列相关国际标准的制定。 然而, 这一类远程视频交互系统一般都属于 专用系统,由 大量定制的处理芯片、 终端和网关设备组成, 使用专门的高带宽的 电 信网 络, 使 用 低 层 协议( 一 般 在数 据 链 路层) 直 接 封 装和 传 输 媒 体流。 这 些专 用系统高昂的价格使其在面向 大众的普及应用方面裹足不前。 与此同时, 近二十多年中,i n t e rn e t 作为一个通用的,最广泛的共享信息平 台, 在世界范围内得到了长足的发展,日益成为社会文化和生活方式的重要组成 部分。当早期的 b b s 、新闻组、电子邮件这些非实时性的交互方式已经不在能 够满足人们即时沟通的愿望时,一系列实时 c s c w 的方法和技术得到了广泛的 应用, 例如共享白 板、w e b 聊天室、以及一些简单的协同编辑系统等等。然而, 由于缺乏最为便捷的语音和图像交互的途径,这些技术仍然显得苍白和使用不 便,人机接口的带宽限制成为突出的问题。 进入八十年代中后期之后,随着计算机硬件技术的发展,在p c 这样的桌面 系统上实现复杂的多媒体应用逐渐成为可能。同时,i s p 也越来越多地提供诸如 a d s l , i s d n , 1 0 m / 1 0 0 m l a n 等高速的i n t e r n e t 终端接入手段,以及主干网吞吐 率的大幅度提升, 这使得工 n t e r n e t 不再仅仅是一个窄带的、简单数据报业务的 网络,同时, 视频音频压缩编码技术获得了重大的进展, 所有这些成果都使得在 i n t e r n e t这个通用的公众网 络中,在通用的软、 硬件平台上实现实时的视频音 频处理和传输具备了可能性,因此,近些年以来,基于 工 n t e r n e t 的分布式多媒 体技术成为学术研究和商用开发中一个非常活跃的领域。 在分布式多媒体技术领 域中,目 前最为成熟和实用化的方面,是流媒体方式的v o d( 视频点播)系统。 目 前m i c r o s o f t 公司的m e d i a s e r v e r , r e a l n e t w o r k s 公司的r e a l s e r v e r ,以 及a p p l e 公 司的q u ic k t im e s tr e a m i n g s e r v e r ( q t s s ) 等 产品己 经 进入了 激烈的 市场竟争阶段。 “ 流媒体技术” 的本义是指在音/ 视频点播场合下 ( 单向传输) , 不需事先下 载整个媒体文件再播放, 只需先缓冲少量数据, 边观看边传输的方案,比之传统 的“ 下载一 播放”方式,它的优势在于大大减少了观看节目的等待时间。流媒体 点播系统与多媒体交互系统的核心都在于多媒体流在i n t e r n e t 上的传输,在技 术 实 现上 许 多 方 面 是一 致的。 然而, 后 者 相 对 于 前 者 又 具 有一 些 特别的 复 杂性, 主要表现在, 首先, 前者一般基于单向的 广播式发送, 而后者要求双向的, 交互 式的通信。在这种情况下,前者对实时性的要求比后者宽松,侧重于延迟抖动 ( d e l a y j i t t e r ) 的消除因而可以 简单地加大缓存分配, 而后者对端到端延迟也有 很高要求。其次,后者还涉及到共享数据对象 ( 演示文档、白板等) ,而前者一 般只是视频音频流,这使得前者的同步控制更加复杂. 综合上面的讨论,我们认为,基于 工 n t e r n e t 的远程多媒体交互系统可以认 为是三个领域技术和需求相互渗透的结果, 即由传统的专用可视通讯系统、 简单 第一章绪论 c s c w 系统、 流媒体点播系统从不同的角度演进而来的( 它们的关系示于图1 - 1 ) 0 i n t e me 侈 媒体 交互系统 专 i 讨 通i 鑫 系统 cs c w 系统 图1 - 1各相关领域的关系示意 它综合了以前各种系统的优势和技术成果,使用 i n t e r n e t 公众网和通用的软、 硬件平台, 较之使用专门网络和硬件的可视通讯系统, 成本大大降 低, 功能基本 靠软件实现, 修改方便、易于升级和维护。同时还提供了更加丰富的功能,可以 很方便地使用共享的白 板和演示文档来辅助讨论。而在对协同工作的支持方面, 又实现了“ 见其人,闻其声” ,使得交流的效率大大提高。这样的平台在远程教 学、 远程医疗、 视频会议、 协同设计、 个人娱乐等领域, 将有着广泛的应用前景。 1 .2 远程多媒体交互系统的结构及其主要技术问题 基于i n t e rn e t 的远程多媒体交互系统总体结构如图1 - 2 所示,实现这样一个 系统,其中主要的技术问题可以归结为以下几个方面: 图 1 - 2系统总体结构 1 , i p网络上的实时多媒体流传输:在当前基于数据报方式的、b e s t e f f o r t 的 i n t e r n e t网络中, 采用什么样的机制和手段来控制实时媒体流的 传输以 满足其 传输质量以 及同 步要求。我们将在第三章中详细论述这个问题。 2 、更加便利的交互方式: 视频音频信息引 入之后, 使用者之间交流的“ 带宽” 将获得很大的扩展, 传统共享白板系统所提供的在“ 空白的” 工作区中简单地输 入文字或勾画图形来进行沟通的方式其意义已不甚显著, 而更希望白板系统向着 “ 共享数据对象” 的方向发展, 即能提供工作文档的共享并在此基础上进行讨论。 这就带来了针对各种异质文档类型的接口问题, 能否采用一种基于组件的, 易于 扩展的方法来达到通用的数据对象支持?我们在第四章中提出了一种基于 第一章绪论 a c t i v e d o c u m e n t 技术的 解决方案。 3 、会话记录和多媒体资源库的组织: 像会议和教学中的录像手段一样,多媒体 交互系统也有会话场景记录的需求,将整个交互讨论过程录制下来以备日 后回 放。 那么, 用何种方式记载交互过程中产生的各种类型的媒体数据, 又如何描述 它们之间的同步关系, 更进一步地, 怎样有效地管理和组织这些记 载下来的数据 以及其它来源的多媒体数据所组成的庞大的, 非结构化的多媒体资源库。 我们将 在第五章和第六章中讨论这些问题。 4 、系统的性能问题:近十年以来,多媒体应用基本上可以认为是桌面系统计算 能力飞速发展的主要动因,原因是音频、视频以及 2 d和 3 d图形等应用带来了 庞大的数据吞吐率和惊人的计算负载,向系统计算能力的极限提出了 挑战。图 1 - 2 所示系统中的视频与音频处理部分就是这方面一个典型的实例。 为了能够构 建一个实用的系统, 就需要在系统设计时认真考虑性能的优化。 在第二章中将详 细介绍视频与音频处理部分的设计以及我们所采用的提高运行效率的方法。 1 .3 课题的目的和主要内容 本课题的目的主要在于两个方面: 1 、实现一套比较完整、实用的多媒体交互系统,以用于实际的项目需求,并为 今后进一步的研究工作和各种性能试验提供一个良 好的平台。 2 、对基于 i n t e rn e t 的多媒体交互中的一些关键问题进行深入研究,提出解决的 方案及相应算法。 本课题研究以及本文的主要内容如下: 1 、完成了一个比 较完整的 i n t e rn e t 多媒体交互原型系统,系统运行比较稳定, 性能较好,可以应用于实际需求。 2 、针对实时多媒体采集、压缩和传输任务带来的繁重负载和支持平台的随机错 误问 题,详细分析了操作系统、支撑平台和编码解码器的运行机制,提出了 一系列改善系统运行效率和稳定性的方法,包括帧批处理方式、环形队列、 索引 表方式的 缓冲区结构、 优化的线程调度和协作方法、 多线程配合阻塞i / o 的网络接口控制等,运用于实践中取得了良 好的效果。 3 、 对i p 网络中不利于实时多媒体流传输的因素从各个角度进行了论述。 对于传 输协议、媒体流同步、差错处理、q o s 和流量控制等问 题,在分析现有模型 和算法特点的基础上,同时考虑到多点多媒体通信场合的特殊性, 提出了改 进或简化的 算法。 分析了网 络传输的延迟模型, 提出 基于概率分布的参数估 计来决定接收端的缓存分配的算法。从而给出了一套比 较完整的网 络传输方 案。 4 、对于多媒体交互系统中共享工作文档的需求,提出并实现了一个基于 a c ti v e d o c u m e n t 的 共享工作区方案,能 够对各种类型的 文档对象提供统一的支持, 提高使用和交流的效率。由 于采用了 基于组件对象模型的架构,具有良 好的 扩展性。 5 、提出利用 s mi l技术来实现交互过程中的会话实时记录以及回放,对使用 s m i l的同步模型进行了 研究,针对其存在的问题提出了 解决方法,运用 l a m p o rt 逻辑时 钟模型来避免时 序错 误的问 题。 6 , 探讨了利用x m l 和基于内 容的索引 ( c b r ) 方法进行多媒体数据库的组织。 对视频内 容索引的核心问题镜头分割进行了 研究,给出了一套结合模板 第一章绪论 匹配和直方图 距离判据的镜头分割方法,并采用了变步长和变阂值方法,使 准确率和速度都得到了提高。 第止章 视频音频处理部分的结构及性能优化 第二章视频音频处理部分的结构及性能优化 本章将介绍视频/ 音频处理部分所使用的开发平台、压缩编码、缓冲区和多 线程结构,以及我们采用的一些提高运行效率的措施。视频/ 音频处理的工作过 程如图2 - 1 所示: 视频采集月 番 放 卜叫 视频压缩1 解压 图2 - 1 视频了 音频处理部分的的工作过程 性能问题的焦点在于视频处理任务,若视频帧符合公用中间格式 c i f ( c o m m o n i n t e r m e d i a t e f o r m a t ) 即3 5 2 x 2 8 8 像 素, 每 像 素2 4 b it , 帧 速 率 为2 0 f p s , 则最大 ( 连续)数据吞吐率将不小于: b . . . =3 5 2 x 2 8 8 x 2 4 x 2 0 - 4 8 .6 6 ( m b p s ) ( 2 - 1 ) 视频处理任务的三个模块中, 采集模块和网络传输模块都需要频繁的访问慢 速外部设备的操作, 而压缩编码模块的计算量极大, 为了避免各个任务之间彼此 阻塞, 保证实时性, 必须采用多线程的程序结构, 这又相应地带来了线程调度以 及共享数据访问的互斥问题。 如果不严密地考虑保护机制, 容易出现运行中的随 机错误。 我们的系统中 采用了 m p e g - 4视频压缩编码,传输比特率和图像的质量较 之早期的压缩编码算法获得了显著的提高。但是 mp e g - 4压缩编码同其它压缩 算法相比, 计算复杂度进一步增大, 这使得性能更加恶化。 我们用原有的系统在 一 台p e n ti u m 1 1 3 5 0 , 1 2 8 m内 存 的p c 系 统 上 运 行时 , 当 帧 速 率 = 1 5 f p s 的 时 候, 实时的压缩编码操作己经很难顺利进行。 因此, 要求我们必须对开发支持平台、 线程和缓冲区结构等进行认真的研究, 以提高运行效率和稳定性。 2 . 1 v f w 和软件c o d e c 技术 当前,主要的视频涪 频应用支持平台包括j mf ( j a v a me d i a f o r m a t ) , v f w ( v i d e o f o r w i n d o w s ) , 以 及d i r e c t s h o w等。 其中, v f w在成熟性, 兼容性和运 行效率等方面达到了较好的统一,自1 9 9 2 年正式发布以来,绝大多数产品化的 视频/ 音频应用都是基于v f w的。 v f w包括如下主要模块: a v i f i l e f u n c t i o n s a n d ma c r o s :提供了一套专用的a p i 来处理诸如a v i . w a v 这 样的 所 谓r i f f ( r e s o u r c e in t e r c h a n g e f il e f o r m a t ) 文 件。 这 类 用于 多 媒 体 数据存储的文件格式有着自己 鲜明的 特点, 首先, 其尺寸往往很大, 达到几十到 几百mb数量级。 其次, 它们所包含的数据是时间敏感 ( t im e - s e n s i t iv e )的, 有 其特定的时间关系。 由于这些原因, 以传统的基于数据块的访问方式来对这些文 第二章视频音频处理部分的结构及性能优化 件进行操作, 效率将是很低的。 a v i f i l e a p i 采用了 基于流的方式来处理r i f f 文件, 即将这些文件视为数据流而非简单数据单元的集合, 并针对其特点进行了 优化,从而使访问文件的效率大大提高。 在第五章中,我们将使用a v i f i l e a p i 来实现会话场景记录的功能 v i d e o c a p t u 二在v f w出 现之 前, 数字 视 频的 采集是 一 项相当 复 杂的 工 作, 开发者需要面对来自 不同厂商的采集设备, 熟悉它们各自 提供的驱动程序和开发 接口 , 而v i d e o c a p t u r e 提 供了 一 套 设 备 无关的 接口 用于 控制 采 集设 备、 设 置 视 频格式等。可以同时完成视频和音频流的采集,通过用户定义的回调函数 ( c a l l b a c k f u n c t i o n s ) 获取视频/ 音频数据以 及时间戳等必要信息, 使开发工作大大简 化。 d r a w d i b : 提供一套高 效率的图 像显示a p i 用于视频的回放。 采用了 直接写 入显示缓冲区的底层调用接口,具有丰富的图像操作功能。 v c m与a c m:视频压缩管理器v c m ( v i d e o c o m p r e s s i o n m a n a g e r ) 和音 频压 缩 管理 器a c m ( a u d i o c o m p r e s s io n m a n a g e r ) 是操 作系 统 用于 管 理 系 统中 所安装的视频和音频编码解码器的模块。由于视频/ 音频处理的核心问题在于压 缩编码,因此 v c m和 a c m成为系统设计中最重要的部分。它秉承了v f w 贯 穿始终的思路,以类似于协议栈的形式制定了独立于底层模块的标准调用界面, 屏蔽了不同厂商,不同算法类别的视频/ 音频编码解码器的相异之处。这种调用 和实现相分离的方法, 贯彻了软件组件化的设计思路, 提高了应用系统的可移植 性。同时v c m和a c m负责编码解码器模块在操作系统中的安装、注册和卸载 管理, 提供枚举编码解码器列表的接口, 使编码解鹤器模块的开发和使用都变得 简便。 符合v c m和a c m规范的编码解码器软件模块在v f w术语中称作c o d e c 在系统注册表中用一个 “ 四字节码” , 也就是一个3 2 位的特征字唯一标识。 正是 由于v c m和a c m 良 好的体系结构,wi n d o w s 平台上第三方提供的软c o d e c 技术得到了良 好的发展, 因为在这种支撑环境下, 不必为应用层接口的标准化问 题绞尽脑汁,c o d e c只需同v c m和 a c m 打交道,任何人都可以按照规范编 写c o d e c组件并被高层应用无差别地重用。很多大公司如 i n t e l 等,都开发了 符合v c m和a c m标准的软c o d e c , 用于单独出售或以o e m的方式提供。 软 c o d e c的开发技术成为被广泛关注的论题,一些非盈利组织和独立开发团体也 推出了f r e e 形式的,同时性能相当优良c o d e c组件。加上wi n d o w s 操作系统 本身预装了多种算法的c o d e c ,给应用开发提供了广泛的选择。以 上的这些工 作,大大促进了视频/ 音频应用在p c 平台上的发展。 利用软c o d e c来开发多媒体应用系统虽然有着低成本、 不需额外硬件、 部 署和扩展灵活的优势, 但也存在一些必须注意的问题。 首先是编解码算法全部要 由c p u执行,这对系统的处理能力是一个挑战。 其次,使用各种来自 不同厂商 的、运行时加载 ( r u n t im e l o a d e d )的c o d e c组件, 有必要考虑到它们本身的 运行时错误带来的影响, 在系统设计中应该对此采用一定的对策。 因为出于提高 编解码算法执行效率的目 的, 基本上所有的c o d e c组件在算法实现时都使用了 基于mm x汇编指令集的优化 ( 详见 2 . 2小节) 。这些汇编代码的引入有时确实 容易导致程序的稳定性下降。另外,v c m试图提供一种 “ 包罗万象”的标准, 但事实 上, 由 于 编码解码器的 开发者 有着各不相同的 设计 侧重点 和实 现方 案, 实 际上并不是v c m中定义的所有的接口都得到了完全的、良好的支持。 例如一些 用于设置比 特率、 k e y 帧速率、 压缩质量的接口, 有些控制手段仍需要通过直接 第二章视频音频处理部分的结构及性能优化 改写编码解码器的控制数据块 c o n t r o l b l o c k ) 来完成。 为此, 我们专门 编写了 一个用于调试编码解码器的工具, 可以观察和测试编码解码器的控制数据块的内 容,为系统研发提供了有力的支持。 2 . 2 视频压缩编码技术简述 视频的压缩编码是整个系统成功与否最为关键的因素之一。 一方面, 客户端 程序大部分的运算负载来自 于视频压缩模块, 它的执行效率对性能的影响最为突 出。另一方面,基于i n t e r n e t 的多媒体交互系统的核心矛盾就在于高带宽、高实 时性要求的多媒体流需要在没有带宽保证的i p网 络上传输,而这其中视频流的 带宽又占据了主要部分。 在下一章讨论 传输质量和传输控制机制等问题时, 不可 避免地需要考虑信源和信道的交互作用, 因此, 在此有必要对视频编码的算法及 其特点进行研究。 视频数据的数据量虽然极为庞大,但同时,视频数据往往又是高度相关的, 相关性带来了信息的冗余。 视频数据的冗余可以分为空间冗余、时间冗余、 信息 墒冗余 ( 编码冗余) 、结构冗余、知识冗余、视觉冗余等来源。这些形式的冗余 就是视频压缩编码的出发点, 编码算法要尽可能地消除这些冗余, 以降低表示视 频所需的数据量。 如今己 经投入使用的压缩算法基本上都是mc( 运动补偿) 十t c( 变换编码) + v l c( 变长编码)的结合。以m p e g - 1 为例9 1 ,它使用了基于 1 6 x 1 6 像素宏 块的运动预测和补偿。 在8 x 8 像素块内进行d c t 变换, 进行量化后, 大量d c t 系数将为0 , 此时进行行程编码是很有效的,再结合霍夫曼编码,信息量获得了 很高的压缩比率。 mp e g - 1 的码率为 用于音频,其余用于 mp e g - 1 1 .5 m b p s , 其中l . l m b p s 用于视频, 1 2 8 k b p s 系统本身。 mp e g - 1 将 1 / 3 0 秒时间间隔的帧序列图像以三种类型的图像表示 ( 如图2 - 2 所示) : 1 )帧内 图 ( i n t r a p ic tu r e s ) 2 )预 测图 ( p r e d i c te d p i c t u r e s ) 3 )双向图 ( b i d i r e c t i o n a l p i c t u r e s ) 图 中帧内图 ( 1 ) 以 静止图 像压缩方法处理, 帧内图进行预测,对预测误差作有条件的传送 信息进行双向插补, 必须传送;预测图( p ) 要用前面的 ; 双向图 ( b ) 可以根据前、后图的 帧间的信息用运动补偿的方法确定。 双向预测 图2 - 2 mp e g - 1 的帧序列结构 需要指出的是, m p e g - 1 的帧序列模式事实上并不适于网络传输的场合, 原 第二章视频音频处理部分的结构及性能优化 因是b帧 ( 双向预测帧) 需要等待它后面的p 帧解码后才能解码, 这不仅减少 了 对差错的抵抗能力 ( p 帧丢失或损坏将造成相关的b帧无法解码) ,而且使得 帧传输顺序同解码顺序不一致,给各种控制带来了额外的麻烦。因此,h 2 6 1 和 目 前一些版本的m p e g - 4 实现中没有使用b帧, h 2 6 3 则提供了p b帧模式,将 相邻的一个 p帧和一个b帧编码在一个帧结构中传输,这种编码方式对误码扩 散有抑止作用。 由于视频压缩编码的计算复杂度较大, 目前绝大部分的软c o d e c在实现时 都利用了处理器mmx和s s e指令集提供的优化手段。mm x和s s e是i n t e l 架 构处理器专门为计算密集型的多媒体处理任务设计的处理器扩展指令集。 可以使 用s i md( 单指令流多数据流)的工作方式。以mmx指令集为例, c p u提供了 8 个 通用6 4 位寄 存器, 可以 将视频压缩中 广 泛使用的8 b i t ( 1 b y t e ) 数 据元素每 8 个紧缩在一个寄存器中, 有一系列指令可以并行地对这些数据元素进行算术和 逻辑运算。 一条 m mx指令可以同时操作8 个字节, 一个处理器时钟周期可以执 行两条这样的指令,这就意味着一个时钟周期中可以处理1 6 个字节数据元素。 使用m m x和s s e指令集主要通过高级语言中嵌入的 汇编语言, 但目 前已 经有 个别的高级语言编译器支持mm x和s s e优化。 m p e g - 1 和m p e g - 2 在消费类媒体市场取得了巨 大的成功, 但它们过高的比 特率和内 部结构不适合网络视频传输的需要。而mp e g - 4 和i t u - t的h .2 6 3 标 准则将视频压缩的效率提升到了一个新的高度。 更为重要的是mp e g - 4 和h .2 6 3 在制定是就充分考虑到了在时变的、 不可靠的网络信道下多媒体流传输的应用需 求, 提出了 一系 列可分级扩 展编码 和检错容错的 技 术b . ,z , 为网 络多 媒体通信提 供了有力的支持。 2 . 3 运行效率优化的方法 客户端系统共有三个线程: 相互协作是影响性能的重要因素 视频采集、 视频压缩、网络传输, 它们的调度和 1 、数据压缩的批处理方式: 纂 拼1一 3k, izr 4#toj t _qj(f; cii a th94# 20 mite, ) , c )a# r if, a ttb gtaj ( .i t t777 -,%r.1 1 t* t -tnjia, ) k117i if-p # ,fa-,ttt1rk (x 14 n-1 *a) )jr*, -*f-yt)uatbf l 4 g$31i 11/no 程控 毁操 成后 设备 理的 的实 2 、 环 形 索 引 表 的 缓 冲 区 数 据 结 构 : 由 于 各 个 线 程 之 间 交 换 数 据 以 及 网 络 缓 存 的 需 要 , 系 统 中 需 要 分 配 多 处 分 别 由 不 同 线 程 读 、 写 的 数 据 缓 冲 区 , 缓 冲 区 的 粉恨 仕 如收 升, 于奋 干 筋 索六 产 卜 导 n 向 在不连续寻址的情况下, 线性表的时间效率高于链式表, 复杂度为o ( 1 ) , 而 链表为。 ( n ) 线性表操作的时间 但压缩的视频流是一种典型的v b r( 变比特率) , 各个数据包的大小差别很大, 率上不如链表结构。 因此, 我们采用了索引表方式的缓冲区组织, 这综合了线性 夯 卞 者 知浓 务卞 才 卉 时 闻知2 -f n闻伪 本 卜 m 当t t l 为1 时, 多址广播数据报就被发送到本地子网上;当 t t l 大于1 时, 有多址广播能力的路由 器就可以 传送数据报, 每传送一次, 它就 把t t l 值减1 ,如果t t l 值达到0 ,路由 器就丢弃这个数据报。 尽管多播方式对于多点多媒体通信系统是很好的方案, 而且在客户端数量众 多时,几乎是必须的方案,然而,由于目 前 工 n t e r n e t 上的软、硬件对多播的支 持有限,使得多播的使用受到很大限制。 目 前较新的操作系统对多播的支持比 较良 好。 w i n d o w s 平台下, w i n s o c k 2 . 0 开始支持多播,而l i n u x 平台下, 简单地通过s e t s o c k o p t 系统调用完成加入和 退出多播组的操作, 数据的发送和接收同标准u d p 完全相同。 然而, 多播的实现 要求在路径上的所有路由 器都支持多播, 而在实际的网络运营中, 出于网络安全 和减轻负载的目的, 很少有路由 器真正开放了 对多播的支持, 即使在校园网内也 是如此, 这使多播的方式往往无法跨出发送端的子网, 而只在局域网的范围内才 有意义。 此外,目前的多播机制本身也存在一定的问题, 在一个多播组内只存在单个 数据流,这给q o s 控制带来了一定的麻烦 ( 例如流量的调节、差错处理等) 。而 且目 前所实现的i p 多播只能是基于u d p 的,而且是不可靠的,在网络服务失败 时没有恢复机制来恢复多播。可靠组播传输协议 r mt p ( r e l i a b l e mu l t i c a s t 第三章 工 n t e r n e t 上的多媒体流传输 t r a n s p o r t p r o t o c o l r f c 2 3 5 7 ) 还很 少 被 支 持。 多 播的 安 全 性管 理 也 相当 棘 手, 由 于i p多播使用u d p ,任何主机都可以向 某个多播地址发送 u d p包,并且低 层多播机构将传送这些u d p 包到所有组成员。 且组成员可以随时加入/ 退出多播 组。同时,i n t e m e t 又缺少对于网络层的访问控制。这几点使多播安全性问题同 多播的可靠性问题一样难以解决。 月 r o 3 - 3 以上这些因素制约了多播方式的有效使用, 有待于网络基础架构的进步来克 我们的系统中也实现了多播功能,但更重要的工作方式还是依靠单播。 多媒体同步 在多媒体网络传输中, 维护各个媒体流之间的同步, 也就是正确地保持各个 媒体对象之间木来的时态关系, 是衡量传输质量的一个重要因素。 相关研究给出 了如下结论: a ) 当 偏移在一 8 0 m s( 音频滞后视频) 一十 8 0 m s ( 音频超前视频) 范围内,多 数观众不会有明显的感觉,可视为同步区间。 b ) 当 偏移在一 1 6 0 m s -+ 1 6 0 m s 范围 之外时,几乎所有观众都对播映不满意, 可 视 为 失 步区 间 2 3 1 多媒体同步问 题可以从多媒体同步描述模型和多媒体同步控制策略两个层 次来讨论。 前者致力于给出一种规范地描述媒体对象之间时态关系的手段。 后者 则是针对诸如网络延迟与延迟抖动、进程调度延迟等各种因素带来的负面影响, 研究同步信息的表达、 传递以及同步控制算法, 具体地实现比较满意的同步控制。 3 . 3 . 1 多媒体同步描述模型 目 前较为使用较为广泛的的同步描述模型包括层次同步模型, 时间轴同步模 型( 参 考线同 步 模 型) , 参 考点 同 步 模型, 以 及 对 象 复 合的p e tr i 网( o c p n ) 模 型等。 1 ) 层次同步模型:层次同步模型将所有多媒体对象的关系作为一个树型结 构来描述, 由串并行演示子树组成, 主要基于动作的串行同步和并行同步两种操 作。 它的优点是层次清晰, 管理方便。 但这种模型中每个节点 ( 对象) 的同步点 只在开始和结束两处。 用它来描述图片、 文字等离散媒体的同步关系是非常合适 的。 但对于语音和视频等连续媒体的同步, 由于其同步不仅在开始和结束两处需 要,而且在中间过程也需要,因此很难适应。 2 )时间轴同 步模型: 在时间轴同步模型中,将所有的单个媒体对象放在一 个代表真实时间的时间轴上, 各个媒体之间是相互独立的。 这样一个对象的丢失 或略去不会影响其它对象的同步, 因此维护起来较为方便。 这种模型对那些起始 点固定的多媒体对象而言, 无疑是非常适合的。 但在本课题中, 音频数据和视频 数据都是经由网络传送过来的,由于i n t e rn e t 传输的延迟抖动使得媒体数据的开 始点不固定。因此本课题也不适合采取此同步模型。 3 ) 参考点同 步模型: 此同 步模型将连续媒体看作由一系列离散的 逻辑数据 单元 ( l d u )构成的 序列,每个l d u所在的位置称为一个参考点。不同的对象 之间的同步是通过将其在同一时刻的l d u相连接来定义的。这种模型从理论上 讲,是比较完各、严谨的,可以集成交互式媒体对象,也可以集成对偏移 q o s 的描述。 由于该方法对媒体对象间的关系进行直接描述, 因此维护起来较为复杂。 第三章 i n t e r n e t 上的多媒体流传输 在实 现中, 一般选择某一媒体对象作为主媒体流, 在其l d u序列中选择同步点, 其它媒体流称为从媒体流, 按照主媒体流的同 步点来进行同步。 这样, 主媒体流 的差错有可能造成整个同步的瘫痪。需要考虑对这个问题的解决方法。 4 )对 象 复 合的p e t r i 网( o c p n ) 模 型 及 其 扩 展: p e t r i 网 是 一 种并 发 系 统 及 其同 步 关 系 的 建 模 工 具 2 5 , p e t r i 网 可以 用 直 观 易 懂 的 图 形 表 示, 用 户 界 面 极 好。 它具有异步并发特性, 并且与物理系统极其近似, 在信息科学的许多领域得到了 应用。 简单p e t r i 网 转移 触发时间 是不确定的。 转移触发为一既时事件。 为了 描 述p e t r i 网 中 的 非 零时 间 费 用, 需要 在p e t r i 网 中 引 入 时间 约 束, 既 赋予 每 个转 移 一 个触发期间 或赋予每 个位置一个 运行时间。 这种增强型p e t r i 网 称为定时p e t r i 网 ( t p n ) 。 以 定 时p e tr i 网 为 基 础 可以 描 述多 媒体 信息 的同 步 关系。 对 象 合 成p e tr i 网 定 义为六元 组n o c p n = t , p ,a , d , r , m 这里t 和p 分别为转移集和位置集; a : t x p u p x t - - i ,i = 1 , 2 , 3 - 二 为有向 弧集; d :p - r 为 运行期间 集, 它定 义了由 位 置集向实数集的映射,实数值 r i 表示对象合成 p e t r i 网中的时间约束; r : p - r l ,r 2 ,r 3 . . . r k 定 义了 由 位置 集向 时 间 集的 映 射; m :p - - i ,i = 1 ,2 ,3 二 定 义了 由 位 置 集向整数集的映射,它表现位置集中标记的分布。 对象合成p e t r i 网的 触发规则为: a ) 当一个转移的 所有输入位置均含有解锁标记时, 该转移立即 触发。 b ) 转移触发后, 则从每一输入位置移去标记, 赋予每一输出位置一个标记。 c ) 一个位置获得标记后,在运行期间内 保持活动状态。 在此期间, 标记处 于锁定状态。当运行期间耗尽时标一记 转为解锁状态。 令 对象合成p e t ri网的 资 源集元素 表示分 布式多 媒体系统中由 数据 库或通信 信道获得的媒体对象, 将媒体对象分解为一系列同步单元, 赋予每一同步单元一 个运行期间, 令位置表示对各同步单元的处理过程, 令转移表示媒体间的同步点。 此时, 可以 利用对象合成p e t ri网 描述媒体间的同 步关系。如图所示为幻灯片演 示的 对象合成p e t r i 网 模型。 演示由 一系列图 像元素和声音元素组成,对应的图 像元素和声音元素具有相同的运行期间。 位置li 和位置a i i = 1 ,2 ,3 . . . n 分别表示 图像元素和声音元素的运行期间, 转移表示图像元素和声音元素的同步点。 当第 一个声音元素的运行期耗尽时, 位置a i 解锁其标记, 同时位置i i 也解锁其标记, 转移得以立即触发。演示后继图像/ 声音对。 媒体内 和媒体间的各种时间 关系均可以 映射至对象合成p e t r i 网, 调整运行 期间t ,可以控制同步粒度。 在以上几种同步模型中,参考点同步模型和 o c p n模型是比较深刻和丰富 的,比较适合网络传输条件下连续媒体 ( 音频/ 视频)对象的描述。而且在某种 程度上可以认为参考点模型与对象合成 o c p n模型是一致的,它们的共同点都 是依靠同步点, 这些同步点可以是时间维上的刻度, 也可以是媒体本身携带的间 隔标记。参考点同步模型将连续媒体简单地看作由一系列离散的l d u构成的序 列,没有表现出 媒体流的连贯特性,对于内部关系更加复杂的多媒体对象系统, 对媒体对象之间的并发关系的描述相对困难,而 o c p n模型在这方面有着更大 的潜力。 在我们的系统中, 同时包含离散媒体对象 ( 消息、白板和共享数据对象) 和 连续媒体对象 音频/ 视频) 。 因此描述模型可以采用层次模型和o c p n模型结合。 用层次同步模型的树状结构描述离散媒体对象相互之间及其与连续媒体对象之 间的关系, 用o c p n模型描述音频和视频这两个流之间的同步关系。 如下图3 - 8 : 第三章 i n t e r n e t 上的多媒体流传输 v i d e o v i d e ov i d e ov i d e ov i d e o a u d i oa u d i o 图3 一 8 实时视频、音频同步的模型 图3 - 8 中两个同步点之间的一个音频帧和若干视频帧的集合为一个播放控制 的一个单元来处理。 3 . 3 . 2 同步信息的表达和传递 同步模型确定之后, 接下来的问 题就是信源端应该怎样组织根据同步模型得 到的各媒体对象之间的同步描述信息, 并以何种方式在网络上传递这些信息。 这 是需要根据具体应用的需求, 媒体对象的性质, 以 及信道的特点来决定的。 目前, 理论和实践中主要给出了如下一些方法: 1 ) 多路复用同 步技术 该方法将多个媒体流复用成为一个数据流, 通过一条信道传输, 接收方需要 解复用而无须重新同步。 该方法十分简单, 同步信息实际上隐含地由数据对象的 空间关系来描述。 无须时钟同步, 也不需要额外信道来传输同步信息。 在目前的 数字电视系统中 mp e g - 2视频流和音频流就通过这种方

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论