(计算机应用技术专业论文)交互式多媒体实时教学系统的构建与研究.pdf_第1页
(计算机应用技术专业论文)交互式多媒体实时教学系统的构建与研究.pdf_第2页
(计算机应用技术专业论文)交互式多媒体实时教学系统的构建与研究.pdf_第3页
(计算机应用技术专业论文)交互式多媒体实时教学系统的构建与研究.pdf_第4页
(计算机应用技术专业论文)交互式多媒体实时教学系统的构建与研究.pdf_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 随着i n t e m e t 技术的发展以及音视频压缩技术的进步,基于i n t e r n e t 的多媒 体交互平台受到了越来越广泛的重视。本文以构建个实用的交互式多媒体实时 教学系统为目标,对其中若干关键问题进行了研究和探讨。 本系统采用c s 架构,由服务器、教师端、学生端和授课情况录制回放四个 主要的功能模块组成。其中授课情况实时录制啁放模块又可以作为单独的系统应 用于名师讲学、异地授课等情况。 关于多媒体信息采集,阐述了多媒体信息采集平台v f w 的构成,对音视频 编解码原理和常见标准进行了概括说明,并给出了音视频采集和处理的具体流 程。 在授课情况实时记录回放模块中,创建了一一种新的多媒体文件格式 m s f ( m u l t is t r e a m sf o r m a t ) ,用来将教师视频、屏幕视频和教师音频三路媒体流记 录到同一文件中,同时编写了专用的m s f 播放器对此类文件进行播放。这种授 课情况实时录制回放的方式相比于传统的解决方案,具有操作简单,成本低,l = 】_ j 扩展性强等特点。在信息采集时,使用了基于时间和基于事件的两种不同方式来 记录屏幕视频,以适应不同的教学要求。另外,在分析了几种常见同步模型的基 础上,提出了以o c p n 模型为主,结合参考点同步模型的多媒体同步模型,以 解决多个媒体流的同步问题。 多媒体流的传输与同步是实时多媒体系统中的研究热点。本文对多媒体流网 络传输中的传输协议、延迟模型、同步策略等进行了深入探讨,并给出了接收端 静态缓冲区大小的计算方法,提出了一种根据缓冲区变化动态改变播放速率,以 实现多媒体同步的新算法。 关键词:多媒体同步v f wm s f 音视频编码缓冲区补偿 w i t ht h er a p i dp r o g r e s so fi n t e r a c tt e c h n o l o g ya n dm u l t i m e d i ac o m p r e s s i o n c o d i n g ,m u l t i m e d i ac o m m u n i c a t i o ns y s t e m sb a s e do ni n t e m e th a v eb e c o m em o r ea n d m o r ei m p o r t a n t i nt h i sp a p e r , o u rr e s e a r c hf o c u s e do ns o m ek e yt h e m e so ni n t e r a c t i v e m u l t i m e d i ar e a l t i m et e a c h i n gi no r d e rt oc o n s t r u c ta l la v a i l a b l ep r o t o t y p es y s t e m t h en e t w o r kt o p o l o g yo f o u rt e a c h i n gs y s t e mi sb a s e do nc sm o d ei n c l u d i n gf o u r s e g m e n t s :s e r v e r , c l i e n tf o rt e a c h e r , c l i e n tf o rs t u d e n ta n dr e c o r da n dp l a y b a c ko f t e a c h i n g b yt h ew a y , t h er e c o r da n dp l a y b a c kp a r ta l s oc a nb eu s e da sa ni n d e p e n d e n t s y s t e mf o rl e s s o n so ff a m o u st u t o r r e m o t et e a c h i n ga n ds oo n a st og a t h e r i n gm u l t i m e d i ai n f o r m a t i o n ,w ed i s c u s s e dt h ef o l l o w i n gq u e s t i o n s : t h es t r u c t u r eo f v f w ,t h ep r i n c i p l ea n ds t a n d a r d so f a u d i oa n dv i d e oe n c o d i n g ,a n da g e n e r a lp r o c e s so fg a t h e f i n gm u l t i m e d i ai n f o r m a t i o n i nr e c o r da n dp l a y b a c ko ft e a c h i n gp a r t ,w ec r e a t e dan e wm u l t i m e d i af i l ef o r m a t m s f ( m u l t is t r e a m sf o r m a t ) t or e c o r dt h r e es t r e a m s ( v i d e of o rt e a c h e r v i d e ol o r s c r e e na n da u d i of o rt e a c h e r ) i n t oo n ef i l e a tt h es a m et i m e ,w ec o m p i l e da p p r o p r i a t e p l a y e rt op l a yt h em s ff i l e c o m p a r e d w i t ht h et r a d i t i o n a lm e t h o d i th a st h e c h a r a c t e r i s t i c so fs i m p l ec o n t r o l ,l o w e rc o s t ,b e t t e re x p a n s i b i l i t ya n ds 0o n f o rt h e d i f 掩r e n td e m a n d w ec a p t u r e dt h es c r e e ni nt w od i f f e r e n tm e t h o d s t h eo n ei sb a s e d o nt i m e ;t h eo t h e ri sb a s e do ne v e n t b yt h ew a y , a f t e ra n a l y s i n gs e v e r a li h m i l i a r s y n c h r o n i z a t i o nm o d e l s ,w ep r e s e n t e d an e wm u l t i m e d i as y n c h r o n i z a t i o nm o d e l w h i c hi sb a s e do no c p n ( o b j e c tc o m p o s i t i o np e t r in e t ) a n dh a sal i n kw i t hr e f e r e n c e p o i n t - b a s e dm o d e lt os y n c h r o n i z et h em u l t i m e d i as t r e a m s t h et r a n s m i s s i o na n ds y n c h r o n i z a t i o no fm u l t i m e d i as t r e a m si st h ek e yp r o b l e m s i nr e a l - t i m em u l t i m e d i as y s t e m w er e s e a r c h e di n t ot h et r a n s m i s s i o np r o t o c o l s ,d e l a y m o d l e sa n ds y n c h r o n i z a t i o nm e t h o d si nt r a n s m i s s i o no fm u l t i m e d i as t r e a m sa n d c a l c u l a t e dt h eb u f f e rs i z eo fc l i e n tf o rs t u d e n tj ns t a t i cs t a t e i na d d i t i o n w eb r o u g h t f o r w a r dan e wm e t h o d ,w h i c hc h a n g e st h ep l a y i n gr a t ei nc a s eo fa l t e r a t i o ni nb u f f e r , t or e a l i z et h em u l t i m e d i as y n c h r o n i z a t i o n k e yw o r d s :m u l t i m e d i as y n c h r o n i z a t i o n ,v fw ,m s f , a u d i oa n dv i d e o e n c o d i n g ,c o m p e n s a t i o nb u f f e r 独创性声明 本人声明所呈交的学位论史是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得叁鲞盘茎或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 学位论文作者签名:雀玉许 签字日期:力哂年土月甜日 学位论文版权使用授权书 本学位论文作者完全了解墨建盘鲎有关保留、使用学位论文的舰定。 特授权苤壅盘茎可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:雀囊井导师签名:手长教擘 签字日期:姗5 年2 - 月升日签字日期:砖年2 - 月z yf _ j 天津人学硕士学位论文第一章绪论 1 1 课囊的背景和意义 第一章绪论 当今的时代是一个计算机技术飞速发展的时代。自从二十世纪八十年代开 始,计算机的软件、硬件技术进入了一个飞速发展的时期。这两者共同提升了 p c 的性能,从而使多媒体p c 的实现成为可能。单台p c 的多媒体功能极大地提 高了计算机的图像、声音处理能力。 与此同时,i n t e m e t 作为个通用的,最广泛的共享信息平台,在世界范围 内得到了长足的发展,日益成为社会文化和生活方式的重要组成部分。当早期的 b b s 、新闻组、电子邮件这些非实时性的交互方式已经不能满足人们即时沟通的 愿望时,一系列实时技术得到了广泛的应用,例如共享白扳、w e b 聊天室、以及 简单的协同编辑系统等等。然而,由于缺乏更为直观便捷的语音和图像交互的途 径,这些技术仍然显得苍白和使用不便。 进入九十年代中后期之后,随着计算机硬件软件技术的发展,p c 机的多媒 体性能进一步得到提高,已经可以进行视频、音频的实时采集、解压工作。同时, 1 s p 也越来越多地提供诸如a d s l 、i s d n 、1 0 m 1 0 0 ml a n 等高速的i n t e r n e t 终 端接入手段,并且主干网吞吐率得到大幅度提秀,这使得i n t e m e t 不再仅仅是 个窄带的、简单数据报业务的网络。同时,视频音频压缩编码技术获得了重大的 进展,出现了h 2 6 3 、m p e g l 、m p e g 2 、m p e g 4 等高效压缩技术。这些压缩技 术极大地减少了视频、音频数据对网络带宽的占用,使得在普通的软、硬件平台 上实现实时的视频音频处理和传输具备了可能性。因此,近些年以来,壁丁一 i n t e m e t 的多媒体技术成为学术研究和商用开发中个非常活跃的领域。 网络教学系统是指在计算机网络环境t v ! ,借助现代化的多媒体技术进行教学 的计算机辅助教学系统。在网络多媒体教学系统中,允许不同时空上的学生们共 享学习资源,通过协同对话共同探讨和学习。与传统教学方式相比,多媒体嘲络 教学具有无可比拟的优势。首先,多媒体教学网络的交互性有利于激发学生的学 习兴趣和认知主体作用的发挥:其次,多媒体教学网络提供的多种展现形式有利 于知识的获取;此外,多媒体教学网络还在同一空间营造出一个相对个性化的教 学环境,使个性化教学成为可能。 基于i n t e m e t 的多媒体交互系统【1 5 】可以认为是三个领域技术和需求相 天津大学硕士学位论文 第一章绪论 互渗透的结果,即由传统的专用可视通讯系统、简单c s c w 系统、流媒体点播 系统从不同的角度演化而来的,详细关系请见图1 1 。 图1 一l 各个领域的相互关系 它综合了以前各种系统的优势和技术成果。由于其使用i n t e r n e t 公众网和通 用的硬件平台,较之使用专门网络和硬件的可视通讯系统,成本大大降低。又因 为其功能基本靠软件实现,所以便于修改、易于升级、利于维护。而在对浙同工 作的支持方面,又实现了“见其人,闻其声”,使得交流的效率大大提高。这样 的平台在远程教学、视频会议、协同设计等领域,将有着广泛的应用前景。 1 2 交互式多纛体络教学系统豹架构 本系统工作在c s 模式下,主要分为教师端、服务器、学生端和授课情况记 录与播放等四个大的功能模块,结构如图1 2 所示: 教师端 服务器 学乍端旧i j # 个) 图1 2 系统总体结构示意图 2 大洋人学硕士学能论文第一章结论 系统开始工作时,教师端和学生端需打开相同的授课幻灯片并连接服务器。 然后,教师端可通过u d p 连接传送音视频信息( 摄像头捕获的视频和麦克胍输 入的音频) 到学生端:同时,教师端可以通过t c p 连接发送控制信息( 如幻灯 片上下翻页和画线信息等) 来操控学生端的幻灯片进行授课。这样,教师就能够 通过i n t e m e t 以单播或多播的方式进行实时多媒体教学了。如果学生有任何问题, 随时可以传送控制信息请求发言,获得教师准许后,该学生就能够传送自己的音 视频信息到教师端和其它学生端,进行互动交流。此外,在线实时授课的同时, 教师可将授课信息完整的记录f 来,为学生课后复习提供便利的条件。 需要指出的是,授课信息的记录与回放模块既是嘲络教学系统的重要组成部 分,又可以作为单独的系统来使用。它所记录的信息除网络教学系统中的音视频 部分之外,还包括教师端桌面( 大多数情况下为幻灯片) 的变化情况,即总的记 录为两路视频和一路音频。作为一个独立的系统,它可以被用于普通的多媒体教 学和异地授课、视频会议等环境中。 系统开发环境构成如下: 1 硬件配罱:连接网络的p c 机,u s b 摄像头,全双工声卡,麦克风 2 软件配置:v c + + 6 0 ,m p e g 4 编解码器 1 3 论文的主要研究工作 课题研究目标: 1 、完成交互式多媒体网络教学系统的构建; 2 、对交互式多媒体系统中的数据传输、缓冲区设置、多媒体同步等问题进 行深入研究,并提出相应的解决方案。 在课题研究过程中,本人主要完成了以下工作: 1 、实现了多媒体信息的采集以及多媒体信息的传输:1 j 作; 2 、实现了多媒体教学系统的交互功能; 3 、自创了新的文件格式记录多个媒体流,实现了教师授课情况的实时记录; 4 、编写了相应的播放器,对我们自创的文件格式进行回放,以方便异地教 学和学生的课后复习; 5 、对多媒体网络教学系统中的缓冲医设置、多媒体同步等问题进行了深入 的研究,提出了适应于本系统的解决方案。 天津大学硕士学位论文第二二章多媒体信息的采集与处理 第二章多媒体信息构采集与处理 本章将介绍多媒体技术、多媒体信息歼发平台、音视频的编解码技术以及多 媒体信息采集和传输的详细流程。 多媒体信息的采集、压缩解压缩是整个交互式多媒体网络教学系统中非常 重要的部分。多媒体信息的编码情况将会决定信息流的质量、大小,圆此会影响 搀个系统的音视频效果。针对当前网络带宽成为瓶颈的特定情况,我们采崩丁高 压缩比的m p e 9 4 编解码器,使其能够在满足视频质量的情况下具有较小的视频 数据。多媒体交互系统的信息采集和播放过程【6 】如图2 - 1 l 视频捕获ii 音频捕获l| 视频播放1i 音频攉放i i儿1r竹 l 视频编码 音频编码 音视频同步处理 nj 。 1 f 标记时间戳视频解码i音频解码 it t c p 八j d p 发送t c p u d p 接啦 jl1 | 发送端口l 网络通信接【_ _ 】 i 接收端口l 2 1 多媒体技术概涟 图2 1 多媒体采集播放流程 多媒体技术【7 8 】是指使用计算机对音频、视频、文本、图形、图像等媒 体信息进行综合处理,使多种信息建立逻辑连接,进而集成为种交互式系统的 技术。多媒体技术并非简单地把多个单一媒体嬖中在一起,也不是它们的总称, 而是多种技术的有机集成而彤成的一个新的多媒体系统,它主要涉及刘甜算机搜 而是多种技术的有机集成而形成的个新的多媒体系统,它主要涉及到计算机按 天津大学硕士学位论文第二章多媒体信息的采集与处理 第二章多媒体信息豹采集与处理 本章将介绍多媒体技术、多媒体信息开发平台、音视频的编解码技术以及多 媒体信息采集和传输的详细流程。 多媒体信息的采集、压缩解压缩是整个交互式多媒体网络教学系统中非常 重要的部分。多媒体信息的编码情况将会决定信息流的质量、大小,因此会影响 整个系统的音视频效果。针对当前网络带宽成为瓶颈的特定情况,我们采用了高 压缩比的r o p e 9 4 编解码器,使其能够在满足视频质量的情况下具有较小的视频 数据。多媒体交互系统的信息采集和播放过程【6 】如图2 1 : l 视频捕获ii 音频捕获1 视频播放ii 音频播放l ljl1 r1 r l 视频编西 音频编码音视频同步处理 n j i1 r1 f 标记时间戳视频解码音频解码 h1 r1 r lt c p a j d p 发送t c p u d p 接收 j l 1 r l1 发送端口i 网络通信接口 l 接收端口 i 2 1 多媒体技术概述 图2 1 多媒体采集播放流程 多媒体技术【7 8 】是指使用计算机对音频、视频、文本、图形、图像等媒 体信息进行综合处理,使多种信息建立逻辑连接,进而集成为一种交互式系统的 技术。多媒体技术并非简单地把多个单一媒体集中在一起,也不是它们的总称, 而是多种技术的有机集成而形成的一个新的多媒体系统,它主要涉及到计算机技 天津人学硕十学位论文 第一:章多媒体信息的采集l o 处理 术、网络通信技术等。多媒体技术的特点为:数字化、多样化、集成化和交互,矬。 多媒体可以划分为连续媒体( c o n t i n u o u s m e d i a ) 与离散媒体( d i s c r e t e m e d i a ) 。文本、图形、图象都被称为离散媒体,这些媒体是时间无关的。实际l 一, 它们也可以按照各种计时方式或者按照各种顺序显示,但是含义不变。时问不属 于离散媒体语义部分。连续媒体是指具有时闯维的媒体,如音频和视频。根据 h e r e w i t h 的定义,连续媒体是指能在时间上连续播放的离散数据单元序列。在连 续媒体罩,信息的表达不但要依赖于它自身的表示值,而且还与它所发生的时 间有关,所以连续媒体也称为时间依赖媒体( t i m e d e p e n d e n tm e d i a ) 。 2 2 喇开发平台 2 2 1 n 开发平台的构成 当前,视频音频应用支撑平台包括v f w ( v i d e of o rw i n d o w s ) ,j m f ( j a v a m e d i af r a m e w o r k ) ,以及d i r e c t s h o w 等。m i c r o s o f t 公司开发的w i n d o w s 环境f 视频服务软件或视窗软件v f w ,是目前在多媒体p c 中较为流行的视频处理软 件。它使多媒体p c 具有播放和处理数字视频的能力,而无需增加专门的硬件设 备。v f w 是个功能齐全的视频、图像和音频数据的采集、编辑、控制和处理 的:具软件组。由于音频、图像、视频的采集和编辑都有其专门的软件,因此, v f w 程序组中使用最广的是媒体播放器( m e d i a p l a y e r ) 。在v f w 、j m f 及 d i r e c t s h o w 这三者中,v f w 在成熟性,兼容性和运行效率等方面达到r 较好的 统一,自1 9 9 2 年正式发布以来,在视频音频等产品中得到广泛应用。v f w 9 1 主要由以下六个模块组成: 1 v i c a r d l l :包含了执行视频捕获的函数,它给a v i 文件i 0 和视频、 音频设备驱动程序提供一个高级接口; 2 m s v i d e o d l l :用一套特殊的d r a w d i b 豳数来处理屏幕上的视频操作: 3 m c i a v l d r v :此驱动程序包括对v f w 的m c i 命令的解释器; 4 a v i f i l e d l l :支持由标准多媒体i 0 ( m m i o ) 函数提供的更高的命令 来访问a v i 文件: 5 压缩管理器i c m ( 1 n s t a l l a b l ec o m p r e s s i o nm a n a g e r ) :管理用于视频脏 缩解压缩的编解码器( c o d e c ) ; 6 音频压缩管理器a c m :与i c m 相似,不同的是它用于波形音频。 v f w 中各个模块之间的关系【l o l 【1 1 】如图2 - 2 所示: 天津火学硕七学位论文 第一二章多媒体信息的采集与处理 采集程序il 回放程序 a v i c a e d l ll i m c l a v i d r v l m s v j d e o d l l a v i c a pijm c i 命令转换器ii m c i w n d m s v i d e o d l l 视誓誓入l ,c m 编辑程序 a v l f l l e d l l 文件流旬柄 a c mm s v i d e o d l l 图2 - 2 v f w 模块的关系图 2 2 2 r w 开发平台主要功能 d r a w d i bli c m a v i 文件处理函数:v f w 提供了一套专用的a p i 函数用来处理诸如a v i 、 w a v 这样的r i f f ( r e s o u r c ei n t e r c h a n g ef i l ef o r m a t ) 文件。这类用于多媒体数 据存储的文件具有尺寸大,对时间敏感( t i m e s e n s i t i v e ) 等特点。由于这些原因, 以传统的基于数据块的访问方式来对这些文件进行操作,效率将是很低的。a v l f i l ea p i 采用了基于流的方式来处理r i f f 文件,即将这些文件视为数据流而非 简单数据单元的集合,并针对其特点进行了优化,从而使访问文件的效率大大提 高。 视频采集:在v f w 出现之前,数字视频的采集是一项相当复杂的工作,j - f 发者需要熟悉各开发厂商提供的驱动程序和开发接口,而v i d e oc a p t u r e 提供了 一套与设备无关的接口用于控制采集设备、设置视频格式等,并可同时完成视频 和音频流的采集。用户可通过回调函数( c a l lb a c kf u n c t i o n s ) 获取视频数据、 音频数据及时间戳等必要信息,使开发工作大大简化。 图像显示:提供一套高效率的图像显示a p i 用于视频的回放。采朋了直接写 内存缓冲区的底层调用接口,具有丰富的图像操作功能。 l c m 与a c m :视频压缩管理器i c m ( i n s t a l l a b l ec o m p r e s s i o nm a n a g e r ) 和 音频压缩管理器a c m ( a u d i oc o m p r e s s i o nm a n a g e r ) 是操作系统用于管理系统 中所安装的视频和音频编解码器的模块。视频音频处理的核心问题在于压缩编 码,它秉承了v f w 贯穿始终的思路,以类似于协议栈的形式制定了独立f 底层 模块的标准调用界面,屏蔽了不同厂商,不同算法类别的视频音频编码解码器 的相异之处。这种使用和实现相分离的方法,贯彻了软件组件化的设计思路,提 天津人学硕士学位论文 第一二章多媒体信息的采集与处理 高了应用系统的可移植性。同时i c m 和a c m 负责编码解码器模块在操作系统 中的安装、注册和卸载管理。提供枚举编码解码器列表的接口,使编码解码器模 块的开发和使用都变得简便。 音视频数据的数据量是庞大的,但音视频数据往往又是高度相关的。数据的 相关性带来了信息的冗余,使信息量小于数据量,它们之间的差值就是冗余量。 i = d d u ( i 为信息量,d 为数据量,d u 为冗余量)公式( 2 1 ) 音视频数据的冗余包括以下几种类型【1 2 】: 空间冗余:在一幅图像的背景及其景物中,在某点自身与其相邻的一些区域 内,常存在有规则的相关性。这种相关性的图像部分,在数据中就表现为冗余, 空间冗余是视频图像中常见的一种冗余。 时间冗余:对于电视动画类的图像,在其序列的各前后相邻的两幅图像中, 其图像呈现较强的相关性,这就反映为时间冗余。如某一帧图像经过t 时问后, 在某下帻图像中带有较强的相关性( 即画面象索相似) 。 信息熵冗余( 编码冗余) :信息熵是指”一团数据所携带的信息量,根据信息 论的有关原理,信息量一般被定义为: e = 一p ,l 0 9 2p 其中,k 为数据类数和码元的个数,p i 为y i 的发生率。为使单位数据量d 接 近于或等于e ,应设: d = p b ( y ,) 其中,b ( y i ) 为分配给码元类y i 的比特数,理论上应取一l 0 9 2 p i 。但是,在实际 应用中,我们很难准确地估计出p 的值,实际计算的d 必然大于理论上的e ,因 而带来信息熵冗余或编码冗余。 结构冗余:有些图像部分区域内存在着非常强的纹理结构,或者图像各个部 分之间存在某种关系,例如自相似性等。这些都是结构冗余的表现。 知觉冗余:是指那些处于人们听觉和视觉分辨力以下的视音频信号。若在编 天津人学硕+ 学位论文 第一章多媒体信息的采集与处理 码时舍去这种在感知门限以下的信号,虽然会使恢复原信号产生一定的失真,但 并不能为人们所感知,为此,此种超出人们感知能力部分的编码就称为知觉冗余。 例如:一般的视频图像采用2 8 的灰度等级,而人们的视觉分辨力仅达2 6 的等级, 此差额即为视觉冗余。 以上这些形式的冗余就是视频压缩编码的出发点,编码算法要尽可能地消除 这些冗余,以降低表示视频所需的数据量。 ( 1 ) i p e g 标准 j p e g 是“t h ej o i n t p h o t o g r a p h i ce x p e r tg r o u p ”的缩写,它是由国际电报咨 询委员会( c c i t t ) 和国际标准化组织o s o ) 联合组成的专家组,共同制定的静止图 像的数码率压缩标准。j p e g 的目标主要针对静止图像,在用于活动图像时,其 算法仅限于帧内,而没有利用帧间处理。 ( 2 ) h 2 6 x 标准 h 2 6 1 是1 1 u t 为在综合业务数字网( i s d n ) 上开展双向声像业务( 可视电 话、视频会议) 而制定的,速率为6 4 k b s 的整数倍。它只对c i f 和q c i f 两种图 像格式进行处理,每帧图像分成图像层、宏块组( g o b ) 层、宏块( m b ) 层、块( b l o c k ) 层来处理。h 2 6 1 是最早的运动图像压缩标准,它详细制定了视频编码的各个部 分,包括运动补偿的帧间预测、d c t 变换、量化、熵编码,以及与固定速率的 信道相适配的速率控带i 等部分【13 】。 h 2 6 3 是i t u t 为低于6 4 k b i v s 的窄带通信信道制定的极低码率视频编码标 准。该标准是在h 2 6 1 的基础上发展起来的,综合应用帧间预测去除时间冗余度 和d c t 变换编码去除空间冗余度的混合编码算法。其标准的输入图像格式闭以 是s - q c i f 、q c i f 、c i f 、4 c l f 或者1 6 c 1 f 的彩色4 :2 :0 皿取样图像。h 2 6 3 与 h 2 6 1 相比采用了半像素的运动补偿,并增加了4 种有效的压缩编码模式。h ,2 6 3 是最早用于低码率视频编码的i t u t 标准,随后出现的第二版( h 2 6 3 + ) 及 h 2 6 3 + + 增加了许多选项,使其具有更广泛的适用性【1 4 。 h 2 6 4 足由i s o f l e c 与i t u t 组成的联合视频组( j v t ) 制定的新代视频压 缩编码标准。相对于先期的视频压缩标准,h 2 6 4 引入了很多先进的技术,包括 4 x 4 整数变换、空域内的帧内预测、l 4 象素精度的运动估计、多参考帧与多种 大小块的帧间预测技术等。新技术带来了较高的压缩比,同时大大提高了算法的 复杂度。 大洋人学硕+ “学位论文 第一章多媒体信息的采集与处理 ( 3 ) m p e g 标准 m p e g 是英文“t h em o v i n gp i c t u r ee x p e r tg r o u p ”的缩写,m p e g 委员会的 活动始于1 9 8 8 年,其目标是对视频及其伴随的音频,对数字存储媒质制定个 标准。m p e g 的任务是开发运动图像及其声音的数字编码标准,目前已提出 m p e g 1 、m p e g 2 、m p e g 4 、m p e g 7 扔:准。 m p e g 一1 标准于1 9 9 3 年8 月公布,用于传输1 5 m b p s 数据传输率的数字存 储媒体运动图像及其伴音的编码。 m p e g 一2 标准是针对标准数字电视和高清晰度电视在各种应用下的压缩方 案和系统层的详细规定,编码码率从每秒3 兆比特1 0 0 兆比特特别适用于广 播级的数字电视的编码和传送,被认定为s d t v 和h d t v 的编码标准。 m p e g 一4 标准将众多的多媒体应用集成于一个完壤的框架内,旨在为多媒体 通信及应用环境提供标准的算法及工具,用于实现音视频数据的有效编码及更为 灵活的存取。m p e g - 4 试图达到两个目标:一是低比特率下的多媒体通信;二是 多j :业的多媒体通信的综合。据此目标,m p e g 4 引入了a v ( a u d i o v i s a u l o b j e c t s ) 对象,使得更多的交互操作成为可能【1 5 】。 m p e g 7 标准规定了一个用于描述各种不同类型多媒体信息的描述符的标 准集合,该集合被称为“多媒体内容描述接口”。用于在互联网络的浩大数据中 快速准确地获得自己所需的数据。m p e g 7 标准可以广泛用于音频视频数据库的 存储和检索、广播媒体的选择、多媒体目录服务( 黄页、旅游信息、地理信息系 统等) 、因特网上的个性化新闻服务、智能多媒体、多媒体编辑、教育领域、远 程购物、遥感、监视、生物医学等诸多方面。 2 3 3 数字音频压续标准 ( 1 ) m p 3 标准 m p 3 是目前使用用户最多的有损压缩数字音频格式。它的全称是m p e g a u d i ol a y e r 一3 ,它所使用的技术是在v c d ( m p e g 1 ) 的音频压缩技术上发展出 的第三代,而不是m p e g 3 。 m p 3 的编码方式有c b r ( 固定编码率) 、v b r ( 可变编码率) 币i a b r ( 平均 比特率) 三种。v b r 是目前最常用的编码方式,它采样的压缩比率依声音中信息 多寡,并利用人耳的掩蔽效应来减少冗余数据,压缩比率可达l :1 0 1 :1 2 ,而拥 有近似c d 的音质【1 6 】。 ( 2 ) w m a 标准 w m a 是w i n d o w s m e d i a a u d i o 的缩写,是微软力推的数字音频格式。微软 天津大学硕士学位论文第一二章多媒体信息的采集与处理 官方宣布的资料中称w m a 格式的可保护性极强,甚至可以限定播放机器、播放 时间及播放次数,具有相当的版权保护能力。 ( 3 ) a d i 崛m 标准 这种格式常用于声音录制,尤其是采访和课堂录音等场合。它的体积与m p 3 和w m a 相比更小,但音质较差。比如作为采访时的录音,3 2 m 的闪存,用这 种格式录制,可以存储大约2 个小时的录音。从音质和文件大小的统一性来说, 应该是目前一个较好的解决方案。 多媒体信息的采集主要采用了前面提到的v f w ( v i d e of o rw i n d o w s ) j q :发平 台。v f w 提供的a v i c a p 窗口类高级编程工具【17 】,使程序能够通过回调函数 的设置直接访问音视频数据块,并进行相应的压缩和传输操作。 在进行信息捕获过程中,首先要通过c a p c r e a t e c a p t u r e w i n d o w 函数创建捕 获窗口,并进行窗口参数和系统参数的设定。然后使用如下函数进行音视频回调 函数的注册和激活: b o o lc a p s e t c a l l b a c k o n v i d e o s t r e a m ( mc a p h w n d ,c a l l b a c k v i d e o s t r e a m ) : b o o i ,c a p s e t c a li b a c k o n w a v e s t r e a m ( m _ c a p h w n d ,c a ll b a c k w a v e s t r e a m ) : g o o l 。c a p c a p t u r e s e q u e n c e n o f i1e ( mc a p l l w n d ) ;t l 激活回调函数 其中mc a p r i w n d 为所创建的捕获窗口的旬柄,c a t l b a c k v i d e o s t r e a m 和 c a l l b a c k w a v e s t r e a m 为所对应的回调函数。回调函数原型如下: l r e s u l tc a l l b a c kc a l l b a c k v i d e o s t r e a m ( h w n dh w n d ,l p v i d e o h d r1 p v h d r ) : l r e s u l tc a i _ 。l b a c kc a l l b a c k w a v e s t r e a m ( h w n dh w n d ,l p w a v e h d r p w h d r ) ; 其中h w n d 为捕获窗口的旬柄,而l p v h d r 和l p w h d r 分别为指向v 1 d e o h d r 和w a v e h d r 结构的指针,这两个数据结构中包含了视频和音频数据块中的 些重要信息,如指向数据块的指针、块长度和时间戳等,这为我们对音视频数据 的操作提供了便利的条件。 进行多媒体信息采集的具体流程如图2 3 【1 8 】所示: 天津大学硕士学位论文第二一章多媒体信息的采集与处理 刨建视频捕获窗口 j 上 l 注册并激活系统回调函数 上 与音视频捕获设备连接 上 设置捕获模式,开始捕获 j 上 捕获多媒体数据到缓冲区, 并进行相应的处理 上 中i e 捕获,断开连接 图2 - 3 多媒体信息采集流程 为了提高教师端的工作效率,更好的满足网络教学实时性的要求,系统采用 了多线程的1 e 作模式并采用环形缓冲区进行数据存储。即信息采集、信息压缩和 信息传输三个线程同时工作,宋压缩的数据和压缩后的数据分别存放到不同的环 形缓冲区,这就保障了压缩后的音频和视频数据能够快速的送出,为学生端的数 据接收与同步处理打下了良好的基础。线程结构与缓冲区的关系如图2 - 4 : 图2 - 4 线程结构与缓冲区 天津大学硕士学位论文 第一章多媒体信息的采集与处理 2 5 多媒体信息的传输 2 5 1 圈络多媒体韭务的特点 l 、较大的网络带宽: 多媒体对象的数据量庞大,即使在经过各种压缩算法处理之后,其带宽需求 也是比较大的,表2 一l 给出了些典型的压缩多媒体流的比特率: 表2 1 典型多媒体业务的比特率 国际标准数据速率应用程序 g 7 2 1 3 2 k b p s 电话 g 7 2 2 4 8 6 4 k b p s电视会议 m p e 6 1 ( a u d i o ) 1 2 8 3 8 4 k b p s双声道音频 m p e g 一2 ( a u d i0 )3 2 0 k b p s5 1 声道音频 j p e g0 2 5 8 o b p p静态图像 p x 6 4 ( h 2 6 1 )6 4 1 9 2 0 k b p s 视频会议 m p e g - 1 ( v i d e o )1 5 m b p s视频,v c d m p e g 一2 ( v id e o )2 3 0 m b d s h d t v ,d v d m p e g 一4 6 4 k b p s 交互多媒体 2 、对实时性的要求高于可靠性 视频音频属于连续媒体,其内部各信息单元之闯一般有比较严格的时间关 系,网络信道作为整个端到端应用的一部分必须尽可能地维护这种时间关系。网 络传输中的主要错误类型包括位错误( 包内数据错误) 、丢包、乱序( r e o r d e r ) 等。由于人感觉器官的特点多媒体业务对个别的传输错误并不敏感可以容许 一定的丢包或位错误,但对于媒体流的延迟情况却十分敏感。这是多媒体业务同 一般的低实时性、高可靠性要求的网络业务如电子数据交换、文件传输等最大的 不同之处。因而,传输控制机制也大不相同。多媒体数据传输中常常根据实时性 限制制定个延迟死线( d e a dl i n e ) ,任何在此死线之后到达的数据将被简荦丢 弃。因此过大的延迟和乱序将等同于丢包。一一般地,多媒体数据的传输都是利用 无证实的服务,重传是不适合的,因为“超时一重传”机制所消耗的时间足以令 重传的数据超过死线而变得没有意义。一般利用解码器修补、插值重新生成、重 复播映前个媒体单元内容等前向的手段来处理传输错误。 天津夫学硕士学位论文第二章多媒体信息的采集与处理 3 、需要进行同步控制 多媒体业务中常常包含多个媒体流,它们相互之间也有着时间上的同步关 系,因此,必须研究在不可靠的传输信道上进行同步控制的理论和方法。网络多 媒体通信至少要传输两种以上的媒体信息,在通信终端上必须以同步方式显示多 媒体信息。多媒体数据的视频和音频都是具有很强的时间相关性( t i m e s e n s i t i v e , 即对时间敏感) 的连续媒体,同步的要求比较严格。 4 、裙要实现交互性控锚 交互性包括两方面的内容:多媒体网络节点与网络系统的交互通信,以及用 户与多媒体网络节点或系统的交互性。多媒体网络通信应是双向及多点的,用户 能灵活的控制和操纵通信的全过程。 2 5 2 多媒体月络传输协议 2 5 2 it c p u d p 协议的选择 因特网在传输层有两种主要的协议:一种是砸向连接的传输控制协议 t c p ( t r a n s m i s s i o nc o n t r o lp r o t o c 0 1 ) ,一种是无连接的传输协议u d p ( u s e rd a t a p r o t o c 0 1 ) 【1 9 】。 t c p 是专门设计用于在不可靠的因特网上提供可靠的端到端的字节流通信 协议。因特网不同于一个单独的网络,不同部分可能具有不同的拓扑结构、带宽、 延迟、分组大小以及其它特性。t c p 被设计成能动态满足互联网的要求,并且足 够健壮以面对多种出错。 无连接的u d p 协议向应用程序提供了一种发送封装的原始l p 数据报的方 法,并且发送时无需建立连接。很多有一个请求和一个响应的客户服务器应用 程序采用u d p ,这样可以避免建立和释放连接的麻烦。 t c p 相比于u d p 提供了更多的质量保证控制方法,但这些方面却并不适用 于实时音视频传输: ( 1 ) t c p 的重传机制 它对于实时性要求较高的音视频数据通信来说是没有意义的。因为接收方不 得不等待重传数据的到来,将会造成延迟和断点;同时重传数据包又进步浪费 了有限的带宽,加重了网络的拥塞状况,会造成更多的丢包,从而形成恶性循环。 ( 2 ) t c p 的流量,拥塞控制帆制 音视频在特定的编码方式下,产生的比特率是不可能突然改变的,这就使得 这种控制机制没有了实际意义,应该通过调节音频视频编码器的量化参数,调 天津大学硕士学位论文 第一:章多媒体信息的采集与处理 节帧速率或视频帧的图像大小等来改变比特率。 ( 3 ) t c p 的报文头结构 t c p 的报文头为2 0 个字节,而u d p 的报文头仅为1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论