(电路与系统专业论文)基于mpeg2的多视点视频可分级实时解码器研究.pdf_第1页
(电路与系统专业论文)基于mpeg2的多视点视频可分级实时解码器研究.pdf_第2页
(电路与系统专业论文)基于mpeg2的多视点视频可分级实时解码器研究.pdf_第3页
(电路与系统专业论文)基于mpeg2的多视点视频可分级实时解码器研究.pdf_第4页
(电路与系统专业论文)基于mpeg2的多视点视频可分级实时解码器研究.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

(电路与系统专业论文)基于mpeg2的多视点视频可分级实时解码器研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 多视点视频作为一种即将出现的交互式多媒体应用,体现了下一代多媒体应 用网络化、交互性和真实感的发展方向。多视点视频技术已经吸引了越来越多的 国内外学者,并在各个领域展开了研究,多视点视频的实时解码技术必将成为热 点。目前m p e g 2 实时解码器多通过硬件实现,成本高,灵活性差,在多视点视 频方面的应用则更少,因而基于m p e g 2 的多视点视频软件实时解码非常具有研 究价值。 首先对比各种视频解码标准,由于m p e g 2 标准具有算法简单、执行效率高、 可分级编解码、兼容多种格式等特点,更适合进行多视点视频的实时解码。其次 分析了m p e g 2 码流结构,从比特流结构研究解码过程和可分级特性,讨论了几 种基于可分级特性双视点解码方案。m p e g 2 可分级解码不适合多视点情况,故 提出了基于m p e g 2 的线程级并行算法,采用任务分解的方式设计解码方案,使 各视点码流并行解码。当视点码流丢失时,利用相邻视点进行预测,构建中间视 点,实现了可分级特性。并通过对运动补偿模块研究,提出了帧级和条带级并行 方案,使相互间具有独立性的帧和条带并行解码。最后介绍了并行程序的常用设 计模式以及实现、调试方法。并在v i s u a ls t u d i o 中进行实现和优化。 通过仿真实验对比改进前后的解码器性能,以及解码后图像各种参数,表明 基于m p e g 2 的并行处理算法能较好地满足实时要求,具有可分级特性。 关键词:m p e g 2 多视点视频多线程实时解码 a b s t r a c t m u l t i v i e wv i d e oa sa nu p c o m i n gi n t e r a c t i v em u l t i m e d i aa p p l i c a t i o nw h i c h e m b o d i e st h ed i r e c t i o no f d e v e l o p m e n to f n e x t - g e n e r a t i o nm u l t i m e d i aa p p l i c a t i o n s ,h a s a t t r a c t e dag r o w i n gn u m b e ro fd o m e s t i ca n df o r ei g ns c h ol a r s t h er e a l t i m ed e c o d i n g t e c h n ol o g yo fm u l t i v i e wv i d e ow i l lc e r t a i n l yb e c o m eaf o c u s a tp r e s e n t ,r e a l - t i m e d e c o d e ri m p l e m e n tb ys o f t w a r eb a s e do nt h em p e g 一2h a sm o r er e s e a r c hv a l u et h a n t h a tb yh a r d w a r e ,b e c a u s eo fi t sl o wc o s t ,h i g hf l e x i b i l i t y f i r s t l y b yc o m p a r i n gt h ev a r i e t yo fv i d e od e c o d e rs t a n d a r d s ,t h i sp a p e rp o i n t st h a t t h em p e g 2s t a n d a r di sm o r es u i t a b l ef o rm u k i v i e wr e a l - t i m ev i d e od e c o d i n go w i n gt o s i m p l e ,e f f i c i e n t ,s c a l a b l ea n dc o m p a t i b l e e t c s e c o n d l 5t h i s a r t i c l ea n a l y z e s t h e m p e g 2b i t s t r e a ms t r u c t u r et h e nd i s c u s s e sd e c o d i n gp r o c e s sa n dt h es c a l b a l i t yf o s e v e r a ld u a l - v i e wd e c o d i n gp r o g r a m ef r o mt h eb i t s t r e a ms t r u c t u r e b e c a u s et h e m p e g 2s c a l a b l ed e c o d e ri sn o ts u i t a b l ef o rm u l t i v i e w ;t h i sp a p e rp r o p o s e st h e t h r e a d 1 e v e lp a r a l l e la l g o r i t h m t h e n ,t h i sp a p e ra d o p t st h et a s kd e c o m p o s i t i o nt o d e s i g nt h ed e c o d i n gp r o g r a mi nw h i c ht h es t r e a mo fe a c hv i e wi s d e c o d e dp a r a l l e l w h e nt h es t r e a mi sl o s t ,t h ec h a r a c t e r i s t i c so fs c a l a b l ec a nb er e a l i z e du s i n gt h e a d j a c e n tv i e wp o i n tt op r e d i c ta n dr e b u i l dt h el o s tv i e w b e c a u s eb o t ht h ef l a m e sa n d s l i c e sa r ei n d e p e n d e n ts e p e r a t l y , t h i sp a p e rp r o p o s e st h em e t h o dw h i c hc a l ld e c o d e f r a m e sa n ds l i c e sp a r a l l e l f i n a l l y , t h i sp a p e ri n t r o d u c e st h ed e s i g np a t t e r n s ,r e a l i z a t i o n a n dd e b u g g i n gm e t h o d so f p a r a l l e lp r o g r a m t h o s ec a nb ei m p l e m e n t e da n do p t i m i z e d i nt h ev i s u a ls t u d i o t h r o u g ht h es i m u l a t i o n ,t h i sp a p e rc o m p a r e st h ed e c o d i n gp e r f o r m a n c eb e t w e e n b e f o r ei m p r o v e m e n ta n da f t e r t h ep a r a m e t e r so fd e c o d e di m a g es h o wt h a tt h ep a r a l l e l p r o c e s s i n ga l g o r i t h m sb a s e d o nm p e g 一2c a nf u f i l lt h er e q u i r e m e n t so f r e a l _ t i m e k e yw o r d s - m p e g - 2 ,m u l t i v i e w ,m u l t i t h r e a d ,r e a l t i m e ,d e c o d e r 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得叁鲞叁堂或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中 作了明确的说明并表示了谢意。 学位论文作者签名:秘弗:毖 签字日期: 加7 年厂月;f 日 学位论文版权使用授权书 本学位论文作者完全了解:叁盗盘鲎有关保留、使用学位论文的规定。 特授权鑫鲞盘堂可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名: 易栏 导师签名: 签字日期:加了年歹月;f 日签字曰期:罗年j 、月罗7 日 第一章绪论 第一章绪论 随着计算机网络技术的发展,基于各种国际编码标准如m p e g x 、h 2 6 x 系 列的视频产品已经走进人们的学习、生活和工作等各个方面。然而,随着人们对 数字视频要求的日益提高,人们希望看到表征自然景物的数字视频更加清晰、更 加真实,这正是多视点视频可以解决的问题,因此,当前视频研究领域掀起了多 视点视频技术研究热潮,其中包括多视点视频捕获、多视点视频压缩编码、多视 点视频传输以及解码和显示等等。本章首先介绍了本论文的选题背景,然后介绍 了多视点视频解码国内外研究现状,最后阐述了本论文的主要工作和内容安排。 1 1 引言 多视点视频【1 】作为一种即将m 现的交互式多媒体应用,它的提出体现了下一 代多媒体应用网络化、交互性和真实感的发展方向,已经吸引了越来越多的国内 外学者,并在各个领域展开了研究,如虚拟视频会议、自由视点电视、立体电视 【2 】- 雏 寸。 多视点视频和单通道视频相比,数据量成倍增加,同时随着人们对视频观看 质量的提高,高分辨率、高清晰度、立体感和交互性是今后的趋势,这将带来数 据量的急剧增加和对解码实时性的要求,仅仅依靠网络带宽的提高和存储容量的 提升是无法解决这个问题的,还必须采用高效的视频处理技术来解决这个问题 【3 】 o 视频技术主要是指根据人的要求对视频图像进行某种处理【4 】,主要包括: l 、视频压缩编码一视频信息在多媒体信息中是数据量最大的,由于互连 网现有的带宽的限制,多媒体通信要求在保证一定质量的前提下,以最少的比特 表示视频图像。 2 、视频信号传输为了有效而高质量地传输视频信号,要求对视频信号 进行传输编解码和数字调制解调。 3 、视频解码显示利用获取的有效视频信息,使视频信号尽可能逼真地 重现原始图像信息,消除视频信号获取和传输中引入的失真和干扰。 4 、视频信号分析从视频图像信息中提取某些特征,以便对其进行描述、 分类和识别。 第章绪论 其中解码显示部分与观看者有着最直接、最密切的关系,故解码显示技术水 平直接影响到观看感受和对系统适用性的评价。如何设计高效的、实时的解码器 成为视频系统至关重要的部分。本文的主要研究内容就是研究实现高效的、实时 的多视点视频解码器方案。 1 2 多视点视频解码的研究现状 人们不断要求视昕产品朝着更加清晰、真实和可交互的方向发展,三维视频 以其对真实感和立体感的表现力越来越受到人们的欢迎,注定将在不久的将来走 进并直接影响人们的生活,甚至对许多产业的发展产生深远的影响。为了提供给 用户深度感和真实感,显示终端需要两个或两个以上的视点数据以生成立体效 果,为此采集终端一般需要多台摄像机同时捕获生成多视点海量视频数据【5 】,相 比于单通道视频数据,多视点视频数据随着视点数目的增加而成倍增加,如何有 效解决多视点视频海量的数据处理问题是目前研究的一大热点。m p e g 组织已经 在3 d a v ( 3 da u d i ov i d e o ) 中对多视点视频进行了探索研究。从单视点视频到多 视点视频虽然仅仪只是视点的数量上有所增加,但是多视点视频信号所涉及的 编、解码难度却比单视点视频要困难许多。 目前可用于多视点视频处理的同际标准主要是m p e g 2 和h 2 6 4 、m p e g 4 , h 2 6 4 实际上是m p e g 4 的第1 0 部分,较以前的编码标准其有更多优点,但是 h 2 6 4 和m p e g 4 算法复杂、硬件要求高、目前难以实现软件实时处理【3 】【6 】【7 】。 m p e g - 2 是m p e g 1 的扩展,除拥有m p e g 1 的所有功能外,还支持更加广泛的 活动图像应用,例如包括多点电视会议、异步转移模式网络视频通信和嵌入式标 准电视的h d t v ( h i g hd e f i n i t i o nt e l e v i s i o n ) 。由于m p e g 2 是一种高质量视频的 压缩标准,工业界、有线和卫星网络以及广播电视界都一致同意用这个标准。数 字电视广播、d v d 、收费电视、在网络上点播视频节目,交互式电视以及其它 未来的网络视频服务方式也将采用m p e g 2 t 引。 然而,由于m p e g 2 针对的编码图像的内容复杂度大、数据量大,对所要编 码图像的质量要求高,使得m p e g 2 的解码的实时实现更为复杂、难度更大。大 多数公司和厂商现在都依靠硬件芯片进行编解码。m p e g 2 解码芯片有三类:第 一类是视频解码、音频解码、系统控制,由三块芯片分别完成;第二类是视频、 音频解码台在一块芯片上,系统控制单独一块芯片;第三类是视频、音频、系统 控制三部分都做在一块芯片上,由一块芯片完成m p e g 2 的解码全部功能。这三 类产品的代表型号和厂商如下:第一类有i b m 的m p e gc d l p i n e e r 的 c d il l o a f ;第二类有l s il o g i c 的l 6 4 0 0 2 和s g s t h o m s o n 的s t l 3 5 2 0 a ;第三 2 第章绪论 类有美国现代电子公司的h d m $ 2 11 等。由于集成度低、成本高第一类芯片将 被淘汰:第二类芯片目前在市场卜占了较大的比重;而第三类芯片正日益推进市 场。口前来看采片4 硬件实现编解码比软件方式速度快,效率高效果好,但价 格昂贵,灵活性差所以一直以来使视讯产品市场受到制约。近两年伴随着数字 信号处理器的芯片工艺的不断提高处理能力的增强使用纯软件实现编解码成 为发展的方向,它能降低系统的成本,也是视讯产品广泛普及的前提。井随着对 编解码算法研究的不断改进和提高,可极方便地使用最新算法对产品升级。 m p e g 2 的解压缩技术已成为多媒体通信业务的核心技术之一。髓着数字视频技 术的进一步发展,并行通刖浮点d s p 的并行处理能力和并行效率的不断提高, m p e g - 2 实时编解码器将r _ 泛应用到各种各样的多媒体通信业务中未来的通信 业务和各种网络服务将以m p e g 2 的解压缩技术为核心走进千家万户。 圈i - lh h i 沉浸式立体视频会议系统 国外对于多视点视频的研究从2 0 世纪9 0 年代就开始展开,十多年来其研 究成果已经覆盖多视点视频的各个领域包括多视点视频的捕获、编解码、传输、 以及呈现等。其中德国、法国、美国、口本和韩国等对多视点视频的研究比较深 入n 比如欧洲几个国家从1 9 9 2 年开始鞋台展开的d i s t i m a 项目,采用m p e g 2 标准作为基础实现的一个完整的立体视频系统:另外,德啻的h h i 研究所致力 于研究沉浸式立体视频会议系统见阿i - i 该系统能将实际的会议桌与远程与 会者的虚拟会议桌无缝的拼接起米,再配上逼真的立体显示效果,使与会者感觉 到就足在面对面的交流:还有微软研究院研究开发的实时多视点视频系统,用户 可咀选择自己感兴趣的不同视点进行观看。 国内学术界对多视点视频的研究开始于9 0 年代后期到目前为止已在多 视点税额编码压缩以及虚拟视点台成等领域取得了一定得研究成粜,其中主要有 第一章绪论 清华大学、上海大学、天津大学等高校。但是目前国际标准组织没有制定相关的 多视点视频编码标准3 1 。 1 3 本文工作及内容安排 本论文的主要内容和结构安排如下: 第一章对多视点视频系统的研究进展、图像和视频压缩编码的发展状况作了 简单的同顾和总结,并简要介绍本论文的主要工作。第二章简要描述了立体视觉 原理,并着重介绍了m p e g 2 标准,由于本文重点研究实时解码器的实现方面, 因而主要介绍了m p e g 2 码流结构、解码过程以及m p e g 2 可分级编码特性, 不对解码算法作深入讨论。第三章介绍了并行处理系统和多线程编程的相关理论 和技巧,为m p e g 2 解码器的并行优化提供理论基础。第四章为m p e g 2 解码 器的设计和优化,在第二、三章的理论基础上,对m p e g 2 解码器进行了设计和 并行优化,从而提高实时性能。第五章为仿真实验和结果分析,对所设计的解码 器进行了性能评价和验证。第六章给出结论和展望。 4 第二奉荽于m p e g - 2 的多视点视额缩解码 第二章基于m p e g 2 的多视点视频编解码 本章首先介绍了立体视觉原理,立体视觉是多视点视频实现立体化的理论基 础,然后从码流结构角度介绍了m p e g - 2 标准,并分析了m p e g - 2 视频解码的 过程。最后阐述了基于m p e g - 2 的多视点视频系统常用方案。 2 1 立体视觉与多视点视频介绍 2 1 1 立体视觉原理 客观世界在空问卜是三维的对于一般的用单镜头摄像拍摄的单视图象和视 频,人们虽然可以通过诸如阴影、相对尺寸、运动、遮挡、纹理梯度和几何透视 等深度刺激因素来获得三维感觉,但这些因素并不能给出真实的三维世界, 根据人的视觉系统特性可知深度才是最有效的三维信息。事实卜,人类视 觉系统就是一个天然的立体视觉系统,其视觉过程可看作是一个复杂的由感堂到 知觉的过程唧,感觉指的是三维世界到二维投影得到的平面图像,在这一阶段 三维深度信息是受损的。知觉指由二维图像认知三维世界内容和含义。 函 陶2 1 人体的立体税盘系绕成像过程i ”l 在双眼视觉中,每只眼睛的视阿膜上各形成一个独立的视像如图2 1 。 它们传到大脑皮层后结合起来,产生一个单一的具有深度感的视像。取眼在朝向 蕊 蕊 第二章基于m p e g 2 的多视点视频编解码 一个共同的视觉方向看物体时,通过复合而得到单一的,好像是被一只眼看到的 映像。理论上可用假想的处于两眼正中的单一眼睛来代表这个器官,称为中央眼 ( c y c l o p e a ne y e ) 。我们依靠中央眼的主要视觉方向来确定物体的空问位置,而双 眼视差则是知觉立体性和两个物体前后深度性的重要条件。一般来说,当人观察 一个立体物体时,由于两眼相距约6 5 m m ,所以是从不同角度来观察的。具体说 来,左眼看到物体的左边多点,右眼看到物体的右边多点,这样在两个视网膜上 得到不| 一的视像,这就是两眼视差 1 】。双目视的立体映像是反映相对深度感知 的过程。 这种场景中的相对深度信息由人的大脑产生,是通过识别一个三维场景在 左、右视网膜上二维投影的对应点之间的水平偏移而获得的。这种偏移称为对应 于真实世界中点的视网膜视差( r e t i n a ld i s p a r i t y ) 或双目视视差( b i n o c u l a r - p a r a l l a x ) 。 结合三维世界中的先验知识,我们可以感知个具有强烈深度感的三维世界。因 此双眼视差是产生立体视觉和深度知觉的原凶。人在正常身体姿态时,两眼的视 差是沿水平方向的横向视差。人的深度知觉主要是有横向视差产生的。视网膜上 下方向的视差成为纵向视差,它在生活巾很少出现而且我们对它也不感兴趣。一 般在没有任何工具的情况下,人眼可看到立体物体的最远距离不超过一公里 5 】。 2 1 2 立体摄像模型和视差 为了说明多视点视频系统的构成和特性,这里先简要介绍一下双视点立体摄 像模型和视差的相关内容。 立体成像的方式主要由光源、摄像机和景物三者相互位置和运动情况决定, 包括双目成像方式和多曰成像方式。通过两部相隔一定距离的摄像机来实现对三 维场景取像,就是双目成像【3 】。如果用多于两个摄像机在不同位嚣对同一场景取 像,就是多目成像。与人的双眼观看三维景物时相同,如图2 - 2 所示,当用双目 立体摄像机拍摄景物时,先要把两部摄像机的光轴汇聚于感兴趣的物体上,这时 称两部摄像机光轴的交点为汇聚点,汇聚点到两部摄像机透镜中心连线中心的距 离为汇聚距离。在数学上汇聚距离可以是有限值,也可以是无限值,当汇聚距离 非常远时,两部摄像机的光轴近乎平行,可认为汇聚点在无穷远处,汇聚距离为 无穷大。为便于数学分析,称汇聚距离为无限远时的双目立体摄像系统为平行立 体摄像系统,汇聚距离为有限值的双目立体摄像系统为汇聚立体摄像系统1 3 。 6 第二章基于m p e g 2 的多视点视频编解码 一 汇聚点 ,气、 卜一 双眼距离一 图2 2 人眼视觉示意图 l 、双目平行立体摄像系统 当两部摄像机的特性相同,且被设置成平行放置时,我们称之为平行双目立 体摄像系统,如图2 3 所示( x z 平面) 。图中两个摄像机的光轴相互平行,并与基 线b 垂直,系统的基线b 为两个镜头中心点的连线,f 为焦距。对于平行立体摄 像系统,共轭外极线与数字化图像的扫描线相重合,例如左图像上任一点( x l ,y j ) 的外极线就是y r 或y l ( y i = y r ) ,所以图像对之间只存在水平方向( x 轴) 的视差,即 d = x r - x l 。 jz | ,| i x y z z b 。f 、 1 | jf 。 一r 双t 删 ( x 1 y 1 )( x , y ,) 左图像右图像 图2 3 平行双目立体成像:视差1 3 = 辫- x , x 第二章基于m p e g 2 的多视点视频编解码 由透视投影及近似三角几何学原理,可导出如下关系: x + b 2 、,z。,(2-1) x b | 2 z 由式( 2 一1 ) 可解出w 的x 与z 坐标: x :皇! 苎型 z ( x ,一x ,) z :旦:旦 x r x | d ( 2 2 ) ( 2 3 ) 求出z 以后,根据透视原理,可计算出世界坐标系的y 坐标: y :垒! 丝丝:皇亟丝( 2 - 4 ) 2 ( x ,一而) 2 d 、 公式( 2 3 ) 把物体与像平面的距离z ( 即三维信息中的深度) 及视差d ( 像坐标 x r 与x l 的差) 直接联系了起来,视差的大小与深度有关,其中包含了三维物体的 空间信息,所以可用视差来表示相对深度。上式还说明了视差与深度z 成反比, 即当物体距摄像机较近时产生较大的视差,反之则视差变小。根据深度或视差信 息,可由像平面坐标推知其对应的世界点的坐标。 2 、双目汇聚立体摄像系统 由于平行立体成像系统中两部摄像机的光轴互相平行,因此两部摄像机可以 同时看到的区域,即立体视区受到限制,采用汇聚立体成像系统可以解决这一问 题。将图2 3 中的两个摄像机系统绕各自中心相向旋转0 角,两个摄像机的光轴 汇聚于( 0 ,0 ,z ) 点,就构成了如图2 - 4 所示的双日汇聚立体摄像系统。 x z 。i z l ( x ,y ,z ) 一、+ 。o( o ,0 ,z ) :、:、o 、i | 、? 。i i i 一 ! 、00 j 、 、 一、 ? 、 | 、 1t 声j f 、 0 。 一 k 、 i、( x 】 b 图2 - 4 双目汇聚立体摄像系统示意图 ,y r ) 第二章基于m p e g 2 的多视点视频编解码 2 1 3 多视点视频 为进一步提高视频场景真实性,需要对双目立体视频系统进行扩展,采用多 视点视频系统。多视点视频由多个摄像机从不同角度拍摄而得,在显示时,可以 根据观看者所处位置显示相应角度的图像;当观看者的头部移动时,看到的内容 也会出现相应的变化,从而得到了“运动视差”和“环视”的效果。人眼生理视 觉研究表明人眼对场景画面变化的辨别能力非常强,为得到自然平滑的运动视差 效果,双眼距离内需要提供超过1 0 幅的画面内容。因此,需要使用非常稠密的 摄像机来获得多视点视频序列【】1 1 1 2 1 。然而这样系统太复杂,实际很难实现。在 实际的应用中,使用稍微稀疏的摄像机阵列拍摄该视点的视频图像,然后利用视 差信息和两个相邻摄像机上的视频合成中间视点的图像。为同时获得水平和垂直 方向的运动视差效果,多视点视频需要二维摄像机阵列来采集,考虑到复杂度, 目前的测试序列大都只提供水平方向的运动视差效果,使用水平一维摄像机阵列 获得。和立体视频摄像机系统一样,多视点视频摄像机也具有平行和汇集配置系 统之分,图2 5 给出这两种配置的一维摄像机阵列示意图。 b k 骅 u u u u u u a 平行配置b 汇聚 图2 5 多视点视频摄像机系统 2 2m p e g 一2 及其码流结构 2 2 1m p e g 2 标准 m p e g 2 标准目前分为九个部分【1 3 】,统称为i s o i e c l 3 8 1 8 国际标准。各部 分的内容描述如下: 9 y 心 |滟夼 动 第二章基于m p e g 2 的多视点视频编解码 第一部分s y s t e m ( 系统) ,描述多个视频、音频和数据基本码流合成传输码流 和节目码流的方式。第二部分v i d e o ( 视频) ,描述视频编码方法。第三部分 a u d i o ( 音频) ,描述与m p e g 1 音频标准反向兼容的音频编码方法。第四部分 c o m p l i a n c e ( 符合测试) ,描述测试一个编码码流是否符合m p e g 2 码流的方法。第 五部分s o f t w a r e ( 软件) ,描述了m p e g 2 标准的第一、二、三部分的软件实现方 法。第六部分d s m c c ( 数字存储媒体命令与控制) ,描述交互式多媒体网络中 服务器与用户间的会话信令集。 以上六个部分均已获得通过,成为正式的同际标准,并在数字电视等领域中 得到了广泛的实际应用。此外,m p e g 2 标准还有三个部分:第七部分规定不与 m p e g 1 音频反向兼容的多通道音频编码:第八部分现已停止;第九部分规定了 传送码流的实时接口。 1 9 9 0 年成立的a t m 视频编码专家组与m p e g 在i s o i e c l 3 8 1 8 标准的第一 和第二两个部分进行了合作,凶此上述两个部分也成为i t u t 的标准,分别为: i t u t r e c h 2 2 0 系统和i t u t r e c h 2 6 2 视频。 m p e g 2 的视频编码部分是在m p e g 1 的基础上做了重要的扩展和改进,包 括以下几个方面1 副: l 、针对隔行扫描的常规电视图像( n t s c p a l s c e a m ) ,专门设置了按“帧 编码”和按“场编码”两种模式,并相应地对运动补偿作了扩展,采用了适合于 隔行扫描的帧场自适应运动补偿。这样,常规电视图像的压缩编码与单纯按帧 编码相比,其效率显著提高。 2 、宏块层有多种y ,c b ,c r 构成方法。根据不同的y ,c b ,c r 的比例, m p e g 2 有4 :2 :0 ,4 :2 :2 ,4 :4 :4 三种方法。4 :2 :0 是指4 个y 像素和1 个c b ,1 个c r 像素,色度信号在水平和垂直方向都除以2 取样。m p e g 1 仅此一种方法。 4 :2 :2 是指针对4 个y 像素和2 个c b ,2 个c r 像素,色度信号只在水平方向除 以2 取样。4 :4 :4 是指每1 个y 有1 个c b 和c r ,适合于专业的影像工作时应用。 m p e g 2 对标准清晰度4 :2 :0 的视频可以压缩到约3 1 5 m b s ,在其低端会有损失。 对于数字地面广播( 标准清晰度) 在6 m b s 时图像质量和传输带宽利用率之间得到 兼顾。 3 、增加“可分级性”( s c a l a l i l i t y ) ,指解码器对m p e g 2 码流中已排序的子 集进行解码的能力。例如,对常规电视按m p e g 2 压缩后的码流若分成两个子集, 对优先权高的子集解码后即获得会议电视质量的图像,而对两个子集一起解码才 能获得常规电视质量的图像。已定的可分级性有空间域的、信噪比的、时间域的、 数据分割的和混合型的。 4 、m p e g 2 有两组量化表和两组h u f f m a n 码表供选择。 l o 第二章基于m p e g 2 的多视点视频编解码 5 、根据技术复杂度,将各类应用划分为不同的“类”( p r o f i l e ) ,每种类都是 m p e g 2 语法的一个子集。另外对每种类又划分为不同的“等级”( 1 e v e l ) ,每种 等级都是对有关参数规定的约束条件。主要层次主要等级( m p m l ) 适用于数字 常规电视,已经得到广泛的应用。 6 、系统语法有较大扩展。m p e g 2 将原来m p e g 1 的系统层语法加以改进, 扩展为两类码流:节目码流( p r o g r a ms t r e a m ) 与传送码流( t r a n s p o r ts t r e a m ) ,两者 都由压缩后的视频或音频数据( 加辅助数据) 以分组形式构成。前者的灵活性较 大,允许使用复接器对数据进行快速的重新组合或分离,提供几个节目多路传输 功能,并可设计使之应用于有误码环境,因而可在通讯网络如a t m 上传输。后 者应用于相对无误码的环境中,适合支持节目信息的软件处理或d v d ,c d r o m 之类的多媒休存储回放应用。由于在字头做了很多详细规定,使用起来较为方便 灵活,可对每个分组设置优先级、加密解密或加扰解扰、插入多种解说声音和 字幕掣1 钔。 2 2 2m p e g 2 可分级编码 m p e g 2 标准化的主要特点是各种数字视频之间的相互作用和可交换性,即 作为通用标准的m p e g 2 适用于较广泛的应用场合,并且也为比特流交换、兼容 性等提供了可能性。在m p e g 1 基础上,m p e g 2 所做的一个基本扩充就是适合 “真正”的视频应用。考虑到视频信号隔行扫描特性,m p e g 2 专门设置了“按 帧编码”和“按场编码”两种模式,并相应地对运动补偿和d c t 方式作了扩展, 从而显著提高了压缩编码的效率。而m p e g 2 所作的另一个重要的扩充就是引入 了“可分级性”概念,实现分级视频压缩编码。可分级性以空间域和时间域可分 级以及信噪比可分级为基础,例如在电视传输系统中利用分级视频编码技术,可 实现所谓的“逐渐降质”( g r a c e f u ld e g r a d a t i o n ) t l s 。此外,分级视频编码还可实现 对较低清晰度图像的向下兼容( 包括与m p e g 1s i r 图像的向下兼容) 。在信息技 术领域( 通过宽带网络传输视频) 和多媒体应用中,分级视频编码也能起重要作 用,在下面的介绍中还将看到,m p e g 2 视频编码在技术上相对于m p e g 1 也作 了进一步的优化和补充。利用可分级技术的m p e g 2 标准提供了大量的编码工 具,在标准清晰度电视和高清晰度电视传输系统、i s d n 运用、激光盘和磁带上 纪录时都能得到运用,同时,统一码流结构支持这些编码工具,这保证了符合标 准的m p e g 2 解码器能毫无问题地读出和解出比特流,但带来的问题是执行所有 功能需要很高的附加费用。因此,为了使最大可交换性和相互作用成为可能,又 使在简单和不复杂应用时费用不是很高,m p e g 2 引入了“档次等级” ( p r o f i l e l e v e l ) 结构,巧妙地解决了这一问题。 第二章基于m p e g - 2 的多视点视频编解码 “档次”是m p e g 2 定义的完整比特流的一个子集,而每个“等级”则是对 比特流各编码参数所做出的进一步的限制。“档次等级”是通过确定码流中相 应的标题信息即附加信息中的有关参数来给定的,这样,为较高“档次”和“等 级”的码流设计的解码器能够对相同或较低档次的数据解码。m p e g 2 规定了五 个档次和四个等级。不同档次和等级的组合可提供不同图像质量和输 h 速率。可 以有2 0 种组合,其中有1 1 种标准已经通过,称为m p e g 2 的适合点1 b 】。 m p e g 2 格式经常用“档次”和“等级”的缩写来表示,如最常用的主档次 主等级可表示为m p m l ,美国的高清晰度电视为m p h l 。表2 1 至2 3 给出 了m p e g 2 允许的档次和等级的组合以及每个等级的最大运动矢量范围和允许 的帧频。 表2 1m p e g 一2 的档次和等级 高级( h i g h ) 未用 m p f 国h l 未用未用 h p 囝h l 【1 9 2 0 ,1 0 8 0 ,3 0 】 1 9 2 0 ,11 5 2 ,2 5 高1 4 4 0 级未用 m p 囝1 4 4 0 未用 s s p 囝1 4 4 0 h p 1 4 4 0 【1 4 4 0 + 1 0 8 0 幸3 0 】 f 1 4 4 0 + 11 5 2 4 2 5 】 基本级s p m l m p 国m l s n p m m l 未用 h p m l 7 2 0 ,4 8 0 ,2 9 7 9 】 【7 2 0 ,5 7 6 ,2 5 】 低级未用 m p 囝l ls n p 囝l l 朱用未用 【3 5 2 ,2 8 8 ,2 9 7 9 等级( s p )( m p ) s n ps s p h p 类 简单型主型s n r 可调型空问可调型增强型 表2 - 2m p e g 2 各等级允许的最大垂直运动矢量范围 等级 高级 高1 4 4 0 级 基本级低级 最人垂直还动 1 2 81 2 81 2 86 4 失量范围 + 1 2 7 5+ 1 2 7 5+ 1 2 7 5 + 6 3 5 表2 3 m p e 州各等级允许的帧频 等级帧频( h z ) 高级 2 3 9 7 6 2 4 ( 2 5 ) 2 9 9 7 3 0 ( 2 5 ) 5 9 9 4 6 0 高1 4 4 0 级2 3 9 7 6 2 4 ( 2 5 ) 2 9 9 7 3 0 ( 2 5 ) 5 9 9 4 6 0 基本级2 3 9 7 6 2 4 ( 2 5 ) 2 9 9 7 3 0 低级 2 3 9 7 6 2 4 ( 2 5 ) 2 9 9 7 3 0 在处理方法方面,m p e g 一2 规定的笫二个档次为m p ( m a i n p r o f i l e ) ,它包括 了所有对隔行扫描视频图像很重要的编码技术,采用双向预测,是最经常使用和 1 2 第二章基于m p e g 2 的多视点视频编解码 最重要的档次,但它没有分层编码算法,如表2 1 所示。第一个档次为s p ( s i m p l e p r o f i l e ) ,它是m p 的子集,与m p 的唯一区别是,它没有双向预测( 无b 图像) 。 这种局限虽然会造成图像质量降低,但由于解码所需要的存储器较少而使实现价 格适宜的解码成为可能。第三、四个档次分别是信噪比可分级和空间可分级。这 两种档次给m p 增加了分层编码算法,空间可分级以空间滤波和再取样为基础, 并包括s n r 分层。第五个档次为h p ( h i g hp r o f i l e ) ,它包括目前m p e g 2 的大部 分编码技术,还有4 :2 :2 色度扫描格式。等级按主要参数分类,如图像格式、象 素数量和比特率等。根据图像尺寸和输入图像的相应像素数量,不同等级有很大 的差异。输入影像格式的第二级为主级m l ( m a i nl e v e l ) ,它主要与i t u rb t 6 0 1 推荐的图像格式和帧频有关,其格式符合i t u rr e c b t 6 0 1 标准7 0 4 5 7 6 2 5 ; 第一级为低级l o wl e v e l ( l l ) 关系到s i f 分解力,它是主级的l 4 ,即3 5 2 x 2 8 8 2 5 ; 第三级为h i g h 1 4 4 0 ( h 1 4 l ) ;第四级为高级h i g hl e v e l ( h l ) ,即高清晰度电视格 式1 9 2 0 1 0 8 0 。h 1 4 l 和h l 之间的差异,是为了考虑逐级执行h d t v 。h 1 4 l 关 系到每行1 4 4 0 象素和每秒2 5 或3 0 隔行扫描图像,h l 使每行1 9 2 0 像素和每秒 5 0 或6 0 逐行帧成为可能。档次与等级结构在语法中由识别比特表示,这样解码 器就能及时辨别出它是否能够对接受到的比特流进行解码。 2 2 3m p e g 2 的码流结构 m p e g 2 的码流结构分成六层【8 】:视频序列、图像组、图像、图像片、宏块、 块,如图2 - 6 所示。视频序y j j ( v i d e os e q u e n c e ) :由序列头,若干个图像组和序列 尾组成。图像组( g o b ) :由一系列的单帧或多帧图像组成。图像( p i c t u r e ) :是视 频序列中编码基本单元。一幅图像由一幅亮度( y ) 和两幅色度( c r ,c b ) 点阵组成。 图像片( s l i c e ) :由一个或多个连续的宏块组成,在一个片内,宏块的顺序从左到 右、从上到下。片在纠错处理中很有用处;如果某一片的数据流出现了差错,解 码器就跳过它到下一片。将数据流分成较多的片有利于消除误码,但需多花费一 些额外的比特。宏块( m a c r o b l o c k ) :包含数个8 8 像素的块,每一个像素块由亮 度和色度组成。 视频序列 二= = = 二二二= 二= = = k 塑一一| 口l 忍口口口l 口口口 e 塞垫屈 i l 电孝雉俐 图像吐y 图2 - 6m p e g 1 2 数据层结构 1 3 第二章基于m p e g 2 的多视点视频编解码 在m p e g 1 和m p e g 2 中,序列信头的语法是相同的,所以,这是不能判 断视频信号是m p e g 1 还是m p e g 2 。如果接在序列信头后面的事被称为序列扩 展的参数,则可判断该序列是m p e g 2 序列。否则,可判断是m p e g 1 编码的 序列。由此,确保了m p e g 2 对m p e g 1 的前向兼容性。其比特流结构如图2 7 所示。图中箭头及指向表示后续比特参数及功能,如:序列显示扩展参数后面的 比特位表示的是用户数据,而用户数据后面可以是图像组头参数( 向下箭头所 示) ,也可以是图像头参数( 向左箭头所示) 。 m p 图2 7m p e g 2 比特流结构 下面是根据图2 7 ,对m p e g 2 码流结构的概要说明,m p e g 2 可变参数的 数目相当庞大,完全说明是不可能的,详细可参见m p e g 2 标准1 3 1 。下面以代 1 4 囱 第二章基于m p e g 2 的多视点视频编解码 码的形式给出m p e g 2 码流结构,代码中各句表示的是码流结构中的参数,“” 后面的内容是对该行代码的注释,其中数字表示该参数的比特长度。 l 、序列头( s e q u e n c eh e a d e r ) 视频序列头从一个s e q u e n c eh e a d e rc o d e 开始,后面跟着一系列数据单元。 在重复的序列头中,除了量化矩阵的定义可能被修改外,所有的数据单元将与第 一个序列头具有相同的值。 s e q u e n c e _ h e a d e r ( ) s e q u e n c e , 。识别序列头的起始h e a d e r c o d e 3 20 x 0 0 0 0 0 1 8 3 h o r i z o n t a l s i z e v a l u e 12 ,h o r i z o n t a l s i z e _ e x t e n s i o n ,v e r t i c a l s i z e _ e x t e n s i o n v e r t i c a ls i z ev a l u e一起决定帧的亮度分量可显示分的宽度和高度 a s p e c tr a t i oi n f o r m a t i o n 4 ,一个四位整数规定了重构帧的“样点宽高比” f l a m er a t ec o d e 4 ,定义f l a m er a t ev a l u e 的四位整数 b i tr a t ev a l u e18 ,与b i tr a t ee x t e n s i o n 一起构成b i tr a t e m a r k e tb i ti l l

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论