(系统工程专业论文)基于TMS320DM642的H264的算法研究和实现.pdf_第1页
(系统工程专业论文)基于TMS320DM642的H264的算法研究和实现.pdf_第2页
(系统工程专业论文)基于TMS320DM642的H264的算法研究和实现.pdf_第3页
(系统工程专业论文)基于TMS320DM642的H264的算法研究和实现.pdf_第4页
(系统工程专业论文)基于TMS320DM642的H264的算法研究和实现.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(系统工程专业论文)基于TMS320DM642的H264的算法研究和实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

南京理工大学硕士论文基于t m s 3 2 0 d m 6 4 2 的i - i 2 6 4 的算法研究和实现 摘要 h 2 6 4 具有低码率、高画质、高压缩比等特点,但是其高效的压缩是以增加编码 算法复杂度为代价的,而在整个编码过程中运动估计所占时间最大,因此h 2 6 4 中基 于块匹配的快速运动估计算法一直是视频压缩领域的研究热点。 本文首先论述了h 2 6 4 视频编码标准的基本原理和关键技术;然后介绍了几种已 有的经典块匹配运动估计算法,并分析了它们的优缺点;随后本文针对已有经典块匹 配运动估计算法的不足,并结合u m h s 算法和自适应六边形搜索法,提出了本文改 进的算法。通过几个典型图像序列的测试结果表明,该算法和f s 、t s s 、d s 算法相比, 其图像质量虽然略微下降,但是编码器中运动估计的时间大大缩短了。 作为新一代视频压缩协议h 2 6 4 ,理论上已经证明它能比其它视频压缩协议表现 出更好的性能,更能适应无线多媒体网络多媒体的应用需求。但是由于h 2 6 4 协议 自身的复杂性以及控制的灵活性,使得如何设计h 2 6 4 编码器成为工程设计人员必须 考虑的问题。采用具有较高运算速度的t m s 3 2 0 d m 6 4 2 d s p 芯片作为h 2 6 4 编码器实 现的硬件平台,结合合适的编码器控制算法,将有效地解决这个问题,实现了h 2 6 4 编码在耵的d m 6 4 2 上移植和优化。 关键词:视频编码,运动估计和补偿,搜索模式,d m 6 4 2 ,优化 南京理工大学硕士论文 基于t m s 3 2 0 d m 6 4 2 的h 2 6 4 的算法研究和实现 a b s t r a c t h 2 6 4a c h i e v e sv e r yl o wb i tr a t e ,h i g hq u a l i t ya n dh i g hc o m p r e s s i o nr a t i o h o w e v e r , i t sh i g h l ye f f i c i e n tc o m p r e s s i o ni sa tt h ec o s to fi n c r e a s e dc o m p u t a t i o n a lc o m p l e x i t y m o t i o ne s t i m a t i o no c c u p i e st h em o s tt i m ei nt h ep r o c e s so fv i d e oc o d i n g f o rt h i sr e a s o n , f a s tm o t i o ne s t i m a t i o ni nh 2 6 4h a sa l w a y sb e e nah o ts p o ti nt h ev i d e oc o m p r e s s i o nf i e l d f i r s t l y , t h i st h e s i sd i s c u s s e st h eb a s i cp r i n c i p l ea n dt h ee s s e n t i a lt e c h n o l o g i e si nh 2 6 4 v i d e oc o d i n gs t a n d a r d s e c o n d l y ,i ti n t r o d u c e ss e v e r a lp o p u l a r l yf a s tb l o c km a t c h i n g m o t i o ne s t i m a t i o na l g o f i t h m sa n da n a l y z e st h e i ra d v a n t a g e sa n dd i s a d v a n t a g e s t h i r d l y , i n o r d e rt oc o v e rt h es h o r t a g eo ft h ef a s tb l o c km a t c h i n gm o t i o ne s t i m a t i o na l g o r i t h m s ,i t c o m b i n e dw i t hu m h sa n dh e x b sa l g o r i t h m s a n dt h e n p u t f o r w a r dt h e o p t i m i z a t i o na l g o r i t h m s a f t e rt e s t i n g ,t h et i m ew h i c h i ss p e n to f ft h em o t i o ne s t i m a t i o ni n e n c o d e rh a sb e e nr e d u c e di nt h eo p t i m i z a t i o na l g o r i t h m , b u tt h ep s n rr e m a i n sb a s i c a l l y u n c h a n g e d t h et h e o r i e sh a v ep r o v e dt h a th 2 6 4 ,an e wa d v a n c e dv i d e oc o m p r e s s e dp r o t o c o l ,h a s ab e u e rp e r f o r m a n c ea n da d a p t a t i o nt or e q u i r e m e n t so ft h ea p p l i c a t i o no ft h ew i r e l e s sa n d n e t w o r km u l t i m e d i ab e a e rt h a no t h e rv i d e oc o m p r e s s e dp r o t o c o l s b u tb e c a u s eo ft h e c o m p l e x i t yo fh 2 6 4p r o t o c o la n dt h ef l e x i b i l i t yo ft h eo p e r a t i o n a lc o n t r o l ,h o wt od e s i g n h 2 6 4c o d e r si st h ek e yp r o b l e mt h a te n g i n e e r sa n dc o r p o r a t i o n st h a tp l a nt oi m p l e m e n t t h e mh a v et oc o n s i d e r i fh i g hs p e e dd s pc h i p s ,t m s 3 2 0 d m 6 4 2 ,a r eu s e da sh a r d w a r e p l a t f o r m so nw h i c hh 2 6 4c o d e r sa r eb a s e da n dt h er i g h ta l g o r i t h mo ft h ec o n t r o lo ft h e e n c o d e ri sa d o p t e d ,t h ep r o b l e ms h o u l db es o l v e dw e l la n dt r a n s p l a n th 2 6 4e n c o d e ri n t o t id m 6 4 2a n dd os o m eo p t i m i z a t i o n k e y w o r d s :v i d e oc o d i n g ,m o t i o n e s t i m a t i o na n dm o t i o nc o m p e n s a t i o n , s e a r c hp a t t e r n ,d m 6 4 2 ,o p t i m i z a d o n 声明 本学位论文是我在导师的指导下取得的研究成果,尽我所知,在本 学位论文中,除了加以标注和致谢的部分外,不包含其他人已经发表或 公布过的研究成果,也不包含我为获得任何教育机构的学位或学历而使 用过的材料。与我一同工作的同事对本学位论文做出的贡献均己在论文 中作了明确的说明。 研究生签名:年月日 学位论文使用授权声明 南京理工大学有权保存本学位论文的电子和纸质文档,可以借阅或 上网公布本学位论文的部分或全部内容,可以向有关部门或机构送交并 授权其保存、借阅或上网公布本学位论文的部分或全部内容。对于保密 论文,按保密的有关规定和程序处理。 研究生签名:年月 日 南京理工大学硕士论文基于t m s 3 2 0 d m 6 4 2 的h 2 6 4 的算法研究和实现 1 绪论 1 1 研究背景及动机 随着信息技术的发展和社会的不断进步,人类对信息的需求越来越丰富,人们希 望无论何时何地都能够方便、快捷、灵活的通过语音、数据、图像与视频等多种方式 进行通信。视觉信息给人们直观、生动的形象,图谢视频的传输更受到广泛的关注。 数字信号处理技术、物理媒体与网络技术、超大规模集成电路技术突飞猛进的发展, 使得多媒体通信成为研究和应用的热点。其中,最为关键的技术是数字视频的处理和 传输技术。数字视频苛刻的带宽、时延等要求使得它成为多媒体通信发展的瓶颈。要 解决多媒体信息存储容量大、数据传输率高的难题,就需要采用压缩技术。压缩数据 量的重要方法是消除冗余数据。原始图像中存在着大量的信息冗余,如时间冗余、空 间冗余、信息熵冗余、谱间冗余、几何结构冗余、视觉冗余和知识冗余等等。一般情 况下画面的大部分区域信号变化缓慢,尤其是背景部分几乎不变,因此,视频图像在 相邻像素间、相邻行间、相邻帧间存在强相关性,这种相关性就表现为空间冗余和时 间冗余。视频图像的空间冗余一般通过离散余弦变换( d i s c r e t ec o s i n et r a n s f o r m , d c t ) 、离散小波变换( d i s c r e t ew a v e l e tt r a n s f o r m ,d w t ) 等变换来去除,而消除视 频图像的时间冗余则通常使用运动估计和运动补偿来完成。 中国的多媒体产业在经历过了d v d 产业由于专利费问题而大受打击的危机之 后,已经深刻的体会到了掌握新兴产业发展契机的唯一途径是要掌握该产业的核心技 术,对于多媒体和视讯产业来说,就是要在最新的视频编、解码国际标准的标准化过 程中做出贡献,掌握其专利池中的多项专利,甚至开发出拥有自主知识产权的国家标 准或国际标准。 1 2 研究目的 m p e g - 4 标准的制定已经给电脑和家电产业带来了巨大的冲击。各种基于 m p e g - 4 标准的产品如雨后春笋般不断涌现,v c d 、d v d 、耵丌l c dt v 的出现已 经使家电市场上风光多年的录像机走到了生命的尽头。然而m p e g - 4 标准也存在着很 多的问题,例如其“基于对象的编码 尚有技术障碍,在技术专利保护问题上迟迟难 以找到有效的收费形式,因此该标准目前仍然没有得到普遍应用。在这种情况下, h 2 6 4 标准在两个标准化组织的努力下应运而生。h 2 6 4 标准以其优异的性能必将在 未来的多媒体、视讯应用领域倍受青睐。 1 1 绪论 硕士论文 h 2 6 4 标准在相同的图像质量下,编码位率平均只有其它标准的5 0 左右。但这 是以编解码复杂度的大幅度提高为代价的。运动估计部分复杂度的提高就是其中的最 主要的部分。因此降低运动估计的复杂度就是近几年来h 2 6 4 标准研究中的一大热 点。本研究课题就是要通过对h 2 6 4 标准及其运动估计技术进行深入研究,找到可以 降低编码复杂度的运动估计算法,并在d s p 硬件平台上实现编解码器模型。 1 3h 2 6 4 研究现状 h 2 6 4 视频编码标准的发布是视频压缩编码学科发展中的一件大事情,在业界引 起了极大关注。它可在数字广播电视、视频实时通信、网络流媒体传输以及多媒体彩 信等方面得到应用。 虽然h 2 6 4 标准草案已经颁布几年了,可是h 2 6 4 在实际当中的应用仍然存在着 一些不足。其原因在于虽然h 2 6 4 采用了先进的算法,但是先进算法的采用是以牺牲 编码复杂度为代价的,相对于以前的大部分编码标准而言,h 2 6 4 编码的复杂度提高 了大约3 倍。编码复杂度的提高必然导致h 2 6 4 整个系统庞大的计算量,增加了整个 编码系统的运行时间,如果在一些需要实时传输的场合,其优秀的压缩性能就显示不 出来了。如何使编码复杂度降低,更好的提升h 2 6 4 在实际当中的应用,这成为了 h 2 6 4 研究的关键所在。 在国际上,i s o i e c 与删t 推出了多个版本的h 2 6 4 参考模型,从早期的t m l 系列到现在的j m 系列,都在不断的采用新算法对h 2 6 4 进行改进。 就目前国内h 2 6 4 的研究而言,h 2 6 4 仍然是处于起步探索和改进阶段。虽然现 在国内已经有公司用h 2 6 4 实现的可视网络电话,但是效果仍然达不到人们所期望的 程度。同时,国内一些高校和研究所也开展了对h 2 6 4 的研究工作。研究主要集中在 两个方面:一方面是对h 2 6 4 的参考模型进行算法级的改进,另一方面是对h 2 6 4 的 参考模型进行指令级的改进。不管采用哪种研究方式,其最终目的是旨在减少h 2 6 4 算法中的编码复杂度,提升编码性能。 1 4 衡量视频质量的标准 衡量视频质量的优异程度通常有两个标准:一个为主观质量,由人从视觉上进行 平定;一个为客观质量,通常采用峰值信噪比p s n r 表示。 峰值信噪比p s n r 的定义如下: 嗍= 1 0 1 9 擘 ( 1 1 ) 吉善( d 一训2 南京理工大学硕士论文基于1 m s 3 2 0 d m 6 4 2 的h 2 6 4 的算法研究和实现 式中m 是图像样本的个数,0 和r 是重构帧和原始帧的亮度值样本。对于亮度 分量,一个高于4 0 d b 的p s n r 一般意味着一个极好的图像( 与原始图像很接近) , 3 0 , - - 4 0 d b 之间通常意味一个好的图像( 即失真可察觉,但可接受) ,2 0 3 0 d b 之间是比 较差的,低于2 0 d b 时不可接受的。 1 5 本论文的内容安捧 第一章:介绍了课题的研究背景和开展这方面研究的动机,接着说明了本课题要 达到的目的以及衡量图像质量的标准,最后对本论文所做的工作进行了介绍。 第二章:详细地介绍了目前存在的数字视频压缩编码标准,先介绍了各种标准发 展历史,对每种算法的特点做简单的介绍,然后介绍了h 2 6 4 视频编码的结构框架, 最后详细的介绍了h 2 6 4 标准,特别是着重介绍了h 2 6 4 标准所采用的一些关键技术, 为后面研究打下了坚实的基础。 第三章:对视频编码中的核心技术运动估计技术进行系统研究。从运动估计 技术研究的意义出发,以运动估计的原理为基础,对目前存在的几种经典运动估计算 法进行介绍,最后提出了一种结合非对称十字型多层次六边形格点运动搜索算法 ( u m h s ) 和自适应六边形搜索法的混合搜索算法,通过和全搜索法比较,得出改进 算法对编码器的优化结果。 第四章:基于d s p 平台的优化部分。本章首先介绍了d s p 处理器、固件平台等 基础知识,然后介绍的h 2 6 4 固件设计和h 2 6 4 代码优化。 论文在结束语部分对本课题所做的工作进行了简要总结,并对本课题需要进一步 努力的方向进行了说明阐述。 3 南京理工大学硕士论文 基于1 m s 3 2 0 d m 6 4 2 的h 2 6 4 的算法研究和实现 2 视频压缩编码技术综述 视频信息的海量数据使得它的传输和存储出现了严重的问题。因此视频压缩技术 就成了解决该问题的关键。随即各种压缩编码方法应运而生,经典编码方法有 h u f f m a n 编码、算术编码、预测编码、变换域编码等;另外,考虑到人的视觉感知特 点与统计意义上的信息分布并不一致,引出了所谓“感知熵理论,同时伴随着数学 理论,如小波变换等以及相关学科的深入发展,产生了现代编码方式,又称分析与综 合方法。基于以上两种编码方法,根据不同应用目的相继制定了以下各种视频压缩编 码的国际标准。 视频压缩标准发展历史 2 1 1 视频会议压缩标准h 2 6 1 h 2 6 1 是由丌u 第1 5 研究组于1 9 9 0 年制定的视频会议压缩编码标准n 。它首次 尝试综合数字压缩技术和网络技术实现数字图像实时传输,即可以在码率为p 6 4 k b p s ( p 取1 - 3 0 ) 的i s d n 综合业务数字网上实时地传输声音和图像信息。简单的 编、解码示意图如图2 1 1 和图2 1 2 所示。 图2 1 1 h 2 6 1 的简单编码示意图 的码流 图2 1 2h 2 6 1 的简单解码示意图 5 2 视频压缩编码技术硕士论文 2 1 2 数字声像存储压缩编码标准m p e g l m p e g l t 2 】【3 】是由i s o 和i e c ( 国际电工委员会) 的共同委员会中的m p e g 组织于 1 9 9 1 年制定的。它最初用于数字信息存储体上活动图像及其伴音的编码,其速率为 1 5 m b p s ( 允许的最高码率为1 8 6 m b p s ) ,图像采用c i f 格式( 3 5 2 x 2 8 8 或3 5 2 x 2 4 0 ) , 每秒3 0 帧,两路立体声伴音的质量接近c d 音质。目前,m p e g l 压缩技术的应用已 经成熟,广泛地应用于v c d 制作、图像监控等领域。一个典型的m p e g l 编、解码 器的结构示意图如图2 1 3 和图2 1 4 所示。 图2 1 3m p e g l 的简单编码示意图 的码流 图2 1 4m p e g l 的简单解码示意图 2 1 3 广播系统压缩编码标准m p e g 2 ( i - i 2 6 2 ) m p e g 2 t 2 1 t 3 1 是由i s o 的活动图像专家组和u 的第1 5 研究组于1 9 9 5 年共同制定 的,在n u 的标准中,被称为h 2 6 2 。m p e g 2 作为计算机可处理的数据格式,主要 应用于数字存储媒体、视频广播和通信领域,它的传输率为2 m - - 4 0 m b p s 。随着用户 对音频和视频等宽带业务的需求和宽带网络的迅速发展,m p e g 2 的视频流逐渐被用 户接受,v o d ( 视频点播) 视频流典型速率将达到3 m 一6 m b p s 。另外,h d t v ( 高清 6 南京理工大学硕士论文 基于t m s 3 2 0 d m 6 4 2 的h 2 6 4 的算法研究和实现 晰度电视) 的出现,是视频业务发展的另一个高级阶段。对于视频数据量大的数字化 h d t v ,就是采用的m p e g 2 视频压缩算法。一个典型的m p e g 2 编、解码器的结构 示意图如图2 1 5 和图2 1 6 所示。 图2 1 5m p e g 2 的简单编码示意图 图2 1 6m p e g 2 的简单解码示意图 2 1 4 低码率视听会议压缩编码标准i - i 2 6 3 流 h 2 6 3 3 川5 刀是u 于1 9 9 5 年制定的一种码率低于6 4 k b p s 的甚低码率视频压缩 编码标准。一个典型的h 2 6 3 编码器的结构示意图如图2 1 7 所示。 7 2 视频压缩编码技术硕士论文 数 图2 i 7h 2 6 3 的简单编码示意图 h 2 6 3 标准不仅着眼于利用p s t n ( 公共开关电话网络) 传输,而且兼顾g s t n 移动通信等无线业务。它支持五种图像格式:s q c i f ( 1 2 8 9 6 像素) 、q c i f ( 1 7 6 1 4 4 像素) 、c i f ( 3 5 2 x 2 8 8 像素) 、4 c i f 、1 6 c i f ,亮度和色度抽样比为4 :1 :1 ,编 码按1 6 1 6 大小的宏块进行。与h 2 6 1 一样,在编码中,它也采用帧间预测减小时 间冗余度,利用d c t 变换减小空间冗余度;在传输中,采用可变长度编码技术;在 解码恢复中,应用运动补偿。为进一步改善图像质量,提高压缩比,h 2 6 3 与h 2 6 1 相比增加了以下一些功能: ( 1 ) 半个像素精度的运动估值。h 2 6 3 采用半个精度预测,取代了全像素预测 和环路滤波器,用于传输的是实际运动矢量与预测运动矢量之差。改进的运动估值算 法充分利用以运动矢量的相关性来提高预测质量,减轻块效应。 ( 2 ) 不受限的运动矢量在不受限运动矢量模式下,将运动矢量的范围由原来的 1 6 ,1 5 5 】扩大到 3 1 5 ,3 1 5 ,从而能够反映较快的图像运动,这对摄像机的运动和 大图像格式十分有用。 ( 3 ) 先进预测模式在这种可选模式下,对于图像的亮度信息采用重叠块运动补 偿( o b m c ) 。图像中的一些宏块的运动矢量用四个8 8 的向量表示,取代了原来的 一个1 6 1 6 的向量表示。由编码器决定采用哪一种向量表示方法。四个向量使用了 较多的数据位,但可以得到更好的预测效果,而且可以在主观上减少块效应。 ( 4 ) p b 帧模式一个p b 帧将两帧图像编码到一个单元中。p b 帧的名称来自h 2 6 2 ( m p e g 2 ) 中的p 帧、b 帧的定义。一个p b 帧包括一个由前一个已解码的p 帧预测 得到的p 帧,和一个由前一个已解码的p 帧以及当前正在解码的p 帧共同预测得到 的b 帧。使用p b 帧模式可以在不大量增加数据量的前提下增加图像的帧率。另外, 新提供了改进的p b 帧模式。 南京理工大学硕士论文 基于1 m s 3 2 0 d m 6 4 2 的h 2 6 4 的算法研究和实现 ( 5 ) 基于语法的算术编码。采用基于语法的算术编码在不损失信噪比和图像重 建的前提下,可以大量减少数据量。算术编码采用序列编码,每个符号可用分数比特 表示,而且对编码概率模型不太敏感,容易实现模型自适应调整,这就优越于h u f f m a n 编码必须使用整数比特表示,从而大大降低存放码本,使压缩比有很大提高。h 2 6 3 选用算术编码时,只对宏块层和块层的数据作算术编码,而对图像层、块组层大部分 信息依然采用原有的编码方式编码,这样保证了头部信息的准确辨认和快速译码。 。2 1 5 基于对象的低码率视频压缩编码标准m p e g 4 m p e g 4 1 2 j 【6 儿副是m p e g 组织制定的一种i s o i e c 标准。m p e g 组织于1 9 9 9 年1 月正式公布了m p e g 4v 1 0 版本,1 9 9 9 年1 2 月又公布了m p e g 4v 2 0 版本。m p e g 组织的初衷是制定一个针对视频会议、视频电话的超低比特率( 6 4 k b p s 以下) 编码 的需求,并打算采用第二代压缩编码算法,以支持甚低码率的应用。但在制定过程中, m p e g 组织深深感到人们对多媒体信息特别是对视频信息的需求由播放型转向了基 于内容的访问、检索和操作,所以修改了计划,制定了现在的m p e g 4 。m p e g 4 采用 基于内容的编码,突破了过去m p e g l 和m p e g 2 以矩形或方形块处理图像的方法, 即把一段视频序列看成是由不同的视频对象v o ( v i d e oo b j e c t ) 组成的,v o 可以是 任意形状的视频内容,也可以是传统的矩形视频帧。每个v o 在某个特定时刻的实例 成为视频对象面v o p ( v i d e oo b j e c tp l a n e ) ,编码器根据实际情况对各个v o p 或只对 一些感兴趣的v o p 编码。图2 1 8 为v o p 编码框图。 图2 1 8m p e g 4 的简单编码示意图 也就是说,m p e g 4 用v o p 代替了传统的矩形帧作为编码对象,用形状运动纹理 信息代替h 2 6 3 等传统视频编码采用的运动纹理信息来表示视频。m p e g 4 现已被用 9 2 视频压缩编码技术硕士论文 于i n t e m e t 上传递实时图像,同时也有一些厂家准备用它给手机发送实时图像。这些 应用都将采用m p e g 4 来搭建数字传输平台。 2 1 6 低码率视频压缩编码h 2 6 4 h 2 6 4 t 9 】【lo 】【1 1 1 是u t 的v c e g ( v i d e oc o d i n ge x p e r t sg r o u p ) 和i s o i e c 的 m p e g ( m o t i o np i c t u r ee x p e r t sg r o u p ) 联合成立的“联合视频组”( t :j o i n tv i d e o t e a m ) 1 2 1 共同制定的新建议,它等同于i s o 的m p e g 4 的p a r t l 0 。t 于1 9 9 8 年2 月正式开始提案征集,次年8 月完成第1 版草案和测试模型,2 0 0 1 年9 月,在t 的第1 次会议上形成h 2 6 4 的w d 2 ( w r o r kd r a f t2 ) 版,并推出测试模型t m l 9 ( t e s t m o d e ll o n gt e r mn u m b e r9 ) 。此后,于2 0 0 2 年7 月的t 第4 次会议上推出了h 2 6 4 的c d ( c o m m i t t e ed r a f t ) 版,有望形成h 2 6 4 的正式版。 h 2 6 4 的主要功能优点如下: 极高的压缩率,在所有的速率上,比h 2 6 3 节省5 0 的比特率,在高比特率 时质量优良; 简洁的设计方式,简单的语法描述,避免过多的选项和配置,尽量利用现有 的编码模块; 低时延,对不同的业务灵活地采用对应于不同业务的相应时延限制; 加强对误码和丢包的处理,增强解码器的差错恢复能力; 在编解码器中采用复杂度可分级设计,在图像质量和编码处理之间可分级, 以适应高和低复杂性的应用; 一 提高网络适应性,采用“网络友好( n e t w o r kf r i e n d l i n e s s ) ”的结构和语法, 以适应未来发展的全p 网络和移动通信网络的应用; h 2 6 4 编码基本档次( b a s e l i n ep r o f i l e ) 的使用无需版费,大大节省开发费用。 2 2i - i 2 6 4 视频编码的结构框架 2 2 1h 2 6 4 的功能分层 制订h 2 6 4 a v c 的主要目标有两个:( 1 ) 提高视频压缩比;( 2 ) 具有良好的网络亲 和性,因此从功能上分成两个层次:视频编码层【i5 l ( v i d e oc o d i n gl a y e r ,v c l ) 和网络 适应层( 1 6 1 1 7 1 ( n e t w o r ka b s t r a c t i o nl a y e r ,n a l ) ,如图2 2 1 。v c l 是h 2 6 4 的核 心部分,用来完成视频的高效压缩编码,有效的表示数字视频内容;n a l 是外围层, 它根据视频信号传输的媒体介质把v c l 的内容封装起来,形成n a l 单元( n a l u n i t ) , 用来适应各种通信网络,并提供适应于各种传输层或存储媒体的头信息,显著提高网 1 0 南京理工大学硕士论文基于1 m s 3 2 0 d m 6 4 2 的h 2 6 4 的算法研究和实现 络传输的抗干扰能力。 图2 2 1h 2 6 4 a v c 的功能分层 v c l 数据即编码处理后的输出,表示被压缩后的视频序列,在v c l 数据传输或 存储之前,被映射或封装进n a l 单元中。每个n a l 单元包含整数个字节,第一个字 节是头部信息,指示n a l 单元的数据类型,其余是净荷r b s p ( r a wb y t es e q u e n c e p a y l o a d ) 。净荷数据与仿真预防字节做交织处理。仿真预防字节是特殊值字节,防止 偶然在净荷中出现同步字节图样。n a l 规定一种通用的格式,既适合面向包传输, 也适合流传输。实际上,包传输和流传输的方式是相同的,不同之处是流传输前面加 了一个起始码前缀。 n a l 单元分为v c l 和非v c l 两种。v c l 的n a l 单元包含视频图像采样信息, 非v c l 的n a l 单元包含各种有关的附加信息,例如参数集( 头部信息,应用到大量 的v c l 的n a l 单元) ,提高性能的附加信息,定时信息等。 由于本文的工作重点集中于h 2 6 4 的v c l 层,因此下面将对v c l 层进行重点介 绍。对于n a l 层更详细的讨论,可参考 1 6 】,【1 7 。 2 2 2i - i 2 6 4 的数据结构 h 2 6 4 视频编码标准支持各种分辨率的视频图像格式,包括s u b q c i f 、q c i f 、 c i f 、4 c i f 、1 6 c i f 等。数字视频信号一般都是以y 1 格式存储的,y 1 格式存储 的视频信号其亮度信号和色度信号是分开存储的。 2 视频压缩编码技术硕士论文 口 睇t y p e 口目田田 8 - 8 t y p e 口目田田 图2 2 2h 2 “的数据结构图 1 ) 场和帧 视频的一场或一帧可用来产生一个编码图像。通常,视频帧可分成两种类型:逐 行或隔行视频帧。在电视上,为减少大面积闪烁现象,把一帧分成两个隔行的场。显 然,这时场内邻行之间的时间相关件较强,而帧内邻近行空间相关性较强,因此活动 量较小或静止的图像宜采用帧编码方式,对活动量较大的运动图像则宜采用场编码方 式。 2 ) 像条和宏块 一个视频图像可编码成一个或更多个像条,每像条包含整数个宏块( m b ) 。即每 像条至少一个宏块,最多时每像条包含整个图像的宏块。总之,一幅图像中每个像条 的宏块数不一定固定。设像条的目的是为了限制误码的扩散和传输,规定不同像条的 宏块不能用于自身像条中作预测参考。h 2 6 4 a v c 支持5 种像条编码类型: i 像条:最简单的编码类型,所有的宏块不参考视频序列中其他的图像进行编码; p 像条:除了i 像条编码类型外,p 像条的部分宏块可以利用帧间预测,每个预 测块至多可使用一个运动预测补偿信号。其中一个宏块可进_ 步作宏块的分割:四分 成1 6 x1 6 、1 6 8 、8 x1 6 或8 x 8 亮度像素块( 以及相应的色度像素) ;如果选了8 x 8 的子宏块,则可再分割成各种子宏块,其尺寸为8 x 8 、8 4 、4 x 8 或4 4 亮度 像素块( 以及相应的色度像素) ; 。 b 像条:除了p 像条编码类型外,b 像条的部分宏块可以利用帧间预测,每个预 测块至多可使用两个运动预测补偿信号; 以上三种与以前的标准相似,主要是参考图像不同,其余两种是新类型,用于在 不同码率编码码流之间进行有效的切换。 1 2 南京理工大学硕士论文基于t m s 3 2 0 d m 6 4 2 的h 2 6 4 的算法研究和实现 s p 像条:切换p 像条,能在不同编码图像之间有效地切换; s i 像条:切换i 像条,允许s p 像条的宏块完全匹配,达到随机读取数据进行解 码和恢复错误的目的。 2 2 3i - i 2 6 4 的编解码流程: h 2 6 4 标准并没有明确的定义一个编码器 1 3 1 【1 4 1 ,而是定义了编码后的比特流格式 和解码的方式。实际上,不论如何,一个合适的编码器和解码器可能都包含了帧间预 测、帧内预测、变换、量化、熵编码等模块。这些功能模块对于一个合适的编码器来 说也是必需的,这样同时也给编码器留有很大的变化余地。 下面就编码器和解码器的工作流程进行详细说明: 图2 2 3h 2 6 4 编码流程图 在图2 2 3 编码器框图中,f n 代表待编码的帧,这一帧图像被分成多个1 6 1 6 像素的宏块进行处理,每个宏块按帧内或帧间的模式进行编码,不论在那种模式下, 都有一个基于参考帧重构出来的预测宏块p 。在帧内编码模式下,p 由当前帧中前面 已经经过编码,解码重构模块但是没有进行滤波的宏块u f n 预测得到,在帧间编码模 式下,p 由一个或多个参考帧进行运动补偿预测得到。在图中l 参考帧用f n 1 表示, 实际上参考帧可以是过去的第一帧或第二帧等或将来的第一帧或第二帧等( 在时间顺 序上) 已经编码重构的图像。从当前编码的宏块中减去p 得到一个残差块d n ,这个残 差块将进行变换、量化得到x ( 量化后的变换系数) 这些系数将被重新排序并进行熵 编码,熵编码的系数和其他的解码需要的边信息( 例如:运动预测的模式、量化器的 步长和描述宏块如何进行运动补偿的运动向量信息等) 一起形成比特流,比特流经过 n a l ( n e t w o r ka b s t r a c t i o nl a y e r ) 层进行传输或存储。 在编码器中量化后的系数x 将被解码重构,以便为对将来的宏块进行编码时使 1 3 2 视频压缩编码技术 硕士论文 用。系数x 将通过逆量化和逆变换产生一个差分宏块d n 。差分宏块d 。和原始的宏 块之间并不是完全一样的,因为经过量化运算后,会产生量化误差。预测宏块p 和 d n 进行加法运算得到一个重构宏块u f n ,通过一个滤波器以减少块失真得到一个重 构图像f n 。 图2 2 4h 2 6 4 解码流程图 解码器从n a l 层中接收到压缩后的比特流。数据元素进行熵解码,然后重新排 序,恢复出来量化后的系数x ,x 再经过逆量化和逆变换得到d n 。通过从比特流中的 解码出来的头信息,解码器产生一个预测块p ,p 的产生过程和编码过程一样。p 和 d 相加得到一个u f 。最后再经过滤波器得到恢复图像f n 。 在编码器中的重构路径和在解码器中的重构路径一样,是为了产生相同的预测块 p 。如果不是这样的话,将会导致在编码器和解码器中的p 不同,从而导致附加的错 误和漂移。 2 3h 2 6 4 标准的关键技术 2 3 1 帧内预测编码 如果一个宏块或一个块以帧内编码1 8 儿1 9 1 模式进行编码,则可根据已编码重建的 块来形成一个预测块,从而进行帧内预测。就亮度信号来说,预测块可以是1 6x 1 6 的宏块,或是4 x 4 的亮度块。对于1 6 x1 6 的宏块有4 个可选的预测模式,而对于4 x 4 的亮度块则有9 个可选的预测模式。 根据s l i c e 编码类型的不同,每个宏块都可以以几种编码类型中的一种进行传输。 在所有s l i c e 编码类型中,h 2 6 4 支持以下类型的帧内编码:i n t r a _ 4 x 4 、 i n t r a1 6 1 6 和l p c m 三种预测模式,其中i n t r a _ 4 x 4 、i n t r a _ 1 6 1 6 还附加有色度 预测。 i n t r a4 x 4 模式对每个4 x 4 亮度块都单独进行预测,它对图像部分区域的细节 1 4 南京理工大学硕士论文 基于t m s 3 2 0 d m 6 4 2 的h 2 6 4 的算法研究和实现 描述效果很好。i n t r a _ 1 6x1 6 模式则对整个1 6x1 6 的亮度块进行预测,它更适合于 图像中平滑区域的编码。除了这两种亮度预测模式,还有单独的色度预测。作为 l l a t r a _ 1 6x1 6 模式和i n t r a _ 4x 4 模式的替代,i _ _ p c m 编码模式允许编码器简单的回避 预测和变换编码过程,直接传输编码采样值。i p c m 模式具有以下特点: ( 1 ) 允许编码器精确表达采样值; ( 2 ) 为精确表示不规则图像内容提供了方法,且数据量没有显著增加; ( 3 ) 可以给解码器在处理一个宏块时必须处理的比特数作一个硬性限制而不损 失编码效率; 以前的视频编码标准中帧内预测通常在变换域进行,而在h 2 6 4 中,预测通常用 己进行编码的相邻块的采样点预测( 一般是预测块的上方或左方的块) ,在空间域进 行。在存在传输错误并导致帧间编码宏块出错的环境,这种做法可能导致错误扩散。 在这种情况下,我们可以采取严格的帧内编码模式,要求参与预测的相邻宏块必须是 以帧内模式编码的。 使用1 1 1 t r a _ 4 x 4 模式时,每个4 x 4 块是从空间相邻的采样点预测的,如图2 3 1 中左图所示。4 x 4 块的被标作a p 的1 6 个采样点是通过已解码的相邻块的采样点 a q 预测的。每个4 x 4 块可以使用9 种预测模式的一种。除了“d c 预测( 使用 一个值来预测整个4 x 4 块) ,8 个方向的预测模式如图2 3 1 中右图所示。这些模式 适用于预测图像中有方向性的结构,比如各种角度的边缘。 划侈 刁n 图2 3 i i n t m 4 x 4 预测 1 5 2 视频压缩编码技术硕士论文 模式0 垂直 r 1r 模式4 角度右下 模式1 水平 模式3 角度左下 ,声产 一。 i fl f一 。、 。i 。i 、i 图2 3 2 九种i n w a _ 4 x 4 预测模式中的五种 图2 3 2 表示了9 种i n t r a _ 4 x 4 预测模式中的5 种。模式0 ( 垂直预测) 如箭头 所示,是将4x 4 块上方的采样点复制到块中。模式1 ( 水平预测) 与垂直预测相似, 它是将4 x 4 块左边的采样点加以拷贝。模式2 ( 直流预测) 相邻的采样点如图2 3 2 取平均。余下的六种模式是对角线预测模式,分别被称为d i a g o n a l d o w n 1 e f t , d i a g o n a l d o w n r i g h t ,v e r t i c a l f i g h t ,h o r i z o n t a l - d o w n ,v e r t i c a l l e f t ,和h o r i z o n t a l u p 预 测。如它们的名字,它们适用于预测相应特殊方向的结构。前两种角度预测模式也在 图2 3 2 中有所说明。当采样点e 州( 参考2 3 1 ) 在d i a g o n a l d o w n 1 e f t 预测模式中不 可用时( 因为它们还未被解码或在s l i c e 外,或不在受限的帧内模式宏块中) 这些采 样点用d 代替。在早些的i n t r a _ 4 x 4 预测模式的版本中,采样点l 下面的四个采样 点在某些预测模式中也会用到。但为了减少存储访问,而且那样得到的增益也十分有 限,所以去掉了。 当使用i n t r a _ 1 6 1 6 模式时,宏块中的所有亮度成分都被预测。支持四种预测模 式。预测模式0 ( 垂直预测) ,模式1 ( 水平预测) ,模式2 ( 直流预测) 和模式3 ( p l a n e 预测) 。与i n t r a 4 x 4 预测模式相似,只不过i n t r a4 x 4 预测模式是用每个边上的4 1 6 南京理工大学硕士论文基于1 m s 3 2 0 d m 6 4 2 的h 2 6 4 的算法研究和实现 个相邻点来预测4x 4 的块;而i n t r a _ 1 6 1 6 预测模式是用每个边上的1 6 个相邻点 来预测1 6 x 1 6 的块。 宏块中的色度采样点的预测使用与i n t r a _ 1 6x1 6 亮度成分相似的预测技术,因 为色度信号通常在很大范围内都很平滑。 为了保证所有s l i c e 之间相互独立,当跨越边界时不使用帧内预测。 2 3 2 帧间预测 ( 1 ) ps l i c e 的帧间预测 除了帧内宏块的编码类型外,对p 宏块类型还定义了各种预测或运动补偿编码类 型。每个p 宏块类型都对应了一种宏块的划分方式,划分出的块可用于运动补偿预测。 语法定义支持亮度信号的每一个宏块( 1 6 x1 6 ) 可以有四种划分形式:1 6 1 6 ,1 6 8 ,8 1 6 或8 x 8 。当选择8 x 8 的块时还要传送一个附加的语法元素,这个语法单 元说明这个8 8 的块是否进行了进一步的划分。如果采用8 8 模式,则每一个块还 可以进一步划分为8 x 8 ,8 x 4 ,4 x 8 或4 x 4 。 采取宏块划分和亚宏块划分,在每一宏块内可以为运动预测提供多种可选的块组 合方式。在h 2 6 4 标准中是采用率失真优化的方式来进行划分的,一般来说,对于帧 内较平滑的区域选择比较大的块,而对于细节部分则应选择较小的块。 每个预测编码的m n 亮度块的预测信号通过置换参考图像的相应区域得到,它 由可译的运动矢量和一个图像参考索引详细说明。这样,如果宏块使用四个8x8 的 块进行编码,每个8 8 的块又进一步分成四个4x 4 的块,对一个p 宏块最多传送一 共1 6 个运动矢量。 h 2 6 4 中的运动矢量具有亚象素精度( 区别于h 2 6 3 中的半象素精度) ,对于亮 度信号来说可以达到1 4 象素精度 2 0 l 。当运动矢量指向一个整数采样位置时,预测信 号由参考图像的相应采样点组成,否则预测值将通过使用内插法产生非整数位置而得 到。二分之一位置的采样信号的预测值是通过应用一维的水平和垂直六阶f i r 滤波器 得到的。四分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论