(模式识别与智能系统专业论文)h264视频编码算法研究及其dsp实现.pdf_第1页
(模式识别与智能系统专业论文)h264视频编码算法研究及其dsp实现.pdf_第2页
(模式识别与智能系统专业论文)h264视频编码算法研究及其dsp实现.pdf_第3页
(模式识别与智能系统专业论文)h264视频编码算法研究及其dsp实现.pdf_第4页
(模式识别与智能系统专业论文)h264视频编码算法研究及其dsp实现.pdf_第5页
已阅读5页,还剩100页未读 继续免费阅读

(模式识别与智能系统专业论文)h264视频编码算法研究及其dsp实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 在现代通信系统中,快速编码算法的研究已经成为提高图像质量的关键技 术。是业界极为关注的热点课题。n u - t 和m p e g 联合组成的j 、丌( j o i n tv i d e o e x p e r t t e a m ) 于2 0 0 3 年3 月正式发布视频压缩的国际标准h 2 6 4 。h 2 6 4 编码标 准作为m p e g - 4 的补充部分,进一步挖掘现有编码技术的潜力,实现高画质、 低比特率的编码效果。h 2 6 4 可以达到很高的编码效率,具有很好的市场应用前 景。跟踪和掌握h 2 6 4 a v c 的核心技术,并结合实际应用在某些关键方向上有 所创新和发展,是一项很有价值的工作。 本文对h 2 6 4 中的各种核心编码算法进行了深入的剖析和理论研究,并对有 关算法进行了仿真实验。 本文阐述了数字视频编码标准在当今技术领域的重要性以及数字视频编码 标准的发展历程,扼要描述了几种重要的视频编码标准,并详细阐述了h 2 6 4 编 码标准以及它的各种关键技术。 建立在视频标准的基础上,论文深入研究了帧内预测算法和帧间运动估计算 法。对帧内预测算法,着重就其模式选择中的各种算法进行了阐述,并提出了一 种新的快速算法,降低了预测的运算复杂度;对帧间运动估计,论文主要对其基 于块匹配的各种搜索算法进行了阐述,并在比较这些算法的基础上,提出了一种 改进的快速搜索算法,有效节省了编码的时间,并降低了运算复杂度。 在完成对h 2 6 4 标准的一些算法研究后,论文重点研究了h 2 6 4 在d s p 上 实现的问题。包括它的优秀编码器x 2 6 4 在d m 6 4 2 上的移植和优化,对优化的 流程以及各种技术都进行了有益的研究,并在最后进行了优化和实验测试,结果 证明有较好的效果。 关键词:视频编码;h 2 6 4 a v c ;帧内预测;运动估计;d s p h 2 6 4 视频编码算法研究及其d s p 实现 a b s t r a c t i nt h ee m e r g i n gc o m m t m i c a t i o ns y s t e m ,r e s e a r c ho nf a s tc o d i n ga l g o r i t h mi st h e k e yt e c h n o l o g yf o ri m p r o v i n gv i d e oq u a l i t y i th a sb e e nah o t s p o tp r o j e c to f a p p l i c a t i o nt ov i d e oc o m m u n i c a t i o n si nr e c e n ty e a r s h 2 6 4i st h el a t e s tv i d e oc o d i n g s t a n d a r dd e v e l o p e db yt h ej o i n tv i d e ot e a m ( j v t ) w h i c hi sf o r m e dw i t hi t u tv i d e o c o d i n ge x p e r t sg r o u p ( v c e g ) a n di s o i e cm o t i o np i c t u r ee x p e r t sg r o u p ( m p e o ) i n2 0 0 3 h 2 6 4i san e wd e v e l o p i n gv i d e oc o d i n gs t a n d a r d ,a sm p e g - 4p a r t l 0 ,a n di t a i m sa tp r o p o s i n gah i 曲q u a l i t ya n dl o wb i tr a t ev i d e oc o m p r e s s i o ns t a n d a r db y r e s e a r c h i n gi n t ot h ee x i s t i n gc o d i n gt e c h n o l o g i e s h 2 6 4h a sb e e nt h ef o c u si nt h e v i d e oc o m p r e s s i o na r e a , i th a sap r o m i s i n gf u t u r ei nd i g i t a lm e d i am a r k e t s oi ti s i m p o r t a n tf o re n g i n e e r i n ga p p l i c a t i o na n dt h e o r yt or e s e a r c hd e e p l yi 1 1 t 0h 2 6 4a n d t h ei m p l e m e n to fi mf a s th 2 6 4e n c o d e r t h i sd i s s e r t a t i o nm a i n l yr e s e a r c ho nt h en e wt e c h n i q u e si nh 2 6 4 a v c f i r s tt h e a u t h o rd e s c r i b e st h eh i s t o r yo fv i d e oc o d i n g ,t h e ni n t r o d u c e dt h eh 2 倒 cs t a n d a r d i nd e t a i l i ns u c c e s s i o n ,t h ea u t h o rm a i n l yr e s e a r c h e ds o m ea l g o r i t h m si ni n t r a f la m e a n di n t e r - f r a m e f o ri n t r a - f r a m e , e m p h a s i z e d o np a t t e r n s e l e c t i n ga l g o r i t h m , e s p e c i a l l yt h o s ef a s ta l g o r i t h m s ,a n dia l s og a v ean e wa l g o r i t h mw i n lag o o de f f e c t f o ri n t e r - f r a m e ,t h ee m p h a s i sw a sm o t i o ne s t i m a t i o n ,e s p e c i a l l yt h o s ef a s ts e a r c h i n g a l g o r i t h m s ia l s og a v eai m p r o v e da l g o r i t h mi nf a s ts e a r c h i n ga n dg a i n e dg o o de f f e c t a r e rh a v i n gr e s e a r c h e ds o m ea l g o r i t h m si nh 2 6 4 ,ie m p h a s i z e do nr e a l i z a t i o n o fh 2 6 4e n c o d e r d s pi sag o o dp l a tf o ri t , ir e s e a r c h e dn a t u r a l i z a t i o na n d o p t i m i z a t i o ni nd m 6 4 2f l a t i nt h el a s t ,ia c c o m p l i s h e ds o m e t a s ka n dg a i n e dag o o d e f f e c t k e yw o r d :v i d e oc o d i n g , h 2 6 4 1 a v c ,i n t r a - f r a m ep r e d i c t i o n ,m o t i o ne s t i m a t i o n , d s p v 东华大学学位论文原创性声明 本人郑重声明:我恪守学术道德,崇尚严谨学风。所呈交的学位 论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除 文中已明确注明和引用的内容外,本论文不包含任何其他个人或集体 已经发表或撰写过的作品及成果的内容。论文为本人亲自撰写,我对 所写的内容负责,并完全意识到本声明的法律结果由本人承担。 学位论文作者签名:溺激涛 e t 期:m 年月伽e l 东华大学学位论文版权使用授权书 学位论文作者完全了解学校有关保留、使用学位论文的规定,同 意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允 许论文被查阅或借阅。本人授权东华大学可以将本学位论文的全部或 部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复 制手段保存和汇编本学位论文。 保密口,在年解密后适用本版权书。 本学位论文属于 不保密瓯 学位论文作者签名:7 弱波涛 日期:知诉年月仍e t 指导教师签名:辛# 童多 日期:p 嘞年f 月pe l e2 6 4 视频编码算法研究及其d s p 实现 第一章绪论 1 1 引言 近年来,随着计算机的普及和网络的发展,视频传输技术得到更加深入的研 究和发展,诸如可视电话、远程会议等一些高科技项目反映了视频传输的广阔应 用前景f ,但是从另一个角度来说,视频传输又是对通信信道要求最高的一种传 输方式。虽然网络技术的发展不断发展增加了通信信道的带宽,但这仍难以满足 各种视频传输的应用对信道的要求。因此视频压缩技术就成为一个令人关注和感 兴趣的研究课题。 经过人们几十年的研究,视频压缩编码技术已经取得了许多成果,逐步走向 成熟。为了适应视频通信的迫切要求和各种视频通信业务本身的特点,近几十年 来对视频压缩编码技术进行了大量的标准化工作,制定了许多国际标准( h 2 6 1 m p e g 1 、m p e g 2 、h 2 6 3 、m p e g - 4 等) 【2 】。 然而,多媒体通信的发展离不开数字通信技术的进步。数字通信技术在二十 世纪九十年代得到了飞速的发展,主要体现在互联网、无线移动通信和多媒体业 务三个方面,其中互联网和无线移动通信的发展特别引人注目。基于无线移动网 络和口网络的视频传输已成为人们研究的热点。无线移动网络和i p 网络下的 视频通信对视频压缩编码提出了更高的要求。现有的视频压缩编码标准由于存在 种种局限和不足,均难以满足这些要求。为了克服现有视频压缩算法的局限和不 足,适应更广的传输信道,提供更高的视频质量、更大的灵活性和更多的功能, 有必要制定新的视频压缩编码标准。h 2 6 4 就是满足这种要求的由i s o i e c 和 i t u t 两大国际标准组织联合制定的视频新标准。 h 2 6 4 是i t u t 的v c e g ( 视频编码专家组) 和i s o i e c 的m p e g ( 运 动图像编码专家组) 的联合视频组( j 、,1 :j o i n tv i d e ot e a m ) 开发的一个新的数 字视频编码标准 3 1 ,它既是r r u - t 的h 2 6 4 ,又是i s o i e c 的m p e g - 4 的第 十部分。1 9 9 8 年1 月份开始草案征集,1 9 9 9 年9 月,完成第一个草案,2 0 0 1 年5 月制定了其测试模式j m ,2 0 0 2 年6 月的j v l 第五次会议通过了h 2 6 4 的f c d 版。国际电信联盟( r r u ) 在2 0 0 3 年7 月正式通过了h 2 6 4 视频压 缩标准。 h 2 6 4 是n 吓制定的新一代低比特率视频编码标准。具有广阔的应用前景, h 2 6 4 视频编码算法研究及其d s p 实现 例如实时视频通信、因特网视频传输、视频流媒体服务、异构网上的多点通信、 压缩视频存储、视频数据库等。并且与以往压缩标准相比,它具有更高的压缩比, 更好的信道适应性,满足非常广泛的业务要求。必将在数字视频通信或存储领域 得到越来越广泛的应用,因此,对h 2 6 4 标准,特别是对其关键技术进行研究 具有十分重要的理论和现实意义。 1 2 视频编码技术简介 1 2 1 视频压缩的基本原理 传统的压缩编码是建立在香农( s h a n n o n ) 的信息论基础上的【4 】,它是以经典 的集合论为基础,用统计概率模型来描述信源,但它没有考虑信息接受者的主观 特性以及事件本身的具体含义、重要程度和引起的后果。因此,数据压缩编码的 发展历程实际上是以香农信息论为出发点的一个不断完善的过程。从信息论的观 点来看,视频作为一个信源,描述信源的数据是信息量和信息冗余之和,数据压 缩实际上就是减少冗余量。 图像信号的压缩可以根据两个方面: ( 1 ) 图像信号中存在大量的冗余度可供压缩,并且这种冗余度在解码以后还可 无失真地恢复。 ( 2 ) 利用人的视觉特性,在不被主观视觉察觉的容限内,通过减少信号的精度, 以一定的客观失真换取数据的压缩。 图像信号的冗余度存在于结构和统计两方面。图像信号在结构上的冗余度表 现为很强的空间( 帧内) 和时间( 帧间) 相关性。大量的实验证实了电视信号在 相邻像素、相邻行和相邻帧间都存在很强的相关性。因此,无需传输每帧图像而 只需传输预测误差信号。即当前像素值( 样值) 和它的一个预测值间的差分信号。 预测值是通过在该像素之前已经传出的几个相邻像素值预测出来的,由于存在很 强的相关性,这种预测在多数情况下误差是很小的,预测误差高度集中在零值附 近。对于这种极不均匀的概率分布而言,采用变字长编码压缩码率是很有效的, 可以对出现概率高的预测误差信号用短码,对出现概率低的预测误差用长码,那 么最后平均码长要比固定码长短很多,我们通常将这种编码方法称为统计编码或 熵编码。 充分利用人眼的视觉特点是实现码率压缩的又一途径。人对图像的细节分辨 i l2 6 4 视频编码算法研究及其d s p 实现 率,运动分辨率和对比度分辨率的要求都有一定的限度。对于图像信号在空间、 时间以及在幅度方面进行数字化的精细程度只要满足了这个限度即可。同时人眼 对图像的细节、运动和对比度三方面的分辨能力是相互制约的。即在人观察景物 时,并非对这三方面同时具备最高的分辨能力。当人眼对图像的某种分辨率要求 很高时,对其他的分辨率则降低了要求。利用这一特点,进行图像数字化时可以 采用自适应技术,根据图像的某一局部的特点来决定对它的取样频率和量化精 度,尽量做到与人眼在观看这种图像局部时所反映的视觉特点相匹配。因此,可 以在不损伤图像主观质量的条件下压缩码率。 1 2 2 视频中可能存在的冗余 事实上,除了时间和空间冗余外,在一般的图像和视频数据中,还存在一些 其他的冗余信息,主要有以下几种: ( 1 ) 信息熵冗余 信息熵冗余也称编码冗余,由信息论的相关原理可知,它是表示图像数据的 一个像素点,只要按照信息熵的大小分配相应比特数即可,但对于实际图像数据 的每一个像素,我们很难得到它的信息熵,在数字化一幅图像时,对每个像素用 相同的比特数表示,这样就必然存在冗余。同时间和空间冗余一样,它也属于统 计冗余,因为他们都取决于图像数据的统计特性。 ( 2 ) 结构冗余 有些图像的某些区域存在很强的纹理结构,或者说图像的各个部分存在某种 类似于自相似的关系,这些都属于结构冗余。 ( 3 ) 知识冗余 有些图像包含的信息与某些先验的基础知识有关,这被称为知识冗余。 ( 4 ) 视觉冗余 在大多数情况下,重建图像的最终接受者是人的眼睛。为了达到比较高的压 缩比,可以利用人类视觉系统的特点。人类的视觉系统就是一个很好的图像处理 系统,但它也是有缺点的,比如由图像系数的量化误差引起的图像变化在一定范 围内变化是不能被人的眼睛觉察的。因此,如果编码方案能利用人类视觉系统的 一些特点,是可以得到较高压缩比的。 上述几种形式的冗余,是图像和视频实现数据压缩的出发点。图像与视频编 h 2 6 4 视频编码算法研究及其d s p 实现 码方法就是尽可能消除这些冗余信息,以降低表示图像与视频所需要的数据量。 1 3 视频编码的国际标准 从九十年代开始,国际上先后制定了一系列视频图像编码标准。目前从事视 频压缩标准制定的国际标准组织主要有国际电信联盟盯u - t 的视频编码专家组 v c e g ( v i d e oc o d i n ge x p e r tc r o u p ) 和国际标准化组织i s o i e c 的运动图像专家组 m p e g ( m o t i o np i c t u r ee x p e r tc r o u p ) 。两个标准化组织根据不同的应用需求,采 用近似的压缩编码技术,分别制定了h 2 6 x 和m p e g - x 系列视频压缩标准【5 】, 虽然它们的应用领域不同,但是均采用了预测编码结合变换量化的混合编码模 式。其中这两大标准化组织于1 9 9 2 年联合提出的m p e g 2 h 2 6 2 是现有比较成 功的国际视频压缩标准,目前又再次联手推出了h 2 6 4 a v c ,即m p e g - 4 第l o 部分。按时间顺序,有以下几种编码标准: 1 3 1i t 2 6 1 标准( i t u ,1 9 9 0 ) h 2 6 1 是最早出现的视频编码标准,也是第一个广泛应用于视频会议的标准, 它是由r r u t 的前身c c i t t 针对可视电话、视频电视和窄带i s d n 等要求提出 的一个编码标准。它的全称为 p x 6 4 k b i t s 视听业务的视频编解码器”,其中p = l 到3 0 的整数,当p 小于6 时,只能传输清晰度不太高的图像,可用于电视电话; 当p 大于6 时,可以传输清晰度很好的图像,适用于电视会议等。h 2 6 1 标准只 对c i f 和q c i f 两种图像格式进行处理。采用的算法结合了可减少时间冗余的帧 间预测和可减少空间冗余的二维d c t 变换的混合编码方法,主要由运动估计, 补偿、d c t 变换和h u f f i n a n 编码等部分组成。由于它主要针对实时业务,因而 希望编码器的延时尽可能小,所以只利用前一帧做参考帧进行前向预测,且编解 码器的复杂度基本对称。 1 3 2m p e g - 1 标准( 1 s o ,1 9 9 1 ) m p e g 1 是针对数据传输率在1 5 m b i t s 以下的数字存储介质图像及其伴音 编码而制定的国际标准【6 】,主要用于家用v c d 的视频压缩,其主要功能如下: ( 1 ) 视频压缩编码,可用于视频传输和视频存储;编码前必须将图像转换为逐 行扫描图像。在优化模式下采用标准交换格式( s i f ) 。 ( 2 ) 录像机的正放、图像冻结、快进、快退和慢放功能以及随机存储功能。 m p e g 1 标准采用了运动估计运动补偿、变换编码等技术,并规定了编码 h 2 6 4 视频编码算法研究及其d s p 实现 位流的表示语法和具体解码方法。它的图像预测类型可以分成四种情况:帧内预 测、前向帧间预测、双向帧间预测和直接预测。因为它针对的是数字存储的应用, 它的编解码器是非对称的,其编码端的复杂度通常远远要高于解码端。 1 3 3m p e g - 2 h 2 6 2 标准( i s o + i t u ,1 9 9 4 ) m p e g - 2 标准的全称为“运动图像及其伴音的编码” 7 1 ,其中h 2 6 2 就是它的 视频编码部分。m p e g 2 包括系统、视频、音频及符合性( 检验和测试视音频及 系统码流) 4 个文件。作为一个目前在d v d 存储和数字电视广播方面得到了广 泛应用的国际标准,它的成功之处在于提出了通用的压缩编码方法,它按照不同 的压缩比分成5 个档次( p r o f i l e s ) ,并按视频清晰度分别分成四个级别( l e v e l s ) , 共有2 0 种组合。其中最常用的有1 1 种,分别用于标准数字电视、高清晰度电视, 码率从4 m b i t s 一- - 10 0 m b i t s 。 m p e g 2 在多方面提高了编码参数的灵活性以及编码性能,它综合采用了运 动补偿的帧间预测、空间域离散余弦变换、自适应量化和可变长编码的混合编码。 同时,开始使用半像素精度的运动矢量搜索,引入了“帧”和“场”的编码方法,根 据帧的行间相关系数和场的行间相关系数,判定采用帧分割还是场分割进行编 码。为了适应信道的变化和扩大应用范围,m p e g 2 采用三种分级编码:空间域 分级、时间域分级和信噪比分级。 1 3 4 h 2 6 3 标准( i t u ,1 9 9 6 ) h 2 6 3 是为低码率视频压缩提供的新标准【引,主要支持小于6 4 k b i f f s 的窄带 电信信道视频编码,但实际上其应用范围已经超出了低码率图像编码范围。它共 有五种图像格式,其中1 6 q c i f 是高清晰度电视的水平,所以它也适用于高速率 图像编码。在技术上,它采用了半像素精度的运动估计、不受限运动矢量、高级 预测模式、p b 帧等,性能要优于h 2 6 1 。h 2 6 3 + 、h 2 6 3 + + 扩充了h 2 6 3 的编码 可选项和其它的一些附加特性,增强了抗误码的差错隐藏性能,将信道传输性能 问题在信源编码中加以综合考虑。 1 3 5 m p e g - 4 标准0 s o ,1 9 9 9 ) m p e g - 4 初衷是针对视频会议、可视电话的超低比特率编码的 9 1 。但随着芯 片性价比的提高使得基于软件平台的压缩编码具有实用的可能,且人们在对视频 信息的应用需求从播放型逐渐转到基于内容的访问和操作型,所以它制定的新目 h 2 6 4 视频编码算法研究及其d s p 实现 标为支持多媒体应用( 侧重于对多媒体信息内容的访问) ,可根据应用要求配置 解码器。 m p e g - 4 为了支持高效压缩、基于内容交互和基于内容分级扩展,引入了 a v o 的概念实现基于内容的表示方法。换句话说它就是围绕a v 对象的编码、存 储、传输和组合而制定的,它是第一个使用户在接收端对画面进行操作和交互访 问的编码标准。 m p e g 4 提供自然和合成的音频、视频以及图形的基于对象的编码工具,它 为多媒体数据压缩提供了一个更为广阔的平台,更注重于定义一种格式和框架, 而不是具体的算法,这样可以建立一个更自由的通信和研发环境,可以在系统中 加入许多新的算法,为使用计算机软件实现编码和解码提供更大的方便。它还可 以将各种各样的多媒体技术充分运用在编码中,除包括压缩本身的一些工具、算 法外,还包括图像分析和合成、计算机视觉、计算机图形学、虚拟现实和语音合 成技术。但是由于“基于对象的编码”尚有技术障碍,在技术专利保护问题上迟迟 难以找到有效的收费形式,因此该标准目前仍然没有得到普遍应用。 1 3 6h 2 6 4 a v co v t , 2 0 0 3 ) h 2 6 4 a v c 是i t u t 和i s o i e c 共同成立的联合视频组j 、佃( j o i n tv i d e o t e a m ) 共同制定的新标准1 0 1 。j v t 于1 9 9 8 年2 月正式开始征集协议提案,1 9 9 9 年8 月完成了第一版草案和相应的测试模型,2 0 0 1 年1 2 月,在n ,t 的第1 次会 议( p a t t a y a , t h a i l a n d ) 上形成h 2 6 4 a v c 的第二版工作草案( w o r kd r a i t2 ) ,并 推出测试模型j m 1 ( j u s t i f i e dm o d e ln u m b e r1 ) ,2 0 0 2 年7 月的n ,1 - 第4 次会议 ( k l a g e n f u t ,a u s t r i a ) 上推出了h 2 6 4 a v c 的会员草案版( c o m m i t t e ed r a i t ) ,提 出了相应的校验模型删- 4 ,在2 0 0 3 年3 月召开的全体大会( p a t t a y a t h a i l a n d ) 上,给出了最后的冻结草案和相应的测试模型。两个月后改标准提交给i s o i e c , 通过讨论成为m p e g - 4 第十部分,形成正式版。 h 2 6 4 a v c 作为面向电视电话、电视会议的新一代编码方式,目标是在同等 图像质量条件下,新标准的压缩效率比任何现有的视频编码标准要提高1 倍以 上。它正式形成后,具有如下的特点: 1 ) 提高了编码效率 在相同图像质量情况下,h 2 6 4 a v c 比h 2 6 3 编码至少减少5 0 以上的码 i i 2 6 4 视频编码算法研究及其d s p 实现 率;h 2 6 3 + 和h 2 6 3 + + 标准虽然提出了很多新的工具作为可选项,但是这些可选 项使得应用者有时候无所适从,为此h 2 6 4 a v c 采用了简洁的设计思路,不再 采用众多的可选项,而是将整个编码器融合在一个框架内,在解码器端采用了复 杂度可分级设计,在图像质量和解码处理速度之间进行折中,以适应多种复杂应 用。 2 ) 增强的网络适应能力 它采用了面向网络传输的结构和语法,增强了标准的网络适应能力,通过引 入面向i p ( i n t e m e tp r o t o c 0 1 ) 包交换的编码机制,实现视频数据在网络中的分组 传输,对于不同的内容采用分割( d a t a p a r t i t i o n ) 编码传输,灵活地采用相应的 时延限制,以适应p 网络、移动网络等多种系统的网络传输要求,保证获得平 稳的图像质量。并且提供了较强的抗误码特性,适用于丢包率高、干扰严重的无 线信道视频传输。 3 ) 公开版权 h 2 6 4 a v c 在制定过程中,充分吸取了m p e g - 4 标准在版权和专利问题上的 经验教训,提出了基本档次( b a s e l i n ep r o f i l e ) 的使用无需版权,整个h 2 6 4 a v c 视频压缩标准具有开放的特点。 下图1 1 是一些视频标准的发展历程: 囊8 4 9 8 0 j l l 8 8 ! 啪1 i i 叠2 _ 图i i g 口蠢 嘲 2 0 0 02 1 1 0 22 0 0 4 图1 - 1 视频标准发展历程 1 4 论文的主要工作及结构安排 本课题从h 2 6 4 视频编码标准着手,分析了编码的原理,并对编码中的一些 关键问题进行了深入研究,在最后探讨了h 2 6 4 算法在d s p 硬件平台上的实现 和优化问题。综合起来,本文的主要内容及各章节安排如下: h 2 6 4 视频编码算法研究及其d s p 实现 第一章,绪论。介绍了数字视频压缩的背景和各种视频压缩国际标准的发展 历程,并对论文的主要工作进行了说明。 第二章,h 2 6 4 视频编码标准。这一章对h 2 6 4 视频编码的原理进行了阐述 和分析,并详细介绍了其中的关键技术。 第三章,h 2 6 4 帧内预测算法研究。这一章研究了h 2 6 4 标准的帧内预测技 术,对帧内预测的各种模式选择算法进行了阐述,在此基础上提出一种新的快速 算法,并进行了仿真。 第四章,h 2 6 4 帧间运动估计研究。这一章研究了h 2 6 4 帧间预测的运动估 计技术,在对各种块匹配算法比较的基础上提出了一种既减少运算复杂度又保证 率失真的改进算法,并进行了仿真。 第五章,h 2 6 4 的d s p 实现研究。这一章对h 2 6 4 编码算法在d s p 上的实 现问题进行了研究,实现了x 2 6 4 编码器在d m 6 4 2 上的移植和优化,并对优化 的结果进行了测试。 第六章,总结与展望。这一章总结了本文的主要工作和研究的成果,对研究 中遇到的和尚待解决的问题进行了有益的探讨,并对未来的研究工作做出了展 望。 h 2 6 4 视频编码算法研究及其d s p 实现 第二章h 2 6 4 视频编码标准 2 1 引言 国际电信联盟组织r r u - t 在1 9 9 6 年完成h 2 6 3 视频编码国际标准的制定以 后,确定了近期和长期两个目标。其中近期目标是进一步扩展和增加h 2 6 3 的特 点,增强低比特率编码的能力,由此产生了h 2 6 3 的增强版h 2 6 3 + 和h 2 6 3 抖, 而长期的目标是制定一种新的视频编码国际标准,使其能够以更好的质量和更高 的压缩比支持视频会议等低比特率的应用,由此产生了h 2 6 l 草案。与此同时, i s o i e c 也在继续进行m p e g 4 高级视频编码的研究。2 0 0 1 年,m p e g 对h 2 6 l 草案进行了评估并认识到h 2 6 l 潜在的优越性,于是由m p e g 和v c e g 的专家 共同组成了联合视频小组j 、叮,进一步完善了h 2 6 l 模型,共同发展新的视频编 码国际标准。新的官方名称分别是:r r u - th 2 6 4 和i s o i e cm p e g - 4p a r t l 0a v c ( a d v a n c e dv i d e oc o d i n g ) f l l 】。 新标准的制定工作吸引了学术界和工业界的广泛关注和参与。在j 、,t 制定标 准提案的过程中,全球有上百所大学和公司等科研机构参与了提案,其中包括微 软、英特尔等知名的国际企业,国内也有一些大学如清华等也积极参与了新标准 的制定和研究工作。 新的h 2 6 4 m p e g - 4p a r t1 0a v c ( 以下简称h 2 6 4 a v c ) 视频编码标准在编 码质量和压缩比上比原有的视频编码标准都有了明显的提高。在相同的视觉感知 质量上,编码效率比h 2 6 3 、m p e g - 2 和m p e - 4 提高了5 0 左右,并且有更好的 网络友好性。虽然i t u t 在发展和制定h 2 6 4 a v c 的前身h 2 6 l 时,主要的目 标是为甚低比特率编码提供一种高性能的编码国际标准,但随着m p e g 的加入 以及更多新编码技术的采用,h 2 6 4 以其卓越的压缩性能在高清电视、卫星电视、 存储媒体、无线多媒体应用等方面显示出巨大的应用潜力。2 0 0 2 年9 月, v i d e o l o c u s 用该公司高度优化的h 2 6 4 a v c 编解码器在l m b i t s s 码率上实现了 m p e g 2 需要5 m b i t s s 码率的d v d 质量视频流端到端的传输。此外,为了加快 h 2 6 4 a v c 的普及和商业化进程,j 、,t 已经放弃了h 2 6 4 a v c 基本档次( b a s e l i n e p r o f i l e ) 的版权以吸引更多的关注,使得h 2 6 4 a v c 可能成为最近几年应用最广 泛的国际标准之一。 2 2h 2 6 4 标准的基本架构 h 2 6 4 视频编码算法研究及其d s p 实现 2 2 1 视频编码中的基本概念 ( 1 ) 帧( f r a m e ) 视频序列中的一幅图像,h 2 6 4 支持5 种帧类型,最简单的一种是i 帧,它 不需要参考其他图像进行编码;p 帧和b 帧则需要参考已经编码的图像进行运动 预测;s p 和s i 帧是为在不同速率的码流之间进行有效切换而引入的。 ( 2 ) 宏块( m a c r o b l o c k ) 一组宏块构成了一个编码的图像,它是由每个图像中1 6 1 6 的亮度块和相应 的色度块组成的,是h 2 6 4 每一帧编解码过程中的基本单位。 ( 3 ) 片( s l i c e ) 也称条带,一幅图像由若干片组成,图像按片来组织宏块,每片包含一系列 的宏块。一个片就是由按光栅扫描次序组织的一组宏块( 但不连续) ,每个片独 立解码,不同片的宏块不能用于自身片中作预测参考。因此,片的设置不会造成 误码扩散。 ( 4 ) z i g z a g 扫描 锯齿形扫描,视频编码中多用于对变换和量化后的宏块系数进行重排序,本 章以下各节多有用到。它的扫描顺序如下图2 1 所示: 图2 一lz i g z a g 型扫描顺序( 帧格式的块) 2 2 2h 2 6 4 的档次与级别( p r o f d e sa n dl e v e l s ) h 2 6 4 a v c 规定了三种不同的档次,分别是基本档次、主档次和扩展档测1 2 1 。 每个档次支持特定的编码功能,并且每个档次规定了对相应编码器和解码器的要 求。 基本档次( b a s e l i n ep r o f i l e ) 支持帧内和帧间编码( 使用i 片和p 片) 以及自 适应上下文变长编码( c a v l c ) 的熵编码,主要应用于可视电话、视频会议和 h 2 6 4 视频编码算法研究及其d s p 实现 无线通信等实时视频通信系统。 主要档次( m a i np r o f i l e ) 支持i 、p 、b 片,支持交替视频加权预测,支持 c a v l c 和c a b a c ,主要应用于数字广播电视和数字视频存储( 如高清电视和 d v d ) 。 扩展档次( e x t e n d e dp r o f i l e ) 包含基本档次的所有特征,另外还支持b 、s p 、 s i 片,支持加权预测和数据划分技术,但不支持交替视频和c a b a c 熵编码,它 主要应用于网络的视频流传输。 本文的研究都是基于基本档次的。下图2 2 显示了各档次的主要特点: ,。,一1 - 扩展档次7 7 、。1 主档次 7 f 臣圃 ! ! 圃 | | i ! j j : 、。一, 图2 2h 2 6 4 各档次的主要特点 2 2 3h 2 6 4 的分层结构 近几年来,随着通信和互联网技术的不断发展,编码视频的传输成为了一个 很复杂的问题,由于网络不断复杂化,使得对编码视频的网络适应能力越来越高, 而编码视频比特流对不同的传输网络和传输协议不具有普遍的适应性,所以 i i 2 6 4 视频编码算法研究及其d s p 实现 h 2 6 4 标准把整个编码系统分成了视频编码层v c l ( v i d e oc o d i n gl a y e r ) 和网络提 取层n a l ( n o t w o r k a b s t r a c t i o nl a y e r ) 两个不同概念的层次。 视频编码层v c l 主要负责对数字视频进行高效压缩,提供具有高压缩比和 健壮性等特性的视频编码码流,与h 2 6 3 或m p e g - 4 相比,h 2 6 4 在使用与上述 编码方法类似的最佳编码器时,基本上可以节省5 0 的码率。这一部分是 h 2 6 4 a v c 标准的核心部分,也是本文研究的重点。 网络提取层n a l 主要负责把视频编码层v c l 产生的视频编码数据正确而恰 当地映射到不同的传输网络中去。n a l 对编码后的视频数据进行封装,用户可 以选择封装成包或流以适应传送信道,每个n a l 单元是一个一定语法元素的可 变长字节字符串,包括一个字节的头信息( 用来表示数据类型) ,以及若干整数 字节的负荷数据。一个n a l 单元可以携带一个编码片、a b c 型数据分割或一 个序列或图像参数集。n a l 单元按r t p 序列号按序传送。h 2 6 4 采用这种严格 的接入单元,不仅使h 2 6 4 可自适应于多种网络,而且进一步提高其抗误码能力。 序列号的设置可发现丢的是哪一个v c l 单元,冗余编码图像使得即使基本编码 图像丢失,仍可得到较“粗糙”的图像。 n a l 的提出使得h 2 6 4 a v c 对现存的不同网络具有很好的网络友好性,同 时也增强了它对未来可能出现的新型网络的适应性。图2 3 为相应的分层框图: h 2 6 4 视频编码算法研究及其d s p 实现 h 2 6 4 a v c 的概念层 视频压缩编码层视频压缩解码层 视频压缩网络存取层接口 v c l 1, n a i 网络提取编码层网络提取解码层 il 编码接口解码接口 1r 传输层 h 2 6 4 对lih 2 6 4 对ifh 2 6 4 对h 2 6 4 对 h 。2 6 4 对l h 3 2 0 lm p e g - 2ii h 3 2 4 mr t p 以pt c p i p l 7 歹7 多 有线网络无线网络 图2 3h 2 6 4 a v c 的分层体系结构 2 2 4h 2 6 4 a v c 的编码器和解码器 同以前的视频编码标准一样,h 2 6 4 没有明确地定义编解码器,但着重定义 了编码视频位流的语法以及对这种位流解码的方法。除了去块滤波器以外,它的 大部分功能和以前的标准都采取相同的原理,但h 2 6 4 a v c 标准的重要变化体 现在每个功能模块的实现细节上。 h 2 6 4 a v c 大致的编码器框图如图2 4 所示,主要由编码器前向通路和编码 器重构通路组成: i t 2 8 4 视频编码算法研究及其d s p 实现 n a l 图2 _ 4h 2 6 4 a v c 编码器结构框图 简化的编码过程为: 对于前向通路,输入当前需要编码的帧c ,该帧由一组1 6 x 1 6 像素的宏块表 示,每个宏块可用帧内或帧间模式来编码。基于重构的图像采样点来产生预测帧 p 。在帧内模式,p 由帧n 中已经编码部分再解码重构得到( 图2 - 4 中的z 以,注 意p 是由未滤波的值组成) ;在帧间模式,p 是由几个参考帧用运动补偿预测的 方式得到,参考帧可以是已编码重构的前几帧或后几帧( 时间上的前后) 。当前 宏块减去预测块得到了残差块d i ,然后将其进行变换量化得到了一组变换系数 x ,这些系数被重排列和熵编码。熵编码系数和其他一些信息( 宏块预测模式、 量化步长、运动补偿、运动向量等) 组成了压缩比特流,它将会被送到网络提取 层用于传输或存储。 对于重构的通路,量化后的宏块系数x 被解码用来重构帧,以便进一步编码 下面的宏块。系数x 经过反量化、反变换得到残差宏块d :,由于量化过程带来 损失,磁和见并不相同。预测宏块p 加到d :上得到重构宏块u f ( 原始宏块的 失真块) ,用去块滤波器可以减少失真的影响,并由一系列宏块c 来产生重构参 考帧。 h 2 6 4 a v c 视频解码器的结构如图2 5 所示: i 2 6 4 视频编码算法研究及其d s p 实现 图2 5h 2 6 4 a v c 解码器结构框图 解码器从网络提取层n a l 接收压缩的码流。数据元素经过熵解码和重排序 后获得了一组量化系数x 。再经过反量化和逆变换得到磁( 等价于编码器中的 d :) 。根据从码流中解码得到的头信息,解码器产生了一个预测宏块p ,与编码 器中的p 相同。p 和叫相加得到叫,最后再解码得到宏块c 。 由此可见,编码器的重构通路的作用是保证了编码器和解码器使用相同的参 考帧来产生预测p 。否则,预测p 在编码器和解码器中就会有所不同,这将会产 生误差和漂移。 2 3h 2 6 4 a v c 标准的关键技术 h 2 6 4 a v c 标准的主要思想基本和以前的标准一样,即都是基于块的混合编 码,其中有许多关键性的技术使得它的编码性能明显优于其它标准。下面将介绍 一下标准中的这些关键技术。 2 3 1 帧内预测, 在h 2 6 4 a v c 中,当编码i n t r a 图像时可采用帧内预测【1 3 】。帧内预测是混合 编码的一个重要应用,在对一幅图像进行编码的时候,如果没法利用其他任何帧 图像的信息,则对该图像的编码就称之为帧内编码。如果一个宏块采用帧内编码 的方式进行编码,就可以根据已编码重建的块来形成一个预测块来进行帧内预 测。 帧内编码主要是通过消除图像的空间冗余信息来实现对图像的压缩的。以前 视频标准的帧内编码主要是通过对原始数据进行d c t 变换和变长编码来消除冗 余信息的,在h 2 6 4 a v c 中,帧内编码利用当前帧中重建( 还没进行滤波) 的 u 9 6 4 视频编码算法研究及其d s p 实现 邻块像素值依据一定的模式计算得到预测块p ,编码以前当前块要减去预测块的 值,这可以从图2 3 中看出来。对于亮度信号,预测宏块可以是4 x4 的块,8 8 的块,也可以是1 6 1 6 的子块,前两种都有9 个可选的预测模式,后者只有4 个 可选的预测模式。本文将在第三章重点研究帧内预测的原理以及算法的优化实现 问题,这里就不再作展开。 2 3 2 帧间预测 视频编码中的帧问预测用于降低图像的时域相关性,h 2 6 4 采用基于块匹配 的运动补偿技术来消除视频序列中的时间冗余。除使用原来标准( h 2 6 l 和 m p e g x ) 中的p 帧和b 帧的预测方法外,还增加了一些新功能,如采用多参考 帧进行帧间预测编码,采用大小不等的预测块进行运动估计,采用1 4 像素精度 的运动补偿算法等。 ( 1 ) 大小不等的预测块 合适的分块能提高运动估计的补偿效率,如果分块太大,块内所有点就无法 做同样的平移运动;分块太小的话,容易受到噪声的影响,也增加了传输的运动 矢量值。h 2 6 4 a v c 中,每个亮度宏块( 1 6 1 6 像素) 的亮度分量可以按四种方 式划分,即1 6 x1 6 、8 1 6 、1 6 8 和8 8 。如果选择8 8

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论