(电力电子与电力传动专业论文)基于dm642的h264编码算法优化与实现.pdf_第1页
(电力电子与电力传动专业论文)基于dm642的h264编码算法优化与实现.pdf_第2页
(电力电子与电力传动专业论文)基于dm642的h264编码算法优化与实现.pdf_第3页
(电力电子与电力传动专业论文)基于dm642的h264编码算法优化与实现.pdf_第4页
(电力电子与电力传动专业论文)基于dm642的h264编码算法优化与实现.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(电力电子与电力传动专业论文)基于dm642的h264编码算法优化与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西南交通大学硕士研究生学位论文第1 l 页 ! o i; 一i i mm 一一。i 一一i m m i 皇曼曼鼍曼曼曼曼曼曼皇曼曼曼曼 a b s t r a c t h 2 6 4i st h el a t e s tv i d e oc o d i n gs t a n d a r dp u b l i s h e dj o i n t l yb yi t u tv i d e oc o d i n g e x p e r tg r o u pa n di s o i e cm o v i n gp i c t u r ee x p e r t sg r o u p ( v c e ga n dm p e g ) i tc a ns a v e a p p r o x i m a t e l ya5 0 b i t r a t ef o re q u i v a l e n tp e r c e p t u a lq u a l i t yw h e nc o m p a r e dt oh 2 6 3o r 呼e g 4 b e s i d e s h 2 6 4h a sh i g hc o m p a t i b i l i t yw i t hv a r i o u sn e t w o r k s s oi ti sv e r ys u i t a b l e f o rr e a l t i m ev i d e oc o m m u n i c a t i o n a l t h o u g hh 2 6 4h a sv e r ye x c e l l e n tp e r f o r m a n c ei nv i d e o c o m p r e s s i o nr a t i o ,t h eh i g hc o m p u t a t i o n a lc o m p l e x i t yh a sb e c o m et h eb o t t l e n e c kf o rt h e i m p l e m e n t a t i o no fh 2 6 4e n c o d e ri ne n g i n e e r i n g ,e s p e c i a l l yi nr e a l t i m ev i d e of i e l d s ot h e o p t i m i z a t i o no fh 2 6 4c o d i n gh a sag r e a tt h e o r e t i c a la n da p p l i c a b l es i g n i f i c a n c e t id m 6 4 2i sah i g h p e r f o r m a n c ed i g i t a lm e d i ap r o c e s s o rw i t h6 0 0 m h zc l o c kr a t e w h i c hc a nr u na tar a t eu pt o4 8 0 0m i l l i o ni n s t r u c t i o n sp e rs e c o n d ( m i p s ) b e s i d e s d m 6 4 2 h a s6 4e d m ap o r t sa n dt w ol e v e l so fc a c h e t h ep o w e r f u lc a p a b i l i t vo fd a t ap r o c e s s i n ga n d i n t e r f a c em a k e si tv e r ys u i t a b l ef o rt h ev i d e oa p p l i c a t i o n s 。f o re x a m p l e ,t h ea u d i o v i d e o t r a n s m i s s i o na n ds e c u r i t ym o n i t o ro v e ri pa n dw i r e l e s sn e t w o r k s t oe n c o d ec i fr e s o l u t i o nv i d e oo fm o n i t o rs y s t e mi nr e a l t i m e t h em a i nt a s ko ft h i s t h e s i si st oi n t r o d u c eh o wt oo p t i m i z ea n di m p l e m e n th 2 6 4b a s e l i n ep r o f i l ee n c o d e rb a s e d o n 耵v i s 3 2 0 d m 6 4 2 x 2 6 4 w h i c hi so n eo ft h em o s ti m p o r t a n ts o u r c ep r o g r a m s i sa d o p t e d t ob et r a n s p l a n t e dt od sp t h et r a n s p l a n t a t i o np r o c e s si n c l u d e s :d e l e t ea l la s s e m b l yl a n g u a g e e n c o d e db y 吣a n ds s eb a s e do nx 8 6 ;d e f i n ea n dm o d i f yt h e1 e n g t ho fs o m ed a t at y p e s m a k ea l ld a t at y p e sm e e tt h en e e do fd s p ;s i m p l i f ys o m ec o d et h a ti s tn e e d e df o rb a s e l i n e p r o f i l e ;r e m o v et h el i b r a r yi n c l u d e di ns o u r c ep r o g r a ma n da d ds o m el i b r a r y , f o re x a m p l e c s le t c :a d dc o n f i g u r a t i o nf i l ea n da l l o c a t em e m o r y a t1 a s tm a k es u r et h a tt h ed m 6 4 2c a l l r u nx 2 6 4s u c c e s s f u l l y f i r s ti nt h i st h e s i sw ed e e p l ya n a l y s et h en e ws t a n d a r da n di t sc r i t i c a lt e c h n o l o g i e s t h e n o p t i m i z ex 2 6 4f r o mt w oa s p e c t s :a l g o r i t h ml e v e la n dp r o g r a ml e v e l a l g o r i t h ml e v e l o p t i m i z a t i o ni n c l u d e s v i d e o p r e p r o c e s s i n go p t i m i z a t i o n ,i n t r a - p r e d i c t i o no p t i m i z a t i o n , i n t e r - p r e d i c t i o no p t i m i z a t i o n ,r d o ( r a t e - d i s t o r t i o no p t i m i z a t i o n ) c o p u t a t i o no p t i m i z a t i o na n d l o o k u p t a b l e ( l u t ) o p t i m i z a t i o n t 1 1 i st h e s i sa l s oi n t r o d u c e sav i d e oc o m p r e s s i o ns c h e m e b a s e do ni n t e r p o l a t i o ni nt h ep r o c e s so fp o s t p r o c e s s p r o g r a m1 e v e lo p t i m i z a t i o ni n c l u d e s c o m p i l e ro p t i o no p t i m i z a t i o n ,p i n g p o n gt e c h n o l o g yo p t i m i z a t i o n ,m a n u a la s s e m b l y l a n g u a g eo p t i m i z a t i o na n dm e m o r yo p t i m i z a t i o n ,e t c e x p e r i m e n tr e s u l t sa r eg i v e na te v e r y s t e p t h ee x p e r i m e n tr e s u l t ss h o wt h a tt h eh 2 6 4e n c o d e ri so b v i o u s l ys p e e d e du pw i t ht h e s i m i l a rr e c o n s t r u c t e di m a g eq u a l i t yc o m p a r e dw i t ht h ee n c o d e rw i t h o u to p t i m i z a t i o n i tc a n e n c o d e2 0t o3 5f r a m e sp e rs e c o n df o rc i fr e s o l u t i o nv i d e o f a s t e rt h a nt h eo r i n g i n a le n c o d e r , a n dm e e tt h en e e do fm o n i t o rs y s t e m k e yw o r d s :h 2 6 4 ,d m 6 4 2 , r e a l - t i m e e n c o d i n g ,x 2 6 4t r a n s p l a n t a t i o n ,a l g o r i t h m o p t i m i z a t i o n 西南交通大学曲南交通大罕 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并 向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授 权西南交通大学可以将本论文的全部或部分内容编入有关数据库进行检索,可以采用 影印、缩印或扫描等复印手段保存和汇编本学位论文。 本学位论文属于 1 保密口,在年解密后适用本授权书; 2 不保密眵,使用本授权书。 ( 请在以上方框内打“”) 学位论文作者签名: 虢声 岛慢 矗碴 ,、 日期:油【o f o日期:kc 。6 。三7 西南交通大学硕士学位论文主要工作( 贡献) 声明 本人在学位论文中所做的主要工作或贡献如下: 1 成功移植x 8 6 平台下的视频压缩源代码x 2 6 4 到d m 6 4 2 上; 2 进行h 2 6 4 标准的算法级优化,精简部分预测模式; 3 进行代码级的优化,并编写大量重要模块的手工汇编; 4 得出实验数据,能够实时编码c i f 标准测试序列或监控视频。 本人郑重声明:所呈交的学位论文,是在导师指导下独立进行研究工作所得的成 果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰 写过的研究成果。对本文的研究做出贡献的个人和集体,均己在文中作了明确说明。 本人完全了解违反上述声明所引起的一切法律责任将由本人承担。 学位论文作者签名: 日期:丸f o f ;o 西南交通大学硕士研究生学位论文 第1 页 皇曼曼! 曼曼曼曼曼曼曼曼曼曼曼曼皇舅曼曼曼! 曼曼曼皇! ! ! 曼曼曼曼曼! ! 曼曼皇! 曼曼曼! 曼鼍曼i i i i _ i i i mi 曼曼量曼皇曼曼曼曼曼曼 1 。1 引言 第1 章绪论 随着数字信号处理技术的发展,数字信号在越来越多的领域取代了模拟信号,在 多媒体领域,数字信号更是得到广泛的应用。视频信号是我们获取信息的最重要的渠 道,因其具有直观性、确定性、可靠性等一系列优点,在当今社会的应用无处不在, 如视频监控、视频会议、远程医疗、高清数字电视、可视电话等,而随着3 g 标准在我 国的逐渐普及,视频通信更是丰富着人们的交流方式。 然而,尽管视频通信具有很多优点,但是其包含信息量大,在存储和传输时需要 占用大量的资源,这就成为其进一步发展的瓶颈。如在电视会议系统中,一般采用c i f 格式( c o m m o ni n t e r m e d i a t ef o r m a t ,分辨率为3 5 2 2 8 8 ) ,采样方式为4 :2 :0 ,则一帧视 频需要约1 1 6 mb i t 的空间,对于普通的实时要求2 5 帧秒,1 秒钟的数据率为2 9 mb i t , 这么大的数据量,无论对于存储还是传输,都是不现实的。为此,必须对视频信息进 行压缩。 1 1 1 视频压缩的可能性 视频编码的目的是实现对视频信号的压缩,核心思想是去除各种相关,降低视频 内容中的冗余,用尽可能少的比特数来表示视频内容,从而实现对视频的压缩。这些 冗余包括u ,2 j : ( 1 ) 空间冗余和时间冗余 在空间域中,距离小的像素点之间的相关性本身就较高,例如相邻像素点的样本 值很接近。在时间域中,相邻帧的拍摄间隔很小,尤其在时域采样率高的情况下,相 关性较高,相邻帧间的变化甚至微乎其微。 ( 2 ) 信息熵冗余 由信息论的有关原理可知,为表示图像数据的一个像素点,只要按其信息熵的大 小分配相应比特数即可。然而对于实际图像数据的每个像素,很难得到它的信息熵, 在数字化一幅图像时,对于每个像素是用相同的比特数表示,这样必然存在冗余。 ( 3 ) 视觉冗余 眼睛所感受到的图像区域亮度不仅仅与区域的反射光有关,这种现象的产生是由 于眼睛并不是对所有视觉信息有相同的敏感度。经过大量的统计知道人眼视觉系统对 亮度信号变化的敏感性高于色度信号变化。有些信息在通常的视觉过程中相对来说不 那么重要,这些信息可以认为是视觉冗余的。视觉冗余的存在与人观察图像的方式有 西南交通大学硕士研究生学位论文 第2 页 关,人在观察图像是主要寻找某些比较明显的码本特征,而不是定量的分析图像中每 一个像素的亮度。人通过脑子里分析这些特征与先验知识结合以完成对图像的解释过 程。 从图像恢复的角度上,信源编码方式可以分成两大类:无损编码和有损编码。在 无损编码中,原始的信息和信号可以精确地重构,因而信息可以进行任意多次无损编 码而不会有任何退化,这种方式仅仅去除了信源的冗余信息。有损编码系统通常依靠 量化实现,它的压缩是靠丢弃图像中的一些信息( 通常是高频信号) 而达到的,由量化去 掉的图像细节信息是不可逆的,称为失真。对于图像和视频数据来说,无损编码的压 缩效率非常低,在视频压缩中都是将无损编码和有损编码结合使用。 1 1 2 视频编码技术的发展 从8 0 年代开始,视频压缩编码技术就开始逐步发展,国际标准化组织( i s o ) 和国际 电信联盟( i t u t ) 等几大组织推出多个系列的音视频编码国际标准,其中最具代表性的 是i s o i e c 推出的m p e g x 系列标准,包括m p e g 1 ,m p e g 2 ,m p e g 4 ;i t u t 推 出的h 2 6 x 系列标准,包括h 2 6 1 ,h 2 6 2 ,h 2 6 3 ,h 2 6 3 + ,h 2 6 3 + + ,h 2 6 4 。 1 9 8 4 年国际电报电话咨询委员会( i n t e r n a t i o n a lt e l e p h o n ea n dt e l e g r a p hc o n s u l t a t i v e c o m m i t t e e ,c c i t t ) 第1 5 研究组发布了数字基群电视会议编码标准h 1 2 0 建议。1 9 8 8 年c c i t t 通过了“p 6 4 k b p s ( p = 1 ,2 ,3 ,4 ,5 3 0 ) ”视像编码标准h 2 6 1 建议,被称为 视频压缩编码的一个里程碑。从此,i t u t 、i s o 等公布的基于波形的一系列视频编码 标准的编码方法都是基于h 2 6 1 中的混合编码方法【3 】。 1 9 8 6 年,i s o 和c c i t t 成立了联合图像专家组( j o i n tp h o t o g r a p h i ce x p e l sg r o u p , j p e g ) ,研究连续色调静止图像压缩算法国际标准,并于1 9 9 2 年7 月通过了j p e g 标 准 4 1 。 1 9 8 8 年i s o i e c 信息技术联合委员会成立了活动图像专家组( m o v i n gp i c t u r e e x p e r tg r o u p ,m p e g ) 。1 9 9 1 年公布了m p e g 1 视频编码标准,码率为1 5 m b p s ,主要 应用于家用v c d 的视频压缩;1 9 9 4 年1 1 月,公布了m p e g 2 标准,用于数字视频广 播( d v b ) 、家用d v d 的视频压缩及高清晰度电视( h d t v ) 。码率从4 m b p s 、1 5 m b p s 直至1 0 0m b p s 分别用于不同档次和不同级别的视频压缩中。 1 9 9 5 年,i t u t 推出h 2 6 3 标准,用于低于6 4k b p s 的低码率视频传输,如p s t n 信道中可视会议、多媒体通信等。1 9 9 8 年和2 0 0 0 年又分别公布了h 2 6 3 + 、h 2 6 3 + + 等标准 5 4 】。 1 9 9 9 年1 2 月份,i s o i e c 通过了“视听对象的编码标准”m p e g 4 ,它除了 定义视频压缩编码标准外,还强调了多媒体通信的交互性和灵活性【7 j 。 最新的h 2 6 4 a v c 标准是由i s o i e c 和i t u t 组成的联合视频组( j o i n tv i d e o t e a m ,j v t ) $ i j 定的,并于2 0 0 3 年正式获得通过i s - 9 。h 2 6 4 a v c 作为一种新的国际标 西南交通大学硕士研究生学位论文第3 页 准,它引入了更先进的编码特性,表现出了良好的编码性能,具有广阔的应用前景。 h 2 6 4 标准的主要优点有【l ,l o 】: ( 1 ) 在相同的重建图像质量下,h 2 6 4 比h 2 6 3 + 和m p e g 4 减小5 0 码率。 ( 2 ) 对信道时延的适应性较强,既可工作于低时延模式以满足实时业务,如会议电 视等;又可工作于无时延限制的场合,如视频存储等。 ( 3 ) 提高网络适应性,采用“网络友好”的结构和语法,加强对误码和丢包的处理, 提高解码器的差错恢复能力。 ( 4 ) 在编解码器中采用复杂度可分级设计,在图像质量和编码处理之间可分级,以 适应不同复杂度的应用。 ( 5 ) 相对于先期的视频压缩标准,h 2 6 4 引入了很多先进的技术,包括4 4 整数变 换、空域内的帧内预测、1 4 象素精度的运动估计、多参考帧与多种大小块的帧间预测 技术等。新技术带来了较高的压缩比,但同时大大提高了算法的复杂度。 由于h 2 6 4 显著的性能及其潜在的市场价值,目前基于h 2 6 4 的数字多媒体处理 系统已经开始应用于人们生活之中,并呈现出迅猛发展的趋势。d s p 具有处理能力强、 开发周期短、用户开发自由度大等特点,被越来越多的应用于视频压缩领域。因此用 d s p 实现实时的h 2 6 4 编码器己成为当今视频行业的热点技术之一。 1 2 现状 h 2 6 4 标准虽然已经发布了多年,算法也得到了很大的改进,但在实际应用中仍存 在很大的问题。同时也注意到,h 2 6 4 获得优越性能的代价是计算复杂度的增加,据验 证,编码的计算复杂度大约相当于h 2 6 3 的3 倍,解码复杂度大约相当于h 2 6 3 的2 倍,时耗大幅度增加,对处理器提出了更高的要求。如何在保证编码质量的前提下降 低复杂度,提高编码效率,使h 2 6 4 标准更好的应用于实际当中,成为本文研究的关 键所在。 自h 2 6 4 标准推出以来,i s o i e c 与i t u t 一直致力于采用新算法对h 2 6 4 进行改 进,并由此推出了多个版本的h 2 6 4 参考模型,从t m l 到现在的j m 系列1 1 1 1 。改进的 算法包括帧内预测模式选择、帧间预测模式选择、运动搜索的实现、熵编码算法、码 率控制算法和抗误码率算法等。其中比较著名的算法有:p a nf 提出的基于边缘直方图 的快速帧内模式选择算法l l2 j ;j e o nb 等人提出的早期s k i p 模式检测和选择性帧内模式 检测的算法i l3 j ;p e n gy 提出的基于模式优先权和余弦单调性特征的快速帧间模式选择 算法【1 4 】; c h e u n gch 等提出的种新颖的十字菱形六边形搜索算法 i s j ;“zg 等提 出了一种基于v m 8 模型的码率控制算法1 1 6 j 。 我国在视频编解码方面的研究起步比较晚,基础相对薄弱,但是近年来发展很快。 在编码标准方面,我国研发了具有自主知识产权的第二代数字音视频信源标准a v s 1 7 】; 西南交通大学硕士研究生学位论文第4 页 算法方面,清华大学周芸等提出的非对称十字型多层次六边形格点搜索算法已经被 t 正式采用【博j 。 h 2 6 4 编码器的实现版本主要有:j m 系列、t 2 6 4 、x 2 6 4 1 1 9 也0 1 ,分别介绍如下。 j m 是h 2 6 4 的官方测试源码,由德国h h i 研究所负责开发,包括编解码器,解码 器能解所有的标准码流。其特点有:实现了2 6 4 所有的特性,由于是官方的测试源码, 所以学术研究的算法都是在j m 基础上实现并和j m 进行比较。但其程序结构冗长,只 考虑引入各种新特性以提高编码性能,忽视了编码复杂度,其编码复杂度极高,不宜 实用。j m 一直没有做实用化方面的努力,所以其解码速度代表的是2 0 0 3 年的水平。 x 2 6 4 是网上自由组织联合开发的兼容h 2 6 4 标准码流的编码器,创始人是一个法 国人。x 2 6 4 在业界的口碑极佳,其最重要的特点是注重实用。和j m 相比,在不明显 降低编码性能的前提下,努力降低编码的计算复杂度,故x 2 6 4 摒弃了h 2 6 4 中一些对 编码性能贡献微小但计算复杂度极高的新特性,如多参考帧机制、c a b a c 熵编码方式、 场的编码等。 t 2 6 4 是中国视频编码自由组织联合开发的h 2 6 4 编解码器,编码器编码输出标准 的2 6 4 码流,解码器只能解t 2 6 4 编码器生成的码流。t 2 6 4 和x 2 6 4 的出发点相似,并 吸收了j m 、x 2 6 4 、x v i d 的优点。 基于x 2 6 4 开源代码的各种优越性,目前绝大多数的科研单位与企业都是基于x 2 6 4 进行开发,并在源代码的基础上作出一定的优化。而在实现编解码的平台上,一般也 有如下三种【z l j : ( 1 ) 基于专用的a s i c 芯片实现 基于专用的a s i c 芯片实现既可以作为专用的编解码器,又可以作为其中的核心模 块。这种方法十分有效,因为芯片设计可以针对专门的算法进行高度优化。和微处理 器相比,专用视频解码器芯片不需要取指、译码等过程,还可以将控制器所需要的硬 件开销减到最小,因此它可以获得更高的处理速度,并占用更少的硬件电路。其缺点 在于其中有大量的专用模块,当算法需要修改时,便无法适应新的算法,只能重新设 计。 ( 2 ) 基于p c 的软件实现 这种方案以p c 机或工作站为平台,利用现有的声卡、视频采集卡作为系统的输入 输出设备,采用纯软件方式实现视频压缩协议的全部内容。其特点是面向p c 机多媒体 系统,硬件系统设计简单,软件开发环境号,灵活的程序代码可动态加载以实现多种 视频压缩标准,易于实现和升级,而且支持的网络协议独立于硬件,能适用于多种通 信网络。但是,其缺点在于成本很高,一个摄像头就要配备一台p c 机。 ( 3 ) 基于d s p 的软件实现 利用可编程多媒体d s p 处理器来实现视频编码器是一种更为灵活的方案。其优势 表现在:第一,用户开发自由度更大,支持多种个性化开发,可以满足市场不断提出 的新的要求,在第一时间提升产品性能,增强产品的竞争能力。第二,d s p 处理能力 强,可以在一个d s p 上同时实现多路音视频信号的压缩处理,还可提供很多视频专用 西南交通大学硕士研究生学位论文 第5 页 功能,比如视频滤波、高分辨显示输出、o s d 功能等;第三,外围接口丰富,开发周 期短,可实现快速技术更新和产品换代;第四,芯片功耗低,为提高产品的稳定性提 供可靠保障。 1 3本文研究内容 本论文研究了h 2 6 4 标准及其关键技术,并以目前编码效率最高的开源代码x 2 6 4 为基础,以t i 公司的高性能c 6 0 0 0 系列d s pt m s 3 2 0 d m 6 4 2 为硬件平台,首先将源 代码移植到d s p 上,实现h 2 6 4 编码器。其次对复杂度较高的一些关键算法进行优化, 并得到大量的仿真数据。最后,充分利用其独特的c a c h e 机制和增强型的d m a 通道, 利用其指令执行的并行性,编写汇编代码,合理分配代码段在片内存储器中的空间, 在集成开发环境c c s 下,大大提高了代码的运行效率,使其在一定图像质量保证下, 实现c i f 视频的实时编码。同时,本文的研究内容主要针对视频监控,因此只讨论h 2 6 4 的基本档次编码。 本文的结构安排如下: 第一章引出本文的研究意义、国内外现状及本论文的主要工作。 第二章详细介绍最新的h 2 6 4 视频编码标准及其关键技术。主要分为两个部分, 第一部分为h 2 6 4 概述及其标准框架介绍,第二部分介绍h 2 6 4 的核心技术。 第三章介绍在介绍t i 公司的高性能c 6 0 0 0 系列d s pt m s 3 2 0 d m 6 4 2 基础上,如 何将x 2 6 4 源代码从x 8 6 平台移植到d m 6 4 2 上。 第四章重点介绍了算法级的优化,首先进行图像增强,然后从帧内及其帧间预测 模式上作了简化,最后优化部分乘除法的运算,并得出实验对比结果。 第五章介绍代码级的优化,依次从c 语言、乒乓缓存机制、手工汇编优化及其存 储器优化几个方面优化代码,得出实验对比结果。 最后总结全文,并对以后工作提出展望。 西南交通大学硕士研究生学位论文 第6 页 第2 章h 2 6 4 视频编码标准 现有的主流编解码标准有i t u t 的h 系列和i s o i e c 的m p e g 系列。h 2 6 4 是由 i s o i e c 与i t u t 组成的联合视频组( j v t ) 匍j 定的新一代视频压缩编码标准。 在制定h 2 6 3 标准后,i t u t 的视频编码专家组( v c e g ) 开始了两个方面的研究: 一个是短期研究计划,即在h 2 6 3 基础上增加选项( 之后产生了h 2 6 3 + 与h 2 6 3 抖) ;另 一个是长期研究计划,制定一种新标准以支持低码率的视频通信。长期研究计划产生 了h 2 6 l 标准草案,在压缩效率方面与先期的视频压缩标准相比,具有明显的优越性。 2 0 0 1 年,i s o 的m p e g 组织认识到h 2 6 l 潜在的优势,随后i s o 与i t u 开始组建包括 来自i s o i e cm p e g 与i t u tv c e g 的联合视频组( j v t ) ,t 的主要任务就是将h 2 6 l 草案发展为一个国际性标准。这一标准正式成为国际标准是在2 0 0 3 年3 月泰国p a t t a y a 举行的j v t 第7 次会议上。 由于该标准是由两个不同的组织共同制定的,因此有两个不同的名称:在i t u t 中,它的名字叫h 2 6 4 ;而在i s o i e c 中,它被称为m p e g 4p a r t1 0 ,即高级视频编码 ( a r c ) 。 h 2 6 4 m p e g 一4p a r t1 0a v c ( 本文简称h 2 6 4 ) 视频编码标准在编码质量和压缩比上 比原有的视频编码标准都有了明显的提高。在相同的视觉感知质量上,编码效率比 h 2 6 3 ,m p e g 2 和m p e g 4 提高了5 0 左右,并且有更好的网络亲和力。h 2 6 4 以其 卓越的压缩性能在高清晰度电视、视频会议、监控系统、存储媒体、无线多媒体应用 等方面显示出了巨大的应用潜力。 2 1h 2 6 4 标准概述 图2 - 1h 2 6 4 编码器系统结构图阱】 h 2 6 4 编码器的结构如图2 - 1 所示。编码器采用的是预测和变换的混合编码法,输 入帧f n 以宏块为单位被编码器处理。首先,按帧内或帧间预测编码的方法进行处理, 西南交通大学硕士研究生学位论文 第7 页 如果采用帧内预测编码,其预测值p 是由当前片( 本文中的片就是一帧) 中前面已编码的 宏块经过反量化、反整数变换得到的;如果是采用帧间预测编码,其预测值p 是由参 考帧经过运动补偿预测得到的,而这个参考帧是当前帧前面或后面的一帧或数帧经正 反整数变换、正反量化及环路滤波得到的。 预测值p 和当前块相减后,产生一个残差块d n ,经过整数变换、量化后产生一组 量化后的变换系数x ,再经熵编码,与解码所需的一些参考信息( 如预测模式量化参数、 运动矢量等) 一起组成一个压缩后的码流,经n a l ( n e t w o r ka b s t r a c t i o nl a y e r ,网络自 适应层) 供传输和存储用。 如框图2 1 所示,为了提供进一步预测用的参考图像( 重建块及参考帧) ,编码器必 须有重建图像的功能。因此必须使残差图像经反量化、反变换后得到的d n 与预测值p 相加,得到u f n ( 没有经过滤波的帧) 。为了去除编码解码环路中产生的噪声,提高参考 帧的图像质量,从而提高压缩图像性能,设置了一个环路滤波器,滤波后的输出f n 即重建图像可用作下一帧的参考图像。在标准中,帧内预测时的重建块没有经过去块 效应滤波,但在x 2 6 4 代码中帧内预测使用了滤波过程。 2 1 1h 2 6 4 的分层结构 h 2 6 4 不仅具有优异的压缩性能,而且具有良好的网络亲和性,即可适用于各种传 输网络,这对实时的视频通信是十分重要的。现在已有基于d s p 的采用h 2 6 4 编码的 可视电话出现在市场上,进一步说明了在视频通信中h 2 6 4 的重要应用价值。 h 2 6 4 的功能分为两层【1 ,2 2 q 3 j ,即视频编码层( v c l ,v i d e oc o d el a y e r ) 和网络提取 层n a l 。v c l 数据即编码处理的输出,它表示被压缩编码后的视频数据序列。在v c l 数据传输或存储之前,这些编码的v c l 数据,先被映射或封装进n a l 单元中。 n a l 单元序列的结构见图2 2 ,每个n a l 单元包括一个原始字节序列负荷( r b s p ) 、 一组对应于视频编码数据的n a l 头信息。其中头信息包括的内容有是序列参数集和图 像参数集,而r b s p 则是宏块编码的具体信息,包括残差数据、运动矢量、编码模式 等等。由单纯的编码数据s o d b 到r b s p 经过以下步骤: 1 s o d b 字节对齐后封装成r b s p ; 2 为防止r b s p 的字节流与有序字节流传送方式下的s c p 出现字节竞争情形,循 环检测r b s p 前三个字节,在出现字节竞争时在第三字节前加入o x 0 3 ; 3 防止字节竞争后的r b s p 再加一个字节的h e a d e r ,封装完成。 图2 2n a l 单元序列结构图 西南交通大学硕士研究生学位论文 第8 页 璺舅曼曼曼曼笪曼曼曼曼曼苎曼曼曼曼曼曼曼鼍鼍鼍i i 一一i i i i i 一, 曼 n a l 层把数据封装成为若干网络抽象单元( n a l u ) ,这些n a l u 可以在现有的大 部分网络中以包的形式传送,适用于各种标准的通信。对于解码端,可以认为这些网 络抽象单元或者正确无误,或者在网络中丢失,或者存在位错误。一般网络抽象单元 头信息中会设有相应标志来指示是否发生位错误,解码器能够识别发生位错误的网络 抽象单元并决定是对其进行解码还是丢弃。 2 1 2h 2 6 4 的编码档次 h 2 6 4 规定了三种编码档次,每个档次支持一组特定的编码功能,并支持一类特定 的应用。 ( 1 ) 基本档次:利用i 片和p 片支持帧内和帧间编码,支持利用基于上下文的自适应 的变长编码进行的熵编码( c a v l c ) 。主要用于可视电话、会议电视、无线通信等实时 视频通信。 ( 2 ) 主要档次:支持隔行视频,采用b 片的帧间编码和采用加权预测的帧内编码; 支持利用基于上下文的自适应的算术编码( c a s a c ) 。主要用于数字广播电视与数字视 频存储。 e x t e n d e di l a i n p r o f i l e d r o f i l e 图2 - 3h 2 6 4 档次示意图 西南交通大学硕士研究生学位论文 第9 页 ( 3 ) 扩展档次:支持码流之间有效的切换( s p 和s i 片) 、改进误码性能( 数据分割) , 但不支持隔行视频和c a b a c 。主要用于网络的视频流,如视频点播。 图2 3 1 , 2 2 j 为h 2 6 4 各个档次具有的不同功能,可见扩展档次包括了基本档次的所 有功能,而不能包括主要档次的。每一档次设置不同参数( 如取样速率、图像尺寸、编 码比特率等) ,得到编解码器性能。本文的研究方向是视频的实时通信,所以只研究基 本档次的移植及其优化。 2 2h 2 6 4 关键算法 视频图像之所以能够被压缩,是由于其自身相关性决定的,这包括:( 1 ) 帧内像素 之间的相关性;( 2 ) 相邻帧间像素间的相关性。利用各种相关性,去除视频冗余信息, 得到残差数据,经过整数d c t 变换,将信号的能量几乎集中于低频段,得到的d c t 数据再经过矢量量化,使高频段的值大部分为零,进一步减小了残差的能量,从而得 到最小化的熵编码比特流。下面重点介绍h 2 6 4 的各部核心算法。 2 2 1 帧内预测 帧内预测基于视频信号的空间相关性,目的是去掉空间域的冗余。帧内预测模式 中,预测块p 是基于已编码重建块和当前编码块形成的。在h 2 6 4 标准中,对于亮度 像素而言,有4 4 子块和1 6 1 6 宏块的相关操作。4 4 亮度子块有9 种可选预测模 式,独立预测每一个4 4 亮度子块,适用于带有大量细节的视频图像编码;1 6 1 6 亮度块有4 种预测模式,预测整个1 6 1 6 亮度块,适用于平坦区域视频图像编码;色 度块的帧内预测是基于一个宏块即8 8 块进行的,其也有4 种预测模式,类似于1 6 1 6 亮度块预测模式。编码器通常选择使预测块和编码块之间差异最小的预测模式。 4 4 亮度块预测,是把1 6 1 6 的亮度宏块划分为1 6 个4 4 的子块,每个子块的 像素点a - p 用与其相邻的上边和左边已经编码并重建的像素点a o 进行帧内预测,如 图2 - 4 所示。预测的模式有9 种,预测模式方向如图2 5 所示。计算9 种模式下的绝对 误差和( s a e ) ,哪种模式下的s a e 值越小,就代表预测误差越小,残差能量就越小, 所需的编码比特最小。 o abc de fgh 田 圜 图2 4 相邻块进行4 4 帧内预测 西南交通大学硕士研究生学位论文 第1 0 页 3 d 国n a ld c r _ “e 舟) 4 , 矗a p o n a jd 洲册- n 咖l 酽黟黔 f 旷 图2 - 54 x 4 亮度块预测模式方向图【2 3 】 1 6x1 6 亮度块预测模式分为4 种:( 1 ) 垂直预测。由上边像素对宏块像素值进行预 测;( 2 ) 水平预测。由左边像素对宏块像素值进行预测;( 3 ) d c 预测。由上边和左边像 素平均值对宏块像素值进行预测;( 4 ) 平面预测。利用线性平面函数对左、上像素对宏 块像素值进行预测。具体预测方向如图2 - 6 所示。 图2 - 61 6 x1 6 亮度块预测模式方向图【2 3 】 每个帧内编码宏块的8 8 色度成分由已编码并重建的左、上方色度像素预测而得, 两种色度成分c b 、c ,常用同一种预测模式。8 8 色度预测有4 种预测模式,类似于帧 内1 6x1 6 亮度块预测的4 种预测模式,分别为:p c ( 模式o ) 、水平( 模式1 ) 、垂直( 模 式2 ) 、平面( 模式3 ) 。 2 2 2 帧间预测 视频序列的帧与帧之间也经常存在着冗余信息,因为序列的变化并不经常是剧烈 的,场景也不是随时都在变,常见的情况是背景基本不变,前景发生一定的变化( 如监 控系统的场景) ,如果还是按照帧内预测模式,则无法利用时间上的相关性,去除时间 冗余信息,压缩效率不大。h 2 6 4 帧间预测是利用已编码视频参考帧和基于宏块的运动 补偿的预测模式。与以往标准帧间预测的进步在于块尺寸范围更广( 从1 6 x1 6 宏块到4 4 子块) 、亚像素运动矢量的使用( 亮度采用1 4 像素精度m v ) 及多参考帧的运用等等。 西南交通大学硕士研究生学位论文 第11 页 皇量曼曼孽曼曼曼曼曼曼鼍| m - - 曼毫蔓鼍皇曼曼皇皇笪舅曼皇曼曼曼曼鼍皇曼曼鼍曼曼曼曼舅舅曼曼曼曼曼曼曼 2 2 2 1 树状结构运动补偿 如图2 7 所示,每个亮度宏块( 1 6 x1 6 像素) 可以有4 种方式分割:一个1 6 1 6 , 两个1 6 8 ,两个8 1 6 ,四个8 8 ,其运动补偿也相应有四种。而8 8 模式的每个 子宏块还可以有四种方式分割:一个8 8 ,两个4 8 或两个8 4 及4 个4 4 。这些 分割和子块大大提高了各宏块之间的关联性。这种分割下的运动补偿则称为树状结构 运动补偿。 m t y p e s 8 x 8 t y p e s 8 x 88 x 44 x 8 8 x 8 4 x 4 图2 - 7 宏块及其子宏块分割不意图 每个分割或子块都有一个独立的运动补偿。每个运动矢量( m y ,m o t i o nv e c t o r ) 必 须被编码、传输,分割的选择也需编码到压缩比特流中,解码器以此辨别解码方式。 对大的分割尺寸而言,m v 选择和分割类型只需少量的比特,但运动补偿残差在多细 节区域能量将非常高,残差编码后需要更多的比特。小尺寸分割运动补偿残差能量低, 但需要较多的比特表征m v 和分割选择。分割尺寸的选择影响了压缩性能,这就需要 在纵多分割方式上选择一个折中的模式。整体而言,大的分割尺寸适合平坦区域,而 小尺寸适合多细节区域。一般按照式( 2 1 ) 选择分割模式,计算每种模式的代价c o s t , 选择使c o s t 最小的分割模式。 c o s t = 艇d + 胛一m v d ( 2 1 ) 其中,s a d 表示当前块与参考帧中匹配块之间的像素误差绝对值之和,b i tm v d 表示编码传输m v 所需的位数,这是一个经验公式,具体的求解方法这里不作深入讨 论。 在4 :2 :0 的序列采样方式中,宏块的色度成分c r 和c b 为相应亮度成分的一半( 水 平和垂直各一半) 。色度块采用和亮度块同样的分割模式,只是尺寸减半( 水平和垂直 方向都减半) 。例如,8 1 6 的亮度块相应色度块尺寸为4 8 ,8 4 亮度块相应色度块 尺寸为4 2 等等。色度块的m v 也是通过相应亮度m v 水平和垂直分量减半而得。 西南交通大学硕士研究生学位论文 第12 页 m mm。mm_ m_ i i i , 曼曼曼曼 2 2 2 2 运动估计及运动补偿 在帧间预测编码中,由于活动图像邻近帧中的景物存在着一定的相关性。因此, 可将活动图像分成若干块或宏块,并设法搜索出每个块或宏块在邻近参考帧图像中最 匹配的位置,并得出两者之间空间位置的相对偏移量,得到的相对偏移量就是通常所 指的运动矢量,得到运动矢量的过程被称为运动估计。运动矢量和经过运动匹配后得 到的预测误差共同发送到解码端,在解码端按照运动矢量指明的位置,从已经解码的 邻近参考帧图像中找到相应的块或宏块,和预测误差相加后就得到了当前编码块或宏 块的值。 如图2 8 所示,设当前帧为p ( o ,且为p 帧,其参考帧为前一帧p ( t 1 ) ( 这里只考虑 前向运动估计) 。基于块的运动补偿原理解释如下:编码当前帧中的一个宏块,即图中 当前帧中的黑圈,在参考帧中以整像素搜索与当前编码块最匹配的块,设参考帧中的 阴影部分为其最匹配的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论