(信号与信息处理专业论文)基于dm6446的avs视频编码研究与实现.pdf_第1页
(信号与信息处理专业论文)基于dm6446的avs视频编码研究与实现.pdf_第2页
(信号与信息处理专业论文)基于dm6446的avs视频编码研究与实现.pdf_第3页
(信号与信息处理专业论文)基于dm6446的avs视频编码研究与实现.pdf_第4页
(信号与信息处理专业论文)基于dm6446的avs视频编码研究与实现.pdf_第5页
已阅读5页,还剩69页未读 继续免费阅读

(信号与信息处理专业论文)基于dm6446的avs视频编码研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 随着信息技术的不断创新和社会需求的大力推动,以数字多媒体技术为代表 的产业应用得以蓬勃发展。视频压缩编码是数字多媒体处理的关键技术,是各种 视频应用如视频监控、视频会议等的核心模块。我国在视频应用领域已经具备了 较强的产业基础,但由于没有掌握视频编码核心技术,相关企业长期受制于国外 的专利持有者。a v s 是由我国音视频编解码标准化工作组制定的视频编码标准, 于2 0 0 6 年被批准颁布为国家标准。a v s 面向高分辨率视频应用,与相关国际标 准h 2 6 4 相比,兼顾了编码效率和实现复杂度,便于应用推广。a v s 编码技术的 研究,对于我国相关产业领域的长远发展具有重要意义。 视频编码的实时实现对处理器的计算能力和资源提出了很高的要求。通用处 理器不适于做计算复杂度高度集中的运算,基于硬件实现的方案开发周期长且缺 乏灵活性。因此,目前视频编码系统通常以专用d s p 芯片作为实现平台。 本课题选用t m s 3 2 0 d m 6 4 4 6 媒体处理器作为a v s 视频编码的硬件平台。 d m 6 4 4 6 是美国德州仪器公司推出的基于达芬奇技术的第一款产品,芯片内部集 成了高性能的d s p 核和a r m 核,还包括了视频图像协处理器等资源,适用于 视频相关系统的应用开发。 本文主要论述a v s 视频编码器在d m 6 4 4 6 平台上的实现过程。首先介绍了 视频压缩的基本原理和a v s 视频编码标准的关键技术,然后针对编码过程中复 杂度较高的模块如运动估计和模式选择,进行了算法简化和优化,在编码性能损 失可以接受的情况下大大降低了算法的实现复杂度。随后,对d m 6 4 4 6 平台的特 点和各种软件优化方法进行了介绍和总结,设计了a v s 编码器的整体框架和数 据流程,优化了编码各模块的实现流程,优化后的程序运行速度明显提高。 经过算法和平台的优化后,最终在d m 6 4 4 6 平台上实现了a v s 视频编码器。 目前,该编码器对c i f ( 3 5 2 2 8 8 ) 视频序列的编码速度在3 0 帧每秒以上,对 d 1 ( 7 2 0 x 5 7 6 ) 视频序列的编码速度在1 0 帧左右。与选项全开的原参考代码相 比,在码率相同的情况下亮度p s n r 下降了0 5 o 9 d b 左右。 关键词: a v s ,数字视频,编码器,d m 6 4 4 6 ,d s p a b s t r a c t w i t ht h ec o n t i n u o u si n n o v a t i o no fi n f o r m a t i o nt e c h n o l o g ya n dt h eg r e a td r i v e f r o md e m a n d so ft h es o c i e t y , i n d u s t r ya p p l i c a t i o n so ft h ed i g i t a lm e d i at e c h n o l o g y h a v eb e e nd e v e l o p i n gf a s ta n dd e 印l y v i d e oc o m p r e s s i o nc o d i n gi st h em o s t i m p o r t a n tt e c h n o l o g y i nv i d e o a p p l i c a t i o n s s u c ha sv i d e om o n i t o r i n g ,v i d e o c o n f e r e n c e ,e t c a l r e a d yh a st h e r eb e e nas t r o n gi n d u s t r yb a s i so ft h ev i d e oa p p l i c a t i o n f i e l di no u rc o u n t r y ,m o s te n t e r p r i s e sa r es t i l le n s l a v e dt ot h ep a t e n t h o l d e ra b r o a dd u e t ot h el a c ko fc o r ev i d e oc o d i n gt e c h n o l o g i e s a v sv i d e oc o d i n gs t a n d a r d ,p r o p o s e d b yt h ea u d i oa n dv i d e oc o d i n gs t a n d a r d i z a t i o ng r o u p ,w a sa p p r o v e dt ob en a t i o n a l s t a n d a r di n2 0 0 6 a si ts u c c e s s f u l l ya c h i e v e sab a l a n c eb e t w e e nc o d i n ge f f i c i e n c ya n d i m p l e m e n t a t i o nc o m p l e x i t y , a v sf a c i l i t a t e st h ee x t e n d i n go fv i d e oa p p l i c a t i o n s t h e r e f o r e ,i ti ss i g n i f i c a n tf o rt h el o n g t e r md e v e l o p m e n to fc o r r e s p o n d i n gi n d u s t r y f i e l d si no u rc o u n t r yt os t u d yt h ec o d i n ga l g o r i t h mi na v ss t a n d a r d t h er e a l t i m ei m p l e m e n t a t i o no fv i d e oe n c o d e rh a sah i g hd e s i r e m e n tf o rt h e c o m p u t a t i o na b i l i t ya n dr e s o u r c ea m o u n to fap r o c e s s o lg e n e r a lp r o c e s s o r sl i k et h e p c ,i sn o ts u i t a b l ef o ro p r a t i o n sw i t hh j l g hc o m p l e x i t y p r o j e c tb a s e do nh a r d w a r e d e s i g nn e e d sal o n gd e v e l o pp e r i o da n d l a c k sf l e x i b i l i t y t h e r e f o r e ,as p e c i f i cd s pi s u s u a l l ye m p l o y e dt od e s i g nv i d e oc o d i n gs y s t e m i nt h i st h e s i s ,t m s 3 2 0 d m 6 4 4 6 , w h i c hi sd e v e l o p e db yt i ,i su s e da st h eh a r d w a r ep l a t f o r mo fa v se n c o d e r d m 6 4 4 6 i st h ef i r s tp r o d u c t i o nb a s e do nd a v i n c it e c h n o l o g yi n t e g r a t e dw i t hh i 曲p e r f o r m a n c e d s pc o r e ,a r mc o r ea n dv i d e oc o p r o c e s s o r , m a k i n gi taf e a s i b l es c h e m ef o rv i d e o a p p l i c a t i o n s t h i st h e s i sf o c u s e so nt h ei m p l e m e n t a t i o no fa v se n c o d i n go nd m 6 4 4 6 a tt h e b e g i n n i n g ,t h e r ei sab r i e fi n t r o d u c t i o no fv i d e oc o m p r e s s i o np r i n c i p l e sa n dt h ek e y c o d i n ga l g o r i t h m si na v ss t a n d a r d a f t e r 出a as e c t i o no fa l g o r i t h mo p t i m i z a t i o na n d s i m p l i f i c a t i o nf o rh i 曲c o m p l e x i t ym o d u l e si sd e l i v e r e d ,f o l l o w e db yad i s c u s s i o no f 也ed m 6 4 4 6p l a t f o r ma n ds o f t w a r eo p t i m i z a t i o nm e t h o d s i nt 1 1 ee n d , 也e r ei sa d e p i c t i o no ft h ed e t a i l e dd e s i g nf o rt h ew h o l ea v se n c o d e ra n de a c hc o d i n gm o d u l e , w h i c hm a k e st h ec o d e sr u nf a s t e r t h ee n c o d e rc a nr u na tar a t eo fm o r et h a n3 0f p s f o rc i fs e q u e n c e sa n da b o u t10 币sf o rd 1 s e q u e n c e s ,w i t hao 5 o 9d bl o s eo f l u m a p s n rc o m p a r e dw i t l lt h er e f e r e n c ec o d ea tt h es a n l eb i tr a t e k e y w o r d s :a v s ,d i g i t a lv i d e o ,e n c o d e r , d m 6 4 4 6 ,d s p 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得苤盗苤堂或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 学雠文储虢懈哄签字嗍抄1 年f 月。日 学位论文版权使用授权书 本学位论文作者完全了解墨鲞盘鲎有关保留、使用学位论文的规定。 特授权墨盗盘堂可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名: 签字日期:p 7 年 一彳名毒 f 石月相 导师签名: 蝴辄吖年 l 6 月日 第一章绪论 1 1 引言 第一章绪论 近二十年来,随着社会进步和经济增长,信息化已经深刻影响了人类的社会 形态。在半导体、通信、存储、计算机等技术取得革命性突破并且紧密融合的基 础上,数字多媒体技术得以迅猛发展。其中最有代表性的便是数字视频技术的相 关应用,如数字广播电视、视频监控、网络流媒体、无线多媒体通信等,在市场 需求的带动下不断拓展。 数字视频信号相比于模拟信号,主要优点在于传输、处理、存储过程中失真 小,噪声低,并便于加密和校正。而主要缺点是数据量过大,对带宽和处理能力 要求极高。例如,一幅标准清晰度的原始图像( 7 2 0 x 5 7 6 ,2 4 位色) 要占用1 2 m b 的空间,按每秒3 0 帧计算,一部两小时的电影大约需要2 5 4 g b 的存储空间,相 当于5 4 张4 7 g bd v d 光盘的容量。对于有限的传输带宽和存储资源来说,这样 的数据量是无法接受的,必须在保持足够质量的前提下,进行大幅压缩。 视频压缩,也称为视频压缩编码,是数字多媒体领域的关键技术,也是当前 国内外的研究热点之一。随着各种视频压缩编码算法的提出,国际各标准化组织 先后制定了一系列面向不同应用的视频编码标准,主要有用于视频光盘( v i d e o c o m p a c td i s c ,v c d ) 存储的m p e g 1 标准【l 】;用于数字通用光盘( d i g i t a lv e r s a t i l e d i s c ,d v d ) 和数字电视广播( d i g i t a lv i d e ob r o a d c a s t ,d v b ) 的m p e g 2 标准 【2 】;用于视频会议的h 2 6 1 h 2 6 3 标准【3 】【4 】;以及基于对象编码的m p e g - 4 标准【5 】; 目前国际上倍受关注的视频编码标准是国际标准化组织( i n t e r n a t i o n a ls t a n d a r d o r g a n i z a t i o n ,i s o ) 和国际电信联盟( i n t e r n a t i o n a lt e l c o m m t m i c a t i o nu n i o n ,i t u ) 联合研发的h 2 6 4 a v c 标准f 6 】。 我国在音视频产业领域已经具备较强的产业基础,但由于没有掌握核心技 术,相关企业长期受制于国外持有标准专利与技术的企业和组织。为适应产业发 展的需要,我国在2 0 0 2 年6 月成立了音视频编解码技术标准化工作组,提出了 具有自主知识产权的数字音视频编码标准( a u d i ov i d e oc o d i n gs t a n d a r d ,a v s ) , 包括系统、视频、音频、数字版权管理等主要技术标准。a v s 视频是其中的第二 部分,也称a v s p 2 ,已于2 0 0 6 年被批准颁布为国家标准【7 1 。a v s 视频是面向高 分辨率视频的新一代编码标准,与h 2 6 4 相比,兼顾了编码效率和编码复杂度, 苎二要堑堡 在我国数字电视广播、网络电视等领域具有广阔的产业应用前景。 1 2 视频压缩编码的基本原理 原始的视频数据含有大量的冗余信息,遮是能对其进行几十倍甚至上百倍压 缩的原崮所在。视频压缩编码就是去除这些冗余的过程。研究数字视频信号的特 征是进行视频压缩的前提。 1 2 1 视频信号的冗余特性 研究表明,视频的冗余信息可分为:空域冗余,时域冗余,统计冗余必及心 理视觉冗余四部分“。 空墟兄余,是指一幅图像内部经常存在大量内容相似的区域,在空间上具有 很强的耜关性如图l l 所示。图i - i 中,( a ) 为原始蹰缘,( b ) 为留像的灰度直 方图,( c ) 为图像相邻像素闻差值的分布图。可以看出,( c ) 中的数据大多集中 在零值附近,说明一般图像的区域内相邻像素问变化是比较缓慢的。 ( a ) ( 0 图1 1 1 空域冗余圈 时境冗余,是指在时阃上连续的图像之间的内容变化不大,具有很强的相关 性。如图1 2 所示。图1 - 2 中- ( a ) 和( b ) 是时间连续的两帧图像,( c ) 是二者的 差值图像可以看出,( c ) 中大部分为接近于黑色即零值附近,说明一般视频序 列的相帮帧之间的差别不大。 第章绪论 ( 时 圈1 - 2 时域冗余图 统计冗余,是指在信息论中对出现概率高的信元以短码字表示,对出现概 率低的信元以长码字表示,能够有效降低信号传输所需的平均比特数,从而实现 数据压缩的目的。图像信号是随机信号,利用信息论中的统计编码理论能够有效 去除图像信号的统计冗余,从而实现数据压缩。 心理视觉冗余,是指人眼视觉系统( h u m a n v i s u a ls y s t e m ,h v s ) 是一个精 密系统,但不是一个精确系统。它对图像的亮度、色度、空间、时间、以及频率 等特性的分辨能力都有一定的限度,如表1 1 所示。 表l - ih v s 主要特性 h v s 特性简要说明 亮度敏感性人眼对不同亮度区域的噪声敏感程度不同。一般人眼对较亮或较 暗区域的噪声不易察觉,而对中等灰度区域的噪声较为敏感。 色度被感性人眼对色彩空间中的亮度较为敏堪对色度信息不太敏感因此 降低色度信号的采样谜率能大大降低数据量。 纹理敏感性平坦区域与纹理丰富区域相比,其噪声更能引起 眼的注意,因 此通常可啦肘纹理丰富的区域采取较租量化。 空问频率敏感性与纹理敏感性相似, 眼对图像中的边缘细节、纹理等在变换域 表现为高频信息的区域不太敏感,可卧丢弃部丹高频分量。 时间频率敏感性由于视神经传输给太脑的视觉信息的处理需要一定的时问延迟, 因此人眼具有视觉暂留作刚因此图像刷新频率在4 8 h z 或更高 时人眼就认为是连续运动的图像。 1 2 2 视频压缩编码的基本工具 通过分析视频信号的冗余特性,就能有针对性的利用各种工具去除相关冗 余,实现数据压缩。目前的视频编码标准主要采用了以下技术来消除) c 余: 第一章绪论 空间下采样 如上所述,人眼视觉系统对亮度的敏感度要大于色度,因此对色度信号进行 下采样,能在不改变图像主观效果的情况下,有效降低编码数据量。在y c b c r 空间内,对亮度信号y 、色差信号c b 、c r 按照4 :2 :2 格式进行采样,即水平方向对 色差信号做1 2 采样,与4 :4 :4 全采样格式相比,能降低三分之一的数据量;如果 在水平和垂直方向都对色差信号做1 2 采样,即按照4 :2 :0 格式,能降低二分之一 的数据量,同时图像主观质量保持不变。图1 3 是三种格式的具体采样位置。 o 0 9 o o9 o o圆oo 圆 oo o o oo o p p 0 o p o o o o 0 o 圆oo o o o oo o o o o oooo 9 o 4 :2 :2 o 亮度x 色度 图1 - 3 图像采样格式 o0 o o o o 苓o ooo o o o o ooo oo o ooo 预测编码 由于空域冗余和时域冗余的存在,视频图像的每个像素都可以通过空间或时 间上相邻像素间的预测来得到,传送差值来消除冗余。视频预测编码技术分为帧 内预测( i n t r a - p r e d i c t i o n ) 和帧间预测( i n t e r - p r e d i c t i o n ) 两种。 帧内预测是为了消除图像的空域冗余信息,用当前编码单元空间上的相邻信 息预测当前编码单元。帧间预测消除了图像的时域冗余信息,用当前编码单元前 时间上的相邻信息预测当前编码单元。当图像内容比较相似时,帧内预测编码的 效率较高。当时间连续的图像内容比较相似时,帧间预测编码的效率较高。帧间 预测根据预测方向又被分为前向预钡t j ( p r e - p r e d i c t i o n ) 和双向预钡l j ( b i - p r e d i c t i o n ) 。 采用帧内预测编码的帧图像被简称为i 帧,采用前向预测编码的帧图像被简称为p 帧,采用双向预测编码的帧图像被简称为b 帧。 在基于块匹配的编码系统中,对编码单元( 一般为1 6 1 6 或更小的像素块) 进行预测时,一般用绝对差值和( s u mo fa b s o l u t ed i f f e r e n c e s ,s a d ) 或者平均 绝对差值( m e a na b s o l u t ed i f f e r e n c e s ,m a d ) 衡量预测值与原始值的相似度, 实际值与预测值的s a d 或m a d 值越小,实际值与预测值越相似。 s a d 的定义为: j l s a d = ( p i a ) ( 1 - 1 ) i - - - 0 m a d 的定义为: 第一章绪论 m a d - - - ( p i - 3 i ) n ( 1 - 2 ) i = 0 预测编码的基本流程如图1 4 所示。在预测编码中,最终传送的不是原始像 素值,而是预测后原始值与预测值的残差值。残差消除了图像在时域或空域上的 冗余信息,一般值都比较小,只需要以较少的比特数进行传输,就能够在解码端 利用和编码端相对应的预测方法重构出原始图像,从而降低码率,实现视频图像 的大幅度压缩。 帧内预测 图l _ 4 视频预测编码流程 变换编码 与帧内预测相比,去除图像空域冗余更有效的方法便是变换编码。通过多维 坐标系适当的正交旋转变换,能够把散布在各个原坐标轴上的图像数据集中到新 的坐标系中少数坐标轴上。由于正交变换的特性,变换系数间彼此独立,从而实 现了数据的去相关。同时,图像数据从空域映射到变换域,如频域后,能量会集 中在低频的变换系数中,然后利用人眼视觉系统对高频信号不敏感的特点,尽量 将高频系数量化为零,产生长零串,就有利于消除熵编码冗余。 正交变换在编码端进行正变换,或称前向变换,在解码端进行反交换,或称 后向变换。设x 为原始数据矩阵,彳为变换矩阵,y 为变换系数矩阵,为单位 矩阵,则正变换为: y = a x a r( 1 - 3 ) 反变换为: 4 1 研彳r 】= a 一1 a x a l 彳r 】一1 = 上船= x ( 1 - 4 ) 正交变换的种类很多,如傅立叶( f o u r i e s ) 变换,k l 变换,沃尔什( w a l s h ) 变换,离散余弦变换( d i s c r e t ec o s i n et r a n s f o r m ,d c t ) ,离散小波变换( d i s c r e t e w a v f o r mt r a n s f o r m ,d w t ) 等。理论上,k l 变换是利用编码对象的统计特性即 协方差矩阵,进行对角化的过程。它能完全消除数据块内像素间的线性相关性, 第一章绪论 是统计最优的正交变换。但需要计算输入矩阵的协方差,所以计算复杂度非常高, 一般只作为理论上的参考,没有得到实际应用。目前应用于视频编码的变换主要 是d c t 和d w t 。 d w t 是一个空域和频域的局部区域变换,能够对信号局部特征进行有效分 析,主要用于视频的子带分级编码。它根据不同的应用要求,将图像从低频到高 频分成若干层,在保证基本层码流可以被正确解码的同时,可以根据带宽和解码 情况,通过增强层的传输,动态调整图像质量。 由于图像数据是二维的,相应二维d c t 的变换公式为: 脚= 赤嘶) c ( v ) m 丕- i 丢n - i 砌c o s 芝笋一( 2 n 撕+ 1 ) v n 一 , u = 0 ,m - 1 ,v = 0 ,n - 1 , 一以垆臀1 苫 5 , l其它 以8 8 变换为例,变换核用矩阵表示为: 1 a = 4 8 1l1 1 压c o s 三压c o s 旦压c o s 堑压c o s 三堑 1 61 61 61 6 压c o s 卫压c o s 三堡压c o s 三堑压c o s 一1 0 5 n - 1 61 61 61 6 ( 1 - 6 ) 由于州r = ,所以彳是正交变换,分别代入式( 1 3 ) 、( 1 - 4 ) 就是相应的8 8 块d c t 正变换与反变换过程。 d c t 在基于块编码的主流视频编码标准中得到了广泛应用,在常见的变换中 其性能最接近于k - l 变换。d c t 系数的能量大部分集中在左上角的低频区域,如 图1 - 5 所示,这种分布特征能有效提高熵编码的编码效率。 1 为1 8 41 l 粥1 9 4 1 9 2l 妮l 勉 i 1 8 l 舵 i 田l 粥1 9 i 1 9 4i 箔 l 1 1 8 11 匏1 泓 l 田l 粥 1 9 9 1 7 8 1 7 4l 似1 7 5l l 笛1 7 5 1 7 7 l 加1 7 11 衡l 钳1 8 51 7 51 7 2 1 8 1 1 诏1 酊1 7 01 侣 1 7 8 1 8 11 7 9 1 7 7 1 6 5 1 6 7 1 6 5l 醢 1 7 4 1 7 11 茌 1 8 l l l 品l 品l 耍1 晓l 国 1 7 21 7 5 8 x 8 d c t 亡= = = = = 0 1 4 3 0花 4 14402 6 42941033 07366040 73 1 6 351 2 1 1 28821141 30022020 3 - d 20 4 630 54 1 1 0 4 132 图1 5d c t 的能量集中特性 第一章绪论 为了达到数据压缩的目的,需要对d c t 系数进行量化处理。根据变换系数的 分布特征,以及人眼视觉系统对高频信息的不敏感性,可以采取适当的量化步长 ( q u a n t i z a t i o ns t e p ,q s ) ,减少高频非零系数的个数,降低比特消耗。因此,量 化是种有损压缩技术,量化后的视频图像不能够完全重建,原始图像与重建图 像之间的不同称为失真( d i s t o r t i o n ) 。失真是量化步长的函数,量化步长越大, 量化后的非零系数越少,视频压缩率越高,但重建图像失真越大。所以,图像质 量和压缩率是相互矛盾的,可以通过在量化阶段调整量化步长,来平衡视频编码 码率和编码图像质量。 统计编码 统计编码又被称为熵编码,是以信号的统计特性为基础的无损压缩技术。通 过统计待编码符号的出现频率,为出现频率高的符号分配较少的比特,为出现频 率低的符号分配较多的比特。这种变长码字编码的方式可以在统计意义上使平均 编码比特数接近香农第一定理,即无失真信源编码定理给出的熵。 目前主要有两种统计编码方法,一种是变长编码( v a r i a b l el e n g t hc o d i n g , v l d ) ,另一种是算术编码( a r i t h m e t i cc o d i n g ) 。变字长需要事先统计出信源的 概率分布,其中霍夫曼编码( h u f f m a nc o d i n g ) 和指数哥伦布编码( e x p o n e n t i a l g o l o m bc o d i n g ,e g c ) 在视频编码标准中应用较广。算术编码则是用一个 0 ,1 ) 区间的浮点数值表示一个信源符号流,与变长编码相比可以更接近信源熵。待编 码的信源符号流首先被表示成 o ,1 ) 区间中的一个数值间隔,该间隔随着符号流 中每一个信源符号的加入而逐步减小,每次减小的程度取决于当前加入的信源符 号的先验概率。先验概率高者减小的程度低,表示它只需在原有基础上增加较少 的比特:先验概率低者减小的程度高,表示它需要在原有基础上增加较多的比特。 可见,算术编码能够根据信源统计特性,对未知概率模型的数据进行自适应编码, 其代价就是过高的计算复杂度。 1 3 视频编码标准概述 国际上,视频编码标准主要由两大组织制定,分别是国际电信联盟 ( i n t e m a t i o n a lt e l e c o m m u n i c a t i o nu n i o n ,i t u t ) 的视频编码专家组( v i d e o c o d i n ge x p e r tg r o u p ,v c e g ) 和国际标准化组织( i n t e r n a t i o n a ls t a n d a r d o r g a n i z a t i o n i n t e r n a t i o n a le l e c l r o t e c l m i c a lc o m m i s s i o n ,i s o i e c ) 的运动图像专 家组( m o v i n gp i c t u r ee x p e r tg r o u p ,m p e g ) 。前者主要制定面向视频通信领域 的编码标准,如视频电话、视频会议等应用;后者则专门制定多媒体领域内的相 关标准,主要应用于存储、广播电视和网络流媒体等。在国内,原信息产业部组 第一章绪论 织成立的a v s 工作组( 即m p e g 。c h i n a ) 专f - l n 定适用于我国的数字视频编码标 准。各视频编码标准均经历了一个从初级到高级不断完善的发展过程1 1 1 ,如图 1 - 6 所示。 l e g 标准 口e g 1m p e g - 4 n u - t m p e gh 2 6 2 h 2 6 4 , 联合标准 n 即e ( 扣2m 口e g a v c 1 9 8 41 9 8 81 9 9 21 9 9 62 0 0 02 0 0 42 0 0 8 图1 - 6 视频编码标准的发展 各主要视频编码标准的整体框架相类似,均使用了基于块匹配的预测编码、 变换编码和统计编码相结合的混合编码架构,以h 2 6 4 为例,如图1 7 所示1 们。 臣母( 卜辞匮母 图1 7h 2 6 4 混合编码框架 编码 一 比特流 编码包括前向和后向两个通道。在前向通道,输入帧以宏块为基本编码单元 进行预测、变换、量化和熵编码。帧内预测时,预测值由当前帧去块效应滤波之 前的已编码宏块的相关像素产生,帧间预测时,预测值由参考帧,即已经编码并 第一章绪论 去块效应滤波后的重建帧,进行运动估计产生。由预测值和原始值相减得到预测 残差,然后再对残差进行d c t 变换以去除相关性,进而对变换系数量化以减少 高频非零系数,最后将排序后的量化系数和其它编码参数如运动矢量等进行熵编 码,形成编码码流。在后向通道,也称重建通道,对量化系数进行反量化、反变 换得到残差,与预测值相加得到重建值,最终经去块效应滤波得到重建帧,作为 下一帧编码的参考帧。 h 2 6 1 1 1 2 6 3 和m p e g - 1 2 4 h 2 6 1 是第一个面向低延迟视频通讯应用的国际编码标准。它以1 6 1 6 宏块 为基本编码单元,运动估计和补偿都是基于整像素精度的块匹配算法。预测残差 进行浮点d c t 、量化、游程编码和二维变字长熵编码。h 2 6 1 只支持帧编码,不 支持场编码。m p e g 1 在h 2 6 1 的技术之上,增加了b 帧编码,运动估计和补偿精 度也提高n - 分之一像素精度,这些技术使m p e g 1 的压缩效率高于h 2 6 1 。 m p e g 2 在m p e g 1 的技术基础上,增加了场编码技术,提高了隔行视频的 压缩效率。增加了帧内块的直流系数预测技术,提高了帧内编码的效率。此外, m p e g 2 还支持可分级编码,即空域分级,时域分级、s n r 分级及数据分割四种。 m p e g 2 标准中定义了档次( p r o f i l e ) 和级别( l e v e l ) ,通过档次和级别来说明解 码器的解码能力,使m p e g 2 标准成为规范的行业标准,广泛应用于数字广播电 视和数字存储等领域。 h 2 6 3 的运动估计和补偿基于二分之一像素精度的1 6 1 6 和8x8 块,采用重 叠块运动补偿技术( o v e r l a p p e db l o c km o t i o nc o m p e n s a t i o n ,o b m c ) 和无限制 运动矢量模式( u n r e s t r i c t e d m o t i o n v e c t o r s ) 提高运动预测的精确度;引入运动 矢量预测技术,去除运动矢量的相关性,提高编码效率;在熵编码部分使用三维 v l c 编码技术,提高了熵编码效率。h 2 6 3 有两个增强版的标准h 2 6 3 + 和h 2 6 3 + + , 增加了多参考帧和环路滤波等技术,提高了预测精度和图像质量。 m p e g 4 标准的制定目标是提供更灵活的视音频交互功能,因此采用了基于 对象( v i d e oo b j e c tp l a n e ,v o p ) 的编码技术,分别对视频对象的轮廓、纹理及 运动信息进行编码。由于对象模型的建立不具有普遍性,在m p e g - 4 中,只有s p ( s i m p l ep r o f i l e ) 和a s p ( a d v a n c e ds m p l ep r o f i l e ) 档次得到实际应用,二者没 有采用双向预测及场编码,技术细节与h 2 6 3 类似。 h 2 6 4 a v c 和a v s 2 0 0 1 年,m p e g 和i t u t 两大组织合作成立了联合视频组( j o i n t v i d e ot e a m , t ) ,致力于进一步提高编码效率并为视频流在各种网络上的传输提供更好的 适应性。2 0 0 3 年,n ,t 制定了新的视频编码标准,在i t u t 中被命名为h 2 6 4 标准, 在i s o i e c 中被命名为a v c ( a d v a n c e dv i d e oc o d i n g ) ,被m p e g - 4 标准采纳为第 第一章绪论 十部分。 h 2 6 4 的编码框架与之前的编码标准类似,但采用了一系列的先进技术,获 得了很高的压缩效率。主要技术包括:运动估计和补偿基于1 4 像素精度的可变 块,从1 6 1 6 至4 4 不等;变换部分采用整数d c t 变换,解决了编解码端的精度 失配问题;采用多参考帧技术,提高了运动估计的精确度;采用多方向空间预测, 提高了帧内编码效率;采用环路滤波去除块效应,提高运动补偿效果;采用基于 上下文的自适应变长编码( c o n t e x t - b a s e da d a p t i v ev l c ,c a v l c ) 或基于上下文 的自适应算术编码( c o n t e x t b a s e da d a p t i v eb i n a r ya r i t h m e t i cc o d i n g ,c a b a c ) , 提高统计编码效率。实验结果表明,h 2 6 4 的编码码率比m p e g - 4 a s p 档次要平均 节省4 0 左右,比m p e g 2 要平均节省6 4 左右【1 2 】。 为支持国内多媒体产业的发展,a v s 工作组制定了a v s 视频编码标准,即 a v s p 2 ,其基准档次( j i z h u np r o f i l e ) 于2 0 0 6 年3 月被批准为国家标准,本文后 续章节所提到的a v s 标准特指a v s p 2 基准档次。a v s 以h 2 6 4 技术为基础,针对 较高分辨率( 标清,高清) 的视频序列编码,通过创新,克服了h 2 6 4 以高复杂 度换取高编码性能的缺点,在压缩效率相当的前提下,其编码复杂度较h 2 6 4 大 为降低,并有效保持了视频编码质量【1 3 1 。因此,相对而言,a v s 更有利于实时编 码系统的设计与实现。a v s 编码标准的具体关键技术将在下一章详细介绍。 1 4 课题的研究意义 如上所述,a v s 视频编码作为我国具有自主知识产权的数字视频压缩标准, 是综合算法性能和实现复杂度进行实际应用的适中选择。此外,a v s 标准的优势 还在于自主性,从而使得专利费用较低,专利许可方便,作为国家标准受到相关 政策的支持。因此,随着我国视频应用的深入发展和市场需求的不断增长,a v s 在数字电视广播、视频监控、网络电视等领域具有广阔的应用前景。 由于a v s 是国内标准且推出时间较短,国外对a v s 视频编码标准限于跟踪 阶段,目前主要是国内的研究机构在开展相关研究,且多集中于解码器的实现, 对编码的研究并不充分【m j 。本文从工程实现的角度对a v s 视频编码算法进行 研究和优化,有助于a v s 视频编码标准的推广和应用。 1 5 本论文的任务和结构 本文的任务着重于在t id m 6 4 4 6 开发平台上实现和优化a v s 视频编码器, 力求在获得较好的视频编码质量的同时达到或接近d 1 图像分辨率( 7 2 0 5 7 6 像 第一章绪论 素级) 下的实时编码。由于a v s 视频标准只规定了解码器如何得到解码图像, 对编码器如何实现不作限制,因此编码算法具有一定的灵活性。本文在深入分析 a v s 标准的基础上,根据实现要求对编码算法做出相应的简化和优化,最终移植 到d m 6 4 4 6 平台上,利用各种优化方法提升编码性能。本文参考代码为a v s 工 作组发布的r m 5 2 i 版本,后续章节中所提到的参考代码均指该版本。 本文共有六章。第一章绪论,简单介绍视频压缩编码技术及国内外相关编码 标准的发展;第二章主要讨论了a v s 视频编码标准的关键技术,包括帧间预测、 帧内预测、变换量化、熵编码和环路滤波等;第三章论述了对a v s 编码器的算 法研究,以及对码率控制等模块所做的优化和修改工作;第四章介绍了t i d m 6 4 4 6 平台的软硬件开发环境,总结各种软件优化方法:第五章是本文的重点, 详细介绍了a v s 编码器的设计实现,包括整体框架的设计、存储空间分配和主 要模块的优化;第六章对全文进行了总结和展望。 第二章a v s 视频编码标准 第二章a v s 视频编码标准 本章主要介绍a v s 视频编码标准。首先,介绍a v s 标准的编码原理,包 括编码比特流结构和编码基本框架。然后介绍a v s 标准中采用的关键技术, 包括预测、变换和熵编码等模块。 2 1a v s 视频编码原理 a v s 标准与之前的视频编码标准类似,也是采用了图卜7 所示的基于宏块的 混合编码框架。其基本原理仍是通过预测编码、变换编码和统计编码柬消除视频 序列的冗余信息,实现数据的压缩。 2 1 1a v s 的比特流结构 a v s 支持4 :2 :0 采样格式的视频图像,亮度和色度样本位置如图1 3 所示。 视频序列中的一幅图像被称为一帧,每一帧数据按照时间顺序依次是亮度矩阵 y 、色度矩阵c b 和c r ,c b 和c r 的大小均是y 的四分之一。 a v s 标准定义了三种图像:帧内编码图像( 简称为1 帧) 、前向帧间编码帧 ( 简称为p 帧) 和取向帧间编码帧( 简称为b 帧) 。p 帧或b 帧的参考帧最多为 两帧运动矢量所指的参考像素可以超出参考图像的边界( 亮度1 6 个像索色 度8 个像素) 。每帧图像可以分为若干条带,每个条带由按光栅扫描顺序连续的 若干宏块行组成,如图2 - 1 所示。条带间不应重叠,且独立编码。 _ _ _ _ _ _ _ 囤_ _ _ _ _ _ 一 0 _ 图2 - 1 图像条带结构 第二章a v s 视频编码标准 a v s 标准中,每帧图像按1 6 1 6 的宏块进行划分,每个宏块包括4 个8 8 的亮度块y 和2 个8 8 的色度块c b 、c r 如图2 - 2 所示,图中数字表示8 8 于块的索引。 2 1 2a v s 的编码框架 田口口 图2 - 28 x 8 块划分( 4 :2 :o 格式 a v s 编码器的结构框架如圈2 3 所示。编码分为前向和后向两个过程。前向 过程经过预测、整数变换、量化和熵编码将视频数据压缩成用于传输或存储的比 特流。后向过程是将量化后的变换系数经反量化、反变换,生成当前帧的重构, 作为下一帧前向过程中运动估计和补偿的参考帧。可以看出,编码器中实际上包 含了解码器中除熵解码的大部分模块,即图2 3 中间环路部分。环路滤波用于去 除块效应,改善参考帧质量,滤波后的重建图像与解码得到的图像是完全一致的。 靼2 - 3a v $ 枧频编码框架 第二章a v s 视频编码标准 2 2a v s 视频编码关键技术 与h 2 6 4 编码标准相比,a v s 标准在上述混合编码框架中的各关键技术模块 中都引入了新的技术,从而兼顾了编码效率和编码复杂度。下面就对这些关键技 术进行详细介绍。 2 2 1 帧内预测 帧内预测是利用已知的相邻值来预测当前值,然后对当前实际值和预测值的 差进行编码,以去除图像空域冗余。 在a v s 标准中,帧内预测以8 8 块为单位,在空间域进行。以未经环路滤 波的当前重建帧同一条带内邻近的左边和上边已编码的像素值来预测当前块的 像素值。为了更好的适应图像的纹理特征,a v s 规定了9 种帧内预测模式,从中 选择最佳的预测模式进行编码。其中,亮度有5 种模式,分别是d c 、水平、垂直、 下左、下右,如图2 - 4 所示;色度有4 种模式,d c 、水平、垂直、p l a n e ,前三种与 亮度相同,p l a n e 是用水平、垂直所有相邻像素来预测当前像素,适用于平坦区域。 0i ,2 。345 67g+ 9f 1 0 l il1 2 1 1 31 1 4 1 1 51 6 l l 一 3 一 4 uc i 。下左 p 叶

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论