(信号与信息处理专业论文)avs视频编码中关键技术的研究.pdf_第1页
(信号与信息处理专业论文)avs视频编码中关键技术的研究.pdf_第2页
(信号与信息处理专业论文)avs视频编码中关键技术的研究.pdf_第3页
(信号与信息处理专业论文)avs视频编码中关键技术的研究.pdf_第4页
(信号与信息处理专业论文)avs视频编码中关键技术的研究.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(信号与信息处理专业论文)avs视频编码中关键技术的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 a v s 视频编码中关键技术的研究 硕士研究生马骏导师邹采荣教授 东南大学无线电工程系 在过去1 0 年左右的时间里,多媒体技术得到了长足的发展。今天,视频处理已 经处于多媒体的核心地位。但是巨大的数字视频数据量,已经成为视频处理的瓶颈。 正因如此,视频压缩编码及标准化已成为当今视频处理发展的关键问题。 我国于2 0 0 2 年6 月成立了“数字音视频编解码技术标准工作组”,联合国内从事 数字音视频解码技术研发的科研机构和企业,制定具有我国自主知识产权的数字音 视频编解码标准a v s 标准。 本文针对a v s 视频标准中的复杂度较高的运动估计和整数d c t 变换进行了深入的 研究。由于视频序列图像在时间轴上具有较强的相关性,运动估计( m e ) 及运动补偿 f m c ) 技术可以有效的减少时间相关性,因此本文提出了将预测模式选择与菱形搜索 相结合的搜索算法,精简了预测模式。 离散余弦变换d c t ( d i s e r e t ec o s i n et r a n s f o r m ) 是视频压缩编码的重要技术之一, 在h 2 6 4 标准中,提出了针对4 4 块的整数d c t 变换。通过试验表明,基于8 8 块的 视频压缩编码效率要高于基于4 4 块的视频编码效率,为了回避h 2 6 4 的专利技术, 本文提出了基于8 8 块的d c t 变换技术。这种变换技术利用整数的加法和移位代替 传统的乘法运算,降低t d c t 变换实现的复杂性,提高了运算速度和画面质量,避 免了数据漂移和不匹配问题。 关键词:h 2 6 4 ;a v s :整数离散余弦变换;运动估计;量化 a b s t r a c t a b s t r a c t r e s e a r c h e so nk e yi s s u e sb a s e do na v sv i d e oc o d i n g c a n d i d a t e :m aj u n ,s u p e r v i s o r :p r o f e s s o rz o uc a i r o n g d e p a r t m e n to f r a d i oe n g i n e e r i n g , s o u t h e a s tu n i v e r s i t y , c h i n a i nt h ep a s t1 0y e a r s ,m u l t i m e d i at e c h n o l o g yg o tt h er a p i dd e v e l o p m e n t v i d e op r o c e s s i n gh a sb e e np l a c e di nt h ec o r ep o s i t i o no fm u l t i m e d i a b e c a u s eo ft h el a r g ea m o u n to ft h ed a t ai nav i d e os e q u e n c e i tr e s t r i c t st h e d e v e l o p m e n to fv i d e op r o c e s s i n g d i g i t a lv i d e oc o d i n ga n d i t s s t a n d a r d i z a t i o na r et h ek e yt e c h n o l o g i e so f v i d e op r o c e s s i n g a v sv i d e os t a n d a r di sd e v e l o p e db yt h ea u d i ov i d e oc o d i n gs t a n d a r d w o r k i n gg r o u po fc h i n a w h i c hw a sa p p r o v e di nj u n e2 0 0 3 a v sw o r k i n g g r o u ph a sf i n i s h e dt h ef i r s tv e r s i o no fa v sv i d e os t a n d a r di n2 0 0 3 a v s v i d e os t a n d a r dp r o v i d e sag o o dt r a d e - o f fs o l u t i o nb e t w e e nc o m p l e x i t ya n d c o d i n ge m c i e n c y t h i sd i s s e r t a t i o nf o c a s e so nt h es t u d yo fi st h ek e y t e c h n o l o g yo f a v sv i d e os t a n d a r d a sar e s u l t ,v i d e os e q u e n c eh a sr a t h e rr e l a t i v i t yo nt i m ea x i s m o t i o n e s t i m a t i o na n dm o t i o nc o m p e n s a t ec a nr e d u c et h i sr e l a t i v i t ye f f e c t i v e l y , a s ak e ym o d u l ei nv i d e oe n c o d e r , m o t i o ne s t i m a t i o ni sr a t h e rc o m p l e xi n c o m p u t a t i o n f o rt h i sr e a s o n ,f a s tm o t i o ne s t i m a t i o nh a sa l w a y sb e e na f a v o r i t et ot h er e s e a r c h e r si nt h ef i e l d d c t ( d i s c r e t ec o s i n et r a n s f o r m ) i so n eo ft h ek e yv i d e oc o m p r e s s i o n t e c h n o l o g i e s q u a n t i z a t i o nt e c h n o l o g yi sc o m b i n e dw i md c ti nt h i sp a d e l w h i c he x p l o i t sm u l t i p l yi n s t e a do fd i v i s i o n a v o i d i n gt h e d a t ao v e r f l o w a n e wq u a t i z a i t o nm e t h o di s p r o p o s e d w h i c hh a st h e v i r t u eo fd c t t e c h n o l o g ya n dq u a n t i z a t i o nt e c h n o l o g yo fh :2 6 4 e x p e r i m e n ts h o w st h a t r e s u l ti sb e t t e r k e y w o r d s :h 2 6 4 :a v s :d i s c r e t ec o s i n et r a n s f o r m :m o t i o ne s t i m a t i o n ; q u a n t i z a t i o n i i 独创性声明 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽 我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研 究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我一同工 作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 研究生签名:堡丝日期:趔:三:! ( 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件 和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文 的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权东南大学研究生院办理。 研究生签名:星丝:导师签名:碰鬓 日 期:逊! 玉压 第一章绪论 1 1 课题研究背景及意义 第一章绪论 随着互联网的飞速发展,消费类电子、通信、电视、电影、广播和计算机技术 日益紧密结合起来,计算机与通信、多媒体技术融合的趋势不可逆转,使锝基于互 联网的多媒体产业成为目前发展最快、规模最大的产业之一。众所周知,人类通过 视觉获取的信息量约占总信息量的7 0 【l 】,而且视频信息具有直观性、可靠性等一 系列优点,所以多媒体技术中一个重要的技术就是视频技术。 对于传统的模拟信号,由于其数据量大、效率低、伎输不方便、不能压缩等等 原因,最终被数字信号所代替。数字信号处理有很多的优点,为了取得高的分辨率, 必须采用高的采样率,但是这样数据量将会非常大,处理和传输的时候计算量巨大、 效率非常低。从表卜1 可知,单纯用扩大存储器容量、增加数据传输率的办法是不现 实的。 表i - i 信源信号原始数据速率 电话( 2 0 0 - 3 4 0 0 h z ) 8 0 0 0 样本数秒1 2 比特样本= 9 6 k b p s 带宽音频( 2 0 2 0 0 0 h z ) 4 4 1 0 0 样奉数秒1 6 比特,样本x 2 信道= 1 4 1 2 m b p s 图像5 1 2 x 5 1 2 像奈,图像x 2 4 比特,像素= 6 3 m 比特,图像 视频 6 4 0 x 4 8 0 像素幽像2 4 比特像素x 3 0 帧秒= 2 2 1 m b p s 高清晰度电视 1 2 8 0 x 7 2 0 像g l l l 像x 2 4 l 特,像素6 0 帧,秒= 1 3 g b p s 可见,为了便于数字视频的存储和传输,必须对数字视频进行压缩。数字视频 信号的特点决定了对其压缩的可行性,数字视频信号可以压缩的主要根据为: l 、视频信号上存在大量的冗余度并且这种冗余度在编解码后可以无失真地恢 复。视频信号的冗余度存在于结构和统计两方面”】。在结构上的冗余度表现为很强 的空间( 帧内) 和时间( 帧问) 相关性。一般情况下画面的大部分区域信号变化缓慢,尤 其是背景部分几乎不变。因此,视频信号在相邻像素间、相邻行间、相邻帧间存在 强相关性,这种相关性就表现为空间冗余和时间冗余。 2 、可以利用人的视觉特性,在图像变化不被觉察的条件下减少量化信号的灰度 级,以一定的客观失真换取数据压缩。人眼对图像的细节分辨率、运动分辨率和对 东南大学硕上学位论文 比度分辨率的感觉都有一定的界限。只是对图像处理时引入的失真不易察觉,仍会 认为图像是完好的或足够好的。因此可以在满足对图像质量一定的要求的前提下, 减少表示信号的精度,实现数据压缩。 对应地,现在广泛应用的视频压缩标准主要采用了以下技术: 用运动估计技术来去除视频序列帧间的相关性; 采用变化编码( d c t 变换p 】,整数变换等1 和a c d c 预测技术来去除视频序列 帧内的相关性: 采用游程编码,变长码编码和算术编码技术来去除符号间冗余。 以上视频压缩技术实现了对数字视频信号几十至几百倍的压缩,从而使数字视 频的存储和传输成本大大降低。表卜2 给出了几种数字视频应用的码率。 表卜2 几种常用数字视频应用的码率 应用 比特数像紊数行数帧数 亮色比 码率( 压码率( 压 类别,像素行,帧俺缩前) b p s 缩后) b p s h d t v8 1 9 2 0 1 0 8 0 3 04 :l :l 1 1 8 g 2 0 2 5 m 普通电视 87 2 04 8 03 04 :l ;l1 6 7 m4 8 m c c l l 7 , 6 0 1 会议电视 83 5 22 8 83 04 :l :l3 6 5 m1 5 2 m c i f 视频点播 s1 7 61 4 43 04 :l :19 1 m1 2 8 k o c i f 可视电话81 2 81 1 23 04 :l :l5 2 m5 6 k 1 2 视频编码技术的现状 为推动技术推广应用,加快视频技术的快速发展的步伐,为视频行业确定技术 标准具有重要意义。 国外现状: 视频压缩编码的标准1 4 1 从1 9 8 4 年c c i t t ( 国际电报电话咨询委员会) 成立的专家 开始研究,已经有近2 0 年的历史了。并于1 9 9 0 年完成和批准了c c i r r 推荐书h 2 6 1 。 在h 2 6 1 的基础上,l t u t ( 国际电信联盟) 在1 9 9 6 年完成了h 2 6 3 的标准。1 9 8 8 年,成 立运动图像专家组( m o v i n gp i c t u r ee x p e r tg r o u p ) m p e g 。m p e g 的主要任务是制定、 修订、发展m p e g 系列多媒体标准,已推出的标准包括m p e g 1 、m p e g 2 、m p e g 一4 、 多m p e g - 7 。m p e g 2 1 。1 1 u ,t 于1 9 9 7 年提出的一个长期的视频标准化项目h 2 6 l , 2 第,章绪论 并在1 9 9 9 年8 月推出该标准的第一版测试模型。为了响应i s o i e cm p e g 对先进视频 编码技术的需求, a 2 0 0 1 年开始,i s o 和i t u 开始组建了联合视频工作组( r v t , j o i n t v i d e ot e a m ) ,在h 2 6 l 的基础上开发新的视频编码标准,即j v t 标准,如图卜1 所示。 国匡习! 一- 口i 一 1 2 11 t 2 6 1 1 9 8 41 9 8 61 9 8 8 1 9 9 01 9 9 21 9 9 41 9 9 61 9 9 82 0 0 02 0 0 22 0 1 4 图卜l 国外视频编码标准发展过程【2 l h 2 6 1 支持两种y u v p l 格式( 图像信号用一个亮度分量和两个色度分量进行表 示) 的输入图像,它们分别是c i f 格式和q c i f 格式。在h 2 6 1 中,一帧图像不是 直接划分为宏块进行编码,而是首先划分为宏块组( g o b ) ,每个宏块组包括3 x 1 1 个宏块。对于c i f 格式,每帧图像由1 2 个g o b 组成,每个g o b 由3 3 个宏块组成。 在h 2 6 1 中,帧间预测采用以1 6 x 1 6 宏块为基础的块匹配算法,运动估计和运 动补偿以1 6 x 1 6 宏块为单位进行,块匹配算法的精度限制为整象素。h 2 6 1 视频编 码标准的初衷是希望可以用于低码率视频上,不过精h 2 6 1 在低码率编码上的实际 应用并不令人满意,现在已完全被h 2 6 3 嘲所取代。 1 2 2h 2 6 3 h 2 6 3 编码的基本框架与h 2 6 1 十分相似,不同之处在于: h 2 6 1 仅支持q o f ,c i f 格式,而h 2 6 3 支持更多的图像格式,包括c i f , s u b - c 1 f ,q c i f ,4 c i f ,1 6 c i f 五种图像格式,这使得h 2 6 3 的应用范围 更加广阔,见表1 3 。 东南大学硕十学位论文 表l - 3h 2 6 3 支持的图像格式 s u b c i f q c i f c i f 4 c i f1 6 c l f 像素行 1 2 81 7 63 5 27 0 41 4 0 8 行数 9 61 4 42 8 85 7 61 1 5 2 h 2 6 3 的g o b l 7 格式与h 2 6 1 不同。h 2 6 1 中,每个g o b 包括3 11 个宏 块,而在h 2 6 3 中,每个g o b 包括k ) ( 1 6 行象素,k 由图像分辨率决定, 对于低分辨率的s u b - - c i f ,q c i f ,c i f 格式,k = l ;对于分辨率较高的4 c i f , k = 2 ,1 6 c i f ,k = 4 。这样,每帧中的g o b 数,在s u b - c i f 中为6 ,在q c i f 中为9 ,在c i f ,4 c i f ,1 6 c i f 中为1 8 。 在h 2 6 3 标准中,可以采用基于1 6 x 1 6 宏块和8 8 数据块为基础的运动估 计,块匹配算法可以达到半象素精度,因而具有更佳的匹配精度。 由于采取了上述改进,h 2 6 3 与h 2 6 1 相比,在性能上有较大改进。在小于 6 4 k b p s 时,h 2 6 3 的p s n r ( 峰值信噪比) 比h 2 6 1 要减b 3 4 d b 。换句话说,在 相同的质量下,所用比特数与h 2 6 1 相比减少5 0 以上。 h 2 6 3 除了基本模式外,还可以有选择地使用4 种高级模式( p b 帧模式,重 叠块运动补偿模式,大运动矢量模式,基于上下文的算术编码模式) ,选用它们可 以进一步提高压缩效率、改善图像质量。 1 2 3h 2 6 4 在h 2 6 3 基础上发展起来的新的甚低码率视频编解码标准h 2 6 4 对h 2 6 3 舶编 码框架进行了一系列的改进一方面,h 2 6 4 把一些已经证明行之有效的可选模式作 为h 2 6 4 中的基本模式固定下来,如先进帧内预测模式,基于上下文的算术编码模 式等;另一方面,h 2 6 4 又加入了一些新的研究成果,例如可选的1 4 ( 1 8 ) 象素 的运动估计、多模式的运动欠量估计、4 x 4 的整型d c t 运算等,从而使h 2 6 4 在压 缩率上具有更佳的性能。其中,1 t 2 6 4 视频编码标准与h 2 6 3 基本框架相比,主要 的改进如下: 1 4 ( 1 ,8 ) 象素精度的运动估计 在h 2 6 3 、m p e g 1 、m p e g 一2 视频编码标准中,采用的都是i 2 象素精度的运 4 第一章绪论 动估计,而在h 2 6 4 视频编码标准中,可以采用1 4 0 8 ) 象素精度的运动估计,这就 使得运动估计和运动补偿更为准确。或者说在要求精度相近的情况下,h 2 6 4 采用 1 4 或者1 8 象素的块匹配可以满足对于匹配精度的要求,拥有更精确的运动匹配 意味着h 2 6 4 在帧间编码中所需码率更小。 7 种不同尺寸块的运动矢量估计 运动估计块匹配算法中,还有一个需要考虑的地方是匹配块的大小,综合考虑 数码率的开销以及运动估计的准确性,一般采用1 6 x 1 6 的宏块和8 x 8 的数据块作为 运动估计块匹配的基本单元。而在h 2 6 4 中,它采用7 种不同大小的数据块作为运 动估计块匹配的基本单元。当视频图像变化简单时,可以和h 2 6 1 、h 2 6 3 一样,采 用基于1 6 x 1 6 的数据块或者8 x 8 数据块的运动估计就可以了,而对于运动较复杂以 及运动细部较多的视频序列,可以采用基于8 x 4 的数据块或者4 x 4 的数据块作为块 匹配的基本单元,从而更好地实现运动补偿,减少数码率。 整型d c t 运算 在视频压缩编码中,运动估计和d c t 是最耗费计算量的两大部分。在h 2 6 3 算 法中,采用基于8 x 8 块的d c t 的浮点运算,不仅运算量相当大,而且不利于移植 到定点d s p 中。而在h 2 6 4 中,采用的是基于4 x 4 块的整型d c t 运算,避免了浮 点运算。减少了运算量和复杂度,从而有利于实现实时化和移植到定点d s p 上。 d c t 变换的整型化当然会引起一些误差,但d c t 的量化过程中也存在误差,与之 相比,整型化引起的误差影响并不大。对于4 4 块的逆d c t 变换在h 2 6 4 中同样 进行了整型化,整型化过程与d c t 变换类似。 先进的帧内预测 帧内预测可以减少需要编码的数据量,从而达到降低数码率的作用。在h 2 6 4 中,先通过当前宏块上边和左边的宏块来预测专前宏块值,再用d c t 变换来编码预 测宏块与当前宏块的差值。由于差值一般比当前宏块的实际值小,d c t 变换后会出 现更多的全零块,从而可以降低需要编码的数据量,减少码率。对于帧内编码应用 较多的图像序列,帧内预测对于降低码率十分有效。 东南大学硕士学位论文 基于上下文的算术编码 基于上下文的算术编码也是h 2 6 3 中可选模式之一,而在h 2 6 4 中,基于上下 文的算术编码作为基本的编码模式得到应用,它可以在运动估计和d c t 变换的基础 上进一步压缩码率。一般情况下,基于上下文的算术编码可以提高压缩效率5 ,但 计算量会因此增加。 1 2 4 肝e ( 卜1 m p e g - 1 制定于1 9 9 2 年,可适用于不同带宽的设备,如c d r o m 、v i d e o c d 。 它的目的是把2 2 1 m b i t s 的n t s c 图像压缩到1 2 m b i t s ,压缩率为2 0 0 :1 。这是 图像压缩的工业认可标准。它可针对s i f 标准分辨率( 对于n t s c 制为3 5 2 x 2 4 0 ,对 于p a l 制为3 5 2 x 2 8 8 ) 的图像进行压缩,传输速率为1 5 m b i t s s ,每秒播放3 0 帧,具 有c d 音质,质量级别基本与v h s ( 广播级录像带) 相当。m p e g 的编码速率最高 可达4 - - 5 m b i t s s ,但随着速率的提高,其解码后的图像质量有所降低。 m p e g 1 的主要应用是v c d ,同时也被用于数字电话网络上的视频传输,如 非对称数字用户线路( a d s l ) ,视频点播( v o d ) ,以及教育网络等。 1 2 5 肝e ( 卜2 m p e g 2 制定于1 9 9 4 年,设计目标是高级工业标准的图像质量以及更高的传 输率。m p e g 2 所能提供的传输率在3 m b 一1 0 m b s 间,在n t s c 制式下的分辨率f 矿 达7 2 0 x 4 8 6 ,m p e g - 2 能够提供广播级的视像和c d 级的音质。m p e g 一2 的音频编码 可提供左右中及两个环绕声道,以及一个加重低音声道和多达七个伴音声道。 m p e g - 2 的另一特点是,可提供一个较广范围的可变压缩比,以适应不同的画面质 量,存储容量以及带宽的要求。 m p e g 2 技术就是实现d v d 的标准技术,现在d v d 播放器也开始在家庭中普 及起来了。除了作为d v d 的指定标准外,m p e g - 2 还可用于为广播、有线电视网、 电缆网络以及卫星直播提供广播级的数字视频。 第一章绪论 1 2 6 肝e 【1 广4 技术特点:m p e g - 4 于1 9 9 8 年1 1 月公布,它不仅是针对一定比特率下的视频、 音频编码,而且更加注重多媒体系统的交互性和灵活性。这个标准主要应用于视像 电话、视像电子邮件等,对传输速率要求较低,在4 8 0 0 - - 6 4 0 0 0 b i t s s 之间,分辨率 为1 7 6 x 1 4 4 。m p e g - 4 利用很窄的带宽,通过帧重建技术、数据压缩,以求用最少 的数据获得最佳的图像质量。 经过这几年的发展,现在最热门的应用是利用m p e g - 4 的高压缩率和高的图 像还原质量来把d v d 里面的m p e g - 2 视频文件转换为体积更小的视频文件。经 过这样处理,图像的视频质量下降不大但体积却可缩小几倍,可以很方便地用 c d r o m 来保存d v d 上面的节目。另外,m p e g - 4 在家庭摄影录像、网络实时 影像播放将大有用武之地。 国内现状。 2 0 0 2 年6 月,信息产业部批准成立“数字音视频编解码技术标准工作组 ( a v s i 作组嗍1 ,目前参加工作组的单位己达1 0 0 多家,覆盖了国内本领域的主要产品开发 生产厂家与研究单位,也包括跨国企业与机构。工作组的任务是:面向我国的信息产 业需求,联合国内企业和科研机构,制( 修) 订数字音视频的压缩、解压缩、处理和 表示等共性技术标准,为数字音视频设备与系统提供高效经济的编解码技术,服务 于高分辨率数字广播、高密度激光数字存储媒体、无线宽带多媒体通讯、互联网宽 带流媒体等重大信息产业应用。 a v s 视频的主要特点是应用目标明确,技术有针对性。瞰比在高分辨率应用中, 其压缩效率明显比现在在数字电视、光存储媒体中常用的m p e g 2 视频提高一个层 次。在压缩效率相当的前提下,又较m p e g - 4 a v c h 2 6 4 的m a i n p r o f i l e 的实现复杂 度大为降低。 a v s 标准的制定具有重要的现实意义和技术意义【s 】: 1 a v s 是基于我国自主创新技术和国际公开技术所构建的自主标准,妥善解决 了知识产权问题。 2 编码效率高,比m p e g 2 国际标准高2 3 倍。 3 计算复杂度低,硬件实现成本较低。 4 a v s 可节省一半以上的无线频谱和有线信道资源,显著降低传输、存储设备 与系统的经济投入。 7 东南大学硕上学位论文 1 3 视频编码中的主要研究内容 视频图像中存在冗余信息,即相关性。主要的冗余信息有空间冗余信息和时间 冗余信息。空间冗余信息是指在一帧图像中像素之间的相关性。一帧图像中,相邻 或相近的像素,其灰度值或色度分量的值总是很相近,相邻像素之间存在很强的相 关性。而相邻帧之间的时间间隔是由帧率决定的。帧率越大,相邻帧之间的时间间 隔就越小,一般是几十毫秒。在这样短的时间内,大部分被拍摄的对象都是静止不 动或只有很小的移动,因此视频序列中存在时间上的冗余信息。视频压缩主要就是 从时域、空域两方面去除冗余信息。 1 3 1 去时间冗余 视频图像是沿时间轴方向的一个帧序列,其帧间图像相关性很强。具体表现为 两帧间很多静止图像其数据是不变的。实现帧间编码的方法是运动估计和运动补偿。 其原理是利用帧间的时间相关性,减小时间冗余度。帧间编码可以减小冗余度, 这是冈为两帧之间有很大的相似性。如果将前后两帧相减( 移动物体作相应位移) 得 到的误差作编码所需比特要比直接进行帧内编码所需的比特少,帧间差值集中在零 附近,可以用短的码字传送。 1 3 2 去空间冗余 视频图像的帧内数据和预测的帧间误差数据,都有很高的空域冗余信息。可用 于减少空域冗余信息的技术很多,主要都是基于块的技术。在基于块的空间冗余技 术领域中,变换编码技术是最常用的方法,归纳起来,可分为三个阶段:正交变换、 对变换系数进行量化、及编码三个阶段。 正交变换:正交变换是将空域图像信号映射变换剑另一个正交矢量空间如频 域,产生一批变换系数,然后对这些变换系数进行编码处理。最常用的为 d c t 变换,它与k - l 最佳变换压缩性能和误差非常接近,而且计算量适中, 又具有可分离特性,还有快速算法等特点,所以在图像数据压缩中,采用 d c t 变换编码的方案很多。 量化:变换后系数的量化是关键的操作,量化使变换后的系数用较少的位数 3 第一章绪论 来表示,量化器结合编码才使大部分数据得以压缩。它是不可逆的,是有损 的压缩方法。 编码:量化后数据在编码后输出。将数据有效统计,消除编码冗余,有效地 压缩数据量。 1 4 论文的内容及安排 本论文共分6 章,以下为各章的内容概述: 第一章:绪论,主要介绍了视频编码技术的研究背景、发展现状,主要研究内 容及本文各章内容安排; 第二章:a v s 视频编码标准概述,介绍了a v s 标准视频部分的技术特点、编码 码流的基本结构和组成元素、码流从序列到块的完整解码过程。详细介绍了a v s 视 频标准的几项关键技术。 第三章:a v s 与常用视频编码标准的性能比较,对a v s 与h 2 6 4 和m p e g - 2 进行了理论及复杂度分析,通过仿真比较性能差异。 第四章:a v s 中运动估计算法的改进,详细分析了常用的运动估计算法,并对 其进行了改进。 第五章:8 x 8 整数变换在a v s 中的快速实现,详细介绍了d c t 变换矩阵的整 数化,通过矩阵分解消除了乘法运算,并且对量化技术进行了改进,最后进行仿真。 第六章:总结与展望,主要对本文中用到的技术和研究工作进行总结,提出不 足和需要改进之赴以及对将来的展望。 1 5 本章小结 本章主要介绍了视频编码技术的研究背景和发展现状,并对视频编码主要研究 内容进行了总结,最后介绍了文章的内容安排。 9 第二章a v s 视频编码标准概述 2 1 引言 第二章a v s 视频编码标准概述 a v s 工作组于2 0 0 2 年6 月成立,负责数字音视频编解技术标准的制定工作,于 2 0 0 3 年底完成了我国制定的具有自主知识产权的数字音视频编解码技术标准a v s ( a u d i ov i d e oc o d i n gs t a n d a r d ) 的1 0 版本。它由系统、视频、音频3 个主要部分和一致 性等支撑部分组成a v s 视频标准采用与h 2 6 4 标准类似的技术框架,在性能上与 h 2 6 4 持平,在技术更简洁。a v s 系统标准采用五扩展m p e g - 2s y s t e m 的方案,有利 于兼容已有的m p e g - 2 传输系统。 在本章中,主要介绍a v s 的第二部分即视频编码部分。a v s 视频编码标准主要 是为了适应数字电视广播、数字存储媒体、因特网流媒体、多媒体通信等应用中大 尺寸、高质量的运动图像压缩的需要而制定的。 a v s 视频编码的结构如图2 - 1 所示。在编码结构上,a v s 与h 2 6 4 比较相似,但 在各模块的具体处理方法上,它与i - l 2 6 4 有相当的不同考虑到m p e g 在数字视频产 业的广泛应用,a v s 的语法结构与m p e g 2 的语法结构类似。 图2 _ l a v s 编码器结构 东南大学硕士学位论文 在a v s 编解码过程中,基本处理单元是宏块。一个宏块包含一个1 6 x 1 6 的亮度 样值块和对应的色度样值块,当前a v s 支持4 :2 :2 和4 :2 :0 最j 种图像格式在各种处理 之前,a v s 采用光栅扫描的方法将图像扫描为一个宏块序列。 每个宏块都需要通过预测,系统只对图像样值与预测值之间的残差进行变换编 码。a v s 采用帧内预测与帧间预测两种预测方法帧内预测使用空间预测模式来消 除图像内的冗余。帧内预测以当前帧中当前宏块左方和上方宏块的像素来预测当前 宏块的像素值,a v s 帧内预测单元采用与整数变换同样大小的8 8 块。帧间预测使 用基于块的运动矢量来消除图像间的冗余,帧间预测以已解码的帧或场来预测当前 帧的像素值,帧问预测支持1 6 x 1 6 ,1 6 8 ,8 1 6 ,8 x 8 四种大小的块作为预测单元。运 动向量的精度达到1 4 像素 图像经预测后,由图像样值与预测值相减得到预测残差。系统对残差采用8 8 的整数变换,并进彳蕈量化,量化后使用“之”字 # ( z i g - z a g ) 扫描方法对量化系数进行扫 描。 a v s 使用一种自适应的变长编码技术对扫描后的系数进行熵编码。系统在对各 种语法元素编码时从4 种指数哥伦布码码表中选择一种。 在进行帧间预测的过程中,系统需要对用于参考的重建图像进行去块效应滤波。 滤波器对重建图像的块边界进行平滑,降低图像的块效应,而对图像边界不进行滤 波。考虑到不同图像区域和不同的码率,a v s 的去块效应滤波器是自适应的。 a v s 的时间信息是放在i 帧的头信息中,因此可以将i 帧作为编码后视频序列的 随机访问点 2 2 编码比特流的结构嗍 2 2 1 码流组成的基本单元 视频序列是比特流的最高层语法结构。视频序列由序列头开始,后面跟着一个 或多个编码图像,每帧图像之前应有图像头。编码图像在比特流中按比特流顺序排 列,比特流顺序应与解码顺序相同。解码顺序可与显示顺序不相同。序列结束码表 明了一个视频序列的结束。 标准支持两种序列:逐行序列和隔行序列。帧由三个样本矩阵组成,包括一个 亮度样本矩阵( y ) 和两个色度样本矩阵( c b 和o r ) 。样本矩阵元素的值为整数。 y 、c b 、c r = 个分量与原始的( 模拟) 红、绿、蓝信号问的关系,包括原始信号的 第二章a v s 视频编码标准概述 色度和转移特性等可在比特流中定义,这些信息不影响解码过程场由构成帧的三 个样本矩阵中相间的行构成,即帧样本矩阵的第一行、第三行、第五行 ,依此类 推,构成一个场,称为顶场;第二行、第四行、第六行 ,依此类推,构成另一个 场,称为底场。解码器的输出是一系列帧,两帧之间存在一个帧时间间隔。对隔行 序列而言,每帧图像的两场之间存在一个场时间问隔。对逐行序列而言,每帧图像 的两场时间间隔为0 。 视频序列头由视频序列起始码开始,后面跟着一串编码图像数据。起始码是按 字节对齐的。由起始码前缀和起始码字组成。起始码前缀为2 3 个0 比特和1 个1 比特, 起始码字为一个字节的整数。序列头可在比特流中重复出现,称为重复序列头。使 用重复序列头的主要目的是支持对视频序列的随机访问。 一幅图像是一帧,其编码数据由图像起始码开始,到序列起始码、序列结束码 或图像起始码结束。在如特流中,隔行扫描图像的两场的编码数据可依钦出现,也 可以交织出现。两场数据的解码和显示顺序在图像头中规定。图像的解码处理包括 解析过程和解码过程。 a v s 标准支持4 :2 :o 、4 :2 :2 、4 :4 :4 的图像格式。 a v s 标准定义了三种解码图像:帧内解码图像( i 帧) ,前向帧问解码图像( p 帧) ,双向帧间解码图像( b 帧) 如果视频序列中没有b 帧,解码顺序与显示顺序 相同。如果视频序列中含有b 帧,则解码顺序与显示顺序不同,解码图像输出显示 前应进行图像重捧序。图像重捧序规则如下: 如果当前解码图像是b 帧,输出此b 帧解码的图像;如果当前解码图像是i 帧或p 帧,且存在前一个i 帧或p 帧的解码图像,输出前一个解码图像;如果不存在前一个i 帧或p 帧的解码图像,则不输出任何解码图像。 p 帧或b 帧最多可有两帧参考图像。p 帧可参考前向的两帧。在一帧中,后解码 的场还可参考当前帧的另外一场。b 帧可参考一前一后两帧。运动矢量可以超出参 考图像的边界,在这种情况下应使用距离运动矢量所指位置最近的图像内的像素进 行边界扩展。对亮度样本矩阵,所有用于构造参考块的像素在水平和垂直方向均不 应超出参考图像边界外1 6 个像素。 条带是按光栅扫描顺序连续的若干个宏块行,条带内的宏块行不应重叠,条带 之问也不应重叠。条带内宏块的解码处理不应使用本图像其他条带的数据。如果隔 行图像的两场数据依次出现,这两场数据应属于不同的条带。条带边界扩展方法和 参考图像边界扩展方法相同。条带结构参见图2 - 2 。 东南大学硕士学位论文 图2 - 2 条带结构 图像划分为宏块,宏块左上角的点不应超出图像边界。在比特流中,当隔行扫 描图像的两场编码数据依次出现时,任意宏块的像素应来自同一场。宏块的划分如 图2 _ 3 所示,这种划分用于运动补偿。图2 勺中矩形里的数字表示宏块划分后运动矢 量和参考索引在码流中的顺序。 皇埔i 舟 蒜譬麓髅淼黧黧淼搿羰惹撼 口日田田 图2 - 3 宏块的划分 a v s 最小的图像单元为8 x 8 块,在4 :2 :0 的图像格式下,一个宏块包括4 个8 x 8 亮 度块( y ) 和2 个g x 8 色度块( 1 卜c b ,1 个c r ) ;在4 :2 :2 的图像格式下,一个宏块包 括4 个8 x 8 亮度块( y ) 和4 个8 x 8 色度块( 2 j c b ,2 个c r ) ;在4 :4 :4 的图像格式下, 一个宏块包括4 个8 x 8 亮度挟( y ) 和3 个8 8 色度块( 4 个c b ,4 p c r ) 。 2 2 2 码流的解析过程 最大的码流结构单元视频序列解码过程:找到序列的3 2 比特起始码后,进 入解码图像组的循环,图像组可以包括多个i 、b 、p 图像图像组的解析过程首先 读入序列头信息和用户扩展信息。在视频序列中插入该信息,将序列分割成多个图 像组,增加序列的随机访问能力。再开始一次解析图像组中i 、p 、b 图像,如果接 下来3 2 比特是视频编缉码,则读入该码。如果是i 图像起始码,则读入i 图像的图像 头信息,否则读入p b 图像头的信息。读入一位的扩展和用户数据,再开始解码这一 幅图像的数据。解码完后,判断下3 2 比特是不是视频编辑码或i 、p 、b 图像的起始 第二章a v s 视频编码标准概述 码。如果是,则继续解码该图像组;否则结束该图像组的解码。判断下3 2 比特是否 为序列结束标志,如果不是,则继续解码下一个图像组,否则结束该序列的解码。 序列头的解码过程:读入序列起始码档次和级别的标志、图像的帧场类型标志、 图像的水平和垂直尺寸、色度编码格式、采样精度、帧率、比特率的上下限、参考 解码器设定的比特流缓冲区的尺寸等信息。 扩展和用户数据解码:分别读取扩展数据和用户数据。扩展数据按其位置在序 列头后还是在图像头后,分为序列显示扩展、版权扩展、摄像机参数扩展、图像显 示扩展或者用户保留字。 i 图像头信息解码过程:读入i 图像起始码,读入1 6 位无符号整数b b v 延时 b b v如果不等于,它规定了从收到图像起始码的最后一_ d e l a y b b v _ d e l a y 0 x f f f fb b v 个字节到开始解码图像之间要等待的时闻。读入时间码标志,如果标志非零,则读 a 2 4 位的时间码。读入囝橡距离参数,即当前图像在序列中显示顺序的编号。读入 帧场图像类型标志p r o g r e s s i v e _ f r a m e 。读入当前图像的两场出现顺序标志 p i 嘶e ,读如项场在先标志和重复首场标志。读入固定图像标志和图像_ s t r u c t u r e q p q p 值。如果是场图像,而且两场依次出现,则读入跳过模式、图像加权预测标志。 如果是加权预测,则读入亮度和色度的缩放参数和平移参数。读入宏块加权预测标 志,决定是否所有非帧内预测宏块都应采用加权运动补偿。读入环路滤波器标志, 决定是否使用滤波器,如果使用,则再读入判决其门限表的偏移量参数。 p b 图像头信息的解码过程:大部分和i 图像相同不同之处在于:如果是两场 图像依次出现,则要读入高级预测模式禁用标志;如果不是两场图像交替出现,或 则图像的类型不是1 0 b 则要读入图像的参考标志,决定图像的每个宏块是否使用 相同的参考图像。读入图像的统一预测权重标志,如果为l ,则依次读入每个参考图 像的尺度缩放及平移参数。读a s k i p 模式标志。 图像数据p i c t u r e 条带的解码过程:读取条带起始码,如果图像垂直显示尺寸大于2 8 0 0 ,则读入 垂直位置扩展。如果图像固定q p 标志为0 ,则读入条带固定q p 标志,读入条带q p 值。如果宏块s k i p 标志为1 ,而且不是i n t r a 图像或是场编码的底场,则读入宏块的s k i p 长度,依次解码条带中所含的宏块。 宏块的解码过程:如果不是i n t r a 图像,或者是场图像的底场,则读入宏块类型。 如果宏块类型不是p 的s k i p 或者b 的s k i p 类型,则 如果宏块类型为b _ s x 8 ,则依次读a 4 个子块的类型: 如果宏块类型为i8 x 8 ,则依次读入4 个亮度子块的预测模式标志,如果标志非 零,则读入该亮度子块的帧内预测类型,再读入色度块的帧内预测模式; 1 4 东南大学硕士学位论文 如果是p 图像,并且不是统一的宏块参考,或者如果不是b 图像,并且为场图像, 则按照参考图像的个数,依次读入各个宏块参考索引 依次读入指向每个参考图像的水平和垂直方向的运动矢量。 如果宏块加权预测标志为1 ,则读入该宏块的加权预测设置。 如果宏块类型不是i8 8 或图像不是b 图像,或者宏块类型为上前下前预测且 图像不是b 图像,则读入c b p 值。 如果色度格式为1 0 c , 则读x c b p 如果宏块有非零编码系数且不是固定q p ,则读入q p 的增量,依次解码6 个块。 ) 块的解码过程:首先通过c b p 确认该块是否有非零编码系数。如果有,则开始 解码,依次解码得到每个熵编码( r u n ,l e v e l ) 对的v l c 编码值。如果编码值不小于 5 9 ,则为逃逸事件,继续解码l e v e l 的编码差值,直到解码得到块结束标志符明b , 完成该块的解码。 2 3a v s 的关键技术【l o l 2 3 1 变换、量化技术 a v s 的变换和量化技术源1 l 2 6 4 ,因为h 2 6 4 是第一个采用整数变换替代d c t 的国际标准。两者最大的不同在于变换尺寸。i - l 2 6 4 选择4 4 的块变换,因为其最小 的运动搜索块尺寸为4 x 4 ,变换块的尺寸不能低于搜索块,否则会明显降低变换性 能。采用4 x 4 变换的优势在习毛采用整数变换设计,其快速算法完全用加减法和移 位实现,而不用乘法,计算复杂度很低。而且整数变换不存在浮点d c t 的变换与反 变换的失

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论