(计算机应用技术专业论文)gpca在视频可伸缩编码中的研究和应用.pdf_第1页
(计算机应用技术专业论文)gpca在视频可伸缩编码中的研究和应用.pdf_第2页
(计算机应用技术专业论文)gpca在视频可伸缩编码中的研究和应用.pdf_第3页
(计算机应用技术专业论文)gpca在视频可伸缩编码中的研究和应用.pdf_第4页
(计算机应用技术专业论文)gpca在视频可伸缩编码中的研究和应用.pdf_第5页
已阅读5页,还剩46页未读 继续免费阅读

(计算机应用技术专业论文)gpca在视频可伸缩编码中的研究和应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江大学硕士学位论文摘要 摘要 数字存储、通讯和互联网的飞速发展使海量的视频数据出现在人们生活的方 方面面,视频成为人们获得信息的主要载体。尽管网络带宽、磁盘容量,内存等 还在持续增大,但对视频数据进行压缩是大部分媒体服务的前提,因此研究高效 的视频压缩算法具有重要意义。此外,为了适应网络带宽的变化、支持不同的终 端和达到更好的无线传输服务,人们提出了可伸缩性编码的概念,实现视频的可 伸缩性,使得视频在可获得的资源下达到最佳质量。另一方面,视频的应用已走 出以播放为目的的局限,视频数据的分析和理解也成为研究的热点。 本文主要工作在于将g e n e m l i z c dp r i n c i p a lc o m p o n e i l t a n a i y s i s ( g p c a ) 应用 于视频编码,取代传统编码框架中的离散余弦变换( d c t ) ,达到了更好的视频 压缩效率,并在此基础上实现了信噪比( s n r ) 可伸缩性。另外,利用在运动预 测得到的运动向量,尝试用g p c a 为视频建立多运动模型,并检测运动物体。 本文首先介绍了视频编码在通信、媒体服务等领域的重要性,根据现有几个 重要的国际标准的演变历史,介绍了视频编码的发展情况和研究现状。 第二章简要地描述了传统编码框架,并分析了新兴的视频编码标准h 2 6 4 的 特性。 第三章介绍了可伸缩性编码的概念,着重描述m o t i o n c o n 堆e i l s a t i o n t e m p 0 忸l f i l t 叫m c t f ) 及其对h 2 6 4 在可伸缩性编码( s v c ,s c a l a b l e d c oc o d i n g ) 方面的 扩展。 第四章简要地介绍g p c a 的基本原理,并将g p c a 引入到传统的编码框架中。 g p c a 的作用是为数据集估计混合线性模型,与p c a 的单模型相比,多模型具有 明显的优势,能更简洁地表达数据,揭示数据分布情况。我们用g p c a 对残差作 变换,消除数据的空间冗余,在此基础上实现了s n r 可伸缩性,并讨论了降低编 码算法复杂度的几种方法。 第五章将g p c a 用于分析视频中运动对象。与图像相比,视频的一个重要特 点是相邻帧具有关联性,压缩算法的运动预测模块得到的运动向量反映了视频中 物体的运动信息。不同的运动物体具有不同的运动模型,利用运动向量提供的运 动信息为视频图像建立多运动模型,可以用于运动物体检测和跟踪。 第六章具体描述了实验的过程,并对实验结果作了一定的分析。 最后对本文作简要的总结,讨论了未来的研究方向。 关键词视频编码,g p c a ,混合线性模型,可伸缩性编码,运动模型 浙江大学硕士学位论文 a b s t r a c t t h ed e v c l o 肿饥to fd i 西t a ls t o m 驽c c o n l n 嘶c a t i o n 锄dh i t e m e tm a l 【e sp o s s i b l e e x c 嘲i v e 锄o u n to f “d c od a l 甚a e a 稻i i ip e o p l e sl i f c d e oh a sb e c o m eo n eo ft l l e m o s ti n t p o n a n tm e d i aw h e p p l e 毋酏i n f o m a t i o n a l t h o u 矾t h cb a l l d w i d t ho f n c t w o 毗c a p a c i t yo fd i s k 锄dm 锄o r yk p 擎o w i n 吕“d o o m p r 嚣s i o ni s 也c p 托托= q l l i s i t e o fm o s tm u l t i m e d i a 粥f v i c e s r e s e a r c he 伍d 舶tc o m p l 锶s i o n a l 舟试m m si sw o r m yo fe 妊o r t s b e s i d 髓,m ed 啪舭do na d a p t i v ec o d i n g m 锄e st of i t t l l ev a r v i n gb a f l d w j d t l i 锄dd i f f b r 锄tt e 咖i n a l s ,t os u p p o r tf e i i a b l ew i r e l e s st 栩n 锄i s s i o n l e a d st om ed e v e l o p m 肌to fs c a l d b l ev i d c 0c o d i n 厶w h i c ha i m st oa c l l i e v eo p t i m a l 、,i d 口u a l n yw j l l la v a i l a b l e 托8 l 眦e 0 咀t 1 1 eo t h e rb a l l d ,a p p l i g a t i o n so f 、r i d h a v e e x t e n d e dt oa r e a sf b rb e y o n dv i d p l a y a n a l y s i s 锄d 咖d e 璐t a n d i n 2o f 、,i d c od a l a b e o o m ev e 巧p o p u l 盯伯e 孵y e a r s t h ec o n m b u t i o no ft h i sp a p e rm a i l l l yl i e so ni n 仃o d u c i i l gg 蛐e m l i z e dp r i n d p a l c 鲫p o n e n ta n a l y s i s ( g p c a ) t ot l l e 鼬n e w o r ko fv i d c o d i n zt or c p l a c et l l e 删i t i a ld i s c r c t ec o s i 1 h n s f o m ( d 了r ) 蛐da c 啪p l i s h i n gs i 鼬a ln o i r a i i o ( s n r ) s c a l a b i l i 戗b 髓i d 铭。m o t i o nv c c t o 培,t l l ep r o d u c to fm o t i o n 船t i m a t i o i l 黜 e 】【p i o i t e dt om o d c lt l l ed ”锄i cs 咖龆 t l l i sp a p e ri s0 1 豫a 1 1 i z e da sf b n o w s :t h ef i r s td h a p t e fi l l u s 咖t e st l l ei m p o r t 锄c eo f 啊d e oo o d i n gi l im u l t i m o d i ac o m m l 1 i c a t i o n 觚do m e rs e i c 岛。i l l 协d d u o 鹤t l l c e v o l u 虹o no f t w oi m 锄a t i 伽a ls t 卸d a r d sm p e g 锄dh 2 6 x c h a p t 盯2b r i e n yd 部c r i b 铭 1 1 1 e 疔锄e w o r ko fv i d c o d i n g 锄da n a l y z e s 舢e 矗a t u f c so f m eb d 哪i 1 1 9t e c h n o l o g 睁 h 2 6 4 c h a p t 盯3i n 的d u c c st l l ec o n c 印to fs c a l a b l ev i d 。oc o d i l l 2 ( s v c ) ,m a i l l l y 缸:u s e d m o t i c 0 m p c l l s a t i 1 硇p o f a lf i l t e rf m c t f ) 狮di 乜e x t e i l s i t oh 2 6 4 c h 印t e r4f i r s tb r i e f l yd e s 甜b 鹤t 1 1 em c o r yo fg p c 九a n dt l l 锄i i l 栅u 嘲i ti l l t ov i d c o d i n g t h eg o a lo fg p c ai st 0 嚣吐m a t eah 啦啦dl i n e 盯m o d c lf o rg i v c i ld a t 乱 c o m p a r c dw i t l lp d 玳i p l cc o l n p o n e n ta n a l y s i s ( p c a ) ,t l l eh y b r i di t l o d e lh 够m e a d v a n t a 眢et l l a ti te x p f e s s e st l i ed a t ai l lam o r cc o m p a c tw a ya i l da l s oe x p o s e sm e d i s t r i b u d o f t h cd d 饥w eu g p c at o 仃a l l s 矗) m im er c s i d u a ld a 氓i n l p l 啪e n tas n r s c a la :b l c h 啪ea n dd i 剐m s ss e v e f a lm e a n st o 姐d u c em ec o m p u t a 畸o nc o m p l e x i t y 1 n c h a p t e r5 ,w eu s em o t i o nv e c 幻巧t om o d dt l l e 靶髓e ss oa st od e t e c ti n o v i l l go b j e c 扭 t h ee x p e r i m c n l a lr e g u l t s 嗽g i v e ni l lc h a p t e r6 a tt l i ee n d ,w es 啪m a r i z et l l i sp a p e r a 1 1 dd i s c l l s ss 伽e 如n 鹏瑚髓r c l l t o p i k e o r d s d e oc o d i 唱g p c a h 姗d “n wm o d d ,s c a l a b l ev i d c o d 岵 m o t i o nm o d e l 浙江大学硕士学位论文图目录 图目录 图2 1d c t 系数的“之”字形扫描6 图3 1 按比特位进行可伸缩编码10 图3 2 空b j 可伸缩编码:1 1 图3 3 时日j 可伸缩编码1 2 图3 - 4m c r f 示意图l3 图3 5m c t f 子带的分解1 5 图4 1 混合线性模型18 图4 2 基于g p c a 的视频编码框架19 图4 3 向量构成方法一示意图一2 0 图4 - 4 向量构成方法二示意图一2 l 图禾5 向量构成方法三示意图2 2 图4 6 向量集重建示意图。2 4 图4 7 可伸缩性编码框架2 s 图4 - 8 系数的传输顺序2 6 图4 9 编码流程一一2 7 图4 1 0 运动向量快速搜索2 8 图4 1 1 二维数据集的聚类3 0 图6 1 图像重建效果图3 6 图砚d c t 和g p c a 的p s n r 比较( 第种向量构成法) 3 7 图6 3d c t 和g p c a 的p s n r 比较( 第二种向量构成法) 3 8 图6 _ 4d c t 和g p c a 的p s n r 比较( 第三种向量构成法) 3 8 图6 5 图像运动分割4 0 i n 浙江大学硕士学位论文表目录 表目录 表6 - 1 不同参数下编码得到的p s n r 值 j v 3 9 浙江大学硕上学位论文第1 章绪论 第1 章绪论 1 1 课题背景 随着信息技术和互联网的飞速发展,多媒体信息己成为人们获得信息的主要 载体。海量多媒体数据的产生,给存储和通信设备提出了更高的要求。尽管网络 带宽、磁盘容量、内存等还在持续增长,但对多媒体数据进行压缩是大部分多媒 体服务的前提。若不对原始数据进行压缩,不论是网络还是存储对多媒体信息的 支持都是十分有限的。而且压缩技术能更有效地利用传输和存储资源,与非压缩 视频相比,同样的空间或带宽可以存储或传输质量更好的视频图像。所以对于各 种多媒体服务来说,数据压缩还是起着关键作用。 视频的图像序列在时域和空域上存在着大量的冗余信息,压缩算法主要通过 消除连续图像之b j 的冗余信息来压缩视频。目| ;i 大部分的压缩算法是有损的,视 频编码的目标就是达到高压缩率并尽可能地减少信息损失。在过去的2 0 多年里, 图像和视频压缩一直是研究活跃、发展很快的领域,为了使不同的产品能统一到 一定的标准下,出现了一系列的国标标准,如j p e g ,m p e g 和h 2 6 x 等。这些 标准都发展得比较成熟,随着新的需求的产生,还在不断完善过程中。视频编码 的研究取得了很多成果,其他领域的技术也被引入视频编码领域,不断地为编码 框架补充新的内容。 如今,视频的应用早已走出以播放为目的的局限。随着文本、图像搜索引擎 的发展成熟和互联网上视频数据的爆炸式增长,开发支持视频索引和搜索的系统 已经成为研究热点。另外,近年来随着社会安全意识的加强,视频监控产业发展 很快。这些领域关注的重点是视频数据的分析和理解。视频是由图像序列组成, 图像处理领域的理论和算法可以应用到视频处理中,但视频包含更为丰富的内 容,利用视频的特殊性,研究视频的智能处理也很有意义。 1 2 视频编码标准的发展 视频技术广泛应用于通信、计算机、广播电视等领域,而视频相关的一系列 应用产业的蓬勃发展,促使了许多视频编码标准的产生。在视频编码领域,国际 电信联盟远程标准化组( n u 与国际电工委员会( i s o ,i e c ) 是最重要的两个视频 编码标准制定机构。r r u t 的标准包括h 2 6 x 系列,主要应用于实时视频通信领 域,i s o i e c 制定的标准包括m p e g 系列,主要应用于视频存储、广播电视、互 浙江大学硕 学位论文第1 章绪论 联网或无线网上的流媒体等。两个组织也共同制定了一些标准,例如h 2 6 2 等同 于m p e g 2 ,而最新的h 2 6 4 标准对应m p e 6 m 的第1 0 部分。 h 2 6 x 系列有h 2 6 l 、h 2 6 2 、h 2 6 3 、h 2 6 3 + 、h 2 6 3 + + 及最新的h 2 6 4 。h 2 6 1 是最早的运动图像压缩标准,它详细制定了视频编码的各个部分,包括帧间预测、 d c t 变换、量化、熵编码、速率控制等部分。h 2 6 3 用于低码率视频编码,是在 h 2 6 l 基础上发展起来的,支持更多的输入图像格式,采用了半象素的运动补偿, 并增加了4 种有效的压缩编码模式。后来出现的h 2 6 3 + 及h 2 6 3 + + 又增加了许多 选项,使其具有更广泛的适用性。 m p e g ( m o v i n gp i c t i 聃e x p e r t sg r 0 1 l p ) 是为数字视音频制定压缩标准的专家 组,目前已提出m p e g 1 、m p e g 2 、m p e g 4 、m p e g 7 和m p e g 2 l 标准其 中m p e g 1 用于传输1 5 m b p s 的运动图像及其伴音。m p e g 之针对标准数字电视 和高清晰度电视。m p e g - 4 提出了一个视音频数据的通信、存取与管理的框架, 以及基于对象的视频编码。m p e g 7 规定一个用于描述不同类型多媒体信息的描 述符的标准集合,最终的目的是把网上的多媒体内容变成文本内容,具有可搜索 性。m p e g - 2 1 则是一些关键技术的集成,通过这种集成环境对全球数字媒体资源 进行管理。m p e g 制定的是一系列的标准,它并没有给出太多具体的实现。 h 2 6 4 是由i s 伽e c 的运动图像专家组( m p e g ) 与删t 的视频编码专家组 ( v c e g ) 组成的联合视频组( j v t ,j o i n t d t 舶m ) 制定的新一代视频压缩编码标 准。唧- t 的h 2 6 4 标准和i s 伽e c 的m p e g _ 4 第1 0 部分在编解码技术上是相同 的,这种编解码技术也被称为a v c ( a d v a n c c dv i d e oc o d i n g ) 相对于以前的视频 压缩标准,h 2 6 4 引入了很多先进的技术,带来了较高的压缩比,但同时大大增 加了算法的复杂度。 除上述r r u t 和i s o i e c 的视频压缩标准外,还有a 、,s 、w 抽d o wm c i d a9 ( w m 9 ) 等。 1 3 本章小结 本章介绍了视频编码在通信、媒体服务等领域的重要性,以及研究高效视频 压缩算法和视频分析的意义,并且介绍了现在流行的几个视频编码标准的发展情 况 2 浙江大学硕士学位论文第2 章视频编码原理 第2 章视频编码原理 2 1 视频编码的基本框架 视频压缩由编码和解码两部分组成。编码器将原始视频的图像序列转换成一 定的压缩格式,压缩后的数据再存储在磁盘上或通过网络传输。解码器将压缩的 数据恢复成原始视频图像序列。编码器和相应的解码器组成一个编解码系统 ( c o d e c ) 。 视频数据的压缩是通过消除时间、空阃和统计上的冗余信息来实现的。同一 场景的时问上相邻的图像帧之间往往包含大量的数据冗余,空间相邻的采样点也 常常很相似,舍弃重复的信息可以达到压缩数据的目的。完全无损的压缩所能达 到的压缩率有限,因此目前大多数压缩算法是有损压缩,其目标就是在视频质量 和压缩率之间寻找一个平衡,不但重建视频的图像质量要好,而且数据压缩比要 高,尽管这两者是互相矛盾的。 编码器主要由三个功能模块组成:运动预测和运动补偿、变换和量化、熵编 码运动预测从已编码的图像帧来预测当前帧。当前帧减去运动补偿后的预测图 像得到残差。变换将图像残差转换到频域上,把信息主要集中在低频系数上。变 换后的系数经薰化后数据量进一步减少。量化后得到的系数以及运动预测时产生 的运动向量经熵编码去除统计冗余后产生压缩的视频文件或数据流。 2 1 1 运动预测与运动补偿 视频帧的变化可能由物体运动、相机运动、光线变化、场景变换等因素造成, 其中当物体和相机运动时帧间的变化通常连续而平滑,利用帧阃像素的关联性, 可以消除冗余、压缩数据。运动预测是从参考帧预测当前帧的过程。最简单的预 测方法是用前一帧作为当前帧的预测帧,但是预测的结果并不理想,所产生的图 像残差仍然包含较多的数据量。机器视觉中的光流场( o p l i c a lf l o w ) 由每个像素的 运动向量组成,如果得到图像帧的光流场,那么每个像素都可以很好的预测。但 这样做的缺点是计算复杂度高,而且需要为每个像素保存或传输其在光流场中的 向量。 在视频编码算法中,运动预测大多是以预先设定的块为单位的而基于对象 的编码是以区域为单位,在编码前先对图像进行切割,得到纹理一致的区域,然 后再对每个区域进行分别编码,这样能达到更高的压缩率 1 ,2 】。基于对象编码的 3 浙江大学硕士学位论文 第2 章视频编码原理 另一种概念是分割出对象后,对象的信息只需要传输一次,后序的帧只传输对象 的位移。但是由于图象分割技术的发展还不成熟,对象分割的精度成为基于对象 编码的瓶颈。 运动预测的过程是将当前被预测的块与参考帧相同大小的块匹配,在定范 围内找到最佳匹配的块,得到它与被预测块之间的位移,即运动向量。预测的结 果与当前块越接近,那么残差的数据量就越小,压缩效率越高。但是运动预测计 算量大,在编解码系统中往往用快速运动预测算法来代替完全搜索。搜索对的块 匹配度量方法有m s e ( m 啪s q u a r c de n d r ) 、m a e ( m e 姐a b s o l u t ce 玎( ) r ) 和 s a e ( s 啦o f a b s o l u t ee n d 嘞等。设。与岛分别是当前帧和参考帧像素的采样值, 则m s e 、m a e 和s a e 的计算方法如式2 1 所示。在这些方法中,s a e 用得最为 广泛。在h 2 6 4 标准中,块匹配的s a e 值是对变换后的系数计算的,尽管这样做 增加了计算量,但是能找到更匹配的预测块,使残差数掘量更少。而且在h 2 “ 中采用的是整数变换,只需要做移位,不用作乘法,因此增加的计算量很有限。 肱范2 面与善善( q 一日) 2射智智、9 ” 此伍2 面b 善善i q 一吩l ( 2 1 ) mx v ,1 ,。- 伽= b 一凡l 扣ij - i 运动预测中,搜索参考帧预设范围内所有块,找出最佳的预测块,即完全搜 索。但这样计算量很大,因此往往采用快速搜索算法,而将完全搜索作为衡量快 速算法优劣的标准。比较流行的快速搜索算法有三步法( t h r s t 印s e a r c h ) 、最近 邻搜索( n e a r c s tn e i g h b o rs 船r c h ) 等。 为达到更好的运动预测效果。还可以搜索参考帧的非整数位鼍的块。首先通 过插值得到参考帧的加像素和脾像素位置的采样值,然后如整数像素搜索的 方法求得s a e 值,从而找到与当前块最相似的预测块。这样得到的运动向量可以 不是整数。通常进一步细化搜索可以减少残差的数据量,这样做的缺点是会增加 计算量,而且当搜索到鹏像素位时,残差数据量的改进已经不大。此外,缩小 块的大小也可以减少残差的数据量,开销是计算量加大,以及需要保存更多的运 动向量,因此,需要在运动预测算法的计算复杂度及数据压缩率之间找到平衡。 2 1 2 变换和量化 为了提高压缩率,经运动预测和补偿后得到的图像残差还要进行变换和量 4 浙江大学顽上学位论文 第2 章视频编码原理 化,来消除数据的空间冗余,减少数据量。变换是将数据转换到另一个空间,消 除数据间的关联性,使数据表达更简洁。而且变换应该是可逆的,这样在解码端 进行反变换就可以得到图像残差。常见的交换算法有离散余弦变换( d c r ,d i s c r e t e c o s i i l e1 伯n s f o 册) 、奇异值分解( s v d ,s i n g i l l a r 鹏d o m p o s i t i o n ) 、小波变换等。 其中d c t 在视频编码系统中使用最为广泛。 d c t 算法将的数据块转换到d c t 域中去,得到的结果是的系数 矩阵,可看作是关于d c t 域中的个基类的权重。尽管d c t 变换后系数的 个数没有减少,但数据的能量主要集中在低频部分。即使只用部分低频系数来恢 复原来的矩阵,损失的信息也是有限的。因此可以用量化来去除小的高频数据, 从而减少系数的个数。 s v d 将二维数据分解成矩阵相乘的形式,令j 为m 的矩阵,则经s v d 分解后,可将x 表示成彭= 吣矿,其中c ,为肘m 的方阵,s 为肘x | 的对角阵, y 为的方阵。矩阵s v d 分解的结果中,s 对角线上的奇异值是按降序排列, 当对角线上有较多的元素接近零时,这些元素在c ,和矿中对应的列向量在恢复x 时的作用就很小了,可以将【,和矿的这些列向量去掉。 一维的小波变换是将低频和高频两个滤波器作用在信号上,把信号分成低频 和高频两个予带,其中每个子带包含的采样数目为原信号的一半。一维小波可以 自然地扩展到二维信号的处理。例如二维图像的小波变换也是将低频和高频两个 滤波器作用在二维图像信号上,得到在x 和y 方向上均下采样的四个子带。具体 的步骤是先将两个滤波器作用在每一行像素上,得到x 方向下采样的两个子带l 和h ,然后在这两个子带上将两个滤波器作用在每一列上,得到y 方向下采样的 四个子带l l 、l h 、h l 和h h 。这四个子带的系数个数总和与原二维图像相同, 但是这些予带上数据分布的稀疏性使数据能更有效地压缩。l l 还可以进一步下 采样,每一级小波变换都产生四个子带,高频子带的很多系数接近零,所以可以 把这些不重要的系数去掉。 量化将原始数据映射到更小的值域空间,量化后的数据可以用比原始数据更 少的比特位来表示。但是量化是一个不可逆的过程,反量化后恢复出来的数据将 损失一定的细节信息。变换后的残差经量化后变成稀疏矩阵,一些较小的高频系 数量化后变成零。 为消除系数的统计冗余,往往在熵编码之前对量化后的数据进行重排。重捧 的作用是将非零的系数集中起来,并且用更简洁的方式来表达零系数。如在d c t 系数中,大部分非零的系数集中在左上角靠近低频系数的位置,因此按图2 1 所 5 浙江大学硕上学位论文第2 章视频编码原理 示的“之”字形对矩阵进行扫描,将二维矩阵展开成一维,非零系数主要集中在 一维数组的前面。 图2 1d ( 了r 系数的。之”字形扫描 2 1 3 熵编码 熵编码的目的是消除数据中的统计冗余。视频编码中,熵编码的输入包括量 化后的系数、运动向量以及其他一些控制信息。常用的熵编码有可变长编码( v l c , l r i a b l el e n g i 量ic 0 d i n g ) 和算术编码。 可变长编码是根据输入序列中各符号出现频率给符号赋以不同长度的编码, 对频率高的符号赋较短的码,对出现频率低的符号则赋较长的码。这样可以用更 少的比特位来表示原来的符号序列。h u 衔n 锄编码是可变长编码的一种,首先要 产生h u m n 锄树,树的每一片树叶表示一个符号,每一个树枝被赋以o 或1 ,从 树根到树叶的所有树枝组成的o 1 串就是这个符号的编码。一个h u f h 孤串可以 根据h 曲知粕树被唯一地解码。h u 街n 跚编码的缺点是对传输错误很敏感,当一 个比特位出错时,后续的码流就不能正确地解码。e x p _ g o l o n m 算法解决了这个 问题,它是前向和后向均可解码的v i 七算法。 根据信息理论,在最优的压缩效率下,每个符号都可以用砌艮佴纠个比特位 来表示,但是h u 腼l 锄编码并不能接近最优编码,算术编码可以更好地接近最优 编码。算术编码将每个符号映射到旧j 】区间的一定范围内,这个范围的大小等于 这个符号出现的概率初始区间为 d ,j 】,每输入一个符号,将区间缩小到该符号 映射在当前区间的范围。如当前区间为瞳6 】,输入符号为c ,并且c 在【o 刀映射 的区间为【幻,纠佃垒,鳓s 砂,那么当前区间被置为 4 + p 砂白,4 + p 矽幻】。直 到输入序列的最后一个符号,选择落在当前区间内的一个分数来表达原来的符号 序列。算术编码的优点是不一定要用整数来表达原来的符号,所需要的比特位数 可以更接近最优编码。 6 浙江大学硕上学位论文第2 章视频编码原理 2 2h 2 6 4 的特性 h 2 6 4 是r r u - tv c e g 和i s o i e cm p e g 的联合小组( j v t :j o i m 、,i d c o 砌n ) 于2 0 0 3 年3 月正式颁布的标准,同时被收录为m p e g 4 的第l o 部分,称为 a v c ( a d v 缸c e d d c o d i n g ) 。h 2 6 4 标准中并没有明确规定编码的流程,而是对 码流的格式作了详细具体的说明,因此理论上说,任何符合标准的码流均可被 h 2 6 4 解码器解码播放。除用于去除块效应的过滤器外,h 2 6 4 的编码框架与其他 编码标准类似,包括运动预测、变换、量化和熵编码等模块,但是每个模块的算 法都作了一定的改进。这些改进是h 2 6 4 的与众不同之处,也是其实现高效压缩 的根本原因。 h 2 6 4 制定的目标是提供一种比已有标准性能更高的视频编码标准,主要体 现为较高的编码效率、友好的网络交互性和精简的语法表示。基于此目标,h 2 “ 使用了两层编码结构,其中视频编码层( v c l :d c o d i n gl a y 啪实现对视频内 容的高效压缩编码,网络抽象层( n a l :n e 咐o f l 【a b s 嘶c t i o nl a y 呐负责对压缩数 据打包以适应在不同网络环境下传输的要求。 h 2 “的编码框架中采用了典型的基于离散余弦变换( d 和运动补偿 ( m o t i o nc 锄p s a t i o n ) 的混合编码方法:将图像划分成小块进行编码;采用帧内 空域预测和变换;采用帧间运动估计和补偿;对残差进行量化和熵编码。 此外,为了获得更高的压缩效率,h 2 6 4 中引入了许多新的特性 3 】: 1 ) 帧间预测的块大小可变,可以是1 6 1 6 ,1 6 8 ,8 1 6 ,8 8 ,如果是块模 式为8 x 8 的话,每一个子块还可以进一步选择8 8 ,8 4 ,4 8 ,4 4 四种模式之 一,如图2 - 2 所示。每一个子块都有自己的运动向量。与以往标准的p 帧、b 帧 不同,h 2 6 4 采用了前向与后向多个参考帧的预测。 图2 - 2 h 2 6 4 中块的模式 7 浙江人学硕十学位论文第2 章视频编码原理 2 ) 运动向量精确到j 庳像素( 对于颜色分量c b 和c ,运动向量精确到j 馏像 素) 。非整数坐标的像素。由插值决定其采样值。 3 ) 帧内预测有多种模式。利用当前块的相邻象素做预测,更有效地去除相邻 块之间的相关性,极大地提高了帧内编码的效率。 4 1 用过滤器去除边界的块效应。h 2 6 4 标准引入了去除块效应滤波器,对块 的边界进行滤波,滤波器的参数与块的编码模式、运动矢量等有关。去除块效应 滤波器在提高压缩效率的同时,改善了图像的主观效果。 5 ) 用4 4 整数变换取代传统的浮点d c t 变换,将变换分成两个部分,即变 换和缩放。变换矩阵的系数只包含整数l 或2 ,因此只需要移位。将缩放系数与 量化融合起来,每个系数用一个乘数除以2 的指数来表示,这样就不需要作除法。 4 4 整数变换可以减少块效应,也降低了计算复杂度。 6 ) 包含了两种熵编码方法:可变长编码( c a c :c o n t e x ta d a p t i v ev a r i a b l e 抽g l bc o d 部) 和二进制算术编码( c a b a c :c 彻t e x t - b 嬲e da d a p c i v eb i n a 叫 崩1 l i l e t i cc o d i n g ) 。 2 3 本章小结 编码模型中使用最为广泛的是混合编码,本章介绍了传统的混合编码框架, 并简要地描述了运动预测和运动补偿、变换和量化、熵编码等模块的算法。最后 分析了新兴的视频编码标准h 2 6 4 的几个重要特性。 浙江大学硕上学位论文第3 章可伸缩性编码 第3 章可伸缩性编码 3 1 可伸缩性编码原理 可伸缩性编码是目前视频编码领域的研究热点。解码器用编码得到的分层码 流的一部分进行解码,可以得到一定质量的视频。分层编码得到的码流由基本层 和增强层组成。基本层是解码所必须的基本信息,解码器只有得到基本层才可以 正确解码得到视频。增强层在解码时不是必须的,但加上增强层的数据,解码器 可以解码得到质量更好或分辨率更高的视频。从重要性来说,基本层有更高的优 先级,必须保证它的正确传输。 可伸缩性可以分为三个方面:信噪比( s n r ,s i 印a ln o i r a l i o ) 可伸缩性、空 间可伸缩性和时间可伸缩性。s n r 可伸缩性是指从个码流中可以解出视觉质量 不同的视频。编码中包括基本层和一个或多个增强层,基本层可以提供基本质量 的视频,随着更多增强层的加入就能逐渐提高视频质量。空闯可伸缩性是指从一 个码流中可以解出不同分辨率的视频图像,这样当终端用户的显示设备所支持的 图像分辨率不同时,不需要为每一种分辨率提供一个码流。时问可伸缩性是指从 一个码流中可以解出不同帧率的视频流。 3 2 可伸缩算法 3 2 1s n r 可伸缩性 一种简单的s n r 可伸缩性编码就是数据分割,即将编码结果中的数据按重要 性分成几个部分。例如,可以将控制信息,运动向量和d c t 低频的系数作为基 本层,d c t 高频的系数作为增强层。这样在传输时,若遇到网络拥挤,丢弃增强 层的信息,也可以重建出一定质量的视频。但是这种方法存在误差飘移的问题, 即当某一帧的增强层丢失时,以这一帧为参考帧的其他帧也会因此受到影响【4 】, 在重新遇到i 帧之前,误差飘移一直存在。【5 1 中将每个4 x 4 的d c t 变换系数重 新排列,在量化和熵编码之前,将系数重组成j 6 个子带,如所有块的d c 系数组 成一个子带,然后对这些子带进行编码,同时用插入l 帧和反馈的方法来解决误 差飘移的问题。另一种方法是通过设置多个量化价来实现s n r 可伸缩:首先用较 小的量化价对系数进行量化,将大部分的高频系数变成零,但会丢失较多的细节 9 浙江大学硕士学位论文 第3 章可伸缩性编码 信息然后将原来的系数减去反量化后的系数,再用更小的量化价量化得到增强 层,这个过程可以进行多次。得到多个增强层。这种方法也存在误差飘移问题, 要消除误差飘移,必须使基本层的预测不依赖于增强层 1 】。 除了上述可伸缩性算法外,为了达到更精细平滑的s n r 可伸缩性,m p e g 4 中提出了f g s ( f i g 啪u l a rs c a l a b i i i 研的概念。f g s 更适应于流媒体服务,如果 传输带宽发生变化,增强层可以随时被截断,而且截断部分的数据量可以根据带 宽适应性地调整,即最大限度利用带宽,使视频流的质量在当i ;i 带宽下达到最佳。 f g s 算法可以简单的用图3 1 表示,变换后的系数经量化熵编码后得到基本层, 这个过程和其他可伸缩算法中获得基本层的方法类似。然后用变换后的系数减去 反量化恢复出来的系数得到增强层的数据,再对这些数据按比特位的重要性进行 编码。首先要对数据进行“之”字形重排,从矩阵的形式转换为一维数组。然后 将系数表示成二进制形式,所有系数某个比特位组成一个b 卸l 姐e 。高位的 b i t p l 锄e 相对重要,因此在传输时先传高位的b i t p l 蛳,再按序传较低位的 b i t p l 锄e 。这种方法可以看成是一种数据分割,按重要性将数据分成多个b i t p l 柚e 。 当需要截断比特流时,截去相对不重要的位,尽量保留原来数据的主要部分( 高比 特位1 。如果带宽发生波动,即使在不同的位置截断比特流,还是可以使视频质量 变化得比较平滑。 图3 1 按比特位进行可伸缩编码 为了避免误差飘移,很多时候只是用基本层来进行预测,这样导致参考帧质 量不高,最后得到的图像残差包含较多的能量。【6 】中提出的p r o g r e s s i v ef i 鹏 胁删l 盯s c a l a b i l i t y ( p f g s ) 用已编码的增强层来预测后面帧的增强层,提高了运动 补偿的效率,同时也避免了误差的飘移,即使增强层有丢失也可以在几帧图像之 后恢复视频的质量。这是通过总保持一条从基本层到增强层的预测路径来实现 的。 l o 浙江大学硕上学位论文第3 章可伸缩性编码 3 2 2 空间可伸缩性 空间可伸缩性可以通过图像帧下采样( d o w ns 锄p l i i l g ) 得到,如图3 2 所示。 下采样是用平均运算算子得到低分辨率图像每个像素的采样值的过程在视频转 码中通常在压缩域上对图像进行下采样,这样可以不用将视频完全解码,就能得 到不同分辨率的视频流。为提高编码效率,还可以进行层问预测,即基本层上采 样后作为增强层的参考帧。 i m g es e q “,罕:二二 b a s el a y e r b a s el a y e r t 7 皇里e q d e 芝 善 _ - = ? ik ,聿一b a s e1 a y e r 1 与 l r 7 气三占i l 堕e 哩d 墼一j 1 蔷 f 瑟 。 e n h a n c 鲫e n t 一 r l a y e re n c o d e rp n h a n r p m e n t1a v p r 图3 2 空间可伸缩编码 3 2 3 时问可伸缩性 与s n r 可伸缩性和空间可伸缩性相比,时间可伸缩性的实现更为容易,只需 要将输入的图像帧分成不同的集合,分别对应基本层和各增强层,如图3 3 所示。 基本层的帧构成一定帧率的视频流,随着更多增强层的加入,帧率也逐渐提高。 当然必须满足的条件是较高层次的增强层的帧不能作为较低层次的增强层和基 本层的参考帧,否则当舍弃了增强层时,比它层次低的图像帧的质量会受到影响。 浙江大学硕士学位论文第3 章可伸缩性编码 口口臼口口口 口口鹕 o r i g i n a l s e u q e n c e b a s e 1 a y e r e n h 8 n c e m e n t l a y e r 图3 3 时间可伸缩编码 3 3m c t f 的可伸缩性框架 m c t f ( m 础o nc o m p c i l s a t i o nt e 肛l p o m lf i l t 哪被引入视频编码中,用来减少图 像序列在时域上的冗余,并且提供了时间可伸缩性图像序列中一部分图像在运 动预测中作为其他图像的参考帧。m c r f 通过p 和u 两个算子将参考帧和被预测 帧分成高频和低频子带。 3 3 1h 2 “的参考帧 h 2 “中的帧预测有i 、p 和b 三种。i 是指帧内预测,即用同一帧内已编码 的像素来预测当前块。p 是指前向预测,即从已编码的图像帧预测当前帧。b 是 指双向预测,即用多个己编码的图像帧来预测当前帧。对于p 模式,编解码器维 护一个参考帧表,表内保存了已编码的图像帧,这些帧在时间顺序上可以是当前 帧之前或之后。对于b 模式,编解码器维护二个参考帧表,其中一张表包含时间 顺序在当前帧之前的参考帧,另一张表包含时间顺序在当前帧之后的参考帧。对 于b 模式的预测,预测值可以表达为: p ,耐以,) = 。嘲以d + 。州以d ( 3 1 ) 其中,p 删指坐标为的像素的预测值,p r 嘲舶一为从参考帧表l i s t o 中的某 一参考帧得到的像素的预测值,p 删,为从参考帧表l i s t l 中的某一参考帧 得到的限的预测值,而w o 和w ,为权值,可以是由编解码器预先设定的,也可以 是根据参考帧与当前帧的在时间上的距离而定,即离当前帧越远的参考帧的权值 越小 h 2 6 4 的预测块大小是可变的,如图2 2 所示,每一个宏块都有自己的预铡 模式和参考帧,但如果宏块是8 8 模式的,那么各8 8 子块的预测模式和参考帧 1 2 浙江大学硕上学位论文 第3 章可伸缩十牛编码 是统一的 3 3 2 m c t f 原理 近年来出现了不同的基于m c r f ( m 0 6 0 n c o m p 钆s a t i o nt c m p o f a lf i l t c r ) 的视 频编码算法【7 ,8 】。这些算法的优势在于将小波变换嵌入到编码的运动补偿框架中, 达到了更好的编码效率。m c r f 对运动预测和补偿的过程没有特殊的要求,因此 可以与任何运动补偿算法融合在一起。 m c r f 可以分成三个步骤:1 ) 将输入的图像序列分成时问上的两个子带;2 ) 算子p 通过运动预测,为奇数帧从偶数帧得到预测帧;3 ) 算子u 将残差反向补 偿到奇数帧这个过程如图3 - 4 所示: 图3 - 4 m c t f 示意图 2 t 首先输入图像序列按奇偶帧分成两个集合,这两个集合在两个算子p 和u 的 作用下形成高频带和低频带。奇数帧图像经p 算子后得到高频信息,用& 表示第 | 帧的图像,则 峨= 最一只是。)( 3 2 ) 偶数帧图像经u 算子后得到低频信息, 丘= 岛i + 【,( 最)( 3 3 ) 算子p 即运动预测和运动补偿,而u 的过程恰好与p 相反,是将p 的结果,即 的残差反向补偿到帧s 弛小在理想状态下,p 和u 的补偿过程刚好相反,即 肘昂= m ,那么p 和u 是完全可逆的,其逆过程可以恢复出原始图像帧。但通 常p 和u 的运动补偿不是完全相同的,因此会引入一些图像变形。 3 3 3 m c t f 对h 2 6 4 的扩展 如果在运动补偿中嵌入h 脚小波或5 3 样条小波,恰好可以与h 2 6 4 中的预 测模式p 和b 相对应。若像素所在位置为,= ,如果运动向量为m | ,参考帧为 浙江大学硕上学位论文第3 章可伸缩性编码 ,那么, 弓b ( s ( )

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论