(通信与信息系统专业论文)限失真视频编码技术的研究和算法优化.pdf_第1页
(通信与信息系统专业论文)限失真视频编码技术的研究和算法优化.pdf_第2页
(通信与信息系统专业论文)限失真视频编码技术的研究和算法优化.pdf_第3页
(通信与信息系统专业论文)限失真视频编码技术的研究和算法优化.pdf_第4页
(通信与信息系统专业论文)限失真视频编码技术的研究和算法优化.pdf_第5页
已阅读5页,还剩68页未读 继续免费阅读

(通信与信息系统专业论文)限失真视频编码技术的研究和算法优化.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 为了进一步提高编码速度,促进视频编码技术在多媒体通信领域的实际应用, 本文对限失真视频编码的关键算法进行了深入的研究并提出了多种优化方法。本 文的讨论主要集中于混合编码框架这一应用最广泛的限失真视频编码方案,通过 引入编码模式的概念,本文对编码过程中的几个主要问题进行了分析,并给出了 混合编码框架的结构化软件设计方法及其针对桌面设备应用和手持设备应用的实 现方案。本文还从并行运算和面向对象两个角度出发,对混合编码框架进行了改 进,提出了一种新的参考图像组织方法和一种基于对象的编码模式选择算法,在 很大程度上降低了编码器的运算复杂度。此外本文还提出了一种专门针对低比特 率的视频应用快速的运动搜索方法,它大大降低了运动预测部分在整个编码运算 中所占的比例。 关键词:视频编码运动预测m m xh 2 6 4 h 2 6 3 a b s t r a c t i nt h i sp a p e r , at h o r o u g hs t u d yi sc a r r i e do u to v e rt h ek e ya l g o r i t h m so fd i s t o r t i o n c o n s t r a i n e dv i d e oc o d e c s e v e r a lo p t i m i z a t i o nm e t h o d sa r ep r o p o s e dt oe n h a n c et h e c o d i n gs p e e da n dp r o m o t et h ea p p l i c a t i o n so fv i d e oc o d i n g i na c t u a lp r a c t i c e 、t h e d i s c u s s i o ni sm a i n l yf o c u s e do nt h em o s t l yu s e dv i d e oc o d i n gs c h e m e :h y b r i dc o d e c t h ec o n c e p to f “c o d i n gm o d e ”b e i n gi n v o l v e d ,t h em a i np r o b l e m si nc o d i n gp r o c e s sa r e a n a l y z e d ,s t r u c t u r e ds o f t w a r ed e s i g nm e t h o do fh y b r i dc o d e ci s l a i do u ta n dr e a l i z a t i o n s c h e m e sf o rd e s ka p p l i c a t i o na n dh a n d h e l da p p l i c a t i o na r ep r e s e n t e dt h e n t oi m p r o v e t h e h y b r i dc o d e c ,t h ep a p e r h a sp r o p o s e dan e wm e t h o df o ro r g a n i z i n gr e f e r e n c e p i c t u r e sa n dan e wa l g o r i t h mf o rm o d e d e c i s i o nb a s e do nt h ec o n c e p t i o no fp a r a l l e l o p e r a t i o na n do b j e c t - o r i e n t e dc o d i n g ,t h r o u g h w h i c ht h ec o m p l e x i t yo fc o d i n gp r o c e s s h a sb e e nh i g h l yd e c r e a s e d f u r t h e r m o r e ,an o v e lf a s tm o t i o ne a i m a t i o na l g o r i t h mf o r l o wb i tr a t ev i d e oc o d i n gi sp r e s e n t e dt oc u td o w nt h ep e r c e n t a g eo fm o t i o np r e d i c t i o n o p e r a t i o n i nt h ew h o l ec o d i n gp r o c e s s k e y w o r d s :v i d e oc o d i n gm o t i o np r e d i c t i o nm m xh 2 6 4 h 2 6 3 创新性声明 y 5 , j 7 9 8 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人己经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或 其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做 的任何贡献均己在论文中做了明确的说明并表示了谢意a 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:盔挝!日期 兰! ! 三! ! ! ! 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生 在校攻读学位期间,论文工作的知识产权单位属西安电子科技大学。本人保证毕 业离校后,发表论文或使用论文工作成果时署名单位仍为西安电子科技大学。学 校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部 或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。( 保密的论文在 解密后遵守此规定) 本学位论文属于保密,在年解密后适用本授权书。 本人签名: 导师签名 争啦 日期 日期趔垡乡 第一章绪论 第一章绪论 1 1 引言 进入信息时代之后,信息的传递成为社会生活中至关重要的一部分,信息传 递的技术也得到了巨大的发展。通常,所传递的信息有多种形式,包括语音、音 乐、文字、图像、符号、数据甚至气味等,但最终可以归结为图像、语音和数据 三种。由于图像信息具有直观性强,信息丰富等特点,图像信息的传递即图 像通信技术在电子信息领域占据着重要的地位。 按照图像内容的变化性质来划分,图像可分为静止图像和时变图像两大类, 时变图像也就是活动图像,按照文献 1 以及通信研究领域内长期形成的习惯,本 文中将其称作视频。视频通信最早是以模拟的形式出现的,传统的电视系统通过 振幅调制实现模拟视频信号的远距离传输1 2 j ,然而,随着数字化技术的飞速发展, 数字视频信号的传输技术更受到人们的关注。 数字通信系统具备以下主要优点【3 l :1 抗干扰能力强。2 可以进行差错控制。 3 便于计算机处理。4 便于加密。5 易于集成化和大规模生产。6 易于构成一 个灵活、通用、多功能的综合业务信息传输系统。对于数字视频信号来说,还具 备可交互性和易于编辑等传统模拟视频信号不可比的优点川。因而可以预见,数字 视频最终会取代模拟视频,成为视频通信的主要形式。 原始数字视频信息的数据量是| 京人的,按照4 :4 :4 采样的n t f s 制式s i f 格式 的彩色数字电视信号的数据量达到6 0 8 m b p s ,这要求数字视频信号在传输之前必 须进行压缩,尽可能地消除信息的冗余,减少信号的数据量。数据的压缩是通过 信源编码来实现的,信源编码的主要目标是压缩每个信源符号的平均比特数或信 源的码率,因为一般信源输出的每个符号所能载荷的信息量远大于该符号实际的 信息量【4 】。信源编码可以分为无失真信源编码和限失真信源编码两种,对于前者, 要求原始信号能够得到无失真的还原,而对于后者,允许给定的失真存在。就数 字视频信号来说,多数情况下适当的失真是可以接受的,因而数字视频信号多采 用限失真编码。限失真编码理论所研究的主要问题是:如何在失真不超过某定值 的条件下,使编码所需的比特数最少,也即给定失真的条件下如何获得最大的数 据压缩率。 目前,限失真数字视频编码主要采用了线性预测和变换编码两种技术。用线 性预测的方法对图像信号编码是1 9 5 2 年由贝尔实验室首先提出的,1 9 6 6 年对从理 论上系统地提出了实用的编码方法,1 9 6 9 年进行了线性预测编码的实际实验。此 后,出现了各种改进的帧内和帧间线性预测编码方法和自适应预测编码方法p “7 1 。 2限失真视频编码技术的研究和算法优化 1 9 7 5 年以来,有人通过测量电视图像中运动物体的位移来进行帧间预测| 8 ,使数 码率得到了进一步的降低。变换编码是1 9 6 8 年有p r a t t 首先提出的,他采用的是傅 里叶变换。后来,相继出现了h a d a m a r d 变换、w a l s h 变换、斜变换、k l 变换和 离散余弦变换( d c t ) 等。变换编码是从频域的角度减小图像信号的空间相关性、 它在降低数码率方面取得了和预测编码相近的效果。进入8 0 年代之后,逐渐形成 了一套运动补偿和变换编码相结合的混合编码方案,大大推动了数字视频编码技 术的发展。9 0 年代初,i t u 推出了针对会议电视应用的视频编码建议h 2 6 1 ,这是 第一个得到广泛使用的混合编码方案。之后,随着不管改进的视频编码标准和建 议如h2 6 3 、m p e g l 、m p e g 2 、m p e g 4 、h 2 6 4 的推出,混合编码技术逐渐趋于 成熟,成为一种应用最广泛的数字视频编码技术。 1 2国际数字视频编码标准的发展概况 随着数字视频编码技术的不断发展和成熟,出现了大量视频编码应用方案。 为了使各种应用系统实现兼容,同时推进技术的市场化,各企业联盟、标准组织 和专门化标准委员会就新技术的规范化制定了一系列的标准。国际电信联盟( i t u ) 和活动图像专家组( m p e g ) 是对数字视频编码标准贡献较大的两个组织,多年来 它们一直致力于制订各种新的建议和标准,并对已有的标准进行改进。 i :i 1 2 0 :i t u t ( 当时称作c c i t t ) 于1 9 8 4 年制定的h 1 2 0 建议是第一个国际 数字视频编码标准【1 0 1 ,它采取条件补偿( c o n d i t i o n a lr e p l e n i s h m e n t ) 的方法,对 画面中发生移动的部分进行差分脉码调制( d p c m ) ,同时结合标量量化技术和变 长编码技术,初步实现了视频信号的有效压缩。在1 9 8 8 年的第二个版本中,h1 2 0 还增加了背景预测技术和后来广泛使用的运动补偿技术,进一步提高了压缩效率。 不过,随着新技术和新标准的不断出现,h 1 2 0 系统已基本被更有效的数字视频压 缩系统所代替。 h 2 6 1 :这是第一个投入广泛实际应用的数字视频编码标准【l ,它使数字视频 信号能够以p x 6 4 k b p s ( p = 1 3 0 ) 的速率在电信网络中传输。更为重要的是,它 奠定了混合编码框架的雏形,这个框架眺运动补偿、图像分块变换、标量量化和 熵编码等技术为主要特征,至今依然是实现限失真数字视频编码的最为重要的一 种方法。h2 6 1 于t 9 9 0 年制定,主要用于双向视频通信,包括低端的可视电话业 务和较高速率要求的视频会议业务。作为h3 2 0 标准簇| 1 2 i 的一部分,h 2 6 1 是基于 i s d n 的视频会议系统中常用的一种视频编码方法。 j p e g :j p e g 是联合图像专家组( j o i n t p i c t u r ee x p e r t sg r o u p :j p e g ) 提出的 种静止图像压缩规范,由于联合图像专家组是圈际标准化组织( i s o 、和1 t u 共同 蠢l 建昀一个工作小组,j p e g 标准既是1 s o i e c 幽际标准1 0 9 1 8 1 ,又是i t u 的t 8 1 第一章绪论 标准。j p e g 标准的基本编码方案【1 3 i 同h 2 6 1 的i n t r a 编码模式类似,只是增加 了直流变换系数的预测编码,同时参考人的主观感觉设计了变换系数量化表。活 动p e g 技术是i p e g 标准的压缩算法在数字视频编码中的应用,这种技术对运动 图像分帧进行p e g 编码,编码后的图像之间不存在信息依赖,易于实现精确到帧 的视频编辑,因而,在数字电视节目制作领域得到了广泛的应用。此外,随着网 络多媒体技术的不断发展,联合图像专家组从1 9 9 7 年开始着手制订新的静止图像 压缩标准j p e g 2 0 0 0 ,并于2 0 0 1 年正式公布。j p e c 陀0 0 0 引入了小波变换和自定义 感兴趣区域等新思想u 4 i ,为图像压缩技术开拓了更为广阔的发展前景。 m p e g - i m p e g - 2 :活动图像专家组( m o v i n gp i c t u r ee x p e r t sg m u p :m p e g ) 成立于1 9 8 8 年,m p e g - i 是其制订的第一个音视频编码标准i i 。活动图像专家组 最初是为了解决这样一种压缩问题而成立的:怎样在存储不压缩音频的介质 ( c d r o m ) 中存放音频和视频信息,1 9 9 3 年通过的m p e g - 1 标准初步实现了这 一想法,它可以使数字视频在大约1 5 m b i t s 的速率下达到甚至超过家用录像系统 ( v i d e oh o m es y s t e m :v h s ) 的品质,并将压缩的音频也放到了普通的c d r o m 中。从技术特征上来分析,m p e g 依然采用的是传统的混合编码框架,只是增加 了双向帧间预测技术,并且将运动补偿的分辨率提高到半像素。由于应用目标不 同,m p e g 1 和h 2 6 1 分别在高比特率的情况下和低比特率的情况下显示出各自的 优点。1 9 9 4 年,活动图像专家组制订的第二个标准m p e g - 2 正式推出。在与m p e g - l 保持兼容的同时,作为数字电视系统中的视频编码标准,m p e g - 2 支持s d t v 和 h d t v 分辨率的视频输入,输出数据速率最高达到8 0 m b i t s i ”1 。 h 2 6 3 1 t 2 6 3 + :1 9 9 6 年i t u - t 推出了针对甚低比特率的视频压缩标准h 2 6 3 建议1 1 7 l 。h 2 6 3 最初是针对1 0 - 3 0 k b i t s 范围的甚低比特率应用设计的,但实验结果 表明,在任意速率范围内,h 2 6 3 都取得了惊人的压缩效果,成为当时最成功的数 字视频压缩标准。在比特率低于3 0 k b i t s 的应用中,同样的视频质量前提下,h2 6 3 的输出码率仅为h 2 6 1 的一半甚至更少。h2 6 3 采用了诸如可变尺寸块运动补偿技 术、重叠块运动补偿技术、无限制运动矢量技术和运动矢量预测技术等一系列新 的视频编码技术,为混合编码框架的进一步发展奠定了基础。着手制定h2 6 3 建 议的i t u t 第1 6 研究小组( s g l 6 ) 在h 2 6 3 建议推出之后继续对其进行改进,将 各种新技术以附件的形式加入到h 2 6 3 中,并提供相应的测试模型( t e s tm o d e l ) , 使h2 6 3 不断得到完善。1 9 9 8 年公布的h2 6 3 + t 7 1 和其后的h 2 6 3 + + 分别是改进后 的版本。 m p e g 4 :活动图像专家组制订m p e g 4 的初衷是提供一种用于视频会议和 可视电话的甚低比特率的数字视频编码方法,但是随着多媒体硬件技术和多媒体 信息技术的发展,更复杂的算法实现成为可能,m p e g 4 最终被定位为一种基于内 容的,支持多媒体信息内容访问的开放的数字视频编码标准f i 。i v l p e g 4 中基于 4 限失真视频编码技术的研究和算法优化 对象的编码和比特分配思想是其最大的创新之处,它引入了视频对象的概念,一 改传统的基于帧的编码方法。m p e g 4 标准于1 9 9 8 年正式公布,当时的文件共包 括系统、视频、声音、一致性测试、参考软件和集成框架六个部分。 e 1 2 6 4 :1 9 9 8 年,i t u t 第1 6 研究小组在对h2 6 3 不断改进的同时,还启动了 另一个研究项目h 2 6 l ,目标是制定一个新的数字视频编码标准,使其编码效率能 够两倍于当时己投入使用的标准。这个项目具体由视频编码专家组( v c e g i t u t s g l 6 q 6 ) 负责,后来,活动图像专家组也加入进去,成立了联合视频组( j o i n tv i d e o t e a m :i v t ) ,共同来完成标准的最终制订工作,2 0 0 3 年3 月,标准的最终草案公 布,称作h 2 6 4 a v c 或m p e g - 4v i s u a lp a r t1 0 1 1 9 1 。与以前的视频编码标准不同, h 2 6 4 不仅含有一个规定视频编码算法的视频编码层( v c l ) ,还包括一个规定网 络传输规范的网络抽象层( n a l ) 。h 2 6 4 的视频编码层采取的编码框架仍然是传 统的混合编码框架,h 2 6 4 编码效率的提高也不是其中某一种新的编码技术所产生 的决定性的结果,而是多种新技术所产生的细微的效果积累而致。这些新技术包 括:多种新的帧内预测方法、可变尺寸块的运动补偿技术、多参考帧的运动补偿 技术、4 x 4 整数变换技术、基于上下文的二进制算术编码技术以及新的环路滤波 技术【2 。与先前的标准相比较,h 2 6 4 的应用前景更为广泛,它允许在因特网中以 1 m b i t s 的速率传送电视质量的视频信号,它可以使8 m h z 的模拟带宽中容纳两倍 于m p e g - 2 编码的数字电视频道,它使无线视频通信成为可能,它对传统的数字 媒体存储技术也将产生巨大的影响很多其它方面的应用现在还是无法预料 的,但可以肯定,h 2 6 4 的制定标志着限失真数字视频编码技术开始走向成熟。 除了上述国际标准之外,中国也在制定具有自主知识产权的音视频编码标准。 2 0 0 3 年1 1 月底,中国国家信息产业部数字音视频编解码标准组正式发布a v s 标 准草案。a v s 是“信息技术先进音视频编码”系列标准的简称,a 、,s 工作组对外 宣称其视频部分的编码效率达到m p e g 2 的2 到3 倍,超过了国际标准h 2 6 4 a 、,c , 而且算法复杂度有所降低1 2 ”。目前a v s 标准正在通过正式程序提请成为新的国际 音视频编码标准。 第二章限失真视频编码技术的理沦基础 第二章限失真视频编码技术的理论基础 2 1s h a n n o n 信息论概述 信源编码通过减少信源中存在的信息冗余而实现数据压缩的目的,其理论研 究开始于s h a n n o n 的信息论22 1 。信息论理论首次对信息的概念进行了科学的表述 并给出了量度信息的方法;信息论中的无损信源信源编码定理和率失真理论是整 个信源编码理论的基础。 2 1 1信息量和熵 假设用概率空间i x ,p 】来描述一个信源,x = m 1 ,尬,a 甜是信源所有可能 消息的集合,p = p - ,p 。,肌) 是对应的先验概率分布,则消息 西的自信息量由 式( 2 1 ) 定义: ( m ,) = 一l o g p ,( 21 ) 信源各消息的平均信息量h 由式( 2 2 ) 给出: h = 一只l o g p 。 ( 22 ) 日也称作信源的熵,它是信源编码的码率所能达到的极限。 设离散信源输出平稳序列:功,x 2 ,h ,其中靖取值于集合f 口,a 。 则我们可以根据式( 2 3 ) 求得长的序列中平均每个信源符号的信息熵: h ”= 一寺p ( x l = 气,焉= ) l o g p ( x i = a i l h = a i n ) ( 2 3 ) 1 t - = t i n = l 姗 若h j 0 ,只要满 足 三业 ( 24 )nlo g , 、 则当足够大时,译码错误概率能为任意小。 当采用二元编码时,r = 2 ,式( 2 4 ) 成为: 专 ) + 占 ( 2 5 ) 由此可以看出,等长信源编码定理给出了等长编码时每个信源符号所需的二 元码符号的理论极限,这个理论极限由日决定。 变长信源编码定理: 若一个离散无记忆信源s 具有熵同,并存在含有,个字母的码符号集,则 总能找出一种无失真的编码方法,构成唯一可译码,使其平均码长满足 掣z p j u ,) d ( 吩,吩) ( 2 7 ) i = i j 2 l 。 式( 2 7 ) 中的a ( u 。u j ) 为失真函数,常见的失真函数有绝对值失真,平方失真等1 4 l 。 由式( 2 7 ) 可以看出,如果信源的概率分布给定之后,决定平均失真的仅仅是信源到 信宿的转移概率。 i 噪声 叫嚣卜- 冈 卜叫解码1 - 1 _ | p ( v i u ) 图2 - 1点对点通信系统框图 有了平均失真的表达式,就可以定义率失真函数如式( 2 8 ) : r ( d ) = m k i 。nd 、,( u ,v )(28)p(v 、7 j h k 户( d ) 、 、 8 限失真视频编码技术的研究和算法优化 其中,p ( d ) 表示能使平均失真小于或等于d 的所有转移概率的集合,( u ,v ) 为 接收端获得的平均信息量,它的最小值仅与d 有关。可以看出,率失真函数给出 了在满足限失真准则( 平均失真不大于d ) 的条件下,信源必须传输的信息率j r 的下限值。当每个信源符号的比特数低于月) 时,不存在能使失真小于d 的编码 方法;而给定允许的最大失真d 时,也没有一种编码方法可以是每个信源符号的 比特数低于月( d ) 。 一般,r ( d ) 是很难计算的,只有在一些特殊情况下可以得到r ( d ) 函数的表达 式【”。 2 2预测编码 对于相关性很强的信源序列,单个信源符号的信息熵要远大于信源的熵率。 因此,为了能够进一步提高压缩效率,需要尽量解除相关性,使信源的输出转化 为相互独立的序列。预测是常用的解除相关性的方法之一。 在相关信源的编码过程中,可以根据已编码的符号来计算待编码符号的预测 值,然后对它与实际值的差值进行编码。通常采用均方误差最小的预测准则,信 源的相关性越强,预测越精确,预测值与实际值的差值的方差越小,根据率失真 理论,对这些差值进行编码后的数据量也就越小。 线性预测是常用的预测方法,设有信源序列x j ,砘h ,则并的m 阶线性 预测由式( 29 ) 实现: 上 一= a ,x 。 ( 2 9 ) i = l 预测系数可以由式( 2 1 0 ) 得到,其中西“,。庐m = e ( x ;c 0 ,k = 1 ,m ,因而可以 形成一个由m 个方程组成的m 元方程组,该方程组的具体求解方法可以参考文献 2 5 a 丸= e 口,丸一, ( 2 1 0 ) t = l 在实际应用中,通常很难预先得到信源过程的相关系数,而且有时信源是非 平稳的,在这种情况下,一般采用自适应预测的方法 2 5 , 2 6 。 以上所讨论的预测方法,力求在理论上达到预测误差最小或接近簸小:这样 i 二往使h 辣复杂度增加,因而实现起来比较困难。所以实际应用中多采用直接差 值编码,这在信源序列的相关系数接近l 时是很有效的。差分脉码调制( d p c m ) 技术( 图2 - 2 ) 是最常用的直接差值编码技术,它在图像编码( 包括视频编码) 和 讯音编码中都何着广泛的应用1 7 12 ”,然而,值得注意的是如果信源序列的相关性 第二章限失真视频编码技术的理沦基础 9 不是很强的时候,直接差值编码不但不能起到数据压缩的作用,反而会使编码后 的数据量增加“。 图2 - 2d p c m 系统编解码框图 2 3变换编码 变换是一种数学工具,通过变换可以获得同一事物在不同域内的不同描述。 假设 e n ) 是希尔伯特空间日中的一个标准正交系( 规范正交系) ,则对于任意 x 日,有: x = 口。e 。 ( 2 1 1 ) n = l 其中, q = ( x ,e 。) , ( 21 2 ) 也即x 与e n 的内积。 对于i 空间和l 2 随b 空l b 7 【2 ”,如果 e n ) 采用三角函数系,k ( 21 2 ) 分别可以 写作盼3 0 , 孔1 : q = n - 1 e x p ( - j k = o争 q = 争 t ( 2 1 3 ) q = 士e x ( 0 e x p ( 一警铀 ( 2 1 4 ) 口一口邮o a 其中,式( 2 1 3 ) 是离散傅里叶变换的正向变换形式,也可以写作矩阵形式如式 ( 2 1 5 ) 。如果f e 。) 采用其它正交系,还可以构造出其它多种变换形式:如k l 变换, w a l s h 变换,小波变换和离散余弦变换( d c t ) 等。 a = x h = ( 甑p ( 兰警) ) 。 ( 2 1 5 ) v 。 通过交换,离散序列的统计特性会发生变化,在数据压缩中,则常常希望序 列的相关性降低,从而对变换后的序列进行编码时码率能够得到下降。 k - l 变换p i 是均方误差准则下的最佳变换,经k - l 变换后的随机序列之间是互 不相关的,但是,由于k - l 变换要求知道随机序列的统计特性,在工程实践中并 不能得到广泛的使用。图像压缩中最常采用的变换是d c t 3 舢,前面提到的国际视 频编码标准几乎都采用了d c t ,因为它不但具有良好孵去相关效果,而且具备许 1 0限失真视频编码技术的研究和算法优化 多成熟的快速算法【”】,易于工程上的实现。此外,随着小渡理论的不断成熟,小 波变换也开始应用与图像压缩领域。j p e g 一2 0 0 0 标准中已经正式采用小波变换作为 变换编码的手段i “i 。 图像数据是二维数据,因而对图像数据需要进行二维变换。二维变换分为两 个步骤:首先对图像数据的各行做一维变换,然再对图像数据的各列做一维变换。 写作矩阵形式如式( 2 1 6 ) : y = h x h ( 2 1 6 ) 其中x 为输入图像矩阵,y 为输出图像矩阵,h n 为变换矩阵。 2 4量化技术 量化是一种多对一的映射,是引入失真的一个过程,也是限失真信源编码技 术的基础。无论是对时间采样后的模拟信号进行数字化的过程,还是对数字序列 进行有损压缩的过程,都需要完成一个由输入集合到输出集合的映射,这个映射 是由量化来实现的。文献【3 4 】中对量化技术做了详细的介绍。 最简单的量化方法是将单个样本的取值进行最化,因为被量化的变量是一维 的,所以这种量化方法叫做标量量化。 设”阶标量量化器的输入为连续随机变量x ,输出为离散随机变量y ,其中: x ( a o ,) ,y 沙,儿,m ) ,锄y 矾此a n q 一弘。 则y 的取值由下式决定: y = 如 若a j 1 x 口i ( 2 1 7 ) 式( 2 1 8 ) 给出了量化器的平均失真: 。 月q d ( 功= i d ( x , y ,) ,( x 游 ( 2 ,1 8 ) ,。1 1 其中撒为失真函数,m ) 为x 的概率密度函数。 当量化阶数7 一定时,选择合适的a i 和y i 可以使量化器的平均失真最小,这 叫的量化称为最佳标量量化。若输入变量x 满足均匀分布,可以将( 劬,) 均匀分割 成打个小区间,每个小区间的中点作为量化值。这种量化方法叫做均匀量化,对 于均匀分布的输入变壁来说,均匀量化是最佳标量量化1 4 】。当采用均方失真函数时, 可以计算出其平均失真为a 2 1 2 ,其中厶= ( a o ) n 。 然而,从率失真的角度来考虑,最佳标量量化并不能达到最佳率失真编码的 要求,通常需要对量化后的数据进行继续进行处理,如无损编码等1 4 j 。 为了使罱化后不再进行后处理而能逼近率失真函数的界,人们开始探讨根据 多个连续信源村号联合编码的方泫,即矢量量化技术。假设x ; x l ,x 2 ,x n j 是 第二章限失真汛期编码技术的理论基础 l 信源的一个维矢量,它的取值范围是维空间中的一个区域r “,一个上级的矢 量量化器就是x 到上个维量化矢量y 1 y 2 ,y l 的映射函数q ( x ) 对于 任意y ,1 ,2 ,e ,指定一个维的区域a ,对于所有x a ,有q ( x ) = y i 。 其中a j 称为y ,的包腔,各量化矢量称为码字,它们的集合称为码书。如果选择的 码书和各包腔可以使平均失真最小,这时的矢量量化称为最佳矢量量化。文献 3 5 给出了使用递推的方法来逼近最佳矢量量化的l b g 算法,它是当前的矢量量化技 术的基础算法。 1 2 限失真视频编码技术的研究和算法优化 第三章混合编码框架的算法分析 3 1 1 输入图像格式 31h 2 6 3 视频编码标准 表3 - 1h 2 6 3 的5 种图像格式 h 2 6 3 支持的输入图像格式共有5 种( 表3 1 ) ,它们均按照c c i r 6 0 1 建议中 的定义,对电视信号中的一个亮度分量和两个色差分量分别进行采样,并将每个 样本点按8 位数字化,形成2 5 6 个等级。图3 1 给出亮度信号和色差信号采样位置 的示意。 i o!oo i l i ! o;o0 ! i ; oioo i x 亮度信号采样点 。色差信号采样点 块边界 图3 1亮度信号和色差信号采样位嚣示意 3 1 2编解码单元的组织 h :b 3 建议小的基本编码单元是宏块t , l v l b ) ,作为图像中的一1 、1 6 x1 6 像索 第三章混台编码框架的算法分析 l : 的区域,每个宏块包含4 个8 x 8 的亮度块和两个8 8 的色差块。图像在编码前 部要破分割成若干个宏块( 图3 2 ) ,它们按照从左到右,自上而下的扫描顺序排 研j 。 图3 - 2输入图像的分割 同时,宏块也是最基本的解码单位,解码器输入的二进制码流是以宏块为单 位进行组织的,每个宏块包含着各亮度块和色差块的变换系数信息,运动矢量信 息以及宏块的量化信息。 此外,一定数量的宏块可以构成一个块组( g o b ) ,作为最小的可独立解码的 单元( 解码过程不依赖与空间上相邻的其它单元) 。每个块组的宏块数目以及每幅 图像的块组数目是由图像的格式决定的,以q c w 。图像为例:一个块组包含一个宏 块行,一幅图像由1 0 个块组组成。当然,也可以不采用块组,整幅图像成为一个 最小的可独立解码的单元。 3 1 3 主体编码算法 图3 - 3 所示为h 2 6 3 的编码框架【1 7 l ,它描述了h 2 6 3 的主体编码算法。这是一 个典型的分块变换与运动补偿差分编码相结合的混合编码框架,其中的变换采用8 8 d c t ,运动补偿的精度达到1 2 像素。 3 1 4编码选项 为了针对不同的应用进一步提高编码效率,h 1 2 6 3 建议还以附件的形式给出了 四种主体算法外的编码选项:非限制运动矢量模式、基于语法的算术编码模式、 先进预测模式和p b 帧模式。 限失真视频编码技术的研究和算法优化 帧间帧内指示 图耋曩蓁蓁兰 与否指示 量化器指示 量化变换系数 去图像l 位移矢量 图3 - 3h 2 6 3 的编码框架 菲限制运动矢量模式将运动矢量的取值范围从【1 6 ,1 5 5 】扩大至l j 【- 3 1 5 ,3 1 5 】,并 允许运动矢量指出图像外。当运动矢量指出图像外时,无法获取的预测值用图像 边缘代替,这需要对图像边缘进行扩展( 舀3 _ 4 ) 。在某些含有摄影机平移因素的 视频场景中,允许运动矢量指出图像外能够显著提高运动补偿的效果。 图3 - 4图像边缘扩展 基于语法的算术编码技术能够提高变换系数无损编码的效率。 先进预测模式初步采用了变尺寸块的运动补偿技术,允许以1 6 1 6 和8 x8 两种大小的块进行运动补偿,同时还采用了重整块运动补偿的技术1 3 。这两种新 技术使编码效率得到了进一步的提高,其中,后者还有助于消除由块变换产生的 吉块效随。 第三章混合编码框架的算法分析 i5 p b 帧模式允许编码器同时对两幅图像进行编码,其中一幅采用前向预测,另 幅采用双向预测,( 图3 5 ) 。 图3 - 5p b 帧示意 对于采用p b 帧模式编码的图像,码流中的每个宏块单元包含1 2 个8 8 块的 信息,其中6 个属于前向预测的图像,另外6 个属于双向预测的图像。p b 帧的优 点在于节省了控制信息,在没有明显比特率上升的前提下,帧率可以增加一倍。 3 2h 2 6 4 a v c 标准简介 h 2 6 4 a v c 是目前算法复杂度最高、性能最好的基于混合编码框架的视频编 码标准( 图3 6 ) ,其中采用了多种以前的视频编码标准中不曾出现过的新技术。 图3 - 6h 2 6 4 编码器基本结构 6 限失真视频编码技术的研究和髯法优化 3 2 1网络抽象和数据分割技术 h2 6 4 标准分为两个层面:视频编码层( v c l ) 和网络抽象层( n a l ) 。视频 编码层主要规定如何有效地表示视频内容,即视频编码的问题,而网络抽象层主 要负责为编码后的数据进行打包并提供头信息,以适应网络传输或者媒体存储的 需要| 2 0 j 。网络抽象层把数据封装成为若干网络抽象单元,这些网络抽象单元可以 在现有的大部分网络中以包的形式传送。对于解码端,可以认为这些网络抽象单 元或者正确无误,或者在网络中丢失,或者存在位错误。一般,网络抽象单元头 信息中会设有相应标志来指示是否发生位错误。解码器能够识别发生位错误的网 络抽象单元并决定是对其进行解码还是丢弃之。 封装于网络抽象单元中的数据称为原始字节序列载荷( r a wb y t es e q u e n c e p a y l o a d s ) ,简称为r b s p 。根据r b s p 的不同,网络抽象单元中可以分为不同的类 型。 + h 2 6 4 中的r b s p 主要分为两种,一种为视频编码数据,一种为控制数据。视 频编码数据可以以片( 每个片由若干宏块组成) 为单位进行组织;也可以对片进 行数据分割,即将每个片中编码后的数据按类型分为三种,同类型的数据组织到 一起,形成三个数据划分( d a t ap a r t i t i o n ) ,视频编码数据以数据划分为单位进行 组织。控制数据是指待视频序列参数、图像参数等信息。 3 2 2整数变换技术 一1 ( 1 6 x 1 6 帧内预测模式) 1 6 1 7 噙障 亮度信号色差信号 围3 7宏块中的变换块及蒸顺序号 h2 6 4 中使用了三种变换方法:第一种为4 x 4 的整数变换,针对亮度信号和 包舞信号的差值:第二利,为4 4 的h a d a m a r d 变换1 “,针对1 6 1 6 的帧内预测摸 第三章混合编码框架的算法分析 17 式下亮度信号经4 4 整数变换后得到的直流系数组成的4 x 4 矩阵;第三种为2 2 的h a d a m a r d 变换,针对包差信号经4 4 整数变换后得到的直流系数组成的2 2 矩阵。作为h2 6 4 的一个基本编码单元,每个1 6 1 6 的宏块需要对2 4 个4 4 的块进行整数变换,并对两个2 2 的块进行h a d a m a r d 变换,某些情况下还需要 再进行一次4 x 4 的h a d a m a r d 变换( 图3 7 ) 。 以上提到的4 4 整数变换是在4 x 4 d c t 的基础上演变而来的( 见附录b ) , 由于变换是以整数的形式进行的,因而避免了浮点计算精度问题引起的变换和反 变换之间的不匹配。 3 2 3灵活的运动补偿技术 可变尺寸块、多参考帧和1 4 像素精度是h2 6 4 运动补偿技术的三个新特征。 在h2 6 4 中,运动补偿的块共有7 种尺寸:1 6 1 6 、1 6 8 、8 1 6 、8 8 、8 4 、4 8 、4 x 4 。根据运动补偿采用的块尺寸的不同,宏块的编码模式分为四种, 前三种模式分别按照一个1 6 x1 6 块、两个1 6 8 块和两个8 1 6 块来进行运动补 偿:最后一种模式记作p 8 x 8 ,在p 8 x 8 模式下,一个宏块被分为4 个8 8 的子块, 而每一个子块又有4 种可能的子模式,分别按照一个8 8 块、两个8 4 块、两 个4 8 块及四个4 x 4 块进行运动补偿( 图3 8 ) 。 模式1 ( 1 6 x 1 6 )模式2 ( 1 6 x 8 )模式3 ( s x l 6 ) p 8 x 8 模式 子模式1子模式2 子模式3 子模式4 ( 8 x 8 ) ( 8 x 4 ) ( 4 x 8 )( 4 x 4 ) 图3 - 8h2 6 4 中的可变尺寸块运动补偿 在h 2 6 4 中,允许采用多个参考帧来进行运动补偿,这在很多自然场景的周 期变换以及镜头在两个场景中交替转换等情况下可以提高编码效率。在图3 - 8 所示 的四种宏块的编码模式中,每个1 6 1 6 块、1 6 8 块、8 1 6 块和8 8 块均可以 采用不同的参考帧。 在h 2 6 4 中,运动补偿的精度达到1 4 像素,这在h2 6 3 中i 2 像素精度的基 础上叉提高了一倍。 8 限失真视频编码技术的研究和算法优化 3 2 4 先进的环路滤波技术 为了尽量消除块变换造成的块效应现象,h2 6 4 采用了一个自适应的环路滤波 器( 图3 - 6 ) 。这个滤波器根据块边缘信息的不同采用不同的滤波权重,因而可以 在有效消除块块效应的同时又不会影响图像的锐度;另外,环路滤波是作为编码 器的一部分直接对编码器端的参考图像进行的,与仅仅作为后处理的解码器端的 去方块滤波相比,环路滤波在改善主观质量的同时还可以有效地提高编码器的编 码效率。 3 2 5 帧内预测技术 在h 2 6 4 中,除了可以利用时间的相关性进行帧间预测外,还可以利用空间 的相关性进行帧内预测。亮度信号的帧内预测分为两种,一种是以4 4 的块为单 位,共包括9 种预测方式( 图3 9 ) ,另一种是以1 6 x 1 6 的块为单位,共包括4 种 预测方式( 图3 1 0 ) 。色差信号的帧内预测以8 8 的块为单位,也包括4 种预钡8 方式,与亮度信号1 6 1 6 的块的预测方式相似。 图3 - 9亮度信号4 4 块的9 种预测方式 第三章混合编码框架的算法分析 3 2 6熵编码技术 图3 1 0 亮度信号1 6 x 1 6 块的4 种预测方式 除了指数型g o l o m b 码f ”i 和基于上下文的变长编码( c a v l c ) 相结合的熵编 码技术之外,h 2 6 4 还提供了一种基于上下文的二进制自适应算术编码技术 ( c a b a c ) 。 在以前的标准中,控制信息、运动信息和量化后的变换系数多采用h u f f u m a n 编码,使用静态的概率估计码表,这样就忽略了不同视频流在统计特性上的区别, 也忽略了待编码符号之间的相关性。c a b a c 通过建立上下文模型并自适应地更新 待编码符号的统计特性解决了这两个问题【3 8 i ,另外,采用c a b a c ,每个符号可以 用精确到小数的比特数来表示,能够更有效地遥近符号的熵。 3 3混合编码框架的算法分析 混合编码是一种运动补偿、分块变换、差分编码相结合的一种视频编码方法, 经过多年的发展和改进,已经成为目前最成熟、应用最广泛的视频编码方法。在 这个算法框架中,运动补偿、变换和差分编码相互影响,不同的运动补偿方法、 不同的量化系数、不同的差分编码方法构成不同的编码模式,而每种编码模式针 2 f )限失真视频编码技术的研究和算法优化 对不同的内客又体现不同的率失真性能,因此,编码器的控制成为混合编码算法 的关键问题,即必须明确“哪一部分视频内容应当用哪种编码方法以及采用什么 样的编码参数”1 3 9 。 图3 1 1 给出了典型混合编码算法的框图,其中需要编码器解决的问题有: 】按照何种方式将图像划分成基本的编码单位。 2 每个基本的编码单位采用何种预测方式来进行差分编码。 3 如果利用视频内容时间的相关性来进行预测,那么采用什么样的运动补偿 方式。 4 如果不利用视频内容时间的相关性进行预测,那么采用什么样的方法来表 示该基本编码单位的内容。 3 3 i图像划分 图3 1 l 典型混合编码框架 大部分视频编码算法采用规则矩形对图像进行划分,这种最简单的划分方式 可以尽可能减少额外的形状描述信息。在早期的基于混合编码框架的视频编码标 准h 2 6 1 中图像被划分成一系列1 6 x1 6 的称作宏块的矩形区域,编码器以这些 矩形区域为单位对图像进行编码,这是因为1 6 x1 6 的块刚好起运动补偿的基本单 位。在后来的标准如h 2 6 3 、h 2 6 4 中。运动补偿的单位不再局限于】6 x1 6 的块, 假以1 6 6 的矩形区域为单位对图像进行划分自0 方式却保留了下来。这种1 6 x 1 b 第三章混合编码恒架的算法分忻: 的矩形区域依然被称为宏块,它不仅是最基本编解码单位,同时也是比特流中最 基本的数据组织单位

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论