(通信与信息系统专业论文)h264帧内预测模式选择与码率控制算法研究.pdf_第1页
(通信与信息系统专业论文)h264帧内预测模式选择与码率控制算法研究.pdf_第2页
(通信与信息系统专业论文)h264帧内预测模式选择与码率控制算法研究.pdf_第3页
(通信与信息系统专业论文)h264帧内预测模式选择与码率控制算法研究.pdf_第4页
(通信与信息系统专业论文)h264帧内预测模式选择与码率控制算法研究.pdf_第5页
已阅读5页,还剩51页未读 继续免费阅读

(通信与信息系统专业论文)h264帧内预测模式选择与码率控制算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 h 2 6 4 标准是目前国际上最新的视频压缩标准,由国际电信联盟( r r u ) 和国 际标准化组织( i s o ) 联合制定。h 2 6 4 采用了一系列先进的编码技术,和以前的 视频标准相比,它具有更好的压缩性能和良好的网络适应性,拥有十分广阔的应 用前景。但与此同时,h 2 6 4 的算法复杂度较高,较难满足实时应用的需求。因 此,研究其算法,并根据实际需求进行算法改进和优化,具有重要的理论意义和 应用价值。本文主要研究h 2 6 4 帧内预测模式选择算法和码率控制算法。 帧内预测技术是h 2 6 4 的关键算法之一,本文对h 2 6 4 标准中的帧内预测算 法进行了分析,针对h 2 6 4 支持的帧内预测模式较多,全部进行率失真优化导致 算法复杂度较高的问题,提出并实现了一种模式选择快速算法。该快速算法通过 对宏块纹理特性的统计,进行模式类型预判断,预先排除可能性较小的模式,选 取部分模式作为待测模式进行下一步的率失真优化。实验结果表明,该快速算法 能够在不明显降低编码性能并保证图像质量的前提下,降低帧内预测模式选择的 计算复杂度,有效提高编码速度。 由于h 2 6 4 的模式选择过程采用了率失真技术,导致h 2 6 4 的码率控制策略 和其它标准存在差异。本文对码率控制的原理和几种经典的码率控制算法进行了 研究,在此基础上,分析了h 2 6 4 码率控制算法中的“蛋鸡悖论”和采用的码率 控制算法,指出现有算法的不足之处,并提出了一种利用纹理信息进行复杂度判 断的码率控制改进方案。 关键词:视频编码h 2 6 4帧内预测模式选择码率控制 a b s t r a c t h 2 6 4i st h el a t e s tv i d e oc o d i n gs t a n d a r dd e v e l o p e db yi t ua n di s o c o m p a r e d w i t ht h ep r e v i o u sv i d e oc o d i n gs t a n d a r d s ,h 2 6 4h a sm a d eo b v i o u sp r o g r e s s e si n c o d i n ge f f i c i e n c yb yu s i n gm a n ya d v a n c e dc o d i n gt o o l s h o w e v e r , t h ep e r f o r m a n c e i m p r o v e m e n ti sa tt h ee x p e n s eo fe o m p u t a t i o n a lc o m p l e x i t y s oi t i sn e c e s s a r ya n d m e a n i n g f u lt oo p t i m i z et h ea l g o r i t h m so fh 2 6 4 s t a n d a r db o t hi na c a d e m i ca n d i n d u s t r i a lp u r p o s e s i nt h i sp a p e r , i n t r ap r e d i c t i o nm o d ed e c i s i o na n dr a t ec o n t r o l a l g o r i t h m sw e r ea n a l y z e d i n t r ap r e d i c t i o ni sak e yt e c h n i q u ei nh 2 6 4 i nt h i sp a p e r , af a s ti n t r ap r e d i c t i o n m o d ed e c i s i o na l g o r i t h m ,w h i c hd e c r e a s e st h ec o m p l e x i t yo f m o d es e l e c t i o nb yu s i n g e d g ed i r e c t i o na n dt e x t u r eo f t h em a c r ob l o c kw a sp r o p o s e db a s e d0 1 1t h ea n a l y s i so f i n t r a - p r e d i c t i o nm o d e d e c i s i o na l g o r i t h mo f h 2 6 4 t h ee x p e r i m e n t a lr e s u l t ss h o wt h a t t h ep r o p o s e da l g o r i t h mc a ni n c r e a s et h es p 髓do fi n t r ac o d i n gs i g n i f i c a n t l yw i t ht h e n e g l i 百b l el o s so f t h e p s n r r a t ec o n t r o ls c h e m ef o rh 2 6 4i sd i f f e r e n tf r o mt h ee x i s t i n gv i d e oc o d i n gs t a n d a r d b yu s i n gr a t ed i s t o r t i o no p t i m i z a t i o n i nt h i sp a p e r , t h ep r i n c i p l eo fr a t ec o n t r o la n d $ o n l et y p i c a lr a t ec o n t r o la l g o r i t h m sw g l ei n t r o d u c ef i r s t t h e nt h ec h i c k e na n de g g d i l e m m aa n dt h er a t ec o n t r o ls c h e m ei nh 2 6 4w e r ea n a l y z e d a tl a s t , as u g g e s t i o ni n w h i c ht h et e x t u r ec h a r a c t e ro fi m a g ec a nb eu s e dt oi m p r o v et h ee x i s t i n gr a t ec o n t r o l s c h e m ef o rh 2 6 4w a sm a d e k e y w o r d :v i d e oc o d i n g h 2 6 4i n t r ap r e d i c t i o nm o d ed e c i s i o n r a t ec o n t r o l 西安电子科技大学 学位论文创新性声明 秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在 导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标 注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成 果:也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的 材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说 明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切的法律责任。 本人签名;塑日期竺! ! ! ! :竺 西安电子科技大学 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。学校有权保 留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内 容,可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证,毕业后 结合学位论文研究课题再撰写的文章一律署名单位为西安电子科技大学。 本人签名:塑 导师签名: 日期! 丝:! ! :竺 醐塑:f :寥 第一章绪论 第一章绪论 1 1 引言 随着电子信息技术和网络技术的飞速发展,人类的生产、生活进入了数字化 时代,对信息的需求也从最简单的文本信息扩展到更为丰富的多媒体信息。 我们通常所指的多媒体信息,包括文字、声音、图像、图形和视频等内容。 其中,视频信息由于其具有直观、形象、准确、高效等特点,成为多媒体信息中 应用最为广泛的一项。数字视频信息容量巨大,如果不经过处理,存储和传输都 将十分困难,因此数字视频必须经过压缩才具有实际意义,这就使得视频压缩技 术成为热点研究课题。 经过科技工作者们多年的研究和积累,目前已有了较为成熟的视频编解码标 准体系和技术理论。但随着硬件和网络的发展,不断涌现出新的应用需求,这就 要求我们对原有的方法进行发展和改进,以满足日更新的应用需求。 本文对目前国际上最新的视频编码标准h 2 6 4 的关键技术进行分析,着重研 究了h 2 6 4 帧内预测模式选择和码率控制算法。本章介绍视频编码标准的发展状 况和本文的研究内容及章节安排。 1 2 数字视频标准发展 数字视频处理复杂且计算强度极大,为了使其能够灵活有效地应用在不同的 业务场合,需要对视频处理系统相关的技术、框架、概念等做出标准化的规定。 本节将对国内外视频编码的标准发展情况进行介绍。 自二十世纪8 0 年代起,国际电信联盟i t u - t ( i n t c m a t i o n a lt e l e c o m m u n i c a t i o n u n i o n t e l e c o m m u n i c a t i o ns t a n d a r d i z a t i o ns e c t o r ) 的视频专家组v c e g c c i d e o c o d i n ge x p e r tg r o u p ) 和国际化标准组织i s o i e c ( i n t e r n a t i o n a lo r g a n i z a t i o nf o r s t a n d a r d i z a t i o n i n t e r n a t i o n a le l c t r o - t c c h n i c a lc o m m i s s i o n ) 的运动专家组( m o t i o n p i c t u r ee x p e r tg r o u p ) 作为两大主要的标准化组织,开发制定了一系列针对不同应 用的视频编码标准【1 1 。其中,i t u 制定的h 2 6 x 系列视频编码标准,主要应用于 实时的视频通信系统,如视频电话、视频会议等;i s o i e c 组织推出的m p e g 系 列标准主要应用数字娱乐( 如v c d ,d v d 等) 。数字监控系统等领域。下面对各 主要标准进行简要的介绍: 2 h 2 6 4 帧内预测模式选择与码率控制算法研究 1 ) h 2 6 1 h 2 6 1 标准从1 9 8 6 年起开始制定。1 9 9 0 年正式发布。该标准首次采用了运动 补偿预测编码+ d c t 变换的框架,奠定了视频编码技术的基础,其输出码率是 6 4 k b p s 的整数倍,码率范围在6 4 k b p s 1 9 2 m b p s 之间。h 2 6 1 主要应用于会议电 视和可视电话等应用领域,支持c i f ( 3 5 2 x 2 8 8 ) 和q c i f ( 1 7 6 x 1 4 4 ) 两种视 频图像格式,采用简单的渐进扫描模式,帧速率为3 0 h z ,在h 2 6 1 协议中,只 允许使用i 帧和p 帧两种帧模式,运动估计采用整数像素运动矢量,所以,h 2 6 1 的压缩码率不是特别高。 2 ) h 2 6 3 h 2 6 3 于1 9 9 6 年3 月正式推出【2 】,是为了支持低速率通信而制定的标准,主 要应用于p s t n ,i s d n 和无线网络。它建立在h 2 6 1 的框架基础上,采用了计算 能力更强且效率更高的算法,提供了四个可选模式,能够根据具体应用要求进行 编码工具的选择。 1 9 9 8 年,i t u t 推出了h 2 6 3 的第二版,即h 2 6 3 + 。h 2 6 3 + 在h 2 6 3 的基础 上,提出了一些新的可选特性,如分级编码,增强的p b 帧编码,以及高级帧内 编码等,增强了压缩信号的抗干扰能力,使h 2 6 3 码流适合于网络的传输。 在h 2 6 3 + 的基础上,又于2 0 0 0 年推出了h 2 6 3 的第三版h 2 6 3 + + ,增加了 很多优化的选项,拓宽了标准的应用范围。 h 2 6 3 系列标准提出了许多新的概念,如大小可变的运动估计,无限制运动 估计,多参考帧等,在后续的h 2 6 4 标准中得到了进一步的发展和沿用。 3 ) m p e g 1 m p e g 1 于1 9 9 1 年制定完成,该标准主要是为视频存储媒体( 如v c d ) 面 制定的,目标应用码率为i m 1 5 m b p s ,支持2 5 帧每秒,c i f ( 3 5 2 x 2 8 8 ) 格式的 视频编码,提供了视频序列的随机读取,快进和快退,视频序列的方向播放和压 缩码流的可编辑性等功能。 m p e g 1 在典型的运动补偿预测编码框架上,应用了双向预测技术和半像素 搜索,可以提供更好的编码质量和更高的压缩比。 m p e g 1 包含完整的音频、系统、以及一致性的规范,v c d 的广泛流行说明 了m p e g - 1 的成功。 4 ) m p e g - 2 m p e g - 2 于1 9 9 4 年完成标准化工作,是在m p e g - 1 基础上进一步发展起来的 音视频编码标准。它主要面向广播级的高质量音视频应用,目标码率在3 - 3 5 m b p s 的范围内,目前被广泛应用于s d t v , h d t v , d v d ,d v b 等领域。 与m p e g 1 相比,m p e g 一2 加入了两个主要的新技术:对隔行扫描的支持和 可伸缩性编码。此外,m p e g 一2 支持四种可分级编码模式:数据划分、s n r 分级、 第一章绪论 空间分级、时域分级,大大增强了该标准的实用性。 5 ) m p e g 4 m p e g - 4 标准【3 】于1 9 9 3 年开始制定,1 9 9 9 年正式推出,其制定目标是支持多 种媒体的应用,特别是多媒体信息给予内容的检索和访问。 m p e g - 4 是第一个采用基于内容的视频压缩编码标准,提出了视频对象的概 念,在编码算法中,以视频对象( v i d e oa b j e c t ,v o ) 来实现基于内容的表示, 视频对象可以是与传统的标准兼容矩形块,也可以是场景中被分割出来的不同物 体,每个视频对象由三类信息来描述:运动信息,形状信息,纹理信息。 此外,m p e g - 4 还应用了小波变换、多边形匹配、亚像素搜索、动态的块选 择、重叠的运动估计、形状编码技术以及可扩展性编码等很多技术。 但在实际应用中,视频对象自动分割十分困难,运算量很大,而且基于内容 的视频编码技术仍不完善,所以目前实际使用的m p e g - 4 编解码器并没有采用基 于对象的编码技术,m p e g - 4 中被广泛使用的是简单档( s i m p l e p r o f i l e ) 和增强简 单档( a d v a n c e ds i m p l e p r o f i l e ) 都没有包含基于对象的编码技术。 6 ) h 2 6 4 h 2 6 4 是由i t u t 的视频编码专家组( v c e g ) 和i s 伽e c 的活动图像编码 专家组( m p e g ) 共同组成的的联合视频组( j v t :j o i mv i d e ot e a m ) 负责开发的 数字视频编码标准 4 1 5 1 。1 9 9 6 年i t u t 推出了针对甚低比特率的视频压缩标准 h 2 6 4 建议。h 2 6 4 最初是针对1 0 3 0 k b i t s s 范围内的甚低比特率应用设计的,但 实验结果表明,在任意速率范围内,h 2 6 4 都取得了惊人的压缩效果,成为当时 最成功的数字视频压缩标准。2 0 0 1 年1 2 月j 、吓成立,并于2 0 0 3 年3 月正式推出 h 2 6 4 标准。h 2 6 4 在传统的混合编码算法结构的基础上,采用了一系列先进技术, 具有良好的压缩性能和广泛的应用领域。本文将在第二章对h 2 6 4 标准的技术细 节进行详细的分析介绍。 除了上述国际视频编码标准外,我国也于2 0 0 3 年推出了具有自主知识产权的 音视频编码标准a v s ( a d v a n c e dv i s u a ls y a t e m s ) 标准。该标准由数字音视频编 码技术标准工作小组制定【6 】。a v s 标准的视频标准已获得我国标准化管理委员会 批准,与2 0 0 6 年3 月1 日开始实施。a v s 视频标准是在h 2 6 4 标准的框架上, 采用了自主知识产权的核心技术实现编码的。其核心技术包括:8 x 8 整数变换、 帧内预测、1 4 精度像素插值、熵编码等。与h 2 6 4 视频编码标准相比,a v s 视 频能够标准能够在压缩效率相当的前提下,大幅降低实现复杂度。 综上,目前的视频编码标准采用的算法主要分为两大类,一类是以像素为处 理单元,通过基于信号处理理论的编码方法,如预测编码、正交变换、矢量量化 等,对视频内容进行处理。其特点是算法可靠,技术成熟。h 2 6 x 系列、m p e g 1 , 2 和a v s 都属于这一类算法。另一类方法是基于内容的编码,通过把一个场景描述 4 h 2 6 4 帧内预测模式选择与码率控制算法研究 成几个物体来建立编码模型,编码参数是各个物体的形状、纹理和运动。这类算 法的性能基于对图像的理解,如局部特征的编码、边界,运动特征、纹理特性等。 m p e g - 4 面向对象的编码思想就属于这一类型。这类方法和基于像素的编码方法 性比,算法较复杂,性能不稳定,方法不够成熟,因此没有得到广泛的采纳与应 用,但很多基于内容编码的技术、思想值得借鉴。 1 3 本文研究内容和主要成果 本文以h 2 6 4 视频编码标准为研究对象,在对其算法深入研究的基础上,着 重对帧内预测模式选择算法和码率控制算法进行了研究,具体研究内容和取得的 主要成果包括以下几个方面: 1 ) 在深入分析视频编码算法和h 2 6 4 标准算法的基础上,对h 2 6 4 的帧内预 测模式选择算法进行研究,分析了其计算复杂度高的原因,指出研究帧内预测模 式选择快速算法的必要性。 2 ) 对标准算法帧内预测模式选择编码得到的最佳模式类型进行统计分析, 在此基础上,本文提出一种采用宏块灰度标准差来判断纹理丰富程度的模式类型 预判断方法,该方法实现简单,且能有效的对最佳模式类型进行判断,减少帧内 预测模式选择过程中待选模式的数量。 3 ) 在分析已有帧内预测模式选择快速算法的基础上,结合对最佳模式的统 计分析,对已有的边缘方向直方图快速算法进行了改进,和2 ) 的结论一起构成 了本文提出的帧内预测模型选择快速算法,并在n 吓j m l 2 2 参考软件模型框架上 编程实现了本文算法和已有的边缘直方图快速算法。 4 ) 使用六个不同的视频标准测试序列,对本文提出的快速算法进行全i 帧 编码测试,对编码后的图像质量,比特率和编码时间三个参数进行统计与分析, 得出的结论是,本文的快速算法在编码后图像质量基本没有影响的前提下,降低 了帧内预测模式选择的计算复杂度,和标准算法相比,平均节约编码时间6 0 左 右,证明其是一种有效的模式选择快速算法。 5 ) 对码率控制原理和经典码率控制算法进行了研究,结合对h 2 6 4 算法的 研究,分析了“蛋鸡悖论”的成因,并对h 2 6 4 现有码率控制方案进行了分析,指 出其不足之处,提出了一种利用纹理信息进行比特分配的算法改进方向,为下一 步工作打下了基础。 第一章绪论 1 4 本文的结构安排 论文各章内容的具体安排如下: 第一章介绍了论文的研究背景、视频编码标准的发展,以及论文的研究内容 和结构安排。 第二章首先介绍h 2 6 4 标准的框架和特点;接着详细分析了h 2 6 4 的关键技 术及算法,最后对h 2 6 4 标准的最新技术发展:可分级编码和多视点编码进行了 介绍与分析。 第三章首先研究h 2 6 4 标准的帧内预测模式选择算法,分析其计算复杂度高 的原因,接着在对模式类型进行统计和改进已有快速算法的基础上,提出一种新 的帧内预测模式选择快速算法;最后介绍视频编码算法的性能评价方法,并对本 文提出的快速算法进行性能测试和结果分析。 第四章介绍了码率控制的算法原理和经典的码率控制算法,分析了h 2 6 4 码 率控制存在“蛋鸡悖论”的原因,对已有的解决方案进行了深入分析,并提出基 于h 。2 6 4 标准的码率控制算法改进方案。 第五章对本文所做工作和取得的成果进行总结,对下一步的工作进行展望。 第二章h 2 6 4 视频编码原理 7 第二章h 2 6 4 视频编码原理 2 1h 2 6 4 标准概述 1 9 9 8 年初,r r u - t 视频编码专家组( v c e g ) 提出了建立一个名为h 2 6 l 工程 的议案。目标是能够将编码效率在其它已有编码标准基础上翻倍,并面向多种应 用推广。h 2 6 l 标准的第一项草案于1 9 9 9 年l o 月通过。2 0 0 1 年,i s o 运动图像 专家组( m p e g ) 意识到了h 2 6 l 的潜在优势,联合v c e g 的专家组成联合视频组 ( j v t ) ,旨在将h 2 6 l 草案模型发展成为国际性的标准。在2 0 0 3 年5 月,n 丌 完成并推出了新的视频编码标准,即h 2 6 4 标准,同时也是m p e g - 4 标准的第十 部分。 h 2 6 4 具有如下的特点: 1 ) 良好的压缩性能。相对于h 2 6 3 和m p e g - 4 ,视频压缩比提高了一倍。 2 ) 分层的编码结构【s j ( 见图2 1 ) 。为了满足灵活性和适用性的要求, h 2 6 4 a v c 的设计包含了视频编码层( v i d e oc o d i n gl a y e r , v c l ) 和网络抽象层 ( n e t w o r k a b s t r a c tl a y e r , n a l ) 。v c l 负责压缩视频内容,n a l 以适应各种传输 网络和存储介质的方式将v c l 的输出格式化,并加上头信息。 控 _ 叫 视频编码层 制 i编码宏快 数 据_ - 一数据分割 ti 编码片,组 i 网路抽象层 h 3 2 0m p e g - 2h 3 2 3 i p 图2 1h 2 6 4 分层编码结构 3 ) 良好的抗误码性能。h 2 6 4 包含了许多在网络传输中发生差错和丢包时能 够恢复视频质量的算法设计,如灵活的宏块顺序( f m o ) 、冗余片和数据分割等。 4 ) 应用领域广泛。h 2 6 4 a v c 的技术设计方案面向至少以下几个应用领域: 各种网络上的广播;在光磁设备、d v d 上的交互式或连续式存储:在i s d n 、以 太网、局域网,无线和移动网络上的传统服务;在各种网络上的视频点播或流媒 体服务;在各种网络上的多媒体信息服务( m m s ) 。除此之外,更多新的应用会 8 h 2 6 4 帧内预测模式选择与码率控制算法研究 建立在已有和将有的网络之上。 2 0 0 5 年3 月提出了h 2 6 4 的f r e x t ( f i d e l i t yr a n g ee x t e n s i o n ) 修订案吼该修 订案根据娱乐业应用的实际要求,在复杂度可接受的前提下,增加对高分辨率的支 持,在原有的三个档次( b a s e l i n ep r o f i l e , m a i np r o f i l e 和e x t e n d e dp r o f i l e ) 的基础 上,新增加了面向高清应用的h i 曲p r o f i l e ,使h 2 6 4 标准能够适用于高清电视一 类的应用。 2 2h 2 6 4 关键技术及算法 h 2 6 4 编码器延用传统的运动补偿加变换编码的混合结构( m c - d c th y b r i d c e d i n g ) ,如图2 2 所示。其实现压缩的基本方法是通过帧间预测和帧内预测消除 视频序列中的时间和空问冗余,通过变换编码来消除统计冗余。采用该编码框架 的编码过程描述如下:前向路径中,编码端输入一帧原始视频,以宏块为基本处 理单元,在帧内预测和帧间预测之间进行选择。若选用帧内预测,则对预测值和 实际值之间的差值进行后续的变换、量化和编码;若选用帧间编码,宏块首先要 进行运动估计,对运动估计后的残差以及运动矢量进行变换、量化和编码。后向 路径中,按这两种预测方式得到的编码码流都需要进行反量化和反变换,重建预 测残差图像,与预测值相加得到重构帧,再经过去方块滤波,送入帧存储器作为 下一帧的参考图像。 图2 2h 2 6 4 编码器结构框图 第二章h 2 6 4 视频编码原理 9 h 2 6 4 的编码框架和以前的编码标准类似,其性能的提升是由于各个功能模 块采用了一系列新的关键技术【9 】【l o 】。下面对预测、变换与量化、熵编码等功能模 块的关键技术进行介绍和分析。 2 2 1 预测 h 2 6 4 标准中的预测技术包括帧内预测和帧间预测两部分。 在过去的视频编码标准中,帧内编码都是直接对像素值进行编码、量化和编 码。h 2 6 4 利用视频序列空间相邻元素之间的相关性,用同一帧内已编码的预测 块对当前块进行预测,编码器只需要对原始值和预测值的差值进行编码,达到去 除空间冗余的目的。h 2 6 4 帧内预测算法中,亮度采样值的预测块可以是4 4 或 1 6 x 1 6 。对于4 4 的亮度块共有9 种可选的预测模式,1 6 x 1 6 的亮度块有4 种,而 色差块也有4 种模式。编码器通过一定的代价函数,选择能使预测块和编码块差 值最小的预测模式,达到最佳的压缩性能。本文第三章第一节将详细介绍帧内预 测的模式选择算法。 帧间预测利用连续图像序列之间的相关性,以一个或多个已编码帧为参考, 通过运动补偿的预测编码方法来消除视频图像的时间冗余。h 2 6 4 的帧间预测的 主要技术特点可概括如下: 1 ) 运动补偿块尺寸范围更广。h 2 6 4 中的运动补偿采用树状结构,每个1 6 1 6 的亮度宏块分割成1 6 1 6 ,8 x 1 6 ,1 6 x 8 ,8 x 8 四种子宏块。8 x 8 的子宏块可以继 续分割为8 x 8 ,4 x 8 ,8 x 4 ,4 x 4 大小的子宏块,如图2 3 所示。这种宏块分割方 式提供了更多尺寸的运动补偿块,有利于提高预测的精确度。 口田日田 ,口田日田 图2 3 帧间预测宏块分割方式 2 ) l 4 像素精度的运动估计和运动补偿。由1 ) 中的方法得到的运动补偿块 对参考图像的某一相同尺寸区域进行运动补偿,两者之问的偏移量即为运动矢量。 运动矢量的精度越高,越有利于提高编码效率。h 2 6 1 标准为整像素精度估计, m p e g 1 ,m p e g - 2 ,h 2 6 3 和m p e g - 4 为1 2 像素估计。而h 2 6 4 采用1 4 像素 h 2 6 4 帧内预测模式选择与码率控制算法研究 精度的运动估计,使预测精度得到提升。需要注意的是,所有半像素点和1 4 像 素点位置的像素是不存在的,其值需要通过内插的方法获得,如图2 4 所示。 oo oooooo oooo o o o o ooo ooo ooo o ooo oooo o o o ooo ,ooo0 o o o ood 苫ooooo 荡1 乞 ooo oooooo o o ooo ooo o ( a ) 像素位置( b ) 整像素补偿( c ) l ,4 像素补偿 图2 41 4 像素精度运动补偿 3 ) 多参考帧。h 2 6 4 允许编码器使用多于一帧的参考帧进行运动估计,当前 编码块分别对多个参考帧进行预测,从中选择预测结果最好的帧作为参考帧,预 测误差更小,但由此带来的算法复杂度也有所增大,需要额外的缓冲区来存储这 些参考帧。 2 2 2 变换与量化 在以前的标准通常以8 x 8 的d c t 为主要的变换方法。在h 2 6 4 的b a s e l i n e p r o f i l e 中,共使用了三种变换:一种用于所有的帧内预测模块( 1 6 x 1 6 模式) 的4 x 4 的亮度直流系数矩阵;一种用于所有的2 x 2 的色差直流系数矩阵;最后一种是应 用于所有其它的4 x 4 的残差数据,也是使用最多的编码算法。该变换以d c t 变 换为基础,和传统的d c t 变换比较有以下几个主要差异: 1 ) 整数变换。在h 2 6 4 的变换算法中,所有的运算由整数运算完成,减小了 失真。此外,h 2 6 4 中定义了反变换,由于是整数变换,编码和解码端的结果将 一致。 2 ) 变换的核心部分不含乘法运算,只需要加法和平移运算即可,有效降低了 运算复杂度。 3 ) 将变换所需的级乘,与量化结合起来完成,从而减少中间过程带来的失真。 具体的变换过程如下: 设输入矩阵x ,其4 x 4 的d c t 变换如公式2 - 1 : y = a 么7 = 口口 bc 口叫 c - b 口口 - c 6 呻口 b- c ab 口c 口一c 口6 口c 一口而 一口6 口c ( 2 1 ) 第二章h 2 6 4 视频编码原理 肌= 三一压c o j k 三8 、i ,c :) 后c o 髑。 公式2 1 可以改写为公式2 2 的形式: h 倒眦= 畦孙 ( 2 2 ) 在公式2 2 中,c x c 7 是二维变换的核,e 是比例系数,符号。表示变换核c x c t 中的每一个元素分别和e 中的对应位置的元素相乘。常数a 和b 的值同前,而d 大 约为0 5 。为了保证变换的正交性,要修改b 的值,同时通过先分别对c 和c t 的 第二、四行和列乘以比例系数2 ,来避免变换核中的乘以1 2 带来的失真。最终 的变换形式如公式2 3 : 化 卜喁埯拈啦 a b 2 b 2 4 a b 2 b 2 1 4 a b 2 b 2 ,4 a b 2 b 2 4 ( 2 - 3 ) 此时,反变换与变换相互正交,满足t 。1 i f ( x ) ) = x 的关系,尽可能的减少 了编码器中重建过程使用反变换到来的失真。 h 2 6 4 采用标量量化。基本的量化步骤为:乞= r o u n d ( y t q s t e p ) 。其中,巧 是如上所述的变换系数。q s t e p 是量化步长,乙是量化后的参数。 h 2 6 4 共支持5 2 个量化步长值,由量化参数q p 统一进行编号,q p 的取值 范围为( o ,5 1 ) 。q p 和q s t e p 对应关系见表2 1 : 表2 1 q p 与q s t e p 对应关系 观察表中数值可知,对应关系具有如下的规律:每隔6 个q p ,q s t e p 的值翻 一倍。每隔个q | p ,对应的q s t e p 值增加1 2 5 。此外,量化步长的取值范围 大,使编码器能够更加准确灵活的在码速率和编码质量之间进行控制。 岫护劬护 矿_ 兽矿叻 的舻舻矿曲矿曲 ,o q ,d o 4o 可 o 4 ,d o 4 2 2 矿别矿洲 2 2矿别矿洲 之2 o o o 2 o o 之o o o 2d 之 q p o l2345 6 7 8 q s t e p o 6 2 5o 6 8 7 5o 8 1 2 5o 8 7 511 1 2 51 2 51 3 7 51 6 2 5 q p 91 0 1 1 1 21 8 2 4 q s t e p 1 7 5 22 2 52 551 0 q p 3 0 3 64 2 4 85 1 q s t e p 2 04 08 01 6 02 2 4 1 2 h 2 6 4 帧内预测模式选择与码率控制算法研究 2 2 3 熵编码 以往标准的熵编码通常采用变长的哈夫曼编码,码表不统一,不能适应变化 多端的视频内容,从而影响编码效率的提高。针对这一问题,h 2 6 4 对h 2 6 3 中 不同系数采用不同码表进行变长编码作了改进,采用了统一码表的变长编码,同 时,又对h 2 6 l 中的变长编码方法进行了改进,使量化后的d c t 变换系数使用 基于内容的自适应可变长度编码,此外还定义了一种基于上下文内容的自适应二 进制算术编码,其编码性能更好,计算也更复杂。 基于上下文的变长编码( c a v l c ) 用于对4 4 ( 2 2 ) 的残差块z 字形扫描 后的变换系数进行编码。它利用了量化后的4 x 4 块的如下性质: 1 ) 通过预测、变换和量化后,块数据通常是松散的( 包含很多零值) 。c a v l c 用游程编码来对这些零值进行压缩。 2 ) 上下文模式选择:上下文模式是对二进制符号的一个或多个码组的概率模 型。这一模型取决于已编码符号的统计特性模型。在模式中保存了每一个码组中 0 和1 的概率。 3 ) 相邻模块之间的非零系数的个数是相关的。用一个查找表格对非零系数的 个数编码。而表格的选择有相邻的模块中非零系数的个数决定。 4 ) 幅度值最大的非零系数绝大多数出现在扫描后的矩阵的起始处( 直流系数 附近) 高频处的系数的幅度值低。利用这一点,在c a v l c 的查找过程中,结合 最近编码的幅度值对幅度系数编码。 在h 2 6 4 中,除了c a v l c 之外,还可选择基于上下文的二进制算术编码 ( c a b a c ) 进行熵编码。c a b a c 编码共分以下四个步骤: 1 ) 转化为二进制值:c a b a c 使用的是二进制算术编码,即只对0 和1 进行 编码。非二迸制值( 如变换后的系数,或是运动矢量) 要进行转化。过程类似将 数据信号进行变长编码,但在传输前或进一步进行算术编码。 2 ) 上下文模式选择:上下文模式是对二进制符号的一个或多个码组的概率模 型。这一模型取决于已编码的符号的统计特性模型。在模式中保存了每一个码组 中0 和l 的概率。 3 ) 算术编码:根据选择的模式进行算术编码。 4 ) 概率更新:有具体的编码数值更新概率模型。 其算法框图见图2 5 。 第二章h 2 6 4 视频编码原理 图2 5 c a b a c 算法框图 2 3h 2 6 4 最新技术发展 目前,h 2 6 4 的标准研究机构联合视频组( j v t ) 正在可分级编码和多视角编 码两个研究领域进行提案的召集,准备推出相应的h 2 6 4 扩展版本。下面对可分 级编码和多视角编码技术进行介绍。 1 ) 可分级编码 视频可分级编码技术( s c a l a b l ev i d e oc o d i n g , s v c ) 是为了满足提供一种能 够同时适用于各种应用环境的编码系统,该技术的研究已有超过2 0 年的研究历 史。h 2 6 1 、h 2 6 3 、m p e g 2 和m p e g - 4 视频标准都有关于可分级技术的编码选 项,但由于复杂度过高,都没有被广泛使用【l l 】【埘。这主要是由于和传统单层视 频技术相比,采用s v c 技术( 尤其是空间可分级和质量可分级) 带来解码器复 杂度增加和编码效率降低的问题,一直没有得到很好的解决。 2 0 0 3 年l o 月,i s o i e c 的运动专家组开始研究s v c 技术的提案。2 0 0 5 年1 月,m p e g 和r r u 的视频专家组v c e g 达成一致,将s v c 项目交由t 完成, 其最终结果将作为h 2 6 4 标准的修正案。 可分级视频编码的输入序列在经过信源端一次编码后,生成包含多层信息的 码流。在解码端,可根据传输的实际情况,提取出符合用户要求的码流进行解码。 h 2 6 4 标准的可分级扩展,主要是在已有标准的基础上对编码部分做出改进。编 码后经过码流提取,按原标准进行解码。目前主要的可分级类型包括:时间可分 级,空间可分级和质量可分级。 时间可分级 时间的可分级,就是帧速率的可分级。较早的一段时间,基于3 - d 小波变换 的运动补偿时域滤波( m o t i o nc o m p e n s a t i o nt e m p o r a lf i l t e r ,m c t f ) 结构被认 为是最有发展前途的时间可分级实现方式。在2 0 0 5 年4 月的j v t 会议上就有很 1 4 h 2 6 4 帧内预测模式选择与码率控制算法研究 多讨论m c t f 结构细节的提案,如j v t - 0 0 0 9 ,0 0 1 5 ,0 0 2 6 等。但通过和等级预测 结构比较,在单层编码和分级编码的实验中,m c t f 结构并没有明显地改善编码 效率且增加了解码端的复杂度。目前h 2 6 4 的s v c 方案采用等级预测结构 ( h i e r a r c h a lp r e d i c t i o ns t r u c t u r e ) ( 如图2 6 所示) 实现时间可分级。等级预测结构 是由标准中的b 帧改进而来的,在实现的复杂性和编码效率上都有优势【”l 。 显示顺序 编码顺序 图2 6 时间可分级示意图 空间可分级 空间可分级,即序列的分辨率尺寸的可分级,如图2 7 所示。 增强层 基本层 图2 7 空间可分级示意图 理论上,较高层的分辨率不得低于较低层的分辨率。因此相应的上采样技术 十分关键。空间可分级的核心技术是一种新的预测模式层问预测【1 4 1 。具体又 细分为:层间运动预测,层间残差预测和层间帧内编码。 值得注意的是最基本的简单的空间可分级,相邻两层的序列的长宽比值只能 是2 的整倍数。故此,又提出了扩展的空间可分级( e x t e n d e ds p a t i a ls c a l a b i l i t y , e s s ) ,其序列长宽比值可以更普遍的取值,不局限于2 的倍数。 第二章h 2 6 4 视频编码原理 1 5 质量可分级 质量可分级分为粗糙质量可分级( c o a r s eg r a i ns c , a l a b i l i t y ,c g s ) 和精细质量可 分级( f i n e g r a i ns c a l a b i l i t y ,f g s ) 两类。c g s 等同于相邻两层的分辨率尺寸相同 的空间可分级。它采用与空间可分级类似的技术实现,计算量和复杂度都较低; 但是其编码后的比特率只能固定在几个点上( 数目和分级的层数相等) ,使其具有 一定的局限性。以较小的精度调节编码比特率的精细可调的质量可分级( f g s ) 。 更加适合于流媒体服务类的应用。但目前已有的h 2 6 4f g s 方案都过于复杂,j 、,t 已将f g s 的研究列为一项长期的议题【阍。 以上所说的各种分级技术并非只能单独使用,在考虑到复杂度和编码效率的 前提下,可以将它们结合在一起,根据具体的应用灵活使用各类可分级工具。 2 ) 多视点编码 多视点视频编码( m u l t i - v i e w v i d e o c o d i n g ,m v c ) 是一种新型的具有立体感 知和交互操作功能的视频技术o6 】【堋,它是由一组平行或会聚的摄相机阵列进行多 视点拍摄得到的视频信号进行编码处理,得到包含多个视觉角度的视频信息的编 码码流。 多视点视频是近年来迅速崛起和快速发展的研究领域。在视频监控类的应用 中,多视点视频编码技术有助于实现多视角立体监控,多摄像头联动等应用,如 图2 8 所示。 , 图2 8 摄像机阵列多视点拍摄 实现多视点视频编码可以基于传统混合编码框架,也可基于小波编码以及分 布式编码等新一代视频编码工具。视点问相关性是多视点视频序列的重要特性, 它与相机阵列形式、相机间距、相机和拍摄对象间距离等因素有关。 由于该类系统存在着大量的数据冗余,如何组织和压缩数据就成为重要的研 究课题。所以当前m v c 主要围绕如何提高压缩效率以及随机读取能力进行研究, 而这些研究又可从两个主要方面来分类,一是预测结构,二是预测工具。预测工 具指的是多路码流视角之间的空间预测手段,包括亮度补偿,运动补偿,2 d 直接 1 6 h 2 6 4 帧内预测模式选择与码率控制算法研究 预测模示,视角插值。由于视角间的相关性利用是决定m v c 压缩效率的主要因 素,因而未来m v c 压缩效率的进一步提高依赖于新型预测工具的设计。预测结 构指的是多视点视频时空帧之间的相互预测参考关系,它代表将哪些帧一道进行 处理以消除数据的时空冗余性,因而不管是传统的混合编码、小波,还是分布式 编码,都离不开预测关系的设计。另外预测结构是决定随机读取性能、快速解码 性能、网络传输代价的重要指标,因而在m v c 研究中受到广泛关注。 爱一i i s 黪s 1s 2s i ! 谢s 5 65 7 ” 图2 9 多视角编码中的空时预测结构 目前常用的预测结构为图2 9 所示的空间一时间预测结构,图中的s 表示摄像 机,t 表示时间,纵向的预测类似传统编码中的帧间预测,而横向的预测是帧内 不同视角摄像机拍摄内容之间的进行的。除此之外,m v c 编码码还存在视角切 换问题,因而如何设计新型的切换帧以及如何分析切换对预测结构的影响也具有 重要的意义。 砸 鞭 琵 聆 一 ,“+,:y;一, 第三章帧内预测模式选择快速算

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论