(信号与信息处理专业论文)avs视频编码标准的关键技术研究与优化实现.pdf_第1页
(信号与信息处理专业论文)avs视频编码标准的关键技术研究与优化实现.pdf_第2页
(信号与信息处理专业论文)avs视频编码标准的关键技术研究与优化实现.pdf_第3页
(信号与信息处理专业论文)avs视频编码标准的关键技术研究与优化实现.pdf_第4页
(信号与信息处理专业论文)avs视频编码标准的关键技术研究与优化实现.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(信号与信息处理专业论文)avs视频编码标准的关键技术研究与优化实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 随着通信技术、计算机技术和网络技术的发展以及多种终端的大量应用,近 年来数字音视频压缩技术获得了很大发展,面向不同应用,相继出现多种音视频 编码标准。 在数字音视频技术领域,国外直处于领先地位。我国由于不掌握核心技术 标准,长期受制于国外持有标准化专利与技术的企业和组织。为了改变这种现状, 2 0 0 2 年6 月成立了a v s 联合工作组,旨在开发一套具有自主知识产权的音视频 编码标准。a v s 组织于2 0 0 5 年发布了我国第一部针对数字音视频编码的标准。 本论文针对a v s 编码复杂度高,编码速度慢而难于实时应用的问题,对a v s 及其参考编码器m 5 2 j 进行了算法优化和代码优化。在算法优化方面,在对a v s 的帧内预测编码技术进行详细讨论的基础上,提出了一种基于残差变换绝对和 ( s a t d ) 排序的帧内快速模式判断算法;在代码优化方面,首先找出程序中的 热点模块,主要包括哈达玛变换、量化、重构、亚像素插值、整亚像素运动搜 索等,然后对这些热点模块进行了c 语言优化和基于多媒体指令s i m d 的优化, 大大的降低了编码的复杂度。实验结果表明,提出的算法可以明显降低编码的计 算量。此外,进行代码优化后,a v s 编码速度也有大幅度的提高。 由于基于a v s 的数字电视传输流将在我国地面数字电视领域获得应用,本 课题还对基于a v s 视频数据的数字电视传输流复用技术进行了研究。采用标准 a v s 地面数字电视接收器进行了实验验证。 关键词:a v s ,模式判断,s a t d ,代码优化,复用 a b s t r a c t w m lt h ed e v e l o p m e n to fc o m m u n i c a t i o n s ,c o m p u t e r sa n dn e t w o r k s ,d i g i t a la u d i o a n dv i d e oc o m p r e s s i o nt e c h n o l o g i e sh a v eb e e nd e v e l o p e dr a p i d l yi nr e c e n ty e a r s i n o r d e rt om e e tt h ed i f f e r e n tr e q u i r e m e n t so fv a r i o u sa p p l i c a t i o n s ,s e v e r a lv i d e oc o d i n g s t a n d a r d sh a v eb e e ni s s u e di nr e c e n ty e a r s i nt h ea u d i oa n dv i d e ot e c h n o l o g yr e s e a r c h i n gf i e l d , f o r e i g nc o u n t r i e sa l w a y st a k e t h el e a d e r s h i pp o s i t i o n c h i n ah a st op a yh i 曲f e e so f p a t e n t sh e l db yf o r e i g nc o u n t r i e s o rc o m p a n i e s i no r d e rt oc h a n g et h i ss t a t u s ,a v sw o r k g r o u pw a ss e tu pi nj u n e2 0 0 2 t h ea i mo ft h eg r o u pi st ow o r ko u ta u d i oa n dv i d e oc o d i n gs t a n d a r dw i t ho u r i n d e p e n d e n ti n t e l l e c t u a lp r o p e r t yr i g h t 。c h i n a sf i r s td i g i t a la u d i oa n dv i d e oc o d i n g s t a n d a r dw a sr e l e a s e di n2 0 0 5b ya v s w o r k g r o u p i nt h i sp a p e r , a l g o r i t h ma n dc o d eo p t i m i z a t i o na r ec a r r i e do u tf o rt h ea v s r e f e r e n c ee n c o d e rr m 5 2 j s u c hw o r ki sa i m e dt or e s o l v et h er e a l t i m ea p p l i c a t i o n d i f f i c u l t i e so fa v s ,w h i c ha r ec a u s e db yt h eh i g hc o d i n gc o m p l e x i t y i nt h ea l g o r i t h m o p t i m i z a t i o n , af a s ti n t r am o d ed e c i s i o na l g o r i t h mi ss u g g e s t e d , w h i c hi sb a s e do nt h e r a n ko fs a t d ( s u mo fa b s o l u t et r a n s f o r m e dd i f f e r e n c e ) i nt h es o f t w a r ec o d e o p t i m i z a t i o np a r t , h o t s p o tm o d u l e so ft h ep r o g r a ma r el o c a t e d 觚i n c l u d i n g h a d a m a r dt r a n s f o r m ,q u a n t i z a t i o n ,r e c o n s t r u c t i o n ,s u b - p i x e li n t e r p o l a t i o n , i n t e g e r s u b p i x e lm o t i o ns e a r c he t c t h e nco p t i m i z a t i o na n ds i m d ( s i n g l ei n s t r u c t i o nm u l t i p l e d a t a ) o p t i m i z a t i o ni sd o n ef o rt h e s eh o t s p o tm o d u l e s t h ec o d i n gc o m p l e x i t yi s r e d u c e dg r e a t l y t h er e s u l t so fe x p e r i m e n t ss h o wt h a tt h ec o d i n gc o m p u t a t i o ni s r e d u c e do b v i o u s l yb yt h ea l g o r i t h ma b o v e a st h et r a n s p o r ts t r e a mb a s e do na v sw i l lb ea p p l i e di nc h i n at e r r e s t r i a ld i g i t a l t e l e v i s i o n , t h ed t vt r a n s p o r ts t r e a mm u l t i p l e x i n gt e c h n o l o g yb a s e do na v sv i d e o d a d ai sa l s or e s e a r c h e di nt h i sp a p e r , a n da v sm u l t i p l e x i n gs o f t w a r ei sd e s i g n e d t h e v e r i f i c a t i o ne x p e r i m e n ti sd o n ew i t has t a n d a r da v st e r r e s t r i a ld t vr e c e i v e r t h e e x p e r i m e n tr e s u l ts h o w st h a tt h et r a n s p o r ts t r e a mg e n e r a t e db yt h es o f t w a r ec a l lb e d e c o d e dc o r r e c t l y k e y w o r d s :a v s ,m o d ed e c i s i o n , s a t d ,c o d eo p t i m i z a t i o n , m u l t i p l e x 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得丕鲞盘鲎或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 学位论文作者签名:手安德岛 签字日期: 沙哆年二月弓日 学位论文版权使用授权书 本学位论文作者完全了解苤鲞盘堂有关保留、使用学位论文的规定。 特授权苤鲞盘堂可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:季曼钝毒导师签名:1 毳2 1 乞 签字日期:汐矽年多月弓日 签字日期:。叫年6 月弓日 天津大学硕士学位论文 第一章绪论 第一章绪论 随着计算机技术、集成电路技术、通讯技术和网络技术的飞速发展,多媒体 技术在当今的社会生活中扮演着越来越重要的角色,在办公、娱乐等各个产业中 都起着举足轻重的作用,应用多媒体技术是近几年计算机技术发展的时代特征, 是计算机技术的又一次革命。在计算机、通信、娱乐相融合的应用背景下,数字 多媒体技术迅速发展,数字音视频在各种场合通过各种渠道开始影响人们的传统 生活方式。人们对以图像音视频编解码技术为基础的数字存储媒体、数字电视广 播、视频会议、互联网、无线宽带流媒体等一系列应用的需求广泛而强烈【l 】。 音视频产业是电子信息产业的重要组成部分。据信息产业部预测,2 0 1 0 年音 视频产业年产值将达到1 5 万亿元,成为国民经济第一大支柱产业。随着科技的 进步,数字化技术已经全面进入音视频产品领域,数字音视频产业已经占据该产 业的主流。 数字视频技术的广泛应用促进了多种视频标准的制定和修改。国际音视频编 解码标准主要有两大系列,分别由国际电信联盟i t u t 和国际标准化组织国际 电工委员会i s o i e c 两大组织制定:i t u - t 制定的h 2 6 x 系列视频编码标准和 i s o i e c 制定的m p e g 系列标准【2 j 。 h 2 6 x 系列视频编码标准和m p e g 系列标准都采用了混合编码框架:即综合 利用去除空间冗余度的二维变换、去除时间相关性的基于运动补偿的帧间预测、 利用主观视觉特性的量化和去除符号间相关性的熵编码等工具,形成一个混合了 各种编码方法的系统1 3 j 。 1 1h 2 6 x 系列标准 h 2 6 1 是i t u t 为在综合业务数字网( i s d n ) 上开展双向声像业务( 可视电 话和视频会议) 而制定的,速率为6 4 k b p s 的整数倍,最高可达1 9 2 m b p s 。h 2 6 1 只对c i f ( 公用中间格式) 和q c i f ( 四分之一公用中间格式) 两种图像格式进 行处理,每帧图像分成图像层、宏块组( g o b ) 层、宏块( m b ) 层、块( b l o c k ) 层来处理。h 2 6 1 是最早的运动图像压缩标准,它详细制定了视频标准的各个部 分,包括运动补偿的帧间预测、d c t 变换、量化、熵编码,以及与固定速率的 信道相适配的码率控制等部分。它奠定了基于块的编解码器的基础,其建议的编 天津大学硕士学位论文第一章绪论 解码方案的基本结构一直沿用到现在。 h 2 6 3 是最早用于低码率视频编码的i t u t 标准,是为低于6 4 k b p s 的窄带 通信信道制定的视频编码标准。它是在h 2 6 1 的基础上发展起来的,其标准输入 图像格式可以是s - q c i f ( 亚四分之公用中间格式) 、q c i f 、c i f 、4 c i f 或者 1 6 c i f 的彩色4 :2 :0 亚取样图像。i - i 2 6 3 与h 2 6 1 相比采用了半像素的运动补偿, 并增加了4 种有效的压缩编码模式。 在完成h 2 6 3 基本标准之后,为了进一步提高该系统的编码性能,1 1 u t 的 专家组继续对多种编码改进算法进行测试评估,并将部分成熟的改进措施和新算 法以高级选项模式引人到h 2 6 3 标准体系之中,成为增加了许多选项的h 2 6 3 增 强版h 。2 6 3 + 和h 2 6 3 + + ,使其具有更广泛的适用性。 h 2 6 3 + 是i t u t 于1 9 9 8 年1 月通过的h 2 6 3 的第二版。它在原有h 2 6 3 所 具有的四种高级模式之上,修正了其中的无限制运动矢量模式,并增加了1 2 个 高级模式。它们主要是:先进帧内编码模式,去块效应滤波器模式,条状结构模 式,附加增强信息模式,独立分段解码模式,选择性帧间v l c ( 变长编码) 模 式,改进量化模式以及时域、信噪比和空域可分级性模式等。 2 0 0 2 年1 1 月,i t u t 讨论通过h 2 6 3 的第三个版本,又称h 2 6 3 + + 。h 2 6 3 十+ 新增三个高级模式,主要包括:增强的参考帧选择模式,数据分割模式以及附加 增强信息模式。 h 2 6 3 + 和h 2 6 3 + + 并不是i t u t 提出的新的视频编码标准,它只是作为h 2 6 3 标准的升级版本,其中各种改进模式均以附录的形式引入到h 2 6 3 标准体系中, 例如先进帧内编码模式为h 2 6 3 的附录i 。升级版本在保持原有h 2 6 3 系统框架 和语法结构上,注重系统基本性能的提高和功能的扩展【4 】。 h 2 6 4 是由i t u t 与i s o i e c 组成的联合视频组( t ) 制定的新一代视频 压缩编码标准。1 9 9 6 年制定h 2 6 3 标准后,i t u t 的视频编码专家组( v c e g ) 开始了两方面的研究:一个是短期研究计划,在h 2 6 3 基础上增加选项( 后来产 生了h 2 6 3 + 和h 2 6 3 + + ) ;另一个是长期计划,制定一种新标准以支持低码率的 视频通信。 长期研究计划产生了h 2 6 l 标准草案,在压缩效率方面与前期的i t u u 视频 压缩标准相比,具有明显的优越性。与以前的视频编码标准不同,h 2 6 4 不仅含 有一个规定视频编码算法的视频编码层( v c l ) ,还包括一个规定网络传输规范 的网络抽象层( n a l ) 。h 2 6 4 的视频编码层采取的编码框架仍然是传统的混合 编码框架,h 2 6 4 编码效率的提高也不是其中某一种新的编码技术所产生的决定 性结果,而是多种新技术所产生的细微的效果积累而致。这些新技术包括:多种 新的帧内预测方法、可变尺寸块的运动补偿技术、多参考帧的运动补偿技术、4 x 4 天津大学硕士学位论文第章绪论 整数变换技术、基于上下文的二进制算术编码技术以及新的环路滤波技术。 1 2m p e g 系列标准 m p e g 全称为m o v i n gp i c t u r ee x p e r t sg r o u p ,组建于1 9 8 8 年1 0 月,隶属于 i s o 和i e c ,目的是为传送音视频制定标准。m p e g 专家组建立了一系列运动图 像和音频压缩编码标准,广泛应用于数字存储、图像通信、广播电视等领域。 m p e g 1 标准发布于1 9 9 3 年8 月,用于传输1 5 m b p s 数据传输率的数字存 储媒体运动图像及其伴音的编码。m p e g 1 取得了一连串的成功,如v c d 和r a p 3 的大量使用等。 m p e g 2 压缩标准于1 9 9 4 年推出之后,以实现视频服务与引用互操作的可 能性。m p e g 2 标准是针对标准数字电视( s d t v ) 和高清晰度电视( h d t v ) 在各种应用下的压缩方案和系统层的详细规定,编码码率从3 m b p s 到1 0 0 m b p s , 特别适用于广播级的数字电视的编码和传送,被认为是s d t v 和i - 1 d t v 的编码 标准。m p e g 2 还专门规定了多路节目的复用方式。m p e g 2 图像压缩的原理利 用了图像中的两种特性:空间相关性和时间相关性。这两种相关性使得图像中存 在大量的冗余信息。如果去除这些冗余信息,只保留少量非相关信息进行传输, 就可以大大节省传输频带。接收机利用这些非相关信息,按照一定的解码算法, 可以在保证一定视频质量的前提下恢复原始图像。 m p e g - 4 于2 0 0 0 年初成为国际标准。该标准旨在为音视频数据的通信、存 取和管理提供一个灵活的框架与一套开发的编码工具,可根据应用的不同要求现 场配置解码器。尤其引人注目的是,m p e g - 4 提供的多种音视频的编码模式( 自 然与合成) 使图像或视频中对象的存取大为便利。这种音视频对象的存取,常被 称作基于内容的存取。m p e g - 4 不只是具体压缩算法,更是针对数字电视、交互 式绘图应用、交互式多媒体等整合及压缩技术的需求而制定的标准。 m p e g - 4 采用基于对象的编码,即在编码时将一幅景物分成若干在时间和空 间上相关联的音视频对象,分别编码后,再经过复用传输到接收端,接收端对不 同的对象分别解码,从而组合成所需要的视频和音频。m p e g - 4 的核心思想是基 于任意形状对象的编码,这种技术是建立在可以实时进行基于内容的图像分割的 基础上的。而在近年的研究中,图像分割技术无法得到有效地改进,使得基于对 象的编码方式无法得到实际应用。 天津大学硕士学位论文第一章绪论 1 3 国家视频编码标准a v s 在数字音视频领域,国外一直处于领先地位。我国目前在音视频产业领域已 经具备较强的产业基础,但由于没有核心的技术标准,国内相关企业长期受制于 国外持有标准化专利与技术的企业和组织。 为了使d v d 专利费事件不再在庞大的中国数字电视产业、新一代激光视盘 机、多媒体通信、宽带网络流媒体等新兴音视频产业中重演,使我国在新轮竞 争中取得国际领先性的跨越式的发展,我国有必要组织先进的、可自主控制的数 字音视频编解码技术标准体系。 经过多年努力,具有完全自主知识产权的信息技术先进音视频编码标准 ( a u d i oa n d v i d e o c o d i n gs t a n d a r d , a v s ) 已经诞生。经专家实验证实,a v s 视频 标准解码复杂度只相当于h 2 6 4 的3 0 ,编码复杂度相当于h 2 6 4 的7 0 e 习。 a v s 标准作为我国具有自主知识产权的第二代信源编码标准,其发展对于 我国的数字视频业务具有极其重要的意义。其产业联盟内的企业几乎覆盖了整个 产业链,包括前端设备、系统提供商、芯片提供商、机顶盒厂商等,相关产业正 在积极推进。 a v s 最直接的产业化成果是未来1 0 年我国需要的3 5 亿颗解码芯片,最直 接效益是节省超过1 0 亿美元的专利费,a v s 最大的应用价值是利用面向标清的 数字电视传输系统能够直接提供高清业务、利用当前的光盘技术制造出新一代高 清晰激光视盘机,从而为我国数字音视频产业的跨越发展提供了难得契机。a v s 将在标准工作组的基础上,联合家电、i t 、广电、电信、音响等领域的芯片、软 件、整机、媒体运营方面的强势企业,共同打造中国数字音视频产业的光辉未来 【6 】 o 总之,a v s 标准具有广泛的应用前景,并在我国电子信息产业的发展中起 着至关重要的作用。a v s 要走向实用,需要解决编码速度慢的问题,因此对a v s 的研究和优化很有必要。 1 4 论文结构安排 论文分为五章: 第一章为绪论; 第二章对具有中国自主知识产权的视频编码标准a v s 的各个关键技术进行 介绍; 第三章首先对a v s 的帧内预测编码技术进行详细讨论,随后提出一种基于 天津大学硕士学位论文 第一章绪论 残差变换绝对和( s a t d ) 排序的快速帧内模式判决算法,最后给出了所提算法 的时间性能和p s n r 性能; 第四章首先介绍c 语言优化技术和基于多媒体指令s i m d 的汇编语言优化 技术,然后对a v s 参考编码器r m 5 2 j 存在的熟点模块进行了详细的优化,最后 给出各个模块优化后节约运行时间的百分比; 第五章简单介绍了基于a v s 的数字电视传输流转码系统,并对基于a v s 视 频数据的数字电视传输流复用技术进行了研究。 最后总结了本文的主要工作,并提出了在本论文基础上进行下一步工作的若 干建议。 天津大学硕士学位论文第二章a v s 视频编码标准关键技术介绍 第二章a v s 视频编码标准关键技术介绍 a v s 是由国家信息产业部科学技术司于2 0 0 2 年6 月批准成立的音视频编解 码技术标准工作组所制定的标准,具有中国自主知识产权。目前,a v s 标准中涉 及视频压缩编码的有两个独立部分:第二部分( a v s l - p 2 ) ,主要针对高清晰度 电视广播和高密度存储媒体应用p 】:第七部分( a v s i - p 7 ) ,主要针对低码率,低 复杂度,较低图像分辨率的移动媒体应用删。本文主要对a v s l - - p 2 部分进行研 究与优化,为叙述方便,下文中用a v s 代替a v s i 1 ) 2 。 与h2 6 4 类似,a v s 也采用了基于空间和时间的预铡和补偿,空域变换及熵 编码的混合编码方式,编码结构如图2 1 所示。码流结构的语 击层次从高到低依 次为:序列、图像、条带、宏块、块。图像类型有i 、p 、b 三种。宏块有帧内预 测宏块和帧间预测宏块两大类。块是空间预测补偿、时间预钡4 补偿和空间变换的 基本单元。在a v s 中,块大小为8 x 8 像素。 a v s 在m p e g 2 传统编码结构的基础上,引入了部分新技术,进一步提高了 压缩性能。以下分别对这些新技术进行介绍。 掣, 二i 一 ! ! ! r _ 二蕴二二- - 、 o ,f l l c t 厂南广晶= 尚 l _ - 一。一 丫 岬曙t , 圈2 - 1 a v s 编码器结构 天津大学硕士学位论文第二章a v s 视频编码标准关键技术介绍 2 1 变换和量化 a v s 视频标准采用8x8 二维整数余弦变换( i n t e g e rc o s i n et r a n s f o r m ,i c t ) , 其性能接近8 8d c t 变换。并且变换和量化可以在1 6 位处理器上,只需要加 法和移位操作就可无计算误差地实现,消除了8 8d c t 变换存在计算误差的固 有问题。与h 2 6 4 所采用的4 4 高相关变换相比,8 8 整数变换的优点在于可 以使能量更加集中,在高分辨率图像上的去相关性能更有效,更有利于提高压缩 比;在相同比特率下,比4 4 变换保留更多的高频细节。 由于i c t 变换基矢量的模大小不一,因此必须对变换系数进行不同程度的缩 放以达到归一化。和传统i c t 编码( 如图2 2a ) ) 不同,a v s 采用带p i t ( p r e s c a l e d i n t e g e r t r a n s f o r m ) 的8 8 整数余弦变换技术【9 1 ,如图2 2 b ) 所示。即正向缩放、 量化、反向缩放结合在一起,而解码端只进行反量化,不再需要反缩放,从而减 少了解码端的计算量。 a ) 传统i c t 编码 b ) 带p 1 1 r 的i c t 编码 图2 2i c t 编码与带p i t 的i c t 编码 a v s 采用6 4 级量化,量化参数q p 每增加8 ,量化步长增加一倍,使a v s 具有适应不同的应用和业务对码率和质量的要求的能力。 在解码时首先进行反量化,根据q p 将二维量化系数矩阵q u a n t c o e t t m a t r i x 转换为二维变换系数矩阵c o e t t m a t r i x 。其中,量化系数的取值范围是 一2 2 一1 。 二维变换系数矩阵c o e f f m a t r i x 的元素由式( 2 1 ) 得到: = ( q u a n t c o e f f m a t r i x i ,j xd e q u a n t t a b l e ( q p ) ,1 ,、 + 2 跗r 4 胁( o p ) - i ) s h i f i t a b l e ( q p ) 、一17 其中:i ,j 吼7 :q p 与d e q u a n t t a b l e 和s h i f l t a b l e 关系见参考文献7 1 中的表 2 3 。 在反量化后分别进行水平和垂直方向的反变换,将8 8 变换系数矩阵 c o e t t m a t r i x 转换为8 8 残差样值矩阵r e s i d u e m a t r i x ,步骤如下: 天津大学硕士学位论文第二章a v s 视频编码标准关键技术介绍 首先,对变换系数矩阵进行如式( 2 2 ) 的水平反变换: h = c o e f f m a t r i x xt s 7 ( 2 2 ) 其中,五是8 x 8 反变换矩阵,磊r 是磊的转置矩阵,h 。表示水平反变换后 的中间结果。 第二步,由矩阵h 中的元素h 。得到h ”的元素 ”打,计算如式( 2 3 ) : h ”= ( c l i p 3 ( - 2 1 5 ) 2 1 5 - 1 ,( f ,+ 4 ) ) ) 3f ,= 0 7 第三步,对矩阵日”进行垂直反变换: h = 磊x h ” 其中,日表示反变换后的8 8 矩阵。 第四步,残差样值矩阵r e s i d u e m a t r i x 的元素珞计算如式( 2 5 ) 所示: ,;,= ( c i p 3 ( - 2 1 5 , 2 1 5 - 1 ,( ,+ 2 6 ) ) ) 7f ,j = 0 7 其中 。是日矩阵的元素7 1 。 2 2 帧内预测 ( 2 3 ) ( 2 4 ) ( 2 5 ) 与h 2 6 4 类似,a v s 的帧内预测也采用了基于空域的帧内预测思路,采用代 表空间域纹理方向的多种预测模式,利用与当前块相邻的左侧和上侧已解码块在 环路滤波前的重建像素值作为当前块的参考,直接对每个系数做预测,更有效的 去除相邻块的相关性,极大地提高了帧内编码效率【1 0 】。 与h 2 6 4 不同的是,a v s 兼顾高清视频的特点并且充分利用人眼的视觉掩盖 效应,亮度和色度帧内预测都以8 8 块为基本预测单元。由于预测块尺寸相对 比较大,待预测样本与参考样本间的距离增加,相关性减弱,从而降低了空间预 测精确度。因此,a v s 在d c 、d o w nl e f t 和d o w n 预测模式中先用3抽_right 头低通滤波器( 1 ,2 ,1 ) 对参考样本进行滤波【l 。 天津大学硕士学位论文第二章a v s 视频编码标准关键技术介绍 r - + 0i1i 8 4 3 3 04 图2 - 38 x 8 亮度块帧内预测模式 a v s 的亮度帧内预测只有5 种模式:v e r t i c a l 、h o r i z o n t a l 、d c 、d o w nl e f t 和d o w n _ r i g h t ( 图2 - 3 ) ,这使得方案更加简洁,大大降低了帧内预测模式决策 的计算复杂度,而性能降低不多。与h 2 6 4 采用9 种模式相比,a v s 采用5 种模 式仅损失0 0 5 d b 的p s n r 增益【12 1 。色度帧内预测同h 2 6 4 一样,也有4 种模式: d c 预测、水平预测、垂直预测和p l a n e 预测。 2 3 帧间预测 a v s 支持p 、b 帧两种帧间预测图像类型。p 帧至多采用2 个前向参考帧; b 帧采用前后各一个参考帧。与m p e g 2 传统的帧间预测方式相比,a v s 预测p 帧时,充分利用了两帧前向参考图像,消除了p 帧只能用一个参考帧进行预测的 限制,提高了压缩性能。 帧间预测中每个宏块可以采用4 种宏块划分模式:1 6 x1 6 ,1 6 8 ,8 x1 6 和8 8 。 p 帧宏块总共有5 种帧间预测模式:ps k i p ,p1 6 1 6 ,p1 6 x 8 ,p8 x 1 6 和p8x8 。除去ps k i p 模式,对于后四种预测模式的p 帧宏块,都由2 个候选 参考帧中的一个来进行预测,候选参考帧为最近解码的i 帧或p 帧;对于后四种 预测模式的p 场宏块,都由最近解码的4 个场来预测。 天津大学硕士学位论文 第二章a v s 视频编码标准关键技术介绍 b 帧宏块总共有2 4 种帧间预测模式,详细预测模式见参考文献【7 】的表1 8 。 其中单独进行前向或后向的各种预测模式与p 帧的预测模式相似,在此不再赘 述。双向预测主要有三种模式:跳过模式、对称模式和直接模式。 在对称模式中,如图2 - 4 所示,每个宏块只需传送一个前向运动矢量,后向 运动矢量由前向运动矢量按对称式( 2 6 ) 获得: 加协,x = - - ( ( m v f wx x b l o c k d i s t a n c e i s v x ( 5 1 2 b l o c k d i s t a n c e f w ) + 2 5 6 ) 9 ) m v b wy = - - ( ( m v f wy x b l o c k d i s t a n c e b w x ( 5 1 2 b l o c k d i s t a n 砑w ) + 2 5 6 ) 铆、 7 其中,m v f wx 和m v f wy 分别表示前向运动矢量的水平分量和垂直分量, m v b wx 和m v b wy 分别表示后向运动矢量的水平分量和垂直分量, b l o c k d i s t a n c e f w 和b l o c k d i t a n c e b w 分别表示当前图像与前向参考图像和后向参 考图像的距离,如图2 4 所示。 前向参考帧 当前b 帧 后向参考帧 a ) 帧图对称模式的运动矢量推导过程 前向参考帧当前b 帧后向参考帧 顶场底场顶场底场顶场底场 k 、 渤当前对称模式块=i卜 足 b l o c k d i s t a n c e f w b t o c k d i s t a n c e b w b ) 场图对称模式的运动矢量推导过程 图2 - 4 对称模式的运动矢量推导过程 在直接模式中,前向和后向的运动矢量都是由后向参考图像中与当前编码块 对应相同位置块的运动矢量获得,如图2 - 5 所示,不需传输运动矢量,因此节省 了运动矢量的编码开销。直接模式的运动矢量具体推导过程详见参考文献 7 的 9 9 1 节。 天津大学硕士学位论文第二章a v s 视频编码标准关键技术介绍 前向参考帧当前b 帧后向参考帧 s 当前直接携叁壅_ i一 b l o c k d i s t a n c e f w b l o c k d i s t a n c e b w = 图2 - 5 直接模式的运动矢量推导过程 跳过模式的运动矢量的导出方法和直接模式的相同,跳过模式编码的块的运 动补偿的残差也均为零,即该模式下宏块只需要传输模式信号,而不需要传输运 动矢量、补偿残差等附加信息。 2 4 亚像素插值 2 4 1 亮度亚像素插值 a v s 和h 2 6 4 一样,亮度和色度运动矢量的精度也分别是1 4 和1 8 像素。 两者插值的最大不同在于所使用的滤波器不一样。图2 - 6 给出了参考图像中整像 素、半像素和亚像素( 1 4 像素) 样本的位置。其中,大写字母标记的为整像素 、位置,小写字母标记且填充灰色的为半像素位置、小写字母标记但无色的为亚像 素位置。亮度亚像素插值过程【7 】为: 首先产生整像素位置间的半像素点,用4 抽头滤波器( 1 8 ,5 8 ,5 8 ,1 8 ) 对相邻整像素位置的样本插值得到,如图2 - 6 中的b 、h ,计算式如下: b = r o u n d ( ( 一c + 5 d + 5 e f ) 8 1 五:加俐( ( 一a + 5 d + 5 h 一) 焉 2 7 ) 第二步产生其它的半像素点,用4 抽头滤波器( 1 8 ,5 8 ,5 8 ,1 8 ) 对相 邻半像素位置或整像素位置的样本插值得到,如图2 - 6 中的j ,插值公式为: j = r o u n d ( ( - n + 5 h + 5 m - o ) 8 ) ( 2 8 ) 第三步产生与整像素和半像素同行或同列的亚像素点,用4 抽头滤波器 ( 1 1 6 ,7 1 6 ,7 1 6 ,1 1 6 ) 对相邻整像素或半像素样本插值得到,如图2 - 6 中的 a 、d 和i ,其中a 、d 计算式如下: 天津大学硕士学位论文第二章a v s 视频编码标准关键技术介绍 a = r o u n d ( ( e + 7 d + 7 6 + e ) 1 6 ) ( 2 9 ) d = r o u n d ( ( f + 7 d + 7 h + h ) 1 6 ) 、 第四步产生整像素或半像素对角位置的亚像素点,用双线性滤波器( 1 2 ,1 2 ) 对相邻整像素或半像素样本插值得到,如图2 - 6 中的s 、t 、p 和r ,其中s 的计算 式为: s = r o u n d ( ( d + ) 2 )( 2 1 0 ) 0 0 图2 - 6 整像素、半像素和亚像素样本位置 2 4 2 色度亚像素插值 a v s 色度分量的预测值通常通过双向线性内插得到。因色度信号的采样分辨 率比亮度分量低,故色度信号运动矢量的精度是八分之一像素,如图2 7 所示7 1 。 a v s 语法允许运动矢量超出图像边界,即运动矢量指向图像外。这种情况下,内 插前需复制参考帧边界采样点来扩边。 a r 一一下一r : y : :卜x 叫卜8 x 叫 ;i i竹l ;i 一土一d c u 图2 7 八分之一色度插值 插值时使用与亮度块的运动矢量r o v e ( r o v ex ,m v e _ y ) 对应的运动矢量 天津大学硕士学位论文 第二章a v s 视频编码标准关键技术介绍 m v c ( m v c _ x ,m v c _ y ) 来进行,为1 8 像素精度。如果是4 :2 :0 格式的图像, m v c - - - m v e :如果是4 :2 :2 格式的图像,m v c _ x - - - m v e _ x ,m v c _ v = m v e _ y 2 。 预测样本矩阵的元素p r e d m a t r i x x ,y 根据式( 2 1 1 ) 计算: 批帅卜+ ( 8 c l i p 叫l ( ( ( 8 - x ) x ( + 8 - y z z ( 8 6 - y ) ycxyd3 2 ) ) 灿 + ( 8 一x ) + + 6 ) 、7 其中,x - - - m v c x & 7 ,y - = m v cy & 7 ,a 、b 、c 、d 为被插值样本周围的整 像素点。 最后使用式( 2 1 2 ) 将插值样本饱和在( o ,2 5 5 ) 之间。 fo ;x 2 5 5 ( 2 1 2 ) i j ;其它i 2 5 环路滤波 基于块的视频编码,特别是在低码率的情况下,有一个显著缺点就是重建图 像存在块效应。一般来说,这是由于把像素块当作单个整体分别编码,编码过程 中并未考虑相邻块间的相关性,因而在重建图像中可能看到块边界。较大的量化 步长,更容易在相邻像素块间出现醒目的“台阶”,甚至出现“伪边界”。在a v s 视频编码标准中,块效应有两种来源:最显著的一个是在i n t r a 和i n t e r 帧预测残 差编码中的整数8 8 变换,对变换系数的粗量化会导致可见的块问边缘不连续。 第二个来自运动补偿预测。预测从可能的不同参考帧中把内插像素数据拷贝出来 形成运动补偿块,由于几乎没有正好合适的数据,被拷贝块的数据引起的边缘不 连续性会加剧;另外,在拷贝过程中参考帧中存在的不连续性又被搬到将要被补 偿块的内部。因此,为了平滑块边界、去除块效应j 提高图像的主观质量和压缩 效率,a v s 在重建图像后进行了自适应环路滤波处理。环路滤波对亮度块和色度 块的边界进行( 图像和条带边界不滤波) 【l 孤。 滤波强度由宏块编码模式、量化参数、运动矢量等参数决定。根据块边界两 侧的块类型先确定块边界强度( b o u n d a r ys t r e n g t h ,b s ) 值,然后对不同的b s 值采取不同的滤波策略。帧内块滤波最强,非连续运动补偿的帧间块滤波较弱, 而连续性较好的块之间不滤波。因此,b s 可取3 个不同值:若边界两边的两个 块中至少有一个是帧内编码块,则b s 等于2 ;若两个相邻块的参考帧相同并且 两个运动矢量的差值小于一个整像素,则b s 等于0 ;否则,b s 等于1 。b s 等于 0 不滤波,b s 等于1 或2 采用不同强度的滤波。 每个8x8 亮度块之间的边界有一个“边界强度”b s ,色度块的边界强度用 天津大学硕士学位论文第二章a v s 视频编码标准关键技术介绍 对应位置亮度块边界的b s 代替,如图2 - 8 所示。如果b s 等于0 则不要对边界滤 波,否则根据局部样本值的特性和b s 值对边界滤波。 b s h 0 0b s h 0 1 b s v 0 1 b s i l l 0b s h l l b s v l l b s v 0 0 b s v l 0 宏块亮度边界宏块色度边界( c b 或c r ) 注:粗实线为垂直边界,粗虚线为水平边界。 图2 - 84 :2 :0 格式宏块中需要滤波的边界示意 除图像边界及条带的边界之外,宏块的所有边界都应进行滤波。此处宏块边 界定义为宏块内部各个8 8 块的边界,以及当前宏块与相邻宏块的上边界和左 边界。 环路滤波以宏块为单位,按照光栅扫描顺序依次处理。图像中每个宏块的滤 波过程如下: 对亮度和色度分别做环路滤波,如图2 8 所示。首先从左到右对垂直边界滤 波,然后从上到下对水平边界滤波。当前宏块的上边或者左边的样本值可能在先 前的宏块环路滤波过程中已经被修改,当前宏块的环路滤波的输入为这些可能被 修改的样本值,并且当前宏块环路滤波可能进一步修改这些样本值。当前宏块垂 直边界滤波过程中修改的样本值作为水平边界滤波过程的输入。 帧内预测使用环路滤波前的重建图像样本值。 关于a v s 环路滤波的更具体处理方法请参阅文献 7 】和 1 4 】。 2 6 熵编码 a v s 采用基于指数哥伦布码的自适应变长编码技术。在a v s 熵编码过程中, 所有的语法元素和残差数据都是以指数哥伦布码的形式映射成二进制比特流。 a v s 定义了4 种由指数哥伦布码映射到码流并从码流中解析的语法元素,即使用 k ( = 0 ,1 ,2 ,3 ) 阶指数哥伦布码。宏块模式、运动矢量等用0 阶指数哥伦布编码,量 化系数使用全部4 种指数哥伦布码。 a v s 中的指数哥伦布码的比特分为前缀和后缀两部分,码字的构造格式是: 天津大学硕士学位论文第二章a v s 视频编码标准关键技术介绍 m z e r o s 1 1 n f o 对于0 阶指数哥伦布码:m 是0 的个数,后面跟一位1 , 位,整个码字的编码长度是2 m + l 位。码字的编码方式为: c o d e n u m = 2 肘+ 刃v :f d l 对于k 阶指数哥伦布码:信息位由m + k 个比特构成, 2 m + k + 1 位。码字的编码方式为: 然后是m 位信息 ( 2 1 3 ) 整个码字长度是 c o d e n u m = 2 肘+ 脚+ 2 k ( 2 1 4 ) 采用指数哥伦布码的优势在于:一方面,它的硬件复杂度比较低,可以根据 闭合公式解析码字;另一方面,它可以根据编码元素的概率分布灵活地确定以k 阶指数进行哥伦布码编码,若k 的选择恰当,则编码效率可逼近信息熵。 在编码8 8 变换系数时,a v s 采用了基于上下文的2 dv l c i l 5 】编码。所谓 基于上下文就是指根据已编码的系数来确定v l c 码表的切换。2 dv l c 的意思 是将( r u n ,l e v e l ) 对看做一个事件联合编码。对于预测残差的块变换系数,经 z i g z

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论