(模式识别与智能系统专业论文)h264avc中的运动估计算法研究.pdf_第1页
(模式识别与智能系统专业论文)h264avc中的运动估计算法研究.pdf_第2页
(模式识别与智能系统专业论文)h264avc中的运动估计算法研究.pdf_第3页
(模式识别与智能系统专业论文)h264avc中的运动估计算法研究.pdf_第4页
(模式识别与智能系统专业论文)h264avc中的运动估计算法研究.pdf_第5页
已阅读5页,还剩78页未读 继续免费阅读

(模式识别与智能系统专业论文)h264avc中的运动估计算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 h 2 6 4 a v c 是最新的国际视频编码标准,由国际电信联盟i t u t 的视频编码 专家组( v c e g ) 和国际标准化组织i s o i e c 的运动图像专家组( m p e g ) 共同制 定。该标准的压缩效率比任何现有的视频编码标准提高了l 倍以上,具有更强的 网络适应能力,代表了未来多媒体数据压缩编码的发展趋势。及时跟踪和掌握 h 2 6 4 a v c 的核心技术,并结合实际应用在某些关键方向上有所创新和发展,是 一项很有价值并极具挑战的工作。 本文深入剖析了h 2 6 4 a v c 的编码策略和技术特点,重点研究了其中的关键 技术:运动估计和帧间预测。首先针对视频编码标准中的运动估计算法,归纳了 其技术要点,并对其经典算法仿真实现后进行了性能比较,说明了每种算法的适 应场合,随后在此基础上提出了新算法基于多模板搜索的运功估计快速算法 ( 简称m p m v f a s t ) ,实验证明与现有算法相比,在保证图像质量的前提下,它 能够有效的减少搜索时间;然后,针对h 2 6 4 a v c 中的帧间预测算法中可变块运 动估计和多模式判断技术,提出了两种有效的新算法基于h 2 6 4 a v c 运动矢 量特征分类的快速运动估计算法( 简称t a m v ) 和基于h 2 6 4 a v c 的高效模式判 定运动估计算法( 简称a m s a ) 。实验结果表明,和已有算法相比,这两种算法都 只需要牺牲很少的比特率就可以达到搜索质量与全搜索算法接近、搜索时间急剧 减少的性能,更加适用于运动剧烈的大运动序列图像中。 关键词:视频编码h 2 6 4 a v c 运动估计帧间预测 a b s t r a c t h 2 6 4 a v ci st h en e w e s tv i d e oc o d i n gs t a n d a r do f t h ei t u tv i d e oc o d i n g e x p e r t sg r o u pa n dt h ei s o i e cm o v i n gp i c t u r ee x p e r t sg r o u p b ya d o p t i n gan u m b e r o f n o v e lc o d i n gt e c h n i q u e s h 2 6 4 ,a v ch a sb e e ne n h a n c e dc o m p r e s s i o np e r f o r m a n c e a n dp r o v i s i o no fa “n e t w o r k f r i e n d l y v i d e or e p r e s e n t a t i o na d d r e s s i n g c o n v e r s a t i o n a l ( v i d e ot e l e p h o n y ) a n d n o n c o n v e r s a t i o n a l ”( s t o r a g e ,b r o a d c a s t ,o rs t r e a m i n g ) a p p l i c a t i o n sr e l a t i v et oe x i s t i n gs t a n d a r d s i nt h i st h e s i s ,w e m a i n l yr e s e a r c ho nt h e n e wt e c h n i q u e si nh 2 6 4 ,a v c , e m p h a t i c a l l yo n t w oc o r bt e c h n i q u e s :m o t i o ne s t i m a t i o na n di n t e rp r e d i c t i o n f i r s tw ed i s c u s s e st h ek e yt e c h n i q u ei nv i d e oc o d i n gs t a n d a r d :m o t i o ne s t i m a t i o n b ya n a l y z i n gt h o s ea v a i l a b l ea l g o r i t h m si nf o l l o w i n gt e c h n i q u e s :b l o c km a t c h i n g c r i t e r i a ,t h ep r e d i c t i o no fi n i t i a ls e a r c hp o i n t , s e a r c hs t r a t e g ya n ds e a r c hp a t t e r n , w e a t t e m p t st om a k e a l lo v e r v i e wo f f a s tb l o c k b a s e dm a t c h i n ga l g o r i t h m s ,d e a l sw i t hs o m e t y p i c a la l g o r i t h m sa n dc o m p a r et h e i rp e r f o r m a n c e t h e np r o p o s ean o v e lm o t i o n e s t i m a t i o na l g o r i t h m ,o rt h em u l t i p a t t e m b a s e dm o t i o nv e c t o rf i e l da d a p t i v es e a r c h t e c h n i q u e ( m p m v f a s d ,e x p e r i m e n t ss h o wt h a tm p m v f a s tc o u l do b t a i ng o o d p s n rp e r f o r m a n c ea sw e l la sl o wc o m p u t a t i o nc o s t i n t e rp r e d i c t i o nc a ni m p r o v et h ec o d i n ge f f i c i e n c yg r e a t l y i no r d e rt oi m p r o v et h e s p e e do fi n t e rp r e d i c t i o ni nh 2 6 4 a v c ,a c c o r d i n gt o v a r i a b l eb l o c ks i z em o t i o n e s t i m a t i o na n dm o t i o ns e l e c t i o n ,w ep r o p o s e st w on e wa l g o r i t h m s ,af a s tm o t i o n e s t i m a t i o nb a s e do nt e x t u r ea n a l y s i so fm o t i o nv e c t o r ( t a m v ) a n da na d v a n c e d m o d es e l e c t i o na l g o r i t h mf o rm o t i o ne s t i m a t i o n ( a m s a ) e x p e r i m e n t ss h o wt h a tt h e y c o u l db o t ho b t a i ng o o dp s n r p e r f o r m a n c ea n dv e r yf a s ts p e e d a sw e l la sl o wb i t r a t e s k e y w o r d :v i d e oc o d i n g h 2 6 4 a v cm o t i o ne s t i m a t i o ni n t e rp r e d i c t i o n 创新性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文巾特刖加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果i 也小包含为获得西安屯f 科技大学或 其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做 的任何贡献均已在论文中做了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:致鹃 本人签名:噬塑曼日期:2 卯,- ,口 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属西安电= 科技大学。本人保证毕 业离校后,发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。 学校有权保留送交论文的复印件,允许查阅和借阅论文:学校可以公布论文的全 部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。( 保密的论文 在解密后遵守此规定) 本人签名:趣穆一 导师签名: 季窒参 日期:2 。口石、驴 日期:多占- ,d 第一章绪论 第一章绪论 1 1 引言 信息是客观世界中最本质的客观规律描述和分析,是当前信息社会的支柱。 人类通过视觉途径获取的信息,占信息量的7 0 ,所以视频信息的开发、利用对 提高人类社会的物质和精神文明具有及其重要的理论意义和应用价值。同时随着 多媒体与网络技术的飞速发展,现在的通信业务已从电话、传真、电报发展为可 视电话、会议电话、视频点播等,即由音频为主发展到具有直观性、确定性、高 效性等优越性能的视频业务,而数字化的视频信息所包含的海量数据,对信息的 存储和传送都造成了极大的困难,阻碍了人类有效地获取和利用信息资源。为此, 必须将视频信号在传送前进行压缩编码后再进行传送。所有的压缩编码必须满足 下面两个要求: ( 1 ) 必须压缩在一定的带宽内,即视频编码器应具有足够的压缩比; ( 2 ) 视频信号压缩后,恢复的信号应保持一定的视频质量。从两个方面进行评 定:一个是主观质量,由入从视觉上进行评定;一个是客观质量,通常用 信噪比表示。 1 2 数字视频压缩标准 从九十年代开始,国际上先后制定了系列视频图像编码标准。目前从事视 频压缩标准制定的国际标准组织主要有国际电信联盟i t u t 的视频编码专家组 v c e o ( v i d e oc o d i n ge x p e r tg r o u p ) 和国际标准化组织i s o i e c 的运动图像专家组 m p e g ( m o t i o np i c t u r ee x p e r tg r o u p ) 。两个标准化组织根据不同的应用需求,采 用近似的压缩编码技术,分别制定了h 2 6 x 和m p e g x 系列视频压缩标准,虽然 它们的应用领域不同,但是均采用了预测编码结合变换量化的混合编码模式。其 中这两大标准化组织于1 9 9 2 年联合提出的m p e g 2 1 4 2 6 2 是现有比较成功的国际 视频压缩标准,目前又再次联手推出了h 2 6 4 a v c ,即m p e g - 4 第l o 部分。图1 1 给出了各个标准间的关系。 2 h 2 6 4 a v c 中的运动估计算法研究 m p e g m p e g 1 m l e g - 4 s t a n d a r d s 1 9 8 41 9 8 61 9 8 81 9 9 01 9 9 21 9 9 41 9 9 61 9 9 82 0 0 02 0 0 22 0 0 4 图1 i 视频编码国际标准的发展 1 1 l 2 6 l 标准( i t u ,1 9 9 0 ) h 2 6 1 i i j 是最早出现的视频编码标准,由i t u t 的前身c c i t t 针对可视电话、 视频电视和窄蒂i s d n 等要求提出的一个编码标准。它的全称为“p x 6 4 k b i t s 视 听业务的视频编解码器”,其中p = l 到3 0 的整数,当p 小于6 时,只能传输清晰 度不太高的图像,可用于电视电话;当p 大于6 时,可以传输清晰度很好的图像, 适用于电视会议等。h 2 6 1 标准只对c i f 和q c i f 两种图像格式进行处理。采用的 算法结合了可减少时间冗余的帧间预测和可减少空间冗余的二维d c t 变换的混合 编码方法,主要由运动估计辟b 偿、d c t 变换和h u f f m a n 编码等部分组成。由于它 主要针对实时业务,因而希望编码器的延时尽可能小,所以只利用前一帧做参考 帧进行前向预钡,且编解码器的复杂度基本对称。 2 m p e g 一1 标准( i s o ,1 9 9 1 ) m p e g 1 1 2 1 是针对数据传输率在1 5 m b i t s 以下的数字存储介质图像及其伴音 编码而制定的国际标准,主要用于家用v c d 的视频压缩,其主要功能如下: ( 1 ) 视频压缩编码,可用于视频传输和视频存储;编码前必须将图像转 换为逐行扫描图像。在优化模式下采用标准交换格式( s i f ) 。 ( 2 ) 录像机的正放、图像冻结、快进、侠退和幔放功能以及随机存储功 能。 m p e g 1 标准采用了运动估计运动补偿、变换编码等技术,并规定了编码位 流的表示语法和具体解码方法。它的图像预测类型可以分成四种情况;帧内预测、 前向帧间预测、双向帧间预测和直接预测。因为它针对的是数字存储的应用,它 的编解码器是非对称的,其编码端的复杂度通常远远要高于解码端。 3 m p e g 2 1 t 2 6 2 标准( i s o + i t u ,1 9 9 4 ) m p e g 2 1 3 1 标准的全称为运动图像及其伴音的编码”,其中h 2 6 2 就是它的视 频编码部分。m p e g 2 包括系统、视频、音频及符合性( 检验和测试视音频及系统 第一章绪论 码流) 4 个文件。作为一个目前在d v d 存储和数字电视广播方面得到了广泛应用 的国际标准,它的成功之处在于提出了通用的压缩编码方法,它按照不同的压缩 比分成5 个档次( p r o f i l e s ) ,并按视频清晰度分别分成四个级别( l e v e l s ) ,共有2 0 种 组合。其中最常用的有1 1 种,分别用于标准数字电视、高清晰度电视,码率从 4 m b i t s 1 0 0 m b i t s 。 m p e g 一2 在多方面提高了编码参数的灵活性以及编码性能,它综合采用了运动 补偿的帧间预测、空间域离散余弦变换、自适应量化和可变长编码的混合编码。 同时,开始使用半像素精度的运动矢量搜索,引入了“帧”和“场”的编码方法, 根据帧的行间相关系数和场的行间相关系数,判定采用帧分割还是场分割迸行编 码。为了适应信道的变化和扩大应用范围,m p e g - 2 采用三种分级编码:空间域分 级、时间域分级和信躁比分级。 4 h 2 6 3 标准( i t u 1 9 9 6 ) h 2 6 3 4 l 是为低码率视频压缩提供的新标准,主要支持小于6 4 k b i t s 的窄带电 信信道视频编码,但实际上其应用范围已经超出了低码率图像编码范围。它共有 五种图像格式,其中1 6 q c i f 是高清晰度电视的水平,所以它也适用于高速率图像 编码。在技术上,它采用了半像素精度的运动估计、不受限运动矢量、高级预测 模式、p b 帧等,性能要优于h 2 6 1 。h 2 6 3 + 、h 2 6 3 + + 扩充了h 2 6 3 的编码可选项 和其它的一些附加特性,增强了抗误码的差错隐藏性能,将信道传输性能问题在 信源编码中加以综合考虑。 5 m p e g - 4 标准o s o ,1 9 9 9 ) m p e g - 4 1 5 1 初衷是针对视频会议、可视电话的超低比特率编码的。但随着芯片 性价比的提高使得基于软件平台的压缩编码具有实用的可能,且人们在对视频信 息的应用需求从播放型逐渐转到基于内容的访问和操作型,所以它制定的新目标 为支持多媒体应用( 侧重于对多媒体信怠内容的访闯) ,可根据应用要求配置解码 器。 m p e g - 4 为了支持高效压缩、基于内容交互和基于内容分级扩展,引入了 a v o ( a u d i o v i d e oo b j e c t ) 的概念实现基于内容的表示方法。换句话说它就是围绕 a v 对象的编码、存储、传输和组合而制定的,它是第一个使用户在接收端对画面 进行操作和交互访问的编码标准。 m p e g - 4 提供自然和合成的音频、视频以及图形的基于对象的编码工具,它为 多媒体数据压缩提供了一个更为广阔的平台,更注重于定义一种格式和框架,而 不是具体的算法,这样可以建立一个更自由的通信和研发环境,可以在系统中加 入许多新的算法,为使用计算机软件实现编码和解码提供更大的方便。它还可以 h 2 6 4 a v c 中的运动估计算法研究 将各种各样的多媒体技术充分运用在编码中,除包括压缩本身的一些工具、算法 外,还包括图像分析和合成、计算机视觉、计算机图形学、虚拟现实和语音合成 技术。但是由于“基于对象的编码”尚有技术障碍,在技术专利保护问题上迟迟 难以找到有效的收费形式,因此该标准目前仍然没有得到普遍应用。 6 m p e g - 7 ( i s o 。2 0 0 0 ) 和m p e g - 2 1 ( i s o ) m p e g 7 1 6 1 标准被称为“多媒体内容描述接口”,这种标准化的描述可以加到任 何类型的媒体信息上,不管视频信息的表达形式或压缩形式如何,允许快速有效 的查询用户感兴趣的信息。它的目标是支持多种音频和视觉的描述,包括自由文 本、n 维时空结构、统计信息、客观属性、主观属性、生产属性和组合信息,因 此m p e g 7 主要是用于数字化图书馆和广播式媒体。 正在制定的m p e g 2 1 1 7 则是一些关键技术的集成,通过这种集成环境就对全 球数字媒体资源进行透明和增强的管理,实现内容描述、创建、发布、使用、识 别、收费管理、产权保护、用户隐私保护、终端和网络资源抽取、事件报告等功 能。 总的来说,m p e g 一7 和m p e g - 2 1 其应用范围已经超出了传统的传输和存储范 畴,而是转向多媒体检索、交互式多媒体操作和内容管理等领域,已经不是一种 单纯意义上的视频编码算法。 1 h :1 南 c o v r , z 0 0 3 ) h 2 6 4 a v c t s j 是i t u t 和i s o i e c 共同成立的联合视频组j v t ( j o i m v i d e o t e a m ) 共同制定的新标准。t 于1 9 9 8 年2 月正式开始征集协议提案,1 9 9 9 年8 月完成 了第一版草案和相应的测试模型,2 0 0 1 年1 2 月,在t 的第1 次会议( p a t t a y a , t h a i l a n d ) 上形成h 2 6 4 a v c 的第二版工作草案( w o r kd r a f t2 ) ,并推出测试模型 j m 1 ( j u s t i f l e d m o d e l n u m b e r l ) ,2 0 0 2 年7 月的j v t 第4 次会议( k l a g e n f u t ,a u s t r i a ) 上推出了h 2 6 4 a v c 的会员草案版( c o m m i t t e ed r a f t ) ,提出了相应的校验模型 j m - 4 ,在2 0 0 3 年3 月召开的全体大会( p a t t a y a t h a i l a n d ) 上,给出了最后的冻结 草案和相应的测试模型。两个月后改标准提交给i s o i e c ,通过讨论成为m p e g 4 第十部分,形成正式版。 h 2 6 4 a v c 作为面向电视电话、电视会议的新一代编码方式,目标是在同等 图像质量条件下,新标准的压缩效率比任何现有的视频编码标准要提高l 倍以上。 它正式形成后,具有如下的特点: i ) 提高了编码效率在相同图像质量情况下,h 2 6 4 ,a v c 比h 2 6 3 编码至 少减少5 0 以上的码率;h 2 6 3 + 和h 2 6 3 h 标准虽然提出了很多新的工具作为可 选项,但是这些可选项使得应用者有时候无所适从,为此h 2 6 4 a v c 采用了简洁 第一章绪论 的设计思路,不再采用众多的可选项,而是将整个编码器融合在一个框架内,在 解码器端采用了复杂度可分级设计,在图像质量和解码处理速度之间进行折中, 以适应多种复杂应用。 2 ) 增强的网络适应能力它采用了面向网络传输的结构和语法,增强了标准 的网络适应能力,通过引入面向i p ( i n t e m e tp r o t o c 0 1 ) 包交换的编码机制,实现视 频数据在网络中的分组传输,对于不同的内容采用分割( d a t a p a r t i t i o n ) 编码传输, 灵活地采用相应的时延限制,以适应i p 网络、移动网络等多种系统的网络传输要 求,保证获得平稳的图像质量。并且提供了较强的抗误码特性,适用于丢包率高、 干扰严重的无线信道视频传输。 3 ) 公开版权h 2 6 4 a v c 在制定过程中,充分吸取了m p e g - 4 标准在版权和 专利问题上的经验教训,提出了基本档次( b a s e l i n ep r o f i l e ) 的使用无需版权,整 个h 2 6 4 a v c 视频压缩标准具有开放的特点。 1 3 1 主要研究工作 1 3 研究工作概要及主要贡献 h 2 6 4 a v c 是最新的视频编码标准,由于具有比以往标准更出色的性能,在 国际上受到了广泛地重视和欢迎。及时跟踪和了解h 2 6 舭w c 的发展动态,掌握 其核心技术,并结合实际应用在某些关键技术上有所创新和发展,是一项很有价 值的工作。本论文以h ,2 6 4 a v c 为中心,对视频编码的原理和各项技术进行了深 入研究,重点分析了其中的六项关键技术:帧内预测、帧问预测、整数变换和量 化、熵编码、去块滤波器和码率控制,并对帧间预测和运动估计算法进行了详细 研究,针对其技术特点,提出了新的预测和运动估计算法。全部研究工作可以分 为如下四个阶段: 1 熟悉视频编码的基本思想和原理,学习数字图像处理和编码理论,奠定 课题开始的初步基础。 2 学习h 2 6 4 a v c 标准,针对其验证模型j m ,深入剖析了h 2 6 4 a v c 编 解码的原理和关键算法,并针对h 2 6 4 a v c 部分算法通过软件进行了 仿真。 3 对视频编码标准中的运动估计算法进行了研究,总结出了其技术特点, 并对经典算法进行了仿真和性能比较,在此基础上提出了新算法多 模板搜索的运动估计快速算法( m p m v f a s t ) ;使用v c + + 6 0 编写实 验仿真平台加以验证,进行了详细的性能比较。 6 h 2 6 4 a v c 中的运动估计算法研究 4 针对h 2 6 4 a v c 的帧问预测算法中的技术特点进行了研究,在已有算 法的基础上提出了两种新算法基于h 2 6 4 a v c 运动矢量特征分类 的快速运动估计算法和基于h 2 6 4 ,a v c 的高效模式判定运动估计算法; 使用v c + + 6 0 编写出实验平台进行验证,得出了结论。 本文的主要贡献: 1 对经典的视频编码方法进行了系统的研究,对视频编码国际标准的发展、 理论和主要技术进行了研究和分析; 2 研究了视频编码标准中的运动估计算法,并提出了它的一般性规律,对经 典算法利用v c + + 6 0 进行了仿真实现和性能比较,并结合了起始搜索点预 测、运动类型判定和模板组合,提出了一种效率更高的运动估计算法:多 模板搜索的运动估计快速算法( m p m v f a s t ) 。该算法充分利用了序列图 像中运动矢量场的中心偏置特性和时空相关性,根据运动类型自适应的选 择搜索策略和搜索起始点,结合了垂直和水平方向的两个六边形搜索模板, 并采用内部简易搜索算法,同时利用有效的判断中止准则结束搜索。与现 有算法相比,该算法有效的减少了搜索点数,搜索精度接近于全搜索法。 3 分析了h 2 “a v c 中的帧间预测算法,并详细研究了其多模式运动估计算 法,针对其技术特点,提出了两种新算法。一种是基于运动矢量特征分类 的快速算法( t a m v ) ,利用h 2 6 4 a v c 中可变块运动估计和模式判定的特 点,通过分析各模式间的相关性,实现了一种简单高效的早期模式判定方 法,有效地排除了宏块的冗余模式;同时选用精确而且快速的方向性菱形 模板,对不同的模式采用不同的搜索策略。实验分析表明,该算法有效的 节省了搜索时间,搜索精度接近于全搜索算法。另外一种是基于h ,2 6 4 a v c 的高效模式判定运动估计算法( a m s a ) ,它先对每个1 6 1 6 的宏块进行 模式4 的搜索( 8 8 块) ,用得到的四个运动矢量进行判定。确定下一步 搜索模式,有效地排除了冗余模式:同时选用精确而且快速的方向性菱形 模板,对不同的模式采用不同的搜索策略,并利用有效的判断中止准则结 束搜索。与现有算法相比,该算法有效的节省了搜索时问,搜索精度接近 于全搜索算法,特别适用于包含大运动矢量的图像序列中,利于实时运用。 1 3 2 论文章节安排 论文全文一共分成5 章。第一章为绪论,阐述视频编码标准的发展过程和研 究现状。第二章介绍了h 2 6 4 a v c 的编码策略和技术特征。第三章首先分析了运 动估计的基本原理,并对经典的运动估计算法进行了仿真和性能比较,然后提出 了新的算法。第四章中,针对h 2 6 4 a v c 帧问预测算法的特点,分析其参考软件 第一章绪论 7 j m 中吸收的快速算法u m h e x a g o n s ,然后提出了两种新的算法,并分别通过实验 与其它算法进行比较,证明了它们的有效性。第五章是对本文工作的总结和未来 工作的些展望。 h 2 6 4 a v c 中的运动估计算法研究 第二章h 2 6 4 1 a v c 的关键技术 2 1h 2 6 4 a v c 的应用 h 2 6 4 ,a v c 自2 0 0 3 年3 月正式颁布以来,就成为了视频压缩编码领域发展中 引人关注的焦点,它的优异性能也将在视频监控、网络视频直播、视频会议电话、 无线移动视频通讯、高清晰度数字电视等各个方面发挥重要的作用。 数字电视的优越性已是公认的,但它的广泛应用还有赖于商效的压缩技术。 比如2 小时的h d t v 节目,如果使用m p e g - 2 最小只能压缩至3 0 g b ,而使用 h 2 6 4 a v c ,在画质丝毫不降的前提下可压缩到1 5 g b 以下。美国已公布在2 0 1 0 年( 我国约在2 0 1 5 年) 停止模拟电视广播,全部采用数字电视广播,如果那时 h d t v 要获得迅猛发展,必须要降低成本,以传输费而言,采用h 2 6 4 a v c ,可 使传输费用降为原来的1 4 。据了解,2 0 0 8 年在我国北京举行的奥运会,也将是一 个“科技奥运”,h d t v 必然将呈现在人们的眼前,一个高质量的压缩性能优异的 h 2 洲a 、,c 视频编码技术和设备的市场前景是可以想象的。现在某些省市,已在 有线电视的基础上开通了h d t v ,采用压缩性能优异的h 2 6 4 a v c 的要求必然更 为迫切。 视频通信是h 2 6 4 a v c 又一个重要应用领域。2 0 世纪9 0 年代初以来,主要 用来召开行政会议的会议电视在我国获得了飞速发展,它的优点是可节约大量旅 途出差时间,节约出差费用,还争取了时间并能及时做出重大决策。短短几年, 全国从中央到省,到地市甚至县,建立了几千个会议电视室,在国民经济的发展 中发挥了重要作用。其不足之处为:( 1 ) 无法普及:必须到电信局转门的电视会 议室才能参加会议;( 2 ) 价格昂贵:原有视频会议设备采用的h 2 6 1 作为视频压 缩编码标准,从视频质量和设备费用而言,性价比较低。 可视电话是视频通信的另一个重要应用,“百闻不如一见”,可是直到今天, 视频尚未很好地广泛应用,最主要的原因是视频质量不理想。而利用h 2 6 4 a v c 技术构建的视频会议电话系统能够适应不同带宽的网络环境,为用户提供清晰流 畅的视频图像。用户使用普通的电视机,配备视频采集设备、带耳机和麦克风的 p c 机、网络会议电话传输系统,即可实现基于i p 网络的视频会议。与传统的桌 面p c 会议电话系统相比,利用h 2 6 4 优化编解码器技术构建的视频会议系统, 由于不受低带宽的限制和桌面环境的限制,使得系统更加稳定和专业,更易于实 现高端的企业及电信运营的大舰模应用。 h 2 6 4 a v c 还有一个重要的应用,即网络的流媒体,如网络电视( i p t v ) 和 第一二章h 2 6 4 a v c 的关键技术 9 视频点播( v o d ) 。电信专家徐贵宝闩分析认为现在我国电视用户数已经超过3 亿, 宽带用户数和手机用户数正处于高速增长中,随着i p t v 业务的越来越完善,消费 市场必将快速发展起来,估计2 0 0 8 年i p t v 总用户数将会达到6 0 0 0 万。而据市场 调查公司s c r e e nd i g e s t 发布的最新报告显示,到2 0 0 9 年在欧洲快速兴起的i p t v 市场将占付费电视市场的1 0 左右的份额。预计到2 0 0 9 年欧洲i p t v 用户将从现 在的6 5 万8 0 0 0 个增长到8 7 0 万个。同时针对流媒体技术,h 2 6 4 a v c 的网络适 应特性、差错控制和码率恢复等关键技术的应用,使得流媒体技术的快速发展也 是可以期待的。 h 2 6 4 a v c 着重于解决压缩的高效率和传输的可靠性,因而其应用面十分广 泛,具体来说,它主要支持三个不同档次的应用: ( 1 ) 基本档次( b a s e l i n ep r o f i l e ) :主要用于视频会话,如会议电视、可视 电话、远程医疗、远程教学等等; ( 2 ) 主要档次( m a i n p r o f i l e ) :主要用于消费电子应用,如数字电视广播、 数字视频存储等: ( 3 )扩展档次( e x t e n d e dp r o f i l e ) :主要用于网络的视频流,如视频点播; 2 2h 2 6 4 a v c 的编解码器 h 2 6 4 a v c 和以前的标准一样,也是d p c m 加变换编码的混合编码模式,具 备良好的兼容性和可移植性。但它采用“回归基本”的简洁设计,不用众多的选 项,获得比以前编码标准更好的压缩性能;加强了对各种信道的适应能力,采用 “网络友好”的结构和语法,有利于对误码和丢包的处理;应用目标范围较宽, 以满足不同速率、不同解析度以及不同传输( 存储) 场合的需求;h 2 6 4 a v c 的 编解码器的基本原理如图2 1 所示,( a ) 为编码器框图,( b ) 为解码器框图。 厂 塑厂 :二r j 堕母。 4 - 厂翮:厂:= = 厂:= ( a ) 编码器框图 l o h 2 6 4 a v c 中的运动估计算法研究 编码器端: 编码器包括两个数据流通道:前向通道和重建通道。输入的帧或者场f n 以宏 块为单元进行处理,每个宏块又采用帧内或者帧问预测模式。在帧内模式中,预 测值是从已被编码、解码和重建( 如图2 2 中的甜巧) 的当前片组里的样本得到的。 解码器框图 图2 1h 2 6 4 a v c 编解码器原理图( a ) 编码器( b ) 解码器 在帧闻模式中,预测值从l i s t 0 和或l i s t t 中的1 个或者2 个参考图像中进行运动补 偿后得到的。在图中,参考帧为,帧间预测时可以选用当前帧前面或者后面( 在 显示顺序) 的图像作为参考图像。预测值与当前块相减得到一个残差块d n ,d 。经 过块变换、量化、扫描和熵编码后,得到一个含有熵编码系数和对宏块进行解码 需要的边缘信息( 如预测模式、量化参数、运动矢量等等) ,产生了压缩的比特流, 将其传输到网络抽象层( n a l ) 中进行传输或者存储。 重建通道是为下一步预测提供一个参考帧。系数x 经过反量化和反变化得到 残差块珑,再与预测值相加得到重构帧,得出的结果经过块滤波器平滑后送入帧 存储器。 解码器端: 当编码后的码流送入解码器时,首先根据语法元素进行判断。如为帧内编码, 则直接进行反量化、反变换加以重构;如果是帧间编码,所得到的为重构的残差 图像,此时需要根据帧存储器中的参考图像进行运动补偿后与残差图像进行叠加, 得出最终的当前帧。 2 3h 2 6 4 a v c 的结构 h 2 6 4 a v c 定义了三个档次( p r o f i l e s ) ,每个档次支持特定的功能,并且指定 了遵循该档次所要求的编码器和解码器结构。各档次主要含有的特点如下: ( 1 ) 基本档次( b a s e l i n ep r o f i l e ) :利用i 片和p 片支持帧内和帧间编码, 支持利用基于上下文的自适应变长编码进行熵编码( c a v l c ) 。 ( 2 ) 主要档次( m a i np r o f i l e ) :支待隔行视频,采用b 片的帧间编码和采 用加权预测的帧内编码;熵编码采用基于上下文的自适应算术编码 ( c a b a c ) 。 第二章h 2 6 4 a v c 的关键技术 ( 3 ) 扩展档次( e x t e n d e dp r o f i l e ) :支持码流之问有效切换( s p 和s l 片) 、 改进抗误码性能( 数据分割) 。不支持隔行视频和c a b a c 。 图2 2h 2 6 4 a v c 所支持的三个档次 图2 2 显示了三个档次之间的基本关系。显而易见,基本档次是扩展档次的子 集,但不是主要档次的子集。每一档次设置不同的参数,得到对应的编解码器性 能的不同级。 h 2 6 4 a v c 支持4 :2 :0 的连续或隔行视频的编码和解码,其它的采样格式 如4 :2 :2 和4 :4 :4 可做为它的可用信息参数。 2 4h 2 6 4 a v c 网络适应特性 多媒体视频传输,特别是针对i p 网络和无线网络,以及其它一系列符合 i e e e 8 0 2 标准无线局域网的应用成为现在以及未来多媒体通信的发展趋势。然而。 由于因特网和各种无线网络都存在着不利于视频传输的信道特点。对多媒体通信 的推广应用构成了阻碍。一般来说,对于以分组交换技术为基础的因特网,存在网 络异构性,网络流量突发性的特点,而对于无线通信,信道条件更为复杂,有多种 因素如多径衰落、时延扩展、噪声影响与多址干扰制约着视频传输,特别是应用越 来越广泛的实时视频传输的快速发展。 复杂的信道环境对视频编码器提出了以下要求:( 1 ) 高效的压缩效率;( 2 ) 对误 码、丢包有较强的鲁棒性:( 3 ) 支持快速的码率调整;( 4 ) 能有效地利用特定网络的 机制,即网络友好性。 为了解决上述问题,h 2 6 4 a v c 采用了分层结构以适应各种网络应用的要求。 在h 2 6 4 采用的全新编码结构中,首次提出了网络抽象层( n e t w o r k a b s t r a c t i o n l a y e r , n a l ) 的概念,其码流结构增强了对网络的适应性;还采用了数据掩盖和错 1 2 h 2 6 4 a v c 中的运动估计算法研究 误恢复等技术使之具备了在高误码率、丢包多发的信道中传输的能力,能够很好 的适应i p 和无线网络的应用,这些都大大提高了h 2 6 4 a v c 适应复杂信道的能力。 2 4 1 编码结构的分层处理 h 2 6 4 a v c 从概念上将编码结构分为两层:视频编码层( v i d e oc o d i n g l a y e r , v c l ) 负责解决高效率的视频压缩问题;网络抽象层( n e t w o r k a b s t r a c t i o nl a y e r , n a l ) 负责解决网络的适配问题,即对不同网络具有不同的适应能力,以恰当的 方式对数据进行打包和传送。它的编码器分层结构如图2 3 所示。n a l 将v c l 从 具体的传输层中抽象出来,定义了一个基于基本的和独立于网络的表示法。在v c l 和n a l 之间定义了一个基于分组方式的接口,打包和相应的信令属于n a l 的一 部分。这样的结构使两层更专注于本身功能的实现,优化了整个编码系统。 暑 v i d e oc o d i n gl a y e r 口 i c 。d e dm a c r o b l o c k 暑 ui _ 一d a t a p a r t i t i 。n i n g t ic o d e ds l i c e p a r t i t i o n 审 l n e t w 。r ka b s 仃a c t i 0 i ll a y e l h 3 2 0 1 啦4 f f h3 2 3 i p | | m p e g 一2lle t c i 图2 3h 2 6 4 a v c 的分层编码结构 v c l 包括基于块的运功补偿混合编码和一些新的特性。n a l 的主要功能是: 对上层,从视频编码层v c l 获得数据,包括头信息、视频压缩数据信息;对下层, 依据具体传输网络的特性对数据进行封装,包括成帧、发信号给逻辑信道、利用 同步信息等,定义适合传输层或存储介质需要的数据格式,提供头信息,将视频 编码数据正确地映射到h 3 2 3 、h 3 2 4 等具体的传输协议上,从而提供视频编码层 与外部世界的接口。它是以n a l u ( n a lu n i t ) 为单元来支持编码数据在大多数基于 包交换技术网络中的传输的。 2 4 2 差错控制和码率恢复 h 2 6 4 a v c 包含差错消除的工具,有利于标准视频流在误码、丢包多发的移 动环境中传输,增强了视频流的鲁棒性。为了减少传输差错,h 2 6 4 a v c 视频流 中的时间同步可以通过采用帧内图像刷新来完成,空间同步由片结构编码( s l i c e 第二章h 2 6 4 a v c 的关键技术 s t r u c t u r e dc o d i n g ) 来支持。同时为了便于误码以后的再同步,在一帧的视频数据 中还提供了一定的重同步点。另外,帧内宏块刷新和多参考帧模式使编码器在决 定宏块模式的时候不仅可以考虑编码效率,还可以考虑传输通道的特性。 h 2 6 4 a v c 中还定义了数据分割模式:图像首先进行分段,段内宏块数据划 分为宏块头信息、运动矢量和d c t 系数三个部分,且三部分之间由标识符分隔。 这样,解码器可较为方便地检测出受损数据的类型,减少误码对图像质量造成的 损伤。这种数据分割的模式也有利于信道编码时进行不等保护,即对重要的数据 进行等级较高的保护。快速码率控制可通过在宏块层改变量化精度来实现。在移 动通信的应用中,还可以使用空间时间可伸缩特性来支持移动信道的较大比特率 变化。 2 5h 2 6 4 a v c 的关键新技术 h 2 6 4 a v c 采用了一系列先进编解码技术口4 1 ,如帧内预测、帧间预测、整 数变换、基于上下文自适应的熵编码、环路滤波器等等,使得在同等的带宽条件 下,它的视频图像质量超过了以往的任何编码标准。下面就h 2 6 4 a v c 提高视频 编码效率的技术做进一步分析。 2 5 1 帧内预测 h 2 6 4 a v c 的帧内预测算法利用图像在空间域上的方向特性及子块像素间的 相关性进行预测,去除子块间的空间冗余。编码时,首先使用已经编码的块( 尤 其是当前块上方和左方的块) 的像素值来预测当前块亮度分量和色度分量值,随 后对实际值和预测值的残差图像进行整数变换、量化及熵编码。它对亮度分量和 色度分量设定了不同的预测方案,独立实施预测。亮度分量的帧内预测包含两种 预测模式:基于4 x 4 像素块的帧内预测模式和基于1 6 1 6 像素块的帧内预测模式; 对色度分量只有一种预测模式。在每种预测模式设定了不同方向的预测选项以尽 可能的高精度的预测不同纹理特性的图像子块。 1 ) 4 x 4 块亮度分量预测模式 当图像区域中包含丰富细节时,相邻像素点差异往往比较大,即空间上的相 关性比较小,因此按照以往的算法将图像分割为8 x 8 大小的块进行预测误差比较 大,此时将图像分为更小的块进行预测是一种好的选择。h 2 6 4 a v c 支持小至4 x 4 块的预测,具有更高的预测精度。在该模式中,将图像分割为4 x 4 大小的子块, 以子块为最小单位进行帧内预测。4 4 亮度分量预测模式包含有9 种预测选项: m o d e 2 为d c 预测,其余8 种预测选项分别代表了8 种不同方向( 参见图2 4 ) , 块内同一方向上的像素点具有相同的预测值,以此来近似的逼近不同方向纹理特 1 4 h 2 6 4 a v c 中的运动估计算法研究 性的图像。 对于图2 5 所示的4 x 4 图像块,a p 代表子块内部的1 6 个像素点,a ,1 分别代 表上方和左方与子块相邻的1 2 个像素点,q 代表当前块左上方的邻块。9 种预测 选项如

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论