已阅读5页,还剩50页未读, 继续免费阅读
(交通信息工程及控制专业论文)基于搜索范围限制的H264运动估计算法.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 h 2 6 4 a v c 视频编码标准以高效编码和网络友好性成为新一代国际视频编码 标准。但是由于h 2 6 4 中引入了许多新的编码技术,使得编解码器的计算量急剧 增加。本文针对引起计算量增加的多参考帧和多宏块划分技术,通过将理论分析 与实验数据相结合,实现了一种基于搜索范围限制的h 2 6 4 运动估计算法。该算 法根据视频序列的时间相关性和空间相关性,利用邻近参考帧中运动估计的结果 对其它参考帧运动估计的搜索范围进行限制;利用宏块上层模式运动估计的结果 对下层模式运动估计的搜索范围进行限制。从而大大减少了候选搜索点的数量, 降低了运动估计的时间,提高了编码的效率。 在j m 8 6 参考模型下仿真,与经典算法相比,本文实现的算法在候选搜索点 的数量上节省了将近1 0 ,而p s n r 值仅仅降低了不到0 1 d b 。在编码时间、p s n r 值以及码率的权衡比较下,基于搜索范围限制的h 2 6 4 运动估计算法表现出了普 遍优越的性能。 关键词:视频编码帧间预测运动估计搜索范围 a b s 仃a c t a b s t r a c t h 2 6 4 a v cb e c o m e st h em o s ta d v a n c e dv i d e oc o d i n gs t a n d a r db e c a u s eo fb o t h h i g hc o d i n ge f f i c i e n c ya n dn e t w o r kf r i e n d l i n e s s b u tt h en e we n c o d i n gt e c h n o l o g i e s u s e di nh 2 6 4i n c r e a s ec o m p u t a t i o nl o a do fa ne n c o d e ro rad e c o d e rd r a m a t i c a l l y u n d e rm u l t i p l er e f e r e n c ef r a m e sa n dm u l t i p l em a c r ob l o c km o d et e c h n o l o g yw h i c h c a u s et oc o m p u t a t i o nl o a do fh 2 6 4s y s t e m ,t h et h e s i sc o m b i n e st h e o r e t i c a la n a l y s i s 、衍t he x p e r i m e n t a lr e s u l t sa n di m p l e m e n tah 2 6 4m o t i o ne s t i m a t i o na l g o r i t h mb a s e d o ns e a r c hr a n g er e s t r i c t i o n a c c o r d i n gt ot h et i m er e l a t i v i t ya n ds p a c er e l a t i v i t yw h i c h v i d e os e q u e n c eh a s ,t h ea l g o r i t h e mr e s t r i c t st h em o t i o ns e a r c hr a n g ei no t h e rr e f e r f r a m e sb ym o t i o ne s t i m a t i o nr e s u l ti nt h en e a r e s tr e f e rf r a m e ,a n dr e s t r i c t st h em o t i o n s e a r c hr a n g eb ym o t i o ne s t i m a t i o nr e s u l to fu p p e rm o d eb l o c kw h e nc u r r e n tm o d eb l o c k i s d o i n g m o t i o ne s t i m a t i o n i tr e d u c e st h en u m b e ro fc a n d i c a t es e a r c h p o i n t g r e a t l y ,s h o r t e nt h et i m eo fm o t i o ne s t i m a t i o na n dr a i s ee n c o d i n ge f f i c i e n c y o nt h eb a s i so fj m 8 6r e f e r e n c em o d e l ,c o m p a r e dw i t hc l a s s i c a lm e t h o d ,t h e a l g o r i t h mi m p l e m e n t e db yt h i st h e s i ss a v e sa b o u t10 o nt h en u m b e ro fc a n d i c a t e s e a r c hp o i n ta n dr e d u c e sl e s s0 1d bo i lp s n r w e i g h t i n ge n c o d i n gt i m e p s n ra n dc o d e r a t e ,t h eh 2 6 4m o t i o ne s t i m a t i o na l g o r i t h mb a s e do ns e a r c hr a n g er e s t r i c t i o ns h o w s s p e c i a lp e r f o r m a n c ei nm a n yr e s p e c t s k e y w o r d :v i d e oc o d i n g i n t e rp r e d i c t i o nm o t i o ne s t i m a t i o ns e a r c hr a n g e 西安电子科技大学 学位论文独创性( 或创新性) 声明 秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在 导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标 注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成 果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的 材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中做了明确的说 明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切的法律责任。 西安电子科技大学 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。学校有权保 留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内 容,可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证,毕业后 结合学位论文研究课题再攥写的文章一律署名单位为西安电子科技大学。( 保密的 论文在解密后遵守此规定) 本人签名: 导师签名: 日期 三1 2 f 日期 兰:复 第一章绪论 第一章绪论 2 1 世纪是一个飞速发展的数字信息时代,数字信息化几乎波及到世界的每个 角落,改变了人类的生活和工作方式。信息技术的发展,使人们的学习和交流打 破了时空界限,为人类的发展带来了新的空间。以多媒体和网络为依托的信息技 术己成为拓展人类能力的创造性工具。信息化的一个主要特征就是多媒体技术的 广泛应用,随着多媒体业务的不断拓展,多媒体技术己成为工业界和学术界的一 个研究热点。而这些都主要归功于视频图像的压缩编码以及多种数字处理技术的 不断发展。 1 1 课题研究的背景 随着信息技术的发展和社会的进步,人们对信息的需求越来越丰富。人们希 望无论何时何地都能够方便、快捷、灵活地通过语音、数据、图像与视频等多种 方式进行通信。视觉信息给人们直观、生动的形象,图像视频的传输更受到人们 广泛地关注。超大规模集成电路( v l s i ) 技术和宽带数字网技术的发展,使人们对 数字视频业务如可视电话、视频会议、视频监控、高清晰度电视( h d t v ) 、视频点 播w o o ) 、远程教学和远程购物等产生了越来越浓厚的兴趣。 同时存储、通信等技术的日趋完善,以及互联网的高速发展,促进了个人用 户对多媒体业务的需求的不断增长。多媒体信息主要包括文字、声音、图像、图 形和视频等内容。其中视频又是多媒体信息中最重要的组成部分。这是因为视频 信息有着其独特的特点。首先,确切性。同样的内容由听觉和视觉两种不同方式 获取信息其效果是不同的,后者显然比前者更容易确认,不易发生错误,这点在 军事、工业指挥等重要通信中具有重要意义。其次,直观性。同样内容,通过图 像获取信息比听声音更为形象直观,印象深刻,易于理解,效果更好。第三,高 效率。由于视觉器官具有较高的图案识别能力,人们可在很短时间内,通过视觉 接受到比声音信息多得多的信息。但与文本、数据和语音相比,数字视频巨大的 数据量使得未经压缩的数字视频几乎没有实用价值。例如:对于c c i r 一6 0 1 格式 的视频材料,当帧率为2 5 f p s ,每采样点8 比特量化,色差格式为4 :2 :2 时,每秒 数据量为1 6 5 9 m b i t s 。如果直接在容量为4 7 g b 的d v d 格式光盘中保存,则只 能保存不到4 分钟的内容。对于高清晰度数字电视( i t u t - r 7 0 9 ) 每秒数据量更高达 8 8 4 7 m b i t s ,这些没有经过压缩处理的图像信息要直接在信道中传输,都需要相 当的带宽。而地面广播的带宽仅有6 m 到8 m ,详细信息请见表1 1 所示的典型的 2 基于搜索范围限制的h 2 6 4 的运动估计算法 几种传输和存储容量。 可见无论是存储还是传输,数字视频都必须经过极大的压缩才能具有实际意 义,这就使得视频压缩技术成为多媒体技术的关键所在。总之,视频数据的高效 压缩意义重大,是降低存储成本,缓解网络带宽,突破存储空间和处理器主频限 制的关键技术。 表1 1 几种典型的传输和存储容量 m e d i a n e t w o r k c a p a c i t y e t h e r n e tl a n ( 1 0 m b p s ) m a x 10 m b p s t y p i c a l1 - 2 m b p s a d s l t y p i c a l1 - 2 m b p s ( d o w n s t r e a m ) i s d n 2 1 2 8 k b p s v 9 0m o d e m 5 6 k b p sd o w n s t r e a m 3 3 k b p su p s t r e a m d v d 一5 4 7 g b y t e s c d r o m 6 4 0 m b y t e s 1 2 视频编码的发展现状及未来趋势 图像压缩编码从1 9 4 8 年电视信号数字化提出以来,己有五十多年的历史,不 仅在理论研究上取得了重大进步,而且在实际应用中也获得了很大成果。近十年 来,图像编解码技术得到了迅速发展和广泛应用,并且日臻成熟,其标志就是多 个关于图像编解码的国际标准的制定。即国际标准化组织i s o 和国际电工委员会 i e c 关于静止图像的编码标准j p e g j p e g 2 0 0 0 ,关于运动图像的编码标准 m p e g 一1 、m p e g 2 、m p e g 4 等,以及国际电信联盟i t u t 制定的视频编码标准 h 2 6 x 系列。这些标准采用的图像编码算法融合了各种性能优良的图像编码方法, 代表了目前图像编解码的发展水平。而由i t u t 和i s o i e c 两个组织共同完成的 新的视频编码标准h 2 6 乱a v c 更是结合了许多种视频编码的先进技术【1 】【2 】,从而 获得了比以往各种编码标准效果更好的性能,因而获得更加广泛的应用。图1 1 列出了它的一些应用。 h 2 6 4 a v c 提出了许多新的先进技术,例如:h 2 6 4 将视频编码结构上分为 两个独立的层:视频编码层v c l ( v i d e oc o d i n gl a y e r ) $ d 网络适配层n a l ( n e t w o r k a b s t r a c t i o nl a y e r ) 。视频编码层的主要任务是用高效的方式表述视频数据,也就是 进行视频数据的压缩;网络适配层则根据网络的特性对数据进行封装打包,使其 适于网络传输:h 2 6 4 仍然采用基于块的运动补偿和变换编码,但它采用了一些 先进的编码技术来提高了压缩效率,例如:运动矢量具有亚像素精度,对于亮度 信号来说可以达到1 4 像素精度。运动补偿使用了块大小可变的运动补偿,允许 第一章绪论 使用多个参考帧,帧内编码使用帧内预测,自适应环路滤波,还有自适应于内容 的筇术编码和变长编码,这些编码算法大火提高了h2 6 4 的编码效率。然而,这 衅高效的视频编码技术也使得h2 6 4 的编码复杂度大大增加,这对现在的硬件设 各提出了巨大的考验,尤其是对实时性要求特别高的应用( 如实时会话业务) , h2 6 4 的高复杂度将影响其在这些领域的应用。为此需要使用一些快速实现算法, 在不明显降低h2 6 4 编码性能f ,降低h2 6 4 的编码复杂度。 圜 斟11 新的视捌编码方案应用的范围 随着这些国际标准的制定,中国数字音视频编解码工作组也发布r 自己的音 视频编码标准a v s ( a u d i o v i d e oc o d i n gs t a n d a r d ) 。这将使得中国在即将到来的数 字电视时代,不再受制于国外标准,从而为国内厂商节省大笔的专利费用。根据 刚家广电总局的测试报告显示,以m p e g 一2 系统为参照系,测试图像序列采用国 际标准工作组推荐的4 个7 2 0 6 0 p 高清测试序列,所测a v s 音视频编解码( 软件) 系统在压缩码率比m p e g 2 音视频编解码系统低一倍的情况下,闰像的质量均好 于用m p e g 一2 编解码后的图像质量。从测试数据上来看,a v s 音视频编码系统的 压缩效率平均是m p e g 一2 的2 4 倍。因此a v s 具有无限光明的市场前景,它为我 国数字电视等数字音视频产业和相关芯片产业的跨越式发展提供了披术支持。 这些标准的制定极大地推动了图像编码技术的实用化和产业化。会议电视等 各类使用图像编码技术的产品纷纷推出,数字激光唱盘( v c d ,d v d ) 等产品以百万 台的数量级走向市场,进入家庭,从而迎来了数字图像通信的黄金时代。另方 面,图像编码技术产业化进程的加快也推动了图像编码技术以更快的速度发展。 目前的研究工作主要分为两个方向第一方向是解决好现有的图像编码系统开发 4 基于搜索范围限制的h 2 6 4 的运动估计算法 中的技术问题。例如:提高图像质量,提高抗误码能力,以及在a t m 网等变速 信道上的应用等。近几年来对h 2 6 x 系列编码器具体实现算法有了很多突出的研 究成果。国际标准的开放性结构为这种深入的改进提供了条件,它允许人们在不 影响兼容性的前提下发挥自己的创造性, 放性部分包括运动估值和运动补偿方法, 对标准中的开放部分进行改进。这些开 自适应量化系数和缓存器控制策略等。 在国际标准规定的约束下,对这部分算法做更合理的细化有助于提高编解码器的 性能。如:复原图像质量,提高抗误码能力等。第二个方向:更好地实现现有的 图像编码国际标准,使编码系统成本更低,可靠性更高。 1 3 视频编码研究的意义 纵观数字电视、新一代移动通信、宽带网络通信、家庭消费电子这些蓬勃发 展的高技术产业群,其共性技术集中在以音视频为主要内容的多媒体信息处理技 术,特别是编码压缩技术。在广播数字化、网络宽带化、通讯无线化、存储高密 化的大趋势下,多媒体技术正在进入流媒体的新时期。标准化是产业化活动成功 的前提,二十世纪九十年代以来,i t u t 和i s o 制定了一系列多媒体编码的标准 和建议,这些标准和建议的制定极大地推动了多媒体技术的实用化和产业化。会 议电视等各类使用视频压缩技术的产品纷纷推出,v c d 和d v d 等消费电子产品 以百万台的数量级走向市场,进入家庭,从而迎来了多媒体通信和应用的黄金时 期。 我国目前已经成为信息产业大国,产业规模仅次于美国和日本,是世界上最 大的多媒体应用市场。我国从事多媒体产品开发和生产的企业感到受制于人, d v d 专利费事件是这方面的典型案例。可以说,在多媒体标准方面的欠缺已经成 为我国信息产业的一块“心病”。以音视频压缩为基础的数字音视频技术是包括数 字电视和高密度激光视盘在内的多媒体信息家电、多媒体通信等多个信息产业群 共同需要的高新技术,我国有一定的研究开发工作积累,是制定重大技术标准的 一个很好的突破口。如果掌握了关键的多媒体处理技术并将其标准化,不仅标志 着我国在多媒体处理等领域的研究处于国际领先地位,还将创造可观的经济效益 和社会效益。 1 4 本文内容及结构安排 本文对视频编码的原理和标准进行了介绍,详细阐述了最新的h 2 6 4 a 1 频编码标准,并对h 2 6 4 a v c 视频编码标准所采用的新特点与关键模块进行 入研究。 第一章绪论 本文的主要研究目的在于在p s n r 的降低可以接受的范围内尽量降低运动估 计和补偿的复杂度,得到快速有效的算法,从而降低编码时间,提高编码的效率。 本文根据h 2 6 4 a v c 所采用的新特点多参考帧,通过研究宏块在一个参考帧 中运动矢量与在其它参考帧的运动矢量的关系,从而根据在一个参考帧中的运动 矢量来具体限制在其它参考帧的搜索区域的大小;另外根据多种宏块划分模式的 运动矢量的关系,根据上层宏块的运动矢量具体限制出下层宏块的搜索区域的大 小,并将这两种方法结合起来得出了一种有效的视频编码方法。 本文共分为五章,各章主要内容安排如下: 第一章:绪论。介绍本领域的研究背景,当前研究情况,未来发展方向以及 研究意义和论文的内容结构安排。 第二章:描述了视频压缩编码的信息论基础,视频编码的基本框架、原理和 方法。介绍了国际两大系列视频编码标准m p e g x 和h 2 6 x ,并对他们的应用和 性能进行了比较。 第三章:h 2 6 4 a v c 视频编码标准。介绍了h 2 6 4 a v c 的体系结构、编解码 器的框架以及编码模式,详细叙述了h 2 6 4 中所采用的新技术,着重它与以往标 准的不同。 第四章:分析了h 2 6 4 中采用的新技术多参考帧和多宏块划分模式,根据视 频序列所具有的特性结合实验结果,实现了一种搜搜范围限制的h 2 6 4 运动估计 算法。 第五章:结合实验数据分析了本文实现的算法在时间、p s n r 值等方面性能, 得出本文提出的算法是一种性能优越的快速运动估计算法。 第六章:总结与展望。总结全文,概括了主要的研究成果,为下一步研究提 供建议和参考。 第二章视频压缩编码的基本原理和标准 第二章视频压缩编码的基本原理和标准 视频信息是多媒体信息中最重要的一种信息,视频信息与语音信息、图像信 息、文本等有机结合在一起构成了多媒体信息。视频信号有模拟视频信号与数字 视频信号之分。当模拟视频信号数字化之后,便得到数字视频或数字序列图像, 数字化是视频压缩编码的基础。通常用于显示的视频信号是模拟视频信号,如电 视信号。而用于计算、处理的般都是数字信号,因为数字信号要比模拟信号更 适合于计算机处理。但数字信号带来的问题是非常惊人的数据量,数字视频信号 苛刻的带宽、时延等要求使得它成为多媒体通信发展的瓶颈。 根据视频图像压缩编码信息论的基础,通过分析视频图像的特性,研究得出 了各种视频图像压缩编码的方法。在这些方法的基础上,国际标准化组织( i s o ) 和国际电信联盟( i t u t ) 分别制定了m p e g x 、h 2 6 x 两大系列视频编码国际标 准。这些视频编码标准追求的共同目标是在尽可能低的码率下获得尽可能好的图 像质量。 2 1 视频压缩编码的信息论基础 经过研究发现,视频序列中存在着多种冗余。而视频编码的目的是实现对视 频图像的压缩,其核心思想是去相关。通过减少视频序列间的相关性,降低视频 内容中的冗余,用较少的比特数来表示视频内容,从而实现对视频的压缩。视频 序列中的冗余主要有以下几个方面: 1 ) 空间冗余 这是静态图像存在的最主要的一种数据冗余。一幅图像记录了画面上可见景 物的颜色,同一景物表面上各采样点的颜色之间往往存在着空间连贯性,但是基 于离散像素采样来表示物体颜色的方式通常没有利用景物表面颜色的这种空间连 贯性,故而像素信息间存在空间冗余。可以在存储像素信息时,根据物体表面颜 色来利用空间连贯性,达到减少数据量的目的。例如,在静态图像中有一块表面 颜色均匀的区域,在此区域中所有点的光强和色彩以及饱和度都是相同的。因此 像素间存在很大的空间冗余。 2 ) 时间冗余 这是序列图像( 电视图像、运动图像) 表示中经常包含的冗余。序列图像一般 是位于时间轴区间内的一组连续画面,其中的相邻帧往往包含相同的背景和移动 物体,只不过移动物体所在的空间位置略微不同,所以后一帧数据与前一帧的数 s薹王塑窭蔓璺里型盟望:! 坚塑垩垫堡生苎垄 据有许多共同的地方,这种共同性是由于相邻帧记录了相邻时刻的同一场景画面, 所以称为时间冗余。图21 中是标准图像序列中相邻两帧可以看出存在很大的 相似性。 图2 1 时间相关陛示例( 序列f o o t b a l l # 8 7 、0 8 8 ) 3 ) 信息熵冗余 视频图像作为一种载有一定信息量的载体,根据信息论,它的信息量的大小 可以用熵( e n t r o p y ) 来袁示,视频图像的熵的表达式如下所示: n h ( x ) = 一p ( x ,) l o g p ( x 。) 式( 2 - 1 ) 2 i 式( 2 - 1 ) 中h ( x ) 的单位为比特字符,图像像素灰度级的集合可以表示为 x = 忸,x 。,x ,x 。) ,起始对应的概率分别是p ( x ,工p ( x 。工p ( x ,) p ( x 。) ,图像熵 表示为图像灰度级集合的比特平均数,单位是比特像素( b i t sp e a p i x e l ) ,也描述 了图像信源的平均信息量。 按照信息论中无干扰的编码定理,在无干扰的情况下,存在着一种无失真的 编码方法,使得编码的平均长度与信源的熵任意接近。在这个基础上,定义了某 种编码方法的效率和冗余度分别如式( 2 2 ) 、式( 2 3 ) : 叩= 。h ( x ) l式( 2 - 2 ) r = 1 一”= ( 【( x ) h ( x ) ) e ( x )式( 2 3 ) 其中l 为编码的平均码子长,目为编码的效率。从式中看出,信息量的大小 与图像信源的概率分布有直接的关系,当n = 2 。时,即图像信源各个像素灰度出 现的概率相等,此时的熵最大,等于l 比特。此时用普通等长自然二进制码就可 以达到编码效率为1 。在不等概率分布时,熵h ( x ) 小于l ,如果采用和概率分布 相适应的不等长编码,可以使平均码长小于1 ,实现数据压缩也就是说明图像 信源数据中包含着冗余,采用不等长编码后的信源熵尽可能接近最大值,只要信 第二章视频压缩编码的基本原理和标准 9 源不是等概率分布的,就存在数据压缩的可能。因此得到一种数据压缩的方法, 就是尽可能地改变信源的概率分布,使得其非均匀,在采用变长编码后,使图像 数据得到压缩,而且压缩编码后的信息熵接近最大值。这种信源里存在的冗余叫 做信息熵冗余。 编码冗余、空间冗余和时间冗余都依赖于图像数据的统计特性,可以统称为 统计冗余。 4 ) 结构冗余和知识冗余 图像的某些区域存在非常强的纹理结构,图像像素值有明显的分布模式,形 成结构冗余。或者图像中包含的信息与某些先验知识有关,例如人的五官位置对 于人脸而言就是一种先验知识,这种冗余构成知识冗余。 5 ) 人眼视觉冗余 由于人眼视觉的非均匀性,使得人眼视觉对某些空间频率感觉迟钝。因此视 频中不同频率成分的内容对于人眼系统而言其重要性是不同的。也就是说存在频 域冗余。例如人眼视觉系统对亮度信号变化的敏感性高于色度信号变化。因此可 以对色度分量进行降采样,同时保持主观视觉质量不变。为4 :2 :0 色差格式 就是对色度分量在水平和竖直两个方向进行2 :1 的降采样。另一方面对信号频域 的各个分量可以采取不同的量化步距,将人眼视觉不敏感的分量去除,而不会引 起主观质量的下降。 从信息论的观点来看,图像作为一个信源,描述信源的数据是信息源( 信源 熵) 和信息冗余之和。数据压缩实质上是减少这些冗余。可见冗余减少可以减少 数据量而不减少信息量。从数学上讲,图像可以看作是一个多维函数,压缩描述 这个函数的数据量实质是减少其相关性。另外在一些情况下,允许图像有一定的 失真并不妨碍图像的实际应用,那么数据量压缩的可能行就更大了。 2 2 视频图像编码的基本原理和方法 2 2 1 视频编码的框架 在现有的视频信号压缩编码国际标准中,变换与量化、熵编码以及运动估计 和运动补偿等几项技术得到了最为广泛的应用,这几项技术构成了视频编码系统 的基本框架。 其中,变换与量化是为了去除图像的空间冗余,熵编码是为了去除统计冗余, 这两项技术都是从静态图像压缩技术中借鉴而来用于帧内压缩编码的,而运动估 计技术和运动补偿技术则是为了去除时间冗余的,它们是实现帧间编码压缩的主 1 0 基于搜索范围限制的h 2 6 4 的运动估计算法 要手段。视频编码的基本框架如图2 2 所示。 2 2 2 预测编码 去除时间冗余度 图2 2 典型视频编码器框图 根据图像的统计特性,进行数据压缩的一类基本方法就是预测编码【3 儿4 1 。他 是利用图像信号的空间或时间的相关性,用先前传输的像素对当前的像素进行预 测,然后对它与实际值的差值进行编码处理和传输。通常采用均方误差最小的预 测准则,信源的相关性越强,预测越精确,预测值与实际值的差值越小,根据率 失真理论,对这些差值进行编码后的数据量也就越小。由于图像相邻间的像素相 关性很大,所以预测的误差值远远小于实际值,从而达到数据压缩的目的,预测 编码是一种无损压缩。预测编码分为帧间预测和帧内预测。 帧间预测技术处理的是活动图像,由于相邻帧的时间间隔很短,因而在景物 运动不是很剧烈的场合,相邻帧的相关性很大,如果编码时能充分的利用活动图 像在时间轴方向上的相关性进行预测,可望获得更高的压缩比,它是数字视频压 缩编码采用的标志性技术。 帧内预测技术是对一幅图像中的邻近像素而言的,由于自然界中的景物都是 连续变化的,所以一幅图像邻近像素间存在很强的相关性( 空间相关性) ,即发生 突变的可能性比较小,因此可以利用一幅图像内的相邻像素彼此之间相互预测, 从而消除图像中的空间冗余,达到图像压缩的目的。 预测编码可以大幅度地消除时间冗余和空间冗余,所以它也是视频压缩最有 效的方法。 第二章视频压缩编码的基本原理和标准 2 2 3 变换编码和量化 1 ) 变换编码 视频图像的能量主要集中在低频部分,随着频率的升高,能量迅速下降,人 眼的主观视觉对高频成分又不如对低频成分敏感,所以可以设法找到一种正交变 换,把图像分为人眼比较敏感且占大部分能量的直流、低频分量和人眼不敏感的 高频分量两部分。这样就可以在保证图像主观质量前提下去掉一些不重要但编码 时要耗费较多比特的系数,以达到压缩的目的。正交变换编码通常是将空域相关 的像素点映射到另一个正交矢量空间,使得变换后的系数之间相关性降低。常见 的正交变换有,k l ( k a r h u n e n l o e v e ) 变换、离散傅立叶变换d f t ( d i s c r e t ef o u r i e r t r a n s f o r m ) 、离散余弦变换d c t ( d i s c r e t ec o s i n et r a n s f o r m ) 、沃尔什哈达玛 ( w a l s h h a d a m a r d ) 变换和哈尔( h a r r ) 变换。k - l 变换是均方误差准则下的最优变换, 但实现困难。在现行视频编码标准中几乎都采用了性能最接近k l 变换的d c t 。 变换编码除了采用正交变换编码外,还有子带编码和小波编码。子带编码是将图 像分裂成几个不同频段的子带( s u b - b a n d ) ,对不同的子带设计不同的编码参数,提 高图像质量【5 】。小波变换编码充分利用了小波分析在时域和频域同时具有良好的 局部化特征,与人眼视觉特性相符的多分辨率能力,分解系数分布平稳,自然分 级的金字塔式数据结构等优点,在视频压缩领域引起广泛关注【6 j 。 2 ) 量化 经变换后对变换系数进行量化,量化时考虑人眼的特性,即人眼对高频信息 不如对低频信息敏感的特性,对不同的变换系数进行不同步长的量化,对直流和 低频采取较小的步长,对高频部分采取较大的步长。这样高频部分大量的系数变 为0 ,无须编码传输,而不为0 的系数值一般为+ 1 ,只需一个比特就可以编码。 经过量化编码和不均匀量化后,视频数据又被大大的压缩了。 2 2 4 统计编码 统计编码是基于信号统计特性的编码技术,基本思想是对出现概率较大的符 号分配短码字,对出现概率较小的符号分配长码字,达到编码后的平均码长最小。 统计编码主要有基于概率分布特性的霍夫曼编码和算术编码,以及基于相关性的 游程长度编码三类【_ 7 1 。 霍夫曼编码( h u f f i n a nc o d i n g ) 是一种变长编码v l c ( v a r i a b l el e n g t hc o d i n g ) 。 霍夫曼编码将信源符号按概率大小重新排序,通过二叉树算法,依次将两个概率 最小的节点合并,直至根结点。完成树的构造后,给所有的树枝分配0 和1 ,这 1 2 基于搜索范围限制的h 2 6 4 的运动估计算法 样就可以给高概率符号分配短码,而概率小的符号则分配较长的码字,去除符号 间的统计冗余。在已知信源符号概率时,可以给出极好的编码性能。但霍夫曼编 码严重依赖信源的统计特性,编码前必须有信源概率分布的先验知识。对于复杂 的视频来说,只能用对大量数据统计后获得的近似分布来代替,因此实际应用时 无法达到最佳性能。另一方面v l c 提高了编码效率,但不利于硬件实现。 游程长度编码r l c ( r u n l e n g t hc o d i n g ) 是将符号值相同的连续符号串用一个 游程长度( 符号数) 和一个代表值( 值) 描述。这样可以用更紧密的序列代替原 有的相同值符号串。在视频压缩中,量化后的数据常常出现大量的连零系数,利 用游程长度编码可以有效的降低表示零码的比特数。 算术编码【8 1 ( a r i t h m e t i cc o d i n g ) 是2 0 世纪8 0 年代发展起来的,理论上,算术 编码和霍夫曼编码都是最佳的,但在信源概率分布未知的情况下,算术编码优于 霍夫曼编码。算术编码的基本原理是用 o ,1 】之间的一个概率区间来表示数据序列。 将信源x 的一个给定状态x = x ,x :,x ,x n ) 与 o ,1 之间的一个由大概率p 和小 概率q 限定的概率子区间相联系,区间的长度等于序列的概率p ( x ) 。编码器从 n = i 开始,逐位的处理输入的符号流。每输入一位,更新当前符号的条件概率, 并以此调整p 和q 限定的概率子区剐9 1 。随着n 的增加,和输入符号序列相联系 的概率子区间就变得越来越小。最后用这个表示概率子区间的小数给符号序列编 码。 上述预测编码、统计编码、变换编码的组合可形成混合编码,是目前国际视 频图像压缩编码标准的基础 1 0 1 。这些编码方法都是依照视频图像固有的特性进行 压缩的。伴随着感知生理学和心理学的发展,人们越来越清楚地认识到:人的视 觉感知特点和统计意义上的信息分布不一致。统计上需要更多的信息量才能表征 的特征,对视觉感觉可能并不重要。从感知角度而言,无需详细表征这部分特征, 这时压缩技术的研究就突破了传统信息论的框架。 2 3 视频图像压缩编码标准 近年来,一系列国际视频压缩编码标准的制定极大的促进了视频压缩编码技 术和多媒体通信技术的发展。视频压缩编码标准的制定主要是由国际标准化组织 ( i n t e r n a t i o n a ls t a n d a r d i z a t i o no r g a n i z a t i o n ,简称i s o ) 和国际电信联盟( i n t e r n a t i o n a l t e l e c o m m u n i c a t i o nu n i o n ,简称i t u ) 完成的。由i t u 组织制定的标准主要针对实 时视频通讯的应用,如视频会议和可视电话等,他们以h 2 6 x 命名( 如h 2 6 1 、 h 2 6 2 、h 2 6 3 和h 2 6 u ,而由i s 0 和i e c ( i n t e r n a t i o n a le l e c t r o t e c h n i c a lc o m m i s s i o n , 国际电工委员会) 的共同委员会中的m p e g 组织( m o v i n gp i c t u r ee x p e r tg r o u p ) 匍j 定 的标准主要针对视频数据的存储( 如d v d ) 、广播电视和视频流的网路传输的应用, 第二章视频压缩编码的基本原理和标准 他们以m p e g x 命名( 如m p e g 1 、m p e g 2 、m p e g 4 、m p e g 一7 等) 。如下图2 3 所示,数字视频编码标准的发展过程。 闰 b 卜 h 蔗3 一b 伯冉4 糟8 61 叠龋1 9 孽口1 姻眨1 蜩蚴6 弼硌2 嘲2 嘲22 舶4 图2 3 数字视频编码标准的发展过程 各种视频压缩标准都是根据人们在不同领域中对声像数据的要求制定的,并 随着人们的需求不断的发展。下面我们分别来介绍m p e g x 系列标准和h 2 6 x 系列标准 2 3 1m p e g 系列压缩标准 m p e g 是m o v i n gp i c t u r e se x p e r t sg r o u p ( 动态图像专家组) 的缩写。是一 个致力于数字视频、音频技术发展及标准化的杰出组织,它是i s o 与i e c 在1 9 8 8 年联合成立的,正规的组织代号是i s o i e cj t c i s c 2 9 w g l l ,成员专家来自于不 同国家的最有业界影响力的研发机构。在十多年的时间里,m p e g 组织取得了丰 硕的成果,自身也有了很大的发展。先后制定了m p e g 1 、m p e g 2 、m p e g 4 、 m p e g 7 和m p e g 2 1 。 1 ) 面向数字存储的运动图像及其伴音的编码标准m p e g 一1 m p e g 1 在1 9 8 9 年7 月开始研究,19 9 2 年被i s o i e c 批准为正式标准m p e g 1 规定了在数字存储介质中实现对活动图像和声音的压缩编码,编码码率最高为每 秒1 5 兆比特【l 。传输速率为1 5 m b i t s ,每秒播放3 0 帧,具有c d 音质,质量级 别基本与v h s ( 广播级录像带) 相当。m p e g 一1 的编码速率最高可达4 5 m b i t s ,但 随着速率的提高,其解码后的图像质量有所降低。 m p e g 。1 标准支持的编辑单元是图像组和音频帧,通过对包头图像组的信息 和音频帧头进行修改可以达到对视频信号的剪接功能。它还提供了很多备选模式 以供使用者根据实际需要进行配置。应用m p e g 1 技术最成功的产品非v c d 莫属 了,v c d 作为价格低廉的影像播放设备,得到广泛的应用和普及。此外它被用于 数字电话网络上的视频传输,如非对称数字用户线路( a d s l ) 、视频点播( v o d ) 以 1 4 基于搜索范围限制的h 2 6 4 的运动估计算法 及教育网络等。 2 ) 广播系统压缩编码标准m p e g 2 m p e g 2 在1 9 9 1 年7 月开始研究,是针对标准数字电视和高清晰度电视在各 种应用下的压缩方案和系统层的详细规定,1 9 9 2 年被i s o i e c 批准为正式标准。 m p e g 一2 不是m p e g 1 的简单升级,它在系统和传送方面作了更加详细的规定和 进一步的完善。 m p e g 2 能够提供广播级的视像和c d 级的音质。m p e g 2 的音频编码可提 供左右两个环绕声道,以及一个加重低音声道和多达七个伴音声道。m p e g 2 的 另一特点是,可提供一个较广范围的可变压缩比,以适应不同的画面质量、存储 容量以及带宽的要求。m p e g 一2 特别适用于广播级的数字电视的编码和传送,被 认定为s d t v 和h d t v 的编码标准。m p e g 2 还专门规定了多路节目的复用分接 方式。此外,m p e g 2 还兼顾了与a t m 信元的适配问题。 因此,m p e g 2 具有很广阔的应用前景,他除了用于d v d 外,还可以为广 播、有线电视网、电缆网络以及卫星直播提供广播级的数字视频。现在v o d 视 频点播系统和h d t v 高清晰度电视系统都是采用m p e g 一2 的视频标准。 3 ) 基于对象的低码率视频压缩编码标准m p e g 4 m p e g 一4 在1 9 9 5 年7 月开始研究,1 9 9 8 年1 1 月被i s o i e c 批准为正式标准, 它不仅针对一定比特率下的视频、音频编码,更加注重多媒体系统的交互性和灵 活性 1 2 】。这个标准主要应用于视像电话、视像电子邮件等,对传输速率要求较低, 在4 8 0 0 6 4 0 0 b i f f s 之间,分辨率为1 7 6 x 1 4 4 。 m p e g 4 的主要贡献是将基于内容的检索与编码结合起来考虑,提出了基于 内容的压缩编码。它是为多媒体环境下的纹理、图像和视频数据的有效存储、传 输及管理提供标准化的核心技术。尤其强调这些工具对图像和视频内容的原子单 元( 称为视频对象v o ) 的编解码能力。对任意形状的视频对象进行有效的表示,以 支持所谓基于内容的功能集。而此功能集支持内容( 即场景中的物理对象v o ) 的单独编码和解码,这一特性为交互性提供了有力的底层机制支持,也为在压缩 域对图像或视频的v o 内容进行灵活的表示和管理提供了有利条件。m p e g 4 视 频标准统一支持传统矩形和任意形状图像与视频的编解码。对于基于内容的应用, 输入的图像序列可能具有任意形状和位置。另外,通过对场景中每个物理量采用 适当的和精细的基于对象的运动预测工具,可以大大提高某些视频序列的压缩比。 m p e g 4 的高压缩率和高的图像还原质量可以把d v d 里面的m p e g 一2 视频 文件转换为体积更小的视频文件。经过这样处理,图像的视频质量下降不大但体 积却可缩小几倍,可以很方便地用c d r o m 来保存d v d 上面的节目。另外, m p e g 4 在家庭摄影录像、网络实时影像播放也大有用武之地。 4 ) 媒体内容描述接口m p e g 7 第二章视频压缩编码的基本原理和标准 1 5 为了方便快捷的搜索节目,m p e g 制定了一个新标准m p e g 7 ,它并不是一 种压缩编码方法,其正规的名字叫做“多媒体内容描述接口”,其目的是生成一种 用来描述多媒体内容的标准,这个标准将对信息含义的解释提供一定的自由度, 可以被传送给设备和电脑程序,或者被设备或电脑程序查取。m p e g 7 并不针对 某个具体的应用,而是针对被m p e g 7 标准化了的图像元素,这些元素将支持尽 可能多的各种应用【1 3 1 。可应用于数字图书馆,例如图像编目、音乐词典等;多媒 体查询服务,如电话号码簿等;广播媒体选择,如广播与电视频道选取;多媒体 编辑,如个性化的电子新闻服务、媒体创作等。 5 ) 多媒体框架m p e g 2 1 m p e g 在1 9 9 9 年1 0 月的m p e g 会议上提出了“多媒体框架”的概念,同年 的1 2 月的m p e g 会议确定了m p e g 2 1 的正式名称是“多媒体框架”或“数字视 听框架 ,它以将标准集成起来支持协调的技术、管理多媒体商务为目标,目的就 是理解如何将不同的技术和标准结合在一起,需要什么新的标准以及完成不同标 准的结合工作【1 4 】。 在数字化趋势越来越明显的今天,m p e g 的专家们会带给我们新的m p e g 系 列,解决在数字化的道路上的不断出现的问题。 2 3 2h 2 6 x 系列压缩标准 h 2 6 x 是国际电信联盟i t u t 主导的视频编码系列标准,h 2 6 x 系列主要应 用于实时视频通讯,如视频会议、可视电话等。由于现在m p e g 系列也开始向这 个领域进军,所以这两个组织也开始了密切的合作。历史上的h 2 6 x 系列标准包 括h 2 6 1 、h 2 6 3 、h 2 6 3 + 以及后来的h 2 6 4 等。下面是这个系列标准的简要介绍。 1 ) h 2 6 1 标准 h 2 6 1 图像编解码标准是c c i t t ( 现i t u t ) 国际联合电信于1 9 9 0 年制定的针 对活动图像的p 6 4 k b p s 的编码协议【1 5 。它同m p e g 1 的区别在于h 2 6 1 是传送 屏幕区域的更新信息,大幅度地降低了数据
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 劳动法基本知识竞赛试题题库三篇
- 市场监督总局 合同范本
- 2025年期货从业投资分析考试真题及答案解析
- 生产车间安全培训课件下载
- 小学语文《桥》教学设计
- 防灾避险安全应急知识培训课件
- 建筑施工现场工安全知识教育考试题(附含答案解析)
- 心得体会反洗钱心得体会范文3篇
- 房地产估价师《理论与方法》试题及答案(卷五)
- 执业药师考试中药学专业知识(二)试卷(二套)
- 脑机接口技术在康复医学中的应用与展望
- CZ-42船舶航次安全风险评估管理须知 - 副本
- GB/T 9573-2013橡胶和塑料软管及软管组合件软管尺寸和软管组合件长度测量方法
- 劳动争议调解仲裁法知识讲座
- 矮小症诊治指南
- GB 14443-2007涂装作业安全规程涂层烘干室安全技术规定
- 解一元一次方程移项说课稿课件
- 危机管理及风险评估基础知识课件
- 多原子分子的结构和性质
- 中兴视频会议MCU MS9000开局配置
- 江苏股权交易中心章程
评论
0/150
提交评论