




已阅读5页,还剩74页未读, 继续免费阅读
(系统工程专业论文)基于H264压缩域的运动检测.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
j e 京科技大学硕士学位论文 摘要 多媒体信息是文字、视频和音频等各种媒体数据的集合体,这其中视频所占的信息 量最大。因此,为了便于存储和在网络上传输,通常要将多媒体数据先进行压缩,以减 少对空间的占用和对网络带宽的苛刻要求。h 2 6 4 作为新一代的的视频压缩标准,它优 异的压缩性能将在数字电视广播、视频通讯、网络视频流媒体中得到广泛的应用。再有, 有时需要对多媒体信息进行分析处理,来从中获取我们所需要的信息。因此对于压缩域 多媒体信息特别是压缩域信息的处理技术便得到了人们的关注。传统的视频流数据处理 是基于像素域的,就是对原始视频图像或解码后的视频图像进行像素域的操作,其缺点 是数据量大。对于压缩视频在处理i ; 后均需要解码和编码,会消耗大量运算时间,不利 于实时处理。压缩域的视频流数据处理是不在对视频流解码或不完全解码的条件下直接 对其进行分析和处理,这样就大大地降低了运算量,也提高了效率,便于实时应用。 本文在深入研究视频编码标准h 2 6 4 的原理和技术实现的基础上,探讨了如何在 h 2 6 4 压缩域中对运动目标进行检测。其基本思想是应用h 2 6 4 压缩域帧日j 预测时的运 动矢量,找到含有运动信息的宏块来达到运动检测的目的。实现中还着重研究了摄像机 镜头运动时对运动检测效果的影响,提出了一种算法,通过在压缩域内采用预测帧的残 差d c 系数进行运动背景提取,再根据背景区域内的宏块运动矢量,采用6 参数的 摄像机镜头运动模型,估计出了镜头运动参数,然后根据估计出来的镜头运动信息进 行进一步的运动检测。本文采用h 2 6 4 压缩域中的信息,不需要解码整个压缩视频 流,只需部分解压缩,因此可节省大量运算时f b j ,实现快速的运动检测。实验结果表 明,本文提出的方法可有效地提取出全局运动信息,更好地估计镜头运动参数,快速 有效地提取出运动目标。 关键词:视频编码,h 2 6 4 ,摄像机运动,运动检测 北京科技大学硕士学位论文 t h ed e t e c t i o no fm o v i n go b j e c t si nt h ec o m p r e s s e dv i d e os t r e a m s b a s e do nh 2 6 4v i d e oc o d i n gs t a n d a r d m u l t i m e d i ai n f o r m a t i o ni sc o m p o s e do ft e x t , v i d e oa n da u d i od a t a , s u c ha st h e c o m p o s i t i o no f v a r i o u sm e d i a v i d e od a t as h a r e0 f t l 碍m o s tm u l t i m e d i ai n f o r m a t i o n t h e r e f o r e , i no r d e rt of a c i l i t a t et h es t o r a g ea n dt r a n s m i s s i o nn e t w o r k , s h o u l dn o r m a l l yc o n d u c tm u l t i m e d i a d a t ac o m p r e s s i o nt or e d u c et h es p a c eo c c u p i c da n dt h es t r i n g e n tr e q u i r e m e n t sf o rn e t w o r k b a n d w i d t h a san e wg e n e r a t i o no ft h ev i d e oc o m p r e s s i o ns l a n d a r d , h 2 6 4w o u l db ee x c e l l e n t c o m p r e s s i o np e r f o r m a n c ei nd i g i t a lt e l e v i s i o n ,v i d e oc o m m u n i c a t i o n s , v i d e os t r e a m i n gm e d i a h a sb e e nw i d e l ya p p l i e d a g a i n ,s o m e t i m e st h en e e df o rm u l t i m e d i ai n f o r m a t i o na n a l y s i s , w e n e e dt oa c q u i r et h ei n f o r m a t i o nf r o mt h em e d i a t h e r e f o r e 。f o rc o m p r e s s e dd o m a i nm u l t i m e d i a i n f o r m a t i o n ,p a r t i c u l a r l yc o m p r e s s e dd o m a i nc o m p r e s s e dd o m a i nm u l t i m e d i ai n f o r m a t i o n p r o c e s s i n gt e c h n o l o g yw i l lb eam a t t e ro fe o n c e m t r a d i t i o n a ld a t ap r o c e s s i n gi sb a s e d o np i x e l v i d e os t r e a m i n g , d e c o d i n go ft h eo r i g i n a lv i d e oi m a g eo rv i d e oi m a g ep i x e io p e r a t i o n s , t h e d r a w b a c ki st h el a r g ea m o u n to fd a t a f o rt h en e e dt od e c o d ec o m p r e s s e dv i d e op r o c e s s i n ga n d e n c o d i n g , w i l le o u s u m eal a r g ea m o u n to fc o m p u t a t i o nt i m ei sn o tc o n d u c i v et or e a l t i m e p r o c e s s i n g , c o m p r e s s e dv i d e od a t ap r o c e s s i n gi s n o tc o m p l e t ed e c o d i n go fv i d e od e c o d e ro r d i r e c t l yu n d e rt h ec o n d i t i o n so ft h ea n a l y s i sa n dp r o c e s s i n gt h i sg r e a t l yr e d u c e st h ea m o u n to f c o m p u t a t i o n ,i ta l s or a i s e st h ee f f i c i e n c y , a n di ss u i t a b l ef o rr e a lt i m ea p p l i c a t i o n s i nt h i sp a p e r , w ee x p l o r e dw a y st od e t e c tm o v i n gt a r g e t si nt h eh 2 6 4c o m p r e s s i o nf i e l do n t h eb a s i so f 咖d yo ft h eh 2 6 4v i d e oc o d i n gs t a n d a r do fp r i n c i p l e sa n dt e c h n o l o g yi n - d e p t h t h eb a s i ci d e ai st ou s ch 2 6 4c o m p r e s s i o nd o m a i nf r a m ef o r e c a s t s , t h e nu s et h em o t i o nv e c t o r s t of i n dt h em a c r ob l o c kc o n t a i n i n gi n f o r m a t i o nc a m p a i g nt oa c h i e v et h ep u r p o s eo fd e t e c t i o n c a m e r al e n s m o v e m e n t sa l ea l s of o c u s e do na c h i e v i n gt h ee f f e c to fe x e r c i s eo nm o t i o n d e t e c t i o n , an e wa l g o r i t h mf l a m ei nt h ec o m p r e s s e dd o m a i nw a su s e dt op r e d i c tt h er e s i d u a ld c c o e f f i c i e n tf i o ms p o r t sb a c k g r o u n d ,a c c o r d i n gt ot h em a c r ob l o c k m o t i o nv e c t o rb a c k g r o u n do f t h er e g i o n ,t h ep a r a m e t e r su s e ds i xc a m e l d i sm o v e m e n tm o d e l ,e s t i m a t et h ep a r a m e t e r so ft h e c a m e r am o v e m e n t , a c c o r d i n gt oe s t i m a t e sf r o mt h es c e n ef o rf u r t h e ri n f o r m a t i o nc a m p a i g n s m o t i o nd e t e c t i o n i nt h i sp a p e r , w eu s et h eh 2 6 4c o m p r e s s i o nf i e l do fi n f o r m a t i o nt h r o u g h o u t t h ec o m p r e s s e dv i d e os t r e a md e c o d e rn o to n l yp a r td e c o m p r e s s i tc a ns a v eal o to f e o m p u t a t i o n t i m e , a c h i e v i n gr a p i dd e t e c t i o n t h ee x p e r i m e n t a lr e s u l t ss h o wt h a tt h ep r o p o s e dm e t h o dc a l lb e , 北京科技大学硕士学位论文 u s e dt oe x l r a di n f o r m a t i o nc a m p a i g no v e r a l l ,ab e t t e re s t i m a t eo ft h ea l l n e r am o t i o np m m n e t e r s r a p i da n de f f i c i e n te x t r a c t i o no f m o v i n gt a r g e t s k e yw o r d s :v i d e oc o d i n g ,h 2 6 4 ,c a m e r am o t i o n ,m o v i n go b j e c t sd e t e c t i o n 1 1 1 独创性说明 本人郑重声明:所呈交的论文是我个人在导师指导下进行的研究工作 及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论 文中不包含其他人已经发表或撰写的研究成果,也不包含为获得北京t 4 - 击j 大学或其他教育机构的学位或证书所使用过的材料。与我一同工作的同志 对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。 签名:堡 呈垦日期:缨2 :! :2 关于论文使用授权的说明 本人完全了解北京科技大学有关保留、使用学位论文的规定,即:学 校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论 文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵循此规定) 签名:! 壬宝j l 导师签名:逸盈呈一一日期:五竺袒 北京科技大学硕士学位论文 引言 随着现代通信技术的飞速发展和通信业务的不断拓展,图像信息传输已经成为现代 通信系统提供的基本服务。但是具有庞大数据量的数字图像难以传输和存储,数字图像 通信与通信网容量的矛盾r 益突出,极大地制约了图像通信的发展,已经成为图像通信 领域中的“瓶颈”问题。为了解决数字图像数据量巨大的问题,必须对图像数掘进行有 效地压缩。因此,数字图像特别是数字视频图像的压缩编码,已经成为现代信息社会中 一个研究的热点问题。 2 0 0 3 年u t 视频编码专家组( v c e g ) 4 ai s o i e c 运动图像专家组( m p e g ) :共 h - j i t 式推出h 2 6 4 视频编码标准。与以前的标准相比,h 2 6 4 有不少新的技术亮点,保证了 其拥有更高的编码效率和更强的网络适应性。由两大组织共同制定的最新成果h 2 6 4 , 满足了各种业务增长对于运动图像压缩率的更高要求,并使得编码后的视频数据能够在 各种网络环境下传输,其应用| ; f 景将十分看好。随着网络和多媒体技术的发展和越来越 多的数字视频业务不断涌现,h 2 6 4 应用领域也将越来越广泛。 因此,如何从图像和视频的压缩数据中提取出关键信息,提高网络资源的利用率, 快速有效地实现视频管理、数据检索和场景分析等,已成为视频分析首要解决的问题。 在对视频信息进行分析和检索的应用领域中,需要对视频流提取有效的特征信息,以利 于进行进一步的处理分析,特别是对运动目标的检测被看作是视频处理的一个重要方向, 在许多实时应用中扮演了重要的角色,如视频检索、视频监控等等。 传统的视频流数据处理是基于像素域的,就是对原始视频图像或解码后的视频图像 进行像素域的操作,其缺点是数据量大。对于压缩视频在处理i j i 后均需要解、编码,会 消耗大量运算时间,不利于实时处理。压缩域的视频流数据处理是不在对视频流解码或 不完全解码的条件下直接对其进行分析和处理,这样就大大地降低了运算量,也提高了 效率,便于实时应用。现今压缩域的视频流数据处理也很少考虑镜头运动带来的影响, 而大量的压缩视频中都存在摄像机镜头运动,这样使得应用非常有限。本文提出了一种 在h 2 “压缩域中快速有效提取出镜头运动信息的算法,可有效地提取出全局运动信息, 更好地估计镜头运动参数。 然而,h 2 6 4 是新的视频编码标准,它应用了多种新的编码工具,实现起来比较复杂, 目前对它的研究主要集中在算法的优化上,很少有关于h 2 6 4 压缩视频分析与处理方面的 文献,因此关于h 2 6 4 压缩视频流的运动目标的检测便成了一项具有挑战性的工作。 1 北京科技大学硕士学位论文 1 绪论 1 1 课题研究背景及意义 当今的社会是一个信息的社会,网络和多媒体信息技术无时不刻在深深地影响着 我们的生活,如远程多媒体视频教学、可视电话、移动电视、视频点播等等,同时人 们对于多媒体技术本身也提出了越来越高的要求,突出表现在传输速度,画面的感观 质量等方面。 我们知道,多媒体是各种媒体数据如文字、音频和视频等的集合体,数据量极大, 这其中占数据量最大的是视频信息,由于网络带宽和延迟的限制,视频信息都是先经 过压缩,然后再进行传输。另外,在许多实际的应用场合中,人们需要对多媒体数据 进行处理,从中获取有用的信息。比如在对视频信息进行分类和检索的应用中,需要 对视频流提取有效的特征,以利于进一步的分类、检索。再有,对于一个视频片段来 说,运动信息是反映视频场景变化的重要信息,要想对视频内容进行全面的刻画,运 动信息是必不可少的一个方面。因而对运动目标的检测被看作是视频处理的一个重要 方向,在许多实际应用中扮演了重要的角色,如视频检索、视频监控等等。 本文主要研究h 2 6 4 压缩域视频序列中运动目标的检测问题。对运动目标的检测的 传统方法主要是面向未经压缩的源视频图像序列,而对于一段压缩的视频流,先需要进 行解压缩,然后再利用图形图像的相关处理技术对解压缩的屈像序列进行分析处理,即 在空域中进行,这种方法的优点是检测的精度比较高,但是正如前所述,它的计算量和 处理时f b j 都是很大的,这在实时应用中是不方便的。本文的基本思想是以压缩域数据的 分析与处理为指导,探求如何对h 2 6 4 压缩流中运动目标进行检测。 1 2 压缩域图像处理技术研究现状 随着计算机和通信技术的发展,诸如数据的存储、检索和流媒体网络控制等多媒体 信息系统也在不断地更新完善,被广泛地应用到远程教学、数字图书馆、远程医疗和多 媒体在线新闻等可视信息系统中。大量的存储和传输的图像视频数据都是采用不同压缩 标准完成的,诸如m p e g - 4 、h 2 6 3 和h 2 6 4 等标准。如何从图像和视频的压缩数据中提 取出关键信息,提高网络资源的利用率,快速有效地实现视频管理、数据检索和场景分 析等,已成为视频分析首要解决的问题。 2 北京科技大学硕士学位论文 在对视频信息进行分析和检索的应用领域中,需要对视频流提取有效的特征信息, 以利于进行进一步的分析处理,特别是对运动目标的检测被看作是视频处理的一个重要 方向,在许多实时应用中扮演了重要的角色,如视频检索、视频监控等等。 目前,对于视频序列运动目标的检测主要分为以下两个方面i l j : ( 1 ) 基于非压缩域的,即把连续的运动视频分解为一系列的图像帧来研究,主要有光 流法和背景差法等。如果利用这两种方法提取视频压缩流的运动目标时需先将视频流进 行解压缩,再对各帧图像进行相应的处理,可见这一定是很耗时的,也不利于图像的实 时处理。 ( 2 ) 基于压缩域的:是在对视频压缩流不完全解码的条件下,直接进行处理,这就避 免了大量的复杂计算,节省了时白j ,有利于实时处理。压缩域运动目标的检测算法通常 使用宏块的两类特征:运动矢量m v 和d c r 系数。m v 可在当前帧和参考帧运动补偿过 程中得到。m v 代表了两帧问的时h j 相关性,反映了宏块的位移。由于d c t 变换在图像 压缩中得到了广泛的应用,对d c r 压缩图像的检索也提出了不少方法 2 1 。其中大多数方 法利用了d c r 系数的特点,如直流( d c ) 系数表达了图像的平均能量,而交流( a c ) 系数反 映了像素间差异的频率信息和方向信息。 目6 订视频分割技术多数是基于像素域的算法,相比之下在压缩域中分割视频运动对 象的研究要少得多。基于像素域的分割方法在分割的精确性上要高于在压缩域中的分割, 但是其计算复杂度高。基于压缩域的分割方法在减少计算复杂度方面有较大的优势,但 在分割的精确性上要逊于像素域中的分割算法。尽管在压缩域中的分割精度不够高,但 目前大量的多媒体数据是以压缩形式存储和传输的,所以研究压缩域中的视频运动对象 分割算法有很大的实用价值。 传统的多媒体数掘处理是在原始数据或解码以后的压缩数据上进行的操作,而压缩 域的多媒体数据处理技术是直接在压缩数据之上的操作。无需经过解压缩以及再压缩的 附加环节,同时压缩域的数据量一般远远小于原始数据的数掘量。 图1 1 给出了传统的多媒体数据压缩及处理模式和基于压缩域的多媒体数据处理 模式的比较,从中可以看出与传统的压缩和处理相分离的模式相比,压缩域的多媒体数 据处理具有如下的优判川: ( 1 ) 和传统的数据处理模式相比,压缩域处理技术节省了解压缩和再压缩的附加环 节,对减少系统总体处理时闻非常有利。 3 北京科技大学硕士学位论文 ( 2 ) 压缩域的多媒体数据相对于原始数据其数据量大大减少。对于应用系统总体处理 效率的提高是个有利因素,尤其对一些超大容量的多媒体数据处理系统以及要求实时性 处理的系统而言,在少量压缩数据上进行分析处理是唯一的解决办法。 ( 3 ) 某些压缩算法在一定程度上适应了多媒体数据分析处理的要求。如d c t 系数对 于某些频率域的操作,以及运动预测估计对运动矢量的计算等等。 ( 4 ) 对于多媒体的业务和应用,压缩数据格式作为多媒体数据的主要存储和传输格式 具有普遍性。 a ) 传统的数据压缩及处理模式 b ) 基于压缩域的数据处理模式 图1 1 多媒体数据处理两种模式的比较 4 北京科技大学硕士学位论文 正因为压缩域数据处理技术具有这些优势,所以近年来它已逐渐成为多媒体研究领 域的个热点。从两个方面来看,压缩域数据处理技术的主要研究内容包括: 从多媒体数据处理的角度来看,需要研究在现存的压缩算法( 如j p e g 、m p e g 等) 所 形成的压缩数据域内。如何克服压缩域的限制并充分利用压缩域的优势,寻找与原始数 据集分析处理操作相对应的对等操作或近似对等操作,实现压缩域的数据处理,并达到 和原始数据域操作相同或相近的处理效果。同时还必须研究如何降低压缩域对等操作的 复杂度、压缩域对等操作对源数据操作的加速比及其与压缩比的关系。 从多媒体数据压缩技术的角度来看,由于传统的编解码算法主要是去除图像视频数 据的帧内和帧间冗余信息,以求在保证一定解码图像质量的前提下获得尽可能高的压缩 比,压缩算法并未考虑图像视频数据的内容以及对基于内容的分析处理功能的支持。所 以一个根本的解决方法在于设计实现新的压缩算法时应不仅能够使其具有较高的压缩效 率和重构质量,同时还能支持多媒体信息的基于内容的分析、检索以及码流可分级性等 功能,即研究新的支持压缩域直接处理的多媒体压缩算法。 1 3 本文的工作和章节安排 本文的主要工作是研究如何在压缩域对视频流中的运动目标进行检测的问题。通过 对h 2 6 4 视频编码标准及其编码原理的分析和研究,从分析其运动矢量的角度入手,确 定含有运动物体信息的宏块的位置和运动矢量的大小,从而检测图像序列中的运动物体。 在此算法的基础上,还考虑了视频序列中由于摄像机运动对检测算法的影响,在压缩域 内采用预测帧的残差d c 系数进行运动背景提取,再根据背景区域内的宏块运动矢 量,采用6 参数的镜头运动模型,估计镜头运动参数。这种算法比起解压缩域的运动 检测方法相比,其最大的优点就是节省大部分的解码时| 日j ,有利于实时处理,可应用于 视频监控等系统中。 论文的章节安排如下: 第一章将介绍现有压缩域图像处理技术的概况,给出了课题的研究背景,理论依据 以及应用l ;i 景。 第二章将介绍视频压缩原理和视频压缩编码标准的历史发展,并对各种视频编码标 准的性能和优缺点进行简要的概况分析比较。 第三章将具体详细研究视频编码标准h 2 6 4 的原理、算法、基本架构、编解码流程 及技术实现。 5 北京科技大学硕士学位论文 第四章研究h 2 6 4 压缩域的运动检测方法和算法实现,通过找出预测宏块的运动矢 量来达到检测的目的,并给出了标准钡4 试视频序列中无摄像机镜头运动的情况下的检测 实验结果。 第五章主要研究摄像机运动对h 2 6 4 压缩域的运动检测方法的影响。在文中提出了 一种能有效地提取出全局运动信息,更好地估计镜头运动参数的算法。并根据估计出 来的镜头参数进行运动检测,给出了最终运动检测实验结果。 6 - 北京科技大学硕士学位论文 2 视频编码的概述 2 1 视频压缩原理 视频编码的目的是实现对视频的压缩,其核心思想是去相关。通过减少视频序列间 的相关性,降低视频内容中的冗余,用较少的比特数来表示视频内容,从而实现对视频 的压缩。视频序列中的冗余主要有以下几方面: 空间冗余:指一幅图像中,相邻或相近的像素,其值( 灰度值或色度分量的值) 总是很 相近,相邻像素之问存在很强的相关性。 时问冗余:指相邻帧之间的时间间隔较小,一般是几十毫秒。在这样短的时间内, 大部分被拍摄的对象都是静止不动或只有很小的移动,因此视频序列中存在时间上的大 量冗余信息。 编码冗余:对于编码符号,其平均码长高于所表示信息的信息熵,这个差值就形成 了编码冗余,编码冗余、空日j 冗余、时问冗余都依赖于图像数据的统计特性,可以统称 为统计冗余。 视觉冗余:指由于人眼视觉的非均匀性,使得人眼视觉对某些空问频率感觉迟钝。 因此视频中不同频率成分的内容对于人眼系统而言其重要性是不同的。也就是说存在频 域冗余。例如人眼视觉系统队亮度信号变化的敏感性高于色度信号变化。因此可以对色 度分量进行降低采样,同时保持主观视觉质量不变。y u v 4 :2 :0 色度格式就是对色度分量 在水平和垂直两个方向进行2 :l 的采样。另一方面对信号频域的各个分量可以采取不同 的量化步长,将人眼视觉不敏感的分量去除,而不会引起主观质量的下降。 结构冗余和知识冗余:指图像的某些区域存在非常强的纹理结构,图像像素值与明 显的分布模式,形成结构冗余。或者图像中包含的信息与某些先验知识有关,例如人的 五官位置对人脸而言就是一种先验知识,这种冗余构成知识冗余。 具体的视频编码方法有很多分类,根据是否存在信息损失分为有损编码和无损编码, 常用的压缩编码方式1 4 l 有:熵编码、预测编码、变换编码以及其它编码方法。 2 1 1 熵编码 信源所含有的平均信息量( 熵) 就是进行无失真编码的理论极限,只要不低于此极限, 总能找到某种适宜的编码方法逼近熵。而信源中含有的冗余度源于信源本身的相关性和 信源概率分靠的不均匀性,只要能去除相关性或改变概率分布的不均匀性,也就找到了 信源熵编码的方法,利用信息熵的编码方法主要有霍夫曼编码、行程编码和算术编码。 7 北京科技大学硕士学位论文 霍夫曼编码是可变字长编码( v i f 3 的一种,是h u f f m a n 于1 9 5 2 年提出一种编码方法, 该方法完全依据字符出现概率来构造平均长度最短的异字头码字( 若w 中任意码字都不 是另一个码字的字头,或换句话说,任何一个码字都不是由另一个码字加上若干码元所 构成,则w 就为异字头码( p r e f i xc o n d i t i o nc o d e ) ) ,有时称之为最佳编码,一般就称为霍 夫曼编码。霍夫曼编码中每一个符号都对应一个码字,总的形成一个码表,接受端与发 送端码表相同。 现实中有许多这样的图像,在一幅图像中具有许多颜色相同的图块,在这些图块中, 许多行上都具有相同的颜色,或者在一行上由许多连续的像素都具有相同的颜色值。在 这种情况下就不需要存储每一个像素的颜色值,而仅仅存储一个像素的颜色值,以及具 有相同颜色的像素数目就可以,或者存储一个像素的颜色值,以及具有相同颜色值的行 数。这种压缩编码称为行程编码r l e ( r u nl e n g t he n c o d i n g ) ,具有相同颜色并且是连续的 像素数目称为行程长度。 算术编码是将被编码的信息影射到实数0 与1 之蜘的一个日j 隔。信息越长,编码表 示它的间隔就越小,表示这一间隔所需的二进制位数就越多。算术编码包括基于概率统 计的固定模式与非概率统计的自适应模式。自适应模式各个符号的概率初始值相同,它 们依据出现的符号而相应的地改变。只要编码器和译码器使用相同的初始值和改变值方 法,它们的概率模型将保持一致。算术编码的自适应模式可以不必预先定义概率模型。 因为在实际应用中,不可能对全部大量的信息进行概率统计( 时问较长) ,所以使用自适应 模式的算术编码效率很高。 当信源概率分布很大均匀时,霍夫曼编码有优势:当信源符号概率比较接近时,算 术编码优于霍夫曼编码。行程编码适用于计算机生成的图像,对减少图像文件的存储空 间非常有效。但它不太适用于颜色丰富的自然图像,因此在同一行上具有颜色的连续像 素往往很少,而连续几行都具有相同颜色值的连续行数就更少。在这种情况下,通常需 要和其它的压缩编码技术联合应用。 2 1 2 预测编码 预测编码根掘过去参考像素来预测当前的像素值,称为预测值,然后对当前像素的 值与预测值之差进行编码。由于差值小,相应的表示位数减少,从而达到数据压缩。常 见预测编码方法包括d p c m 编码与运动补偿预测编码两种。 d p c m 编码方法( d i f f e r e n t i a lp u l s ec o d em o d u l a t i o n ) 是利用样本与样本之间存在的信 息冗余度来进行编码的一种数据压缩技术。差分脉冲编码调制的思想是根据过去的样本 8 北京科技大学硕士学位论文 去估算( e s t i m a t e ) 下一个样本信号的幅度大小,这个值称为预测值,然后对实际信号值与 预测值之差进行量化编码,从而就减少了表示每个样本信号的位数。它与脉冲编码调制 0 c m 网的是,p c m 是直接对采样信号进行量化编码,而d p c m 是对实际信号值与预 测值之差进行量化编码,存储或者传送的是差值而不是幅度绝对值,这就降低了传送或 者存储的数据量。此外,它还能适应大范围变化的输入信号。 运动补偿预测编码的基本思想是把一幅动态图像看成是由静态部分和运动部分叠加 而成。静态部分可以重复使用上一帧的数据,而对运动部分则设法确定其位移动量来实 现运动部分的预测,即进行运动补偿之后再进行帧间预测。 运动补偿预测编码着眼于减少帧问的时间冗余度,是提高视频压缩效率目前最有效 的编码方法,在现有的视频编码标准中得到广泛应用。由于运动补偿预测编码的计算复 杂度很大,它成为视频压缩计算复杂度中的关键环节与瓶颈。虽然目前提出了许许多多 的快速运动估计算法,其运算复杂度使得在视频压缩中的瓶颈地位依旧。 2 1 3 变换编码 变换编码的基本原理在于通过数据空间变换,改变数据的表示形式或者分布,从而 在变换空间实现数据压缩,然后再变换到原来的数据空间,是典型的有损压缩方式。正 交变换的种类很多,譬如k - l 变换、d c r 变换、s l a n t 变换、w a l s h h a d a m a r d 变换等。 其中k - l 变换后的各系数相关性小,能量分布集中,忽略低值系数的误差小,一般认为 是最佳变换。但其计算复杂度大,工程上难以实现。实际中采用的主要是与k - l 变换性 能最为接近d 玎变换。 近些年来,将小波变换应用到图像压缩领域已成为研究的热点,并已经在对静念图 像压缩方面取得了进展,如应用小波变换作为基本算法的j p e g 2 0 0 0 静态图像压缩标准、 m p e g - 4 中的针对静态纹理的编码。但是由于小波变换其固有的性质,在视频压缩方面 小波变换的应用研究一直末取得令人满意的效果。 2 2 视频编码标准的发展及h 2 6 4 标准的制定 数字视频技术在通信和广播领域获得了r 益广泛的应用,特别是最近,随着i n t e m e t 和移动通信的迅猛发展,视频信息和多媒体信息在i n t e r a c t 和移动网络中的处理和传输技 术成了当i ;i 我国信息化中的热点 视频压缩标准的制定工作主要是由国际标准化组织( i n t e r n a t i o n a ls t a n d a r d i z a t i o n o r g a n i z a t i o n ,简称l s o ) 和国际电信联盟( i n t e r n a t i o n a lt e l e c o m m u n i c a t i o nu n i o n ,简称u ) 完成的。由i t u 组织自定的标准主要是针对实时视频通讯的应用,如视频会议和可视电 9 北京科技大学硕士学位论文 话等,它们以h 2 6 x 命名( 如h 2 6 1 、h 2 6 2 、h 2 6 3 和h 2 6 4 ) ;而由i s o 和i e c ( i n t e m a t i o n a l e l e c t r o t e c h n i c a lc o m m i s s i o n ,国际电工委员会) 的共同委员会中的m p e g 组织( m o v i n g i m a g e se x p e r tg r o u p ) $ 4 定的标准主要针对视频数据的存储( 如d v d ) 、广播电视和视频流 的网络传输等应用,它们以m p e g - x 命名( 如m p e g - 1 、m p e g - 2 、m p e g - 4 、m p e g - 7 等归。 各种视频压缩标准都是根据人们在不同领域中对声像数据的要求所制定的,并且随 着人们的需求不断的发展。视频压缩标准按其制定时间大概可以用图2 1 进行描述: 图2 1 视频编码国际标准的发展历史 2 2 1m p e g x 系列标准 m p e g 1 和m p e g 2 是m p e g 组织制定的第一代视、音频压缩标;佳1 6 j ,为v c d 、d v d 及数字电视和高清晰度电视等产业的飞速发展打下了牢固的基础。m p e g - 4 是基于第二 代视音频编码技术制定的压缩标准,以视听媒体对象为基本单元,实现数字视音频、图 形合成应用和交互式多媒体的继承,目前已经在流式媒体服务等领域开始得到应用。 m p e g - 7 是多媒体内容描述标准,支持对多媒体资源的组织管理、搜索、过滤、检索, 已经基本完成。 ( i ) m p e g 1 :面向数字存储的运动图像及其伴音的编码标准 m p e g 1 的全称是“c o d i n go fm o v i n gp i c t u r e sa n da s s o c i a t e da u d i o f o rd i g i t a l s t o r a g em e d i aa tu pt oa b o u t1 5 m b i t s ”,主要是为了视频存储媒体( 如v c d ) 而制定的。 该标准的主要目的是在1 - 1 s m b i t s 的情况下,提供3 0 帧秒的c 1 f ( 3 5 2 x 2 8 8 ) v h s 质量 - 1 0 北京科技大学硕士学位论文 的图像编解码。相对于h 2 6 1 ,m p e g - 1 中加入了两个比较重要的新特性:双向运动补 偿技术以及1 t 2 像素精度的运动补偿。 双向运动补偿允许将前帧和后帧均作为参考帧,因此,在m p e g 1 中有三种类型的 帧:i 帧( 帧内编码j 喻、p 帧漕通帧间编码帧) 、b 帧( 双向帧问编码蜘。采用双向运动补 偿可进一步降低输出码流的码率,但是需要对序列图像进行重排序,这在视频通信中是 不能允许的。因此这种技术只应用在m p e g 1 、m p e g 2 等面向视频存储媒体的非实时 应用中。 1 2 像素精度运动补偿的引入也是m p e g 1 的一个进步。具体的方法是根据整像素 的值经过内插计算出相应亚像素位置各点的亮度和色度值,然后再进行运动估计。这一 方面提高了编码器的性能,另一方面也增加了编码器的运算复杂度需要说明的是,视 频编码的标准仅仅是m p e g - 1 中的一部分,除此之外,m p e g - 1 中还包含完整的音频、 系统、以及一致性测试的规范。v c d 的广泛流行说明了m p e g 1 的成功。m p e g 1 压缩 技术已经成熟,广泛应用于v c d 制作、图像监控等方面。 ( 2 ) m p e g - 2 :广播系统压缩编码标准 m p e g - 2 的全称是“g e n e r i cc o d i n go fm o v i n gp i c t u r e sa n da s s o c i a t e da u d i o ”。 m p e g 2 的目标是在3 m b p s - 3 5 m b p s 的传输速率下,提供高质量的多媒体信号,并提供 质量、时问、空间上的可伸缩性。与m p e g 1 相比,m p e g 2 加入了以下两个主要的新 技术:对隔行扫描的支持和可伸缩性编码。 普通的电视信号采用隔行扫描的方式,一帧分为两场进行扫描。在一帧图像中相邻 的行属于不同的场,在景物存在快速垂直运动时,相邻行的相关性降低,会影响编码的 效率。为了尽可能提高编码的性能,m p e g 2 允许以场为单位进行运动补偿和变换编码。 可伸缩性,顾名恩义就是根掘实际的需要( 如可利用的信道宽度、解码终端的处理能 力等1 在编码质量和码流大小之间取折中。m p e g - 2 支持4 种可分级编码模式:数据划分、 s n r 分级、空域分级、以及时域分级。 m p e g 2 从编码到传输的体系十分完善,并且支持的码率范围大,应用领域十分广 阔,涵盖了卫星广播服务、有线电视、有线广播、数字地面电视、电子影院、家庭影院、 互动媒体、远程视频监控等方面。大家所熟悉的d v d 基于的就是m p e g - 2 标准。可以 说,m p e g 2 是目前最成功的视频编码标准。 ( 3 ) m p e g - 4 :基于对象的低码率视频压缩标准1 7 , a l m p e g - 4 是m p e g 组织制定的一种i s o b e c 标准,m p e g 组织于1 9 9 9 年1 月正式 公布了m p e g - 4 v 1 0 版本,1 9 9 9 年1 2 月又公布了m p e g - 4 v 2 0 版本。m p e g - 4 是一个 北京科技大学硕士学位论文 适用于低促函数速率应用的方案与m p e g o l 和m p e g - 2 相比更加注重多媒体系统的交 互性和灵活性。 m p e g - 4 的全称是“c o d i n g o f m o v i n g p i c t u r e s a n d a u d i o ”,其目标应用包括因特网 多媒体、交互式视频游戏、个人通信、多媒体邮件、网络数据库服务、远程视频监控、 无线多媒体等。 目静,m p e g 4 共包含l o 个部分,依次为系统、视频、音频、一致性测试、参考软 件模型、传输多媒体集成框架、m p e g - 4 工具软件、基于m 架构的m p e g _ 4 、参考硬件 描述、以及高级视频编6 9 j ( a d v a n c e dv i d e o c o d i n g ,简称a v c ) 。其中a v c 即为删- t 和 m p e g 联合制定的h 2 6 4 视频编码标准。 m p e g - 4 一个革命性的贡献是在视频编码中引入了基于对象的思想。m p e g 4 以 v o f v i d e oo b j e d ) 的概念来实现基于内容的表示。v o 的构成依赖于具体应用和系统实际 所处的环境:在要求超低比特率的情况下,v o 可以是个矩形帧,与传统的标准兼容。 v o 也可以是场景中某一物体或某一层面,为画面中被分割出来的不同物体。每个v o 由三类信息来描述:运动信息、形状信息、纹理信息。除此之外,m p e g - 4 还第一次引 入了许多其它的引人注目的技术,例如视频中的小波变换、s p r i t e 编码、零树扫描等等。 但另一方面,m p e g - 4 种的许多工具例如基于对象的视频处理等由于运算复杂度的限制, 在实际中应用的不是很广泛,最常见的是它的s i m p l e p r o f i l e 和a d v a n c e ds i m p l ep r o f i l e 。 前者基本和h 2 6 3 类似,后者在h 2 6 3 的基础上引入了1 4 像素精度的运动补偿和全 局运动估计技术。 ( 4 ) m p e g 7 :多媒体内容描述接d 1 9 1 准确来说,m p e g 7 并不是一种压缩编码方法,而是一个“多媒体内容描述接口”。 随着网络信息的不断增长,人们获得感兴趣的信息的难度越来越大传统的基于关键字 或文件名的检索方法,显然已经不适合于数据量庞大又不具天然结构特征的数据,于是 实现基于内容检索,并支持电子内容传输和电子贸易的新型多媒体压缩编码标准的制定, 也成为m p e g 组织的新的研究方向。m p e g - 7 作为m p e g 家族中的一员,正式名称叫做 “多媒体内容描述接口”。它将为各种类型的多媒体信息规定一种标准化的描述。m p e g - 7 的应用领域包括:( 1 ) 数字图书馆( d i g i t mh l o r a t y ) ,例如图像目录、音乐词典等。( 2 ) 多媒 体目录服务( m u l t i m e d i ad i r e c t o r ys e r v i c e s ) ,例如黄页( y e l l o wp a g e s ) 。( 3 ) 广播媒体的选择, 例如无线电频道,t v 频道等。( 4 ) 多媒体编辑,例如个人电子新闻服务,多媒体创作等。 1 2 北京科技大学硕士学位论文 2 2 2a 2 6 x 系列标准 通常情况下,h 2 6 x 标准侧重于视频信息的数据压缩效率,以适合调整该系统在特 定的位速率下传输,其主要应用目标是可视电话和会议电视l 埘。 ( 1 ) h 2 6 1 标准 h 2 6 1 的全称是“v i d e oc o d e cf o ra u d i
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五版酒店住宿+旅游线路定制服务协议
- 2025年房地产项目装配式建筑顾问服务合同范本
- 2025年硫铁矿原材料供需对接服务协议
- 2025版智能家居系统加盟合作协议范本
- 二零二五年度办公用品进出口贸易合同书
- 二零二五年度国际农产品贸易合同
- 衡阳市青少年宫招聘教师考试真题2024
- 2024年河北省粮食和物资储备局下属事业单位考试真题
- 2025年度特色民宿承租转租服务合同范本
- 二零二五年度互动体验式广告设计与制作承包合同
- 药理学课件(全)
- 凤凰网公益频道先生访谈记录
- 疯狂说英语句型系列120集笔记
- 锻造作业指导书
- 带状疱疹病例讨论
- 喹钼柠酮配制
- 新概念英语电子书第2册
- OxfordPhonics1牛津自然拼读1级单词闪卡教学卡片
- 25吨吊车起重性能表
- 地下水环境监测井施工设计方案
- 陕西省开放型经济发展的问题及对策
评论
0/150
提交评论