(信号与信息处理专业论文)基于感兴趣区域可分级视频编码研究.pdf_第1页
(信号与信息处理专业论文)基于感兴趣区域可分级视频编码研究.pdf_第2页
(信号与信息处理专业论文)基于感兴趣区域可分级视频编码研究.pdf_第3页
(信号与信息处理专业论文)基于感兴趣区域可分级视频编码研究.pdf_第4页
(信号与信息处理专业论文)基于感兴趣区域可分级视频编码研究.pdf_第5页
已阅读5页,还剩69页未读 继续免费阅读

(信号与信息处理专业论文)基于感兴趣区域可分级视频编码研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理工大学硕士学位论文 摘要 可分级视频编码方法( s c a l a b l ev i d e oc o d i n g ) 是一种高级的视频编码方法,它的基本 思想是形成一个具有基本图像质量的基本层,以及一个或多个具有额外信息的增强层。 基本层和增强层之间存在着制约关系。解码端在接收到了基本层之后能够单独进行解 码,但增强层需要用到基本层的数据,与基本层共同解码,才能得到增强后的图像效果。 对于采用可分级视频编码方法的系统来说,编码端可以对信道状况不好的用户发送基本 层数据,而对于占用带宽较高的用户发送基本层数据和增强层数据,经过基本层和增强 层的共同解码得到较好的图像质量。按照具体编码方法的不同,增强层可以在时间分辨 率、空间分辨率、空间频率分辨率、信噪比等方面对基本层进行改善增强。 首先,本文研究了可分级编码产生及发展的历史,特别是近几年来研究所取得的成 果。本文对几种常见的可分级方法进行了软件实现,做了大量的实验并进行结果对比与 分析。 其次,根据实验结果发现增强层码率较高严重制约了可分级编码的广泛应用。对比 近几年对可分级编码的各种改进措施,发现在可分级编码领域中,对增强层感兴趣区域 有针对性地进行编码尚很少有人涉足。因此,本文深入研究了感兴趣区域( r o i ) 理论的 发展现状,并结合可分级编码的具体需要,设计了空间频率内容重要性函数( s f c ) 、人 脸重要性函数i f f ) 和位置重要性函数( l i f ) 来提取感兴趣区域,并根据实际效果对设计的 函数进行修正。 最后,本文将设计的函数使用到可分级编码过程当中,用感兴趣区域理论来指导可 分级编码,对空间可分级编码方法和信噪比可分级编码方法进行了此项实验。通过实验 可以看到,在利用r o i 理论对增强层编码进行指导后,增强层的码率得到大幅削减,而 图像的细节得以保留,取得了预期的效果。 关键词:可分级编码;增强层;感兴趣区域:图像细节 基于感兴趣区域可分级视频编码研究 t h er e s e a r c ho ns c a l a b l ev i d e oc o d i n gb a s e do nr o i a b s t r a c t s c a l a b l ev i d e oc o d i n g ( s v c ) i sa l la d v a n c e dv i d e oc o d i n gt e c h n o l o g y i t sm a i ni d e ai s t op r o d u c eab a s i cl a y e rw h i c hc o n t a i n sb a s i cp i c t u r eq u a l i t y ,a n do n eo rm o r ee n h a n c el a y e r s t h a tc o n t a i na d d i t i o n a li n f o r m a t i o n e n h a n c ei a y e ri sd e p e n d e n to fb a s i cl a y e r n 圯d e c o d e r c o u l dd e c o d et h eb a s i cl a y e r h o w e v e r ,t h ee n h a n c el a y e rn e e d st h ed a t ao fb a s i cl a y e rf o r d e c o d i n gi no r d e rt op r o d u c et h ee n h a n c e dp i c t u r e f o rs y s t e m st h a ti m p l e m e n ts v c ,t h e e n c o d e rw o u l ds e n db a s i cl a y e rd a t at oe n du s e r sw h oh a v eb a dc h a r m e lc o n d i t i o n a st ot l o s e w h oo b t a i nh i 曲e rb a n d w i d t h , t h ec n c o d e rw o u l ds e n db o t hb a s i ca n de l t h a n c el a y e rt o a c h i e v eb e t t e rq u a l i t y a c c o r d i n gt od i f f e r e n tc o d i n gm e t h o d ,e n h a n c el a y e rc o u l di m p r o v e t h eb a s i cl a y e rf r o mt i m er e s o l u t i o n , s p a c er e s o l u t i o n s p a c e - f r e q u e n c yr e s o l u t i o na n ds n r t 1 l i sd i s s e r t a t i o nf i r s tp r e s e n t st h eh i s t o r yo fs v c e s p e c i a l l yt h er e s e a r c ha c h i e v e m e n t s d u r i n gr e c e n ty e a r s i ta l s op r o 们d e ss o f t w a r ei m p l e m e n t a t i o no fs e v e r a lp r e v a l e n tc o d i n g m e t h o d s ,t o g e t h e rw i t he x p e r i m e n t sa n da n a l y s i so f t h er e s u l t s s e c o n d l y ,w i t he x p e r i m e n tr e s u l t si t sf o u n dt h a tt h eh i 幽b i tr a t eo fe n h a n c el a y e rh a s c o n s t r a i n t so nb r o a da p p l i c a t i o no fs v c a n a l y z i n gs e v e r a li m p r o v e m e n t so ns v c i t sa l s o f o u n dt h a tr e s e a r c ho nu s i n gr o it oe n h a n c el a y e ri sl e s sf o c u s e d t h e r e f o r e t h i sd i s s e r t a t i o n t a k e si n - d e p t hr e s e a r c ho i lr o it h e o r y , d e s i g n ss f c f a n dl i ft oe x t r a c tr o i , a n d o p t i m i z e st h e s ef u n c t i o n sa c c o r d i n gt oe f f e c t s f i n a l l y , t h i sd i s s e r t a t i o na p p l i e st h o s ef u n c t i o n s u s i n gr o it h e o r yt og u i d es v c i td o e s e x p e r i m e n t so ns d a c es v ca n ds n rs v c w i t hr e s u l t si tc o u l ds e et h a tu s i n gr o im s v c c o u l d 田r c a n yr e d u c et h ee n h a n c el a y e rb i tr a t e ,h o w e v e r , t h ed e t a i l sc o u l db ep r e s e r v e d k e yw o r d :s c a l a b l ec o d i n g ;e n h a n c el a y e r ;r o i ;p i c t u r ed e t a i l s 独创性说明 作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究工 作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理 工大学或者其他单位的学位或证书所使用过的材料。与我一同工作的同志 对本研究所做的贡献均己在论文中做了明确的说明并表示了谢意。 大连理工大学硕士研究生学位论文 大连理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位论文版权使用 规定”,同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印件和电子 版,允许论文被查阅和借阅。本人授权大连理工大学可以将本学位论文的全部或部分内 容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论 文。 、 作者 导师 签名么叁 :垂量缉 大连理工大学硕士学位论文 引言 随着计算机和网络技术的飞速发展,人类已经进入信息社会。在信息的交换 中,人们已不满足于文字,数据等作为信息的表达形式。更为生动,更为直接的 多媒体信息技术被人们所偏爱。而作为多媒体信息技术最主要元素的视频技术自 然也得到了突飞猛进的发展。 由于数字技术在计算机和网络技术上的成功应用和发展,数字图像也正逐步 取代传统的图像记录手段,越来越得到人们的青睐。数码相、数码摄像机使我们 能够随时随地的拍摄;可视电话、网络视频等技术使远隔千里的人目睹对方的音 容笑貌。此外,数字视频技术在国防、科研、教育、医疗、新闻广播等各个领域 都发挥着不可或缺的作用。 也正是由于其应用的广泛性和重要性,使得人们对数字视频提出了越来越高 的要求。 数字视频自从诞生之日起就显示出了诸多优点,易于加密、抗干扰能力强、 易于再生中继等等。然而伴随着众多的优点,数字视频也存在其自身的缺点,最 主要的就是其海量数据问题。要想解决这个问题,有两个努力方向。一是提高计 算机存储的容量,提高运算和网络传输的速度。二是对数字视频进行压缩,减少 其数据量。这样,就可以减少存储的压力,提高传输的效率并可以让计算机实时 传输视频信息,保证视频通信质量。 现在,视频信息在网络上传输的机会越来越多,如何让视频数据在网络上得 到更好的传输越来越引起人们的注意。由于各种不同的接入方式使网络呈现了异 构性,如a d s l 拨号上网、无线上网、局域网等,诸多的方式使得现今网络状况 较以往更为复杂。由于因特网模型是基于概率的交换网,在网络拥塞的时候会丢 弃一些不重要的数据包,使得通信没有q o s 保证。面对越来越复杂的网络结构 和时变的网络带宽,传统的单一速率视频越来越难以应对。当信道带宽变窄时, 视频数据会丢失,对视频质量产生极大的影响。 对于这种现状,可分级视频编码是一个很好的解决途径。它可以灵活的根据 终端设备和网络状况来选择不同的模式并随时做出调整,达到最佳的效果。 近年来,可分级编码方法的研究得到了长足发展,这对网络多媒体技术具有 十分重要的意义。对可分级编码进行深入的研究,是使网络多媒体得到发展的一 个重要努力方向。 基于感兴趣区域可分级视频编码研究 1 绪论 1 1 研究背景和意义 互联网的飞速发展使得网络结构日趋复杂,加之多种接入方式的并存,使得 各个用户之间存在较大的带宽差异。i n t e m e t 的传输模型虽然使得网络资源能够 最大限度的得到利用,但是不能保证每一个用户得到恒定的带宽,使得用户所使 用的带宽经常出现波动。带宽的波动导致数据的丢失,这对于图像通信来说是致 命的,将严重影响接收端收视效果,单一的速率编码将无法适应这种信道环境。 在向不同用户提供视频服务时不仅要考虑到用户之间带宽的不同,即使是针对同 一个用户,也存在信道带宽时变的问题。 解决这种用户带宽不等且时变的问题目前有两种方法,一种称为多描述视频 编解码技术( d u p l i c a t e dv i d e os t r e a m ) ,提供多种不同速率的视频流,以适应不同 的用户,这种方法实现了提高视频流的健壮性和重构图像的质量,缺点是压缩效 率较低,数据存在较大的冗余。另一种方法就是我们所说的可分级视频编码 ( s c a l a b l ev i d e oc o d i n g ) ,这种方法在形成质量较低的基本层码流时的原则是使其 码率低于信道最小带宽,这样就能保证基本层图像任何时候的正常接收。增强层 是依赖于基本层数据解码的,当信道状况良好时发送增强层与基本层共同解码出 原图像,但如果基本层数据丢失,增强层则不能单独解码,恢复图像。 可分级编码是一种先进的图像压缩编码传输方式,其基本思想是先形成一个 低质量的基本层图像以底码率传输,在此基础上每附加一层代表图像细节的信 息,就使图像的质量提高一级,信息码率也提高一个档次,从而实现视频图像的 分级传输,以不同速度显示不同质量的图像。 最早引入可分级视频编码的视频标准是m p e g - 2 ,主要用于支持多层视频的 播放。m p e g 2 提供的可分级种类有:空间可分级、时间可分级、信噪比可分级、 数据分割可分级。在m p e g - 4 中则继续提出了精细粒度可分级( f g s ) 方法。基于 以上各种分级方法的组合应用称为混合可分级i i j 。 可分级编码不是一种新的压缩方法,而是一种新的编码和传输模式。它在编 码前对图像进行预处理,将图像分为基本层和增强层,然后分别进行编码和传输。 在网络状况较好时,可以同时传送基本层和增强层的视频数据;而在网络状况较 差时,则只传送基本层视频数据,从而使可分级视频编解码成为可能。可分级视 频编解码中只规定了待解码码流应符合的语法结构,而对其编码不做规定,若根 据解码码流的标准语法结构,相应的推出编码码流应符合的语法结构,就可按自 己的需求,较为灵活的选择其编解码方案。 2 大连理工大学硕士学位论文 各种不同可分级方法主要区别是基本层和增强层所包含的数据内容不同: 空间分级性允许在分级层中应用不同的图像空间分辨率。它从一个视频源产 生两个空间分辨率的视频层,低层自己编码来提供基本的空问分辨率,增强层利 用这个低层空域插值来生成视频源的全分辨率图像。空间可分级编解码器的基本 层数据流的解码与增强层数据流完全无关。基本层编码后的结果经过上采样后成 为与原始图像具有相同尺寸的视频,上采样结果与原始图像做差产生差图像,增 强层的任务就是对这个差图像进行编码。最后,在解码端,将增强层数据附加到 基本层上,形成全分辨率图像。 时间可分级法涉及到两层,一个基本层,一个增强层。基本层和增强层具有 相同的空间分辨率。低层自己编码以提供基本时间分辨率,增强层通过基本层进 行时域预测编码,最后通过对这些层次的解码和时域多路复合来产生视频源的全 时域分辨率图像。 数据分割是将一个视频流分成两层的技术。它将比特流分割在两个通道中存 储和发送,将比特流中的重要部分( 如信息头、运动向量、d c 系数) 在错误率 低的通道中传送,将不太重要的部分( 如高频d c t 系数) 在较差的信道中传送。 不同于其它几种分级方法,数据分割方法可在系统级实施,因为它不改变低级的 任何编码决定和算法选择,仅仅将已编好的数据分成两个部分。它在无级视频编 码后可作为后处理步骤使用。数据分割方法由于其简单的可执行性而博得好感, 但它不适用于只依靠基础数据流解码器就能提供相对于数据率的良好质量的应 用。 信噪比可分级性方法可以产生两个数据流,由其再建两个具有不同信噪比的 视频信号,由基本层数据流解码的视频质量通过增强层数据流共同解码而改善。 两层图像的空间和时间分辨率相同。信噪比可分级编码器用以获得增强层信号的 方法类同于双级量化技术。变换的图像或预测误差块首先在基本层量化器中粗量 化,该输出数据以基本层数据流通过第一个熵编码器送出。此后,恢复的系数和 原始系数之间的差值再次在增强层量化器中细量化,得到的变长码值以增强层数 据流传送i ”。 在m p e g - 4 中提供了一种方案能够灵活地适应网络带宽的波动,并提供良好 抗误码能力的精细粒度可分级编码( f g s ) 。这种编码方法从广义上讲也属于信噪 比可分及方法,不同之处在于其增强层当中采用了位平面编码技术,实现了增强 层的嵌入式编码。所谓嵌入式编码是指码流从任意位置被截断,解码端都能从已 接收到的码流中恢复出一定质量的图像,从而达到了最大限度的利用信道资源的 目的。这种方法的弊端是编码效率较低,限制了其广泛应用。 基于感兴趣区域可分级视频编码研究 可分级编码技术应用的范围很广,视频通信、a 1 m 分组交换网上的视频传 输、不同视频标准的相互转换、多质量级视频服务都可以应用可分级编码达到较 好的通信效果。 另一方面,视频传输面临着更大的挑战,因为用户的期望值越来越高,对带 宽的要求也很高,但是信道传输的带宽往往是有限的。针对这种情况,就要求视 频的传输必须有在主观上更高的质量。由于图像的最终观察者总是人眼,所以我 们需要一种提高感官上图像质量的方法,于是出现了基于感兴趣区域的比特分配 策略p j ,按照这种策略,一幅图像上视觉敏感程度最高的区域会以较高的质量编 码,而视觉敏感程度较低的区域会以较低的质量编码。显然,这种策略可以在比 特数一定的情况下,保证人眼感知到的图像获得最好的质量。 本文正是将感兴趣区域理论应用到可分级编码中去,将两者有机融合。对于 需要编码的图像,我们并不是盲目的将其进行可分级编码,而是首先提取图像中 的感兴趣区域。对于感兴趣级别高的部分,我们再进行增强层的编码,而对于感 兴趣级别较低的部分,则只进行基本层的编码。这样一来,可以根据需要大大削 减增强层的数据量,使有限的带宽资源的到充分的应用。 1 2 论文的组织 本文的工作主要分为两部分。首先对各种可分级编码方法进行研究并加以实 现,对比各种方法的优劣和应用范围。其次研究感兴趣区域理论,提出多种感兴 趣区域确定方法。最后,将感兴趣区域理论应用于可分级视频编码中,以优化编 码性能。 论文的章节安排如下: 第一章简要介绍可分级编码和感兴趣区域理论的历史和现状,找出当前可分 级视频编码存在的问题并确定研究的方向。 第二章介绍视频压缩的常用方法和视频压缩标准。 第三章详细研究空间、时间、信噪比等各种可分级编码方法的原理并加以实 现,对比分析其性能。 第四章主要研究感兴趣区域确定方法,设计了相应的人眼感兴趣程度重要性 函数,具体阐述了其原理和算法;然后将各种重要性函数组合在一起,生成最终 的感兴趣区域函数。 第五章结合感兴趣区域理论和可分级编码技术进行感兴趣区域可分级编码, 并通过实验得出其优势。 第六章总结所做的研究工作,并设想今后研究工作努力的方向。 4 大连理工大学硕士学位论文 2 视频编码技术 2 1 视频压缩依据 在多媒体信息处理中,最基本的需求是能动态实时地处理声音、动画、视频 信号,而图像的数据量是十分庞大的,若不对视频数据进行压缩处理,实时性根 本就不能达到。例如,一幅具有中等分辨率( 6 4 0 * 4 8 0 ) 彩色( 2 4 b i t s p i x e l ) 数字视频 图像的数据量约7 3 7 m b i t s 帧,帧速率3 0 帧秒( n t s c 制式) ,则视频信号的传送 速率大约为2 2 1 1 m b i t s s ,一分钟的视频表演则需要1 3 2 6 6 m 以上的硬盘空间! 对于这样大的数据量,难以寻求庞大的存储设备来存储这些数据,而且计算 机也难以实时地将这些数据进行处理。不仅如此,如此大的数据量给信息的传输 造成的压力尤其巨大。庞大的数据量已经成为制约多媒体技术发展的瓶颈。为了 克服这个缺点,信息压缩是一个有效的解决途径。通过压缩,可以便信息的存储 和传输的压力得以大大减轻。因此,视频数据压缩技术也就成了开发多媒体系统 中视频处理的关键技术。通过对视频数据的分析发现,视频数据中存在大量的冗 余信息。原始视频数据存在的冗余信息为数据压缩的实现提供了可能。归纳起来, 视频图像中才能在的冗余主要包含以下几类: ( 1 ) 空间冗余。空间冗余是存在于同一幅图像中的。这是静态图像存在的最 主要的一种冗余。一幅图像记录了画面上可见景物的颜色,同一景物表面上各采 样点的颜色之间往往存在着空间连贯性,但是基于离散像素采样来表示物体颜色 的方式通常没有利用景物表面颜色的这种空间连贯性,从而产生了空间冗余。可 以通过改变物体表面颜色的像素存储方式来利用空间连贯性,达到减少数据量的 目的。例如,在静态图像中有一块表面颜色均匀的区域,在此区域中所有点的光 强和色彩以及饱和度都是相同的。因此数据有很大的空间冗余【4 j 。 ( 2 ) 时间冗余。时间冗余是存在于连续图像之间的。这是多媒体视频信息中, 即序列图像( 电视图像、运动图像) 表示中经常包含的冗余。序列图像一般位于 一时问轴区间内的一组连续画面,其中的相邻帧往往包含相同的背景和移动物 体,只不过移动物体所在的空间位置略微不同,所以后一帧数据与前一帧的数据 有许多共同的地方,这种共同性是由于相邻帧记录了相邻时刻的同一场景画面, 所以称为时间冗余。 ( 3 ) 结构冗余。有些图像的纹理区,图像像素的值存在着明显的分布模式。 例如方格状的地板图案等。称为结构冗余。已知分布模式,可以通过某一过程生 成图像。 基于感兴趣区域可分级视频编码研究 ( 4 ) 内容冗余。有些图像的理解与某些基础知识有相当大的相关性。例如: 人脸的图像有固定的结构。比如说嘴的上方有鼻子,鼻子上方有眼睛,鼻子位于 脸的中线上等。这类规律性的结构可有先验知识和背景知识得到,称此类冗余为 内容冗余。根据己有的知识,对某些图像中所包含的物体,可以构造其基本模型, 并创建对应各种特征的图像库,进而图像的存储只需要保存一些特征参数,从而 可以大大减少数据量。内容冗余是模型编码主要利用的特征。 ( 5 ) 视觉冗余。事实表明,人类的视觉系统对图像的敏感性是非均匀的和非 线性的。然而,在记录的原始图像数据时,通常假设视觉系统是线性的和均匀的, 对视觉敏感和不敏感的部分同等对待,从而产生了比理想编码( 即把视觉敏感和 不敏感的部分区分开来编码) 更多的数据,这就是视觉冗余。通过对人类视觉进 行大量的实验,发现了以下的视觉非均匀性:视觉系统对图像的亮度和色彩度 的敏感性相差很大。当把r g b 颜色空间转化为n t s c 制的y i q 坐标系后,经试 验发现,视觉系统对亮度y 的敏感度远远高于对色彩度( i 和q ) 的敏感度,因 此对色彩度( i 和q ) 允许的误差可大于对亮度y 所允许的误差。随着亮度的 增加,视觉系统对量化误差的敏感度降低。这是由于人眼的辨别能力与物体周围 的背景亮度成反比。由此说明:在高亮度区间,灰度值的量化可以更粗糙些。 人眼的视觉系统把图像的边缘和非边缘区域分开来处理。这是将图像分成非边缘 区域和边缘区域分别进行编码的主要依据。这里的边缘是指灰度值发生剧烈变化 的地方,而非边缘区域是指除去边缘之外的图像其他任何部分。人类的视觉系 统总是把视网膜上的图像分解成若干个空间方向的视频流后再进一步处理。在编 码时,若把图像分解成符合这一视觉内在的特性的视频流,则可能获得较大的压 缩比。小波编码就是在一定的程度上利用了这一特征。 ( 6 ) 图像区域的相同冗余。它是指在图像中的两个或多个区域所对应的所有 像素相同的或相近而产生的数据重复性存储,这就是图像区域的相似性冗余。在 以上情况下,记录了一个区域中的各像素的颜色值,则与其相同或相近的其他区 域就不再记录其中的各像素的值。向量量化( v e c t o rq u a n t i z a t i o n ) 方法就是针对这 种冗余性的图像压缩方法。 ( 7 ) 纹理的统计冗余。有些图像的纹理尽管不严格服从某一分布规律,但是 它在统计的意义上服从该规律。利用这种性质也可以减少表示图像的数据量,所 以称之为纹理的统计冗余。随着对人类视觉系统模型和图像模型的进一步研究, 人们可能会发现更多的冗余性,使图像数据压缩编码的可能性越来越大,从而推 动图像压缩技术的进一步发展。 6 大连理工大学硕士学位论文 叵 臣至m 翌, 扫 图2 1 是视频压缩编码基本框图,包含了常用的视频压缩方法。下面几节中 我们对图中的各种编码方法进行详细解释。 2 2 1 变换编码 在一幅视频图像中各个相邻像素点之间存在很大的相关性,在时域难以进行 有效的压缩。如果将图像通过有效的方法变换到频域,就会产生相关性较小的变 换系数,大部分情况下高频系数大都接近为零。因为高频成分对图像质量影响不 大,通过量化和编码可以丢弃这些系数从而达到压缩的目的。目前,用于图像的 常见变换主要有k l 变换( k a r h m e n - l o e v et r a n s f o r m ) 、离散余弦变换( d i s c r e t e c o s m et r a n s f o r m ,d c t ) 5 和离散小燃( d i s c r e t ew a v e l e tt r a n s f o r m , d w r ) 。前 两种是基于块的,最后一种是基于图像的。 在这三种变换编码方式当中,k l 变换能最有效的去除图像各个频率分量之 问的相关性,效果最好。但由于其计算量庞大,在视频编码中未得到实际应用。 具有有效的快速算法而性能接近于理想的d c t 变换被广泛应用于图像压缩领 域。 7 基于感兴趣区域可分级视频编码研究 d c t 燹抉的进仃过程是在编码输将原始图像分副厩讦多于像块,对母一个 像块进行d c t 正交变换,生成频域中的系数阵,变换后的数据经过反变换可以 恢复为原有数据,因此它是一种无损压缩方法。 当以 厂( 石) ) 表示m 个其值有限的一维实数信号序列的集合时,x = o ,1 , m 1 ,则其一维d c t 定义为: 即) = 序篓m 灿( 2 x 2 + m 1 ) u n 舻o 1 ,- 1 ( 2 1 ) m ) = 后篓c 脚沁1 ( 2 x + 矿1 ) u x 舻o ,l ,埘- 1 ( 2 2 ) 其中 c ( “) = ¥2 其u = 他o 。由此扩展得二维。c t 的定义,设数字图像 f ( x ,y ) 是具有m 行n 列的一个矩阵,运用d c t 将其从空间域( x ,j ,平面) 转换 到d c t 变换域( 甜,v 平面) : f d c 眦力= 赤c c m 萎- i 善n - i 似加产c o s 产 其相应的d c t 逆变换为: i d c t :f ( x y ) = 击萋势脚灿笺竽c o s 吗产亿2 赤萎丢c ( a v ) 只v ) c o s 兰! i ;【严c o s 3 兰兰i 孑竖( 2 4 ) 其中:z ,“= o 1 ,m 一1 ;y ,v = o 1 n - l ; c ,= y 厄u 其= 他0c c v ,= ¥厄其v = 他0 2 2 2 量化编码 一般而言,量化是模拟信号到数字信号的映射,而一旦获取到视频信号并数 字化后,量化则是指由数字量到数字量的多对一映射。量化器所要完成的功能是 按一定的规则对表达式作近似表示,即指量化器用一组有限的实数集作为输出, 其中每个数代表一群最接近于它的取样值,量化编码为有损编码。 量化常分为三类:标量量化( 零记忆量化或一维量化) 、矢量量化( 分组量 化) 和序列量化。在标量量化中,所有采样使用同一个量化器进行量化,每个采 8 大连理工大学硕士学位论文 样的量化都和其它所有采样无关。矢量量化( 多维量化) 则是从被称为码本的码 字集合中选出最紧密适配于序列的一个码字来近似一个采样序列( 即一个向量) , 这种方法以输入序列与选出的字之间失真最小为依据。 在视频编码中较多应用量化的过程是对二维d c t 系数的量化处理,由于对 于信号矩阵实施正交变换后,系数的能量分布一般比较集中,如二维d c t 变换 后的系数矩阵,能量集中在左上角,从而可想办法对于能量或能量差分重新量化 以达到信息压缩的目的。 2 2 3 预测编码 视频图像在空间上有很大的冗余度,不仅一幅图像的临近像素之间存在相似 性,同时在当前帧和与之相邻的几帧图像之间,图像中相对应位置的像素点也有 很多相似之处,特别是一段静止不动的视频,相邻帧间的图像几乎完全相同。因 此可以通过预测编码来减少冗余,达到压缩目的。它分为两种预测方式即帧内预 测和帧间预测。 帧内预测是根据待编码像素所在图像内已经编码过的像素点来产生当前像 素的预测值,然后用实际值减去预测值得到差值,再对这个差值进行编码和传输。 ,考当前 图2 2 运动估计 f i g 2 2m o t i o ne s t i m a t i o n 帧间预测是指将当前帧的前一帧或前几帧作为参考帧,随后将参考帧从当前 帧中减去,所得到的帧叫残差帧。帧间预测有多种方法,目前常用的方法是基于 块的运动估计和运动补偿方法,即将一帧图像分割成矩形块,然后对每个块进行 运动补偿。图2 2 表示了一个宏块的运动估计的过程,编码器在参考帧中确定搜 索范围后,将需编码的块与这个区域内所有和当前大小一样的块相减,得到的块 叫残差块,然后根据预先制定的选择标准确定最佳匹配块,这个过程叫做运动估 9 基于感兴趣区域可分级视频编码研究 计和运动补偿。为了在解码时可以顺利获得预测帧,必须将每个匹配块偏离原来 位置的信息即运动矢量传递给解码器,这样才能在解码时根据这些信息重新构建 预测帧。因此,运动矢量和残差块数据都要进行变换和编码传送给解码端。通过 这一步骤,需要传送的信息量大幅度减少,可以用很少的比特来表示图像,达到 了压缩的目的。 2 2 4 熵编码 熵编码即为统计编码,它根据编码对象出现的概率分布,对出现概率小的对 象用长码表示,对出现概率大的对象分配短的码字,使编码后的平均码长接近信 息熵。 变换编码后,编码器输出为变换系数矩阵,需要通过重排序和游程编码将系 数矩阵用游程编码系数表示。游程编码可以使码流较长的连续的“0 ”符号缩减 成“0 ”的个数表示。游程编码后,需要通过熵编码将这些符号影射成二进制码 并构成码流,目前常用的方法主要是哈夫曼编码。哈夫曼编码是1 9 5 2 年由哈夫 曼提出的,它的编码步骤【6 】为:首先将需要编码的对象按照其出现概率的大小从 大到小排列,然后将概率最小的两个对象挑出构成一组,概率大的对象用l 来表 示,小的用0 来表示,然后相加两者概率,构成一个新的对象,一直重复上述过 程一直到概率为l ,最后沿着各个对象符号到概率1 的路径,将该路径上l 和0 记录下来,就得到了各个对象的哈夫曼编码。 2 3 国际视频编码标准 数字视频的发展必然要求视频编码的标准化,因此视频标准化被各大国际组 织提上议事日程,这些国际组织中以国际标准化组织( i n t e r n a t i o n a ls t a n d a r d i z a t i o n o r g a n i z a t i o n ,i s o ) 、国际电子学委员会( i n t e r n a t i o n a le l e c t r o n i c sc o m m i t t e e ,i e c ) 和国际电信联盟( i n t e m a t i o n a l t e l e c o m m u n i c a t i o n u n i o n , r r l d 影响力最大。在1 9 8 8 年i s o i e c 成立了活动图像专家组( m o v i n gp i c t u r ee x p e r tc r o u p ,m p e g ) ,活动 图像专家组陆续推出了五种m p e g 标准。同时,i t u 组织下属的研究小组视频 编码专家组f v i d e oc o d ee x p e r tg r o u p ,v c e g ) 也推也推出了四种h 2 6 x 标准。通 过这些国际组织和产业界的大力推动,目前这些标准在多媒体领域的到了广泛的 应用。下面对m p e g x 和h 2 6 x 视频编码标准进行介绍,其发展过程如图所示 1 0 大连理工大学硕士学位论文 图2 3 视频编解码标准 f i g 2 3h i s t o r yo f v i d e os t a n d a r d s 2 3 1h p e g x 系列 m p e g 系列标准主要包括m p e g 1 ,m p e g 2 ,m p e g - 4 ,m p e g - 7 和 m p e g - 2 1 ,它们主要应用于通信和数字视频领域。 ( 1 ) m p e g - 1 标准 活动图像专家组( m p e g ) 于1 9 9 1 年正式推出了m p e g 1 标准。它只对y :c b :c r 比例为4 :2 :0 的视频格式提供支持,p a l 制式的亮度分辨率为3 5 2 2 8 8 ,色度分 辨率为1 7 6 x1 4 4 ,视频码率为1 5 m b s 川。 m p e g 1 支持三种帧类型:帧内编码帧即i 帧、前向预测编码帧即p 帧和双 向预测编码帧即b 帧。i 帧在编码时只需要它本身这一帧而不需其它帧,属于全 帧编码帧,它同时可用作p 帧和b 帧编码的参考帧。由于没有采用帧间预测, 因此它的压缩效率低于其它两种类型的帧。p 帧进行编码时,需要使用前面的i 帧或p 帧作为参考帧进行运动估计和运动补偿得到它与前面的参考帧的差值即 残差帧,然后进行编码传输。b 帧在进行编码时,需要使用当前帧之前和之后的 i 帧p 帧作为参考帧进行运动估计和运动补偿得到它和前后参考帧的差值。 图2 4m p e g i 视频编码层次结构 f i g 2 4m p e g ic o d i n gs t r u c t u r e 基于感兴趣区域可分级视频编码研究 m p e g 1 码流结构如图2 4 所示,视频序列按照i 帧出现的情况被划分成一 系列图像组( g r o u po f p i c t u r e s ,g o p ) ,每个c r o p 是由一个i 帧和在下一个i 帧之 前所有p 帧和b 帧构成。一帧图像由若干个像条( s l i c e ) 构成,一个s l i c e 由几个宏 块构成,s l i c e 尺寸不固定,一个s l i c e 可以包含一帧内所有宏块( 即一帧只有一 个s l i c e ) 。一个宏块由四个8 x 8 像素的亮度块和两个8 x 8 像素的色度块构成口1 。 ( 2 ) m p e g - 2 标准 随着各种清晰度更高的显示设备的发展,人们对视频图像质量提出了更高的 要求,m p e g 1 由于其清晰度不高,已经不能满足这种要求,因此i s o 组织开发 了m p e g - i 的后继标准,即m p e g 2 标准,在1 9 9 5 年正式成为国际标准1 9 l 。它 向下兼容m p e g 1 ,最高数据率为1 5 m b s 。和m p e g 1 不同,m p e g 2 对y :c b :c r 比例为4 :2 :2 和4 :2 :0 的视频数据格式都予以支持。同时为了适应不同使用者的要 求,它引入了档次和等级的概念,分为简单档,主档,信噪比可分级档,空间可 分级档和最高档等5 个档次,同时按照视频图像分辨率的不同从低到高分为低等 级分辨率( 3 5 2 x 2 8 8 ,p a l 制式) ,中等级分辨率( 7 2 0 5 7 6 ,p a l 制式) ,次 高级分辨率( 1 4 4 0 x1 0 8 0 ,p a l 制式) 和高等级分辨率( 1 9 2 0 x1 0 8 0 ,p a l 制式) 4 个等级【l 们。这些档次和等级有2 0 种不同组合,其中1 1 种是可用的,使用者可 以根据实际情况选用相应的档次和等级组合,这就给了他们极大的灵活性。 m p e g - 2 视频序列的分层结构和m p e g 1 一样,也是分为视频序列、图像组、帧、 像条、宏块和块6 个层次。 ( 3 ) m p e g - 4 标准 近年来网络的发展日新月异,多媒体技术和互联网的结合越来越紧密,同时 无线通信网络也提出了对实时视频传输的要求,而m p e g - 1 和m p e g 2 标准不 能很好适应这种发展的趋势。因此,在1 9 9 8 年,活动图像专家组正式推出了 m p e g - 4 标准。它支持低比特率的应用,更适合网络上的应用,标准支持的码率 范围为5 6 4 k b s 到6 4 k b s - 4 m b s 之间i l l 】。 m p e g - 4 和m p e g 1 以及m p e g 2 之间最大的区别在于m p e g - 4 引入了视 频对象( v i d e oo b j e c t , v o ) 和视频对象面( v i d e oo b j mp l a n e ,v o p ) 这两个概念【l ”, 它不再简单按照矩形形状对图像进行分割,而是按照各个物体实际形状进行相应 分割。视频序列中持续出现的任意形状的视频场景区域称为视频对象,某一时刻 某一帧画面的视频对象叫视频对象面。在对视频对象的编码过程中可以根据视频 对象在形状、运动信息和纹理三方面的特点进行处理【1 2 1 。 m p e g - 4 也采用了与m p e g 2 类似的档次和级别,以提高在实际应用中的灵 活性和选择性。 ( 4 ) m p e g - 7 标准 大连理工大学硕士学位论文 2 0 0 1 年活动图像专家组正式发布了m p e g 7 标准,即多媒体内容描述接口 ”3 】i l ”。这个标准主要目的是解决多媒体信息定位问题。它引入了描述定义语言 ( d e s c r i p t i o nd e f i n i t i o nl a n g u a g e ,d d l ) ,通过这种语言对各种类型的多媒体资料 进行标准化的描述,在描述的基础上结合多媒体内容本身来提供快速有效的索 引,用户在需要进行查找自己感兴趣的内容时,可以利用这个索引来实现快速方 便的搜索,它主要应用在数字图书馆、娱乐、教育、互动多媒体服务、多媒体创 作等领域【1 5 】。 ( 5 ) m p e g 2 1 标准:在2 0 0 2 年,活动图像专家组正式发布了m p e g 2 1 标准, 即多媒体框架【,目的是将现有标准联系起来互相协调来管理多媒体商务。它主 要包括以下一些内容:数字项的声明和鉴权、智能化所有权管理和保护、权利表 达和保护、内容表达发布、终端网络资源和文件格式【1 7 1 8 1 。 2 3 2h 2 6 x 系列 h 2 6 x 系列标准是由国际电信联盟推出的视频编码标准,它主要包括陆续推 出的h 2 6 1 ,h 2 6 3 ,h 2 6 3 + 和h 2 6 4 等四种标准。 从此系列编码标准推出的目的来说,h 2 6 x 标准侧重于视频信息的数据压缩 率,以适合调整该系统在特定速率下传输,其主要应用目标是可视电话和会议电 视。 ( 1 ) h 2 6 1 标准 1 9 8 0 年,国际电报电话咨询委员会( c o r r r ) 所属的视频编码专家组的h 2 6 1 建议被通过,成为可视电话和视频会议的国际标准【1 9 1 。h 2 6 1 首次使用了运动补 偿预测编码和d c t 变换的方法,其传输码率为p 6 4 k b p s ,其中p = 1 3 l 可变, 根据图像传输清晰度的不同,码率变化的范围在6 4 k b p s 至1 9 2 m b p s 之间。h 2 6 1 只对c i f 和q c i f 两种图像格式进行处理,每帧图像分为图像层,宏块组( c o n ) 层,宏块( m b ) 层,块( b l o c k ) 层来处理。 h 2 6 1 是最早的运动图像压缩标准,它详细制定了视频编码的各个部分,包 括运动补偿的帧间预测、d c t 变换、量化、熵编码以及与固定速率的信道相匹 配的速率控制等部分。主要是针对i s d n 的会议电视和可视电话等应用制定的, 通过缓冲器控制产生恒定的输出码率。h 2 6 1 是之后j p e g 和m p e g 编码方法的 重要基础。 ( 2 ) h 2 6 3 系列 由于h 2 6 1 标准的码率较高,为了能在普通公用电话网或移动电话网上传输 视频信息,删t 于1 9 9 2 年3 月正式发布了h 2 6 3 建议【2 0 】【2 。h 2 6 3 是为了支 1 3 基于感兴趣区域可分级视频编码研究 持低速率的通信而制定的标准,但也能够适应较大的动态范围,不仅仅限于低码 率。 h 2 6 3 编码算法仍以h 2 6 1 为基础( 二者的原理图十分相似) ,以混合编码 为核心,原始视频数据和码流组织也很类似,但h 2 6 3 支持更多的原始图像格式, 并且没有限定的帧率,因此可以通过减少帧数来限制最大编码速率。h 2 6 3 吸收 了m p e g 等标准中的有效、合理的内容,相对于h 2 6 1 做了不少的改进和补充: 运动补偿采用半象素精度。 可选择自由运动矢量模式( u m v :u n r e s t r i c t e dm o t i o nv e c t o r s ) 。在缺省状 态下,运动矢量对应的参考块必须定义在参考帧内,而自由运动矢量算法则无此 约束,并且还可以将运动矢量范围扩大至3 1 5 + 3 1 5 ,以利于摄像机遥扫的情 况。 可选择基于语法( s y n t a x b a s e d ) 的算术编码模式取代哈夫曼编码,在不损 失信噪比的前提下可大量减少数据量,显著降低码率。 可选择高级预测模式( a p m :a d v a n c e dp

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论