(通信与信息系统专业论文)h264帧间模式选择与运动估计算法的研究与优化.pdf_第1页
(通信与信息系统专业论文)h264帧间模式选择与运动估计算法的研究与优化.pdf_第2页
(通信与信息系统专业论文)h264帧间模式选择与运动估计算法的研究与优化.pdf_第3页
(通信与信息系统专业论文)h264帧间模式选择与运动估计算法的研究与优化.pdf_第4页
(通信与信息系统专业论文)h264帧间模式选择与运动估计算法的研究与优化.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

(通信与信息系统专业论文)h264帧间模式选择与运动估计算法的研究与优化.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

武汉理工大学硕士学位论文 摘要 一 运动向量估计在编码过程中占运算量很大的部分,比重是5 0 以上。因此, 为了提高编码器执行速度,最有效的方法是提高运动估计效率。目前用于计算 运动向量的快速搜索法经常因为陷入局部最小而不能准确的计算到运动向量或 者计算量过大让人不能接受,提高运动向量估计的计算速度对于实时视频压缩 编码有着重要的意义,更重要的是要在保证估计精确度的前提下提高运动向量 估计的计算速度,常见的搜索法往往不能在陷入局部最小和计算量上找到一个 合适的平衡点。 根据h 2 6 4 视频标准,本文提出一种改进后的快速模式选择法及钻石圆方搜 索法,能明显减少运动估计陷入局部最小的情况。快速模式选择法利用了序列 前后两帧图像中位置相同或相近块的运动矢量之间的相关性,通过加入直接拷 贝模式和宏块模式编码代价的比较,提前确定宏块模式,提高预测的速度。钻 石圆方搜索法则利用相邻帧中运动矢量和图像像素的相关性,并结合了钻石搜 索法搜索次数少、六边形搜索法方向性强和正方形搜索法搜索范围大的优点, 通过中心点判决和同时使用两种模板,使搜索结果在搜索精确度和搜索速度上 与其他快速搜索法相比,都有了一定程度上的改善。它的中心思想是根据菱形 等经典快速搜索算法的优势与劣势,结合现行视频应用的需求,在运行时间和 计算复杂度符合实时性要求的前提下,提出能对各种运动程度的序列进行较好 的压缩处理的新算法,尤其对运动较剧烈的视频有相对较好的压缩效果。通过 编程在p c 仿真实验,与原来优化前的算法作对比,分析证明其可行性。 最后通过实验证明,引入直接拷贝模式和宏块模式编码代价值比较的快速 模式选择算法,与原算法相比,在保证p s n r 值基本不变的条件下,节省了5 0 左右的代码运行时间,对提高系统的运行速度起到了较好的积极作用。结合多 种常用的简单的搜索法的优点总结出来的钻石圆方搜索法,与其他快速搜索法 相比,在运动速度能够达到视频实时传输要求的前提下,提高了运动估计的准 确性,符合现时视频实时清晰的应用要求,具有一定的可行性。 关键词:视频编码,运动估计,快速模式选择,钻石圆方算法 武汉理工大学硕士学位论文 a b s t r a c t i n t e r f r a m ep r e d i c t i o nc o d i n gi su s e dt oe l i m i n a t et h el a r g ea m o u n to ft e m p o r a l a n ds p a t i a lr e d u n d a n c yt h a te x i s t si nv i d e os e q u e n c e sa n dh e l p si nc o m p r e s s i n gt h e m m o t i o ne l i m i n a t ec a nh e l pt oe l i m i n a t et h e s er e d u n d a n c y d i f f e r e n tk i n d so f a l g o r i t h m su s ed i f f e r e n tc r i t e r i af o rc o m p a r i s o no fb l o c k s o n eo f t h ef i r s ta l g o r i t h m s t 0b eu s e df o rb l o c kb a s e dm o t i o nc o m p e n s a t i o ni sw h a ti sc a l l e dt h ef u l ls e a r c ho r t h ee x h a u s t i v es e a r c h i tc a ne x a c t l yg e tt h ev e r ym o t i o nv e c t o lb e c a u s eo fi t sl a r g e c o m p u t a t i o n a lc o m p l e x i t y , p e o p l et r i e dm a n yo t h e rm e t h o d s s o m ea l g o r i t h m sa r e b a s e do nt h en a t u r eo ft h ei m a g ed a t at h a nt h el i m i t a t i o n so ft h eh u m a no b s e r v e r s i t i sb e l i e v e db yt h e s ea l g o r i t h m st h a tv e r yg o o dm a t c h e sa r el i k e l yt ob ef o u n di nt h e v i c i n i t yo fr e a s o n a b l yg o o dm a t c h e s b a s e do nt h eh 2 6 4v i d e oc o d i n gs t a n d a r d ,t h i sp a p e rp r o p o s e san e wa l g o r i t h m f o rf a s tb l o c k m a t c h i n gm o t i o ne s t i m a t i o n c o n s i d e r i n gt h er e l a t i v i t yb e t w e e nt h e f r o n tf r a m ea n dt h eb a c kf r a m e ,u s i n gs k i pp a t t e r na n dc o m p a r i n gt h er d c o s to ft h e b l o c k ,d e s i d et h eb e s tm o d ei na d v a n c e t h i sp a p e rp r o p o s e san e wa l g o r i t h mf o rf a s t m o t i o ns e a r c h - - d i a m o n d h e x a g o n - s q u a r es e a r c h i tc o m b i n e st h ea d v a n t a g eo fb o t h t t s h sa n dd sa n dm a k e st h es e a r c hr e s u l tm o r ee f f e c t i v e i ta l s om a k e st h e c o m p u t a t i o n a lc o m p l e x i t ym o r ea c c r e t i v e i t sc e n t r a li d e ai s b a s e do nt h ec l a s s i c d i a m o n d s h a p e d ,a n dt h es t r e n g t h sa n dw e a k n e s s e so fo t h e rf a s ts e a r c ha l g o r i t h m , c o m b i n e dw i t ht h ee x i s t i n gv i d e oa p p l i c a t i o n s ,u n d e rt h ep r e m i s et h a tt h er u n n i n g t i m ea n dc o m p u t a t i o n a lc o m p l e x i t yf i ti n 丽t ht h er e q u i r e m e n t so fr e a l - t i m ep r e m i s e , p r o p o s e dan e wa l g o r i t h mh a v i n gr e l a t i v e l yg o o dr e s u l t si nv i d e oc o m p r e s s i o nf o r s e q u e n c e s 谢t l lv a r i o u sd e g r e e so fm o v e m e n t ,e s p e c i a l l yt h em o r ev i o l e n ts p o r t s v i d e o w i t ht h ep r o g r a ms i m u l a t i o ni nt h ep ca n do p t i m i z a t i o no ft h eo r i g i n a lb e f o r e t h ea l g o r i t h mf o rc o m p a r i s o n ,m ya n a l y s i sp r o v ei t sf e a s i b i l i t y t h i sp a p e ra n a l y z e st h em a i nf a c t o r sw h i c ha f f e c tt h et w on e wa l g o r i t h m s p e r f o r m a n c ea n di l l u s t r a t e st h ep r i n c i p l eb yw h i c hs o m ei m p o r t a n tp a r a m e t e r sc a l lb e 武汉理工大学硕士学位论文 e v a l u a t e d a c c o r d i n gt ot h ep r o g r a m m i n g ,e x p e r i m e n ta n da n a l y s i so ft h ea l g o r i t h m , i th a sg o o de f f i c i e n c y k e y w o r d s :v i d e oc o d e ,m o t i o ne s t i m a t i o n , a l g o r i t h mf o rf a s tb l o c k - m a t c h i n g , d i a m o n d - h e x a g o n s q u a r es e a r c h i i i 独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽 我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过 的研究成果,也不包含为获得武汉理工大学或其它教育机构的学位或证书而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了 谢意。 一 期:立翌多i l 生 关于论文使用授权的说明 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即学校有权保留、送交 论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用 影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:二陛导师签名: 日期:塑墨:! 兰:! ! 武汉理工大学硕士学位论文 1 1 研究背景 第1 章绪论 长期以来,人类在自然界感受到的最主要的信息来源于视觉。据统计,其 中视觉约占6 0 ,听觉约占2 0 t 。古人说过:百闻不如一见。可见视觉信息在 多种信息中占有的重要地位。在多媒体信息中,图像信息带给人们直观、真实 的感觉。但与文字和语音信息不同的是,图像信息一般来说占有的频带较宽, 尤其是活动图像,同时视频数据冗余度最大,经压缩处理后的视频质量高低是 决定多媒体服务质量的关键因素。因此数字视频技术是多媒体应用的核心技术。 数字信号有很多优点,但当模拟信号数字化后其频带大大加宽,一路6 m h z 的 普通电视信号数字化后,其数码率将高达1 6 7 m b p s ,对储存器容量要求很大, 占有的带宽将达8 0 m h z 左右,这样将使数字信号失去实用价值。数字压缩技术 很好地解决了上述困难,压缩后信号所占用的频带大大低于原模拟信号的频带。 因此说,数字压缩编码技术是使数字信号走向实用化的关键技术之一。 很显然,在几乎所有涉及到数字图像存储和数字图像传输的应用中都需要 进行有效地数字压缩。例如,一页a 4 大小的文档,用3 0 0 d p i 的分辨率进行二 值扫描,则扫描图像大小约为1 m b ,如果不经压缩,要在9 6 0 0 波特的电话线上 传输要1 5 m i n ;一幅6 4 0 4 8 0 像素的彩色图像,一个像素用2 4 b f f 表示,也需要 0 9 2 m b 的存储空间;用1 2 微米的分辨率扫描一片3 5 m m 的电影胶片,得到的 数字图像的大小为3 6 5 6 像素2 6 6 4 线,每个像素用2 4 b f f 表示,大约需要2 9 m b 的空间;那么这样一来,一张存储空间为6 0 0 m b 的c d 满额使用时,如果图像 不压缩,则只能存6 0 0 页文档,或者2 1 幅3 5 m m 电影胶片的彩色扫描图片,又 或者3 0 s 左右2 0 m b 的p a l 制视频图像。这样大的文件格式是我们很难接受的【2 】o 众所周知,图像信号的数字化在制作、复制、存储、传输、发射等方面具 有一系列优点,然而数字化的图像数据量却相当庞大。例如:根据c c i r6 0 1 建 议,电视演播室数字电视的分量编码亮度信号,色度信号在抽样频率分别为 1 3 5 m h z 和6 7 5 m h z 并采用8 b i t 量化时,总码率= ( 1 3 5 m h z + 6 7 5 m h z x 2 1 8 b i t s = 2 1 6 m b i t s 。这样大的数据量将给存储器的存储容量,传输信道的传输率 武汉理工大学硕士学位论文 ( 带宽) 及计算机的处理速度等方面增加极大的压力,为解决这些问题,人们开展 了图像压缩编码工作的研究。对视频编码的研究已成为信息技术领域的热门话 题研列引,表1 1 列出了各种应用的码率。 视频编码的主要目的是,在保证质量的前提下,经尽可能少的比特数来表 征视频信息。整个处理过程的核心思想是降低视频序列存在的大量冗余信息, 这些信息包括时域冗余,空域冗余,编码冗余,结构冗余,知识冗余和视觉冗 余1 5 1 1 6 等等。 表1 1 各种视频的码率 应用 像素像素行行帧帧秒亮色比压缩前压缩后 种类 h d t v81 9 2 01 0 8 03 04 :1 :11 1 8 g2 0 2 5 m 普通 电视 8 7 2 04 8 0 3 0 4 :l :1 1 6 7 m 4 8m 会议电 83 5 22 8 83 04 :1 :l3 6 5 m1 5 2 m 视c 桌上 电视 81 7 61 4 43 04 :1 :19 1m1 2 8 k q c 电视 电话 8 1 2 81 1 23 04 :l :15 2m5 6 k 基于这些大量的冗余信息,人们分别提出了许多编码方式,主要有预测编 码、统计编码及变换编码。预测编码中的帧内预测编码是基于空间冗余的,帧 间编码是基于时间冗余的。统计编码中应用最广的有哈夫曼编码( h u f f m a n c o d i n g ) 、算术编码、游程编码【_ 7 】i 矾。变换编码除正交变换编码外,还有子带编码 9 1 和小波编码l l o j 。 新一代视频编码标准h 2 6 4 a v c 视频编码标准同时采用基于宏块的混合编 码结构,并在宏块编码时采用率失真优化策略,在多种编码模式中脱颖而出, 使得编码效率取得了最佳。然而,h 2 6 4 a v c 定义的宏块类型较多帧内9 种,帧间7 种,再加上运动估计搜索算法的自身特点及各种精细预测技术的采 用,导致了计算复杂度成倍增加,编码时间大大增长。这也是为了降低码率, 提高视频序列质量所要付出的代价。如果能够事先确定或者减少这些宏块的选 择范围,以及使用一种快速的运动估计算法,同时不会降低视频序列的质量, 这样的帧间快速模式选择及运动搜索算法的研究,对于h 2 6 4 a v c 的发展及应 2 武汉理工大学硕士学位论文 用就有着一定的积极意义,这也是本论文研究内容的出发点。 1 2 主要视频编码标准 标准化是产业化活动成功的前提,i t u t 与i s o i e c 是制定视频编码标准 的两大组织,i t u t 的标准包括h 2 6 1 ,h 2 6 3 ,h 2 6 4 ,主要应用于实时视频通 信领域,如会议电视。m p e g 系列标准是由i s o i e c 制定的,主要应用于视频 存储( d v d ) 、广播电视、因特网或无线网上的流媒体等。两个组织也共同制定了 一些标准,h 2 6 2 标准等同于m p e g 2 的视频编码标准,而最新的h 2 6 4 标准则 被纳入m p e g 4 的第1 0 部分。 1 2 1m p e g 标准 国际标准化组织i s o 于1 9 8 8 年就成立了一个致力于制定有关运动图像编码 的组织m p e g ( m o v i n gp i c t u r ee x p e r t sg r o u p ) 。1 9 9 2 年m p e g 正式推出了 m p e g 1 标准草案,1 9 9 3 年正式通过。最近几年,由于多媒体技术、数字电视 技术、多媒体通信以及交互式电视技术的发展,明显感到m p e g 1 在视频音频 分辨率和传输率方面已不能满足要求,所以i s o i e c 在1 9 9 4 年又推出了 m p e g 2 运动图像极其伴音通用压缩编码标准。该标准分为三大部分:系统、视 频、音频。以后相继又推出了m p e g 4 、m p e g 7 等针对不同应用的多种标准。 m p e g 1 标准由三个部分组成,它包括m p e g 1 视频m p e g 1 音频和 m p e g 1 系统。m p e g 1 视频的目标是将格式为3 5 2 2 8 8x2 5 ( 图像帧速为每秒 2 5 帧,每帧图像的有效扫描行数为2 8 8 行,每行的有效像素为3 5 2 像素) 或3 5 2 2 4 0 x 3 0 的电视图像和伴音进行压缩,达到传输速率大约为1 5 m b p s 的编码, 其压缩算法主要采用减少帧内空间冗余的d c t 变换技术和减少连续帧之间时间 冗余的运动补偿技术,压缩比最大可达2 0 0 :1 。m p e g 1 音频一般采用4 4 1 k h z 或4 8 k h z ( 也可以采用3 2 k h z ) ,且定义了三个质量层次,具有不同的编码和解码 方式。其中,第三层去除了节目源中人耳听觉阈值以外的所有信号,并将大信 号掩盖下的小信号也除去。由于人耳具有掩盖效应,因此,这种变化基本上察 觉不出来,实际记录的信息量就比压缩前小得多,其压缩比可达到1 0 1 - 9 6 1 。 这样,一张只能容纳十几首歌曲的光盘,就可记录1 5 0 首以上第三层编码的歌 曲,这就是我们现在普遍使用的m p 3 音乐。 3 武汉理工大学硕士学位论文 m p e g 2 ,即“动态图像和伴音的通用编码标准,它的目标是将格式为7 2 0 x5 7 6 2 5 或7 2 0 4 6 0x3 0 的广播级视频图像进行压缩,达到传输速率为 3 1 5 m b p s 的编码。它是目前使用的高清晰度电视h d t v 、d v d 和数字电视广 播等数字视频压缩的标准。 m p e g 4 标准是可以支持低比特率多媒体通信和访问的处理方式,它更具 有交互性、灵活性和扩展性。它采用人工智能和音像合成技术,以极高的压缩 率实现精确再现画面。 1 2 2h 2 6 x 标准 h 2 6 x 和m p e g 都是应用最广泛的视音频压缩国际标准。其中h 2 6 x 是运 动图像编码标准,而m p e g 则主要包括m p e g 视频,m p e g 音频和m p e g 系统 ( 视音频同步) 3 个部分的标准。h 2 6 x 和m p e g 既有区别又有紧密的联系,特别 是h 2 6 2 和h 2 6 4 ,它们既是i t u t 制定的标准,又分别是i t u t 与i s o i e c 联合制定的m p e g 2 和m p e g 4 的组成部分。 h 2 6 1 是i t u t 为在综合业务数字网( i s d n ) 上开展双向声像业务( 可视电话、 视频会议) 而制定的,速率为6 4 k b s 的整数倍。h 2 6 1 只对c i f 和q c i f 两种图 像格式进行处理,每帧图像分成图像层、宏块组( g o b ) 层、宏块( m b ) 层、块( b l o c k ) 层来处理。h 2 6 1 是最早的运动图像压缩标准,它详细制定了视频编码的各个部 分,包括运动补偿的帧间预测、d c t 变换、量化、熵编码,以及与固定速率的 信道相适配的速率控制等部分。 h 2 6 3 是最早用于低码率视频编码的i t u t 标准,随后出现的第二版( h 2 6 3 + ) 及h 2 6 3 + + 增加了许多选项,使其具有更广泛的适用性。h 2 6 3 是i t u t 为低于 6 4 k b s 的窄带通信信道制定的视频编码标准。它是在h 2 6 1 基础上发展起来的, 其标准输入图像格式可以是s q c i f 、q c i f 、c i f 、4 c i f 或者1 6 c i f 的彩色4 : 2 :o 亚取样图像。h 2 6 3 与h 2 6 1 相比采用了半像素的运动补偿,并增加了4 种有效的压缩编码模式。 h 2 6 4 是由i s o i e c 与i t u t 组成的联合视频组( j v t ) f l ;l j 定的新一代视频压 缩编码标准。事实上,h 2 6 4 标准的开展可以追溯到8 年前。1 9 9 6 年制定h 2 6 3 标准后,i t u t 的视频编码专家组( v c e g ) 开始了两个方面的研究:一个是短期 研究计划,在h 2 6 3 基础上增加选项( 之后产生了h 2 6 3 + 与h 2 6 3 + + ) ;另一个是 长期研究计划,制定一种新标准以支持低码率的视频通信。长期研究计划产生 了h 2 6 l 标准草案,在压缩效率方面与先期的i t u t 视频压缩标准相比,具有 4 武汉理工大学硕士学位论文 明显的优越性。2 0 0 1 年,i s o 的m p e g 组织认识到h 2 6 l 潜在的优势,随后i s o 与i t u 开始组建包括来自i s o a e cm p e g 与i t u tv c e g 的联合视频组( t ) 。 t 的主要任务就是将h 2 6 l 草案发展为一个国际性标准。于是,在i s o a e c 中该标准命名为a v c ( a d v a n e e dv i d e oc o d i n g ) ,作为m p e g 4 标准的第1o 个选 项,在i t u t 中正式命名为h 2 6 4 标准。 从这些编码标准来看,初步解决了静止图像、可视电话、多媒体视频乃至 h d t v 的压缩编码的需要。从所采用的技术来看,都采用了最基本的编码技术, 通过组合应用,达到了预期的编码效果。 1 3 本文内容安排 本文对视频编码的原理和标准进行了介绍,并详细讲述了最新的h 2 6 4 a v c 视频编码标准的特点与关键模块。 本文的主要研究内容目标在于在保证p s n r 不变或降低值可忽略的范围内 尽量降低运动估计和运动补偿的复杂度,同时在计算复杂程度允许的条件下, 提高运动估计的压缩性能,从而得到快速并且有效的算法。 作者在此基础上结合现有的多种算法进行分析,优化了帧间模式选择算法, 并提出一种新运动搜索算法,并通过实验进行了验证。 第一章:绪论。介绍本文的研究背景,当前研究情况及研究意义和论文安 排。 第二章:图像压缩原理。介绍了压缩原理和a v c 标准的编解码流程及各个 模块的原理和实现,应用范围等信息。着重分析了帧间预测算法的特点。 第三章:帧间模式选择算法的研究与优化。介绍了改进型算法的算法思想 和算法流程,并通过实验验证结果。 第四章:运动估计算法的研究。针对现有的各种运动估计搜索算法进行深 入的研究,分析其优势与劣势,分析其适用的范围。为提出新算法打下研究基 础。 第五章:改进的运动搜索算法。介绍了改进后的运动搜索算法的算法思想 与算法流程,并以实验验证新算法的编码效果。 第六章:总结与展望。对所做的工作进行总结和分析,并为下一步研究提 供建议和参考。 武汉理工大学硕士学位论文 第2 章图像压缩原理 图像压缩是指以尽可能少的比特数代表图像或图像中所包含信息的技术。 压缩方案可以是保持原信息,即可从压缩图像中没有误差地重建原图像;也可 以是非信息保持的,即允许与原图像有某种合理程度的失真 4 1 。 2 1 图像压缩基本原理 由于电视信号数字化后码率太高,必须先对数据进行压缩编码,然后再进 行存储和传输【3 】。压缩编码的主要任务,就是要在人眼不能察觉有失真条件下, 尽可能采用比较简单有效的编码方法,降低码率。图像数据的压缩机理来自两 个方面。一是利用图像中存在大量冗余度可供压缩,二是利用人眼的视觉特性。 为了提出有效的数据压缩方法,首先必修搞清楚图像数据中存在哪些冗余。 空间冗余:在同一幅图像中规则的物体和规则的背景都具有很强的相关性, 称之为空间冗余。 时间冗余:在图像序列中的两幅相邻的图像之间有较大的相关性,称之为 时间冗余。 结构冗余:有些图像从大域上看存在着非常强的纹理结构。图像压缩正是 通过压缩掉这些冗余,才使得压缩后的文件大小比原文件大小要小,便于传输。 视觉冗余:图像最终是由人观看的,人眼的视觉特性是图像压缩编码的另 一个重要根据。人眼的视觉系统对于图像的注意是非均匀和非线性的,图像的 编码和解码处理尽管引入了噪声使图像发生了变化,但这些变化结果不一定被 视觉所察觉。称之为视觉冗余。 2 2 有损和无损压缩 数据压缩是通过消除数据冗余来实现的,比如说,对于数据重构过程中无用 的数据。很多种数据都有统计上的冗余,它们就可以通过无损压缩进行有效的 压缩,这样的标准比如说j p e g l s ,它可以达到3 4 倍的压缩。有损压缩可以 6 武汉理工大学硕士学位论文 达到更高的压缩比。 无损压缩( 如t i f f 文件的l z w 算法) 是对文件本身的压缩,原理和其它数 据文件的压缩一样,是对文件的数据存储方式进行优化,采用某种算法表示重 复的数据信息,文件可以完全还原,不会影响文件内容。由于无损压缩只是对 数据本身进行优化,所以压缩比例有限。 有损压缩是对图像本身的改变。在有损压缩系统中,解压数据与源码流数 据是不同的,高压缩率是通过视频质量的下降来达到的。有损视频压缩系统是 建立在删除主观冗余的原理之上的,从图像或视频中删掉的部分不会很大程度 上影响观察者对于视频质量的认识的【l 。 j p e g 就是这种压缩方式。我们知道图像色彩用h s b 色系表示时有三个要 素:亮度( b ) 、色调( h ) 和色饱和度( s ) ,而人眼对于亮度的敏感程度远远高于其它 二者,也就是说,只要亮度不变,稍微改变色相和色纯度,人们难以察觉。j p e g 压缩正是利用了这样的特点,在保存图像时保留了较多的亮度信息,而将色调 和色饱和度的信息和周围的像素进行合并,合并的比例不同,压缩的比例也不 同,由于信息量减少了,所以压缩比可以很高。因为有损压缩不能完全还原原 始信息,所以打开压缩过的图片再次存储,损失会累积,图像质量会进一步下 降。 有损压缩有两种基本的有损压缩机制:一种是有损变换编解码,首先对图 像或者声音进行采样、切成小块、变换到一个新的空间、量化,然后对量化值 进行熵编码。另外一种是预测编解码,先前的数据以及随后解码数据用来预测 当前的声音采样或者或者图像帧,预测数据与实际数据之间的误差以及其它一 些重现预测的信息进行量化与编码。有些系统中同时使用这两种技术,变换编 解码用于压缩预测步骤产生的误差信号。h 2 6 4 是由c c i t t ( 国际电报电话咨询 委员会) 通过的用于音频视频服务的视频编码解码器( 也称p x 6 4 标准) ,它就 使用了上两种类型的压缩方式。 有损方法经常用于压缩声音、图像以及视频。有损视频编解码几乎总能达 到比音频或者静态图像好得多的压缩率( 压缩率是压缩文件与未压缩文件的比 值) 。音频能够在没有察觉的质量下降情况下实现1 0 :1 的压缩比,视频能够在 稍微观察质量下降的情况下实现如3 0 0 :1 这样非常大的压缩比。 总的来说,压缩比越大,压缩后的码率就低,分辨率相对也低;反之亦然。 图像的压缩是有损的,可能产生压缩失真。目前,已实际使用的活动图像压缩 7 武汉理工大学硕士学位论文 编码后的码率低到几至几十k b i t s ,广播级的图像码率一般为2 6 m b i t s 。 h 2 6 4 和m p e g 4 视频标准共用了一部分特征。这两种标准都假设了一种 以块( b l o c k ) 为基础的运动补偿,变换,量化和熵编码。我们主要关注到这些主要 的方法中,并从时间模型开始,接下来是图像变换,量化,预测式编码和熵编 码。并以对于一个图像采样块进行编码和解码的过程进行描述。 2 3h 2 6 4 视频编码标准技术 h 2 6 4 在编码框架上还是沿用之前的m c d c t ( m o t i o nc o m p e n s a t i o n d i s c r e t ec o s i n et r a n s f o r m ) 结构,即运动补偿加变换编码的混合( h y b r i d ) 结构【1 2 1 3 】, 因此它保留了一些先前标准的特点,如不受限制的运动向量( u n r e s t r i c t e dm o t i o n v e c t o r s ) ,对运动向量的中值预测( m e d i a np r e d i c t i o n ) 等。同时,一些新的技术 的使用,使得h 2 6 4 a v c 比之前的视频编码标准在性能上有了很大的提高【1 3 】。 应当指出的是,这个提高不是单靠某一项技术实现的,而是由各种不同技术带 来的小的性能改进进而共同产生的。 2 3 1 编解码器简介 h 2 6 4 编码器如图2 1 所示,包括了两个数据流路径:前向路径和重建路 径。为了突出编解码器的相似之处,解码器的数据流路径由右向左显示( 虚线) 。 f ni+ 、d n 雨覆 当莆i n 一t i 7 - 。_ 可1 芒五、 塑一一r p j 露一噬卜 一一 ?帧内 j; 鑫| + 一牌卜三曼害# 率警 图2 - 1h 2 6 4 a v c 的编码器框图n 钔 8 武汉理工大学硕士学位论文 ( 1 ) 编码器( 前向路径) 在编码端,f n 表示当前输入帧。帧以宏块为单位进行处理( 对应原始图像 的1 6 1 6 个象素) 。每个宏块都按帧内或帧间模式进行编码。在任何一种情况 下,都由重建帧得到一个预测宏块p 。在帧内模式下,p 是由当前帧第n 帧 中已进行编码、解码和重建的采样点构建的( 在图2 1 中重建的采样点用pf n 7 表示,使用未滤波的采样点构建p ) 。 在帧间模式下,预测宏块p 由一个或多个参考帧通过运动补偿预测进行构 建。在图中参考帧是作为已编码的帧f n 1 出现的。每个宏块可由一个或多个已经 进行编码和重构的前帧或后帧( 以时间为顺序) 预测得到。将预测宏块p 从当 前宏块中减去,得到一个残差宏块d n 并对它进行变换、量化,得到x 。对变换 系数x 重新排序而后进行熵编码。熵编码后的系数与附加信息用来从压缩的比 特流中解出宏块( 比如宏块的预测模式、量化步长、运动矢量信息等等) 。这些 都被递交给网络提取层( n a l ) 进行传输或存储。 ( 2 ) 解码器 解码器从网络提取层接收压缩的比特流。对数据元素进行熵解码、重排序 得到一组量化后的系数x 。而后再对x 进行反变换,得到d n 7 ( 它与编码器中 所示的d n 相同) 。解码器用从比特流中解出的头信息,构建预测宏块p ,它与 编码器中的预测宏块p 相同。p 与d n 相加得到1 tf n ,再经过去方块滤波得到 重建解码宏块f n7 。 从图2 1 和以上的论述中我们可以看出,编码器中的重建路径是为了确保 编码器与解码器使用相同的参考帧构建预测宏块p 。否则,编、解码器中的预 测宏块p 将会不同,从而导致编解码器之间的误差累积和“漂移( d r i f t ) ”现象。 此外h 2 6 4 标准中还支持数据分害j j ( d a t ap a r t i t i o n ) ,即将各个宏块中的同种 类型数据集中放在一起传输。例如:可以将一个s l i c e 中所有宏块的直流系数放 入一个包,所有运动矢量放入另一个包,剩余的数据放入一个包。这样在传输 出错的情况下,有利于解码端进行误码掩盖。 2 3 2 帧内预测 帧内编码是指只利用视频图像内的空间冗余度来优化编码。采用这种编码 方式得到的图像帧被称作i 帧。根据s l i c e 编码类型的不同,每个宏块都可以以 几种编码类型中的一种进行传输。在所有s l i c e 编码类型中,h 2 6 4 支持以下类 9 武汉理工大学硕士学位论文 型的帧内编码:i n t r a4 4 、i n t r a1 6 1 6 和ip c m 三种预测模式,其中i n t r a4 4 、i n t r a1 6 1 6 还附加有色度预测。 i n t r a4 x 4 模式对每个4 x 4 亮度块都单独进行预测,它对图像部分区域的 细节描述效果很好。i n t r a1 6 1 6 模式则对整个1 6 x1 6 的亮度块进行预测,它 更适合于图像中平滑区域的编码。除了这两种亮度预测模式,还有单独的色度 预测。作为i n t r a1 6 x1 6 模式和i n t r a4 4 模式的替代,ip c m 编码模式允许 编码器简单的回避。 1 - 1 6 1 6 亮度块:4 种模式 l 色度块t4 种模式 图2 2i 帧预测模式选择 以前的视频编码标准中帧内预测通常在变换域进行,而在h 2 6 4 中,预测通 常用已进行编码的相邻块的采样点预测( 一般是预测块的上方或左方的块) ,在 空间域进行。在存在传输错误并导致帧间编码宏块出错的环境,这种做法可能 导致错误扩散。在这种情况下,我们可以采取严格的帧内编码模式,要求参与 预测的相邻宏块必须是以帧内模式编码的。使用i n t r a4 4 模式时,每个4 4 块是从空间相邻的采样点预测的,如图2 3 中左图所示。4 4 块的被标作a p 的1 6 个采样点是通过已解码的相邻块的采样点a q 预测的。除了“d c ”预测 ( 使用一个值来预测整个4 4 块) ,8 个方向的预测模式如图2 3 中右图所示。 这些模式适用于预测图像中有方向性的结构,比如各种角度的边缘。 fgh | 缓 砀p 图2 - 3 帧内4 4 预测 1 0 频趸轰 频 低 高 流 啼 埴 ,0 帧 武汉理工大学硕士学位论文 表2 1 表示了9 种i n t r a4 4 预测模式。图2 4 画出帧内4 4 亮度预测块 9 种模式中的4 种。模式0 ( 垂直预测) 如箭头所示,是将4 4 块上方的采样 点复制到块中。模式1 ( 水平预测) 与垂直预测相似,它是将4 4 块左边的采 样点加以拷贝。模式2 ( 直流预测) 相邻的采样点取平均,模式3 和4 ( 对角 线预测) 如图所示。余下的4 种模式是对角线预测模式,分别被称为 v e r t i c a l d g h t ,h o r i z o n t a l d o w n ,v e r t i c a l 1 e f t ,和h o r i z o n t a l u p 预测。如它们的 名字,它们适用于预测相应特殊方向的结构。 0v e r t i c a l1h o r i z o n t a l a bcn rl fi g1 1 4i i 1 t k l , t , = 3d ia g o n a l - 。d o m a 。le f t m abcd ei f i g i h i- t k 。, l00 。 m a b c d ei fi g i hl i “ t - - 7 - k l r l二。 a b c defg h i 、 t k 。 l、 、 图2 - 4 帧内4 4 预测模式 当使用i n t r a1 6 1 6 模式时,宏块中的所有亮度成分都被预测。支持四种 预测模式。预测模式0 ( 垂直预测) ,模式l ( 水平预测) ,和模式2 ( 直流预 测) 与i n t r a4 x 4 预测模式相似,只不过i n t r a4 4 预测模式是用每个边上的4 个相邻点来预测4 4 的块;而i n t r a1 6 1 6 预测模式是用每个边上的1 6 个相邻 点来预测1 6 1 6 的块。 表2 - 1 预测模式描述 模式描述 模式0 ( 垂直)由a 、b 、c 、d 垂直推出相应像素值 模式1 ( 水平)由i 、j 、k 、l 水平推出相应像素值 模式2 ( d c )由a d 及i l 平均值推出所有像素值 模式3 ( 下左对角线)由4 5 。方向像素内插得出相应像素值 模式4 ( 下右对角线)由4 5 。方向像素内插得出相应像素值 模式5 ( 右垂直)由2 6 6 。方向像素内插得出相应像素值 模式6 ( 下水平)由2 6 6 。方向像素内插得出相应像素值 模式7 ( 左垂直) 由2 6 6 。方向像素内插得出相应像素值 模式8 ( 上水平)由2 6 6 。方向像素内插得出相应像素值 武汉理工大学硕士学位论文 宏块中的色度采样点的预测使用与i n t r a1 6 1 6 亮度成分相似的预测技术, 因为色度信号通常在很大范围内都很平滑。为了保证所有s l i c e 之间相互独立, 当跨越边界时不使用帧内预测。 2 3 3 帧间预测 与以往的标准一样,h 2 6 4 使用运动估计和运动补偿来消除时间冗余,但是 它具有以下五个不同的特点: ( 1 ) 预测时所用块的大小可变 由于基于块的运动模型假设块内的所有像素都做了相同的平移,在运动比 较剧烈或者运动物体的边缘处这一假设会与实际出入较大,从而导致较大的预 测误差,这时减小块的大小可以使假设在小的块中依然成立。另外小的块所造 成的块效应相对也小,所以一般来说小的块可以提高预测的效果。为此,h 2 6 4 中一个1 6 x 1 6 的编码宏块可以分为不同的子块,形成7 种不同模式的块尺寸, 如图2 5 所示,与仅使用1 6 x 1 6 块进行预测相比,使用不同大小和形状的块可 以使码率节省1 5 以上【1 6 1 。 ( 2 ) 更精细的预测精度 在h 2 6 4 中,l u m a 分量的运动矢量( m v ) 使用1 4 像素精度。c h r o m a 分量 的m v 由l u m a m v 导出,由于c h r o m a 分辨率是l u m a 的一半( 对4 :2 :0 ) ,所以其 m v 精度将为1 8 ,这也就是说1 个单位的c h r o m am v 所代表的位移仅为c h r o m a 分量取样点间距离的八分之一。如此精细的预测精度较之整数精度可以使码率 节省超过2 0 1 1 6 】。 宏块 1 6 1 6 1 6x88 1 68 8 口日田田 模式1模式2 模式几武入 琳曲自曲豳琳口日田田 模式唾模式5模式6模式7 图2 - 5 七种宏块分割模式 1 2 武汉理工大学硕士学位论文 ( 3 ) 多参考帧 h 2 6 4 支持多参考帧预测,即可以有多于一个的在当前帧之前解码的帧可以 作为参考帧产生对当前帧的预澳t j ( m o t i o n c o m p e n s a t e dp r e d i c t i o n ) 。这适用于视频 序列中含有周期性运动的情况。采用这一技术,可以改善运动估计( m o t i o n e s t i m a t i o n ,m e ) 的性能,提高h 2 6 4 解码器的错误恢复能力,但同时也增加了缓 存的容量以及编解码器的复杂性。不过,正如引言中所说,h 2 6 4 的提出是基于 半导体技术的飞速发展,因此这两个负担在不久的将来会变得微不足道。较之 只使用一个参考帧,使用5 个参考帧可以节省码率5 1 0 t 1 6 】。 ( 4 ) d e b l o c k i n gf i l t e r d e b l o c k i n gf i l t e r :即去块效应滤波器,它的作用是消除经反量化和反变换后 重建图像中由于预测误差产生的块效应,即块边缘处的像素值跳变,从而一来 改善图像的主观质量,二来减少预测误差。h 。2 6 4 中的d e b l o c k i n gf i l t e r 还能 够根据图像内容做出判断,只对由于块效应产生的像素值跳变进行平滑,而对 图像中物体边缘处的像素值的不连续给予保留,以免造成边缘模糊。与以往的 d e b l o c k i n g f i l t e r 不同的是,经过滤波后的图像将根据需要放在缓存中用于帧间 预测,而不是仅仅在输出重建图像时用来改善主观质量,也就是说该滤波器位 于解码环中而非解码环的输出之外,因而它又称做l o o pf i l t e r 。需要注意的是, 对于帧内预测,使用的是未经过滤波的重建图像。 ( 5 ) s ps l i c e p 7 】,1 8 】 s ps l i

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论