(通信与信息系统专业论文)mpeg2到h264降空间分辨率转码算法研究.pdf_第1页
(通信与信息系统专业论文)mpeg2到h264降空间分辨率转码算法研究.pdf_第2页
(通信与信息系统专业论文)mpeg2到h264降空间分辨率转码算法研究.pdf_第3页
(通信与信息系统专业论文)mpeg2到h264降空间分辨率转码算法研究.pdf_第4页
(通信与信息系统专业论文)mpeg2到h264降空间分辨率转码算法研究.pdf_第5页
已阅读5页,还剩46页未读 继续免费阅读

(通信与信息系统专业论文)mpeg2到h264降空间分辨率转码算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着多媒体技术的广泛应用及网络技术的迅猛发展,视频编码技术也日趋 成熟,不同编码标准( m p e g 1 、m p e g 2 、m p e g 4 、h 2 6 3 、h 2 6 4 等) 在不同的 时期和不同的背景下应用广泛,为了实现这些视频资源的透明传输和有效共享, 视频转码技术已成为当前国内外研究的热点。 m p e g 2 标准已在数字电视和d v d 等消费电子领域普遍推广,节目资源丰 富,视频质量优良,缺点是数据码率较高,不适合于无线网络的应用。与此同 时,现有的移动终端( 如3 g 手机、个人数字助理p d a 等) 一般均具有显示分辨率 低、芯片处理能力弱等共性,所以,无线网络中传送的视频流应能满足码率低、 分辨率低的要求。而h 2 6 4 作为新一代视频编码标准,具有比特率低,图像质量 高、容错能力强、网络亲和性好等优点,特别适合于无线网络的应用。因此, 面向移动设备的m p e g 2 到h 2 6 4 降空间分辨率转码的研究已成为视频转码中 备受关注的新课题。 本文首先分析了m p e g 2 和h 2 6 4 视频编码标准的关键技术及它们之间的异 同,总结了四种典型转码结构的优缺点,深入研究了转码过程中要解决的两个 关键问题:( 1 ) 运动矢量的合成和修正;( 2 ) 编码模式的选择。在此基础上,提出 了一种基于优化级联式像素域转码结构下的m p e g 2 到h 2 6 4 降空间分辨率的 快速转码算法,该算法通过m p e g 2 解码时产生的有用信息直接实现h 2 6 4 编 码模式选择,省略了占据编码时间7 0 左右的运动估计过程。其创新点主要体 现在以下两个方面: 第一,在图像2 :1 下采用后,8 8 块的合并过程中考虑到了运动矢量( 肘们 的方向性,使合并过程更加精确; 第二,提出了一种利用m p e g 2 解码端a c 系数的组合来划分2 :1 下采样 后的8 x 8 块的方法,使转码过程中考虑到了所有h 2 6 4 编码标准的7 种块模式, 提高了转码质量,且计算量较小,相对容易实现。 实验结果表明,本算法相对于全编全解模式( f u l lm o d e ) ,在视频质量损失 很小的情况下,平均节约8 7 0 2 的编码模式选择时间,有利于实时应用。 关键词:转码,m p e g 2 标准,h 2 6 4 标准,降空间分辨率,模式选择 a b s t r a c t w i t ht h ea b r o a da p p l i c a t i o no fm u l t i m e d i aa n dt h er a p i dd e v e l o p m e n to ft h e i n t e r a c t ,v i d e oc o d i n gt e c h n o l o g yb e c o m em o r ea n dm o r em a r l r e , d j f f 宅l r c n tc o d i n g s t a n d a r d s ( m p e g - 1 、m p e g - 2 、m p e g 4 、h 2 6 3 、h 2 6 4a n ds oo n ) h a v ea b r o a d a p p l i c a t i o nd u r i n gd i f f e r e n tt i m ea n di nd i f f e r e n te n v i r o n m e n t ,i no r d e rt om a k et h e s e v 1 d e or e s o u r c e t r a n s p a r e n tt r a n s m i s s i o na n de f f e c t u a ls h a r e , v i d e o t r a l l s c o d j n g t e c h n o l o g yh a sb e c o m eas t u d yf o c u si n t e r n a t i o n a l l y a l t h o u g hm p e g _ 2s t a n d a r dh a v eb e e nw i d e l yu s e di nd i g i t a lt v a n dd v da n d h a v eal o to fg o o dq u a l i t yv i d e or e s o u r c e s ,b u ti t sb i t r a t et o oh i g h ,n o ts u i t t ot h e a p p l i c a t i o no fw i r e l e s sn e t w o r k a tt h es a m et i m e ,t h em o b i l ed e v i c e ( s u c ha s3 g t e l e p h o n ea n dp d a ) c o m m o n l yh a v el o ws p a t i a lr e s o l u t i o na n db a dc o m p u t i n ga b i l i t y t h e r e f o r e ,t h ev i d e od a t ai nw i r e l e s sn e t w o r km u s th a v el o wb i t r a t ea n dl o ws p a t i a l r e s o l u t i o n b u th 2 6 4a st h en e wg e n e r a t i o nv i d e oc o m p r e s s i o ns t a n d a r dh a v et h e g o o dp e r f o r m a n c e ,s u c ha sl o wb i t e r a t e ,g o o d v i d e oq u a l i t ya n dt r a n s m i s s i o n c r e d i b i l i t y , s u i t a b l ya p p l i e di nw i r e l e s sn e t w o r k s ot h er e s e a r c h0 nm p e g 2t oh 2 6 4 t r a n s c o d i n gw i t hr e d u c i n gs p a t i a lr e s o l u t i o nh a sb e c o m ean e wa t t r a c t i v e t o p i ci n v i d e o t r a n s c o d i n g f i r s t l y , t h i sp a p e ra n a l y z e dt h ek e yt e c h n o l o g yo fm p e g 2a n dh 2 6 4s t a n d a r d c o m p a r e dt h es i m i l a r i t i e sa n dd i f f e r e n c e so ft h e m t h e nd i s c u s s e dt h ea d v a n t a g ea i l d d i s a d v a n t a g eo ft h ef o u rt y p i c a lv i d e ot r a n s c o d e r , r e s e a r c h e dt h e “阳k e yq u e s t i o n s0 f t r a n s c o d i n g :t h ec o m p o s i t i o no fm o t i o nv e c t o ra n dc o d i n gm o d ed e c i s i o n f i n a l l v 强 a l g o r i t h mo fm p e g - 2t oh 2 6 4w i t hr e d u c i n gs p a t i a lr e s o l u t i o nw a sp r e s e n t e d i t u s e dt h eu s e f u li n f o r m a t i o no fm p e g 一2 t oa c c e l e r a t et h ep r o c e d u r eo fh 2 6 4r e c o d i n g , r e d u c e dt h em o t i o ne s t i m a t i o np r o c e d u r ew h i c ht a k e u p7 0 t i m eo fc o d i n g t h e m a i ni n n o v a t i o ni sm a i n l yr e f l e c t e di nt h ef o l l o w i n g : ( 1 ) a f t e rv i d e o2 :1d o w n s a m p l i n g , t h ec o m p o s i t i o np r o c e d u r eo f8 8b l o c k s c o n s i d e r e dt h ed i r e c t i o no fm v , w h i c hm a k e t h ec o m p o s i t i o n p r o c e d u r em o r c a c c u r a t e : i i ( 2 ) p r e s e n t e da l la l g o r i t h mo fu s i n gt h ec o m p o s i t i o no fa cc o e f f i c i e n tt op a r t i t i o n t h e8 8b l o c ka f t e r2 :1d o w n s a m p l i n g ,c o n s i d e r e da l lo ft h es e v e nb l o c km o d eo f h 2 6 4s t a n d a r dd u r i n gt r a n s c o d i n g ,i tc a ni m p r o v et h eq u a l i t yo ft r a n s c o d i n ga n dh a v e l e s sc o m p u t a t i o n ,e a s yt oi m p l e m e n t t h ee x p e r i m e n t a lr e s u l t sd e m o n s t r a t et h a tc o m p a r e dt of u l lm o d ea l g o r i t h m ,i t c a l ls a v e8 7 0 2 o fa v e r a g ec o d i n gm o d ed e c i s i o nt i m ew i t hn e g l i g i b l ed e g r a d a t i o n i nv i d e oq u a l i t y , a n di nf a v o ro ft h er e a lt i m ea p p l i c a t i o n k e y w o r d :t r a n s c o d i n g ;m p e g - 2s t a n d a r d ;h 2 6 4s t a n d a r d ;r e d u c i n gs p a t i a l r e s o l u t i o n ;m o d ed e c i s i o n i i i 独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及 取得的研究成果。尽我所知,除了文中特n j n 以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得 武汉理工大学或其它教育机构的学位或证书而使用过的材料。与我一 同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说 明并表示了谢意。 期: 学位论文使用授权书 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即: 学校有权保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权武汉理工大学可以将本学位论文的 全部内容编入有关数据库进行检索,可以采用影印、缩印或其他复制 手段保存或汇编本学位论文。同时授权经武汉理工大学认可的国家有 关机构或论文数据库使用或收录本学位论文,并向社会公众提供信息 服务。 ( 保密的论文在解密后应遵守此规定) 研究生c 旅吁翩c 忿日期n 一 武汉理l :人学颤- 学位论文 1 1 研究目的和意义 第1 章绪论 随着科学技术的不断进步,人们的通信方式己从传统的书信和电话发展为 现今的可视电话、视频会议等。也就是说,由音频和文字信息交互方式发艇到 了具有确定性和直观性的视频信息交互方式j 。据统计,当前人们通过视觉途径 柬获取信息的比例已选7 0 以上。 在通信技术日益发达的今天,多媒体数据可以通过各种各样的网络( 如电 信网、计算机网、有线电视网) 进行传输,但不同的网葑 存在不同的网络特性 ( 如误码书、信道带宽等) ,同时,接入各个网络的终端设备也是多种多样的, 例如家用电脑、3 g 手机、个人数字助理p d a 、机顶盒等,各种终端的处理能力、 显示能力、支持的解码标准也存在着差异如图1 - 1 所示。这样就需要我们在视 频的传输过程中屏蔽各种差异,使各级用户能够及时正确分享。视频转换编码 ( 简称转码) 就是这样一种技术,它的目的是对压缩后的视频流进行编码格式 的转换,使再处理席的视频流能够满足传输信道和解码终端的特殊要求口j 。其中。 视频的格式包括编码标准、码率、时间分辨率、空间分辨率等。 一一二f 鬣,、 护1 b ( a ) 不同的接x n - 络( b ) 不同的用户终端 罔1 1 异构网络上的通用多媒体访问 m p e g 2 p l 视频压缩编码标准自卜世纪9 0 年代公布以柬已经广泛应用干我 们的h 常生活及产业中,如数宁视频j “播、高清晰度数字f 乜祝( h d t v ) 和家用 d v d 等,且人部分的视频资料也都是以m p e g 2 视频标准压缩存放。但m e p g 2 n 黔蛳 武汉理工大学硕士学位论文 标准压缩后的视频数据码率仍然较高,在带宽受限的情况下并不适合于网络传 输,特别是无限网络下的传输1 4 j 。 h 2 6 4 1 5 l 作为新一代视频压缩编码标准具有比特率低,图像质量高、容错能 力强、网络亲和性好等优点,特别适合于无线网络的应用。与此同时,现如今 在广大消费者中流行的移动终端( 如3 g 手机、个人数字助理p d a 等) 一般均具有 显示分辨率低、芯片处理能力弱等共性,因而,无线网络中传送的视频流应能 满足低码率、低分辨率的要求。所以,面向移动设备的m p e g 2 到h 2 6 4 降空 间分辨率转码的研究具有极大的理论意义和应用价值。 1 2 国内外研究现状 正是由于人们对广大以m p e g 2 编码标准压缩的丰富节目资源和视频数据 的持续需求,以及h 2 6 4 作为新一代视频压缩编码标准的广泛应用,对m p e g 2 到h 2 6 4 视频转码技术的研究已成为一个热点。 实现m p e g 2 到h 2 6 4 的视频转码可分为两个方向:压缩域和像素域。压缩 域转码在视频没有完全解码后就实现了m p e g 2 标准到h 2 6 4 标准的转换,即 转码过程中没有进行i d c t 和d c t 变换,转码速度快,但由于引入了漂移误差, 转码后图像质量较差。像素域转码是对以m p e g 2 标准压缩的视频完全解码后 再进行h 2 6 4 标准编码,转码速度相对较慢,没有漂移误差,转码后图像质量高。 实现压缩域的m p e g 2 到h 2 6 4 转码的关键之一就是如何将m p e g 2 的8x 8 d c t 块转换到h 2 6 4 中4 4 整数d c t 块,文献 6 1 1 7 8 分别提出了三种不同 的方法,文献【6 1 提出的方法峰值信噪比相对于先逆d c t 变换再整数d c t 变换 平均提高了0 2 d b 左右。为了实现进一步压缩码率的作用,可以采用高频截余和 重新量化的方法,由于高频截余丢弃高频d c t 系数后会产生严重偏差,而且码 率不易控制,而重新量化法能够补偿再量化引入的转换偏差,所以现在多采用 重新量化法。文献【9 】分析了引入再量化误差的原因,提出了可变码率和固定码 率转换编码的可选量化方法。文献 1 0 l 假定图像d c t 系数满足拉普拉斯分布的 基础上,提出视频转码中再量化器的设计,文献【7 】提出了一种新的量化步长转 换规则,把m p e g 2 的d c t 系数转换到h 2 6 4 的d c t 系数,计算量减少5 1 1 的情况下p s n r 提高0 1 0 5 d b 。 像素域最简单的转码器可由m p e g 2 解码器和h 2 6 4 编码器级联而成,编解 码过程独立,编码时使用率失真选择算法( r d o ) 进行编码模式选择,该结构 2 武汉理一r 大学硕士学位论文 转码后图像质量高,但转码时间最长,不利于实时运用。目前对像素域转码的 研究通常采用优化的级联结构,即先对以m p e g 2 标准压缩的视频完全解码, 然后利用解码时产生的有用信息( 运动矢量,预测残差等) 加快h 2 6 4 重编码, 省略了占编码时间7 0 左右的运动估计过程,大大提高转码速度。当前针对这 方面的研究主要有以下几种: 文献1 1 1 在m p e g 2 到h 2 6 4 转码中,直接用解码端的运动矢量作为h 2 6 4 重编码时的预测运动向量,并提出了一种“t o p d o w n ”的宏块分割方法进行编码 模式选择,而文献 1 2 贝j j 提出了一种相反的“b o t t o m u p ”的块合并方法,合并过 程中可根据“e a r l y s t o p ”策略提前判决。这两种方法在编码模式选择时都只运 用了运动矢量信息,而没用到预测残差块信息,所以判别精度不高。 文献【1 3 】在2 :1 下采样的m p e g 2 到h 2 6 4 转码时,只考虑到了8 8 块的 合并过程,而没有考虑分割过程,所以转码后图像质量不高,亦不能完全体现 h 2 6 4 编码的优越性,针对以上问题文献 2 1 1 4 通过设定残差阈值来决定是否将 2 :1 下采样后的8 x8 块分割,若分割,则利用率失真选择算法找出最佳块模式, 实现了h 2 6 4 中所有7 种块模式选择,但计算复杂度高。文献1 1 5 1 通过计算解码 残差水平方向系数h 和垂直方向系数v 来对8 8 块进行分割,一定程度上解决 了文献 1 4 1 中计算复杂度高的问题。 文献 1 6 1 提出了编码模式选择的一种新思路,即通过机器学习生成决策树的 方法,直接实现h 2 6 4 的所有编码模式选择。决策树通过将m p e g 2 解码时产 生的宏块信息( 包括编码模式,编码块类型,宏块残差的均值和方差) 和h 2 6 4 独立编码时采用的宏块编码模式信息一起放入w e a k 数据挖掘工具,经过机器 学习算法计算生成。该方法转码速度很快,但转码后图像质量直接依赖于生成 决策树的好坏,且要设定大量阈值,不容易实现。 1 3 本文主要研究内容 本文在大量学习视频编码标准理论,充分研究视频转换编码技术的基础上, 提出了一种m p e g 2 到h 2 6 4 的基于优化级联式像素域转码结构的降空间分辨 率转码算法,在保证相当的视频质量情况下,大大节约了转码过程中的编码模 式选择时间。具体工作包括: ( 1 ) 学习数字视频编码的基本论文,深入研究m p e g 2 和h 2 6 4 视频编码标准 的关键技术,比较它们之间的差异; 3 武汉理工犬学硕十学位论文 ( 2 ) 学习视频转换编码技术的基本原理,并对4 种典型的视频转码结构进行深 入研究,对比分析了它们的转码性能; ( 3 ) 深入研究了m p e g 2 到h 2 6 4 降空间分辨率转码中要解决的关键问题:运 动矢量的合成和编码模式的选择,分析了传统的解决方法及其优缺点,为改进 算法的提出奠定基础; ( 4 ) 提出了一种像素绝对差值和最小的图像2 :1 下采样方法,结果显示能取 得不错的降空间分辨率效果; ( 5 ) 在对以上各种理论和技术深入学习和研究的基础上,提出了一种m p e g 2 到h 2 6 4 降空间分辨率的转码算法,利用m p e g 2 解码时的运动矢量和预测残 差等信息快速实现了h 2 6 4 编码时所有7 种模式选择,实验结果显示,在保证相 当的视频质量情况下,平均节约8 7 0 2 的编码模式选择时间。 1 4 本文章节安排 本文包括五个章节,各章节主要内容如下: 第1 章为绪论,主要介绍了课题研究的目的和意义,该领域国内外研究现 状,本文的主要研究内容以及文章结构。 第2 章介绍数字视频的特点及其编码的基本原理,详细分析了m p e g 2 和 h 2 6 4 两种编码标准,比较了它们之间的异同。 第3 章首先介绍了根据目的不同视频转码的分类,然后详细研究了4 种典 型转码结构,比较了它们转码性能,最后研究了m p e g 2 到h 2 6 4 降空间分辨 率转码中要解决的关键问题,并总结了传统解决方法的优缺点。 第4 章是本文的核心,提出了一种m e p g 2 到h 2 6 4 的降空间分辨率转码 算法,并给出实验结果和对比分析。 第5 章为全文工作的总结和对下一步工作的展望,归纳总结了全文的研究 内容,并提出当前工作的未尽事宜和未来工作的重点。 4 武汉理j = 人学硕士学位论文 第2 章m p e g 一2 与h 2 6 4 编码关键技术 2 1 视频压缩编码的基本原理 数字视频是经过时间和空间采样后的自然景象的视觉表现【4 1 。它具有直观 性、确定性、广泛性和高效性等优点,但同时也具有高带宽性,不利于存储和 实时传输,如一路高清晰度电视信号( h d t v ) 不经压缩传输需要1 g b i t s ,这将是 对有限资源的极大浪费。 2 1 1 预测编码 预测编码是最简单和实用的视频压缩编码方法,其基本思想是编码后传输 的是实际像素值与预测值之差,而不是像素本身的取样值。为什么传输差值能 达到压缩编码的目的呢? 这是因为图像像素间存在广泛的时间和空间相关性, 临近像素之间的差值很小,其差值的概率分布如图2 - 1 所示旧,可见该差值信号 的方差是很小的。由于图像的误差信号删的方差比图像像素本身的方差小很 多,所以量化器的动态范围大为缩小,相应的量化分层数减小,每个像素编码 后的比特数也显著下降,从而达到视频压缩的目的。 o 7 o 5 o 3 、 fl 7i 、 。 武汉理工大学硕士学位论文 2 1 2 变换编码 由于平坦区域和内容缓慢变化区域占据一幅图像的大部分,而细节区域和 内容突变区域占小部分。也就是说,图像中直流和低频区域占大部分,高频区 域占小部分。这样,如果将空间域的图像变换到频域或所谓的变换域,就会产 生相关性很小的一些变换系数,并可对其进行压缩编码,即变换编码【2 】,如k - l 变换和离散余弦变换( d c t ) 等。 预测编码实现相对容易,但编码误差会扩散,对信道的误码率要求要提高, 一般不大于1 0 击。变换编码实现比较复杂,但不会造成误码扩散,其影响只是限 制在一个块内,且反变换后误码会均匀分布在这个块内的各个像素上,对视觉 影响较小,其对信道误码率要求一般不大于1 0 4 即可。现实中大多采用混合编码 方法,即对图像先进行带有运动补偿的帧间预测编码,再对预测后的残差进行 d c t 变换。这种混合编码方法已成为许多视频压缩编码国际标准的基本框架1 1 7 j , 如h 2 6 1 1 引、m p e g 1 1 1 9 】、m p e g 2 、m p e g 4 【2 0 1 、h 2 6 3 2 、h 2 6 4 等。 2 2m p e g 2 编码标准 2 2 1m p e g 2 的档次和等级 m p e g 2 标准的技术规范集由5 个档次和4 个等级组成。档次是定义的不同 编码算法的子集,由低到高可分为简单档次、主档次、信噪比可伸缩档次、空 间可分伸缩挡和高级档次。档次之间有向下兼容性,即较高档次解码器能解码 本档次和较低档次编码的图像。级别主要针对不同图像信源的分辨率,由低到 高分为低级、主级、1 4 4 0 高级和高级。档次和级别的若干组合( 2 0 种可能组合 中已有1 1 种获得通过) 构成了m p e g 2 编码标准在某种特定应用下的子集,即 对某一格式输入图像,采用特定集合的编码工具,便可产生规定速率范围内的 码流。 2 2 2e s 流结构 m p e g 2 基本流( e s ) 有六层结构,自上而下依次为:图像序列层、图像组 层、图像层、片组层、宏块层和子块层,具体结构如图2 2 所示。 ( 1 ) 图像序列层:包含若干图像组,首先为序列起始码,其后的序列头包 6 武汉理工大学硕士学位论文 含档次、级别、图像尺寸、帧率等参数信息。 ( 2 ) 图像组层:包含若干图像,由相互间有预测依赖关系的i 、p 和b 帧组 成,组头包括起始码、g o p 标志等信息。 ( 3 ) 图像层:分为i 、p 和b 三种类型,每幅图像包含若干片,头信息中有 起始码、参考帧号、图像类型、运动矢量等信息。 ( 4 ) 片层:片是最小的同步单位,每个片包含特定数量的宏块集合,片头 包含起始码、量化步长、片地址等信息。 ( 5 ) 宏块层:由1 个亮度块和2 个色度子块组成,宏块头包括宏块类型、 宏块地址和m v 等信息。 ( 6 ) 子块层:由8 8 像素块构成,同一块内的数值必须是单独亮度( y ) 或 色度( c b 或q 信号采样值,是m p e g 2 基本码流的最低层,d c t 变换的基本单 位。 :i s 0 1 1 1 7 2 2 : 广。1 广1 序列 头 2 2 3m p e g 2 的关键技术 :塑:瞥:鳖: 图2 - 2e s 码流结构 序列 结束 m p e g 2 编码标准仅对码流结构和解码器算法规则作了规定,其余均对设计 者开放,因而具有很大的选择性和自由度。相对于m p e g 1 ,m p e g 2 作了很多 扩展和改进,其关键技术如下: ( 1 ) 运动估计和运动补偿 m p e g 2 的i 帧编码中不进行运动估计过程,其原始图像数据直接经过d c t 、 量化器和比特流编码器即可生成编码比特流。p 帧编码采用1 6 x1 6 的块模式进 行运动估计,参考帧数为1 ,采用前向预测方式,用运动矢量来描叙当f ;i 块与参 考块的位置偏移,运动矢量的精度为1 2 像素。b 帧编码与p 帧类似,不同在于 采用双向预测,参考帧数为2 ,其中一帧显示顺序先于当前帧,另帧显示顺序 晚于当前帧。b 帧和p 帧都是将当前图像与预测图像的差值经d c t 、量化器和 7 武汉理j :大学硕士学位论文 比特流编码器后,生成编码比特流。 ( 2 ) 离散余弦变换( d c t ) m p e g 2 编码标准中以8 8 像素块为单位进行d c t 变换。d c t 是一种空间 变换,其特点是能将变换后的能量集中到少数低频d c t 系数上,而高频系数数 值很小或为零,由于图像本身的特点和人眼视觉的关系,只对图像的低频d c t 系数进行编码传输不会对解码图像质量造成严重影响,所以达到了进一步压缩 的目的。 ( 3 ) 量化 量化即是d c t 系数除以量化步长的过程。量化步长越小,量化精度越高, 包含的信息就越多,传输时所需带宽越高。由于人眼视觉对低频d c t 系数较高 频d c t 系数更敏感,所以量化时采用不同量化步长,对低频d c t 系数量化精 度较细,而高频d c t 系数量化精度较粗,其量化步长是恒定增加。 ( 4 ) 之字型扫描与游程编码 由于d c t 系数经量化后其非零值主要集中在8 8 二维矩阵的左上角,所以 在通过之字型扫描后,这些非零系数将排列在一维数组的前部,而后部为零, 为游程编码创造了条件。游程编码只对非零系数进行,用三个量表示,即零的 个数( 称为游程) 、系数值、和最后的位置。完成游程编码后即可进行熵编码。 ( 5 ) 熵编码 熵编码也叫统计编码,是利用信源的统计特性进行码率压缩的一种无损编码 方式。m p e g 2 的熵编码采用的是哈夫曼编码,即对经常发生的大概率信号用较 少的比特表示,而对不经常发生的小概率信号用较长的比特表示,这样总的比 特流长度趋于更短,达到压缩码率的作用。 ( 6 ) 分级服务 为了使m p e g 2 编码后的码流能够适应信道的变化和扩大应用范围, m p e g 2 标准采用三种分级编码方法:信噪比( s n r ) 分级、空间域分级和时间 域分级。以时域分级为例,其低层和高层处理相同的空间分辨率,增强层增强 低层的时间分辨率,并且如果同低层信号再次多路传输,则提供完整的时域速 率,这就是增强层中指明的帧速率。这种分级可为不同用户提供不同质量的服 务。 武汉理下大学硕十学位论文 2 2 4m p e g 2 解码过程 m p e g 2 解码框架如图2 3 所示。解码过程可描述为:首先,从码流缓冲器 中读出m p e g 2 编码后的码流并进行v l c 解码,解出量化后的d c t 系数及运 动向量等信息,然后,将d c t 系数进行反量化和i d c t 变换,将得到的数据同 运动向量及帧存储器中的预测值一起做运动补偿,最后,将运动补偿后的数据 进行图像重排便可以得到原始视频图像。 2 3h 2 6 4 编码标准 2 3 1h 2 6 4 的档次和级 图2 - 3m p e g 2 解码框图 解码 视频 h 2 6 4 规定了3 个档次:基本档次、主要档次和扩展档次。基本档次支持帧 内和p 片帧间编码及基于上下文的自适应变长熵编码( q w l c ) ,在会议电视、 可视电话等实时视频通信中有广泛应用。主要档次支持隔行视频、b 片的帧间编 码和采用加权预测的帧内编码及基于上下文的自适应算术编码( c a b a c ) ,主要 用于数字视频存储和数字广播电视。扩展档次支持数据分割和码流之间有效的 切换( s p 和s i 片) ,但不支持隔行视频和c a b a c ,在流媒体中有广泛运用。每 一档次通过设定不同的参数( 如编码比特率、图像尺寸) ,得到对应编解码器性 能的不同级。 2 3 2h 2 6 4 的编码格式 为同时实现高压缩比和良好的网络亲和性,h 2 6 4 编码可分为两层:视频编 码层( v c l ) 和网络提取层( n a l ) 。其中,v c l 负责高效的数字视频数据压缩, n a l 负责以网络所要求的恰当的方式对数据进行打包和传输,即编码后的v c l 数据在存储或传输前,要先被映射或封装进n a l 单元中。n a l 单元序列结构如 9 武汉理1 二大学硕士学位论文 图2 4 所示,它是由一组m 地头信息和一个原始字节序列负荷( r b s p ) 所组成。 n a l 头 r b s p n a l 头 r b s p n a l 头 r b s p 2 3 3h 2 6 4 的关键技术 图2 4n a l 单元序列 图像视频序列经h 2 6 4 编码后码率约为h 2 6 3 的一半,为m p e g 一2 的1 4 , 如一路m p e g 2 压缩的高清晰度电视( h d t v ) 约需2 0 m b i t s 的带宽,而用h 2 6 4 压缩只要求5 m b i t s 即可,这样传输费用就降为原来的1 4 ,前景诱人。而且h 2 6 4 还具有容错能力强,网络亲和性好的特点,这些都是因为h 2 6 4 在压缩编码时采 用了以下技术: ( 1 ) 帧内预测 h 2 6 4 采用多种不同的帧内预测方法,最大限度的降低了图像的空间冗余信 息。以亮度信号而言,帧内预测有4 x 4 和1 6 x1 6 两种方式,其中4 x 4 方式有 9 中可选的预测模式,如图2 5 所示,其适用于带有大量细节的图像编码,1 6 x 1 6 方式有4 中可选预测模式,如图2 - 6 所示,它适用于平坦区域的预测编码。 1 ( 水平) 2 ( d c ) 耍函困b :c pi 堡 丑重虱回赋c r d ! 曼i 丑堡虱 ! i = = = = t生二 l j 一:j :| ! 凹! a f 嗄a ! 砭 :鉴= = = = 忐匿;k n 垦,_ 卜 世i 二,1 4 ( 下右对角线)5 ( 右垂直) 丽i 矿c d ief ,g 同腋冈盲面i l 蒂1 6 闻 二二二_ 一匣。3 匿0 :臣:特: 塑坌垂直) 一一一巡j 三查! ) , 7 鞘f 删黪尹一。 匡7 : e 二:;:j j 图2 - 54 x4 亮度信号9 种预测模式 图2 - 61 6 x1 6 亮度信号4 种预测模式 1 0 明唑 下c:一,一一g乳二、嘏餐娃 武汉理工人学顽十学位论文 f 2 1 帧间预测 帧阃预测是利用先前己编码的图像作为参考图像对当前图像进行预测的一 种方式。h 2 6 4 帧间预测与以往的标准区别在于:( 1 ) 支持多种块结构的预测( 1 6 1 6 、1 6 8 、8 1 6 、8 8 、8 x 4 、4 x 8 和4 x 4 ) ;( 2 ) 运动矢量精度为1 4 像 素:( 3 ) 多参考帧的运用( 最多可达1 6 帧) 。这些技术的运用能够大大增强预 测精度,减小预测残差,从而缩减编码后的比特率。总体而言,大的分割尺寸 适合于平坦区域或内容变化缓慢区域,小的尺寸适合于多细节区域或内容变化 剧烈区域。如图2 7 所示为老块划分模式与编码残差之问的对应关系。 图2 7 编码残差与宏块划分模式 f 3 ) s p s i 帧的应用 在h 2 6 4 编码中除了i 帧、p 帧和b 帧外,还定义了s p 帧还s i 帧。这是为 了顺应视频流的抗误码性和宽带自适应性的要求。s p 帧也是基于帧问预测的运 动补偿预测编码,它与p 帧的差别在于当使用不同拳考帧预测时,s p 帧允许重 建相同帧。因此,s p 帧可代替i 帧进行比特流切换、随机访问、快进快退、拼 接和误差恢复。因为s p 帧是利用帧问运动补偿进行压缩编码,所以其比特流比 i 帧小很多。s i 帧是基于帧内预测的编码技术,其重构图像的方法与s p 帧类似。 ( 4 ) 整数变换和量化 h 2 6 4 编码标准摒弃了以往标准中的8 x 8 块d c t 变换,而采用4 x 4 整数变 换,避免了失配问题,且只需要加法和位移,运算速度较快。由于变换后的图 像大部分信息集中在低频部分,量化过程采用分级量化,根据图像动态范围的 大小来确定量化参数步长1 25 增加。 f 5 ) 熵编码 在h 2 6 4 标准中,在完成变换与量化之后,这些数据就送往熵编码器,完成 整个变换编码的最后一步。熵编码是一种无损压缩编码方法,它生成的码流可 以经解码器后无失真地恢复原始数掘。h 2 6 4 标准中有两种熵编码方法:基于上 武汉理下大学硕士学位论文 下文的自适应变长编码( q w l c ,用于基本档次和扩展档次) 和基于上下文的 自适应二进制算术编码( c a b a c ,用于主要档次) 。这两种编码方法相对于以前 的编码方法有更高的压缩比,其中,c a b a c 比c a v l c 有更好的压缩性能和自 适应能力。 2 3 4h 2 6 4 的编码过程 h 2 6 4 的编码框图如图2 8 所示,它与以往的编码器基本相似,区别主要体 现在功能块实现细节上。其编码过程可描述为:编码器根据编码开销自适应地 选择编码方式,当选择帧内编码时,编码残差由当前块与相邻已编码重建块的 差值给出,当选择帧间编码时,编码残差由当前块与运动估计过程中选择的预 测块的差值给出,然后将这个差值进行d c t 变换、量化和熵编码后就成为h 2 6 4 编码的码流。在编码过程中,还要进行解码( 将量化后的值经过反量化和i d c t 变换后,与预测值相加,经滤波后得到的重构图像作为后续帧的参考帧) ,以使 编码过程能够不断的顺利进行下去。 图2 8h 2 6 4 编码器框图 2 4m e p g 一2 与h 2 6 4 编码标准比较 通过以上分析,可以发现m p e g 2 与h 2 6 4 都是基于混合编码方式,编解 码过程大致相同,这也是为什么我们可以利用m p e g 2 的解码信息来加快h 2 6 4 编码过程的原因,它们的区别主要体现在功能块的实现细节上,表2 - 1 给出了 m p e g 2 与h 2 6 4 的编码差异。 1 2 武汉理工大学硕士学位论文 表2 - 1m p e g 2 与h 2 6 4 标准比较 2 5 本章小结 本章首先介绍了数字视频信号的基本特点和其压缩编码的基本原理,然后 重点研究了m p e g 2 和h 2 6 4 视频编码标准的关键技术,详细比较了它们在编 码过程中的异同,为后续m p e g 2 到h 2 6 4 转码的研究奠定了基础。 武汉理工人学硕士学位论文 第3 章视频转码技术研究 3 1 视频转码类型 视频转码就是将视频内容的原始格式转换成另一种需要格式的处理技术, 即对某种已压缩编码的视频流进行再处理,使处理后的数据能够满足传输信道 或解码终端对编码比特流的特殊要求【2 3 】。根据实现方法的角度不同,视频转码 可分为时间分辨率转码、空间分辨率转码、码率转码和语法转码。 3 1 1 时间分辨率转码 当终端设备只能处理低帧率的视频数据或传输信道存在特殊要求时,要求降 低视频数据的时间分辨率,实际上就是跳帧。通常在一个图像组中包含有不同 作用的i 帧、p 帧和b 帧,因此在跳帧时决定丢弃哪种类型的帧是非常关键的。 i 帧采用帧内预测编码,编码过程独立,是其后p 帧和b 帧的参考帧,对整个图 像序列的编码质量至关重要,如果跳帧时丢弃i 帧,将使p 帧和b 帧失去参考 帧而必须重新进行运动估计,计算量巨大,且一个g o p 中通常只有一个i 帧, 所以在跳帧过程中一般避免丢弃i 帧;p 帧采用帧间预测编码,前向参考i 帧和 p 帧,同时作为其后p 帧和b 帧的参考帧,丢弃后可能导致其后的p 帧或b 帧 失去参考帧而必须进行运动矢量的重估价,增大了计算量,但如果要求帧率或 码率较低时也可以丢弃p 帧;b 帧采样双向预测,不作为任何帧的参考,所以丢 弃b 帧不影响其它帧的解码,也就不需要进行运动矢量的重估计,大大减少了 转码时间,所以通常可作为丢弃帧,其缺点是b 帧的压缩效率高,丢弃后对进 一步压缩码率起不到明显效果。 通过以上分析可知,跳帧技术的关键问题就是运动矢量的更新,归纳起来有 三种方法:一种是对运动矢量进行双线性内插【2 4 1 ,其缺点是合成的运动矢量不 够精确且需要多存储器来保存所有丢失的运动矢量陋j ;另一种是j e o n g n a my o u n 等提出的前向主控矢量选择法( f d v s ) 1 2 6 】,直接使用覆盖面积最大宏块的运动 矢量来合成新的运动矢量,相对于双线性内插计算量小,且只需要一个存储器 就能处理所有丢失帧的运动矢量;还有一种是前向向量法1 2 7j ,实际上就是f d v s 1 4 武汉理工大学硕十学位论文 的改进方法,是一种基于临近帧运动规律的运动矢量合成方法,该方法比前两 种方法计算量都小,也不需要多存储器保存所有丢失帧的运动矢量。 3 1 2 空间分辨率转码 由于移动终端普遍具有显示分辨率低,芯片处理能力弱的特点,所以当在这 些设备上播放数字视频时,需要对有较高空间分辨率的视频降空间分辨率转码。 而国内外对这方面的研究也比较晚,直到1 9 9 8 年,在文献【2 8 1 中才第一次对视 频编码空间分辨率转换技术进行研究。 降空间分辨率转码主要要解决一下三个方面的问题:第一是宏块的下采样交 换方法,分为频域和空域两个方向;第二是宏块的新的编码模式的选择,不仅 要考虑新的块模式大小,而且当原来4 个相邻宏块中同时存在帧内和帧间编码 模式时,还要自适应地做出帧内帧间模式选择,文献【2 9 】中给出了处理这个问题 的三种方法:z e r o o u t 方法、i n t r a i n t e r 方法和i n t e r - i n t r a 方法;第三是运动矢量 的合成与修正,编码时如果重新进行运动估计会大大增加转码时间,而且通常 是没有必要的,可以利用解码中得到的4 个相邻宏块的运动矢量进行合成,文 献 3 0 1 3 1 1 3 2 均提出了不同的运动矢量合成方法,合成后的运动矢量再在一个小 范围内进行修正,使获得的运动矢量更加精确。 3 1 3 码率转码 码率转码时为了与特定的编码类级相兼容或节省带宽,实现有效传输。例 如,当一个比特率为4 m b i t s 的m p e g 2 视频比特流要通过一个2 m b i t s 的视频 点播信道时,就需要用到码率转码技术将编码比特流将为2 m b i t s 以下。现阶段 对码率转码的研究主要有以下三个方向:第一,转码器结构和码率控制算法; 第二,对压缩域d c t 系数的截取和重量化;第三,如何控制漂移误差。v e t r o a 等【3 3 j 对m p e g 2 编码视频流的码率变换进行了比较全面的研究。 3 1 4 语法转码 语法转码指的是不

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论