(计算机软件与理论专业论文)avs与mpeg2视频转码技术的研究与实现.pdf_第1页
(计算机软件与理论专业论文)avs与mpeg2视频转码技术的研究与实现.pdf_第2页
(计算机软件与理论专业论文)avs与mpeg2视频转码技术的研究与实现.pdf_第3页
(计算机软件与理论专业论文)avs与mpeg2视频转码技术的研究与实现.pdf_第4页
(计算机软件与理论专业论文)avs与mpeg2视频转码技术的研究与实现.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

(计算机软件与理论专业论文)avs与mpeg2视频转码技术的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 数字视频是多媒体时代信息传播的理想载体,但海量的视频数据需要进行压 缩编码后才能有效地传输和处理。针对不同的应用领域,工业界和国际标准化组 织制定了多种视频编码标准。其中由i s o i e c 制定的m p e g 一2 标准在我国得到广 泛的应用,成为了数字电视、d v d 存储和演播室编辑等多种领域的首选编码格式。 a v s 是我国制定的具有自主知识产权的第二代信源编码标准,具有更高的编码效 率,而且避免了昂贵的国际专利费用,其性能完全可以在相关领域取代m p e g 2 。 将现有的m p e g 2 视频转换为a v s 视频可以利用a v s 的技术优势,而将a v s 视 频转换为m p e g 2 视频则可以保证已有的终端设备不被浪费,这正是本文研究a v s 与m p e g 一2 视频转码技术的意义所在。 本文从课题背景出发,首先对视频转码技术和国内外研究现状作了简要介绍, 并阐述了本文的主要研究内容及主要工作。然后对相关的理论基础进行了概述, 重点放在转码体系结构和转码关键技术这两个方面。分析了常用的三种典型体系 结构,对比了他们各自的优缺点;同时结合本文的研究内容,对运动矢量复用、 运动矢量优化和宏块模式映射这三种转码关键技术进行了分析。接着,本文对 m p e g 2 和a v s 两种标准进行了研究,通过对比分析它们各自的技术特点、视频 码流结构以及解析过程,找出了两种标准的主要差异,提出了在两者之间进行编 码转换的总体思路,为后面的研究与实现指明了方向。最后,根据前面的研究基 础提出了两种标准之间的快速转码方案,设计并实现了从m p e g 一2 到a v s 以及从 a v s 到m p e g 2 的视频转码软件。通过实验数据证明,本文所提出的转码方案与 传统的基于像素域的级联转码方案相比,在转码效率上有较大的提高,而转码质 量下降不大,能够满足主观视觉的需要。 关键词:视频转码,m p e g 2 ,a v s ,运动矢量复用 a b s t r a c t a b s t r a c t d i 酉t a lv i d e o sa r ei d e a lv e h i c l e sf o rt h ed i s s e m i n a t i o no fi n f o r m a t i o na tt h e m u l t i m e d i aa g e ,b u tt h eh u g em a s so fv i d e od a t an e e dt ob ec o d e df o re f f i c i e n t t r a n s m i s s i o na n dp r o c e s s i n g f o rd i f f e r e n ta p p l i c a t i o na r e a s ,i n d u s t r i a lc o m m u n i t i e sa n d i n t e r n a t i o n a lo r g a n i z a t i o n sf o rs t a n d a r d i z a t i o nh a v ed e v e l o p e da v a r i e t yo fv i d e oc o d i n g s t a n d a r d s o ft h e s es t a n d a r d s ,m p e g 一2 ,d r a w nu pb yi s o i e c ,h a sg o tw i d e l yu s e di n o u rc o u n t r ya n dh a sb e e nt h ep r e f e r r e de n c o d i n gf o r m a ti nm a n ya r e a ss u c ha sd i g i t a l t vd v ds t o r e ,a n ds t u d i oe d i t i n g i nc o n t r a s t ,a so n eo ft h es e c o n d g e n e r a t i o nv i d e o c o d i n gs t a n d a r d s ,a v sw a sd e v e l o p e db yo u rc o u n t r yw i t hi n d e p e n d e n ti n t e l l e c t u a l p r o p e r t yr i g h t s i th a sh i g h e rc o d i n ge f f i c i e n c ya n da v o i d se x p e n s i v ei n t e r n a t i o n a lp a t e n t c o s t so fm p e g 一2 ,s oi tc a nb eu s e dt or e p l a c em p e g 一2i nm a n yr e l e v a n ta r e a s o nt h e o n eh a n d ,w i t ht h et r a n s c o d i n go fe x i s t i n gm p e g 一2v i d e o st oa v s ,t h et e c h n o l o g i c a l a d v a n t a g e so fa v s c a l lb ef u l l yu s e d o nt h eo t h e rh a n d ,w i t ht h et r a n s c o d i n go fa v s v i d e o st om p e g - 2 ,t h ee x i s t i n gv i d e ot e r m i n a l e q u i p m e n t sw i l l n o tb ew a s t e d t h e r e f o r e ,t h es t u d yo fv i d e ot r a n s c o d i n gb e t w e e nm p e g 2a n da v si so fg r e a t s i g n i f i c a n c e f i r s t l y , t h ev i d e ot r a n s c o d i n gt e c h n o l o g ya n dr e s e a r c ha th o m ea n da b r o a da r e b r i e f l yi n t r o d u c e di nt h i sd i s s e r t a t i o n ,a n dt h em a i nr e s e a r c hc o n t e n ta n dm a i nt a s k sa r e a l s od e s c r i b e dm e a n w h i l e s e c o n d l y , t h er e l e v a n tt h e o r e t i c a lb a s e sa r e o u t l i n e d , f o c u s i n go nt r a n s c o d i n ga r c h i t e c t u r ea n dk e yt e c h n o l o g i e s o nt h ef o r m e r , t h r e et y p i c a l a r c h i t e c t u r e sa r ea n a l y z e d ,c o m p a r i n gt h e i rr e s p e c t i v ea d v a n t a g e sa n dd i s a d v a n t a g e s o nt h el a t t e r , t h r e ek e yt e c h n o l o g i e s ,c o m b i n e dw i t hr e s e a r c hi s s u e si nt h i sd i s s e r t a t i o n , a r ea n a l y z e d ,i n c l u d i n gm vr e u s e ,m v ra n dm bm o d em a p p i n g t h i r d l y , t h r o u g ht h e c o m p a r a t i v ea n a l y s i so ft h e i rt e c h n i c a lc h a r a c t e r i s t i c s ,v i d e os t r e a ms t r u c t u r ea n d d e c o d i n gp r o c e s s ,t h em p e g - 2a n da v ss t a n d a r d sa r es t u d i e da n dt h e i rm a i n d i f f e r e n c e sa r ep r o p o s e d i nt h i sw a y , t h eg e n e r a li d e ao ft r a n s c o d i n gb e t w e e nt h e s e s t a n d a r d si sp r o p o s e d ,g i v m go u tt h ec l u eo ft h ef o l l o w i n gt a s k s f i n a l l y , t h ef a s tv i d e o t r a n s c o d i n g s c h e m e sb e t w e e nm p e g 一2a n da v sa r e p r o p o s e d a n ds ot h e i i a b s t r a c t m p e g - 2 t o a v sa n da v s - - t o m p e g - 2 t r a n s c o d i n g s o r w a r e sa r e d e s i g n e d a n d i m p l e m e n t e d a c c o r d i n gt ot h et e s tr e s u l t s ,i th a sb e e np r o v e dt h a tt h e s es c h e m e sm a y g r e a t l yi m p r o v et h ee f f i c i e n c yo ft r a n s c o d i n gt h a nt r a d i t i o n a lc p d tw h i l em a i n t a i n i n g v i d e oq u a l i t yt om e e tt h en e e d so fs u b j e c t i v ev i s u a l k e y w o r d s :v i d e ot r a n s c o d i n g ,m p e g 一2 ,a v s ,m o t i o nv e c t o rr e u s e i i i 独创性:声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他入已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 签名: 殓老日期:力矽年多月? 日 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名:磁导师签名:庄睦! 盘 日期:勿吵年7 月2 日 第一章引言 1 1 课题背景 第一章引言弟一早jl 商 信息时代的重要特征是信息的数字化,人们越来越依靠计算机获取和利用信 息。而在各种信息中,视频信息由于具有形象直观、内容丰富、与时间密切相关 等特点,其表达、存储和传输又显得尤为重要。特别是随着电信网、互联网和广 播电视网这三大网络逐步融合的发展趋势,数字视频将成为最重要的信息传播载 体之一。另一方面,数字化视频拥有的巨量数据也给现有的多媒体计算机、存储 设备和通信线路造成极大的处理压力。尽管硬件技术的不断革新已经极大地提升 了c p u 、存储器和传输信道的性能,但单纯依靠提高硬件性能并不能满足视频信 息量爆炸性增长的需求,而且花费的代价也太高。要解决这一问题,一个行之有 效的方法就是采用信源编码技术。通过数据编码压缩可以去除视频数据中的冗余 信息,在无损或一定保真度的要求下减少数据量,达到降低传输带宽和节省存储 空间的目的,同时也为多媒体计算机处理提供可能。 不同的应用对视频数据存放格式、网络带宽及视频编解码器的性能、体积和 功耗等都有不同的要求。为了满足这些需求,自2 0 世纪9 0 年代起,工业界和国 际标准化组织先后制定了多项视频编码压缩标准。目前国际上的视频编解码标准 主要有m p e g 系列标准、h 2 6 x 系列标准以及我国自主的音视频编码标准a v s 等。 这些视频压缩标准针对不同的领域提供了高效经济的编解码技术,在数字视频广 播、高密度激光数字存储媒体、无线宽带多媒体通讯、互联网宽带流媒体等重大 信息产业中得到了广泛应用。随着多媒体应用的不断深入发展,越来越多的场合 要求压缩视频数据能在不同格式、不同标准间进行交换。为了实现视频信息的共 享,不同视频编码格式之间动态的转换便成为了重要的研究课题。 m p e g 2 t 1 1 属于第一代信源编码标准,由i s o i e c 于1 9 9 4 年制定,适用于数字 电视、d v d 存储和演播室编辑等多种领域,目前在我国得到广泛的应用。a v s 【z j 是我国提出的第二代信源编码标准,具有自主知识产权,其视频部分已于2 0 0 6 年 3 月被正式批准为国家标准。a v s 不仅采用了许多先进的编码技术,而且避免了昂 贵的国际专利费用,与m p e g 2 相比更有优势。如果能将大量现有的m p e g 一2 视 频直接转换为a v s 视频,则既可以利用a v s 自身的技术优势,又可以解决现在 电子科技人学硕十学位论文 a v s 格式节目源不足的问题。这正是研究m p e g 2 到a v s 视频转码技术的意义所 在。另一方面,由于大量现有的用户终端设备只支持对m p e g 2 视频的处理,不 支持新的a v s 标准,也就无法分享新出现的采用a v s 编码的视频信息,而要求用 户全体更换设备显然不是可行的解决方案。为了使这部分用户在无需更新设备的 情况下也能获取新的视频信息,将a v s 视频转换为m p e g 2 视频是一个经济有效 的办法,这使得研究a v s 到m p e g 2 视频的转码技术具有重要的现实意义。 本课题来源于国家8 6 3 项目“支持数字媒体内容创作的集成环境”,主要涉及 该项目中非线性编辑技术这一部分。该部分的研究目标是实现一个支持a v s 视频 素材的非线性编辑系统,其中一个重要组成模块就是m p e g 2 到a v s 的视频转码 软件。因此,对a v s 与m p e g 2 视频转码技术的研究和实现就成为了本课题的研 究方向。 1 2 国内外研究现状 视频转码( v i d e ot r a n s c o d i n g ) 就是把一种格式的视频信号转换为另一种格式的 视频信号,它为异构网络之间、不同类型用户设备之间以及不同媒体数据格式之 间提供了无缝连接。鉴于视频转码的重要性,从2 0 世纪9 0 年代后期开始,视频 转码就成为了视频编码领域一个研究热点,众多的学者和科研人员在该领域进行 了大量研究工作,研究方向主要集中在转码体系结构和转码中的关键技术这两个 方面【3 。5 】。从总体上看,视频转码可以划分为比特率转码、分辨率转码和异构转码 这三大类。 早期的转码研究主要关注比特率转码,又称为码率转码。比特率转码主要应 用于电视广播、因特网视频流传输、无线网络等传输领域,其目的是通过转码降 低源视频的比特率,使之符合传输信道带宽的要求,同时尽可能保证转码后视频 的质量不会下降太大。比特率转码的研究主要集中在两方面:降低复杂度和减少 误差漂移( d f i rr e d u c t i o n ) 【3 】。文献 6 最早对比特率转码进行了全面的研究,针对 m p e g 2 压缩视频流之间的比特率转换提出了四种方法,涉及开环和闭环两大类结 构,对截断高频分量、重量化变换域系数、复用运动矢量和编码模式等转码技术 进行了对比分析。在此基础上,文献 7 根据数学推导对传统的“全编全解 转码 体系结构进行了简化,降低了计算复杂度。文献【8 9 对因量化步长调整而导致运 动矢量非最优的情况进行了分析,提出了运动矢量优化策略( m o t i o nv e c t o r r e f i n e m e n ts c h e m e ,m v r ) ,比文献 6 q b 采用的简单重用策略进一步提高了转码后视 2 第一章引言 频的质量。文献 1 0 1 对闭环结构中的量化误差积累补偿问题进行了分析,提出一种阈 值自适应算法,利用积累量化误差的大小决定是否进行误差补偿,降低了闭环结构 的复杂度。除此之外,由于变换域转码不需要i d c t 和d c t 运算,可以进一步降 低转码的计算复杂度,因此关于变换域比特率转码也开展了许多研究工作,主要 涉及变换域上的运动估计和漂移误差补偿问题,其成果可见于文献 7 1 1 1 1 3 1 。但 变换域转码技术不适用于分辨率转码和异构转码,其应用范围多限于同种编码标 准间的比特率转码。 分辨率转码包括空间分辨率转码和时间分辨率转码,前者是指减小源视频图 像的空间尺寸,后者指降低源视频序列的帧率。分辨率转码的主要目的是为了适 应手机,掌上电脑等移动多媒体设备的有限显示能力和处理能力,也可以用于高 清电视( h d t v ) 到标清电视( s d t v ) 的转换。空间分辨率转码的研究主要涉及 以下几个方面。首先是空间域下采样的问题。文献 1 4 1 提出了降低空间分辨率的三 种下采样算法,适用于转码后目标视频图像大小为源图像的整数分之一的情况; 对于转码后图像大小不为源图像的整数分之一的情况,文献1 5 1 提出先对源图像补 零插值,经低通滤波后再进行降分辨率下采样的算法。其次,当空间分辨率降低 后,源图像的宏块运动矢量( m o t i o nv e c t o r ,m v ) 存在多对一的映射问题。关于 如何选择m v 的研究也很多,如文献 5 提出取平均值,取中值和任意选取三种方 法;文献 1 6 】提出利用源图像各宏块的活动程度,做加权平均计算得到目标宏块 m v 的方法;文献 1 s n 用源图像各个宏块在降采样宏块上对应的面积,做加权平均 来计算目标宏块m v ;文献 1 7 】提出了加权中值滤波计算法;文献 1 8 提出了 d c m a x 方法,取最大d c 系数宏块的m v 作为目标宏块的m v ;文献 5 还对计算 得到的m v 进行m v r ,可进一步提高m v 的准确性。此外,对于空间降分辨率转 码后的宏块模式选择问题,文献 5 1 7 1 都做了详尽的阐述并提出了各自的解决方 案。最后,为了降低空间分辨率开环结构中出现的漂移误差,文献 1 9 1 提出了帧内 刷新机制,在一定程度上确保转码后的视频质量不会因误差扩散问题而过度下降。 时间分辨率转码的目的是降低视频序列的帧率,以适应那些处理能力有限的 用户端设备的需求。降低帧率意味着转码后要丢弃一部分帧,这就需要提出合适 的丢帧策略、在必要时还需要进行帧类型转换、以及利用丢弃帧的运动信息来重 新合成运动矢量。文献 2 0 1 提出首先丢弃b 帧的策略;文献 2 1 1 根据运动矢量的累 积幅度来决定是否跳帧,使得转码后图像中的运动更加平滑。关于帧类型转换, 文献 2 2 】给出了m p e g 2 到m p e g - 4s p 转码时,将源视频的b 帧转码为p 帧的方 法;文献 2 0 1 对m p e g 2 到h 2 6 3 转码中出现的场帧转换问题进行了分析。为了解 3 电子科技火学硕十学位论文 决丢帧后运动矢量信息丢失的问题,许多文献对运动矢量合成算法( m o t i o nv e c t o r c o m p o s i t i o n ,m v c ) 进行了研究。如文献 2 u 提出双线性插值法,文献【9 提出前 向主矢量选择法,文献 1 4 】提出伸缩矢量合成法,文献 2 3 1 提出宏块活动度主运动 矢量选择法等。文献 1 4 在进行m v c 之后,利用得到的运动矢量作为参考运动矢量 进行m v r ,进一步提高了运动估计的精度,达到近似最优匹配。 异构转码指不同编码标准之间的转码,这部分研究主要集中在不同标准在具 体的语法、码流结构组织上的对应转换。自i9 9 0 年第一个视频编码国际标准h 2 61 问世以来,视频编码技术在十多年的时间里发展迅速,m p e g 1 、m p e g 2 、h 2 6 3 等新标准不断涌现,关于各种标准之间转码的研究也产生了许多有代表性的论著。 如文献 2 4 1 中研究了m p e g 一2 到m p e g 一1 的转码算法;文献 2 5 1 对m p e g 1 m p e g 2 到h 2 6 1 h 2 6 3 的转码算法进行了分析并给出了实验结果;文献 2 6 】提出了将隔行 编码的m p e g 2 视频转码为逐行编码的h 2 6 3 视频的方法:文献【2 7 讨论了h 2 6 3 与m p e g 4 转码中语义层的对应映射关系;对于m p e g 2 到m p e g 一4 转码中运动 矢量的复用,运动矢量的合成,以及宏块编码模式映射等问题,文献 2 8 3 0 1 作了 许多相关的研究工作。 从上面的多篇文献中可以看出,视频转码的三种类型并不是截然分开的。通 常在进行降低分辨率转码的同时,也降低了视频序列的比特率;而不同标准之间 的异构转码,也会用到许多最初用在分辨率转码中的技术,如宏块模式映射、m v c 、 m v r 等。特别是在现代的转码技术中,常常需要将各种手段融合在一起,从多角 度、多方面进行优化。随着近些年来视频编码技术的发展,h 2 6 4 、v c 一1 、a v s 等 第二代编码标准的出现,视频转码的研究又掀起了一波新的热潮。特别是h 2 6 4 标准提出后,以其优异的视频编码性能引起了业界广泛的关注,被视为m p e g 2 标准的最佳替代者,关于m p e g 2 到h 2 6 4 的视频转码已经开展了大量的研究工 作 3 1 3 3 1 。a v s 作为我国具有自主知识产权的第二代信源编码标准,编码效率比第 一代的m p e g 2 标准有很大提高,接近于h 2 6 4 的水平,但实现上比h 2 6 4 简单, 而且避免了昂贵的专利费用,具有广阔的应用前景。由于a v s 是一个比较新的标 准,国内外关于m p e g 2 与a v s 转码的研究文献还比较少。 1 3 本文研究的内容 本文主要研究了a v s 与m p e g 一2 视频转码技术,通过比较分析两种标准的特 点,设计实现了一种纯软件的方案,近实时地实现了a v s 与m p e g 2 视频之间的 4 第一章引言 相互转换。 本文的主要工作包括: ( 1 ) 结合m p e g 2 和a v s 标准的特点,对转码中的三种典型体系结构以及转 码中常用的几种关键技术进行了分析。 ( 2 ) 分析比较了m p e g 一2 和a v s 视频的技术特点,包括变换、量化、熵编码、 帧内预测、帧间预测、环路滤波等技术模块。 ( 3 ) 分析比较了m p e g 。2 和a v s 标准的视频比特流的语法结构及解析过程, 找出了它们之间的联系和区别,提出了在两者之间进行编码转换的总体思路和方 案。 ( 4 ) 设计实现了一个m p e g 2 到a v s 的转码软件,与基于像素域的级联转码 软件进行对比测试,证明了本文所提出的转码方案的先进性和高效率性。 ( 5 ) 设计实现了一个a v s 到m p e g 一2 的转码软件,与基于像素域的级联转码 软件进行对比测试,证明了本文所提出的转码方案的先进性和高效率性。 1 4 论文结构 本文共分为五章,各章的内容安排如下: 第一章介绍本文的课题背景、国内外发展现状、研究内容和论文结构。 第二章介绍了视频转码技术的相关理论基础,结合本文的研究内容从转码体 系结构和关键技术两个方面进行分析,对转码中的三种典型体系结构以及转码中 常用的几种关键技术进行了概述。 第三章对m p e g 2 和a v s 两种视频编码标准进行了简述,通过对比分析两种 标准的主要差异,提出了在两者之间进行编码转换的总体思路。 第四章详细介绍了m p e g 2 到a v s 转码器的整体设计和实现流程,并对转码 器的效率和转码质量进行了测试。 第五章详细介绍了a v s 到m p e g 2 转码器的整体设计和实现流程,并对转码 器的效率和转码质量进行了测试。 第六章对全文的工作进行总结,提出需要继续研究的方向。 5 电子科技人学硕+ 学位论文 第二章相关理论基础 研究视频转码技术的目的是尽可能的提高转码效率,同时保证转码后的视频 质量不会有明显的下降。从大量的相关文献中可以看出,如何选择转码体系结构 和转码具体方法对实现高效高质的视频转码至关重要,也是视频转码技术的研究 重点。本章将对视频转码中的典型体系结构和关键技术进行阐述,为后面a v s 与 m p e g - 2 转码的研究和实现奠定理论基础。 2 ,1 转码的体系结构 2 1 ,1 基于像素域的级联转码体系结构 视频转码最简单的实现方式就是将输入的压缩视频流解码至像素域,然后再 按照输出格式的要求直接压缩成另一种格式的视频流,称之为基于像素域的级联 转码体系结构( c a s c a d e dp i x e l d o m a i nt r a n s c o d i n g ,c p d t ) 【3 4 1 。 图2 1基于像素域的级联转码体系结构 6 第二章相关理论基础 如图2 1 所示,c p d t 本质上是将一个解码器和一个编码器级联起来,输入视 频流完全解码得到像素域图像,经过中间处理( 如空间下采样、插入水印等) 后 再完全重新编码。由于编码部分和解码部分在结构上是完全独立的,因而在视频 转码时具有很大灵活性,可以在不同的比特率、不同的分辨率( 包括空间和时间 分辨率) ,以及不同的编码标准之间进行转换。而且由于c p d t 是在像素域将图像 重新编码,因此转码后输出的图像质量较高。但是c p d t 在编码部分需要重新进 行宏块编码模式选择和运动估计( m o t i o ne s t i m a t i o n ,m e ) ,计算复杂度最高,而 且需要的缓存空间也最大,如果完全靠软件来实现,则远远不能满足实时应用的 需要。 2 1 2 基于像素域的快速转码体系结构 运动估计( m e ) 是压缩编码解码中最费时的过程,占到整个压缩编解码运 算时间的一半以上。如果在转码时能够复用源视频流的运动矢量( m v ) ,避免重 新进行全局m e ,就能有效地降低计算复杂度。这正是基于像素域的快速转码体系 结构( f a s tc a s c a d e dp i x e l d o m a i nt r a n s c o d i n g 。f c p d t ) 3 4 1 所采用的主要技术手段。 根据文献 t 4 所述,如果在转码时复用输入流中的运动矢量而不重新进行全局运 动估计,则至少可以节省3 倍的计算时间。从图2 2 可以看出,f c p d t 比c p d t 还减少了一次d c t 逆变换、一次运动补偿( m o t i o nc o m p ,m c ) 和一帧参考图像 的缓存,因而大大减少了计算量和缓存空间占用,从而在某种程度上克服了c p d t 的两个主要缺点。 输 图2 2 基于像素域的快速转码体系结构 7 视频 电子科技人学硕士学位论文 2 1 3 基于d c t 域的转码体系结构 从图2 1 和图2 2 看出,d c t 和i d c t 仅在像素域作运动补偿。事实上,由于 经过运动补偿的d c t 块可以直接从参考帧中四个相邻的d c t 块直接获得【l l j 【l 引, 因此运动补偿块也可以在d c t 域获得。图2 3 就是基于d c t 域( 也称为变换域) 的转码体系结构( d c t - d o m a i nt r a n s c o d i n ga r c h i t e c t u r e ,d d t ) 1 3 4 。d c t 域视频转 码结构的基本思想是将像素域的处理过程等价转换为d c t 域的处理过程,直接利 用解码码流中的运动矢量,去掉了d c t 和i d c t 模块,简化了视频转码结构。 视频 图2 - 3 基于d c t 域的转码体系结构 当运动矢量为零或8 的倍数时,d c t 域的运动补偿不需要做任何计算【12 1 ,对 于低速运动( 或无运动) 的视频序列来说,d d t 的计算量显然比f c p d t 要小得多。 不过,由于这种体系结构的灵活性受到一定的限制,例如当要求改变运动矢量、 改变帧编码类型、改变编码速率、改变分辨率时,就很难采用这种体系结构。因 此在一般情况下,d d t 多用于同种编码标准之间的视频流转码。 2 2 转码的关键技术 2 2 1 运动矢量复用 如前文所述,如果在转码时复用输入流中的运动矢量而不重新进行全局运动 估计,可以大幅降低计算复杂度,提高转码的效率。由于各视频编码标准对运动 矢量的定义都大同小异,所以对运动矢量的复用是转码技术中很重要的一部分。 但复用并不是简单的照搬,有可能要对转码前的运动矢量做一定的变换才能使用。 针对不同的转码类型,需要对源视频流的运动矢量采用不同的映射( m a p p i n g ) 方 第二章相关理论基础 式来进行复用。 在空间分辨率转码中,由于转码后的一个宏块对应着源视频中的多个宏块, 为了得到该宏块的运动矢量,需要进行运动矢量合成( m vc o m p o s i t i o n ) ,由多个 宏块的运动矢量合成得到一个宏块的运动矢量 5 】【8 1 。如图2 4 所示,当采用1 2 下 采样时,视频图像横向和纵向分辨率都降为原来的一半,转码时需要由原图像中 四个宏块的运动矢量合成目标图像中一个宏块的运动矢量。 水f 毒i 垂商艇个矗向进 j i l ,2f 采 擎 - - - - _ 、- - ,- - ,- _ - t - 。- - l - m v i m v , 、 m v 3m v 4 , _ 一- _ 一,- 一_ 一_ 一,一一,一一j - - p _ _ _ - - - 。 4 个1 6 1 6 农块1 个1 6 1 6 宏块 图2 - 4 空间分辨率转码m v 合成 对于这种情况,文献 5 提出了三种基本的合成算法:1 ) 计算四个运动矢量的 平均值,然后乘以比例系数1 2 得到目标矢量;2 ) 计算某三个候选矢量中位于中 间的矢量,再乘以比例系数1 2 得到目标矢量;3 ) 从四个运动矢量中任意挑选一 个,再乘以比例系数1 2 得到目标矢量。其中平均值法简单易行,在四个宏块的运 动矢量方向都很接近时能获得较好的效果。但是当某个宏块运动矢量的方向与四 个宏块整体运动的方向差别较大时,按照上述方法得到的目标运动矢量会有较大 的误差。 文献 5 的不足之处在于把四个宏块的运动矢量视为同等重要,这种假设在实 际的视频转码中并不总是正确的。文献 1 6 对此进行改进,提出了一种按照残差活 动性度量进行加权的矢量合成方法。该方法考虑了源图像各个宏块活动程度的差 异,能够更准确地合成目标运动矢量,缺点是需要计算残差块来作为活动性度量, 增加了转码的复杂度。文献 1 8 提出了d c - m a x 方法,利用原图像各宏块的d c 系数 作为活动性度量,选取最大d c 系数宏块的运动矢量,再乘以相应的比例因子得到 目标运动矢量。这种方法获得的运动矢量比平均值法准确,而计算量低于文献 1 6 3 中采用的残差活动性度量法。 9 电子科技人学硕+ 学位论文 时间分辨率转码同样存在着运动矢量映射的问题。由于转码过程中丢弃了部 分视频帧,使得些剩下的视频帧在原视频序列中的参考帧不复存在,视频各帧 之间由于运动矢量带来的依赖关系在丢帧之后也中断了。为了获得新的运动矢量 而不重新进行运动估计,必须利用被丢掉参考帧中的运动信息,采用运动矢量合 成算法,把运动矢量进行累加,以产生指向新的参考帧的运动矢量。本文的研究 内容不涉及帧率的改变,因此也就不再进一步阐述了,相关的文献在第一章的国 内外研究现状中有所提及。 曩撵帧菱弃帧 n 3 帧n 2 帧n i 帧 n i 哦 图2 - 5 时间分辨率转码m v 映射 异构转码涉及在不同的编码标准之间进行转换,运动矢量映射的问题会更加 复杂。这是这是因为转码前后的标准可能出现以下差异:1 ) 运动矢量的精度不同, 如m p e g 一2 只支持1 2 像素精度的运动矢量,而h 2 6 4 和a v s 可以支持1 2 和1 4 精度的运动矢量。2 ) 允许指向的参考帧的数目不同,如在m p e g 一2 中p 帧只能使 用前面一帧的数据进行预测,而a v s 视频标准允许p 帧使用在其之前的连续两个 i 帧或p 帧的图像数据进行预测。3 ) 预测块大小不同,如在m p e g 2 中是按照1 6 1 6 的宏块( 帧) 或1 6 x8 的块( 场) 进行预测的,而在a v s 中可以将宏块划分 成1 6 1 6 、1 6 8 、8x1 6 和8x8 四种子块,使运动估计更加精确。4 ) 宏块中允 许的运动矢量的数目不同,这正是由于两种标准对预测块的划分不同所引起的。 因此,在a v s 与m p e g 2 这两种不同标准之间进行转码时,必须仔细考虑运动矢 量的映射问题。 2 2 2 运动矢量优化 虽然通过运动矢量复用可以直接获得目标宏块的运动矢量,但这个运动矢量 并非是最佳值,与重新进行运动估计所得到的运动矢量相比存在一定的误差,误 差的累积会造成转码后视频质量的大幅下斛3 】【4 】。更好的方法是以得到的运动矢量 l o 第二章相关理论基础 为基础,进行运动矢量优化( m v r ) ,达到近似最优匹配,从而提高运动估计的精 度,保证视频转码的质量。 运动矢量优化本质上也是一种运动估计,它是以输入的运动矢量为中心,在 小范围搜索区域( s e a r c hr e g i o n ,s r ) 内进行的快速运动估计。文献【9 中的实验数 据表明,在输入的运动矢量为中心2 像素的小范围内进行m v r ,可以获得与采 用全范围运动估计( 1 6 像素) 相近的转码质量,这就大大减少了运动估计的计 算量。除此之外,还可以在m v r 中引入普通运动估计常用的各种快速搜索算法, 进一步降低计算复杂度和提高运动估计的精度。 运动估计的基本思想是在参考帧的搜索区域内按照一定的匹配准则搜索最佳 匹配块,进而得到当前宏块的运动矢量。最简单的块匹配算法是全搜索( f u l l s e a r c h ) 法,得到的运动矢量精度最高,但计算量过于庞大,不能满足实时性的需 求。为此研究者们提出了各种快速运动估计算法,按照算法思想主要分为四大类: 固定模板法、预测运动矢量法、多层或多分辨率法、快速全搜索法 35 1 。由于m v r 是利用输入的运动矢量为中心开始搜索,本身就有较高的准确度,因此采用固定 模板法就能以很小的计算代价获得近似最佳的运动矢量。模板类算法的总体思路 是通过设计不同的搜索模板和搜索策略,使得搜索速度和精度达到综合最优。模 板搜索法大致经历了三个主要发展阶段【”】,从最初的二维对数法( 2 d l o g ) 、三 步法( t s s ) 、交叉法( c s a ) ,到最新的十字菱形法( c d s ) 、十字菱形六边形法 ( c d h s ) 、新十字菱形法( n c d s ) 等,每一阶段都产生了许多搜索模板和搜索策 略。这些算法各有优缺点,这里只对适用于本文研究内容的几种方法作一个简要 说明。 :;: 卜 一 - - - 一 - 中一 一 - 卜 - - - _ 卜一卜o - - - - - 一 - - - + - e + e 寸- + - 一- - - ; 一- 。, 一 - t - 一- p - - f - 一 - :;,毒譬;: :;: :;l i :i : i :;i : - - - 卜, , - o 卜o 扣o 卜- 。卜, - - - :辜i : i :琴i : i :辜i 二- - - - - o - + - o - + - - - - - 一- t 叶- - i - 中e , 中- i - - 中+ - 一- :;:辜:;: = = = (a)(b)( c )( d )( e ) 图2 - 6m e 中常用的搜索模板 图2 - 6 给出了新三步法( n t s s ) 、梯度下降法( b b g d s ) 、四步法( f s s ) 、菱 形法( d s ) 【3 6 】和六边形法( h e x b s ) 等几种常用算法中使用的搜索模板。这些方 法都利用了运动矢量的中心偏置特性,即最优的运动矢量通常位于搜索中心周围 的小范围内,这一点正好也符合m v r 的搜索思路。其中以菱形搜索( d i a m e n d 电子科技人学硕士学位论文 s e a r c h ,d s ) 算法的综合性能最为优异,并于1 9 9 9 年1 0 月被m p e g 一4 验证模型 所采纳。该方法使用图2 6 ( c ) 、( d ) 所示的两种大小形状菱形模板,先用较大的 菱形模板重复搜索,直至最优匹配点位于菱形的中心,然后再用小菱形模板准确 定位,搜索得到最终的匹配块和相应的运动矢量。 随着视频编码技术的不断发展,d s 算法已经不能算作是运动估计中最佳的模 板搜索算法,后期出现的c d s 、c d h s 、n c d s 等搜索算法都在d s 法的基础上进 行了改进,利用视频序列的统计特性设计了多种方向模板( 如图2 7 所示) 来提高 搜索速度。但对于只在有限区域内进行搜索的m v r 而言,d s 法仍然是一种优秀 的运动搜索算法。以输入的运动矢量为搜索中心,使用一次大菱形模板进行初次 搜索,再用一次小菱形模板二次定位,只需两次搜索就能得到近似最优的运动矢 量,计算量小且准确度高,便于用软件实现。鉴于以上这些优点,本文在a v s 与 m p e g 2 的视频转码中就采用了d s 法来对m v r 过程进行优化。 ;善j i :专;j i :三;:;至辜至:;三三;l ;亨ii 攀i ;| ;i 三;j 主; j j i ;专j i :三三| ;j j ;j :; j 三 ;一 一; 叶寸一 - o 一三i 一一;一 一;一;一- 4 ;- 一千一;一 2 2 3 宏块模式映射 在视频转码中,通过利用输入流的宏块模式信息来为输出宏块选择新的编码 模式,避免了编码时进行宏块模式选择的相关计算,可以进一步提高转码的效率。 特别是在分辨率转码和异构转码中,输出视频流中的单个宏块可能对应输入流中 的多个宏块,这些宏块的编码类型并不一定相同,因此需要根据候选宏块的类型 为新的宏块选择合适的类型。 视频转码中的宏块模式选择主要处理以下两类问题: ( 1 ) 转码前视频标准中定义的一些宏块模式是转码后的标准里没有定义的。比 如h 2 6 4 和a v s 里面对b 帧定义了直接模式( d i r e c tm o d e ) ,而在m p e g 2 中就没 有定义这种模式。对于这样的问题需要对转码前后的标准的运动补偿方式进行仔细 分析,遵循尽量减少计算复杂度和提高编码效率的原则找出映射方法。 ( 2 ) 在降低分辨率的转码中,比如由c l f 到q c i f 的分辨率降低使转码前的四 1 2 第二章相关理论基础 个宏块在转码后就成为了一个宏块。由于这四个宏块的类型可能各不相同,即使同 为帧间编码宏块,它们的预测方向也可能各不相同,因此必须为合并后得到的混合 宏块选择合适的类型。在处理混合宏块类型时,既要使这个选择过程的计算复杂度 小,又要保证混合宏块转码后产生视频质量较高,这是宏块模式选择的一个重要原 则。 2 3 本章小结 本章简述了视频转码技术的相关理论,结合本文的研究内容从转码体系结构 和关键技术两个方面进行分析,对转码中的三种典型体系结构以及转码中常用的 几种关键技术进行了概述,为下一步的研究工作打下了理论基础。 需要说明的是,除了本章中提到的三种体系结构之外,还有开环结构、闭环 结构和混合结构等几种常用的转码体系结构【3 。5 】:而转码的关键技术也不仅限于文 中所提及的这几种。由于这些内容不是本文的研究重点,而且在许多文献中都有 相关介绍,因此在这里就不再赘述了。 1 3 屯子科技大学硕十学位论文 第三章m p e g 一2 与a v

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论