(信号与信息处理专业论文)h264svc可伸缩视频编码及转码技术研究.pdf_第1页
(信号与信息处理专业论文)h264svc可伸缩视频编码及转码技术研究.pdf_第2页
(信号与信息处理专业论文)h264svc可伸缩视频编码及转码技术研究.pdf_第3页
(信号与信息处理专业论文)h264svc可伸缩视频编码及转码技术研究.pdf_第4页
(信号与信息处理专业论文)h264svc可伸缩视频编码及转码技术研究.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着网络技术和各种终端设备的发展,多媒体应用环境正变得越来越复杂, 网络异构化、终端设备多样化、服务提供商政策灵活化、用户需求个性化,这些 比以前任何时候变得更突出。新的视频应用对视频编码体系提出新的要求:须能 在较低复杂度上提供时域、空域和质量可伸缩性。 为应对这一挑战,2 0 0 5 年1 月,来自i t u - tv c e 6 和i s 0 i e cm p e g 的联合视 频组( j v t ) 制定了一套基于h 2 6 4 a v c 标准的可伸缩视频编码标准一一 h 2 6 4 a v cs v c 。s v c 允许对信号只编码一次,而根据不同应用的需求将码流部 分传输和部分解码。相较于之前的视频编码标准,h 2 6 4s v c 标准在编码效率以 及可伸缩性支持的程度上都有显著提高。毫无疑问,深入研究和跟踪该标准的发 展具有重要意义。 目前,h 2 6 4s v c 相关研究在国内还处于起步阶段,相关研究成果相当少。 本论文进行中,首先深入学习了n 2 6 4s v c 的相关算法,并进行了大量实验比较。 论文详细介绍了提供时域、空域和质量可伸缩性的基本工具,并实验分析了它们 的编码效率和复杂度,为进一步进行算法研究打下了基础。 h 2 6 4s v c 采用等级预测结构来实现时域可伸缩特性。此结构中编码帧与参 考帧之间存在较大的时间间隔,导致发生场景变换的几率变大。本文针对这一特 点,在深入研究j s v m 时域层量化参数选择算法的基础上,提出了一种适用于序 列发生场景变换情况时的改进算法。 此外,本文还对m p e g 2 到h 2 6 4s v c 转码技术进行了部分研究,基于 m p e g 2 和h 2 6 4s v c 的关键技术差别,分析了m p e g 2 到h 2 6 4s v c 转换编 码中需要处理的主要问题,给出了m p e g 2 到h 2 6 4s v c 转码器结构,接着在 时域运动矢量合成及宏块模式合成方面进行了研究,对转码中运动矢量重用和优 化提出并实验验证了相关算法。 关键词:可伸缩视频编码h 2 6 4s v c 视频转换编码时域可伸缩 a b s t r a c t w i t ht h ed e v e l o p m e n to fn e t w o r kt e c h n o l o g ya n dk i n d so ft e r m i n a ld e v i c e s ,t h e m u l t i m e d i a a p p l i c a t i o n e n v i r o n m e n ti s b e c o m i n g m o r ea n dm o r ec o m p l e x h e t e r o g e n e o u sn e t w o r k s ,d i v e r s i t yo ft e r m i n a ld e v i c e s ,f l e x i b i l i t yo fs e r v i c ep o l i c y a n di n d i v i d u a t i o no fr e q u e s tf o rv i d e of r o mt e r m i n a lc l i e n t si sm o r eo b v i o u st h a na n 多 t i m eb e f o r e f a c i n gn e wv i d e oa p p l i c a t i o n ,t h ev i d e oc o d i n gs y s t e mh a st op r o v i d et h e s c a l a b i l i t yo ft e m p o r a l ,s p a t i a la n dq u a l i t y ( s n r ) w i t hl o w e rc o m p l e x i t y t or e p l yt h ec h a l l e n g e s t h ej o i n tv i d e ot e a m ( j v t ) o ft h ei t u - tv c e ga n dt h e i s o i e cm p e gh a ss t a n d a r d i z e das c a l a b l ev i d e oc o d i n g ( s v c ) e x t e n s i o no ft h e i r h 2 6 4 a v cs t a n d a r d s v ce n c o d e st h es i g n a l s o n l yo n c e ,a n da l l o w sp a r t i a l t r a n s m i s s i o na n dd e c o d i n go fab i t s t r e a ma c c o r d i n gt od i f f e r e n ta c t u a ld e m a n d r e l a t i v et ot h es c a l a b l ep r o f i l e so fp r i o rv i d e oc o d i n gs t a n d a r d s ,t h es v cp r o j e c th a s a c h i e v e ds i g n i f i c a n ti m p r o v e m e n t si nc o d i n ge f f i c i e n c yw i t ha ni n c r e a s e dd e g r e eo f s u p p o r t e ds c a l a b i l i t y s os t u d y i n gt h es v cs t a n d a r df u r t h e rw i l lm a k eg r e a ts e n s e a tp r e s e n t ,i nc h i n a ,r e s e a r c ho nh 2 6 4s v ci ss t i l li ni t si n i t i a ls t a g e ,a n dt h e r ei s f e wr e l a v a n tr e s e a r c hp r o d u c t i o n f i r s to fa l l ,t h i sp a p e rm a k e sa ni n - d e p t hs t u d yo f t h eh 2 6 4s v ca l g o r i t h m s ,t h e nd e s c r i b e st h eb a s i ct o o l sf o rp r o v i d i n gt e m p o r a l , s p a t i a l ,a n df i d e l i t ys c a l a b i l i t yi nd e t a i la n de x p e r i m e n t a l l ya n a l y z e sr e g a r d i n gt h e i r e f f i c i e n c ya n dc o m p l e x i t y i tw i l ll a yt h ef o u n d a t i o nf o rf u r t h e rr e s e a r c h t op r o v i d et e m p o r a ls c a l a b i l i t y , h 2 6 4s v cu s e st h ec o n c e p to fh i e r a r c h i c a l p r e d i c t i o ns t r u c t u r e s i nw h i c ht h et e m p o r a ld i s t a n c e sb e t w e e nf r a m e sa n dt h e i r r e f e r e n c e sa r ef a r t h e rt h a nt h o s eo ft r a d i t i o n a lv i d e oc o d i n gs c h e m e s t h u st h e p o s s i b i l i t yo fs c e n ec h a n g eb e t w e e nc u r r e n tf r a m ea n di t sr e f e r e n c ei si n c r e a s e d i n t h i sp a p e r b a s e do nt h ei n - d e p t hs t u d yo fj s v mq u a n t i z a t i o np a r a m e t e rs e l e c t i o n a l g o r i t h m ,an o v e la l g o r i t h mb e i n ga p p l i c a b l ew h e ns c e n ec h a n g eo c c u r si sp r o p o s e d i na d d i t i o n ,t h i sp a p e rm a k e ss o m er e s e a r c ho nt h ev i d e ot r a n s c o d i n gt e c h n i q u e s b a s e do nt h ek e yt e c h n i c a ld i f f e r e n c e so fm p e g - 2a n dh 2 6 4s v c ,a n a l y s i so ft h e p r i m a l i s s u e so fm p e g 一2t oh 2 6 4s v ct r a n s c o d e ra r ep r e s e n t e d ;t r a n s c o d i n g a r c h i t e c t u r ei sa l s os u g g e s t e d f u r t h e r m o r e ,t e m p o r a lm o t i o nv e c t o r ( m v ) c o m p o s i n g a n dm a c r o b l o c km o d ec o m p o s i n gi sr e s e a r c h e d c o n s i d e r i n gt h er e u s i n ga n d o p t i m i z a t i o no fm y , w e a l s op r o p o s ea n dt e s t i f ys e v e r a lc o r r e l a t i v ea l g o r i t h m s k e yw o r d s :s c a l a b l ev i d e oc o d i n g ,h 2 6 4s v c ,v i d e ot r a n s c o d i n g , t e m p o r a ls c a l a b i l i t y 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得苤鲞盘堂或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 学位论文作者躲勇灸崎签字嗍如8 年多月哪 学位论文版权使用授权书 本学位论文作者完全了解丞洼盘茎有关保留、使用学位论文的规定。 特授权苤鲞盘堂可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者躲身灸啐 签字日期:沙岵年多月,d 日 导师签名:1 戛砂龟 签字日期:卅年月 io 日 第一章绪论 i i 引言 第一章绪论 随着计算机网络、通讯、信息家电、消费电子等相关领域内技术日新月异的 发展以及市场迅猛扩大,多媒体信息技术应用日趋广泛,涉及到社会生活的各个 领域,尤其是成为计算机信息领域技术开发和研究的热点。数字化的多媒体信息 处理具有易于加密、抗干扰能力强、可再生中继等众多优点,但同时也伴随多媒 体海量数据的产生,这对多媒体信息存储及多媒体通信均提出了更高要求。 目前,多媒体信息技术应用范围很广,如视频电话会议、网上可视电子商务、 网上购物、远程教育、远程医疗、可视咨询、i p t v ( 网络电视) 、手机电视、数 字电视( d t v ) 和家庭影院等业务。但是,以上所有的应用都必须压缩。由于传 输的数据量之大,单纯用扩大存储器容量、增加通信线路传输速率的办法是不现 实的,数据压缩技术是个行之有效的解决办法。通过数据压缩,可以降低信息数 据量,以压缩形式存储、传输,既节约了存储空间,又提高了信道的传输效率, 同时也可使计算机得以实时处理音频、视频信息,以保证播放出高质量的音视频 节目。 在传输网络和终端设备上提供有效并且可靠的多媒体服务成为业界和用户 关注的焦点。目前和将来可以预见的多媒体应用环境正变得越来越复杂:网络异 构化、终端设备多样化、服务提供商政策灵活化、用户需求个性化等发展趋势, 比以前任何时候都变得更加突出。 。 。4 网络的异构化表现在多媒体服务器到用户终端设备之间的各个通信子网的 处理能力、q o s ( q u a l i t yo fs e r v i c e ) 和拥塞控制策略等不平均,并随时变化, 难以给出一致的网络描述,对视频流的传输和编码带来新挑战。不仅如此,同样 的网络在不同时间呈现出不同的带宽和拥塞状况,使得实际应用中可用带宽经常 出现波动。带宽波动将导致视频数据的丢失,严重影响接收端的视频图像质量。 终端设备多样性表现在用户的多媒体终端设备在c p u 速度,内存大小,缓冲 区大小,网络接口能力,屏幕显示尺寸和颜色深度等参数上各不相同,如何使多 媒体码流匹配特定的终端设备处理能力就显得很重要了。 服务提供商政策灵活化和用户需求个性化则表现了媒体服务提供商和用户 之间的互动关系。用户可以根据自己的网络情况、接受设备能力和经济承受能力 等,选取服务提供商提供的不同质量( 空间分辨率,帧率,码率,清晰度等综合 视觉效果) 的节目,而服务提供商对不同质量的节目收取不同的服务费用。 由于在编码时,编码器无法预知传输网络状态和终端设备能力,更无法预知 第一章绪论 服务商和用户之间的互动关系,因此要求视频编码器能够实现对特定视频传输需 求做出伸缩性编码或自适应性调整,使编码后的码流可灵活地适应不同网络用户 的需求。此种特性对于多媒体传输非常重要,特别是在编码前不知道终端的具体 情况时尤其如此。 1 2 可伸缩性编码概念 可伸缩性的英文原文为s c a l a b i l i t y ,也译作可分级性、可分层性,这是因 为它是通过将单一码流分为若干层实现的。如果视频编码器经过一次性压缩后产 生的码流能被解码端以不同的码率、帧率、空间分辨率和视频质量解码,则称该 编解码系统具有“可伸缩性”。从这个定义可以看出,可伸缩编码只需对视频节 目源编码一次,即可通过传输、提取和解码相应部分的压缩码流,重构出各种分 辨率、码率或者质量级别的视频。这种编码方式与目前使用的联播编码方式相比, 满足各种不同需要的能力更强,编码效率也大大提高。 时 间 分 辨 率 6 0 h z 3 0 h z 1 5 h z q c i fc i f4 c i f空间分辨率 ( a ) 时间一空间一质量全伸缩性 ( c ) 低质量下的时间一空间全伸缩性 窒 质量分辨率 ( b ) 低帧率下的空间一质量全伸缩性 时 间 分 辨 室 6 0 h z 3 0 h z 1 5 h z 辨率 q c i f c i f4 c i f空间分辨率 ( d ) 低空间分辨率下的时间一质量全伸缩性 图卜1 三维伸缩性概念 2 时间分辨率 舷 圬 时问分辨率 眦 毗 弛 6 3 l 第一章绪论 可伸缩视频比特流通常由一个基本层和一个或多个增强层构成。对基本层解 码得到最低分辨率的视频,而增强层包含重构高分辨率视频所需要的额外信息, 每个相继增强层的分辨率等级或质量是依次递增的。其中,“分辨率”可以是时 域、空域或质量意义上的分辨率。图1 - 1 大致示意了三维伸缩性的概念。 空间可伸缩性指在空间域进行的分层编码。这意味着这种编码方式下产生的 层具有不同的空间分辨率。 时间可伸缩性是指编码产生的若干层具有不同的帧率,这些层结合起来可以 提供与输入视频相同的完全的时间分辨率。 质量( 也称为信噪比,s i g n a ln o i s er a t i o ,s n r ) 可伸缩性是指每层具有相 同的空间和时间分辨率,但图像质量不同的分层编码。 1 3 课题研究背景和可伸缩性编码现状 对可伸缩性视频编码技术的研究已有近2 0 年的历史【2 j 。在早期的视频编码标 准h 2 6 2 m p e g 一2 ,h 2 6 3 和m p e g 一4 中就已经包含若干工具,能满足那些最重要 的可伸缩性需求。然而,由于解码器复杂度过高,在实现空域、质量可伸缩性时, 编码效率低下以及编码质量存在阶跃性突变等问题,这些可伸缩性编码技术未能 获得广泛应用。还有一个重要原因是,可伸缩视频编码技术要与其他几种所谓的 码流自适应性方案【4 】去竞争,尽管它们都有各自的局限性。 ( 1 ) 最小传输。按所有请求中带宽最低的用户接受条件产生视频流传输给 所有用户。这种方法可以保证所有用户均能观看视频,但网络状况好的客户也只 能收看质量很差的视频,带来了带宽资源的浪费。 ( 2 ) 自适应编码。根据网络的实时状况,调整编码参数,生成相应的码流。 比如在m p e g 4 和h 2 6 3 + 面向低码率传输环境的编码标准,允许在编码过程中, 通过跳帧和调整量化参数相结合,达到码率的自适应性。但当用户增加时,对服 务器处理能力的要求急剧增加,很难应用于实际系统。特别对于离线编码系统, 如v o d 等,自适应编码也不适用。 ( 3 ) 转换编码( t r a n s c o d i n g ) 。在服务器上保存一个质量足够好的压缩视频 流,当需要更低的码率时,服务器进行部分的解码和再编码,丢弃不影响视觉质 量的部分信息。尽管该方法比自适应编码复杂度低,但当大量用户点播时,服务 器开销仍然很大。 ( 4 ) 联播( s i m u l c a s t ,即多码流变换) 。以不同的码率压缩和存储视频序列, 然后根据给定的网络负载和特定的用户请求,服务器以合适的速率传输视频信 号。这种方法需存储不同码率的压缩视频信号,因而增加了存储的负担,并需要 对其进行管理;对实时应用,在同一时间也不可能有数个编码器对视频压缩。这 第一章绪论 种方法很难实现传输过程中任意的码流动态变换,码率的变化也被局限在几个特 定的码率,而且码流间存在大量冗余,不能充分利用信道的容量。 显然这些方法的局限性已经难以满足实际应用。“可伸缩视频编码”是对目 前和将来可以预见的复杂应用环境下进行视频编码的最理想解决框架。其中网络 异构性和终端设备处理及显示能力的差异对可伸缩编码体系的研究起着持续推 动作用。可伸缩性视频编码引来了越来越多的关注。虽然早期多种视频标准均支 持可伸缩特性,但是它们对可伸缩性的支持非常有限,而且在实际操作上都处于 很粗糙的水平。 近几年,可伸缩编码技术有了突破性的进展【2 】。2 0 0 3 年1 0 月,m p e g 为发展 一个新的可伸缩视频编码标准向全球征求提案。归纳所收到的1 4 个提案中发现, 其中1 2 个提案都是基于三维小波变换以实现可伸缩性视频编码,剩下两个则是 基于h 2 6 4 a v c 扩展的方案。经过6 个月的评估,期间在各种不同条件下进行了 大量测试,基于h 2 6 4 a v c 可伸缩扩展的方案于2 0 0 4 年1 0 月被采纳,并作为s v c 标准化的基础和起点。 h 2 6 4 扩展方案是在目前h 2 6 4 视频编码标准的基础上,通过扩展和增加伸 缩性的功能( 包含时域扩展,空域扩展,质量扩展等) 来实现s v c 的需求和目 标。由于h 2 6 4 标准自身优良的编码性能和开放结构,h 2 6 4 扩展既保留和兼容 h 2 6 4 标准的高效,又增加了时域、空域、质量等伸缩功能。值得注意的是,无 论h 2 6 4 还是基于h 2 6 4 扩展的s v c 框架,都是以德国h h i 研究所为主要核心 机构研制的,这意味着对h 2 6 4 优异性能的肯定和继承,也是对h 2 6 4 扩展的支 持和肯定。2 0 0 5 年1 月,m p e g 和i t u t 的v c e g ,同意联合起来将s v c 作为 h 2 6 4 a v c 的修正案并提出了草案,收录为h 2 6 4 a v c 的附录g 。在2 0 0 7 年6 月举行的联合视频组( j v t ) 第2 4 次会议上,提出了h 2 6 4 a v c 可伸缩扩展集 的第8 版草案。 由于s v c 技术可为多媒体内容提供商和用户提供多种便利,如节省传输带 宽,自适应解码显示等,所以深入研究可伸缩视频编码技术和s v c 标准,深入 研究基于h 2 6 4 扩展的s v c 实现框架,有助于了解这一最新的国际研究动向, 促进相应技术研究与我国的数字多媒体实际应用相结合,推动相关技术发展,有 重要的实用意义。 1 4 本文内容安排与组织 虽然目前德国h h i 研究机构已经开发出s v c 编解码参考软件包,并且在2 0 0 7 年6 月的t 第2 4 次会议上推出最新版本j s v m 1 1 ( j o i n ts c a l a b l ev i d e om o d e l ) , 但与实用要求仍有相当距离,在编码效率和质量上有待提高。 4 第一章绪论 本文遵循h 2 6 4s v c 标准框架,以j s v m 软件包为基础,研究如何利用视频 编码的特点以及可伸缩比特流中各层之间信息的相关性等来更加高效地实现高 质量可伸缩视频编码,对现有的s v c 技术提出优化和改进,推动s v c 技术的发 展。 本文的章节安排如下: 第一章为绪论,主要介绍多媒体技术的应用现状和对可伸缩性编码的需求, 阐述了可伸缩视频编码的基本概念,介绍了s v c 标准的发展历史,并结合基于 h 2 6 4 扩展的实现架构阐述了本课题的研究背景。 第二章首先讨论了传统编码标准对伸缩性的支持,其次研究了h 2 6 4s v c 标 准的整体实现框架,并详细介绍了为实现时域可伸缩,空域可伸缩和s n r 可伸 缩所依赖的关键技术。 第三章在s v c 编解码参考软件的基础上,对h 2 6 4s v c 编码性能进行分析, 并进一步对s v c 的不同伸缩方式做了大量码率一失真比较实验,为之后的研究 工作提供指导数据。 第四章主要研究s v c 时域层量化策略。针对是否发生场景变换这一视频自 身特征,提出一种改进算法,用以确定不同时域层每帧的量化参数。 第五章主要研究和设计了m p e g 2 到h 2 6 4s v c 的转码器结构,重点在时域 运动矢量合成及宏块模式合成方面进行研究,并就转码中运动矢量重用和优化提 出了相关算法。 最后一部分对全文工作进行了总结,并针对下一步研究工作做出初步设想。 第二章h 2 6 4s v c 关键技术介绍 第二章h 2 6 4s v c 关键技术介绍 2 1 早期的视频可伸缩技术 在h 2 6 4s v c 之前的视频压缩编码标准中已经考虑了视频码流的伸缩特性。 其中,m p e g 2 4 支持层次可伸缩性,m p e g 一4 提出了f g s 技术,基于离散小波 变换( d w t ) 的可伸缩编码技术得到了广泛研究。下面就这三个传统标准和技 术的可伸缩性特点以及不足之处加以讨论。 ( 1 ) m p e g 2 4 的层次可伸缩性 m p e g 2 标准是历史上第一个提出“可伸缩性”概念的视频编码标准【7 j 。它 定义了三种可伸缩性:空间可伸缩性、时间可伸缩性和信噪比( s i g n a lt on o i s e r a t i o ,s n r ) 可伸缩性。m p e g 2 不仅支持单一类型的可伸缩性,还支持组合可伸 缩性,实际支持的组合可伸缩性有“s n r 一空间 可伸缩性和“s n r 一时间 可 伸缩性。 在采用空间可伸缩的编码方式时,不同的空间层具有相同的帧速率,但具有 不同的空间分辨率。m p e g 2 4 沿用了典型的分块d c t 和帧间运动补偿预测技术, 因此其帧内的空间分层也是基于分块d c t 的。首先对输入视频序列下采样,得到 低空间分辨率的序列;再对该序列进行d c t 变换,得到基本层码流。重构的基本 层上采样到原始图像大小,作为高空间分辨率视频的预测。编码预测误差作为空 间分辨率的增强层。m p e g 2 4 仅仅支持一个空间增强层。 增强层 基本层 图2 1m p e g 2 4 时间可伸缩结构 m p e g 2 对时间可伸缩性的实现方法很简单。以编码两个时间层码流为例, 将输入的视频序列分成两组,得到两个视频序列。对一个序列编码得到基本层码 流,对另一个序列编码得到增强层码流。基本层以较低的帧率编码,增强层包括 了丢失的帧以较高的帧率编码。图2 1 描述了时间可伸缩性的预测关系,其基本 层只用p 型预测,增强层可作p 型或b 型预测。实现伸缩的方式采用直接丢弃p 帧 或b 帧,所以十分影响视频的连续性和质量。 6 第二章h 2 6 4s v c 关键技术介绍 质量可伸缩性在对d c t 系数量化过程中实现。基本层包含对d c t 系数粗量化 的值,增强层采用更小步长的量化器对残差细化,获得精细量化等级的系数。 m p e g 2 4 1 0 缩性编码的缺点是对伸缩性支持很有限,属于层次可伸缩,每 层要么被解码,要么被丢弃,伸缩性的粒度太大;其次编码效率低,实现复杂度 高。丢帧造成的直接后果就是时间分辨率降低,收看的视频不连续,而丢弃空间 增强层会使收看到的图像空间分辨率降低,图像模糊。 ( 2 ) m p e g 一4f g s 可扩展编码 m p e g - 4 为了解决网络上视频流的带宽适应性问题,提出了一种名为“f g s , ( f i n eg r a n u l a r i t ys c a l a b i l i t y ,精细粒度可伸缩性) 的技术瞄j 。尽管f g s 除了理 论上的研究之外,几乎没有得到实际应用,但其设计思想还是值得研究。 f g s 将基本层量化后的残差数据采用位平面编码,形成增强层码流。它的基 本思想是将视频编码成为一个可以单独解码的基本层码流和一个可以在任意点 截断的增强层码流。通常基本层的码率很低,质量也很差,并且要求所有终端都 应该有能力接收并解码基本层码流。当接收者有额外的带宽时,它可以从发送方 接收并解码增强层的码流来提高视频质量。 基于m p e g 4 的f g s 技术具有优良的可扩展特性,能够很好地适应网络带宽 的变化。但它存在着一个严重的缺点,即编码效率过低,其原因是f g s 总是用基 本层的重构图像作参考进行运动补偿。尽管这样做的好处是某一帧增强层的错误 不会影响到后面图像的解码,即防止了增强层的误差漂移,但是由于基本层解码 图像的质量较低,和原始图像的差别较大,运动估计和运动补偿都不会很准确, 导致增强层要编码的d c t 残差很大,编码比特数就多,编码效率自然比较低。 ( 3 ) 基于小波变换的可伸缩视频编码 近年来,离散小波变换( d i s c r e t ew a v e l e tt r a n s f o r m ,d w t ) 在图像和视频 编码研究中受到了越来越多的重视【9 1 0 1 。其优势主要表现在两方面:第一,有良 好的时频空频局域性,特别适合按照人的视觉特性设计图像视频编码方案,提 高图像视频的主观质量和编码效率;第二,内在的多分辨特性,自然的支持可 伸缩编码,这是d c t 变换所不能比拟的。 将d w t 用于时域变换,可以得到时域可伸缩性,用于空域变换,可以得到空 域可伸缩性,因此理论上d w t 比d c t 更适合于可伸缩编码。近年来,基于d w t 的视频编码已取得了长足的进步。j o h nw o o d s 等人通过将运动补偿技术和三维 d w t 相结合,大大提升了小波视频编码的编码效率。2 0 0 3 年,d a v i dt a u b m a n g i j 新性的提出了可伸缩的运动矢量编码方法,解决了困扰基于三维d w t 的视频编 码方法在低码率段编码效率过低的问题。在这些努力下,当前最先进的小波视频 编码的编码效率已经非常接近于h 2 6 4 标准了。然而,由于基于d w t 的可伸缩视 7 第二章h2 6 4s v c 关键技术介绍 频编码普遍具有算法复杂度高,缓冲区要求大,延迟长以及向后不兼容等缺点 因此在短期内还很难进入实用。 2 2 h2 6 4s v c 整体编码框架 传统的视频标准一直以来都是面向储存和网络传输方面,其重点考虑的是如 何减少存储或网络传输的数据量以及如何提高容错性,编码效率的提高是它们不 停追求的目标。然而髓者数字媒体载体技术的进步,视频内容的存储已经不再是 阻碍视频信息广泛应用的主要问题。面对更加复杂的流媒体应用环境譬如不同 拓扑结构的异构网络、网络带宽的波动、多样化的终端设备、服务商灵活的收费 政策、终端用户的个性化要求等,传统的视频编码标准对此显得捉襟见肘。 s v c 的目标是希望在一个很宽的码率范围内都能获得高的传输效率和解码 质量,在一个较低复杂度上提供时间、空间、质量全可伸缩性编码,提供网络、 终端、流媒体格式无缝自适应的发布。 带宽( 时变 不可f 十缩编码 可伸缩编码 一 毽毽 毯硪碴 质量巾质量低质量高 图2 - 2s v c 和传统不可伸缩编码对网络带宽的适应性 图2 - 2 显示了s v c 和传统编码技术对网络带宽的适应情况。和传统的不可伸 缩编码相比,可伸缩码流能够自动适应带宽变化。当带宽值较大时,两者图像质 量都较好;当带宽值较低时,不可伸缩编码的质量变得很差,而可伸缩编码维持 着尽可能好的质量。 第二章h 2 6 4s v c 关键技术介绍 图2 - 3 町伸缩视频编码的应用系统 圈2 - 3 显示了可伸缩编码技术构成的应用系统。如图所示,s v c 视频服务器 提供单一码流,具有可伸缩特性,能够自动适应用户网络的网络状态和终端设备。 而如果在不可伸缩编码的应用体系中,单一格式的码流在通过不同网络的边界 时,需要做一次转码服务,以便使码流适应用户的网络状态。这个转码过程一方 面会造成时间延迟,另一方面也会影响视频质量。 s v c 标准的总体目标就是要构建一个新的编码方案,以便更好地向异构网络 上的客户可靠地发布视频,特别是在下行客户端能力,系统资源,网络状态事先 不可知的情形下。在满足码流具有灵活韵可伸缩特性同时s v c 也要保证高的 编码效率,为此,s v c 采用了很多新技术。 首先,本文对s v c 的编码器结构m 1 做一介绍。 j 墓 爪 一一 亟 一 霄秘黔抄嵫雕馏姆 第二章h 2 6 4s v c 关键技术介绍 l l l l l l f l i i l i i l 坐丝坚陌丽一 第二增强层: 运动估计 模式判断 运动信息 变换和量化 熵编码 一一一一一_ 一一t 二芭:里竺e 瓣耀。 空域伸缩l 时域伸缩l 蠹圈1 ,li 甓譬 和羹墨素l 氛l 垡薹兰芋 插值卜卜_ 乇抄i 一- 。= = 垒垒空塑生垒生墅墅童垒_ r 1 孬丽元稠卜 第一增强层 运动估计 模式判断 运动信息 变换和量化 环路滤波 和亚像素 插值 熵编码 i 反量化和 残差巨 i 厂b纹理奄鱼垒空塑壁垒生望竺型l 厂套而磊菊再磊卜 基本层 : 空域伸缩l 1 层j 日j 顿测伸缩r l :_ 囊量翁荽巨量薹耄毫云翥面云 辞二二二二二二二二二二= 二:回 !叫蓑灵翁藩擘圈垂莶开二二二二f 掣 i1 网i 隅u 差国|! l _ i ;面石、刈和蠢羞素k 参 1 丛堇掣i 图2 4 包含三个空间s n r 层的s v c 编码器结构 复ls v c 码流 用r _ _ 图2 4 示出了包含三个空间层( 或s n r 层) 的s v c 编码器通用结构。每一 层均用独立编码器进行编码,如图中虚线框所示。输入序列在进入每个编码器前 都经过下采样以支持多空间分辨率。 对每一个空间层( 或s n r 层) 来说,用于预测的参考图像可以是同一层中 时间上相邻的图像,也可以是经过空间上采样之后的低层重构图像,这是因为层 与层之间存在着显而易见的相关性。为了提高增强层的编码效率,可以采用种 层间预测机制来重用低层图像的纹理、运动、以及残差信息。当低层图像需要上 采样为不同空间分辨率时,这种预测模型需进行插值运算,s v c 在不同空间层 之间支持非二值的空间分辨率比例。时域预测方面h 2 6 4s v c 采用了等级预测 结构来支持时间可伸缩性,为了更高的编码效率,运动补偿时域滤波( m c t f ) 结构作为预处理工具被采用,两者将在2 3 节详细介绍。 预测模块之后,每一空间层( 或s n r 层) 的残差及运动信息等将被熵编码。 熵编码方式有两种:一种是用嵌入式编码器实现细粒度质量可伸缩( f g s ) ,另 1 0 第二章h2 6 4s v c 关键技术介绍 一种是用非可伸缩性编码器实现粗粒度质量可伸缩( c g s ) 。然而,在任一空问 层的第一个s n r 层中,熵编码被限制为非可伸缩性模式。最后,所有空间或s n r 层的码流复用之后形成单一s v c 码流。得到的s v c 码流能够被存储在一个视频 服务器中,并能根据网络状态和终端能力自适应地发进和传输如图2 - 3 。 2 3 时域可伸缩技术 时域可伸缩技术是指允许单一码流支持多帧率的技术,它由标准所定义的时 域预测结构决定。比如,在m p e g 2 4 中,视频通常按“i b b p ”预测结构编码, 这样便能支持三个不同帧率的时域可伸缩,分别通过只解码i 帧,只解码i 帧和 p 帧,以及所有i ,p ,b 帧全部解码实现。而在h2 6 4s v c 中,利用等级预测结 构能支持到更多级别的时域可伸缩特性,并且用m c t f 作为预处理工具以提高 编码效率。 2 3 1 等级预测结构 | i ! 望! ! ! ! ! hl 。 型垫! ! ! ! ! ,lk 型兰! ! ! ! ! _ 龠l 毓l ltt?t3 t t 3l 7 ( a ) = 等g b 帧m 结# t t 。t 2lt 1 t 2lt ,t 2l ( b ) 非= 值等级b 帧预月镕构 图2 - 5 等级预4 结构 ll1 3t ,lt t 3lt 3 t ( c ) 等级p 帧预测结构 如图2 5 ( a ) 所示,为一个等级b 帧预测结构的例子1 2 , 3 】具有咀2 为园子的 时域可伸缩性。首先给出关键帧定义”2 】:若某一帧图像前面所有被编码的图像 在显示顺序上都先于这帧图像,那么这帧图像就叫关键帧。某个关键帧图像和位 于这个关键帧和前面的关键帧之间的所有图像加起来叫做一个图像组( g o p ) 。 图25 ( a ) 中n 层即时域基本层各帧为关键帧,图组亦在图中标示出来。 通常,一个视频序列的第一幅图像作为立即解码更新( i d r ) 图像被帧内 ( i n t t a ) 编码。关键帧可咀编码为i 帧( 例如,为随机读取) ,也可以编码为p 帧, 并采用前一个关键帧作为运动补偿预测的参考。关键帧所组成的序列与视频序列 中的其它任何图像无关,因此,在通常意义上,该序列代表了可以得到的最小时 间分辨率。图像组中的其它图像编码使用b 帧,b 帧是h2 6 4 中的标准语法,故其 第二章h 2 6 4s v c 关键技术介绍 生成的码流能与h 2 6 4 兼容。很重要的一点是,b 帧编码的顺序是按照金字塔分 级的顺序进行的,下一个时域级别的帧只使用较低时域级别的帧作为参考来预 测,依次类推。通过这样的一个在时域上分等级的编码结构就内在地实现了时域 可伸缩性。所有的关键帧组成了最粗糙时间分辨率的视频序列,随着在编码顺序 上的图像的递增,时间分辨率也跟着增加,最终达到完全时间分辨率的视频序列。 图2 5 ( a ) 所示为4 阶层次化b 帧的典型结构,此结构可提供4 个时域等级,从 低到高为 t o , t o ,t l , t o ,t 1 ,t 2 , t o ,t l ,t 2 ,t 3 ) ,分别具有1 8 ,1 4 j 1 2 帧率和原始帧率。 而对于以上这种以等级预测结构来实现时域可伸缩性,h 2 6 4 a v c 已经提供 了比以往各标准都更显著的灵活性,主要是由于其参考帧存储控制机制。在 h 2 6 4 a v c 中,任意编码类型的图像都可以被标记为参考帧用于其它图像的运动 补偿预测。解码图像缓存( d p b ) 最多可以存储1 6 幅图像,并且由内存管理控 制操作( m m c o ) 命令自适应地来控制。d p b 中存储的这些参考图像可以通过 参考图像列表重排序( i 冲l r ) 命令任意选择,即可以使编码序列中各帧之间的 预测关系任意化。这些技术特点使得等级b 帧预测结构在h 2 6 4 a v c 标准内几 乎不需要任何修改就可以实现,h 2 6 4s v c 中唯一的改动就是对各时域层进行标 记。 此外,等级预测结构并不一定局限于二值化模式,图2 5 ( b ) 所示便是个例 外。它提供了两个可独立解码的子序列,分别具有1 9 和1 3 的原始帧率。还有 一点应注意到,为提高编码效率,可以任意更改时域基本层的预测关系,比如i 帧周期可为g o p 长度的整数倍。总之,所选的编码结构并不是一成不变的。 另外,通过限制运动补偿预测的参考图像是否必须按显示顺序之前编码的图 像,便可以任意调整编解码器之间的结构性时延。以图2 5 ( c ) 为例,该等级预 测结构屏蔽了后向运动补偿预测。尽管该结构所提供的时域可伸缩的等级与图 2 5 ( a ) 结构所能提供的相同,但其结构性时延是0 帧,而后者为8 帧。由于仅 采用前向预测,所以图( c ) 所示结构也称为等级p 帧预测结构。等级p 帧预测 结构通常用于实时性要求较高的应用,如视频会议等。 当预测结构满足低时延要求时,随之而来的代价便是编码效率的下降。在用 等级p 帧预测结构时,需要特别注意避免时域块效应。这种块效应由时域预测链 的断裂导致,即当某一帧质量较差时,后续用它做参考预测的帧,其编码质量将 受严重影响,在码率较低时尤为明显。 2 3 2 运动补偿时域滤波( m o t i o nc o m p e n s a t i o nt e m p o r a lf i l t e r , m c t f ) 作为另一种时域分级方式,s v c 定义了基于运动补偿的时域滤波( m c t f ) 1 2 第二章h 2 6 4s v c 关键技术介绍 分解结构 1 4 1 5 。与传统的混合编码器不同,m c t f 是一种基于提升小波的开环编 码结构,它放弃了编码和解码器上的预测递归过程,使用原始图像作为预测图像, 可有效限制编解码器参考帧不一致带来的影响。 m c t f 的提升机制由三个步骤组成:相位分解,预测( p r e d i c t i o n ) 和更新 ( u p d a t e ) ,图2 - 6 表示了分解合成滤波器的结构。 s 一凿亩一 同向 隅下。累积t d i7 丫 7 厂一 申卓一 f 。匙斟、工。丽: ( a ) 提升机制( 分析滤波器组)( b ) 反提升机制( 综合滤波器组) 图2 - 6 分解合成滤波器结构 在分析滤波器组中,输入信号首先在时间上被分解为奇采样值s 2 k + 1 和偶 采样值s 2 k 。然后执行第二步预测,奇采样值s 2 k + 1 使用偶采样值s 2 k 的线性 组合作为预测值,预测算子记为p ( s 2 k ) ,预测所产生的残差是一个高通信号, 记为h k 。最后一步是更新,将预测残差h k 的线性组合作为更新值加到偶采样 值s 2 k 上,结果将产生一个低通信号l k ,这里更新算子为u ( h k ) 。经过这样 一个提升机制,输入信号经过分析滤波器后输出为一组低通信号和一组高通信 号。数学表达式如下所示: h k = s 2 k + 1 - p ( s 2 k 】) 其中:p ( s 2 k ) = :p ,s 2 ( k + f ) ( 2 - 1 ) 尼】= s 2 尼】+ u ( 尼】) 其中:u ( 五 尼 ) = 乏:“,x h k + i ( 2 2 ) f 提升小波变换是可逆的,综合滤波器是p 算子和u 算子以相反的顺序和相反 的符号做逆运算。m c t f 中定义了两种提升方式,h a a r 小波变换与5 3 小波变换, 其预测算子和更新算子分别如下: ,( s x ,2 足 ) = s x + m 肌2 k 一2 o 】 u 砌。( h i x ,尼 ) = h i x + ,。,七+ 勺。】 只3 ( s i x ,2 尼】) = i , i t ( 虹x + 聊p o ,2 k 一2 r e o + 虹x + 朋p 1 ,2 k + 2 + 2 r e l 1 ) 、。 ( 2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论