(信号与信息处理专业论文)基于视频信号描述的视频自适应技术研究.pdf_第1页
(信号与信息处理专业论文)基于视频信号描述的视频自适应技术研究.pdf_第2页
(信号与信息处理专业论文)基于视频信号描述的视频自适应技术研究.pdf_第3页
(信号与信息处理专业论文)基于视频信号描述的视频自适应技术研究.pdf_第4页
(信号与信息处理专业论文)基于视频信号描述的视频自适应技术研究.pdf_第5页
已阅读5页,还剩118页未读 继续免费阅读

(信号与信息处理专业论文)基于视频信号描述的视频自适应技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中国科学技术大学博士学位论文 摘蔓 摘要 基于网络的多媒体应用是当前多媒体技术发展的必然趋势。多媒体应用环境 的多样性给终端用户提供了灵活便捷的多媒体信息获取方式,提高了用户的工作 效率和生活质量。但是,这种多样性同时也造成了媒体信息访问的困难。视频自 适应技术是耳前解决这些问题实现通用媒体访问最有前途的研究方向。 本文将视频自适应技术作为研究内容,对这领域进行了些探索性的研究工 作。首先,本文对现有的视频自适应研究框架进行了分析,指出该框架存在的问 题不利于通用高效视频自适应技术的设计。为克服这一缺点,本文提出了一 种新的研究框架以及相应的算法,主要创新之处有: 本文提出了基于视频信号描述的自适应技术研究方案,即着重研究如何 描述原始视频信号使其便于自适应操作。本文进一步提出用特征描述集 合的形式作为视频信号的表达形式,每种特征描述反映了原始视频信号 某些方面的特性利用这些特性,可以设计简单高效的自适应操作。 基于上述研究框架,本文提出一种运动信息描述算法用于实现码率的自 适应功能。我们首先提出了一种基于分块模式的分层模型用于描述运动 信息,然后提出了一种预编码的算法获取运动信息,最后还提出了运动 信息的快速抽取算法。本算法生成的运动信息描述可用于码流的快速生 成。当需要某一码率的视频时,可以从运动信息描述中抽取出对应的运 动信息用于编码,由于不需要运动估计,所以可以快速生成码流。 本文提出一种率失真信息的提取算法可应用于码率分配。我们首先分析 了预测帧编码的依赖性提出了种依赖性的线性描述模型,并定义了影 响因子的概念。在此基础上,我们提出了单帧率失真函数的修正算法。 修正后的函数隐含了依赖性的考虑,反映了整体失真和单帧码率的关系。 我们将修正后的率失真函数应用于码率分配,提高了整体的编码性能。 本文提出一种基于感兴趣信息的空间自适应解决方案。移动终端用户由 于有限的显示屏尺寸在欣赏高分辨率视频时存在困难。我们基于感兴趣 区域的思想,提出将高分辨率视频转换成由感兴趣区域组成的低分辨率 视频以克服显示屏尺寸带来的限制,同时,尽可能保留原视频中的信息, 提高用户的欣赏效果。整个方案包括感兴趣信息的提取和封装算法、基 于感兴趣信息的量化参数自适应调整算法和快速模式选择算法。 中蕾科学技术大掌博士学位论文摘要 综上所述,本文对视频自适应技术进行了深入地探讨,取得了些有价值的 研究成果。目前,本文提出的视频自适应的研究框架还处于初级阶段,存在很多 问题有待解决,值得我们进行更深入地研究 关键词:视频自适应运动估计率失真函数码率分配感兴趣区域视频转码模 式视觉质量中问媒体 h 中田科学技术大学博士学位论文 a b s t r a c t i n t e r n c tb a s e dm u l t i m e d i aa p p l i c a t i o ni st h ee v o l u t i o n 雠n do fm u l t i m e d i a t e c h n i q u e s c u r r e mc o m p l e xm e d i ae n v i r o n m e n tp r o v i d e su s e r sf l e x i b l em e d i ad a t a a c c e s s ,w h i c hi m p r o v e sw o r k i n ge f f i c i e n c ya n dl i f eq u a l i t yo fu 靶r s h o w e v e r , t h e d i v e r s i t yp r o p e r t ya l s ob r i n g ss e r i o u sd i f f i c u l t i e si nm e d i ad a t aa c c e s s v i d e o a d a p t a t i o ni st h em o s tp r o m i s i n gs o l u t i o nf o ra c h i e v i n gu n i v e r s a lm e d i aa c c e s s w es m d i e dv i d e oa d a p t a t i o nt e c h n i q u e si nt h i sd i s s e r t a t i o n f i r s t l y , w ea n a l y z e d 喇s b n gv i d e oa d a p t a t i o nf r a m e w o r ka n df o u n dt h a ti ti sn o ta p p m p r i a t ef o rd e s i g n i n g g e n e r a la n de f f i c i e n tv i d e oa d a p t a t i o no p e 豫t i o 舾b a s e do nt h i sa n a l y s i s ,w ep r o p o s e d an o v e lv i d e oa d a p t a t i o nf r a m e w o r ka n ds o m er e l a t e da l g o r i t h m s t h em a i n c o n t r i b u t i o n s o f m i s d i s f 删o n c a n b es u m m a r i z e da s f o l l o w s w ep r o p o s e dnv i d e oa d a p t a t i o nf r a i n c w o r kb a s e d0 nv i d e os i g n a l r e p r e s e n t a t i o n i nw h i c ht h ek e yp o i n ti sh o wt od e s c r i b ev i d e os i g n a lt o f a c i l i t a t ei ti nv i d e oa d a p t a t i o no p c r a d o 璐w ea l s op r o p o s e dt h es e to f f e a t u r e d e s c r i p t o r sa st h er e p r e s e n t a t i o no fv i d e os i g n a l e a c hd e s c r i p t o rr e n e c t ss o m e c h a r a c t e r i s t i c so f 嘶g i u s lv i d e os i g n a l b ym a k i n gu s i n go ft h e s ed e s c r i p t o r s w ec 瓶d e v e l o ps i m p l ea n de f f i c i e n tv i d e oa d a p t a t i o no p e r a t i o n s b a s e do nt h ef r a m e w o r ka b o v e ,w ep r o p o s e dam o t i o nd e s c r i p t i o na l g o r i t h m f o rb i t - r a t ea d a p t a t i o n f i r s t l y , w ep r o p o s e dam o d e b a s e dh i e r a r c h i c a lm o d e l f o rm o t i o ni n f o r m a t i o n s e c o n d l y , w ep r o p o s e dap r e e n c o d i n gm e t h o dt o a c h i e v em o t i o nd e s c r i p t o r w ea l s od e v e l o p e dam e t h o do fm o t i o ne x t r a c t i o n t h eg e n e r a t e dm o t i o nd e s c r i p t o rc a nb ea p p l i e di nf a s tb i ts t r e a mg e n e r a t i o n w h i l ee n c o d i n gav i d e oi ns o m eb i t - r a t e ,t h ee n c o d e rc a ne x t r a c tp r o p e r m o t i o ni n f o r m a t i o nt oa c c e l e r a t et h ee n c o d i n gp r o c e s s d u et os k i p p i n g m o t i o ne s t i m a t i o n ,t h ee n c o d i n gc o m p l e x i t yc a nb er e d u c e dg r e a t l y w ep r o p o s e d 卸a l g o r i t h mt oe x t r a c tr a t e d i s t o r t i o ni n f o r m a t i o nf r o mo r i g i n a l v i d e os i 伊a 1 t h ei n f o r m a t i o nc a l lb eu s e di nb i ta l l o c a t i o n w ea n a l y z e dt h e d e p e n 妇ya m o n gp r e d i c t i v ef r a m e sa n dp r o p o s e da l i n e a rm o d e lf o ri t w e a l s oi n t r o d u c e dt h ed e f i n i t i o no fi m p a c tf a c t o r b a s e do nt h el i n e a rm o d e l ,w e p r o p o s e dam e t h o dt om o d i f yt h er a t e - d i s t o r t i o nf u n c t i o no f e a c hf r a m e t h e n , t h em o d i f i e df u n c t i o n sw i t hd e p e n d e n c yc o n s i d e r a t i o nr e f l e c tt h er e l a t i o n s h i p s b e t w e e nt h ew h o l ed i s t o r t i o na n dt h es i n g l ef r a m er a t e w i t ht h e s em o d m e d n l 中亩科学技术大学博士学位论文 a b m , a e t f u n c t o n s i ti s 张s y 幻a c h e v eo p t r a a lb ra l l o c a t o n 幻i r a p r o v et h ee n c o d i n g p e r f o 蝴c e w ep r o p o s e das p a t i a la d a p t a t i o nf r a m e w o r kb a s e do na t t e n t i o ni n f o r m a t i o n t h el i r m t e dd i s p l a ys i z eo fm o b h ed e v i c e sh i n d e r st h ep e r c e p t i v ee x p e r i e n c e s o fu s e r sw h e nt h e yb r o w s eh i g h - r e s o l u t i o nv i d e o s b a s e do t h ei d e ao fg o i 。 w ep r o p o s e dt ol r a n s f o r mh i g h - r e s o l u t i o nv i d e o si n t ol o w - r e s o l u t i o no n e s w h i c ha r cc o m p o s e do fg t t t e n t i o na f 戢h ;i ne a c hf r a m e 。w h i c hw i l lm e e tt h e c o n s l r a i mf r o mt h el i m i t e dd i s p l a ys i z e a tt h es a e f l et i m e ,m o s to fa n e n t i o n i n f o r m a t i o ni no r i g i n a lv i d e os i g n a lw i l lb er e m a i n e d l t l lt h i sf r a m e w o r k , t h ep e r c e p a v ee x p e r i e n c eo fm o b i l et l l sw i l lb ei m p r o v e d t h ew h o l e f r a m e w o r ki n c l u d e sf l t e ea l g o r i t h m s :t h ee x t r a c t i o na n de n c a p s u l a t i o no f a l f e n t i o ni n f o r m a t i o n ,q pa d a p t i v ea d j u s t m e n tb a s e do na n e n t i o ni n f o r m a t i o n , a n df a s tm o d ed e c i s i o nf o rt r a n s c o d i n g i nc o n c l u s i o n ,w es t u d i e dv i d c oa d a p t a t i o n t e c h n i q u e sa n da c h i e v e ds o m e v a l u a b l er e s u l l s 砸n o w , t h ep r o p o s e df r a m e w o r ki ss i i na t 世i n i t i a ls t a g ea n dt h e r e e x i s tm a n yp r o b l e m sn e e d e dt ob es o l v e d t h ev i d e oa d a p t a t i o nf r a m e w o r kb a s e do 矗 v i d e os i g n a lr 印r e s e n t a t i o ni sap o t e n t i a lr e s e a r c hf i e l dw h i c hi sw o r t h yo ff u l t h e r s t u d y k e y w o r d s :v i d e oa d a p t a t i o n ,m o t i o ne s t i m a t i o n ,r a t e - d i s t o r t i o nf u n c t i o n ,b i t a l l o c a t i o n , r e g i o no f i n t e r e s t i n g 。v i d e o a u s c o d n g ,m o d e ,v i s u a lq u a l i t y , i n w - n u e d a 中重科学技术大学博士学位论文 图表目录及缩略语 图表目录及缩略语 插图目录 图1 - 1 视频编码技术的发展历程3 图1 2 视频编码标准的发展历程4 图1 3 通用媒体访问( u n i v e r s a lm u l t i m e d i a a c c e s s ) 8 图1 - 4 视频自适应功能示意图一9 图1 5 视频自适应概念性框架n 图1 - 6 视频自适应技术分类1 2 图1 7 基于语义事件的自适应流媒体框架1 3 圈1 8 足球视频的m o s a i c 结果1 4 圈2 1 视频自适应系统示意图1 7 图2 2 基于如t e r m e d i a 的多压缩标准自适应解决方案1 9 图2 3 基于视频信号描述( i n t e r t n e d i a ) 的通用视频自适应解决方案2 0 图2 4 基于i n t e r m e d i a 的视额自适应系统的一个例子2 0 图3 ,l 视频编码流程图二2 3 图3 2 视频帧分割成宏块2 4 图3 3 运动估计得到运动矢量2 4 图3 - 4 视频解码流程图2 5 图3 - 5 运动信息重用率失真曲线3 0 图3 - 6 视频信号的亮度和色度反映的二维运动和真实的运动场不一致的例子3 3 图3 7f o r e m a n 序列第2 帧运动场在不同q p 下的变化3 4 图3 - 8h 2 6 4 a v c 的i n t e r 宏块模式3 5 图3 - 91 2 和i 4 像素插值3 5 图3 1 0 i n t e r 模式在不同q p 下的比例。3 7 图3 1 1 运动信息描述的分层模型3 8 图3 ,1 2 模式限制示意图,其中0 7 分别对应s k i p 、1 6 x 1 6 、1 6 蝎、8 x 1 6 、8 x 8 、8 x 4 、 4 x 8 和4 x 4 共8 种模式3 9 图3 1 3 运动信息描述生成流程图。4 0 图3 t 4 有模式限制和无模式限制编码性能比较4 5 图3 1 5 同原始h 2 6 4 a v c 和s v c 的编码性能比较4 7 图3 1 6 同f o i l - m e 和m o t i o nr e u s a g e 两种转码方法的编码性能比较4 8 图年l 熵压缩编解码示意图5 5 图4 - 2 率失真关系示j 菖图5 6 图4 3d e a d z o n e 量化示意图5 7 圈4 - 4 在不同质量参考帧下预测帧r d 曲线6 2 圈4 5 在固定码率下当前帧和参考帧失真之间的关系“ 图4 - 6 在量化参数j 和j + l 下连续两帧的率失真曲线 图4 - 7 量化参数j 对应的率失真曲线 图4 - 8 真实率失真曲线和相对率失真曲线 6 6 6 8 图4 - 9 四种算法性能比较7 3 图5 1 静态特征注意力模型7 7 中国科学技术大学博士学位论文 田袭目录及缩略语 图5 - 2 动态特征注意力模型建立7 7 图5 - 3 转码器0 r e n s c o d e r ) 示意图 图5 4c a s c a d el r a n s c o d e r 示意图7 8 图5 - 5 基于m o t i o nr 口的p i x e l - d o m a i n 快速转码方案7 9 图5 6o p e n - l o o p 框图7 9 图5 7s i m p l i f i e dd c t - d o m a i nt r a n s c o d c r 框图8 0 囝5 8m o t i o nr e f i n e m e n t 性能和搜索半径关系 图5 - 9 空间自适应系统在网络传输中的位置8 l 图5 1 0 基于感兴趣区域的空间自适应系统8 2 图5 1 l 基于感兴趣区域的空间自适应系统 图5 1 2 视频内容生成流程图。 图5 - 1 3 显著对象检测的一个例子 图5 1 4 容纳感兴趣信息的s e i 消息 图5 1 5 偏向感兴趣区域码率分配策略编码性能比较。 图5 1 6 空间视频自适应系统结构图“ 图5 1 7 有无运动矢量调整的转码性能的比较 8 9 9 0 圈5 1 8 宏块a ,b 。c ,d 和e 空间关系示意图 圈5 - 1 9 f m d 和f s 算法编码性能的比较, 圈5 2 0f m d 和f s 算法编码复杂度的比较 9 3 9 4 图5 2 1 、v i t h 和w i t h o u tq pa d j u s t m e n t 编码性能比较 图5 2 2w i t h 和w i t h o u tq pa d j u s t m e n t 转码性能比较 圈5 - 2 3 主观质量比较示例。 表格目录 9 7 9 9 1 0 0 表3 1 运动估计在编码时间中所占的百分比2 6 袭3 2 编码参数 表3 - 3 二维运动模型3 2 表3 4f o r e m a n 序列在不同q p 下的模式个数3 6 表3 5 原始序列和运动信息描述尺寸比较4 9 袭3 - 6 运动信息编码所需比特数的比较5 0 表3 7 编码复杂度比较5 i 表3 - 8 单m b 单q p 运动估计复杂度5 2 袭3 - 9 单m b 多q p 运动估计复杂度,5 2 表3 ,l o 运动矢量个数比较5 3 衰4 - l 在固定码率下参考帧和当前帧失真的关系,6 3 袭4 2 四种算法的编码性能比较7 2 袭5 1 感兴趣信息码率和原码流码率的比较9 5 表5 - 2 主观质量评测结果1 0 1 常用缩略语 m 旺m o t i o ne s t i m a t i o n m cm o t i o nc o m p e n s a t i o n v i 运动估计 运动补偿 中国科学技术大学博士学位论文田表目录及缩略语 r o l h v s q p s v c f s s 口 m p e g v c e g a 、r s j 、r r 婚| c m v r d h m r e g i o no f i n t e l e $ t h u m a n $ 1 1 a ls y s t e m q u a n t i z a t i o np a x a 砒t e r s c a l a b l ev i d e oc o d i n g f u l ls e m c h s u p p l e m e n te n h m 1 c ei n f o r m a t i o n m o t i o np i c t u r ee x p o tg r o u p v i d e oc o d i n ge x p e r tg r o u p a u d i ov i d e os t a n d a r d j o i n t v i d e ot e a m a d v a n c e dv i d e oc o d i n g m o r i o nv e c t o r r a 也d i s t o r t i o n m a c r o b l o c k 感兴趣区域 人类视觉系统 量化参数 分级视频编码 全搜索 补充增强信患 运动图像专家组 视频编码专家组 音视频编码 联合视频小组 高级视频编码 运动向量 率失真 宏块 中国科学技术大学学位论文相关声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作 所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含任 何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究 所做的贡献均已在论文中作了明确的说明。 本人授权中国科学技术大学拥有学位论文的部分使用权,即:学 校有权按有关规定向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅,可以将学位论文编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 保密的学位论文在解密后也遵守此规定。 作者签名:拯 刎年玛7b 中啻科学技术大学博士学位论文第一章绪论 第一章绪论 当今时代,信息技术和计算机网络技术已得到飞速发展。在此背景下。多 媒体信息已成为人类获取信息的最主要载体之一,同时也成为电子信息领域技 术开发和研究的热点。从概念上说,多媒体信息指融合两种或者两种以上媒体 的一种人一机交互式信息交流和传播媒体,使用的媒体包括文字、图形、图像、 声音、动画和视频等。多媒体技术使计算机具有综合处理声音、文字、图像和 视频的能力。它以形象丰富的声音、文字、图像等信息和方便的交互性,极大 地改善了人机界面,改变了使用计算机的方式,从而为计算机进入人类生活和 生产的各个领域打开了方便之门,给人们的工作、生活和娱乐带来了深刻的变 化i l l 2 儿3 “】 近年来,随着多媒体技术的进步,各种多媒体应用也得到迅猛发展,例如 数字电视广播、远程监控、数字视频点播、无线多媒体通信等。这些应用无一 例外都要用到多媒体技术中最重要的一个部分一视频技术。人类获取的信息 中7 0 来自于视觉,视频信息在多媒体信息中占有重要地位。同时因为视频 数据的冗余度最大,经压缩处理后的视频质量高低成为决定多媒体服务质量的 关键因素。因此。数字视频技术是多媒体应用的核心技术,对视频技术的研究 已成为信息技术的热门研究领域。 众所周知,未经压缩的原始视频数据,其数据量之大对于当前有跟的传输 带宽或存储空间都是难以承受的。举例来说:一帧d v d 格式的未压缩图像( 分辨 率为7 2 0 x 5 7 6 每个像素r g b 三色共需要2 4 比特) 要占用1 2 1 “j b 的空间,假设帧 率为3 0 帧秒。则一部两个小时的电影其数据量高达2 6 0 g 。虽然网络带宽和存 储设备的容量已经飞速发展,这样的数据量也是无法承受的。因此,视频压缩 技术一直是国内外视频技术研究的热点之一。经过近半个世纪的研究,数字视 频编码技术无论是在算法研究还是在产业发展上都有了长足的进展,国际上已 经成功地制定了面向各种应用的多个视频编码标准,主要包括:用于v c d 存储 的m p e g - i 标准 8 ;用于数字视频光盘( d v d ) 和数字广播( d v b ) 韵m p e g - 2 标准 9 ;用于视频会议的h 2 6 1 h 2 6 3 标准 6 7 :允许对任意形状的对象进行编 码的m p e g - 4 标准c l o ;国际上最新制定的i - ,2 6 4 a v c i l 】视频编码标准 以及 国内的a v s 数字音视频编码标准。 除了视频编码标准中定义的以压缩为目的视频技术以外,视频技术领域还 包括众多的研究方向,例如:快速运动估计( f a s tm o t i o ne s t i m a t i o n ) 、码率 控制( r a t ec o n t r 0 1 ) 、转码( t r a n s c o d i n g ) 、视频去噪( v i d e od e n o i s e ) 等。这 中目科学技术大学博士学位论文 第一章绪论 些技术并未定义在压缩标准中,但是它们对于多媒体应用的实现同样具有重要 的作用。 视频自适应( v i d e oa d a p t a t i o n ) 技术 4 3 - 5 3 是近年来视频技术领域出现 的研究熟点之一,其目的是为了解决随着多媒体应用的扩展出现的越来越多的 多媒体信息访问困难。视频自适应涵盖了众多的理论和技术,其研究具有非常 重要的理论和实用价值。本文的主要工作是从视频描绘( v i d e or e p r e s e n t a t i o n ) 的角度研究普适性的视频自适应技术。由于视频自适应技术与编码标准密切相 关,所以本章首先对视频压缩基本原理和现有的视频编码标准进行简单介绍; 然后详细阐述视频自适应技术的研究背景和意义;最后介绍本文在视频自适应 领域所做的工作 1 1 视频编码基本原理 视频是人类在多媒体时代无时无刻不在接触的信息,但未经压缩的原始视 频数据量巨大,给存储和传输造成了很大的困难,所以需要对原始的视频信号 进行压缩。实际上,视频数据存在大量的冗余,这使得对其进行几倍、几十倍 甚至上百倍的压缩成为可能。这些冗余包括时域冗余、空域冗余、统计冗余以 及心里视觉冗余【5 。 空域冗余:般一幅图像中经常存在大量内容相似的区域,在空间上存在 很大的相关性,即空域冗余。 时域冗余:视频序列连续图像之问一般内容变化不大,具有很强的相关性, 这称之为空域冗余,也是视频压缩中最需要去除的冗余。 统计冗余:在对信息熵编码的过程中,若采用不同的编码方法,编码每个 信源符号的平均比特数不一定相同,即编码码字存在冗余,造成编码效率 不同,这就是统计冗余 心理视觉冗余:主要指人眼视觉系统对图像的对比度、色彩、空间、时问、 以及频率等特性的分辨能力有一定的限度。因此在定程度上降低信号表 示的精度,不会被人眼察觉,实现降低数据量的目的。主要包括对比度敏 感性、色彩敏感、纹理敏感性和空间频率敏感性等几个方面 为了实现视须信号的压缩,必须尽可能消除上述的各种冗余。从上个世纪 四、五十年代开始人们就进行了很多研究。对于视频数据中的空域冗余,正交 交换能够将空域相关的数据转换成频域内不相关的变换系数来表示。同时正交 变换还具有能量集中的作用,可以用若干个低频系数近似表示原来的能量因 2 中置科学技术大学博士学位论文第一章绪论 此,变换与量化相结合能够舍弃一些高频部分重要性较低的系数,从而达到压 缩的目的,同时又不会造成大的失真。视频数据中的时域冗余可以用运动补偿 ( m c :m o t i o nc o m p e n s a t i o n ) 技术来消除,其基本思想是将连续的视频图像内容 进行匹配,对匹配的内容进行做差预测,从而降低冗余。匹配既可以是基于帧 的,也可以基于块的,甚至像素级的匹配。对于统计冗余,主要是通过熵编码 技术的研究,通过其提高熵编码效率来降低统计冗余,例如从哈夫曼变长码到 算术编码。心理视觉冗余则是在降低数据采样速率、分级量化等技术中得到广 泛运用例如利用人眼对色彩空间中的亮度较为敏感,而对色度信息不太敏感 的特性,通过降低色度信息的采样率能大大降低数据量 1 2 】图i - i 显示了视 频编码技术的发展历程。 图l - i 视频编码技术的发展历程【5 】 1 2 视频编码标准简介 国际上有两个国际组织专门负责视频编码标准的制定工作,一个是i s o f l e c 下的v l p e gf m o f i o np i c t u r ee x p e r t sg r o u p ) 组织,另一个是删t 的v c e g ( v i d e o c o d i n ge x p e mg r o u p ) 组织。成立于1 9 8 6 年的运动图像专家组m p e g 专门负责 制定多媒体领域内的相关标准主要应用于存储、广播电视、因特网或无线网 上的流媒体等。国际电信联盟i t u t 则主要制定面向实时视频通信领域的视频 编码标准,如视频电话、视频会议等应用。我国于2 0 0 2 年6 月成立了a v s 工 作组,专门负责为国内多媒体工业界制定相应的数字音视频编码标准。 图1 2 显示了到目前为止由国内外各组织制定的各种视频编码标准。m p e g 组织在1 9 9 3 年制定了面向v c d 应用的m p e g 1 0 s 1 1 1 1 7 2 2 ) 标准,数据速率在 1 - 2 m b p s 左右;1 9 9 4 年发布了面向d v d 、高清电视( s d t v 和h d t v ) 等应用的 m p e g 2 ( i s l 3 8 1 8 - 2 i t u - th 2 6 2 ) 标准,适用于4 - 3 0 m b p s 甚至更高码率;1 9 9 9 中国科掌技术大学博士学位论文 第章绪论 年制定了面向低码率传输的陀g 4 ( 1 4 4 9 6 2 标准( 予1 9 9 3 年启动,以m p e g - 2 , h 2 6 3 为基础) 。国际电信联盟r r u t 的v c e g 基本上与m p e g 的发展同步, 制定了一系列的h 2 6 x 标准,开始于1 9 8 4 年的h 2 6 1 标准是m e g 一1 标准的前 驱,于1 9 9 0 年底基本完成,主要是为了在i s d n 上实现可视电话、视频会议而 制定的。在h 2 6 1 的基础上,1 9 9 6 年咖t 制定了h 2 6 3 编码标准( 启动于1 9 9 2 年) ,相继又推出了h 2 6 3 + 、h 2 6 3 + + 等。2 0 0 1 年v c e g 和m p e g 联合成立了 一个工作组j v t ( j o i n tv i d e ot e a m ) ,负责制定一个新的视频编码标准。该标准 在s o 中称为m p e g - 4 标准的p a r t1 0 ( a v c ) ,在r 1 1 j - t 中称为h 2 6 4 标准。在 后续的章节中,我们统一称之为h - 2 “a v c 。 为了适应国内多媒体产业发展的要求,成立于2 0 0 2 年6 月份的a v s 工作 组负责制定国内工业界自己的音视频编码标准。到目前为止,a v s 工作组已成 功制定了面向商清数字电视广播的视频编码标准称为a v s i 0 和面向移动通信 的视频编码标准称为a v s m 陪 l 哪“l 岫lm 眇 一一陟 蝣 鳙b 佃 姗 搬t 9 辩1 辨稍舢舳卸hz o 哺硼啊 图l - 2 视频编码标准的发展历程【5 】 以上是从标准的制定时间来看视频编码标准的发展,若根据编码效率来街 量,上述标准可以大致划分为三个阶段:般m p e g - 2 及其以前的标准称为第 一代编码标准;m p e g - 4 ,h 2 6 3 基本上属于同一时期的产物,编码效率也基本 相当;以h 2 6 4 a v c 、a v s 标准为代表的视频标准编码性能有了很大的提高, 包含了最新的视频编码技术【5 1 m p e g - l ,2 和h 2 6 l 加p e g 1 尼和h 2 6 1 属于第一代视频编码标准,所采用的预测技术可分为帧 内预测和帧间预测两种。帧内预测是用本帧内的信息进行预测t 即直接编码; 帧阃预测对每个宏块( m b :m a c r o b l o c k ,大小为1 6 x 1 6 的方块) 进行运动估计 圯: 中田科学技术大学博士学位论文第一章绪论 m o t i o n 嚣a n m a l i o n ) 搜索运动矢量( m v :m o t i o nv e a o o ,运动矢量精度为整像素或 半像素,包括前向预测( p 帧) 与双向预测( b 帧) 。运动矢量编码,是编码当前运 动矢量与相邻宏块的运动矢量之间的差值。经过预测后,对预测残差进行8 x 8 块d c t 变换。变换后的i n f f a 块d c 系数采用差分编码,熵编码码表为二维( r u n , l e v e l ) 码表【5 】。 m p e g - 4 和h 2 6 3 以m i 吧g - 4 ,h 2 6 3 、h 2 6 3 + 和h 2 6 3 + + 为代表的编码标准在帧内、帧问预 测和熵编码方面都有相应的改进,它们基本上是同一阶段的产物,在技术上相 互交叉。在帧内预测方面,都采用了频域内的d c i a c 预测技术,即对变换后的 d c a c 系数进行水平或垂直方向的差分预测;对于帧间预测,一方面增加了8 x 8 的块预铡模式,即每个宏块的四个8 x 8 的子块都可以拥有独立的运动矢量,另 一方面支持m e d i a nm vp r e d i c t i o n ,即对运动矢量的编码从原来简单的拿前块 来做预测变为采用周围块运动矢量的中值进行预测。在m p e g - 4a s p ( a d v a n c e d s i m p l el p r o f i l e ) 以及h 2 6 3 + + 中运动矢量的精度已达到i 4 像素精度;熵编码则 从二维( r u n ,l e v e l ) 编码改进为( r u n ,l e v e l ,l a s t ) 编码。除了上述的改进。h 2 6 3 还支持o b m c ( o v c r l a p p e db l o c km o i l o nc o m p e n s a t i o n ) ,p i c t u r e e x n a p o l a t i n gm v s 等新技术。而m p e g - 4 则支持基于对象的编码功能,注重用户与内容的交互性。 与m p e g - 4 相比,h 2 6 3 则更注重编码效率的提高,先后经历了h 2 6 3 、h 2 6 3 + 、 h 2 6 3 + + 等几个版本,除了m p e g - 4 中用到的无限制运动矢量、d c a c 预测等 技术外还增加了去块效应滤波( d e b l o c k i n gf i l t e r ) 、多参考帧预测等技术【5 】。 h 2 6 4 a v c 和a v s h 2 6 4 a v c 和a v s 都是最新制定的视频编码标准,汇集了现有的各种先进的 视频编码技术 1 3 - 2 4 】,代表了视频编码领域的最高水平。由于采用了整数变 换( i n t e g e rt a n s f o r m ) 、多参考帧预测( m u l t i r e f e r e n c ep r e d i c t i o n ) 、可变 块大小( v a r i a b l eb l o c ks i z e ) 的1 4 像素精度运动补偿,基于上下文的自适应 熵编码等技术,其编码效率有了历史性的突破。一般来说,相比于以前的标准, 可以在保持视频质量不变的前提下,码率下降一半。 h 2 6 4 a v c 的前身是i t u t 的h ,2 6 l ,它是i t u - t 为了继续h 2 6 3 、h 2 6 3 + 、 h 2 6 3 + + 的工作。进一步提高视频编码效率而提出的。在2 0 0 1 年,i t u - t 和i s o 共同成立了一个联合工作组j y t ( j o i n tv i d e ot e a m ) ,专门负责制定新一代的 视频编码标准。该标准在i s o 中称为 口e g 一4 标准的p a r t1 0 ( a v c ) 。在i t 卜t 中称为h 2 6 4 标准。 为了支持国内多媒体工业界的发展,2 0 0 2 年成立的a v s 工作组专门负责制 中置辩学技术大学博士学位论文 第一章绪论 定国内的数字音视频编码标准。根据a v s 标准面向的应用场景,可将a v s 视频 标准划分为两部分:一分是面向

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论