(信号与信息处理专业论文)基于dm642的mpeg4编码器的实现.pdf_第1页
(信号与信息处理专业论文)基于dm642的mpeg4编码器的实现.pdf_第2页
(信号与信息处理专业论文)基于dm642的mpeg4编码器的实现.pdf_第3页
(信号与信息处理专业论文)基于dm642的mpeg4编码器的实现.pdf_第4页
(信号与信息处理专业论文)基于dm642的mpeg4编码器的实现.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江大学硕l 学位论文 摘要 随着信息社会的发展,毒媒体技术得到了越来越广泛的戍用。在多媒体的付界中,视频 编解码充当着关键的角色,儿其是在凹像通信、视频监控、流媒体、数字电视等领域。通过 视频压缩,使得采集、存储、处理币l 传输庞人的视频数据成为可能。这其。 _ 运动估计的作用 功不可抹,它通过比铰连续视频帧之问的时i j 相关性,有效地降低了视频幽像的时间冗丁度, 人 压缩视频数据。 随着嵌入式视频应j ;i j 需求的增夫,目前,基丁硬件的实现方窠有以。f j l i 匕 是采用专 用的视频压缩a s i c 芯片;世采川专川视频数字信号处理芯片:三是使川通州的多媒体数 字信号处理器,如1 1 的d m 6 4 2 芯片。其巾方案兰具备r 根高的运算效率,同时其灵活性比 l 岛于a s i c 编码器,且易于实现利升级。 本文首先介纠t 了视频编码标准的发展历程,然后重点介鲥厂m p e g 一4 标准的些芙键模 块,如运动估计,纹理编码等,升重点研究了运动估计的快速算法,提出了“基丁线性颁测 的半像素运动什计”年“曲步快速半像素搜索算法”l 埘种新的算法,实验结屎显不这些新的 算法可以有效降低运算复杂度,提高运算速率;接着,我们结合d m 6 4 2 嵌入式系统的硬件 特性,从编码器软件流程、存储器系统、代码级优化、提高指令的并行i 牛等儿方面对代码进 行了研究和优化。庄这个过程中,总结了坫t d m 6 4 2 的视频压缩编码软件开发的些方法 和技巧,为今后单丁d s p 平台的软什开麓积累了宝贵的经验。 关键词;视频编码,m p e o - 4 ,运动估计嵌速算法t m s 3 2 0 d m 6 4 2 ,数宁媒体处理器 浙江人学硪1 学位论文 a b s t r a c t w i t ht h ed e v e l o p m e n to fi n f o r r n a t i o ns o c i e t y , m u l t i m e d i at e c h n o l o g yi sg e t t i n g m o r ea n dm o r ea p p l i c a t i o n s i nt h ew o r l do fm u l t i - m e d i a ,v i d e oc o d i n gp l a y st h ek e y r o l e ,e s p e c i a l l y i nt h ea r e a so fi m a g ec o m m u n i c a t i o n ,v i d e os u r v e i l l a n c e ,s t r e a m m e d i a ,d i g i t a lt v t h r o u g hi m a g ec o m p r e s s i o n ,t h es a m p l i n g , s t o r a g e ,p r o c e s s i n ga n d t r a n s m i t t i n gu l t r a l a r g ed a t ab e c o m ep o s s i b l e a m o n gt h e mt h ee f 诧c to fm o t i o n e s t i m a t i o ni si m p o r t a n t i te f f e c t i v e l yr e d u c e st h et e m p o r a lr e d u n d a n c yb e t w e e n s u c c e s s i v ef r a m e s t h e nm o r ec o m p a c t e dv i d e od a t ai so b t a i n e d w i t ht h ed e v e l o p m e n to ft h ee m b e d d e dv i d e oa p p l i c a t i o nn e e d ,c u r r e n t l y , t h e i m p l e m e n t a t i o no fv i d e oe n c o d e ri sa sf o u o w s f i r s t l y , u s i n gd e d i c a t e da s i cc h i pf o r v i d e oc o d i n g s e c o n d l y , u s i n gs p e c i a lv i d e od i g i t a ls i g n a lp r o c e s s o r 耵l el a s to n ei s u s i n gau n i v e r s a lm e d i ad s p ,s u c ha sd m 6 4 2 ,w i t h6 0 0m h za n d4 8 0 0m i p s , d e s i g n e db vt ic o r p o r a t i o n t h e s ep o i n t sm a k et h el a s tw a ym o r ef l e x i b l et h a nt h e o t h e rw a y sa sw e l la sh i 吐p e r f o r m a n c e a tt h eb e 百n n i n go ft h i sp a p e r ,w ew i l li n t r o d u c et h ed e v e l o p m e n th i s t o r yo ft h e v i d e os t a n d a r d ,t h e ni n t r o d u c et h ek e ym o d u l e so fm p e g - 4 ,s u c ha sm o t i o n e s t i m a t i o n ,t e x t u r ee n c o d e r a f t e rt h a t ,w ew i l lp u tt h ee m p h a s e so nt h ef a s tm o t i o n e s t i m a t i o na l g o r i t h mi n c l u d i n g h a l f - p i x e lm o t i o ne s t i m a t i o nb a s e do nl i n e a r p r e d i c t i o n a n d af a s tt w o s t e ps e a r c ha l g o r i t h mf o rh a l f - p i x e lm e e x p e r i m e n t a l r e s u l t ss h o wt h a t s i g n i f i c a n tr e d u c t i o ni nc o m p u t a t i o no fm o t i o ne s t i m a t i o n i s a c h i e v e db yu s i n gt h ep r o p o s e dm e t h o d ,w i t h o u tv i s i b l el o s si nr i d e of i d e l i t ya n d i n c r e m e n ti nb i tr a t e a tl a s t w ew i l lo p t i m i z et h em p e g 4v i d e oe n c o d e rb a s e do n t h ed m 6 4 2p l a t f o r m s e v e r a lm e t h o d sw i l lb eu s e ds u c ha sc h a n g i n gt h ef l o wt h e c o d e ,o p t i m i z i n gt h em e m o r ys y s t e m ,r e f i n et h ec o d es t y l e ,e n h a n c et h el e v e lo fc o d e p a r a l l e l d u r i n gt h ep r o j e c t ,io b t a i ns o m em e t h o d sa n ds k i l l si nd e v e l o p i n gam e d i a a p p l i c a t i o nb a s e do nt h e1 3 l s pp l a t f o r m k e y w o r d s :v i d e oc o d e ;m p e g - 4 ;m o t i o n e s t i m a t i o n ;t m s 3 2 0 d m 6 4 2 ;m e d i ad i g i t a ls i g n a l p r o c e s s o r 2 浙江人学硕上学位论文 第一章绪论 众所周知,人类获取的信息中7 0 来自于视觉,同时视频信息所具有的直观 性、确定性、高效性等优点使其在多媒体信息中占有重要地位 1 。 但是,视频信号由于其庞大的数据量,如何采集、存储、处理和传输这些信 息成了多媒体应用系统开发的最大障碍。通过单纯地扩大存储器容量、增加通信 十线的传输速率的办法是不现实的,于是视频压缩技术应运而生。视频压缩在保 证图像质量的前提下,可以有效提高采集、存储、处理和传输这些信息的效率, 节省图像存储空间和便于实现远程可视通信系统。因此,数字视频压缩技术成为 了多媒体应用的核心技术,对视频编码的研究已成为信息技术领域的热门话题。 表卜l 列出了5 种常用视频格式的原始数据量,可以看出如此庞大的数据量,若 不经过压缩进行传输是不可想象的。 表1 15 种视频格式的原始数据最 视频格式 q c i fc i fv g ad 1h d t v1 0 8 0 i 视频大小 1 7 6 丰1 4 43 5 2 2 8 86 4 0 4 8 07 0 4 5 7 61 9 2 0 1 0 8 0 数据量m b p s 9 1 2 43 6 4 9 51 1 0 5 9 21 4 5 9 8 17 4 6 4 9 6 ( 3 0 f p s ) 目前,视频压缩技术已得到了广泛的应用,如网上可视会议、网上可视电子 商务、网上政务、网上购物、网上学校、远程医疗、网上研讨会、网上展示厅、 个人网上聊天、可视咨询等。 1 1视频编码技术简介 数据压缩,就是以最少的数码表示信源所发的信号,减少容纳给定消息集合 或数据采样集合的信号空间 2 。 传统压缩编码是建立在香农信息论基础之上的,以经典集合论为工具,用概 率统计模型来描述信源,其压缩思想基于数据统计,因此只能去除数据冗余,属 于低层压缩编码的范畴 3 。 伴随着视频编码相关学科及新兴学科的迅速发展,新一代数据压缩技术不断 诞生并f 1 益成熟,其编码思想由基于像素和像素块变为基于内容( c o n t e n t b a s e d ) 的编码。它突破了香农信息论框架的束缚,充分考虑了人眼视觉特性及信源特性, 通过去除内容冗余来实现数据压缩,可分为基于对象( o b j e c t b a s e d ) 和基于语义 ( s e m a n t i c s b a s e d ) 两种,前者属于中层压缩编码,后者属于高层压缩编码。 浙江人学硕j 学位论文 视频编码系统的基本结构如图1 1 所示 1 。由图1 1 可见,视频编码方法 与所采用的信源模型有关。如果采用“一幅图像由许多像素构成”的信源模型, 这种模型的参数就是每个像素的亮度和色度的幅度值。对这些参数进行压缩编码 的技术称为基于波形的编码。如果采用一个分量有几个物体构成的信源模型,这 种模型的参数就是各个物体的形状、纹理和运动。对这些参数进行压缩编码的技 术被称为基于内容的编码。 由此可见,根据采用的信源模型,视频编码可以分为两大类:基于波形的编 码和基于内容的编码。他们利用不同的压缩编码方法,得到相应的量化前的参数; 再对这些参数进行量化,用二进制表示其量化值:最后,进行无损熵编码进一步 压缩码率。解码则是编码的逆过程。 乜竺_ j 陌磊k i 编码器 有损的无损的 ! 圆匹卜匿i 一一 一 一 一一_ 二 v 愀型数件臣母澡声 1 1 1 基于波形的编码 图1 1 视频编码系统 利用像素间的空间相关性和帧间的时间相关性,采用预测编码和变换编码技 术可大大减少视频信号的相关性,从而显著降低视频序列的码率,实现压缩编码 的目标。 基于波形的编码采用了把预测编码和变换编码组合起来的基于块的混合编 码方法。 为了减少编码的复杂性,使视频编码操作易于执行,采用混合编码时,首先 把一幅图像分割成固定大小的块,例如1 6 x 1 6 的宏块( 1 6 行,每行1 6 个像素) 和 8 x 8 的块( 8 行,每行8 个像素) 等等,然后对块进行压缩编码处理。 自1 9 8 9 年i t u t 发布第一个数字视频编码标准一h 2 6 1 以来,已陆续发布了 h 2 6 3 等视频编码标准。i s o 下属的运动图像专家组( m p e g ) 定义了m p e g l 、 f p e g 一2 、m p e g 一4 等娱乐和数字电视压缩编码的国际标准。 6 萄匣 浙江大学顾十学位论文 所有这些视频编码都采用了基于块的混合编码法,都属于基于波形的编码。 1 1 2 基于内容的编码 尽管基于块的编码易丁_ 操作,但由丁人为地把一幅图像分割成许多固定大小 的块,当包含边界的块属于不同物体时,它们分别具有不同的运动方式,便彳i 能 用同一个运动矢量表示该边界块的运动状态。如果强制划分成固定大小的块,这 种边界块必然会产生较大的预测误差和失真,严重影响压缩编码信号的质量。 于是产生了基于内容的编码技术。首先,把视频帧分成对应于不同物体的区 域,然后分别对其进行编码。具体来说,即对不同物体的形状、运动和纹理进行 编码。在最简单的情况下,利用二维轮廓描述物体的形状;利用运动矢嚣描述其 运动状态;而纹理则用颜色的波形进行描述。 当视频序列中的物体种类已知时,可采用基于知识或基于模型的编码。例如, 对人的脸部,已开发了一些预定义的线框对脸的特征进行编码这种编码效率很 高,只需少数比特就能描述其特征。 对于人脸的表情( 如生气、高兴等) 可能的行为可用语义编码,由于物体可能 的行为数目非常小,可获得非常高的编码效率。 1 1 3 三维( 立体) 视频编码 立体视频编码是视频编码的发展方向之一,它在平面信息外增加了深度信 息,数据量非常庞大。 立体视频编码也有两种类型的方法:第一种是基于波形的,它组合了运动补 偿预测和位差补偿预测。所谓位差估计即在两幅不同图像中寻找想对应的点,对 预测残差图像、位差和运动矢量进行编码;第二种是基于物体的,它直接对成像 物体的三维结果和运动进行编码。当物体结果简单时,可获得非常高的压缩比, 其编码结构如图1 2 所示。 左和右序判r 1 :叫竺竺竺竺j 。 一 一形靛和运动1 叫参羲瓣码| 巾纛期一一 厂焉最盯 i 匿叠盛r 豳 形状和运动比特 r _ j l 幢到 豳l 匿墨萋签i 7 合成藏差比特 浙江大学顺十学位论文 所有这些视频编码都采用了基于块的混合编码法,都属于基于波形的编码。 1 1 2 基于内容的编码 琳管基于块的编码易于操作,但由于人为地把一幅图像分割成许多固定大小 的块,当包含边界的块属于不同物体时,它们分别具有不同的运动方式,便不能 用同一个运动矢量表示该边界块的运动状态。如果强制划分成固定大小的块,这 种边界块必然会产生较大的预测误差和失真,严重影响压缩编码信号的质量。 于是产生了基于内容的编码技术。首先,把视频帧分成对应于不同物体的区 域,然后分别对其进行编码。具体来说,即对不同物体的形状、运动和纹理进行 编码。在最简单的情况下,利用二维轮廓描述物体的形状;利州运动矢量描述其 运动状态;而纹理则用颜色的波形进行描述。 当视频序列巾的物体种类已知时,可采用基于知识或基于模型的编码。例如, 对人的脸部,已升发了一些预定义的线框对脸的特征进行编码这种编码欲率很 高,只需少数比特就能描述其特征。 对丁人脸的表情( 如牛气、高兴等) 可能的行为可用语义编码,由于物体可能 的行为数目非常小,可获得非常高的编码效率。 l i1 3 三维( 立体) 视频编码 市体视频编码是视频编码的发展方向之一,它在平面信息外增加了深度信 息,数据量非常庞大。 立体视频编码也有两种类型的方法:第一种是基于波形的,它组合r 运动补 偿预测和位差补偿预测。所谓位差估计即在眄幅不同图像中寻找想对应的点,对 预测残差图像、位差和运动矢量进行编码;第二种是基于物体的,它直接对成像 物体的三维结果和运动进行编码。当物体结果简单时,可获得非常高的压缩比, 其编码结构如图1 2 所示。 其编码结构如图1 2 所示。 左和右序列 曙矗萋 i 目墨塑照l 旨成硅差比特 黼j 形 一雒艰一 疆璺一函。3 豳霹一一蠹 晕翻 浙江大学顾十学位论文 所有这些视频编码都采用了基于块的混合编码法,都属于基于波形的编码。 1 1 2 基于内容的编码 尽管基于块的编码易丁_ 操作,但由丁人为地把一幅图像分割成许多固定大小 的块,当包含边界的块属于不同物体时,它们分别具有不同的运动方式,便彳i 能 用同一个运动矢量表示该边界块的运动状态。如果强制划分成固定大小的块,这 种边界块必然会产生较大的预测误差和失真,严重影响压缩编码信号的质量。 于是产生了基于内容的编码技术。首先,把视频帧分成对应于不同物体的区 域,然后分别对其进行编码。具体来说,即对不同物体的形状、运动和纹理进行 编码。在最简单的情况下,利用二维轮廓描述物体的形状;利用运动矢嚣描述其 运动状态;而纹理则用颜色的波形进行描述。 当视频序列中的物体种类已知时,可采用基于知识或基于模型的编码。例如, 对人的脸部,已开发了一些预定义的线框对脸的特征进行编码这种编码效率很 高,只需少数比特就能描述其特征。 对于人脸的表情( 如生气、高兴等) 可能的行为可用语义编码,由于物体可能 的行为数目非常小,可获得非常高的编码效率。 1 1 3 三维( 立体) 视频编码 立体视频编码是视频编码的发展方向之一,它在平面信息外增加了深度信 息,数据量非常庞大。 立体视频编码也有两种类型的方法:第一种是基于波形的,它组合了运动补 偿预测和位差补偿预测。所谓位差估计即在两幅不同图像中寻找想对应的点,对 预测残差图像、位差和运动矢量进行编码;第二种是基于物体的,它直接对成像 物体的三维结果和运动进行编码。当物体结果简单时,可获得非常高的压缩比, 其编码结构如图1 2 所示。 左和右序判r 1 :叫竺竺竺竺j 。 一 一形靛和运动1 叫参羲瓣码| 巾纛期一一 厂焉最盯 i 匿叠盛r 豳 形状和运动比特 r _ j l 幢到 豳l 匿墨萋签i 7 合成藏差比特 浙江大学颅十学位论文 图1 2 二二维物体序列编码系统 1 2视频编码标准的发展历程 1 9 8 4 年,c c i t t 第1 5 研究组发布了数字基群电视会议编码标准h i 2 0 建议。 1 9 8 8 年c c i t t 通过了视频编码标准h 2 6 1 建议,它被称为视频压缩编码的一个 罩程碑。从此,u t 、i s o 等公斫i 的一系列基于波形变换的视频编码标准的编 码方法都是基于h 2 6 1 中的混合编码方法。 1 9 8 8 年i s o i e c 信息技术联合委员会成立了活动图像专家组( m p e g - ,m o v i n g p i c t u r ee x p e r tg r o u p ) 。1 9 9 1 年公布了m p e g l 视频编码标准,码率为1 5 m b i t s , 主要应用于家用v c d 的视频压缩:1 9 9 4 年11 月,公布了m p e g 一2 标准,用于数 字视频广播( d v b ) 、家用d v d 的视频压缩及高清晰度电视( h d t v ) 。码率从4 m b i t s 、 1 5 m b i t s 直到l o o m b i t s 分别用于不同档次和不同级别的视频压缩中。 1 9 9 5 年,i t u t 推出h 2 6 3 标准,用于低于6 4 k b i t s 的低码率视频传输, 如p s t n 信道中的可视会议、多媒体通信等。1 9 9 8 年和2 0 0 0 年又分别公布了 h 2 6 3 + 、h 2 6 3 + + 等标准。 1 9 9 9 年1 2 月,i s o i e c 通过了“视听对象的编码标准”m p e g4 ,它除了 定义视频压缩编码标准外,还强调多媒体通信的交互性和灵活性。 2 0 0 3 年3 月,i t u - t 和i s o i e c 正式公布了h 2 6 4 视频压缩标准,不仅显著 提高了压缩比,而且具有良好的网络亲和性,加强了对i p 网、移动网的误码和 丢包处理。 视频编码国际标准的发展示意图如图卜l l 铷- t h 2 州6 1l | 勰:,卜卜s t 卜。h i s i o n d a r d s j o i n f 。 秽攀| :| | 鬻8 攀“鬻i 攀l 鞲鬻i 湖$ 鬻鬻攀鬻黉! 攀黪辫零 l t u 。t m p e g | ;鬻卜。:隧弘“叫 瓤黼a 溺鑫; 耋;_ :_ ;嚣潮羟蠹曩要! j 蹙紫缨紫憋繁孽。l 爨;l 潼1 | | ; “燮煺缫,$ 穆缨 w oo ”o _ ” ” l ” ”一一 o ”t ”。l m p e - 4 1 匮阳荫趣书蕊 m p e g ;i m p e g 1 肇b 鼹酾# 漱; _ 、 ,_ ”譬+ j 弱 驰“溢j 鬟b 誊一t ;q纛灏i 囊1 1 | ;二。囊蘸;越爱誊 蠹鍪i 。,誉囊! ;撬; 卜l。 1 9 8 8 1 9 9 01 争9 21 9 9 41 9 9 61 9 9 82 0 0 02 0 0 22 0 0 4 图1 3 视频编码国际标准历史发展演变 2 0 0 2 年6 月,我国成立了a v s 工作组,并于2 0 0 3 年1 2 月定稿a v s 视频 部分。a v s 是由我国自主制定的音视频编码技术标准,以当前国际上最先进的 浙江大学硕十学位论文 m p e g 一4a v c h 2 6 4 框架为基础,强调自主知识产权,同时充分考虑了实现的复 杂度。相对于h 2 6 4 ,a v 8 的丰要特点有 4 :( 1 ) 8 8 的整数变换与6 4 级量化; ( 2 ) 帧内预测都是以8 8 块为单位,亮度块有5 种预测模式,色度块采用4 种预 测模式;( 3 ) 采用1 6 x 1 6 、1 6 8 、8 1 6 和8 8 的块模式进行帧问运动补偿, 使用4 抽头滤波器进行半象素插值和1 4 象素插值;( 4 ) a v s 熵编码采用自适应 变长编码技术,分别是通用可变长编码u v l c 和基于上下文的二进制自适应算术 编码c a b a c 。 1 2 1h 2 6 3 标准 h 2 6 3 标准是i t u t 予1 9 9 6 年制订的专门针对甚低码率视频通信应用的视频 压缩标准,是基于i t 2 6 1 而发展起来的,目的是在极低码率( 几十k b i t s ) 下 传送高质量的视频。1 9 9 6 年3 月h 2 6 3 推出了第一版,除了基本模式外,有4 个可选模式;1 9 9 8 年1 月推出了第二版,又称为h 2 6 3 + ,修j 下了一个高级模式, 增加了1 0 个高级模式;2 0 0 0 年1 1 月推出了第三版,称为h 2 6 3 + + ,再新增了3 个高级模式。h 2 6 3 版本的升级对旧版本保持兼容,但功能有了增强,提高了视 频压缩效率,增强了传输鲁棒性,扩大了适用范围。 h 2 6 3 共有五种图像格式,见表1 2 。 表1 2h 2 6 3 标准图像格式 亮度信号分鼍( y )色度信号分最( c b 或c r ) 图像格式 每行像素数每帧行数每行像素数每帧行数 s u b q c i f 1 2 89 66 44 8 q c i f1 7 61 4 48 87 2 c i f3 5 2 2 8 81 7 61 4 4 4 c l f7 0 45 7 63 5 22 8 8 1 6 c l f1 4 0 81 1 5 27 0 45 7 6 对于s u b q c i f 、q c i f 、c i f 格式,每个块组( g o b ) 均为1 6 行。4 c i f 每个块组 3 2 行,1 6 c l f 每个块组6 4 行。s u b q c i f 、q c i f 、c i f 、4 c 1 f 、1 6 c i f 分别含有6 、 9 、1 8 、1 8 、1 8 个块组。 q c i f 图像的每个宏块由4 个8 x 8 的亮度块和2 个8 x 8 的色度块组成。对于 s u b q c i f 、q c i f 、c i f 格式,每个g o b 垂直方向有一个宏块行,水平方向分别有 8 、1 1 、2 2 个宏块;对于4 c i f 和1 6 c i f ,垂直方向分别有2 个及4 个宏块行,水 平方向分别有4 4 个和8 8 个宏块。 h 2 6 3 的视频信源编码框图与h 2 6 l 相同,信源编码方法也类似,不同的是 h 2 6 3 的输入有多种格式,输出为h 2 6 3 码流。传输码率最初定为低于6 4 k b i t s , 但实际上其应用范围已远远超出低码率图像编码范围,如1 6 q c i f 已是高清晰度 电视的水平。可以说,h 2 6 3 也使用于高速率图像编码。 9 浙江大学硕 学位论文 为了适应低码率传输要求,并进一步提高图像质量,h 2 6 3 + 、h 2 6 3 + + 做了 不少改进,增加了若干选项,现选择主要技术介绍如下 5 7 : 1 运动矢量,h 2 6 3 中1 个宏块( m b ) 可以使用1 个运动矢量表示,也可以4 个块各使用一个运动矢量表示,提高运动估计精确性和压缩比( h 2 6 1 规 定每个m b 使用1 个运动矢量) 。 2 半像素预测,h 2 6 3 为进一步提高压缩比,采用了半像素预测,而h 2 6 1 采用整像素预测,其预测精度明显低于 l2 6 3 。 3 二维预测,h 2 6 3 采用二维预测,而h 2 6 1 采用维预测。 4 非限制的运动矢量模式( 选项) ,h 2 6 3 的运动矢量范围允许指向图像帧 之外。 5 基于句法的算术编码( 选项) ,显著降低了码率,但复杂度比哈夫曼编码 高。 6 高级预测模式( 选项) ,h 2 6 3 除了可以采用每个块一个运动矢量,每个 宏块4 个运动矢量外,还采用o b m c 运动补偿方式,减少方块效应。 7 p b 帧模式( 选项) ,p b 帧由一个p 帧和1 个b 帧组成。p 帧出前一帧预测 而得,b 帧由双向( 前向和后向) 预测而得,分别用前向m v 、后向m v 、前 后向m v 平均进行运动补偿得到3 个预测误差,取其最小者作为b 帧的预 测误差进行编码。 1 2 2m p e g - 4 标准 m p e g 是活动图像专家组( m o v i n gp i c t u r ee x p e r tg r o u p ) 的英文缩写。它的任 务是开发运动图像及其声音的数字编码标准,成立于1 9 8 8 年。m p e g 组织于1 9 9 9 年1 月证式公布了m p e g - 4 ( i s o i e c1 4 4 9 6 ) v 1 0 版本,1 9 9 9 年1 2 月又公布了 m p e g 一4v 2 0 版本。m p e g 一4 制定的初衷是针对视频会议、视频电话的甚低码率编 码。但在制定的过程中,m p e g 组织深切感受到软硬件技术的发展和应用需求的 变化,迫切要求将编码与基于内容的检索综合起来考虑。于是m p e g 组织修改了 计划,制定了现在意义上的基于内容( 对像) 的压缩编码标准:m p e g 一4 8 。 为支持面向对像的交互,m p e g 一4 编码标准引入了视频对像( v i d e oo b j e c t ) 的概念。视频码流的语法分为视频会话( v s ,v i d e os e s s i o n ) 、视频对像( v o , v i d e oo b j e c t ) 、视频对像平面层( v o l ,v i d e oo b j e c tl a y e r ) 、视频对像平面组 ( g v o ) 和视频对像平面( v o p ,v i d e oo b j e c tp l a n e ) 五层。一个视频序列由若干个 v s 构成。v 0 是场景中的某个物体,由时间上连续的许多帧构成,是用户能够存 取和操作( 如剪切、粘贴等) 的实体。若干个v o 构成一个v s 。v o l 对应着一个v o 的不同空间或时间分辨率,每个v o 可以有多个v o l 。v o p 是v 0 或v o l 在某一时 刻的表象,即某一帧v o 。根据采用的编码方式,v o p 可以分为i 、p 、b 和s 四种 1 0 浙江人学硕上学位论文 类型,分别对应帧内编码、帧归j 预测、双向帧问预测、全景图( s p r it e ) 编码方式。 多个v o p 构成一个g o v 。g o v 是一个可选层,主要目的是为了提供随机访问、重 同步、数据恢复等能力。 v o p 是m p e g 一4 中重要的数据结构,通过v o p ,高压缩比和基于内容的访问得 以实现。v o p 的获取往往涉及图像分割、运动图像分析等技术,目前实时分割v o p 还具有较大的难度。 v o p 由形状、纹理、运动三部分编码信息组成。其中纹理、运动估计、运动 补偿在原理k 同h 2 6 3 是一致的,如半像素运动搜索、无限制的运动估计、高级 预测模式、交迭块运动补偿o b m c 、d c t 变换及量化、h u f f m a n 编码等。当v o p 的 形状取为传统的矩形时,编码算法和 i 2 6 3 、m p e g l 、m p e g 2 是相近的。 形状编码是视频编码中首次引入的技术。基于1 6 x1 6 宏块的形状编码算法 可对任意形状的v o p 进行编码。形状编码分为二进制和灰度a l p h a 平面格式两 种。二进制平面中的点只能取0 和2 5 5 两个值,而灰度a l p h a 平面中的点可以在 0 到2 5 5 之间取值。m p e g 一4 允许采用基于语义的算术编码( c a e ) 或其他基于几何 轮廓的编码技术对二进制形状块( b a b ) 进行编码。对灰度a l p h a 值则视为二进制 形状的纹理特征,附加在二进制形状编码之后。 m p e g 一4 中还引入了全景s p r i t e 图像的概念。s p r i t e 主要是针对背景图像提 出的,为了有效编码背景视频对像,可以将其在一段时间的内容拼接成一副完整 的背景图像,这样的图像就叫做s p r i t e 图像。s p r i t e 图只需编码传输一次并存 放在解码端,随后的图像只需要传输摄影机相对于背景的运动参数,就可以从 s p r i t e 上恢复所有的图像背景。s p r i t e 作为m p e g 一4 的重要概念之一,极大地提 高了编码的效率。但s p r i t e 编码的实现,必须满足两个前提条件:一个是前景 与背景要能很好地分开,另一个是要做到无痕迹地从一段视频中拼接出s p r i t e 图像。 1 2 3i t 2 6 4 标准 h 2 6 4 9 是i t u t 的v c e g ( 视频编码专家组) 和i s o i e c 的m p e g ( 活动图像编 码专家组) 的联合视频组( j v t :j o i n tv i d e ot e a m ) 开发的一个新的数字视频编码 标准,它既是i t u t 的h 2 6 4 ,又是i s o i e c 的m p e g 一4 的第1 0 部分。 h 2 6 4 标准可分为三档 1 0 :基本档次( 简单版本,应用面广) 、主要档次( 采 用了多项提高图像质量和增加压缩比的技术措施,可用于s d t v 、h d t v 和d v d 等) 和扩展档次( 可用于各种网络的视频流传输) 。 h 2 6 4 与h 2 6 3 和m p e 6 - 4 相比,不但节约了5 0 的码率,而且对网络传输具 有更好的支持功能。它引入了面向i p 包的编码机制,有利于网络中的分组传输, 支持网络中视频的流媒体传输。h 2 6 4 具有较强的抗误码特性,可适应丢包率高、 1 1 浙江大学硕i :学位论史 下扰严重的无线信道中的视频传输。h 2 6 4 支持不同网络资源下的分级编码传 输,从而获得平稳的图像质量,适用于不同网络中的视频传输,网络亲和性好。 h 2 6 4 标准压缩系统由视频编码层( v c l 。) 和网络提取层( n e t w o r k a b s t r a c t i o nl a y e r ,n a l ) 两部分组成。v c l 中包括v c l 编码器与v c l 解码器, 辛要功能是视频数据压缩编码和解码,它包括运动补偿、变换编码、熵编码等压 缩单元。n a l 则用于为v c l 提供一个与网络无关的统一接u ,它负责对视频数据 进行封装打包后使其在网络中传送,它采用统一的数据格式,包括单个字节的包 头信息、多个字节的视频数据与组帧、逻辑信道信令、定时信息、序列结束信号 等。包头中包含存储标志和类型标志。存储标志用于指示当前数据不属于被参考 的帧。类型标志用于指示图像数据的类型。 v c l 传输的编码参数可以按当前的网络情况进行调整。 h 2 6 4 和h 2 6 1 、t t 2 6 3 一样,也是采用d c t 变换编码加d p c m 的差分编码, 即混合编码结构。同时,h 2 6 4 在混合编码的框架下引入了新的编码方式,提高 了编码效率,更贴近实际应用。h 2 6 4 没有繁琐的选项,而是力求简洁的“回归 基本”,它具有比h 2 6 3 + + 更好的压缩性能又具有适应多种信道的能力。h 2 6 4 的应用目标广泛,可满足各种不同速率、不同场合的视频应用,具有较好的抗误 码和抗丢包的处理能力。h 2 6 4 的基本系统无需使用版权,具有开放的性质,能 很好地适用于i p 和无线网络,这对目前因特网传输多媒体信息、移动网中传输 宽带信息等都具有重要意义。 下面简要介绍一下1 t 2 6 4 标准的关键技术 1 1 : 1 帧内预测编码 帧内编码用来缩减图像的空间冗余度。为了提高h 2 6 4 帧内编码的效率,需 要充分利用相邻宏块的空间相关性,在对一给定宏块编码时,首先可以根据周围 的宏块进行预测( 典型的是根据左上角的宏块,因为此宏块已经被编码处理) ,然 后对预测值与实际值的差值进行编码,这样,相对于直接对该帧编码而言,可以 大大减小码率。h 2 6 4 提供6 种模式进行4 4 像素宏块预测,包括1 种直流预 测和5 种方向预测。对于图像中含有很少空间信息的平坦区,n 2 6 4 也支持1 6 1 6 的帧内编码。 2 帧间预测编码 帧间预测编码通过运动估计和补偿消除连续帧中的时间冗余度。h 2 6 4 的运 动补偿支持以往的视频编码标准中的大部分关键特性,而且灵活地添加了更多的 功能,除了支持p 帧、b 帧外,t 1 2 6 4 还支持一种新的流间传送帧一s p 帧。码流 中包含s p 帧后,能在有类似内容但有不同码率的码流之间快速切换,同时支持 随机接入和快速回放模式。 1 2 浙江大学顾t :学位论文 3 整数变换 在变换方面,h 2 6 4 使用了基于4 x 4 像素块的类似于d c t 的变换,但使用的 是以整数为基础的空间变换,不存在反变换,因为取舍而存在误差。与浮点运算 相比,整数o c t 变换会引起一些额外的误差,但因为d c t 变换后的量化也存在量 化误差,与之相比,整数d c t 变换引起的量化误差影响并不大。此外,整数d c t 变换还具有减少运算量和复杂度,有利于向定点d s p 移植的优点。 4 量化 h 2 6 4 中可选3 2 种不同的量化步长,这与t t 2 6 3 中有3 1 个量化步长很相似, 但是在h 2 6 4 中,步长是以1 2 5 的复合率递进的,而不是一个固定常数。 在h 2 6 4 中,变换系数的读出方式也有两种:锯齿( z i g z a g ) 扫描和双扫描。 大多数情况下使用简单的之字形扫描;双扫描仅用于使用较小量化级的块内,有 助于提高编码效率。 5 熵编码 视频编码处理的最后一步就是熵编码,在h 2 6 4 中采用了两种不同的熵编码 方法:通用可变长编码( u v l c ) 和基于文本的自适应二进制算术编码( c a b a c ) 。 在h 2 6 3 等标准中,根据要编码的数据类型如变换系数、运动矢量等,采用 不同的v l c 码表。h 2 6 4 中的u v l c 码表提供了一个简单的方法,不管符号表述 什么类型的数据,都使用统一变字长编码表。其优点是简单;缺点是单一的码表 是从概率统计分布模型得出的,没有考虑编码符号间的相关性,在中高码率时效 果不是很好。 此外,t t 2 6 4 中还提供了可选的c a b a c 方法。算术编码是编码和解码两边都能使 用所有句法元素( 变换系数、运动矢量) 的概率模型。为了提高算术编码的效率, 通过内容建模的过程,使基本概率模型能适应随视频帧而改变的统计特性。内容 建模提供了编码符号的条件概率估计,利用合适的内容模型,存在于符号间的相 关性可以通过选择目前要编码符号邻近的已编码符号的相应概率模型来去除,不 同的句法元素通常保持不同的模型。 1 3 视频编码方案的选择 新一代的基于对象的编码标准b i p e g 4 和传统的m p e g 一1 、m p e g 一2 和h 2 6 3 相比较,它在交互性、抗误码性和高效压缩上都具有巨大的优势。在交互性方面, m p e g 一4 采用的是基于对象的编码,便于操作和控制对象;在抗误码性方面, m p e g 一4 提供了强壮性和可扩展性,并且对其误码恢复技术( 包括再同步,数据恢 复和错误隐藏) 都进行了优化;在高效压缩方面,由于采用了基于对象的编码方 式,使得在编码过程中能够考虑到人对图像信息的主观感受以及人眼的视觉神经 浙江人学硕j 学位论文 特性。这就可以给人们感兴趣的对象分配较多的码率,而一些诸如背景等人们感 觉迟缓的对象分配较少的码率,从而大大提高压缩率。基于上述的特点,嵌入式 m p e g 一4 数字视频系统f 受到越来越广泛的关注,具有良好的应用前景。 在实际的丌发过程中,出于对算法复杂度和可实现性的考虑,我们采用了基 于矩形v o p 的m p e g - 4 简单框架。这时编码系统不需要处理形状信息,只需要运 动编码和纹理编码两部分,退化为类似于m p e g 一1 、m p e g 一2 的传统编码系统。为 了进一步降低运算复杂度,在本系统中使用l 2 像素精度,并采用h 2 6 3 量化方 式。 1 4 本文的工作 本文的主要工作主要集中在以下两块:是研究了m p e g 一4 算法,重点研究 了半像素搜索的快速算法并提出了两种新的快速算法;二是在t i 的新型多媒体 处理器d m 6 4 2 上实现m p e g 一4 编码器,通过研究d m 6 4 2 的硬件特性,实现实时的 视频压缩编码。具体分以下几章展开: 第一章简单介绍了视频编码系统的基本概念以及视频编码标准的发展历程, 重点介绍了1 t 2 6 3 、h 2 6 4 和m p e g 一4 标准。接着介绍了实时视频编码的实现方式 和具体标准的选择。 第二章详细地介绍了m p e g 一4 标准的编码技术,包括形状编码、运动编码和 纹理编码。 第三章提出了一种新的整像素搜索算法及两种半像素搜索算法,并对算法进 行仿真测试。 第四章详细地介绍了在d m 6 4 2 平台上对m p e g 一4 算法进行优化的各种手段。 第五章总结与展望。 浙江大学颀f 一学位论文 第二章m p e g - 4 标准介绍 m p e g 一4 标准的制订始于1 9 9 3 年,最初的目标是针对视频会议、i 】j 视电话的 超低比特率压缩编码;在制订的过程中,m p f , g 组织深深地感受到人们对多媒体 信息,特别是对视频信息的需求由播放型转向基于内容的访问、检索和操作,于 是m p e g 组织对m p e g 一4 计划作了修改,由单纯的提高压缩效率转向基于内容的检 索与编码的综合考虑,在压缩数据中加入描述视频内容的信息,从而使多媒体信 息内容的访问可以直接针对压缩数据进行,这种压缩编码方法就叫做基于内容的 压缩方法 1 6 。1 9 9 9 年,m p e g 制订了m p e g 一4 标准版本1 ,包括系统、视频、音 频、一致性检验、参考软件和多媒体传输集成框架( d m i f ) 六个部分。与m p e g l 和m p e g 一2 标准相比,m p e g 一4 更加注重多媒体系统的交互性和灵活性。 2 1m p e g - 4 标准概述 和传统视频编码标准不同的是,m p e g 一4 引入了视频对象( v o :v i d e oo b j e c t ) 的概念,将多媒体数据分为不同的视频音频对象,从

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论