(通信与信息系统专业论文)基于ct3400的mpeg4视频编码系统的研究与实现.pdf_第1页
(通信与信息系统专业论文)基于ct3400的mpeg4视频编码系统的研究与实现.pdf_第2页
(通信与信息系统专业论文)基于ct3400的mpeg4视频编码系统的研究与实现.pdf_第3页
(通信与信息系统专业论文)基于ct3400的mpeg4视频编码系统的研究与实现.pdf_第4页
(通信与信息系统专业论文)基于ct3400的mpeg4视频编码系统的研究与实现.pdf_第5页
已阅读5页,还剩76页未读 继续免费阅读

(通信与信息系统专业论文)基于ct3400的mpeg4视频编码系统的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 m p e g 一4 是国际标准化组织( i s o ) 制定的新一代多媒体压缩国际标准,该标准 包括基于对象的编码、基于模型的编码、基于内容的交互和基于对象分级等技术, 具有相当的灵活性和可扩展性。随着信息化进程的不断加深,安防产品得到了长 足的发展。在安防产品中视频编码技术是主要的核心技术。本文将介绍基于 c r a d l e 公司的c t 3 4 0 0 的m p e g 一4 视频编码的整个过程。 本文首先对现代视频编码系列标准的发展、现状及主要的技术要点做了简单 的介绍,并确定了本文的研究重点,对本文的选题和主要工作进行了说明。第二 部分主要对m p e g 一4 视频编码的关键技术及算法作了详细的分析,主要包括d c t 变换、运动估计、运动补偿和码率控制等,然后对视频码流的组成作了介绍。接 着对c r a d l e 公司的c t 3 4 0 0 芯片的系统结构进行了简单的介绍。通过对这款多d s p 集于一块芯片上的系统结构的了解,对我们的系统设计起着非常重要的作用。最 后,对基于c t 3 4 0 0 的m p e g 一4 视频编码系统进行了实现,对我们面临的问题进行 了分析,并加以解决,且完成了最初的设计目标。 通过充分的理论研究和设计调试,本文实现的m p e g 一4 视频编码系统己用于各 种安防产品中,例如:视频压缩卡和数字硬盘视频记录系统( d v r ) 等安防产品。本 文采用的视频压缩算法具有重要的应用价值。希望从事多媒体技术理论研究的研 究人员、流媒体软件的开发人员以及有关的技术人员可以从中获得有益的参考和 启发。 关键词:m p e g 一4 ;运动估计;视频压缩;d c t ;c t 3 4 0 0 华南理t 大学硕士学位论文 a b s t r a c t m p e g - 4i san e wg e n e r a t i o n a ls t a n d a r di nm u l t i m e d i ac o m p r e s s i o n ,w h i c hi s e s t a b l i s h e db yi s o t h i ss t a n d a r di sf l e x i b l ea n de x t e n s i b l e ,i n c l u d i n go b j e c t b a s e d c o d i n g , m o d e l b a s e d c o d i n g , c o n t e n t - b a s e di n t e r a c t i o na n d o b j e c t - b a s e d c l a s s i f i c a t i o n w i t ht h ef u r t h e rd e v e l o p m e n to fi n f o r m a t i o na g e ,t h es e c u r i t y p r o d u c t i o n sa r ef l o u r i s h i n g t h ev i d e oc o d i n gt e c h n o l o g yi sc o r ep a r ti nt h es e c u r i t y p r o d u c t i o n s t h ep a p e rp r e s e n t e dt h ew h o l ep r o c e s so fm p e g 一4v i d e oc o d i n gb a s e do n c 3 4 0 0 f i r s t l y ,ig i v ey o ua no v e r v i e wo ft h ed e v e l o p m e n t ,c u r r e n ts t a t u sa n dt h ec o r e t e c h n o l o g i e so ft h ev i d e oc o d i n gs e r i e ss t a n d a r d ,a n dc l a r i f yt h er e s e a r c hk e yp o i n t s a n di l l u m i n a t et h es e l e c t i o no ft h ep a p e r t h e nt h es e c o n dp a r ta n a l y z e st h ek e y t e c h n o l o g i e sa n dt h ea l g o r i t h m so fm p e g 一4v i d e oc o d i n gi nd e t a i l ,m a i n l yi n c l u d i n g d c tt r a n s f o r m a t i o n ,m o t i o ne s t i m a t i o n ,m o t i o nc o m p e n s a t i o na n dr a t ec o n t r o l l i n g t h e nt h ei n t r o d u c t i o no ft h ec o n s t r u c t i o no fb i t s t r e a mi sf o l l o w e d a n dt h e nig i v ea b r i e fi n t r o d u c t i o nt ot h ec t 3 4 0 0c h i ps y s t e ms t r u c t u r eo ft h ec r a d l ec o m p a n y ,i t s v e r yi m p o r t a n tf o ro u rs y s t e md e s i g n f i n a l l y ,w ec a r r yo u tt h es y s t e mo ft h em p e g 一4 v i d e oc o d i n gb a s e do nc t 3 4 0 0 ,a n a l y z ea n ds o l v et h ep r o b l e mf a c e d ,a n dt h e p r e l i m i n a r yd e s i g nt a r g e ti sc o m p l e t e d t h r o u g ha d e q u a t et h e o r e t i c a lr e s e a r c ha n dp r a c t i c a ld e s i g na n dd e b u g ,w eh a v e p u tt h em p e g 一4v i d e oc o d i n gs y s t e mi n t ot h ea l lk i n do fs e c u r i t yp r o d u c t i o n ss u c ha s v i d e oc o m p r e s s i o nc a r d sa n dd v r s v i d e oc o m p r e s s i o na l g o r i t h mp o s s e s s e s s i g n i f i c a n ta p p l i c a t i o nv a l u e w eh o p et h ep e r s o n sw h ot a k i n gp a r ti nt h em u l t i m e d i a t e c h n o l o g ya n dt h e o r yr e s e a r c h ,s t r e a mm e d i as o f t w a r ed e v e l o p m e n t a n dr e l e v a n t t e c h n o l o g yc a nb e n e f i tf o r mi t k e yw o r d s :m p e g - 4 : m o t i o ne s t i m a t i o n ;v i d e oc o m p r e s s i o n d c t :c t 3 4 0 0 华南理工大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研 究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文 不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研 究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完 全意识到本声明的法律后果由本人承担。 作者签名:裤;z 午 日期: p 声年月,。日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定, 同意学校保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权华南理工大学可以将本学位论文的 全部或部分内容编入有关数据库进行检索,叫以采用影印、缩印或扫 描等复制手段保存和汇编本学位论文。 保密囱,在2 年解密后适用本授权书。 本学位论文属于 不保密口。 ( 请在以上相应方框内打“”) 作者签名: 导师签名: 楠江华 z 名琴啦 日期:口f 年6 月de 1 日期:o 咿年占月,f 日 第一章绪论 1 1 前言 第一章绪论弟一早殖t 匕 当今社会已经进入了信息化时代,各行各业都开始其信息化进程。近年来, 不断壮大的安防市场大大促进了视频压缩卡和数字硬盘录像系统( d v r ) 的迅速发 展。而视频压缩卡和d v r 的关键技术就是数字视频压缩。众所周知,对于一帧1 0 2 4 x7 6 8 个象素的原始图象,如果每个象素平均用1 2 b i t ( 亮度8 b i t ,色度4 b i t ) 来 表示的话,则总共需9 m b i t 。按3 0 帧每秒的帧率,则在一秒中内数字视频的数据 量将是2 7 0 m b i t ,几分钟的视频数据将会占满我们现有高档p c 机的硬盘。所以不 进行压缩的话,以我们现有的网络带宽以及存储介质和手段,传输和存储这样浩 大的数据量几乎是不可能的。因而视频压缩成为解决多媒体通信和存储问题的一 个关键环节。 l i i p e g 一4 集中了现代图象视频压缩技术的精华,是图象分析、图象压缩、视 频压缩、计算机视觉和信号处理等领域的最新研究成果的大成【6 】。m e p g - 4 在通信 领域中的应用主要取决于m p e g 一4 的编解码器的设计,其中尤其是m p e g 一4 编码器 的设计,m p e g 一4 编码器可以分为预处理、码率控制、运动估计和v l c 编码算法等 部分。每一部分在实现过程中都有很大的弹性,而且每一部分都针对不同的应用 和实现方案进行了优化。在预处理中,主要功能是对输入的可视素材进行再采样, 使之符合标准的分辨率和数据格式。同时,对输入信号的噪声进行滤除。这使得 它对来自不同类型的设备的输入有着很灵活的适应性,动态噪声的减少和场景变 化检测技术也支持再采样。另外,对一些类型的数据源,还能够提取形状以允许 应用m p e g 一4 基于目标的压缩算法。码率控制也是编码的一个重要环节。其目标就 是分配一定的量化步长和帧率,尽可能在保持最佳图象质量的情况f 来维护一个 恒定的码率,或是在尽可能低的速率下保持一定图象质量。具体算法开发中的一 个关键问题是其灵活性,码率控制算法应该是可调节的,而且能够使用不同的网 络和系统。在视频编码中,计算复杂度最大的部分是运动估计。这是因为运动估 计包括一种反复计算,以确定邻近帧中宏块的相关性。此外,v l c 编码、m p e g 一4 同步语法、m p e g 一4 视频分割和m p e g 一4 图象恢复等都是编码中的关键技术。 1 2 视频编码系列标准简介 制定视频压缩标准的组织主要有两个的:i t u 和i s o i e c 。i t u ( 国际电联) 于 1 9 3 4 出i n t e r n a t i o n a lt e l e g r a p hc o n v e n t i o n ( 1 8 6 5 年) 和i n t e r n a t i o n a l 华南理工大学硕士学位论文 r a d i o t e l e g r a p hc o n v e n t i o n ( 1 9 0 6 年) 两个组织合并成立。它专注于传统的视频 编码目标( 例如,更好的压缩和包丢失误码恢复) 。i e c 成立于1 9 0 6 年致力于所 有电工技术方面的国际标准,i s o 成立于1 9 7 4 年,i s o i e c 联合技术委员会联合 致力于计算机相关的一切标准活动,占i s o 和i e c 总标准的3 0 【23 1 。图1 1 为 视频编码标准发展历史的一个缩影图: 图1 1h 2 6 x 与m p e g x 的发展过程 f i g u r e1 1d e v e l o p m e n tp r o c e s so fh 2 6 xa n dm p e g 一4 c c i t t 第x v 研究所1 9 8 4 年成立了可视电话编码专家组。1 9 8 8 年,他们提出 了h 2 6 l 标准视频标准的建议,以满足i s d n 日益增长的需要,此标准可使用于可 视电话和视频电话会议。1 9 9 4 年推出了h 2 6 2 ,即m p e g 一2v i d e o 标准,1 9 9 5 年 推出了h 2 6 3 ( 版本1 ) ,是一个极低码率视频压缩编码标准。1 9 9 7 年9 月推出了 h 2 6 3 + ,即h 2 6 3 版本2 ,2 0 0 0 年7 月又推出了h 2 6 3 + + ,即h 2 6 3 版本3 t 6 , 1 1 , 1 2 。 m p e g 组织于1 9 8 8 年成立,它吸收了j p e g 和h 2 6 1 标准的很多东西,1 9 9 2 年正式通过了i s o i e c 儿1 7 2 ,即m e p g l ,1 9 9 3 年8 月正式建立并第一次编辑出 版。1 9 9 5 年5 月1 5 几正式通过并编辑出版了i s o i e c1 3 8 1 8 ,即m p e g 一2 。1 9 9 8 年9 月提出m p e g 一4 ,1 9 9 9 年完成了m p e g 一4 版本1 ,2 0 0 0 年完成了m p e g 一4 版本 2 ,2 0 0 1 年完成了m p e g 一4 版本3 ,2 0 0 1 年8 月又提出了m p e g 一7 ,同年1 1 月提h m p e g 一2 1 8 , 9 a 5 。视频压缩标准的主要应用如表l 一1 所示: 第一章绪论 表1 1 视频压缩标准的主要应用 t a b l e1 1t h ea p p l i c a t i o i lo fv i d e oc o m p r e s s i o ns t a n d a r d 数码相机,印刷,w w w 图 片交换,视频编辑 2 1m b i t s j p e gj p e g 2 0 0 0 数字视频广播( s d t v ,2 6 m b p s ( s d ) h d t v ) 1 0 2 0 m b p s ( h d ) m p e g 一2 d v d 3 8 m b p s m p e g 一2 i n t e r n e t 流媒体2 0 2 0 0 k b b s h 2 6 3 ,h 2 6 3 l ,m p e g 一4 可视电话2 0 3 2 0 k b l sh 2 6 3 视频会议6 4 k b p s 2 0 4 8 k b p sh 2 6 1 3 g 和无线通信2 0 k b p s l o o k b p s1 t 2 6 3 ,b l p e g - 4 1 2 1h 2 6 1 h 2 6 1 标准的名称为“p 6 4k b i t s 视听业务的视频编解码器”,它是针对实 时动态图像的压缩编解码标准,是第一个得到巨大成功的视频编码标准【1 。该标 准的草案于1 9 8 8 年提出,1 9 9 0 年获得正式成为i t u t 标准。它主要用于会议电 视和可视电话业务。h 2 6 1 规定的视频编码信号的传输速率为p 6 4 k b i t s ( p = 1 3 0 ) 。视频信号的尺寸为c i f ( 3 5 2 x 2 8 8 ) 或q c i f ( 1 7 6 x 1 4 4 ) ,像素格式为y u v4 :1 :l 。 编码模式分为帧内编码和帧问编码( 只有i 帧和p 帧) ,d c t 变换采用8 x 8 像素块, 运动补偿采用1 6 x 1 6 像素宏块,运动检索范围是( + 1 5 ) ( + 1 5 ) 像素。数据结构包括 帧、宏块组、宏块、块共四个层次。比特流采用了b c h ( 5 1 1 ,4 9 3 ) 纠错编码。 1 2 2m p e 6 - 1 m p e g 一1 的全称为“活动图像及其伴音在数码率约为1 5 m b i t s 的数字存储媒 体上的编码表示”,它于1 9 9 0 年提出,1 9 9 3 年获得正式通过。m p e g l 的编号为 i s 0 i e c1 1 1 7 2 ,包括系统、视频、音频三部分内容【2 】。m p e g - l 最广为人知的应 用就是v c d 。m p e g 一1 的视频部分与h 2 6 1 有很多相同之处,实际上它是在h 2 6 1 的基础上作了很多改进。它们包括:图像尺寸灵活,可以在7 6 8 x 5 7 6 的范围内自 由选择;帧率可以在3 0 f s 的范围内自由选择;使用了双向预测编码帧( b 帧) ; 运动补偿采用了半像素精度运动估值;运动矢量的范围是一6 4 + 6 3 5 ;d c t 系数 的量化采用了量化矩阵而不是均匀量化;可对图像进行随机存取。 1 2 3m p e g - 2 m p e g 在制定m p e g 一1 标准时已经对m p e g 一2 有所考虑。其名称足“活动图像及 华南理工大学硕士学位论文 其伴音的通用编码”。m p e g 一2 的标准编号是1 s o i e c1 3 8 1 8 ,一共分为系统、视频、 音频、一致性测试等9 部分,分别在1 9 9 4 到1 9 9 7 的4 年内陆续通过【5 】。它的典 型应用范围是高清晰度电视( h d t v ) 。m p e g 一2 是在m p e g l 的基础上扩充和改进而 来,向前与m p e g 一1 兼容。m p e g 一2 的视频部分( i s o i e c1 3 8 1 8 2 ) 同时也作为i t u t 的h 2 6 2 建议,主要的新技术特性如下: 有效地支持隔行扫描图象,即场帧图象,增加了按场编码模式,同时在原有 的按帧编码模式中允许以场为基准进行运动补偿,可以选择进行场或帧的 d c t ; 增加了各种可扩展性,采用了“类”( p r o f i l e ) 和“级”( l e v e l ) 的概念,类 是m p e g 一2 中定义的语法的子集,级是一个特定的类中参数取值的集合。m p e g 一2 定义了5 个类和4 个级,使用者可以根据实际情况使用其中的一个类级的组 合,但要注意并不是所有的2 0 个类级组合都有意义; 输入视频的格式可以达到1 9 2 0 1 1 5 2 ,6 0 f s ,y u v 4 :1 :1 或y u v 4 :2 :2 或 y u v 4 :4 :4 ; 增加了时间、空间和信噪比可分级性,允许通过部分解码从一个编码数据流 中得到不同质量等级或不同时空分辨率的视频信号; 使用了分片( s 1 i c e ) 结构,若干个宏块组成片,运动补偿只在本片中进行,使 数据损坏的影响限制在片中,增强了鲁棒性。 1 2 4h 2 6 3 h 2 6 3 被称为下一代视频编码标准,目前是实际视频通信中最好的标准,已 经超过h 2 6 l 成为主流的视频会议和可视电话编解码器,和i n t e r n e t 视频流的压 缩引擎。它吸取了m p e g 标准中有效、合理的部分 3 4 。对比于h 2 6 1 ,h 2 6 3 的改 进之处在于: 支持5 种图像分辨率,分别是q c i f 、s u b q c i f 、c i f 、4 c i f 、1 6 c i f 。没有限 定帧速率,可以通过减少帧率来限制最大码率; 改进了3 dv l c ( l a s t ,r u n ,l e v e l ) ,减少了整个系统的开销; 使用先进预测模式( a d v a n c e dp r e d i c t i o nm o d e ) 。运动估计采用半像素精度。 运动矢量的估计可以基于8 8 的像素块进行( 这是可选的) ,每个块的运动矢量 搜索范围是一8 + 7 5 个像素。每个宏块共有4 个运动矢量,对应于各个子块, 分别根据3 个相邻子块的运动矢量进行差分编码。在接收端,亮度块可以用 可重叠的运动补偿技术来恢复,方法是:每个像素亮度值是3 个预测量度值 的加权和,这3 个预测亮度值分别对应于3 个预测矢量一一本了块的运动矢 量,水平方向和币直方向离此子块最近的2 个子块的运动矢量: 引入了i 、p 、b 三种帧模式和i n t e r 、i n t r a 两种编码模式。引入了p bi 帧模 第一章绪论 式( p b f r a m em o d e ) 。一个p b 帧包含一个p 帧和一个b 帧, 包括6 个p 帧的块和6 个b 帧的块; 使用无限制运动矢量模式( u n r e s t r i c t e dm o t i o nv e c t o r ) , 向图像外,用边界像素对不存在的像素进行填充; 其中的一个宏块 允许运动矢量指 使用基于语法的算术编码模式( s y n t a x b a s e da r i t h m e t i cc o d i n g ) 。用基于 语法的算术编码代替原用的可变长编码来实现熵编码。它与可变长编码都是 无损编码,因此图像质量相同,但是可以使输出码率降低5 左右。 i t u t 对h 2 6 3 作过多次补充,修订版本有1 9 9 7 年的h 2 6 3 + ,2 0 0 0 年的 h 2 6 3 + + 。这些修订版本改进的方面有:通过宏块和宏块参考图象的选择而得到了 保真增强,压缩质量显著提高;使用了类似于m p e g 一2 的分级编码、分片结构,减 少了相互依赖,有助于减少差错扩散:使用了先进帧内编码模式;支持可分级性; 使用可交替帧间v l c 编码;允许选用前面己经编码的几帧中能使压缩效率最好的 一帧作为预测参考帧;改进的量化,可以在宏块层更灵活地修改量化参数,使得 码率控制更为有效。 1 2 。5m p e - 4 m p e g 一4 正式序号是i s 0 l e c l 4 4 9 6 2 ,它包含了h 2 6 3 的核心设计,并增加了 优先特性和各种各样创造性的新特性 7 , 1 6 】: 码率特点 m p e g 一4 视频编码标准支持m p e g l 、m p e c 一2 中的大多数功能,提供不同的视 频标准源格式、码率、帧频下矩形图像的有效编码,同时也支持基于内容的图像 编码。图1 2 为m p e g 一4 根据支持的码率与相应功能分类的示意图。在这一功能 集的底层是v l b v ( v e r yl o wb i t r a t ev i d e o ) 核心。它为码率在5 6 4 k b p s 范 围内的视频操作与应用提供算法与丁具,支持较低的空间分辨率( 低于3 5 2x2 8 8 像素) 和较低的帧频( 低于1 5 h z ) 。v l b v 核心支持的专用功能包括:矩形图像序列 的有效编码、多媒体数据库的搜索和随机存取。m p e g 一4 的h b v ( h i g hb i tr a t e 图l 一2m p e g 一4 视频编码算法工具分类图 f i g u r e1 2c l a s s i f i c a t i o no ft h em p e g 4v i d e oc o d i n ga i g o r i t h m sa n dt o o ls 华南理1 大学硕+ 学位论文 v i d e e ) 同样支持上述功能,其码率范围在6 4 k b p s - - 1 0 b l b b p s 之间,它与v l b l 核心 采用相同或相似的算法,但它支持更高的空问与时间分辨率,允许传输和存储适 用于演播室的高质量视频信号,其输入可以是i t u rr e c 6 0 1 的标准信号,典型 应用为数字电视广播与交互式检索。m p e g 一4 最终支持的码率将高于m p e g 一2 。 编码特点 采纳了基于对象( o b j e c t b a s e d ) 的编码、基于模型( m o d e l b a s e d ) 的编码等第 二代编码技术是m p e g 一4 标准的主要特征,所谓的对象足在一个场景中能够访问和 操纵的实体,对象的划分可以根据其独特的纹理、运动、形状、模型和高层语义 为依据。这种编码是一种基于内容的数据压缩方式,以前的压缩算法只是去掉帧 内和帧间的冗余,m p e g 一4 则要求对图像和视频作更多的分析,甚至足理解。如将 图像分割为运动物体对象和静止不动的背景对象平面,并对这两个对象进行分别 处理。背景对象采用压缩比较高、损失比较大的办法进行编码,运动物体对象采 用压缩比较低、损失比较小的办法,这样就在压缩效率和解码图像质量间得到较 好的平衡。m p e g 一4 编解码的基本单元是对象,这些对象可以是单声道、立体声和 多声道音频,2 d 和3 d 或者单目、立体或多目视频,计算机图形,动画,文字等。 基于对象的编码除了能提高数据的压缩比,还能实现许多基于内容的交互性功能, 如基于内容的多媒体数据存取、游戏或多媒体家庭编辑、网上购物和电子商店、 远程监控、医疗和教学等。 基于对象的分级功能是m p e g 一4 提供的又个新的功能,同时兼容于m e p g 一2 标准中的图像分级功能,分级工具主要用于因特网和无线网等窄带的视频通信、 多质量视频服务和多媒体数据库预览等服务。m p e g 一4 提供了两种基本的分级工 具:时域分级和空域分级。时域分级是降低原视频序列的帧率,空域分级是降低 原视频序列的分辨率。在每类分级工具中,视频序列都可以分为两层:基层和增 强层,基层提供了视频序列的基本信息,增强层提供了视频序列更高的分辨率和 细节,基层可以单独传输和解码,而增强层则必须与基层一起传输和解码。m p e g 一4 也支持时域和空域的混合分级。 发展需求 m p e g 一4 的重点是提供便于交互的音频一视频编码、高压缩比和通用访问能力 ”“。为了采用迅速发展的相关技术的优点,m p e g - 4 标准将保证高度的灵活性和扩 展性:1 ) 基于内容的交互性包括人与音像画面中有意义的对象相互作用的能力。 目前,这种交互作用局限于计算机图形,即人工合成的内容。对于新的交互式音 像应用,能够提供与自然的、人1 :的及自然人工混合的音像对象的相互作用极为 重要;2 ) 为了有效使用存储空间和传送带宽,需要有较高的压缩比。对于低比特 率的应用,改善压缩效率非常重要;3 ) 通用访问能力是指对有用的音像数据的访 问1 1 j 以在存储和传送媒体的很大范围内进行的鉴于移动通信的迅速崛起,通过无 第一章绪论 线网络进行这种应用的访问尤为重要:4 ) 高度的灵活性和可扩展性由句法描述语 言来保证,这种句法描述语言称为m p e g 一4 句法描述语言( m s d l ) 。 在拟定m p e g 一4 的初期,其主要目标是低码率视频通信,后来发展成为一个更 加广泛的、包罗万象的多媒体编码标准。目前它分为l o 部分,统称为i s o i e c 1 4 4 9 6 国际标准。这1 0 部分是 2 5 : 1 ) i s o i e c1 4 4 9 6 1 ,s y s t e m s :系统; 2 ) i s o i e c1 4 4 9 6 2 ,v i s u a l :视频; 3 ) i s o i e c1 4 4 9 6 3 ,a u d i 0 :音频; 4 ) i s o i e c1 4 4 9 64 ,c o n f o r m a n c et e s t i n g :一致性测试标准; 5 ) i s o i e c1 4 4 9 6 5 ,r e f e r e n e es o f t w a r e :参考软件; 6 ) i s o i e c1 4 4 9 6 6 ,d e l i v e r ym u l t i m e d i ai n t e g r a t i o nf r a m e w o r k ( d m i f ) : 多媒体传输继承框架; 7 ) i s o i e c1 4 4 9 6 7 ,o p t i m i z e ds o f t w a r ef o rm p e g 一4t o o i s ( v i d e oe n c o d e r s ) : m p e g 一4 工具优化软件( 视频编码器) : 8 ) i s o i e c1 4 4 9 6 8 ,m p e g4o ni pf r a m e w o r k :m p e g 一4i p 框架; 9 ) i s o i e c1 4 4 9 6 9 ,r e f e r e n c eh a r d w a r ed e s c r i p t i o n :参考硬件描述; 1 0 ) i s o i e c1 4 4 9 6 1 0 ,a d v a n c e dv i d e ec o d i n g :高级视频编码。 1 2 5 1m p e g 一4 系统 m p e g 一4 系统规范了标准的整体结构,并且定义了m p e g 一4 视频和m p e g 一4 音 频如何合成在一起,此外还包括多路复用、同步和缓存管理。m p e g 一4 系统引入了 b i f s 的概念( b i n a r yf o r m a tf o rs c e n c e ) 7 1 。b i f s 定义了m p e g 一4 的许多交互性 的内容。所有关于媒体对象、场景描述的信息或是控制信息都包含在基本码流中, 基本流都在同步层中进行存储。同步层确保基本流使用公用的系统来传输时间和 帧信息。m p e g 一4 系统的组成内容如下: 1 ) 系统解码器模型( s d m :s y s t e md e c o d e rm o d e l ) ,这是每一个系统都应该 有的特殊模型; 2 ) 场景描述( s c e n c ed e s c r i p t i o n ) ; 3 ) 对象描述框架( o b j e c td e s c r i p t i o nf r a m e w o r k ) ; 4 ) 基本码流同步( 同步层) ; 5 )m p e g j ; 6 ) 基本码流的多路合成。 1 2 5 2m p e g 一4 视频 为了支持基于内容的交互性,即支持对内容独立地进行编、解码,m p e g 一4 视 华南理工大学硕士学位论文 频检验模型引入了视频对象平面( v o p :v i d e oo b j e c tp l a n e ) 的概念“。假设 输入的视频序列的每一帧都被分割成多个任意形状的图像区域( 视频对象平面) , 每个区域可能覆盖场景中特定的感兴趣的图像或视频内容。输入进行编码的v o p 可以是任意形状的,且形状和位置可随帧而变。属于场景中同一物理对象的连续 v o p 序列称为视频对象。同一视频对象的v o p 序列的形状、运动和纹理信息被编 码传输,或者编码为一个隔离的视频对象层( v o l :v i d e oo b j e c tl a y e r ) 。 m p e g - 4 视频编码器的基本结构包括形状编码( 对于任意形状的v o s ) 、运动补 偿和基于d c t 的纹理编码( 采用标准的8 8d c t 或根据形状的自适应d c t ) 。 编码系统的结构框图如图1 3 所示。下一章我们中将逐一 讲述。 图1 3m p e g 一4 视频编码系统框图 f i g u r e1 3s y s t e ms t r u c t u r eo fm p e g 一4v i d e oc o d i n g 1 2 5 3m p e g 一4 音频 在音频标准的制定方面,比较以前的音频编码标准,m p e g 一4 增加了许多新的 关于合成内容及场景描述等领域的工作,增加了诸如可分级性、音调变化、可编 辑性及延迟等新功能。m p e g 一4 将以前发展良好但相互分离的高质量音频编码、计 算机音乐及合成语音等第一次合成并在一起,在诸多领域内给予高度的灵活性 2 6 o m p e g 一4 中关于音频信号将包括:传统的音频编码标准,即所谓“自然音频” ( n a t u r a la u d i o ) 和新颖的“结构音频”( s t r u c t u r e da u d i o ) 以及自然和合成 混合在一起的“合成自然混合编码”( s y n t h e t i c n a t u r a lh y b r i dc o d i n g ) 简 称s n h c 。其中s n h c 是m p e g 一4 中关于音、视频的一个很重要的概念。编码方法包 括参数编码( p a r a m e t r i cc o d i n g ) ,码激励线性预测( c o d ee x c i t e dl i n e a r p r e d i c t i v e ,c e l p ) 编码,时间频率t f ( t i m e f r e q u e n c y ) 编码,结构化声音 第一章绪论 1 2 6h 2 6 4 h 2 6 4 是i t u t 的v c e g ( 视频编码专家组) 和i s o i e c 的m p e g ( 活动图像编 码专家组) 的联合视频组( j v t :j o i n tv i d e et e a m ) 开发的一个新的数字视频编 码标准,它既是i t u - t 的h 2 6 4 ,又是i s o i e c 的m p e g 一4 的第1 0 部分。“2 。1 9 9 8 年1 月份开始草案征集,1 9 9 9 年9 月,完成第一个草案,2 0 0 1 年5 月制定了其测 试模式t m l 一8 。2 0 0 2 年6 月的j v t 第5 次会议通过了h 2 6 4 的f c d 板。 h 2 6 4 和以前的标准一样,也是d p c m 加变换编码的混合编码模式。但它采用 “回归基本”的简洁设计,不用众多的选项,获得比h 2 6 3 + + 好得多的压缩性能: 加强了对各种信道的适应能力,采用“网络友好”的结构和语法,有利于对误码 和丢包的处理;应用目标范围较宽,以满足不同速率、不同解析度以及不同传输 ( 存储) 场合的需求;它的基本系统是开放的,使用无需版权。在技术上,h 2 6 4 标准中有多个闪光之处: 分层设计 h 2 6 4 的算法在概念上可以分为两层:视频编码层( v c l :v i d e oc o d i n g l a y e r ) 负责高效的视频内容表示;网络提取层( n a l :n e t w o r ka b s t r a c t i o n l a y e r ) 负责以网络所要求的恰当的方式对数据进行打包和传送。 高精度、多模式运动估计 h 2 6 4 支持1 4 或1 8 像素精度的运动矢量。在1 4 像素精度时可使用6 抽头滤波器来减少高频噪声,对于1 8 像素精度的运动矢量,可使用更为复 杂的8 抽头的滤波器。在进行运动估计时,编码器还可选择“增强”内插滤 波器来提高预测的效果。支持7 种不同模式的块尺寸的运动估计,允许编码 器使用多于一帧的先前帧用于运动估计,这就是所谓的多帧参考技术。 4 4 块的整数变换 h 2 6 4 与先前的标准相似,对残差采用基于块的变换编码,但变换是整数 操作而不是实数运算,其过程和d c t 基本相似。这种方法的优点在于:在编 码器中和解码器中允许精度相同的变换和反变换,便于使用简单的定点运算 方式。 统一的v l c h 2 6 4 中熵编码有两种方法,一种是对所有的待编码的符号采用统一的 v l c ( u v l c :u n i v e r s a lv l c ) ,另一种是采用内容自适应的二进制算术编码 ( c a b a c :c o n t e x t a d a p t i v eb i n a r ya r i t h m e t i cc o d i n g ) 。c a b a c 是可选项, 其编码性能比u v l c 稍好,但计算复杂度也高。 恕日 声 成合的统 系 )曲 印 一 卜既 “ stt 盘日 语 一 本文和码编 曲m 叫酣t比 s ( 0 卧等 华南理工大学硕十学位沦文 帧内预测 在先前的h 2 6 x 系列和m p e g x 系列标准中,都是采用的帧间预测的方式。 在h 2 6 4 中,当编码i n t r a 图像时可用帧内预测。对于每个4 4 块( 除了边 缘块特别处置以外) ,每个像素都可用1 7 个最接近的先前已编码的像素的不 同加权和( 有的权值可为0 ) 来预测,即此像素所在块的左上角的1 7 个像素。 显然,这种帧内预测不是在时间上,而是在空问域上进行的预测编码算法, 可以除去相邻块之间的空问冗余度,取得更为有效的压缩。 面向i p 和无线环境 为了抵御传输差错,h 2 6 4 视频流中的时间同步可以通过采用帧内图像刷 新来完成,空间同步由条结构编码( s l i c es t r u c t u r e dc o d i n g ) 来支持。同 时为了便于误码以后的再同步,在一幅图像的视频数据中还提供了一定的重 同步点。在无线通信的应用中,我们可以通过改变每一帧的量化精度或空间 时阊分辨率来支持无线信道的大比特率变化。 1 3 本课题的研究内容及意义 本课题研究开发基于c t 3 4 0 0 的m p e g - 4 视频编码系统。本系统为广州金鹏集 团的重点项目,现在已形成了几款基于该系统的安防产品,如视频压缩卡和d v r 。 在论文阶段,作者主要完成的工作包括: 搭建了自己的算法平台,并对各种算法进行了实现,对各种算法进行测试和 比较,得到各种算法的试验结果并对其进行分析: 对c r a d l e 提供3 4 0 0 芯片资料进行了仔细的研读,熟悉其性能,掌握了开发 板及各种开发工具的开发及调试; 搭建并实现了整个编码系统的框架,即p i p e l i n e 设计; 研究和实现了快速d c t i d c t 变换,量化q 和反量化i q ,并对其算法进行了细 致的优化; 研究和实现了运动估计m e 和运动补偿m c 算法,对各种算法运行效率进行了 比较,并选取合适的算法进行了优化; 1 4 本章小结 本章首先对视频编码系列标准的发展历程及各自的技术特点进行了简单的介 绍。并简单的介绍了m p e g 一4 标准的系统、视频和音频。最后给出了本课题的研 究内容及意义。 第二章m p e g 一4 视频编码关键技术 第二章m p e g - 4 视频编码关键技术 m p e g 一4 视频编码系统的结构框图如图1 3 所示,在本文介绍的编码系统中 因为编码基于矩形即基于帧的编码,所以没有涉及到视频分割和形状编码。下面 主要介绍纹理编码中的关键技术。 2 1d c t 变换 一维的d c t 把图象的8 个象索值转换为8 个系数,这些系数代表了8 个余弦 波的幅度。这些余弦波是正交的,每一个余弦波对应不同的空间频率,如下图所 不: 图2 1d c t 频率分量 f i g u r e2 1f r e q u e n c yc o m p o n e n to fd c t 左上角图( 0 ) 对应为直流系数( d c ) ,其他七个为交流系数( a c ) 。对 于一个8 8 的二维d c t 变换,就是转换6 4 个象素值为对应的6 4 个系数, d c t 和i d c t 的公式( 2 1 ) ( 2 4 ) 如下: 1 0d c t : 胪丢隆s 警卜恤, 2 dd c t : * c o s c o s 号竽| ( z z ) y = o 0 ,“) = 三c () i ,( ) ,工) 百一c o s 型詈竖卜( 2 2 ) 叶 j = 1 u1 u 华南理= 人学硕士学位论文 1 di d c t 铲丢耋bc o s 等半 _ 。, 2 di d c t : m棚=丢壹妻cc脚m卜号竽cos号竽|“za,v=ou = o - t l 1 vj u j f 一 其中:c ( 蹦) ,c ( p ) = 4 2当u ,v = 0 ; l 1 当t l ,v o ; d c t 在m p e g 编码中主要完成图象数据由空域转向频域,各系数相 互独立,这意味着各系数可分开处理,同时,图象的高频系数大部分接近于零。 人的视觉系统对低频比对高频敏感的多,因此可以用更大的量化步长来量化高频 系数,使大部分高频系数为零,从得到较高的压缩比,而人眼很难察觉田3 7 ,3 8 1 。 在m p e g 一4 中d c t 以8 8 的像块为单位进行,生成的是8 x8 的d c t 系数数据块。 直接进行2 dd c t 计算时,每个系数需要6 4 次乘法、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论