(信号与信息处理专业论文)基于hifi330的mpeg4视频解码器实现研究.pdf_第1页
(信号与信息处理专业论文)基于hifi330的mpeg4视频解码器实现研究.pdf_第2页
(信号与信息处理专业论文)基于hifi330的mpeg4视频解码器实现研究.pdf_第3页
(信号与信息处理专业论文)基于hifi330的mpeg4视频解码器实现研究.pdf_第4页
(信号与信息处理专业论文)基于hifi330的mpeg4视频解码器实现研究.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 t e n s i l i c ad i a m o n dh i f i 3 3 0 音频处理器内核是一款功能强大的多媒体音频开 发平台,已经大量应用于个人媒体播放器芯片设计领域。在完成普通音频处理任 务时h i f i 3 3 0 仍然富裕很多资源可以用于扩展系统功能。为了充分利用处理器资 源,也考虑到个人媒体播放器在视频处理方面的需求,本论文主要研究基于 h i f i 3 3 0 处理器的q v g a ( q u a r t e rv i d e og r a p h i c sa r r a y ) 分辨率视频解码器的实 现。 m p e g 4 是i s o i e c 的运动图像专家组于1 9 9 9 年1 2 月通过的一个基于对象 的视频编码标准。它充分利用了人眼视觉特性,抓住了图像信息传输的本质,从 轮廓、纹理思路出发,支持基于视觉内容的交互功能。它的低比特率,高压缩性 很好的满足了数字化多媒体信息传输的要求。论文采用的是x v i d0 9 2 开发源 代码,可实现m p e g - 4s i m p l ep r o f i l el e v e l1 视频解码。 论文主要介绍基于h i f i 3 3 0 的m p e g 4 视频解码器的移植和优化。为了实现 实时解码的功能,本文充分利用处理器提供的资源,进行了一系列代码优化,指 令优化等工作。当h i f i 3 3 0 处理器工作频率为1 7 5 m h z 时,可实时解码帧率为 3 0 帧秒的q v g a 分辨率的视频图像。 关键词: m p e g - 4h i f i 3 3 0 移植优化 a b s t r a c t t e n s i l i c ad i a m o l l dh i f i 3 3 0a u d i op r o c e s s o rc o r ei sa p o w e r f u lm u l t i m e d i aa u d i o d e v e l o p m e n tp l a t f o r m , w h i c hh a sb e e nw i d e l ya p p l i e dt ot h ec h i pd e s i g no fp e r s o n a l m u l t i m e d i ap l a y e r w h i l ei m p l e m e n t i n gs o m ea u d i op r o c e s s ,h i f i 33 0a l s oc a ne x t e n d s o m es y s t e mc a p a b i l i t yu s i n gt h es u r p l u sr e s o u r c e t h e r e f o r e ,t h em a i np u r p o s eo ft h e t h e s i si st oi m p l e m e n tr e a l - t i m ed e c o d i n go fq v g av i d e oi m a g eb a s e do nt e n s i l i c a d i a m o n dh i f i 3 3 0p r o c e s s o r m p e g - 4i sav i d e oc o d i n gs t a n d a r db a s e do nv i d e o - o b j e c t ,w h i c hw a sp a s s e db y m o v i n gp i c t u r ee x p e r tg r o u p ( m p e g ) i ni s o i e c ,i nd e c e m b e r , 19 9 9 a c c o r d i n gt o t h ev i s u a lc h a r a c t e r i s t i c so ft h eh u m a ne y ea n dt h et r a n s m i s s i o nf e a t u r eo ft h ei m a g e i n f o r m a t i o n ,m p e g 一4c a ns u p p o r tt h ei n t e r a c f i v i t yo fv i s u a lo b j e c tb ym e a n so f o u t l i n ea n dt e x t u r ei n f o r m a t i o n i t sl o w b i t r a t ea n dh i g h c o m p r e s s i o nm e e tt h e r e q u i r e m e n t so fd i g i t a lm u l t i m e d i ai n f o r m a t i o nt r a n s m i s s i o nv e r yw e l l t h et h e s i s m a k e su s eo ft h ex v i d0 9 2s o u r c ec o d e ,w h i c hc a l li m p l e m e n tm p e g 一4s i m p l e p r o f i l el e v e l1v i d e od e c o d i n g t h et h e s i sm a i n l yi n t r o d u c e st h et r a n s p l a n t a t i o na n do p t i m i z a t i o no fm p e g - 4 v i d e od e c o d e ra l g o r i t h mb a s e do nt e n s i l i c ad i a m o n dh i f i 3 3 0p r o c e s s o r i no r d e rt o r e a l t i m ed e c o d i n g ,t h et h e s i sm a d et h em o s to ft h ep r o c e s s o r sr e s o u r c e ,a n dd i d s o m e w o r ki n c l u d i n gc o d eo p t i m i z a t i o n , i n s t r u c t i o no p t i m i z a t i o na n ds oo n i nt h e e n d ,w h e n t h et e n s i l i c ad i a m o n dh i f i 3 3 0p r o c e s s o rw o r k sw i t ht h et i m ef r e q u e n c y o f17 5m h z ,t h ed e c o d e rc a ni m p l e m e n tr e a l t i m ed e c o d i n go fq v g av i d e oi m a g e w i t ht h ef r a m er a t eo f 3 0f r a m ep e rs e c o n d k e y w o r d s :m p e g - 4 ,h i f i 3 3 0 ,t r a n s p l a n t a t i o n , o p t i m i z a t i o n 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得苤盗盘堂或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 学位论文作者签名:雨因因签字日期:2 明年石月争日 学位论文版权使用授权书 本学位论文作者完全了解苤鲞盘堂有关保留、使用学位论文的规定。 特授权苤鲞盘堂可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:触 导师签名: 签字日期:如罗年占月铲日 签字日期:& 形矿年占月卢日 第一章绪论 第一章绪论 在信息化社会中,数字化后的信息,尤其是数字化后的视频信息具有数据海 量性。例如一幅s i f ( s o u r c ei n p u tf o r m a t ) 格式,4 :4 :4 采样,帧率为3 0 帧 秒的彩色电视图像,每帧的数据量为3 5 2 x 2 4 0 x 3 = 2 5 3 k b ,那么每秒的数据量就 为2 5 3 x 3 0 = 7 6 0 3 m b 。若一片c d r o m 的容量为6 5 0 m b ,那么其仅可存储6 5 0 - - 7 6 0 3 6 0 = 1 4 2 分钟的视频节目。巨大的数据量给信息的存储和传输造成了 较大的困难,成为阻碍人类有效地获取和使用信息的瓶颈之一。因此,通过视频 编码的形式存储和传输庞大的多媒体数据是必须的。目前,视频编码标准有很多, 也在不断地变化,但是这些视频编码的基本原理和算法是相通的。 1 1 视频压缩算法与标准简述 1 1 1 视频压缩的基本算法 视频压缩的基本过程为通过一定的方法消除存在于视频信号的冗余成分,来 减少表示图像或图像组所需的数据量,从而减少数据存储量和降低传输带宽【l 】。 在压缩中,主要消除以下两种冗余:图像自身冗余和视觉冗余。图像信号固有的 统计特性表明:其相邻像素之间、相邻行之间或相邻帧之间都存在着较强的相关 性。即某像素的值可以根据它的相邻像素值推测出来,这就表明像素间存在冗余。 利用一定的方法消除这些相关性,便可实现图像信息的压缩。另外,由于人眼的 分辨力有一定限制,一些图像信息对人眼的影响微乎其微,这就是视觉信息的冗 余。根据视觉的生理学和心理学特性,允许图像经过压缩后所得的复原图像有一 定的失真,只要这种图像失真难以被一般的观众察觉即可。其中,对于消除图像 自身冗余,常见的数据压缩方法有以下几类 2 】【3 】: ( 1 ) 变换编码 对于许多压缩系统,第一步工作就是识别存在于视频信号每帧每场中的空间 冗余。消除空间冗余一般是通过变换编码来实现的,其基本思想是将通常的空间 域中的图像信号变换到另外的正交向量空间( 变换域) ,产生一批变换系数,然 后对这些变换系数进行编码处理。空间域中的一个n x n 个像素组成的图像块经 过正交变换后,在变换域中变成了同样大小的变换系数块。变换前后的明显差别 是:空间域图像块中像素之间存在很强的相关性,能量分布比较均匀;经过正交 第一章绪论 变换之后,变换域系数间近似是统计独立的,相关性基本解除,并且能量主要集 中在直流和少数低空间频率的变换系数上。常见的变换编码方法有k l 变换, 离散余弦变换( d i s c r e t ec o s i n et r a n s f o n i l ,d c t ) ,小波变换( w a v e l e tt r a n s f o r m ) 等。其中,由于k l 变换采用图像本身的特征向量作为变换的基向量,因此与 图像的统计特征完全匹配,是在最小均方误差准则下进行图像压缩的最佳变换。 但是k l 变换计算相当复杂,其变换器必须求其图像集合的协方差矩阵的特征 值和特征向量。因而在工程实践中不能广泛应用,而是常常作为其他变换的性能 评价标准。当以自然对象为编码图像时,d c t 变换的性能与k - l 最为接近。再 加上d c t 快速算法的实现,多个国际标准均采用了d c t 。d c t 是个无损的,可 逆的数学过程。它把空间幅度数据转化为空间频率数据。在视频压缩处理中, d c t 是在由亮度采样和相应的色差采样构成的8 x 8 的块上进行的。由于视频图 像的自然属性,变换后,较高空间频率的d c t 系数值很小。同时,由于人类视 觉分辨率的特点,将许多高频分量很粗糙的定义( 即用较少的比特来描述) 或完 全弃之不用,也不会引起明显的图像劣化。 ( 2 ) 预测编码 另外,视频信号在时间上也存在冗余。对于一个给定的图像序列,图像内容 在帧与帧之间的变化很小。当景物不含剧烈运动,不发生场景切换以及摄像机不 做明显运动如推拉镜头、摇镜头时,视频信号的帧差( 相邻帧间空间位置对应的 像素差值) 比帧内相邻像素间的差值信号表现出更强的相关性。这种时间上的冗 余可以通过编码端的运动估计和解码端的运动补偿来削弱。对帧间相关图像内容 的位置变化( 或称运动) 的计算是帧间压缩的主要组成部分。视频序列通常由类 似场景组成,在不同帧中某些同样的图像内容处在不同的位置。也就是说,在某 一帧图像中某个内容运动到下一帧中的不同位置上。这样,通过运动矢量就可以 表示某个内容在帧与帧之间的运动。当前帧可以利用相邻帧来预测,预测帧与当 前帧的误差以及描述预测关系的运动矢量被编码。这样当解码器对残差帧和运动 矢量解码后再依赖已经解码的相邻帧( 参考帧) ,就可以恢复当前帧。 ( 3 ) 统计编码 进行数据压缩的另一个重要途径是压缩被编码传输的符号中存在的统计冗 余。根据各个信源符号出现的概率不同而进行相应的概率匹配编码,即统计编码。 在不引起任何失真的前提下,可将传输每一个信源符号所需的平均码长降至最 低。统计编码的基本方法如下:一个由k 个信源符号组成的离散、无记忆符号 集,其中的每个符号根据其出现的概率不同用一个不定长的二进制码字表示。出 现概率高的符号分配的码字长度短,出现概率低的符号分配的码字长度长。为了 不造成信息损失,编码必须是单译和可逆的。编码中的前缀码必须满足这样的特 2 第一章绪论 点:在码表中没有码字与任何一个比它长的码字的前缀( 码头) 相同,即不存在 能在短码字后面续加若干码元构成的长码字。常见的编码方法有:h u f f m a n 编码、 s h a n n o n f a n o 编码、算术编码等。由信息论可知,统计编码平均码长的下限是其 信源符号的熵。在实际应用中,h u f f m a n 码由于编码后的冗余度小,非常接近平 均码长的下限,所以在图像与视频压缩中被广泛应用。 1 1 2 视频压缩标准概述 2 0 世纪8 0 年代以来,国际标准化组织( i n t e r n a t i o n a lo r g a n i z a t i o nf o r s t a n d a r d i z a t i o n , i s o ) 和国际电信联盟( i n t e r n a t i o n a lt e l e c o m m u n i c a t i o nu n i o n , i t u ) 组织了一批专家,开展了大量细致、全面的工作,陆续制定了一系列有关 图像编码和通信方面的建议和标准,极大地推动了图像编码技术的发展和应用。 这些标准主要可以分为i t u t 制定的h 2 6 x 和i s o 带l j 定的m p e g x 两个系列。此外, 在互联网上被广泛应用的还有r e a l - n e t w o r k s 的r e a lv i d e o 、微软公司的w m t 以及 a p p l e 公司i 均q u i c k t i m e 等 4 【5 】【6 】。具体介绍如下: 一、i t u t 的h 2 6 1 、h 2 6 3 、h 2 6 4 标准 1 h 2 6 1 h 2 6 1 是第一个基于运动补偿、帧间预测和d c t 编码的标准,是几十年来 图像编码成果的集中体现。它最初是为在窄带综合业务数字网上开展速率为 p x 6 4 k b i t s 的双向声像服务可视电话、视频会议而设计的,其中,p 等于1 3 0 。 实际的编码算法类似于m p e g 算法,但不能与后者兼容。h 2 6 1 在实时编码时比 m p e g 所占用的c p u 运算量少的多。此算法为了优化带宽占用量,引进了图像 质量与运动幅度之间的平衡折中机制。也就是说,剧烈运动的图像质量比静止的 图像质量要差。因此,这种方法是属于恒定码率可变质量编码而非恒定质量可变 码率编码。 2 h 2 6 3 h 2 6 3 是1 9 9 5 年i t u t 为传输码率低于6 4 k b i v s 的窄带通信信道制定的视频 编码标准,该标准是在h 2 6 1 标准的基础上进行改进扩充而发展起来的。但实际 上这个标准可用在很宽的码率范围,而非局限于低码率应用。它在许多应用中可 取代h 2 6 1 。h 2 6 3 的编码算法与h 2 6 1 一样,但做了一些改善以提高编码性能 和纠错能力。h 2 6 3 标准在低码率下能够提供比h 2 6 1 更好的图像效果。两者的 区别有:( 1 ) h 2 6 3 的运动补偿使用半像素精度,而h 2 6 1 则为全像素精度和循 环滤波;( 2 ) 数据流层次结构的某些部分在h 2 6 3 中是可选的,使得编解码可以 配置成更低的数据率或更好的纠错能力;( 3 ) h 2 6 3 包含四个可选项以改善性能: ( 4 ) h 2 6 3 采用无限制的运动向量以及基于语法的算术编码;( 5 ) h 2 6 3 中采用 3 第一章绪论 事先预测和与m p e g 中的p b 帧一样的帧预测方法;( 6 ) h 2 6 3 支持5 种分辨率, 即除了支持h 2 6 1 中所支持的q c i f ( q u a r t e rc o m m o ni n t e r m e d i a t ef o r m a t ) 和 c i f ( c o m m o ni n t e r m e d i a t ef o r m a t ) 外,还支持s q c i f ( s u bq u a r t e rc o m m o n i n t e r m e d i a t ef o r m a t ) 、4 c i f 和1 6 c i f 。s q c i f 相当于q c i f 一半的分辨率,而4 c i f 和1 6 c i f 分别为c i f 的4 倍和1 6 倍。 1 9 9 8 年i t u t 推出的h 2 6 3 + 是h 2 6 3 建议的第2 版。它提供了1 2 个新的可 选模式和其他特征,进一步提高了压缩编码的性能。如h 2 6 3 只有5 种视频源格 式。h 2 6 3 + 允许使用更多的源格式,图像时钟频率也可有多种选择,拓宽了应用 范围。另一重要的改进是可扩展性,它允许多显示率、多速率和多分辨率,增强 了视频信息在易误码、易丢包异构网格环境下的传输。此外,h 2 6 3 + 对h 2 6 3 中不受限运动矢量模式进行了修改,增加了1 2 个新的可选模式,不仅提高了编 码性能,而且增强了应用的灵活性。h 2 6 3 已经基本上取代了h 2 6 1 。 3 h 2 6 4 h 2 6 4 是最新一代视频编码压缩标准,由i t u t n c e g ( v i d e oc o d i n ge x p e r t s g r o u p s ) 和i s o i e c m p e g 的联合视频组( j o i n tv i d e ot e a m , m ) 共同研究开 发,它既是i t u t 的h 2 6 4 ,又是i s o i e c 的m p e g 4 的第十部分。它克服了 h 2 6 3 和m p e g 4 的缺点,在混合编码的框架下引入了统一v l c ( v a r i a b l el e n g t h c o d i n g ) 符号编码、高精度多模式的运动估计、基于4 4 块的整数变换、分层 的编码语法等新的编码方式。因此,h 2 6 4 既保留了以往压缩技术的优点和精华, 又具有其他压缩技术无法比拟的许多优点: 1 ) 低码率( l o wb i tr a t e ) :和m p e g 2 和m p e g 4a s p 等压缩技术相比, 在同等图像质量下,采用h 2 6 4 技术压缩后的数据量只有m p e g 2 的1 8 , m p e g 4 的1 3 。显然,h 2 6 4 压缩技术的采用将大大节省用户的下载时 间和数据流量收费。 2 ) 高质量的图象:h 2 6 4 能提供连续、流畅的高质量图像( d v d 质量) 。 3 ) 网络适应性强:h 2 6 4 提供了网络适应层( n e t w o r ka d a p t a t i o nl a y e r ) ,使 h 2 6 4 的文件能够容易地在不同网络上传输( 例如i n t e m e t ,c d m a , g p r s ,w c d m a ,c d m a 2 0 0 0 等) 。 二、m p e g 系列标准 m p e g 是运动图像专家组( m o v i n gp i c t u r ee x p e r tg r o u p ) 的缩写,于1 9 8 8 成立。它是专门从事于制定多媒体视音频压缩编码标准的国际组织,目前已拥 有3 0 0 多名成员,包括i b m 、s u n 、b b c 、n e c 、i n t e l 等世界知名公司。m p e g 组织最初得到的授权是制定用于“运动图像”编码的各种标准,随后扩充为“及 其伴随的音频”及其组合编码。后来针对不同的应用需求,解除了“用于数字存 4 第一章绪论 储媒体”的限制,成为现在制定“运动图像和音频编码”标准的组织。m p e g 组 织制定的各个标准都有不同的目标和应用,目前已提出了m p e g 1 、m p e g 2 、 m p e g - 4 、m p e g 7 和m p e g 2 1 标准。其中m p e g 1 和m p e g 2 是采用以香农 信息论为基础的预测编码、变换编码、熵编码及运动补偿等第一代数据压缩编码 技术,m p e g 4 则是基于第二代压缩编码技术制定的国际标准。 1 m p e g 1 m p e g 1 标准制定于1 9 9 2 年,其标准号为i s o i e c11 1 7 2 。m p e g 1 视频编 码的基本算法与h 2 6 1 h 2 6 3 相似,也采用运动补偿的帧间预测、二维d c t 、 v l c 游程编码等措施。此外还引入了帧内帧( i ) 、预测帧( p ) 、双向预测帧( b ) 和直流帧( d ) 等概念,进一步提高了编码效率。其中,帧内编码包括d c t 、量 化、游程编码和h u f f m a n 编码;帧间编码包括带运动补偿的预测法和插补法。其 码率可高达1 5 m b i t s ,具有随机存取、快速正向逆向搜索、逆向重播、视听同 步、容错性及编码解码延迟等特点。主要应用于c d r o m 光盘的视频存储和播 放。 2 噼e g 2 为了克服m p e g 1 不支持隔行扫描、不能满足日益增长的多媒体技术、数字 电视技术对分辨率和传输率等方面的技术要求等缺陷,在m p e g 1 的基础上,i s o 于1 9 9 4 年1 1 月通过了m p e g 2 标准,其标准号为i s o i e c1 3 8 1 8 ,主要用于高 清晰度视频及音频的解码,支持固定比特率传输、可变比特率传输、随机访问、 信道跨越、分级编码、比特流编辑以及快进播放、快退播放、慢动作等特殊功能, 其最高数据率可高达1 0 0 m b i t s 。同时m p e g 2 向后兼容m p e g 1 ,但具有更大 的伸缩性和灵活性。 3 m p e g 4 m p e g - 4 于1 9 9 9 年初正式成为国际标准,其标准号为i s o i e c1 4 4 9 6 。其 版本1 和版本2 分别于1 9 9 9 年和2 0 0 1 年问世。m p e g 1 、m p e g 2 是将图像分 割成方块进行处理的,而m p e g - 4 是基于图像内容的压缩编码方法。相比之下, m p e g 4 更加注重多媒体系统的交互性和灵活性。开始时,m p e g - 4 的目标是支 持低比特率信道上的数字视频、音频应用,比如用移动电话或固定电话进行可视 电话或视频会议,所以它的初始名称是“甚低比特率音频视频编码”( v e r yl o w b i tr a t ea u d i o v i s u a lc o d i n g ) 。但是,随着因特网技术的盛行,出现了新的需求 和可能的应用,如交互性、不同网络不同平台之间的互操作性。码率限制的消失 意味着更宽广的适用范围,把“视音频编码”转变为“视音频对象”编码则使工 作目标发生了质的飞跃。通过恰当地选用复杂或简单的m p e g 4 的框架,很多潜 在的应用正在逐步展开。因此,现在m p e g - 4 的主题是“音视频对象编码 第一章绪论 ( c o d i n go f a u d i o v i s u a lo b j e c t s ) 。它以视听媒体对象为基本单元,采用基于内 容的压缩编码,提供了音频对象、视频对象、场景描述及传输系统的接口进行编 码的各种标准方法,并可以很好地支持交互式多媒体的各种应用。由于m p e g 4 的功能强大,可以广泛的应用到w e b 网上的音频点播、窄带无线数字广播、w e b 网上的视频服务、移动设备上的交互式多媒体、数字多媒体广播等。 4 m p e g 7 m p e g 7 于1 9 9 8 年1 0 月提出,它的正式名称为“多媒体内容描述接口 ( m u l t i m e d i ac o n t e n td e s c r i p t i o ni n t e r f a c e ) 。其目标就是产生一种描述多媒体内 容数据的标准,满足实时、非实时以及推拉应用的需求。它既不同于基于波形 和基于压缩的表示方式如m p e g 1 和m p e g 2 ,又不同于基于对象的表示方式如 m p e g - 4 ,而是将对各种不同类型的多媒体信息进行标准化描述,并将该描述与 所描述的内容相联系,以实现快速有效的搜索。 5 m p e g - 2 1 m p e g 一2 1 标准的制定工作于2 0 0 0 年6 月启动。它的正式名称是多媒体框架 ( m u l t i m e d i af r a m e w o r k ) ,具体内容正在制定过程中。其目标是:( 1 ) 将不同的 协议、标准、技术等有机融合在一起;( 2 ) 制定新的标准;( 3 ) 将这些不同的标 准集成在一起。m p e g 2 1 标准其实就是一些关键技术的集成,通过这种集成环 境对全球数字媒体资源进行透明和增强管理,实现内容描述、创建、发布、使用、 识别、收费管理、产权保护、用户隐私权保护、终端和网络资源抽取、事件报告 等功能。 三其它压缩编码 1 r e a lv i d e o r e a lv i d e o 是r e a ln e t w o r k s 公司开发的在窄带( 主要是互联网) 上进行的 多媒体传输的压缩技术。 2 w m t w m t 是微软公司开发的在互联网上进行媒体传输的视频和音频编码压缩技 术。该技术已与w m t 服务期及客户机体系结构结合为一个整体,其中应用了的 m p e g 4 标准的一些原理。 3 q u i c kt i m e q u i c kt i m e 是苹果公司开发的一种存储、传输和播放多媒体文件的文件格式 和传输体系结构。所存储和传输的多媒体通过多重压缩模式压缩而成。传输是通 过r t p ( r e a l t i m et r a n s p o r t ) 协议实现的。 标准化是产业化成功的前提。h 2 6 1 、h 2 6 3 推动了电视电话、视频会议的 发展。早期的视频服务期产品基本都采用m - j - p e g ( m o v i n g - j o i n tp i c t u r ee x p e r t s 6 第一章绪论 g r o u p ) 标准,开创了视频非线性编辑的时代。m p e g 1 成功的在中国推动了v c d 产业的发展;m p e g 2 标准带动了d v d 及数字电视等多种消费电子产业的发展; r e a ln e t w o r k s 的r e a lv i d e o 、微软公司的w m t 以及a p p l e 公司的q u i c kt i m e 则带动了网络流媒体的发展。视频压缩编解码标准紧扣应用发展的脉搏,与工业 和应用同步。未来是信息化的时代,各种多媒体数据的存储和传输将是信息处理 的基本问题。因此,可以相信,视频压缩编码标准将会发挥越来越大的作用。 1 2 本论文的任务与结构 本论文的主要任务是基于t e n s i l i c ad i a m o n dh i f i 3 3 0 ( 以下简称h i f i 3 3 0 ) 处 理器的m p e g 4s i m p l ep r o f i l e ( s p ) l e v e l1 的视频解码器的移植和优化。h i f i 3 3 0 处理器是一款功能强大的音频处理器,可高效的支持多个标准的音频处理。在音 频处理同时,h i f i 3 3 0 处理器还有能力完成一些小格式的图像处理,可以支持一 些中低端的视频应用。m p e g 4 视频标准则有着广泛的应用,如w e b 网上的视频 服务、移动设备上的交互式多媒体、数字多媒体广播等。本论文采用m p e g 4s p 级算法解码q v g a 分辨率的视频图像,从而扩展基于h i f i 3 3 0 处理器的产品在 视频领域的应用。 本论文的主要结构如下: 第一章简单介绍了视频编码的算法和标准。 第二章详细介绍了m p e g 4 视频算法,并且对x v i d0 9 2 开发源代码也进 行了简要介绍,包括其视频工具、程序框架等。、 第三章主要介绍了h i f i 3 3 0 处理器的体系结构。 第四章是本文的重点,详细介绍了h i f i 3 3 0 处理器平台下的m p e g 4 解码的 移植和优化工作。 第二章m p e g - 4 视频编解码标准 第二章m p e g 一4 视频编解码标准 m p e g - 4 于1 9 9 9 年初正式成为国际标准,其在视频编码发展史上第一次把 编码对象从图像帧拓展到具有实际意义的任意形状的视频对象,充分了利用了人 眼的视觉特征,抓住了图像信息传输的本质,从轮廓、纹理思路出发,支持基于 视觉内容的交互功能,这适应了多媒体信息的应用由播放型转向基于内容的访 问、检索及操作的发展趋势【7 】。因而广泛应用于实时多媒体监控、极低码率下的 无线多媒体通信、基于内容存储和检索多媒体系统、i n t e m e t i n t r a n e t 上的视频 流与可视游戏、基于面部表情模拟的虚拟会议、d v d 上的交互多媒体应用、基 于计算机网络的可视化合作实验室场景应用等领域【8 1 。下面将简要介绍m p e g 4 解码标准的特点、框架以及本论文所采用的代码结构。 2 1m p e g 4 视频编解码标准的特点 m p e g 4 和以前的视频标准m p e g 1 、m p e g 2 以及h 2 6 x 系列相比,其最重 要的特点有p j : ( 1 ) m p e g - 4 编码是基于对象的 在m p e g - 4 制定之前,m p e g 1 、m p e g 2 、h 2 6 1jh 2 6 3 都是采用第一代 压缩编码技术,利用图像信号的统计特性来设计编码器,属于波形编码的范畴。 第一代压缩编码方案把视频序列按时间先后分为一系列帧,每一帧图像又分成若 干宏块以进行运动估计、运动补偿和编码。这种编码方案存在以下缺陷: 将图像固定地分成相同大小的块,在高压缩比的情况下会出现严重的块 效应,即马赛克效应; 不能对图像内容进行访问、编辑和回放等操作; 未充分利用人类视觉系统( h u m a nv i s u a ls y s t e m ) 的特性; m p e g - 4 则代表了基于对象的第二代压缩编码技术。它提出了v o ( v i d e o o b j e c t ) 这一重要概念,充分利用了人眼视觉特性,抓住了图像信息传输的本质, 从轮廓、纹理思路出发,支持基于视觉内容的交互功能。v o 是指在一个场景中 能够访问和操纵的实体,其划分可根据对象独特的纹理、运动、形状、模型及高 层语义。v o 的构成依赖于具体的应用和系统实际所处的环境。在超低比特率的 环境下,v o 可以是一个矩形帧,即传统m p e g 1 、h 2 6 3 中的帧,从而和原来 的标准兼容;对于基于内容的要求较高的应用来说,v o 可以是场景中的某一物 第二章m p e g - 4 视频编解码标准 体或某一层面,如新闻节目中解说员的头像;v o 也可以是计算机产生的二维、 三维图形等等。每个v o 用三类信息来描述:运动信息、形状信息和纹理信息。 因此m p e g 4 标准的基本内容就是对v o 进行高效编码、组织、存储与传输。 v o 编码就是m p e g - 4 编码的核心技术。 ( 2 ) m p e g 一4 在时域和空域有灵活的可扩展性 可以根据实际带宽和误码率在时域和空域进行扩展。时域扩展是指在带宽允 许时在基本层以上的增强层中增加帧率,在带宽窄时在基本层中减少帧率;空域 扩展是指对基本层中的图像进行插值,增加或减少空间分辨率,以充分利用带宽, 获得更好的图像质量。 ( 3 ) m p e g 4 在错误易发环境中有较强的抗错性 m p e g - 4 是第一个在其音、视频表示规范中考虑信道特性的标准,其目的是 提供一种对抗残留错误的坚韧性,适用于易发生严重错误环境下的低比特应用 中。 ( 4 ) 自然与合成数据的混合编码 在视频编码方面,m p e g - 4 支持对自然和合成的视觉对象的编码,同时支持 交互性操作。合成的视觉对象包括2 d 、3 d 动画和人面部表情动画等。 ( 5 ) 对多个并发数据流的编码 m p e g 4 提供对同一景物的有效多视角编码,加上多伴音声道编码及有效的 视听同步。在足够的观察视点条件下,可以有效地描述三维自然景物。 综上所述,m p e g - 4 不仅可提供高压缩比,同时也可更好的实现多媒体内容 的互动性及全方位的存取性。它采用开放的编码系统,可随时加入新的编码算法 模块,同时也可根据不同应用需求现场配置解码器,以支持多种多媒体应用。它 是视频编码发展史上第一次把编码对象从图像帧拓展到具有实际意义的任意形 状视频对象,从而实现了从基于像素的传统编码向基于对象和内容的现代编码的 转变,引领着新一代智能图像编码的发展潮流。 2 2m p e g 4 视频编解码标准的关键技术 m p e g 4 除采用了第一代视频编码的核心技术,如变换编码、运动估计、运 动补偿、量化、熵编码外,还提出了一些新的有创见性的关键技术,并在第一代 视频编码技术基础上进行了卓有成效的改进和完善 1 0 】。 a v o p 视频编码技术 视频对象平面( v i d e oo b j e c tp l a n e ) 是视频对象v o 在某一时刻的采样。v o p 是m p e g - 4 视频编码的核心概念。m p e g - 4 在编码过程中针对不同v o 采用不同 9 第二章m p e g - 4 视频编解码标准 的编码策略。即对前景v o 的压缩编码尽可能保留细节和平滑;对背景v o 则采 用高压缩率的编码策略,甚至不予传输而在解码端由其他背景拼接而成。这种基 于对象的视频编码不仅克服了第一代视频编码中高压缩比编码所产生的方块效 应,而且能够实现用户与场景的交互,从而既提高了压缩比,又实现了基于内容 的交互,为视频编码提供了广阔的发展空间。 m p e g - 4 支持任意形状图像与视频的编解码。在极低码率实时应用中,如可 视电话、会议电视,m p e g - 4 采用极低比特率视频( v e r yl o wb i t r a t ev i d e o , v 】擂v ) 核进行编码。这时的v o 就是一个矩形帧,即传统m p e g l ,h 2 6 3 中的 矩形帧。 传统的矩形图在m p e g - 4 中被看作是v o 的一种特例,这正体现了传 统编码与基于内容编码在m p e g 4 中的统一。v o 概念的引入,更加符合人脑对 视觉信息的处理方式,使视频信号的处理方式从数字化发展到智能化,从而提高 了视频信号的交互性和灵活性,使得更广泛的视频应用及更多的内容交互成为可 能。因此v o p 视频编码技术被誉为视频信号处理技术从数字化进入智能化的初 步探索。 b 视频对象提取技术 m p e g - 4 实现基于内容交互的首要任务就是把视频图像分割成不同对象或 者把运动对象从背景中分离出来,然后针对不同对象采用相应编码方法,以实现 高效压缩。因此视频对象提取,即视频对象分割是m p e g 4 视频编码的关键技术, 也是新一代视频编码的研究热点和难点。 对于自然场景,通常采用半自动或自动的方法分割视频对象。视频序列中的 每一帧都采用同样的方法进行分割,将图像分割为一些任意形状的区域。一个任 意形状的v o p 可以用纹理变量,即一系列亮度值和色度值和形状描述来完全表 示。每个v o p 的形状、运动及纹理信息都是独立地进行编码、存储和传输的。同 时,v o p 标识以及多个v o p 在接收端如何重新组合为原始序列等相关信息也要传 给解码器。有了这些相关信息,解码器不仅可以对己压缩的信息解压缩,而且还 可以进行场景合成。因此在传送m p e g 4 视频编码码流的同时,必须把合成的附 加信息传送到接收端,这种附加信息被称为a l p h a 通道。 图2 1 是将一个场景分割成多个单独的v o p 的示意图。这个场景由两个对 象( 圆和五角星) 和背景组成。采用自动和半自动的方法将对象分割成v o p 0 和 v o p 2 ,去掉了对象的背景则为v o p l 。因此,这个分割后的视频序列中包括三 个v o p ,即v o p 0 、v o p l 和v o p 2 。 c 视频编码可分级技术 随着因特网业务的飞速增长,在速率起伏很大的i p ( i n t e m e tp r o t o c 0 1 ) 网络 上和具有不同传输特性的异构网络上进行视频传输的要求和应用越来越多。在这 l o 第二章m p e g - 4 视频编解码标准 图2 - 1 视频对象分割示意图 种背景下,视频分级编码的重要性日益突出。由于其很高的理论研究和实际应用 价值,以及广泛的应用,正在成为视频研究的重点。 视频编码的可分级性( s c a l a b i l i t y ) 是指码流的可调整性,即视频数据只压 缩一次,却能以多个帧率、空间分辨率或视频质量进行解码,从而可支持多种类 型用户的不同应用要求。 m p e g 4 通过视频对象层( v i d e oo b j e c tl a y e r ,v o l ) 这一数据结构来实现 分级编码。m p e g - 4 中提供了两种基本分级工具,即时域分级( t e m p o r a l s c a l a b i l i t y ) 和空域分级( s p a t i a ls c a l a b i l i t y ) 。此外还支持时域和空域的混合分级。 每一种分级编码都至少有两层v o l ,低层称为基本层,高层称为增强层。基本 层提供了视频序列的基本信息,增强层则为视频序列提供了更高的分辨率和细 节。在带宽有限的情况下,只对基本层进行处理;在带宽充足的情况下,加入 增强层的信息,从而可得到更好的图像质量。在随后增补的视频流应用框架中, m p e g - 4 又提出了精细可伸缩性( f i n eg r a n u l a r i t ys c a l a b l e ,f g s ) 视频编码算法 以及渐进精细可伸缩性( p r o g r e s s i v ef i n eg r a n u l a r i t ys c a l a b l e ,p f g s ) 视频编码 算法。f g s 编码实现简单,可在编码速率、显示分辨率、内容、解码复杂度等方 面提供灵活的自适应和可扩展性,且具有很强的带宽自适应能力和抗误码性能。 但还存在编码效率低于非可扩展编码及接收端视频质量非最优两个不足。p f g s 则是为改善f g s 编码效率而提出的视频编码算法,其基本思想是在增强层图像 编码时使用前一帧重建的某个增强层图像为参考进行运动补偿,以使运动补偿更 加有效,从而提高编码效率。 d 运动估计和运动补偿 m p e g 4 采用i - v o p 、p v o p 、b v o p 三种帧格式来表征不同的运动补偿类 第二章m p e g - 4 视频编解码标准 型。它采用了h 2 6 3 中的半像素搜索( h a l fp i x e ls e a r c h i n g ) 技术和重叠运动补 偿( o v e r l a p p e dm o t i o nc o m p e n s a t i o n ) 技术,同时又引入重复填充( r e p e t i t i v e p a d d i n g ) 技术和修改的块( 多边形) 匹配( m o d i f i e db l o c k ( p o l y g o n ) m a t c h i n g ) 技术,以支持任意形状的v o p 区域。此外,为提高运动估计算法精度,m p e g 4 采用了m v f a s t ( m o t i o nv e c t o rf i e l da d a p t i v es e a r c ht e c h n i q u e ) 和改进的 p m v f a s t ( p r e d i c t i v em 、傅a s t ) 。对于全局运动估计,则采用了基于特征的快 速稳健的全局运动估计

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论