




已阅读5页,还剩69页未读, 继续免费阅读
(通信与信息系统专业论文)基于arm平台的mpeg4解码优化研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北京邮电大学硕士研究生论文 基于a r m 平台的,m p e g 4 解码优化研究 摘要 目前,随着多媒体通信的发展,多媒体技术正日益成为影响人们 的学习、工作和生活的一种技术。图像的压缩技术经过半个多世纪的 发展,到现在主要有j p e g 、m p e g 一1 、m p e g 2 、m p e g 一4 、h 2 6 1 和h 2 6 3 等国际标准。这些技术针对不同的应用都有其显著的优点。 本文首先介绍了多媒体及视频压缩的原理,然后对m p e g 一4 视 频压缩编码技术进行了介绍,并着重介绍了m p e g 一4 的一种编码器 模型x v i d 。文中对d c t 变换及其在m p e g 4 视频压缩编码中的 使用进行了分析,对零系数d c t 变换,部分系数d c t 变换的算法进 行了介绍。然后在x v i d 中实现了基于部分系数d c t 编码的i d c t 解 码方案的优化。这一算法能够有效的降低i d c t 、量化和反量化的运 算量,提高编码器处理速度,而不会导致明显的图像质量的下降。最 后在a r ma d s 平台上对优化后的解码算法进行了速度验证。 通过项目和研究性的工作,更加深入的理解m p e g 一4 的编解码 技术,通过对解码算法的优化使m p e g 一4 能够解码速度更快,更适 合于在a r m 平台等能力受限的嵌入式系统上应用。 本论文组织结构安排如下:第一章绪论对视频压缩产生的背 景,视频压缩编码过程和方法,视频压缩编码标准等进行了简要介绍。 第二章m p e g 一4 视频压缩编解码原理及x v i d 介绍;第三章d c t 变换及其在m p e g 一4 视频压缩编解码中的使用;第四章x v i d 解码 优化研究;第五章x v i d 解码优化结果分析;第六章总结对本文的 结果进行总结,并展望了未来的发展。 关键词m p e g 一4 、x v i d 、优化、解码、i d c t 、a r m 北京邮电大学硕二l 二研究生论文 t h ed e c o d i n ga r i t h m e t i c0 p t i m i z e o fm p e g 一4b s e do na r m p l a t f o r m a bs t r a c t a tp r e s e n t ,w i t ht h ed e v e l o p m e n to fm u l t i m e d i ac o m m u n i c a t i o n ,t h e m u l t i m e d i at e c h n o l o g yi sb e c o m i n gak i n do ft e c h n o l o g yt h a ti n f l u e n c e s p e o p l e ss t u d y ,w o r k a n dl i v e sm o r ea n dm o r e t h e c o m p r e s s i o n t e c h n o l o g yo fi m a g eu n d e r g o e so v e rh a l fac e n t u r yo fd e v e l o p m e n t :t h e r e a r ej p e g ,m p e g 一1 ,m p e g 一2 ,m p g e - 4 ,h 2 6 1a n dh 2 6 3i n t e r n a t i o n a l s t a n d a r d s m a i n l y t i l ln o w t h e s e t e c h n o l o g i e s h a v er e m a r k a b l e a d v a n t a g e si nd i f f e r e n ta p p l i c a t i o n s t h i s p a p e r d i s c u s s e st h e t h e o r y o fm u l t i m e d i aa n dv e d i o c o m p r e s s i o ni n t h eb e g i n n i n g ,a f t e rt h a ti ti n t r o d u c e sm p e g 一4v e d i o c o m p r e s s i o n c o d i n gt e c h n o l o g ya n dp a r t i c u l a r l yo n eo fm p e g 一4 c o d e cm o d e l x v i d i nt h i sp a p e r ,ia n a l y z e dt h ed c ta n di t su s a g ei n m p e g 一4c o d e c ,a n da l s oi n t r o d u c e dt h ez e r oc o e f f i c i e n td c t ,p a r t c o e f f i c i e n td c ta r i t h m e t i c t h e na c h i e v ex v i dd e c o d ea r i t h m e t i c o p t i m i z eb a s e do np a r tc o e f f i c i e n ti d c td e c o d em e t h o d t h ea l g o r i t h m c a nr e d u c e a n ds i m p l i f yt h e o p e r a t i o n o fi d c t 、q u a n t i t ya n di q e f f e c t i v e l ya n di n c r e a s et h ep r o c e s s i n gs p e e do f x v i dc o d e cw i t h o u t c a u s i n gd i s t i n c td r o po ft h eq u a l i t yo fp i c t u r e s i nt h ee n do ft h i sp a p e r ,i c a r r i e do u ts p e e dv e r i f i c a t i o no fo p t i m i z e dd e c o d ea r i t h m e t i co nt h e a r ma d sp l a t e f o r m t h r o u g ht h ew o r ko nt h ep r o j e c t ,iu n d e r s t a n dm o r et h o r o u g h l yt h e t e c h n i c a lo fm p e g 一4c o d i n g d e c o d i n gt e c h n o l o g y t h eo p t i m i z a t i o nt o d e c o d ea r i t h m e t i cc a nm a k et h ed e c o d es p e e dm u c hf a s t e rw h i c hf i t st h e a p p l i c a t i o n o f c a p a b i l i t y l i m i t e de m b e d d e d s y s t e m s u c ha sa r m p la t e f o r mm u c hb e t t e r t h em a i nc o n t e n to ft h i sp a p e ri sa r r a n g e da sf o l l o w s : c h a p t e ro n ed e s c r i b e st h eb a c k g r o u n da n dp r o c e d u r eo fm u l t i m e d i aa n d v e d i o c o m p r e s s i o n ,p r e s e n t s a no v e r v i e wo fv i d e oc o m p r e s s i o n s t a n d a r d s c h a p t e r t w oi n t r o d u c e st h et h e o r yo fm p e g 一4 v e d i o c o m p r e s s i o nc o d e c sa sw e l la sx v i d c h a p t e rt h r e ed i s c u s s e sd c t a n d i t su s ei nm p e g 4v e d i oc o m p r e s s i o nc o d e c s c h a p t e rf o u rd e s c r i b e s t h eo p t i m i z a t i o no fx v i di nt h ed e c o d i n gp r o c e s s c h a p t e rf i v ea n a l y s e s t h er e s u l to fc h a p t e rf o u r c h a p t e rs i xi st h ec o n c l u s i o no ft h i sp a p e ra n d b a s eo nw h i c hp r o s p e c t st h ef u t u r ed e v e l o p m e n to fm p e g 一4c o d e c k e yw o r d s :m p e g 4 、o p t i m i z e 、d e c o d e 、x v i d 、i d c t 、a r m l v 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名: 胡森艳 日期:肋易弓2 d 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 本学位论文不属于保密范围,适用本授权书。 本人签名: 导师签名: 日期:型里亟! 至:墨! 北京邮电大学硕二i :研究生论文 第一章绪论 1 1 视频压缩产生的背景 随着科技的发展,视频通信以其直观性、确切性、生动性的特点在多媒体 通信中占有越来越重要的地位。随着多媒体技术的发展,特别是i n t e r n e t 的发展, 视频的实时传输日益成为计算机通信领域中倍受瞩目的问题。大量图像的传输 成为多媒体应用的瓶颈,因为图像和视频包含巨大数量的信息,其传输和存储一 需要很宽的带宽,这就需要昂贵的通信信道和硬件进行图像传输、存储和管理。 以p a l 制式为例,一幅图像包含7 2 0 x 5 7 8 x 2 4 bi t ,一张容量为1 2 mb 的高密度 软盘还存它不下,而实时视频每秒包含2 5 帧图像;一路6 m h z 的普通电视信号 数字化后,其数码率将高达1 6 7 m b p s ,占有的带宽将达8 0 m h z 左右。下表列出了 各种应用的码率。 表1 1 各种应用的码率 比特数象素数行数比特秒( 压缩比特秒( 压缩 应用种类帧数秒亮色比 象素行帧前)后) i i d t v81 9 2 01 0 8 03 04 :1 :1 1 1 8 g b p s2 0 、2 5 m b p s 普通电视 87 2 04 8 03 04 :1 :1 1 6 7 m b p s4 、8 m b p s c c i r 6 0 1 会议电视 83 5 22 8 83 04 :1 :1 3 6 5 m b p s1 5 、2 m b p s c i f 桌上电视 8l7 61 4 43 04 :1 :l 9 1 m b p s1 2 8 k b p s q c f 电视电话 81 2 811 23 04 :1 :1 5 2 m b p s5 6 k b p s 北京邮电大学硕士研究生论文 由上表可以看出,数字化的视频信息的数据量相当庞大,这么大的数据量 无疑给存储器容量、通信干线信道传输率以及计算机处理速度都增加了极大的 压力,单纯从扩大存储器容量和增加通信干线的比特率来解决这一问题是不现 实的。数据压缩技术是行之有效的办法,通过数据压缩手段把信息数据量压下 来,以压缩形式存储和传输,既紧缩节约了存储空间,又提高了通信干线的传 输效率,同时也使计算机乃至手机实时处理视频信息,保证播出高质量的视频 节目成为可能。 多媒体视频数据压缩不仅是必要的还是可能的。从信息论观点来看,图像 作为一个信源,描述信源的数据是信息量( 信源熵) 和信息冗余量之和。信息冗余 量有许多种,如空间冗余,时间冗余,结构冗余,知识冗余,视觉冗余等,数 据压缩实质上是减少这些冗余量。可见冗余量减少可以减少数据量而不减少信 源的信息量。从数学上讲,图像可以看作一个多维函数,压缩描述这个函数的 数据量实质是减少其相关性,保留相互独立的信息分量。另外在一些情况下, 允许图像有一定的失真,而并不妨碍图像的实际应用,那么数据量压缩的可能 性就更大了。 去掉图像中的各种冗余信息并不会影响人们对它们的识别和判断,因为人 类的视觉系统是一种高度复杂的系统,它能从极为杂乱的图像中抽象出有意义 的信息,并以非常精练的形式反映给大脑。人眼对图像中的不同部分的敏感程 度是不同的,如果去除图像中对人眼不敏感或意义不大的部分,对图像的主观 质量是不会有很大影响的。所以,允许图像编码有一定的失真也是图像可以压 缩的一个重要原因。在许多应用场合,并不要求经压缩及复原以后的图像和原 图完全相同,而允许有少量失真,只要这些失真并不被人眼所察觉,在许多情 况下是完全可以接受的,这就给压缩比的提高提供了十分有利的条件。 在实际应用中,图像编码技术研究有极其重大的理论意义和实用价值,它 对促进多媒体通信的发展有非常重要的积极意义。若视频信号能以高压缩比在 甚低比特下传输( 小于6 4 k b p s ) ,则人们在p s t n 通信网、移动通信网上t 即可实 现视频通信,使通信网的频率利用率大大的提高,可以满足人们日益增长的多 媒体业务的需求。 常用的数字压缩技术主要包括用于会议电视系统的h 2 6 1 压缩编码,用于 计算机静止图像压缩的j p e g 和用于活动图像压缩的m p e g 数字压缩技术和近 年来比较热点的h 2 6 3 和h 2 6 4 压缩编码技术。 2 北京邮电大学硕_ - i :t i t f 究生论文 1 2 视频压缩编码介绍 1 2 1 视频压缩编码基本过程 图像压缩不仅是必要的而且是可能的,因为图像数据是高度相关的,一幅 图像的内部和视频序列中相邻的图像之间有着大量的冗余信息。这些冗余信息 有上述列举的时间冗余、空间冗余等,图像编码方法就是要尽可能的消除这些 冗余信息,以降低表示图像所需的数据量。一般通过改变图像的表示方式来实 现视频压缩,因此压缩和编码是分不开的。 以静止图像画面为例,数字图像的灰度信号和色差信号在空域( x ,y 坐标系) 虽然属于一个随机场分布,但是它可以看成为一个平稳的马尔可夫场,即图像 像素点在空域中的灰度值和色差信号值,除了边界轮廓外,都是缓慢变化。比 如一幅人的头肩像图,背景、人脸、头发等处的灰度、颜色都是平缓改变。相 邻像素的灰度和色差值比较接近,信息有较多的冗余。如何先排除冗余信息, 再进行编码,使像素的平均比特数下降,以减少空域冗余进行数据压缩,这就 是通常所说的视频图像的帧内编码。 视频图像是沿时间轴方向的一个帧序列,其帧问图像的相关性也是很强的, 通常采用运动估计和运动补偿的方法以减少时域的冗余信息,达到压缩视频数 据的目的,这就是通常所说的视频图像的帧间编码。 此外,还可以利用先验知识实现图像编码。在某些特定的应用场合,编码 对象的某些特性可预先知道。例如,在可视电话中,编码对象为人的头肩像, 此时可以利用对编码对象的先验知识为编码对象建立模型,通过提取模型参数, 对参数进行编码而不对图像直接进行编码,可以达到非常高的压缩比。 图像压缩编码的过程可以概括成下图所示的框图: 北京邮电大学硕士研究生论文 图1 - 1 视频压缩的基本过程 编码的第一步是进行映射变换,这其实是去冗余阶段。经过映射变换,如 时域预测、频域变换或其它等价变换,原始图像数据特性被改变,变得更利于 压缩编码。去冗余阶段形成的参数进入熵减阶段,这个阶段就是量化过程。量 化器的引入是图像编码产生失真的根源。嫡编码器是用来消除符号编码冗余度 的,它一般不产生失真,常用的编码方法有许多种,如分组码、行程码、变长 码和算术码等。量化后的参数再被送入存储设备或通过信道传输。上述过程的 逆过程即为解码过程。 1 2 2 视频压缩编码方法简介 视频压缩编码方法有许多种,从不同的角度出发有不同的分类方法,比如 从信息论角度出发可分为两大类: ( 1 ) 冗余度压缩方法,也称无损压缩, 解码图像和压缩编码前的图像严格相同, 算。 信息保持编码或熵编码。具体讲就是 没有失真,从数学上讲是一种可逆运 ( 2 ) 信息量压缩方法,也称有损压缩,失真度编码或熵压缩编码。也就是讲 解码图像和原始图像是有差别的,允许有一定的失真。 应用在多媒体中的视频压缩编码方法,从压缩编码算法原理上可以分类为 如下图所示: 4 北京邮电大学硕士研究生论文 图1 2 视频压缩编码分类 5 北京邮电大学硕士研究生论文 在第三章将对上图中的变换编码及其中的d c t 变换做重点介绍。 在i p 视频通信应用中,视频压缩编码方法的选择不但要考虑到压缩比、 信噪比,还要考虑到算法的复杂性。太复杂的编码算法可能会产生较高的压缩 比,但也会带来较大的计算开销,软件实现时会影响通信的实时性。 衡量一个压缩编码方法优劣的重要指标是: ( 1 ) 压缩比要高,有几倍、几十倍,也有几百乃至几千倍; ( 2 ) 压缩与解压缩要快,算法要简单,硬件实现容易; ( 3 ) 解压缩的图像质量要好。 1 3 视频压缩编码标准介绍 为了适应数字视频技术的发展,i t u t 和i s o i e c 组织制定了一系列的数 字视频编码标准。国际电信联盟i t u t 制定了关于电视电话会议电视的视频编 码标准h 2 6 1 、h 2 6 3 、h 2 6 4 ;国际标准化组织i s o 和国际电工委员会i e c 制 定了关于活动图像的编码标准m p e g 1 、m p e g 一2 和m e p g 4 、m p e g 7 。m p e g 全称是m o v i n g p i c t u r e se x p e r t sg r o u p ,动态图象专家组的英文缩写。 1 、m p e g 1 m p e g 1 标准叫作“运动图像和伴随声音的编码一用于速率约在1 5 m b s 以 下的数字存储媒体”,主要用于多媒体存储与再现,可适用于不同带宽的设备, 如c d r o m 、v i d e o c d 、c d r 等。m p e g 1 采用c i f 视频格式,帧速率为2 5 帧秒或3 0 帧秒,码率为1 5 m b s ( 其中视频约1 2 m b s ,音频约0 3 m b s ) 。m p e g 1 为了追求更高的压缩率,同时满足多媒体等应用所需的随机存取要求,将视频 图象序列划分为i 帧、p 帧和b 帧,根据不同的图象类型而不同对待。该标准 草案于1 9 9 1 年1 1 月完成,1 9 9 2 年1 1 月正式通过。 m p e g 1 的编码速率最高可达4 5 m b i t s s e c ,但随着速率的提高,其解码后 的图象质量有所降低。m p e g 1 对色差分量采用4 :1 :1 的二次采样率,旨在 达到v r c 质量,其视频压缩率为2 6 :1 。 m p e g 1 现已成为常规视频标准的一个子集,该子集称为c p b 流。同时它 也被用于数字电话网络上的视频传输,如非对称数字用户线路( a d s l ) ,视频点 播( v o d ) ,以及教育网络等,因此m p e g 1 可被用做记录媒体或是在i n t e r n e t 上传输音频。 2 、m p e g 2 6 北京邮电大学硕:卜研究生论文 m p e g 一2 是继m p e g 一1 之后,m p e g 制定的又一视频压缩标准( i s o i e c 1 3 8 1 8 ) ( 其中视频部分即为h 2 6 2 ) 。m p e g 一2 标准制定于1 9 9 4 年,设计目标是高 级工业标准的图象质量以及更高的传输率,它追求的是c c i r 6 0 1 建议的图象质 量d v b 、h d t v 和d v d 等制定的3 m b p s - - - 1 0 m b p s 的运动图象及其伴音的编码 标准。制定m p e g 2 标准的出发点是保持通用性,适用于广泛的应用领域、比 特率、分辨率、质量和服务。因为m p e g 一2 可以在一个较广的范围改变压缩比, 以适应不同画面质量、存储容量以及带宽的要求,所以除了做为v c d 和d v d 的指定标准外,m p e g 2 还可用于为广播、有线电视网、电缆网络以及卫星直 播( d i r e c t b r o a d c a s t s a t e l l i t e ) 提供广播级的数字视频。m p e g 2 适于高于2 m b s 的 视频压缩,这包括了原打算为h d t v 的发展而制定m p e g 一3 标准的内容。 m p e g 一2 标准的基本算法也是运动补偿的预测和带有d c t 的帧间内变长编 码,它与m p e g 1 的主要区别在于:( 1 ) 能够有效地支持电视的隔行扫描格式; ( 2 ) 支持可分级的可调视频编码,这适用于需要同时提供多种质量的视频业务的 情况。可调视频信号编码的层次不仅可以按空间分辨力,也可按时间分辨力、 信噪比和数据比特的重要性等来划分。根据m p e g 2 的标准c c i r6 0 1 格式 ( 7 0 2 x 5 7 6 x 2 5 帧) 的信号可压缩到4 m b s - - 6 m b s ,而h d t v 格式( 1 2 8 0 x 7 2 0 x 6 0 帧) 的信号可压缩到2 0 m b s 左右。 3 m p e g 4 1 9 9 4 年,m p e g 专家组正式开始制定m p e g 4 标准,到1 9 9 8 年1 1 月将发 布m p e g 4 视频国际标准草案。它主要是针对多媒体应用的,对可移动性的视 频编码速率为5 6 4 k b s ,而对影视应用最高速率可达2 m b s 。m p e g 4 标准的 突出特点是对音视频数据采用基于内容( c o n t e n t b a s e d ) 的操作、存取及传输。 m p e g 4 标准主要应用于视频电话( v i d e o p h o n e ) ,视频邮件( v i d e o e m a i l ) 和电子 新闻( e l e c t r o n i c n e w s ) 等。 m p e g 4 标准是一个开放、灵活、可扩展的结构形式,可随时加入新的、 有效的算法模板,并可根据不同的应用要求现场配置解码器。在第二章中会详 细介绍m p e g 4 的特点。 4 、m p e g 7 m p e g 7 称为“多媒体内容描述接口”,它是一种使用者可以搜索、浏览、 回传内容的多媒体描述标准,支持多媒体信息基于内容的高效快速检索。它比 现在主要基于以文本为基础的搜索速度更快、效率更高。这些描述基于由 7 北京邮电大学硕:i 二研究生论文 m p e g 一1 、m p e g 2 及m p e g 4 定义的音像数据描述的目录( 如名称、作者、版 权) ,语义( 如人物、事件、时间、地点) 和结构( 如颜色直方图) 等,期望用 很少的特征就能对信息内容进行检索。它支持数据管理的灵活性、数据资源的 全球化和互操作性。 m p e g 一7 的应用范围很广泛,既可应用于存储( 在线或离线) ,也可用于流 式应用( 如广播、将模型加入i n t e r n e t 等) ,还可以在实时或非实时环境下应用, 如:数字图书馆( 图象目录,音乐字典等) 、多媒体名录服务( 如黄页) 、广播 媒体选择( 无线电信道,t v 信道等) 、多媒体编辑( 个人电子新闻业务,媒体 写作) 等。另外m p e g 7 在教育、新闻、导游信息、娱乐、研究业务、地理信 息系统、医学、购物、建筑等各方面均有较深的应用潜力。m p e g 71 9 9 8 年开 始制定,2 0 0 2 年正式完成通过。 5 、h 2 6 1 h 2 6 1 是c c i t t ( 现改名为i t u ) 制定的国际上第一个视频压缩标准,主要 用于可视电话和视频会议,以满足i s d n 日益发展的需要。该标准于1 9 9 0 年1 2 月获得批准。h 2 6 1 标准的名称为“视听业务速率为p x 6 4 k b s 的视频编译码”, 又称为p x 6 4 k b s 标准( p = 1 , 2 ,3 0 ) 。p = 1 , 2 时仅支持四分之一通用交换格式 ( q c i f ) 的视频格式( 1 7 6 x 1 4 4 ) ,用于帧速低的可视电话;p = 6 时可支持通用交换 格式( c i f ) 的视频格式( 3 5 2 x 2 8 8 ) 的会议电视。 h 2 6 1 只对c i f 和q c i f 两种图像格式进行处理,每帧图像分成图像层、宏 块组( g o b ) 层、宏块( m b ) 层、块( b l o c k ) 层来处理。h 2 6 1 是最早的运动图像压缩 标准,它详细制定了视频编码的各个部分,包括运动补偿的帧间预测、d c t 变 换、量化、熵编码,以及与固定速率的信道相适配的速率控制等部分。其许多 技术( 包括视频数据格式、运动估算与补偿、d c t 变换、量化和熵编码) 都被后 来的m p e g 1 和m p e g 2 所借鉴和采用。 6 、h 2 6 3 及h 2 6 3 + h 2 6 3 是i t u t 的关于低于6 4 k b s 比特率的窄带通道视频编码建议,其目 的是能在现有的电话网上传输活动图象。由于h 2 6 3 是面向低速信道的,所以 必须在帧频和图象失真之间作出选择。h 2 6 3 是在h 2 6 1 建议的基础上发展起来 的,其信源编码算法仍然是帧问预测d c t 混合编码,但h 2 6 3 与h 2 6 1 不同的 是,为降低码率,h 2 6 3 在h 2 6 1 的压缩算法的基础上作了一些改进,如预测模 式不仅有前向预测,还有双向预测;运动矢量的估计和运动补偿都精确到半个像 素等。它处理的图象格式可以覆盖从s u b q c i f 到1 6 c i f ,而且,h 2 6 3 还提供 8 北京邮电大学硕:i :研究生论文 了4 种可协商选择的编码方法:无限制范围的运动矢量、基于语法的算法编码 方法、先进预测和p b 帧。h 2 6 3 建议草案于1 9 9 5 年1 1 月完成。 虽然在低比特率、低分辨率的应用中h 2 6 3 有它的优点,但它也有一定的 局限性。对此,最近i t u t 对h 2 6 3 进行了修改,提出了h 2 6 3 + 建议。h 2 6 3 + 建议增加了许多新技术,以扩大建议的应用范围,提高重建图象的主观质量以 及加强对编码比特率的控制。 1 、h 2 6 4 | 酬c m p e g ( 运动图像专家组) 和v c e g ( 视频编码专家组) 联合开发了一个比 早期研发的m p e g 和h 2 6 3 性能更好的视频压缩编码标准,这就是被命名为 a v c ( 增强视频编码) ,也被称为i t u th 2 6 4 建议和m p e g 4 的第1 0 部分的 标准。通常被简称为h 2 6 4 a v c 。这个国际标准已于2 0 0 3 年3 月正式被i t u t 通过。 视频的各种应用必须通过各种网络传送,这要求一个好的视频方案能处理 各种应用和网络接口。h 2 6 4 a v c 为了解决这个问题,提供了很多灵活性和客 户化特性。h 2 6 4 a v c 的设计方案包含两个层次,视频编码层( v c l ,v i d e o c o d i n gl a y e r ) 和网络抽象层( n a l ,n e t w o r ka b s t r a c t i o nl a y e r ) 。视频编码层 主要致力于有效地表示视频内容,网络抽象层格式化v c l 视频表示,提供头部 信息,适合多种传输和存储媒体。 h 2 6 4 着重于解决压缩的高效率和传输的高可靠性,其支持三个不同档次的 应用,应用场合相当广泛。其中基本档次主要用于视频会话,如会议电视,可 视电话,远程医疗,远程教学;扩展档次主要用于网络的视频流,如视频点播; 主要档次主要用于消费电子应用,如数字电视广播、数字视频存储等。 但是要实现上述多种强大功能也导致了h 2 6 4 的算法复杂度较高,不利于 在手机终端等能力受限设备上的使用。 1 4 课题内容和论文组织结构 近年来,多媒体技术飞速发展,在社会生活的许多领域得到了广泛的应用。 为适应技术发展和应用的要求,各种多媒体数据压缩编码标准也在不断发展。 从h 2 6 1 ,m p e g 1 到m p e g 2 ,到现在的h 2 6 3 ,h 2 6 4 ,m e p g 一4 和m p e g 7 ,标 准越来越成熟,覆盖的应用领域越来越广。目前发展最迅速、影响最大,也最 9 北京邮电大学硕士研究生论文 成熟的多媒体数据压缩编码国际标准是m p e g 4 。m p e g 4 定义了多媒体编码和 解码、网络传输以及人与媒体交互的一整套框架,涵盖了多媒体的绝大部分应 用领域。m p e g 4 基于对象的编码思想使其具有高压缩比、可扩展性、可交互 性等许多优点。 由于m p e g 4 实现的复杂度低,使用比较成熟,基于m p e g 4 的技术在多 媒体通信尤其是无线视频通信方面蓬勃发展,及时跟踪和了解m p e g 4 在无线 视频通信领域的发展动态,掌握其核心技术,并结合实际应用在某些关键方向 上有所创新和发展,是一项很有意义的工作。作为m p e g 一4 标准的核心内容, m p e g - 4 的视频解码部分正受到越来越多的关注,电子工业、广播电视业、电信 业、计算机软件业都在紧密注视着它的发展。我的课题内容就是围绕着m p e g 一4 视频解码来做的,对m p e g 一4 的核心思想进行讨论及分析,对m p e g 一4 编解码器 模型之一的x v i d 的解码算法进行了优化,使其能够更快的在手机等能力受限 设备上进行视频的解码,并在a r m 平台上对其进行了验证。 本论文组织结构安排如下:第一章绪论对视频压缩产生的背景,视频压 缩编码过程和方法,视频压缩编码标准等进行了简要介绍。并对本论文所研究 的课题内容和论文的组织结构进行了介绍;第二章m p e g 4 视频压缩编解码原 理及x v i d 介绍;第三章d c t 变换及其在m p e g 4 视频压缩编解码中的使用; 第四章x v i d 解码优化研究:第五章x v i d 解码优化结果分析;第六章总结对 本文的结果进行总结,并展望了未来的发展。 1 0 北京邮电大学硕士研究生论文 第二章m p e g 一4 视频压缩编解码原理及x v ld 介绍 2 1m p e g - 4 视频编解码原理简介 在m p e g 一4 制定之前,m p e g 1 、m p e g 2 、h 2 6 1 、h 2 6 3 都是采用第一代 压缩编码技术,着眼于图像信号的统计特性来设计编码器,属于波形编码的范 畴。第一代压缩编码方案把视频序列按时间先后分为一系列帧,每一帧图像又 分成宏块以进行运动补偿和编码,这种编码方案存在以下缺陷: r - 将图像固定地分成相同大小的块,在高压缩比的情况下会出现严重的块效 应,即马赛克效应; 不能对图像内容进行访问、编辑和回放等操作 未充分利用人类视觉系统( h v s ,h u m a nv i s u a ls y s t e m ) 的特性。 m p e g 4 则代表了基于模型对象的第二代压缩编码技术,它充分利用了人,: 眼视觉特性,抓住了图像信息传输的本质,从轮廓、纹理思路出发,支持基于 视觉内容的交互功能,这适应了多媒体信息的应用由播放型转向基于内容的访 问、检索及操作的发展趋势。 为了支持众多的多媒体应用,m p e g 4 不仅保留了现有标准中的一些解决 方案,而且致力于一些新功能的研究与定义。这些新功能可划分为三大类:基 于内容的交互功能:基于对象的多媒体存取工具,基于对象的码率控制和编辑 功能( 提供编辑视频对象的方法) ,基于对象的时域随机存取;数据压缩编码:视 频数据的高效编码,多个并发数据的有效编码。通用存取功能:易错环境下的 鲁棒性,基于内容的伸缩性( 表现在时域、空间及重建图像质量上) 。这些功能无 疑会加速多媒体应用的发展,而从中受益的应用领域有:因特网多媒体应用、 交互式视频游戏、实时可视通信、例如可视电话、实时通信等;交互式存储媒 体应用,如c d r o m 、d v d 等,广播电视、演播室技术及电视后期制作、多媒 体邮件、移动通信条件下的多媒体应用、远程视频监控等等。 北京邮电大学硕士研究生论文 a v 对象( a v o ,a u d i ov i s u a lo b j e c t ) 是m p e g 一4 为支持基于内容编码而 提出的重要概念。对象是指在一个场景中能够访问和操纵的实体,对象的划分 可根据其独特的纹理、运动、形状、模型和高层语义为依据。在m p e g 4 中所 见的视音频已不再是过去m p e g 1 、m p e g 2 中图像帧的概念,而是一个个视听 场景( a v 场景) ,这些不同的a v 场景由不同的a v 对象组成。a v 对象是听觉、 视觉、或者视听内容的表示单元,其基本单位是原始a v 对象,它可以是自然 的或合成的声音、图像。原始a v 对象具有高效编码、高效存储与传输以及可 交互操作的特性,它又可进一步组成复合a v 对象。因此m p e g 4 标准的基本 内容就是对a v 对象进行高效编码、组织、存储与传输。a v 对象的提出,使多 媒体通信具有高度交互及高效编码的能力,a v 对象编码就是m p e g 4 的核心编 码技术。 m p e g 4 不仅可提供高压缩率,同时也可实现更好的多媒体内容互动性及 全方位的存取性,它采用开放的编码系统,可随时加入新的编码算法模块,同 时也可根据不同应用需求现场配置解码器,以支持多种多媒体应用。 m p e g 一4 采用了新一代视频编码技术,它在视频编码发展史上第一次把编 码对象从图像帧拓展到具有实际意义的任意形状视频对象,从而实现了从基于 像素的传统编码向基于对象和内容的现代编码的转变,因而引领着新一代智能 图像编码的发展潮流。 m p e g 4 的编解码过程如下图所示: 1 2 北京邮电大学硕士研究生论文 场景和对象描述符 。 i ? i 掺j ;黉囊 编码器 。i i 鞴鬻麟i 爹、l 麓 7 i i 琴j i j 、麓;鬻鬻ii 篆i 7 i 。,。t 嚣j + 蓥 酵j t 一、;一2 “s 。 _ i 攀缀攀篓 + 醺鎏潮码薯:纛蘩囊豢 黥壤鬻鬻鬻i 黧溅 篓l 瀵囊囊戮 7 隧i i 嚣缀蠢貔鹱巍嚣囊 骥澎熊獭囊髦瑟鬻;慧鬻 入 ,l 豢遁渊 - 瓣鬻鬟 黧黼 r 一1 - o 蚓 “一 一v 甜- i 。# o 4 e c 篡0 i i i 啪。, 场景和对象描述符 爹鬻鬻獯 磁 r i 鬻鬻鬟赫飘 。w 蒜,z ,、o * 张鳓l m i $ 嬖毒 i 鼍奠触瓣。:瓣l 鏊,篱l 1r 隧, 繁j 囊蒌鬻0 。扩 鬻瓣囊攀:鬻i 鬻鬻 瀚漆鬻鍪麓 i , 4冀辫i9 攀。一j 1 。蒸慧曩纛?。磊毫麓攀 麟麓 一”一。- i 骥攀i 黪鬻橥囊7 i 鬻粪簇 隧羹懿j 囊蠹i ! 、蕊溺1 鸟 l j 器磊蠹+ i j 嘛嚣_ 一i ;黪黼辩:j黼i i i :i ) , 。溪鼗囊缫 解码器 图2 1m p e g 4 编解码过程 m p e g 4 采用了基于对象的压缩编码技术。在编码前,首先要对视频序列 进行分析,从原理图像中分割出各个视频对象,然后再分别对每个视频对象单 独编码。每个对象都有自己的形状信息( s h a p e ) 、运动信息( m o t i o n ) 、纹理信 息( t e x t u r e ) 。对视频对象的编码就是对这3 种信息进行编码。m p e g 4 通过运 动预测和运行补偿来去除连续帧之间的时间冗余。运动预测与运动补偿的精度 可以为整像素、半像素或1 4 像素,另外还增了重叠运动补偿方式。与形状相关 算法有:基于邻近信息的算术编码、水平和垂直填补、扩张填补等。与纹理编 1 3 北京邮电大学硕士研究生论文 码相关的算法有:离散余弦变换( d c t ) 、量化、d c t 系数的d c a c 差分预测、 z i g z a g 扫描、游程编码、霍夫曼变长编码等。 2 2m p e g 4 视频编码技术分析 下面从视频对象提取技术、v o p 视频编码技术、细粒度可扩展视频编码技 术和运动估计与运动补偿技术几个方面对m p e g 4 的视频编码部分进行分析。 2 2 1 视频对象提取技术 m p e g 4 实现基于内容交互的首要任务就是把视频图像分割成不同对象或 者把运动对象从背景中分离出来,然后针对不同对象采用相应编码方法,以实 现高效压缩。因此视频对象提取即视频对象分割,是m p e g 4 视频编码的关键 技术,也是新一代视频编码的研究热点和难点。 视频对象分割涉及对视频内容的分析和理解,这与人工智能、图像理解、 模式识别和神经网络等学科有密切联系。目前人工智能的发展还不够完善,计 算机还不具有观察、识别、理解图像的能力;同时关于计算机视觉的研究也表 明要实现正确的图像分割需要在更高层次上对视频内容进行理解。因此,尽管 m p e g 4 框架已经制定,但至今仍没有通用的有效方法去根本解决视频对象分 割问题,视频对象分割被认为是一个具有挑战性的难题,基于语义的分割则更 加困难。 目前进行视频对象分割的一般步骤是:先对原始视频图像数据进行简化以 利于分割,这可通过低通滤波、中值滤波、形态滤波来完成;然后对视频图像 数据进行特征提取,可以是颜色、纹理、运动、帧差、位移帧差乃至语义等特 征;再基于某种均匀性标准来确定分割决策,根据所提取特征将视频数据归类; 最后是进行相关后处理,以实现滤除噪声及准确提取边界。 在视频分割中基于数学形态理论的分水岭( w a t e r s h e d ) 算法被广泛使用, 它又称水线算法,其基本过程是连续腐蚀二值图像,由图像简化、标记提取、 决策、后处理四个阶段构成。分水岭算法具有运算简单、性能优良,能够较好 提取运动对象轮廓、准确得到运动物体边缘的优点。但分割时需要梯度信息, 对噪声较敏感,且未利用帧间信息,通常会产生图像过度分割。 1 4 北京邮电大学硕= i :研究生论文 2 2 2v o p 视频编码技术 视频对象平面( v o p ,v i d e oo b i e c tp l a n e ) 是视频对象( v o ) 在某一时刻 的采样,v o p 是m p e g 4 视频编码的核心概念。m p e g 4 在编码过程中针对不 同v o 采用不同的编码策略,即对前景v o 的压缩编码尽可能保留细节和平滑; 对背景v o 则采用高压缩率的编码策略,甚至不予传输而在解码端由其他背景 拼接而成。这种基于对象的视频编码不仅克服了第一代视频编码中高压缩率编 码所产生的方块效应,而且使用户可与场景交互,从而既提高了压缩比,又实 现了基于内容的交互,为视频编码提供了广阔的发展空间。 m p e g 一4 支持任意形状图像与视频的编解码。对于任意形状视频对象。对 于极低比特率实时应用,如可视电话、会议电视,m p e g 一4 则采用v l b v ( v e r yl o w b i t r a t ev i d e o ,极低比特率视频) 核进行编码。 传统的矩形图在m p e g 4 中被看作是v o 的一种特例,这正体现了传统编。 码与基于内容编码在m p e g 4 中的统一。v o 概念的引入,更加符合人脑对视觉 信息的处理方式,并使视频信号的处理方式从数字化进展到智能化,从而提高 了视频信号的交互性和灵活性,使得更广泛的视频应用及更多的内容交互成为 可能。因此v o p 视频编码技术被誉为视频信号处理技术从数字化进入智能化的 初步探索。 2 2 3 细粒度可扩展视频编码技术 由于网络视频传输要求视频编码能够适应传输带宽的动态变化,m p e g 4 于1 9 9 8 年开始征集细粒度可扩展的视频编码方案。它的基本思想是将视频编码 成一个可以单独解码的基本层码流和
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026届山东省德州市经济开发区抬头寺镇中学数学九年级第一学期期末学业水平测试试题含解析
- 临时用工安全协议书
- 新能源领域AI技术突破:智能节能行业的未来展望
- 中国互联网安全行业发展研究报告
- 2025汽车零部件采购销售合同范本
- 2026届吉林省松原市宁江四中学数学七年级第一学期期末质量跟踪监视模拟试题含解析
- 中国银行阜新市海州区2025秋招英文群面案例角色分析
- 中国银行西安市周至县2025秋招笔试银行特色知识专练及答案
- 工商银行安庆市宜秀区2025秋招笔试英语选词填空题专练50题及答案
- 工商银行北海市海城区2025秋招笔试银行特色知识专练及答案
- 2025既有办公建筑体检评价标准
- 买卖山岭合同标准文本
- 生产型企业工人的薪酬设计方案
- 高考化学复习清单
- 初中数学考试中常用的70条二级结论
- 【MOOC】英汉交替传译-东北大学 中国大学慕课MOOC答案
- 音乐情感及情绪 课件-2024-2025学年高中音乐人音版(2019)必修 音乐鉴赏
- DB14T 2922-2023 公路机电工程标准工程量清单及计量规范
- 新苏教版科学五年级上册《热对流》课件
- 2024年03月黑龙江省绥化市2024年度“市委书记进校园”引才活动引进1523名人才(第一阶段)笔试历年典型考题及考点研判与答案解析
- 喉癌“一病一品”
评论
0/150
提交评论