




已阅读5页,还剩66页未读, 继续免费阅读
(计算机应用技术专业论文)h263编码标准在dsp上的实现与优化.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
西南交通大学硕士研究生学位论文第一| ji 一页 摘要 视频编解码技术是多媒体技术的重要研究部分,也是构建多媒体应用系 统的核心,多年来一直受到世界各地研究人员的重视,国际上,i t u 和i s o 组织都分别提出了各自的标准体系。h 2 6 3 是i t u 组织制定的一种视频编码标 准,它主要用于极低速率的视频传输。目前主要应用于网络视频会议、可视 电话、数字无线通讯等领域。 数字媒体处理器是一种针对音视频的d s p ,专用于实现音视频等多媒体数 据处理,其处理器结构经过了特别的优化设计,且提供了丰富的多媒体处理 指令集。c 6 4 x x 是t i 的新一代高性能3 2 b i t d s p 系列,其典型代表d m 6 4 2 是专 用于视频系统应用的高性能d s p ,具有4 8 0 0 m i p s 的运算性能和丰富的外围接 口( 多通道视频口、以太网口等) 。所以,d m 6 4 2 是目前实现视频应用系统的理 想平台之一。 本文的工作是实现一个视频监控系统的软件核心部分。在内容上首先对 h 2 6 3 视频编码标准进行叙述,接下来讨论实现快速运动估计的方法,针对块 匹配运动估计给出了一种改进的钻石搜索算法代替原有的三步搜索法。实验 结果证明,经算法改进优化的新钻石搜索法优于原先的三步搜索法,大大提 高了程序运行的效率。随后简单介绍了c 6 4 x x 系列d s p 和视频数据的a v i 存 储方式,研究了用软件的方法实现h 2 6 3 编码标准,以及将其移植到d s p 后 的优化问题,最终达到了在d s p 上实时编码的要求。 本文的研究成果可以应用于远程教育、视频会议、可视电话、嵌入式视频 监控等各种通信系统中,具有_ 二定的研究价值及广泛的实用价值。 关键字:h 2 6 3 ;运动估计:运动补偿;d c t ;量化;d s p ;a v i 西南交通大学硕士研究生学位论文第一l v 一页 a b s t r a c t v i d e oe n c o d e d e c o d ei sa ni m p o r t a n tr e s e a r c hp a r to fm u l t i m e d i at e c 1 r l o l o g y a n dt l l ep i v o t a lc o r eo fm u l t i m e d i aa p p l i c a t i o ns y s t e m t h i st e c h n i q u ei sa l 、a y s r e g a r d e db ym er e s e a r c h e ra l l o v e rt h ew o r l dt l l i s y e a r s t 1 1 ei t ua 1 1 di s o o 唱a l l i z a t i o nb r i l l gf o “,a r dm es t a i l d a r ds y s t c mt l l e m s e l v e s h 2 6 3i s av i d e o c o d i n gs t a n d a r dm a d eb yi t u ,w h i c hi sm a i n l yu s e dt ot r a n s m i tv i 如j a ls i g a i si na 1 0 wr a t e a tp r e s e n t ,i t sm a i l l l yu s e di nw e bt e l e 哪e e t i n g 、v i s u a lt c l e p h o n e 、d i g i t a l w i r e l e s sc o m m u n i c a t i o ns y s t e m sa n ds oo n d i 西t a li i l e d i ap r o c e s s o ri s as p e c i a ld s p ,i t sh a r d w a r ec o r es t r i j c t u r ei s e s p e c i a l l yd e s i g n e df o rm u h i m e d i ad a t ap r o c e s s i n 吕n o to n l yp l e m i 血1m u l t i m e d i a d a t ap r o c e s s i n gi n s m 】c t i o n sa r ea v a i l a b l e ,b u t 鲥s oi ti sm o r en e x i b l ef o r i m p l e m e n t a t i o no fv i d e oe n c o d e l a t6 0 0m h z 肌d4 8 0 0m i p s 血en e wg e n e r a t i o n d s p d m 6 4 2d i g i t a lm e d i ap m c e s s o r ,w h i c hi sr e p r e s e n t a t i v eo ft i sc 6 4 x xs e r i e s 3 2 _ b i td s p ,o 疏r si n d u s t 妒1 e a d i n gp e m r n l a i l c e t h ep m c e s s o rw h i c hi si m e g r a t e d 舢l t i m e d i aa n dn e t 、v o r kp e r i p h e m li n t c r f 犯e sr e d u c e ss y s t e mc o s tf o rm u l t i m e d i a a p p l i c a t i o n s t h es y s t e mc a nb ei m p l e m e l l t e dt h r o u g ho n - c h j pi m e g 洲o no fk e y a u d i o v i d e oa 1 1 dc o l l l l e c t i v i t yp c r i p h e m l s s o ,d m 6 4 2i sa l li d e a lp l a t f b r n lf o r m u l t i m e d i a 印p l i c a t i o n s t h i sp a p e r sp u i p o s ei sr e a l i z i n gm ec o r es o r w a r ep a r to fv i d e om o l l i t o r i n g s y s t e m a tf i r s tt h i sp a p e rs p e c m e dt h es t a n d a r do fh 2 6 3v i d e os i 白a ie n c o d e li n m en e x tp l a c ei td i s c u s s e dt h em e m o do fi m p l e m e m a t i o nf a s t m a t c h i n gm o t i o n e s t i m a t i o n an e wd i a m o n ds e a r c ha i g o d t l l mf o rf a s t m a t c l l i n gm o t i o ne s 恤n a t i o n 、a sp t o p o s e d e dt 0r e p l a c e 恤e 订;l d i t i o n a ln l r e e - s t e ps e a r c ha l g o r i t l l i i lmt h em o t i o n e s t i m a t i o nr e g i o n e x p e r i m e n t sr e s u l t sd e m o n s t r a t e dm a tt l l ea p p l i e a t i o no nm e n e wd i a m o n ds e a r c ha l g o r i t l l i nh a sm a 肌m c e n t l yi m p r o v e dt h ee m c i e n c yo f c o m p r e s s i o nm t i oa n dc o m p u t i n gs p e e di nc o n t r a s tt ot h et l l r e e s t e ps e a r c h a l g o r i t t h e ni ts i m p l ys p e c m e dt h ec 6 4 x xs e r i e sd sp ,a n di n v e s t i 鼬t c dh o w t oi m p l e m e n t a t em eh 2 6 3e n c o d i n gs t a n d a r di i ls o f t w a r e f i i l a l l y ,i tr e c o m m e n d m ew a y sa i l dm e a l l so fo p t i m i z i n g 也ec o d ea r e r 仃a 1 1 s p l a n tf 幻mc c + + t od s p a n di nf a c t ,t h er c s u h si n d i c a t et 1 1 a tnj m p i e m e mt h er e a l 州m ec o d i n gu s i n gt h es o f t 、v a r e t h er e s e a r c hr e s u h so ft h i sp a p e rc a i lb eu s e di nt 1 1 e1 0 n g d i s t a n c ee d u c a t i o n v i d e oc o n f b r e n c e ,v i d e o p h o n e ,e m b e d d e dv i d e or e a l t i i n ec o n n d l ,a n dv a r i o l l s k i n d so fc o m m u n i c a t 主o ns y s t e m s i th a s 甜e a t e rr e s e a r e hv a l u ta n de x t e n s i v c 一 - p r a c “c a lv a l u e k e yw o r d :h 2 6 3 ;m o t i o ne s t i m a t i o n ;m o t i o nc o r n p e i l s a t i o n ;d c t ;q u a l l t j 翻矗o n ; d s p :a v i 西南交通大学硕士研究生学位论文第一1 一页 1 1 引言 第一章绪论 随着计算机技术飞速发展和通讯手段的日益完善,加上网络的普及使得 多媒体数字业务得到进一步发展。人们对数字视频业务如可视电话、会议电 视、安全监视、远程医疗、远程教育、高清晰度电视( h d t v ) 、视频点播( v o d ) 和网上购物等产生了越来越浓厚的兴趣。而这些业务的关键技术就是视音频 信号的实时编解码和传输。 众所周知,在丌发多媒体应用系统时,遇到的最大的障碍就是对包含巨 大数据量的多媒体信息的采集、存储、处理和传输,其中,数据量最大的是 数字视频图像数据。因此,视频压缩处理技术是多媒体技术的关键,可以在 保证一定图像质量的前提下,减少数据量,节省图像存储空间和便于实现远 程可视通信系统。表卜1 列出了5 种大小格式的原始视频的数据量,可以看 到,若不经压缩进行传输,需要很大的带宽。 表卜l 五种视频格式的数据量 s u b q c i f- q c i fc i f 4 c i f1 6 c i f 像素数行 1 2 81 7 63 5 27 0 41 4 0 8 行数 9 6 1 4 42 8 85 7 6 1 1 5 2 非压缩数据量 4 2 m b s8 7 m b s3 4 8 m b s1 3 9 2 m b s5 5 6 9 m b s ( 3 0 f p s ) 1 2 视频压缩技术的原理与发展 压缩机制通常可以分为两种一一有损压缩和无损压缩。 无损压缩关心的是精确地重建没有信息丢失的数据,无损压缩多用于文 本文件的压缩。 对于有损压缩,可以获得比无损压缩高得多得压缩比,可以看做是对原 始数据的一种近似代替。任何有损压缩机制的根本思想都是除去数据中存在 的相关性。所谓相关性,就是能够根据给出的一部分数据来判断出其相邻的 数据。实际中存在着很多种数据相关型,分类如下: 空间相关性:可以根据图像中某一点的像素值推测出其相邻点的像素值。 频率相关性:一个信号的傅立叶变换通常是光滑的,这意味着可以根据某 一部分的频率来推断其相邻部分的频率。 时间相关性:在数字视频中,时间上相邻的两帧图像的大部分像素的值变 西南交通大学硕士研究生学位论文第一2 一页 化很小。 根据视频压缩的原理,可以将几十年来出现的压缩技术分为两大类。一 类是基于速率失真理论的第一代压缩编码技术。其主要的编码方法包括: 预测编码、变换编码和统计编码,( 合称三大经典编码方法) 。预测编码的基 本原理是:根据图像的时间冗余特性得到当前图像象素的预测值,然后传输 图像与其预测值的差值信号,使传输的信息量减少,达到压缩目的。变换编 码不是对像素进行编码,而是将其由空域变换到频域,得到一组变化系数, 并且使得能量相对集中,再经过量化消除那些人眼并不敏感的高频信息,达 到压缩目的。统计编码的基本原理:根据信息码字出现的概率大小,设计码 字的长度,使得表征信息的编码长度达到最短。这类编码技术主要还是面向 像素的一种技术,旨在消除图像数据中的线性相关性,而没有充分考虑信息 最终的接受者人的主观视觉特性。 针对第一代编码技术的不足,人们又提出了第二代编码技术。这类技术 充分利用人眼的视觉特性和图像信息源的各种特征来进行编码。1 。根据人眼 对物体轮廓比对物体内部细节敏感的特点,利用内容( 对象) 来表示图像, 而不再是单纯的像素。并且对象是按轮廓信息将某一特定图像分割成的若干 区域,每一区域可以看成一个整体,其内部细节具有相同的特性( 灰度信息、 纹理信息、运动速度、运动矢量等) 。然后对这些分割的小区域再分别进行编 码。这类编码技术整体比第一代编码技术要有效的多,目前正处于研究、发 展中。 目前流行的视频编码标准主要由i t u t 和i s o i e e 开发。由i t u 组织制 定的标准主要是针对实时视频通讯的应用,如视频会议和可视电话等,它们 以h 2 6 x 来命名。i t u t 发布的视频标准有h 2 6 1 、 l2 6 2 、h 2 6 3 、h 2 6 3 十、 h 2 6 3 + + 、h 2 6 4 2 。 i s o 和i e c 的共同委员会中的m p e g ( m o v i n gp i c t u r ee x p e r tg r o u p ,运 动图像专家组) 制定的标准主要针对视频数据的存储( v c d 、d v d ) 、广播电视、 和视频流的网络传输等应用,它们以m p e g x 来命名。i s 0 i e c 公布的m p e g 系列标准有m p e g 一1 、m p e g 一2 、m p e g 一4 和m p e g 一7 ,并且计划公布m p e g 一2 1 。 h 2 6 1 是最早出现的视频编码建议,目的是规范i s d n 网上电视会议和可 视电话应用中的视频编码技术。它采用的算法结合了可减少时间冗余的帧问 运动补偿预测和可减少空间冗余的d c t 变换的混合编码方法。以后的视频编 码标准都以此为基础。h 2 6 2 标准等同于m p e g 一2 的视频编码标准。h 2 6 3 是 低码率图像压缩标准“3 ,在技术上是h 2 6 1 的改进和扩充,支持码率小于 6 4 k b i t s 的应用。但实质上h 2 6 3 以及后来的h 2 6 3 十和h 2 6 3 + + 己发展成 支持全码率应用的建议,从它支持众多的图像格式这一点就可看出,如 s u b q c i f ,q c i f ,c i f ,4 c i f 甚至1 6 c i f 等格式。 m p e g l 标准的码率为1 2 m b i t s 左右,可提供3 0 帧c i f t ( 3 5 2x2 8 8 ) 质量的图像,是为c d r o m 光盘的视频存储和播放所制定的”1 。m p e g 一1 标准视 频编码部分的基本算法与h 2 6 l h 2 6 3 相似,也采用运动补偿的帧间预测、 二维d c t 。v l c 游程编码等措施。此外还引入了帧内帧( i ) 、预测帧( p ) ,双向 西南交通大学硕士研究生学位论文第一3 一页 预测帧( b ) 和直流帧( d ) 等概念,进一步提高了编码效率。在m p e g _ 1 的基础上, m p e g 一2 标准在提高图像分辨率、兼容数字电视等方面做了一些改进,例如它 的运动矢量的精度为半像素;在编码运算中区分“帧”和“场”;引入了编码 的可分级性技术,如空间可分级性、时间可分级性和信噪比可分级性等。1 9 9 9 年推出的m p e g 一4 标准引入了基于视听对像( a v 0 :a u d i o v i s u a l0 bj e c t ) 的编 码,大大提高了视频通信的交互能力和编码效率。m p e g 一4 中还采用了一些新 的技术,如形状编码、自适应d c t 、任意形状视频对象编码等:但是m p e g 一4 的基本视频编码器还是属于和h 2 6 3 相似的一类混合编码器0 1 。 h 2 6 4 是i t u t 和i s o i e c 的联合视频组j v t ( j o i n tv i d e ot e a m ) 开发的 一个新的数字视频编码标准,它既是i t u t 的h 2 6 4 ,又是i s o i e c 的m p e g 一4 的第l o 部分”。2 0 0 3 年3 月正式发布。它采用“回归基本”的简洁设计,不 用众多的选项,获得比h 2 6 3 + + 好得多的压缩性能;加强了对各种信道的适应 能力,采用“网络友好”的结构和语法,有利于对误码和丢包的处理;应用 目标范围较宽,以满足不同速率、不同解析度以及不同传输( 存储) 场合的 需求:它的基本系统是开放的,使用无需版权o “。在技术上,h 2 6 4 标准中有 多个闪光之处,如统一的v l c 符号编码,高精度、多模式的位移估计,基于4 4 块的整数变换、分层的编码语法等。这些措施使得h 2 6 4 算法具有很高的 编码效率,在相同的重建图像质量下,能够比h 2 6 3 节约5 0 左右的码率o “。 1 3 视频编码算法的软硬件实现 由于视频编码算法比较复杂,运算量巨大,在嵌入式系统平台上实现时, 不能选择普通的单片机系统,常用的手段有: 1 利用专用的d s p 芯片。 2 利用基于通用d s p 内核的a s i c ( 用户可以在通用d s p 的c p u 基础上选 用所需要的外设接口和存储器等资源,并在片内固化所需软件) 。 3 利用通用的可编程d s p 芯片。 由于方案1 采用专用d s p 芯片,应用受到限制,方案2 采用a s i c ,灵活 性较差,对于产品的升级换代麻烦,也限制了它的广泛使用。方案3 由于其 可编程性和强大的处理能力,在实时d s p 领域中居于主导地位1 。本设计就 采用基于t it m s 3 2 0 c 6 4 x x 内核的d m 6 4 2 多媒体d s p 。 t i 公司的d m 6 4 2 是一款专门面向多媒体应用的专用d s p 。该d s p 时钟最 高达7 2 0 m h z ,具有8 个并行运算单元,最高处理能力达5 7 6 0 m i p s 。采用二级 缓存,此外还集成了3 个可配置的v i d e op o r t 、面向音频应用的m c a s p ( 多 路音频串口功能) 、l o l o o m b s 的e t h e r n e t i a c 等外设。d m 6 4 2 可用于多媒 体应用开发,如可视电话终端、网络摄像机等,系统实现方便,主要芯片只 需采用一片d m 6 4 2 即可,外加存储芯片s d r a m 、f l a s hr o m 和以太网p h y 等外 围芯片。d m 6 4 2 可实现多路视频采集和输出。所以,d m 6 4 2 是目前实现视频应 用系统的理想平台。 西南交通大学硕士研究生学位论文第一4 一页 在软件开发平台方面,t i 公司为其产品开发了汇编语言和c 语言代码产 生工具以及各种软硬件调试工具,使得d s p s 的开发难度大大降低,对于进行 软件开发的程序员来说,上手容易,开发难度大大降低。本文的算法就在t i 公司的d s p 集成开发环境c c s ( c o d ec o m p o s e rs t u d i o ) 中实现与调试、测试 的。 1 。4 本文的工作 本文的主要研究内容是:h 2 6 3 标准的关键编码技术,包括运动估计、 运动补偿、离散余弦变换( d c t ) 、量化、预测编码等。并采用a n s ic 语言在 p c 机上实现软件编码器,在v i s u a lc + + 6 o 中编译调试通过。随后将h 2 6 3 编码算法移植到t m s 3 2 0 c 6 4 x xd s p 上,并针对d s p 芯片的硬件结构特点,对 某些算法本身进行改进,以及进行程序优化,达到适合在c 6 4 x x 上实时运行 的最终目的。本文章节安排如下: 第一章绪论,概述了图像压缩的必要性和图像压缩编码研究的现状。 第二章对h 2 6 3 标准采用的图像格式、视频结构和功能特点进行简单介 绍: 第三章提出改进h 2 6 3 标准的运动估计算法以实现快速估计。 第四章t m s 3 2 0 c 6 4 x xd s p 简介。 第五章h 2 6 3 在t m s 3 2 0 c 6 4 x x 上的实现以及程序优化。 第六章总结与展望。 西南交通大学硕士研究生学位论文 第一5 一页 第二章h 2 6 3 压缩编码标准 2 1 h 2 6 3 标准概述 h2 6 1 标准是i t u 于1 9 9 0 年公布的第一个视频编码标准,帧间编码时采 用了基于1 6 x 1 6 的宏块的整像素运动估计,而在帧内编码时采用了8 x 8 数据 块的d c t 运算。这些算法有效地压缩了视频序列在刚间和空间上的冗余度, 使得h ,2 6 l 具有较高的压缩比,适半 于p x 6 4 k b p s 0 :卜3 0 ) 的视昕业务,可用 于i s d n 、可视电话和会议电视等应用。h 2 6 l 编码分成网层:图像层,块组层 ( g o b ) ,宏块层( i b ) 和块层。每一块8 x 8 ,每一层都有各自头部,复合后串行 传输。h 2 6 1 的视频帧格式被称作公共中间格式( c i f ) 。 h 2 6 3 是i t u 于1 9 9 5 年制定的一种码率低于6 4 k b i t s 的甚低码率视频压 缩编码标准“。其修订版本有1 9 9 8 年的h 2 6 3 + 和2 0 0 0 年的h2 6 3 + + 。h 。2 6 3 标准不仅着眼于利用p s t n ( p l j h l i cs w i t c h e dt e l 印h o n en e t w m r k ,公共交换 电话网络) 传输,而且兼顾g s 州( g l o b a ls w n c h e dt e l e p h o n en e t w o r k ) 移动 通讯等无线业务。h 2 6 3 已被多个多媒体终端标准所采纳,包括支持p s t n 与 无线网的i 3 2 4 ,支持n i s d n 的h 3 2 0 ,支持b i s d n 的n3 1 0 等。h 2 6 3 采用的基本编码方式是帧内编码( i n t r a ) 和基于运动估计与补偿的帧间编码 ( i n t e r ) 。 为了进一步改善图像质量,提高压缩比,h 2 6 3 与h 2 6 1 相比增加了以下 一些功能: 1 ) 半个像素精度的运动估计 2 ) 不受限的运动矢量 3 ) 先进预测模式 4 ) p b 帧模式 5 ) 基于语法的算术编码 h 2 6 3 修订版主要是增加或修正了h 2 6 3 的一些高级编码模式,不仅保持 了对旧版本的兼容,而且增加了新的功能,例如,改进的标准可以采用自定 义的图像格式;支持图像冻结和快照;为了避免信道误码对图像重建造成的 不可恢复的损失,增加了一些新的抗误码技术等等。这些新功能进一步扩大 了其应用范围,提高了压缩效率和抗误码能力,同时进一步改善了重建图像 的主观质量“。 的主观质量“”。 亘宣奎堡查兰堕主堑塞竺兰焦笙壅兰二! l 二蔓 2 2h 2 6 3 编码标准的基本原理 2 2 1h 2 6 3 编码框架 h 2 6 3 是以混合编码为技术核心,同h 2 6 l 一样,在编码中,它也采用帧 间预测减小时间冗余度,利用q c t 变换减小空间冗余度,在传输中,采用可 变长度编码技术,在解码恢复中,应用运动补偿。h 2 6 3 编码器框图如图2 一l 所示3 。 t d c t 变换 q 量化 p 用于运动补偿的帧存储器 c c 编码控制 p帧内帧间编码标志 t 是否发送标志 q z 量化标志 q 量化秉将 ” 运动矢量 图2 1h 2 6 3 信源编码器 删“ 与h 2 6 1 相比,h 2 6 3 的编码原理与之基本相同,但是h 2 6 3 在h 2 6 1 的基础上做了很多改进,以提高编码的效率。下面就做详细的介绍。 2 2 2 图像格式 在h 。2 6 3 标准中,支持的图像格式有5 种,如表2 1 所示,不同格式 的图像亮度和色度采样也在表中。 、ii_-l-,j_-i_i_i, p q q v 西南交通大学硕士研究生学位论文第一7 一页 表2 一lh 2 6 3 支持的5 种图像格式 亮度分量色度分量 图像格式 列数( d x )行数( d y )列数( d x 2 )行数( d y 2 ) s u b q c i f1 2 89 66 44 8 q c i f 1 7 6 1 4 48 87 2 c i f3 5 22 8 81 7 61 4 4 4 e i f7 0 45 7 63 5 2 2 8 8 1 6 c i f1 4 0 81 1 5 27 0 45 7 6 2 2 3 图像的y c b c r 采样 颜色空问是指用来表示亮度和颜色的方法。有2 种典型的颜色空间: r g b 、y c b c r 。r g b 空间是指每个采样点的颜色用3 个数值表示:r e d ,g r e e n , b 1 u e 。y c b c r 空间是指用亮度、色度分开来表示图像信息。 研究发现,人类视觉系统对亮度( l u m a ,l u m i n a n c e ) 的敏感度远远大于 对色度( c h r o m a ,c h r o m i n a n c e ) 的敏感度,而在r g b 空间中,亮度和色度 都被同等重要地表现出来,没有考虑人类视觉系统,所以在视频编码中一般 采用y c b c r 空间,需要从r g b 空间转化到y c b c r 空间,转换公式如下: fy = 0 - 2 9 9 0 幸r + 0 5 8 7 0 车g + 0 1 1 4 0 + b c 6 = 一o 1 6 8 7 + r o 3 3 1 3 + g + o 5 0 0 0 + 曰( 2 1 ) fc = o 5 0 0 0 + 月一0 4 1 8 7 + g 一0 0 8 1 34 b | l2 6 3 采用y c b c r 空间的目的是根据人眼对亮度和色度的敏感程度不同, 区别对待亮度值和色度值,减少对敏感度低的色度值的编码传输,所采用的 方法就是y c b c r 采样。 h 2 6 3 中采用4 :2 :o 的y c b c r 采样方式,即每采样四个亮度信号值( y ) , 就同时采样2 个色度信号值( c r 和c b ) ,表示色度元素( c b u ,c r v ) 在 垂直方向和水平方向上均是亮度元素( y ) 比例的一半,如图2 2 所示: 西南交通大学硕士研究生学位论文第一8 一页 : o ; o0 ; 一 : o o0 f ; i o;oo ; 亮度采样 。色度采样 块边界 图2 2y c b c r 4 :2 :0 采样方式 很明显,通过y c b c r4 :2 :0 采样,比直接采用r g b 方式节省了一半的存储空 间。 2 2 4 图像分块 每帧图像都被分为许多块组( g o b ) 。一个块组是k 行x 1 6 大小的分块。k 值由图像格式决定,对s u b q c i f 、q c i f 和c i f 格式而言k = 1 ,对4 c i f 而 言k = 2 ,对1 6 c i f 而言k = 4 。每幅图像的g o b 个数是:s u b q c i f 格式6 个:q c i f 格式9 个;c i f 、4 c i f 和1 6 c i f 格式1 8 个。g o b 的编号方式是将g o b 块由上而下垂直扫描,最上的g o b 块为0 号,以下编号逐次加1 。图2 3 给出 了c i f 、s u b q c i f 、q c i f 图像格式中g o b 的编号方式。 一个块组又由若干个1 6 x 1 6 大小的宏块( m b ) 组成。每个宏块包含4 个亮 度块,2 个色度块,如图2 4 所示。每个宏块中亮度信号y 的大小为1 6 x 1 6 , 色度c b 、c r 的大小为8 x 8 。编码器以8 x 8 像素块( b l o c k ) 为最小单位进行d c t 变换。 西南交通大学硕士研究生学位论文第一9 一页 c i f 格式: s u b q c i f 格式: 6 d b 03 稚1 6 ) 6 勰1 g 删 6 噬琳 6 爆4 g 瞌强 g 鹱粥 6 0 嗥7 g 键燃 g o b 9 b 1 0 e 0 b i l g o b l 2 g o b i 3 班 b i 4 c 。田1 5 b 1 6 猷 b i 7 g o ( 】2 8 1 6 6 妤b 1 霸0 8 2 0 睫1 3 g o b 4 g 潍5 q c i f 格式; 8 0 ( 1 6 i 琊 g o b l b 2 6 0 峰3 g 滞4 g 饿1 5 g 昭6 g o b 7 g o b 8 图2 3c i f 、s u b q c i f 、q c i f 格式的g o b 编号方式 亮度信号y 。 12 3鋈 毽发信嚣g b :熬鏖储嚣r : 图2 4 宏块( m b ) 的组成 2 2 5 离散余弦变换( d c t ) 在理论上,离散k l t ( k a r h u n e n l o e v et r a n s f o r m ) 是消除线性相关性 最好的一种正交变换,以图像的统计特性为基础,但是它的计算复杂,并且其 变换核矩阵不是固定不变的,而是随原始输入图像而改变,所以不太实用。 西南交通大学硕士研究生学位论文第一1 0 一页 d c t 变换在理论上虽然不是最优:但是它在去相关与能量集中性上仅次于k l t , 而且其易分离的特点,易于采用快速算法。因此得到了广泛的使用,是国际 编码中的主要环节”1 。 d c t 不是对整幅图像一次进行变换编码,而是将图像分割成8 8 的子块分 别处理,原因是:小块图像变换的计算容易:距离较远的像素之间相关性比 距离较近的像素之间的相关性小”- ”“。 n 点一维实数信号序列( x 。i = o ,1 ,n 一1 ) 的d c t 定义如下嘲: c 庶s c 紫,。叭,m 。, 其中, c ( “) = ,当“= o 时o 2 c m ) = 1 ,当“= 1 ,2 ,n 一1 时。 其逆变换i d c t 定义为脚: m ,2 艉w c o s r 学,汁,。, 其中: c ) = ,当“= o 时; 2 c ( “) = 1 ,当“= 1 ,2 ,n 一1 时。 i d c t 是d c t 的逆变换,是解码时用到的关键算法。 在图像编码中,进行d c t 时的输入数据是一个个的8 8 像素值的矩阵, 矩阵的每个元素是8 b i t 精度。二维d c t 变换就是指将此空间域的8 8 像素 值矩阵变换为与其相应的频域的8 8 的d c t 系数矩阵。 二维d c t 的定义为: 设空间域像素值的取值范围为:x = o ,1 ,n l ;y = o ,1 ,n 一1 。 频域系数的取值范围为:u = o ,1 ,2 ,n l ;v = 0 ,1 ,2 t ,n 一1 。 二维d c t 的变换公式如下“3 : f 血订:三c ( u ) c ( 。) 笋笋 厂忆y ) c o s 垦型尘坚c o s 垦型! 卫竺】 ( 2 4 ) f 血订2 专c ( u ) c ( v ) 萎萎厂( e 力c o s 兰号等竺c o s ! 兰岁竖】 ( 2 _ 4 ) j v j 0v 4 0 西南交通大学硕士研究生学位论文第一11 一页 三维d c t 的逆变化公式如下: ,陇= 专篓篓【c ( “) c ( v ) f ( v ) c 。s ! 兰兰i 字坚c 。s 堡羔;亨坚】 ,陇= 寺【c ( “) c ( v ) f ( ”,v ) c o s 兰气害竺c o s 兰羔云产】 vr = 0v = o ( 2 5 ) ( 上两式中,当u ,v = o 时,c ( u ) ,c ( v ) = 1 2 ; 当u ,v = l ,2 ,3 ,n l 时,c ( u ) ,c ( v ) = l 。) 在d c t 系数矩阵中,( 0 ,o ) 处的系数称为低频系数,也称直流系数( d c ) , 代表水平和垂直的频率分量都为o 。d c 系数与块的平均值成正比,在图像编 码中,相邻两个块的像素值的平均值差别很小,所以可以通过相邻块的d c 值 进行d c 预测编码,进一步压缩d c 系数。其它的系数都成为交流系数( a c ) 。 当对8 8 的像素值矩阵进行二维d c t 变换时,上两式就变为: 8 8 二维d c t 的变换公式: ,池一= 丢f 俐f 俐娄拟圳灿s 譬竽c o s 簧竽, e , t j ov = 0 1 u 1 ” 8 8 二维d c t 的逆变化公式: f 伍= 丢耋砉【c ) c ( v ) f ( “v ) c 。s 垦兰等塑c 。s ! 兰兰等坦1 ( 2 - 7 ) - r u ;0v = 0 1 u 1 。 二维d c t 可以由一维d c t 来表示,对公式2 6 做如下变形: ,化= 丢f 倒f 俐砉扣w 徊s 譬半c o s 号竽, 叶 j = 0p = 0 1 v1 ” = 扣,砉【扣蓬m 川c o s 等竽】c o s 譬竽 二 v = 0 二 x = 0 1 ” 4 ” ( 2 8 ) c ( 咖击,舻。c ( d 2 击,v _ o c ( “) = 1 ,甜oc ( v ) = 1 ,v 0 可以看出,将二维d c t 转化为2 个一维的8 8d c t 的复合运算,相当于 先对8 8 矩阵的各行做一维d c t ,再对求得的8 8 矩阵的各列求d c t 。因此 西南交通大学硕士研究生学位论文第一1 2 一页 只要提高一维d c t 的速度,也就提高了二维d c t 的速度,同样也适合于二维 i d c t 蚓。 2 2 6 一维d c t 快速算法 目前进行d c t 的最优算法是l o e f f l e r 的算法。直接计算一维的8 8d c t 需要做5 6 次加法和6 4 次乘法,速度最优的l o e f f l e r 进行d c t 运算则需要1 1 次乘法和2 9 次加法。 l o e f f l e r 算法将8 8 的一维d c t 运算分为4 级运算,由于各级之间的输 入输出的依存关系,4 级操作必须串行进行,而各级内部的运算可并行处理。 下图给出l o e f f l e r 算法的流程图。1 ,图中共有三种运算因子,分别用a 、b 和c 表示:蝶形因子、旋转因子和倍乘因子。 第l 级第2 级!第3 级 i 第4 级 x 0 x 1 n | f) * = p = 1 6 5 时,3 1 5 = m v = 0 1 6 = p = 一1 5 5 时, p + 1 5 5 = m v = 一1 6 + p 1 6 = p = 一3 1 5 时, 0 = m v = 一3 1 5 2 3 3 高级预测模式 包含了两个特性。其一,运动估计是基于8 x 8 块,而不是基于1 6 x 1 6 的 宏块,这样每个宏块可以具有四个运动矢量,运动估计更精确:其二,重叠块 运动补偿( o b m c ,只能用于p 帧y 。o b m c 用邻块的运动矢量来重构块,能够消 除块效应,改善解码图像质量。0 b m c 也允许运动矢量穿越图像边界,但大范 围的运动矢量并不是自动支持的。 采用基于块的运动估计时,宏块的每个8 x 8 亮度块都有各自的运动矢量, 增加了搜索宏块匹配块的灵活性。在这种情况下,宏块的四部分都有可能各 自找到真正匹配的块,当这些块合并起来后,就能得到更匹配的预测宏块。 两个色度块的运动矢量由这四个亮度矢量相加除以8 得到,由于亮度子块的 运动矢量是半像素精度,所以除以8 之后的精度为l 1 6 像素,还要被修正到 最接近的半像素精度。此外,运用四个运动矢量意味着需传送更多的运动矢 西南交通大学硕士研究生学位论文第一18 一页 量数据给解码器。 当每个宏块采用四个运动矢量的预测模式时,不再使用默认模式中的运动矢量预测 差分编码方式,而是采用如f 图2 9 的方法: 瓶驴2 孵3 i 髓审i班v 礼v 2噩v 3 丽鞭 | e 矿 一 1m v 2 卜髓邸i卜肼21 髑1 础嗣 图2 9 基于8 x 8 块的运动矢量预测模式 2 3 4p b 帧模式 p b 帧的概念源自m p e g 2 。使用p b 帧模式可以在不大量增加数据量的前提 下,增加图像的帧率。运动估计涉及三种帧结构:i 帧、p 帧、b 帧,如图2 1 0 。 只包含帧内编码的帧成为i 帧,对于i 帧或p 帧向前预测得到的帧成为p 帧, 对于i 帧或p 帧双向预测得到的帧成为b 帧。运动估计时,p 帧图像使用前面 最近解码的i 帧或者p 帧作为参考图像,称为向前预测;而b 帧图像使用两 帧图像作为预测参考,称为双向预测,其中一个参考帧在显示顺序上先于编 码帧,另一帧在显示顺序上晚于编码帧,所以进入编码器的帧序号要被打乱 3 0 图2 1 0 包含i 帧、b 帧、p 帧的图像序列 西南交通大学硕士研究生学位论文第一1 9 页 2 3 5 基于语法的算术编码 算术编码采用序列编码,每个符号可用分数比特表示,而且对编码概率 模型不太敏感,容易实现模型自适应调整,这就优越于霍夫曼编码必须使用 整数比特表示,从而大大降低存放码本,使压缩比有很大提高。 h 2 6 3 选用算术编码时,只对宏块层和块层的数据作算术编码,而对图像 层、块组层大部分信息依然采用原有的编码方式编码,这样保证了头部信息 的准确辨认和快速译码。另外,h 2 6 3 对码流信息中的不同部分分别建立了基 本符合概率分布的编码模型,使之能更有效地编码。 在本人的设计中,采用了半像素精度的运动估计、不受限的运动矢量、 高级预测方式、只采用了p 帧以及霍夫曼熵编码方式。 2 。4h 。2 6 3 的码流格式 h 2 6 3 标准按照分层的形式组织码流,码流结构分为4 层,依次为图像层 ( p i c t u r el a y e r ) 、块组层( g o bl a y e r ) 、宏块层( m a c r o b l o c kl a y e r ) 和块层 ( b l o c kl a y e r ) 。 2 4 1 图像层 每帧图像数据由图像头、宏块组数据、序列结束码和填充比特构成。如图 2 1 1 所示,图像层的构成如下: 图像层: 图2 1 lh 2 6 3 图像层的码流结构图 p s c ( 图像起始码) :2 2 b i t ,其值为0 0 0 0 0 0 0 00 0 0 0 0 0 0 01 0 0 0 0 0 。所有的 西南交通大学硕士研究生学位论文第一2 0 一页 p s c 都应字节对齐。 t r ( 时域参考值) :8 b i t ,取值卜2 5 6 。当前发送帧的t r 值是在前一发送 帧的t r 值加1 ,再加上当前帧与前一发送帧之间的非发送帧( 2 9 9 7 h z ) 的数 目。在p b 帧模式时,t r 仅指p 帧图像。 p t y p e ( 类型信息) :1 3 b i t ,包括整帧图像的信息。 b i t l :始终为“1 ”,为了避免与起始码冲突。 b i t 2 :始终为“0 ”,与h 2 6 l 相区别。 b i t 3 :屏幕分割指示位,“o ”关,“1 ”开。 b i t 4 :文件相机指示器,“0 ”关,“l ”开。 b i t
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论