(信息与通信工程专业论文)基于dsp处理平台的低码率视频编码的实现.pdf_第1页
(信息与通信工程专业论文)基于dsp处理平台的低码率视频编码的实现.pdf_第2页
(信息与通信工程专业论文)基于dsp处理平台的低码率视频编码的实现.pdf_第3页
(信息与通信工程专业论文)基于dsp处理平台的低码率视频编码的实现.pdf_第4页
(信息与通信工程专业论文)基于dsp处理平台的低码率视频编码的实现.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(信息与通信工程专业论文)基于dsp处理平台的低码率视频编码的实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要本文基于低成本的可实现i p 电话功能的硬件甲台,着重研究了低码率视频协议在d s pl 的实现。本文首先介绍自行设计t 的硬件平台,归纳和介绍了一般的多媒体处理过程。基于此平台,我们选择了h 2 6 3 算法,在t m s 3 2 0 v c 5 4 7 1上,实现了h 2 6 3 的帧内压缩编码。本文还研究了帧间编码,为性能更好的i p 电话平台的视频处理做好了准备。此部分在c c s 软仿真环境下完成,具有很强的实用性和可移植性。可以把本项目看作一种正在走向成熟的新产品的研发,也可以把它看作一种尝试,用已经成熟的价格较低的数字信号处理芯片,对图像信息进行处理。关键词:v c 5 4 7 1 、h 2 6 3 、帧内编码、帧间编码、i p 电话a b s t r a c tt h i st h e s i sd e s c r i b e sh o wt or e a l i z eh 2 6 3v i d e oe n c o d er e c o n u n e n d a t i o no nt m $ 3 2 0 v c 5 4 71h a r d w a r ep l a t f o r i l l w i t hi t s1 i m i t e dr e s o u r c e s w eo n l yr e a l i z et h ei n t r af o ri - p i c t u r e ,b u t ,f u r t h e r m o r e ,w ea l s or e a l i z et h ei n t e rm o d ef o rp p i c t u r ei nt h ec c ss i m u l a t o r t h es o r w a r ei st r a n s p l a n t a b l ea n dp r e p a r e df o rt h ef u r t h e rh i g hp e r f o r m a n c ed s ps y s t e m w ec a nl o o ku p o nt h es t u d ya s an e wp r o d u c tc o m i n gi n t ot h em a t u r e ,w h i c he n c o d ev i d e os o u r c ew i t hm a t u r e dd s pt e c h n o l o g y ;a l s o ,w ec a r ll o o ki tu p o nj u s ta san e we x p e r i m e n t ,s e t t i n gu ps o r w a r es y s t e mo nd i g i t a ls i g n a lp r o c e s s o r k e yw o r d s :v c 5 4 71 ,h 2 6 3 ,i n t r af o ri - p i c t u r e ,i n t e rf o rp - p i c t u r e ,i p p h o n ei i独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢意。签名:丛鱼整日期:哆年二月多日关于论文使用授权的说明本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、。缩印或扫描等复制手段保存、汇编学位论文。( 保密的学位论文在解密后应遵守此规定)签名:、箜通堕导师签名:日期:a 孵电子科技大学硕士学位论文第一章引言1 1 相关背景第章引言随着通信技术的飞速发展,人们的生活方式、交流方式发生了巨大的变化。视频信息技术是多媒体通信技术中的重要部分。f 二世纪九十年代以来,多媒体通信业务发展十分迅速,传统的话音业务比例逐渐下降,而与此同时非话音! 务的需求比例日益上升。各种多媒体业务成为人们关注的热点以及国家经济持续发展的增长点。数字化的视频信息的一个主要特点是数据量极大,以c i f ( c o m m o ni n t e r m e d i a f o r m a t ) 格式的2 4 位真彩色视频图像为例,每帧的数据量为3 5 2 2 8 82 4 = 2 4 3 m b i t s ,若帧率为3 0 f p s 时,每秒的数据量高达2 4 3 m b i t s x3 0 =7 3 m n t s 。而高清晰度电视每秒数据量更可高达1 0 0 0 m b i t s 。对于如此大的数据量,为了能使其在容量有限的通信网络中传输,必须对视频信息进行高效的压缩,降低其冗余度。在保证一定图像质量的前提下,尽可能的压缩视频图像数据量,是视频技术研究的主要方向。在实际的应用中,传输语音以及视频的需求最大,如何利用现有d s p 实现一种成本较低的用于多媒体数据处理以及传输的平台,并通过现有的i n t e m e t 环境实现此平台的媒体通信的系统成为我们课题的出发点。1 2 本文研究内容本文从上述应用背景出发,基于项目组自行设计的t m s 3 2 0 v c 5 4 7 1 ( 双核:d s p + a r m ) 的多媒体数据处理以及传输平台,使其能实现对音频和视频数据的处理以及传输。本文重点讨论了在此平台基础上实现种低比特率视频压缩编码软件实现。1 3 本文结构在本课题作者完成了部分系统方案硬件的设计,并负责视频压缩软件的设电子科技大学硕士学位论文第一一章引言计以及实现。研究生张舰完成了大部分系统硬件设计以及调试,研究生舒非则完成了网络模块的软件设置工作。文章结构安排如下:第章多媒体数据传输的应用背景;第二章简要介绍系统的硬件结构;第三章介绍h 2 6 3 协议,以其核心的算法,包括d c t 变换,以及运动补偿等等;第四章介绍针对本平台的h 2 6 3 的软件设计,着重讨论i 帧以及p 帧的处理:第五章工作总结和改进方向。电子科技大学硕士学位论文第二章系统硬件设i第二章系统硬件设计2 ,1 硬件系统结构以及模块视频处理的硬件平台足由笔者项目组基丁t m s 3 2 0 v c 5 4 7 1 自行开发的。本平台由核心处理器t m s 3 2 0 v c 5 4 7 l ,网络模块,和语音处理模块和视频处理模块组成,此外还包括u a r t 模块、扩展外部内存空间等,如图2 1 所示:图2 - 1系统结构框图c 5 4 7 1 有着双核结构,其内部集成了一个可编程的c 5 4 x d s p 核和a r m 7处理核,且其中的d s p 可看作a r m 的一个外设。由a r m 来完成对它的设置和控制。它们之间通过a p i 共享内存空间来进行数据通信。a p l 接e l 是块a r m电子科技大学硕士学位论文第二章系统硬件设计和d s p 都可以访问的r a m 区。在a r m 系统中,它的地址从0 x f f e 0 0 0 0 0 到0 x f f e 0 3 f f f ,一共是1 6 kb y t e 的存储区;在d s p 系统中,它的地址则是从0 x 2 0 0 0到0 x 3 f f f ,一共是8 k 的1 6 b i t 存储区。在系统中,我们设计了两个网络模块:第一个网络模块宜接利用了a r m 提供的e i m 接口,可直接实现m a c 层功能;第二块网络模块则扩展在a r m 的e m i f 空间。视频模块包括视频采集和显示部分,直接扩展在a r m 的e m i f 空间。系统还扩展了与p c 机通信的u a r t 口和动态r a m 、静态r a m 和e p r o m 等等。2 2 核心芯片t m s 3 2 0 v c 5 4 7 1 的介绍德州仪器公司( t i ) t m s 3 2 0 c 5 4 7 0 和t m s 3 2 0 c 5 4 7 1 ,将可编程t m s 3 2 0 c 5 0 0 0d s p 与a r m 7t h u m b 精简指令集( r i s c ) 处理器结合在一起,支持多种嵌入式操作系统。d s p 和a r m 都有着丰富的外设接口,我们可以很方便的在外面扩展一些设备,比如液晶显示,键盘模块等等。d s p 片上的外设有:两个高速双工的多通道缓冲串口( m c b s p ) ,便于d s p 直接与外l 王i 数模转换器件进行数据交换。一个a p i ( a r mp o r t i n t e r f a c e ) 接口,使a r m 和d s p 能高速的进行信息交换。一个可编程的等待状态产生器,使d s p 可以在扩展总线上插入至多1 4 个机器周期的等待状态,便于d s p 与速度慢的设备无缝连接。扩展存储接口e m i f ( e x t e r n a lm e m o r yi n t e r f a c e ) 。a r m 芯片上的外设有:一个符合8 0 2 3 以太网协议的1 0 1 0 0 m 媒体访问控制器( m a c ) 。串行外围接口( s p i ) 。3 6 个通用i o 口。一个可以对内外设备的中断进行优先级和使能控制的中断管理器。a r m c p u 和内部r a m ,外部f l a s h 及s r a m 之间的控制接口。! 堑登垫查兰堡主堂篁堡塞茎兰篁墨竺堡堡堡塑a r m c p u 和s d r a m 之间的控制接r _ 】。时钟控制模块为其他设备提供时钟,激活d s p ,m c u 和其他设备。u a r t 接口。c 5 4 7 1 的功能框图如图2 2 所示:2 3 外围模块的设计图2 - 2c 5 4 7 1 功能接口图在图2 - 3 巾,我们可以看到硬件的模块分商:8 x 8k e y p a dl e d se c电子科技大学硕士学位论文第二章系统硬件设计图2 - 3硬件实物分区图主芯片v c 5 4 7 1 被做成一个插卡的形式置于中央。其中,c p l d 的主要作用是:1 为d s p 片外存储器地址译码;2 为v c 5 4 7 1以及其他设备提供r e s e t 信号;3 将振荡器输出的时钟信号分频,以满足不同设备对时钟频率的要求。v c 5 4 7 1 自带的网络接口( e i m ) 可以实现8 0 2 3 协议的m a c 层的功能。它与t n e t e 2 1 0 1 的物理层的接口连接,从网线上获得数据。收到的数据包经过处理后,放在v c 5 4 7 1 的p a c k e t m e m o r y 的片内存储空间。这块空间e i m 和a r m处理器都可以访问。t n e t e 2 1 0 1 是一个实现以太网物理层的芯片,可以与v c 5 4 7 1 上的m a c 接口很好的结合起来,通过g p i o 接口可对其进行初始化。t n e t e 2 1 0 1 可以对网线上的信号进行判断、调整、以及编解码等。同时,它提供m r x d ,m t x d 等信号线与v c 5 4 7 1 上网络模块的接口可无缝连接。在a r m 的e m i f 空间,扩展了另一个网络模块,选用l a n 9 1 c 11 1 这款可直接实现物理层和m a c 层功能的芯片。它是1 0 m 1 0 0 m 自适应的,而且支持8 0 2 _ 3 协议的自动协商机制。6电子科技大学硕士学位论文第,二章系统硬件设由v c 5 4 7 1 的u a r t 接口,须用m a x 2 3 2 e 来作电平转换。因为v c 5 4 7 1上的u a r t 接口的信号都是3 3 v 的,与通用p c 机上的信号电压不一致。在语音处理模块中,a d ,d a 采样芯片足t i 公司的t l v 3 2 0 a i c 2 3 b ,最高采样频率可达9 6 k h z 。通过a r m 的s p i 口刘其进行初始化,并将它与d s p 的m c b s p口无缝的连接。视频部分中,c m 3 0 8 8 是一个视频采集的摄像头,它通过一个f i f o 接到a r m 的存储空间上,i 。c d 也是扩展到a r m 的存储空问。同时用rc p l d 来产生l c d 和c m 3 0 8 8 所需要的控制信号。2 3 1视频模块的硬件设计ic a m e r a im o d u l e 图2 - 4视频结构框图视频硬件处理分为视频的捕获与压缩,以及压缩后数据的还原与再现两部分,数据的压缩以及解压缩遵照 l 2 6 3 标准,由d s p 来实现,视频捕获以及还原由相应的硬件模块实现。下边分别加以介绍。2 - 3 1 1 视频捕获部分视频捕捉部分的核心为o m n iv i s i o n 公司的o v 6 6 3 0 芯片,它在一块芯片上完成了视频信号的捕捉与a d 变换,其主要特点是:电子科技大学硕士学位论文第二章系统硬件设i f使用1 4 寸的镜头,最高可分辨率可达1 0 1 ,3 7 6 点,支持c i f q c i f 格式,其数据源可以直接被d s p 所使用;逐行扫描,数据格式可以是y u v ,r g b 等;动态范围宽,抗晕( 使暗弱目标获得足够的露光量厉仍能不失真地保存明亮对象的图象信息) 、零拖尾自动调节曝光度、增益、白平衡;直接对图像进行亮度、对比度、伽玛值、饱和度、锐利度等的调节;支持内部和外部的时序同步;支持1 2 c 总线,通过1 2 c 总线对其进行参数设置。图2 - 5 视频捕获硬件示意图系统加电后,通过1 2 c 总线对该芯片进行初始化,也可以在加电的时候通过对它的1 6 条数据引脚置高低电平进行初始化。后者比较简单,但不可在系统工作时重新设置,前者需要相关资源但灵活性比较好,本方案同时支持二者。通过设置,使芯片工作在彩色1 6 b i t 输出、q c i f 格式、自动调节的模式下。同步信号向外输出帧同步v s y ,行同步h r e f ,及时钟信号,同时数据引脚向外输出相应数据量。8 位为亮度信号( y ) ,8 位为色差信号( u 或v ) ,因为h 。2 6 3 标准要求亮度与色差信号的比是:y :u :v = 4 :i :1 ,所以u 信号和v 信号交互输出能满足要求。同时,把的f i f o 挂在c p u 的内存空间中。输出的同步信号接c p l d ,为c p u 产生相应的中断;数据信号接f i f o ,每读满一行即向c p u 发出指令,c p u把f i f o 中的数据搬移到c p u 的空间中,就可以进行下一步的处理。电子科技大学硕士学位论文第二章系统硬件设计2 3 1 2 图像的显示我们采用友达u 0 0 1 8 a n 0 3t f t 液晶显示屏作为显示模块,它的特点如下:数字输入;可视面积为1 8 ,解析度为:2 8 0 2 2 0 :故基本满足我们的要求,只是其输入要求为r g b 格式,在c p u 向该显示模块送信息时要经过一次转化:y = 0 2 9 9 + 0 5 8 7 g + o 11 4 b :u = 0 8 7 7 ( r y 、:v = 0 4 9 3 ( b y ) ;l c d 部分硬件原理图如图2 6 :图2 6 视频显示部分硬件框图电子科技大学硕士学位论文第三章h 2 6 3 视频处理协议第三章h 2 6 3 视频处理协议3 1h 2 6 3 视频压缩协议的发展以及协议族近1 0 年来,随着视频应用的日益普及,人们制定了系列视频编码标准。最著名的两个标准化组织分别是i s o i e cm p e g 活动图像专家组和i t u t 视频编码专家组。i s o i e cm p e g 推出的编码协议包括m p e g1 、m p e g 2 、m p e g4 等:i t u t 先后制定的标准有h 2 6 1 、h 2 6 3 、h 2 6 3 + 和h | 2 6 3 + + ,h 2 6 4 。1 9 9 0 年,i t u t 公布了第。一个视频编码标准h 2 6 1 ,在帧间编码时采用了基于1 6 】6 的宏块和整像素精度的运动估计,而在帧内编码时采用了8 8 数据块的d c t 运算。这些算法有效地压缩了视频序列在时间和空间上的冗余度,使得h 2 6 1 具有较高的压缩比,适用于p x 6 4 k b p s 的视听业务( p = 1 3 2 ) ,可以用于i s d n 。h 2 6 1 无法获得所需要的压缩性能和对信道误码的鲁棒性。因此,1 9 9 6 年3月,i t u th 2 6 3 第一一版应运而生。h 2 6 3 标准能够满足现有信道所需要的压缩性能,并提供对信道误码的一定的鲁棒性,从而成为新的低码率视频编码的主流标准。虽然h 2 6 3 标准是从h 2 6 1 标准的编码结构基础之上发展而来的,但是,它在低码率条件下,能够在不增加太多复杂度的情况下,提供更高的国像质量。此外,h 2 6 3 标准还包括四个基本的可选模式,进一步提高了压缩性能。目前,h 2 6 3 标准已经被各种可视电话终端协议广泛采用,如i t u t 的h 3 2 4 ( p s t n ) ,h 3 2 0 ( i s d n ) ,h 3 2 3 ( l a n ) 和h 3 1 0 ( b i s d n ) 等。1 9 9 8 年,i t i j t 推出的h 2 6 3 + 是h 2 6 3 视频编码标准的第二版,它提供了1 2 个新的可选择模式和其它特征,进一步提高了压缩编码性能。如h 2 6 3 只有5种视频源格式,h 2 6 3 + 允许使用更多的源格式,图像形状和时钟频率也有多种选择,拓宽了应用范围;另一重要的改进是可扩展性,它允许多显示率、多速率及多分辨率,增强了视频信息在易误码、易丢包异构网络环境下的传输。另外h 2 6 3 + 的图像分段依赖性也是受限的,以减少差错传播。h 2 6 3 + 针对h 2 6 3中的不受限运动矢量模式进行了改进,加上1 2 个新增的可选模式,不仅提高了编码性能,而且增强了应用的灵活性。1 2 个新增的可选模式分别为:高级帧内1 0电子科技大学硕士学位论文第三章h 2 6 3 视频处理协议编码模式,去块效应滤波模式,片结构模式,追加增强信息模式,改善的b p 帧模式,参考图像选择模式,时间、信噪比、空问的可缩放模式,参考图像重采样模式,减少分辨率更新模式,独立分段解码模式,选择的帧问变长编码模式,修改量化模式。2 0 0 0 年,l t u t 又推出了h 2 6 3 + + ,对h 2 6 3 又做了些新的扩展,增加了一些新的特性从而适应于各种网络环境,并增强差错恢复的能力。新增的可选模式有:增强参考帧选择模式,数据划分片模式,扩展的追加增强信息模式等。1 9 9 9 年,i t u t 以h 2 6 3 为基础,开始研究新一代的低码率视频压缩标准h 2 6 l 。为了响应i s o i e cm p e g 对先进视频编码技术的需求,i s o i e cm p e g与i t u t 在2 0 0 1 年成立联合视频工作组,在h 2 6 l 的基础上开发新的标准,即t 标准。在i s o i e c 中,该标准的正式名称为m p e g 一4a v c ( a d v a n c e dv i d e oc o d i n g 标准,作为m p e g 一4 标准的第f 部分;在i t u t 中的正式名称为h 2 6 4标准。2 0 0 2 年1 2 月,形成最后的标准草案。一方面,h 2 6 4 把h 2 6 3 中的一些已经证明行之有效的可选模式作为h 2 6 4中的基本模式固定下来,例如先进的帧内编码模式和基于语法的算术编码模式等;另一方面,h ,2 6 4 又加入了一些新的研究成果,在系统结构、编码方法、变换、运动估计和运动补偿等方面都提出了许多新的概念,例如可选的1 4 ( 1 8 ) 像素的运动估计、多模式的运动矢量估计、可交换帧、整数变换、多帧参考等,从而使得h 2 6 4 在压缩率上具有更好的性能,编码性能也有显著提高。表3 - 1 各种编码标准的比较电子科技大学硕士学位论文第三章h 2 6 3 视频处理西议质量可分级码流改进算数编码容错编码医学图像移动应用彩色传真p 星图像传输m p e g 一1i s o f l e c15 m b p sd c t主观量化自适应量化z i g z a g 扫描熵编码运动预测补偿双向运动补偿半像素运动估计c d r o m 视盘消费视频视频记录m p e g 41 s o h e c8 k b p s - 3 5 m b p sm p e g 2 所有技术i n t e m e tw a v e l e t交互视频零树扫描可视编辑高级运动补偿内容管理重叠运动补偿消费视频视相关可扩展编码专业级视频位图形状编码2 d 3 d 计算机图s p r i t e 编码形脸部动画移动通信动态嬲格编码1 2电子科技大学硕士学位论文第三章h 2 6 3 视频处理协议p 6 4 k b p sp :1 3 1d c ti s d n 视频会议自适应量化z i g - z a g 扫描熵编码运动预测补偿整像素运动估计差错控制编码h ,2 6 3 +1 t u th 2 6 3 + +h 2 6 lh 2 6 48 k b p s - 1 5 m b p s增加1 2 个选项可视电话增加4 个选项桌面可视电话在系统结构、编码桌面电视会议方法、变换、运动移动可视电话估计和运动补偿等网络视频方面都提出了许多新的概念,3 2h 2 6 3 核心编码器h 2 6 3 标准协议的编码其结构如图仅仅是一些规则,而具体的3 1 。需要说明的是,h 2 6 3 协议给出的实现则完全依赖与设计者。电子科技大学硕士学位论文第三章h 2 6 3 视频处理协议离散余弦变换模块;量化模块:编码控制模块;反向运算;标志表示该次处理是帧间编码还是帧内编码标志该次处理是否需要传送;量化步长;则是量化后的数据。图3 - 1h 2 6 3 编码器3 2 1源数据格式形成码流h 2 6 3 建议要求输入数据遵循i t u rb t 6 0 1 5 建议,主要概括:输入数据为一个亮度信号y 和两个色差信号u 、v ,它们和三光色:红、黄、蓝,j f ;n t的转换关系:tq po呼q皇王型堇查堂堡主兰垡笙壅蔓三重旦:! 箜塑塑竺坚垫:坚一y 【o 2 9 9:i 一0 5 9 6l v 0 2 1 10 5 8 70 2 7 40 5 2 20 1 1 40 3 2 2o 3 1 1訇公式f 3 一! )公式f 3 2 )亮度信号y 由8 b i t 表示,范围在1 6 和2 3 5 之间,v u 色差信号由1 b i t 符号位以及7 b i t 数值位组成,符号位为1 表示正数。故色差最小为1 0 0 0 0 0 0 0 ,最大正色差为1 1 1 1 0 0 0 0 ,最大负色差为0 0 0 0 1 1 1 1 。因为u 、v 信号变化相对缓馒,所以y 、u 、v 信号的采样率为4 :1 :1 ,采样位置如图3 - 2 所示。l o。ioox i ( 一一卜一一一i o:oo! !x ! x oiooi x 亮度采样。色差采样一- 一块边界图3 - 2亮度、色差信号采样位置示意图h 2 6 3 要求输入图像的帧速为3 0 0 0 0 1 0 0 1 ,大约每秒钟2 9 9 7 帧。i - i 2 6 3 支持的标准图像格式如下表所示,此外,协议还支持通过压缩方和解压缩方协商输入图像的分辨率。电子科技大学硕士学位论文第三章h 2 6 3 视频处理协议表3 - 2h 2 6 3 支持的图像格式图片格式横向亮席占数纵向亮席占数横向任荠点数纵向仁荠点数s u b - q c i f1 2 89 66 44 8q c i f1 7 61 4 48 87 2c l f3 5 22 8 81 7 61 4 44 c i f7 0 45 7 63 5 22 8 81 6 c i f1 4 0 81 1 5 27 0 45 7 6经过h 2 6 3 压缩算法,输出的数据为二进制数据流,由h 2 6 3 解压缩算法实现反向运算。h 2 6 3 协议对编译码器所能操作的图像格式进行了严格的规定,但对所能操作视频图像的能力方式,则没有加以限定。所有解码器都应该能够操作s u b q c i f 图像格式,所有解码器也应该能够使用q c i f 格式。某些解码器可以使用c i f 、4 c i f 或1 6 c i f 格式。编码器应该能够使用s u b q c i f 或q c i f 格式。由编码器来决定使用这两种格式的哪一种,而且不必同时具备两种格式图像的操作能力。某些编码器可以使用c i f 、4 c i f 或1 6 c i f 格式。解码器能够处理何种格式则通过外部方法告知。3 2 2帧结构视频信息实际上是由许多单一的画面所组成的,每幅画面称为一帧。帧是构成视频信息的最小和最基本的单元。h 2 6 3 的视频码流从上到下分为四层,依次为图像层( p i c t u r el a y e r ) 、块组层( g r o u po f b l o c k sl a y e r ) 、宏块层( m a e r o b l o c kl a y e r ) 和块层( b l o c k l a y e r ) 。整个码流结构如图3 3 所示:电子科技大学硕士学位论文第三章h 2 6 3 视频处理协议图3 - 3视频码流结构图中e o s 是图像编码结束的标志,码值为“0 0 0 00 0 0 00 0 0 00 0 0 01 1 1 1 1 l ”p s t u f 是任意长的填充比特流。现对上述四层结构进行详细的说明。3 2 2 1图像层图像数据由图像头和连续的块组数据组成。图像在垂直方向分割成若干个块组。每个块组包含一整行的宏块,如图3 - 4 所示。而每个宏块又包含4 个亮度块和2 个色度块,它们的结构和块编号如图3 - 5 所示。块组1 一一块组2 一一宏块宏块宏块宏块宏块宏块图3 4 图像分割示意图电子科技大学硕士学位论文第三章h 2 6 3 视频处理协议亮度块一m ie 剀色度u 块色度v 块jj口口图3 - 5 宏块结构图像层的数据结构如图3 - 6 ( 方框下的数字为相应字段的比特数,同下) 。2 251 153210 8 1 6 变字长图3 - 6 图像层的数据结构图中的各个部分说明如下:图像起始码( p s c ) :所有图像的起始码都为“0 0 0 00 0 0 00 0 0 00 0 0 0l0 0 0 0 0 ”。时间参考f i r ) ,其实际意义是指当前编码图像在原始图像序列中的序号。第一帧图像编号为0 ,每隔一帧序号增l ,序号以3 2 为模。在解码端用这个时间参考可简单地算出当前正在解码的图像与刚刚解码出来的图像之间有多少帧图像在编码是被跳过,即说明当前正在解码的图像在显示时需要被重放多少次。图像类型信息( p t y _ p e ) :p t y p e 包含图像编码的各种重要信息。图像编码时可以选择各种不同的方式,以达到最佳的编码效率,这些方式由协议提供。编码时是否采用了这些方式由p t y p e 指出,p t y p e 由l l 比特码字表示,最左边的一位对应比特1 ,次左边的一位对应比特2 ,以此类推。其比特3 和比特4 决定图像的格式,如表3 3 所示:电子科技大学硕士学位论文第三章h2 6 3 视频处理协议比特7比特1 0比特1 1表3 - 3p t y p e 信息的3 、4 比特位第3 、4 比特位图像格式o o0 11 01 1s u b q c i f ( 1 2 8 9 6 )q c i f ( 1 7 6 1 4 4 )c i f ( 3 5 2 2 8 8 )保留决定图像编码类型0 表示帧内编码( i n t r a )1 表示帧间编码( i n t e r )“1 ”时表示采用h 2 6 3 建议的改进预测模式“0 ”时则采用一般预测模式确定帧问编码模式0 表示通常的帧间模式( 即p 模式)1 表示p b 帧模式。量化信息( p q u a n t ) :编码时先用p q u a n t 作为假定的宏块量化级( q u a n t ) ,如果实际的量化级与假定的值相同,宏块层量化级不再被编码器传递:当这两个值不一致时,宏块层中的d q u a n t 会指出当前量化级与前一宏块量化级的变化值,此后d q u a n t 在该帧不再起作用。b 帧时间参考( t r b ) :采用p b 帧编码时,要对当前p b 帧中的b 帧和前一p 帧之间没有被编码传送( 即跳过) 的帧数再加1 ,t r b 的作用同上面提到的t r 。b 帧量化信息( d b q u a i n t ) :采用p b 帧编码时,通过宏块( 这里指p 宏块) 的量化级( q u a n t ) 和这个量化信息,可算出b 块的量化级( b q u a n t ) 。1 9电子科技大学硕士学位论文第三章h 2 6 3 视频处理协议附加插入信息( p e i ) :p e i 类似循环语句的一个判断条件,当p e i 为1时,可将p s p a r e 信息写入码流,直至p e i 为0 为止。附加信息( p s a p r e ) :附加信息为码长8 的倍数,当p e i 为0 时,码长为零;p e i 为“1 ”时,后面跟着9 比特的数据,其第l 到第8 比特是附加信息( p s p a r e ) ,第9 比特是另外一个p e i ,由此比特( 1 或o ) 可指明后面是否继续跟着这种结构的附加信息。3 2 2 2 块组层块组层数据包含块组头和宏块数据,每个块组包含一整行宏块,其数据结构如图3 7 所示。1 7525变字长图3 7 块组层数据结构图中的各个部分说明如下:块组起始码( g b s c ) :所有块组的起始码值均为“0 0 0 00 0 0 00 0 0 00 0 0 0 】”块组号( g n ) :给出当前块组在图像中的位置,块组号由零开始,每隔一个块组,组号增1 ,块组号为零时,块组头不写入码流,其余的块组头是否写入码流则由编码器决定。块组帧标识符( g m ) :用来判别相邻两帧图像编码类型是否相同,同一帧的g f i d 值相同。电子科技大学硕士学位论文第三章h 2 6 3 视频处理协议块组层量化信息( g q u a n t ) :编码时用该信息作为这块组中宏块的量化级,直到被宏块层中的d q u a n r j 、更新为止。32 2 3 宏块层如同m p e g ,h ,2 6 3 也把图像在空间划分成1 6 x1 6 像素的信息处理单位,称之为宏块。每个宏块包含4 个8 8 的像素亮度块( b l o c k ) 和空间上对应的8 8 的像素色度u 块及8 8 的像素色度v 块。通过运动估值,可在先前图像中选出最佳匹配宏块,并与当前宏块进行运动补偿。经过匹配处理之后的宏块以8 8 个像素为单位分别作离散余弦变换( d c t ) 和系数量化,这些二维系数按频率上升的方向经过z i g z a g 扫描之后变成维系数,并送入编码器作为变字长的编码。在宏块的头部包含解码器的解码。这些变字k 的码通过宏块头可得到恢复图像所需的信息。宏块层的数据结构如图3 - 8 所示。图中:1变字长变字长6变字长2变字长变字长变字长变字长图3 - 8 宏块层数据结构图中各部分说明如下:宏块编码指示( c o d ) :在帧问编码图像中,编码器用c o d 指明宏块层中除c o d 字段外是否还有其它字段或块层信息。若宏块运动矢量和量化系数全部为零,则宏块中没有被编码的信息,c o d 字段( 为1 ) 后的信息为空,可直接为f 一宏块编码。帧内编码图像没有c o d 字段。宏块类型及色度编码形式( m c b p c ) -m c b p c 标明宏块的编码类型。宏块有多种编码类型,如i n t e r ( 帧间) 、i n t e r + q ( 帧问,新量化级) 、i n t e r 4 v 【帧间,四个运动矢量) 、i n t r a ( 帧内) 及i n t r a + q ( 帧内,新量化级) 。还有一种“填充”( s m i t i n g ) 的类型,电子科技大学硕士学位论文第三章h 2 6 3 视频处理协议用来增加系统的码流。m c b p c 也同时标明色度块的编码形式,例如标明在u 块和( 或) v 块内除了i n t r a d c 以外是否还有需要传送的变换系数。b 宏块形式( m o d b ) :给出了b 宏块的编码信息,包括六个块量化系数信息( 若存在非零系数,南c b p b 给出其具体形式) 和运动矢量信息( 若存在的非零矢量,由m v d b 给出) 。b 宏块编码形式( c b p b ) :b 宏块含有编号从0 到5 的六个块( 如图2 7 图2 所示) ,若块n 中有非零量化系数,则c b p b n = i ,反之c b p b n = 0 ,c b p b 的字长为6 比特,最左边一位对应块号0 ,最右边一位对应块号5 。亮度块编码形式( c b p y ) :给出了四个亮度块的编码形式( 在p b 帧模式下指p 宏块的亮度块) ,当c b p y n = 1 时,表示块n ( 块号) 中有非零的非帧内直流系数被编码传送。量化信息( d q u a n t ) :这个字段给出了当前宏块量化级和前一宏块量化级的变化量,这个变化量限制在- 2 和+ 2 之间。若变化量不在这个范围之内,当前量化级就会被强制修正,因而有助于降低宏块效应。运动矢量( m v d ) :在宏块运动估计时,水平和垂直方向的搜索范围在( - - 1 5 5 1 6 ) 之间,可进行运动矢量与预测运动矢量差分之后的在编码( 限水平分量后垂直分量) 。先进预测方式下的块运动矢量:宏块类型为i n t e r 4 v 时,每个宏块对应了四个运动矢量( m v d 、m v d 2 、m v d 3 、m v d 4 ) ,即每一亮度块对应一个运动矢量,编码方法同上。b 宏块运动矢量( m v d b ) :电子科技大学硕士学位论文第二章h 2 6 3 视频处珲协议在采用p b 帧模式编码时,b 宏块在前一p 帧作运动估值,可由m v d b 给出最佳匹配块的运动矢量。3 2 2 4 块层原始或经运动补偿后的宏块经过d c t 变换、量化和z i g z a g 扫描后,成为按频率上升顺序排列的维系数串,将串中的非零数值系数的幅值( l e v e l )和该系数前连续零数值系数的个数( r i n ) ,以及标明该非零数值系数是否为串中最后一个非零系数的标识符( l a s t ) 组成个事件( e v e n t ) 。如6 4 个系数串“1 ,0 ,0 ,3 ,q ! q ! q ! q :! :”r 1 1 黑体划线部分可表示为l a s t :l 、r u n :4 、l e v e l :1 ,则前一事件中的l a s t 值为0 ,说明该事件不是串中的最后事件,而后一事件,而后一时间是串中的最后事件,因此l a s t 值为l 。常见的事件用对应的霍夫曼码字表示,而不常见的事件用固定长度( 2 2 比特) 的码字表示,这2 2 个码字分配给相应的e s c a p e ( 7 比特) 、l a s t ( 1 比特) 、r u n ( 6 比特) 和l e v e l ( 6 比特) 。其中所有的e s c a p e 码值均为“0 0 0 00 1 1 ”,而l a s t 、r u n 、l e v e l 的码值均为各自的二进制码值。块层的数据结构如图3 - 9 所示:i n t r a d ct c o f图3 - 9 块层数据结构图中的各个部分说明如下:帧内直流系数( i n t r a d c ) :帧内块的第一个系数称为帧内直流系数( i n t r a d c ) ,该系数不与其它任何系数构成事件,可单独进行8 比特而进制编码。非帧内直流系数( t c o e f ) :系数( n o n i n t r a d c ,也称t c o e f ) ,这些系数构成一个个独立的事件,对事件可作变字长的除了帧内直流系数之外,其它系数( 包括帧间块的第一个系数) 都称为非帧内直流编码。电子科技大学硕士学位论文第二章h 2 6 3 视频处理协议当然,不是所有的块都需要编码,例如,当一个帧问块的6 4 个系数都为零时就不需要做相应的块层编码。对帧问交流系数都为零的帧内块,仅须编码i n t r a d c 系数。字段c o d 、m c b p c 、c b p y 提供了些块t c o e f 被编码的信息。需要说明的是,p b 帧中的宏块应称之为广义上的宏块,因为块层中可能有1 2 个块被编码,其中后面六个块来自b 宏块。b 宏块只采用帧问预测编码,字段c b p b 提供了b 宏块所有六个块的t c o e f 编码信息。3 2 3编码器的主体算法编码器的主体算法包括:变换编码,运动估计和运动补偿,量化以及熵编码。3 2 3 1 变换编码在信息理论中,有一个信号处理定理:一个信号通过信号处理系统,它的熵不会增加。由于线性正交变换和反变换都可以认为是一个信号处理系统,并且满足理想重构条件,因此,图像进行变换后,熵不会变化,变换的目的不是减小熵,而是在于使编码其得到简化。假设有一种理想变换存在,使得变换系数之间完全是统计独立的,那么,变换系数的一阶熵就表示了该信源的无失真编码码率的下限。采用标量量化和熵编码可以希望获得好的压缩效果,遗憾的是这种变换是不存在的。但对于平稳信号,使变换系数达到不相关的变换是存在的,这就是k l 变换。如果变换系数满足或接近于高斯分布,不相关和统计独立是等价的。实际上,变换系数近似于高斯分布,k l 变换是去相关意义上的最优变换。从有失真压缩的角度考虑,还希望图像能量经变换后尽可能集中于尽可能少的几个系数。这样,通过量化后,只有尽可能少的系数不为零,会得到较高的压缩比,已经证明,从这个意义上讲,k l 变换也是最优的。但是应该看到,k l 变换的变换矩阵是依赖于具体图像的。对于一幅给定图像,需要估计它的相关矩阵,然后进行特征值分解,得到特征矢量,才能得到变换矩阵。由于变换矩阵不确定,k l 变换也没有通用的快速算法。这使得k l 变换在实际应用中是不现实的。离散余弦变换( d c t ) 被认为是在高相关性的随机矢量的情况下对k l 变换的很好的逼近,因此,d c t 常常被认为室对自然场景图像信号进行变换的准最佳变换。d c t 变换的主要特点有:2 4电子科技大学硕士学位论文第三章h 2 6 3 视频处理协议在变换域里描述视频图像要比空间域里简单。变换后的系数相关性明显下降,信号能量主要集中在少数几个变换系数上,采用量化和熵编码后可有效地压缩其数据。有快速算法,能实现实时视频压缩。简单,有效,并适合软件以及硬件的应用。在d c t 为主要方法的变换编码中,一般不直接对整个图像进行变换,而是首先对图像分块,将m n 的一幅图像,分成不重叠的m k n k 个k k 个块分别进行变换。这样做,从总体率失真性能上不会带来什么收益,但却是一种一陛能下降很小、实现方便性大大增强的技术。首先,从运算量上,个n n图像采用整体d c t 变换,使用快速算法,需要的运算量平均为m n l 0 9 2 ( m n ) 、分块后运算量降为2 m n l 0 9 2 k ,对一幅5 1 2 5 1 2 的图像,分块变换仅需约1 3 的运算量;其次,后续的量化和扫描处理可以得到明显的简化;第三是容易将由传输误差引起的错误控制在一个块内,而不是在整个图像上扩散。采用多大的块,是一个需要解决的问题。h 2 6 3 指定采用8 8 的图像,下面给出的8 8 d c t 和i d c t 的公式:脚,= 扣删7 纛7 n = 0m 咖s 等竽c o s 号竽挪一印叶= o1 u1 u“巩m 、= 一1f 7y 7c ( u ) c ( v ) f f 虬v l c o s 垦望二! 丝竺c o s ( 2 m + 1 ) v z r套j 葺p 卅加川2 百姜( ) c 。s 兰岽丝c 。s 话一套邢卅v=0”= 01 ui ”出 ( v ) :j 击尚,v 一。1 1 ,其它公式( 3 3 ) 和公式( 3 4 ) 中u ,v 指变换域中的离散点的坐标,m ,n 指原始的二维离散点。3 2 3 2 运动估计和运动补偿运动估计和运动补偿是视频压缩的精华所在,也是提高压缩比的关键。活动图像的空间冗余度靠d c t 变换除去,后者主要靠块运动估计与运动补偿技术除去。电子科技大学硕士学位论文第三章h 2 6 3 视频处理协议h 2 6 3 支持基于运动估计和运动补偿的帧间预测。帧间模式是利用时问的相关性来进行预测编码的,在这种模式中,只需将原始帧和预测帧的帧间差进行量化编码。如果利用空间相关性来进行编码,就是帧内模式。运动 偿技术的主要内容包括:图像分割。将视频图像分割成静i e 部分和运动部分。运动检测与估计。检测运动类型( 平移、旋转和放缩等) ,估计运动物体的位移值。运动补偿。用位移估计值进行运动补偿预测。预测信息编码。对预测信息( 例如,位移矢量) 进行编码。运动估计的方法有很多,块匹配算法( b m a ) 由于在实时性和估值精度方面能满足大多数应用的要求,成为目前最常用的运动估计技术。它将当前帧分成许多小块,以这些块为单元,在相邻帧内搜索匹配块。h 2 6 3 标准中使用块匹配进行位移估值,确定位移矢量,再计算预测误差。如图3 1 0 所示:位移少口自搜索窗前一帧当前帧图3 1 0 块匹配示意图图3 一1 0 的算法中,假设宏块中的每一像素点都经历了相同的运动变换。运动信息有一个二维的位移矢量来表示。由于在h 2 6 3 标准中图像是用块表示的,所以许多位移估值的算法采用块匹配,它是靠计算当前宏块和比较宏块的最佳匹配来获得位移矢量的。电子科技大学硕士学位论文第三章h 2 6 3 视频处理协议尽管有许多匹配准则,但应用最广泛的匹配准则还是求最小绝对误差和( s a d ) :j 岫川& f d 力= 芝芝 五g 力一六一a + 五u ,+ y ) lw 。,w公j 切i = o j = o这里五( f ,) 是第k 帧中像素点( f ,j ) 的亮度

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论