已阅读5页,还剩61页未读, 继续免费阅读
(通信与信息系统专业论文)基于对象的视频图像形状编码在数字监控系统中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
武汉理工大学硕士学位论文 摘要 随着计算机和数字通信技术的迅速发展,通信的带宽与容量的限制使视频 图像的编码和压缩算法成为研究的热点,各种多媒体数据压缩编码标准也在不 断发展和完善。 m p e g - 4 是现有最重要和最有影响的多媒体数据压缩编码国际标准之一,基 于对象的编码思想使其具有高压缩比、可扩展性、可交互性等许多优点。它充 分利用人眼的视觉特性,抓住了图像信息传输的本质,从图像纹理、轮廓出发, 支持基于视觉内容的交互功能,以其先进的编码理念、高效的压缩率、较低的 带宽要求、清晰的重建质量,以及其顺应基于内容的访问、检索和操作的多媒 体应用趋势,使其仍将是今后一段时间内视频编码标准的主流。m p e g - 4 代表着 未来多媒体数据压缩编码的发展趋势。 本文首先介绍了视频监控系统的发展现状和视频图像压缩的可行性与必要 性,对传统模拟监控系统的缺点和现代数字监控系统的优势做了相应对比。其 次介绍了图像编码的原理、质量衡量方法,对当前使用广泛的算术编码、哈夫 曼编码和离散余弦变换的过程与特点做了相应论述。详细说明了m p e g - 4 视频 压缩标准采用的框架和流程,阐述了纹理编码、形状编码的方法和具体实现过 程,重点分析了基于上下文的算术编码在二值图像形状编码中的使用以及在d s p 上的实现,同时给出部分相应代码。对实际应用中的甚低比特率下的形状编码 分辨率控制算法和m p e g - 4 的码率控制算法的实现作了相关介绍。最后介绍了 数字监控系统的整体构架,对系统中各个模块之间的接口连接方式和视频压缩 数据传递流程都做了详细说明。 m p e g - 4 首次把形状描述引入运动图像的编码,采用基于上下文算术编码对 视频对象的二值形状信息进行编码,具有传统视频编码技术无可比拟的优势。 因此,及时了解和跟踪m p e g - 4 的发展动态,掌握其核心技术,并结合实际应 用在某些关键算法上有所创新和发展,是一项很有意义的工作。 关键词:m p e g - 4 ;算术编码;形状编码;p c i ;数据传输 武汉理工大学硕士学位论文 a b s t r a c t a l o n gw i t ht h er a p i dd e v e l o p m e n to fc o m p u t e ra n dd i g i t a lc o m m u n i c a t i o n t e c h n o l o g y , t h el i m i t o fc o r r e s p o n d e n c eb a n dw i d t ha n d c a p a c i t yc a u s e st h e c o m p r e s s i o na l g o r i t h mo fv i d e op i c t u r eb e c o m e st h er e s e a r c h i n gh o ts p o t ,e a c hk i n d o fm u l t i m e d i a d a t ac o m p r e s s i o nc o d es t a n d a r di sa l s ou n c e a s i n g l yd e v e l o p i n ga n d c o n s u m m a t i o n m p e g - 4i so fm o s ti m p o r t a n c ea n di so n eo ft h em o s ti n f l u e n t i a lm u l t i m e d i a d a t ac o m p r e s s i o nc o d eb e t w e e ni n t e r n a t i o n a ls t a n d a r d s t h et h o u g h to fo b j e c t o r i e n t e dc o d eb r i n g si tt oh a v et h em e r i t so fh i g h - c o m p r e s s i o n , e a s y e x t e n s i o n , p o s s i b l eo fi n t e r a c t i o na n ds oo n , i tf u l l yu t i l i z e sh u m a nv i s u a lc h a r a c t e r i s t i c so ft h e i m a g et os e i z et h ee s s e n c eo fi n f o r m a t i o nt r a n s m i s s i o n , s u p p o r t i n gt h ei n t e r a c t i v e f u n c t i o no f v i s u a lc o n t e n tf r o mt h ei m a g et e x t u r ea n dc o n t o u t , c o d i n gw i t ha d v a n c e d a n de f f i c i e n tc o m p r e s s i o nr a t e s , l o w e rb a n d w i d t hr e q u i r e m e n t s ,t h eh i g hq u a i t yo f t h er e c o n s t r u c t i o n , a n dc o n f o r mt oi t sc o n t e n t - b a s e dv i s i t , r e t r i e v a la n do p e r a t i o no f t h em u l t i m e d i a a l lo f t h i st r e n di tw i l lr a q l a i nv i d e oc o d i n gs t a n d a r df o ra l o n gt i m e w h i c ha l s or e p r e s e n t st h e f u t u r eo fd e v e l o p m e n tt e n d e n c yo fm u l t i m e d i ad a t a c o m p r e s s i o n t h i sa r t i c l ef i r s tb r i e f e dt h ed e v e l o p m e n tp r e s e n t s i t u a t i o no fs u p e r v i s o r ys y s t e m a n dt h ef e a s i b i l i t yo f v i d c oc o m p r e s s i o n t h e n , i n t r o d u c et h e o r yo f i m a g ec o d i n ga n d m e a s u r e m e n to fq u a l i t y , s t u d i e dt h ep r o c e s sa n dc h a r a c t e r i s t i c so fa r i t h m e t i cc o d e s p e c i f y sf r a m e w o r ka n df l o wu s e di ns t a n d a r do fm p e g - 4v i d e oc o m p r e s s i o n , a n a l y z e dw i t he m p h a s i sb a s e do nt h eu s i n go ft w o v a l u e ss h a p ec o d ei nc o n t e x t a r i t h m e t i cc o d ea n dr e a l i z a t i o nc o d e so nd s ei ta l s om a k es i m p l ei n t r o d u c t i o nt o s h a p ec o d eu n d e rr e a l l yl o wb i tr a t e sa n dr e a l i z a t i o no fm p e g - 4c o d er a t ec o n t r o l a l g o r i t h m f i n a l l y , i n t r o d u c e dt h es k e l e t o no fn u m e r a ls u p e r v i s o r ys y s t e ma n dt h e r e a l i z a t i o no f d a t ac o u n e c t i o na sw e l la st h ew a yo f d a t at r a n s m i s s i o n m p e g - 4c o m b i n e dd e s c r i p t i o no fs h a p ew i t hm o v i n gi m a g ec o d i n gf i r s t , b a s e d o nt h ec o n t e x to fa r i t h m e t i cc o d i n gv i d e oo b j e c to ft w o - v a l u e ss h a p ei n f o r m a t i o n i i 亟堡望三查堂堡主兰垡丝茎一 c o d i n g ,w h i c hh a v ei n c o m p a r a b l ea d v a n t a g e so f t r a d i t i o n a lv i d e oc o d i n gt e c h n o l o g y t h e r e f o r e ,t h eu n d e r s t a n d i n ga n dt r a c k i n gt h ed e v e l o p m e n to fm p e g - 4d y n a m i ci n t i m ea n dg r a s pt h ec o r et e c h n o l o g y , a n dt h ep r a c t i c a la p p l i c a t i o no fc e r t a i nk e y a l g o r i t h mo ni n n o v a t i o na n dd e v e l o p m e n ti sa v e r ys i g n i f i c a n tp r o j e c t k e yw o r d s :m p e g - 4 ,a n t l l i l l e t i cc o d i n g ,s h a p ec o d i n g ,p c i ,d a t a t r a n s f e r i n g h i 独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人 已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其它教育机构的 学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已 在论文中作了明确的说明并表示了谢意。 签名:互i 盏查,e t 期:12 :墨“ 关于论文使用授权的说明 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即学校有权保 留、送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 日期:业肜 武汉理工大学硕士学位论文 第1 章绪论 1 1 图像监控系统的现状和发展 人类接受的信息7 0 是来自视觉,视觉图像具有确切、直观、具体生动、 真实和高效等特点,这也是人们需要对无人值班站实施图像监视的重要原因。 视频监控系统是安全防范系统的组成部分,它是一种防范能力较强的综合系统。 视频监控以其直观、方便,信息内容丰富而广泛应用于许多场合。近年来,随 着计算机、网络以及图像处理、传输技术的飞速发展,视频监控制技术也有长 足的发展。 模拟监控系统基本方法是摄像机以每秒2 5 帧的标准速率采集图像,然后将 图像作为基带模拟信号直接通过同轴电缆从摄像机传送到控制中心,控制中心 对终端设备云台镜头进行控制,同时选择任何一路或几路视频信号进行输出, 录像通常采用对v h s 型走带机构进行改制的长延时录像机或者普通录像机。这 种监控系统配置比较简单,视频不用压缩,也不需要相应的网络环境,但是和 数字监控比较起来,它有显著的缺点: ( 1 ) 图像数据量大:模拟视频信号没有经过压缩,数据量及其庞大,录制 一个月时问的录像,要消耗掉大量的录像带。 ( 2 ) 图像检索麻烦:因为图像是模拟的,对其检索只能靠人工的办法,如 在录像带上标上时间,然后通过快进或者快退的方法进行检索。 ( 3 ) 无法远距离传输:模拟信号由于其信号特点不适合远距离传输,并且 由于没有经过压缩,数据量很大,这些都无法利用现在不断发展的网络技术, 所以很难随新技术的发展而升级。 ( 4 ) 维护不方便:由于模拟的信号数据量很大,通常一盘录像带只能路很 短的时问( 2 句个小时) ,所以要想长时间录像,要不停的由人工去更换录像带, 并且每次更换的时候都会造成图像的不连续,另外大量的录像带的管理和保藏 也是很不方便的。 ( 5 ) 录像媒体易损耗:录像带如果长期的循环使用,不断擦写,很容易导 致画面不清晰,并且不适合长时间保存。 武汉理工大学硕士学位论文 ( 6 ) 附加功能不方便:如增加一路摄像机,录像就得附加另外的设备,要 想有画面分割功能就得购买另外的设备。 比较模拟监控而言,数字监控在技术上有着独特的优势,主要特点体现在: ( 1 ) 数据量小:一般来说,数字监控的图像都是经过压缩,所以一般信息 量都比模拟的信息量小很多,适合长时间录像和存储,降低存储设备的费用。 ( 2 ) 检索方便:数字监控的数据由于都是数字的,适合计算机管理,结合 计算机高速运算的特性,可以容易地进行图像检索。 ( 3 ) 适合远程传输:数字视频由于不存在信号随距离衰减的问题,所以很 适合在网络上传输,可以充分发挥当今高速发展的网络技术的优势,彻底消除 监控的距离限制。 ( 4 ) 升级、维护方便:数字监控利用计算机的优势,可以对设备和录像实施 智能化管理,减少人工干预,并且随着技术的不断发展而升级,降低长期投资。 目前,数字视频监控系统发展已非常成熟,性能稳定,在实际工程中得到 广泛应用。数字系统迅正迅速崛起并朝着前端一体化、视频数字化、监控网络 化、系统集成化、管理智能化的方向发展,而数字化是网络化的前提,网络化 又是系统集成化的基础,所以,视频监控系统发展的最大特点就是数字化、网 络化、智能化。 1 2d s p 技术在视频编解码系统中的应用 无论是基于帧的编码标准还是基于对象的编码标准,压缩处理的对象都是 数字信号,系统前端的模拟视频采集和终端的模拟视频显示一般都由专用芯片 来完成。可见压缩的实质就是进行数字信号处理。而且图像的实时性和高质量 对处理的速度提出了很高的要求。比如对3 8 4 2 8 8 的图像若要达到每秒2 5 帧, 则要求平均每个像素的处理时间为3 6 0 n s 左右,3 6 0 n s 内要完成的运算包括采样、 d c t 变换、量化、游程编码、熵编码、打包、解包、游程解码、熵解码、反量 化、i d c t 变换等等。可见压缩速度至关重要。 目前实现视频编解码一般有两种方式:p c 机方式和嵌入式方式。p c 机方式 主要由视频采集卡、p c 机、压缩软件或硬件、监视器四个部分组成;嵌入式方 式则是由图像采集芯片、d s p 处理器、存储芯片、压缩软件或硬件和图像合成 芯片组成,前者成本高、体积大、不易集成是显而易见的,而后者在很多场合 2 武汉理工大学硕士学位论文 更加适用。 数字信号处理器( d s p ) 作为各类嵌入式系统的核心部件,它以精度高,运 算速度快、功耗小、灵活性大、可靠性好、易于集成等优点己越来越得到产品 开发工程师们的青睐。d s p 除了具备普通微处理器的特点外,针对实时数字信 号处理,在处理器结构、指令系统、指令流程上作了很大的改动【8 1 : ( 1 ) 采用数据总线和程序总线分离的哈佛结构或改进的哈佛结构,比传统 的冯诺依曼结构具有更高的指令执行速度。 ( 2 ) 内部有专门地硬件乘法器,大大加快了乘法运算速度。 ( 3 ) 采用流水线技术,即每条指令都由片内多个功能单元分别完成取指、 译码、执行等多个步骤,从而在不提高时钟频率的条件下减少每条指令的执行 时间。 ( 4 ) 支持并行指令,一个并行指令可以同时控制片内多个功能单元的操作, 比如单个周期可实现乘法、加法、减法、数据存储区读( 或写) 、程序存储区读 ( 或写) 五个操作。 ( 5 ) 具有多个d m a 通道,配合片内总线,数据块的传送效率可以大大提 高。 正是由于d s p 的上述优势,其应用范围不断扩大,d s p 芯片已成为目前产 量和销售量增长最快的电子产品之一。它的应用范围主要涉及到通信、语音处 理、图像处理、自动控制、仪器仪表、医学电子、计算机设备、消费电子、国 防军事等等。更重要是随着技术的进步和市场需求的增加,d s p 芯片的价格有 了大幅度的下降,使得一些d s p 应用成为可能。 1 3 本论文研究的主要内容 本文主要研究基于对象的视频压缩算法在d s p 上的实现,设计利用p h i l i p s 公司开发的t r i m e d i a 图像处理器p n - x 1 7 0 0 ,结合p h i l i p s 公司的视频采集芯片 s a a 7 1 1 3 实现数字视频采集与m p e g - 4 编码。p n x l 7 0 0 将采集到的数字视频通 过自身的视频显示协处理器利用p c i 总线传输到计算机显示适配器的显示帧表 面,实时显示视频图像。并且将当前压缩后的视频图像通过p c i 总线保存到计 算机的硬盘上,具体结构安排如下:第一章论述数字监控系统的现状和发展, 介绍d s p 技术的应用特点。第二章介绍视频压缩的基本原理和基于对象的 武汉理工大学硕士学位论文 m p e g - 4 视频压缩算法的框架和流程。第三章是文章的重点,介绍了基于对象的 和具体算法,第四章介绍了如何在p n x l 7 0 0 上实现具体算法以及在实际甚低比 特率下的算法控制,并给出相应的试验结果数据。最后一章阐述了整个系统的 硬件构架和数据传送流程。 4 武汉理工大学硕士学位论文 第2 章m p e g - 4 编码技术 任何图像压缩的最主要目标都是在保证一定图像质量的前提下尽可能提高 压缩效率,从而减少需要存储和传输的数据量。j p e g 、m p e g 1 2 、h 2 6 1 等都 是为了达到这个目的而制定的图像和视频压缩编码标准的成功典范。 尽管压缩效率是图像编码的重要目的,但随着i n t e r n c t 和多媒体技术的发展, 除了注重压缩比之外,在图像编码中融入其它功能,如图像分辨率、图像质量 的时间空间伸缩性、码率控制、误码隐蔽、交互性等变得越来越重要,这样可 以增加图像编码应用的灵活性和适应性。m p e g - - 4 正是为适应这一需求而制定 的多媒体视音频压缩编码标准。它是国际标准化组织( i s o ) 的活动图像专家组 m p e g i m o v i n gp i c t u r ee x p e r t sg r o u p ) 经过5 年的努力于1 9 9 8 年底制定1 9 9 9 年 初正式颁布的。 m p e g - 4 支持的功能有八种,可以分成三类。基于内容交互性、高效压缩、 灵活与可扩展性是m p e g - 4 的三个重要特征。 2 1 图像压缩编码的原理 一般说来,不论是静止图像还是运动图像,都含有很大的统计冗余量和主 观冗余量。图像编码的目的是通过分析统计冗余量和主观冗余量,来降低存储 和传送视频信息所需的比特数。香农信息论是图像数据压缩的理论基础,它给 出了数据压缩的理论极限和数据压缩的技术途径。以下是信息论中的一些基本 概念和理论。 信息量:假设一个信息源所产生的符号序列中的符号取自一个有限符号集, 符号集中的符号s 发生的概率为p ( s ) ,则其所携带的信息量i 为: i = l 0 9 2 0 p ) = 一l 0 9 2 0 ) ( 2 - - 1 ) 熵( 平均信息量) :离散无记忆信源中一个符号所携带的平均信息量h 定义 为 何= 一p ,) l o g :b ,) 】 ( 2 2 ) 仙农信息论己经证明,熵是离散无记忆信源进行无失真编码的极限,即对 武汉理工大学硕士学位论文 离散无记忆信源进行编码时所能得到的平均码长的最小值不会低于h 。 信息熵的大小与信源的概率模型具有密切关系。当m 个信源符号出现概率 相等时,即p ( s ,) = l m 时,其熵为最大h = l o g :m 。信源压缩编码的目的之一 就是在一定信源概率分布条件下,尽可能使编码平均码长接近信源的熵,减少 冗余。 如果信源不是离散无记忆的,前后出现的信源符号具有一定的相关性。 互信息量,( x ,y ) :假定信源符号x 出现的概率为尸g ) ,而信源符号y 出现 后又出现符号x 的条件概率为p ( x y 1 ,则互信息量 凇 y ) = 1 0 9 z 帮引 ( 2 _ 3 ) 联合熵: 日g ,y ) = 一p b ,y ,) l o g :p 托,y ,) ( 2 4 ) 条件熵: n ( x ly ) = 一p 阮,y ,) l o g :p ( 而iy 。) ( 2 5 ) 当x 和y 相互独立时,y 的出现丝毫不能减小x 的不肯定性。此时联合熵变 为两个独立熵之和,从而达到它的最大值。两符号间的相关性越大,冗余也越 大,因此数据压缩的基本途径之一就是去除联合信源中各符号间的相关性。 信息论中的率失真理论阐明了失真度与信道容量之间的关系,为限失真编 码奠定了理论基础。在传输中使信号的失真度小于或等于某一值d 所必须的信 道容最的最小值r ( d ) 称为率失真函数。率失真函数定义了在给定失真度量条 件下一,信源编码所能达到的比特率下限。率失真函数r ( d ) 和失真的度量标 准与信源的统计特性有着密切的关系。在图像处理与图像编码技术中,通常用 均方误差作为图像失真的度量标准。根据信息论的结论,在假设图像信源是正 态分布的条件下,率失真函数为 删= 一 ol l o g :苦】 ( 2 - 6 ) 其中:d 为允许的均方误差失真,盯为信号的方差。该式表明:所需传输 信号的方差越小、允许的失真越大,所需传输的比特率越低。可以证明:如果 图像信号为非正态分布的,则r ( d ) 的数值只会比上式中得到的数值更低。因 6 武汉理工大学硕士学位论文 此上式在给定信号功率和允许失真度的条件下,它给出了信源编码至少可以达 到的比特率下限。 由率失真理论可以看出,在给定信号允许失真度的条件下,为了减少图像 传输的比特率,应尽量减小传输信号的方差。图像压缩编码中所用到的图像预 测编码和图像变换编码,正是根据这一理论对原始图像进行适当处理,使处理 后图像信号的方差减小,最终达到压缩编码的目的。 2 2m p e g - 4 视频编码框架 传统图像编码方法依据香农信源编码理论的框架,将图像作为随机信号, 利用其统计特性来达到压缩目的。这种方法把视频序列按时间先后顺序分成一 系列的帧,每一帧的图像又分成宏块进行运动补偿和编码,未能考虑信息获取 者的主观意义和特性,也未能考虑事件本身的特性如具体含义、重要性以及后 果等等。 相比之下,m p e g - 4 并不满足于此,它的目标在于采用现代图像编码方法, 利用人眼的视觉特性,抓住图像信息传输的本质,从形状一纹理的思路出发, 支持基于视觉内容的交互功能。而实现基于内容交互功能的关键在于基于视频 对象的编码,为此m p e g - 4 引入了视频对象平面v o p 的概念。在这一概念中, 我们根据人眼感兴趣的一些特性如形状、运动、纹理等,将图像序列中每一帧 中的场景,看成是由不同视频对象平面v o p 所组成,而同一对象连续的v o p 称为视频对象v o 。对于输入视频序列,通过分析可将其分割为n 个v o ( n = l , 2 ,3 ) ,对同一v o 编码后形成v o p 数据流。 v o p 的编码包括对运动( 采用运动预测方法) 及纹理( 采用变换编码方法) 的编码,其基本原理与h 2 6 1 和m p e g 1 2 极为相似。由于m p e g - 4 基于内容图 像编码方法的v o p 具有任意形状,因此要求编码方案可以处理形状( s h a p e ) 和 透明( t r a n s p a r e n c y ) 信息,这同只能处理矩形帧序列的现有视频编码标准形成了 鲜明的对照。在m p e g - 4 中,矩形帧被认为是v o p 的一个特例,这时编码系统 不用处理形状信息,退化为类似于h 2 6 1 、m p e g 1 2 的传统编码系统,同时也实 现了与现有标准的兼容。从矩形帧到v o p ,m p e g - 4 顺应了现代图像压缩编码的 发展潮流,即从基于像素的传统编码向基于对象和内容的现代编码的转变。从这 个意义上讲,m p e g - 4 视频编码技术翻开了图像编码史上崭新的一页【1 9 1 。 7 武汉理工大学硕士学位论文 图2 1 基于对象的视频编码通用框架 在基于对象的视频编码中,编码的基木单元是对象,基于对象的编码主要 是针对纹理、形状、运动这三种信息的编码技术 9 1 。图2 1 所示的是可以对任意 形状的视频对象进行编码的通用框架。从图中可以看出,编码框架中主要包括 三个关键模块,即形状编码模块、运动编码模块和纹理编码模块。总的说来, 基于对象的视频编码过程可以分三步进行【1 1 】: ( 1 ) 从原始视频流中采用全、半自动及人工等方法分割出视频对象。 ( 2 ) 对视频对象进行编码,对不同视频对象的运动信息、形状信息和纹理 信息分配不同的码字。 ( 3 ) 各个视频对象的码流进行复合。 图2 2 给出了m p e g - 4 视频编解码器结构框图。这个编解码器最重要的特征 是基于v o 的本征表示来定义一个景物。事实上,在编码控制和组合单元可以加 入用户的交互控制,用不同的参数、不同的编码方法来选择不同的v o 进行编码, 甚至也可以选择某些v o 不进行编码。 图2 - 2m p e g - 4 视频编解码器结构 武汉理工大学硕士学位论文 为了实现视频标准所要求的功能,除了灵活有效的基于v o 概念的表示外, 编解码器的语法所使用的数据结构也需要认真设计【“。目前视频v m 在其语法中 使用了如下4 个层次的数据结构,如图2 3 所示,它们都以类的形式定义。 ( 1 ) 视频会晤( v s ) :v s 是包含其它三个类的一个类。一个完整的视频序 列可能由若干个v s 组成。 ( 2 ) 视频对象( v o ) :v o 是一个定义景物中具体物体的类,它是有生命 期的,是由时间上连续的许许多多的帧构成。物体可扩缩性就是通过使用v o 类 实现。 ( 3 ) 视频物体层( v o l ) :v o l 是一个增强v o 的时间域或空间域分辨率 的类。该类与时间域和空间域可扩缩性的概念有着密切的关系。 ( 4 ) 视频对象组( g o v ) :g o v 是若干个v o p 的组合体。 ( 5 ) 视频对象平面( v o p ) :v o p 是v o 在某一时刻发生的一个事例,即 某一帧v o 。 两个不同的v o p 可能属于两个不同时刻的同一个视频物体,而不一定属于 两个不同的视频物体。每个v s ( 即一段完整的视频) 由一个或多个v o 构成, 而每个v o 可能有一个或多个v o l 层次,如基本层、增强层等,每个层就是v o 的某一分辨率的表示。在每个层中,都有在时间上是连续的一系列v o p 。 图2 - 3v m 中数据结构分类 9 武汉理工大学硕士学位论文 2 3m p e g 4 形状编码 在过去,形状表述问题通常在计算机视觉、图像理解、计算机绘图领域进 行研究。m p e g - 4 首次把形状描述引入运动图像的编码,这意味着图像分析技术 对基于目标的视频编码将越来越显得重要。形状信息的获得首先要对图像进行 分析和分割( s e g m e n t ) ,把各个代表不同内容的目标分割后再用形状表示。形状 信息通常用二值a l p h a 平面和灰度a l p h a 平面来表示。二值a l p h a 平面可用上下 文信息进行算术编码( c a e ) ,而灰度a l p l l a 平面可用运动补偿加d c t 变换类似 纹理编码( t e x t u r ec o d i n g ) 的方法进行编码。m p e g - 4v m 中对形状信息有两种 编码方法,如图2 4 所示。 图2 4m p e g - 4 中形状编码方法 形状编码的算法大致可以分为三类:基于位图的算法( b i t m a p - b a s e d ) 基 于轮廓的算法( c o n t o u r - b a s e d ) ;隐含的算法( i m p l i e t ) 。算法的分类以及其主要 代表如下。 表2 1 几种主要的形状编码代表算法 算法分类代表算法 基于位图 仆很,c a e 基于轮廓v e r t e x ,b a s e d l i n e 隐含算法 c h r o m a - k e y c h r o m a - k e y 算法首先要把编码的物体形状之外的区域涂成统一特征颜色, 然后把特征颜色填充的整个图像按照颜色编码的方法来编码。在解码端,首先 解出重建的特征颜色填充图像,然后将具有特征颜色的区域去掉,剩下的就是 1 0 芋蒸函测菱 武汉理工大学硕士学位论文 重建的物体形状。这种算法的稳定性和编码效率都不好, 种方法进行编码。 基于轮廓的形状编码算法主要有两种:节点法 ( b a s e d l i n e ) 。v e r t e x 总体性能比b a s e d l i n e 好。 现在已经很少采用这 ( v e r t e x ) 和基线法 基于位图的形状编码主要有m m r ( m o d i f i e dm o d i f i e dr e e d ) 法和c a e ( c o n t e x t - b a s e d a r i t h m e t i ce n c o d i n g ) 。总的来说,c a e 算法性能比m m r 稍好。 v e r t e x - b a s e d 形状编码主要编码形状的轮廓信息,在编码过程中物体的形状 通过多边形来近似,因此这种编码是一种有损压缩编码。进行v e r t e x b a s e d 形状 编码,首先需要找出形状信息的最长轴,并在这条轴上取两个形状信息顶点, 这两个定点使得两点包含最多形状信息,初始化为一个多边形。接下来判断原 始图像轮廓形状与多边形最近一条边之间的距离,如果距离超过一个门限d t h , 就需要加入一个新的顶点。重复这个步骤,直到多边形的边与原始形状之间的 误差达到允许范围,最后对多边形进行编码。这种方法主要依靠编码器的大量 计算,编码效果的好坏主要看多边形顶点选择情况。优点是在失真较大的情况 下编码效率高,缺点是计算量大。 b a s e d l i n e 形状编码也是对物体轮廓信息进行编码,与v e r t e x - - b a s e d 不同的 是这种编码方法首先将物体的形状放在一个2 d 系统内,取物体形状在x 轴方 向上的投影( x 轴称为基线) ,所需编码内容就是物体轮廓上的点与基线之间的 距离。b a s e d l i n e 形状编码的过程是这样:首先对物体轮廓沿顺时针方向抽样, 找出翻转点位置,由编码端对传输翻转点的位置信息进行编码并传输,接下来 分别对两个相邻翻转点之间的物体轮廓的抽样进行编码传输。解码端首先对翻 转点位置信息进行解码,结合该位置信息对物体轮廓抽样解码重建对象的形状 信息。这种算法的优点是算法简单,缺点是编码效率低。 伽t 形状编码是基于宏块的形状编码,它与上述两种形状编码有着本质区 别。m m r 是直接对形状位图进行编码,这种编码技术也应用于传真机中。m m r 形状编码首先找出颜色变化像素( 从不透明到全透明或者相反) ,然后计算当前 变化像素与参考区域变化像素之间的距离。最后对距离信息采用水平方式、垂 直方式、垂直移动方式进行编码。 武汉理工大学硕士学位论文 第3 章形状编码原理及其实现 3 1 二值形状信息分割 在多种形状编码方法中,m p e g - 4 根据编码方法的效率、有失真情况下的主 观质量、软硬件实现的复杂度、在可分级的编码条件下的性能、帧间预测是否 容易实现、对物体边缘轮廓的封闭性和剧烈起伏的敏感性程度等方面综合考虑, 采用了基于上下文算术编码算法工具对二值形状信息进行编码。下面就详细介 绍m p e g 的二值形状编码实现过程。 二值形状编码是一种基于1 6 1 6 的b a b ( b i n a r y a l p h a b l o c k ) 宏块的编码 方法。二值a l p h a 平面只有2 5 5 和0 这2 个灰度级别。对于一个具体的图像采样 点,用l 表示灰度2 5 5 以示其在目标内,用0 表示灰度0 以示其在目标外。这 样用“1 ”,“0 ”编码就可以表示目标的形状。 在对形状信息编码的时候,首先需要划分v o p 。 个v o p 的大小是由一个边长为1 6 倍数的矩形界框( b o u n d i n gr e c t a n g l e b o x ) 定义。一个二值a l p h a 平面首先分成多个1 6 x1 6 子块,每个子块称为二值 a l p h a 块( b a b ) 。对于给定v o p 的二值形状图需要重新确定形状边界,新边界 的确定原则如下: 图3 1 v o p 形状图 ( 1 ) 边界框必须是由1 6 1 6 的b a b 块组成。 围边框 武汉理工大学硕士学位论文 ( 2 ) 边界框左上角点的绝对位置坐标必须是偶数。 ( 3 ) 必须使对于v o p 形状有贡献的b a b 块数目最少。 在已经确定b a b 块后,如果该v o p 是b v o p ( 与前后帧相关) 或者p - - v o p ( 只与前一帧相关) ,那么需要对待编码的b a b 进行运动估计,得到运 动矢量m v s ( m vf o rs h a p e ) ;如果该v o p 是i - - v o p ( 与前后帧无关) ,则不需 要进行运动估计。 形状m v 二值宏块 m v 2m v 3 m v l 、对应 图3 2 运动矢量预测 在m p e g - 4 中,m v s 被分成两个部分:m v $ = m v p s + m v d s 。首先需要 确定m v s 的预测m v p s 。m v p s 可以在当前b a b 块的左边和上边的b a b 块的 m v s l 、m v s 2 、m v s 3 中选取s a d 值最小的。形状和纹理运动矢量预测m v p s 选择如图3 - 2 所示。随后需要确定m v d s 。如果m v p s 所指向的b a b 块与当前 b a b 块的残差绝对值之和s a d 在指定范围之内,那么可以认为m v d s 为0 ;否 则就需要在m v p s 所指定b a b 块附近搜索,获得m v d s 。 每个a l p h a 块共有1 6 x1 6 = 2 5 6b i t 。这2 5 6b i t 可以通过块的基于上下文算 术编码( c a e ) 和运动补偿算法进行压缩编码。在编码之前我们要视具体情况 选择适当的编码方式,二值形状编码方式选择如表3 1 所示。 表3 - 1 二值形状编码选择方式 b a b 类型编号编码方式使用范围 om v d s - 一- 0 & & n ou p d a t ep v o p ,b v o p lm v d s ! = 0 & & n ou p d a t ep v o p ,b v o p 2 t r a n s p a r e n t ( 透明模式)所有v o p 类型 3 o p a q u e ( 不透明模式)所有v o p 类型 4i n t r a c a e所有v o p 类型 5m v d s = 0 & & i n t e r c a ep - v o p ,b v o p 6m v d s ! = 旬& & i n t c r c a ep v o p ,b v o p 武汉理工大学硕士学位论文 其中类型l 和类型6 需要要进行运动估计和补偿,并且运动矢量要进行预 测编码。其预测值由环绕本m b 的形状m v ( m v s ) 和纹理m v 决定。m p e g - 4 二值形状编码流程方框图如图3 3 所示。 在编码过程中,为了迸一步提高编码质量,可以利用b a b 块质量评估函数 a c q 来确定b a b 块编码的具体方式,其函数原形描述如下: 图3 - 3 二值形状编码流程 b a b 块大小为1 6 1 6 ,将其进一步分为4 4 的p b ( p i x e lb l o c k ) 块。这 样一个b a b 块可以分成1 6 个大小为4 4 的子块,定义可接受质量函数为a c q ( b a b ) = r a i n ( a e q l ,a c q 2 ,a e q 3 ,a c q l 6 ) ,其中当每个子块的s a d 值 s a d _ p b i 大于1 6 x a l p h a _ t h 时,该块的a c q i 为o ,否则a c q i 为l 。 块编码方式选择算法描述如下: i f ( a c q ( b a b 0 ) l la c q ( b a b 2 5 5 ) ) b a b 的像素值全部是0 或者2 5 5 i f ( # o p a q u e _ p i x d = 1 2 8 ) m o d e 2a l l 2 5 5 ; e l s em o d e = a l l0 : e l s e 1 4 b a b 的像素值不全部是0 或者2 5 5 武汉理工大学硕士学位论文 i f ( v o p f 旧ef - i - v o p ) 不是i 帧 i f ( a c q ( b a b 0 ) )m o d e = a l l ,_ 0 ; e l s ei f ( a l l 0 ( m cb a b ) ) m o d e = c o d e d ; e l s ei f ( ! a c q ( m cb a b ) ) m o d e = c o d e d ; e l s ei f ( a c q ( b a b 2 5 5 ) & & ( i n v d s ! = oi i ! a c q ( m c _ b a b ) ) ) m o d e2 a l l _ 2 5 5 ; e l s ei f ( a l l 2 5 5 ( b a b ) & & ! a l l 2 5 5 ( m cb a b ) ) e l s e ) e l s e i f ( a c q ( b a b 0 ) ) e l s ei f ( a c q ( b a b 2 5 5 ) ) e l s e m o d e 2 a l l _ 2 5 5 ; m o d e = n o t _ c o d e d ; ,该帧为i 帧 m o d e = a l l ; m o d e = a l l - 2 5 5 ; m o d e = c o d e d ; , ) 其中a c q ( b a b x ) 表示b a b x 的可接收质量,a l l 0 ( b a b x ) 表示b a b x 块编码方式为a l l0 。a l l 2 5 5 ( b a b x ) 表示b a b x 块编码方式为a l l2 5 5 ; b a b 0 表示该b a b 的像素全部为0 ;b a b 2 5 5 表示该b a b 的像素全部为2 5 5 。 m o d e 为c o d e d 表示使用i n t r a c a e 或者i n t e x c a e 编码方式,m o d e 为 n o tc o d e d 表示使用m v d s = = 0 & & n ou p d a t e 或者m v d s ! = o & & n o u p d a t e 编码方式。 在确定b a b 编码方式之后,需要对编码的b a b 确定分辨率,进行码率控 制。由于形状编码的比特数主要取决于进行算术编码的块。因此,对m p e g - 4 的形状编码速率控制主要是通过对算术编码块的尺寸进行变换( 如图3 - 4 所示, c r 代表尺寸变换的比例因子) 和调节允许失真门限参数a l p l l am 来实现的,也 就是代表尺寸变换的比例因子和失真门限参数可以看作是虚的量化系数。 武汉理工大学硕士学位论文 m 图3 - 4b a b 块尺寸变换 尺寸变换分为两种:编码时采用降采样变换把1 6 1 6 的块变成8x8 或4 x 4 的小块控制码率,在解码时则进行相应的升采样把8x8 或4 x 4 的小块还 原成1 6 1 6 的块。经过降采样后的b a b 大小为1 6 x 1 6 、8x8 或4 x 4 ,其中 的像素数据可以进一步进行数据压缩。 图3 - 5c r 算法框图 形状编码的控制方法是根据给定的允许失真门限参数来决定块的尺寸变换 的比例因子,即在固定的尺寸变换的比例因子下,根据判断准则来决定其尺寸 1 6 l+ 军 武汉理工大学硕士学位论文 变换后二值块的质量是否为可接受质
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 新学期(2026年秋)高三教研组工作计划
- 2026年秋季开学初中二年级数学教务处工作计划
- 立德树人 2026年秋季高二物理班级建设方案
- 2026年陕西省铜川市中小学编制教师招聘考试备考题库及答案详解
- 2025年塔城地区乌苏市事业编单位人员招聘考试试题及答案详解
- 2025年广西壮族自治区玉林市事业编单位人员招聘笔试试题及答案详解
- 2025年福建省龙岩市事业编单位人员招聘笔试试题及答案详解
- 2026年河源市源城区中小学编制教师招聘考试参考题库及答案详解
- 以爱育爱 2026-2027学年第一学期八年级语文班级建设方案
- 2025年铜陵市郊区事业编单位人员招聘考试试题及答案详解
- 2025年湖北省孝感市事业单位人员招聘考试试题及答案详解
- 2024-2025学年广东省深圳市龙岗区北师大版五年级下册期末数学试卷(完整试题+详细解析)
- 2026云南师范大学能源与环境科学学院招聘科研助理岗位工作人员5人备考题库及参考答案详解1套
- 大型工业吊扇销售合同
- 2026云南临沧国投宏华招聘综合业务开单员3人备考题库及答案详解(必刷)
- 公路水运工程试验检测师《水运材料》考前冲刺题库500题(含答案)
- 2024届广州天河区五年级数学第二学期期末调研模拟试题含解析
- 2024年港口流体装卸工职业技能竞赛理论考试题库-上(单选题)
- 医疗器械挂靠协议范本
- (MHT)中学生心理健康诊断测验
- 人教部编版七年级道德与法治上册让友谊之树常青23张
评论
0/150
提交评论