




已阅读5页,还剩44页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着经济和社会的发展。人们对实时视频传输的需求不断增加,有限的网络带宽和巨 大的视频数据量的矛盾日益加剧,因此低速率视频甚低速率视频编码越来越受到人们的关 注,自1 9 9 3 年i t u 草案建议h 2 6 3 以来i s 0 和i t u t 陆续推出了i s 0 - m p e g 4 肝e g 7 和h 2 6 4 多种低速率视频压缩标准。然而这些标准往往达不到甚低速率视频传输的要求( 大约1 0 b p s 左右,因此基于模型的编码技术成为最近研究的热点之一。实际上这种编码按术是利用图 像对象的先验信息对编码图像对象建立模型,通过提取模型参数,最终对参数进行编码而 不对图像直接进行编码因此可以得到非常高的压缩比率。 本论文首先介绍了基于模型的图像序列编码技术的基础原理,然后详细讨论了各种实 现算法中的具体步骤,对三维运动和结构估计中所需的基础一特征点的标定提出了一种简单 有效的解决方案。为了减少计算的复杂程度。本文在第四章提出了一个新的三维网格模型 以及基于此模型的运动图像恢复算法,同时加入了场景内光源强度和方向因素的影响,给 出了仿真结果,并讨论了下一步需要进行的优化工作。 关键词:甚低速率视频编码,基于模型的编码技术,三维运动和结构估计,三维网格模型 东南大学顶:t 论文 a b s t r a c t i nt h em o v e m e n to fe c o n o m ya n ds o c i e t y , i n c r e a s e ds t e a d i l y a sar e s u l t ,t h ec o n f l i c t t h ed e m a n df o rr e a l t i m ev i d e od a t at r a n s p o r t a t i o n b e t w e e nt h ei i m i t e dn e t w o r kb a n d w i d t ha n dt h e e n o r m o u sv i d e od a t ab e c a m em o r ea n dm o r e i n t e n s e l ya n dp e o p l ea r cm o r ea n dm o r ei n t e r e s t e di n t h el o w v e r yl o wb i t r a t ev i d e oe n c o d i n g i s oa n dl t u th a v ep r e s e n t e ds e v e r a l l o wb i t - r a t e v i d e oc o m p r e s s i o np r o t o c o l ss u c ha si s o m p e g 4 删p e g 7 ,h 2 6 4 ,e t cf r o m1 9 9 3w h e ni t u p r o p o s e dt h eh 2 6 3p r o t o c o l s r e c e n t l yt h em o d e l - b a s e dc o d i n gt e c h n o l o g yd r a w sm u c hm o r e a t t e n t i o nb e c a u s ee n c o d i n gv i d e od a t au n d e ra b o r ep r o t o c o l so f t e nc a nn o tm e e tt h ed e m a n df o r t h ev e r y l o w b i t - r a t e ( a b o u t l 0b p s ) t r a n s p o r t a t i o n u s i n g t h e m o d e l b a s e d c o d i n g t e c h n o l o g y , f t r s t , am o d e l i sc o n s t r u c t e db a s e do na n t e r i o ri n f o r m a t i o no f t h e i m a g e t h e nt h em o d e ip a r a m e t e r sa r e o b t a i n e da n de n c o d e d b e c a u s et h ee n c o d e do b j e c ti sp a r a m e t e rn o ti m a g e ,v e r yh i g hc o m p r e s s i o n r a t ec a l lb ea c h i e v e dw i t ht h em o d e l 。b a s e dc o d i n gt e c h n o l o g y i nt h i s p a p e r , t h ee l e m e n t s o fm o d e l - b a s e dc o d i n gt e c h n o l o g yf o r i m a g es e q u e n c e s a r e p r e s e n t e df i r s t t h e l l s e v e r n lc o n v e n t i o n a la l g o r i t h m sf o rm o d e l - b a s e dc o d i n ga r ed i s c u s s e di n d e t a i la n das i m p l ea n de r i e c t i v em e t h o df o rd e t e r m i n i n gt h ep o s i t i o n so ff e a t u r ep o i n t sw h i c h s h o u l db ek n o w nb e f o r e3 - dm o t i o n a n ds t r u c t u r ee s t i m a t i o ni sp r o p o s e d i no r d e rt os i m p l i f yt h e c a l c u l a t i o nd u r i n gm o d e l - b a s e dc o d i n g an e w3 一df r a w em o d e lf o rf a c ea n dar e c o n s t r u c t i n g a l g o r i t h mb a s e do ni ta r ep r e s e n t e dj nc h a p t e r4 a l s ot h ep h o t o m e t r i ce f f e c t sa r ee o n s i d e i e da n d t h es i m u l a t i o nr e s u l t sa r eg i v e no u t i nt h ef i n n lp a r to f t h i sp 卵e r ,f u t u r ew o r kj sd i s c u s s e d k e yw o r d :v e r yl o wb i t - r a t e v i d e oc o d i n g ,m o d e l b a s e c o d i n g ,3 - dm o t i o na n ds t r u c t u r e e s t i m a t i o n ,3 - df l a m em o d e l 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 研究生躲毕日期:挫 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位 论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人 电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论 文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包 括刊登) 授权东南大学研究生院办理。 一躲平翩繇弛一 东南大学硕士学位论文 第一章绪论 近年来,随着经济的发艘、通信技术的日益提高客户已不仪仪满足于语音、电报、电子 邮件等的通信方式,对视讯业务的需求呈迅猛发展的趋势。正是基于上述需求,涉及全运动 ( f u l lm o t i o n ) 数字视频的产品和服务正取得显著的进展例如在数字视频硬件方面的进步 和有关数字视频压缩国际标准的制定,已导致各种桌面数字视频产品的推出,它们的出现是 该领域正趋于成熟的重要标志之一。相信在不久的将来,会有更多的产品以数字电视、多媒 体通信以及娱乐平台的形式出现。因此数字视频必将对计算机、电信及图像应用产生重大的 经济影响。毫无疑问,作为一个专门的研究领域、始于二十世纪7 0 年代的数字视频处理技术 已经在这些产品的开发方面发挥了关键的作用并将在将来发挥更太的作用。实际上,数字视 频处理技术中的两项关键是数字视频硬件和处理算法。而这两方面的进展是密切相关的,硬 件的局限性使得实时图像处理不一定能达到令人满意的水平。而视频处理算法的进展则部分 地突破了硬件的局限性使得全运动数字视频成为现实。 如今妨碍数字视频广泛应用的主要瓶颈是数字视频系统对巨大的存储量及传输带宽的 需求。这是因为数字视频要求比别的数据流( 例如数字音频) 大得多的码率和带宽。c d 质量 级别的数字音频用1 6 位采样来表示,其需要的采样率为4 4 i k h z ,这样最终的码率大概是 1 4 m b p s 。相比之下一个高清晰度电视信号( 如:a d - h d t v ) 需要每个亮度帧( 1 u m i n a n c e f r a m e ) 为1 4 4 0 像素行和1 0 5 0 行、每个色度帧( c h r o m i n a n c ef r a m e ) 为7 2 0 像素行和 5 2 5 行。我们对每个信道采用3 0 帧秒、8 位像素,其结果的码率将达到约5 4 5 _ b p s ,与上 面提到的高保真数字音频数据相比,数字视频所占用传输带宽是非常惊人的。因而,数字视 频能否“生存”的关键就在于如何有效地对其进行压缩,这也是本文研究的重点。 1 1 视频压缩编码技术的研究背景及发展概况 数字视频处理涉及到数字比特流的产生。如今我们所熟悉的数字视频的应用均需要为数 据压缩而做数字处理。此外,某些应用领域可能得益于“运动分析、变换算法、增强及恢 复”等附加处理,以期获得更优质量的图像或从中抽取某些特殊信息。 早在6 0 年代,静态图像的数字处理已经用于军事、商业贸易及消费领域。夜视、场景监 视图像、太空飞行、磁共振图像以及传真机都是一些应用的实例。数字视频处理不同于静止 图像的地方是:视频包含了很多帧间瞬时的相关因素( 冗余度) 。当然也可以把视频当作一 个静态图像的序列来处理,其间各1 9 贞的处理相对独立。但是这样的话对存储空间和传输带 宽的要求将相当高。然而借助多帧处理技术所产生的瞬时冗余度就可以使我们去开发更有效 的算法,如:运动补偿预测( m o t i o n c o m p e n s a t e dp r e d i c t i o n ) 和运动补偿滤波( m o t i o n c 。m p e n s a t e df i l t a r i n g ) 等。此外,某些工作,例如运动估计( m o t i o n e s t i m a t i o n ) 或对 一种时变的场景分析,显然不能在一幅单一的图像的基础上完成。 数字视频信息可以进行压缩,首先是因为视频序列本身在时问、空间上是高度冗余的, 击除相同信息的重复表示,可以大大减少信息的发送量,从而实现数据压缩。通常,视频数 据本身存在这样几种冗余【l 】: 空间上的冗余:视频图像同一帧内相邻象素之间存在着很大的相关性,研究表明,图像 帧内的行、列相邻点之间的相关性可以达到09 以上: 东南大学硕士学位论文 时间上的冗余:视频序列前后帧之间存在着较大的相关性,研究表明活动图像相邻帧 同一位置上前后样值的相关性( 帧间相关性) 也达到0 9 以上。有人统计了l 加o p s 的可视电 话,发现前后相邻帧平均只有4 的象素发生变化; 符号表示上的冗余:根据信息论,使用相同的码长来表示不同概率出现的符号会造成比 特数的浪费、熵的增加。 对数字视频信息进行压缩,还可以利用人跟的视觉特性。在许多情况下,人跟往往是图 像信息的最终接收者,而人的视觉系统( h v s ) 对于某些失真并不敏感。那么,即使处理后的 图像产生了一定程度的失真,只要人眼对于这些失真并不敏感,那么,这些失真就是可以接 受的。因此,可以利用这些特点对图像进行可以获得较大压缩比的有限失真编码。 例如,人眼对颜色的空间分辨率低于对亮度的空间分辨率,就可以利用这一点把输入色 度信号的空间分辨率减半,而不会影响人跟观察到的图像质量;再比如,人眼对于静止图像 的分辨率高于活动图像,利用这一特点,在对帧间进行编码时,量化因子可以适当加大,以 增加压缩比,对于由此引起的帧问帧的细微差别,人眼不易察觉。 此外,还可以利用先验知识进行编码,即模型编码,实际上 h 用的是知识的冗余度。利 用对象的先验知识对编码对象建立模型,通过提取模型参数,对参数进行编码而不对图像直 接进行编码,可咀得到非常高的压缩比。 随着数字视频的不断应用和普及,相应地出现了各种视频压缩标准,其中最主要的有由 国际电信联盟( i t u :i n t e r n a t i o n a lt e l e c o m m u n i c a t i o nu n i o n ) 提出的进行与通信相关的 低码率视频压缩标准,如h 2 6 、h 2 6 3 、h 2 6 4 等:另一个是国际标准化组织u s o : i n t e r n a t i n n a lo r g a n i z a t i o nf o rs t a n d a r d i z a t i o n ) 提出的进行多媒体信息的存储与搔放标 准,其中既包括对于视频信息的压缩与播放,也包括对于音频信息的存储与传输如m p e g 一 1 、m p e g 一2 、m p e g - - 4 。数字化视频压缩格式的标准化简化了以计算机数据形式对全运动视频 进行处理和存储的过程,以及在现有和未来计算机网络上或者通过地球上的广播信道进行传 输的过程。数字化视频压缩标准现在及将来的应用范围包括全数字化t v 、视频会议、可视电 话、视频邮件、多媒体工作站、数字化电影、视频游戏以及其他形式的娱乐和教育节目。表 卜1 简单表述了视频编码技术的发展过程。 表i - i 视频编码技术的发展 1 9 4 8 年提出电视信号数字化 。 5 0 、6 0 年代对帧内预测、亚抽样复原算法进行研究 1 9 6 8 芷提出变换编码 1 9 6 9 年进行线性预测编码的实验 7 0 年代对帧问预测进行研究 8 0 年代对运动补偿进行研究 1 9 9 0 在推出i t u t 的h 2 6 1 视频编码标准 1 9 9 3 年推出m p e g l 视频编码标准 1 9 9 5 短推出i t u l 的h 2 6 3 建议 1 9 9 8 年 推出m p e g 4 和m p e g 7 视频编码标准 2 0 0 3 盆推出i t u - t 的h 2 6 4 视频编码标准 2 东南大学硕士学位论文 另一方面,视频编码技术的发展还受到硬件发展水平的制约,只有在硬件的数字处理功 能足够强的时候,数字视频编码算法才可能由理论变为实现。通常,在一块c p u 芯片上集成 的晶体管数目越多,c p u 芯片的运算处理能力就越强。表i - 2 显示了单个芯片上集成的晶体 管数目的增长。 表卜2 集成电路技术的发展 1 9 7 1 矩第一块微处理器4 0 0 4 ,大约3 0 0 0 个晶体管 1 9 7 4 芷 8 位微处理器8 0 8 0 大约9 0 0 0 个晶体管 1 9 7 8 焦1 6 位微处理器8 0 8 6 大约5 万个晶体管 1 9 8 1 年8 0 2 8 6 ,1 2 5 万个晶体管 1 9 8 8 芷3 2 位微处理器8 0 3 8 6 ,5 0 万个晶体管 1 9 8 9 年微处理器8 0 3 8 6 ,1 2 0 万个晶体管 1 9 9 3 笠高性能p e n t i u m 微处理器,3 1 0 万个晶体管包括 x 多媒体指令集 然而由于互联网络和通信技术的飞速发展,各种服务业务的不断产生,有限的网络资源 尤其是传输带宽显得越来越宝贵。因此低速率的视频( 低于6 4 k b p s ) 应用日益增长,特别是 在移动视频通信方面。基于上述要求i s o m p e g 一4a d h o c 小组和i t u - t l b c ( 低速率编码专家 组) 已在1 9 9 3 年开始进行低速率编码标准化的研究工作。由于迫切需要提供个通用的通信 平台,使得不同厂家的各种协议( 采用现有的技术) 间可以进行通信,并且需要不同的基本 技术来提供性能改进和嵌入功能,自1 9 9 3 年i t u 草案建议h 2 6 3 以来,陆续推出了i s o m p e g 4 m p e g 7 和 l2 6 4 多种低速率视频压缩标准。 随着人们对甚低速率数字视频( 大约1 0 b p s 左右) 兴趣的不断增长,并且在这样的甚低 速率下用混合波形编码器如c c i t t 建议的h 2 6 1 h2 6 3 编码器不能提供满意的图像质量,因 此科学家们对种新的基于结构化模型的压缩方法即基于模型的分析一综合编码技术越来越有 兴趣,实际上这种压缩方法是利用图像对象的先验知识对编码图像对象建立模型,通过提取 模型参数,最终对参数进行编码而不对图像直接进行编码,因此可以得到非常高的压缩比 率。正是因为在保证一定图像质量的前提下有着相当高的压缩比率,基于模型的编码技术成 为最近研究的热点之一,同时也是本文下面所要阐述的重点。 1 2 时变图像构成模型 在本节中,我们用一个具有3 个连续变量的函数s c ( x ,y ,t ) 来表示一个时变圈像。 j 。( x ,儿t ) 是将一个时变的三维空问场景投影到二维图像平面而形成的。三维场景随时间而 变化通常是由于该场景中实体的运动所致。因而时变图像可以理解为三维运动实体向二维图 像平面的一个投影,该投影是时间的函数。数字视频对应于这种时变图像的时空采样类型。 图卜i 是表示时变图像构成模型的方框图。 东南大学硕士学位论文 1 2 1 三维运动模型 图卜1 数字视频的构成 根据经典运动学,三维运动可以划分为刚体运动和非刚体运动。在刚体运动的情况下, 一组三维点之间的相对距离随着实体在时间上的推进而保持不变。即可以用若干无形变表面 ( 平面( p l a n e ) 、分段平面( p i e c e w i s ep l a n e ) 或者多项式表面( p o l y n o m i a l s u r f a c e ) ) 来近似运动实体的三维表面结构,实现对运动实体的三维建模。如果整个场景由 单个三维剐性实体组成,则用一组运动和结构参数来对相关的三维运动建模就足够了,例如 在视频电话中人脸几乎就是唯一的视频运动对象。在场景中存在相互独立运动的多个刚性实 体的情况下,则需要用一组不同的参数来描述各个刚性实体的运动。而在非刚体运动的情况 下( 例如人脸的某些表情) ,使用可变形的表面模型来对三维结构建模是必要的。 在笛卡尔坐标系下,一个刚体的三维位置可以用下式来建模 2 : x = 似+ r( 1 1 ) 其中盈是三阶旋转矩阵,f 是三维平移矢量也就是说,三维运动可以表示为个三维旋转 和一个三维平移的和。 三维空问中的一个任意旋转可以分别用相对于爿,y ,z 旋转的欧拉( e u l e r i a n ) 角: 目,p 及来表示,参见图卜2 。相对各自轴逆时针旋转的矩阵如下: r 。= 1o0 0c o s 毋一s i n 矽 0s i n 口c o s 臼 c o s 0s i n 妒 olo s i n y 0 c o s 矿 4 ( 1 2 ) ( 1 3 ) 东南大学硕士学位论文 lc o s r d = ls i n 1 0 z 圈卜2 旋转的欧拉( e u l e r i a n ) 角 ( 1 4 ) 驴? 0 1 r 10 d y 砩= l olo l l a g r 01 j 驴盯司 g = r 口r 。心 们副 渺 出0 - c 东南大学硕士学位论文 1 西 一沙 一矗西 l 日 眵 一口 1 ( i 5 ) 对非刚体的三维结构和运动的建模是一件复杂的工作。利用变形体模型对非刚体运动的 分析和综合是当今很活跃的研究领域。理论上,根据变形体的力学原理 3 ,为了包含三位非 刚体运动,可以将模型表达式( 1 1 ) 扩充为: x 。= ( d + r ) x + t ( 1 6 ) 其中d 是一个任意的变形矩阵,值得注意的是:旋转矩阵的元素仅限于与各自角度的正弦 和余弦相关,而变形矩阵并无任何限制。一个三维非刚体模型的简单情况是经柔性连接的刚 性插件,如一种线条框架模型,其间允许变形节点( 所谓局部运动,适合描述大部分的面部 表情) 。由于三维变形运动不是本文的重点,加上篇幅的限制,在此不再赘述。 1 2 2 几何图像的构成 4 在这里我们认为图像系统实际上是捕获一个时变三维场景的二维投影。这种投影可以用 一个从四维空间到三维空间的映射来表示: f :r 4j r 3 ( 盖,y ,z ,t ) j ( x ,弘) ( 1 7 ) 其中( x ,y ,z ) 为三维全局坐标,( z ,y ) 为二维图像平面坐标。t 为连续时间变量a 以下我们 考虑两种类型的投影:透视投影和正交投影。 、 透视投影 y 图l 一3 透视投影模型 6 东南大学硕士学位论文 透视投影使用一种基于几何光学原理的理想小孔摄像机来反映图像的形成。因此所有从 实体出发的光线均通过投影中心它对应于透镜的中心。因而又被称作“中心投影”。当投 影中心位于实体和图像平面之间时,透视投影如图卜3 所示,且图像平面与该全局坐标系统 的一y 平面相一致。 图卜3 中透视投影模型可以用式( 1 8 - 1 9 ) 来表述: 三:一二生( 1 8 ) fz f yy fz 一 ( 1 9 ) 其中,为投影中心至图像平面的距离,( ,r ,z ) 为实体点的三维全局坐标,( z ,y ) 为图像点 在图像平面上的二维坐标。 如果移动投影中心使得它与全局坐标的原点一致这时式( 1 8 ) 、( 1 9 ) 就简化为式 ( 1 1 0 ) 和( 1 ,1 1 ) ,图l 一4 给出了获取这些表达式所用的结构和相似三角形: z :竺( 1 1 0 ) y 2 芎 多 弋厂7 弋y f ( z 。,r z ) ,( x y ,z ) 二、 正交投影 图卜3 简化的透视投影模型 东南大学硕士学位论文 正交授影是实际图像处理的一种近似方法,在正交投影下假设所有从三维实体出发到图 像平面的光线是相互平行的。因此又被称作“平行投影”。本文中假定图像平面和全局坐标 系统的一y 平面相平行,如图卜5 所示。 假定图像平面平行于全局坐标系统的x 一】,平面后,正交投影就可以用笛卡尔坐标系统 描述如下: 或者用矩阵表示为 其中( x ,y ,z ) 为实体点的三维全局坐标,( x ,y ) 为图像点在图像平面上的二维坐标。 ( 1 1 2 ) ( 1 ,1 3 ) 图卜5 正交投影模型 虽然摄像机到实体的距离并z ;影响正交投影中图像平面的图像强度分布,即不管实体距 离摄像机有多远,实体总是可以产生相同的图像。但是当实体与摄像机问的距离远超过实体 上的点相对于实体自身的坐标系统的深度时,正交投影将可以提供更好的近似度。在这样的 情况下,正交投影通常宁可用复杂一些,但更实际的模型,因为它属于线性投影,而且容易 推导出代数和计算上较易处理韵算法。 1 2 3 光度学图像的构成 图像的强度可以被仿真成与场景中的实体反射的光线密度成比例,一般情况下假设场景 反射作用包含了一个朗伯表面和一个镜面分量。本节主要讨论表面反射问题,镜面分量被忽 略不计。 一、朗j 自( l a m b e r t j a n ) 反射模式 8 x y z r,州wq玎j 叫 y 0 ,rl r = f f 叫 * b 东南大学硕士学位论文 如果用一个带有瞬时均匀强度的单个点光源去照射朗伯表面,则可以得到相应的图像亮度 s 。( x ,y ,f ) = p n ( t ) ( 1 1 4 ) 其中p 表示平面反射率,即经由该平面反射的光的百分比,l = ( 工l ,l 2 ,l 3 ) 是点光源平均发 光方向上的单位矢量,( f ) 是在空间位置( x ,y ,z ( x ,y ”上和时间t 的场景的单位表面法 线,可以表示为; 面( f ) = ( - p ,一g ,1 ) ( p 2 + 9 2 + 1 ) 1 7 2 ( 1 1 5 ) 其中p = o z o x ,g = o z o y 即:正交投影下深度z ( x ,y ) 分别相对于图像坐标z ,y 的偏 导数。图1 6 描述了相应于一个静态平面的光度学图像形成。 平均发光方向还可以用摆角和倾斜角来表示 6 : 三= ( i ,l 2 ,l 3 ) = ( c o s r s i n o - ,s i n r s i n ( r ,c o s 口) ( 1 i 6 ) 其中r 为亮度的摆动角,它是三和x z 平面之间的夹角,而倾斜角盯是位于三- 与e z 轴 之间的夹角。 图卜6 光度学图像形成模型 光湄 二、三维运动图像的光学效应 当一个实体在三维空间运动时,通常将其表面变化看作为一个时间的函数,从而得到该 表面的光度学属性。假设平均照明方向保持不变,我们可以将由于运动的光度学作用而应 起的图像强度变化表示如下: 如。( x ,y ,r ) 新 9 五d n ( o 国 ( 1 1 7 ) 东南大学硕士学位论文 在点( z ,y ,z ) 处法线矢量的变化率可以近似的表示为 一 出血 ( 1 1 8 ) 其中面表示在时间间隔f 内、因从点( x ,y ,z ) 到点( 。,y + ,z ) 的三维运动而引起的法线 矢量的方向变化。这个变化可以表示为: 4 露= 膏( x ,】,7 ,z 1 ) 一霄( x ,y ,z ) = 瓣一辩q m 埘 ( p ”+ q ”+ 1 ) 1 7 2 ( p 2 +2 + 1 ) 1 72 u 其中p 。,g 为r ( x ,】,。,z 。) 的分量,利用式( 1 1 ) 和( 1 5 ) 可得 同理 。a z p = _ u x a z 苏 缸瓠。 一y + p 1 + 即 忽讹乱 旷可2 百声 一目+ q 1 一国 p e n t l a n d 6 指出:运动的光学效应可以控制某些情况下的几何图像效果。 1 3 论文的主要工作和纲要 ( 1 2 0 ) ( 1 2 1 ) 本论文首先系统性地介绍了基于三维模型的图像序列编码的基础知识和基本原理,详细 讨论了实现基于三维模型的图像序列编码的各种方法,并在此基础上给出了一种简单有效的 标定三维运动和结构所需特征点的标注方法,随后提出了一个新的面部三维网格模型和基于 此模型的运动图像恢复算法,实践证明了他们的有效性。 第一章:绪论。在这一章里,首先阐述了数字视频编码的研究背景、发展概况和基本原理并 初步介绍了低速率数字视频编码甚低速率数字视频编码的相关知识。接着对低速率 数字视频编码甚低速率数字视频编码的基础时变图像的构成模型进行了较为详细地 分析和论述。 第二章:三维运动估算。在这一章里,给出了两类常用的三维运动估算方法( 点对应法和光 流法直接法) ,分析了这两类三维运动估算方法的特点,重点对它们算法结构进行 了详细地阐述。 o 东南大学硕士学位论文 第三章:基于模型的编码技术。本章主要介绍了现有的几种常见的基于模型的编码技术,并 对它们的实现过程和特点进行了详细地阐述和分析。同时,对作为基于模型的编码 技术前提的特征标注问题提出了新的解决方法。 第四章:改进的三维模型及图像恢复方法。作为本文的主要工作首先提出了全新的三维人脸 网格模型,其次对平面图像进行预处理并采用了新的帧问特征点提取方法,然后使 用二次曲面填充三维人脸网格模型来近似人脸表面,最终通过向图像平面投影来恢 复图像并给出了仿真的结果。 结束语:工作总结及下一步的工作。对基于模型的图像序列编码和重构过程中完成的工作作 总结并简述下一步需要进行的工作。 东南大学项士学位论文 第二章三维运动与结构估算 三维运动与结构估算是基于三维模型图像序列编码的基础,它指的是从运动对象的二维 投影中( 也就是通常的二维图像序列) 较为真实地估算出运动对象的实际运动。由于运动对 象的表面结构( 深度信息) 决定运动对象的二维投影图像。而运动对象的表面结构往往是先 验未知的,所以通常三维运动估算往往与结构估算结合在一起同时进行。 本章主要介绍较为常用的点对应法和光流法,其中点对应法还是本论文仿真试验中所采 用的方法。在基于三维模型的图像序列编码中主要的工作是三维网格模型或是若干三维点的 集合的建立以及6 个刚性三维运动参数的获取( 非刚性运动本文尚未包括) 。因此从二维图 像序列中获取信息并完成上述工作非常重要。而事实上从二维图像得出的三维运动和结构估 算是“不确定”问题,因为在不做出一些基本的假设( 例如对运动对象的表面进行简化描述 以及三维运动是否为刚性运动) 条件下,这个问题是不可能有唯一解的。通常,如绪论中所 述三维剐性运动通过3 个平移和3 个旋转参数被模型化,这样一来,三维运动估算就简化为 6 个刚性三维运动参数的估算。而三维运动对象的表面则用分段平面、四方形或者独立的三 维点集等形式来近似即表面模型参数的估算或者说是运动对象表面深度参数的估算。在本 文中提出了用分段的曲面来近似运动对象( 人脸) 的表面,并在仿真试验中得到了近似的结 果。 2 1 点对应法 点对应估算方法通常假定图像序列( 观测场景) 中包含单一运动的运动对象,并且需要 先验地在两帧图像间确定一系列特征点对。关于特征点的选取和标注定位将在下一章详细论 述。本节重点介绍点对应法的基本原理和参数模型的求解。 2 1 1 投影位移场模型 从绪论中可以知道,运动对象表面的一个点由f 时刻的位置( x ,y ,z ) 运动到f 。时刻的位 置( x 。,y ,z ) 可以用旋转矩阵r 和平移矩阵丁描述如下: x y z = 胄 x y z + 丁= l 21 3 y x 吃ln 。吒,8y 吩i码2r 3 3 j l z + 正 巧 t ( 2 1 ) 在细微旋转的情况下( 通常视频序列中帧问的时问差为1 3 0 秒的数量级) ,组合旋转矩阵可 以近似用下式来表示: 1 一妒 矗= l 1一占 l 一p 曰1 其中p ,y 和分别是关于x r y 和z 轴的微小逆时针角位移a 2 ( 2 2 ) 东南大学硕士学位论文 一、 正交位移场模型 正交位移场指的是三维位移矢量通过正交投影的方式投影到二维图像平面,即: x = x ,y = 】, x = x ,y = 】,+ ( 2 3 ) 其中( x ,y ) ,( x ,y ) 为二维图像平面上的坐标,将式( 2 3 ) 代入式( 2 1 ) 有: 工= i 工4 - 2 y + ( r 3 z + t ) y = r 2 i x - i - r 2 2 y + ( r 2 3 z + l ) ( 2 4 ) 式( 2 4 ) 描述了运动对象上的某一点从t 时刻位置( x ,力运动到t 。时刻的位置( x 。,j ,1 ) 间的关 系,构成了以6 参数n i 、n 2 、( _ 3 z - 4 - t ) 、屯l 、屹2 、( r 2 3 z + l ) 定义的仿射变换。 事实上,由于正交投影是平行投影,因此二维图像平面上的点( 三维运动对象的投影 点) 的实际距离( 深度) ,在正交投影下是不可观测的。运动对象的实际深度应该表示为: z = z + z 其中z 是参考点深度,z 是运动对象上的点相对参考点的深度,由于参考点选取的不唯一 性,最后我们仅仅只能获取运动对象上的点的相对深度( 运动对象的表面形状概况) 而无法 确定运动对象的实际深度。进一步还可以发现式( 2 4 ) 中r t ,、r 2 3 与z 以乘积的形式出现 因此如果按比例缩放_ ,、,得到的z 的新值亦能满足式( 2 4 ) ,关于运动对象上的点的深 度估算不确定性问题在 7 巾有详细地论述。 通常来说,在运动对象离成像平面不太近也不太远的情况下,运动对象上的点的绝对深 度不是太重要,这时正交投影是对三维运动对象投影到二维平面的一个合理的近似,并且有 着计算相对透视投影较为简单的优点,这也是本文仿真试验采用这种模型的主要原因。 二、 透视位移场模型 在第一章所述的透视投影模式下,二维图像平面坐标与三维运动对象上点的坐标的关系 为( 小写为二维平面坐标,大写为三维空间坐标) : x = ,等= ,参 组s , 联立式( 2 1 ) 、式( 2 5 ) 得: ,一, i x + r t 2 y + _ 3 z + t 。r 3 【x + ,3 2 ,+ r 3 3 z + ,r 2 l x + 匕2 y + r 2 3 z4 - 0 。 。吩i z + 2 j ,+ r 3 3 z + t ( 2 6 ) 东南大学硕士学位论文 动对象空间左边的关系,则式( 2 6 ) 变化为: 一一+ w + n 。+ 芎tx = r 3 - x + w 怕+ y :竺雩 ,y 。 ( 2 7 ) 式( 2 7 ) 构成了一个依据二维图像平面坐标及透视投影规则的非线性模型。并且该模型对于 任意形状的三维运动表面都是有效的因为式( 2 7 ) 中的z ( 三维运动对象深度参数) 是 不受任何方程约束的自由参数。但是透视位移场模型也有其固有的缺陷,在式( 2 7 ) 中我们 可以发现,t 、f ,、r 均与z 成对以分子和分母的形式出现,这样一来,即使运动对象与 成像平面的距离拉大一倍,只要运动速度也相应的加大一倍,其通过透视投影而产生的二维 图像与原来的二维图像效果是一样的。 在下面两节将讨论基于式( 2 4 ) 和式( 2 7 ) 的三维运动和结构估算的方法。由于上面所 提到的这些投影的局限性,因此在正交位移场模型下,我们只能在假定参考点之后估计出三 维运动对象表面的相对深度参数而在透视投影位移场模型下,仅能估算出由比例因子决定 的深度参数值。 2 1 2 基于正交模型的估算方法 在本节中着重讨论以相邻两帧平面图像信息为基础的三维运动与结构估计问题,首先介 绍由h i z a w a 等人 8 提出的简单的两步迭代算法。作为基于三维模型的视频压缩算法一 m b a s i c 算法的一部分,当三维运动对象表面初始深度先验选取相对准确时( 与真值的误差在 1 0 以内) ,两步迭代算法对于三维运动和结构估算米说是一种简单有效的估算方法。 将式( 2 2 ) 代入式( 2 4 ) 便得到了两步迭代算法的投影运动场模型: j = x 一4 痧+ 4 嵋+ l y = y + 4 加一铅+ l ( 2 9 ) 在式( 2 9 ) 中,对于每一个给定的点对应( x ,y ) ,( x 1 ,_ y 。) 有5 个未知的全局运动参数a o 、 v 、t 、r ,和一个未知的深度参数z 。由于z 乘上了一个未知的参数,式( 2 9 ) 显然是一个非线性的模型,解决此类问题的方法一般要进行迭代计算。首先,从前一次迭代 给山的深度值估算5 个运动参数值,然后,使用5 个运动参数的新值修正深度估算值。具体 实现如下: ( 1 ) 给出个运动对象上的点在相邻两帧平面图像中的对应坐标对( x ,y ) 、0 ,y ) 和 有关的深度估算值z ( j = 1 , 2 ,) 来估算5 个全局运动参数。实现的方法是将式( 2 9 ) 以矩阵的方式排列如下: 4 东南大学硕士学位论文 一x 1f 0 一y j 。l _ z z y 0 x ( 2 1 0 ) 对于 r 个对应点对写出方程( 2 1 0 ) ,得到关于5 个术知量的2 n 个方程,因此3 ,然 后可以利用最小二乘法求解运动参数。 深度参数的初始估算可以从三维运动对象的先验模型中获墩。例如就人脸图像而吉, 这些韧始深度值可以从按比例缩放的三维线框模型巾得到。同时,因为解的不唯一性,初值 与真值的差异范围不允许超过预定箍围。 ( 2 ) 在计算出5 个运动参数之后,再次重新排列式( 2 9 ) 成如下形式 iy 。 一- y 。+ - 4 z i 咖c 。一- t rj l = l ? , y t 0l 【z 】 ( 2 - - ) il -| l 1 一 来估算新的z ,= 1 。这里,对于一个深度未知量中每一个给定点对应有一个 方程对每个点对应的深度可以用米自式( 2 ,1 1 ) 的最小二次方判定求解。 整个过程由重复步骤( 1 ) 和( 2 ) 构成直到从一次迭代到下一次迭代估计值几乎不再 改变。虽然理论上3 个点对应对已经足够了,但是由于在寻找点对应对中可能存在相对误 差因此为了得到较合理的结果,实际上往往需要6 个到8 个对应点对。然而正如上面提到 的,除非能有比较准确的初始深度估算值z 。( f = 1 , 2 ,) ,否则即使从棚邻两帧平面图像 巾给出再多的对应点对两步迭代算法也有可能l | 殳敛到错误附解。根据观察,当初始深度估算 包含太约1 0 以内的随机误差时。两步选代算法的结果是令人满意的,而随着初始深度估算 中随机误羲的增加,两步迭代算法的性能会下降 9 。 在两步迭代法中,从式( 2 1 0 ) 和式( 2 1 1 ) 中可以看出运动估算误差和深度估算误差有 很大的相关性。其中深度估算中的随机误差反复反馈到运动估算中同时运动估算巾的随机 误差也不断地反馈到深度估算巾去。这样一米如果初始深度t l 算不够准确的话,算法很可 能收敛到错误的解或者根部1 ;能收敛。但由于即使是同一类型的运动对象往往也有糟相当的 差异( 如各种备样的人脸) ,因此对于运动对蒙表面初始深度的初始先验自! f 算难免会有一些 误藉。有的可能还比较大以至于超出简m 的两步迭代算法的误差允许范围,为此接下来介绍 一种改进的算法 9 ,它仅仅增加了很小的讣算盘,却产生了相当不错的结果。 为了解决训始深度仙算不够准确带来的问题,首先定义一个误粒准则( 2 1 2 ) 。同时在误 差梯度方向上用合适的步长修正z 米代替式( 2 1 1 ) 的计算。为了避免计算结果收敛到一个局 部的擐小值,每次修正之后在深度估算值上加上一个髓机的干扰。在梯度方向上的修正提 高了收敛速率,同时在每次迭代q 1 仍然可以利用式( 2 1 0 ) 米计算5 个运动参数。改进的算 法总结如下: ( 1 ) 初始化深度参数值z 。( f = 1 , 2 ,) 迭代计数器月,= 0 。 ( 2 )利用最新确定的深度参数值和式( 2 1 0 ) 米计算5 个仝局运动参数。 肋如却t 0 ,l硎川10 1 0 k b , 东南大学硕士学位论文 在当前颧平面图像中估算与前一帧平面图像中所选取点的匹配点的坐 ( 群,并“) ,这些估算的坐标值是用式( 2 9 ) 由当前估算的运动和深度参数预测的值,计 算模型预测误差为: 瓦= 专善。 亿埘 其中 q = ( x :一彰) 2 + ( y :一彰_ ) 2 这里0 ,儿) 是当前帧平面图像中已知的匹配点的实际坐标。 ( 4 ) 如果e 。小于预先设定的门限,停止迭代。否则令m = + l 扰深度参数: 帮= 驴一磋+ 衅。 ( 2 1 3 ) 并采用如下方式干 ( 2 1 4 ) 其中鸳是一个零均值、方差为口,的高斯随机变量,口,卢为常数,本文仿真试验中的经验 结果是口,p 在0 i 到i 之间时,算法有比较好的综台性能。 ( 5 ) 回到步骤( 2 ) 。 表2 - 1 2 给出了改进的算法和两步迭代法的性能比较它表明即使在初始深度误差有 5 0 ,改进算法也能收敛到真实的运动参数和深度参数值。 表2 - 1 两步选代法与改进型算法的计算结果比较 1 0 误差 3 0 误差5 0 误差 真值 两步迭代法改进迭代法两步迭代法改进迭代法两步迭代法改进迭代法 占= 0 。0 0 70 0 0 6 8 90 0 0 8 9 0 0 0 0 6 2 60 。0 0 0 4 10 0 0 5 4 30 0 0 5 9 1 口= 00 1 00 0 0 9 8 10 0 0 9 8 30 0 0 8 9 80 0 0 9 0 50 0 0 7 7 40 0 0 8 0 3 西= 0 0 2 500 2 5 0 60 0 2 5 0 00 0 2 5 1 50 0 2 5 0 000 2 5 1 70 0 2 5 0 1 t = 0 1 0 0 0 0 9 6 9 10 0 9 7 1 80
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年全国焊工作业人员技能知识考试题库含答案
- 2025年大学警卫学专业题库- 信息安全与警卫技术的结合应用
- 2025年托福口语模拟测试卷:暑假阅读理解实战题
- 2025年防震知识试题(附答案)
- 设计基础试题及答案解析
- 2025年大学科学教育专业题库-、科学教育基础理论与应用研究
- 2025年大学国内安全保卫专业题库- 电力系统安全和供电保障
- 2025年大学社会体育指导与管理专业题库- 大学社会体育指导的现状与问题
- 2025年大学警卫学专业题库-警卫员执勤与交接流程规范
- 2025年大学移民管理专业题库- 移民老龄化管理与养老服务
- 2025四川达州宣汉县国有资产管理服务中心县属国有企业招聘劳动合同职工26人笔试历年参考题库附带答案详解
- 2025年下半年杭州市上城区丁兰街道办事处招聘编外工作人员11人考试参考题库及答案解析
- 2025年合肥市广播电视台(文广集团)招聘12人考试参考题库及答案解析
- 新教科版小学1-6年级科学需做实验目录
- GB/T 8492-2024一般用途耐热钢及合金铸件
- GB/T 17880.5-1999平头六角铆螺母
- 2023年陕西省直和西安市接收军转干部划分条件
- 客诉客退产品处理流程
- 自来水厂操作规程手册范本
- 中职实用美术设计基础 2基础教学课件
- 体育与健康人教版四年级-足球-脚背正面运球教案
评论
0/150
提交评论