(信号与信息处理专业论文)人像视频序列语义基编码的若干关键技术研究.pdf_第1页
(信号与信息处理专业论文)人像视频序列语义基编码的若干关键技术研究.pdf_第2页
(信号与信息处理专业论文)人像视频序列语义基编码的若干关键技术研究.pdf_第3页
(信号与信息处理专业论文)人像视频序列语义基编码的若干关键技术研究.pdf_第4页
(信号与信息处理专业论文)人像视频序列语义基编码的若干关键技术研究.pdf_第5页
已阅读5页,还剩102页未读 继续免费阅读

(信号与信息处理专业论文)人像视频序列语义基编码的若干关键技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘堂 摘要 人像视频序列语义基编码的若干关键技术研究 语义基编码是当前多媒体信息处理研究领域的一个热点,它突破信,自、论的理论框架,融 合了计算机视觉、计算机图形学、统计学等多4 字斟理论和技术,不仅在理论研究上具有较人 挑战性,而且在技术实现上也有定难度。人像序列是视频传输中常用的图像形式之一,本 论文主要围绕人像视频序列语义基编码的若干关键技术问题展开研究,内容包括目标轮廓提 取与跟踪、语义对象提取与跟踪、基丁模艰的运动估计利混合编码系统等。具体内容如r : j 目标轮廓精确提取与跟踪研究准确的目标轮廓提取利跟踪是基丁内容描述的基础。由 于在视频图像中,目标常常受到噪声f 扰,有些目标还具有深度凹陷的边缘,这些都严 重地影响了目标轮廓白动提取的准确性。目前,活动轮廓模型是目标轮廓提取常h j 的动 态方法之,而基丁梯度久量流的活动轮廓模掣g v fs n a k e s f g r a d j e n tv e c f o rf l o ws n a k e s l 是其改进犁。赆管它兜服了传统s n a k e s 算法的缺陷,对具有凹陷边缘的目标能够有效 地提取,但对于噪声和极度凹陷边缘的影响还比较敏感,常常会使部分活动曲线收敛剑 局部极值点处。遗传算法可以解;火不具备诸如连续、可微等特性的函数优化问题,是 种全局最优搜索的有效方法。细粒度遗传算法( p g ap a r a l le 1g e n e nca l r o r l t h m ) 由丁 内在的并行机制,解决了遗传算法中各子种群的适府度计算和各于种群的新代个体生 成的并行性问题,极人地提高了算法的运算速度。冈此,本文通过改进g v fs n a k e s 梯 度久草流,并引入遗传优化搜索,提出了一种稳健的日标提取与口r 踪算法:即对丁收敛 下局部极值处的轮廓控制点,利用细粒度遗传算法,将相邻的处丁全局最优控制点的信 息通过染色体遗传操作传递给这些点,并驱使它们向全局最优处运动。实验证明,该算 法列受噪声干扰和具有凹陷边缘的目标轮廓提取不仅准确而且鲁棒。 2 语义目标提取与跟踪研究目标分割是一个反问题,通常采川加约束的方法米获得合理 的解。对丁语义分割通常是在传统目标分割算法中,适当地引入如形状、结1 = i = j 等具有语 义信启、的先验知识米约束分割结果。头肩型视频是最常见的视频幽像形式之一,其视频 对象的主体是人的头j 日部。在分析了不同姿态l 、头j d 形状的儿倒特征基础上,论文对头 崩轮廓形状进行分类,并定义了再类头肩形状模删:利川土成分分析f p c a 一刚n c t d a l c o n l p o n e n t sa n a i y s l s ) 方法对各类头肩形状模刑进行训练,并提取了形状模型的士分量, 大大减小了形状久量的兀余度利形状描述的复杂度。引入极人似然法判定目标轮廓形状 所属形状类别,并利h 相应土特征久蕈合成最佳轮廓形状模扳:然后,殴计一个利h j 边 缘、运动和曲率约束的离散变形模板算法米有效地提取和跟踪头j 商部。对 一静l r 的新矧 图像由于缺少运动信息而使分割变得更加幽难。本文还将形:扶模_ 9 引入到静l r 幽像的头 肩提取中,实现了轮廓约束的语义兰i 三问分* j 。 :3 基丁线框模型的运动估计研究首先,介 “最常 的如预洲最小二,i ,s p r e d l c “v e l e a s ts q u a r e s ) 和扩展 尔曼滤波( e k f e x t e n d e dk a i m a nf t e r ) 笛二维运动估计算法,分 析了它们对噪声数据比较敏感,对剧烈运动估汁极易发散等缺陷。论文通过臼适麻参数 修l e 和平滑滤波技术改进了扩展 尔曼滤波算法,解决了e k f 算法极易振荡和发散的 问题,实现了精确、稳定地k 序列运动估计。另外,还将白适麻松弛迭代方法引入到运 动估计中,一方面摆脱了上述算法中繁重的高维矩阵求逆运算所遇到的困难,保证了计 算的收敛性;另一方面该算法程序简单、内存需要餐小,适丁在嵌入式系统中实现。 4 混合视频编解码系统研究s p i h t 小波编码尽管对幽像贝有较高的压缩比,但对丁运动 的视频序列常常要以丢火细岿信息换取低码率,冈此恢复的图像常常模糊。尽管模型基 编码方法在甚低码率f 能够合成具有较高主观质量的剧像,但由丁对丁一般场景还很雌 用语义模犁描述,而且对丁运动视频场景,常常由丁缺少必要的纹理信息而使合成幽像 质鼙有所r 降,这些都制约了其j 。泛麻j _ j 。论文提出了一种新的模型基辅助的混合视频 编码系统方案,有机地将两者结合,并给山l 、p 、b 帧速率控制、纹理补偿技术、局部 表情剪切一粘贴和幽像综合的实现方法。最后对该系统的编码性能及幽像合成质量进行了 仿真实验分析。 关键词:目标轮廓;活动轮廓模型;语义分割:二维运动估计:模型基编码:幽像综合 ab s t r a c t s e m a n t i c _ b a s e dc o d l n gi sa na c t i v et o p i ci nt h en e l do fm u n i m e d j ai n f o r m a t i o n p r o c e s s i n g ,a n di t i si n v o l v e dw l t ht h et h e o “e sa n dt e c h n o l o g i e so fc o m p u t e rv i s i o n , c o m p u t e rg r a p h i ca n dm a t h e m a t i c a js t a t i s t i c se t c ,s ot h j sd i s s e r t a t i o ni s as ub j e c tw i t h c h a l l e n g ei nt h e o r ya n dd i m c u l ti nr e a l i z a t i o nt h ep o r ”a i ts e q u e n c ei sac o m m o nf o r m i n v i d e o c o n s e q u e n tj y , t h i sd j s s e r 【a t i o nf o c u s e so ns o m e k e y i s s u e so f s e m a n t i c b a s e dc o d i n go fp o n r a i ts 。q u e n c e sa n dt h e s t u d yi sc a r r i e do u ti nt h e f 0 1 l o w i n ga s p e c t s 1 m e t h o do fp r e c i s e l ye x t r a c t i n go b j e c tc o n t o u ri s1 n v e s t i g a t e dp r e c i s e l ye x t r a c t i n g c o n t o u ri st h eb a s eo fv i d e or e p r e s e n t a t i o ni nm o s tc a s e s ,t h ev i d e oo b j e c ti s n o i s e do rh a st h ee x t r e m ec o n c a v ee d g e w h i c ho n e nm a k e st h ec o n t o u r e x t r a c t i n gi n a c c u r a t e t h ea c t i v ec o n t o u rm o d e l ,af a m o u sd y n a m i ca l g or i t l n l ,i s c o m m o n l vu s e dt oe x t r a c tt h eo b j e c tc o n t o l l r , a n dg v fs n a k e sj so n eo fi t s i m p r o v e da j g or i t h m s t h o u g hi to v e r c o m e st h es h o r 【c o m i n go ft h et r a d i t i o n a l s n a k e s g v fs n a k e si ss e n s i t i v et ot h ee x t r e m ec o n c a v ec o n t o u ra n dn o i s et h a t o r e nc a u s es o m ec o n t r o lp o i n t so fc u r v ec o n v e 唱et ot h ep o s i t i o n so ft h ej o c a l m i n i m u mv a l u es o m et i m e sg e n e t i ca l g o t h m ( g a ) c a no p t i m i z ef u n c t i o nt h a t d o e sn o ts a t j s f yt h e c o n t i n u i t y o r d i f f e r e n i i a b i i i t y , s oi ti sa ne f f e c t i v e o p t i m i z a t i o na l g o r i t h ma tt h es a m et i m e ,t h es e a r c hp r o c e s sc a nb es p e du pb y p a r a l l e lc o m p u t a t i o n o nt h e s u b p o p u l a t i o nm n e s sf u n c t i o na n d也en e w i n d i v i d u a jg e n e r a t i o ni np a r a l l e lg e l l e t i ca l g o r i t h m s ( p g a ) t h er o b u s tm e t h o d , w h i c hi m p r o v e st h eg v fa n do p t i m i z e ss e a r c hb yp g a i sp r o p o s e dt oe x t r a c t c o n t o u rv e r a c i o u s l vi n t h i ss e c t i o nd u et ot h ei n f b r m a t i o ne x c h a n 卫eb e t w e e n a d j o i n i n gp o l n l sb yc h r o m o s o m ec r o s s o v e r ,t h ep o i n t sa r ed r i v e nt oo p t i m i z a t i o n p o s i t i o n si nt h e6 n e d 唱r a i n e dm o d e le x p e r i m e n t a t i o ns h o w st h a tt h i sm e t h o dc a n e x t r a c tt h ee x t r e m ec o n c a v ea n dn o i s e - d j s t u r b e dc o n t o u ra c c u r a t e l ya n dr o b u s t l y 2 a l g o r i t h mo ft h es e m a i co b j e c te x t r a c t i o ni ss t u d i e da sa ni l l p o s e dp r o b l e m , s e g m e n t a t i o ns h o u l dr e s o r tt or e s tr i c t i o nt oo b t a i nar e a s o n a b l er e s u l t i no r d e rt o o b t a i nas e m a m i co b j e c t ,t h et r a d m o n a ls e g m e n 【a t i o ni sr e s t r i c t e dw i t ht h ep r i o r k n o w l e d g es u c ha st h es h a p eo rs t r u c t u r ei ns e m a n t i cs e g m e n t a t j o n t h eh e a da n d s h o u l d e r sa r eg e n e r a l l yr e g a r d e da st h es a m ev i d e oo b j e c tp l a j n ( v o p ) i nt h e h e a d s h o u l d e rs e q u e n c e s ac o m m o n l vu s e df o r mi nv i d e o t h eh e a d s h o u l d e r c o n t o u r sf r o md i f 琵r e n tv i e w sa r es e p a r a t e di 1 1 t on v ec l a s s e sa c c o r d i n gt ot h e s h a p ec h a r a c t e r s ,a n ds h a p e1 1 1 0 d e li sd e n n e dr e s p e c t i v e l y oe f f e c t l v e l yr e m o v e r e d u n d a n c ya n dr e d u c et h ed e s c r i p t i o nc o m p l e x i t y , t h ep r i n c i p a l c o m p o n e n t a n a l y s i s ( p c a ) i su s e dt oo b t a i ns h a p ec h a r a c t e “s t i c sb yt r a i n i n gs a m p l e si ne a c h c l a s sm a x i m u ml i k e l i h o o dcr i t e n o ni su s e dt oc l a s s i f yn e wc o n t o u rs a m p l e ,a n d t h es h a p et e m p l a t ei ss y n t h e s i z e dw i t l lc o ij 。e s p o n d i n gp r i n c i p a jv a “a b l e si no r d e r t om a t c hh e a d s h o u l d e rc o n t o u rc o r r e c t l y ,a na l g o r i t h mi sp r o p o s e dt oc o n t r o la n d r e s t r i c tt h ed e f o r m a t i o no fd i s c r e t ed e f o r m a b l e t e m p l a t eb ym u l t i r e s t “c t i o n s : e d g e , m o t i o na n dc u r v a t u r e d u et ot h el a c ko fm o t i o n i n f o r m a t i o n , t h e s e g m e n t a t i o nb e c o m e sm o r ed j 衔c u ni ns 【a c i cn e w si m a g e sf i n a l i y ,an e wm e a l l s i sd e s i g n e dt oo b t a i ns e m a n t i co b j e c tb a s e do nt h ec 0 1 0 ra n ds h a p em o d e l , 3 m o t i o ne s t i m a t i o nb a s e do nw i r e f r a m em o d e li sr e s e a r c h e df i r s t l v , t w o c o m m o n l yu s e da l g o r i t h m s ( p r e d i c t i v el e a s ts q u a r e s ( p l s ) a n de x t e n d e dk a l m a n 6 l t e r ) a r ei n t r o d u c e d ,a n dt h er e a s o n sa r ea l s oa n a l v z e dt h a tt h e va r es e n s i t i v et o n o i s ea n d e a s y t o d i v e 。g e a ni m p r o v e de k fm e t h o dj s p r e s e n i e db y s e l f _ a d a p t i v ep a r a m e t e 卜a m e n dt e c | m o l o g ya n ds m o o t h6 l t e lw h i c hn o to n l y o v e r c o m e sd i s a d v a n t a g e so ft h ec o n l p u t a t i o n a lo s c i l l a t i o na n dd i v e r g e n c e ,b u t a l s oe s t i m a t e sl o n g t e r mm o t i o na c c u r a t e l ya n dr o b u s t l y e x p e r i m e n t a lr e s u l t s i n d i c a t e _ 【h ee 衔c i e n c yo ft h j sj m p r o v e m e n tt oa v o i dh e a v yc o m p u t a t i o nc a u s e d b ym a t i xi n v e r s i o n sa n de n s u r ei t sc o n v e r g e n c e ,r e l a x a t i o n i t e r a t i v es e a r c h a l g o r i 血m ( r s a ) i su t i l i z e dt oe s t i m a t em o t i o nr s an o to n l ye s t i m a t ea c c u r a t e l v b u ta i s os a v em e m o r y ,s oi ti sm o r es u i t a b l ef o rs o c 4 h y b r i dv i d e oc o d i n gs y s t e mj sd e s i g n e da h h o u g hs p i h tc o m p r e s ss t a t i ci m a g e e f k c t i v e l y ,i to r e nl o s e sd e t a i l si nv e r y1 0 wb i t r a t ef b rv i d e o ,w h i c hs h o u l db l u r r e s t o r a t i o ni m a g e d u et ot h e d i 所c u l t yi nm o d e l i n gg e n e r a lv i d e os c e n e ,t h e e x t e n s i v eu s eo fm o d e l b a s e dc o d i n gi si i m i t e dd e s p i t et h es a t i s f y i n gs u b j e c t i v e q u a j i i yo fs y n l h e s j z ei m a g e i no r d e rt o o p e r a t es e m a 门f j co b j e c ce a s ijy , a m o d e l - a s s i s t e d h y b r i dc o d i n gs y s t e mi s p r e s e n t e d t o i n t e g r a t e t h et w o a b o v e 。m e n t i o n e d c o d i n gm e t h o d s s o m e k e yt e c m i q u e s a r e d e p i c t e d :t h e t r a m e 。r a d oc o n t r o l ,t e x t u r ec o m p r e s s l n gm e t h o d ,c l i p a n d p a s t ef a c i a le x p r e s s i o n s y n t h e s i sa n dj 啪a g es ) m 幽e s i sp e r f o 丌n a n c eo fs y s t e mi ss h o mb yf h er e s u jco f s i m u l a t i o ne x d e r i m e n t k e yw o r d s :o b j e c t sc o n t o u r a c t i v ec o n t o u rm o d e l ,s e m a n t i cs e g m e n t a t i o n ,3 d m o t i o ne s t i m a t i o n ,m o d e l _ b a s e dc o d i n g i m a g es y n t h e s i s 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究: 作及取得的研究成果。尽我 所知,除了文中特别加以标注和致谢的地方外,沦文中不包含其他人已绎发表或撰写过的研究成 果,也不包含为获得东南大学或其它教育机构的学位或证书m j 使用过的材糊。与我一同二 作的同 志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 研究生签名:耄衅日 期: 迦幺! ! 星2 争 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和 电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内 容相一致。除在保密期内的保密论文外,允拜沦文被查阅和借阅,可以公布( 包括刊登) 论文的 全部或部分内容。沦文的公布( 包括刊登) 授权东南大学研,洲一院办删 虢轴绰剥雠丞媳日期:一2 争 1 1 引言 第一章绪论 随着计算机、通信、广播电视和1 微电子等高科技的迅速发展,新时代的通信基础设施不 断形成和完善,为人们的日常生活和i 。作提供了多种方便、快捷利可靠的信息交流通道。同 时多媒体技术的不断创新,使人们对多媒体信息服务的要求也越米越高,已从简单、被动的 方式向多样、互动的方式发展。为了顺府多媒体业务的发展趋剪,满足1 火h j 户对多媒体新 业务的需求,研究和开发新型高效的数据疗i 缩技术成为多媒体通信领域最活跃的问题之一。 从编码技术发展来磊,研究人员根据对视频幽像的分析角度以及对兀余的处理方式的不 同,将其分成传统的基r 波形编码方法利现代的基丁内容编码方法: 第代基于波形的编码方法是一种数据统计方法,也称为低层压缩方法。它以s h a n n o n 信息沦为基础,将刨像信源石作2 d 利3 d 随机信号来处理,通过研究随机信号的内在统计规 律性,利用预测编码、变换编码、久鲑耸化等技术,玄除数据的兀余。即通过运动估计米消 除帧间( 即时域) 冗余度,通过波形编码来消除帧内( 即空间) 兀余度。典刑代表如】t ut 的h 26 l 和h 26 3 建议,i s o l e c 的m p e g1 和m p e g2 视频标准等。这一代编码方法没有考虑 运动对象的语义和人的视觉特性,将幽像硬性划分为人小相同的矩形像素块,剪以块为单位 进行编码。 第二代基丁内容的方法:不再以像素块为单位,而是从对象和场景的角度玄理解和处理视 频,力图从整体上描述刊定义运动物体,或将运动物体抽象为特定的语言,更多地利_ l j 先验 知识,从而更切合幽像内容和人类视觉系统( h v s :h u m a nv 1s u a ls y s t e m ) 特性,能够更自 然、更真实、更准确地表达客观世界。与第一代编码方法相比,它的编码方法一股都比较复 杂,需要对图像进行一系列处理,如幽像分割、建模等。无论在理论上还是在实州上,这一 代方法受到计算机视觉等多种技术发展的制约,远没有成熟和完善,许多方法还处丁研究和 试验中。但随着技术的进步,该方法不火为很有潜力的编码方法。 现代编码方法还可以进一步划分为: 基1 对象的方法,也可称为中层编码方法,是目前最活跃的研究领域之一。它提供 基丁对象的描述功能,以及基 一对象的分级的高效编码方法。在低码率f ,通过可 扩展的嵌入式编码,可使感兴趣区域( r o i ) 的幽像质草较经典方法有所提高【p a r 0 2 , 卓0 4 】,但幽像的细1 7 丢火不可避免,编码相对复杂。 。 基于语义的方法称为高层编码方法,也是目前研究热点之一,它突破了上述信源编 码的理论框架,利_ l j 剀像的先验知识利h v s 的特性,实现高压缩比的幽像编码。该 方法需_ l j 模口。描述场景,而目前普通场景摸掣还难以建立,还有待幽像分折技术的 发展利完善,冈此影l 响了它的普遍府“。但对丁内容较简单的视频系统( 如可视电 查堕查兰堡:! = 兰垡堡兰一 话,会议电视,虚手以演播等) 却是一种很有前途的极低比特率编码方法。相信随着 计算机视觉和计算机幽形学等相关技术的发展,将会有实际的应h 。 目前,己颁布的m p e g 一4 利m p e g 一7 都是基丁第一代编码技术的标准。 1 2m p e g 4 标准 纵观视频图像压缩编码标准的发展历程,不难看到:标准的制定已由面向不同媒体类型、 为特定应,i _ 服务的原则,逐渐转向交互、开放、通川和高效的原则。1 9 9 8 年1 0 月批准的“甚 低比特率活动图像利语音乐缩标准”即m p e g 一4 第1 版,目的是研究一种新的低丁6 4 k b p s 速 率的基本视频标准:其后1 9 9 9 年12 月公布的第2 版m p e g 一4 则转向支持网络的a v 业务: “提供种听觉视觉编码标准,标准具有交互性、高度压缩、通用的可存取性,以及高度灵 活性和扩展性”。 第二代压缩编码技术标准m p e g 4 的最人特点是引入了视频对象和视频对象平面等概 念,而且采用4 层数据结构米描述视频对象,其基本结构天系如幽11 所示: v l d e o0 b j e tp 1 a n 。v o p v o p f v o p v 。p l a v e r ol a v e r l 图1 - lm p e g 一4 中的数据结构分级图 视频会晤f v s :圻出口曲w 此w ) :由若干个v s 组成的一个完挚的视频序列: 视频对象( v o 出oo b j 吲) :由时间上迕续的多帧组成的场景中有生命驯的某个物 体: 视频对象层( v 0 l : d e 。0 巧l 掣p 厂) :视频对象在不同时问分辨率昂1 空问分辨率上 的连续表示层,有基本层和增强层之分; 视频对象平面( v o p : 如d0 巧p c ,尸,口h p ) :某个视频对象在某一时刻的表象。 m p e g ,4 标准除了兼窬经典的m c d c t 编码功能外,还提供一些新功能: 基丁内容的交互性:除了般的编码以外,还为不同语义对象提供了独立、有效的 编码表示,以实现在压缩域中对各视频对象进行独立存取剐操作,为视听的交互性 服务提供技术支持。具体包括:基丁内容的多媒体数据访问l 具:基丁内容的数据 码流编辑:自然数据与合成数据混合编码:视频内容的随机存取。 高效| 生:为不同对象选择不同的最位编码策略,提高了编码效率。尤其枉甚低码率 的应用中,提供贝有较高主观视觉质量的混合编码i j j 能;提供能够对景物进行多视 2 角编码的多路并存数据流的编码功能,实现了立体视觉的实际应用,如虚拟现实游 戏,训练e 行模拟等多媒体演示教育i 具。 可扩展性:在内容、质草和复杂度等方面提供扩展能力,以便适丁不同复杂度的编 解码器能够对编码数据进行解码,使川户可以选择对象的解码质量,按等级平分辨 率进行显示浏览。 健壮性:通过再同步( r e s y n c h r o n l z a i j o n ) 、数据恢复( d a t ar e c o v e r y ) 利错误隐藏 ( e r r o rc 。n c e a i m e n t ) 达到在易错环境f 的健壮性:不同对象编码可采刚不同的等 级的容错技术,提供各种网络环境或低码率麻州的抗误码能力,保证具有较高的主 观图像质量。 m p e g 一4 的独特之处还在丁其开放性:在兼容原有基丁像素块的编码基础上,义支 持基丁内容的可伸缩编码方法、s 州t e 编码、合成臼然混合编码( s n h c : s y n t h e t i c 刷a t u r a lh y b r ;dc o d i n g ) 等多种编码方式。由于这些编码方法都是建立在计 算机视觉、幽像分析理解、计算机剀形学、视频处理和虚拟现实等技术基础上,许 多技术难点还朱解决,要走向实j - j 化还必须进行人草、深入地研究,还有待丁技术 的突破性发展。严格的说,m p e g 一4 标准只是通过确定土要内容、编码l + 具和码流 格式,构建了一个灵活性和可 r 展的a v 编码的框架,而只体的算法则作为开放问 题留给学者们继续研究。 1 3 模型基编码关键技术研究与现状 计算机网络及移动通信的发展,个人通信己成为全 十会的需求,以人像为主的视讯业的 不断发展,高效的低比特率视频压缩编码( l b v c :【。wb i t r a t ev l d e oc o d 】n g ) 技术越米越 受到人们的关注。另外随着网络的普及,研制具有真实感的二维场景互动游戏、网络教学软 件、虚拟演播币l 合成电影等,已成为当前很有发展满力且极具经济效益的网络服务业之一。 原有基丁像素块的编码方法,既不能准确表示视频场景中语义目标,也不适丁描述语义对象 的各种运动,更不能满足对它们进行各种操作的要求。如何通过有效地描述视频对象和它们 的运动,如何对不同对象进行最佳编码,是近年来视频压缩技术研究的热点。m p e g4 标准突 破了传统的编码理论框架,考虑h v s 的特性和对象的语义性,利州视觉冗余利知识冗余,提 出了基 模犁的视频编码方法。 1 3 1 模型基编码 模型基编码( m 。d e 卜b a s e dc o d ln g ) 是根据一维幽像序列重建个二维场景模型,并根 据该模,对图像进行分析平综合。也就是:在编码端,利川计算机视觉分析理解方法川二维 或二维模,w 描述编码内容,亓列摸型军摸,w 的运动参数进行编码传输:在解码端则根据模型 利运动参数,利刈计算机幽形学技术米合成显示怪l 像。幽像分析、编码和幽像综合是模犁基 东南人学博l 学位论文 编码的主要过程:利州图像场景的内容平知识信息,实现高压缩比编码【a h l 0 2 】是这种编码 技术的主要特点。 模型基编码( 幽卜2 ) 方法根据是否采州具有语义的参数模型可分为物体基编码 ( o b j e c t _ b a s e dc o d i n g ) 和语义基编码( s e 仉a n t j c _ b a s e dc o d l n g ) :物体基编码可以看成j 义的方块编码,将编码图像分解为若干运动对象区域,用3 个参数( 分别表示运动、形状干 i 色彩信息) 进行描述。其核心技术是景物的分层次描述、运动分割和运动估计。物体基编码 无需先验知识,可以处理任意对象,但编码效率无法同语义基相比。语义基编码利删图像的 内窬和先验知识,建立一个确定的二维参数模型:在编码端,通过图像分析提取目标的形状 参数雨l 运动参数,且只需对这些参数进行编码传输:在解码端,根据接收到的参数合成图像。 由于语义基编码利用对象结构等先验知识,只需要对很少的参数编码传输,冈此获得了很高 的编码效率。其核心技术包括:建模、幽像分割、特征提取、运动估计利表情综合。 编码器解码器 圜双秒哐叶僵愀嘲 i: 同 俩 恻恻 剀】2 模刑基编码 模犁基编码的模刑有一维弄| | 二维模型两种。二维模型也叫2 dm e s h 模刑,是一个较为普 通的方法,它对编码对象_ l | j 二角形描述,对每二角形进行基丁仿射变换的返动估计( 如图 1 3 ) 【b e e 9 9 】,最后合成相庸的幽像。常朋二角形有规则三角形和d e l a u n a v 三角形( 如图1 3 左) 。三维模型有参数化模拟( 如图卜3 矗) 年非参数模型,前者需要为对象建立个二维参数 化模型,利j _ j 参数控制模型返动;而厉者利j h 表面分割模型,对物体运动区域进行检测。它 1 都将一维幽像信息映射到对象的二维模型表面,通过模型的3 d 运动合成不同运动幽像( 如 在m p e g 一4 中建立了一个人脸参数动画模型,可以对活动人脸进行高效编码。其中定义了 人脸定义参数( f d p :f a c i a ld e f l n n i o np a r a m e t e r s ) 来控制人脸形状、纹理:同时还定义了 一个由4 4 个表情单元组成的人脸动画参数( f a p :f a c i a la n l m a t i o np a r a m e t e r s ) 米控制人 脸表情运动。通信过科中,通过定义参数改变标准人脸模删的形状利纹理,使其对麻丁个 特定人脸:通过动画参数驱使人脸的各种表情活动。本硷中只针对语义基编码的若干关键技 】3 2 本论文研究的意义 语义丛编码方法采刚3 d 参数模n u 。就当前的计算机技术发展水平来说,要想对幽像中任 意场景建立一个参数化模型还是相当斟难的。冈此,参数模j p 的构建与配准成为当前制约语 义基编码发展的瓶颈之一。精确的v 0 提取是建立与匹月ev 0 参数模) 首要和关键的技术问题, 也是基于内容编码的基础。冈此本论文针对m p e g 4 的开放问题 一基丁对象的分割与躁踪技 术,进行了深入研究。 幽l 一3 对象的2 dd e l a u n a v 二于 形模型和3 dc a n d l d a 脸部线框模型 幽卜4 纹理幽像、3 d 模型与合成幽像 人像序列是当前可视电话、新闻播报、会议电视、门甲监控等系统中最常她的视频图像形 式。而人的头j 自部具有确定的模型结构,可以预先建立统一的参数模型,冈此近年米语义编 码大都同绕头肩像序列展开,特别是对运动比较丰富的头部或脸部的模型基编码研究成为这 一领域的主流。目前己提山多种脸部线框模犁,有代表 生的脸部模耻有:p a r k e ,c a n d 】d e , a lz a w a ,w a t e r s 利周峰模刑等。尽管模型基编码已止式成为m p e g 4 标准的一部分,并提出了 用于脸部运动参数化的4 4 个表情活动单元( a u s ) ,但这方面的研究还根不成熟,许多问题 有待技术上的突破。目前模n “基编码研究的热点和难点人都集中在斟像分析中的人脸特征提 取和二维运动参数估计【s t r 0 2 ,a n t o o ,a h l 0 2 】等方面。闪此,本论文深入地研究了实时、 准确的二维运动估计算法。 在上述研究和前人研究的基础上,本论文还对模形基辅助的混合编码方法进行了研究。 以期将模犁基编码中的模刑运动描述技术jj 基1 对象的可扩展编码技术结合,在低码率r 能 够获得具有更好士客观质草的合成l 划像。 1 3 3 国内外相关技术发展现状 现代的模掣基幽像编码是1 9 8 3 年由瑞典l in k o p l n g 人学的rf o r c h c h e l m e r 等人提出。 1 9 8 7 年wjw e l s h 利ka lz a w a 将纹理映射( t e x t u r em a p p ln g ) 技术b l 八模掣基编码,增 加了合成幽像的真实感,使模型基编码向实川化迈进了一人步。随后,日本的a 】z a w a , h a r a s h l m a 等也展示了他们的研究成果m b a s i c 系统【a l z 8 9 ,a lz 9 5 】。对_ r 头j 日像序列, 东南人学博i 学位论义 模型基编码的码率可以做到儿k b l t s s ,突破了图像通信中的信道带宽瓶颈,因此引起了研究 人员的广泛兴趣。美国【m 0 9 9 5 】、加拿人【y a h 9 7 ,y ln o o 】、德国【m e n 9 5 ,is 9 7 】、英国【p e a 9 5 , a n t 9 8 】、澳大利弧【n g a 9 6 】和中国等国的一些带名的研究机构也都纷纷开展此项研究,出现 了模型基编码的研究热潮。 模型基编码的研究r 作主要包括:模型建立、图像分析和图像综合3 部分。 1 ) 模型建立:目前,三维模型构建方法有3 种:一种是通过物理设备( 二维扫描殴备, 三维相机) 获取,所得模型很好地描述了对象表面结构,但缺乏足够的生理结构信息:一种 是在分析多幅立体图像的基础上构建,常用来实现对特定人的模型配准【张o o 】:最常用的则 是通过解剖学、计算机图形学等多种学科知识,构建一个符合生理结构的头部线框模型。当 前普遍使l _ | ;j 的p a r k e 模型、c a n d j d e 模型【a h l 0 2 】、a 】z a w a 模型【a iz 8 9 】等都是这样生成的。 国内周峰等人【周9 3 】也构建了一个二维头部线框模裂。除了通常采用的多视角图像生成三 维模型的建模方法【s 】u 叭,汪o o 】外,还可通过建立人脸表面弹性形变模型,将人脸面部分 为若干块分别进行处理,实现特定人脸模型匹配的造型方法【邹0 l 】。 2 ) 图像分析:这是模型基编码的难点,涉及到图像分割、特征提取利运动 古计等关键技 术。 图像分割:将头f = i 部或人脸部等感兴趣区域从背景中分割出来,并提取与模型有关的 几何特征参数,如头部轮廓,脸部轮廓等。分割技术是计算机视觉中最具有挑战性的问题之 一,根据分割方法不同,可以分成低级和高级两种。低级分割:只依据像素的亮度、色彩、 运动、纹理、形状等基本屠性进行分割,有基丁颜色和空间信息的分割【y a h 9 8 ,c h a 9 9 】:基 于时间域的运动分割【杨叭,m e z 0 4 】;基丁时空联合的分割【z h o 叭,黄0 1 a 】;基丁形态学 分割【i z q 0 2 ,m e l 9 9 ,c h 0 9 7 】:基丁高阶统计分# i 【詹0 0 】和基丁假殴检验分割【k l m o o 】 等。高级分割:利川上p 文信息和语义结构等先验知识将图像分割成具有语义的实体,难度 高于低级分割。高级分割方法主要有基于活动形状模型( a s m ) 、基丁活动表面模板( a a m ) 【l u 0 0 3 】、基于统计学习分割【x u 0 3 】等方法。尽管新思路新方法不断涌现,但至今尚无通 用的实川化方案,冈此依靠计算机视觉提取视频对象的技术还处在不成熟的发展阶段。 特征提取:定位头部的特征区域,求得相廊的特征参数。目前研究的方法有:对特,址 信息进行主分量分析,实现特征点提取与跺踪方法【a n t 9 8 】羊【h i l0 3 】;h 滤波方法增强感 兴趣特征,然后利州动态规划法精确提取利跟踪人眼形状的动态规划法【p a r o o 】:利_ l _ | 可变 形模板提取脸部完整特征的模板法【a n t 0 0 ,李0 2 c 】:基丁深度信息、基于多关联模扳、基丁 “特钮e 眼”雨 基丁多视幽的多线索方法【庄0 3 】:以及主动轮廓法【杨0 5 】:遗传方法【l i n 9 9 】。 运动估计:就是通过线框模型从一维幽像计算山真实_ r h = 界的头部运动参数。实时准确 的运动估计方法的研究一直是模删基编码研究的难点和热点,目前1 卉计方法人致可以分为基 丁特征点【s t r 0 2 】和线【v 】a 9 6 】对应方法和基丁区域对应方法【d e c o o ,余0 1 】。前者依赖 于前_ i 亓帧特征点对匹配的准确性,以先全局再局部的顺序进行估计:后者依赖光流计算或模 扳匹配的准确性,计算鼙人,易受噪声影响,且全局和局部运动同时估计。目前对运动估计 6 第一章结论 的研究进展非常迅速,各种估计方法层出不穷:利州时域滤波器一一扩展e 尔曼滤波【s m 0 9 9 】, 分层 尔曼滤波【j u n 9 7 】及其修止参数的e k f 【杨0 2 b 】等实现3 d 运动1 卉计方法;最小

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论