(计算机应用技术专业论文)基于视频的三维人体运动捕获方法研究.pdf_第1页
(计算机应用技术专业论文)基于视频的三维人体运动捕获方法研究.pdf_第2页
(计算机应用技术专业论文)基于视频的三维人体运动捕获方法研究.pdf_第3页
(计算机应用技术专业论文)基于视频的三维人体运动捕获方法研究.pdf_第4页
(计算机应用技术专业论文)基于视频的三维人体运动捕获方法研究.pdf_第5页
已阅读5页,还剩127页未读 继续免费阅读

(计算机应用技术专业论文)基于视频的三维人体运动捕获方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

, 基于视频的三维人体运动捕获方法研究:摘要 摘要 基于视频的人体运动分析是近年来模式识别、智能人机接口以及虚拟现实等研究领 域中一个备受关注的前沿方向。它不仅具有重要的研究意义,而且在智能监控、体育运 动分析、动画生成等方面具有广阔的应用前景。因此,它吸引了越来越多的研究者的兴 趣。基于视频的人体运动分析的主要目的,是从一组包含人的视频图像序列中检测、识 别、跟踪人体行为,并对其进行分析和理解。其中,运动检测和运动跟踪等属于底层视 觉问题,而行为的理解和描述属于高层视觉问题。 本文针对基于视频的人体运动分析中的人体运动的行为理解的视觉问题,即人体运 动捕获进行了研究,重点研究如何从蹦床、体操等复杂高动态视频中提取人体3 d 运动 信息。创新之处如下: l 、在总体思想与方法上,提出了一种新的基于视频的3 d 人体运动生成方法 从运动视频中获取人体的3 d 运动信息是一个非常困难的问题。目前国内外的研究 成果,都是只能对特定条件下采集的运动视频进行处理,并且只能针对例如走,跑步等 简单的周期性运动类型。我们针对记录人体复杂运动的高动态运动视频,进行了基于视 频的3 d 运动信息生成的研究,旨在得到3 d 人体运动数据的精确、整体描述。在研究策 略中,我们加入了一些基于领域的知识,即,针对某种运动类型,充分利用基于领域内 采集的3 d 运动数据库,同时,采用视频图像处理与学习策略相结合的策略来提取视频 中的人体3 d 运动信息我们选用蹦床运动视频作为研究实例,并通过大量实验数据进 行了验证。实验结果表明,本文的方法避免了摄像机定标的繁琐计算过程,能对任意给 定的运动视频进行处理;其次,由于采用基于领域的学习策略,与现有方法相比,本文 的方法在计算稳定性与结果精度方面都有了很大的提高:重构效率可以达到次线性级 ( s u b 1 i n e a r ) ,能基本满足实时处理的要求;同时,经过量化测试,在输入视频数据较为 理想的情况下,姿态重构的成功率稳定在9 7 以上;而且算法对图像噪声也具有较好的 鲁棒性,在视频图像具有较大噪声的情况下,其姿态重构成功率也可以达到9 4 5 。在 此基础上获取的连续3 d 人体运动数据也体现了良好的运动相关性和物理真实性。 2 、提出了一种基于轮廓相似性匹配的人体姿态重构方法 3 d 人体姿念重构是基于视频的3 d 人体运动生成的基础。本文中,我们提出了种 改进的基于轮廓相似性匹配的人体姿态重构方法。该方法将经典的h u 矩不变量与仿射 矩不变量( a m l s ) 相结合。实践证明,与经典的h u 矩方法相比,基于h u 矩不变量与仿射 矩不变量( a m i s ) 相结合的方法不仅修正了h u 矩方法中由于旋转不变性所导致的误差, 而且计算的总体效率也提高了l o 以上 ;,fj 、;0 q 摹于视频的三维人体运动捕获方法研究t摘要 为了进一步提高姿念重构的精度和计算效率,我们采用基于e m d ( e a r t h m o v e r s d i s t a n c e ) 的方法进行优化处理;同时,为了加快执行效率,我们用l s h ( l o c a l s e n s i t i v e h a s n n g ) 来对数据库建立索引;另外,为了提高匹配结果对轮廓噪声的鲁棒性,我们对 轮廓特征引入形状上下文( s h a p ec o n t e x t ) 的描述。实验表明,经过这一系列的优化处理以 后,在轮廓提取质量较为理想的情况下,姿态重构的成功率稳定在9 r 7 以上,该方法对 图像噪声也具有较好的鲁棒性,在视频图像具有较大噪声的情况下,其姿态重构成功率 也可以达到9 4 5 。执行效率更是达到次线性级( s u b - l i n e a r ) ,能基本满足基于视频的人 体姿态重构中实时处理的要求。 3 、提出了一种基于视频内容的3 1 ) 人体姿态求精方法 所谓基于视频内容的3 d 人体姿态求精,就是在已知初始人体3 d 姿态信息的基础上, 根据视频中人体轮廓信息,将初始人体3 d 姿态进行变形,从而得到与视频中对应的精 确的3 d 人体结构信息。在我们的实际应用中,我们结合基于点集的轮廓匹配方法,同 时综合利用2 d 骨架信息,来解决基于视频内容的人体姿态求精问题。实验结果表明, 与目前国内外现有方法相比,我们的方法不仅能够保证处理结果的精度,而且只需要通 过简单高效的2 d 运算就可以实现变形求精。另外,我们的变形技术是基于通用的处理 框架,可用于各种类型的已知初始3 d 信息的运动对象的姿态求精处理。体现了良好的 通用性。 4 、提出了一个基于3 d 运动库的时空模型,并以此为基础,提出了一种3 d 连续运 动生成方法 为了充分利用3 d 运动数据库中所蕴含的丰富的人体结构信息以及运动相关性等运 动学信息,我们对3 d 运动库中的数据建立时空模型。即建立各个定长数据段之问的空 自j 结构相似度模型以及时间概率转移模型。 以运动库时空模型为基础,结合人体姿态重构,我们提出了一种3 d 连续运动尘成 方法。该方法包括预处理、运动库建模,以及连续运动生成3 个阶段。在预处理阶段, 首先根据运动库的数据采集帧率与视频帧率的比例对3 d 运动库中的数据进行下采样 ( d o w n - s a m p l e ) ,然后对3 d 运动库中的连续数据进行定长分段,同时,对待重构的视频 序列也进行同样的分段处理。然后,在建模阶段,我们对运动数据库进行时空建模。在 连续运动生成阶段,对于输入的视频序列,以3 d 人体姿态重构为基础,以3 d 运动库的 时一空模型为指导,就可以进行自动化的人体运动重构,从而得到连续的3 d 人体运动 信息。通过对重构结果的量化分析以及与真实3 d 运动数据的对比,证明了重构的运动 数据不仅具有良好的运动相关性,而且与真实结果数据相吻合,具备了良好的物理真实 性。 关键词:运动捕获:运动数据库;轮廓匹配;姿态重构:姿态求精:运动重构 n ,0l,0 幕于税频的三维人体运动捕获方法研究 a b s t r a c t r e s e a r c ho nh u m a nm o t i o nc a p t u r eb a s e do nv i d e o q i ux i a 面i e ( a p p l i e dc o m p u t e rt e c h n o l o g y ) a d v i s e db yw a n gz h a o q i t h er e s e a r c ho nh u m a nm o t i o na n a l y s i sb a s e do nv i d e oi so n eo f t h em o s ta c t i v er e s e a r c h a “煳i nc o m p u t e rv i s i o n , p a t t e r nr e c o g n i t i o na n dv i r t u a lr e a l i t y b e s i d e si t si m p o r t a n tv a l u eo n r e s e a r c h , h m n a nm o t i o na n a l y s i sh a sa t u a c t e dg r e a ti n t e r e s t sf r o mc o m p u t e rv i s i o nr e s e a r c h e r s d u et oi t sp r o m i s i n ga p p l i c 撕o mi nm a n ya l e a ss u c ha sv i s u a ls u r v e i l l a n c e ,p e r c e p t u a lu s e r m t e r f a c e , c o n t e n t - b a s e di m a g es t o r a g ea n dr e t r i e v a l ,v i d e oc o n f e r e n c i n g , a t h l e t i cp e , f o n m n c o a n a l y s i s ,v i r t u a lr e a l i t y , e t c t h em a i na i mo f v i s u a la n a l y s i so f h u m a n m o t i o ni st od e t e c t , t r a c k a n di d e n t i f yp e o p l e ,a n dm o r eg e n e r a l l y , t oi n t e r p r e th u m a nb e h a v i o r s ,f r o mi m a g es e q u e n c e s i n v o l v i n gh u m a n s i nt h i sp a p e r , t h eh u m a nm o t i o nr e c o n s t r u c t i o nb a s e do nm o t i o nv i d e oi sp r e s e n t e d , t h a ti s , r e c o v e r i n gt i i e3 dh u m a nm o t i o nd a t af r o mm o t i o n v i d e os u c ha sw a m p o l i n es p o r t s 1 1 l em a i nc o n t r i b u t i o n sa r ea sf o l l o w s : i 、a n o v e l t e c h n o l o g y o f h u m a n m o t i o nr e c o n s t r u c t i o n b a s e d o n m o t i o n v i d e o i t i sd i f f i c u l tt oi n f e r3 dm o t i o nf r o mm o t i o nv i d e o m o s tr e s e a r c hi nt h i sf i e l do n l yc a n d e a lw i t ht h em o t i o nv i d e oc a p t u r e di nt h es p e c i a ls i t u a t i o na n dt h es i m p l es t y l es u c ha sw a l l r u n n i n g i nt h i sp a p e r , t h em e t h o d so f i n f e r r i n g3 dm o t i o nf r o mt h ea r b i t r a r ym o t i o n v i d e oa r e p r o p o s e d i nm ys t r a t e g y , s o m ea r e ak n o w l e d g ei si n c o r p o r a t e d e g t h em o t i o nd a t a b a s ei s m a d ef u l lu s eo ff o rg a i n i n gd a t a b a s eo f3 dm o t i o nc a p t u r e do nv i d e o , a n d , t h et r a m p o l i n e s p o r ti st a k e na st h em o t i o nt y p et od e m o n s t r a t et h em o t i o nr e c o n s t r u c t i o nt e c h n o l o g y f r o m t h ee x p e r i m e n t , i tc a nb es e e nt h a tt h et e c h n o l o g yc a np r o c e s st h ea r b i t r a r ym o t i o nv i d e o m o r e o v t h ea c c u r a c yo ft h er e c o n s m 】c t e dr e s u l t sa n dt h ec o m p u t i n gs t a b i l i t yi si m p m v e d g r e a t l y t h ec o m p u t i n gc o m p l e x i t yc a nr e a c hs u b l i n e a ra n dt h ea c c u r a c yo fr e c o n s t r u c t e d r e s u l t sc a nr e a c h9 4 5 o nc o n c l u s i o n , m ys t r a t e g yo fi n f e r r i n g3 dm o t i o nf r o mm o t i o nv i d e oi su n i v e r s a l i tc a n b eu s e dt op r o c e s su n l i m i m dm o t i o nv i d e o a tt h es a m et i m e ,s i n c et h es t r a t e g yi sb a s e do nt h e a r e ak n o w l e d g e , g i v e na3 dm o t i o nd a t a b a s eb a s e do nt h ea r e a , i tc a nr e c o n s t r u c ta r b i t r a r y m o t i o ns 哆i c 2 、3 dp o s er e c o n s t r u c t i o nb a s e do ns h a p em a t c h i n gt e c h n o l o g y 3 dp o s er e c o n s t r u c t i o nf r o mv i d e oi m a g e i st h ef o r m e r p h a s e o f3 dm o t i o n r e c o n s t r u c t i o n i nt h i sp a p e r , an e wp o s er e c o n s t r u c t i o nt e c h n o l o g yu s i n gc o m p u t e rv i s i o n i n v a r i a m ei sp r o p o s e da n dt h eh um o m 即mi n v a r i a b l ea n da m i s ( a t r m em o m e n t si n v a r i a b l e ) 1 1 1 i l f i j 飞;慷 基于视频的三维人体运动捕获方法研究;a b s t r a c t a r ec o m b i n e di n t h i sw a y c o m p a r e dw i t hh ua l g o r i t h m , o m m e t h o dh a sc o r r e c t e dt h e r e c o n s t r u c t e df a u l t si n d u c e dw i t hr o t a t i o ni n v a r i a b l ea n dt h ec o m p u t i n ge f f i c i e n c yh a sb e e n i m p r o v e ds i m u l t a n e o u s l y i no r d e rt oi m p r o v et h ea c c u r a c yo fr e c o n s t r u c t i o nr e s u l t sa n dc o m p u t i n ge f f i c i e n c y , t h e e m d ( e a r t h - m o v e r sd i s t a n t ) i sa d o p t e d a tt h es a m et i m e , l s h ( l o c a l s e n s i t i v eh a s h i n g ) i si n t r o d u c e dt oi m p r o v et h es e a r c he f f i c i e n c yi ns h a p em a t c h i n g i na d d i t i o n , t h es h a p ec o n t e x t i su s e dt od e s c r i b et h ef e a t u r ep o i n to fs i l h o u e t t e s f r o me x p e f i e n c ei tc a nb es e e no n c et h e s i l h o u e t t e sa b s t r a c t e df r o mv i d e of l a m ei sa c c u r a t ee n o u g h , t h ea c c u r a c yo fr e c o n s t r u c t i o n r e s u l t sc a nr e a c h9 7 a n dt h ec o m p u t i n gc o m p l e x i t yi ss u b - i m e a r , w h i c hc a nm e e tt h ed e m a n d o f r e a l - t i m es y s t e m 3 、an o v e l3 dp o s er e f m i n gm e t h o d t h e3 dp o s er e f i n i n gm e a r l sa d j u s t i n gt h ei n i t i a l3 dp o s ea c c o r d i n gt ot h es i l h o u e t t e s c o n t e n to fv i d e oi m a g ea n do b t a i nt h ea c c u r a t e3 dp o s ei nv i d e oi m a g e i nt h i sp a p e r , s h a p e m a t c h i n ga l g o r i t h mb a s e do ne m di sc o m b i n e dw i t ht h ei n f o r m a t i o no f 2 ds k e l e t o nt op r o c e s s t h ep o s er e f i l l i n g t h ee x p e r i m e n t sd e m o n s t r a t e d0 1 l wm e t h o dc a l lp r o d u c er e s u l t sw i t hh i g h e r p r e c i s i o nb ys i m p l e2 dc o m p m i n gc o m p a r e dw i t ho t h e rc u r r e n ta l g o r i t h m f u r t h e r m o r e , t h e r e f i n i n gm e t h o dw ep r e s e n t e di sb a s e do nt h eu n i v e r s a lf r a m e w o r kw h i c hc a np r o c e s sv a r i o u s m o t i o nv i d e o 4 、3 dm o t i o nr e c o n s t r u c t i o nb a s e do nt h em o t i o nd a t a b a s es p a c e - t i m em o d e l i n g i no r d e rt oe m p l o yt h ek i n e m a t i c si n f o r m a t i o ni m p l i e di nt h e3 dm o t i o nd a t a b a s e ,a s p a c e t i m em o d e lw a se s t a b l i s h e & f i r s t , t h em o t i o nd a t ai nm o t i o nd a t a b a s ei sm o d e l e da sa f i r s t - o r d e rm a r k o vp r o c e s s t h a ti s t h et r a n s i t i o nf r o mo n es t a t et ot h en e x to faf i r s t - o r d e r m a r k o vp r o c e s sd e p e n d so n l yo nt h ec u r r e n ts t a t e i nt h eh i g h e rl a y e r , ad a t as t t u e t u r ec a l l e d c l u s t e r 慨i sc o n s t r u c t e da te a c hm o t i o nc l i p t h ee n t i r eh i g h e rl a y e ri st h e nc a l l e dac l u s t e r f o r e s t b a s e do nt h e3 dp o s ee s t i m a t i o np r e v i o u s , a n da tt h es a m et i m e , c o m b i n e dw i t ht h e s p a c e t i m em o d e l i n go f m o t i o nd a t a b a s e ,t h eh u m a nm o t i o nr e c o n s t r u c t i o nf r o mm o t i o nv i d e o i sp r e s e n t e da n dr e a l i z e di nt h i sp a p e rw h i c hi n c l u d e st h r e es t e p s :p r e p r o c e s s i o n ,s p a c e t i m e m o d e l i n go f m o t i o nd a t a b a s ea n dm o t i o nr e c o n s t r u c t i o n i l lt h ep h a s eo fp r e p r o c e s s , t h em o t i o nd a t a b a s ei sd o w ns a m p l e da c c o r d i n gt ot h e p r o p o r t i o nb e t w e e nt h ef r a m er a t eo fm o t i o nv i d e oa n dt h ev i d e or a t e a n d 山e nt h ed a t ai n m o t i o nd a t a b a s ea n dt h em o t i o nv i d e os e q u e n c e sa r ed i v i d e di n t om o t i o nc l i p sc o n t a i n i n g m a n ym o t i o nf r a m e sw i t hf i x e dl e n g t h i nt h ep h a s eo fm o t i o nd a t a b a s em o d e l i n g ,s p a c e - t i m e m o d e li sb u i l t i nt h ep h a s eo fm o t i o nr e c o u s t m c t i o n , t h e i n p u tv i d e os e q u e n c e sa r c ,li;l p,p 摹于视频的三维人体运动捕获方法研究:a b s t r a c t r e c o n s t r u c t e dw i t ht h eg u i d eo fs p a c e t i m em o d e l c o m p a r i n gt h er e c o n s t r u c t e dr e s u l t s o b t a i n e db yo l 】rm e t h o dw i t ht h o s eo b t a i n e dw i t ho t h e ra l g o r i t h ma n dt og r o u n dt r u t h , i tc a nb e s e e nt h a tt h er e c o n s t r u c t i o nr e s u l t sb yo u rm e t h o dp o s s e s sg o o dm o t i o nr e l a t i v i t ya n d a u t h e n t i c i t y a tt h es a m et i m e , i tc a ne f f e c t i v e l yo v e r c o m et h ed i s t u r b a n c ec a u s e db y s e g m e n t a t i o na c c u r a c yo f h u m a ns i l h o u e t t e s k e y w o r d :m o t i o nc a p t u r e :3 dm o t i o nd a t a b a s e gc o n t o u rm a t c h i n g :p o s ee s t i m a t i o n : 3 dp o s er e f i n i n g :m o t i o nr e c o n s t r u c t i o n ; v l j ,l,;, 声明 我声明本论文是我本人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢的地方外,本论文中不包含 其他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做 的任何贡献均已在论文中作了明确的说明并表示了谢意。 名:坪星钙吼砷7 妒9 论文版权使用授权书 本人授权中国科学院计算技术研究所可以保留并向国家有关部门或机 构送交本论文的复印件和电子文档,允许本论文被查阅和借阅,可以将本 论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编本论文。 ( 保密论文在解密后适用本授权书。) 作者躲研量互导师魏如婆吼砌辟,曰眵口 基于税频的三维人体运动捕获方法研究:引言 第一章绪论 计算机视觉是计算机科学和人工智能的一个重要分支。它研究的主要内容,是怎样 利用各种成像系统代替视觉器官作为信号输入手段,由计算机来代替大脑完成对信息的 处理和解释。计算机视觉的最终研究目标,就是使计算机能象人那样通过视觉来观察和 理解世界。其中,基于视频的人体运动分析是计算机视觉研究领域的重要课题之一,也 是近年来备受研究者关注的前沿方向。 1 1 研究背景 围绕人体运动所开展的工作最早可以追溯到1 9 7 3 年心理学家j o h a n s s o n j o h 7 3 】对 于人类的运动感知所作的研究工作。在他的实验里,在人的关节点处附着亮点,使人处 于黑暗的环境中,因此只有关节点可见。实验结果表明:对于静态的光点集合,人的视 觉感知系统无法得出任何有意义的信息,而对于运动中产生的光点集合序列,人们可以 辨别出运动的形态如走路、跑步等,甚至判断出运动者的性别田c k 7 8 】,因此,提出 了运动的识别问题。 几乎是与此同时,7 0 年代中后期,m a r 提出了计算机视觉理论 m a r 8 2 。m a r r 认为, 计算机视觉研究的是如何从一幅或多幅二维图像来动态的获取对对应场景的理解。在这 个理解系统中,视觉系统从下而上分为三个阶段,将视觉过程表述为一个逐步地由底层 特征抽象为高级特征的过程。这三个阶段为:低层视觉、中层视觉和高层视觉。其中, 底层视觉主要是对输入的图像进行图像处理,采用图像滤波、图像增强、边缘检测等手 段从图像中提取出角点、边界、色彩、纹理、区域等基本特征。而中层视觉的主要任务 是恢复三维场景的深度、表面法向等有关场景的2 5 维信息。高层视觉的任务是在原始 输入的图像、图像基本特征、2 5 维图像的基础上恢复物体完整的三维信息,识别三维物 体并确定物体的位置和方向。经过二十多年来的技术发展,计算机视觉技术在理论上和 实践上都得到了飞速发展,与此同时,人体运动分析在高级人机交互、安全监控、医疗 诊断等各个领域显示了同益广泛的应用前景,所以,人们对采用计算机视觉技术解决人 体运动分析问题产生了浓烈的兴趣,进行了深入探索,并取得了许多重要的阶段性的研 究成果 b r e 9 8 1 s b s 0 2 i k m w w 0 2 g s d 0 3 。 即便如此,到目前为止,还没有任何一套系统可以真正鲁棒的从视频序列中恢复人 体的运动信息和三维结构究其原因,主要是由于问题本身的困难性决定的,概括起来, 有以下几点: 1 ) 人体结构 一 人体是非刚体,而且结构复杂;其次,人体运动是一个复杂的运动系统,人体的运 摹f 税频的三维人体运动捕获方法研究;引育 动具有很大的自由度和高度的非线性特点。此外,人体外表由于穿着服装,一次人体的 外观表现出极大的差异,很难用统一的模型加以表达。正是由于上述问题的存在,目前, 对于人体运动分析的研究工作,都是从不同的角度入手,采用各类不同的约束与前提条 件来简化人体的结构描述。 2 ) 运动分割 快速准确的运动分割是个相当重要但又是比较困难的问题。这是由于动念环境中捕 捉的图像受到多方面的影响,比如天气的变化、光照条件的变化、背景的混乱干扰、运 动目标的影子、物体与环境之间或者物体与物体之间的遮挡、甚至摄像机的运动等,这 些都给准确有效的运动分割带来了困难。 3 ) 遮挡处理 目前,大部分的运动重构系统都不能很好地解决目标之间互遮挡和人体自遮挡问题。 遮挡时,人体只有部分是可见的,而且这个过程一般是不可训练的。另外,一般系统也不 能完成何时停止和重新开始身体部分的跟踪,即遮挡前后的跟踪初始化缺少自举方法。 4 ) 对于任意视频的摄像机定标 摄像机定标是计算机视觉领域中从二维图像提取出三维信息的必不可少的步骤。在 基于视频的人体运动重构中,人们为了保证精度,一般都采用了步骤繁琐的基于标定参 照物的方法。这极大的限制了视频的来源和采集。所以,现有方法都只能对特定采集的 视频进行处理。不能处理任意给定的视频,这极大地限制了基于视频人体运动重构的应 用领域。 由此可见,由于存在的众多技术难点,已有研究工作在精度、效率和可靠性等方面 还难以满足实际应用中人们对自然和谐人机交互的需求。这就促使我们另辟蹊径,探讨 基于视频的运动重构研究领域中的新方法,新思路。本文中,我们将研究基于高动态运 动视频的3 d 连续运动生成,并以蹦床运动为实例应用领域,具体研究领域内3 d 人体运 动数据库的建立,基于视频的3 d 人体姿态重构,基于视频内容的3 d 人体姿态求精,基 于运动库时空模型的运动重构等技术步骤,并由此实现基于视频的人体运动提取。 1 2 研究目的与意义 基于视频的人体运动分析不仅具有极其重要的研究意义,而且在智能监控、体育运 动分析、动画生成、人机交互、视频会议、医疗诊断、虚拟现实等方面具有广阔的应用 前景,因此,它吸引了越来越多的研究者的兴趣。其应用领域具体表现在以下几个方面: ( 1 ) 智能监控系统( s m a r ts u r v e i l l a n c es y s t e m s ) 个应用是在访问控f l ;f j ( a c e e s sc o n t r 0 1 ) 场合识别个人的身份。通过进行人脸的识别、 步态的分析等,决定来人是否有进入该安全区域的权利。另外一个应用则更关注于人在 该场景下的动作( 而不是仅仅识别人的身份) ,主要来自那些对于安全要求敏感的场合, 2 摹于视频的三维人体运动捕获方法研究:引肓 如停车场、超市、自动贩卖机、a t m 和交通管理等。当场景里出现可疑行为时,能及时 向保安人员发出警报的监控系统,从而避免犯罪的发生。 ( 2 ) 虚拟现实( v i r t u a lr e a l i t y ) 虚拟现实的目的就是为人们提供一个虚拟的交互世界。而在这个虚拟世界中,我们 想要再现一个用户的动作姿态,就必须首先获得他在真实物理空间中的人体的姿态,然 后映射到虚拟空间中去。这也就是需要用到人体运动视觉分析的原因。增加用户的手势、 头部运动和面部表情等方面的表达,将提供给用户更加广阔的交互空间。另外,人的运 动分析在虚拟游戏、视频会议、人物动画制作等虚拟现实场合也有着相当广泛的应用。 ( 3 ) 高级用户接口( a d v a n c e d u s e o l i n t e r f a c e s ) 在未来的人机交互中,我们希望机器能像人一样,将视觉信息作为语音和自然语言 的有效补充来完成更加智能化的人机交互。这就需要计算机除了传统的键盘鼠标外,还 具备独立感知外部环境的能力,提取环境中的有效信息( 如检测到人的存在) ,并进一步 进行人体姿势的识别和行为理解,结合面部表情,身体姿势和手势等来与人进行高层次 的人机交互。 ( 4 ) 运动分析( m o t i o na n a l y s i s ) 运动分析主要是在三个方面的应用。一是从体育运动的数据库中进行基于内容的图 像搜索。二是在舞蹈、运动等训练中,用视觉的方法建立人体的几何模型,通过关节的 运动分析来指导、纠正训练者的动作,可以达到非常直观的效果。三是在医学步念分析 中的运用。目前的医学步态分析是一个旨在提供诊断和治疗支持的研究领域。 ( 5 ) 基于模型的图像编码( m o d e l - b a s e di m a g ec o d i n g ) 在远距离数字图像的传送中,人脸和人体姿势是我们比较关心的,也是出现的比较 多的内容。所以,我们可以对人脸和人体进行参数化建模,图像传输时,发送方仅将这 些参数进行编码传输,接收方再通过收到的参数恢复出原来的人脸或人体姿势。这样可 以达到大大减少传输的数据量的目的。 1 3 论文概要及成果 本文针对人体运动视觉分析中的3 d 运动重构问题进行了研究,重点研究如何从蹦 床、体操等复杂高动态视频中提取人体3 d 运动信息。并取得了以下研究成果: l 、在总体思想与方法上,提出了一种新的基于视频的3 d 人体运动生成方法 从运动视频中获取人体的3 d 运动信息是一个非常困难的问题。目前国内外的研究 成果,都是只能对特定条件下采集的运动视频进行处理,并且只能针对例如走,跑步等 简单的周期性运动类型。我们针对记录人体复杂运动的商动态运动视频,进行了基于视 基于视频的三维人体运动捕获方法研究;引言 频的3 d 运动信息生成的研究,旨在得到3 d 人体运动数据的精确、整体描述。在研究策 略中,我们加入了一些基于领域的知识,即,针对某种运动类型,充分利用基于领域内 采集的3 d 运动数据库,同时,采用视频图像处理与学习策略相结合的策略来提取视频 中的人体3 d 运动信息。我们选用蹦床运动视频作为研究实例,并通过大量实验数据进 行了验证实验结果表明,本文的方法避免了摄像机定标的繁琐计算过程,能对任意给 定的运动视频进行处理:其次,由于采用基于领域的学习策略,与现有方法相比,本文 的方法在计算稳定性与结果精度方面都有了很大的提高:重构效率可以达到次线性级 ( s u b - l i n e a r ) ,能基本满足实时处理的要求;同时,经过量化测试,在输入视频数据较为 理想的情况下,姿态重构的成功率稳定在9 7 以上;而且算法对图像噪声也具有较好的 鲁棒性,在视频图像具有较大噪声的情况下,其姿态重构成功率也可以达到9 4 5 。在 此基础上获取的连续3 d 人体运动数据也体现了良好的运动相关性和物理真实性。 2 、提出了一种基于轮廓相似性匹配的人体姿态重构方法 3 d 人体姿态重构是基于视频的3 d 人体运动生成的基础。本文中,我们提出了一种 改进的基于轮廓相似性匹配的人体姿态重构方法。该方法将经典的h u 矩不变量与仿射 矩不变量( a m i s ) 相结合。实践证明,与经典的h u 矩方法相比,基于h u 矩不变量与仿射 矩不变量( a m i s ) 相结合的方法不仅修正了h u 矩方法中由于旋转不变性所导致的误差。 而且计算的总体效率也提高了l o 以上。 。 为了进一步提高姿态重构的精度和计算效率,我们采用基于e m d ( e a r t h m o v e r s d i s t a n c e ) 的方法进行优化处理;同时,为了加快执行效率,我们用l s h c l o c a l s e n s i t i v e h a s h i n g ) 来对数据库建立索引;另外,为了提高匹配结果对轮廓噪声的鲁棒性,我们对 轮廓特征引入形状上下文( s h a p ec o n t e x t ) 的描述。实验表明,经过这一系列的优化处理以 后,在轮廓提取质量较为理想的情况下,姿态重构的成功率稳定在9 7 以上,该方法对 图像噪声也具有较好的鲁棒性,在视频图像具有较大噪声的情况下,其姿态重构成功率 也可以达到9 4 5 。执行效率更是达到次线性级( s u b - l i n e a r ) ,能基本满足基于视频的人 体姿态重构中实时处理的要求。 3 、提出了一种基于视频内容的3 d 人体姿态求精方法 , 所谓基于视频内容的3 d 人体姿态求精,就是在已知初始人体3 d 姿态信息的基础上, 根据视频中人体轮廓信息,将初始人体3 d 姿态进行变形,从而得到与视频中对应的精 。 确的3 d 人体结构信息。在我们的实际应用中,我们结合基于点集的轮廓匹配方法,同 时综合利用2 d 骨架信息,来解决基于视频内容的人体姿态求精问题。实验结果表明, 与目前国内外现有方法相比,我们的方法不仅能够保证处理结果的精度,而且只需要通 过简单高效的2 d 运算就可以实现变形求精。另外,我们的变形技术是基于通用的处理 框架,可用于各种类型的已知初始3 d 信息的运动对象的姿态求精处理,体现了良好的 4 摹于视频的三维人体运动捕获方法研究:引苦 通用性。 4 、提出了一个基于3 d 运动库的时空模型,并以此为基础,提出了一种3 1 ) 连续运 动生成方法 为了充分利用3 d 运动数据库中所蕴含的丰富的人体结构信息以及运动相关性等运 动学信息,我们对3 d 运动库中的数据建立时空模型。即建立各个定长数据段之白j 的空 间结构相似度模型以及时间概率转移模型。 以运动库时空模型为基础,结合人体姿态重构,我们提出了一种3 d 连续运动生成 方法。该方法包括预处理、运动库建模,以及连续运动生成3 个阶段。在预处理阶段, 首先根据运动库的数据采集帧率与视频帧率的比例对3 d 运动库中的数据进行下采样 f d o w n - s a m p l e ) ,然后对3 d 运动库中的连续数据进行定长分段,同时,对待重构的视频 序列也进行同样的分段处理。然后,在建模阶段,莸们对运动数据库进行时空建模。在 连续运动生成阶段,对于输入的视频序列,以3 d 人体姿态重构为基础,以3 d 运动库的 时一空模型为指导,就可以进行自动化的人体运动重构,从而得到连续的3 d 人体运动 信息。通过对重构结果的量化分析以及与真实3 d 运动数据的对比,证明了重构的运动 数据不仅具有良好的运动相关性,而且与真实结果数据相吻合,具备了良好的物理真实 性。 1 4 论文的组织 第l 章,简介论文。给出论文的研究背景,贡献以及论文的整体框架。 第2 章,从处理层次角度出发,对基于视频的人体运动分析的研究领域进行了综述 总结,并归纳了问题的难点和今后的技术发展趋势。 第3 章,介绍基于视频的人体运动生成技术的系统总体框架。 第4 章,介绍了一种基于视觉不变量的3 d 人体姿态重构方法。 第5 章,介绍了一种基于e m d 优化思想的快速3 d 人体姿态重构方法。主要描述 了e m d 、l s h 以及s h a p ec o n t e x t 的算法原理,以及构建在它们之上的快速3 d 姿态重 构技术。 第6 章,介绍了一种结合采样点集匹配和2 d 骨架的3 d 姿态求精技术。即在已知初 始3 d 姿态重构结果的基础上,通过求精技术,得到遵循视频内容的精确的人体姿态3 d 数据。 第7 章,研究了基于3 d 运动数据库的时空建模,以及以此为基础的人体运动重构 技术。 第8 章,对整个论文进行了总结,并给出了将来的研究方向。 t 、 蕞于视频的三维人体运动捕获方法研究:摹于视频的人体运动分析综述 第二章基于视频的人体运动分析综述 基于视频的人体运动分析是近年来模式识别、智能人机接口以及虚拟现实等研究领 域中一个备受关注的前沿方向。 人体运动分析指的是运用某种手段跟踪、捕获人体运动,获得人体的运动参数并从 中重建人体的结构和姿态,从而达到对人体的运动加以理解并应用的目的。就广义而言

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论