(信号与信息处理专业论文)无标记人体运动捕捉及姿态估计的研究.pdf_第1页
(信号与信息处理专业论文)无标记人体运动捕捉及姿态估计的研究.pdf_第2页
(信号与信息处理专业论文)无标记人体运动捕捉及姿态估计的研究.pdf_第3页
(信号与信息处理专业论文)无标记人体运动捕捉及姿态估计的研究.pdf_第4页
(信号与信息处理专业论文)无标记人体运动捕捉及姿态估计的研究.pdf_第5页
已阅读5页,还剩137页未读 继续免费阅读

(信号与信息处理专业论文)无标记人体运动捕捉及姿态估计的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 人类感知外界信息,8 0 以上是通过视觉得到的,让计算机具有视觉是人类 多年以来的梦想。随着人机交互技术的发展,人与计算机之间自然的、多模态的 交互将成为人与计算机之间交互的主要方式。而这首先就需要计算机可以正确地 理解和捕捉入的行为,运动捕捉正是在这种背景下提出来。运动捕捉是指检测和 记录运动目标( 通常是人) 的动作或表情,并将其转化为数字化的“抽象运动”的技 术,其结果则表示为不同时刻目标所处的姿态。它是新一代人机交互的关键技术 之一,同时也可应用于动画游戏制作、运动分析、虚拟现实、智能监控及模型基 编码等领域。 基于视觉的人体运动捕捉具有非入侵、成本低、智能化等优点。从图像序列 中获取人体的姿态信息已经成为运动捕捉领域的热点之一然而由于存在人体的 非刚体运动、三维空间到二维图像平面投影的多义性、人体的遮挡与自遮挡、高 维状态空间搜索、复杂条件下的图像特征提取与匹配等方面的困难,从视频图像 中恢复出人体三维运动姿态存在大量的不确定性。因此三维人体运动捕捉是计算 机视觉领域一项非常有挑战性的任务。本文正是从计算机视觉的角度出发,对基 于视觉的人体运动捕捉和姿态估计进行了深入地研究,其取得的主要成果可以总 结如下: 1 提出了一种集多种约束功能的活动轮廓运动目标提取算法,即 m c - g m m - a c t i v ec o n t o u r s 。它在活动轮廓的框架之下引入了对g m m 背景模型的描述。 为了有效地利用前一帧已经获得的前景目标的有关信息,能量函数中引入了前景 颜色模型。为了有效的抑制阴影,能量函数中引入了阴影消除能量项来代替以往 独立的阴影消除模块。人们对物体的认识主要是来自于其外形轮廓,而能量函数 的曲率约束项则将目标轮廓及先验知识约束统一于运动目标提取的过程之中。能 量函数的优化采用曲线演化及水平集方法来优化目标函数的方法。而在水平集的 数值解中,采用了半隐式无条件稳定的加性算子分裂算法( a d d i t i v eo p e r a t o r s p l i t t i n g ,a o s ) 。这些使得我们在固定摄像机条件下,获得了比通常算法更准确 和快速的运动目标提取算法。 2 提出了一种结合改进的三维动态马尔可夫随机场( h a r k o vr a n d o mf i e l d s ) 和距离能量模型( d i s t a n c ee n e r g ym o d e l ) 的姿态估计方法( m - m r f - d e m ) 。相比以 往基于m r f 的运动捕捉算法,有如下的改进:为了使模型与表演者任何时候都合身 紧凑,我们提出了一种基于骨架模型的自适应距离能量模型。它可以根据姿态估 计过程中的反馈,对人体模型进行在线更新。为了可以更有效的描述m r f 中体素之 间的关系,我们采用了一个更准确的二元交互势。为了能更好地约束人体运动姿 态的合理性,我们引入了更合理的附加约束项。实验表明改进后的算法使得估计 的姿态更为鲁棒。 3 提出了一种无需目标提取的3 d 活动轮廓运动捕捉算法。该方法不再把运动 目标提取和姿态估计作为两个独立的模块相继处理。以往的运动目标提取模块提 取出人体轮廓之后,后续的处理步骤只关注图像中轮廓以内的部分,这使得后续 步骤中信息出现丢失。同时这也使得后续的处理过分依赖目标提取的结果,一旦 目标提取存在错误则在后续步骤中无法恢复。而基于3 d 活动轮廓的人体运动捕捉 将人体的目标提取与姿态估计无缝地整合到活动轮廓的框架下,借助于人体模型, 将运动捕捉与三维重建两个任务有机地结合起来,克服了前面的缺点。同时该算 法引入了人体运动先验约束项来抑制三维数据中摄像机遮挡带来的影响,这些改 进使得我们的算法获得比通常算法具有更高效率和更加鲁棒的效果。 4 提出了一种基于2 d 活动轮廓的强先验运动目标分割与人体姿态估计算法。 该方法同样不再把运动目标提取作为一个独立的模块来单独处理。但是在很多情 况下,人们不仅需要得到更加精确姿态估计,同时也要获得运动目标分割的较好 结果。因此本方法致力于同时获得人体的姿态和目标分割的更好结果。本方法仍 以人体模型为基础,将运动捕捉和目标分割统一在活动轮廓的框架之下。一方面 人体模型的强先验知识可以指导目标分割获得更好的分割效果,另一方面好的目 标提取效果又使得姿态估计有更高的精度。 关键词:运动捕捉,姿态估计,m r f ,运动目标提取,人体模型,活动轮廓,水平 集,曲线演化 a bs t r a c t e i g h t yp e r c e n t so ft h ei n f o r m a t i o nh u m a ng e tf r o mo u t s i d ea t eo b t a i o n e d t h r o u g ht h ev i s i o n l e tc o m p u t e rh a v eh u m a n l i k ev i s i o nc a p a b i l i t yi sa d r e a mo fr e s e a r c h e r sf o rm a n yy e a r s w it ht h ed e v e l o p m e n to ft h e h u m a n - c o m p u t e ri n t e r a c t i o nt e c h n o l o g y ,t h en a t u r a la n dm u l t - m o d a l i n t e r a c t i o nb e t w e e nh u m a na n dc o m p u t e rw il lb e c o m et h em a i nf o r mo ft h e i n t e r a c t i o n b u tt h isr e q u i r e st h ec o m p u t e rc a nc a p t u r ea n du n d e r s t a n dt h e b e h a v i o r so ft h eh u m a nc o r r e c t l y m o t i o nc a p t u r ei sp r o p o s e du n d e rt h i s s i t u a t i o n t h eg o a lo fm o t i o nc a p t u r ei st od e t e c ta n dr e c o r dt h em o t i o n a n de x p r e s s i o no fm o v i n go b j e c t s ,w h i c hc a nb er e p r e s e n t e da sp o s e so ft h e o b j e c t sa ta n yt i m e ,a n dt h e nc o n v e r t e dt oa b s t r a c td i g i t a lf o r m a t i ti s o n eo ft h ek e yt e c h n o l o g i e so fn e wg e n e r a t i o no fh u m a n - c o m p u t e ri n t e r a c t i o n i ta l s oa p p li e st ot h eg a m ep r o d u c t i o n ,s p o r t sa n a l y s i s ,v i r t u a lr e a l i t y , i n t e lli g e n tc o n t r o la n dm o d e l b a s e dc o d i n ge t c v i s i o nb a s e d h u m a nb o d ym o t i o nc a p t u r eh a st h em e r i t so fn o n - i n v a s i v e , l o wc o s t ,i n t e l l i g e n c ea n ds oo n r e c o v e r i n gh u m a nb o d yp o s e sf r o mi m a g e s e q u e n c eh a sb e c o m eo n eo ft h eh o t s p o t si nm o t i o nc a p t u r er e s e a r c hf i e l d w h il eb e c a u s eo ft h ed i f f i c u l t i e so fn o n - r i g i dh u m a nb o d ym o v i n g ,2 d - 3 d p r o j e c t i o n ,s e l fo c c l u s i o n ,o c c l u s i o n sa n ds e l f - o c c l u s i o n s ,h i g h d i m e n s i o n a li t yo fs t a t es p a c ea n di m a g ef e a t u r e se x t r a c t i o nu n d e rc l u t t e r , i t i sac h a l l e n g i n gt a s ki nt h ef i e l do fc o m p u t e rv i s i o n i nt h i s d i s s e r t a t i o n ,v i s i o n - b a s e dm a r k e r l e s sm o t i o nc a p t u r ei si n v e s t i g a t e d m a i n c o n t r i b u t i o n so ft h i st h e s i sc a nb es u m m a r i z e da sf o l l o w s : 1 w ep r o p o s eam u l t i c o n s t r a i n ta c t i v ec o n t o u r sb a s e dm e t h o df o r m o v i n go b j e c te x t r a c t i o n ( m c - g m m - a c t i v ec o n t o u r s ) i ti m p o r t st h eg m m b a c k g r o u n dm o d e ld e s c r i p t i o nu n d e rt h ef r a m e w o r ko fa c t i v ec o n t o u r s i n o r d e rt og e tt h ei n f o r m a t i o no ft a r g e ti nf o r m e rf r a m e ,w ei n t r o d u c et h e t h ef o r e g r o u n dc o l o rm o d e li n t ot h ee n e r g yf u n c ti o n d if e r e n c ef r o mt h e v p a s tm e t h o d 。w eu s eas h a d o we l i m i n a t i o nt e r mi ne n e r g yf u n c t i o nt oi n h i b i t t h es h a d o wi n s t e a do fa ni n d e p e n d e n tm o d u l e p e o p l er e c o g n i z eo b j e c t s , m a i n l yf r o mt h eo u t l i n eo ft h e i rs h a p e t h ec u r v a t u r ec o n s t r a i n ti ne n e r g y f u n c t i o nw i l li n t r o d u c et h er e s t r i c t i o no ft h et a r g e tp r o f i l ea n dap r i o r i k n o w l e d g ec o n s t r a i n ti n t ot h em o v i n go b j e c te x t r a c t i o n w eu s ec u r v e e v o l u t i o na n dl e v e ls e tm e t h o dt oo p t i m i z et h ee n e r g yf u n c t i o n a tl a s t w eu s et h eu n c o n d i t i o n a l l ys t a b l es e m i i m p l i c i ta d d i t i v eo p e r a t o r s p l i t t i n ga l g o r i t h mi nl e v e ls e tn u m e r i c a ls o l u t i o n a l lt h e s em a k eu sc a n g e tt h ea c c u r a t ee x t r a c t i o no fm o v i n go b j e c tf o r ms t a t i cc a m e r a 2 an e wp o s ee s t i m a t i o nm e t h o dc o m b i n a t i o no fm r fa n dan e wd i s t a n c e e n e r g ym o d e li sp r o p o s e d c o m p a r e dt ot h ep a s tm r f - b a s e dm o t i o nc a p t u r e a l g o r i t h m , t h em e t h o dh a st h ef o l l o w i n gi m p r o v e m e n t s :i no r d e rt om a k et h e h u m a nm o d e lf itf o rt h ep e r f o r m e r ,w ep r o p o s ea na d a p ti v ed is t a n c ee n e r g y m o d e lb a s e do nt h es k e l e t o nm o d e l ,i tc a nb eu p d a t e do n li n ea c c o r d i n gt o t h ef e e d b a c ki nt h ep r o c e s so fp o s ee s t i m a t i o n ;w eu s eam o r ee f f e c t i v e b i n a r yi n t e r a c t i o nt e r mi ne n e r g yf u n c t i o na c c o r d i n gt ot h er e l a t i o n s h i p b e t w e e nv o x e l s i no r d e rt or e s t r i c tt h er a t i o n a l i t yo ft h ep o s eo fh u m a n b o d y ,w ei n t r o d u c eam o r ee f f e c t i v ea d d i t i o n a lc o n s t r a i n ti ne n e r g y f u n c ti o n 3 a3 da c t i v ec o n t o u r sb a s e dm o t i o nc a p t u r ea l g o r i t h mi sp r o p o s e d t h i sm e t h o dn ol o n g e rc o n s i d e r st h em o v i n go b j e c te x t r a c t i o na sa n i n d e p e n d e n tm o d u l ei nm o t i o nc a p t u r e p r e v i o u sm e t h o d so fp o s ee s t i m a t i o n w o r kb a s e do nt h et a r g e te x t r a c t i o nr e s u l t ,a n do n l yd e a lw i t ht h ei m a g e w i t h i nt h ec o n t o u ro ft a r g e t o n c et h e r ei sa n ye r r o ri nt h et a r g e t e x t r a c t i o ns t e p ,t h ee r r o rc a n n o tb er e c t i f i e di nt h ef o l l o w i n gs t e p s o u r a c t i v ec o n t o u r sb a s e d3 dh u m a nm o t i o nc a p t u r em e t h o ds e a m l e s s l yi n t e g r a t e s t h et a r g e te x t r a c t i o na n dp o s ee s t i m a t i o ni n t ot h ea c t i v ec o n t o u r s f r a m e w o r k ,a n dc o m b i n e st h et a s k so fm o t i o nc a p t u r ea n d3 dr e c o n s t r u c t i o n a tt h es a m et i m e ,t h ea l g o r i t h mi n t r o d u c e sap r i o r ic o n s t r a i n to fh u m a n m o t i o nt or e s t r i c tt h eh u m a np o s e t h e s ei m p r o v e m e n t sm a k eo u ra l g o r i t h m t og e tb e t t e re f f e c t st h a ng e n e r a la l g o r i t h m s 4 a2 da c t i v ec o n t o u r sb a s e ds t r o n gp r i o r sm o v i n go b j e c ts e g m e n t a t i o n a n dp o s ee s t i m a t i o nm e t h o di sp r o p o s e d i nm a n yc a s e s ,p e o p l en o to n l yw a n t t og e tm o r ea c c u r a t ep o s ee s ti m a t i o nr e s u l t ,t h e ya l s ow a n tt og e tab e t t e r r e s u l to fm o v i n go b j e c ts e g m e n t a t i o n t h e r e f o r e ,t h i sm e t h o di sc o m m i t t e d t og e tt h eb o d y sp o s ea n dab e t t e rh u m a nb o d ys e g m e n t a t i o nr e s u l t s i m u l t a n e o u s l y t h i sm e t h o ds t i l lw o r k sb a s e do nt h eh u m a nb o d ym o d e l ,a n d c o m b i n e st h et a s k so fm o t i o nc a p t u r ea n dm o v i n go b j e c ts e n g m e n t a t i o nu n d e r t h ea c t i v ec o n t o u r sf r a m e w o r k o no n eh a n d ,t h es t r o n gp r i o rc a na l l o wt h e m o v i n go b j e c tg e tb e t t e rs e g m e n t a t i o nr e s u l t s o nt h eo t h e rh a n d 。t h eb e t t e r t a r g e ts e g m e n t a t i o na l s om a k e st h ep o s ee s t i m a t i o no b t a i nh i g h e rp r e c i s i o n k e y w o r d s :m o t i o nc a p t u r e ,p o s ee s t i m a t i o n m r f 。m o v i n go b j e c t e x t r a c ti o n ,h u m a nm o d e l ,a c ti v ec o n t o u r s ,l e v e ls e t ,c u r v ee v o l v e m e n t v n 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研 究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或 撰写过的研究成果,也不包含为获得北京交通大学或其他教育机构的学位或证书 而使用过的材料与我一同工作的同志对本研究所做的任何贡献均已在论文中作 了明确的说明并表示了谢意。 鹕。劢细捌飙1 年乡月乡日 1 4 1 学位论文版权使用授权书 本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特 授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索, 并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国 家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 导师虢勘砖 签字日期:锄嵋年月c 穹日 1 1论文的研究背景 第一章绪论 人机交互( h u m a n - c o m p u t e ri n t e r a c t i o n ,简称h c i ) 是指人与计算机之间的交 流与交互它使计算机在最大程度上为人们完成信息管理、服务和处理等功能, 成为人们生活、工作和学习的和谐助手的一门技术科学。它包括交互的方式、方 法、设备和界面。 在过去几十年的计算机科学研究中,研究人员长期致力于计算机自身计算、 存储能力的提高和计算机之间通信能力的加强。实际上随着计算机软硬件的发展 和计算机的迅速普及,人机交互接口的方便程度已经越来越成为制约计算机进一 步发展的重要瓶颈。上个世纪鼠标的出现在很大程度上改善了人机之间的交互方 式。然而,目前大量使用的窗口系统使得人机之间的交互方式过于呆板和形式化, 极大地限制了人和计算机之间的自由交互。随着虚拟现实、可穿着计算机等新技 术的出现,这种限制越发明显。 我们认为,从计算机诞生之日起,人机交互技术的发展已经经历了三个阶段, 即基于键盘和字符显示器的第一代交互方式,其中交互内容主要为字符、文本和 命令;基于鼠标和图形显示器的第二代交互方式,其交互内容主要体现在字符、 图形和图像上;随着多媒体技术的发展,在八十年代逐渐形成基于多媒体( 声、 像、图、文) 的第三代交互方式。然而,在这种交互方式中,不同媒体之间还难 以进行转换,各媒体之间或者相互独立,或者仅在数据级上有部分融合,所以基 产生的性能本质上未超出个别媒体的“总和”。这三个阶段基本上是由人手操作 的,还不能象人与人交互那样通过听、视觉达到自然交互的程度。今天,信息存 储的网络化、信息交换的大众化和国际化、个体信息需求的多样化和个性化都迫 切地需要一种类似于人类之间交互的自然的、和谐的、简便的人机交互方式。现 有的以键盘和鼠标为媒介的人机交互方式已经不能满足人们的需要。“人们希望 计算机能够看、听、讲,甚至理解人类的意图,并能够进行实时处理”。 1 1 1 第四代人机自然交互与通信 从七十年代末、八十年代初,随着对人机交互技术的不断认识,国际上一些 研究机构开始研究区别于以往交互方式的人机交互,并形成了一个新的研究领 域一多模态人机交互。其主流做法是借鉴人类交互方式,将多个不同的模态引 入到人机交互过程,如语音、手势、体态、表情、触觉及眼睛的注视等,使计算 机能够与人进行自然的交互,改变目前计算机盲、聋、哑的状态,达到听、说、 看的水平。 近些年来,随着虚拟现实、计算机视觉、三维可视化及图像处理等技术的发 展,很多大学和科研组织都成立了专门的研究开发小组。其中比较有影响力的有 m i t 媒体实验室p e n t l a n d 等主持的智能屋、智能桌、智能服 s m a r t - r o o m ,卡内 基梅隆大学的交互系统实验室 c 删一i s l ,日内瓦大学m i r a l a b 的虚拟人合成及 交互通信 m i m 让a b ,s r l 人工智能中,t ) , c h e y e r 等的多模态地图、宾夕法尼亚州立 大学s h a r m a 的i m a p 等。除此之外,i b m 、微软等公司也纷纷投入大量资金和人 力到这一研究领域。 第四代入机自然交互与通信在国内也有相应的研究。其中比较有代表的项目 包括:中科院自动化所开发的多模态交互式智能轮椅 s m a r t - c h a i r ,它集模式识别、 多传感器融合和多模态人机交互等技术于一体。它可以灵敏地探测到行进过程中 的各种障碍,灵活、及时地躲避,可以较好的理解人的思维和命令,实现简单的 人机对话功能,使人能更自然地控制轮椅。中科院计算所高文教授等建立的一个 基于多模态接口技术的聋哑人与正常人的“对话”系统 g a 0 0 0 ,将手语识别、手 语合成、唇读、人脸特征检测以及特定人面部动画相结合,构成了手语转换和口 语交流的代理,作为聋哑人和听力正常人的桥梁,使聋哑人与正常人进行交流。 这种类似于人类之间交流的( 类) 自然交互方式,开辟了新一代人机交互研究的 方向。 在中科院计算所和北京交通大学联合申请的国家自然科学基金重点项目“多 功能感知机”的研究中 z h o n 9 0 1 ,结合当前计算机视觉、计算机听觉、虚拟现实 及人工智能等领域的研究成果,提出了新一代一第四代人机交互与通信的概念框 架 y u a n 0 3 :它是一种以多模信息交互为输入输出,以a g e n t 为交互通信界面,具 有基于知识内容对话的网络信息交互和检索能力,并具有二维和三维的虚拟交互 2 环境和对景物的感知理解。它的结构模型可用图1 1 表示。在第四代人机交互系 统中,视觉信息的交互需要由传统的二维交互方式( 文字、符号、图片) 向三维 可视化交互方式发展以实现真实感、智能化的人机交互。 第四代人机交互通信系统具有以下4 个标志性特征 w a n 9 0 1 : 交互手段:具有多模感知( 听觉、视觉、手势、笔势等) 功能,完成人机交 互; 交互方式:通过基于a g e n t 的听、视觉对话,完成人机交互的界面操作i 交互内容:具有网络数据仓库和基于内容检索的知识检索和处理能力; 交互环境:可具有二维或三维真实感的计算机虚拟环境中实现人机交互和对 景物的感知理解。 用 户 环 境 多模态输入 知识处理 智能接口 a g e n , i i n t e r n e t ii i n t e m e t | 1 信息服务r 1 数据仓库 一 多模态输出卜 + - 对话系统卜 其他应用 1 视觉获取l 融合 f 视觉合成卜忆勰境 图1 1 第四代人机自然交互与通信的概念模型 基于第四代人机交互与通信系统的概念,在“多功能感知机 项目的研究中, 建立了第四代人机交互通信的实验平台,如图1 2 所示。 3 昌勘昌 视觉系统 多媒体数据库 a v r 虚拟环境 ii 以太网( 1 0 0 m b s ) l 一, 对话系统 a g e n t i n t c m e t 信使服务 图1 2 第四代人机交互与通信实验平台 1 1 2 运动捕捉是第四代人机交互中的关键技术之一 人类感知外界信息,8 0 以上是通过视觉得到的,让计算机具有视觉是人类 多年以来的梦想。第四代人机交互强调了人与计算机之间自然的、多模态的交互 将成为人与计算机之间交互的主要方式。而这首先就需要计算机可以正确的理解 和捕捉人的行为。运动捕捉正是在这种背景下提出来。简单来说运动捕捉是指检 测和记录运动目标( 通常是人) 的动作或表情,并将其转化为数字化的“抽象运动” 的技术,其结果则表示为不同时刻目标所处的姿态。作为计算机视觉和机器学习 领域内的研究热点,运动捕捉是第四代人机交互的关键技术之一。国际上i b m 与 m i c r o s o f t 等公司也正逐步将基于视觉的手势识别接口应用于商业领域中 m a g g i o n i 9 8 f r e e m a n 9 5 。同时国内外一些重要学术机构都进行了人的识别和行 为理解方面的研究。结合面部表情、身体姿势和手势等的分析来进行人机交互 b r e g l e r 0 4 d e u t s c h e r 0 0 s m i n c h i s e s c u 0 1 n i n 9 0 2 。在机场等高噪声的场合, 基于视觉的人机交互接口能够提供比语音识别更加准确的信息输入。 在第四代人机交互中,运动捕捉技术决定着计算机是否可能正确地捕捉人体 的运动,获取人的指令和信息等。在人机交互中,自然交互中已经获得了很高的 重视,利用人的语言进行人机交互也取得了很大的发展。但是除此之外,却缺乏 其他的交互手段。而人体运动捕捉正为人机交互提供了一种交互手段。获取人体 的三维运动信息对于人来说非常简单,但是对于计算机来说却具有很大的挑战性。 这个问题一旦可以得到有效地解决,计算机就能够正确地理解人通过运动、手势 4 甚至表情所发出的指令,并作出相应的反应。 第四代人机交互具有二维和三维真实和虚拟的环境集成能力。具体来说,这 就是需要计算机将现实中的场景,如生活环境、工作环境、社交场景等,在计算 机系统生成的虚拟环境中真实地再现出来,也就是需要第四代人机交互中计算机 系统具有将真实世界的场景转化为虚拟现实中的3 d 模型的能力。这样用户就可以 通过虚拟的交互环境,获得现实中很难甚至无法接触到的信息。比如说得到远程 机器人的工作状态。在具体的可操作性的技术上,研究人员往往采用计算机视觉 与计算机图形学相结合技术。其中较有特色的是,袁保宗教授提出的a v r 理论框架 ( f r o ma c t u a lr e a l i t yt ov i r t u a lr e a l i t y ) ,即由真实世界转换成虚拟世界。 a v r 技术以真实世界中的三维景物的投影图像为输入,以达到三维物体的重建 目的。而借助运动捕捉技术,我们能够提取出场景中人或其他运动主体的运动信 息。借助于计算机图形学技术,这些运动信息可以用来驱动计算机内部的几何模 型,合成真实感很强的虚拟运动。因此,运动捕捉技术是全面解决a v r 问题非常重 要的一环,它为第四代人机交互技术提供了动态的交互环境。 1 1 3运动捕捉在其它领域的应用 除了人机交互之外,运动捕捉还在智能监控、体育运动分析、动画合成、视 频会议、医疗诊断、虚拟现实等方面有着广阔的应用前景。正由于此,它吸引着 越来越多的研究人员的广泛参与。具体来说,运动捕捉的应用领域还包括如下几 个方面: ( 1 ) 智能监控: 智能监控系统的需求主要来自那些对安全要求敏感的场合,如机场、地铁、 银行、a t m 、商店、停车场等。智能监控系统可以监控多个或单个目标( 主要是人) , 分析其行为,判断他们是否有偷窃行为或异常动作,以便能及时发出警报,避免 犯罪的发生 h u 0 4 。另外,人的运动分析在交通管理、公共场所行人的拥挤状态 分析及商店中消费者流量统计 k e 0 7 等监控方面也有着相应的应用。 ( 2 ) 电影和动画制作: 现代的影视娱乐行业也大量使用了三维动画技术。目前通过运动跟踪技术将 表演者的动作和表情记录下来,然后将其映射到所需的模型中就得到了非常逼真 5 的动画效果。如2 0 0 1 年的电影“最终幻想”就是首部完全基于运动跟踪技术诞生 的。 可以想象,先用三维扫描技术对一个八十岁的白发老人进行扫描,形成一个 数字化人物模型,然后将乔丹的动作捕捉下来,用以驱动老人模型的运动,观众 将看到八十老人在空中扣篮精彩离奇的场面。这种制作技术大大提高了动画的制 作水平,将动画艺术和动画技术进一步紧密结合,为动画艺术创作提供了更广阔 的空间,不但使动画人物更加真实,动作更加流畅,而且也提高了工作效率,节 省了制作时间和制作成本( 只有传统方法的十分之一左右) ,使制作人员可以在脚 本、动作、场景、角色设计上投注更多的精力,减少了从构思到产出的时间,制 作出更加优秀的作品。 ( 3 ) 游戏制作: 而在电脑游戏制作方面,目前许多游戏中人的形体、运动和行为交互的设计 逼真性实际得益于物理空间中人的运动分析,包括人体模型和关节运动机制的获 取及姿势的恢复等。比如时下非常流行的互动游戏e y e t o y e y e t o y 。未来的游戏 将更多的强调玩家的“参与感 和“沉浸感 。许多电影和动画都借助三维扫描 和计算机图形学技术得到虚拟人,现利用运动捕捉技术得到各种动作。这样可以 使虚拟演员表演更真实。 ( 4 ) 虚拟现实: 作为长期以来独立发展的研究课题,虚拟现实可以近似看成新一代人机交互 与通信中综合交互手段与交互环境的技术。为实现人与虚拟环境( 一般为手工构 造) 的交互,需要确定用户的头部、手、身体等的位置与方向,以便将这些数据 反馈给显示和控制系统,这些虚拟现实系统中必不可少的工作正是运动捕捉的研 究内容。基于互联网络的交互式空间的开发刚刚起步,如虚拟聊天室。它在通过 文本交流的同时可以通过二维图标来导航用户,如果增加手势、头的姿势、面部 表情等线索,将会给参与者们提供更加丰富的交互形式。 ( 5 ) 运动分析: 人体运动捕捉在运动分析方面的应用也非常广泛,比如在整形外科病人的诊 断和对运动员动作的优化。在舞蹈编排中可以捕捉舞蹈演员的动作,便于进行量 化分析。在汽车工业方面,运动捕捉已经开始应用到安全气囊的自动控制,驾驶 6 员的疲劳检测和行人检测等。视频标注是一个比较新的应用,它包括视频内容的 提取和分析,可以应用到视频会议的数据传输和存储,以及视频检索等。 ( 6 ) 模型基编码: 捕捉场景中的运动之后,可以将运动信息进行高度压缩,辅以低比特率的残 差图,就可以实现数据较大压缩比的传输和存储。而在动画的传输中,只需要对 比较少的控制参数进行压缩,就可以在远端根据预先构造的场景模型与运动参数 实现解码。 本文工作得到了以下科研基金的大力支持,在此表示诚挚的感谢。 国家9 7 3 计划“可视媒体的交互与融合处理一( n o 2 0 0 6 c b 3 0 3 1 0 5 ) 国家自然科学主任基金项目“a v r 理论与实景虚化技术”( n o 6 0 4 4 1 0 0 2 ) 大学重大科研项目搿第四代人机交互的模型理论和技术一( n o 2 0 0 3 s z 0 0 2 ) 1 2 运动捕捉的研究现状 正是由于人体运动捕捉的重要应用价值,所以它也正在吸引越来越多的研究 人员和开发商的目光。近些年在这方面的研究也取得了长足的进展,并且逐步地 走向了实用化一些商家已经开始推出商用的运动捕捉系统。 1 2 1 运动捕捉系统分类 目前存在的运动捕捉系统主要有四种:机械电动式、电磁式、声学式和光学 式。 ( 1 ) 机械电动式: 主要包括一些关节和连杆构成的服装。在这些服装的关节位置上都安装了机 械传感器和测量设备。当运动主体穿着服装进行运动时,关节上的传感器和测量 设备会记录下运动的角度和位移参数。这种系统的优点是成本低,装置定标简单, 精度也较高,可以作到实时测量,还可以容许多个角色同时表演。但其缺点也非 常明显,主要是使用起来非常不方便,机械结构对表演者的动作阻碍、限制很大。 主要用于静态造型捕捉和关键帧的确定。 7 ( 2 ) 电磁式: 一般由三个部分组成,即发射源、接收传感器和数据处理单元。发射源在空 间产生按一定时空规律分布的电磁场。接收传感器安置在表演者身体的关键位置, 传感器通过电缆与数据处理单元相连。表演者在电磁场内表演时,接收传感器也 随着运动,并将接收到的信号通过电缆传送给处理单元,根据这些信号可以解算 出每个传感器的空间位置和方向。该方法速度快、实时性好。使用时表演者一边 表演,动画系统中的角色模型可以同时反应。装置的定标比较简单,技术较成熟, 鲁棒性好,成本相对低廉。其缺点是对环境要求严格,在表演场地附近不能有金 属物品,否则会造成电磁场畸变,影响精度。该系统允许的表演范围比光学式要 小。特别是电缆对表演者的活动限制比较大,且对比较剧烈的运动、表演不适用。 ( 3 ) 声学式: 由发送器、接收器和处理单元组成。发送器是一个固定的超声波发生器。系 统通过测量、计算声波从发送器到接收器的时间,可以确定接收器的位置和方向。 由于声波的速度与温度有关,还必须有测温装置。这类装置成本较低,但对运动 的捕捉有较大的延时和滞后,精度差,还要求声源和接收器间不能有遮挡,且受 噪声等干扰较大,系统扩展困难。 ( 4 ) 光学式: 限制最小的方法是光学式的运动捕捉方法。光学式的运动捕捉系统由一些已 定标的多个摄像机和标志( 或发光点) 组成。这些标志被贴附在表演者的关键部 位上,为了便于处理,通常要求表演者穿上单色的服装。当表演者运动时,系统 跟踪和识别同步图像中的标志点并计算其空间的位置。光学式运动捕捉的优点是 表演者活动范围大,无电缆、机械装置的限制,使用很方便。其采样速率较高, 可以满足多数体育运动测量的需要。这种方法的缺点是系统价格昂贵,虽然它可 以捕捉实时运动,但后处理时间长。系统对于表演场地的光照、反射情况敏感。 装置定标也较为繁琐。特别是当运动复杂时,不同部位的标志很容易发生混淆、 遮挡,产生错误的结果,经常需要人工干预后处理过程。 1 2 2基于视觉的人体运动捕捉 上面的几种运动捕捉方法都需要特殊的装备,并且对表演人员或多或少都存 8 在限制。而与此同时上世纪7 0 年代中后期,m a r r 提出计算机视觉理论 m a r r 8 2 。 他认为计算机视觉研究的是如何从一幅或多幅图像中来获取对三维场景的理解。 m a r r 从视觉计算理论出发,将视觉系统从下到上分成三个阶段,即底层视觉、中 层视觉和高层视觉。底层视觉主要是对输入的图像进行图像底层处理。主要针对 二维图像中的边缘点、直线段、曲线、项点、纹理、区域等基本特征。而中层视 觉的主要任务是对环境进行2 5 维的描述,即部分的、不完整的三维信息描述。高 层视觉的任务是在原始输入的图像、图像基本特征和2 5 维图像的基础之上恢复出 物体完整的三维信息。经过二十多年来的发展,计算机视觉技术在理论与实践上 都得到了上足的发展。这也使得众多的研究人员看到了采用计算机视觉技术来解 决运动捕捉问题的可能性。自上个世纪八十年代,研究人员就已经开始着力于基 于计算机视觉的无标记人体运动捕捉研究。 基于视觉人体的运动捕捉结果可以用来对特定的人体动作和行为进行分析和 理解,能广泛应用于人机交互、虚拟现实、视频监控等方面。目前基于视频人体 跟踪和姿态识别的研究已经引起学术界和产业界的极大关注,并取得了不少的研 究成果。很多国际期刊和会议都对其进行专门的讨论,如i j c v ,i e e ep a m i ,i c c v , c v p r ,i c i p ,e c c v ,a c c v 等。国内外的众多研究机构对人体运动跟踪进行研究, 如法国国家实验室( i n r i a ) s m i n c h i s e s c u o l b 、牛津大学动态视觉组 i s a r d 9 8 a 、 m i t 媒体实验室 w r e n 9 7 、c m u 机器人研究所 g a 0 0 4 、马里兰大学帕克学院 m i t t a l 0 3 等,国内的清华大学 s h e n 0 7 、中科院自动化所 h u 0 1 、浙江大学 z h u a n 9 0 0 、中科院计算所 c h e n 0 5 l i u 0 5 q i u 0 5 及北京交通大学信息所 s u n 0 6 等。同时随着数字摄像机和高性能p c 机的日渐普及,基于视频的人体运动 捕捉逐渐成为研究的热点。经过二十余年的发展,现在的基于视频运动捕捉技术 融合了图像处理,计算机视觉,计算机图形学,人工智能,人体运动学以及机器 学习等多学科的理论,成为多学科交叉的一个热门领域。 虽然基于视觉的人体运动捕捉已经发展了有二十余年,但是从整体上看,目 前基于视觉人体运动捕捉领域的研究仍然处于发展初级阶段。无论实时性、准确 性还是鲁棒性,目前的基于视觉的捕捉系统都无法和前

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论