(计算机科学与技术专业论文)面向人机交互的单目视频三维人体姿态估计研究.pdf_第1页
(计算机科学与技术专业论文)面向人机交互的单目视频三维人体姿态估计研究.pdf_第2页
(计算机科学与技术专业论文)面向人机交互的单目视频三维人体姿态估计研究.pdf_第3页
(计算机科学与技术专业论文)面向人机交互的单目视频三维人体姿态估计研究.pdf_第4页
(计算机科学与技术专业论文)面向人机交互的单目视频三维人体姿态估计研究.pdf_第5页
已阅读5页,还剩117页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江大学博j j 学位论文 摘要 摘要 自动理解图像或者视频序列中的运动人体,一直是计算机视觉研究的重点。除了人类对 通过机器探索和仿造自身的兴趣外,促使其成为研究热点的一个重要原因是电子设备的迅猛 发胜和由其带米的h 大应用市场。木文针对人机交互应用,着重研究单日视频下j 维人体姿 态估计。 单目视频三维人体姿态估计是计算机视觉研究中最具挑战性的问题之一。系统的观测输 入为复杂自然图像,状态输出为高维人体姿态,由观测到状态的系统过程是动态且非线性的。 此外,面向人机交互应用时,单目视频三维人体姿态估计系统的核心算法需列时满足准确、 鲁棒和实时性要求,系统初始化过程应尽可能自动化针对以上问题,本文依照模块分别展 开研究,并将各部分算法集成至人机交互原型系统,从而实现基于单目视频三维人体姿态估 计的人机交互 本文将单目视频三维人体姿态估计研究划分为三部分关键技术:图像特征提取、人体姿 态估计算法以及初始化过程的自动化。其中,图像特征提取研究针对普通低端摄像设备,提 出了基于h s v 色彩空问的图像特征提取算法,通过采用与人眼视觉感知一致的h s v 空间提 高图像特征提取的有效性和鲁棒性。针对人体姿态估计算法,本文提出了判别模型和生成模 型相结合的三维人体姿态估计数学模型。通过判别模型确定目标姿态的子空间。进而通过生 成模型求解目标姿态,充分发挥了判别式模型和生成式模型各自的优势。针对系统初始化过 程,本文重点介绍了手工分割视频对象的框架和评价标准,为用户辅助采集训练数据提供便 利,减少用户在系统初始化过程中的交互工作量 根据以上核心算法设计,本文自行开发了基于肢体运动控制的新式人机交互实时系统。 为验证系统的有效性,本文进一步开发了一款使用普通网络摄像头交互的简易游戏,为探讨 基于人体运动的人机交互设计方法建立了实验平台。通过该平台,本文进行大量用户测试, 并探讨这种新型人机交互在全新设计环境下面临的问题和机遇。测试结果表明了本文所提出 的单日三维人体姿态估计系统的有效性,同时展示了此类基于人体运动的新型交互系统的独 特魅力和广阔应用前景。 浙江大学博士学位论文 a b 蛐阻c t a b s t r a c t a u t o m a l i c a l l y 狮a l y z i i l g 锄du n d e 体t a l l d i n gh u m 加m o t i 伽h 弱b e 锄锄i m p o n a n tf i e i do f c o m p u t e rv i s i 伽他a r c hf 研m 锄yy e a 娼t h ei n t e r e s t sa mi i l s p i r e db yn o t 伽l yh u m a nc u r i o s i 哆o f e x p l o r i n g 锄di m i t a t i n go u 啪l v e sv i ac o m p u t e rb u ta i s ot h ei a 唱ep o t e n t i a im a r k e tg r o w i n gw i t h t l l ep r e v a l e n c eo fp e 幅册a lc o m p u t e 琏锄dc 蛐s 啪ee i e c 仃d n i c s t h i st h e s i sf o c 惦嚣o n 廿l ep m b k m o f3 dh u m 锄p 0 e s t i m a t i 伽w 油m o c u l 甜c 锄e mf o r v c lh u m 锄c o m p u t e ri n t e r 硼i 蛐 ( c h i ) m o n o c u l 缸3 dh 啪孤p 0 e s t i m a t i i s 饷eo f 也em o s tc h a l l e n g i n gt o p i c si nc o m p u t e r v i s i t h ed i 所饥h i e s 珏ei l ib o t bl l l ei i l p u t 锄d 舭q 斌n eo b s e r v 龇i 蚰o ft i i cs y 咖n 主s a l w a y s 忉p i i c 砷e d 瑚i l l l r a li m a g e ,、v h i l et i l cs y s t 锄s t a t ew i t l l i l lah i g l l d i i i 他璐i o n a is p 瓣 i n f b r e n 缸蛆m eo t 墙e r 倒彻t o 协es 协伦i se s 湖t i a l l yan o n i i i l e 盯d ”锄i c 呻c e 转m o r e o 帆巩- m 佣o m l 盯3 dh 啪柚p c 旌喀豁t i i n 撕o ns r s t 锄h 笛幻b ea c c 砒a t e ,b t i s t 狮d 他a l - t i i l l ef 钾c h i a p l p l i c a t i 佣s 狮dn l es y s t e l ni n i t i a l i z a l i p r o c e d u 地s h o u l di l l v o l v eu s e 璐弱l 懿s 髂p s i b l e w i d l 廿l e r e q u i r e m e n t s ,w eh a v ed e s i 驴e da 1 9 0 r 油m sf o ra nm o d u l e so fam 0 c u 陆3 dh u i t i 锄p o e s t i m a t i s y s t 啪锄di n t e 夸曲e dt h 锄i n t oac h ip r o 协t y p es y g t e m ;n l e 他f o f e ,ac h is y s t e mb 的e d 彻m o n o c u l 盯3 dh u m 狮p 0 e s t i i l l a l i 锄i si l i l p l 锄锄她 i l l 廿l i sw o 咄w ed e f i l 埒t h m ek e yt e c l l n o l o g i 骼f 研m o n u l 缸3 dh 岫柚p o 豁t i i i l a l i o n : i i i l a g ef b a _ t i 鹏洲i o n ,h 岫锄p 0 e s l i n l 撕锄锄da u t o m 撕c a l l yi l l i t i a l i z a t i o 叫燃e a 托h i m a g e 诧a t l i 他咖c t i o nt a r g e bc o m m 吼l y u dl o w 啪d 姗e 瑚i s s u c h 雒w e b 吒锄哪s w e a d o p th s vc o l o rs p a c e w h i c h i sc c m s i s t e 吡w i 也h 哪锄“s u a ls y s t e i l l t o i i i l p l o v e 吐l e e 仃e c t i v 髓s 锄dm b u 咖e s so f i m a g cf i e a t i 鹏甑昀甜锄a s 缸笛也eh 啪狮p o 舶a t i i s c o 眦e m e d w ep r o p 0 ah y b r i dm o d e l ,m b i i i i i gd i s 蕊m i n 蕊v em o d e l 铋dg e n e 硼v em o d 吐协 e s t i m 撕n g3 dp o s e t h ea l g o r i t l l m6 r s t l yl a 自鼯al o c a l 跚b s p 孔co fh u m 锄p 0 b ,a d i 蛐i n a l i v em o d e l ,弛d l 即m f - m 岱n l ep o w i n l i i lt h el o c a ls u b s p eb yag 即e m t i v em o d e l i n 也i sw a y ,t l l em o d e lt a k 铭o na d v 锄t 鸩略o fb o mm o d e l s a st oa u t 伽a t i ci l l i t i a l i 动t i o i l w e f 砸璐s 锄i - 锄t 哪a t i cv i d e oo 巧e c ts e g m 即t a l i 锄de v a l u a l i 伽m 嘶c s a ne f f i c i 钮t 劬if o i v i d e oo b j e c t 辩g m 朋洲佣u l dh e l pu s e r sp r o v i d e 的i i l i i l gd a = t ae 捌l y 柚dc q u e n t l yr e d u c e 邺m a n u a lw o d 【d l i r i l 培i l l i t i a l i z 砒i o n b a d a l ln l ep r o p o s e da l 鲥t l l l 璐,w ed e v e l o pan o v e lc h is y s t l 舾b 蹴dh 啪锄b o d y m o v 锄锄t t b 缸胁盯e v a l u a t et l l ec h is y s t e m ,aw e b - c 姗e 偿b 雒e dv i d e og 锄ei si i i l p l 锄部i t c d w h i c hc 伽l db ci i s e df o i 缸啪c t i 仰d e s i 舻b 雏e d 锄t h i sg 锄e ,w e 伽吖o l i tau rs t u 母锄l d d i 鲫u 鼹t i l ep b l 嘲s 锄d 叩咖i t 斌f i 甜n l ei l o v e lc h is y s t c 瓶t h er e 跚ho fu s c f 髓u 由 d e l l l s 昀l e st h ee 仃e c t i v 饥e s so fm ep 呷o s e dm 彻0 c u l 盯3 dh 啪锄p o e s t i i i l 砒i s ) ,嗽舶l l m 锄w h n es h o w s 璐t l l c 砒h 锨i v 锄e 鹞柚db r i l l i 锄t 如t l l 陀o ft l l en o v e lc h ls y s t 跚lb a s e d h 啪锄m o v e m 锄t 浙江大学博士学位论文图目录 图1 1 图l - 2 图1 3 图l - 4 图1 5 图2 1 陶2 2 图2 - 3 图2 4 图2 5 图2 击 图2 1 7 图2 8 图2 9 图2 1 0 图3 1 图3 2 图3 3 图3 - 4 图3 5 图3 _ 6 图3 7 图3 8 图3 - 9 图3 1 0 图3 1 l 图3 1 2 图3 1 3 图4 1 图睨 图4 3 图4 - 4 图4 5 图4 _ 6 图4 7 图4 8 图 图4 1 0 图4 - l l 图4 1 2 图目录 古今中外制造的各式仿人物品1 通过肢体控制游戏的新型人机交互方式2 捕捉人体运动的不同方式3 人体姿念估计算法流程图5 文章结构图3 移动光照显示设备m l d l l 基于时域模板的动作特征提取1 2 基于时空特征的运动特征点检测1 2 人机交互研究的技术关系图。1 3 棍图模型( 鲥c kf i g t l 他m o d e i ) 1 6 体模型( v r o l 啪e t r i cm 仪l e i ) 。1 7 s c a p e 模型1 7 判别模型图示:。2 l 生成模型图示。2 2 运动人体视频的图像特征变化特点2 7 视锥细胞( s m l ) 和杆状细胞( r ) 对光谱的吸收图2 8 r g b 、h s v 和h s l 空间的对比图3 0 h s v 和h s l 空间明度一亮度和饱和度计算的比较3 0 阴影区域出现时h s v 空间的变化3 4 背景模型中三分量的标准差可视化图像3 5 积分图的计算思想4 0 室外视频序列的前景对象分割实验4 2 室内视频序列的前景对象分割实验4 2 m p e g 4 测试序列h a l im 伽i t o r 的前景对象分割实验4 3 仿射变换图像中感兴趣区域与原图的匹配结果4 4 原图像中感兴趣区域与仿射变换后图像的匹配结果4 5 自然图像中感兴趣区域检测结果。4 6 不同系统标记比较。4 7 基于弱标记和样例的算法示意图。5 0 基于空间划分的数据组织方式。5 l 近邻一次扩展图5 2 近邻二次扩展图。5 3 二维、三维和四维空间内的“三角形”5 3 多维条件下着色映射图像的索引示意图。5 4 建立样例数据库索引的数据结构图5 5 检索样例数据库的数据流向图5 5 本文使用的人体模型。5 7 基于d e l 砌a y 剖分的近似近邻与最近邻的比较实验5 8 敲击动作5 9 浙江大学博:l 学位论文图目录 图4 - 1 3 图4 1 4 图4 1 5 图4 1 6 图5 1 图5 - 2 图5 - 3 网5 4 图5 5 图5 _ 6 图5 - 7 图5 8 图5 9 图5 1 0 图5 1 l 图5 1 2 图5 1 3 图5 1 4 图5 1 5 图6 1 图6 - 2 图6 - 3 图甜 图6 5 图硒 图6 7 图6 - 8 图卯 图7 1 图7 - 2 图7 3 图 图7 5 图7 - 6 图7 7 图7 8 图7 - 9 敲击动作的估计结果5 9 拳击动作的弱标记跟踪情况6 0 基于最大后验概率优化的人体姿态6 0 实时表演者一个拳击动作周期的三维姿态估计6 l 无标记的单目三维姿态估计算法框图6 3 基于部分的数据表达“ 本文采用的五个人体部位。6 5 无标记的单日j 维人体姿态估计的算法流程图6 6 基于人体部位的姿态聚类6 8 人体特征点匹配概率图。7 0 前景概率图7 l 从各个人体部位姿念合成整体姿态7 2 数据库姿态样例的拍摄现场7 7 部位姿态识别。7 7 根据部位样例装配整体样例7 8 两次e m 迭代结果的变化7 8 拳击动作的整体姿态估计7 9 静态姿态的估计结果8 0 动态姿态的估计结果 系统所涉及的各类坐标系8 2 交互式分割的系统流程示意图3 3 三种区域类型示意图8 5 三种常见的视频对象分割的空间误差8 6 极坐标与笛卡尔坐标表征区域误差的示意图跖 测试f o r 啪锄中使用智能剪刀优化分割的过程3 8 多次扫描的交互式分割算法结果8 9 用于多准则分割评价的分割结果图8 9 基于p 硼蛐。缸m t 和多标准评价的算法参数选择9 0 人机交互系统的设计流程9 l 系统平台的模块关系图9 2 肢体运动控制的游戏场景9 2 间接控制模式下的系统模块关系图9 4 空问离散器和时问触发器9 5 测试游戏的现场场景介绍9 6 用户交互随分离程度改变的变化情况9 8 用户对有无时间触发的喜好偏向分组9 8 对时间触发的理解状况影响用户对该交互方式的使用和喜好9 8 v 浙江大学博士学位论文表目录 表目录 表2 - l单目三维人体姿态估计的文献综述表。2 3 表3 1广义不变矩的计算量4 0 表3 2广义不变矩积分图优化的计算量对比4 l 表3 3四种仿射变换的参数4 4 表6 1多次扫描的交:巨式分割算法结果的说明8 8 表6 2合成轮廓的空问符合度评价 表6 3真实分割的评价明细 表6 _ 4真实分割的总评价。9 0 表7 1交互方式测试设计表及对应代码。 表7 - 2准确率虽分离程度增加而提高的显著性水平9 8 表7 3偏好带有时间触发方式用户组的表现变化情况修 表7 - 4偏好带有时问触发方式用户组的满意度交化情况 浙江大学研究生学位论文独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发 表或撰写过的研究成果,也不包含为获得逝婆盘鲎或其他教育机构的学位或 证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文 中作了明确的说明并表示谢意。 学位论文作者签名: d 老唧 签字日期:矽谚 年夕月夕日 学位论文版权使用授权书 本学位论文作者完全了解逝姿盘堂有权保留并向国家有关部门或机 构送交本论文的复印件和磁盘,允许论文被查阅和借阅。本人授权逝姿盘堂 可以将学位论文的全部或部分内容编入有关数据库进行检索和传播,可以采用影 印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名: 彦岬 导师签名: 签字日期: ,辟夕月矽日 签字日期:日芯月抑年 ) l 浙江大学博士学位论文致谢 致谢 时光荏苒。转眼间,我已于浙江大学求学十一载,从二十岁走到三十岁,从懵懂的高中 毕业生成长为具有思辨能力的博士学位申请人。在此博士论文完稿之际,求学路上的点点滴 滴跃然眼前,纷杂却也清晰想起独自背起行囊踏1 :征程;想起求是园晕四季轮叫的草木 和不断变迁的楼字。此刻,我更多想起的是那些曾经或正在与我同路的人。在路上,我聆听 他们的见解、洞察他们的实践,不断充盈自己的思想;在路上,他们对我谆谆教导,为我亮 起一盏盏明亮的启明灯,共同勾勒出我的人生之路。此刻,感激之情充满我的内心,我愿借 此向所有伴我走过这段旅程的贵人们道一声感谢! 感谢我的导师陈纯教授。我自本科三年级起师从陈老师,陈老师将我领入图像及视觉研 究的大门,为我的科研提供宽松的环境和充裕的资源,并不断为我指点方向。陈老师在学术 上敏锐的洞察力和严谨的科研作风一直是我科研的榜样更可贵的是,陈老师丰富的生活经 历和豁达的生活态度无时不让我感受到他内在的坚韧与乐观,这种生活的智慧正是我静心攻 读博士学位的精神源泉。 感谢浙江大学创新软件研发中心( e a g l e l a b ) 、微软亚洲研究院( m s r a ) 、虹软公司 ( a r c s o r ) 及所有共事的老师、同学、研究员和:l :程师。e a g l e l a b 是我科研工作的根据地, 拥有充足的设备及众多优秀的老师和聪颖的学生,同他们一起研究课题是高效且愉快的。近 年来e a g l b l a b 取得了丰硕成果,我为此而自豪。在攻读学位期间,我有幸在m s r a 和 觚s o f t 公司进行研发工作。作为全球知名的软件公司,他们拥有大量专业的研究员和工程 师,同他们的合作是具有启发性的。此外,公司对市场需求的天然灵敏,使我有机会深入领 会计算机算法研究与产品应用之问的依存关系,引导研究工作开展的更有目的性和针对性 特别感谢m s r a 提供的一次赴美考察机会,进一步开拓了我的视野,提高了我对计算机产 业的认识。 感谢所有的朋友,为我的博士求学带来了欢笑与鼓励。这些年,去过不同的地方,做过 不同的科研项目,因而也结识了许许多多投缘的朋友。我们一起吃美食、赏美景,一起谈古 论今、畅想未来,一起惆怅着欢喜着。没有你们,这些年的求学时光定会黯然很多 感谢美丽的杭州,人间天堂,净化着我的心灵也激发着我的灵感。作为一个在海边长大 的青岛人,杭州俨然已是我的第二故乡。这里不仅有山有水,更有江南温润的文化底蕴以及 浙江人乐于奋斗和创新的激情。在南北不同文化的滋养下,我以更宽广的胸襟面对人生 最重要的,感谢我的亲人,对我一如既往的关爱与支持求学期间,远离家乡,父母总 在电话那边对我嘘寒问暖,却悄悄藏起自己生病的消息,让我安心工作。我的丈夫与我相识 相知八载有余,无论我身处顺境抑或低谷,他一直给予我最强有力的支持家,是我永远的 港湾,给我最温暖的停靠 本致谢未提及太多的人名。在此我想告诉大家,不仅仅是你们的名字,你们的一颦一笑 都已刻在我的脑海里。每每滑过各种通讯簿上长长的名单,我都会记起你们。想起过往美好 的每一刻。我深深的祝福,祝大家在未来的日子里平安如意。 * 太 l f n z 第l 章绪论 第1 章绪论 1 1 引言 “m 世纪中帮出t 气蛱蹙媛南鞋曲磺诛盖昀碰他? 地球l 报毒鞋j b 郭键淹没在7 片汪洋2 中。此列- 整帕科学技术t 经谜蜘7 托墨南的m 平i 凡i 斡能税器八藕琏凡黄 发髓出采的塌啦如对恶,劣自然耳- 境的秘拄f 殴z 一,屯进盼凡t 智能机器九小但锉自啦程乱 真存。 冀扑 一面理土五能缘 婆拌世釉冉日舯存舟, 卫r d 种) 菇芷这群中青总恕、 厅捌椎钟小钟器 ”科幻影片人工智能简舟 人工智能( a i :a n l n c l a l i n t e j l2 9 e n c c ) ,一部好莱坞著名导演斯皮 、伯倍【s p i e l b e 喝) 借助乙自高科技描绘来自】高科技的科幻电影,带给观众无限退想。a l ,一个】9 5 6 年提出的 学术名诃, 个探讨人与机器的终极问题,为人类探索机器能力、搛索n 身属性打开了广阔 的想象卒闯。 罐鲞固 a j 中匡蹲嘲湘b ) 欧洲牵挂术喁c 1 日本仿j 、彝蹈机器人 目1t 自 制造各式 s 实际上, 黄期望非生物体能够模仿自己的诉求并非仅仅是信息时代的产物。早在二r 印前,我国议代就出现丁n 坐、立、跪,n i 卅牵线弛活操纵的木 ! i ;( 目1 1 a ) 。并逐步发 腱成为太艺术fj 类“作木偶以戏,善歌舞”。无独有偶。两方类似的木偶艺术( 罔l l _ b ) 亦u ,r 溯至公兀t 们i 百多年,历史悠久,源远流长。人们制作甜有关节的玩偶通过控制这 些关节的运动。使无生命的玩偶能够在舞台上如同演员 样橱橱扣牛的讲述人间故事。随着 现代科技进步,人们将古老的诉求从木制玩鹳转移到精密机器上,尝试制造自主盼仿人机器 人。舟2 0 0 7 年,日本研究人员研制出能学习舞蹈的机器人h r p 2 ( f q1 1 t ) ,它往观察 摊蹈教师几分钟后就能准确无误的模仿出教帅的动作展现出当代仿人机器人的发展水平。 然而人类的梦想远不止于此,正如电影人智能里所假想的制造具有人类情感并青能 力与人交互的机器人方足我们的终极梦想。 赴有机会讨论人与智能机器间的伦理埘题之前制造仿 机器仍有根多任务摆存人类面 前。一方面,我们需要设计能够通过关节进行自然运动的机器,此类课题属于机械设计以厦 自动控制范畴,另方面,则需要机器在与人交互时能够感知和理解人体的动作,并做出 话1 的反馈,这是智能人机交互以及生物测最学重要的研究领域。特别的是,使用模仿人艰 第l $ 堵论 功能的摄像设蔷感知外界信息始终是机器蛀自然的帖感方a w 咖计算机视觉f f 是技展机 器智能技术不可或缺的研究钡域。从视频序列中进 _ 人体返动仆析,a 以来都址计算机视 硅研究的重墨课题。1 时1 ,“算机处理能山新j 斤,数据的扶取办愈艇便键,人体运 动观频升析小仅迈进更j i 阔的研究审问,同时潜在的麻用价值也抒l 艘到人类生”生活的诺多 领域,引起学术界及上业界的广泛笑沣。 1 2 人体运动视频分析的研究意义 布过去的- - f 多年掣r 1 动理解罔像或者视撕宁列中的运动人体,直是- l 舅 l 视赏研 究的革点。除了 麦对探索和仿诂自身的兴趣外“使h 成为研究热点的一个重要原圳是电 r 设* 的迅猛垃展和山其带来的厅 j w 川市场。卫工1 柬数,姒相机杖摄像帆、网络摄惮土、 崎控摄像头等数码产品 量进入日常生活,伞球每个叫刻都枉产生新的数宁幽像搜视额数 据而人炎的活动必端是数据的卜0 内容。有效处理并理解数据所蕴含的人类淆动,将为社 会靛展带来深远影响。总的来说,人体运动视颧分析的麻用丰要包括如下几点: 高级人机交互 目1 - 2 m a 睫# d 辞班型 m i 如前言所述,期望机器人能够理解人类话动并与人交互足人类由来日久的科技追求。 在当下五花八门的机器设备随处可见,从个人电脑到视频游戏机,从智能手机到数字电视, p i 是变h 冉式仍是键盘鼠标统 r 的格局。住2 0 0 3 年,n 本素尼公司j e 出的新产品 e y e l o y 【7 1 ( 如图】一2 一a 所不) 成功突破这局面,展示出基r 视觉的 机交互a 式的巨大 市场潜力。h 本另外家著名游戒商任天掌继续延续肢体挣制游戏的理念,j2 0 0 6 年末 推出争新设计的游戏机w l l 【5 】( 如罔l 一2 - b 所示) 。w “采h j 运动感应手柄替代传统的h l 槭 手柄,避丌计算机视觉什为传感器在技术上的不足,使得w 】l 的肢体躬;制能力明显优于 e y c t 可,从而提供吏丰高的游戏内存,遮款运动瞎脚f 柄救其n 己套的肢体控制游墟一经上 市,风靡仝球。由此可以颅见。当人体运动规频分析技术走向成熟时人机交互方式的革命 性变化必然会被人娄迅速接受使得拧制自【器的方式更容易为人娄接受,蹙i 过程自然a 好。 2 ) 智能视频监控 税额监控设蔷现在已经成为保障社会安全、维护杜台秩序的必需t 其。大吊的监控擞像 头安装千办公楼,商场、银行等各类公菸场所。侄现有的技术水平下,除少数监控设备能够 提供些违规榆测、数量统计等智能功能外人多数设备只停留在发j j i ! 基本记录功能的阶段。 俯拧现场要么需要i 作人员保持注意力集中、要么用f 事什笈生后调盘取证显而易见,如 * 太学博9 女 粜机器能够提供内容分析的功能r 将 大提高视频盟控醴各的使敏率。日酊,被船 卒埘象 的一个重要 体就是人,分析人体氆动。识别异常行为,是提高视频监控水半的戈键技术环 节。 3 ) 人件运动捕捉 人体运动数据的捕捉系统日前主要应用于动画制作、医疗分折和工业测量与拧制等行 业。精确的人体运动数据可于驱动动厕伯乜,减轻美术设计者负担;帮助运动员分析自身 竹运动特征,自强制定训练训划衙疗n 法和康韭蟓则也r j 轴助汽车设帅分析救改进产 品,预防事故厦减少损伤等。目前的人体运动数据捕捉系统造价昂贵,使用繁琐,需璺大量 _ 凡工进行后期的数据修补。在保订输m 数掘准确度的前提下,提高捕捉系统的敬车是人体 垣动视顿分析的晕要目标之。 4 ) 视频存储与检索 随着电子设备的普发世界j 每个时刻都在产生湃量级的数据,其r 1 相当比例的足各类 数字视频。南r 数字视频有别十传统的文丰数槲如何存储和检索视频数据已经成为研究 的地门对象。除了研究数据组织的系统架构外,标注视频内容是数据存储和检索的荑键技术。 良好的人体运动视频分析能山可以帮助“算机n 动理解税额巾人物的活动并为税频做出正 确标抖_ 和摘型。w m ,a 】靠的人体运动视频丹析d 舰频数据增长迅猛时代响蕈要的应用价值。 13 人体运动视频分析的研究要点和难点 人体运动分析指的是运用某种手段f h 踪、捕捉人体的运动,获得 体的运动参数升重 建人体的结构和姿盎,其最终n 的是达到对 体运动的理解并加以应用。人体运动分析的首 要仟务和基率问题是扶取 体的运动参数而运动参数的拄取有多种方法,包括使用专用的 机械设蔷或者光学电子设并,图i 3 d 所目i 系统即为借助红外光感f t 设备商接对人体运动进 行捕捉。水文研究的人体运动视额分析则足豇接利用视颧信息米进行人体运动参数的获取、 分析和坪解。如同l - 3 _ b 所不,视额内容往往包含运动主体和复杂背景,运动主体表着随意, 需通过算法计算出人体运动状态。 咿 厶 。鼍! i 嚣”“:馨f “ 目 * 体 自 目方式 人体运动视频分析所面向的人体对象在广义上柑对宽泛,既包括作为整体的人体本身 爨, 浙江大学博_ 上学位论文 第l 章绪论 也包括人体的某个局部,如人脸、肩臂、手指等。本文只关注狭义所指的人体一人体作为 整体的运动分析,而不考虑人脸等身体局部对象。如不特别指出,本文后面提到的人体运动 仅限于狭义。 人体运动视频分析的研究涉及两个基本要素:人体运动和视频序列。下面我们从这两个 方面总结人体运动视频分析的难点问题。首先,人体作为一种被分析的对象,相对其他物体, 例如汽车、人脸等,具有特殊的内在属性,使得人体运动分析在计算机视觉研究中显得尤为 困难。其主要特殊属性包括: 1 ) 状态空间维度高。从人体解剖学可知,人体运动系统由骨、骨连接( 软骨或关节) 和骨骼肌三种器官组成。骨以不同形式( 不动、微动或可动) 的骨连接联结在一起,构成骨 骼( s k e i e t 佣) ,在肌肉收缩的牵拉下,骨沿着关节轴所规定的轨迹进行移位运动,形成人 体姿态。每一个人体静止姿态都是由若干关节运动枢轴的旋转角度所确定,是一个多参 数的状态变量。在人体运动尺度上该状态变量的维度高达几十甚至上百,建立和求解关于 高维状态变量的数学模型是一个挑战 2 ) 非刚体。在计算机视觉研究中所涉及到的研究对象可分作刚体( r i 昏do b j e c t ) 和非 刚体( n r i g i do b j e c t ) 两大类。在外力作用下,物体的形状和大小( 尺寸) 保持不变,同 时内部各部分相对位置保持恒定( 没有形变) ,这种理想物理模型称之为刚体;反之,则为 非刚体。人体既为典型的非刚体物体,每一时刻人体每一部位的运动都不尽相同相对于参 数较为简单的刚体运动,非刚体运动的模型通常难以建立,因而非刚体物体的运动估算和识 别都非常困难。 3 ) 运动复杂。人体和人脸同为非刚体物体,前者的分析难度远高于后者,这是因为面 部五官的变化仅由肌肉驱动产生,而人体运动过程由多个关节通过旋转产生,人体各部位活 动灵活,部位之间存在大量自遮挡现象,使得二义性问题趋于严重。 其次,作为人体运动分析的观测数据。视频序列一即一列延时间连续变化的图像,其 处理尚存在困难。根据m 跚视觉系统模型,在进行人体运动分析这类高层( h i 曲1 e v e l ) 视 觉问题前,我们首要面对的是低层( 1 0 w - l e v e l ) 和中层( i i i t e 皿e d i a 协l m l ) 视觉问题。通常, 图像被施以去噪滤波、边缘检测、图像分割、对应点匹配等基本操作,旨在从单纯的二维图 像信号中获取描述物体的基本要素( 如形状、深度、对应点) ,从而有条件进行更高级别的 物体分析。然而,中低层的视觉分析仍处于发展阶段,分析方法具有一定局限性,例如: 1 ) 特征表达不明。究竟什么是最佳的图像视觉特征,仍然是悬而未决的问题。目前研 究人员普遍采纳了诸如边缘( e d g e ) 、角点( c o m e r ) 、区域( b i o b ) 等基本特征( f e a t u 他) 并 提取更复杂的特征描述符( f e a n 鹏d e 刚p t o r ) ,如尺度不变性特征变换s i f t ( a l e 血v 撕孤t f - e a l l 鹏t 啪s f o l l l l ) 等。这些通用特征不足以区分不同的物体,然而如何进一步选取有效特征 则严重依赖于具体的研究对象以及研究者的主观经验。非鲁棒的中低层视觉处理,势必影响 到高层分析过程。 2 ) 信息完整性差。在图像或视频捕捉过程巾,存在信息丢失的现象,例如,相机造成 的深度信息丢失,物体之间或物体自身产生的遮挡,以及由于未知光照造成的明暗变化。计 算机视觉本质上是逆向求解问题。信息不完整,直接导致计算机视觉的很多问题成为病态问 题( i 1 1 p o s e dp m b i 锄) ,不存在解析解( c l o d f o n n l u t i 伽) 。这个问题在单目摄像机( 仅 4 * l 章绪论 有个视角) 捕捉时尤为突m 。 3 ) 噪声干扰严重。噪声( n o l ) 是信号处理中存在的昔道问题,幽缘和视频也不例外。 数7 幽像在成像的儿个环节中部存在产生嵘声的可能包括c c d 感应、上采样、乐缩等。 噪声信号的十扰直接导致图像信号产生小可逆失真使得特征提取愈发困难。图像信噪比和 捕捉设备的价格成正比,在同常使j l j 中中低端的摄像设备的普及率远超高端设备这样的 市场分布状况决定了任何面f ;d 应川的计算机视堂系统必须冉良好的抗峰声能力。 综上所述,_ 人体运动视频分所u 前仍为训算机桃菇酬究巾尚特攻克的难戈,无论是作为 状态变量的人体运动还足作为观测数据的罔像税颧。都存在系列难点问题,求解税额序 列到人体j 耋功的映射必然团难重重。如何建立适当的人体运动模型、如何从不完整的信息推 断模型状态、制么是运动人体视频的图像特缸e ,研究者带者这些问韪币断探寻人体运动视频 分析的解决卉寨。 1 4 论文的主要工作 人体运动视频分析由若干子问题构成,主理包括:运动人体榆测( h b o d yd e k c t l ) 、 休运动姿态竹( b 呻p o s e 嘲i m a t l o n ) 、行为识别( a n l o n f e c o ”i 1 1 锄) 等。其中,人体运动姿 态估是人体逆动分析的关键植心技术萁估计结粜小仅提供人体运动过程的详细状态,还 能哆辅助解决行为阻别等挥解仕问题,自效的人体姿态估计必将在 机立、视频监控、 运动扪捉咀救视频捏索和存储等j 衄用 砸域产生重大影响。冈此本文将就竹h 视频r 的维人 _ 运动姿态估“站课题胜开深入讨论。 战线娃, 堆 体崔士w 人 堆辘 m 像 目1 镕女$ # i 十算* 滴# 目 5 浙江大学博士学位论文 第l 章绪论 从二维的单目视频中估计人体的i 维姿态,其本质是一对多的非线性映射: x = 坟,)( 1 1 ) 其中自变量,是输入的二维单目图像,x 是对应的三维人体姿态状态,f 是从图像到人体姿 态的映射。若要消除关于,的x 解的二义性,则必须对求解关系f 设立适当约束。这些约束 主要来源于。1 ) 人体骨骼结构约束;2 ) 图像特征约束;3 ) 人体姿态的空间分布和运动的 时间连续性约束。其巾后面两点是课题研究的关键点,在不同的计算模型下有不同的表示以 及不同的模型优化求解方法。此外,为了保证算法在应用中的实用价值,计算模型的设计必 须考虑实时性要求。图l _ 4 所示算法流程图是一类典型的人体姿态估计系统。本论文针对 这些关键问题和设计要求进行研讨。 1 4 1 论文主要内容 本论文将主要陈述以下研究内容: 1 ) 图像特征提取。在计算机视觉领域中,通用的图像特征提取本身就是科研攻关点 本文根据单目摄像机下人体姿态估计的具体情况和计算实时性要求,设计一组有针对性的图 像特征:运动人体的前景概率估计和人体特征部位区域的观测概率估计。通过对图像色彩空 间分布的研究,本文提出了在符合人类视觉系统的h s v 色彩空间下对输入二维图像,进行 特征提取的方法,并通过实验验证有效。 2 ) 弱标记的单目三维人体姿态估计。由于视觉特征的鲁棒性常常不能得到满足,三维 人体姿态估计在人机交互的实际应用中难以得到利用。本文引入弱标记的使用;相对于商业 使用的专业标记( 如红外反射标记) ,弱标记易于获取和使用,同时可提供鲁棒的低层视觉 特征,提升人体姿态估计的实用价值。本文采用基于样例( 懿锄p k ) 的算法框架,根据图 像观测获取三维人体姿态数据库中的相关样例,并通过最大后验概率进一步优化姿态估计。 3 ) 无标记的单目三维人体姿态估计无标记的单目三维人体姿态估计是姿态估计的最 高目标人体姿态的状态空问是高维非线性的,本文采用基于人体层次的判别一生成混合模 型,可将人体姿态的状态空间表示为多个低维线性的局部空间,并在局部空间内优化姿态估 计。在判别模型中,采用基于样例聚类的贝叶斯匹配法则,有效定位问题的局部空间。同时, 提出了使用贝叶斯期望一最大化( e m ) 算法进行局部空间上三维人体姿态最优化。该算法 通过多次迭代可有效的精细化姿态估计,提高最终所得三维人体姿态的准确度。 4 ) 人体姿态估计系统的初始化过程。人体姿态估计系统在运行前涉及不同坐标系之间 标定、环境参数训练、人体部位特征参数训练等重要环节,初始化过程是不可或缺的系统模 块。为了提高初始化过程的效率,减少用户交互的工作量,本文有目的的研究了半自动视频 对象分割技术以及分割结果评价标准,提升整个系统的可用性。 5 ) 交互系统设计和测试。在对人体姿态分析的几个关键算法研究的基础上,本文依照 图1 4 所示流程框图自行开发了基于人体运动控制的新式人机交互实时系统,将算法成果 转化为实际应用。为了验证系统的有效性,本文进一步开发了一款使用普通网络摄像头交互 的简易游戏,为探讨基于人体运动的人机交互设计方法建立了实验平台,并进行大量用户测 试 6 浙江大学博士学位论文第1 章绪论 1 4 2 论文的主要创新点 本文的创新点主要有以下几点: 1 )针对普通低端摄像设备,提出了基于h s v 色彩空间的图像特征提取算法,包括视 频前景分割和区域不变特征描述。基于h s v 的视频前景分割能有效处理低端摄像 设备所采图像的严重噪声并能消除室内拍摄时不可避免的阴影问题基于h s v 空问的广义不变矩用以描述区域不变特征,该广义不变矩同时具有仿射和光照不变 性,通过实甘积分图,可以有效的计算图像区域的不变特征此外,以上图像特征 提取算法保证实时运行。 2 )提出了自下而上的判别模型( d i s c r i m j n 撕v em o d e l ) 和自上而下生成模型( g e r 撕v e m o d e l ) 相结合的三维人体姿态估计数学模型。通过判别模型确定目标姿态的予空 间,进而通过生成模型求解目标姿态,充分发挥了判别式模型和生成式模型各自的 优势。通过使用该模型,本文分别设计了面向弱标记和无标记的单日三维姿态估计 的算法。前者采用基于样例的算法框架,而后者利用基于人体由部分到整体的分层 结构,都取得了良好的单目三维人体姿态的估计效果特别的,针对基于样例的算 法框架,提出了新颖的基于空间划分的样例数据库组织方法;针对无标记的单目三 维姿态估计的问题复杂性,设计了人体由部分到整体的分层结构,并结合判别一生 成混合模型使用。 3 )设计了新的手工分割视频对象的框架和评价标准,为分割人体关节部位图像( 该图 像将用于训练人体关节部位的观测模型) 提供

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论