




已阅读5页,还剩74页未读, 继续免费阅读
(计算机科学与技术专业论文)基于视频的肢体定位与手势动作识别研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
t h er e s e a r c h e so fh u m a nb o d y p o s i t i o n i n ga n dh a n dg e s t u r e a c t i o n sr e c o g n i t i o nb a s e do nv i d e oi m a g e s b y l e ih a i l o n g b e ( c h a n g s h au n i v e r s i t y ) 2 0 0 8 at h e s i ss u b m i t t e di np a r t i a ls a t i s f a c t i o no ft h e r e q u i r e m e n t sf o rt h ed e g r e eo f m a s t e ro fe n g i n e e r i n g c o m p u t e rs c i e n c ea n dt e c h n o l o g y i nt h e g r a d u a t es c h 0 0 1 o f h u n a nu n i v e r s i t y s u p e r v i s o r a s s o c i a t ep r o f e s s o ry a n gs h e n g m a y , 2 0 1 1 湖南大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所 取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任 何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡 献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的 法律后果由本人承担。 作者躲需孙 嗍劢【年期31 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意 学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文 被查阅和借阅。本人授权湖南大学可以将本学位论文的全部或部分内容编 入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇 编本学位论文。 本学位论文属于 1 、保密口,在年解密后适用本授权书。 2 、不保密团。 ( 请在以上相应方框内打“ ) 作者签名: 导师签名: 鼹碗 母n 日期:飙( 年s 月7e 1 日期:2 _ 0 、年箩月? ie l 基于视频的肢体定位0 于势动作识别研究 摘要 日益广泛的视频应用极大的丰富了人们的生活,也使人们对视频图像处理提 出了更高的技术要求和更多的研究方向。人作为各种社会活动的组织者,自然是 视频内容所关注的重要的对象,故用计算机视觉来模拟人的眼睛来实现对图像的 理解是近些年来的研究热点。基于视频人体运动分析是计算机视觉中的重要的研 究课题之一,也是近些年来备受研究者关注的前沿方向。 本文主要研究了基于计算机视觉中肢体定位以及人体手部动作的识别过程, 主要包括以下几个方面的内容:运动目标的检测与分割、人头的定位与检测、人 体四肢的定位与检测、人体运动跟踪、人体手势动作训练与检测等等。 本文主要的工作体现在以下几个方面: ( 1 ) 用混合高斯模型实现了对运动对象的检测与分割,此后对运动对象进行 了一系列的图像处理。在此基础上,采用了一种新型的基于o m e g a 形状和h o u g h 圆检测的算法来实现了人头的定位与检测。论文利用了人头类似于o m e g a 形状 的特点,采用检测人头与肩部之间的角点来实现人头的粗定位,在这个基础上, 采用h o u g h 圆变换来检测人头,成功的实现了人头的定位与检测。这种方法相 比于其他的方法加快了人头定位与检测的速度,同时减少了h o u g h 圆检测时人 体其他类圆形所带来的误检,提高了检测的准确率。 ( 2 ) 在人头检测的基础上,采用了一种基于u 形点的方法来实现对人体肢体 的分割。通过人体u 形点的检测,可以成功的实现人体肢体的划分,在检测出 人体四肢的情况下,为了更好的对人体的手部姿势进行识别,采用了一种简单易 行的方法来实现对人体肩部关节,腕部关节的检测,并在此基础上,用卡尔曼滤 波来实现对人体动作的跟踪。 ( 3 ) 利用前几个阶段所得到的人体手部动作参数,利用支持向量机来对这些 参数进行训练识别。实验结果表明:该算法能够准确的识别出人体手部的简单手 势动作,算法的识别效果好,具有较好的鲁棒性。 关键词:图像处理;计算机视觉;混合高斯模型;人体动作;人体模型 硕。 :学位论文 a b s t r a c t t h ew i d e s p r e a da p p l i c a t i o no fv i d e om a d ep e o p l e sl i f em o r ec o l o r f u lt h u sm a d e p e o p l en e e dh i g h e rt e c h n o l o g yr e q u e s ta n dm o r er e s e a r c hi n t e r e s t so nv i d e oi m a g e p r o c e s s i n g a n da st h ep r i m a r yo r g a n i z e ro fs o c i a la c t i v i t i e s ,h u m a ni sr e g a r d e da s a ni m p o r t a n tc o n c e r n e do b j e c to fm a n yv i d e od a t an a t u r a l l y s o ,u s i n gt h ec o m p u t e r v i s i o nt os i m u l a t et h eh u m a ne y e st oa c h i e v et h eu n d e r s t a n d i n go fi m a g ei sb e c o m i n g ah o tr e s e a r c hs p o ti nr e c e n ty e a r s t h eh u m a nm o t i o na n a l y s i sb a s e do nv i d e oi so n e o ft h ei m p o r t a n tt o p i c si nc o m p u t e rv i s i o n ,a n dm a n yr e s e a r c h e r sp a ym u c ha t t e n t i o n o nt h i sa d v a n c e dr e s e a r c hd i r e c t i o n si nt h ef i e l do fc o m p u t e rv i s i o n t h i st h e s i sf o c u s e so nh u m a nb o d yp o s i t i o n i n ga n dh a n da c t i o nr e c o g n i t i o n b a s e do nc o m p u t e rv i s i o n ,i t sm a i n l yi n c l u d e ss u c hs e c t i o n s :m o v i n gt a r g e td e t e c t i o n a n ds e g m e n t a t i o n ,h e a dp o s i t i o n i n ga n dd e t e c t i o n ,h u m a nl i m b sp o s i t i o n i n ga n d d e t e c t i o n ,h u m a nm o t i o nt r a c k i n g ,h u m a nh a n da c t i o nt r a i n i n ga n dr e c o g n i t i o na n d s oo n t h em a i nw o r k so ft h i st h e s i sa r ea sf o l l o w s : ( 1 ) w eu s et h eg a u s s i a nm i x t u r em o d e l st oi m p l e m e n t t h ed e t e c t i o na n d s e g m e n t a t i o no ft h em o v i n go b je c t s ,a n das e r i e so fi m a g ep r o c e s s i n gi si m p l e m e n t e d o nt h em o v i n go b je c t s t h e n ,w ea d o p tan e wm e t h o db a s e do no m e g as h a p ea n d h o u g hc i r c l ed e t e c t i o na l g o r i t h mt op o s i t i o na n dd e t e c tt h eh e a d t h et h e s i su s e st h e f e a t u r e st h a tt h eh e a ds h a p ei ss i m i l a rt ot h eo m e g as h a p e ,s ow ec h e c kt h ec o r n e r p o i n t sb e t w e e nt h eh e a da n dt h es h o u l d e rt oi m p l e m e n tar o u g hh e a dp o s i t i o n i n g ,a n d t h e nw ed e t e c tt h eh e a db yu s i n gt h eh o u g hc i r c l ed e t e c t i o na l g o r i t h m t h i sm e t h o d i sf a s t e rt h a no t h e rm e t h o d si nh e a dp o s i t i o n i n g ,a n dl o w e rf a l s ed e t e c t i o nr a t e ( 2 ) b a s eo nt h eh e a dd e t e c t i o na l g o r i t h m ,w ea d o p tan e w m e t h o db a s e do nt h e up o i n t st os e g m e n tt h el i m b s b yd e t e c t i n gt h eh u m a nb o d y sup o i n t s ,w ec a n s e g m e n tt h eh u m a nl i m b ss u c c e s s f u l l y t h e n ,w ea d o p ta ne a s ya n ds i m p l em e t h o d t o d e t e c tt h eh u m a ns h o u l d e rj o i n t s ,t h ew r i s tj o i n t s t h e n ,w eu s et h ek a l m a nf i l t e r i n g t ot r a c et h eh u m a nm o t i o n ( 3 ) w eu s et h eh u m a nh a n d sa c t i o nm o d e lp a r a m e t e r sg e t t i n gf r o mt h ep r e v i o u s s t a g e s ,a n dw eu s et h es u p p o r tv e c t o rm a c h i n et ot r a i nt h e m t h ee x p e r i m e n t a l r e s u l t ss h o wt h a to u rm e t h o d sc a nr e c o g n i z et h eh u m a nh a n dg e s t u r e sa c c u r a t e l ya n d b e t t e ri nr o b u s ta n dr e c o g n i t i o nr a t e i i i 基于视频的肢休定位与于势动作识别研究 k e yw o r d s :i m a g ep r o c e s s i n g ;c o m p u t e rv i s i o n ;g a u s s i a nm i x t u r em o d e l s ;h u m a n a c t i o n :h u m a nm o d e l i v 硕十学位论文 目录 学位论文原创性声明和学位论文版权使用授权书i 摘要i i a b s t r a c t i i i 插图索引v i i 附表索引v i i i 第1 章绪论1 1 1 研究背景及意义l 1 2国内外相关的研究现状以及研究趋势4 1 2 1 人体动作行为识别的相关方法及研究进展5 1 2 2 肢体定位算法的相关方法及研究进展7 1 3人体运动分析及肢体定位目前存在的主要的问题9 1 4 本文章节安排1 0 第2 章运动目标检测与分割一l l 2 1背景差法1 l 2 2 帧差法13 2 3 光流法15 2 4自适应的混合高斯模型17 2 4 1 单高斯背景分布模型一1 7 2 4 2 多高斯背景分布模型18 2 5 实验结果1 9 2 6 本章小结2 0 第3 章人头定位及检测2 l 3 1 人体头部定位的方法简介2 l 3 2 人头的特点及粗定位2 2 3 3 基于h o u g h 变换的人头检测2 4 3 3 1 h o u g h 检测原理2 4 3 3 2 h o u g h 圆检测原理2 6 3 4 人头检测实验及其分析2 7 3 5 本章小结2 9 第4 章人体肢体定位及跟踪3 0 4 1 人体动作识别模型的表示3 0 v 第 结参致附 硕f j 学位论文 插图索引 图1 1 人体运动相关研究方向的发展趋势5 图1 2 “星形”骨骼框架及其改进图8 图2 1 人体运动分析的步骤1 l 图2 2 背景差法流程图1 2 图2 3 帧差法流程图1 4 图2 4 三帧差分法流程图1 5 图2 5 运用混合高斯模型提取的运动对象的结果2 0 图3 1 人头类似o m e g a 形状示意图2 2 图3 2 人头o m e g a 分割图一2 2 图3 3 运动对象提取后得到的人头图一2 3 图3 4 检测人头角点得到的结果2 4 图3 5h o u g h 圆检测人头得到的实验结果2 7 图4 1j o h a n s s o n 做的关于人体运动感知的实验m l d 3 0 图4 2 人体模型图3 l 图4 3 人体u 形模型图3 2 图4 4 人体轮廓压缩图3 3 图4 5 人体u 形点检测效果图3 4 图4 6 二种肢体定位算法的比较一3 4 图4 7 人体手臂状态图3 5 图4 8 人肩膀检测所用的各种算子3 6 图4 9 肩关节点检测图3 6 图4 1 0 卡尔曼滤波器的算法描述图4 0 图4 1 l 卡尔曼人体跟踪流程图4 l 图4 1 2 卡尔曼人体跟踪的实验结果4 2 图4 1 3 人体手势跟踪效果图4 2 图4 1 4 卡尔曼跟踪失败的图4 2 图5 1 支持向量机的体系结构图4 5 图5 2s v m 处理问题的流程图4 6 图5 3 样本中的标签标识4 7 v i i 基于视频的肢体定位门j 势动作识别研究 附表索引 表3 1 二种方法的的时间对比表2 8 表3 2 二种方法的检测单一人头图像时的人头数2 8 表3 3 单一算法和混合算法测试三段视频序列的准确率2 8 表5 1 手势识别的结果4 8 v i l l 硕一 j 学位论文 1 1 研究背景及意义 第1 章绪论 随着计算机处理速度的快速提高,计算机的应用不再仅限于科学计算,它在 多媒体处理方面发挥着越来越重要的作用,计算机视觉就是这几年一个很活跃的 研究分支,计算机视觉是图像分析和图像理解的一个重要的分支,它是用计算机 模拟人的视觉机理来获取和处理信息的能力。它的主要任务就是通过对采集的图 片或视频进行处理以获得相应场景的三维信息,就像人类和其他许多类生物每天 所做的那样。有莱的研究表明:视觉是人类获取信息,认知外界的主要来源,人 类所能够获得的信息8 0 来源于视觉。它主要包括人们对光信号的感知能力、 对信息的获取、传输、处理、存储和理解的过程【2 】。视觉在人们的生活中扮演着 无可替代的重要角色,已经发展成承载信息的主要的工具。 随着计算机视觉的深入研究发展,基于视觉的人体运动分析越来越得到人们 的重视,它已经发展成为计算机视觉中的一个前沿的热点研究方向【3 j ,它主要是 指从含有人运动的图像序列中检测、识别、跟踪人并对人的一系列行为进行描述 和理解,它是图像分析和图像理解中的一个研究范畴【4 】。同时它也是一个交叉学 科的研究范畴,主要涉及到图像处理、人工智能、高等数学、矩阵论、模式识别、 计算机视觉等学科的综合知识;同时,它还是一个非常具有挑战性的课题,因为 它涉及了在动态场景中进行人体运动的快速分割处理、人体的非刚性运动的正确 理解、人体自遮挡和目标人体之间相互遮挡的处理等一系列的难题【5 j 。其在各个 方面都有一些成功的应用。这些应用领域主要体现在以下几个方面【6 】: ( 1 ) 人机交互( h c i ,h u m a nc o m p u t e ri n t e r a c t i o n ) 人机交互技术是指实现人与计算机之间“对话交互”的技术。它主要是利用计 算机的输入输出设备来实现的。它的实现过程如下:人通过各种各样的输入设备 ( 比如键盘,鼠标等等) 向计算机输入各种提示以及相关的信息,计算机通过各种 各样的输出设备或显示设备( 比如显示器,示波器等等) 向人提供各种信息,对人 提出的要求做出相应的反应,按照输入提供的信息做出相应的反馈等等。人机交 互技术是计算机用户界面设计中一个不可忽略的重要组成部分。交互效果的好 坏,直接影响了用户的体验效果。同时,人机交互也是一门交叉学科,它融合了 心理学、认知学、人机工程学等一系列知识。随着计算机技术的发展和广泛应用, 人机交互的方式不再是传统的以键盘,鼠标等为输入,以显示器,打印机等为输 出的方式。现在的交互方式变得越来越智能化,越来越人性化。现代人机交互逐 基,:视频的肢体定位门j 势动作识别研究 渐摆脱键盘鼠标的限制如现在发展起来的高级用户接口,它不再是利用传统的鼠 标和键盘来进行输入,而是利用人体的手势来对计算机进行控制和操作,这种智 能的交互方式可以实现聋哑人与计算机之间的手语交流。还可以用于更加智能的 游戏控制,如微软在2 0 1 0 年1 1 月在北美发布的新型的游戏控制机器k i n e c t 7 1 , 它就是采用红外摄像头来代替传统的手柄,它不需要使用任何控制器;它是依靠 相机捕捉三维空间中玩家的运动,同时它导入了即时动态捕捉、影像辨识、麦克 风输入、语音辨识、社群互动等功能。玩家可以通过这项技术在游戏中开车、与 其他玩家互动、通过互联网与其他x b o x 玩家分享图片和信息等等。微软坚信, 这款产品必将颠覆传统的游戏定义,给玩家带来全新的用户体验。 ( 2 ) 虚拟现实 也叫人工环境,灵境技术。它是近些年来迅速发展起来的一门新技术,是计 算机高级人机界面中的一种,它以交互性、构想性为主要特征。它融合了高级人 工智能、计算机视觉、传感器技术、计算机图形学等技术,利用计算机模拟产生 三维虚拟空间,充分实现人的听觉、视觉、触觉等感官感觉的模拟,使人能够沉 浸在计算机生成的虚拟环境中,让使用者如同身历其境一般。2 0 10 年,随着电 影阿凡达的热映,虚拟现实技术也越来越多的走进人们的生活,并成为了电 影界竞相采用的技术。它主要是通过对现实世界里人的身体姿态的跟踪,从而来 完成一个虚拟的仿真场景的创建,进而使得人能够与这个虚拟世界进行交流交 互。该领域的具体应用涉及计算机动画、视频游戏、虚拟摄影棚等方面。如在目 前的网络游戏和动画中,由于对人体运动结构和人体骨骼肌肉结构进行了详细的 分析,目前,许多游戏中的人的形体、人的运动动作已经越来越逼真了。但目前 这一块仍然有很多的研究热点值得广大的科研人员去深究和探索,如目前的虚拟 聊天空间中,各个玩家只能通过文字和一些简单的图片图标来实现交流沟通和导 航,如果能在虚拟聊天交流中增加人的手势动作、人的面部表情、人体的姿态信 息等线索,这必将能够给玩家带来更加丰富的交互形式和体验效果。 ( 3 ) 计算机智能监控 智能视频监控( i v s ,i n t e l l i g e n tv i d e os u r v e i l l a n c e ) 是计算机视觉研究领域中 新出现的一个研究热点,它是指利用图像处理和计算机视觉的方法对所获得的图 像序列进行运动目标检测、运动分类、运动目标跟踪以及对监视场景中的目标行 为的描述与理解,它能够在没有借用人工帮助的情况下,自动地完成对摄像机所 拍摄的图像序列进行分析。同时,能够智能化的对所监控的动态场景中的运动目 标进行定位、分类、跟踪以及识别。在这些基础上,实现对图像序列中运动行为 的判断和理解,从而能够在异常情况发生的时候,及时准确地做出相应的反应, 最大限度的降低异常事件所带来的影响。智能视频监控在人们的生产生活中有着 广泛的应用前景。视频监控是指通过获取监控摄像机所拍摄的视频监控图像序 2 硕十学位论文 列,并对这些图像序列通过进行监视、分析、记录等,以求能够获取图像序列中 的有用信息,并做出相应的动作以及部署。从而实现对监控目标的监视、跟踪、 控制、智能管理等等。目前,随着对安全防范和现场记录取证系统要求的提高, 监控系统已经广泛的应用于银行、电力、军事、机场、铁路、交通枢纽、安检、 消防等众多的公共场合。随着技术的进步和成本的降低,智能监控系统现在已是 随处可见。如现在广泛应用的居民小区内的摄像头、道路上的各种电子眼、银行 自动取款机中的摄像机等等。但是这些系统仅仅完成最基础的视觉信息的采集。 对这些海量信息的处理都需要用人工的帮助,而且它们并没有充分发挥主动监督 的作用,过分依赖于人工的处理,这将导致其效率不是很高,远远跟不上计算机 信息的发展速度,为了尽快的解决二者之间的矛盾,计算机智能监控就变得越来 越重要,比如在小区的视频监控中,当异常情况( 如停车场内的车辆被盗时或停 车场内发生火灾时) 发生时候,传统的视频监控只能在失主发现盗窃或火警后通 过调用小区内的视频监控录像查看事件的发生过程,但这为时已晚,而在智能视 频监控中,当这种异常的情况发生的时候,计算机能够通过自动分析摄像机捕捉 到的画面,系统会及时的向车主和保安人员发出警报信息,这样就能够避免犯罪i 的发生,减少财产的损失。 ( 4 ) 体育运动分析 体育运动分析是指利用运动员的日常训练、比赛中的一些视频图像作为进行 体育训练的参考,从而找出训练中的不足之处或可借鉴之处,它是目前国内外普 遍采用的一种行之有效的提高运动员成绩和训练效率的方法。体育运动分析融合 了当今流行的图像处理、人体仿真学、计算机视觉等多领域的研究热点,以运动 ? 员为研究对象,通过对其进行定性以及定量分析,以求达到科学辅助训练的目的。 体育运动分析在很多方面都可以应用:它可以用来创建一些个性化的训练系统, 例如可以检索跳水运动员在跳水运动中的整个运动过程,通过提取跳水运动员跳 水过程中的各项技术指标( 如起跳的位置、起跳的高度、旋转的角速度等等) ,再, 通过对这些运动参数信息的分析评估等,就可以为教练、运动员等提供更好的训 练建议和指导,进而实现运动员训练成绩的提高。也可用在体育运动视频的自动 分析和自动评判,可以加速数字化体育运动训练的进程,也可为体育比赛的实时 转播提供比赛自动评注,赛况自动讲解等实时信息。 ( 5 ) 基于人体运动模型的视频编码 目前可以通过提取运动场景中人物的一些三维姿态参数和形态特征参数,这 样就可以用较少的数据流来描述视频中的运动场景,从而提高视频数据的压缩 比,实现用低比特的数据流来传输视频,因此,可以广泛的应用于目前互联网上 v o d ( v i d e o o n d e m a n d ,交互式视频点播) 视频点播和远程视频会议等等,可以 给客户带来更好的体验感。 基于视频的肢体定位与于势动作识别研究 综上可知,人的运动分析在计算机智能视频监控、计算机智能视频分析理解、 人机交互、虚拟现实、视频会议、远程医疗诊断、基于内容的图像检索编码等方 面具有广泛的应用前景和研究价值,从而激发了国内外广大科研工作者浓厚研究 兴趣。近年来开发的新技术,新方法层出不穷,带来了人体运动识别技术的不断 飞跃。 1 2 国内外相关的研究现状以及研究趋势 从1 9 世纪中后期开始,人们就开始关注人体行为分析,2 0 世纪9 0 年代开 始,随着计算机处理速度的提高和计算机的普遍使用,越来越多的研究人员开始 投入到人体运动分析这个领域中来,进入新世纪后,国际国内上关于人体运动分 析和肢体定位的论文如雨后春笋般一样层出不穷【8 13 1 ,在这个方面,国外研究的 比较深入的机构有卡内基梅隆大学,麻省理工学院等等,国内主要有清华大学、 微软亚洲研究院、中科院自动化研究所等等。这方面国内比较成功的研究和应用 主要有中科院自动化所的在智能监控方面的一些成功的成果,如人和车多目标的 检测与跟踪,人流拥挤检测以及报警系统等【l4 1 。国际上关于人体运动分析的重 要的学术会议和权威的期刊主要的有p a m i ( i e e et r a n s o np a t t e r na n a l y s i sa n d m a c h i n ei n t e l l i g e n c e ) 、 i c c v ( i n t e r n a t i o n a lc o n f e r e n c eo nc o m p u t e rv i s i o n ) 、 e c c v ( e u r o p e a nc o n f e r e n c eo nc o m p u t e rv i s i o n ) 、c v p r ( i e e ec o m p u t e rs o c i e t y c o n f e r e n c eo nc o m p u t e ra n dp a t t e r nr e c o g n i t i o n ) 、i j c v ( i n t e r n a t i o n a lj o u r n a lo f c o m p u t e rv i s i o n ) 、c v i u ( c o m p u t e rv i s i o na n di m a g eu n d e r s t a n d i n g ) 、i w v s ( i e e e i n t e r n a t i o n a lw o r k s h o po nv i s u a ls u r v e i l l a n c e ) 等等,国内也召开了不少关于人体 运动分析这方面的会议,如计算机智能视觉监控学术会议,计算机模式识别会议 等等。同时,关于人体运动分析的相关论文最近几年也变得越来越多,下图1 1 表示了在万方上查询到的近几年关于人体运动分析的相关方面研究的发展趋势。 从图上可以看出,近些年人体运动识别的相关方面已经成为了一个研究的热点问 题。 因为人体行为识别具有广阔的应用前景和良好的研究价值,现在已经越来越 受到广大研究人员和科研机构的重视,目前已经研究出一系列成功的算法,并成 功地部署了大量具有实用价值的应用。下面简单介绍一下人体动作识别和肢体定 位的一些进展。 4 硕f j 学位论文 图1 1 人体运动相关研究方向的发展趋势 ; 1 2 1 人体动作行为识别的相关方法及研究进展 人体运动行为分析的目的是为了让计算机能够识别和理解人的日常行为和 动作。目前对人体行为分析常常采取人体图像的二维或者三维信息。针对不同的 应用场合,各个研究员采用的方法不同,故人体行为的分类也就不同。按照人体 动作来分类的话,人体运动识别可以分为姿态识别和动作识别二大类。 姿态识别( p o s er e c o g n i t i o n ) 主要是对人体某一部分或者是人体整体的姿态 进行识别,姿态识别主要的对象是静态系统。根据识别的人体器官不同,姿态识 别可以分别为手形识别【1 5 17 1 ,嘴唇识别1 1 8 1 ,人耳识别等等。动作过程识别则不 同与姿态识别,它是一个动态识别人体动作的过程,识别的对象主要是人体整个 身体或者部分身体的运动过程,一般的动态识别对象有表情识别 1 9 1 ( f a c i a l e x p r e s s i o nr e c o g n i t i o n ) 、步态识另l j ( g a i tr e c o g n i t i o n ) 、唇读识别等等。如中科院 自动化所的谭铁牛【2 0 】等提出基于步态的身份识别具有较好的应用前景。 人体运动动作识别按照不同的研究员所采用的算法,大致可以分为以下三 类:基于模板的算法、基于语法的算法、基于统计的算法等。 ( 1 ) 基于模板的人体动作识别算法 基于模板的人体运动识别算法主要有模板匹配( t e m p l a t em a t c h i n g ) 、动态规 划( d y n a m i cp r o g r a m m i n g ) 、动态时间规整( d t w , d y n a m i ct i m ew a r p i n g ) 等。 模板匹配是将一组图像序列先转化为一组静态的模板,然后通过匹配测试序 列中的模板和代表已知动作的模板来获得识别的结果。它对每一个动作都建有一 个模板库,通过计算获得的特征数据与已知的模板进行匹配,从而得到二者之间 的匹配度。 动态时间规整( d t w ) 是基于动态规划思想而提出的模板匹配算法,它是把二 个不同时间长度的运动特征模板,按照一定的时间规整曲线进行调整,从而使得 基于视频的肢体定位与手势动作识别研究 二个特征模板的时间长度达到一致,然后再对这二个模板进行匹配。它主要用于 计算二个长度不同模板之间的相似度。它最早是由s a k o e 和c h i b a 在l9 7 8 年提 出的并成功应用于语音识别算法中 2 h 。1 9 9 6 年,g a v r i l a 将d t w 算法引入了人 体动作识别算法中,它可以解决不同的行为样本之间时间间隔不同的问题【2 2 1 。 动态规划( d y n a m i cp r o g r a m m i n g ) 的基本思想是寻求待解问题多阶段的最优 化。在每次匹配的过程中,未知样本模板和特征模板之间不需要考虑时间调整对 齐问题,可以把未知样本中的每一个时刻的特征和特征模板中的任意一个时刻的 特征进行对比匹配,从而求出其最优解。在文献 2 3 中,作者利用动态规划算法 来区分二种不同的动作。它的主要缺点是计算量大,需要将未知样本与特征模板 库中的每一个样本进行匹配,同时匹配结果容易受到噪声的干扰,造成识别结果 的不稳定。 ( 2 ) 基于语法的方法 基于语法的识别方法主要是有限状态机( f s m ,f i n i t es t a t em a c h i n e ) 和其他一 些上下文无关的文法等等。基于语法技术的方法最初被应用于文本分析和语音识 别领域并取得了巨大的成功,得到了广泛的应用。随着计算机视觉研究的深入, 基于语法的识别方法逐步被应用于计算机视觉领域,但是大部分只能用于静态图 片的纹理识别。近些年来,人们尝试把基于语法的识别方法用于人体运动识别并 取得了一些成绩,这种方法主要的优点是它对复杂结构的理解和对先验信息的利 用。如b r a n d 采用了一些简单的确定性语法来对离散事件进行了识别【2 4 1 ,h o n g 将手势定义为时空空间的有序状态序列,以有限状态机来实现对人体的二维手势 识别【25 。i v a n o v 和b o b i c k 等描叙了一个基于随机语法方法来检测和识别多个智 能体的活动和交互。它的基本思想是分为二层来解决这个识别问题,底层主要是 采用基于独立概率事件的一些检测器来检测候选的特征,而它的输出则是一些上 层随机上下文无关的语句法分析机制1 2 引。c h o 等人把人的行为定义为多个相互 关联的关节体运动的组合,同时应用统计语法推理来完成人体运动行为的自动识 别问题【27 1 。但是基于语法方法的主要缺点是:用基于语法的方法建立起来的模 型不能准确的描述动态系统。这是因为基于语法方法是人为设定的,它没有通过 训练样本得到的,所以它无法准确的描叙训练样本的分布规律。 基于语法方法的模型鲁棒性较差,这是因为基于语法方法的模型将动态系统 各个时刻的观测识别作为系统状态,顺序输入模型,从而引导状态转移,发生任 何一个系统状态错误都不能进行正确的识别。 ( 3 ) 基于统计的方法 基于统计模型的人体运动识别是近几年来新发展起来的技术路线。它综合了 概率学、模糊推理、统计学、随机应用过程等领域的模型和技巧。它的主要研究 思想是,寻找一个合适的模型,通过改变模型的训练样本集合和模型的参数使之 6 硕i :学f 节论文 能够适应于不同的应用领域。训练后的模型就可以用于新的信息如新的动作的抽 取和识别。这与机器学习、人工智能、模式识别等领域的基本思想是一脉相承的。 基于统计学方法的主要优点是它具有很好的学习能力,能够适应不同的应用环 境,基于统计的模型方法是动态模式识别中识别效果最好的方法。隐马尔可夫模 型( h m m ,h i d d e nm a r k o vm o d e l ) 和动态贝叶斯网络( d b n ,d y n a m i cb a y e s i a n n e t w o r k ) 是二种最主要的基于统计的学习方法。隐马尔可夫模型是目前人体动作 识别中应用最为广泛的识别方法,而动态贝叶斯网络由于具有模型结构较为复 杂,参数较为繁多等特点,目前在人体动态运动识别系统中运用较少,但是它具 有隐马尔可夫模型一些无可比拟的优势,是人体动态识别系统未来发展的趋势。 h m m 是人体运动分析和动作识别中应用最为广泛的方法,在这方面,有很 多成功的应用实例。如g u o 2 8 】等人利用h m m 来分析人的运动模式,r e s e n b l u m 等人利用h m m 来识别运动中的人的情感等等【2 9 1 。s t a r n e r 利用佩戴附有特殊颜 色的手套来检测和跟踪人的双手,以双手的速度与表现形状作为各个时刻的特征 向量,以4 个状态的隐马尔可夫模型描述特征向量的动态过程,识别4 0 种美国 手语手势【30 1 。隐马尔可夫链的基本算法有前向后向算法,v i t e r b i 算法, b a u m w e l c h 算法等。h m m 它能够克服模板匹配方法中存在的缺陷,但是,它 常常会涉及到较为复杂的迭代计算等问题,在训练的速度上存在缺陷,不能满足 实时性的要求。 随着d b n 研究的深入发展,动态贝叶斯网络已经成为人体运动行为识别和 动作识别研究中一个有效的数学工具,它可以用一些简单的变量来表示一个复 杂的动态系统,从而能够充分的利用时序概率空间模型中的稀疏性,这样就降低 了计算复杂性。g o n g 等人通过使用d b n 对人群的行为进行了建模分析,并针对 特定的人群行为进行了识别【3 1 1 。而l u o 等人则对体育运动用d b n 进行建模,它 把每个时间片分为包含五个隐含状态节点和四个观察节点【3 引。任海冰等人也提 出一种使用基元动态贝叶斯网络代表行为本质特征的基元作为特征,并且能进行 与人体无关的行为识别,具有较好的识别效率和鲁棒性【3 3 1 。 1 2 2 肢体定位算法的相关方法及研究进展 对于人体运动分析来说,视频中运动人体的肢体自定定位和划分是人的运动 分析系统的重要组成部分。近年来,人体的肢体自定定位和划分得到了广大科研 工作者的青睐,出现了一大批优秀的科研成果。h a r i t a o g l u 等人实现了一个单摄 像头下的人体肢体部分检测和姿态识别系统【34 1 ,s h y a m s u n d a r 等人采用b a r s 来 描叙人体轮廓的模型,并在此基础上实现了人体肢体的自定定位【35 1 。c h e n 等人 利用d e l a u n a y 三角划分技术来对人体肢体进行自定划分。这种方法首先取得图 像人体的三角网表述;然后,在利用深度优先搜索方法,从三角化后的人体图像 7 基于视频的肢体定位与手势动作识别研究 中,搜索出具有人体骨架特征的生成树;接着通过在生成树中去除所有分支点的 方法,可以粗略的提取出不同的肢体;最后,提出驱动模型方法识别出人体各部 分肢体i j6 。任海兵等人提出了人体上肢端点固定的关节模型及其对应的方程组, 用于估计各个关节点的3 d 坐标,分析方程组解的最大可能数目,以此来估计上 肢3 d 姿态1 3 。n i c o i a s 等人提出了利用图像匹配的方法来实现人体肢体的标定 1 3 引。曹丹华利用对人体肢体划分的主观意识,提出最小负曲率点分析法,搜索 分割手臂和腿部的最小负曲率点,确定肢体关节点,完成人体肢体的提取【”l 。i h a r i t a o g l u 利用递归凸包算法完成了一个基于人体轮廓的人体模型建立,进而识 别出充分伸展的人体的各个肢体部分【4 0 】;gm o r i 等人综合利用了人体外部轮廓 的特征特征、人体的形状特点、人的聚集程度信息和阴影等信息检测出人体的半 肢,同时将检测到人体半肢部分合并在一起组成不同的人体肢体部分,但是这种 处理方法主要是采用优化全局搜索的方法,方法比较的耗时,难以满足实时性的 要求【4 。h i r o n o b u 通过分析人体轮廓上的像素点与人体质心之间的距离,提出 了一种“星形”骨架模型【4 2 1 ,该模型可以提取出人体的头、手和足的特征点以 及特征点数据,如图1 2a ) 所示j a m i e 在分析了人体“星形”骨架模型的基础上, 提出了人体肢体s i xs e g m e n t 模型【4 引,如图1 2b ) 所示。s i xs e g m e n t
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 桥台背墙预埋件定位技术专题
- 2025人工气道的护理
- 2025中考数学冲刺抢押秘籍(南京版)临考押题卷01(南京版)(解析版)
- 支原体肺炎小班教案
- 物业秩序部行为规范培训内容
- 2024-2025学年下学期初中英语外研新版九年级期末必刷常考题之过去进行时
- 山西航空职业技术学院《医学影像成像原理实验》2023-2024学年第一学期期末试卷
- 海南职业技术学院《英语听说(四)》2023-2024学年第一学期期末试卷
- 郑州经贸学院《制药工艺学实验》2023-2024学年第一学期期末试卷
- 浙江越秀外国语学院《中国古代思想史》2023-2024学年第一学期期末试卷
- star法则培训课件
- 手术室护士自我简介
- 地下管线保护和加固措施
- 广告公司分支机构合同
- 2024年新课标培训2022年小学英语新课标学习培训课件
- 2024年北京第二次高中学业水平合格考地理试卷真题(含答案详解)
- 计算机网络与信息安全(2024年版)课件全套 李全龙 第01-10章 计算机网络与信息安全概述- 网络安全协议与技术措施
- 创建二级甲等医院实施方案
- 跨学科实践活动2 制作模型并展示科学家探索物质组成与结构的历程-九年级化学上册同步高效课堂(人教版2024)
- 广东版-开心学英语六年级下册教案
- 中班科学课件《神奇的磁铁》
评论
0/150
提交评论