基于视觉的静态图片中人体姿态估计进行了研究.doc_第1页
基于视觉的静态图片中人体姿态估计进行了研究.doc_第2页
基于视觉的静态图片中人体姿态估计进行了研究.doc_第3页
基于视觉的静态图片中人体姿态估计进行了研究.doc_第4页
基于视觉的静态图片中人体姿态估计进行了研究.doc_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要摘要人体姿态估计是计算机视觉领域中的一个关键问题,可以应用于人体活动分析,人机交互以及视频监视等方面。人体姿态估计主要是指从图像中检测出人体各部位位置、方向以及尺度信息。人体姿态估计常常被人们在视频跟踪环境中提起,由于基于单目图像的人体姿态估计的基础性和方便性,近年来国内外学者将人体姿态估计的研究重点开始转到静态图片人体姿态估计。本文正是从计算机视觉出发,对于基于视觉的静态图片中人体姿态估计进行了研究,主要做了以下工作:(1) 了解了Kinect技术的一些主要工作原理和在人体姿态估计当中的应用;(2) 研究了一些基本的图像特征提取,包括:深度信息,梯度直方图(Histogram of Gradients)和形状上下文(Shape Context)的算法原理及应用现状;(3) 研究了主成分分析法算法(PCA)的主要原理,并且利用该算法对输入输出数据进行降维处理;(4) 最后,针对上述不同的三种图像特征分别进行实验,从得到的实验结果中,根据平均绝对误差的大小,分析比较了三种不同特征下的人体姿态估计之间的效果。关键字:人体姿态估计,Kinect,深度信息,梯度直方图,形状上下文,主成分分析法59AbstractABSTRACTHuman pose estimation is an essential issue in computer vision area since it has many applications such as human activity analysis, human computer interaction and visual video surveillance, it main purpose of human pose estimation is that detect the position、scale and direction of parts of people .Human pose estimation is often approached in a video setting, within the context of tracking. Recent focus in the area has expanded to single-image pose estimation, because of its foundation and convenience . In this dissertation, vision-based human body estimation is investigated. Main contributions of this thesis are follows:(1) We get to know some main principals about the technology of the Kinect,and its real application in the human pose estimation.(2) We do some research about the extract of picture features,such as depth information、histogram of gradient(Histogram of Gradients)and shape context(Shape Context).In particular,we explain the main principals of all these methods and their statement of applications.(3) We do some research about the principal of PCA and we use it to reduce our datas dimensions;(4) At last,we perform a lot of experiments with respect to the picture features mentioned above ,judging from the results obtained from experiments,we analyse these three different experimentsabsolute average errors used in human pose estimation. Keywords:human body estimation,Kinect,depth information,histogram of gradient ,shape context,PCA目录目 录第1章 引言11.1 绪论11.2 人体姿态估计的研究意义11.3 人体姿态估计研究现状31.3.1 人体姿态估计分类31.3.2 静态图片中的人体姿态估计31.4 人体姿态估计研究难点41.5 本文的研究内容和结构安排51.5.1 本文的研究内容51.5.2 本文的结构安排5第2章 图像深度信息72.1 深度图像的研究现状72.1.1 深度图像的概念与特征72.1.2 深度图像研究现状82.2 Kinect技术82.2.1 Kinect简介82.2.2 Kinect深度成像的基本原理92.3 实验数据预处理112.3.1 PCA算法的概念与应用112.3.2 PCA算法的原理112.3.3 输入输出数据降维152.4 本章小结17第3章 梯度直方图算法183.1 梯度直方图特征描述符183.1.1 梯度直方图183.1.2 矩形梯度直方图描述符193.2 梯度计算203.2.1 线性算子与核算子203.2.2 图像卷积203.2.3 梯度大小和方向计算213.3 分配权值213.3.1 高斯滤波权值分配213.3.2 三线插值233.4 梯度直方图特征向量233.5 梯度直方图人体检测算法243.6 本章小结25第4章 形状上下文264.1 形状匹配简述264.1.1 形状匹配的相关概念264.1.2 形状的表示方法274.1.3 基于全局特征的形状匹配284.1.4 基于局部特征的形状匹配284.2 形状的轮廓点集表示294.2.1 引言294.2.2 形状的轮廓点集表示294.3 形状上下文的定义304.3.1 形状上下文的具体定义304.3.2 基于形状上下文的形状匹配334.3.3 不变性分析334.4 本章总结34第5章 线性回归模型355.1 线性回归模型355.1.1 线性基函数模型355.1.2 极大似然法和最小二乘法385.1.3 最小二乘法的几何解释405.2 规范化的最小二乘法415.3 多个输出425.4 实验结果比较分析435.4.1 回归模型在实验中的应用435.4.2 不同实验误差的比较分析445.4.3 实验效果展示475.5 本章小结48第6章 总结与展望496.1 全文总结496.2 未来工作展望49参考文献50致谢52外文资料原文53外文资料译文56第1章 引言第1章 引言1.1 绪论人机交互(Human-Computer Interaction,HCI)是一门研究系统与用户之间互动关系的一门学科。这里的系统可以是各种各样的机器,也可以是计算机化的系统和软件。人类获取的外部世界信息,其中是通过人的眼睛即视觉感知得到的超过80以上,让机器能够拥有像人类一样的视觉是人类社会多年的梦想。随着人机交互技术的快速发展,人与机器之间自然的、多模态的交互将成为人与机器之间交互的主要方式。这里首先遇到的问题就是需要机器能够正确地认识和理解人的行为,正是在这种背景情况下,姿态估计被人们提出。姿态估计是指检测和估计目标(通常是人)的姿态动作,需要将这些姿态动作转化成为数字形式的“抽象运动”的技术,输出的结果表示当前人体的姿态动作。1.2 人体姿态估计的研究意义过去二十多年里,自动理解图像以及视频序列中的人体姿态,一直都是机器视觉研究的重点。除了人类自己对探索和仿造自身的兴趣外,促使人体姿态估计成为研究重点的最主要原因还是电子设备的迅速发展以及由它所产生的巨大应用市场。最近几年,数字照相机、智能手机、平板电脑、网络摄像头、监控摄像头等数码产品渐渐融入人们的日常生活,地球上每时每刻都会产生大量新的数字图片和视频数据,其中人类活动必然是人们想从这些数据中获得的最主要内容。有效的处理和理解数据中的人类活动,将会为人类社会的发展带来深远影响。概括来讲,人体姿态估计的应用领域主要包括:(1)高级人机交互人们都希望机器能够理解人类活动并与人进行自然交互,这是人类由来已久的科技追求目标。随着科技的发展,人类生活离不开各种各样的机器设备,从智能手机到数字电视,从个人电脑到平板电脑,但是传统的键盘鼠标以及现在触摸的交互方式还是占主要部分。2010年微软后来居上,发布 Kinect(如图1-1),其是一种3D 感知体态的摄影机,它具有即时语音识别、麦克风输入、辨识影像、动态捕捉信息、社区互动等其他功能。玩家可以在游戏中打球、开车、分享信息等。由此能够预见的是,当人体姿态估计技术走向成熟时,人机交互方式的革命性变化必然会被人类迅速接受,使得人与机器的交互自然而友好,并且使人们控制机器的方式变的更加容易以及更易接受。图1-1 Kinect游戏(2)智能监控视频监控目前已经成为保障人类财产、生命安全、维护社会秩序稳定的主要手段之一。越来越多的监控设备安装在办公楼、广场、车站等人群相对聚集的社会公共场所。(3)人体姿态捕捉人体姿态数据的捕捉现在主要应用在制作动画、工业测量、医疗分折和控制等领域。精准的人体姿态数据能够用来驱动动画角色,减轻动画设计师的负担;同时也可以帮助运动员分析自己的运动特点,并有针对性的制定训练计划、治疗方法;也可帮助车辆设计师分析和改进产品,有效预防事故、减少伤害等。1.3 人体姿态估计研究现状正是由于人体姿态估计的重要应用价值,所以它吸引着越来越多工业以及学术研究人员的目光。1.3.1 人体姿态估计分类人体姿态可以分为二维和三维两类情形:二维的人体姿态是指人体关节在图像二维平面分布的一种描述,一般使用线段或者矩形等来描述人体关节在图像二维平面的投影,线段长度和线段角度分布或者矩形大小和矩形方向就描述了人体二维姿态,二维姿态中不存在二义性问题;三维人体姿态是指人体在三维空间中的位置和角度信息,一般用关节树模型来描述估计的姿态,也有一些研究者采用更加复杂的模型,一般使用模型反投影的方法获取三维姿态。由1.2节知,人体姿态估计可以应用于人体活动分析、人机交互以及视觉监视等领域,是近期计算机视觉领域中的一个热门问题。人体姿态估计常常被人们在视频跟踪环境中提起,近年来人体姿态估计开始转到静态图片人体姿态估计,这是因为这一问题对视频运动捕捉的初始化非常有用。人体姿态估计面向的人体对象在广义上比较宽泛,既包括整体的人体,也包括人体的其他局部肢体,如脸部、肩膀、胳膊、腿部等。本文只关注人体作为整体时在静态图片(人体姿态的二维情形)中的姿态估计,而不考虑其他身体部位的局部姿态。1.3.2 静态图片中的人体姿态估计现有的人体姿态估计工作可以分为无模型(model-free)、基于模型(model-based)的两类方法。1.3.2.1 无模型人体姿态估计无模型的人体姿态估计方法又可以划分为基于学习的方法(learn-based)和基于样本(sample-based)方法。(1)基于学习的方法:使用训练样本学习从图像特征空间到人体姿态空间的回归模型,将大量训练样本浓缩表达为紧致的函数,从新观测图像中提取图像特征代入学习得到的回归模型,这样即可估计当前的人体姿态1。例如,文献2中使用人体轮廓的形状关联作为特征,采用 Relevance Vector Machine 作为回归器,用稀疏贝叶斯非线性回归方法学习得到一个紧凑的映射模型,并将特征空间映射到参数空间,对输入特征直接输出其相应的人体姿态参数;文献3中则是将输入空间分成许多简单的小区域,这里的每个小区域都有相对应的映射函数,并使用了一种反馈匹配机制对姿态进行重构,由于训练数据范围较小,映射函数有较好的拟合效果,所以这种方法能够很大程度上提高估计准确度。虽然基于学习的方法执行速度快,不需要专门初始化,具有较小的存储代价,且无需保存样本数据库,但是基于学习方法的估计结果往往受训练样本规模的影响较大。(2)基于样本的方法:首先需要建立模板库,其中存储大量特征以及已知的人体姿态训练样本。当输入估计测试图像时,提取相应特征再用某种度量与模板库里的样例进行比较,即找到和估计图像相似的训练样本,再使用最近邻(KNN)或者其他算法估计测试图像的人体姿态。人体姿态十分复杂,不同的姿态所投影得到的图像特征描述符可能非常相似,即特征描述符与姿态空间之间是一对多的关系。1.3.2.2 基于模型的人体姿态估计基于模型方法将人体划分成一些相互联系的部件,用图模型(Pictorial Model)表示人体架构,并使用图推理(inference)方法优化人体姿态,即在进行人体姿态估计的过程中使用先验的人体模型,并且模型的参数也随着当前状态的变化而更新。基于模型的人体姿态估计中主要由三部分组成图模型、优化算法、部件的观测模型。图模型用来表示部件连接之间的约束关系,其中树模型最常用的模型,树形模型是根据部件之间的连接情况来定义,相对直观。基于模型的人体姿态估计具有较强的通用性,它减少了训练样本的制作成本同时也减少了训练样本的存储代价。1.4 人体姿态估计研究难点静态图片中人体姿态估计是运用学习、推断算法结合图像处理过程来获得人体的姿态参数并重建人体结构和姿态,最终目标是达到能够对人体姿态做出正确理解与合理应用。本文研究的静态图片姿态估计则是直接利用图片信息进行人体姿态参数的获取、估计。人体作为一个被分析对象,相对于其他物体(比如汽车、人脸等),具有特殊内在属性,且在静态图片中缺少三维信息,这样使得静态图片中的人体姿态估计在视觉研究中显得尤为困难。(1)高维度状态空间。每一个静止人体姿态都是根据关节的运动枢轴的旋转角度所决定,它是多参数的状态变量。而在人体实际运动尺度上,该变量的维度会高达几十甚至上百,建立以及求解高维状态的数学模型是一个很大挑战。(2)非刚体特性。机器视觉中可以将研究对象划分为刚体、非刚体两大类。人体是典型的非刚体目标,每一时刻人体中每个肢体运动都不相同。非刚体模型通常情况下很难建立,因此非刚体目标的运动、姿态估算以及识别都很困难,对人体目标也是一样。(3)姿态复杂。虽然人体和人脸一样都是非刚体物体,但是人体的分析难度远高于人脸,这主要因为人脸面部五官的变化仅仅是由肌肉驱动产生,而人体姿态的形成则是由多个关节旋转产生,又由于人体各肢体部位活动灵活,肢体部件之间存在很多的自遮挡情况,这使得二义性问题变的异常复杂。另外,图像作为人体姿态估计的观测数据,对于其处理目前尚仍存在困难。1.5 本文的研究内容和结构安排1.5.1 本文的研究内容本文的主要研究内容是基于学习的方法进行人体姿态估计,把基于Kinect设备得到的深度图像信息作为图像特征空间(输入空间),从中获取大量的训练样本进行学习,并且从图像特征空间到人体姿态空间(输出空间)的线性回归模型,将大量训练样本浓缩表达为紧致的函数,从新观测图像中同样提取图像的深度信息代入学习得到的回归模型,这样即可估计当前的人体姿态。另外,本文另外研究了梯度直方图(HOG)和形状上下文(Shape Context)作为图像特征空间的情况下的人体姿态估计。最后,通过实验结果,分析、比较了这三种不同图像特征空间下的人体姿态估计效果。1.5.2 本文的结构安排第1章 引言,主要介绍人体姿态估计研究意义及研究现状,人体姿态估计现阶段所面临的的困难,以及本文的主要研究内容和本文结构。第2章 图像特征提取之深度信息以及介绍主成分分析法(PCA)并用它对输入输出数据进行降维处理。第3章 图像特征提取之梯度直方图(HOG)的算法原理介绍。第4章 图像特征提取之形状上下文(Shape Context)的算法原理介绍。第5章 基于线性回归模型的算法原理介绍及对实验数据进行分析、比较。第6章 工作总结及展望,在总结论文的基础上,针对人体姿态估计发现的问题,提出了下一步的研究内容与方向。第2章 图像深度信息第2章 图像深度信息利用深度图像进行模式识别是近年来兴起的技术,这主要得益于深度图摄像机的成本降低。特别是微软推出Kinect设备,极大地激发了研究者们的兴趣。与飞行时间技术( time of flight,TOF) 、结构光、三维激光扫描等深度相机相比,Kinect 深度相机的优势在于拍摄的深度图分辨率高,成本低。以往的利用可见光图像的单目识别常常遭遇光照变化、阴影、物体遮挡以及环境变化等因素的干扰。利用深度图像进行模式识别可以很好地克服以上可见光图像模式识别常遇到的困难。2.1 深度图像的研究现状2.1.1 深度图像的概念与特征在3D 计算机图形学中,深度图像指从观察视角看去,图像所包含信息与场景物体表面距离相关的一种图像或一个图像通道。这样,假设图像深度值的变化方向( 即摄像机拍摄方向) 与所需要描述的三维场景的视场方向Z 方向相同的话,那么就能够很容易地描述整个三维场景。因此,深度图像也称为距离图像。与彩色图像相比,深度图像能直接反映物体表面的三维特征,且不受光照、阴影和色度等因素的影响4。在局部空间范围内和不需要颜色域信息时,深度图像可以代替双目成像。理想的深度图像如图2-1所示,其中左图是立体结构的可见光图像,右图是深度图像,距离相机越近的位置灰度值越小。 图2-2 理想深度图像外观示意图根据深度图像的定义,可以得到深度图如下2个性质:1. 颜色无关性。该性质表明深度图像与彩色图像不同,不会有光照、阴影、以及环境变化的干扰;2灰度值变化方向与视场Z 方向相同。该性质表明,利用深度图像可以在一定范围内重建3D空间区域,并且可以在一定程度上解决物体遮挡或同一物体各部分重叠的问题。2.1.2 深度图像研究现状深度摄像机按照成像原理划分主要有飞行时间法( TOF) 、结构( structured light) 、三维激光扫描( laser scanner) 等几种,主要应用于机器人、互动游戏等领域。其中飞行时间法的原理是通过给目标连续发送光脉冲,然后用传感器接收从物体返回的光,通过计算光脉冲的往返飞行时间来得到目标物体的距离。结构光法是一种主动光学测距技术,其基本原理是由结构光投射器向被测物体表面投射可控制的光点、光条或光面结构,并由图像传感器( 如摄像机) 获得图像,通过系统化的几何关系,利用三角原理计算得到物体的三维坐标。三维激光扫描是利用脉冲激光或者相位激光结合快速扫描技术瞬间得到三维空间中坐标的点云(point cloud) 数据测量值,可以快速构建结构复杂、不规则的场景。利用深度图像进行模式识别是近年来兴起的一种方法。其原因是,虽然上述3 种深度图摄像机价格越来越便宜,并且在工业上得到广泛应用,但是对于研究领域还是非常昂贵。一家以色列的公司PrimeSense 于2010 年4 月推出为微软XBOX 专用的三维测量技术的外部设备Kinect ( 由动力学“kinetic”与连接“connect”2个词汇组成的原创混合词)。 Kinect 设备的出现极大地激发了研究者们的兴趣,特别是计算视觉和模式识别的研究者们。其中较为著名的应用有人体检测与跟踪、姿势识别和头部识别等。2.2 Kinect技术2.2.1 Kinect简介Kinect 是微软在2010 年6 月14 日对XBOX360体感周边外设正式发布的名字。图2-2 所示,Kinect内置了用于语音识别的阵列麦克风系统,带1个XBOX360 外接的3D 体感摄影机,利用即时动态捕捉、影像辨识、麦克风输入、语音辨识等功能让玩家摆脱传统游戏手柄地束缚,通过自己的肢体控制游戏。Kinect 共有3个摄像头,中间的镜头是RGB彩色摄像机,左右两边镜头分别为红外线发射器和红外线CMOS 摄像机。此外,Kinect 还搭配了追焦技术,底座马达会随着对焦物体的移动而转动。图2-2 Kinect结构图2.2.2 Kinect深度成像的基本原理根据PrimeSense 公司的专利记载,Kinect 深度成像的原理是一种叫做光编码( light coding) 的技术。组成成像系统的三个核心元件包括: 激光发射器,不均匀透明介质,CMOS 感光器件。其构造图如图2-3 所示。其中,激光发射器与CMOS 感光器件成一定角度对准目标场景,而不均匀透明介质放置于激光发射器镜头前。激光发射器透过不均匀介质发射激光,在场景中形成激光散斑。CMOS 感光元件可以拍摄散斑图像。图2-3 成像系统构造图光编码技术的成像过程如图2-4 所示。第1步,标定。首先在目标区域距光源的多个不同位置分别用CMOS 感光元件采集散斑图案,然后存储这些不同位置的图案作为参考图像。此时标定完成。图2-3中,参考图像的位置分别记为Z1,Z2,Z3,Z4。第2步,取样。当不透明物体放入场景,或者物体在场景中运动时,在物体表面形成新的散斑,得到测试图像,此时的散斑图样发生变化,与所有参考图像均不同。在图2-3中,物体A 和物体B 表面形成散斑的位置是ZA,ZB。第3步,定位。将测试图像与所有参考图像分别计算相关系数,选取产生相关系数最大的参考图像,即物体在该参考图像所在位置的可能性最大。在图2-3中,场景放入A 物体所拍摄的ZA 位置散斑测试图与Z2 处参考图像相关系数最大,即认为A 物体在Z2 距离处。同理,B 物体认为在Z3 距离处。第1步:标定在不同距离处采集激光散斑参考图像第4步,重建。根据所选取的参考图像与光源间的标定关系,通过几何变换计算得出物体到光源的距离,构建3D 图像。并对距离数据归一化,转换成图像灰度值,最后将所生成的深度图像输出给外部处理设备。此时即完成对场景某一时刻的深度图像拍摄,向外部处理系统输出。然后返回执行第2步,得到连续不断的深度图像视频流。第2步:取样采集物体表面的激光散斑侧视图第3步:定位计算测试图像与参考图像相关度,选取相关度最大的参考图像第4步:重建基于所选取的参考图与光源间的偏移量构建3D图像输出向外部处理系统输出深度图像图2-4 光编码技术成像过程图2.3 实验数据预处理如第一章所介绍的那样,我们需要提取图像特征的深度信息,由于原本图像的灰度矩阵大小为240*320=76800维,维数很大,并且其中包含有大量的零元素,即对实验结果影响几乎没有的元素,这时候,我们为了提高计算机的运行效率以及减少计算成本,在保留原始数据的尽可能完整性的前提下,我们需要对原始数据降维处理。本文当中采用的是主成分分析法(PCA)进行数据降维。2.3.1 PCA算法的概念与应用PCA(Principal Component Analysis),称主成分分析,从统计学的角度来说是一种多元统计方法。PCA通过将多个变量通过线性变换以选出较少的重要变量。它往往可以有效地从过于“丰富”的数据信息中获取最重要的元素和结构,去除数据的噪音和冗余,将原来复杂的数据降维,揭示隐藏在复杂数据背后的简单结构。近年来,PCA方法被广泛地运用于计算机领域,如数据降维、图像有损压缩、特征追踪等等。PCA方法是一个高普适用方法,它的一大优点是能够对数据进行降维处理,我们通过PCA方法求出数据集的主元,选取最重要的部分,将其余的维数省去,从而达到降维和简化模型的目的,间接地对数据进行了压缩处理,同时很大程度上保留了原数据的信息,所以在机器学习和模式识别及计算机视觉领域,PCA方法被广泛的运用。2.3.2 PCA算法的原理PCA方法其实就是将数据空间通过正交变换映射到低维子空间的过程,如图2-5所示。而相应的基向量组应满足正交性且由基向量组构成的地位子空间最优地考虑了数据的相关性。在原数据集变换空间后应使单一数据样本的相互相关性降低到最低点。 图2-5 红点代表原始数据点;绿点代表被映射到低维空间后的点;紫线代表映射平面。2.3.2.1 方差最大化上面我们说过PCA方法的过程其实是寻找低维子空间的过程。那么什么样的低维空间才符合我们要求的呢。因为我们希望被映射后的数据之间的相关性降低到最低点,所以我们可以采取求解被映射后方差最大化的最优策略来找到低维空间。假设我们有N个样本数据xn,每个样本数据是D维,我们希望样本数据映射到M1维情况,协方差矩阵S应该有M个特征特征值:,其对应的特征向量应为:2.3.2.2 误差最小化PCA的另一种构造形式是基于误差最小化。我们引入D维完备正交基向量组,即: (2-6)所以我们可以用完备正交基向量来线形表示样本数据集中的每一个数据, (2-7)充分利用根据等式(2-6)的正交属性,利用等式(2-7)可得系数,反代回等式(2-7),可得等式: (2-8)我们来看表达等式(2-8)需要D维信息,而我们的目的是希望用MD维信息近似地表达出: (2-9)代表的是数据点的特殊分量,而bi代表的是所有数据点的所共有的分量。我们构造一个目标函数: (2-10)其通俗的含义是我们希望通过M维表达的出的数据点逼近D维样本数据点,这里我们采用欧式距离衡量两个数据点的相似性。那么我们的问题又转化为最小化目标函数J。通过求导,我们可以得出: (2-11) (2-12)反代回等式(2-10),得: (2-13)因此我们只要找寻协方差矩阵S的(D-M)个最小特征值就可。SVD奇异值分解是线性代数中的一种重要的矩阵分解方法,在信号处理、统计学等领域都有重要的应用。奇异值分解可以将一个比较复杂的矩阵分解为几个更小更简单的子矩阵相乘的形式来表达,而这些子矩阵描述的是原矩阵的重要的特性。对于一个MN大小的矩阵A来说,总是可以分解为: (2-14)其中U和V分别是AAT和ATA的特征向量,而则是他们的特征根。在PCA方法中,我们选取P个最大特征根及其所对应的特征向量,对A进行逼近: (2-15)线性代数理论证明:A与A在最小二乘法的意义下是逼近的。而当P越接近N,则逼近的结果越接近于原矩阵。所以当我们选取的P远小于N时,所需要存储的信息量就会越小,达到了降维和压缩的目的。2.3.3 输入输出数据降维2.3.3.1 数据库介绍本文中所采用的数据库是对外免费开放的MSR-Action 3D,其中包括20个不同的行为 (高抬挥手,水平挥手,敲打,抓手,向前出拳,高抛,画X形状,画刻度线,画圈圈,拍手,挥舞双手,侧拳,弯腰,前踢脚,侧踢,慢跑,拍网球,接网球,打高尔夫,捡起并丢弃),每个动作都由是个不同的实验对象做3次,每秒15帧。其中总共含有567个深度图像序列,23797帧,每帧图像的分辨率是320*240,并且都是由Kinect设备拍摄所得。另外,在这个数据库当中,对于每一个深度图像序列文件都对应一个骨架序列文件,且唯一对应,其中每一个骨架选取了20个关键骨架点作为人体模型。骨架信息由u,v,d,c四个不同的变量表示,其中(u,v)表示屏幕坐标,d表示深度值,c表示可信指数。如果一个深度序列含有n帧图像,那么其对应的骨架文件当中含有的数据个数为:n*20*4。实验样本深度图像和骨架图分别如图2-6,图2-7所示: 图2-6 输入深度图像样本图2-7 输出骨架模型样本2.3.3.2 输入数据和输出数据处理结果本章节中,我们把深度图像当做输入空间,记为矩阵X,骨架信息当做输出空间,记为矩阵Y,本次实验中,矩阵X大小为76800*1205,矩阵Y大小为60*1205,如之前章节所说,为了降低计算成本和提高计算机运行速度,我们利用PCA对和Y分别都进行降维处理,处理结果分别如图2-8,图2-9所示:图2-8 输入数据降维后的维数实验分析:即使当PCA降维能量比在99%的时候,即保存了大量的原始数据的能量,输入数据能从76800维降到只剩下775维,在降维能量比在90%的时候,即不失数据的准确性的前提下,输入数据降到了120维。图2-9 输出数据降维后的维数实验分析:输出数据的降维情况与输入数据的降维情况类似,可见如上分析。2.4 本章小结本章节当中首先详细介绍了深度图像的原理和基于Kinect的技术,其次介绍了主成分分析法(PCA)的算法原理,最后介绍了本次实验所用的数据库的简单特点以及对实验数据进行了预处理,为之后的实验分析打下基础。第3章 梯度直方图算法第3章 梯度直方图算法2005年Navneet Dalal提出的梯度直方图(Histograms of Oriented Gradient, HOG)5人体检测算法取得了传统 Harr-Like6特征和 SIFT7等人体检测算法无法比拟的效果,同时也克服了帧间差分法对环境依赖性较高这一缺陷。 3.1 梯度直方图特征描述符3.1.1 梯度直方图使用梯度方向直方图作为目标检测特征描述符的基本思想是目标物体的局部外观和形状可以很好的用目标物体的局部强度梯度分布或边缘方向的分布来描述,即使没有相应梯度或边缘位置的精确信息。梯度直方图特征描述符是对图像区域进行重叠密集描述的一种方法。常用的梯度直方图描述符向量有矩形梯度直方图特征描述符(R-HOG),如图 3-1(a)、圆形梯度直方图特征描述符(C-HOG),其中心单元进行过角度分割描述形状信息,如图 3-1(b)、只有一个中心单元的圆形梯度直方图(Single centre C-HOG),如图 3-1(c),它们都是使用统一的密集网格单元,将图像梯度信息统计到直方图中代表图像的局部形状信息,可以使用重叠的局部标准化方法来减少光照变化带来的影响图3-1 梯度直方图描述符的几种形式3.1.2 矩形梯度直方图描述符在传统梯度直方图人体检测算法中和相关改进算法中,基于矩形的梯度方向直方图都给出了较其他两种模型较好的结果,故本节也就矩形梯度直方图进行描述,如图3-2(a)所示,每个区域(Block)包含 2*2个单元(Cell),且每个单元是由 8*8个像素点构成。图 3-2 区域示意图在对矩形梯度直方图特征描述符进行计算时,将检测图像的检测窗口划分成密集统一的网点,以这些网格点为中心,使得它的周围像素点构成区域和单元,每个区域包含个单元,每个单元中包含像素和个方向角度,其中,是参数。通常情况下,区域间的平移间距大小和单元的边长是相同的,所以在一个检测窗口中,区域的描述符都是重叠的,绝大多数单元对多个区域的描述符都有贡献,如图 3-2(b),其中红色边框的一个区域与上下的绿色区域(两个区域)有重叠部分。当,时,划分密集统一网格中心点方法为公式(3-1): (3-1)当检测窗口大小为64*128、单元大小为88、区域大小为1616时,水平方向有( 64-16)/8+1=7个点,垂直方向为 (128-16)/8+1=15个点,整个检测窗口有715=105个网格中心点,在以网格中心点形成局部区域梯度方向直方图。在上述检测窗口下,设起始点为(0,0),所有105个网格中心点坐标为:(0,0) (0,8) (0,16) (0,32) (0,112)(8,0) (8,8) (8,16) (8,32) (8,112) (48,0) (48,8) (48,16) (48,32)(48,112)3.2 梯度计算3.2.1 线性算子与核算子假设 X 和Y 是两个抽象的集合,X到Y的一个映射是D,D可以成为算子。如果D 是在图像 f 上的算子,且生成图像g。如果有: (3-2)其中是f1,f2图像,a,b是变量,那么D可以看成是一个“线性算子”。例如有 5*5矩阵的二维图像f和算子h,则有: (3-3)其中a,b只取 -1,0,1,由公式(3-3)可以得到: (3-4)3.2.2 图像卷积对于函数f(x)、 h(x),它们的卷积运算可以表示为公式(3-5): (3-5)可以将上式扩展到二维情况有公式(3-6): (3-6)公式(3-6)表示的是连续图像的卷积,对于数字图像的离散卷积可以表示成公式(3-7): (3-7)因在实际情况中,图像f以及核算子都是有限值,可以定义图像以外看成是0,公式(3-7)又可以写成:= (3-8)公式(3-8)中a,b是核算子下标取值范围。公式(3-3)定义的是核算子,公式(3-8)定义的则是卷积运算。卷积:核算子最右边元素乘以图像中最左边元素;核算子:相对应的元素直接进行相乘,即左边与左边相乘,右边与右边相乘。当核算h对称的情况下,公式(3-3)与公式(3-6)是等价的。算子一般情况下是对称的(如用平滑或者用其他各向同性)。因为两式相似,图像处理时,这两种情况都可视为卷积,并且通常直接用公式(3-4)来代替公式(3-8)。3.2.3 梯度大小和方向计算本章中,将输入彩色图像R、G、B三个分量,分别用-1,0,1沿着 X 、Y 轴进行卷积,再计算梯度,对于这三个颜色分量,具有最大梯度大小的颜色分量可以被认为是当前图像中像素点的值,这样彩色图像就转化成了灰色图像,可以得到所有像素点梯度大小和方向。本章中图像卷积使用的模板是-1,0,1,根据差分运算,可以将梯度大小(公式(3-9)和方向(公式(3-10)分别表示如下 : (3-9) (3-10)根据上述介绍就可以计算出图像中所有像素点梯度的大小和方向,接下来就需要根据像素在图像区域的位置,使用梯度大小为像素方向分配权值,再统计区域方向来构成区域梯度直方图特征向量。3.3 分配权值3.3.1 高斯滤波权值分配在统计区域梯度直方图之前,需要对区域中图像梯度进行高斯窗口滤波。高斯滤波器,它是线性平滑滤波器的一种,其权值是根据高斯函数的形状来进行选择,在很多领域都有重要作用。图像的子空间中,高斯滤波器根据空间距离提供权值,用一个掩膜扫描图像区域中的每个像素,用掩膜确定的邻域内像素的加权平均灰度值去替代掩膜中心点像素点,其中所扫描像素点自身分配权值最大,离该像素点越远分配的权值越小,一元高斯函数表示为(3-11): (3-11)在公式(3-11)中,表示标准差,是高斯滤波器的唯一参数,的大小表示高斯函数的宽度。距离算子中心越远,像素对中心影响就越小,在2范围中包含了95%的权值,在3以外的中心影响就可以忽略。在本章里面,=0 .5,则表示像素点到自己所在区域网格中心距离。可以看出,离中心点越近像素点分配的权值就越大,反之离中心点越远权值分配就越小。二元高斯函数可以表示为公式(3-12)所示,这里的是关联概率分布的标准确性差: (3-12)d 维多变量高斯函数形式如公式(3-13),X为d维向量,U表示均值向量,K 表示协方差矩阵:- (3-13)高斯滤波几个重要性质:(1)离原点越远,权值就变的越来越小并逐渐趋近于0。说明了距离中心点近的图像值比远处的图像值对中心点值影响更大,其中标准差决定距离范围;(2)当均值为零时,高斯函数横坐标是对称的,把函数翻转后进行卷积,可以产生等价核;(3)高斯滤波的傅立叶变换在频率域内呈现为另一种高斯形式。这说明在与空间域高斯模板做卷积时,空间频率越高,图像高频部分就变得减小;(4)一维高斯函数的二阶导数的中间突出部分是光滑的,为负值,其中两个侧边突出部分也是光滑的,为正值。零交叉在-和+处,和g(x)拐点和g(x)极值点相对应。计算权值步骤:(1)标准差 Var=cellsize_*numcell_/(2*wtscale),Var=Var2, cellsize _表示包含的像素数,numcell_表示区域中包含的单元数,wtscale_则表示的是检测窗口的宽度;(2)区域中心点位置 center_=extent_/2;其中center_网格中心点位置;(3)计算分配权值像素点距中心点距离;(4)运用计算权值对图像梯度进行加权。3.3.2 三线插值每个像素点权值对这个像素点所在单元位置的HOG向量都有影响,单元内所有像素点的权值都被添加到梯度方向上。梯度方向范围可以是0到180的无符号梯度,也可以是0360的有符号梯度两种,在本论文中使用0180的无符号梯度,且将其分成9个方向(9bins)。再使用三线插值方法,把像素点梯度大小作为权值添加到梯度方向上构成区域梯度直方图向量。设h是直方图、带宽是b,h(x)指的是像素点中心处于x的直方图值,如果要将权值w插入到直方图x处,又设 x1 和 x 2是点x在直方图中最邻近两个bin 的端点坐标(x1 xx2),那么线性插值权值w对x1和x2影响为分别公式(3-14)和公式(3-15):- (3-14) (3-15)上述是一维情况下的线性插值,将其扩展到三维空间,w为三维空间中点x= x,y,z权值,其中x1和x2为x在X轴方向上最邻近两个bin端点坐标,梯度方图中沿着X,Y,Z轴方向带宽分别为。 3.4 梯度直方图特征向量梯度直方图特征向量是指检测窗口中所有区域梯度直方图描述符一起形成的最终人体特征描述符,是判断检测窗口是否为人体的依据。(1)单元方向角度:通过高斯滤波将图像梯度为像素点赋予权值后,在所有单元内统计像素点梯度方向,梯度直方图角度范围为0180,每20一个直方柱,总共有9个柱,即一个区域中形成49=36维的特征向量,图 3-3 所示即为单元梯度方向直方图。图 3-3 单元梯度直方图(2)区域梯度直方图:当检测窗口为64*128时,因为有105个网格,一个区域特征描述符为36维,所以检测窗口特征向量总共3780维。(3)标准化方法为了降低光照和和前景-背景对比度对检测结果的影响(没有标准化,梯度强度变化较大),需要对区域进行标准化。以下是几种标准化方法,其中v是没有标准化区域描述符向量:L2-norm,L2-Hys,(与相同,区别在于限制v最大值到0.2)L1-norm,L1-sqrt,在检测窗口中,绝大多数区域都有重叠,所有单元对最终特征向量都有影响,对区域进行标准化虽然看起来较多余,但是实际中很有用。3.5 梯度直方图人体检测算法综上所述,梯度直方图(HOG)是在被称为单元(Cell)和区域(Block)的网格内进行密集计算得到,Cell 由若干像素点构成,而 Block 则由若干相邻的 Cell 组成。HOG 人体检测算法具体计

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论