行为识别国内外现状_第1页
行为识别国内外现状_第2页
行为识别国内外现状_第3页
行为识别国内外现状_第4页
全文预览已结束

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 原始视频的特征提取 1 光流场 光流场是空间运动物体在观测成像面上像素运动的瞬时速度 它利用图像序列中的像素强 度数据的时域变化和相关性来研究图像的灰度在时间上的变化与场景巾物体结构及其运动 的关系 光流法通常假设相邻帧的图像差异非常小 从而获取对真实运动场的近似估计 31 它不用预知任何先验知识 即能提供有关运动速度及图像中运动区域的简洁描述 适用于摄像机运动的情形 但光流法易受噪声及光照变化的影响 且计算较为复杂 很难 用于实时的视频监控系统 2 点轨迹 目标的运动轨迹也可以作为特征 从而大致推断出目标运动所属的行为类别 但图像平面 上的轨迹对平移 旋转和缩放等变换比较敏感 因此在大多情形下 此特征显得不够可靠 常用的替代特征表达有轨迹速度 时空曲率等 4 51 运动轨迹的获取比较依赖于精确的 跟踪算法 从原始视频中提取点轨迹特征同样容易受到噪声 遮挡及混乱背景等的影响 3 人体形状表达 在摄像机固定的情形下 假设背景已知 通过背景剪除法可以很容易得到运动人体形状 基于全局 边界及骨架等的描绘子都可以用来表达人体形状 全局方法 16 71 如剪影 矩 等是在整体形状区域内计算描绘子 而边界方法仅考虑形状轮廓 8l 骨架 i 方法则是用一 组 lD 骨架曲线代表一个复杂的人体形状 比如中轴变换 91 等 4 滤波器响应 空时滤波器响应是一个广义上的分类 Zhang 等 lo 存时间轴上计算高斯导数 将滤波器 响应较高的区域作为运动区域 LaptevI 1 利用一组空时高斯导数滤波器将 Harris 角点检 测扩展应用于三维的视频数据从而检测出空时兴趣点 这类方法大都基于简单的卷积操作 运算快速而简便 当视频分辨率较低的情形下 提取光流或剪影特征较为困难 利用滤波 器响应特性可以从视频数据中提取有效的底层特征 2 低层特征的描述与识别 我们将低层特征的描述与识别方法分为三类 非参数方法 空时体方法和参数时序法 分别对现有方法进行归类 并作一个简短的综述 2 1 非参数方法 1 模板匹配法 这类方法需要对每种行为的特征建立相应的模板 将获取的特征数据与模板相匹配 通过 计算两者之间的相似度进行识别 Polana 和 Nelson 4 刀将整个序列分解为多个周期行为 利用二维网格特征识别各种行为 Bobick 和 Davis 391 将图像序列转换为运动能量图像 膨 酣 和运动历史图像 朋 m 模板 MEI 反映运动覆盖的范围及强度 而 MHI 反映运动在时间 上的变化情况 Weinland 等 拍 提出运动历史体积 MHV 模板 从多个视角重建目标并 将其投影到圆柱坐标系 提取 Fourier 变换特征以描述行为 Wang 和 Suter 451 也将整个行 为过程融合为基于轮廓的平均运动形状 MMS 和基于运动前景的平均运动能量 彳 扭 两个 模板 模板匹配法计算复杂度低 实现简单 但它本身无法描述动态系统 也不能完全反 映数据在空问上的分布属性 具有一定的局限性 而且不同行为之间执行速率的不同 噪 声 光照等因素都会影响模板匹配的准确性 2 目标建模法 行为可以通过建立人体动态表观模型进行描述 常见的人体模型有棍图模型 109 2D 模 型例及 3D 模型 51 3D 人体建模是最常用的人体结构表征方法 通过跟踪人体模型中主要 关节点的坐标 关节之间的角度 关节点运动的速度及角速度可以分析人体各种行为 3D 模型包含深度信息 因此它能够有效解决自遮挡和自碰撞问题 行为本身也可以看成是一 个 3D 空时目标 如 Mahmood 等 1 刁在联合 X Y T 空间将整个行为表示为圆柱体模型 Yalmaz 和 Shahll31 将跟踪获得的人体 2D 轮廓堆叠成联合 X Y T 空间中的目标 这种表达 同时刻画了人体表观及动态运动特性 从 X Y 玎空问的表达中提取的各种几何特征 如峰 凹点 谷及脊等 可以作为目标表面的捕述 但它需要建立序列帧点与点之间的对应关系 Gorelick 等 6 采用背景剪除后的二值剪影替代人体轮廓 构造出 X Y T 空间一上的空时 目标 虽然它不需要建立序列 l ji 之间轮廓点之间的对应关系 但仅适用于摄像机固定 的情形 3 流形学习法 行为识别中所处理的视频数据处于三维空间 若将序列中每帧图像转换为向量并按时序排 列构成矩阵处理 将会遭遇 维数灾难 同时也会引起小样本问题 而流形学习方法假设 数据均匀采样 J 高维欧氏空间中的低维流彤 从高维采样数据中恢复低维流形结构 并 求出相应的嵌入映射 以实现降维 它可分为线性方法及非线性方法 线性流形学习假设 数据位于线性空问 包括 PCA ICA 等方法 但在实际情形下 数据并非位于线性空间 需 要从大量样本中学习流形的内部几何结构 非线性流形学习方法大体分为两类 一类基于 全局方法 如等距映射 届 纠尸 计算每一个数据点与其他数据点关系而建立全连接图 另一类方法基于局部 即考虑每个数据点与它邻域内的点的关系 定义图中的边及其权重 如拉普拉斯特征映射 一些非线性方法的线性近似 如 Lppt48 108l 加入类别信息的流形 方法如 LSTDE 491 可以直接求得投影矩阵用于解决新样本的低维嵌入问题 流形学习方法 可用于行为分析中原始数据的降维 采用 NN kNN SVM 及 Boosting 等方法对低维空间中 的特征数据进行分类可以识别不同行为 2 2 空时体方法 1 空时滤波法 视频数据可以看成由每帧图像按时序构成的空时体 具有三维空时结构的滤波器可以用来 描述视频数据的空时特性 进而提取行为特征 Chomat 和 Crowley 1 从视频中分割出 不同的空时体 用方向和空间上的不同尺度及时问上的单一尺度构成的 Gabor 滤波器组在 每个像素点上计算局部表观模型 通过每帧中单个像素点概率空间的平均值对行为进行识 别 为了适应不同的执行速率 Manor 等 f 在时间上的不同尺度得到空时梯度表示的归 一化局部直方图 并使用卡方距离度量它与存储模板之间的相似度 滤波器方法虽然实现 简单 但在实际应用中 滤波器的合适带宽并非先验已知 需要不同空间和时间尺度上的 滤波器组获取其动态行为 且每个滤波器产生的响应与输入体的维数相同 因此这种方法 必须付出较高的计算代价 2 基于部分的方法 视频数据可以看成是局部的集合 其中每个子部分都包含着明显的运动模式 Laptev 111 将 Harris 角点检测器扩展到空时表示形式 在不同级别的尺度上计算空时梯度 由每个点 及其邻域内的梯度信息产生空时二阶矩的估计 从而提取局部特征 Dollar 等 fl 61 在训练 数据中的空时兴趣点上提取空时梯度 采用 K 均值聚类方法获取特征原型 对视频体进行 建模 Niebles 掣 1 从包含空时兴趣点的子体积中提取特征并聚类乍成 Bag of Words 模型 采用 SVMs 识别各种行为 不同的行为可能包含相似的空时子部分 而子部分之间的几何 关系却各不相同 但以上这些方法都不能对局部的全局几何进行建模 在不同行为之间可 能造成歧义性 Boiman 等 f18 和 Wong 掣 1 叨将全局几何引入到基于部分的视频体表示 将其看成是各子部分的星群 当子部分数目较多时 这种方法的计算量也会相应地增大 Song 等 1201 采用三角化的方法逼近星群之问的连接关系 从而解决计算花费偏高的问题 Niebles 和 Li 2 提出一个层级模型 其中较高的层级是各部分的星群 星群中的各部分则 由低层 Bag of Features 构成 基于部分的方法大多需要基于空时兴趣点提取梯度或强度 特征 在比较平滑的运动中 兴趣点十分稀疏 在行为本身不连续或视频质量不高的情形 下 梯度或强度特征也显得不够可靠 3 分体匹配法 分体匹配法一般通过匹配输入视频体与三维模板分体之间的相似度从而对人体行为进行分 析 与基于部分的方法不同 它不需要在不同尺度空问中获取行为特征 而是直接判断其 所包含的局部空时片段 Local Spatio Temporal Patches 之间的运动相似度来寻求匹配 然 而 从视频体分割出分体再进一步得到空时片段 反复地匹配空时片段之间的相似度 同 样也会产生巨大的计算花费 Shechtman 和 Irani 221 通过发掘空时运动之间的相关性实现 未知行为数据与模板之间的匹配 Ke 掣 241 通过空间观上的像素点聚类得到分体 分体是 空间上的连续区域 而视频体可以看成是任意形状分体的集合 给定的一段视频被重复分 割成多个分体 将每个分体区域与已知行为的模板相匹配 寻找与模板达到最大匹配的最 少分体的集合 Yuan 等 5I 利用基于贝叶斯的互信息最大化方法将提取的空时兴趣点根 据其所属的行为类别按正 负投票输出 行为检测即是寻找包含最大投票输出值的分体 分体匹配法容易受到背景变化的影响 但对噪声及遮挡等干扰因素则具有一定 征 23 则可降低这类方法对表观变化的敏感性 4 基于张量的方法 将行为表示为三维空时体 则可以很自然地作为一个三阶张量 其中两维表示空间 另一 维表示时间 传统的视频处理方法需要将视频中人体行为所在的每帧图像转为向量并按时 问顺序堆叠成矩阵处理 由于矩阵的向量由图像转换而来 一般具有很高的维数 以 100 x120 大小的图像为例 对应于矩阵中的向量为 12000 维 与这种传统表示相比 张量 以自然地形式表示数据 既避免造成了维数灾难 又保留了视频数据内部图像的窄问结构 信息 Kim 等 25 将典型性相关分析 CCA 扩展应用到三阶张量情形 实现测试行为与已 知类别行为之间相关性的直接度量 Vasilescu 261 将行为类别 人的身份及关节轨迹分别 作为张量独立的一维 构成高阶 三阶或三阶以上 张量 张量分解为对应的模式则可得到 行为类别或行为者的身份 Wblf 等 27 把 Low Rank SVM 扩展到张量空间并用于行为识 别 当然 张量方法也可与其它方法相结合 如凌等 521 采用 Tensor PCA Tensor LPP 及 有监督的 Tensor LPP 获取行为的低维特征表示 进而通过最近邻方法识别各种不同行为 基于张量的方法不需要中间层表示 比如部分 分体等 直接在行为之间实现整体匹配 其它特征如光流场 空时滤波响应等也可加入到张量框架中 作为张量空间中任何独立的 一维构成高阶张量 以增强不同行为之问的可辨识度 2 3 参数时序方法 非参数方法和空时体方法一般用于识别简单行为固 而参数时序法则更适用于复杂行为 如芭蕾舞视频中的旋转动作 交响乐中的指挥手势等 1 隐马尔可夫模型 删 隐马尔可夫模型能够匹配时变数据 是一种比较常用的状态空问法 它涉及训练和分类两 个阶段 训练阶段指定模型的隐藏状态数 优化相应的状态转换和输 m 概率 便于产生与 特定行为特征相对应的输出类别符号 分类阶段需要计算 HMM 对应于行为特征的不同测 试符号的概率 Yamato 等 281 对每个行为类别的前景图像序列建模 能够识别击球 拦 网等网球动作 随后 HMM 也被广泛用于手势识别 29 301 场景中一般存在着交互式行 为 但 HMM 的结构导致它只能为单一的动态过程建模 为解决此问题 Brand 等 31 提 出耦合隐马尔可夫模型 CoupledHMM 为多个交互的动态过程进行建模 可以将多个动态过 程的特征空问分解 减少状态个数并降低了算法复杂度 Honggeng 和 Nevatial321 将状态 间隔的先验置信度引入 HMM 提出半监督隐马尔可夫模型 Semi supervisedHMM Nguyen 等 33 采用分层隐马尔可夫模型 Hierarchical 删 分析长时间内的人体行为 能够更 HMM 具有很强的泛化能力 可以用于时序数据的建模 在行为单元起止时间未知的情形下 HMM 同样适用 但 HMM 只能识别预先定义的行为 其内部状态转移矩阵和观测模型中参 数估计的复杂度随目标个体的数目增加呈指数型增长 2 线性动态系统 三 D S 线性动态系统是 HMM 的一般形式 状态空间不必受限于符号的有限集合 可以扩展到状 态空间中的连续数值 更准确地说 LDS 是带高斯观察模型的 HMM 在连续状态空间上的 泛化 Vaswani 等 34 将连续状态空间下的 HMM 用于检测异常行为 Cuntoor 和 Chellappa 351 将视频分成小段 假定每段的目标动力 Dynamics ofObjects 为线性 以缩影 Epitomic 的方式对行为进行建模 和 HMM 一样 LDS 也是时不变模型 不适用于非平稳 行为的识别 3 非线性动态系统 HMM 和 LDS 是非常有效的建模工具 但它们只限用于线性平稳的动力中 假设一个人弯 腰捡起东西放到附近的桌子上再在椅子上休息 这一行为包含一系列的片段 每个片段都 必须使用 LDS 建模 整个过程即在不同的 LDSs 之间切换 生成切换线性动态系统 Switching LDS SLDS 带有切换函数 通过控制模型参数在不同的 LDSs 之间进行切换 Bregl

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论