




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大连民族学院毕业设计(论文)翻译材料 学 院: 计算机科学与工程 专 业:班 级:学生姓名:指导教师:金字塔词汇树的人类动作识别袁春峰,李曦,胡卫明,王菡子模式识别国家重点实验室,中国科学院自动化研究所,北京,中国计算机科学学院,阿得雷德大学,SA 5005,澳大利亚摘要视觉词袋(BOVW)方法被广泛用于人类行为的认可。 通常情况下,当小词汇的BOXW对于噪音更坚固的同时,大词汇量的BOVW在类间的动作分类更有区别性,因此大词汇的BOVW更能忍耐类内的不变性。在这篇文章中,我们提出了一种金字塔词汇树来模拟局部时空特征,这种金字塔词汇树可以描述类间的差异,同时也承认内部类的变化。此外,
2、由于BOVW是几何形状不受限制,我们进一步考虑时空信息的局部特征,并提出了一种稀疏时空空间金字塔匹配内核(称为作SST-PMK)来计算视频序列之间的相似性测度。SST-PMK满足Mercer条件,因此很容易集成SVM进行动作识别。魏兹曼数据集上的实验结果表明,金字塔的词汇树和SST-PMK都能在人类动作识别方面有明显地提高。关键词:动作识别,视觉词袋(BOVW),金字塔匹配的内核(PMK)1引言由于人类动作识别在智能监控,人机接口,视频索引及浏览,体育事件的自动分析和虚拟现实上的关键值,它已受到越来越多的关注。 但是,人类动作识别也存在许多难题,包括闭塞,光照变化,以及在规模、旋转和
3、角度上的几何变化。在一般情况下,动作识别方法可以大致分类为基于模板的方法和基于外观的方法1。基于模板的方法,存在着两类模板。 第一次排序的模板直接使用几个关键帧或分段的补丁的输入视频,如6,8中描述的。第二个排序的模板是通过输入视频的线性或非线性的转换得到。 例如,Rodriguez等。9结合序列的训练图像通过MACH过滤器组合成一个单一的复合模板。 对于基于外观的方法,局部特征或全局(或大型)特征采用代表视频。 一般情况下,当地的时空功能是比大规模特征有更强大的噪声,闭塞和行为变化。图1兴趣点定位在魏茨曼科学数据集的10个行动视频序列每个红色点对应一个
4、与检测到的兴趣点相关联的视频补丁。其中一个关键帧显示出该视频中检测到的每个视频和所有的兴趣点上是相互重叠的关键帧。最近,几个最先进的动作识别方法2,3,4,5,17,19使用BOVW,开发本地的时空特征。 通常情况下,这些方法首先生成一个视觉词汇,然后塑造配有视觉字数直方图的视频。很明显在动作识别过程中,词汇起着决定性的作用。一个很好的词汇不仅辨别出事物或行动的类间不变性,也能包容事物或行动的类内不变性。选择一个适当的大词汇量的型号是常见的4,10。 然而,大尺寸的词汇可能为每段视频引入稀疏直方图,并且带来更多的噪音,减弱了词汇的最大区辨。另一方面,如果词汇型号是小的,它可
5、能会导致群集和高内部类失真。 出于这些观察,我们提出了一种新的词汇架构金字塔词汇树,它结合了词汇的不同尺寸的同时也开发了一种更大更有效的辨别词汇。此外,在树结构上突出新功能的速度是很快的。 在金字塔词汇树中,视频序列分层地出现例如词汇树的多分辨率直方图。此外,众所周知BOVW方法是几何不受约束的。因此,许多运算法则打算把几何信息与BOVW结合起来。一些方法13,15把3D空间均匀地划分成时空方格,然后在每个网格计算本地功能的直方图。 然而,在的人类动作影片中,兴趣点通常在某些局部区域被发现,而大多数其他地区不包含兴趣点(图1所示)。 通过这种观察的启发,
6、我们把兴趣点集中在时空的空间,形成几个聚类中心。 在每个群集中心,我们计算局部特征的直方图。基于时空聚类中心,我们提出了一个稀疏的时空金字塔匹配的内核(称为SST-PMK)之间的相似性度量的视频序列。在SST-PMK,用于表示视频的直方图比在13,15中更紧凑更坚固。 因此,通过SST-PMK计算的距离更加可靠。 此外,SST-PMK满足了Mercer条件并且可以直接作为SVM内核去执行动作识别。在一般情况下,在稀疏时空表示动作识别的金字塔词汇树的基础上,我们提出了一个新的框架。建立金字塔树是用来模仿局部特征,并且为了计算SST-PMK准备了一个层次结构。
7、0;此外,SST-PMK有效整合各级金字塔词汇树获得的距离来计算视频序列和很快速度之间的相似性。本文的其余部分安排如下。 第2部分介绍了如何生成金字塔词汇树。第3部分介绍SST-PMK,然后与SVM分类器相结合。 第4部分报告实验结果。 第5部分总结全文。图 2所提出的金字塔词汇树的建立过程2金字塔词汇树金字塔词汇树的建立是通过分等级得集中一整套描述符向量的训练。 在图 2中阐述了金字塔词汇树的构建过程。首先,训练描述符矢量被聚集成k个视觉词来建立最粗的级别0(即传统BOVW)。随后,我们把每个视觉词在粗糙级别0上分成两个,从而形成更
8、精细的词汇水平。 在这种情况下,词汇树用一个分层的由粗到细的方式扩展。同时,它的叶子节点的数量以指数方式增加。在下面的章节中,我们简要介绍了新一代的BOVW和建设金字塔词汇树的细节。2.1新一代的BOVW一整套的局部特征用于树的无监督训练。捕捉本地的功能包括两个相对独立的步骤:检测长方体和描述长方体。 近年来,关于人类动作识别有大量的探测器和描述符被提出。 这些适用于所有的识别系统。 在本文中,我们采用Dollár等等的探测器7检测在每个视频的每一帧中存在的长方体并且使用PCA-SIFT描述符14来描述检测长方体。Dollár等等的探
9、测器7通过采用Gabor滤波的时间域检测并且提高了3D哈里斯的探测器。检测器的输出是每个兴趣点的位置,规模和占主导地位的方向。 我们提取在一个给定的规模中提取一个长方体,这个规模集中了给定的规模s倍大小的每一个兴趣点(s在本文中被设定为6)。然后,PCA-SIFT描述符将主要成分分析(PCA)适用于归一化的梯度向量,这种梯度向量是由长方体中所有点平坦化的水平和垂直梯度形成的。接着,一个K-均值聚类过程在所得到的PCA-SIFT功能上运行。 结果,K的聚类中心在0级被视为k的视觉词。 其他的聚类方法,如谱聚类21或最大化互信息(MMI)22,也可以是两个备选方案,而
10、不是K-均值集群。2.2金字塔词汇树建成树的第0级水平后,培训功能被划分为 k组,其中每个组由最近的一个特定的视觉词的功能组成。然后各组的训练特点在一个新级别聚集为两个新的视觉词汇。 因此,每个第0级的视觉词汇在1级水平上分割成两个新的视觉词汇。 这种分裂是合理的,因为级别为0级的视觉词汇聚类后是高度紧凑的。 在这种方式下,树一直生长直到达到最大级别水平L。 每个级别的词汇量的大小比其上一级别的水平翻了一番。在联机阶段,每个新的PCA-SIFT特征被比作0级别的选聚类中心,然后把它分配给最近的词语。 然后结果被传播到下一级别,导致我们
11、只需要把描述符向量与2个儿童聚类中心做比较,然后选择最接近的一个。 一级一级的,新的特性很快得投射到树。 此外,在计算复杂性方面,在我们的方法中新的PCA-SIFT特征的量化要求k+2l的数量积。 但是,用于由一种非层次的结构方式表示的常规BOVW,这种量化需要 的数量积,而这种结构方式在第L级别有着相同的词汇量大小。3基于SST-PMK的SVM分类金字塔词汇树中,每个视频可以被表示为一个多层次的视觉单词直方图。 为了有效地测量两个视觉字直方图的相似性,在本节中我们提出了一个稀疏的时空金字塔匹配内核(称为SST-PMK)。此外,SST-PMK可
12、以作为一个内核用于SVM分类。3.1稀疏的时空金字塔匹配的内核(SST-PMK)金字塔匹配的内核(PMK)是由格劳曼和达雷尔11 提出,它是有效得测量两个多分辨率直方图相似性的内核,而且它已成功地应用到物体识别。然而,PMK 11的一个潜在的问题就是它并没有考虑时空信息。从图1可以看出,兴趣点的几何分布的在不同的动作类之间定期的变化,所以时空信息用于改善动作识别精度是非常有用的。 因此,当计算PMK时我们时空信息的兴趣点也考虑在内。 这是我们SST-PMK的贡献。在图1中还观察到兴趣点在图像中不是均匀分布的,并且某些区域没有兴趣点。不考虑这种观察的情况下,在空间的区域中SP
13、M 13分割整个图像为二维网格(即,图像坐标),同时在空间和时间的区域中STPM 15均匀地把整个视频分割为3D网格。这两种方法不能有效地分配网格,这导致了大量的网格和一些网格不包含任何兴趣点。 此外,SPM和STPM都需要一个预处理步骤来规范图像或视频的大小。 相反,通过SST-PMK得到的网格如果没有事先规范视频的话,它是稀疏的并且有区别的。图3显示了SST-PMK的层次结构。 一下列出了SST-PMK建设的具体程序。图3用于每段视频的SST-PMK层次结构。兴趣点的几何信息相结合了金字塔的词汇树来表示视频。起初,兴趣点的时空向量聚集产生时空词语(即图3中用S
14、T表示i,1in)。由这些载体形成的3-D数据集被分为几个子集。 该ST词语都来源于子集的中心。然后,在每个ST字和每个级别上,我们为每个视频计算描述符向量的直方图(即PCA-SIFT特征)。 然后我们串连得到的直方图为一个向量,代表l级的直方图。同时中,是用于l级ST代表i的直方图。也就是说,我们为每个视频建立了一个如图3所示的层次结构,并且这个结构作为一个直方图向量代表着视频。如图所示 3,给定两个视频的相应的直方图向量X和Y,SST-PMK在层次结构中计算出一个加权直方图交集。在每个级别l上,直方图交交集被定义为每个二进制里最小值的总和:其中是X中的一个元素
15、,它表示的是视频的直方图,用于在l级别中ST表示j,(i)表示中第i个二进制中的数值。在l级别感应到的新的配对的数量在连续的直方图交集之间是不同的:因为L级是最高的水平,所以我们在L级别到0级别中计算了仅与金字塔词汇树建立过程相反的匹配的数量。所得到的内核K是通过加权求和得到的,这些和是每个级别与相匹配的数量,并且与级别l相关联的权重被设置为:此时SST-PMK在层次结构中有效地结合了每一级别。 在粗糙的水平的新配对,虽然在更精细的水平是不匹配的,但是也被包含在SST-PMK内。 这对应于行动识别中的某些情况,例如由不同的人操作同一类动作,或者一个人多次操作同一类动作。
16、160;如果这些内部类的动作不被视为相匹配的精细程度,他们仍然可以被视为相匹配粗糙的水平。 因此,根据金字塔树和SST-PMK,我们的方法可以克服内部类的对象和动作之间的差异。3.2 SVM分类我们采用16中的算法去训练SVM用于人类动作识别。从方程(3),我们得到以下等式:实际上是一个金字塔匹配核(PMK)11。 11证明了PMK是一个默瑟内核和一个正半定内核。 鉴于默瑟内核封闭,等式(4)表明,SST-PMK是默瑟内核。 因此,视频之间的SST-PMK距离被直接纳入核函数的SVM分类器。4实验图 4混淆矩阵用于魏茨曼行动数据集的方法被提议的
17、行动识别方法直接操作不分段输入图像序列,其目的是识别低一级的行动,如散步,跑步,拍手。 请注意,我们的识别系统不需要任何的预处理步骤。 与此相反,在12,18,20中有一个共同的限制:一个人物中心的时空量或轮廓的每个人必须事先被指定并且用固定的大小做出调整。然而,对象分割与跟踪本身难以实现。我们测试我们用于魏兹曼数据集23 的方法。魏茨曼人的行动数据集包含10种不同的动作,包括散步、跑步、跳跃、奔腾侧身、弯曲、单手挥舞、双手挥舞、原地跳跃、开合跳和跳绳。从每个动作类得出的一个代表性帧在图1中表示出来。这里总共有93个样本。视频的分辨率是320×240像素和帧速率是
18、15帧。我们用留一交叉验证来评估竞争的算法。红线通过所提出的方法获得,蓝色是普通的BOVW的方法,而黑色是没有考虑时空信息的PMK的方法。图5通过三种途径得到识别准度对比 0级别的词汇量大小在所有的实验中,我们使用最先五个人的视频学习视觉词汇包。在每次运行时,8名演员的影片被用来作训练集,剩余的一个人视频用作测试集。训练集和测试集之间不存在重叠。我们运行这种算法9次,然后报告平均结果。在我们的方法中,三层金字塔的词汇树是用来模拟局部功能。在粗糙水平(即0级),视觉词的数目设定为160,在最好的水平(即2级),视觉词的数目设定为640。 兴趣点的几何信息聚成10个中心。我们把SST-P
19、MK做为SVM核来使用。图4显示了混淆矩阵,即用在魏茨曼数据集中的我们的方法。混淆矩阵的每一行对应的是地面实况类,每一列对应的是所分配的集群。 这表明,我们的方法在大运动的动作上效果比较好,但是在小的差异动作上它没有实现预期的结果。大运动的动作识别准确性是100,如“弯曲”,“开合跳”中,“原地跳跃”、“侧旋转”、“走”、“单手挥舞”和“双手挥舞”。 “跳跃”、“跑步”和“跳绳”的动作彼此相似,因此可能会有点相互混淆。4.1三种方法的比较为了证明金字塔词汇树和提出的SST-PMK方法的优越性,我们采用其他两种方法与我们的方法做比较。 第一种的方法我们只使用一个词汇
20、(即常规BOVW),其余的设置和我们的方法一样。由于只是一个级别,所以SST-PMK退化为两个直方图相交的总和: 其中n是ST词汇的数量, 等于我们方法中L级别的词汇量的大小。因此,在第一种方法中,等式(6)被用作SVM分类的内核。对于第二种方法,我们不考虑几何信息,即PMK用于SVM分类。此外,我们采用的这三种方法方法使用不同的词汇量。 图5绘制的是三种方法的识别精度曲线对比 0级的词汇大小k 。图5表明我们方法在大多数情况下,获得了最高的识别准确率。对于 k = 50,60,.,500,我们的方法比第一种方法平均高7.6
21、3,比第二种方法高4.66。这表明了金字塔词汇和兴趣点的几何信息对于动作识别都是有帮助的。4.2SVM的内核比较表1建议的SST-PMK和用于SVM分类器的四个大众内核之间的比较我们也比较所提出的SST-PMK与其他四种用于SVM的大众所用的内核:线性核,多项式核,径向基函数(RBF),和Sigmoid核。相同的实验配置应用于所有五种内核。 此外,在SVM分类器16中使用了,C-支持向量机分类(C-SVC),并且两个内核参数(c和g)也被考虑在内。不同的内核参数用来估计的识别精度:更具体地说,由于线性内核和SST-PMK只有一个参数c,我们尝试31种不同的c值,然后报告最好的结果。对
22、于其他三个内核(多项式核,径向基函数,Sigmoid核)有两个参数c和 g,我们尝试31×19 = 589种组合。表1显示了在我们方法的基础上使用五种内核的实验结果。基于我们的方法,多项式核出现了最坏的结果,其他三个内核的平均精度(线性内核,Sigmoid核和RBF)比我们的稍微低一点。我们的方法达到最佳的识别效果,并且十有八九优于其它四种内核。5结论在本文中,我们开发了一个新的框架,这种框架能够在不分段的视频序列中识别低一级的行动,如步行、跑步、拍手。本文有以下两种文献。首先,据我们所知,词汇是第一次成为人类动作识别中金字塔树的拓扑结构的一部分。 其次,我们提出
23、了在局部特征的几何信息中占有优势的SST-PMK,这种优势可以计算出视频序列之间的相似性。SST-PMK提高了PMK聚集兴趣点的时空信息的性能。实验表明了所提方法的有效性和稳健性。6致谢这项工作部分由国家自然科学基金(批准号:60825204,60672040,60705003)和中国国家“863”高新技术研发计划(批准号:2006AA01Z453,2009AA01-Z318)提出的。参考文献1. J.K. Aggarwal和S. Park。人体运动:识别和行为建模和相互作用。在第二次国际研讨会关于三维数据处理,可视化与传输,第640-647页,9月69,2004。2. C. Schuldt,
24、 I. Laptev, and B. Caputo。认识到人的行为:一个局部SVM方法。在ICPR,第3236页,2004。3. I. Laptev, M. Marsza ek, C. Schmid, and B. Rozenfeld。在电影中学习现实人类动作。在CVPR,2008。4. J. Niebles, H. Wang, and L. Fei-Fei。使用空间词汇用于人类行为分类的无监督学习。Ijcv,第299318页,2008。5. K. Yan, R. Sukthankar, and M. Hebert。应用体积特征的有效视觉事件检测。在ICCV,第166173页,2005。6.
25、D. Weinland, and E. Boyer。使用基于样例嵌入的动作识别。在CVPR,2008。7. P. Dollár, V. Rabaud, G. Cottrell, and S. Belongie。通过稀疏时空特征的行为识别。关于视觉监控和绩效评估、跟踪和监视的第二次联合IEEE国际研讨会。第65-72页,2005。8. F. Lv, and R. Nebatia。使用关键姿态匹配和维特比路径搜索的单视图人体动作识别。在CVPR,2007。9. M. D. Rodriguez, J. Ahmed, and M. Shah。用于动作识别的行动马赫的时空最大平均相关高度过滤器。在CVPR,2008。10. B. Fulkerson and A. Vedaldi, and S.Soatto。配备智能词典的定位对象。在欧洲计算机视觉会议录(E
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 职业学院预备党员鉴定表
- 风系统分类及优化设计步骤
- 大学生就业论文范文
- 广东省广州市2025届高三下学期综合测试(二)(二模)物理试题 含答案
- 工作分析与评价试题库(含答案)
- 天津市十二区县重点中学2025年高考考前提分英语仿真卷含解析
- 装配钳工(初级)练习题库及参考答案
- 变电站值班员专业(理论)考试题(含参考答案)
- 油气仓储环节的风险评估与防范体系构建考核试卷
- 果蔬销售中的品牌形象塑造与维护考核试卷
- 深度学习赋能:单幅图像超分辨率重建算法的探索与突破
- 【特易资讯】2025中国二手车行业出口分析及各国进口政策影响白皮书
- 生物制药质量标准研究-深度研究
- 2025风电机组螺栓在线监测技术规范
- 2023年同等学力申硕《英语》试题真题及答案
- 2024年云南师范大学实验中学招聘考试真题
- 风电项目施工工艺及流程
- 铸造行业安全培训课件
- 2025年电力人工智能多模态大模型创新技术及应用报告-西安交通大学
- 喝酒协议书范本
- 应急物业合同范本
评论
0/150
提交评论