版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Multi-Context Attention for Human Pose Estimation基于多语境注意力机制的人体姿态估计动画组目录1342引言为什么做怎么做总结 论文介绍: 论文提出了将具有多语境注意力机制的卷积神经网络结合到用于人体姿态估计的端到端框架中。主要方法:1、采用堆叠式沙漏网络,以多种分辨率和各种语义的特征产生注意力图。2、利用条件随机场算法(CRF)对注意力图中相邻区域之间的相关性进行建模。3、进一步结合整体注意力模型,构建全人体全局一致性;结合身体部位注意力模型,对不同身体部位的详细描述。4、设计了新的沙漏残差单元(HRUs)来增加网络的接收范围。模型优点:我们的模
2、型有能力关注从局部显著区域到全局语义一致空间的不同粒度。1卷积神经网络用于人体姿势估计面临的问题(为什么做?)卷积神经网络应用于计算机视觉方向成效显著,但是有以下局限性:1、肢体关联性2、身体自遮挡及被遮挡3、服装影响4、复杂背景影响卷积神经网络面临以上问题时,将不能正确定位每一个身体部位我们观察到,由于背景杂乱和自遮挡,卷积可能会产生错误的估计。卷积神经网络、视觉注意力图和部分注意力图三者对于姿态估计的成效对比:(a)卷及神经网络对人体产生了错误的估计(b)视觉注意力提供模拟人体各部位之间的空间关系,效果显著(c)部分注意力图进一步优化部分位置,效果更为显著输入图像 整体注意力图 部分注意力
3、图部分位置热力图可视化预测效果构建Multi-context Attention模型(怎么做?)视觉注意力是人类大脑有效理解场景的重要机制,计算机构建视觉注意力机制来表达复杂语境。主要方法是通过注意力模型生成整体注意力图和部分注意力图,注意力机制优点:1、视觉注意力提供了一种明确的方法来模拟人体各部位之间的空间关系2、部分注意映射可以通过解决重复计数问题来进一步细化部分位置。3、注意力图由注意力模型生成,它依赖于图像特征,并提供一种有原则的方法来聚焦于可变形状的目标区域4、它有助于恢复丢失的身体部分,并将模糊的背景区分开来。这允许增加上下文的多样性,因此上下文区域可以更好地适应每个图像5、而是
4、设计了一种基于条件随机场的新型关注模型,该模型较好地模拟了相邻区域之间的空间相关性。利用条件随机场算法(CRF)对注意力图中相邻区域之间的相关性进行建模21、整体注意力模型堆叠沙漏网络是构建多情境注意力图的理想模型,利用注意力机制指导计算机对多语境的学习,具体方法:在每一个沙漏的堆栈中,特征被汇集到一个非常低的分辨率,然后被向上采样并结合高分辨率的特征。这种结构多次重复,以逐渐捕获更多的全局表示。在每个沙漏堆栈中,我们首先从不同分辨率的特征生成多分辨率注意力图。其次,为多个沙漏栈生成了注意力地图,这使得多语义的注意力图具有不同层次的语义含义。整体注意力模型对遮挡和杂乱的背景有很强的效果,但对不
5、同的身体部位缺乏精确的描述。为了克服这一局限性,我们设计了一种分层次的视觉注意力方案,将整体注意力模型放大到每个主体部分,即部分注意力模型。这有助于精确定位身体部位,2、部分注意力模型3人体姿态估计新思路(怎么做?)空间CRF模型 使用条件随机场(CRFs)来模拟空间相关性。为了使其可微,利用均值-场近似方法递归地学习空间相关核。3人体姿态估计新思路(怎么做?)嵌套沙漏网络 我们将剩余的单位替换掉,它们沿着侧分支,通过建议的微沙漏单元(HRUs),将多个分辨率的特征组合在一起,得到一个嵌套的沙漏网络,如图所示。 通过这种架构,我们可以丰富每个构建块的输出所接收到的信息,从而使整个框架更健壮地进
6、行伸缩。3人体姿态估计新思路(怎么做?)多分辨率注意力机制 在每一个沙漏, 多分辨率注意力地图由不同尺度的特征生成,如图所示。3人体姿态估计新思路(怎么做?)多分辨率注意力机制 然后,将注意力地图组合起来生成精炼的功能,进一步用于生成精细化的注意力地图和进一步完善的功能图。 表示channel-wise Hadamard矩阵产品操作。 是精细化的feature map,是注意力地图重新加权的特征,和f的大小相同。3人体姿态估计新思路(怎么做?)多语义注意力机制 不同的栈有不同的语义:低层栈关注局部表示,而更高的栈编码全局表示。因此不同栈产生的注意力地图也可以编码各种语义。下图为一个8层的沙漏网
7、络框架的基本结构。 多层沙漏生成多分辨率的注意力地图。将多语义注意力地图应用于每一个沙漏,如堆栈1到堆栈8。在堆栈5到堆栈8中,对局部区域缩放的层次注意机制进行了应用。3人体姿态估计新思路(怎么做?)层级注意力机制 下层栈,使用两个整体注意力地图 和 来编码整个人体的构型。在更高层堆栈中使用一个由粗到细的层级注意力机制来放大局部区域。 粗到细的部分注意模型和可视化部分注意图标本4人体姿态估计新思路成效(结果)结果 为了研究多上下文注意机制和沙漏残基的有效性,我们对MPII人体姿态数据集的验证集37进行了消融实验。如果没有指定,我们使用8 - stack沙漏网络29作为基准模型。整体结果如图8所
8、示。基于基线网络(BL),我们分析每一个建议的组成部分,即通过比较PCKh评分,将多语义注意力模型(MS)、沙漏残差(HRUs)、多分辨率注意力模型(MR)和层次部分注意力模型(HP)进行比较。4人体姿态估计新思路成效(结果)结果 通过在每一堆沙漏(BL+MS)的末端添加整体注意力模型,得到87.2%的PCKh分数,与基线模型相比,这是一个1.2%的改进。 使用HRUs来代替原来的剩余单元,将不同分辨率的特征组合在一起(BL+MS+HRU) 。增加沙漏的残余单位,进一步提高1%。 通过多分辨率(BL+MS+HRU+MR)生成注意力地图的多分辨率关注,得到了进一步的1%的改进。 在层次注意力模型中,将精细的整体注意力地图替换成一组,从4到8的部分注意力地图,获得最高的平均PCKh分数89.4%。这些改进主要是由身体部位的精细定位带来的。 5总结 本文提出了将多上下文的关注和对网络的集成到一个端到端框架中。我们使用视觉注意力来指导上下文建模。因此,我们的框架在上下文区域有很大的多样性。我
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高考数学一轮复习教案2.5《幂函数与二次函数》教案及课后作业 (4份打包原卷版+教师版)
- 2026广东清远市连南瑶族自治县瑶华建设投资集团有限公司招聘会计人员笔试及人员笔试历年参考题库附带答案详解
- 2026安徽蚌埠市涂山旅游开发有限公司招聘笔试历年参考题库附带答案详解
- 2026四川广安经开区恒畅产业发展集团有限公司第一次人才招聘笔试笔试历年参考题库附带答案详解
- 2026吉林省净发创新投资集团有限公司下属子公司面向社会市场化选聘专业人才(二次)1人笔试历年参考题库附带答案详解
- 2026内蒙古自治区招聘笔试历年参考题库附带答案详解
- 2025福建晋江产业集团及下属公司招聘11人笔试历年参考题库附带答案详解
- 2025浙江省中意宁波生态园控股集团有限公司第三次招聘面谈甄选和笔试人员笔试历年参考题库附带答案详解
- 2025浙江奉化区新农村建设投资有限公司招聘现场及说明笔试历年参考题库附带答案详解
- 2025年秋季中国南水北调集团生态环保有限公司下属公司(南水北调生态环保工程有限公司)招聘拟聘人员笔试历年参考题库附带答案详解
- 医院培训课件:《中医护理文书书写规范》
- DB4205∕T 89-2021 小流域暴雨洪水经验公式法洪峰流量计算规范
- 徐矿集团历年校园招聘笔试必刷题
- 五四表彰大会通知
- 2023-2025年高考化学试题分类汇编:化学实验基础(原卷版)
- 苏教版五年级下册数学期中测试卷含答案
- 政府采购监督管理课件
- 四川省巴中市恒通香料有限公司年产1000吨柏木香精香料生产线项目环境影响报告书
- 西藏航空面试常见问题及答案解析
- 入侵与攻击模拟BAS应用指南(2025版)
- 生产车间清场管理办法
评论
0/150
提交评论