版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
目录2Pixel-based图片掩码学习为何倾向于关注高频信息3多层级视觉特征融合的动机4多层级视觉特征融合的具体实现多层级视觉特征融合带来的收益以及其适用范围多层级视觉特征融合带来的收益以及其适用范围42.ComparativelyLowComputatio6However,suchpixel-levelrecoverytasktendstowastemodelingcapabilityonpre-trainingshortrangedependenciesandhigh-frequencydetails----DALLEandBEiTL=(pred(RGB)一Target(RGB))2Pixel-BasedMIM需要预测与目标进行完美的RGB重建,所以迫使模型去关注一些low-level的细节,例如颜色,线条,形状等7|多层级视觉特征融合的动机|多层级视觉特征融合的动机对MAEencoder的各层进行高低频信息含量分析1.纵坐标数值越小表明高频分量越低2.MAEencoder的高层更关注低频,底层更关注高频3.高频分量往往是与一些low-level信息相关,例如线条,纹理等将low-level信息注入高层feature进行重建1.随着训练的进行,重建任务更多地关注在low-level信息上2.且相较于high-level信息,重建任务更多地使用low-level信息9|多层级视觉特征融合的具体实现|多层级视觉特征融合的具体实现Pool+w1++ Pool+w1++ ProjectionLayerNon-linearLinear 22+11AttnBestPractice|多层级视觉特征融合带来的收益以及其适用范围|多层级视觉特征融合带来的收益以及其适用范围过度依赖low-levelfeature是pixel-basedMIM独有的问题,所以multi-levelfusion的作用范围基本上是围绕一系列pixel-basedMIM相较于pixel-basedMIM,feature-basedMIM(EVA)以及有监督学习(SupervisedViT)更多地是在利用high-level的feature来优化目标,这就使得这两个模型会更加关注图片的语义信息将MFF施加于两种feature-basedMIM方法(EVA和MILAN)上,都和baseline展现出类似的效果Multi-levelfeaturefusion会让模型更关注图片中的低频信息(语义信息),同时抑制了对高频信息的过分关注通过抑制对高频分量的关注,从而使得模型更加关注图片中的语义信息。这一点可以
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 餐饮外卖餐盒设计合同协议(2026年)
- 脂肪肝分级风险评估指南
- 老年人肩周炎理疗方案
- 无人机植保作业安全规范
- 骨密度检测数据解读指南
- 脱粒机作业安全操作规程
- 体验卡客户转化跟进执行指引
- 生鲜农产品农残检测管理技术规范
- 产后骨盆修复私密护理流程规范
- 会员生日关怀服务操作流程
- DBJ50-T-291-2018 建设工程施工现场安全资料管理标准
- 2025卫生职称(副高)考试小儿内科学高级职称(副高)历年考试真题及答案
- 2025年托育园考试题库及答案
- 民法典与国有企业法治建设专题
- GB/T 1040.1-2025塑料拉伸性能的测定第1部分:总则
- 分泌性中耳炎术后护理
- 新22J01 工程做法图集
- 人教A版高中数学必修第二册8.6.3 平面与平面垂直(一)【课件】
- 《广西建设工程消防设计审查验收常见问题汇编》
- 2024秋新统编版道法7年级上册教学课件 12.2 正确对待顺境和逆境
- T-GXAS 395-2022 蒜头果栽培技术规程
评论
0/150
提交评论