MFF 简单高效的多级特征融合自监督

上传人：策*** IP属地：山西上传时间：2023-10-09 格式：DOCX 页数：22 大小：1.73MB 积分：19.9 举报 版权申诉

已阅读5页，还剩17页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

目录2Pixel-based图片掩码学习为何倾向于关注高频信息3多层级视觉特征融合的动机4多层级视觉特征融合的具体实现多层级视觉特征融合带来的收益以及其适用范围多层级视觉特征融合带来的收益以及其适用范围42.ComparativelyLowComputatio6However,suchpixel-levelrecoverytasktendstowastemodelingcapabilityonpre-trainingshortrangedependenciesandhigh-frequencydetails----DALLEandBEiTL=(pred(RGB)一Target(RGB))2Pixel-BasedMIM需要预测与目标进行完美的RGB重建，所以迫使模型去关注一些low-level的细节，例如颜色，线条，形状等7|多层级视觉特征融合的动机|多层级视觉特征融合的动机对MAEencoder的各层进行高低频信息含量分析1.纵坐标数值越小表明高频分量越低2.MAEencoder的高层更关注低频，底层更关注高频3.高频分量往往是与一些low-level信息相关，例如线条，纹理等将low-level信息注入高层feature进行重建1.随着训练的进行，重建任务更多地关注在low-level信息上2.且相较于high-level信息，重建任务更多地使用low-level信息9|多层级视觉特征融合的具体实现|多层级视觉特征融合的具体实现Pool+w1++ Pool+w1++ ProjectionLayerNon-linearLinear 22+11AttnBestPractice|多层级视觉特征融合带来的收益以及其适用范围|多层级视觉特征融合带来的收益以及其适用范围过度依赖low-levelfeature是pixel-basedMIM独有的问题，所以multi-levelfusion的作用范围基本上是围绕一系列pixel-basedMIM相较于pixel-basedMIM,feature-basedMIM(EVA)以及有监督学习(SupervisedViT)更多地是在利用high-level的feature来优化目标，这就使得这两个模型会更加关注图片的语义信息将MFF施加于两种feature-basedMIM方法(EVA和MILAN)上，都和baseline展现出类似的效果Multi-levelfeaturefusion会让模型更关注图片中的低频信息(语义信息)，同时抑制了对高频信息的过分关注通过抑制对高频分量的关注，从而使得模型更加关注图片中的语义信息。这一点可以

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

MFF 简单高效的多级特征融合自监督

文档简介

温馨提示

最新文档

评论

MFF 简单高效的多级特征融合自监督

文档简介

温馨提示

最新文档

评论

相关文档