ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

Fine-grained Detection —— JP-MT、WS-DAN

2022-02-25 09:04:49  阅读:275  来源: 互联网

标签:原图 PT grained DAN Attention JP Crop My AGDA


Fine-grained Detection —— JP-MT、WS-DAN(2022.02.25)

1. JP-MT

文章:Fine-Grained Visual Classification via Progressive Multi-Granularity Training of Jigsaw Patches
原文.

在这里插入图片描述

包含2个部分内容:

  1. 渐进式训练PT(Progressive Training)
  2. 拼图JPG(Jigsaw Puzzle Generator)

1.1. Progressive Training

PT目的是做多尺度特征融合

不同层级的细粒度做特征提取,然后拼接融合。使用的是交叉熵损失。这样做可以兼顾局部与整体的特征

1.2. Jigsaw Puzzle Generator

JPG目的是重组原图,为PT提供样本

可以更好的提供不同层度细粒度的样本。思路很朴素,将原图按照比例切分出patch,在将位置随机排布,最后拼接成原图大小的重组图。

1.3. My Thinking

1.3.1. PT部分

可以理解为FPN的变体

1.3.2. JPG部分

可以理解为mosaic数据增强的变体。但是也有适应性问题,不适用于目标可拆分的场景和背景特点有明显规则的场景。

1.4. My Summary

JPG产生不同层级的细粒度样本。供PT学习不同层级的细粒度特征。

2. WS-DAN

文章:See Better Before Looking Closer: Weakly Supervised Data Augmentation Network for Fine-Grained Visual Classification
原文.
在这里插入图片描述
在这里插入图片描述

包含2个部分内容:

  1. 弱监督注意力学习WSAL(Weakly Supervised Attention Learning)
  2. 注意力机制数据增强AGDA(Attention-Guided Data Augmentation)

2.1. Weakly Supervised Attention Learning

WSAL目的是提取全局和局部特征,用于分类

Backbone部分没什么特殊要说明的,关键部分在Attention和BAP。

Attention采用的是最简单1层卷积,Feature maps 经过一个kernel size 为 1 的卷积运算得到 Attention maps。 Attention maps 是由 Feature maps 降维之后得到的,具体降到多少维度 M 是一个超参数可以自行配置。

BAP(Bilinear Attention Pooling),顾名思义就是Bilinear Pooling。

2.2. Attention-Guided Data Augmentation

AGDA目的是得出局部特征感兴趣区域样本

AGDA包含两部分,Attention Crop和Attention Drop。

Crop Mask是截取原图中的感兴趣区域(即局部关键特征),并将其上采用到原图尺寸,作为局部特征样本图,加入增强的数据集,参与模型训练。

Drop Mask是原图截取感兴趣区域后的剩余部分(即刨除局部关键特征),作为含有噪声的样本图,加入训练的数据集,参与模型训练。

2.3. My Thinking

2.3.1. WSAL部分

BAP实际上就是Bilinear Pooling在Attention上的应用,只是换了乘子。我认为这里精华应该在BAP的计算效率和BAP输出的有效降维,不过作者没细写。值得探讨。

2.3.2. AGDA部分

这部分如果真的做出来了,还是很漂亮的。是否真的做出如作者说的那样,我保留意见。这里应该有不少tricks和前期工作。如果如此简洁的结构就能做出来attention的锁定,那怎么会有transformer的出现。不过Attention Crop和Attention Drop这个思路还是很不错的,至少不存在适用性问题

我觉得如果设计这部分的Loss还是很关键的,如何让Crop具有鲁棒性、容错性,不会因为attention出现错误而导致Crop扣出错误区域,值得思考。如何不让Crop越扣越错,值得研究。

2.4. My Summary

AGDA获取局部特征样本和具有噪声样本,供增强训练使用。

WSAL获取全局和局部特征信息用于分类。

标签:原图,PT,grained,DAN,Attention,JP,Crop,My,AGDA
来源: https://blog.csdn.net/qq_39430450/article/details/123091482

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有