（开集检测系列）OPEN-VOCABULARY OBJECT DETECTION VIA VISION AND LANGUAGE KNOWLEDGE DISTILLATION

2022-08-18 22:01:33 阅读：207 来源： 互联网

标签：VIA 开集 CLIP LANGUAGE ViLD text image novel embedding

不引入caption数据，使用coco数据集，使用CLIP 作为teacher模型蒸馏出Mask RCNN模型的检测能力（主要是训练出Mask RCNN能提取出类无关的box和该box的特征能和CLIP text embedding能很好的match），novel类检测能力通过伪novel类的框+推理时CLIP text embedding的进行分类引入

1、动机

1、数据集方面，过去已有收集数据方法，包含1203类的LVIS和专门收集稀有数据
2、检测方面，image-text数据的在CLIP上成功使用，其中0-shot的能力关键点在预训练的text encoder，CLIP这种图片级别的0-shot,能否迁移到目标检测，也就是本文要研究的方向

2、方法

RCNN做开集检测的2个重要问题 1、类无关的proposal提取 2、开集的图片分类
ViLD主要有text embedding和image embedding组成

步骤1、Mask RCNN在base类别上训练，然后再image上提取proposal，通过CLIP image encoder生成image region embedding。其中在base上训练的模型在target类别上有一定的召回能力，而这正好用到了ViLD-image的novel类别上，但是每个图100个proposal有多点
步骤2、base 类别，使用prompt template（a photo of categoryg in the scene）和同义词，然后输入clip text encoder 生成 text embedding
步骤3、ViLD-text/分类头换成text embeddings,上图，a为Mask RCNN网络，ViLD-text将分类头换成步骤2text embedding和可学习的“background”的embedding。中间投射层是为了将reion embedding投射到 text embedding相同的维度
训练过程中，ViLD-text除了base类别，其他类别均被分到background类别，其他类别不能很好的被CLIP中的background单词的embedding表示，所以这里使用参数学习出一个“background”的embedding
训练loss使用region embedding和 text embedding+background embedding cosine similarity的交叉熵
步骤4、ViLD-image/image embedding蒸馏，步骤1生成base+novel的 image embedding，作为teacher指导RCNN产生proposal
训练loss使用L1 loss
步骤5、最终loss
其他技巧：
- 1、MODEL ENSEMBLING
  上图推理的流程图会生成proposal和CLIP text embedding对齐的一个score，另外ViLD-text也会生成score。然后使用下面式子进行集成，其中 “那马大”=2/3,因为ViLD-text在base上训练，所以赋予权重更大

3、效果

COCO上和已存在方法比较

4、消融实验

1、crop region上使用CLIP开集分类
在region proposal上使用开集分类（CLIP text encoder）对新类别分类可以检出novel类别，在novel比监督模型好，在所有类别上没有监督模型好；并且region和CLIP得分+proposal object scores可以提点
2、ViLD-text
ViLD-text使用CLIP比GloVe效果好，得出预训练text+image比纯语义的要好；
VilD-text比CLP on crop region在base效果好，因为训练是在base上对齐的，而novel上不好，说明ViLD-text效果泛化到novel类不如原CLIP
3、ViLD-image
ViLD-image 能增加在novel类泛化能力，但是还是没有CLIP on crop效果好，见上图
4、Text+visual embeddings (ViLD)
ViLD-image 结合 ViLD-text可以进一步提升novel的AP，但是在base上相对ViLD-text有下降，见上图

5、遗留问题

推理速度慢，因为产生的object proposal要一个一个进行分类？为什么不能同时呢？

标签：VIA,开集,CLIP,LANGUAGE,ViLD,text,image,novel,embedding
来源： https://www.cnblogs.com/pyclq/p/16600225.html