ICode9

精准搜索请尝试: 精确搜索
  • DeiT:注意力也能蒸馏2022-07-20 00:32:14

    DeiT:注意力也能蒸馏 《Training data-efficient image transformers & distillation through attention》 ViT 在大数据集 ImageNet-21k(14million)或者 JFT-300M(300million) 上进行训练,Batch Size 128 下 NVIDIA A100 32G GPU 的计算资源加持下预训练 ViT-Base/32 需要3天时间。 Faceb

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有