标签:Transformer CNNs 使用 CNN 视觉 CV Vision
在计算机视觉领域,CNN自2012年以来已经成为视觉任务的主导模型。随着出现了越来越高效的结构,计算机视觉和自然语言处理越来越收敛到一起,使用Transformer来完成视觉任务成为了一个新的研究方向,以降低结构的复杂性,探索可扩展性和训练效率。
视觉应用
虽然Transformer
结构在NLP
领域得到了广泛的应用,但是在视觉领域的应用仍然有限。在视觉领域,attention
或者是和CNN
网络共同使用或者是代替CNN
中特定的组件。想要将 Transformer
应用到视觉任务中,我们首先需要构建一些类似于VGG
、ResNet
之类的backbone
。
以下是几个在相关工作中比较知名的项目:
- DETR(End-to-End Object Detection with Transformers),使用Transformers进行物体检测和分割。
- Vision Transformer (AN IMAGE IS WORTH 16X16 WORDS: Transformer FOR IMAGE RECOGNITION AT SCALE),使用Transformer 进行图像分类。
- Image GPT(Generative Pretraining from Pixels),使用Transformer进行像素级图像补全,就像其他GPT文本补全一样。
- End-to-end Lane Shape Prediction with Transformers,在自动驾驶中使用Transformer进行车道标记检测
结构
总的来说,在CV中采用Transformer的相关工作中主要有两种模型架构。一种是纯Transformer结构,另一种是将CNNs/主干网与Transformer相结合的混合结构。
- 纯Transformer
- 混合型:(CNNs+ Transformer)
Vision Transformer是基于完整的自注意力的Transformer结构没有使用CNN,而DETR是使用混合模型结构的一个例子,它结合了卷积神经网络(CNNs)和Transformer。
Vision Transformer
Vision Transformer(ViT)将纯Transformer架构直接应用到一系列图像块上进行分类任务,可以取得优异的结果。它在许多图像分类任务上也优于最先进的卷积网络,同时所需的预训练计算资源大大减少(至少减少了4倍)。
标签:Transformer,CNNs,使用,CNN,视觉,CV,Vision 来源: https://blog.csdn.net/weixin_44522007/article/details/123064760
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。