ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

论文阅读笔记-LinkNet: Exploiting Encoder Representations for Efficient Semantic Segmentation

2022-08-03 16:32:28  阅读:173  来源: 互联网

标签:Segmentation Semantic Efficient 分割 编码器 LinkNet 网络 卷积 解码器


Title:LinkNet: Exploiting Encoder Representations for Efficient Semantic Segmentation

题目:LinkNet:利用编码器表示实现有效的语义分割

Abstract

视觉场景理解的像素级语义分割不仅需要准确,而且要高效,以便在实时应用中找到任何用途。现有的算法虽然精度很高,但并没有注重对神经网络参数的有效利用。因此,它们在参数和操作数量方面非常庞大;因此也慢。在本文中,我们提出了一种新的深度神经网络结构,它可以在不显著增加参数数量的情况下学习。我们的网络仅使用1150万个参数和21.2 GFLOPs来处理分辨率为3 × 640 × 360的图像。它在CamVid上提供最先进的性能,并在cityscape数据集上提供可比较的结果。对于不同的图像分辨率,我们还将NVIDIA GPU和嵌入式系统设备上的网络处理时间与现有的最先进的架构进行了比较。

Introduction

现有的语义分割技术大多采用编码器-解码器对作为其网络体系结构的核心。在这里,编码器将信息编码到特征空间,解码器将这些信息映射到空间分类中进行分割。

尽管语义分割针对的是需要实时操作的应用,但讽刺的是,目前大多数深度网络都需要非常大的处理时间。YOLO、Fast RCNN、SSD等网络关注的是实时对象检测,但在语义分割的情况下,这方面的工作很少甚至没有。

在我们的工作中,我们尝试在不影响网络处理时间的情况下获得精确的实例级预测。一般情况下,编码器由于池化而丢失空间信息,或者采用池化索引或全卷积来恢复跨步卷积。我们假设并在随后的文章中证明,如果不采用上述技术;绕过空间信息,直接从编码器到相应的解码器提高了精度,并显著减少了处理时间。这样,在每一级编码器上丢失的信息都被保留了下来,并且在重新学习这些丢失的信息时不会浪费额外的参数和操作。

语义分割涉及到对图像的每一个像素进行标记,因此保留空间信息就变得非常重要。用于场景解析的神经网络结构可以细分为编码器网络和解码器网络,它们基本上分别是判别网络和生成网络。

Network Architecture

LinkNet的架构如图 1 所示。

image

  • conv表示卷积,full-conv表示全卷积
  • /2表示向下采样的倍数为2,这是通过执行跨步卷积实现的,∗2表示上采样的倍数为2。
  • 在每个卷积层之间使用批处理归一化,然后是ReLU非线性。

图 1 所示的网络的左半部分是编码器,而右半部分是解码器。

编码器从一个初始块开始,该初始块对输入图像进行卷积,其核大小为7×7,步长为2。该块还在一个跨步为2的3 × 3的区域内执行空间最大池化。编码器的后一部分由残差块组成,表示为编码器块(i)。图 2 详细显示了这些编码器块中的层。

image

类似地,图 3 提供了解码器块的层详细信息。表 1 包含了关于每个块中使用的特征图的信息。

image

image

LinkNet 使用 ResNet18 作为它的编码器。我们在我们的解码器中使用完全卷积技术,每个 \(conv(k × k)(im, om)\) 和 \(full-conv(k × k)(im, om)\) 操作至少有三个参数。其中 \((k × k)\) 表示 \((kernel−size)\) ,\((im, om)\) 表示 \((inputmap, outputmap)\) 。

与用于分割的现有神经网络架构不同,我们的新颖之处在于我们将每个编码器与解码器连接起来。通过在编码器中执行多次下采样操作,会丢失一些空间信息。仅使用编码器的下采样输出很难恢复丢失的信息。通过池化索引将编码器与解码器连接起来,这些索引不是可训练的参数。其他方法直接使用其编码器的输出并将其馈送到解码器以执行分割。

每个编码器层的输入也被绕过到其相应解码器的输出。通过这样做,我们旨在恢复解码器及其上采样操作可以使用的丢失空间信息。此外,由于解码器在每一层都共享编码器学习的知识,因此解码器可以使用更少的参数。与现有的最先进的分割网络相比,这会产生一个整体更高效的网络,从而实现实时操作。

Result

我们将LinkNet与现有架构在两个不同的指标上进行比较:

  • 速度方面的表现:
    • 执行一次网络前向传递所需的操作数
    • 执行一次向前传球所需的时间
  • 在 Cityscapes [20] 和 CamVid [21] 数据集上的准确度表现。

标签:Segmentation,Semantic,Efficient,分割,编码器,LinkNet,网络,卷积,解码器
来源: https://www.cnblogs.com/xiaoliu-ya/p/16547598.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有