融合CNN与Transformer的遥感影像道路信息提取
Information extraction of roads from remote sensing images using CNN combined with Transformer
通讯作者: 王 莹(1998-),女,硕士研究生,主要研究方向为数字图像处理与模式识别。Email:lntuwangying@163.com。
责任编辑: 张仙
收稿日期: 2023-08-2 修回日期: 2024-05-9
基金资助: |
|
Received: 2023-08-2 Revised: 2024-05-9
作者简介 About authors
曲海成(1981-),男,博士,副教授,主要研究方向为遥感图像高性能计算、智能大数据处理等。Email:
利用高分辨率遥感影像进行道路信息提取时,深度神经网络很难同时学习影像全局上下文信息和边缘细节信息,为此,该文提出了一种同时学习全局语义信息和局部空间细节的级联神经网络。首先将输入的特征图分别送入到双分支编码器卷积神经网络(convolutional neural networks,CNN)和Transformer中,然后,采用了双分支融合模块(shuffle attention dual branch fusion block,SA-DBF)来有效地结合这2个分支学习到的特征,从而实现全局信息与局部信息的融合。其中,双分支融合模块通过细粒度交互对这2个分支的特征进行建模,同时利用多重注意力机制充分提取特征图的通道和空间信息,并抑制掉无效的噪声信息。在公共数据集Massachusetts道路数据集上对模型进行测试,准确率(overall accuracy,OA)、交并比(intersection over union,IoU)和F1等评价指标分别达到98.04%,88.03%和65.13%; 与主流方法U-Net和TransRoadNet等进行比较,IoU分别提升了2.01个百分点和1.42个百分点,实验结果表明所提出的方法优于其他的比较方法,能够有效提高道路分割的精确度。
关键词:
Deep learning-based methods for information extraction of roads from high-resolution remote sensing images face challenges in extracting information about both global context and edge details. This study proposed a cascaded neural network for road segmentation in remote sensing images, allowing both types of information to be simultaneously learned. First, the input feature images were sent to encoders CNN and Transformer. Then, the characteristics learned by both branch encoders were effectively combined using the shuffle attention dual branch fusion (SA-DBF) module, thus achieving the fusion of global and local information. Using the SA-DBF module, the model of the features learned from both branches was established through fine-grained interaction, during which channel and spatial information in the feature images were efficiently extracted and invalid noise was suppressed using multiple attention mechanisms. The proposed network was evaluated using the Massachusetts Road dataset, yielding an overall accuracy rate (OA) of 98.04%, an intersection over union (IoU) of 88.03%, and an F1 score of 65.13%. Compared to that of mainstream methodsU-Net and TransRoadNet, the IoU of the proposed network increased by 2.01 and 1.42 percentage points, respectively. Experimental results indicate that the proposed method outperforms all the methods compared and can effectively improve the accuracy of road segmentation.
Keywords:
本文引用格式
曲海成, 王莹, 刘腊梅, 郝明.
QU Haicheng, WANG Ying, LIU Lamei, HAO Ming.
0 引言
高分辨率遥感影像包含丰富的地物信息[1]。从遥感影像中提取道路信息可以应用于许多领域,如城市规划[2]、自动驾驶[3]、道路信息更新等。深度学习中的语义分割[4]技术会对图像中的每个像素进行分类,将图像分为目标和背景。通过语义分割技术提取道路信息已成为遥感影像道路提取的主流方法[4-5]。当前,卷积神经网络(convolutional neural networks,CNN)[6]作为一种强大的深度学习模型,被广泛应用于图像处理领域。通过对大量标记的遥感影像数据进行训练,CNN能够学习到特征表示和语义信息,从而实现比较准确的道路信息提取。此外,还有一些基于图像分割的经典算法,如全卷积网络[7](fully convolutional networks,FCN),但FCN利用反卷积进行上采样操作时,分割结果受限于局部的感受野中,无法有效地捕获上下文语义信息。因此,出现了许多经典语义分割方法,包括U-Net[8],SegNet[9],DeepLabV3+[10]等,也在道路提取任务中取得了一定的成果。其中语义分割网络大多是编码器-解码器[11]网络结构,其利用下采样和上采样来捕捉上下文信息并进行精确定位,以恢复空间信息,但是在下采样期间会丢失空间信息。针对上述的问题,提出了许多对语义分割网络进行改进或者变体的网络,应用于遥感影像的道路分割。Gao等[12]提出改进的编码器-解码器网络,在编码器部分使用连续的卷积进行道路特征提取,使其具有较强的局部信息提取能力。虽然上述方法对遥感影像的道路提取效果较好,但传统的卷积运算忽略了各个维度之间的依赖性,并且在遥感影像中还存在建筑遮挡道路区域、地形复杂等问题,对道路进行提取仍然是一项具有挑战性的任务。王勇等[13]提出结合注意力机制对重要的位置信息和空间结构进行有效捕捉,来提高道路提取的准确性; 吴强强等[14]提出空间信息感知语义分割模型用于遥感影像道路的提取,引用坐标卷积和全局信息模块,结果显示该方法对复杂区域的道路提取效果不佳。随着神经网络的发展,基于自注意力机制(self-attention)的Transformer[15]网络出现在大众面前,其核心思想是通过自注意力机制[16]来建立输入序列中各个位置之间的依赖关系。Transformer使用注意力机制来对序列中的每个位置进行建模,从而实现了并行化计算和长程依赖的建模能力。之后,许多受到Transformer启发的网络模型出现在视觉任务中。Dosovitskiy等[17]提出vision Transformer(ViT),ViT将图像作为保留位置信息的非重叠序列块,并使用自注意力机制来构建上下文信息; Yang等[18]基于CNN结合高层语义特征和前景上下文信息对遥感影像中的道路进行提取,提高了对遮挡区域的推断能力和对中心感受野不足的问题,但缺少对道路的空间和位置信息的关注; Dai等[19]提出的CoAtNet网络结合了CNN和自注意力机制的优点,也相对提高了道路分割精度,但其不能专注于重要特征信息的提取。
针对CNN和Transformer在遥感道路分割任务中存在的问题,本文提出了一个双分支级联神经网络,将学习局部高级特征的CNN编码器与捕获全局多尺度信息的Transformer编码器利用双分支融合模块(shuffle attention dual branch fusion block,SA-DBF)将双分支结合在一起,使全局信息与局部信息得到有效融合并关注到重要信息,进而提高道路的分割精度。
1 本文方法
本文网络整体结构由高效捕获局部特征和深层特征的CNN编码器、捕获全局特征的Transformer编码器和用于分割的解码器组成,通过SA-DBF模块将CNN和Transformer融合在一起。该方法能够更好地学习遥感影像中所需的道路信息,网络结构如图1所示,其中融合模块的主要工作原理为,将通道维度并行处理之前,首先将通道分成多个子特征组,对于每一组子特征,SA-DBF模块使用置换单元(shuffle unit)来刻画在空间和通道上的特征依赖关系,所有的子特征聚合之后,再使用通道打乱操作加强不同子特征之间的信息交流。这种网络结构能够有效地捕捉全局上下文信息和多尺度特征,并实现对道路的精准提取。
图1
1.1 CNN编码器
CNN编码器是在图像处理和计算机视觉任务中一种用于提取局部特征的常用工具,可通过多层堆叠的方式逐渐提取更高级别的特征。具体来说,给定一个输入为
1.2 Transformer编码器
由于卷积运算固有的局部性,CNN编码器不能有效地捕获输入体素的远距离相关性。为此,使用Transformer编码器进行全局上下文建模。首先,将输入特征信息
式中:
最终,Transformer编码器由
式中:
Transformer编码得到输出特征图后应用一个反卷积层使其与CNN编码得到的输出特征图大小相同,通过SA-DBF模块将Transformer和CNN编码阶段学习到的全局信息与局部信息融合。
1.3 SA-DBF模块设计
为了有效地结合CNN和Transformer分支的编码特征,提出了一种新的融合模块——SA-DBF模块,其结构图如图2所示。SA-DBF模块首先将输入沿着通道维度拆分为G个组,然后对每一组特征词分为FX和SX,拆分后的特征分别利用嵌入平均池化Fgp和组归一化的操作来生成新的特征,再通过
图2
1)特征分组。将输入特征图分为多组,每组为一个子特征(sub-feature)。对于给定的特征图
2)混合注意力。在每个注意力单元开始时刻,
此外,用Sigmoid激活函数来创建一个紧致特征,从而准确地、自适应地选择。通道注意力的最终输出为:
式中: δ为Sigmoid函数;
式中: GN()为组归一化;
3)特征聚合。所有的特征会被聚合起来,最终与 ShuffleNet v2 相似,本文采用了通道置换的操作,沿着通道维度实现跨组信息交流。空间注意力模块的最终输出与
图3
1.4 解码器
解码器是CNN架构负责将特征转化目标,使用转置卷积将特征图逐步上采样到输入分辨率
2 实验及结果分析
2.1 实验环境及参数
1)硬件环境: 显卡为NVIDIA GeForce RTX 3090,Intel(R) Xeon(R) Gold 6330 CPU @2.00 GHz处理器,内存为360 G内存。
2)软件环境: 使用的计算机操作系统为Ubuntu18.04; 使用深度学习框架PyTorch进行训练; 使用Python编程语言进行编写。
3)参数设置: 总迭代次数为100; 迭代批量为8; 优化器使用Adam随机优化算法更新网络参数,初始学习率为4E-4并随每次迭代以0.9的幂次进行衰减,同时使用权重衰减率为1E-5的L2范数进行正则化。
2.2 数据集
本文选用Massachusetts遥感道路数据集进行训练和评估所提出的方法。Massachusetts遥感道路数据集由1 171张遥感影像组成,地面分辨率为1.2 m,涵盖了城市、郊区和农村地区。在Massachusetts遥感道路数据集中,将1 108张、49张和14张遥感影像分别作为训练集、测试集和验证集。
2.3 数据增强
由于Massachusetts遥感道路数据集数据量较少,对其中的图片通过旋转90°,180°,270°,水平、垂直镜像翻转等方式进行数据增强。最后以512为步长制作生成可训练的遥感道路数据集,在测试阶段,使用测试时间增强技术进一步提高模型的性能,该技术已得到验证。最终得到9 963张训练集遥感影像,567张测试集和验证集遥感影像。
2.4 评价指标
2.4.1 总体评价指标
为了验证本文所提方法的有效性,采用了3种用于评估遥感影像分割效果的评价指标来衡量模型的性能,包括总体精度(overall accuracy, OA)、F1得分和交并比(intersection over union, IoU)。公式分别为:
式中:
2.4.2 像素损失评价指标
实验标签为背景和道路,Dice损失函数把一个类别的所有像素作为一个整体,并计算2个类别的交集在整体中的比例,所以不受大量背景像素的影响,在样本不平衡的情况下可以达到更好的效果; Focal 损失函数为一个动态缩放的交叉熵损失,通过一个动态缩放因子,可以动态降低训练过程中易区分样本的权重,从而将重心快速聚焦在那些难区分的样本。因此,结合Dice损失函数和Focal损失函数的优点,本文设计一种复合型的损失函数L,定义如下:
式中:
实验损失率变化趋势如图4所示,本实验训练和验证的Epoch为150,由图可以看出训练和验证损失在Epoch小于20时下降较快,验证损失小于80时震荡稍不稳定,训练损失保持平滑下降,最后收敛在0.1左右,收敛较好。
图4
2.5 实验结果和分析
本节讨论消融实验搭建的模型和本文改进的模型,在Massachusetts道路数据集上的实验结果及与主流方法的对比分析。
2.5.1 消融实验
通过引入CNN和Transformer融合的级联神经网络、SA-DBF融合模块对U-Net模型进行改进,并利用改进后的模型对遥感影像中的道路进行分割,共做了4组消融实验,验证各个改进点的有效性,实验结果见表1。表中,Transformer+ U-Net模型是在U-Net的基础上引入了Transformer结构; U-Net+SA-DBF模块模型是在U-Net模型中引入了SA-DBF模块; Transformer +U-Net+SA-DBF模型是以上3种网络结构的结合,加粗字体为最优结果。
表1 不同模块消融实验的对比结果
Tab.1
方法 | OA | F1 | IoU |
---|---|---|---|
U-Net | 96.39 | 84.12 | 63.12 |
Transformer+ U-Net | 97.08 | 85.97 | 64.01 |
U-Net+SA-DBF | 96.27 | 86.36 | 64.37 |
Transformer +U-Net+SA-DBF | 98.04 | 88.03 | 65.13 |
从表1可以看出,利用U-Net模型进行实验时,F1和IoU值较其他方法都比较低,而在U-Net模型中分别引入Transformer和SA-DBF模块后,增强了模型对全局和局部上下文信息的理解能力,能够更准确地划分像素,从而提高语义分割任务的性能,使得模型在F1和IoU值都有一定的提升。其中,U-Net+SA-DBF模块的OA比U-Net模型的OA低了0.12百分点,但F1比U-Net模型的F1高了2.24百分点,说明在U-Net模型上引入SA-DBF模块对模型性能的提升有很大的作用。
2.5.2 注意力模块对比
在该实验中,对比了本文所提的SA-DBF模块与其他4种常见的注意力模块(SENet,CBAM,SGE-Net,ECA-Net)在道路信息提取任务上的性能表现,实验结果见表2,表中加粗字体为最优结果。
表2 不同注意力模块性能对比
Tab.2
从表2可以看出,SA-DBF模块在所有性能指标上表现最优。在整体精度OA,F1和IoU上分别达到了98.04%,88.03%和65.13%,这意味着在语义分割任务中,SA-DBF模块能够更准确地进行像素分类和边界划分。同时,SA-DBF模块的参数量为24.20×106 MB,较其他注意力模块更小,说明在保持高性能的同时内存消耗也相对较低。
2.5.3 Transformer规模分析
表3 Transformer规模对模型的影响结果
Tab.3
Transformer规模 | OA | F1 | IoU |
---|---|---|---|
Large | 97.08 | 85.97 | 64.01 |
Base | 96.82 | 84.87 | 63.85 |
2.5.4 与主流方法对比实验
表4 不同模型的实验对比结果
Tab.4
方法 | OA/% | F1/% | IoU/% | 时间/s | 参数量/ 106MB |
---|---|---|---|---|---|
SegNet | 95.27 | 81.34 | 60.63 | 43.2 | 30.6 |
DeeplabV3+ | 96.21 | 83.42 | 63.08 | 43.5 | 30.2 |
U-Net | 96.39 | 84.12 | 63.12 | 42.6 | 25.3 |
D-LinkNet | 97.32 | 85.98 | 63.29 | 41.5 | 30.9 |
TransRoadNet | 97.49 | 85.26 | 63.71 | 40.3 | 31.4 |
CoAtNet | 97.51 | 86.24 | 63.92 | 40.6 | 27.6 |
本文方法 | 98.04 | 88.03 | 65.13 | 39.1 | 24.2 |
由表4可以看出,本文模型与近几年TransRoadNet和CoAtNet 2种遥感图像最优分割方法相比,OA,F1,IoU分别提高0.55,2.77,1.42百分点和0.53,1.79,1.21百分点。与U-Net分割方法相比,OA,F1,IoU分别提高1.65,3.91,2.01百分点。在运行时间上,本文模型推理49张图片仅需39.1 s,相比于经典模型SegNet快了4.1 s。在训练参数上面,改进的网络只需要训练24.2×106MB的参数,大大节约了计算成本。
为了更直观地对比不同模型的道路提取效果,选取6个实验网络的道路提取结果,如表5所示。
表5 不同网络的实验对比结果
Tab.5
序号 | 原图 | DeepLabV3+ | U-Net | SegNet | TransRoadNet | D-LinkNet | CoAt | 本文方法 |
---|---|---|---|---|---|---|---|---|
1 | ![]() | |||||||
2 | ![]() | |||||||
3 | ![]() | |||||||
4 | ![]() | |||||||
5 | ![]() |
通过分别对比表5的每个网络,本文网络像素目标提取效果明显优于其他网络,对于道路的边缘细节信息提取得更精确。其次,针对于偏小的道路信息的图片,其他网络对于道路的整体信息都很难提取出来,本文网络不仅可以整体提取道路像素点而且可以更好地提取偏小的道路边缘像素。此外,由图中白色框区域可以看出,DeepLabV3+,U-Net,SegNet,TransRoadNet和D-LinkNet的预测结果较为粗糙,预测图中出现较多的孤立点,道路的断裂现象明显,在提取树木遮挡的道路上效果不佳,其中SegNet在提取此类道路方面表现最差,丢失程度最高。本文提出的模型道路预测结果要更加平滑,没有出现孤立点; 在道路被树木、建筑等障碍物部分或完全遮挡的情况下,提取的结果要更加准确和完整。通过对DeepLabV3+,U-Net,SegNet,TransRoadNet,D-LinkNet和CoAtNet等6种网络提取结果的分析,可以发现本文提出的网络方法可以更有效、更全面地提取道路,能够准确地分割道路边缘,并且可以有效地解决树木、建筑物等背景特征带来的干扰,最终提取的道路目标的完整度更高,与标签有更高的相似度。
3 结论
本文提出了一种双分支级联网络,将全局信息与局部信息相结合用于高分遥感影像道路信息提取。其中,CNN分支通过卷积运算提取输入特征图的局部信息; Transformer分支通过MHA和MLP学习输入影像全局上下文信息。在编码阶段结束后,2个分支使用SA-DBF模块结合在一起,通过上采样操作最终生成道路的分割图。
经过实验,加入融合模块后可以更好地提取到关键信息,与没加入之前相比,F1和IoU分别提高了2.06和2.01个百分点。与近几年2种主流方法TransRoadNet和CoAtNet相比,OA,F1,IoU分别提高0.55,2.77,1.42百分点和0.53,1.79,1.21百分点。
所提方法实现了全局信息与局部信息的有效融合,提高了道路的分割精度,为有关需要道路信息更新的领域带来了有用价值。在后续工作中,将使用更加轻量化的Transformer结构,使得模型在保持分割精度的基础上减少运算量。
参考文献
Deep convolutional neural network framework for subpixel mapping
[J].
Urban land-use mapping using a deep convolutional neural network with high spatial resolution multispectral remote sensing imagery
[J].
MSACon Mining spatial attention-based contextual information for road extraction
[J].
Deep learning in environmental remote sensing achievements and challenges
[J].
A global context-aware and batch-independent network for road extraction from VHR satellite imagery
[J].
ConDinet++:Full-scale fusion network based on conditional dilated convolution to extract roads from remote sensing images
[J].
Generating 2m fine-scale urban tree cover product over 34 metropolises in China based on deep context-aware sub-pixel mapping network
[J].
Fully convolutional networks for semantic segmentation
[C]//
U-net convolutional networks for biomedical image segmentation
[C]//
SegNet:A deep convolutional encoder-decoder architecture for image segmentation
[J].
DOI:10.1109/TPAMI.2016.2644615
PMID:28060704
[本文引用: 1]
We present a novel and practical deep fully convolutional neural network architecture for semantic pixel-wise segmentation termed SegNet. This core trainable segmentation engine consists of an encoder network, a corresponding decoder network followed by a pixel-wise classification layer. The architecture of the encoder network is topologically identical to the 13 convolutional layers in the VGG16 network [1]. The role of the decoder network is to map the low resolution encoder feature maps to full input resolution feature maps for pixel-wise classification. The novelty of SegNet lies is in the manner in which the decoder upsamples its lower resolution input feature map(s). Specifically, the decoder uses pooling indices computed in the max-pooling step of the corresponding encoder to perform non-linear upsampling. This eliminates the need for learning to upsample. The upsampled maps are sparse and are then convolved with trainable filters to produce dense feature maps. We compare our proposed architecture with the widely adopted FCN [2] and also with the well known DeepLab-LargeFOV [3], DeconvNet [4] architectures. This comparison reveals the memory versus accuracy trade-off involved in achieving good segmentation performance. SegNet was primarily motivated by scene understanding applications. Hence, it is designed to be efficient both in terms of memory and computational time during inference. It is also significantly smaller in the number of trainable parameters than other competing architectures and can be trained end-to-end using stochastic gradient descent. We also performed a controlled benchmark of SegNet and other architectures on both road scenes and SUN RGB-D indoor scene segmentation tasks. These quantitative assessments show that SegNet provides good performance with competitive inference time and most efficient inference memory-wise as compared to other architectures. We also provide a Caffe implementation of SegNet and a web demo at http://mi.eng.cam.ac.uk/projects/segnet.
Road extraction from high-resolution remote sensing imagery using refined deep residual convolutional neural network
[J].
集成注意力机制和扩张卷积的道路提取模型
[J].
Road extraction model derived from integrated attention mechanism and dilated convolution
[J].
空间信息感知语义分割模型的高分辨率遥感影像道路提取
[J].
Road extraction method of high-resolution remote sensing image on the basis of the spatial information perception semantic segmentation model
[J].
Attention is all you need
[C]//
Easy attention:A simple self-attention mechanism for Transformers
[J/OL]. 2023:arXiv:2308.12874.http //arxiv.org/abs/2308.12874.
An image is worth 16×16 words:Transformers for image recognition at scale
[J/OL].2020:arXiv:2010.11929.http //arxiv.org/abs/2010.11929.
TransRoadNet:A novel road extraction method for remote sensing images via combining high-level semantic feature and context
[J].
CoAtNet:Marrying convolution and attention for all data sizes
[J/OL]. 2021:arXiv:2106.04803.http //arxiv.org/abs/2106.04803.
/
〈 |
|
〉 |
