自然资源遥感, 2025, 37(2): 1-10 doi: 10.6046/zrzyyg.2023312

技术方法

结合上下文与类别感知特征融合的高分遥感图像语义分割

何晓军,, 罗杰,

辽宁工程技术大学软件学院,葫芦岛 125105

Semantic segmentation of high-resolution remote sensing images based on context- and class-aware feature fusion

HE Xiaojun,, LUO Jie,

College of Software, Liaoning Technical University, Huludao 125105, China

通讯作者: 罗 杰(1995-),男,硕士研究生,研究方向为遥感图像处理。Email:1349876941@qq.com

责任编辑: 张仙

收稿日期: 2023-10-14   修回日期: 2024-03-6  

基金资助: 辽宁省教育厅科学研究经费项目“基于智能多主体的并行化海量遥感影像分割方法研究”(LJKZ0350)

Received: 2023-10-14   Revised: 2024-03-6  

作者简介 About authors

何晓军(1975-),男,博士,副教授,主要从事遥感影像处理、人工智能、大数据处理等方面的研究。Email: hexiaojun@lntu.edu.cn

摘要

为了解决遥感图像语义分割任务中上下文依赖关系提取不足、空间细节信息损失导致分割精度下降等问题,提出了一种结合上下文与类别感知特征融合的语义分割方法。该方法首先以ResNet-50作为特征提取的主干网络,并在下采样中采用注意力模块,以增强特征表示和上下文依赖关系的提取; 然后在跳跃连接上构建大尺寸的感受野块,提取丰富的多尺度上下文信息,以减少目标之间尺度变化的影响; 其后并联场景特征关联融合模块,以全局特征来引导局部特征融合; 最后在解码器部分构建类别预测模块和类别感知特征融合模块,准确融合底层的高级语义信息与高层的细节信息。将所提方法在Potsdam和Vaihingen数据集上验证可行性,并与DeepLabv3+,BuildFormer等6种常用方法进行对比实验,以验证其先进性。实验结果表明,所提方法在Recall,F1-score和Accuracy指标上均优于其他方法,尤其是对建筑物分割的交并比(intersection over union,IoU)在2个数据集上分别达到90.44%和86.74%,较次优网络DeepLabv3+和A2FPN分别提升了1.55%和2.41%。

关键词: 类别感知; 语义分割; 遥感图像; 上下文信息; 特征融合

Abstract

To address the accuracy reduction in the semantic segmentation of remote sensing images due to insufficient extraction of contextual dependencies and loss of spatial details, this study proposed a semantic segmentation method based on context- and class-aware feature fusion. With ResNet-50 as the backbone network for feature extraction, the proposed method incorporates the attention module during downsampling to enhance feature representation and contextual dependency extraction. It constructs a large receptive field block on skip connections to extract rich multiscale contextual information, thereby mitigating the impacts of scale variations between targets. Furthermore, it connects a scene feature association and fusion module in parallel behind the block to guide local feature fusion based on global features. Finally, it constructs a class prediction module and a class-aware feature fusion module in the decoder part to accurately fuse the low-level advanced semantic information with high-level detailed information. The proposed method was validated on the Potsdam and Vaihingen datasets and compared with six commonly used methods, including DeepLabv3+ and BuildFormer, to verify its effectiveness. Experimental results demonstrate that the proposed method outperformed other methods in terms of recall, F1-score, and accuracy. Particularly, it yielded intersection over union (IoU) values of 90.44% and 86.74% for building segmentation, achieving improvements of 1.55% and 2.41%, respectively, compared to suboptimal networks DeepLabv3+ and A2FPN.

Keywords: class-aware; semantic segmentation; remote sensing image; contextual information; feature fusion

PDF (5493KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

何晓军, 罗杰. 结合上下文与类别感知特征融合的高分遥感图像语义分割[J]. 自然资源遥感, 2025, 37(2): 1-10 doi:10.6046/zrzyyg.2023312

HE Xiaojun, LUO Jie. Semantic segmentation of high-resolution remote sensing images based on context- and class-aware feature fusion[J]. Remote Sensing for Land & Resources, 2025, 37(2): 1-10 doi:10.6046/zrzyyg.2023312

0 引言

随着遥感技术的发展,遥感图像中的地表信息不断丰富,同时空间分辨率也在不断提高。高分遥感图像能够提供详细、精确的地表信息,广泛应用于城市规划、地质调查、农业观测、灾难监测等领域[1-4]。遥感图像语义分割,也称地物分类,是将遥感图像中的每个像素分配到其所属的语义类别中。传统的遥感图像语义分割方案包括基于边缘[5]、阈值[6]和区域[7]等方法。这些方法依赖于人工设计提取的特征,无法充分考虑像素之间的语义关系,导致分割结果的精度不高。

近年来,基于深度学习的方法在遥感图像处理领域被广泛应用[8-11],通过卷积神经网络自适应地提取图像特征信息,有效地提高分割精度。2015年,Long等[12]提出了全卷积网络(fully convolutional networks,FCN)实现了像素级别的图像分割,这种方法克服了传统语义分割方法的不足,为后续遥感图像语义分割方法研究奠定了基础。在FCN基础上,Ronneberger等[13]提出了一种对称的编解码结构网络模型UNet,该网络使用跳跃连接将编码器端与解码器端连接起来,实现了不同层的特征融合,减少了空间细节信息的损失; 该模型及其改进方法在遥感图像领域表现出卓越的性能[14-16],并被广泛应用到遥感图像的分割任务中。但UNet也存在一些缺陷,如上采样阶段大量的卷积和池化操作导致空间细节丢失、多尺度特征信息提取不足; 缺乏对复杂场景中的上下文信息的提取,导致相似物体之间存在错误分类的现象。2017年,Zhao等[17]提出了金字塔场景解析网络(pyramid scene parsing network,PSPNet),采用了金字塔池化模块获取不同尺度上的特征信息。2018年,Chen等[18]提出的DeepLabv3+采用空洞空间金字塔池化模块(atrous spatial pyramid pooling,ASPP)提取更多的上下文信息。虽然这些基于金字塔结构的方法能有效地提高分割精度,但仍存在不足,金字塔池化层的感受野仍然受限,对上下文信息的提取不充分、空间信息提取不足,特别是在处理高分辨率遥感图像中的大范围目标时,对目标分割比较模糊。2019年,Sun等[19]提出了HRNet(high-resolution network),与编解码和金字塔结构不同,该网络通过并行的多分辨率子网络,实现在整个网络中保持高分辨率的特征图,从而更好地捕捉图像的细节和上下文信息。这种独特设计通过反复的信息交换,实现了高效的多尺度信息融合。以上基于上下文信息的语义分割方法在一定程度上能提高分割的准确性,但对目标区域的关注不足导致分割精度受影响。因此,研究者在遥感图像处理任务中采用基于注意力机制的方法并取得了显著效果[20-22]。2021年,Li等[23]在针对高分辨率的遥感图像分割任务中,提出注意力机制与特征金字塔结合的分割结构,通过注意力引导有效地增强多尺度特征学习。2022年,Wang等[24-25]在城市建筑物分割任务中设计了一种基于窗口的线性多头自注意力机制,通过使用大窗口加强了全局信息的提取,并提高Vision Transformer[25]在处理大尺寸遥感图像方面的能力。虽然,注意力机制能准确关注图像中重要语义特征,但对上下文依赖关系的提取以及特征的准确融合仍存在不足。

综上所述,为了解决遥感语义分割任务中空间细节信息损失、上下文依赖关系提取不足、特征融合不充分、多尺度上下文信息提取不足导致精度低的问题,本文提出了一种结合上下文与类别感知特征融合的语义分割方法(context and class-aware feature fusion segmentation method,CCFFSM),在下采样中采用点积注意力和通道注意力并联(dot-product attention module and channel attention module parallel,DAM_CAM),以增强空间细节信息和上下文依赖关系的提取。跳跃连接上采用大尺寸的感受野块(large receptive field block,L_RFB),用于提取丰富的多尺度上下文信息,其后连接场景关联特征融合模块(scene-context-aware feature fusion module,SCM),对特征进行融合和优化。最后通过类别预测模块(category prediction module,CPM)和类别感知特征融合模块(class-aware feature fusion module,CFM)的组合进行上采样操作输出结果。同时,在Potsdam和Vaihingen这2个高分辨率遥感数据集上进行实验,并将本文方法与6个语义分割方法进行对比实验,以验证其有效性。

1 CCFFSM网络

本文的CCFFSM采用非标准的编解码结构,如图1所示。考虑到高分辨率遥感图像尺寸大、背景复杂、类别多等特点,在编码器上采用ResNet[26]系列中的ResNet-50作为特征提取的主干网络,其深层次的残差网络不仅具有较强的特征提取能力,还能避免训练过程中梯度消失现象。同时,下采样过程中随着特征从低级到高级的变化,语义信息越来越丰富,但空间细节信息逐渐减少,为了处理这一问题,在每个下采样层后连接DAM_CAM,以关注空间细节信息并提取上下文依赖关系。另外,考虑到遥感图像中目标尺度的差异性,在跳跃连接上并联L_RFB,以提取丰富的多尺度上下文信息。由于高级特征具有丰富的语义信息但分辨率较低,而低级特征具有较好的分辨率但语义较粗糙,所以采取将高级和低级特征送入SCM,以实现特征有效融合,并将融合后的特征送到解码器端。在解码器端,通过构造CPM得到不同尺度的预测结果; 然后将结果送入CFM,实现不同层次的特征融合,有效降低细节信息的丢失。

图1

图1   CCFFSM网络结构

Fig.1   CCFFSM network structure


1.1 DAM_CAM模块

高分辨率遥感图像中目标信息复杂,多尺度目标使得分割结果容易出现不准确。因此,特征细节信息和上下文依赖关系对整个语义分割任务来说是极其重要的。基于此,本文在网络的下采样中采用DAM_CAM来关注图像上下文依赖关系和通道关联性,如图2所示,将来自上层的特征feature分别输入到DAM_CAM中。

图2

图2   DAM_CAM模块

Fig.2   DAM_CAM module


在点积注意力模块中,feature分别经过3个1×1的卷积(Conv),得到3个不同的特征矩阵Q,K,V; 将K变形并进行归一化(Norm)后的结果与变形后的V相乘得到相关性矩阵F1; 接着将Q变形并归一化(Norm)后乘以F1得到加权后的特征F2,最后将F2与feature相加输出结果。利用点积注意力模块能够捕获图像上下文依赖关系,得到具有全局意义的特征图。

在通道注意力模块中,feature进行形状变换,得到矩阵X,Y,Z。将Z转置变换后与Y相乘得通道间的相关性矩阵E1,对E1进行softmax操作后与矩阵X相乘得到加权后的特征E2。softmax操作将确保每个通道的权重在0~1之间,表示其在整个通道中的重要性。最后,将E2进行形状变换后与feature相加输出结果。

最终,将来自点积注意力和通道注意力模块的输出结果进行相加,得到DAM_CAM的输出结果。

1.2 L_RFB

为了捕获丰富的多尺度上下文信息,受RFB_s[27]的启发,本文采用了一个L_RFB,如图3所示,L_RFB包含5个分支,每个分支首先连接一个1×1的卷积,以降低特征图的通道数; 然后3,4,5分支分别串联一个1×k和一个k×1(k表示卷积大小,k=3,5,7)的卷积,其后再连接一个空洞率分别为3,5,7的3×3卷积。最后将2,3,4,5分支的输出特征图在通道维度上进行拼接(concat),形成一个通道数为原来4倍的特征张量。接着,将拼接后的特征经过3×3的卷积后,再与第1个分支的特征进行残差连接,并使用ReLU激活函数对结果进行非线性变换。如图1所示,本文将L_RFB放在跳跃连接处,并与编码器中的DAM_CAM模块进行串联,该模块利用不同尺寸的卷积核及不同空洞率来扩大感受野,以捕获丰富的多尺度上下文信息,再通过通道拼接和残差连接增加特征的多样性并防止梯度消失现象。

图3

图3   大尺寸的感受野块

Fig.3   Large receptive field block


1.3 SCM模块

为解决图像语义分割中全局与局部特征信息融合不充分、特征细节信息损失、图像中模糊区域不能准确分割等问题,本文采用SCM模块,如图4所示。将深层次的特征feature_d通过全局自适应平均池化(AdaptiveAvgPool)和一个1×1的卷积层,全局自适应平均池化得到全局特征, 1×1卷积是调整特征的通道数; 同时将浅层的特征feature_s通过1×1卷积调整特征的通道数; 然后,将处理后的深层和浅层特征进行逐像素相乘并在通道维度上进行求和,通过sigmoid函数进行归一化得到关系矩阵,就可以从关系矩阵中知道在训练过程中每个通道的重要性程度,从而为不同通道的特征赋予不同的权重,训练过程中通过联系空间场景的相关背景来提高前景特征的识别能力; 最后,把所得到的权重与原特征进行逐像素相乘,这样,就实现对特征的加权融合。融合后的特征可以引导模型更好地理解图像的整体语义和全局结构,从而帮助提高语义分割的性能。

图4

图4   SCM模块

Fig.4   Scene-context feature fusion module


1.4 CPM模块

CPM结构如图5所示,第一个子模块由一个步长(stride)为1的3×3卷积、批归一化层(Batch Norm)、修正线性单元(rectified linear unit,ReLU)和丢弃率为0.5的失活层(Dropout)组成; 第二个子模块与第一个相似,只是Dropout的丢弃率为0.1; 最后再连接一个1×1的卷积来调整通道数。CPM在上采样过程中生成不同尺度的预测结果,使模型能够在各个尺度上综合考虑特征,提高对不同尺寸目标的适应能力。

图5

图5   CPM模块

Fig.5   Category prediction module


1.5 CFM模块

在语义分割任务中,许多模型解码器采用简单的上采样操作来输出图像,特征的融合也只是简单拼接或相加,从而导致全局信息和空间细节信息的损失,并且没有考虑特征之间的关联性和重要性,对于复杂的语义分割任务存在一定的局限性。因此,本文在解码器部分采用CFM模块,如图6所示。

图6

图6   类别感知特征融合模块

Fig.6   Class-aware feature fusion module


CFM将高级语义特征FhRB×C×H2×W2(R为实数集,B为批量大小,C为通道数,HW分别为特征高和宽)通过双线性插值进行上采样,将尺寸调整与低级语义特征FlRB×C×H×W相同并相加(add),得到融合特征MRB×C×H×W; 实现高级与低级特征的融合,以保留高级特征中的全局信息和低级特征的局部信息。接着将来自CPM模块所得到的粗略分割结果PRB×N×H×W送入CFM模块中; 可以得到 PiRB×1×H×W(i=1,2,,N),其中,i为对应的类别; N为类别数。

Pi进行sigmoid运算,得到Pi上每个点的概率值,表示该点的像素属于该类别的概率,然后再乘以M,得到每个类别的增强特征MiRB×C×H×W(i=1,2,,N)

将每个类别的特征逐一添加到元素中,得到最终的融合特征O,即

O=(i=1NMi)+M

通过类别感知特征的融合,可同时兼顾不同类别信息和全局、局部特征,并能够将来自高级特征的全局上下文信息与来自低级特征的局部信息进行有效结合,生成更加综合和具有语义理解能力的特征图; CFM可以更有效地避免全局信息和空间细节信息丢失,保留更多有用的特征信息。

2 实验结果分析

2.1 数据源及其预处理

本文提出的CCFFSM分别在Potsdam和Vaihingen数据集上进行实验。这2个数据集中有6个类别,包括不透水表面、建筑物、低矮植被、树木、汽车和背景,具体的细节如表1所示。

表1   Potsdam和Vaihingen数据集

Tab.1  Potsdam and Vaihingen datasets

数据集Potsdam数据集Vaihingen数据集
数据来源ISPRSISPRS
波段IRRGB DSMIRRG DSM
使用波段R,G,BR,G,B
地面采样距离/cm59
样本大小/像素6 000×6 0001 996×1 995~3 816×2 550
样本数量/个3833

新窗口打开| 下载CSV


为了有效地评估和验证CCFFSM的性能,将2个数据集分别划分成训练集和测试集。在Vaihingen数据集中,将ID为2,4,6,8,10,12,14,16,20,22,24,27,29,31,33,35,38的17幅图像作为测试集,其余16幅图像用于训练。在Potsdam数据集中,把ID为2_13,2_14,3_13,3_14,4_13,4_14,4_15,5_13,5_14,5_15,6_13,6_14,6_15,7_13 的14幅图像作为测试集,其余24幅图像中,除ID为7_10以外的23幅图像用于训练。由于这2个遥感数据集的图像分辨率高、尺寸较大且不统一,不适合直接输入到网络模型中进行训练。因此,将图像及其标签图使用滑动裁剪方式,将图像裁剪为512像素×512像素大小的子图,并且在图片输入网络的过程中通过反射、翻转、缩放、平移、尺度变换、噪声扰动、颜色变化等操作对数据集进行数据增强。

2.2 实验设置

本次实验环境是基于深度学习框架PyTorch 1.10.0,Python 3.8和CUDA 11.3,使用RTX A4000(16 GB)显卡。训练过程中batchsize设为16,进行了100轮的迭代训练。为了实现快速收敛,本文选择Adam作为优化器,学习率设为0.000 1。使用交叉熵损失函数作为训练损失函数,用于衡量模型预测结果与真实标签之间的差异。

2.3 对比实验

为验证本文方法的有效性,本文进行了对比实验,采用相同的实验配置以及与本文相同的参数设置,分别实现了与UNet,PSPNet,DeepLabv3+,HRNet,A2FPN和BuildFormer分割模型的对比实验。本文在Vaihingen和Potsdam数据集上评估了模型的分割性能。本文采用了精确率(Precision)、召回率(Recall)、F1分数(F1-score)和准确率(Accuracy)等4个评价指标进行评估。

表2展示了在Potsdam数据集上的实验结果,从表中加粗的字体可以看出,本文方法的所有指标都优于其他6种语义分割方法,其中相比于较新的模型BuildFormer,在Precision,Recall,F1-scoreAccuracy上分别提升了1.94%,1.19%,1.32%和1.17%。与经典的UNet网络模型相比,在Precision,Recall,F1-scoreAccuracy上分别提升了1.03%,2.05%,1.57%和1.35%。值得注意的是,本文方法在Recall上表现出色,达到了84.47%,Recall的提升意味着遗漏的像素更少,对目标的准确分割更有帮助。

表2   在Potsdam数据集上的实验结果

Tab.2  Experimental results on the Potsdam dataset (%)

模型PrecisionRecallF1-scoreAccuracy
UNet87.4382.7784.5087.36
PSPNet84.3481.4682.5386.38
DeepLabv3+87.0983.6584.9287.67
HRNet85.1180.8882.2585.94
A2FPN86.7183.1884.5287.42
BuildFormer86.6583.4884.7187.52
CCFFSM88.3384.4785.8388.54

新窗口打开| 下载CSV


为了更加直观地展示上述模型的分割结果,将原始图像、真实标签和预测结果进行可视化,如图7所示。可以看出,本文方法CCFFSM的整体性能优于其他对比方法,本文方法对不同类别分割结果相比较于其他方法更准确。

图7

图7   不同方法在Potsdam数据集上的部分可视化结果

Fig.7   Partial visualization results of different methods on the Potsdam dataset


表3展示了Vaihingen数据集上的结果,从表中加粗的字体可以看出,本文方法在Precision,Recall,F1-scoreAccuracy均优于其他6种方法。其中与A2FPN和BuildFormer模型相比,本文的方法在Recall上分别提升了0.6%和3.95%,在F1-score分别提升了1.3%和3.77%。与DeepLabv3+相比,在Precision,Recall,F1-scoreAccuracy上分别提升了3.51%,6.47%,7.46%和3.1%,通过上述实验数据可以清晰看出本文所提出的方法能有效地提高分割性能。

表3   在Vaihingen数据集上的实验结果

Tab.3  Experimental results on the Vaihingen dataset (%)

模型PrecisionRecallF1-scoreAccuracy
UNet86.1176.2178.5587.39
PSPNet77.2172.0873.8483.74
DeepLabv3+83.8074.1475.6086.15
HRNet84.0975.6178.2386.98
A2FPN85.3578.4580.2088.10
BuildFormer85.5775.9478.2987.86
CCFFSM86.7478.9481.2488.82

新窗口打开| 下载CSV


为了直观地展示上述模型的分割结果,将原始图像、真实标签和预测结果进行可视化,如图8所示。本文方法CCFFSM的整体性能优于其他对比方法。此外,从图中可以看到,本文所提方法在分割建筑物等大尺寸目标类别时,边缘更加平滑,目标更加清晰。

图8

图8   不同方法在Vaihingen数据集上的部分可视化结果

Fig.8   Partial visualization results of different methods on the Vaihingen dataset


另外,除上述对比实验外,本文还统计了除背景外的5种地表覆盖类型在2个公开数据集上的语义分割结果以及6种不同方法的交并比(intersection over union,IoU)和平均交并比(mean intersection over union,mIoU)评价指标,如表4表5所示,表中加粗字体表示各类别最高的IoU及最优mIoU。从表4中可以看出,在Potsdam数据集上,本文提出的CCFFSM对不透水表面和建筑物的分割IoU分别达到了82.32%和90.44%,高于其他6种方法; 而且mIoU相比于其他方法提高了1.54%~7.78%,说明本文所提方法的有效性。从表5中可以看出,在Vaihingen数据集上,本文的方法CCFFSM在建筑物和树木这2个类别的分割准确性比其他方法高,在IoU指标上分别达到了86.74%和75.54%,相比于BuildFormer提高了3.66%和2.22%。然而,在这2个公开的数据集上,所有模型对低矮植被和汽车的分割准确性都不理想。其原因是这2个类别之间存在较小的类内差异,如颜色、纹理等方面显示出较高的相似性; 此外,植被广泛分布,边缘多样且不规则,边界模糊。方法在准确分割不规则边缘方面仍有改进的空间,而且很难识别属于这些类别的散布对象。

表4   Potsdam数据集IoU得分

Tab.4  IoU scores on the Potsdam (%)

模型IoUmIoU
不透水
表面
建筑物低矮
植被
树木汽车
UNet80.1888.5971.3272.2679.6778.40
PSPNet78.4787.7969.3472.4664.1774.44
DeepLabv3+81.1989.0671.1172.7980.9479.01
HRNet78.1385.9870.2669.9575.9276.04
A2FPN80.9188.4870.6972.5978.4478.22
BuildFormer80.9688.6571.9371.8980.4378.77
CCFFSM82.3290.4472.5475.0280.8280.23

新窗口打开| 下载CSV


表5   Vaihingen数据集IoU得分

Tab.5  IoU scores on the Vaihingen dataset (%)

模型IoUmIoU
不透水
表面
建筑物低矮
植被
树木汽车
UNet78.7483.2464.1273.3353.2470.53
PSPNet71.5577.9458.3867.3628.6660.77
DeepLabv3+76.1881.1362.2471.8843.5867.00
HRNet77.4781.1664.6873.0846.1168.50
A2FPN79.0784.7065.7374.4256.7072.12
BuildFormer79.1783.6865.8473.9051.0470.72
CCFFSM79.7086.7468.3175.5453.4472.75

新窗口打开| 下载CSV


为了更有效地评价本文方法的分割效果,将在2个数据集上各模型的分割结果进行可视化,如图9图10所示。本文提出的方法的分割结果几乎与标签值完全一致,并且在高分辨率的城市遥感场景中,特别是在地面目标密集分布的情况下,其分割效果及性能尤为突出,不同类型地面目标的分割结果不但边界平滑且准确,而且分类不清的情况很少发生。

图9

图9   CCFFSM在Potsdam数据集上的全局分割效果

Fig.9   Global segmentation performance of CCFFSM on the Potsdam dataset


图10

图10   CCFFSM在Vaihingen数据集上的全局分割效果

Fig.10   Global segmentation performance of CCFFSM on the Vaihingen dataset


2.4 消融实验

为验证本文方法中各模块的作用,本文在Vaihingen遥感数据集上进行了相关消融实验,实验配置环境和训练优化参数与对比实验一致。结果如表6所示。由表可知,在CCFFSM中去掉DAM_CAM模块,与之前相比F1-scoremIoU分别降低了2.09%和2.26%,说明在分割方法使用DAM_CAM模块可以提升模型的分割性能; 去掉L_RFB模块,与之前相比F1-scoremIoU分别降低0.5%和1.25%,说明多尺度上下文特征信息可以有效补充目标的特征,对提升模型的分割性能至关重要; 去掉SCM模块,与之前相比F1-scoremIoU分别降低了1.35%和0.3%,说明SCM模块对特征的准确融合起到一定作用; 去掉CPM模块,与之前相比F1-scoremIoU分别降低了0.62%和1.58%,说明CPM模块对降低细节信息损失起到了作用; 去掉CFM模块,与之前相比F1-score反而提升了0.26%,但是mIoU降低了11.19%,虽然模型的F1-score有所提升,但是从mIoU来看,CFM模块在解码部分还是对模型的整体性能的提升发挥了重要的作用。

表6   CCFFSM方法消融实验结果

Tab.6  Ablation experiment results of CCFFSM method (%)

模块F1-scoremIoU
L_RFB+SCM+CPM+CFM79.5871.14
DAM_CAM+SCM+CPM+CFM80.8371.85
DAM_CAM+L_RFB+CPM+CFM80.1672.51
DAM_CAM+L_RFB+SCM+CFM80.7471.62
DAM_CAM+L_RFB+SCM+CPM81.4565.43
DAM_CAM+L_RFB+SCM+CPM+CFM81.2472.75

新窗口打开| 下载CSV


3 结论

针对在遥感图像语义分割任务中空间细节信息丢失、上下文依赖关提取不足、多尺度上下文信息提取不足和特征融合不充分导致分割精度低等问题,本文提出了一种用于高分辨率遥感图像语义分割的CCFFSM模型。

1)在编码阶段采用DAM_CAM模块,提取上下文依赖关系。在跳跃连接处,构建L_RFB模块,提取丰富的多尺度上下文信息,并在其后连接SCM模块,根据前景融合重要的特征。在解码阶段,首先构建CPM模块,得到不同层次不同尺度的预测结果,然后把结果送入CFM模块中,根据不同类别进行有效融合,以保留更多重要的语义信息。

2)在Potsdam和Vaihingen数据集上的对比实验结果表明,在相同的实验条件下,CCFFSM方法在多种指标上都优于其他6种对比方法; 尤其对建筑物分割的IoU分别达到了90.44%和86.74%,说明本文方法能有效提高分割性能。此外,在Vaihingen数据集上消融实验也验证了本文方法中各个模块的有效性。

未来研究的重点可以考虑在保证精度的同时,轻量化模型以提升遥感图像的处理速度。

参考文献

刘钊, 赵桐, 廖斐凡, .

基于语义分割网络的高分遥感影像城市建成区提取方法研究与对比分析

[J]. 国土资源遥感, 2021, 33(1):45-53.doi:10.6046/gtzyyg.2020162.

[本文引用: 1]

Liu Z, Zhao T, Liao F F, et al.

Research and comparative analysis on urban built-up area extraction methods from high-resolution remote sensing image based on semantic segmentation network

[J]. Remote Sensing for Land and Resources, 2021, 33(1):45-53.doi:10.6046/gtzyyg.2020162.

[本文引用: 1]

Zhang T, Su J, Liu C, et al.

State and parameter estimation of the AquaCrop model for winter wheat using sensitivity informed particle filter

[J]. Computers and Electronics in Agriculture, 2021, 180:105909.

Feng S, Fan Y, Tang Y, et al.

A change detection method based on multi-scale adaptive convolution kernel network and multimodal conditional random field for multi-temporal multispectral images

[J]. Remote Sensing, 2022, 14(21):5368.

于航, 安娜, 汪洁, .

黔西南采煤塌陷区高分遥感动态监测——以六盘水市煤矿采空塌陷区为例

[J]. 自然资源遥感, 2023, 35(3):310-318.doi:10.6046/zrzyyg.2022170.

[本文引用: 1]

Yu H, An N, Wang J, et al.

High-resolution remote sensing-based dynamic monitoring of coal mine collapse areas in southwestern Guizhou:A case study of coal mine collapse areas in Liupanshui City

[J]. Remote Sensing for Natural Resources, 2023, 35(3):310-318.doi:10.6046/zrzyyg.2022170.

[本文引用: 1]

Tian R, Sun G, Liu X, et al.

Sobel edge detection based on weighted nuclear norm minimization image denoising

[J]. Electronics, 2021, 10(6):655.

[本文引用: 1]

Yang J, He Y, Caspersen J.

Region merging using local spectral angle thresholds:A more accurate method for hybrid segmentation of remote sensing images

[J]. Remote Sensing of Environment, 2017, 190:137-148.

[本文引用: 1]

Zhang X, Feng X, Xiao P, et al.

Segmentation quality evaluation using region-based precision and recall measures for remote sensing images

[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2015, 102:73-84.

[本文引用: 1]

赫晓慧, 陈明扬, 李盼乐, .

结合DCNN与短距条件随机场的遥感影像道路提取

[J]. 武汉大学学报(信息科学版), 2024, 49(3):333-342.

[本文引用: 1]

He X H, Chen M Y, Li P L, et al.

Road extraction from remote sensing image by integrating DCNN with short range conditional random field

[J]. Geomatics and Information Science of Wuhan University, 2024, 49(3):333-342.

[本文引用: 1]

Qi G, Zhang Y, Wang K, et al.

Small object detection method based on adaptive spatial parallel convolution and fast multi-scale fusion

[J]. Remote Sensing, 2022, 14(2):420.

龙丽红, 朱宇霆, 闫敬文, .

新型语义分割D-UNet的建筑物提取

[J]. 遥感学报, 2023, 27(11):2593-2602.

Long L H, Zhu Y T, Yan J W, et al.

New building extraction method based on semantic segmentation

[J]. National Remote Sensing Bulletin, 2023, 27(11):2593-2602.

Zhu Z, Luo Y, Qi G, et al.

Remote sensing image defogging networks based on dual self-attention boost residual octave convolution

[J]. Remote Sensing, 2021, 13(16):3104.

[本文引用: 1]

Long J, Shelhamer E, Darrell T.

Fully convolutional networks for semantic segmentation

[C]// Conference on Computer Vision and Pattern Recognition.IEEE, 2015:640-651.

[本文引用: 1]

Ronneberger O, Fischer P, Brox T. U-net:Convolutional networks for biomedical image segmentation[M]//Lecture Notes in Computer Science. Cham: Springer International Publishing, 2015:234-241.

[本文引用: 1]

李婉悦, 娄德波, 王成辉, .

基于改进U-Net网络的花岗伟晶岩信息提取方法

[J]. 自然资源遥感, 2024, 36(2):89-96.doi:10.6046/zrzyyg.2022500.

[本文引用: 1]

Li W Y, Lou D B, Wang C H, et al.

Research on granite-pegmatite information extraction method based on improved U-Net

[J]. Remote Sensing for Natural Resources, 2024, 36(2):89-96.doi:10.6046/zrzyyg.2022500.

[本文引用: 1]

Pan X, Yang F, Gao L, et al.

Building extraction from high-resolution aerial imagery using a generative adversarial network with spatial and channel attention mechanisms

[J]. Remote Sensing, 2019, 11(8):917.

刘尚旺, 崔智勇, 李道义.

基于Unet网络多任务学习的遥感图像建筑地物语义分割

[J]. 国土资源遥感, 2020, 32(4):74-83.doi:10.6046/gtzyyg.2020.04.11.

[本文引用: 1]

Liu S W, Cui Z Y, Li D Y.

Multi-task learning for building object semantic segmentation of remote sensing image based on Unet network

[J]. Remote Sensing for Land & Resources, 2020, 32(4):74-83.doi:10.6046/gtzyyg.2020.04.11.

[本文引用: 1]

Zhao H, Shi J, Qi X, et al.

Pyramid scene parsing network

[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu,HI,USA.IEEE, 2017:6230-6239.

[本文引用: 1]

Chen L C, Zhu Y, Papandreou G, et al.

Encoder-decoder with atrous separable convolution for semantic image segmentation

[C]// Computer Vision-ECCV 2018:15th European Conference,Munich,Germany,September 8-14,2018,Proceedings,Part VII.ACM, 2018:833-851.

[本文引用: 1]

Sun K, Xiao B, Liu D, et al.

Deep high-resolution representation learning for human pose estimation

C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Long Beach,CA,USA.IEEE, 2019:5686-5696.

[本文引用: 1]

曲海成, 梁旭.

融合混合注意力机制与多尺度特征增强的高分影像建筑物提取

[J]. 自然资源遥感, 2024, 36(4):107-116.doi:10.6046/zrzyyg.2023146.

[本文引用: 1]

Qu H C, Liang X.

Fusion of hybrid attention mechanism and multi-scale feature enhancement for high-resolution satellite image building extraction

[J]. Remote Sensing for Natural Resources, 2024, 36(4):107-116.doi:10.6046/zrzyyg.2023146.

[本文引用: 1]

Li H, Qiu K, Chen L, et al.

SCAttNet:Semantic segmentation network with spatial and channel attention mechanism for high-resolution remote sensing images

[J]. IEEE Geoscience and Remote Sensing Letters, 2021, 18(5):905-909.

张印辉, 张枫, 何自芬, .

注意力引导与多特征融合的遥感影像分割

[J]. 光学学报, 2023, 43(24):3788/AOS230631.

[本文引用: 1]

Zhang Y H, Zhang F, He Z F, et al.

Remote sensing image segmentation based on attention guidance and multi-feature fusion

[J]. Acta Optica Sinica, 2023, 43(24):3788/AOS230631.

[本文引用: 1]

Li R, Wang L, Zhang C, et al.

A2-FPN for semantic segmentation of fine-resolution remotely sensed images

[J]. International Journal of Remote Sensing, 2022, 43(3):1131-1155.

[本文引用: 1]

Wang L, Fang S, Meng X, et al.

Building extraction with vision Transformer

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60:5625711.

[本文引用: 1]

Dosovitskiy A, Beyer L, Kolesnikov A, et al.

An image is worth 16×16 words:Transformers for image recognition at scale

[J/OL]. 2020:arXiv:2010.11929. http://arxiv.org/abs/2010.11929.

URL     [本文引用: 2]

He K, Zhang X, Ren S, et al.

Deep residual learning for image recognition

[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Las Vegas,NV,USA.IEEE, 2016:770-778.

[本文引用: 1]

Liu S, Huang D.

Receptive field block net for accurate and fast object detection

[C]// Proceedings of the European Conference on Computer Vision (ECCV). 2018:385-400.

[本文引用: 1]

/

京ICP备05055290号-2
版权所有 © 2015 《自然资源遥感》编辑部
地址:北京学院路31号中国国土资源航空物探遥感中心 邮编:100083
电话:010-62060291/62060292 E-mail:zrzyyg@163.com
本系统由北京玛格泰克科技发展有限公司设计开发