基于全色-多光谱双流卷积网络的端到端地物分类方法
End-to-end land cover classification based on panchromatic-multispectral dual-stream convolutional network
通讯作者: 陈静波(1984-),男,副研究员,主要从事智能遥感分析的研究。Email:chenjb@aircas.ac.cn。
责任编辑: 陈庆
收稿日期: 2024-06-12 修回日期: 2024-12-10
| 基金资助: |
|
Received: 2024-06-12 Revised: 2024-12-10
作者简介 About authors
李英龙(2000-),男,硕士研究生,主要从事遥感图像智能解译的研究。Email:
多光谱(multispectral,MS)影像和全色(panchromatic,PAN)影像是可见-近红外光学遥感影像的主要数据源。在典型的地物分类处理流程中,通常采用像素级融合方法来提高MS影像的空间分辨率,然后再进行影像分类。然而,像素级融合过程通常耗时较长且和地物分类的优化目标不匹配,已无法满足端到端遥感影像分类的需求。为了应对这些挑战,文章提出一种无需进行像素级融合的双流全卷积神经网络DSEUNet。该方法基于EfficientNet-B3网络构建2个分支,分别提取PAN影像和MS影像的特征并进行特征级融合,最后解码输出分类结果。考虑到PAN影像和MS影像表达地物要素的特征侧重点不同,文章在全色分支加入空间注意力机制以提高对细节、边缘等空间信息的感知能力,在多光谱分支加入通道注意力机制以提高对多波段反射率差异的感知能力。10 m地表覆盖数据集生产实验和网络结构消融实验表明,该文提出的网络具有更高的分类精度和更快的推理速度,在保持骨干网络相同的前提下,DSEUNet与传统对像素级融合影像分类的方法相比,分类精度的mIoU提升1.62百分点,mFscore提升1.36百分点,Kappa系数提升1.49百分点,推理速度提升17.69%。
关键词:
Multispectral (MS) and panchromatic (PAN) images serve as primary data sources for visible-near-infrared optical remote sensing imagery. In a typical land cover classification workflow,the spatial resolution of MS images is generally enhanced using pixel-level fusion methods,followed by image classification. However,the pixel-level fusion process is characterized by considerable time consumption and inconsistency with the optimization objectives of land cover classification,failing to meet the demand for end-to-end remote sensing image classification. To address these challenges,this paper proposed a dual-stream fully convolutional neural network,DSEUNet,which obviates the need for pixel-level fusion. Specifically,two branches were constructed based on the EfficientNet-B3 network to extract features from PAN and MS images,respectively. It was followed by feature-level fusion and decoding,thus outputting the ultimate classification results. Considering that PAN and MS images focus on different features of land cover elements,a spatial attention mechanism was incorporated in the PAN branch to enhance the perception of spatial information,such as details and edges. Moreover,a channel attention mechanism was incorporated in the MS branch to improve the perception of reflectance differences across multiple bands. Experiments on the 10-meter land cover dataset and ablation studies of the network structure demonstrate that the proposed network exhibited higher classification accuracy and faster inference speed. With the same backbone network,DSEUNet outperformed traditional pixel-level fusion-based classification methods,with an increase of 1.62 percentage points in mIoU,1.36 percentage points in mFscore,and 1.49 percentage points in Kappa coefficient,as well as a 17.69% improvement in inference speed.
Keywords:
本文引用格式
李英龙, 邓毓弸, 孔赟珑, 陈静波, 孟瑜, 刘帝佑.
LI Yinglong, DENG Yupeng, KONG Yunlong, CHEN Jingbo, MENG Yu, LIU Diyou.
0 引言
遥感影像分类是指将遥感影像中的所有像素按照一定的分类体系自动划分为不同类别的过程。当前,大规模的遥感影像分类主要使用中高分辨率可见—近红外光学卫星影像。光学卫星可同时获得同一区域的单波段全色(panchromatic,PAN)影像和多波段多光谱(multispectral,MS)影像。MS影像具有多个谱段,但其较低的空间分辨率导致地物的空间信息略有不足,而PAN影像空间分辨率高,可捕获更加清晰的空间细节信息,但在地物光谱颜色等信息上有所缺失。通过影像融合技术,有效利用二者之间的互补信息,可以提高地物分类的精度[1-
针对PAN和MS也有一些无需像素级融合的方法,这类方法通常先提取PAN和MS影像的特征,然后对提取到的特征进行融合并分类,可以分为传统方法[8-9]和基于深度学习的方法。基于深度学习的方法通过建立合适的数据集和设计良好的网络,已被证实可以有效地处理复杂的遥感数据[10]。DMIL[11]模型和MRFusion网络[12]都利用2个分支分别提取PAN和MS影像的特征并分类,但它们对分支之间的信息交互考虑不足。Zhu等[13]提出了DBAFNet网络用于多分辨率遥感影像地物分类,在全色分支和多光谱分支之间加入了多层跳跃连接以促进信息流通。2021年,他们进一步提出了SCPF-ResNet,利用广义色调-强度-饱和度变换(hue-intensity-saturation transformation,HIS)和离散小波变换进行数据预处理,减轻网络进行特征融合的负担[14]。然而,这类方法仍需通过滑动窗口获取图像块并进行分类,难以得到精细的分类结果。
近年来,全卷积式神经网络[15]已经成为语义分割领域的主流范式,这类网络舍弃了全连接层,直接对每个像素进行分类。UNet架构是目前最流行的全卷积网络之一,它借助跳跃连接促进高低层信息的融合[16]。不过,单纯依赖UNet架构处理多源影像时,可能无法充分捕捉PAN和MS影像的不同特性。鉴于PAN影像和MS影像分别含有丰富的空间信息和光谱信息,前者天然地适合空间注意力机制,后者天然地适合通道注意力机制。Hu等[17]提出SENet,介绍了一种即插即用的通道注意力模块。受SENet的启发,Woo等[18]更进一步提出包含空间注意力模块和通道注意力模块的卷积块注意力模块(convolutional block attention module,CBAM)。这2种注意力模块采用池化的方式降维,不会给网络带来可学习的参数。DANet[19]则利用Non-local机制捕捉通道和空间维度的长距离依赖关系,但其计算量较大,难以做到即插即用。
综上,传统方法大多是先进行像素级融合,再对融合影像进行地物分类的两阶段非端到端方法。少数针对这2种影像的深度学习方法不仅没有采用端到端的全卷积网络,也较少有人关注利用注意力机制改善2个分支的特征提取能力。针对这些不足,本文提出了双流全卷积神经网络DSEUNet,该网络利用2个编码器分别提取PAN影像和MS影像的特征,并执行特征级融合实现最终分类。其中,全色分支加入空间注意力,以增强空间细节提取能力;多光谱分支加入通道注意力,以强化通道选择能力。该网络通过端到端的融合和分类,可以利用下游的分类任务选择性强化和弱化不同模态影像的特定信息,从而自适应学习融合过程,提升分类精度。
本文提出的DSEUNet可以端到端地对PAN和MS影像进行融合和分类,这是一种免于像素级融合的地物分类方法;设计了一种新颖的注意力机制kernel attention(KA),包含2个即插即用的通道注意力和空间注意力模块,并通过消融实验验证了KA的有效性;针对PAN和MS的分辨率差异,设计自适应特征融合模块,动态地调整PAN和MS影像的权重,有针对性地融合多尺度的图像信息。
1 研究区概况及数据源
1.1 研究区概况
研究区域位于孟加拉国西北部,地处南亚次大陆,属亚热带季风气候。该区域以平原地形为主,地势相对平坦,土壤肥沃,是该国重要的粮食生产区,耕地是该区域的主要地物类型。此外,该区域植被覆盖繁盛,水体分布广泛,穿插着若干裸露地块,地物构成呈现多样性及复杂性。
1.2 数据源及其预处理
1.2.1 影像数据
本研究所用数据为孟加拉国的10 m地表覆盖数据产品。根据《全球地理信息资源建设与维护更新》(GM QQ 05—2018系列技术规程)的规定,10 m地表覆盖产品[20]主要以2 m融合整景数字正射影像(digital orthophoto map,DOM)为数据源展开生产,对于2 m DOM未覆盖区域或覆盖但受云雪阴影影响的区域,采用分辨率优于10 m的多光谱数据进行必要补充。本文数据集覆盖区域包含12景ZY-3 PAN影像和MS影像,典型影像如图1所示,PAN影像的空间分辨率为2 m,通道数为1,尺寸约为30 000像素×30 000像素;MS影像空间分辨率为6 m,通道数为4(R,G,B和NIR),尺寸约为10 000像素×10 000像素;地表覆盖图斑标签由测绘专业人员通过人机交互目视解译判读勾绘得到。
图1
图1
数据集中的MS影像、PAN影像和标签示例
Fig.1
Examples of multispectral,panchromatic and label images in the dataset
1.2.2 数据预处理
孟加拉国10 m地表覆盖数据集共涉及耕地、植被、人造地表、裸地和水域5个类别。通过影像裁剪将原始大图转化为训练和推理样本。为了在训练阶段提取更多训练样本,在模型推理阶段减少边界效应以提高整体准确性,裁剪时的重叠率设置为50%。PAN影像的裁剪尺寸设置为1 536像素×1 536像素,MS影像的裁剪尺寸设置为512像素×512像素。按照整图划分方式划分训练集和测试集,选取10景大图作为训练集,2景作为测试集,最终得到了14 440张训练样本和2 888张测试样本。
上述未进行像素级融合的数据集将用于本文所提出的方法,本文的对比方法为传统的先像素级融合再分类的单流网络方法。对于单流网络所需的数据集,将10 m地表覆盖数据集的PAN影像和MS影像利用经典的施密特正交化方式进行融合,得到融合影像,将这些融合影像作为单流数据集。融合影像的裁剪尺寸和重叠率与PAN影像保持一致,训练集和测试集的划分与双流数据集保持一致。
2 研究方法
图2
2.1 特征提取流
特征提取流的作用是从原始的PAN和MS影像中提取出不同层级的特征,分为多光谱特征提取分支和全色特征提取分支。
由于遥感影像通常具有较大的尺寸,而EfficientNet[21]利用复合缩放(compound scaling)策略,通过对网络宽度、深度和输入图像分辨率进行精心设计,不仅具有较少的网络参数和更小的计算量,还具有较高的泛化性能,因此本实验选择EfficientNet作为特征提取的骨干网络。
EfficientNet由多个倒残差模块(inverted residual block)组成,倒残差模块的结构来自MobileNetV3[22],EfficientNet将其中的激活函数替换为Swish激活函数,其公式为:
式中σ(x)为Sigmoid激活函数,为了缓解梯度消失问题以及降低网络参数优化的复杂性,通常将β设为1。
综合考虑模型规模和特征语义,采用EfficientNet-B3为特征提取网络,并考虑到PAN与MS影像的空间分辨率差异,设计尺寸适配的感受野和卷积权重尺寸。
特征提取流中,全色分支提取到的特征经过空间注意力输出特征图PANi(i=1,2,3,4,5),多光谱分支提取的特征经过通道注意力输出特征图MSi(i=1,2,3,4,5),这些特征图随后输入到后续的模块中。
2.2 全色-多光谱特征融合流
2.2.1 全色-多光谱融合模块
图3
在图3中,先利用反卷积层将多光谱特征图上采样到和全色特征图维度相同的大小,记此时的全色特征图为FPAN、多光谱特征图为FMS,二者维度均为B×C×H0×W0。接着利用卷积将二者通道数降维至原始通道数的1/4,并将在通道维度上进行合并。合并后的特征图随后通过一层卷积得到B×2×H0×W0的特征图Fweight,利用Softmax操作将其在通道维度上进行归一化,最终得到特征图和多光谱特征图的权重(WPAN和WMS),公式分别为:
将权重和相应的特征图逐元素相乘并相加,最后通过卷积模块对特征深度融合得到FFUSE,计算公式为:
2.2.2 融合流程
综合计算量和模型效果,本文设计了编码器融合和解码器后融合的混合融合方式。
编码器融合,是指对EfficientNet编码器提取到的PAN和MS影像的相同层级的特征进行融合。记融合模块“Fuse”表示的操作为ffuse,则融合特征图表示为:
随后将融合特征图输入到解码器中,得到解码特征FUSEFINAL。解码器后融合,则是将全色特征图PANi(i=1,2,3,4,5)和多光谱特征图MSi(i=1,2,3,4,5)分别输入到独立的解码器中,得到解码后的高分辨率特征图PANFINAL和MSFINAL,随后对PANFINAL和MSFINAL进行融合。
图2中DSEUNet同时使用编码器融合和解码器后融合方式,它融合解码器流、全色解码器流和多光谱解码器流,分别对融合特征、全色特征和多光谱特征执行解码,得到相同维度的FUSEFINAL,PANFINAL和MSFINAL,最后进行通道合并和卷积融合得到最终的融合图。通过设计3个解码器流可以增加信息流动渠道,加强全色特征和多光谱特征之间的多层级信息交互与融合,从而有利于融合PAN和MS影像丰富的空间和光谱细节信息。
2.3 注意力机制
本文设计了一种基于多个不同尺度的卷积核实现的注意力机制,称这种注意力机制为KA。
2.3.1 空间注意力
空间注意力通过学习空间位置上的权重分配来强调空间位置的重要性,以更有效地捕捉地物内部细节、地物边缘等空间信息,详细流程如图4所示。对于输入维度为C×H0×W0的特征图F0,传统的空间注意力机制采用全局池化的方式进行通道降维,这种方式尽管轻便但无可学习参数,不利于发挥深度学习的优势。为增强对尺度变化的鲁棒性,本模块使用3个不同卷积核的卷积层进行降维,并在通道维度拼接后,再经卷积和Sigmoid激活生成最终的空间注意力AS。上述流程用公式可以表示为:
式中:σ为Sigmoid激活函数;fk为卷积核为k×k的二维卷积。最终得到输出结果为:
式中⊗为矩阵的哈达玛积。
图4
2.3.2 通道注意力
通道注意力机制关注通道之间的相互关系,并分配不同权重,流程如图5所示。由于输入图像的尺寸不定,为了避免增加额外的计算量,所以对于输入维度为C×H×W的特征图F0,先进行全局平均池化和全局最大池化,得到2个C×1×1特征图,再合并后两个维度并转置为1×C的特征图;接着,将二者拼接为2×C的F1以充分利用交互信息;然后,对F1应用3个卷积核大小不同的一维卷积得到F2,F3和F4并进行合并,从而融合通道维度不同感受野的信息;最后,通过一维卷积和Sigmoid激活生成通道注意力AC。上述流程用公式表示为:
式中gk为卷积核大小为k的一维卷积。最终输出的结果为:
图5
2.4 损失函数
损失函数使用交叉熵(cross entropy)损失,其公式为:
式中:N为样本的数量;k为类别总数;pij为将第i个样本预测为第j个类别的概率,当预测的类别j等于真实类别时,yij=1,否则yij=0。
3 结果与分析
3.1 实验环境配置
本文实验利用2张NVIDIA RTX3090 GPU,选择PyTorch框架基于mmsegmentation库进行模型的训练和推理。数据增强方式上,采用随机水平翻转、随机竖直翻转、随机缩放和随机裁剪的方式,在训练时扩充数据集。在训练策略上,选择AdamW优化器,除了学习率设置为10-5外,其余参数采用默认值。在训练初期采用学习率线性预热方式,预热迭代次数设置为1 500,在前1 500次迭代中,学习率lr的计算公式为:
式中:lrinitial=0,表示初始学习率;lrmax=10-5,表示最大学习率;iter为当前迭代次数。
在预热完成之后采用余弦退火策略来调整学习率,选择mmsegmentation库中的CyclicLrUpdaterHook作为学习率更新器,其中cyclic_times设置为4,step_ratio_up设置为0.2,其余参数取默认值,训练60轮次,选取最后一次的权重进行评价。
3.2 精度评价
为了验证所提出的方法的有效性,本文将提出的DSEUNet与单流分类方法进行了对比。这里的单流分类方法指的是先对PAN影像和MS影像进行像素级融合,然后对融合影像进行分类的方法。对比方法包括经典的语义分割网络:基于ResNet50[23]骨干网络的Deeplabv3[24]和PspNet[25],SegNet[26],HRNet[27]和基于EfficientNet-B3网络的UNet[16];专门针对遥感领域设计的语义分割网络:UNetFormer[28],MACUNet[29],ABCNet[30],MANet[31]和MAResNet[32]等。精度评价指标包括平均交并比(mean intersection over union,mIoU)、总体精度(overall accuracy,OA)、平均F1分数(mFscore)和Kappa系数共4项指标。表1展示了不同模型的各项指标。其中,表格第3—7列展示的是相应方法的分类结果针对不同类别的交并比(intersection over union,IoU)值,表格第8—11列展示的是整体指标,每一列中加粗的数字表示最优指标(下同)。
表1 在10 m地表覆盖数据集上不同方法的分类指标
Tab.1
| 类别 | 方法 | IoU | mIoU | OA | mFscore | Kappa | ||||
|---|---|---|---|---|---|---|---|---|---|---|
| 耕地 | 植被 | 人造地表 | 裸地 | 水域 | ||||||
| 经典的语义 分割网络 | Deeplabv3 | 90.94 | 44.83 | 44.93 | 82.12 | 88.28 | 58.52 | 87.48 | 80.62 | 78.16 |
| PspNet | 90.77 | 44.57 | 46.58 | 82.55 | 87.76 | 58.70 | 87.57 | 80.86 | 78.36 | |
| SegNet | 91.07 | 43.73 | 43.38 | 83.84 | 89.16 | 58.53 | 87.76 | 80.43 | 78.27 | |
| HRNet | 91.34 | 45.94 | 50.74 | 83.29 | 88.88 | 60.03 | 88.44 | 82.15 | 79.72 | |
| EfficientUNet | 92.10 | 51.17 | 55.39 | 81.93 | 89.81 | 61.73 | 89.59 | 83.92 | 81.74 | |
| 遥感领域的语 义分割网络 | UNetFormer | 91.41 | 46.22 | 47.61 | 83.36 | 88.95 | 59.59 | 88.20 | 81.66 | 79.33 |
| MACUNet | 91.48 | 45.97 | 52.95 | 83.93 | 88.95 | 60.55 | 88.80 | 82.64 | 80.38 | |
| ABCNet | 91.97 | 49.11 | 58.34 | 84.34 | 88.95 | 62.12 | 89.85 | 84.21 | 82.07 | |
| MANet | 92.43 | 51.62 | 57.42 | 85.24 | 89.72 | 62.74 | 90.06 | 84.74 | 82.68 | |
| MAResUNet | 92.03 | 49.69 | 57.37 | 86.62 | 89.62 | 62.55 | 89.96 | 84.50 | 82.29 | |
| DSEUNet(本文方法) | 92.53 | 52.86 | 58.33 | 86.77 | 89.59 | 63.35 | 90.42 | 85.28 | 83.23 | |
从表1可以看出,DSEUNet展现出了具有竞争力的结果:各项总体指标均是最高的;大部分单类IoU指标也高于其余网络。
在经典的语义分割网络中,精度表现最佳的是基于EfficientNet-B3骨干网络的UNet,这反映出EfficientNet-B3网络较为强大的特征提取能力以及UNet架构的有效性。和EfficientUNet相比,DSEUNet的mIoU,OA,mFscore和Kappa系数分别提升了1.62,0.83,1.36和1.49百分点;各项单类指标除了水域IoU略微下降0.22百分点外,其余单类IoU提升0.43百分点到4.84百分点不等。由于EfficientUNet具有和DSEUNet相同的特征提取网络,后者是在前者的基础上拓展了双流网络架构,因此DSEUNet相比EfficientUNet分类效果的提升充分体现了本文提出的双流网络架构的有效性和优越性。
在专门针对遥感领域设计的单流语义分割网络中,除本文方法外,整体精度指标最高的是MANet。相比MANet,DSEUNet的mIoU,mFscore,OA和Kappa系数分别提升了0.61,0.54,0.36和0.55百分点,单类指标除水域类别下降0.13百分点外,其余类别均有不同程度的提升。
本文还展示了3个典型方法与本文方法在测试集3个典型样本的可视化结果,如表2所示。每一个样本中,DSEUNet的提取结果都与标签更为接近。
表2 不同方法在3个测试集典型样本上可视化结果展示
Tab.2
| 样本编号 | PAN影像 | MS影像 | 标签 | DSEUNet | EfficientUnet | MANet | MAResUnet | ||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 样本1 | ![]() | ||||||||||||
| 样本2 | ![]() | ||||||||||||
| 样本编号 | PAN影像 | MS影像 | 标签 | DSEUNet | EfficientUnet | MANet | MAResUnet | ||||||
| 样本3 | ![]() | ||||||||||||
| 图例 | ![]() | ||||||||||||
对于最难分的植被类别,可视化结果直观地展示了DSEUNet区分植被和其他类别的能力。从样本1可以看出,DSEUNet对于裸地的召回率更高,更不容易将裸地分类为植被;从样本2可以看出,DSEUNet对植被和耕地的区分能力更强,更不容易将植被分类为耕地或水域;样本3则彰显出DSEUNet对于植被和人造地表更强的区分能力,更不容易将人造地表错分为植被。
3.3 效率评价
本文进一步从参数量、计算量和推理速度3个维度对比了DSEUNet与传统单流网络的效率表现,其中计算量用浮点运算次数(giga floating point operations per second,GFLOPS)衡量;推理速度通过计算采用batch_size为8 h推理2 888个样本的平均耗时得到,用每秒帧数(frames per second,FPS)衡量,结果如表3所示。
表3 不同模型的网络效率指标
Tab.3
| 方法 | GFLOPS | 参数量/106 | FPS |
|---|---|---|---|
| Deeplabv3 | 198.16 | 10.36 | 12.94 |
| PspNet | 181.60 | 10.33 | 10.99 |
| SegNet | 1 452.12 | 29.45 | 8.72 |
| HRNet | 166.31 | 9.64 | 15.73 |
| EfficientUNet | 132.15 | 14.09 | 10.29 |
| UNetFormer | 11.77 | 107.40 | 17.55 |
| MACUNet | 268.06 | 5.15 | 10.20 |
| ABCNet | 144.19 | 13.67 | 9.22 |
| MANet | 403.75 | 35.86 | 10.32 |
| MAResUNet | 255.84 | 26.28 | 15.67 |
| DSEUNet | 105.81 | 34.67 | 12.11 |
表3表明,DSEUNet的推理速度尽管不是最优的,但是仍处于前列,仅次于Deeplabv3,HRNet,UNetFormer和MAResUNet,但是精度上要高于这些网络。尤其是DSEUNet和EfficientUnet的对比,前者通过将后者拓展为双流架构,在推理速度上提升了17.69%。
此外,上述计算推理速度的过程省略了将PAN影像和MS影像进行像素级融合的步骤,对于1景典型尺寸遥感影像而言,此步骤通常耗时约0.5 h。DSEUNet网络由于是特征级融合,避免了像素级融合的时间消耗,而其余单流网络则需考虑这一额外耗时,这进一步凸显了DSEUNet采用端到端训练方式的效率优势。
3.4 消融实验
3.4.1 全色-多光谱融合模块有效性
全色-多光谱融合模块旨在实现PAN影像和MS影像的特征级融合。为了验证本文设计的自适应融合模块的有效性,本文对比了其他3种融合方式:①通道拼接:FFUSE=f(FPAN;FMS);②相加:FFUSE=f(FPAN+FMS);③融合相加和相减的特征:FFUSE=f(FPAN+FMS;FPAN-FMS)。其中f表示普通的卷积模块。表4展示了具体的实验结果。
表4 不同融合方式的精度指标
Tab.4
| 融合方式 | mIoU | mFscore | Kappa |
|---|---|---|---|
| 自适应融合 | 63.35 | 85.28 | 83.23 |
| 通道拼接 | 62.61 | 84.72 | 82.71 |
| 相加 | 62.57 | 84.67 | 82.70 |
| 相加相减后通道拼接 | 62.55 | 84.61 | 82.67 |
表4表明,自适应融合方式取得了最高的精度。由于自适应融合本质上为全色特征图和多光谱特征图分配了不同的权重,因而可以有效融合二者的冲突信息,抑制梯度反向传播时的不一致特征,从而有效提升分类精度。
3.4.2 注意力机制有效性
为了验证KA注意力机制的有效性,本节进行了4种消融实验:只保留KA的通道注意力;只保留KA的空间注意力;将KA注意力机制替换为CBAM;移除注意力模块。表5展示了具体的实验结果。
表5 注意力机制对DSEUNet的精度指标的影响
Tab.5
| 注意力 | mIoU | mFscore | Kappa |
|---|---|---|---|
| 无 | 62.34 | 84.34 | 82.08 |
| KA(只保留通道注意力) | 62.52 | 84.50 | 82.14 |
| KA(只保留空间注意力) | 63.16 | 85.11 | 83.05 |
| CBAM | 62.74 | 84.80 | 82.75 |
| KA | 63.35 | 85.28 | 83.23 |
从表5可以看出,加入任何一种注意力机制都能提升分类精度,尤其是引入空间注意力机制时,精度提升更为显著,这可能是因为影像的空间细节对于像素级分类任务而言更加重要。与未使用注意力机制相比,加入CBAM后,mIoU,mFscore和Kappa分别提升了0.40,0.46和0.67百分点;加入KA后,各项指标提升更大,分别提升了1.01,0.94和1.15百分点。KA注意力机制在空间维度和通道维度分别应用不同卷积核的二维卷积和一维卷积,能够充分捕捉不同感受野的空间信息和通道信息,因而能够取得更高的分类精度。
表6 加入KA注意力机制前后网络对不同地表覆盖类型关注度的变化
Tab.6
| 样本编号 | PAN影像 | MS影像 | 标签 | 网络对耕地类别的关注度 | 网络对植被类别的关注度 | ||
|---|---|---|---|---|---|---|---|
| 加入注意力 机制前 | 加入注意力 机制后 | 加入注意力 机制前 | 加入注意力 机制后 | ||||
| 样本1 | ![]() | ||||||
| 样本2 | ![]() | ||||||
| 样本2 | ![]() | ||||||
| 图例 | ![]() | ||||||
表6展示了加入注意力机制前后网络对于耕地和植被类别的关注度的变化。以耕地为例,引入注意力机制前,注意力图与标签图的对应关系并不显著,网络对于耕地和非耕地的关注度并没有明显不同;引入注意力机制后,网络对这2种类别的关注度展现出了显著的差异,二者在图中显示出了更为清晰的边界,即标签图中属于耕地类别的区域被给予了更多的注意力。从植被类别的关注度变化亦可得出相同的结论。这些结果表明,KA注意力机制可以改善网络对于图中不同区域的注意力的分配,从而提升分类精度。
4 讨论和结论
本文提出了一种无需进行像素级融合的双流网络DSEUNet,用于MS影像和PAN影像的地物分类。该网络利用2个对称分支分别提取PAN影像和MS影像的特征,并在这2个分支中引入空间注意力机制和通道注意力机制,然后融合2个分支提取特征,最后进行分类。本文提出的DSEUNet具有以下优点:省去了预先对PAN影像和MS影像进行像素级融合的步骤,通过将融合过程融入网络结构中,利用下游分类任务自适应地学习融合过程,实现端到端的训练和推理。实验结果表明,该网络在各项精度指标上均优于传统的单流网络,具有更少的计算量和更快的推理速度,有助于提高实际生产环境中的效率。
尽管本文利用了PAN和MS 2种模态的影像,但由于这两者均属于光学影像,存在一定的同质性[34]。在未来的研究中,计划进一步考虑引入非光学模态数据,如合成孔径雷达(synthetic aperture Radar,SAR)影像和兴趣点(point of interest,POI)数据。SAR影像不受天气和云层等因素的干扰,POI数据能够提供丰富的社会语义信息。这些数据可以与光学模态数据互补,提高在恶劣天气条件或城市环境下的地物分类精度。
参考文献
Resolution enhancement of multispectral image data to improve classification accuracy
[J].
Cluster-space representation for hyperspectral data classification
[J].
Pixel-level image fusion:A survey of the state of the art
[J].
ImageNet classification with deep convolutional neural networks
[J].
A remote-sensing image pan-sharpening method based on multi-scale channel attention residual network
[J].
Attention-based tri-UNet for remote sensing image pan-sharpening
[J].
Multisource and multitemporal data fusion in remote sensing:A comprehensive review of the state of the art
[J].DOI:10.1109/MGRS.2018.2890023 [本文引用: 1]
Multiresolution supervised classification of panchromatic and multispectral images by Markov random fields and graph cuts
[J].
A generalized metaphor of Chinese restaurant franchise to fusing both panchromatic and multispectral images for unsupervised classification
[J].
Deep learning for remote sensing data:A technical tutorial on the state of the art
[J].
Deep multiple instance learning-based spatial-spectral classification for PAN and MS imagery
[J].
A dual-branch attention fusion deep network for multiresolution remote-sensing image classification
[J].
A spatial-channel progressive fusion ResNet for remote sensing classification
[J].
Fully convolutional networks for semantic segmentation
[J].
DOI:10.1109/TPAMI.2016.2572683
PMID:27244717
[本文引用: 1]
Convolutional networks are powerful visual models that yield hierarchies of features. We show that convolutional networks by themselves, trained end-to-end, pixels-to-pixels, improve on the previous best result in semantic segmentation. Our key insight is to build "fully convolutional" networks that take input of arbitrary size and produce correspondingly-sized output with efficient inference and learning. We define and detail the space of fully convolutional networks, explain their application to spatially dense prediction tasks, and draw connections to prior models. We adapt contemporary classification networks (AlexNet, the VGG net, and GoogLeNet) into fully convolutional networks and transfer their learned representations by fine-tuning to the segmentation task. We then define a skip architecture that combines semantic information from a deep, coarse layer with appearance information from a shallow, fine layer to produce accurate and detailed segmentations. Our fully convolutional networks achieve improved segmentation of PASCAL VOC (30% relative improvement to 67.2% mean IU on 2012), NYUDv2, SIFT Flow, and PASCAL-Context, while inference takes one tenth of a second for a typical image.
EfficientNet:Rethinking model scaling for convolutional neural networks
[J/OL].
DeepLab:Semantic image segmentation with deep convolutional nets,atrous convolution,and fully connected CRFs
[J].
SegNet:A deep convolutional encoder-decoder architecture for image segmentation
[J].
DOI:10.1109/TPAMI.2016.2644615
PMID:28060704
[本文引用: 1]
We present a novel and practical deep fully convolutional neural network architecture for semantic pixel-wise segmentation termed SegNet. This core trainable segmentation engine consists of an encoder network, a corresponding decoder network followed by a pixel-wise classification layer. The architecture of the encoder network is topologically identical to the 13 convolutional layers in the VGG16 network [1]. The role of the decoder network is to map the low resolution encoder feature maps to full input resolution feature maps for pixel-wise classification. The novelty of SegNet lies is in the manner in which the decoder upsamples its lower resolution input feature map(s). Specifically, the decoder uses pooling indices computed in the max-pooling step of the corresponding encoder to perform non-linear upsampling. This eliminates the need for learning to upsample. The upsampled maps are sparse and are then convolved with trainable filters to produce dense feature maps. We compare our proposed architecture with the widely adopted FCN [2] and also with the well known DeepLab-LargeFOV [3], DeconvNet [4] architectures. This comparison reveals the memory versus accuracy trade-off involved in achieving good segmentation performance. SegNet was primarily motivated by scene understanding applications. Hence, it is designed to be efficient both in terms of memory and computational time during inference. It is also significantly smaller in the number of trainable parameters than other competing architectures and can be trained end-to-end using stochastic gradient descent. We also performed a controlled benchmark of SegNet and other architectures on both road scenes and SUN RGB-D indoor scene segmentation tasks. These quantitative assessments show that SegNet provides good performance with competitive inference time and most efficient inference memory-wise as compared to other architectures. We also provide a Caffe implementation of SegNet and a web demo at http://mi.eng.cam.ac.uk/projects/segnet.
Deep high-resolution representation learning for visual recognition
[J].
UNetFormer:A UNet-like transfor-mer for efficient semantic segmentation of remote sensing urban scene imagery
[J].
MACU-net for semantic segmentation of fine-resolution remotely sensed images
[J].
ABCNet:Attentive bilateral contextual network for efficient semantic segmentation of fine-resolution remotely sensed imagery
[J].
Multiattention network for semantic segmentation of fine-resolution remote sensing images
[J].
Multistage attention ResU-net for semantic segmentation of fine-resolution remote sensing images
[J].
From single- to multi-modal remote sensing imagery interpretation:A survey and taxonomy
[J].
/
| 〈 |
|
〉 |








