自然资源遥感, 2025, 37(5): 113-121 doi: 10.6046/zrzyyg.2024261

技术方法

融合FFT和EMHSA的双时相光学遥感影像变化检测网络

王杏伟,1, 唐康其,2, 刘燕3, 刘欢4

1.中铁第四勘察设计院集团有限公司,武汉 430063

2.成都理工大学地球与行星科学学院,成都 610059

3.成都理工大学地理与规划学院,成都 610059

4.四川安信科创科技有限公司,成都 610045

Change detection network for dual-temporal optical remote sensing images integrating fast Fourier transform and efficient multi-head self-attention

WANG Xingwei,1, TANG Kangqi,2, LIU Yan3, LIU Huan4

1. China Railway Siyuan Survey and Design Group Co.,Ltd.,Wuhan 430063,China

2. College of Earth and Planetary Sciences,Chengdu University of Technology,Chengdu 610059,China

3. College of Geography and Planning,Chengdu University of Technology,Chengdu 610059,China

4. Sichuan Anxin Kechuang Technology Co.,Ltd.,Chengdu 610045,China

通讯作者: 唐康其(1996-),男,硕士,主要研究方向为遥感影像变化检测。Email:946596333@qq.com

责任编辑: 张仙

收稿日期: 2024-07-31   修回日期: 2025-04-2  

基金资助: 教育部人文社会科学研究项目“西藏茶马古道传统村落的保护机制与活化路径研究”(23YJA850003)
四川省科技计划项目(重点研发)“化工重大危险源事故监测预警及应急救援决策支撑关键技术研究与示范”(2023YFS0415)

Received: 2024-07-31   Revised: 2025-04-2  

作者简介 About authors

王杏伟(1984-),男,硕士,高级工程师,主要从事铁路工程测量、遥感领域的工作。Email:sky_wxw@qq.com

摘要

近年来,基于深度学习的遥感变化检测取得了飞速发展,但对于复杂场景的变化检测仍然存在识别不完整、误检率高的问题。该文在SNUnet的基础上,通过融合快速傅里叶变换(fast Fourier transform,FFT)和高效多头自注意力机制(efficient multi-head self attention,EMHSA),提出了FTUNet网络。网络中的FFT模块实现对两时相图像的风格统一,降低由于光照变化等外界因素产生的“伪变化”所引起的错误检测;而在网络的特征提取阶段,引入EMHSA,充分提取特征图的上下文信息,以提高变化目标分割结果的完整性。在LEVIR-CD和SYSU-CD这2个公开数据集上的实验结果表明,FTUNet的F1得分比SNUNet分别提升1.42和1.53百分点,交并比分别提升2.31和2.07百分点。

关键词: 快速傅里叶变换; 遥感影像; 变化检测; 风格统一; 上下文信息

Abstract

The deep learning-based change detection of remote sensing images has seen rapid advances in the past few years. However,it still faces challenges for change detection in complex scenes,such as incomplete recognition and high false detection rates. In response to these challenges,this paper proposed the FTUNet,a network based on SNUnet that integrates the fast Fourier transform (FFT) and efficient multi-head self-attention (EMHSA). Specifically,the FFT module in the network enabled style unification of dual-temporal images,reducing false detection caused by “pseudo changes” due to external factors such as light variations. Additionally,the EMHSA was introduced in the feature extraction stage to fully extract the contextual information from the feature maps,thereby enhancing the segmentation integrity of target changes. Experiments on the LEVIR-CD and SYSU-CD public datasets showed that the FTUNet exhibited increases of 1.42 and 1.53 percentage points in F1 score,as well as increases of 2.31 and 2.07 percentage points in intersection over union (IoU),compared to the SNUNet.

Keywords: fast Fourier transform (FFT); remote sensing image; change detection; style unification; contextual information

PDF (5536KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

王杏伟, 唐康其, 刘燕, 刘欢. 融合FFT和EMHSA的双时相光学遥感影像变化检测网络[J]. 自然资源遥感, 2025, 37(5): 113-121 doi:10.6046/zrzyyg.2024261

WANG Xingwei, TANG Kangqi, LIU Yan, LIU Huan. Change detection network for dual-temporal optical remote sensing images integrating fast Fourier transform and efficient multi-head self-attention[J]. Remote Sensing for Land & Resources, 2025, 37(5): 113-121 doi:10.6046/zrzyyg.2024261

0 引言

遥感变化检测是指通过联合处理在同一地理区域不同时间采集的2幅(或多幅)遥感图像来识别地球表面发生的变化的过程[1]。随着相关技术的飞速发展,遥感数据获取的频率、类型、分辨率和便捷性都得到大幅提升,遥感变化检测在生态环境保护、市政规划与管理、防灾减灾等领域得到广泛的应用[2-4]

传统的遥感变化检测方法包括基于图像代数运算的方法[5]、基于图像变换的方法[6]和基于后分类的方法[7]。这些方法采用有监督或无监督算法实现,往往需要对图像进行复杂的预处理,且鲁棒性较差[8];在一些简单场景下可以取得较好的效果,但对于复杂场景则效果不佳[9]

近年来,深度学习作为一种数据驱动的机器学习方法,在许多领域都取得了优于传统方法的效果,并逐渐应用于图像分析领域的大多数问题[10],在遥感变化检测任务中受到了广泛的关注。Daudt等[10]提出了全卷积早期融合(fully convolutional early fusion,FC-EF)、全卷积孪生级联(fully convolutional Siamese concatenation,FC-Siam-conc)和全卷积孪生差异(fully convolutional Siamese difference,FC-Siam-diff)的全卷积网络(fully convolutional network,FCN)用于遥感变化检测。3种网络都采用孪生结构,并逐渐成为遥感变化检测的标准范式[9]。FC-EF将两时相的遥感影像首先拼接成一张输入图像,然后输入FCN直接进行变化特征提取;但由于缺乏每张影像的深度特征信息,所以大规模变化场景识别效果较差。FC-Siam-conc与FC-Siam-diff都是先将两时相的遥感影像输入孪生卷积网络分别提取特征,再将提取出2个时相的特征通过卷积进行变化特征提取。不同之处在于,前者将分别提取的特征串联后再进行变化特征提取;而后者进行差值后再进行变化特征提取。因此,FC-Siam-diff比FC-Siam-conc能更清楚地指导网络比较图像之间的差异,但可能会增加由于光照变化等因素造成的伪变化错误检测。为了克服光照变化和配准误差对变化检测准确性的影响,Chen等[11]在网络的特征提取部分引入自注意力机制,提出了时空注意力神经网络(spatial-temporal attention neural network,STANet),实现对输入图像不同像素的时空关系建模,以提高遥感变化检测方法的性能;Zhang等[12]针对高分辨率遥感影像存在的精细影像特征和复杂纹理特征带来的挑战,提出采用深度监督来增强浅层特征的表示和判断能力;Fang等[9]针对高分辨率遥感变化检测边缘损失和小目标确定性降低的问题,提出了联合孪生结构和NestedUNet[13]的网络SNUNet,以减少神经网络深层定位信息的损失,并通过集成通道注意力模块(ensemble channel attention module,ECAM)用于深度监督,以细化不同语义级别最具代表性的特征,取得了较好的效果;Chen等[14]针对复杂场景下高分辨率遥感影像存在的“同物异谱”现象导致的变化检测困难,提出双时相图像变换器(bitemporal image Transformfer,BIT)网络,通过将双时相影像表达成一些标签,并利用Transformer编码器对远程上下文进行建模,取得了优于多个最先进遥感变化检测方法的效果;Feng等[15]提出了一种双分支多级跨期网络(dual-branch multilevel intertemporal network,DMINet),通过同时考虑自注意力机制和交叉注意力机制,实现了对2个时序图像之间相互作用的建模,这种双分支结构能够有效地捕捉到变化区域,并提高变化检测的精度;Zhang等[16]提出一种新颖的全局感知孪生网络(global-aware Siamese network,GAS-Net),通过背景和前景之间的关系来生成全局感知特征,从而提高变化检测的性能;宋嘉鑫等[17]提出了一种基于模糊C均值聚类(fuzzy C-means,FCM)和简单贝叶斯网络(simple bayesian network,SBN)的非下采样轮廓波变换(non-subsampled contourlet transform,NSCT)变化检测方法,该方法首先将FCM与SBN耦合,计算出后验概率变化强度图,之后,通过NSCT将后验概率变化强度图分解为不同尺度和方向的子图,通过保留高频子图中的细节并消除噪声,优化了重构后的后验概率变化强度图,实现了后验概率空间下的多尺度、多方向的变化检测,最终提高了变化检测的精度;柴佳兴等[18]提出了一种联合无人机影像生成数字表面模型(digital surface model,DSM)和正射影像(digital orthophoto map,DOM)的多层次建筑物变化检测方法,该方法不但能够保留较低高差阈值检测到的低矮变化建筑物,而且能够保证高大变化建筑物的正确性、完整性;马惠等[19]提出了一种多任务学习深度孪生网络用于遥感影像的多类变化检测,采用第三次全国国土调查的影像数据和相应的土地利用图斑数据对多任务学习深度孪生网络模型进行了测试,结果表明所提出的方法适用于这种在没有变化、未变化样本而有历史专题图的变化检测场景中。

尽管上述方法取得了一定的效果,但对于复杂场景的遥感变化检测仍然存在识别不完整、误检率高的问题。大多数变化检测方法都侧重于通过卷积神经网络(convolutional neural network,CNN)提取深度变化语义特征,而对特征上下文信息提取不充分,导致对变化区域识别不完整。而多期遥感影像不同的成像条件,通常存在光照差异、季节变化,常导致变化检测结果中存在较多“伪变化”,导致变化检测误检率高。高效多头自注意力机制(efficient multi-head self attention,EMHSA)在特征提取阶段可捕获远程关联信息,提取更多的上下文信息。快速傅里叶变换[20](fast Fourier transform,FFT)经常被用在频域分析中,利用FFT可将两时相影像从空间域转换为频率域进行处理后,实现两时相遥感影像风格统一。所以受Gao等[21]的启发,在SNUnet的基础上,融合FFT和EMHSA,提出了一种新的遥感变化检测网络FTUNet,以提高变化目标分割结果的完整性,并降低因伪变化引起的错误检测。

1 FTUNet网络设计

1.1 网络总体结构

FTUNet模型总体结构如图1所示,包括快速傅里叶变换模块(fast Fourier transform module,FFTM)、编码器、解码器和ECAM 4个模块。对于输入的双时相图像,首先通过FFTM进行风格统一,然后输入编码器进行特征提取。编码器和解码器由卷积模块、下采样模块、远程上下文特征提取模块(long-range context feature extraction module,LRCFEM)和上采样模块组成,结构从上到下,可以看作有5层,每层都包含不同数量的卷积模块和LRCFEM。编码器采用孪生结构,分别提取双时相图像特征${{X}^{i,j}}_{A}$${{X}^{i,j}}_{B}$,并采用级联方式进行融合。编码器的2—5层采用LRCFEM实现特征提取阶段获得更大的感受野,提取更多的上下文信息。解码器中,在编码器2—5层得到的特征图进行上采样后,与相对应的前一层所有特征进行密集跳跃连接并通过卷积模块,获取细节信息和语义信息;而且,在编码器和解码器之间使用密集跳跃连接机制,以保持语义信息和细节信息。最后,通过ECAM融合不同语义层次的特征,并抑制语义差异,分类后得到最终的预测结果。FTUNet网络在SNUnet的基础上,融合FFT和EMHSA;在编码器前增加FFTM,降低由于光照变化等外界因素产生“伪变化”引起的错误检测;在编码器的2—5层采用LRCFEM,提高变化目标分割结果的完整性。

图1

图1   FTUNet网络总体结构图

Fig.1   Overall structure diagram of FTUNet network


1.2 FFTM

图像的频率作为衡量灰度变化剧烈程度的指标,反映了图像中不同区域的特性。具体来说,灰度值变化显著的部分对应于高频分量,而相对平稳的区域则属于低频分量。高频分量在图像中主要用以刻画边缘和轮廓的精细结构;而低频分量则更多地反映了整幅图像强度的总体特征[20]。由于光照、环境等外界因素变化的影响,遥感影像前后时相可能存在光谱特征改变,由此产生一些伪变化[4]。为了降低伪变化的检出率,本文在FTUNet网络中引入一个FFTM,利用FFTM将原始输入图像从空间域转换到频率域实现风格统一。

FFTM的基本原理如图2所示。对于输入图像XAXB,以图像XA为参考。首先,将2张图像分别通过FFT正变换从空间域转换到频率域,通过FFT后图像频谱图低频部分在四周,高频部分在中间,因此再通过FFTShift将低频部分平移到频谱图中心;然后,将XB的低频部分替换为XA的低频部分;最后,将FFT变换原点平移回原位置,并采用FFT逆变换(inverse FFT,IFFT)将XB从频率域转换回空间域,得到统一风格后的图像X'B

图2

图2   FFTM基本原理示意图

Fig.2   Basic schematic diagram of FFTM


1.3 LRCFEM

图1所示,LRCFEM位于编码器中每次下采样操作之后,其主要功能是捕获远程关联信息,提取特征图更多的上下文信息。

LRCFEM(图3)由1×1卷积、BN层、ReLU激活函数和EMHSA模块[21]组成。输入特征首先通过1×1卷积进行升维操作,再经过BN层和EMHSA模块进行归一化处理和获取特征的上下文信息,并通过残差连接与1×1卷积输出的特征进行相加,进行第一次特征融合;再经过BN层、ReLU激活函数和1×1卷积,并采用残差连接与第一次特征融合结果进行相加,进行第二次特征融合,以此作为下一次下采样的输入。

图3

图3   LRCFEM结构图

Fig.3   LRCFEM structure diagram


EMHSA模块的结构如图4所示。对于输入特征图X$R^{C \times H \times W}$HW分别为高度和宽度,C为通道数),EMHSA模块首先通过3个1×1卷积生成3个特征子图QKV$R^{d \times H \times W}$d为每个注意力头中嵌入的维度),通过相对位置偏置得到像素间相对位置关系信息P$R^{d \times h \times w}$hw分别为相对高度和相对宽度),并进行展平和转置生成P1$R^{h \times w \times d}$;然后对Q进行展平并转置生成Q1$R^{H \times W \times d}$,对KV进行下采样及展平并转置生成K1V1$R^{h \times w \times d}$;接下来将Q1分别与P1K1进行点积运算,并将2个结果相加后经过softmax函数进行归一化;最后与V1相乘,得到最终输出。

图4

图4   EMHSA结构图

Fig.4   EMHSA structure diagram


EMHSA模块通过对KV进行下采样操作,将操作的复杂性从On2)显著降低到近似On);通过添加相对高度和宽度信息来使用二维相对位置编码,让像素间保持空间位置关系。

2 实验与分析

2.1 数据集

实验采用公开的遥感变化检测数据集LEVIR-CD[11]和SYSU-CD[22]。LEVIR-CD数据集是通过Google Earth API在2002—2018年间收集的。其覆盖范围广泛,涵盖了美国得克萨斯州的20个不同区域。该数据集共包含637张高分辨率的遥感影像,影像的空间分辨率0.5 m,尺寸均为1 024像素×1 024像素。此数据集的主要关注点在于建筑物的变化检测,包括建筑物的新增与消失情况。数据集中涵盖了多样化的建筑类型,如独立别墅、高层住宅楼、小型车库以及大型豪华别墅等,从而能够全面反映建筑物变化的多种场景。在标注方面,该数据集采用了二值标签体系,其中0代表未发生变化的区域,而1则代表发生变化的区域。值得注意的是,数据集中存在显著的光照和季节变化,这可能导致“伪变化”问题的出现。该数据集在总体上包含了31 333个独立的变化建筑物,平均每对数据包含约50个变化建筑物。由于原始影像的尺寸较大,直接在网络训练中使用可能会引发显存不足的问题。因此,本文对原始尺寸为1 024像素×1 024像素的影像实施了无重叠的裁剪操作,每个裁剪后的影像尺寸为256像素×256像素。最终数据集包含7 120个训练图像对用于模型训练,2 048个验证图像对用于模型验证,以及1 024个测试图像对用于模型性能的最终评估。SYSU-CD数据采集于2007—2014年的香港地区。该数据集包含20 000对航拍图像,空间分辨率为0.5 m,图像大小为256像素×256像素。该数据集涵盖了诸多不同类型的变化,包括新建城市建筑、郊区扩张、植被的变化、道路扩建和海上建设等。同样使用二值标签,其中0表示未发生变化,1表示发生变化。最终数据集包含12 000个训练图像对用于模型训练,4 000个验证图像对用于模型验证,以及4 000个测试图像对用于模型性能的最终评估。

2.2 实验设置

实验程序基于PyTorch框架开发。在训练过程中,批大小设置为6,回合设为100,模型采用文献[9]提出的混合损失函数,并采用Adam作为优化器。学习率设置为0.001,每8个epoch衰减50%。每个卷积层的权重均通过Kaiming初始化设置。

2.3 评价指标

变化检测性能通过4个典型指标来评估[11]:精确率(precision,P)、召回率(recall,R)、交并比(intersection over union,IoU)和F1分数。P越高表示错误检测越少;R更大表明更多的正样本被检测出来;IoU和F1分数都是对预测结果进行整体度量,值越大,预测结果就越好。指标公式分别为:

P=$\frac{TP}{TP+FP}$
R=$\frac{TP}{TP+FN}$
F1=2×$\frac{P\times R}{P+R}$
IoU=$\frac{TP}{FP+TP+FN}$

式中:TP为被正确预测的正样本数量;FP为被错误预测的负样本数量;FN为被错误预测的正样本数量。

2.4 消融实验

为了验证FFTM和LRCFEM的作用,基于LEVIR-CD数据集,设计了一组消融实验。实验以SNUNet[9]作为基准网络,在SNUNet的编码器前加入FFTM,得到SNUNet+FFTM;通过将SNUNet中编码器第2—5层的卷积模块用LRCFEM替换,得到SNUNet+LRCFEM;在SNUNet编码器前加入FFTM同时将编码器第2—5层的卷积模块用LRCFEM替换,构建SNUNet+FFTM+LRCFEM,即FTUNet。基于LEVIR-CD数据集,对SNUNet,SNUNet+FFTM,SNUNet+FFTM+LRCFEM和FTUNet这4种不同的网络进行实验,实验结果通过多个关键评价指标来衡量,包括P,R,IoU以及F1,详细数据如表1所示,表1中加粗数字为最优结果。

表1   消融实验结果

Tab.1  Results of ablation experiment (%)

网络模型PRIoUF1
SNUNet(基准网络)89.9187.2179.4488.54
SNUNet+FFT90.8187.8680.6989.31
SNUNet+LRCFEM90.4689.1581.5089.81
FTUNet(本文网络)90.7289.2281.7589.96

新窗口打开| 下载CSV


表1可以看出,对于基准网络SNUNet来说,无论在网络编码器前加入FFTM还是将网络编码器2—5层替换为LRCFEM,PRIoUF1等评价指标结果都有一定的提升,而且单独将网络编码器2—5层替换为LRCFEM的改进效果优于在网络编码器前加入FFTM的改进效果。对于同时加入FFTM和LRCFEM的FTUNet,在RIoUF1指标上取得了最佳效果。具体来说,当基准网络中仅加入FFTM时,相较于基准网络来说,PRIoUF1分别提升了0.90,0.65,1.25和0.77百分点。这是因为FFTM将输入的两时相影像进行风格统一,减轻了由于光照变化等因素使得前后影像颜色不一致产生伪变化,使得网络更加能区分真实变化和不相关变化。当基准网络仅添加LRCFEM时,相较于基准网络来说,PRIoUF1分别提升了0.55,1.94,2.06和1.27百分点。这是因为LRCFEM在特征提取阶段扩大了感受野,可以提取特征图更多的上下文信息,提高了变化目标分割结果的完整性。当同时加入2个模块时,相比于基准网络,P提升了0.81百分点,R提升了2.01百分点,F1提升了1.42百分点,这是由于FFTM通过风格统一,减少了伪变化,使得网络减少对未变化区域的误判;LRCFEM能够扩大感受野,捕获远程关联信息,使得网络提取特征图更多的上下文信息。从以上消融实验,可以看出FFTM和LRCFEM对网络的变化检测性能提升均具有积极作用。

为了更直观地展示实验结果,进一步对实验结果进行了可视化处理,如表2所示,从表2中a和b可以看出,SNUNet在变化检测过程中,容易将由于光照变化等因素使得前后影像中屋顶颜色不一致的同一建筑物识别为未变化区域(图中方框所示)。如图5所示,通过引入FFTM,进行风格统一,使得两时相影像中同一建筑物屋顶颜色一致。SNUNet+FFTM和FTUNet都能对这种类型建筑物正确识别,减少了错误检测;而单独引入LRCFEM,SNUNet+LRCFEM对于这种区域仍然判定为变化区域。从表2中c和d可以看出,SNUNet对于变化的建筑物,存在识别不完整甚至无法识别的现象。通过引入LRCFEM,提升提取特征图上下文信息的能力,增强对变化区域完整识别能力。SNUNet+LRCFEM和FTUNet都能较完整的识别出变化的建筑物。因此,FTUNet不仅能对部分伪变化区域进行正确识别,对于变化区域的识别也更加完整。

表2   消融实验可视化结果

Tab.2  Visualization results of ablation experiment

序号影像A影像B标签SNUNetSNUNet+FFTSNUNet+LRCFEMFTUNet
a
b
c
d
图例

新窗口打开| 下载CSV


图5

图5   FFTM可视化结果

Fig.5   FFTM visualization results


2.5 对比实验

为验证FTUNet相对于其他先进方法的优越性,采用LEVIR-CD和SYSU-CD这2个数据集分别进行训练、验证和测试,并与FC-EF[10],FC-Siam-conc[10],FC-Siam-diff[10],SNUNet[9]和BIT[14]5种代表性网络进行对比。

在LEVIR-CD数据集的实验结果如表3所示。从表3中可以看出,FTUNet在RIoUF1的指标方面都优于其他方法,相较于FC-EF网络,PRIoUF1分别提升了4.03,9.35,10.6和6.82百分点;相较于SNUNet网络,PRIoUF1分别提升了0.81,2.01,2.31和1.42百分点。值得注意的是,BIT网络P值最高,略高于FTUNet,这表明其误检情况比较少,但BIT的R值相对较低,表明它对变化区域相对不敏感。

表3   LEVIR-CD数据集对比实验结果

Tab.3  Comparison experiment results of LEVIR-CD dataset (%)

网络模型PRIoUF1
FC-EF86.6979.8771.1583.14
FC-Siam-conc89.4185.0277.2487.16
FC-Siam-diff90.1283.0176.0986.42
SNUNet89.9187.2179.4488.54
BIT92.0186.7280.6589.28
FTUNet(本文网络)90.7289.2281.7589.96

新窗口打开| 下载CSV


为了更直观地说明FTUNet相较于其他方法变化检测结果的效果差异,对不同的网络在LEVIR-CD测试集上的变化检测结果进行可视化对比,如表4所示。从表4的a和b可以看出,对于由于光照变化等因素使得前后影像中屋顶颜色不一致的同一建筑物,FTUNet网络能够较好地识别为未变化区域,但其他网络基本会错误识别为变化区域;从表4的c可以看出,对于大型新增建筑物,FTUNet网络的识别效果最好,但FC-Siam-diff和SNUNet等网络都没有完整的识别出来;从表4的d和e可以看出,对于小型新增建筑物,FTUNet网络都能够完整的识别出来,其他网络都识别不完整,甚至在表4的d中,其他网络未识别到新增建筑物。由此表明,FTUNet能过利用FFTM,将输入的双时相影像进行风格统一,然后通过编码器中的LRCFEM捕获远程关联信息,提取特征图更多的上下文信息,使得网络不仅能正确识别部分伪变化区域,减少错误识别,也能通过上下文信息进行正确识别,从而使得识别出的变化区域更加完整。

表4   LEVIR-CD数据集对比实验可视化结果

Tab.4  Visualization results of LEVIR-CD dataset comparison experiment

序号影像A影像B标签FE-EFFC-Siam-
conc
FC-Siam-
diff
BITSNUNetFTUNet
a
b
c
d
e
图例

新窗口打开| 下载CSV


在SYSU-CD数据集的实验结果如表5所示,可视化对比结果如表6所示。从表5可以看出,FTUNet网络在多类别变化目标识别中,RIoUF1的指标都是最佳的。FTUNet的F1达到了79.48%,比FC-Siam-diff高了15.67百分点,比FC-EF高了5.68百分点,比FC-Siam-conc高了3.89百分点,比SNUNet和BIT分别高了1.53和2.1百分点。从IoU指标上看,除了FTUNet网络,其他变化检测网络的IoU值均低于65%,最高仅为63.87%;FTUNet的IoU值为65.94%,比FC-Siam-diff高了19.08百分点,比SNUNet和BIT分别高了2.07和2.83百分点。由此表明,FTUNet对于SYSU-CD数据集中不同类型的变化具有鲁棒性。而FC-Siam-Diff实现了最高的精确率和最低的召回率,可能是因为减法差分融合仅仅能识别除比较明显变化的区域,但对于多类别变化目标数据集的复杂变化场景漏检情况比较多。

表5   SYSU-CD数据集对比实验结果

Tab.5  Comparison experiment results of SYSU-CD dataset (%)

网络模型PRIoUF1
FC-EF78.6069.5558.4773.80
FC-Siam-conc81.1170.7660.7575.59
FC-Siam-diff90.3549.3346.8663.81
SNUNet81.9074.3763.8777.95
BIT81.7173.4963.1177.38
FTUNet(本文网络)79.9579.0165.9479.48

新窗口打开| 下载CSV


表6   SYSU-CD数据集对比实验可视化结果

Tab.6  Visualization results of SYSU-CD dataset comparison experiment

序号影像A影像B标签FE-EFFC-Siam-
conc
FC-Siam-
diff
BITSNUNetFTUNet
a
b
c
d
e
图例

新窗口打开| 下载CSV


表6的a中,对于有些海上轮船从有到无,有些海上轮船从无到有而产生的变化,除了FTUNet和BIT,其他方法都不能将其识别完整;与BIT相比,FTUNet识别出变化区域的边界更加准确。在表6的b中,对于道路扩建,可以看到除了FTUNet的识别结果较为完整,其他几个网络都有不同程度的漏检。在表6的c中,对于新建大型建筑物,虽然这6个网络都不能将建筑物完整的识别出来,但FTUNet识别的结果完整度是最高的,漏检最少。表6前3行显示了3种不同类型的变化,FTUNet都能比较完整地识别出变化区域。在表6的d和e中,对于道路扩建和新增小建筑物,在FTUNet识别出变化区域的边界更加准确,特别在表6的d中表现最明显,FTUNet能完整的识别出,但其他网络在变化区域边界处存在不同程度的误检或漏检。

3 结论

本文提出了一种融合FFT和EMHSA的遥感变化检测网络FTUNet,通过引入FFTM,统一两时相图像处理风格,有效减弱遥感影像因光照变化等外界因素导致的颜色差异,从而显著减少错误检测,提高检测结果的准确性。在FTUNet中设计了LRCFEM模块,在网络特征提取阶段扩大感受野,充分提取特征图的上下文信息,并通过EMHSA更有效地关注变化区域,增强多尺度变化目标分割结果的完整性。

在LEVIR-CD和SYSU-CD这2个公开数据集上进行实验验证,结果表明,FTUNet在减弱光照等外界因素干扰、减少错误检测以及提高多尺度变化目标分割完整性方面,相较于FC-EF等网络具有显著优势;但在面对极端复杂或噪声较多的遥感影像时,FTUNet的性能可能会受到一定影响。

随着遥感技术的不断发展,更高分辨率、更多样化的影像数据将不断涌现,对FTUNet的适应性和泛化能力提出了更高的要求。因此,未来的研究可以进一步探索如何提升FTUNet在复杂场景下的性能,以及如何将其拓展应用于更多类型的遥感影像变化检测任务。

参考文献

Bruzzone L, Bovolo F. A novel framework for the design of change-detection systems for very-high-resolution remote sensing images[C]// Proceedings of the IEEE.July 24, 2012, IEEE, 2013:609-630.

[本文引用: 1]

Zhu Q Q, Guo X, Deng W H, et al.

Land-use/land-cover change detection based on a Siamese global learning framework for high spatial resolution remote sensing imagery

[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2022, 184:63-78.

[本文引用: 1]

Lv Z Y, Liu T F, Benediktsson J A, et al.

Land cover change detection techniques:Very-high-resolution optical images:A review

[J]. IEEE Geoscience and Remote Sensing Magazine, 2022, 10(1):44-63.

Wen D W, Huang X, Bovolo F, et al.

Change detection from very-high-spatial-resolution optical remote sensing images:Methods,applications,and future directions

[J]. IEEE Geoscience and Remote Sensing Magazine, 2021, 9(4):68-101.

[本文引用: 2]

Bhatt A, Ghosh S K, Kumar A.

Spectral indices based object oriented classification for change detection using satellite data

[J]. International Journal of System Assurance Engineering and Management, 2018, 9(1):33-42.

[本文引用: 1]

Atasever U H, Kesikoglu M H, Ozkan C.

A new artificial intelligence optimization method for pca based unsupervised change detection of remote sensing image data

[J]. Neural Network World, 2016, 26(2):141-154.

[本文引用: 1]

Nagne A D, Vibhute A D, Dhumal R K, et al. Urban LULC change detection and mapping spatial variations of Aurangabad City using IRS LISS-III temporal datasets and supervised classification approach[M]//Data Analytics and Learning. Singapore: Springer Singapore,2018:369-386.

[本文引用: 1]

Zhang X F, Cheng S L, Wang L J, et al.

Asymmetric cross-attention hierarchical network based on CNN and Transformer for bitemporal remote sensing images change detection

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61:2000415.

[本文引用: 1]

Fang S, Li K Y, Shao J Y, et al.

SNUNet-CD:A densely connected Siamese network for change detection of VHR images

[J]. IEEE Geoscience and Remote Sensing Letters, 2021, 19:8007805.

[本文引用: 6]

Daudt R C, Le Saux B, Boulch A. Fully convolutional Siamese networks for change detection[C]//2018 25th IEEE International Conference on Image Processing (ICIP). October 7-10,2018.Athens. IEEE, 2018:4063-4067.

[本文引用: 5]

Chen H, Shi Z W.

A spatial-temporal attention-based method and a new dataset for remote sensing image change detection

[J]. Remote Sensing, 2020, 12(10):1662.

[本文引用: 3]

Zhang C X, Yue P, Tapete D, et al.

A deeply supervised image fusion network for change detection in high resolution bi-temporal remote sensing images

[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2020, 166:183-200.

[本文引用: 1]

Zhou Z W, Rahman Siddiquee M M, Tajbakhsh N, et al. UNet++:A nested U-Net architecture for medical image segmentation[M]//Deep Learning in Medical Image Analysis and Multimodal Learning for Clinical Decision Support. Cham: Springer Internatio-nal Publishing,2018:3-11.

[本文引用: 1]

Chen H, Qi Z P, Shi Z W.

Remote sensing image change detection with Transformers

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 60:5607514.

[本文引用: 2]

Feng Y C, Jiang J W, Xu H H, et al.

Change detection on remote sensing images using dual-branch multilevel intertemporal network

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61:4401015.

[本文引用: 1]

Zhang R Q, Zhang H C, Ning X G, et al.

Global-aware Siamese network for change detection on remote sensing images

[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2023, 199:61-72.

[本文引用: 1]

宋嘉鑫, 李轶鲲, 杨树文, .

基于后验概率空间变化向量分析的NSCT高分辨率遥感影像变化检测

[J]. 自然资源遥感, 2024, 36(3):128-136.doi:10.6046/zrzyyg.2023079.

[本文引用: 1]

Song J X, Li Y K, Yang S W, et al.

NSCT-based change detection for high-resolution remote sensing images under the framework of change vector analysis in posterior probability space

[J]. Remote Sensing for Natural Resources, 2024, 36(3):128-136.doi:10.6046/zrzyyg.2023079.

[本文引用: 1]

柴佳兴, 张云生, 杨振, .

联合无人机影像生成DSM和DOM的多层次建筑物变化检测

[J]. 自然资源遥感, 2024, 36(2):80-88.doi:10.6046/zrzyyg.2023001.

[本文引用: 1]

Chai J X, Zhang Y S, Yang Z, et al.

Multi-level building change detection based on the DSM and DOM generated from UAV images

[J]. Remote Sensing for Natural Resources, 2024, 36(2):80-88.doi:10.6046/zrzyyg.2023001.

[本文引用: 1]

马惠, 刘波, 杜世宏.

多任务学习孪生网络的遥感影像多类变化检测

[J]. 自然资源遥感, 2024, 36(1):77-85.doi:10.6046/zrzyyg.2022446.

[本文引用: 1]

Ma H, Liu B, Du S H.

Multi-class change detection using a multi-task Siamese network of remote sensing images

[J]. Remote Sensing for Natural Resources, 2024, 36(1):77-85.doi:10.6046/zrzyyg.2022446.

[本文引用: 1]

Duhamel P, Vetterli M.

Fast Fourier transforms:A tutorial review and a state of the art

[J]. Signal Processing, 1990, 19(4):259-299.

[本文引用: 2]

Gao Y H, Zhou M, Metaxas D N. UTNet:A hybrid transformer architecture for medical image segmentation[M]//Medical Image Computing and Computer Assisted Intervention-MICCAI 2021.Cham: Springer International Publishing,2021:61-71.

[本文引用: 2]

Shi Q, Liu M X, Li S C, et al.

A deeply supervised attention metric-based network and an open aerial image dataset for remote sensing change detection

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 60:5604816.

[本文引用: 1]

/

京ICP备05055290号-2
版权所有 © 2015 《自然资源遥感》编辑部
地址:北京学院路31号中国国土资源航空物探遥感中心 邮编:100083
电话:010-62060291/62060292 E-mail:zrzyyg@163.com
本系统由北京玛格泰克科技发展有限公司设计开发