基于CNN与SETR的特征融合滑坡体检测
A landslide detection method using CNN- and SETR-based feature fusion
通讯作者: 姚国清(1964-),男,硕士,教授,主要从事遥感图像处理与信息提取研究。Email:gqyao@cugb.edu.cn。
责任编辑: 张仙
收稿日期: 2023-04-26 修回日期: 2024-05-15
Received: 2023-04-26 Revised: 2024-05-15
作者简介 About authors
李世琦(1998-),男,硕士研究生,主要从事计算机图像智能分析研究。Email:
准确、及时地检测出滑坡体对减少山体滑坡自然灾害对人类生命和财产造成的威胁与损失具有重要意义。论文提出了一种基于卷积神经网络(convolutional neural network,CNN)与Set Transformer(SETR)的特征融合滑坡体检测方法。基于CNN的网络模型选择了全卷积网络(fully convolutional network,FCN)、U-Net和Deeplabv3+,基于Transformer的模型选择了SETR。首先对CNN网络模型在滑坡检测中的效果进行评价,然后在CNN网络模型的编码器部分引入SETR,并将SETR的输出融合到CNN的解码器结构中作为模型的整体输出。基于LandSlide4Sense数据集的实验结果表明,典型CNN融合SETR后有效改善了模型的检测效果,FCN,U-Net,Deeplabv3+模型在融合SETR后F1分数分别从0.672 6,0.727 3,0.687 3提高到0.686 9,0.743 0,0.705 5。因为滑坡与地形密切相关,以效果最好的U-Net模型为基准,在模型输入中引入数字高程模型之后F1分数从0.732 5提高到0.750 3。
关键词:
The accurate and timely detection of landslides is of great significance for reducing the threats to human life and properties, along with relevant losses, caused by landslides. This study proposed a landslide detection method using feature fusion based on convolutional neural networks (CNNs) and Segmentation Transformer (SETR). The CNN-based models utilized a fully convolutional network (FCN), U-Net, and Deeplabv3+, while the Transformer-based models used SETR. First, the landslide detection effects of the CNN-based models were evaluated. Then, SETR was introduced into the encoders of the CNN-based models, and the output of SETR was fused into the CNN decoder structure as the final output of the models. The experiments using the LandSlide4Sense dataset indicate that the fusion of typical CNNs with SETR can effectively improve the landslide detection effects. After SETR fusion, the FCN, U-Net, and Deeplabv3+ models exhibited higher F1-scores, which increased from 0.672 6, 0.727 3, and 0.687 3 to 0.686 9, 0.743 0, and 0.705 5, respectively. Given the close relationship between landslides and terrain, a digital elevation model (DEM) was incorporated into the U-Net model, which outperformed other models. As a result, the F1-score of the model increased from 0.732 5 to 0.750 3.
Keywords:
本文引用格式
李世琦, 姚国清.
LI Shiqi, YAO Guoqing.
0 引言
山体滑坡是地球表面自然过程的一部分。近年来,受全球极端气候、地质活动、人类生产活动等影响,滑坡地质灾害频频发生,对人类的生命财产安全造成极大危害。随着硬件设备性能的提升,深度学习技术得到快速发展,广泛应用了深度学习的计算机视觉领域为滑坡体检测提供了新的研究方向。考虑到滑坡地质灾害危害性大、突发性强等特点,模型对于滑坡体的检测应该满足漏检率低、定位准确、边界判定明确等要求,从而最大限度地减小滑坡对人类带来的影响。
随着计算机技术的快速发展,许多科研人员将机器学习方法应用于滑坡体检测问题上,如: 张越等[4]、余淙蔚等[5]、许高程等[6]分别采用决策树方法、逻辑回归方法和支持向量机方法应用于滑坡体检测,但机器学习方法模型调参对模型评价结果影响较大,对复杂函数表达能力有限,泛化能力一般[7]。随着深度学习技术的崛起,许多科研人员考虑将滑坡体检测与深度学习技术融合[8⇓-10]。同时滑坡通常发生在陡峭的斜坡或者地形起伏较大的区域,数字高程模型(digital elevation model,DEM)可以提供地表的高程信息,通过对DEM进行分析,可以确定地形的起伏和变化。如杨昭颖等[11]将滑坡体检测作为目标检测任务进行研究,将遥感影像与DEM特征信息融合,验证了DEM数据在基于目标检测的滑坡检测方法中的重要性,但只能将滑坡范围限定在一定区域,无法区分滑坡体的边界,当发生滑坡时无法第一时间紧急救援。实现像素级分类的语义分割技术可以有效改善无法定位目标边界的问题,并且已被验证其可靠性[12⇓-14]。白石等[15]以U-Net模型为基准,引入密集上采样和非对称卷积来自动提取滑坡以避免空间信息损失,并将DEM与高分辨率遥感影像融合进行特征提取,进一步提高了模型对滑坡检测的效果。Transformer模型最初是为自然语言处理任务设计的,但其自注意力机制和并行化计算的优势使其在计算机视觉领域也得到了广泛应用。2020年Vision Transformer(ViT)[16]将Transformer架构首次应用到计算机视觉领域。Set Transformer(SETR)模型是一种基于Transformer架构的端到端的图像分割模型,利用全局自注意力机制和局部自注意力机制来处理图像语义信息。随后一些学者采用了Transformer结构模型分别用于目标检测和语义分割[17⇓-19],注意力机制在计算机视觉领域得到广泛应用。张思远等[20]将注意力机制应用到滑坡检测,但Transformer模型对滑坡边界的判定比较模糊,且需大量数据作为实验支撑。
本文研究工作从以下2个方面展开: 第一,改进网络模型,提高滑坡检测精度,所以本文将基于卷积神经网络(convloutional neural network,CNN)的全卷积网络(fully convolutional network,FCN)、U-Net和Deeplabv3+网络模型分别与SETR模型进行融合,构建一个新的滑坡体检测模型,融合特征信息,从多尺度提取特征,降低漏检率,明确滑坡体边界,以期准确、及时地检测滑坡体; 第二,引入DEM相关数据作为滑坡体分割的辅助信息,进一步提高分割精度。
1 数据源与数据预处理
1.1 数据源
研究所需数据源来自于LandSlide4Sense数据集,通过Landslide4sense官网下载(
1.2 数据预处理
官方一共提供了3 799张滑坡遥感影像。按6: 3: 1的比例划分为训练集、验证集和测试集。同时为了减少样本数量不平衡对模型性能带来的影像,采用数据增强的方法,增加正样本的权重,对遥感图像进行随机裁剪、翻转的操作,丰富数据多样性,从而提高模型的泛化能力。数据示例见图1。
图1
2 研究方法
为了精确且快速地提取滑坡体,本文构建了CNN与SETR融合的新模型。同时滑坡的发生通常与地形因素密切相关,本文对设计的模型精度评价后,基于滑坡体检测性能更优的模型,引入DEM数据进一步提升模型检测效果。最终通过准确率、召回率和F1分数作为评价指标,并最终对模型输出结果进行评估。实验流程图如图2所示。
图2
2.1 经典语义分割方法
近几年,计算机视觉领域中语义分割技术已经得到成熟运用,如FCN,U-Net和Deeplabv3+等。
FCN是一种全卷积神经网络,由编码器和解码器组成,采用逐点相加的方式,将编码器中不同层的特征图与解码器中相应层的特征图进行连接,用于端到端的像素级语义分割任务。
U-Net模型具有“U”型结构和跳跃连接,用于高效地处理图像分割任务,它同样采用了编码器和解码器结构,但跳跃连接的方式是将特征在通道维度进行拼接,从而形成更加丰富的特征信息,并保证了各个尺度上特征的权重。
在Deeplabv3+模型中利用空洞卷积和多尺度特征融合技术,通过将多个不同空洞率的空洞卷积的特征图融合在一起,从而在不同尺度上进行特征提取,来实现精细的图像语义分割。
FCN,U-Net和Deeplabv3+都是基于CNN结构的语义分割模型,可以有效地捕捉图像中的局部特征,对滑坡边界的判定更加精确。但由于受到卷积核感受野的范围较小,CNN网络无法在全局信息上建立特征依赖。同时太深的网络结构可能会导致模型在训练过程中的梯度消失。
2.2 融合CNN与SETR的语义分割方法
SETR是基于Transformer的语义分割模型。通过自注意力机制在特征图上建立全局依赖关系,有助于提高模型对特征图中复杂特征的学习能力。SETR结构如图3所示。
图3
将CNN与Transformer结合,可以在有效提取图像局部特征的同时,为图像中的所有特征建立全局依赖关系。从而提高模型对局部信息中细节的表达能力和对滑坡的识别能力。
本文利用CNN对边界判定更加精确的优点,同时结合Transformer在处理图像时捕获全局上下文关系的能力,创造出一个具有对滑坡体特征学习深刻,且对滑坡体边界判定精确的新模型。具体做法是: 在CNN模型的编码器架构部分融合SETR模型,并将最终的融合结果在解码器架构部分进行输出; 最终得到漏检率更低,且对边界的定位更加准确的模型。由于Transformer模型的复杂性和参数量较大,相对于传统的CNN模型,其训练时间可能有所加长。
U-Net与SETR,输入14通道的特征图,为了使模型提取到更多特征信息,首先将输入数据调整到64通道。将U-Net模型编码器中各个尺寸的特征图经过SETR模型建立特征的全局依赖关系,并将原始特征图和经过SETR融合的特征图以跳跃链接的方式与解码器中所对应的特征图融合。U-Net与SETR融合过程如图4所示。
图4
图5
FCN与SETR融合是将FCN下采样过程中各个尺寸的特征图,输入到SETR模型中。并在FCN上采样中各个尺寸的特征图与相对应的SETR输出的特征图融合。融合的过程如图6所示。
图6
2.3 DEM数据提取
滑坡的发生往往与地形信息密切相关,而DEM数据包含了各种地貌因子。在滑坡体检测中,融入DEM数据并加大DEM权重可以有效提高模型对滑坡检测的效果。本文将增大了DEM权重的数据输入到U-Net模型与融合了SETR的U-Net模型中。滑坡坡度数据和DEM提取流程图如图7所示。
图7
2.4 模型评价指标
采用F1分数来评价模型精度和性能。F1分数是统计学中用来衡量二分类模型精度的一种指标,它同时兼顾了分类模型的精确率和召回率。精确率、召回率以及F1分数表达式分别为:
式中:
3 结果与分析
3.1 检测结果定性分析
表1 实验结果对比图
Tab.1
遥感影像 | 真实标签 | U-Net | U-Net +SETR | Deeplabv3+ | Deeplabv3+ +SETR | FCN | FCN+SETR |
---|---|---|---|---|---|---|---|
![]() | |||||||
![]() | |||||||
![]() | |||||||
![]() |
表2 加大DEM权重实验结果对比图
Tab.2
遥感影像 | 真实标签 | U-Net+DEM | U-Net+DEM +SETR |
---|---|---|---|
![]() | |||
![]() | |||
![]() | |||
![]() |
模型性能与模型结构本身以及数据集有很大关系。在现实情况下正样本数量占比小,为了使模型达到理想效果,首先需要均衡正负样本数量,增加正样本的权重,以确保正负样本平衡。除了模型与数据本身之外,学习率以及模型的其他参数也可能会成为影响模型性能的关键。
为了尽快达到理想效果,首先采用较大的学习率,当模型性能遭遇瓶颈时,使用预训练方法改小模型学习率。
3.2 检测结果定量分析
表3为CNN模型融合SETR前后的模型性能对比。FCN融合SETR后召回率从68.83%降低至65.13%,准确率从65.75%提高到72.65%,F1分数从0.672 6提高到0.686 9; U-Net融合SETR后召回率从68.47%提升到74.26%,准确率略有降低,从77.56%降低至74.34%,F1分数从0.727 3提高到0.743 0; Deeplabv3+融合SETR后,召回率从61.58%提高到66.13%,准确率从77.77%降低至75.60%,F1分数从0.687 3提高到0.705 5。融合后的模型虽准确率略有降低,但总体上召回率和F1分数得到大幅提升,召回率越高代表漏检率越低,更符合实际应用需求。
表3 CNN模型融合SETR性能对比
Tab.3
模型指标 | U-Net | U-Net+ SETR | Deep- labv3+ | Deeplabv3+ +SETR | FCN | FCN+ SETR |
---|---|---|---|---|---|---|
召回率/% | 68.47 | 74.26 | 61.58 | 66.13 | 68.83 | 65.13 |
准确率/% | 77.56 | 74.34 | 77.77 | 75.60 | 65.75 | 72.65 |
F1分数 | 0.727 3 | 0.743 0 | 0.687 3 | 0.705 5 | 0.672 6 | 0.686 9 |
F1提升/% | 2.16 | 2.65 | 2.13 |
以U-Net模型为基准,在加大DEM数据权重后,召回率为69.15%,准确率为77.88%,F1分数为0.732 5; 融合SETR后,召回率为75.34%,准确率为74.73%,F1分数为0.750 3。U-Net模型加大DEM权重性能对比如表4所示。
表4 U-Net模型加大DEM权重性能对比
Tab.4
模型指标 | U-Net | U-Net+ SETR | U-Net+ DEM | U-Net+ DEM+SETR |
---|---|---|---|---|
召回率/% | 68.47 | 74.26 | 69.15 | 75.34 |
准确率/% | 77.56 | 74.34 | 77.88 | 74.73 |
F1分数 | 0.727 3 | 0.743 0 | 0.732 5 | 0.750 3 |
F1提升/% | 2.16 | 2.43 |
以上结果表明,将CNN网络模型与SETR模型融合后,F1分数均有所提高。其中U-Net与Deeplabv3+在小幅损失准确率的前提下,提高了召回率,降低了模型漏检率; U-Net模型在加大DEM数据权重后,模型的召回率、准确率、F1分数均得到了提升。
3.3 多结构语义分割模型分析
CNN是一种分层的数据表示方式,高层的特征表示依赖于底层的特征表示,由浅入深逐步抽象地提取更具备高级语义信息的特征。将每一层学习到的特征连接到一起,从而最终形成强大的特征表现能力。此外,CNN通过共享卷积核来提取特征,这样一方面可以大大降低参数量来避免更多冗余的计算从而提高网络模型计算的效率,另一方面又结合卷积和池化使网络具备一定的平移不变性和平移等变性。拥有平移等变性,对于分割任务至关重要。
尽管CNN拥有诸多优势,但是通过不断的堆叠更深的卷积层,依然会造成模型臃肿以及计算量骤升等问题,这违背了深度学习的初衷。Transformer的优势在于利用注意力的方式来捕获全局的上下文信息从而对目标建立起远距离的依赖,从而提取出更强有力的特征。然而Transformer模型的训练需要大量数据集才得以呈现出理想的效果。因此在缺乏足够多的数据集的情况下,将CNN与Transformer结合或许可以达到更加理想的效果,实验的最终结果也证实了这一点。
4 结论
本文主要讨论了CNN模型在融合基于Transformer结构的SETR模型前后性能的对比。证明CNN模型在融合SETR模型后整体F1分数得到提升。虽然准确率略有降低,但召回率得到更大提升,从而降低了模型的漏检率,且对滑坡体边界的处理得到改善。
实验结果表明,CNN模型在融合了SETR后,不论是视觉效果还是模型评价指标,对滑坡检测的精度都得到提升。FCN模型在融合SETR后,F1分数从0.672 6提高到0.686 9; U-Net模型在融合SETR后,F1分数从0.727 3提高到0.743 0; Deeplabv3+模型在融合SETR后,F1分数从0.687 3提高到0.705 5; 以性能最好的U-Net为基准,在加大了DEM权重后,U-Net模型F1分数为0.732 5,融合SETR后,F1分数提高到0.750 3。
由于滑坡数据集的样本数量少,且滑坡形成的影响因素多。提高数据集样本数量、构建包含丰富特征信息的数据集,可以进一步提高滑坡检测精度。
参考文献
基于高分光学卫星影像的泸定地震型滑坡提取与分析
[J].
The extraction and analysis of Luding earthquake-induced landslide based on high-resolution optical satellite images
[J].
基于BP神经网络和决策树的昆明市东川区滑坡空间易发性评价
[J].
Spatial susceptibility evaluation of landslide in Dongchuan District of Kunming based on BP neural network and decision tree
[J].
一种适用于逻辑回归模型评价浅层滑坡易发性的网格尺度划分方法——以2019年福建省三明市群发浅层滑坡为例
[J].
A grid-scale division method applicable to logistic regression models for evaluating the susceptibility of shallow landslides: Taking the 2019 cluster of shallow landslides in Sanming,Fujian as example
[J].
支持向量机技术在遥感影像滑坡体提取中的应用
[J].
Application of supporting vector machine technology in extraction of remote sensing image of landslide
[J].
光学遥感图像滑坡检测研究进展
[J].
Research progress of landslide detection in optical remote sensing images
[J].
Landslide detection based on contour-based deep learning framework in case of national scale of Nepal in 2015
[J].
Landslide detection from an open satellite imagery and digital elevation model dataset using attention boosted convolutional neural networks
[J].
Research on post-earthquake landslide extraction algorithm based on improved U-net model
[J].
基于卷积神经网络的遥感影像及DEM滑坡识别——以黄土滑坡为例
[J].
Landslide identification using remote sensing images and DEM based on convolutional neural network:A case study of loess landslide
[J].
Fully convolutional networks for semantic segmentation
[C]//
Encoder-decoder with atrous separable convolution for semantic image segmentation
[C]//
基于高分辨率遥感影像和改进 U-Net 模型的滑坡提取——以汶川地区为例
[J].
Information extraction of landslide based on high resolution remote sensing images and an improved U-Net model:A case study of Wenchuan,Sichuan
[J].
An image is worth 16x16 words:Transformers for image recognition at scale
[J/OL].
End-to-end object detection with transformers
[C]//
Swin transformer:Hierarchical vision transformer using shifted windows
[J/OL].
SegFormer:Simple and efficient design for semantic segmentation with Transformers
[J/OL].
基于改进Swin Transformer的滑坡分割算法
[J].
Landslide segmentation algorithm based on improved Swin Transformer
[J].
Xception:Deep learning with depthwise separable convolutions
[C]//
/
〈 |
|
〉 |
