基于深度学习语义分割模型的高分辨率遥感图像水体提取

doi:10.6046/zrzyyg.2021357

基于深度学习语义分割模型的高分辨率遥感图像水体提取

沈骏翱^,¹, 马梦婷², 宋致远¹, 柳汀洲¹, 张微^,¹^,²

1．浙江大学软件学院,宁波 315048

2．浙江大学计算机科学与技术学院,杭州 310027

Water information extraction from high-resolution remote sensing images using the deep-learning based semantic segmentation model

SHEN Jun’ao^,¹, MA Mengting², SONG Zhiyuan¹, LIU Tingzhou¹, ZHANG Wei^,¹^,²

1. School of Software Technology, Zhejiang University, Ningbo 315048, China

2. School of Computer Science and Technology, Zhejiang University, Hangzhou 310027, China

通讯作者: 张微(1980-),男,博士,教授,博士生导师,研究方向为时空大数据。Email:cstzhangwei@zju.edu.cn。

收稿日期: 2021-10-25 修回日期: 2022-06-17

基金资助:

浙江省重点研发计划项目“基于大数据的时空信息平台系统建设”(2021C01031)
宁波市自然科学基金项目“基于时空大数据和AIoT技术的污泥专运溯源管理系统研发与应用”(2022S125)

Received: 2021-10-25 Revised: 2022-06-17

作者简介 About authors

沈骏翱(1997-),男,硕士研究生,研究方向为遥感影像深度学习分析。Email: 22051094@zju.edu.cn。

摘要

水体提取是高空间分辨率遥感影像应用中重要研究方向之一。传统识别方法仅利用水体的浅层特征,为了更好地挖掘遥感影像的深度信息,从而提升水体提取算法的鲁棒性,提高分割精度,提出了一种基于深度学习语义分割模型的水体提取方法。利用深度神经网络挖掘高分辨率遥感影像信息,同时引入注意力模块,整合深层信息与浅层地物的形状、结构、纹理和色调等信息,拟建立比现有模型具有更高准确率、更快预测速度的全新深度语义分割模型。最后,和传统识别方法以及常见语义分割模型进行对比消融实验。实验证明所提出算法模型的总体精度和效率均优于现有方法,且算法参数设置简单,受人工干预少。文章证明了深度学习以及注意力机制在高分辨率遥感影像水体提取任务上的准确性和高效性,提供了一种使用深度学习方法解决高分辨率遥感影像分割任务的可能,并对未来进行了展望。

关键词： 语义分割; 多尺度; 遥感影像; 全卷积网络; 注意力机制

Abstract

Water information extraction is an important study direction in the application of high spatial resolution remote sensing images. Conventional recognition methods only focus on the shallow features of water. Therefore, to further improve the robustness of water information extraction algorithms and increase the segmentation precision by extracting more deep information from remote sensing images, this study proposed a water classification method using the semantic segmentation model based on deep learning. First, deep neural networks were used to mine the information from high-resolution remote sensing images. Then, attention modules were used to integrate the deep information with the shallow features such as shape, structure, texture, and hue. Based on the integrated information, a new deep semantic segmentation model with higher precision and prediction efficiency than existent models was built. Finally, the ablation experiment was conducted to compare with conventional recognition methods and common semantic segmentation models. The experiment demonstrates that the proposed algorithm model yields higher overall precision and efficiency than previous methods and that the algorithm parameters are easy to set and less human intervention is required in the model. This study proved the accuracy and efficiency of deep learning and attention mechanism on water information extraction from high-resolution remote sensing images. Moreover, this study provided a possible solution for the segmentation of high-resolution remote sensing images using the deep learning method and explored the future prospect of the solution.

Keywords： semantic segmentation; multi-scale; remote sensing image; full convolutional network; attention mechanism

PDF (5353KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

沈骏翱, 马梦婷, 宋致远, 柳汀洲, 张微. 基于深度学习语义分割模型的高分辨率遥感图像水体提取[J]. 自然资源遥感, 2022, 34(4): 129-135 doi:10.6046/zrzyyg.2021357

SHEN Jun’ao, MA Mengting, SONG Zhiyuan, LIU Tingzhou, ZHANG Wei. Water information extraction from high-resolution remote sensing images using the deep-learning based semantic segmentation model[J]. Remote Sensing for Land & Resources, 2022, 34(4): 129-135 doi:10.6046/zrzyyg.2021357

0 引言

自1999年美国洛克希德·马丁公司发射空间分辨率为1 m的IKONOS卫星遥感影像之后,国际上正式开始进入了高分辨率遥感影像处理、分析与应用的时代。如何依据获取的高分辨率遥感影像中包含的光谱信息以及空间信息提取出各种需要的地物信息,即如何高效、准确地利用原始遥感影像获取需要的地理信息,是高分辨率遥感影像应用的核心环节之一^[1-2]。同时,水资源作为地球上最重要的资源之一,是一切人类与生物得以生存和发展的重要物质基础,从高分辨率遥感影像中进行水体提取便于了解现有的水资源概况,有助于对水资源更加合理的规划和治理,提高水资源的利用效率,对人类生活及社会活动具有重大影响。

近20 a来,遥感影像处理专家也发展出了许多基于像元的传统提取方法,Work等^[3]通过研究MSS影像发现水体在近红外波段上的反射率较低,利用这一特性人为的设定一个较小的阈值来进行水陆分离,被称为单波段方法。多波段方法是Frazier等^[4]在研究澳大利亚湖泊时使用TM影像对比分析了TM4,TM5,TM7这3个波段的提取效果,并利用多波段融合的方法通过设置不同阈值提高了分割精确度,但依旧受到噪声的干扰。近期,被广泛认可的水体指数方法,是由McFeeters^[5]受到归一化差异植被指数(normalized difference vegetation index,NDVI)的启发,总结并提出了基于绿光波段与近红外波段的归一化差异水体指数(normalized difference water index,NDWI)^[6],可有效减少噪声和阴影。其后由Xu^[7]在考量建筑物与土壤的波段特性后进行了优化,将近红外波段改为中红外波段,并命名为MNDWI,消除了大部分噪声的影响,但人为观测设定的阈值依旧存在缺陷,因此在地物信息复杂的实际应用中提取精确度并不高。

近些年,随着人工智能算法的发展,深度学习为计算机视觉和图像识别等领域带来了猛烈冲击,其目标分类与识别和追踪技术甚至能与人类识别性能相媲美^[8⇓-10]。在Long等^[11]提出了全卷积神经网络(fully convolutional networks,FCN)结构后,卷积神经网络分类任务正式进入到像素级别,拓展到语义分割领域。当然就高分辨率遥感影像分割而言,由于其地表目标具有尺度效应,综合高分辨率遥感影像具有丰富的纹理结构信息,需要多尺度图像的分割方法,但从低层次特征到高层次语义鸿沟,实现高分辨率遥感影像语义分割依旧是具有挑战的问题。近期,基于机器学习的遥感影像水体提取任务也开始受到了关注,许玥^[12]在传统U-Net深度学习网络上加入条件随机场对水体变迁进行预测。但是目前的方法仅仅使用深度学习进行深层数据的挖掘而无法解释深层特征对于最终结果判断的影响,引入注意力机制可以在结合深层和浅层特征的同时提供更好的可解释性。

注意力机制作为最简便有效的即插即用模块,在传统计算机视觉任务中广泛使用,近段时间,遥感影像领域的各种任务中也开始广泛融入注意力机制, Ying等^[13]在2019年提出了在对地目标检测任务中引入多头注意力机制与特征金字塔结合,有效提升了深度学习网络关注目标浅层特征中提取出重要的空间位置信息; He等^[14]在2020年也为城市建筑物语义分割任务设计了一种多阶注意力机制,充分利用中间特征之间的相关性,从而获得更强大、更具有代表性的特征。

因此,本文将研究基于深度学习的高分辨率遥感影像中水体的语义分割。利用深度学习强大的特征表达能力,尝试构造从底层特征到对象语义的映射,同时考虑多尺度特征的监测问题,并适时地引入注意力机制,提升对于中间特征的通道方向以及空间区域上重要区域的关注度,在重要的通道与空间区域块上将会提高响应值,通过激活模块后重要部分对于最终水体分类的影响将提高,弥补纯卷积神经网络无法关注到细节区域分类的缺陷,提高语义分割时关注原始信息中重要部分的可能性。

1 数据集预处理与标注

本实验数据集使用高分六号(GF-6)遥感卫星获取长江三角洲某地区包含水体的4个波段(红光波段、绿光波段、蓝光波段、红外波段)影像,由于目前深度学习卷积网络模型一般只使用三通道图像进行语义分割,因此首先使用eCognition软件对原始遥感影像进行合并,然后根据遥感影像特点,以及后续使用传统指数方法提取水体信息(NDWI)时需要使用红外波段(IR),生成22 953像素×17 605像素大小的IRRG(红外波段、红光波段、绿光波段)PNG三通道图像进行存储。由于遥感影像传感器原因,使用Python对影像进行预处理,减少噪声对语义分割模型识别造成的影响,最终得到完成几何纠正的影像。

本次研究使用eCognition软件对遥感影像进行水陆标注,这是一种基于目标对象的分类方法,因其能够充分利用遥感影像的光谱、纹理、形状、空间信息和相邻关系等特征进行分割分类,所以精度相对较高,能够接近于人工目视解释的精确度(通常情况下语义分割将目视解释图像作为分割的标准影像)。使用eCognition软件选取合适的分割尺度对影像进行分割,使检测的地物能在最合适的分割尺度中突显出来; 选取分割对象的多种典型特征建立地物的分类规则进行检测或分类本文根据不同影像的特征使用不同的尺度参数和形状参数对地物信息进行分割。最终得到如图1所示的标注图像。水体提取语义分割任务作为二分类问题,标注结果(Ground truth)最终转换成灰度图,将背景的颜色通道设置为0,而水体部分设置为1。

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 最终遥感影像标注图局部

Fig.1 Local image of final remote sensing image annotation

2 研究方法

2.1 注意力模块

2.1.1 通道级联空间注意力模型概述

注意力模块目前已经成为了深度学习处理中重要的概念,最初被用于机器翻译,最终在深度学习领域中的自然语言处理、计算机视觉以及图神经网络被广泛使用^[15]。

本文尝试将注意力机制引入到遥感影像语义处理中的解码部分,应用于卷积神经网络的注意力模块主要包含通道注意力(channel attention)以及空间注意力(spatial attention)2部分,将这2类注意力处理方法级联形成新的注意力模块,并将其命名为S&CMNet。遥感影像通过主干网络特征提取映射后输入到通道注意力模块,在通道上提升网络对特定通道关注度,对通道特征进行细化。将细化后的通道特征图输入到空间注意模块中,同时空间域上学习关注点,提取重要局部信息。最后通过大量卷积层及池化层后最终连接SoftMax分类器得到语义分割结果。

2.1.2 特征提取结构

研究过程中对于编码器部分的特征提取骨干网络主要是使用了目前在计算机视觉领域以及语义分割领域取得较好效果的ResNet101和U-Net。本次研究对于ResNet101进行了一定改进,使用了空洞卷积操作,最终得到原图像1/8大小的特征映射图。在特征提取最后一层中并不直接进行语义推理,而是将最后一层特征图输入注意模块进行特征细化,从而更好地学习特征表达。图2为S&CMNet概览图,图中C,H,W分别代表特征图通道数、高度与宽度。

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 S&CMNet概览图

Fig.2 S&CMNet overview map

2.2 混合注意力模块

2.2.1 通道注意力模块

高分遥感影像输入特征提取骨干网络通过C核卷积操作之后得到多通道特征图 $F \in R^{C \times H \times W}$ 作为通道注意力模块的输入数据。通道的特征表示该图像在不同卷积核上的分量,通道信息表示关键信息的贡献多少。

通道注意力模块的目的是利用每个信道之间的关系特征映射学习一个权值 $W_{c} \in R^{C \times 1 \times 1}$ 。整体过程可以分为压缩(Squeeze)、激活(Excitation)以及注意(Attention)3部分。

1)Squeeze模块目的为降低每个通道的信息维度,聚合空间维度信息。池化操作,见式(1)和(2),为每个通道生成2个特征描述符,输入含有隐层的1×1卷积核组成的多层感知器,生成更具有代表性的特征向量,即

(1)

Z_{c 1} = F_{s q} (u_{c}) = \frac{1}{H W} \overset{H}{\sum_{i = 1}} \overset{W}{\sum_{j = 1}} u_{c} (i, j)

(2)

Z_{c 2} = F_{s q} (u_{c}) = m a x [\overset{H}{\sum_{i = 1}} \overset{W}{\sum_{j = 1}} u_{c} (i, j)]

式中: Z_c1为平均上采样之后生成的更具代表性的通道特征向量; Z_c2为最大上采样之后生成的更具代表性的通道特征向量; F_sq为上采样函数; u_c为输入通道注意力模块的特征图。

2)Excitation模块主要是通过利用Sigmoid函数,对于Squeeze模块得到的特征进行激活,得到最终的通道注意图。公式为:

(3)

W_{c} = S i g m o i d [M L P (Z_{c 1}) + M L P (Z_{c 2})]

式中: W_c为生成的特征权重; Sigmoid为激活函数; MLP为多层感知机组成的线性分类层。

3)Attention模块将最后生成的特征权重与输入的特征图向量相乘,本质上是缩放的过程,从而增强对关键通道的注意力。计算公式为:

(4)

{\tilde{u}}_{c} = F_{s c a l e} (u_{c}, W_{c}) = u_{c} \cdot W_{c}

式中: F_scale为缩放及特征权重融合函数; ${\tilde{u}}_{c}$ 为最终输出特征图。

2.2.2 空间注意力模块

空间域注意力模块关注的是对当前任务更具有价值的空间区域,级联在通道注意力模块之后,是对通道注意力的补充。以遥感影像为例,使用空间注意力模块有助于聚合空间信息,特别是对小型地物信息进行处理。

空间注意力模块以通道注意力模块输出的特征图 ${\tilde{u}}_{c}$ 为输入,利用不同空间位置之间的关系来学习一个二维空间权重 $W_{s}$ ,将学习得到的权重值乘以相应的空间位置学习更具代表性的特征。空间权重学习过程类似于通道学习过程,由3部分组成。其中,Squeeze模块公式为:

(5)

Z_{s 1} = F_{s q} ({\tilde{u}}_{c}) = \frac{1}{C} \overset{C}{\sum_{i = 1}} {\tilde{u}}_{c} (i)

(6)

Z_{s 2} = F_{s q} ({\tilde{u}}_{c}) = m a x [\overset{C}{\sum_{i = 1}} {\tilde{u}}_{c} (i)]

式中: Z_s₁为平均上采样之后生成的更具代表性的空间特征向量; Z_s2为最大上采样之后生成的更具代表性的空间特征向量。

Excitation模块公式为:

(7)

M_{s} = f^{7 \times 7} [(Z_{s 1}); (Z_{s 2})]

式中: M_s为经过卷积融合后的通道特征; $f^{7 \times 7} (;)$ 为合并特征向量后经过7×7卷积网络。

Attention模块公式为:

(8)

U = F_{s c a l e} ({\tilde{u}}_{c}, W_{s}) = {\tilde{u}}_{c} \cdot s i g m o i d (M_{s})

式中U为通过所有注意力模块后最终得到的特征图。

S&CMNet模型的混合注意力模块部分参数量非常少,可以忽略,空间注意力模块的参数个数甚至只有98个。除此之外本次实验只在特征提取主干网络的末端层增加了注意模块,因此仅为网络少量增加了计算的复杂度^[16]。

2.3 实验流程

为了评估所使用的不同模型方法之间的性能,引入语义分割较为常见的语义分割准确率指标,包括平均交叉合并比(mean intersection over union,mIoU)、F1-Score和像素准确率(pixel accuracy,PA)以及一个图像预测速度指标TIME^[17]。

考虑到实验过程中,同时将标记数据集按照7:2:1的比例分为3部分,其中70%的数据用于模型训练,20%的数据用于观察模型效果,10%数据用于最终模型图像预测,验证模型效果。

使用NDWI作为传统方法的对比基线,实验过程使用ENVI 5.3软件在i7-9750H CPU以及NVIDIA 1660 TI GPU设备上进行,阈值设定范围为0.2~1.0之间为水体。基于深度学习模型学习过程,为防止U-Net模型编码器结构以及ResNet101主干网络对于实验的影响,从头开始训练U-Net,SegNet,PSPNet以及DeepLabV3+模型^[18⇓-20],用以进行消融对比试验。S&CMNet模块实验部分,通过实验优选,分别选择ResNet101和U-Net编码器为特征提取主干训练,并分别命名为S&CMNet V1和S&CMNet V2,模型架构如图3所示。网络均未单独设置学习率,使用默认的1e-3,采用Adam作为优化器,进行自适应性的学习率更新方法,交叉熵作为损失函数,考虑到二分类语义分割任务训练轮次过多会造成过拟合现象,因此模型训练轮次初始设定均为100轮。同时将U-Net相关网络批次、大小(Batch Size)设置为4,将其他Batch设置为8。所有深度网络模型均在Pytorch平台上实现,用NVIDIA 2080Ti GPU来进行实验^[8]。

图3

新窗口打开| 下载原图ZIP| 生成PPT

图3 S&CMNet V2网络模型

Fig.3 S&CMNet V2 network model

3 实验结果分析

表1列出了本文模型在所设计数据集上的分割结果,其中100^-1表示预测每一百张512×512大小的图需要花费的时间。从表1中实验结果可以看出,与传统遥感图像水体检测方法NDWI相比,使用神经网络的方法在3个评价指标上都取得了更高的检测精度,在3个评价指标上平均增加了23.98,46.06和41.73百分点,证明了深度学习算法在遥感影像的语义分割方面具有可靠性和有效性; 另外,对于S&CMNet V2,在mIoU和F1-Score上比同时将VGG网络作为主干网络的U-Net和SegNet分别增加了1.49,0.93和1.97,1.21百分点,这说明混合注意力模块能够捕获有意义的通道特征信息以及聚合更多的位置信息; 最后,对于S&CMNet V1,预测时间为190.66 s,是所有语义分割模型中耗时最少的,这在需要应用于实时语义分割场景任务有显著优势。

表1 S&CMNet模型语义精度

Tab.1 S&CMNet model semantic accuracy

模型名称	PA/%	mIoU/%	F1- Score/%	TIME/ (s·100^-1)
NDWI	67.52	41.48	51.30	—
U-Net	90.43	88.33	93.50	252.25
SegNet	93.04	87.85	93.22	419.03
S&CMNet V2	92.66	89.82	94.43	291.31
PSPNet	88.64	86.07	92.16	223.62
DeeplabV3+	92.83	88.09	93.38	239.88
S&CMNet V1	91.37	85.09	91.51	190.66

新窗口打开| 下载CSV

为了进一步展示分割结果,分别进行了3次消融实验,同时选取了3张不同区域的图像进行可视化处理,表2展示了与传统方法NDWI相比,深度学习分割模型如U-Net等能够得到具有更为连贯和准确的分割图,同时可以看出对于红外波段反射不敏感的区域NDWI并不能做出良好判断,而通过深度神经网络进行特征提取后则对不同空间域大小的水体都有较好的表现。

表2 NDWI分割方法与U-Net语义分割方法的分割结果

Tab.2 Segmentation results of NDWI and U-Net semantic segmentation methods

新窗口打开| 下载CSV

为了从现有深度语义分割模型中寻找能够更好适应水体提取任务的基线网络,本文进行了大量实验,表3展示了现有深度分割模型之间的对比结果,从网络模型的角度出发,SegNet模型中使用的解码器结构使最终的分割影像中出现了大量噪声,而U-Net更好地避免了这种情况; 另外DeeplabV3+和PSPNet的结果是对相当于原图1/8的特征图进行下采样从而使结果会存在少许边缘模糊的情况,但是由于是以ResNet101为主干网络,其在多层语义特征表述上有着更好的效果。结合表3得出的结论,将ResNet101与U-Net的特征提取网络作为主干网络,在此基础上引入混合注意力模块得到模型S&CMNet V1以及S&CMNet V2,表4展示了2个模型的可视化结果,可以看出S&CMNet模型均有较好的表现,同时在细小河流区域展现出了更为准确的分割结果。

表3 基于ResNet101的语义分割网络的分割结果与先前实验结果之间对比

Tab.3 Segmentation results of based ResNet101 segmentation network compared with the previous experimental results

数据序号	原始图像	真值		U-Net		SegNet		PSPNet		DeeplabV3+
1
2
3

新窗口打开| 下载CSV

表4 S&CMNet网络模型的分割结果

Tab.4 Segmentation results of the S&CMNet network model

新窗口打开| 下载CSV

4 结论

本文提出了一种新的深度分割模型S&CMNet用于高分辨率遥感图像水体提取任务。通过实验评估,证明了本文模型能够显著提高水体检测性能,并具有高效的推理速度,且在GPU上实时运行速度快。

本文方法依旧存在一些需要解决的问题,本文只引入了2个较为简单的通道注意力和空间注意力,性能提升有限,但同时也证明了注意力机制在遥感影像语义分割中的可行性。目前兴起于自然语言处理技术的Transformer注意力模块快速发展,为语义分割领域提供更多可行性。高分辨率遥感影像包含了丰富地物信息以及影像普遍连续性等特点,似乎更加适合将传统的端到端训练过程用序列到序列的预测任务来提供替代视角。如何针对高分遥感影像设计更好的深度学习网络结构,从而更好地解决遥感应用领域中的诸多问题,需要计算机视觉、遥感科学等众多领域研究者的共同努力。

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

方涛, 霍宏, 马贺平.

高分辨率遥感影像智能解译[M]. 北京: 科学出版社, 2016:18-25.