自然资源遥感, 2025, 37(6): 77-87 doi: 10.6046/zrzyyg.2024242

技术方法

DN-Net:密集嵌套网络的遥感建筑物提取

刘毅,, 刘涛, 高天迎,, 李国燕

天津城建大学计算机与信息工程学院,天津 300384

DN-NET: A densely nested network for building extraction from remote sensing images

LIU Yi,, LIU Tao, GAO Tianying,, LI Guoyan

School of Computer and Information Engineering, Tianjin Chengjian University, Tianjin 300384, China

通讯作者: 高天迎(1977-),男,硕士,讲师,主要从事软件工程、编程语言与程序分析。Email:gty@tcu.edu.cn

责任编辑: 张仙

收稿日期: 2024-07-15   修回日期: 2024-12-17  

基金资助: 国家自然科学基金项目“基于MRE支座的软土场地结构智能隔震理论与方法研究”(52178295)
2022年天津市研究生科研创新项目“基于深度学习的遥感图像道路分割算法研究”(2022SKYZ335)

Received: 2024-07-15   Revised: 2024-12-17  

作者简介 About authors

刘毅(1969-),男,博士,教授,主要从事计算机控制与网络通信的研究。Email: lgliuyi@163.com

摘要

建筑物提取的目的是从遥感图像中分割出建筑物像素,在城市规划、城市动态监测等应用中起着至关重要的作用。针对遥感建筑物提取时出现空洞、误检和漏检等问题,提出一种密集嵌套网络(densely nested network,DN-Net)。DN-Net中子网络结合改进残差卷积模块将遥感建筑物进行粗略轮廓提取; 为精准定位建筑物的位置,引入坐标注意力模块(coordinate attention module,CAM),有效减少误检现象; 为了解决遥感建筑物提取时出现空洞现象,采取级联卷积模块(cascade convolutional module,CCM),凭借不同的大小的卷积核提取更丰富的细节信息,从而精准提取遥感建筑物。选取WHU数据集进行了试验和精度评估,在WHU的验证集上,交并比和F1分数分别达到了89.20%和94.29%; 在测试集上,分别为89.85%和94.65%。结果表明: DN-Net显著提升建筑物提取精度,使得提取出的建筑物的边界更加完整和精细,表现出对不同大小建筑物的良好提取能力。

关键词: 建筑物提取; 改进残差卷积模块; 坐标注意力模块; 级联卷积模块

Abstract

Building extraction aims to separate building pixels from remote sensing images, which plays a crucial role in applications such as urban planning and urban dynamic monitoring. However, building extraction generally faces challenges, such as void, false positives, and false negatives. Given this, this paper proposed a densely nested network (DN-Net). The sub-networks in the DN-Net were integrated with the enhanced residual convolutional module (ERCM) to extract rough contours of buildings from remote sensing images. Furthermore, to accurately locate the buildings, a coordinate attention module (CAM) was incorporated, effectively avoiding false positives. To deal with the holes during building extraction, a cascade convolutional module (CCM) was used, allowing the extraction of richer details with convolution kernels of various sizes, thereby ensuring accurate building extraction. The DN-Net was tested with the WHU datasets to assess its accuracy. The results showed that the DN-Net exhibited an intersection over union (IoU) of 89.20% and a F1 score of 94.29% on the validation set and 89.85% and 94.65%, respectively, on the test set. The results confirm that the DN-Net can significantly improve the building extraction accuracy, with more complete and detailed boundaries of buildings being extracted, demonstrating an outstanding ability to extract buildings of varying sizes.

Keywords: building extraction; enhanced residual convolutional module (ERCM); coordinate attention module (CAM); cascade convolutional module (CCM)

PDF (6827KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

刘毅, 刘涛, 高天迎, 李国燕. DN-Net:密集嵌套网络的遥感建筑物提取[J]. 自然资源遥感, 2025, 37(6): 77-87 doi:10.6046/zrzyyg.2024242

LIU Yi, LIU Tao, GAO Tianying, LI Guoyan. DN-NET: A densely nested network for building extraction from remote sensing images[J]. Remote Sensing for Land & Resources, 2025, 37(6): 77-87 doi:10.6046/zrzyyg.2024242

0 引言

高分辨率遥感影像在现代智慧城市中扮演着重要角色,其应用广泛且多样化,其中遥感建筑物提取是其最为重要的应用之一[1]。该技术旨在从城市环境的影像中准确提取出建筑物的轮廓,这一过程可以被视为像素级分类问题,同时也是计算机视觉领域中的语义分割任务。遥感图像的语义分割具有重要意义,广泛应用于海陆分割[2]、土地覆盖分类等遥感领域研究。随着遥感传感器的更新迭代,地面采样距离逐渐增加,人们可获取更多高质量、高分辨率的遥感影像。然而,影像分辨率的提升也带来了更多土地覆盖信息和复杂的环境背景,增加了在城市区域进行建筑物语义分割任务的难度。然而,传统方法在很大程度上依赖于手工设计的特征,难以应对大规模数据集,也无法满足当今实际应用的需求。

近年来,卷积神经网络(convolutional neural network,CNN)在语义分割任务中取得了突破性进展,其在特征提取方面的卓越能力使得模型能够更好地理解图像中的语义信息,从而提高了分割的准确性和效率。Shelhamer等[3]通过将CNN转换为全卷积网络(fully convolutional network,FCN),利用多尺度特征融合方案,显著提高了像素级分类任务的性能。受Ronneberger等[4]的启发,研究者在分割任务中广泛使用编码器-解码器架构,如SegNet[5],DeconNet[6]和U-Net[4]等均因在分割任务中的有效性而被广泛采用。此类模型设计用于捕获图像的语义信息,并将其精确映射回原始图像大小,以实现精确的分割。为了进一步提高分割的准确性和效率,DeepLab系列[7-9]通过引入上下文模块和后处理技术,如密集条件随机场(dense conditional random field,Dense-CRF)和空洞空间金字塔池化(atrous spatial pyramid pooling,ASPP)来优化性能。针对模型通常需要较高的计算成本和训练时间长的问题,学者开始探索更轻量、高效的网络架构,如ENet[10],ERFNet[11]和ESFNet[12],它们在保持高精度的前提下降低模型的复杂度。尽管已有的模型在建筑物分割性能上取得了进步,但仍存在挑战。例如,UNet++[13]和UNet3+[14]虽然相比原U-Net有所改进,但在处理大尺寸对象或复杂空间关系时分割性能仍有限。Liu等[15]构建了Swin Transformer,在图像分类和密集预测任务中展示了巨大的潜力。值得注意的是,尽管Transformer可以有效地捕获全局特征的长距离依赖性关系,但局部特征信息经常被忽视。此外,对于边缘像素特征不足的问题,IEU-Net[16]和LinKnet[17]等模型提出了新颖特征融合方法,但对于微小型建筑物的提取效果仍然不佳。针对这些问题,Dilated-UNet[18]通过在U-Net的基础上加入空洞卷积模块,旨在增强模型对建筑物边缘的识别能力,从而提高分割的准确率。而Res_ASPP_UNet+++[19]利用深度残差网络和多尺度特征融合的策略,以弥补传统U-Net结构在处理遥感建筑物分割时的不足,但是在大型建筑物分割过程中存在空洞的问题。最新的研究中提出了一种基于注意力机制和DeepLabv3+的建筑物提取网络[20],结合通道注意力模块和空间注意力模块对特征图进行多尺度处理实现对建筑物分割精度的有效提升,但仍有进步的空间。

鉴于小型建筑物的提取效果不佳和大型建筑物出现空洞等问题,本文提出了一种密集嵌套网络(densely nested network,DN-Net),旨在全方位地捕捉特征信息。DN-Net首先采用改进残差卷积对建筑物进行初步提取,实现了对其轮廓的粗略识别; 接着,通过引入坐标注意力模块(coordinate attention module,CAM),精确定位遥感图像中的建筑物位置; 此外,利用级联卷积模块(cascade convolutional module,CCM)提取丰富的特征信息,使得轮廓更加清晰与准确; 为了进一步降低误检率,DN-Net在4个内部编码器及一个解码器分支的输出中加入了损失函数,以实施深度监督训练,这不仅有助于捕获粗粒度的语义信息和细粒度的空间信息,还可以通过模型修剪来提升遥感建筑物分割的准确度。

1 DN-Net网络

DN-Net的结构如图1所示,图中XEnXDe分别为编码器和解码器; XIn为融合的特征图。以遥感图像作为输入,选取密集嵌套结构为主干结构。密集嵌套结构内部是由多个注意力块层组成的,每个注意力块层中依次执行粗略特征提取(改进残差卷积)、遥感建筑精准定位(CAM模块)和细化遥感建筑物的边界(CCM模块),最终生成检测结果。模型训练采用监督学习方法,以提高遥感建筑物提取的精确度。

图1

图1   DN-Net网络模型

Fig.1   DN-Net network model


DN-Net融合了密集跳跃连接和全尺度跳跃连接,旨在充分捕获不同尺度的语义信息,以生成更精确的分割结果。跳跃连接在提升深度神经网络性能方面起至关重要作用。密集跳跃连接使得同一层级的特征能够相互融合,而全尺度跳跃连接则通过连接浅层特征与深层特征,不仅保留了底层特征,还避免了随着网络深度增加导致的性能衰减。遥感建筑物背景比较复杂,凭借层级式模块堆叠策略实现多尺度特征提取,增强对遥感建筑物信息的捕捉能力。该网络架构包含堆叠的注意力块层,每个块层级致力于实现更为精细的特征提取。堆叠的注意力块层包含了改进残差卷积模块、CAM模块以及CCM模块等关键组件。改进残差卷积自适应地细化特征,提高模型的表征能力; CAM则精确捕捉遥感建筑物的位置特征,增强模型对位置信息的敏感性; CCM通过其结构设计,增强了模型捕捉多尺度特征的能力。

模型的编码器节点位于第一列,标记为${X}_{\mathrm{E}\mathrm{n}}^{i,0},i\in [\mathrm{0,1},\mathrm{2,3},4]$。网络模型的注意力块层从2个方面进行计算: 一方面,通过密集跳跃连接(互连)、普通跳跃连接和上下采样获取同一层级、不同层级特征信息; 另一方面,较小尺度层级的高级语义信息通过全尺度跳跃连接传递至后续层级。模型的最终输出是解码器${X}_{\mathrm{D}\mathrm{e}}^{\mathrm{0,5}}$(通过9个特征图的通道连接和注意力块层操作得到的)。在语义层面上密集跳跃连接增强了编码器和解码器之间的特征相似性。

堆叠的注意力块层形成独立特征提取子网络。以注意力块层${X}_{\mathrm{I}\mathrm{n}}^{\mathrm{1,1}}$为例介绍这种结构,如图2所示。${X}_{\mathrm{E}\mathrm{n}}^{\mathrm{2,0}}$通过上采样层传输到${X}_{\mathrm{I}\mathrm{n}}^{\mathrm{1,1}}$,${X}_{\mathrm{I}\mathrm{n}}^{\mathrm{0,1}}$通过下采样层传输到${X}_{\mathrm{I}\mathrm{n}}^{\mathrm{1,1}}$,${X}_{\mathrm{E}\mathrm{n}}^{\mathrm{1,0}}$通过普通跳跃连接传输到${X}_{\mathrm{I}\mathrm{n}}^{\mathrm{1,1}}$。公式为:

${X}_{\mathrm{I}\mathrm{n}}^{\mathrm{1,1}}=[{X}_{\mathrm{E}\mathrm{n}}^{\mathrm{1,0}},{P}_{\mathrm{m}\mathrm{a}\mathrm{x}}({X}_{\mathrm{I}\mathrm{n}}^{\mathrm{0,1}}),U({X}_{\mathrm{E}\mathrm{n}}^{\mathrm{2,0}}\left)\right]$

式中: ${X}_{\mathrm{I}\mathrm{n}}^{\mathrm{1,1}}$为融合的特征图; U()为上采样层; Pmax为最大池化下采样; [,]为级联层。

图2

图2   子模块处理过程

Fig.2   Processing process of sub module


注意力块层的交互如图2所示。在多层特征融合后通过CAM和CCM进行特征增强,来自注意力块层X的特征映射由CAM和CCM处理,处理过程可以总结为:

${X}_{\mathrm{I}\mathrm{n}}^{\mathrm{1,1}}=sigmoid\left(CCM\right({X}_{\mathrm{I}\mathrm{n}}^{\mathrm{1,1}}\left)\right)\times CAM\left({X}_{\mathrm{I}\mathrm{n}}^{\mathrm{1,1}}\right)$

1.1 改进残差卷积块

本文提出了一种改进的残差卷积块。该模块首先将输入特征映射x(H×W×Cin)通过3×3卷积(Conv)、归一化(BN)和激活函数(relu)转换为中间特征映射U1(x),并将其通道数转换为Cout,从而实现局部特征提取。这一过程由3×3卷积层完成。随后,中间特征映射U1(x)作为输入,以学习和提取到上下文信息U2(U1(x))。

为了更清晰地说明本文的设计,将卷积块Block1、原始残差块Block2与改进残差块Block3进行了比较(图3)。在传统的卷积块中,操作可以概括为G(x)=U2(U1(x)); 在原始的残差块中,操作可以概括为G(x)=U2(U1(x))+x,其中G(x)代表对输入特征x的期望映射,而U1(x)和U2(x)分别代表2个权重层。主要设计改进在于: 用经过3×3卷积层权重层变换的局部特征U1(x)替换了原始特征,即G(x)=U2(U1(x))+U1(x))。此设计有效地利用上下文信息,以提高特征提取的准确性。

图3

图3   改进残差卷积块

Fig.3   Differential convolutional block


1.2 CAM模块

在遥感图像处理领域,准确地捕捉建筑物的位置、形状和大小至关重要。为了更有效地整合这些空间信息,引入了CAM,模块结构如图4所示。

图4

图4   CAM模块

Fig.4   Coordinate attention module


该模块可有效学习到建筑物位置信息,从而提高遥感建筑物位置准确性。具体而言,传统的全局池化操作在处理位置信息时往往会损失大量空间细节,摒弃全局平均池化。基于此将全局池化分解为2个一维池化操作,公式为:

$X\left(h\right)=\frac{1}{W}\stackrel{W-1}{\sum _{i=0}}{x}_{}(h,i)$
$Y\left(w\right)=\frac{1}{H}\stackrel{H-1}{\sum _{j=0}}y(j,w)$

这种分解不仅有助于更好地捕获通道间的信息,而且显著提高了模型对位置和方向的感知能力。CAM能够保留更多的空间信息,从而支持更精准的远程空间交互。CAM显著增强了模型对遥感图像中建筑物特定位置的识别能力,有效地支持了复杂地理环境中建筑物的精确定位。

完成特征图的变换后进行特征拼接操作。在实施特征融合过程中,采用了拼接(Concat)操作将不同卷积层产生的特征图进行组合。将特征图通过1×1卷积(1×1Conv)进行降维,得到降维后的特征图Z∈R(C/r)×(H+W)×1,接下来,特征图被送入分割操作中,分割为Zh∈R(C/rH×1Zw∈R(C/rW×1,每组均通过1×1卷积进一步进行特征转换。转换后的特征图再通过sigmoid函数激活,以得到在特定维度上重要性的调制特征Sh∈RC×H×1Sw∈RC×1×W。通过精细的特征重构与整合方法,有效地捕获并强化对关键信息的表征,从而提高特征的表达能力,增强对建筑物等关键信息的提取。最后,CAM模块的输出公式可写为:

${y}_{}=x\times {S}_{h}\times {S}_{w}$

1.3 CCM模块

CCM模块如图5所示,旨在提升对于复杂遥感图像特征提取的能力。CCM由多个卷积层堆叠而成,其中每个卷积层都配有ReLU激活函数,以增强非线性表达能力。卷积核的大小设定为1×1,3×3,5×5和7×7,模型能够有效捕获到不同尺度的特征信息,并且在进行特征融合时能够保持较高适应性。CCM的核心是利用不同大小的卷积核捕获到不同范围的上下文信息。CCM不仅提升了网络对于细粒度特征的捕获能力,而且确保了模型在进行特征融合时不会损失空间信息。

图5

图5   CCM模块

Fig.5   Cascade convolutional module


具体操作如下,特征映射X∈RC×H×W,采用了一种多分支卷积提取。首先通过卷积核大小分别为1,3,5和7,进行特征提取,随后依次经过批量归一化和relu函数处理。

通过堆叠(stack)操作,可以融合成一个新的高维特征图像Q1。此张量维度顺序为[k,B,C,H,W],其中k为卷积核数量,B为批大小,C为通道数,HW分别为特征图高度和宽度。堆叠维度排列有利于模型在后续处理中,依靠注意力权重加强对重要特征的表征。

为了综合不同尺度下的特征信息,引入一个高效的特征融合层。融合层通过对各尺度的特征图进行逐元素的叠加求和(sum)操作,生成了一个综合了广泛的上下文信息与精细的局部特征的特征图Q

在降维层,对融合特征图Q进行降维操作。具体而言,将Q中的每一个通道进行平均值池化操作,得到降维后的特征,可以看作是对每个通道的特征进行全局平均池化,以减少数据的维度; 接下来,选用全连接层FC对降维后的特征进行处理,将其映射到一个新的特征空间Z,即

$Z=FC\left(mean\right(Q\left)\right)$

通过全连接运算有助于进一步提取特征信息。凭借不同的全连接层FCs学习不同方面的特征,从而在更复杂的特征空间中进行权重优化。每个全连接层产生的权重向量w,它们的维度与输入通道数C相同。进而将权重w转换为与输出尺度大小相匹配的形状,组合成一个张量Aw。不同尺度的特征与相应的注意力权重相乘求和,最终得到融合特征F。公式为:

${A}_{w}=soft\mathrm{m}\mathrm{a}\mathrm{x}\left(stack\right(F{C}_{\mathrm{s}}\left(Z\right)\left)\right)$

F=sum(Aw·Q1) 。

2 实验与分析

2.1 WHU数据集

在 WHU 数据集上对 DN-Net 进行了实验,该数据集由季顺平等[21] 创建,覆盖了新西兰基督城约 450 km2的区域。数据集由空间分辨率为 0.3 m的航空图像组成,包含了22 000多个独立的建筑物。为了构建整个数据集,原始数据被裁剪成8 189张512像素×512像素的非重叠切片,取4 736张图像为训练集,1 036张图像为验证集,2,416张图像为测试集。为便于训练,将影像进一步裁剪为256像素×256像素的小块,以适应网络输入的需求。经过裁剪后,数据集生成了18 944张训练影像、4 144 张验证影像和9 664张测试影像,用于评估 DN-Net 的性能。

2.2 评价指标及损失函数

为了评价建筑物提取精度,选取了交并比(intersection over union, IoU)、精确率(Precision,P)和召回率(Recall,R)和F1这4个指标作为评价标准。

$IoU=\frac{TP}{TP+FP+FN}$
$P=\frac{TP}{TP+FP}$
$R=\frac{TP}{TP+FN}$
$F1=\frac{2TP}{2TP+FP+FN}$

式中: TP为正确检测出的建筑物数量; TN为正确检测出的非建筑物像数量; FP为错误检测出的建筑物数量; FN为错误检测出的非建筑物数量。

在评价指标中,R是模型提取的建筑面积占现有建筑总面积的比例,R值越高,模型就越能更好地捕捉实际存在的建筑; P是正确预测建筑的百分比,P越高,表示预测建筑面积与实际建筑面积越匹配; F1综合了RP之间的权衡,提供了这2个指标的调和平均值,较高的F1表示该模型在提取尽可能多的实际建筑面积的同时能够正确地对建筑物进行分类,在RP之间取得了很好的平衡。

Lee等[22]提出了深度监督策略,旨在解决深度神经网络中的梯度消失和缓慢收敛问题。本文将深度监督引入到DN-Net结构中,对于模型的5个分支输出,计算它们的平均损失,以获得更全面的训练。具体实施如下: 第一层特征映射${{X}^{0,j}}_{\mathrm{I}\mathrm{n}}$(j=1,2,3,4)和${X}_{\mathrm{D}\mathrm{e}}^{\mathrm{0,5}}$,然后经过1×1卷积和ReLU激活函数操作,输出与真实标签进行比较,计算出平均损失L。采用Sigmoid-IoU loss来计算每个分支的损失值,定义如下:

$L=1-\left(\frac{\sum (\sigma \left(\widehat{y}\right)·y)+smooth}{\sum (\sigma \left(\widehat{y}\right)+y)-\sum (\sigma \left(\widehat{y}\right)-y)+smooth}\right)$

式中: σ($\widehat{y}$)为预测值; y为真实值; smooth为平滑算子,其值为 1; ∑为在所有通道和空间位置上进行的求和操作。

2.3 结果分析

首先将WHU数据集导入到基于图形处理器(graphics processing unit,GPU)的Pytorch平台,参照已有环境配置,并结合实际条件搭建深度学习实验环境,实验平台采用英特尔i9-1390HK,搭载Nvidia GeForce RTX 4070显卡。在软件环境方面,本文采用Ubuntu20.04操作系统,使用的编程语言为Python3.8,选择以Pytorch2.01框架作为深度学习框架,使用CUDA11.7版本的GPU为运算平台。

通过多次试验,综合考虑网络的计算效率、结果精度以及硬件3个方面,设置batchsize为6,所有在验证集上的实验epoch均为35,在测试集实验epoch均为300。DN-Net采用Sigmoid-IoU loss作为损失函数,通过损失函数将损失降到最小,得到最优的模型。

2.3.1 定参分析

1)优化器选择。为了使DN-Net获取最佳的训练效果,试验多种训练优化方法,例如SGD,Adagrad和Adam。对网络进行训练,统一使用余弦学习率策略并且设置学习率为0.05,结果如表1所示,表中加粗部分为相对最优结果,下划线部分为次优结果,下文同。从表1可以看出,DN-Net在采取3种训练优化法时,SGD训练优化法整体精度最高,因此,采用SGD训练优化方法对DN-Net进行训练。

表1   不同训练优化方法结果

Tab.1  Results of different training optimization methods (%)

训练优化法IoUF1PR
Adam86.9293.0092.1993.82
Adagrad88.0293.6393.5893.53
SGD89.2094.2994.3194.27

新窗口打开| 下载CSV


2)深度监督学习方法选取。对深度监督学习方法训练进行了探讨,如图6所示。具体操作将损失函数添加到分支,然后进行1×1或3×3卷积运算,产生损失Li,i=1,2,3,4,5。增加多分支深度监督学习能够促进DN-Net学习更为丰富的特征表示。表2中所示的实验结果印证了设定,在采用深度监督方式一(deep supervision method 1,DS1)后,模型在准确率、F1分数、精确率以及召回率等关键指标上均优于仅使用深度监督${X}_{\mathrm{D}\mathrm{e}}^{\mathrm{0,5}}$和采用侧边栏深度监督学习(deep supervision method 2,DS2)的情况。本研究中,采用的DS1方法的平均损失值为0.142 7,相比DS2方法降低了0.009 1。然而,与仅使用深度监督${X}_{\mathrm{D}\mathrm{e}}^{\mathrm{0,5}}$(0.112 7)相比,DS1方法的损失值较高。这一现象可归因于DS1方法在预测过程中使用了5个不同的特征图与真实标签进行对比,从而提升了模型的表达能力和预测精度,尽管这一过程带来了较大的损失值。其中,DS1在准确率和F1分数上的提升尤为显著,这进一步验证了在同一个层级添加监督学习对于模型分割任务起着正面作用,因此,选定了DS1作为深度监督策略。

图6

图6   深度监督示意图

Fig.6   Schematic diagram of deep supervision


表2   深度监督对DN-Net分割性能的影响

Tab.2  Impact of deep supervision on the segmentation performance of DN-Net (%)

深度监督IoUF1PR
${X}_{\mathrm{D}\mathrm{e}}^{\mathrm{0,5}}$88.7994.0492.9195.23
DS288.1093.6792.4594.92
DS189.2094.2994.3194.27

新窗口打开| 下载CSV


2.3.2 消融实验

1)模块的有效性。本文进行了消融实验以量化DN-Net中CAM和CCM对于增强模型分割性能的具体贡献。表3中展示了在不同模块组合配置下,DN-Net在WHU数据集上的分割任务表现,涵盖了IoU、精确率、F1分数和召回率等关键性能指标。实验结果表明,单独添加CAM或CCM都能提升DN-Net的性能; 而将CAM和CCM模块结合使用时,分割效果进一步得到显著提升,从而验证了CAM和CCM模块在结构上的互补性。

表3   CAM和CCM对DN-Net分割性能的影响

Tab.3  CAM and CCM feature fusion ablation experiments (%)

参数DN-NetBlock3CAMCCMIoUF1P
表现88.8294.0893.46
89.0294.1993.99
89.0994.2394.11
89.2094.2994.31

新窗口打开| 下载CSV


图7则提供了特征响应的可视化分析,呈现了CAM模块和CCM模块在抑制背景噪声及其对目标区域的强化方面的作用。特征响应图展示了在经过CAM和CCM处理后的特征映射、模块如何聚焦图像中重要的空间信息。综合定量和定性的结果,得出结论,DN-Net通过融入CAM和CCM,显著提升了对遥感图像中建筑物边缘和形状的精确提取。

图7

图7   特征响应可视化

Fig.7   Visualization of feature response


表4展现了DN-Net网络在结合不同模块后的可视化结果。CAM通过横向和纵向的特征信息融合,显著优化了目标的上下文建模,未使用CAM的DN-Net基线在预测时容易产生大量误差,而引入CAM可进行准确的定位; CCM则通过对特征的增强和细化,大大避免空洞现象。加入CAM和CCM后的分割结果显示,在处理小型、密集和大型建筑物上生成的分割图像更加贴合标签,凸显了这2种模块在提高模型性能中的重要作用。

表4   可视化对比

Tab.4  Visual comparison

类型小型建筑物密集建筑物大型建筑物
示例1示例2示例1示例2示例1示例2
原图
标签
DN-Net +Block3
DN-Net +Block3+CAM
DN-Net +Block3+CCM
DN-Net+Block3+CAM+CCM

新窗口打开| 下载CSV


2)基础卷积块选取。为了研究选取的Block3的有效性,对3个卷积块进行消融实验。从表5可以看出, Block3整体性能是最好的。正如表5所示,Block3在IoU、精确率和召回率上均达到或超过了其他Block,这表明它在模型提取方面具有优越性。因此,综合性能指标的考虑,Block3被认为是三者中最适合本文DN-Net的Block。

表5   改进残差卷积结果

Tab.5  Improving residual convolution results (%)

卷积块IoUF1PR
Block188.6994.0093.7994.22
Block288.7894.1093.7294.60
Block388.8294.0893.4694.70

新窗口打开| 下载CSV


3)级联卷积注意力的有效性。为深入探讨CCM模块中,不同大小卷积核组合对DN-Net的具体影响,进行实验见表6,其中,[1],[1,3,5]以及[1,3,5,7]分别代表了采取1×1,3×3,5×5和7×7卷积核的不同模型配置。值得关注的是,在包含最大卷积核尺寸7×7的配置[1,3,5,7]中,模块展现出了更为优越的性能表现。这表明了较大卷积核的引入,在捕捉更加丰富的特征方面发挥了显著作用。

表6   CCM模块消融实验

Tab.6  CCM module ablation experiment (%)

卷积核IoUF1PR
[1,3]88.6894.0093.3494.68
[1,3,5]88.8294.0893.4694.70
[1,3,5,7]89.0994.2394.1194.35

新窗口打开| 下载CSV


2.3.3 对比实验

为了验证本文网络的有效性,将DN-Net与典型模型和先进方法在WHU数据集上进行比较,包括SegNet[4],UNet[6],ENet[10],ERFNet[11],UNet++[13],UNet3+[14],T-LinKNet[16],Res_ASPP_UNNet++[18]表7为在验证集和验证集上的评估结果。本文网络在WHU数据集在IoU,F1,精确率和召回率上都有很大的提高。在WHU验证集中,相比于2023年提出的Res_ASPP_UNNet++ 在IoU,F1,精确率和召回率上分别提高了0.85,0.48,0.31和0.09百分点; 测试集上比2023年提出的 Res_ASPP_UNNet++ 在IoU,F1,精确率和召回率上分别提高了0.94,0.52,0.47和0.59百分点。同时,相对于其他网络模型,DN-Net在IoU,F1,精确率和召回率上也有显著提升。

表7   不同网络在WHU数据集上的分割精度对比

Tab.7  Comparison of segmentation accuracy of different networks on the WHU dataset(%)

网络验证集测试集
IoUF1PRIoUF1PR
SegNet87.3992.2793.1593.3988.0793.6693.6993.62
UNet87.2293.1792.4893.8888.2493.7594.4393.09
ENet85.7992.3591.6293.0986.6292.8393.5192.17
UNet++88.1893.7293.5193.9288.6593.9993.4394.55
ERFNet86.4292.7191.1094.3887.1793.1492.3193.99
UNet3+88.5893.9593.0293.7089.1994.2993.2595.15
T-LinKNet88.7094.0192.8795.2189.3394.3794.3994.36
Res_ASPP_UNNet++88.3593.8194.0094.1888.9194.1393.6594.61
DN-Net89.2094.2994.3194.2789.8594.6594.1295.20

新窗口打开| 下载CSV


表8表9分别为各模型在WHU验证集和测试集上的可视化结果。通过对比可以看出DN-Net网络展现出显著的优势。DN-Net在分割图像中的白色像素代表正确预测的建筑物像素,这表明DN-Net网络在分割过程中产生的噪声更少,错误率也更低,避免在小型建筑物的漏检、误检等问题。特别值得注意的是,DN-Net网络在提取的建筑物边缘更加完整,更接近真实的建筑物边界。与此同时,其预测图显示出的建筑物边界清晰可见,与其他模型分割结果相比之下建筑物粘连现象较少。其他网络在提取大型建筑物时容易出现空洞现象,而DN-Net可以大大避免了空洞现象。

表8   不同模型在WHU验证集上的可视化

Tab.8  Visualization of different models on the WHU validation set

类型原图SegNetUNetENetUNet++ERFNetUNet3+T-LinK
Net
Res_
UNet++
DN-Net标签
小型建筑物
密集建筑物
大型建筑物

新窗口打开| 下载CSV


表9   不同模型在WHU测试集上的可视化

Tab.9  Visualization of different models on the WHU test set

类型原图SegNetUNetENetUNet++ERFNetUNet3+T-LinK
Net
Res_
UNet++
DN-Net标签
小型建筑物
密集建筑物
大型建筑物

新窗口打开| 下载CSV


2.3.4 网络复杂度分析

在本节中,在WHU建筑物数据集上将参数量、每秒浮点运算次数(floating point operations per second,FLOPs)、IOUF1与其他最先进的方法进行比较。定量结果如表10所示。根据结果,所提出的DN-Net具有较大的参数量和FLOPs,这表明本文方法具有较高的复杂性。与其他8个模型相比,DN-Net增加的参数量和FLOPs有助于提高分割精度。

表10   在WHU数据集不同网络复杂性分析

Tab.10  Analysis of different network complexities in the WHU dataset

ModelFLOPs/109参数量/106IoU/%F1%
SegNet0.50.488.0793.66
UNet31.113.488.2493.75
ENet0.50.486.6292.83
UNet++17.524.788.6593.99
ERFNet3.42.187.1793.14
UNet3+90.57.689.1994.29
T-LinKNet153.2200.089.3394.37
Res_ASPP_UNNet++8.84.588.9194.13
DN-Net43.212.989.8594.65

新窗口打开| 下载CSV


3 结论

为了提高遥感建筑物提取精度,提出了一种新的网络结构DN-Net。该模型分别通过密集跳跃和全尺度连接,在5个分支中引入深度监督,将同一层级的特征进行融合,以最大限度地融合高层次语义和低层次的细节信息,实现准确的遥感建筑物位置的感知和分割。首先,利用DN-Net中子网络和改进的残差卷积模块实现了建筑物的粗略轮廓提取; 其次,引入坐标注意力模块(CAM)精确定位建筑物位置,有效减少了误检现象; 最后,采用级联卷积模块(CCM),通过不同尺寸的卷积核提取细节,解决了空洞问题,进一步提升了建筑物提取的精度。

实验结果表明所提模型在每个评价指标均优于所对比的模型,本文方法在WHU验证集上取得了89.20%的IoU和94.29%的F1分数,而在测试集上分别达到了89.85%和94.65%,表现出良好的建筑物提取性能。DN-Net在分割中背景噪声和错误率较低,能更准确地提取建筑物边缘,减少漏检、误检和粘连现象,同时有效避免空洞问题。证实本方法可以使建筑物提取更加完整和精细,有效提升对不同大小建筑物的分割精度。

尽管所提出的DN-Net在所进行的分析中被认为是有效的,但也存在局限性。目前,DN-Net在城市和山区场景的建筑物分割中表现出良好的提取性能,但尚未在其他任务(如道路分割)中进行测试。未来可进一步研究DN-Net在不同遥感图像任务中的应用及性能优化。

参考文献

Chen J, Xia M, Wang D, et al.

Double branch parallel network for segmentation of buildings and waters in remote sensing images

[J]. Remote Sensing, 2023, 15(6):1536.

DOI:10.3390/rs15061536      URL     [本文引用: 1]

The segmentation algorithm for buildings and waters is extremely important for the efficient planning and utilization of land resources. The temporal and space range of remote sensing pictures is growing. Due to the generic convolutional neural network’s (CNN) insensitivity to the spatial position information in remote sensing images, certain location and edge details can be lost, leading to a low level of segmentation accuracy. This research suggests a double-branch parallel interactive network to address these issues, fully using the interactivity of global information in a Swin Transformer network, and integrating CNN to capture deeper information. Then, by building a cross-scale multi-level fusion module, the model can combine features gathered using convolutional neural networks with features derived using Swin Transformer, successfully extracting the semantic information of spatial information and context. Then, an up-sampling module for multi-scale fusion is suggested. It employs the output high-level feature information to direct the low-level feature information and recover the high-resolution pixel-level features. According to experimental results, the proposed networks maximizes the benefits of the two models and increases the precision of semantic segmentation of buildings and waters.

Ji X, Tang L, Lu T, et al.

DBENet:Dual-branch ensemble network for sea-land segmentation of remote-sensing images

[J]. IEEE Transactions on Instrumentation and Measurement, 2023,72:5503611.

[本文引用: 1]

Shelhamer E, Long J, Darrell T.

Fully convolutional networks for semantic segmentation

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(4):640-651.

DOI:10.1109/TPAMI.2016.2572683      PMID:27244717      [本文引用: 1]

Convolutional networks are powerful visual models that yield hierarchies of features. We show that convolutional networks by themselves, trained end-to-end, pixels-to-pixels, improve on the previous best result in semantic segmentation. Our key insight is to build "fully convolutional" networks that take input of arbitrary size and produce correspondingly-sized output with efficient inference and learning. We define and detail the space of fully convolutional networks, explain their application to spatially dense prediction tasks, and draw connections to prior models. We adapt contemporary classification networks (AlexNet, the VGG net, and GoogLeNet) into fully convolutional networks and transfer their learned representations by fine-tuning to the segmentation task. We then define a skip architecture that combines semantic information from a deep, coarse layer with appearance information from a shallow, fine layer to produce accurate and detailed segmentations. Our fully convolutional networks achieve improved segmentation of PASCAL VOC (30% relative improvement to 67.2% mean IU on 2012), NYUDv2, SIFT Flow, and PASCAL-Context, while inference takes one tenth of a second for a typical image.

Ronneberger O, Fischer P, Brox T. U-net:Convolutional networks for biomedical image segmentation[M]//Lecture Notes in Computer Science. Cham: Springer International Publishing, 2015:234-241.

[本文引用: 3]

Badrinarayanan V, Kendall A, Cipolla R.

SegNet:A deep convolutional encoder-decoder architecture for image segmentation

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12):2481-2495.

DOI:10.1109/TPAMI.2016.2644615      PMID:28060704      [本文引用: 1]

We present a novel and practical deep fully convolutional neural network architecture for semantic pixel-wise segmentation termed SegNet. This core trainable segmentation engine consists of an encoder network, a corresponding decoder network followed by a pixel-wise classification layer. The architecture of the encoder network is topologically identical to the 13 convolutional layers in the VGG16 network [1]. The role of the decoder network is to map the low resolution encoder feature maps to full input resolution feature maps for pixel-wise classification. The novelty of SegNet lies is in the manner in which the decoder upsamples its lower resolution input feature map(s). Specifically, the decoder uses pooling indices computed in the max-pooling step of the corresponding encoder to perform non-linear upsampling. This eliminates the need for learning to upsample. The upsampled maps are sparse and are then convolved with trainable filters to produce dense feature maps. We compare our proposed architecture with the widely adopted FCN [2] and also with the well known DeepLab-LargeFOV [3], DeconvNet [4] architectures. This comparison reveals the memory versus accuracy trade-off involved in achieving good segmentation performance. SegNet was primarily motivated by scene understanding applications. Hence, it is designed to be efficient both in terms of memory and computational time during inference. It is also significantly smaller in the number of trainable parameters than other competing architectures and can be trained end-to-end using stochastic gradient descent. We also performed a controlled benchmark of SegNet and other architectures on both road scenes and SUN RGB-D indoor scene segmentation tasks. These quantitative assessments show that SegNet provides good performance with competitive inference time and most efficient inference memory-wise as compared to other architectures. We also provide a Caffe implementation of SegNet and a web demo at http://mi.eng.cam.ac.uk/projects/segnet.

Noh H, Hong S, Han B.

Learning deconvolution network for semantic segmentation

[C]//2015 IEEE International Conference on Computer Vision (ICCV).December 7-13,2015, Santiago,Chile.IEEE, 2015:1520-1528.

[本文引用: 2]

Chen L C, Papandreou G, Kokkinos I, et al.

DeepLab:Semantic image segmentation with deep convolutional nets,atrous convolution,and fully connected CRFs

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4):834-848.

DOI:10.1109/TPAMI.2017.2699184      URL     [本文引用: 1]

Chen LC, Papandreou G, Schroff F, et al.

Rethinking atrous convolution for semantic image segmentation

[J]. arXiv preprint arXiv:170605587, 2017.

Chen L C, Zhu Y, Papandreou G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[M]//Lecture Notes in Computer Science. Cham: Springer International Publishing, 2018:833-851.

[本文引用: 1]

Paszke A, Chaurasia A, Kim S, et al.

ENet:A deep neural network architecture for real-time semantic segmentation

[J/OL].(2016-06-07).https://arxiv.org/abs/1606.021470.

URL     [本文引用: 2]

Romera E, Álvarez J M, Bergasa L M, et al.

ERFNet:Efficient residual factorized ConvNet for real-time semantic segmentation

[J]. IEEE Transactions on Intelligent Transportation Systems, 2018, 19(1):263-272.

DOI:10.1109/TITS.2017.2750080      URL     [本文引用: 2]

Lin J, Jing W, Song H, et al.

ESFNet:Efficient network for building extraction from high-resolution aerial images

[J]. IEEE Access, 2822,7:54285-54294.

[本文引用: 1]

Zhou Z W, Rahman Siddiquee MM, Tajbakhsh N, et al.

Unet++:A nested u-net architecture for medical image segmentation

[C]//Deep Learning in Medical Image Analysis and Multimodal Learning for Clinical Decision Support:4th International Workshop, DLMIA 2018,and 8th International Workshop,ML-CDS 2018,Held in Conjunction with MICCAI 2018,Granada,Spain,September 20,2018,Proceedings 4.Springer, 2018:3-11.

[本文引用: 2]

Huang H, Lin L, Tong R, et al.

UNet 3:A full-scale connected UNet for medical image segmentation

[C]// ICASSP 2020-2020 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP). May 4-8,2020, Barcelona,Spain.IEEE, 2020:1055-1059.

[本文引用: 2]

Liu Z, Lin Y T, Cao Y, et al.

Swin transformer: Hierarchical vision transformer using shifted windows

[C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV).Montreal,QC,Canada. IEEE, 2021:9992-10002.

[本文引用: 1]

王振庆, 周艺, 王世新, .

IEU-Net高分辨率遥感影像房屋建筑物提取

[J]. 遥感学报, 2021, 25(11):2245-2254.

[本文引用: 2]

Wang Z Q, Zhou Y, Wang S X, et al.

House building extraction from high-resolution remote sensing images based on IEU-Net

[J]. National Remote Sensing Bulletin, 2021, 25(11):2245-2254.

DOI:10.11834/jrs.20210042      URL     [本文引用: 2]

张立亭, 孔文学, 罗亦泳, .

改进LinkNet的高分辨率遥感影像建筑物提取方法

[J]. 测绘科学, 2022, 47(9):120-127,145.

[本文引用: 1]

Zhang L T, Kong W X, Luo Y Y, et al.

Improved LinkNet building extraction method for high resolution remote sensing image

[J]. Science of Surveying and Mapping, 2022, 47(9):120-127,145.

[本文引用: 1]

龙丽红, 朱宇霆, 闫敬文, .

新型语义分割D-UNet的建筑物提取

[J]. 遥感学报, 2023, 27(11):2593-2602.

[本文引用: 2]

Long L H, Zhu Y T, Yan J W, et al.

New building extraction method based on semantic segmentation

[J]. National Remote Sensing Bulletin, 2023, 27(11):2593-2602.

DOI:10.11834/jrs.20211029      URL     [本文引用: 2]

吕少云, 李佳田, 阿晓荟, .

Res_ASPP_UNet++:结合分离卷积与空洞金字塔的遥感影像建筑物提取网络

[J]. 遥感学报, 2023, 27(2):502-519.

[本文引用: 1]

Lyu S Y, Li J T, A X H, et al.

Res_ASPP_UNet++:Building an extraction network from remote sensing imagery combining depthwise separable convolution with atrous spatial pyramid pooling

[J]. National Remote Sensing Bulletin, 2023, 27(2):502-519.

DOI:10.11834/jrs.20210477      URL     [本文引用: 1]

刘晨晨, 葛小三, 武永斌, .

基于混合注意力机制和Deeplabv3+的遥感影像建筑物提取方法

[J]. 自然资源遥感, 2025, 37(1):31-37.doi:10.6046/zrzyyg.2023295.

[本文引用: 1]

Liu C C, Ge X S, Wu Y B, et al.

A method for information extraction of buildings from remote sensing image based on hybrid attention mechanism and Deeplabv3+

[J] Remote Sensing for Natural Resource, 2025, 37(1):31-37.doi:10.6046/zrzyyg.2023295.

[本文引用: 1]

季顺平, 魏世清.

遥感影像建筑物提取的卷积神经元网络与开源数据集方法

[J]. 测绘学报, 2019, 48(4):448-459.

DOI:10.11947/j.AGCS.2019.20180206      [本文引用: 1]

从遥感图像中自动化地检测和提取建筑物在城市规划、人口估计、地形图制作和更新等应用中具有极为重要的意义。本文提出和展示了建筑物提取的数个研究进展。由于遥感成像机理、建筑物自身、背景环境的复杂性,传统的经验设计特征的方法一直未能实现自动化,建筑物提取成为30余年尚未解决的挑战。先进的深度学习方法带来新的机遇,但目前存在两个困境:①尚缺少高精度的建筑物数据库,而数据是深度学习必不可少的“燃料”;②目前国际上的方法都采用像素级的语义分割,目标级、矢量级的提取工作亟待开展。针对于此,本文进行以下工作:①与目前同类数据集相比,建立了一套目前国际上范围最大、精度最高、涵盖多种样本形式(栅格、矢量)、多类数据源(航空、卫星)的建筑物数据库(WHU building dataset),并实现开源;②提出一种基于全卷积网络的建筑物语义分割方法,与当前国际上的最新算法相比达到了领先水平;③将建筑物提取的范围从像素级的语义分割推广至目标实例分割,实现以目标(建筑物)为对象的识别和提取。通过试验,验证了WHU数据库在国际上的领先性和本文方法的先进性。

Ji S P, Wei S Q.

Building extraction via convolutional neural networks from an open remote sensing building dataset

[J]. Acta Geodaetica et Cartographica Sinica, 2019, 48(4):448-459.

[本文引用: 1]

Lee C Y, Xie S, Gallagher P, et al.

Deeply-supervised nets

[C]// Artificial Intelligence and Statistics. PMLR, 2015:562-570.

[本文引用: 1]

/

京ICP备05055290号-2
版权所有 © 2015 《自然资源遥感》编辑部
地址:北京学院路31号中国国土资源航空物探遥感中心 邮编:100083
电话:010-62060291/62060292 E-mail:zrzyyg@163.com
本系统由北京玛格泰克科技发展有限公司设计开发