自然资源遥感, 2025, 37(5): 122-130 doi: 10.6046/zrzyyg.2024209

技术方法

面向高分辨率遥感影像建筑物提取的SD-BASNet网络

朱娟娟,1,2, 黄亮,1,3, 朱莎莎4

1.昆明理工大学国土资源工程学院,昆明 650093

2.云南省地矿测绘院有限公司,昆明 650218

3.云南省山地灾害天空地一体化智慧监测国际联合实验室,昆明 650093

4.中国地质调查局昆明自然资源综合调查中心,昆明 650100

SD-BASNet:a building extraction network for high-spatial-resolution remote sensing imagery

ZHU Juanjuan,1,2, HUANG Liang,1,3, ZHU Shasha4

1. Kunming University of Science and Technology,Faculty of Land Resource Engineering,Kunming 650093,China

2. Yunnan Institute of Surveying and Mapping of Geology and Mineral Resources Co.,Ltd.,Kunming 650218,China

3. Yunnan International Joint Laboratory for Integrated Sky-Ground Intelligent Monitoring of Mountain Hazards,Kunming 650093,China

4. Kunming General Survey of Natural Resources Center,China Geological Survey,Kunming 650100,China

通讯作者: 黄 亮(1985-),男,博士,副教授,主要研究方向为遥感影像变化检测。Email:kmhuangliang@163.com

责任编辑: 张仙

收稿日期: 2024-06-12   修回日期: 2024-10-7  

基金资助: 国家自然科学基金项目“面向光学与SAR遥感图像语义变化检测的多任务学习方法研究”(42361054)
云南省基础研究计划项目“轻量级自适应尺度特征遥感影像非监督变化检测方法”(202201AT070164)
湖南省自然科学基金项目“基于边缘注意力网络的建筑物动态变化检测和提取”(2023JJ60561)
兴滇英才支持计划项目共同资助

Received: 2024-06-12   Revised: 2024-10-7  

作者简介 About authors

朱娟娟(1996-),女,硕士,助理工程师,主要研究方向为遥感图像处理与分析。Email:20202201142@stu.kust.edu.cn

摘要

针对网络模型参数量大、下采样过程丢失影像建筑物细节信息的问题,受轻量级网络的启发,设计了一种融入深度可分离残差块和空洞卷积的建筑物提取网络(SD-BASNet)。首先,在深度监督编码器预测模块中设计了一个深度可分离残差块,将深度可分离卷积引入主干网络ResNet中,避免卷积核过大,减少网络的参数量;其次,为防止网络轻量化带来的精度下降,将空洞卷积融入后处理优化模块的编码层,增大特征图的感受野,从而捕捉更广泛的上下文信息,提高建筑物特征提取的准确性。在WHU建筑物数据集上进行实验,在不同尺度建筑物提取中均表现较好,其平均交并比和平均像素精度分别为92.25%和96.59%,其召回率、精确率和F1指标分别达到96.50%,93.79%和92.61%。与PSPNet,SegNet,DeepLabV3,SE-UNet,UNet++等语义分割网络相比,SD-BASNet网络提取精度得到了显著提升,且提取的建筑物完整度更好;与基础网络BASNet相比,SD-BASNet网络的参数量与运行时间也有所减少,证实了该文提出的SD-BASNet网络的有效性。

关键词: 建筑物提取; 高分辨率遥感影像; BASNet网络; 深度可分离残差块; 空洞卷积

Abstract

In response to the challenges posed by substantial parameters and the loss of building details during downsampling,this study,inspired by lightweight networks,designed a building extraction network (SD-BASNet) incorporating depthwise separable residual blocks and dilated convolution. First,a depthwise separable residual block was designed in the prediction module of the deep supervision encoder-decoder. Depthwise separable convolution was incorporated into the backbone ResNet to prevent oversized convolutional kernels and reduce the number of network parameters. Second,to mitigate the potential decline in accuracy due to network lightweighting,dilated convolution was integrated into the encoder layer of the post-processing optimization module. This strategy effectively expands the receptive field of feature maps,thereby capturing broader contextual information and enhancing the accuracy of building feature extraction. Experiments on the WHU building dataset showed that the proposed network achieved an mIoU of 92.25%,an mPA of 96.59%,a Recall of 96.50%,a Precision of 93.79%,and a F1-score of 92.61%. Compared with current semantic segmentation networks,including PSPNet,SegNet,DeepLabV3,SE-UNet,and UNet++,the SD-BASNet demonstrated significantly improved accuracy and better completeness of building extraction. Compared with the baseline BASNet,the SD-BASNet also exhibited reductions in both parameter count and runtime,demonstrating its effectiveness.

Keywords: building extraction; high-spatial-resolution remote sensing imagery; boundary-aware salient object detection (BASNet); depthwise separable residual block; dilated convolution

PDF (5680KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

朱娟娟, 黄亮, 朱莎莎. 面向高分辨率遥感影像建筑物提取的SD-BASNet网络[J]. 自然资源遥感, 2025, 37(5): 122-130 doi:10.6046/zrzyyg.2024209

ZHU Juanjuan, HUANG Liang, ZHU Shasha. SD-BASNet:a building extraction network for high-spatial-resolution remote sensing imagery[J]. Remote Sensing for Land & Resources, 2025, 37(5): 122-130 doi:10.6046/zrzyyg.2024209

0 引言

建筑物是一种重要的基础设施,也是反映社会经济和文化特征的历史遗产。同时,建筑物信息作为地理信息的重要组成部分,广泛应用于城市规划、军事侦察和灾害监测等方面[1-2]。遥感技术的广泛应用推动了卫星图像解译领域的迅猛发展,使得对建筑物的解译结果更加精准[3]。在传统建筑物分割方法中,主要根据影像的颜色、纹理和边缘信息等低维视觉特征进行建筑物的提取,经典的分割方法有基于阈值的大津法[4]、基于区域的分水岭分割法[5]、Prewitt算子边缘检测等[6]。但传统方法一般需要专家知识建立相关的规则分割建筑物,对影像语义信息的提取泛化性大幅减弱,且过度依赖解译人员对场景的认知、效率低下,已不能满足当前实际应用需求[7]

随着人工智能的兴起,深度学习已在语义分割、目标检测、变化检测等多项技术上取得了突破性进展[8-10]。相较于传统方法的图像解译,深度学习不仅能提取出影像的高维语义特征,且精度更高[11-13]。其中,卷积神经网络(convolutional neural network,CNN)的方法能从输入的海量数据中自主学习图像深层特征,为建筑物语义分割提供了一种新的参考[14]。如Cai等[15]针对尺度多样性及相邻建筑物的遮挡问题,提出了一种多尺度对象感知实例提议网络,该网络通过特征金字塔与多尺度注意力机制的结合描述及感知物体,有效地区分相邻建筑物;Das等[16]基于CNN创新性地提出了ABNet网络,通过卷积注意力模块聚焦于影像重要特征的提取,接着引入交叉注意力模块,用以捕捉不同扩张速率下的多尺度特征,从而有效解决边界模糊的问题,精确提取建筑物足迹与边界;Zhang等[17]提出了建筑物提取网络DeepAttentionUNet,该网络将注意力机制与残差学习方法相结合,在突出建筑物有用特征的同时缓解了网络训练过程中出现的退化问题,成功应用于城市建筑物提取;王华俊等[18]使用MobileNetv2替换DeepLabV3+的主干网络,提出一种轻量级DeepLabV3+模型用以解决网络参数量大的问题,该方法在训练速度与精度上有所提高,然而对大型建筑物的边界提取易出现空洞或模糊现象。总体来看,深度学习引领建筑物提取方法向一个崭新的方向发展,能够有效提取建筑物特征;然而在复杂场景下建筑物提取时仍存在边界精度低、大尺度建筑物提取时出现孔洞等问题,无法同时满足目标的高效提取。针对此问题,Qin等[19]提出了BASNet网络,该网络最初用于显著性目标的边缘增强分割。此深度网络通过将预测编解码模块和残差优化模块相结合,有效解决了深度学习算法在目标检测中的边界模糊问题,且在目标提取时完整度较好。然而此网络在编码过程中,连续的卷积与下采样操作导致高层语义信息损失过多,建筑物空间细节信息的获取易受干扰。此外,该网络基于端到端的方式对目标进行编解码,计算复杂度较高,网络训练时间长。

因此,为实现更精细的建筑物提取,本文在深度可分离卷积[20](depthwise separable convolution,DSC)的启发下,基于BASNet提出了SD-BASNet网络。该网络在BASNet的基础上设计了一个深度可分离残差模块(depthwise separable residual module,DSRM),降低了模型的参数量、缩短了网络运行时间;其次,为防止网络轻量化带来的精度下降,将空洞卷积[21](dilated convolution,DC)融入BASNet优化模块的编码层,在不增加卷积核大小的情况下,增大特征图的感受野,从而捕捉更广泛的上下文信息,提高建筑物提取的精度。

1 SD-BASNet网络

本文在BASNet网络的基础上进行了改进,提出了一种基于高分辨率遥感影像(high spatial resolution remote sensing images,HSRRSI)的建筑物提取网络SD-BASNet。该网络在BASNet网络的深度监督编解码(Encoder-Decoder)结构中设计了DSRM,将DSC引入其主干网络,避免了卷积核过大,减少模型的参数量;同时在优化模块的编码层中加入DC,目的是增大特征图感受野,解决因为编码层下采样过程中所导致的信息丢失问题,旨在实现建筑物的精细化提取同时使得网络参数量有所下降。

本文提出的SD-BASNet结构如图1所示。原BASNet网络主要由深度监督的Encoder-Decoder模块和残差优化模块组成。深度监督的Encoder-Decoder模块是一个分割目标预测模型,该结构捕获语义信息以提高建筑物提取精度,然后将提取到的特征图传入优化模块,改善影像区域的不确定性和边缘粗糙问题。但由于在网络训练过程中网络模型较为复杂,所产生的参数量不容小觑。因此,本文在BASNet网络的基础上进行改进,提出一种面向HSRRSI建筑物提取的SD-BASNet网络。

图1

图1   SD-BASNet网络结构

Fig.1   Network structure of SD-BASNet


1.1 深度监督Encoder-Decoder模块

DSC是CNN常用的一种卷积操作,广泛应用于轻量级网络设计中[22-24],旨在减少网络参数量及提升计算效率。与标准卷积相比,DSC分为深度卷积和逐点卷积2步。具体地说,深度卷积只对每个输入通道的特征图进行卷积,而不是同时作用于所有通道上,从而减少参数量。逐点卷积则是将卷积核大小设置为1×1,对每个像素的特征图进行卷积,从而将它们之间的信息进行融合。这样一来,DSC相比于标准卷积可大大减少参数量,提高模型的计算效率。图2是标准卷积与DSC之间的比较。m×m为卷积核尺寸;c为输入图像的通道数。若卷积核大小为3×3,则标准卷积直接进行3×3×3的卷积,然后进行BN正则化处理,最后传入ReLU激活函数当中。与标准卷积不同的是,DSC先进行一个3×3×1的深度卷积,然后进行后续步骤;接着是1×1×c的点积,再进行一次BN正则化和ReLU操作。DSC在对3×3的卷积核做卷积操作时,不像传统卷积直接使用完整的3×3×3卷积核,而是分成2个单通道的3×3卷积核同时进行卷积。

图2

图2   标准卷积与DSC对比

Fig.2   Comparision of standard convolution and DSC


SD-BASNet的深度监督Encoder-Decoder结构由编码层、解码层和桥接层构成。编码部分由1个卷积层和6个DSRM构成。如图3所示,DSRM1—4由64个大小为3×3、步长为1的卷积核组成,用3×3的DSC替换3×3的普通卷积,并进行BN和ReLU操作,该部分使得网络在训练阶段可提取影像特征,捕捉影像中不同像素之间的上下文信息;而DSRM5—6由3个基础残差块和512个卷积核组成,使用DSC代替其中的普通卷积,以减少网络整体参数量。桥接层由3个残差块组成,每个残差块由512个大小为3×3的DSC,BN正则化和ReLU激活函数构成,目的是进一步获取影像特征信息。解码层和编码层几乎对称,不同之处在于卷积核中为普通的3×3卷积。解码层在上采样中通过双线性插值可以有效地增加特征图的分辨率,同时节约内存、减少网络计算资源;最后经过sigmoid函数将7种不同分辨率的特征图(Sup1—7)输出。此外,编解码层之间通过连接操作将高级与低级特征连接起来,利于语义和细节信息的结合,减少信息丢失。

图3

图3   DSRM结构

Fig.3   Structures of DSRMs


1.2 优化模块

DC是一种在卷积操作中使用空洞的技术,通过在卷积核中插入一些间隔空洞来扩大卷积的感受野。具体来说,DC将卷积核中的每个权重放在一个网格中,使网格中的元素与输入张量中的元素一一对应,而且网格中存在的间隔可以使卷积核的感受野增强,从而增加模型对于输入图像的感知能力。其中,插入空洞的大小称为扩张率,扩张率越大,卷积核的感受野也就越大。如图4所示,图4(a)中扩张率为0,则卷积核的感受野为3×3;图4(b)中扩张率为2,卷积核的感受野增大到5×5;图4(c)扩张率为3,能达到7×7的感受野。

图4

图4   不同扩张率的感受野示意图[21]

Fig.4   Schematic diagram of receptive fields with different dilation rates[21]


本文的优化模块采用了残差Encoder-Decoder架构。如图1所示,编码层和解码层有4个卷积层,编码层的每个卷积层由64个大小为3×3的卷积核,DC,BN与ReLU激活函数构成。由于网络在下采样过程中丢失了特征图部分细节信息,难以对局部纹理进行精确的分割,所以在优化模块的编码层中引入DC,通过增加卷积核中的空洞融合更多的上下文信息,从而更好地提取特征,增强模型的表征能力,减少参数量的同时防止精度下降。与编码层类似,桥接层、解码层由64个大小为3×3的卷积核、BN与ReLU激活函数组成。值得一提的是,在下采样编码层中使用了非重叠的最大池化层,有助于减少特征维度,提高模型的鲁棒性和计算效率;在上采样解码层中使用了双线性插值,利于影像的平滑输出。

2 实验与分析

2.1 实验数据及设置

为充分验证本文算法的有效性和可行性,使用WHU建筑物数据集[25]进行建筑物提取实验,WHU建筑物数据集由武汉大学季顺平团队提供。该数据集由航空建筑物数据集和卫星建筑物数据集组成,影像地面分辨率为0.075 m,涵盖22万栋形分布各异的建筑物,覆盖面积达450 km2。此数据集将大部分航空影像裁剪为8 188个无重叠的瓦片,大小为512像素×512像素,同时将数据集划分为4 736张训练集、1 036张验证集和2 416张测试集。

实验从WHU数据集随机选取1 850张影像作为训练集、1 000张影像作为测试集。所采用配置为Intel(R) i7-9700k CPU和NVIDIA GeForce GTX1070显卡的计算机,8 GB显存。实验过程迭代次数为100次,初始学习率为0.000 1,权重衰减系数为0,训练过程中批量大小为2,设置训练网络的优化器为Adam,其余超参数设为默认值。

2.2 评价指标

为验证本文提出网络的有效性,客观评价提取效果,采用平均交并比(mean intersection over union,mIoU)和平均像素精度(mear pixel accuracy,mPA)对测试集的整体精度进行了评价;以精确率,召回率和F1作为评价指标,定量评价每张场景影像的提取精度。各指标计算公式如下:

mIoU=$\frac{1}{k+1}\sum _{i=0}^{k}\frac{TP}{TP+FP+FN}$
mPA=$\frac{1}{k+1}\sum _{i=0}^{k}\frac{TP+TN}{TP+TN+FP+FN}$
P=$\frac{TP}{TP+FP}$
R=$\frac{TP}{TP+FN}$
F1=2×$\frac{R\times P}{R+P}$

式中:PR分别为精确率和召回率;i为类别序号,i=0,1,…,ki=0表示背景;k为类别数;TP为建筑物被正确预测为建筑物的像素点个数;TN为背景被正确预测为背景的像素点个数;FP为背景被错误预测为建筑物的像素点个数;FN为建筑物被错误预测为背景的像素点个数。

2.3 结果与分析

2.3.1 模型参数量分析

表1为不同模型参数量与训练时间对比,其中,①为基础网络BASNet,不进行任何改动与添加;②为在BASNet中加入DSC模块;③为在BASNet中加入DC;④为在BASNet中同时加入DSC和DC,即本文所提方法SD-BASNet。表中加粗字体为各项最优。经过实验证明,加入DSC模块的2个网络②和④的参数量和训练时间有所减少。虽然网络②比网络④参数量少,网络训练时间有所提升,但两者之间相差不大。相较于原网络①,所改进网络④在参数上下降了25.10×106,训练时间减少了0.36 h。原网络由于使用了大量卷积核,参数量过大导致网络不易收敛且训练速度较慢。

表1   不同网络的参数量与时间分析

Tab.1  Analysis of parameter quantity in different networks

序号网络参数量/106训练时间/h
BASNet87.0611.27
BASNet+DSC61.5410.79
BASNet+DC87.0611.77
BASNet+DSC+DC(SD-BASNet)61.9610.91

新窗口打开| 下载CSV


2.3.2 分割性能分析

为了检验SD-BASNet的建筑物提取效果,本文选取语义分割经典网络PSPNet[26],SegNet[27],Deep-LabV3[28],SE-UNet[29]和UNet++[30]进行实验,并增加了基础网络BASNet与SD-BASNet进行对比,在WHU建筑物数据集上进行性能测试,得出各项精度评价指标如表2所示。从表中可以看出,与其他方法相比,本文所提网络在mIoUmPA,召回率,精确率和F1方面分别最大提升了25.10%,16.73%,7.13%,32.98%和20.21%,仅一项数据较低,即SD-BASNet网络的召回率方面低于基础网络BASNet,但在其余指标上是最优的。且提出网络侧重于降低网络参数量,从表1可看出参数量的有效下降,证实了本文所提网络SD-BASNet的可行性。

表2   不同网络的检测结果

Tab.2  Detection results of different networks (%)

网络mIoUmPA召回率精确率F1
PSPNet73.7480.4389.6262.8673.89
SegNet77.6783.2693.2767.8778.57
DeepLabV382.3087.0794.3475.3983.80
SE-UNet82.9587.3795.4375.7484.46
UNet++83.7787.9296.0976.6985.30
BASNet90.1093.8898.4087.4489.92
SD-BASNet92.2596.5996.5093.7992.61

新窗口打开| 下载CSV


2.3.3 定性定量分析

为分析SD-BASNet在WHU建筑物数据集中不同场景下的性能差异,在测试集中选取小尺度、多尺度、大尺度建筑物用于定性定量分析。选取的预测场景影像及标签示例如图5所示。以下分为小尺度、多尺度、大尺度3个场景分析各个网络测试性能差异的原因。

图5

图5   不同场景下建筑物示例图

Fig.5   Example drawings of buildings in different scenarios


1)小尺度建筑物提取。表3图6分别展示了小尺度建筑物场景下的检测结果和提取情况。从表3来看,在小尺度建筑物的监测下,SD-BASNet除了召回率性能比其他网络较低外,其余性能最为优越。从图6可视化场景可以看出,每当小型建筑物密度较高时,常用的语义分割模型PSPNet和SegNet结果均有不同程度的粘连,提取效果较差。DeepLabV3,SE-UNet,UNet++和BASNet对建筑物提取较为完整,建筑物轮廓能很好地被识别,然而从图中绿色和红色标注框显示得知,对于更细小的目标物体,这几种对比网络均不能识别出来,而SD-BASNet不仅在提取建筑物完整度方面表现良好,也能识别更细小的目标建筑物,证实其在小尺度建筑物场景下具有一定的优越性。

表3   小尺度建筑物的检测结果

Tab.3  Detection results of small-scale building (%)

网络mIoUmPA召回率精确率F1
PSPNet74.3079.8489.8461.4675.26
SegNet74.6482.2496.8465.4878.13
DeepLabV382.1787.9396.8077.0685.81
SE-UNet83.5988.8197.8778.4387.08
UNet++84.7789.9297.0979.6987.30
BASNet92.8996.5693.9996.0194.99
SD-BASNet93.0796.8194.7196.1795.41

新窗口打开| 下载CSV


图6

图6   小尺度建筑物提取结果

Fig.6   Extraction result of small-scale buildings


2)多尺度建筑物提取。表4图7分别展示了多尺度建筑物场景下的检测结果和提取情况。从表4可以看出,SD-BASNet总体领先于其他的对比网络,尤其在mPA精度指标方面达到了94.50%。从图7多尺度建筑物中可以明显看出建筑物的边缘提取方面,SD-BASNet具有明显优势。PSPNet与SegNet可视化结果最差,边界信息出现严重的不连续性缺陷现象;而DeepLabV3,SE-UNet和UNet++在一定程度上弥补了边缘提取缺陷问题。从标注的红绿框可知,相较于前几种网络,BASNet更注重边缘信息和语义特征的获取,从而提取结果较为精确。SD-BASNet相较于BASNet而言,不仅在参数量上有所下降,且更聚焦于特征信息之间的提取。从绿框看,比之BASNet提取建筑物出现语义信息表征弱的情况,SD-BASNet提取建筑物更为优越。

表4   多尺度建筑物的检测结果

Tab.4  Detection results of multi-scale building (%)

网络mIoUmPA召回率精确率F1
PSPNet46.1476.5178.4953.7563.14
SegNet81.0487.6995.4277.3785.45
DeepLabV381.5887.9796.2377.5685.89
SE-UNet83.0988.8097.9978.4687.15
UNet++86.8684.7997.1477.1485.02
BASNet89.3693.5894.4090.6192.51
SD-BASNet90.1894.5094.5791.8193.17

新窗口打开| 下载CSV


图7

图7   多尺度建筑物提取结果

Fig.7   Extraction result of multi-scale buildings


3)大尺度建筑物提取。表5图8分别展示了大尺度建筑物场景下的检测结果和提取情况。表5说明SD-BASNet在大尺度建筑物检测下,得到了相对较好的精度结果。从可视化图8的红绿框标注可看出,SD-BASNet在提取大尺度建筑物时表现出了优越的性能。PSPNet,SegNet,DeepLabV3,SE-UNet和UNet++在提取大尺度建筑物上出现了孔洞或粘连问题,而BASNet则出现错分现象。相比之下,SD-BASNet可较为全面地获取建筑物信息,保留其外观轮廓,但也存在一些错分现象。

表5   大尺度建筑物的检测结果

Tab.5  Detection results of large-scale building (%)

网络mIoUmPA召回率精确率F1
PSPNet39.5840.7240.7258.6256.71
SegNet82.6290.2587.1990.1488.64
DeepLabV384.5091.9092.5788.0990.28
SE-UNet88.2193.8593.5691.8092.67
UNet++87.5992.1693.3190.3491.31
BASNet91.7695.3992.7097.1294.86
SD-BASNet92.3495.9592.4997.5995.50

新窗口打开| 下载CSV


图8

图8   大尺度建筑物提取结果

Fig.8   Extraction result of large-scale buildings


2.3.4 消融实验

为验证本文SD-BASNet的可行性,进行WHU建筑物数据集的消融实验,选择BASNet,BASNet+DSC,BASNet+DC与SD-BASNet作为对比,并进行定量精度评定,表6图9所示为消融实验检测精度和结果图。从表6中可看出,4个网络在建筑物场景中适应性强,总体精度均取得了较好的结果。相比于前3个网络,SD-BASNet在mIoU、召回率与F1方面虽不是最优,但在mPA和精确率2个性能指标方面精度最优,证实了本文所提网络SD-BASNet对建筑物提取的有效性。分别选取小尺度、多尺度、大尺度建筑物用于可视化,从表6图9可知,SD-BASNet提取效果明显变好,总体精度更高。

表6   消融实验检测结果

Tab.6  Detection results of ablation tests (%)

网络mIoUmPA召回率精确率F1
BASNet90.1093.8898.4087.4489.92
BASNet+DSC86.3994.8091.3993.0592.70
BASNet+DC92.5695.0196.1693.2492.12
SD-BASNet92.2596.5996.5093.7992.61

新窗口打开| 下载CSV


图9

图9   消融实验对比结果

Fig.9   Comparison of ablation experiment results


3 讨论与结论

3.1 讨论

从上述实验结果与分析中可得出,SD-BASNet与其他几种网络相比,精度和可视化结果均有较大的提升,验证了其对HSRRSI建筑物提取的有效性和可行性。而对比基础网络BASNet,本文网络的DSRM模块能简化网络结构,降低模型的参数量;在优化模块加入DC后,能更好地提取目标特征、增强模型的表征能力,说明设计DSRM与加入DC对网络模型训练有一定的积极影响。同时,在建筑物小尺度、多尺度、大尺度的背景下,SD-BASNet与其他网络相比依旧能取得较好结果,证明了所提网络的实用性与优越性。

3.2 结论

本文利用所提出的网络SD-BASNet,降低了基础网络BASNet的参数量,同时实现了建筑物提取精度的提升。该网络为避免卷积核过大,在预测网络中设计了DSRM模块,有效减少了模型的参数量;又在优化模块的编码层中加入DC以增大特征图感受野,解决编码层下采样过程中所导致的信息丢失问题。在WHU建筑物数据集上对网络进行了实验测试。结果表明:与基础网络BASNet相比,SD-BASNet中DSRM模块的设计与DC的集成使得参数量和运行时间分别减少了25.10×106和0.36 h,且在不修改网络结构的情况下提高了其精度;相较于其他6种对比网络,其精度指标及可视化效果为总体最佳。

然而本文网络在召回率指标的提取上,依旧低于基础网络BASNet。在后续研究中,针对此问题需综合考虑样本类别的平衡问题。同时进一步优化网络结构,可尝试将语义分割算法与目标检测任务进行融合,提升网络在训练过程的精度,使其在复杂场景中达到更好的提取效果。

参考文献

张卓尔, 潘俊, 舒奇迪.

基于双路细节关注网络的遥感影像建筑物提取

[J]. 武汉大学学报(信息科学版), 2024, 49(3):376-388.

[本文引用: 1]

Zhang Z E, Pan J, Shu Q D.

Building extraction based on dual-stream detail-concerned network

[J]. Geomatics and Information Science of Wuhan University, 2024, 49(3):376-388.

[本文引用: 1]

李治, 隋正伟, 傅俏燕, .

基于形态学序列和多源先验信息的城市建筑物高分遥感提取

[J]. 遥感学报, 2023, 27(4):998-1008.

[本文引用: 1]

Li Z, Sui Z W, Fu Q Y, et al.

High-resolution remote sensing extraction of urban buildings based on morphological sequences and multi-source a priori information

[J]. National Remote Sensing Bulletin, 2023, 27(4):998-1008.

[本文引用: 1]

张云佐, 郭威, 武存宇.

融合CNN和Transformer的遥感图像建筑物快速提取

[J]. 光学精密工程, 2023, 31(11):1700-1709.

[本文引用: 1]

Zhang Y Z, Guo W, Wu C Y.

Fast extraction of buildings from remote sensing images by fusion of CNN and Transformer

[J]. Optics and Precision Engineering, 2023, 31(11):1700-1709.

[本文引用: 1]

Otsu N.

A threshold selection method from gray-level histograms

[J]. IEEE Transactions on Systems,Man,and Cybernetics, 1979, 9(1):62-66.

[本文引用: 1]

Zhang M, Zhang L, Cheng H D.

A neutrosophic approach to image segmentation based on watershed method

[J]. Signal Processing, 2010, 90(5):1510-1517.

[本文引用: 1]

Prewitt J M S.

Object enhancement and extraction

[J]. Picture Processing and Psychopictorics, 1970, 10(1):15-19.

[本文引用: 1]

Luo L, Li P, Yan X.

Deep learning-based building extraction from remote sensing images:A comprehensive review

[J]. Energies, 2021, 14(23):7982.

[本文引用: 1]

李星华, 白学辰, 李正军, .

面向高分影像建筑物提取的多层次特征融合网络

[J]. 武汉大学学报(信息科学版), 2022, 47(8):1236-1244.

[本文引用: 1]

Li X H, Bai X C, Li Z J, et al.

High-resolution image building extraction based on multi-level feature fusion network

[J]. Geomatics and Information Science of Wuhan University, 2022, 47(8):1236-1244.

[本文引用: 1]

Diwan T, Anirudh G, Tembhurne J V.

Object detection using YOLO:Challenges,architectural successors,datasets and applications

[J]. Multimedia Tools and Applications, 2023, 82(6):9243-9275.

Tahraoui A, Kheddam R, Belhadj-Aissa A. Land change detection in sentinel-2 images using IR-MAD and deep neural network[C]//2023 International Conference on Earth Observation and Geo-Spatial Information (ICEOGI). IEEE, 2023:1-6.

[本文引用: 1]

Feng W, Sui H, Hua L, et al.

Building extraction from VHR remote sensing imagery by combining an improved deep convolutional encoder-decoder architecture and historical land use vector map

[J]. International Journal of Remote Sensing, 2020, 41(17):6595-6617.

[本文引用: 1]

Hosseinpoor H, Samadzadegan F. Convolutional neural network for building extraction from high-resolution remote sensing images[C]//2020 International Conference on Machine Vision and Ima-ge Processing (MVIP). IEEE, 2020:1-5.

Ji S, Wei S, Lu M.

Fully convolutional networks for multisource building extraction from an open aerial and satellite imagery data set

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(1):574-586.

[本文引用: 1]

Bouvrie J.

Notes on convolutional neural networks

[J]. In Practice,2006:47-60.

[本文引用: 1]

Cai Y, Chen D, Tang Y, et al. Multi-scale building instance extraction framework in high resolution remote sensing imagery based on feature pyramid object-aware convolution neural network[C]//2021 IEEE International Geoscience and Remote Sensing Symposium IGARSS. IEEE,2021:2779-2782.

[本文引用: 1]

Das P, Chand S. AttentionBuildNet for building extraction from ae-rial imagery[C]// 2021 International Conference on Computing,Communication,and Intelligent Systems (ICCCIS). IEEE,2021:576-580.

[本文引用: 1]

Zhang Z, Zhang C, Li W. Semantic segmentation of urban buildings from VHR remotely sensed imagery using attention-based CNN[C]// IEEE International Geoscience and Remote Sensing Symposium. IEEE,2020:1833-1836.

[本文引用: 1]

王华俊, 葛小三.

一种轻量级的DeepLabv3+遥感影像建筑物提取方法

[J]. 自然资源遥感, 2022, 34(2):128-135.doi:10.6046/zrzyyg.2021219.

[本文引用: 1]

Wang H J, Ge X S.

Lightweight DeepLabv3+ building extraction method from remote sensing images

[J]. Remote Sensing for Natural Resources, 2022, 34(2):128-135.doi:10.6046/zrzyyg.2021219.

[本文引用: 1]

Qin X, Fan D P, Huang C, et al.

Boundary-aware segmentation network for mobile and web applications

[J/OL]. 2021: 2101.04704. https://arxiv.org/abs/2101.04704v2.

URL     [本文引用: 1]

Chollet F. Xception:Deep learning with depthwise separable convolutions[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017:1800-1807.

[本文引用: 1]

Yu F, Koltun V.

Multi-scale context aggregation by dilated convolutions

[J/OL]. 2015: 1511.07122. https://arxiv.org/abs/1511.07122v3.

URL     [本文引用: 3]

Howard A G, Zhu M, Chen B, et al.

MobileNets: Efficient convolutional neural networks for mobile vision applications

[J/OL]. 2017: 1704.04861. https://arxiv.org/abs/1704.04861v1.

URL     [本文引用: 1]

Krizhevsky A, Sutskever I, Hinton G E.

ImageNet classification with deep convolutional neural networks

[J]. Communications of the ACM, 2017, 60(6):84-90.

Tan M, Le Q V.

EfficientNet:Rethinking model scaling for convolutional neural networks

[J/OL].2019: 1905.11946. https://arxiv.org/abs/1905.11946v5.

URL     [本文引用: 1]

季顺平, 魏世清.

遥感影像建筑物提取的卷积神经元网络与开源数据集方法

[J]. 测绘学报, 2019, 48(4):448-459.

DOI:10.11947/j.AGCS.2019.20180206      [本文引用: 1]

从遥感图像中自动化地检测和提取建筑物在城市规划、人口估计、地形图制作和更新等应用中具有极为重要的意义。本文提出和展示了建筑物提取的数个研究进展。由于遥感成像机理、建筑物自身、背景环境的复杂性,传统的经验设计特征的方法一直未能实现自动化,建筑物提取成为30余年尚未解决的挑战。先进的深度学习方法带来新的机遇,但目前存在两个困境:①尚缺少高精度的建筑物数据库,而数据是深度学习必不可少的“燃料”;②目前国际上的方法都采用像素级的语义分割,目标级、矢量级的提取工作亟待开展。针对于此,本文进行以下工作:①与目前同类数据集相比,建立了一套目前国际上范围最大、精度最高、涵盖多种样本形式(栅格、矢量)、多类数据源(航空、卫星)的建筑物数据库(WHU building dataset),并实现开源;②提出一种基于全卷积网络的建筑物语义分割方法,与当前国际上的最新算法相比达到了领先水平;③将建筑物提取的范围从像素级的语义分割推广至目标实例分割,实现以目标(建筑物)为对象的识别和提取。通过试验,验证了WHU数据库在国际上的领先性和本文方法的先进性。

Ji S P, Wei S Q.

Building extraction via convolutional neural networks from an open remote sensing building dataset

[J]. Acta Geodaetica et Cartographica Sinica, 2019, 48(4):448-459.

DOI:10.11947/j.AGCS.2019.20180206      [本文引用: 1]

Automatic extraction of buildings from remote sensing images is significant to city planning, popular estimation, map making and updating.We report several important developments in building extraction. Automatic building recognition from remote sensing data has been a scientific challenge of more than 30 years. Traditional methods based on empirical feature design can hardly realize automation. Advanced deep learning based methods show prospects but have two limitations now. Firstly, large and accurate building datasets are lacking while such dataset is the necessary fuel for deep learning. Secondly, the current researches only concern building's pixel wise semantic segmentation and the further extractions on instance-level and vector-level are urgently required. This paper proposes several solutions. First, we create a large, high-resolution, accurate and open-source building dataset, which consists of aerial and satellite images with both raster and vector labels. Second,we propose a novel structure based on fully neural network which achieved the best accuracy of semantic segmentation compared to most recent studies. Third, we propose a building instance segmentation method which expands the current studies of pixel-level segmentation to building-level segmentation. Experiments proved our dataset's superiority in accuracy and multi-usage and our methods' advancement. It is expected that our researches might push forward the challenging building extraction study.

Zhao H, Shi J, Qi X, et al. Pyramid scene parsing network[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017:6230-6239.

[本文引用: 1]

Badrinarayanan V, Kendall A, Cipolla R.

SegNet:A deep convolutional encoder-decoder architecture for image segmentation

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12):2481-2495.

DOI:10.1109/TPAMI.2016.2644615      PMID:28060704      [本文引用: 1]

We present a novel and practical deep fully convolutional neural network architecture for semantic pixel-wise segmentation termed SegNet. This core trainable segmentation engine consists of an encoder network, a corresponding decoder network followed by a pixel-wise classification layer. The architecture of the encoder network is topologically identical to the 13 convolutional layers in the VGG16 network [1]. The role of the decoder network is to map the low resolution encoder feature maps to full input resolution feature maps for pixel-wise classification. The novelty of SegNet lies is in the manner in which the decoder upsamples its lower resolution input feature map(s). Specifically, the decoder uses pooling indices computed in the max-pooling step of the corresponding encoder to perform non-linear upsampling. This eliminates the need for learning to upsample. The upsampled maps are sparse and are then convolved with trainable filters to produce dense feature maps. We compare our proposed architecture with the widely adopted FCN [2] and also with the well known DeepLab-LargeFOV [3], DeconvNet [4] architectures. This comparison reveals the memory versus accuracy trade-off involved in achieving good segmentation performance. SegNet was primarily motivated by scene understanding applications. Hence, it is designed to be efficient both in terms of memory and computational time during inference. It is also significantly smaller in the number of trainable parameters than other competing architectures and can be trained end-to-end using stochastic gradient descent. We also performed a controlled benchmark of SegNet and other architectures on both road scenes and SUN RGB-D indoor scene segmentation tasks. These quantitative assessments show that SegNet provides good performance with competitive inference time and most efficient inference memory-wise as compared to other architectures. We also provide a Caffe implementation of SegNet and a web demo at http://mi.eng.cam.ac.uk/projects/segnet.

Chen L C, Papandreou G, Schroff F, et al.

Rethinking atrous convolution for semantic image segmentation

[J/OL]. 2017: 1706.05587. https://arxiv.org/abs/1706.05587v3.

URL     [本文引用: 1]

刘浩, 骆剑承, 黄波, .

基于特征压缩激活Unet网络的建筑物提取

[J]. 地球信息科学学报, 2019, 21(11):1779-1789.

DOI:10.12082/dqxxkx.2019.190285      [本文引用: 1]

自动提取城市建筑物对城市规划、防灾避险等行业应用具有重要意义,当前利用高空间分辨率遥感影像进行建筑物提取的卷积神经网络在网络结构和损失函数上都存在提升的空间。本研究提出一种卷积神经网络SE-Unet,以U-Net网络结构为基础,在编码器内使用特征压缩激活模块增加网络特征学习能力,在解码器中复用编码器中相应尺度的特征实现空间信息的恢复;并使用dice和交叉熵函数复合的损失函数进行训练,减轻了建筑物提取任务中的样本不平衡问题。实验采用了Massachusetts建筑物数据集,和SegNet、LinkNet、U-Net等模型进行对比,实验中SE-Unet在准确度、召回率、F1分数和总体精度 4项精度指标中表现最优,分别达到0.8704、0.8496、0.8599、0.9472,在测试影像中对大小各异和形状不规则的建筑物具有更好的识别效果。

Liu H, Luo J C, Huang B, et al.

Building extraction based on SE-unet

[J]. Journal of Geo-Information Science, 2019, 21(11):1779-1789.

[本文引用: 1]

Zhou Z, Siddiquee M M R, Tajbakhsh N, et al.

UNet:Redesigning skip connections to exploit multiscale features in image segmentation

[J]. IEEE Transactions on Medical Imaging, 2020, 39(6):1856-1867.

[本文引用: 1]

/

京ICP备05055290号-2
版权所有 © 2015 《自然资源遥感》编辑部
地址:北京学院路31号中国国土资源航空物探遥感中心 邮编:100083
电话:010-62060291/62060292 E-mail:zrzyyg@163.com
本系统由北京玛格泰克科技发展有限公司设计开发