面向高分辨率遥感影像建筑物提取的SD-BASNet网络

doi:10.6046/zrzyyg.2024209

[1]

张卓尔, 潘俊, 舒奇迪.

基于双路细节关注网络的遥感影像建筑物提取

[J]. 武汉大学学报(信息科学版), 2024, 49(3):376-388.

[本文引用: 1]

Zhang

Z E

, Pan

J

, Shu

Q D

.

Building extraction based on dual-stream detail-concerned network

[J]. Geomatics and Information Science of Wuhan University, 2024, 49(3):376-388.

[本文引用: 1]

[2]

李治, 隋正伟, 傅俏燕, 等.

基于形态学序列和多源先验信息的城市建筑物高分遥感提取

[J]. 遥感学报, 2023, 27(4):998-1008.

[本文引用: 1]

Li

Z

, Sui

Z W

, Fu

Q Y

, et al.

High-resolution remote sensing extraction of urban buildings based on morphological sequences and multi-source a priori information

[J]. National Remote Sensing Bulletin, 2023, 27(4):998-1008.

[本文引用: 1]

[3]

张云佐, 郭威, 武存宇.

融合CNN和Transformer的遥感图像建筑物快速提取

[J]. 光学精密工程, 2023, 31(11):1700-1709.

[本文引用: 1]

Zhang

Y Z

, Guo

W

, Wu

C Y

.

Fast extraction of buildings from remote sensing images by fusion of CNN and Transformer

[J]. Optics and Precision Engineering, 2023, 31(11):1700-1709.

[本文引用: 1]

[4]

Otsu

N

.

A threshold selection method from gray-level histograms

[J]. IEEE Transactions on Systems,Man,and Cybernetics, 1979, 9(1):62-66.

[本文引用: 1]

[5]

Zhang

M

, Zhang

L

, Cheng

H D

.

A neutrosophic approach to image segmentation based on watershed method

[J]. Signal Processing, 2010, 90(5):1510-1517.

[本文引用: 1]

[6]

Prewitt

J M S

.

Object enhancement and extraction

[J]. Picture Processing and Psychopictorics, 1970, 10(1):15-19.

[本文引用: 1]

[7]

Luo

L

, Li

P

, Yan

X

.

Deep learning-based building extraction from remote sensing images:A comprehensive review

[J]. Energies, 2021, 14(23):7982.

[本文引用: 1]

[8]

李星华, 白学辰, 李正军, 等.

面向高分影像建筑物提取的多层次特征融合网络

[J]. 武汉大学学报(信息科学版), 2022, 47(8):1236-1244.

[本文引用: 1]

Li

X H

, Bai

X C

, Li

Z J

, et al.

High-resolution image building extraction based on multi-level feature fusion network

[J]. Geomatics and Information Science of Wuhan University, 2022, 47(8):1236-1244.

[本文引用: 1]

[9]

Diwan

T

, Anirudh

G

, Tembhurne

J V

.

Object detection using YOLO:Challenges,architectural successors,datasets and applications

[J]. Multimedia Tools and Applications, 2023, 82(6):9243-9275.

[10]

Tahraoui

A

, Kheddam

R

, Belhadj-Aissa

A

.

Land change detection in sentinel-2 images using IR-MAD and deep neural network[C]//2023 International Conference on Earth Observation and Geo-Spatial Information (ICEOGI). IEEE, 2023:1-6.

[本文引用: 1]

[11]

Feng

W

, Sui

H

, Hua

L

, et al.

Building extraction from VHR remote sensing imagery by combining an improved deep convolutional encoder-decoder architecture and historical land use vector map

[J]. International Journal of Remote Sensing, 2020, 41(17):6595-6617.

[本文引用: 1]

[12]

Hosseinpoor

H

, Samadzadegan

F

.

Convolutional neural network for building extraction from high-resolution remote sensing images[C]//2020 International Conference on Machine Vision and Ima-ge Processing (MVIP). IEEE, 2020:1-5.

[13]

Ji

S

, Wei

S

, Lu

M

.

Fully convolutional networks for multisource building extraction from an open aerial and satellite imagery data set

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(1):574-586.

[本文引用: 1]

[14]

Bouvrie

J

.

Notes on convolutional neural networks

[J]. In Practice,2006:47-60.

[本文引用: 1]

[15]

Cai

Y

, Chen

D

, Tang

Y

, et al.

Multi-scale building instance extraction framework in high resolution remote sensing imagery based on feature pyramid object-aware convolution neural network[C]//2021 IEEE International Geoscience and Remote Sensing Symposium IGARSS. IEEE,2021:2779-2782.

[本文引用: 1]

[16]

Das

P

, Chand

S

.

AttentionBuildNet for building extraction from ae-rial imagery[C]// 2021 International Conference on Computing,Communication,and Intelligent Systems (ICCCIS). IEEE,2021:576-580.

[本文引用: 1]

[17]

Zhang

Z

, Zhang

C

, Li

W

.

Semantic segmentation of urban buildings from VHR remotely sensed imagery using attention-based CNN[C]// IEEE International Geoscience and Remote Sensing Symposium. IEEE,2020:1833-1836.

[本文引用: 1]

[18]

王华俊, 葛小三.

一种轻量级的DeepLabv3+遥感影像建筑物提取方法

[J]. 自然资源遥感, 2022, 34(2):128-135.doi:10.6046/zrzyyg.2021219.

[本文引用: 1]

Wang

H J

, Ge

X S

.

Lightweight DeepLabv3+ building extraction method from remote sensing images

[J]. Remote Sensing for Natural Resources, 2022, 34(2):128-135.doi:10.6046/zrzyyg.2021219.

[本文引用: 1]

[19]

Qin

X

, Fan

D P

, Huang

C

, et al.

Boundary-aware segmentation network for mobile and web applications

[J/OL]. 2021: 2101.04704. https://arxiv.org/abs/2101.04704v2.

URL [本文引用: 1]

[20]

Chollet

F

.

Xception:Deep learning with depthwise separable convolutions[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017:1800-1807.

[本文引用: 1]

[21]

Yu

F

, Koltun

V

.

Multi-scale context aggregation by dilated convolutions

[J/OL]. 2015: 1511.07122. https://arxiv.org/abs/1511.07122v3.

URL [本文引用: 3]

[22]

Howard

A G

, Zhu

M

, Chen

B

, et al.

MobileNets: Efficient convolutional neural networks for mobile vision applications

[J/OL]. 2017: 1704.04861. https://arxiv.org/abs/1704.04861v1.

URL [本文引用: 1]

[23]

Krizhevsky

A

, Sutskever

I

, Hinton

G E

.

ImageNet classification with deep convolutional neural networks

[J]. Communications of the ACM, 2017, 60(6):84-90.

[24]

Tan

M

, Le

Q V

.

EfficientNet:Rethinking model scaling for convolutional neural networks

[J/OL].2019: 1905.11946. https://arxiv.org/abs/1905.11946v5.

URL [本文引用: 1]

[25]

季顺平, 魏世清.

遥感影像建筑物提取的卷积神经元网络与开源数据集方法

[J]. 测绘学报, 2019, 48(4):448-459.

DOI:10.11947/j.AGCS.2019.20180206 [本文引用: 1]

从遥感图像中自动化地检测和提取建筑物在城市规划、人口估计、地形图制作和更新等应用中具有极为重要的意义。本文提出和展示了建筑物提取的数个研究进展。由于遥感成像机理、建筑物自身、背景环境的复杂性，传统的经验设计特征的方法一直未能实现自动化，建筑物提取成为30余年尚未解决的挑战。先进的深度学习方法带来新的机遇，但目前存在两个困境：①尚缺少高精度的建筑物数据库，而数据是深度学习必不可少的“燃料”；②目前国际上的方法都采用像素级的语义分割，目标级、矢量级的提取工作亟待开展。针对于此，本文进行以下工作：①与目前同类数据集相比，建立了一套目前国际上范围最大、精度最高、涵盖多种样本形式（栅格、矢量）、多类数据源（航空、卫星）的建筑物数据库（WHU building dataset），并实现开源；②提出一种基于全卷积网络的建筑物语义分割方法，与当前国际上的最新算法相比达到了领先水平；③将建筑物提取的范围从像素级的语义分割推广至目标实例分割，实现以目标（建筑物）为对象的识别和提取。通过试验，验证了WHU数据库在国际上的领先性和本文方法的先进性。

Ji

S P

, Wei

S Q

.

Building extraction via convolutional neural networks from an open remote sensing building dataset

[J]. Acta Geodaetica et Cartographica Sinica, 2019, 48(4):448-459.

DOI:10.11947/j.AGCS.2019.20180206 [本文引用: 1]

Automatic extraction of buildings from remote sensing images is significant to city planning, popular estimation, map making and updating.We report several important developments in building extraction. Automatic building recognition from remote sensing data has been a scientific challenge of more than 30 years. Traditional methods based on empirical feature design can hardly realize automation. Advanced deep learning based methods show prospects but have two limitations now. Firstly, large and accurate building datasets are lacking while such dataset is the necessary fuel for deep learning. Secondly, the current researches only concern building's pixel wise semantic segmentation and the further extractions on instance-level and vector-level are urgently required. This paper proposes several solutions. First, we create a large, high-resolution, accurate and open-source building dataset, which consists of aerial and satellite images with both raster and vector labels. Second,we propose a novel structure based on fully neural network which achieved the best accuracy of semantic segmentation compared to most recent studies. Third, we propose a building instance segmentation method which expands the current studies of pixel-level segmentation to building-level segmentation. Experiments proved our dataset's superiority in accuracy and multi-usage and our methods' advancement. It is expected that our researches might push forward the challenging building extraction study.

[26]

Zhao

H

, Shi

J

, Qi

X

, et al.

Pyramid scene parsing network[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017:6230-6239.

[本文引用: 1]

[27]

Badrinarayanan

V

, Kendall

A

, Cipolla

R

.

SegNet:A deep convolutional encoder-decoder architecture for image segmentation

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12):2481-2495.

DOI:10.1109/TPAMI.2016.2644615 PMID:28060704 [本文引用: 1]

We present a novel and practical deep fully convolutional neural network architecture for semantic pixel-wise segmentation termed SegNet. This core trainable segmentation engine consists of an encoder network, a corresponding decoder network followed by a pixel-wise classification layer. The architecture of the encoder network is topologically identical to the 13 convolutional layers in the VGG16 network [1]. The role of the decoder network is to map the low resolution encoder feature maps to full input resolution feature maps for pixel-wise classification. The novelty of SegNet lies is in the manner in which the decoder upsamples its lower resolution input feature map(s). Specifically, the decoder uses pooling indices computed in the max-pooling step of the corresponding encoder to perform non-linear upsampling. This eliminates the need for learning to upsample. The upsampled maps are sparse and are then convolved with trainable filters to produce dense feature maps. We compare our proposed architecture with the widely adopted FCN [2] and also with the well known DeepLab-LargeFOV [3], DeconvNet [4] architectures. This comparison reveals the memory versus accuracy trade-off involved in achieving good segmentation performance. SegNet was primarily motivated by scene understanding applications. Hence, it is designed to be efficient both in terms of memory and computational time during inference. It is also significantly smaller in the number of trainable parameters than other competing architectures and can be trained end-to-end using stochastic gradient descent. We also performed a controlled benchmark of SegNet and other architectures on both road scenes and SUN RGB-D indoor scene segmentation tasks. These quantitative assessments show that SegNet provides good performance with competitive inference time and most efficient inference memory-wise as compared to other architectures. We also provide a Caffe implementation of SegNet and a web demo at http://mi.eng.cam.ac.uk/projects/segnet.

[28]

Chen

L C

, Papandreou

G

, Schroff

F

, et al.

Rethinking atrous convolution for semantic image segmentation

[J/OL]. 2017: 1706.05587. https://arxiv.org/abs/1706.05587v3.

URL [本文引用: 1]

[29]

刘浩, 骆剑承, 黄波, 等.

基于特征压缩激活Unet网络的建筑物提取

[J]. 地球信息科学学报, 2019, 21(11):1779-1789.

DOI:10.12082/dqxxkx.2019.190285 [本文引用: 1]

自动提取城市建筑物对城市规划、防灾避险等行业应用具有重要意义,当前利用高空间分辨率遥感影像进行建筑物提取的卷积神经网络在网络结构和损失函数上都存在提升的空间。本研究提出一种卷积神经网络SE-Unet,以U-Net网络结构为基础,在编码器内使用特征压缩激活模块增加网络特征学习能力,在解码器中复用编码器中相应尺度的特征实现空间信息的恢复;并使用dice和交叉熵函数复合的损失函数进行训练,减轻了建筑物提取任务中的样本不平衡问题。实验采用了Massachusetts建筑物数据集,和SegNet、LinkNet、U-Net等模型进行对比,实验中SE-Unet在准确度、召回率、F1分数和总体精度 4项精度指标中表现最优,分别达到0.8704、0.8496、0.8599、0.9472,在测试影像中对大小各异和形状不规则的建筑物具有更好的识别效果。

Liu

H

, Luo

J C

, Huang

B

, et al.

Building extraction based on SE-unet

[J]. Journal of Geo-Information Science, 2019, 21(11):1779-1789.

[本文引用: 1]

[30]

Zhou

Z

, Siddiquee

M M R

, Tajbakhsh

N

, et al.

UNet:Redesigning skip connections to exploit multiscale features in image segmentation

[J]. IEEE Transactions on Medical Imaging, 2020, 39(6):1856-1867.

[本文引用: 1]

基于双路细节关注网络的遥感影像建筑物提取

1

2024

... 建筑物是一种重要的基础设施，也是反映社会经济和文化特征的历史遗产.同时，建筑物信息作为地理信息的重要组成部分，广泛应用于城市规划、军事侦察和灾害监测等方面^[1-2].遥感技术的广泛应用推动了卫星图像解译领域的迅猛发展，使得对建筑物的解译结果更加精准^[3].在传统建筑物分割方法中，主要根据影像的颜色、纹理和边缘信息等低维视觉特征进行建筑物的提取，经典的分割方法有基于阈值的大津法^[4]、基于区域的分水岭分割法^[5]、Prewitt算子边缘检测等^[6].但传统方法一般需要专家知识建立相关的规则分割建筑物，对影像语义信息的提取泛化性大幅减弱，且过度依赖解译人员对场景的认知、效率低下，已不能满足当前实际应用需求^[7]. ...

基于双路细节关注网络的遥感影像建筑物提取

1

2024

... 建筑物是一种重要的基础设施，也是反映社会经济和文化特征的历史遗产.同时，建筑物信息作为地理信息的重要组成部分，广泛应用于城市规划、军事侦察和灾害监测等方面^[1-2].遥感技术的广泛应用推动了卫星图像解译领域的迅猛发展，使得对建筑物的解译结果更加精准^[3].在传统建筑物分割方法中，主要根据影像的颜色、纹理和边缘信息等低维视觉特征进行建筑物的提取，经典的分割方法有基于阈值的大津法^[4]、基于区域的分水岭分割法^[5]、Prewitt算子边缘检测等^[6].但传统方法一般需要专家知识建立相关的规则分割建筑物，对影像语义信息的提取泛化性大幅减弱，且过度依赖解译人员对场景的认知、效率低下，已不能满足当前实际应用需求^[7]. ...

基于形态学序列和多源先验信息的城市建筑物高分遥感提取

1

2023

... 建筑物是一种重要的基础设施，也是反映社会经济和文化特征的历史遗产.同时，建筑物信息作为地理信息的重要组成部分，广泛应用于城市规划、军事侦察和灾害监测等方面^[1-2].遥感技术的广泛应用推动了卫星图像解译领域的迅猛发展，使得对建筑物的解译结果更加精准^[3].在传统建筑物分割方法中，主要根据影像的颜色、纹理和边缘信息等低维视觉特征进行建筑物的提取，经典的分割方法有基于阈值的大津法^[4]、基于区域的分水岭分割法^[5]、Prewitt算子边缘检测等^[6].但传统方法一般需要专家知识建立相关的规则分割建筑物，对影像语义信息的提取泛化性大幅减弱，且过度依赖解译人员对场景的认知、效率低下，已不能满足当前实际应用需求^[7]. ...

基于形态学序列和多源先验信息的城市建筑物高分遥感提取

1

2023

... 建筑物是一种重要的基础设施，也是反映社会经济和文化特征的历史遗产.同时，建筑物信息作为地理信息的重要组成部分，广泛应用于城市规划、军事侦察和灾害监测等方面^[1-2].遥感技术的广泛应用推动了卫星图像解译领域的迅猛发展，使得对建筑物的解译结果更加精准^[3].在传统建筑物分割方法中，主要根据影像的颜色、纹理和边缘信息等低维视觉特征进行建筑物的提取，经典的分割方法有基于阈值的大津法^[4]、基于区域的分水岭分割法^[5]、Prewitt算子边缘检测等^[6].但传统方法一般需要专家知识建立相关的规则分割建筑物，对影像语义信息的提取泛化性大幅减弱，且过度依赖解译人员对场景的认知、效率低下，已不能满足当前实际应用需求^[7]. ...

融合CNN和Transformer的遥感图像建筑物快速提取

1

2023

... 建筑物是一种重要的基础设施，也是反映社会经济和文化特征的历史遗产.同时，建筑物信息作为地理信息的重要组成部分，广泛应用于城市规划、军事侦察和灾害监测等方面^[1-2].遥感技术的广泛应用推动了卫星图像解译领域的迅猛发展，使得对建筑物的解译结果更加精准^[3].在传统建筑物分割方法中，主要根据影像的颜色、纹理和边缘信息等低维视觉特征进行建筑物的提取，经典的分割方法有基于阈值的大津法^[4]、基于区域的分水岭分割法^[5]、Prewitt算子边缘检测等^[6].但传统方法一般需要专家知识建立相关的规则分割建筑物，对影像语义信息的提取泛化性大幅减弱，且过度依赖解译人员对场景的认知、效率低下，已不能满足当前实际应用需求^[7]. ...

融合CNN和Transformer的遥感图像建筑物快速提取

1

2023

... 建筑物是一种重要的基础设施，也是反映社会经济和文化特征的历史遗产.同时，建筑物信息作为地理信息的重要组成部分，广泛应用于城市规划、军事侦察和灾害监测等方面^[1-2].遥感技术的广泛应用推动了卫星图像解译领域的迅猛发展，使得对建筑物的解译结果更加精准^[3].在传统建筑物分割方法中，主要根据影像的颜色、纹理和边缘信息等低维视觉特征进行建筑物的提取，经典的分割方法有基于阈值的大津法^[4]、基于区域的分水岭分割法^[5]、Prewitt算子边缘检测等^[6].但传统方法一般需要专家知识建立相关的规则分割建筑物，对影像语义信息的提取泛化性大幅减弱，且过度依赖解译人员对场景的认知、效率低下，已不能满足当前实际应用需求^[7]. ...

A threshold selection method from gray-level histograms

1

1979

... 建筑物是一种重要的基础设施，也是反映社会经济和文化特征的历史遗产.同时，建筑物信息作为地理信息的重要组成部分，广泛应用于城市规划、军事侦察和灾害监测等方面^[1-2].遥感技术的广泛应用推动了卫星图像解译领域的迅猛发展，使得对建筑物的解译结果更加精准^[3].在传统建筑物分割方法中，主要根据影像的颜色、纹理和边缘信息等低维视觉特征进行建筑物的提取，经典的分割方法有基于阈值的大津法^[4]、基于区域的分水岭分割法^[5]、Prewitt算子边缘检测等^[6].但传统方法一般需要专家知识建立相关的规则分割建筑物，对影像语义信息的提取泛化性大幅减弱，且过度依赖解译人员对场景的认知、效率低下，已不能满足当前实际应用需求^[7]. ...

A neutrosophic approach to image segmentation based on watershed method

1

2010

... 建筑物是一种重要的基础设施，也是反映社会经济和文化特征的历史遗产.同时，建筑物信息作为地理信息的重要组成部分，广泛应用于城市规划、军事侦察和灾害监测等方面^[1-2].遥感技术的广泛应用推动了卫星图像解译领域的迅猛发展，使得对建筑物的解译结果更加精准^[3].在传统建筑物分割方法中，主要根据影像的颜色、纹理和边缘信息等低维视觉特征进行建筑物的提取，经典的分割方法有基于阈值的大津法^[4]、基于区域的分水岭分割法^[5]、Prewitt算子边缘检测等^[6].但传统方法一般需要专家知识建立相关的规则分割建筑物，对影像语义信息的提取泛化性大幅减弱，且过度依赖解译人员对场景的认知、效率低下，已不能满足当前实际应用需求^[7]. ...

Object enhancement and extraction

1

1970

... 建筑物是一种重要的基础设施，也是反映社会经济和文化特征的历史遗产.同时，建筑物信息作为地理信息的重要组成部分，广泛应用于城市规划、军事侦察和灾害监测等方面^[1-2].遥感技术的广泛应用推动了卫星图像解译领域的迅猛发展，使得对建筑物的解译结果更加精准^[3].在传统建筑物分割方法中，主要根据影像的颜色、纹理和边缘信息等低维视觉特征进行建筑物的提取，经典的分割方法有基于阈值的大津法^[4]、基于区域的分水岭分割法^[5]、Prewitt算子边缘检测等^[6].但传统方法一般需要专家知识建立相关的规则分割建筑物，对影像语义信息的提取泛化性大幅减弱，且过度依赖解译人员对场景的认知、效率低下，已不能满足当前实际应用需求^[7]. ...

Deep learning-based building extraction from remote sensing images:A comprehensive review

1

2021

... 建筑物是一种重要的基础设施，也是反映社会经济和文化特征的历史遗产.同时，建筑物信息作为地理信息的重要组成部分，广泛应用于城市规划、军事侦察和灾害监测等方面^[1-2].遥感技术的广泛应用推动了卫星图像解译领域的迅猛发展，使得对建筑物的解译结果更加精准^[3].在传统建筑物分割方法中，主要根据影像的颜色、纹理和边缘信息等低维视觉特征进行建筑物的提取，经典的分割方法有基于阈值的大津法^[4]、基于区域的分水岭分割法^[5]、Prewitt算子边缘检测等^[6].但传统方法一般需要专家知识建立相关的规则分割建筑物，对影像语义信息的提取泛化性大幅减弱，且过度依赖解译人员对场景的认知、效率低下，已不能满足当前实际应用需求^[7]. ...

面向高分影像建筑物提取的多层次特征融合网络

1

2022

... 随着人工智能的兴起，深度学习已在语义分割、目标检测、变化检测等多项技术上取得了突破性进展^[8-10].相较于传统方法的图像解译，深度学习不仅能提取出影像的高维语义特征，且精度更高^[11-13].其中，卷积神经网络（convolutional neural network，CNN）的方法能从输入的海量数据中自主学习图像深层特征，为建筑物语义分割提供了一种新的参考^[14].如Cai等^[15]针对尺度多样性及相邻建筑物的遮挡问题，提出了一种多尺度对象感知实例提议网络，该网络通过特征金字塔与多尺度注意力机制的结合描述及感知物体，有效地区分相邻建筑物；Das等^[16]基于CNN创新性地提出了ABNet网络，通过卷积注意力模块聚焦于影像重要特征的提取，接着引入交叉注意力模块，用以捕捉不同扩张速率下的多尺度特征，从而有效解决边界模糊的问题，精确提取建筑物足迹与边界；Zhang等^[17]提出了建筑物提取网络DeepAttentionUNet，该网络将注意力机制与残差学习方法相结合，在突出建筑物有用特征的同时缓解了网络训练过程中出现的退化问题，成功应用于城市建筑物提取；王华俊等^[18]使用MobileNetv2替换DeepLabV3+的主干网络，提出一种轻量级DeepLabV3+模型用以解决网络参数量大的问题，该方法在训练速度与精度上有所提高，然而对大型建筑物的边界提取易出现空洞或模糊现象.总体来看，深度学习引领建筑物提取方法向一个崭新的方向发展，能够有效提取建筑物特征；然而在复杂场景下建筑物提取时仍存在边界精度低、大尺度建筑物提取时出现孔洞等问题，无法同时满足目标的高效提取.针对此问题，Qin等^[19]提出了BASNet网络，该网络最初用于显著性目标的边缘增强分割.此深度网络通过将预测编解码模块和残差优化模块相结合，有效解决了深度学习算法在目标检测中的边界模糊问题，且在目标提取时完整度较好.然而此网络在编码过程中，连续的卷积与下采样操作导致高层语义信息损失过多，建筑物空间细节信息的获取易受干扰.此外，该网络基于端到端的方式对目标进行编解码，计算复杂度较高，网络训练时间长. ...

面向高分影像建筑物提取的多层次特征融合网络

1

2022

... 随着人工智能的兴起，深度学习已在语义分割、目标检测、变化检测等多项技术上取得了突破性进展^[8-10].相较于传统方法的图像解译，深度学习不仅能提取出影像的高维语义特征，且精度更高^[11-13].其中，卷积神经网络（convolutional neural network，CNN）的方法能从输入的海量数据中自主学习图像深层特征，为建筑物语义分割提供了一种新的参考^[14].如Cai等^[15]针对尺度多样性及相邻建筑物的遮挡问题，提出了一种多尺度对象感知实例提议网络，该网络通过特征金字塔与多尺度注意力机制的结合描述及感知物体，有效地区分相邻建筑物；Das等^[16]基于CNN创新性地提出了ABNet网络，通过卷积注意力模块聚焦于影像重要特征的提取，接着引入交叉注意力模块，用以捕捉不同扩张速率下的多尺度特征，从而有效解决边界模糊的问题，精确提取建筑物足迹与边界；Zhang等^[17]提出了建筑物提取网络DeepAttentionUNet，该网络将注意力机制与残差学习方法相结合，在突出建筑物有用特征的同时缓解了网络训练过程中出现的退化问题，成功应用于城市建筑物提取；王华俊等^[18]使用MobileNetv2替换DeepLabV3+的主干网络，提出一种轻量级DeepLabV3+模型用以解决网络参数量大的问题，该方法在训练速度与精度上有所提高，然而对大型建筑物的边界提取易出现空洞或模糊现象.总体来看，深度学习引领建筑物提取方法向一个崭新的方向发展，能够有效提取建筑物特征；然而在复杂场景下建筑物提取时仍存在边界精度低、大尺度建筑物提取时出现孔洞等问题，无法同时满足目标的高效提取.针对此问题，Qin等^[19]提出了BASNet网络，该网络最初用于显著性目标的边缘增强分割.此深度网络通过将预测编解码模块和残差优化模块相结合，有效解决了深度学习算法在目标检测中的边界模糊问题，且在目标提取时完整度较好.然而此网络在编码过程中，连续的卷积与下采样操作导致高层语义信息损失过多，建筑物空间细节信息的获取易受干扰.此外，该网络基于端到端的方式对目标进行编解码，计算复杂度较高，网络训练时间长. ...

Object detection using YOLO:Challenges,architectural successors,datasets and applications

0

2023

1

2023

... 随着人工智能的兴起，深度学习已在语义分割、目标检测、变化检测等多项技术上取得了突破性进展^[8-10].相较于传统方法的图像解译，深度学习不仅能提取出影像的高维语义特征，且精度更高^[11-13].其中，卷积神经网络（convolutional neural network，CNN）的方法能从输入的海量数据中自主学习图像深层特征，为建筑物语义分割提供了一种新的参考^[14].如Cai等^[15]针对尺度多样性及相邻建筑物的遮挡问题，提出了一种多尺度对象感知实例提议网络，该网络通过特征金字塔与多尺度注意力机制的结合描述及感知物体，有效地区分相邻建筑物；Das等^[16]基于CNN创新性地提出了ABNet网络，通过卷积注意力模块聚焦于影像重要特征的提取，接着引入交叉注意力模块，用以捕捉不同扩张速率下的多尺度特征，从而有效解决边界模糊的问题，精确提取建筑物足迹与边界；Zhang等^[17]提出了建筑物提取网络DeepAttentionUNet，该网络将注意力机制与残差学习方法相结合，在突出建筑物有用特征的同时缓解了网络训练过程中出现的退化问题，成功应用于城市建筑物提取；王华俊等^[18]使用MobileNetv2替换DeepLabV3+的主干网络，提出一种轻量级DeepLabV3+模型用以解决网络参数量大的问题，该方法在训练速度与精度上有所提高，然而对大型建筑物的边界提取易出现空洞或模糊现象.总体来看，深度学习引领建筑物提取方法向一个崭新的方向发展，能够有效提取建筑物特征；然而在复杂场景下建筑物提取时仍存在边界精度低、大尺度建筑物提取时出现孔洞等问题，无法同时满足目标的高效提取.针对此问题，Qin等^[19]提出了BASNet网络，该网络最初用于显著性目标的边缘增强分割.此深度网络通过将预测编解码模块和残差优化模块相结合，有效解决了深度学习算法在目标检测中的边界模糊问题，且在目标提取时完整度较好.然而此网络在编码过程中，连续的卷积与下采样操作导致高层语义信息损失过多，建筑物空间细节信息的获取易受干扰.此外，该网络基于端到端的方式对目标进行编解码，计算复杂度较高，网络训练时间长. ...

Building extraction from VHR remote sensing imagery by combining an improved deep convolutional encoder-decoder architecture and historical land use vector map

1

2020

... 随着人工智能的兴起，深度学习已在语义分割、目标检测、变化检测等多项技术上取得了突破性进展^[8-10].相较于传统方法的图像解译，深度学习不仅能提取出影像的高维语义特征，且精度更高^[11-13].其中，卷积神经网络（convolutional neural network，CNN）的方法能从输入的海量数据中自主学习图像深层特征，为建筑物语义分割提供了一种新的参考^[14].如Cai等^[15]针对尺度多样性及相邻建筑物的遮挡问题，提出了一种多尺度对象感知实例提议网络，该网络通过特征金字塔与多尺度注意力机制的结合描述及感知物体，有效地区分相邻建筑物；Das等^[16]基于CNN创新性地提出了ABNet网络，通过卷积注意力模块聚焦于影像重要特征的提取，接着引入交叉注意力模块，用以捕捉不同扩张速率下的多尺度特征，从而有效解决边界模糊的问题，精确提取建筑物足迹与边界；Zhang等^[17]提出了建筑物提取网络DeepAttentionUNet，该网络将注意力机制与残差学习方法相结合，在突出建筑物有用特征的同时缓解了网络训练过程中出现的退化问题，成功应用于城市建筑物提取；王华俊等^[18]使用MobileNetv2替换DeepLabV3+的主干网络，提出一种轻量级DeepLabV3+模型用以解决网络参数量大的问题，该方法在训练速度与精度上有所提高，然而对大型建筑物的边界提取易出现空洞或模糊现象.总体来看，深度学习引领建筑物提取方法向一个崭新的方向发展，能够有效提取建筑物特征；然而在复杂场景下建筑物提取时仍存在边界精度低、大尺度建筑物提取时出现孔洞等问题，无法同时满足目标的高效提取.针对此问题，Qin等^[19]提出了BASNet网络，该网络最初用于显著性目标的边缘增强分割.此深度网络通过将预测编解码模块和残差优化模块相结合，有效解决了深度学习算法在目标检测中的边界模糊问题，且在目标提取时完整度较好.然而此网络在编码过程中，连续的卷积与下采样操作导致高层语义信息损失过多，建筑物空间细节信息的获取易受干扰.此外，该网络基于端到端的方式对目标进行编解码，计算复杂度较高，网络训练时间长. ...

0

2020

Fully convolutional networks for multisource building extraction from an open aerial and satellite imagery data set

1

2019

... 随着人工智能的兴起，深度学习已在语义分割、目标检测、变化检测等多项技术上取得了突破性进展^[8-10].相较于传统方法的图像解译，深度学习不仅能提取出影像的高维语义特征，且精度更高^[11-13].其中，卷积神经网络（convolutional neural network，CNN）的方法能从输入的海量数据中自主学习图像深层特征，为建筑物语义分割提供了一种新的参考^[14].如Cai等^[15]针对尺度多样性及相邻建筑物的遮挡问题，提出了一种多尺度对象感知实例提议网络，该网络通过特征金字塔与多尺度注意力机制的结合描述及感知物体，有效地区分相邻建筑物；Das等^[16]基于CNN创新性地提出了ABNet网络，通过卷积注意力模块聚焦于影像重要特征的提取，接着引入交叉注意力模块，用以捕捉不同扩张速率下的多尺度特征，从而有效解决边界模糊的问题，精确提取建筑物足迹与边界；Zhang等^[17]提出了建筑物提取网络DeepAttentionUNet，该网络将注意力机制与残差学习方法相结合，在突出建筑物有用特征的同时缓解了网络训练过程中出现的退化问题，成功应用于城市建筑物提取；王华俊等^[18]使用MobileNetv2替换DeepLabV3+的主干网络，提出一种轻量级DeepLabV3+模型用以解决网络参数量大的问题，该方法在训练速度与精度上有所提高，然而对大型建筑物的边界提取易出现空洞或模糊现象.总体来看，深度学习引领建筑物提取方法向一个崭新的方向发展，能够有效提取建筑物特征；然而在复杂场景下建筑物提取时仍存在边界精度低、大尺度建筑物提取时出现孔洞等问题，无法同时满足目标的高效提取.针对此问题，Qin等^[19]提出了BASNet网络，该网络最初用于显著性目标的边缘增强分割.此深度网络通过将预测编解码模块和残差优化模块相结合，有效解决了深度学习算法在目标检测中的边界模糊问题，且在目标提取时完整度较好.然而此网络在编码过程中，连续的卷积与下采样操作导致高层语义信息损失过多，建筑物空间细节信息的获取易受干扰.此外，该网络基于端到端的方式对目标进行编解码，计算复杂度较高，网络训练时间长. ...

Notes on convolutional neural networks

1

... 随着人工智能的兴起，深度学习已在语义分割、目标检测、变化检测等多项技术上取得了突破性进展^[8-10].相较于传统方法的图像解译，深度学习不仅能提取出影像的高维语义特征，且精度更高^[11-13].其中，卷积神经网络（convolutional neural network，CNN）的方法能从输入的海量数据中自主学习图像深层特征，为建筑物语义分割提供了一种新的参考^[14].如Cai等^[15]针对尺度多样性及相邻建筑物的遮挡问题，提出了一种多尺度对象感知实例提议网络，该网络通过特征金字塔与多尺度注意力机制的结合描述及感知物体，有效地区分相邻建筑物；Das等^[16]基于CNN创新性地提出了ABNet网络，通过卷积注意力模块聚焦于影像重要特征的提取，接着引入交叉注意力模块，用以捕捉不同扩张速率下的多尺度特征，从而有效解决边界模糊的问题，精确提取建筑物足迹与边界；Zhang等^[17]提出了建筑物提取网络DeepAttentionUNet，该网络将注意力机制与残差学习方法相结合，在突出建筑物有用特征的同时缓解了网络训练过程中出现的退化问题，成功应用于城市建筑物提取；王华俊等^[18]使用MobileNetv2替换DeepLabV3+的主干网络，提出一种轻量级DeepLabV3+模型用以解决网络参数量大的问题，该方法在训练速度与精度上有所提高，然而对大型建筑物的边界提取易出现空洞或模糊现象.总体来看，深度学习引领建筑物提取方法向一个崭新的方向发展，能够有效提取建筑物特征；然而在复杂场景下建筑物提取时仍存在边界精度低、大尺度建筑物提取时出现孔洞等问题，无法同时满足目标的高效提取.针对此问题，Qin等^[19]提出了BASNet网络，该网络最初用于显著性目标的边缘增强分割.此深度网络通过将预测编解码模块和残差优化模块相结合，有效解决了深度学习算法在目标检测中的边界模糊问题，且在目标提取时完整度较好.然而此网络在编码过程中，连续的卷积与下采样操作导致高层语义信息损失过多，建筑物空间细节信息的获取易受干扰.此外，该网络基于端到端的方式对目标进行编解码，计算复杂度较高，网络训练时间长. ...

1

... 随着人工智能的兴起，深度学习已在语义分割、目标检测、变化检测等多项技术上取得了突破性进展^[8-10].相较于传统方法的图像解译，深度学习不仅能提取出影像的高维语义特征，且精度更高^[11-13].其中，卷积神经网络（convolutional neural network，CNN）的方法能从输入的海量数据中自主学习图像深层特征，为建筑物语义分割提供了一种新的参考^[14].如Cai等^[15]针对尺度多样性及相邻建筑物的遮挡问题，提出了一种多尺度对象感知实例提议网络，该网络通过特征金字塔与多尺度注意力机制的结合描述及感知物体，有效地区分相邻建筑物；Das等^[16]基于CNN创新性地提出了ABNet网络，通过卷积注意力模块聚焦于影像重要特征的提取，接着引入交叉注意力模块，用以捕捉不同扩张速率下的多尺度特征，从而有效解决边界模糊的问题，精确提取建筑物足迹与边界；Zhang等^[17]提出了建筑物提取网络DeepAttentionUNet，该网络将注意力机制与残差学习方法相结合，在突出建筑物有用特征的同时缓解了网络训练过程中出现的退化问题，成功应用于城市建筑物提取；王华俊等^[18]使用MobileNetv2替换DeepLabV3+的主干网络，提出一种轻量级DeepLabV3+模型用以解决网络参数量大的问题，该方法在训练速度与精度上有所提高，然而对大型建筑物的边界提取易出现空洞或模糊现象.总体来看，深度学习引领建筑物提取方法向一个崭新的方向发展，能够有效提取建筑物特征；然而在复杂场景下建筑物提取时仍存在边界精度低、大尺度建筑物提取时出现孔洞等问题，无法同时满足目标的高效提取.针对此问题，Qin等^[19]提出了BASNet网络，该网络最初用于显著性目标的边缘增强分割.此深度网络通过将预测编解码模块和残差优化模块相结合，有效解决了深度学习算法在目标检测中的边界模糊问题，且在目标提取时完整度较好.然而此网络在编码过程中，连续的卷积与下采样操作导致高层语义信息损失过多，建筑物空间细节信息的获取易受干扰.此外，该网络基于端到端的方式对目标进行编解码，计算复杂度较高，网络训练时间长. ...

1

... 随着人工智能的兴起，深度学习已在语义分割、目标检测、变化检测等多项技术上取得了突破性进展^[8-10].相较于传统方法的图像解译，深度学习不仅能提取出影像的高维语义特征，且精度更高^[11-13].其中，卷积神经网络（convolutional neural network，CNN）的方法能从输入的海量数据中自主学习图像深层特征，为建筑物语义分割提供了一种新的参考^[14].如Cai等^[15]针对尺度多样性及相邻建筑物的遮挡问题，提出了一种多尺度对象感知实例提议网络，该网络通过特征金字塔与多尺度注意力机制的结合描述及感知物体，有效地区分相邻建筑物；Das等^[16]基于CNN创新性地提出了ABNet网络，通过卷积注意力模块聚焦于影像重要特征的提取，接着引入交叉注意力模块，用以捕捉不同扩张速率下的多尺度特征，从而有效解决边界模糊的问题，精确提取建筑物足迹与边界；Zhang等^[17]提出了建筑物提取网络DeepAttentionUNet，该网络将注意力机制与残差学习方法相结合，在突出建筑物有用特征的同时缓解了网络训练过程中出现的退化问题，成功应用于城市建筑物提取；王华俊等^[18]使用MobileNetv2替换DeepLabV3+的主干网络，提出一种轻量级DeepLabV3+模型用以解决网络参数量大的问题，该方法在训练速度与精度上有所提高，然而对大型建筑物的边界提取易出现空洞或模糊现象.总体来看，深度学习引领建筑物提取方法向一个崭新的方向发展，能够有效提取建筑物特征；然而在复杂场景下建筑物提取时仍存在边界精度低、大尺度建筑物提取时出现孔洞等问题，无法同时满足目标的高效提取.针对此问题，Qin等^[19]提出了BASNet网络，该网络最初用于显著性目标的边缘增强分割.此深度网络通过将预测编解码模块和残差优化模块相结合，有效解决了深度学习算法在目标检测中的边界模糊问题，且在目标提取时完整度较好.然而此网络在编码过程中，连续的卷积与下采样操作导致高层语义信息损失过多，建筑物空间细节信息的获取易受干扰.此外，该网络基于端到端的方式对目标进行编解码，计算复杂度较高，网络训练时间长. ...

1

... 随着人工智能的兴起，深度学习已在语义分割、目标检测、变化检测等多项技术上取得了突破性进展^[8-10].相较于传统方法的图像解译，深度学习不仅能提取出影像的高维语义特征，且精度更高^[11-13].其中，卷积神经网络（convolutional neural network，CNN）的方法能从输入的海量数据中自主学习图像深层特征，为建筑物语义分割提供了一种新的参考^[14].如Cai等^[15]针对尺度多样性及相邻建筑物的遮挡问题，提出了一种多尺度对象感知实例提议网络，该网络通过特征金字塔与多尺度注意力机制的结合描述及感知物体，有效地区分相邻建筑物；Das等^[16]基于CNN创新性地提出了ABNet网络，通过卷积注意力模块聚焦于影像重要特征的提取，接着引入交叉注意力模块，用以捕捉不同扩张速率下的多尺度特征，从而有效解决边界模糊的问题，精确提取建筑物足迹与边界；Zhang等^[17]提出了建筑物提取网络DeepAttentionUNet，该网络将注意力机制与残差学习方法相结合，在突出建筑物有用特征的同时缓解了网络训练过程中出现的退化问题，成功应用于城市建筑物提取；王华俊等^[18]使用MobileNetv2替换DeepLabV3+的主干网络，提出一种轻量级DeepLabV3+模型用以解决网络参数量大的问题，该方法在训练速度与精度上有所提高，然而对大型建筑物的边界提取易出现空洞或模糊现象.总体来看，深度学习引领建筑物提取方法向一个崭新的方向发展，能够有效提取建筑物特征；然而在复杂场景下建筑物提取时仍存在边界精度低、大尺度建筑物提取时出现孔洞等问题，无法同时满足目标的高效提取.针对此问题，Qin等^[19]提出了BASNet网络，该网络最初用于显著性目标的边缘增强分割.此深度网络通过将预测编解码模块和残差优化模块相结合，有效解决了深度学习算法在目标检测中的边界模糊问题，且在目标提取时完整度较好.然而此网络在编码过程中，连续的卷积与下采样操作导致高层语义信息损失过多，建筑物空间细节信息的获取易受干扰.此外，该网络基于端到端的方式对目标进行编解码，计算复杂度较高，网络训练时间长. ...

一种轻量级的DeepLabv3+遥感影像建筑物提取方法

1

2022

... 随着人工智能的兴起，深度学习已在语义分割、目标检测、变化检测等多项技术上取得了突破性进展^[8-10].相较于传统方法的图像解译，深度学习不仅能提取出影像的高维语义特征，且精度更高^[11-13].其中，卷积神经网络（convolutional neural network，CNN）的方法能从输入的海量数据中自主学习图像深层特征，为建筑物语义分割提供了一种新的参考^[14].如Cai等^[15]针对尺度多样性及相邻建筑物的遮挡问题，提出了一种多尺度对象感知实例提议网络，该网络通过特征金字塔与多尺度注意力机制的结合描述及感知物体，有效地区分相邻建筑物；Das等^[16]基于CNN创新性地提出了ABNet网络，通过卷积注意力模块聚焦于影像重要特征的提取，接着引入交叉注意力模块，用以捕捉不同扩张速率下的多尺度特征，从而有效解决边界模糊的问题，精确提取建筑物足迹与边界；Zhang等^[17]提出了建筑物提取网络DeepAttentionUNet，该网络将注意力机制与残差学习方法相结合，在突出建筑物有用特征的同时缓解了网络训练过程中出现的退化问题，成功应用于城市建筑物提取；王华俊等^[18]使用MobileNetv2替换DeepLabV3+的主干网络，提出一种轻量级DeepLabV3+模型用以解决网络参数量大的问题，该方法在训练速度与精度上有所提高，然而对大型建筑物的边界提取易出现空洞或模糊现象.总体来看，深度学习引领建筑物提取方法向一个崭新的方向发展，能够有效提取建筑物特征；然而在复杂场景下建筑物提取时仍存在边界精度低、大尺度建筑物提取时出现孔洞等问题，无法同时满足目标的高效提取.针对此问题，Qin等^[19]提出了BASNet网络，该网络最初用于显著性目标的边缘增强分割.此深度网络通过将预测编解码模块和残差优化模块相结合，有效解决了深度学习算法在目标检测中的边界模糊问题，且在目标提取时完整度较好.然而此网络在编码过程中，连续的卷积与下采样操作导致高层语义信息损失过多，建筑物空间细节信息的获取易受干扰.此外，该网络基于端到端的方式对目标进行编解码，计算复杂度较高，网络训练时间长. ...

一种轻量级的DeepLabv3+遥感影像建筑物提取方法

1

2022

... 随着人工智能的兴起，深度学习已在语义分割、目标检测、变化检测等多项技术上取得了突破性进展^[8-10].相较于传统方法的图像解译，深度学习不仅能提取出影像的高维语义特征，且精度更高^[11-13].其中，卷积神经网络（convolutional neural network，CNN）的方法能从输入的海量数据中自主学习图像深层特征，为建筑物语义分割提供了一种新的参考^[14].如Cai等^[15]针对尺度多样性及相邻建筑物的遮挡问题，提出了一种多尺度对象感知实例提议网络，该网络通过特征金字塔与多尺度注意力机制的结合描述及感知物体，有效地区分相邻建筑物；Das等^[16]基于CNN创新性地提出了ABNet网络，通过卷积注意力模块聚焦于影像重要特征的提取，接着引入交叉注意力模块，用以捕捉不同扩张速率下的多尺度特征，从而有效解决边界模糊的问题，精确提取建筑物足迹与边界；Zhang等^[17]提出了建筑物提取网络DeepAttentionUNet，该网络将注意力机制与残差学习方法相结合，在突出建筑物有用特征的同时缓解了网络训练过程中出现的退化问题，成功应用于城市建筑物提取；王华俊等^[18]使用MobileNetv2替换DeepLabV3+的主干网络，提出一种轻量级DeepLabV3+模型用以解决网络参数量大的问题，该方法在训练速度与精度上有所提高，然而对大型建筑物的边界提取易出现空洞或模糊现象.总体来看，深度学习引领建筑物提取方法向一个崭新的方向发展，能够有效提取建筑物特征；然而在复杂场景下建筑物提取时仍存在边界精度低、大尺度建筑物提取时出现孔洞等问题，无法同时满足目标的高效提取.针对此问题，Qin等^[19]提出了BASNet网络，该网络最初用于显著性目标的边缘增强分割.此深度网络通过将预测编解码模块和残差优化模块相结合，有效解决了深度学习算法在目标检测中的边界模糊问题，且在目标提取时完整度较好.然而此网络在编码过程中，连续的卷积与下采样操作导致高层语义信息损失过多，建筑物空间细节信息的获取易受干扰.此外，该网络基于端到端的方式对目标进行编解码，计算复杂度较高，网络训练时间长. ...

Boundary-aware segmentation network for mobile and web applications

1

... 随着人工智能的兴起，深度学习已在语义分割、目标检测、变化检测等多项技术上取得了突破性进展^[8-10].相较于传统方法的图像解译，深度学习不仅能提取出影像的高维语义特征，且精度更高^[11-13].其中，卷积神经网络（convolutional neural network，CNN）的方法能从输入的海量数据中自主学习图像深层特征，为建筑物语义分割提供了一种新的参考^[14].如Cai等^[15]针对尺度多样性及相邻建筑物的遮挡问题，提出了一种多尺度对象感知实例提议网络，该网络通过特征金字塔与多尺度注意力机制的结合描述及感知物体，有效地区分相邻建筑物；Das等^[16]基于CNN创新性地提出了ABNet网络，通过卷积注意力模块聚焦于影像重要特征的提取，接着引入交叉注意力模块，用以捕捉不同扩张速率下的多尺度特征，从而有效解决边界模糊的问题，精确提取建筑物足迹与边界；Zhang等^[17]提出了建筑物提取网络DeepAttentionUNet，该网络将注意力机制与残差学习方法相结合，在突出建筑物有用特征的同时缓解了网络训练过程中出现的退化问题，成功应用于城市建筑物提取；王华俊等^[18]使用MobileNetv2替换DeepLabV3+的主干网络，提出一种轻量级DeepLabV3+模型用以解决网络参数量大的问题，该方法在训练速度与精度上有所提高，然而对大型建筑物的边界提取易出现空洞或模糊现象.总体来看，深度学习引领建筑物提取方法向一个崭新的方向发展，能够有效提取建筑物特征；然而在复杂场景下建筑物提取时仍存在边界精度低、大尺度建筑物提取时出现孔洞等问题，无法同时满足目标的高效提取.针对此问题，Qin等^[19]提出了BASNet网络，该网络最初用于显著性目标的边缘增强分割.此深度网络通过将预测编解码模块和残差优化模块相结合，有效解决了深度学习算法在目标检测中的边界模糊问题，且在目标提取时完整度较好.然而此网络在编码过程中，连续的卷积与下采样操作导致高层语义信息损失过多，建筑物空间细节信息的获取易受干扰.此外，该网络基于端到端的方式对目标进行编解码，计算复杂度较高，网络训练时间长. ...

1

2017

... 因此，为实现更精细的建筑物提取，本文在深度可分离卷积^[20]（depthwise separable convolution，DSC）的启发下，基于BASNet提出了SD-BASNet网络.该网络在BASNet的基础上设计了一个深度可分离残差模块（depthwise separable residual module，DSRM），降低了模型的参数量、缩短了网络运行时间；其次，为防止网络轻量化带来的精度下降，将空洞卷积^[21]（dilated convolution，DC）融入BASNet优化模块的编码层，在不增加卷积核大小的情况下，增大特征图的感受野，从而捕捉更广泛的上下文信息，提高建筑物提取的精度. ...

Multi-scale context aggregation by dilated convolutions

3

2015

... 因此，为实现更精细的建筑物提取，本文在深度可分离卷积^[20]（depthwise separable convolution，DSC）的启发下，基于BASNet提出了SD-BASNet网络.该网络在BASNet的基础上设计了一个深度可分离残差模块（depthwise separable residual module，DSRM），降低了模型的参数量、缩短了网络运行时间；其次，为防止网络轻量化带来的精度下降，将空洞卷积^[21]（dilated convolution，DC）融入BASNet优化模块的编码层，在不增加卷积核大小的情况下，增大特征图的感受野，从而捕捉更广泛的上下文信息，提高建筑物提取的精度. ...

... DC是一种在卷积操作中使用空洞的技术，通过在卷积核中插入一些间隔空洞来扩大卷积的感受野.具体来说，DC将卷积核中的每个权重放在一个网格中，使网格中的元素与输入张量中的元素一一对应，而且网格中存在的间隔可以使卷积核的感受野增强，从而增加模型对于输入图像的感知能力.其中，插入空洞的大小称为扩张率，扩张率越大，卷积核的感受野也就越大.如图4所示，图4（a）中扩张率为0，则卷积核的感受野为3×3；图4（b）中扩张率为2，卷积核的感受野增大到5×5；图4（c）扩张率为3，能达到7×7的感受野.

10.6046/zrzyyg.2024209.F0004

图4 不同扩张率的感受野示意图<sup>[<xref ref-type="bibr" rid="b21">21</xref>]</sup> Schematic diagram of receptive fields with different dilation rates<sup>[<xref ref-type="bibr" rid="b21">21</xref>]</sup>

Fig.4

本文的优化模块采用了残差Encoder-Decoder架构.如图1所示，编码层和解码层有4个卷积层，编码层的每个卷积层由64个大小为3×3的卷积核，DC，BN与ReLU激活函数构成.由于网络在下采样过程中丢失了特征图部分细节信息，难以对局部纹理进行精确的分割，所以在优化模块的编码层中引入DC，通过增加卷积核中的空洞融合更多的上下文信息，从而更好地提取特征，增强模型的表征能力，减少参数量的同时防止精度下降.与编码层类似，桥接层、解码层由64个大小为3×3的卷积核、BN与ReLU激活函数组成.值得一提的是，在下采样编码层中使用了非重叠的最大池化层，有助于减少特征维度，提高模型的鲁棒性和计算效率；在上采样解码层中使用了双线性插值，利于影像的平滑输出. ...

... [21]Fig.4

本文的优化模块采用了残差Encoder-Decoder架构.如图1所示，编码层和解码层有4个卷积层，编码层的每个卷积层由64个大小为3×3的卷积核，DC，BN与ReLU激活函数构成.由于网络在下采样过程中丢失了特征图部分细节信息，难以对局部纹理进行精确的分割，所以在优化模块的编码层中引入DC，通过增加卷积核中的空洞融合更多的上下文信息，从而更好地提取特征，增强模型的表征能力，减少参数量的同时防止精度下降.与编码层类似，桥接层、解码层由64个大小为3×3的卷积核、BN与ReLU激活函数组成.值得一提的是，在下采样编码层中使用了非重叠的最大池化层，有助于减少特征维度，提高模型的鲁棒性和计算效率；在上采样解码层中使用了双线性插值，利于影像的平滑输出. ...

MobileNets: Efficient convolutional neural networks for mobile vision applications

1

2017

... DSC是CNN常用的一种卷积操作，广泛应用于轻量级网络设计中^[22-24]，旨在减少网络参数量及提升计算效率.与标准卷积相比，DSC分为深度卷积和逐点卷积2步.具体地说，深度卷积只对每个输入通道的特征图进行卷积，而不是同时作用于所有通道上，从而减少参数量.逐点卷积则是将卷积核大小设置为1×1，对每个像素的特征图进行卷积，从而将它们之间的信息进行融合.这样一来，DSC相比于标准卷积可大大减少参数量，提高模型的计算效率.图2是标准卷积与DSC之间的比较.m×m为卷积核尺寸；c为输入图像的通道数.若卷积核大小为3×3，则标准卷积直接进行3×3×3的卷积，然后进行BN正则化处理，最后传入ReLU激活函数当中.与标准卷积不同的是，DSC先进行一个3×3×1的深度卷积，然后进行后续步骤；接着是1×1×c的点积，再进行一次BN正则化和ReLU操作.DSC在对3×3的卷积核做卷积操作时，不像传统卷积直接使用完整的3×3×3卷积核，而是分成2个单通道的3×3卷积核同时进行卷积. ...

ImageNet classification with deep convolutional neural networks

0

2017

EfficientNet:Rethinking model scaling for convolutional neural networks

1

... DSC是CNN常用的一种卷积操作，广泛应用于轻量级网络设计中^[22-24]，旨在减少网络参数量及提升计算效率.与标准卷积相比，DSC分为深度卷积和逐点卷积2步.具体地说，深度卷积只对每个输入通道的特征图进行卷积，而不是同时作用于所有通道上，从而减少参数量.逐点卷积则是将卷积核大小设置为1×1，对每个像素的特征图进行卷积，从而将它们之间的信息进行融合.这样一来，DSC相比于标准卷积可大大减少参数量，提高模型的计算效率.图2是标准卷积与DSC之间的比较.m×m为卷积核尺寸；c为输入图像的通道数.若卷积核大小为3×3，则标准卷积直接进行3×3×3的卷积，然后进行BN正则化处理，最后传入ReLU激活函数当中.与标准卷积不同的是，DSC先进行一个3×3×1的深度卷积，然后进行后续步骤；接着是1×1×c的点积，再进行一次BN正则化和ReLU操作.DSC在对3×3的卷积核做卷积操作时，不像传统卷积直接使用完整的3×3×3卷积核，而是分成2个单通道的3×3卷积核同时进行卷积. ...

遥感影像建筑物提取的卷积神经元网络与开源数据集方法

1

2019

... 为充分验证本文算法的有效性和可行性，使用WHU建筑物数据集^[25]进行建筑物提取实验，WHU建筑物数据集由武汉大学季顺平团队提供.该数据集由航空建筑物数据集和卫星建筑物数据集组成，影像地面分辨率为0.075 m，涵盖22万栋形分布各异的建筑物，覆盖面积达450 km².此数据集将大部分航空影像裁剪为8 188个无重叠的瓦片，大小为512像素×512像素，同时将数据集划分为4 736张训练集、1 036张验证集和2 416张测试集. ...

遥感影像建筑物提取的卷积神经元网络与开源数据集方法

1

2019

... 为充分验证本文算法的有效性和可行性，使用WHU建筑物数据集^[25]进行建筑物提取实验，WHU建筑物数据集由武汉大学季顺平团队提供.该数据集由航空建筑物数据集和卫星建筑物数据集组成，影像地面分辨率为0.075 m，涵盖22万栋形分布各异的建筑物，覆盖面积达450 km².此数据集将大部分航空影像裁剪为8 188个无重叠的瓦片，大小为512像素×512像素，同时将数据集划分为4 736张训练集、1 036张验证集和2 416张测试集. ...

1

2017

... 为了检验SD-BASNet的建筑物提取效果，本文选取语义分割经典网络PSPNet^[26]，SegNet^[27]，Deep-LabV3^[28]，SE-UNet^[29]和UNet++^[30]进行实验，并增加了基础网络BASNet与SD-BASNet进行对比，在WHU建筑物数据集上进行性能测试，得出各项精度评价指标如表2所示.从表中可以看出，与其他方法相比，本文所提网络在mIoU，mPA，召回率，精确率和F1方面分别最大提升了25.10%，16.73%，7.13%，32.98%和20.21%，仅一项数据较低，即SD-BASNet网络的召回率方面低于基础网络BASNet，但在其余指标上是最优的.且提出网络侧重于降低网络参数量，从表1可看出参数量的有效下降，证实了本文所提网络SD-BASNet的可行性. ...

SegNet:A deep convolutional encoder-decoder architecture for image segmentation

1

2017

... 为了检验SD-BASNet的建筑物提取效果，本文选取语义分割经典网络PSPNet^[26]，SegNet^[27]，Deep-LabV3^[28]，SE-UNet^[29]和UNet++^[30]进行实验，并增加了基础网络BASNet与SD-BASNet进行对比，在WHU建筑物数据集上进行性能测试，得出各项精度评价指标如表2所示.从表中可以看出，与其他方法相比，本文所提网络在mIoU，mPA，召回率，精确率和F1方面分别最大提升了25.10%，16.73%，7.13%，32.98%和20.21%，仅一项数据较低，即SD-BASNet网络的召回率方面低于基础网络BASNet，但在其余指标上是最优的.且提出网络侧重于降低网络参数量，从表1可看出参数量的有效下降，证实了本文所提网络SD-BASNet的可行性. ...

Rethinking atrous convolution for semantic image segmentation

1

2017

... 为了检验SD-BASNet的建筑物提取效果，本文选取语义分割经典网络PSPNet^[26]，SegNet^[27]，Deep-LabV3^[28]，SE-UNet^[29]和UNet++^[30]进行实验，并增加了基础网络BASNet与SD-BASNet进行对比，在WHU建筑物数据集上进行性能测试，得出各项精度评价指标如表2所示.从表中可以看出，与其他方法相比，本文所提网络在mIoU，mPA，召回率，精确率和F1方面分别最大提升了25.10%，16.73%，7.13%，32.98%和20.21%，仅一项数据较低，即SD-BASNet网络的召回率方面低于基础网络BASNet，但在其余指标上是最优的.且提出网络侧重于降低网络参数量，从表1可看出参数量的有效下降，证实了本文所提网络SD-BASNet的可行性. ...

基于特征压缩激活Unet网络的建筑物提取

1

2019

... 为了检验SD-BASNet的建筑物提取效果，本文选取语义分割经典网络PSPNet^[26]，SegNet^[27]，Deep-LabV3^[28]，SE-UNet^[29]和UNet++^[30]进行实验，并增加了基础网络BASNet与SD-BASNet进行对比，在WHU建筑物数据集上进行性能测试，得出各项精度评价指标如表2所示.从表中可以看出，与其他方法相比，本文所提网络在mIoU，mPA，召回率，精确率和F1方面分别最大提升了25.10%，16.73%，7.13%，32.98%和20.21%，仅一项数据较低，即SD-BASNet网络的召回率方面低于基础网络BASNet，但在其余指标上是最优的.且提出网络侧重于降低网络参数量，从表1可看出参数量的有效下降，证实了本文所提网络SD-BASNet的可行性. ...

基于特征压缩激活Unet网络的建筑物提取

1

2019

... 为了检验SD-BASNet的建筑物提取效果，本文选取语义分割经典网络PSPNet^[26]，SegNet^[27]，Deep-LabV3^[28]，SE-UNet^[29]和UNet++^[30]进行实验，并增加了基础网络BASNet与SD-BASNet进行对比，在WHU建筑物数据集上进行性能测试，得出各项精度评价指标如表2所示.从表中可以看出，与其他方法相比，本文所提网络在mIoU，mPA，召回率，精确率和F1方面分别最大提升了25.10%，16.73%，7.13%，32.98%和20.21%，仅一项数据较低，即SD-BASNet网络的召回率方面低于基础网络BASNet，但在其余指标上是最优的.且提出网络侧重于降低网络参数量，从表1可看出参数量的有效下降，证实了本文所提网络SD-BASNet的可行性. ...

UNet:Redesigning skip connections to exploit multiscale features in image segmentation

1

2020

... 为了检验SD-BASNet的建筑物提取效果，本文选取语义分割经典网络PSPNet^[26]，SegNet^[27]，Deep-LabV3^[28]，SE-UNet^[29]和UNet++^[30]进行实验，并增加了基础网络BASNet与SD-BASNet进行对比，在WHU建筑物数据集上进行性能测试，得出各项精度评价指标如表2所示.从表中可以看出，与其他方法相比，本文所提网络在mIoU，mPA，召回率，精确率和F1方面分别最大提升了25.10%，16.73%，7.13%，32.98%和20.21%，仅一项数据较低，即SD-BASNet网络的召回率方面低于基础网络BASNet，但在其余指标上是最优的.且提出网络侧重于降低网络参数量，从表1可看出参数量的有效下降，证实了本文所提网络SD-BASNet的可行性. ...

序号	网络	参数量/10⁶	训练时间/h
①	BASNet	87.06	11.27
②	BASNet+DSC	61.54	10.79
③	BASNet+DC	87.06	11.77
④	BASNet+DSC+DC（SD-BASNet）	61.96	10.91

网络	mIoU	mPA	召回率	精确率	F1
PSPNet	73.74	80.43	89.62	62.86	73.89
SegNet	77.67	83.26	93.27	67.87	78.57
DeepLabV3	82.30	87.07	94.34	75.39	83.80
SE-UNet	82.95	87.37	95.43	75.74	84.46
UNet++	83.77	87.92	96.09	76.69	85.30
BASNet	90.10	93.88	98.40	87.44	89.92
SD-BASNet	92.25	96.59	96.50	93.79	92.61

网络	mIoU	mPA	召回率	精确率	F1
PSPNet	74.30	79.84	89.84	61.46	75.26
SegNet	74.64	82.24	96.84	65.48	78.13
DeepLabV3	82.17	87.93	96.80	77.06	85.81
SE-UNet	83.59	88.81	97.87	78.43	87.08
UNet++	84.77	89.92	97.09	79.69	87.30
BASNet	92.89	96.56	93.99	96.01	94.99
SD-BASNet	93.07	96.81	94.71	96.17	95.41

网络	mIoU	mPA	召回率	精确率	F1
PSPNet	46.14	76.51	78.49	53.75	63.14
SegNet	81.04	87.69	95.42	77.37	85.45
DeepLabV3	81.58	87.97	96.23	77.56	85.89
SE-UNet	83.09	88.80	97.99	78.46	87.15
UNet++	86.86	84.79	97.14	77.14	85.02
BASNet	89.36	93.58	94.40	90.61	92.51
SD-BASNet	90.18	94.50	94.57	91.81	93.17

网络	mIoU	mPA	召回率	精确率	F1
PSPNet	39.58	40.72	40.72	58.62	56.71
SegNet	82.62	90.25	87.19	90.14	88.64
DeepLabV3	84.50	91.90	92.57	88.09	90.28
SE-UNet	88.21	93.85	93.56	91.80	92.67
UNet++	87.59	92.16	93.31	90.34	91.31
BASNet	91.76	95.39	92.70	97.12	94.86
SD-BASNet	92.34	95.95	92.49	97.59	95.50

面向高分辨率遥感影像建筑物提取的SD-BASNet网络

SD-BASNet：a building extraction network for high-spatial-resolution remote sensing imagery

0 引言

1 SD-BASNet网络

图1

1.1 深度监督Encoder-Decoder模块

图2

图3

1.2 优化模块

图4

2 实验与分析

2.1 实验数据及设置

2.2 评价指标

2.3 结果与分析

2.3.1 模型参数量分析

2.3.2 分割性能分析

2.3.3 定性定量分析

图5

图6

图7

图8

2.3.4 消融实验

图9

3 讨论与结论

3.1 讨论

3.2 结论

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

面向高分辨率遥感影像建筑物提取的SD-BASNet网络

SD-BASNet：a building extraction network for high-spatial-resolution remote sensing imagery

0 引言

1 SD-BASNet网络

图1

1.1 深度监督Encoder-Decoder模块

图2

图3

1.2 优化模块

图4

2 实验与分析

2.1 实验数据及设置

2.2 评价指标

2.3 结果与分析

2.3.1 模型参数量分析

2.3.2 分割性能分析

2.3.3 定性定量分析

图5

图6

图7

图8

2.3.4 消融实验

图9

3 讨论与结论

3.1 讨论

3.2 结论

参考文献 View Option 原文顺序 文献年度倒序 文中引用次数倒序 被引期刊影响因子

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子