基于注意力增强全卷积神经网络的高分卫星影像建筑物提取
Building extraction using high-resolution satellite imagery based on an attention enhanced full convolution neural network
通讯作者: 张 荞(1985-),男,博士,高级工程师,主要从事遥感大数据应用研究。Email:scrs_qiaozh@163.com。
责任编辑: 李瑜
收稿日期: 2020-07-21 修回日期: 2021-03-29 网络出版日期: 2021-06-15
基金资助: |
|
Received: 2020-07-21 Revised: 2021-03-29 Online: 2021-06-15
作者简介 About authors
郭 文(1964-),男,高级工程师,主要从事摄影测量与遥感研究。Email:
从卫星遥感影像中自动提取建筑物在国民经济社会发展中具有广泛的应用价值,由于卫星遥感影像存在地物遮挡、光照、背景环境等因素的影响,传统方法难以实现高精度建筑物提取。采用一种基于注意力增强的特征金字塔神经网络方法(FPN-SENet),利用多源高分辨率卫星影像和矢量成果数据快速构建大规模的像素级建筑物数据集(SCRS数据集),实现多源卫星影像的建筑物自动提取,并与常用的全卷积神经网络进行对比。研究结果表明: SCRS数据集的提取精度接近国际领先的卫星影像开源数据集,且假彩色数据精度高于真彩色数据; FPN-SENet的建筑物提取精度优于其他常用的全卷积神经网络; 采用交叉熵和dice系数之和为损失函数能够提升建筑物提取精度,最好的分类模型在测试数据上的分类总体精度为95.2%,Kappa系数为79.0%,F1分值和IoU分别达到了81.7%和69.1%。该研究可为高分辨率卫星影像建筑物自动提取提供参考。
关键词:
Automatic extraction of buildings from satellite remote sensing images has a wide range of applications in the development of economy and society. Due to the influence of mutual occlusion, illumination, background environment and other factors in satellite remote sensing images, it is difficult for traditional methods to achieve high-precision building extraction. This paper proposes an attention enhanced feature pyramid network (FPN-SENet) and constructs a large-scale pixel-wise building dataset (SCRS dataset) by using multi-source high-resolution satellite images and vector data to realize the automatic extraction of buildings from multi-source satellite images, and compares it with the other full convolution neural networks. The results show that the accuracy of building extracted from SCRS dataset is close to the world’s leading open source satellite image dataset, and the accuracy of Pseudo color data is higher than that of true color data The accuracy of FPN-SENet is better than that of other full convolution neural networks. The extraction of building can also be improved by using the sum of cross entropy and Dice coefficient as the loss function. The overall accuracy of the best classification model is 95.2%, Kappa coefficient is 79.0%, and F1-score and IoU are 81.7% and 69.1% respectively. This study can provide a reference for building automatic extraction from high-resolution satellite images.
Keywords:
本文引用格式
郭文, 张荞.
GUO Wen, ZHANG Qiao.
0 引言
基于高分辨率遥感影像的建筑物提取对地图制作、城市乡村规划、违建监测、数字城市建立、人口估计等应用具有重要意义,随着越来越多的高分辨遥感卫星投入使用,在提高地物光谱特征,突出地物结构、纹理和细节等信息的同时,也因为卫星观测角度问题造成地物遮挡,尺度的增大带来了严重的异物同谱现象,以及影像噪声增加等问题,限制了遥感影像建筑物自动提取精度。
传统方法主要是基于影像的光谱和空间特征信息,通过图像分割和特征提取技术,如尺度不变特征变换(scale-invariant feature transform,SIFT)、方向梯度直方图(histogram of oriented gradient,HOG)、面向对象[1,2]等,获得遥感影像中的特征或分割对象,再选取支持向量机(support vector machine,SVM)、决策树、随机森林、条件随机场等分类器进行类别划分[3,4]。然而,基于光谱和空间特征信息的分类方法在处理背景复杂、地物繁多的影像时都显得不足,其中最大缺陷是泛化能力较差,即训练后的模型或规则难以适用不同地区、不同数据源的遥感影像。
由于CNN在图像分类方面取得了较好的效果,许多学者基于CNN发展了遥感影像语义分割算法。2015年,从CNN发展而来的全卷积神经网络(fully convolutional networks,FCN)[11]语义分割方法,采用全卷积层代替传统CNN中的全连接层,可以直接获得像素级别的分类结果,是第一个真正的端到端的像素分类模型[12,13],目前已经有多种语义分割网络,如Segnet[14],U-net[15],PSPNet[16]和DeepLab[17]等,这些语义分割网络的提出为遥感影像建筑物自动提取提供了可能性。但是将FCN应用到遥感影像建筑物提取时,需要通过逐像素标记类别构建样本数据集,这也阻碍了FCN在遥感影像分类中的深入应用。
针对建筑物自动提取的难题,本文提出基于高分卫星遥感影像和地理国情监测矢量数据快速构建大规模的建筑物样本数据集,并采用一种注意力增强的全卷积神经网络,实现从卫星遥感影像中自动提取建筑物。
1 研究方法
1.1 基于注意力增强的特征金字塔建筑物提取网络
图1
图2
一个SE模块单元中,Ftr为传统的卷积结构,X和U分别为输入(H'×W'× C')和输出(H×W× C),U=[u1, u2, …, uc],公式为:
式中: xs为第c个通道的输入特征图; uc为第c个通道的输出特征图; vc为第c个卷积核的参数; C'为输入通道数量。
增加SE模块后,首先对卷积层输出的特征图U,采用全局平均池化(global average pooling,GPA)进行压缩操作Fsq,公式为:
然后对压缩后的z,使用2个全连接层进行激励操作Fex,第一个全连接把C个通道压缩成了C/r个通道来降低计算量,其中r是压缩的比例,后面跟了ReLU函数,第二个全连接再恢复回C个通道,后面跟接Sigmoid函数,公式为:
$s=Fex(z,W)=σ(g(z,W)=σ(W2δ(W1z)) $ (3)
式中: δ为 ReLU函数; σ为 Sigmoid函数; W1为C/r×C的降维矩阵; W2为C×C/r的升维矩阵。
通过压缩和激励操作,学习到各个通道间的关系,得到不同通道的权重,然后将SE模块计算出的各通道权重值分别与原特征图对应通道的二维矩阵相乘,得出的结果输出,公式为:
SE模块为网络模型提供了一种通道域注意力机制,让模型更加关注信息量较大的特征图,而抑制那些不重要特征图。
1.2 交叉熵与dice系数结合的损失函数
交叉熵损失函数是遥感影像分类任务中最常用的一种损失函数(L_bce),可从预测值(pr)与真值(gt)之间的交叉熵计算得到,公式为:
$L_bce=-gt·ln(pr)$ (5)
本文引入dice系数,将交叉熵与dice系数之和作为新的损失函数,对FPN-SENet网络模型进行训练,定义为:
式中: precision为准确率; recall为召回率; β为准确率和召回率之间的平衡系数,本文β取值为1,表示准确率和召回率同等重要。
1.3 基于窗函数平滑预测的分类后处理方法
由于受计算机硬件设备的限制,采用FCN对遥感影像进行训练和预测时,需将遥感影像和样本图像裁剪成较小尺寸的图像进行处理,但是在分块进行遥感影像预测分类时,2块之间的边界附近可能存在明显拼接缝的现象,常见的方法是通过重叠切割减少分块拼接痕迹[23],提升分类效果,而本文引入一种二次样条窗函数,进行平滑拼接预测分类,该窗函数由一维二次样条窗函数扩展而来,公式为:
式中:$\overline{w(n)}$为w(n)的平均值; M为窗口大小; t(n)为三角窗函数。
该窗函数的一维剖面和二维形状如图3所示,将该窗函数的权重系数与模型预测分类的二维图斑矩阵相乘,可以突出分块图斑中心区域,而抑制分块图斑边缘区域,并以图像块边长的1/2作为滑动步长,在整幅待预测影像上进行滑动预测,获得平滑预测的分类图斑。
图3
2 基于多源卫星影像和矢量成果数据的建筑物样本集制作
深度学习模型训练需要大量的样本库,本文制作了大规模的逐像素标注样本数据集: 首先,收集整理地理国情监测成果数据中的地表覆盖矢量数据和对应的高分辨率卫星遥感影像,该地表覆盖数据是基于高分辨率遥感影像进行人工目视解译,并结合一定的指标和规则制作完成,其主要内容和采集指标参考《地理国情普查内容与指标》[24]; 然后,选取地表覆盖矢量数据中房屋建筑较多的地区作为样本制作区域,同时去除卫星影像中有云覆盖的区域,裁剪出房屋矢量数据和对应区域的卫星影像,再将房屋矢量数据转化为栅格格式,形成与卫星影像逐像素对应的标签数据,完成建筑物的样本标注; 最终,选取了200景卫星遥感影像完成多源卫星遥感建筑物样本数据制作,其中高分二号影像约占1/2,北京二号和高景一号影像各占1/4。
本文将制作的建筑物样本数据集简称为SCRS Buildings Dataset,样本影像的覆盖范围约1万km2,总像素约10亿个,其中,建筑物占比为8%。初始的样本数据尺寸大小并不一致,在模型训练之前,可以根据神经网络模型的输入尺寸将初始样本裁剪成固定大小的小样本,若按照512像素×512像素裁剪,可以制作约50 000个小样本。由于样本制作采用了融合后的卫星遥感影像,每个样本影像包含4个波段,样本影像的空间分辨率为0.5~0.8 m,样本示例如图4所示,分别是3种卫星的真彩色影像、假彩色影像、标签数据。由于样本标签从地理国情监测成果数据而来,许多建筑物标签有图斑综合现象,即房屋建筑区内面积小于1 600 m2的绿化林地、绿化草地、硬化平地等综合成建筑物类别,如图5所示。
图4
图5
3 试验与分析
试验基于TensorFlow和Keras深度学习开源框架,采用python语言编程实现,试验操作系统为Ubuntu 16.04,GPU显卡选用NVIDIA GTX1080TI。模型训练时,将训练样本分为训练集和验证集,验证集占总样本的1/3,Batch_size设置为6,样本图像输入尺寸为512像素×512像素,利用Adam算法进行网络优化,学习率设置为0.000 1。
式中: TP为属于类别C被正确分到类别C的样本; FN为不属于类别C的样本被错误分类到类别C; FP为不属于类别C的样本被正确分类到了类别C的其他类。F1和IoU取值为0~1之间,值越大,分类精度越好。
3.1 与WHU卫星数据集比较
为了分析SCRS数据集的性能,采用FPN-SENet分别在WHU数据集和SCRS数据集上进行训练、测试: ①WHU 卫星数据II(Satellite dataset Ⅱ (East Asia)),包含2幅训练数据和1幅测试数据,将训练数据裁切成512像素×512像素大小,2/3为训练集,1/3为验证集,利用训练后的模型对测试数据进行分类和精度评估; ②SCRS数据集,将训练数据裁切成512像素×512像素大小的图像,2/3为训练集,1/3为验证集,利用训练后的模型对测试数据进行分类和精度评估。其中,SCRS的测试数据,分别在不同区域选取高分二号2景、北京二号2景、高景一号2景影像,从每一景中裁剪出高宽为5 000像素×5 500像素建筑物丰富的影像,拼接成一幅高宽为5 000像素×33 000像素的测试数据,如图6所示。
图6
表1 SCRS数据集与WHU数据集的比较
Tab.1
数据集 | OA | Kappa | recall | precision | F1/% | IoU/ % |
---|---|---|---|---|---|---|
WHU | 0.995 | 0.804 | 0.772 | 0.845 | 80.7 | 67.6 |
SCRS(真彩色) | 0.946 | 0.751 | 0.742 | 0.827 | 78.2 | 64.2 |
SCRS(假彩色) | 0.952 | 0.784 | 0.778 | 0.847 | 81.1 | 68.2 |
3.2 常用FCN模型比较
目前遥感影像的像素级分类几乎都是基于FCN,于是本文以SCRS数据集中的真彩色影像为输入,对目前较为流行的几种FCN模型进行评估,表 2给出了FCN-8s,Segnet,U-net,PSPNet和本文方法(FPN-SENet)的分类精度,测试数据仍选择图5的影像。从测试结果来看,FPN-SENet取得了最优的结果,相对于表现次之的U-net,本文方法的F1值和IoU高出2.4和3.1百分点,比PSPNet的结果高出5.7和7.4百分点。从文献中得知,传统方法的准确率难以超过50%[20],而表2中语义分割模型的F1-score均超过了70%,说明深度学习方法在卫星影像建筑物提取中具有很好的应用前景。
表2 不同网络模型的比较
Tab.2
方法 | OA | Kappa | recall | precision | F1/% | IoU/ % |
---|---|---|---|---|---|---|
FCN-8s | 0.932 | 0.672 | 0.639 | 0.800 | 71.0 | 55.1 |
Segnet | 0.934 | 0.681 | 0.645 | 0.809 | 71.8 | 56.0 |
U-net | 0.941 | 0.735 | 0.707 | 0.818 | 75.8 | 61.1 |
PSPNet | 0.936 | 0.689 | 0.645 | 0.827 | 72.5 | 56.8 |
FPN- SENet | 0.946 | 0.751 | 0.742 | 0.827 | 78.2 | 64.2 |
3.3 不同损失函数的比较
为了提升FPN-SENet在SCRS数据集上提取建筑物的性能,本文尝试用多种损失函数对SCRS数据集进行训练和测试,表3显示了不同损失函数模型在测试数据的精度,影像输入波段为假彩色3波段,L_bce模型的建筑物提取准确率最高,达到了84.7%,L_dice模型的召回率最高,达到了83.3%,而L_bce-dice能够在准确率和召回率之间取得平衡,保证提取精度最优,F1分值和IoU分别达到了81.7%和69.1%。
表3 不同损失函数的比较
Tab.3
损失函数 | OA | Kappa | recall | precision | F1/% | IoU/ % |
---|---|---|---|---|---|---|
L_bce | 0.952 | 0.784 | 0.778 | 0.847 | 81.1 | 68.2 |
L_dice | 0.948 | 0.779 | 0.833 | 0.786 | 80.9 | 67.9 |
L_bce-dice | 0.952 | 0.790 | 0.82 | 0.814 | 81.7 | 69.1 |
3.4 基于窗函数平滑拼接的效果
图7
图8
4 结论
本文基于国产高分卫星影像和地理国情监测成果数据,制作卫星影像建筑物数据集,该方法能够快速制作大规模的像素级标注数据集,且采用一种基于注意力增强的特征金字塔建筑物提取网络对数据集进行测试,主要结论如下:
1)本文制作的卫星影像数据集的建筑物提取精度接近国际先进的开源卫星影像建筑物数据集,且数据集影像为4波段。
2)本文提出的网络模型,在建筑物提取上的精度优于其他常用的FCN网络。
3)通过改进损失函数、基于窗函数平滑拼接的技术手段,能够进一步提高建筑物提取精度和效果。本文结合国家重大项目需要提出的卫星影像建筑物自动提取方法,能够为深度学习方法在遥感解译领域的深入应用提供借鉴意义。未来将继续研究深度学习方法针对不同数据源、不同时相卫星影像的适用性,并制作更多地物类型、更大规模的遥感影像样本数据,推广深度学习方法在遥感自动解译领域的应用。
参考文献
Object based image analysis for remote sensing
[J]. ,DOI:10.1016/j.isprsjprs.2009.06.004 URL [本文引用: 1]
Geographic image retrieval using local invariant features
[J]. ,DOI:10.1109/TGRS.2012.2205158 URL [本文引用: 1]
Robust rooftop extraction from visible band images using higher order CRF
[J]. ,DOI:10.1109/TGRS.2015.2400462 URL [本文引用: 1]
Classification of hyperspectral remote sensing images with support vector machines
[J]. ,DOI:10.1109/TGRS.2004.831865 URL [本文引用: 1]
A fast learning algorithm for deep belief nets
[J]. ,DOI:10.1162/neco.2006.18.7.1527 URL [本文引用: 1]
Gradient-based learning applied to document recognition
[C]. ,
A novel connectionist system for unconstrained handwriting recognition
[J]. ,DOI:10.1109/TPAMI.2008.137 PMID:19299860 [本文引用: 1]
Recognizing lines of unconstrained handwritten text is a challenging task. The difficulty of segmenting cursive or overlapping characters, combined with the need to exploit surrounding context, has led to low recognition rates for even the best current recognizers. Most recent progress in the field has been made either through improved preprocessing or through advances in language modeling. Relatively little work has been done on the basic recognition algorithms. Indeed, most systems rely on the same hidden Markov models that have been used for decades in speech and handwriting recognition, despite their well-known shortcomings. This paper proposes an alternative approach based on a novel type of recurrent neural network, specifically designed for sequence labeling tasks where the data is hard to segment and contains long-range bidirectional interdependencies. In experiments on two large unconstrained handwriting databases, our approach achieves word recognition accuracies of 79.7 percent on online data and 74.1 percent on offline data, significantly outperforming a state-of-the-art HMM-based system. In addition, we demonstrate the network's robustness to lexicon size, measure the individual influence of its hidden layers, and analyze its use of context. Last, we provide an in-depth discussion of the differences between the network and HMMs, suggesting reasons for the network's superior performance.
Imagenet classification with deep convolutional neural networks
[C]// ,
Empirical evaluation and combination of advanced language modeling techniques
[C]// ,
Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition
[J]. ,DOI:10.1109/TASL.2011.2134090 URL [本文引用: 1]
Fully convolutional networks for semantic segmentation
[C]// ,
Automatic building segmentation of aerial imagery using multi-constraint fully convolutional networks
[J]. ,DOI:10.3390/rs10030407 URL [本文引用: 1]
Effective fusion of multi-modal remote sensing data in a fully convolutional network for semantic labeling
[J]. ,DOI:10.3390/rs10010001 URL [本文引用: 1]
Segnet:A deep convolutional encoder-decoder architecture for image segmentation
[J]. ,DOI:10.1109/TPAMI.34 URL [本文引用: 1]
U-Net:Convolutional networks for biomedical image segmentation
[C]// ,
Deeplab:Semantic image segmentation with deep convolutional nets,atrous convolution,and fully connected CRFS
[J]. ,
Can semantic labeling methods generalize to any city? The inria aerial image labeling benchmark
[C]// ,
遥感影像建筑物提取的卷积神经元网络与开源数据集方法
[J]. ,
Building extraction via convolutional neural networks from an open remote sensing building dataset
[J].
Feature pyramid networks for object detection
[C]// ,
基于segnet语义模型的高分辨率遥感影像农村建设用地提取
[J]. ,
Rural construction land extraction from high spatial resolution remote sensing image based on segnet semantic segmentation model
[J].
A review of assessing the accuracy of classifications of remotely sensed data
[J]. ,DOI:10.1016/0034-4257(91)90048-B URL [本文引用: 1]
Convolutional neural networks for large-scale remote-sensing image classification
[J]. ,DOI:10.1109/TGRS.2016.2612821 URL [本文引用: 1]
/
〈 | 〉 |