基于PSPNet的遥感影像城市建成区提取及其优化方法

doi:10.6046/gtzyyg.2020.04.12

基于PSPNet的遥感影像城市建成区提取及其优化方法

刘钊^,, 廖斐凡, 赵桐

清华大学土木工程系交通工程与地球空间信息研究所,北京 100084

Remote sensing image urban built-up area extraction and optimization method based on PSPNet

LIU Zhao^,, LIAO Feifan, ZHAO Tong

Institute of Transportation Engineering and Geospatial Information, Department of Civil Engineering, Tsinghua University, Beijing 100084,China

责任编辑: 陈理

收稿日期: 2019-11-18 修回日期: 2020-03-27 网络出版日期: 2020-12-15

Received: 2019-11-18 Revised: 2020-03-27 Online: 2020-12-15

作者简介 About authors

刘钊(1967-),男,副教授,主要从事地理信息系统基本理论、数据结构与算法研究。Email:liuz@mail.tsinghua.edu.cn。

摘要

利用高分辨率卫星遥感影像提取建成区边界对于城市扩张监测和城市发展规划具有重要意义。为获取高精度高空间分辨率的建成区数据,本研究通过归一化建筑指数(normalized difference built-up index,NDBI)加人工目视解译方法构建城市建成区遥感影像数据集,分别采用传统机器学习方法和包括PSPNet在内的4种深度学习语义分割网络对Sentinel-2影像进行建成区提取,训练结果表明PSPNet网络对于建成区的提取具有最高的精度(训练集交并集比(intersection over umion,IOU)为79.5%)。提出Overlapsize方法对PSPNet的提取结果进行优化,进一步提高了建成区提取准确率,该方法在训练集上的IOU达到80.5%,在测试集上的IOU达到了83.1%,利用PSPNet + Overlapsize提取建成区的方法相较于传统机器学习方法具有实际应用意义。

关键词： 建成区提取 ; 深度学习 ; 卷积神经网络 ; 语义分割 ; PSPNet ; Overlapsize

Abstract

Using high-resolution satellite remote sensing images to extract the boundary of the built-up area is of great significance for urban expansion monitoring and urban development planning. In order to obtain high-precision and high-resolution built-up area data, this study uses the NDBI index and artificial visual interpretation methods to construct remote sensing image datasets of urban built-up areas and uses traditional machine learning methods and four deep learning methods including PSPNet semantic segmentation network to extract the built-up area of Sentinel-2 images. The training results show that the PSPNet network has the highest accuracy for the built-up area extraction (IOU of the training set is 79.5%). This paper employs Overlapsize method to optimize the extraction results of PSPNet, which further improves the accuracy of the built-up area extraction. The IOU on the training set reaches 80.5%, and the IOU on the test set reaches 83.1%. Compared with the traditional machine learning method, the method of PSPNet + Overlapsize has practical application significance in built-up area extracting.

Keywords： built-up area extraction ; deep learning ; convolutional neural network ; semantic segmentation ; PSPNet ; Overlapsize

PDF (3553KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

刘钊, 廖斐凡, 赵桐. 基于PSPNet的遥感影像城市建成区提取及其优化方法. 国土资源遥感[J], 2020, 32(4): 84-89 doi:10.6046/gtzyyg.2020.04.12

LIU Zhao, LIAO Feifan, ZHAO Tong. Remote sensing image urban built-up area extraction and optimization method based on PSPNet. Remote Sensing for Land & Resources[J], 2020, 32(4): 84-89 doi:10.6046/gtzyyg.2020.04.12

0 引言

建成区在《城市规划基本术语标准》^[1]中的定义为: “城市行政区内实际已成片开发建设、市政公用设施和公共设施基本具备的区域。”一个城市的建成区边界相较于行政区界更能反映一个城市的发展规模和程度,高精度、高质量、高实时性的城市建成区数据是研究城市空间格局变化、城市扩张变迁、土地资源管理和产业布局的关键。因此研究建成区提取方法是一个具有重要现实意义的课题。

随着遥感技术的发展,国内外有很多学者围绕遥感影像建成区提取展开了研究,所提出的方法多种多样,2000年Masek等^[2]就已经通过对华盛顿地区不同年份的MSS和TM影像采用归一化植被指数(normalized difference vegetation index,NDVI)插值法,得到了1973—1996年间城市扩展区域的变化,但这一方法只适用于植被覆盖较好的地区,不具有普遍适用性; 刘智丽等^[3]根据目标地物波谱特征,应用归一化建筑指数(normalized difference built-up index,NDBI)结合NPP-VIIRS指数进行城市建成区提取也得到了精度较高的结果,但这一类指数方法也不可避免地存在同谱异物和同物异谱误识别的现象,会影响识别精度。而近年来机器学习方法如随机森林(random forest,RF)^[4]和支持向量机(support vector machine,SVM)^[5]等也被运用在建成区的提取实验中,这一类方法更加注重地物的纹理特征和空间特征,避免了传统指数方法的缺陷,提取效果更好,但是这一类方法也存在训练样本数量局限,模型结构简单,分类精度不够且提取结果的空间分辨率不高的问题。

近年来很多学者尝试运用深度学习中的卷积神经网络来提取建成区边界,冯丽英^[6]在基于深度学习技术的高分辨率遥感影像建设用地信息提取研究中,为了解决影像信息提取的边界性问题,以不同尺度对高分二号影像进行分割,然后采用神经网络进行提取,根据结果确定最佳的分割尺度,取得了较SVM和RF等方法更为优异的结果; 马凯等^[7]将卷积神经网络GoogleNet Inception网络应用于Landsat8影像中进行青海湖地区的用地分类,得到人工用地信息; 陈磊士等^[8]直接将GoogleNet Inception V3网络用于城市建设用地的提取,取得了比SVM方法更优的效果。但以上方法只是针对部分特定地区,模型不具备泛化能力,也没有完全解决边界拼合问题,且提取结果空间分辨率也有待进一步提高。

为进一步提高建成区的提取空间分辨率和精度,获取一个具有普适性的模型,本研究拟建立我国胡焕庸线以东范围内城市建成区Sentinel-2遥感影像数据集,采用改进的深度学习卷积神经语义分割网络(pyramid scene parsing network,PSPNet)进行建成区提取,并设置多组对比实验以验证方法有效性。在此基础上,为解决边界问题,应用Overlapsize方法在模型预测阶段进行改进,探讨这一方法对提取结果准确率的影响。

1 原理与方法

1.1 PSPNet及其结构特点

PSPNet^[9]是在全卷积网络^[10](fully convolutional network,FCN)基础上改进而来的语义分割网络,其核心思想是当在对于局部小目标进行判别时,如果在分割层引入更多的全局信息,可以相对降低误识别的概率。本研究中PSPNet实现全局信息引入的方式有2种: 一是在PSPNet的Resnet^[11]卷积模块中运用空洞卷积增加感受野; 二是通过应用金字塔池化模块分别提取图像深层和浅层的特征并将其融合以降低误分割的概率。金字塔池化模块的运用是PSPNet区别于其他网络的主要结构特征。

PSPNet主要结构大致可以分为特征提取的Resnet卷积模块、金字塔池化模块和最后的FCN输出模块3个部分(图1)。①输入图像首先通过深度为50层的Resnet卷积模块提取得到图像特征层; ②将所得的图像特征层输入金字塔池化模块来获取影像深层和浅层(池化特征的尺寸分别为1,2,3,6)特征; ③在金字塔池化模块后,由步骤②获得的深层和浅层特征图层会一起输入FCN模块最后得到与输入图像相同尺寸的预测图像。

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 PSPNet基本结构

Fig.1 Basic structure of PSPNet

1.2 应用PSPNet模型的遥感影像建成区提取方法

应用PSPNet模型进行遥感影像建成区提取的方法主要分为2个部分,模型训练和应用模型预测提取。训练提取流程如图2所示。

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 训练提取流程

Fig.2 Training extraction flow chart

在模型训练阶段,首先对Sentinel-2影像进行裁切,建立建成区遥感影像数据集,将所得的数据集输入至PSPNet模型中进行特征学习,得到初步的预测概率图,然后采用交叉熵^[12]计算预测结果与样本真值之间的损失值,并利用Adam算法^[13]进行反向迭代优化,在设置好模型训练参数后进行多轮训练直至预测损失小至一定阈值且预测精度变化收敛为止,得到最优模型; 在影像预测阶段,将新的Sentinel-2影像输入已训练好的PSPNet模型进行预测,最终得到高精度的提取结果。

2 实验过程

2.1 遥感影像数据区域选取

本研究选取了我国胡焕庸线以东各地有典型地域特点的城市(哈尔滨、北京、保定、德州、杭州、无锡、武汉、广州、珠海)局部市区及郊区影像作为训练数据集的目标区,目的是获得一个能够适用于全国大部分城市的提取模型。另外,选取异于以上地区的其他城市部分区域(大连、天津、太原、上海、宁波、长沙、昆明)作为独立测试集,用以验证方法的适用性。

2.2 影像数据准备

本研究所采用的影像数据为Sentinel-2,该影像数据是现在能从公开免费渠道获取的精度最高数据,其中包含13个波段的多光谱影像,光谱范围涵盖可见光、近红外与短波红外等。Sentinel-2影像宽幅为290 km,空间分辨率最高为10 m,拍摄范围可以覆盖我国全境。

本文采用2016—2018年间各目标区4—10月份的无云影像,选取常规的RGB 3个波段影像作为训练影像数据,一方面是其包涵的纹理信息最为丰富,符合人眼视觉习惯,方便通过目视解译标注训练标签; 另一方面是由于下载的影像产品中已经存在的TCI影像就是经过大气校正处理后生成的真彩色合成影像,影像质量较好,可以直接使用。

2.3 标签的定义

建成区划定的方法通常有2类^[14],一类是城乡规划部门通过已有累计规划管理数据进行划定,这一判定方法主要从区分是否开发建设、是否利用城市基础设施和服务设施的角度出发,主要是关注用地的开发和功能属性; 另一类是通过卫星或遥感影像进行判定,将遥感影像上分布有建筑物的区域近似的认为是城市建成区,这种方法主要根据所判别对象在影像上表现出来的颜色和纹理特征来进行分类。二者有一定的区别,本文采用的是第二类划定方法。

依据李爱民^[15]对于建成区边界界定,绝大多数建成区在遥感影像上有以下几个特点: ①建成区是一类面积较大的组合型目标群体; ②其内部有建筑物、广场、街道、植被、水域组成; ③建成区建筑物数量多,一般以群的形式出现,且彼此间距离很近,排列紧致有序,其内部被街道纵横,被分为若干个街区; ④建成区外部多为田野、山地以及小面积居民地,城市之间通过铁路或公路连接; ⑤城市建成区内的主要成分建筑物街道、广场一般为水泥表面,即“不透水面”,在遥感影像中光谱特性类似; ⑥城市区域内地物目标种类复杂,内部影像灰度变化较为剧烈,而区域周围由于地物单一往往灰度变化较为平缓,建成区与非建成区在绝大多数情况下有着比较明显的边界。

本研究在利用遥感影像标定城市建成区范围时,充分考虑了以上特性,并为了兼顾建成区的空间连续性,将城市内部面积较小的非城市功能用地、水体和绿地也算入城市建成区,另外由于建成区在遥感影像上的纹理特征与城市外散布的大小居民地(县城、集镇、村庄)基本一致,在划分样本时也将居民地划入建成区,以提高模型训练精度。这里特别说明,定义的建成区标签有别于城市规划部门所定义的建成区。据此本研究应用NDBI^[16]指数界定城市建成区边界的方法初步提取建成区边界,再根据建成区的影像特征通过人工目视检查对数据进行编辑修正,最终获取与影像严格对应的标签数据。

2.4 数据的裁切处理

在将与影像对应的标签数据栅格化后,考虑到将整景遥感影像输入到模型中训练时所占用资源大大超过了机器的负荷,本研究将参与训练的遥感影像和标签裁剪成每张512像素×512像素的小图像,最后得到3 058对图像及其对应标签,并将其以8∶2的比例随机分为训练集与验证集。训练集中部分城市影像及其标注数据如图3所示(影像上的黄色掩模部分为建成区标注数据)。

图3

新窗口打开| 下载原图ZIP| 生成PPT

图3 部分城市影像及其标注数据

Fig.3 Partial city images and annotated data

2.5 PSPNet网络训练

本研究中的训练应用python的pytorch深度学习框架实现,其详细结构见文献[17]。网络分类设置为2(建成区和非建成区2类),初始学习率设置为0.001,迭代次数为50,当迭代训练验证集精度稳定时学习率降为原来的1/10,最小学习率为0.000 001。经试验证明此时验证集精度已经收敛不再有显著提高。

为了评估分类精度,采取总体精度(overall accuracy,OA)和交并集比(intersection over union,IOU)作为评价指标。OA为总体预测正确的像素数占总像素数的比例,IOU为建成区真实值和预测值2个集合交集与并集之比。2个指标的计算公式分别为:

(1)

OA = \frac{\overset{1}{\sum_{i = 0}} p_{ii}}{\overset{1}{\sum_{i = 0}} \overset{1}{\sum_{j = 0}} p_{ij}}

(2)

IOU = \frac{p_{11}}{p_{01} + p_{11} + p_{10}}

式中 $p_{ij}$ 为本属于i类被分为j类的像素数量,其中1代表建成区,0代表非建成区。

3 结果与优化

3.1 训练结果

为了验证本文方法的有效性,将分别应用RF,SVM以及卷积神经网络中的Deeplab-V3^[18],DlinkNet^[19]和ShelfNet^[20]等模型对比验证PSPNet模型在建成区提取方面的适用性,经过训练后,得到不同模型方法在验证集上的OA和IOU得分,如图4所示。由训练结果可以看出,深度学习的方法较机器学习的方法在IOU上至少提高了21百分点,而PSPNet网络在训练中分别得到最高的OA(96.7%)和IOU(77.3%)。

图4

新窗口打开| 下载原图ZIP| 生成PPT

图4 训练结果

Fig.4 Training results

3.2 结果优化

应用PSPNet网络模型进行预测虽然能够得到比较好的结果,但从实际效果观察来看,还有明显的问题,部分预测结果有明显的不连续性,在裁切线边缘有断层现象,这明显不符合城市建成区空间分布逻辑,属于明显错误。初步分析是因为最后得到的提取结果是由各个分割小图像提取结果合并得到的,而当被预测对象在图像边缘被相邻图像分割成2部分时由于信息不完整误识别率较高,进而出现被相邻2幅图像分割的对象在一侧图像被识别而在另一侧没有被识别的情况,这就导致在最终的合并结果中出现了断层。

基于以上分析,本研究提出了Overlapsize方法来验证并解决这一问题,具体思路是,在应用模型进行提取时,裁剪影像采取冗余分割,即相邻图像在分割的时候会在基准尺寸(512像素×512像素)的基础上再外扩一定范围(128像素),得到与相邻图像存在重叠区域的外扩图像(768像素×768像素),在将每一外扩图像输入模型得到提取结果之后,将提取结果裁剪去掉外扩部分保留基准尺寸部分再进行拼接。其流程图如图5所示,对比应用Overlapsize方法前后建成区提取结果如图6所示。

图5

新窗口打开| 下载原图ZIP| 生成PPT

图5 Overlapsize方法示意

Fig.5 Method schematic of Overlapsize

图6

新窗口打开| 下载原图ZIP| 生成PPT

图6 应用Overlapsize方法前后建成区提取结果

Fig.6 Extraction results of built-up area before and after using Overlapsize

图6中红线为裁切线。可以看出,图6(a)部分预测结果有明显的不连续性,在裁切线边缘(绿框区域)有断层现象,图6(b)的对应区域则平滑且自然,说明Overlapsize方法可以有效地解决相邻预测结果在拼接时产生的边界断层问题,而检测结果也证明在PSPNet模型中运用Overlapsize方法后训练集和测试集IOU分别提高了2.2和2.6百分点,如图7所示。

图7

新窗口打开| 下载原图ZIP| 生成PPT

图7 改进效果对比

Fig.7 Comparison of improvement effects

4 结论

本文面向Sentinel-2高分辨率遥感影像,通过NDBI和人工目视解译修正的方法建立了大规模的遥感影像数据集,对数据集采用几种经典机器学习方法和神经网络方法进行训练,并将其中最优的学习模型利用Overlapsize方法进行优化,通过实验主要得到以下结论:

1)几种经典语义分割神经网络在提取建成区时较传统机器学习方法如SVM和RF方法有更高的精度和适用性。其中PSPNet的表现最好,训练集IOU为77.3%,测试集IOU为79.5%,具有良好的适用性。

2)利用Overlapsize优化方法能够有效地解决预测结果边界断层问题,并进一步提高预测精度。利用PSPNet+Overlapsize方法提取建成区具有较好的应用预期。

3)本研究训练模型对于影像中蔬菜大棚和机场存在误识别的现象,这是训练样本缺失造成的,下一步工作中还需要补充样本数据继续迭代训练完善模型。

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

中华人民共和国建设部.

GB/T50280—98城市规划基本术语标准

[S]. 工程建设标准全文信息系统, 1999.