基于Unet网络多任务学习的遥感图像建筑地物语义分割

1.2 多任务网络结构

本文提出的多任务网络是基于FCN网络Unet^[23]而构建。Unet是具有卷积编码与卷积解码完全对称的网络结构,常用于图像语义分割。然而,Unet的网络架构简单,尽管将其应用于遥感图像建筑地物提取可准确检测建筑地物的位置,但检测结果经常为一些尺寸大小不等的圆斑且大多数建筑地物不能检测出来,并且边界信息大量丢失。为此,本文的多任务网络,使用ResNet网络^[26]为基础网络,重新构建Unet网络; 之后,在网络末端,分别加入建筑地物预测层与边界距离预测层,以实现多任务学习,如图1所示。

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 多任务网络结构

Fig.1 Framework of the multi-tasking network

图1中,多任务网络由卷积编码(下采样)和卷积解码(上采样) 2条路径组成。卷积编码部分是ResNet网络(本文选择的是ResNet50^[26]),用于提取输入图像的特征。首先,输入图像通过卷积、标准化和激活函数操作进入卷积层和最大池化层,以提高网络对失真和迁移的鲁棒性。之后,在特征提取期间,有4个编码模块,每个模块包括几个ResNet网络的残余块。同一模块中的特征图具有相同的大小,下层模块的特征图是上层模块的一半。不同模块中的特征映射具有不同的缩放特征。而相对应的卷积解码部分旨在使用卷积编码获得的特征图提取建筑地物。参考Unet的特征金字塔设置^[23],为获得多尺度的特征,在卷积解码部分中设计与卷积编码部分相应模块的串联。卷积解码部分中的每个模块都包括对应卷积编码和下层模块的输入,以此使卷积解码部分重新获得高频信息。在网络的末端,添加2个卷积层,分别用于预测图像中每个像素到建筑地物边界的距离 $H_{dist}$ 和用于预测建筑地物分割结果的距离 $H_{seg}$ ,由距离预测卷积层构建; 且加入的2个卷积层均伴随着相应的softmax层以完成不同的预测任务,从而使多任务网络可充分利用卷积解码特征映射中存在的语义属性和几何属性。因此,使用ResNet网络作为特征提取器,可解决卷积层增加而导致的梯度消失问题,并且在卷积编码部分提取出有效图像特征; 卷积解码部分中的串联连接能够学习多个尺度和不同网络层的特征,可增加网络的鲁棒性以提高建筑地物分割的准确性; 最后加入多任务预测结构,能够使网络具备提取目标对象的语义和几何属性的能力。

1.3 基于不确定性的多任务损失

在多任务网络中,其损失函数 $L_{t}$ 为单任务损失函数的加权和,即

(3)

L_{t} (x, θ) = \overset{T}{\sum_{i = 1}} λ_{i} L_{i} (x, θ)

式中: $x$ 为训练图像; $T$ 为任务数; $L_{i}$ 为相对于网络参数 $θ$ 最小化的相应任务损失函数; $λ_{i}$ 为权重,以模拟每个任务 $L_{i}$ 在多损失函数 $L_{t}$ 中的重要性。其中,多任务损失中的加权项 $λ_{i}$ 可结合单任务中的超参数,以形成适应多任务网络的总体损失。考虑每个任务中模型预测的不确定性来学习相应任务的权重 $λ_{i}$ ,其目的是根据单任务预测的置信度来学习相对任务权重^[27]。为此,将多损失函数 $L_{t}$ 定义为2个像素级分类损失的组合,即

(4)

L_{t} (x, θ, σ_{dist}, σ_{seg}) = L_{dist} (x, θ, σ_{dist}) + L_{seg} (x, θ, σ_{seg})

式中: $L_{dist}$ 和 $L_{seg}$ 分别为用于预测建筑地物边界和分割结果的分类损失函数; $σ_{dist}$ 和 $σ_{seg}$ 分别为 $λ_{i}$ 的相应任务权重。

将每个分类任务模型可能性使用模型输出 $f (x)$ 导出,其中不确定性通过softmax函数可简化为:

(5)

P (C = 1 | x, θ, σ_{t}) = \frac{\exp [\frac{1}{σ_{t}^{2}} f_{c} (x)]}{\sum_{c'=1} \exp [\frac{1}{σ_{t}^{2}} f_{c'} (x)]}

式中: $P$ 为多任务估计; $f_{c} (x)$ 为期望输出; $f_{c'} (x)$ 为原始的实际输出; $σ_{t}$ 为标量缩放系数。

对式(5)使用负对数似然,用不确定性表示分类损失,即

(6)

L_{t} (x, θ, σ_{t}) = \overset{C}{\sum_{c = 1}} - C_{c} logistic P (C_{c} = 1 | x, θ, σ_{t})

式中 $C_{c}$ 为 $c$ 类的像素集。

假设网络的多个输出由连续输出和离散输出组成,分别用高斯似然和softmax似然建模^[27],可进一步简化损失函数,即

(7)

\frac{1}{σ_{t}^{2}} \sum_{c'} \exp [\frac{1}{σ_{t}^{2}} f_{c'} (x)] \approx {\sum_{c'} \exp [f_{c'} {(x)]}}^{\frac{1}{σ_{t}^{2}}}

。

故结合式(6)—(7)的多任务网络的损失函数为:

(8)

L_{t} (x, θ, σ_{t}) \approx \frac{1}{σ_{t}^{2}} \overset{C}{\sum_{c = 1}} - C_{c} logistic P (C_{c} = 1 | x, θ) + logistic (σ_{t}^{2})

。

式中使用近似方程自适应地组合2个分类任务边界预测 $L_{dist}$ 和分割结果预测 $L_{seg}$ ,其中,为了数值稳定性,不同任务的损失函数权重使用 $logistic (σ_{t}^{2})$ 而不是 $σ_{t}^{2}$ 。

1.4 训练多任务网络

在完成多任务网络搭建,以及自适应损失函数定义之后,使用动量与RMSProp算法结合的Adam优化算法^[30]训练该网络,以优化更新网络参数,即

(9)

\{\begin{array}{l} w_{t} = w_{t - 1} - α_{t} \frac{{\overset{}{m}}_{d_{w}}}{\sqrt[]{{\overset{}{v}}_{d_{w}}} + ε} \\ b_{t} = b_{t - 1} - α_{t} \frac{{\overset{}{m}}_{d_{b}}}{\sqrt[]{{\overset{}{v}}_{d_{b}}} + ε} \end{array}

式中: $w_{t}$ , $b_{t}$ 和 $α_{t}$ 分别为第t次迭代的网络权重、偏置和学习速率; ${\overset{}{m}}_{d_{w}}$ 和 ${\overset{}{m}}_{d_{b}}$ 分别为网络权重与偏置的偏差纠正动量值; $\sqrt[]{{\overset{}{v}}_{d_{w}}}$ 和 $\sqrt[]{{\overset{}{v}}_{d_{b}}}$ 分别为 $w_{t}$ 和 $b_{t}$ 的偏差纠正RMSProp值; $ε$ 为超参数,一般取 $10^{- 8}$ 。

在式(9)中,为加速收敛多任务网络,使用离散指数衰减动态调整当前迭代的学习速率,即

(10)

α = α_{0} g^{f (t / 10)}

式中: $α$ 为当前的学习速率; $f (\cdot)$ 为下取整; $g$ 为速率衰减因子; $t$ 为当前的迭代次数; $α_{0}$ 表示初始学习速率。

2 实验与分析

2.1 数据集及数据增广

本文在大规模Inria航空遥感图像建筑地物标注数据集^[17]上进行实验。该数据集中的样本图像是经过正射校正且空间分辨率为0.3 m的RGB图像,每幅图像尺寸为5 000像素×5 000像素,覆盖地表面积为1 500×1 500 m²。所有样本图像从10座城市的遥感图像中获取,总面积为810 km²。这些图像具有不同的城市建筑地物,从人口稠密地区到高山城镇。该数据集仅标注建筑地物与非建筑地物2个语义类,其训练集均有标注完整的真值。为了具有可比性,本文按照文献[17]的数据集划分方法,来划分训练集与验证集(每个城市的第1—5幅样本图像用于验证,第6—36幅用于训练)。

数据增广的目的是生成新的样本实例,并且当训练样本较少时,数据增广对于提高网络的鲁棒性非常有用。对于遥感图像,有许多常用的数据增广方法,如颜色抖动、随机裁剪、水平/垂直翻转、移位、旋转/反射、噪声、切割和切换频带等。由于大多数遥感图像是正射影像,因此变化主要反映在方向和尺度上。然而,本文使用的数据集中的图像具有相同的空间分辨率,没有大的尺度变化,因此仅使用其中3种常见的增广方法: 水平/垂直翻转、旋转和随机裁剪。从原始图像中随机提取尺寸为224像素×224像素的图像块,对其进行水平和垂直翻转以及不同角度的旋转。经过数据增广后,原数据集可扩大14倍。需说明的是,仅对原数据训练集进行增广,并不再为验证集进行数据增广。

2.2 评价指标

为验证提出方法的语义分割性能,采用2种评价指标来评估不同方法在数据集上的表现: ①准确度(accuracy, Acc),表示正确分类像素的百分比; ②交并比(intersection over union, IoU),其被定义为预测结果与真值图均是建筑地物的交集除以其并集,即

(11)

J (A, B) = \frac{|A ⋂ B|}{|A ⋃ B|} = \frac{|A ⋂ B|}{|A| + |B| - |A ⋂ B|}

式中: $A$ 为不同方法预测的建筑地物; $B$ 为真值图中的建筑地物。

2.3 实验平台

采用高性能服务器实验平台: 操作系统为Ubuntu18.04; CPU为Intel(R) Xeon(R) cpu E5-2650 V2 @2.6 GHz (×2); 内存为64 GB; GPU为Tesla K40m (×3); 显存为23 GB; 深度学习平台为Keras 2.2.4; 数据可视化工具为Matplotlib 2.2.0; 编程语言为Python 3.6.4。

2.4 实验结果与分析

为系统验证本文方法通过加深语义分割网络的编码与解码层,以及加入边界预测层使用级联多任务学习搭建的Unet网络的优越性,选取其中5个城市的遥感图像,分别将本文方法与FCN结合MLP方法(FCN+MLP)^[17]、基于VGG16搭建的Unet网络(VGG16)^[24]、加入本文边界预测的基于VGG16搭建的Unet网络(VGG16+边界预测)和基于ResNet50搭建的Unet网络(ResNet50)^[25]的实验结果进行对比分析,实验结果如表2所示。

表2 不同方法的实验结果

Tab.2 Experimental results of different methods(%)

城市	FCN+MLP		VGG16		VGG16+边界预测		ResNet50		本文方法
城市	IoU	Acc	IoU	Acc	IoU	Acc	IoU	Acc	IoU	Acc
Austin	61.20	94.20	70.66	95.28	72.81	95.82	72.38	95.79	74.41	96.09
Chicago	61.30	90.43	66.37	91.44	67.38	91.92	66.12	91.50	67.76	92.02
Kitsap Co.	51.50	98.92	57.55	98.19	57.54	98.90	58.68	98.95	60.19	98.63
West Tyrol	57.95	96.66	67.82	95.35	67.18	97.01	67.32	97.07	69.09	97.74
Vienna	72.13	91.87	77.01	93.28	77.19	93.31	76.86	93.21	78.21	93.63
均值	64.67	94.42	69.82	94.71	71.61	95.39	71.08	95.30	72.53	96.10

从表2可以看出,本文的多任务网络具有以下优势。

1) 具有更深的编码与解码层搭建的Unet网络可取得较优的建筑地物分割结果。表2中,FCN+MLP方法采用简单的4层卷积编码层搭建的FCN,之后使用MLP组合不同层的特征映射以输出最终建筑地物预测结果,尽管MLP组合来自不同层的特征映射,但因本身的编码与解码层较浅,无法充分提取建筑地物本身的多变特征致使建筑地物提取结果较差。为了验证编码器和解码层的深度对构建Unet网络的重要性,本文分别使用VGG16与ResNet50重新搭建Unet网络。新搭建的Unet网络中的编码层的网络权重分别使用VGG16与ResNet50网络在ImageNet^[28]上预训练的网络权重初始化,以及使用高斯分布初始解码层的网络权重; 之后,使用Adam优化算法,设置初始学习速率率为0.01,采用指数的衰减速率,速率衰减因子为0.7,使用预测结果与分割标签的负对数似然函数计算损失并传递损失优化网络。从表2中所得到的不同网络搭建的Unet网络的实验结果可以看出: 由于编码层与解码层采用更深层网络架构,相比于FCN+MLP方法,VGG16网络^[24]、VGG16+边界预测、ResNet50网络和本文方法的IoU均值分别提升5.15,6.94,6.41和7.86百分点,Acc均值分别提升至94.71%,95.39%,95.30%和96.10%,这表明FCN+MLP方法所提取的特征对于遥感图像建筑地物分割任务来说难以提取图像的深度抽象特征; 采用深层网络搭建编码与解码层在语义分割任务中起着至关重要的作用,相对于VGG16网络,ResNet50网络的IoU和Acc均值分别提高了1.26和0.59百分点。

2) 距离预测的重要性。为验证本文提出的加入边界距离预测的多任务网络的优势,分别在基于VGG16与ResNet50搭建的Unet网络中加入边界距离预测层,即除了用于分割结果预测层 $H_{seg}$ ,同时附加用于距离预测层 $H_{dist}$ 。经大量实验验证,在制作边界距离图生成训练数据时,当式(1)中截断距离 $R = 20$ ,式(2)中区间数 $k = 10$ 时,本文方法可取得最高的遥感图像建筑地物分割精度。从表2可以看出,VGG16+边界预测方法比VGG16分割结果的IoU和Acc均值分别提高1.79和0.62百分点; 本文方法的IoU和Acc均值分别达到72.53%和96.10%,取得了最高的遥感图像建筑地物分割精度。为此,得出结论: 加入边界距离预测层的多任务网络可获得更高的分类精度,究其原因是加入边界距离预测层的Unet网络在训练过程中使该多任务网络的主体层(编码与解码层)学习到建筑地物的几何属性,在分割预测层尽可能保留建筑地物的边界信息,从而获得更高的语义分割精度。

为进一步验证本文方法的有效性,不同方法遥感图像建筑地物的分割结果如表3所示。

表3 不同方法遥感图像建筑地物分割结果

Tab.3 Building object segmentation results of remote sensing image by using different methods

从表3可以看出,不同方法提取10幅遥感图像建筑地物的结果中,仅FCN+MLP方法的分割结果表现出明显的“圆斑”效应,而其他方法的分割结果与真值十分接近。这也可以从表2中看出,相比于FCN+MLP方法,其他4种方法的IoU和Acc值均有较大提升,因此其分割结果会出现较大差异; 而其他4种方法的IoU和Acc值的差异较小,并且表3中的10幅图像的尺寸为500像素×500像素,仅仅是一景遥感图像的万分之一,故视觉效果较差。但细致观察图像1与2的分割结果,本文方法相比其他4种方法可更加准确地分割小规模建筑地物。图像4的分割结果中,由于建筑地物之间间隔较小,很容易造成分割结果中出现不同程度的合并以及边界出现毛边,而ResNet50的分割结果合并与分割边界出现毛边的现象较少。图像5—10中,VGG16+边界预测方法和本文方法的分割结果更接近真值,其边界更准确可辨。

为进一步分析本文提出的多任务网络中的边界距离预测层对上述分割结果的直观视觉作用,可视化VGG16+边界预测方法与本文方法的边界预测层的输出结果如表4所示。

表4 边界距离预测层输出结果可视化

Tab.4 Visualization of the boundary distance prediction layer output

从表4可以看出,VGG16+边界预测方法和本文方法与边界距离真值非常接近,从10组图像中均可观察到完整的建筑地物边界。因此,这也是在同种框架下,加入边界预测层的多任务网络提取的遥感图像建筑地物优于单任务网络的直接原因; 另外,加入边界预测层的多任务网络可充分发挥Unet网络提取建筑地物边界的优势,从而为分割结果预测层提供建筑地物边界的更多几何信息。需注意的是,在图像3,4和10的边界距离图中,本文方法要明显优于VGG16+边界预测的方法,从而侧面验证了具有更深编码与解码层的Unet网络具有较强的提取遥感图像建筑地物细节特征的能力。

2.5 效率分析

影响基于深度学习的语义分割方法时效性的2个关键因素为将所有训练样本输入到网络训练一个周期所需的时间和网络的收敛速率。为此,不同方法分别在训练集与验证集上进行测试时,其损失值随训练周期增加的变化趋势如图2所示。为了进行公平对比,5种不同方法训练的优化均采用Adam算法。

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 训练周期与损失值折线图

Fig.2 Line chart of training period and loss value

从图2(a)不同方法在训练集上的损失值变化趋势可以看出,FCN+MLP基准方法的损失值降低速率最慢,而本文方法的损失值降低速率最快,表明本文方法可以在更少的训练周期内获得网络收敛。此外,ResNet50和VGG16+边界预测的损失值降低速率基本持平,亦表明加入边界预测层的多任务网络可使单一任务的Unet网络具有更好的性能。从图2(b)在验证集上的损失值变化趋势可以看出,本文方法的曲线波动较小,表明本文方法可有效避免过拟合或欠拟合现象,从而使网络收敛加快,减少网络训练时间。

3 实际应用

河南省新乡市高新区的覆盖范围达52 km²,包含建筑、道路、植被、裸地和水体等多种地物类型。以我国高分2号卫星于2018年4月16日拍摄的该区域实际遥感图像为例,不同方法分割该实际遥感图像建筑地物的实验结果如图3所示。

图3

新窗口打开| 下载原图ZIP| 生成PPT

图3 不同方法的实际遥感图像建筑地物分割结果

Fig.3 Building object segmentation results of a factual remote sensing image by using different methods

结合图3(a)遥感图像的目视解译,从图3可以看出FCN-MLP和VGG16方法存在过分割现象,究其原因是它们将部分道路或邻近建筑地物误分割为同一建筑地物,尤其FCN+MLP方法的误分割现象较为严重; VGG16+边界检测方法,较VGG16方法建筑地物边缘部分更为准确; 而ResNet50方法对建筑地物则存在欠分割现象,这是由于该方法对边缘检测不够准确的缘故。如上节所述,本文方法擅长准确地分割小规模建筑地物,故其对该覆盖范围较大、包含较多类型地物的实际遥感图像的建筑地物分割较为准确。通过对图3(f)像素数目的计算,并与该研究区域2017年的统计年鉴资料对比,本文方法对该实际遥感图像建筑地物的分割准确度Acc值为86.93%。

4 结论

为实现高精度分割遥感图像中建筑地物,本文提出一种多任务学习的基于ResNet50搭建的Unet网络。该网络主要从2方面提高遥感图像的建筑地物语义分割结果: ①采用更深层的ResNet网络搭建Unet网络; ②使用级联多任务学习,使搭建的Unet网络可结合建筑地物的几何边界信息,输入到FCN进行有效语义分割。

实验结果表明,本文方法可使遥感图像建筑地物语义分割结果的IoU均值提高至72.53%,Acc均值提高至96.10%,能够在一定程度上满足实际遥感图像的建筑地物分割的准确性与时效性要求。在实际应用中,对新乡市高新区遥感图像建筑地物的分割准确度达到86.93%。但是,本文网络的深度仍然有限,其边界距离采用的是简单欧氏距离。为此,接下来拟采用ResNet101和ResNet200网络继续加深Unet网络的编码和解码层,以及采用马氏距离等生成边界距离预测图,来提升遥感图像的建筑地物语义分割精度。

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

Zhang

, Wang

, Shen

, et al.

Fully connected conditional random fields for high-resolution remote sensing land use/land cover classification with convolutional neural networks

[J]. Remote Sensing, 2018,10(12):1889-1903.

[2]

, Dong

, Fu

Large-scale oil palm tree detection from high-resolution satellite images using two-stage convolutional neural networks

[J]. Remote Sensing, 2019,11(1):11-31.

[3]

张永宏, 夏广浩, 阚希, 等.

基于全卷积神经网络的多源高分辨率遥感道路提取

[J]. 计算机应用, 2018,28(7):2070-2075.

Zhang

Y H

, Xia

G H

, Kan

, et al.

Road extraction from multi-source high resolution remote sensing image based on fully convolutional neural network

[J]. Journal of Computer Applications, 2018,28(7):2070-2075.

[4]

Demir

, Koperski

, Lindenvaum

, et al.

DeepGlobe 2018:A challenge to parse the earth through satellite images

[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW).Salt Lake City:IEEE, 2018:17201-17209.

[5]

, Liang

, Weng

, et al.

A multiple-feature reuse network to extract buildings from remote sensing imagery

[J]. Remote Sensing, 2018,10(9):1350-1368.

DOI:10.3390/rs10091350 URL [本文引用: 3]

[6]

施文灶, 刘金清.

基于邻域总变分和势直方图函数的高分辨率遥感影像建筑物提取

[J]. 计算机应用, 2017,37(6):1787-1792.

Shi

W Z

, Liu

J Q

Building extraction from high-resolution remotely sensed imagery based on neighborhood total variation and potential histogram function

[J]. Journal of Computer Applications, 2017,37(6):1787-1792.

[7]

Sun

, Lin

, Shen

, et al.

High-resolution remote sensing data classification over urban areas using random forest ensemble and fully connected conditional random field

[J]. ISPRS International Journal of Geo-Information, 2017,6(8):245-271.

[本文引用: 2]

[8]

Jabri

, Zhang

, Suliman

Stereo-based building detection in very high resolution satellite imagery using IHS color system

[C]// 2014 IEEE Geoscience and Remote Sensing Symposium.Quebec City:IEEE, 2014:2301-2304.

[本文引用: 2]

[9]

Garcia-Garcia

, Orts-Escolano

, Oprea

, et al.

A review on deep learning techniques applied to semantic segmentation

[EB/OL]. (2017-04-22) [2019-02-05]. http://arxiv.org/abs/1704.06857.

[10]

Yuan

Automatic building extraction in aerial scenes using convolutional networks

.[EB/OL]. (2016-02-21) [2019-02-20]. http://arxiv.org/abs/1602.06564.

[11]

Zhang

, Wang

, Liu

, et al.

CNN based suburban building detection using monocular high resolution Google Earth images

[C]// 2016 IEEE International Geoscience and Remote Sensing Symposium (IGARSS).Beijing:IEEE, 2016:661-664.

[12]

Zhou

, Zhao

, Puig

, et al.

Scene parsing through ade20k dataset

[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Hawaii, 2017:633-641.

[13]

Long

, Shelhaner

, Darrell

Fully convolutional networks for semantic segmentation

[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Boston, 2015:3431-3440.

[14]

Badrinarayanan

, Kendall

, Cipolla

SegNet:A deep convolutional encoder-decoder architecture for image segmentation

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017,39(12):2481-2495.

DOI:10.1109/TPAMI.2016.2644615 URL PMID:28060704 [本文引用: 2]

We present a novel and practical deep fully convolutional neural network architecture for semantic pixel-wise segmentation termed SegNet. This core trainable segmentation engine consists of an encoder network, a corresponding decoder network followed by a pixel-wise classification layer. The architecture of the encoder network is topologically identical to the 13 convolutional layers in the VGG16 network [1] . The role of the decoder network is to map the low resolution encoder feature maps to full input resolution feature maps for pixel-wise classification. The novelty of SegNet lies is in the manner in which the decoder upsamples its lower resolution input feature map(s). Specifically, the decoder uses pooling indices computed in the max-pooling step of the corresponding encoder to perform non-linear upsampling. This eliminates the need for learning to upsample. The upsampled maps are sparse and are then convolved with trainable filters to produce dense feature maps. We compare our proposed architecture with the widely adopted FCN [2] and also with the well known DeepLab-LargeFOV [3] , DeconvNet [4] architectures. This comparison reveals the memory versus accuracy trade-off involved in achieving good segmentation performance. SegNet was primarily motivated by scene understanding applications. Hence, it is designed to be efficient both in terms of memory and computational time during inference. It is also significantly smaller in the number of trainable parameters than other competing architectures and can be trained end-to-end using stochastic gradient descent. We also performed a controlled benchmark of SegNet and other architectures on both road scenes and SUN RGB-D indoor scene segmentation tasks. These quantitative assessments show that SegNet provides good performance with competitive inference time and most efficient inference memory-wise as compared to other architectures. We also provide a Caffe implementation of SegNet and a web demo at http://mi.eng.cam.ac.uk/projects/segnet.

[15]

, Koltun

Multi-scale context aggregation by dilated convolutions

[EB/OL]. (2016-04-30)[2019-03-25]. http://arxiv.org/abs/1511.07122.

URL [本文引用: 2]

[16]

Chen

L C

, Papandreou

, Schroff

, et al.

Rethinking atrous convolution for semantic image segmentation

[EB/OL]. (2017-12-05)[2019-03-26]. http://arxiv.org/abs/1706.05587.

[17]

Maggiori

, Tarabalka

, Charpiat

, et al.

Can semantic labeling methods generalize to any city? The inria aerial image labeling benchmark

[C]// 2017 IEEE International Geoscience and Remote Sensing Symposium(IGARSS).Fort Worth:IEEE, 2017:3226-3229.

[本文引用: 4]

[18]

Maggiori

, Tarabalka

, Charpiat

, et al.

High-resolution semantic labeling with convolutional neural networks

[EB/OL]. (2016-11-07)[2019-03-26]. http://arxiv.org/abs/1611.01962.

[19]

Marmanis

, Schindler

, Wegner

J D

, et al.

Classification with an edge:Improving semantic image segmentation with boundary detection

[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2018,135:158-172.

[20]

Peng

, Zhang

, Yu

, et al.

Large kernel matters:Improve semantic segmentation by global convolutional network

[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Hawaii, 2017:4353-4361.

[21]

Huang

, Cheng

, Wang

, et al.

Building extraction from multi-source remote sensing images via deep deconvolution neural networks

[C]// 2016 IEEE International Geoscience and Remote Sensing Symposium (IGARSS).Beijing:IEEE, 2016:1835-1838.

[22]

Bischke

, Helber

, Folz

, et al.

Multi-task learning for segmentation of building footprints with deep neural networks

[EB/OL]. (2017-09-18) [2019-03-26]. http://arxiv.org/abs/1709.05932.

[23]

Ronneberger

, Fischer

, Brox

U-net:Convolutional networks for biomedical image segmentation

[C]// International Conference on Medical Image Computing and Computer-Assisted Intervention.Springer,Cham, 2015:234-241.

[24]

Iglovikov

, Shvets

Ternausnet:U-net with VGG11 encoder pre-trained on ImageNet for image segmentation

[EB/OL]. (2018-03-29) [2019-03-29]. http://arxiv.org/abs/1801.05746.

URL [本文引用: 3]

[25]

, Wu

, Xie

, et al.

Building extraction in very high resolution remote sensing imagery using deep learning and guided filters

[J]. Remote Sensing, 2018,10(1):144-162.

[26]

, Zhang

, Ren

, et al.

Deep residual learning for image reco-gnition

[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.San Francisco, 2016:770-778.

[27]

Kendall

, Gal

, Cipolla

Multi-task learning using uncertainty to weigh losses for scene geometry and semantics

[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Reco-gnition.Salt Lake City, 2018:7482-7491.

[28]

Russakovsky

, Deng

, Su

, et al.

Imagenet large scale visual recognition challenge

[J]. International Journal of Computer Vision, 2015,115(3):211-252.

[本文引用: 2]

[29]

Hayder

, He

, Salzmann

Boundary-aware instance segmentation

[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Hawaii, 2017:5696-5704.

[30]

Kingma

D P

, Ba

Adam:A method for stochastic optimization

[EB/OL]. (2017-01-30) [2019-04-11]. http://arxiv.org/abs/1412.6980.