国土资源遥感, 2020, 32(3): 80-89 doi: 10.6046/gtzyyg.2020.03.11

技术方法

基于Inception-V3模型的高分遥感影像场景分类

蔡之灵,1, 翁谦,1, 叶少珍1, 简彩仁2

1.福州大学数学与计算机科学学院,福州 350116

2.厦门大学嘉庚学院信息科学与技术学院,漳州 363105

Remote sensing image scene classification based on Inception-V3

CAI Zhiling,1, WENG Qian,1, YE Shaozhen1, JIAN Cairen2

1. College of Mathematics and Computer Science, Fuzhou University, Fuzhou 350116, China

2. School of Information Science and Technology, Xiamen University Tan Kahkee College, Zhangzhou 363105, China

通讯作者: 翁 谦(1983-),男,博士,讲师,主要研究方向为深度学习,土地资源利用。Email:fzuwq@fzu.edu.cn

责任编辑: 张仙

收稿日期: 2019-11-6   修回日期: 2020-04-9   网络出版日期: 2020-09-15

基金资助: 国家自然科学基金项目“基于深度迁移学习网络的高分图像土地利用分类方法研究”.  41801324
福建省自然科学基金项目“基于深度迁移学习的高分图像土地利用分类研究”.  2019J01244

Received: 2019-11-6   Revised: 2020-04-9   Online: 2020-09-15

作者简介 About authors

蔡之灵(1995-),女,硕士研究生,主要研究方向为深度学习,遥感场景分类。Email: cai_zhi_ling@163.com

.

摘要

传统高空间分辨率遥感影像(简称“高分遥感影像”)分类方法的“同物异谱”、“异物同谱”现象较为严重,深度学习方法为高分遥感影像分类提出了一种新的解决方案。然而,遥感影像训练样本少容易导致网络过拟合现象的发生。利用深度学习方法,结合迁移学习策略,提出了一种改进的Inception-V3的遥感图像场景分类模型。首先在原始Inception-V3模型的全连接层之前添加Dropout层,以进一步避免过拟合现象的发生; 训练过程中采用迁移学习策略,充分利用已有模型及知识,提高训练效率。基于AID和NWPU-RESISC45两个大型高分遥感场景影像的实验结果表明,改进的Inception-V3较原始的Inception-V3训练收敛速度更快,训练效果更平稳; 与其他传统方法和深度学习网络相比,本文提出的模型的分类精度也有较大的提升,验证了该模型的有效性。

关键词: 深度学习 ; 迁移学习 ; 卷积神经网络 ; Inception-V3 ; 遥感图像分类 ; 场景分类

Abstract

With the deepening and cross-fusion of modern remote sensing image research, the classification of high spatial resolution remote sensing image (referred to as “high-resolution image”) has become a research hotspot in the field of remote sensing. As the phenomenon of “homology spectrum” and “homology spectrum” of high-resolution image is more serious, the deep learning method that has emerged in recent years has proposed a new solution for high-resolution image classification. However, the lack of training samples of remote sensing images can easily lead to over-fitting of deep learning networks. In this paper, an improved Inception-V3 remote sensing image scene classification model is proposed by using deep learning method and transfer learning strategy. The model first adds Dropout layer before the full connection layer of the original Inception-V3 model in order to avoid over-fitting. In the training process, the transfer learning strategy is adopted to make full use of the existing model and knowledge and improve the training efficiency. The experimental results based on AID and NWPU-RESISC45 datasets show that the improved Inception-V3 has faster convergence speed and smoother training effect than the original Inception-V3 training. Compared with accuracy of other traditional methods and deep learning networks, the classification accuracy of the proposed model has been greatly improved and verified. The effectiveness of the model is verified.

Keywords: deep learning ; transfer learning ; convolutional neural network ; Inception-V3 ; remote sensing image classification ; scene classification

PDF (5410KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

蔡之灵, 翁谦, 叶少珍, 简彩仁. 基于Inception-V3模型的高分遥感影像场景分类. 国土资源遥感[J], 2020, 32(3): 80-89 doi:10.6046/gtzyyg.2020.03.11

CAI Zhiling, WENG Qian, YE Shaozhen, JIAN Cairen. Remote sensing image scene classification based on Inception-V3. REMOTE SENSING FOR LAND & RESOURCES[J], 2020, 32(3): 80-89 doi:10.6046/gtzyyg.2020.03.11

0 引言

随着遥感技术的发展,遥感影像在土地资源管理、城市管理和国防方面中得到广泛应用。遥感影像分类是遥感应用的关键基础技术之一,该技术主要利用计算机以自动或半自动方式从影像中分类识别地物信息,分类图既可为目标识别等提供辅助判别信息,也可用于生产和更新土地利用类型图,已成为遥感技术应用的关键基础技术之一[1]

相比中低空间分辨率遥感影像,高空间分辨率遥感影像(以下简称“高分遥感影像”)能反映出更丰富的地物细节和语义信息[2],但同时带来了“同谱异物”和“同物异谱”问题,具体表现为不同语义类别中的场景具有相同的对象构成,而同类中的场景具有不同的分辨率和地物空间分布,这种类间差异小和类内差异大的特点,使传统的基于像素和基于对象的遥感图像分类方法易出现过多的错分和漏分现象,导致分类精度偏低。近年来,基于场景的影像分类技术已成为高分影像分类的研究热点[3]。依据影像特征层次,基于场景的高分遥感影像分类方法可分为3类: ①基于低层视觉特征的方法。使用各种特征算子从高分遥感影像的低级视觉属性(如颜色、纹理、光谱值)中提取特征来描述图像[4],如颜色直方图(color histogram,CH)[5]、Gist描述子[6]、局部二值模式(local binary patterns,LBP)[7]和尺度不变特征变换方法(scale invariant feature transform,SIFT)[8],这类方法对空间分布和结构模式均匀的高分遥感影像有较好的分类效果,但对空间分布不均匀的场景效果不佳。②基于中层视觉表示的方法。对高分遥感图像的低层局部视觉特征进行编码形成场景图像的全局特征表示,常用的编码模型有: 视觉词袋(bag of words,BoVW)[9]、空间金字塔匹配(spatial pyramid matching,SPM)[10]、局部约束线性编码(locality-constrained linear coding,LLC)[11]、概率潜在语义分析(probabilistic latent semantic analysis,pLSA)[12]、改进的Fisher核(improved Fisher kernel,IFK)[13]、局部聚集描述符向量(vector of locally aggregated descriptors,VLAD)[14]等,与基于低层视觉特征的方法相比,基于中层视觉表示的方法的分类精度有大幅提高,但仍受低层视觉特征和编码方法的限制,不能达到最优的分类精度。③基于高级语义特征的方法。深度学习的发展为高分遥感影像场景分类提供了新的思路,深度学习可以学习到更抽象、更具辨别性的特征,卷积神经网络(convolutional neural networks,CNN)由于大量的训练标记数据和连续多层卷积过程,已被广泛应用于计算机视觉任务中[15,16,17,18],AlexNet[19],CaffeNet[20],VGGNet[21],GoogLeNe[22]及ResNet[23]等深层网络结构的相继出现,在图像分类任务上效果超群。

目前CNN多通过不断加深的网络层数来提高网络精度,这导致了过拟合和网络退化问题[24,25]。因此,本文提出一种改进的Inception-V3模型,并用于高分遥感图像场景分类。首先,针对高分遥感场景集样本数量少的问题,改进Inception-V3网络,在网络的最后一层全连接层前添加Dropout层,防止模型的过拟合; 然后,利用迁移学习,将在大型自然图像集ImageNet上预训练的Inception-V3模型迁移至高分遥感场景集上,并进行微调训练,在降低训练难度的同时,提高模型的分类效果。

1 原理与方法

1.1 Inception-V3模型及其改进

Inception模型由Szegedy等[26]在2015年提出(图1,其中,input_d和output_d分别为输入维数和输出维数,stride为步长。),Inception模型通过改进神经网络结构,将原始大卷积核分解为有同等运算的小卷积核,进行非对称卷积的空间分解,并结合使用辅助滤波器,同时模型进一步降低特征图的大小,在更有效地保留图像特征的同时减少计算量。Inception-V3总共有2 000多万参数量,对于这类网络,过拟合是一个很严重的问题。Dropout和BN(图2)是目前2种广泛使用的降低过拟合现象的方法。Dropout指在神经网络中通过随机丢弃一个或多个神经元,暂时把该神经元从神经网络中移除,使网络变得更为稀薄紧凑,更容易预测输出。BN是指通过减小神经网络内部的协方差偏移而提高深度神经网络训练速度的方法[27]

图1

图1   Inception-V3总体结构

Fig.1   Inception-V3 network architecture


图2

图2   Dropout和BN原理示意图

Fig.2   Dropout and BN schematics


原始的Inception-V3通过使用BN来降低过拟合的发生,同时提高训练速度。针对遥感数据标记样本少,标记成本高的问题,本文进一步在输出层Softmax分类器前添加Dropout运算,与卷积层的BN运算结合,以改进原始的Inception-V3网络。本文在最后一层全连接层前添加Dropout结构,在避免BN与Dropout简单结合导致方差偏移问题的同时,可以进一步降低CNN的过拟合现象。

1.2 基于迁移学习的遥感图像场景分类

传统的深度学习方法假设训练数据和测试数据输入特征和分布分别相同,而在实际应用中,获取与测试数据有相同特征空间和分布的训练数据十分困难。迁移学习通过模型与参数迁移的方式解决了少量标记样本的训练问题,提高了模型学习的效率。

迁移学习通过从相关领域(源域)传输信息来提高一个领域(目标域)的学习训练效率,可以有效地解决信息孤岛问题。利用深层神经网络和图像网络数据集的强大功能,可将适用于大数据量的自然图像处理模型中学习到的知识转移到适用于小数据量的高分遥感影像领域,实现个性化迁移。设源域为 Ds,对应的目标任务为 Ts,目标域为 Dt,目标任务为 Tt。概率分布 PsPt分别表示源域和目标域的边缘概率分布。深度迁移学习通过在源域 Ds中的监督学习,在 DsDtTsTt的情况下,建立一个能够学习跨域差异的可迁移神经网络,得到目标域中的条件概率分布 Pt

对于CNN来说,使用迁移学习有2种策略: 冻结和微调。这2种策略如图3所示,其中,黄色圆圈表示进行调整的层网络参数,蓝色圆圈表示不变的网络参数。微调首先利用预训练后的模型得到的训练参数对目标网络进行初始化,然后利用目标数据进行训练。冻结是指冻结某些层,即保持某些层的权重不变,并训练其余层。

图3

图3   迁移学习中的冻结和微调

Fig.3   Freezing and fine-tuning in transfer learning


1.3 基于改进的Inception-V3的高分遥感影像场景分类

随着影像分辨率的提高,高分遥感影像与自然光学影像在光谱、纹理和空间特征方面越来越接近。由于深度学习网络的前几层是用于获取影像的局部特征[28],本文将基于ImageNet大型自然影像集上预训练好的Inception-V3的前3层网络参数进行冻结迁移,对后面的网络层的权值参数进行训练微调。改进的Inception-V3的最后一层全连接层是在新增加的Dropout之后,因此需要进行重新训练,迁移过程如图4。同时,考虑到是在2个数据集上实验,首先将ImageNet中训练好的模型参数迁移至数据量较小、类别较少的Aerial Images Datasets(下文简称AID)遥感数据集进行微调训练,再将AID上的训练好的参数迁移至数据量更大的Remote Sens-ing Image Scene Classification(下文简称NWPU-RESISC45)遥感数据集。

图4

图4   本文的微调步骤示意图

Fig.4   Sketch of the fine-tuning steps


本文的分类流程如图5所示,第一阶段,将对ImageNet数据集上预训练好的Inception-V3进行结构改进,表示为Inception-L1网络,而后迁移至高分场景数据集上训练微调,将微调后的Inception-L1网络用于提取高分场景影像的特征向量。这一阶段充分利用知识迁移,使用在ImageNet上的预训练权值作为初始值进行微调,与随机设置初始值相比,训练时间大幅缩短。接着,将提取的特征输入全连接神经网络,由于微调后的Inception-L1网络可学习获取到场景图像的更抽象、更易分类的特征,使用Softmax全连接神经网络,经高分遥感影像数据训练后即可得到最终分类结果。

图5

图5   高分遥感影像场景分类流程

Fig.5   Flow chart of scene classification for high-resolution remote sensing images


2 高分遥感影像场景分类实验

2.1 实验数据集

AID数据集是武汉大学2016年发布的大型高分遥感场景数据集。该数据集共有30个类别10 000张影像。影像主要从Google Earth影像上采集。场景影像的空间分辨率为0.5~8 m,影像大小为600×600像素,每类有220~420张不等数量的影像。

NWPU-RESISC45数据集是由西北工业大学于2016年发布的高分遥感影像场景分类数据集。数据集共有45个场景类别,共31 500张场景图像,每个场景类别包含700张256×256像素的图像,空间分辨率在0.2~30 m之间。

2.2 实验评价指标

本文使用Tensorflow1.2实现Inception-V3(以下简称为“Inception”)和改进的Inception-V3模型(以下简称为“Inception-L1”),并在百度云深度学习平台测试运行,平台环境为40 GB内存和Nvidia K40。实验使用4个指标进行性能评估: 训练精度(train_accuracy)、测试精度(test_accuracy)、训练损失(train_loss)、测试损失(test_loss)。

1)训练精度。训练集的分类准确度,训练精度的计算公式为:

train_accuracy=Xtrainpredict=trueXtraintrue,

式中: Xtraintrue为训练集真实情况; Xtrainpredict=true为训练集中预测值为真的情况。

2)测试精度。测试集的分类准确度,测试精度的计算公式为:

test_accuracy=Xtestpredict=trueXtesttrue,

式中: Xtesttrue为测试集的真实情况; Xtestpredict=true为测试集中预测值为真的情况。

3)训练损失。训练集的交叉熵损失值,训练模型通过考察有标签样本的测试值与真实值之间的偏差。通常情况,随着模型的收敛,训练损失将趋近于0。训练损失的计算公式为:

train_loss=-ttraini,jlg(ptraini,j),

式中: ttraini,j为真实的第i个样本是j类的概率; ptraini,j为预测的第i个样本是j类的概率。

4)测试损失。测试集的交叉熵损失值,深度学习算法的目的是最大限度地减少模型的损失,所以数据集的测试损失越小,表明网络模型的拟合效果越好; 反之,数据集的测试损失越大,则表明网络模型的分类效果越差。训练损失的计算公式为:

test_loss=-ttesti,jlg(ptesti,j),

式中: ti,jtest为测试集中第i个样本是j类的概率; pi,jtest为测试集中预测的第i个样本是j类的概率。

此外,实验使用Adam算法更新Inception参数,用式(5)计算损失值,初始学习速率设为0.2,即

lr=lr×factor

式中: lr为学习率; factor为学习率的衰减因子,下限设置为0。训练集的批大小设置为64,epochs编号设置为30。AID和NWPU-RESISC45数据集对每一类别场景按20%和80%的比例构建训练集和测试集。

2.3 实验结果分析

2.3.1 不同数据集上的训练情况对比

图6为Inception和Inception-L1在AID数据集上的训练情况,图中Inception的train_loss和test_loss指标情况分别用蓝色和绿色实线表示,Inception-L1的train_loss和test_loss指标情况分别用黄色和红色虚线表示。由图6(a)可知,在训练初期,由于Inception处于欠拟合的状态,train_loss和test_loss值较高,但随着epochs的增加,train_loss值不断下降,test_loss值在训练过程中偶尔出现波动,但是约在第9个epochs之后,train_loss和test_loss值趋于稳定,参数基本收敛。从图6(b)中可知,Inception训练初期,由于梯度下降可能会落在非最优解的局部最小值上,test_accuracy在初期的迭代会出现波动情况,但在第13个epochs后,train_accuracy和test_accuracy均趋于稳定,达到了最高的分类精度。对于Inception-L1,对比图6(a)和(b)可知,无论是在训练集和测试集,Inception-L1中的loss和accuracy的波动程度相对Inception都有明显改善,均在第8个epochs后趋于稳定。同时,根据图6(b)的绿色实线和红色虚线的对比可知Inception-L1的test_accuracy略高于Inception。可知,虽然Inception-L1的待训练参数减少,仍能够很好地提取高分场景影像的高层次特征,从而提升了高分场景影像的分类精度。同时,由于Dropout的应用,在小训练样本的前提下,Inception-L1能有效降低过拟合的同时,提高了训练速度,降低了训练难度。

图6

图6   Inception和Inception-L1在AID数据集上的训练情况

Fig.6   Inception and Inception-L1 training on AID datasets


类似地,图7为Inception和Inception-L1在NWPU-RESISC45数据集的训练情况。

图7

图7   Inception和Inception-L1在NWPU-RESISC45数据集上的训练情况

Fig.7   Inception and Inception-L1 training on NWPU-RESISC45 datasets


对比图7(a)和(b)可知,在NWPU-RESISC45数据集上,Inception-L1的loss和accuracy的波动程度较原始的Inception模型也有改善,其收敛也更快,即训练更为稳定。此外,由于NWPU-RESISC45较AID数据集场景数据量更大,在训练初期,由于梯度下降可能会落在非最优解的局部最小值上,Inception-L1的test_accuracy在初期的迭代出现轻微波动情况,但在第7个epochs后,train_accuracy和test_accuracy均趋于稳定,收敛迭代次数比在AID数据集上早2个epochs收敛。从图7中的红色虚线和绿色实线对比可知,在提高训练速度的同时,Inception-L1仍能够很好地提取高分场景影像的高层次特征。

2.3.2 不同Dropout率对Inception-L1网络的影响

图8展示了不同的Dropout率在AID数据集上的训练情况对比。可明显看出,随着Dropout率的提高,Inception-L1网络的收敛速度越来越快,由此可见,加入了Dropout操作后,Inception-L1网络的分类效率得到了提高。当Dropout率为0.2时,Inception-L1网络的收敛速度最快,且训练过程更为稳定。

图8

图8   不同Dropout率在AID数据集上的训练情况

Fig.8   Different Dropout rate training on AID datasets


图9展示了不同Dropout率在NWPU-RESISC45数据集的训练情况,由图可知,Dropout率为0.4时,Inception-L1网络的训练情况最为稳定。但对于分类精度而言,Dropout率为0时分类精度最高。这是由于NWPU-RESISC45数据集虽数据量大,但其场景类别多,故场景数据没有过分冗余,但此时若加入Dropout层,训练过程更加平稳,并且分类精度保持稳定。

图9

图9   不同Dropout率在NWPU-RESISC45数据集上的训练情况

Fig.9   Different Dropout rate training on NWPU-RESISC45 datasets


表1显示了在AID和NWPU-RESISC45数据集上不同Dropout率对Inception-L1的分类性能的影响。可知,在AID数据集上,当Dropout率为0.2时,Inception-L1的分类精度最高。在NWPU-RESISC45数据集上,当Dropout率为0.4时,Incep-tion-L1的分类精度最高。因此,在实验中,分别将Dropout率设置为0.2与0.4。

表1   不同Dropout率分类test_accuracy对比

Tab.1  Comparison of classification accuracy of different Dropout rates(%)

Inception-L1test_accuracy
Dropout率0.1Dropout率0.2Dropout率0.4
AID94.30±0.2594.44±0.2394.40±0.31
NWPU-RESISC4593.70±0.2893.91±0.153.95±0.26

新窗口打开| 下载CSV


表2综合比较了低层视觉特征、中层视觉表示和高层语义特征3类层次的特征分类方法进行30次随机试验后的平均分类精度和标准差。

表2   各类方法分类test_accuracy对比

Tab.2  Comparison of classification accuracy(%)

方法test_accuracy方法test_accuracy
AIDNWPU-RESISC45AIDNWPU-RESISC45
LBP26.26±0.5221.74±0.18SPM+CH41.27±0.4941.82±0.21
CH34.29±0.4027.52±0.14VLAD+CH44.78±0.2850.57±0.48
SIFT13.24±0.7411.48±0.21AlexNet86.34±0.4379.24±0.10
GIST30.61±0.6317.88±0.22VGG-1686.87±0.4182.21±0.32
BoVW+CH47.77±0.5249.87±0.23GooLeNet83.84±0.3678.47±0.28
IFK+CH64.83±0.4266.47±0.27ResNet5089.70±1.0588.35±0.49
LLC+CH49.36±0.5746.81±0.30Inception-V394.18±0.4093.40±0.28
pLSA+CH42.87±0.5441.97±0.43Inception-L194.44±0.2393.95±0.15

新窗口打开| 下载CSV


低层视觉特征选取LBP,CH,GIST和SIFT这4个特征,其中对于LBP,CH和SIFT特征,实验中使用16×16的窗口以8个像素为步长滑动提取局部特征,然后通过平均池化的方式获得最终的特征向量。相较于中、高层视觉特征方法,低层视觉特征方法的分类精度最差,其中CH的分类精度在AID和NWPU-RESISC45上都优于其他3种低层特征,这是因为2个数据集中绝大部分类别的遥感场景影像都具有颜色一致性,使用CH能够提取各类别的光谱信息。相对NWPU-RESISC45数据集,GIST在AID数据集上取得了更好的分类精度,这是由于AID数据集中包含大量由各种建筑物构成的人工场景类别,GIST可以充分提取这些类别影像的空间结构; 而NWPU-RESISC45数据集用地类型更多且类间差异性更小,GIST无法提取足够的空间结构信息加以区分,导致GIST在NWPU-RESISC45测试集上的分类效果不够理想。

中层视觉表示方法采用BoVW,IFK,LLC,pLSA,SPM和VLAD这6种编码方法,结合低层特征中分类效果最佳的CH特征进行编码。BoVW,IFK,LLC,pLSA,SPM和VLAD的字典大小分别设置为4 096,128,4 096,1 024,256和128,pLSA的主题数设置为64,SPM的金字塔层数设置为2,分类器使用线性核的支持向量机。由表2可知,采用IFK的编码方法的分类精度优于其他几个编码方法。这是因为BoVW,LLC和VLAD是基于特征字典进行编码,而IFK是通过高斯混合模型计算出局部特征的概率密度分布来刻画场景影像,这一编码方式能更好地刻画出遥感场景影像的空间分布特征。

选择常用的4个深度学习网络AlexNet,VGG-16,GooLeNet,ResNet50和原始的Inception-V3网络进行实验,并与Inception-L1进行对比,可知使用深度学习网络获取高层次语义特征的方法分类精度最高,较中层视觉表示方法有30百分点左右的提升; 且Inception-L1的分类精度优于其他5种深度学习网络。这是由于迁移学习的使用,Inception-L1能利用大型自然数据集的知识,通过大量的卷积和池化,反复使用Inception Block,利用多尺度的卷积核提取不同比例特征分布的图像信息,从而获取遥感场景的复杂特征信息; 同时,Inception-L1通过在最后一层前加入随机失活机制,进一步减少了过度拟合现象发生,提高了训练效率。

表3可以看出,Inception-L1在AID和NWPU-RESISC45上各类别的分类准确度都较高,其中AID的森林、裸地、棒球场、沙滩等类别分类准确度达到了100%正确率,NWPU-RESISC45中的灌木丛、梯田、海冰、小岛的场景分类精度都在99%以上。

表3   Inception-L1在AID数据集的分类结果

Tab.3  Classification results of Inception-L1 in AID dataset(%)

类别准确率类别准确率
森林100教堂96
裸地100储存罐96
棒球场100飞机场95
沙滩10095
山脉100港口95
稀疏住宅区100火车站95
草地100商业区93
体育场99密集住宅区92
高架桥99中型住宅区92
停车场99工业区91
池塘98学校85
河流98景区82
操场97广场82
沙漠97中心区78
农田97公园76

新窗口打开| 下载CSV


表3可知,AID数据集中的中心区和公园分类精度最低。中心区较多错分为教堂,如图10(a)所示,中心区和教堂的屋顶的遥感影像相似度较高,特征相似,因此无法较好地区分中心区和教堂。公园较多错分为度假村,如图10(b)所示。公园和度假村的植被覆盖率都较高,建筑物较少,规划方式相似,故公园和度假村无法较好地被区分。

图10

图10   中心区和教堂及公园和度假村示例

Fig.10   Legend of center, church, park and resort


表4中,NWPU-RESISC45数据集中的教堂与宫殿场景的分类精度较低。如图11所示, 教堂和宫殿的遥感影像特征相似度较高,都为棱角分明的屋顶,因此无法被较好地区分。

表4   Inception-L1在NWPU-RESISC45数据集的分类结果

Tab.4  Classification results of Inception-L1 in NWPU-RESISC45 dataset(%)

类别准确率类别准确率
灌木丛100湖泊95
圆形农田99高速公路95
小岛9995
梯田99网球场95
海冰99沙漠94
棒球内场98稀疏住宅区94
98火电站94
高尔夫球场98飞机94
田径场98飞机场94
港口98工业区93
活动房区98山脉93
停车场98跑道92
雪堡98矩形农田91
体育场97中型住宅区91
储存罐97铁道90
环岛97河流90
草地96湿地89
篮球场96密集住宅区88
森林96火车站88
96商业区87
立交桥96教堂79
十字路口95宫殿71
沙滩95

新窗口打开| 下载CSV


图11

图11   教堂和宫殿示例

Fig.11   Legend of church and palace


3 结伦

1)本文提出了一种改进的Inception-V3的网络模型,在原始的 Inception-V3的最后一层全连接层前添加 Dropout层,以进一步解决高分遥感影像训练过程中发生过拟合现象的问题; 同时在网络训练中,进一步应用迁移学习技术,先将在 ImageNet上预训练的参数迁移至 AID 数据集上微调,而后再迁移至 NWPU-RESISC45上进一步微调,以减少训练难度和提高分类精度。

2)在 AID 和 NWPU-RESISC45两个高分遥感场景集上的实验表明,针对高分影像场景图像,改进的 Inception-V3在保持原始的 Inception-V3分类精度的同时,训练收敛速度变得更快。

3)与低层次视觉特征、中层次视觉表示和其他高层次语义特征的分类精度对比表明,改进的 Inception-V3的分类性能有较大提升; 且相较于其他常用深度学习网络, 改进的Inception-V3分类精度也有5%~10%的提高。

4)在应用层面上,建议先对国土资源遥感影像进行基于对象的场景分割,再使用本文方法对大空间范围的场景进行划分,可获得更好的分类效果。

参考文献

崔璐, 张鹏, 车进.

基于深度神经网络的遥感图像分类算法综述

[J]. 计算机科学, 2018,45(s1):50-53.

[本文引用: 1]

Cui L, Zhang P, Che J.

Overview of remote sensing image classification algorithm based on depth neural network

[J]. Computer Science, 2018,45(s1):50-53.

[本文引用: 1]

张康, 黑保琴, 李盛阳, .

基于CNN模型的遥感图像复杂场景分类

[J]. 国土资源遥感, 2018,30(4):49-55.doi: 10.6046/gtzyyg.2018.04.08.

[本文引用: 1]

Zhang K, Hei B Q, Li S Y, et al.

Classification of complex scene of remote sensing image based on CNN model

[J]. Remote Sensing of Land and Resources, 2018,30(4):49-55.doi: 10.6046/gtzyyg.2018.04.08.

[本文引用: 1]

Chen C, Zhang B, Su H, et al.

Land-use scene classification using multi-scale completed local binary patterns

[J]. Signal,Image & Video Processing, 2016,10(4):745-752.

[本文引用: 1]

Xia G S, Hu J W, Hu F, et al.

AID:A benchmark data set for performance evaluation of aerial scene classification

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017,55(7):3965-3981.

DOI:10.1109/TGRS.2017.2685945      URL     [本文引用: 1]

Swain M J, Ballard D H.

Color indexing

[J]. International Journal of Computer Vision, 1991,7(1):11-32.

DOI:10.1007/BF00130487      URL     [本文引用: 1]

Oliva A, Torralba A.

Modeling the shape of the scene:A holistic representation of the spatial envelope

[J]. International Journal of Computer Vision, 2001,42(3):145-175.

DOI:10.1023/A:1011139631724      URL     [本文引用: 1]

In this paper, we propose a computational model of the recognition of real world scenes that bypasses the segmentation and the processing of individual objects or regions. The procedure is based on a very low dimensional representation of the scene, that we term the Spatial Envelope. We propose a set of perceptual dimensions (naturalness, openness, roughness, expansion, ruggedness) that represent the dominant spatial structure of a scene. Then, we show that these dimensions may be reliably estimated using spectral and coarsely localized information. The model generates a multidimensional space in which scenes sharing membership in semantic categories (e.g., streets, highways, coasts) are projected closed together. The performance of the spatial envelope model shows that specific information about object shape or identity is not a requirement for scene categorization and that modeling a holistic representation of the scene informs about its probable semantic category.]]>

Ojala T, Pietikainen M, Maenpaa T.

Multiresolution gray-scale and rotation invariant texture classification with local binary patterns

[C]//European Conference on Computer Vision.Springer, 2000: 404-420.

[本文引用: 1]

Lowe D G.

Distinctive image features from scale-invariant keypoints

[J]. International Journal of Computer Vision, 2004,60(2):91-110.

DOI:10.1023/B:VISI.0000029664.99615.94      URL     [本文引用: 1]

This paper presents a method for extracting distinctive invariant features from images that can be used to perform reliable matching between different views of an object or scene. The features are invariant to image scale and rotation, and are shown to provide robust matching across a substantial range of affine distortion, change in 3D viewpoint, addition of noise, and change in illumination. The features are highly distinctive, in the sense that a single feature can be correctly matched with high probability against a large database of features from many images. This paper also describes an approach to using these features for object recognition. The recognition proceeds by matching individual features to a database of features from known objects using a fast nearest-neighbor algorithm, followed by a Hough transform to identify clusters belonging to a single object, and finally performing verification through least-squares solution for consistent pose parameters. This approach to recognition can robustly identify objects among clutter and occlusion while achieving near real-time performance.]]>

Yang Y, Newsam S.

Bag-of-visual-words and spatial extensions for land-use classification

[C]//Proceedings of the 18th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems.San Jose:ACM, 2010: 270-279.

[本文引用: 1]

Lazebnik S, Schmid C, Ponce J.

Beyond bags of features:Spatial pyramid matching for recognizing natural scene categories

[C]//2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'06).New York:IEEE, 2006: 2169-2178.

[本文引用: 1]

Wang J, Yang J, Yu K, et al.

Locality-constrained linear coding for image classification

[C]//2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.San Francisco:IEEE, 2010: 3360-3367.

[本文引用: 1]

Bosch A, Zisserman A, Muñoz X.

Scene classification via pLSA

[C]//European Conference on Computer Vision.Springer, 2006: 517-530.

[本文引用: 1]

Perronnin F, Sánchez J, Mensink T.

Improving the fisher kernel for large-scale image classification

[C]//European Conference on Computer Vision.Springer, 2010: 143-156.

[本文引用: 1]

Jegou H, Perronnin F, Douze M, et al.

Aggregating local image descriptors into compact codes

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012,34(9):1704-1716.

DOI:10.1109/TPAMI.2011.235      URL     [本文引用: 1]

This paper addresses the problem of large-scale image search. Three constraints have to be taken into account: search accuracy, efficiency, and memory usage. We first present and evaluate different ways of aggregating local image descriptors into a vector and show that the Fisher kernel achieves better performance than the reference bag-of-visual words approach for any given vector dimension. We then jointly optimize dimensionality reduction and indexing in order to obtain a precise vector comparison as well as a compact representation. The evaluation shows that the image representation can be reduced to a few dozen bytes while preserving high accuracy. Searching a 100 million image data set takes about 250 ms on one processor core.

Zou Q, Ni L, Zhang T, et al.

Deep learning based feature selection for remote sensing scene classification

[J]. IEEE Geoscience and Remote Sensing Letters, 2015,12(11):2321-2325.

DOI:10.1109/LGRS.2015.2475299      URL     [本文引用: 1]

葛芸, 江顺亮, 叶发茂, .

聚合CNN特征的遥感图像检索

[J]. 国土资源遥感, 2019,31(1):49-57.doi: 10.6046/gtzyyg.2019.01.07.

[本文引用: 1]

Ge Y, Jiang S L, Ye F M, et al.

Remote sensing image retrieval based on CNN features

[J]. Remote Sensing for Land and Resources, 2019,31(1):49-57.doi: 10.6046/gtzyyg.2019.01.07.

[本文引用: 1]

Weng Q, Mao Z, Lin J, et al.

Land-use classification via extreme learning classifier based on deep convolutional features

[J]. IEEE Geoscience and Remote Sensing Letters, 2017,14(5):704-708.

DOI:10.1109/LGRS.2017.2672643      URL     [本文引用: 1]

钱晓亮, 李佳, 程塨, .

特征提取策略对高分辨率遥感图像场景分类性能影响的评估

[J]. 遥感学报, 2018,22(5):758-776.

[本文引用: 1]

Qian X L, Li J, Cheng G, et al.

Evaluation of the effect of feature extraction strategy on scene classification performance of high resolution remote sensing image

[J]. Journal of Remote Sensing, 2018,22(5):758-776.

[本文引用: 1]

党宇, 张继贤, 邓喀中, .

基于深度学习AlexNet的遥感影像地表覆盖分类评价研究

[J]. 地球信息科学学报, 2017,19(11):1530-1537.

DOI:10.3724/SP.J.1047.2017.01530      URL     [本文引用: 1]

地表覆盖分类信息是反映自然、人工地表覆盖要素的综合体,包含植被、土壤、冰川、河流、湖泊、沼泽湿地及各类人工构筑物等元素,侧重描述地球表面的自然属性,具有明确的时间及空间特性。地表覆盖分类信息数据量大、现势性强、人工评价费时,其自动化评价长期以来存在许多技术难点。本文基于面向对象的图斑分类体系,引入深度卷积神经网络对现有地理国情普查-地表覆盖分类数据进行分类评价,并通过试验利用AlexNet模型实现地表覆盖分类评价验证。试验结果表明,该方法可有效判读耕地、房屋2类图斑,正确分类隶属度优于99%,而由于数据较少、训练不充分,林地、水体图斑正确分类隶属度不高,分别为62.73%和43.59%。使用本文方法,经过大量数据充分微调的深度学习AlexNet可有效地计算图斑的地类隶属度,并实现自动地表覆盖分类图斑量化评价。

Dang Y, Zhang J X, Deng K Z, et al.

Classification and evaluation of surface coverage of remote sensing images based on deep learning AlexNet

[J]. Journal of Geoinformatics, 2017,19(11):1530-1537.

[本文引用: 1]

Krizhevsky A, Sutskever I, Hinton G E.

ImageNet classification with deep convolutional neural networks

[C]//Advances in Neural Information Processing Systems, 2012: 1097-1105.

[本文引用: 1]

Simonyan K, Zisserman A.

Very deep convolutional networks for large-scale image recognition

[EB/OL].(2014-12-23)[2019-11-06]. https://arxiv.org/abs/1409.1556.

URL     [本文引用: 1]

Szegedy C, Liu W, Jia Y, et al.

Going deeper with convolutions

[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.IEEE, 2015: 1-9.

[本文引用: 1]

He K, Zhang X, Ren S, et al.

Deep residual learning for image recognition

[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2016: 770-778.

[本文引用: 1]

王鑫, 李可, 徐明君, .

改进的基于深度学习的遥感图像分类算法

[J]. 计算机应用, 2019,39(2):382-387.

[本文引用: 1]

Wang X, Li K, Xu M J, et al.

Improved classification algorithm of remote sensing image based on deep learning

[J]. Computer Applications, 2019,39(2):382-387.

[本文引用: 1]

刘大伟, 韩玲, 韩晓勇.

基于深度学习的高分辨率遥感影像分类研究

[J]. 光学学报, 2016,36(4):306-314.

[本文引用: 1]

Liu D W, Han L, Han X Y.

Research on high-resolution remote sensing image classification based on deep learning

[J]. Acta Optics Sinica, 2016,36(4):306-314.

[本文引用: 1]

Szegedy C, Liu W, Jia Y Q, et al.

Going deeper with convolutions

[C]//Conference on Computer Vision and Pattern Recognition. 2015: 1-9.

[本文引用: 1]

Li X, Chen S, Hu X, et al.

Understanding the disharmony between dropout and batch normalization by variance shift

[EB/OL].(2018 -01-16)[2019-11-06]. https://arxiv.org/abs/1801.05134.

URL     [本文引用: 1]

林志玮, 涂伟豪, 黄嘉航, .

基于FC-DenseNet的低空航拍光学图像树种识别

[J]. 国土资源遥感, 2019,31(3):225-233.doi: 10.6046/gtzyyg.2019.03.28.

[本文引用: 1]

Lin Z W, Tu W H, Huang J H, et al.

Tree species recognition based on FC-DenseNet in low altitude aerial optical images

[J]. Remote Sensing for Land and Resources, 2019,31(3):225-233.doi: 10.6046/gtzyyg.2019.03.28.

[本文引用: 1]

/

京ICP备05055290号-2
版权所有 © 2015 《自然资源遥感》编辑部
地址:北京学院路31号中国国土资源航空物探遥感中心 邮编:100083
电话:010-62060291/62060292 E-mail:zrzyyg@163.com
本系统由北京玛格泰克科技发展有限公司设计开发