国土资源遥感, 2019, 31(2): 32-37 doi: 10.6046/gtzyyg.2019.02.05

技术方法

卷积神经网络特征在遥感图像配准中的应用

叶发茂, 罗威, 苏燕飞, 赵旭青, 肖慧, 闵卫东,

南昌大学信息工程学院,南昌 330031

Application of convolutional neural network feature to remote sensing image registration

YE Famao, LUO Wei, SU Yanfei, ZHAO Xuqing, XIAO Hui, MIN Weidong,

School of Information Engineering, Nanchang University, Nanchang, 330031, China

通讯作者: 闵卫东(1966-),男,教授,主要从事计算机图像与视频处理、计算机图形学等研究。Email:minweidong@ncu.edu.cn

责任编辑: 张仙

收稿日期: 2018-03-21   修回日期: 2018-06-7   网络出版日期: 2019-06-15

基金资助: 国家自然科学基金项目“基于人工禁忌免疫原理的多源遥感图像自动配准研究”.  41261091
“基于多变量自然场景统计和局部均值估计的无参考立体图像质量评价”.  61662044
“单摄像机在复杂背景下基于行为特征模型的摔倒检测研究”.  61762061
江西省自然科学基金项目“在复杂背景下基于单摄像机的摔倒检测的关键技术研究”共同资助.  20161ACB20004

Received: 2018-03-21   Revised: 2018-06-7   Online: 2019-06-15

作者简介 About authors

叶发茂(1978-),男,副教授,主要从事遥感图像处理和人工智能方面研究。Email:yefamao@ncu.edu.cn。 。

摘要

遥感图像配准是许多遥感应用的重要步骤之一。卷积神经网络(convolutional neural network, CNN)提取的图像高层特征在图像分类和检索问题上表现优异,能够克服低层配准特征的表达能力有限、容易受到干扰等问题。因此对利用CNN特征进行遥感图像配准开展研究。首先,针对遥感图像配准问题,对CNN中的全连接层特征和不同聚合大小的卷积层特征进行了研究; 然后,对利用CNN特征进行图像配准的方法进行了分析; 最后,将CNN特征与尺度不变特征变换(scale-invariant feature transform, SIFT)特征在图像的旋转角度、缩放倍数和亮度依次变换时的配准性能进行了对比分析。实验结果表明,在匹配精度和正确对应点的数量方面,CNN特征比SIFT方法具有更好的匹配性能; 对变换后的图像而言,微调后的CNN特征比SIFT特征具有更强的鲁棒性。

关键词: 卷积神经网络 ; 遥感图像配准 ; 聚合卷积特征 ; 尺度不变特征变换(SIFT)

Abstract

Successful remote sensing image registration is one of the foundations of many remote sensing applications. Image high-lever features extracted by convolutional neural network (CNN) have achieved excellent performance in image classification and retrieval, and can be used to solve some problems of low-lever image registration features, such as the limitation of expression capability and easily being interfered. Hence, in this paper, the authors investigated the problem as to how to use CNN feature for remote sensing image registration. First, the authors investigated different CNN features from fully connected layers and aggregating convolutional features with different sizes from convolutional layer to register remote sensing image. Then the authors introduced the procedure by using CNN feature for image registration. Finally, the authors compared the registration performances of CNN features and scale-invariant feature transform (SIFT) features after the transformation of the image’s perspective, brightness and scale, respectively. The experimental results show that the CNN feature has better matching performance than the SIFT method in terms of matching accuracy and correct number of corresponding points. The finely tuned CNN feature has stronger robustness to the transformed image than the SIFT feature.

Keywords: convolutional neural network ; remote sensing image registration ; aggregating convolutional features ; scale-invariant feature transform (SIFT)

PDF (5628KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

叶发茂, 罗威, 苏燕飞, 赵旭青, 肖慧, 闵卫东. 卷积神经网络特征在遥感图像配准中的应用. 国土资源遥感[J], 2019, 31(2): 32-37 doi:10.6046/gtzyyg.2019.02.05

YE Famao, LUO Wei, SU Yanfei, ZHAO Xuqing, XIAO Hui, MIN Weidong. Application of convolutional neural network feature to remote sensing image registration. REMOTE SENSING FOR LAND & RESOURCES[J], 2019, 31(2): 32-37 doi:10.6046/gtzyyg.2019.02.05

0 引言

通过遥感图像配准可以获取同一场景中不同时间、不同类型的遥感图像之间的空间变换关系,因此图像配准是遥感图像融合或变化检测等许多遥感任务中不可或缺的部分。

一般来说,遥感图像配准方法大致可以分为基于图像灰度的方法和基于图像特征的方法2种[1]。其中,基于图像灰度的方法是通过计算待配准图像与参考图像之间像素灰度的最大相似性,寻找相似性度量最大的几何变换,最常用的相似性度量有互相关和互信息[2]。然而,基于图像灰度的方法相似性度量计算量大,易受纹理干扰。基于图像特征的方法通过检测明显且稳定的匹配特征来估计图像之间的几何变换,可大大减少图像配准过程中的计算量,且能够克服基于图像灰度的方法对图像灰度敏感等缺点,已经成为遥感图像配准研究的主要发展方向[3]。张谦等[3]采用尺度不变特征变换(scale-invariant feature transform, SIFT)特征和由粗到精的多级匹配策略进行多源遥感图像配准; 李少毅等[4]利用加速稳健特征(speeded up robust features, SURF)进行彩色遥感图像配准; Yang等[5]利用格陵兰冰盖上的冰面河流特征配准高精度卫星图像。但这些低层特征表达能力有限,易受到旋转角度、缩放倍数和亮度等因素干扰,从而有可能导致配准失败。

随着深度学习方法的发展,卷积神经网络(convolutional neural network, CNN)[6,7]已在图像分类[8]、图像检索[9,10]和目标识别[11]等领域得到广泛应用,并取得令人瞩目的成绩。在这些应用中,从利用大规模数据集ImageNet预训练的CNN模型中提取的中高层特征比常见的低层特征表现得更优秀,具有更好的性能。为了充分利用CNN强大的特征提取和表示能力,并克服低层特征的不稳定性、提高配准的可靠性,本文对应用CNN特征进行图像配准的性能开展研究。首先,研究和分析了不同的CNN中的全连接层特征和不同聚合大小的卷积层特征; 接着,研究了利用这些特征进行遥感图像配准的方法; 然后,通过实验验证了该方法的可行性; 最后,通过定量方法分析其在图像的旋转角度、缩放倍数和亮度分别变换时的性能,并与传统SIFT特征的性能进行了对比分析。

1 基于CNN特征的遥感图像配准

1.1 CNN模型

CNN模仿了动物视觉皮层组织神经元之间的连接模式,是一种多层前馈人工神经网络的深层学习结构[12]。该模型可以直接输入原始图像,因其避免了对图像的复杂前期预处理而得到了更为广泛的应用,是众多科学领域,特别是图像分类、识别领域研究热点之一。CNN一般由多个卷积层、池化层和全连接层相互连接而成。卷积层利用各种卷积核对输入进行卷积运算,提取各种特征; 池化层通过池化操作对输入进行降维,从而减少网络参数的数量; 全连接层通常是CNN的最后部分,是一种传统的多层感知器网络,其每一个神经元都与前一层的每一个神经元相连接。网络最后输出输入图像的高层特征,经过分类器统计计算,输出该输入图像所对应类别标签的概率。

本文采用的AlexNet模型[6]是一个简单但富有竞争力的CNN模型。它由5个卷积层、3个池化层和3个全连接层组成。AlexNet模型架构如图1所示,图中Conv为卷积层,Pool为池化层,各层下方数字为输出特征图的大小及个数,如Conv1层的输出由94个55像素×55像素的特征图组成,FC为全连接层,下方数字为维数。

图1

图1   AlexNet模型架构

Fig.1   Macro-architecture of AlexNet model


1.2 全连接层的特征

CNN能够提取不同层次的特征,并且这些特征的层次从前往后依次增加。本文从AlexNet模型中提取配准特征。由于AlexNet模型的最后一层(FC8层)的1 000维特征是来自ImageNet的1 000个类别的后验概率分数,其通常用于分类,因此舍弃FC8层,采用4 096个维数的FC7和FC6层的输出用于CNN的遥感图像配准。

1.3 聚合卷积特征

全连接层特征是复杂的高层特征,可以在一定程度上视为全局特征。由于卷积层特征在遥感图像检索等领域表现出比全连接层特征更好的性能[13],因此需对各种维数的卷积层特征进行遥感图像配准分析。

卷积层输出的是一个由 h×w×d个元素组成的三维张量 T。其中, h×w为特征图的大小, d为特征图的个数。 T包含 h×w个向量,每个向量是一个 d维深度描述符。令 x表示 d维深度描述符,可以得到 T={x(i,j)},其中 (i,j)是一个特定的矩阵 (i{1,h},j{1,w},x(i,j)Rd)。然后,将 T扁平化为 h×wd列的二维特征矩阵 n,则卷积层特征可以定义为

F=(x1,x2,,xn)

卷积层特征维数较高,因此不宜直接用作遥感图像配准的相似度量。因此采用平均池化来将这些卷积层特征聚合成紧凑的特征[14,15]

图1所示的AlexNet模型的Conv5层输出是256个大小为 13像素×13像素的特征图。为了获得不同维数的配准特征,利用4种不同大小的池化核对Conv5层进行池化,并得到了 6×6×256(Agg1), 4×4×256(Agg2), 2×2×256(Agg3)和 1×1×256(Agg4)这4种维数的聚合CNN特征。

1.4 预训练的CNN模型微调

为了使得从AlexNet模型提取的特征更适合遥感图像配准,本文建立了一个配准数据库对预先训练的AlexNet模型进行微调。首先,人工配准16组遥感图像; 然后,从这些图像对中提取数量N=3 756个 64像素×64像素的“种子”图像对,每一个“种子”图像对都被声明为代表它自己的一个类; 最后,为了扩展这些类,将K=210个随机变换应用于每个“种子”对,每个变换都是由旋转、缩放和亮度的3个随机变换组成的。因此,在建立的数据集中,包含 N个类别的图像,每个类别包含2K个样本,这些样本按大约8∶2的比例随机分成训练数据集和测试数据集。

在微调过程中,利用预先训练的AlexNet模型初始化权重,学习速率设为0.001,动量值为0.9,权值衰减值设为0.000 5。

1.5 基于CNN特征的图像配准

基于CNN特征的配准流程如图2所示。

图2

图2   基于CNN特征的图像配准流程

Fig.2   Flow chart of image registration using CNN


首先,对参考图像和待配准图像采用SIFT方法检测特征点; 其次,截取以特征点为中心的尺寸为 64像素×64像素的图像作为特征点的特征图像,并将其输入到微调的AlexNet模型中来获取特征点的CNN特征; 然后,根据特征点的CNN特征进行匹配,获取同名点; 最后,根据同名点计算变换参数,进行图像变换和重采样。

2 实验及分析

2.1 配准结果

为了验证利用CNN特征进行遥感图像配准的可行性,对4对不同类型的遥感图像进行了实验,其结果见图3图4

图3

图3   多波段合成彩色遥感图像对

Fig.3   Image pairs of bands composition


图4

图4   Landsat TM单波段图像对

Fig.4   Image pairs of Landsat TM single band


前2对遥感图像(P-A和P-B)与用于微调AlexNet模型的训练图像的类型相同,是多波段合成的彩色遥感图像; 另外2对图像(P-C和P-D)是Landsat TM单波段图像。图3(c)和(f)分别为图像P-A和P-B图像利用FC6特征进行配准得到的棋盘镶嵌结果图像; 图4(c)和(f)分别为P-C和P-D图像对应的棋盘镶嵌结果图像。从配准结果图像中可以看到图像上的边缘和区域等地方是完全重叠的。因此可知,CNN的特征不仅可以用于与训练图像一致的遥感图像配准,而且可以用于与其不同类型的遥感图像配准。

2.2 定量分析

为了对遥感图像配准的性能进行定量分析,采用以下3种评价准则来对本文方法进行评估。

1) RMSall为所有匹配点的均方根误差(root mean square error, RMSE)。从参考图像和待配准图像中人工选择 N个对应的点对 {(xi,yi),(x'i,y'i)}以测试变换模型参数的精度。公式为

RMSall=1ni=1n((x'i-xi)2-(y'i-yi)2)

式中: n为对应点对数量; (xi,yi)(x'i,y'i).的变换坐标。 RMSall值越低越好。

2) RMSLOO(均方根保留1)表示留一交互验证的RMSE[16]。该值越低越好。

3) Nred,即冗余控制点的数量,其等于匹配方法检测到的正确同名点的数量。数量越多越好。

利用以上评价准则对SIFT特征、FC特征(FC7,FC6)和聚合卷积特征(Agg1, Agg2, Agg3, Agg4)的配准性能进行比较分析。在4个图像对上利用这些特征进行配准的精度如表1所示。其中fine-tuning表示微调的特征,pre-trained表示预训练的特征。

表1   不同特征的图像配准精度

Tab.1  Image registration accuracy of different features

特征P-A图像P-B图像P-C图像P-D图像
RMSallRMSLOONredRMSallRMSLOONredRMSallRMSLOONredRMSallRMSLOONred
SIFT0.040 80.040 9640.092 10.094 1240.070 50.070 6420.913 41.015 07
FC7fine-tuning0.034 20.034 2720.079 60.081 3270.038 10.039 0490.800 20.820 28
FC6fine-tuning0.034 20.034 2720.079 60.081 3270.036 20.037 1500.662 20.839 811
Agg1fine-tuning0.034 20.034 2720.079 60.081 3270.036 20.037 1500.698 71.077 310
Agg2fine-tuning0.034 20.034 2720.079 60.081 3270.036 20.037 1500.670 00.714 410
Agg3fine-tuning0.034 20.034 2720.079 60.081 3270.038 10.039 0490.737 10.758 87
Agg4fine-tuning0.043 10.043 3560.109 80.111 5220.038 10.039 0492.656 53.116 73
FC7pre-trained0.038 00.038 1650.094 60.097 3250.043 30.044 4431.893 53.635 34
FC6pre-trained0.037 70.037 8710.079 60.081 3270.042 80.043 8461.286 71.311 35
Agg1pre-trained0.034 20.034 2720.079 60.081 3270.038 10.039 0490.800 20.820 28
Agg2pre-trained0.034 20.034 2720.079 60.081 3270.040 60.041 5481.044 41.339 57
Agg3pre-trained0.037 90.038 0700.079 60.081 3270.040 60.041 5480.732 00.762 78
Agg4pre-trained0.063 80.065 6180.263 20.261 390.040 70.041 6469.711 411.32 43

新窗口打开| 下载CSV


可以看出,微调的FC6特征的 RMSallRMSLOO的值较低,因此其配准性能比其他特征要好。其与传统SIFT相比, RMSall平均减少26.5%, RMSLOO平均减少23.7%,平均每张图多匹配25.3个正确点。在聚合的卷积特性中,Agg1特征和Agg2特征的表现明显优于Agg4特征。与Agg4特征相比,Agg1特征和Agg2特征的 RMSallRMSLOO平均都减少50%以上。Agg1特征平均每张图多匹配20个正确点,而Agg2特征平均每张图多匹配35.5个正确点。因此聚合卷积特性的性能受其特征维数大小的影响。另外,比较微调特征和预训练特征的配准结果,可发现微调的特征配准效果要好于预训练特征。其中,微调后的FC7, FC6和Agg2特征效果提升最明显,微调后的FC6特征相比于微调前的FC6特征 RMSall平均减少18.31%, RMSLOO平均减少15.19%,每张图平均多匹配近3个正确点。微调后的FC7特征相比于微调前的FC7特征的 RMSall平均减少23.90%, RMSLOO平均减少29.07%,每张图平均多匹配近5个正确点。可见通过自定义数据集进行模型微调可以提高图像配准的性能。

为了进一步评估微调的CNN配准特征(FC7,FC6,Agg2)和SIFT特征对各种图像变换的鲁棒性,对以上4个测试图像对分别进行旋转、缩放和亮度不同大小变换,并根据 Nred分析这些特征在不同变换下配准精度变化的情况。结果如图5所示。对大多数图像来说,CNN特征的 Nred比SIFT特征平均提升了20%以上,其中P-C图像对的 Nred甚至翻了一倍; 微调的FC特征在所有变换中都比SIFT表现得更好, Nred平均增加了近50%; 而微调的Agg2,除了当旋转角度大于28°时,在大多数变换中都优于SIFT, Nred平均增加了40.11%。因此,微调后的FC特征对图像的各种变换具有更强的鲁棒性。

图5

图5   4幅图像不同变换下的Nred

Fig.5   Nred on 4 images pair for various transformations


3 结论

1)在AlexNet模型中,全连接层FC6特征相对于其他特征在遥感图像配准方面具有更好的性能。

2)对于大多数变换,微调后的CNN特征比SIFT特征具有较好的配准效果,微调后的CNN特征具有更强的鲁棒性。

3)通过自定义数据集对CNN网络进行微调可以提高CNN特征在遥感图像配准中的性能。

目前,已有许多更为复杂的CNN网络被提出。在后续的研究中,将进一步研究和比较这些CNN网络中的各种特征在遥感图像配准中的性能。

参考文献

Zitova B, Flusser J .

Image registration methods:A survey

[J]. Image and Vision Computing, 2003,21(11):977-1000.

DOI:10.1016/S0262-8856(03)00137-9      URL     [本文引用: 1]

Gong M, Zhao S, Jiao L , et al.

A novel coarse-to-fine scheme for automatic image registration based on sift and mutual information

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2014,52(7):4328-4338.

DOI:10.1109/TGRS.2013.2281391      URL     [本文引用: 1]

张谦, 贾永红, 胡忠文 .

多源遥感影像配准中的SIFT特征匹配改进

[J]. 武汉大学学报(信息科学版), 2013,38(4):455-459.

Magsci     [本文引用: 2]

针对尺度不变特征变换算法应用于多源遥感影像配准时面临的低效率和误匹配问题,从特征点提取和特征点匹配两个方面对其进行改进。在特征点提取阶段,通过控制特征点数量和分布情况获取均匀分布的特征点;在特征点匹配阶段,采用特征点仿射变换粗匹配、精匹配和误匹配点剔除策略,由粗到精地获取准确的同名点。对多源遥感影像进行配准实验,结果表明,此方法在匹配效率及匹配性能上均优于原始SIFT算法,且配准精度更高。

Zhang Q, Jia Y H, Hu Z W .

An improved SIFT algorithm for multi-source remote sensing image registration

[J]. Geomatics and Information Science of Wuhan University, 2013,38(4):455-459.

Magsci     [本文引用: 2]

李少毅, 王晓田, 杨开 .

改进的SURF彩色遥感图像配准算法

[J]. 计算机测量与控制, 2017,25(1):209-212.

[本文引用: 1]

Li S Y, Wang X T, Yang K .

An improved SURF algorithm for color remote sensing image registration

[J]. Computer Measurement and Control, 2017,25(1):209-212.

[本文引用: 1]

Yang K, Karlstrom L, Smith L C , et al.

Automated high-resolution satellite image registration using supraglacial rivers on the Greenland ice sheet

[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2017,99:1-12.

[本文引用: 1]

Krizhevsky A, Sutskever I, Hinton G E .

ImageNet classification with deep convolutional neural networks

[J]. Advance in Neural Information Processing Systems, 2012,25(2):1097-1105.

[本文引用: 2]

Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition

[EB/OL].( 2015- 04- 10). http://arxiv.org/pdf/1409.1556.pdf.

[本文引用: 1]

Chandrasekhar V, Lin J, Morère O , et al.

A practical guide to CNNs and fisher vectors for image instance retrieval

[J]. Signal Processing, 2015,128:426-439.

[本文引用: 1]

罗建豪, 吴建鑫 .

基于深度卷积特征的细粒度图像分类研究综述

[J]. 自动化学报, 2017,43(8):1306-1318.

[本文引用: 1]

Luo J H, Wu J X .

A survey on fine-grained image categorization using deep convolutional features

[J]. Acta Automatica Sinica, 2017,43(8):1306-1318.

[本文引用: 1]

张洪群, 刘雪莹, 杨森 , .

深度学习的半监督遥感图像检索

[J]. 遥感学报, 2017,21(3):406-414.

[本文引用: 1]

Zhang H Q, Liu X Y, Yang S , et al.

Retrieval of remote sensing images based on semisupervised deep learning

[J]. Journal of Remote Sensing, 2017,21(3):406-414.

[本文引用: 1]

刘峰, 沈同圣, 马新星 .

特征融合的卷积神经网络多波段舰船目标识别

[J]. 光学学报, 2017,37(10):248-256.

[本文引用: 1]

Liu F, Shen T S, Ma X X .

Convolutional neural network based multi-band ship target recognition with feature fusion

[J]. Acta Optica Sinica, 2017,37(10):248-256.

[本文引用: 1]

Zhu G, Wang Q, Yuan Y , et al.

SIFT on manifold:An intrinsic description

[J]. Neurocomputing, 2013,113(7):227-233.

DOI:10.1016/j.neucom.2013.01.020      URL     [本文引用: 1]

Yosinski J, Clune J, Bengio Y , et al. How transferable are features in deep neural networks?[C]//International Conference on Neural Information Processing Systems. MIT Press, 2014: 3320-3328.

[本文引用: 1]

Babenko A,Lempitsky V.Aggregating deep convolutional features for image retrieval

[EB/OL].( 2015- 10- 26). http://arxiv.org/pdf/1510.07493v1.pdf.

[本文引用: 1]

Wei X S, Luo J H, Wu J , et al.

Selective convolutional descriptor aggregation for fine-grained image retrieval

[J]. IEEE Transactions on Image Processing, 2017,26(6):2868-2881.

DOI:10.1109/TIP.2017.2688133      URL     [本文引用: 1]

Goncalves H, Goncalves J A, Corte-Real L .

Measures for an objective evaluation of the geometric correction process quality

[J]. IEEE Geoscience and Remote Sensing Letters, 2009,6(2):292-296.

DOI:10.1109/LGRS.2008.2012441      URL     [本文引用: 1]

/

京ICP备05055290号-2
版权所有 © 2015 《自然资源遥感》编辑部
地址:北京学院路31号中国国土资源航空物探遥感中心 邮编:100083
电话:010-62060291/62060292 E-mail:zrzyyg@163.com
本系统由北京玛格泰克科技发展有限公司设计开发