基于KPCA和FCM的HJ-1A星遥感数据分类
白杨1,2, 赵银娣1,2
1.中国矿业大学环境与测绘学院,徐州 221116
2.国土环境与灾害监测国家测绘局重点实验室,徐州 221116
通讯作者:赵银娣(1980-), 女, 副教授, 主要研究方向为遥感图像识别、模式识别。 E-mail:zhaoyd@cumt.edu.cn

第一作者简介: 白 杨(1988-), 女, 硕士研究生, 主要研究方向为遥感数据处理、环境遥感。 E-mail:baiyang739@126.com

摘要

为提高对环境与灾害监测预报小卫星1A(HJ-1A)星遥感数据分类的精度,首先将HJ-1A星HSI高光谱数据和CCD多光谱数据进行GS(Gram-Schmidt)融合,然后利用主成分分析法(principal component analysis,PCA)和核主成分分析法(kernel PCA,KPCA)分别对融合后的高光谱图像进行降维处理。KPCA降维时采用高斯、线性和多项式3种核函数,根据特征提取效果评价结果,选择累积贡献率较大的多项式核函数。最后,分别对融合后的高光谱图像、PCA主成分图像和基于多项式核函数的KPCA主成分图像进行模糊C均值分类。实验结果表明,KPCA对融合后高光谱图像的特征提取得到了较好的效果,同时提高了分类精度和效率。

关键词: HJ-1A星; 主成分分析(PCA); 核主成分分析(KPCA); 累积贡献率; 模糊C均值分类
中图分类号:TP751.1 文献标志码:A 文章编号:1001-070X(2013)01-0071-06 doi: 10.6046/gtzyyg.2013.01.13
HJ-1A satellite remote sensing data classification based on KPCA and FCM
BAI Yang1,2, ZHAO Yindi1,2
1.School of Environment Science and Spatial Informatics, China University of Mining and Technology, Xuzhou 221116, China
2.Key Laboratory for Land Environment and Disaster Monitoring of SBSM, Xuzhou 221116, China
Abstract

In order to improve the remote sensing data classification accuracy of the environment and disaster monitoring and forecasting small satellite constellation 1A (HJ-1A) Star, the authors first fused hyperspectral imager data and CCD multispectral imagery by the Gram-Schmidt fusion algorithm, and then applied dimensionality reduction to the fused hyperspectral image by using principal component analysis (PCA) and kernel principal component analysis (KPCA). Gaussian, linear and polynomial kernel functions were employed during KPCA dimensionality reduction, and the polynomial kernel function was selected with its highest accumulative contribution rate according to the evaluation results of feature extraction. Finally, the fused hyperspectral image, the PCA image and the KPCA image with the polynomial kernel function were classified using the fuzzy C-means algorithm (FCM), respectively. The experimental results show that, for the fused hyperspectral image, the feature extraction based on KPCA can increase computational efficiency and improve the classification accuracy.

Keyword: HJ-1A satellite; principal component analysis; kernel principal component analysis; accumulative contribution rate; fuzzy C-means classification
0 引言

环境与灾害监测预报小卫星1A(HJ-1A)星是我国继气象、海洋、国土资源卫星之后发射的又一颗民用卫星, 拥有光学、红外、超光谱等多种探测手段。HJ-1A星携载1台我国自主研制的空间调制型干涉高光谱成像仪(hyperspectral imager, HSI)和2台宽覆盖多光谱CCD相机, 分别能够提供115个波段、100 m空间分辨率的高光谱数据和30 m空间分辨率的多光谱数据。在环境灾害日益严重的今天, 充分利用HJ-1A星提供的数据显得非常重要。

对HJ-1A星的HSI高光谱数据和CCD多光谱数据进行融合后, 将获得分辨率提高的高光谱图像。虽然在光谱分辨率要求较高的光谱域, 该图像能够得到很多应用, 但是庞大的数据量使高光谱图像的分类复杂化[1], 因此降维处理是必不可少的步骤。主成分分析法(principal component analysis, PCA)是一种经典的降维方法, 能够有效地处理线性关系的数据, 但遥感图像数据大多不服从高斯分布且存在非线性特征[2]。为了从根本上解决非线性数据的提取问题, 采用核主成分分析(kernel PCA, KPCA)对融合后的高光谱图像进行降维, 把低维的线性不可分数据映射到高维核空间, 然后在核空间中利用PCA提取非线性特征。该方法使基于线性特征提取的PCA得到了非线性推广[3], 能够有效地提取非线性特征, 在高光谱数据降维中取得了较好的效果。

本文分别利用PCA和KPCA对HJ-1A星HSI数据与CCD数据融合后的高光谱图像进行降维处理; 比较PCA和KPCA在特征提取方面的优缺点; 并且在进行KPCA降维处理时选择不同的核函数作用于高光谱图像, 通过对比降维结果选择最佳的核函数和相对应的主成分图像; 采用模糊C均值(fuzzy C-means, FCM)方法分别对融合后的高光谱图像、PCA主成分图像和KPCA主成分图像进行分类, 并讨论了KPCA对高光谱图像分类的影响。

1 基本原理
1.1 核主成分分析(KPCA)

KPCA不仅能够处理线性数据, 对非线性数据也能达到很好的效果。PCA变换只是KPCA变换的特殊情况[4]。韩萍等[5]基于KPCA准则对SAR图像进行了目标提取与识别, 不仅能提高识别率, 而且具有良好的推广能力, 同时降低了估计方位的精度要求。

KPCA方法[6]主要包括3个步骤: ①计算核矩阵K; ②计算核矩阵的特征向量并在Φ (xi)空间进行标准化; 对数据集在Φ (x)空间上进行投影。

首先将高光谱图像的任一样本xi通过非线性变换Φ (xi)映射到高维核空间中。对于新的样本空间, 协方差矩阵为

c= 1Mi=1MΦ (xi)Φ (xi)T, (1)

式中: M为随机变量的样本个数; c为协方差矩阵。PCA的目的是求出特征值λ 和特征向量v, 由

λ v=cv(2)

得知, 当λ ≠ 0时, v位于Φ (xi)(i=1, 2, …, M)张成的子空间中, 即存在ai(i=1, 2, …, M)满足

v= i=1MaiΦ (xi), (3)

式中ai为系数。在式(2)两边同时与Φ (xi)做内积得

< Φ (xi), λ v> =< Φ (xi), cv> 。 (4)

将式(1)和式(3)代入式(4)后得

Mλ α =Kα , (5)

式中: K为核矩阵, K=[k(xi, xj)]ij; α 分别为K的特征值和特征向量, α =[α 1, α 2, …, α M]T

假设对应于大于0的特征值的特征向量分别为α p, α p+1, α M, 为了满足< vr, vr> =1, 取α r使得Mλ < α r, α r> =1, 则样本Φ (x)在vr上的投影为

gr(x)=< vr, Φ (x)> = i=1Mα rik(xi, x), (6)

式中: r=p, p+1, …, M; gr(x)为对应于Φ (x)的非线性主元分量。

将所有投影值形成的向量[g1(x), g2(x), …, gl(x)]T作为样本x的新特征向量。通常情况下使用的核函数[7]有高斯核函数、线性核函数及多项式核函数等。

1.2 模糊C均值聚类(FCM)

FCM是一种基于划分的聚类算法。它是一种软性的模糊划分, 是对普通C均值硬性划分的改进, 其原理[6]如下所述:

假设B={b1, b2, …bn}为n维高光谱图像的数据集合, bhRs。FCM聚类方法的目的是把B划分为c个子集S1, S2, …Si, …Sc, 若用l1, l2, …lc表示这c个子集的聚类中心, uij表示元素xj对子集Si的隶属度, 则FCM算法的优化目标函数为

JmFCM(U, L, B)=i=1cj=1nuijmdij2=i=1cj=1nuijmbj-lii=1cuij=1, 1jn, uij0, 1ic, (7)

式中: U={uij}为c× n矩阵, 即隶属度矩阵; L={l1, l2, …, lc}为s× c矩阵, 即聚类中心矩阵; dijbjli的距离; m为模糊指数, 控制分类矩阵U的模糊程度, m> 1且m越大, 分类的模糊程度越高, 在实际应用中m的最佳范围为(1.5, 2.5)。

FCM是使目标函数最小化的迭代收敛过程, 由Lagrange乘数法迭代求解JFCM最小值得

li= j=1n(uij)mbjj=1n(uij)m, uij= 1k=1c(dijdkj)2m-1。 (8)

可以看出, FCM算法就是反复求解新的聚类中心矩阵和隶属度矩阵的分类过程。

2 实验与结果分析
2.1 HJ-1A星遥感数据融合

采用的原始数据是从中国资源卫星应用中心网站下载的覆盖徐州市市辖区的1景2011-05-17获取的HSI高光谱数据和1景2011-11-23获取的CCD多光谱数据, 均为二级数据产品。HSI图像是经过波谱复原、辐射校正和系统几何纠正, 并将处理后的图像映射到指定的地图投影坐标下的产品数据, 空间分辨率为100 m, 有115个波段, 工作谱段为459~956 nm; CCD数据是经过辐射校正和系统几何纠正, 并将校正后的图像映射到指定的地图投影坐标下的产品数据, 空间分辨率为30 m。

通过一系列的数据预处理[8, 9], 得到HSI高光谱数据和CCD多光谱数据融合后的高光谱图像, 其空间分辨率有所提高。具体步骤: ①HSI和CCD数据的大气校正均采用ENVI中FLAASH大气校正模块完成; ②辐射定标的参数由中国资源卫星应用中心网站提供; ③根据图像质量进行波段选择, 去除噪声过大的前几个波段和受水汽影响严重的波段, 剩余92个波段; ④把CCD数据进行PCA变换后的第一主分量图像作为高分辨率图像, 采用GS(gram-schmidt)融合法与空间分辨率较低的HSI高光谱数据进行融合处理, 得到空间分辨率提高的融合后的高光谱图像(图1)。

图1 HJ-1A星遥感数据预处理流程图Fig.1 Flow chart of the preprocessing of HJ-1A satellite remote sensing data

考虑到基于核方法的实验运算量大的特点, 最后选择徐州新城区中地貌轮廓较清晰的200像元× 200像元局部图像作为实验数据(图2)。

图2(a)为实验区HJ-1A星HSI高光谱图像与CCD图像配准后在ENVI中显示的假彩色合成图像, 其RGB波段分别为第104波段(波长862.615 nm)、第65波段(波长647.930 nm)和第37波段(波长549.710 nm); 图2(b)为实验区CCD图像经PCA变换后的第一主成分图像; 图2(c)为用GS融合法对图2(a)和图2(b)融合后的假彩色合成高光谱图像, 基本保持了图2(a)的波谱信息, 而且继承了图2(b)的高空间分辨率的特征。融合后的高光谱图像将作为本文方法的输入数据。

图2 HJ-1A星遥感数据融合Fig.2 Fusion of HJ-1A satellite remote sensing data

2.2 实验方法与结果

2.2.1 降维处理

分别将PCA和KPCA应用于融合后的高光谱图像, 比较PCA和KPCA在特征提取方面的优缺点; 基于Matlab工具箱[10]进行KPCA降维处理时选择不同的核函数作用于高光谱图像, 通过对降维结果的对比选择最佳的核函数和相对应的主成分图像。融合后高光谱图像的PCA前5个主成分图像如图3所示。

图3 PCA的主成分图像Fig.3 Images of principal components of PCA

基于高斯核函数、线性核函数和多项式核函数的KPCA主成分图像分别如图4图6所示。

图4 基于高斯核函数KPCA的主成分图像Fig.4 Images of principal components of KPCA based on the Gaussian kernel function

图5 基于线性核函数KPCA的主成分图像Fig.5 Images of principal components of KPCA based on the linear kernel function

图6 基于多项式核函数KPCA的主成分图像Fig.6 Images of principal components of KPCA based on the polynomial kernel function

PCA和基于高斯、线性和多项式3种核函数的KPCA降维累积贡献率如表1所示。

表1 PCA和KPCA降维累积贡献率对比 Tab.1 Comparison between the accumulative contribution rates of dimensionality reduction of PCA and KPCA (%)

表1可以看出, PCA的前5个主成分图像和基于多项式核函数的KPCA的前3个主成分图像约包含了高光谱图像的99.5%信息; 因此在进行FCM分类时, 只需选用PCA的前5个主成分图像和基于多项式核函数的KPCA的前3个主成分图像即可。

2.2.2 FCM分类

实验区内的主要地物有水体、建筑物、道路、广场、林地和植被等。为了对比不同分类方案的效果, 分别对融合后的高光谱图像、PCA主成分图像和基于多项式核函数的KPCA主成分图像进行FCM分类。分类时参数设置一致, 初始类别数为10, 初始类别中心用最大最小距离选心法获得, 模糊指数为2。分类后, 根据实际地物类别, 在ENVI中进行了低通滤波、类别合并, 最终得到分类结果。

利用FCM对基于融合后高光谱图像、基于PCA前5个主成分图像和基于多项式核函数的KPCA前3个主成分图像进行分类, 结果分别如图7(a), (b), (c)所示。分类结果包含5类地物, 分别为水体、建筑物、道路、广场、植被和林地; 图7(a), (b)把韩山窝的林地与大龙湖混分为一类, 因此只包含有4类地物。

图7 不同特征参与FCM分类的结果对比Fig.7 Comparison among the FCM classifications of different feature

本文从定性和定量2个方面进行分类精度评价。在定量分析中, 根据实际分类结果选择了5类感兴趣区, 在ENVI中计算混淆矩阵[11], 能够计算得到用户精度、漏分误差、生产者精度等指标。本文采用综合了用户精度和制图精度2个参数的Kappa系数来评价整个分类图的精度, 各分类评价指标及具体含义如表2所示。

表2 分类精度评价指标及其意义 Tab.2 Accuracy evaluation index of classification and its significance
2.3 实验结果分析

图3图6可以看出, PCA和KPCA在前5个主成分图像获得的信息量差别很大, 前3个主成分信息差别较大且基本能够包含原始图像的大部分信息; 对于KPCA变换, 不同的核函数对特征提取的效果影响较大, 在降维处理时要注意选择合适的核函数(在本文实验中, 多项式核函数具有最好的效果); KPCA较PCA变换能够取得更为理想的特征提取效果。

表1可以看出, PCA和KPCA的前10个主成分累积贡献率都达到99%以上; 前3个主成分的累积贡献率变换较大, 尤其是前2个主成分之间; 对于KPCA变换, 不同核函数对累积贡献率的影响很大, 因此在实验中要根据地物之间的关系选择最适合的核函数[12]。本文选择了基于多项式核函数的KPCA变换; PCA变换第一主成分量的信息量大小为88.04%, 基于多项式核函数的KPCA变换的为92.58%, 可见在该实验区中, 基于多项式核函数的KPCA变换能够更大限度地提取地物特征。

通过FCM分类的结果(图7)与分类前的融合高光谱图像(图2(c))的对比进行定性分析可以认为: ①对于水体而言, 3种分类结果差异不大, 但由于受山体阴影的影响, 在对山体植被进行分类时, 被阴影覆盖的植被区错分为了水体(图7(a), (b)); ②道路和大型广场光谱特征相近, 图7(a)和KPCA前3个主成分图像分类(图7(c))较图7(b)获得了更精确的分类结果(例如, 图7(b)把徐州市新城区市民广场错分为建筑物); ③植被主要包括农业用地及草地, 图7(c)较精确, 图7(a), (b)把部分建筑物错分为植被。对图7中3个分类结果进行定量分析, 图7(a), (b), (c)的Kappa值分别为0.706 4, 0.722 6, 0.752 5, 可见基于KPCA的FCM分类精度较高; 而且在分类时, 融合后的高光谱图像输入92个波段, PCA主成分图像输入5个波段, 而KPCA主成分图像只需输入3个波段, 可见基于KPCA的FCM分类的计算量大大减少, 分类时间大大缩短。

3 结论

1)充分利用HJ-1A星获取的徐州市新城区的HSI和CCD数据, 采用GS融合法将二者进行融合, 可得到空间分辨率提高的高光谱图像。

2)分别利用PCA和KPCA对融合后的高光谱图像进行降维处理(在进行KPCA降维时选择了3种核函数进行实验), 结果表明基于多项式核函数的KPCA的降维效果最优, 说明KPCA在高光谱图像特征提取中的适用性较强。

3)采用FCM分别对融合后的高光谱图像、PCA主成分图像和基于多项式核函数的KPCA主成分图像进行分类, 结果证明基于KPCA的分类精度较高、速度较快。

志谢: 感谢中国资源卫星应用中心提供HJ-1A星遥感数据。

The authors have declared that no competing interests exist.

参考文献
[1] Garcia V, Sanchez J S, Mollineda R A. Classification of high dimensional and imbalanced hyperspectral imagery data[C]//Lecture Notes in Computer Science. New York: Springer, 2011: 644-651. [本文引用:1]
[2] 刘小芳, 何彬彬, 李小文. 基于半监督核模糊c-均值算法的北京一号小卫星多光谱图像分类[J]. 测绘学报, 2011, 40(3): 301-306.
Liu X F, He B B, Li X W. Classification for Beijing-1 micro-satellite’s multispectral image based on semi-supervised kernel FCM algorithm[J]. Acta Geodaetica et Cartographica Sinica, 2011, 40(3): 301-306. [本文引用:1] [CJCR: 1.503]
[3] 杨国鹏, 余旭初, 刘伟, . 面向高光谱遥感影像的分类方法研究[J]. 测绘通报, 2007(10): 17-20.
Yang G P, Yu X C, Liu W, et al. Research on hyperspectral remote sensing image classification methods[J]. Bulletin of Surveying and Mapping, 2007(10): 17-20. [本文引用:1] [CJCR: 0.943]
[4] 杜卓明, 屠宏, 耿国华. KPCA方法过程研究与应用[J]. 计算机工程与应用, 2010, 46(7): 8-10.
Du Z M, Tu H, Geng G H. KPCA method research and application process[J]. Computer Engineering and Applications, 2010, 46(7): 8-10. [本文引用:1] [CJCR: 0.557]
[5] 韩萍, 吴仁彪, 王兆华, . 基于KPCA准则的SAR目标特征提取与识别[J]. 电子与信息学报, 2003, 25(10): 1297-1301.
Han P, Wu R B, Wang Z H, et al. SAR automatic target recognition based on KPCA criterion[J]. Journal of Electronics and Information Technology, 2003, 25(10): 1297-1301. [本文引用:1] [CJCR: 1.033]
[6] 蔡静颖, 张永, 张凤梅, . 优化KPCA特征提取下的FCM算法研究[J]. 计算机工程与应用, 2009, 45(32): 38-40.
Cai J Y, Zhang Y, Zhang F M, et al. Fuzzy c-mean algorithm based on optimized KPCA feature extraction[J]. Computer Engineering and Applications, 2009, 45(32): 38-40. [本文引用:2] [CJCR: 0.557]
[7] 高恒振, 万建伟, 粘永健, . 组合核函数支持向量机高光谱图像融合分类[J]. 光学精密工程, 2011, 4(4): 878-883.
Gao H Z, Wan J W, Nian Y J, et al. Fusion classification of hyperspectral image by composite kernels support vector machine[J]. Optics and Precision Engineering, 2011, 4(4): 878-883. [本文引用:1] [CJCR: 1.81]
[8] 田慧, 周绍光. 利用改进的FCM方法分割高分辨率遥感影像[J]. 测绘通报, 2011(12): 44-57.
Tian H, Zhou S G. Segmentation of high resolution image using improved FCM method[J]. Bulletin of Surveying and Mapping, 2011(12): 44-57. [本文引用:1] [CJCR: 0.943]
[9] 钮立明, 蒙继华, 吴炳方, . HJ-1A星HSI数据2级产品处理流程研究[J]. 国土资源遥感, 2011, 23(1): 77-82.
Niu L M, Meng J H, Wu B F, et al. Research on stand ard preprocessing flow for HJ-1A HIS level 2 data product[J]. Remote Sensing for Land and Resources, 2011, 23(1): 77-82. [本文引用:1]
[10] Ambarish J. Non-linear dimension reduction using kernel PCA[EB/OL]. [2010-04-20]. http://www.athworks.com/matlabcentral/fileexchange/27319-kernel-pca. [本文引用:1]
[11] Congalyon R G. A review of assessing the accuracys of classification of remotely sensed data[J]. Remote Sensing of Environment, 1991, 37(1): 35-46. [本文引用:1] [JCR: 4.769]
[12] 王华忠, 俞金寿. 核函数方法及其模型选择[J]. 江南大学学报: 自然科学版, 2006, 5(4): 500-504.
Wang H Z, YU J S. Study on the kernel-based methods and its model selection[J]. Natural Science Edition of Southern Yangtze University, 2006, 5(4): 500-504. [本文引用:1] [CJCR: 0.246]