基于空间统计学的高光谱遥感影像主成分选择方法
Principal component selection method for hyperspectral remote sensing images based on spatial statistics
通讯作者: 彭军还(1964-),男,博士,教授,主要从事测绘理论研究。Email:pengjunhuan@163.com。
责任编辑: 李瑜
收稿日期: 2021-07-14 修回日期: 2021-12-8
基金资助: |
|
Received: 2021-07-14 Revised: 2021-12-8
作者简介 About authors
孙 肖(1988-),男,硕士,助理工程师,主要从事高光谱遥感解译研究。Email:
主成分分析是一种广泛使用的高光谱遥感影像降维方法,在面向任务的工作中,基于累计方差贡献率的主成分选择方法效果并不理想。针对主成分分析变换后主成分选择的问题,提出基于空间统计学的主成分选择方法。计算各主成分的半变异函数参数变程、拱高、基台值,综合变程和拱高/基台值实现主成分的选择。变程的大小用以判断每一个主成分空间相关性的范围,拱高/基台值的大小用以判断每一个主成分空间相关性的强弱。仿真实验证明了变程和拱高/基台值可以有效表达高光谱遥感影像空间相关性的范围和强弱。在真实高光谱遥感影像实验的基础上,从主观和客观2个方面来综合确定主成分选择的经验阈值,即变程为2.5、拱高/基台值为0.2。从基于支持向量机算法的分类结果来看,和传统方法相比,利用变程和拱高/基台值可以筛选出图像质量较好的主成分,不仅能够达到降维的目的,同时能够保证足够高的分类精度。
关键词:
The principal component analysis is a widely used method for dimensionality reduction of hyperspectral remote sensing images. In task-oriented work, the principal component selection method based on cumulative variance contribution rate is not ideal. To address the problem of principal component selection after principal component analysis transformation, a method of principal component selection based on spatial statistics is proposed. The selection of principal components is performed by calculating the values of the semi-variogram parameter range and partial sill/sill of each principal component. The magnitude of a range is used to judge the range of spatial correlation of each principal component, and the partial sill/sill is used to judge the strength of spatial correlation of each principal component. The simulation proves that the variable range and partial sill/sill can effectively express the range and strength of spatial correlation of hyperspectral remote sensing images. Based on the experiment of real hyperspectral remote sensing images, the empirical threshold of principal component selection is determined from subjective and objective aspects, that is, the range is 2.5, and the partial sill/sill is 0.2. According to the classification results based on the support vector machine algorithm, compared with traditional methods, the principal components with better image quality can be screened by using variable range and partial sill/sill, which can not only achieve the purpose of dimensionality reduction, but also ensure high classification accuracy.
Keywords:
本文引用格式
孙肖, 彭军还, 赵锋, 王晓阳, 吕洁, 张登峰.
SUN Xiao, PENG Junhuan, ZHAO Feng, WANG Xiaoyang, LYU Jie, ZHANG Dengfeng.
0 引言
PCA将数据的方差作为线性变换的标准,因此,一般按照变换后数据的累积方差进行主成分的选择。降维主要的目的就是降低数据维数的同时,尽可能保留信息,而选择方差较大的主成分必然会带来信息的损失。目前没有一种有效的方法来决定该选择哪个主成分。
Jolliffe[4]通过大量实验研究将PCA变换后主成分选择的经验阈值定为累计方差贡献率大于0.85,但是该阈值在高光谱遥感的研究中具有局限性。PCA在高光谱遥感领域的应用主要包含两大类: 一类是应用于解混、变化检测、数据压缩、目标探测、去噪等的研究中,根据研究的目的和内容不同,一般选择某一特定主成分或某几个主成分进行研究[5⇓⇓⇓⇓-10]; 另一类是应用于分类研究,Chang等[11]认为利用累计方差贡献率大于0.99的主成分进行分类研究效果比较好。Li等[12]认为累计方差贡献率大于0.9就能保证分类精度大于0.85。臧卓等[13]对高光谱遥感影像降维后的主成分进行分类测试,发现累计方差贡献率与分类精度没有必然联系,而主成分的个数对分类结果的影响较为明显,认为保留前15~20个主成分较为合适。黄鸿等[14⇓-16]认为可以给定一定数量的主成分进行分类。臧卓等[17⇓-19]逐次增加主成分数量进行分类,根据分类精度确定合适的主成分个数,该方法虽然能保证分类精度最高,但是效率较慢。Mather等[20]指出不能仅依靠特征值对应的主成分来做图像分类,还应考虑图像的实际视觉效果。Rodarmel等[21]分别采用编号1—5、1—10、1—25、1—50的主成分分段计算了分类的精度,认为可以用5%~10%的主成分个数进行分类。Ibarrola-Ulzurrun等[22]将常用的主成分选择方法分为4类(基于特征值、纹理特征、类别变换和感兴趣区分离),分别利用前2,5,10,15,20主成分对这4类方法的分类精度进行了对比研究,认为特征值不是最适合的主成分选择方法,类别变换和感兴趣区分离需要人为的确定感兴趣区,因此纹理特征是比较适合的主成分选择方法,典型的纹理特征指标即信息熵。
以上主成分选择方法虽然取得了一定的效果,但是仍存在依据不充分、效率较低、主观性较强的问题。而且,PCA变换结果不随噪声排列,方差也不能判断噪声的大小。以上方法会导致部分图像质量较好的主成分被舍去,而部分图像质量较差的主成分参与分类的现象。从实际应用来看,编号较大的一些主成分对分类结果也有一定的影响[23]。
1 研究方法
本文利用变程、拱高/基台值两个半变异函数参数进行PCA后主成分的选择,结合以上原理,基于空间统计学的高光谱遥感影像主成分选择流程见图1,主要过程如下:
图1
1)对高光谱遥感影像数据集进行PCA变换,获取主成分。在去除各主成分的趋势项影响后对各主成分数据进行正态化转换。
2)选定理论半变异函数模型对计算出的各主成分的实验半变异函数进行拟合,从而获取各半变异函数参数变程、基台值、块金值,由此计算出用于主成分选择的变程、拱高/基台值两个参数。
3)联合变程、拱高/基台值进行主成分选择,结合高光谱遥感影像实验结果,从主观和客观两个方面来综合确定主成分选择的经验阈值。
2 实验及其结果分析
2.1 仿真实验
为便于研究,仿真数据大小设计为72×72。从美国地质调查局网站提供的地物波谱库里随机选择4类地物波谱,按照规则格网设计仿真图像(格网大小W=1,3,…,23)。为更加接近真实数据情况,添加信噪比分别为10,20,30,45的零均值高斯噪声(图2)。
图2
图2
仿真图像(不同栅格大小W=1,3,…,23; 信噪比SNR=10,20,30,45)
Fig.2
Simulation images (different grid sizes W=1,3,…,23; SNR=10,20,30,45)
图3
图4
图4
不同栅格大小仿真图像计算的拱高/基台值结果
Fig.4
Results of the partial sill/sill of the simulation image
2.2 实际数据
2.2.1 实验数据集
Indian Pines高光谱数据集是1992年由AVIRIS传感器获取的印第安纳州西北部农业区的高光谱遥感影像数据的一部分,图像大小为145×145像素,包含16类地物(图5)。AVIRIS数据光谱范围为0.4~2.45 μm,共224个波段,空间分辨率20 m。
图5
ROSIS传感器于2003年在意大利的北部Pavia大学获取了2幅高光谱影像,University高光谱数据是该数据集的其中之一(图6)。图像大小为610×340 像素,空间分辨率1.3 m,包含9类地物。ROSIS传感器共103个波段,光谱范围为0.43~0.86 μm。
图6
Salinas高光谱数据集由AVIRIS传感器获取的美国加利福尼亚州萨利纳斯山谷区域。图像大小为512×217像素,空间分辨率3.7 m,包含224个波段,该数据集地物类别包含16类(图7)。
图7
研究中使用的Indian Pines,Pavia University(简写为Pavia U)和Salinas3种高光谱数据集获取网站网址如下:
2.2.2 数据处理及结果
数据处理主要包含无信息波段的剔除、趋势项去除、数据正态化、实验半变异函数计算、理论半变异函数拟合等过程。
由于受水汽影响,Indian Pines数据集部分波段的成像效果比较差,本数据集中剔除的波段为104~108,150~163,220。同样,Salina数据集剔除108~112,154~167,224波段。通过二阶数据漂移估计,消除趋势项影响。空间统计学中一般都假设数据是服从正态分布,本文在正态检验的基础上,采用常态得分变换(normal score transform,NST)方法进行数据正态化的转换,该方法相比传统方法不受数据负值的影响[32]。
图8
图8
真实数据半变异函数参数计算结果图
Fig.8
The results of the semi-variogram parameters of real data
2.2.3 主成分选择方法
从变程、拱高/基台值的计算结果来看(图8),高光谱遥感影像PCA变换后编号较大的主成分主要表现为随机噪声,结果主要体现为块金值,该特征与仿真实验比较一致,主成分选择中舍弃该类主成分。单独利用变程或者拱高/基台值也可以进行主成分的筛选,但是对于编号较大的主成分计算出的无意义结果不能很好的判断。同时,变程和拱高/基台值的结果具有明显的互补性,对于一些无意义结果,同时通过2组参数可以有效的进行剔除。因此,本文提出综合利用以上2组参数进行主成分选择的思路。
2.2.4 阈值确定
利用变程、拱高/基台值选择主成分关键的问题就是阈值的确定。通过仿真实验可以知道,图像最小的空间相关性范围大小为2,即相邻像元是相关的,也就是变程为2。为便于研究,将变程增加到2.5作为对比实验。拱高/基台值体现了图像的随机性,一般认为当该值小于0.2~0.25时,数据表现为强的随机性。为了便于研究,分别采用拱高/基台值为0.2和0.25进行对比研究。在此基础上,分别测试了变程=2、拱高/基台值=0.2(表示为PC(2~0.2)); 变程=2、拱高/基台值=0.25(表示为PC(2~0.25)); 变程=2.5、拱高/基台值=0.2(表示为PC(2.5~0.2)); 变程=2.5、拱高/基台值=0.25(表示为PC(2.5~0.25))的主成分选择效果。
为了说明利用几种阈值进行主成分选择的效果,从主观和客观2个方面进行评价。主观评价方法即观察利用几种阈值选择出的主成分的图像质量。以Indian Pines数据集为例,图9为该数据集PCA变换后各主成分的缩略图,表1为不同阈值筛选的主成分。图9中排列顺序为从左至右,从上至下,主成分编号依次增大,表示为PC1,PC2,…,PC200。实验中发现,无论哪种阈值组合都可以剔除图面质量较差的PC9。当拱高/基台值固定时,增大变程会剔除更多的主成分。从表1结果来看,当拱高/基台值=0.25时,PC103被剔除,同时,当变程由2增加到2.5会导致PC108,PC109被剔除。从图9来看,PC103,PC108,PC109主成分的图像细节仍然比较清楚。当变程固定时,减小拱高/基台值会增加更多主要表现为随机性的主成分。从表1结果来看,当变程=2时,拱高/基台值由0.25减小到0.2会将PC22,PC29,PC55,PC59,PC103筛选进来。从图9来看,PC22,PC29,PC59,PC103图像细节仍然比较清楚,但是PC55图像质量较差。因此还不能完全说明拱高/基台值的阈值确定为哪个比较合适。
图9
图9
Indian Pines数据集PCA后各主成分缩略图
Fig.9
Thumbnails of each principal component after the PCA transformation of the Indian Pines data set
表1 Indian Pines数据集不同阈值筛选的主成分
Tab.1
不同方法 | 筛选的主成分编号 |
---|---|
PC(2~0.25) | 1~8,10~21,23~25,28,38,66,68,88,92,101,108,109 |
PC(2~0.2) | 1~8,10~25,28,29,38,55,59,66,88,92,101,103,108,109 |
PC(2.5~0.25) | 1~8,10~21,23~25,28,38,66,68,88,92,101 |
PC(2.5~0.2) | 1~8,10~25,28,29,38,59,66,68,88,92,101,103 |
表2 不同阈值的Kappa系数
Tab.2
数据集 | PC (2~0.25) | PC (2~0.2) | PC (2.5~0.25) | PC (2.5~0.2) |
---|---|---|---|---|
Indian Pines | 0.912 | 0.912 | 0.905 | 0.906 |
Pavia U | 0.856 | 0.881 | 0.858 | 0.883 |
Salinas | 0.953 | 0.953 | 0.954 | 0.953 |
图10
图10
Indian Pines,Pavia U和Salinas数据集分类结果图
Fig.10
Classification results of Indian Pines, Pavia U and Salinas data sets
2.2.5 效果评价
表3 不同方法Kappa系数
Tab.3
数据集 | PC (0.99) | PC (10%) | PC (Entropy) | PC (2.5~0.2) |
---|---|---|---|---|
Indian Pines | 0.864 | 0.853 | 0.899 | 0.906 |
Pavia U | 0.718 | 0.884 | 0.884 | 0.883 |
Salinas | 0.910 | 0.952 | 0.951 | 0.953 |
图11
图11
Indian Pines,Pavia U和Salinas数据集分类结果图
Fig.11
Classification results of Indian Pines, Pavia U and Salinas data sets
表4为Indian Pines数据集各地类的制图精度统计结果,数据为百分比。从表4可知,本文方法对于林地、大豆略耕地、燕麦地、牧草已割地、牧草地、玉米地、玉米未耕地和玉米略耕地的分类精度优于其他方法。同时,本文方法筛选出的主成分对于数量较少的地物较为敏感,塔楼、小麦地、燕麦地、牧草已割地、玉米地、苜蓿地、玉米地等分类效果明显优于其他方法。表5为Pavia U数据集各地类的制图精度统计结果,数据为百分比。从表5可知,本文方法对于裸地、柏油房顶、树的分类精度优于其他方法。同时,本文方法筛选出的主成分对于数量较少的树较为敏感,分类效果优于其他方法。表6为Salinas数据集各地类的制图精度统计结果,数据为百分比。从表6可知,该数据集各地类总体分类精度比较高,本文方法对于未培育的葡萄园、长叶莴苣的分类精度优于其他方法。同时,本文方法筛选出的主成分对于类别较少的长叶莴苣_6wk地物较为敏感,分类效果优于其他方法。表7为不同方法所选择的主成分个数。从表7可知,利用累计方差贡献率大于0.99选择的主成分个数因数据不同差别比较大,直接影响分类效果,不能作为一种适用于所有遥感影像数据的方法。利用10%的主成分个数的主成分开展分类效果可以,但无法解释其物理意义,且结果受波段总数影响较大,结果具有随机性。利用信息熵选择的主成分个数因数据不同差别比较大,当地物易分类时,所选择的主成分个数过多。利用信息熵进行主成分选择会选择出无信息的个别主成分,例如Indian Pines数据集的第49主成分,从图9来看,该主成分无明显的图像信息。本文方法受数据影响较小,均能筛选出数量适中的主成分。本文方法不仅可以剔除一些编号虽然较小,但是图像质量比较差的主成分,而且可以将编号较大,但是图像质量较好的图像参与运算。
表4 Indian Pines数据集制图精度
Tab.4
地物种类 | PC (0.99) | PC (10%) | PC (Entropy) | PC (2.5~0.2) |
---|---|---|---|---|
塔楼 | 100 | 100 | 100 | 100 |
建筑物 | 74.02 | 75.2 | 81.45 | 79.53 |
林地 | 98.89 | 98.89 | 99.43 | 99.51 |
小麦地 | 100 | 100 | 100 | 100 |
大豆地 | 84.46 | 79.77 | 98.4 | 97.95 |
大豆略耕地 | 86.78 | 85.56 | 90.82 | 92.7 |
大豆未耕地 | 89.4 | 89.18 | 88.26 | 86.98 |
燕麦地 | 77.78 | 77.78 | 60 | 88.89 |
干草地 | 100 | 100 | 100 | 100 |
牧草已割地 | 81.82 | 90.91 | 94.12 | 100 |
草树地 | 100 | 99.77 | 100 | 100 |
牧草地 | 100 | 99.24 | 100 | 100 |
苜蓿地 | 85.71 | 80 | 86.84 | 85.71 |
玉米地 | 95.95 | 93.92 | 96.95 | 97.97 |
玉米未耕地 | 73.32 | 73.08 | 80.39 | 82.93 |
玉米略耕地 | 62.14 | 57.96 | 65.44 | 65.54 |
表5 Pavia U数据集制图精度
Tab.5
地物种类 | PC (0.99) | PC (10%) | PC (Entropy) | PC (2.5~0.2) |
---|---|---|---|---|
草地 | 95.3 | 94.72 | 94.72 | 93.54 |
砂砾 | 42.87 | 72.63 | 72.63 | 72.00 |
金属板 | 100 | 99.91 | 99.91 | 99.82 |
裸地 | 31.51 | 79.64 | 79.64 | 81.02 |
柏油房顶 | 37.84 | 67.86 | 67.86 | 74.26 |
阴影 | 100 | 100 | 100 | 99.83 |
砖块 | 88.78 | 94.31 | 94.31 | 93.75 |
树 | 94.58 | 95.18 | 95.18 | 95.41 |
沥青路面 | 94.45 | 97.07 | 97.07 | 96.44 |
表6 Salinas数据集制图精度
Tab.6
地物种类 | PC (0.99) | PC (10%) | PC (Entropy) | PC (2.5~0.2) |
---|---|---|---|---|
葡萄园垂直架子 | 98.23 | 99.92 | 99.84 | 99.83 |
未培育的葡萄园1 | 46.83 | 74.3 | 72.72 | 75.26 |
长叶莴苣_7wk | 98.66 | 99.81 | 99.04 | 99.81 |
长叶莴苣_6wk | 98.95 | 99.48 | 99.12 | 99.48 |
长叶莴苣_5wk | 100 | 100 | 99.89 | 100 |
长叶莴苣_4wk | 100 | 100 | 100 | 100 |
衰败的绿色杂草 | 99.35 | 100 | 100 | 100 |
生长中的葡萄园 | 100 | 100 | 100 | 100 |
未培育的葡萄园2 | 94.21 | 94.62 | 94.62 | 94.77 |
芹菜 | 100 | 100 | 100 | 100 |
作物残留 | 100 | 100 | 100 | 100 |
平整的休耕地 | 99.83 | 100 | 100 | 100 |
粗糙的休耕地 | 100 | 100 | 100 | 100 |
休耕地 | 100 | 100 | 100 | 100 |
椰菜2 | 99.95 | 100 | 100 | 100 |
椰菜1 | 99.49 | 99.91 | 100 | 100 |
表7 不同数据集筛选出的主成分信息
Tab.7
数据集 | 不同方法 | 筛选的主成分编号 | 个数 |
---|---|---|---|
Indian Pines | PC(0.99) | 1~25 | 25 |
PC(10%) | 1~20 | 20 | |
PC(Entropy) | 1~46,49 | 47 | |
PC(2.5~0.2) | 1~8,10~25,28,29,38,59,66,68,88,92,101,103 | 34 | |
Pavia U | PC(0.99) | 1~4 | 4 |
PC(10%) | 1-10 | 10 | |
PC(Entropy) | 1-10 | 10 | |
PC(2.5~0.2) | 1~10,16,19,23,24,43,71 | 16 | |
Salinas | PC(0.99) | 1~3 | 3 |
PC(10%) | 1~20 | 20 | |
PC(Entropy) | 1~100 | 100 | |
PC(2.5~0.2) | 1~10,12,15~23,25,28,29,34,42,61,66,75,77,118,126,134 | 32 |
3 结论
本文提出一种基于空间统计学的PCA变换后主成分选择的新方法,利用半变异函数参数变程、拱高/基台值的特性进行PCA变换后主成分的选择,取得了理想的效果,得出如下结论:
1)仿真实验证明了变程、拱高/基台值可以有效表达高光谱遥感影像空间相关性的范围和强弱。
2)变程、拱高/基台值的结果具有明显的互补性,联合两组参数可以有效剔除无意义主成分。
3)对比变程2~2.5和拱高/基台值0.2~0.25的不同参数组合的分类结果,变程2.5、拱高/基台值0.2的参数组合可以更加有效地筛选主成分。
4)和传统方法相比,本文提出的方法可以剔除主成分编号较小,但是图像质量较差的主成分,同时,筛选出主成分编号较大,但是图像质量较好的主成分。
5)在基于分类的研究中,利用变程2.5、拱高/基台值0.2进行PCA变换后主成分选择,不仅能够达到降维的目的,同时能够保证足够高的分类精度。和传统方法相比,本文方法可以更好地识别数量比较少的地类。
由于半变异函数参数的计算也是一个研究比较多的问题,确定更加准确的半变异函数参数会对主成分的选择产生一定的影响。除此之外,本文方法仅对PCA变换后的主成分选择进行了探讨,同时可以推广到最大噪声分数变换、独立成分分析等降维方法中去。
参考文献
On the mean accuracy of statistical pattern recognizers
[J].DOI:10.1109/TIT.1968.1054102 URL [本文引用: 1]
Hyperspectral Data Exploitation:Theory and Applications
[M].
基于PCA的高光谱遥感图像分类
[J].
Principal component analysis for hyper spectral image classification
[J].
Invasive species change detection using artificial neural networks and CASI hyperspectral imagery
[J].DOI:10.1007/s10661-007-9843-7 URL [本文引用: 1]
Denoising and dimensionality reduction of hyperspectral imagery using wavelet packets,neighbour shrinking and principal component analysis
[J].DOI:10.1080/01431160802653724 URL [本文引用: 1]
Linear and kernel methods for multivariate change detection
[J].DOI:10.1016/j.cageo.2011.05.012 URL [本文引用: 1]
The potential of spectral and hyperspectral-imaging techniques for bacterial detection in food:A case study on lactic acid bacteria
[J].
Pears characteristics (soluble solids content and firmness prediction,varieties) testing methods based on visible-near infrared hyperspectral imaging
[J].DOI:10.1016/j.ijleo.2015.11.193 URL [本文引用: 1]
基于残差网络特征融合的高光谱图像分类
[J].
Classification of hyperspectral image based on feature fusion of residual network
[J].
Fault diagnosis of a mine hoist using PCA and SVM techniques
[J].DOI:10.1016/S1006-1266(08)60069-3 URL [本文引用: 2]
Clustering for HSI hyperspectral image with weighted PCA and ICA
[J].
利用PCA算法进行乔木树种高光谱数据降维与分类
[J].
Dimension reduction and classification of hyperspectral data of tree species using PCA algorithm
[J].
基于半监督稀疏鉴别嵌入的高光谱遥感影像分类
[J].
Hyperspectral remote sensing image classification based on SSDE
[J].DOI:10.3788/OPE.20142202.0434 URL [本文引用: 1]
Hybrid compression of hyperspectral images based on PCA with pre-encoding discriminant information
[J].DOI:10.1109/LGRS.2015.2409897 URL [本文引用: 1]
基于深度学习的高光谱图像分类方法
[J].
A classification method for hyperspectral imagery based on deep learning
[J].DOI:10.12677/AIRR.2017.61005 URL [本文引用: 1]
ICA与PCA在高光谱数据降维分类中的对比研究
[J].
Comparative study on descending dimension classification of hyperspectral data between ICA algorithm and PCA algorithm
[J].
PCA与移动窗小波变换的高光谱决策融合分类
[J].
PCA and windowed wavelet transform for hyperspectral decision fusion classification
[J].
Evaluating the performance of the wavelet transform in extracting spectral alteration features from hyperspectral images
[J].
Computer processing of remotely-sensed images
[M].
Principal component analysis for hyperspectral image classification
[J].
Assessment of component selection strategies in hyperspectral imagery
[J].DOI:10.3390/e19010001 URL [本文引用: 2]
Reduction of instrument-dependent noise in hyperspectral image data using the principal component analysis:Applications to Galileo NIMS data
[J].DOI:10.1016/j.pss.2007.11.021 URL [本文引用: 1]
GA-Fisher:A new LDA-based face recognition algorithm with selection of principal components
[J].DOI:10.1109/TSMCB.2005.850175 URL [本文引用: 1]
Feature extraction combining PCA and immune clonal selection for hyperspectral remote sensing image classification
[C].
空间统计学研究应用综述
[C]//
Review of spatial statistics research applications
[C]//
Spatial variability of soil heavy metals at different sampling scales
[J].
基于多尺度分割的高分遥感图像变异函数纹理提取和分类
[J].
Variogram texture extraction and classification of high resolution remote sensing images based on multi-resolution segmentation
[J].
基于PCA和SVM的高光谱遥感图像分类研究
[J].
Study on the hyperspectral remote sensed image classify based on PCA and SVM
[J].
基于多尺度超像素的高光谱图像分类研究
[J].
Hyperspectral image classification based on multiscale superpixels
[J].
Fitting variogram models by weighted least squares
[J].
/
〈 |
|
〉 |
