基于线性表示的高光谱影像波段选择算法
董安国, 龚文娟, 韩雪
长安大学理学院,西安 710064
通信作者: 龚文娟(1987-),女,硕士研究生,主要从事数字图像处理方向研究。Email: gngwenjuan0919@163.com

第一作者: 董安国(1964-),男,教授,硕士生导师,主要从事数值代数及数字图像处理研究。Email: donganguo@chd.edu.cn

摘要

为了去除高光谱影像的数据冗余,提高高光谱影像处理的精度和效率,提出了一种基于线性表示的高光谱影像波段选择算法。针对每一个波段,建立与其他波段的线性表示关系,依据复相关系数确定相关程度最高的波段,将其作为冗余波段去除; 对剩余波段重复上述过程,得到最小波段集; 并证明了利用该波段集和全波段所选的端元是一致的,在不影响端元提取的前提下,最大程度地去除了冗余波段。通过2组实验结果证明了该波段选择算法的可行性和有效性。

关键词: 高光谱影像; 线性表示; 波段选择; 复相关系数算法
中图分类号:TP79 文献标志码:A 文章编号:1001-070X(2017)04-0039-04
Band selection method for hyperspectral image based on linear representation
DONG Anguo, GONG Wenjuan, HAN Xue
School of Science, Chang’an University, Xi’an 710064, China
Abstract

In order to remove the data redundancy of hyperspectral image and improve the accuracy and efficiency of hyperspectral image processing, this paper proposes a band selection method based on linear representation of hyperspectral image. A linear relationship is established for a band with the other bands, and the most relevant band is removed as a redundant band which is determined based on the multiple correlation coefficient. The set of minimum bands is finally obtained by repeating the above process for the remaining bands. It is proved that the set of selected endmembers by using the above bands is consistent with the set selected by using all bands, and the redundancy bands are removed to the greatest extent without affecting the endmember extraction. The experimental results show that the band selection algorithm in the paper is feasible and effective.

Keyword: hyperspectral images; linear representation; band selection; multiple correlation coefficient algorithm
0 引言

随着高光谱遥感技术的发展, 高光谱传感器可以同时捕捉从可见光到红外范围的数百个波段, 高光谱图像丰富的波段信息为地物分类和目标识别提供了数据支持, 同时, 其海量数据和信息冗余也给计算带来了困难。为了提高计算效率和精度, 需要在不损失信息的情况下尽可能降低数据的维数。其主要方法有特征提取[1]和波段选择2种。特征提取是利用线性或非线性变换来降低数据的维数, 将原始的高维数据变换到一个新的低维空间, 如主成分分析法[2]和Fisher线性判别分析[3]等, 但是由于数据变换, 使得降维后的数据在物理属性上发生了变化; 而波段选择作为一种高光谱数据的预处理技术, 从高光谱图像的上百个波段中, 去除部分信息冗余波段, 选择出能充分代表原始图像信息的波段子集, 在保持数据信息不受损失的前提下去除部分波段, 降维后的数据仍保持了原始数据的物理属性。

常见的波段选择算法有: ①基于信息量的算法, 如基于加强的快速密度峰值的聚类算法[4]、基于三元互信息的波段选择算法[5]、基于互信息的子空间检测算法[6]、典型性成分分析[7]和粗糙集理论算法[8] 等, 这类算法通常先根据各个波段的信息进行排序, 选出排序靠前的一些波段, 虽然简单易行, 但容易选出连续波段; ②基于搜索的算法, 如灰狼优化算法[9]、快速体积梯度算法[10]、改进的萤火虫算法[11]、列子集选择算法[12]、克隆选择算法[13]和基于正交投影散度的算法[14] 等, 这类算法虽然可以解决波段选择过程中波段组合数目多、遍历难的问题, 但算法相对复杂, 通常需要的搜索时间较长, 而且会存在收敛速度问题。

目前大部分的波段选择算法都是基于聚类的思想, 根据两两波段的相似关系进行聚类, 进而去除每个类中的部分波段, 但并未对多个波段间的线性表示关系进行有效地刻画和利用。鉴于这一思想, 提出一种新的基于线性表示的波段选择算法。该算法针对每一个波段, 建立与其他波段的线性表示关系, 依据复相关系数的大小剔除冗余波段, 得到最小波段集。

1 算法理论
1.1 理论基础

假设高光谱图像中的像元数为N, 端元数目为s, 波段数为L, 正整数集合Ψ 1={1, 2, …, N}, Ψ 2={1, 2, …, s}, Ψ 3={1, 2, …, L}。第i个像元的高光谱向量为ai(iΨ 1), 记向量组α =(α 1, α 2, …, α N)。在理想情形下, 根据线性表示理论, α 中一定存在若干个线性无关的向量 αk1, αk2, …, αks, 使得α 中的每一个向量均可由 αk1, αk2, …, αks线性表示。

设向量α i=(α 1i, α 2i, …, α Li)T, 其中iΨ 1, 则

α = α11α12α1Nα21α22α2NαL1αL2αLN, (1)

记其行向量组为 X1T, X2T, …, XLT, 列向量组为α 1, α 2, …, α N, 若Xt可由{Xk }kΨ3-{t}(tΨ 3)线性表示, 且

αk=λ1αk1+λ2αk2++λsαks, (2)

则线性方程组

x1αk1+x2αk2++xsαks=αk, (3)

有唯一解, 该方程组增广矩阵的第t行可由其他行线性表示, 所以从方程组中去掉第t个方程后与原方程是同解方程, 故可得式(2)( αk1, αk2, …, αks线性无关)的充分必要条件是

α~k=λ1α~k1+λ2α~k2++λsα~ks, (4)

式中 α~kα k(kΨ 1)去掉第t个分量得到的向量。

由此可进一步得出, 若Xi(iΨ 4Ψ 3)为X1, X2, …, XL的极大线性无关组, 则式(2)的充分必要条件是式(4), 其中 α~kα k(kΨ 1)只保留下标集Ψ 4中的分量得到的向量。

由上述推论可知, 当一像元向量可以由若干个线性不相关的其他像元向量线性表示时, 删除可被其他波段向量线性表示的波段后, 每个像元与其他像元之间的线性表示关系不变, 故波段选择可以转化为求矩阵行的极大线性无关组。

1.2 评价指标

复相关系数是反映一个因变量与一组自变量之间相关程度的指标, 其值越大, 变量之间的线性相关程度越密切, 可以用来判断某向量是否能被其他向量近似线性表示。设线性回归模型为

y=x1β1+x2β2++xpβp+ε, (5)

式中: 响应变量y的观测值为(y1, y2, …, yn)T; xi的观测值为(xi1, xi2, …, xin)T(i=1, 2, …, p); ε 为随机误差向量。利用最小二乘法可得

β=(β1, β2, , βp)T=(xTx)-1xTy。 (6)

yx之间的复相关系数R(0≤ R≤ 1)的计算公式为

R=1-i=1n(yi-y^i)2i=1n(yi-y̅)2, (7)

y^i=x1iβ1+x2iβ2++xpiβp, (8)

y̅=1ni=1nyi。 (9)

由1.1节理论基础可知, 采用复相关系数进行高光谱波段选择, 在去掉若干波段后, 剩余的波段仍能代表原始高光谱波段的信息。

2 波段选择算法
2.1 算法流程

计算Xi与{Xk }kΨ3-{i}之间的Ri(iΨ 3); 若Ri0= maxiΨ3(Ri), 且Ri0> α (α 为阈值), 则表明Xi0可以被其他向量近似线性表示, 将该向量对应的波段去除; 依次对剩余波段重复上述过程, 直到不能去除为止。

算法的具体步骤如下:

1)输入高光谱图像数据A(其中每个行向量代表一个对应波段)、集合S=Ψ 3和阈值α

2)对所有iS, 计算Xi与{Xk}kS-{i}Ri

3)获取Ri0= maxiS(Ri), 如果Ri0> α , S=S-{i0}, 转第2步; 否则, 输出S作为波段选择结果集, 算法结束。

2.2 算法优化

Xi与{Xk }kΨ3-{i}的线性表达系数为β (i), 则

β (i)=( X(i)TX(i))-1 X(i)TXi , (10)

式中X(i)表示从X=(X1, X2, …, XL)中删除第i列得到的矩阵。对不同的i, jΨ 3, 矩阵X(i)X(j)只有一列不同, 导致求Ri(iΨ 3)时, 存在大量重复计算, 为了简化计算, 进行算法优化。

设矩阵B=(bk, j)L× L=XTX, 则对任意iΨ 3, C(i)=( ck, j(i))(L-1)× (L-1)= X(i)TX(i), bk, j= XkTXj, ck, j=(X(i) )kT(X(i))j, 其中, (X(i))k表示矩阵X(i)的第k列, 由X(i)的定义, 当k< i时, (X(i))k=Xk, 当ki时, (X(i))k=Xk+1。从而有

ck, j=bk, j  k, j< ibk+1, j ki, j< ibk, j+1 k< i, jibk+1, j+1 ki, ji, (11)

进而可以得出, 矩阵 X(i)TX(i)B划去第i行第i列得到的子矩阵。由B=(bk, j)L× L=XTX, 可知bk, j= XkTXj, B的第i列为XTXi, 即

XTXi=(b1, i, b2, i, …, bi, i, …, bL, i)T , (12)

X(i)TXi=(b1, i, b2, i, …, bi-1, i, bi+1, i, …, bL, i)T 。 (13)

依据以上结论, 原算法第1步后先进行优化, 即:

1) X=AT, B=XTX

2) 对iS, 划去B的第i行第i列得到的子矩阵C(i), 并记

D(i)=(b1, i, b2, i, …, bi-1, i, bi+1, i, …, bL, i)T , (14)

计算

β (i)=(C(i))-1D(i) , (15)

由公式(7)计算Xi与{Xk}kS-{i}Ri, 转原算法第3步。

通过优化可知, 计算工作量主要集中在第1步, 整个迭代过程没有出现重复计算。

3 实验结果与分析

为了验证本文算法的有效性, 分别采用一组具体数字和美国内华达州Cuprite地区的AVIRIS数据进行实验, 并在全波段和利用本文算法选出的波段下分别提取端元, 分析提取效果。

3.1 实验1

给定5个互不相关的100维向量作为端元, 分别用α 1, α 2, α 3, α 4, α 5来表示, 随机产生10 000组归一化的非负系数(每组5个), 每组系数作为α 1, α 2, α 3, α 4, α 5的组合系数合成10 000个向量。将包括α 1, α 2, α 3, α 4, α 5在内的10 005个向量视作具有100个波段的高光谱向量(属理想情形), 用本文算法进行波段选择, 取α =0.995阈值时, 所选择的波段数目为5。采用文献[15]中的端元提取方法对本文算法所选的5个波段进行端元提取实验, 得到的端元恰好是α 1, α 2, α 3, α 4, α 5

在上述10 000个向量中, 附加高斯噪声(属非理想情形), 采用本文算法进行波段选择, 阈值α =0.95, 所选择的波段数目仍为5。采用文献[15]中方法提取得到的端元也仍为α 1, α 2, α 3, α 4, α 5

为了使实验更具有普适性, 再分别给定8和12个互不相关的100维向量作为端元, 并分别用m1, m2, …, m8n1, n2, …, n12来表示, 重复进行上述实验, 实验结果如表1所示。

表1 端元提取结果 Tab.1 Results of endmember extraction

表1可以看出, 在理想和非理想情况下, 用文献[15]中的端元提取方法在全波段下和采用本文算法所选波段下提取出的端元是一致的, 从而验证了本文算法的准确性和有效性。

3.2 实验2

Cuprite地区AVIRIS原始数据共有224个光谱波段, 光谱分辨率为10 nm。本文删除了噪声较大和光谱吸收较大的波段, 选择172— 221光谱区间的50个波段用于算法测试。在实验中, 取阈值α =0.995, 所选择的波段数目为20, 并采用文献[15]中端元提取方法, 分别基于全波段及本文算法所选波段提取端元, 最终确定对应的矿物类型。

由图1对比可以看出, 2种波段范围选择的端元位置是一致的, 即在本文算法所选波段与全波段下提取出的端元是相同的。图中的9个端元位置坐标分别为: (2, 374), (58, 202), (174, 588), (233, 437), (262, 459), (276, 180), (392, 152), (433, 75)和(495, 159)。将所选择端元进行丰度分解, 便可确定出各端元所对应的矿物类型。由本文算法选出的少量波段与全波段提取的端元相同, 不仅减少了计算量, 还达到了较好的应用效果, 证明了该算法的可行性与有效性, 为后续工作的开展提供了帮助。

图1 端元位置Fig.1 Location of the endelement

4 结论

基于线性表示提出了一种新的高光谱影像波段选择算法, 该算法利用复相关系数进行波段选择, 并对算法进行了优化, 克服了以往算法仅仅计算两两波段间相关性的不足, 而从整体上考虑波段间的相关性, 简化了计算量的同时, 起到了降噪的目的。实验结果表明了该算法在波段选择中的可行性与有效性, 并且具有普适性。该算法为后续高光谱影像的地物识别提供了一种技术支持。

The authors have declared that no competing interests exist.

参考文献
[1] Jia X P, Kuo B C, Crawford M M. Feature mining for hyperspectral image classification[J]. Proceedings of the IEEE, 2013, 101(3): 676-697. [本文引用:1]
[2] Agarwal A, El-Ghazawi T, El-Askary H, et al. Efficient hierarchical-PCA dimension reduction for hyperspectral imagery[C]//Proceedings of 2007 IEEE international symposium on signal processing and information technology. Giza: IEEE, 2007: 353-356. [本文引用:1]
[3] Lei W, Prasad S, Fowler J E, et al. Locality-preserving dimensionality reduction and classification for hyperspectral image analysis[J]. IEEE Transactions on Geoscience and Remote Sensing, 2012, 50(4): 1185-1198. [本文引用:1]
[4] Jia S, Tang G H, Zhu J S, et al. A novel ranking-based clustering approach for hyperspectral band selection[J]. IEEE Transactions on Geoscience and Remote Sensing, 2016, 54(1): 88-102. [本文引用:1]
[5] Feng J, Jiao L C, Zhang X R, et al. Hyperspectral band selection based on trivariate mutual information and clonal selection[J]. IEEE Transactions on Geoscience and Remote Sensing, 2014, 52(7): 4092-4105. [本文引用:1]
[6] Hossain M A, Jia X P, Pickering M. Subspace detection using a mutual information measure for hyperspectral image classification[J]. IEEE Geoscience Remote Sensing Letters, 2014, 11(2): 424-428. [本文引用:1]
[7] Sun K, Geng X R, Ji L Y. Exemplar component analysis: A fast band selection method for hyperspectral imagery[J]. IEEE Geoscience Remote Sensing Letters, 2015, 12(5): 998-1002. [本文引用:1]
[8] Patra S, Modi P, Bruzzone L. Hyperspectral band selection based on rough set[J]. IEEE Transactions on Geoscience and Remote Sensing, 2015, 53(10): 5495-5503. [本文引用:1]
[9] Medjahed S A, Saadi T A, Benyettou A, et al. Gray Wolf Optimizer for hyperspectral band selection[J]. Applied Soft Computing, 2016, 40: 178-186. [本文引用:1]
[10] Geng X R, Sun K, Ji L Y, et al. A fast volume-gradient-based band selection method for hyperspectral image[J]. IEEE Transactions on Geoscience and Remote Sensing, 2014, 52(11): 7111-7119. [本文引用:1]
[11] Su H J, Yong B, Du Q. Hyperspectral band selection using improved firefly algorithm[J]. IEEE Geoscience Remote Sensing Letters, 2016, 13(1): 68-72. [本文引用:1]
[12] Wang C, Gong M G, Zhang M Y, et al. Unsupervised hyperspectral image band selection via column subset selection[J]. IEEE Geoscience Remote Sensing Letters, 2015, 12(7): 1411-1415. [本文引用:1]
[13] Feng J, Jiao L C, Liu F, et al. Mutual-information-based semi-supervised hyperspectral band selection with high discrimination, high information, and low redundancy[J]. IEEE Transactions on Geoscience and Remote Sensing, 2015, 53(5): 2956-2969. [本文引用:1]
[14] 苏红军, 盛业华, He Y, . 基于正交投影散度的高光谱遥感波段选择算法[J]. 光谱学与光谱分析, 2011, 31(5): 1309-1313.
Su H J, Sheng Y H, He Y, et al. Orthogonal projection divergence-based hyperspectral band selection[J]. Spectroscopy and Spectral Analysis, 2011, 31(5): 1309-1313. [本文引用:1]
[15] Gao L R, Gao J W, Li J, et al. Multiple algorithm integration based on ant colony optimization for endmember extraction from hyperspectral imagery[J]. IEEE Journal of Selected Topics in Applied Earth Observations in Remote Sensing, 2015, 8(6): 2569-2582. [本文引用:1]