第一作者简介: 崔林林(1984-),男,在读硕士生,主要从事遥感制图方法与应用方面的研究。E-mail: cuilinlin2010@hotmail.com
为提高土地覆被分类精度,采用非参数权重特征提取(nonparametric weighted feature extraction,NWFE)结合纹理特征的支持向量机(support vector machines,SVM)的分类法,对新疆玛纳斯河流域绿洲区2006年的土地覆被进行分类,并将该方法与主成分分析(principal component analysis, PCA)结合纹理特征的SVM分类、原始波段结合纹理特征的SVM分类进行对比。结果表明,NWFE结合纹理特征的SVM分类结果优于其他2种分类结果,不仅反映了土地覆被分布的整体情况,而且使不同土地覆被类型得到较好的区分,总体分类精度达89.17%。
Land cover classification based on remote sensing image is of significant importance to agriculture, forestry and environment monitoring. Algorithm of remote sensing information retrieval is always an important research topic in this field. This paper made an effort to combine the Nonparametric Weighted Feature Extraction (NWFE) and texture features with the Support Vector Machines (SVM) so as to achieve a higher classification precision. The combined approach was applied to land cover classification of the Manasi River oasis in Xinjiang in 2006, and was compared with approaches of SVM based on Principal Component Analysis (PCA) and texture features and based on original bands and texture features. The results show that the method of SVM combined with NWFE and texture features can capture not only the distribution of land cover but also the difference among land cover types. An overall classification accuracy of 89.17% is obtained, which is better than those of two other classification results.
遥感土地覆被分类是指根据遥感图像中的像元在不同波段的光谱亮度、空间结构特征及其他信息, 按照某种规则或算法进行的土地覆被分类[1]。目前, 应用遥感图像进行土地覆被分类已成为国土资源监测、作物监测及气象灾害监测等方面的核心工作[2], 而分类结果的精度直接影响遥感资料在这些领域的应用[3]。不同地物光谱之间的混淆问题是影响遥感图像分类精度的重要因素之一, 这一问题造成地物类别的错分、误分现象, 导致分类精度降低。因此, 如何提高土地覆被分类精度一直是遥感应用研究的难点和热点之一。
为解决这一问题, 近年来国内外学者研究和发展了很多方法, 其中最常用的是光谱解混及其改进算法。国内还有学者提出了其他方法解决这一问题, 如关泽群等[4]利用地物的集合属性修正分类, 在一定程度上避免了分类中的光谱混淆问题; 钱乐祥等[5]运用归一化光谱混合分析(normalized spectral mixture analysis, NSMA)方法较好地解决了阴影与低反照率地物之间的混淆问题, 提高了城市地表组成估计的精度; 汪闽等[6]着眼于高分辨率遥感图像更加突出的光谱混淆现象, 设计开发了光谱、形状相结合的多精度图像分割算法。但Kuo 等[7]提出的“ 注重局部信息” 的非参数权重特征提取(nonparametric weighted feature extraction, NWFE)算法目前还没有被用于解决覆被分类中的光谱混淆问题。NWFE只用于特征提取, 需要和其他分类算法配合使用。Vapnik等人在20世纪90年代提出的基于统计学习理论的支持向量机(support vector machines, SVM)是一种实现结构风险最小化准则的机器学习方法, 是一种求解模式识别的有效工具, 具有良好的泛化能力和防过度学习能力, 已在未知病毒监测[8]、图像分类[9]、语音识别[10]等诸多领域得到了良好的应用; 而主成分变换[11]则是一种理论成熟和应用广泛的特征提取方法。
本文以新疆玛纳斯河流域绿洲为研究区, 利用NWFE结合纹理特征的SVM方法进行土地覆被分类, 并选择主成分特征提取波段和原始图像作为比较基准, 对NWFE特征提取方法和NWFE结合纹理特征的SVM分类法进行评价。
NWFE的主要思想是对每一个样本赋予不同的权重计算局部均值、定义新的非参数类间和类内离散矩阵以获得更多的特征, 该方法特别强调“ 局部信息的重要性” [7]。非参数类间离散矩阵定义为
Sb=
式中: L为地物类别数;
式中: dist(a, b)是a与b之间的欧几里德距离(如果
Mj(
式中: 用于计算局部均值的权重
综上, 非参数类内离散矩阵定义为
Sw=
最优特征由优化的准则确定, 即
JNWFE=tr(
式中: Sw为非参数类内离散矩阵; Sb为非参数类间离散矩阵。
NWFE方法是一种线性变换, 变换后得到一组新变量, 其中第i个新变量是原始图像矩阵以矩阵
SVM起源于1960年Vapnik等设计的最优超平面, 到1990年结合Kernel学习法演变为非线性识别函数。最优超平面不但要求把类别准确分开, 而且还要求分离间隔最大化。假设由两类别组成的大小为m的训练样本集A={(xi, yj)|x∈ RN, y∈ (± 1), i=1, 2, …, m}。
对于线性情况, 求解最优超平面的问题可以转换为如下二次规划问题, 最优识别函数为
y=sgn(
式中: α 为Lagrange算子; h为分类阈值。
线性不可分时, 需要引入非负的松弛变量ξ i(i=1, 2, …, m)和错分惩罚因子C, 求得的最优识别函数与式(7)相同。而对于非线性的情况, 需将原始特征向量通过非线性函数F(x)映射到高维线性特征空间, 在该高维线性特征空间中构造最优超平面, 并得到最优识别函数
y=sgn[
式中k(xi, xj)=F(xj)· F(xj)被称为核函数。常见的核函数有线性核函数k(xi, x)=xi· x, 多项式核函数k(xi, x)=(xi· x+1)d, 径向基核函数k(xi, x)=exp(-‖ x-xi‖ 2/2σ 2)和Sigmoid核函数k(xi, x)=tanh(α xi· x-b)。
SVM最初是针对两个类别的分类而提出来的, 如何将其推广到多类别分类仍是目前SVM研究的重要内容之一。目前, SVM解决多类别分类问题主要有两个方向[12]: ①通过构造多个SVM二值分类器, 并将它们有机组合起来实现多类分类, 这类分类器有“ 一对一” 、“ 一对多” 和“ 多对多” 分类器; ②在优化公式中同时考虑所有子分类器的参数优化, 通过求解该最优化问题一次性实现多类分类。虽然第二类方法思路简洁, 形式简单, 但是计算复杂程度高、难度大, 所以很少使用。第一类方法最常用且性能较优, 本文就是使用该类方法中的“ 一对一” 组合的SVM分类器。
试验区玛纳斯河流域位于天山北坡的准噶尔盆地南缘, 南起依连哈比尔尕山北坡分水岭, 与和静县毗邻, 北接古尔班通古特沙漠, 与和布克塞尔县、福海县分界, 东起塔西河, 西至巴音沟河, 地理位置处于E85° 01'~86° 32', N43° 27'~45° 21'之间, 总面积约2.29× 104 km2, 地势南高北低。为干旱半干旱地带, 绿洲内部呈典型大陆性气候, 降雨量集中且年季变化大。绿洲区以旱地为主, 主要植被类型为人工植被和天然草场。
采用2005年玛纳斯流域的LUCC数据和2006年7月31日获取的Landsat 5 TM数据[13]进行方法应用试验。试验选所区图像为695行× 843列大小。
遥感数据的预处理包括地形纠正和FLASSH大气校正。利用可变经验参数算法 (variable empirical coefficient algorithm, VECA)[14]进行地形纠正, 采用ENVI 4.7软件中自带的FLASSH大气校正模块完成大气辐射校正, 形成反射率图像。
祁享年[15]的研究结果表明, SVM在实际应用中表现出的性能取决于特征提取的质量和SVM性能两个方面, 而前者是决定分类效果好坏的关键。根据实地调查情况和中国科学院土地资源分类系统, 将试验区土地利用类型分成耕地(C1)、林地(C2)、草地(C3)、水域(C4)、建设用地(C5)和未利用土地(C6)6类。在TM图像上广泛选取了748个训练样本和360个测试样本, 使训练样本和测试样本具有代表性。对试验区TM图像进行NWFE法特征提取和主成分分析(principal component analysis, PCA), NWFE的结果如表1所示。
| 表1 研究区2006年TM图像NWFE特征向量和特征值 Tab.1 NWFE eigenvectors and eigenvalues of TM image in the study area in 2006 |
从两个方面比较NWFE特征波段与PCA 特征波段组合的可分性: ①相同的波段数(NWFE 1— 6, PCA 1— 6); ②方差贡献率相近时的波段数(NWFE 1— 5, PCA 1— 3)。可分性的判定标准是Jeffries-Matusita(JM)距离[16], 这个参数的值在0~2.0之间, 当值大于1.9时说明地物之间可分性较好。按相同波段数和相近累积方差贡献率的波段组合分别计算出JM距离(表2)。
| 表2 NWFE和PCA特征波段组合的JM距离比较 Tab.2 Comparison of the JM distance for NWFE and PCA band combinations |
从表2可以看出, 无论是相同特征波段数的组合还是相近累积方差贡献率的特征波段组合, NWFE对应的波段组合的可分性都优于PCA。虽然NWFE和PCA都是对相同的感兴趣区提取图像信息, 但是所提取的特征波段中包含的信息则有差别。NWFE算法以各类地区对应的感兴趣区为基础, 计算各类地物之间和地物内部各个样本之间的距离, 然后利用类间距离和类内距离的比值作为各类地物间的可分性信息。在这种可分性信息的基础上求出其对应的特征向量, 并进行从大到小排序, 则NWFE的第i个新分量就是原始图像以第i个特征向量的各分量为权重的加权和, 它综合了原始波段的各地物的可分性信息, 所以能很好地反映所感兴趣地物的原有特征。PCA 同样以相同的感兴趣区为基础, 计算感兴趣的总的协方差矩阵, 然后求出对应的特征值和特征向量, 并将特征值和特征向量排序(特征值大小代表方差大小, 方差大小代表信息量大小), 接着将原始图像以各特征向量的每一分量为权重进行加权求和求出各个主成分。其中, 第一主成分包含大部分的综合信息量(方差最大), 其余主成分所含信息量依次迅速减小。
通过上面的分析可知, NWFE强调的是所感兴趣的地物之间的可分性信息, 而PCA强调的是综合信息的机械压缩, 在尽可能不丢失信息的情况下用几个综合变量描述原有变量。所以对于地物之间光谱相似的问题, 利用NWFE算法进行特征提取是一个较好的选择。但从表2可知, 仅仅依靠光谱特征, 地物之间的可分性并不足以满足分类需要。光学遥感图像的信息特征除光谱信息特征外, 还有空间信息特征, 纹理特征就是空间信特征的一种。舒宁[17]指出, 在遥感图像专题信息提取中, 在原始图像光谱信息的基础上加上纹理信息可以使分类的准确性和精度提高; 而Baradld等[18]则认为对于遥感图像来说, 角二阶矩、均一性、相异性和熵等4种纹理特征提取的效果最好。所以, 本文选择NWFE的第一个特征波段的3像元× 3像元窗口生成这4种纹理特征, 并与NWFE的前5个特征波段组合一起用于分类。该组合最小的JM距离是1.959 6, 各个地物类的可分性较好。为了与其比较, 分别用PCA 1— 5(与选择NWFE特征波段相同)、PCA 1— 3(与选择的NWFE特征波段累积方差贡献率相近)和原始波段TM 1— 7与PCA 1的3像元× 3像元窗口生成的同样4种纹理特征组合成特征波段用于SVM分类。
利用SVM分类首先要确定核函数, Roli等[19]的研究表明, 径向基核函数(radial basis function, RBF)核的分类精度一般高于多项式核和Sigmoid核, 线性核的精度最低。而且, 多项式和Sigmoid核函数所需参数比RBF核函数多, 所以本文选择RBF核函数。
Vapnik[20]的研究表明, 核函数的类型与SVM的性能关系不大, 核函数的参数和误差惩罚因子C是影响SVM性能的主要因素; 谢承旺[21]也指出, SVM核函数选择合适的参数对分类器的效果很重要。因此, 在使用SVM进行分类或预测时, 如何确定合适的参数就显得非常重要。RBF核函数需要确定2个参数: 核参数g和惩罚因子C。通常可采用交叉验证算法来确定[22]。经验证明, 以指数增长方式(C=2-5, 2-3, …, 215; g=2-5, 2-3, …, 215)搜索是快速确定C和g参数的比较好的办法。本文选择Libsvm 3.0软件提供的参数选择模型Grid.py来确定C和g的取值。NWFE及其纹理特征组合, PCA 1— 5、PCA 1— 3、原始波段TM1— 7及其纹理特征组合的最佳SVM模型参数分别为C=8, g=2; C=128, g=2; C=2, g=8; C=32, g=0.5。
使用上述最佳参数构建的SVM分类器对研究区4种特征波段组合进行分类, 其结果如图1所示。
从图1可以看出, NWFE 1— 5及纹理特征组合的SVM分类效果最好。为了定量评价分类模式的有效性, 利用混淆矩阵分别对这4个波段组合的SVM分类结果进行评价(表3)。
| 表3 SVM分类混淆矩阵 Tab.3 Confusion matrix of SVM classification |
从分类结果(图1)可以看出, 图1(d)的分类效果最为理想, 而图1(a) 的分类效果不是很理想。图1(d)与其他3个图相比地物类多为面状分布, 而其他3个图中地物分布比较细碎(如图1(c)中对应的E区域)。通过图像对比可以发现, 图1(a), (b), (c)中地物被误分的现象较多, 但总体上看图1(c)分类结果要优于图1(a), (b)。针对前3张图, 以图1(c)中A, B, C, D对应区域为例加以讨论: ①区域A, B中的建设用地被误分为了草地, 这可能由于草地本身就存在于建设用地中的缘故; ②区域C中, 未利用土地被误分为了建设用地, 这主要的原因可能是两者的光谱相似性较高; ③区域D中误把耕地分为植被, 这或许是因为这个区域靠近水库, 地下水位较高导致地表含水量较多, 影响了地物的光谱。当然, 除了D区域外其他3个区域在图1(d)中都得到了很好的区分。从视觉上可知, 基于NWFE结合纹理特征组合的SVM分类结果优于其他3种特征波段组合的SVM分类结果。
从表3中各分类结果混淆矩阵的对比分析可知, NWFE 1— 5及纹理特征的SVM分类结果中各地物类别精度都比较均衡且较高(都大于70%); 而其他3个组合的SVM分类结果的分类精度起伏较大, 且最低精度都小于70%, 特别是PC 1— 3及纹理特征组合的SVM分类结果精度最小的只有58.33%, 不能满足应用要求。TM原始波段及纹理特征组合的SVM分类精度对C1, C2, C3, C4的分类精度都大于等于NWFE 1— 5及纹理特征的SVM分类结果精度, 但对C5, C6的分类精度相对较低, 虽然满足应用需求, 但总体效果比NWFE 1— 5及纹理特征的SVM分类效果差。从总体精度来看, NWFE 1— 5及纹理特征组合的SVM分类结果的总体分类精度与原始波段TM 1— 7及纹理特征组合的SVM分类总体精度相当, 而比PC 1— 3及纹理特征组合和PC 1— 5及纹理特征组合的SVM分类总体精度分别提高提高了9.17%和2.50%。这也说明基于NWFE与纹理特征相结合的SVM分类不但降低了分类波段的维数, 而且取得了很好的分类效果。
试验区中由于水库的存在使得地下水位较高, 再加上气温高蒸发量大使得表土积盐严重, 所以地表作物和植被长势受到影响, 而地表含水量较多又进一步影响了地物的光谱曲线。同时由于图像空间分辨率为30 m, 在地类交界处的像元中可能包含多种类别, 分类是逐像元进行, 其混合像元造成误分。SVM通过引入RBF核函数进行非线性变换将样本非线性地映射到一个更高维的空间, 通过提取地物类别的非线性特征增强了它们之间的线性可分性, 而NWFE又提供了注重局部信息的特征提取方法。通过本次试验可以看出, NWFE结合纹理特征的SVM分类是一种有效的土地覆被分类方法。
1)非参数权重特征提取(NWFE)算法对本次研究的试验区是一种很好的特征提取方法, 与主成分分析(PCA)相比, 能够有效地提高地物类别之间的可分性并压缩数据量。
2)在遥感图像分类中, 充分利用其纹理特征辅助光谱信息进行分类能够增大地物之间的可分性(实验中, 加入纹理信息后地物之间的可分性从JM距离最小为1.568 6提高到JM距离最小为1.959 6)。
3)NWFE结合纹理特征的SVM分类方法用于土地覆被分类是可行的, 并且有较高的分类精度(高达89.17%), 这与TM原始波段结合纹理特征的SVM分类精度持平。
4)NWFE方法与SVM分类方法仍然存在一些问题, 有待一步研究。NWFE方法虽然能提高地物之间的可分性, 但由其原理可知该方法提取的各特征波段之间仍然存在相关性, 这使得各波段之间的可分性信息重合, 由此可知该方法在增强地物可分性上还受到一定限制。如何解决这一问题, 将是今后NWFE方法研究的一个重要方向。随着属性数据特征的增多, SVM核函数参数的确定需要耗费较多时间。如何改进核函数参数的求解方法也将是今后SVM方法的一个研究方向。
The authors have declared that no competing interests exist.
| [1] |
|
| [2] |
|
| [3] |
|
| [4] |
|
| [5] |
|
| [6] |
|
| [7] |
|
| [8] |
|
| [9] |
|
| [10] |
|
| [11] |
|
| [12] |
|
| [13] |
|
| [14] |
|
| [15] |
|
| [16] |
|
| [17] |
|
| [18] |
|
| [19] |
|
| [20] |
|
| [21] |
|
| [22] |
|

