基于高光谱数据和RBF神经网络方法的草地叶面积指数反演
包刚1,2,3, 覃志豪3, 周义3, 包玉海2, 辛晓平1, 红雨4, 海全胜5
1.呼伦贝尔草原生态系统国家野外科学观测研究站,北京 100081
2.内蒙古师范大学内蒙古自治区遥感与地理信息系统重点实验室,呼和浩特 010022
3.南京大学国际地球系统科学研究所,南京 210093
4.内蒙古师范大学生命科学与技术学院,呼和浩特 010022
5.包头师范学院,包头 014030
包玉海(1964-),男,教授,硕士生导师,主要从事土地利用/土地覆盖及遥感应用研究。E-mail: baoyuhai@imnu.edu.cn

第一作者简介: 包 刚(1978-),男,博士研究生,现工作于内蒙古师范大学内蒙古自治区遥感与地理信息系统重点实验室,主要从事遥感与地理信息系统应用研究。E-mail: baogang@imnu.edu.cn

摘要

基于中国农业科学院在呼伦贝尔草原实测的120组草地冠层光谱反射率及相应的叶面积指数(LAI)数据,在进行主成分分析(PCA)实现降维处理的基础上,利用径向基函数(radial basis function,RBF)神经网络方法对草地LAI进行了高光谱反演研究。PCA结果表明,前9个主成分的累积贡献率达到了99.782%,能包含原光谱数据的绝大部分信息。将120组LAI及相应的9个主成分样本数据随机分为校正集数据(90组)和预测集数据(30组),分别用于神经网络模型的建立和LAI的预测。所构建的神经网络模型的模拟结果表明,RBF神经网络模型对校正集样本的模拟准确率达到100%( RMSE=0 .009 6, R2=0.999); 预测集样本的实测LAI和模拟LAI之间的均方误差和决定系数分别为0.218 6和0.839,取得了较好的模拟效果,有效提高了传统的多元线性回归方程( RMSE=0.416 5,R2=0.570)的计算精度。

关键词: 高光谱数据; RBF神经网络; 草地叶面积指数; 反演
中图分类号:TP751.1 文献标志码:A 文章编号:1001-070X(2012)02-0007-05 doi: 10.6046/gtzyyg.2012.02.02
The Application of Hyper-spectral Data and RBF Neural Network Method to Retrieval of Leaf Area Index of Grassland
BAO Gang1,2,3, QIN Zhi-hao3, ZHOU Yi3, BAO Yu-hai2, XIN Xiao-ping1, HONG Yu4, HAI Quan-sheng5
1.Hulunber Grassland Ecosystem Observation and Research Station, Beijing 100081, China
2.Inner Mongolia Key Laboratory of Remote Sensing and Geographic Information System,Inner Mongolia Normal University, Huhehot 010022, China
3.International Institute for Earth System Science, Nanjing University, Nanjing 210093, China
4.College of Life Science and Technology, Inner Mongolia Normal University, Huhehot 010022, China
5.Baotou Normal University, Baotou 014030, China
Abstract

In accordance with the 120 sites of grassland canopy spectral reflectance and the leaf area index (LAI) data collected by Chinese Academy of Agricultural Science,the method of Radial Basis Function (RBF) neural network was developed for the prediction of LAI after the compression of spectral reflectance using principal component analysis (PCA).The PCA results show that the cumulative reliability of the first 9 PCs is up to 99.782%,covering the majority of original spectral information. The 120 sites of LAI and 9 PC samples were classified randomly for training dataset (90 sites) and predicting dataset (30 sites),and were used to establish the neural network and predict the LAI, respectively. The results show that the accuracy rate of training data is up to 100% ( RMSE=0 .009 6, R2=0.999).The root mean square error ( RMSE) and correlation coefficient ( R2) for the prediction dataset are 0.839 and 0.218 6 respectivdg, thus achieving more preferable results and improved the accuracy ( RMSE=0 .416 5, R2=0.570)of the traditional multiple linear regression method.

Keyword: hyper-spectral data; RBF neural network; LAI of grassland; retrieval ication.
0 引言

叶面积指数(leaf area index, LAI)为单位面积中表现出的最大叶面积[1]。作为陆面过程系统模拟的一个重要参数, LAI不仅直接表征着地表植被生长状况, 而且与蒸腾作用、光合作用、呼吸作用、太阳光和水分的截取、地表净初级生产力以及能量交换等密切相关[2], 是决定生物量和产量的关键因子, 因而一直是遥感估测生物物理参量的焦点。对于植被冠层结构, LAI可以直接给出量化指标, 因此被作为重要输入参数应用到其他诸多研究中。吴彤等[3]在LAI和地面高光谱特征参数之间建立了回归方程, 并在此基础上开展了东亚飞蝗高光谱遥感监测的研究; 赵巧丽[4]、马勤建[5]及王登伟[6]等分别用LAI作为模型输入参数估算了玉米干物重和棉花产量; Moran等[7, 8]则进行了利用LAI估算区域地表蒸散量的研究。因此, 以更高的精度准确估算LAI, 不仅可为植被信息遥感定量化研究提供参考, 而且对光合有效辐射、作物产量和蒸散发量等各种参数的精确反演和病虫害监测具有十分重要的意义。

本文通过获取草地冠层高光谱反射率与相应的LAI数据, 利用主成分分析(principal component analysis, PCA)法对高光谱数据进行降维处理, 分别运用多元线性回归和径向基函数(radial basis function, RBF)神经网络方法分析了草地冠层LAI与9个主成分之间的关系, 对比研究这两种方法的计算效率和估算精度, 进而选择相对较优的RBF神经网络方法反演了草地LAI。该试验旨在实现草地LAI的高光谱遥感监测以及提高LAI的计算精度。

1 试验区与数据源
1.1 试验区自然概况

试验区位于内蒙古自治区东部呼伦贝尔市谢尔塔拉牧场(中心地理坐标E 120° 03', N 49° 19', 海拔628 m)的中国农业科学院呼伦贝尔草原生态系统国家野外科学观测研究站, 地处东部季风区和西北干旱区的交汇处, 属大陆性干旱气候。年平均气温-3~-1℃, 1月份最低温度可达-45℃, 年积温在1 780~2 200℃之间; 年降水量250~520 mm(主要集中在6~8月), 无霜期100~110 d; 土壤以栗钙土、暗栗钙土为主, 植被从东到西随降水梯度由半湿润气候的森林草原带逐渐过度到半干旱气候的典型草原带。植被从4月末开始返青, 7月份(野外数据采集月份)达到生长旺盛时期, 其地上生产力较高, 为1.3~2.0 t/hm2

1.2 测量仪器及测定方法

1.2.1 光谱数据采集及预处理

试验于2010年7月13~20日分别在中国农业科学院呼伦贝尔草原生态系统国家野外科学观测研究站的谢尔塔拉六队羊草草甸草原样地、特尼河十一队线叶菊草甸草原样地、谢尔塔拉十二队羊草草甸草原样地和谢尔塔拉十二队撂荒地恢复样地4个样地内进行。每个样地内布设30个1 m× 1 m的样方, 每个样方内测定5条冠层光谱反射率曲线, 取其平均值作为该样方的最终光谱反射率, 共获得了120组有效光谱反射率数据。测量时传感器探头在冠层上方垂直向下, 距冠层垂直高度约1 m左右, 每次测量前均用白板对光谱仪进行定标。测定时间一般选择晴天10:00~14:00之间。

光谱测量使用美国ASD公司设计制造的FieldSpecR○HandHeld高便携性地物波谱仪, 可在350~1 100 nm波长范围内进行连续测量(采样间隔约为1.5 nm), 适用于从农作物监测、森林和草地研究到海洋学研究、矿物勘察等各方面。

使用光谱采集软件包RS3对光谱数据进行均值计算、数据导出等预处理。

1.2.2 LAI采集

采用美国LI-COR公司生产的LAI-2000冠层分析仪测量草地冠层叶面积指数, 该仪器使用的敏感波段设计在320~490 nm之间, 通过辐射转移模型用观测数据来推算LAI。观测时首先将探头水平放置于冠层上方, 按下测定按钮, 听到两声蜂鸣后将探头放入植被群落内地面上, 在保持水平的情况下, 按下测定按钮; 再次听到两声蜂鸣后将探头移动到群落内地面不同位置, 重复测量5次后仪器自动测定出样方的LAI。测定时间选择在清晨6:30~9:00或下午16:30~19:00之间, 以尽可能地避免或降低由太阳光直射引起的误差。每个测试点的选择在与光谱采集对应的样方内进行, 以保证光谱反射率和LAI数据之间的一一对应关系。

2 研究方法
2.1 RBF神经网络

径向基函数神经网络是一种以函数逼近理论为基础, 由输入层、隐含层和输出层构成的3层前向网络结构。其中隐含层一般采用高斯函数作为激励函数, 将其每个神经元与输入层相连的权值向量w1ji和第q个输入矢量 xqj之间的距离乘上阈值bi作为本身的输入。隐含层第i个神经元的输入 kiq由公式(1)计算, 即

kiq= j(w1ji-xqj)2· bi, (1)

式中, j表示神经元个数。

利用径向基函数的阈值bi调节函数的灵敏度, 但实际工作中阈值bi常用另一参数Ci(称为扩展常数)来代替, 在矩阵实验室(matrix laboratory, MATLAB)神经网络工具箱中, biCi的关系被定义为bi=0.832 6/Ci。将隐含层输入 kiq带入其激励函数(高斯函数)后可得到隐含层输出 riq, 即

rqi=exp[-( kiq)2]=exp( j(w1ji-xqj)2×0.8326Ci)。(2)

由此可见, Ci值的大小直接反映输出对输入的响应程度[9], 其值越大, 隐含层神经元对输入矢量的响应范围就越大, 且神经元之间的平滑度也较好。输出层的输入为各隐含层神经元输出的加权求和。由于激励函数为纯线性函数, 因此最终输出yq

yq= i=1n( rqi-w2i), (3)

式中, w2i为连接隐含层和输出层的权值向量。

理论上已证明RBF网络是实现映射功能最优的前向传播网络, 其构建的模型具有良好的推广能力[10]。与误差反向后传(back propagation, BP)神经网络相比, RBF网络结构简单、学习速度较快, 且网络的函数逼近能力、模式识别和分类能力都优于BP网络[11, 12]

2.2 模型性能评价

通过对比决定系数(R2)、均方根误差(RMSE)来评价模型的准确性。决定系数越高, 均方根误差越小, 说明模型的模拟能力越强。

3 结果与分析
3.1 光谱数据PCA

高光谱遥感数据存在信息量大、信息相关性强以及信息冗余等问题, 为数据分析和处理带来了很多不便。因此, 实现降维处理的同时又尽可能保留地物原有信息是高光谱数据应用的关键之一。PCA法是目前应用较广泛的高光谱数据降维处理方法。本试验所采用的光谱仪波段范围为350~1 100 nm, 共有750个波段数据, 形成了120(样本)× 750的数据矩阵。该数据经过PCA处理后, 前9个主成分的累计贡献率达到了99.782%(表1), 将原120× 750的数据矩阵降低到120× 9的数据矩阵, 在部分地消除土壤背景或其他噪声影响的同时, 保留了原光谱数据绝大部分的特征信息。

表1 各主成分及其累计贡献率 Tab.1 PCs and its reliabilities
3.2 RBF神经网络构建及LAI反演

RBF神经网络算法因其结构简单、训练过程快速及在数据拟合与分类中良好的预测性和实用性而广泛应用于诸多领域。本文对高光谱数据进行PCA处理后, 将得到的9个主成分作为RBF神经网络的输入矢量来预测LAI的变化(即输入层为9个节点, 隐含层为9个节点, 输出层每个节点对应1个LAI)。由RBF神经网络计算原理可知, 在训练RBF网络时, 确定扩展常数(spread)和目标误差(goal)最为关键。本研究将网络目标误差预先设定为Goal=[0.01, 0.02, 0.03, 0.04, 0.05, 0.06, 0.07, 0.08, 0.09, 0.001]共10个层次, 扩展常数设计为Spread=[1∶ 0.3∶ 10], 即步长为0.3的1~10范围内共31个层次。再利用MATLAB 7.0软件中的随机排列函数randperm(n)对120组样本数据进行随机排列, 随机挑选出90个样本作为校正集, 其余30个样本作为预测集。通过双重循环反复训练网络, 输出对应于预测集数据的31× 10个RMSE值, 选择最小RMSE值所对应的样本最优排列、扩展常数和目标误差。最终确定的扩展常数和目标误差分别为1.3和0.01。

网络参数优化确定之后, 采用该模型分别预测LAI的校正集和预测集样本, 结果如图1所示。

图1 实测LAI与RBF神经网络模拟LAI的关系Fig.1 Relationship between measured LAI and simulated LAI by RBF-NN

图1(a)可以看出, 模型校正集的均方误差和决定系数分别为0.009 6和0.999, 预测准确度达到了100%。预测集的实测LAI和模拟LAI之间均方误差和决定系数分别为0.218 6和0.839, 如图1(b)所示, 模型预测值能准确地逼近实测值, 取得了较好的模拟效果。

3.3 与多元线性回归方法的比较

在统计产品与服务解决方案(statistical product and service solutions, SPSS)软件环境下, 利用上述神经网络的校正集数据建立了LAI与9个主成分PCi(i=1, 2, …, 9)之间的多元线性回归方程, 即

LAI=1.195-0.077PC1-0.174PC2-0.125PC3+0.377PC4-0.027PC5-0.12PC6+

0.019PC7-0.178PC8+0.021PC9。(4)

多元线性回归方程的决定系数R2为0.597, F检验值为12.540, 统计显著性Sig值为0.000(模型处于极显著水平), RMSE为0.439 1(图2(a))。同样利用上式对神经网络预测集样本进行了LAI估算, 其计算结果与实测值之间的均方误差和决定系数分别为0.416 5和0.570(图2(b))。

图2 实测LAI与多元线性回归方程模拟LAI的关系Fig.2 Relationship between measured LAI and simulated LAI by multiple linear regression

对比图1图2可以看出, RBF神经网络方法模拟LAI的效果明显优于多元线性回归方法。

4 结论

1)大量的研究结果表明, 植被的生物物理、化学参量与光谱反射率之间的关系是非线性的[13, 14]。而神经网络方法对复杂且非线性问题的拟合有着无可比拟的优势, 因此在分类、模式识别和函数逼近等多种非线性系统的定量预测中脱颖而出, 成为当前解决非线性问题的一种重要手段。

2)本文运用径向基函数(RBF)神经网络方法建立了基于高光谱数据反演草地叶面积指数(LAI)的神经网络模型, 并对其模拟结果与传统的多元线性回归模型进行了对比研究。结果表明, 神经网络方法在LAI预测中决定系数(R2)提高了0.269, 而均方误差(RMSE)减少了0.197 9, 明显优于多元线性回归方法, 能有效提高LAI的计算精度。

3)在基于冠层内部电磁辐射传输过程的理论模型或其他数据同化等方法的LAI反演中引入神经网络算法, 将会有利于优化模型输入参数, 进而提高LAI的反演精度。

The authors have declared that no competing interests exist.

参考文献
[1] 蒙继华, 吴炳方, 李强子. 全国农作物叶面积指数遥感估算方法[J]. 农业工程学报, 2007, 23(2): 160-167. [本文引用:1]
[2] Chen J M, Cihlar J. Retrieving Leaf Area Index of Boreal Conifer Forests Using Land sat TM Images[J]. Remote Sensing of Environment, 1996, 55(2): 153-162. [本文引用:1]
[3] 吴彤, 倪绍祥, 李云梅, . 基于地面高光谱数据的东亚飞蝗危害程度监测[J]. 遥感学报, 2007, 11(1): 104-108. [本文引用:1]
[4] 赵巧丽, 郑国清, 段韶芬, . 基于冠层反射光谱的玉米LAI和地上干物重估测研究[J]. 华北农学报, 2008, 23(1): 219-222. [本文引用:1]
[5] 马勤建, 王登伟, 黄春燕, . 棉花叶面积指数和地上干物质积累量的高光谱估算模型研究[J]. 棉花学报, 2008, 20(3): 217-222. [本文引用:1]
[6] 王登伟, 赵鹏举, 黄春燕, . 基于棉花冠层FPAR的LAI和地面上鲜生物量估算研究[J]. 西北农林科技大学学报: 自然科学版, 2009, 37(3): 114-118. [本文引用:1]
[7] Moran M S, Clarke T R, Inoue Y, et al. Estimating Crop Water Deficit Using the Relation Between Surface-air Temperature and Spectral Vegetation Index[J]. Remote Sensing of Environment, 1994, 49(3): 246-263. [本文引用:1]
[8] Moran M S, Mass S J, Pinter P J Tr. Combining Remote Sensing and Modeling for Estimating Surface Evaporation and Biomass Production[J]. Remote Sensing Review, 1995, 12(3-4): 335-353. [本文引用:1]
[9] 飞思科技产品研发中心. 神经网络理论与MATLAB7实现[M]. 北京: 电子工业出版社, 2006: 116-130. [本文引用:1]
[10] Hummels D M, Ahemed W, Musavi M T. Adaptive Detection of Small Sinusoidal Signals in Non-gaussian Noise Using an RBF Neural Network[J]. IEEE Trans on Neural Networks, 1995, 6(1): 214-219. [本文引用:1]
[11] 许东, 吴铮. 基于MATLAB 6 x的系统分析与设计——神经网络[M]. 2版. 西安: 电子科技大学出版社, 2002. [本文引用:1]
[12] 单杨, 朱向荣, 许青松, . 近红外光谱结合小波变换-径向基神经网络用于奶粉蛋白质与脂肪含量的测定[J]. 红外与毫米波学报, 2010, 29(2): 129-131. [本文引用:1]
[13] Kokaly R F, Clark R N. Spectroscopic Determination of Leaf Biochemistry Using Band -depth Analysis of Absorption Features and Stepwise Multiple Linear Regression[J]. Remote Sensing of Environment, 1999, 67(3): 267-287. [本文引用:1]
[14] Curran P J, Dungan J L, Peterson D L. Estimating the Foliar Biochemical Concentration of Leaves with Reflectance Spectrometry: Testing the Kokaly and Clark Methodologies[J]. Remote Sensing of Environment, 2001, 76(3): 349-359. [本文引用:1]