用数值方法模拟观测误差对水质浓度反演模型参数的影响——以叶绿素a浓度为例
陈军1,2, 付军1,2, 孙记红1,2
1.国土资源部海洋油气资源与环境地质重点实验室,青岛 266071
2.青岛海洋地质研究所,青岛 266071

第一作者简介: 陈 军(1982-),男,青岛海洋地质研究所实习研究员,主要研究方向为水环境遥感和地理信息系统。

摘要

在2003年10月27日和28日观测的太湖水质光谱试验数据的支持下,利用数值模拟方法研究了试验数据误差与水质浓度反演模型经验常数之间的关系。研究结果表明,当试验数据误差分别服从正态分布与均匀分布时,反演模型的经验常数随着试验数据误差的增加而呈发散状态。根据试验数据误差与反演精度的关系可知,26.58%的试验误差对应着30%的反演精度,这就意味着在不考虑遥感影像处理所产生误差的前提下,严格控制试验数据误差在26.58%以内,是反演精度打破±30%的技术瓶颈的关键要素之一。

关键词: 水质; 模型参数; 误差; 遥感
中图分类号:TP79 文献标志码:A 文章编号:1001-070X(2011)01-0057-05
The Application of the Numerical Method to Simulating the Impact of the Observation Errors on the Parameters of the Water Quality Retrieval Model:a Case Study of Chloroplyll-a Concentration
CHEN Jun1,2, FU Jun1,2, SUN Ji-hong1,2
1.The Key Laboratory of Marine Hydrocarbon Resources and Environmental Geology, Qingdao 266071, China
2.Qingdao Institute of Marine Geology, Qingdao 266071, China
Abstract

Based on the experimental data collected in the Taihu Lake on October 27 and 28, 2003, the authors utilized the numerical simulation method to study the relationship between the errors of experimental data and the empirical constant of chlorophyll-a concentration retrieval model. The results indicate that, when the errors of experimental data obey normal distribution and uniform distribution respectively, the empirical constant of the retrieval model becomes divergent with the increasing error of the experimental data. In addition, according to the relationship between errors of experimental data and retrieval accuracy, 26.58% experimental errors are corresponding to 30% retrieval accuracy. This means that under the prerequisite that the errors produced during the processing of remote sensing images are not taken into account, the strict control of the errors of experimental data within 26.56% constitutes one of the key elements that break the bottleneck of the retrieval accuracy at ±30%.

Keyword: Water quality; Model’s parameters; Errors; Remote sensing
0 引言

水质浓度遥感反演的主要思路是在稀疏的几个试验站点的光谱数据和水质浓度数据的支持下, 结合“ 生物-光学” 原理, 借助于最小二乘法等模型分析手段, 构建适用于特定区域的“ 生物-光学” 模型, 并利用该模型从遥感影像中提取水质组分浓度的空间分布信息[1]。对于这种“ 以少知多” 的反演模式, 水质组分浓度的代表性和试验数据的精确性将决定所构建反演模型经验常数的可靠性。然而, 受测量方法、天气条件和试验员对操作规范熟练程度等因素的影响, 水体光谱试验存在较大的不确定性。这种不确定性主要表现在: ①水质组分浓度在垂直方向上具有“ 层化效应” , 而光谱仪所获取的离水辐亮度是光学深度范围内水质组分光学特性的综合值, 这将导致试验所提取的水体样本和光谱仪所探测到的光信号之间的不匹配; ②水质试验最大的一个特点是接触性和非接触性测量模式相结合, 当船舶接近试验水区时, 船舶的运动必将导致水质组分浓度在空间上的波动, 进而影响试验的取样精度; ③水质浓度遥感观测的对象受风等自然因素影响较大, 具有极大的时空不稳定性。综上所述, 水质试验数据的这种不确定性将在数据分析和遥感建模过程中被带到反演结果中去, 进而导致遥感获取的水质浓度产品不能客观地反演水质组分的空间分布状况。

在过去的数十年中, 许多学者针对数据误差对遥感产品精度的影响做了大量而有益的探索。Rousseeuw等[2]利用数值计算的方法研究与探讨了数据误差对最小二乘法求解结果的影响。研究结果表明, 当观测数据误差服从正态分布时, 最小二乘法可获得较理想的拟合结果; 而当误差服从“ 非零均值且非正态分布” 时, 该方法便不可靠。Ge等[3]利用实测数据和遥感影像, 研究与探讨了地表参考点的测量误差对几种拟合方法求解几何纠正模型的拟合效果的影响。研究结果表明, 有序最小二乘法和连续可调整的最小二乘法具有较高的拟合精度。陈军等[4]利用误差传递原理, 研究与探讨了遥感反演模型对遥感数据误差的作用机理。研究结果表明, 反演模型对数据误差的改造作用, 将导致反演模型尽管有较好的相关性, 但反演效果并非最优情况的发生。本文则针对水质浓度反演过程, 利用数值模拟的方法, 研究与探讨了水质试验数据误差对水质浓度反演模型经验常数的影响, 旨在进一步认识测量误差对反演精度的影响机理, 对研建高精度水质遥感反演模型具有一定的理论和应用意义。

1 试验区与试验数据

以太湖为研究区域。太湖又名震湖, 位于30° 55'40″~31° 32'58″N, 119° 52'32″~120° 36'10″E之间(图1)。

图1 太湖试验站点分布Fig.1 Sites of experimental stations

太湖水体较浑浊, 叶绿素a和可溶性有机质浓度较高, 年均叶绿素a浓度大约为22.23 μ g/L, 属于典型的Ⅱ 类水体[5]。本文采用2003年10月27日和28日观测的太湖光谱试验数据及其水体叶绿素a浓度数据。光谱试验过程与操作严格遵守NASA的水体光学测量的有关规范[6]。利用ASD公司的FieldSpec地物光谱仪进行光谱测量。该光谱仪的光谱范围为350~1 050 nm, 光谱分辨率3 nm。测量时天空晴朗, 无云遮挡。在光谱测量的同时, 利用尼克森采水器装取水气界面以下30 cm左右处的水, 并利用手持GPS机记录取样点的WGS-84坐标。获取的水样立即放入冷藏箱中, 并于当天下午带回试验室采用传统的荧光法测量获取试验数据[7]。采样点分布与水体反射光谱曲线分别如图1图2所示。

图2 实测光谱曲线Fig.2 Spectral curves of water bodies in the field

2 研究方法
2.1 模型参数的不确定性

假设叶绿素a浓度与遥感参数之间的关系为

Cchla1Cchla2Cchlan=f R1R2Rn+ ε1ε2εn(1)

式中, Cchlai为从第i个试验样本中提取的叶绿素a浓度; Ri为第i个试验样本的遥感参数; f[]为叶绿素a浓度与遥感参数的关系模型, 该模型可以为分析模型、半分析模型和经验模型。本文采用了经验模型(如线性模型、对数模型和指数模型等); ε i为第i个水质样本的叶绿素a浓度与遥感参数的关系误差, 如果关系模型是精确的, 那么ε i主要来自于测量误差。

假设水质关系误差ε 服从一定的分布[8], 即

P{ε X}=g(X, θ , δ )(2)

f(R)=f(R, p1, p2, …, pn)(3)

式中, g()为概率分布函数(本文主要探讨了均匀分布和正态分布两种情况); θ 为分布期望; δ 为分布方差; P{ε X}为当ε 取值小于或等于X时所发生的概率; pi为模型的经验常数。由于测量过程存在不确定性, 导致参与式(1)计算的试验数据具有较大的误差, 进而造成模型经验常数的不准确和反演结果的不可靠。

2.2 随机模拟模型经验常数的不确定度

模型经验常数的不确定性直接关系到遥感反演的精度, 因此, 对模型经验常数不确定性的研究具有一定的理论与应用意义, 而数据误差对模型经验常数的影响是研究与探讨经验常数不确定性的重要环节。通常情况下, 数据误差是服从一定分布的, 且参与模型计算的水体样本容量较大, 进而导致模型经验常数的不确定度难以用常规的数学表达式描述。数值模拟的方法为模型经验常数不确定度的研究提供了一种新的求解方式。本文所采用的数值模拟方法的文字描述如图3

图3 随机模拟流程Fig.3 Flow chart for random simulation processing

(1)参数初始化。初始化随机数生成个数计算器的初始值与阈值、数据误差分布的方差和期望以及概率分布函数(count=0, count< 100 000, δ , ε , F)。

(2)生成随机数。根据步骤(1)给出的概率分布模式, 产生一组随机数, 即每一个试验站点的观测数据对应一个随机数。

(3)计算数据误差。根据步骤(1)给出的概率分布函数, 计算步骤(2)中随机数对应的随机变量, 并以该变量值作为数据误差。

(4)重新计算测量值。对于每一个站点, 实际测量值和步骤(3)计算的数据误差之和作为该站点的新测量值。

(5)计算模型参数。利用最小二乘法求解反演模型的经验常数。

(6)判断随机数的个数是否超过了初始化设定的阈值, 如果是, 则执行下一步; 否则执行步骤(2)。

(7)计算模型参数的期望与方差。计算步骤(1)初始条件下100 000个模型经验常数的期望和方差。

3 实例分析与计算
3.1 叶绿素a浓度遥感反演参数

一般说来, 在0.43~0.7 μ m波长范围, 含叶绿素a的水体具有选择性吸收和散射光谱的特征[9]。在0.43~0.48 μ m光谱段, 水体反射率随着叶绿素a浓度的增加而降低, 并在0.52 μ m附近出现拐点, 即反射率不随叶绿素a浓度而变化; 在0.52~0.66 μ m光谱段, 水体反射率随着叶绿素a浓度的加大而增加; 在0.685 μ m附近, 含叶绿素a的水体有一个明显的荧光峰。这是由于浮游植物分子吸收光后的再发射引起的拉曼效应— — 即进行分子破裂和氧分子生成的光合作用激发出的能量荧光化的结果。

Landsat TM数据具有较高的空间和光谱分辨率和较丰富的数据源, 其在水质遥感领域的应用得到许多学者的认可。根据Dekker等[10]的研究结果可知, TM2波段对叶绿素a浓度变化较敏感, 常被应用于叶绿素a浓度的反演; TM3波段的反射率是叶绿素a、悬浮物和可溶有机物质等多要素光学性质的耦合, 对于悬浮泥沙浓度较高的水体, TM3波段反射率与悬浮泥沙浓度之间存在较高的相关性, 因此TM3波段常被应用于监测悬浮泥沙浓度较高水体的水质状况; 另外, 波段比能有效地剔除波段中的部分耦合效应, 因此TM2/TM3常被应用于叶绿素a浓度的反演[11, 12]。本文以TM2/TM3作为遥感参数, 构建叶绿素a浓度反演模型, 并以此作为2.2节所述算法的计算实例。

本次太湖试验总共采集了25个站点的水体样本, 其中叶绿素a浓度大于123 μ g/L的水体样本共2个。由25个试验点数据构建的叶绿素a浓度反演模型如图4所示。

图4 基于25个站点的叶绿素a反演模型Fig.4 Chlorophyll-a concentration retrieval model based on 25 experimental data

图4可知, 在叶绿素a浓度小于123 μ g/L时, TM2/TM3的比值与叶绿素a浓度之间的相关性较好; 当叶绿素a浓度大于123 μ g/L时, TM2/TM3的比值与叶绿素a浓度之间的相关性较低, 其相关系数仅为0.3。鉴于此, 本文剔除了两个叶绿素a浓度大于123 μ g/L的观测数据, 得到叶绿素a浓度小于123 μ g/L时的遥感反演模型(图5)。

图5 低浓度叶绿素a反演模型Fig.5 Chlorophyll-a concentration retrieval model for low concentration

3.2 误差分布状况与模型经验常数的关系

当数据不存在误差时, 图5所示的低浓度叶绿素a反演模型将是较理想的回归模型。然而, 天气、水质浓度在水平方向和叶绿素a浓度在垂直方向分布的“ 层化效应” 以及试验条件的局限性等多种因素共同导致了水质试验中包含了不确定性, 并且这种不确定性具有不可验证性。在这种背景下, 不妨假设数据误差为服从一定概率分布的随机变量。本文主要针对这种现象, 当数据误差服从正态分布和均匀分布时, 分别研究与探讨了模型经验常数的期望和分布方差与数据误差的关系。

为了计算和模拟的简便, 本文做了如下假设: ①数据误差与数据值成正比; ②对于水质试验数据, 数据误差主要蕴藏在水质组分浓度值中(光谱数据与水质组分浓度数据是一对一的映射关系, 光谱数据的误差可以通过映射关系转化为水质浓度误差, 即认为光谱数据是精确的, 则光谱数据误差引起的偏差表现为该光谱数据对应的真实水质浓度与实际观测的浓度之间的偏差)。图5表明, 当叶绿素a浓度小于123 μ g/L时, 线性模型能较好地描述叶绿素a浓度与TM2/TM3比值之间的定量关系。因此本文假设当叶绿素a浓度小于123 μ g/L时, 叶绿素a浓度和TM2/TM3的比值之间存在线性关系, 即

Cchla=a RTM2RTM3+b(4)

式中, RTM2RTM3分别为TM2波段和TM3波段的反射率; ab为反演模型的经验常数。本文主要模拟了数据误差的取值范围为0%~100%时(间隔为0.5%)反演模型经验常数的取值状况。

图6图7为随机模拟的结果, 即当海量数据误差分别服从正态分布与均匀分布时, 数据误差与模型的经验常数ab的期望和方差之间的关系。

图6 模型经验常数a的统计量与测量误差的关系Fig.6 Relationship between the statistical variants of empirical constant a of retrieval model and the measurement errors

图7 模型经验常数b的统计量与测量误差的关系Fig.7 Relationship between the statistical variants of empirical constant b of retrieval model and the measurement errors

图6图7可知, 模型的经验常数随着水质浓度测量误差的增加而呈发散状态, 模型经验常数与水质浓度观测的相对误差成正比。众所周知, ± 30%的定量精度水平是可获取而难以超越的技术瓶颈[13]。另外, 根据试验数据误差与反演精度的关系可知, 26.58%的试验误差对应着30%的反演精度。这就意味着, 在不考虑大气校正、辐射定标和几何纠正等遥感影像处理所产生误差的前提下, 要突破± 30%的定量精度水平, 必须要求模型经验常数的误差控制在26.58%以内。也就是说, 加强控制天气、水质浓度在水平和垂直方向上的不均匀分布以及试验条件不理想等不利条件对试验精度的影响是突破水质参数达到± 30%定量精度水平的技术瓶颈的重要内容之一。

4 结论

(1)针对水质试验过程中存在的不确定性现象, 利用随机数值模拟的方法, 研究与探讨了数据误差对水质浓度反演模型常数精度的影响状况, 了解数据误差对反演精度影响的机制, 对研发高精度水质组分浓度反演模型具有一定的理论指导意义。

(2)在太湖, 叶绿素a浓度与TM2/TM3的比值之间呈分段关系: 当叶绿素a浓度小于123 μ g/L时, TM2/TM3的比值与叶绿素a浓度之间的相关性较高(相关系数为0.718 4); 当叶绿素a浓度大于123 μ g/L时, TM2/TM3的比值与叶绿素a浓度之间的相关性较低(相关系数仅为0.3)。

(3)当测量数据误差分别服从正态分布与均匀分布时, 反演模型经验常数的期望和方差与测量数据误差之间具有较高的相关性, 即模型参数误差与水质浓度观测的相对误差成正比。模拟结果表明, 26.58%的试验误差对应着30%的反演精度。而± 30%的精度水平是水质浓度遥感反演可获取而难以跨越的技术瓶颈。这就要求努力地削弱天气、水质浓度在水平和垂直方向上的不均匀分布以及试验条件不理想等不利因素对试验精度的影响, 使测量误差控制在± 26.58%以内。

The authors have declared that no competing interests exist.

参考文献
[1] [本文引用:1]
[2] Rousseeuw P J, Leroy A M. Robust Regression and Outlier Detection[M]. San Francisco: John Wiley & Sons, 1987. [本文引用:1]
[3] Ge Y, Leung Y, Ma J H, et al. Modelling for Registration of Remotely Sensed Imagery when Reference Control Points Contain Error[J]. Science in China: Series D Earth Sciences, 2006, 49(7): 739-746. [本文引用:1]
[4] 陈军, 周冠华, 温珍河, . 遥感数据误差对地表参数定量反演可靠性的影响[J]. 光谱学与光谱分析, 2010, 30(5): 1347-1351. [本文引用:1]
[5] Wang D Y, Feng X Z, Ma R H, et al. A Methold for Retrieval Water-Leaving Radiance from Land sat TM Image in Taihu Lake, East China[J]. Chinese Geographical Science, 2007, 17(4): 346-369. [本文引用:1] [JCR: 0.727] [CJCR: 0.698]
[6] Mueller J L, Austin R W. Ocean Optics Protocols for Seawifs Validation: NASA Techmical Memorand um 104566[M]∥Greenbelt, MD: NASA Goddard Space Flight Center, 1992. [本文引用:1]
[7] 贺俊华, 程永进, 张昊. 内陆水体叶绿素a含量定量检测的研究[J]. 光学与光电技术, 2007, 5(5): 16-19. [本文引用:1]
[8] Doicu A, Schreier F, Hilger S, et al. Error Analysis and Minimum Bound Method for Atmospheric Remote Sensing[J]. Environmental Modelling & Software, 2007, 22: 837-846. [本文引用:1]
[9] 赵英时. 遥感应用分析原理与方法[M]. 北京: 科学出版社, 2006. [本文引用:1]
[10] Dekker A G, Peters S W M. The Use of Thematic Mapper for the Analysis of Eutrophic Lakes: a Case Study in the Netherland s[J]. International Journal of Remote Sensing, 1993, 14: 799-821. [本文引用:1]
[11] Gordon H R, Brown O B, Evans R H, et al. A Semi-analytical Radiance Model of Ocean Color[J]. Jouranl of Geophysical Research, 1988, 93: 10909-10924. [本文引用:1]
[12] Dekker A G, Vos R J, Peters S W M. Analytical Algorithms for Lake Water TSM Estimation for Retrospective Analyses of TM and SPOT Sensor Data[J]. International Journal of Remote Sensing, 2005, 23(1): 15-35. [本文引用:1]
[13] Shafique N A, Autrey B C, Fulk F, et al. Hyperspectral Narrow Waveband s Selection for Optimizing Water Quality Monitoring on the Great Miami River[J]. Journal of Spatial Hydrology, 2001, 1(1): 1-22. [本文引用:1]