证据理论结合遥感分类数据能力定量评价研究
李华朋1,2, 张树清1, 孙妍1,2
1.中国科学院东北地理与农业生态研究所,长春 130012
2.中国科学院研究生院,北京 100049

第一作者简介: 李华朋(1984-),男,博士研究生,主要从事遥感与GIS方面研究。

摘要

DS(Dempster-Shafer)证据理论具有结合多源数据的能力,在遥感分类中应用越来越广泛。然而,并不是所有数据源利用证据理论结合后都能提高目标类别的基本概率分配(Basic Probability Assignment,BPA),从而提高遥感分类效果。如何对证据结合的效果进行评价已成为应用证据理论的一个关键问题。本文提出了评价证据结合效果的证据结合指数(evidence combine index,eci),选择TM影像的第5、7波段作为验证eci的多源数据,应用eci评价证据结合效果,利用证据理论遥感分类Kappa系数的变化对证据结合指数进行了验证。结果表明,该指数能够反映证据理论结合效果,为定量评价证据理论结合多源数据效果奠定了基础。

关键词: DS证据理论; 遥感分类; 证据结合指数
中图分类号:TP751.1 文献标志码:A 文章编号:1001-070X(2011)01-0026-07
The Quantitative Evaluation of Remote Sensing Data for Supervised Evidential Classification
LI Hua-peng1,2, ZHANG Shu-qing1, SUN Yan1,2
1.Northeast Institute of Geography and Agricultural Ecology, CAS, Changchun 130012, China
2.Graduate University of Chinese Academy of Sciences, Beijing 100049, China
Abstract

DS (Dempster-Shafer) evidence theory has the capability of combining multisource data,and has been used more and more widely in the remote sensing classification field. However,it is not true that all the data sources can improve target category’s Basic Probability Assignment (BPA) so as to improve the remote sensing classification accuracy. The evaluation of the effect of combined evidence is therefore a key point in the application of DS evidence theory. This paper proposed the evidence combine index (eci) for evaluating the combined evidence. The authors chose band 5 and band 7 of TM image as verification data,applied the eci index to evaluate the combining effect,and used the variation of kappa coefficient before and after evidence combination classification to validate the eci. The results show that the eci index can reflect the effect of evidence combination and thus lay the foundation for evaluating supervised evidential classification quantitatively.

Keyword: DS evidence theory; Remote sensing classification; Evidence combine index
0 引言

在遥感科学领域中, 遥感图像分类一直是一个难以解决的问题。单源遥感数据显然不能提供足够的信息, 尤其对于地物复杂的地区。利用多源数据进行遥感信息提取及分类是遥感科学发展的趋势[1]。从多种数据源得到重要的多源地理信息对提高遥感分类精度是强有力的手段[2]。DS(Dempster- Shafer)证据理论长久以来就被认为具有处理多源数据的能力[3], 能满足多样的分类需求[4, 5, 6, 7], 其突出优势即是对不完整的、缺失的及冲突证据的函数化表达[8, 9]。但是, 证据理论要求信息源具有独立性, 如果信息源选取不当, 会降低证据理论结合多源数据的能力。因此, 如何定量评价证据理论结合多源数据的效果已成为一个关键问题。迄今, 国内外在这方面的研究还是空白。众所周知, 利用DS证据理论进行遥感分类时, 其最后分类结果是通过比较赋予遥感像元各分类类别基本概率分配(Basic Probability Assignment, BPA)的大小, 确定类别归属。因此, BPA的大小直接决定遥感分类的精度。

本文从证据结合后各分类类别BPA变化的角度, 提出并构建了证据结合指数(evidence combine index, eci), 用于定量评价证据理论结合多源数据的效果。为了保证多源数据处理的统一性, 选择TM数据的两个波段作为多源数据, 对eci的可用性进行了验证和分析。

1 证据理论

证据理论(Theory of Evidence)又称为DS(Dempster-Shafer)理论, 是由Dempster在研究统计问题时首先提出、并由Shafer进一步发展完善起来的一种具有合并多重证据从而做出决策的不精确推理理论[10]。与概率决策理论(如Bayesian理论)相比, 它不但能够处理由于知识不准确引起的不确定性, 而且能够处理由不知道引起的不确定性, 同时满足比概率论更弱的公理系统。

1.1 辨识框架

假设对某一地区进行遥感分类, 通过遥感图像目视解译和实地调查, 得知该地区的地物主要可以分为草地、沙地和水域3个类别, 则由这些类别组成的所有的集合被定义为辨识框架: Θ ={草地, 沙地, 水域}。如果一个集合中只包含其中的一个类别, 则这个集合被称为独集; 如果集合为空, 则定义为Φ 。于是以上3个类别可能出现的集合为: {沙地}、{草地}、{水域}、{沙地, 草地}、{草地, 水域}、{沙地, 水域}、{草地, 沙地, 水域}和Φ 共 8个假设集合。

对于遥感分类来说, 其实质即是单个像元类别归属问题, 不可能出现某个像元属于假设集合为Φ 的情况。因此, 实际可能出现的集合为7个(去除空集)。确定可能出现的集合后, 证据理论的思想就是为每一个可能出现的假设集合分配支持度。很明显, 出现的假设集合越多, 则应用证据理论的计算量越大, 其精度越会受到影响, 因为目标假设集合可能被误分到其他假设集合中, 以致影响证据理论结合的效果。实际上, 很多时候, 对于某一地区遥感分类而言, 只有几个假设集合是有意义的, 甚至只存在单子集。例如, 本例中的集合{沙地, 水域}就是没有意义的, 因为水域和沙地的背景遥感信息没有任何相同之处。基于此, Gordon等[11]提出通过构建层次树, 利用专家知识确立有意义的假设集合, 去除无意义的假设集合。本例中, 去除无意义集合后, 假设集合的数量降低到了5个: {沙地}、{草地}、{水域}、{沙地, 草地}和{草地, 水域}, 这样就可以大大提高证据理论结合的能力。

1.2 BPA函数

一个证据可以为一个或多个命题(对应Θ 的一个或多个子集)提供支持。假设A为某一辨识框架2Θ 的一个非空子集, 定义函数m(A)为BPA函数, 作为分配给假设子集A的概率, 表示证据对假设集的支持程度。该函数需满足条件

m(ϕ)=0A2Θm(A)=1(1)

如果辨识框架上的任一子集A满足m(A)> 0, 则称A为焦元(Local Element), 即辨识框架上的一个子集; 如果A=Θ , 则m(Θ )表示这个子集不知如何分配, 即对子集A不拒绝的程度为1。

1.3 Dempster合成法则

证据理论Dempster合成法则是一个反映证据联合作用的法则。给定几个同一辨识框架上不同证据的信任函数, 利用Dempster合成法则可以得到不同证据联合作用产生的信任函数。设Bel1Bel2是同一辨识框架上2个独立证据的信任函数, 定义一个新的证据函数为Bel1Bel2的直交形式, 用Bel1Bel2表示, 其计算公式为

Bel1Bel2= i, jAiBj=Am1(Ai)m2(Bj)1-i, jAiø Bj=m1(Ai)m2(Bj)(2)

式中, Bel1Bel2是基于同一辨识框架上的2个信任函数, 其BPA函数分别为m1m2, 分别由有意义的假设集A1, …, AKB1, …, Bl组成。

如果有多个证据参与运算, 则该合成法则可以用同样的结合规则推广下去, 即Bel1Bel2Bel3Bel4Bel5…。证据质量是影响证据结合的关键因素, 证据对客观事实反映得越充分, 证据之间相关性越小, 结合效果越好。

上述BPA函数中的基于统一框架的假设集包括单子集和非单子集。当假设集是非单子集时, 同样可以运用该结合方法计算, 具体结合规则需要另行讨论, 本文只讨论单子集情况。

2 方法
2.1 遥感数据及地物光谱分析

选择黑龙江省小兴安岭山脉南麓地区的1景TM遥感影像作为研究数据, 影像获取时间为2007年9月30日, 轨道号为118/26。影像获取时天气晴朗, 图像质量很高。在数据分发前, 已经达到了2级处理标准, 即完成了基本的几何纠正和辐射校正处理。

通过实地调查和遥感解译, 研究区覆被可分为水域、林地、农田、裸地和草地5大类。另外还有零星的城镇及居民地, 但相对于整个研究区所占面积很小, 故未将其列入分类类别。研究区覆被主体为林地、草地和农田。林地和草地相间分布, 林地以阔叶林为主体, 包括低矮灌木林; 水域由河流和湖泊组成; 裸地包括废弃用地及无植被覆盖的荒废区域等。

地物光谱分析有利于选取合适的波段参与证据结合实验[12]。分别选取研究区内各类别的典型区域进行光谱分析, 分析结果如图1所示。

图1 训练样本各波段平均光谱曲线Fig.1 The average spectral curves of the bands of training samples

图1可以看出, 水域的平均光谱值从第1波段到第7波段呈递减趋势, 在第1~3波段光谱信息与其他地物光谱相似度高, 在第4、5、7波段与其他地物区别明显; 农田光谱信息在第1、5、7波段与其他地物区分明显, 在其他波段则光谱相似度很高; 裸地光谱信息只有在第5、7波段与其他地物可区分性好; 草地光谱信息与裸地类似, 也是在第5、7波段与其他地物区分效果显著; 林地在第1~3波段光谱与水域几乎无法区分, 而在第5、7波段区分效果好。

经分析发现, 对于所有地物, 在第5、7波段的光谱区分能力强, 因此选择第5、7波段用作证据理论结合的波段和研究证据理论结合效果的独立证据。由于本文只对单子集进行研究, 故设定辨识框架为5个单子集: {裸地}、{农田}、{林地}、{草地}和{水域}。

2.2 原始BPA计算

对于证据推理多源信息融合, 关键是为每个信息源分配一个信任函数。设信息源为Sq(q=1, 2, …, Q), 其概率分配函数为mq, 假设在Q个信息源中一个信息源提取的信息Sq可以用一个高斯分布来表示, 将最终鉴别框架中的单子集Ru (区域或类别数目)定义为

P(xq/Ru)= 1σu2πexp- (xq-μu)22σu2(3)

式中, xq为信息源中一个像素点P(i, j)的灰度值; μ uσ u分别为鉴别框架中单子集Ru的平均值和方差。

整个鉴别框架Θ 的概率定义为

P(xq)= 1σΘ2πexp- (xq-μΘ)22σ2Θ(4)

式中, xq为信息源中一个像素点P(i, j)的灰度值; μ Θ σ Θ 分别为鉴别框架Θ 的平均值和方差, 计算方法为μ Θ = u=1Uμ u/U; σ Θ =max{σ u}, u=1, …, U

本文利用遥感图像的2个波段作为多源信息证据结合。

为了满足BPA函数概念, 定义归一化因子为

Rq= 1Ru2ΘP(xq/Ru)(5)

则最后得到的单子集Ru的BPA函数mq

mq(Ru)=RqP(xq /Ru)(6)

2.3 证据结合指数

为了定量评价证据结合对目标类别概率的影响, 本文提出并构建一个证据结合指数。假设两个独立证据分别为AB, 利用证据理论结合后, AB=C。基于AB两个证据及其合并结果C, 分别从目标类别和非目标类别中选择一些样本点数值, 提出并构建了以下指数对证据结合能力进行定量表达, 即

(1)目标强化指数

p= i=1n[b1i-(b2i+c1i)/2]n(7)

式中, b1ib2i分别为证据AB目标类别的BPA; c1i为证据结合后目标类别BPA; i为样本点数, i=1, …, n

(2)非目标弱化指数

q= ej=1m(b3j+b4j)/2-c2j]m(8)

式中, b3jb4j分别为证据A、B非目标类别的BPA; c2j为证据结合非目标类别BPA; j为样本点数, j=1, …, m

(3)证据结合指数(evidence combine index, eci)

eci=p· q(9)

2.4 证据结合指数分析

(1)目标强化指数。该指数的正负可以反映证据结合对目标类别BPA的强化和弱化作用, 如果为正, 表示证据结合对目标类别具有强化作用, 该指数越大, 表明强化能力越强; 如果为负, 表示证据结合对目标类别具有弱化作用, 指数的绝对值越大, 表明对证据的弱化能力越强。

(2)非目标弱化指数。评价证据理论的结合能力不能只考虑对目标类别BPA的强化作用, 也应该考虑对非目标类别BPA的弱化作用。假设证据结合后某一目标类别的BPA增加很多, 但其非目标类别的BPA也随着增加很多, 这势必对分类造成干扰和影响。对图2的指数函数分析表明, 如果x> 0, 则y> 1; 如果x< 0, 则0< y< 1。同理, 如果两个证据结合数据源的初始BPA的平均值大于结合后BPA, 则非目标弱化指数一定大于1, 这证明证据结合对于非目标证据具有弱化作用; 该值越大, 非目标弱化能力越强; 该值越小, 非目标弱化能力越微弱; 但无论何种情况, 该指数大于0, 这保证非目标弱化指数与目标强化指数相乘时, 不至于因为目标强化指数符号的正负对结果产生误导。例如, 如果目标强化指数为负, 而非目标弱化指数也为负, 则相乘后eci为正数, 就无法体现其评价能力了。

图2 指数函数曲线Fig.2 Curve of exponent function

将目标强化指数和非目标弱化指数相乘后, 能更全面地体现出证据结合的效果。如果结果为正值, 则代表强化目标证据。同时, 如果对目标强化能力和非目标弱化能力越强, 该值会越大; 相反, 该值会减小。当结果为负值时, 则表明对目标结果的弱化能力(即是“ 噪声” ), 该值的绝对值越大表明弱化能力越强。

证据结合指数反映的是证据结合后BPA的变化幅度, 体现了比原有证据辨识目标类别能力的提高程度。所以, 指数大小只是表示目标BPA的变化幅度。

3 结果
3.1 样本BPA分析

举例说明目标类别概念。例如, 为了得到证据结合裸地BPA分布图, 利用2个初始证据BPA分布图进行结合, 则这一过程中, 目标类别为裸地, 非目标类别为非裸地。为了定量评价证据结合效果, 基于每个类别, 在2个初始证据源及证据结合BPA分布图上, 基于目标类别和非目标类别选择一定数据的样本点, 研究BPA的变化趋势。例如对裸地地区, 选择26个裸地实地采样样本点, 分别统计遥感影像上对应点第5、7波段及结合后的BPA, 形成了图3(a); 而对非裸地地区, 也随机选择了26个非裸地样本点, 统计第5、7波段及结合后的BPA, 形成了图3(b)。图例中B5表示第5波段证据的BPA, B7表示第7波段BPA, Ds57( Dempster- Shafer b5、b7 )表示第5、7波段证据结合后的BPA

图3-1 各类别BPA分布Fig.3-1 BPA distribution of each class

图3-2 各类别BPA分布Fig.3-2 BPA distribution of each class

从图3可以看出, 证据结合后对裸地的BPA有弱化(减小)作用, 而对非裸地的BPA弱化作用不大; 对农田的BPA表现出明显的强化(增加)作用, 而对非农田的BPA弱化能力一般; 对林地的BPA强化作用明显, 对非林地的BPA也有强烈弱化作用; 对草地的BPA强化作用明显, 对非草地的BPA弱化作用也十分明显; 对水域的BPA有强化作用, 但不是很明显(这主要是因为初始证据BPA很大(基本上大于0.8), 因此提升空间不大), 对于非水域的BPA的弱化作用不明显。

3.2 证据结合指数计算

对研究区选择的各地物类型样本点, 利用式(7)~(9)计算各地物类型证据结合指数, 结果见表1

表1 各类地物证据结合指数 Tab.1 The results of eci for each class

表1可以看出, 水域、农田、草地和林地的目标强化指数p为正数, p值最大的为草地, 其次为农田、水域和林地。而证据结合后对这4种地物的BPA值都有增加作用, 提高了目标的BPA就意味着提高了目标的可识别和分类能力。其中, 草地的p值最大, 表明证据结合后对于草地的目标BPA增加幅度最大, 农田、水域次之, 林地最小; p为负值的裸地表明证据结合后裸地BPA减小。结合上文分析, 目标强化指数很好地体现了样本的BPA变化情况。

非目标指数q代表弱化非目标证据的能力。从表1可见, q值最大的为林地, 其次为草地、农田、水域和裸地。其中林地、草地和农田的q值大于1, 表明证据结合后对这3种地物类型的非目标BPA起到了弱化作用, 即降低了非目标BPA; 而水域和裸地q值小于1, 表明证据结合后对非目标BPA没有起到降低的作用。

证据结合指数ecipq两者的乘积, 从更全面的角度体现出证据结合对于目标类别BPA的作用。从表1中可以看出, eci值最大的为草地, 其次为农田、水域、林地和裸地。表明证据结合对研究区目标地物BPA提高幅度最大的为草地, 其次为农田、水域和林地, 而对裸地(eci为负值)则起到相反的作用。

总体而言, 证据结合后对大部分目标地物BPA起到了提高作用, 这也定量地反映了证据结合方法的优越性。

3.3 证据结合指数验证

为了定量验证证据结合指数的效果, 采用遥感图像分类精度作为评价指标。基于证据源TM影像第5波段初始BPA值, 以BPA最大原则为划分遥感影像像元类别的依据, 获取了研究区遥感分类图像。同理, 得到了2波段证据结合遥感分类图像。分别在2个分类图像上随机选择了128个样本点进行实地采样, 对2个分类图像的精度进行评价, 得到各类别Kappa系数; 用证据结合的各类别遥感分类精度与TM影像第5波段分类的Kappa系数相减, 得到证据结合各类别Kappa系数变化值(表2)。

表2 分类精度变化值与证据结合指数对比 Tab.2 The comparison between Kappa variation and eci

表2中, eci值最大的是草地, 证据结合后其Kappa系数增加幅度最大; 而eci唯一的负值为裸地, 证据结合后其Kappa系数也减小; 林地、水域和农田都是eci值为正的类别, 证据结合后其Kappa系数均有所增加。上述分析表明, eci反映了Kappa系数的变化趋势。

Kappa系数变化值及eci两组数据进行线性拟合分析, 以定量研究其相关性。由于样本点较少, 选择校正决定系数 Raij2作为定量评价2组数据相关性的依据, 计算得到2组数据 Raij2=0.869, 残差平方和为0.021。这些数据都表明拟合效果较好(图4), 说明2组数据之间关系较为密切。

图4 Kappa系数差值与eci拟合关系Fig.4 Fitting result between Kappa variation and eci

由于Kappa系数是评价遥感分类质量的客观指标, 其与eci的高度相关性证明eci客观反映了证据结合多源数据的效果, 可为合理使用证据理论提供定量评价依据。

4 结论

(1)本文提出并构建了用于定量研究证据结合效果的证据结合指数(eci), 并利用线性拟合方法验证了eci与遥感图像分类质量的相关性。验证结果表明, eci基本可以反应证据结合效果, 这对合理、有效地使用证据结合方法至关重要。在存在多个数据源、并且只想提高某个目标类别的BPA的情况下, 可以利用本文提出的eci, 通过选择一定数量的样本, 定量研究不同数据源对目标类别的BPA影响, 从而选择出合适的数据源。

(2)值得强调的是, eci体现的并不是证据结合后目标类别BPA绝对值, 而只是BPA变化的相对值。例如本文中eci最大的为草地, 这只能说明证据结合后对于草地的BPA提高幅度最大; 实际上, 证据结合后, 草地的BPA绝对值仍然小于水域。

(3)eci可用于定量地评价多源证据结合效果, 为提高基于多源遥感的分类精度提供了评价依据。但本文只选取了TM数据的2个波段作为多源数据, 十分有限; 未来工作应该选择更为广泛的多源数据类型验证证据结合指数, 对eci作进一步的评价。

The authors have declared that no competing interests exist.

参考文献
[1] Carrere V. Development of Multiple Source Data-processing for Structural-analysis at a Regional Scale[J]. Photogrammetric Engineering and Remote Sensing, 1990, 56(5): 587-595. [本文引用:1] [JCR: 2.071]
[2] Peddle D R, Ferguson D T. Optimisation of Multisource Data Analysis: an Example Using Evidential Reasoning for GIS Data Classification[J]. Computers & Geosciences, 2002, 28(1): 45-52. [本文引用:1]
[3] Peddle D R. Knowledge Formulation for Supervised Evidential Classification[J]. Photogrammetric Engineering and Remote Sensing, 1995, 61(4): 409-417. [本文引用:1] [JCR: 2.071]
[4] Franklin S E, Peddle D R, Dechka J A, et al. Evidential Reasoning with Land sat TM, DEM and GIS Data for Land cover Classification in Support of Grizzly Bear Habitat Mapping[J]. International Journal of Remote Sensing, 2002, 23(21): 4633-4652. [本文引用:1]
[5] Kartikeyan B, Majumder K L, Dasgupta A R. An Expert-system for Land -cover Classification[J]. IEEE Transactions of Geoscience and Remote Sensing, 1995, 33(1): 58-66. [本文引用:1]
[6] Cohen Y, Shoshany M. Analysis of Convergent Evidence in an Evidential Reasoning Knowledge-based Classification[J]. Remote Sensing of Environment, 2005, 96(3-4): 518-528. [本文引用:1] [JCR: 4.769]
[7] Hajj E M, Begue A, Guillaume S, et al. Integrating SPOT-5 Time Series, Crop Growth Modeling and Expert Knowledge for Monitoring Agricultural Practices——The Case of Sugarcane Harvest on Reunion Island [J]. Remote Sensing of Environment, 2009, 113(10): 2052-2061. [本文引用:1] [JCR: 4.769]
[8] Momani A B, McClean S, Morrow. Using Dempster-Shafer to Incorporate Knowledge into Satellite Iimage Classification[J]. Artificial Intelligence Review, 2006, 25(1-2): 161-178. [本文引用:1] [JCR: 0.895]
[9] LeHegaratMascle S, Bloch I, VidalMadjar D. Application of Dempster-Shafer Evidence Theory to Unsupervised Classification in Multisource Remote Sensing[J]. IEEE Transactions on Geoscience and Remote Sensing, 1997, 35(4): 1018-1031. [本文引用:1] [JCR: 2.933]
[10] Diaconis P. Mathematical-theory of Evidence-Shafer[J]. Journal of the American Statistical Association, 1978, 73(363): 677-678. [本文引用:1] [JCR: 2.114]
[11] Gordon J, Shortliffe E H. A Method for Managing Evidential Reasoning in a Hierarchical Hypothesis Space[J]. Artificial Intelligence, 1985, 26(3): 323-357. [本文引用:1] [JCR: 2.709]
[12] Lein J K. Applying Evidential Reasoning Methods to Agricultural Land Cover Classification[J]. International Journal of Remote Sensing, 2003, 24(21): 4161-4180. [本文引用:1]