面向土地利用分类的多源遥感数据混合贝叶斯网络分类器
李凤1, 高昭良2,3
1.福建农林大学资源与环境学院,福州 350002
2.武汉大学测绘遥感信息工程国家重点实验室,武汉 430079
3.福州市勘测院, 福州 350003

第一作者简介: 李 凤(1973-),女,讲师,2005年获管理学硕士学位。研究方向为土地利用与规划、遥感应用和GIS应用。

摘要

传统的离散型贝叶斯网络分类器是将所有变量视为离散变量,或对连续变量做离散化处理。可是离散化不可避免地存在信息损失,且在多源遥感数据的处理和分析中,连续变量的离散化会导致搜索空间的急剧增加和计算及存储量的极大开销。针对这些问题,开发了一种面向土地利用分类的多源遥感数据混合贝叶斯网络分类器,该分类器首先对问题领域的所有变量做正态分布检验,同时将满足高斯分布假设的变量不做离散化而视为连续变量; 然后对离散变量和连续变量分别进行参数学习,最后进行参数合并,再用于贝叶斯网络的推理和分类中。通过福州市区土地利用分类的实验表明,该模型优于传统的离散型贝叶斯网络分类器,具有一定的研究和应用价值。

关键词: 离散化; 正态分布检验; 混合贝叶斯网络分类器; 多源遥感数据; 土地利用分类
中图分类号:TP751 文献标志码:A 文章编号:1001-070X(2011)02-0047-06
A Hybrid Bayesian Network Classifier for Multi-source Remote Sensing Data in Land Use Classification
LI Feng1, GAO Zhao-liang2,3
1.Fujian Agriculture and Forestry University, Fuzhou 350002, China
2.The State Key Laboratory for Information Engineering in Surveying, Mapping and Romote Sensing, Wuhan 430079, China
3.Fuzhou Investigation and Surveying Institute, Fuzhou 350003, China
Abstract

It is necessary that all variables be considered as discrete variables, or discretization be conducted in a traditional discrete Bayesian network classifier. The information loss in discretization is inevitable, and the discretization of continuous variables will lead to dramatic expansion of search space and great expenses in computation and storage in multi-source data processing and analysis. To solve these problems, the authors have developed the Hybrid Bayesian network classifier for land use classification, which first conducts normal distribution test for all variables in the study area. For the variables that meet Gaussian distribution assumptions, the authors do not discrete them and regard them as continuous variables. Parameter learning of discrete variables and that of continuous variables are carried out respectively, and then the parameters are merged. These parameters are used for reasoning and classification of Bayesian network at last. Experiments of land use classification in Fujian show that the model is superior to the traditional discrete Bayesian network classifier, and hence has great research and application value.

Keyword: Discretization; Examination of normal distribution; Hybrid Bayesian network classifier; Multi-source remote sensing data; Land classification
0 引言

传统的贝叶斯网络都是离散型贝叶斯网络, 其处理的都是布尔变量或有限个离散变量[1]。对于连续变量, 则要进行离散化处理或将数据本身视作离散变量(如遥感影像的灰度值)。由于离散贝叶斯网络的参数学习十分简单, 因此一些成熟的学习和推理算法都是建立在离散型贝叶斯网络基础之上的。

在土地利用/土地覆盖调查中, 需要对多源遥感数据进行处理和分析, 如土地利用图、高程数据、植被指数等, 但多源数据在贝叶斯网络中的数值表达和量化是一个重要的问题, 如果直接使用传统的离散贝叶斯网络模型, 则需要对所有变量做离散化处理[2]。而离散化本质上是为了特定的目的(适应某种分类器模型)和减少数据量而采取的一种数据约简方法, 其不可避免存在信息损失的问题[3], 且对连续变量的离散化会导致搜索空间的急剧增加(结构学习时)和计算及存储的极大开销(参数学习时生成的条件概率表)。这些因素使得将离散型贝叶斯网络用于多源遥感数据的处理和分析变得困难。

研究如何在离散型贝叶斯网络的基础上, 将部分变量不做离散化而视为连续变量, 建立起多源遥感数据统一的参数表达形式, 这便是混合贝叶斯网络分类器。在混合贝叶斯网络中, 连续变量通常要假定是符合正态分布的[1], 为此还需要对变量进行正态分布检验。

1 混合贝叶斯网络模型

用贝叶斯网络来分析一组数据D, 就是要从这组数据出发, 找出一个相对于数据来说在某种意义下最优的贝叶斯网络[4]。所得结果是关于数据D的一个统计模型, 称为贝叶斯网络模型。通过数据分析获得贝叶斯网络模型的过程称为贝叶斯网络学习, 可分为结构学习和参数学习两个方面[5]

混合型贝叶斯网络, 是指其网络节点(贝叶斯网络的节点与研究问题中的变量相对应, 接下来的讨论中将对变量和节点视为等同的概念而不加以区分)类型不仅包括传统的离散节点, 还包括其他节点类型。本文所指的混合贝叶斯网络专指包含离散和连续节点的朴素贝叶斯网络(图1), 其中类节点是离散节点。

图1 混合贝叶斯网络Fig.1 Hybrid Bayesian network

如此, 则模型结构已知, 这样贝叶斯网络学习的问题就成为一个参数学习问题[6], 而混合贝叶斯网络模型学习的问题也主要围绕参数学习展开。

在混合贝叶斯网络中, 连续变量通常要假定其符合正态分布[7], 否则会使分类混淆加大, 造成分类器性能降低。为此, 首先要对变量做正态分布检验, 并定义一个合适的显著性水平。

1.1 参数学习

混合贝叶斯网络的参数学习仍然应用贝叶斯网络的参数学习方法来获得每一个节点的分布P(Fi|C), 只是这时要区分每个节点的变量类型。混合贝叶斯网络的参数可表示为

θ =< M1, M2> (1)

式中, M1m× k大小的条件概率表(CPT)二维矩阵; M22大小的条件概率分布(CPD)二维矩阵

对于离散节点, P(Fi|C)是一个条件概率表, 它以多维矩阵形式存在, 可表达为

E[θ i, j, k|D, BS, ξ ]= (Ni, j, k+1)(Ni, j+ri-Ni, j, k-1)(Ni, j+ri)2(Ni, j+ri+1)(2)

式中, θ i, j, k表示条件概率表; ξ 表示若干假设(如变量为离散变量等); D为数据集; BS为网络结构; ri为离散随机变量Fi所有可能的取值个数。如果用wi, j表示变量Fi的第j个父节点, 则Ni, j.k为数据集D中变量Fi取值为vi, k、同时父节点为wi, j的样本出现的次数, Ni, j的计算式为

Ni, j= k=1riNi, j, k(3)

对于连续节点, P(Fi|C)是一个条件概率分布, 并通常要假设其满足一元正态分布, 即

Fi~N(μ i, σ i)(4)

P(Fi|C)的计算式为

P(Fi|C)= 12πσiexp(-(Fi-μi)22σi2)(5)

对于符合正态分布的连续变量, 求条件概率分布的关键是计算关于其正态分布的均值和协方差两个重要参数[8], 通常可从样本中计算得到。在样本不完备时(或少量样本的情况, 可视为不完备数据), 可用EM算法得到[9]

混合贝叶斯网络的参数学习流程如下:

(1)获得特征子集F={F1, F2, …, Fn}, 选择训练样本集D={D1, D2, …, Dm};

(2)提取以下包含每个特征所有类别信息的二维矩阵:

Amn={A1, A2, …, An}= a1, 1  a1, n   am, 1  am, n(6)

其中ai, j为第i类地物第j个特征的值, 一般将{A1, A2, …, An}作为网络中相应节点的取值;

(3)获取各类样本的类别标签C={C1, C2, …, Cm};

(4)确认每个节点的变量类型, 即将F划分为FdFc两个子集, Fd是离散节点集, Fc为连续节点集;

(5)对Fd按离散贝叶斯网络的方法做离散化处理;

(6)应用式(2)和式(5)分别进行离散节点和连续节点的参数学习, 对Fd中的每个特征, 参数学习的结果是一个m× k大小的二维矩阵M1=CPTmk。对Fc中的每个特征, 参数学习的结果是一个2大小的二维矩阵M2=CPD=< μ i, σ i> , i∈ {1, 2, …, m}

(7)合并M1M2, 即得到参数θ

从上述参数学习过程不难看出, 连续变量需要的存储空间大小是2, 离散变量的存储空间大小是2, 相比而言, 连续变量的参数学习效率要高很多。但如果无视变量的分布特点而一概作为连续变量, 则会导致错误的结论。为此, 首先需要对变量做正态分布检验。

1.2 正态分布检验

在构建混合贝叶斯网络之前, 首先对各个变量进行正态分布检验, 这将有助于为每个变量选择合适的变量类型。

假设检验是在所研究的总体(相对于样本而言)的分布函数未知或只知其形式但不知其参数的情况下, 为了推断总体的分布函数的某些性质, 首先提出某些关于总体的分布函数的假设, 然后根据样本所提供的信息, 对所提假设做出“ 是” 或“ 否” 的结论性判断。

假设检验使用样本数据来确定数据可对两个语句的哪一个提供最佳支持, 这两个语句被称为原假设和备择假设, 对于正态分布假设检验, 这两个语句为:

H0: 数据服从正态分布;

H1: 数据不服从正态分布。

在定义原假设和备择假设后, 当假定原假设为真时, 则可计算获取观测样本数据的概率, 即

p=P{拒绝H0|H0为真}

如果计算的概率低于定义的显著性水平(α 水平), 则该假定很可能是错误的。因此, 拒绝原假设而支持备择假设。

实现正态分布假设检验的两个关键问题是检验类型的选择和显著性水平(α 水平)的定义。本实验选择Kolmogorov-Smirnov检验[10]进行正态分布假设检验, Kolmogorov-Smirnov检验定义为

Dn=max{ Dn+, Dn-}(8)

其中,

Dn+= max1in{i/n-Zi}(9)

Dn-= max1in{Zi-(i-1)/n}(10)

Zi=F(xi)(11)

式中, F(xi)是正态分布的概率分布函数, xi是关于第i个样本的统计, 1≤ in, n为样本数目。

需要指出的是, 讨论数据的严格正态分布并非本文的目的, 因为遥感数据通常是不符合“ 绝对” 正态分布的, 故不能给出一个确定的α 水平, 而是在随后的分类实验中, 综合分析各种因素后才能给出一个最能衡量变量“ 正态性” 程度(此处指该变量能作为连续变量而不会导致分类混淆)的α 水平。

2 实验与分析

实验目的是为了验证本文节点设置方案的合理性, 即在离散贝叶斯网络的基础上将部分节点视作满足高斯分布(经正态分布检验)的连续节点, 用于构建混合贝叶斯网络分类器, 然后比较它和连续贝叶斯网络及离散贝叶斯网络分类器的分类效果。

2.1 实验数据

实验区为福州市区, 实验数据包括2003年Landsat ETM+影像、地学数据、变换后的特征数据、纹理特征数据(详见表1)。

表1 特征情况描述 Tab.1 The list of features

影像数据和地学数据是所能获得的原始数据, 在此基础上还要进行有利于目标分类识别的特征提取和特征选择。

(1)研究区的地学数据, 包括地层岩性数据、土地利用图、高程和坡度数据。

(2)变换后的特征数据。变换后的特征数据包括增强植被指数(EVI)、穗帽变换的SB分量(土壤亮度轴的像元亮度值)和GV分量(植物绿色指标轴的像元亮度值)。

增强植被指数(EVI)很好地反映了地表植被覆盖度的状况[11], 其计算式为

EVI=2.5(BNIR-BRed)/(BNIR+6BRed-7.5BBlue+1)(12)

式中, BNIR代表近红外波段亮度值; BRed为红波段亮度值; BBlue为蓝波段亮度值。

(3)纹理特征数据。对6个光谱波段的灰度共生矩阵的协同性(Homogeneity)、相异性(Dissimilarity)、熵(Entropy)、二阶矩(Second Moment)等4个纹理参数进行计算(利用ENVI生成)。灰度共生矩阵取3× 3大小的窗口, 压缩灰度级为32级, 方向取0° 、45° 、90° 和135° 等4个方向上度数的平均值。

截取实验区512像元× 512像元大小的TM影像进行分类模型的实验。实验区的假彩色合成图像如图3(a)所示, 选取裸露地(包括裸露地、建筑用地以及道路)、河流、湖泊、居民地、郊区植被、城区植被、草地、滩涂等8类样本(表2)进行实验。

表2 样本情况一览表 Tab.2 The list of samples
2.2 变量类型区分

表1中所有特征做正态分布检验。图2为以裸露地样本为例, 使用Matlab绘制的部分特征的正态概率图。如果概率总体上呈正态分布, 则绘制的点将大致形成一条直线。

图2 裸露地样本各特征的正态概率图Fig.2 Normal probability chart of bare land for some features

结合对概率图中数据点分布情况的观测, 本文选择α =0.03, 即将k≤ 0.03的变量视为满足正态分布的变量。根据正态性检验的结果, 给出的不同特征变量类型如表3所示。

表3 混合贝叶斯网络分类器变量类型设置 Tab.3 The variables type in hybrid Bayesian network classifier

由此可见, 混合贝叶斯网络中的节点设置是在离散贝叶斯网络的基础上, 将TM影像6个波段数据, 穗帽变换SB、GV分量以及DEM数据作为连续节点, 而其他节点则保持不变。

2.3 分类结果分析

为比较连续贝叶斯网络和离散贝叶斯网络以及混合贝叶斯网络的分类效果, 图3给出了不同分类方案的分类结果, 图3(b)是将所有特征作为离散变量(或进行离散化)的分类结果; 图3(c)是将所有特征作为连续变量后的分类结果; 图3(d)是混合贝叶斯网络的分类结果(按表3设置变量类型, 将连续变量线性拉伸到(0, 1)区间后获取均值和方差)。

图3 实验样区原始影像及分类结果Fig.3 False color composite image and classification results

图3可见, 离散贝叶斯网络和连续贝叶斯网络的分类结果均有很多错分、漏分的地方, 前者将居民地分得很破碎; 后者把很大一部分居民地错分为裸露地。

混合贝叶斯网络分类结果与离散贝叶斯网络相比, 分类结果有了很大改善, 且它要明显好于连续贝叶斯网络的分类结果(本文没有专门讨论连续贝叶斯网络, 但作为比较, 在这里列出了其分类结果。连续贝叶斯网络是将所有变量作为连续变量考虑, 这在本文方法中显然是不合理的), 说明本文方法对变量的设置是合理的。

表2中的样本分为训练样本集和测试样本集(随机选取每一类样本的2/3当作训练样本, 剩下的1/3当做测试样本), 训练样本用于参数学习, 先获得网络各节点的条件概率分布, 再将这个结果用于对测试样本的分类。在95%的置信度下, 3种分类器各类样本的分类精度和总体分类精度如表4所示。

表4 3种贝叶斯网络分类器的样本分类精度 Tab.4 Classification accuracy of samples for three Bayesian network classifier

连续贝叶斯网络分类器的总体分类精度只有69.95%, 且基本上不能区分裸露地和居民地, 这说明将所有变量作为连续变量显然是不合理的。离散贝叶斯网络也获得了不错的分类精度(83.28%), 而混合贝叶斯网络与离散贝叶斯网络的分类结果相比, 分类精度有了大幅提高, 且每一个地类的分类精度都有不同程度的提高。

3 结论

混合贝叶斯网络分类器避免了对研究领域中所有变量由不加分析的离散化所导致的信息损失, 不仅减少了离散型贝叶斯网络的计算和存储开销, 而且有机融合了离散变量和连续变量中的分类信息。本文的主要工作和创新之处在于:

(1)通过变量的正态分布检验, 给出了一个最能衡量变量“ 正态性” 程度(此处指该变量既能作为连续变量, 且能减少分类混淆的程度)的α 水平, 以指导混合贝叶斯网络的节点设置;

(2)针对变量的不同分布特点, 通过设置不同的节点类型, 构建了混合贝叶斯网络分类器, 并建立起了多源遥感数据在贝叶斯网络框架下的统一的参数表达模型;

(3)将贝叶斯网络应用于多源遥感数据的处理和分析是一个初步的尝试, 从而拓展了贝叶斯网络的应用领域。

实验表明, 混合贝叶斯网络分类器结合了离散贝叶斯网络和连续贝叶斯网络的优点, 在多源遥感数据的处理和分析中具有一定的优势。混合贝叶斯网络分类器的分类结果给土地利用分类、国土规划提供了一个重要参考, 在此基础上还可构建基于动态贝叶斯网络的土地利用变化检测系统。

The authors have declared that no competing interests exist.

参考文献
[1] Chow C K, Liu C N. Approximating Discrete Probability Distributions with Dependence Trees[J]. IEEE Transactions on Information Theory, 1968, 14(3): 462-467. [本文引用:2] [JCR: 2.65]
[2] 梁静, 张桂峰. 基于信息熵的遥感影像特征离散化方法[J]. 地理空间信息, 2006, 4(3): 9-11. [本文引用:1]
[3] Pedro S D D, Hruschka E R, Flruschka E R. WNB: A Weighted Naive Bayesian Classifier[C]//Proceedings of 7th International Conference on Intelligent Systems Design and Applications(ISDA 2007), Rio de Janeir, Brazil: University Estado Rio de Janeiro, 2007: 138-142. [本文引用:1]
[4] Pedro Domingos, Michael Pazzani. On the Optimality of the Simple Bayesian Classifier Under Zero-one Loss[J]. Machine Learning, 1997, 29(2-3): 103-130. [本文引用:1] [JCR: 1.689]
[5] 张连文, 郭海鹏. 贝叶斯网引论[M]. 北京: 科学出版社, 2006. [本文引用:1]
[6] Cheng Jie, Greiner Russell, Kelly Jonathan, et al. Learning Bayesian Networks from Data, an Information-theory Based Approach[J]. Artificial Intelligence, 2002, 137(1-2): 43-90. [本文引用:1] [JCR: 2.709]
[7] 虞欣. 贝叶斯网络在航空影像纹理分类中应用研究[D]. 武汉: 武汉大学, 2008. [本文引用:1]
[8] 普雷斯, S·詹姆士. 贝叶斯统计学: 原理、模型及应用[M]. 北京: 中国统计出版社, 1992. [本文引用:1]
[9] Buntine W. A Guide to the Literature on Learning Probabilistic Networks from Data[J]. IEEE Transactions on Knowledge and Data Engineering, 1996, 8(2): 195-210. [本文引用:1] [JCR: 1.815]
[10] 洪楠, 侯军. MINITAB统计分析教程[M]. 北京: 电子工业出版社, 2007. [本文引用:1]
[11] 王正兴, 刘闯, Huete AIfredo. 植被指数研究进展: 从AVHRR-NDVI到MODIS-EVI[J]. 生态学报, 2003, 23(5): 979-987. [本文引用:1]