基于上下文敏感的贝叶斯网络及方向关系的遥感图像检索
胡玉玺1,2,3, 李轶鲲2,3, 杨萍2,3
1.中煤地西安地图制印有限公司,西安 710054
2.兰州交通大学测绘与地理信息学院,兰州 730070
3.甘肃省地理国情监测工程实验室,兰州 730070
通信作者:李轶鲲(1978-),男,博士,副教授,主要从事遥感图像检索技术研究。Email:liyikun2003@hotmail.com

第一作者: 胡玉玺(1990-),男,硕士研究生,主要从事遥感图像检索技术研究。Email:598021029@qq.com

摘要

如何在遥感图像数据库中快速、准确地找出目标图像,是检索系统的核心所在。基于对上下文语境敏感的贝叶斯网络(content-sensitive Bayesian network,CSBN),建立了含有方向关系的检索模型,并根据城市区域的特点,提出了适合城市区域检索的方法。首先,通过贝叶斯网络对图像进行检索; 然后,依据图像的平均高频信号强度(average high frequency signal strength,AHFSS)对候选图像进行筛选; 最后,得到含有城市区域这一高级语义特征的最终检索结果。为了确定图像内部的方向关系,采用东北、西北、东南和西南4个区域的方向描述图像的8种方向关系,有效降低了算法的时间复杂度。实验结果表明,该方法可有效地描述图像的场景语义,并具有较高的查准率和检索效率,可满足用户的需求。

关键词: 图像检索; 上下文敏感的贝叶斯网络(CSBN); 方向关系; 平均高频信号强度(AHFSS); 双重语义检索
文献标志码:A 文章编号:1001-070X(2017)03-0070-07
Retrieving of remote sensing images based on content-sensitive Bayesian networks and direction relations
HU Yuxi1,2,3, LI Yikun2,3, YANG Ping2,3
1. Xi’an Mapping and Printing Company of ARSC, Xi’an 710054, China
2. Faculty of Geomatics, Lanzhou Jiaotong University, Lanzhou 730070, China
3. Gansu Provincial Engineering Laboratory for National Geographic State Monitoring, Lanzhou 730070, China
Abstract

Retrieving the required remote sensing images effectively and accurately is the kernel of a remote sensing retrieval system. In this paper, the authors proposed a direction based retrieval model based on context-sensitive Bayesian network(CSBN). In addition, an approach was also proposed that is suitable to retrieving urban area images according to the characteristics of urban areas. Initially, the proposed approach retrieved the candidate images based on CSBN. Then, the proposed approach obtained the final retrieval result containing the high level semantic concept “urban area” according to the average high frequency signal strength(AHFSS)of the candidate images. In order to make sure the direction relationships inside the image, the authors used the four directions of northeast, northwest, southeast and southwest to describe eight kinds of directions, which effectively reduced the time complexity of the algorithm. The experimental results show that the proposed approach can effectively describe the semantic concepts of the stored remote sensing images, and thus has higher retrieval precision and efficiency than the original context-sensitive Bayesian network based approach, thus proving that the proposed approach can meet the users’ requirements.

Keyword: image retrieval; context-sensitive Bayesian network(CSBN); direction relations; average high frequency signal strength(AHFSS); double-semantic retrieval
0 引言

由于图像空间分辨率的不断提高, 遥感图像海量数据管理、访问及应用的难度变得越来越大, 因此, 如何在大型数据库中进行高效的图像检索成为研究的难点[1, 2]。基于内容的图像检索, 是指用户提交样本图像, 借助色调、纹理和形状等低层特征, 在数据库中检索出具有相同或相似内容图像的过程[3]; 但由于人类与计算机对图像的理解方式存在差异, 造成了人类视觉对图像理解的“ 语义相似” 和机器视觉理解的“ 特征相似” 之间存在着难以逾越的“ 语义鸿沟” (semantic gap)[4]。经验表明, 采用早期的基于内容的图像检索(content based image retrieval, CBIR)系统, 通过提取图像的全局特征进行检索时, 对于有显著目标存在的图像来说, 由于全局特征无法准确描述图像内容, 会对检索精度造成影响。为解决这一问题, 有学者提出了基于区域的图像检索(region based image retrieval, RBIR), 使图像检索技术得到了空前的发展[5]。近年来在图像检索中, 贝叶斯网络常被用来进行语义挖掘。Datcu等[6]建立了一个5层结构的贝叶斯学习模型, 进行图像的视觉特征到高层语义特征的挖掘。林明泽等[7]借助图像类与语义概念之间多对多的关系, 建立代码和语义概念之间链接的模型, 采用简单贝叶斯网络(simple Bayesian network, SBN)推断图像的语义信息, 该方法的查全率较高、但查准率偏低。Li等[8, 9]则认为简单的贝叶斯网络不足以描述复杂的图像信息, 建立了基于对上下文语境敏感的贝叶斯网络(content-sensitive Bayesian network, CSBN), 其最主要的特征是通过综合相邻区域的特征推断图像的语义特征, 有效地提高了图像检索的查准率。但在这些检索方法中, 缺少对图像方向关系的描述, 无法详细地描述图像的场景语义。本文在对CSBN进行研究的基础上, 针对城市区域的特点, 提出了以平均高频信号强度(average high frequency signal strength, AHFSS)作为城市区域语义特征的衡量方法, 并利用区域间的方向关系描述图像的场景语义, 以有效地弥补“ 语义鸿沟” , 更加深入地描述图像所包含的语义信息。

1 基于贝叶斯网络的图像检索

基于贝叶斯网络的图像检索系统通常由3部分内容构成: ①图像分割和特征提取。利用一种简单的算法对图像进行分割, 并提取每一个子图像的低层特征; ②编码图像库生成。对提取出的特征进行分类, 生成码本, 并对图像进行编码, 生成编码图像库; ③语义推断。用户通过选取训练样本, 系统通过贝叶斯网络进行学习, 返回最终的检索结果。在本文实验中, 先将IKONOS多光谱图像分割成互不重复的子图像, 提取子图像的64维颜色直方图, 作为其光谱特征; 但由于子图像数量众多, 且将具有相同或者相似特征的地物分割到不同的子图像中, 不利于图像检索。为了能够更好地对图像的主要特征进行描述以及减少特征向量的数量, 在对图像进行规则分割后, 使用K-means算法对分割后的子图像进行聚类, 将聚类结果作为最终的分割结果。这一过程相当于把卫星图像的子图像合并成与每一个聚类相对应的图像区域。需要注意的是, 在这样的背景下, 图像区域可以包含在空间上没有连通的图像分区。为了避免这种情况, 以每一景子图像为最小单元, 判断是否在空间上具有四连通的关系。如不具有, 则将聚类结果分裂, 以保证图像分割后的每一个区域在空间上联通。在生成编码图像库时, 首先使用K-means算法将低级特征向量分类成码本中的一组编码, 生成码本用CB表示; 然后把每一景卫星图像中的每个区域均根据其特征向量进行相应的编码, 生成编码图像库。对于图像It, 其区域 Rtj的编码被表示为Ci( Rtj), 其中Ci是将区域映射成其编码的编码函数。关于图像分割和编码的详细过程请参阅参考文献[8]。

1.1 CSBN语义推断

1.1.1 数学模型

利用CSBN进行图像的语义推断。推断是根据区域 Rtj的编码Ci( Rtj)及邻接区域 Rtkadj( Rtj)的编码Ci( Rtk)进行的, 区域 Rtj及其邻接区域 Rtk构成的区域对( Rtj, Rtk)的光谱或纹理特点就被相应的编码对[Ci( Rtj), Ci( Rtk)]描述, 其中Ci( Rtj)是区域编码, Ci( Rtk)是上下文编码。因此, 假设码本中有L个编码, 那么就会有L2个可能的编码对组合。这将区域的光谱或纹理特征表示符号从L个增加到了L2个, 从而使语义推断更加准确。

为了进行语义推断, 图像It与语义概念SCk的相关程度通过CSBN由后验概率P(SCk|It)来测度。CSBN如图1所示。

图1 对上下文敏感的贝叶斯网络(CSBN)Fig.1 Context-sensitive Bayesian network(CSBN)

CSBN的后验概率计算公式为

P(SCk|It)= RtjItRtkadj(Rtj){P[SCk|( Rtj, Rtk)]P[( Rtj, Rtk)|It]}=(1)

其中

P[SCk|(u, v)]= P(u, v)|SCk]P(SCk)P(u, v), (2)

P(SCk|It)= RtjItRtkadj(Rtj){P[( Rtj, Rtk)|It]} u, vCBP(u, v)|SCk]P(SCk)P(u, v)P(u, v)|(Rtj, Rtk)]= , (3)

式中: P[(u, v)|SCk]为条件概率, 反映了编码对和语义概念之间的随机链接, 可通过用户反馈或从训练样本中学习得到; P(u, v)为编码对(u, v)的先验

概率; P(SCk)为SCk的先验概率, 因假设P(SCk)遵从一致分布, 故可忽略; P[(u, v)|( Rtj, Rtk)]的计算公式为

P[(u, v)|( Rtj, Rtk)]= 1, Ci1(Rtj)=uCi1(Rtk)=v0, 其他; (4)

P[( Rtj, Rtk)|It]反映了编码对( Rtj, Rtk)在解译图像It时的重要程度, 可用区域重要度函数TI()和区域上下文重要度函数RCI()的乘积计算。如果每一个区域 Rtj对于解译图像It都同等重要, 那么TI( Rtj)=1/|It|; 如果每一个区域 Rtj的邻接区域 Rtk对于解译 Rtj都同等重要, 那么RCI( Rtj, Rtk)=1/|adj( Rtj)|; 其中函数||是集合中元素的数据。如果考虑全

部的邻接区域, 则有

Rtkadj(Rtj){P[( Rtj, Rtk)|It]}= 1|It|。 (5)

式(5)可以防止计算P(SCk|It)时偏向那些有着更多邻接区域的区域。

最后, 基于式(4)和P[( Rtj, Rtk)|It]的计算公式, 可将式(3)中后验概率的计算公式化简为

P(SCk|It)∝ 1|It|BRtjItRtkadj(Rtj)1|adj(Rtj)|u, vCBP(u, v)|SCk]P(u, v)|(Rtj, Rtk)]P(u, v)。 (6)

1.1.2 编码共生矩阵

为了使P(SCk|It)的计算更加简单, 定义编码对重要度, 并生成编码共生矩阵。编码对(u, v)和语义SCk之间的关联程度通过编码对重要度函数CPIk()反映, 故可通过SCk的先验概率确定编码对(u, v)的重要度, 其计算方法为

CPIk(u, v)=P[SCk|(u, v)]= P(u, v)|P(SCk)]P(u, v), (7)

式中u, v分别为码本中的编码, 并构成编码共生矩阵Mk

根据Mk并假设先验概率P(SCk)服从一致分布, 式(6)可化简为

P(SCk|It)∝ 1|It|RtjItRtkadj(Rtj)1|adj(Rtj)|u, vCB{Mk(u, v)P[(u, v)|( Rtj, Rtk)]}∝

1.1.3 语义得分函数

语义得分可分为区域语义得分和图像语义得分。区域语义得分函数SRk()计算区域 Rtj与语义概念SCk的相关程度, 即

SR( Rtj)= 1|adj(Rtj)|Rtkadj(Rtj){Mk[ Ci1( Rtj), Ci1( Rtk)]} , (9)

式中|adj( Rtj)|为归一化系数, 用于防止语义得分偏向于有更多邻接区域的区域。

根据区域语义得分函数, 图像语义得分函数SIk()可定义为

SIk(It)= 1|It|RtjIt[SRk( Rtj)] 。 (10)

图像语义得分函数SIk()用于测度图像It与语义概念SCk的相关程度。如果SCk(It)大于预定义的阈值, 那么图像It就被认为至少包含语义概念SCk。根据式(8)和(10)可以证明

P(SCk|It)∝ SIk(It) 。 (11)

值得注意的是, 这个结论是式(2)的特殊形式。因此图像语义得分函数与CSBN是一致的。

1.2 基于方向关系的语义推断

在前文描述的CSBN模型中, 没有包含图像的方向关系, 不利于详细描述图像的语义信息; 而在基于贝叶斯网络的检索系统中, 对图像编码时可以依据区域在图像中所处的位置记录下每一个编码区域所在的位置。因此, 借助栅格图像的方向关系, 可以描述出图像详细的语义。本文根据编码所在的位置, 描述图像中地物类型的方向关系。

在栅格图像中, 传统的方向被描述为9种方向(图像分为9块, 居中的为中, 四邻接的4块为东、南、西、北, 剩余的4块为东南、西南、东北和西北), 对方向关系的描述较为精细, 但应用到检索系统中, 时间复杂度会较高。考虑到检索系统的检索效率, 结合人们在观看图像时对上北下南、左西右东的方向认知习惯, 本文将图像分为西北、东北、西南和东南4个区域, 并用这4个区域的方向描述图像的8种方向关系。用这种方法描述图像的方向关系虽不及传统描述方法准确, 但在检索过程中时间复杂度会降低, 且可满足用户对图像内容的认知和检索需求。

双重语义检索, 即检索具有2种语义的图像。在CSBN图像检索中, 可使用2组样本图像分别进行检索, 然后取2次检索结果的交集作为最终的检索结果。在考虑到图像的方向关系时, 当系统判定编码属于检索目标时, 先计算编码所处的区域位置, 若满足检索语义中的方向关系, 则作为结果图像, 否则舍去。也可以使用1组样本进行检索, 使编码对包含2种语义信息。

使用2组样本图像检索的数学描述如下:

IpIq分别为2种语义的样本图像, S Ik1()和S Ik2()分别为基于编码对函数( C11, C12)和( C21, C22)的语义得分函数(其中C1C2对应于2种不同的图像特征), 阈值 δk1δk2分别对应于语义得分函数S Ik1()和S Ik2()。 那么, 可定义检索图像集合A

A={S Ik1(Ip)≥ δk1S Ik2(Iq)≥ δk2} 。 (12)

为了保证检索系统的查全率, 通常将上述阈值设置为0。

1.3 AHFSS计算

对城市区域内的地物光谱信息进行统计分析后发现, 在城市区域集中出现的建筑物边缘及阴影、水泥屋顶等地物都是高频信号较强的地物, 故城市区域的图像在频率域内呈现高频信号强的特点。高通滤波具有保留图像高频信息、消除图像低频成份的作用。故先对图像进行高通滤波处理, 然后计算图像的AHFSS, 作为城市区域检索排序时的一个特征向量。通过实验研究, 本文采用理想型高通滤波器, 滤波器的截止频率为5。整个图像的变换(DFT)和(IDFT)反变换过程为

f(x, y)→ DFTF(u, v)→ F(u, v)H(u, v)→ G(u, v)→ IDFTg(x, y) , (13)

式中: f(x, y)为原始图像; F(u, v)为图像的傅里叶变换; H(u, v)为滤波器变换函数; g(x, y)为变换后图像。

在对图像进行高通滤波处理之后, 为了确定图像中高频信息的含量, 定义g(x, y)的平均值为AHFSS, 其计算方法为

AHFSS= 1MNx=0M-1y=0N-1g(x, y) , (14)

式中MN分别为图像的行数和列数。

2 检索实验结果及分析
2.1 城市区域检索实验

本文实验中用到的数据库由多光谱卫星图像分割而成, 每景图像大小为256像元× 256像元, 共20 000景, 涵盖了积雪(1 150)、农田(752)、城市(7 473)、水体(4 692)、森林(5 715)、云(605)、裸土(1 816)和岩石(2 214)等8种地物类型。括号中的数字表示与相应的语义概念相关联的图像数量, 其中, 1景图像可能对应多个语义概念。数据库中所用到的图像为IKONOS或WorldView2图像, 每景图像分别覆盖65 536 m2或262 144 m2的地物, 1景图像最多对应4种语义信息、最少对应1种语义信息。

在特征提取时, 把图像分割成32像元× 32像元的子图像, 以图像的颜色直方图作为底层特征向量, 并对图像进行编码(共300个码)。

本文采用局部的AHFSS值衡量图像的城市语义, 按照提出的4方向关系, 取每一景图像中4个方向区域中AHFSS最大值作为图像的AHFSS值, 其目的是为了有效避免图像中其他地物对城市区域的影响。倘若图像由单一地物构成, 则选用全局的AHFSS值来衡量图像; 但如果图像由多种地物构成, 则不宜使用整景图像的AHFSS值来衡量图像。由于其他地物的存在, 会使图像中城市区域图像的AHFSS值降低; 而选择4个方向区域中AHFSS最大值来衡量图像, 则可有效避免这个问题。

本文分2组实验与文献[7]提出的SBN和CSBN在城市区域检索中的效果进行对比。实验中以图像检索的查准率、查全率和F1测度值衡量检索系统。由于查准率和查全率之间存在着复杂的关系, 且单独使用查准率或查全率无法准确描述图像, 为了综合考虑2方面的情况, 有的学者在查准率和查全率的基础上提出了F1测度值, 其计算方法为

F1=2η rη p/(η rp) , (15)

式中: η r为查全率; η p为查准率。

2.1.1 实验一

选取图像库中的1组城市区域图像(共25景)作为训练样本进行检索实验, 分别比较SBN, CSBN和以AHFSS做筛选后的检索结果。选取的阈值为10, 保留AHFSS大于阈值的图像作为检索结果, 实验结果见表1

表1 贝叶斯网络城市区域检索结果比较 Tab.1 Comparison of urban area retrieval results based on Bayesian network

2.1.2 实验二

选取图像库中的单景图像作为训练样本进行检索实验, 共检索5次, 取查准率和查全率的平均值作为实验结果(表2)。

表2 单一训练样本贝叶斯城市区域检索结果比较 Tab.2 Comparison of Bayesian network based urban area retrieval results for single training sample
2.2 检索结果分析

2.2.1 SBN和CSBN

从实验结果可以看出, 在码本为300码时(表1), CSBN检索查准率较高, 而SBN查全率较高。使用相同的训练样本进行检索, 相较于SBN检索方法, CSBN检索方法检索出的图像减少了7 304景, 查准率提高了14.67%, 查全率降低了31.92%, F1测度值降低了0.71%。这主要是因为基于编码的检索具有更高的准确性, 而基于单个编码的检索具有更高的查全率。同时, 由于在实验数据库中, 城市区域的图像大约占37.36%, 如果检索中返回数据库中的全部图像, 检索的查准率也会有37.36%。各类型图像分布的不均匀也会对检索结果造成一定的影响, 本文中暂未考虑这一影响。

2.2.2 SBN+AHFSS和CSBN+AHFSS

表1可以看出, 选用一组训练样本进行检索实验, 相较于SBN检索方法, SBN+AHFSS检索方法检索出的图像总数减少了3 851景, 查准率提高了10.72%, 查全率降低了8.83%, F1测度值升高了6.14%。相较于CSBN检索方法, CSBN+AHFSS检索方法检索出的图像总数减少了1 005景, 查准率提高了6.51%, 查全率降低了2.67%, F1测度值升高了1.67%。这是由于城市区域图像的AHFSS值相对较高, 使用AHFSS结合阈值进行图像筛选能显著降低初次检索中的检索错误, 有效提高了检索系统的查准率。

表2可以看出, 相较于SBN检索方法, SBN+AHFSS检索方法使查准率提高了6.49%, 查全率降低了1.81%, F1测度值降低了0.05%。相较于CSBN检索方法, CSBN+AHFSS检索方法检索出的图像总数使查准率提高了3.28%, 查全率降低了0.27%, F1测度值降低了0.26%。这是由于在这些单景图像检索实验中, 由于检索查准率原本就很高, 故对检索结果影响不是很明显, 但也使查准率有了相应的提高。由于图像检索的查准率和查全率之间具有互逆性, 本文增加了检索的限制条件, 故降低了查全率, 使查准率变高。

2.3 双重语义检索实验

双重语义检索结果较大程度地受到所使用的数据库和选取的训练样本的影响。本文使用查准率较高的CSBN进行实验, 检索一边是城市、另一边是水体的图像。采用单一图像组成的训练样本进行检索实验, 检索结果(前10景)如图2所示。

图2 双重语义检索结果(前10景)Fig.2 Results of double-semantic retrieval(top 10 cences)

图2可以看出, 检索出的前10景图像均与检索语义相符合。由于检索结果图像中城市区域范围较大(尤其在1, 2, 3和10这4景图像中), 按照本文定义的方向关系, 城市区域占了全部的方位, 故检索精度还有待提高。

3 结论

本文根据城市区域集中出现边缘、建筑物阴影和水泥屋顶等高频信号较强地物的特点, 提出了一种基于上下文敏感的贝叶斯网络(CSBN)进行图像检索, 并结合平均高频信号强度(AHFSS)对初次检索结果进行筛选的遥感图像数据库城市区域检索方法。同时, 针对已有的CSBN检索模型中缺失方向关系的不足, 提出图像简单的方向关系模型。通过实验得出如下结论:

1)简单贝叶斯网络(SBN)系统具有较高的查全率, CSBN系统具有较高的查准率。这主要是由于CSBN比SBN系统有更多的限制条件, 故查准率较高。

2)编码区域在图像中所在的位置可以利用方向关系模型很明确地计算出来, 故利用区域间的方向关系可有效描述图像的语义信息。

3)利用AHFSS可以提高贝叶斯检索系统的查准率。

然而, 本文方法也存在一定的不足之处, 在图像筛选阶段, 阈值只由经验判断得出; 而在整个图像数据库中, 各类地物分布不均, 这会对检索结果造成一定的影响, 文中暂未考虑这一点。在今后进一步的工作中, 将着重研究如何根据图像自动生成阈值。

The authors have declared that no competing interests exist.

参考文献
[1] Zhang B. Intelligent remote sensing satellite system[J]. Journal of Remote Sensing, 2011, 15(3): 415-431. [本文引用:1]
[2] Li Y K. Semantic-Sensitive Remote Sensing Imagery Retrieval[M]. Beijing: China Environmental Science Press, 2014: 1-7. [本文引用:1]
[3] Wang M, Song T Y. Remote sensing image retrieval by scene semantic matching[J]. IEEE Transactions on Geoscience and Remote Sensing, 2013, 51(5): 2874-2886. [本文引用:1]
[4] Datta R, Joshi D, Li J, et al. Image retrieval: Ideas, influences, and trends of the new age[J]. ACM Computing Surveys, 2008, 40(2): Article No. 5. [本文引用:1]
[5] Belloulata K, Belallouche L, Belalia A, et al. Region based image retrieval using shape-adaptive DCT[C]//Proceedings of 2014 IEEE China Summit and International Conference on Signal and Information Processing(ChinaSIP), Xi’an, China: IEEE, 2014: 470-474. [本文引用:1]
[6] Datcu M, Seidel K. Human-centered concepts for exploration and understand ing of earth observation images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2005, 43(3): 601-609. [本文引用:1]
[7] 林明泽, 李轶鲲, 安新磊, . 简单贝叶斯网络的遥感图像检索[J]. 云南民族大学学报(自然科学版), 2010, 19(1): 67-70.
Lin M Z, Li Y K, An X L, et al. Remote sensing image retrieval based on the simple Bayesian network[J]. Journal of Yunnan University of Nationalities(Natural Sciences Edition), 2010, 19(1): 67-70. [本文引用:1]
[8] Li Y K, Bretschneider T R. Semantic-sensitive satellite image retrieval[J]. IEEE Transactions on Geoscience and Remote Sensing, 2007, 45(4): 853-860. [本文引用:1]
[9] Li Y K, Yang S W, Liu T, et al. Comparative assessment of semantic-sensitive satellite image retrieval: Simple and context-sensitive Bayesian networks[J]. International Journal of Geographical Information Science, 2012, 26(2): 247-263. [本文引用:1]
[10] 李轶鲲, 闫浩文, 孙建国. 分步式卫星图像检索[J]. 测绘科学, 2009, 34(6): 53-55.
Li Y K, Yan H W, Sun J G. Stepwise satellite image retrieval[J]. Science of Surveying and Mapping, 2009, 34(6): 53-55. [本文引用:1]