基于几何与属性匹配的地理信息数据融合更新方法
A geographic data fusion and update method based on geometric and attribute matching
责任编辑: 陈理
收稿日期: 2022-01-5 修回日期: 2022-07-11
基金资助: |
|
Received: 2022-01-5 Revised: 2022-07-11
作者简介 About authors
石善球(1980-),男,教授级高级工程师,主要从事测绘地理信息数据处理研究。Email:
针对多源地理信息数据在尺度、几何位置和属性等方面存在不一致性而造成难以融合更新这一现状,探讨了一种基于几何与属性匹配技术的地理信息数据融合更新方法。该方法首先通过广义Voronoi图获取候选集,有效地提高候选集的获取效率并减少不相关目标对候选集的影响; 接着,基于几何和属性匹配等关键技术实现点、线、面3种不同几何类型数据的匹配分析; 最后,基于匹配结果从参考地理信息数据中提取增量数据,并完成目标数据的融合更新。实验结果表明,采用几何与属性匹配的地理信息数据融合更新方法,能够高效识别并提取增量数据,对监测数据更新模式的创新探索有一定的借鉴意义。
关键词:
The inconsistency of multi-source geographic data in scale, geometric position, and attribute cause difficult data fusion and update. This study proposed a fusion and update method for geographic data based on geometric and attribute matching. First, the candidate set was acquired using the generalized Voronoi diagram, thus effectively improving the acquisition efficiency and reducing the impact of unrelated targets on the candidate set. Then, the matching analysis of point, line, and plane data was made using key techniques such as geometric and attribute matching. Finally, based on the matching results, the incremental data were extracted from the reference geographic information data, followed by fusion and update of target data. The experimental results show that the method proposed in this study can efficiently identify and extract incremental data and serves as a reference for the innovative exploration into the update mode of monitoring data.
Keywords:
本文引用格式
石善球.
SHI Shanqiu.
0 引言
目前,数据整合与融合更新的主要方法有: 基于日志的方法、基于变化检测表(影子表)的方法、基于时间戳字段的方法和基于自动匹配的方法[4]。考虑到各种来源的地理信息数据互相之间无权访问更改日志,无权添加影子表或时间戳字段,将比例尺相近的多源地理信息数据进行自动匹配是整合与融合的最彻底、最精确的方法。现有匹配算法可分为几何匹配、拓扑匹配和属性匹配3类[5]。几何匹配方法的优点是可充分利用数据的几何信息和特征,不足之处是多源数据的几何位置往往存在差异[6]; 拓扑匹配克服了几何匹配方法的不足,但是该方法通常需要其他相似特征一起使用[7]; 属性匹配的效率非常高,但是属性匹配方法过于依赖数据模型以及属性数据类型[8]。
本文基于几何与属性匹配理论探讨了点、线、面3种不同类型多源地理信息数据的融合更新方法,并通过省级基础测绘和地理国情数据验证该方法的可行性。
1 研究方法
多源地理信息数据融合更新方法步骤为: 首先,对2套不同来源的地理信息数据进行坐标、格式统一等预处理; 然后,根据空间数据类型对质量检查合格的数据进行图层关联; 再以待更新地理信息数据为源实体构建广义Voronoi图,在此基础上从参考地理信息数据中获取待匹配候选集; 接着,待更新地理信息数据与待匹配候选集进行几何匹配和属性匹配; 最后,基于匹配结果从参考地理信息数据中提取增量数据并完成待更新地理信息数据的融合更新。技术路线如图1所示。
图1
图1
多源地理信息数据融合更新技术路线
Fig.1
Technology roadmap of geographic information data fusion and update
2 关键技术
2.1 候选集获取
图2
2.2 几何匹配
2.2.1 基于距离与环境的点实体匹配
多源地理信息数据之间经常会出现一方局部区域点实体比较密集,而另一方则比较稀疏,甚至出现一方多点合一,另一方只有一个实体的现象。为提高匹配质量,本文采用基于距离与环境的点实体匹配技术。
首先,设
接着,计算源实体
式中
然后,采用文献[15]的方法计算源实体
最后,利用各个特征的相似度计算源实体和候选匹配实体的综合图形相似度
式中
2.2.2 基于Fréchet距离和线段模型的线实体匹配
由于多源地理信息数据之间存在采集标准的差异,所以同名对象之间大多是1∶N,M∶1或者M∶N匹配类型,为提高匹配质量,通过建立线段模型,抽象为1∶1匹配类型来处理。
具体思路如下: 首先,将源实体和匹配候选集实体分别在结点(交叉点)处打断; 然后,依据唯一的实体编码将源实体和匹配候选集实体分别进行合并连接; 接着,再将源实体和匹配候选集实体分别在结点(交叉点)处打断; 最后采用文献[13]的方法,基于Fréchet距离计算源实体和候选匹配实体之间相似度
式中
2.2.3 基于空间相似性的面实体匹配
面实体匹配同样包含1∶N,M∶1或者M∶N匹配等类型,其中M∶N匹配类型是面实体匹配重点解决的问题,因此,面实体的匹配需要采用计算多个几何特征的方法。本文采用文献[16]的方法,分别计算源实体
在此基础上,利用各个特征的相似度计算源实体和候选匹配实体的综合图形相似度
式中
2.3 属性匹配
属性匹配原理是利用不同数据源对相同地理现象的基本性质描述相同或相近的特点。本文鉴于多源地理信息数据属性数据类型和属性表达的内容层面不同,研究了数值、编码和文本3种不同的属性匹配方法。在此基础上利用各种属性项的相似度计算要素的综合相似度。
2.3.1 数值匹配
主要用于计算 integer 型、float 型和double 型的数值之间的相似度,如道路宽度和水库面积等。其相似度
式中
2.3.2 编码匹配
编码匹配是通过比较它们前
2.3.3 文本匹配
文本匹配以文本的方式来描述要素的名称和位置等信息。本文考虑属性值漏输或错输的情况从2个方面进行匹配。一是2个字符串中相同字符的数目,设为
式中:
2.3.4 综合属性相似度
利用各种属性项的相似度指标计算源实体a和候选匹配实体b的综合属性相似度
式中:
2.4 增量提取及融合
从多源矢量参考数据中提取图形改变、属性改变、图形和属性改变的3种数据,同时获取对应自然资源监测数据的唯一实体编码,在此基础上完成数据的融合更新。假设
3 应用与评价
3.1 融合应用
基于江苏省全域2020年度国情监测数据更新2019年度江苏省全域1∶10 000基础测绘数据(重要要素),其中2020年度国情监测数据涉及14个图层,共计191 667个要素,基础测绘数据涉及10个图层,共计441 544个要素。采用本文方法,分类开展了基于几何与属性匹配的多源地理信息数据融合更新实验,具体融合结果如表1所示。
表1 基础测绘数据融合更新结果
Tab.1
要素名称 | 融合更新内容 | 分类名称 | 基础测绘 数据要素 数量/个 | 国情监测 数据要素 数量/个 | 几何更新 要素数 量/个 | 属性更新 要素数 量/个 | 几何属性 更新要素 数量/个 | ||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
水系 | 重要水系 | 水系的改道、新开挖的河流、新建大中型水库等 | 等级河流 | 5 068 | 5 048 | 3 380 | 56 | 3 324 | |||||
水库 | 1 718 | 1 581 | 465 | 44 | 421 | ||||||||
重要水系附属设施 | 大中型水闸和船闸、泵站、干堤等 | ||||||||||||
水闸 | 45 836 | 15 500 | 1 346 | 8 881 | 457 | ||||||||
船闸 | 417 | 12 | 2 | 3 | 4 | ||||||||
泵站 | 85 683 | 67 983 | 634 | 12 716 | 1 034 | ||||||||
干堤 | 6 134 | 5 675 | 3 679 | 854 | 2 918 | ||||||||
居民 地及 设施 | 重要设施或标志性建筑 | 大中型自来水厂和污水处理厂、大型医院、学校等 | 自来水厂 | 916 | 1 435 | 887 | 69 | 801 | |||||
污水处理厂 | 727 | 888 | 384 | 51 | 335 | ||||||||
医院 | 15 941 | 5 717 | 1 745 | 2 829 | 399 | ||||||||
学校 | 9 794 | 14 135 | 5 773 | 1 094 | 1 509 | ||||||||
交通 | 飞机场 | 机场及附属设施 | 机场 | 30 | 12 | 0 | 0 | 1 | |||||
铁路 | 高铁、动车相关铁路 | ||||||||||||
铁路 | 2 668 | 453 | 373 | 71 | 302 | ||||||||
高速公路及国省道 | 更新高速、国道、省道 | ||||||||||||
等级公路 | 57 784 | 61 368 | 39 393 | 25 421 | 13 972 | ||||||||
重要交通附属设施 | 大型交通枢纽,火车站,县级及以上的长途汽车站,高速、国省道相关的大型桥梁、隧道,大中型渡口、大中型码头等 | ||||||||||||
火车站 | 181 | 135 | 30 | 5 | 24 | ||||||||
汽车站 | 722 | 719 | 222 | 46 | 172 | ||||||||
桥梁 | 199 020 | 6 505 | 17 466 | 17 427 | 314 | ||||||||
隧道 | 736 | 188 | 125 | 17 | 119 | ||||||||
渡口 | 57 | 70 | 53 | 9 | 34 | ||||||||
码头 | 6 080 | 2 595 | 479 | 363 | 326 | ||||||||
要素名称 | 融合更新内容 | 分类名称 | 基础测绘 数据要素 数量/个 | 国情监测 数据要素 数量/个 | 几何更新 要素数 量/个 | 属性更新 要素数 量/个 | 几何属性 更新要素 数量/个 | ||||||
境界 与行 政区 | 县级及以上行政境界 | 主要是行政区划的调整 | 省界 | 64 | 46 | 35 | 0 | 35 | |||||
市界 | 36 | 36 | 3 | 0 | 3 | ||||||||
区县界 | 177 | 175 | 27 | 0 | 27 | ||||||||
国省级自然经济文化区域 | 经国家或省级政府颁布的自然保护区、国家森林公园、AAAA级及以上风景旅游区、世界自然或文化遗产、高新技术开发区、经济开发区、农业开发区、保税区等 | 自然文化保护区 | 115 | 157 | 139 | 1 | 138 | ||||||
国有农林、牧场 | 57 | 107 | 83 | 16 | 80 | ||||||||
开发区、保税区 | 150 | 197 | 70 | 9 | 61 | ||||||||
地名 | 乡镇级及以上行政地名 | 主要是行政区划调整或名称变更后的名称、驻地的更新 | 乡镇级以上 | 1 433 | 930 | 104 | 63 | 62 |
分析表1可知,其中居民地及设施要素中的学校、污水处理厂和自来水厂,水系要素中的泵站、水库,境界与行政区要素中的市界、区县界、开发区、保税区、国有农林、牧场和交通要素中的等级公路、汽车站和火车站,地名要素中的乡镇级以上行政地名等13个分类的几何匹配度都在60%以上,所以这些要素可以通过几何与属性匹配的方法完成利用2020年度国情监测数据更新2019年度基础测绘数据(重要要素),而等级河流、干堤和隧道等其他要素由于整体匹配度较低,不建议采用本文融合更新的方法。
实验结果表明,针对几何位置采集标准不一致的点实体匹配,以属性相似度为主,同时辅以距离相似度和环境相似度等条件可提高融合质量; 针对属性高度不吻合的线实体,以其中一方数据的属性为准,通过Fréchet距离等几何匹配方法可实现数据的准确、快速融合; 用空间相似性匹配基于广义Voronoi图方法获取的候选数据集可提高面实体的融合精度。
3.2 匹配质量评价
通常根据匹配精度和匹配效率衡量多源矢量数据匹配算法质量的优劣。目前匹配精度应用最为广泛的评价准则是查全率R、查准率P和综合评价指标F。查全率是指正确匹配的实体数目与数据集全部实体总数的百分比; 查准率是指正确匹配的实体数目与实际检索到的匹配实体数目的百分比,综合评价指标兼顾查全率和查准率; 匹配效率通过评价得到匹配结果所耗费的时间反映[17]。F的计算公式为:
从国情监测和基础测绘数据中选取部分点、线、面数据进行匹配质量评价。候选集获取的评价以面实体匹配为例,其评价结果如表2所示; 在候选集获取的基础上,点实体、线实体和面实体的匹配评价结果如表3—5所示。分析表2可知,在不考虑创建搜索区耗时的前提下,基于Voronoi图的候选集获取与基于缓冲区或基于MBR的候选集获取相比,不管是在匹配精度(综合评价指标提升约17%)还是在匹配效率(提高近1倍)上都有所提高。分析表3—5可知,采用本文提出的匹配算法虽然匹配效率有所降低,但匹配精度都得到不同程度的提高。特别是线实体的匹配精度,其综合评价指标提高了近50%,点实体和面实体的综合评价指标也提高了约1%和4%。
表2 候选集获取评价
Tab.2
匹配算法 | 数据 | 匹配精度 | 搜索区域 创建时间/s | 匹配效率/s | |||
---|---|---|---|---|---|---|---|
名称 | 数量/个 | R | P | F | |||
基于缓冲区和空间相似性的匹配 | 国情监测数据 | 1 483 | 0.503 5 | 0.732 3 | 0.596 7 | 5.7 | 12.6 |
基础测绘数据 | 1 698 | ||||||
基于MBR和空间相似性的匹配 | 国情监测数据 | 1 483 | 0.493 5 | 0.794 4 | 0.608 8 | 6.9 | 15.0 |
基础测绘数据 | 1 698 | ||||||
基于Voronoi图和空间相似性的匹配 | 国情监测数据 | 1 483 | 0.612 6 | 0.813 3 | 0.698 8 | 183.0 | 8.2 |
基础测绘数据 | 1 698 |
表3 点实体匹配质量评价
Tab.3
匹配算法 | 数据 | 匹配精度 | 匹配效率/s | |||
---|---|---|---|---|---|---|
名称 | 数量/个 | R | P | F | ||
基于距离相似度的点实体匹配 | 国情监测数据 | 21 770 | 0.535 4 | 0.730 0 | 0.617 7 | 13.8 |
基础测绘数据 | 20 770 | |||||
基于距离与环境的点实体匹配 | 国情监测数据 | 21 770 | 0.518 4 | 0.776 0 | 0.621 6 | 22.7 |
基础测绘数据 | 20 770 |
表4 线实体匹配质量评价
Tab.4
匹配算法 | 数据 | 匹配精度 | 匹配效率/s | |||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
名称 | 原始弧段数/个 | 构建线段模型 | R | P | F | |||||||||
基于Fréchet距离的线实体匹配 | 国情监测数据 | 225 060 | — | 0.501 9 | 0.580 8 | 0.538 5 | 209.3 | |||||||
基础测绘数据 | 64 663 | — | ||||||||||||
基于Fréchet距离和线段模型的线实体匹配 | 国情监测数据 | 225 060 | 59 165 | 0.760 2 | 0.863 3 | 0.808 5 | 613.1 | |||||||
基础测绘数据 | 64 663 | 56 170 |
表5 面实体匹配质量评价
Tab.5
匹配算法 | 数据 | 匹配精度 | 匹配效率/s | |||
---|---|---|---|---|---|---|
名称 | 数量/个 | R | P | F | ||
基于空间相似性的面实体匹配 | 国情监测数据 | 1 483 | 0.612 6 | 0.813 3 | 0.698 8 | 8.2 |
基础测绘数据 | 1 698 | |||||
基于属性和空间相似性的面实体匹配 | 国情监测数据 | 1 483 | 0.603 9 | 0.903 7 | 0.724 0 | 14.1 |
基础测绘数据 | 1 698 |
4 结论
针对多源地理信息数据在尺度、几何位置和属性等方面存在不一致性而造成难以融合更新这一现状,提出了一种基于几何与属性匹配的地理信息数据融合更新方法。
1)通过广义Voronoi图获取候选集,有效地提高候选集的获取效率并减少不相关目标对候选集的影响。
2)点实体匹配中引入环境相似度,有效解决了点实体匹配中数据集整体呈强覆盖,而部分密集的区域呈现弱覆盖的匹配问题。
3)线实体匹配前通过建立线段模型,抽象为1∶1匹配类型来处理,可有效提高匹配质量。
4)考虑多个几何特征并结合实体属性进行面实体匹配,可提高M∶N匹配类型的质量。
通过利用2020年度国情监测数据更新2019年度基础测绘数据(重要要素)验证了该方法的可行性。研究成果对监测数据更新模式的探索有一定的借鉴意义。本文匹配方法中用到的权重和阈值多数依赖于人工经验,有待进一步研究。
参考文献
地理信息软件的技术进阶与应用创新
[J].
Technology advancement and application innovation of geographic information software
[J].
多源地理要素变化识别研究
[J].
Research on the change of multi-source geographical elements
[J].
我国将构建自然资源统一调查监测体系
[J].
China will build a unified survey and monitoring system for natural resources
[J].
地理空间数据增量更新版本化管理方法研究
[J].
Research on versioning management method for incremental update of geospatial data
[J].
多源地理矢量空间数据融合研究
[J].
Research on multi-source geospatial spatial data fusion
[J].
空间数据相似性研究的若干基本问题
[J].
Research on some fundamental issues of spatial data similarity
[J].
一种形状多级描述方法及在多尺度空间数据几何相似性度量中的应用
[J].
A shape multilevel description method and application in measuring geometry similarity of multi-scale spatial data
[J].
顾及通名语义的汉语地名相似度匹配算法
[J].
Matching algorithm for chinese place names by similarity in consideration of semantics of general names for places
[J].
采用Stroke层次结构模型的道路网匹配方法
[J].
Road network matching method with stroke-hierarchical model
[J].
多源矢量空间数据融合处理技术研究进展
[J].
Research on the progress of multi-sources geospatial vector data fusion
[J].
地图合并技术
[J].
Map conflation
[J].
改进平均Fréchet距离法及在化简评价中的应用
[J].
An improved average Fréchet distance method and application in simplification evaluation
[J].
一种利用多维目标分割比的矢量图形匹配算法
[J].
An efficient matching algorithm based on vector graphics using multi-dimensional object segmentation ratio
[J].
基于空间相似性的面实体匹配算法研究
[J].
Areal feature matching algorithm based on spatial similarity
[J].
/
〈 |
|
〉 |
