基于时空知识图谱的地籍数据质检与更新方法研究
A method for the quality inspection and update of cadastral data based on spatio-temporal knowledge graphs
通讯作者: 彭玲(1965-),女,博士生导师,研究员,主要研究方向为遥感智能信息与决策支持研究。Email:pengling@aircas.ac.cn。
责任编辑: 张仙
收稿日期: 2022-01-17 修回日期: 2022-05-16
基金资助: |
|
Received: 2022-01-17 Revised: 2022-05-16
作者简介 About authors
陈栾杰(1997-),男,博士研究生,主要研究方向为时空知识图谱。Email:
准确、高效地开展地籍数据质量检测与地籍数据库更新对自然资源监管至关重要。针对当下地籍数据管理质检更新效率低、动态监管需求难以满足、方法适用范围小等问题,基于时空知识图谱提出了一种地籍数据质检与更新方法框架,以地籍数据和遥感影像作为数据源,通过设计时空知识图谱概念层、数据层与推理规则,构建了针对地籍数据质检与更新工作流程的时空知识图谱。最后使用长沙市7块宗地进行实验,解决了质检与更新过程中的常见错误,并证明了相比一般方法本方法在效率上的优势。
关键词:
Accurate and efficient quality inspection and database updates of cadastral data are essential for natural resource management. The current cadastral data management faces problems such as the low efficiency of quality inspection and updates, difficulty in meeting the demand for dynamic supervision, and small application scopes of relevant methods. To solve these problems, this study proposed a method framework based on spatio-temporal knowledge graphs. Moreover, with cadastral data and remote sensing images as data sources, this study constructed a spatio-temporal knowledge graph targeting the quality inspection and update workflow of cadastral data by designing conceptual and data layers and inference rules. Finally, experiments on the method proposed in this study were conducted using seven parcels of land in Changsha. As a result, the common errors in the process of quality inspection and updates were solved, and the method proposed in this study was proven to be more efficient than common methods.
Keywords:
本文引用格式
陈栾杰, 李玮超, 彭玲, 陈嘉辉, 高翔.
CHEN Luanjie, LI Weichao, PENG Ling, CHEN Jiahui, GAO Xiang.
0 引言
另一方面,建立高效的地籍数据质检与更新框架也是地籍数据管理领域的研究热点,其中主流的方法是使用以ArcGIS为代表的地理信息系统[9]和基于关系型数据库的地籍信息系统[10]作为质检更新的参照系统,地籍数据通过参照系统检验无误后在真实地籍数据库中进行更新,从而提高入库数据的准确性。然而,以ArcGIS为代表的地理信息系统存在无法同时加载大规模地籍数据、质检过程运算效率低的问题,而传统的地籍信息系统通常展示地籍数据某一时刻的空间分布情况,不容易满足地籍动态监管的需求。因此,一些研究尝试构建融入时间信息的地籍信息系统。例如文献[11]在地籍数据的属性数据表中加上时间标识和事件标识,以记录土地的合并、分割等变更情况; 文献[12]根据地籍对象的变更过程,建立了地籍时空数据更新模型。但是,由于关系型数据库在建模过程中对数据结构限制十分严格,无法直观表示时空信息,同时当数据的时空信息变更时会对地籍信息系统产生额外的运行开销,存在地籍数据质检更新效率低或适用范围小的问题。此外,由于所用技术的性能限制,在地籍数据管理系统中通常只以存量地籍数据作为增量地籍数据质检与更新的依据,很少考虑引入其他来源的数据作为质检更新过程的数据参照,这可能会导致质检通过的地籍数据依然无法反映真实地物情况。
综上所述,本文借助知识图谱在知识融合上的优势和高效的计算分析能力,以遥感影像作为地籍数据真实性检验的参照依据,提出了一套基于时空知识图谱的地籍数据质检与更新方法,考虑了地籍数据的时空动态特性,在解决地籍数据质检与更新耗费大量人力与时间成本问题的同时,也改善了使用关系型数据库带来的时空信息表达能力弱和更新效率低的问题,并通过实验证明了时空知识图谱对于地籍数据时空信息的表达优势与处理质检更新任务时的性能优势。
1 地籍数据质检与更新技术框架设计
1.1 整体技术框架与流程设计
本文基于知识图谱[13]技术设计了地籍数据质检与更新技术框架。知识图谱是一种集成与利用知识的有效手段,它以“实例-关系-实例”“实例-属性-属性值”的三元组进行实例及其关系的表示,多个同领域实例的三元组相互连结形成表示这一领域知识的知识图谱。相比关系型数据库的表结构,知识图谱面向对象的特性使其拥有很强灵活性,能够方便创建或删除实例,与地籍数据需要实时更新需求相契合。时空知识图谱[14]指能够高效表达时间知识与空间知识的知识图谱,因为地籍数据的时空特征明显,使用时空知识图谱能更高效地利用地籍数据中的时空信息。本文以地籍数据和遥感影像作为数据来源,以时空知识图谱作为地籍数据质检与更新的参照系统,通过构建时空知识图谱来辅
助地籍数据库进行增量地籍数据的质检与入库更新,具体业务逻辑流程如图1所示。
图1
图1
地籍数据质检与更新业务逻辑流程图
Fig.1
Business logic of cadastral data quality inspection and update
对于技术流程的设计,需要首先明确地籍数据错误的类型,并针对不同的错误类型设计不同的质检方法流程,如表1所示。
表1 地籍数据错误类型与质检方法
Tab.1
错误类型 | 具体表现 | 质检方法 |
---|---|---|
属性错误 | 地籍数据中缺少相关必要属性,或者属性格式不正确 | 属性质检 |
拓扑错误 | 在同一时间同一区域内,地籍数据中的宗地位置与其他宗地位置存在拓扑冲突 | 拓扑质检 |
地籍数据虚报 | 地籍数据中标注了存在某一地物,但该地物并不真实存在 | 真实性检验 |
地籍数据坐标边界错误 | 一块宗地中的地物所在位置超出了地籍数据中所标注的该宗地的坐标范围,即地籍数据中所标注的宗地位置与该宗地的真实位置不一致 | 真实性检验 |
地籍数据的质检属于地籍数据库更新的中间过程,通过质检的地籍数据会在地籍数据库中进行更新。包含3个子流程的总体质检更新流程如图2所示。批量的地籍数据将逐一进行质检和更新,每个地籍数据实例分别通过属性质检、拓扑质检和真实性检验。
图2
图2
地籍数据质检与更新技术流程图
Fig.2
Flow chart of the quality inspection and updating of cadastral data
1.2 属性质检
待判定地籍数据会首先进行属性质检,属性质检用于检查地籍数据中的属性错误。在属性质检中,如果质检不通过则输出质检不合格结论与原因,并开始处理下一个地籍数据实例; 如果属性质检通过,则将在时空知识图谱中筛选出与当前待判定地籍数据同时相、同区域的地籍数据实例,将这些实例与待判定地籍数据进行拓扑比对,即拓扑质检。
1.3 拓扑质检
拓扑质检用于检查地籍数据的拓扑错误。在拓扑质检中,如果从时空知识图谱中筛选出的实例与当前待判定地籍数据存在空间关系的交集,说明待判定地籍数据存在几何形态描述的错误,或者说明筛选出的时空知识图谱实例存在几何形态描述的错误。在这种情况下,会将筛选出的时空知识图谱实例进行标记,并输出当前地籍数据质检不合格的结论与原因。若从时空知识图谱中筛选出的实例与当前待判定地籍数据不存在空间关系的交集,则表示拓扑质检通过,进一步进行地籍数据的真实性检验。
1.4 真实性检验
属性质检和拓扑质检只是保证了地籍数据没有属性错误和拓扑错误,并不能保证地籍数据地物实例的真实性,即地籍数据中标注的地物不一定是真实存在的。本文引入遥感影像作为地物真实情况的参照依据,通过提取遥感影像中的地物信息作为参照地物实例,基于知识图谱将地籍数据实例与参照地物实例进行比对以判断地籍数据的真实性。
首先检查地籍数据的虚报。如果对于同一片区域,待判定地籍数据中标注了某个地物实例但该实例的参照地物实例不存在,说明待判定地籍数据存在虚报的情况。反之如果参照地物实例存在,会进一步检查地籍数据坐标边界错误。
在地籍数据坐标边界检查中,在同一片区域内先将待判定地籍数据和参照地物实例对比,如果二者拓扑呈包含关系,即参照地物实例的坐标包含在待判定地籍数据宗地坐标范围内,说明待判定地籍数据真实性检验合格,待判定地籍数据不存在问题。反之若二者拓扑不呈包含关系,地籍数据与实际情况不一致,判定坐标边界错误。
2 地籍数据时空知识图谱构建
2.1 地籍数据时空知识图谱架构
地籍数据时空知识图谱以地籍数据作为数据基础,利用时空知识图谱中的关键知识对地籍数据质检与更新提供技术支持,实现地籍数据的自动高效质检与更新。地籍数据时空知识图谱以GraphDB图数据库[15]为载体,通过OWL本体语言[16]进行语义表示,并使用GeoSPARQL查询语法[17]进行语义搜索。本文基于此设计了用于地籍数据质检和更新的时空知识图谱架构,其核心包含了概念层、数据层以及辅助地籍数据质检与更新的推理规则,如图3所示。其中,概念层包括了时间概念、空间概念、地籍数据质检与更新规则概念; 数据层包括了遥感影像、存量地籍数据与地理编码数据。在地籍数据时空知识图谱中,概念层与数据层会建立相应映射关系,并基于时空知识图谱中的推理规则进行相应地籍数据管理操作。
图3
图3
用于地籍数据质检和更新的时空知识图谱架构
Fig.3
Spatio-temporal knowledge graphs architecture for the quality inspection and updating of cadastral data
2.2 概念层构建
地籍数据时空知识图谱的概念层描述了地籍数据管理过程中需要的相关概念,包括了时间概念、空间概念、地籍数据质检与更新规则概念。其中,地籍数据质检与更新规则概念包含了地籍数据管理流程中必要的事件与动作的定义,时间概念与空间概念为时空知识图谱中时空知识的表示方法,它是一种时空表示框架,时间与空间概念均采用本体[16]进行实现。
2.2.1 时间概念
图4
2.2.2 空间概念
图5
图5
GeoSPARQL空间本体逻辑结构图
Fig.5
Logical structure diagram of GeoSPARQL spatial ontology
2.2.3 地籍数据质检与更新规则概念
地籍数据质检与更新规则概念是对地籍数据时空知识图谱自动化执行推理程序的规则描述,是时空知识图谱推理的基础。规则概念逻辑结构如图6所示。一条规则由事件对象与动作对象组成。一个事件对象是一条推理规则的触发条件,一个动作对象是推理规则满足触发条件后执行的相应动作。事件对象概念根据事件的独立性划分为独立事件和事件组合,动作对象根据动作的独立性划分为独立动作和动作组合。其中,与事件(动作)组合指的是事件(动作)组合中的事件(动作)同时发生,或事件(动作)组合指的是事件(动作)组合中的事件(动作)发生任意一个,并事件(动作)组合指的是事件(动作)组合中特定的事件(动作)发生且其他事件(动作)发生任意一个。
图6
2.3 数据层构建
2.3.1 面向地籍数据的知识抽取
本文使用的地籍数据在进入时空知识图谱之前以shp的文件格式进行存储,文件存储了若干个宗地信息,存储结构如图 7所示。每个宗地信息在文件中被称为一个实例(feature),一个实例中包含了宗地的几何形态(geometry)与属性(properties)。其中,几何形态描述了宗地的位置与性状,构成宗地空间信息; 属性描述了宗地性质,包括时间信息与其他属性信息,如宗地权属、地址、编号、时间等信息。
图7
面向地籍数据的知识抽取就是将地籍数据中的时间信息、空间信息与属性信息与时空知识图谱中概念层的概念进行映射的过程。时间本体会根据地籍数据中的有效时段信息将时间信息映射到概念层的时间概念中,空间本体会根据地籍数据中的几何形态描述将空间信息映射到概念层中的空间概念中。此外,空间信息还会根据坐标与地理编码相关联。属性信息会作为属性值与地籍数据实例映射构成一个三元组表示。地籍数据知识抽取过程如图 8所示。
图8
图8
面向地籍数据的知识抽取过程图
Fig.8
Process diagram of knowledge extraction for cadastral data
2.3.2 面向遥感影像的知识抽取
图9
图9
面向遥感影像的知识抽取过程图
Fig.9
Process diagram of knowledge extraction for remote sensing images
2.3.3 地理编码数据获取与多尺度索引实现
为了提高地籍数据质检与更新过程中时空知识图谱空间信息检索效率,本文使用多尺度地理编码索引机制。瓦片金字塔是一种多分辨率层次模型,从瓦片金字塔的底层到顶层,分辨率越来越低,但表示的地理范围不变。时空知识图谱中的地籍数据实例与概念层中的GeoSPARQL空间本体相映射,首先对实例特征进行充分表达,以WKT数据结构记录精确坐标集合要素,表达为<主语: 地籍数据实例中心点 谓语: Geo: asWKY宾语: 地理坐标序列>,如图 10所示。
图10
图10
三元组记录地理坐标说明
Fig.10
Description of geographical coordinates of triple record
同时,在概念层的空间概念中存在<主语: 地籍数据实例 谓语: hasTileCode 宾语: 瓦片编码>结构,其中瓦片编码为字符串数据类型,一个地籍数据实例有一系列不同尺度的瓦片编码,也即在瓦片金字塔的各分辨率层次中都可以找到此地籍数据实例所处的瓦片,以此支撑时空地籍数据实例多尺度空间查询。
2.4 推理规则与方法设计
在推理规则定义环节,遵循前述推理判据概念层定义,每条推理规则关联的事件对象定义为待检查地籍数据与存量地籍数据的时空交集关系; 动作对象定义为待检查地籍数据与存量地籍数据存在时空交集时的检查动作集合、地籍数据合格与否判定准则; 最终按照概念层语义规范将推理规则表示并存储为图数据库中三元组集合。
在地籍数据检查环节,如图 11所示,将地籍数据实例封装为GeoJSON格式对象输入通用推理程序,该程序基于SPARQL查询自动获得地籍数据类型对象关联的推理规则; 依据推理规则事件对象定义的空间叠置条件自动检索拓扑质检所需的、与待判定地籍数据实例同区域同时相(即时空范围相同)的存量地籍数据,基于动作对象定义的检查动作集合执行相应动作函数,完成地籍数据属性完备性及格式正确性检查、边界拓扑关系检查,自动生成检查结论并按指定格式存储质检合格数据。
图11
图11
地籍数据质检推理计算流程图
Fig.11
Flow chart of quality inspection reasoning calculation of cadastral data
3 实验验证
实验以GraphDB作为时空知识图谱的存储载体,使用protégé工具[20]构建时空知识图谱的概念层与相关推理规则,选用Visual Studio 2019 作为开发平台进行数据层入时空知识图谱的自动化实现、质检与更新过程中相关动作函数流程的自动化实现,开发语言为C#,操作系统为Windows 10。
表2 时空知识图谱高效性分析
Tab.2
方法 | 精度分析 | 用时/min |
---|---|---|
ArcGIS | 查询并加载待质检区域数据环节可能出现数据遗漏,导致应检未检问题; 目视检查属性字段环节受质检员经验和临场操作规范影响,易导致质量问题未检出 | 60 |
时空知 识图谱 | 基于待质检区域边界坐标实现空间叠置分析自动提取区域内所有待质检图斑,不会出现应检数据遗漏问题; 基于预定义质检规则,通过推理方法全自动完成质检判断,排除了人为因素干扰 | 8.52 |
表3 实验宗地属性与拓扑情况说明
Tab.3
宗地名称 | 属性格式是否正确 | 与哪块宗 地存在拓 扑交集 | 是否存在 虚报建筑 | 是否存在 坐标边界 错误 |
---|---|---|---|---|
宗地A | 正确 | 无 | 否 | 否 |
宗地B | 不正确,缺少“房屋所有人”属性 | 无 | 否 | 否 |
宗地C | 不正确,“房屋名称”属性格式错误 | 无 | 否 | 否 |
宗地D | 正确 | 宗地E | 否 | 否 |
宗地E | 正确 | 宗地D | 否 | 否 |
宗地F | 正确 | 无 | 是 | 否 |
宗地G | 正确 | 无 | 否 | 是 |
其中,宗地B与宗地C存在属性情况的错误,宗地B缺少房屋所有人(FWSYR)属性,宗地C的房屋名称(FWMC)属性的属性值错误。宗地D与宗地E存在空间上的拓扑交集,两者的空间关系如图 12所示。宗地F中存在虚报建筑,即地籍数据中的建筑在真实遥感影像中并不存在,宗地G中存在坐标边界的错误。
图12
首先,实验将宗地A作为地籍数据质检与更新的输入,数据顺利入库。接着,依次将宗地B和宗地C作为输入,两宗地分别由于“缺少必须的属性名称”和“属性格式不正确”而拒绝入库。然后,依次将宗地D和宗地E作为地籍数据质检与更新的输入,其中宗地D由于不存在错误而顺利入库,而宗地E在拓扑质检时从时空知识图谱筛选出同时相同地点的宗地D实例,发现两者存在拓扑交集,因此宗地E拓扑质检失败拒绝入库,而宗地D也将在时空知识图谱中同时被标记为不合格,质检运行结果如图 13所示。然后,依次将宗地F和宗地G作为输入进行真实性检验时,对于宗地F,在和遥感影像参照实例进行比对后,发现同区域内宗地F没有任何参照实例,因此判定宗地F为虚报地籍数据,质检不通过。而宗地G发现了同区域内有6块参照实例,因此进一步判断宗地G与6块参照实例是否都为包含关系,发现宗地G与其中一块非包含,因此判定宗地G地籍边界标注错误,质检不通过,运行结果如图14所示。
图13
图13
宗地E拓扑质检不合格运行结果图
Fig.13
Operation results of unqualified quality inspection of parcel E topology
图14
图14
宗地G真实性检验不合格运行结果图
Fig.14
Operation results of parcel G unqualified in authenticity inspection
4 结语
本文针对当下地籍数据管理存在的问题,通过设计自动化的地籍数据质检与更新框架,减少了地籍数据管理中的人力成本与时间成本,并凭借时空知识图谱的强知识表达能力以及基于图结构的高运行效率,改善了使用关系型数据库带来的时空信息表达能力弱和更新效率低的问题。通过实验验证了方法的可行性与高效性,期望能给地籍数据管理提供一种新思路。
本文所设计的时空知识图谱仅针对地籍数据质检与更新这一任务,因此在未来的工作中,研究会继续探索以遥感数据和其他土地资源数据为基础的时空知识图谱的共通性,以在土地资源领域的多种任务场景中充分发挥知识图谱的优势。
参考文献
Implications of land-grabbing on the ecological balance of Brazil
[J].
DOI:10.3390/resources7030044
URL
[本文引用: 1]
In the global free-market, natural resource scarcity and opportunities for preserving the local environment are fostering international purchasing of large extensions of land, mainly for agricultural use. These land transactions often involve land cover change (i.e., through deforestation) or a shift from extensive or traditional to intensive agricultural practices. In Brazil, the land appropriation by foreign investors (i.e., the so-called “land-grabbing”) is affecting natural capital availability for local communities to a different extent in the very different territorial entities. At the same time, Brazilian investors are purchasing land in other countries. Ecological footprint accounting is one appropriate lens that can be employed to visualize the aggregated effect of natural capital appropriation and use. The aim of this paper is to provide a first estimate on the effect of land-grabbing on the ecological balance of Brazil through calculating the biocapacity embodied in purchased lands in the different states of Brazil. The results show that Brazil is losing between 9 to 9.3 million global hectares (on a gross basis, or a net total of 7.7 to 8.6 million of global hectares) of its biocapacity due to land-grabbing, when considering respectively a “cropland to cropland” (i.e., no land-cover change) and a “total deforestation” scenario. This represents a minimum estimate, highlighting the need for further land-grabbing data collection at the subnational scale. This analysis can be replicated for other countries of the world, adjusting their ecological balance by considering the biocapacity embodied in international transactions of land.
Credibility of the cadastral data on land use and the methodology for their verification and update
[J].DOI:10.1016/j.landusepol.2020.105204 URL [本文引用: 1]
Automatised and georeferenced energy assessment of an Antwerp district based on cadastral data
[J].DOI:10.1016/j.enbuild.2018.05.018 URL [本文引用: 2]
A review of methodologies used in research on cadastral development
[J].DOI:10.1016/S0198-9715(02)00011-X URL [本文引用: 1]
Using the case study methodology for cadastral reform
[J].
The politics of property taxation:Fiscal infrastructure and electoral incentives in Brazil
[J].DOI:10.1086/711902 URL [本文引用: 1]
地理信息质检数据库建设和应用的技术探讨
[J].
Investigations of construction and application technology for geographic information quality inspection database
[J].
基于已有资料的自动质检技术研究与实现
[J].
Research and implementation of automatic quality control technology based on existing material data
[J].
Cadastral level soil and water conservation priority zonation using geospatial technology
[J].
地籍信息系统数据库的构建
[J].
The establishment of database for cadastral information system based on GIS
[J].
时态GIS在地籍变更管理信息系统中的应用研究
[J].
Application research on temporal GIS in the cadastral alteration management system
[J].
面向对象的地籍时空过程表达与数据更新模型研究
[J].
Research of cadastral data modelling and database updating based on spatio-temporal process
[J].
A review:Knowledge reasoning over knowledge graph
[J].DOI:10.1016/j.eswa.2019.112948 URL [本文引用: 1]
Construction of spatiotemporal knowledge graph for emergency decision making
[C]//
Survey of graph database models
[J].
OWL web ontology language overview
[J].
Geosparql:Enabling a geospatial semantic web
[J].
An ontology-based framework to support intelligent data analysis of sensor measurements
[J].DOI:10.1016/j.eswa.2014.06.033 URL [本文引用: 1]
Building extraction and number statistics in WUI areas based on UNet structure and ensemble learning
[J].
DOI:10.3390/rs13061172
URL
[本文引用: 1]
Following the advancement and progression of urbanization, management problems of the wildland–urban interface (WUI) have become increasingly serious. WUI regional governance issues involve many factors including climate, humanities, etc., and have attracted attention and research from all walks of life. Building research plays a vital part in the WUI area. Building location is closely related with the planning and management of the WUI area, and the number of buildings is related to the rescue arrangement. There are two major methods to obtain this building information: one is to obtain them from relevant agencies, which is slow and lacks timeliness, while the other approach is to extract them from high-resolution remote sensing images, which is relatively inexpensive and offers improved timeliness. Inspired by the recent successful application of deep learning, in this paper, we propose a method for extracting building information from high-resolution remote sensing images based on deep learning, which is combined with ensemble learning to extract the building location. Further, we use the idea of image anomaly detection to estimate the number of buildings. After verification on two datasets, we obtain superior semantic segmentation results and achieve better building contour extraction and number estimation.
The protégé project:A look back and a look forward
[J].DOI:10.1145/2757001.2757003 PMID:27239556 [本文引用: 1]
/
〈 |
|
〉 |
