大数据时代遥感数据管理与服务模式探索
程滔
国家基础地理信息中心,北京 100830
摘要

通过分析现有海量遥感数据管理与服务模式的特点与局限性,探索并提出了面向大数据时代的新服务模式。以截至2011年底我国国家基础航空摄影项目获取的全国卫星遥感数据为研究实例,基于空间叠置分析和统计计算,衍生出一种新的服务产品,用来表达各区域遥感数据覆盖频次与分布状态,为用户提供更深层次的服务。研究表明,该模式有利于研究人员在大数据时代下,掌握遥感数据覆盖的综合情况,根据实际需求快速获取遥感数据,提高遥感数据检索和获取效率,提升海量遥感数据管理与服务水平。

关键词: 大数据; 遥感数据; 管理与服务; 空间分析; 地理国情监测
文献标志码:A 文章编号:1001-070X(2016)04-0202-05 doi: 10.6046/gtzyyg.2016.04.31
Exploring management and service mode for remote sensing data in big data era
CHENG Tao
National Geomatics Center of China, Beijing 100830, China
Abstract

A new service mode is explored and proposed oriented to big data era on the basis of analyzing the limitations of the existing massive remote sensing data’s management and service mode. It takes national satellite remote sensing data acquired in the project of national basic aerial photography until the end of 2011 as the research example. Based on spatial overlap analyzing and statistical calculating, a new derivative product is made, which can reveal covering frequency and distribution of remote sensing data and provide a further service for users. The results show that the proposed service explores efficient mode and has the potential to help researchers to grasp comprehensive covering status of remote sensing data under the situation of big data era. Based on the spatial analyzing results, users’ requirements and submitting orders could be confirmed rapidly, which improves the retrieval and access efficiency and raises the management and service level of massive remote sensing data.

Keyword: big data; remote sensing data; management and service; spatial analysis; geographic national conditions monitoring
0 引言

现有遥感数据管理与服务模式大多是基于B/S或C/S架构, 由专门的机构利用数据库对一种或几种特定传感器遥感数据及其元数据进行管理和服务。随着我国地理国情监测事业的开展, 高空间分辨率遥感数据已在全国范围工程化应用, 遥感数据规模也进入大数据时代。

大数据管理与服务技术研究及其应用是近几年的研究热点[1, 2, 3, 4]。郑磊等[5]探讨了以ArcEngine与ArcGIS Server为基础的遥感数据管理, 通过建立具有地理信息的数据索引, 研究了海量影像数据相关信息档案的存储方式。刘露[6]对全球海量遥感影像数据的分布式管理技术进行了研究, 分析了全球多维海量遥感影像数据分布式管理中的关键技术难题, 并探究了解决方案。在应用方面, 中国科学院遥感与数字地球研究所和中国资源卫星应用中心等机构, 向全国广大用户提供了丰富的对地观测卫星数据产品和服务。国家基础地理信息中心也对多年来国家基础航空摄影项目获取、积累的遥感数据进行了管理和服务, 但该服务仅面向全国测绘系统内部以及应急救灾事件等的需要。

随着遥感应用技术的发展和不断成熟, 以及应用领域的不断扩大, 多源多时相遥感数据需求变得更加迫切和普遍[7]。针对这一需求, 本文以截至2011年底我国国家基础航空摄影项目获取的全国卫星遥感数据为研究实例, 探索大数据时代的遥感数据管理与服务模式, 解决现有服务模式的局限性问题。首先分析现有遥感影像数据管理方式与特点, 以及遥感影像元数据库的构建方法、数据内容和数据结构, 然后在现有数据库基础上, 利用空间叠置分析和统计计算, 进行深层次的数据挖掘, 衍生出一种新的数据分析成果, 为用户提供更加精细的、面向新需求的服务。

1 现有管理方式与服务特点

目前, 对海量遥感数据的管理, 一般采用统一的元数据库, 通过元数据库管理系统进行实时维护和更新。

1.1 数据分析

自国家基础航空摄影项目开展以来, 已经积累了覆盖全国不同空间分辨率的遥感数据, 包括模拟航片、数字航片、光学卫星遥感数据和雷达卫星遥感数据等。其中, 卫星遥感数据种类已经达到20余种, 包括ALOS, ASTER, ETM, FW2, IKONOS, P5, P6, Plé iades, QuickBird, RADARSAT, RapidEye, SPOT, TM, WorldView和天绘等[8]。这些遥感数据具有组织单元各异(如按标准/非标准景、标准/非标准条带等)、数据格式各异(如GeoTIFF, TIF, DAT和JPG等)、波段组合各异(如单波段、合成波段等)、元数据格式各异(如TXT, IMD和XML等)和元数据编码方式各异(如ANSI和Unicode等)等特点。

1.2 元数据库构建

卫星遥感数据元数据是描述数据集的空间位置、获取时间、空间分辨率、空间参考和质量等特征的属性数据[9, 10]。由于卫星遥感数据种类较多, 各卫星遥感数据元数据的结构和格式各不相同, 国家基础地理信息中心依托国家基础航空摄影项目设计了统一的元数据结构, 开发了元数据库以及相应的管理系统。

该系统是在Microsoft Visual C++ 6.0集成开发环境中[11], 以Microsoft SQL Server数据库作为存储和管理库体, 以ADO 作为访问服务器端数据库的编程接口[12, 13], 综合应用开源栅格空间数据转换库(geospatial data abstraction library, GDAL)、矢量空间数据转换库(OGR)以及地理信息系统技术实现的。元数据库的构建, 形成了各卫星遥感数据元数据统一入库、更新、检索和服务体系, 并实现了属性数据、图形数据的一体化存储, 为卫星遥感数据元数据规范化管理、快速检索、统计分析和数据服务奠定了数据基础。

元数据内容主要包括遥感数据的基本信息、空间位置信息、姿态信息、数学基础、质量信息和管理信息等, 数据结构如表1所示。

表1 元数据内容与结构 Tab.1 Content and structure of metadata

表1可以看出, 元数据包含了遥感数据常用的属性信息, 为数据检索和服务提供了较多的检索条件。截至2011年底, 利用元数据库管理系统, 已完成24 000余条全国卫星遥感数据元数据信息的录入建库与管理, 生成的图形数据可反映遥感数据的空间分布状态。按照空间分辨率的不同, 30 m空间分辨率、8~20 m空间分辨率、0.5~5 m空间分辨率的遥感数据在全国范围覆盖情况如图1所示。

图1 在全国范围内遥感数据覆盖情况(审图号: GS (2016)1号, 行政区划资料截止到2001年。图3同。)Fig.1 Coverage of remote sensing data in China

图1可以看出, 单一高空间分辨率传感器数据, 覆盖全国范围的难度较大, 这与全国范围较广以及部分地区的气候条件有较大关系。

1.3 数据服务特点

国家基础航空摄影项目积累的遥感数据服务模式具有以下主要特点:

1)元数据库管理系统为数据用户提供了开放式的检索方式, 用户确定了研究区域后, 通过管理系统即可自主检索是否存在需要的数据。

2)数据获取一般是根据特定项目需求计划确定的, 获取的数据必定是用户需要的, 数据订单完成后, 只需传送给用户即可。

3)获取的遥感数据类型丰富, 充分满足了用户需求。

2 新服务模式探索

目前, 遥感应用技术的发展和推广已经达到一个新的高度和广度, 涉及的行业和领域也进一步扩大, 遥感数据也面临着新的用户需求和服务内容, 迫切需要根据实际情况, 改进和完善现有服务模式, 以更好地为用户服务。

2.1 需求方式变化

随着遥感数据的不断丰富, 利用遥感技术研究土地覆盖变化、生态环境变化乃至全球变化, 在国际上一直是研究前沿和热点[14]。随着我国地理国情监测事业的开展, 利用多源多时相遥感影像数据开展变化监测, 已经成为测绘行业主要的应用需求。

在这种形势下, 对遥感数据的需求也发生了变化, 主要表现为:

1)研究人员侧重于研究区历史和现在的对比分析, 甚至开展对将来发展趋势的预测。单时相遥感数据已无法满足监测的需求, 更加需要研究区长期积累的多时相遥感数据。

2)由于全国地域面积广阔, 一种或几种特定传感器遥感数据无法完全满足应用需求, 需要整合并充分利用多源遥感数据(光学遥感数据、雷达遥感数据和高空间分辨率遥感数据等)开展工作。

3)传统先确定研究区, 再检索元数据库管理系统的模式, 往往会出现因为遥感数据覆盖情况不满足实际需求, 而增加用户与管理机构的工作量, 也延长了数据获取周期。急需推广先掌握遥感数据覆盖情况, 再合理选择和确定研究区的模式。

2.2 基于空间分析与统计的服务

面向遥感数据的新需求方式和内容, 管理机构基于现有数据库, 开展了进一步的数据挖掘, 提供了新的数据服务, 实现了对现有服务的补充和完善。由于元数据库不仅包含影像的属性信息, 同时还具有空间几何信息, 可基于空间叠置分析模型和统计计算, 衍生一种新的数据分析成果, 表征各区域遥感数据覆盖的综合情况, 从而构建一种新的服务产品, 为用户提供更深层次的服务。

现有遥感数据元数据库是根据影像类别分别构建元数据层, 为了获取遥感数据覆盖频次专题图, 需要先将各层的元数据进行融合; 再对元数据的遥感数据进行空间叠置分析[15], 包括空间求交(intersect)、对称求差(symmetrical difference)等; 并利用统计计算, 标示遥感数据重叠覆盖频次, 作为属性项进行记录, 生成包含原属性信息的新成果数据, 从而获得遥感数据覆盖频次专题图。数据处理流程如图2所示。

图2 元数据空间叠置分析和统计计算流程Fig.2 Flow chart of spatial overlap analyzing and statistics for metadata

2.3 服务内容分析

图1可知, 0.5~5 m空间分辨率的遥感数据在全国范围覆盖情况最为复杂, 包含的影像种类多, 多边形数量大。以该数据集中0.5~2.5 m高空间分辨率遥感数据为例, 利用空间叠置分析和统计计算, 衍生覆盖频次专题图, 结果如图3所示。

图3 遥感数据覆盖频次专题图Fig.3 Thematic map of remote sensing data covering frequency

图3可以看出, 覆盖频次最多达到22次, 在空间分析过程中, 经空间求交、对称求差等叠置分析后, 多边形数量达到31.2万个, 各覆盖频次多边形数量统计结果如图4所示。

图4 各覆盖频次多边形数量统计结果Fig.4 Statistical results of polygon quantity for all the covering frequency

图4可以看出, 各覆盖频次多边形数量统计结果呈正态分布规律, 频次主要集中在2~9, 占比最高的频次为4, 达到16.62%。

该类遥感数据全国总覆盖面积为800万km2, 各覆盖频次面积统计结果如图5所示。

图5 各覆盖频次面积统计结果Fig.5 Statistical results of polygon area for all the covering frequency

图5可以看出, 各覆盖频次面积呈逐渐递减趋势, 占比最高的频次为1, 面积为388万km2, 占比达到48.50%; 其次, 覆盖2次的面积为247万km2, 占比达到30.88%。

根据元数据库记录分析可以看出, 覆盖频次过多的区域大多是由于重大项目需要获取的立体像对, 像对间重叠度大, 因此, 覆盖频次出现异常多的情况。总体而言, 覆盖2次以上的区域为重复覆盖区域, 能够为研究人员提供数据检索依据。

在专题图上, 还可以显示重叠覆盖的遥感数据类型、拍摄时间等属性信息, 便于用户在检索时, 更加直接地了解数据覆盖的综合情况, 根据实际需要有选择性地快速明确需求并提交订单。同时, 在遥感数据不断积累的过程中, 遥感数据管理机构可以将积累的数据不定期地添加到统计分析结果中, 对该结果进行更新与维护, 让用户及时了解最新的数据情况。

3 结论

从一个特定的实际需求角度, 探索了大数据时代的遥感数据管理与服务模式, 利用遥感、地理信息系统等技术, 分析并衍生了一种新的服务产品。利用空间叠置分析和统计计算的方法, 得出了遥感数据覆盖综合情况, 对现有服务模式进行相应的改进和完善, 解决了现有服务模式的局限性问题, 提升了海量遥感数据管理与服务水平。本文研究成果仅是统计分析结果中的一种, 可为相关研究人员提供一些借鉴, 在高效检索海量遥感数据方面具有实用价值。随着遥感数据量的剧增, 衍生产品也将呈现多样性的特点。

The authors have declared that no competing interests exist.

参考文献
[1] 韩晶. 大数据服务若干关键技术研究[D]. 北京: 北京邮电大学, 2013.
Han J. Research on Some Key Technologies of Big Data-as-A-Service[D]. Beijing: Beijing University of Posts and Telecommunications, 2013. [本文引用:1]
[2] 霍树民. 基于Hadoop的海量影像数据管理关键技术研究[D]. 长沙: 国防科学技术大学, 2010.
Huo S M. Research on the Key Techniques of Massive Image Data Management Based on Hadoop[D]. Changsha: National University of Defense Technology, 2010. [本文引用:1]
[3] 李波. 基于Hadoop的海量图象数据管理[D]. 上海: 华东师范大学, 2011.
Li B. The Management of Massive Images Data Based on Hadoop[D]. Shanghai: East China Normal University, 2011. [本文引用:1]
[4] 张滨, 陈吉荣, 乐嘉锦. 大数据管理技术研究综述[J]. 计算机应用与软件, 2014, 31(11): 1-5, 10.
Zhang B, Chen J R, Le J J. Overview on big data management technology research[J]. Computer Applications and Software, 2014, 31(11): 1-5, 10. [本文引用:1]
[5] 郑磊, 杨德红, 孙德亮. GIS技术在遥感数据管理中的应用[J]. 重庆理工大学学报: 自然科学, 2011, 25(3): 88-91.
Zheng L, Yang D H, Sun D L. Application of GIS technology in management of remote sensing data[J]. Journal of Chongqing University of Technology: Natural Science, 2011, 25(3): 88-91. [本文引用:1]
[6] 刘露. 全球海量遥感影像数据的分布式管理技术研究[D]. 长沙: 国防科学技术大学, 2007.
Liu L. Research on Distributed Management Technology of Global Mass Remote Sensing Image Data[D]. Changsha: National University of Defense Technology, 2007. [本文引用:1]
[7] 陈俊勇. 地理国情监测的学习札记[J]. 测绘学报, 2012, 41(5): 633-635.
Chen J Y. Study notes on geographic national condition monitoring[J]. Acta Geodaetica et Cartographica Sinica, 2012, 41(5): 633-635. [本文引用:1]
[8] 程滔, 郭雅琳, 周旭, . 面向大规模数字正射影像的质量检查方法[J]. 合肥工业大学学报: 自然科学版, 2013, 36(7): 816-819, 896.
Cheng T, Guo Y L, Zhou X, et al. A quality inspection method for mass digital orthophoto maps[J]. Journal of Hefei University of Technology: Natural Science, 2013, 36(7): 816-819, 896. [本文引用:1]
[9] 吴金华, 祝国瑞. 空间数据仓库元数据的结构体系[J]. 东华理工学院学报, 2004, 27(2): 189-192.
Wu J H, Zhu G R. The structure of metadata in spatial data warehouse[J]. Journal of East China Institute of Technology, 2004, 27(2): 189-192. [本文引用:1]
[10] 张立, 龚健雅. 地理空间元数据管理的研究与实现[J]. 武汉测绘科技大学学报, 2000, 25(2): 127-131.
Zhang L, Gong J Y. Research and implementation of the management of geospatial metadata[J]. Journal of Wuhan Technical University of Surveying and Mapping, 2000, 25(2): 127-131. [本文引用:1]
[11] 宋坤, 刘锐宁, 李伟明. Visual C++开发技术大全[M]. 北京: 人民邮电出版社, 2007.
Song K, Liu R N, Li W M. Visual C++ Developing Technology[M]. Beijing: Posts and Telecom Press, 2007. [本文引用:1]
[12] 姚万军. VC下利用ADO访问SQL Server技术[J]. 微计算机应用, 2004, 25(1): 99-103.
Yao W J. The method for data accessing of SQL server with VC and ADO[J]. Microcomputer Applications, 2004, 25(1): 99-103. [本文引用:1]
[13] 汪沁, 奚李峰. 数据结构[M]. 北京: 清华大学出版社, 2009.
Wang Q, Xi L F. Data Structures[M]. Beijing: Tsinghua University Press, 2009. [本文引用:1]
[14] Rogan J, Chen D M. Remote sensing technology for mapping and monitoring land -cover and land -use change[J]. Progress in Planning, 2004, 61(4): 301-325. [本文引用:1]
[15] 谢忠, 叶梓, 吴亮. 简单要素模型下多边形叠置分析算法[J]. 地理与地理信息科学, 2007, 23(3): 19-23, 32.
Xie Z, Ye Z, Wu L. Polygon overlay analysis algorithm using the simple data model[J]. Geography and Geo-Information Science, 2007, 23(3): 19-23, 32. [本文引用:1]