面向大规模分析的多源对地观测时空立方体
李颖Y5 发布于2022-08 浏览:262 回复:1
1
收藏

随着对地立体观测体系的建立,遥感大数据不断累积。传统基于文件、景/幅式的影像组织方式,时空基准不够统一,集中式存储不利于大规模并行分析。对地观测大数据分析仍缺乏一套统一的数据模型与基础设施理论。近年来,数据立方体的研究为对地观测领域大数据分析基础设施提供了前景。基于统一的分析就绪型多维数据模型和集成对地观测数据分析功能,可构建一个基于数据立方的对地观测大数据分析基础设施。因此,本文提出了一个面向大规模分析的多源对地观测时空立方体,相较于现有的数据立方体方法,强调多源数据的统一组织、基于云计算的立方体处理模式以及基于人工智能优化的立方体计算。研究有助于构建时空大数据分析的新框架,同时建立与商业智能领域的数据立方体关联,为时空大数据建立统一的时空组织模型,支持大范围、长时序的快速大规模对地观测数据分析。本文在性能上与开源数据立方做了对比,结果证明提出的多源对地观测时空立方体在处理性能上具有明显优势。

2.1 立方体维度设计

2.1.1 立方体多维组织模型

对地观测数据通常由多维地理空间数据组成,维度包括时空维度以及其他主题维度。本文针对栅格和矢量数据特点,为立方体设计了4个维度如下(图1):

(1)产品维:数据的产品信息,包含产品名称、产品类型、所属传感器、层级信息以及参考坐标系。其中产品名称描述了某一类产品,比如Landsat 8分析就绪数据和OSM水体数据。产品类型用于判断产品属于栅格还是矢量数据类型。产品维和波段维通过一个产品&波段附加表关联,可获取该产品包含的波段信息。矢量产品没有波段信息,因此该附加表中只有影像产品。

(2)空间维:每个网格的空间信息,包含网格编码、行列号、层级、所属城市和省份。其中网格编码采用Z空间填充曲线以提高查询速度;层级属性存储了全球网格基准信息,支持用于分析的瓦片分辨率信息存储,比如1°×1°瓦片包含6250×6250个像素,同时支持用于可视化的金字塔瓦片的不同层级分辨率信息存储;城市和省份属性可满足用户在空间维度上的语义查询。

(3)时间维:瓦片的时间维度信息,包含成像时间,处理时间和年、月、日等信息。其中年、月、日的层级设计可以方便用户在时间维度上做聚集操作。

(4)波段维:记录不同传感器的所有波段信息,以及高级别产品的自定义波段信息,比如NDWI产品的波段可定义为NDWI波段。并且针对SAR影像提供了波段和极化方式的组合。矢量数据没有波段信息,因此不和波段维关联。

(5)栅格瓦片事实:由度量信息和4个维度成员包括产品、空间、时间、波段组成,这里的度量信息包括瓦片ID和栅格瓦片计算强度。瓦片ID作为瓦片的数据地址,用于访问栅格瓦片数据表中存储的瓦片数据。瓦片计算强度用于优化并行计算过程中负载均衡性能,细节将在2.3节中介绍。

(6)矢量瓦片事实:和栅格瓦片事实共享3个维度成员包括产品、空间、时间,度量信息包括矢量瓦片计算强度以及每个矢量瓦片包含的矢量数据ID集合。其中矢量数据ID集合即瓦片内矢量数据的地址,指向矢量数据表中的数据。矢量瓦片计算强度用途将在2.3节中介绍。

立方体模型设计基于商业智能领域事实星座模型,该模型支持多个事实表共享不同的维度表,契合多源数据立方体模型设计理念(Chaudhuri和Dayal,1997)。如图1所示,由于矢量数据没有波段维度,因此矢量和栅格数据共享产品、时间、空间3个维度,栅格数据独享波段维度。

2.1.2 立方体数据访问

基于立方体模型,用户可以在立方体上进行联机分析处理,比如切块和切片。这两种操作也是对地观测领域最常用的两种查询操作,其中切块操作是沿着不同的维度选择多个值得到子立方的过程,切片操作则是在维度上只选择一个值得到降维立方的过程 (Baumann,2017;Voidrot和Percivall,2020)。为方便用户访问数据,本文分别针对栅格瓦片和矢量数据设计了查询接口getRasterTiles()和getFeatures(),接口以QueryParams类对象作为参数,该类通过多维语义查询参数初始化。图2展示了3个例子。

1)切块:查询时间范围在2016年7月21日至2018年11月13日,空间范围在32.0°N—35.0°N,113.0°E—115.0°E中的数据,返回落在该时空范围内的子数据立方;

(2)沿着一个维度切片:查询波段为蓝波段的数据,返回不包括波段维的降维数据立方;

(3)沿着两个维度切片:查询波段为蓝波段且时间为2017年6月11日的数据,返回不包括波段维和时间维的降维数据立方。

收藏
点赞
1
个赞
共1条回复 最后由李颖Y5回复于2022-08
#2李颖Y5回复于2022-08

“AI研修班”公众获号取更多咨询

0
TOP
切换版块