数据组织
计算机术语
数据组织是按照一定的方式和规则对数据进行归并、存储、处理的过程,一般多用于GIS,即地理信息系统中。
基于分层的数据组织
人们对现实世界的认知往往局限在一个很小的范围内或某一个别的物体上,这些现实世界中的物体叫做实体(entity),它是客观存在的具有一定特征的对象,具有某些共同特征的一类实体可以称为实体组;另外,地表存在众多的地理现象,可以用场(field)来描述,例如,地形高程、空气温度以及土壤湿度等;根据因变量的数据类型,可以把场分为两种类型:连续场和离散场。实际上,任何地理现象都能通过场来表达。然而,许多情况下,一种方法能够为有效计算提供一个更好的基础,也可能是人们对地理现象心理表达的更好的模型。例如,一个国家的州或省在GIS中通常作为一组面对象或者一组组成其边界的线对象来表达;当然也能作为一个离散的2维场来表达。实体和场可以分别回答不同的问题(where和what),当然,回答问题的过程必须以时间(when)为参照。这种认知方式造成了GIS中基于分层的数据组织方法,即把地理实体结构化为数学上的点、线、面以及栅格单元(格网)。
分层分类理论是人们认知现实世界的基本理论之一。“层”是GIS中重要的基本概念,“分层”是GIS数据组织的最基本、最重要的方法之一,如图1中的上图所示。矢量模型中分层伴随着分类(主要是指抽象的几何要素分类,如点类、线类、面类和体类等),栅格模型主要是分层,分层后的每层数据均有相应的属性和空间等信息,逻辑组织模型如图1中的下图。
GIS的数据由若干个空间数据图层及其相关属性数据组织而成,一个空间数据图层又是以若干个空间坐标或栅格像元的形式存储的。对于这一逻辑组织模型可概括为坐标对-空间对象-图层-地图。一个空间对象及其属性信息在这一模型中属于最基础层次,而地图则是这个模型的最高层次。地理数据逻辑组织模型中的信息可进行以下的分类:
(1)地图集 这是地理数据组织中的顶层信息,它对整个地图集进行管理,并对各个地图进行处理,以识别不同的地图,包含有以下信息:地图引用(表名、地图层数等)、地图坐标(坐标系统、配准信息等)、地图描述(访问权限、地图说明等)等信息。
(2)图层集 这是由多个空间图层组成的能满足一定应用需求的图层集合,包含有组成图层集的图层引用(图层标号、图层表名)、图层空间索引(大小、标号、表名)、图层显示、图层坐标范围(坐标最大、最小值)等信息。
(3)图层 这是由多个具有某些相同或相似特性的同种类型的空间对象组成的集合,包含空间对象的标识(标号、名称)、空间对象的描述(名称、特征属性、类型)、空间对象的几何表示(坐标的二进制大对象-BLOB形式)。
上述是GIS纵向分层的数据组织方法,这种基于分层的数据组织是面向地图的,在数据库中一般采用图库—图幅—图层—地理对象—几何对象的数据组织策略。在横向上,GIS数据组织通过分幅或划分格网(tile)的办法,然后对它们实现空间索引。这种数据组织方式,在计算机中是通过图形分层的文件管理与属性数据的关系型数据库(RDBMS)管理,相分离的方法实现的,这有2种方式:一种是RDBMS嵌入到GIS系统内部;另一种是除了内部的RDBMS外,还使用扩展的RDBMS来管理属性数据。空间数据和属性数据之间的连接由关键字ID来完成。
基于特征的数据组织
基于分层数据组织的地理现象的描述存在下述缺陷:
(1)现实世界空间几何目标的抽象忽视了地理现象的本质特性及其现象之间的内在联系,对现实世界的人为划分,造成了GIS的信息简化,降低了GIS信息容量
(2)注重空间位置描述的矢量或栅格数据组织模型,丧失了以分类属性和相互关系为基础的结构化实体所提供的丰富的分析能力;
(3)分层叠加(overlap)的方法把现实世界划分为一系列具有严格边界的图层,但这些边界不能充分地反映客观现实,从而造成了许多人为误差;另外,这种方法不能提供众多基本对象的空间分析能力。
实际上,基于分层的数据组织中,点、线、面以及栅格单元是不存在的,现实中的道路不是数学上的线,城市也不是数学上的点。这种抽象不是一种对真实地理空间的描述或表达方式。我们周围的感知世界是一组具有高度相关结构的物质实体,也就是说,这些实体拥有一组允许人们在相似性的基础上进行分类的共同属性。对地理实体属性和关系共性的认识是人们认知的起始点(Usery1993)。可见,人们对客观世界的初识是基于地理特征的,这种认知方式造就了基于地理特征的数据组织方法。ISO/TC211和OGC分别对地理特征进行了定义:
(1)ISO/TC211的定义,特征存在有特征类型和特征实例2个层次,特征类型是具有共同属性的地理现象,特征实例是特征类型的一个具体的地理现象;每个特征实例具有一个唯一的标识符,它与属性、功能和关系封装在一起,可以全面地描述该特征类型的发生发展的特点,通过标识符,特征的一系列状态或事件可以有机地联系、组织在一起,可在时空坐标系中进行时空定位,有利于时空数据的管理与查询;
(2)OGC的定义,特征是地理空间信息的基本单元;另外,美国USGIS对特征也给出了自己的定义:特征是客观世界的实体或目标(数字化的/或图形)表达。可见,特征是一种针对真实地理现象的描述或表达方式,这种地理现象可以是一个真实的地理组成实体,如河流、湖泊,也可能是一种分类结果,如不同的用地类型,还可能是一种对某种现象的度量结果,如高温区、高雨区等。因此,地理特征是地球空间上客观存在的,具有描述信息的地理实体,并且这个地理实体可以由对它的标识和对它的属性和关系描述来定义。
基于特征的GIS数据组织的基础是特征分类。它直接影响地理数据的组织、管理、查询以及分析的有效性;影响地理数据模型语义的完备性以及数据的共享。因此,基于特征的GIS可以使用面向对象的技术来构造。其数据组织框架需要使用认知分类理论的有关概念和制图学的有关方法。这种数据组织方法要求正确合适的地理分类体系,该体系在遵循一般分类学原则的同时,还必须考虑GIS技术(如面向对象技术)的需要,要求将分类体系纳入到一种由非空间属性所决定的空间体系中。
两种方法对比分析
基于分层的数据组织和基于特征的数据组织处在同一抽象层次上,都以实体模型和和场模型为基础,但基于特征的数据组织在面向对象数据模型的基础上使用面向对象的技术方法来组织数据,而基于分层的数据组织主要在矢量数据模型栅格数据模型以及关系数据模型的基础上使用分层的方法来组织数据;虽然随着技术手段的不断发展和完善,分层的数据组织方法也渗入了面向对象技术,但这并没有构成真正的面向对象的数据模型。可见,二者存在根本的差别。
如图2所示,同一地理现象使用基于分层的数据组织方法至少要分3层(点、线、面),而使用基于地理特征的数据组织方法仅仅需要1层,且它们之间的空间关系明显。但是,不论是基于分层的还是基于特征的数据组织,都离不开3个基本认知问题的回答,即where、what和when。
空间数据组织
在数据管理上,GIS都将几何意义上的空间数据与属性数据分开存储,分别用文件和数据库管理,未来的发展趋向是应用面向对象的数学模型以及真正意义上的用数据库来管理海量数据的空间数据仓库技术。
遵循以上原则,符合“数字地球”需求的大型GIS的数据组织方式如下:
(1)矢量数据:按图幅、比例尺分别存放。
(2)栅格数据:具有一定的格网间距的规则格网数据(如DEM,影像数据等),其数据组织方式不同于矢量数据。由于地图投影的影响,当数据以地理坐标(经纬度)存放时,每个标准分幅的地图内所包含的格网数量相同,数据组成一标准矩形;而当数据以直角坐标(x,y)存放时,每个标准分幅的地图内所包含的数量构成一梯形(近似),为解决数据接边问题,一般以图廓线的外接矩形为界,构成一标准矩形,图廓线外数据用相邻图幅数据填充,如图3所示。
由于原始数据大小不尽相等,在数据漫游中,往往会遇到数据接边问题。该问题的解决方法多种多样,比较可行的方法是将数据重新进行拼接,裁切统一形状、大小的数据块,这样在数据漫游中,相邻数据块的拼接极为简便,既避免了数据冗余又提高了系统运行效率。数据裁切规则是:
①将全部数据置于“数字地球”的空间坐标框架下。
②无论任何比例尺与格网间距,每个数据文件(一个数据块)均有统一的大小。
③打破比例尺概念,以分辨率(格网间距)作为数据尺度。
④建立文件描述信息,将每个文件的分辨率、投影带号、文件位置等相关信息进行记录,便于系统调用。
(3)矢量数据与栅格数据的一体化由于矢量与栅格的数据结构、数据组织方式、显示方式不同,矢量数据与栅格数据的一体化需经如下过程:
①数据匹配与显示:包括统一投影、比例尺匹配和坐标匹配。
②矢量数据与栅格数据的转换:该转换包括点、线、面的转换,由矢量数据向栅格数据转换相对简单,在实际应用中,往往采用这种转换。
参考资料
最新修订时间:2022-08-25 13:36
目录
概述
基于分层的数据组织
参考资料