统计数据库是指一种用来对统计数据进行存储、统计、分析的数据库系统。研究统计数据库的目的,就是根据统计数据的基本属性,以及统计数据处理的性质任务,构建一种符合统计数据处理基本要求的统计数据管理模式。
简述
统计数据是国家社会经济信息的主体,也是企业经营管理信息的主体,同时也是科学研究信息的主体,所以统计数据库建设是国家和企业信息化发展的重要环节;统计
数据库应用系统是现代统计建设的关键部分,因此统计数据库技术的研究对统计数据库的应用开发具有重要意义。
统计数据库技术是与统计处理对象即统计数据的特征和一般处理功能相关的技术,由统计数据库、统计数据库管理系统、统计应用开发技术与统计数据处理技术组成的计算机应用系统技术。
统计数据库是存储、管理、分析统计数据的
数据库系统,是统计数据采集和统计数据传送的归宿,是统计数据存储和统计数据管理根本手段,是提供数据分析和数据服务基础,是综合应用现代计算机的软、硬件技术、网络通信技术,经过分类、整理、汇总等加工,按照一定的数据模型,汇编成计算机可读的、便于修改、管理和检索的统计数据集合。
特点
统计数据库是一种用来对统计数据进行存贮、统计(如求数据的平均值、最大值、最小值、总和等等)、分析的数据库系统,其特点如下:
第一,多维性是统计数据的第一个特点,也是最基本的特点。
第二,统计数据是在一定时间(年度、月度、季度)期末产生大量数据,故入库时总是定时的大批量加载。经过各种条件下的查询以及一定的加工处理,通常又要输出一系列结果报表。这就是统计数据的“大进大出”特点。
第三,统计数据的时间属性是一个最基本的属性,任何统计量都离不开时间因素,而且经常需要研究时间序列值,所以统计数据又有时间向量性。
第四,随着用户对所关心问题的观察角度不同,统计数据查询出来后常有转置的要求。
设计
统计数据库的设计包括有数据管理要求的分析、建立数据库的
概念模型、逻辑数据库设计及物理数据库设计等阶段。
1.对数据库管理要求的分析。设计数据库时,首先要考虑到对数据要求的分析。对数据管理要求的分析主要包括对信息的要求和对处理的要求。对信息的要求分析,就是要分析统计分析人员对要建立的数据库的数据有何要求,包括分析管理人员将要从数据库中得到什么信息,以及对数据的可靠性、保密性、安全性等方面的要求。对处理的要求分析是指对用户要求完成什么处理功能进行分析,包括由最高管理人员提出的管理策略要求;由
中层管理人员提出的控制要求;及由基层统计分析人员提出的操作要求等。根据不同的处理要求。确定各种不同的处理方式。进行处理描述。
2.在分析的基础上建立一个
数据库的概念模型。分析工作可以通过基本的统计信息及能够说明统计信息特性的属性来进行。通过分析,确定其基本的信息,及信息资料之间的关系。从而明确数据定义状态、综合各种数据的特征,建立基本的数据结构。
3.逻辑数据库的设计。这一阶段的主要目标是产生一个计算机能够接受。数据库管理系统能处理的模式,即把第二阶段建立的与数据库管理系统无关的概念模型,转换为与选用的数据库管理系统所支持的数据模型相符的模式,这个模式不仅要满足用户对数据库的应用要求,还要满足将来发展的要求。此外,实现设计还要解决数据的完整性、一致性、可恢复性、安全性和有效性问题。
4.物理设计。这是整个
数据库设计过程的最后阶段。确定数据库的物理结构。包括数据库在物理设备上的存储结构和存取方式,要求提供数据量特性、处理量特性、数据库系统特性等各种设计参数。这阶段设计的目的是完成一个具体的数据库管理系统可接受的物理结构。
相关技术
(1)数据模型
为了适应统计数据的特点,应当采用与常规数据库不同的数据模型。
表示实体类型及实体类型间联系的模型。它可分为两种类型:概念数据模型和结构数据模型。
概念模型:这是一种独立于计算机系统的模型。它不涉及信息在系统中的表示,只是用来描述某个特定组织所关心的信息结构。概念模型强调语义表达功能,它是现实世界的第一层抽象。
概念模型是对真实世界中问题域内的事物的描述,不是对软件设计的描述。概念模型不依赖于具体的讨‘算机系统,他是纯粹反映信息需求的概念结构。
结构数据模型:它是直接面向数据库的逻辑结构,是现实世界的第二层抽象。这类模型涉及到计算机系统和数据库管理系统,所以称为“结构数据模型”。结构数据模型应包含:数据结构、数据操作、数据完整性约束i部分。它主要有:层次、网状、关系三种模型。
(2)统计数据的物理组织
统计数据的多维性和稀疏性对数据的物理组织提出了很多新的要求,其中主要的技术包括:
数据压缩:统计数据库需要数据压缩的原因是统计数据库中分类属性数常常很多,有时可达数百个,而且分类属性之重复出现的频率极高,使得分类属性的多维空间十分稀疏,因此数据压缩和解压缩是多维数据物理组织的重要技术。
数据压缩的优点有:能减少存储空间、增加数据传输率、加强保密性、减少后备副本和恢复费用等。
多维数据的物理组织:统计数据库的多维性使得多维数据结构成为统计数据库中重要的物理组织方法。
时序数据:统计数据的任何统计量都离不开时间因素,时间属性是统计数据的一个最基本的属性,从这个角度看,统计数据是
时序数据。人们对时序数据的许多研究成果如时序数据操作(时序连接)、时序数据模型等都可以用到统计数据库之中。