数据空间是信息技术教育部重点实验室(中山大学)2013年8月首次提出的一个面向全对象全生命周期的分布式多元标签数据存储的底层技术框架,由中山大学孙伟教授带领的信息技术教育部重点实验室(中山大学)团队的创新成果。
发展历史
2013年,中山大学孙伟教授针对现有数据信息规范、安全问题提出“数据空间”概念。
2013-2016年,中山大学孙伟教授对“数据空间”概念进行深入的探索研究并发表了相关论文「1」
2018年10月,数据空间(data space)项目由华南军民融合创新研究院筹划启动,由孙伟教授带领的信息技术教育部重点实验室(中山大学)为核心团队打造。
2019年1月18号,针对安卓用户发布了数据空间1.0测试版,该版本支持个体自定义个人数据的多级权限,通过二维码方式进行数据权限分级分享。
书面意义
我们所说的数据空间实际是指主体数据空间,与之相对的是公共数据空间。主体数据空间是公共数据空间的一个子集,随着主体需求的不断变化,数据项不断从公共数据空间纳入到主体数据空间中。主体、数据集、服务是数据空间的三个要素。主体是指数据空间的所有者,可以是一个人或一个群组,也可以是一个企业。数据集是与主体相关的所有可控数据的集合,其中既包括对象,也包括对象之间的关系。主体通过服务对数据空间进行管理,例如数据分类、查询、更新、索引等,都需要通过数据空间提供的服务完成。由此可见,数据空间是一种不同于传统数据管理的新的数据管理理念,是一种面向主体的数据管理技术。与传统的数据管理技术类似,数据空间管理也面临数据模型、数据集成、查询与索引等各种技术的研究。
产品信息
数据空间是一种面向全对象的全生命周期的分布式多元标签数据存储的底层框架,是一种让数据安全、高效连接的技术体系。
是围绕数据与用户关联、数据与业务流程的映射,面向对象全生命周期业务进行梳理及关联,形成标准化的数据业务流;是利用数据身份技术、多级权限访问控制机制明确数据主权边界,从而达到数据主权回归及数据下放流通的目的,再通过多级保护安全算法(RSA,AES, SM)和数据脱敏技术对数据构建一座安全防护墙。基于数据空间的基础特性,数据通过“三维合一”的特性汇总存储后汇集成“三流合一”的数据流动体系。
产品特性
数据空间基于大数据存储数据库,以个体为对象,将其全生命周期内所产生的关联数据进行标准化的数据定义,个体可通过服务对数据空间进行业务管理,例如数据分类、查询、更新、索引、授权等,是一种面向对象对数据分布式管理技术。
基于数据空间底层架构的数据组织方式,运用的是细粒度分层访问控制技术及细粒度分层保护安全算法,与传统数据库中的粗粒度存储方式相比,数据空间的安全管理技术更为可靠。
数据空间是一款专业化的数据存储的底层技术框架,其数据的覆盖面是全过程覆盖,其中包括元数据的抽取、数据细粒度标准化定义、数据多维度标签分类存储、数据多维度业务拓展应用等过程,囊括了数据的全加工过程,在数据三个维度的特性中,通过数据的流转逐渐形成“三流合一”的数据流动体系。
通过数据标准建立、数据主权确权以及数据使用下放,形成数据流通规则为数据实现资产特性提供了充分的条件,促进“政府立法、企业执行、个人得益”。
应用意义
社会的发展是有一定规律的,信息社会的产品生产,必然与农业社会、工业社会一样,要经历手工劳动、小作坊制作发展到大规模专业化生产。
管理信息系统,这一信息社会的特有产品,必然要进入专业化和规模化的生产,首先是要通过构件的产品化、配置的模块化、规则的自定义、展现的智能化将传统的刚性管理信息系统,转变为柔性的管理信息系统;其次是要将交易和数据处理分开,因为它们的环境需求不一样,前者强调的快速响应,后者强调的高速计算和大容量存储。作为数据处理的代表性产品“数据仓库”,自其诞生开始就因为数据源难以整理、算法要持续发展、结果的应用面窄和使用率低等原因,成功地案例很少。为此,将数据仓库的概念加以拓展,通过拓展数据范围和起点,全面覆盖各类管理信息;跟踪数据口径和规则,有利于对算法的管理和监控;延伸数据加工和处理,既延伸了功能覆盖面,又为数据跟踪和维护提供了有效的机制,形成一种专业化的,专门进行数据获取、存储、加工、分析、展现的信息管理构件(产品)。鉴于与传统数据仓库产品的区别,并更能准确标识其属性,该构件可称其为“数据空间”。
数据覆盖面
既然是专业化的数据处理产品,其数据覆盖面就应该是全过程覆盖。根据加工过程可分为以下数据域:原始凭证域、数据准备域、模型组织域、加工规则域、归档管理域、结果展现域等。
原始凭证域。数据处理全过程的起点,是在日常管理活动完成后,经过数据抽取到数据空间的数据,这个数据起点称之为原始凭证域。
数据准备域。其业务意义是针对原始数据,根据应用需求涉及的业务主题,进行基础信息分类汇集和汇总的加工和分类的处理环节;其技术意义是形成后续数据处理的最小粒度信息;是将数据从按照每次交易组织的信息形式转化成按照分析主题组织的信息形式进行加工的过程。
模型组织域。其业务意义是为核算、预测、数据挖掘等辅助管理活动,生成和保存经过分类、汇总的最小粒度信息;是根据业务需求涉及的算法、规则,进行进一步加工、组织的环节;其技术意义是为将信息转变成为知识的数据加工和增值过程;这里对数据组织的关注是如何完成数据的增值利用,如何组织数据更有利于算法的实现、更有利于提升加工效率、更有利于算法的可持续发展和完善。
加工规则域。其业务意义是描述并记录数据空间中所有数据的属性包括:来源、口径、代码等;描述并记录数据在整个数据空间的增值过程所涉及的路径、算法、形式等;描述并记录数据空间中所有数据,对外展现结果的样式、对象、变革、效果等;技术意义是全面管理数据的增值过程,实现每个增值环节描述的标准化、维护的简易化、规则的可视化、实现的工具化;化解每个增值环节的耦合度、实现数据空间的业务无关性,有利于实现配置独立、共享工具、互换工具;
归档管理域。从业务意义上说,它是按管理活动分类的,经过不可抵赖性封装的,遵循档案管理标准,按时间积累的历史信息。从技术意义上说,它是为保存和查询历史信息提供的信息化手段;是为快速检索历史信息进行的科学分类;是为纸质信息和电子信息进行关联的技术方法。
结果展现域。其业务意义是为其他各数据域积累和组织的信息进行人性化的展现,从以人为本的角度,向用户提供最佳的数据应用体验。其技术意义是要实现将来自多种数据源不同数据形态(结构化、非结构化)的数据,以多种展现形式(表、图、多媒体)加以反映;要能够通过加工规则域的关联,实现各种信息的关联展现。
功能覆盖面
作为
管理信息系统的构件,数据空间必须提供相应的操作功能,配合一体化的管理信息系统,满足用户获取数据、应用数据、管理数据的需求。这些功能主要体现在以下方面:
1、公共构件:即与一体化的管理信息系统共享的信息系统构件。其包括:
与交易类应用共享的一体化门户。不仅能够为用户提供个性化地操作提示和工作推送,还要能够在另外的窗口推送与正在办理的业务相关的背景资料、管理信息、遵从差异等等。
与交易类应用共享的权限管理构件。通过对机构、人员、资源三个树状结构的配置及其相互关系的配置,实现整个组织中用户和权限的统一管理、共享使用、分别(依权)配置;要能够采用CA和数字加密技术实现用户对数据访问的身份控制。
与交易类应用共享的过程控制构件。通过共享的工作流引擎,在配置各项管理活动的每个环节时,同时配置该环节涉及的相关参考依据和关联信息;在各项管理活动的相应环节,针对特定管理对象,推送相关操作的同时,将该管理对象与这个操作有关的背景资料、参考资料一并推送。
2、个性构件:即涉及数据分析应用专有的构件或工具。其包括:
数据词典。为数据空间中的每个原始数据项(数据元)进行描述的数据集合。
规则定义。描述数据抽取的来源、条件、目标等;描述数据加工的算法、口径、结果等;描述数据校验的对象、逻辑、阈值等信息的集合。
档案管理。定期对各类税务管理信息按照档案管理的规定,根据每个管理活动,分单位进行标准化的立卷归档。
模型建立。从多种角度的描述,并建立相应的数据组织,继而通过从数据准备域进行加载,产生能够真正为用户所理解的,并真实反映整个组织特性的,能够提供用户快速、一致、交互地存取的有价值信息。
界面展示。不仅要实现最佳用户体验的效果,还要能以标准化的封装,加工成能够以Web方式展现的形式,以便通过流程引擎的推送,在公共的门户构件中加以展现和钻取。
3、用户体验。
一是及时推送。要能通过流程引擎的推送和关联,让用户在相应的工作岗位和工作环节中,及时、快捷、智能地查看与该环节相关的,涉及相关管理对象的有关辅助资料、分析数据和差异信息;
二是准确定位。涉及管理遵从差异的信息,必须要能够分解到准确的时间、范围、对象、差值、依据等;
三是口径一致。所有进入数据空间管理的数据,在任何时间针对某一时点的数据查询,只要口径一致,必须结果一致;
四是支持发展。用户要能够根据需求的发展,通过对数据的来源、取数的规则、加工的算法、展现的效果进行增加、完善、注销等维护操作,确保数据应用的可持续发展;
五是用户界面要简洁、直观;
六是帮助提示。利用帮助(鼠标右键或其它功能键)可以展示相关数据结果的加工逻辑、数据口径等;
七是记忆订阅。可以对用户常用的查询和习惯进行记忆,方便后续查询;可以由用户对定时加工的报表、信息等内容进行订阅,按时推送。
八是过程管理。要实现信息资源全面的生命周期管理。
4、功能的实现过程。首先要考虑需求的不确定性。人的认识是随着工作进程不断深入的,既要尽可能在需求编写阶段,全面、广泛、细致地了解和描述需求,还要形成一个对需求持续完善的机制。其次要考虑应用习惯的转变。由人组成的社会系统是一个最大的惯性系统,绝对不能采用在某个时点,让整个组织一次性过渡到一个新的应用状态,这如同让电梯从一楼一瞬间到达顶楼,这会出问题的。
社会价值
数据空间充分地考虑了如何在最大程度上利用和展现数据的有效性及可行性,使得其在打破“数据孤岛”,推动多源异构数据快速融合方面快速确立了领先优势。而基于数据空间底层架构的数据组织方式,也使得简捷快速使用产生大数据分析挖掘潜在的数据价值成为了可能。从而真正激活沉睡的数据,为政府研判社会发展态势提供科学参考。