数据可用性(data availability)是一个
计算机存储制造厂商和存储服务提供商用来描述产品和服务的词汇。
介绍
数据可用性(data availability)是一个计算机存储制造厂商和存储服务提供商(SSP)用来描述产品和服务的词汇,这些产品和服务是用来确保在从正常到“崩溃”的环境中当性能保持在一个必需的级别上时,数据必须是可用的。一般来说,数据可用性是通过冗余数据存储地点和它达到的方式来进行归档。一些提供商描述了某种需求:拥有数据中心和以存储为中心,而不是以服务为中心的理念和环境。
在大型企业级计算机系统中,计算机通常通过连接到存储设备的高速光纤来访问数据。最知名的系统中,数据库访问的是ESCON和光纤通道。存储设备通常是作为
独立磁盘冗余阵列(RAID)进行控制的。添加和重新配置存储系统的灵活性以及自动转换到备份或者错误恢复环境都是可编程的,或者是人工控制的开关,这通常称为控制器。
两个不断流行的提供数据可用性的方式就是存储区域网络(SAN)和网络附加存储(NAS)。数据可用性可以用数据可用的比例(供应商提供了99.999%的可用性)以及在同一时间可以流动多少数据量(同一家供应商承诺了每秒3200兆字节速率)来衡量。
定义
研究者们普遍认为,数据的可用性可以从数据的一致性、准确性、完整性、时效性及实体同一性五个方面进行考察,其具体定义如下:
一致性
数据集合中每个信息都不包含语义错误或相互矛盾的数据。例如,数据(公司=“先导”,国码=“86”,区号=“10”,城市=“上海”)含有一致性错误,因为10是北京区号而非上海区号。又如,若银行信用卡数据库显示某持卡人在北京和新疆两地同时使用同一信用卡消费,则出现数据不一致,预示发生
信用卡欺诈的可能。
精确性
数据集合中每个数据都能准确表述现实世界中的实体。例如,某城市人口数量为4130465,数据库中记载为400万,宏观来看该信息是合理的,但不精确。一致的信息也可能含有误差,未必精确。在许多应用领域,信息精确性至关重要。
完整性
数据集合中包含足够的数据来回答各种查询和支持各种计算。例如,某医疗数据库中的数据一致且精确,但遗失某些患者的既往病史,从而存在不完整性,可能导致不正确的诊断甚至严重医疗事故。
时效性
信息集合中每个信息都与时俱进,不陈旧过时。例如,某数据库中的用户地址在2010年是正确的,但在2011年未必正确,即数据过时。据统计,商业和医疗信息库中平均50%的用户信息在2年内可能过时,而过时信息将会导致严重后果。
实体同一性
同一实体在各种数据源中的描述统一。例如,为防止
信用卡欺诈,银行需监测信用卡的使用者和持有者是否为同一人。又如,企业的市场、销售和服务部门可能维护各自的数据库,如果这些数据库之间没有共享统一的客户标识,企业的兼并和重组会使兼并后的公司的客户数据库中存在大量具有差异的重复客户信息,导致实体表达混乱。
根据以上5个性质,我们可以如下定义数据可用性:一个数据集合满足上述5个性质的程度是该数据集合的可用性。
评估方法
分析对于数据可用性评估,国内外研究人员也进行了许多工作。以下从数据的一致性、精确性、完整性、时效性、实体同一性五个方面进行介绍和分析。
基于一致性的方法
针对异地备份系统中数据持续变化的情况,设计并实现了一种基于累积摘要值的一致性检测方法。该方法解决了传统一致性检测需要中断备份任务的问题,保证了备份任务的连续性,并且能够迅速检测本地服务器和远程备份中心数据的一致性,提高了一致性检测的效率。从已有的一致性维护方法出发,针对海量数据多副本之间一致性维护,从一致性维护过程中所涉及的更新发布、更新传播方式、更新传播内容、更新冲突解决等几个方面进行了分析,提出了相应的解决办法。针对P2P分布存储系统中大型数据对象面临的
数据一致性问题,提出了数据一致性维护方法PLCP。该方法从提高更新传播速度和减少日志空间开销的角度进行了数据优化。同时针对数据更新的问题和关键属性更新的问题,提出数据一致性维护方法DACP和KACP。从无线传感网络数据安全的角度,结合一些廉价的保护技术,提出了利用跨层一致性评估信息整体质量的方法。基于数据一致性的方法,主要体现在集中存储方面,对于分布式和非关系数据方面研究还较少,适用于海量数据的一致性评估方法有待进一步探索。
基于精确性的方法
数据精确性方面的研究结果比较少见,从精确度低的角度,提出了对应的精确性评估算法。该算法考虑了一种基于可能世界语义的描述方法。目前的研究结果显示,数据精确性的评估方法还有待研究者们深入探究。
基于完整性的方法
针对海量关系数据中普遍存在的数据不完整现象,刘永楠等研究了关系数据完整性度量问题。针对数据的完整性计算问题,提出了
数据完整性计算模型,以及精确算法和基于均匀抽样的近似算法。理论分析证明了近似算法可以达到任意的精度要求,可以高效地对数据完整性进行计算,通过在DBLP数据上的实验验证了算法的有效性和高效性。在具体应用领域,张少敏等利用IEC61970对智能电网进行信息集成,然后根据完整性定义,对智能电网数据进行自动机建模,给出了一种无需对数据进行直接操作的数据完整性定量评估模型。BarceloP等将传统的完整性理论扩展到XML数据上,讨论了不完整XML数据的表示问题。另外,针对
云存储服务中数据的完整性问题,一些研究者提出了PDP和POR。这两种方案都采用了概率性证明思路,即存储服务提供商向数据拥有者证明其完整的持有数据拥有者存储的数据。基于数据完整性评估方面的结论还较少,特别是具有普遍适用价值的方法,还有待进一步研究。
基于时效性的方法
针对历史评价数据时效性会影响评价计算准确性的问题,引入了评价数据的时间属性,构造了评价数据衰减因子,减小了时效性对于评价计算准确性的影响。研究了包含冗余记录的集合在给定时效约束下的时效性判定问题,并首次提出了时效性判定问题的求解算法.在建筑能耗领域,通过对几类典型公共建筑能耗数据的统计分析对比,提出了采用近1年的能耗数据作为统计样本的建议。基于时效性方面的研究非常匮乏,已有的少量研究结论都主要针对一些特殊应用,还需深入系统的研究。
基于实体同一性的方法
实体同一性是数据可用性研究较多的一个方面,实体同一性研究主要涉及两类方法:第一类是从语义规则的角度进行同一性研究,这类方法主要通过经验知识来描述实体的同一性问题;第二类是从相似性的角度进行同一性研究,该类方法主要采用相似度函数来对实体同一性进行判定。针对实体同一性方面的相关技术,包括实体识别的效率问题、识别的增量计算、半结构化数据上的实体识别等,展开了相对完整的讨论。对于实体统一性的评估方法大多针对关系数据,针对复杂结构数据、半结构化数据、非机构化数据方面的研究还很少。
挑战和问题
确保数据可用性是一项十分困难的任务。考虑到大数据的数据量大、数据产生速度快、数据类型复杂、价值大密度低等4个特点,确保大数据可用性将变得难上加难。我们需要针对大数据的4个特点,解决如下大数据可用性的5个挑战性研究问题。
高质量大数据获取与整合的理论和技术
高质量数据的获取是确保信息可用性的重要前提。海量数据的来源多种多样(如复杂物理信息系统、物联网、Internet上的数据资源),数据模态千差万别(如关系数据、XML数据、图数据、流数据、标量数据、矢量数据),质量参差不齐,加工整合困难。这些问题在当今突飞猛进的传感网、
信息物理融合系统和物联网及其产生的大数据背景下尤其严重。因此,我们需要解决如下挑战性问题:在数据获取阶段把住质量关,探索从物理信息系统等多数据源有效地获取高质量大数据的理论和方法,研究高效数据过滤方法,建立多模态大数据融合计算的理论和算法,实现高质量数据获取和精准整合,继而发现数据演变规律。
完整的大数据可用性理论体系
在数据可用性研究中,我们必须回答如下问题:如何形式化地表示数据可用性?如何从理论上判定数据可用性?如何定量地评估数据可用性?数据错误自动发现和修复的理论依据是什么?数据和数据质量融合管理(简称量质融合管理)的理论基础是什么?数据如何演化?没有一个完整的数据可用性理论体系,这些问题是无法回答的。因此,我们需要建立统一的框架,提出完整的数据可用性理论体系,解决如下挑战性问题:建立大数据可用性的理论模型、大数据可用性的形式化系统和推理机制、大数据可用性评估理论和算法、大数据量质融合管理的理论和算法、大数据演化机理、大数据可用性所涉及的计算问题的复杂性理论和算法设计与分析的新方法。
数据错误自动检测与修复的理论和技术
现有的数据可用性的方法和系统缺乏坚实的理论基础,不能实现自动的错误检测和修复。为了实现数据错误的自动检测和修复,我们需要在数据可用性理论体系基础上解决如下挑战性问题:提出大数据错误自动检测和修复问题的
可计算性理论、大数据错误自动检测和修复问题的计算复杂性理论、大数据错误自动检测和修复方法的可信性理论、高效实用的大数据错误自动检测与修复算法。
弱可用数据上近似计算的理论和技术
当数据中的错误不能彻底修复时,这些数据称为弱可用数据。直接在弱可用数据上进行满足给定精度需求的近似计算,不失为一个有意义的选择。遗憾的是现有的理论与算法无法支持弱可用数据上的近似计算。因此,我们需要解决如下挑战性问题:提出弱可用大数据近似计算的可行性理论、弱可用大数据近似计算问题的计算复杂性理论、弱可用大数据上近似计算结果的质量评估理论、弱可用大数据上的近似计算方法。
弱可用数据上的知识发掘与演化的机理
大数据的可用性问题必然导致源于数据的知识的可用性问题。当数据完全可用时,从正确的大数据中发掘知识以及从数据演化探索知识演化机理的研究已经很困难。当数据弱可用时,弱可用大数据上的知识发掘与演化机理的研究将更加困难。我们需要解决如下挑战性问题:提出源于弱可用数据的知识可用性评估理论与方法、数据可用性与知识可用性的相关性理论、弱可用大数据上知识发现的计算复杂性理论和算法设计与分析新方法、源于弱可用数据的知识校验与纠偏的理论和方法、源于弱可用数据的知识演变机理。综上所述,大数据可用性在基础理论、算法和工程技术各层面都提出了严峻的挑战性研究问题。目前大数据可用性研究工作还刚刚开始,仅触及少数几个侧面,大量科学技术问题有待解决,向我们提出了新的挑战,也为我们提供了新的机遇。