容错技术
容忍并防范局部错误的决策方法
容错技术是容忍并防范局部错误的决策方法。是提高决策可靠性的重要方法之一。所谓容忍错误,就是认识到错误是客观存在的,不可避免的,因此,要把主要的精力放在防范错误的对策上。其主要内容有:(1)诊断技术,即在最短的时间内,也就是在错误还不致于造成重大损失之前,就发现并排除错误。(2)错误防范技术和错误影响弱化技术。(3)冗余技术,即用功能相近的若干决策方案或措施来代替单一方案,在原方案有效时,其余方案从表面上看是多余的,然而一旦原方案失效时,这些“多余”的方案就可自动依次接替原方案而维持决策实施的正常进行。
容错技术概况
容错FT(Fault Tolerant)技术一般利用冗余硬件交叉检测操作结果。随着处理器速度的加快和价格的下跌而越来越多地转移到软件中。未来容错技术将完全在软件环境下完成,那时它和高可用性技术之间的差别也就随之消失了。
局域网的核心设备是服务器。用户不断从文件服务器中大量存取数据,文件服务器集中管理系统共享资源。但是如果文件服务器或文件服务器的硬盘出现故障,数据就会丢失,所以,我们在这里讲解的容错技术是针对服务器、服务器硬盘和供电系统的。
双重文件分配表和目录表技术
硬盘上的文件分配表和目录表存放着文件在硬盘上的位置和文件大小等信息,如果它们出现故障,数据就会丢失或误存到其他文件中。通过提供两份同样的文件分配表和目录表,把它们存放在不同的位置,一旦某份出现故障,系统将做出提示,从而达到容错的目的。
快速磁盘检修技术
这种方法是在把数据写入硬盘后,马上从硬盘中把刚写入的数据读出来与内存中的原始数据进行比较。如果出现错误,则利用在硬盘内开设的一个被称为“热定位重定区”的区,将硬盘坏区记录下来,并将已确定的在坏区中的数据用原始数据写入热定位重定区上。
磁盘镜像技术
磁盘镜像是在同一存储通道上装有成对的两个磁盘驱动器,分别驱动原盘和副盘,两个盘串行交替工作,当原盘发生故障时,副盘仍旧正常工作,从而保证了数据的正确性。
双工磁盘技术
它是在网络系统上建立起两套同样的且同步工作的文件服务器,如果其中一个出现故障,另一个将立即自动投入系统,接替发生故障的文件服务器的全部工作。
网络操作系统具有完备的事务跟踪系统
这是针对数据库和多用户软件的需要而设计的,用以保证数据库和多用户应用软件在全部处理工作还没有结束时或工作站或服务器发生突然损坏的情况下,能够保持数据的一致。其工作方式是:对指定的事务(操作)要么一次完成,要么什么操作也不进行。
UPS监控系统
UPS监控系统用于监控网络设备的供电系统,以防止供电系统电压波动或中断。
在工作中,我们选取的容错技术应根据实际情况而定(如资金,规模等)。
容错技术历史
上世纪80年代,第一代容错技术就开始进入商用领域。美国Stratus(容错公司)在Stratus独特的硬件级容错技术及VOS专有操作系统环境下,采用了Motorola M68000处理器。
1993年,英特尔 I860处理器在Stratus的硬件级容错体系结构中成功应用,在软件环境方面,还能满足业界对开放性要求的Unix操作系统FTX,即AT&T UNIX SVR4。
1996年,容错技术得到HP的支持,共同推出Stratus Continuum系列,将Stratus容错结构结合HP PA-RISC对称多处理技术。
进入21世纪以来,制造、中小企业、能源、交通等领域对服务器,特别是中低端IA服务器的需求激增,过去仅仅可以应用在RISC平台、HP-UX环境下的容错产品也面临着新的挑战。另一方面,企业越来越依赖信息系统来完成关键业务的应用,同时他们不可能配备更多的专业人员来进行专职维护。双机热备集群服务器遇到难题。
如今:NEC通过与美国容错公司多年的合作,于2001年推出了业界第一台基于IA架构、支持Microsoft Win-dows Server 2000标准操作系统环境的容错服务器。NEC的Express5800/ft系列在Windows及Linux平台上的可靠性达到了99.999%,这种实时保护技术来源于STRATUS连续处理技术(Fundamentals of Continuous Pro-cessing Design),它包括:
LOCKSTEP 技术
LOCKSTEP技术使用相同的、冗余的硬件组件在同一时间内处理相同的指令。LOCKSTEP技术可以保持多个CPU、内存精确的同步,在正确的相同时钟周期内执行相同的指令。该技术保证能够发现任何错误,即使短暂的错误,系统也能在不间断处理和不损失数据的情况下恢复正常运行。
安全故障(FAILSAFE)软件
FAILSAFE 软件和LOCKSTEP技术运行一样,可防止很多软件错误和储运耗损。该软件在Windows 2000/2003环境下采用热插拔内存镜像负载均衡、多点终止失效、多通道I/O等方式,大大增强了系统连续运行的稳定性。
FAILSAFE可以管理和诊断特征捕获,分析和通报服务器的软件问题,从而允许个人在软件发生错误之前去纠正错误。FAILSAFE软件的下列功能增强了NEC Express5800/ft系统在Windows环境中的可靠性:保护短暂的硬件故障;通过增强的驱动程序预防软件失效;软件问题的捕获、分析及修正;内存数据的连续性维持;丰富的纠错功能可以解决各种不同的错误。为了避免物理撞击等意外故障,安全故障软件还提供了自动重启功能,能够将宕机前CPU与内存数据即时保存下来,最大限度地避免数据的意外丢失。
激活服务(ACTIVE SERVICE )
当然,假如容错服务器的硬件发生永久性故障,尽管系统能够正常运行,也必须及时更换硬件才能维持容错的冗余架构容错服务器都配备了简易直观的图形界面来管理监测工具,(如NECExpress5800/ft提供了ESMPRO 管理软件),能够对服务器中硬件运行及故障状态进行适时监控。
发展趋势
容错的未来将会向更高的可用性、更卓越的可维护性发展。调查显示,越来越多的用户开始注重TCO(总拥有成本)而不是初期购买价格,更多的企业决定逐步放弃采用双机热备的方式来维护复杂的集群服务器,转而将目光瞄向具有容错技术的平台或容错服务器平台。
在中国市场,NEC 公司与神州数码的合作在一定程度上弥补了容错服务器在中国市场服务拓展领域的短板。这将引发国内各领域的容错技术与应用的井喷式发展。
最新修订时间:2023-03-20 07:37
目录
概述
容错技术概况
参考资料