容错服务器,是基于容错技术的原理,采用硬件全冗余的技术,在两套硬件之间还通过独立芯片和软件保证故障时临时切换的服务器。简单的说就是在服务器系统中出现数据或文件丢失及损坏时,自动恢复到损坏前的正常状态,确保服务器正常使用,用以体现服务器对错误的容纳能力。
容错的概念
一、按时间划分的故障分类
1.永久性失效 (permanent)
永久持续下去直至修复为止
2.间歇性故障 (intermittent)
短暂的,但是却是断续的,既有其偶然性,又有其不定期的重复性。
3.偶然性故障 (transient)
暂时的,且可能是非重复的
二、间歇性故障和偶然性故障
占所有现场失效的90%
容错的含义
容错的含义比较宽泛,这种不确定性容易引发歧义,增加理解上的难度。从概念上来说,容错是指服务器对于错误的容纳能力,是应用过程中对于服务器稳定性追求的一个目标。为了这样一个目标,有几种技术上的实现方法,国内谈论最多的是三种:服务器群集技术、双机冗余服务器方案和单机容错技术。
实际上,服务器群集和双机冗余的技术比较类似,双机冗余是最简单的集群,是其一个特例,也可以把服务器集群技术视为双机冗余的延伸,可以理解为一种多机容错的方案。在一般的讨论之中,集群技术是为了解决计算性能不足的问题,通过多台服务器的集群计算,为高性能计算领域应用提供所需要的高性能。采用集群技术,通过多台服务器之间的负载均衡,可以解决服务器单点故障所引发的系统不稳定,提高系统的可靠性,因此集群具有更好的容错能力,但是在实际的应用中,集群技术多用于高性能计算。
基本原理
容错
计算机系统(fault-tolerant computer system)包括大量的硬件措施和软件措施,还包括电源组件,电源组件可以提供不间断的不被打断的环境。包容错误程序的计算机使用特殊软件的惯常程序和自我检查的逻辑程序,将其设计为电路的一部分,用来检查硬件问题,并可以自动转换成后备设施。在不涉及计算机系统的情况下,计算机的一些部分可以进行移除,也可以进行修理。
容错服务器功能的基础是建立在时钟同步(lockstep)技术上的体系架构,采用即使在故障出现也可保证连续处理的冗余部件来消除单点故障。许多“强壮的”服务器提供冗余的电源供给、
风扇和磁盘,然而只有容错服务器可以提供对核心系统组件,包括母板、处理器、内存、I/O总线和I/O适配器的保护。
Lockstep可以保持多CPU/内存单元在精确的同步状态——同一时钟周期执行相同的指令。Lockstep能够确保包括瞬时错误在内的任何错误都不会影响到系统运行,系统可以在任何CPU/内存单元发生错误的情况下不丢失数据或状态,也不需产生中断进行错误处理。
容错I/O系统物理上与CPU-Memory系统分离。硬件逻辑,以定制的芯片组形式,作为CPU和I/O间的PCI桥接,同时提供核心错误侦测、故障隔离、以及时钟同步结构的同步逻辑。CPU/Memory子系统中的定制逻辑包含主要的
PCI接口、中断控制功能,和交易排序逻辑。I/O子系统中的定制逻辑包含表决逻辑、次级PCI接口,以及错误寄存器。定制的芯片组使用被动总线连接服务器中冗余的CPU和I/O模块。
容错服务器的I/O以双份的I/O总线、冗余的I/O适配器,和冗余的设备组成。所有关键PCI适配器是冗余的:SCSI、SATA、以太网、远程管理,和光通道。内部SCSI和SATA磁盘存储和扩展光通道存储为镜像的(RAID 1),通过两条独立的存储I总线连接。外部光通道硬件RAID阵列的连接也是冗余,可保证完全容错的操作。对任何逻辑
I/O操作,包括内部和外部存储操作,都是多路经可行的。任何I/O操作故障将引发选择另一条路径作操作重试,确保I/O操作的完成。
发展历史
上世纪80年代,第一代容错技术开始进入应用领域,美国Stratus在Stratus独特的硬件级容错技术及VOS专有操作系统环境下,采用了
Motorola M68000处理器。
1993年,英特尔I860处理器在Stratus的硬件级容错体系结构中成功应用,在软件环境方面满足业界对开放性要求的Unix操作系统FTX。
1996年,容错技术得到HP的支持推出Stratus Continuum系列,将Stratus容错结构结合HP PA-RISC
对称多处理技术。
进入21世纪以来,生产制造业、中小企业、银行金融、能源、交通等领域对服务器,特别是中低端
IA服务器的需求激增,过去仅仅可以应用在RISC平台、HP-UX环境下的容错产品也面临着新的挑战。另一方面,企业越来越依赖信息系统来完成关键业务的应用,同时企业不可能配备更多的专业人员来进行专职维护,
双机热备、集群服务器遇到难题。
如今,很多硬件制造企业与容错合作,大量推出了基于IA架构、支持Microsoft Windows Server 和Linux的容错服务器,这种实时保护技术源于STRATUS的lockstep技术。
发展趋势
容错的未来将会向更高的可用性、更好的
可维护性发展。调查显示,越来越多的用户开始注重TCO(总拥有成本),更多的企业决定逐步放弃采用
双机热备的方式来维护复杂的
集群服务器,转而将目光瞄向具有容错技术的平台或
容错服务器平台。
在国内,美国
容错(Stratus)与
海得控制(HiTE)合作在一定程度上弥补了国内容错服务器在服务拓展领域的短板。