平均修复时间
描述产品由故障状态转为工作状态时修理时间的平均值
平均修复时间(Mean time to repair,MTTR),是描述产品由故障状态转为工作状态时修理时间的平均值。产品的特性决定了平均值的长短,例如:硬盘错误的自动修复机制,又或整个机场的电脑系统发生故障。在工程学,“平均修复时间”是衡量产品维修性的值。因此,这个值在维护合约里很常见,并以之作为服务收费的准则。
背景介绍
举例说:当一个团体的电脑系统发生故障,一份要求在24小时内把系统修复的合约,一般会比一份允许系统在一星期内修复的合约要来得昂贵。然而,这个“平均修复时间”的值并不表示系统必然会在指定的时间内恢复,因为那只是一个平均时间值。若要表示在指定时间内恢复系统,则要使用“最大修复时间”。
MTTR表达式
MTTR或,其度量方法为在规定的条件下和规定的时间内,产品在任一规定的维修级别上,修复性维修总时间与在该级别上被修复产品的故障总数之比。
设为第次修复时间,N为修复的次数,表达式为:
应用
对于冗余队列中的硬盘来说,MTTR是指实际产生和发现故障后有人替换坏硬盘冗余队列并完成在新硬盘上重写信息之间的时间间隔。这可能需要以小时来评估。对于台式计算机上的非冗余硬盘而言,MTTR是指用户大骂一声然后打电话给服务人员与被替换的硬盘已经安装操作系统、软件和属于该用户的任何备份数据之间的时间间隔。这一时间可能需要以天数来评估。对于计划外的重启,MTTR是指系统发生故障直至操作系统已经重新启动、检查它的磁盘状态(希望找不到文件系统无法处理的故障)、重启它的应用程序、应用程序已经检查了数据的一致性(希望找不到日志无法处理的问题)、并再一次开始处理事务的这段时间。对于运行结构合理的优质操作系统和软件的可靠硬件来说,这段时间可能仅以分钟评估。对于没有使用高性能日志文件系统和数据库的日用设备而言,这段时间可能以小时评估;或者如果自动化恢复/回滚功能无法运行,并需要从磁带中恢复数据,那么可能要以天数评估。
1、MTTR涉及修复一个组件或设备、替换该设备或者可能要参考供应商的SLA
2、如果对于一台关键设备而言MTTR过长,那么应使用冗余设备。
制造厂商提供的MTBF和MTTR可用于决定在新系统上投入多大的成本。对于可能出现短暂中断而不会造成严重影响的系统,通常是使用MTBF较短而MTTR适中的廉价设备制造的。MTBF较高的设备一般价格也更高。不能接受故障的系统需要使用冗余组件。对于不能接受中断的系统或者由于冗余组件出现故障并进行替换而风险不断增加的系统,它们可能需要容错功能。
参考资料
最新修订时间:2023-12-02 17:27
目录
概述
背景介绍
MTTR表达式
应用
参考资料