服务的效果、效能和效率。互联网行业中指用 户是否可以随时使用网络资源,换言之,就是网络的平均无故 障率。网络故障除了与网络设备的可靠性有关外,还与很多非 网络因素有关,比如因施工将光缆挖断等。所以,为了保证网 络的无故障率,除了选择高性能、高可靠性的设备外,还要在网 络结构上充分考虑冗余和备份。以光缆被割断事件为例,假定 在一年内发生一次,完全不使用任何措施,但有人员24小时维 护。发现并接续光缆时间一般为1天,所以其服务可用性指标 为:1-24 × 60 × 60/(31. 536 × 106)=99.726%。
分析指标
可用性比率指标
一个IT资源的整体可用性通常用运行时间的百分比来表达。例如,一个总是可用的IT资源的运行时间为100%。
·描述——服务运行时间的百分比。
·测量值—全部运行时间/全部时间。
·频率——每周,每月,每年。
·示例——至少99.5%的运行时间。
停用时间指标
这个服务质量指标是用来定义服务水平目标的最大和平均停用时间。
·描述——次停用的时长。
·测量值——停用结束的日期/时间一停用开始的日期/时问。
·频率——每次有事件发生。
·云交付模型——IaaS,PaaS,SaaS。
·示例——最长1小时,平均15分钟。
影响因素
①性能:许多系统尽管在功能上可用,但性能水平却因部分功能的丧失而下降。当一个网上购物站点的硬盘或集群处理器发生故障时,虽然仍然能够接收订单,但其整体服务效能却会下降。当今系统的设计通常都可以做到当某些部件发生故障时,仍然可以继续提供服务,但性能水平则会下降。
②功能:即使故障使系统不能按设计的正常状态运行,但它还能够提供某些价值。比如,当一个预定系统的交易
数据库正在备份,可能暂时不能接受新的预定,但它仍然能够检查预定状态并回复其他询问。
设计规则
独立性设计
独立性是指当某个单个的系统出现问题时。它不会影响其他系统的运行。这里有两层意思:各个业务的服务线之间尽量相互独立。不要使用共同的设备如存储等。这是因为不同的业务服务所需要的维护时间是不同的。在每条服务线上,所有系统或应用单元,例如服务器,应该在每一层之内(withinIayer)以及层与层之间(between Iayer)独立运行。这样运营团队应该可以单独地运行或停止某个
服务器.而不影响其他服务器的运作。
容错设计
容错设计是让系统的某些部分出现故障的状态下,使系统在降级运行(degradedoperating)的状态下继续运行的设计。这种运行可能在一个较低水平,其目的是让平台不是完全失败的。或是说作为一个整体的平台还没有停止。这种较低水平是指平台的
吞吐量的降低。
响应时间减缓等。
牺牲峰值
这个设计对超大用户的流量的场景非常重要。所有的服务平台的容量都是有限的。但实际流程超过预计容量的突发状况时,服务提供商宁愿牺牲这些超过的流量.也要保证基本流量的畅通。比如,设计容量是100万用户,当用户达到1 10万时,要牺牲掉10万用户的访问,以保证100万基本用户的正常使用。
在做这样设计的时候。服务平台端(server-end)和客户端软件(cIient—end)都要有这样的机制:对于这1 O万用户,他们一旦请求失败后。就会放弃.而不是不断地继续发请求给服务平台造成压力。
基本作用
①当需要使用时。
②故障环境下具有足够的性能。
③故障环境下具有足够的功能。
并不是所有系统都必须每天二十四小时可用,并保持其所有功能的最佳性能水平。可用性的基本作用是能够让可用系统的设计者设计出满足企业可用性需求的系统,同时是负担得起的。