一、什么是高可用集群
高可用集群(High Availability Cluster,简称HA Cluster),是指以减少服务中断时间为目的的服务器集群技术。它通过保护用户的业务程序对外不间断地提供服务,把因为软件,硬件,人为造成的故障对业务的影响降低到最小程度。总而言之就是保证公司业务7*24小时不宕机
二、高可用集群的衡量标准
通常用平均无故障时间(MTTF:mean time to failure)来衡量系统的可靠性,用平均故障维修时间(MTTR:Mean Time Between Failures)来度量系统的可维护性。于是可用性被定义为: HA=MTTF/(MTTF+MTTR)*100%。
三、高可用集群实现原理
高可用集群主要是实现自动侦测(Auto-Detect)故障、自动切换/故障转移(FailOver)和 自动恢复(FailBack)。
1:自动侦测、故障检测:通过集群各节点间心跳信息判断节点是否出现故障;
2:当有节点(一个或多个)和另外节点互相接收不到对方心跳信息时,如何决定哪一部分接点是正常运行的,而哪一部分是出现故障需要隔离的呢?
这时候通过法定票数(quorum)决定,即当有节点故障时,节点间投票决定哪个节点是有问题,得票数大于半数为合法,每个节点可以设置其票数,当一个节点能和另一个节点保持心跳信息,该节点就获取了另一个节点的票数,该节点获得就是正常节点,反之为故障节点。
四、高可用集群的分类
双机热备(Active/Passive)
多节点热备(N+1)
多节点共享存储(N-TO-N)
共享存储热备 (Split Site)
五、高可用集群软件
在高可用集群朝多样化、易操作维护等方向迅速发展的今天,市场上的集群软件产品也品种繁多,但对于任何一款高可用集群产品,故障监视都是最核心的功能。监视资源种类的多少和监视层次的深浅,都成为评价一款集群软件高可用性的重要指标。目前市面上成熟的高可用集群软件已有不少,比如国外就有RedHat 公司的RHCS、Novell公司的Novell Cluster Service、Steeleye公司的Lifekeeper for Linux、Keepalived等,在国内其实也有,比如中兴新支点的Newstart HA 就已经做得不错。
以国内的Newstart HA 为例简单介绍一下。Newstart HA由中兴子公司“新支点”研发,是国内具有代表性的一款成熟的高可用集群软件。NewStart HA无需改变任何服务和应用,即可保证系统故障和部件故障时应用不中断;可以自动监控服务器、网卡、浮动 IP 、存储和业务,生产中心失效会自动切换到灾备中心;可实现数据实时同步,切换时间为秒级,因此可以提供电信级,高达 99.999% 的高可用性。