集群的高可靠性(High Availability,简称HA)依赖于共享存储和动态迁移技术,为集群中所有虚拟机上运行的应用程序提供简单易用、经济高效的高可用性,最大程度减少因硬件故障造成的服务器宕机和服务中断时间。开启集群HA功能之后,系统会持续监测集群内所有的服务器主机与虚拟机运行状况。
当主机故障时,系统自动将故障主机上的虚拟机迁移到其他可用主机上。
当虚拟机故障时,系统尝试将故障虚拟机在其原主机上重启。若故障虚拟机重启成功,则虚拟机继续在原主机上运行;若故障虚拟机重启失败,则虚拟机将自动迁移到空闲主机上重启。
当主机与共享存储间网络故障时,系统自动将主机上的虚拟机迁移到其他可用主机上。
高可靠性的技术特点:
自动监测主机和虚拟机:系统会自动监测主机和虚拟机的运行状态。若系统发现主机或虚拟机故障,则会在其他主机上重启所有受影响的虚拟机,这个过程无需任何人为干预。
资源预留:系统会保证资源池中具有足够的资源提供给虚拟机。当主机宕机后,预留资源可以保证虚拟机能够顺利地重启。
虚拟机自动重新启动:通过在其他主机上重启虚拟机,可以保护任何应用程序不会因为硬件失效而长期中断服务。
智能选择主机:当同时开启集群高可靠性与动态资源调度功能时,系统可以根据资源的使用情况,为失效主机上的虚拟机选择能获得最佳运行效果的主机。
集群的高可靠性适用于业务运行连续性要求较高的场合。集群高可靠性能增强虚拟化环境的自动化维护手段,减少维护人力投入,最大限度减少虚拟机业务中断时间,缩短平均故障恢复时间,提升系统可靠性。
系统中已配置NTP时间服务器,以确保高可靠性集群中的心跳报文时间一致。NTP时间服务器配置,请参见NTP时间服务器配置。
在启用HA功能的集群中,每台主机上虚拟交换机的配置(即虚拟交换机的个数、名称、转发模式等)必须一致。
在启用HA功能的集群中,为确保虚拟机在集群中各主机间顺利迁移,所有虚拟机的镜像文件都必须保存在共享存储中。若虚拟机必须使用本地存储,则不建议启用HA或者动态资源调度功能。
在启用HA功能的集群中,各主机的CPU厂商必须一致。例如,CPU厂商均为Intel或AMD的CPU。另外,采用同一厂商、同一型号CPU的主机组成的集群,可以获得最好的迁移兼容能力。
在关闭集群HA功能前,请确保集群中没有处于关闭或者重启等异常状态的主机,否则可能会导致集群中的虚拟机重名。如果出现虚拟机重名的问题,可以通过重新开启集群HA功能解决。
在启用或者禁用集群HA功能的过程中,请勿对集群中的虚拟机执行启用、部署、迁移等操作,也不要对集群中的主机执行重启、关机等操作,以免造成不可预知的错误。
在启用HA功能的集群中,如果某台主机需重装,请先从集群中删除该主机。待重装完成后,再将其加入集群。这样可以避免集群中出现主机状态不一致的情况。
在集群启用HA功能之前,需要确保集群下的所有主机已预留出足够的系统资源(内存等),当集群内有主机发生故障时,故障主机上的虚拟机能够迁移到同集群正常运行的主机中。
单击左侧导航树[数据中心/虚拟化/<主机池名称>/<集群名称>]菜单项,进入指定集群概要信息页面。
单击<高可靠性>按钮,弹出高可靠性配置对话框。
启用HA,并配置相关参数后,单击<确定>按钮完成操作。
启动优先级:用于设置集群中虚拟机的缺省启动优先级,包括低级、中级和高级,默认为中级。虚拟机的启动优先级在修改虚拟机的过程中设置。主机故障后,虚拟机启动的相对优先顺序。这些虚拟机在新主机上按顺序重新启动,首先启动优先级最高的虚拟机,然后是中级优先级的虚拟机,最后是低级优先级的虚拟机,直到重新启动所有虚拟机或者没有更多的可用集群资源为止。
业务网HA:当虚拟机对应的业务网出现故障或者连接不通时,虚拟机可以迁移到其他主机上,恢复虚拟机业务。对于未绑定物理网卡、使用管理网或使用VXLAN转发模式的虚拟交换机将不支持HA故障检测。
开启HA接入控制:是否启用HA接入控制。若开启HA接入控制,则需要配置生效最小节点数、故障切换主机或HA资源预留。
生效最小节点数:用于设置集群中高可靠性正常运行所需的最小主机数。如果集群内正常运行的主机数量小于该参数时,HA将会失效。生效最小节点数默认为1。配置此参数时,请确保集群内所有主机的CPU个数和内存大小保持一致,否则有可能会因为资源容量计算不准确而导致虚拟机无法进行故障迁移。
故障切换主机:当集群HA内出现故障虚拟机需要自动迁移时,优先从指定的主机组内选择迁移目的主机,指定的主机仅用于故障迁移,不能作为增加、迁移虚拟机的目的主机。故障切换主机必须挂载与业务主机相同的共享存储。
HA资源预留:为集群的HA保留一定的CPU和内存资源。当集群剩余资源所占比例小于预留值时,则不能继续启动集群内虚拟机,将虚拟机还原到运行/暂停状态,或将运行状态虚拟机迁入集群。
触发动作:集群开启HA后,共享存储故障时,系统对受影响的虚拟机进行故障迁移或冻结,默认为故障迁移。当系统参数设置页面中的“共享存储故障隔离”参数设置为“不重启主机”且HA状态由关闭到开启时,此参数才允许修改。
故障迁移:当共享存储故障时,全部数据存放在共享存储的虚拟机将被迁移到集群中的其他主机上。