实际生产环境中服务器故障是不可避免的。服务器故障可能由各种原因引起,如设备故障、操作系统故障、软件系统故障等等。通常服务器产生故障正常的恢复的时间可能需要几分钟,甚至几小时。而对于一些重要系统而言,用户是很难忍受这样长时间的服务中断的。因此,就需要通过双机热备,来避免长时间的服务中断,保证系统长期、可靠的服务。
双机热备使用两台服务器部署管理平台,同时两台服务器互相备份,共同提供服务。当一台服务器出现故障时,可由另一台服务器承担服务,从而在不需要人工干预的情况下,自动保证管理平台能持续提供服务。双机热备由备用的服务器解决了在主服务器故障时管理平台中断的问题。
管理平台可以通过双机热备技术来实现管理平台的高可靠性,与管理平台配置备份相比,双机热备是一种实时的高可靠性方案。
|
双机热备功能是基于数据同步复制的方式来实现的。主备服务器之间数据的同步采用DRBD(Distributed Replicated Block Device,分布式镜像块设备内容的存储复制)存储复制解决方案来实现,当主服务器数据发生变化时,该数据变化会实时同步到备用服务器,这样就保证了主备服务器之间数据的一致性。
双机热备优化后,新双机热备的主备切换是通过CMSD(CVM Master Slave Daemon,热备服务管理程序)来实现的。
CMSD主程序完成以下功能:
老双机热备corosync+pacemaker+glue的集群通信功能。
热备服务的启动、关闭、切换等功能。
网络故障或主机故障时,热备服务能够自动进行切换。
· 在E0523及之后版本的双机热备为新双机热备。 · 在E0523之前版本的双机热备为老双机热备。 |
新双机热备系统由三个实体组成:主节点、备节点和仲裁节点。
主备节点是安装了CMSD主程序的两个节点。
仲裁节点分为高级仲裁节点和简易ping仲裁节点。
高级仲裁节点可以是同管理平台CVK或安装了CMSD程序的节点。
简易ping仲裁节点可以是主备节点可ping通的交换机、路由器。
双机热备的组网拓扑图如下所示。
图-1 组网拓扑图
node1和node2是构成双机热备的两台CVM主机。
多台CVK主机和node1、node2主备CVM管理平台组成CAS云服务平台。
CVK主机与主备CVM管理平台之间的交换网络要求至少是千兆网络。
双机热备的两台主机(node1、node2)可以再作为CVK主机加入到热备主机自己管理的主机池中使用,但不能再分离成单独的CVM管理平台使用。
仅支持新部署的CAS,CVM虚拟化管理系统采用双机热备配置。不支持在原有在线使用的CAS中的CVM虚拟化管理系统升级成双机热备,因为原有数据无法保留。
双机热备主机因为网络异常出现脑裂,等网络恢复正常后,会自动协商出主服务器,若脑裂时业务主机的性能数据发送的是现在的备服务器,脑裂恢复后,业务主机的性能数据仍向现在的备服务器发送性能数据,导致主管理平台性能数据丢失,此时在主管理平台上需执行连接主机操作,保证业务主机性能数据发送正确。
双机热备部署或增加本地同步分区盘的过程中,要保证服务器健壮性,不能重启和关闭服务器。若出现故障服务器重启或断电,需要重新部署搭建。
缩略语Abbreviations |
中文解释Chinese explanation |
英文全名Full spelling |
CVM |
虚拟化管理系统 |
Cloud Virtualization Manager |
CVK |
虚拟化内核平台 |
Cloud Virtualization Kernel |
DRBD |
分布式镜像块设备内容的存储复制解决方案 |
Distributed Replicated Block Device |
CMSD |
热备服务管理程序 |
CVM Master Slave Daemon |