02-高可靠性介绍
本章节下载: 02-高可靠性介绍 (762.24 KB)
本帮助主要介绍以下内容:
· 背景介绍
· 双机热备特性简介
○ 基本概念
○ 双机热备信息同步
· 集群简介
○ 背景介绍
○ 应用场景
○ 基本概念
○ 流量组
○ 管理角色
○ 业务角色
○ 集群建立
○ 信息同步
○ 状态切换
○ 流量引导
○ 流量组规划
· 高可靠性工作模式
· 配置指南
高可靠性(High Availability),简称为HA,能够在通信线路或设备产生故障时提供设备级、业务级的冗余方案,保证用户业务不中断。根据组成系统的设备数量可以将高可靠性系统分为双机热备系统和集群系统。
大数据时代,随着各行各业数字化转型的蓬勃发展,网络承载的业务越来越多,越来越重要。如何保证网络的可靠性、业务的不间断传输成为网络建设中必须要解决的问题。
如图-1中的左图所示,Device部署在网络的出口,内、外网之间的业务均会通过Device处理和转发。如果Device出现故障便会导致内、外网之间的业务全部中断。由此可见,在这种网络关键位置如果只部署一台设备,无论设备的可靠性有多高,都会存在因设备的单点故障而导致网络中断的风险。
因此,企业通常会在网络的关键位置部署多台设备,以提升网络的可靠性。如图-1中的右图所示,当Device A出现故障时,流量会通过Device B转发,保证内、外网之间业务流量不间断传输。
图-1 HA部署提升网络可靠性示意图
对于传统的网络设备(如交换机、路由器),只需要做好链路和设备的冗余就可以保证底层数据通信的不间断。但是,对于需要对报文进行状态检测和策略处理的安全设备(如防火墙等)仅做到链路和设备的冗余,无法满足用户业务级的可靠性需求。这是因为安全设备上的很多安全类业务功能(如安全策略、NAT等)均是基于业务表项和策略规则对报文进行安全检测或业务处理。当正在传输的业务流量切换到备份设备进行处理时,会因备份设备上缺少相同的业务表项和策略规则,而导致用户业务中断或业务处理结果发生改变,最终无法保证用户业务的连续性。
HA功能可以有效解决以上问题。如图-1中的右图所示,HA通过RBM(Remote Backup Management,远端备份管理)协议将多台设备组建成高可靠性系统,HA在保证链路级冗余的同时,还能将设备上的业务表项和配置信息在多台设备之间进行同步,最终对用户业务达到了设备级、业务级的可靠性保障。
高可靠性的双机热备是指将同一内网(或数据中心)的两台设备通过RBM协议组建成一个可靠性系统,简称“双机热备”,且其只能使用HA的主备和双主工作模式。
双机热备技术包含的基本概念如下:
· 主、从管理设备:双机热备中的设备分为主、从两种管理角色,用于控制设备之间关键配置信息的同步。RBM通道建立成功后,只能在主管理设备上配置支持配置信息同步的相关功能,从管理设备上不能配置。“主管理设备”可以将自己的关键配置信息同步到“从管理设备”,并覆盖从管理设备上的相关配置,保证主备设备上的配置信息一致。
· 主、备业务设备:双机热备中包含主、备两种业务角色。主设备处理业务,并向备设备实时备份业务表项信息;备设备除接收主设备的业务表项备份信息外,在主设备发生故障后,备设备会转换成主设备,继续处理业务流量,保证业务不中断。
· RBM通道:用于两台设备之间交互RBM的运行状态信息,关键配置信息和业务表信息。
· 工作模式:双机热备支持主备和双主两种工作模式。
· RBM报文:RBM报文使用RBM协议承载两台设备之间需要交互的信息。其使用TCP作为传输层协议。
RBM报文包括如下:
· 心跳报文(Keepalive报文):两台设备通过定期互相发送心跳报文来检测对端设备是否存活。
· 控制报文:根据设备的运行状态来控制设备的主备状态切换。
· 配置信息和表项备份报文:用于两台设备之间进行配置信息和业务表项的备份。
· 配置一致性检查报文:用于检测两台设备的关键配置是否一致。
· 透传报文:用于设备间非对称路径业务报文的透传或复制。
RBM通道用于两台设备之间进行双机热备运行状态、关键配置和业务表项等信息的传输,包括以下几种类型的通道:
· RBM控制通道:可传输的报文类型包括双机热备的运行状态报文、一致性检查报文、备份配置信息和备份业务表项信息的报文等。
· RBM热备份通道:可传输的报文类型包括备份业务表项的报文。
RBM通道基于TCP协议来监测链路的连通性。RBM通道建立后,设备会周期性向对端设备发送Keepalive报文,如果达到最大发送次数后仍然没有收到对端的回应,则RBM通道断开,双机热备功能失效。
双机热备能够将主设备上生成的业务表项信息实时备份到备设备,避免了主备设备切换时因备设备上缺失业务表项而造成的业务中断问题。
需要对报文进行状态检测的设备,对于每个动态生成的连接,都有一个会话表项与之对应。主设备在处理业务的过程中创建了很多会话表项;而备设备没有报文经过,因此也就没有创建会话表项。双机热备可以将主设备上的会话表项实时备份到备设备,当主备切换后,已有连接的后续业务报文可以通过匹配备份来的会话表项来保证业务不中断。
目前双机热备支持热备的业务表项包括:NAT端口块表项、AFT端口块表项、会话表项、会话关联表项和各个安全业务模块自身生成的业务表项。
双机热备可以将主管理设备上的关键配置信息(支持配置信息同步的模块)备份到从管理设备,避免了主备设备切换时因备设备缺失对应的配置信息而造成的业务中断问题。
双机热备中主从管理设备之间的关键配置信息备份原理包括如下:
· 两台设备均正常运行情况下,配置信息只能从“主管理设备”同步到“从管理设备”,并覆盖从管理设备上对应的配置信息。
· 两台设备的任意一台重启情况下,重启后的设备向未重启的设备获取关键配置信息,并覆盖本设备上对应的配置信息。
双机热备支持自动和手动两种方式进行配置信息备份。
目前双机热备支持配置信息同步的业务模块如下。以下内容仅是从功能支持层面列出了双机热备支持配置信息同步的业务模块,但是每个业务模块在不同产品上的支持情况不同,请以设备支持的实际情况为准。
· 资源类:VPN实例、ACL、对象组、时间段、安全域、会话管理、APR、AAA。
· DPI相关模块:应用层检测引擎、IPS、数据分析中心。
· 策略类:安全策略、ASPF、攻击检测与防范、连接数限制、NAT、AFT、服务器负载均衡、智能路由负载均衡、带宽管理、应用审计与管理。
· 日志类:快速日志输出、Flow日志。
· VPN类:SSL VPN。
· 其他类:VLAN、信息中心。
双机热备通过交互一致性检查报文来检测两台设备的配置信息是否一致,用于防止由于两台设备配置信息不一致,而导致主备切换后业务不通的情况。当配置信息不一致时,设备会发送日志信息,以提示管理员进行配置信息的手动同步。
双机热备配置信息一致性检查的过程如下:
1. 主管理设备发送一致性检查请求报文给从管理设备,同时收集自身相关模块配置信息的摘要。
2. 从管理设备收到一致性检查请求后,会收集自身相关模块配置信息的摘要,然后封装到一致性检查报文返回给主管理设备。
3. 主管理设备收到从管理设备返回的一致性检查报文后,将自身配置信息的摘要与从管理设备配置信息的摘要进行对比,如果对比结果不一致,则主管理设备输出日志信息。
主备切换是指双机热备中的一台设备或其链路等发生故障,另一台设备接替故障设备处理业务。设备通过设定不同的触发条件,对不同的故障事件进行监控,当故障发生时,能及时触发主备切换,保证业务不中断。
触发主备切换的事件如下:
· 控制通道断开
两台设备正常运行情况下,当控制通道断开后会进行主备切换。这时两台设备都变为主设备,进行业务处理,但是两台设备不再是双机热备状态,对后续的非对称流量会有影响。
· 主设备整机故障
整机故障后,控制通道断开,会触发主备切换。
· 主设备上双机热备监控的接口故障。
双机热备监控的任一接口故障后,会触发主备切换。
· 主设备上任意业务板故障
主设备上任意安全业务板故障会触发业务主备竞选。竞选过程中当两台设备上在位的安全业务板数量一样时,主备工作模式中,业务主就是管理主设备,业务备就是管理从设备;双主工作模式中,两台设备都是业务主。当两台设备上在位的安全业务板数量不一样时,任何工作模式中,都是安全业务板在位数量多的一方竞选为业务主,少的一方竞选为业务备。
· 主设备上所有主控板故障
在只有主用主控板出现故障的情况下,不会触发主备切换;只有主用和备用主控板同时故障后,才会触发主备切换。
· 主设备上所有交换网板故障
虽然双机热备通过以上监控手段可以进行主备切换,并及时引导流量到正常设备处理业务,保证用户业务不中断。但是,为了整个双机热备的长期可靠运行,建议管理员在发现故障后及时解决。
主备切换时,双机热备为将流量引到新的主设备,其通过与其他模块联动来实现,如:双机热备与VRRP联动时,双机热备将故障设备上的VRRP备份组状态都切为Backup状态。
在双机热备与VRRP联动的组网环境中,RBM将会控制设备在多个VRRP备份组中Master和Backup状态的统一切换。此功能可以使设备的上下行流量同时切换到新的主设备,保证业务不中断。
此处以主备模式为例,介绍双机热备与VRRP的联动组网情况,具体如下。
· 如图-2的左图所示,在仅有VRRP的组网环境中,当VRRP链路故障时会导致上、下行VRRP备份组中的Master设备不是同一台设备,造成流量中断。
· 如图-2的右图所示,将双机热备和VRRP关联后可以解决以上问题。RBM通道建立后,VRRP备份组内的设备状态将由RBM决定,VRRP自身的主备选择机制不再生效。当RBM通道断开后,VRRP自身的主备选择机制将会重新生效。
VRRP active组和VRRP standby组:用于将双机热备与VRRP进行关联,实现双机热备对多个VRRP备份组状态进行统一管理的目的。
VRRP active/standby组分别有两种状态:Master和Backup。VRRP成员设备在VRRP备份组中的状态与所属VRRP active/standby组的状态保持一致。例如,VRRP active备份组的状态是Master,则该组中所有设备在VRRP备份组中的状态均为Master。
VRRP active/standby组初始状态的实现机制如下:
· 主备模式下:主管理设备上VRRP active组和VRRP standby组的初始状态均为Master;从管理设备上VRRP active组和VRRP standby组的初始状态均为Backup。
· 双主模式下:此种模式下VRRP active/standby组的状态与主从管理设备角色无关,VRRP active组的初始状态为Master;VRRP standby组的初始状态均为Backup。
如图-2的右图所示,将双机热备与VRRP关联成功后,VRRP备份组中Master/Backup状态的变化机制如下:
1. 正常情况下,Device A(假设其是主管理设备)上VRRP active组的状态是Master,所以Device A在VRRP备份组1和VRRP备份组2中的状态是Master设备。Device B(假设其是从管理设备)上VRRP standby组的状态是Backup,所以Device B在VRRP备份组1和VRRP备份组2中的状态是Backup。
2. 当Device A的下行接口Interface A2故障后,HA会收到接口故障事件。然后HA发送VRRP active/standby组状态信息变更报文给Device B,通知Device B将其VRRP standby组的状态变更为Master。
3. Device B收到VRRP active/standby组状态信息变更报文后,会将自身VRRP standby组的状态变更为Master,同时将Device B在VRRP备份组1和VRRP备份组2中的状态变为Master。变更完成后给Device A发送应答报文。
4. Device A收到Device B的VRRP standby组状态变更成功应答报文后,将自己VRRP active组的状态变更为Backup,同时将Device A在VRRP备份组1和VRRP备份组2中的状态变更为Backup。
当Device A的下行接口Interface A2故障恢复后,流量会进行回切,VRRP备份组中Master/Backup状态的变化与接口故障时的变化过程类似,不再重复介绍。
当VRRP备份组中的设备接收到虚拟IP地址的ARP请求报文后,只能由Master设备使用VRRP备份组的虚拟MAC地址响应此ARP请求,与此同时ARP报文传输路径上的二层设备也就学习到了此虚拟MAC地址的MAC地址表项。
多活数据中心建设方案在很多行业已得到广泛应用,每个数据中心地位均等。正常情况下,此方案中的各个数据中心并行地为业务访问提供服务,充分利用资源;当一个数据中心发生故障或灾难时,其他数据中心可以正常运行并对业务进行接管,实现用户业务的“无感知”切换和不中断。
因为高可靠性双机热备功能仅支持同一数据中心的两台设备进行可靠性组网,所以双机热备功能显然不能满足多活数据中心场景的可靠性要求。
高可靠性集群(简称“集群”)功能可以有效解决以上问题,集群通过RBM(Remote Backup Management,远端备份管理)协议可以将多台设备跨数据中心组建成高可靠性系统,并通过专用通道进行集群成员之间配置信息和业务表项信息的同步。最终实现设备在多活数据中心场景中的可靠性部署。
集群功能常见的应用场景包括多活数据中心负载分担场景和同一数据中心多业务负载分担场景。
如图-3所示,在此场景中正常情况下,多个数据中心同时对外提供服务,充分利用现有的网络资源和应用服务资源等,不同数据中心设备之间的配置信息和业务信息可以相互备份。如图-4所示,当其中一个数据中心的某台设备故障不能对外提供服务时,首先让同一数据中心的其他设备立即接手这些流量,保证用户业务不中断;同理,当整个数据中心故障不能对外提供服务时,再由其他数据中心的设备立即接手这些流量,保证用户业务不中断。
如图-5所示,在此场景中正常情况下,数据中心的不同设备可以对外发布不同的业务,这样每台设备可以集中高效地处理某一种业务,同时设备之间又可以相互备份配置信息和业务信息。如图-6所示,当其中一台设备故障时,其他设备可以立即接手这些流量,保证用户业务不中断。
如图-7所示,高可靠性集群功能的基本概念如下:
· 集群:即高可靠性集群,本文简称“集群”,可以对多台设备进行统一管理和控制,不仅提高了业务稳定性,增强了整个集群系统的处理能力,同时也有利于后期扩容。
· 流量组:即集群流量组,本文简称“流量组,是集群中处理业务的基本逻辑单元,一个集群流量组可以为一个数据中心或某一应用提供可靠性服务。
· 集群成员:是集群系统和流量组中最终处理业务的物理实体,具有相同集群ID的设备组建成一个集群。
· 管理角色:在控制层面,集群中的设备分为主(Primary)、从(Secondary)两种管理角色(也可以称为“主、从管理状态”、“管理主和管理从”),用于控制集群中设备之间关键配置信息的同步。
· 业务角色:在数据层面,集群中的设备分为主(Active)、备(Standby)两种业务角色(也可以称为“主、备业务状态”、“业务主和业务备”)。业务主处理业务,业务备不处理业务,但是对于同一台设备可以是不同流量组的业务主。
· RBM通道:用于集群成员设备之间交互集群的运行状态信息、关键配置信息和业务表项信息。
· RBM报文:集群使用RBM协议承载成员设备之间需要交互的集群信息。
如图-7所示,集群流量组是集群中处理业务的基本逻辑单元,一个集群流量组可以为一个数据中心或某一应用提供可靠性服务。
每个集群成员可以加入多个流量组,形成一主多备的结构。流量组中的业务主负责处理业务,并向业务备实时备份业务表项信息;业务备负责提供备份机制,不处理业务,只有业务主故障后,业务备升级为业务主后才可以处理业务。
设备的业务表项信息只能在本流量组中的成员之间进行备份。业务主备的切换也只是在本流量组中进行切换,不影响其他流量组中业务主备的切换。
流量组联动VRRP和动态路由等协议实现流量的自动切换,当业务主或其链路故障后,可以保证流量平滑切换到最优的业务备继续处理。
如图-7所示,在控制层面整个集群等同于一个集群管理组,集群管理组中设备分为主、从两种管理角色,用于控制集群中设备之间关键配置信息的同步。为保证集群中所有设备管理的便利性和配置信息的一致性,因此集群中同时只能有一个管理主,且只能在管理主上配置支持配置信息同步的相关业务功能,不能在管理从上配置业务功能。管理主上的关键业务配置信息会同步给本集群中的其他所有管理从,保证一个集群中所有成员设备上的关键业务配置信息一致。
如图-8所示,管理主通过选举产生,其选举条件的优先级从高到底依次为:管理主当选时长 > 集群成员优先级 > 集群成员ID。
管理主的具体选举过程如下:
1. 首先比较本集群中已有管理主的当选时长,当选时间最长的设备成为本集群的管理主,初始状态下所有设备的主管理角色当选时长都是零。
2. 若管理主当选时长一样,则继续比较成员优先级(数值越大优先级越高),优先级最高的设备成为本集群的管理主。
3. 若成员优先级一样,则继续比较集群成员ID,数值最大的设备成为本集群的管理主。
管理主选举成功后,一般不会改变,后面加入的集群成员(即使优先级更高)也只能作为管理从。除非通过命令手工切换管理主,或者因管理主故障而脱离集群才会导致重新选举管理主。
如图-7所示,在数据层面集群中包含了多个集群流量组,其用于处理具体的业务流量。集群流量组中的多台成员设备分为主、备两种业务角色。集群流量组中同时只能有一个业务主,其他设备均为业务备。
业务主和业务备均是针对某一个集群流量组而言;对于一台设备而言,它既可以是集群流量组1的业务主,又可以是集群流量组2和流量组3的业务备。
如图-9所示,业务主通过选举产生,其选举条件的优先级从高到底依次为:业务接口在位数 > 安全业务板在位数 > 集群成员在流量组中的优先级 > 集群成员ID。
业务主的具体选举过程如下:
1. 首先比较设备业务接口(被集群监控的接口)的在位个数,业务接口在位个数最多的设备成为本流量组的业务主。
2. 若业务接口在位个数一样,则继续比较在位的安全业务板个数,安全业务板在位个数最多的设备成为本流量组的业务主。
3. 若在位的安全业务板个数一样,则继续比较集群成员在流量组中的优先级(数值越大优先级越高),优先级最高的设备成为本流量组的业务主。
4. 若集群成员在流量组中的优先级一样,则继续比较集群成员ID,数值最大的设备成为本流量组的业务主。
业务主选举成功后,业务主会随选举条件的变化(仅包括业务接口在位数和安全业务板在位数变动)而动态选举出新的业务主,保证业务始终在流量组中条件最优的设备上进行处理。在其他条件一样的情况下,业务主的优先级变化不会触发重新选举业务主。
业务角色选举结束后,集群会根据比较结果对本流量组中的设备进行排名,比较结果越优的设备排名越靠前。排名第一位的为业务主,其他设备为业务备,当业务主或其链路故障时,首先将流量切换到排名最靠前的业务备,然后重新对所有业务备进行排名。
RBM报文包括如下:
· 探测报文:设备发送RBM探测报文用于发现集群邻居。
· 心跳报文(Keepalive报文):设备通过定期互相发送心跳报文来检测对端设备是否存活。
· 控制报文:根据设备的运行状态来控制设备的主备状态切换。
· 业务表项备份报文:用于设备之间进行会话等业务表项的备份。
· 配置信息备份报文:用于设备之间进行配置信息的备份。
· 配置一致性检查报文:用于检测集群中主管理与从管理之间的关键配置是否一致。
在集群中RBM报文使用TCP和UDP两种协议传输相关报文。如控制报文和配置信息备份报文使用TCP协议,探测报文和业务表项备份报文使用UDP协议等。
RBM通道用于成员设备之间进行集群运行状态、关键配置和业务表项等信息的传输,包括以下几种类型的通道:
· RBM控制通道:可传输的报文类型包括集群的运行状态报文、一致性检查报文、备份配置信息和备份业务表项信息的报文等。
· RBM热备份通道:可传输的报文类型包括备份业务表项的报文。
如图-10所示,集群建立过程包括如下几个阶段:
1. 集群邻居发现阶段:设备将向对端地址列表中的IP地址发送探测报文,若收到应答报文,则认为此邻居存在,然后将此邻居加入自己的集群成员列表,停止发送探测报文。若未收到应答报文,则认为此邻居不存在,然后继续发送探测报文,直到收到应答报文。设备最终会与自己对端地址列表中的设备一一建立邻居关系。
2. 建立RBM通道阶段:设备与自己集群成员列表中的设备一一建立RBM通道。
3. 集群保活:RBM通道建立后,两端设备开始周期性地发送Keepalive报文检测邻居状态。
4. 集群成员同步阶段:当设备学习到集群成员时,将会把自己学习到的集群成员列表信息发送给集群列表中的所有成员。最终所有集群成员设备之间都会两两互相建立RBM通道。
5. 管理主选举阶段:当设备的管理主选举定时器(当前固定为10秒,不可更改)到达后,就会在当前所学习到的集群成员列表中进行管理主的选举。
6. 配置信息同步阶段:选举出管理主后,管理主将会向管理从同步配置信息,且优先同步流量组的相关配置信息。
7. 业务主选举阶段:流量组配置信息同步完成后,集群将会在同一流量组中进行业务主选举。
8. 业务表项同步阶段:选举出业务主后,业务主将会把自己的业务表项信息同步给本流量组中的其他业务备。
9. 以上阶段完成后,集群系统开始正常工作。后续配置信息和业务表项信息的变化将会被实时同步到相关设备。这样任意一台设备故障都不会影响流量的转发,保证业务不中断。
集群成员建立RBM通道后,成员设备之间开始发送Keepalive报文,如果达到最大发送次数后仍然没有收到对端设备的Keepalive响应报文,则认为成员之间的RBM通道断开,对端设备下线。
若是主管理设备检测到与从管理设备之间的RBM通道断开,则认为此设备下线,并将下线信息通告给其他所有从管理设备,其他从管理设备把此故障设备置为下线状态。若是从管理设备之间检测到它们之间的RBM通道断开,则不会向其他设备发送相关下线通告。
因集群配置信息变化(如高可靠性集群模式变化、本端IP地址变化、集群ID和成员ID变化等)导致的成员设备之间RBM通道的连接或断开,我们称之为“集群成员加入或退出”。
· 成员入群:一个集群建立后,当集群中的成员设备发现新的邻居时,则认为有新的成员设备加入此集群。发现新邻居的成员设备会将自己更新后的集群成员列表同步给集群中的主管理设备和其他所有从管理设备。主管理设备收到设备加入消息后,会与新加入的设备建立RBM通道,并将其置为从管理设备。
· 成员退群:一个集群建立后,当设备上集群配置信息变化而导致设备退出集群时,此设备会向集群中的其他所有设备发送自己退出集群的通告。其他成员设备收到成员退群通知后,将把此成员从自己的集群成员列表中删除。当退出集群的成员设备是主管理设备时,将会触发此集群重新选举主管理设备,否则不会触发选举。
因RBM通道的连接或断开(不是因为集群配置信息变更),而导致的从管理设备与主管理设备的连接或断开,我们称之为“集群成员上线或下线”。
· 成员上线:一个集群建立后,当集群中新加入的设备与主管理设备建立RBM通道后,则主管理设备将此设备标记为上线状态,并将上线信息通告给集群中的所有从管理设备。新成员设备上线后,对流量组中业务主备关系的影响如下。
○ 触发主备切换的情况:若新上线设备的业务接口和安全业务板的在位数多于当前业务主时,则会立即触发业务主备切换;若以上条件一样,但是新上线设备的优先级或成员ID大于当前业务主,同时又开启流量回切功能的情况下,当流量延迟回切时间到达后,也会触发业务主备切换。
○ 不触发主备切换的情况:除以上条件之外的其他情况不会触发业务主备的切换。比如:新上线设备优先级或成员ID小于当前业务主不会触发业务主备切换;流量回切功能关闭的情况下,即使新上线设备的优先级或成员ID大于当前业务主也不会触发业务主备切换。
○ 触发设备排名的情况:新设备上线会触发流量组中设备的重新排名。
· 成员下线:一个集群建立后,当从管理设备与主管理设备之间的RBM通道断开后,则主管理设备将此设备标记为下线状态,并将下线信息通告给集群中的所有从管理设备。成员设备下线后,对流量组中业务主备关系的影响如下。
○ 触发主备切换的情况:若下线的是业务主,则触发设备所在的流量组进行业务主备切换。
○ 不触发主备切换的情况:若下线的是业务备,则不会触发业务主备切换。
○ 触发设备排名的情况:成员下线后会触发设备所在流量组中设备的重新排名。
需要对报文进行状态检测的设备,对于每个动态生成的连接,都有一个会话表项与之对应。业务主在处理业务的过程中创建了很多会话表项;而业务备没有报文经过,因此也就没有创建会话表项。所以当主备切换后,因新的业务主没有对应的会话表项而导致业务中断。
为解决以上问题,集群可以将业务主的会话表项备份到业务备,当主备切换后,已有连接的后续业务报文可以通过匹配备份来的会话表项来保持业务不中断。
目前集群支持热备的业务表项包括:NAT端口块表项、AFT端口块表项、会话表项、会话关联表项和各个安全业务模块自身生成的业务表项。
集群可以将主管理设备上的关键配置信息(支持配置信息同步的模块)备份到其他所有从管理设备,并覆盖从管理设备上对应的配置信息,保证关键配置信息在主从管理设备上的完全一致。避免了主备设备切换时因新业务主缺失对应的配置信息而造成的业务中断问题。
集群中主从管理设备之间的关键配置信息备份原理分如下两种:
· 主、从管理设备均正常运行情况下,配置信息只能从“主管理设备”同步到“从管理设备”。
· 任意一台设备重启的情况下,重启后的设备向主管理设备获取配置信息。
目前集群支持配置信息同步的业务模块如下。以下内容仅是从功能支持层面列出了集群支持配置信息同步的业务模块,但是每个业务模块在不同产品上的支持情况不同,请以设备支持的实际情况为准。
· 资源类:VPN实例、ACL、对象组、时间段、安全域、会话管理、APR、AAA。
· DPI相关模块:应用层检测引擎、IPS、数据分析中心。
· 策略类:安全策略、ASPF、攻击检测与防范、连接数限制、NAT、AFT、服务器负载均衡、智能路由负载均衡、带宽管理、应用审计与管理、共享上网管理、代理策略。
· 日志类:快速日志输出、Flow日志。
· VPN类:SSL VPN。
· 其他类:VLAN、信息中心。
集群通过交互一致性检查报文来检测成员设备之间的配置信息是否一致,用于防止由于设备配置信息不一致,而导致主备切换后业务不通的情况。当配置信息不一致时,设备会发送日志信息,以提示管理员进行配置信息的手动同步。
集群配置信息一致性检查的过程如下:
1. 主管理设备将收集到的自身相关业务模块配置信息的摘要,通过一致性检查请求报文发送给所有从管理设备。
2. 从管理设备收到一致性检查请求和主管理设备的配置信息摘要后,会收集自身相关业务模块配置信息的摘要,然后将自己的配置信息摘要与主管理设备的配置信息摘要进行对比。
3. 从管理设备上如果对比结果不一致,则自己在输出日志信息的同时也会向主管理设备输出日志信息。
集群支持自动和手动两种方式的配置信息一致性检查,具体如下:
· 自动方式:主管理设备将周期性的发送配置信息一致性检查报文,检查与从管理设备的关键配置信息是否一致。
· 手动方式:执行手动检查后,主管理设备将与所有从管理设备将进行一次配置一致性检查。
设备的主、从管理状态和主、备运行状态由集群选举决定,可动态切换。接下来将从触发事件、监控机制和状态切换过程几个方面来详细介绍集群的状态切换机制。
集群通过设定不同的触发事件,对不同的故障事件进行监控,当故障发生时,能及时触发设备角色切换,保证业务不中断。
触发设备角色切换的故障事件如下,且均指发生在管理主和业务主上的故障事件:
· RBM通道断开
当RBM通道断开后集群会重新选举管理主和业务主备切换。
· 主设备整机故障
整机故障后,RBM通道断开,集群会重新选举管理主和业务主备切换。
· 主设备上所有主控板故障
在只有主用主控板出现故障的情况下,不会触发集群重新选举管理主和业务主备切换;只有所有主控板同时故障后,才会触发集群重新选举管理主和业务主备切换。
· 主设备上任意业务板故障
主设备上任意安全业务板故障会触发业务主备切换,但是不会触发重新选举管理主。
· 主设备上所有交换网板故障
主设备上所有交换网板故障会重新选举管理主和业务主备切换。
虽然集群通过以上监控手段可以重新选举管理主和业务主备切换,并及时引导流量到正常设备处理业务,保证用户业务不中断。但是,为了整个集群系统的长期可靠运行,建议管理员在发现故障后及时解决。
如触发事件小节所介绍的一样,集群支持多种故障监控手段,使设备可以及时感知自身的运行状态和上下行链路的状态。
集群的部分监控事件不需要管理员配置,集群会自动监控,比如:RBM通道故障、整机故障、主控板故障、业务板故障、交换网板故障等;但部分监控事件需要管理员配置,比如:关联Track项等。
如图-11所示,集群配置完成后,当RBM通道还未建立时,在控制层面所有设备都是管理主状态,在数据层面所有设备也都是业务主状态,此时集群还未组建完成。
图-11 RBM通道未建立的情况
如图-12所示,RBM通道建立成功且集群组建成功后,在控制层面通过竞选只有一个成员设备成为了集群的管理主。在数据层面,通过竞选,每个流量组也都竞选出了自己的业务主。
图-12 RBM通道建立成功,集群组建完成的情况
如图-13所示,当上行或下行业务链路故障时,只会导致数据层面的主、备业务状态切换,使流量切换到正常设备上进行处理。这种情况不会导致控制层面的主、从管理状态切换。
如图-14所示,当整机故障的设备同时为管理主和业务主时,才会导致控制层面的主、从管理状态和数据层面的主、备业务状态一起切换。当整机故障的设备仅为管理主时,仅会触发重新选举管理主,不会触发业务主备切换;当整机故障的设备仅为业务主时,仅会触发业务主备切换,不会触发重新选举管理主。
在集群+VRRP的流量引导方式中,流量组与VRRP备份组绑定后,集群将会以流量组为单位对设备在多个VRRP备份组中的状态进行统一管理。业务主在VRRP备份组中的状态为Master,处理业务;业务备在VRRP备份组中的状态为Backup,不处理业务。
在集群+动态路由的流量引导方式中,流量组与动态路由进程(目前设备仅支持OSPF和OSPFv3协议)绑定后,集群将会以流量组为单位对设备的链路开销值进行统一管理。即设备对外通告的开销值会根据设备在流量组中的排名增加不同的步长(目前步长值为1000,不可修改)。
流量组中排名第一位的设备(即业务主),不增加步长,按照动态路由协议的自身运作机制对外通告开销值;排名第二位的设备(即业务备),增加一个步长后,对外通告开销值;排名第三位的设备(即业务备)增加两个步长,以此类推。
当设备在NAT或LB应用场景中,不能通过集群引流(比如集群联动VRRP等)功能将业务流量引流到具体集群流量组时,可以通过配置集群流量组的目的IP地址范围,将目的IP地址在此范围内的流量引流到某一个流量组中进行业务处理。
在规划流量组时有全部备份和部分备份两种方案,可根据实际业务需求选择不同的规划方案。有关这两种规划方案的具体介绍如下:
· 全部备份方案:如表-1所示此方案中,需要将所有设备加入所有流量组,并设置不同的优先级。当设备故障时,流量优先选择在同一数据中心内进行切换。此方案可靠性最高,只有所有设备均故障后,用户业务才会中断;同时此方案也会导致设备上备份的数据量很大,消耗设备资源比较多。
· 部分备份方案:如表-2所示此方案中,只需要将不同数据中心的设备加入不同的流量组即可,不需要将所有设备加入所有流量组,但应保证同一数据中心内的设备是第一备选对象。此方案可靠性适中,设备上备份的数据量和设备的资源消耗也适中。表-6中的“-”表示设备不需要加入某流量组。
流量组 |
DC1 |
DC2 |
DC3 |
|||
|
Device A |
Device B |
Device C |
Device D |
Device E |
Device F |
流量组1 |
优先级:255 |
优先级:240 |
优先级:230 |
优先级:220 |
优先级:210 |
优先级:100 |
流量组2 |
优先级:210 |
优先级:100 |
优先级:255 |
优先级:240 |
优先级:230 |
优先级:220 |
流量组3 |
优先级:230 |
优先级:220 |
优先级:210 |
优先级:100 |
优先级:255 |
优先级:240 |
流量组 |
DC1 |
DC2 |
DC3 |
|||
|
Device A |
Device B |
Device C |
Device D |
Device E |
Device F |
流量组1 |
优先级:255 |
优先级:240 |
优先级:230 |
- |
优先级:210 |
- |
流量组2 |
优先级:230 |
- |
优先级:255 |
优先级:240 |
- |
优先级:100 |
流量组3 |
- |
优先级:220 |
- |
优先级:100 |
优先级:255 |
优先级:240 |
为满足不同的应用场景需求,高可靠性功能支持主备、双主和集群几种工作模式,但不能同时配置。不同工作模式之间请勿随意切换,否则会对业务产生影响。有关这几种工作模式的具体介绍如下。
如图-15所示,主备模式(A/S即Active/Standby)只能由两台设备在一个内网(或数据中心)中组建成双机热备环境。此模式下,正常情况仅由主设备处理业务,备设备处于待命状态;当主设备的接口、链路或整机故障时,备设备立即接替主设备处理业务,保证业务不中断。
图-15 主备模式的HA示意图
如图-16所示,双主模式(A/A即Dual-Active)只能由两台设备在一个内网(或数据中心)中组建成双机热备环境。此模式下,两台设备同时处理业务,充分利用设备资源,提高系统负载能力。并且当其中一台设备发生故障时,另外一台设备会立即承担其业务,保证业务不中断。
图-16 双主模式的HA示意图
如图-17所示,集群模式(Cluster)可以由多台设备组建成一个可靠性系统,多台设备之间不仅可以在一个内网(或数据中心)中组建成一个集群;还可以跨内网(或数据中心)组建成一个集群。集群中的多台设备不仅可以形成主备或双主组网,还可以形成多主组网,进一步提高了HA系统的处理能力和扩容能力。
图-17 集群模式的HA示意图
部署HA前,请先保证主/备设备硬件环境的一致性,具体要求如下:
· 主/备设备的型号必须一致。
· 主/备设备上管理接口、业务接口、RBM通道接口需要分别使用相互独立的接口,且所使用的接口编号和类型必须一致。
· 主/备设备上硬盘的位置、数量和类型建议一致。未安装硬盘的设备日志存储量将远低于安装了硬盘的设备,而且部分日志和报表功能不可用。
部署HA前,请先保证主/备设备软件环境的一致性,具体要求如下:
· 主/备设备的系统软件环境及其版本必须一致,如:Boot包、System包、Feature包和补丁包等等。
· 主/备设备上被授权的特征库和特性环境必须一致,如:特征库的种类,每类特征库的版本、授权时间范围、授权的资源数等等。
· 主/备设备上的资源文件必须一致,比如:公钥信息、ISP地址库文件等。
· 主/备设备的接口编号必须一致。
· 主/备设备之间建立RBM通道的接口类型、速率和编号等信息必须一致,推荐使用聚合接口。
· 主/备设备上聚合接口的编号、成员接口编号必须一致。
· 主/备设备相同位置的接口必须加入到相同的安全域。
· 主/备设备的HASH选择CPU模式以及HASH因子都必须相同。
双机热备功能的配置思路如下图所示:
图-18 双机热备配置思路图
集群的基本配置思路如下图所示。
图-19 集群配置思路图
不同款型规格的资料略有差异, 详细信息请向具体销售和400咨询。H3C保留在没有任何通知或提示的情况下对资料内容进行修改的权利!