本帮助主要介绍以下内容:
高可靠性(High Availability),简称为HA,能够在通信线路或设备产生故障时提供设备级、业务级的冗余方案,保证用户业务不中断。根据组成系统的设备数量可以将高可靠性系统分为双机热备系统和集群系统。
大数据时代,随着各行各业数字化转型的蓬勃发展,网络承载的业务越来越多,越来越重要。如何保证网络的可靠性、业务的不间断传输成为网络建设中必须要解决的问题。
如图-1中的左图所示,Device部署在网络的出口,内、外网之间的业务均会通过Device处理和转发。如果Device出现故障便会导致内、外网之间的业务全部中断。由此可见,在这种网络关键位置如果只部署一台设备,无论设备的可靠性有多高,都会存在因设备的单点故障而导致网络中断的风险。
因此,企业通常会在网络的关键位置部署多台设备,以提升网络的可靠性。如图-1中的右图所示,当Device A出现故障时,流量会通过Device B转发,保证内、外网之间业务流量不间断传输。
对于传统的网络设备(如交换机、路由器),只需要做好链路和设备的冗余就可以保证底层数据通信的不间断。但是,对于需要对报文进行状态检测和策略处理的安全设备(如防火墙等)仅做到链路和设备的冗余,无法满足用户业务级的可靠性需求。这是因为安全设备上的很多安全类业务功能(如安全策略、NAT等)均是基于业务表项和策略规则对报文进行安全检测或业务处理。当正在传输的业务流量切换到备份设备进行处理时,会因备份设备上缺少相同的业务表项和策略规则,而导致用户业务中断或业务处理结果发生改变,最终无法保证用户业务的连续性。
HA功能可以有效解决以上问题。如图-1中的右图所示,HA通过RBM(Remote Backup Management,远端备份管理)协议将多台设备组建成高可靠性系统,HA在保证链路级冗余的同时,还能将设备上的业务表项和配置信息在多台设备之间进行同步,最终对用户业务达到了设备级、业务级的可靠性保障。
非缺省vSystem对于本特性的支持情况,请以页面的实际显示为准。
部署HA前,请先保证主/备设备硬件环境的一致性,具体要求如下:
部署HA前,请先保证主/备设备软件环境的一致性,具体要求如下:
主/备设备的系统软件环境及其版本必须一致,如:Boot包、System包、Feature包和补丁包等等。
主/备设备上被授权的特征库和特性环境必须一致,如:特征库的种类,每类特征库的版本、授权时间范围、授权的资源数等等。
主/备设备上的资源文件必须一致,比如:公钥信息、ISP地址库文件等。
主/备设备的接口编号必须一致。
主/备设备的系统时间一致。
主/备设备之间建立RBM通道的接口类型、速率和编号等信息必须一致,推荐使用聚合接口。
主/备设备上聚合接口的编号、成员接口编号必须一致。
主/备设备的HASH选择CPU模式以及HASH因子都必须相同。
双机热备(RBM)是一种通过我司私有的RBM(Remote Backup Management,远端备份管理)协议,实现设备级的高可靠性(High Availability,简称HA)的技术。此技术能够在通信线路或设备产生故障时提供备用方案,当其中一个网络节点发生故障时,另一个网络节点可以接替故障节点继续工作。
双机热备通过RBM协议管理多个VRRP备份组状态的切换或者调整动态路由协议的开销值等,选举出双机热备中每台设备的主备业务状态。双机热备通过RBM协议备份设备间的关键配置信息和业务表项等,从而保证用户业务数据的不间断传输。需要两台软硬件环境完全相同的设备进行双机热备组网。
双机热备技术包含的基本概念如下:
主、从管理设备:双机热备中的设备分为主、从两种管理角色,用于控制设备之间关键配置信息的同步。双机热备建立成功后,只能在主管理设备配置相关业务(支持配置信息同步的功能),从管理设备不能配置。配置信息将从“主管理设备”同步到“从管理设备”,并覆盖从管理设备上的相关配置信息。
主、备业务设备:双机热备中包含主、备两种设备,其中主设备对应VRRP备份组中的Master设备;备设备对应VRRP备份组中的Backup设备。主设备为业务提供支持,转发业务流量,并向备设备实时备份业务表项信息;备设备除接收主设备的业务表项备份信息外,在主设备发生故障后,备设备会转换成主设备,继续转发业务流量,保证业务不中断。
VRRP active组和VRRP standby组:用于将双机热备与VRRP进行关联,实现双机热备对多个VRRP备份组状态进行统一管理的目的。
双机热备通道:两台设备之间交互双机热备的运行状态信息,关键配置信息和业务表信息的传输通道。
双机热备运行模式:支持主备、镜像和双主三种工作模式。主备模式下,仅由主设备处理业务,备设备处于待命状态;镜像模式下,两台设备的接口(镜像模式管理接口和RBM通道接口除外)使用相同的IP地址,同样由主设备处理业务,备设备处于待命状态;双主模式下,两台设备同时处理业务,充分利用设备资源,提高系统负载分担能力。
双机热备报文:双机热备使用TCP作为其传输层协议,TCP连接建立后,主管理设备和从管理设备通过双机热备通道交互双机热备报文。
镜像模式管理接口:在RBM镜像模式下,主管理设备上的接口配置(镜像模式管理接口和RBM通道接口除外)会同步到从管理设备,两台设备上用于连接网管设备和日志主机的接口拥有相同的IP地址。此时只有主设备可以连接网管设备和日志主机,备设备无法连接。为避免上述问题,管理员可配置镜像模式管理接口,管理接口下的配置信息不会进行同步。
双机热备支持主备、镜像和双主三种运行模式,具体介绍如下。
如图-2所示,主备模式下,正常情况仅由主设备处理业务,备设备处于待命状态;当主设备接口、链路或整机故障时,备设备立即切换为主设备,接替原主设备处理业务。
镜像模式是一种特殊的主备模式,部署方式与主备模式相同。在镜像模式下,两台设备的接口(镜像模式管理接口和RBM通道接口除外)使用相同的IP地址,正常情况下同样由主设备处理业务,备设备处于待命状态;当主设备接口、链路或整机故障时,备设备立即切换为主设备,接替原主设备处理业务。
此组网环境中双机热备必须关联Track项,否则上下行链路或接口故障时,双机热备不能主备切换。
如图-3所示,双主模式下,两台设备同时处理业务,充分利用设备资源,提高系统负载能力,此模式通过互为主备方法实现。并且当其中一台设备发生故障时,另外一台设备会立即承担其业务,保证业务不中断。
双机热备通道用于两台设备之间交互双机热备的运行状态、关键配置和业务表项等信息,包括以下类型的通道:
控制通道:用来同步设备之间的所有数据,包括双机热备的心跳报文、运行状态报文、一致性检查报文和同步配置信息的报文等。
辅助控制通道:仅用于传输设备之间的心跳报文、运行状态报文等。
数据通道:仅用于传输设备之间的热备报文和透传报文,不用于传输双机热备的其他报文。数据通道的报文传输模式支持使用二层或三层。
控制通道和辅助控制通道的建立和保活
控制通道基于TCP协议来监测链路的连通性。其使用TCP方式进行创建,在创建过程中,使用IP地址较大的设备作为Server建立TCP监听,而IP地址较小的设备作为Client向对端设备发起建立TCP连接请求。
控制通道建立后,设备会周期性向对端设备发送Keepalive报文,如果达到最大发送次数后仍然没有收到对端的回应,则双机热备通道断开,双机热备失效。
为增强双机热备通道的可靠性,用户可以事先配置辅助控制通道。只有控制通道和辅助控制通道都断开的情况下才会导致双机热备失效。
用户在配置完成辅助控制通道接口和辅助控制通道对端IP地址后,设备会基于用户配置的对端IP地址类型获取辅助控制通道接口中的IP地址。之后设备会根据控制通道的TCP Client/Server关系,使用辅助控制通道接口中的IP地址和对端IP地址建立辅助控制通道连接。
当控制通道断开时,设备通过辅助控制通道传输心跳报文、控制报文来控制RBM的状态切换,通过数据通道传输透传报文、热备报文来保证同步业务表项信息和透传业务流量,但是配置一致性检查报文、配置信息备份报文无法传输,配置信息无法同步。如果双机热备的工作模式是主备模式,此时会保持不变;如果是双主模式,此时会切换为主备模式。
双机热备可以将主设备上生成的业务表项信息实时备份到备设备,避免了主备设备切换时因备设备上缺失业务表项而造成的业务中断问题。
需要对报文进行状态检测的设备(如防火墙等),对于每个动态生成的连接,都有一个会话表项与之对应。主设备在处理业务的过程中创建了很多会话表项;而备设备没有报文经过,因此也就没有创建会话表项。通过双机热备的业务表项实时备份功能,主设备会将会话表项备份到备设备,当主备切换后,已有连接的后续业务报文就可以通过匹配备份来的会话表项而保持业务不中断。
目前双机热备支持热备的业务表项包括:IPsec隧道相关的信息表项、域名解析相关的表项、会话表项、会话关联表项、NAT端口块表项、AFT端口块表项和各个安全业务模块自身生成的业务表项。
此处仅是列出双机热备所支持热备份表项的所有业务模块,但是不同产品对这些表项的支持情况不同,请以设备对相关功能的实际支持情况为准。
双机热备可以将主管理设备上的关键配置信息备份到从管理设备,避免了主备设备切换时因对端设备缺失对应的配置信息而造成的业务中断问题。
为了保证备设备可以平滑地接替主设备的工作,双机热备必须能够将主设备的相关配置信息备份到备设备。尤其在双主组网环境中,两台设备都是主设备。如果允许两台主设备之间能够相互备份配置信息,那么就会造成两台设备上配置信息相互覆盖或冲突的问题。所以为了方便管理员对两台设备的配置信息进行统一管理,又能避免配置信息的混乱,我们引入了主管理设备和从管理设备的概念。
配置信息只能从“主管理设备”同步到“从管理设备”,并覆盖从管理设备上的相关配置,保证主从管理设备的配置信息一致。因此建议仅在主管理设备上配置相关功能,不建议在从管理设备上进行配置。
双机热备支持自动和手动两种方式进行配置信息备份。
目前双机热备主备和双主模式下支持配置信息同步的业务模块如下:
资源类:VPN实例、ACL、对象组、时间段、安全域、会话管理、APR、AAA、域名解析。
DPI相关模块:应用层检测引擎、IPS、URL过滤、数据过滤、文件过滤、防病毒、数据分析中心、WAF、APT防御。
策略类:安全策略、ASPF、攻击检测与防范、连接数限制、NAT、AFT、负载均衡、全局负载均衡、带宽管理、应用审计与管理、共享上网管理、代理策略。
日志类:快速日志输出、Flow日志。
VPN类:SSL VPN、IPsec。
其他类:Password Control、VLAN、信息中心、云平台连接、IPoE。
在镜像模式下除上述模块支持配置信息同步外,还有以下模块支持配置信息同步:登录设备、配置文件管理、设备管理、MAC地址表配置、VLAN终结、二层转发、ARP、IP地址、DHCP、IP转发基础、快速转发、多CPU报文负载分担、IP性能优化、IPv6基础、DHCPv6、IPv6快速转发、隧道、GRE、IP路由基础、静态路由、RIP、OSPF、BGP、策略路由、IPv6静态路由、RIPng、OSPFv3、IPv6策略路由、路由策略、MPLS L3VPN、QOS、Keychain、PKI、SSH、ARP攻击防御、MFF、BFD、NTP、SNMP、EVI、VXLAN。
此处仅是列出双机热备支持配置信息同步的所有业务模块,但是不同产品对这些业务模块的支持情况不同,请以设备实际情况为准。
双机热备通过交互一致性检查报文来检测两台设备的配置信息是否一致,用于防止由于两台设备配置信息不一致,而导致主备切换后业务不通的情况。当配置信息不一致时,设备会发送日志信息,以提示管理员进行配置信息的手动同步。
在双机热备与VRRP联动的组网环境中,双机热备将会控制设备在多个VRRP备份组中Master和Backup状态的统一切换。此功能可以使设备的上下行流量同时切换到新的主设备,保证业务不中断。
此处以主备模式为例,介绍双机热备与VRRP的联动组网情况,具体如下。
VRRP active组和VRRP standby组:用于将双机热备与VRRP进行关联,实现双机热备对多个VRRP备份组状态进行统一管理的目的。
VRRP active/standby组分别有两种状态:Master和Backup。VRRP成员设备在VRRP备份组中的状态与所属VRRP active/standby组的状态保持一致。例如,VRRP active备份组的状态是Master,则该组中所有设备在VRRP备份组中的状态均为Master。
VRRP active/standby组初始状态的实现机制如下:
主备模式下:主管理设备上VRRP active组和VRRP standby组的初始状态均为Master;从管理设备上VRRP active组和VRRP standby组的初始状态均为Backup。
双主模式下:此种模式下VRRP active/standby组的状态与主从管理设备角色无关,VRRP active组的初始状态为Master;VRRP standby组的初始状态均为Backup。
如图-4的右图所示,将双机热备与VRRP关联成功后,VRRP备份组中Master/Backup状态的变化机制如下:
正常情况下,Device A(假设其是主管理设备)上VRRP active组的状态是Master,所以Device A在VRRP备份组1和VRRP备份组2中的状态是Master设备。Device B(假设其是从管理设备)上VRRP standby组的状态是Backup,所以Device B在VRRP备份组1和VRRP备份组2中的状态是Backup。
当Device A的下行接口Interface A2故障后,双机热备会收到接口故障事件。然后双机热备发送VRRP active/standby组状态信息变更报文给Device B,通知Device B将其VRRP standby组的状态变更为Master。
Device B收到VRRP active/standby组状态信息变更报文后,会将自身VRRP standby组的状态变更为Master,同时将Device B在VRRP备份组1和VRRP备份组2中的状态变为Master。变更完成后给Device A发送应答报文。
Device A收到Device B的VRRP standby组状态变更成功应答报文后,将自己VRRP active组的状态变更为Backup,同时将Device A在VRRP备份组1和VRRP备份组2中的状态变更为Backup。
当Device A的下行接口Interface A2故障恢复后,流量会进行回切,VRRP备份组中Master/Backup状态的变化与接口故障时的变化过程类似,不再重复介绍。
当VRRP备份组中的设备接收到虚拟IP地址的ARP请求报文后,只能由Master设备使用VRRP备份组的虚拟MAC地址响应此ARP请求,与此同时ARP报文传输路径上的二层设备也就学习到了此虚拟MAC地址的MAC地址表项。
在云场景中往往存在众多的租户,每个租户都需要具有独立的网络(IP地址)。传统双机热备联动VRRP的可靠性方式每一组VRRP备份组都需要三个IP地址,这种可靠性方式在云场景下会出现IP地址不够用的情况。这时,使用双机热备联动虚拟地址方式可以有效解决以上问题。
双机热备联动虚拟地址功能是指,在两台设备的相同编号的业务接口上配置虚拟IP地址(也叫浮动IP地址)后,这些业务接口上的虚拟地址将与RBM进行关联,并受RBM的统一管理和控制。具体为,双机热备的业务主设备将会使用业务接口的虚拟IP地址和虚拟MAC地址响应ARP请求,但是,双机热备的业务备设备将不会进行ARP请求的应答。这样就可以保证上下行流量始终都可以被引流到双机热备的业务主设备进行业务处理。
在双机热备组网环境中,当两台设备的相同编号的业务接口上配置虚拟IP地址(也叫浮动IP地址)时,这些业务接口上的虚拟地址将与RBM进行关联,并受RBM的统一管理和控制。
如图-5所示,双机热备联动虚拟地址后,内网访问外网的报文被处理的流程如下:
当内网Host访问外网时,在Host发送业务请求报文前,首先会广播ARP请求报文,学习网关虚拟IP地址10.1.1.1对应的MAC地址。
当Device A和Device B接收到此ARP请求报文后,只有双机热备中的业务主设备(Device A)使用业务接口的虚拟MAC地址响应此ARP请求给Host。
在此ARP学习过程中,中间的交换机Switch B也学习到了有关此虚拟MAC的MAC地址表项,用于指导后续报文的转发。
最后,Host只会收到双机热备中的业务主设备(Device A)响应的ARP报文,Host就会以学习到的此虚拟MAC地址来封装报文,将报文送到Device A,从而可以保证业务的正常运行。
来自外网的响应报文在整个网络中的处理过程与上面所描述的过程相同,此处不再赘述。
在双机热备与动态路由联动的组网环境中,双机热备将会调整备设备上动态路由协议对外通告的链路开销值。这样可以保证主备切换时使设备的上下行流量同时切换到新的主设备,保证业务不中断。
此组网环境中双机热备必须关联Track项,否则,上下行链路或者接口故障双机热备不能进行主备切换。
此处以双机热备联动OSPF为例,介绍双机热备与动态路由的联动情况,具体如下。
双机热备调整备设备上动态路由协议开销值有如下两种方式:
绝对值方式:设备将使用配置的绝对值对外通告。
增量值方式:设备将在原有开销值上增加配置的增量值后对外通告。
此功能仅调整备设备上动态路由协议对外通告的开销值,对主设备没有影响。
需要在主备设备上同时开启此功能,并设置相同的参数。
在双机热备透明组网环境中,可通过双机热备的监控接口或监控VLAN功能将上下行接口的状态进行联动。当其中一个接口故障后,另一个接口也会失去报文转发能力,从而使设备的上下行流量同时切换到新的主设备,保证业务不中断。
双机热备的监控接口或监控VLAN功能可以保证所监控对象之间的状态相互联动、保持一致,使其同时具备或同时不具备报文转发能力。
此处以双机热备监控VLAN功能为例,介绍双机热备透明组网的情况,具体如下。
双机热备仅支持与VRRP的标准模式配合使用,不支持与VRRP的负载均衡模式配合使用。
监控VLAN与监控接口两个功能互斥,不可同时配置;监控接口与联动Track项目两个功能可以同时配置,但是两者监控的接口不能相同;监控接口与联动VRRP两个功能可以同时配置,但是两者配置的接口不能相同。
因为设备会根据控制通道的TCP Client/Server关系建立辅助控制通道连接,所以配置辅助控制通道之前需要先配置控制通道。
当辅助控制通道接口中没有IP地址或IP地址类型与对端IP地址类型不一致时,设备无法建立辅助控制通道。
辅助控制通道的对端IPv4地址和IPv6地址不能同时配置并且IP地址类型要与控制通道的IP地址类型相同。辅助控制通道的IP地址不能与控制通道的IP地址相同,辅助控制通道的接口不能与控制通道所在的接口相同。
数据通道接口中的IP地址与对端接口的IP地址不能相同。
数据通道接口的IPv4地址和IPv6地址可以同时配置,设备会基于控制通道的本端IP地址类型获取数据通道接口中的IP地址,并与对端进行连接。
部分双机热备功能仅支持以CLI方式进行配置,不支持在Web界面上配置,具体支持情况请以设备实际Web界面为准。
请使用初始状态(未配置双机热备工作模式)的两台设备组成镜像模式双机热备。如果设备已在运行业务,请勿直接将非镜像模式切换成镜像模式,必须将设备恢复到初始状态后再切换成镜像模式,否则有可能会导致业务异常。
基于镜像模式实现双机热备时,两台设备上编号相同的接口使用相同的IP地址。此处的接口是指除镜像模式管理接口和RBM通道接口以外的接口。
基于镜像模式实现IPv6双机热备时,两台设备上编号相同的业务接口使用相同的IPv6地址和IPv6链路本地地址。请手工配置IPv6链路本地地址,不要为接口配置自动生成的链路本地地址,以免产生不一致。
镜像模式下,双机热备无法联动VRRP或虚地址。如果设备上有VRRP或虚地址配置,则不能启用镜像模式。启用镜像模式后,设备上不能再进行VRRP或虚地址配置。
启用镜像模式后,两台设备之间支持备份的配置增多。例如,接口IP地址配置命令在未启用镜像模式时不支持备份,启用镜像模式后支持备份。有关镜像模式具体支持哪些业务模块的配置信息同步,请参见配置信息备份小节中的详细介绍。
启用镜像模式后,设备能根据业务运行角色调整业务接口的状态。主设备上的业务接口正常收发报文,备设备上的业务接口只能收发三层以下的报文,如LLDP、LACP等。
设备与上下行设备之间的路由仅支持静态路由,不支持动态路由和智能选路。以动态路由为例,因为镜像模式下的备设备不会发送和接收路由协商报文,与上下行设备的动态路由邻居关系无法建立。主备切换时,新的主用设备需要和上下行设备重新协商路由,这将导致主备切换时业务中断时间较长。因此,在两台设备的业务接口工作在三层、上下行连接路由器、与路由器之间运行动态路由协议的组网下,不支持使用镜像模式双机热备。
未配置控制通道或设备的管理角色时,无法配置RBM运行模式为镜像模式。
双机热备功能的配置思路如下图所示:
图-8 双机热备配置思路图
在配置本特性之前,需要完成以下任务:
配置接口IP地址。接口在“网络 > 接口与VRF > 接口”页面配置。
配置路由,保证路由可达。路由在“网络 > 路由”页面配置。
主备模式下,正常情况仅由主设备处理业务,备设备处于待命状态;当主设备接口、链路或整机故障时,备设备立即切换为主设备,接替原主设备处理业务。
双机热备的具体配置步骤如下:
选择“系统 > 高可靠性 > 高可靠性”。进入“运行模式”页面。
图-9 运行模式选择
在“运行模式”页面选择主备模式,单击“应用”按钮,进入“双机热备”页面。
在“双机热备”页面单击“配置”按钮,进入“配置双机热备”页面进行双机热备相关的配置。
图-10 配置双机热备
表-2 双机热备配置参数表
参数 | 说明 |
管理角色 | 双机热备中的设备分为主、从两种管理角色,用于控制设备之间关键配置信息的同步。配置信息只能从“主管理设备”同步到“从管理设备”,并覆盖从管理设备上的相关配置信息。双机热备系统中只能有一台设备为主管理设备,另一台为从管理设备,当角色模式为自动选择时,两台设备的角色模式都应设置为自动选择 双机热备中设备的管理角色有手动配置和自动选择两种方式,具体内容如下:
|
控制通道本端IP地址 | 配置用于建立控制通道的本端IP地址,Server端将使用此Local IP提供TCP监听服务。支持IPv4和IPv6两种类型,但不能同时配置 本端IP地址与对端IP地址不能相同 |
控制通道对端IP地址 | 配置用于建立控制通道的对端IP地址。支持IPv4和IPv6两种类型,但不能同时配置 本端IP地址与对端IP地址不能相同 |
辅助控制通道接口 | 配置用于建立辅助控制通道的接口,设备会基于用户配置的辅助控制通道对端IP地址类型获取辅助控制通道接口中的IP地址。当辅助控制通道接口中没有IP地址或IP地址类型与辅助控制通道对端IP地址类型不一致时,设备无法建立辅助控制通道 |
辅助控制通道对端IP地址 | 配置用于建立辅助控制通道的对端IP地址。支持IPv4和IPv6两种类型,但不能同时配置 |
对端端口号 | 配置用于建立控制通道、辅助控制通道的对端端口号,在主备设备上配置的对端端口号必须一致 |
管理接口 | 配置用于连接网关设备或日志主机的镜像模式管理接口,镜像模式管理接口下的配置信息不会进行同步 仅镜像模式下支持配置 |
数据通道 | 主/备设备使用此功能配置的接口建立双机热备的数据通道,此数据通道仅用于传输设备之间的热备报文和透传报文,不用于传输主/备设备之间的其他报文,支持中间跨越二层交换机,但不可以跨越三层设备 |
心跳间隔 | 双机热备通道建立后,设备会以配置的心跳间隔为周期向对端设备发送双机热备 Keepalive报文,以探测双机热备通道的连通性 |
心跳失效阈值 | 双机热备通道建立后,如果设备发送Keepalive报文的次数达到心跳失效阈值后仍然没有收到对端的回应,则双机热备通道断开,双机热备失效 |
主动抢占 | 双机热备组网中的主设备发生故障后,流量自动切换到对端设备。开启此功能后,当原来的主设备再次恢复为主设备后,流量会回切 |
流量回切延迟时间 | 由于业务表项在主/备设备之间进行备份需要一定的时间。为了保证业务能够平滑切换,所以需要延迟流量的回切 |
备份会话表项 | 开启此功能后,主设备会将其生成的业务表项实时备份到备设备,当主设备发生故障时备设备可以平滑地接替主设备的工作,保证业务不中断 |
备份HTTP协议 备份DNS协议 | 配置此功能后,设备将会把DNS协议或HTTP协议报文触发创建的会话表项实时备份到备设备 除了DNS和HTTP应用协议,其它应用协议创建的会话不受本功能控制,只要双机热备热备业务表项功能处于开启状态,就会进行这些会话表项备份 此功能的应用场景建议如下:
|
备份AFT端口块表项 | 开启此功能后,主设备会将其生成的AFT端口块表项实时同步到备设备,当主设备发生故障时备设备可以平滑地接替主设备的工作,保证业务不中断 |
备份保持上一跳 | 当主设备在接口上开启保持上一跳功能,并全局开启备份保持上一跳功能后,当该接口接收到正向流量的第一个IP报文,会保存上一跳信息,同时将该上一跳信息备份到从设备,当反向流量报文到达主设备或从设备上进行转发时可以直接通过该上一跳信息指导报文进行转发。此功能不同设备的支持情况不同,请以设备Web页面的实际支持情况为准 |
配置信息一致性检查 | 此功能用于检测双机热备状态下的两台设备的配置信息是否一致,用于防止发生两台设备配置信息不一致,导致主备切换后业务不通的情况。当配置信息不一致时,会发送日志信息,以提示管理员进行配置信息的手动同步 |
配置信息一致性检查模式 | 设置配置信息一致性检查的模式,当前可配置的模式如下:
|
自动同步配置信息 | 开启此功能前,主管理设备上已经配置信息,将会在开启此功能后进行一次批量备份,之后新增的配置信息将实时备份到从管理设备 配置信息很多时,批量备备份时间会很长可能需要一到两个小时。因此在初始规划网络配置时,建议先开启此功能,以减少后面配置信息进行批量备份的时间 |
设备隔离 | 开启设备隔离功能后,设备进入隔离状态,除管理接口和RBM通道接口外的其他接口禁止收发报文,RBM通道保持连接。设备会在RBM系统中主动让出业务主运行角色且无法再被选举为业务主,以便管理员可以更换设备上的部件或升级软件等 |
自动同步静态路由 | 本功能仅需要在双机热备的镜像模式或双机热备+虚拟IP地址引流的组网场景中使用,其他双机热备组网场景中请勿开启本功能 开启本功能后,当双机热备的主管理设备向从管理设备自动或者手工同步配置信息时,会将设备上已配置的静态路由同步到从管理设备。此时会出现以下两种情况:
|
将指定VRRP备份组中的本端设备为Backup | 此功能使用的场景为:在双机热备联动VRRP的双主运行环境中,当两台设备分担的流量不均衡时,可以在负担较重的设备上使用此功能,将指定VRRP备份组中的流量切换到负担较轻的设备上。从而实现两台设备更加均衡地分担业务流量,提高业务处理效率 配置此功能后,双机热备可以将指定VRRP备份组中的本端设备设置为Backup状态,然后对端设备升为Master状态。从而将此VRRP备份组中的流量牵引到对端设备进行处理 配置此功能后,其仅在双机热备中的所有设备的运行状态均为active时才生效 |
(可选)在“配置双机热备”页面中监控对象处配置双机热备联动Track项,具体配置内容如下所示:
图-11 配置双机热备联动Track项
表-3 双机热备联动Track项配置参数表
参数 | 说明 |
联动Track项 | 配置此功能后,当双机热备联动的其中一个Track项的状态为Negative状态时,双机热备将进行设备的主备切换,将上下行流量同时切换到新的主设备,保证业务不中断 |
在“配置双机热备”页面,单击<确定>按钮完成双机热备的配置。
在“双机热备”页面,单击右上角的“退出当前模式”按钮,可以关闭双机热备功能并返回选择运行模式。
图-12 退出当前模式
请在VRRP中将VRRP与高可靠性关联,具体配置步骤,请参见“VRRP”中的详细介绍。
此组网环境中RBM必须关联Track项,否则上下行链路或接口故障时,双机热备不能主备切换。
双机热备联动虚拟地址的具体配置步骤如下:
选择“网络 > 接口 > 接口”,进入“接口配置”页面。
在“接口配置”页面选择需要联动双机热备的业务接口,单击<编辑>按钮,进入“修改接口设置”页面。
图-13 修改接口设置
在“修改接口设置”页面的IPv4/IPv6地址页签勾选“虚拟IP”后,这些业务接口上的虚拟地址将与RBM进行关联,并受RBM的统一管理和控制。
图-14 虚拟IP
此组网环境中RBM必须关联Track项,否则上下行链路或接口故障时,双机热备不能主备切换。
双机热备联动路由的具体配置步骤如下:
选择“系统 > 高可靠性 > 双机热备”。
在“双机热备”页面单击<配置>按钮,进入“配置双机热备”页面,配置双机热备的路由联动功能,具体配置内容如下所示:
图-15 配置双机热备
表-4 双机热备联动路由的配置参数表
参数 | 说明 |
OSPF | 表示双机热备调整备设备上OSPF协议的开销值 |
IS-IS | 表示双机热备调整备设备上IS-IS协议的开销值 |
BGP | 表示双机热备调整备设备上BGP协议的开销值 |
OSPFv3 | 表示双机热备调整备设备上OSPFv3协议的开销值 |
调整cost绝对值 | 表示备设备以绝对值的形式对外通告动态路由协议的开销值,即设备直接对外通告此绝对值 |
调整cost增量值 | 表示备设备以增量值的形式对外通告动态路由协议的开销值,即设备在原有开销值上增加此增量值后对外通告 |
在“配置双机热备”页面,单击<确定>按钮完成双机热备的配置。
双机热备透明组网的具体配置步骤如下:
选择“系统 > 高可靠性 > 双机热备”。
在“双机热备”页面单击<配置>按钮,进入“配置双机热备”页面,在监控对象处配置双机热备透明组网的相关配置,具体配置内容如下所示:
图-16 监控接口和VLAN
表-5 双机热备透明组网的配置参数表
参数 | 说明 |
接口 | 配置此功能后,双机热备监控的所有接口的状态将相互联动并保持一致,这些接口将同时都具备或都不具备报文传输能力。只有双机热备监控接口的状态均为UP时,这些接口才能转发报文。否则,双机热备监控的所有接口均不能转发报文 使用监控接口功能时,不能监控聚合接口的成员接口 |
VLAN | 配置此功能后,双机热备会监控VLAN成员端口的状态,并将成员端口的状态相互联动并保持一致,此VLAN中的成员端口将同时都具备或都不具备报文传输能力。只有VLAN所有成员端口状态均为UP时,此VLAN的成员端口才能转发报文。否则,此VLAN的所有成员端口均不能转发报文 基于以上双机热备监控VLAN的运行原理,请勿配置监控 VLAN 1。因为设备上所有Access端口缺省都属于VLAN 1,所以当VLAN 1中有端口未被使用时其接口状态为Down,这时也会导致VLAN 1中正常使用的端口无法转发报文 |
在“配置双机热备”页面,单击<确定>按钮完成双机热备透明组网的配置。
双主模式下,两台设备同时处理业务,充分利用设备资源,提高系统负载能力,此模式通过互为主备方法实现。并且当其中一台设备发生故障时,另外一台设备会立即承担其业务,保证业务不中断。
选择“系统 > 高可靠性 > 高可靠性”。进入“运行模式”页面。
在“运行模式”页面选择双主模式,单击“应用”按钮,进入“双机热备”页面。
图-17 运行模式选择
在“双机热备”页面单击“配置”按钮,进入“配置双机热备”页面进行双机热备相关的配置。
配置双机热备,具体配置内容请参见“双机热备配置”章节。
(可选)在“配置双机热备”页面中监控对象处配置双机热备联动Track项,具体配置内容请参见“双机热备配置”中配置双机热备联动Track项内容。
在“配置双机热备”页面,单击<确定>按钮完成双机热备的配置。
在“双机热备”页面,单击右上角的“退出当前模式”按钮,可以关闭双机热备功能并返回选择运行模式。
图-18 退出当前模式
请在VRRP中将VRRP与高可靠性关联,具体配置步骤,请参见“VRRP”中的详细介绍。
此组网环境中RBM必须关联Track项,否则上下行链路或接口故障时,双机热备不能主备切换。
双机热备联动路由的具体配置请参见“配置双机热备联动路由”章节。
双机热备透明组网的具体配置请参见“配置双机热备透明组网”章节。
镜像模式是一种特殊的主备模式,部署方式与主备模式相同。在镜像模式下,两台设备的接口(镜像模式管理接口和RBM通道接口除外)使用相同的IP地址,正常情况下同样由主设备处理业务,备设备处于待命状态;当主设备接口、链路或整机故障时,备设备立即切换为主设备,接替原主设备处理业务。
此组网环境中RBM必须关联Track项,否则上下行链路或接口故障时,双机热备不能主备切换。
具体配置步骤如下:
选择“系统 > 高可靠性 > 高可靠性”。进入“运行模式”页面。
在“运行模式”页面选择镜像模式,单击“应用”按钮,进入“双机热备”页面。
图-19 运行模式选择
在“双机热备”页面单击“配置”按钮,进入“配置双机热备”页面进行双机热备相关的配置。
配置双机热备,具体配置内容请参见“双机热备配置”章节。
在“配置双机热备”页面中监控对象处配置双机热备联动Track项,具体配置内容请参见“双机热备配置”中配置双机热备联动Track项内容。
在“配置双机热备”页面,单击<确定>按钮完成镜像模式双机热备的配置。
在“双机热备”页面,单击右上角的“退出当前模式”按钮,可以关闭双机热备功能并返回选择运行模式。
图-20 退出当前模式
在“双机热备”页面,单击<手工一致性检查>按钮或<手工同步配置信息>按钮,可以进行手工检查配置信息的一致性和同步配置信息。
图-21 手工一致性检查和手工同步配置信息
表-6 手工检查配置信息的一致性和同步配置信息
参数 | 说明 |
手工一致性检查 | 当需要确认主从管理设备上配置信息是否一致时,可以通过单击此按钮即时触发配置信息一致性检查。若配置信息不一致,则系统会发送日志信息,以提示管理员进行配置信息的手动同步 |
手工同步配置信息 | 单击此按钮后,主管理设备上的配置信息将同步到从管理设备 |
在“双机热备”页面,可以手工进行主备业务状态切换。管理员可通过本功能触发主备倒换或其中一台设备的升主、降备,引导业务流量切换到相应的主设备上,以便更换备设备上的部件或升级软件等。在双机热备联动VRRP的组网环境中,当使用此功能进行主备运行状态倒换时,可能会导致短暂的VRRP虚拟IP地址冲突,属于正常现象。本功能的参数支持情况与RBM运行模式有关,请以页面实际情况为准。
图-22 手工进行主备业务状态切换
表-7 手工进行主备业务状态切换
参数 | 说明 |
状态切换 | 当双机热备中主备设备无故障,可通过此按钮触发主备倒换,将业务切换到对端设备上进行处理,以便管理员可以更换主设备上的部件或升级软件等 在主备和镜像组网中,在主设备或备设备上执行本功能均会触发主备倒换 |
将对端升为运行主 | 在双主组网中,正常情况下两台设备均为主设备,可在其中一台设备上执行本功能使其成为备设备,另外一台设备仍为主设备 |
将对端降为运行备 | 在双主组网中,正常情况下两台设备均为主设备,可在其中一台设备上执行本功能使其保持不变仍为主设备,另外一台设备将自动成为备设备 |
重置 | 在主设备或备设备上执行本功能均会触发RBM对设备的业务角色进行重新选举 |
多活数据中心建设方案在很多行业已得到广泛应用,每个数据中心地位均等。正常情况下,此方案中的各个数据中心并行地为业务访问提供服务,充分利用资源;当一个数据中心发生故障或灾难时,其他数据中心可以正常运行并对业务进行接管,实现用户业务的“无感知”切换和不中断。
因为高可靠性双机热备功能仅支持同一数据中心的两台设备进行可靠性组网,所以双机热备功能显然不能满足多活数据中心场景的可靠性要求。
高可靠性集群(简称“集群”)功能可以有效解决以上问题,集群通过RBM(Remote Backup Management,远端备份管理)协议可以将多台设备跨数据中心组建成高可靠性系统,并通过专用通道进行集群成员之间配置信息和业务表项信息的同步。最终实现设备在多活数据中心场景中的可靠性部署。
集群功能常见的应用场景包括多活数据中心负载分担场景和同一数据中心多业务负载分担场景。
如图-23所示,在此场景中正常情况下,多个数据中心同时对外提供服务,充分利用现有的网络资源和应用服务资源等,不同数据中心设备之间的配置信息和业务信息可以相互备份。如图-24所示,当其中一个数据中心的某台设备故障不能对外提供服务时,首先让同一数据中心的其他设备立即接手这些流量,保证用户业务不中断;同理,当整个数据中心故障不能对外提供服务时,再由其他数据中心的设备立即接手这些流量,保证用户业务不中断。
如图-25所示,在此场景中正常情况下,数据中心的不同设备可以对外发布不同的业务,这样每台设备可以集中高效地处理某一种业务,同时设备之间又可以相互备份配置信息和业务信息。如图-26所示,当其中一台设备故障时,其他设备可以立即接手这些流量,保证用户业务不中断。
如图-27所示,高可靠性集群功能的基本概念如下:
集群:即高可靠性集群,本文简称“集群”,可以对多台设备进行统一管理和控制,不仅提高了业务稳定性,增强了整个集群系统的处理能力,同时也有利于后期扩容。
流量组:即集群流量组,本文简称“流量组”,是集群中处理业务的基本逻辑单元,一个集群流量组可以为一个数据中心或某一应用提供可靠性服务。
集群成员:是集群系统和流量组中最终处理业务的物理实体,具有相同集群ID的设备组建成一个集群。
管理角色:在控制层面,集群中的设备分为主(Primary)、从(Secondary)两种管理角色(也可以称为“主、从管理状态”、“管理主和管理从”),用于控制集群中设备之间关键配置信息的同步。
业务角色:在数据层面,集群中的设备分为主(Active)、备(Standby)两种业务角色(也可以称为“主、备业务状态”、“业务主和业务备”)。业务主处理业务,业务备不处理业务,但是对于同一台设备可以是不同流量组的业务主。
RBM通道:用于集群成员设备之间交互集群的运行状态信息、关键配置信息和业务表项信息。
RBM报文:集群使用RBM协议承载成员设备之间需要交互的集群信息。
如图-27所示,集群流量组是集群中处理业务的基本逻辑单元,一个集群流量组可以为一个数据中心或某一应用提供可靠性服务。
每个集群成员可以加入多个流量组,形成一主多备的结构。流量组中的业务主负责处理业务,并向业务备实时备份业务表项信息;业务备负责提供备份机制,不处理业务,只有业务主故障后,业务备升级为业务主后才可以处理业务。
设备的业务表项信息只能在本流量组中的成员之间进行备份。业务主备的切换也只是在本流量组中进行切换,不影响其他流量组中业务主备的切换。
流量组联动VRRP和动态路由等协议实现流量的自动切换,当业务主或其链路故障后,可以保证流量平滑切换到最优的业务备继续处理。
如图-27所示,在控制层面整个集群等同于一个集群管理组,集群管理组中设备分为主、从两种管理角色,用于控制集群中设备之间关键配置信息的同步。为保证集群中所有设备管理的便利性和配置信息的一致性,因此集群中同时只能有一个管理主,且只能在管理主上配置支持配置信息同步的相关业务功能,不能在管理从上配置业务功能。管理主上的关键业务配置信息会同步给本集群中的其他所有管理从,保证一个集群中所有成员设备上的关键业务配置信息一致。
如图-28所示,管理主通过选举产生,其选举条件的优先级从高到底依次为:管理主当选时长 > 集群成员优先级 > 集群成员ID。
管理主的具体选举过程如下:
首先比较本集群中已有管理主的当选时长,当选时间最长的设备成为本集群的管理主,初始状态下所有设备的主管理角色当选时长都是零。
若管理主当选时长一样,则继续比较成员优先级(数值越大优先级越高),优先级最高的设备成为本集群的管理主。
若成员优先级一样,则继续比较集群成员ID,数值最大的设备成为本集群的管理主。
管理主选举成功后,一般不会改变,后面加入的集群成员(即使优先级更高)也只能作为管理从。除非手工切换管理主,或者因管理主故障而脱离集群才会导致重新选举管理主。
如图-27所示,在数据层面集群中包含了多个集群流量组,其用于处理具体的业务流量。集群流量组中的多台成员设备分为主、备两种业务角色。集群流量组中同时只能有一个业务主,其他设备均为业务备。
业务主和业务备均是针对某一个集群流量组而言;对于一台设备而言,它既可以是集群流量组1的业务主,又可以是集群流量组2和流量组3的业务备。
如图-29所示,业务主通过选举产生,其选举条件的优先级从高到底依次为:业务接口在位数 > 安全业务板在位数 > 集群成员在流量组中的优先级 > 集群成员ID。
业务主的具体选举过程如下:
首先比较设备业务接口(被集群监控的接口)的在位个数,业务接口在位个数最多的设备成为本流量组的业务主。
若业务接口在位个数一样,则继续比较在位的安全业务板个数,安全业务板在位个数最多的设备成为本流量组的业务主。
若在位的安全业务板个数一样,则继续比较集群成员在流量组中的优先级(数值越大优先级越高),优先级最高的设备成为本流量组的业务主。
若集群成员在流量组中的优先级一样,则继续比较集群成员ID,数值最大的设备成为本流量组的业务主。
业务主选举成功后,业务主会随选举条件的变化(仅包括业务接口在位数和安全业务板在位数变动)而动态选举出新的业务主,保证业务始终在流量组中条件最优的设备上进行处理。在其他条件一样的情况下,业务主的优先级变化不会触发重新选举业务主。
业务角色选举结束后,集群会根据比较结果对本流量组中的设备进行排名,比较结果越优的设备排名越靠前。排名第一位的为业务主,其他设备为业务备,当业务主或其链路故障时,首先将流量切换到排名最靠前的业务备,然后重新对所有业务备进行排名。
RBM报文包括如下:
探测报文:设备发送RBM探测报文用于发现集群邻居。
心跳报文(Keepalive报文):设备通过定期互相发送心跳报文来检测对端设备是否存活。
控制报文:根据设备的运行状态来控制设备的主备状态切换。
业务表项备份报文:用于设备之间进行会话等业务表项的备份。
配置信息备份报文:用于设备之间进行配置信息的备份。
配置一致性检查报文:用于检测集群中主管理与从管理之间的关键配置是否一致。
在集群中RBM报文使用TCP和UDP两种协议传输相关报文。如控制报文和配置信息备份报文使用TCP协议,探测报文和业务表项备份报文使用UDP协议等。
RBM通道用于成员设备之间进行集群运行状态、关键配置和业务表项等信息的传输,包括以下几种类型的通道:
RBM控制通道:可传输的报文类型包括集群的运行状态报文、一致性检查报文、备份配置信息的报文等。
RBM数据通道:可传输的报文类型包括热备报文和透传报文。数据通道直接使用底层驱动进行数据传输,因此仅支持二层转发。
RBM备用通道:它是控制通道的冗余备用通道。此通道仅用于集群成员的保活和集群管理主的选举,不能进行配置信息和业务表项信息的备份,不能进行集群流量组业务主的选举。
控制通道基于TCP协议来监测链路的连通性。控制通道建立后,设备会周期性向对端设备发送Keepalive报文,如果达到最大发送次数后仍然没有收到对端的回应,则控制通道断开。
如图-30所示,集群建立过程包括如下几个阶段:
集群邻居发现阶段:设备将向对端地址列表中的IP地址发送探测报文,若收到应答报文,则认为此邻居存在,然后将此邻居加入自己的集群成员列表,停止发送探测报文。若未收到应答报文,则认为此邻居不存在,然后继续发送探测报文,直到收到应答报文。设备最终会与自己对端地址列表中的设备一一建立邻居关系。
建立RBM通道阶段:设备与自己集群成员列表中的设备一一建立RBM通道。
集群保活:RBM通道建立后,两端设备开始周期性地发送Keepalive报文检测邻居状态。
集群成员同步阶段:当设备学习到集群成员时,将会把自己学习到的集群成员列表信息发送给集群列表中的所有成员。最终所有集群成员设备之间都会两两互相建立RBM通道。
管理主选举阶段:当设备的管理主选举定时器(当前固定为10秒,不可更改)到达后,就会在当前所学习到的集群成员列表中进行管理主的选举。
配置信息同步阶段:选举出管理主后,管理主将会向管理从同步配置信息,且优先同步流量组的相关配置信息。
业务主选举阶段:流量组配置信息同步完成后,集群将会在同一流量组中进行业务主选举。
业务表项同步阶段:选举出业务主后,业务主将会把自己的业务表项信息同步给本流量组中的其他业务备。
以上阶段完成后,集群系统开始正常工作。后续配置信息和业务表项信息的变化将会被实时同步到相关设备。这样任意一台设备故障都不会影响流量的转发,保证业务不中断。
集群成员建立RBM通道后,成员设备之间开始发送Keepalive报文,如果达到最大发送次数后仍然没有收到对端设备的Keepalive响应报文,则认为成员之间的RBM通道断开,对端设备下线。
若是主管理设备检测到与从管理设备之间的RBM通道断开,则认为此设备下线,并将下线信息通告给其他所有从管理设备,其他从管理设备把此故障设备置为下线状态。若是从管理设备之间检测到它们之间的RBM通道断开,则不会向其他设备发送相关下线通告。
因集群配置信息变化(如高可靠性集群模式变化、本端IP地址变化、集群ID和成员ID变化等)导致的成员设备之间RBM通道的连接或断开,我们称之为“集群成员加入或退出”。
成员入群:一个集群建立后,当集群中的成员设备发现新的邻居时,则认为有新的成员设备加入此集群。发现新邻居的成员设备会将自己更新后的集群成员列表同步给集群中的主管理设备和其他所有从管理设备。主管理设备收到设备加入消息后,会与新加入的设备建立RBM通道,并将其置为从管理设备。
成员退群:一个集群建立后,当设备上集群配置信息变化而导致设备退出集群时,此设备会向集群中的其他所有设备发送自己退出集群的通告。其他成员设备收到成员退群通知后,将把此成员从自己的集群成员列表中删除。当退出集群的成员设备是主管理设备时,将会触发此集群重新选举主管理设备,否则不会触发选举。
因RBM通道的连接或断开(不是因为集群配置信息变更),而导致的从管理设备与主管理设备的连接或断开,我们称之为“集群成员上线或下线”。
成员上线:一个集群建立后,当集群中新加入的设备与主管理设备建立RBM通道后,则主管理设备将此设备标记为上线状态,并将上线信息通告给集群中的所有从管理设备。新成员设备上线后,对流量组中业务主备关系的影响如下。
触发主备切换的情况:若新上线设备的业务接口和安全业务板的在位数多于当前业务主时,则会立即触发业务主备切换;若以上条件一样,但是新上线设备的优先级或成员ID大于当前业务主,同时又开启流量回切功能的情况下,当流量延迟回切时间到达后,也会触发业务主备切换。
不触发主备切换的情况:除以上条件之外的其他情况不会触发业务主备的切换。比如:新上线设备优先级或成员ID小于当前业务主不会触发业务主备切换;流量回切功能关闭的情况下,即使新上线设备的优先级或成员ID大于当前业务主也不会触发业务主备切换。
触发设备排名的情况:新设备上线会触发流量组中设备的重新排名。
成员下线:一个集群建立后,当从管理设备与主管理设备之间的RBM通道断开后,则主管理设备将此设备标记为下线状态,并将下线信息通告给集群中的所有从管理设备。成员设备下线后,对流量组中业务主备关系的影响如下。
触发主备切换的情况:若下线的是业务主,则触发设备所在的流量组进行业务主备切换。
不触发主备切换的情况:若下线的是业务备,则不会触发业务主备切换。
触发设备排名的情况:成员下线后会触发设备所在流量组中设备的重新排名。
需要对报文进行状态检测的设备,对于每个动态生成的连接,都有一个会话表项与之对应。业务主在处理业务的过程中创建了很多会话表项;而业务备没有报文经过,因此也就没有创建会话表项。所以当主备切换后,因新的业务主没有对应的会话表项而导致业务中断。
为解决以上问题,集群可以将业务主的会话表项备份到业务备,当主备切换后,已有连接的后续业务报文可以通过匹配备份来的会话表项来保持业务不中断。
目前集群支持热备的业务表项包括:NAT端口块表项、AFT端口块表项、会话表项、会话关联表项和各个安全业务模块自身生成的业务表项。
集群可以将主管理设备上的关键配置信息(支持配置信息同步的模块)备份到其他所有从管理设备,并覆盖从管理设备上对应的配置信息,保证关键配置信息在主从管理设备上的完全一致。避免了主备设备切换时因新业务主缺失对应的配置信息而造成的业务中断问题。
集群中主从管理设备之间的关键配置信息备份原理分如下两种:
主、从管理设备均正常运行情况下,配置信息只能从“主管理设备”同步到“从管理设备”。
任意一台设备重启的情况下,重启后的设备向主管理设备获取配置信息。
目前集群支持配置信息同步的业务模块如下。以下内容仅是从功能支持层面列出了集群支持配置信息同步的业务模块,但是每个业务模块在不同产品上的支持情况不同,请以设备支持的实际情况为准。
资源类:VPN实例、ACL、对象组、时间段、安全域、会话管理、APR、AAA。
DPI相关模块:应用层检测引擎、IPS、数据分析中心。
策略类:安全策略、ASPF、攻击检测与防范、连接数限制、NAT、AFT、服务器负载均衡、智能路由负载均衡、带宽管理、应用审计与管理、共享上网管理、代理策略。
日志类:快速日志输出、Flow日志。
VPN类:SSL VPN。
其他类:VLAN、信息中心。
集群通过交互一致性检查报文来检测成员设备之间的配置信息是否一致,用于防止由于设备配置信息不一致,而导致主备切换后业务不通的情况。当配置信息不一致时,设备会发送日志信息,以提示管理员进行配置信息的手动同步。
集群配置信息一致性检查的过程如下:
主管理设备将收集到的自身相关业务模块配置信息的摘要,通过一致性检查请求报文发送给所有从管理设备。
从管理设备收到一致性检查请求和主管理设备的配置信息摘要后,会收集自身相关业务模块配置信息的摘要,然后将自己的配置信息摘要与主管理设备的配置信息摘要进行对比。
从管理设备上如果对比结果不一致,则自己在输出日志信息的同时也会向主管理设备输出日志信息。
集群支持自动和手动两种方式的配置信息一致性检查,具体如下:
自动方式:主管理设备将周期性的发送配置信息一致性检查报文,检查与从管理设备的关键配置信息是否一致。
手动方式:执行手动检查后,主管理设备将与所有从管理设备将进行一次配置一致性检查。
设备的主、从管理状态和主、备运行状态由集群选举决定,可动态切换。接下来将从触发事件、监控机制和状态切换过程几个方面来详细介绍集群的状态切换机制。
集群通过设定不同的触发事件,对不同的故障事件进行监控,当故障发生时,能及时触发设备角色切换,保证业务不中断。
触发设备角色切换的故障事件如下,且均指发生在管理主和业务主上的故障事件:
RBM通道断开
当RBM通道断开后集群会重新选举管理主和业务主备切换。
主设备整机故障
整机故障后,RBM通道断开,集群会重新选举管理主和业务主备切换。
主设备上主用主控板故障
在主用主控板出现故障的情况下,集群会重新选举管理主和业务主备切换。
主设备上任意业务板故障
主设备上任意安全业务板故障会触发业务主备切换,但是不会触发重新选举管理主。
主设备上所有交换网板故障
主设备上所有交换网板故障会重新选举管理主和业务主备切换。
虽然集群通过以上监控手段可以重新选举管理主和业务主备切换,并及时引导流量到正常设备处理业务,保证用户业务不中断。但是,为了整个集群系统的长期可靠运行,建议管理员在发现故障后及时解决。
如触发事件小节所介绍的一样,集群支持多种故障监控手段,使设备可以及时感知自身的运行状态和上下行链路的状态。
集群的部分监控事件不需要管理员配置,集群会自动监控,比如:RBM通道故障、整机故障、主控板故障、业务板故障、交换网板故障等;但部分监控事件需要管理员配置,比如:关联Track项等。
如图-31所示,集群配置完成后,当RBM通道还未建立时,在控制层面所有设备都是管理主状态,在数据层面所有设备也都是业务主状态,此时集群还未组建完成。
如图-49所示,RBM通道建立成功且集群组建成功后,在控制层面通过竞选只有一个成员设备成为了集群的管理主。在数据层面,通过竞选,每个流量组也都竞选出了自己的业务主。
如图-33所示,当上行或下行业务链路故障时,只会导致数据层面的主、备业务状态切换,使流量切换到正常设备上进行处理。这种情况不会导致控制层面的主、从管理状态切换。
如图-34所示,当整机故障的设备同时为管理主和业务主时,才会导致控制层面的主、从管理状态和数据层面的主、备业务状态一起切换。当整机故障的设备仅为管理主时,仅会触发重新选举管理主,不会触发业务主备切换;当整机故障的设备仅为业务主时,仅会触发业务主备切换,不会触发重新选举管理主。
在集群+VRRP的流量引导方式中,流量组与VRRP备份组绑定后,集群将会以流量组为单位对设备在多个VRRP备份组中的状态进行统一管理。业务主在VRRP备份组中的状态为Master,处理业务;业务备在VRRP备份组中的状态为Backup,不处理业务。
在集群+动态路由的流量引导方式中,流量组与动态路由进程(目前设备仅支持OSPF和OSPFv3协议)绑定后,集群将会以流量组为单位对设备的链路开销值进行统一管理。即设备对外通告的开销值会根据设备在流量组中的排名增加不同的步长(目前步长值为1000,不可修改)。
流量组中排名第一位的设备(即业务主),不增加步长,按照动态路由协议的自身运作机制对外通告开销值;排名第二位的设备(即业务备),增加一个步长后,对外通告开销值;排名第三位的设备(即业务备)增加两个步长,以此类推。
当设备在NAT或LB应用场景中,不能通过集群引流(比如集群联动VRRP等)功能将业务流量引流到具体集群流量组时,可以通过配置集群流量组的目的IP地址范围,将目的IP地址在此范围内的流量引流到某一个流量组中进行业务处理。
在规划流量组时有全部备份和部分备份两种方案,可根据实际业务需求选择不同的规划方案。有关这两种规划方案的具体介绍如下:
全部备份方案:如表-8所示此方案中,需要将所有设备加入所有流量组,并设置不同的优先级。当设备故障时,流量优先选择在同一数据中心内进行切换。此方案可靠性最高,只有所有设备均故障后,用户业务才会中断;同时此方案也会导致设备上备份的数据量很大,消耗设备资源比较多。
部分备份方案:如表-9所示此方案中,只需要将不同数据中心的设备加入不同的流量组即可,不需要将所有设备加入所有流量组,但应保证同一数据中心内的设备是第一备选对象。此方案可靠性适中,设备上备份的数据量和设备的资源消耗也适中。表-9中的“-”表示设备不需要加入某流量组。
流量组 | DC1 | DC2 | DC3 | |||
| Device A | Device B | Device C | Device D | Device E | Device F |
流量组1 | 优先级:255 | 优先级:240 | 优先级:230 | 优先级:220 | 优先级:210 | 优先级:100 |
流量组2 | 优先级:210 | 优先级:100 | 优先级:255 | 优先级:240 | 优先级:230 | 优先级:220 |
流量组3 | 优先级:230 | 优先级:220 | 优先级:210 | 优先级:100 | 优先级:255 | 优先级:240 |
流量组 | DC1 | DC2 | DC3 | |||
| Device A | Device B | Device C | Device D | Device E | Device F |
流量组1 | 优先级:255 | 优先级:240 | 优先级:230 | - | 优先级:210 | - |
流量组2 | 优先级:230 | - | 优先级:255 | 优先级:240 | - | 优先级:100 |
流量组3 | - | 优先级:220 | - | 优先级:100 | 优先级:255 | 优先级:240 |
如图-35所示,集群模式(Cluster)可以由多台设备组建成一个可靠性系统,多台设备之间不仅可以在一个内网(或数据中心)中组建成一个集群;还可以跨内网(或数据中心)组建成一个集群。集群中的多台设备不仅可以形成主备或双主组网,还可以形成多主组网,进一步提高了HA系统的处理能力和扩容能力。
集群的基本配置思路如下图所示。
图-36 集群配置思路图
在配置本特性之前,需要完成以下任务:
配置接口IP地址。接口在“网络 > 接口与VRF > 接口”页面配置。
配置路由,保证路由可达。路由在“网络 > 路由”页面配置。
集群的具体配置步骤如下:
选择“系统 > 高可靠性 > 高可靠性”。进入“运行模式”页面。
在“运行模式”页面选择集群模式,之后单击<集群配置>页签,进入<集群配置>页签进行集群相关的配置。
图-37 选择运行模式
图-38 集群配置
在<集群配置>页签配置集群,具体配置内容如下所示:
图-39 集群配置
表-10 集群配置参数表
参数 | 说明 |
集群ID | 集群ID用于唯一标识一个集群,一台设备同时只能加入一个集群,相同集群ID的设备组成一个集群 |
集群成员ID | 集群成员ID是设备在一个集群中的唯一标识,且不能与其他成员的ID重复。若ID重复,则后配置的设备不能加入集群 |
集群成员优先级 | 设备在集群中竞选主管理设备的优先级,数值越大优先级越高 |
本端IP地址 | 配置用于建立RBM通道的本端IP地址。支持IPv4和IPv6两种类型,但不能同时配置 |
本端端口号 | 配置用于建立RBM通道的本端端口号 |
对端IP地址 | 配置用于建立RBM通道的对端IP地址,可以配置多个对端IP地址。支持IPv4和IPv6两种类型,但不能同时配置 |
数据通道 | 主/备设备使用此功能配置的接口建立RBM数据通道,可传输的报文类型包括备份业务表项的报文,不用于传输主/备设备之间的其他报文 |
接口流量检测时间 | 在设备的业务接口上开启本功能后,设备会一直监控该接口。如果接口流量检测时间内没有检测到流量,设备会认为接口所在链路可能故障,此时会存在以下情况:
本功能仅需要在集群+VRRP流量引导方式中的组网场景中使用,其他组网场景中请勿开启本功能 业务角色选举或流量切换时,链路故障的设备不会成为业务主设备 当原业务主设备恢复正常后,即便开启了主动抢占功能,流量也不会回切到原主设备 |
备用通道本端IP地址 | 配置用于建立冗余备用通道的本端IP地址。只有控制通道断开后,备用通道才会被使用。此通道仅用于集群成员的保活和集群管理主的选举,不能进行配置信息和业务表项信息的备份,不能进行集群流量组业务主的选举。 |
发送探测报文间隔 | 设备将按照此间隔时间向对端地址列表中的IP地址发送探测报文,若收到应答报文,则认为此邻居存在,然后将此邻居加入自己的集群成员列表,停止发送探测报文。若未收到应答报文,则认为此邻居不存在,然后继续发送探测报文,直到收到应答报文 |
心跳间隔 | RBM通道建立后,设备会以配置的心跳间隔为周期向对端设备发送RBM Keepalive报文,以探测RBM通道的连通性 |
心跳失效阈值 | RBM通道建立后,如果设备发送Keepalive报文的次数达到心跳失效阈值后仍然没有收到对端的回应,则RBM通道断开,集群组网失效 |
主动抢占 | 集群流量组中的主设备发生故障后,流量自动切换到其他成员设备。开启此功能后,当原来的主设备再次恢复为主设备后,流量会回切 |
流量回切延迟时间 | 由于业务表项在主/备设备之间进行备份需要一定的时间。为了保证业务能够平滑切换,所以需要延迟流量的回切 |
备份会话表项 | 开启此功能后,主设备会将其生成的业务表项实时备份到备设备,当主设备发生故障时备设备可以平滑地接替主设备的工作,保证业务不中断 |
备份HTTP协议 备份DNS协议 | 配置此功能后,设备将会把DNS协议或HTTP协议报文触发创建的会话表项实时备份到备设备 除了DNS和HTTP应用协议,其它应用协议创建的会话不受本功能控制,只要备份会话表项功能处于开启状态,就会进行这些会话表项备份 |
配置信息一致性检查 | 此功能用于检测集群模式下设备的配置信息是否一致,用于防止发生两台设备配置信息不一致,导致主备切换后业务不通的情况。当配置信息不一致时,会发送日志信息,以提示管理员进行配置信息的手动同步 |
时间间隔 | 配置信息一致性自动检查的周期,每次周期到达后均会触发一次配置信息一致性检查 |
自动同步配置信息 | 开启此功能前,主管理设备上已经配置信息,将会在开启此功能后进行一次批量备份,之后新增的配置信息将实时备份到从管理设备 配置信息很多时,批量备份时间会很长可能需要一到两个小时。因此在初始规划网络配置时,建议先开启此功能,以减少后面配置信息进行批量备份的时间 |
设备隔离 | 开启设备隔离功能后,设备进入隔离状态,除管理接口和RBM通道接口外的其他接口禁止收发报文,RBM通道保持连接。设备会在加入的所有集群流量组中主动让出业务主运行角色且无法再被选举为业务主,以便管理员可以更换设备上的部件或升级软件等 |
在<集群配置>页签,单击<确定>按钮完成集群的配置。
在<集群配置>页签,单击右上角的“退出集群模式”按钮,可以关闭集群功能并返回选择运行模式。
图-40 退出集群模式
选择“系统管理 > 高可靠性 > 流量组”。
在<流量组>页签,单击“新建”按钮进入“新建流量组”页面,具体配置内容如下所示:
图-41 新建流量组
图-42 流量组配置
表-11 流量组配置参数表
参数 | 说明 |
流量组ID | 集群流量组是集群中处理业务的基本逻辑单元,一个集群流量组可以为一个数据中心或某一应用提供可靠性服务,或简称“流量组” |
描述 | 合理的集群流量组描述信息能够帮助管理员快速理解此集群流量组的作用 |
虚拟MAC地址 | 配置本功能后,设备会使用配置的虚拟MAC地址替代VRRP备份组和服务器负载均衡中自动生成的虚拟MAC地址,避免MAC地址冲突 |
流量组成员 | 一个流量组中可以添加多个集群成员,同一时间只有一台设备为业务主,其他设备均为业务备 |
VRRP备份组 | 在集群与VRRP配合使用的高可靠性组网中必须配置此功能,使流量组与VRRP备份组进行关联 |
Track | 配置此功能后,当业务主设备上的流量组联动的其中一个Track项的状态为Negative状态时,流量组中的设备将会进行业务主备的切换,将上下行流量同时切换到新的业务主,保证业务不中断 |
业务地址 | 当设备不能通过集群引流(比如集群联动VRRP等)功能将业务流量引流到具体集群流量组时,可以通过配置集群流量组的目的IP地址范围,手工将目的IP地址在此范围内的流量引流到某一个流量组中进行业务处理 集群流量组目的IP地址范围的结束地址必须大于等于起始地址 |
联动路由 | 此功能可使集群流量组与OSPF进程联动实现业务流量的自动切换。流量组与动态路由进程联动后,集群将会以流量组为单位对设备的链路开销值进行统一管理。即设备对外通告的开销值会根据设备在流量组中的排名增加不同的步长 一个OSPF进程只能与一个集群流量组进行联动,一个集群流量组中可以联动多个OSPF进程 |
在“新建流量组”页面,单击<确定>按钮完成流量组的配置。
单击“系统管理 > 高可靠性> 集群状态”。
选择<集群状态>页签,可以查看集群的详细状态信息。
在<集群状态>页签,单击<手工一致性检查>按钮或<手工同步配置信息>按钮,可以进行手工检查配置信息的一致性和同步配置信息。
图-43 手工一致性检查和手工同步配置信息
表-12 手工检查配置信息的一致性和同步配置信息
参数 | 说明 |
手工一致性检查 | 当需要确认主从管理设备上配置信息是否一致时,可以通过单击此按钮即时触发配置信息一致性检查。若配置信息不一致,则系统会发送日志信息,以提示管理员进行配置信息的手动同步 |
手工同步配置信息 | 单击此按钮后,主管理设备上的配置信息将同步到从管理设备 |
在<集群状态>页签,单击<查看集群协商统计信息>按钮,可以查看协商过程中的报文统计个数和管理角色切换次数。
图-44 查看集群协商统计信息
在<集群状态>页签,单击<切换为管理主>按钮,可以手工进行集群管理主从状态的切换。
图-45 手工进行集群管理主从状态的切换
表-13 手工进行主从管理状态切换
参数 | 说明 |
切换为管理主 | 执行本功能后会导致集群中主、从管理设备的切换,并由新的管理主承担集群的所有管理任务。请在需要将自己设置为管理主的设备上执行本功能 将本设备切换为管理主的常见应用场景如下:
|