手册下载
双机热备(RBM)技术白皮书-6W102-整本手册.pdf (983.28 KB)
双机热备(RBM)技术白皮书
Copyright © 2026 新华三技术有限公司 版权所有,保留一切权利。
非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。
除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。
本文中的内容为通用性技术信息,某些信息可能不适用于您所购买的产品。
大数据时代,随着各行各业数字化转型的蓬勃开展,网络承载的业务越来越多,越来越重要。如何保证网络的可靠性和业务的不间断传输成为网络建设中必须要解决的问题。
如图1-1中的左图所示,Device部署在网络的出口,内、外网之间的业务流量均会通过Device处理和转发。如果Device出现故障,便会导致内、外网之间的业务全部中断。由此可见,在这种网络关键位置上如果只使用一台设备,无论设备的可靠性多高,都会存在因设备单点故障而导致的网络中断风险。
因此,企业通常会在网络的关键位置部署两台设备,以提升网络的可靠性。如图1-1中的右图所示,当Device A出现故障时,流量会通过Device B转发,保证内、外网之间业务流量的不间断传输。
图1-1 网络可靠性示意图
对于传统的网络设备(如交换机、路由器),只需要做好接口或网络的冗余就可以保证流量的不间断传输。但对于需要对报文进行状态检测和策略处理的设备(如防火墙、入侵防御、上网行为审计等),它会对一条流量的首包进行合法性检测,并建立会话来记录流量的状态信息(包括报文的源IP、源端口、目的IP、目的端口、协议等)。而这条流量的后续报文只有匹配会话才会在此类设备上进行处理并完成转发,否则将被丢弃。因此,当此类设备进行可靠性部署时,不仅需要做好链路级的冗余,还需要保证两台设备之间的业务表项信息和配置信息的一致性,实现设备级的冗余,只有如此才能真正保证流量的不间断传输。
双机热备功能可以有效解决以上问题。如图1-1中的右图所示,双机热备可以将两台Device组建成高可靠性系统,在保证链路级冗余的同时,还能将设备上的会话表项等业务状态信息和配置信息在两台设备之间同步,最终达到设备级的冗余。
双机热备是一种跨设备的备份管理技术,提供了一种设备级、系统级的可靠性解决方案。双机热备不仅具有其他冗余技术(如链路聚合、VRRP等)所具有的增加链路带宽、提高网络可靠性、实现流量负载分担的优势外,还兼具以下优势:
· 设备级可靠性:双机热备将网络通信的可靠性从链路级、单板级提高到了设备级。对于需要对报文进行深度处理和检测的业务,真正做到了业务级的平滑迁移。
· 业务快速部署:双机热备中只需要在一台设备上配置相关业务,另一台设备会实时自动同步配置信息,这样既能简化设备配置操作,又能加速业务上线。
· 设备独立升级:双机热备中的两台设备可以进行独立升级,升级其中一台设备时,另一台可以正常工作,升级过程对正在运行的业务几乎零影响。
· 流量自动切换:双机热备通过多种监测技术,动态感知设备及其链路的健康状况,并与其他多种技术(如OSPF)联动实现流量自动切换。
· 支持多业务:双机热备支持SecPolicy、DPI、NAT、LB、IPsec、SSL VPN等功能在业务层面的高可靠性部署,保证流量切换后业务处理不中断。
· 组网兼容性强:双机热备可与OSPF、IS-IS、BGP、VRRP等RFC标准协议联动引导流量,因此双机热备在不同品牌设备的综合组网中,具有非常强的兼容性和扩展性。
本文的双机热备技术通过RBM(Remote Backup Management,远端备份管理)协议实现,其不仅可以备份设备间的配置信息和业务表项,还能联动VRRP和动态路由等,统一管理流量切换,保证用户业务数据的不间断传输。
双机热备技术在控制层面和业务层面对设备进行统一管理,从而提供设备级冗余保护和流量负载分担。双机热备技术包含的基本概念如下。
· 主、从管理设备:双机热备中的设备在控制层面分为主、从两种管理角色(也可以称作主、从管理状态),用于控制设备之间的配置信息同步。
· 主、备业务设备:双机热备中的设备在数据层面包含主、备两种业务角色(也可以称作主、备业务状态)。主设备处理业务,并向备设备实时备份业务表项信息。
· RBM报文:RBM报文使用RBM协议承载两台设备之间需要交互的信息。其使用TCP作为传输层协议,TCP连接建立后,主管理设备和从管理设备通过RBM通道交互RBM报文。
· RBM通道:用于两台设备之间交互双机热备的运行状态信息、配置信息和业务表项信息。
· 双机热备工作模式:支持主备、镜像和双主工作模式。主备模式下,仅由主设备处理业务,备设备处于待命状态;镜像模式下,两台设备的接口(镜像模式管理接口和RBM通道接口除外)使用相同的IP地址,同样由主设备处理业务,备设备处于待命状态;双主模式下,两台设备同时处理业务,充分利用设备资源,提高系统负载分担能力。
RBM报文是基于RBM协议的,其从大类上可以分为如下几类:
· 控制报文:首先根据设备的配置信息建立双机热备系统,系统建立后依据设备的运行状态来控制设备的主备状态切换。
· 心跳报文(Keepalive报文):两台设备通过定期互相发送心跳报文来检测对端设备是否存活。
· 配置一致性检查报文:用于设备之间检测配置信息,以确保两台设备的关键配置一致。
· 配置信息备份报文:用于两台设备之间进行配置信息的备份。
· 表项备份报文:用于两台设备之间进行业务表项的备份。
· 透传报文:用于设备间非对称路径业务报文的透传或复制。
RBM通道用于两台设备之间进行双机热备运行状态、关键配置和业务表项等信息的传输,从逻辑上划分为控制通道、辅助控制通道和数据通道。
控制通道用于传输双机热备的心跳报文、控制报文、一致性检查报文和同步配置信息报文等。创建RBM控制通道时,设备会将配置的本端IP地址与对端IP地址进行比较,IP地址较大的设备将作为Server,IP地址较小的设备将作为Client。Client向Server发起TCP连接请求来建立RBM控制通道。双机热备中所有设备配置的控制通道端口必须相同。
控制通道基于TCP协议来监测链路的连通性。控制通道建立后,设备会周期性向对端设备发送Keepalive报文,如果达到最大发送次数后仍然没有收到对端的回应,则RBM通道断开,RBM失效。如果用户事先配置了辅助控制通道,控制通道断开后设备会通过辅助控制通道代替控制通道传输Keepalive报文来维持RBM状态。只有控制通道和辅助控制通道都断开的情况下才会导致RBM失效。
辅助控制通道用于增强RBM通道的可靠性。当RBM控制通道断开时,设备可通过辅助控制通道传输心跳报文、控制报文来控制RBM的状态切换,通过数据通道传输透传报文、热备报文来保证同步业务表项信息和透传业务流量,但是配置一致性检查报文、配置信息备份报文无法传输,配置信息无法同步。
用户在配置辅助控制通道接口和对端IP地址后,设备会基于用户配置的对端IP地址类型获取辅助控制通道接口中的IP地址。之后设备会根据RBM控制通道的TCP Client/Server关系,使用辅助控制通道接口中的IP地址和对端IP地址建立辅助控制通道连接。
数据通道用于传输热备报文和透传报文。数据通道的报文传输模式支持使用二层或三层。
在双机热备系统中,设备同时具有管理角色和业务角色两种定位,分别从配置管理和业务处理两个层面确保系统一致性与可靠性。
· 管理角色(主/从):用于系统配置管理,一台设备作为主管理设备负责配置,下发并同步到从管理设备,从管理设备不能直接配置业务,配置信息只能单向同步,且管理角色必须人工指定、不能动态选举。
· 业务角色(主/备):用于业务流量和数据处理,一台设备作为业务主处理流量并实时备份业务表项到业务备设备,业务备在主设备故障时可自动切换为业务主,业务角色可以动态选举和切换。
二者的关系是:管理角色决定配置信息的控制权,而业务角色决定业务处理的主次顺序。在初始状态下,管理角色和业务角色保持一致,但在运行过程中业务角色可以根据故障或选举结果变化,而管理角色不会自动变化。
如图2-1所示,为了保证备设备可以平滑接替主设备工作,双机热备必须能够将主设备的配置信息备份到备设备。尤其在双主组网环境中,两台设备都是主设备,如果允许相互备份配置信息,会造成配置信息相互覆盖或冲突。为了方便管理员统一管理配置信息,避免配置混乱,引入了主、从管理角色的概念(也可称作主、从管理状态)。
RBM中设备的管理角色有手工配置和自动选择两种方式,具体内容如下:
· 手工配置:此方式需要通过命令手工指定设备的管理角色,一旦指定后设备的管理角色将固定不变。如需更改,则通过执行命令手工更改。此方式适用于使用独立的管理用以太网口进行设备管理的网络环境,此方式仅支持在双机热备的主备和双主工作模式下使用,不能在镜像工作模式下使用。
· 自动选择:此方式下设备的管理角色根据运行角色进行自动选择,管理角色与运行角色始终保持一致,即业务主是主管理设备,业务备是从管理设备。此方式适用于复用业务接口进行设备管理的网络环境,此方式仅支持在双机热备的主备和镜像工作模式下使用,不能在双主工作模式下使用。
配置完设备的管理角色后,系统将在命令行提示符前增加前缀信息,以标识设备的主、从管理角色。这样在后续业务配置中能够更加友好醒目地提示管理员设备当前的管理角色是什么。
主备和双主模式中具体标识方法如下:
· 主管理设备:将在命令行提示符前面增加RBM_P前缀信息,如:RBM_P<Sysname>。
· 从管理设备:将在命令行提示符前面增加RBM_S前缀信息,如:RBM_S<Sysname>。
镜像模式中具体标识方法如下:
· 主管理设备:将在命令行提示符前面增加RBM_MIRROR_P前缀信息,如:RBM_MIRROR_P<Sysname>。
· 从管理设备:将在命令行提示符前面增加RBM_MIRROR_S前缀信息,如:RBM_MIRROR_S<Sysname>。
在RBM控制通道建立成功前,系统不关心配置的设备管理角色是什么,其都认为自己是主管理角色,这时命令行提示符前缀总是RBM_P/RBM_MIRROR_P。在RBM控制通道建立成功后,系统将按照实际配置的管理角色显示命令行提示符前缀信息。
如图2-2所示,为保证报文的有序处理和流量统一管理,在数据层面双机热备将设备划分为主、备两种业务角色(也可称作主、备业务状态,或简称“业务主”和“业务备”)。主设备处理业务并向备设备实时备份业务表项信息;备设备除接收主设备的业务表项备份信息外,在主设备发生故障后会转换为主设备,继续处理业务流量,保证业务不中断。
主、备业务角色由双机热备选举产生,可动态切换。初始状态下,主备工作模式中设备的主备业务角色与主从管理角色保持一致,即主管理设备就是业务主,从管理设备就是业务备;双主工作模式中两台设备均为业务主。
如图2-3所示,两台设备之间建立双机热备(即RBM)的详细过程如下:
(1) 当两台设备配置完双机热备功能和启动进程后,开始协商建立RBM通道。
(2) RBM通道建立成功后,开始发送双机热备协商报文组建双机热备。
(3) 当本端设备收到对端设备的双机热备协商报文后,会判断协商报文中的双机热备配置是否和本端的配置相同。若相同,则这两台设备组建双机热备成功,否则不能组建双机热备。
(4) 双机热备组建成功后,两端设备会进行主、从管理角色的竞选。目前双机热备的主、从管理角色仅支持管理员手工指定,配置为主管理角色的一端将成为主管理设备,配置为从管理角色的一端将成为从管理设备。
(5) 双机热备中的管理角色选定后,将进行主、备业务角色的竞选。业务角色由双机热备根据工作模式和设备运行状态等因素动态选举产生。
(6) 双机热备中的业务角色选定后,主管理设备开始向从管理设备批量同步当前配置信息,业务主设备开始向业务备设备批量同步业务表项信息。
(7) 同时,两端设备将通过RBM通道周期性地发送Keepalive报文检测邻居状态。
(8) 双机热备正常运行后,主设备会向对端实时同步数据信息,例如配置信息、业务表项等。这样任意一台设备故障都不会影响流量转发,保证业务不中断。
双机热备支持主备、镜像和双主工作模式,具体介绍如下。
如图2-4所示,主备模式下,正常情况下仅由主设备处理业务,备设备处于待命状态;当主设备接口、链路或整机故障时,备设备立即切换为主设备,接替原主设备处理业务。
图2-4 主备模式的双机热备示意图
镜像模式是一种特殊的主备模式,部署方式与主备模式相同。该模式适用于对网络收敛时间要求极高且要求业务端IP地址无感知切换的场景。在此模式下,故障切换过程无需上层三层设备进行路由收敛,且由于IP和MAC地址保持不变,避免了传统主备切换中因IP变更导致的业务中断或复杂的ARP重新学习过程。该模式特别适用于对网络收敛时间要求极高、且无法容忍IP地址变更的场景,能够实现业务的快速平滑迁移。
在镜像模式下,两台设备通过RBM同步除镜像模式管理接口和RBM通道接口外的所有业务配置,确保主备两端接口状态和参数完全相同。正常情况下,仅由主设备处理并转发业务流量,备设备处于待命状态;当主设备发生接口故障、链路中断或整机宕机时,备设备立即提升为主设备,并继续使用与原主设备相同的IP地址和MAC地址转发流量。虽然二层环境下的下游交换机会自动更新MAC地址表项(指向新的物理路径),但由于IP地址未变,上游三层设备无需重新计算路由或进行大规模ARP泛洪,从而显著缩短了故障恢复时间,实现了业务的快速迁移。
需要注意的是,此组网环境中RBM必须关联Track项,否则上下行链路或接口故障时,双机热备不能主备切换。
由于镜像模式下业务接口IP地址相同,若直接通过业务接口连接网管设备或日志主机,将导致IP地址冲突,且默认情况下只有主设备能响应管理流量,备设备无法被独立访问。为解决此问题,RBM提供了镜像模式管理接口功能:管理员可指定特定接口作为管理接口,配置在该接口下的IP地址及参数不会由主设备同步至从设备。这使得每台设备可在各自的管理接口上拥有独立的IP地址,管理员既能分别登录管理主、备设备,又能确保在切换后,网管设备和日志主机仍能通过独立的管理路径稳定访问当前的主设备。
如图2-5所示,双主模式下,两台设备同时处理业务,充分利用设备资源,提高系统负载分担能力。此模式通过互为主备方法实现。当其中一台设备发生故障时,另外一台设备会立即承担其业务,保证业务不中断。
图2-5 双主模式的双机热备示意图
双机热备可以将主管理设备上的配置信息备份到从管理设备,保证两台设备上的配置信息一致。这样在主、备设备切换时可避免因对端设备缺失对应的配置信息而发生业务中断。
双机热备支持自动和手动两种方式进行配置信息备份,具体如下:
· 自动备份:开启此功能后,主管理设备的配置信息变化会实时同步到从管理设备。
· 手动备份:执行手动备份后,主管理设备将会向从管理设备进行一次批量备份。
双机热备备份配置信息支持实时备份和批量备份两种方式,具体如下:
· 实时备份:主管理设备上新增、删除或修改的配置信息将实时同步到从管理设备,保证这些变化的配置信息在主从管理设备上的一致。
· 批量备份:主管理设备上的关键配置信息全部备份到从管理设备,从管理设备上会删除与主管理设备上不一致的配置,保证关键配置信息在主从管理设备上的完全一致。
仅配置信息自动备份功能处于开启状态且RBM控制通道建立成功的情况下,RBM才会进行实时备份或者批量备份。
仅在如下几种情况才会触发设备之间进行配置信息的批量备份:
· 双机热备正常工作后,在主管理设备上使用手动备份功能会触发配置信息的批量备份。
· 双机热备中的设备正常运行后,RBM控制通道是第一次成功建立且配置信息自动备份功能也是第一次开启时(包括默认开启的情况),主管理设备会将自己当前的所有关键配置信息批量备份到从管理设备进行覆盖。设备正常运行后,只要进行过一次批量备份,即使再反复开启配置信息自动备份功能或RBM控制通道反复建立也不会再触发配置信息的批量备份。
· 双机热备中的设备重启或者RBM进程重启,并且这期间未重启设备上的配置信息自动备份功能一致处于开启状态的情况下。当重启完成且RBM控制通道再次建立后,未重启的设备会将自己当前的所有关键配置信息批量备份到重启过的设备进行覆盖。
双机热备通过交互一致性检查报文来检测两台设备的配置信息是否一致,用于防止由于配置信息不一致而导致主备切换后业务不通的情况。当检测到配置信息不一致时,设备会发送日志信息,提示管理员进行配置信息的手动同步。
双机热备配置信息一致性检查的过程如下:
(1) 主管理设备发送一致性检查请求报文给从管理设备,同时收集自身相关模块配置信息的摘要。
(2) 从管理设备收到一致性检查请求后,会收集自身相关模块配置信息的摘要,然后封装到一致性检查报文返回给主管理设备。
(3) 主管理设备收到从管理设备返回的一致性检查报文后,将自身配置信息的摘要与从管理设备配置信息的摘要进行对比,如果对比结果不一致,则主管理设备输出日志信息。
双机热备支持自动和手动两种方式的配置信息一致性检查,具体如下:
· 自动方式:此方式下,设备将周期性发送配置信息一致性检查报文,检查两台设备的配置信息是否一致。
· 手动方式:执行手动检查后,设备将进行一次配置一致性检查。
双机热备能够将主设备上生成的业务表项信息实时备份到备设备,避免了主备设备切换时因备设备上缺失业务表项而造成的业务中断问题。
需要对报文进行状态检测的设备,对于每个动态生成的连接,都有一个会话表项与之对应。主设备在处理业务的过程中创建会话表项;而备设备没有报文经过,因此没有创建会话表项。通过双机热备的热备份功能,主设备会实时将会话表项备份到备设备,当主备切换后,已有连接的后续业务报文可以通过匹配备份的会话表项来保持业务不中断。
双机热备的主、从管理状态由配置指定,不会动态切换;双机热备的主、备运行状态由双机热备选举决定,可动态切换。接下来将从触发事件、监控机制和状态切换过程几个方面来详细介绍双机热备的状态切换机制。
如图2-6所示,当RBM控制通道还未建立时,在控制层面两台设备都是主管理状态,在数据层面两台设备也都是主业务状态,但此时并非正常的双机热备状态,双机热备组建未完成。
图2-6 RBM控制通道未建立的情况
如图2-7所示,RBM控制通道建立成功且两台设备均运行正常后,在控制层面两台设备的管理状态由配置信息决定,且任何情况下都不会变动。在数据层面,主备工作模式中,两台设备的运行状态与管理状态保持一致;双主工作模式中,两台设备都是业务主。
图2-7 RBM控制通道建立成功且两台设备均运行正常的情况,主备工作模式举例
如图2-8所示,当上下行业务链路故障时,只会导致数据层面的主、备业务状态发生切换,使流量切换到正常设备上进行处理,这种情况不会导致控制层面的主、从管理状态发生切换。
如图2-9所示,只有主管理设备整机故障(相当于RBM控制通道未建立的情况)才会导致控制层面的主、从管理状态和数据层面的主、备业务状态一起发生切换。从管理设备会临时抢占为主管理状态;当主管理设备故障恢复后(相当于RBM控制通道建立的情况),又抢占为主管理设备。
在设备运行过程中,故障事件可能会导致业务中断。因此需要设备设定不同的触发事件来监控故障事件。如图2-10所示,当设备监测到故障事件发生时,会自动触发主备切换机制,从而保证业务的连续性和稳定性。
触发主备切换的事件可分为RBM通道断开和RBM通道正常两种。
由于RBM通道断开而触发主备切换的事件主要有以下几种:
· 两台设备正常运行情况下,当控制通道和辅助控制通道同时断开后会进行主备切换。这时两台设备都变为主设备,进行业务处理,但是两台设备不再是RBM状态,对后续的非对称流量会有影响。
· 主设备整机故障,备设备升为主设备进行业务处理。
· 主设备上所有主控板故障,备设备升为主设备进行业务处理。
· 主设备上所有交换网板故障,备设备升为主设备进行业务处理。
当RBM控制通道通信正常时,系统通过实时监控主管理设备的状态来触发主备切换或重新竞选。主要触发事件包括接口/VLAN故障、Track项状态异常、硬件板卡故障、Context状态变化以及资源利用率超限。
· 监控接口或VLAN故障
¡ 触发条件:主设备上被RBM监控的接口或VLAN发生故障(状态变为Down)。
¡ 竞选结果:
- 主备模式:若仅主设备故障,备设备接管成为业务主;若两端均存在故障接口,则主管理设备仍保持为业务主。
- 双主模式:若仅主设备故障,备设备接管;若两端均存在故障接口,由于故障对称,两台设备均维持业务主状态(各自处理本地流量,或通过其他机制分担)。
· Track项状态异常
¡ 触发条件:主设备上与RBM关联的任意Track项状态变为Negative。
¡ 竞选结果:
- 主备模式:若仅主设备Track项为Negative,备设备接管成为业务主;若两端Track项均为Negative,则主管理设备保持为业务主。
- 双主模式:若仅主设备Track项为Negative,备设备接管;若两端均为Negative,两台设备均维持业务主状态。
· 安全业务板故障
¡ 触发条件:主设备上任意安全业务板发生故障。
¡ 竞选规则:RBM会比较两端设备在位的安全业务板数量。
- 数量不同时:任何工作模式中,都是安全业务板在位数量多的一方竞选为业务主,数量少的一方竞选为业务备。这确保了业务流量由具备更多安全处理能力的设备处理。
- 数量相同时:主备工作模式中,业务主就是主管理设备,业务备就是从管理设备;双主工作模式中,两台设备都是业务主。
- 无业务板:如果两端都没有安全业务板在位,两端都是业务备,此时无法处理需要安全业务板参与的业务流量。
· Context状态变化
¡ 触发条件:主设备上关闭与备设备编号相同的非缺省Context。
¡ 竞选规则:RBM会比较两端设备上编号相同且处于Active状态的非缺省Context数量。
- 数量不同:任何工作模式中,都是Active状态Context数量多的一方竞选为业务主,少的一方为业务备。这确保了业务流量由承载更多Context负载的设备处理。
- 数量相同:主备模式中,主管理设备为业务主,从管理设备为业务备。双主模式中,两台设备均为业务主。
· 主设备的健康值变化。
¡ 触发条件:主设备的健康值发生变化。健康值是综合评估设备CPU、内存、板卡状态等因素得出的一个数值,数值越小表示设备越健康。
¡ 竞选规则:
- 健康值不同:健康值小(更健康)的一方竞选为业务主,健康值大(较不健康)的一方为业务备。
- 健康值相同:主备模式中,主管理设备为业务主,从管理设备为业务备;双主模式中,两台设备均为业务主。
· 主设备CPU/内存利用率超阈值。
开启了CPU/内存利用率超阈值自动触发RBM主备倒换功能后,主设备上CPU或内存利用率超过预设阈值会触发业务主备倒换。系统通过周期性采样监控资源状态,当CPU利用率平均值或内存利用率持续值超过设定阈值时,判定主设备资源过载。
¡ 触发条件:
- CPU过载:CPU利用率采样值的平均值达到或超过设定的CPU利用率阈值。
- 内存过载:内存利用率采样值持续超过设定的内存利用率阈值。
- 特殊情况下,若主、备设备的CPU/内存利用率均超过阈值,则不会触发主备倒换,继续维持当前运行状态。
¡ 竞选规则:
- 主备模式:当主设备资源过载时,从管理设备立即接管成为业务主,处理所有业务流量;原主设备降级为业务备。
- 双主模式:当主设备资源过载时,从管理设备接管其负责的业务流量并提升为业务主;原主设备因资源不足,降级为业务备。
¡ 回切与防震荡机制:
- 回切触发:当主设备CPU或内存利用率回落至阈值以下时,系统判定其恢复正常。若开启了自动回切功能,系统将把业务回切至主设备。
- 冷却时间(Cool-down Time):为防止资源波动导致的频繁切换,系统在每次主备倒换后启动冷却计时器。在冷却时间内,即使主设备资源再次超限,也不会触发新的倒换。冷却时间结束后,系统重新评估状态:若主设备仍超限,则再次触发倒换;否则,维持当前运行状态。特殊情况下,如果主备切换后,新的主设备CPU或内存利用率持续超阈值,且原主设备CPU或内存利用率已稳定降至阈值以下时,系统将突破冷却时间限制执行强制回切,以确保业务连续性和系统稳定性。
如触发事件小节所介绍的一样,双机热备支持多种故障监控手段,使双机热备可以及时感知设备自身的运行状态和上下行链路的状态。
双机热备的部分监控事件不需要管理员配置,双机热备自动监控,例如:监控控制通道、整机故障、主控板故障、业务板故障、交换网板故障等;部分监控事件需要管理员配置,例如:监控接口、监控Track项等,这些监控事件在不同的组网中的使用方法,请参见表2-1中的推荐方案。
|
组网场景 |
故障监控事件 |
|
业务接口工作在三层,上下行连接路由器三层接口,静态路由组网 |
需要使用监控接口功能监控上下行三层以太网接口的状态 |
|
业务接口工作在三层,上下行连接路由器三层接口,动态路由组网 |
需要使用关联Track项功能监控上下行链路的状态 |
|
业务接口工作在三层,上下行连接二层交换机组网 |
需要使用关联Track项功能监控上下行链路的状态 请不要在VRRP备份组中配置Track功能 |
|
业务接口工作在二层,上下行连接路由器三层接口组网 |
需要使用监控接口功能监控上下行三层以太网接口的状态 |
|
业务接口工作在二层,上下行连接二层交换机组网 |
需要使用监控VLAN功能监控上下行接口的状态 |
双机热备监控接口、VLAN和关联Track项的具体工作原理如下:
· 双机热备监控接口:被监控的接口将同时具备或同时不具备报文传输能力。只有双机热备所监控接口的状态均为UP时,这些接口才能转发报文,否则双机热备监控的所有接口均不能转发报文。监控接口和监控VLAN功能互斥,不可同时配置。
· 双机热备监控VLAN:被监控VLAN中的成员端口将同时具备或同时不具备报文传输能力。只有VLAN中的所有成员端口状态均为UP时,此VLAN的状态才为Active,所有成员端口可以转发报文,否则此VLAN的状态为Inactive,所有成员端口均不能转发报文。监控接口和监控VLAN功能互斥,不可同时配置。
· 双机热备关联Track项:当双机热备关联的其中一个Track项的状态为Negative时,双机热备将进行设备的主备切换,将上下行流量同时切换到新的主设备,保证业务不中断。
在双机热备(RBM)组网中,主备业务角色的选举决定了流量的转发路径。RBM支持多种选举模式:默认选举、优先级选举以及MAD(多Active检测)独立选举。管理员可根据网络需求选择合适的选举策略。
如图2-11所示,默认情况下,RBM采用逐级比较的方式确定主备角色。选举条件的优先级从高到低依次为:链路状态>Context状态>健康值>业务板个数>工作模式。只有当上一级条件无法区分优劣时,才进入下一级比较。
具体选举过程如下:
(2) 比较业务接口链路状态
系统通过Track项、Track监控接口、Track监控VLAN等监测业务接口的链路状态。
¡ 情况一:一台设备所有业务接口均为UP,另一台存在DOWN 接口。接口全为UP的设备当选为主设备。
¡ 情况二:两台设备所有业务接口均为UP。进入下一步比较。
¡ 情况三:两台设备均存在业务接口链路状态为DOWN的接口。进入下一步比较。
(3) 比较Context状态
比较两端编号相同的非缺省Context状态。拥有更多处于Active状态的Context的设备当选为主设备。
(4) 比较设备的健康值
管理员可通过display system health命令查看设备健康值(健康值反映硬件及软件的健康程度,数值越小表示状态越好),健康值小的设备会当选为主设备。
(5) 比较业务板数量
比较当前在位的业务板数量。业务板数量更多的设备当选为主设备。
(6) 比较工作模式与管理角色
若上述条件均相同,则根据工作模式和管理角色决定:
¡ 双主模式:两台设备均作为主设备。
¡ 主备/镜像模式:由主管理设备作为主设备,从管理设备作为备设备。
¡ 若管理角色配置为自动选择,则选举控制通道本端IP地址较小的一方为主管理设备(即主设备)。
默认选举机制简单直观,但无法量化各故障因素对主备决策的影响权重。
开启RBM优先级选举功能后,系统不再进行逐级比较,而是基于权重计算得出总优先级,并根据优先级差值与主备切换阈值的关系来决定主备角色。该机制允许管理员精细控制选举行为。
选举逻辑如下:
(1) 计算总优先级:各选举元素(如故障接口数、健康值偏差等)乘以对应的权重值,累加得到设备的总优先级。
(2) 判断选举结果
RBM成员设备之间比较两台设备的总优先级,选举结果由优先级大小和工作模式共同决定:
¡ 情形一:优先级相同
由主管理设备作为主设备,从管理设备作为备设备。
¡ 情形二:优先级不同
判断总优先级差值和主备切换阈值的大小
- 差值 < 阈值:忽略优先级差异,由主管理设备作为主设备,从管理设备作为备设备。(此机制用于防止因微小优先级波动导致的主备震荡)
- 差值≥阈值:按优先级数值大小决定,总优先级较小的设备当选为主设备,总优先级较大的设备为备设备。
各选举元素对于优先级的详细计算方式请见下表。
|
选举元素 |
触发条件/来源 |
计算公式 |
上限 |
特殊说明 |
|
设备隔离 |
执行equipment isolation命令 |
固定值100000 |
100000 |
当两台设备都执行设备隔离命令时,设备隔离功能不影响主备选举 |
|
业务板 |
两台设备当前在位业务板数量不同(仅业务板少的设备计算) |
缺少业务板个数*选举元素权重值 |
6000 |
当在位业务板个数为0时,优先级为100000 |
|
健康值 |
健康值上报(可在Probe视图下执行display system internal remote-backup-group health命令查询) |
健康值*选举元素权重值 |
6000 |
包含交换网板、FPGA、内存、硬件故障等 |
|
接口 |
执行track interface、track vlan、vrrp命令监控的接口出现故障 |
故障接口数*选举元素权重值 |
6000 |
所有监控的接口都故障时优先级为100000 当监控的接口同时配置了IPv4和IPv6地址时,若该接口发生故障,系统会将其视为两个独立的故障事件(IPv4和IPv6各算一次),接口优先级会被重复计算 |
|
track |
执行track命令监控的Track项出现故障 |
状态为Negative的Track项数目*选举元素权重值 |
6000 |
- |
|
Context |
编号相同的非缺省Context进行对比,选举出哪一侧为备 |
Context为备的数目*选举元素权重值 |
6000 |
编号相同的非缺省Context内部根据选举元素和权重选出哪一侧为备,选举机制与缺省Context相同 |
|
Session-sync |
执行会话表项批量同步的时候,等待会话同步的设备会增加相应的优先级,会话同步完成减去该值 |
1*选举元素权重值 |
6000 |
- |
|
配置同步 |
执行配置信息批量同步的时候,等待配置同步的设备会增加相应的优先级,配置同步完成减去该值 |
90000 |
90000 |
- |
在双机热备组网中,RBM控制通道用于维持主备设备间的心跳同步及状态协商。当RBM通道断开时,若缺乏有效的检测机制,两台设备可能同时认为对方故障,从而各自提升为主设备,即“双Active”状态。虽然此时两台设备均可独立处理业务,但是两台设备不再是RBM状态,可能影响后续非对称流量的正常转发。
MAD(Multi-Active Detection,多Active检测)正是为解决此问题而设计的兜底保护机制。开启MAD检测功能后,当检测到RBM通道断开且存在双Active冲突时,MAD机制会介入并根据独立的决策逻辑来选举唯一的主设备,从而避免网络环路和数据不一致,确保系统在极端故障场景下的可用性。
· 选举触发条件
仅当开启了MAD检测功能后,RBM控制通道断开,且设备检测到对端也处于活跃状态(即疑似双Active)时,才启动MAD独立选举流程。
· 选举参数
MAD选举基于以下参数进行独立比较:
¡ 链路状态:业务接口的UP/DOWN状态。
¡ Context状态:编号相同的非缺省Context的活动状态。
¡ 健康值:设备内部上报的系统健康评分。
¡ 业务板数量:当前在位的业务板卡总数。
注意:MAD选举不涉及CPU利用率或内存利用率等动态资源指标,这与CPU/内存利用率超阈值自动触发RBM主备倒换的功能无关。此外,MAD决策过程中使用的上述参数为独立计算,与RBM优先级选举机制中的权重配置无关。
· 选举结果与工作模式影响
系统根据上述独立参数决出主备角色后,根据当前RBM工作模式执行相应动作:
¡ 主备或镜像模式:保持原有工作模式不变。MAD选举出的主设备继续作为主设备处理业务,被选举为备设备的停止转发业务流量(或丢弃报文),以消除双Active风险。
¡ 双主模式:工作模式强制切换为主备模式。MAD选举出的主设备继续处理业务,另一台设备转为备设备并隔离自身业务接口。
· 状态维持与同步限制
在此过程中,设备可通过MAD检测功能维持RBM状态,但RBM成员设备之间无法进行配置信息同步、业务表项同步和报文透传。
双机热备通过与VRRP和路由协议等模块联动,确保在主备切换时,设备的上下行流量能够同步、平滑地迁移至新的主设备,从而保障业务连续性。
当主设备发生故障并切换为备角色时,RBM执行以下联动操作以引导流量至新的主设备:
· RBM与VRRP联动:RBM将故障设备上的VRRP备份组状态都切为Backup状态,促使备设备提升为Master以接管网关流量。
· RBM与动态路由联动:RBM将故障设备上的路由开销值调大,诱导邻居设备撤销经由此设备的路由条目,并将流量收敛至其他可用路径。
· RBM与静态路由联动:在存在多条路由路径的场景下,RBM自动删除或失效故障设备上的关键静态路由,利用路由表项的变化引导流量转向健康的备用路径。
· RBM与虚拟地址联动:RBM协调虚拟IP和MAC地址在主备设备间进行漂移,并通过发送免费ARP更新下游交换机的MAC地址表,实现业务IP的无感知切换。
· RBM与监控VLAN/接口联动:RBM通过监控VLAN成员端口或指定接口的状态,实现设备上、下行链路状态的绑定。当监控对象故障时,同步标记设备上下行不可用,从而触发主备切换,防止出现上行通、下行断的“路由黑洞”现象,确保业务连通性。
尽管上述联动机制能有效实现故障时的流量自动切换,但双机热备系统仍依赖于硬件和软件的长期稳定运行。建议管理员在收到故障告警后,及时排查并修复故障设备,以维持双机热备的高可用性和可靠性。
在双机热备与VRRP联动的组网环境中,双机热备将会控制设备在多个VRRP备份组中Master和Backup状态的统一切换。此功能可以使设备的上下行流量同时切换到新的主设备,保证业务不中断。
此处以主备模式为例,介绍双机热备与VRRP的联动组网情况,具体如下。
· 如图2-12左图所示,当VRRP链路故障时会导致上、下行VRRP备份组中的Master设备不是同一台设备,造成流量中断。
· 如图2-12右图所示,将双机热备和VRRP关联后可以解决以上问题。RBM控制通道建立后,VRRP备份组内的设备状态将由双机热备决定,VRRP自身的主备选择机制不再生效。当双机热备的控制通道断开后,VRRP自身的主备选择机制将会重新生效。
VRRP active组和VRRP standby组:用于将双机热备与VRRP进行关联,实现双机热备对多个VRRP备份组状态进行统一管理的目的。
VRRP active/standby组分别有两种状态:Master状态和Backup状态。VRRP成员设备在VRRP备份组中的状态与所属VRRP active/standby组的状态保持一致。例如,VRRP active备份组的状态是Master,则该组中所有设备在VRRP备份组中的状态均为Master。
VRRP active/standby组的初始状态与双机热备的工作模式有关,具体如下:
· 主备模式下:主管理设备上VRRP active组和VRRP standby组的初始状态均为Master;从管理设备上VRRP active组和VRRP standby组的初始状态均为Backup。
· 双主模式下:VRRP active/standby组的状态与主、从管理角色无关,VRRP active组的初始状态为Master;VRRP standby组的初始状态为Backup。
如图2-12的右图所示,将双机热备与VRRP关联成功后,VRRP备份组中Master/Backup状态的变化机制如下:
(1) 正常情况下,Device A(假设其是主管理设备)上VRRP active组的状态是Master,所以Device A在VRRP备份组1和VRRP备份组2中的状态是Master设备。Device B(假设其是从管理设备)上VRRP standby组的状态是Backup,所以Device B在VRRP备份组1和VRRP备份组2中的状态是Backup设备。
(2) 当Device A的下行接口Interface A2故障后,双机热备会收到接口故障事件。然后双机热备发送VRRP active/standby组状态信息变更报文给Device B,通知Device B将其VRRP standby组的状态变更为Master。
(3) Device B收到VRRP active/standby组状态信息变更报文后,会将自身VRRP standby组的状态变更为Master,同时将Device B在VRRP备份组1和VRRP备份组2中的状态变为Master设备。变更完成后给Device A发送应答报文。
(4) Device A收到Device B的VRRP standby组状态变更成功应答报文后,将自己VRRP active组的状态变更为Backup,同时将Device A在VRRP备份组1和VRRP备份组2中的状态变更为Backup。
当Device A的下行接口Interface A2故障恢复后,流量会进行回切。VRRP备份组中Master/Backup状态的变化与接口故障时的变化过程类似,不再重复介绍。
当VRRP备份组中的设备接收到虚拟IP地址的ARP请求报文后,只能由Master设备使用VRRP备份组的虚拟MAC地址响应此ARP请求,与此同时ARP报文传输路径上的二层设备也就学习到了此虚拟MAC地址的MAC地址表项。
在云计算环境中,多租户架构通常需要为每个租户分配独立的网络地址空间。传统RBM与VRRP联动的高可用方案中,每个VRRP备份组需要占用三个IP地址(包括两个物理接口IP地址和一个虚拟IP地址)。当租户规模不断扩大时,IP地址资源容易出现紧张甚至耗尽的问题。
为解决上述问题,可采用RBM联动虚拟IP地址方案。该方案在两台设备的同编号业务接口上配置相同的虚拟IP地址(即浮动IP地址),系统会自动为该接口分配统一的虚拟MAC地址,并由RBM统一管理和控制接口的激活状态,从而实现高可用切换。相比传统方案,RBM联动虚拟IP地址不仅能够显著减少IP地址消耗,还可以提升故障切换效率。
在该组网环境中,网关的虚拟IP和MAC地址在主备切换前后保持不变。当发生主备切换时,新主设备会立即发送免费ARP报文,通告虚拟IP和MAC地址的归属变化。下游二层交换机收到该报文后,由于学习到相同的虚拟MAC地址来自不同的端口,会自动更新其MAC地址表项,将对应端口的映射关系指向新的主设备,这一过程称为MAC迁移。通过这种方式,网络中的三层设备无需更新路由表,二层交换机也只需完成MAC地址表项的更新,即可实现业务流量的无感知平滑切换。
需要注意的是,此场景下RBM必须配置关联的Track监控项。否则,当上下行链路或接口故障时,RBM无法触发主备切换,从而导致业务中断。
此外,RBM联动虚拟IP地址仅支持主备模式,不支持镜像模式和双主模式。
以下以主备模式为例,介绍内网访问外网时的报文处理流程及故障切换机制。
· 正常工作场景(如图2-13所示):
在正常工作状态下,业务主设备(Device A)激活业务接口上的虚拟IP地址和虚拟MAC地址。内网主机通过ARP请求获取网关MAC地址时,仅由Device A响应。此时,内外网之间的流量均经由Device A转发,Device B处于待命状态,不响应ARP请求,也不处理业务流量。
· 故障切换场景(如图2-14所示):
当RBM监控到Device A的上下行接口或链路故障时,将触发主备切换。Device B作为新的主设备会立即接管相同的虚拟IP地址和虚拟MAC地址,并主动发送免费ARP报文来通告这一变化。下游交换机随之更新MAC地址表,将流量引导至Device B,从而保障业务连续性。
图2-13 双机热备+虚拟IP地址示意图(正常工作场景)
图2-14 双机热备+虚拟IP地址示意图(故障切换场景)
如图2-15所示,RBM联动虚拟IP地址后,内网访问外网的报文处理流程如下:
(1) 当内网Host访问外网时,首先广播ARP请求,查询网关虚拟IP地址(如10.1.1.1)对应的MAC地址。
(2) 当Device A和Device B接收到此ARP请求后,只有业务主设备(Device A)使用业务接口的虚拟MAC地址响应此ARP请求。
(3) 在此ARP学习过程中,中间的交换机Switch B学习到该虚拟MAC地址与连接Device A的端口之间的映射关系,并更新MAC地址表。
(4) Host收到业务主设备(Device A)响应的ARP报文后,会以学习到的此虚拟MAC地址封装报文,将报文送到Device A,从而保证业务的正常运行。
(5) 当Device A的上下行接口或链路发生故障时,RBM通过关联的Track项检测到故障,立即触发主备切换,将业务主角色切换至Device B。
(6) Device B切换为主设备后,激活其业务接口上的虚拟IP地址(10.1.1.1)和对应的虚拟MAC地址,并立即发送免费ARP报文,开始响应ARP请求并处理业务流量。
(7) 交换机Switch B收到来自Device B的免费ARP报文后,会更新MAC地址表,将虚拟MAC地址对应的端口指向连接Device B的链路,完成MAC迁移。
(8) 此后,Host发出的业务报文虽然目的MAC地址未变(因为虚拟IP/MAC地址没变),但实际转发路径已切换至Device B。Device B接收报文并进行处理,实现业务流量的无缝迁移。
(9) 对于来自外网的响应报文,由于虚拟IP和MAC地址保持不变,网络中的三层设备(如核心交换机或路由器)仍会将报文发往同一虚拟地址,此时将由Device B接收并处理,保证双向流量的连续性。
(10) 来自外网的响应报文在整个网络中的处理过程与上述相同,此处不再赘述。
图2-15 双机热备联动虚拟IP地址报文处理流程
在双机热备与静态路由联动的组网环境中,需要配置双机热备监控接口将接口状态与静态路由联动。这样即可保证主备切换时能使设备的上下行流量同时切换到新的主设备,保证业务不中断。
此组网环境中双机热备必须配置监控接口,否则上下行链路或接口故障时,双机热备不能主备切换。
此处以主备模式为例,介绍双机热备与静态路由的联动情况,具体如下。
· 如图2-16左图所示,正常情况下,上下行设备根据配置的浮动静态路由(即为同一目的地配置多条路由,且通往主设备的路由优先级需要高于备设备)的配置信息进行流量转发。这样可以使内外网之间的流量都走Device A(主设备)转发。
· 如图2-16右图所示,当双机热备的监控接口功能检测到Device A的下行接口Interface A2故障后,Device A和Device B将进行主备切换。Device A同时也会将上行接口Interface A1关闭,这样可以使Router A和Router B上原来优先级高的静态路由信息失效,优先级低的静态路由信息生效。最后使内外网之间的流量都切换到Device B转发。
图2-16 双机热备+静态路由示意图
在双机热备联动静态路由的双主组网中,需要设备上配置等价的静态路由,实现流量的负载分担。
在双机热备与动态路由联动的组网环境中,双机热备将会调高备设备上动态路由协议对外通告的链路开销值,保证网络中动态路由选举时备设备的链路不是最优链路。这样也可保证主备切换时能使设备的上下行流量同时切换到新的主设备,保证业务不中断。
此组网环境中双机热备必须关联Track项,否则上下行链路或接口故障时,双机热备不能主备切换。
此处以双机热备与OSPF联动的主备模式为例,介绍双机热备与动态路由的联动情况,具体如下。
· 如图2-17左图所示,正常情况下,Device A(主设备)根据OSPF的配置正常通告链路开销值(如1),而Device B(备设备)通告的链路开销值是被双机热备调整后的值(如65500)。这样可以使内外网之间的流量都走Device A转发。
· 如图2-17右图所示,当双机热备关联的Track项检测到Device A的下行接口Interface A2故障后,Device A和Device B将进行主备切换。之后,Device B(主设备)根据OSPF的配置正常通告链路开销值(如1),而Device A(备设备)通告的链路开销值是被双机热备调高后的值(如65500)。这样可以使内外网之间的流量都切换到Device B转发。
图2-17 双机热备+动态路由示意图
双机热备调整备设备上动态路由协议开销值有如下几种方式:
· 绝对值方式:设备将使用配置的绝对值对外通告。
· 增量值方式:设备将在原有开销值基础上累加增量值后对外通告。
此功能仅调整备设备上动态路由协议对外通告的开销值,对主设备没有影响。
在RBM透明组网环境中,可通过配置监控VLAN(track vlan)或监控接口(track interface)功能,实现设备上、下行接口状态的联动。该功能确保所监控对象(VLAN成员端口或指定接口)的状态相互绑定,保证设备的上、下行流量同时具备或同时不具备报文转发能力。
当任一被监控接口发生故障时,RBM会将监控对象的总体状态置为Inactive,从而关闭所有相关端口的转发能力。这一机制能有效防止因单侧链路故障导致的二层环路或流量黑洞,并触发上游设备将流量切换至对端健康设备,保障业务连续性。
需要注意,监控VLAN和监控接口功能互斥,不可在同一设备上同时配置。另外,为确保双机热备状态切换机制正常生效,必须在两台设备上同时配置相同的监控对象(相同的VLAN ID或相同的接口)。
RBM通过监控特定VLAN或接口的物理链路状态,动态控制这些端口的转发权限:
· 监控VLAN机制:RBM监控指定VLAN内所有成员端口的物理链路状态。只有当该VLAN中所有成员端口状态均为UP时,RBM才将该VLAN标记为Active状态,允许所有成员端口转发报文;若有任何一个成员端口状态为Down,则VLAN状态变为Inactive,RBM立即将该VLAN标记为Inactive,禁止该VLAN在所有成员端口(包括正常端口)上转发报文。
需要注意:请勿使用VLAN 1进行监控,因为VLAN 1默认包含所有端口,未使用的端口Down会导致整个VLAN失效,进而中断正常业务。
· 监控接口机制:RBM直接监控指定的以太网接口状态。所有被监控接口的状态必须同时为UP,这些接口才能转发报文;只要有一个被监控接口状态为Down,所有被监控接口均停止转发报文。
RBM根据当前工作模式,对监控对象(VLAN或接口)的状态进行差异化控制,以确保网络拓扑的安全性与业务的连续性:
· 主备模式(Active-Standby):
¡ 主设备:监控对象状态为Active。允许该VLAN或接口转发业务流量。
¡ 备设备:监控对象状态强制为Inactive。禁止该VLAN或接口转发任何业务流量。
¡ 作用:通过强制关闭备设备的转发能力,彻底消除二层环路风险,并确保所有流量仅由主设备处理。
· 双主模式(Active-Active):
¡ 正常运行时:两台设备上监控对象的状态均为Active,均允许转发业务流量,实现负载分担。
¡ 故障切换时:当其中一台设备发生故障,另一台设备提升为唯一的业务主设备。其监控对象状态保持 Active,继续承担全部流量;故障设备的监控对象状态变为Inactive,停止转发流量。
根据组网需求与工作模式,推荐以下配置组合:
· 透明主备场景:通常配合监控VLAN使用,无需开启生成树协议即可防环;若使用监控接口,则需确保上游/下游交换机已开启STP以辅助防环。
· 透明双主场景:通常配合监控接口使用,并通过OSPF等动态路由协议,由上下行的三层设备计算多条路径,实现流量的负载分担。
以下以双机热备透明组网+主备模式下的监控VLAN功能为例,介绍流量切换过程。
· 正常工作场景,如1. 左图所示,Device A(主设备)上双机热备将监控的VLAN10设置为Active状态,允许转发流量;Device B(备设备)上双机热备将监控的VLAN10设置为Inactive状态,禁止转发流量。此时,内外网之间的流量全部经由Device A转发。
· 故障切换场景,如1. 右图所示,当Device A的下行接口Port A2故障时,双机热备触发主备切换。Device B提升为主设备,将其监控的VLAN10设置为Active状态,开始转发流量;原主设备Device A转为备设备,将其监控的VLAN10设置为Inactive状态,停止转发流量。此时,内外网之间的流量切换至Device B转发。
图2-18 双机热备+VLAN透明组网示意图
如图2-19所示,在双机热备联动路由的双主部署方式中,可能会出现非对称流量,即同一条流量的请求报文和响应报文会被转发到双机热备的不同设备(Device A和Device B)。
在以上非对称流量网络环境中,为了保证用户业务的正常处理,针对不同业务模块双机热备使用不同的处理机制,具体如下:
· 对于不需要对报文进行四层以上内容处理的模块(如安全策略、NAT等),双机热备通过实时备份会话表项到对端设备,就可以保证响应报文在对端设备上被正确处理。
· 对于需要对报文进行四层以上内容处理的模块(如IPS、NBAR等DPI类业务),双机热备在实时备份会话的同时,也将请求报文的相关信息同步到对端设备,这样就可以保证响应报文在对端设备上被正确处理。
当双机热备组网中的主设备切换为备设备时,流量自动切换到对端设备进行处理。缺省情况下,当原主设备恢复正常后,流量不回切。这时如果需要流量再次回到原主设备进行处理,可以开启双机热备流量回切功能。开启此功能后,设备将会在配置信息和业务表项同步完成后,启动延迟回切时间定时器,等延迟时间到达后,再进行流量回切。
实际应用中需要根据网络规模的大小配置合理的延迟回切时间,保证路由收敛完成后再进行流量切换,保证业务的平滑切回。
在双机热备的双主模式下,必须开启双机热备流量回切功能,否则当设备故障又恢复后,流量无法实现回切,这时不能实现两台设备双主工作。
在双机热备的主备模式下,如果有一台设备为长期主用的设备,可以开启双机热备流量回切功能,当该设备故障又恢复后,其将继续作为主设备处理业务。
在双机热备+VRRP的组网环境中,当需要在设备上使用NAT功能时,必须将NAT相关配置与VRRP备份组进行绑定,否则NAT无法正常工作。例如使用动态NAT、内部服务器NAT、端口块NAT和静态NAT时,必须将这些NAT方式与VRRP备份组绑定。
本节内容仅以双机热备+VRRP的主备模式中的动态NAT为例,其他方式的NAT以及双机热备双主模式中的NAT与此类似。
缺省情况下,若NAT设备接收到的ARP报文请求的目标IP地址与NAT接口的IP地址在同一网段,则NAT设备使用NAT接口的物理MAC地址应答此ARP请求报文。
如图2-20所示,在双机热备组网环境中配置动态NAT功能后,NAT与VRRP备份组没有绑定的情况下,内网访问外网的报文的处理流程如下:
(1) 当内网访问外网的报文到达Device A后,报文的源IP地址会被转换成NAT地址组中的IP地址,然后报文被Device A转发给Router。
(2) 若NAT地址组中的IP地址与Device A的上行接口VRRP备份组1的虚拟IP地址在同一网段,则外网返回的报文到达Router后,Router会广播ARP报文请求NAT地址组中IP地址对应的MAC地址。
(3) 当Device A和Device B接收到此ARP请求报文后,因为两台Device上有相同的NAT地址组配置,所以两台Device都会将自身上行接口的物理MAC地址应答给Router。
(4) 在这种情况下,Router会随机使用Device A或Device B上行接口的MAC地址来封装报文,从而影响业务的正常运行。
在双机热备网络环境中,为了解决上述NAT部署的问题,必须将NAT与VRRP备份组绑定。
图2-20 NAT未绑定VRRP备份组示意图
将NAT与VRRP备份组绑定后,若NAT设备接收到的ARP报文请求的目标IP地址与NAT接口的IP地址在同一网段,则只能由VRRP备份组中Master设备使用VRRP备份组的虚拟MAC地址响应此ARP请求。
如图2-21所示,在双机热备组网环境中配置动态NAT功能后,NAT与VRRP备份组绑定的情况下,内网访问外网的报文的处理流程如下:
(1) 当内网访问外网的报文到达Device A后,报文的源IP地址会被转换成NAT地址组中的IP地址,然后报文被Device A转发给Router。
(2) 若NAT地址组中的IP地址与Device A的上行接口VRRP备份组1的虚拟IP地址在同一网段,则外网返回的报文到达Router后,Router会广播ARP报文请求NAT地址组中IP地址对应的MAC地址。
(3) 当Device A和Device B接收到此ARP请求报文后,只有VRRP备份组中Master设备(Device A)使用VRRP备份组1的虚拟MAC地址响应此ARP请求给Router。
(4) 在这种情况下,Router只会收到Master设备(Device A)响应的ARP报文,Router就会以VRRP备份组1的虚拟MAC地址来封装报文,将报文送到Device A,从而可以保证业务的正常运行。
图2-21 NAT绑定VRRP备份组示意图
在双机热备组网环境中,SSL VPN的用户数据、表项信息和配置信息通过RBM通道进行备份。
SSL VPN功能仅支持在双机热备+VRRP方式的主备模式下进行高可靠性部署,不支持在HA的其他模式下进行可靠性部署。
在双机热备双主部署场景下的非对称路径中,需要使用DPI业务时,必须开启DPI支持双机热备功能。否则,可能会出现DPI业务无法准确识别和处理报文的问题。
双机热备技术能够满足多Context环境的高可靠性部署需求。仅需要在缺省Context中配置双机热备功能即可完成所有非缺省Context的高可靠性部署,无需在非缺省Context中重复配置双机热备功能。
所有非缺省Context统一使用缺省Context创建的RBM通道进行配置信息备份、业务表项信息备份和透传业务报文,保证各自非缺省Context中主备设备上配置信息和业务表项信息的一致。
所有非缺省Context统一使用缺省Context的检测机制进行主备设备保活性检测和配置信息一致性检测。当任意Context中设备的主备运行角色发生切换时,其他所有Context中设备的主备运行角色也都会进行切换。
双机热备技术能够满足多vSystem环境的高可靠性部署需求。仅需要在缺省vSystem中配置双机热备功能即可完成所有非缺省vSystem的高可靠性部署,无需在非缺省vSystem中重复配置双机热备功能。
所有非缺省vSystem统一使用缺省vSystem创建的RBM通道进行配置信息备份、业务表项信息备份和透传业务报文,保证各自非缺省vSystem中主备设备上配置信息和业务表项信息的一致。
所有非缺省vSystem统一使用缺省vSystem的检测机制进行主备设备保活性检测和配置信息一致性检测。当任意vSystem中设备的主备运行角色发生切换时,其他所有vSystem中设备的主备运行角色也都会进行切换。
双机热备仅支持两台硬件和软件环境完全一样的设备进行双机热备组网。
因为一台设备故障时另一台设备需要承担两台设备的流量,所以建议在正常情况下每台设备只负载各自实际能力50%的流量。
双机热备支持如下几种部署方式:
· 三层主备直路部署
· 三层双主直路部署
· 透明主备直路部署
· 透明双主直路部署
如图2-22所示,双机热备三层主备直路部署方式的适用场景为:Device A与Device B串联部署在上下行设备之间,Device的上、下行业务接口均为三层接口,所有业务流量都必须经过Device。正常情况下只有一台设备处理业务流量,当主设备或链路故障时,可以将业务流量平滑迁移到备设备处理。
仅以双机热备与VRRP联动的方案为例,介绍此种双机热备部署方式的部署思路,具体如下:
· 两台Device上下行分别连接二层交换机,Device的上下行接口工作在三层模式。
· 两台Device之间建立一条RBM通道。
· 两台Device上下行分别配置一个VRRP备份组,并与双机热备关联。Device A上下行业务接口的VRRP备份组1和2加入Active group;Device B上下行业务接口的VRRP备份组1和2加入Standby group。
· 两台Device上需要将去往Internet路由的下一跳指定为Router连接Device的接口IP地址(此示例中为2.1.1.15)。
· Router上需要将去往Host网段路由的下一跳指定为VRRP备份组1的虚拟IP地址(此示例中为2.1.1.3)。
· Host上需要设置默认网关IP地址为VRRP备份组2的虚拟IP地址(此示例中为10.1.1.3)。
· Switch A需要将连接Device和Router的接口加入相同的VLAN。
· Switch B需要将连接Device和Host的接口加入相同的VLAN。
如图2-23所示,双机热备三层双主直路部署方式的适用场景为:Device A与Device B串联部署在上下行设备之间,Device的上、下行业务接口均为三层接口,所有业务流量都必须经过Device。正常情况下两台设备都处理业务流量,当其中一台设备或链路故障时,业务流量可平滑迁移到另一设备处理。
仅以双机热备与VRRP联动的方案为例,介绍此种双机热备部署方式的部署思路,具体如下:
· 两台Device上下行分别接入二层交换机,Device的上下行接口工作在三层模式。
· 两台Device之间建立一条RBM通道。
· 两台Device上下行分别配置两个VRRP备份组,并与双机热备关联,具体如下:
¡ Device A上下行业务接口的VRRP备份组1和3加入Active group;Device A上下行业务接口的VRRP备份组2和4加入Standby group。
¡ Device B上下行业务接口的VRRP备份组1和3加入Standby group;Device B上下行业务接口的VRRP备份组2和4加入Active group。
· 两台Device上需要将去往Internet路由的下一跳指定为Router连接Device的接口IP地址(此示例中为2.1.1.15)。
· Router上需要将去往Host A路由的下一跳指定为VRRP备份组1的虚拟IP地址(此示例中为2.1.1.3)。
· Router上需要将去往Host B路由的下一跳指定为VRRP备份组2的虚拟IP地址(此示例中为2.1.1.4)。
· Host A上需要设置默认网关IP地址为VRRP备份组3的虚拟IP地址(此示例中为10.1.1.3)。
· Host B上需要设置默认网关IP地址为VRRP备份组4的虚拟IP地址(此示例中为10.1.1.4)。
· Switch A需要将连接Device和Router的接口加入相同的VLAN。
· Switch B需要将连接Device和Host的接口加入相同的VLAN。
设备作为二层设备,上下行连接二层交换机的组网方式仅支持主备组网,不支持双主组网,否则二层网络中会出现网络环路。
如图2-24所示,双机热备二层主备直路部署方式的适用场景为:Device A与Device B作为二层设备串联部署在上下行二层网络之间,Device的上、下行业务接口均为二层接口,所有业务流量都必须经过Device。正常情况下只有一台设备处理业务流量,当主设备或链路故障时,业务流量可平滑迁移到备设备处理。
此种双机热备部署方式的部署思路如下:
· 两台Device上下行分别连接二层交换机,Device的上下行接口工作在二层模式。
· 两台Device上下行接口加入相同VLAN。
· 两台Device之间建立一条RBM通道。
· 配置双机热备监控功能,保证Device上下行接口状态统一切换。以下双机热备监控功能仅能二选其一。
¡ 配置双机热备监控VLAN状态:此种方式下只需要将Device配置为双机热备主备工作模式即可,Device的上下行二层交换机无需开启生成树协议,双机热备可以保证无环路。
¡ 配置双机热备监控上下行接口状态:此种方式下Device的上下行二层交换机上必须开启生成树协议保证无环路。
· Switch A需要将连接Device和Router的接口加入相同的VLAN。
· Switch B需要将连接Device和Host的接口加入相同的VLAN。
如图2-25所示,双机热备二层双主直路部署方式的适用场景为:Device A与Device B作为二层设备串联部署在上下行三层网络之间,Device的上、下行业务接口均为二层接口,所有业务流量都必须经过Device。正常情况下两台设备都处理业务流量,当其中一台设备或链路故障时,业务流量可平滑迁移到另一设备处理。
此种双机热备部署方式的部署思路如下:
· 两台Device上下行分别连接三层网络设备,Device的上下行接口工作在二层模式。
· 两台Device上下行接口加入相同VLAN。
· 两台Device之间建立一条RBM通道。
· 配置双机热备监控接口状态功能,保证Device上下行接口状态统一切换。
· 上、下行连接的Router上通过配置开销值相同的OSPF协议实现流量的负载分担,并配置等价路由基于报文逐流进行负载分担,以保证报文传输路径的稳定性。
双机热备的组网场景对工作模式的支持及配置要求因拓扑而异。下表总结了典型部署场景下的模式支持范围、推荐配置及组网限制。
表2-3 不同部署方式下支持的双机热备工作模式
|
组网场景描述 |
支持的工作模式 |
关键配置要求与注意事项 |
|
三层互联 业务接口工作在三层,上下行连接路由器三层接口 |
· 主备模式 · 双主模式 |
· 动态路由场景: 需要配置RBM调整动态路由协议开销值功能(即adjust-cost enable命令)以调整路由开销,确保选路正确 配置RBM与Track项联动,监控上下行三层接口状态 · 静态路由场景: 使用track interface监控上下行三层以太网接口状态并联动 |
|
三层接二层 业务接口工作在三层,上下行连接二层交换机 |
· 主备模式 · 镜像模式 · 双主模式 |
· 主备模式: 需配置RBM联动VRRP功能或联动虚拟地址功能 若采用RBM联动虚拟地址,还需通过Track项监控上下行三层以太网接口状态并联动;同时,建议配置MAD检测功能,防止控制通道断开后两台设备双Active地址冲突 · 双主模式: 需配置RBM联动VRRP功能 · 镜像模式: 建议配置MAD检测功能,防止控制通道断开后两台设备双Active地址冲突 |
|
二层接三层 业务接口工作在二层,上下行连接路由器三层接口(透明传输) |
· 主备模式 · 双主模式 |
必须配置RBM的track interface功能 监控上下行二层以太网接口状态,并将接口状态与RBM联动,实现上下行状态同步 |
|
二层接二层 业务接口工作在二层,上下行连接二层交换机(透明传输) |
仅支持主备模式 |
必须配置RBM的track vlan功能 监控上下行接口的VLAN成员状态,并将VLAN状态与RBM联动,以防止二层环路 |
如图3-1所示,某公司以Device作为网络边界安全防护设备,连接公司内部网络和Internet。为提高业务稳定性,使用两台Device进行双机热备组网,Device A作为主设备,Device B作为备设备。当Device A或其链路发生故障时,由Device B接替Device A继续工作,保证业务不中断。
图3-1 双机热备联动VRRP三层主备组网图
如图3-2所示,某公司以Device作为网络边界安全防护设备,连接公司内部网络和Internet。为提高业务稳定性,使用两台Device进行双机热备组网,同时需要两台Device同时处理业务,提高业务处理能力。当Device A或其链路发生故障时,Device B可以接替Device A继续工作,保证业务不中断。
图3-2 双机热备联动VRRP三层双主组网图
如图1-37所示,某公司以Device作为网络边界安全防护设备,连接公司内部网络和Internet。为提高业务稳定性,使用两台Device进行RBM组网,Device A作为主设备,Device B作为备设备。在两台Device的相同编号的业务接口上配置相同的虚拟IP地址(也叫浮动IP地址)后,这些业务接口上的虚拟地址将与RBM进行关联,并受RBM的统一管理和控制。为避免双机热备通道中断后两台Device同时对外提供服务而引发地址冲突,需要使用MAD检测线路进行冲突检测与保护。同时需要配置双机热备关联Track项,当Device A或其链路发生故障时,由Device B接替Device A继续工作,保证业务不中断。
图3-3 双机热备联动虚拟地址三层主备组网图
如图3-4所示,某公司以Device作为网络边界安全防护设备,连接公司内部网络和Internet。Device的上、下行业务接口均为三层接口,上下行连接路由器,Device与路由器之间运行OSPF协议。为提高业务稳定性,使用两台Device进行双机热备组网,Device A作为主设备,Device B作为备设备。同时需要配置双机热备关联Track项,当Device A或其链路发生故障时,由Device B接替Device A继续工作,保证业务不中断。
如图3-5所示,某公司以Device作为网络边界安全防护设备,连接公司内部网络和Internet。Device的上、下行业务接口均为三层接口,上下行连接路由器,Device与路由器之间运行OSPF协议。为提高业务稳定性,使用两台Device进行双机热备组网,同时需要两台Device同时处理业务,提高业务处理能力。同时需要配置双机热备关联Track项,当Device A或其链路发生故障时,Device B可以接替Device A继续工作,保证业务不中断。
如图3-6所示,某公司以Device作为网络边界安全防护设备,连接公司内部网络和Internet,Device的上、下行业务接口均为二层接口。为提高业务稳定性,使用两台Device进行双机热备组网,Device A作为主设备,Device B作为备设备。同时需要配置双机热备监控VLAN状态,当Device A或其链路发生故障时,由Device B接替Device A继续工作,保证业务不中断。
如图3-7所示,某公司以Device作为网络边界安全防护设备,连接公司内部网络和Internet,Device的上、下行业务接口均为二层接口。为提高业务稳定性,使用两台Device进行双机热备组网,同时需要两台Device同时处理业务,提高业务处理能力。同时需要配置双机热备监控VLAN状态,当Device A或其链路发生故障时,Device B可以接替Device A继续工作,保证业务不中断。
如图3-8所示,某公司以Device作为网络边界安全防护设备,连接公司内部网络和Internet。为提高业务稳定性,两台Device工作在镜像模式,此时两台Device上相同编号的业务接口IP地址相同,Device A作为主设备,Device B作为备设备。为避免双机热备通道中断后两台Device同时对外提供服务而引发地址冲突,需要使用MAD检测线路进行冲突检测与保护。同时需要配置双机热备关联Track项,当Device A或其链路发生故障时,由Device B接替Device A继续工作,保证业务不中断。
