手册下载
vBRAS-CP异地灾备技术白皮书-6W100-整本手册.pdf (409.95 KB)
vBRAS-CP异地灾备技术白皮书
Copyright © 2021 新华三技术有限公司 版权所有,保留一切权利。
非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。
除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。
本文中的内容为通用性技术信息,某些信息可能不适用于您所购买的产品。
面对地震、火灾等不可抗力,本地数据备份无法保证备份数据不丢失,无法满足运营商对业务系统的可用性、实时性、安全性的需要。为了应对地震、火灾等不可抗力导致备份数据丢失的情况,减少企业损失,业界提出了异地灾备的技术理念。
vBRAS-CP(简称CP)异地灾备是一种应用在vBRAS转发与控制分离组网中的异地灾备技术。它通过在两个位于不同地址位置的DC(Data Center,数据中心)中的CP之间进行双机备份来实现异地灾备,从而达到当一个DC发生灾难时,由另一个DC快速接管用户业务的目的。
图1 vBRAS-CP异地灾备功能示意图
当本地容灾备份中心网络出现故障时,异地容灾备份中心可快速接管用户业务:
· 对于用户:用户感知不到网络故障,提升了用户的上网体验。
· 对于运营商:提高了运营商的抗风险能力,网络可靠性显著增强。
· 灾备组:一组UP的集合。CP通过灾备组实现对一组UP的统一管理。不同CP上的灾备组形成主备关系,一个为主灾备组,另外一个为备灾备组。
· 灾备组的组ID:灾备组编号。同一CP上的每个灾备组都有唯一的编号。互为主备的两个灾备组的组ID相同,通过组ID实现一一对应关系。
· 灾备组的优先级:用于灾备组主备角色选举,优先级高的为主灾备组。
· 灾备组的主备角色,包括下几种角色类型:
¡ 配置角色(Configured role):通过命令行为CP灾备组配置的角色,在配置不变的情况下,配置的主备角色是固定的。
¡ 协商角色(Negotiated role):CP灾备组根据配置按一定的规则协商出的主备角色,在配置不变的情况下,协商出来的主备角色是固定的。
¡ 运行角色(Running role):CP灾备组实际生效的主备角色。初始的Running role来源分为如下几种:
- 在心跳通道正常建立的情况下,初始的Running role以Negotiated role为准。
- 在配置了CP容灾通道后,如因网络不通或容灾通道使用的IP地址配置错误等原因导致心跳通道未曾建立,这种情况下两端CP灾备组无法协商出主备角色,初始的Running role以Configured role为准。
Running role中的主备角色会随主备切换、CP间心跳通道断开和重建等事件而发生变化。如无特殊说明,本文中的主备角色,均指在Running role。
· 主备CP:CP按灾备组区分主备角色,主灾备组所在的CP是主CP,备灾备组所在的CP是备CP。只有主CP处理用户业务,备CP不处理业务
· 故障CU连接数:指灾备组中CUSP连接出现故障的UP个数。
· CU连接故障率:
¡ CU连接故障率=(故障CU连接数)÷(CP灾备组中总UP数)×100
· 容灾通道:两个互为主备的CP之间需要建立用于彼此间进行通信的容灾通道,以便感知对端UP的CU连接状态以及对端的主备角色。容灾通道包括一条心跳通道、多条数据备份通道和一条容灾保护通道,其中:
¡ 心跳通道:建立在两个CTRL-VM之间的TCP连接,作为CTRL-VM间配置协商、保活检测、CU连接状态以及灾备组运行数据同步等功能的通道。
¡ 数据备份通道:建立在两个BRAS-VM之间的TCP连接,作为用户数据和各业务模块数据备份的通道。
¡ 容灾保护隧道:建立在两个FWD-VM之间的GRE隧道,当备CP灾备组所在CP设备的FWD-VM收到目的IP为灾备组IP的用户业务报文后,将通过容灾保护通道将报文转发给主CP灾备组所在CP设备的FWD-VM,从而确保CP设备和RADIUS服务器、Web认证服务器等远端服务器之间的通信报文均由主CP灾备组所在CP设备来处理。
CP异地灾备的基本工作流程如下:
(1) 在互为主备关系的两个CP设备之间建立一条心跳通道和多条数据备份通道。
(2) 在两个CP上分别创建CP灾备组,将UP加入到CP灾备组,并指定CP灾备组的主备角色。
(3) UP通过CUSP通道分别和主备CP灾备组建立连接。
(4) 主备CP灾备组通过CUSP通道将自身的主备角色通知给UP。对CP灾备组下的UP而言,主CP灾备组所在的CP是主CP,备CP灾备组所在的CP是备CP。后续UP只与主CP进行协议和业务报文的交互。
(5) 用户报文通过UP上送到主CP后,由主CP对用户进行认证、授权等操作。
(6) 当主CP不可用或主CP与UP之间链路故障率满足一定条件时,备CP可快速接管用户业务,备CP根据备份模式决定使用备CP上的备份数据恢复用户业务,或者要求用户重新认证上线。备份模式的详细介绍,请参见“2.3 备份模式”。
图2 运行机制
CP异地灾备包括热备和冷备两种备份模式。
热备模式下,主备CP通过数据备份通道备份用户数据。当主备CP切换时,新的主CP根据本地备份的用户数据快速接管用户业务。主备CP切换后,用户保持在线。
图3 热备模式
冷备模式下,主备CP间不备份用户数据。主备CP切换后,用户需在新的主CP上重新上线。
图4 冷备模式
CP异地灾备包括1+1备份和1:1备份两种容灾应用模式。
1+1备份方式下,主备CP同时工作。实现过程为:在两个CP上分别创建两个CP灾备组,两个CP上的同名CP灾备组分别作为主和备CP灾备组,且二者管理的UP范围一致。不同CP灾备组在同一个CP上的主备状态不同。同一时间,不同的CP均只管理一部分UP业务,减轻了单点的业务压力,提高了设备利用率。目前支持1+1热备和1+1冷备,图5以1+1热备模式为例。
图5 1+1热备
1:1备份方式下,主CP工作,备CP备份。实现过程为:在两个互为主备的CP上分别创建一个CP灾备组,这两个CP灾备组管理的UP范围一致。当主CP灾备组所在CP发生切换时,备CP灾备组所在CP可以接管这些UP上的用户业务。目前支持1:1热备和1:1冷备,图6以1:1冷备模式为例。
图6 1:1冷备
正常情况下,当主CP的CU连接故障率阈值满足一定条件时,备CP会通知主CP自己要升级为主,主收到通知后降为备。当主备CP间心跳通道故障时,备CP无法通过心跳通道将自己升主的事件通知给对端,备升主后,对端也认为自己是主。当心跳故障恢复后,两端重连时会出现双主的情况。
为了避免出现双主的情况,CP异地灾备功能采用了优先级机制。初始情况下,两端CP灾备组使用的优先级均为1。后续,任何一端每发生一次备升主,本端记录的优先级数值递增1,并通过心跳通道将最新的优先级同步给对端,以确保心跳通道正常的情况下两端记录的优先级相同。同时,为避免UP误切换主用CP,UP侧也需要关心灾备组优先级。两端CP给UP下发自己的主备CP角色时,会携带本CP当前记录的灾备组优先级。UP收到CP的主备角色消息通知时,如果两端CP都是主CP角色,则UP继续比较两个CP的灾备组优先级,以优先级高的CP下发的主角色为准。
当CP间心跳通道断开并重建后,两端CP灾备组需要重新协商主备角色,具体协商规则如下:
· 如果两端CP灾备组的Running role均认为自己是主,则比较两端各自记录的优先级,优先级高(数值越大优先级越高)的选为主,另一端切换为备。如果两端CP灾备组的优先级相同,则以Negotiated role为准。
· 如果两端CP灾备组的Running role均认为自己是备,则以Negotiated role准。
CP异地灾备支持CP灾备组故障自动切换功能(即正切)和主CP灾备组故障恢复后自动回切功能(即回切)。正切/回切操作均由CP设备根据网络故障及恢复情况自动完成,无需管理员手工干预,减少了管理员的维护工作量。
在开启CP灾备组的故障自动切换功能的情况下,当主发生故障时,备可以自动升级为主,接管旧主的业务,保证用户业务的正常运行。
为避免网络震荡导致误切换,正切支持故障延迟切换,具体为:开启CP灾备组故障自动切换功能后,当同时满足下列条件时,备CP灾备组会启动延迟切换定时器,等到该定时器超时后,如果仍然同时满足下列条件,备CP灾备组将自动升级为主CP灾备组。
· 主CP灾备组上的CU连接故障率达到或超过主降备的CU连接故障率阈值。
· 备CP灾备组上的CU连接故障率比主CP灾备组上的CU连接故障率低。
在开启主CP灾备组故障恢复后自动回切功能的情况下,当原主故障恢复后,可以自动回切为主,重新接管用户业务。
为避免网络震荡导致误切换,回切支持故障恢复延迟回切,具体为:在开启主CP灾备组故障恢复后自动回切功能的情况下,主降为备后,当备的CU连接故障率降低到主CP灾备组故障恢复后自动回切的CU连接故障率阈值时,备会启动故障恢复回切延时定时器。当该定时器超时后,如果备的CU连接故障率仍低于或等于主故障恢复后自动回切的CU连接故障率阈值,备会向对端发送自动回切请求:
· 如果在15秒时间(固定时间,无法修改)内收到对端同意升主的应答,则本端启动备升主,对端开始主降备。
· 如果在15秒时间内收到对端拒绝升主的应答,则本端继续等待下一个故障恢复回切延时定时器超时,如果该定时器超时后仍满足自动回切条件,则本端再次向对端发起回切请求。
· 如果在15秒时间内未收到对端任何应答,则本端启动备升主。
· 因容灾主备CP互为备份,当主用CP故障后,用户业务切换到备用CP上,因此,对于用户业务相关的配置,主备CP设备必须保持一致。
· 在UP备份和CP异地容灾配合使用的组网中,必须把互为备份的UP加入同一个CP灾备组。
· 当CP容灾设备需要对用户进行RADIUS认证时,必须在灾备组中指定与RADIUS server通信的源地址,以保证CP容灾主备切换后,RADIUS server能用相同的目的地址继续与新的主用CP通信。
· 当CP容灾设备需要对用户进行Web认证时,必须在灾备组中指定与Portal server通信的源地址,以保证CP容灾主备切换后,Portal server能用相同的目的地址继续与新的主用CP通信。
如图7所示,在两个不同DC间的CP上配置异地灾备1+1热备功能,使用户能够在不同DC间实现CP的双机热备。同一时间,不同的CP均只管理一部分UP业务,减轻了单点的业务压力,提高了设备利用率。当主用CP或者链路出现故障时,能够快速将用户业务切换到备用CP,且用户不下线,保证用户业务不中断。
图7 CP异地灾备1+1热备组网图
如图8所示,在两个不同DC间的CP上配置异地灾备1:1冷备功能,使用户能够在不同DC间实现CP的双机冷备。当主用CP设备故障时,用户能够快速通过UP重新上线并将用户信息同步到备用CP上,以便备CP接管这些UP上的用户业务。
图8 CP异地灾备1:1冷备组网图
· 《中国移动基于转发和控制分离架构的vBRAS系统设备规范》
· 《中国移动基于转发和控制分离架构的vBRAS系统技术实现流程》
· 《中国移动基于转发和控制分离的vBRAS系统控制接口规范》