• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 新华三人才研学中心
  • 关于我们

vBRAS-CP异地灾备技术白皮书-6W100

手册下载

vBRAS-CP异地灾备技术白皮书-6W100-整本手册.pdf  (409.95 KB)

  • 发布时间:2021/8/9 14:09:30
  • 浏览量:
  • 下载量:

vBRAS-CP异地灾备技术白皮书

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Copyright © 2021 新华三技术有限公司 版权所有,保留一切权利。

非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。

除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。

本文中的内容为通用性技术信息,某些信息可能不适用于您所购买的产品。



概述

1.1  产生背景

面对地震、火灾等不可抗力,本地数据备份无法保证备份数据不丢失,无法满足运营商对业务系统的可用性、实时性、安全性的需要。为了应对地震、火灾等不可抗力导致备份数据丢失的情况,减少企业损失,业界提出了异地灾备的技术理念。

vBRAS-CP(简称CP)异地灾备是一种应用在vBRAS转发与控制分离组网中的异地灾备技术。它通过在两个位于不同地址位置的DCData Center,数据中心)中的CP之间进行双机备份来实现异地灾备,从而达到当一个DC发生灾难时,由另一个DC快速接管用户业务的目的。

图1 vBRAS-CP异地灾备功能示意图

 

1.2  技术优点

当本地容灾备份中心网络出现故障时,异地容灾备份中心可快速接管用户业务:

·     对于用户:用户感知不到网络故障,提升了用户的上网体验。

·     对于运营商:提高了运营商的抗风险能力,网络可靠性显著增强。

vBRAS-CP异地灾备技术实现

2.1  概念介绍

·     灾备组:一组UP的集合。CP通过灾备组实现对一组UP的统一管理。不同CP上的灾备组形成主备关系,一个为主灾备组,另外一个为备灾备组。

·     灾备组的组ID:灾备组编号。同一CP上的每个灾备组都有唯一的编号。互为主备的两个灾备组的组ID相同,通过组ID实现一一对应关系。

·     灾备组的优先级:用于灾备组主备角色选举,优先级高的为主灾备组。

·     灾备组的主备角色,包括下几种角色类型:

¡     配置角色(Configured role通过命令行为CP灾备组配置角色,在配置不变的情况下,配置的主备角色是固定的。

¡     协商角色(Negotiated roleCP灾备组根据配置按一定的规则协商出的主备角色,在配置不变的情况下,协商出来的主备角色是固定的。

¡     运行角色(Running roleCP灾备组实际生效的主备角色。初始的Running role来源分为如下几种:

-     在心跳通道正常建立的情况下,初始的Running roleNegotiated role为准。

-     在配置了CP容灾通道后如因网络不通或容灾通道使用的IP地址配置错误等原因导致心跳通道未建立,这种情况下两端CP灾备组无法协商出主备角色,初始的Running roleConfigured role为准。

Running role中的主备角色会随主备切换、CP间心跳通道断开重建等事件而发生变化。如无特殊说明,本文中的主备角色,均指在Running role

·     主备CPCP按灾备组区分主备角色,主灾备组所在的CP是主CP,备灾备组所在的CP是备CP。只有主CP处理用户业务,备CP不处理业务

·     故障CU连接数:指灾备组中CUSP连接出现故障的UP个数。

·     CU连接故障率:

¡     CU连接故障率=(故障CU连接数)÷(CP灾备组中总UP数)×100

·     容灾通道:两个互为主备的CP之间需要建立用于彼此间进行通信的容灾通道,以便感知对端UPCU连接状态以及对端的主备角色。容灾通道包括一条心跳通道、多条数据备份通道和一条容灾保护通道,其中:

¡     心跳通道:建立在两个CTRL-VM之间的TCP连接,作为CTRL-VM间配置协商、保活检测、CU连接状态以及灾备组运行数据同步等功能的通道。

¡     数据备份通道:建立在两个BRAS-VM之间的TCP连接,作为用户数据和各业务模块数据备份的通道。

¡     容灾保护隧道:建立在两个FWD-VM之间的GRE隧道,当备CP灾备组所在CP设备的FWD-VM收到目的IP为灾备组IP的用户业务报文后,将通过容灾保护通道将报文转发给主CP灾备组所在CP设备的FWD-VM,从而确保CP设备和RADIUS服务器、Web认证服务器等远端服务器之间的通信报文均由主CP灾备组所在CP设备来处理。

2.2  运行机制

CP异地灾备的基本工作流程如下:

(1)     在互为主备关系的两个CP设备之间建立一条心跳通道和多条数据备份通道。

(2)     在两个CP上分别创建CP灾备组,将UP加入到CP灾备组,并指定CP灾备组的主备角色。

(3)     UP通过CUSP通道分别和主备CP灾备组建立连接。

(4)     主备CP灾备组通过CUSP通道将自身的主备角色通知给UP。对CP灾备组下的UP而言,主CP灾备组所在的CP是主CP,备CP灾备组所在的CP是备CP。后续UP只与主CP进行协议和业务报文的交互。

(5)     用户报文通过UP上送到主CP后,由主CP对用户进行认证、授权等操作。

(6)     当主CP不可用或主CPUP之间链路故障率满足一定条件时,备CP可快速接管用户业务,备CP根据备份模式决定使用备CP上的备份数据恢复用户业务,或者要求用户重新认证上线。备份模式的详细介绍,请参见“2.3  备份模式”。

图2 运行机制

 

2.3  备份模式

CP异地灾备包括热备和冷备两种备份模式。

2.3.1  热备模式

热备模式下,主备CP通过数据备份通道备份用户数据。当主备CP切换时,新的主CP根据本地备份的用户数据快速接管用户业务。主备CP切换后,用户保持在线。

图3 热备模式

 

2.3.2  冷备模式

冷备模式下,主备CP间不备份用户数据。主备CP切换后,用户需在新的主CP上重新上线。

图4 冷备模式

 

2.4  容灾应用模式

CP异地灾备包括1+1备份和1:1备份两种容灾应用模式。

2.4.1  1+1备份

1+1备份方式下,主备CP同时工作。实现过程为:在两个CP上分别创建两个CP灾备组,两个CP上的同名CP灾备组分别作为主和备CP灾备组,且二者管理的UP范围一致。不同CP灾备组在同一个CP上的主备状态不同。同一时间,不同的CP均只管理一部分UP业务,减轻了单点的业务压力,提高了设备利用率。目前支持1+1热备和1+1冷备,51+1热备模式为例。

图5 1+1热备

 

2.4.2  1:1备份

1:1备份方式下,主CP工作,备CP备份。实现过程为:在两个互为主备的CP上分别创建一个CP灾备组,这两个CP灾备组管理的UP范围一致。当主CP灾备组所在CP发生切换时,备CP灾备组所在CP可以接管这些UP上的用户业务。目前支持1:1热备和1:1冷备,61:1冷备模式为例。

图6 1:1冷备

 

2.5  主备角色选举

正常情况下,当主CPCU连接故障率阈值满足一定条件时,备CP会通知主CP自己要升级为主,主收到通知后降为备。当主备CP间心跳通道故障时,备CP无法通过心跳通道将自己升主的事件通知给对端,备升主后,对端也认为自己是主。当心跳故障恢复后,两端重连时会出现双主的情况。

为了避免出现双主的情况,CP异地灾备功能采用了优先级机制。初始情况下,两端CP灾备组使用的优先级均为1。后续,任何一端每发生一次备升主,本端记录的优先级数值递增1,并通过心跳通道将最新的优先级同步给对端,以确保心跳通道正常的情况下两端记录的优先级相同。同时,为避免UP误切换主用CPUP侧也需要关心灾备组优先级。两端CPUP下发自己的主备CP角色时,会携带本CP当前记录的灾备组优先级。UP收到CP的主备角色消息通知时,如果两端CP都是主CP角色,则UP继续比较两个CP的灾备组优先级,以优先级高的CP下发的主角色为准。

CP间心跳通道断开并重建后,两端CP灾备组需要重新协商主备角色,具体协商规则如下:

·     如果两端CP灾备组的Running role均认为自己是主,则比较两端各自记录的优先级,优先级高(数值越大优先级越高)的选为主,另一端切换为备。如果两端CP灾备组的优先级相同,则以Negotiated role为准。

·     如果两端CP灾备组的Running role均认为自己是备,则以Negotiated role准。

2.6  正切/回切功能

CP异地灾备支持CP灾备组故障自动切换功能(即正切)和主CP灾备组故障恢复后自动回切功能(即回切)。正切/回切操作均由CP设备根据网络故障及恢复情况自动完成,无需管理员手工干预,减少了管理员的维护工作量。

2.6.1  CP灾备组故障自动切换功能

在开启CP灾备组的故障自动切换功能的情况下,当主发生故障时,备可以自动升级为主,接管旧主的业务,保证用户业务的正常运行。

为避免网络震荡导致误切换,正切支持故障延迟切换,具体为:开启CP灾备组故障自动切换功能后,当同时满足下列条件时,备CP灾备组会启动延迟切换定时器,等到该定时器超时后,如果仍然同时满足下列条件,备CP灾备组将自动升级为主CP灾备组。

·     CP灾备组上的CU连接故障率达到或超过主降备的CU连接故障率阈值。

·     CP灾备组上的CU连接故障率比主CP灾备组上的CU连接故障率低。

 

2.6.2  CP灾备组故障恢复后自动回切功能

在开启主CP灾备组故障恢复后自动回切功能的情况下,当原主故障恢复后,可以自动回切为主,重新接管用户业务。

为避免网络震荡导致误切换,回切支持故障恢复延迟回切,具体为:在开启主CP灾备组故障恢复后自动回切功能的情况下,主降为备后,当备的CU连接故障率降低到主CP灾备组故障恢复后自动回切的CU连接故障率阈值时,备会启动故障恢复回切延时定时器。当该定时器超时后,如果备的CU连接故障率仍低于或等于主故障恢复后自动回切的CU连接故障率阈值,备会向对端发送自动回切请求:

·     如果在15秒时间(固定时间,无法修改)内收到对端同意升主的应答,则本端启动备升主,对端开始主降备。

·     如果在15秒时间内收到对端拒绝升主的应答,则本端继续等待下一个故障恢复回切延时定时器超时,如果该定时器超时后仍满足自动回切条件,则本端再次向对端发起回切请求。

·     如果在15秒时间内未收到对端任何应答,则本端启动备升主。

 

2.7  应用限制

·     因容灾主备CP互为备份,当主用CP故障后,用户业务切换到备用CP上,因此,对于用户业务相关的配置,主备CP设备必须保持一致。

·     UP备份和CP异地容灾配合使用的组网中,必须把互为备份的UP加入同一个CP灾备组。

·     CP容灾设备需要对用户进行RADIUS认证时,必须在灾备组中指定与RADIUS server通信的源地址,以保证CP容灾主备切换后,RADIUS server能用相同的目的地址继续与新的主用CP通信。

·     CP容灾设备需要对用户进行Web认证时,必须在灾备组中指定与Portal server通信的源地址,以保证CP容灾主备切换后,Portal server能用相同的目的地址继续与新的主用CP通信。

典型组网应用

3.1  vBRAS-CP异地灾备1+1热备

7所示,在两个不同DC间的CP上配置异地灾备1+1热备功能,使用户能够在不同DC间实现CP的双机热备。同一时间,不同的CP均只管理一部分UP业务,减轻了单点的业务压力,提高了设备利用率。当主用CP或者链路出现故障时,能够快速将用户业务切换到备用CP,且用户不下线,保证用户业务不中断。

图7 CP异地灾备1+1热备组网图

 

3.2  vBRAS-CP异地灾备1:1冷备

8所示,在两个不同DC间的CP上配置异地灾备1:1冷备功能,使用户能够在不同DC间实现CP的双机冷备。当主用CP设备故障时,用户能够快速通过UP重新上线并将用户信息同步到备用CP上,以便备CP接管这些UP上的用户业务。

图8 CP异地灾备1:1冷备组网图

 

参考文献

·     《中国移动基于转发和控制分离架构的vBRAS系统设备规范》

·     《中国移动基于转发和控制分离架构的vBRAS系统技术实现流程》

·     《中国移动基于转发和控制分离的vBRAS系统控制接口规范》

 

新华三官网
联系我们