vBRAS-CP异地灾备技术白皮书

非经本公司书面许可，任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部，并不得以任何形式传播。

除新华三技术有限公司的商标外，本手册中出现的其它公司的商标、产品标识及商品名称，由各自权利人拥有。

本文中的内容为通用性技术信息，某些信息可能不适用于您所购买的产品。

1 概述

1.1 产生背景

面对地震、火灾等不可抗力，本地数据备份无法保证备份数据不丢失，无法满足运营商对业务系统的可用性、实时性、安全性的需要。为了应对地震、火灾等不可抗力导致备份数据丢失的情况，减少企业损失，业界提出了异地灾备的技术理念。

vBRAS-CP（简称CP）异地灾备是一种应用在vBRAS转发与控制分离组网中的异地灾备技术。它通过在两个位于不同地址位置的DC（Data Center，数据中心）中的CP之间进行双机备份来实现异地灾备，从而达到当一个DC发生灾难时，由另一个DC快速接管用户业务的目的。

图1 vBRAS-CP异地灾备功能示意图

1.2 技术优点

当本地容灾备份中心网络出现故障时，异地容灾备份中心可快速接管用户业务：

· 对于用户：用户感知不到网络故障，提升了用户的上网体验。

· 对于运营商：提高了运营商的抗风险能力，网络可靠性显著增强。

2 vBRAS-CP异地灾备技术实现

2.1 概念介绍

· 灾备组：一组UP的集合。CP通过灾备组实现对一组UP的统一管理。不同CP上的灾备组形成主备关系，一个为主灾备组，另外一个为备灾备组。

· 灾备组的组ID：灾备组编号。同一CP上的每个灾备组都有唯一的编号。互为主备的两个灾备组的组ID相同，通过组ID实现一一对应关系。

· 灾备组的优先级：用于灾备组主备角色选举，优先级高的为主灾备组。

· 灾备组的主备角色，包括下几种角色类型：

¡ 配置角色（Configured role）：通过命令行为CP灾备组配置的角色，在配置不变的情况下，配置的主备角色是固定的。

¡ 协商角色（Negotiated role）：CP灾备组根据配置按一定的规则协商出的主备角色，在配置不变的情况下，协商出来的主备角色是固定的。

¡ 运行角色（Running role）：CP灾备组实际生效的主备角色。初始的Running role来源分为如下几种：

- 在心跳通道正常建立的情况下，初始的Running role以Negotiated role为准。

- 在配置了CP容灾通道后，如因网络不通或容灾通道使用的IP地址配置错误等原因导致心跳通道未曾建立，这种情况下两端CP灾备组无法协商出主备角色，初始的Running role以Configured role为准。

Running role中的主备角色会随主备切换、CP间心跳通道断开和重建等事件而发生变化。如无特殊说明，本文中的主备角色，均指在Running role。

· 主备CP：CP按灾备组区分主备角色，主灾备组所在的CP是主CP，备灾备组所在的CP是备CP。只有主CP处理用户业务，备CP不处理业务

· 故障CU连接数：指灾备组中CUSP连接出现故障的UP个数。

· CU连接故障率：

¡ CU连接故障率=（故障CU连接数）÷（CP灾备组中总UP数）×100

· 容灾通道：两个互为主备的CP之间需要建立用于彼此间进行通信的容灾通道，以便感知对端UP的CU连接状态以及对端的主备角色。容灾通道包括一条心跳通道、多条数据备份通道和一条容灾保护通道，其中：

¡ 心跳通道：建立在两个CTRL-VM之间的TCP连接，作为CTRL-VM间配置协商、保活检测、CU连接状态以及灾备组运行数据同步等功能的通道。

¡ 数据备份通道：建立在两个BRAS-VM之间的TCP连接，作为用户数据和各业务模块数据备份的通道。

¡ 容灾保护隧道：建立在两个FWD-VM之间的GRE隧道，当备CP灾备组所在CP设备的FWD-VM收到目的IP为灾备组IP的用户业务报文后，将通过容灾保护通道将报文转发给主CP灾备组所在CP设备的FWD-VM，从而确保CP设备和RADIUS服务器、Web认证服务器等远端服务器之间的通信报文均由主CP灾备组所在CP设备来处理。

2.2 运行机制

CP异地灾备的基本工作流程如下：

(1) 在互为主备关系的两个CP设备之间建立一条心跳通道和多条数据备份通道。

(2) 在两个CP上分别创建CP灾备组，将UP加入到CP灾备组，并指定CP灾备组的主备角色。

(3) UP通过CUSP通道分别和主备CP灾备组建立连接。

(4) 主备CP灾备组通过CUSP通道将自身的主备角色通知给UP。对CP灾备组下的UP而言，主CP灾备组所在的CP是主CP，备CP灾备组所在的CP是备CP。后续UP只与主CP进行协议和业务报文的交互。

(5) 用户报文通过UP上送到主CP后，由主CP对用户进行认证、授权等操作。

(6) 当主CP不可用或主CP与UP之间链路故障率满足一定条件时，备CP可快速接管用户业务，备CP根据备份模式决定使用备CP上的备份数据恢复用户业务，或者要求用户重新认证上线。备份模式的详细介绍，请参见“2.3 备份模式”。

图2 运行机制

2.3 备份模式

CP异地灾备包括热备和冷备两种备份模式。

2.3.1 热备模式

热备模式下，主备CP通过数据备份通道备份用户数据。当主备CP切换时，新的主CP根据本地备份的用户数据快速接管用户业务。主备CP切换后，用户保持在线。

图3 热备模式

2.3.2 冷备模式

冷备模式下，主备CP间不备份用户数据。主备CP切换后，用户需在新的主CP上重新上线。

图4 冷备模式

2.4 容灾应用模式

CP异地灾备包括1+1备份和1:1备份两种容灾应用模式。

2.4.1 1+1备份

1+1备份方式下，主备CP同时工作。实现过程为：在两个CP上分别创建两个CP灾备组，两个CP上的同名CP灾备组分别作为主和备CP灾备组，且二者管理的UP范围一致。不同CP灾备组在同一个CP上的主备状态不同。同一时间，不同的CP均只管理一部分UP业务，减轻了单点的业务压力，提高了设备利用率。目前支持1+1热备和1+1冷备，图5以1+1热备模式为例。

图5 1+1热备

2.4.2 1:1备份

1:1备份方式下，主CP工作，备CP备份。实现过程为：在两个互为主备的CP上分别创建一个CP灾备组，这两个CP灾备组管理的UP范围一致。当主CP灾备组所在CP发生切换时，备CP灾备组所在CP可以接管这些UP上的用户业务。目前支持1:1热备和1:1冷备，图6以1:1冷备模式为例。

图6 1:1冷备

2.5 主备角色选举

正常情况下，当主CP的CU连接故障率阈值满足一定条件时，备CP会通知主CP自己要升级为主，主收到通知后降为备。当主备CP间心跳通道故障时，备CP无法通过心跳通道将自己升主的事件通知给对端，备升主后，对端也认为自己是主。当心跳故障恢复后，两端重连时会出现双主的情况。

为了避免出现双主的情况，CP异地灾备功能采用了优先级机制。初始情况下，两端CP灾备组使用的优先级均为1。后续，任何一端每发生一次备升主，本端记录的优先级数值递增1，并通过心跳通道将最新的优先级同步给对端，以确保心跳通道正常的情况下两端记录的优先级相同。同时，为避免UP误切换主用CP，UP侧也需要关心灾备组优先级。两端CP给UP下发自己的主备CP角色时，会携带本CP当前记录的灾备组优先级。UP收到CP的主备角色消息通知时，如果两端CP都是主CP角色，则UP继续比较两个CP的灾备组优先级，以优先级高的CP下发的主角色为准。

当CP间心跳通道断开并重建后，两端CP灾备组需要重新协商主备角色，具体协商规则如下：

· 如果两端CP灾备组的Running role均认为自己是主，则比较两端各自记录的优先级，优先级高（数值越大优先级越高）的选为主，另一端切换为备。如果两端CP灾备组的优先级相同，则以Negotiated role为准。

· 如果两端CP灾备组的Running role均认为自己是备，则以Negotiated role准。

2.6 正切/回切功能

CP异地灾备支持CP灾备组故障自动切换功能（即正切）和主CP灾备组故障恢复后自动回切功能（即回切）。正切/回切操作均由CP设备根据网络故障及恢复情况自动完成，无需管理员手工干预，减少了管理员的维护工作量。

2.6.1 CP灾备组故障自动切换功能

在开启CP灾备组的故障自动切换功能的情况下，当主发生故障时，备可以自动升级为主，接管旧主的业务，保证用户业务的正常运行。

为避免网络震荡导致误切换，正切支持故障延迟切换，具体为：开启CP灾备组故障自动切换功能后，当同时满足下列条件时，备CP灾备组会启动延迟切换定时器，等到该定时器超时后，如果仍然同时满足下列条件，备CP灾备组将自动升级为主CP灾备组。

· 主CP灾备组上的CU连接故障率达到或超过主降备的CU连接故障率阈值。

· 备CP灾备组上的CU连接故障率比主CP灾备组上的CU连接故障率低。

2.6.2 主CP灾备组故障恢复后自动回切功能

在开启主CP灾备组故障恢复后自动回切功能的情况下，当原主故障恢复后，可以自动回切为主，重新接管用户业务。

为避免网络震荡导致误切换，回切支持故障恢复延迟回切，具体为：在开启主CP灾备组故障恢复后自动回切功能的情况下，主降为备后，当备的CU连接故障率降低到主CP灾备组故障恢复后自动回切的CU连接故障率阈值时，备会启动故障恢复回切延时定时器。当该定时器超时后，如果备的CU连接故障率仍低于或等于主故障恢复后自动回切的CU连接故障率阈值，备会向对端发送自动回切请求：

· 如果在15秒时间（固定时间，无法修改）内收到对端同意升主的应答，则本端启动备升主，对端开始主降备。

· 如果在15秒时间内收到对端拒绝升主的应答，则本端继续等待下一个故障恢复回切延时定时器超时，如果该定时器超时后仍满足自动回切条件，则本端再次向对端发起回切请求。

· 如果在15秒时间内未收到对端任何应答，则本端启动备升主。

2.7 应用限制

· 因容灾主备CP互为备份，当主用CP故障后，用户业务切换到备用CP上，因此，对于用户业务相关的配置，主备CP设备必须保持一致。

· 在UP备份和CP异地容灾配合使用的组网中，必须把互为备份的UP加入同一个CP灾备组。

· 当CP容灾设备需要对用户进行RADIUS认证时，必须在灾备组中指定与RADIUS server通信的源地址，以保证CP容灾主备切换后，RADIUS server能用相同的目的地址继续与新的主用CP通信。

· 当CP容灾设备需要对用户进行Web认证时，必须在灾备组中指定与Portal server通信的源地址，以保证CP容灾主备切换后，Portal server能用相同的目的地址继续与新的主用CP通信。

3 典型组网应用

3.1 vBRAS-CP异地灾备1+1热备

如图7所示，在两个不同DC间的CP上配置异地灾备1+1热备功能，使用户能够在不同DC间实现CP的双机热备。同一时间，不同的CP均只管理一部分UP业务，减轻了单点的业务压力，提高了设备利用率。当主用CP或者链路出现故障时，能够快速将用户业务切换到备用CP，且用户不下线，保证用户业务不中断。

图7 CP异地灾备1+1热备组网图

3.2 vBRAS-CP异地灾备1:1冷备

如图8所示，在两个不同DC间的CP上配置异地灾备1:1冷备功能，使用户能够在不同DC间实现CP的双机冷备。当主用CP设备故障时，用户能够快速通过UP重新上线并将用户信息同步到备用CP上，以便备CP接管这些UP上的用户业务。

图8 CP异地灾备1:1冷备组网图

4 参考文献

· 《中国移动基于转发和控制分离架构的vBRAS系统设备规范》

· 《中国移动基于转发和控制分离架构的vBRAS系统技术实现流程》

· 《中国移动基于转发和控制分离的vBRAS系统控制接口规范》

热门推荐

热门推荐

H3C服务器

HPE服务器

热门推荐

H3C存储

HPE存储

热门推荐

商用台式机

商用笔记本

商用显示器

配件

热门推荐

热门推荐

智能终端

技术解决方案

行业解决方案

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

专业安全服务

安全运营服务

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

公司刊物

加入我们

国家/地区

vBRAS-CP异地灾备技术白皮书-6W100

目录

2 vBRAS-CP异地灾备技术实现

2.2 运行机制

2.3.1 热备模式

2.4.1 1+1备份

2.4.2 1:1备份

2.5 主备角色选举

2.6 正切/回切功能

2.6.1 CP灾备组故障自动切换功能

2.6.2 主CP灾备组故障恢复后自动回切功能

2.7 应用限制

3.1 vBRAS-CP异地灾备1+1热备

3.2 vBRAS-CP异地灾备1:1冷备

4 参考文献

联系我们