• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 关于我们

15-可靠性配置指导

目录

04-云集群配置

本章节下载 04-云集群配置  (1.01 MB)

04-云集群配置

目 

1 云集群

1.1 云集群简介

1.1.1 云集群组网应用

1.1.2 云集群整体架构

1.1.3 云集群的优点

1.2 云平台组件

1.3 物理集群工作机制

1.3.1 物理集群基本概念

1.3.2 物理集群的连接拓扑

1.3.3 物理集群的建立和变更

1.3.4 物理集群分裂

1.3.5 物理集群合并

1.4 容器集群工作机制

1.4.1 容器集群基本概念

1.4.2 容器集群的连接拓扑

1.4.3 容器集群构建

1.4.4 容器监控和智能管

1.4.5 主容器角色选举

1.5 云集群高可靠性机制

1.5.1 容器集群分裂和MAD

1.5.2 MAD技术

1.5.3 聚合选边技术

1.5.4 容器集群合并

1.6 云集群配置限制和指导

1.7 云集群配置思路

1.8 搭建云集群

1.9 将设备从物理集群A迁移到物理集群B

1.10 物理集群显示和维护

1.11 配置MAD

1.11.1 配置LACP MAD检测

1.11.2 配置保留接口

1.11.3 配置通过LACP协议自动进行MAD故障恢复

1.11.4 MAD故障恢复

1.11.5 显示MAD配置信息

1.12 调整和优化容器集群

1.12.1 开启启动文件的自动加载功能

1.12.2 配置容器集群的桥MAC地址

1.12.3 配置容器集群链路down延迟上报功能

1.12.4 开启云集群合并自动重启功能

1.12.5 阻止指定成员编号的设备加入云集群

1.12.6 开启云集群WLAN接入优化功能

1.13 容器集群显示和维护

1.14 访问云集群

1.15 云集群基础配置举例

1.15.2 物理设备故障替换配置举例

1.15.3 集群链路异常,替换集群接口配置举例

1.15.4 将物理设备从云集群A迁移到云集群B的配置举例


1 云集群

1.1  云集群简介

云集群是H3C自主研发的一种软件虚拟化技术,它基于Comware V9容器化架构,实现了应用和物理设备间尽可能的解耦。云集群分为两个层面:物理设备层面的集群(以下称为物理集群)和应用层面的集群(以下称为容器集群)。

·     物理集群的核心思想是将多台物理设备连接在一起,进行必要的配置后,虚拟化成一台设备。使用这种虚拟化技术可以集合多台设备的硬件资源,一方面可实现多台设备硬件资源统一管理和调配,提高资源利用率,降低管理难度;另一方面还可实现硬件层面的备份,提高整个系统的高可靠性。

·     容器集群的核心思想是将运行在物理设备上的容器逻辑上连接在一起,进行必要的配置后,虚拟化成一个系统。使用这种虚拟化技术可以集合多个容器的软件处理能力,实现多个容器的协同工作、统一管理和不间断维护。

说明

目前云集群技术仅支持ComwareV9容器组建集群,如无特殊说明,本文中的容器均指ComwareV9容器。

 

1.1.1  云集群组网应用

1. 云集群基本组网应用

云集群基本组网应用中,物理设备和Comware容器一一对应,每台物理设备上运行一个Comware容器。其中物理设备之间组建物理集群,形成设备级的备份;Comware容器之间组建容器集群,形成业务级的备份。整个物理集群对应一个Comware容器集群,拓扑简单、配置简单、维护简单。该组网形式适用于H3C全线产品。

图1-1所示,两台设备组成物理集群,对上、下层设备来说,两台物理设备虚拟化成一台网络设备(对应图1-1中的容器集群),例如交换机、路由器等。所有成员设备上的资源归该虚拟网络设备拥有和统一管理。

图1-1 云集群基本组网应用示意图

2. 云集群高级组网应用

云集群高级组网应用中,根据物理设备的性能、硬件资源和处理能力等参数,网络管理员可以在物理设备上部署一个或者多个Comware容器,同一物理集群上创建的Comware容器可以属于同一个集群,也可以划分到不同的集群,为不同的用户网络提供服务。

图1-2所示,两台设备组成云集群,在物理层面,它们虚拟化成一台物理设备;在业务层面,它们虚拟化成两个Comware容器集群,分别为不同的用户网络提供传输服务。整个网络的超级管理员维护物理集群,Comware容器集群可以分派给用户网络的管理员来维护,用户网络的管理员登录Comware容器集群后,完成交换、路由、安全等特性的配置。

相比云集群基本组网应用,云集群高级组网应用更加灵活,能适应用户网络个性化管理需求。但该应用对物理设备的性能、硬件资源和处理能力等参数有要求。

图1-2 云集群高级组网应用示意图

 

1.1.2  云集群整体架构

图1-3所示,为云集群物理结构示意图。它们之间的关系如下:

·     物理设备上运行云平台软件模块。云平台软件模块直接运行在H3C改进后的Linux系统上,各物理设备上的云平台软件模块之间通过三层通道通信,实现将物理设备虚拟化成一个物理集群。

·     容器运行在云平台软件模块之上,受云平台软件模块的管理。各物理设备上的容器通过LIPC/MBUS通道通信,实现将多个容器虚拟化成一个容器集群。

Comware容器是运行了Comware系统的容器,为设备提供基本的路由、交换等通信功能。设备上还可以安装其他容器,但当前仅支持将Comware容器虚拟化成容器集群。关于容器的详细介绍请参见“开放性应用管理配置指导”中的“容器化应用管理”。

图1-3 云集群物理结构示意图

 

云集群将物理设备虚拟化成物理集群和容器集群双重集群虚拟架构,如图1-4所示。

图1-4 云集群逻辑结构示意图

 

1.1.3  云集群的优点

云集群整体架构层面的优点:

·     云集群采用物理集群和容器集群双重虚拟架构,将基础硬件设施和上层应用分离,增加了整个云集群系统的灵活性。

¡     底层构建物理集群,完成对多个物理设备的统一管理,是上层容器的编排管理平台;

¡     上层构建容器集群,为业务提供高可靠性保障和智能弹性扩缩容的便利。

·     容器集群采用双层选主技术,增强了业务运行的稳定性。

¡     当物理集群运行正常时,容器集群中的主容器由物理集群选举和维护;

¡     当物理集群不能运行正常时,容器集群内部的角色选举机制能继续保证容器集群系统正确的运行。

·     简化管理:物理集群形成之后,用户通过任意成员设备的任意端口都可以登录云集群系统,对云集群内所有成员设备以及容器进行统一管理。

容器集群层面的优点:

·     容器的1:N备份:容器集群由多台Comware容器组成,其中,主用Comware容器负责容器集群的运行、管理和维护,从属Comware容器在作为备份的同时也可以处理业务。一旦主用Comware容器故障,系统会迅速自动选举新的主用Comware容器,以保证业务不中断,从而实现了Comware容器的1:N备份。

·     跨Comware容器的链路聚合:Comware容器和上、下层设备之间的物理链路支持聚合功能,并且不同Comware容器上的物理链路可以聚合成一个逻辑链路,多条物理链路之间可以互为备份也可以进行负载分担,当某个Comware容器离开容器集群,其它Comware容器上的链路仍能收发报文,从而提高了聚合链路的可靠性。

·     强大的网络扩展能力:通过增加物理设备,可以轻松自如地扩展容器集群的端口数、带宽。因为各成员设备都有CPU,能够独立处理协议报文、进行报文转发,所以容器集群还能轻松自如的扩展处理能力。

1.2  云平台组件

图1-5 云平台组件构成

 

在设备内部实现云集群功的组件统称为云平台。云平台包含云平台Manager、云平台Worker、云平台Admin、云平台Agent四个组件。

·     云平台Manager:运行在参与物理集群管理的每个物理节点的宿主操作系统内,负责云平台HA功能,建立集群,管理集群成员。它包括以下功能:

¡     负责管理物理集群,建立物理集群,维护物理集群,管理集群成员,生成并更新集群拓扑。

¡     负责管理容器集群,能根据物理集群中硬件资源的分布智能部署Comware容器,并选举容器集群的主用容器和从属容器。

·     云平台Worker:运行在每个物理节点的宿主操作系统内,负责物理节点和容器生命周期的管理,周期上报节点物理资源和状态,响应Manager的调度指令,并根据Manager的指令来创建和运行容器。

·     云平台Admin:运行在每个物理节点上,接收和处理主Comware容器的配置消息。负责管理设备运行模式、容器描述文件,发送执行容器部署的请求给Manager集群。

·     云平台Agent:运行在容器内部,用于上报容器内业务的健康状态,向业务模块通知集群和容器事件。

图1-6所示为云平台组件在设备内部的运行位置。每台物理设备上电启动后,会自动运行云平台Worker、云平台Admin、云平台Agent组件,云平台Manager为可选组件。当需要物理设备参与物理集群管理,将设备的角色配置为manager+worker时,设备才会运行云平台Manager组件。

图1-6 云平台组件的运行位置

 

1.3  物理集群工作机制

1.3.1  物理集群基本概念

1. 成员设备的角色

物理集群中每台设备都称为成员设备。成员设备按照功能不同,分为两种角色:

·     Manager:负责云平台HA功能,建立集群,管理集群成员。它包括以下功能:

¡     负责管理物理集群,建立物理集群,维护物理集群,管理集群成员,生成并更新集群拓扑。

¡     负责管理容器集群,能根据物理集群中硬件资源的分布智能部署Comware容器,并选举容器集群的主用容器和从属容器。

Manager按照职责不同又分为Leader和Follower。

¡     Leader:作为主用Manager,负责管理和控制整个云集群,是整个云集群的控制中心。

¡     Follower:作为备用Manager,是Leader的备份,处理业务、转发报文的同时作为Leader的备份设备运行。当Leader故障时,系统会自动从Follower中选举一个新的Leader接替原Leader工作。

¡     将设备配置为Manager后,设备会自动运行Manager组件来完成Manager的相关功能。

·     Worker:负责节点本地管理,上报节点资源给Leader,接收Leader的调度消息来部署容器。

·     将设备配置为Worker后,设备会自动运行Worker组件来完成Worker的相关功能。

初次创建物理集群的时候,由网络管理员的配置决定在哪些物理设备上运行Manager,以及Manager中哪台设备作为Leader和Follower。

2. 成员设备编号(Member ID

在云集群中,均用成员编号来唯一标识一台物理设备,物理集群和容器集群在搭建和维护过程中,均会用到成员编号。

一个云集群中,只有一台设备可以使用缺省的成员编号,其它设备均需修改成员编号后,才能加入云集群。且修改成员编号时,请确保该编号在云集群中唯一。

·     在搭建物理集群时,如果有设备的成员编号相同,则后注册的成员设备不能加入物理集群。

·     在物理集群的运行过程中,如果新设备加入物理集群,但是该设备与已有成员设备的编号冲突,则该设备不能加入物理集群。

3. 成员IP(Member IP)

成员IP地址用于物理集群内部通信,即交互物理集群协议报文(物理集群的控制报文为三层IP报文)。物理集群内的所有成员设备必须配置成员IP地址,且所有成员设备的成员IP地址必须属于同一网段内,所有成员设备之间必须路由可达。

4. 集群IP(Join cluster IP)

集群IP是需要管理员在设备上配置的IP地址,用于指导设备加入物理集群。集群IP可以是物理集群中已有任意成员设备的成员IP,建议配置为Leader的成员IP。

初次搭建物理集群时,Leader上无需配置集群IP。未配置集群IP的设备会认为自己是Leader。

5. 物理集群分裂

图1-7所示,一个物理集群形成后,由于链路故障,导致物理集群中两相邻成员设备不连通,一个物理集群分裂成两个物理集群,这个过程称为物理集群分裂。

图1-7 物理集群分裂示意图

 

6. 物理集群合并

图1-8所示,修复故障链路后,分裂的物理集群会自动进行合并,这个过程称为物理集群合并。(如果物理集群A分裂成了物理集群1和物理集群2,物理集群B分裂成了物理集群3和物理集群4,因为分裂后的集群会保留原集群的拓扑,所以,云集群不允许物理集群1跟物理集群3或物理集群4合并,也不允许物理集群2跟物理集群3或物理集群4合并)

图1-8 物理集群合并示意图

 

1.3.2  物理集群的连接拓扑

物理集群的控制报文为三层IP报文,物理集群要求成员设备的成员IP地址均配置在同一网段内,使用该网段来交互物理集群控制报文。物理集群的连接拓扑有两种:链形连接和星形连接。

·     当两台设备搭建物理集群时,可采用链形连接也可采用星形连接。

¡     链形连接适用于成员设备物理位置集中的组网;

¡     星形连接对成员设备的物理位置要求比链形连接低,主要用于成员设备物理位置分散的组网,但需要中间设备来完成成员设备之间的互联。

·     当成员设备数量大于2时,只能采用星形连接。

图1-9所示,物理集群共用容器集群的控制链路,物理集群通过容器集群的控制链路转发控制报文。

图1-9 物理集群连接拓扑示意图

‌‌

说明

当前,物理集群共用容器集群链路中的控制通道来传输物理集群控制报文。搭建容器集群网络,网络管理员需要在设备上通过命令行将物理接口和容器集群链路控制通道、数据通道绑定。云集群间将使用控制通道传输物理集群控制报文和容器集群控制报文,使用数据通道传输跨容器转发的数据报文。

 

1.3.3  物理集群的建立和变更

1. 物理集群的建立

初次建立物理集群,通过配置来确定各设备的身份。搭建集群时,请先完成集群规划,哪些设备参与物理集群的管理,哪台设备作为Leader,各成员设备的编号,以及集群内部通信使用的网段。

请为作为Manager中的Leader设备配置以下参数:

·     (可选,设备出厂角色为Manager+Worker)角色为Manager+Worker

·     (可选,使用缺省值亦可)成员编号(Member ID)

·     (必选)成员IP(Member IP)

重启该设备,设备会认为自己是Leader,启动流程如图1-10所示,分为以下三个阶段:

(1)     设备根据配置文件,启动云平台Admin、Manager和Worker组件。

(2)     Manager当选为Leader,Worker和Leader建立内部通信通道,Worker向本机Leader注册并上报硬件资源信息。

(3)     Leader通知Worker启动容器。

图1-10 Leader启动流程图

 

2. 新设备加入物理集群

新加入物理集群的设备,也通过配置来确定其身份。

作为Manager中的Follower设备需要配置以下参数:

·     (可选,设备出厂角色为Manager+Worker)角色为Manager+Worker

·     (必选)成员编号(Member ID),必须集群内唯一

·     (必选)成员IP(Member IP),必须和Leader的成员IP为同一网段,且路由可达

·     (必选)加入的集群IP(Join-cluster IP),建议配置为Leader的成员IP,也可以是其它成员设备的成员IP

作为Worker的设备需要配置以下参数:

·     (可选,设备出厂角色为Manager+Worker)角色为Worker

·     (必选)成员编号(Member ID),必须集群内唯一

·     (必选)成员IP(Member IP),必须和Leader的成员IP为同一网段,且路由可达

·     (必选)加入的集群IP(Join-cluster IP),建议配置为Leader的成员IP,也可以是其它成员设备的成员IP

下面以Follower设备加入为例,描述Follower加入物理集群的流程。Follower启动流程中除去Manager组件的内容即为Worker的启动流程。

配置完Follower后重启该设备,设备读取配置。因为配置中存在“加入的集群IP”,设备便作为Follower启动并向“加入的集群IP”发送集群加入请求:

·     如果“加入的集群IP”为Leader的成员IP,则Leader收到集群加入请求后,会单播回复加入成功。

·     如果“加入的集群IP”为其他Follower的成员IP,则新加入的设备会给这个“加入的集群IP”发送集群加入请求,已经在集群中的Follower收到集群加入请求后,会将集群加入请求转发给Leader,Leader会给新设备单播回复加入成功。

图1-11所示为新设备Device B加入物理集群Device A的启动流程,分为以下阶段:

(1)     Device B根据配置文件,启动云平台Admin、Manager和Worker组件。

(2)     Worker会自动启动Comware容器,Manager(Follower)和Worker自动向Leader注册,并启动集群加入定时器。

(3)     Device A是物理集群中的Leader,回复Manager(Follower)和Worker加入成功。

(4)     Leader按周期对外单播发送Hello报文(宣布自己是一台正常运行的Leader)。

(5)     Device B收到Hello报文后,记录Leader的信息,并向Leader上报本地的物理资源信息。

(6)     如果网络管理员下发创建容器的指令,Leader会根据各成员设上报的资源情况调度Device B,在Device B上创建并启动容器。

(7)     Device B的容器启动成功后,Worker会将容器的信息上报给Leader。

(8)     Leader向Device B的云平台Manager组件同步物理集群的信息,以便Follower能作为Leader的备份;Leader向Device B的云平台Worker组件同步当前云集群中其它容器的信息。

图1-11 新设备加入物理集群流程图

 

3. 成员设备离开物理集群

物理集群搭建成功之后,Leader会记录集群中所有Manager和Worker的信息,并根据连接情况绘制集群拓扑图。Leader和Follower之间通过交互Hello报文来维护物理集群关系。成员设备离开物理集群分为两种情况:一种是主动离开,一种是被动离开。

成员设备主动离开物理集群

成员设备主动离开物理集群指的是管理员在cloud-cluster member视图下执行undo join-cluster命令将设备从物理集群中移除。该设备会给Leader发送离开集群报文,Leader会回复离开集群响应报文,然后将设备从物理集群设备列表和物理集群拓扑中删除,并将更新后的物理集群信息和集群拓扑同步给其它Follower。

成员设备被动离开物理集群

成员设备被动离开物理集群指的是成员设备和Leader的成员IP之间路由不可达。控制报文无法达到对端。成员设备被动离开物理集群的流程如下:

(1)     Leader会按周期对外单播发送Hello报文,以便分别向所有Follower通告自己的状态。

(2)     Follower本地会创建竞选定时器。如果在竞选定时器超时前,收到Hello报文,则认为Leader运行正常,并回复Hello响应报文。

(3)     Leader收到Hello响应报文,则认为该Follower运行正常。如果Leader未收到某Follower的Hello响应报文,Leader会将Hello报文超时次数减1。如果Hello报文超时次数减到0,Leader还未收到该Follower的Hello响应报文,Leader则认为该Follower暂时离开了物理集群,会将Follower的状态设置为Offline。

(4)     Follower如果直到竞选定时器超时仍未收到Leader的Hello报文,则认为Leader故障。Follower会进入Leader角色选举流程。

图1-12 成员设备被动离开物理集群流程图

 

1.3.4  物理集群分裂

物理集群运行过程中,物理集群中的Leader和Follower、Leader和Worker之间会周期互相单播发送Hello报文,来维护集群关系。如果直到Hello报文超时,一端仍未收到对端的Hello报文,则认为对端故障,会将对端状态设置为Offline。

一个物理集群形成后,由于成员设备之间相连的链路故障,导致Hello报文不可达,一个物理集群会分裂成两个物理集群,这个过程称为物理集群分裂。分裂后,根据子物理集群中成员设备数量的多少可能会出现以下两种情况:

·     如果分裂后一个物理集群的成员设备数量大于分裂前成员设备总数的一半,则这个物理集群能正常工作;另一个物理集群则不能正常工作。

·     如果分裂后两个物理集群的数量均小于或等于分裂前成员设备总数的一半,则这两个物理集群都不能正常工作。

正常工作指的是即可以维护物理集群,还可以管理物理集群上部署的容器。不正常工作指的是只能维护物理集群,不能管理物理集群上部署的容器。

1. 一个物理集群有Leader能正常工作,一个物理集群无Leader不能正常工作的情况

如果分裂后,一个物理集群的成员设备数量大于分裂前成员设备总数的一半,则这个物理集群可以保留原来的Leader或者选举出新的Leader,继续正常工作;另一个物理集群因为成员设备数量小于分裂前成员设备总数的一半,不能保留原来的Leader或者不能选举出新的Leader,不能正常工作。

图1-13所示,假设分裂前成员设备总数为3,分裂后,物理集群1中成员设备数量为2,物理集群2中成员设备数量为1。

·     对于物理集群1,只有两台成员设备:

¡     如果物理集群1中的两台成员设备在分裂前,有一台是Leader,则分裂后,这个Leader通过Hello报文,会感知到有一台成员设备离开,当前物理集群中还有两台成员设备,大于3/2,于是继续担当Leader,继续正常工作。

¡     如果物理集群1中的两台成员设备在分裂前均为Follower,则Leader离开后,按照Raft算法,两个Follower中会选举出新的Leader,接替原Leader继续正常工作。

·     对于物理集群2,只有一台成员设备:

¡     如果该设备在分裂前为Leader,则分裂后,Hello报文超时,Leader感知到物理集群2中成员设备的数量小于3/2,则降级为Follower。

¡     如果该设备在分裂前为Follower,则分裂Leader离开后,按照Raft算法,该设备无法获得多数选票,只能继续作为Follower。

图1-13 分裂后一个物理集群中有Leader

 

2. 两个物理集群均无Leader,都不能正常工作的情况

如果分裂后,两个物理集群的成员设备数量均小于等于分裂前成员设备总数的一半,则按照Raft算法,这两个物理集群均不能保留原来的Leader或者不能选举出新的Leader。这两个物理集群因为缺乏Leader,均不能正常工作。

图1-14所示,假设分裂前成员设备总数为2,分裂后,物理集群1和物理集群2中成员设备数量均为1,所有成员设备均无法获得多数选票,只能作为Follower。两个物理集群均不能正常工作。

图1-14 分裂后的两个物理集群中均无Leader

 

1.3.5  物理集群合并

两个物理集群网络各自已经稳定运行,将物理集群互联,形成一个物理集群,这个过程称为物理集群合并。

只有成员IP处于同一网段的物理集群才能合并为一个物理集群,成员IP处于不同网段的物理集群即便三层路由可达,也不会合并为一个物理集群。

物理集群合并可能会出现以下两种情况:

·     如果原来的集群中有一个集群有Leader,Leader通过Hello报文,发现新的成员设备,Leader维持身份不变,新成员设备以Follower身份加入。

图1-15所示,假设原本Device A、Device B、Device C构建了一个物理集群,其中Device B为Leader。当Device B和Device C之间的集群链路故障时,这个集群会分裂成两个集群,Device B仍作为Leader。当Device B和Device C之间的集群链路修复后,Device C能收到Leader的Hello报文,会作为Follower身份加入物理集群1,Device B仍作为整个物理集群的Leader。

图1-15 有Leader集群和无Leader集群合并

 

·     如果原来两个集群中均无Leader,通过Raft算法,Follower中会选举出新的Leader。

图1-16所示,假设原本Device A和Device B构建了一个物理集群,其中Device B为Leader。当Device A和Device B之间的集群链路故障时,这个集群会分裂成两个集群,但因为两个集群中成员设备数量均未大于2/2,所以,两个集群中均无Leader。当Device A和Device B之间的集群链路修复后,Device A和Device B之间能互相收到对方的投票请求报文,谁先收到投票响应,谁便当选为Leader,其它设备则作为Follower。图中假设Device A先收到投票响应,当选为Leader。

图1-16 无Leader集群和无Leader集群合并

 

1.4  容器集群工作机制

1.4.1  容器集群基本概念

1. 运行模式

ComwareV9容器出厂即为集群模式,支持和别的ComwareV9容器组建容器集群。单台ComwareV9容器运行也是一个容器集群,只是成员容器的数量为1。

2. 成员容器的角色

容器集群中每个容器都称为成员容器。成员容器按照功能不同,分为两种角色:

·     主用容器(简称为主容器或Master):负责管理和控制整个容器集群。

·     从属容器(简称为从容器或Standby):处理业务、转发报文的同时作为主容器的备份容器运行。当主容器故障时,系统会自动从从容器中选举一个新的主容器接替原主容器工作。

当物理集群能正常工作时,主容器和从容器角色由物理集群中的Leader决定;当物理集群不能正常工作时,主设备和从设备均由角色选举产生。

一个容器集群中同时只能存在一台主容器,其它成员容器都是从容器。关于容器角色选举过程的详细介绍请参见“主容器角色选举”。

3. 成员容器编号(Container ID

在容器集群中可能存在多个容器,成员容器的编号用来唯一标识一个容器。成员容器的编号由物理集群的Leader统一分配。

在云集群中,用成员设备的编号来唯一标识一台物理设备。成员容器运行在物理设备上,所以,成员容器使用物理设备的成员编号来唯一标识一个容器。

一个云集群中,只有一台设备可以使用缺省的成员编号,其它设备均需修改成员编号后,才能加入云集群。且修改成员编号时,请确保该编号在云集群中唯一。

·     在搭建物理集群时,如果有设备的成员编号相同,则后加入的设备不能加入物理集群。

·     在物理集群的运行过程中,如果新设备加入物理集群,但是该设备与已有成员设备的编号冲突,则该设备不能加入物理集群。

4. 容器集群域

域是一个逻辑概念,一个容器集群对应一个容器集群域。

为了适应各种组网应用,同一个网络里可以部署多个容器集群,容器集群之间使用域编号(DomainID)来区别。如图1-17所示,Device A和Device B组成容器集群1,Device C和Device D组成容器集群2。通过域编号划分不同的容器集群,可以保证两个容器集群的运行和业务互不干扰。

图1-17 多容器集群域示意图

 

5. 容器集群分裂

图1-18所示,一个容器集群形成后,由于容器集群链路故障,导致容器集群中两相邻成员设备不连通,一个容器集群分裂成两个容器集群,这个过程称为容器集群分裂。

图1-18 容器集群分裂示意图

 

6. 容器集群合并

图1-19所示,两个(或多个)容器集群各自已经稳定运行,通过物理连接和必要的配置,形成一个容器集群,这个过程称为容器集群合并。

图1-19 容器集群合并示意图

 

1.4.2  容器集群的连接拓扑

搭建容器集群网络,网络管理员需要在设备上通过命令行将物理接口和容器集群链路控制通道、数据通道绑定。成员设备间将使用控制通道传输物理集群控制报文和容器集群控制报文,使用数据通道传输跨容器转发的数据报文。

物理集群的连接拓扑有两种:链形连接和星形连接,如图1-20所示。

·     当两台设备搭建物理集群时,可采用链形连接也可采用星形连接。

¡     链形连接适用于成员设备物理位置集中的组网;

¡     星形连接对成员设备的物理位置要求比链形连接低,主要用于成员设备物理位置分散的组网,但需要中间设备来完成成员设备之间的互联。

·     当成员设备数量大于2时,只能采用星形连接。

图1-20所示,物理集群共用容器集群的控制链路,物理集群通过容器集群的控制链路转发控制报文。

图1-20 物理集群连接拓扑示意图

‌‌

1.4.3  容器集群构建

云平台Worker组件负责对容器的创建、删除。

ComwareV9容器是设备的基础容器,用于实现路由和转发功能,所以,设备缺省支持ComwareV9容器。目前,物理集群仅支持和ComwareV9容器联动,管理ComwareV9容器(例如决策ComwareV9容器集群中的主容器和备容器等)。物理集群上可以运行其它基于Docker技术的容器,但是暂不支持管理容器集群。

容器集群构建流程如下:

(1)     设备上电启动后,会自动尝试启动ComwareV9容器,容器内的云平台Agent将容器的创建、删除事件通知云平台Worker组件。

(2)     Worker将容器创建、删除事件转发给物理集群中的Leader。

(3)     Leader根据节点物理资源情况,决定是否允许创建、删除容器。如果允许创建、删除容器,再确定容器的主从角色。先创建的容器为主容器,后创建的容器均为从容器。

(4)     Leader通知Worker创建、删除容器。

(5)     Worker创建、删除容器成功后,将创建、删除结果通知Leader。

(6)     Leader更新维护的容器信息表(包括LIP、容器MAC等信息)和容器拓扑(包括Container ID、Member ID、容器MAC等信息),并将更新后的容器信息表和容器拓扑同步给云集群中的所有容器。

1.4.4  容器监控和智能管理

云平台Leader监控容器各项关键指标和业务指标,并根据容器的关键指标和业务指标的值来对容器进行智能管理。

1. 容器关键指标

容器关键指标指的是能够代表单个容器、容器集群系统基础功能的指标项,例如芯片故障、CPU端口检测异常、单板状态异常等。因为关键指标对设备影响较大,所以当容器检测到关键指标异常,容器会立即通过关键事件主动上报给Leader,云平台或者容器内层会将故障节点隔离出去,避免故障影响扩大。隔离分为两种:

·     故障隔离:当容器发生故障时,云平台主动触发隔离,称之为故障隔离。

容器故障隔离状态下,容器的业务口将被关闭。容器不能转发业务报文,也不能收发容器集群控制报文。当故障恢复,容器会自动重启来解除隔离状态。容器隔离状态解除后,再重新加入正常运行的容器集群。

·     容器集群分裂隔离:当容器间物理链路断开时,云平台/容器内层也会触发隔离,称之为堆叠分裂隔离。

容器集群分裂隔离状态下,容器的业务口将被关闭。容器不能转发业务报文,但可以收发容器集群控制报文。当故障链路恢复,容器集群合并,被隔离的容器集群会自动重启,加入正常运行的容器集群。

表1-1 容器关键指标描述表

序号

关键指标名称

关键指标说明

关键指标取值

Leader获取关键指标的方式

关键指标故障对云集群的影响

Leader对关键指标故障的处理方式

1

Chip jam

芯片堵死定时检测

·     Normal

·     Abnormal

主动上报

容器故障

故障隔离

2

CPU port

CPU芯片针脚检测

·     Normal

·     Abnormal

主动上报

容器故障

故障隔离

3

Board status

单板状态检测

·     Normal

·     Abnormal

主动上报

容器故障

故障隔离

4

Fan status

风扇状态检测

·     Normal

·     Abnormal

主动上报

容器故障

故障隔离

5

Temperature status

温度传感器状态检测

·     Normal

·     Abnormal

主动上报

容器故障

故障隔离

6

Abnormal reboot

设备异常重启(>2次)

·     Normal

·     Abnormal

主动上报

容器故障

故障隔离

2. 容器业务指标

容器业务指标指的是容器中需要重点关注的业务相关的指标,例如容器健康度、ARP表项数量、MAC表项数量等。容器业务指标是容器进行主从容器角色选举的重要依据。如果容器业务指标异常,会影响容器的基本转发功能。

物理集群中云平台的Worker组件会按周期获取容器业务指标的取值,如果同一业务指标本次取值跟上一次取值不同,则Worker会将容器ID、业务指标名称、业务指标取值等信息上报给物理集群的Leader。Leader会进行相应的处理。

容器健康度反映了设备真实的健康状态。健康度取值越大的容器,当选为主容器的优先级越高。当几个容器的健康度相同时,容器业务量代表容器的运行状态,业务量累加值越大的容器,当选为主容器的优先级越高。

表1-2 容器业务指标描述表

序号

业务指标名称

业务指标说明

业务指标取值(整数)

业务指标的获取方式

业务指标的参考价值

0

Device health

容器健康度

0~100

周期获取

容器健康度

1

Arp Resource

ARP表项数量

>=0

周期获取

容器业务量

2

Mac Resource

MAC表项数量

>=0

周期获取

3

FIB Resource

FIB转发表项数量

>=0

周期获取

4

ND Resource

ND转发表项数量

>=0

周期获取

5

IPv4 Resource_L2

IPv4二层组播表项

>=0

周期获取

6

IPv6 Resource_L2

IPv6二层组播表项

>=0

周期获取

7

IPv4 Resource_L3

IPv4三层组播表项

>=0

周期获取

8

IPv6 Resource_L3

IPv6三层组播表项

>=0

周期获取

9

ACL Resource

ACL资源

>=0

周期获取

1.4.5  主容器角色选举

主容器角色选举会在以下情况下进行:

·     容器集群建立。

·     主容器离开或者故障。

·     容器集群分裂。

·     独立运行的两个(或多个)容器集群合并为一个容器集群。

1. 容器集群建立时的主容器角色选举

初次创建容器集群,或者重启整个容器集群,容器集群会按照容器启动的先后顺序,先启动的容器为主容器,其它后启动的容器为从容器。所以,容器集群整个重启后,可能会由其它容器当选为主容器。

2. 主容器离开或者故障、容器集群分裂时的主容器角色选举

主容器离开或者故障、容器集群分裂时,主容器角色选举过程中按照如下规则从前到后,依次比较,来选择主容器:

(1)     当前的主容器优先,即容器集群不会因为有新的成员容器加入而重新选举主容器,即使新的成员设备有更高优先级。该规则不适用于容器集群形成时,此时所有加入的设备都认为自己是主设备。

(2)     成员优先级大的容器,优先当选为主容器。

(3)     健康度取值越大的容器,优先当选为主容器。

(4)     系统运行时间长的容器优先。在容器集群中,运行时间的度量精度为10分钟,即如果设备的启动时间间隔小于等于10分钟,则认为它们运行时间相等。

(5)     容器业务量累加值越大的容器,优先当选为主容器。

(6)     CPU MAC地址小的容器优先。

通过以上规则选出的最优成员容器即为主容器,主容器确定身份后,会立即对外广播Hello报文,宣告自己的主容器身份和健康度、业务量等信息,其它容器收到该报文后,会停止角色选举,作为从容器运行。从容器会向主容器单播发送Hello报文,Hello报文中会携带本容器的角色、健康度、业务量等信息。主容器通过Hello报文收集到所有从容器的信息和拓扑,并将这些信息上报给Leader。容器集群信息更新完毕,主从容器间会周期发送Hello报文,来维护容器集群关系。

云集群支持双层选举主容器机制,提高了容器集群的可靠性和健壮性:

(7)     当物理集群正常运行时,由物理集群的Leader根据主容器角色选举规则来选举主容器。

(8)     当物理集群不能正常运行(没有Leader的时候)时,由容器集群自己根据主容器角色选举规则来选举主容器。

3. 容器合并时的主容器角色选举

请参见“容器集群合并”。

1.5  云集群高可靠性机制

1.5.1  容器集群分裂和MAD

1. 分裂检测

当容器集群链路发生故障时,会导致Hello报文超时,从容器由于未收到主容器的Hello报文,会误认为主容器出现故障。根据主容器选举规则,从容器会选举新的主容器。这可能导致网络中出现两个分裂的容器集群,即一个容器集群分裂成两个新的集群。

2. 冲突处理

分裂形成的两个容器集群拥有相同的IP地址等三层配置,会引起地址冲突,导致故障在网络中扩大。为了提高系统的可用性,云集群提供了两大技术来尽量降低容器集群分裂对业务的影响。

·     MAD(Multi-Active Detection,多Active检测)技术:容器集群通过MAD技术获取MAD参数,并根据MAD参数进行MAD决策,最终实现以下目的:

¡     一个容器集群继续工作。

¡     让另一个容器集群自动切换到Recovery状态(被禁用状态)并自动关闭该容器集群中所有成员容器上除保留端口以外的其它所有业务端口,以保证Recovery状态的容器集群不能再转发业务报文。保留端口可通过mad exclude interface命令配置。

关于MAD技术的详细描述请参见“MAD技术”。

·     聚合选边技术:云集群会使用聚合接口连接上下行设备,当未配置MAD功能时,聚合选边技术可以使得上下行设备使用标准的LACP协议,选择同一侧设备转发报文,从而避免网络冲突。关于聚合选边技术的详细介绍请参见“聚合选边技术

3. MAD故障恢复

不管采用哪种MAD进行冲突处理,MAD故障恢复方式相同,包括两种:

(1)     修复故障链路,让分裂的容器集群自动合并。

(2)     如果链路仍未修复,但正常工作的容器集群也故障了,可自动或者手动启用Recovery状态的容器集群来应急。

通过修复故障链路进行MAD故障恢复

容器集群链路故障导致容器集群分裂,从而引起多Active冲突。因此修复故障的容器集群链路,让冲突的容器集群重新合并为一个容器集群,就能恢复容器集群故障。

容器集群链路修复后,系统会自动重启处于Recovery状态的容器集群。重启后,原Recovery状态容器集群中所有成员容器以从容器身份加入原正常工作状态的容器集群,原Recovery状态容器集群中被强制关闭的业务接口会自动恢复到真实的物理状态,整个容器集群系统恢复,如图1-21所示。

注意

请根据提示重启处于Recovery状态的容器集群,如果错误的重启了正常工作状态的容器集群,会导致合并后的容器集群仍然处于Recovery状态,所有成员设备的业务接口都会被关闭。此时,需要执行mad restore命令让整个容器集群系统恢复。

图1-21 MAD故障恢复(容器集群链路故障)

 

通过LACP协议自动进行MAD故障恢复

部署LACP MAD自动恢复功能,可以实现:当MAD故障还没来得及恢复而处于正常工作状态的容器集群也故障了(原因可能是设备故障或者上下行线路故障)时,LACP协议会自动激活处于Recovery状态容器集群,让该容器集群可以正常处理业务。然后再修复故障的容器集群和集群链路。

图1-22所示,在容器集群正常运行时,就开启LACP MAD功能和LACP MAD自动恢复功能。这样当集群链路故障,LACP MAD能检测到多Active冲突,将容器集群2置为Recovery状态,但不关闭配置了LACP MAD功能的接口。这样容器集群2可以通过这个接口和容器集群1交互LACP MAD报文,从而来探测容器集群1是否正常运行。如果容器集群1故障,导致LACP MAD报文超时,容器集群2会立即解除自己的Recovery状态,接替容器集群1工作。

图1-22 LACP MAD自动恢复功能原理图

 

通过执行mad restore命令进行MAD故障恢复

如果MAD故障还没来得及恢复而处于正常工作状态的容器集群也故障了(原因可能是设备故障或者上下行线路故障),如图1-23所示。此时可以在Recovery状态的容器集群上执行mad restore命令,让Recovery状态的容器集群恢复到正常状态,先接替原正常工作状态的容器集群工作。然后再修复故障的容器集群和链路。

图1-23 MAD故障恢复(容器集群链路故障修复前,正常工作状态的容器集群故障)

 

1.5.2  MAD技术

1. MAD概述

为了适应多种组网需求,云集群支持以下MAD技术:

·     云平台MAD

·     LACP MAD

云集群优先采用云平台MAD,云平台MAD不工作时,再采用其它检测手段。对于其它检测手段,推荐部署LACP MAD。但LACP MAD需要用到中间设备转发LACP报文,且要求中间设备支持H3C扩展的LACP协议报文。

表1-3 MAD类型比较

MAD类型

优势

限制

适用组网

云平台MAD

物理集群自带功能,无需额外配置

·     对于仅支持物理集群链路共用容器集群链路的产品,云平台MAD只能在物理集群链路up,但是容器Hello报文超时的场景下生效

·     对于支持物理集群链路共用容器集群链路,也支持专用物理集群链路的产品,只要物理集群链路up(物理集群未分裂),云平台MAD就能生效

所有云集群组网

LACP MAD

·     检测速度快

·     云平台MAD的补充

需要使用H3C设备(支持扩展LACP协议报文)作为中间设备,且每个成员容器需要和中间设备相连,以便传输LACP MAD检测报文

容器集群使用聚合链路和上行设备或下行设备连接

 

2. 云平台MAD

容器集群分裂后,从容器根据本地记录的容器集群成员信息和拓扑对外发送Hello报文,探测当前连通的成员容器的数量,并将探测到的信息上报给Leader。如果当前物理集群中有Leader,则Leader触发云平台MAD,云平台MAD判断容器集群发生了分裂并进行冲突处理。

图1-24所示。物理设备Device A和Device B组成物理集群,每台设备上运行Comware容器,这些容器组成容器集群。当容器集群内部通信故障,如果直到Hello报文超时,从容器仍未收到主容器的Hello报文,则容器集群会分裂成容器集群1和容器集群2。但因为物理集群链路通畅,物理集群仍能正常工作。此时,就是云平台MAD来处理容器集群分裂。

图1-24 云平台MAD组网应用图

 

3. LACP MAD

容器集群分裂后,如果云平台MAD无法正常工作,且配置了LACP MAD功能,则触发LACP MAD。

图1-25所示。物理设备Device A和Device B组成物理集群,每台设备上运行Comware容器,这些容器组成容器集群。当容器集群链路故障时,容器集群会分裂成容器集群1和容器集群2。物理集群链路共用容器集群链路,所以,物理集群也分裂了,物理集群中无Leader来处理MAD事件,由LACP MAD来处理容器集群分裂。

LACP MAD检测通过扩展LACP协议报文实现,通常采用如图1-25所示的组网:

·     每个成员设备都需要连接到中间设备。

·     成员设备连接中间设备的链路加入动态聚合组。

·     中间设备需要支持扩展LACP报文。

关于LACP的详细介绍请参见“网络互通配置指导”中的“以太网链路聚合”。

图1-25 LACP MAD组网应用图

 

扩展LACP协议报文定义了一个新的TLV(Type/Length/Value,类型/长度/值)数据域——用于交互容器集群的DomainID(域编号)和ActiveID(主设备的成员编号)。开启LACP MAD检测后,成员设备通过LACP协议报文和其它成员设备交互DomainID和ActiveID信息。

·     如果DomainID不同,表示报文来自不同容器集群,不需要进行MAD处理。

·     如果DomainID相同,ActiveID也相同,表示没有发生多Active冲突。

·     如果DomainID相同,ActiveID不同,表示容器集群分裂,检测到多Active冲突。

4. MAD决策

不管采用哪种MAD技术,各MAD技术选择哪个容器集群继续工作,哪个容器集群被禁用的决策原则是相同的,从而确保不同MAD机制决策结果相同。

MAD决策的原则为:

(1)     成员数量多的容器集群优先。

(2)     健康度高的容器集群优先。

比较两个容器集群中主设备的健康度,健康度高的容器集群继续工作,其它容器集群则被禁用。

(3)     Master运行时间长的容器集群优先。

(4)     Master的CPU MAC地址小的容器集群优先。

经过以上比较,优先级高的容器集群继续工作,优先级低的容器集群会被禁用(进入Recovery状态并关闭除保留口之外的所有业务接口)。

1.5.3  聚合选边技术

1. 应用场景

当云集群采用二层聚合接口和上下游设备相连组网时,如果云集群分裂,使用聚合选边技术可以确保流量的来回路径一致,经过相同的集群转发,从而提高链路的可靠性。

聚合选边技术依赖容器集群桥MAC地址变化,通过LACP协议自动选出云集群的一侧转发报文。

2. 原理机制

图1-26所示,先配置容器集群的桥MAC地址变化,聚合选边技术的原理为:

集群链路故障,导致一个容器集群分裂成两个容器集群。但此时MAD功能不满足工作条件,两个容器集群均在网络中运行。

(1)     假设分裂前Device A是Master,Device B是Standby,分裂后,Device B也变成Master。根据云集群健康度算法,原Master优先,所以,左边容器集群的健康度更高,假设为100;右边容器集群的健康度稍低,假设为99。

(2)     LACP优先级=100-健康度,所以,Device A上接口的LACP优先级变成0,选中几率大;Device B上接口的LACP优先级变成1,选中几率小。

(3)     因为配置了容器集群的桥MAC地址变化,Device A所在容器集群的桥MAC地址不会变化,Device B所在容器集群的桥MAC地址会变化,变化时,触发发送LACP报文。LACP报文中会携带变化后的LACP优先级。

(4)     Device C、Device D、Device E根据LACP优先级,均选中和Device A相连的接口。从而使得报文均经过Device A转发。

图1-26 聚合选边技术原理图

 

1.5.4  容器集群合并

根据有没有启用MAD功能,容器集群合并分为以下两种情况:

·     如果物理集群能正常工作或者配置了LACP MAD功能,当容器集群链路故障,导致容器集群分裂时,云集群会让其中一个容器集群正常工作,另一个容器集群被禁用(处于Recovery状态)。如果这样分裂的两个容器集群之间的故障链路恢复,则这两个容器集群会自动合并。处于Recovery状态的容器集群会自动重启,并以从容器的身份加入当前正常运行的容器集群。

·     如果物理集群不能正常工作也未配置LACP MAD功能,当容器集群链路故障,导致容器集群分裂时,两个容器集群均正常工作(这种情况称为双主现象)。这种情况下,如果将两个容器集群之间的故障链路恢复,则这两个容器集群会自动合并。合并的时候会进行主容器竞选。竞选规则为:

a.     成员容器数量多的主容器获胜。

b.     系统运行时间长的主容器获胜。

c.     健康度取值越大的主容器获胜。

d.     主容器业务量累加值越大的主容器获胜。

e.     CPU MAC地址小的主容器获胜。

主容器竞选获胜的容器集群继续工作,主容器竞选失败的容器集群自动重启并以从容器的身份加入竞选获胜的容器集群。

1.6  云集群配置限制和指导

云集群组网下,设备重启或修改配置前需要通过display system stable state命令确认系统当前是否处于稳定状态。

当云集群中有成员设备重启时,请不要配置云集群,尤其不要手工重启cpfagentd进程。否则,可能会导致成员设备多次重启,或者云集群运行异常。

云集群组网中,当需要使用map-configuration命令指定AP的配置文件时,请将配置文件分别导入到各成员设备的存储介质中,防止发生主备倒换后找不到AP的配置文件,通过map-configuration命令下发的AP配置文件只能在云集群的主设备上生效,同时必须指定配置文件的存储路径为主设备。指定AP配置文件的详细介绍请参见“AP管理配置指导”中的“AP管理”。

云集群组网中,当需要使用APDB用户脚本文件扩展设备支持的AP型号时,请将APDB用户脚本文件分别导入到各成员设备的存储介质中,防止在发生主备倒换后找不到用户脚本文件。APDB用户脚本的详细介绍请参见“AP管理配置指导”中的“AP管理”。

云集群组网下,设备不支持如下功能:

·     虚拟AP功能。关于虚拟AP的详细介绍请参见“AP管理配置指导”中的“AP管理”。

·     配置回滚。关于配置回滚的详细介绍请参见“基础配置指导”中的“配置文件管理”。

·     WAPI功能。关于WAPI的详细介绍请参见“WLAN安全配置指导”中的“WAPI”。

·     轻量控制模式。关于轻量控制模式的详细介绍请参见“WLAN接入配置指导”中的“WLAN接入”。

·     NAT功能。关于NAT的详细介绍请参见“网络互通配置指导”中的“NAT”。

·     双链路备份功能。关于双链路备份功能的详细介绍请参见“可靠性配置指导”中的“WLAN高可靠性”。

·     ASPF功能。关于ASPF功能的详细介绍请参见“安全配置指导”在的“ASPF”。

云集群组网下,配置DPI相关功能请注意以下事宜:

·     使用DPI深度安全功能、上网行为管理、安全策略功能会导致报文被错误丢弃。关于DPI深度安全功能的详细介绍请参见“DPI深度安全配置指导”,上网行为管理功能的详细介绍请参见“上网行为管理配置指导”,安全策略的详细介绍请参见“安全配置指导”中的“安全策略”。DPI相关功能的支持情况与设备型号有关,具体请参见“DPI深度安全配置指导”和“上网行为管理配置指导”。

·     设备支持安装“应用识别特征库升级授权”、“IPS特征库升级服务授权”、“和“URL特征库升级服务授权”,主备AC均需要安装上述特性License。

云集群组网下,针对绑定云集群的端口,请注意以下事宜:

·     建议不要对绑定云集群的端口进行接口批量操作,以免引发云集群MAD异常,进而影响主板业务。

·     云集群端口不支持配置镜像功能,关于镜像的详细介绍请参见“网络管理和监控配置指导”中的“镜像”。

云集群组网发生主备倒换后,需要等待几分钟重新从云平台同步数据,在此期间客户端无法通过PPSK认证接入网络。 关于云平台PPSK的详细介绍请参见“WLAN安全配置指导”中的“WLAN用户安全”。

云集群天然支持AP License共享。例如:AC 1安装了N个License,最多可接入N个AP;AC 2安装了M个License,最多可接入M个AP。

·     当AC 1和AC 2组成云集群后,云集群有N+M个License,最多可接入N+M个AP。

·     当云集群中的AC 1故障或断开后,为了给AC 1提供故障修复时间,AC 2仍然拥有N+M个License,最多可接入N+M个AP。实际上线的AP数量除受到License控制外,不能超过单机的最大AP数规格。

·     当AC 1断开的时间超过30天,则AC 2会减少AC 1的License,会只拥有M个License,只能接入M个AP(只控制新上线AP,已接入且一直在线的AP不受这个限制,无需下线)。

如果WX3540X或WX3840X需要搭配EWPXM1XG20插卡以扩展纳管AP的数量,请确保组建云集群的两台AC全部安装EWPXM1XG20插卡,使两台AC纳管AP的规格保持一致。

1.7  云集群配置思路

每台物理设备上运行Comware容器,物理集群共享容器集群的控制链路。请按照以下步骤来进行网络规划,配置云集群:

·     明确云集群规模,即包含几台成员设备。当前最多包含2台设备。

·     确认物理设备的硬件兼容性和限制。

·     确定设备在物理集群中的角色,参与物理集群管理的设备需要配置为manager-worker,不参与物理集群管理的设备需要配置为worker

·     完成云集群的相关配置(例如成员编号、成员IP、成员角色、要加入的集群成员IP和绑定集群端口等)。

·     连接集群物理线缆。

·     激活集群配置,使得设备能够直接组建成集群。

1.8  搭建云集群

(1)     ‍进入系统视图。

system-view

(2)     进入cloud-cluster member配置视图。

cloud-cluster member member-id

缺省情况下,设备的成员编号为1。

(3)     配置设备的成员IP地址。

member-ip ipv4-addr mask-length

缺省情况下,设备未配置成员IP地址。

(4)     在Manager中的Follower设备上配置集群IP地址。

join-cluster ip ipv4-address

缺省情况下,未配置集群IP地址。

您需要在Manager中的Follower设备上配置本命令,用于搭建物理集群。Leader设备上无需配置本命令,未配置本命令的Manager会以Leader身份自动加入自己组建的集群。

(5)     将集群链路和物理接口绑定。

cluster-link [ control | data ] bind interface interface-type interface-number

缺省情况下,未将集群链路和物理接口绑定。

(6)     退回到系统视图。

quit

(7)     修改设备的成员编号。

cloud-cluster member member-id renumber new-member-id

缺省情况下,设备的成员编号为1。

一个云集群中,只有一台设备可以使用缺省的成员编号,其它设备均需修改成员编号后,才能加入云集群。且修改成员编号时,请确保该编号在云集群中唯一。

(8)     确认激活物理集群配置。

cloud-cluster configuration active

如需修改设备的成员编号,则执行该命令,设备会自动重启。在重启过程中,设备会给出交互信息,请选择保存配置并重启设备。设备重启后,新的成员编号才能生效。

1.9  将设备从物理集群A迁移到物理集群B

1. 功能简介

如果需要将设备从物理集群A迁移到物理集群B,请先让设备离开物理集群A。设备离开物理集群时,会删除当前物理集群的配置、数据和拓扑(容器相关配置不会被删除),自己作为Leader,单机组建集群,本设备上的容器会作为Master。然后再通过配置,将设备加入物理集群B。否则,设备上有物理集群A的数据,将无法加入物理集群B。

2. 配置设备离开物理集群A

(1)     拆除集群链路,将设备从物理集群A中移除。

(2)     登录设备。

(3)     进入系统视图。

system-view

(4)     进入cloud-cluster member配置视图。

cloud-cluster member member-id

缺省情况下,设备的成员编号为1。

(5)     离开集群。

undo join-cluster

(6)     退回到系统视图。

quit

(7)     确认激活物理集群配置。

cloud-cluster configuration active

执行本命令设备是否会自动重启,请以设备上的提示信息为准。

3. 配置设备加入物理集群B

(1)     进入系统视图。

system-view

(2)     进入cloud-cluster member配置视图。

cloud-cluster member member-id

缺省情况下,设备的成员编号为1。

(3)     配置设备的成员IP地址。(需要和物理集群B中设备的成员IP地址处于同一网段)

member-ip ipv4-addr mask-length

(4)     配置集群IP地址为物理集群B中Leader的成员IP地址。

join-cluster ip ipv4-address

(5)     退回到系统视图。

quit

(6)     (可选)修改设备的成员编号。(如果设备当前的成员编号在物理集群B中未被使用,则可以不修改设备的成员编号,跳过该步骤)

cloud-cluster member member-id renumber new-member-id

(7)     完成集群链路的连接,将设备接入物理集群B。

(8)     确认激活物理集群配置。

cloud-cluster configuration active

执行本命令设备是否会自动重启,请以设备上的提示信息为准。

1.10  物理集群显示和维护

在任意视图下执行以下命令,可以:

·     显示物理集群的相关信息。

display cloud-cluster [ member member-id ] [ verbose ]

·     显示集群的配置信息。

display cloud-cluster configuration [ member member-id ]

·     显示主备倒换过程中标记位的状态。

display wlan ap statistics cloud-cluster switch-over-state [ history ]

1.11  配置MAD

1.11.1  配置LACP MAD检测

1. 配置限制和指导

·     容器集群域编号配置指导

容器集群域编号是一个全局变量,容器集群中的所有成员设备都共用这个容器集群域编号。在容器集群内使用cloud-cluster service-cluster domain、、mad enable命令均可修改容器集群域编号,最新的配置生效。请按照网络规划来修改容器集群域编号,不要随意修改。

在LACP MAD检测组网中,如果中间设备本身也是一个容器集群系统,则必须通过配置确保其容器集群域编号与被检测的容器集群系统不同,否则可能造成检测异常,甚至导致业务中断。

·     被MAD关闭的接口恢复指导

如果接口因为多Active冲突被关闭,则只能等容器集群恢复到正常工作状态后,接口才能自动被激活,不允许通过undo shutdown命令来激活,否则可能引起配置冲突,导致故障在网络中扩大。

2. 配置步骤

(1)     进入系统视图。

system-view

(2)     配置容器集群域编号。

cloud-cluster service-cluster domain domain-id

缺省情况下,容器集群的域编号为0。

注意

修改容器的容器集群域编号,会导致容器离开当前容器集群,不再属于当前容器集群,不能和当前容器集群中的设备交互容器集群控制报文。

 

(3)     创建并进入聚合接口视图。请选择其中一项进行配置。

¡     进入二层聚合接口视图。

interface bridge-aggregation interface-number

中间设备上也需要进行此项配置。

(4)     配置聚合组工作在动态聚合模式下。

link-aggregation mode dynamic

缺省情况下,聚合组工作在静态聚合模式下。

中间设备上也需要进行此项配置。

(5)     开启LACP MAD检测功能。

mad enable

缺省情况下,LACP MAD检测功能处于关闭状态。

(6)     退回系统视图。

quit

(7)     进入以太网接口视图。

interface interface-type interface-number

(8)     将以太网接口加入聚合组。

port link-aggregation group group-id

中间设备上也需要进行此项配置。

1.11.2  配置保留接口

1. 功能简介

容器集群系统在进行多Active处理的时候,缺省情况下,会关闭Recovery状态容器集群上除了系统保留接口外的所有业务接口。系统保留接口包括:

·     容器集群物理端口

·     用户配置的保留聚合接口的成员接口

如果接口有特殊用途需要保持up状态(比如Telnet登录接口等),则用户可以通过命令行将这些接口配置为保留接口。

2. 配置限制和指导

使用VLAN接口进行远程登录时,需要将该VLAN接口及其对应的以太网端口都配置为保留接口。但如果容器集群分裂,该VLAN接口在网络中可能会导致IP地址冲突。

3. 配置步骤

(1)     进入系统视图。

system-view

(2)     配置保留接口,当容器进入Recovery状态时,该接口不会被关闭。

mad exclude interface interface-type interface-number

缺省情况下,容器进入Recovery状态时会自动关闭本容器上除了系统保留接口以外的所有业务接口。

1.11.3  配置通过LACP协议自动进行MAD故障恢复

1. 功能简介

当MAD故障恢复时,处于Recovery状态的设备重启后重新加入容器集群,被MAD关闭的接口会自动恢复到正常状态。

先配置本功能,在MAD故障未恢复,而正常工作状态的容器集群又出现故障时,LACP协议可以自动启用Recovery状态的容器集群,使得Recovery状态的容器集群中被MAD关闭的接口恢复到正常状态,保证业务尽量少受影响。

2. 配置步骤

(1)     进入系统视图。

system-view

(2)     创建并进入聚合接口视图

interface bridge-aggregation interface-number

(3)     开启MAD自动恢复功能。

lacp mad auto-recovery

缺省情况下,MAD自动恢复功能处于关闭状态。

1.11.4  MAD故障恢复

1. 功能简介

当MAD故障恢复时,处于Recovery状态的设备重启后重新加入容器集群,被MAD关闭的接口会自动恢复到正常状态。

如果在MAD故障恢复前,正常工作状态的容器集群出现故障,可以通过配置本功能先启用Recovery状态的容器集群。配置本功能后,Recovery状态的容器集群中被MAD关闭的接口会恢复到正常状态,保证业务尽量少受影响。

2. 配置步骤

(1)     进入系统视图。

system-view

(2)     将容器集群从Recovery状态恢复到正常工作状态。

mad restore

1.11.5  显示MAD配置信息

在任意视图下执行以下命令,可以显示MAD配置信息。

display mad [ verbose ]

1.12  调整和优化容器集群

1.12.1  开启启动文件的自动加载功能

1. 功能简介

开启启动文件自动加载功能后,当新加入集群的设备和主设备的软件版本不同时,新加入的设备会自动同步主设备的软件版本,再重新加入集群。

如果未开启启动文件自动加载功能,且新加入集群的设备和主设备的软件版本不同时,新设备可以加入集群。但是因为版本差异,会影响集群中部分功能在新设备上的运行。所以,请保持启动文件自动加载功能处于开启状态。

2. 配置准备

为了能够进行自动加载,请确保从设备存储介质上有足够的空闲空间用于存放集群的启动文件。如果从设备存储介质的空闲空间不足,集群将自动删除从设备的当前启动文件并再次尝试加载。如果空闲空间仍然不足,该从设备将无法进行自动加载。此时,需要管理员重启设备,进入从设备的BootWare菜单,删除一些不重要的文件后,再将从设备重新加入集群。

3. 配置步骤

(1)     进入系统视图。

system-view

(2)     开启启动文件自动加载功能。

cloud-cluster auto-update enable

缺省情况下,启动文件的自动加载功能处于开启状态。

1.12.2  配置容器集群的桥MAC地址

1. 功能简介

桥MAC是设备作为网桥与外界通信时使用的MAC地址。一些二层协议(例如LACP)会使用桥MAC标识不同设备,所以网络上的桥设备必须具有唯一的桥MAC。如果网络中存在桥MAC相同的设备,则会引起桥MAC冲突,从而导致通信故障。容器集群作为一台虚拟设备与外界通信,也具有唯一的桥MAC,称为容器集群桥MAC。

通常情况下,容器集群使用主容器的桥MAC作为容器集群桥MAC,这台主设备称为容器集群桥MAC拥有者。如果容器集群桥MAC拥有者离开,网络管理员可以配置容器集群继续使用原桥MAC还是使用当前主容器的桥MAC做容器集群的桥MAC。

在一些特定的应用场合下,您可以配置容器集群的桥MAC为指定MAC地址。例如:当您需要使用新搭建的容器集群整体替换网络中原有容器集群时,可以将新搭建容器集群的桥MAC配置为与待替换容器集群一致,以减少替换工作引起的业务中断时间。

配置容器集群的桥MAC地址为指定值后,容器集群的桥MAC始终为指定的桥MAC,容器集群桥MAC保留时间的配置不再生效。

容器集群合并时,桥MAC的处理方式如下:

·     容器集群合并时,如果有成员容器的桥MAC相同,则它们不能合并为一个容器集群。容器集群的桥MAC不受此限制,只要成员容器自身桥MAC唯一即可。

·     两个容器集群合并后,容器集群的桥MAC为竞选获胜的一方的桥MAC。

2. 配置限制和指导

注意

桥MAC冲突会引起通信故障,桥MAC变化可能导致流量短时间中断,请谨慎配置。

 

聚合选边技术、MAD自动恢复功能均需要配置容器集群桥MAC变化的情况下,才能正常工作。

3. 配置容器集群的桥MAC保留时间

(1)     进入系统视图。

system-view

(2)     配置容器集群的桥MAC保留时间。请选择其中一项进行配置。

¡     配置容器集群的桥MAC永久保留。

cloud-cluster service-cluster mac-address persistent always

¡     配置容器集群的桥MAC保留时间为固定值6分钟。

cloud-cluster service-cluster mac-address persistent timer

本命令的缺省情况为容器集群的桥MAC地址永久保留。

配置容器集群桥MAC保留时间为固定值6分钟适用于容器集群桥MAC拥有者短时间内离开又回到容器集群的情况(例如设备重启或者链路临时故障),可以减少不必要的桥MAC切换导致的流量中断。

4. 配置容器集群的桥MAC地址为指定值

(1)     进入系统视图。

system-view

(2)     配置容器集群的桥MAC地址。

cloud-cluster service-cluster mac-address mac-address

缺省情况下,容器集群的桥MAC地址是主容器的桥MAC地址。

配置了桥MAC的容器集群分裂后,分裂出的容器集群的桥MAC都为配置的桥MAC。

1.12.3  配置容器集群链路down延迟上报功能

1. 功能简介

应用场景

该功能用于避免因集群链路绑定的接口在短时间内频繁改变接口物理状态,导致物理集群不停的分裂、合并,给系统带来额外的开销。

工作机制

容器集群链路有两种物理连接状态:up和down。如果容器集群链路状态从down变为up,链路层会立即向系统报告,不受本命令的影响。配置本命令后,如果在集群链路故障的延迟上报时间内,集群接口状态从up变成down,则不产生接口状态变化事件,系统将不感知接口状态变化。经过集群链路故障的延迟上报时间后:

·     如果接口状态仍然为down,才产生接口状态变化事件,系统会进行对应的处理。

·     如果接口状态恢复到up,则系统无需处理。设备将不会感知延迟上报时间内集群链路的状态震荡。

2. 配置限制和指导

如果某些协议配置的超时时间小于延迟上报时间(例如OSPF等),该协议将超时。此时请适当调整容器集群链路down的延迟上报时间或者该协议的超时时间,使容器集群链路down的延迟上报时间小于协议超时时间,保证协议状态不会发生不必要的切换。

下列情况下,建议将容器集群链路down延迟上报时间配置为0:

·     对主备倒换速度和容器集群链路切换速度要求较高时。

·     在执行关闭容器集群物理端口或重启容器集群成员设备的操作之前,请首先将容器集群链路down延迟上报时间配置为0,待操作完成后再将其恢复为之前的值。

3. 配置步骤

(1)     进入系统视图。

system-view

(2)     配置容器集群链路down延迟上报时间。

cloud-cluster link-delay interval

本命令缺省值为0,代表立即上报。

1.12.4  开启云集群合并自动重启功能

1. 功能简介

云集群合并时,两台云集群会遵照角色选举的规则进行竞选,竞选失败方云集群的所有成员设备需要重启才能加入获胜方云集群。

·     如果开启云集群合并自动重启功能,则合并过程中的重启由系统自动完成。

·     如果未开启云集群合并自动重启功能,则合并过程中的重启需要网络管理员在竞选失败方上保存配置并执行重启操作,来完成云集群的合并。

¡     如果设备上输出了摘要为SCLST_MERGE_MANUAL_NOREBOOT的日志,则表明本设备所在的云集群为竞选成功方,无需重启。

¡     如果设备上输出了摘要为SCLST_MERGE_MANUAL_REBOOT的日志,则本设备所在的云集群为竞选失败方,需要手工重启来完成合并。

如果手工重启了竞选成功方,也可以完成云集群的合并,只是会导致合并后的Master会运行在竞选失败方。

要使云集群合并自动重启功能正常运行,请在待合并的多台云集群上都开启云集群合并自动重启功能。

2. 配置步骤

(1)     进入系统视图。

system-view

(2)     开启云集群合并自动重启功能。

cloud-cluster auto-merge enable

缺省情况下,云集群合并自动重启功能处于开启状态。即两台云集群合并时,竞选失败方会自动重启加入获胜方云集群。

1.12.5  阻止指定成员编号的设备加入云集群

1. 功能简介

在某些情况下,跨成员设备转发的报文中会携带错误的成员编号,例如由于云集群连接所使用的光模块、光纤或电缆的质量问题而产生误码。如果成员设备接收的报文中携带的成员编号在本设备支持的编号范围内,但在当前云集群中并未使用,则将导致该报文的泛洪式转发甚至引起云集群拓扑的震荡。

为避免上述情况,可以使用本命令在云集群中将未使用的成员编号进行阻止,云集群成员设备在接收到包含被阻止编号的报文时,将直接丢弃该报文。

2. 配置限制和指导

成员编号被阻止后,使用该编号的成员设备将无法加入云集群,请在配置前谨慎确认需要阻止的编号。如果后续需要扩充云集群,需先执行undo cloud-cluster service-cluster block member命令取消阻止。

在集群分裂的情况下,如果在主设备或从设备上配置了cloud-cluster service-cluster block member命令,当集群链路恢复后,从设备会自动重启。重启成功后会出现“双主”。

3. 配置步骤

(1)     进入系统视图。

system-view

(2)     阻止指定成员编号的设备加入云集群。

cloud-cluster service-cluster block member member-id

缺省情况下,未阻止设备加入云集群。

1.12.6  开启云集群WLAN接入优化功能

1. 功能简介

开启该功能后,在保障AP及客户端接入的同时,设备会加速完成新的成员设备加入云集群和云集群成员角色切换过程。

2. 配置步骤

(1)     进入系统视图。

system-view

(2)     开启云集群WLAN接入优化功能。

cloudcluster-optimize wlan reliable-access

缺省情况下,云集群WLAN接入优化功能处于开启状态。

1.13  容器集群显示和维护

在任意视图下执行以下命令,可显示容器集群内容器的相关信息。

display cloud-cluster service-cluster container [ container-id ] [ verbose ]

1.14  访问云集群

ComwareV9容器对外提供人机交互接口,例如命令行、SNMP、NETCONF、CWMP、Web等登录方式。登录ComwareV9容器集群可访问容器集群和物理集群,查看云集群系统的所有配置和信息(包括物理集群和容器集群)。

管理员可通过以下方式登录容器集群的命令行界面:

·     本地登录:通过任意成员容器的AUX或者Console口登录。

·     远程登录:给任意成员容器的任意三层接口配置IP地址,并且路由可达,就可以通过Telnet、SNMP等方式进行远程登录。

不管使用哪种方式登录容器集群,实际上登录的都是主容器。主容器是容器集群的配置和控制中心,在主容器上配置后,主容器会将相关配置同步给从容器,以便保证主容器和从容器配置的一致性。

网络管理员关于物理集群的配置,主容器会通过本设备上的云平台Agent组件传递给物理集群的Lea‌der,Leader再将指定传递给所有的Manager和Worker,最终实现对整个云集群的管理。

云集群配置举例

1.15  云集群基础配置举例

1. 组网需求

图1-27所示,AC 1与AC 2通过直连链路建立云集群,云集群与Core 1和Core 2之间建立动态聚合链路,用于LACP MAD检测和业务报文转发。

2. 组网图

图1-27 云集群基础配置组网图

 

3. 配置Core1和Core2

# 配置前提:Core1和Core2为稳定运行的Comware V7 IRF系统。

# 创建二层聚合接口1,并配置该聚合接口对应的聚合组工作在动态聚合模式下。

<Core> system-view

[Core] interface bridge-aggregation 1

[Core-Bridge-Aggregation1] link-aggregation mode dynamic

[Core-Bridge-Aggregation1] quit

# 将端口Ten-GigabitEthernet1/0/2加入到聚合组1中。

[Core] interface ten-gigabitethernet 1/0/2

[Core-Ten-GigabitEthernet1/0/2] port link-aggregation group 1

[Core-Ten-GigabitEthernet1/0/2] quit

# 将端口Ten-GigabitEthernet2/0/2加入到聚合组1中。

[Core] interface ten-gigabitethernet 2/0/2

[Core-Ten-GigabitEthernet2/0/2] port link-aggregation group 1

[Core-Ten-GigabitEthernet2/0/2] quit

4. 配置AC 1

(1)     设备在云集群中使用缺省的成员编号1,无需修改。

(2)     配置设备在云集群中的成员IP。

云集群中成员设备的成员IP地址必须同网段,需要提前规划好该网段(本文以192.168.10.x/24举例)。

<AC1> system-view

[AC1] cloud-cluster member 1

[AC1-ccluster-member-1]

[AC1-ccluster-member-1] member-ip 192.168.10.10 24

(3)     指定设备要加入的集群IP地址。(设备作为Leader时,本步骤可省略)

[AC1-ccluster-member-1] join-cluster ip 192.168.10.10

(4)     绑定云集群端口。其中,Gigabitethernet1/0/2上部署控制通道,Ten-GigabitEthernet1/3/9上部署数据通道。

[AC1-ccluster-member-1] cluster-link control bind interface gigabitethernet 1/0/2

 

The system will shut down and then bring up the interface after activation the cloud cluster configuration. Continue? [Y/N]: y

[AC1-ccluster-member-1] cluster-link data bind interface ten-gigabitethernet 1/3/9

 

The system will shut down and then bring up the interface after activation the cloud cluster configuration. Continue? [Y/N]: y

[AC1-ccluster-member-1] quit

(5)     激活云集群配置。

[AC1] cloud-cluster configuration active

New cluster configuration:

  cloud-cluster service-cluster domain 0

  cloud-cluster hello cloud-timeout 7 service-timeout 10

  cloud-cluster member 1

    member-ip 192.168.10.10/24

    join-cluster ip 192.168.10.10

    role manager-worker

    rcluster-link control bind interface GigabitEthernet 1/0/2

    rcluster-link data bind interface Ten-GigabitEthernet 1/3/9

The system will activate and save the configuration, and it might do a restart. Continue? [Y/N]:y

The current configuration will be written to the device. Are you sure? [Y/N]:y

Please input the file name(*.cfg)[flash:/startup.cfg]

(To leave the existing filename unchanged, press the enter key):test.cfg

Validating file. Please wait...

Saved the current configuration to mainboard device successfully

AC 1重启后,云集群配置生效。

5. 配置AC 2

(1)     将设备的成员IP地址配置为192.168.10.11/24。(AC1与AC2的成员IP地址必须同网段)

<AC2> system-view

[AC2] cloud-cluster member 1

[AC2-ccluster-member-1] member-ip 192.168.10.11 24

(2)     指定设备要加入的集群IP地址为AC 1的成员IP地址。

[AC2-ccluster-member-1] join-cluster ip 192.168.10.10

(3)     绑定云集群端口。其中,Gigabitethernet1/0/2上部署控制通道,Ten-GigabitEthernet1/3/9上部署数据通道。

[AC2-ccluster-member-1] cluster-link control bind interface GigabitEthernet 1/0/2

 

The system will shut down and then bring up the interface after activation the cloud cluster configuration. Continue? [Y/N]: y

[AC2-ccluster-member-1] cluster-link data bind interface Ten-GigabitEthernet 1/3/9

 

The system will shut down and then bring up the interface after activation the cloud cluster configuration. Continue? [Y/N]: y

[AC2-ccluster-member-1] quit

(4)     将设备在云集群中的成员编号修改为2。(每台设备的成员编号必须在云集群内唯一)

[AC2] cloud-cluster member 1 renumber 2

This command will take effect after the cloud cluster configuration is activated. The command might result in configuration change or loss when it takes effect. Continue? [Y/N]: y

(5)     激活云集群配置。

[AC2] cloud-cluster configuration active

New cluster configuration:

  cloud-cluster service-cluster domain 0

  cloud-cluster hello cloud-timeout 7 service-timeout 10

  cloud-cluster member 2

    member-ip 192.168.10.11/24

    join-cluster ip 192.168.10.10

    role manager-worker

    cluster-link control bind interface GigabitEthernet 2/0/2

    cluster-link data bind interface Ten-GigabitEthernet 2/3/9

The system will activate and save the configuration, and it might do a restart. Continue? [Y/N]:y

The current configuration will be written to the device. Are you sure? [Y/N]:y

Please input the file name(*.cfg)[flash:/startup.cfg]

(To leave the existing filename unchanged, press the enter key):test.cfg

Validating file. Please wait...

Saved the current configuration to mainboard device successfully

AC 2重启后,云集群配置生效,会以Follower的身份加入物理集群。容器集群中,AC 1上的容器为主容器,AC 2上的容器为从容器。

6. 显示集群状态,查看云集群是否搭建成功

# 显示物理集群的相关信息,可以看到物理集群中有两台设备,AC 1是Leader,AC 2是Follower。

<AC1> display cloud-cluster

Manager list:

Member ID    Role        Member IP           State       Heartbeat(ms)

1            Leader      192.168.10.10       online      100

2            Follower    192.168.10.11       online      0

Worker list:

Member ID    State       Heartbeat(ms)       Joined at

1            online      100                 2023-02-12 06:13:28

2            online      200                 2023-02-12 06:13:28

# 显示容器集群的相关信息,可以看到AC 1上的容器为Master,AC 2上的容器是Standby。

<AC1> display cloud-cluster service-cluster container

Container ID     Slot ID       Member ID      Role        Status

*+1              1             1              Master      Online

  2              2             2              Standby     Online

---------------------------------------------------------------

 

 * indicates the device is the master.

 + indicates the device through which the user logs in.

7. 云集群建立后,配置LACP MAD

# 创建二层聚合接口1,并配置该聚合接口对应的聚合组工作在动态聚合模式下。

<AC1> system-view

[AC1] interface bridge-aggregation 1

[AC1-Bridge-Aggregation1] link-aggregation mode dynamic

# 开启LACP MAD检测功能。

[AC1-Bridge-Aggregation1] mad enable

You need to assign a domain ID (range: 0-4294967295)

[Current domain ID is: 0]: 1

The assigned domain ID is: 1

[AC1-Bridge-Aggregation1] quit

# 将端口Ten-GigabitEthernet1/3/10加入到聚合组1中。

[AC1] interface ten-gigabitethernet 1/3/10

[AC1-Ten-GigabitEthernet1/3/10] port link-aggregation group 1

[AC1-Ten-GigabitEthernet1/3/10] quit

# 将端口Ten-GigabitEthernet2/3/10加入到聚合组1中。

[AC1] interface ten-gigabitethernet 2/3/10

[AC1-Ten-GigabitEthernet2/3/10] port link-aggregation group 1

[AC1-Ten-GigabitEthernet2/3/10] quit

1.15.2  物理设备故障替换配置举例

1. 组网需求

图1-28所示,AC 1与AC 2已经形成云集群,如果AC 1设备故障,需要使用同型号新设备替换AC 1。

2. 组网图

图1-28 物理设备故障替换配置组网图

 

3. 配置思路

(1)     将AC 2从云集群中隔离,并激活AC 2的物理集群配置(执行该步骤的目的是让AC 2删除本地拓扑中AC 1的信息,否则,新设备以AC 1的成员编号加入时,物理集群会认为编号冲突,导致新设备无法加入物理集群)。

(2)     登录新设备,将新设备的Join IP配置为AC 2的成员IP。

(3)     将AC 1从组网中移除。

(4)     将AC 1的配置拷贝到新设备上,或者在新设备上重新执行一遍AC 1的配置。

(5)     将新设备接入组网。

4. 配置AC 2

# 将AC 2从云集群中隔离。

<AC2> system-view

[AC2] cloud-cluster member 2

[AC2-ccluster-member-2] undo join-cluster

[AC2-ccluster-member-2] quit

[AC2] cloud-cluster configuration active

New cluster configuration:

  cloud-cluster service-cluster domain 0

  cloud-cluster hello cloud-timeout 7 service-timeout 10

  cloud-cluster member 2

    member-ip 192.168.10.11/16

    role manager-worker

    cluster-link bind interface GigabitEthernet 2/0/1

The system will activate and save the configuration, and it might do a restart. Continue? [Y/N]:Y

The current configuration will be written to the device. Are you sure? [Y/N]:y

Please input the file name(*.cfg)[flash:/startup.cfg]

(To leave the existing filename unchanged, press the enter key):

flash:/startup.cfg exists, overwrite? [Y/N]:y

Validating file. Please wait...

# 在AC 2上查看物理集群的信息,可以看到AC 1的信息已经被清除。

[AC2] display cloud-cluster

Manager list:

Member ID    Role        Member IP           State       Heartbeat(ms)

2            Leader      192.168.10.11       online      0

Worker list:

Member ID    State       Heartbeat(ms)       Joined at

2            online      0                   2023-02-25 22:49:52

5. 配置新设备

将AC 1的配置文件上传到新设备上,在新设备上执行cloud-cluster configuration active命令,激活云集群相关配置。如果不能上传配置文件,请参考AC 1的配置来配置新设备(新设备要加入的集群IP地址需要修改为AC 2的成员IP)

(1)     AC 1的成员编号为1,所以新设备无需配置成员编号。

(2)     配置设备在云集群中的成员IP。

云集群中成员设备的成员IP地址必须同网段,需要提前规划好该网段(本文以192.168.10.x/24举例)。

<NewAC> system-view

[NewAC] cloud-cluster member 1

[NewAC-ccluster-member-1]

[NewAC-ccluster-member-1] member-ip 192.168.10.10 24

(3)     指定设备要加入的集群IP地址为AC 2的成员IP。

[NewAC-ccluster-member-1] join-cluster ip 192.168.10.11

(4)     绑定云集群端口。其中,Gigabitethernet1/0/2上部署控制通道,Ten-GigabitEthernet1/3/9上部署数据通道。

[NewAC-ccluster-member-1] cluster-link control bind interface gigabitethernet 1/0/2

 

The system will shut down and then bring up the interface after activation the cloud cluster configuration. Continue? [Y/N]: y

[NewAC-ccluster-member-1] cluster-link data bind interface ten-gigabitethernet 1/3/9

 

The system will shut down and then bring up the interface after activation the cloud cluster configuration. Continue? [Y/N]: y

[NewAC-ccluster-member-1] quit

(5)     激活云集群配置。

[NewAC] cloud-cluster configuration active

New cluster configuration:

  cloud-cluster service-cluster domain 0

  cloud-cluster hello cloud-timeout 3 service-timeout 5

  cloud-cluster member 1

    member-ip 192.168.10.10/24

    join-cluster ip 192.168.10.11

    role manager-worker

cluster-link control bind interface GigabitEthernet 1/0/2

cluster-link data bind interface Ten-GigabitEthernet 1/3/9

The system will activate and save the configuration, and it might do a restart. Continue? [Y/N]:y

The current configuration will be written to the device. Are you sure? [Y/N]:y

Please input the file name(*.cfg)[flash:/startup.cfg]

(To leave the existing filename unchanged, press the enter key):test.cfg

Rebooting....

6. 将AC 1从组网中移除

7. 按照AC 1的连线将新设备接入组网(新设备会自动加入AC 2所在的云集群)

8. 验证配置

# 显示物理集群的相关信息,可以看到物理集群中有两台设备,AC 2是Leader,新设备是Follower。

<AC2> display cloud-cluster

Manager list:

Member ID    Role        Member IP           State       Heartbeat(ms)

1            Follower    192.168.10.10       online      0

2            Leader      192.168.10.11       online      100

Worker list:

Member ID    State       Heartbeat(ms)       Joined at

1            online      100                 2023-02-12 06:13:28

2            online      200                 2023-02-12 06:13:28

# 显示容器集群的相关信息,可以看到AC 2上的容器为Master,新设备上的容器是Standby。

<AC2> display cloud-cluster service-cluster container

Container ID     Slot ID       Member ID      Role        Status

  1              1             1              Standby     Online

*+2              2             2              Master      Online

---------------------------------------------------------------

 

 * indicates the device is the master.

 + indicates the device through which the user logs in.

1.15.3  集群链路异常,替换集群接口配置举例

1. 组网需求

图1-29所示,AC 1与AC 2已经形成云集群,控制通道和数据通道均部署在GigabitEthernet1/0/1和GigabitEthernet2/0/1上。如果GigabitEthernet1/0/1接口故障,需要部署其它集群链路。

2. 组网图

图1-29 集群链路异常,替换集群接口配置组网图

 

3. 配置AC 1

# 集群接口异常导致物理集群分裂,登录AC 1,可看到AC 1和AC 2均为Follower。

<AC1> display cloud-cluster

Manager list:

Member ID    Role        Member IP           State       Heartbeat(ms)

1            Follower    1.1.2.11            offline     --

2            Follower    1.1.2.12            offline     --

Worker list:

Member ID    State       Heartbeat(ms)       Joined at

1            offline     --                  --

2            offline     --                  --

# 显示容器集群内所有容器的详细信息。

<Sysname> display cloud-cluster service-cluster container verbose

Service-cluster name: System

  Domain ID         : 1

  Cluster Bridge MAC: 00e0-fc00-1001

  Container ID   : 1

    Member ID    : 1

    Slot ID      : 1

    Health       : Healthy(0)

    Bridge MAC   : 00e0-fc00-1001

    CPU MAC      : 00f0-fc00-1001

    Control links: GigabitEthernet1/0/1(DOWN)

    Data links   : GigabitEthernet1/0/1(DOWN)

    Cluster connection : Unreachable

    Status       : Offline

    Self hello timeout (ms)  : 4000

    Master hello timeout (ms): 4000

  Container ID   : 2

    Member ID    : 2

    Slot ID      : 2

    Health       : Normal(0)

    Bridge MAC   : 00e0-fc00-1002

    CPU MAC      : 00f0-fc00-1002

    Ctrl port    : GigabitEthernet2/0/1(DOWN)

    Data port    : GigabitEthernet2/0/1(DOWN)

    Cluster connection : Unreachable

    Status       : Offline

    Self hello timeout (ms)  : 4000

    Master hello timeout (ms): 4000

# 绑定新的集群接口GigabitEthernet1/0/2。

<AC1> system-view

[AC1] cloud-cluster member 1

[AC1-ccluster-member-1] cluster-link bind interface gigabitethernet 1/0/2

The system will shut down and then bring up the interface after activation the c

loud cluster configuration. Continue? [Y/N]: y

[AC1-ccluster-member-1] quit

# 激活云集群配置。

[AC1] cloud-cluster configuration active

New cluster configuration:

  cloud-cluster service-cluster domain 0

  cloud-cluster hello cloud-timeout 7 service-timeout 10

  cloud-cluster member 1

    member-ip 192.168.10.10/24

    join-cluster ip 192.168.10.10

    role manager-worker

    cluster-link bind interface GigabitEthernet 1/0/2

The system will activate and save the configuration, and it might do a restart. Continue? [Y/N]:y

The current configuration will be written to the device. Are you sure? [Y/N]:y

Please input the file name(*.cfg)[flash:/startup.cfg]

(To leave the existing filename unchanged, press the enter key):

flash:/startup.cfg exists, overwrite? [Y/N]:y

Validating file. Please wait...

Saved the current configuration to mainboard device successfully.

4. 配置AC 2

# 将AC 1的GigabitEthernet1/0/2和AC 2的GigabitEthernet2/0/2连接。

# 绑定新集群接口GigabitEthernet2/0/2。

<AC2> system-view

[AC2] cloud-cluster member 2

[AC1-ccluster-member-2] cluster-link bind interface GigabitEthernet 2/0/2

The system will shut down and then bring up the interface after activation the cloud cluster configuration. Continue? [Y/N]: y

[AC1-ccluster-member-1] quit

# 激活云集群配置。

[AC1] cloud-cluster configuration active

New cluster configuration:

  cloud-cluster service-cluster domain 0

  cloud-cluster hello cloud-timeout 7 service-timeout 10

  cloud-cluster member 2

    member-ip 192.168.10.11/24

    join-cluster ip 192.168.10.10

    role manager-worker

    cluster-link bind interface GigabitEthernet 2/0/2

The system will activate and save the configuration, and it might do a restart. Continue? [Y/N]:y

The current configuration will be written to the device. Are you sure? [Y/N]:y

Please input the file name(*.cfg)[flash:/startup.cfg]

(To leave the existing filename unchanged, press the enter key):

flash:/startup.cfg exists, overwrite? [Y/N]:y

Validating file. Please wait...

Saved the current configuration to mainboard device successfully.

AC 2重启后集群恢复。

5. 验证配置

# 显示物理集群的相关信息,可以看到物理集群中有两台设备,AC 1是Leader,AC 2是Follower。

<AC1> display cloud-cluster

Manager list:

Member ID    Role        Member IP           State       Heartbeat(ms)

1            Leader      192.168.10.10       online      100

2            Follower    192.168.10.11       online      0

Worker list:

Member ID    State       Heartbeat(ms)       Joined at

1            online      100                 2023-02-12 06:13:28

2            online      200                 2023-02-12 06:13:28

# 显示容器集群的相关信息,可以看到AC 1上的容器为Master,AC 2上的容器是Standby。

<AC1> display cloud-cluster service-cluster container

*+1              1             1              Master      Online

  2              2             2              Standby     Online

---------------------------------------------------------------

 

 * indicates the device is the master.

 + indicates the device through which the user logs in.

1.15.4  将物理设备从云集群A迁移到云集群B的配置举例

1. 组网需求

图1-30所示,Device A与Device B已经形成云集群A,云集群B中只有设备Device C,Device C的成员IP地址为192.168.20.20/24。现因为组网改造,需要将Device B迁移到云集群B。

2. 组网图

图1-30 将物理设备从云集群A迁移到云集群B的配置组网图

 

3. 配置Device B

# 登录云集群A,让Device B离开从云集群A。

<Sysname> system-view

[Sysname] cloud-cluster member 2

[Sysname-ccluster-member-2] undo join-cluster

[Sysname-ccluster-member-2] quit

[Sysname] cloud-cluster configuration active

New cluster configuration:

  cloud-cluster service-cluster domain 0

  cloud-cluster hello cloud-timeout 7 service-timeout 10

  cloud-cluster member 2

    member-ip 192.168.10.11 24

    role manager-worker

    cluster-link control bind interface GigabitEthernet 2/0/1

    cluster-link data bind interface Ten-GigabitEthernet 2/0/2

The system will activate and save the configuration, and it might do a restart. Continue? [Y/N]:y

The current configuration will be written to the device. Are you sure? [Y/N]:y

Please input the file name(*.cfg)[flash:/startup.cfg]

(To leave the existing filename unchanged, press the enter key):test.cfg

Validating file. Please wait...

Saved the current configuration to mainboard device successfully.

# Device B重启后,会单机运行。

# 将Device B的接口Gigabitethernet2/0/1连接到Device C的接口Gigabitethernet1/0/1,Device B的接口Gigabitethernet2/0/2连接到Device C的接口Gigabitethernet1/0/2,将Device B移入云集群B。

# 配置设备在云集群B中的成员IP(必须和Device C的成员IP地址192.168.20.20/24处于同一网段)。

<Sysname> system-view

[Sysname] cloud-cluster member 2

[Sysname-ccluster-member-2] member-ip 192.168.20.21 24

# 指定设备要加入的集群IP地址为Device C的成员IP地址192.168.20.20/24。

[Sysname-ccluster-member-1] join-cluster ip 192.168.20.20

# 绑定云集群端口。其中,Gigabitethernet2/0/1上部署控制通道,Gigabitethernet2/0/2上部署数据通道。

[Sysname-ccluster-member-1] cluster-link control bind interface gigabitethernet 2/0/1

 

The system will shut down and then bring up the interface after activation the cloud cluster configuration. Continue? [Y/N]: y

[Sysname-ccluster-member-1] cluster-link data bind interface ten-gigabitethernet 2/0/2

 

The system will shut down and then bring up the interface after activation the cloud cluster configuration. Continue? [Y/N]: y

[Sysname-ccluster-member-1] quit

# 激活云集群配置。

[Sysname] cloud-cluster configuration active

New cluster configuration:

  cloud-cluster service-cluster domain 0

  cloud-cluster hello cloud-timeout 7 service-timeout 10

  cloud-cluster member 2

    member-ip 192.168.20.21/24

    join-cluster ip 192.168.20.20

    role manager-worker

cluster-link control bind interface GigabitEthernet 2/0/1

cluster-link data bind interface GigabitEthernet 2/0/2

The system will activate and save the configuration, and it might do a restart. Continue? [Y/N]:y

The current configuration will be written to the device. Are you sure? [Y/N]:y

Please input the file name(*.cfg)[flash:/startup.cfg]

(To leave the existing filename unchanged, press the enter key):test.cfg

Validating file. Please wait...

Saved the current configuration to mainboard device successfully.

Device B重启后,云集群配置生效,Device B会自动加入云集群B。

4. 验证配置

# 显示物理集群的相关信息,可以看到物理集群中有两台设备,Device C是Leader,Device B是Follower。

<Sysname> display cloud-cluster

Manager list:

Member ID    Role        Member IP           State       Heartbeat(ms)

1            Leader      192.168.20.20       online      100

2            Follower    192.168.20.21       online      0

Worker list:

Member ID    State       Heartbeat(ms)       Joined at

1            online      100                 2023-02-12 06:13:28

2            online      200                 2023-02-12 06:13:28

# 显示容器集群的相关信息,可以看到Device C上的容器为Master,Device B上的容器是Standby。

<Sysname> display cloud-cluster service-cluster container

*+1              1             1              Master      Online

  2              2             2              Standby     Online

---------------------------------------------------------------

 

 * indicates the device is the master.

 + indicates the device through which the user logs in.

不同款型规格的资料略有差异, 详细信息请向具体销售和400咨询。H3C保留在没有任何通知或提示的情况下对资料内容进行修改的权利!

新华三官网
联系我们