IRF2.0技术介绍


IRF2.0

H3C一直致力于IRF技术的研发和优化,继推出IRF1.0之后,现又推出了具有更加完善功能的通用虚拟化技术IRF2.0。本文将对IRF2.0技术进行简要介绍。

 

IRF简介

IRF概述

IRFIntelligent Resilient Framework,智能弹性架构)是H3C自主研发的软件虚拟化技术。它的核心思想是将多台设备通过IRF物理端口连接在一起,进行必要的配置后,虚拟化成一台“分布式设备”。使用这种虚拟化技术可以实现多台设备的协同工作、统一管理和不间断维护。

为了便于描述,这个“虚拟设备”也称为IRF。所以,本文中的IRF有两层意思,一个是指IRF技术,一个是指IRF设备。

IRF的优点

IRF主要具有以下优点:

l   简化管理。IRF形成之后,用户通过任意成员设备的任意端口都可以登录IRF系统,对IRF内所有成员设备进行统一管理。

l   高可靠性。IRF的高可靠性体现在多个方面,例如:IRF由多台成员设备组成,Master设备负责IRF的运行、管理和维护,Slave设备在作为备份的同时也可以处理业务。一旦Master设备故障,系统会迅速自动选举新的Master,以保证业务不中断,从而实现了设备的1:N备份;此外,成员设备之间的IRF链路支持聚合功能,IRF和上、下层设备之间的物理链路也支持聚合功能,多条链路之间可以互为备份也可以进行负载分担,从而进一步提高了IRF的可靠性。

l   强大的网络扩展能力。通过增加成员设备,可以轻松自如的扩展IRF的端口数、带宽。因为各成员设备都有CPU,能够独立处理协议报文、进行报文转发,所以IRF还能够轻松自如的扩展处理能力。

IRF的应用

1所示,MasterSlave组成IRF,对上、下层设备来说,它们就是一台设备——IRFIRF可部署在核心层、汇聚层和接入层。

图 1 IRF组网应用示意图

 

IRF基本概念

IRF虚拟化技术涉及如下基本概念:

1. 运行模式

设备支持两种运行模式:

l   独立运行模式:处于该模式下的设备只能单机运行,不能与别的设备形成IRF

l   IRF模式:处于该模式下的设备可以与其它设备互连形成IRF

两种模式之间通过命令行进行切换。

2. 角色

IRF中每台设备都称为成员设备。成员设备按照功能不同,分为两种角色:

l   Master:负责管理整个IRF

l   Slave:作为Master的备份设备运行。当Master故障时,系统会自动从Slave中选举一个新的Master接替原Master工作。

MasterSlave均由角色选举产生。一个IRF中同时只能存在一台Master,其它成员设备都是Slave。关于设备角色选举过程的详细介绍请参见角色选举章节。

3. IRF端口

一种专用于IRF的逻辑接口,分为IRF-Port1IRF-Port2。它需要和物理端口绑定之后才能生效。

在独立运行模式下,IRF端口分为IRF-Port1IRF-Port2;在IRF模式下,IRF端口分为IRF-Portn/1IRF-Portn/2,其中n为设备的成员编号。为简洁起见,本文描述时统一使用IRF-Port1IRF-Port2

 

4. IRF物理端口

设备上可以用于IRF连接的物理端口。IRF物理端口可能是IRF专用接口、以太网接口或者光口。

通常情况下,以太网接口或者光口负责向网络中转发业务报文,当它们与IRF端口绑定后就作为IRF物理端口,用于成员设备之间转发报文。可转发的报文包括IRF相关协商报文以及需要跨成员设备转发的业务报文。

5. IRF合并

2所示,两个IRF各自已经稳定运行,通过物理连接和必要的配置,形成一个IRF,这个过程称为IRF合并(merge)。

图 2 IRF合并示意图

 

6. IRF分裂

3所示,一个IRF形成后,由于IRF链路故障,导致IRF中两相邻成员设备物理上不连通,一个IRF变成两个IRF,这个过程称为IRF分裂(split)。

图 3 IRF分裂示意图

 

7. 成员优先级

成员优先级是成员设备的一个属性,主要用于角色选举过程中确定成员设备的角色。优先级越高当选为Master的可能性越大。

IRF工作原理

IRF的生命周期分为:物理连接拓扑收集角色选举IRF管理与维护四个阶段。成员设备之间需要先建立IRF物理连接,然后会自动进行拓扑收集和角色选举,处理成功后,IRF系统正常运行,进入IRF管理和维护阶段。

物理连接

要形成一个IRF,需要先按照以下规则连接IRF物理端口:

本设备上与IRF-Port1绑定的IRF物理端口只能和邻居成员设备IRF-Port2口上绑定的IRF物理端口相连,本设备上与IRF-Port2口绑定的IRF物理端口只能和邻居成员设备IRF-Port1口上绑定的IRF物理端口相连,如 4所示。否则,不能形成IRF

图 4 IRF物理连接示意图

 

拓扑收集

每个成员设备都在本地记录自己已知的拓扑信息,通过和邻居成员设备交互IRF Hello报文来收集整个IRF的拓扑。

(1)      初始时刻,成员设备只记录了自身的拓扑信息;

(2)      IRF端口状态变为up后,成员设备会将已知的拓扑信息周期性的发送出去;

(3)      成员设备收到邻居的拓扑信息后,会更新本地记录的拓扑信息。

经过一段时间的收集,所有设备上都会收集到完整的拓扑信息(称为拓扑收敛)。此时会进入角色选举阶段。

角色选举

确定成员设备角色为MasterSlave的过程称为角色选举。

角色选举会在拓扑变更的情况下产生,比如IRF建立、新设备加入、Master设备离开或者故障、两个IRF合并等。角色选举规则如下:

(1)      当前Master优先(IRF系统形成时,没有Master设备,所有加入的设备都认为自己是Master,会跳转到第二条规则继续比较);

(2)      成员优先级大的优先;

(3)      系统运行时间长的优先(各设备的系统运行时间信息也是通过IRF Hello报文来传递的);

(4)      MAC地址小的优先。

从第一条开始判断,如果判断的结果是多个最优,则继续判断下一条,直到找到唯一最优的成员设备才停止比较。此最优成员设备即为Master,其它成员设备则均为Slave

在角色选举完成后,IRF形成,进入IRF管理与维护阶段。

IRF合并的情况下,两个IRF会进行IRF竞选,竞选仍然遵循角色选举的规则,竞选失败方的所有成员设备重启后均以Slave的角色加入获胜方,最终合并为一个IRF

 

在角色选举完成后,IRF形成:

l   盒式设备虚拟化形成的IRF相当于一台框式分布式设备,Master相当于IRF的主用主控板,Slave设备相当于备用主控板(同时担任接口板的角色),如 5所示。

图 5 盒式设备虚拟化效果图

 

l   框式分布式设备虚拟化形成的IRF也相当于一台框式分布式设备,只是该虚拟的框式分布式设备拥有更多的备用主控板和接口板。Master的主用主控板相当于IRF的主用主控板,Master的备用主控板以及Slave的主用、备用主控板均相当于IRF的备用主控板(同时担任接口板的角色),如 6所示。

图 6 框式分布式设备虚拟化效果图

 

IRF的管理与维护

角色选举完成之后,IRF形成,所有的成员设备组成一台虚拟设备存在于网络中,所有成员设备上的资源归该虚拟设备拥有并由Master统一管理。

1. 成员编号

在运行过程中,IRF使用成员编号(Member ID)来标志和管理成员设备。在IRF中必须保证所有设备成员编号的唯一性。

如果建立IRF时成员设备的编号不唯一(即存在编号相同的成员设备),则不能建立IRF;如果新设备加入IRF,但是该设备与已有成员设备的编号冲突,则该设备不能加入IRF。请在建立IRF前,统一规划各成员设备的编号,并逐一进行手工配置,以保证各设备成员编号的唯一性。

2. IRF拓扑维护

如果某成员设备A down或者IRF链路down,其邻居设备会立即将“成员设备A离开”的信息广播通知给IRF中的其它设备。获取到离开消息的成员设备会根据本地维护的IRF拓扑信息表来判断离开的是Master还是Slave,如果离开的是Master,则触发新的角色选举,再更新本地的IRF拓扑;如果离开的是Slave,则直接更新本地的IRF拓扑,以保证IRF拓扑能迅速收敛。

3. IRF冲突检测(MAD功能)

IRF链路故障会导致一个IRF变成两个新的IRF。这两个IRF拥有相同的IP地址等三层配置,会引起地址冲突,导致故障在网络中扩大。为了提高系统的可用性,当IRF分裂时我们就需要一种机制,能够检测出网络中同时存在多个IRF,并进行相应的处理尽量降低IRF分裂对业务的影响。MADMulti-Active Detection,多Active检测)就是这样一种检测和处理机制。它主要提供以下功能:

l   分裂检测:通过LACPLink Aggregation Control Protocol,链路聚合控制协议)、BFDBidirectional Forwarding Detection,双向转发检测)或者免费ARPGratuitous Address Resolution Protocol)来检测网络中是否存在多个IRF

l   冲突处理:当检测到网络中存在多个IRF时,让Master成员编号最小的IRF继续正常工作(维持Active状态),其它IRF会迁移到Recovery状态(表示IRF处于禁用状态),并关闭Recovery状态IRF中所有成员设备上除保留端口以外的其它所有物理端口(通常为业务接口),以保证该IRF不能再转发业务报文;

l   MAD故障恢复:IRF通过日志提示用户多Active冲突。此时设备会尝试自动修复IRF链路,如果修复失败的话,需要用户手工修复。IRF链路修复后,分裂的IRF会重新合并,Recovery状态IRF会自动恢复到Active状态,被关闭的物理端口将自动恢复转发能力。异常情况下(比如Active状态的IRF断电或者故障等),可以通过命令行启用Recovery状态的IRFRecovery状态的IRF会恢复到Active状态,被关闭的物理端口也会恢复转发能力。

 

附件下载

联系我们