• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 新华三人才研学中心
  • 关于我们

09-RBM双机热备

01-RBM双机热备故障案例

本章节下载  (451.94 KB)

docurl=/cn/Service/Document_Software/Document_Center/Home/Security/00-Public/Maintenance/Maintenance_Treasure/H3C_SecPath_M9000-5150/09/202208/1663973_30005_0.htm

01-RBM双机热备故障案例

1.1  RBM通道无法建立

1.1.1  故障描述

两台设备中的RBM状态均为disconnected,RBM通断无法建立,两台设备RBM双机热备部署失败。

1.1.2  故障排查思路

图1-1 故障排查思路图

 

1.1.3  故障处理步骤

1. 确认设备型号和软件版本是否一致,两台设备的型号和软件版本应一致。

通过display version查看设备型号和版本是否一致。

<Device> system-view

[Device] display version

H3C Comware Software, Version 7.1.064, Release 9153P36

Copyright (c) 2004-2022 New H3C Technologies Co., Ltd. All rights reserved.

H3C SecPath M9006 uptime is 0 weeks, 3 days, 3 hours, 45 minutes

Last reboot reason : User reboot

2. 进入RBM视图,检查两台设备中的RBM配置是否正常。

检查两侧的remote-ip和local-ip是否配置正确;是否指定了remote-ip的端口,两侧remote-ip的端口是否一致;检查两侧的device-role是否配置正确,需要一端为primary、一端为secondary。

配置主设备:

[DeviceA] system-view

[DeviceA] remote-backup group

[DeviceA-remote-backup-group] remote-ip 1.1.1.2

[DeviceA-remote-backup-group] local-ip 1.1.1.1

[DeviceA-remote-backup-group] interface Route-Aggregation99

[DeviceA-remote-backup-group] device-role primary

配置备设备:

[DeviceB] system-view

[DeviceB] remote-backup group

[DeviceB-remote-backup-group] remote-ip 1.1.1.1

[DeviceB-remote-backup-group] local-ip 1.1.1.2

[DeviceB-remote-backup-group] interface Route-Aggregation99

[DeviceB-remote-backup-group] device-role secondary

3. 检查业务板是否在位,状态是否达到稳态。

使用命令行display system stable state进行检查,查看各业务板是否状态达到稳态。

4. 检查业务板是否为选中状态。

使用命令行display link-aggregation verbose Blade-Aggregation

[DeviceA] display link-aggregation  verbose  Blade-Aggregation

Loadsharing Type: Shar -- Loadsharing, NonS -- Non-Loadsharing

Port Status: S -- Selected, U -- Unselected, I -- Individual

Port: A -- Auto port

Flags:  A -- LACP_Activity, B -- LACP_Timeout, C -- Aggregation,

        D -- Synchronization, E -- Collecting, F -- Distributing,

        G -- Defaulted, H -- Expired

 

Aggregate Interface: Blade-Aggregation1

Aggregation Mode: Static

Loadsharing Type: Shar

  Port             Status  Priority Oper-Key

--------------------------------------------------------------------------------

  Blade4/0/1       S       32768    4

  Blade7/0/1       S       32768    4

 

Aggregate Interface: Blade-Aggregation257

Aggregation Mode: Static

Loadsharing Type: Shar

  Port             Status  Priority Oper-Key

--------------------------------------------------------------------------------

  Blade4/0/2       S       32768    5

  Blade7/0/2       S       32768    5

Blade 引擎口状态为S 则表示正常。如果所有引擎口状态都为U,或者无引擎口显示,请排查业务引擎版状态。

5. 检查控制通道接口状态。

若控制通道接口为物理接口,检查接口的物理状态和协议状态是否为UP。

若控制通道接口为聚合口,检查该聚合口是否有未选中成员接口,是否存在一端接口口选中另一端接口未选中的情况。确认聚合成员两侧的选中状态一致。

6. 完成以上排查步骤后,再次检查RBM通道是否连接,若已连接,则可以确认故障已排查。

7. 如果上述定位手段均不能作出结论,请联系相关技术支持人员协助分析。

1.2  RBM双机配置不一致

1.2.1  故障描述

RBM默认每隔24h进行配置一致性检查,由于某些原因造成的配置不一致时,系统会上报不一致告警,并携带相关模块。当配置不一致时,在主备发生切换的情况下,可能会导致业务不能平滑迁移或出现问题。

RBM_P[Device]%Dec 17 14:25:43:191 2020 H3C RBM/6/RBM_CFG_COMPARE_START: Started configuration consistency check.

%Dec 17 14:25:44:775 2020 H3C RBM/6/RBM_CFG_COMPARE_RESULT: The following modules have inconsistent configuration: acl.

%Dec 17 14:25:44:775 2020 H3C RBM/6/RBM_CFG_COMPARE_FINISH: Finished configuration consistency check.

1.2.2  故障排查思路

图1-2 故障排查思路图

 

1.2.3  故障处理步骤

1. 确认具体存在差异的配置。

在配置主设备中通过display remote-backup-group sync-check 确认存在哪些配置存在差异。

例如系统检测到acl模块存在差异,建议比对当前两台FW的acl配置,存在2种情况:

·     配置备上存在acl 3000,配置主上没有

a.     若确认acl 3000需要保留,建议先在配置备设备中删除acl 300,之后在配置主上增加acl 3000,系统自动进行配置同步,然后保存2台设备的配置。

b.     若确认acl 3000无需保留,在配置主上执行configuration manual-sync命令,系统自动进行配置同步,配置备acl 3000自动删除,然后保存2台设备的配置。

·     配置主上存在acl 3000,配置备上没有

c.     若确认acl 3000需要保留,在配置主上执行configuration manual-sync命令,系统自动进行配置同步,然后保存2台设备的配置。

d.     若确认acl 3000无需保留,在配置主上删除acl 3000,并执行configuration manual-sync命令,系统自动进行配置同步,然后保存2台设备的配置。

2. 检查备设备的操作日志

检查是否在备设备中单独进行过配置变更。

3. 在控制器场景,检查设备和控制器的连接是否出现过中断。

云方案的控制器场景,一般需要关闭RBM的配置实时备份。检查是否出现过与控制器连接的中断。解决与控制器连接的可靠性问题。

4. 若为非控制器场景,检查RBM控制通道是否出现过中断

检查日志中是否出现如下形式的日志:

RBM_P[Device]%Apr 11 20:06:14:484 2022 H3C RBM/1/RBM_KEEPALIVE_IPV4: Local IP=1.1.1.2, remote IP=1.1.1.1, status=Disconnected

若出现过,建议按照RBM分裂原因进行进一步排查。

5. 完成以上操作后,再次发起配置一致性检查

在RBM视图下通过命令行configuration manual-sync-check进行检查,若故障已排除,则配置一致性检查完成后不会再上报配置不一致的日志。

6. 如果上述定位手段均不能作出结论,请联系相关技术支持人员协助分析。

1.3  RBM会话无法热备

1.3.1  故障描述

两台设备中的RBM状态均为Connected,但是会话热备异常。这种情况下若为双主组网,可能会出现业务不同,反向的设备中会出现大量丢包。

1.3.2  故障排查思路

图1-3 故障排查思路图

 

1.3.3  故障处理步骤

1. 确认设备型号和软件版本是否一致,两台设备的型号和软件版本应一致。

通过display version查看设备型号和版本是否一致。

RBM_P[Device]display version

H3C Comware Software, Version 7.1.064, Release 9153P36

Copyright (c) 2004-2022 New H3C Technologies Co., Ltd. All rights reserved.

H3C SecPath M9006 uptime is 0 weeks, 3 days, 3 hours, 45 minutes

Last reboot reason : User reboot

2. 进入RBM视图,检查两台设备中的RBM的配置是否正常。

检查两侧设备是否都配置了data-channelhot-backup enable

3. 检查业务板是否在位,状态是否达到稳态

使用命令行display system stable state进行检查,查看各业务板是否状态达到稳态。

4. 检查业务板是否为选中状态。

使用命令行display link-aggregation verbose Blade-Aggregation

RBM_P[Device] display link-aggregation  verbose  Blade-Aggregation

Loadsharing Type: Shar -- Loadsharing, NonS -- Non-Loadsharing

Port Status: S -- Selected, U -- Unselected, I -- Individual

Port: A -- Auto port

Flags:  A -- LACP_Activity, B -- LACP_Timeout, C -- Aggregation,

        D -- Synchronization, E -- Collecting, F -- Distributing,

        G -- Defaulted, H -- Expired

 

Aggregate Interface: Blade-Aggregation1

Aggregation Mode: Static

Loadsharing Type: Shar

  Port             Status  Priority Oper-Key

--------------------------------------------------------------------------------

  Blade4/0/1       S       32768    4

  Blade7/0/1       S       32768    4

 

Aggregate Interface: Blade-Aggregation257

Aggregation Mode: Static

Loadsharing Type: Shar

  Port             Status  Priority Oper-Key

--------------------------------------------------------------------------------

  Blade4/0/2       S       32768    5

  Blade7/0/2       S       32768    5

Blade 引擎口状态为S 则表示正常。如果所有引擎口状态都为U,或者无引擎口显示,请排查业务引擎版状态。

5. 检查数据通道接口的状态。

若数据通道接口为物理接口,检查接口的物理状态和协议状态是否为UP。

若数据通道接口为聚合口,检查该聚合口是否有未选中成员接口,是否存在一端接口口选中另一端接口未选中的情况。确认聚合成员两侧的选中状态一致。

6. 查看openflow表项,确认流表下发是否正常。

RBM_P[Device-probe] display system internal openflow instance inner-redirect flow

-table

Instance 4097 flow table information:

 

Table 200 information:

 Table type: Extensibility, flow entry count: 34, total flow entry count: 34

 

Flow entry 1 information:

 cookie: 0x0, priority: 64001, hard time: 0, idle time: 0, flags: check_overlap

 |no_pkt_counts|no_byte_counts, byte count: --, packet count: --

Match information:

 Input interface: RAGG99

 IP protocol: 6

 IPv4 source address: 1.1.1.2, mask: 255.255.255.255

 IPv4 destination address: 1.1.1.1, mask: 255.255.255.255

 TCP source port: 60064, mask: 0xffff

Instruction information:

 Write actions:

  Output interface: Local

  Experimenter:

experimenter option:sub-type 1, value(18,0)

 

Flow entry 2 information:

 cookie: 0x0, priority: 64000, hard time: 0, idle time: 0, flags: check_overlap

 |no_pkt_counts|no_byte_counts, byte count: --, packet count: --

Match information:

 Input interface: RAGG99

 Ethernet destination MAC address: 0cda-41b4-f7d7

 Ethernet destination MAC address mask: ffff-ffff-ffff

 Ethernet source MAC address: 4021-0021-0010

 Ethernet source MAC address mask: ffff-ffff-ffff

Instruction information:

 Write actions:

  Output interface: Blade4/0/1

  Experimenter:

experimenter option:sub-type 1, value(16,0)

 

Flow entry 3 information:

 cookie: 0x0, priority: 64000, hard time: 0, idle time: 0, flags: check_overlap

 |no_pkt_counts|no_byte_counts, byte count: --, packet count: --

Match information:

 Input interface: RAGG99

 Ethernet destination MAC address: 0cda-41b4-f7d7

 Ethernet destination MAC address mask: ffff-ffff-ffff

 Ethernet source MAC address: 4021-0021-0011

 Ethernet source MAC address mask: ffff-ffff-ffff

Instruction information:

 Write actions:

  Output interface: Blade4/0/1

  Experimenter:

experimenter option:sub-type 1, value(17,0)

检查是否存在流表显示存在value(17,0) 、value(16,0)这两类流表,若发现没有,请联系技术支持

人员协助分析。

7. 完成以上排查步骤后,再次检查RBM两端的会话数量是否一致和业务的可用性,若会话数量接近且业务无故障,则可以确认故障已排除。

8. 如果上述定位手段均不能作出结论,请联系相关技术支持人员协助分析。

1.4  RBM双主一台设备故障恢复后RBM状态无法回切为双主

1.4.1  故障描述

两台设备组成RBM双主组网,其中一台故障(业务板重启、业务板故障等)后恢复,发现RBM无法恢复为双主状态。如果这种情况长期存在,会导致一台设备长时间承载两台设备的业务流量,无法完成预定的故障回切,不利于业务的稳定处理。

1.4.2  故障排查思路

需要排查故障设备是否仍然存在其它故障,导致故障设备在故障恢复后无法恢复为主设备。

图1-4 故障排查思路图

 

1.4.3  故障处理步骤

1. 检查是否配置了delay-time配置

在RBM视图下检查是否有配置delay-time

若没有配置delay-time,则不会切换为双主状态。

确认delay-time的配置时间,需要在故障前配置delay-time才能对故障恢复后的回切生效。若故障恢复后再配置delay-time,则本次依然是不回切的,配置的delay-time针对下次故障恢复生效。

2. 确认是否已经到达回切时间

查看故障恢复的时间,确认是否已经达到了回切的时间。

3. 检查业务板是否在位,状态是否达到稳态

使用命令行display system stable state进行检查,查看各业务板是否状态达到稳态。

4. 检查业务板是否为选中状态。

使用命令行display link-aggregation verbose Blade-Aggregation

RBM_P[Device]display link-aggregation  verbose  Blade-Aggregation

Loadsharing Type: Shar -- Loadsharing, NonS -- Non-Loadsharing

Port Status: S -- Selected, U -- Unselected, I -- Individual

Port: A -- Auto port

Flags:  A -- LACP_Activity, B -- LACP_Timeout, C -- Aggregation,

        D -- Synchronization, E -- Collecting, F -- Distributing,

        G -- Defaulted, H -- Expired

 

Aggregate Interface: Blade-Aggregation1

Aggregation Mode: Static

Loadsharing Type: Shar

  Port             Status  Priority Oper-Key

--------------------------------------------------------------------------------

  Blade4/0/1       S       32768    4

  Blade7/0/1       S       32768    4

 

Aggregate Interface: Blade-Aggregation257

Aggregation Mode: Static

Loadsharing Type: Shar

  Port             Status  Priority Oper-Key

--------------------------------------------------------------------------------

  Blade4/0/2       S       32768    5

  Blade7/0/2       S       32768    5

Blade 引擎口状态为S 则表示正常。如果所有引擎口状态都为U,或者无引擎口显示,请排查业务引擎版状态。

5. 检查rbm中track项的状态

可以通过display track all查看各track状态。

RBM_P[Device]display track all

Track ID: 1

  State: Positive

  Duration: 2 days 22 hours 52 minutes 39 seconds

  Tracked object type: Interface

  Notification delay: Positive 0, Negative 0 (in seconds)

  Tracked object:

    Interface: Route-Aggregation1

    Protocol: None

Track ID: 2

  State: Positive

  Duration: 2 days 22 hours 52 minutes 38 seconds

  Tracked object type: Interface

  Notification delay: Positive 0, Negative 0 (in seconds)

  Tracked object:

Interface: Route-Aggregation30

Protocol: None

对比检查RBM视图下配置的track,状态是否都是Positive

6. 检查设备的健康值

RBM自动关注设备的健康值状态。如果健康值为1则认为设备存在相关故障。可以通过display system health查看健康值,如相关故障已恢复,需要在Probe视图下通过命令reset-health-value先手动恢复相关故障。

RBM_P[Device] display system health

Health: Normal(0)

    HgPortDown check: Normal(0)

    HgPacketLoss check: Normal(0)

    ParityError check: Normal(0)

    HgPacketDrop check: Normal(0)

    HgPacketTamper check: Normal(0)

7. 检查VRRP接口状态

如果有接口配置了VRRP,若该接口状态down,RBM会认为本端故障。

通过display vrrpdisplay vrrp ipv6检查VRRP接口状态,确认没有状态为Initialize的VRRP。

RBM_P[Device] display vrrp

IPv4 Virtual Router Information:

 Running mode      : Standard

 RBM control channel is established

   VRRP active group status : Backup

   VRRP standby group status: Backup

 Total number of virtual routers : 3

 Interface          VRID  State        Running Adver   Auth     Virtual

                                       Pri     Timer   Type        IP

 ---------------------------------------------------------------------

 RAGG2.12           11    Backup       100     100     None     221.10.1.3

 RAGG2.13           19    Backup       100     100     None     101.11.23.3

8. 检查Context的VRRP接口状态

在R9153P3004及后续版本中,支持RBM联动Context,需要关注Context下的VRRP接口状态。

在Probe视图下可以通过命令display system internal remote-backup-group context status查看用户context下的VRRP接口接口状态。

RBM_P[Device-probe] display system internal remote-backup-group context status

Context RBM control channel information:

  Device role: Client

  Connection status: Connected

  Connection handle: 67

Local context information:

  ID     Device status      Link status

  2      active             normal

  3      active             normal

  4      active             normal

  5      active             normal

Peer context information:

  ID     Device status      Link status

  2      active             normal

  3      active             normal

  4      active             normal

  5      active             normal

9. 完成以上排查后,RBM状态若已经切换成双主,则可以确认故障已排除。

10. 如果上述定位手段均不能作出结论,请联系相关技术支持人员协助分析

1.5  RBM主备的主设备故障后RBM状态无法切换

1.5.1  故障描述

两台设备组成RBM主备组网,当主设备出现故障(业务板重启、业务板故障等),发现其RBM状态仍然为主,没有切换为备。这种情况下业务仍然在这台故障的设备中处理,可能会出现业务中断。

1.5.2  故障排查思路

需要排查备设备是否也存在故障,导致主设备故障后仍然保持主设备的角色。

图1-5 故障排查思路图

 

1.5.3  故障处理步骤

1. 检查备设备业务板是否在位,状态是否达到稳态

使用命令行display system stable state进行检查,查看各业务板是否状态达到稳态。

2. 检查备设备业务板是否为选中状态。

使用命令行display link-aggregation verbose Blade-Aggregation

RBM_P[Device] dispaly link-aggregation  verbose  Blade-Aggregation

Loadsharing Type: Shar -- Loadsharing, NonS -- Non-Loadsharing

Port Status: S -- Selected, U -- Unselected, I -- Individual

Port: A -- Auto port

Flags:  A -- LACP_Activity, B -- LACP_Timeout, C -- Aggregation,

        D -- Synchronization, E -- Collecting, F -- Distributing,

        G -- Defaulted, H -- Expired

 

Aggregate Interface: Blade-Aggregation1

Aggregation Mode: Static

Loadsharing Type: Shar

  Port             Status  Priority Oper-Key

--------------------------------------------------------------------------------

  Blade4/0/1       S       32768    4

  Blade7/0/1       S       32768    4

 

Aggregate Interface: Blade-Aggregation257

Aggregation Mode: Static

Loadsharing Type: Shar

  Port             Status  Priority Oper-Key

--------------------------------------------------------------------------------

  Blade4/0/2       S       32768    5

  Blade7/0/2       S       32768    5

Blade 引擎口状态为S 则表示正常。如果所有引擎口状态都为U,或者无引擎口显示,请排查业务引擎版状态。

3. 检查备设备RBM中Track项的状态

可以通过display track all查看各track状态。

RBM_P[Device] display track all

Track ID: 1

  State: Positive

  Duration: 2 days 22 hours 52 minutes 39 seconds

  Tracked object type: Interface

  Notification delay: Positive 0, Negative 0 (in seconds)

  Tracked object:

    Interface: Route-Aggregation1

    Protocol: None

Track ID: 2

  State: Positive

  Duration: 2 days 22 hours 52 minutes 38 seconds

  Tracked object type: Interface

  Notification delay: Positive 0, Negative 0 (in seconds)

  Tracked object:

Interface: Route-Aggregation30

Protocol: None

对比检查RBM视图下配置的track ,状态是否都是Positive。

4. 检查备设备的健康值

RBM自动关注设备的健康值状态。如果健康值为1则认为设备存在相关故障。可以通过display system health 查看健康值,如相关故障已恢复,需要在Probe视图下通过命令reset-health-value先手动恢复相关故障。

RBM_P[Device] display system health

Health: Normal(0)

    HgPortDown check: Normal(0)

    HgPacketLoss check: Normal(0)

    ParityError check: Normal(0)

    HgPacketDrop check: Normal(0)

    HgPacketTamper check: Normal(0)

5. 检查备设备VRRP接口状态

如果有接口配置了VRRP,若该接口状态down,RBM会认为本端故障。

通过display vrrpdisplay vrrp ipv6检查VRRP接口状态,确认没有状态为Initialize的VRRP。

RBM_P[Device] display vrrp

IPv4 Virtual Router Information:

 Running mode      : Standard

 RBM control channel is established

   VRRP active group status : Backup

   VRRP standby group status: Backup

 Total number of virtual routers : 3

 Interface          VRID  State        Running Adver   Auth     Virtual

                                       Pri     Timer   Type        IP

 ---------------------------------------------------------------------

 RAGG2.12           11    Backup       100     100     None     221.10.1.3

 RAGG2.13           19    Backup       100     100     None     101.11.23.3

6. 检查备设备Context的VRRP接口状态

在R9153P3004及后续版本中,支持RBM联动Context,需要关注Context下的VRRP接口状态。

在Probe视图下可以通过命令display system internal remote-backup-group context status查看用户context下的VRRP接口接口状态。

RBM_P[Device-probe] display system internal remote-backup-group context status

Context RBM control channel information:

  Device role: Client

  Connection status: Connected

  Connection handle: 67

Local context information:

  ID     Device status      Link status

  2      active             normal

  3      active             normal

  4      active             normal

  5      active             normal

Peer context information:

  ID     Device status      Link status

  2      active             normal

  3      active             normal

  4      active             normal

  5      active             normal

7. 完成以上排查步骤后,RBM若已经按照预期进行了相应的故障切换,则可以认为故障已经排除。

8. 如果上述定位手段均不能作出结论,请联系相关技术支持人员协助分析

1.6  RBM出现分裂

1.6.1  故障描述

RBM双机运行过程中出现RBM通道分裂。RBM的角色会变更为双主,且会话热备异常,导致业务故障,大量业务失败。

1.6.2  故障排查思路

图1-6 故障排查思路图

 

1.6.3  故障处理步骤

1. 确定RBM分裂的时间

RBM分裂时会打印RBM端口down,可以确定RBM分裂的时间。检查分裂前下发的配置,是否有错误、异常配置。

RBM_P[Device]%Apr 11 20:06:14:484 2022 H3C RBM/1/RBM_KEEPALIVE_IPV4: Local IP=1.1.1.2, remote IP=1.1.1.1, status=Disconnected

%Apr 11 20:06:14:486 2022 H3C RBM/6/RBM_RUNNING_STATUS_CHANGED: RBM running status changed to active.

2. 检查是否出现了业务板重启现象。

使用命令行display system stable state进行检查,查看各业务板是否状态达到稳态。

RBM_P[Device_2] display system stable  state

System state     : Stable

Redundancy state : Stable

  Slot    CPU    Role       State

  0       0      Active     Stable

  1       0      Standby    Stable

  2       0      Other      Stable

  3       0      Other      Stable

  3       1      Other      Stable

  4       0      Other      Stable

  4       1      Other      Stable

  5       0      Other      Stable

  6       0      Other      Stable

  9       0      Other      Stable

使用命令行display link-aggregation verbose Blade-Aggregation观察是否有引擎口未选中。

RBM_P[Device] display link-aggregation  verbose  Blade-Aggregation

Loadsharing Type: Shar -- Loadsharing, NonS -- Non-Loadsharing

Port Status: S -- Selected, U -- Unselected, I -- Individual

Port: A -- Auto port

Flags:  A -- LACP_Activity, B -- LACP_Timeout, C -- Aggregation,

        D -- Synchronization, E -- Collecting, F -- Distributing,

        G -- Defaulted, H -- Expired

 

Aggregate Interface: Blade-Aggregation1

Aggregation Mode: Static

Loadsharing Type: Shar

  Port             Status  Priority Oper-Key

--------------------------------------------------------------------------------

  Blade4/0/1       S       32768    4

  Blade7/0/1       S       32768    4

 

Aggregate Interface: Blade-Aggregation257

Aggregation Mode: Static

Loadsharing Type: Shar

  Port             Status  Priority Oper-Key

--------------------------------------------------------------------------------

  Blade4/0/2       S       32768    5

  Blade7/0/2       S       32768    5

Blade 引擎口状态为S 则表示正常。如果所有引擎口状态都为U,或者无引擎口显示,请排查业务引擎版状态。

3. 检查是否出现了接口板重启现象。

使用命令行display system stable state进行检查,查看各接口板是否状态达到稳态。

RBM_P[Device_2] display system stable state

System state     : Stable

Redundancy state : Stable

  Slot    CPU    Role       State

  0       0      Active     Stable

  1       0      Standby    Stable

  2       0      Other      Stable

  3       0      Other      Stable

  3       1      Other      Stable

  4       0      Other      Stable

  4       1      Other      Stable

  5       0      Other      Stable

  6       0      Other      Stable

  9       0      Other      Stable

4. 检查RBM接口的状态是否正常。

若控制通道接口为物理接口,检查接口的物理状态和协议状态是否为UP。

若控制通道接口为聚合口,检查该聚合口是否有未选中成员接口,是否存在一端接口口选中另一端接口未选中的情况。确认聚合成员两侧的选中状态一致。

RBM_P[Device_2] display link-aggregation  verbose  Route-Aggregation 1

Loadsharing Type: Shar -- Loadsharing, NonS -- Non-Loadsharing

Port Status: S -- Selected, U -- Unselected, I -- Individual

Port: A -- Auto port

Flags:  A -- LACP_Activity, B -- LACP_Timeout, C -- Aggregation,

        D -- Synchronization, E -- Collecting, F -- Distributing,

        G -- Defaulted, H -- Expired

 

Aggregate Interface: Route-Aggregation1

Creation Mode: Manual

Aggregation Mode: Dynamic

Loadsharing Type: Shar

System ID: 0x8000, 3c8c-4005-0d5c

Local:

  Port             Status  Priority Oper-Key  Flag

--------------------------------------------------------------------------------

  XGE2/0/1         U       32768    1         {AC}

  XGE2/0/2         U       32768    1         {AC}

Remote:

  Actor            Partner Priority Oper-Key  SystemID               Flag

--------------------------------------------------------------------------------

  XGE2/0/1         195     32768    1         0x8000, 0cda-41b4-f7d6 {AEF}

  XGE2/0/2         196     32768    1         0x8000, 0cda-41b4-f7d6 {A}

若排查发现RBM控制通道接口down,则需要排查接口故障原因,可以通过如更换光模块、更换光纤等将故障排除。

5. 完成以上排查步骤后,再次通过命令行display remote-backup-group status检查RBM通道连接情况,若为Connected,则可以确认故障已排除。

6. 如果上述定位手段均不能作出结论,请联系相关技术支持人员协助分析。

1.7  同一个VRRP备份组内两台设备的VRRP状态都为backup

1.7.1  故障描述

图1-7 组网图

 

2. 组网需求

两台Device上下行分别接入二层交换机,Device的上下行接口工作在三层模式。

两台Device之间建立一条RBM通道。

两台Device上下行分别配置两个VRRP备份组,并与RBM关联,具体如下:

¡  Device A上下行业务接口的VRRP备份组1和3加入Active group;Device A上下行业务接口的VRRP备份组2和4加入Standby group。

¡  Device B上下行业务接口的VRRP备份组1和3加入Standby group;Device B上下行业务接口的VRRP备份组2和4加入Active group。

两台Device上需要将去往Internet路由的下一跳指定为Router连接Device的接口IP地址(此示例中为2.1.1.15)。

Router上需要将去往Host A路由的下一跳指定为VRRP备份组1的虚拟IP地址(此示例中为2.1.1.3)。

Router上需要将去往Host B路由的下一跳指定为VRRP备份组2的虚拟IP地址(此示例中为2.1.1.4)。

Host A上需要设置默认网关IP地址为VRRP备份组3的虚拟IP地址(此示例中为10.1.1.3)。

Host B上需要设置默认网关IP地址为VRRP备份组4的虚拟IP地址(此示例中为10.1.1.4)。

Switch A需要将连接Device和Router的接口加入相同的VLAN。

Switch B需要将连接Device和Host的接口加入相同的VLAN。

3. 故障描述

观察发现,两台设备的VRRP状态都为Backup。

1.7.2  故障排查思路

图1-8 故障排除思路图

 

1.7.3  故障处理步骤

1. 检查RBM控制通道连接是否正常

使用命令行display remote-backup-group status

RBM_P[Device_1] display remote-backup-group  status

Remote backup group information:

  Backup mode: Dual-active

  Device management role: Primary

  Device running status: Active

  Data channel interface: Route-Aggregation1023

  Local IP: 30.24.0.1

  Remote IP: 30.24.0.2    Destination port: 60164

  Control channel status: Connected

  Keepalive interval: 1s

  Keepalive count: 10

  Configuration consistency check interval: 1 hour

  Configuration consistency check result: Consistent(2020-12-17 10:55:15)

  Configuration backup status: Auto sync enabled

  Session backup status: Hot backup enabled

  Delay-time: 1 min

Control channel status如果显示为Connected 则表示正常。如果显示未disconnected,则表示状态断连,需要检查RBM控制通道使用的接口的物料状态。

2. 检查业务板是否为选中状态

使用命令行display link-aggregation verbose Blade-Aggregation

RBM_P[Device_1] display link-aggregation  verbose Blade-Aggregation

Loadsharing Type: Shar -- Loadsharing, NonS -- Non-Loadsharing

Port Status: S -- Selected, U -- Unselected, I -- Individual

Port: A -- Auto port

Flags:  A -- LACP_Activity, B -- LACP_Timeout, C -- Aggregation,

        D -- Synchronization, E -- Collecting, F -- Distributing,

        G -- Defaulted, H -- Expired

 

Aggregate Interface: Blade-Aggregation1

Aggregation Mode: Static

Loadsharing Type: Shar

  Port             Status  Priority Oper-Key

--------------------------------------------------------------------------------

  Blade4/0/1       S       32768    4

  Blade7/0/1       S       32768    4

 

Aggregate Interface: Blade-Aggregation257

Aggregation Mode: Static

Loadsharing Type: Shar

  Port             Status  Priority Oper-Key

--------------------------------------------------------------------------------

  Blade4/0/2       S       32768    5

  Blade7/0/2       S       32768    5

Blade 引擎口状态为S 则表示正常。如果所有引擎口状态都为U,或者无引擎口显示,请排查业务引擎版状态。

完成以上排查步骤后,若对于主备组网,VRRP的状态应该跟随RBM的运行状态,若对于双主组网,VRRP的状态应该和配置的active、standby一致,配置的active的则为Master,配置standby的则为Backup,则可以认为故障已排除。

3. 如果上述都没有发现问题,请联系技术支持人员。

1.8  VRRP故障报错Virtual IP address error

1.8.1  故障描述

图1     组网图

 

1. 组网需求

两台Device上下行分别接入二层交换机,Device的上下行接口工作在三层模式。

两台Device之间建立一条RBM通道。

两台Device上下行分别配置两个VRRP备份组,并与RBM关联,具体如下:

¡  Device A上下行业务接口的VRRP备份组1和3加入Active group;Device A上下行业务接口的VRRP备份组2和4加入Standby group。

¡  Device B上下行业务接口的VRRP备份组1和3加入Standby group;Device B上下行业务接口的VRRP备份组2和4加入Active group。

两台Device上需要将去往Internet路由的下一跳指定为Router连接Device的接口IP地址(此示例中为2.1.1.15)。

Router上需要将去往Host A路由的下一跳指定为VRRP备份组1的虚拟IP地址(此示例中为2.1.1.3)。

Router上需要将去往Host B路由的下一跳指定为VRRP备份组2的虚拟IP地址(此示例中为2.1.1.4)。

Host A上需要设置默认网关IP地址为VRRP备份组3的虚拟IP地址(此示例中为10.1.1.3)。

Host B上需要设置默认网关IP地址为VRRP备份组4的虚拟IP地址(此示例中为10.1.1.4)。

Switch A需要将连接Device和Router的接口加入相同的VLAN。

Switch B需要将连接Device和Host的接口加入相同的VLAN。

2. 故障描述

观察发现,DeviceB报VRRP的错误日志。

RBM_S<DeviceB>%Apr 11 10:57:46:477 2022 DeviceB VRRP4/6/VRRP_CONFIG_ERROR:

The IPv4 virtual router 1 (configured on Route-Aggregation2) detected a VRRP configuration error: Virtual IP address error.

1.8.2  故障处理步骤

1. 检查接口下VRRP配置,检查两侧的VRRP Virtual IP配置是否一致

检查DeviceA:

[DeviceA-Route-Aggregation1] display this

#

interface Route-Aggregation2

 ip address 2.1.1.1 255.255.255.0

 vrrp vrid 1 virtual-ip 2.1.1.3 active

 vrrp vrid 2 virtual-ip 2.1.1.4 standby

检查DeviceB:

[DeviceB-Route-Aggregation2] display this

#

interface Route-Aggregation2

 ip address 2.1.1.2 255.255.255.0

 vrrp vrid 1 virtual-ip 2.1.1.4 standby

 vrrp vrid 2 virtual-ip 2.1.1.3 active

同一接口下,同一VRID的virtual-ip应该一致。若不一致,则会报错。

此处应该修改DeviceB的接口virtual-ip,修改为后配置如下:

[DeviceB-Route-Aggregation2] display this

#

interface Route-Aggregation2

 ip address 2.1.1.2 255.255.255.0

 vrrp vrid 1 virtual-ip 2.1.1.3 standby

 vrrp vrid 2 virtual-ip 2.1.1.4 active

2. 若是接口下的VRRP IPv6报错,同样的,应该检查DeviceA和DeviceB的IPv6 link-local 虚地址和IPv6 虚地址是否配置一致。

3. 完成上述排查步骤后,若设备已经不再打印此故障log,则可以认为故障已排除。

4. 若上述检查都没有发现问题,请联系技术支持人员。

1.9  VRRP故障报错 Protocol version error.

1.9.1  故障描述

图2     组网图

 

1. 组网需求

两台Device上下行分别接入二层交换机,Device的上下行接口工作在三层模式。

两台Device之间建立一条RBM通道。

两台Device上下行分别配置两个VRRP备份组,并与RBM关联,具体如下:

¡  Device A上下行业务接口的VRRP备份组1和3加入Active group;Device A上下行业务接口的VRRP备份组2和4加入Standby group。

¡  Device B上下行业务接口的VRRP备份组1和3加入Standby group;Device B上下行业务接口的VRRP备份组2和4加入Active group。

两台Device上需要将去往Internet路由的下一跳指定为Router连接Device的接口IP地址(此示例中为2.1.1.15)。

Router上需要将去往Host A路由的下一跳指定为VRRP备份组1的虚拟IP地址(此示例中为2.1.1.3)。

Router上需要将去往Host B路由的下一跳指定为VRRP备份组2的虚拟IP地址(此示例中为2.1.1.4)。

Host A上需要设置默认网关IP地址为VRRP备份组3的虚拟IP地址(此示例中为10.1.1.3)。

Host B上需要设置默认网关IP地址为VRRP备份组4的虚拟IP地址(此示例中为10.1.1.4)。

Switch A需要将连接Device和Router的接口加入相同的VLAN。

Switch B需要将连接Device和Host的接口加入相同的VLAN。

2. 故障描述

观察发现,DeviceB报VRRP的错误日志

RBM_S<DeviceB>%Apr 11 10:57:46:477 2022 DeviceB VRRP4/6/VRRP_CONFIG_ERROR:

The IPv4 virtual router 1 (configured on Route-Aggregation2) detected a VRRP configuration error: Protocol version error.

1.9.2  故障处理步骤

1. 检查接口下VRRP配置,检查两侧的VRRP version配置是否一致

检查DeviceA:

[DeviceA-Route-Aggregation1] display this

#

interface Route-Aggregation2

 ip address 2.1.1.1 255.255.255.0

 vrrp vrid 1 virtual-ip 2.1.1.3 active

 vrrp vrid 2 virtual-ip 2.1.1.4 standby

检查DeviceB:

[DeviceB-Route-Aggregation2] display this

#

interface Route-Aggregation2

 ip address 2.1.1.2 255.255.255.0

 vrrp version 2

 vrrp vrid 1 virtual-ip 2.1.1.3 standby

 vrrp vrid 2 virtual-ip 2.1.1.4 active

同一接口下,vrrp的version应该一致。默认情况下,vrrp 的version 为version3。若vrrp两侧的version不一致,则会报错。

此处应该修改DeviceB的接口vrrp version,删除配置vrrp version 2,配置完成后如下。

[DeviceB-Route-Aggregation2] display this

#

interface Route-Aggregation2

 ip address 2.1.1.2 255.255.255.0

 vrrp vrid 1 virtual-ip 2.1.1.3 standby 

 vrrp vrid 2 virtual-ip 2.1.1.4 active

2. 完成上述排查步骤后,若设备已经不再打印此故障log,则可以认为故障已排除。

3. 若上述检查没有发现问题,请联系技术支持人员。

1.10  VRRP故障报错 Virtual IP address count mismatch.

1.10.1  故障描述

图3     组网图

 

1. 组网需求

两台Device上下行分别接入二层交换机,Device的上下行接口工作在三层模式。

两台Device之间建立一条RBM通道。

两台Device上下行分别配置两个VRRP备份组,并与RBM关联,具体如下:

¡  Device A上下行业务接口的VRRP备份组1和3加入Active group;Device A上下行业务接口的VRRP备份组2和4加入Standby group。

¡  Device B上下行业务接口的VRRP备份组1和3加入Standby group;Device B上下行业务接口的VRRP备份组2和4加入Active group。

两台Device上需要将去往Internet路由的下一跳指定为Router连接Device的接口IP地址(此示例中为2.1.1.15)。

Router上需要将去往Host A路由的下一跳指定为VRRP备份组1的虚拟IP地址(此示例中为2.1.1.3)。

Router上需要将去往Host B路由的下一跳指定为VRRP备份组2的虚拟IP地址(此示例中为2.1.1.4)。

Host A上需要设置默认网关IP地址为VRRP备份组3的虚拟IP地址(此示例中为10.1.1.3)。

Host B上需要设置默认网关IP地址为VRRP备份组4的虚拟IP地址(此示例中为10.1.1.4)。

Switch A需要将连接Device和Router的接口加入相同的VLAN。

Switch B需要将连接Device和Host的接口加入相同的VLAN。

2. 故障描述

观察发现,Device报VRRP的错误日志

VRRP/6/VRRP_CONFIG_ERROR: The IPv4 virtual router 10 (configured on Ethernet0/0) detected a VRRP configuration error: Virtual IP address count mismatch.

1.10.2  故障处理步骤

1. 检查接口下VRRP配置,检查两侧的VRRP成员上的备份组虚拟IP地址的数量不一致。

检查DeviceA:

[DeviceA-Route-Aggregation1] display this

#

interface Route-Aggregation2

 ip address 2.1.1.1 255.255.255.0

 vrrp vrid 1 virtual-ip 2.1.1.3 active

 vrrp vrid 1 virtual-ip 2.1.1.4 active

检查DeviceB:

[DeviceB-Route-Aggregation2] display this

#

interface Route-Aggregation2

 ip address 2.1.1.2 255.255.255.

 vrrp vrid 1 virtual-ip 2.1.1.3 standby

VRRP备份组配置错误。

例如:成员上的备份组虚拟IP地址的数量不一致

应该保证两侧的VRRP virtual-ip地址保持一致。

2. 完成上述排查步骤后,若设备已经不再打印此故障log,则可以认为故障已排除。

3. 若上述检查没有发现问题,请联系技术支持人员。

不同款型规格的资料略有差异, 详细信息请向具体销售和400咨询。H3C保留在没有任何通知或提示的情况下对资料内容进行修改的权利!

新华三官网
联系我们