01-RBM双机热备故障案例
本章节下载 (451.94 KB)
两台设备中的RBM状态均为disconnected,RBM通断无法建立,两台设备RBM双机热备部署失败。
图1-1 故障排查思路图
通过display version查看设备型号和版本是否一致。
<Device> system-view
[Device] display version
H3C Comware Software, Version 7.1.064, Release 9153P36
Copyright (c) 2004-2022 New H3C Technologies Co., Ltd. All rights reserved.
H3C SecPath M9006 uptime is 0 weeks, 3 days, 3 hours, 45 minutes
Last reboot reason : User reboot
检查两侧的remote-ip和local-ip是否配置正确;是否指定了remote-ip的端口,两侧remote-ip的端口是否一致;检查两侧的device-role是否配置正确,需要一端为primary、一端为secondary。
配置主设备:
[DeviceA] system-view
[DeviceA] remote-backup group
[DeviceA-remote-backup-group] remote-ip 1.1.1.2
[DeviceA-remote-backup-group] local-ip 1.1.1.1
[DeviceA-remote-backup-group] interface Route-Aggregation99
[DeviceA-remote-backup-group] device-role primary
配置备设备:
[DeviceB] system-view
[DeviceB] remote-backup group
[DeviceB-remote-backup-group] remote-ip 1.1.1.1
[DeviceB-remote-backup-group] local-ip 1.1.1.2
[DeviceB-remote-backup-group] interface Route-Aggregation99
[DeviceB-remote-backup-group] device-role secondary
使用命令行display system stable state进行检查,查看各业务板是否状态达到稳态。
使用命令行display link-aggregation verbose Blade-Aggregation
[DeviceA] display link-aggregation verbose Blade-Aggregation
Loadsharing Type: Shar -- Loadsharing, NonS -- Non-Loadsharing
Port Status: S -- Selected, U -- Unselected, I -- Individual
Port: A -- Auto port
Flags: A -- LACP_Activity, B -- LACP_Timeout, C -- Aggregation,
D -- Synchronization, E -- Collecting, F -- Distributing,
G -- Defaulted, H -- Expired
Aggregate Interface: Blade-Aggregation1
Aggregation Mode: Static
Loadsharing Type: Shar
Port Status Priority Oper-Key
--------------------------------------------------------------------------------
Blade4/0/1 S 32768 4
Blade7/0/1 S 32768 4
Aggregate Interface: Blade-Aggregation257
Aggregation Mode: Static
Loadsharing Type: Shar
Port Status Priority Oper-Key
--------------------------------------------------------------------------------
Blade4/0/2 S 32768 5
Blade7/0/2 S 32768 5
Blade 引擎口状态为S 则表示正常。如果所有引擎口状态都为U,或者无引擎口显示,请排查业务引擎版状态。
若控制通道接口为物理接口,检查接口的物理状态和协议状态是否为UP。
若控制通道接口为聚合口,检查该聚合口是否有未选中成员接口,是否存在一端接口口选中另一端接口未选中的情况。确认聚合成员两侧的选中状态一致。
RBM默认每隔24h进行配置一致性检查,由于某些原因造成的配置不一致时,系统会上报不一致告警,并携带相关模块。当配置不一致时,在主备发生切换的情况下,可能会导致业务不能平滑迁移或出现问题。
RBM_P[Device]%Dec 17 14:25:43:191 2020 H3C RBM/6/RBM_CFG_COMPARE_START: Started configuration consistency check.
%Dec 17 14:25:44:775 2020 H3C RBM/6/RBM_CFG_COMPARE_RESULT: The following modules have inconsistent configuration: acl.
%Dec 17 14:25:44:775 2020 H3C RBM/6/RBM_CFG_COMPARE_FINISH: Finished configuration consistency check.
图1-2 故障排查思路图
在配置主设备中通过display remote-backup-group sync-check 确认存在哪些配置存在差异。
例如系统检测到acl模块存在差异,建议比对当前两台FW的acl配置,存在2种情况:
· 配置备上存在acl 3000,配置主上没有
a. 若确认acl 3000需要保留,建议先在配置备设备中删除acl 300,之后在配置主上增加acl 3000,系统自动进行配置同步,然后保存2台设备的配置。
b. 若确认acl 3000无需保留,在配置主上执行configuration manual-sync命令,系统自动进行配置同步,配置备acl 3000自动删除,然后保存2台设备的配置。
· 配置主上存在acl 3000,配置备上没有
c. 若确认acl 3000需要保留,在配置主上执行configuration manual-sync命令,系统自动进行配置同步,然后保存2台设备的配置。
d. 若确认acl 3000无需保留,在配置主上删除acl 3000,并执行configuration manual-sync命令,系统自动进行配置同步,然后保存2台设备的配置。
检查是否在备设备中单独进行过配置变更。
云方案的控制器场景,一般需要关闭RBM的配置实时备份。检查是否出现过与控制器连接的中断。解决与控制器连接的可靠性问题。
检查日志中是否出现如下形式的日志:
RBM_P[Device]%Apr 11 20:06:14:484 2022 H3C RBM/1/RBM_KEEPALIVE_IPV4: Local IP=1.1.1.2, remote IP=1.1.1.1, status=Disconnected
若出现过,建议按照RBM分裂原因进行进一步排查。
在RBM视图下通过命令行configuration manual-sync-check进行检查,若故障已排除,则配置一致性检查完成后不会再上报配置不一致的日志。
两台设备中的RBM状态均为Connected,但是会话热备异常。这种情况下若为双主组网,可能会出现业务不同,反向的设备中会出现大量丢包。
图1-3 故障排查思路图
通过display version查看设备型号和版本是否一致。
RBM_P[Device]display version
H3C Comware Software, Version 7.1.064, Release 9153P36
Copyright (c) 2004-2022 New H3C Technologies Co., Ltd. All rights reserved.
H3C SecPath M9006 uptime is 0 weeks, 3 days, 3 hours, 45 minutes
Last reboot reason : User reboot
检查两侧设备是否都配置了data-channel和hot-backup enable。
使用命令行display system stable state进行检查,查看各业务板是否状态达到稳态。
使用命令行display link-aggregation verbose Blade-Aggregation
RBM_P[Device] display link-aggregation verbose Blade-Aggregation
Loadsharing Type: Shar -- Loadsharing, NonS -- Non-Loadsharing
Port Status: S -- Selected, U -- Unselected, I -- Individual
Port: A -- Auto port
Flags: A -- LACP_Activity, B -- LACP_Timeout, C -- Aggregation,
D -- Synchronization, E -- Collecting, F -- Distributing,
G -- Defaulted, H -- Expired
Aggregate Interface: Blade-Aggregation1
Aggregation Mode: Static
Loadsharing Type: Shar
Port Status Priority Oper-Key
--------------------------------------------------------------------------------
Blade4/0/1 S 32768 4
Blade7/0/1 S 32768 4
Aggregate Interface: Blade-Aggregation257
Aggregation Mode: Static
Loadsharing Type: Shar
Port Status Priority Oper-Key
--------------------------------------------------------------------------------
Blade4/0/2 S 32768 5
Blade7/0/2 S 32768 5
Blade 引擎口状态为S 则表示正常。如果所有引擎口状态都为U,或者无引擎口显示,请排查业务引擎版状态。
若数据通道接口为物理接口,检查接口的物理状态和协议状态是否为UP。
若数据通道接口为聚合口,检查该聚合口是否有未选中成员接口,是否存在一端接口口选中另一端接口未选中的情况。确认聚合成员两侧的选中状态一致。
RBM_P[Device-probe] display system internal openflow instance inner-redirect flow
-table
Instance 4097 flow table information:
Table 200 information:
Table type: Extensibility, flow entry count: 34, total flow entry count: 34
Flow entry 1 information:
cookie: 0x0, priority: 64001, hard time: 0, idle time: 0, flags: check_overlap
|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
Input interface: RAGG99
IP protocol: 6
IPv4 source address: 1.1.1.2, mask: 255.255.255.255
IPv4 destination address: 1.1.1.1, mask: 255.255.255.255
TCP source port: 60064, mask: 0xffff
Instruction information:
Write actions:
Output interface: Local
Experimenter:
experimenter option:sub-type 1, value(18,0)
Flow entry 2 information:
cookie: 0x0, priority: 64000, hard time: 0, idle time: 0, flags: check_overlap
|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
Input interface: RAGG99
Ethernet destination MAC address: 0cda-41b4-f7d7
Ethernet destination MAC address mask: ffff-ffff-ffff
Ethernet source MAC address: 4021-0021-0010
Ethernet source MAC address mask: ffff-ffff-ffff
Instruction information:
Write actions:
Output interface: Blade4/0/1
Experimenter:
experimenter option:sub-type 1, value(16,0)
Flow entry 3 information:
cookie: 0x0, priority: 64000, hard time: 0, idle time: 0, flags: check_overlap
|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
Input interface: RAGG99
Ethernet destination MAC address: 0cda-41b4-f7d7
Ethernet destination MAC address mask: ffff-ffff-ffff
Ethernet source MAC address: 4021-0021-0011
Ethernet source MAC address mask: ffff-ffff-ffff
Instruction information:
Write actions:
Output interface: Blade4/0/1
Experimenter:
experimenter option:sub-type 1, value(17,0)
检查是否存在流表显示存在value(17,0) 、value(16,0)这两类流表,若发现没有,请联系技术支持
人员协助分析。
两台设备组成RBM双主组网,其中一台故障(业务板重启、业务板故障等)后恢复,发现RBM无法恢复为双主状态。如果这种情况长期存在,会导致一台设备长时间承载两台设备的业务流量,无法完成预定的故障回切,不利于业务的稳定处理。
需要排查故障设备是否仍然存在其它故障,导致故障设备在故障恢复后无法恢复为主设备。
图1-4 故障排查思路图
在RBM视图下检查是否有配置delay-time。
若没有配置delay-time,则不会切换为双主状态。
确认delay-time的配置时间,需要在故障前配置delay-time才能对故障恢复后的回切生效。若故障恢复后再配置delay-time,则本次依然是不回切的,配置的delay-time针对下次故障恢复生效。
查看故障恢复的时间,确认是否已经达到了回切的时间。
使用命令行display system stable state进行检查,查看各业务板是否状态达到稳态。
使用命令行display link-aggregation verbose Blade-Aggregation
RBM_P[Device]display link-aggregation verbose Blade-Aggregation
Loadsharing Type: Shar -- Loadsharing, NonS -- Non-Loadsharing
Port Status: S -- Selected, U -- Unselected, I -- Individual
Port: A -- Auto port
Flags: A -- LACP_Activity, B -- LACP_Timeout, C -- Aggregation,
D -- Synchronization, E -- Collecting, F -- Distributing,
G -- Defaulted, H -- Expired
Aggregate Interface: Blade-Aggregation1
Aggregation Mode: Static
Loadsharing Type: Shar
Port Status Priority Oper-Key
--------------------------------------------------------------------------------
Blade4/0/1 S 32768 4
Blade7/0/1 S 32768 4
Aggregate Interface: Blade-Aggregation257
Aggregation Mode: Static
Loadsharing Type: Shar
Port Status Priority Oper-Key
--------------------------------------------------------------------------------
Blade4/0/2 S 32768 5
Blade7/0/2 S 32768 5
Blade 引擎口状态为S 则表示正常。如果所有引擎口状态都为U,或者无引擎口显示,请排查业务引擎版状态。
可以通过display track all查看各track状态。
RBM_P[Device]display track all
Track ID: 1
State: Positive
Duration: 2 days 22 hours 52 minutes 39 seconds
Tracked object type: Interface
Notification delay: Positive 0, Negative 0 (in seconds)
Tracked object:
Interface: Route-Aggregation1
Protocol: None
Track ID: 2
State: Positive
Duration: 2 days 22 hours 52 minutes 38 seconds
Tracked object type: Interface
Notification delay: Positive 0, Negative 0 (in seconds)
Tracked object:
Interface: Route-Aggregation30
Protocol: None
对比检查RBM视图下配置的track,状态是否都是Positive
RBM自动关注设备的健康值状态。如果健康值为1则认为设备存在相关故障。可以通过display system health查看健康值,如相关故障已恢复,需要在Probe视图下通过命令reset-health-value先手动恢复相关故障。
RBM_P[Device] display system health
Health: Normal(0)
HgPortDown check: Normal(0)
HgPacketLoss check: Normal(0)
ParityError check: Normal(0)
HgPacketDrop check: Normal(0)
HgPacketTamper check: Normal(0)
如果有接口配置了VRRP,若该接口状态down,RBM会认为本端故障。
通过display vrrp或display vrrp ipv6检查VRRP接口状态,确认没有状态为Initialize的VRRP。
RBM_P[Device] display vrrp
IPv4 Virtual Router Information:
Running mode : Standard
RBM control channel is established
VRRP active group status : Backup
VRRP standby group status: Backup
Total number of virtual routers : 3
Interface VRID State Running Adver Auth Virtual
Pri Timer Type IP
---------------------------------------------------------------------
RAGG2.12 11 Backup 100 100 None 221.10.1.3
RAGG2.13 19 Backup 100 100 None 101.11.23.3
在R9153P3004及后续版本中,支持RBM联动Context,需要关注Context下的VRRP接口状态。
在Probe视图下可以通过命令display system internal remote-backup-group context status查看用户context下的VRRP接口接口状态。
RBM_P[Device-probe] display system internal remote-backup-group context status
Context RBM control channel information:
Device role: Client
Connection status: Connected
Connection handle: 67
Local context information:
ID Device status Link status
2 active normal
3 active normal
4 active normal
5 active normal
Peer context information:
ID Device status Link status
2 active normal
3 active normal
4 active normal
5 active normal
两台设备组成RBM主备组网,当主设备出现故障(业务板重启、业务板故障等),发现其RBM状态仍然为主,没有切换为备。这种情况下业务仍然在这台故障的设备中处理,可能会出现业务中断。
需要排查备设备是否也存在故障,导致主设备故障后仍然保持主设备的角色。
图1-5 故障排查思路图
使用命令行display system stable state进行检查,查看各业务板是否状态达到稳态。
使用命令行display link-aggregation verbose Blade-Aggregation
RBM_P[Device] dispaly link-aggregation verbose Blade-Aggregation
Loadsharing Type: Shar -- Loadsharing, NonS -- Non-Loadsharing
Port Status: S -- Selected, U -- Unselected, I -- Individual
Port: A -- Auto port
Flags: A -- LACP_Activity, B -- LACP_Timeout, C -- Aggregation,
D -- Synchronization, E -- Collecting, F -- Distributing,
G -- Defaulted, H -- Expired
Aggregate Interface: Blade-Aggregation1
Aggregation Mode: Static
Loadsharing Type: Shar
Port Status Priority Oper-Key
--------------------------------------------------------------------------------
Blade4/0/1 S 32768 4
Blade7/0/1 S 32768 4
Aggregate Interface: Blade-Aggregation257
Aggregation Mode: Static
Loadsharing Type: Shar
Port Status Priority Oper-Key
--------------------------------------------------------------------------------
Blade4/0/2 S 32768 5
Blade7/0/2 S 32768 5
Blade 引擎口状态为S 则表示正常。如果所有引擎口状态都为U,或者无引擎口显示,请排查业务引擎版状态。
可以通过display track all查看各track状态。
RBM_P[Device] display track all
Track ID: 1
State: Positive
Duration: 2 days 22 hours 52 minutes 39 seconds
Tracked object type: Interface
Notification delay: Positive 0, Negative 0 (in seconds)
Tracked object:
Interface: Route-Aggregation1
Protocol: None
Track ID: 2
State: Positive
Duration: 2 days 22 hours 52 minutes 38 seconds
Tracked object type: Interface
Notification delay: Positive 0, Negative 0 (in seconds)
Tracked object:
Interface: Route-Aggregation30
Protocol: None
对比检查RBM视图下配置的track ,状态是否都是Positive。
RBM自动关注设备的健康值状态。如果健康值为1则认为设备存在相关故障。可以通过display system health 查看健康值,如相关故障已恢复,需要在Probe视图下通过命令reset-health-value先手动恢复相关故障。
RBM_P[Device] display system health
Health: Normal(0)
HgPortDown check: Normal(0)
HgPacketLoss check: Normal(0)
ParityError check: Normal(0)
HgPacketDrop check: Normal(0)
HgPacketTamper check: Normal(0)
如果有接口配置了VRRP,若该接口状态down,RBM会认为本端故障。
通过display vrrp或display vrrp ipv6检查VRRP接口状态,确认没有状态为Initialize的VRRP。
RBM_P[Device] display vrrp
IPv4 Virtual Router Information:
Running mode : Standard
RBM control channel is established
VRRP active group status : Backup
VRRP standby group status: Backup
Total number of virtual routers : 3
Interface VRID State Running Adver Auth Virtual
Pri Timer Type IP
---------------------------------------------------------------------
RAGG2.12 11 Backup 100 100 None 221.10.1.3
RAGG2.13 19 Backup 100 100 None 101.11.23.3
在R9153P3004及后续版本中,支持RBM联动Context,需要关注Context下的VRRP接口状态。
在Probe视图下可以通过命令display system internal remote-backup-group context status查看用户context下的VRRP接口接口状态。
RBM_P[Device-probe] display system internal remote-backup-group context status
Context RBM control channel information:
Device role: Client
Connection status: Connected
Connection handle: 67
Local context information:
ID Device status Link status
2 active normal
3 active normal
4 active normal
5 active normal
Peer context information:
ID Device status Link status
2 active normal
3 active normal
4 active normal
5 active normal
RBM双机运行过程中出现RBM通道分裂。RBM的角色会变更为双主,且会话热备异常,导致业务故障,大量业务失败。
图1-6 故障排查思路图
RBM分裂时会打印RBM端口down,可以确定RBM分裂的时间。检查分裂前下发的配置,是否有错误、异常配置。
RBM_P[Device]%Apr 11 20:06:14:484 2022 H3C RBM/1/RBM_KEEPALIVE_IPV4: Local IP=1.1.1.2, remote IP=1.1.1.1, status=Disconnected
%Apr 11 20:06:14:486 2022 H3C RBM/6/RBM_RUNNING_STATUS_CHANGED: RBM running status changed to active.
使用命令行display system stable state进行检查,查看各业务板是否状态达到稳态。
RBM_P[Device_2] display system stable state
System state : Stable
Redundancy state : Stable
Slot CPU Role State
0 0 Active Stable
1 0 Standby Stable
2 0 Other Stable
3 0 Other Stable
3 1 Other Stable
4 0 Other Stable
4 1 Other Stable
5 0 Other Stable
6 0 Other Stable
9 0 Other Stable
使用命令行display link-aggregation verbose Blade-Aggregation观察是否有引擎口未选中。
RBM_P[Device] display link-aggregation verbose Blade-Aggregation
Loadsharing Type: Shar -- Loadsharing, NonS -- Non-Loadsharing
Port Status: S -- Selected, U -- Unselected, I -- Individual
Port: A -- Auto port
Flags: A -- LACP_Activity, B -- LACP_Timeout, C -- Aggregation,
D -- Synchronization, E -- Collecting, F -- Distributing,
G -- Defaulted, H -- Expired
Aggregate Interface: Blade-Aggregation1
Aggregation Mode: Static
Loadsharing Type: Shar
Port Status Priority Oper-Key
--------------------------------------------------------------------------------
Blade4/0/1 S 32768 4
Blade7/0/1 S 32768 4
Aggregate Interface: Blade-Aggregation257
Aggregation Mode: Static
Loadsharing Type: Shar
Port Status Priority Oper-Key
--------------------------------------------------------------------------------
Blade4/0/2 S 32768 5
Blade7/0/2 S 32768 5
Blade 引擎口状态为S 则表示正常。如果所有引擎口状态都为U,或者无引擎口显示,请排查业务引擎版状态。
使用命令行display system stable state进行检查,查看各接口板是否状态达到稳态。
RBM_P[Device_2] display system stable state
System state : Stable
Redundancy state : Stable
Slot CPU Role State
0 0 Active Stable
1 0 Standby Stable
2 0 Other Stable
3 0 Other Stable
3 1 Other Stable
4 0 Other Stable
4 1 Other Stable
5 0 Other Stable
6 0 Other Stable
9 0 Other Stable
若控制通道接口为物理接口,检查接口的物理状态和协议状态是否为UP。
若控制通道接口为聚合口,检查该聚合口是否有未选中成员接口,是否存在一端接口口选中另一端接口未选中的情况。确认聚合成员两侧的选中状态一致。
RBM_P[Device_2] display link-aggregation verbose Route-Aggregation 1
Loadsharing Type: Shar -- Loadsharing, NonS -- Non-Loadsharing
Port Status: S -- Selected, U -- Unselected, I -- Individual
Port: A -- Auto port
Flags: A -- LACP_Activity, B -- LACP_Timeout, C -- Aggregation,
D -- Synchronization, E -- Collecting, F -- Distributing,
G -- Defaulted, H -- Expired
Aggregate Interface: Route-Aggregation1
Creation Mode: Manual
Aggregation Mode: Dynamic
Loadsharing Type: Shar
System ID: 0x8000, 3c8c-4005-0d5c
Local:
Port Status Priority Oper-Key Flag
--------------------------------------------------------------------------------
XGE2/0/1 U 32768 1 {AC}
XGE2/0/2 U 32768 1 {AC}
Remote:
Actor Partner Priority Oper-Key SystemID Flag
--------------------------------------------------------------------------------
XGE2/0/1 195 32768 1 0x8000, 0cda-41b4-f7d6 {AEF}
XGE2/0/2 196 32768 1 0x8000, 0cda-41b4-f7d6 {A}
若排查发现RBM控制通道接口down,则需要排查接口故障原因,可以通过如更换光模块、更换光纤等将故障排除。
图1-7 组网图
两台Device上下行分别接入二层交换机,Device的上下行接口工作在三层模式。
两台Device之间建立一条RBM通道。
两台Device上下行分别配置两个VRRP备份组,并与RBM关联,具体如下:
¡ Device A上下行业务接口的VRRP备份组1和3加入Active group;Device A上下行业务接口的VRRP备份组2和4加入Standby group。
¡ Device B上下行业务接口的VRRP备份组1和3加入Standby group;Device B上下行业务接口的VRRP备份组2和4加入Active group。
两台Device上需要将去往Internet路由的下一跳指定为Router连接Device的接口IP地址(此示例中为2.1.1.15)。
Router上需要将去往Host A路由的下一跳指定为VRRP备份组1的虚拟IP地址(此示例中为2.1.1.3)。
Router上需要将去往Host B路由的下一跳指定为VRRP备份组2的虚拟IP地址(此示例中为2.1.1.4)。
Host A上需要设置默认网关IP地址为VRRP备份组3的虚拟IP地址(此示例中为10.1.1.3)。
Host B上需要设置默认网关IP地址为VRRP备份组4的虚拟IP地址(此示例中为10.1.1.4)。
Switch A需要将连接Device和Router的接口加入相同的VLAN。
Switch B需要将连接Device和Host的接口加入相同的VLAN。
观察发现,两台设备的VRRP状态都为Backup。
图1-8 故障排除思路图
使用命令行display remote-backup-group status
RBM_P[Device_1] display remote-backup-group status
Remote backup group information:
Backup mode: Dual-active
Device management role: Primary
Device running status: Active
Data channel interface: Route-Aggregation1023
Local IP: 30.24.0.1
Remote IP: 30.24.0.2 Destination port: 60164
Control channel status: Connected
Keepalive interval: 1s
Keepalive count: 10
Configuration consistency check interval: 1 hour
Configuration consistency check result: Consistent(2020-12-17 10:55:15)
Configuration backup status: Auto sync enabled
Session backup status: Hot backup enabled
Delay-time: 1 min
Control channel status如果显示为Connected 则表示正常。如果显示未disconnected,则表示状态断连,需要检查RBM控制通道使用的接口的物料状态。
使用命令行display link-aggregation verbose Blade-Aggregation
RBM_P[Device_1] display link-aggregation verbose Blade-Aggregation
Loadsharing Type: Shar -- Loadsharing, NonS -- Non-Loadsharing
Port Status: S -- Selected, U -- Unselected, I -- Individual
Port: A -- Auto port
Flags: A -- LACP_Activity, B -- LACP_Timeout, C -- Aggregation,
D -- Synchronization, E -- Collecting, F -- Distributing,
G -- Defaulted, H -- Expired
Aggregate Interface: Blade-Aggregation1
Aggregation Mode: Static
Loadsharing Type: Shar
Port Status Priority Oper-Key
--------------------------------------------------------------------------------
Blade4/0/1 S 32768 4
Blade7/0/1 S 32768 4
Aggregate Interface: Blade-Aggregation257
Aggregation Mode: Static
Loadsharing Type: Shar
Port Status Priority Oper-Key
--------------------------------------------------------------------------------
Blade4/0/2 S 32768 5
Blade7/0/2 S 32768 5
Blade 引擎口状态为S 则表示正常。如果所有引擎口状态都为U,或者无引擎口显示,请排查业务引擎版状态。
完成以上排查步骤后,若对于主备组网,VRRP的状态应该跟随RBM的运行状态,若对于双主组网,VRRP的状态应该和配置的active、standby一致,配置的active的则为Master,配置standby的则为Backup,则可以认为故障已排除。
图1 组网图
两台Device上下行分别接入二层交换机,Device的上下行接口工作在三层模式。
两台Device之间建立一条RBM通道。
两台Device上下行分别配置两个VRRP备份组,并与RBM关联,具体如下:
¡ Device A上下行业务接口的VRRP备份组1和3加入Active group;Device A上下行业务接口的VRRP备份组2和4加入Standby group。
¡ Device B上下行业务接口的VRRP备份组1和3加入Standby group;Device B上下行业务接口的VRRP备份组2和4加入Active group。
两台Device上需要将去往Internet路由的下一跳指定为Router连接Device的接口IP地址(此示例中为2.1.1.15)。
Router上需要将去往Host A路由的下一跳指定为VRRP备份组1的虚拟IP地址(此示例中为2.1.1.3)。
Router上需要将去往Host B路由的下一跳指定为VRRP备份组2的虚拟IP地址(此示例中为2.1.1.4)。
Host A上需要设置默认网关IP地址为VRRP备份组3的虚拟IP地址(此示例中为10.1.1.3)。
Host B上需要设置默认网关IP地址为VRRP备份组4的虚拟IP地址(此示例中为10.1.1.4)。
Switch A需要将连接Device和Router的接口加入相同的VLAN。
Switch B需要将连接Device和Host的接口加入相同的VLAN。
观察发现,DeviceB报VRRP的错误日志。
RBM_S<DeviceB>%Apr 11 10:57:46:477 2022 DeviceB VRRP4/6/VRRP_CONFIG_ERROR:
The IPv4 virtual router 1 (configured on Route-Aggregation2) detected a VRRP configuration error: Virtual IP address error.
检查DeviceA:
[DeviceA-Route-Aggregation1] display this
#
interface Route-Aggregation2
ip address 2.1.1.1 255.255.255.0
vrrp vrid 1 virtual-ip 2.1.1.3 active
vrrp vrid 2 virtual-ip 2.1.1.4 standby
检查DeviceB:
[DeviceB-Route-Aggregation2] display this
#
interface Route-Aggregation2
ip address 2.1.1.2 255.255.255.0
vrrp vrid 1 virtual-ip 2.1.1.4 standby
vrrp vrid 2 virtual-ip 2.1.1.3 active
同一接口下,同一VRID的virtual-ip应该一致。若不一致,则会报错。
此处应该修改DeviceB的接口virtual-ip,修改为后配置如下:
[DeviceB-Route-Aggregation2] display this
#
interface Route-Aggregation2
ip address 2.1.1.2 255.255.255.0
vrrp vrid 1 virtual-ip 2.1.1.3 standby
vrrp vrid 2 virtual-ip 2.1.1.4 active
图2 组网图
两台Device上下行分别接入二层交换机,Device的上下行接口工作在三层模式。
两台Device之间建立一条RBM通道。
两台Device上下行分别配置两个VRRP备份组,并与RBM关联,具体如下:
¡ Device A上下行业务接口的VRRP备份组1和3加入Active group;Device A上下行业务接口的VRRP备份组2和4加入Standby group。
¡ Device B上下行业务接口的VRRP备份组1和3加入Standby group;Device B上下行业务接口的VRRP备份组2和4加入Active group。
两台Device上需要将去往Internet路由的下一跳指定为Router连接Device的接口IP地址(此示例中为2.1.1.15)。
Router上需要将去往Host A路由的下一跳指定为VRRP备份组1的虚拟IP地址(此示例中为2.1.1.3)。
Router上需要将去往Host B路由的下一跳指定为VRRP备份组2的虚拟IP地址(此示例中为2.1.1.4)。
Host A上需要设置默认网关IP地址为VRRP备份组3的虚拟IP地址(此示例中为10.1.1.3)。
Host B上需要设置默认网关IP地址为VRRP备份组4的虚拟IP地址(此示例中为10.1.1.4)。
Switch A需要将连接Device和Router的接口加入相同的VLAN。
Switch B需要将连接Device和Host的接口加入相同的VLAN。
观察发现,DeviceB报VRRP的错误日志
RBM_S<DeviceB>%Apr 11 10:57:46:477 2022 DeviceB VRRP4/6/VRRP_CONFIG_ERROR:
The IPv4 virtual router 1 (configured on Route-Aggregation2) detected a VRRP configuration error: Protocol version error.
检查DeviceA:
[DeviceA-Route-Aggregation1] display this
#
interface Route-Aggregation2
ip address 2.1.1.1 255.255.255.0
vrrp vrid 1 virtual-ip 2.1.1.3 active
vrrp vrid 2 virtual-ip 2.1.1.4 standby
检查DeviceB:
[DeviceB-Route-Aggregation2] display this
#
interface Route-Aggregation2
ip address 2.1.1.2 255.255.255.0
vrrp version 2
vrrp vrid 1 virtual-ip 2.1.1.3 standby
vrrp vrid 2 virtual-ip 2.1.1.4 active
同一接口下,vrrp的version应该一致。默认情况下,vrrp 的version 为version3。若vrrp两侧的version不一致,则会报错。
此处应该修改DeviceB的接口vrrp version,删除配置vrrp version 2,配置完成后如下。
[DeviceB-Route-Aggregation2] display this
#
interface Route-Aggregation2
ip address 2.1.1.2 255.255.255.0
vrrp vrid 1 virtual-ip 2.1.1.3 standby
vrrp vrid 2 virtual-ip 2.1.1.4 active
图3 组网图
两台Device上下行分别接入二层交换机,Device的上下行接口工作在三层模式。
两台Device之间建立一条RBM通道。
两台Device上下行分别配置两个VRRP备份组,并与RBM关联,具体如下:
¡ Device A上下行业务接口的VRRP备份组1和3加入Active group;Device A上下行业务接口的VRRP备份组2和4加入Standby group。
¡ Device B上下行业务接口的VRRP备份组1和3加入Standby group;Device B上下行业务接口的VRRP备份组2和4加入Active group。
两台Device上需要将去往Internet路由的下一跳指定为Router连接Device的接口IP地址(此示例中为2.1.1.15)。
Router上需要将去往Host A路由的下一跳指定为VRRP备份组1的虚拟IP地址(此示例中为2.1.1.3)。
Router上需要将去往Host B路由的下一跳指定为VRRP备份组2的虚拟IP地址(此示例中为2.1.1.4)。
Host A上需要设置默认网关IP地址为VRRP备份组3的虚拟IP地址(此示例中为10.1.1.3)。
Host B上需要设置默认网关IP地址为VRRP备份组4的虚拟IP地址(此示例中为10.1.1.4)。
Switch A需要将连接Device和Router的接口加入相同的VLAN。
Switch B需要将连接Device和Host的接口加入相同的VLAN。
观察发现,Device报VRRP的错误日志
VRRP/6/VRRP_CONFIG_ERROR: The IPv4 virtual router 10 (configured on Ethernet0/0) detected a VRRP configuration error: Virtual IP address count mismatch.
检查DeviceA:
[DeviceA-Route-Aggregation1] display this
#
interface Route-Aggregation2
ip address 2.1.1.1 255.255.255.0
vrrp vrid 1 virtual-ip 2.1.1.3 active
vrrp vrid 1 virtual-ip 2.1.1.4 active
检查DeviceB:
[DeviceB-Route-Aggregation2] display this
#
interface Route-Aggregation2
ip address 2.1.1.2 255.255.255.
vrrp vrid 1 virtual-ip 2.1.1.3 standby
VRRP备份组配置错误。
例如:成员上的备份组虚拟IP地址的数量不一致
应该保证两侧的VRRP virtual-ip地址保持一致。
不同款型规格的资料略有差异, 详细信息请向具体销售和400咨询。H3C保留在没有任何通知或提示的情况下对资料内容进行修改的权利!
