手册下载
H3C UniServer B16000刀片机箱 交换模块
故障处理手册
资料版本:6W100-20220530
Copyright © 2022 新华三技术有限公司 版权所有,保留一切权利。
非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。
除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。
本文档中的信息可能变动,恕不另行通知。
本文介绍H3C UniServer B16000刀片机箱(以下简称B16000刀箱)中,交换模块的软、硬件常见故障诊断及处理措施。
交换模块型号包括:
· H3C UniServer BX720E
· H3C UniServer BX720EF
· H3C UniServer BX608FE
· H3C UniServer BX1010E
· H3C UniServer BX1020EF
本文档不严格和具体的软件版本对应。
交换模块正常运行时,建议您在完成重要功能的配置后,及时保存并备份当前配置,以免交换模块出现故障后配置丢失。建议您定期将配置文件备份至远程服务器上,以便故障发生后能够迅速恢复配置。
在进行故障诊断和处理时,请注意以下事项:
· 交换模块出现故障时,请尽可能全面、详细地记录现场信息(包括但不限于以下内容),收集信息越全面、越详细,越有利于故障的快速定位。
¡ 记录具体的故障现象、故障时间、配置信息。
¡ 记录完整的网络拓扑,包括组网图、端口连接关系、故障位置。
¡ 收集交换模块的版本信息。
¡ 收集交换模块的日志信息和诊断信息(收集方法见1.2 收集交换模块运行信息)。
记录交换模块故障时交换模块指示灯的状态,或给现场交换模块拍照记录。
¡ 记录现场采取的故障处理措施(比如配置操作、插拔线缆、手工重启交换模块)及实施后的现象效果。
¡ 记录故障处理过程中配置的所有命令行显示信息。
· 更换和维护交换模块部件时,请佩戴防静电手腕,以确保您和交换模块的安全。
· 故障处理过程中如需更换硬件部件,请参考与软件版本对应的版本说明书,确保新硬件部件和软件版本的兼容性。
为方便故障快速定位,请使用命令info-center enable开启信息中心。缺省情况下信息中心处于开启状态。
设备运行过程中会产生记录设备日常信息及运行状态的普通日志和诊断日志。普通日志以普通日志文件的形式存储在当前主设备的flash:/logfile文件夹下,诊断日志以诊断日志文件的形式存储在当前主设备的flash:/diagfile文件夹下,这些日志文件可以通过FTP或TFTP等方式导出。
如果IRF运行过程中发生过主设备和备设备的角色倒换,则倒换前的主设备和倒换后的主设备上都会存在普通日志文件、诊断日志文件,请按照成员设备编号来命名文件夹,将不同成员设备导出的普通日志文件和诊断日志文件有序的保存至存储路径,以免不同成员设备记录的日志信息相互混淆,影响管理员监控设备运行情况和诊断网络故障。
表1-1 日志文件介绍
分类 |
文件名 |
内容 |
普通日志文件 |
logfile.log |
设备运行中执行的命令行、发生的事件、状态的变化等信息 |
诊断日志文件 |
diagfile.log |
设备运行中产生的诊断日志信息,如系统运行到错误流程时的参数值、设备无法启动时的信息、成员设备间通信异常时的握手信息 |
诊断信息 |
XXX.tar.gz |
系统当前多个功能模块运行的统计信息,包括设备状态、CPU状态、内存状态、配置情况、软件表项、硬件表项等 |
(1) 执行logfile save命令将日志文件缓冲区中的内容全部保存到日志文件中。日志文件缺省存储在flash的logfile文件夹中。
<Sysname> logfile save
The contents in the log file buffer have been saved to the file flash:/logfile/l
ogfile.log.
(2) 查看主用交换模块和备用交换模块中日志文件名称。用户可通过display irf命令查看主用交换模块和备用交换模块的成员交换模块编号;本例假设主用交换模块和备用交换模块的成员交换模块分别为1和2。
· 查看主用交换模块普通日志:
<Sysname> dir slot1#flash:/logfile/
Directory of flash:/logfile
0 -rw- 392997 Jan 01 2022 17:56:34 logfile.log
1048576 KB total (659780 KB free)
· 查看备用交换模块普通日志:
<Sysname> dir slot2#flash:/logfile/
Directory of flash:/logfile
0 -rw- 61584 Jan 01 2022 17:56:34 logfile.log
1048576 KB total (849152 KB free)
(3) 使用FTP或TFTP将日志文件传输到指定位置。
(1) 执行diagnostic-logfile save命令将诊断日志文件缓冲区中的内容全部保存到诊断日志文件中。诊断日志文件缺省存储在flash的diagfile文件夹中。
· 在交换模块上收集对应的诊断日志文件。
<Sysname> diagnostic-logfile save
The contents in the diagnostic log file buffer have been saved to the file flash
:/diagfile/diagfile.log.
(2) 查看主用交换模块和备用交换模块中诊断日志文件名称。用户可通过display irf命令查看主用交换模块和备用交换模块的成员交换模块编号;本例假设主用交换模块和备用交换模块的成员交换模块分别为1和2。
· 查看主用交换模块诊断日志:
<Sysname> dir slot1#flash:/diagfile/
Directory of flash:/diagfile
0 -rw- 194891 Jul 02 2020 10:11:48 210235A3SVH18A000007_icm2_diagnosti
c_info.tar.gz
1 -rw- 54443 Oct 12 2021 17:56:34 diagfile.log
1048576 KB total (659780 KB free)
· 查看备用交换模块诊断日志:
<Sysname> dir slot2#flash:/diagfile/
Directory of flash:/diagfile
0 -rw- 8192 Jan 17 2024 22:05:42 210235A3SVH18A000007_icm4_diagfile.
tar
1 -rw- 184362 Feb 21 2024 20:09:47 210235A3SVH18A000007_icm4_diagnosti
c_info.tar.gz
2 -rw- 66756 Jun 03 2025 04:04:51 diagfile.log
1048576 KB total (654320 KB free)
(3) 使用FTP或TFTP将日志文件传输到指定位置。
诊断信息可以通过两种方式收集:将诊断信息保存到文件,或者将诊断信息直接显示在屏幕上。为保证信息收集的完整性,建议您使用将诊断信息保存到文件的方式收集诊断信息。
通过Console口收集诊断信息所用的时间比通过业务网口收集所用的时间要长。在有可用业务网口的情况下,建议通过业务网口登录和传输文件。
(1) 执行screen-length disable命令,以避免屏幕输出被打断(如果是将诊断信息保存到文件中,则忽略此步骤)。
<Sysname> screen-length disable
(2) 执行display diagnostic-information命令收集诊断信息。
<Sysname> display diagnostic-information
Save or display diagnostic information (Y=save, N=display)? [Y/N] :
(3) 选择将诊断信息保存至文件中,还是将诊断信息直接在屏幕上显示。
· 输入“Y”,以及保存诊断信息的路径和名称,将诊断信息保存至文件中。
Save or display diagnostic information (Y=save, N=display)? [Y/N] : Y
Please input the file name(*.tar.gz)[flash:/diag.tar.gz] :cfa0:/diag.tar.gz
Diagnostic information is outputting to cfa0:/diag.tar.gz.
Please wait...
Save successfully.
<Sysname> dir cfa0:/
Directory of cfa0:
……
6 -rw- 898180 Jun 26 2021 09:23:51 diag.tar.gz
……
1021808 KB total (259072 KB free)
· 输入“N”,将诊断信息直接显示在屏幕上。
Save or display diagnostic information (Y=save, N=display)? [Y/N]:n
===============================================
===============display clock===============
04:45:38.502 UTC Wed 09/20/2021
=================================================
其它显示信息略……。
(4) 查看诊断信息文件内容。
· 解压诊断信息文件。
<Sysname> tar extract archive-file diag_Sysname_20220101-223942.tar.gz
Extracting archive flash:/diag_Sysname_20220101-223942.tar.gz...................
................................................................................
................................................................................
................................................................................
................................................................................
........................................... Done.
· 查看解压后的诊断信息文件内容。
<Sysname> more diag_Sysname_20220101-223942.tar.gz
===============================================
===============display clock===============
23:49:53 UTC Tue 01/01/2022
=================================================
---- More ----
交换模块启动阶段的信息会记录到保留内存,无论交换模块能否启动,只要交换模块没有下电就可以查看该信息。交换模块正常启动状态为normal后,在Probe视图下,通过display devm dmesg-msg slot 1 <0-100> 命令行查看,其中内存能够保存170k的重启信息。
(1) 在Probe视图下通过命令行display devm dmesg-msg slot 1 <0-100>就可以查看该交换模块的启动信息。
<6>[ 0.000000] 0:Initializing cgroup subsys cpuset <6>0:done
<6>[ 0.000000] 0:Initializing cgroup subsys cpu <6>0:done
<5>[ 0.000000] 0:Linux version (none) (CMO@host) (gcc version 4.4.1 (GCC) ) #1 SMP Fri Sep 21 11:00:00 CST 2018
<4>[ 0.000000] Standard version 0.50
<4>[ 0.000000] CPU: ARMv7 Processor [414fc091] revision 1 (ARMv7), cr=10c53c7d
<4>[ 0.000000] Machine: Marvell Armada-38x Board
<4>[ 0.000000] dma_high_end_setup,283,dma_high_end=0x40000000
<4>[ 0.000000] pgprot_kernel=0x45f
<4>[ 0.000000] Memory policy: ECC disabled, Data cache writealloc
<7>[ 0.000000] 0:On node 0 totalpages: 665600
<7>[ 0.000000] 0: DMA zone: 2816 pages used for memmap
<7>[ 0.000000] 0: DMA zone: 0 pages reserved
<7>[ 0.000000] 0: DMA zone: 400640 pages, LIFO batch:31
<7>[ 0.000000] 0: Normal zone: 1606 pages used for memmap
<7>[ 0.000000] 0: Normal zone: 147898 pages, LIFO batch:31
<7>[ 0.000000] 0: HighMem zone: 1210 pages used for memmap
<7>[ 0.000000] 0: HighMem zone: 111430 pages, LIFO batch:31
<7>[ 0.000000] 0: Movable zone: 0 pages used for memmap
<4>[ 0.000000] CPU: PIPT / VIPT nonaliasing data cache, VIPT aliasing instruction cache
<4>[ 0.000000] CPU info 83338003
<4>[ 0.000000] CPU0: D VIPT write-back cache
<4>[ 0.000000] CPU0: I cache: 512 bytes, associativity 1, 64 byte lines, 8 sets
<4>[ 0.000000] CPU0: D cache: 8192 bytes, associativity 128, 8 byte lines, 8 sets
当故障无法自行解决时,请准备好交换模块运行信息、故障现象等材料,发送给技术支持人员进行故障定位分析。
用户支持邮箱:service@h3c.com
技术支持热线电话:400-810-0504(手机、固话均可拨打)
您可通过如下方法恢复Console口密码。
· 方法一:通过Telnet登录交换模块修改Console口密码。请优先使用该方法。
· 方法二:通过BootWare菜单修改Console口密码。
使用本方法需满足以下条件:
· 用户可以通过Telnet登录交换模块。比如忘记了Telnet登录密码,就无法Telnet登录交换模块,即不满足该条件。
· 用户角色名为network-admin或level-15。
(1) 通过Telnet方式登录交换模块,并确认当前VTY用户的用户角色名。
# 查看当前正在使用的用户线及用户的相关信息。
<Sysname> display users
Idx Line Idle Time Pid Type
0 CON 0 00:01:13 Feb 19 17:34:43 543
+ 28 VTY 0 00:00:00 Nov 11 11:38:55 1865 TEL
Following are more details.
VTY 0 :
User role list: network-admin network-operator
Location: 192.168.33.13
+ : Current operation user.
F : Current operation user works in async mode.
以上显示信息表明,当前有两个用户已经登录交换模块,用户自己使用的是VTY 0用户线,用户的IP地址为192.168.33.13;另一个用户使用的是CON 0用户线。
# 在VTY 0用户视图下查看配置、确认该用户的权限:可看到 VTY 0的用户角色权限为level-15,有权限修改Console口密码。
[Sysname] line vty 0
[Sysname-line-vty0] display this
#
line aux 0
user-role network-operator
#
line con 0
user-role network-admin
#
line vty 0
authentication-mode none
user-role level-15
user-role network-admin
user-role network-operator
#
return
(2) 修改Console用户的密码(假设认证方式为password方式)。
<Sysname> system-view
[Sysname] line console 0
[Sysname-line-console0] user-role level-15
[Sysname-line-console0] user-role network-admin
[Sysname-line-console0] authentication-mode password
[Sysname-line-console0] set authentication password simple 12345678
[Sysname-line-console0] return
(3) 为了防止重启后配置丢失,请保存配置。
<Sysname> save
The current configuration will be written to the device. Are you sure? [Y/N] :y
Please input the file name(*.cfg)[flash:/default.cfg]
(To leave the existing filename unchanged, press the enter key):default.cfg
Validating file. Please wait....
Saved the current configuration to mainboard device successfully.
通过BootWare菜单修改Console口密码的方法与交换模块上是否使能了密码恢复功能相关,可通过以下方法查看交换模块的密码恢复功能的使能状态。
· 方法一:通过进入BootWare主菜单后的显示信息来判断。
· 方法二:Telnet登录当前交换模块后,通过查看当前交换模块上的配置信息来判断。
# 查看当前交换模块上的配置信息。
<Sysname> display current-configuration
#
version 7.1.075, Release 7751P01
#
mdc Admin id 1
#
sysname Sysname
#
command-alias enable
command-alias mapping undo no
command-alias mapping quit exit
command-alias mapping return end
#
system-working-mode bridgee
password-recovery enable
#
以上显示信息表明,当前交换模块使能了密码恢复功能。
使能密码恢复功能后,交换模块的BootWare菜单支持配置“Skip Authentication for Console Login”选项,选择该选项并重启交换模块后,交换模块以下次启动配置文件启动,登录Console口时会跳过认证密码,进入到命令行操作界面。
· 进入BootWare菜单需要重启交换模块,会导致业务中断,请视具体情况做好业务备份,并尽量选择业务量较少的时间操作。
· 跳过Console口密码登录后请马上配置新的密码,否则登录超时或重启后,仍需要跳过密码来登录。
· 如果两台互联模块组建了IRF,可将其当作两个单台设备分别操作处理。
· 在此操作过程中不要对交换模块下电。
(1) 用串口线连接配置终端和交换模块,然后重启交换模块,当终端屏幕上出现“Press Ctrl+B to access EXTENDED-BOOTWARE MENU...” 的3秒钟之内,键入<Ctrl+B>,系统将进入BootWare主菜单。
System is starting...
Press Ctrl+D to access BASIC-BOOTWARE MENU...
Press Ctrl+T to start memory test
Booting Normal Extended BootWare
The Extended BootWare is self-decompressing.........Done.
****************************************************************************
* *
* BootWare, Version 1.03 *
* *
****************************************************************************
Copyright (c) 2004-2021 New H3C Technologies Co., Ltd.
Compiled Date : Oct 19 2021
CPU ID : 0xc
CPU L1 Cache : 32KB
CPU L2 Cache : 1024KB
Memory Type : DDR3 SDRAM
Memory Size : 2048MB
Flash Size : 2048MB
CPLD Version : 001
PCB Version : B.0
BootWare Validating...
Press Ctrl+B to access EXTENDED-BOOTWARE MENU...
(2) 键入“8”并回车,跳过Console口密码登录。
Password recovery capability is enabled. //设备使能了密码恢复功能
Note: The current operating device is flash
Enter < Storage Device Operation > to select device.
==========================<EXTENDED-BOOTWARE MENU>==========================
|<1> Boot System |
|<2> Enter Serial SubMenu |
|<3> Enter Ethernet SubMenu |
|<4> File Control |
|<5> Restore to Factory Default Configuration |
|<6> Skip Current System Configuration |
|<7> BootWare Operation Menu |
|<8> Skip Authentication for Console Login |
|<9> Storage Device Operation |
|<0> Reboot |
============================================================================
Ctrl+Z: Access EXTENDED ASSISTANT MENU
Ctrl+F: Format File System
Enter your choice(0-9): 8
Clear Image Password Success!
(3) 重启交换模块。
==========================<EXTENDED-BOOTWARE MENU>==========================
|<1> Boot System |
|<2> Enter Serial SubMenu |
|<3> Enter Ethernet SubMenu |
|<4> File Control |
|<5> Restore to Factory Default Configuration |
|<6> Skip Current System Configuration |
|<7> BootWare Operation Menu |
|<8> Skip Authentication for Console Login |
|<9> Storage Device Operation |
|<0> Reboot |
============================================================================
Ctrl+Z: Access EXTENDED ASSISTANT MENU
Ctrl+F: Format File System
Enter your choice(0-9): 0
System is starting...
Booting Normal Extend BootWare
The Extend BootWare is self-decompressing.................................
Done.
(4) 完成交换模块启动后,通过Console口登录时不需要认证。登录后请及时修改Console口密码(假设认证方式为password方式)。
<Sysname> system-view
[Sysname] line console 0
[Sysname-line-console0] authentication-mode password
[Sysname-line-console0] set authentication password simple 12345678
[Sysname-line-console0] return
(5) 为防止重启后配置丢失,请保存配置。
<Sysname> save
The current configuration will be written to the device. Are you sure? [Y/N] :y
Please input the file name(*.cfg)[flash:/default.cfg]
(To leave the existing filename unchanged, press the enter key):default.cfg
Validating file. Please wait....
Saved the current configuration to mainboard device successfully.
密码恢复功能处于关闭状态时,交换模块的BootWare菜单支持配置“Restore to Factory Default Configuration”选项,选择该选项并重启交换模块后,交换模块会先自动删除下次启动配置文件,再以出厂配置启动。
· 恢复出厂配置后原有配置会丢失,造成业务中断,请谨慎。
· 在此操作过程中不要对交换模块进行下电。
· 如果两台互联模块组建了IRF,可将其当作两个单台设备分别操作处理。
(1) 用串口线连接配置终端和交换模块,然后重启交换模块,当终端屏幕上出现“Press Ctrl+B to access EXTENDED-BOOTWARE MENU...” 的3秒钟之内,键入<Ctrl+B>,系统将进入BootWare主菜单。
System is starting...
Press Ctrl+D to access BASIC-BOOTWARE MENU...
Press Ctrl+T to start memory test
Booting Normal Extended BootWare
The Extended BootWare is self-decompressing.........Done.
****************************************************************************
* *
* BootWare, Version 1.03 *
* *
****************************************************************************
Copyright (c) 2004-2021 New H3C Technologies Co., Ltd.
Compiled Date : Oct 19 2021
CPU ID : 0xc
CPU L1 Cache : 32KB
CPU L2 Cache : 1024KB
Memory Type : DDR3 SDRAM
Memory Size : 2048MB
Flash Size : 2048MB
CPLD Version : 001
PCB Version : B.0
BootWare Validating...
Press Ctrl+B to access EXTENDED-BOOTWARE MENU...
(2) 键入“5”并回车,恢复出厂默认配置。
Password recovery capability is disabled.
Note: The current operating device is flash
Enter < Storage Device Operation > to select device.
==========================<EXTENDED-BOOTWARE MENU>==========================
|<1> Boot System |
|<2> Enter Serial SubMenu |
|<3> Enter Ethernet SubMenu |
|<4> File Control |
|<5> Restore to Factory Default Configuration |
|<6> Skip Current System Configuration |
|<7> BootWare Operation Menu |
|<8> Skip Authentication for Console Login |
|<9> Storage Device Operation |
|<0> Reboot |
============================================================================
Ctrl+Z: Access EXTENDED ASSISTANT MENU
Ctrl+F: Format File System
Enter your choice(0-9): 5
Because the password recovery capability is disabled, this operation can
cause the configuration files to be deleted, and the system will start up
with factory defaults. Are you sure to continue?[Y/N]Y
Setting...Done.
(3) 重启交换模块,以出厂默认配置启动。
==========================<EXTENDED-BOOTWARE MENU>==========================
|<1> Boot System |
|<2> Enter Serial SubMenu |
|<3> Enter Ethernet SubMenu |
|<4> File Control |
|<5> Restore to Factory Default Configuration |
|<6> Skip Current System Configuration |
|<7> BootWare Operation Menu |
|<8> Skip Authentication for Console Login |
|<9> Storage Device Operation |
|<0> Reboot |
============================================================================
Ctrl+Z: Access EXTENDED ASSISTANT MENU
Ctrl+F: Format File System
Enter your choice(0-9): 0
System is starting...
Booting Normal Extend BootWare
The Extend BootWare is self-decompressing.................................
Done.
(4) 交换模块以出厂默认配置启动后,通过Console口登录时不需要认证。登录后请及时修改Console口密码(假设认证方式为password方式)。
<Sysname> system-view
[Sysname] line console 0
[Sysname-line-console0] authentication-mode password
[Sysname-line-console0] set authentication password simple 12345678
[Sysname-line-console0] return
(5) 为防止重启后配置丢失,请保存配置。
<Sysname> save
The current configuration will be written to the device. Are you sure? [Y/N] :y
Please input the file name(*.cfg)[flash:/default.cfg]
(To leave the existing filename unchanged, press the enter key):default.cfg
Validating file. Please wait....
Saved the current configuration to mainboard device successfully.
如果Telnet登录密码丢失,可以通过Console口登录交换模块后重新配置Telnet登录密码。
(1) 通过Console口登录交换模块。
(2) 对VTY用户(下面以VTY0~63为例)配置密码123456,并保存配置。
<Sysname> system-view
[Sysname] line vty 0 63
[Sysname-line-vty0-63] authentication-mode password
[Sysname-line-vty0-63] set authentication password simple 123456
[Sysname-line-vty0-63] return
<Sysname> save
The current configuration will be written to the device. Are you sure? [Y/N] :y
Please input the file name(*.cfg)[flash:/default.cfg]
(To leave the existing filename unchanged, press the enter key):default.cfg
Validating file. Please wait....
Saved the current configuration to mainboard device successfully.
缺省情况下,交换模块没有启动配置文件,设备采用缺省参数进行初始化配置。
如果想要将交换模块当前配置恢复成以前保存过的某个配置,可通过以下操作步骤完成。
(1) 通过FTP或TFTP方式将用于恢复的配置文件上传到交换模块上。本例以FTP方式举例,上传的配置文件名为startup0.cfg。
# 将用于恢复的配置文件上传到主用交换模块。
<Sysname> ftp 192.168.33.13
Press CTRL+C to abort.
Connected to 192.168.33.13 (192.168.33.13).
220 WFTPD 2.0 service (by Texas Imperial Software) ready for new user
User (192.168.33.13:(none)): 1
331 Give me your password, please
Password:
230 Logged in successfully
Remote system type is MSDOS.
ftp> binary
200 Type is Image (Binary)
ftp> get startup0.cfg
227 Entering Passive Mode (192,168,33,13,209,24)
150 "F:\ startup0.cfg" file ready to send (18494 bytes) in IMAGE / Binary mode
226 Transfer finished successfully.
18494 bytes received in 0.0383 seconds (471.1 kbyte/s)
ftp> quit
221 Windows FTP Server (WFTPD, by Texas Imperial Software) says goodbye
(2) 设置下次启动时使用的配置文件,以便下次启动后交换模块恢复到此配置。
<Sysname> startup saved-configuration startup0.cfg
Please wait...... Done.
(3) 重启交换模块。重启完成后,交换模块会设置的配置文件startup0.cfg恢复配置。
上述步骤的操作过程中,不能进行save命令的保存操作,否则交换模块将以当前保存的配置启动。
交换模块上电后,如果系统正常,将在配置终端上显示启动信息;如果配置系统出现故障,配置终端可能无显示或者显示乱码。
如果上电后配置终端无显示信息,首先要做以下检查:
· B16000刀箱的电源系统是否正常工作。
· 交换模块是否安装到位。
· 是否已将配置电缆接到交换模块的配置口(SYS串口)。
如果以上检查未发现问题,很可能有如下原因:
· 配置电缆连接的串口错误(实际选择的串口与终端设置的串口不符)。
· 配置终端参数设置错误(参数要求:设置波特率为9600,数据位为8,奇偶校验为无,停止位为1,流量控制为无)。
· 配置电缆本身有问题,可以尝试更换配置电缆。
如果配置终端上显示乱码,很可能是配置终端参数设置错误(设置波特率为9600,数据位为8,奇偶校验为无,停止位为1,流量控制为无,选择终端仿真为VT100),请进行相应检查。
交换模块出现异常重启或不断重启等故障时,可以通过logfile日志、display version、display kernel reboot查看交换模块启动后运行时间来确认交换模块有没有出现过重启,出现过重启的交换模块运行时间会明显短于B16000刀箱内其他交换模块。如果有交换模块出现过重启,请参考4.2.2 故障处理步骤。
交换模块插拔后出现端口down或丢包的现象时,可把交换模块拔出检查其和背板的连接器是否有损坏。
交换模块异常重启指交换模块出现过重启,而当前交换模块状态是Normal。
(1) 通过日志或运行时间分析重启的时间段,确认重启的时间点附近有无用户通过命令行reboot重启或进行交换模块上下电等操作。
(2) display version命令支持查询交换模块最近一次重启的原因。比如显示信息中“Last reboot reason : USER reboot”表示单板最近一次重启原因是用户重启设备。
<Sysname> display version
H3C Comware Software, Version 7.1.070, UN_BLADE-SWITCH_SYS 1.02.05
Copyright (c) 2004-2020 New H3C Technologies Co., Ltd. All rights reserved.
H3C BX720EF uptime is 11 weeks, 6 days, 2 hours, 37 minutes
Last reboot reason : USER reboot
---- More ----
(3) 如果所有交换模块同时出现重启,请检查B16000刀箱内电源模块是否正常,确认外部电源是否出现过停电,电源进线是否插稳、是否出现松动。
(4) 如无法确认,请搜集故障信息并发送给技术支持分析。
(1) 把交换模块拔出,检查交换模块的连接器是否存在明显插歪的现象。如果有,表示交换模块的连接器损坏,请联系技术支持处理。
(2) 如果连接器没有明显异常,请把该交换模块插到其他槽位进行交叉验证,如果恢复正常,说明交换模块连接器没有问题。
(3) 把其他正常的交换模块插入问题槽位进行交叉验证,如果问题复现,说明机箱背板的连接器损坏,请联系技术支持处理。
交换模块打印温度过低、过高等告警信息,如:
%Jun 26 10:13:46:233 2013 H3C DRVPLAT/4/DrvDebug: Temperature of the board is too high!
(1) 检查环境温度是否正常。如果环境温度较高,请确认原因,比如机房通风不畅、空调制冷故障等。
(2) 通过display environment命令查看交换模块当前的温度(Temperature)是否超出Warning、Alarm门限,也可以用手触摸交换模块,确认交换模块是不是很烫,如果交换模块温度很高,请立即检查原因。持续处于较高的温度下,可能会导致交换模块损坏。
<Sysname> display environment
System temperature information (degree centigrade):
----------------------------------------------------------------------
Slot Sensor Temperature Lower Warning Alarm Shutdown
1 switch 1 41 0 88 102 107
1 cpu 2 48 0 92 107 112
1 phy 3 38 0 88 102 107
¡ 如果温度过高,请排查是否风扇故障导致。
¡ 如果温度值为error或出现明显不合实际的值,可能是通过I2C总线访问交换模块温度传感器异常。
¡ 由于交换模块光模块信息访问也是通过相同的I2C总线,所以请检查交换模块读取光模块信息是否正常。如果正常,请使用temperature-limit命令重新设置交换模块的温度告警门限,并通过display environment查看是否设置成功。如果不正常,请更换光模块再查看一次,依然不正常,则联系技术支持。
(3) 如果仍然无法确认故障原因,请搜集信息联系技术支持。
表4-1 硬件类故障诊断命令
display kernel reboot <1-20> |
查看交换模块1-20次内核启动记录信息 |
用户下发ACL失败,具体分两种失败情况:
· 执行下发命令后交换模块提示资源不足。
· 执行下发命令后交换模块无任何错误提示,但ACL不起作用。
下发ACL配置时如果界面打印出“Reason: Not enough hardware resource”字样,则表明ACL下发失败是由硬件资源不足导致。通过display qos-acl resource命令可以进一步确认ACL硬件资源使用情况。如果显示信息中Remaining条目为0了,则表示ACL硬件资源已用尽,交换模块无法再下发ACL。如果下发时没有报“Reason: Not enough hardware resource”字样,则根据下发方式进行步骤选择:
· 通过MQC(QoS策略)方式下发,请进行步骤2:
· 通过包过滤(packet-filter)方式下发,请进行步骤3。
通过下面命令分别检查不同使用情况下QoS策略的配置情况:
· 显示以太网服务实例QoS 策略配置信息,display qos policy l2vpn-ac
· 显示VLAN上QoS 策略配置信息,display qos vlan-policy
· 显示全局QoS策略配置信息,display qos policy global
· 显示控制平面上QoS策略配置信息,display qos policy control-plane slot slot-number
· 显示用户上线后User Profile下应用的QoS策略配置信息,display qos policy user-profile
如果QoS策略中缺少流分类和流行为关联的配置,则补充相应配置。否则可通过以下两个命令分别检查下QoS策略中的类和流行为是否配置正确。
· 显示配置的类信息,display traffic classifier user-defined
· 显示配置的流行为信息,display traffic behavior user-defined
如果没有正确配置,则进行正确配置,否则进行步骤4。
可以通过display packet-filter命令检查packet-filter配置是否正确,如果不正确,则进行正确配置,否则进行步骤4。
可以通过display acl命令检查ACL是否配置正确,如果不正确,则进行正确配置,否则进行步骤5。
表5-1 ACL相关特性故障诊断命令
命令 |
说明 |
display acl |
显示ACL的配置和运行情况 |
display diagnostic-information |
显示系统当前多个功能模块运行的统计信息 |
display packet-filter |
显示ACL在报文过滤中的应用情况 |
display qos-acl resource |
显示ACL资源的使用情况 |
display qos policy l2vpn-ac |
显示L2VPN AC承载的以太网服务实例上QoS策略的配置信息和运行情况 |
display qos vlan-policy |
显示基于VLAN应用QoS策略的信息 |
display qos policy global |
显示基于全局应用QoS策略的信息 |
display qos policy control-plane |
显示控制平面应用QoS策略的信息 |
display qos policy user-defined |
显示QoS策略的配置信息 |
display traffic classifier user-defined |
显示配置的类信息 |
display traffic behavior user-defined |
显示配置的流行为信息 |
display qos policy user-profile |
显示用户上线后User Profile下应用的QoS策略配置信息 |
用户规划IRF后,尝试将多台交换模块配置为一个IRF系统,发现没有成功建立IRF。
通过display irf命令可以查看当前IRF中的成员个数,如果当前IRF成员数目已经达到支持的最大值,则其它交换模块不能再加入该IRF。
支持相同型号的交换模块之间建立IRF,请勿将不同型号(比如BX720E和BX720EF)的互联模块建立IRF。
用户可通过display device命令查看各交换模块上运行的软件版本,请确保各交换模块上运行的软件版本一致。
<Sysname-1> display device
Slot No. Brd Type Status Software Version
1 BX720E Master 1.00.09
<Sysname-2> display device
Slot No. Brd Type Status Software Version
2 BX720E Master 1.00.09
执行display irf命令可以查看到IRF中各成员的编号,如果新增交换模块的编号与IRF中现有成员交换模块的编号相同,则新增交换模块无法加入IRF;如果两台IRF中的交换模块具有相同的成员编号,则将导致IRF合并失败。
根据IRF规划进行线路检查,检查物理线路是否完全按照规划进行连接。通过display irf configuration命令可以查看当前交换模块上的IRF端口配置,其中一台交换模块的IRF-Port1端口必须与另外一台交换模块的IRF-Port2端口相连才能建立IRF,否则IRF建立失败。
<Sysname> display irf configuration
MemberID NewID IRF-Port1 IRF-Port2
1 1 Ten-GigabitEthernet1/0/33 disable
Ten-GigabitEthernet1/0/34
Ten-GigabitEthernet1/0/35
Ten-GigabitEthernet1/0/36
2 2 disable Ten-GigabitEthernet2/0/33
Ten-GigabitEthernet2/0/34
Ten-GigabitEthernet2/0/35
Ten-GigabitEthernet2/0/36
(1) 通过display interface命令确认IRF物理端口是否UP。
<Sysname> display interface Ten-GigabitEthernet 2/0/1
Ten-GigabitEthernet2/0/1
Current state: UP
IP Packet Frame Type: PKTFMT_ETHNT_2, Hardware Address: 80f6-5665-4302
Description: Ten-GigabitEthernet2/0/1 Interface
Bandwidth: 10000000kbps
Loopback is not set
Media type is optical fiber,Port hardware type is 10G_BASE_SR_SFP
……
(2) 确认使用irf-port-configuration active命令激活IRF物理端口。但在激活前应该先通过save命令保存配置,然后再激活。
[Sysname] irf-port-configuration active
(3) 通过display system-working-mode命令查看两台交换模块的工作模式是否一致。如果不一致可以通过system-working-mode命令来设置,重启交换模块后生效。
<Sysname> display system-working-mode
The current system working mode: AdvanceBridge
The system working mode for next startup: AdvanceBridge.
如果上述检查完成后故障仍无法排除,请联系技术支持处理。
IRF运行过程中出现分裂。
(1) 通过日志主机存储的信息,可查询IRF分裂时打印的IRF端口down的日志信息来确定IRF分裂的时间。
%Jun 26 10:13:46:233 2014 H3C STM/2/STM_LINK_STATUS_TIMEOUT: IRF port 1 is down because heartbeat timed out.
%Jun 26 10:13:46:436 2014 H3C STM/3/STM_LINK_STATUS_DOWN: -MDC=1; IRF port 2 is down.
(2) 检查IRF物理端口所在交换模块的状态是否正常,若不正常,请参照4.2 交换模块故障排查是否为交换模块故障导致。
(3) 检查各个IRF物理端口的状态是否正常。若端口状态不正常,请确认光模块安装是否正常。
<Sysname> display interface Ten-GigabitEthernet 2/0/1
Ten-GigabitEthernet2/0/1
Current state: UP
IP Packet Frame Type: PKTFMT_ETHNT_2, Hardware Address: 80f6-5665-4302
Description: Ten-GigabitEthernet2/0/1 Interface
Bandwidth: 10000000kbps
Loopback is not set
Media type is optical fiber,Port hardware type is 10G_BASE_SR_SFP
……
(4) 通过交换模块运行时间或日志检查IRF中各个成员交换模块在IRF分裂时是否重启过。
<Sysname> display version
H3C Comware Software, Version 7.1.070, UIS-SWITCH_SYS 1.00.09
Copyright (c) 2004-2019 New H3C Technologies Co., Ltd. All rights reserved.
H3C BX720E uptime is 0 weeks, 0 days, 4 hours, 49 minutes
Last reboot reason : USER reboot
(5) 如故障确认,可以通过更换光模块、更换交换模块等方式重新形成IRF;如故障无法确认,请搜集各个成员交换模块的信息,并将信息发送给技术支持人员,请求协助分析。
表6-1 IRF相关特性故障诊断命令
说明 |
|
display device |
显示交换模块信息。用于检查各成员交换模块的软件版本、交换模块类型是否一致 |
display install active |
显示当前系统中处于激活状态的软件包的相关信息 |
display interface |
显示指定接口的相关信息。用于检查IRF物理端口状态是否UP |
display irf |
显示本IRF的相关信息 |
display irf configuration |
显示所有成员交换模块的IRF配置信息。用于检查IRF端口连接是否异常,一台交换模块的IRF-Port1口只能与另一台交换模块的IRF-Port2口连接 |
irf-port-configuration active |
激活交换模块上所有IRF端口下的配置 |
display system-working-mode |
显示系统当前运行模式和下次启动后运行模式 |
display version |
显示系统版本信息、交换模块的运行时间。通过交换模块运行时间确认IRF中各个成员交换模块是否重启过 |
用户配置链路聚合功能后,发现聚合组中的成员端口不能被选中,聚合失败。
根据聚合规划进行线路检查,检查物理链接线路是否完全按照规划进行连接。
通过display interface命令查看聚合组中的成员端口是否处于UP状态,如果没有UP,可按照10.2 端口无法up故障流程处理。
在本交换模块上通过执行display current-configuration interface命令查看聚合接口及本端Unselected端口(通过display link-aggregation verbose命令查看端口是否为Selected状态,只有Selected状态的端口才可以在该聚合组中正常工作)的操作key和属性类配置与参考端口是否相同,如果不同,则将其配置相同。
在本交换模块上通过执行display link-aggregation load-sharing mode命令查看聚合负载分担类型。若不是动态聚合,则直接到步骤6,否则进行步骤5。
在与本端Unselected端口相连接交换模块上执行display current-configuration interface命令查看对端Unselected端口的属操作key和属性类配置与参考端口的对端端口是否相同,如果不同,则将其配置相同。
可在聚合接口视图下通过link-aggregation selected-port maximum命令配置聚合组中的最大选中端口数。通过display link-aggregation verbose命令查看聚合组中成员端口是否超过上限,如果超过上限,则多出来的端口为Unselected状态。Selected端口按照端口编号从小到大排序,可以在成员端口视图下使用undo port link-aggregation group命令将Selected端口中不适用的端口从聚合组中删除,以使必须使用的端口为Selected状态。
如果上述检查完成后故障仍无法排除,请联系技术支持处理。
表7-1 聚合相关特性故障诊断命令
命令 |
说明 |
display current-configuration interface |
显示接口当前生效的配置 |
display interface |
显示以太网接口的相关信息 |
display link-aggregation verbose |
显示系统上已有聚合接口所对应的聚合组的详细信息 |
link-aggregation selected-port maximum |
配置聚合组中的最大选中端口数 |
执行fcoe-mode命令,发现无法下发成功,显示操作失败。
[Sysname] fcoe-mode fcf
Operation failed.
Probe视图,执行debug qacl show acl-resc slot 1 chip 0命令,查看ACL资源的使用情况,确保Group4,Group5未被其他应用占用。
[Sysname] probe
[Sysname-probe] debug qacl show acl-resc slot 1 chip 0
---------------Qacl Group UsedResc Info---------------
Acl Hw Resource: VFP, Pipe:0
-------------------------------------------------------------------------
Pri 3, Group 1,usedEntries 5 ,mode Single, physlice 0/
=========================================
acl type usedEntries[5]
=========================================
[103]Pdt VFP FirstNh2Classid 5
======================================
-------------------------------------------------------------------------
Acl Hw Resource: EFP, Pipe:0
-------------------------------------------------------------------------
Acl Hw Resource: IFP, Pipe:0
-------------------------------------------------------------------------
Pri 7, Group 6,usedEntries 5 ,mode Double, physlice 2/3/
=========================================
acl type usedEntries[5]
=========================================
[23 ]RX Low 2
[25 ]Super_RX Low 1
[93 ]UntrustPriority 1
[120]MPLS Vpn High 1
======================================
-------------------------------------------------------------------------
Pri 9, Group 4,usedEntries 1 ,mode Single, physlice 0/
=========================================
acl type usedEntries[1]
=========================================
[125]FCOE ROUTE 1
======================================
-------------------------------------------------------------------------
Pri 10, Group 16,usedEntries 41 ,mode Double, physlice 4/5/
=========================================
acl type usedEntries[41]
=========================================
[8 ]RX IPv4 High 10
[9 ]RX IPv4 Middle High 1
[10 ]RX IPv4 Middle 28
[87 ]STMVLAN_PERMIT 1
[91 ]PDT_IRF 1
======================================
-------------------------------------------------------------------------
Acl Hw Resource: EXTERNAL, Pipe:0
-------------------------------------------------------------------------
ACL ext mode: disable
Acl Group RollBack Info Begin
Acl Group RollBack Info : VFP, Pipe 0
=====================================
GID PRI MODE SliceBitmap
-------------------------------------
1 3 Single 0x0001
======================================
Acl Hw Resource: VFP, Pipe 0
======================================
entrynum counternum meternum
total : 1024 0 0
total-reserved : 261 0 0
used-reserved : 5 0 0
used-useracl : 0 0 0
free-useracl : 763 0 0
======================================
------------------------------------------------------
Acl Group RollBack Info : EFP, Pipe 0
=====================================
GID PRI MODE SliceBitmap
-------------------------------------
======================================
执行debug fc show statistic slot soltid命令,检查是否存在软件规则残留(比如fips num等不为0),未清除干净数据导致新配置失败。
[Sysname] probe
[Sysname-probe] debug fc show statistic slot 1
**********************************************************
Fcagg SPECS:
- Cur Num: 0
- Max Num: 128
- ShareMode: LocalFirst
-----------------------------------
Current FCoE Mode:NONE.
-----------------------------------
ROUTE SPECS:
[Hard Info]
- Max Num: 256
- Reserved Num: 0
- Route Num: 0
[Soft Info]
- Refresh-flag: 0
- Refresh-count: 0
- Route Num: 0
NEXTHOP SPECS:
- Hard Num: 0
- Soft Num: 0
VSAN SPECS:
- Max Num: 17
- Vsan Num: 0
ZONE/NPV SPECS:
[Hard Info]
- Max Num: 256
- Reserved Num: 0
- ZONE Rule Num: 0
- NPV Mapping Num: 0
[Soft Info]
- ZONE Refresh-flag: 0
- ZONE Refresh-count: 0
- ZONE Rule Num: 0
- NPV Mapping Num: 0
FIPS SPECS:
[Hard Info]
- Max Num: 256
- Reserved Num: 0
- FIPS Num: 0
[Soft Info]
- Refresh-flag: 0
- Refresh-count: 0
- FIPS Num: 0
**********************************************************
若是资源被占用,需要清除相关配置,并重启交换模块;若是资源未删除干净,则需要重启交换模块。
执行display interface fc命令,发现FC端口的协议状态(Line protocol state)为Down。
<Sysname> display
interface fc 1/0/1
Fc1/0/1
Current state: DOWN
Line protocol state: DOWN
Description: Fc1/0/1 Interface
Bandwidth: 4000000 kbps
Maximum transmission unit: 2112
Internet protocol processing: Disabled
Link layer protocol is FC
……略
执行display interface fc命令,查看端口的物理状态(Current state)和协议状态(Line protocol state)。
· 如果物理状态(Current state)UP,但协议状态(Line protocol state)DOWN,请执行2. 检查是否在一个VSAN和3. 确认先配置ACCESS模式。
· 如果物理状态(Current state)DOWN,请执行4. 查看两端光模块以及速率和5. 查看fill-word模式。
<Sysname> display
interface fc 1/0/1
Fc1/0/1
Current state: DOWN
Line protocol state: DOWN
Description: Fc1/0/1 Interface
Bandwidth: 4000000 kbps
Maximum transmission unit: 2112
Internet protocol processing: Disabled
Link layer protocol is FC
……略
端口视图下,执行display this命令,查看接口所在vsan以及display current-config命令查看vsan绑定的vlan是否与对端一致。
<Sysname> display current-config
#
version 7.1.070, UIS-SWITCH_SYS 1.02.05
#
irf mac-address persistent timer
irf auto-update enable
undo irf link-delay
irf member 1 priority 1
#
lldp global enable
#
system-working-mode AdvancedBridge
password-recovery enable
#
fcoe-mode fcf
#
vsan 1
#
vsan 3100
domain-id 2 static
#
vsan 3101
#
vlan 1
#
vlan 3100
fcoe enable vsan 3100
端口视图下,执行display this命令,检查双方协议都是access模式。
[Sysname]interface Fc 1/0/1
[Sysname-Fc1/0/1]dis this
#
interface Fc1/0/1
port access vsan 10
#
return
执行display transceiver interface fc命令,查看光模块的信息,确保光模块在位以及是FC光模块,再通过查看端口详细信息确保两端端口的速率协商一致。
在端口视图下执行display this命令确认配置,保证两端都是自协商或者都是强制速率。
<Sysname> display
transceiver interface fc 1/0/1
Fc1/0/1 transceiver information:
Transceiver Type : 16G_FC_LW_SFP
Connector Type : LC
Wavelength(nm) : 1310
Transfer Distance(km) : 10(SMF)
Digital Diagnostic Monitoring : YES
Vendor Name : FINISAR CORP.
Vendor Part Number : FTLF1429P3BCV
<Sysname> display interface fc 1/0/1
Fc1/0/1
Current state: DOWN
Line protocol state: DOWN
Description: Fc1/0/5 Interface
Bandwidth: 4000000 kbps
Maximum transmission unit: 2112
Internet protocol processing: Disabled
Link layer protocol is FC
Fill word is idle-arbff
Port WWN is 28:01:04:d7:a5:8d:ec:e5
FC mode is Auto, state is Init
BB_Credit Recovery is disable
Media type is not sure,port hardware type is No connector
Port priority: 0
Link speed type is force link, Flow-control is enabled
The maximum frame length is 9216
Last link flapping: Never
Last clearing of counters: Never
Current system time:2025-09-06 01:28:20
Last time when physical state changed to up:-
Last time when physical state changed to down:2025-06-02 04:04:52
Peak input rate: 0 bytes/sec, at 2025-06-02 04:05:21
Peak output rate: 0 bytes/sec, at 2025-06-02 04:05:21
---- More ----
执行display interface fc命令,查看端口对应的fill-word模式是否一致,若是16G光模块则只支持idle-arbff模式
<Sysname> display interface fc 1/0/1
Fc1/0/1
Current state: DOWN
Line protocol state: DOWN
Description: Fc1/0/5 Interface
Bandwidth: 4000000 kbps
Maximum transmission unit: 2112
Internet protocol processing: Disabled
Link layer protocol is FC
Fill word is idle-arbff
Port WWN is 28:01:04:d7:a5:8d:ec:e5
FC mode is Auto, state is Init
BB_Credit Recovery is disable
Media type is not sure,port hardware type is No connector
Port priority: 0
Link speed type is force link, Flow-control is enabled
The maximum frame length is 9216
Last link flapping: Never
Last clearing of counters: Never
Current system time:2025-09-06 01:28:20
Last time when physical state changed to up:-
Last time when physical state changed to down:2025-06-02 04:04:52
Peak input rate: 0 bytes/sec, at 2025-06-02 04:05:21
Peak output rate: 0 bytes/sec, at 2025-06-02 04:05:21
---- More ----
执行display interface brief命令:
发现与交换模块对接的VFC端口的State为Down
<Sysname> display interface brief
Brief information on FC interface(s):
Admin Mode: auto - auto; E - e port; F - f port; NP - n port proxy
Oper Mode: E - e port; F - f port; NP - n port proxy;
TE - trunking e port; TF - trunking f port;
TNP - trunking n port proxy
Vfc1 F on -- DOWN
XGE1/0/9
---- More ----
执行display interface ten-GigabitEthernet命令,查看接口信息,确保接口物理状态为UP。
[Sysname]display
interface ten-GigabitEthernet 1/0/17
Ten-GigabitEthernet1/0/17
Current state: UP
Line protocol state: DOWN
---- More ----
执行下列命令,检查双方协议配置是否一致,主要确保两端vsan与vlan一致。
[Sysname] interface
ten-GigabitEthernet 1/0/17
[Sysname-Ten-GigabitEthernet1/0/17]display this
#
interface Ten-GigabitEthernet1/0/17
port link-mode bridge
port link-type trunk
port trunk permit vlan 1 100
#
return
[Sysname-Ten-GigabitEthernet1/0/17]interface vfc 1
[Sysname-Vfc1] display this
#
interface Vfc1
port trunk vsan 1
bind interface Ten-GigabitEthernet1/0/17
#
return
[Sysname-Vfc1] vlan 100
[Sysname-vlan100]display this
#
vlan 100
fcoe enable vsan 1
#
return
(1) 检查与网卡对接的端口配置。
端口视图下执行display this命令,确保无损以太配置没有遗漏。
(2) 检查交换模块全局无损以太配置。
执行display current-config,确保全局无损以太配置没有遗漏。
(3) 检查网卡侧fcoe服务以及lldp服务是否启动,以及相关的FCoE配置。
网卡侧保证开启fcoe服务以及lldp服务。
(4) 检查网卡端口的WWN的唯一性。
网卡侧保证端口的WWN没有重复。
刀片服务器到存储设备之间不能正常访问。
执行display fc login/display npv login命令,查看刀片服务器和存储设备的注册状态,确保都已经正常注册。
<Sysname> display fc login
Interface
VSAN FCID Node WWN Port WWN
Fc1/0/5 1 0x910000 20:01:20:18:10:26:17:43
28:02:20:18:10:26:17:81
端口视图执行display this命令查看vsan,并执行display current-configuration命令查看绑定的vlan,确保一致。
执行display fc routing-table,检查链路中的路由转发表是否正常,相同vsan内的出入端口是否与组网一致
<Sysname> display fc routing-table
Routing Table: VSAN 1
Destinations : 4 Routes : 4
Destination/mask Protocol Preference Cost Interface
0xfffc9b/24 DIRECT 0 0 InLoop0
0xfffffa/24 DIRECT 0 0 InLoop0
0xfffffc/24 DIRECT 0 0 InLoop0
0xfffffd/24 DIRECT 0 0 InLoop0
Routing Table: VSAN 4079
Destinations : 1 Routes : 1
Destination/mask Protocol Preference Cost Interface
0xfffffd/24 DIRECT 0 0 InLoop0
执行display zoneset active vsan 1命令,检查zone的配置,保证刀片服务器和存储设备在一个zone内,并且根据组网划分无误。
<Sysname> display zoneset active vsan 1
VSAN 1:
zoneset name Zoneset1
zone name Zone1
*fcid 0x010001
zone name Zone2
*fcid 0x010002
*fcid 0x020004
*fcid 0x020005 [pwwn 22:33:44:55:66:77:88:99]
*fcid 0x020006 [pwwn 11:22:33:44:55:66:77:88]
zone name Zone3
*fcid 0x010003
*fcid 0x020004
若上述步骤检查无异常,则可排除交换模块的问题,请继续排查刀片服务器、存储设备及其他网络设备的问题。
FC/FCoE链路中存在丢包。
查看logfile日志,确认是否链路中的端口出现过物理UP/DOWN以及协议UP/DOWN。
执行display transceiver alarm interface命令查看光模块是否出现异常,比如光纤线松动,或者信号异常等
===============display transceiver alarm interface===============
Fc1/0/1 transceiver current alarm information:
None
Fc1/0/2 transceiver current alarm information:
None
Fc1/0/3 transceiver current alarm information:
None
Fc1/0/4 transceiver current alarm information:
RX power low
RX signal loss
检查链路中的速率是否已经超过当前端口的带宽,比如8G的光模块,实际流量却超过了8G;
执行display interface fc命令,查看端口当前是否有收到PAUSE帧
<Sysname> display interface fc 1/0/1
Fc1/0/1
Current state: UP
Line protocol state: UP
Description: Fc1/0/1 Interface
Bandwidth: 16000000 kbps
Maximum transmission unit: 2112
16000Mbps-speed mode
Internet protocol processing: Disabled
Link layer protocol is FC
Fill word is idle-arbff
Port WWN is 28:01:00:e0:79:85:74:a2
FC mode is Auto, state is F
BB_Credit Recovery is disable
Transmit B2B Credit is 15
Receive B2B Credit is 15
Media type is optical fiber,port hardware type is 16G_FC_LW_SFP
Port priority: 0
16Gbps-speed mode, Link speed type is autonegotiation, Flow-control is enabled
The maximum frame length is 9216
Last link flapping: 0 hours 48 minutes 2 seconds
Last clearing of counters: Never
Current system time:2019-03-07 20:53:22
Last time when physical state changed to up:2019-03-07 20:05:21
Last time when physical state changed to down:2019-03-07 20:01:43
Peak input rate: 3 bytes/sec, at 2019-03-07 20:05:25
Peak output rate: 8 bytes/sec, at 2019-03-07 20:07:46
Last 300 second input: 0 packets/sec 0 bytes/sec 0%
Last 300 second output: 0 packets/sec 0 bytes/sec 0%
Input (total): 9 packets, 1152
bytes
9 unicasts, 0
broadcasts, 0 multicasts, 0 pauses
Input (normal): 9 packets, - bytes
9 unicasts, 0
broadcasts, 0 multicasts, 0 pauses
Input: 0 input errors, 0 runts, 0 giants, 0 throttles
0 CRC, 0 frame, - overruns, 0 aborts
- ignored, - parity errors
Output (total): 18 packets, 2572 bytes
18 unicasts, 0 broadcasts, 0 multicasts,
0 pauses
Output (normal): 18 packets, - bytes
18 unicasts, 0
broadcasts, 0 multicasts, 0 pauses
Output: 0 output errors, - underruns, - buffer failures
0 aborts, 0 deferred, 0 collisions, 0 late collisions
0 lost carrier, - no carrier
执行display transceiver interface fc命令确认光模块是长距还是短矩,再执行display interface fc确认是否配置了匹配的bbcredit。
· 850nm 波段:多用于短距离传输。
· 1310nm 和1550nm 波段:多用于中长距离传输。
[Sysname] display
transceiver interface fc 1/0/5
Fc1/0/5 transceiver information:
Transceiver Type : 16G_FC_LW_SFP
Connector Type : LC
Wavelength(nm) : 1310
Transfer Distance(km) : 10(SMF)
Digital Diagnostic Monitoring : YES
Vendor Name : FINISAR CORP.
Vendor Part Number : FTLF1429P3BCV
<Sysname> display interface
fc 1/0/5
Fc1/0/5
Current state: UP
Line protocol state: UP
Description: Fc1/0/5 Interface
Bandwidth: 16000000 kbps
Maximum transmission unit: 2112
16000Mbps-speed mode
Internet protocol processing: Disabled
Link layer protocol is FC
Fill word is idle-arbff
Port WWN is 28:01:00:e0:79:85:74:a2
FC mode is Auto, state is F
BB_Credit Recovery is disable
Transmit B2B Credit is 15
Receive B2B Credit is 15
报文转发丢包,ping不通或ping丢包,tracert异常。
<Sysname> ping 10.0.0.5
PING 10.0.0.5 (10.0.0.5): 56 data bytes, press CTRL_C to break
Request time out
Request time out
Request time out
Request time out
Request time out
--- 10.0.0.5 ping statistics ---
5 packet(s) transmitted, 0 packet(s) received, 100.0% packet loss
使用debugging ip icmp命令打开ICMP调试信息开关,当对端ping本交换模块时,可以看到下列调试信息。如果未显示ICMP请求报文信息,则说明未接收到请求报文;如果未显示ICMP应答报文,则说明本交换模块未应答ICMP请求。
# 打开ICMP的调试信息开关。对端ping本交换模块时,本交换模块会输出下列调试信息。
*Feb 8 18:28:47:417 2011 Sysname SOCKET/7/ICMP:
ICMP Input:
ICMP Packet: src = 192.168.20.14, dst = 192.168.20.13
type = 8, code = 0 (echo)
// 接收ICMP请求报文,报文源IP地址为192.168.20.14,报文目的IP地址为192.168.20.13
*Feb 8 18:28:47:451 2011 Sysname SOCKET/7/ICMP:
ICMP Output:
ICMP Packet: src = 192.168.20.13, dst = 192.168.20.14
type = 0, code = 0 (echo-reply)
// 发送ICMP应答报文,报文源IP地址为192.168.20.13,报文目的IP地址为192.168.20.14
报文转发异常通常会涉及多台设备,需要逐一排查。为方便排查,排查前建议先明确报文的转发走向,如经过哪些中间设备,在交换模块的哪些接口进入设备,又会从哪些接口出去。通过镜像抓包或配置ACL规则统计交换模块有没有收到或发出相应的业务报文,以配置ACL规则统计端口入方向Ping报文为例:
(1) 定义相关的ACL
[Sysname] acl number 3000
[Sysname-acl-adv-3000] rule 1 permit ip destination 1.1.1.1 0
(2) 定义流分类和流行为
[Sysname] traffic classifier statistic_1
[Sysname-classifier-static_1] if-match acl 3000
[Sysname] traffic behavior statistic_1
[Sysname-classifier-static_1] accounting packet
(3) 定义策略
[Sysname] qos policy statistic_1
[Sysname-classifier-static_1] classifier statistic_1 behavior statistic_1
(4) 将策略应用到端口入方向
[Sysname] interface Ten-GigabitEthernet 1/0/1
[Sysname-Ten-GigabitEthernet1/0/1] qos apply policy statistic_1 inbound
(5) 检查入方向报文统计计数,可以通过reset counter interface命令清除计数
<Sysname> display qos policy interface Ten-GigabitEthernet 1/0/1
Interface: Ten-GigabitEthernet 1/0/1
Direction: Inbound
Policy: statistic_1
Classifier: statistic_1
Operator: AND
Rule(s) : If-match acl 3000
Behavior: statistic_1
Accounting Enable:
1000 (Packets)
如果交换模块未收到Ping报文,请排查上游的相邻交换模块;如果交换模块发送的Ping报文计数正确,建议排查下游的相邻交换模块;如果Ping报文入出计数不正确,请参照二层流量转发丢包
交换模块二层转发丢包,即源端和目的端在同一二层网络的同一VLAN内,通信过程中有丢包。
使用display interface命令查看端口下是否有错包。如果有错包,请前往步骤2,如果没有错包,请前往步骤3进行后续步骤的检查。
<Sysname> display interface ten-gigabitethernet1/0/17
FortyGigE1/0/17 current state: UP
IP Packet Frame Type: PKTFMT_ETHNT_2, Hardware Address: 000f-e200-002b
Last 300 seconds input: 0 packets/sec 10 bytes/sec 0%
Last 300 seconds output: 0 packets/sec 10 bytes/sec 0%
Input (total): 1438 packets, 480292 bytes
0 unicasts, 0 broadcasts, 1438 multicasts, 0 pauses
Input (normal): 1438 packets, - bytes
0 unicasts, 0 broadcasts, 1438 multicasts, 0 pauses
Input: 0 input errors, 0 runts, 0 giants, 0 throttles
0 CRC, 0 frame, - overruns, 0 aborts
Output (total): 1440 packets, 475200 bytes
0 unicasts, 0 broadcasts, 1440 multicasts, 0 pauses
Output (normal): 1440 packets, - bytes
0 unicasts, 0 broadcasts, 1440 multicasts, 0 pauses
Output: 0 output errors, - underruns, - buffer failures
0 aborts, 0 deferred, 0 collisions, 0 late collisions
· 端口本身硬件故障:通过将连接端口的线缆连接到配置相同且可正常工作的端口查看是否端口本身硬件故障。如果是端口本身硬件故障,请将线缆连接到可正常工作的端口。
· 链路上光模块、光纤或以太网双绞线故障:通过更换完好的光模块、光纤或以太网双绞线定位是否光纤或以太网双绞线故障。如果是光模块、光纤或以太网双绞线故障,请更换完好的光模块、光纤或以太网双绞线。
· 对端配置问题,查看对端速率、双工模式的配置是否和本端一致。如果对端速率和双工模式的配置与本端不一致,请更新配置保证本端和对端速率和双工模式的配置一致。
(2) 检查是否因匹配一些特性自动创建的ACL而被过滤,在以太网接口视图下使用display this命令查看端口下是否配置了下面特性或使用特性相关的具体命令查看:
· 在以太网接口视图下使用display this命令查看端口是否在报文所属VLAN中。如果端口不在报文所属VLAN中,请将端口加入该VLAN。
通过display qos queue-statistics interface命令查看端口是否有拥塞丢包。请参考拥塞管理的相关内容定位解决拥塞问题。
三层流量转发故障排查。
交换模块二层转发丢包,即源端和目的端在同一二层网络的同一VLAN内,通信过程中有丢包。
使用display interface命令查看端口下是否有错包。如果有错包,请前往步骤2,如果没有错包,请前往步骤3进行后续步骤的检查。
<Sysname> display interface ten-gigabitethernet1/0/17
FortyGigE1/0/17 current state: UP
Line protocol state: UP
IP Packet Frame Type: PKTFMT_ETHNT_2, Hardware Address: 000f-e200-002b
……
Last 300 seconds input: 0 packets/sec 10 bytes/sec 0%
Last 300 seconds output: 0 packets/sec 10 bytes/sec 0%
Input (total): 1438 packets, 480292 bytes
0 unicasts, 0 broadcasts, 1438 multicasts, 0 pauses
Input (normal): 1438 packets, - bytes
0 unicasts, 0 broadcasts, 1438 multicasts, 0 pauses
Input: 0 input errors, 0 runts, 0 giants, 0 throttles
0 CRC, 0 frame, - overruns, 0 aborts
- ignored, - parity errors
Output (total): 1440 packets, 475200 bytes
0 unicasts, 0 broadcasts, 1440 multicasts, 0 pauses
Output (normal): 1440 packets, - bytes
0 unicasts, 0 broadcasts, 1440 multicasts, 0 pauses
Output: 0 output errors, - underruns, - buffer failures
0 aborts, 0 deferred, 0 collisions, 0 late collisions
0 lost carrier, - no carrier
端口下有错包有以下几种可能的故障原因,可使用排除法定位:
· 端口本身硬件故障:通过将连接端口的线缆连接到配置相同且可正常工作的端口查看是否端口本身硬件故障。如果是端口本身硬件故障,请将线缆连接到可正常工作的端口。
· 链路上光模块、光纤或以太网双绞线故障:通过更换完好的光模块、光纤或以太网双绞线定位是否光纤或以太网双绞线故障。如果是光模块、光纤或以太网双绞线故障,请更换完好的光模块、光纤或以太网双绞线。
· 对端配置问题,查看对端速率、双工模式的配置是否和本端一致。如果对端速率和双工模式的配置与本端不一致,请更新配置保证本端和对端速率和双工模式的配置一致。
· 当通过上述方法无法解决错包问题时,请前往步骤7。
(1) 检查端口、VLAN以及全局下是否配置了ACL或QoS策略,如果配置了ACL或QoS策略,请检查端口进入的报文是否因匹配了ACL或QoS策略的流分类而被丢弃,包括端口下的packet-filter(使用display packet-filter查看)、qos policy(使用display qos policy查看),vlan policy(使用display qos vlan-policy查看)以及global policy(使用display qos policy global查看)。如果报文因匹配了ACL或QoS策略的流分类而被丢弃,请参考ACL或QoS的配置方法通过更新配置使报文不被丢弃。
(2) 检查是否因匹配一些特性自动创建的ACL而被过滤,在以太网接口视图下使用display this命令查看端口下是否配置了下面特性或使用特性相关的具体命令查看:
· 端口是否配置ip source binding或ip verify source,使用display ip source binding/ display ipv6 source binding可以查看绑定表项信息。如果端口配置了ip source guard且通过上述 display命令发现没有匹配报文的表项,请根据您使用的绑定表项的生成方法进一步排查。
· 查看端口是否配置了Portal认证,没有通过Portal认证的用户,报文会被该端口丢弃。使用display portal interface可以显示指定VLAN接口的Portal配置信息。请用户根据实际情况确定是否可以取消Portal认证。在端口所属VLAN的对应VLAN虚接口下使用undo portal server server-name可以取消Portal认证。
· 端口所在VLAN是否配置了MFF,使用display mac-forced-forwarding vlan命令显示指定VLAN的MFF信息,如果显示信息中没有Gateway信息,请根据MFF运行的模式查看ARP Snooping或DHCP Snooping是否正确配置。
· 使用display stp brief命令查看端口是否被stp设置为discarding状态。如果端口被stp设置为discarding状态,请根据stp的相关配置进一步排查。H3C建议您将连接终端交换模块的端口配置为边缘端口或关闭该端口的stp功能。
· 如果端口属于某个聚合组,使用display link-aggregation verbose命令查看聚合口的详细信息,当该端口Status为Unselected状态时,该端口无法收发数据报文。请定位端口成为Unselected状态的原因,如聚合组内成员端口的属性类配置与参考端口不一致,进一步排查解决。
· 查看端口是否被Smartlink阻塞:使用display smart-link group命令查看端口状态,当State为STANDBY或DOWN时端口不能转发数据。如果State为DOWN,请定为端口成为DOWN状态的原因,如上行链路上的交换模块配置了Monitor Link功能造成该端口DOWN,或该端口所在链路连接发生故障或端口被shutdown,进一步排查解决;如果State为STANDBY,请将该交换模块Smart Link组的主、从端口互换。
· 在以太网接口视图下使用display this命令查看端口是否在报文所属VLAN中。如果端口不在报文所属VLAN中,请将端口加入该VLAN。
· 使用display mac-address blackhole命令查看是否因为匹配了黑洞MAC地址表项被丢包。请根据实际情况确定是否可以取消该黑洞MAC。如果需要删除该黑洞MAC,请使用undo mac-address blackhole mac-address vlan vlan-id命令删除。
· 使用display qos lr interface查看是否有端口限速的配置。如果端口有限速的配置,请查看令牌生成速度和突发流量配置值是否合理,可以通过使用qos lr { inbound | outbound } cir committed-information-rate [ cbs committed-burst-size ]命令调整令牌生成速度和突发流量配置值定位解决。
· 在以太网接口视图下使用display this命令查看端口是否有风暴抑制相关配置,包括广播风暴抑制比(broadcast-suppression),组播风暴抑制比(multicast-suppression),未知单播风暴抑制比(unicast-suppression)。如果端口下配置了风暴抑制比,可以通过将风暴抑制比的数值调大定位解决。
通过display qos queue-statistics interface命令查看端口是否有拥塞丢包。请参考拥塞管理的相关内容定位解决拥塞问题。
如果上述检查完成后故障仍无法排除,请联系技术支持处理。
表9-2 二层转发丢包故障诊断命令
命令 |
说明 |
display interface |
显示以太网端口的相关信息 |
display packet-filter |
显示ACL在报文过滤中的应用情况 |
display qos policy |
显示用户定义策略的配置信息 |
display qos policy interface |
显示指定端口或所有端口上QoS策略的配置信息和运行情况 |
display qos vlan-policy |
显示基于VLAN应用QoS策略的信息 |
display qos policy global |
显示基于全局应用QoS策略的信息 |
display this |
在以太网接口视图下使用此命令查看接口的当前配置 |
display ip source binding/ display ipv6 source binding |
查看IP Source Guard绑定表项信息 |
display portal interface |
显示指定接口的Portal配置信息 |
display mac-forced-forwarding vlan |
显示指定VLAN的MFF信息 |
display link-aggregation verbose |
查看聚合口的详细信息 |
display smart-link group |
查看Smart Link组的信息 |
display mac-address blackhole |
查看黑洞MAC地址表项信息 |
display qos lr interface |
显示端口限速配置情况 |
display qos queue-statistics interface |
显示端口队列统计信息 |
故障现象通常有:三层业务异常、ping/tracert丢包/不通。
报文在交换模块上进行三层转发的条件是报文的目的MAC为交换模块VLAN接口的MAC。通过镜像或抓包确认这个条件是否满足,“镜像”的详细介绍,请参见《网络管理和监控配置指导》中的“镜像”。如图9-1所示,报文的目的MAC为交换模块VLAN接口的MAC,说明报文目的MAC正确。
<Sysname> display interface Vlan-interface 100
Vlan-interface100
Current state: UP
Line protocol state: UP
Description: Vlan-interface100 Interface
Bandwidth: 1000000kbps
Maximum Transmit Unit: 1500
IP Packet Frame Type:PKTFMT_ETHNT_2, Hardware Address: 7425-8a02-4d00
IPv6 Packet Frame Type:PKTFMT_ETHNT_2, Hardware Address: 7425-8a02-4d00
Last clearing of counters: Never
Last 300 seconds input: 20 packets/sec 2565 bytes/sec 0%
Last 300 seconds output: 0 packets/sec 30 bytes/sec 0%
Input (total): 219479 packets, 28092544 bytes
219476 broadcasts, 0 multicasts, - pauses
Input (normal): 219479 packets, 28092544 bytes
- broadcasts, - multicasts, 0 pauses
Input: 0 input errors, 0 runts, 0 giants, 0 throttles
0 CRC, 0 frame, 0 overruns, - aborts
0 ignored, - parity errors
Output (total): 4608 packets, 316764 bytes
3378 broadcasts, 1154 multicasts, - pauses
检查交换模块到某一目的IP网段的路由是否存在,如路由不存在,请检查路由协议配置、状态是否正确。
<Sysname> display ip routing-table 1.1.1.0
Summary Count : 1
Destination/Mask Proto Pre Cost NextHop Interface
1.1.1.0/24 Static 60 0 10.0.0.2 vlan100
需要注意的是,当32位掩码的主机路由与ARP表项的出接口不一致时,以主机路由的出接口为准。
检查交换模块到某一目的IP网段的FIB表项是否存在,如路由存在、FIB表项异常,请将故障信息发送技术支持人员分析。
<Sysname> display fib 1.1.1.0
Destination count: 1 FIB entry count: 1
Flag:
U:Useable G:Gateway H:Host B:Blackhole D:Dynamic S:Static
R:Relay F:FRR
Destination/Mask Nexthop Flag OutInterface/Token Label
1.1.1.0/24 10.0.0.2 USG vlan100 Null
检查交换模块ARP学习的接口是否正确,如学习接口不正确,请通过reset arp命令重新学习ARP,必要时可以使用arp static命令配置静态ARP。如ARP学习的接口一直不正确,请将故障信息发送技术支持人员分析。
<Sysname> display arp 10.0.0.2
Type: S-Static D-Dynamic M-Multiport I-Invalid
IP address MAC address VLAN Interface Aging Type
10.0.0.2 0000-0000-0001 N/A vlan100 N/A S
本节中描述的“QACL业务”是指通过预先配置的规则、对匹配规则的报文进行过滤的各种业务的统称,包括:报文过滤、QoS策略。
用户配置的QACL业务功能没有达到预期的配置效果。
当QACL业务出现故障时,请按如下步骤处理。
交换模块支持将多种QACL业务,不同QACL业务的优先级不同,优先级顺序依次为:uRPF > 全局应用的报文过滤 > 接口应用的报文过滤 > VLAN应用的报文过滤 > 全局上送cpu的规则 > 端口上送cpu的规则 > vlan上送cpu的规则 > dhcp snooping > Portal免认证规则 > 接口应用的策略路由 > VLAN应用的策略路由 > 全局应用的QoS策略 > 接口应用的QoS策略 > VLAN应用的QoS策略 > portal其它规则。
如果某类报文同时匹配了多个不同优先级的QACL业务规则,只有优先级最高的QACL业务规则匹配成功。因此,如果QACL业务下发后,实际功能没有生效,需要排查其他更高优先级的QACL业务规则中是否已匹配了该类报文。对于此类问题,请结合实际需求,修改相关QACL业务的规则,达到预期的匹配效果。
在QoS策略的配置中,有很多配置不支持或配置之间存在冲突。如果在配置过程中,交换模块上未开启terminal debugging和terminal monitor功能,即使有冲突的配置下发了,交换模块也不会有提示。此时,您可以通过以下两种方法进行排查:
· 在交换模块上开启terminal debugging和terminal monitor功能,并重新应用QoS策略(重新应用之前请先执行undo命令取消之前的QoS策略应用),查看交换模块是否打印配置冲突或配置不支持的提示信息。
· 通过display命令查看QoS策略应用是否成功。
常见的QoS策略的配置未正确下发的提示信息分为以下几类:
(1) and类型的类中,定义的规则存在冲突。
<Sysname> terminal debugging
The current terminal is enabled to display debugging logs.
<Sysname> terminal monitor
The current terminal is enabled to display logs.
<Sysname> system-view
[Sysname] undo qos apply policy p1 global inbound
[Sysname] qos apply policy p1 global inbound
[Sysname] %Mar 19 15:44:53:648 2014 Sysname QOS/4/QOS_POLICY_APPLYGLOBAL_CBFAIL:-MDC=1-Slot=6; Failed to apply classifier-behavior c1 in policy p1 to the inbound direction globally. In a classifier with AND operator, you cannot configure multiple ACL match rules.
上例中的提示信息说明and类型的类c1不支持定义多条ACL规则。此时也可以通过display命令也可以查看到当前QoS策略应用失败:
[Sysname] display qos policy global slot 3 inbound
Direction: Inbound
Policy: p1
Classifier: c1 (Failed)
Operator: AND
Rule(s) :
If-match acl 3000
If-match acl 3001
Behavior: b1
Filter enable: Deny
对于此类问题,应该重新定义该类,并指定该类下的规则之间的逻辑为or。
(2) 类中定义的某条规则不支持。
<Sysname> terminal debugging
<Sysname> terminal monitor
[Sysname] system-view
[Sysname] undo qos apply policy p1 global inbound
[Sysname] qos apply policy p1 global inbound
[Sysname] %Aug 3 18:53:41:817 2024 Sysname QOS/4/QOS_POLICY_APPLYGLOBAL_CBFAIL: -MDC=1-Slot=3; Failed to apply classifier-behavior c1 in policy p1 to the inbound direction globally. Customer-VLAN match rule is not supported.
上例中的提示信息说明不支持在全局QoS策略的入方向匹配customer-vlan-id。此时也可以通过display命令也可以查看到当前QoS策略应用失败:
[Sysname] display qos policy global slot 3
Direction: Inbound
Policy: p1
Classifier: c1 (Failed)
Operator: AND
Rule(s) :
If-match customer-vlan-id 100
If-match acl 3000
Behavior: b1
Marking:
Remark service-vlan-id 201
对于此类问题,应该删除类中不支持的规则。
(3) 流行为中的动作冲突。
<Sysname> terminal debugging
The current terminal is enabled to display debugging logs.
<Sysname> terminal monitor
The current terminal is enabled to display logs.
<Sysname> system-view
[Sysname] interface Ten-GigabitEthernet 1/0/1
[Sysname-Ten-GigabitEthernet1/0/1] undo qos apply policy p1 inbound
[Sysname-Ten-GigabitEthernet1/0/1] qos apply policy p1 inbound
[Sysname-Ten-GigabitEthernet1/0/1] %Mar 19 16:58:41:624 2014 Sysname QOS/4/QOS_POLICY_APPLYIF_CBFAIL: -MDC=1-Slot=6; Failed to apply classifier-behavior c1 in policy p1 to the inbound direction of interface Ten-GigabitEthernet6/0/12.Filter deny conflicts with redirect to CPU.
上例中的提示信息说明流行为中的filter deny动作和redirect to cpu动作冲突。此时也可以通过display命令也可以查看到当前QoS策略应用失败:
[Sysname] display qos policy interface inbound
Interface: Ten-GigabitEthernet1/0/1
Direction: Inbound
Policy: p1
Classifier: c1 (Failed)
Operator: AND
Rule(s) :
If-match acl 3000
Behavior: b1
Filter enable: Deny
Redirecting:
Redirect to the CPU
对于此类问题,应该删除流行为中冲突的动作。
用户可以通过设置time-range字段来设定规则生效的时间范围。如果发现表项功能不生效,并且表项中带time-range字段,需要检查time-range配置的时间范围是否正确,检查方法介绍如下:
[Sysname] display time-range t1
Current time is 09:59:37 8/14/2013 Wednesday
Time-range: t1 (Inactive)
09:25 to 09:30 working-day
此时发现时间段t1的状态是Inactive,说明系统当前时间在所设置的时间内未生效,需要修改时间段的时间范围。
通过检查QoS和ACL资源的使用情况可以用来判断当前功能失效的原因是否是由于资源不足,下面介绍下资源检查的方法:
[Sysname]display qos-acl resource slot 1
Interfaces: XGE1/0/1 to XGE1/0/38, XGE1/1/1 to XGE1/1/16
FGE1/1/17 to FGE1/1/20 (slot 1)
---------------------------------------------------------------------
Type Total Reserved Configured Remaining Usage
---------------------------------------------------------------------
VFP ACL 1024 261 0 763 25%
IFP ACL 4096 2560 0 1536 62%
IFP Meter 2048 1280 0 768 62%
IFP Counter 2048 1280 0 768 62%
EFP ACL 1024 0 0 1024 0%
EFP Meter 512 0 0 512 0%
EFP Counter 512 0 0 512 0%
显示信息中Type表示资源类型,Total表示总的资源数,Configured表示使用资源数,Remaining表示剩余的资源数,Usage表示使用的百分比。
当剩余的资源数为0或者使用的百分比达到100%时,表示该类表项的资源不足。对于此类故障,请直接联系技术支持。
使用display interface命令查询端口的入、出方向流量统计信息,发现错包统计计数不为0。
[Sysname] display interface Ten-GigabitEthernet 1/0/17
Ten-GigabitEthernet1/0/17
Current state: UP
Line protocol state: UP
IP packet frame type: Ethernet II, hardware address: 00e0-7777-1292
Description: Ten-GigabitEthernet1/0/17 Interface
Bandwidth: 10000000 kbps
Loopback is not set
Media type is optical fiber, port hardware type is 10G_BASE_SR_SFP
10Gbps-speed mode, full-duplex mode
Link speed type is autonegotiation, link duplex type is autonegotiation
Flow-control is not enabled
Maximum frame length: 9216
Allow jumbo frames to pass
Broadcast max-ratio: 100%
Multicast max-ratio: 100%
Unicast max-ratio: 100%
PVID: 1
MDI type: Automdix
Port link-type: Access
Tagged VLANs: None
Untagged VLANs: 1
Port priority: 0
Last link flapping: 4 hours 35 minutes 15 seconds
Last clearing of counters: Never
Current system time:2023-04-17 13:25:54
Last time when physical state changed to up:2023-04-17 08:50:38
Last time when physical state changed to down:2023-04-17 08:49:17
Peak input rate: 35 bytes/sec, at 2023-04-17 11:04:23
Peak output rate: 92 bytes/sec, at 2023-04-17 12:18:53
Last 300 second input: 0 packets/sec 21 bytes/sec 0%
Last 300 second output: 0 packets/sec 84 bytes/sec 0%
Input (total): 2172 packets, 425270 bytes
0 unicasts, 0 broadcasts, 2172 multicasts, 0 pauses
Input (normal): 2172 packets, - bytes
0 unicasts, 0 broadcasts, 2172 multicasts, 0 pauses
Input: 0 input errors, 0 runts, 0 giants, 0 throttles
0 CRC, 0 frame, - overruns, 0 aborts
- ignored, - parity errors
Output (total): 10131 packets, 1394923 bytes
0 unicasts, 0 broadcasts, 10131 multicasts, 0 pauses
Output (normal): 10131 packets, - bytes
0 unicasts, 0 broadcasts, 10131 multicasts, 0 pauses
Output: 0 output errors, - underruns, - buffer failures
0 aborts, 0 deferred, 0 collisions, 0 late collisions
0 lost carrier, - no carrier
· input errors:端口接收的错误报文的统计值。
· runts:表示接收到的超小帧个数。超小帧即超小帧是指长度小于64字节、格式正确且包含有效的CRC字段的帧。
· giants:接收到的超大帧的数量。超大帧即有效长度大于端口允许通过最大报文长度的帧。
· CRC:接收到的CRC校验错误、长度正常的帧的数量。
· frame:接收到的CRC校验错误、且长度不是整字节数的帧的数量。
· throttles:超小而且CRC错误的帧的数量。
· output errors:各种发送错误的报文总数。
· aborts:表示发送失败的报文总数。
· deferred:表示延迟报文的总数。报文延迟是指因延迟过长的周期而导致发送失败的报文,而这些报文由于发送媒质繁忙而等待了超过2倍的最大报文发送时间。
· collisions:表示冲突帧总数,即在发送过程中检测到冲突而停止发送的报文。
· late collisions:表示延迟冲突帧,即发送过程中发生延迟冲突超过512bit时间的帧。
(1) 使用仪器测试链路,链路质量差或者线路光信号衰减过大会导致报文在传输过程中出错。如链路故障请更换网线或光纤。
(2) 如端口使用光模块,参照10.5 光模块故障确认是否光模块故障导致。
(3) 将端口上的网线或携带光纤的光模块,更换到其他正常端口,如果错包情况消失,而更换回原端口后问题复现,则应为交换模块的端口故障,请更换端口并将故障信息发送技术支持人员分析;如果将端口上的网线或携带光纤的光模块,更换到其他正常端口后仍会出现错包,则可能为对端设备或中间传输链路故障,请排查。
(4) 排查对端设备或者中间的传输设备。
(5) 如故障无法确认,请将故障信息发送技术支持人员分析。
Overrun计数是由于端口输入速率超出本端口处理能力,导致丢包。
(1) 如果只有某一个端口收发包异常,或者某一个端口下挂设备的业务不通,同时这个交换模块上的其他端口都是正常的,可以多次查询display interface命令,如果input errors有增加,且等于overruns的增加,那么可以怀疑是交换模块内部拥塞或堵死,请将故障信息发送技术支持人员分析。
[Sysname] display interface Ten-GigabitEthernet 1/0/17
Ten-GigabitEthernet1/0/17
Current state: UP
Line protocol state: UP
IP packet frame type: Ethernet II, hardware address: 00e0-fa00-226e
Description: Ten-GigabitEthernet1/0/17 Interface
Bandwidth: 10000000 kbps
Loopback is not set
Media type is optical fiber, port hardware type is 10G_BASE_SR_SFP
10Gbps-speed mode, full-duplex mode
Link speed type is autonegotiation, link duplex type is autonegotiation
Flow-control is not enabled
Maximum frame length: 9216
Allow jumbo frames to pass
Broadcast max-ratio: 100%
Multicast max-ratio: 100%
Unicast max-ratio: 100%
PVID: 1
MDI type: Automdix
Port link-type: Access
Tagged VLANs: None
Untagged VLANs: 1
Port priority: 0
Last link flapping: 0 hours 41 minutes 33 seconds
Last clearing of counters: Never
Current system time:2023-04-25 09:10:21
Last time when physical state changed to up:2023-04-25 08:28:48
Last time when physical state changed to down:2023-04-25 08:28:25
Peak input rate: 21 bytes/sec, at 2023-04-25 08:43:24
Peak output rate: 83 bytes/sec, at 2023-04-25 08:44:36
Last 300 seconds input: 48680 packets/sec 21092930 bytes/sec 2%
Last 300 seconds output: 52080 packets/sec 33332610 bytes/sec 3%
Input (total): 97729359314 packets, 63655956072038 bytes
97726935204 unicasts, 2 broadcasts, 2424089 multicasts, - pauses
Input (normal): 97729359295 packets, 63655956063178 bytes
97726935204 unicasts, 2 broadcasts, 2424089 multicasts, 0 pauses
Input: 310725 input errors, 0 runts, 0 giants, 0 throttles
19 CRC, 0 frame, 310706 overruns, - aborts
- ignored, - parity errors
Output (total): 71345708434 packets, 44140292463570 bytes
71343294485 unicasts, 6 broadcasts, 2413943 multicasts, - pauses
Output (normal): 71345708434 packets, 44140292463570 bytes
71343294485 unicasts, 6 broadcasts, 2413943 multicasts, 0 pauses
Output: 0 output errors, - underruns, - buffer failures
0 aborts, 0 deferred, 0 collisions, 0 late collisions
- lost carrier, - no carrier
[Sysname]display interface Ten-GigabitEthernet 1/0/17
Ten-GigabitEthernet1/0/17
Current state: UP
Line protocol state: UP
IP packet frame type: Ethernet II, hardware address: 00e0-fa00-226e
Description: Ten-GigabitEthernet1/0/17 Interface
Bandwidth: 10000000 kbps
Loopback is not set
Media type is optical fiber, port hardware type is 10G_BASE_SR_SFP
10Gbps-speed mode, full-duplex mode
Link speed type is autonegotiation, link duplex type is autonegotiation
Flow-control is not enabled
Maximum frame length: 9216
Allow jumbo frames to pass
Broadcast max-ratio: 100%
Multicast max-ratio: 100%
Unicast max-ratio: 100%
PVID: 1
MDI type: Automdix
Port link-type: Access
Tagged VLANs: None
Untagged VLANs: 1
Port priority: 0
Last link flapping: 0 hours 41 minutes 33 seconds
Last clearing of counters: Never
Current system time:2023-04-25 09:10:21
Last time when physical state changed to up:2023-04-25 08:28:48
Last time when physical state changed to down:2023-04-25 08:28:25
Peak input rate: 21 bytes/sec, at 2023-04-25 08:43:24
Peak output rate: 83 bytes/sec, at 2023-04-25 08:44:36
Last 300 seconds input: 70770 packets/sec 33576640 bytes/sec 3%
Last 300 seconds output: 72470 packets/sec 55305930 bytes/sec 5%
Input (total): 98328093731 packets, 63907821689032 bytes
98325667167 unicasts, 2 broadcasts, 2426543 multicasts, - pauses
Input (normal): 98328093712 packets, 63907821680172 bytes
98325667167 unicasts, 2 broadcasts, 2426543 multicasts, 0 pauses
Input: 321168 input errors, 0 runts, 0 giants, 0 throttles
19 CRC, 0 frame, 321149 overruns, - aborts
- ignored, - parity errors
Output (total): 71970434250 packets, 44556530752723 bytes
71968017860 unicasts, 6 broadcasts, 2416384 multicasts, - pauses
Output (normal): 71970434250 packets, 44556530752723 bytes
71968017860 unicasts, 6 broadcasts, 2416384 multicasts, 0 pauses
Output: 0 output errors, - underruns, - buffer failures
0 aborts, 0 deferred, 0 collisions, 0 late collisions
- lost carrier, - no carrier
(2)如果仍然无法确认,请将故障信息发送技术支持人员分析。
(1) 检查两端的jumbo配置是否一致,如jumbo是否使能,端口默认的最大报文长度是否一致,允许最大报文长度是否一致。
(2) 如果仍然无法确认,请将故障信息发送技术支持人员分析。
(1) 检查端口是否配置为半双工模式,如为半双工,请更改为全双工模式。
(2) 如果仍然无法确认,请将故障信息发送技术支持人员分析。
端口无法正常up。
(1) 使用命令display transceiver interface检查端口光模块是否在位。
[Sysname] display transceiver interface Ten-gigabitethernet 1/0/17
Ten-GigabitEthernet1/0/17 transceiver information:
Transceiver Type : 10G_BASE_SR_SFP
Connector Type : LC
Wavelength(nm) : 850
Transfer Distance(m) : 80(OM2),20(OM1),300(OM3)
Digital Diagnostic Monitoring : YES
Vendor Name : Hisense
Vendor Part Number : LTF8502-BC+-H3C
检查FC端口时,只需把命令中的Ten-gigabitethernet改为FC即可
(2) 测试端口之间网线、光纤链路是否正常,光纤两端的发送/接收端是否错连;更换端口之间的网线、光纤或将网线、光纤放到别的正常端口,以确认是否中间传输链路故障。
(3) 通过display interface命令查看端口状态是否为UP,如果不是,请使用undo shutdown命令激活相应的以太网端口。
(4) 检查本端、对端端口配置是否正确,如端口是否shutdown,速率、双工的协商模式。
<Sysname> display current-configuration interface Ten-gigabitethernet 1/0/17
#
interface Ten-GigabitEthernet1/0/17
port link-mode bridge
port link-type trunk
port trunk permit vlan 1 3102
port link-aggregation group 1
#
return
(5) 如端口使用光模块,请检查两端光模块类型是否一致,如速率、波长、单模多模状态等;与正常的光模块交叉更换,并参照10.5 光模块故障排除是否为光模块故障导致,如确认为光模块故障,请更换光模块,并将故障信息发送技术支持人员分析。
(6) phy/info命令查看phy是否识别到了,如果识别不到有可能硬件坏了,硬件坏了拔插下电都是不能恢复的。
[Sysname] probe
[Sysname-probe]bcm slot 1 chip 0 phy/info
Phy mapping dump:
port id0 id1 addr iaddr name timeout
xe0( 1) 600d 8770 81 81 TSCE4-A0/00/0 250000
xe1( 2) 600d 8770 81 81 TSCE4-A0/00/1 250000
xe2( 3) 600d 8770 81 81 TSCE4-A0/00/2 250000
xe3( 4) 600d 8770 81 81 TSCE4-A0/00/3 250000
xe4( 5) 600d 8770 85 85 TSCE4-A0/01/0 250000
xe5( 6) 600d 8770 85 85 TSCE4-A0/01/1 250000
xe6( 7) 600d 8770 85 85 TSCE4-A0/01/2 250000
xe7( 8) 600d 8770 85 85 TSCE4-A0/01/3 250000
xe8( 9) 600d 8770 89 89 TSCE4-A0/02/0 250000
xe9( 10) 600d 8770 89 89 TSCE4-A0/02/1 250000
xe10( 11) 600d 8770 89 89 TSCE4-A0/02/2 250000
xe11( 12) 600d 8770 89 89 TSCE4-A0/02/3 250000
xe12( 13) 600d 8770 8d 8d TSCE4-A0/03/0 250000
xe13( 14) 600d 8770 8d 8d TSCE4-A0/03/1 250000
xe14( 15) 600d 8770 8d 8d TSCE4-A0/03/2 250000
xe15( 16) 600d 8770 8d 8d TSCE4-A0/03/3 250000
xe16( 17) 600d 8770 91 91 TSCE12-A0/04/0 250000
xe17( 18) 600d 8770 91 91 TSCE12-A0/04/1 250000
xe18( 19) 600d 8770 91 91 TSCE12-A0/04/2 250000
xe19( 20) 600d 8770 91 91 TSCE12-A0/04/3 250000
xe20( 21) 600d 8770 95 95 TSCE12-A0/05/0 250000
xe21( 22) 600d 8770 95 95 TSCE12-A0/05/1 250000
xe22( 23) 600d 8770 95 95 TSCE12-A0/05/2 250000
xe23( 24) 600d 8770 95 95 TSCE12-A0/05/3 250000
xe24( 25) ae02 5210 3 99 BCM82328_B1 250000
xe25( 26) ae02 5210 2 9a BCM82328_B1 250000
xe26( 27) ae02 5210 1 9b BCM82328_B1 250000
(7) 查看端口映射关系,bcm命令查看当前端口的ena/link状态。
[Sysname] probe
[Sysname-probe] bcm slot 1 chip 0 ps
ena/ speed/ link auto STP lrn inter max loop
port link duplex scan neg? state pause discrd ops face frame back
xe0( 1) down - SW Yes Block None FA KR 9416
xe1( 2) down - SW Yes Block None FA KR 9416
xe2( 3) down - SW Yes Block None FA KR 9416
xe3( 4) down - SW Yes Block None FA KR 9416
xe4( 5) down - SW Yes Block None FA KR 9416
xe5( 6) down - SW Yes Block None FA KR 9416
xe6( 7) down - SW Yes Block None FA KR 9416
xe7( 8) down - SW Yes Block None FA KR 9416
xe8( 9) !ena - SW Yes Forward TX RX None FA XFI 9412
xe9( 10) down - SW Yes Block None FA KR 9416
xe10( 11) down - SW Yes Block None FA KR 9416
xe11( 12) down - SW Yes Block None FA KR 9416
(8) 设置mac环回与phy环回,查看端口是否能up,如果端口能up,分别说明mac与phy的软件设置没有问题。
bcm slot 1 chip 0 port/xe28/loopback=mac (设置mac环回 通用)
bcm slot 1 chip 0 port/xe28/loopback=phy (设置phy环回 通用)
FC端口:
sys侧:bcm slot 1 chip 0 phy/diag/xe28/loopback/u=1/if=sys/mode=remote
bcm slot 1 chip 0 phy/diag/xe28/loopback/u=1/if=sys/mode=local
line侧:bcm slot 1 chip 0 phy/diag/xe28/loopback/u=1/if=line/mode=remote
bcm slot 1 chip 0 phy/diag/xe28/loopback/u=1/if=line/mode=local。
(9) 对于FC端口,还可以查看端口当前的配置,与正常端口的配置做比较。
[Sysname] probe
[Sysname-probe]bcm slot 1 chip 0 phy/mt2/fc/xe60/showcfg
FC CFG for port 65
XMOD_FCMAP_ATTR_xxx. | action_mask : 0x8ef07efe
XMOD_FCMAP_ATTR2_xxx. | action_mask2 : 0xfffffeff
FC port Mode, FCoE mode | port_mode : 0x0
Speed, AN/2/4/8/16/32/AN2/AN4/AN8/AN16/AN3 | speed : 0x3
Transit B2B credits | tx_buffer_to_buffer_credits : 0xf
(10) 如故障无法确认,请将故障信息发送技术支持人员分析。
端口状态由up变成down。
(1) 查看本交换模块及对端设备日志,确认有无端口shutdown操作。
(2) 查看两端端口状态,确认是否为协议异常或在线诊断模块检测到异常将端口shutdown。
(3) 参照10.2 端口无法up,排查两端端口配置,网线、光模块、光纤等链路是否正常。
(4) 如仍无法确认,请搜集本端、对端交换模块信息,并将信息发送技术支持人员分析。
端口频繁up/down。
(1) 对于光口,请参照10.5 光模块故障确认光模块是否异常。查看光模块alarm信息来排查两端光模块以及中间光纤问题;对于支持诊断功能的光模块可以通过查看diagnosis信息确认光模块的光功率是否处于上下门限临界值。如发送光功率处于临界值,请更换光纤、光模块做交叉验证;如接收光功率处于临界值,请排查对端光模块及中间光纤链路。
(2) 对于电口,一般在自协商情况下容易出现协商不稳定,这种情况请尝试设置强制速率和双工模式。
(3) 如果故障依然存在,请排查链路、对端设备、中间设备。
(4) 如仍无法确认,请将故障信息发送技术支持人员分析。
安装光模块的接口不能正常工作。
(1) 检查光模块Alarm告警信息。告警信息中如果存在接收有问题那一般是对端端口、光纤或中转传输设备导致;如果是发送有问题或者电流、电压异常那就需要排查本端端口。
<Sysname> display transceiver alarm interface Ten-GigabitEthernet 1/0/17
Ten-GigabitEthernet1/0/17 transceiver current alarm information:
RX power low
RX signal loss
表10-1 光模块告警信息说明
字段 |
描述 |
SFP/SFP+/CFP/QSFP+ |
|
RX loss of signal |
接收信号丢失 |
RX power high |
接收光功率高告警 |
RX power low |
接收光功率低告警 |
TX fault |
发送错误 |
TX bias high |
偏置电流高告警 |
TX bias low |
偏置电流低告警 |
TX power high |
发送光功率高告警 |
TX power low |
发送光功率低告警 |
Temp high |
温度高告警 |
Temp low |
温度低告警 |
Voltage high |
电压高告警 |
Voltage low |
电压低告警 |
Transceiver info I/O error |
模块信息读写错误 |
Transceiver info checksum error |
模块信息校验和错误 |
Transceiver type and port configuration mismatch |
模块类型和端口配置不匹配 |
Transceiver type not supported by port hardware |
端口不支持该模块类型 |
XFP |
|
RX loss of signal |
接收信号丢失 |
RX not ready |
接收状态未就绪 |
RX CDR loss of lock |
RX CDR时钟失锁 |
RX power high |
接收光功率高告警 |
RX power low |
接收光功率低告警 |
TX not ready |
发送状态未就绪 |
TX fault |
发送错误 |
TX CDR loss of lock |
TX CDR时钟失锁 |
TX bias high |
偏置电流高告警 |
TX bias low |
偏置电流低告警 |
TX power high |
发送光功率高告警 |
TX power low |
发送光功率低告警 |
Module not ready |
模块状态未就绪 |
APD supply fault |
APD(Avalanche Photo Diode,雪崩光电二极管)错误 |
TEC fault |
TEC(Thermoelectric Cooler,热电冷却器)错误 |
Wavelength unlocked |
光信号波长失锁 |
Temp high |
温度高告警 |
Temp low |
温度低告警 |
Voltage high |
电压高告警 |
Voltage low |
电压低告警 |
Transceiver info I/O error |
模块信息读写错误 |
Transceiver info checksum error |
模块信息校验错误 |
Transceiver type and port configuration mismatch |
模块类型和端口配置不匹配 |
Transceiver type not supported by port hardware |
端口不支持该模块类型 |
(2) 检查光模块的接收、发送光功率是否正常(即在该光模块的光功率上下门限值之内)。
对于H3C定制且支持诊断功能的光模块,可以通过命令行查询光模块的接收、发送光功率是否超出其上下门限值;其他光模块可以使用同样命令尝试查询,但有可能查询不到。
a. 通过命令display transceiver manuinfo interface查看光模块的电子标签信息,Verdor Name显示为H3C表示该光模块是H3C定制光模块。
<Sysname> display transceiver manuinfo interface Ten-gigabitethernet 1/0/17
Ten-GigabitEthernet1/0/17 transceiver manufacture information:
Manu. Serial Number : 213410A0000054000251
Manufacturing Date : 2012-10-26
Vendor Name : H3C
b. 通过命令display transceiver interface确认光模块是否支持诊断功能,Digital Diagnostic Monitoring为YES表示支持诊断功能。
<Sysname> display transceiver interface Ten-GigabitEthernet 1/0/17
Ten-GigabitEthernet1/0/17 transceiver information:
Transceiver Type : 10G_BASE_SR_SFP
Connector Type : LC
Wavelength(nm) : 850
Transfer Distance(m) : 80(OM2),30(OM1),300(OM3)
Digital Diagnostic Monitoring : YES
Vendor Name : H3C
Ordering Name : SFP-XG-SX-MM850-A
c. 通过命令display transceiver diagnosis interface查询光模块的实时接收、发送光功率。
<Sysname> display transceiver diagnosis interface Ten-GigabitEthernet 1/0/17
Ten-GigabitEthernet1/0/17 transceiver diagnostic information:
Current diagnostic parameters:
Temp.(°C) Voltage(V) Bias(mA) RX power(dBm) TX power(dBm)
34 3.32 6.24 -36.96 -2.26
d. 通过display transceiver interface 或 display transceiver diagnosis interface命令查询光模块的接收发送光功率的上下门限值。
有可能出现通过这两个命令行都可以查询、且查询出来的接收发送光功率上下门限值存在差异的情况,此时请以范围最小的上下门限值为准。
display transceiver diagnosis interface命令还可以查询实时的接收发送光功率、温度及其上下门限值、电压及其上下门限值、偏置电流及其上下门限值,命令行中Current diagnostic parameters下数据表示光模块当前的温度、电压、偏置电流、接收光功率、发送光功率,Alarm thresholds下High、Low数据表示温度、电压、偏置电流、接收光功率、发送光功率的上下门限值。
[Sysname]display transceiver interface Ten-GigabitEthernet 1/0/17
Ten-GigabitEthernet1/0/17 transceiver information:
Transceiver Type : 10G_BASE_SR_SFP
Connector Type : LC
Wavelength(nm) : 850
Transfer Distance(m) : 80(OM2),20(OM1),300(OM3)
Digital Diagnostic Monitoring : YES
Vendor Name : Hisense
Vendor Part Number : LTF8502-BC+-H3C
<Sysname>display transceiver diagnosis interface Ten-GigabitEthernet 1/0/17
Ten-GigabitEthernet1/0/17 transceiver diagnostic information:
Current diagnostic parameters:
Temp.(°C) Voltage(V) Bias(mA) RX power(dBm) TX power(dBm)
28 3.31 7.40 -3.59 -2.83
Alarm thresholds:
Temp.(°C) Voltage(V) Bias(mA) RX power(dBm) TX power(dBm)
High 75 3.63 11.80 3.00 2.70
Low 5 2.97 4.00 -13.90 -11.30
(3) 对疑似故障的光模块进行交叉验证,例如将光模块更换至交换模块的其他端口,或将疑似故障的光模块与正常的光模块互换,以确认是光模块本身故障,还是相邻交换模块或中间链路故障。
(4) 如仍无法确认,请将故障信息发送技术支持人员分析。
建议使用H3C定制光模块。可通过display transceiver manuinfo命令来查询光模块的定制厂商信息,如果Vendor Name为H3C,说明该光模块是H3C定制光模块。
表10-2 链路端口故障诊断命令
交换模块运行中CPU占用率高,配置命令时交换模块反应很慢。
通过display cpu-usage命令查看CPU的占用率。如果CPU占用率持续在60%以上,说明某个任务长时间占用CPU,需要确认CPU高的具体原因。
<Sysname> display cpu-usage
Slot 1 CPU 0 CPU usage:
60% in last 5 seconds
60% in last 1 minute
60% in last 5 minutes
通过display cpu-usage history命令可以查看交换模块最近60分钟的CPU占用情况。如横坐标时间为20,则表示20分钟前的CPU使用率。
<Sysname> display cpu-usage history slot 1
100%|
95%|
90%|
85%|
80%|
75%|
70%|
65%|
60%|
55%|
50%|
45%|
40%|
35%|
30%|
25%| # #
20%|############################################################
15%|############################################################
10%|############################################################
5%|############################################################
------------------------------------------------------------
10 20 30 40 50 60 (minutes)
cpu-usage (CPU 0) last 60 minutes (SYSTEM)
CPU占用率高的原因通常有:
· 路由振荡
· 配置过多的路由策略
· 报文攻击
· 链路环路
使用display route-policy命令可以查看交换模块配置的路由策略,请检查配置的路由策略是否过多,导致CPU处理的负担增加。
<Sysname> display route-policy
Route-policy: policy1
permit : 1
if-match cost 10
continue: next node 11
apply comm-list a delete
在交换模块端口抓包,使用报文捕获工具(如Sniffer、Wireshark、WinNetCap等)分析报文特征,确认攻击源。然后针对攻击源配置报文防攻击。
以太网接口工作在二层模式并且链路存在环路时,可能出现广播风暴和网络振荡,大量的协议报文上送CPU处理可能导致CPU占用率升高,交换模块很多端口的流量会变得很大,端口使用率达到90%以上:
<Sysname> display interface gigabitethernet2/0/1
GigabitEthernet2/0/1
Current state: UP
Line protocol current state: UP
IP Packet Frame Type: PKTFMT_ETHNT_2, Hardware Address: 0000-e80d-c000
Description: GigabitEthernet2/0/1 Interface
Bandwidth: 1000000kbps
Loopback is not set
Media type is twisted pair
Port hardware type is 1000_BASE_T
Unknown-speed mode, unknown-duplex mode
Link speed type is autonegotiation, link duplex type is autonegotiation
……
Last clearing of counters: Never
Peak value of input: 123241940 bytes/sec, at 2014-02-27 14:33:15
Peak value of output: 80 bytes/sec, at 2014-02-27 14:13:00
Last 300 seconds input: 26560 packets/sec 123241940 bytes/sec 99%
Last 300 seconds output: 0 packets/sec 80 bytes/sec 0%
……
如链路出现环路:
· 排查链路连接、端口配置是否正确。
· 是否使能STP协议,配置是否正确。
· 邻接交换模块STP状态是否正常。
· 如以上配置均正确,可能为STP协议计算错误或协议计算正确但端口驱动层没有正常Block阻塞,可以shutdown环路上端口、拔插端口让STP重新计算来快速恢复业务,并将故障信息反馈给技术支持人员分析。
如果通过上述处理还是无法确认具体原因,请再搜集CPU占用率高的进程的调用栈信息,一起发送给技术支持人员分析,搜集方法如下。
(1) 使用Probe视图下的display process cpu命令观察占用CPU最多的任务。
<Sysname> system-view
[Sysname] probe
[Sysname-probe] display process cpu slot 1
CPU utilization in 5 secs: 10.9%; 1 min: 11.0%; 5 mins: 11.1%
JID 5Sec 1Min 5Min Name
1 0.0% 0.0% 0.0% scmd
2 0.0% 0.0% 0.0% [kthreadd]
3 0.0% 0.0% 0.0% [migration/0]
4 0.0% 0.0% 0.0% [ksoftirqd/0]
5 0.0% 0.0% 0.0% [watchdog/0]
6 0.0% 0.0% 0.0% [migration/1]
7 0.0% 0.0% 0.0% [ksoftirqd/1]
8 0.0% 0.0% 0.0% [watchdog/1]
9 0.0% 0.0% 0.0% [events/0]
10 0.0% 0.0% 0.0% [events/1]
11 0.0% 0.0% 0.0% [khelper]
12 0.0% 0.0% 0.0% [kblockd/0]
13 0.0% 0.0% 0.0% [kblockd/1]
14 0.0% 0.0% 0.0% [ata/0]
15 0.0% 0.0% 0.0% [ata/1]
16 0.0% 0.0% 0.0% [ata_aux]
17 0.0% 0.0% 0.0% [khubd]
18 0.0% 0.0% 0.0% [kseriod]
19 0.0% 0.0% 0.0% [vzmond]
20 0.0% 0.0% 0.0% [pdflush]
21 0.0% 0.0% 0.0% [pdflush]
22 0.0% 0.0% 0.0% [kswapd0]
23 0.0% 0.0% 0.0% [aio/0]
24 0.0% 0.0% 0.0% [aio/1]
---- More ----
各列分别表示某任务平均5sec、1min、5min实际占用CPU的百分比和任务名。某任务占用率越高,说明相应的任务占用CPU的资源越多。正常情况任务对CPU的占用率一般低于5%,这个命令可以查看明显高出正常占用率的任务。
(2) 使用Probe视图下的follow job job-id 命令确认异常任务的调用栈信息,请查询5次以上,发送给技术支持人员分析,以便于分析该进程具体在做什么处理导致CPU占用率持续升高。此处以显示job 14的调用栈为例。
<Sysname> system-view
[Sysname] probe
[Sysname-probe] follow job 14
Attaching to process 14 ([ata/0])
Iteration 1 of 5
------------------------------
Kernel stack:
[<8007ad5c>] worker_thread+0xc8/0xd0
[<8007f080>] kthread+0x114/0x144
[<8006bba0>] do_exit+0x0/0x794
[<ffffffff>] 0xffffffff
Iteration 2 of 5
------------------------------
Kernel stack:
[<8007ad5c>] worker_thread+0xc8/0xd0
[<8007f080>] kthread+0x114/0x144
[<8006bba0>] do_exit+0x0/0x794
[<ffffffff>] 0xffffffff
Iteration 3 of 5
------------------------------
Kernel stack:
[<8007ad5c>] worker_thread+0xc8/0xd0
[<8007f080>] kthread+0x114/0x144
[<8006bba0>] do_exit+0x0/0x794
[<ffffffff>] 0xffffffff
(3) 使用display diagnostic-information命令收集交换模块的诊断信息。
使用display memory命令查看交换模块内存信息多次查看交换模块内存信息,发现内存占用率持续偏高,始终处于70%以上(未使用的内存占用率低于30%)。Total表示总的内存,Used表示当前使用的内存,FreeRatio表示未使用的内存占用率。
<Sysname> display memory slot 2
The statistics about memory is measured in KB:
Slot 2:
Total Used Free Shared Buffers Cached FreeRatio
Mem: 774280 591932 182348 0 0 6548 23.6%
-/+ Buffers/Cache: 175800 598480
Swap: 0 0 0
这类问题通常为软件问题引起,如内存泄漏,也可能是路由数目过多导致。请按照下面步骤搜集信息发送给技术支持人员分析。
通过display process memory命令多次查询交换模块各进程的内存使用信息。Dynamic类型的内存为交换模块动态申请的,在内存出现泄漏时会变得很大,通过前后比较观察可以确认哪个进程的内存占用持续增加。如果持续增加,说明该进程可能发生了泄漏,请记录下进程的JID。下面以查询JID为78的diagd进程为例说明。
<Sysname> display process memory slot 2
JID Text Data Stack Dynamic Name
1 116 8808 32 92 scmd
2 0 0 0 0 [kthreadd]
3 0 0 0 0 [migration/0]
4 0 0 0 0 [ksoftirqd/0]
5 0 0 0 0 [watchdog/0]
6 0 0 0 0 [migration/1]
7 0 0 0 0 [ksoftirqd/1]
8 0 0 0 0 [watchdog/1]
……
再进一步确认JID为78的diagd进程的哪种字节大小的内存块发生泄漏。如下命令所示,Size表示内存块的字节大小,Total表示总的申请个数,Used表示使用数目,Free表示未使用的数目,Free Ratio表示未使用的内存块百分比。通过多次查询并比较查询值可以看出哪个Size的内存块Used个数持续增加。需要注意的是:有些内存的泄漏过程比较缓慢,所以需要比较长的时间(甚至是几周的时间)来对比观察。
<Sysname> display process memory heap job 1 verbose
Heap usage:
Size Free Used Total Free Ratio
32 1 340 341 0.3%
48 1 97 98 1.0%
64 0 108 108 0.0%
80 1 15 16 6.3%
96 0 53 53 0.0%
112 0 4 4 0.0%
144 0 3 3 0.0%
160 0 1 1 0.0%
176 0 50 50 0.0%
208 1 53 54 1.9%
224 0 5 5 0.0%
256 23 1 24 95.8%
288 2 1 3 66.7%
304 0 2 2 0.0%
320 1 0 1 100.0%
336 0 2 2 0.0%
512 7 0 7 100.0%
528 0 3 3 0.0%
704 0 152 152 0.0%
768 5 0 5 100.0%
896 0 9 9 0.0%
1056 0 2 2 0.0%
1248 1 0 1 100.0%
2080 0 1 1 0.0%
4112 0 1 1 0.0%
4208 1 0 1 100.0%
7264 1 0 1 100.0%
Summary:
Total virtual memory heap space(in bytes) : 204800
Total physical memory heap space(in bytes) : 204800
Total allocated memory(in bytes) : 177504
通过上述步骤只是确定了出现问题的内存模块,但还需继续收集信息以确定具体是哪些代码有问题。由于后续信息收集要求较高,不建议用户操作,请与技术支持工程师联系。需要注意的是:此时,不得重启交换模块,否则交换模块重启后,由于缺少故障出现时的信息而给故障定位带来困难。
资源使用超规格时会打印包含以下内容的日志信息和告警信息:
The resources are insufficient.
No enough resource!
Not enough resources are available to complete the operation.
典型的系统资源包括:
· ACL
· FIB
· MAC
下列这些特性会占用ACL资源:
· QoS策略
· Packet filter
· LLDP
(1) 通过display qos-acl resource命令查看交换模块ACL资源使用情况,其中Total表示总的资源数,Configured表示使用资源数,Remaining表示剩余的资源数,Usage表示使用的百分比。
<Sysname> display qos-acl resource
Interfaces: XGE1/0/1 to XGE1/0/38, XGE1/0/1 to XGE1/0/16
FGE1/0/17 to FGE1/0/20 (slot 1)
---------------------------------------------------------------------
Type Total Reserved Configured Remaining Usage
---------------------------------------------------------------------
VFP ACL 1024 261 0 763 25%
IFP ACL 4096 2560 0 1536 62%
IFP Meter 2048 1280 0 768 62%
IFP Counter 2048 1280 0 768 62%
EFP ACL 1024 0 0 1024 0%
EFP Meter 512 0 0 512 0%
EFP Counter 512 0 0 512 0%
(2) 如果ACL资源使用率超过95%,请根据具体情况进行优化,比如删除或合并ACL规则。如果无法优化,请将信息发送给技术支持人员协助分析。
(1) 使用命令行查看FIB表项资源使用情况。
<Sysname> system-view
System View: return to User View with Ctrl+Z.
[Sysname] probe
[Sysname-probe] debug ipv4-drv show statistics slot 2
**********************************************************
- IPv4 Statistics Slot 2
**********************************************************
- ROUTE TOTAL COUNT: 12
- ECMP COUNT: 0
- ARP NH COUNT: 6
- IPV4 NH CHANGE NUM: 226
- ARP Prefix ADD NUM: 29
- ARP Prefix MODIFY NUM: 177
- ARP Prefix DEL NUM: 19
- ARP Prefix AddSuccessed NUM: 0
- ARP Prefix ModSuccessed NUM: 0
- ARP Prefix DelSuccessed NUM: 0
- IPV6 NH CHANGE NUM: 0
- IPV4 Plat ARP Demand NUM: 226
- IPV4 ARP Successed NUM: 226
- IPV4 Plat Route Demand NUM: 238
- IPV4 Route Successed NUM: 238
-----------------------------------------------
- IPv4Uc_Sm Owner: -1
- IPv4Uc_Sm Count: 0
- L3UcPbr_Sm Owner: -1
- L3UcPbr_Sm Count: 0
……略
[Sysname-probe] debug ipv4-drv show config slot 2
**********************************************************
- IPv4 Config Slot 2 Mdc 1
**********************************************************
- ARP SIZE: 1024
- ArpCanNotSetToHW: NO
- IPV4 ROUTE SIZE: 1024
- ECMP SIZE: 8
- ND SIZE: 1024
- IPV6 ROUTE SIZE: 512
- IPV6 LongPrefRT: 128
- VLAN INTF MODE: 2
- NH SIZE: 8192
- ECMPGP SIZE: 511
- L3INTF SIZE: 12288
- VLAN INTF SIZE: 32
- SUBVLAN SIZE: 1024
- MC INTF SIZE: 4000
- MPLS INTF SIZE: 1023
- TUNNEL INTF SIZE: 15360
- VMAC SIZE: 64
- VMAC PER INTF SIZE: 64
- VLAN MAPPING SIZE: 4094
- ARP SET TO DEFIP: 1
- HG PROXY FLAG: 0
- BOARD TYPE: 0
- Is Set CPUPktPri: 0
- L3uc Opt: NO
- NetMFw FLAG: Fw_CPU
- RESERVED EGRESS:
- CPU EGRESS UNRESOLVED: 100001
- CPU EGRESS LOCALHOST: 100001
- BLACKHOLE EGRESS: 100002
- IPV4 DYN ROUTE SPECS:
- RIP SPEC: 0
- ISIS SPEC: 0
- OSPF SPEC: 0
- BGP SPEC: 0
- TOTAL SPEC: 0
- IPV6 DYN ROUTE SPECS:
- RIPng SPEC: 0
- ISIS SPEC: 0
- OSPFV3 SPEC: 0
- BGP SPEC: 0
- TOTAL SPEC: 0
- L3VPN SPECS:
- GLOBAL VRF NUM: 1024
- UPRF SPECS:
- URPF GLOBAL SUPPORT: YES
- URPF INTF SUPPORT: NO
- DEFAULT ROUTE DENY: NO
- IPv4 MaxRoute: 8192
- IPv6 MaxRoute: 4096
- IPv6_128 MaxRoute: 0
- CHIP SUPPORT TYPE: TRIUMPH
……略
ROUTE TOTAL COUNT表示实际占用的IPv4表项资源,IPv4 MaxRoute表示IPv4表项总的资源。
(2) 如果FIB资源使用率超过95%,请搜集信息并发送给技术支持人员协助分析。
MAC资源不足在大型二层网络中容易出现,MAC地址过多,老的MAC还没有老化,导致新的MAC地址学习不到。
<Sysname> display mac-address count
40 mac address(es) found.
建议:
· 减小学习到的MAC的老化时间,便于MAC地址快速老化。
· 优化组网,根据不同的业务或部门等划分VLAN,不同VLAN间采用三层互联。
其他系统资源的使用情况需要专业技术支持人员进行分析,请联系技术支持处理。
表11-1 硬件类故障诊断命令
命令 |
说明 |
display cpu-usage |
显示CPU利用率的统计信息 |
display process cpu |
Probe视图下命令,显示各任务占用CPU的情况 |
display memory |
显示内存使用情况 |
display process memory |
显示各进程的内存使用信息 |
display qos-acl resource |
显示ACL资源使用信息 |
debug ipv4-drv show |
显示FIB表项资源使用情况 |
follow job job-id |
Probe视图下命令,显示异常任务的调用栈 |
协议震荡一般都是协议报文交互时无法正常通信导致的。
根据9.2 二层流量转发丢包章节的故障处理流程,定位是否是交换模块端口故障(包括端口硬件故障和端口配置故障):
(1) 如果是端口故障,请按照9.2 二层流量转发丢包章节的故障处理流程进行处理。
(2) 如果不是端口故障,则执行步骤2。
根据9.3 三层流量转发故障章节的故障定位处理方法,定位是否为三层故障(包括ARP表项错误和路由表项错误):
(1) 如果是三层故障,请按照9.3 三层流量转发故障一节的故障处理流程进行处理。
(2) 如果不是三层故障,则执行步骤3。
# 进入Probe视图。
<Sysname> system-view
System View: return to User View with Ctrl+Z.
[Sysname] probe
[Sysname-probe]debug rxtx softcar show slot 1
ID Type RcvPps Rcv_All DisPkt_All Pps Dyn Swi Hash ACLmax
0 ROOT 0 0 0 1000 S On SMAC 0
1 ISIS 0 0 0 1000 D On SMAC 8
2 ESIS 0 0 0 300 S On SMAC 8
3 CLNP 0 0 0 300 S On SMAC 8
4 VRRP 0 0 0 1000 S On SMAC 8
5 UNKNOWN_IPV4MC 0 0 0 300 S On SMAC 8
6 UNKNOWN_IPV6MC 0 0 0 300 S On SMAC 8
7 IPV4_MC_RIP 0 0 0 500 D On SMAC 8
8 IPV4_BC_RIP 0 0 0 500 D On SMAC 8
9 MCAST_NTP 0 0 0 300 S On SMAC 8
10 BCAST_NTP 0 0 0 300 S On SMAC 8
11 IPV4_MC_OSPF_5 0 0 0 1000 S On SMAC 8
12 IPV4_MC_OSPF_6 0 0 0 1000 S On SMAC 8
13 IPV4_UC_OSPF 0 0 0 1000 S On SMAC 8
14 IPV4_MC_PIM 0 0 0 500 S On SMAC 8
15 IPV4_UC_PIM 0 0 0 500 S On SMAC 8
16 IPV4_IGMP 0 0 0 500 S On SMAC 8
17 LDP 0 0 0 500 S On SMAC 8
18 IPV6_MC_PIM 0 0 0 300 S On SMAC 8
19 IPV6_UC_PIM 0 0 0 300 S On SMAC 8
20 IPV6_MLD 0 0 0 500 S On SMAC 8
21 IPV6_RIPNG 0 0 0 300 D On SMAC 8
22 IPV6_UC_OSPFV3 0 0 0 1000 S On SMAC 8
23 IPV6_MC_OSPFV3_5 0 0 0 1000 S On SMAC 8
24 IPV6_MC_OSPFV3_6 0 0 0 1000 S On SMAC 8
25 IPV6_LDP 0 0 0 500 S On SMAC 8
26 IPV6_VRRP 0 0 0 1000 S On SMAC 8
27 RRPP 0 0 0 300 S On SMAC 8
28 IPV4_AUTORP 0 0 0 300 S On SMAC 8
---- More ----
如果发现有丢包发生,请收集信息,然后前往步骤4。
如果上述检查完成后故障仍无法排除,请联系技术支持处理。
本站点使用Cookies,继续浏览表示您同意我们使用Cookies。 Cookies和隐私政策>