• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 新华三人才研学中心
  • 关于我们

H3C S7500E系列交换机故障处理手册-6W100

手册下载

H3C S7500E系列交换机故障处理手册-6W100-整本手册.pdf  (662.21 KB)

  • 发布时间:2015/4/10 18:05:13
  • 浏览量:
  • 下载量:

H3C S7500E系列交换机故障处理手册

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Copyright © 2013 杭州华三通信技术有限公司 版权所有,保留一切权利。

非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,

并不得以任何形式传播。本文档中的信息可能变动,恕不另行通知。

H3C_彩色.emf

 


 

1 S7500E故障处理流程··· 1

1.1 系统信息收集·· 1

1.2 系统信息收集方法·· 1

1.3 故障信息处理方法·· 2

1.4 其它辅助信息收集·· 3

2 S7500E开局自检··· 3

2.1 自检目的·· 3

2.2 开局自检项·· 3

3 S7500E硬件类故障处理··· 7

3.1 运行过程中主控板重启故障处理·· 7

3.1.1 故障描述·· 7

3.1.2 故障处理流程·· 7

3.1.3 故障处理步骤·· 7

3.2 电源运行中上报Fault问题处理方法·· 8

3.2.1 故障描述·· 8

3.2.2 故障处理步骤·· 8

3.3 新插入电源模块状态异常处理方法·· 9

3.3.1 故障描述·· 9

3.3.2 故障处理步骤·· 9

3.4 风扇框运行中上报Fault或新安装风扇框后状态异常问题处理方法·· 9

3.4.1 故障描述·· 9

3.4.2 故障处理步骤·· 10

3.5 故障诊断命令·· 10

4 S7500E系统类故障处理··· 11

4.1 系统温度告警问题处理方法·· 11

4.1.1 故障描述·· 11

4.1.2 故障处理流程·· 11

4.1.3 故障处理步骤·· 11

4.2 故障诊断命令·· 12

5 S7500E端口类故障处理··· 12

5.1 10/100/1000Base-T千兆以太网电口不UP故障处理·· 12

5.1.1 故障描述·· 12

5.1.2 故障处理流程·· 13

5.1.3 故障处理步骤·· 13

5.2 千兆/百兆SFP光口不UP故障处理·· 14

5.2.1 故障描述·· 14

5.2.2 故障处理流程·· 14

5.2.3 故障处理步骤·· 14

5.3 万兆XFP光口不UP故障处理·· 15

5.3.1 故障描述·· 15

5.3.2 故障处理流程·· 16

5.3.3 故障处理步骤·· 16

5.4 万兆SFP+光口不UP故障处理·· 17

5.4.1 故障描述·· 17

5.4.2 故障处理流程·· 18

5.4.3 故障处理步骤·· 18

5.5 40GEQSFP+光口不UP故障处理·· 19

5.5.1 故障描述·· 19

5.5.2 故障处理流程·· 20

5.5.3 故障处理步骤·· 20

5.6 40GECFP光口不UP故障处理·· 21

5.6.1 故障描述·· 21

5.6.2 故障处理流程·· 21

5.6.3 故障处理步骤·· 22

5.7 端口存在CRC等错误统计故障处理·· 22

5.7.1 故障描述·· 22

5.7.2 故障处理流程·· 23

5.7.3 故障处理步骤·· 23

5.8 端口不接收报文故障处理·· 24

5.8.1 故障描述·· 24

5.8.2 故障处理流程·· 25

5.8.3 故障处理步骤·· 25

5.9 端口不发送报文故障处理·· 26

5.9.1 故障描述·· 26

5.9.2 故障处理流程·· 26

5.9.3 故障处理步骤·· 26

5.10 故障诊断命令·· 27

6 S7500E IRF故障处理··· 28

6.1 设备无法加入IRF故障处理方法·· 28

6.1.1 故障描述·· 28

6.1.2 故障处理流程·· 29

6.1.3 故障处理步骤·· 30

6.2 IRF分裂故障处理方法·· 31

6.2.1 故障描述·· 31

6.2.2 故障处理流程·· 32

6.2.3 故障处理步骤·· 32

6.3 IRF分裂后BFD MAD无法生效故障处理方法·· 33

6.3.1 故障描述·· 33

6.3.2 故障处理流程·· 34

6.3.3 故障处理步骤·· 34

6.4 IRF分裂后LACP MAD无法生效故障处理方法·· 35

6.4.1 故障描述·· 35

6.4.2 故障处理流程·· 36

6.4.3 故障处理步骤·· 36

6.5 故障诊断命令·· 37

7 S7500E QoS/ACL故障处理··· 38

7.1 下发ACL提示失败故障处理方法·· 38

7.1.1 故障描述·· 38

7.1.2 故障处理流程·· 38

7.1.3 故障处理步骤·· 38

7.2 下发ACL成功,但是ACL不生效的故障处理方法·· 39

7.2.1 故障描述·· 39

7.2.2 故障处理流程·· 40

7.2.3 故障处理步骤·· 40

7.3 利用流量统计分析转发故障的方法·· 41

7.3.1 故障描述·· 41

7.3.2 故障处理流程·· 41

7.3.3 故障处理步骤·· 41

 


1 S7500E故障处理流程

在使用S7500E系列交换机过程中碰到困难或者问题,除现场自行解决外,还可以通过收集相关信息转由H3C公司技术人员来协助解决。本章节主要讲述S7500E系列交换机的信息收集方法,特别是在故障时如何快速准确地收集信息,为H3C技术人员分析问题提供关于客户问题直接的信息支持。

1.1  系统信息收集

在使用、维护网络产品过程中,如果遇到与S7500E相关的网络或设备故障时,请注意及时捕获、收集相关的设备信息。特别是设备出现业务中断或软硬件异常,需要重启设备才能恢复业务的情况下,更需要尽可能地捕获当时设备的第一手信息,为后续准确定位问题提供详细的依据。否则设备重启后,由于缺少故障出现时的信息而给故障定位带来困难。

S7500E系列交换机为用户提供了快捷的系统信息收集方法。使用display diagnostic-information命令,系统将自动收集当前重要的设备状态及各项运行参数,并按照用户的要求保存或者直接在控制台显示。用户可以把收集到的信息文件反馈给H3C相关人员,供问题分析使用。

说明

本文档不严格和具体的软硬件版本对应。

 

1.2  系统信息收集方法

说明

串口的波特率为9600,会导致诊断信息的收集时间过长,因此强烈建议在Telnet 控制台上执行display diagnostic-information命令。在堆叠系统中,由于需要收集的诊断信息较多,部分版本收集信息时间较长,请提前考虑好时间余量。

 

<Sysname> display diagnostic-information

Save or display diagnostic information (Y=save N=display)? [Y/N]:y

Please input the file name(*.diag)[flash:/default.diag]:aa.diag

Diagnostic information is outputting to flash:/aa.diag.

Please wait.................

Save succeeded.

下面将对上述显示信息进行说明

save or display diagnostic information (Y=save N=display)? [Y/N]:

该信息提示用户是否将收集到的信息以后缀为.diag的形式保存到系统FLASH中。

·     在保证FLASH空余空间大于10M的情况下,考虑到收集信息的速度,推荐使用"Y"将信息保存到FLASH中。选择Y,将出现如下信息

Please input the file name(*.diag)[flash:/default.daig]:

该信息提示用户输入保存诊断信息的文件名称,直接回车将以缺省名称default.diag保存。用户可以根据实际情况自己命名保存诊断信息的文件名,以区别多次使用该命令得到的诊断信息文件。

如果FLASH中存在相同的文件名称,系统将提示:

The file already exists overwrite it? [Y/N]

¡     选择Y,将覆盖已有文件。

¡     选择N,系统将跳出到执行display diagnostic-information命令时的视图。请重新键入display diagnostic-information命令,重新命名保存诊断信息的文件名称。

Please wait.................

系统将连续打点表示正在进行诊断信息的收集和保存,请耐心等待系统提示符出现。正常情况打点应该不停顿,由于系统某种故障原因相邻打点间隔一般也不超过2分钟。

诊断信息收集完成后,可以在用户视图下通过dir命令查看收集到的诊断信息是否成功保存到FLASH中。

<Sysname>dir                                                                       

Directory of flash:/                                                           

                                                                               

   0     -rw-      6797  Jun 14 2012 10:37:42   startup.cfg                    

   1     drw-         -  Sep 03 2010 11:03:06   patch6613                      

   2     -rw-      3395  May 13 2013 13:07:13   system.xml                     

   3     -rw-    429516  Aug 19 2010 15:59:51   mpu.btw                        

   4     -rw-     13090  May 13 2013 13:07:03   config.cwmp                    

   5     drw-         -  Apr 09 2010 13:47:34   seclog                         

   6     -rw-  33339502  May 13 2013 12:59:04   s7500e-cmw520-r6708.app                     

   7     -rw-     21288  Aug 09 2012 12:36:27   s7500e-cmw520-r6708.app     

   8     -rw-    468380  Jan 14 2013 09:44:36   lsqsrp2xb05500.btw             

   9      drw-   724660  May 03 2013 14:05:15   default.diag

如果文件的大小大于10000 bytes,时间与当前系统时间符合,那么表示保存成功。如果发现文件大小为0-1)或者时间不符合,则说明本次获取信息失败。请使用将信息打印到控制台方式收集。如果FLASH空间不够,系统自动将多余的信息显示在控制台。

·     若在出现save or display diagnostic information (Y=save N=display)? [Y/N]:提示信息时,输入N,系统将所有信息打印到控制台,供控制台收集。注意,系统将向当前控制台不间断发送诊断信息。请在收集信息前设置好PC的控制端,以便保存到PC中。进行信息收集前请确保超级终端或Telnet窗口的信息捕获功能已开启。

¡     如果使用控制台为串口,收集完所有信息需要的时间大约为20分钟以上。

¡     如果使用的控制台为Telnet,收集完所有信息需要的时间大约为3分钟。

1.3  故障信息处理方法

收集完信息后,根据收集信息的方法将得到的信息文件保存到PC,以便发送给H3C相关人员。

·     采用将信息保存到FLASH中的方法收集信息:使用FTP等文件传输协议将该文件上传到PC,然后将该文件发给相关人员。

·     采用将信息直接显示到控制台的方法收集信息:直接将控制终端保存的文件发给相关人员。

1.4  其它辅助信息收集

除上述收集的诊断(display diagnostic-information)信息外,如下信息也能为快速分析问题提供支持:

·     记录故障发生时设备的基本外观信息,如主控板上各个单板运行灯和故障灯的状态电源指示灯的状态风扇指示灯的状态故障端口指示灯的状态等

·     网络中相关设备的运行情况配置信息日志文件等

·     客户对问题的见解和看法。

·     现场采取的措施以及出现的现象。

·     问题是否已经解决以及解决方法

·     其它

2 S7500E开局自检

2.1  自检目的

针对客户的项目,提供有针对性的开局指导,规范开局配置,提前消除开局隐患,杜绝低级配置错误,保证项目的顺利进行。

另外由于产品支持多种组网应用,各个局点的配置均不尽相同。本自检表检查一个比较全面的开局组网,实际开局时可以根据具体情况采用实际应用部分进行自检。

2.2  开局自检项

编码

检查项目

检查分项目

检查方法

结果

备注

1

环境及单板硬件状态检查

环境状况

display environment

□合格

□不合格 

□不涉及

所有主控板、接口板温度都应该在门限70度以内

风扇状况

display fan

□合格

□不合格 

□不涉及

风扇框运行状态应该显示normal

电源状况

display power

□合格

□不合格 

□不涉及

电源应该显示normal(同时根据电源功率和整机消耗功率评估电源是否能备份)

指示灯状况

观察所有单板的运行灯及告警灯的运行状况

□合格

□不合格 

□不涉及

单板板运行灯慢闪,告警灯常灭。

单板运行状况

display device

□合格

□不合格 

□不涉及

所有业务板应该是Normal,主控板为slavemaster状态

2

双主控设备

自检

主备主控板软件版本是否一致?

display boot-loader

□合格

□不合格

□不涉及

一定要确保主备主控板的软件版本一致。

备用主控板是否保存有配置文件

使用命令dir slot#

□合格

□不合格

□不涉及

如果不存在配置文件,请执行save命令保存

3

CPU占用率

CPU的占用率是否忽高忽低。震荡比较大(10%—60%)或者一直高(主控板CPU占用率是否超过60%?业务板CPU占用率是否超过60%)

多次使用display cpu查看。

□合格

□不合格

□不涉及

请打开debug ip packet查看上CPU报文,根据报文分析原因。

4

内存占用率

主控板和业务板内存占用率是否在60%以下

display memory slot

□合格

□不合格

□不涉及

如果内存高于60%,需要display memory命令确认哪个模块占用内存过大,以便排查。

5

端口自检   

端口是否协商出了半双工?

display interface brief

□合格

□不合格 

□不涉及

例如:如果显示某个端口状态为half,需要确认是否两端配置不一致导致。

是否在没有必要启动流控端口配置流控?

查看配置,是否开启flow control 配置

□合格

□不合格

□不涉及

关闭该端口流控:undo flow control

端口出/入方向是否有大量的错误报文

display interface

查看errors部分是否有较大数据,并且在增加

□合格

□不合格

□不涉及

1: 检查线路质量,中间连接的光电转换器;

2:  两端配置是否一致?是否一端为强制而对端为协商?

是否有比较频繁的端口UP/DOWN?

display logbuffer

□合格

□不合格

□不涉及

1: 检查线路和中间连接的光电转换器;

2: 千兆端口检查光功率是否处于临界值?

3: 检查两端配置是否一致?

6

光口自检

光口两端是否配置一致?

display current interface

□合格

□不合格

□不涉及

H3C设备与其它厂商设备互连,建议光口速率和双工设置要完全一致。

光口是否有CRC错误?是否在增长?

display interface

□合格

□不合格

□不涉及

检查光功率是否处于临界值?可以通过更换光模块、更换尾纤或清洗光模块连接器的方式解决。

7

Trunk端口的配置自检

检查Trunk端口是否配置了undo port trunk permit vlan 1

display current interface

□合格

□不合格

□不涉及

如果系统配置了GVRP,同时Trunk端口配置了undo port trunk permit vlan 1,需要重新设置Trunk端口的PVID为端口允许通过的VLAN成员之一

端口PVID是否和对端的PVID一致?

display current interface

□合格

□不合格

□不涉及

两台设备之间互联的Trunk端口允许通过的VLAN配置为一致,并且两端PVID配置为一致

端口允许通过的VLAN是否和对端允许通过的VLAN一致?

display current interface

□合格

□不合格

□不涉及

两台设备之间互联的Trunk端口允许通过的VLAN配置为一致,避免一端配置为允许所有VLAN通过,另外一端没有配置允许所有VLAN通过

两台设备互连的端口是否一端配置成Trunk,另一端配置成Access?

display current interface

□合格

□不合格

□不涉及

根据实际组网情况调整两端的配置到一致状态

VLAN 1中是否存在环路?

使用display interface命令查看是否所有设备的Trunk端口都允许VLAN 1通过。

□合格

□不合格

□不涉及

根据网络实际情况调整,在不需要VLAN 1通过的端口上取消允许VLAN 1通过

8

STP自检

检查STP时间因子的设置情况

display current-configuration

□合格

□不合格

□不涉及

查看配置中是否存在stp timer-factor的配置,如果不存在,建议配置为stp timer-factor的值配置在5~7之间,增加STP的稳定性。

设备连接PC的端口是否配置为边缘端口?

使用display current interface命令查看端口的配置,如果配置了边缘端口,配置中会有stp edged-port enable的显示

□合格

□不合格

□不涉及

H3C建议您将设备连接PC的端口配置为边缘端口或者关闭该端口的STP功能,将设备与不支持STP的设备相连的端口关闭STP,避免这些端口的UP/DOWN状态干扰STP的计算。

是否存在运行MSTP/STP/RSTPH3C设备和运行PVST+的思科设备互通的情况?

检查各个设备上STP的状态计算是否正常

□合格

□不合格

□不涉及

如果存在运行MSTP/STP/RSTP协议的H3C设备与运行PVST+的思科设备互通的情况,建议将H3C设备与思科设备的互联方式改为三层互联,避免MSTP/STP/RSTP和思科私有的PVST+协议互通。

不同生成树实例的拓扑是否存在过多重叠路径?

使用display current interface 查看端口配置

□合格

□不合格

□不涉及

根据实际组网需求合理划分VLANVLAN与实例的映射关系,尽量使不同VLAN的流量沿不同路径转发。避免不同生成树实例的拓扑有过多重叠路径。

是否存在TC攻击,导致端口STP状态不停切换?

使用display stp tcdisplay stp history命令查看端口收发的TC报文计数和STP状态切换时间记录

□合格

□不合格

□不涉及

确认设备和PC连接的端口配置stp edged-port enable或者关闭STP。设备和不支持STP的设备互连的端口关闭STP

9

VRRP自检

握手时间是否设置成3秒?两端的vrrp握手时间是否一致?

display vrrp

□合格

□不合格

□不涉及

如果VRRP组在5个以下可以统一将VRRP握手时间改为3秒,如果VRRP组过多,可以将VRRP分为五个或三个一组,每组的VRRP握手时间分别配置为3秒、5秒、7

10

OSPF自检

是否有两台设备router id设置成相同

display ospf peer

□合格

□不合格

□不涉及

如果存在这个问题,会导致路由学习错误,需要修改Route-Id后,执行reset ospf process命令重新学习。

display ospf error是否有大量错误?

display ospf error

□合格

□不合格

□不涉及

如果存在大量的OSPF error记录,并且还在不断增加,需要进一步打开debug ospf evnt开关进行分析

路由是否存在较大震荡?

display ip routing-table statistics 

查看addeddeleted数据与系统运行时间对应是否比较大

□合格

□不合格

□不涉及

如果有,请仔细分析变化的具体路由,然后根据该路由查找到路由的原设备,分析具体震荡原因。可以在出现故障时,使用display ospf lsdb命令多次查看路由的age信息,确认哪条路由在频繁振荡。

OSPF状态是否稳定?

display ospf peer

□合格

□不合格

□不涉及

查看OSPF邻居的UP时间

11

ARP检查

是否存在大量ARP冲突?

display logbuffer 

□合格

□不合格

□不涉及

检查冲突地址,根据IP地址排除该主机。

12

路由检查

缺省路由是否正常?

是否存在路由环路?

使用tracert 1.1.1.1等明显不存在网段看是否存在路由环,使用debug ip packet,打印部分报文,看是否存在TTL=1或者=0的报文。

□合格

□不合格

□不涉及

如果存在路由环,请检查对应的设备是否配置正确。调整路由,去掉路由环。如果存在TTL超时报文,请分析对应网段路由是否正常

 

3 S7500E硬件类故障处理

说明

本章节主要讲述单板、电源、风扇、机框等部件故障的处理方法。其它如温度告警故障、端口等问题请参见S7500E系统类故障处理S7500E端口类故障处理

 

3.1  运行过程中主控板重启故障处理

3.1.1  故障描述

主控板在使用中发生重启,无法正常启动。

3.1.2  故障处理流程

图1     故障诊断流程图

 

3.1.3  故障处理步骤

1. 检查主控板上的启动文件是否正常

通过Console口登录故障主控板,重新启动设备,如果BootRom提示CRC错误或者找不到启动文件,请重新加载启动文件,并确认Flash中文件大小与服务器上的文件是否一致,如不存在或不一致需重新加载启动文件。加载后请设置该文件为当前启动文件(在BootRom加载过程中,BootRom能自动将该文件设置为当前启动文件)。

2. 测试主控板内存单元是否正常

如果确认加载的文件大小正确,且设置为当前启动文件也正常。请重新启动单板,同时立即按住CTRL+T,对内存单元进行检测。如果提示内存错误,请更换单板。

3. 查看BootRom是否依旧提示错误

如果内存检查也正常,但BootRom启动过程中还有错误提示,则根据相关提示初步判断发生故障的器件。检查单板是否插牢。如已插牢则更换单板。

4. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

3.2  电源运行中上报Fault问题处理方法

3.2.1  故障描述

电源运行中上报Fault

3.2.2  故障处理步骤

1. 检查是否存在FaultAbsent状态的电源模块

使用display power命令显示电源模块状态,查看是否存在FaultAbsent状态的电源模块。

<H3C> display power

 Chassis 1:

 Power        1 State: Absent

 Power        2 State: Normal

 Chassis 2:

 Power        1 State: Normal

 Power        2 State: Absent

如果存在Absent状态的电源模块,请前往步骤2

如果存在Fault状态的电源模块,请前往步骤3

2. 检查Absent状态电源模块

如果电源模块状态为Absent,表示对应槽位没有在位的电源模块或者电源模块没有安装牢固。

如果电源模块槽位有电源模块在位且显示为Absent,请将电源模块拆卸后重新安装,然后使用display power命令查看对应槽位电源状态是否显示为Normal。如果仍然显示为Absent状态,请更换新电源模块

如果更换新电源模块后仍然显示为Absent状态,请前往步骤4

3. 检查Fault状态电源模块

如果存在Fault状态电源模块,表示该电源模块异常,无法供电。

电源处于Fault状态有可能是电源模块本身温度过高导致。如果电源模块上积灰较多可能引起电源模块温度升高。请查看电源模块积灰情况,如果灰尘较多,请清理灰尘,并将电源模块拆卸后重新安装。然后使用display power命令查看对应槽位电源状态是否显示为Normal如果没有恢复Normal,请将该电源模块插入其它空闲电源模块槽位并查看电源状态是否为Normal。如果该电源模块仍然显示为Fault状态,请更换电源模块。

如果更换新电源模块后仍然显示为Fault状态,请前往步骤4

4. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

3.3  新插入电源模块状态异常处理方法

3.3.1  故障描述

新插入电源模块状态异常。

3.3.2  故障处理步骤

1. 查看电源模块状态

使用display power命令查看电源模块状态。

<H3C> display power

 Chassis 1:

 Power        1 State: Absent

 Power        2 State: Normal

 Chassis 2:

 Power        1 State: Normal

 Power        2 State: Absent

如果该电源模块显示为Absent状态,请前往步骤2

如果该电源模块显示为Fault状态,请前往步骤3

2. 检查Absent状态电源模块

如果该电源模块显示为Absent状态,表示电源模块没有安装牢固。请将该电源模块拆卸后重新安装,然后查看对应槽位电源状态是否显示为Normal。如果仍然显示为Absent状态,请将该电源模块插入其它空闲电源模块槽位并查看对应槽位电源状态是否为Normal状态。如果仍然显示为Absent状态,请前往步骤4

3. 检查Fault状态电源模块

如果该电源模块显示为Fault状态,表示该模块异常,无法供电。请将该电源模块插入其它空闲电源模块槽位并查看对应槽位电源状态是否为Normal状态。如果仍然显示为Fault状态,请前往步骤4

4. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

3.4  风扇框运行中上报Fault或新安装风扇框后状态异常问题处理方法

3.4.1  故障描述

风扇框运行中上报Fault或新安装风扇框后状态异常

3.4.2  故障处理步骤

1. 查看风扇框状态

使用display fan命令查看风扇框状态。

<H3C> display fan

Chassis 1:

Fan     1 State: Normal

Chassis 2:

Fan     1 State: Normal

如果风扇框工作状态显示为Absent,请前往步骤2

如果风扇框工作状态显示为Fault,请前往步骤3

2. 检查风扇框是否安装牢固

如果风扇框工作状态显示为Absent状态,表示风扇框不在位或者没有安装牢固。如果风扇框在位,请将该风扇框拆卸后重新安装,然后查看风扇框状态是否显示为Normal状态。如果仍然显示为Absent状态,请更换风扇框。如果更换新风扇框后仍然显示为Absent状态,请前往步骤4

3. 检查设备的工作温度信息

如果风扇框工作状态显示Fault状态,表示该风扇框异常,无法提供抽风散热功能。请使用下述步骤进一步定位。

(1)     使用display environment命令查看系统温度是否持续升高。如果系统温度持续升高,建议用手在设备出风口触摸进一步判断出风口是否有出风。

(2)     如果温度持续升高,且出风口无风,可以肯定风扇框异常。请将风扇框拆卸后重新安装,然后使用display fan命令查看是否恢复为Normal状态

(3)     如果仍然不能恢复为Normal状态,请更换该风扇框。如果现场没有风扇框,不能立即更换,请关闭设备以免温度过高导致电路烧坏(如果有降温措施保证系统工作在60摄氏度以下,可以继续使用设备)。

(4)     如果更换新的风扇框仍然不能恢复为Normal状态,请前往步骤4

4. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

3.5  故障诊断命令

命令

说明

dir

用来显示目录或文件信息

display boot-loader

用来显示启动文件信息

display environment

显示设备的工作温度信息

display fan

显示设备风扇框的工作状态

display logbuffer

用来显示系统日志缓冲区记录的日志信息

display power

显示设备电源的信息

 

4 S7500E系统类故障处理

4.1  系统温度告警问题处理方法

4.1.1  故障描述

系统出现温度告警。

4.1.2  故障处理流程

图2     故障诊断流程图

 

4.1.3  故障处理步骤

1. 确认是设备自身温度过高,还是环境温度过高

·     若是环境温度过高,请增加空调或者采取其他散热措施降低环境温度。

·     若是设备温度过高,请进行步骤2

2. 确认设备风扇是否正常

使用display fan命令查看风扇框是否运行正常。若显示为“Fault”,请参考《H3C S7500E 系列交换机 安装手册》中的“7.4 风扇故障定位与处理”排除风扇故障。

3. 检查防尘网是否洁净

如果风扇正常,则检查防尘网是否洁净。清理防尘网后,看温度是否能恢复正常。

4. 重设温度告警门限

使用temperature-limit命令重新设置高温告警单板的温度告警门限值。通过display environment命令可以查看温度告警门限是否设置成功。

·     如果设置不成功,则明单板温度器件异常,请更换单板。

·     如果设置成功,但高温告警仍未消除,请寻求技术支持。

4.2  故障诊断命令

命令

说明

display environment

显示设备的温度信息,包括当前温度和设定的温度门限

display fan

显示设备上所有风扇框的工作状态

temperature-limit

设置设备的温度告警门限

 

5 S7500E端口类故障处理

5.1  10/100/1000Base-T千兆以太网电口不UP故障处理

5.1.1  故障描述

10/100/1000Base-T千兆以太网电口不UP故障

5.1.2  故障处理流程

图3     故障诊断流程图

 

5.1.3  故障处理步骤

1. 检查两端端口的速率,双工模式是否匹配

执行display interface brief命令,查看两端端口的速率、双工配置是否匹配。若不匹配,请通过speed命令和duplex命令配置端口的速率和双工模式。

2. 检查链路情况,网线是否正常

可通过更换网线来检查故障是否排除。

3. 检查本端端口是否正常

可通过更换本端设备端口(如果条件允许,推荐使用其它槽位的同类型单板)来检查故障是否排除。

4. 检查对端端口是否正常

可通过更换对端设备端口(如果条件允许,推荐使用其它槽位的同类型单板)来检查故障是否排除。

5. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

5.2  千兆/百兆SFP光口不UP故障处理

5.2.1  故障描述

千兆/百兆SFP光口不UP故障。

5.2.2  故障处理流程

图4     故障诊断流程图

 

5.2.3  故障处理步骤

1. 检查两端端口的速率,双工模式是否匹配

执行display interface brief命令,查看两端端口的速率、双工配置是否匹配。若不匹配,请通过speed命令和duplex命令配置端口的速率和双工模式。

2. 检查端口与光模块的速率,双工模式是否匹配

执行display interface brief命令,查看端口与光模块的速率、双工配置是否匹配。若不匹配,请通过speed命令和duplex命令配置端口的速率和双工模式。

3. 检查光模块是否正常

可通过如下步骤检查光模块是否正常,若不正常可通过更换与光接口匹配的光模块(请使用H3C光模块)来检查故障是否排除。关于光模块的具体描述请参见产品的安装手册。

(1)     可通过display transceiver alarm interface命令,查看当前端口上的光模块的故障告警信息,若显示为“None”,则表示没有故障;若显示有告警信息,则表示该光模块有故障或该模块与光接口类型不匹配

(2)     使用光功率计测试端口收发光功率是否在正常范围内,是否稳定。

(3)     可通过display transceiver interface命令检查两端的光模块波长、距离等参数是否一致。

[H3C] display transceiver interface ten-gigabitethernet 1/3/0/15

Ten-GigabitEthernet1/3/0/15 transceiver information:

  Transceiver Type              : 1000_BASE_SX_SFP

  Connector Type                : LC

  Wavelength(nm)                : 850

  Transfer Distance(m)          : 550(50um),270(62.5um)

  Digital Diagnostic Monitoring : YES

  Vendor Name                   : H3C

  Ordering Name                 : SFP-GE-SX-MM850-A

4. 检查光纤是否正常

可通过更换光纤来检查故障是否排除,关于光纤的具体描述请参见产品的安装手册。

5. 检查本端端口是否正常

可通过更换本端设备端口(如果条件允许,推荐使用其它槽位的同类型单板)来检查故障是否排除。

6. 检查对端端口是否正常

可通过更换对端设备端口(如果条件允许,推荐使用其它槽位的同类型单板)来检查故障是否排除。

7. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

5.3  万兆XFP光口不UP故障处理

5.3.1  故障描述

万兆XFP光口与其它设备互连时,光口不UP故障。

5.3.2  故障处理流程

图5     故障诊断流程图

 

5.3.3  故障处理步骤

1. 检查两端端口的速率,双工模式是否匹配

执行display interface brief命令,查看两端端口的速率、双工配置是否匹配。若不匹配,请通过speed命令和duplex命令配置端口的速率和双工模式。

2. 检查端口与光模块的速率,双工模式是否匹配

执行display interface brief命令,查看端口与光模块的速率、双工配置是否匹配。若不匹配,请通过speed命令和duplex命令配置端口的速率和双工模式。

3. 检查光模块是否正常

可通过如下步骤检查光模块是否正常,若不正常可通过更换与光接口匹配的光模块(请使用H3C光模块)来检查故障是否排除。关于光模块的具体描述请参见产品的安装手册。

(1)     可通过display transceiver alarm interface命令,查看当前端口上的光模块的故障告警信息,若显示为“None”,则表示没有故障;若显示有告警信息,则表示该光模块有故障或该模块与光接口类型不匹配

(2)     使用光功率计测试端口收发光功率是否在正常范围内,是否稳定。

(3)     可通过display transceiver interface命令检查两端的光模块波长、距离等参数是否一致。

[H3C] display transceiver interface ten-gigabitethernet 1/3/0/15

Ten-GigabitEthernet1/3/0/15 transceiver information:

  Transceiver Type              : 10G_BASE_LR                                  

  Connector Type                : LC                                           

  Wavelength(nm)                : 1310                                         

  Transfer Distance(km)         : 10(SMF)                                      

  Digital Diagnostic Monitoring : YES                                           

  Vendor Name                   : FINISAR CORP.                                

  Ordering Name                 : XFP-Lx10-SM1310    

4. 检查光纤是否正常

首先要确定光纤与光模块是否匹配。如果不匹配,可通过更换光纤来检查故障是否排除,关于光纤的具体描述请参见产品的安装手册。

5. 检查本端端口是否正常

可通过更换本端设备端口(如果条件允许,推荐使用其它槽位的同类型单板)来检查故障是否排除。

6. 检查对端端口是否正常

可通过更换对端设备端口(如果条件允许,推荐使用其它槽位的同类型单板)来检查故障是否排除。

7. 寻求技术支持

如果上述检查完成后故障仍无法排除,可通过display diagnostic-information命令收集设备的diagnostic-information联系H3C的技术支持工程师

<H3C> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y

5.4  万兆SFP+光口不UP故障处理

5.4.1  故障描述

万兆SFP+光口与其它设备互连不UP故障。

5.4.2  故障处理流程

图6     故障诊断流程图

 

5.4.3  故障处理步骤

1. 检查两端端口的速率,双工模式是否匹配

执行display interface brief命令,查看两端端口的速率、双工配置是否匹配。若不匹配,请通过speed命令和duplex命令配置端口的速率和双工模式。

2. 检查端口与光模块的速率,双工模式是否匹配

执行display interface brief命令,查看端口与光模块的速率、双工配置是否匹配。若不匹配,请通过speed命令和duplex命令配置端口的速率和双工模式。

3. 检查两端端口是否正常

在本单板上的万兆SFP+端口上用万兆SFP+电缆(适用于短距离连接)直接互连,查看该端口是否能UP。如果能UP,则说明对端端口异常;如果不能UP,则说明本端端口异常。可通过更换本端、对端端口(如果条件允许,推荐使用其它槽位的同类型单板)来检查故障是否解决。

4. 检查光模块、电缆是否正常

可通过如下步骤检查光模块是否正常,若不正常可通过更换与光接口匹配的光模块(请使用H3C光模块、电缆)来检查故障是否排除。关于光模块、电缆的具体描述请参见产品的安装手册。

(1)     可通过display transceiver alarm interface命令,查看当前端口上的光模块的故障告警信息,若显示为“None”,则表示没有故障;若显示有告警信息,则表示该光模块有故障或该模块与光接口类型不匹配

(2)     使用光功率计测试端口收发光功率是否在正常范围内,是否稳定。

(3)     可通过display transceiver interface命令检查两端的光模块波长、距离等参数是否一致。

[H3C] display transceiver interface Ten-GigabitEthernet 1/3/0/15

Ten-GigabitEthernet1/3/0/15 transceiver information:

  Transceiver Type              : 1000_BASE_SX_SFP

  Connector Type                : LC

  Wavelength(nm)                : 850

  Transfer Distance(m)          : 550(50um),270(62.5um)

  Digital Diagnostic Monitoring : YES

  Vendor Name                   : H3C

  Ordering Name                 : SFP-GE-SX-MM850-A

5. 检查光纤是否正常

首先要确定光纤与光模块是否匹配。如果不匹配,可通过更换光纤来检查故障是否排除,关于光纤的具体描述请参见产品的安装手册。

6. 寻求技术支持

如果上述检查完成后故障仍无法排除,可通过display diagnostic-information命令收集设备的diagnostic-information联系H3C的技术支持工程师

<H3C> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y

5.5  40GEQSFP+光口不UP故障处理

5.5.1  故障描述

40GEQSFP+光口不UP故障。

5.5.2  故障处理流程

图7     故障诊断流程图

 

5.5.3  故障处理步骤

1. 检查两端端口是否正常

在本单板上的40GEQSFP+端口上用QSFP+电缆(适用于短距离连接)直接互连,查看该端口是否能UP。如果能UP,则说明对端端口异常;如果不能UP,则说明本端端口异常。可通过更换本端、对端端口(如果条件允许,推荐使用其它槽位的同类型单板)来检查故障是否解决。

2. 检查光模块、电缆是否正常

可通过如下步骤检查光模块是否正常,若不正常可通过更换与光接口匹配的光模块(推荐使用H3C光模块、电缆)来检查故障是否排除。关于光模块、电缆的具体描述请参见产品的安装手册。

(1)     可通过display transceiver alarm interface命令,查看当前端口上的光模块的故障告警信息,若显示为“None”,则表示没有故障;若显示有告警信息,则表示该光模块有故障或该模块与光接口类型不匹配

(2)     使用光功率计测试端口收发光功率是否在正常范围内,是否稳定。

(3)     可通过display transceiver interface命令检查两端的光模块波长、距离等参数是否一致。

[H3C] display transceiver interface fortygige 1/0/1

FortyGigE1/1/0/4 transceiver information:

  Transceiver Type              : 40G_BASE_SR4_QSFP_PLUS

  Connector Type                : MPO

  Wavelength(nm)                : 850

  Transfer Distance(m)          : 100(OM3)

  Digital Diagnostic Monitoring : YES

  Vendor Name                   : H3C

需要注意的是,如果使用QSFP+ to SFP+电缆连接时,由于QSFP+光模块发送光功率超过了SFP+模块要求接收的光功率上限,在使用时需要加光衰。

3. 检查光纤是否正常

首先要确定光纤与光模块是否匹配。如果不匹配,可通过更换光纤来检查故障是否排除,关于光纤的具体描述请参见产品的安装手册。

4. 寻求技术支持

如果上述检查完成后故障仍无法排除,可通过display diagnostic-information命令收集设备的diagnostic-information联系H3C的技术支持工程师

<H3C> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y

5.6  40GECFP光口不UP故障处理

5.6.1  故障描述

40GECFP光口不UP故障。

5.6.2  故障处理流程

图8     故障诊断流程图

 

5.6.3  故障处理步骤

1. 检查光模块是否正常

可通过如下步骤检查光模块是否正常,若不正常可通过更换与光接口匹配的光模块(请使用H3C光模块)来检查故障是否排除。关于光模块的具体描述请参见产品的安装手册。

(1)     可通过display transceiver alarm interface命令,查看当前端口上的光模块的故障告警信息,若显示为“None”,则表示没有故障;若显示有告警信息,则表示该光模块有故障或该模块与光接口类型不匹配

(2)     使用光功率计测试端口收发光功率是否在正常范围内,是否稳定。

(3)     可通过display transceiver interface命令,检查两端的光模块波长、距离等参数是否一致。

2. 检查光纤是否正常

首先要确定光纤与光模块是否匹配。如果不匹配,可通过更换光纤来检查故障是否排除,关于光纤的具体描述请参见产品的安装手册。

3. 检查本端端口是否正常

可通过更换本端设备端口(如果条件允许,推荐使用其它槽位的同类型单板)来检查故障是否排除。

4. 检查对端端口是否正常

可通过更换对端设备端口(如果条件允许,推荐使用其它槽位的同类型单板)来检查故障是否排除。

5. 寻求技术支持

如果上述检查完成后故障仍无法排除,可通过display diagnostic-information命令收集设备的diagnostic-information,联系H3C的技术支持工程师。

<H3C> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y

5.7  端口存在CRC等错误统计故障处理

5.7.1  故障描述

通过display interface查看到端口存在CRC等错误统计故障。

5.7.2  故障处理流程

图9     故障诊断流程图

 

5.7.3  故障处理步骤

1. 查看错误报文统计信息从而判断故障问题

通过display interface命令,查看端口出入方向的错包统计具体是哪项在增长,从而判断故障问题。为方便查看,也可以在用户视图下使用reset counter interface清空端口统计报文再观察。

2. 若是光口,请检查光模块的光功率是否正常

通过display transceiver diagnosis interface查看光口所插光模块的数字诊断参数的当前测量值。若该光模块的光功率不正常,请更换同一型号的正常光模块。

[H3C] display transceiver diagnosis interface gigabitethernet1/0/1

GigabitEthernet1/0/1 transceiver diagnostic information:

  Current diagnostic parameters:

Temp.()  Voltage(V)  Bias(mA)  RX power(dBM)  TX power(dBM)

40         3.34       1.13      -20.43            0.20

3. 检查端口配置是否正常

通过display interface brief命令,查看端口配置是否有异常,其中两端的协商状态双工模式,端口速率是否一致。若端口速率不一致或存在半双工模式,请通过speed命令和duplex命令分别配置端口的速率和双工模式。

4. 检查端口及链路介质是否正常

更换到其它端口看是否存在相同现象。如果存在相同现象,检查互连中间链路设备(光转,转接架,传输等设备)及传输介质(网线,光纤,光模块等)是否正常。如果为电口,使用PC替代对接。如果为光口,更换光模块测试。

5. 检查端口是否收到大量流控帧

通过display interface命令,查看端口pauses帧计数,如果在不断增长,表明端口发出或者收到了大量的流控帧。检查下端口出入流量是否过大及对端设备的流量处理能力。

6. 寻求技术支持

如果上述检查完成后确认配置、对端以及链路都没有问题,但故障仍无法排除,通过display diagnostic-information命令收集设备的diagnostic-information后,请联系H3C的技术支持工程师

<H3C> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y

5.8  端口不接收报文故障处理

5.8.1  故障描述

端口状态为UP,但不接收报文。

5.8.2  故障处理流程

图10     故障诊断流程图

 

5.8.3  故障处理步骤

1. 查看端口报文统计结果

检查两端端口状态是否一直UP,并使用display interface 命令查看入方向的报文统计是否增长。为方便查看,也可以使用reset counter interface清空当前端口的报文统计结果再进行观察。同时,查看对端是否有发送报文统计。检查端口错包统计是否持续增长。

2. 检查端口配置是否影响报文的接收

可通过以下步骤检查端口配置是否影响报文的接收:

(1)     通过display interface brief命令,查看端口配置是否有异常。其中包括两端的端口双工模式端口速率端口类型以及VLAN等配置。若有异常,请更改端口属性的配置查看该故障端口是否能恢复正常。如果不能,请先执行shutdown命令后,再执行undo shutdown命令,再次查看端口是否能恢复正常。

(2)     如果配置了STP功能,通过display stp brief命令,查看端口是否为 discarding状态。如果端口被stp设置为discarding状态,请根据stp的相关配置进一步排查。H3C建议您将连接终端设备的端口配置为边缘端口或关闭该端口的stp功能。

(3)     如果该端口加入了聚合通过display link-aggregation summary命令查看端口是否为Selected选中状态。当该端口StatusUnselected状态时,该端口无法收发数据报文。请定位端口成为Unselected状态的原因,如聚合组内成员端口的属性类配置与参考端口不一致,进一步排查解决。

3. 检查端口及链路介质是否正常

更换连接到其它端口看是否存在相同现象。如果存在相同现象,检查互连中间链路设备(光转,转接架,传输等设备)及传输介质(网线,光纤,光模块等)是否正常。如果为电口,使用PC替代对接。如果为光口,更换光模块测试。

4. 寻求技术支持

如果上述检查完成后确认配置、对端以及链路都没有问题,但故障仍无法排除,通过display diagnostic-information命令收集设备的diagnostic-information后,请联系H3C的技术支持工程师

<H3C> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y

5.9  端口不发送报文故障处理

5.9.1  故障描述

端口状态为UP,但不发送收报文。

5.9.2  故障处理流程

图11     故障诊断流程图

 

5.9.3  故障处理步骤

1. 查看端口报文统计结果

检查两端端口状态是否一直UP,并使用display interface 命令查看出方向的报文统计是否增长。为方便查看,也可以使用reset counter interface命令清空端口当前的报文统计结果再进行观察。检查端口错包统计是否持续增长。

2. 检查端口配置是否影响报文的发送

可通过以下步骤检查端口配置是否影响报文的发送:

(1)     通过display interface brief命令,查看端口配置是否有异常。其中包括两端端口的双工模式、端口速率端口类型以及VLAN等配置。若有异常,请更改端口属性的配置查看该故障端口是否能恢复正常。如果不能,请先执行shutdown命令后,再执行undo shutdown命令,再次查看端口是否能恢复正常。

(2)     如果配置了STP功能,使用display stp brief命令查看故障端口是否为discarding状态。如果端口被stp设置为discarding状态,请根据stp的相关配置进一步排查。H3C建议您将连接终端设备的端口配置为边缘端口或关闭该端口的stp功能。

(3)     如果该端口加入了聚合,使用display link-aggregation summary命令查看端口是否为Selected选中状态。当该端口StatusUnselected状态时,该端口无法收发数据报文。请定位端口成为Unselected状态的原因,如聚合组内成员端口的属性类配置与参考端口不一致,进一步排查解决。

3. 步骤5

更换连接到其它端口看是否存在相同现象。如果存在相同现象,检查互连中间链路设备(光转,转接架,传输等设备)及传输介质(网线,光纤,光模块等)是否正常。如果为电口,使用PC替代对接测试。如果为光口,更换光模块测试。

4. 寻求技术支持

如果上述检查完成后确认配置、对端以及链路都没有问题,但故障仍无法排除,通过display diagnostic-information命令收集设备的diagnostic-information后,请联系H3C的技术支持工程师

<H3C> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y

5.10  故障诊断命令

命令

说明

display diagnostic-information

显示或保存系统当前多个功能模块运行的统计信息

display interface

显示以太网端口的相关信息

display interface brief

显示接口的概要信息

display link-aggregation summary

显示所有聚合组的摘要信息

display logbuffer

显示系统日志缓冲区的状态和缓冲区记录的日志信息

display stp brief

显示生成树状态和统计的简要信息

display transceiver alarm interface

显示可插拔接口模块的当前故障告警信息

display transceiver diagnosis

显示可插拔光模块的数字诊断参数的当前测量值

display transceiver interface

显示接口上插入的可插拔接口模块的主要特征参数

 

6 S7500E IRF故障处理

6.1  设备无法加入IRF故障处理方法

6.1.1  故障描述

IRF配置完成后,一个或多个成员始终无法加入IRF

6.1.2  故障处理流程

图12     故障诊断流程图

 

6.1.3  故障处理步骤

1. 检查IRF成员设备数量是否超过最大限制

S7500E系列交换机最多支持4台设备组成IRF。如果您正在向已建立的IRF中增加设备,请使用display irf命令查看当前IRF中的成员设备数量。

2. 检查成员设备的型号是否相同

S7500E系列交换机中,只有相同型号的机型之间可以建立IRF

3. 检查成员设备是否工作在IRF模式

当成员设备工作在IRF模式时,端口的编号将由三维变为四维,您可以通过执行display interface brief命令查看物理端口的编号,如果编号为四维(例如XGE1/4/0/1),则表示设备当前工作在IRF模式;否则表示设备工作在独立运行模式,您需要执行chassis convert mode irf命令并重启设备,使设备工作在IRF模式。

4. 检查成员编号是否在IRF中唯一

您可以使用display irf命令可以查看IRF中各成员设备的成员编号。IRF中的各成员设备必须使用不同的编号,编号相同的设备之间不能建立IRF,您可以通过irf member renumber命令修改冲突的成员编号。

5. 检查IRF物理端口的状态

您可以通过display interface命令查看IRF物理端口的状态。

(1)     如果物理端口状态为“DOWN ( Administratively )”,则表示该端口已经通过shutdown命令关闭,您需要执行undo shutdown命令将其开启。

(2)     如果物理端口的状态为“DOWN”,您需要检查堆叠物理端口的光模块/光纤或者电缆是否工作正常。S7500E系列交换机仅支持使用SFP+/QSFP+光模块(搭配光纤)或者SFP+/QSFP+电缆来建立成员设备间的物理连接。

6. 检查IRF端口的状态

IRF端口是一种专用于IRF连接的逻辑接口,需要与物理端口绑定后才能生效。您可以通过查看display irf topology命令输出信息的“Link”字段来确认IRF端口的状态。如果与IRF端口绑定的物理端口状态为UPIRF端口状态为DOWN,则您需要检查该成员设备的主控板是否发生故障,从而导致IRF packet收发异常,引起IRF端口的故障。

7. 检查IRF端口与物理端口的绑定关系

在连接两台相邻的成员设备时,一台设备上与IRF-Port1绑定的IRF物理端口只能和邻居成员设备IRF-Port2口上绑定的IRF物理端口相连。

(1)     在每台成员设备上通过display irf configuration命令查看IRF端口与IRF物理端口的绑定关系。

(2)     检查IRF物理端口的连接状况,是否满足相邻设备的连接要求。

(3)     如果绑定关系和物理连接不一致,请重新配置绑定关系或重新进行物理连接。

8. 检查各成员设备使用的软件版本

使用display version命令查看每台设备当前运行的软件版本,只有使用相同软件版本的设备才能组成IRF。如果存在成员设备之间软件版本不一致的情况,建议通过软件升级使所有成员设备都使用较高的软件版本。

如果成员设备使用双主控,请同时升级两块主控板,保证所有成员设备的所有主控板上运行相同的软件版本。

IRF系统启动文件自动加载功能(缺省为关闭状态)可以自动将成员设备的软件版本与IRF中主设备进行同步,但是在成员设备与主设备的软件版本差异过大时,自动升级可能不能成功执行。

 

9. 检查各成员设备的桥MAC地址

请通过display interface vlan-interface 1命令查看当前设备的桥MAC地址。

[H3C]display interface Vlan-interface 1                                        

Vlan-interface1 current state: UP                                              

Line protocol current state: UP                                                

Description: Vlan-interface1 Interface                                         

The Maximum Transmit Unit is 1500                                              

Internet protocol processing : disabled                                        

IP Packet Frame Type: PKTFMT_ETHNT_2,  Hardware Address: 0023-8912-3d07         

IPv6 Packet Frame Type: PKTFMT_ETHNT_2,  Hardware Address: 0023-8912-3d07

具有相同桥MAC的成员设备之间不能组成IRF

10. 寻求技术支持

如果完成上述检查后,故障仍无法排除,请通过display diagnostic-information命令收集设备的诊断信息,并联系H3C的技术支持工程师

<H3C> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y

6.2  IRF分裂故障处理方法

6.2.1  故障描述

设备运行过程中,突然出现IRF分裂。

6.2.2  故障处理流程

图13     故障诊断流程图

 

6.2.3  故障处理步骤

1. 检查IRF物理端口工作状态

请使用display trapbuffer命令或者通过查看日志主机存储的信息,查找在IRF分裂的时间点附近是否存在IRF物理端口down的日志。如果存在,请通过display interface命令查看IRF物理端口的统计信息中是否发生过CRC等错误统计。如果IRF物理端口采用光模块和光纤的方式进行连接,需要通过display transceiver diagnosis命令查看SFP+/QSFP+口的接收/发送光功率,并与光模块的规格进行比较,查看是否接近或超过光模块规定的阈值。

2. 检查IRF物理端口所在单板是否发生过重启

请使用display version命令查看IRF物理端口所在单板的运行时间,确认IRF分裂是否由于单板的重启引起。

如果核实是由于IRF物理端口所在单板重启造成IRF分裂,请联系H3C的技术支持工程师排除故障。

3. 检查各成员设备是否发生过重启

请使用display version命令查看成员设备的主控板运行时间,确认是否发生了成员设备整机重启事件,从而导致IRF分裂。

如果核实是由于成员设备整机重启造成IRF分裂,请根据“3.1  运行过程中主控板重启故障处理”中介绍的方法分析整机重启的原因并排除故障。

4. 寻求技术支持

如果完成上述检查后,故障仍无法排除,请通过display diagnostic-information命令收集设备的诊断信息,并联系H3C的技术支持工程师。

<H3C> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y

6.3  IRF分裂后BFD MAD无法生效故障处理方法

6.3.1  故障描述

IRF分裂后,BFD MAD功能未生效,导致网络中存在配置相同的两台设备。

6.3.2  故障处理流程

图14     故障诊断流程图

 

6.3.3  故障处理步骤

1. 检查BFD MAD组网是否正确

使用BFD MAD功能时,要求所有成员设备之间必须有一条BFD MAD检测链路,可以通过中间设备,也可以在成员设备之间使用全连接的组网。

2. 检查BFD MAD所使用的物理端口状态

您可以通过display interface命令查看BFD MAD所使用的物理端口的状态。

(1)     如果物理端口状态为“DOWN ( Administratively )”,则表示该端口已经通过shutdown命令关闭,您需要执行undo shutdown命令将其开启。

(2)     如果物理端口的状态为“DOWN”,您需要检查物理端口的连接是否正常。

3. 检查BFD MAD所使用的VLAN和端口配置

用于BFD MAD检测的物理端口上不能开启生成树协议,也不能开启其它任何功能。一个IRF内所有BFD MAD链路上的物理端口必须属于同一个VLAN,该VLANBFD MAD专用,如果使用中间设备的话,中间设备与成员设备相连的端口也必须加入该VLAN。建议用于BFD MAD检测的VLAN中只包含BFD MAD链路上的端口,不要将其它端口加入该VLAN

4. 检查BFD MAD所使用的VLAN接口

使用display mad verbose命令查看用于BFD MAD检测的VLAN接口,该接口不能为VLAN1接口,并且该接口仅用于BFD MAD,即在该接口上不能配置其它任何二层或三层协议,也不能与VPN实例进行绑定。

5. 检查BFD MAD IP地址的配置

使用display mad verbose命令查看用于BFD MAD检测的IP地址,各成员设备的MAD IP地址必须属于同一网段,同时不能为设备上已经存在的IP地址。通过display inteface查看用于BFD MADVLAN接口配置,该接口上不能配置其它IP地址(包括使用ip address命令配置的普通IP地址、VRRP虚拟IP地址等)。

6. 当组网中存在多个IRF时,检查各IRFBFD MAD VLAN

如果网络中存在多个IRF,在配置BFD MAD时,请为每个IRF配置不同的VLAN用于BFD MAD检测。

7. 检查成员设备的日志信息

请使用display trapbuffer命令或者通过查看日志主机存储的信息,查找在IRF分裂的时间点附近是否存在BFD MAD所使用物理端口down的日志。通过该日志判断端口故障的原因,并排除该故障。

8. 寻求技术支持

如果完成上述检查后,故障仍无法排除,请通过display diagnostic-information命令收集设备的诊断信息,并联系H3C的技术支持工程师

<H3C> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y

6.4  IRF分裂后LACP MAD无法生效故障处理方法

6.4.1  故障描述

IRF分裂后,LACP MAD功能未生效,导致网络中存在配置相同的两台设备。

6.4.2  故障处理流程

图15     故障诊断流程图

 

6.4.3  故障处理步骤

1. 检查LACP MAD组网是否正确

使用LACP MAD功能时,要求必须使用一台中间设备,所有成员设备与中间设备之间必须均存在物理连接。

2. 检查聚合组和物理端口的状态

您可以通过display interface命令查看LACP MAD所使用的聚合组和物理端口的状态。

(1)     如果物理端口状态为“DOWN ( Administratively )”,则表示该聚合组或物理端口已经通过shutdown命令关闭,您需要执行undo shutdown命令将其开启。

(2)     如果聚合端口的状态为“DOWN”,则表示该聚合组内所有物理端口连接均有问题;如果物理端口的状态为“DOWN”,则表示该端口的物理连接存在问题。请检查物理连接并修复故障。

3. 检查中间设备是否支持扩展LACP选项

由于LACP MAD使用扩展LACP选项实现,因此中间设备必须能够识别并透传带有扩展LACP选项的LACP报文。

4. 检查聚合组的聚合方式

LACP MAD功能通过LACP报文实现,因此仅有动态聚合组能够用于LACP MAD检测。您可以在聚合接口视图下使用link-aggregation mode dynamic命令将聚合组的工作模式配置为动态聚合。

5. 当组网中存在多个IRF时,检查各IRF的域编号

扩展LACP选项中会包含IRF的域编号,当组网中存在多个IRF时,如果各IRF的域编号相同,则LACP MAD检测功能将不能正常检测到IRF分裂。请确保组网中的每个IRF使用不同的域编号,您可以通过irf domain命令配置IRF的域编号。

6. 检查成员设备的日志信息

请使用display trapbuffer命令或者通过查看日志主机存储的信息,查找在IRF分裂的时间点附近是否存在LACP MAD所使用物理端口或聚合组down的日志。通过该日志判断端口故障的原因,并排除该故障。

7. 寻求技术支持

如果完成上述检查后,故障仍无法排除,请通过display diagnostic-information命令收集设备的诊断信息,并联系H3C的技术支持工程师。

<H3C> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y

6.5  故障诊断命令

命令

说明

display irf

显示IRF中所有成员设备的相关信息

display interface brief

显示接口的概要信息

display interface

显示接口的相关信息

display irf topology

显示IRF的拓扑信息

display irf configuration

显示所有成员设备的IRF配置信息

display version

显示系统版本信息

display diagnostic-information

显示或保存系统当前多个功能模块运行的统计信息

display trapbuffer

显示系统告警缓冲区的状态和缓冲区记录的告警信息

display transceiver diagnosis

显示可插拔光模块的数字诊断参数的当前测量值

display mad verbose

显示MAD详细配置信息

 

7 S7500E QoS/ACL故障处理

7.1  下发ACL提示失败故障处理方法

7.1.1  故障描述

ACL下发后系统提示硬件资源不足或不支持的提示信息。

7.1.2  故障处理流程

图16     故障诊断流程图

 

7.1.3  故障处理步骤

ACL 提示失败一般是由于硬件资源不足或者产品不支持导致的,资源不足可能是硬件CAR/Meter/ACL本身资源不足导致。

1. 检查系统日志信息

在应用ACL时,注意观察系统的提示信息,是否有如下显示,即提示资源不足或者产品不支持。

Error: Slot=2 Fail to apply or refresh packet filter policy 3001 rule 25 on int

erface Vlan-interface6 due to lack of resources —--芯片资源不足

 

Warning: Classifier-behavior test in policy test applied on vlan 4079 failed in

slot 2

Reason: Not enough hardware resource—--芯片资源不足

 

Error: Slot=2 Fail to apply or refresh packet filter policy 3180 rule 5 on interface Vlan-interface20Not supported ---产品不支持

如果命令行中有如上提示信息,就可基本确认是由于硬件资源不足或芯片能力导致ACL下发失败。

2. 查看当前设备的ACL资源

使用display acl resource命令查看当前设备使用的ACL资源信息,注意,如果下发的ACL是全局ACL,例如基于VLANACL,则需要查看所有相关的单板的ACL表项信息。

[H3C] display acl ressource

 Interface:

   GE3/0/1 to GE3/0/24

---------------------------------------------------------------------

 Type          Total       Reserved    Configured  Remaining   Usage

---------------------------------------------------------------------

 VFP ACL       1024        256         0           768         25%

 IFP ACL       4096        1024        316         2756        32%

 IFP Meter     2048        512        1422         1422        30%

 IFP Counter   2048        512        1422         1422        30%

 EFP ACL       512         0           0           512         0%

 EFP Meter     256         0           0           256         0%

 EFP Counter   512         0           0           512         0%   

其中IFP为入方向ACL的资源情况,EFP为出方向的ACL使用情况。在下发ACL发现失败时,建议先测算下要下发的ACL的数目与芯片剩余的资源数量进行对比。当要下发的ACL条数大于剩余的数量时,系统会提示当前资源不足。

3. 尝试差分下发的ACL规则

当下发ACL失败设备提示“Not supported”时,说明S7500E上不支持下发当前定义的ACL规则。需要调整规则,通常的做法可以是拆分下发的ACL规则。

4. 进一步确认ACL下发失败的原因:

当查看系统资源明显充足,或者下发的ACL规则是合法的规则,但是提供依旧提示下发失败时,一般是当前下发的ACLASIC芯片的特定算法冲突,导致下发到ASIC的顺序和自动分配有异常导致。收集设备的诊断信息后联系H3C的技术支持工程师。

<H3C> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y

7.2  下发ACL成功,但是ACL不生效的故障处理方法

7.2.1  故障描述

ACL下发成功但是不生效。

7.2.2  故障处理流程

图17     故障诊断流程图

 

7.2.3  故障处理步骤

1. 检查设备上已下发的ACL规则是否存在重叠匹配

ACL下发成功但不生效,基本是由于ACL配置中出现重叠匹配规则导致的。通过display packet-filterdisplay qos policy user-defined、以及display traffic classifier user-defined查看已下发的ACL,再通过display acl命令查看已下发ACL中的规则是否存在重叠匹配现象。

例如ACL3100ACL3009

ACL number 3100

rule 0 permit ip source 2.2.2.2 255.255.0.0

ACL number 3009

rule 0 permit ip source 2.2.2.2 255.255.255.0

当流量的源IP地址为2.2.2.1时,就会同时符合ACL number 3100 ACL number 3009的匹配要求,即发生重叠匹配现象。

2. 查看重叠匹配的ACL所对应的动作是否出现冲突

当查找到有重叠匹配规则的ACL时,则查找ACL对应的动作,如果出现冲突动作则会出现其中一个ACL不生效:

常见的冲突动作包括:

·     redirect动作和filter permit动作冲突时,执行redirect动作。

·     redirect动作filter deny动作冲突时,执行deny动作

·     permit动作deny动作冲突执行先配置的动作。

3. 寻求技术支持

如果完成上述检查后,故障仍无法排除,请通过display diagnostic-information命令收集设备的诊断信息,并联系H3C的技术支持工程师。

<H3C> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y

7.3  利用流量统计分析转发故障的方法

7.3.1  故障描述

出现丢包或转发故障时可以使用ACL规则进行流量统计,以确认出现丢包或流量转发故障的具体位置。

7.3.2  故障处理流程

图18     故障诊断流程图

 

7.3.3  故障处理步骤

1. 确认流量特征

使用抓包工具抓包,并确认出转发异常的流量特征,如IP地址、MAC地址、所属VLAN等。确认的流量特征应尽可能唯一(如目的IP2.2.2.2),以防止异常流量的特征与系统中其它报文特征重叠。

2. 配置流分类策略并下发到端口

图19     流量路径示意图

 

(1)     根据流量特征(如目的IP2.2.2.2)配置流分类策略

19所示,在Device BDevice C分别创建一个即将到来的时间段t1,并配置流分类策略。在设置时间段起点时,请为后续流分类策略的配置预留时间,以保证在时间段开始前已完成各项配置。此处以Device B为例,具体配置过程如下:

<H3C> system-view

System View: return to User View with Ctrl+Z.

[H3C] time-range t1 from 12:00 11/11/2013 to 12:01 11/11/2013

[H3C] acl number 3000 name geliACL

[H3C-acl-adv-3000-geliACL] rule 0 permit ip destination 2.2.2.2 0 time-range t1

[H3C-acl-adv-3000-geliACL] quit

[H3C] traffic classifier count

[H3C-classifier-count] if-match acl 3000

[H3C-classifier-count] quit

[H3C] traffic behavior count

[H3C-behavior-count] accounting

[H3C-behavior-count] quit

[H3C] qos policy count

[H3C-qospolicy-count] classifier count behavior count

(2)     19所示,将流分类策略下发到流量所经过路径的端口上,此处为Device BGigabitEthernet1/0/1端口入方向上与Device CGigabitEthernet2/0/1端口入方向上。配置过程以Device B为例。

[H3C-qospolicy-count] quit

[H3C] interface gigabitethernet 1/0/1

[H3C-GigabitEthernet1/0/1] qos apply policy count inbound

3. 查看端口流量统计计数

1201之后使用display qos policy interface命令分别查看Device BDevice C上目的IP2.2.2.2的流量统计计数。

[H3C-GigabitEthernet1/0/1] display qos policy interface gigabitethernet 1/0/1

 

Interface: GigabitEthernet1/0/1

 

  Direction: Inbound

 

  Direction: Inbound

  Policy: count

   Classifier: count

     Operator: AND

     Rule(s) : If-match ACL 3000

     Behavior: count

      Accounting Enable:

        251 (Packets)

 

[H3C-GigabitEthernet2/0/1] display qos policy interface gigabitethernet 2/0/1

 

Interface: GigabitEthernet2/0/1

 

  Direction: Inbound

 

  Direction: Inbound

  Policy: count

   Classifier: count

     Operator: AND

     Rule(s) : If-match ACL 3000

     Behavior: count

      Accounting Enable:

        50 (Packets)

由流量统计结果可以看出:目的IP2.2.2.2的流量在Device BDevice C之间存在丢包或转发故障。

 

新华三官网
联系我们