• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 关于我们

02-硬件类故障处理指导

目录

07-单板故障

本章节下载 07-单板故障  (358.28 KB)

07-单板故障

1 硬件故障处理

1.1  单板故障

1.1.1  单板状态异常故障

1. 故障描述

·     单板状态异常(比如执行display device命令查看单板状态为Absent、Fault等)。

·     单板出现异常重启、无法启动或不断重启等。

2. 常见原因

本类故障的常见原因主要包括:

·     单板安装不到位。

·     单板损坏。

·     单板面板的指示灯点亮异常。

·     电源模块故障。

·     电源模块输出功率不足。

·     主机软件版本不支持使用该单板。

·     主控板非正常工作状态。

3. 故障分析

本类故障的诊断流程如图1所示。

图1 单板状态异常故障诊断流程图

4. 处理步骤

单板状态Absent

(1)     确认单板是否插稳,如检查单板与机框之间是否有空隙,也可以将单板拔出后重插入。重新插入前务必检查单板的连接器状态,看连接器是否变形、脏污。

(2)     将单板放到别的槽位,将框上别的正常的单板放到这个槽位,进一步确认是不是单板故障。

(3)     检查单板面板的指示灯是否点亮。

(4)     确认电源模块输出功率是否充足。比如增加电源模块,看该单板状态是否恢复正常。

(5)     确认主机软件版本是否支持该单板。

a.     通过display version命令查看主机软件版本;

b.     联系技术支持,确认当前主机软件版本是否支持该单板;

c.     如果当前软件版本不支持该单板,请升级到正确版本,版本升级前务必确认新版本可以兼容其它单板

(6)     如果单板是主控板,连上Console口配置电缆后,使用尖细工具(如笔尖)按单板上的系统复位键(RESET)或通过reboot slot slotid force命令重启单板,查看配置终端上的显示的启动信息是否恢复正常(配置终端无显示或显示乱码均为异常情况),同时查看单板状态指示灯是否恢复正常。正常情况下,配置终端启动后会有类似如下显示信息输出:

System is Starting....

Press Ctrl+D to access BASIC-BOOTWARE MENU

Press Ctrl+T to access BOOTWARE DIAG-TEST MENU

Booting Normal Extend BootWare

 

****************************************************************************

*                                                                          *

*                         BootWare, Version 1.35                           *

*                                                                          *

****************************************************************************

 

Compiled Date         : Dec  9 2021

Memory Type           : DDR4 SDRAM

Memory Size           : 16384MB

Memory Speed          : 2133MHz

flash Size            : 7296MB

CPLD 1 Version        : 4.0

CPLD 2 Version        : 1.0

CPLD 3 Version        : 1.0

PCB 1 Version         : Ver.A

PCB 2 Version         : Ver.A

 

 

BootWare Validating...

Press Ctrl+B to access EXTENDED-BOOTWARE MENU...

Loading the main image files...

Loading file flash:/SYSTEM.bin..............................................

............................................................................

............................................................................

....................................Done.

Loading file flash:/BOOT.bin................................................

............................................................................

............................................................................

............................................................................

................Done.

 

Image file flash:/BOOT.bin is self-decompressing............................

............................................................................

.............................................Done.

System image is starting...

 

Cryptographic algorithms tests passed.

 

Line aux0 is available.

 

Press ENTER to get started.

(7)     如果单板是接口模块,请先确保主控板处于正常工作状态,确保子卡连接器没有变形、脏污。

(8)     如确认为单板故障,请更换单板,收集如下信息,并联系技术支持人员。

¡     上述步骤的执行结果。

¡     设备的配置文件、日志信息、告警信息。

单板状态Fault

(1)     检查整机功耗,整机功耗不够时,单板会进入fault状态。

(2)     等待一段时间(大约10分钟左右)确认下单板是一直Fault还是Normal后又再次重启。如单板是Normal后又自动重启,请收集如下信息,并联系技术支持人员。

¡     上述步骤的执行结果。

¡     设备的配置文件、日志信息、告警信息。

(3)     如果单板是主控板,请连上Console口线,查看配置终端上是否有单板正常启动的显示信息、或单板启动是否异常。如下述主控板启动时出现内存读写测试失败而不断重启,需要检查主控板内存条是否插稳。

readed value is 55555555 , expected value is aaaaaaaa

DRAM test fails at: 080ffff8

DRAM test fails at: 080ffff8

Fatal error! Please reboot the board.

(4)     将单板放到别的槽位,进一步确认是不是槽位故障。

(5)     如确认为单板故障,请更换单板,收集如下信息,并联系技术支持人员。

¡     上述步骤的执行结果。

¡     设备的配置文件、日志信息、告警信息。

单板重启异常

单板重启是指单板出现过重启,而当前单板状态是Normal

(1)     通过日志或运行时间分析重启的时间段,确认重启的时间点附近有无用户通过命令行reboot重启或进行单板上下电等操作。

(2)     display version命令支持查询单板最近一次重启的原因。比如“Last reboot reason”表示单板最近一次重启原因是设备上电。

<Sysname> display version

H3C Comware Software, Version 7.1.075, Release 7751P01

Copyright (c) 2004-2017 New H3C Technologies Co. Ltd. All rights reserved.

H3C xxx uptime is 0 weeks, 0 days, 4 hours, 24 minutes

Last reboot reason : Cold reboot……

(3)     如果所有单板同时出现重启,请检查设备电源模块是否正常,确认外部电源是否出现过停电,电源进线是否插稳、是否出现松动。

(4)     如无法确认,请收集如下信息,并联系技术支持人员。

¡     上述步骤的执行结果。

¡     设备的配置文件、日志信息、告警信息。

5. 告警与日志

相关告警

无。

相关日志

无。

1.1.2  主控板无法启动

1. 故障描述

原有主控板或新加入设备的备用主控板无法启动。

2. 常见原因

本类故障的常见原因主要包括:

·     主控板卡硬件故障导致无法上电。

·     主控板卡BootWare基本段损坏。

·     内存或CPU硬件故障导致BootWare无法运行。

·     APP软件版本丢失、校验失败、与硬件不匹配。

·     备用主控板和原主控板的型号不一致。

·     备用主控板和原主控板的软件版本不一致。

3. 故障分析

原主控板无法启动故障的诊断流程如图2所示。

图2 原主控板无法启动故障诊断流程图

 

新加入设备的备用主控板无法启动故障的诊断流程如图3所示。

图3 新加入设备的备用主控板无法启动故障诊断流程图

 

4. 处理步骤

原主控板无法启动故障的处理步骤如下:

(1)     看主控板运行灯(SYS灯)是否点亮

BootWare基本段启动后,会将运行灯置成绿色快闪,所以这是判断系统能否启动的重要标志。

分以下几种情况处理:

¡     情况1:运行灯快闪

如果设备上电后运行灯以8Hz频率绿色快闪,说明基本段启动正常,则进行步骤2。

¡     情况2:运行灯不亮

若运行灯没有点亮,有两个可能:设备不能上电;BootWare基本段被破坏。

先判断设备是否上电。从主控入风口正面观察,主控板内部是否有绿色闪灯或者常亮灯,也可以经过一段时间后,拔出主控板,检验CPU上的散热片是否有热度。如果没有上电,则检查供电、电源模块,设备硬件故障也可能导致主板不能上电。

如果设备上电正常,则应该是BootWare基本段被破坏,需要返回研发处理。

说明

这里所说的运行灯不亮,是指上电后从来没亮过,如果开始闪了一会儿(超过5秒)后续又灭的,则不算此情况。

 

(2)     检查Bootware是否运行成功

a.     情况1:基本段运行成功

查看是否有如下信息,是则说明基本段运行成功,进入步骤3。

System is Starting....

Press Ctrl+D to access BASIC-BOOTWARE MENU

Press Ctrl+T to access BOOTWARE DIAG-TEST MENU

Booting Normal Extend Bootware

 

****************************************************************************

*                                                                          *

*                         BootWare, Version 0.22                           *

*                                                                          *

****************************************************************************

Copyright (c) 2004-2019 New H3C Technologies Co., Ltd.

 

Compiled Date         : Mar 22 2019

Memory Type           : DDR4 SDRAM

Memory Size           : 8192MB

Memory Speed          : 1866MHz

flash Size            : 3728MB

CPLD Version          : 12.0

PCB Version           : Ver.A

 

 

BootWare Validating...

b.     情况2:没有任何输出信息

可能是内存或CPU本身有问题。进入步骤3。

(3)     查看加载APP是否正常

a.     情况1:APP文件加载、解压成功

显示如下信息,说明APP文件加载、解压成功,进行步骤4。

****************************************************************************

*                                                                          *

*                        BootWare, Version 1.01                            *

*                                                                          *

****************************************************************************

Copyright (c) 2004-2020 New H3C Technologies Co., Ltd.                     

                                                                           

Compiled Date       : Mar  9 2020                                          

CPU Type            : XLP316                                               

CPU Clock Speed     : 1200MHz                                              

Memory Type         : DDR3 SDRAM                                           

Memory Size         : 16384MB                                              

Memory Speed        : 1333MHz                                              

Flash Size          : 8MB                                                  

CPLD Version        : 1.0                                                   

PCB Version         : Ver.B

 

BootWare Validating...

Press Ctrl+B to access EXTENDED-BootWare MENU...                           

Loading the main image files...                                            

Loading file flash:/SYSTEM.bin..................

............................................................................

............................................................................

............................................................................

.................Done.

Loading file flash:/BOOT.bin....................

..Done.

                                                                           

Image file flash:/BOOT.bin is                  

self-decompressing...................................................Done.

b.     情况2:APP不存在

显示如下信息,表示APP文件不存在,需要重新下载APP文件。

****************************************************************************

*                                                                          *

*                        BootWare, Version 1.01                            *

*                                                                          *

****************************************************************************

Copyright (c) 2004-2020 New H3C Technologies Co., Ltd.                     

                                                                           

Compiled Date       : Mar  9 2020                                          

CPU Type            : XLP316                                                

CPU Clock Speed     : 1200MHz                                              

Memory Type         : DDR3 SDRAM                                           

Memory Size         : 16384MB                                              

Memory Speed        : 1333MHz                                              

Flash Size          : 8MB                                                  

CPLD Version        : 1.0                                                   

PCB Version         : Ver.B

 

 

BootWare Validating...

Application program does not exist.

Please input BootWare password:

c.     情况3:APP文件CRC错误

若显示如下信息,表示获取的APP文件发生校验错,请重新下载文件到flash。

****************************************************************************

*                                                                          *

*                        BootWare, Version 1.01                            *

*                                                                          *

****************************************************************************

Copyright (c) 2004-2020 New H3C Technologies Co., Ltd.                     

                                                                           

Compiled Date       : Mar  9 2020                                          

CPU Type            : XLP316                                               

CPU Clock Speed     : 1200MHz                                              

Memory Type         : DDR3 SDRAM                                           

Memory Size         : 16384MB                                               

Memory Speed        : 1333MHz                                              

Flash Size          : 8MB                                                  

CPLD Version        : 1.0                                                   

PCB Version         : Ver.B

 

 

BootWare Validating...

Press Ctrl+B to enter extended boot menu...

Loading file flash:/SYSTEM-.bin..................

............................................................................

............................................................................

............................................................................

Something wrong with the file.

(4)     检查APP启动过程

a.     情况1:没有System包,系统启动之后进入boot界面

Loading the main image files...

Loading file flash:/BOOT.bin....................

...................................Done.

<boot>

这种情况,需要重新下载软件版本

b.     情况2:System image is starting...,一直挂死

c.     情况3:System image is starting...,未进入命令行,反复重启

d.     情况4:提示Press ENTER to get started,但是无法进入命令行

e.     情况5:可以进入命令行,但是一段时间之后自动重启

对于b.c.d.e.情况,可能是硬件故障或者软件版本存在问题,请联系H3C技术服务支持。

新加入设备的备用主控板无法启动故障按如下步骤处理:

(1)     ‍检查新加入主控板是否和原主控板型号一致

同一台设备中的两块主控板型号要求一致。检查两块主控板型号是否一致,如果不一致,更换一块型号一致的主控板插入。

(2)     收集诊断信息

检查主用主控板运行状态,收集诊断信息,寻求技术支持。

(3)     寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

5. 告警与日志

相关告警

无。

相关日志

无。

1.1.3  主控板在使用中发生重启,无法正常启动

1. 故障描述

主控板在使用中发生重启,无法正常启动。

2. 常见原因

本类故障的常见原因主要包括:

·     启动文件损坏。

·     主控板内存单元损坏。

·     单板未完全插入或损坏导致BootWare运行异常。

3. 故障分析

本类故障的诊断流程如图4所示。

图4 故障诊断流程图

 

4. 处理步骤

(1)     检查主控板上的启动文件是否正常

通过Console口登录故障主控板,重新启动设备,如果BootWare提示CRC错误或者找不到启动文件,请重新加载启动文件,并确认Flash中文件大小与服务器上的文件是否一致,如不存在或不一致需重新加载启动文件。加载后请设置该文件为当前启动文件(在BootWare加载过程中,BootWare能自动将该文件设置为当前启动文件)。

(2)     测试主控板内存单元是否正常

如果确认加载的文件大小正确,且设置为当前启动文件也正常。请重新启动单板,同时立即按住CTRL+T,对内存单元进行检测。如果提示内存错误,请更换单板。

(3)     查看Bootware是否依旧提示错误

如果内存检查也正常,但BootWare启动过程中还有错误提示,则根据相关提示初步判断发生故障的器件。检查单板是否插牢。如已插牢则更换单板。

(4)     寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

5. 告警与日志

相关告警

无。

相关日志

无。

1.1.4  主备倒换故障

1. 故障描述

本类故障常见如下三种情况:

·     用reboot命令重启主用主控板时,备用主控板也重启。

·     主、备倒换异常。

2. 常见原因

本类故障的常见原因主要包括:

·     原备用主控板未启动完成的情况下,因重启主用主控而被动变成主用主控板。

·     备用主控板未收到主用主控板的报文而切换成主用主控板。

·     主用主控板自身异常导致重启。

·     主用主控板和备用主控板版本不一致。

3. 故障分析

reboot命令重启主用主控板时,备用主控板也重启,此类故障的诊断流程如图5所示。

图5 故障诊断流程图

 

4. 处理步骤

对于用reboot命令重启主用主控板时备用主控板也重启,此类故障的处理步骤如下:

(1)     在原主用主控板启动完成后,使用ftptftp命令将存储介质中logfile目录下最新的logfile文件上传到文件服务器。

(2)     查看logfile中reboot命令日志(类似Command is reboot slot 0)到上次启动开始(类似SYSLOG_RESTART: System restarted)这段时间是否出现过类似Batch backup of standby board in slot 1 has finished字符串。

a.     如果没出现过,则表示是在原备用主控板未启动完成的情况下,因重启主用主控而被动变成主用主控板,这种情况下备用主控重启属于正常现象,无需处理。下次重启前注意确保备用主控板批量备份完成(即已经出现过类似Batch backup of standby board in slot 1 has finished日志),再用reboot slot命令重启主用主控板。

b.     如果出现过,请联系H3C技术支持人员。

对于主、备倒换异常,此类故障的处理步骤如下:

(3)     通过display system stable state命令收集主用主控、备用主控状态信息:

<H3C> display system stable state

System state     : Stable

Redundancy state : Stable

  Slot    CPU    Role       State

  0       0      Active     Stable

  1       0      Standby    Stable

根据显示信息查看:

¡     双主控的Role是否为Active和Standby。

¡     主用主控、备用主控状态是否Stable。

(4)     通过display boot-loader命令收集主用主控、备用主控版本信息,查看主用主控、备用主控版本是否一致。

5. 故障诊断命令

本章故障诊断所需要的命令如下表所示。

您可以执行如下命令进入Probe视图。

<Sysname> system

[Sysname] probe

[Sysname-probe]

命令

视图

说明

display hardware internal mss slot slot-num information

Probe视图

显示驱动主备倒换模块信息

set hardware internal mss slot slot-num heart-beat rob { disable | enable }

Probe视图

使能或禁止备用主控板抢主

display kernel exception number slot slot-num

任意视图

显示异常信息

display system stable state

任意视图

显示主用主控、备用主控当前状态

display boot-loader

任意视图

显示主用主控、备用主控版本信息

6. 告警与日志

相关告警

无。

相关日志

无。

1.1.5  接口模块无法启动

1. 故障描述

接口模块无法启动。

2. 常见原因

本类故障的常见原因主要包括:

·     供电异常。

·     软件版本不支持该接口模块。

·     接口模块未安装到位。

·     接口模块硬件故障。

·     机框槽位硬件故障。

3. 故障分析

本类故障的诊断流程如图6所示:

图6 故障诊断流程图

4. 处理步骤

(1)     检查接口模块是否上电。

查看接口模块RUN指示灯状态,如果指示灯不亮,说明接口模块可能没有上电,请按如下子步骤进行定位处理。如果上电正常,请执行步骤(2)

a.     查看电源模块指示灯,判断电源模块工作是否正常,如果指示灯异常,请参考“电源模块状态异常”章节进行定位处理。

b.     计算整机功耗情况,查看电源剩余功率是否足够,如果功率不足,请增加电源模块。

(2)     检查软件版本是否支持该接口模块。

在任意视图下执行display version查询设备的软件版本,然后确认当前软件版本是否支持该接口模块。如果不支持,请升级到支持此接口模块的正确版本。版本升级前请务必确认新版本兼容其它单板。

(3)     拔插接口模块。

拉出接口模块,检查连接器是否完好,将其重新插入,保证接口模块安装到位

(4)     将接口模块安装到其它槽位测试能否启动。

如果更换到其它槽位也无法启动,则可能是接口模块故障,请更换新的接口模块进行测试。

如果更换到其它槽位可以正常启动,请将其它可以正常启动的接口模块安装到原故障槽位,如果不能启动,则可能是机箱该槽位故障。

(5)     如果故障仍然未能排除,请收集如下信息,并联系技术支持人员。

¡     上述步骤的执行结果。

¡     设备的配置文件、日志信息、告警信息。

5. 告警与日志

相关告警

相关日志

1.1.6  接口模块在使用中发生重启,无法正常启动

1. 故障描述

接口模块运行过程中发生重启,重启后无法正常启动。

2. 常见原因

本类故障的常见原因主要包括:

·     供电异常。

·     主控板上的启动文件异常。

·     接口模块硬件故障。

·     机框槽位硬件故障。

3. 故障分析

本类故障的诊断流程如图7所示:

图7 故障诊断流程图

4. 处理步骤

(1)     检查电源模块工作是否正常。

查看电源模块指示灯是否正常,电源功率是否满足单板正常运行要求。如果有电源模块工作异常,请参考“电源模块故障处理”章节进行定位处理。

(2)     检查主控板上的启动文件是否正常。

在任意视图下执行display boot-loader命令,查看单板使用的下次启动软件包。在用户视图下执行dir命令,查看启动软件包是否存在,如果不存在或者损坏,请重新获取启动软件包或者设置其它软件包作为该单板的下次启动软件包。

(3)     在接口模块不能启动的槽位插入能够正常工作的接口模块能否正常启动。

如果确认接口模块加载的启动文件正常,在条件允许的情况下,在无法正常启动的接口模块槽位插入其它能够正常工作的接口模块做测试。

如果插入的其它能够正常工作的接口模块能启动,则排除主控板和背板故障,请执行步骤(4)

如果插入的其它能够正常工作的接口模块也不能启动,请更换主控板。

(4)     检查是否有加载记录。

在任意视图下执行display logbuffer命令,检查设备的logbuffer中是否有对应槽位单板的加载记录。

<Sysname> display logbuffer

%Jan 12 19:13:49:513 2022 H3C DEV/4/BOARD_LOADING: -MDC=1; Board in slot 4 is loading software images.

%Jan 12 19:14:01:718 2022 H3C DEV/5/LOAD_FINISHED: -MDC=1; Board in slot 4 has finished loading software images.

如果logbuffer中有对应槽位单板的加载记录,请将接口模块更换到其他槽位看能否正常启动。

如果logbuffer中没有对应槽位单板的加载记录,请执行步骤(5)

(5)     如果故障仍然未能排除,请收集如下信息,并联系技术支持人员。

¡     上述步骤的执行结果。

¡     设备的配置文件、日志信息、告警信息。

5. 告警与日志

相关告警

相关日志

·     DEV/4/BOARD_LOADING

·     DEV/5/LOAD_FINISHED

1.1.7  硬件转发故障(高端路由器)

1. 故障描述

在现网业务中,设备如果正常运行,转发通道是不会丢包的。但是如果某个时间,转发路径出现大量丢包或者直接不通的情况,需要排查内部转发通道是否出现故障。缺省情况下,路由器上已使能互连单板之间的转发通道检查功能,互连的单板之间会定时检测互连的转发通道是否正常。

·     对于CMPE-1104单板、CSPC单板和SPC单板CEPC类单板、CMPE-1104单板和CSPC单板CEPC类单板、MPE-1104单板和SPC单板可以通过display hardware internal hgmonitor info命令用来显示指定槽位单板的指定芯片的转发通道检测记录。

如设备转发链路异常,则显示信息中会有Link状态为down的记录,例如:

[Sysname-probe] display hardware internal hgmonitor info 4 0

  Link status change notice event:

  Unit    Port    Link    Clock                         Number

   0       hg0    up      08:08:03:755732 11/12/2014    1

   0       hg0    down    09:22:23:977918 11/12/2014    2

   0       hg1    up      08:12:19:398227 11/12/2014    1

   0       hg2    up      08:08:05:465720 11/12/2014    1

   0       hg3    up      08:12:21:391922 11/12/2014    1

可以通过查看Link状态为down的时间是否为发生故障的时间,如果时间一样则表示互连链路出现了故障。

·     对于CSPEX-1204单板可以通过display hardware internal forward fpga counter命令用来显示CSPEX-1204单板的转发通道检测记录。

如设备转发链路异常,则显示信息中HG部分会有HG端口状态为down的状态,例如:

[Sysname-probe] display hardware internal forward fpga counter slot 3

……

5 HG

--------------------------------------------------------------------------------

-------------------------

      Value(HEX)           Value(DEC)     |  Address   |             Description

--------------------------------------------------------------------------------

-------------------------

 0x0                 0                    | 0x005D0003 | SEND: HG_0 (DOWN)

 OUT

 0x0                 0                    | 0x00610003 | SEND: HG_1 (UP)

 OUT

 0x0                 0                    | 0x00650003 | SEND: HG_2 (DOWN)

 OUT

 0x0                 0                    | 0x00690003 | SEND: HG_3 (UP)

 OUT

--------------------------------------------------------------------------------

-------------------------

 0x0                 0                    | 0x005D0005 | RECV: HG_0 (DOWN)

 IN

 0x0                 0                    | 0x00610005 | RECV: HG_1 (UP)

 IN

 0x0                 0                    | 0x00650005 | RECV: HG_2 (DOWN)

 IN

 0xA27               2599                 | 0x00690005 | RECV: HG_3 (UP)

 IN

--------------------------------------------------------------------------------

-------------------------

……

·     对于CSPEX类单板、CEPC类单板CSPEX类单板(除CSPEX-1204之外)CSPEX类单板(除CSPEX-1204之外)、CEPC类单板SPE类单板可以通过display hardware internal np serdes fabric status 命令用来显示单板的转发通道检测记录。如设备转发链路异常,则显示信息中HG部分会有HG端口状态为down的状态,例如:

[Sysname-probe] display hardware internal np serdes fabric status slot 18 chip 0

SERDES  STATUS  NP_PORT  IF_NUM  PEER_SLOT  IF_TYPE

20      UP      106      10      23         40GE(UP)

21      UP      106      10      23         40GE(UP)

22      UP      106      10      23         40GE(UP)

23      UP      106      10      23         40GE(UP)

8       DOWN    104      8       23         40GE(DOWN)

9       DOWN    104      8       23         40GE(DOWN)

10      DOWN    104      8       23         40GE(DOWN)

11      DOWN    104      8       23         40GE(DOWN)

 Hg port tuning Record:

 Port     Event         Clock

  10 Tuning_start    09:41:03:039327

  10 Tuning_end(S)   09:41:04:118066

  10 Switch_Route    09:41:24:705325

   8 Tuning_start    09:41:04:118068

   8 Tuning_end(S)   09:41:05:195958

   8 Switch_Route    09:41:24:705327

·     转发链路检测失败,上报综合诊断模块,打印如下信息:

%@169696^Dec 21 16:04:06:987 2017 H3C SWFA/2/SWFA: -Chassis=1-Slot=15; 0x0F1E0000 [3060] :

 HG Monitor check fail: (SrcSlot[15] .SrcChip[0] )-> (DstSlot[10] .DstChip[0] ))

上述信息表示转发链路可能存在故障,上报综合诊断模块进行分析。

%@169696^Dec 21 16:04:06:987 2017 H3C SWFA/2/SWFA: -Chassis=1-Slot=15; 0x0F1E0000 [3060] :

 HG Monitor check Recover: (SrcSlot[15] .SrcChip[0] )-> (DstSlot[10] .DstChip[0] ))

上述信息表示转发链路可能存在故障,上报综合诊断模块进行修复。(仅适用于CSPEX类单板(CSPEX-1104-E和CSPEX-1802X除外)、SPE类单板和CEPC类单板CSPEX类单板(CSPEX-1204、CSPEX-1104-E除外)CSPEX类单板(CSPEX-1204、CSPEX-1104-E和CSPEX-1802X除外)、SPE类单板和CEPC类单板SPE类单板)

%@169696^Dec 21 16:04:06:987 2017 H3C SWFA/2/SWFA: -Chassis=1-Slot=15; 0x0F1E0000 [3060] :

 HG Monitor check clear: (SrcSlot[15] .SrcChip[0] )-> (DstSlot[10] .DstChip[0] ))

上述信息表示转发链路故障已恢复,清除上报综合诊断模块的信息。

%@169694^Dec 21 16:04:06:927 2017 H3C SWFA/2/SWFA: -Chassis=1-Slot=15; 0x0F1E0000 [401] :

 16:04:06:927390 12/21/2017: unit 0 port 23 is isolated by local.

%@169695^Dec 21 16:04:06:859 2017 H3C SWFA/2/FWD: -Chassis=1-Slot=10; 0x0FD93001 [377] :

 16:04:06:859252 12/21/2017: unit 0 port 67 isolated by rpc.

上述信息表示转发链路可能存在故障,上报综合诊断模块对此条链路进行隔离。

%@169694^Dec 21 16:04:06:927 2017 H3C SWFA/2/SWFA: -Chassis=1-Slot=15; 0x0F1E0000 [401] :

 16:04:06:927390 12/21/2017: unit 0 port 23 is fault, not isolated by local.

%@169695^Dec 21 16:04:06:859 2017 H3C SWFA/2/FWD: -Chassis=1-Slot=10; 0x0FD93001 [377] :

 16:04:06:859252 12/21/2017: unit 0 port 67 is fault, not isolated by rpc.

上述信息表示转发链路可能存在故障,且无备份链路,上报综合诊断模块对此条链路进行隔离。

%Aug 13 15:58:18:186 2019 H3C DIAG/4/DIAG_AI: -MDC=1; Board fault: chassis 0 slot 8 or chassis 0 slot 12, please check them

上述输出信息表示多个槽位可能存在故障。

%Aug 13 15:58:18:186 2019 H3C DIAG/4/DIAG_AI: -MDC=1; Board fault: chassis 0 slot 8, please check it

上述输出信息表示单个槽位可能存在故障。

2. 常见原因

本类故障的常见原因主要包括:

·     交换网板故障。

·     业务板故障。

3. 故障分析

本类故障的诊断流程如图8所示:

图8 故障诊断流程图

 

4. 处理步骤

对于SR8800-X路由器,由于主控板和交换网板分离,交换网板负责业务流量转发,流量在多块交换网板之间负载分担,而主控板仅负责控制管理,不参与业务流量转发。

(1)     SR8804-XCR16006-F路由器上使用的是交换网板型号为CSFC-04-1、CSFC-04-2、CSFC-04-3和CSFC-04-4,请直接联系技术支持人员;

(2)     如果流量的入端口和出端口在同一CSPC单板或CMPE-1104单板上,请直接联系技术支持人员;

(3)     如果流量的入端口和出端口在同一SPEX类单板、CSPEX类单板、CEPC类单板CSPEX类单板、CEPC类单板上或者流量的入端口和出端口不在同一单板上,请在系统视图下执行switch-fabric isolate命令逐块隔离交换网板(确保交换网板数量大于等于1,且不能只剩余第二块交换网板),观察交换网板隔离后故障是否消失。以SR8808-XCR16010-F为例说明网板隔离步骤,其中1013槽位为交换网板:

a.     隔离10号槽位交换网板,隔离后等待一段时间(大约等待1分钟),观察故障是否消失。

b.     执行undo switch-fabric isolate命令取消10号槽位交换网板隔离,待网板重启Normal后,再等待一段时间(大约等待3分钟以上),隔离11槽位网板并观察故障是否消失。

c.     按照上面的方法,依次隔离12~13槽位网板,直到所有网板隔离确认一遍。

(4)     如果隔离某块交换网板后故障消失,说明该交换网板故障;如果所有交换网板隔离一遍后故障仍存在,那么应该为接口板故障导致,建议将该接口板上的业务转移到其他接口板之后再通过单板隔离或更换接口板的方式进一步确认。

(5)     如果故障仍然未能排除,请收集如下信息,并联系技术支持人员。

¡     上述步骤的执行结果。

¡     设备的配置文件、日志信息、告警信息。

对于RX8800路由器,由于主控板和交换网板分离,交换网板负责业务流量转发,流量在多块交换网板之间负载分担,而主控板仅负责控制管理,不参与业务流量转发。

(6)     如果流量的入端口和出端口在同一SPE类单板上或者流量的入端口和出端口不在同一单板上,请在系统视图下执行switch-fabric isolate命令逐块隔离交换网板(确保交换网板数量大于等于1,且不能只剩余第二块交换网板),观察交换网板隔离后故障是否消失。以RX8800-08为例说明网板隔离步骤,其中1013槽位为交换网板:

a.     隔离10号槽位交换网板,隔离后等待一段时间(大约等待1分钟),观察故障是否消失。

b.     执行undo switch-fabric isolate命令取消10号槽位交换网板隔离,待网板重启Normal后,再等待一段时间(大约等待3分钟以上),隔离11槽位网板并观察故障是否消失。

c.     按照上面的方法,依次隔离12~13槽位网板,直到所有网板隔离确认一遍。

(7)     如果隔离某块交换网板后故障消失,说明该交换网板故障;如果所有交换网板隔离一遍后故障仍存在,那么应该为接口板故障导致,建议将该接口板上的业务转移到其他接口板之后再通过单板隔离或更换接口板的方式进一步确认。

(8)     如果故障仍然未能排除,请收集如下信息,并联系技术支持人员。

¡     上述步骤的执行结果。

¡     设备的配置文件、日志信息、告警信息。

对于SR8800-X-S路由器,由于没有单独的交换网板,不支持网板隔离命令,请直接联系技术支持人员。

对于上报综合诊断模块,打印的信息的故障处理步骤如下:

(9)     通过display hardware-failure-detection命令查看设备的硬件故障检测和修复信息。

(10)     排查互连两端HG状态是否为正常Up,如果是有互连HG状态是Down,表明存在硬件故障。

(11)     如果故障仍然未能排除,请收集如下信息,并联系技术支持人员。

¡     上述步骤的执行结果。

¡     设备的配置文件、日志信息、告警信息。

5. 告警与日志

相关告警

相关日志

不同款型规格的资料略有差异, 详细信息请向具体销售和400咨询。H3C保留在没有任何通知或提示的情况下对资料内容进行修改的权利!

新华三官网
联系我们