06-单板故障
本章节下载: 06-单板故障 (314.21 KB)
· 单板状态异常(比如执行display device命令查看单板状态为Absent、Abnormal等)。
· 单板出现异常重启、无法启动或不断重启等。
本类故障的常见原因主要包括:
· 单板安装不到位。
· 单板损坏。
· 单板面板的指示灯点亮异常。
· 电源模块故障。
· 电源模块输出功率不足。
· 主机软件版本不支持使用该单板。
· 主控板非正常工作状态。
本类故障的诊断流程如图1-1所示。
(1) 确认单板是否插稳,如检查单板与机框之间是否有空隙,也可以将单板拔出后重插入。重新插入前务必检查单板的连接器状态,看连接器是否变形、脏污。
(2) 将单板放到别的槽位,将框上别的正常的单板放到这个槽位,进一步确认是不是单板故障。
(3) 检查单板面板的指示灯是否点亮。
(4) 确认电源模块输出功率是否充足。比如增加电源模块,看该单板状态是否恢复正常。
(5) 确认主机软件版本是否支持该单板。
a. 通过display version命令查看主机软件版本;
b. 联系技术支持,确认当前主机软件版本是否支持该单板;
c. 如果当前软件版本不支持该单板,请升级到正确版本,版本升级前务必确认新版本可以兼容其它单板。
(6) 如果单板是主控板,连上Console口配置电缆后,使用尖细工具(如笔尖)按单板上的系统复位键(RESET)或通过reboot slot slotid force命令重启单板,查看配置终端上的显示的启动信息是否恢复正常(配置终端无显示或显示乱码均为异常情况),同时查看单板状态指示灯是否恢复正常。正常情况下,配置终端启动后会有类似如下显示信息输出:
System is Starting....
Press Ctrl+D to access BASIC-BOOTWARE MENU
Press Ctrl+T to access BOOTWARE DIAG-TEST MENU
Booting Normal Extend BootWare
****************************************************************************
* *
* BootWare, Version 1.35 *
* *
****************************************************************************
Compiled Date : Dec 9 2021
Memory Type : DDR4 SDRAM
Memory Size : 16384MB
Memory Speed : 2133MHz
flash Size : 7296MB
CPLD 1 Version : 4.0
CPLD 2 Version : 1.0
CPLD 3 Version : 1.0
PCB 1 Version : Ver.A
PCB 2 Version : Ver.A
BootWare Validating...
Press Ctrl+B to access EXTENDED-BOOTWARE MENU...
Loading the main image files...
Loading file flash:/SYSTEM.bin..............................................
............................................................................
............................................................................
....................................Done.
Loading file flash:/BOOT.bin................................................
............................................................................
............................................................................
............................................................................
................Done.
Image file flash:/BOOT.bin is self-decompressing............................
............................................................................
.............................................Done.
System image is starting...
Cryptographic algorithms tests passed.
Line aux0 is available.
Press ENTER to get started.
(7) 如果单板是带有Console口的交换网板,连上Console口配置电缆后,通过执行reboot slot slotid force命令或拔出该单板重新插入设备来重启单板,查看配置终端上的显示信息是否恢复正常,同时查看单板状态指示灯是否恢复正常。
(8) 如果单板是接口模块,请先确保主控板处于正常工作状态,确保子卡连接器没有变形、脏污。
(9) 如确认为单板故障,请更换单板,收集如下信息,并联系技术支持人员。
¡ 上述步骤的执行结果。
¡ 设备的配置文件、日志信息、告警信息。
(1) 检查整机功耗,整机功耗不够时,单板会进入Abnormal状态。
(2) 等待一段时间(大约10分钟左右)确认下单板是一直Abnormal还是Normal后又再次重启。如单板是Normal后又自动重启,请收集如下信息,并联系技术支持人员。
¡ 上述步骤的执行结果。
¡ 设备的配置文件、日志信息、告警信息。
(3) 如果单板是主控板,请连上Console口线,查看配置终端上是否有单板正常启动的显示信息、或单板启动是否异常。如下述主控板启动时出现内存读写测试失败而不断重启,需要检查主控板内存条是否插稳。
readed value is 55555555 , expected value is aaaaaaaa
DRAM test fails at: 080ffff8
DRAM test fails at: 080ffff8
Fatal error! Please reboot the board.
(4) 将单板放到别的槽位,进一步确认是不是槽位故障。
(5) 如确认为单板故障,请更换单板,收集如下信息,并联系技术支持人员。
¡ 上述步骤的执行结果。
¡ 设备的配置文件、日志信息、告警信息。
单板重启是指单板出现过重启,而当前单板状态是Normal。
(1) 通过日志或运行时间分析重启的时间段,确认重启的时间点附近有无用户通过命令行reboot重启或进行单板上下电等操作。
(2) display version命令支持查询单板最近一次重启的原因。比如“Last reboot reason”表示单板最近一次重启原因是设备上电。
<Sysname> display version
H3C Comware Software, Version 7.1.075, Release 7751P01
Copyright (c) 2004-2017 New H3C Technologies Co. Ltd. All rights reserved.
H3C xxx uptime is 0 weeks, 0 days, 4 hours, 24 minutes
Last reboot reason : Cold reboot……
(3) 如果所有单板同时出现重启,请检查设备电源模块是否正常,确认外部电源是否出现过停电,电源进线是否插稳、是否出现松动。
(4) 如无法确认,请收集如下信息,并联系技术支持人员。
¡ 上述步骤的执行结果。
¡ 设备的配置文件、日志信息、告警信息。
无。
无。
原有主控板或新加入设备的备用主控板无法启动。
本类故障的常见原因主要包括:
· 主控板卡硬件故障导致无法上电。
· 主控板卡BootWare基本段损坏。
· 内存或CPU硬件故障导致BootWare无法运行。
· APP软件版本丢失、校验失败、与硬件不匹配。
· 备用主控板和原主控板的型号不一致。
· 备用主控板和原主控板的软件版本不一致。
原主控板无法启动故障的诊断流程如图1-2所示。
新加入设备的备用主控板无法启动故障的诊断流程如图1-3所示。
原主控板无法启动故障的处理步骤如下:
(1) 查看主控板运行灯(RUN灯)是否点亮
BootWare基本段启动后,会将运行灯置成常亮,所以这是判断系统能否启动的重要标志。
分以下几种情况处理:
¡ 情况1:运行灯慢闪
如果设备上电后运行灯以1Hz频率绿色慢闪,说明基本段启动正常,则进行步骤2。
¡ 情况2:运行灯不亮
若运行灯没有点亮,有两个可能:设备不能上电;BootWare基本段被破坏。
先判断设备是否上电。从主控入风口正面观察,主控板内部是否有绿色闪灯或者常亮灯,也可以经过一段时间后,拔出主控板,检验CPU上的散热片是否有热度。如果没有上电,则检查供电、电源模块,设备硬件故障也可能导致主板不能上电。
如果设备上电正常,则应该是BootWare基本段被破坏,需要返回研发处理。
这里所说的运行灯不亮,是指上电后从来没亮过,如果开始闪了一会儿(超过5秒)后续又灭的,则不算此情况。
(2) 检查Bootware是否运行成功
a. 情况1:基本段运行成功
查看是否有如下信息,是则说明基本段运行成功,进入步骤3。
System is Starting....
Press Ctrl+D to access BASIC-BOOTWARE MENU
Press Ctrl+T to access BOOTWARE DIAG-TEST MENU
Booting Normal Extend Bootware
****************************************************************************
* *
* BootWare, Version 0.22 *
* *
****************************************************************************
Copyright (c) 2004-2019 New H3C Technologies Co., Ltd.
Compiled Date : Mar 22 2019
Memory Type : DDR4 SDRAM
Memory Size : 8192MB
Memory Speed : 1866MHz
flash Size : 3728MB
CPLD Version : 12.0
PCB Version : Ver.A
BootWare Validating...
b. 情况2:没有任何输出信息
可能是内存或CPU本身有问题。进入步骤3。
(3) 查看加载APP是否正常
a. 情况1:APP文件加载、解压成功
显示如下信息,说明APP文件加载、解压成功,进行步骤4。
****************************************************************************
* *
* BootWare, Version 0.22 *
* *
****************************************************************************
Copyright (c) 2004-2019 New H3C Technologies Co., Ltd.
Compiled Date : Mar 22 2019
Memory Type : DDR4 SDRAM
Memory Size : 8192MB
Memory Speed : 1866MHz
flash Size : 3728MB
CPLD Version : 12.0
PCB Version : Ver.A
BootWare Validating...
Press Ctrl+B to access EXTENDED-BOOTWARE MENU...
Loading the main image files...
Loading file flash:/ra5300rsu3xx-cmw710-system-e0801.bin...
.................
............................................................................
.......Done.
Loading file flash:/ra5300rsu3xx-cmw710-boot-e0801.bin.....................
Done.
Image file flash:/ra5300rsu3xx-cmw710-boot-e0801.bin is
self-decompressing...................Done.
b. 情况2:APP不存在
显示如下信息,表示APP文件不存在,需要重新下载APP文件。
****************************************************************************
* *
* BootWare, Version 0.22 *
* *
****************************************************************************
Copyright (c) 2004-2019 New H3C Technologies Co., Ltd.
Compiled Date : Mar 22 2019
Memory Type : DDR4 SDRAM
Memory Size : 8192MB
Memory Speed : 1866MHz
flash Size : 3728MB
CPLD Version : 12.0
PCB Version : Ver.A
BootWare Validating...
Application program does not exist.
Please input BootWare password:
c. 情况3:APP文件CRC错误
若显示如下信息,表示获取的APP文件发生校验错,请重新下载文件到flash。
****************************************************************************
* *
* BootWare, Version 0.22 *
* *
****************************************************************************
Copyright (c) 2004-2019 New H3C Technologies Co., Ltd.
Compiled Date : Mar 22 2019
Memory Type : DDR4 SDRAM
Memory Size : 8192MB
Memory Speed : 1866MHz
flash Size : 3728MB
CPLD Version : 12.0
PCB Version : Ver.A
BootWare Validating...
Press Ctrl+B to enter extended boot menu...
Loading file flash:/SYSTEM-.bin..................
............................................................................
............................................................................
............................................................................
Something wrong with the file.
(4) 检查APP启动过程
a. 情况1:没有System包,系统启动之后进入boot界面
Loading the main image files...
Loading file flash:/BOOT.bin....................
...................................Done.
<boot>
这种情况,需要重新下载软件版本
b. 情况2:System image is starting...,一直挂死
c. 情况3:System image is starting...,未进入命令行,反复重启
d. 情况4:提示Press ENTER to get started,但是无法进入命令行
e. 情况5:可以进入命令行,但是一段时间之后自动重启
对于b.c.d.e.情况,可能是硬件故障或者软件版本存在问题,请联系H3C技术服务支持。
新加入设备的备用主控板无法启动故障按如下步骤处理:
(1) 检查新加入主控板是否和原主控板型号一致
同一台设备中的两块主控板型号要求一致。检查两块主控板型号是否一致,如果不一致,更换一块型号一致的主控板插入。
(2) 收集诊断信息
检查主用主控板运行状态,收集诊断信息,寻求技术支持。
(3) 寻求技术支持
如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。
无。
无。
主控板在使用中发生重启,无法正常启动。
本类故障的常见原因主要包括:
· 启动文件损坏。
· 主控板内存单元损坏。
· 单板未完全插入或损坏导致BootWare运行异常。
本类故障的诊断流程如图1-4所示。
(1) 检查主控板上的启动文件是否正常
通过Console口登录故障主控板,重新启动设备,如果BootWare提示CRC错误或者找不到启动文件,请重新加载启动文件,并确认Flash中文件大小与服务器上的文件是否一致,如不存在或不一致需重新加载启动文件。加载后请设置该文件为当前启动文件(在BootWare加载过程中,BootWare能自动将该文件设置为当前启动文件)。
(2) 测试主控板内存单元是否正常
如果确认加载的文件大小正确,且设置为当前启动文件也正常。请重新启动单板,同时立即按住CTRL+T,对内存单元进行检测。如果提示内存错误,请更换单板。
(3) 查看Bootware是否依旧提示错误
如果内存检查也正常,但BootWare启动过程中还有错误提示,则根据相关提示初步判断发生故障的器件。检查单板是否插牢。如已插牢则更换单板。
(4) 寻求技术支持
如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。
无。
无。
本类故障常见如下三种情况:
· 用reboot命令重启主用主控板时,备用主控板也重启。
· 主、备倒换异常。
本类故障的常见原因主要包括:
· 原备用主控板未启动完成的情况下,因重启主用主控而被动变成主用主控板。
· 备用主控板未收到主用主控板的报文而切换成主用主控板。
· 主用主控板自身异常导致重启。
· 主用主控板和备用主控板版本不一致。
用reboot命令重启主用主控板时,备用主控板也重启,此类故障的诊断流程如图1-5所示。
对于用reboot命令重启主用主控板时备用主控板也重启,此类故障的处理步骤如下:
(1) 在原主用主控板启动完成后,使用ftp或tftp命令将存储介质中logfile目录下最新的logfile文件上传到文件服务器。
(2) 查看logfile中reboot命令日志(类似Command is reboot slot 0)到上次启动开始(类似SYSLOG_RESTART: System restarted)这段时间是否出现过类似Batch backup of standby board in slot 1 has finished字符串。
a. 如果没出现过,则表示是在原备用主控板未启动完成的情况下,因重启主用主控而被动变成主用主控板,这种情况下备用主控重启属于正常现象,无需处理。下次重启前注意确保备用主控板批量备份完成(即已经出现过类似Batch backup of standby board in slot 1 has finished日志),再用reboot slot命令重启主用主控板。
b. 如果出现过,请联系H3C技术支持人员。
对于主、备倒换异常,此类故障的处理步骤如下:
(3) 通过display system stable state命令收集主用主控、备用主控状态信息:
<H3C> display system stable state
System state : Stable
Redundancy state : Stable
Slot CPU Role State
0 0 Active Stable
1 0 Standby Stable
根据显示信息查看:
¡ 双主控的Role是否为Active和Standby。
¡ 主用主控、备用主控状态是否Stable。
(4) 通过display boot-loader命令收集主用主控、备用主控版本信息,查看主用主控、备用主控版本是否一致。
本章故障诊断所需要的命令如下表所示。
您可以执行如下命令进入Probe视图。
<Sysname> system
[Sysname] probe
[Sysname-probe]
|
命令 |
视图 |
说明 |
|
display kernel exception number slot slot-num |
任意视图 |
显示异常信息 |
|
display system stable state |
任意视图 |
显示主用主控、备用主控当前状态 |
|
display boot-loader |
任意视图 |
显示主用主控、备用主控版本信息 |
无。
无。
接口模块无法启动。
本类故障的常见原因主要包括:
· 供电异常。
· 软件版本不支持该接口模块。
· 接口模块未安装到位。
· 接口模块硬件故障。
· 机框槽位硬件故障。
本类故障的诊断流程如图1-6所示:
(1) 检查接口模块是否上电。
查看接口模块RUN指示灯状态,如果指示灯不亮,说明接口模块可能没有上电,请按如下子步骤进行定位处理。如果上电正常,请执行步骤(2)。
a. 查看电源模块指示灯,判断电源模块工作是否正常,如果指示灯异常,请参考“电源模块状态异常”章节进行定位处理。
b. 计算整机功耗情况,查看电源剩余功率是否足够,如果功率不足,请增加电源模块。
在任意视图下执行display version,查询设备的软件版本,然后确认当前软件版本是否支持该接口模块。如果不支持,请升级到支持此接口模块的正确版本。版本升级前请务必确认新版本兼容其它单板。
(3) 拔插接口模块。
拉出接口模块,检查连接器是否完好,将其重新插入,保证接口模块安装到位。
(4) 将接口模块安装到其它槽位测试能否启动。
如果更换到其它槽位也无法启动,则可能是接口模块故障,请更换新的接口模块进行测试。
如果更换到其它槽位可以正常启动,请将其它可以正常启动的接口模块安装到原故障槽位,如果不能启动,则可能是机箱该槽位故障。
(5) 如果故障仍然未能排除,请收集如下信息,并联系技术支持人员。
¡ 上述步骤的执行结果。
¡ 设备的配置文件、日志信息、告警信息。
无
无
接口模块运行过程中发生重启,重启后无法正常启动。
本类故障的常见原因主要包括:
· 供电异常。
· 主控板上的启动文件异常。
· 接口模块硬件故障。
· 机框槽位硬件故障。
本类故障的诊断流程如图1-7所示:
(1) 检查电源模块工作是否正常。
查看电源模块指示灯是否正常,电源功率是否满足单板正常运行要求。如果有电源模块工作异常,请参考“电源模块故障处理”章节进行定位处理。
(2) 检查主控板上的启动文件是否正常。
在任意视图下执行display boot-loader命令,查看单板使用的下次启动软件包。在用户视图下执行dir命令,查看启动软件包是否存在,如果不存在或者损坏,请重新获取启动软件包或者设置其它软件包作为该单板的下次启动软件包。
(3) 在接口模块不能启动的槽位插入能够正常工作的接口模块能否正常启动。
如果确认接口模块加载的启动文件正常,在条件允许的情况下,在无法正常启动的接口模块槽位插入其它能够正常工作的接口模块做测试。
如果插入的其它能够正常工作的接口模块能启动,则排除主控板和背板故障,请执行步骤(4)。
如果插入的其它能够正常工作的接口模块也不能启动,请更换主控板。
在任意视图下执行display logbuffer命令,检查设备的logbuffer中是否有对应槽位单板的加载记录。
<Sysname> display logbuffer
%Jan 12 19:13:49:513 2022 H3C DEV/4/BOARD_LOADING: -MDC=1; Board in slot 4 is loading software images.
%Jan 12 19:14:01:718 2022 H3C DEV/5/LOAD_FINISHED: -MDC=1; Board in slot 4 has finished loading software images.
如果logbuffer中有对应槽位单板的加载记录,请将接口模块更换到其他槽位看能否正常启动。
如果logbuffer中没有对应槽位单板的加载记录,请执行步骤(5)。
(5) 如果故障仍然未能排除,请收集如下信息,并联系技术支持人员。
¡ 上述步骤的执行结果。
¡ 设备的配置文件、日志信息、告警信息。
无
· DEV/4/BOARD_LOADING
· DEV/5/LOAD_FINISHED
不同款型规格的资料略有差异, 详细信息请向具体销售和400咨询。H3C保留在没有任何通知或提示的情况下对资料内容进行修改的权利!
