手册下载
H3C 交换机通用应急故障处理手册-6W100-整本手册.pdf (633.54 KB)
H3C 交换机通用应急故障处理手册
资料版本:6W100-20250919
Copyright © 2025 新华三技术有限公司 版权所有,保留一切权利。
非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。
除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。
本文档中的信息可能变动,恕不另行通知。
本文档介绍当设备或系统发生紧急事故,导致重要业务或大面积业务出现故障时,维护人员可以参考采取的应急故障处理措施,以尽快恢复设备或系统的正常运行。
应急维护是指设备或系统发生紧急事故,如突然断电、设备业务中断时,为迅速排除故障、恢复设备或系统的正常运行、尽量挽回或减少事故损失而进行的一种突发性故障处理措施。
另外,应急维护可以在已知的大业务量到来之前,为设备维护人员提供应急指导,采取有针对性的预防措施,防止超大业务量导致的系统故障,从而维持整个系统的正常运行。
应急故障处理针对突然发生的、影响范围大、并对网络的安全运行与服务质量造成严重后果的事故。
表1-1 故障类型定位
|
故障类型 |
说明 |
定位策略 |
处理策略 |
|
紧急故障 |
会引起所有或部分业务中断的故障。包括以下几类: · 整机异常,导致所有业务中断 · 主控板/网板异常,导致所有业务中断 · 业务板异常,导致部分业务中断 · 单板接口异常,导致接口上的业务中断 |
快速定位故障所在的组件或者模块 |
立即恢复业务并定位故障的根本原因 |
|
非紧急故障 |
限制业务运行或对业务无影响但对系统的长期可靠运行存在潜在威胁的故障 |
进行例行维护以及日常维护,同时分析日志和错误信息 |
根据故障原因修复故障,可参见产品故障处理手册或维护手册 |
发生紧急故障的主要原因包括软硬件问题、数据设置不合理、维护操作不当、传输线路不稳定、自然灾害等。应急维护的来源包括:
· 用户申诉
用户或客户服务中心申告的故障是应急维护的主要来源,如果该故障满足“应急故障界定”中的条件,则应启动应急维护流程。
· 告警输出
查看网管告警系统或命令行终端的告警输出,如果该告警可能导致大面积用户故障,则应启动应急维护流程。
· 自然灾害
在地震、水灾、火灾等自然灾害发生时,为了保护设备不受损坏,需要对设备暂时断电,等到灾害过后再恢复供电,此时需要启动应急维护流程。
紧急故障具有危害大、后果严重的特点。应急维护以快速恢复业务和设备的正常运行为核心。
应急维护准备工作:
· 应急维护人员需及时制定各种紧急故障的处理预案,并定期进行故障应急演练以提高应急处理能力。
· 应急维护人员必须接受必要的应急维护培训,掌握紧急故障的定位和处理技能。
· 有完善的监控监管平台,以便及时发现问题。
维护人员处理故障时,请遵循以下注意事项:
· 应遵循故障处理流程先定位故障所在位置,如果是本产品引起的故障,请参照紧急故障处理预案或参考本手册中的相关流程进行故障处理。
· 请及时采集与本次故障有关的告警信息,并将相关的故障处理报告、设备告警文件、日志文件等发送给H3C技术支持工程师分析与定位,以便更好地提供售后服务。
· 故障恢复后应视情况观察一段时间确认业务无异常。
为了保证在应急维护过程中人身和设备的安全,请仔细阅读并执行以下安全规范。
在操作单板或背板前请佩戴好防静电腕带或手套,并遵守以下操作要求:
· 更换前和更换后的单板都必须装在防静电屏蔽袋中。
· 更换单板时,如果是主用主控板,需要先进行主备倒换,长按主用主控板的RESET按钮直到ACTIVE灯常亮后松开按钮,此时主用主控板变成备用主控板后,才可以拔出原主用主控板。
· 更换其他单板时,相关注意事项和操作指导请参见各款型安装指导中的“更换模块”。
在维护带光模块或光接口的设备时,请遵守以下操作要求:
· 只有通过培训获得授权的专业人员才可以操作设备的光模块和光纤。
· 在操作光纤时,请佩戴护目镜,严禁肉眼沿光束反向直视光纤。同时注意保持光纤头的洁净且不要折叠或小角度的折弯光纤。
· 在更换光模块时,请佩戴护目镜,严禁肉眼沿光束反向直视光纤接头。
您可通过以下方式联系H3C客户服务中心或H3C驻当地办事处,获取技术支持。
用户支持邮箱:[email protected]
技术支持热线电话:400-810-0504
· 网络维护人员处理紧急故障过程中,请详细地记录每一步操作内容及操作所产生的现象,这是向新华三技术有限公司申请技术支持的基础,可以缩短处理紧急故障的时间。
· 如果故障一时难以排除,请及时联系H3C技术支持。其联系方式请参见“技术支持”。
网络维护人员处理紧急故障的核心指导思想是快速恢复设备的运行,并且正常提供业务,其总体处理流程如图2-1所示。
当网络中出现紧急故障时,网络维护人员应及时了解故障现象及影响范围,对于及时恢复网络服务、保障业务运行至关重要:
· 了解故障现象可以帮助网络维护人员快速定位和诊断问题,从而更快地采取正确的应对措施。
· 了解故障的影响范围可以帮助网络维护人员评估故障对网络运行的影响,及时通知相关用户和部门,以减少故障带来的影响和损失,保障网络运行的连续性和稳定性。
了解故障现象及影响范围的方法主要包括以下几点:
· 用户反馈:积极收集用户或终端用户的反馈。
· 设备状态:观测设备、单板、电源、风扇、光模块等硬件的状态。
· 监控系统:使用网络监控系统可以实时监测网络设备和服务的状态。
· 设备信息分析:监测网络设备和系统产生的日志、告警或者诊断信息。
· 网络拓扑图和文档:查阅相关文档,分析网络结构和设备间的依赖关系。
当网络中出现紧急故障时,网络维护人员应及时向H3C通告,以便H3C能以最快的速度提供相应的技术支援服务。
即使网络维护人员在本文档的指导下,可以自行完成应急维护,也应将紧急故障通告H3C,H3C将对紧急故障的相关信息进行分析记录,以便后续可以提供更好的服务。
当网络中出现紧急故障时,网络维护人员应快速收集故障基本信息,初步判断故障原因,使业务快速恢复。收集故障基本信息的方法,请参见“3.1 收集故障基本信息”。
故障基本信息包括:
· 设备信息
· 系统版本信息
· 已生效配置
· 路由信息
· 告警和日志信息
· 其他关键信息
在应急维护过程中,通常可以通过图2-2所示的流程判断故障的类型,然后采取相应的处理措施,判断方法可参见表2-1。
|
判断项 |
判断方法 |
|
可以串口登录 |
PC(或终端)的串口与设备的Console口连接,并在终端上配置好相应的通信参数,检查终端窗口是否有显示。详细介绍及操作,请参见《配置指导》中“登录设备配置” |
|
系统启动正常 |
在终端上监控系统启动过程,检查系统是否正常启动完成,出现用户视图的命令行提示符,如“<Sysname>” |
|
单板状态正常 |
· 在终端窗口任意视图下,使用display device命令检查所有单板的状态是否为“Normal” · 检查单板硬件指示灯的状态 如果是局部故障,可重点检查用户所连接的业务单板状态 |
|
电源状态正常 |
· 在终端窗口任意视图下,使用display power命令检查电源的状态是否为“Normal” · 检查电源硬件的状态 |
|
风扇状态正常 |
· 在终端窗口任意视图下,使用display fan命令检查风扇的状态是否为“Normal” · 检查风扇硬件的状态 |
|
接口状态正常 |
· 在终端窗口任意视图下,使用display interface命令检查接口状态是否为“UP”,以及一段时间内接口上的收发包数是否有增长 · 检查接口、光模块、线缆等硬件的状态 |
|
业务故障 |
1. 检查用户连接状态 2. 验证用户业务路由 3. 使用网络分析工具,跟踪数据包 |
|
设备故障 |
检查设备软件、硬件、版本、当前的工作状态、配置设备运行等相关参数,详细介绍及操作,请参见《配置指导》中“设备管理配置” |
当判断出故障类型后,可参考“故障定位及恢复”进行应急维护:
· 主控板无法启动
· 业务板无法启动
· 电源模块状态异常
· 风扇模块状态异常
· 端口不接收报文
· 光口不UP故障
若无法定位紧急故障的原因,无法采取合理且有效措施,请您向H3C寻求技术支持。具体联系方式请参见“技术支持”。
解决紧急故障后,为了保障网络中用户业务持续性、稳定性地运行,可以采取如下措施:
· 检查设备、单板、电源、风扇、光模块等各指示灯的状态。
· 任意视图下,使用display alarm、display alarm active、display alarm history命令显示告警信息。
· 任意视图下,使用display logbuffer命令显示日志缓冲区的状态和日志缓冲区记录的日志信息。
· 安排网络维护人员值守到业务高峰时段,若再出现紧急故障,可以在第一时间进行处理。
为了定位故障根本原因并解决网络中的复杂故障,彻底消除网络中的隐患,预防网络事故再次发生,网络维护人员需要收集故障详细信息,H3C技术支持将给予服务支援。收集故障详细信息的方法,请参见“3.4 收集故障详细信息并定位故障根本原因”。
故障详细信息包括:
· 诊断信息
· 日志信息
· 网络拓扑信息
为方便故障快速定位,建议不要关闭设备的信息中心(info-center enable),缺省情况下信息中心处于开启状态。
当发生紧急故障时,业务影响范围较广,需要收集故障信息作为处理故障的参考,或者将故障信息提供给H3C技术支持人员,以便进行故障定位,及时排除故障。
收集故障基本信息的主要内容包括以下几种:
· 检查设备、单板、电源、风扇、光模块等各指示灯的状态。
· 收集设备信息
任意视图下,使用display device命令显示设备信息。
· 收集系统版本信息
任意视图下,使用display version命令显示系统版本信息。
· 收集设备生效的配置
任意视图下,使用display current-configuration命令显示设备生效的配置。
· 收集指定目的地址的路由信息
任意视图下,使用display ip routing-table ip-address命令显示指定目的地址的路由信息。
· 收集指定目的地址范围内的路由信息
任意视图下,使用display ip routing-table ip-address1 to ip-address2命令显示指定目的地址范围内的路由信息。
· 收集告警信息
任意视图下,使用display alarm、display alarm active、display alarm history命令显示告警信息。
· 收集日志信息
任意视图下,使用display logbuffer命令显示日志缓冲区的状态和日志缓冲区记录的日志信息。
设备上电启动时,配置终端无显示或显示乱码。
本类故障的常见原因主要包括:
· 电源工作异常。
· 主控板工作异常。
· 配置电缆未连接到设备/主控板的配置口。
· 配置终端参数设置错误。
· 配置电缆故障。
本类故障的诊断流程如图3-1所示:
(1) 检查电源工作是否正常。
如果电源模块指示灯状态异常,请参见“电源模块状态异常”章节进行处理。
(2) 检查主控板工作是否正常。
如果主控板指示灯状态异常,请参见“主控板无法启动”章节排查主控板故障问题。
(3) 检查配置电缆是否已经连接到设备/主控板的配置口。
(4) 检查配置终端COM口连接是否正确,实际选择的串口与终端设置的串口要一致,串口参数设置是否正确。
串口参数如下:波特率为9600,数据位为8,奇偶校验为无,停止位为1,流量控制为无,选择终端仿真为VT100。不同设备配置的串口参数请以设备实际情况为准。
(5) 更换配置电缆。
(6) 如果故障仍然未能排除,请收集如下信息,并联系技术支持人员。
¡ 上述步骤的执行结果。
¡ 设备的配置文件、日志信息、告警信息。
无
无
主控板无法启动。
本类故障的常见原因主要包括:
· 主控板硬件故障导致无法上电。
· 主控板BootWare基本段损坏。
· 内存或CPU硬件故障导致BootWare无法运行。
· 启动文件丢失、校验失败、与硬件不匹配。
本类故障的诊断流程如图3-2所示:
(1) 查看主控板运行灯(RUN灯)是否点亮。
BootWare基本段启动后,会立刻将运行灯置成快闪,所以这是判断系统能否启动的重要标志。
表3-1 主控板运行灯状态及含义
|
指示灯 |
状态 |
说明 |
|
RUN |
绿色常灭 |
表示单板故障或单板不在位 |
|
绿色4Hz闪烁 |
表示软件加载下载过程中 |
|
|
绿色0.5Hz闪烁 |
表示单板正常工作 |
(2) 如果设备上电后运行灯以4Hz频率快闪,说明基本段启动正常,请执行步骤(4)。
(3) 如果运行灯没有点亮,可能是设备未上电或者BootWare基本段被破坏,请按如下子步骤进行定位处理。
a. 先判断设备是否上电。从主控入风口正面观察,主控板内部是否有绿灯闪烁或者常亮,也可以经过一段时间后,拔出主控板,检验CPU上的散热片是否有热度。
b. 如果没有上电,则检查供电、电源模块,设备硬件故障也可能导致主板不能上电。
c. 如果设备上电正常,则应该是BootWare基本段被破坏,需要返回研发处理。
· 这里所说的运行灯不亮,是指上电后从来没亮过,如果开始闪了一会儿(超过5秒)后续又灭的,则不算此情况。
· 一上电运行灯就常亮或慢闪(1Hz频率)是基本不可能的,若出现则为硬件故障。
· 此处指示灯状态仅表示大多数主控板的情况,具体各主控板的指示灯状态请参见其安装手册。
(4) 检查BootWare是否运行成功。
查看是否有如下信息,是则说明基本段运行成功,请执行步骤(5)。
System is starting...
Booting Normal Extended BootWare
****************************************************************************
* *
* H3C S9850 BOOTROM, Version 061 *
* *
****************************************************************************
Copyright (c) 2004-2020 New H3C Technologies Co., Ltd.
Compiled Date : Sep 17 2018 14:37:13
CPU Type : C2538
CPU Clock Speed : 1200MHz
Memory Type : DDR3 SDRAM
Memory Size : 16384MB
Memory Speed : 1333MHz
Flash Size : 8MB
CPLD Version : 1.0
PCB Version : Ver.B
BootWare Validating...
如果没有任何输出信息,可能是内存或CPU本身有问题,请执行步骤(7)。
情况1:启动文件加载、解压成功
显示如下信息,说明APP文件加载、解压成功,请执行步骤(6)。
****************************************************************************
* *
* H3C S9850 BOOTROM, Version 061 *
* *
****************************************************************************
Copyright (c) 2004-2018 New H3C Technologies Co., Ltd.
Compiled Date : Sep 17 2018 14:37:13
CPU Type : C2538
CPU Clock Speed : 2400MHz
Memory Type : DDR3 SDRAM
Memory Size : 8192MB
Memory Speed : 1333MHz
Flash Size : 3630MB
CPLD Version : 8.0
PCB Version : Ver.0
BootWare Validating...
Press Ctrl+B to access EXTENDED-BOOTWARE MENU...
Loading the main image files...
Loading file flash:/S12500R-CMW910-SYSTEM-D5202P14.bin......................
............................................................................
............................................................................
............................................................................
............................................................................
...................................Done.
Loading file flash:/S12500R-CMW910-BOOT-D5202P14.bin........................
............................................................................
............................................................................
............................................................................
............................................................................
............................................................................
........Done.
Image file flash:/S12500R-CMW910-BOOT-D5202P14.bin is self-decompressing....
............................................................................
.......................................................................
Done.
System image is starting...
Cryptographic algorithms tests passed.
情况2:启动文件不存在
显示如下信息,表示启动文件不存在,需要重新下载启动文件。
****************************************************************************
* *
* H3C S9850 BOOTROM, Version 061 *
* *
****************************************************************************
Copyright (c) 2004-2018 New H3C Technologies Co., Ltd.
Compiled Date : Sep 17 2018 14:37:13
CPU Type : C2538
CPU Clock Speed : 2400MHz
Memory Type : DDR3 SDRAM
Memory Size : 8192MB
Memory Speed : 1333MHz
Flash Size : 3630MB
CPLD Version : 8.0
PCB Version : Ver.0
BootWare Validating...
Application program does not exist.
Please input BootWare password:
情况3:启动文件CRC错误
若显示如下信息,表示获取的启动文件发生校验错误,请重新下载文件到存储介质中。
****************************************************************************
* *
* H3C S9850 BOOTROM, Version 061 *
* *
****************************************************************************
Copyright (c) 2004-2018 New H3C Technologies Co., Ltd.
Compiled Date : Sep 17 2018 14:37:13
CPU Type : C2538
CPU Clock Speed : 2400MHz
Memory Type : DDR3 SDRAM
Memory Size : 8192MB
Memory Speed : 1333MHz
Flash Size : 3630MB
CPLD Version : 8.0
PCB Version : Ver.0
BootWare Validating...
Press Ctrl+B to access EXTENDED-BOOTWARE MENU...
Loading the main image files...
Loading file flash:/S12500R-CMW910-SYSTEM-D5202P14.bin......................
............................................................................
............................................................................
Something wrong with the file.
情况1:缺少System包,系统启动后进入Boot界面
Loading the main image files...
Loading file flash:/S12500R-CMW910-SYSTEM-D5202P14.bin......................
...................................Done.
<boot>
这种情况,需要重新下载软件版本。
情况2:System image is starting...,一直挂死
情况3:System image is starting...,未进入命令行,反复重启
情况4:提示Press ENTER to get started,但无法进入命令行
情况5:可以进入命令行,但是一段时间之后自动重启
对于情况2~5,可能是硬件故障或者软件版本存在问题,请执行步骤(7)。
(7) 如果故障仍然未能排除,请收集如下信息,并联系技术支持人员。
¡ 上述步骤的执行结果。
¡ 设备的配置文件、日志信息、告警信息。
无
无
设备原有一块主控板,新加入一块主控板作为备用主控板,新加入的主控板无法启动。
本类故障的常见原因主要包括:
· 备用主控板和原主控板的型号不一致。
· 备用主控板和原主控板的版本不一致。
本类故障的诊断流程如图3-3所示:
(1) 检查新加入主控板是否和原主控板型号一致。
同一台设备中的两块主控板型号要求一致,可通过主控板面板上的丝印进行判断,如果不一致,更换一块型号一致的主控板插入。
(2) 检查新加入主控板是否和原主控板版本一致。
连接备用主控板的Console口,查看启动时备用主控板加载的系统软件版本是否和主用主控板一致。如果不一致,请在BootWare菜单里升级备用主控板的版本。
(3) 如果故障仍然未能排除,请收集如下信息,并联系技术支持人员。
¡ 上述步骤的执行结果。
¡ 设备的配置文件、日志信息、告警信息。
无
无
主控板在使用中发生重启,无法正常启动。
本类故障的常见原因主要包括:
· 启动文件损坏。
· 主控板内存单元损坏。
· 单板未完全插入或损坏导致BootWare运行异常。
本类故障的诊断流程如图3-4所示。
(1) 检查主控板上的启动文件是否正常。
通过Console口登录故障主控板,重新启动设备,如果BootWare提示CRC错误或者找不到启动文件,请重新加载启动文件,并确认存储介质中文件大小与服务器上的文件是否一致,如不存在或不一致需重新加载启动文件。加载后请设置该文件为当前启动文件(在BootWare加载过程中,BootWare能自动将该文件设置为当前启动文件)。
(2) 测试主控板内存单元是否正常。
如果确认加载的文件大小正确,且设置为当前启动文件也正常。请重新启动单板,同时立即按住CTRL+T,对内存单元进行检测。如果提示内存错误,请更换单板。
(3) 查看Bootware是否依旧提示错误。
如果内存检查也正常,但BootWare启动过程中还有错误提示,则根据相关提示初步判断发生故障的器件。检查单板是否插牢,如已插牢则更换单板。
(4) 如果故障仍然未能排除,请收集如下信息,并联系技术支持人员。
¡ 上述步骤的执行结果。
¡ 设备的配置文件、日志信息、告警信息。
无
无
业务板无法启动。
本类故障的常见原因主要包括:
· 网板工作异常。
· 供电异常。
· 软件版本不支持该业务板。
· 业务板未安装到位。
· 业务板硬件故障。
· 机框槽位硬件故障。
本类故障的诊断流程如图3-5所示:
(1) 检查网板工作是否正常。
确保网板在位且状态为Normal,如果状态异常,请先排除网板故障。
(2) 检查业务板是否上电。
查看业务板RUN指示灯状态,如果指示灯不亮,说明业务板可能没有上电,请按如下子步骤进行定位处理。如果上电正常,请执行步骤(3)。
a. 查看电源模块指示灯,判断电源模块工作是否正常,如果指示灯异常,请参见“电源模块状态异常”章节进行定位处理。
b. 计算整机功耗情况,查看电源剩余功率是否足够,如果功率不足,请增加电源模块。
在任意视图下执行display version,查询设备的软件版本,然后确认当前软件版本是否支持该业务板。如果不支持,请升级到支持此业务板的正确版本。版本升级前请务必确认新版本兼容其它单板。
(4) 拔插业务板。
拉出业务板,检查连接器是否完好,将其重新插入,保证业务板安装到位。
(5) 将业务板安装到其它槽位测试能否启动。
如果更换到其它槽位也无法启动,则可能是业务板故障,请更换新的业务板进行测试。
如果更换到其它槽位可以正常启动,请将其它可以正常启动的业务板安装到原故障槽位,如果不能启动,则可能是机箱该槽位故障。
(6) 如果故障仍然未能排除,请收集如下信息,并联系技术支持人员。
¡ 上述步骤的执行结果。
¡ 设备的配置文件、日志信息、告警信息。
无
无
电源模块状态指示灯异常或者电源运行中上报Fault。
本类故障的常见原因主要包括:
· 电源模块型号和主机不匹配。
· 电源模块安装不到位。
· 电源线缆没有插牢。
· 电源模块温度过高。
· 电源模块故障。
本类故障的诊断流程如图3-6所示。
(1) 检查电源模块的型号是否和主机型号匹配。
(2) 检查设备连接的供电系统:确认供电系统正常供电,电压正常。
(3) 通过电源模块上的指示灯初步判断电源模块是否存在输出短路、输出过流、输出过压、输入欠压、温度过热等问题。不同主机电源指示灯状态有所差异,具体请参见相应主机的硬件手册。
(4) 检查电源模块状态。
使用display power命令显示电源模块状态,查看是否存在Fault、Error或Absent状态的电源模块。
<Sysname> display power
Input Power: 1600.0 W
PowerID State Mode Current(A) Voltage(V) Power(W) FanDirection
1 Normal DC -- -- 0 --
2 Fault AC -- -- 0 --
也可以使用display alarm命令查看电源模块告警信息。
<Sysname> display alarm
Slot CPU Level Info
- - ERROR Power 1 is Absent.
- - ERROR Power 2 is Absent.
- - ERROR Power 3 is Absent.
(5) 如果电源模块状态为Absent,请按如下子步骤进行定位处理。
a. 请将该电源模块拆卸后重新安装,重新安装前请检查电源连接器是否完好。
b. 重新安装后,该电源模块的状态未恢复为Normal,则请将该电源模块与正常的电源模块更换槽位再做一次交叉验证。
c. 如果该电源模块仍然显示为Absent,则请更换新的电源模块。
d. 更换新的电源模块后,此故障仍然存在,请执行步骤(7)。
(6) 如果电源模块状态为Fault或Error,请按如下子步骤进行定位处理。
a. 检查电源线是否脱落或者是否正确连接。
b. 如果电源线连接正常,交叉验证下电源线是否故障。
c. 如果电源线正常,可能是电源模块本身温度过高导致。请查看电源模块积灰情况,如果灰尘较多,请清理灰尘,并将电源模块拆卸后重新安装。
d. 重新安装后,电源模块状态未恢复为Normal,请将该电源模块与正常的电源模块更换槽位做一次交叉验证。
e. 如果该电源模块仍然显示为Fault状态,请更换电源模块。
f. 更换新电源模块后,此故障仍然存在,请执行步骤(7)。
(7) 如果故障仍然未能排除,请收集如下信息,并联系技术支持人员。
¡ 上述步骤的执行结果。
¡ 设备的配置文件、日志信息、告警信息。
无
· DEV/2/POWER_FAILED
· DEV/3/POWER_ABSENT
风扇模块状态指示灯异常或者风扇框运行中上报Fault。
本类故障的常见原因主要包括:
· 风扇未插紧。
· 机箱出风口、入风口被异物堵塞。
· 风扇硬件故障。
本类故障的诊断流程如图3-7所示。
(1) 查看风扇模块指示灯状态是否正常,不同主机风扇指示灯状态有所差异,具体请参见相应主机的硬件手册。如果所有指示灯都为灭,请确认电源模块是否正常工作,或整机开关接线是否开路,具体请参见“3.2.6 电源模块状态异常”。
(2) 查看风扇框状态。
¡ 使用display fan命令查看风扇框状态(不同产品的显示信息不同,请以产品的实际情况为准)。
<Sysname> display fan
Slot 1:
Fan 1 State: Normal
Airflow Direction: Power-to-port
Fan 2 State: Normal
Airflow Direction: Power-to-port
(3) 检查风扇框是否安装牢固。
对于部分机型,如果风扇框工作状态显示为FanDirectionFault,表示设备期望的风道方向与风扇框的实际风道方向不一致,此时可通过fan prefer-direction命令配置期望的风道方向,使其和风扇框的实际风道方向一致,或者可以更换相同风道方向的风扇框。
如果风扇框工作状态显示为Absent,表示风扇框不在位或者没有安装牢固。如果风扇框在位,请将该风扇框拆卸后重新安装,重新安装前请检查风扇连接器是否完好,然后查看风扇框状态是否显示为Normal状态。如果仍然显示为Absent状态,请更换风扇框。如果更换新风扇框后仍然显示为Absent状态,请执行步骤5。
(4) 检查设备的工作环境信息。
如果风扇框工作状态显示为Fault,表示该风扇框异常,无法提供抽风散热功能。请使用下述步骤进一步定位。
a. 使用display environment命令查看系统温度是否持续升高。如果系统温度持续升高,建议用手在设备出风口触摸进一步判断出风口是否有出风。如果温度持续升高,且出风口无风,表示风扇框异常。
b. 检查机箱出风口、入风口是否被异物堵塞。如果有异物,请将其清理。
c. 查看各个风扇的转速是否正常。
- 使用Probe视图下的debug sysm fan fan-id get-speed命令查看风扇转速(不同设备对此命令的支持情况存在差异,请以设备实际情况为准)。如果speed字段信息显示风扇转速小于500/rpm,表示风扇异常。
d. 如果确定风扇异常,请将风扇框拆卸后重新安装,重新安装前请检查风扇连接器是否完好,然后使用display fan命令查看是否恢复为Normal状态。
e. 如果仍然不能恢复为Normal状态,请更换该风扇框。如果现场没有风扇框,不能立即更换,请关闭设备以免温度过高导致电路烧坏;如果有降温措施保证系统工作在50摄氏度以下,也可以继续使用设备。
f. 如果更换新的风扇框仍然不能恢复为Normal状态,请执行步骤5。
(5) 如果故障仍然未能排除,请收集如下信息,并联系技术支持人员。
¡ 上述步骤的执行结果。
¡ 设备的配置文件、日志信息、告警信息。
无
· DEV/2/FAN_FAILED
· DEV/3/FAN_ABSENT
板卡插入线缆或光模块后,端口频繁UP/DOWN。
本类故障的常见原因主要包括:
· 光模块或线缆故障
· 电口自协商不稳定
本类故障的诊断流程如图3-8所示:
(1) 对于光口,需要确认光模块是否异常。通过查看光模块alarm信息来排查两端光模块以及中间光纤问题。告警信息中如果存在接收有问题那一般是对端端口、光纤或中转传输设备导致;如果是发送有问题或者电流、电压异常那就需要排查本端端口。
<Sysname> display transceiver alarm interface gigabitethernet 1/0/1
GigabitEthernet1/0/1 transceiver current alarm information:
RX signal loss
RX power low
(2) 检查光模块的接收、发送光功率是否正常(即在该光模块的光功率上下门限值之内)。如果发送光功率处于临界值,请更换光纤、光模块做交叉验证;如接收光功率处于临界值,请排查对端光模块及中间光纤链路。
<Sysname> display transceiver diagnosis interface gigabitethernet 1/0/1
GigabitEthernet1/0/1 transceiver diagnostic information:
Current diagnostic parameters:
Temp(°C) Voltage(V) Bias(mA) RX power(dBm) TX power(dBm)
36 3.31 6.13 -35.64 -5.19
Alarm thresholds:
Temp(°C) Voltage(V) Bias(mA) RX power(dBM) TX power(dBM)
High 50 3.55 1.44 -10.00 5.00
Low 30 3.01 1.01 -30.00 0.00
(3) 对于电口,一般在自协商情况下容易出现协商不稳定,这种情况请尝试设置强制速率双工。
(4) 如果故障依然存在,请排查链路、对端设备、中间设备。
(5) 如果故障仍然未能排除,请在端口上执行shutdown命令并切换业务至备用链路,再收集如下信息,并联系技术支持人员。
¡ 上述步骤的执行结果。
¡ 设备的配置文件、日志信息、告警信息。
无
无
端口状态为UP,不接收报文或出现丢包。
使用display interface命令查看本端入方向的接收报文统计增长数量小于对端出方向发送报文统计增长数量。
· 端口出现CRC错误。
· 端口上的配置影响报文的接收。
· 设备或单板硬件故障。
本类故障的诊断流程如图3-9所示。
(1) 查看端口是否出现CRC错误。
按“端口出现CRC错误”章节排查。
(2) 检查端口配置是否影响报文接收。
可通过以下步骤检查端口配置是否影响报文的接收:
¡ 通过display interface brief命令,查看端口配置是否有异常。其中包括两端的端口双工模式、端口类型以及VLAN等配置。若有异常,请更改端口属性的配置查看该故障端口是否能恢复正常。如果不能,请先执行shutdown命令后,再执行undo shutdown命令,再次查看端口是否能恢复正常。
¡ 对于二层口,如果配置了STP功能,通过display stp brief命令,查看端口是否为discarding状态。如果端口被STP设置为discarding状态,请根据STP的相关配置进一步排查。建议将连接终端设备的端口配置为边缘端口或关闭该端口的STP功能。
¡ 如果该端口加入了聚合组,通过display link-aggregation summary命令查看该端口是否为Selected选中状态。当该端口Status为Unselected状态时,该端口无法收发数据报文。请定位端口成为Unselected状态的原因,如聚合组内成员端口的属性类配置与参考端口不一致,进一步排查解决。
¡ 如果配置了ACL过滤,请根据ACL的相关配置进一步排查。
¡ 如果接口配置了PFC功能和流量控制功能,请关闭PFC功能和流量控制功能查看该故障端口是否能恢复正常。
¡ 如果接口上配置了广播/组播/未知单播风暴抑制功能,当接口上的广播/组播/未知单播流量超过用户设置的抑制阈值时,系统会丢弃超出流量限制的报文,查看接口是否配置了了广播/组播/未知单播风暴抑制功能,如果配置了,请关闭接口的风暴抑制功能查看该故障端口是否能恢复正常。
(3) 执行shutdown命令,再执行undo shutdown命令,查看端口是否能恢复正常。
(4) 如果故障仍然未能排除,可能是单板硬件故障,请在端口上执行shutdown命令并切换业务至备用链路,再收集信息,并联系技术支持人员。
无
无
通过display interface查看到端口存在CRC错包。
<Sysname> display interface gigabitethernet3/0/1
Current state: DOWN
Line protocol state: DOWN
Description: GigabitEthernet3/0/1 Interface
Bandwidth: 1000000 kbps
Maximum transmission unit: 1500
Internet address: 2.1.1.2/24 (primary)
IP packet frame type: Ethernet II, hardware address: 0000-fc00-9276
IPv6 packet frame type: Ethernet II, hardware address: 0000-fc00-9276
Loopback is not set
Media type is twisted pair, port hardware type is 1000_BASE_T
Port priority: 0
1000Mbps-speed mode, full-duplex mode
Link speed type is autonegotiation, link duplex type is autonegotiation
Flow-control is not enabled
Maximum frame length: 9216
Last clearing of counters: Never
Peak input rate: 8 bytes/sec, at 2019-03-19 09:20:48
Peak output rate: 1 bytes/sec, at 2019-03-19 09:16:16
Last 300 second input: 0 packets/sec 0 bytes/sec -%
Last 300 second output: 0 packets/sec 0 bytes/sec -%
Input (total): 2892 packets, 236676 bytes
24 unicasts, 2 broadcasts, 2866 multicasts, 0 pauses
Input (normal): 2892 packets, - bytes
24 unicasts, 2 broadcasts, 2866 multicasts, 0 pauses
Input: 0 input errors, 0 runts, 0 giants, 0 throttles
3 CRC, 0 frame, - overruns, 0 aborts
- ignored, - parity errors
Output (total): 29 packets, 1856 bytes
24 unicasts, 5 broadcasts, 0 multicasts, 0 pauses
Output (normal): 29 packets, - bytes
24 unicasts, 5 broadcasts, 0 multicasts, 0 pauses
Output: 0 output errors, - underruns, - buffer failures
0 aborts, 0 deferred, 0 collisions, 0 late collisions
0 lost carrier, - no carrier
以上显示信息表明,入端口出现了CRC错包。
· 端口与电缆连接器物理连接有虚插现象。
· 端口异常。
· 电缆连接器损坏。
· 光模块、光纤有污染或连接不良。
· 光功率不足。
· 中间链路或设备故障。
· 设备或单板硬件故障。
本类故障的诊断流程如图3-10所示。
(1) 端口进行内部环回检查。
在端口下配置loopback internal命令开启内部环回功能,然后通过display interface查看端口CRC错包统计是否增长。如果增长,则可能是设备或单板硬件故障,请联系技术支持人员。如果不增长,则不是端口内部问题。
(2) 检查端口与电缆连接器是否有异常。
a. 检查端口和电缆连接器的物理连接是否有虚插。若有虚插,请正确连接端口和电缆连接器。
b. 检查端口是否异常,比如端口内存在异物,端口的PIN针有弯针,端口的外壳变形等异常。若有异常,需要更换其他正常端口或光模块。
c. 检查电缆连接器是否出现损坏现象。若有损坏现象,请更换电缆。
(3) 检查光模块是否有异常。
a. 使用光纤将该端口的光模块Tx端和Rx端连接,然后通过display interface查看端口CRC错包统计是否增长。如果增长,则可能是光模块的问题。如果不增长,则不是该光模块问题。
b. 通过display transceiver alarm命令查看光模块是否有Rx_Los或Tx_Fault告警信息,若有告警信息,需要清洁或更换光纤、光模块。
c. 通过display transceiver diagnosis命令查看光模块的接收功率和发送功率是否在规定的最大值和最小值的范围内,若有接收或发送的功率超出范围,需要清洁或更换光纤、光模块。
(4) 更换正常端口测试是否能恢复正常。
更换其他正常的端口测试,如果端口更换后错包消失,端口更换回来错包又再次出现,则为端口硬件故障,请更换端口并将故障信息发送技术支持人员分析;如更换到其他正常端口仍会出现错包,则中间传输链路故障的可能性较大。
(5) 检查中间传输链路是否正常。
使用仪器测试中间链路,链路质量差或者线路光信号衰减过大会导致报文在传输过程中出错。检查互连中间链路设备(光转,转接架,传输等设备)是否正常。若中间传输链路故障,请更换或恢复中间传输链路。
(6) 执行shutdown命令,再执行undo shutdown命令,查看端口是否能恢复正常。
(7) 检查端口是否收到大量流控帧
通过display interface命令,查看端口pauses帧计数,如果在不断增长,表明端口发出或者收到了大量的流控帧。检查下端口出入流量是否过大及对端设备的流量处理能力。
(8) 如果故障仍然未能排除,可能是设备或单板硬件故障,请在端口上执行shutdown命令并切换业务至备用链路,再收集信息,并联系技术支持人员。
无
无
光口不UP。
· 设备当前版本不支持该光模块。
· 光口有异物或光模块金手指被污染、损坏。
· 光模块与接口速率不匹配。
· 光口故障。
· 光模块或线缆故障。
· 光模块与光纤类型不匹配。
本类故障的诊断流程如图3-11所示。
(1) 检查设备当前版本是否支持该光模块。
可通过产品安装手册或软件版本说明书查看当前软件版本是否支持该光模块。如果有新版本支持该光模块,也可以升级软件版本。
(2) 检查光接口是否故障。
在本设备上的相同速率的光口上用匹配的线缆(适用于短距离连接)直接互连,查看该端口是否能UP。如果能UP,则说明对端端口异常;如果不能UP,则说明本端端口异常。可通过更换本端与对端端口来检查故障是否解决。
(3) 检查光模块/线缆是否异常。
可通过如下步骤检查光模块/线缆是否异常:
a. 可通过display transceiver alarm interface命令,查看当前端口上的光模块的故障告警信息,若显示为“None”,则表示没有故障;若显示有告警信息,可通过查看光模块/线缆告警信息来确认是光模块问题还是光纤或者对端问题。比如出现RX signal loss和TX fault错误,可以查看光口、光模块是否存在异物,或者光模块金手指严重氧化。
b. 可通过display transceiver interface命令,检查两端的光模块类型、波长、传输距离等参数是否一致。
c. 可通过display transceiver diagnosis interface命令,检查光模块的数字诊断参数的当前测量值是否在正常范围内。参数异常常见问题及解决办法如下:
- 当光纤与光模块接触不良时,可通过将光线与光模块插牢解决。
- 当光纤质量不好或损坏,可通过更换光纤解决。
- 当传输路径增加了中间光衰设备,可根据实际使用,调整光衰设备解决。
- 当光模块适配传输距离与实际使用距离相差较大,更换为与实际传输距离适配的光模块解决。
d. 对怀疑故障的光模块进行交叉验证,如更换端口、与正常的光模块互换,确认是光模块本身故障还是相邻设备或中间链路故障。
(4) 检查光模块类型与光纤是匹配。
可通过《H3C光模块手册》,查看光模块类型与光纤类型是否匹配。若不匹配,可通过更换光纤解决。
(5) 检查光模块与端口/两端端口的速率、双工模式是否匹配。
执行display interface命令,查看端口与光模块/两端端口的速率、双工配置是否匹配。若不匹配,请通过speed命令和duplex命令配置端口的速率和双工模式。
(6) 如果故障仍然未能排除,请在端口上执行shutdown命令并切换业务至备用链路,再收集如下信息,并联系技术支持人员。
¡ 上述步骤的执行结果。
¡ 设备的配置文件、日志信息、告警信息。
无
· OPTMOD/3/CFG_ERR
· OPTMOD/5/CHKSUM_ERR
· OPTMOD/5/IO_ERR
· OPTMOD/4/FIBER_SFPMODULE_INVALID
· OPTMOD/4/FIBER_SFPMODULE_NOWINVALID
· OPTMOD/5/MOD_ALM_ON
· OPTMOD/5/RX_ALM_ON
· OPTMOD/5/RX_POW_HIGH
· OPTMOD/5/RX_POW_LOW
· 请勿轻易地重启动设备,如果有必要进行重启动操作,请在技术支持工程师的指导下进行操作。
· 如果重启动设备,除非采用了多机备份组网,否则,设备上原有的所有业务都将暂时中断,直至设备重启动成功后,用户业务才能恢复正常。
设备运行过程中,如果出现异常且严重问题时,会自动重启动,自动重启动之后,设备可能会进入正常工作状态。通常情况下,不需要人工重启动设备。由于设备的原因引起用户业务中断现象,而设备又未能自动重启动时,网络维护人员需要重启动设备,人工重启动设备应用于紧急或例外情况下。
本章介绍网络维护人员重启动设备的操作及注意事项,内容如下:
· 重启动准备
· 重启动操作指导
· 重启动后的确认
· 重启动失败处理
网络维护人员重启动设备前,需要进行准备工作:
· 确认设备的配置文件是否需要备份。为了保证原有业务自动恢复正常,重启动设备前,应备份配置文件,并在设备重启动后自动执行该配置文件。
· 任意视图下,使用display startup命令查看本次启动使用的配置文件和下次启动使用的主用、备用配置文件
· 任意视图下,使用display current-configuration diff命令显示下次启动配置文件与运行配置之间的差异。
· 网络维护人员严禁通过带电插拔主控板,进行设备重启动,该操作可能会导致设备上的配置丢失。
· 一般不建议网络维护人员远程重启动设备,以免重启动失败,可能导致业务中断时间过长。
网络维护人员需要重启动设备,可以通过以下几种方式:
· 在网管系统上操作
用户视图下输入reboot命令回车,然后在提示信息后输入“Y”后回车,设备将重新启动。
# 重启设备,并保存配置文件。
<Sysname> reboot
Start to check configuration with next startup configuration file, please wait.........DONE!
Current configuration will be lost after the reboot, save current configuration? [Y/N]:y
Please input the file name(*.cfg)[flash:/startup.cfg]
(To leave the existing filename unchanged, press the enter key):
flash:/startup.cfg exists, overwrite? [Y/N]:y
Validating file. Please wait...
Configuration is saved to mainboard device successfully.
This command will reboot the device. Continue? [Y/N]:y
Now rebooting, please wait...
如果设备存在两个电源开关,则两个电源开关相互备份,当有一个或两个开关处于ON状态时,电源模块电能输出被使能;当两个开关同时处于OFF状态时,电源模块电能输出被关闭。
不同厂家生产的网管系统重启设备的操作步骤不一样。具体操作方法请参见各网管系统联机帮助。
请在设备重启动后,检查配置数据的正确性及完整性,以防部分配置数据恢复失败,以致影响业务使用;若有配置数据丢失,请手工增加配置并保存。
(1) 在配置终端上,检查设备重启动信息,设备是否重启动成功、系统是否存在错误信息、配置命令是否可以正常下发等。
(2) 任意视图下,使用display version命令显示系统版本信息。
(3) 任意视图下,使用display startup命令查看本次启动使用的配置文件和下次启动使用的主用、备用配置文件。
· 请检查设备硬件指示灯。
· 请检查配置终端错误提示信息。
· 在设备重启动过程中,如有任何问题,请及时联系H3C技术支持。
收集诊断信息时,设备上的CPU利用率会短暂上升,为避免该操作对网络中的业务产生影响,在操作之前,请对设备的情况进行如下确认:
· 确认当前设备上的路由协议处于稳定状态,未出现路由震荡的情况。
· 确认当前设备上的CPU利用率处于正常状态。
(1) 打开登录设备窗口1,收集并保存诊断信息,诊断文件保存在主控板的存储介质中,网络维护人员可通过FTP、TFTP、xshell方式,将诊断信息进行导出。
¡ # 如果设备上承载用户业务量较少或者业务板数量不超过10块的情况下,建议收集完整的诊断信息,完整的诊断信息包括单播、组播等所有路由条目,收集完整的诊断信息所耗时较长,诊断文件也比较大。
<Sysname> display diagnostic-information
Save or display diagnostic information (Y=save, N=display)? [Y/N]:y
Please input the file name(*.tar.gz)[flash:/diag_20171214-113544.tar.gz]:
Diagnostic information is outputting to flash:/diag_20171214-113544.tar.gz.
Please wait...
Save successfully.
¡ # 如果设备上承载用户业务量较多或者业务板数量超过10块的情况下,网络维护人员需要在短时间内收集诊断信息,建议收集关键的诊断信息,收集关键的诊断信息所耗时较短,通常情况下会在5分钟以内完成收集。
<Sysname> display diagnostic-information key-info
Save or display diagnostic information (Y=save, N=display)? [Y/N]: y
Please input the file name(*.tar.gz)[flash:/diag_20171214-113023.tar.gz]:
Diagnostic information is outputting to flash:/diag_20171214-113023.tar.gz.
Please wait...
Save successfully.
¡ # 网络维护人员以TFTP方式,将设备上的diag_20171214-113544.tar.gz诊断信息导出至TFTP服务器,其中TFTP服务器IP地址为172.31.67.1。
<Sysname> tftp 172.31.67.1 put diag_20171214-113544.tar.gz
(2) 打开登录设备窗口2,保存logfile、diagfile、drvmon故障日志信息,通过FTP、TFTP、xshell方式,将故障日志信息进行导出。网络维护人员需要使用命令行保存logfile、diagfile日志信息,而对于drvmon日志文件,系统实时保存,无需使用命令行进行保存。
a. 任意视图下执行logfile save命令将设备缓存的logfile日志保存在存储介质中。并将日志收集完整,包括主用主控板、备用主控板的日志。
<Sysname> logfile save
The contents in the log file buffer have been saved to the file flash:/logfile/logfile3.log.
b. 任意视图下执行diagnostic-logfile save命令将设备缓存的diagfile日志文件保存在存储介质中。并将日志搜集完整,包括主用主控板、备用主控板的日志。
<Sysname> diagnostic-logfile save
The contents in the diagnostic log file buffer have been saved to the file flash:/diagfile/diagfile1.log.
c. 网络维护人员通过FTP、TFTP、xshell方式,将logfile、diagfile、drvmon故障日志信息导出。建议网络维护人员使用xshell方式进行导出,此方式可以直接将整个文件夹拖拽到服务器中;如果通过FTP、TFTP方式导出,建议网络维护人员在用户视图下,使用tar create gz archive-file dest-file [ verbose ] source { source-file | source-directory }&<1-5>命令,先将上述3个文件夹中logfile、drvmon、diagfile故障日志信息,压缩后再上传。该命令详细使用指导请参见《命令参考》中“文件系统管理命令”。其操作步骤,以如下配置进行举例说明:
# 将文件夹中cfa0:/logfile/打包压缩后保存到新文件x.tar.gz。
<Sysname> tar create gz archive-file x.tar.gz source flash:/logfile/
Creating archive flash:/x.tar.gz................ Done.
(3) 收集网络拓扑信息,了解故障触发的因素。
¡ 收集网络拓扑信息:
- 请确认设备位于网络中的位置以及承载业务的角色。
- 请标注设备与互连设备之间的接口信息、运行路由协议。
¡ 了解故障触发的因素:
- 设备与互连设备是否存在网络拓扑变化,例如:插拔光纤/模块/单板等。
- 用户业务类型及流量是否发生变化。
- 网络维护人员是否修改设备上的配置命令。
