• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 新华三人才研学中心
  • 关于我们

H3C交换机 快速维护指南-6W100

手册下载

H3C交换机 快速维护指南-6W100-整本手册.pdf  (377.51 KB)

  • 发布时间:2024/3/18 22:08:55
  • 浏览量:
  • 下载量:

H3C交换机 快速维护指南

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Copyright © 2022 新华三技术有限公司 版权所有,保留一切权利。

非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。

除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。

本文档中的信息可能变动,恕不另行通知。



1 维护前的准备

本章介绍维护之前需完成的准备工作,包含以下内容:

(1)     获取整个网络的拓扑结构图和数据规划表(接口、VLANIP地址等信息),打印之后张贴在机房的醒目位置,便于随时查询和对照。

(2)     准备好维护设备时可能会用到的工具和线缆。

表1-1 维护设备常用工具和线缆

序号

项目

说明

1

线缆

·     一根串行Console口电缆:用于通过Console口登录设备。H3C提供如下两种串行Console口电缆供选配:DB9-to-RJ45 Console口电缆、USB-to-RJ45 Console口电缆。如需使用USB-to-RJ45口电缆,请提前到H3C官方网站(http://www.h3c.com/.下载对应的驱动程序,并将驱动程序安装到配置终端上

·     两根直连网线:用来调测管理网口或其它业务

·     网线延长线接头:网线长度不够时可延长网线

·     若干条光纤、若干SFP/SFP+/QSFP+/QSFP28/CFP2等光模块或线缆:用于连接对接设备

2

维护终端

一般为便携计算机,并安装串口通信软件,用于登录设备

3

辅助仪器、仪表

·     光功率计:用于光接口测试(光功率、接收灵敏度等)

·     温湿度计:用于测量设备周围的环境温度和湿度、风扇出口处温度和湿度

4

其它仪器

·     可分离扳手:用于插拔、固定某些型号业务板

·     光纤端面清洁盒

·     接口清洁棒

·     扎带(线扣)

·     螺丝刀:十字螺丝刀、一字螺丝刀等

·     斜口钳

 

(3)     获取H3C技术服务支持人员常用联系方式。

(4)     访问H3C官网,申请用户账号,可浏览或下载产品文档。

(5)     本文涉及的命令回显信息请以设备实际显示为准。版本间如有不易于理解的差异,正文中会有相应说明。

2 快速维护设备流程

说明: 说明

·     本章所列命令的具体支持情况请参见设备配套的命令参考手册中的“设备管理”。

·     检查告警、健康状态、设备状态以及记录故障信息等步骤,均需要通过Console口、TelnetSSH登录到设备来进行操作(登录设备的操作请参见设备配套的配置指导手册中的“登录设备”)。如果无法登录到设备,请直接查看“无法登录设备的处理措施

 

图2-1 快速维护设备流程图

 

2.1  检查设备指示灯状态是否正常

设备提供种类丰富的指示灯,通过查看指示灯的状态,可以判断该指示灯所指示对象的运行状态,如果发现指示灯状态异常,请及时记录故障信息,并参见对应款型《安装指导》中的“故障定位与处理”章节进行处理,如果仍无法排除故障,请及时联系代理商或当地用服工程师。

关于各指示灯的名称含义,以及各种状态的详细描述,请参见设备配套的《安装指导》或《硬件描述》文档。

2.2  检查设备是否存在紧急或重要告警

说明: 说明

·     display alarm命令仅部分产品支持,其他产品可通过查看日志信息确认是否存在告警,操作方法请参见“查看日志信息确认是否存在告警”。日志信息的详细介绍请参见设备配套的配置指导手册中的“信息中心”或《日志信息参考》文档。

·     如果部署有网管系统,也可以通过网管系统来检查设备是否存在告警,详细操作请参见具体系统的使用说明。

 

2.2.1  查看告警信息确认是否存在告警

登录设备后,执行display alarm命令查看设备是否存在级别为ERROR的告警信息。不同设备回显信息可能存在差异,请以设备实际显示内容为准,以下回显信息以S12500X-AF系列交换机为例。

<Sysname> display alarm

Slot   CPU   Level   Info                                                      

-      -     ERROR   Power 2 is faulty.                                        

-      -     INFO    Power 3 is absent.                                         

-      -     INFO    Power 4 is absent.                                        

表2-1 display alarm命令显示信息描述表

字段

描述

Slot

产生告警的slot,显示为“-”,表示产生告警的元件位于机框上

CPU

告警CPU的编号

Level

告警的级别,级别由高到低依次为ERRORWARNINGNOTICEINFO

Info

告警的详细信息。取值为:

·     faulty:表示设备处于faulty状态(设备可能正在启动,或者处于故障状态)

·     Board is faulty:表示该slot处于faulty状态(该slot可能正在启动,或者当前处于故障状态)

·     Fan n is absent:风扇n当前不在位

·     Fan n is faulty:风扇n处于异常状态

·     Power n is absent:电源n当前不在位

·     Power n is faulty:电源n处于异常状态

·     Slot n temperature is too high, above the shutdown limit:单板n温度过高,高于下电温度门限

·     Slot n temperature is too high, above the high limit:单板n温度过高,高于高温门限

·     Slot n temperature is too high, above the warning limit:单板n温度过高,高于告警门限

·     Slot n temperature is too low, below the low limit:单板n温度过低,低于低温门限

 

在日常维护中,对于ERROR级别的告警需要及时处理。对于无法处理的告警,请及时联系代理商或H3C技术支持热线,寻求技术支持。

2.2.2  查看日志信息确认是否存在告警

登录设备后,执行display logbuffer命令查看日志缓冲区中记录的日志是否存在告警信息。日志信息的详细介绍请参见设备配套的配置指导手册中的“信息中心”或《日志信息参考》文档。不同设备回显信息可能存在差异,请以设备实际显示内容为准,以下回显信息以S12500X-AF系列交换机为例。

<Sysname> display logbuffer

Log buffer: Enabled

Max buffer size: 1024

Actual buffer size: 512

Dropped messages: 0

Overwritten messages: 718

Current messages: 512

%Jun 17 15:57:09:578 2016 Sysname SYSLOG/7/SYS_RESTART:System restarted --

其它显示信息略……。

表2-2 display logbuffer命令显示信息描述表

字段

描述

Log buffer

是否允许输出到日志缓冲区方向:

·     Enabled:表示允许

·     Disabled:表示不允许

Max buffer size

允许的日志缓冲区可存储的最大信息条数

Actual buffer size

当前配置的日志缓冲区可存储的最大信息条数

Dropped messages

被丢弃的信息数(内存分配失败或分配日志缓冲区过小时丢失的信息数)

Overwritten messages

被覆盖的信息数(如果缓冲区存储空间不足,最早收到的信息数会被新的信息覆盖掉)

Current messages

当前记录的信息数

 

对于无法处理的告警,请及时联系代理商或H3C技术支持热线,寻求技术支持。

2.3  检查设备的健康状态是否正常

登录设备后,可通过以下命令查看设备的健康状态:

·     display cpu-usage

·     display memory

·     display fan

·     display power

·     display environment

2.3.1  检查CPU的使用情况

查看设备的CPU使用率是高于80%。不同设备回显信息可能存在差异,请以设备实际显示内容为准,以下回显信息以S12500X-AF系列交换机为例。

<Sysname> display cpu-usage

Slot 1 CPU 0 CPU usage:

       1% in last 5 seconds

       1% in last 1 minute

       1% in last 5 minutes

表2-3 display cpu-usage命令显示信息描述表

字段

描述

1% in last 5 seconds

设备启动后,会以5秒为周期计算并记录一次该5秒内的CPUCPU核的平均利用率。该字段显示的是最近一个5秒统计周期内CPUCPU核的平均利用率

1% in last 1 minute

设备启动后,会以1分钟为周期计算并记录一次该1分钟内的CPUCPU核的平均利用率。该字段显示的是最近一个1分钟统计周期内CPUCPU核的平均利用率

1% in last 5 minutes

设备启动后,会以5分钟为周期计算并记录一次该5分钟内的CPUCPU核的平均利用率。该字段显示的是最近一个5分钟统计周期内CPUCPU核的平均利用率

 

如果发现CPU使用率过高,请观察一段时间(5~10分钟),如果一直处于高使用率状态,请及时联系代理商或H3C技术支持热线,寻求技术支持。

2.3.2  检查内存的使用情况

查看设备的内存空闲率是否低于20%。(不支持低端内存,以下回显信息以S12500X-AF系列交换机为例)。

<Sysname> display memory

Memory statistics are measured in KB:                                          

Slot 0:                                                                         

             Total      Used      Free    Shared   Buffers    Cached   FreeRatio

Mem:       8149596   2351256   5798340         0        20    275784       71.1%

-/+ Buffers/Cache:   2075452   6074144                                         

Swap:           0         0         0                                          

                                                                               

Slot 1:                                                                        

             Total      Used      Free    Shared   Buffers    Cached   FreeRatio

Mem:       8149596   2180788   5968808         0        20    162472       73.2%

-/+ Buffers/Cache:   2018296   6131300                                         

Swap:           0         0         0                                          

表2-4 display memory命令显示信息描述表

字段

描述

Memory statistics are measured in KB:

系统内存使用情况,以下统计信息均以KB为单位

Mem

内存使用信息

Total

系统可分配的物理内存的大小

设备总物理内存分为不可分配物理内存和可分配物理内存。其中,不可分配物理内存用于内核代码段存储、内核管理开销以及ISSU功能运行等;可分配物理内存用于支撑业务模块的运行、文件存储等操作。不可分配内存的大小由设备根据系统运行需要自动计算划分,可分配物理内存的大小等于设备总物理内存减去不可分配内存的大小

Used

整个系统已用的物理内存大小

Free

整个系统可用的物理内存大小

Shared

多个进程共享的物理内存总额。取值为“--”时,表示不支持统计该参数的值

Buffers

已使用的文件缓冲区的大小。取值为“--”时,表示不支持统计该参数的值

Cached

高速缓冲寄存器已使用的内存大小。取值为“--”时,表示不支持统计该参数的值

Caches

高速缓冲寄存器已使用的内存大小

FreeRatio

整个系统物理内存的空闲率

-/+ buffers/cache

-/+ Buffers/Cache:used = Mem:Used – Mem:Buffers – Mem:Cached,表示应用程序已用的物理内存大小

-/+ Buffers/Cache:free = Mem:Free + Mem:Buffers + Mem:Cached,表示应用程序可用的物理内存大小

Swap

交换分区的使用信息

 

如果内存空闲率在持续的一段时间内(一般为30分钟)过低,请及时联系代理商或H3C技术支持热线,寻求技术支持。

查看设备的低端内存空闲率是否低于20%。(支持低端内存,以下回显信息以S5560X-EI系列交换机为例)。

<Sysname> display memory

Memory statistics are measured in KB:                                           

Slot 1:                                                                        

             Total      Used      Free    Shared   Buffers    Cached   FreeRatio

Mem:       2036536    496116   1540420         0      1436    113644       75.7%

-/+ Buffers/Cache:    381036   1655500                                         

Swap:            0         0         0                                         

LowMem:    1651512    279856   1371656        --        --        --       83.1%

HighMem:    385024    216260    168764        --        --        --       43.8%

表2-5 display memory命令显示信息描述表

字段

描述

Memory statistics are measured in KB:

系统内存使用情况,以下统计信息均以KB为单位

Mem

内存使用信息

Total

系统可分配的物理内存的大小

设备总物理内存分为不可分配物理内存和可分配物理内存。其中,不可分配物理内存用于内核代码段存储、内核管理开销以及ISSU功能运行等;可分配物理内存用于支撑业务模块的运行、文件存储等操作。不可分配内存的大小由设备根据系统运行需要自动计算划分,可分配物理内存的大小等于设备总物理内存减去不可分配内存的大小

Used

整个系统已用的物理内存大小

Free

整个系统可用的物理内存大小

Shared

多个进程共享的物理内存总额。取值为“--”时,表示不支持统计该参数的值

Buffers

已使用的文件缓冲区的大小。取值为“--”时,表示不支持统计该参数的值

Cached

高速缓冲寄存器已使用的内存大小。当系统内存告警时,高速缓冲寄存器中的部分内存可主动释放供其他业务使用。取值为“--”时,表示不支持统计该参数的值

Caches

高速缓冲寄存器已使用的内存大小。当系统内存告警时,高速缓冲寄存器中的部分内存可主动释放供其他业务使用

FreeRatio

整个系统物理内存的空闲率。包含当前剩余空闲内存以及高速缓冲寄存器中当前正在使用但是内存告警状态下可主动释放的内存

-/+ buffers/cache

-/+ Buffers/Cache:used = Mem:Used – Mem:Buffers – Mem:Cached,表示应用程序已用的物理内存大小

-/+ Buffers/Cache:free = Mem:Free + Mem:Buffers + Mem:Cached,表示应用程序可用的物理内存大小

Swap

交换分区的使用信息

LowMem

低端内存使用信息

HighMem

高端内存使用信息

 

如果低端内存空闲率在持续的一段时间内(一般为30分钟)过低,请及时联系代理商或H3C技术支持热线,寻求技术支持。

2.3.3  检查风扇的工作状态

查看在位的风扇的状态(State)是否均为Normal。不同设备回显信息可能存在差异,请以设备实际显示内容为准,以下回显信息以S5560X-EI系列交换机为例。

<Sysname> display fan

 Slot 1:

 Fan 1:

 State    : Normal

 Airflow Direction: Port-to-power

 Prefer Airflow Direction: Port-to-power

表2-6 display fan命令显示信息描述表

字段

描述

Slot 1

设备的成员编号

Fan 1

设备上风扇的编号

State

风扇状态:

·     Absent:风扇不在位

·     Normal:风扇正常工作

·     Fault:风扇故障

·     FanDirectionFault:用户期望的风道方向与风扇框的实际风道方向不一致

Airflow Direction

风扇模块的实际风道方向:

·     Port-to-power:风扇从端口侧向电源侧抽风,即风向从前向后

·     Power-to-port:风扇从电源侧向端口侧吹风,即风向从后向前

Prefer Airflow Direction

用户期望的风扇模块的风道方向:

·     Port-to-power:风扇从端口侧向电源侧抽风,即风向从前向后

·     Power-to-port:风扇从电源侧向端口侧吹风,即风向从后向前

 

如果发现异常,请检查风扇模块是否插牢、风扇叶是否被卡住或灰尘较多。如果是上述原因,可通过热拔插风扇模块,清理风扇叶中的异物或灰尘等方式进行解决。如果不是上述原因,可尝试通过更换风扇模块的方式进行解决。如果无法解决,请及时记录故障信息,并联系代理商或H3C技术支持热线,寻求技术支持。

2.3.4  检查设备电源的信息

查看在位的电源模块的状态(State)是否均为Normal。(不支持电源管理功能,以下显示信息以S5560X-EI系列交换机为例)。

<Sysname> display power

Slot 1:

PowerID  State    Mode   Current(A)  Voltage(V)  Power(W)                      

 1       Absent   --        --          --          --                          

 2       Normal   AC        0.70       56.44      39.00

表2-7 display power命令显示信息描述表

字段

描述

PowerID

设备上的电源模块编号

State

电源模块的状态

·     Absent:电源不在位

·     Normal:电源正常工作

·     Fault:电源故障

Mode

电源模块的类型,取值为:

·     AC:表示交流电源

·     DC:表示直流电源

Current(A)

电源输出电流,单位为安(仅固定电源机型不支持统计该信息,显示为“--”)

Voltage(V)

电源输出电压,单位为伏(仅固定电源机型不支持统计该信息,显示为“--”)

Power(W)

电源输出功率,单位为瓦(仅固定电源机型不支持统计该信息,显示为“--”)

如果发现异常,请检查电源模块的开关是否闭合、电源线缆是否松动,最后可尝试通过更换电源模块解决故障。如果无法解决,请及时记录故障信息,并联系代理商或H3C技术支持热线,寻求技术支持。

查看在位的电源模块的状态(State)是否均为Normal(支持电源管理功能,以下回显信息以S12500X-AF系列交换机为例)。

<Sysname> display power

 Power supply policy     : Enabled                                             

 Surplus sleeping        : Disabled                                            

 Power modules installed : 2                                                   

 Power modules usable    : 2                                                   

 Total power             : 4000W                                               

 Redundant power         : 0W                                                  

 Sleeping power          : 0W                                                  

 Available power         : 4000W                                               

   Allocated power       : 2375W                                               

   Remaining power       : 1625W                                               

                                                                               

 PowerID State     InPower(W)  Current(A)  Voltage(V)  OutPower(W)     Type    

  1      Normal      2000        5.80       54.00       313.20     CP2000AC    

  2      Absent       --          --          --           --          ---     

  3      Normal      2000        4.40       54.00       237.60     CP2000AC    

  4      Absent       --          --          --           --          ---     

  5      Absent       --          --          --           --          ---     

  6      Absent       --          --          --           --          ---     

  7      Absent       --          --          --           --          ---     

  8      Absent       --          --          --           --          ---     

                                                                                

 Information about reserved power:                                             

                                                                               

  Slot  Status  Power(W)   Remarks                                             

   7    Normal    275      Powered on                                          

  10    Normal    170      Powered on                                          

  11    Fault     450      Powered on                                          

  12    Normal    170      Powered on                                          

  16    Normal     50      Reserved for MPU                                    

  17    Absent     50      Reserved for MPU                                    

                                                                                

 Power information for fans:                                                   

  Fan[2]: 1200W                                                                

表2-8 display power命令显示信息描述表

字段

描述

Power supply policy

电源管理功能的状态,取值为:

·     Enabled:表示电源管理功能处于开启状态

·     Disabled:表示电源管理功能处于关闭状态

Surplus sleeping

电源睡眠功能的状态,取值为:

·     Enabled:表示电源睡眠功能处于开启状态

·     Disabled:表示电源睡眠功能处于关闭状态

Power modules installed

设备已安装电源模块的数量

Power modules usable

设备已使用电源模块的数量:处于NormalSleeping状态的电源模块数量

Total power

电源模块总功率,单位为瓦

Redundant power

冗余电源功率,单位为瓦

Sleeping power

睡眠电源功率,单位为瓦

Available power

设备的满载功率,即系统中所有模块的最大功率之和,单位为瓦

Allocated power

设备已使用的电源功率,单位为瓦

Remaining power

设备剩余的电源功率,单位为瓦

PowerID

设备上的电源模块编号

State

电源模块的状态

·     Absent:电源不在位

·     Normal:电源正常工作

·     Fault:电源故障

·     Sleeping:电源处于睡眠状态

InPower(W)

电源输入功率,单位为瓦,显示为“--”表示设备暂不支持统计该信息

Current(A)

电源输出电流,单位为安,显示为“--”表示设备暂不支持统计该信息

Voltage(V)

电源输出电压,单位为伏,显示为“--”表示设备暂不支持统计该信息

OutPower(W)

电源输出功率,单位为瓦,显示为“--”表示设备暂不支持统计该信息

Type

电源模块型号,显示为“--”表示设备暂不支持统计该信息

Information about reserved power

单板预留的功率信息

Slot

设备单板的槽位编号

Status

单板的状态

·     Absent:表示单板不在位

·     Normal:表示单板已正常启动

·     Fault:表示单板状态异常,可能是还没有启动或者故障

Power(W)

单板预留的功率,单位为瓦

Remarks

单板预留功率的描述,取值为:

·     Reserved for MPU:表示为主控板预留

·     Powered on:表示正常上电

·     Not enough power to power it on:表示没有足够的功率给单板预留

·     Reserved for a non-MPU card:表示为单板预留

·     Powered off:表示单板被强制下电

Power information for fans

设备风扇预留的功率信息

Fan[x]

设备风扇编号

 

如果发现异常,请检查电源模块的开关是否闭合、电源线缆是否松动,最后可尝试通过更换电源模块解决故障。如果无法解决,请及时记录故障信息,并联系代理商或H3C技术支持热线,寻求技术支持。

2.3.5  检查设备上温度传感器的温度信息

查看当前温度(Temperature)是否处于正常范围内。不同设备回显信息可能存在差异,请以设备实际显示内容为准,以下回显信息以S12500X-AF系列交换机为例。

<Sysname> display environment

 System temperature information (degree centigrade):

 -----------------------------------------------------------------------------

 Slot  Sensor       Temperature  Lower       Warning       Alarm       Shutdown

 1     hotspot 1    38           10          40            50          100

 1     hotspot 2    42           10          50            80          100

表2-9 display environment命令显示信息描述表

字段

描述

System Temperature information (degree centigrade)

系统温度信息,单位为摄氏度

sensor

温度传感器

·     hotspot:表示热点温度传感器

·     inflow:表示入风口温度传感器

Slot

当显示数字时表示指定slot上温度传感器的温度信息

Temperature

当前温度

Lower

低温告警门限。当显示为NA时,表示不支持该门限

Warning

一般级(Warning)高温告警门限。当显示为NA时,表示不支持该门限

Alarm

严重级(Alarm)高温告警门限。当显示为NA时,表示不支持该门限

Shutdown

关断级(Shutdown)高温告警门限,当温度传感器的温度大于该门限时,设备会自动关闭。当显示为NA时,表示不支持该门限

 

如果发现异常,请检查机房温度是否正常、设备散热通道是否堵塞、设备的风扇模块是否工作正常,并采取相应的处理措施。如果无法解决,请及时记录故障信息,,并及时联系代理商或H3C技术支持热线,寻求技术支持。

2.4  检查各单板及子卡运行状态是否正常(框式设备)

登录设备后,执行display device命令检查单板及子卡的状态,查看在位的各单板状态(Status)是否均为Normal,子卡状态是否正常。不同设备回显信息可能存在差异,请以设备实际显示内容为准,以下回显信息以S12500X-AF系列交换机为例。

<Sysname> display device

Slot Type             State    Subslot  Soft Ver             Patch Ver

0    LSXM1SUPB1       Master   0        S12508X-AF-0502      None

1    LSXM1SUPB1       Standby  0        S12508X-AF-0502      None

2    NONE             Absent   0        NONE                 None

3    LSXM1TGS48C2HB1  Normal   0        S12508X-AF-0502      None

4    NONE             Absent   0        NONE                 None

5    NONE             Absent   0        NONE                 None

6    NONE             Absent   0        NONE                 None

7    NONE             Absent   0        NONE                 None

8    NONE             Absent   0        NONE                 None

9    NONE             Absent   0        NONE                 None

10   NONE             Absent   0        NONE                 None

11   NONE             Absent   0        NONE                 None

12   NONE             Absent   0        NONE                 None

13   NONE             Absent   0        NONE                 None

14   NONE             Absent   0        NONE                 None

15   LSXM1SFH08D1     Normal   0        S12508X-AF-0502      None

表2-10 display device命令显示信息描述表

字段

描述

Type

单板的硬件类型

Status

单板状态:

·     Standby表示该板是备用主控板

·     Master表示该板是主用主控板

·     Absent表示该槽位没有插入单板

·     Fault表示该槽位单板正在启动、单板被下电或者单板出错,不能正常启动

·     Normal表示该槽位单板是接口板并处于正常工作状态

·     Offline表示该槽位网板处于隔离状态

Soft Ver

当前单板上运行的软件版本

Patch Ver

当前单板上运行的、最新发布的热补丁版本。取值为None时表示没有安装热补丁

若同时安装了叠加补丁和非叠加补丁,则显示最新发布的叠加补丁。

 

如果检查结果发现异常,可通过重新插拔单板或子卡的方式进行解决。如果无法解决,请及时记录故障信息,并联系技术支持。

3 收集与反馈故障信息

说明: 说明

本章所列命令的具体支持情况请参见设备配套的命令参考手册中的“设备管理”或“信息中心”。

 

当检查中发现设备存在状态异常时,请及时收集故障信息,再采取后续的处理措施。

故障信息的收集主要包括如下几个方面:

·     故障基本信息:故障发生时间、故障具体现象、故障严重程度和影响的业务范围、故障点网络拓扑结构、故障后已采取措施和结果等信息。

·     日志信息:系统产生的日志信息。

·     诊断信息:发生故障的设备的名称、版本、当前配置、接口信息等。

收集的信息请完整的反馈给代理商或H3C技术支持工程师。

3.1  故障基本信息收集

设备出现故障时,首先需要采集故障的基础信息。

表3-1 故障基本信息收集表

序号

项目

收集方法

1

故障时间

记录发生故障的时间,精确到分钟

2

故障现象

收集故障现象并详细记录

3

故障影响

记录故障的严重程度和影响的业务范围

4

组网信息

画出组网图。主要包括上下行设备、对接接口等

5

已采取的措施

记录发生故障后已采取的措施和结果(包括完整的命令执行过程和输出信息)

 

3.2  日志信息收集

日志信息主要记录日常信息、用户操作、系统故障、系统安全和系统跟踪调试等信息,包括诊断监控日志、诊断日志、系统日志和调试跟踪日志等。

由于诊断日志、系统日志和调试跟踪日志在保存到文件前,先保存在文件缓冲区,为了获取最新日志信息,请先将收集到的日志信息保存到文件。

您可以通过如下方式获取日志信息:

¡     将收集到的诊断日志信息保存到文件。

diagnostic-logfile save

缺省情况下,诊断日志文件路径为存储设备根目录flash:/diagfile文件夹。

¡     将收集到的系统日志信息保存到文件。

logfile save

缺省情况下,系统日志文件路径为存储设备根目录flash:/logfile文件夹。

执行完上述命令后,您可以在用户视图下使用dir命令确认日志文件是否正确生成,通过FTP/TFTP/SFTP等方式将日志文件传输到您的工作电脑,方便后续的查看和反馈,详细操作方法请参见设备配套的配置指导手册中的“FTPTFTP配置”。

3.3  诊断信息收集

登录到设备后请执行display diagnostic-information命令,收集设备全部诊断信息包括启动配置、当前配置、接口信息、时间、系统版本等。

当设备配置较多或者运行时间较长时,可能会产生较多的诊断信息,为了缩短诊断信息的收集时间,也可以执行display diagnostic-information key-info命令,收集设备关键诊断信息。

执行display diagnostic-information命令前,请使用display cpu-usagedisplay memory命令查看CPU、内存使用率。如果CPU、内存使用率过高,请暂时不要执行display diagnostic-information命令,等CPU和内存使用率回落后再执行。

您可以通过如下方式获取诊断信息:

·     显示设备诊断信息

¡     # 显示设备全部诊断信息。

<Sysname> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N]:n

===============================================

  ===============display clock===============

14:03:55 UTC Thu 01/05/2021

=================================================

  ===============display version===============

其他显示信息略……。

¡     # 显示设备关键诊断信息。

<Sysname> display diagnostic-information key-info

Save or display diagnostic information (Y=save, N=display)? [Y/N]:n

===============================================

  ===============display clock===============

15:03:55 UTC Thu 01/05/2021

=================================================

  ===============display version===============

其他显示信息略……。

·     将收集到的诊断信息保存到文件。

¡     # 将收集到的全部诊断信息保存到文件。

<Sysname> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N]:y

Please input the file name(*.tar.gz)[flash:/diag_Sysname_20211020-194410.tar.gz]:

Diagnostic information is outputting to flash:/diag_Sysname_20211020-194410.tar.gz.

Please wait...

Save successfully.

¡     # 将收集到的关键诊断信息保存到文件。

<Sysname> display diagnostic-information key-info

Save or display diagnostic information (Y=save, N=display)? [Y/N]:y

Please input the file name(*.tar.gz)[flash:/diag_Sysname_20211020-194412.tar.gz]:

Diagnostic information is outputting to flash:/diag_Sysname_20211020-194412.tar.gz.

Please wait...

Save successfully.

缺省情况下,诊断文件路径为存储设备的根目录flash:/

诊断文件生成之后,您可以在用户视图下使用dir命令确认诊断文件是否正确生成,通过FTP/TFTP/SFTP等方式将诊断文件传输到您的工作电脑,方便后续的查看和反馈,详细操作方法请参见本设备配套的配置指导手册中的“FTPTFTP配置”。

4 无法登录设备的处理措施

如果发现无法通过TelnetSSH远程登录到设备进行操作,可以先尝试通过Console口登录到设备,检查并修改与TelnetSSH有关的配置。

说明: 注意

以下所有处理步骤都基于一个前提,即用户的业务已经中断,因此不会造成进一步的影响。如果用户业务并未中断,请不要进行以下的任何操作。您只需将故障信息收集后,及时联系代理商或H3C技术支持热线。

 

如果通过Console口也无法登录设备,则无法进行任何与命令行有关的操作,需要进行应急处理,具体处理步骤如下:

4.1  检查修复供电系统

如果发现设备或所有单板的指示灯都不亮,并且设备或所有单板的风扇都不转(可通过听声音辨别),有可能是供电系统出现故障。

(1)     检查电源模块的开关是否已打开。如果有多个电源模块,请保证使设备运行的电源模块开关均已打开。

(2)     参见2.1  检查设备指示灯状态是否正常章节,检查表示电源模块正常工作的指示灯是否点亮,初步判断电源模块是否存在输出短路、输出过流、输出过压、输入欠压、温度过热等问题。

(3)     如果电源模块输入异常,可通知电工检修机房/机架/机柜的供电线路,恢复供电;如果电源模块有异常,可尝试通过更换电源模块解决。

如果以上检查都未发现问题,但设备或单板仍无法正常加电,请及时联系代理商或H3C技术支持热线,寻求技术支持。

4.2  检查修改串口终端通信参数

请检查串口终端的通信参数是否与设备Console口的通信参数一致,如果不一致,请修改串口终端的通信参数。缺省情况下,设备的Console口通信参数为9600bps8位数据位、1位停止位、无校验和无流控(如有修改,以修改后的参数为准)。

4.3  检查主控板(框式设备)

排除了供电系统和串口通信方面的原因后,则很有可能是主控板发生了故障。正常工作状态下:主控板对应指示灯RUN处于闪烁状态,ALM处于灯灭状态。如果指示灯RUN处于灯灭状态,表示主控板有故障。

当主控板发生故障时,请参见下列步骤进行故障处理:

(1)     检查主控板是否安装到位。可以重新拉出主控板,并将其重新插入,拧紧安装螺钉,保证主控板安装到位。

(2)     通过短按主控板的系统复位键(RESET,位于主控板最右侧)进行主控板复位,待主控板启动完成后,再次查看指示灯RUN是否亮起。

(3)     如果设备上有空闲的主控板槽位,可以尝试将主控板插入空闲的槽位,查看工作状态是否正常。

(4)     使用备件更换主控板。

4.4  复位设备

可尝试复位设备来解决问题。复位设备可通过关闭设备所有电源开关,三分钟后再打开设备开关的方法来实施。

4.5  寻求技术支持

上述方法均无效后,请及时联系代理商或H3C技术支持热线,寻求技术支持。

5 高危操作警示

本章介绍在产品使用和维护过程中,所涉及到的可能会导致人身安全、设备故障、业务中断或异常的操作,包括硬件高危操作和命令行高危操作。要求运维人员在对设备进行操作前,请先了解可能带来的风险再进行操作,以降低事故发生率。

5.1  硬件高危操作

高危险的操作只能由有资质、且经过培训的维护人员执行。更多详细高危操作请参见《H3C交换机高危操作手册》文档。

表5-1 硬件高危操作(盒式设备)

操作大类

操作小类

扩展卡操作

严禁在设备启动过程中安装或拆卸扩展卡。

光模块操作

严禁在工作状态操作光纤时,用眼睛直视光模块的光发射口和与其相连的光纤连接器的光纤出口

线缆类操作

严禁随意拔插机柜内部的网线

风扇类操作

严禁在同一台设备上混插不同型号的风扇模块

严禁在设备运行时随意插拔风扇

严禁在未满配风扇模块时给设备上电

严禁在更换风扇模块模块时,接触转动中的风扇

电源类操作

严禁在设备运行时随意拔出电源

严禁随意操作机柜配电框内的电源开关

 

表5-2 硬件高危操作(框式设备)

操作大类

操作小类

单板类操作

没有安装单板的槽位请务必安装假面板

严禁随意在设备运行时拔出主用主控板

严禁随意按下主控板面板上的RESET按钮

严禁随意按下网板上的OFL按钮

光模块操作

严禁在工作状态操作光纤时,用眼睛直视光模块的光发射口和与其相连的光纤连接器的光纤出口

线缆类操作

严禁随意拔插机柜内部的网线

风扇类操作

严禁在设备运行时随意插拔风扇

禁止在未配置足够风扇框模块时给设备上电

严禁在更换风扇模块模块时,接触转动中的风扇

电源类操作

严禁在设备运行时随意拔出电源

严禁随意操作机柜配电框内的电源开关

对于双开关冗余控制的设备,如需下电维护,必须将两个开关同时置于OFF状态

 

5.2  软件高危操作

高危险的命令只能由有资质、且经过培训的维护人员执行。更多详细高危命令请参见《H3C交换机高危操作手册》文档。

表5-3 软件高危操作

模块

命令行

描述

高危提示

文件系统管理

delete [ /unreserved ] file

删除设备上的文件

delete /unreserved file命令用来永久删除文件,系统会将该文件从设备上彻底删除。被删除的文件不再存在,不能恢复。当缺省MDC的管理员执行delete file命令删除非缺省MDC文件系统中的文件时,系统将永久删除对应文件

文件系统管理

format

格式化文件系统

格式化操作将导致文件系统中的所有文件丢失,并且不可恢复;尤其需要注意的是,如果文件系统中有启动配置文件,格式化该文件系统,将丢失启动配置文件

设备管理

power-supply off

强制给单板断电

强制给单板下电后,单板将无法收发报文,请谨慎使用

设备管理

reboot

重启设备

重新启动可能会导致业务中断,请谨慎使用。使用force参数时,系统在重启时不会做任何保护性措施。重启后,可能导致文件系统损坏,请谨慎使用该参数。建议在系统故障或无法正常重启时,才使用该参数

接口公共配置

shutdown

关闭接口

执行本命令会导致使用该接口建立的链路中断,不能通信,请谨慎使用

接口公共配置

default

恢复当前接口的缺省配置

接口下的某些配置恢复到缺省情况后,会对设备上当前运行的业务产生影响,请谨慎使用

 

新华三官网
联系我们