• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 关于我们

H3C UniServer R4960 G3 V2服务器 BMC 告警处理手册-6W102

手册下载

H3C UniServer R4960 G3 V2服务器 BMC 告警处理手册-6W102-整本手册.pdf  (1.27 MB)

  • 发布时间:2023/4/19 13:48:33
  • 浏览量:
  • 下载量:

 

 

 

 

 

 

H3C UniServer R4960 G3 V2

 

BMC告警处理

 

 

 

 

 

资料版本:6W102-20230418

 

 

 

 

 


 

 

 

 

注意

 

 

 

由于产品版本升级或其他原因,本文档内容会不定期进行更新。除非另有约定,本文档仅作为使用指导,本文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。

 


 

前言... 1

1 告警简介... 1-1

1.1 告警信息简介... 1-1

1.2 告警内容说明... 1-2

2 温度告警... 2-1

2.1 ALM-0x12000001 风口温度过高(Chassis,轻微告警)... 2-2

2.2 ALM-0x12000003 进风口温度过高(Chassis,严重告警)... 2-4

2.3 ALM-0x12000013 进风口温度读取失败(Chassis,轻微告警)... 2-6

2.4 ALM-0x12000009 出风口温度过高(Chassis,轻微告警)... 2-7

2.5 ALM-0x1200000B 出风口温度过高(Chassis,严重告警)... 2-9

2.6 ALM-0x1200000D 出风口温度过高(Chassis,紧急告警)... 2-11

2.7 ALM-0x00000003 CPU温度过高即将触发降频(CPU,严重告警)... 2-13

2.8 ALM-0x00000005 CPU VDDQ温度过高(CPU,轻微告警)... 2-15

2.9 ALM-0x00000007 CPU VRD温度过高(CPU,轻微告警)... 2-17

2.10 ALM-0x000000C1 CPU VRD温度过高(CPU,紧急告警)... 2-19

2.11 ALM-0x01000001 CPU下挂内存温度过高(Memory,严重告警)... 2-21

2.12 ALM-0x02000015 硬盘温度过高(Disk,轻微告警)... 2-23

2.13 ALM-0x08000003 PCIe卡温度过高(PCIe Card,轻微告警)... 2-25

2.14 ALM-0x03000011 电源温度过高(PSU,严重告警)... 2-26

2.15 ALM-0x0D000003 网卡扣卡温度过高(NIC,轻微告警)... 2-28

2.16 ALM-0x00000061 CPU VRD温度读取失败(CPU,轻微告警)... 2-30

2.17 ALM-0x0100003B 内存温度过高(Memory,轻微告警)... 2-31

2.18 ALM-0x0100003F 内存温度读取失败(Memory,轻微告警)... 2-33

2.19 ALM-0x0000006D CPU核心温度过高(CPU,轻微告警)... 2-34

2.20 ALM-0x000000C3 CPU核心温度过高(CPU,严重告警)... 2-36

2.21 ALM-0x000000C5 CPU核心温度过高(CPU,紧急告警)... 2-38

2.22 ALM-0x01000055 内存温度过高(Memory,紧急告警)... 2-40

2.23 ALM-0x100000EB 主板光模块温度过高(Mainboard,轻微告警)... 2-42

2.24 ALM-0x100000ED 主板光模块温度读取失败(Mainboard,轻微告警)... 2-44

2.25 ALM-0x03000031 电源模块进风口温度过高(PSU,轻微告警)... 2-46

2.26 ALM-0x03000035 电源模块进风口温度过高(PSU,紧急告警)... 2-47

3 电源告警... 3-1

3.1 ALM-0x10000009 12V电压过低(Mainboard,严重告警)... 3-2

3.2 ALM-0x1000000B 系统12V电压过高(Mainboard,严重告警)... 3-4

3.3 ALM-0x10000067 系统12V电压读取失败(Mainboard,轻微告警)... 3-5

3.4 ALM-0x2C000007 系统异常下电(System,严重告警)... 3-6

3.5 ALM-0x03000007 电源冗余失效(PSU,严重告警)... 3-7

3.6 ALM-0x03000009 电源故障(PSU,严重告警)... 3-9

3.7 ALM-0x0300000D 电源输入丢失(PSU,紧急告警)... 3-10

3.8 ALM-0x0300000F 电源风扇故障(PSU,严重告警)... 3-11

3.9 ALM-0x08000039 PCIe RAID标卡BBU电压低(PCIe Card,严重告警)... 3-12

3.10 ALM-0x0800003B PCIe RAID标卡BBU故障(PCIe Card,严重告警)... 3-13

3.11 ALM-0x03000013 电源通讯异常(PSU,轻微告警)... 3-14

3.12 ALM-0x03000015 电源输出过压(PSU,严重告警)... 3-15

3.13 ALM-0x03000017 电源输出欠压或者无输出(PSU,严重告警)... 3-16

3.14 ALM-0x03000019 电源输出过流(PSU,严重告警)... 3-17

3.15 ALM-0x0300001B 电源输入过压(PSU,严重告警)... 3-18

3.16 ALM-0x0300001F 整机掉电(PSU,严重告警)... 3-19

3.17 ALM-0x1000000F Standby 3.3V电压过低(Mainboard,严重告警)... 3-20

3.18 ALM-0x10000011 Standby 3.3V电压过高(Mainboard,严重告警)... 3-21

3.19 ALM-0x10000017 主板板内电源异常(Mainboard,严重告警)... 3-22

3.20 ALM-0x2C00002B 上电超时(System,严重告警)... 3-23

3.21 ALM-0x05000001 硬盘背板电源异常(Disk Backplane,严重告警)... 3-27

3.22 ALM-0x2900000F 网卡光模块电压异常(Port,严重告警)... 3-28

3.23 ALM-0x0F000011 Riser卡电源故障(PCIe Riser,严重告警)... 3-29

3.24 ALM-0x0000008B CPUVDDFIX电压过高(CPU,严重告警)... 3-30

3.25 ALM-0x0000008D CPUVDDFIX电压过低(CPU,严重告警)... 3-31

3.26 ALM-0x0000008F CPUVDDFIX电压读取失败(CPU,轻微告警)... 3-33

3.27 ALM-0x0D000009 板载网卡电源模块异常(NIC,严重告警)... 3-34

3.28 ALM-0x00000091 CPUVDDAVS电压过高(CPU,严重告警)... 3-35

3.29 ALM-0x00000093 CPUVDDAVS电压过低(CPU,严重告警)... 3-36

3.30 ALM-0x00000095 CPUVDDAVS电压读取失败(CPU,轻微告警)... 3-38

3.31 ALM-0x00000097 CPUHVCC电压过高(CPU,严重告警)... 3-39

3.32 ALM-0x00000099 CPUHVCC电压过低(CPU,严重告警)... 3-40

3.33 ALM-0x0000009B CPUHVCC电压读取失败(CPU,轻微告警)... 3-41

3.34 ALM-0x000000A9 CPUVDDQAB电压过高(CPU,严重告警)... 3-43

3.35 ALM-0x000000AB CPUVDDQAB电压过低(CPU,严重告警)... 3-44

3.36 ALM-0x000000AD CPUVDDQAB电压读取失败(CPU,轻微告警)... 3-45

3.37 ALM-0x000000AF CPUVDDQCD电压过高(CPU,严重告警)... 3-46

3.38 ALM-0x000000B1 CPUVDDQCD电压过低(CPU,严重告警)... 3-48

3.39 ALM-0x000000B3 CPUVDDQCD电压读取失败(CPU,轻微告警)... 3-49

3.40 ALM-0x000000B5 CPUNVDDAVS电压过高(CPU,严重告警)... 3-50

3.41 ALM-0x000000B7 CPUNVDDAVS电压过低(CPU,严重告警)... 3-51

3.42 ALM-0x000000B9 CPUNVDDAVS电压读取失败(CPU,轻微告警)... 3-53

3.43 ALM-0x03000037 电源模块电压异常(PSU,紧急告警)... 3-54

4 看门狗告警... 4-1

4.1 ALM-0x2C000025 看门狗超时导致系统强制重启(System,严重告警)... 4-1

4.2 ALM-0x2C000027 看门狗超时导致系统下电(System,严重告警)... 4-2

4.3 ALM-0x2C000029 看门狗超时导致系统强制下电再上电(System,严重告警)... 4-3

5 管理子系统告警... 5-1

5.1 ALM-0x49000001 BMA建立转发映射表失败(BMA,轻微告警)... 5-1

5.2 ALM-0x08000069 PCIe卡巡检失败(PCIe Card,严重告警)... 5-3

5.3 ALM-0x08000005 PCIe标卡温度读取失败(PCIe Card,轻微告警)... 5-4

5.4 ALM-0x00000023 CPU核心温度读取失败(CPU,轻微告警)... 5-6

5.5 ALM-0x00000025 CPU VDDQ温度读取失败(CPU,轻微告警)... 5-7

5.6 ALM-0x12000017 出风口温度读取失败(Chassis,轻微告警)... 5-8

5.7 ALM-0x0D000005 网卡扣卡温度读取失败(NIC,轻微告警)... 5-9

5.8 ALM-0x10000089 主板电子标签读取失败(Mainboard,轻微告警)... 5-11

5.9 ALM-0x02000017 硬盘温度读取失败(Disk,轻微告警)... 5-12

6 存储告警... 6-1

6.1 ALM-0x02000007 硬盘故障(Disk,严重告警)... 6-1

6.2 ALM-0x02000009 硬盘预故障(Disk,轻微告警)... 6-3

6.3 ALM-0x0200000B 硬盘RAID阵列失效(Disk,严重告警)... 6-4

6.4 ALM-0x02000025 硬盘链路故障(Disk,严重告警)... 6-5

6.5 ALM-0x02000027 硬盘状态异常(Disk,轻微告警)... 6-7

6.6 ALM-0x02000029 硬盘有外部配置(Disk,轻微告警)... 6-8

6.7 ALM-0x0200002B 硬盘链路异常(Disk,轻微告警)... 6-9

6.8 ALM-0x0200002D 硬盘丢失(Disk,严重告警)... 6-11

6.9 ALM-0x02000013 硬盘MCE/AER错误(Disk,紧急告警)... 6-12

6.10 ALM-0x0200001D 硬盘剩余磨损率过低(Disk,严重告警)... 6-13

6.11 ALM-0x0200002F 硬盘与RAID卡之间链路的PHY误码增长过快(Disk,严重告警)... 6-15

6.12 ALM-0x02000031 硬盘与Expander控制器之间链路的PHY误码增长过快(Disk,严重告警)... 6-16

6.13 ALM-0x2C000071 文件系统只读(System,严重告警)... 6-18

7 风扇告警... 7-1

7.1 ALM-0x04000005 风扇冗余失效(Fan,严重告警)... 7-1

7.2 ALM-0x04000007 风扇转速偏差大(Fan,严重告警)... 7-2

8 内存告警... 8-1

8.1 ALM-0x2C00000D 系统POST检测到无内存(System,紧急告警)... 8-1

8.2 ALM-0x01000015 内存配置错误(Memory,紧急告警)... 8-3

8.3 ALM-0x01000017 DIMM MCE错误(Memory,紧急告警)... 8-4

8.4 ALM-0x2C00004F 系统无可用内存(System,紧急告警)... 8-6

8.5 ALM-0x01000057 内存初始化错误(Memory,严重告警)... 8-8

8.6 ALM-0x01000059 内存配置错误(Memory,严重告警)... 8-9

9 其他告警... 9-1

9.1 ALM-0x000000BB CPU内存通道故障(CPU,轻微告警)... 9-2

9.2 ALM-0x0800005D PCIe卡自检失败(PCIe Card,严重告警)... 9-4

9.3 ALM-0x08000061 PCIe卡产生不可恢复故障(PCIe Card,紧急告警)... 9-5

9.4 ALM-0x08000063 PCIe卡光模块温度过高(PCIe Card,轻微告警)... 9-6

9.5 ALM-0x08000089 PCIeMINI模块健康状态获取失败(PCIe Card,轻微告警)... 9-8

9.6 ALM-0x0800008B PCIe卡降频(PCIe Card,轻微告警)... 9-9

9.7 ALM-0x0800008D PCIe卡下电(PCIe Card,严重告警)... 9-11

9.8 ALM-0x1A00002F Nand Flash寿命低于阈值(BMC,严重告警)... 9-13

9.9 ALM-0x1A000031 Nand Flash预留块低于阈值(BMC,严重告警)... 9-14

9.10 ALM-0x45000005 PCIe Retimer加载失败(PCIe Retimer,轻微告警)... 9-15

9.11 ALM-0x00000073 CPU不在位(CPU,严重告警)... 9-16

9.12 ALM-0x100000B1 板载网卡MCE/AER错误(Mainboard,紧急告警)... 9-17

9.13 ALM-0x22000001 TPM自检失败(Security Module,轻微告警)... 9-18

9.14 ALM-0x1000000D 主板RTC电池电压低(Mainboard,严重告警)... 9-19

9.15 ALM-0x06000025 RAID扣卡控制器通信丢失(RAID Card,严重告警)... 9-20

9.16 ALM-0x06000027 RAID扣卡控制器初始化异常(RAID Card,严重告警)... 9-22

9.17 ALM-0x08000001 标准PCIeMCE/AER故障(PCIe Card,紧急告警)... 9-23

9.18 ALM-0x08000007 PCIe标卡FRU数据读取失败(PCIe Card,轻微告警)... 9-24

9.19 ALM-0x0800004B RAID标卡故障(PCIe Card,严重告警)... 9-26

9.20 ALM-0x08000095 RAID标卡控制器通信丢失(PCIe Card,严重告警)... 9-27

9.21 ALM-0x08000097 RAID标卡控制器初始化异常(PCIe Card,严重告警)... 9-29

9.22 ALM-0x28000003 CPLD信号线连接异常(Cable,严重告警)... 9-30

9.23 ALM-0x2C000031 系统错误(System,紧急告警)... 9-31

9.24 ALM-0x0000001D CPU MCE/AER错误(CPU,紧急告警)... 9-32

9.25 ALM-0x0D000001 网卡扣卡MCE/AER错误(Network Card,紧急告警)... 9-34

9.26 ALM-0x2C000039 系统启动中断(System,紧急告警)... 9-35

9.27 ALM-0x10000061 视频控制器故障(Mainboard,紧急告警)... 9-36

9.28 ALM-0x10000093 PS/2USB键盘控制器故障(Mainboard,紧急告警)... 9-37

9.29 ALM-0x10000013 单板硬件地址错误(Mainboard,严重告警)... 9-38

9.30 ALM-0x10000015 主板CPLD自检状态(Mainboard,严重告警)... 9-39

9.31 ALM-0x100000A9 主板时钟丢失(Mainboard,严重告警)... 9-40

9.32 ALM-0x29000017 网卡光模块的功率异常(Port,严重告警)... 9-41

9.33 ALM-0x29000027 网卡光模块速率不匹配(Port,严重告警)... 9-42

9.34 ALM-0x12000019 右挂耳不在位(Chassis,轻微告警)... 9-43

9.35 ALM-0x12000021 左挂耳不在位(Chassis,轻微告警)... 9-45

9.36 ALM-0x1A00003D 许可证文件错误(BMC,严重告警)... 9-46

9.37 ALM-0x08000087 PCIeMINI模块故障(PCIe Card,严重告警)... 9-47

9.38 ALM-0x1A000023 证书过期或即将过期(BMC,轻微告警)... 9-48

9.39 ALM-0x2800001F CPUHCCS连接失败(Cable,严重告警)... 9-49

9.40 ALM-0x2C000073 系统总功耗过高(System,轻微告警)... 9-51

10 事件类告警... 10-1


概述

本文档针对4960 G3 V2服务器BMC的各类告警,从告警含义、对系统的影响、可能的原因、解决的步骤等方面进行详细的介绍。

本文档适用于S920XA0型号主板。

读者对象

本文档主要适用于以下工程师:

l     技术支持工程师

l     维护工程师

符号约定

在本文中可能出现下列标志,它们所代表的含义如下。

符号

说明

表示如不避免则将会导致死亡或严重伤害的具有高等级风险的危害。

表示如不避免则可能导致死亡或严重伤害的具有中等级风险的危害。

表示如不避免则可能导致轻微或中度伤害的具有低等级风险的危害。

用于传递设备或环境安全警示信息。如不避免则可能会导致设备损坏、数据丢失、设备性能降低或其它不可预知的结果。

“须知”不涉及人身伤害。

对正文中重点信息的补充说明。

“说明”不是安全警示信息,不涉及人身、设备及环境伤害信息。

 


1 告警简介

对告警的内容、格式等相关信息进行介绍。

1.1  告警信息简介

简要地介绍告警信息。

1.2  告警内容说明

介绍告警的格式及说明信息。

1.1 告警信息简介

简要地介绍告警信息。

当设备发生故障或某些原因导致系统处于不正常的工作状态时,系统能够根据不同类型及不同模块出现的故障产生告警信息,同时生成日志信息。若配置了网管系统,则该告警信息会通过SNMPSimple Network Management Protocol)协议向网管系统发送。设备能检测设备所处的环境,若超出设备正常工作的环境要求,会发出相应的告警信息。

事件和故障

告警按照对系统的影响又可分为:

l     事件

事件是指系统正常运行时记录下来的关键事件,一般对系统没有影响。

l     故障

故障是指可能影响系统的正常运行的告警。

事件类告警对系统没有影响,本文档只介绍故障类告警。

查看告警方法

可以通过以下几种方式查看告警信息:

l     通过显示终端,进入BMC管理软件的命令行,执行ipmcget -d healthevents命令查询当前的告警信息。

l     通过网管软件查看告警信息。

l     通过BMCWeb管理界面查看告警信息。

告警级别

服务器产品的告警可分三个级别,按告警严重性分为:

l     轻微告警(Minor

轻微告警不会对系统产生大的影响,需要尽快采取相应的措施,防止故障升级。

l     严重告警(Major)

严重告警将会对系统产生较大的影响,有可能中断部分系统的正常运行,导致业务中断。

l     紧急告警(Critical)

紧急告警可能会使单板下电,系统中断。需要马上采取相应的措施进行处理。

服务器系统的告警包含服务器系统所有部件的告警,当产生告警时,需要根据告警的参数信息来定位告警具体原因。

1.2 告警内容说明

介绍告警的格式及说明信息。

告警格式

BMC WebUI中,BMC的告警信息包括如下参数:

l     级别

l     主体类型

l     事件描述

l     产生时间

l     事件码

l     处理建议

详细信息请参见BMC WebUI的“当前告警”页面。

BMC CLI中,告警信息包含“级别”、“事件码”、“事件描述”、“产生时间”。

告警信息说明

本文档从以下几个方面介绍告警:

l     告警解释

说明告警中的以下信息:

     告警描述

     告警代表的意义

     产生告警的主体

     告警部件的BOM编码及SN

l     BMC V383之前版本,告警描述中部件BOM编码的引导词为PN

l     BMC V383及之后版本,告警描述中部件BOM编码的引导词由PN改为BN

l     告警属性

     告警ID:表示告警对应的16进制事件码。

     告警级别:表示告警对应故障对业务的影响程度。

     可自动清除:表示产生该告警的故障排除后,告警信息是否会自动清除。

l     告警参数

说明告警信息中各个字段的含义。

l     对系统的影响

说明产生此告警后,对系统所产生的影响。

l     可能原因

说明导致此告警产生的原因。

l     处理步骤

当出现此告警时,应该采取的解决方法和步骤。


2 温度告警

介绍服务器可能产生的温度告警。

2.1  ALM-0x12000001 进风口温度过高(Chassis,轻微告警)

2.2  ALM-0x12000003 进风口温度过高(Chassis,严重告警)

2.3  ALM-0x12000013 进风口温度读取失败(Chassis,轻微告警)

2.4  ALM-0x12000009 出风口温度过高(Chassis,轻微告警)

2.5  ALM-0x1200000B 出风口温度过高(Chassis,严重告警)

2.6  ALM-0x1200000D 出风口温度过高(Chassis,紧急告警)

2.7  ALM-0x00000003 CPU温度过高即将触发降频(CPU,严重告警)

2.8  ALM-0x00000005 CPU VDDQ温度过高(CPU,轻微告警)

2.9  ALM-0x00000007 CPU VRD温度过高(CPU,轻微告警)

2.10  ALM-0x000000C1 CPU VRD温度过高(CPU,紧急告警)

2.11  ALM-0x01000001 CPU下挂内存温度过高(Memory,严重告警)

2.12  ALM-0x02000015 硬盘温度过高(Disk,轻微告警)

2.13  ALM-0x08000003 PCIe卡温度过高(PCIe Card,轻微告警)

2.14  ALM-0x03000011 电源温度过高(PSU,严重告警)

2.15  ALM-0x0D000003 网卡扣卡温度过高(NIC,轻微告警)

2.16  ALM-0x00000061 CPU VRD温度读取失败(CPU,轻微告警)

2.17  ALM-0x0100003B 内存温度过高(Memory,轻微告警)

2.18  ALM-0x0100003F 内存温度读取失败(Memory,轻微告警)

2.19  ALM-0x0000006D CPU核心温度过高(CPU,轻微告警)

2.20  ALM-0x000000C3 CPU核心温度过高(CPU,严重告警)

2.21  ALM-0x000000C5 CPU核心温度过高(CPU,紧急告警)

2.22  ALM-0x01000055 内存温度过高(Memory,紧急告警)

2.23  ALM-0x100000EB 主板光模块温度过高(Mainboard,轻微告警)

2.24  ALM-0x100000ED 主板光模块温度读取失败(Mainboard,轻微告警)

2.25  ALM-0x03000031 电源模块进风口温度过高(PSU,轻微告警)

2.26  ALM-0x03000035 电源模块进风口温度过高(PSU,紧急告警)

2.1 ALM-0x12000001 进风口温度过高(Chassis,轻微告警)

告警解释

告警描述:

The air inlet temperature (arg1 degrees C) exceeds the overtemperature threshold (arg2 degrees C).

当检测到进风口温度高于轻微告警阈值时,产生此告警,当温度恢复到正常范围内时,此告警恢复。

产生此告警的主体类型为:Chassis

告警属性

告警ID

告警级别

可自动清除

0x12000001

轻微

告警参数

参数名称

参数含义

arg1

对应传感器的当前读数。

arg2

告警门限。

对系统的影响

进风口温度过高会影响器件性能,导致设备运行不稳定。

可能原因

l     环境温度过高。

l     进风口被堵住。

l     存在空槽位或间隔。

l     进风口传感器所在部件故障。

不同服务器上进风口传感器所在部件不同,部件的位置也不尽相同,详细信息请参考服务器用户指南。

处理步骤

                                步骤 1     检查机房环境温度是否已超出设备运行环境要求的温度。正常环境温度的建议值是不超过40摄氏度。

l      => 步骤2

l      => 步骤3

                                步骤 2     利用机房内的空调、风扇等设备来降低机房内的温度(比如调低空调的温度,增大风扇的转速。如果空调设备不可用,可以打开门窗,增加机房内的通风),5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     检查设备所在机柜内的温度是否超出设备运行环境要求的温度。

l      => 步骤4

l      => 步骤5

                                步骤 4     清除机柜附近遮挡物保证机柜进风/出风通畅,5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤5

                                步骤 5     检查服务器进风口是否有异物堵塞。

l      => 步骤6

l      => 步骤7

                                步骤 6     清除异物,5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤7

                                步骤 7     检查服务器之间的空槽位或间隔是否已加假面板或挡板。

l      => 步骤9

l      => 步骤8

                                步骤 8     为服务器之间的空槽位或间隔安装假面板或挡板,检查告警是否清除。

l      => 处理完毕

l      => 步骤9

                                步骤 9     更换传感器所在部件,检查告警是否清除。

l      => 处理完毕

l      => 步骤10

                             步骤 10     请联系技术支持工程师处理。

----结束

2.2 ALM-0x12000003 进风口温度过高(Chassis,严重告警)

告警解释

告警描述:

The air inlet temperature (arg1 degrees C) exceeds the overtemperature threshold (arg2 degrees C).

当检测到进风口温度高于严重告警阈值时,产生此告警,当温度恢复到正常范围内时,此告警恢复。

产生此告警的主体类型为:Chassis

告警属性

告警ID

告警级别

可自动清除

0x12000003

严重

告警参数

参数名称

参数含义

arg1

对应传感器的当前读数。

arg2

告警门限。

对系统的影响

进风口温度过高会影响器件性能,导致设备运行不稳定。

可能原因

l     环境温度过高。

l     进风口被堵住。

l     存在空槽位或间隔。

l     进风口传感器所在部件故障。

不同服务器上进风口传感器所在部件不同,部件的位置也不尽相同,详细信息请参考服务器用户指南。

处理步骤

                                步骤 1     检查机房环境温度是否已超出设备运行环境要求的温度。正常环境温度的建议值是不超过40摄氏度。

l      => 步骤2

l      => 步骤3

                                步骤 2     利用机房内的空调、风扇等设备来降低机房内的温度(比如调低空调的温度,增大风扇的转速。如果空调设备不可用,可以打开门窗,增加机房内的通风),5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     检查设备所在机柜内的温度是否超出设备运行环境要求的温度。

l      => 步骤4

l      => 步骤5

                                步骤 4     清除机柜附近遮挡物保证机柜进风/出风通畅,5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤5

                                步骤 5     检查服务器进风口是否有异物堵塞。

l      => 步骤6

l      => 步骤7

                                步骤 6     清除异物,5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤7

                                步骤 7     检查服务器之间的空槽位或间隔是否已加假面板或挡板。

l      => 步骤9

l      => 步骤8

                                步骤 8     为服务器之间的空槽位或间隔安装假面板或挡板,检查告警是否清除。

l      => 处理完毕

l      => 步骤9

                                步骤 9     更换传感器所在部件,检查告警是否清除。

l      => 处理完毕

l      => 步骤10

                             步骤 10     请联系技术支持工程师处理。

----结束

2.3 ALM-0x12000013 进风口温度读取失败(Chassis,轻微告警)

告警解释

告警描述:

Failed to obtain data of the air inlet temperature.

当读取进风口温度失败时,产生此告警。

产生此告警的主体类型为:Chassis

告警属性

告警ID

告警级别

可自动清除

0x12000013

轻微

告警参数

参数名称

参数含义

对系统的影响

无法正常监控温度,温度异常时无法及时告警。

可能原因

l     ME故障或者访问通道异常。

l     进风口传感器所在部件的线缆连接异常。

l     进风口传感器所在部件故障。

不同服务器上进风口传感器所在部件不同,部件的位置也不尽相同,详细信息请参考服务器用户指南。

处理步骤

                                步骤 1     登录BMCWeb界面或命令行。

登录方法请参考服务器BMC用户指南。

                                步骤 2     重启BMC

l     Web界面中,可通过“固件升级”界面的“重启BMC”实现重启操作。

l     命令行下,可通过ipmcset -d reset命令实现重启操作。

                                步骤 3     重启完成后,查看告警是否清除。

l      => 处理完毕

l      =>

                                步骤 4     更换进风口传感器所在部件,检查告警是否清除。

l      => 处理完毕

l      => 步骤5

                                步骤 5     请联系技术支持工程师处理。

----结束

2.4 ALM-0x12000009 出风口温度过高(Chassis,轻微告警)

告警解释

告警描述:

The air outlet arg1 temperature (arg2 degrees C) exceeds the overtemperature threshold (arg3 degrees C).

当检测到出风口温度高于轻微告警阈值时,产生此告警,当温度恢复到正常范围内时,此告警恢复。

产生此告警的主体类型为:Chassis

告警属性

告警ID

告警级别

可自动清除

0x12000009

轻微

告警参数

参数名称

参数含义

arg1

出风口编号。

arg2

对应传感器的当前读数。

arg3

告警门限。

对系统的影响

出风口温度过高会影响器件性能,导致设备运行不稳定。

可能原因

l     环境温度过高。

l     进风口/出风口被堵住。

l     存在空槽位或间隔。

l     出风口传感器所在部件故障。

处理步骤

                                步骤 1     检查机房环境温度是否已超出设备运行环境要求的温度。

l      => 步骤2

l      => 步骤3

                                步骤 2     将机房环境温度降低至设备运行环境要求的温度,5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     检查设备所在机柜内的温度是否超出设备运行环境要求的温度。

l      => 步骤4

l      => 步骤5

                                步骤 4     清除机柜附近遮挡物保证机柜进风/出风通畅,5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤5

                                步骤 5     检查服务器进风口或出风口是否有异物堵塞。

l      => 步骤6

l      => 步骤7

                                步骤 6     清除异物,5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤7

                                步骤 7     检查服务器之间的空槽位或间隔是否已加假面板或挡板。

l      => 步骤9

l      => 步骤8

                                步骤 8     为服务器之间的空槽位或间隔安装假面板或挡板,检查告警是否清除。

l      => 处理完毕

l      => 步骤9

                                步骤 9     更换传感器所在部件,检查告警是否清除。

出风口温度传感器位于节点的主板上。

l      => 处理完毕

l      => 步骤10

                             步骤 10     请联系技术支持工程师处理。

----结束

2.5 ALM-0x1200000B 出风口温度过高(Chassis,严重告警)

告警解释

告警描述:

The air outlet arg1 temperature (arg2 degrees C) exceeds the overtemperature threshold (arg3 degrees C).

当检测到出风口温度高于严重告警阈值时,产生此告警,当温度恢复到正常范围内时,此告警恢复。

产生此告警的主体类型为:Chassis

告警属性

告警ID

告警级别

可自动清除

0x1200000B

严重

 

告警参数

参数名称

参数含义

arg1

出风口编号。

arg2

对应传感器的当前读数。

arg3

告警门限。

 

对系统的影响

出风口温度过高会影响器件性能,导致设备运行不稳定。

可能原因

l     环境温度过高。

l     进风口/出风口被堵住。

l     存在空槽位或间隔。

l     出风口传感器所在部件故障。

处理步骤

                                步骤 1     检查机房环境温度是否已超出设备运行环境要求的温度。

l      => 步骤2

l      => 步骤3

                                步骤 2     将机房环境温度降低至设备运行环境要求的温度,5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     检查设备所在机柜内的温度是否超出设备运行环境要求的温度。

l      => 步骤4

l      => 步骤5

                                步骤 4     清除机柜附近遮挡物保证机柜进风/出风通畅,5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤5

                                步骤 5     检查服务器进风口或出风口是否有异物堵塞。

l      => 步骤6

l      => 步骤7

                                步骤 6     清除异物,5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤7

                                步骤 7     检查服务器之间的空槽位或间隔是否已加假面板或挡板。

l      => 步骤9

l      => 步骤8

                                步骤 8     为服务器之间的空槽位或间隔安装假面板或挡板,检查告警是否清除。

l      => 处理完毕

l      => 步骤9

                                步骤 9     更换传感器所在部件,检查告警是否清除。

传感器所在部件请参考服务器用户指南。

l      => 处理完毕

l      => 步骤10

                             步骤 10     请联系技术支持工程师处理。

----结束

2.6 ALM-0x1200000D 出风口温度过高(Chassis,紧急告警)

告警解释

告警描述:

The air outlet arg1 temperature (arg2 degrees C) exceeds the overtemperature threshold (arg3 degrees C).

当检测到出风口温度高于紧急告警阈值时,产生此告警,当温度恢复到正常范围内时,此告警恢复。

产生此告警的主体类型为:Chassis

告警属性

告警ID

告警级别

可自动清除

0x1200000D

紧急

 

告警参数

参数名称

参数含义

arg1

出风口编号。

arg2

对应传感器的当前读数。

arg3

告警门限。

 

对系统的影响

出风口温度过高会影响器件性能,导致设备运行不稳定。

可能原因

l     环境温度过高。

l     进风口/出风口被堵住。

l     存在空槽位或间隔。

l     出风口传感器所在部件故障。

处理步骤

                                步骤 1     检查机房环境温度是否已超出设备运行环境要求的温度。

l      => 步骤2

l      => 步骤3

                                步骤 2     将机房环境温度降低至设备运行环境要求的温度,5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     检查设备所在机柜内的温度是否超出设备运行环境要求的温度。

l      => 步骤4

l      => 步骤5

                                步骤 4     清除机柜附近遮挡物保证机柜进风/出风通畅,5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤5

                                步骤 5     检查服务器进风口或出风口是否有异物堵塞。

l      => 步骤6

l      => 步骤7

                                步骤 6     清除异物,5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤7

                                步骤 7     检查服务器之间的空槽位或间隔是否已加假面板或挡板。

l      => 步骤9

l      => 步骤8

                                步骤 8     为服务器之间的空槽位或间隔安装假面板或挡板,检查告警是否清除。

l      => 处理完毕

l      => 步骤9

                                步骤 9     更换传感器所在部件,检查告警是否清除。

传感器所在部件请参考服务器用户指南。

l      => 处理完毕

l      => 步骤10

                             步骤 10     请联系技术支持工程师处理。

----结束

2.7 ALM-0x00000003 CPU温度过高即将触发降频(CPU,严重告警)

告警解释

告警描述:

CPU arg1 temperature is too high and will be underclocked (SN: arg2, BN: arg3).

BMC V316及以上版本,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

CPU温度过高可能触发降频时,CPU主动上报温度过高信号,BMC检测到该信号后,产生此告警。

l     BIOS1.08之后版本时,在CPU温度恢复到正常范围后,此告警恢复。

l     BIOS1.08及之前版本时,需要待CPU频率恢复到正常规格后,且CPU温度在30分钟内维持在98°C以下,此告警方可恢复。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x00000003

严重

告警参数

参数名称

参数含义

arg1

告警相关的CPU的槽位号。

arg2

CPU的序列号。

arg3

BOM编码。

对系统的影响

温度过高会引起CPU降频,从而导致系统性能下降。

可能原因

l     风扇模块故障。

l     环境温度过高。

l     进风口/出风口堵塞。

l     存在空槽位或间隔。

l     未安装导风罩。

l     散热器接触不良或液冷装置故障。

l     CPU故障。

处理步骤

                                步骤 1     检查服务器是否同时存在进风口或出风口高温告警。

l      => 步骤2

l      => 步骤3

                                步骤 2     按照进风口/出风口高温告警的处理方法进行操作,检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     检查服务器是否同时存在风扇告警。

l      => 步骤4

l      => 步骤5

                                步骤 4     按照风扇告警的处理方法进行操作,检查告警是否清除。

l      => 处理完毕

l      => 步骤5

                                步骤 5     将服务器下电后,检查服务器内部的导风罩是否已正确安装。

l      => 步骤7

l      => 步骤6

                                步骤 6     正确安装导风罩后,将服务器上电,检查告警是否清除。

l      => 处理完毕

l      => 步骤7

                                步骤 7     将服务器下电后,检查CPU散热器或液冷装置是否安装正确。

l      => 步骤9

l      => 步骤8

                                步骤 8     正确安装CPU散热器或液冷装置后,将服务器上电,检查告警是否清除。

l      => 处理完毕

l      => 步骤9

                                步骤 9     更换产生告警的CPU,检查告警是否清除。

l      => 处理完毕

l      => 步骤10

                             步骤 10     请联系技术支持工程师处理。

----结束

2.8 ALM-0x00000005 CPU VDDQ温度过高(CPU,轻微告警)

告警解释

告警描述:

CPU arg1 DIMMs VDDQ temperature (arg2 degrees C) exceeds the overtemperature threshold (arg3 degrees C) (SN: arg4, BN: arg5).

BMC V316及以上版本,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

当检测到CPUVDDQ温度高于轻微告警阈值时,产生此告警,当温度恢复到正常范围内时,此告警恢复。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x00000005

轻微

告警参数

参数名称

参数含义

arg1

告警相关的CPU的槽位号。

arg2

对应传感器的当前读数。

arg3

告警门限。

arg4

CPU的序列号。

arg5

BOM编码。

对系统的影响

主板为CPU下挂内存供电,当此模块温度过高,会触发服务器自动下电。

可能原因

l     风扇模块故障。

l     环境温度过高。

l     进风口/出风口堵塞。

l     未安装导风罩。

l     主板故障。

处理步骤

                                步骤 1     检查风扇模块是否存在低转速告警。

l      => 步骤2

l      => 步骤3

                                步骤 2     更换产生告警的风扇,5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     检查机房环境温度是否超出设备运行环境要求的温度。

l      => 步骤4

l      => 步骤5

                                步骤 4     将机房环境温度降低至设备运行环境要求的温度。5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤5

                                步骤 5     检查服务器进风口或出风口是否有异物堵塞。

l      => 步骤6

l      => 步骤7

                                步骤 6     清除异物,5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤7

                                步骤 7     检查服务器内部是否正确安装导风罩。

l      => 步骤9

l      => 步骤8

                                步骤 8     安装导风罩,检查告警是否清除。

l      => 处理完毕

l      => 步骤9

                                步骤 9     更换主板,检查告警是否清除。

l      => 处理完毕

l      => 步骤10

                             步骤 10     请联系技术支持工程师处理。

----结束

2.9 ALM-0x00000007 CPU VRD温度过高(CPU,轻微告警)

告警解释

告警描述:

The CPU arg1 VRD temperature (arg2 degrees C) exceeds the overtemperature threshold (arg3 degrees C) (SN: arg4, BN: arg5).

BMC V316及以上版本,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

当检测到CPUVRD温度高于轻微告警阈值时,产生此告警,当温度恢复到正常范围内时,此告警恢复。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x00000007

轻微

告警参数

参数名称

参数含义

arg1

告警相关的CPU的槽位号。

arg2

对应传感器的当前读数。

arg3

告警门限。

arg4

CPU的序列号。

arg5

BOM编码。

对系统的影响

主板为CPU供电,当此模块温度过高,会触发服务器自动下电。

可能原因

l     风扇模块故障。

l     环境温度过高。

l     进风口/出风口堵塞。

l     未安装导风罩。

l     主板故障。

处理步骤

                                步骤 1     检查风扇模块是否存在低转速告警。

l      => 步骤2

l      => 步骤3

                                步骤 2     更换产生告警的风扇,5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     检查机房环境温度是否超出设备运行环境要求的温度。

l      => 步骤4

l      => 步骤5

                                步骤 4     将机房环境温度降低至设备运行环境要求的温度。5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤5

                                步骤 5     检查服务器进风口或出风口是否有异物堵塞。

l      => 步骤6

l      => 步骤7

                                步骤 6     清除异物,5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤7

                                步骤 7     检查服务器内部是否正确安装导风罩。

l      => 步骤9

l      => 步骤8

                                步骤 8     安装导风罩,检查告警是否清除。

l      => 处理完毕

l      => 步骤9

                                步骤 9     更换主板,检查告警是否清除。

l      => 处理完毕

l      => 步骤10

                             步骤 10     请联系技术支持工程师处理。

----结束

2.10 ALM-0x000000C1 CPU VRD温度过高(CPU,紧急告警)

告警解释

告警描述:

The CPU arg1 VRD temperature (arg2 degrees C) exceeds the overtemperature threshold (arg3 degrees C) (SN: arg4, BN: arg5).

BMC V316及以上版本,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

当检测到CPUVRD温度高于严重告警阈值时,产生此告警,当温度恢复到正常范围内时,此告警恢复。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x000000C1

紧急

 

告警参数

参数名称

参数含义

arg1

告警相关的CPU的槽位号。

arg2

对应传感器的当前读数。

arg3

告警门限。

arg4

CPU的序列号。

arg5

BOM编码。

 

对系统的影响

主板为CPU供电,当此模块温度过高,会触发服务器自动下电。

可能原因

l     环境温度过高。

l     进风口/出风口堵塞。

l     存在空槽位或间隔。

l     风扇模块故障。

l     未安装导风罩。

l     主板故障。

处理步骤

                                步骤 1     检查风扇模块是否存在告警。

l      => 步骤2

l      => 步骤3

                                步骤 2     更换产生告警的风扇,5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     检查机房环境温度是否超出设备运行环境要求的温度。

l      => 步骤4

l      => 步骤5

                                步骤 4     将机房环境温度降低至设备运行环境要求的温度。5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤5

                                步骤 5     检查服务器进风口或出风口是否有异物堵塞。

l      => 步骤6

l      => 步骤7

                                步骤 6     清除异物,5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤7

                                步骤 7     检查服务器内部是否正确安装导风罩。

l      => 步骤9

l      => 步骤8

                                步骤 8     安装导风罩,检查告警是否清除。

l      => 处理完毕

l      => 步骤9

                                步骤 9     更换服务器主板,检查告警是否清除。

l      => 处理完毕

l      => 步骤10

                             步骤 10     请联系技术支持工程师处理。

----结束

2.11 ALM-0x01000001 CPU下挂内存温度过高(Memory,严重告警)

告警解释

告警描述:

Temperature of the DIMMs connected to CPU arg1 is too high.

此告警不支持上报其序列号或BOM编码。

当检测到特定CPU对应的内存温度过高时,产生此告警,当温度恢复到正常范围内时,此告警恢复。

产生此告警的主体类型为:Memory

告警属性

告警ID

告警级别

可自动清除

0x01000001

严重

告警参数

参数名称

参数含义

arg1

告警相关的CPU的槽位号。

对系统的影响

温度过高会导致内存运行不稳定或故障,从而导致服务器性能降低。

可能原因

l     风扇模块故障。

l     环境温度过高。

l     进风口/出风口堵塞。

l     存在空槽位或间隔。

l     未安装导风罩。

l     内存故障。

处理步骤

                                步骤 1     检查服务器是否存在风扇模块告警。

l      => 步骤2

l      => 步骤3

                                步骤 2     更换产生告警的风扇,5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     检查机房环境温度是否超出设备运行环境要求的温度。

l      => 步骤4

l      => 步骤5

                                步骤 4     将机房环境温度降低至设备运行环境要求的温度,5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤5

                                步骤 5     检查服务器进风口或出风口是否有异物堵塞。

l      => 步骤6

l      => 步骤7

                                步骤 6     清除异物,5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤7

                                步骤 7     检查服务器之间的空槽位或间隔是否已加假面板或挡板。

l      => 步骤9

l      => 步骤8

                                步骤 8     为服务器之间的空槽位或间隔安装假面板或挡板,检查告警是否清除。

l      => 处理完毕

l      => 步骤9

                                步骤 9     将服务器下电后,检查服务器内部的导风罩是否已正确安装。

l      => 步骤11

l      => 步骤10

                             步骤 10     正确安装导风罩后,将服务器上电,检查告警是否清除。

l      => 处理完毕

l      => 步骤11

                             步骤 11     更换内存,待服务器上电后检查告警是否清除。

l      => 处理完毕

l      => 步骤12

                             步骤 12     请联系技术支持工程师处理。

----结束

2.12 ALM-0x02000015 硬盘温度过高(Disk,轻微告警)

告警解释

告警描述:

The [arg1] disk arg2 temperature (arg3 degrees C) exceeds the threshold (arg4 degrees C) (SN: arg5).

BMC V316及以上版本,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

当检测到硬盘温度高于轻微告警阈值时,产生此告警,当温度恢复到正常范围内时,此告警恢复。

产生此告警的主体类型为:Disk

告警属性

告警ID

告警级别

可自动清除

0x02000015

轻微

告警参数

参数名称

参数含义

arg1

告警相关硬盘的位置,例如“front”、“rear”等。

arg2

告警相关硬盘的槽位号。

arg3

对应传感器的当前读数。

arg4

告警门限。

arg5

硬盘的序列号。

对系统的影响

可能导致硬盘运行不稳定或故障,系统停止响应或数据丢失。

可能原因

l     风扇模块故障。

l     环境温度过高。

l     进风口或出风口堵塞。

l     存在空槽位或间隔。

l     硬盘故障。

处理步骤

                                步骤 1     检查服务器是否存在风扇模块告警。

l      => 步骤2

l      => 步骤3

                                步骤 2     更换产生告警的风扇,5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     检查机房环境温度是否超出设备运行环境要求的温度。

l      => 步骤4

l      => 步骤5

                                步骤 4     将机房环境温度降低至设备运行环境要求的温度,5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤5

                                步骤 5     检查服务器进风口或出风口是否有异物堵塞。

l      => 步骤6

l      => 步骤7

                                步骤 6     清除异物,5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤7

                                步骤 7     检查服务器之间的空槽位或间隔是否已加假面板或挡板。

l      => 步骤9

l      => 步骤8

                                步骤 8     为服务器之间的空槽位或间隔安装假面板或挡板,检查告警是否清除。

l      => 处理完毕

l      => 步骤9

                                步骤 9     更换硬盘,检查告警是否清除。

l      => 处理完毕

l      => 步骤10

                             步骤 10     请联系技术支持工程师处理。

----结束

2.13 ALM-0x08000003 PCIe卡温度过高(PCIe Card,轻微告警)

告警解释

告警描述:

The arg1 arg2 arg3 temperature (arg4 degrees C) exceeds the overtemperature threshold (arg5 degrees C).

当检测到PCIe卡的温度高于温度告警阈值时,产生此告警,当温度恢复到正常范围内时,此告警恢复。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x08000003

轻微

告警参数

参数名称

参数含义

arg1

PCIe卡的位置,例如“front”、“rear”等。

arg2

PCIe卡的槽位号,例如“1”、“2”。

arg3

PCIe卡的类型,例如“M60 GPU”。

arg4

对应传感器的当前读数。

arg5

告警门限。

对系统的影响

温度过高会导致PCIe设备运行不稳定或故障,从而引起系统运行异常。

可能原因

l     风扇模块故障。

l     环境温度过高。

l     进风口/出风口堵塞。

l     PCIe卡故障。

处理步骤

                                步骤 1     检查风扇模块是否存在低转速告警。

l      => 步骤2

l      => 步骤3

                                步骤 2     更换产生告警的风扇,5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     检查机房环境温度是否超出设备运行环境要求的温度。

l      => 步骤4

l      => 步骤5

                                步骤 4     将机房环境温度降低至设备运行环境要求的温度。5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤5

                                步骤 5     检查服务器进风口或出风口是否有异物堵塞。

l      => 步骤6

l      => 步骤7

                                步骤 6     清除异物,5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤7

                                步骤 7     更换产生告警的PCIe卡,检查告警是否清除。

l      => 处理完毕

l      => 步骤8

                                步骤 8     请联系技术支持工程师处理。

----结束

2.14 ALM-0x03000011 电源温度过高(PSU,严重告警)

告警解释

告警描述:

PSU arg1 is overtemperature (SN: arg2, BN: arg3).

BMC V328及以上版本,主体类型为RAID CardPSU的告警分别支持上报各自的序列号和BOM编码,主体类型为Fan的告警支持上报BOM编码。

当检测到电源模块温度过高时,产生此告警,当温度恢复到正常范围内时,仅当HDM的软件版本为HDM-3.01.14.24及以上版本时,此告警会恢复。

产生此告警的主体类型为:PSU

告警属性

告警ID

告警级别

可自动清除

0x03000011

严重

是(仅当HDM的软件版本为HDM-3.01.14.24及以上版本时)

告警参数

参数名称

参数含义

arg1

告警相关的电源模块的编号。

arg2

电源的序列号。

arg3

BOM编码。

对系统的影响

温度过高会影响电源寿命,从而影响系统供电,可能导致服务器下电,影响系统业务。

可能原因

l     风扇模块故障

l     环境温度过高

l     进风口/出风口堵塞

l     存在空槽位或间隔

l     电源模块内部风扇故障

处理步骤

                                步骤 1     检查服务器是否存在风扇模块告警。

l      => 步骤2

l      => 步骤3

                                步骤 2     更换产生告警的风扇,5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     检查机房环境温度是否超出设备运行环境要求的温度。

l      => 步骤4

l      => 步骤5

                                步骤 4     将机房环境温度降低至设备运行环境要求的温度,5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤5

                                步骤 5     检查服务器进风口或出风口是否有异物堵塞。

l      => 步骤6

l      => 步骤7

                                步骤 6     清除异物,5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤7

                                步骤 7     检查服务器之间的空槽位或间隔是否已加假面板或挡板。

l      => 步骤9

l      => 步骤8

                                步骤 8     为服务器之间的空槽位或间隔安装假面板或挡板,检查告警是否清除。

l      => 处理完毕

l      => 步骤9

                                步骤 9     更换产生告警的电源模块,检查告警是否清除。

l      => 处理完毕

l      => 步骤10

                             步骤 10     请联系技术支持工程师处理。

----结束

2.15 ALM-0x0D000003 网卡扣卡温度过高(NIC,轻微告警)

告警解释

告警描述:

The NIC arg1 temperature (arg2 degrees C) exceeds the overtemperature threshold (arg3 degrees C).

当检测到网卡温度高于轻微告警阈值时,产生此告警,当温度恢复到正常范围内时,此告警恢复。

产生此告警的主体类型为:NIC

告警属性

告警ID

告警级别

可自动清除

0x0D000003

轻微

告警参数

参数名称

参数含义

arg1

告警相关网卡扣卡的编号。

arg2

对应传感器的当前读数。

arg3

告警门限。

对系统的影响

温度过高会导致网卡运行异常,影响网络业务。

可能原因

l     风扇模块故障

l     环境温度过高

l     进风口/出风口堵塞

l     网卡故障

处理步骤

                                步骤 1     检查是否存在风扇模块告警。

l      => 步骤2

l      => 步骤3

                                步骤 2     更换产生告警的风扇,5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     检查机房环境温度是否超出设备运行环境要求的温度。

l      => 步骤4

l      => 步骤5

                                步骤 4     将机房环境温度降低至设备运行环境要求的温度。5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤5

                                步骤 5     检查服务器进风口或出风口是否有异物堵塞。

l      => 步骤6

l      => 步骤7

                                步骤 6     清除异物,5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤7

                                步骤 7     更换产生告警的网卡扣卡,检查告警是否清除。

l      => 处理完毕

l      => 步骤8

                                步骤 8     请联系技术支持工程师处理。

----结束

2.16 ALM-0x00000061 CPU VRD温度读取失败(CPU,轻微告警)

告警解释

告警描述:

Failed to obtain data of the CPU arg1 VRD temperature (SN: arg2, BN: arg3).

BMC V316及以上版本,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

CPUarg1 VRD温度读取失败时,产生此告警。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x00000061

轻微

告警参数

参数名称

参数含义

arg1

告警相关的CPU的槽位号。

arg2

CPU的序列号。

arg3

BOM编码。

对系统的影响

无法正常监控温度,温度异常时无法及时告警。

可能原因

CPU VRD电源芯片故障或访问通道故障。

处理步骤

                                步骤 1     重启BMC,检查告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     拔插电源线缆或拔插单板,检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     更换服务器主板,检查告警是否清除。

l      => 处理完毕

l      => 步骤4

                                步骤 4     请联系技术支持工程师处理。

----结束

2.17 ALM-0x0100003B 内存温度过高(Memory,轻微告警)

告警解释

告警描述:

The memory (arg1 arg2) temperature (arg3 degrees C) exceeds the overtemperature threshold (arg4 degrees C)(SN: arg5, BN: arg6).

BMC V316及以上版本,此告警支持上报内存的序列号和BOM编码。

内存当前温度高于高温门限温度时,产生此告警,当温度恢复到正常范围内时,此告警恢复。

产生此告警的主体类型为:Memory

告警属性

告警ID

告警级别

可自动清除

0x0100003B

轻微

告警参数

参数名称

参数含义

arg1

告警相关的CPU的槽位号。

arg2

内存丝印,例如“DIMM000”。

arg3

对应传感器的当前读数。

arg4

告警门限。

arg5

内存的序列号。

arg6

BOM编码。

对系统的影响

温度过高会导致内存运行不稳定或故障,从而导致服务器性能降低。

可能原因

l     风扇模块故障。

l     环境温度过高。

l     进风口/出风口堵塞。

l     存在空槽位或间隔。

l     未安装导风罩。

l     内存故障。

处理步骤

                                步骤 1     检查服务器是否存在风扇模块告警。

l      => 步骤2

l      => 步骤3

                                步骤 2     更换产生告警的风扇,5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     检查机房环境温度是否超出设备运行环境要求的温度。

l      => 步骤4

l      => 步骤5

                                步骤 4     将机房环境温度降低至设备运行环境要求的温度,5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤5

                                步骤 5     检查服务器进风口或出风口是否有异物堵塞。

l      => 步骤6

l      => 步骤7

                                步骤 6     清除异物,5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤7

                                步骤 7     检查服务器之间的空槽位或间隔是否已加假面板或挡板。

l      => 步骤9

l      => 步骤8

                                步骤 8     为服务器之间的空槽位或间隔安装假面板或挡板,检查告警是否清除。

l      => 处理完毕

l      => 步骤9

                                步骤 9     将服务器下电后,检查服务器内部的导风罩是否已正确安装。

l      => 步骤11

l      => 步骤10

                             步骤 10     正确安装导风罩后,将服务器上电,检查告警是否清除。

l      => 处理完毕

l      => 步骤11

                             步骤 11     更换内存,待服务器上电后检查告警是否清除。

l      => 处理完毕

l      => 步骤12

                             步骤 12     请联系技术支持工程师处理。

----结束

2.18 ALM-0x0100003F 内存温度读取失败(Memory,轻微告警)

告警解释

告警描述:

Failed to obtain data of the memory (arg1) temperature.

此告警不支持上报其序列号或BOM编码。

内存温度读取失败时,产生此告警。

产生此告警的主体类型为:Memory

告警属性

告警ID

告警级别

可自动清除

0x0100003F

轻微

告警参数

参数名称

参数含义

arg1

告警相关内存丝印,或CPU槽位号和通道号。

l     内存丝印,例如“DIMM010B)”。

l     CPU槽位号及通道号

说明

不同型号的服务器,同一通道对应的内存数量不同。

内存对应的CPU槽位号及通道号,请查询各服务器的用户指南获取。

对系统的影响

无法正常监控温度,温度异常时无法及时告警。

可能原因

ME故障或访问通道异常。

处理步骤

                                步骤 1     重启BMC,检查告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     拔插电源线缆或拔插单板,检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     请联系技术支持工程师处理。

----结束

2.19 ALM-0x0000006D CPU核心温度过高(CPU,轻微告警)

告警解释

告警描述:

The CPU arg1 core temperature (arg2 degrees C) exceeds the temperature upper threshold (arg3 degrees C) (SN: arg4, BN: arg5).

BMC V316及以上版本,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

CPU核心温度高于门限温度时,产生此告警。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x0000006D

轻微

告警参数

参数名称

参数含义

arg1

告警相关的CPU的槽位号。

arg2

对应传感器的当前读数。

arg3

告警门限。

arg4

CPU的序列号。

arg5

BOM编码。

对系统的影响

CPU核心温度过高会导致CPU性能下降,设备运行不稳定。

可能原因

l     风扇模块故障。

l     环境温度过高。

l     进风口/出风口堵塞。

l     未安装导风罩。

l     主板故障。

处理步骤

                                步骤 1     检查服务器是否存在风扇模块告警。

l      => 步骤2

l      => 步骤3

                                步骤 2     更换产生告警的风扇模块,检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     检查机房环境温度是否已超出设备运行环境要求。

l      => 步骤4

l      => 步骤5

                                步骤 4     将机房环境温度降低至设备运行环境要求的温度,5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤5

                                步骤 5     检查服务器进风口或出风口是否有异物堵塞。

l      => 步骤6

l      => 检查服务器内部是否正确安装导风罩。

                                步骤 6     清除异物,5min后检查告警是否清除。

l      => 处理完毕

l      => 检查服务器内部是否正确安装导风罩。

                                步骤 7     检查服务器内部是否正确安装导风罩。

l      => 步骤9

l      => 步骤8

                                步骤 8     安装导风罩,检查告警是否清除。

l      => 处理完毕

l      => 步骤9

                                步骤 9     更换服务器主板,检查告警是否清除。

l      => 处理完毕

l      => 步骤10

                             步骤 10     请联系技术支持工程师处理。

----结束

2.20 ALM-0x000000C3 CPU核心温度过高(CPU,严重告警)

告警解释

告警描述:

The CPU arg1 core temperature (arg2 degrees C) exceeds the temperature upper threshold (arg3 degrees C) (SN: arg4, BN: arg5).

BMC V316及以上版本,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

CPU核心温度高于门限温度时,产生此告警。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x000000C3

严重

 

告警参数

参数名称

参数含义

arg1

告警相关的CPU的槽位号。

arg2

对应传感器的当前读数。

arg3

告警门限。

arg4

CPU的序列号。

arg5

BOM编码。

 

对系统的影响

CPU核心温度过高会导致CPU性能下降,设备运行不稳定。

可能原因

l     风扇模块故障。

l     环境温度过高。

l     进风口/出风口堵塞。

l     未安装导风罩。

l     主板故障。

处理步骤

                                步骤 1     检查风扇模块是否存在告警。

l      => 步骤2

l      => 步骤3

                                步骤 2     更换产生告警的风扇,5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     检查机房环境温度是否超出设备运行环境要求的温度。

l      => 步骤4

l      => 步骤5

                                步骤 4     将机房环境温度降低至设备运行环境要求的温度。5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤5

                                步骤 5     检查服务器进风口或出风口是否有异物堵塞。

l      => 步骤6

l      => 步骤7

                                步骤 6     清除异物,5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤7

                                步骤 7     检查服务器内部是否正确安装导风罩。

l      => 步骤9

l      => 步骤8

                                步骤 8     安装导风罩,检查告警是否清除。

l      => 处理完毕

l      => 步骤9

                                步骤 9     更换服务器主板,检查告警是否清除。

l      => 处理完毕

l      => 步骤10

                             步骤 10     请联系技术支持工程师处理。

----结束

2.21 ALM-0x000000C5 CPU核心温度过高(CPU,紧急告警)

告警解释

告警描述:

The CPU arg1 core temperature (arg2 degrees C) exceeds the temperature upper threshold (arg3 degrees C) (SN: arg4, BN: arg5).

BMC V316及以上版本,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

CPU核心温度高于门限温度时,产生此告警。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x000000C5

紧急

 

告警参数

参数名称

参数含义

arg1

告警相关的CPU的槽位号。

arg2

对应传感器的当前读数。

arg3

告警门限。

arg4

CPU的序列号。

arg5

BOM编码。

 

对系统的影响

CPU核心温度过高会导致CPU性能下降,设备运行不稳定。

可能原因

l     风扇模块故障。

l     环境温度过高。

l     进风口/出风口堵塞。

l     未安装导风罩。

l     主板故障。

处理步骤

                                步骤 1     检查风扇模块是否存在告警。

l      => 步骤2

l      => 步骤3

                                步骤 2     更换产生告警的风扇,5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     检查机房环境温度是否超出设备运行环境要求的温度。

l      => 步骤4

l      => 步骤5

                                步骤 4     将机房环境温度降低至设备运行环境要求的温度。5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤5

                                步骤 5     检查服务器进风口或出风口是否有异物堵塞。

l      => 步骤6

l      => 步骤7

                                步骤 6     清除异物,5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤7

                                步骤 7     检查服务器内部是否正确安装导风罩。

l      => 步骤9

l      => 步骤8

                                步骤 8     安装导风罩,检查告警是否清除。

l      => 处理完毕

l      => 步骤9

                                步骤 9     更换服务器主板,检查告警是否清除。

l      => 处理完毕

l      => 步骤10

                             步骤 10     请联系技术支持工程师处理。

----结束

2.22 ALM-0x01000055 内存温度过高(Memory,紧急告警)

告警解释

告警描述:

The memory (arg1 arg2) temperature (arg3 degrees C) exceeds the overtemperature threshold (arg4 degrees C)(SN: arg5, BN: arg6).

内存的当前温度高于高温门限温度时,产生此告警。

产生此告警的主体类型为:Memory

告警属性

告警ID

告警级别

可自动清除

0x01000055

紧急

 

告警参数

参数名称

参数含义

arg1

告警相关的CPU的槽位号。

arg2

内存丝印,例如“DIMM000”。

arg3

对应传感器的当前读数。

arg4

告警门限。

arg5

内存的序列号。

arg6

BOM编码。

 

对系统的影响

温度过高会导致内存运行不稳定或故障,从而导致服务器性能降低。

可能原因

l     风扇模块故障。

l     环境温度过高。

l     进风口或出风口堵塞。

l     存在空槽位或间隔

l     内存故障

处理步骤

                                步骤 1     检查服务器是否存在风扇模块告警。

l      => 步骤2

l      => 步骤3

                                步骤 2     更换产生告警的风扇模块,检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     检查机房环境温度是否已超出设备运行环境要求。

l      => 步骤4

l      => 步骤5

                                步骤 4     将机房环境温度降低至设备运行环境要求的温度,5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤5

                                步骤 5     检查服务器进风口或出风口是否有异物堵塞。

l      => 步骤6

l      => 步骤7

                                步骤 6     清除异物,5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤7

                                步骤 7     检查服务器之间的空槽位或间隔是否已加假面板或挡板。

l      => 步骤9

l      => 步骤8

                                步骤 8     为服务器之间的空槽位或间隔安装假面板或挡板,检查告警是否清除。

l      => 处理完毕

l      => 步骤9

                                步骤 9     更换产生告警的内存,检查告警是否清除。

l      => 处理完毕

l      => 步骤10

                             步骤 10     请联系技术支持工程师处理。

----结束

2.23 ALM-0x100000EB 主板光模块温度过高(Mainboard,轻微告警)

告警解释

告警描述:

The [arg1] arg2 optical module [arg3] temperature (arg4 degrees C) exceeds the overtemperature threshold (arg5 degrees C).

此告警不支持上报其序列号或BOM编码。

主板光模块当前温度高于告警门限温度时,产生此告警。

产生此告警的主体类型为:Mainboard

告警属性

告警ID

告警级别

可自动清除

0x100000EB

轻微

告警参数

参数名称

参数含义

arg1

光模块的位置,例如,“FIO”、“BIO”或“Mainboard”。

arg2

光模块的位置,例如,“NIC”、“LOM”。

arg3

光模块的编号,例如,“1”、“2”。

arg4

对应传感器的当前读数。

arg5

告警门限。

对系统的影响

无。

可能原因

l     服务器存在风扇告警。

l     环境温度异常。

l     进风口或出风口有异物堵塞。

l     主板光模块故障。

处理步骤

                                步骤 1     检查服务器是否存在风扇模块告警。

l      => 步骤2

l      => 步骤3

                                步骤 2     更换产生告警的风扇模块,检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     检查机房环境温度是否已超出设备运行环境要求。

l      => 步骤4

l      => 步骤5

                                步骤 4     将机房环境温度降低至设备运行环境要求的温度,5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤5

                                步骤 5     检查服务器进风口或出风口是否有异物堵塞。

l      => 步骤6

l      => 步骤7

                                步骤 6     清除异物,5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤7

                                步骤 7     更换产生告警的光模块,检查告警是否清除。

l      => 处理完毕

l      => 步骤8

                                步骤 8     请联系技术支持工程师处理。

----结束

2.24 ALM-0x100000ED 主板光模块温度读取失败(Mainboard,轻微告警)

告警解释

告警描述:

Failed to obtain data of the mainboard arg1 optical module arg2 temperature. [arg3] [arg4]

此告警不支持上报其序列号或BOM编码。

主板光模块温度读取失败时,产生此告警。

产生此告警的主体类型为:Mainboard

告警属性

告警ID

告警级别

可自动清除

0x100000ED

轻微

告警参数

参数名称

参数含义

arg1

光模块的位置,例如,“NIC”、“LOM”。

arg2

光模块的编号,例如,“1”、“2”。

arg3

告警相关的故障码,例如“Error code: 0x00007001”。

arg4

告警相关的附加描述。

对系统的影响

无法正常监控温度,温度异常时无法及时告警,影响风扇调速。

可能原因

传感器访问通道异常或传感器芯片失效。

处理步骤

                                步骤 1     重启BMC,检查告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     OS执行先下电后上电操作,检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     拔插电源线缆或拔插单板,检查告警是否清除。

l      => 处理完毕

l      => 步骤4

                                步骤 4     更换产生告警的光模块,检查告警是否清除。

l      => 处理完毕

l      => 步骤5

                                步骤 5     请联系技术支持工程师处理。

----结束

2.25 ALM-0x03000031 电源模块进风口温度过高(PSU,轻微告警)

告警解释

告警描述:

The psu arg1 air inlet temperature (arg2 degrees C) exceeds the overtemperature threshold (arg3 degrees C) (SN: arg4, BN: arg5).

当电源模块进风口的当前温度高于高温门限温度时,产生此告警。

产生此告警的主体类型为:PSU

告警属性

告警ID

告警级别

可自动清除

0x03000031

轻微

 

告警参数

参数名称

参数含义

arg1

告警相关的电源模块编号。

arg2

对应传感器的当前读数。

arg3

告警门限。

arg4

电源模块的序列号。

arg5

BOM编码。

 

对系统的影响

可能导致电源模块寿命降低,影响系统供电。

可能原因

l     环境温度过高。

l     进风口/出风口堵塞。

l     存在空槽位或间隔。

l     风扇模块故障。

l     电源模块内部风扇故障。

处理步骤

                                步骤 1     检查服务器是否同时存在进风口/出风口高温告警。

l      => 步骤2

l      => 步骤3

                                步骤 2     按照进风口/出风口高温告警的处理建议清除告警后,检查本节所述告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     检查服务器是否同时存在风扇模块告警。

l      => 步骤4

l      => 步骤5

                                步骤 4     按照风扇模块告警的处理建议清除告警后,检查本节所述告警是否清除。

l      => 处理完毕

l      => 步骤5

                                步骤 5     检查服务器是否同时存在电源模块的风扇告警。

l      => 处理完毕

l      => 步骤6

                                步骤 6     更换电源模块,检查本节所述告警是否清除。

l      => 处理完毕

l      => 步骤7

                                步骤 7     请联系技术支持工程师处理。

----结束

2.26 ALM-0x03000035 电源模块进风口温度过高(PSU,紧急告警)

告警解释

告警描述:

The psu arg1 air inlet temperature (arg2 degrees C) exceeds the overtemperature threshold (arg3 degrees C) (SN: arg4, BN: arg5).

当电源模块进风口的当前温度高于高温门限温度时,产生此告警。

产生此告警的主体类型为:PSU

告警属性

告警ID

告警级别

可自动清除

0x03000035

紧急

 

告警参数

参数名称

参数含义

arg1

告警相关的电源模块编号。

arg2

对应传感器的当前读数。

arg3

告警门限。

arg4

电源模块的序列号。

arg5

BOM编码。

 

对系统的影响

可能导致电源模块寿命降低,影响系统供电。

可能原因

l     环境温度过高。

l     进风口/出风口堵塞。

l     存在空槽位或间隔。

l     风扇模块故障。

l     电源模块内部风扇故障。

处理步骤

                                步骤 1     检查服务器是否同时存在进风口/出风口高温告警。

l      => 步骤2

l      => 步骤3

                                步骤 2     按照进风口/出风口高温告警的处理建议清除告警后,检查本节所述告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     检查服务器是否同时存在风扇模块告警。

l      => 步骤4

l      => 步骤5

                                步骤 4     按照风扇模块告警的处理建议清除告警后,检查本节所述告警是否清除。

l      => 处理完毕

l      => 步骤5

                                步骤 5     检查服务器是否同时存在电源模块的风扇告警。

l      => 处理完毕

l      => 步骤6

                                步骤 6     更换电源模块,检查本节所述告警是否清除。

l      => 处理完毕

l      => 步骤7

                                步骤 7     请联系技术支持工程师处理。

----结束


3 电源告警

介绍服务器可能产生的电源告警。

3.1  ALM-0x10000009 系统12V电压过低(Mainboard,严重告警)

3.2  ALM-0x1000000B 系统12V电压过高(Mainboard,严重告警)

3.3  ALM-0x10000067 系统12V电压读取失败(Mainboard,轻微告警)

3.4  ALM-0x2C000007 系统异常下电(System,严重告警)

3.5  ALM-0x03000007 电源冗余失效(PSU,严重告警)

3.6  ALM-0x03000009 电源故障(PSU,严重告警)

3.7  ALM-0x0300000D 电源输入丢失(PSU,紧急告警)

3.8  ALM-0x0300000F 电源风扇故障(PSU,严重告警)

3.9  ALM-0x08000039 PCIe RAID标卡BBU电压低(PCIe Card,严重告警)

3.10  ALM-0x0800003B PCIe RAID标卡BBU故障(PCIe Card,严重告警)

3.11  ALM-0x03000013 电源通讯异常(PSU,轻微告警)

3.12  ALM-0x03000015 电源输出过压(PSU,严重告警)

3.13  ALM-0x03000017 电源输出欠压或者无输出(PSU,严重告警)

3.14  ALM-0x03000019 电源输出过流(PSU,严重告警)

3.15  ALM-0x0300001B 电源输入过压(PSU,严重告警)

3.16  ALM-0x0300001F 整机掉电(PSU,严重告警)

3.17  ALM-0x1000000F Standby 3.3V电压过低(Mainboard,严重告警)

3.18  ALM-0x10000011 Standby 3.3V电压过高(Mainboard,严重告警)

3.19  ALM-0x10000017 主板板内电源异常(Mainboard,严重告警)

3.20  ALM-0x2C00002B 上电超时(System,严重告警)

3.21  ALM-0x05000001 硬盘背板电源异常(Disk Backplane,严重告警)

3.22  ALM-0x2900000F 网卡光模块电压异常(Port严重告警)

3.23  ALM-0x0F000011 Riser卡电源故障(PCIe Riser,严重告警)

3.24  ALM-0x0000008B CPUVDDFIX电压过高(CPU,严重告警)

3.25  ALM-0x0000008D CPUVDDFIX电压过低(CPU,严重告警)

3.26  ALM-0x0000008F CPUVDDFIX电压读取失败(CPU,轻微告警)

3.27  ALM-0x0D000009 板载网卡电源模块异常(NIC,严重告警)

3.28  ALM-0x00000091 CPUVDDAVS电压过高(CPU,严重告警)

3.29  ALM-0x00000093 CPUVDDAVS电压过低(CPU,严重告警)

3.30  ALM-0x00000095 CPUVDDAVS电压读取失败CPU,轻微告警)

3.31  ALM-0x00000097 CPUHVCC电压过高(CPU,严重告警)

3.32  ALM-0x00000099 CPUHVCC电压过低(CPU,严重告警)

3.33  ALM-0x0000009B CPUHVCC电压读取失败(CPU,轻微告警)

3.34  ALM-0x000000A9 CPUVDDQAB电压过高(CPU,严重告警)

3.35  ALM-0x000000AB CPUVDDQAB电压过低(CPU,严重告警)

3.36  ALM-0x000000AD CPUVDDQAB电压读取失败(CPU,轻微告警)

3.37  ALM-0x000000AF CPUVDDQCD电压过高(CPU,严重告警)

3.38  ALM-0x000000B1 CPUVDDQCD电压过低(CPU,严重告警)

3.39  ALM-0x000000B3 CPUVDDQCD电压读取失败(CPU,轻微告警)

3.40  ALM-0x000000B5 CPUNVDDAVS电压过高(CPU,严重告警)

3.41  ALM-0x000000B7 CPUNVDDAVS电压过低(CPU,严重告警)

3.42  ALM-0x000000B9 CPUNVDDAVS电压读取失败(CPU,轻微告警)

3.43  ALM-0x03000037 电源模块电压异常(PSU,紧急告警)

3.1 ALM-0x10000009 系统12V电压过低(Mainboard,严重告警)

告警解释

告警描述:

Mainboard voltage (arg1 V) at 12 V detection point [arg3] is lower than the undervoltage threshold (arg2 V) (BN: arg4).

BMC V316及以上版本,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

当检测到主板12V监测点当前电压低于低压门限,产生此告警,当电压恢复到正常范围时,告警恢复。

产生此告警的主体类型为:Mainboard

告警属性

告警ID

告警级别

可自动清除

0x10000009

严重

告警参数

参数名称

参数含义

arg1

对应传感器的当前读数。

arg2

告警门限。

arg3

12V电压监测点,例如“1”、“2”、“3”、“4”。

arg4

BOM编码。

对系统的影响

可能导致系统停止响应。

可能原因

主板故障。

处理步骤

                                步骤 1     更换服务器主板,查看告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     请联系技术支持工程师处理。

----结束

3.2 ALM-0x1000000B 系统12V电压过高(Mainboard,严重告警)

告警解释

告警描述:

Mainboard voltage (arg1 V) at 12 V detection point arg3 exceeds the overvoltage threshold (arg2 V) arg4.

当检测到主板12V监测点当前电压高于高压门限,产生此告警,当电压恢复到正常范围时,告警恢复。

产生此告警的主体类型为:Mainboard

告警属性

告警ID

告警级别

可自动清除

0x1000000B

严重

告警参数

参数名称

参数含义

arg1

对应传感器的当前读数。

arg2

告警门限。

arg3

12V电压监测点,例如“1”、“2”、“3”、“4”。

arg4

BOM编码。

对系统的影响

可能导致系统停止响应。

可能原因

主板故障。

处理步骤

                                步骤 1     更换服务器主板,查看告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     请联系技术支持工程师处理。

----结束

3.3 ALM-0x10000067 系统12V电压读取失败(Mainboard,轻微告警)

告警解释

告警描述:

Failed to obtain the voltage at 12 V detection point [arg1] on the mainboard (BN: arg2).

BMC V316及以上版本,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

当读取系统12V电压值失败时,产生此告警。

产生此告警的主体类型为:Mainboard

告警属性

告警ID

告警级别

可自动清除

0x10000067

轻微

告警参数

参数名称

参数含义

arg1

12V电压监测点,例如“1”、“2”、“3”、“4”。

arg2

BOM编码。

对系统的影响

无法正常监控电压,电压异常时无法及时告警。

可能原因

CPU电压检测电路异常。

处理步骤

                                步骤 1     重启BMC,检查告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     拔插电源线缆或拔插单板,检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     更换服务器主板,检查告警是否清除。

l      => 处理完毕

l      => 步骤4

                                步骤 4     请联系技术支持工程师处理。

----结束

3.4 ALM-0x2C000007 系统异常下电(System,严重告警)

告警解释

告警描述:

The [arg1] power arg2 failure results abnormal power-off.

当主板电源故障导致系统异常下电时,产生此告警。

产生此告警的主体类型为:System

告警属性

告警ID

告警级别

可自动清除

0x2C000007

严重

告警参数

参数名称

参数含义

arg1

告警相关的电源编号,例如“LPM1”。

arg2

告警相关的电源子类名称,例如“STBY_5V0”、“STBY_1V8_PCH”等。

对系统的影响

服务器自动关机,导致操作系统业务中断。

可能原因

l     主板电压跌落。

l     主板故障。

处理步骤

                                步骤 1     检查外部供电是否满足服务器整机功耗要求。

l      => 步骤3

l      => 步骤2

                                步骤 2     调整机房环境,使外部供电满足服务器整机功耗要求,检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     重新拔插电源线缆,或在机框内重新拔插服务器单板,使服务器彻底下电再上电,检查告警是否清除。

l      => 处理完毕

l      => 步骤4

                                步骤 4     更换电源线缆,检查告警是否清除。

l      => 处理完毕

l      => 步骤5

                                步骤 5     更换电源模块,检查告警是否清除。

l      => 处理完毕

l      => 步骤6

                                步骤 6     更换电源背板,检查告警是否清除。

l      => 处理完毕

l      => 步骤7

                                步骤 7     更换服务器主板,检查告警是否清除。

l      => 处理完毕

l      => 步骤8

                                步骤 8     请联系技术支持工程师处理。

----结束

3.5 ALM-0x03000007 电源冗余失效(PSU,严重告警)

告警解释

告警描述:

Lost power supply redundancy.

此告警不支持上报其序列号或BOM编码。

当检测到在位电源模块数量小于设备第一次通电时在位电源模块数量时,产生此告警。

产生此告警的主体类型为:PSU

告警属性

告警ID

告警级别

可自动清除

0x03000007

严重

告警参数

参数名称

参数含义

对系统的影响

电源冗余失效,降低设备供电可靠性。

可能原因

l     服务器运行过程中电源模块被拔出。

l     服务器运行过程中电源模块松动。

l     电源模块故障。

处理步骤

                                步骤 1     检查是否有电源模块不在位。

l      => 步骤2

l      => 步骤3

                                步骤 2     安装电源模块,检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     重新拔插电源模块,检查告警是否清除。

l      => 处理完毕

l      => 步骤4

                                步骤 4     更换电源模块,检查告警是否清除。

l      => 处理完毕

l      => 步骤5

                                步骤 5     请联系技术支持工程师处理。

----结束

3.6 ALM-0x03000009 电源故障(PSU,严重告警)

告警解释

告警描述:

PSU arg1 failure (SN: arg2, BN: arg3).

BMC V328及以上版本,主体类型为RAID CardPSU的告警分别支持上报各自的序列号和BOM编码,主体类型为Fan的告警支持上报BOM编码。

当检测到服务器电源模块输出电压不在正常范围内时,产生此告警。

产生此告警的主体类型为:PSU

告警属性

告警ID

告警级别

可自动清除

0x03000009

严重

告警参数

参数名称

参数含义

arg1

告警相关的电源模块的编号。

arg2

电源的序列号。

arg3

BOM编码。

对系统的影响

影响系统供电,可能导致系统异常下电。

可能原因

电源模块故障。

处理步骤

                                步骤 1     更换电源模块,查看告警是否清除。

更换电源模块的具体操作,请参考相关产品的用户指南手册。

l      => 处理完毕

l      => 步骤2

                                步骤 2     请联系技术支持工程师处理。

----结束

3.7 ALM-0x0300000D 电源输入丢失(PSU,紧急告警)

告警解释

告警描述:

The AC/DC input of PSU arg1 is lost or out-of-range (SN: arg2, BN: arg3).

BMC V328及以上版本,主体类型为RAID CardPSU的告警分别支持上报各自的序列号和BOM编码,主体类型为Fan的告警支持上报BOM编码。

当检测到电源模块在位,但供电中断时,上报此告警。

产生此告警的主体类型为:PSU

告警属性

告警ID

告警级别

可自动清除

0x0300000D

紧急

告警参数

参数名称

参数含义

arg1

告警相关的电源模块的编号。

arg2

电源的序列号。

arg3

BOM编码。

对系统的影响

可能导致服务器异常下电。

可能原因

l     电源线未连接或松动。

l     电源模块故障。

处理步骤

                                步骤 1     重新拔插电源线缆,检查告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     更换电源线缆,检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     更换电源模块,查看告警是否清除。

l      => 处理完毕

l      => 步骤4

                                步骤 4     请联系技术支持工程师处理。

----结束

3.8 ALM-0x0300000F 电源风扇故障(PSU,严重告警)

告警解释

告警描述:

The fan of PSU arg1 is faulty (SN: arg2, BN: arg3).

BMC V328及以上版本,主体类型为RAID CardPSU的告警分别支持上报各自的序列号和BOM编码,主体类型为Fan的告警支持上报BOM编码。

当检测到电源模块的风扇故障时,产生此告警。

产生此告警的主体类型为:PSU

告警属性

告警ID

告警级别

可自动清除

0x0300000F

严重

告警参数

参数名称

参数含义

arg1

告警相关的电源模块的编号。

arg2

电源的序列号。

arg3

BOM编码。

对系统的影响

影响电源模块散热,可能导致电源模块故障,进而影响系统供电,导致系统异常下电。

可能原因

电源模块故障。

处理步骤

                                步骤 1     更换电源模块,查看告警是否清除。

更换电源模块的具体操作,请参考相关产品的用户指南手册。

l      => 处理完毕

l      => 步骤2

                                步骤 2     请联系技术支持工程师处理。

----结束

3.9 ALM-0x08000039 PCIe RAID标卡BBU电压低(PCIe Card,严重告警)

告警解释

告警描述:

The [arg1] PCIe card arg2 (arg3) BBU voltage is low.

当检测到PCIe RAID标卡电池/超级电容电压低时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x08000039

严重

告警参数

参数名称

参数含义

arg1

PCIe卡的位置,例如“front”、“rear”等。

arg2

PCIe卡的槽位号,例如“1”、“2”。

arg3

PCIe卡的类型,例如“M60 GPU”。

对系统的影响

电池或超级电容电压出现异常,会影响数据的掉电保护功能,从而导致系统性能降低。

可能原因

PCIe RAID标卡的电池或超级电容故障。

处理步骤

                                步骤 1     更换PCIe RAID标卡的电池/超级电容,查看告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     请联系技术支持工程师处理。

----结束

3.10 ALM-0x0800003B PCIe RAID标卡BBU故障(PCIe Card,严重告警)

告警解释

告警描述:

The [arg1] PCIe card arg2 (arg3) BBU is fault.

PCIe RAID标卡的BBUiBBU或超级电容)出现内部错误时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x0800003B

严重

告警参数

参数名称

参数含义

arg1

PCIe卡的位置,例如“front”、“rear”等。

arg2

PCIe卡的槽位号,例如“1”、“2”。

arg3

PCIe卡的类型,例如“M60 GPU”。

对系统的影响

电池或超级电容电压出现异常,会影响数据的掉电保护功能,从而导致系统性能降低。

可能原因

PCIe RAID标卡的电池或超级电容故障。

处理步骤

                                步骤 1     更换PCIe RAID标卡的电池/超级电容,查看告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     请联系技术支持工程师处理。

----结束

3.11 ALM-0x03000013 电源通讯异常(PSU,轻微告警)

告警解释

告警描述:

BMC cannot communicate with PSU arg1 (SN: arg2, BN: arg3).

BMC V328及以上版本,主体类型为RAID CardPSU的告警分别支持上报各自的序列号和BOM编码,主体类型为Fan的告警支持上报BOM编码。

BMCPSU通讯中断时,产生此告警。

产生此告警的主体类型为:PSU

告警属性

告警ID

告警级别

可自动清除

0x03000013

轻微

告警参数

参数名称

参数含义

arg1

告警相关的电源模块的编号。

arg2

电源的序列号。

arg3

BOM编码。

对系统的影响

无法对该电源管理。

可能原因

电源模块异常。

处理步骤

                                步骤 1     重新拔插电源模块,检查告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     更换电源模块,检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     请联系技术支持工程师处理。

----结束

3.12 ALM-0x03000015 电源输出过压(PSU,严重告警)

告警解释

告警描述:

Output overvoltage detected on PSU arg1 (SN: arg2, BN: arg3).

BMC V328及以上版本,主体类型为RAID CardPSU的告警分别支持上报各自的序列号和BOM编码,主体类型为Fan的告警支持上报BOM编码。

当电源模块输出过压时,产生此告警。

产生此告警的主体类型为:PSU

告警属性

告警ID

告警级别

可自动清除

0x03000015

严重

告警参数

参数名称

参数含义

arg1

告警相关的电源模块的编号。

arg2

电源的序列号。

arg3

BOM编码。

对系统的影响

影响系统供电,可能导致服务器异常下电。

可能原因

电源模块故障。

处理步骤

                                步骤 1     更换产生告警的电源模块,检查告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     请联系技术支持工程师处理。

----结束

3.13 ALM-0x03000017 电源输出欠压或者无输出(PSU,严重告警)

告警解释

告警描述:

Output undervoltage or no output detected on PSU arg1 (SN: arg2, BN: arg3).

BMC V328及以上版本,主体类型为RAID CardPSU的告警分别支持上报各自的序列号和BOM编码,主体类型为Fan的告警支持上报BOM编码。

电源模块输出欠压或者无输出时,产生此告警。

产生此告警的主体类型为:PSU

告警属性

告警ID

告警级别

可自动清除

0x03000017

严重

告警参数

参数名称

参数含义

arg1

告警相关的电源模块的编号。

arg2

电源的序列号。

arg3

BOM编码。

对系统的影响

影响系统供电,可能导致服务器异常下电。

可能原因

电源模块故障。

处理步骤

                                步骤 1     更换产生告警的电源模块,检查告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     请联系技术支持工程师处理。

----结束

3.14 ALM-0x03000019 电源输出过流(PSU,严重告警)

告警解释

告警描述:

Output overcurrent detected on PSU arg1 (SN: arg2, BN: arg3).

BMC V328及以上版本,主体类型为RAID CardPSU的告警分别支持上报各自的序列号和BOM编码,主体类型为Fan的告警支持上报BOM编码。

电源模块输出过流时,产生此告警。

产生此告警的主体类型为:PSU

告警属性

告警ID

告警级别

可自动清除

0x03000019

严重

告警参数

参数名称

参数含义

arg1

告警相关的电源模块的编号。

arg2

电源的序列号。

arg3

BOM编码。

对系统的影响

影响系统供电,可能导致服务器异常下电。

可能原因

l     电源输出侧短路。

l     电源背板短路。

处理步骤

                                步骤 1     更换电源模块,检查告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     更换电源背板,检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     请联系技术支持工程师处理。

----结束

3.15 ALM-0x0300001B 电源输入过压(PSU,严重告警)

告警解释

告警描述:

Input overvoltage detected on PSU arg1 (SN: arg2, BN: arg3).

BMC V328及以上版本,主体类型为RAID CardPSU的告警分别支持上报各自的序列号和BOM编码,主体类型为Fan的告警支持上报BOM编码。

当电源输入过压时,产生此告警。

产生此告警的主体类型为:PSU

告警属性

告警ID

告警级别

可自动清除

0x0300001B

严重

告警参数

参数名称

参数含义

arg1

告警相关的电源模块的编号。

arg2

电源的序列号。

arg3

BOM编码。

对系统的影响

影响系统供电,可能导致服务器异常下电。

可能原因

外部供电异常。

处理步骤

                                步骤 1     检查设备输入电压,保证输入电压在设备允许范围内。

                                步骤 2     重新连接电源,检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     请联系技术支持工程师处理。

----结束

3.16 ALM-0x0300001F 整机掉电(PSU,严重告警)

告警解释

告警描述:

Server power failure occurred at arg1. The power has been already restored.

此告警不支持上报其序列号或BOM编码。

整机异常下电,供电恢复正常后,上报该告警。

产生此告警的主体类型为:PSU

告警属性

告警ID

告警级别

可自动清除

0x0300001F

严重

告警参数

参数名称

参数含义

arg1

整机异常下电时间,格式为“YYYY-MM-DD HH:MM:SS ”。

对系统的影响

整机掉电,业务中断。

可能原因

外部供电失效。

处理步骤

                                步骤 1     检测机房的供电,重新连接电源,检查告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     请联系技术支持工程师处理。

----结束

3.17 ALM-0x1000000F Standby 3.3V电压过低(Mainboard,严重告警)

告警解释

告警描述:

Mainboard voltage (arg1 V) at standby 3.3 V detection point is lower than the undervoltage threshold (arg2 V) (BN: arg3).

BMC V316及以上版本,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

当检测到主板standby 3.3V电压低于低压门限时,产生此告警。

产生此告警的主体类型为:Mainboard

告警属性

告警ID

告警级别

可自动清除

0x1000000F

严重

告警参数

参数名称

参数含义

arg1

对应传感器的当前读数。

arg2

告警门限。

arg3

BOM编码。

对系统的影响

影响BMC系统稳定性。

可能原因

主板故障。

处理步骤

                                步骤 1     更换服务器主板,查看告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     请联系技术支持工程师处理。

----结束

3.18 ALM-0x10000011 Standby 3.3V电压过高(Mainboard,严重告警)

告警解释

告警描述:

Mainboard voltage (arg1 V) at standby 3.3 V detection point exceeds the overvoltage threshold (arg2 V) (BN: arg3).

BMC V316及以上版本,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

当检测到主板standby 3.3V电压高于高压门限时,产生此告警。

产生此告警的主体类型为:Mainboard

告警属性

告警ID

告警级别

可自动清除

0x10000011

严重

告警参数

参数名称

参数含义

arg1

对应传感器的当前读数。

arg2

告警门限。

arg3

BOM编码。

对系统的影响

影响BMC系统稳定性。

可能原因

主板故障。

处理步骤

                                步骤 1     更换服务器主板,查看告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     请联系技术支持工程师处理。

----结束

3.19 ALM-0x10000017 主板板内电源异常(Mainboard,严重告警)

告警解释

告警描述:

The power supply arg1 to the mainboard is abnormal (BN: arg2).

BMC V316及以上版本,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

当主板板内电源异常时,产生此告警。

产生此告警的主体类型为:Mainboard

告警属性

告警ID

告警级别

可自动清除

0x10000017

严重

告警参数

参数名称

参数含义

arg1

电压检测点名称。

arg2

BOM编码。

对系统的影响

影响服务器供电,可能导致系统异常下电。

可能原因

主板电源信号异常。

处理步骤

                                步骤 1     更换服务器主板,查看告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     请联系技术支持工程师处理。

----结束

3.20 ALM-0x2C00002B 上电超时(System,严重告警)

告警解释

告警描述:

The [arg1] power [arg2] failure results host power-on timed out.

电源故障导致系统上电超时,产生此告警。

产生此告警的主体类型为:System

告警属性

告警ID

告警级别

可自动清除

0x2C00002B

严重

告警参数

参数名称

参数含义

arg1

告警相关的电源编号,例如“LPM1”。

arg2

告警相关的电源子类名称,例如“STBY_5V0”、“STBY_1V8_PCH”等。

对系统的影响

服务器无法正常开机。

可能原因

l     外部供电不满足服务器整机的功耗要求。

l     主板故障。

处理步骤

                                步骤 1     检查外部供电是否满足服务器整机功耗要求。

l      => 步骤2

l      => 步骤3

                                步骤 2     通过拔插电源线缆或拔插单板,将服务器彻底下电再上电,检查告警是否清除。

l      => 处理完毕

l      => 步骤4

                                步骤 3     根据3-1更换可能涉及的部件,检查告警是否清除。

l      => 处理完毕

l      => 步骤4

                                步骤 4     请联系技术支持工程师处理。

----结束

参考信息

表3-1 参考信息

序号

告警描述

可能涉及的部件

1

The power STBY_5V0 failure results host power-on timed out.

1.     主板

2.     LCD

2

The power STBY_1V8_PCH failure results host power-on timed out.

主板

3

The power STBY_1V05_PCH failure results host power-on timed out.

主板

4

The power STBY_0V83_X557 failure results host power-on timed out.

主板

5

The power STBY_1V2_X557 failure results host power-on timed out.

主板

6

The power STBY_2V1_X557 failure results host power-on timed out.

主板

7

The power STBY_2V5_X557 failure results host power-on timed out.

主板

8

The power V_VCC_12V0_1 failure results host power-on timed out.

1.     主板

2.     风扇

3.     CPU

4.     内存

9

The power V_VCC_12V0_2 failure results host power-on timed out.

1.     主板

2.     硬盘背板

3.     RAID

4.     Riser

10

The power V_VCC_5V0 failure results host power-on timed out.

主板

11

The power V_VCC_3V3 failure results host power-on timed out.

1.     主板

2.     RAID

3.     Riser

12

The power V_VCCIN_CPUN failure results host power-on timed out.

说明

N表示CPU的槽位号。

1.     主板

2.     CPU

13

The power V_VSA_CPUN failure results host power-on timed out.

说明

N表示CPU的槽位号。

1.     主板

2.     CPU

14

The power V_VCCIO_CPUN failure results host power-on timed out.

说明

N表示CPU的槽位号。

1.     主板

2.     CPU

15

The power V_VMCP_CPUN failure results host power-on timed out.

说明

N表示CPU的槽位号。

1.     主板

2.     CPU

16

The power V_VPP_ABC failure results host power-on timed out.

1.     主板

2.     内存

3.     CPU

17

The power V_VPP_DEF failure results host power-on timed out.

1.     主板

2.     内存

3.     CPU

18

The power V_VPP_GHJ failure results host power-on timed out.

1.     主板

2.     内存

3.     CPU

19

The power V_VPP_KLM failure results host power-on timed out.

1.     主板

2.     内存

3.     CPU

20

The power V_VDDQ_ABC failure results host power-on timed out.

1.     主板

2.     内存

3.     CPU

21

The power V_VDDQ_DEF failure results host power-on timed out.

1.     主板

2.     内存

3.     CPU

22

The power V_VDDQ_GHJ failure results host power-on timed out.

1.     主板

2.     内存

3.     CPU

23

The power V_VDDQ_KLM failure results host power-on timed out.

1.     主板

2.     内存

3.     CPU

24

The power V_VTT_ABC failure results host power-on timed out.

1.     主板

2.     内存

3.     CPU

25

The power V_VTT_DEF failure results host power-on timed out.

1.     主板

2.     内存

3.     CPU

26

The power V_VTT_GHJ failure results host power-on timed out.

1.     主板

2.     内存

3.     CPU

27

The power V_VTT_KLM failure results host power-on timed out.

1.     主板

2.     内存

3.     CPU

28

The power V_1V0_CPUN failure results host power-on timed out.

说明

N表示CPU的槽位号。

1.     主板

2.     CPU

29

The power STBY_2V5_BMC failure results host power-on timed out.

主板

30

The power STBY_PCH_PVNN failure results host power-on timed out.

主板

 

3.21 ALM-0x05000001 硬盘背板电源异常(Disk Backplane,严重告警)

告警解释

告警描述:

Power supply to [arg1] disk backplane [arg2] failed (SN: arg3, BN: arg4).

BMC V370及以上版本,此告警支持上报硬盘背板的序列号和BOM编码。

硬盘背板电源异常时,产生此告警。

产生此告警的主体类型为:Disk Backplane

告警属性

告警ID

告警级别

可自动清除

0x05000001

严重

告警参数

参数名称

参数含义

arg1

告警相关硬盘背板的位置,例如“rear”、“inner”和“front”。

arg2

告警相关的电源类型,例如“5V”、“12V”等。

arg3

硬盘背板的序列号。

arg4

BOM编码。

对系统的影响

硬盘背板电源异常会影响背板的正常使用,可能导致相关业务无法正常运行或数据丢失。

可能原因

l     硬盘背板与主板之间的线缆故障。

l     硬盘背板异常。

处理步骤

                                步骤 1     整机下电后,重新拔插硬盘背板上的线缆,待服务器重新上电后检查告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     整机下电后,更换硬盘背板上的线缆,待服务器重新上电后检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     整机下电后,更换硬盘背板,待服务器重新上电后检查告警是否清除。

l      => 处理完毕

l      => 步骤4

                                步骤 4     请联系技术支持工程师处理。

----结束

3.22 ALM-0x2900000F 网卡光模块电压异常(Port,严重告警)

告警解释

告警描述:

Abnormal voltage (arg4V) was detected on [arg2] arg3 on arg1.

网卡光模块的当前电压异常时,产生此告警。

产生此告警的主体类型为:Port

告警属性

告警ID

告警级别

可自动清除

0x2900000F

严重

告警参数

参数名称

参数含义

arg1

告警相关网卡的名称,例如“NIC 1”、“PCIe Card 5”、“LOM”。

arg2

告警相关网卡的类型,例如“(NIC)”、“(FC)”。

arg3

网口号,例如“port 1”。

arg4

对应传感器的当前读数。

对系统的影响

可能导致网卡运行不稳定,业务网络异常。

可能原因

光模块异常。

处理步骤

                                步骤 1     更换产生告警的光模块,检查告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     请联系技术支持工程师处理。

----结束

3.23 ALM-0x0F000011 Riser卡电源故障(PCIe Riser,严重告警)

告警解释

告警描述:

PCIe riser card arg1 power failure (SN: arg2, BN: arg3).

BMC V370及以上版本,此告警支持上报PCIe卡的序列号和BOM编码。

PCIe Riser卡的电源故障时,产生此告警。

产生此告警的主体类型为:PCIe Riser

告警属性

告警ID

告警级别

可自动清除

0x0F000011

严重

告警参数

参数名称

参数含义

arg1

告警相关的电压监测点名称。例如“3V3”、“12V0”。

arg2

PCIe卡的序列号。

arg3

BOM编码。

对系统的影响

可能导致Riser卡上的PCIe卡运行不稳定,系统运行异常。

可能原因

PCIe Riser卡故障。

处理步骤

                                步骤 1     更换PCIe Riser卡,检查告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     请联系技术支持工程师处理。

----结束

3.24 ALM-0x0000008B CPUVDDFIX电压过高(CPU,严重告警)

告警解释

告警描述:

CPU arg1 VDDFIX voltage (arg2 V) exceeds the overvoltage threshold (arg3 V) (SN: arg4, BN: arg5).

BMC V316及以上版本起,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

当检测到CPU VDDFIX监测点当前电压高于高压门限,产生此告警,当电压恢复到正常范围时,告警恢复。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x0000008B

严重

 

告警参数

参数名称

参数含义

arg1

告警相关的CPU的槽位号。

arg2

对应传感器的当前读数。

arg3

告警门限。

arg4

CPU的序列号。

arg5

BOM编码。

 

对系统的影响

可能导致BMC运行不稳定。

可能原因

主板故障。

处理步骤

                                步骤 1     更换服务器主板,查看告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     请联系技术支持工程师处理。

----结束

3.25 ALM-0x0000008D CPUVDDFIX电压过低(CPU,严重告警)

告警解释

告警描述:

CPU arg1 VDDFIX voltage (arg2 V) is lower than the undervoltage threshold (arg3 V) (SN: arg4, BN: arg5).

BMC V316及以上版本起,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

当检测到CPU VDDFIX监测点当前电压低于低压门限,产生此告警,当电压恢复到正常范围时,告警恢复。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x0000008D

严重

 

告警参数

参数名称

参数含义

arg1

告警相关的CPU的槽位号。

arg2

对应传感器的当前读数。

arg3

告警门限。

arg4

CPU的序列号。

arg5

BOM编码。

 

对系统的影响

可能导致BMC运行不稳定。

可能原因

主板故障。

处理步骤

                                步骤 1     更换服务器主板,查看告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     请联系技术支持工程师处理。

----结束

3.26 ALM-0x0000008F CPUVDDFIX电压读取失败(CPU,轻微告警)

告警解释

告警描述:

Failed to obtain data of the CPU arg1 VDDFIXvoltage (SN: arg2, BN: arg3).

BMC V316及以上版本起,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

当读取CPU VDDFIX电压值失败时,产生此告警。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x0000008F

轻微

 

告警参数

参数名称

参数含义

arg1

告警相关的CPU的槽位号。

arg2

CPU的序列号。

arg3

BOM编码。

 

对系统的影响

无法正常监控电压,电压异常时无法及时告警。

可能原因

l     BMC模块异常。

l     主板故障。

处理步骤

                                步骤 1     重启BMC,检查告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     拔插电源线缆或拔插单板,检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     更换服务器主板,检查告警是否清除。

l      => 处理完毕

l      => 步骤4

                                步骤 4     请联系技术支持工程师处理。

----结束

3.27 ALM-0x0D000009 板载网卡电源模块异常(NIC,严重告警)

告警解释

告警描述:

The power supply arg1 of arg2 arg3 is abnormal.

当检测到板载网卡指定电源模块异常时,产生此告警,当电源模块恢复正常时,告警恢复。

产生此告警的主体类型为:NIC

告警属性

告警ID

告警级别

可自动清除

0x0D000009

严重

 

告警参数

参数名称

参数含义

arg1

板载网卡的电源模块名称,如“(PG_3V3)”、“(PG_VCORE)”。

arg2

板载网卡槽位号,如“NIC1”。

arg3

板载网卡类型,如“(SM380)”。

 

对系统的影响

影响网卡相关业务,可能导致网卡无法使用、业务网络异常。

可能原因

l     主板故障。

l     网卡故障。

处理步骤

                                步骤 1     重启BMC,检查告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     更换板载网卡,检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     更换主板,检查告警是否清除。

l      => 处理完毕

l      => 步骤4

                                步骤 4     请联系技术支持工程师处理。

----结束

3.28 ALM-0x00000091 CPUVDDAVS电压过高(CPU,严重告警)

告警解释

告警描述:

CPU arg1 VDDAVS voltage (arg2 V) exceeds the overvoltage threshold (arg3 V) (SN: arg4, BN: arg5).

BMC V316及以上版本起,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

当检测到CPU VDDAVS监测点当前电压高于高压门限,产生此告警,当电压恢复到正常范围时,告警恢复。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x00000091

严重

 

告警参数

参数名称

参数含义

arg1

告警相关的CPU的槽位号。

arg2

对应传感器的当前读数。

arg3

告警门限。

arg4

CPU的序列号。

arg5

BOM编码。

 

对系统的影响

可能导致BMC运行不稳定。

可能原因

主板故障。

处理步骤

                                步骤 1     更换服务器主板,查看告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     请联系技术支持工程师处理。

----结束

3.29 ALM-0x00000093 CPUVDDAVS电压过低(CPU,严重告警)

告警解释

告警描述:

CPU arg1 VDDAVS voltage (arg2 V) is lower than the undervoltage threshold (arg3 V) (SN: arg4, BN: arg5).

BMC V316及以上版本起,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

当检测到CPU VDDAVS监测点当前电压低于低压门限,产生此告警,当电压恢复到正常范围时,告警恢复。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x00000093

严重

 

告警参数

参数名称

参数含义

arg1

告警相关的CPU的槽位号。

arg2

对应传感器的当前读数。

arg3

告警门限。

arg4

CPU的序列号。

arg5

BOM编码。

 

对系统的影响

可能导致BMC运行不稳定。

可能原因

主板故障。

处理步骤

                                步骤 1     更换服务器主板,查看告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     请联系技术支持工程师处理。

----结束

3.30 ALM-0x00000095 CPUVDDAVS电压读取失败(CPU,轻微告警)

告警解释

告警描述:

Failed to obtain data of the CPU arg1 VDDAVS voltage (SN: arg2, BN: arg3).

BMC V316及以上版本起,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

当读取CPU VDDAVS电压值失败时,产生此告警。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x00000095

轻微

 

告警参数

参数名称

参数含义

arg1

告警相关的CPU的槽位号。

arg2

CPU的序列号。

arg3

BOM编码。

 

对系统的影响

无法正常监控电压,电压异常时无法及时告警。

可能原因

l     BMC模块异常。

l     主板故障。

处理步骤

                                步骤 1     重启BMC,检查告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     拔插电源线缆或拔插单板,检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     更换服务器主板,检查告警是否清除。

l      => 处理完毕

l      => 步骤4

                                步骤 4     请联系技术支持工程师处理。

----结束

3.31 ALM-0x00000097 CPUHVCC电压过高(CPU,严重告警)

告警解释

告警描述:

CPU arg1 HVCC voltage (arg2 V) exceeds the overvoltage threshold (arg3 V) (SN: arg4, BN: arg5).

BMC V316及以上版本起,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

当检测到CPU HVCC监测点当前电压高于高压门限,产生此告警,当电压恢复到正常范围时,告警恢复。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x00000097

严重

 

告警参数

参数名称

参数含义

arg1

告警相关的CPU的槽位号。

arg2

对应传感器的当前读数。

arg3

告警门限。

arg4

CPU的序列号。

arg5

BOM编码。

 

对系统的影响

可能导致BMC运行不稳定。

可能原因

主板故障。

处理步骤

                                步骤 1     更换服务器主板,查看告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     请联系技术支持工程师处理。

----结束

3.32 ALM-0x00000099 CPUHVCC电压过低(CPU,严重告警)

告警解释

告警描述:

CPU arg1 HVCC voltage (arg2 V) is lower than the undervoltage threshold (arg3 V) (SN: arg4, BN: arg5).

BMC V316及以上版本起,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

当检测到CPU HVCC监测点当前电压低于低压门限,产生此告警,当电压恢复到正常范围时,告警恢复。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x00000099

严重

 

告警参数

参数名称

参数含义

arg1

告警相关的CPU的槽位号。

arg2

对应传感器的当前读数。

arg3

告警门限。

arg4

CPU的序列号。

arg5

BOM编码。

 

对系统的影响

可能导致BMC运行不稳定。

可能原因

主板故障。

处理步骤

                                步骤 1     更换服务器主板,查看告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     请联系技术支持工程师处理。

----结束

3.33 ALM-0x0000009B CPUHVCC电压读取失败(CPU,轻微告警)

告警解释

告警描述:

Failed to obtain data of the CPU arg1 HVCC voltage (SN: arg2, BN: arg3).

BMC V316及以上版本起,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

当读取CPU HVCC电压值失败时,产生此告警。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x0000009B

轻微

 

告警参数

参数名称

参数含义

arg1

告警相关的CPU的槽位号。

arg2

CPU的序列号。

arg3

BOM编码。

 

对系统的影响

无法正常监控电压,电压异常时无法及时告警。

可能原因

l     BMC模块异常。

l     主板故障。

处理步骤

                                步骤 1     重启BMC,检查告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     拔插电源线缆或拔插单板,检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     更换服务器主板,检查告警是否清除。

l      => 处理完毕

l      => 步骤4

                                步骤 4     请联系技术支持工程师处理。

----结束

3.34 ALM-0x000000A9 CPUVDDQAB电压过高(CPU,严重告警)

告警解释

告警描述:

CPU arg1 VDDQ_AB voltage (arg2 V) exceeds the overvoltage threshold (arg3 V) (SN: arg4, BN: arg5).

BMC V316及以上版本起,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

当检测到CPU VDDQ_AB监测点当前电压高于高压门限,产生此告警,当电压恢复到正常范围时,告警恢复。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x000000A9

严重

 

告警参数

参数名称

参数含义

arg1

告警相关的CPU的槽位号。

arg2

对应传感器的当前读数。

arg3

告警门限。

arg4

CPU的序列号。

arg5

BOM编码。

 

对系统的影响

可能导致BMC运行不稳定。

可能原因

主板故障。

处理步骤

                                步骤 1     更换服务器主板,查看告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     请联系技术支持工程师处理。

----结束

3.35 ALM-0x000000AB CPUVDDQAB电压过低(CPU,严重告警)

告警解释

告警描述:

CPU arg1 VDDQ_AB voltage (arg2 V) is lower than the undervoltage threshold (arg3 V) (SN: arg4, BN: arg5).

BMC V316及以上版本起,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

当检测到CPU VDDQ_AB监测点当前电压低于低压门限,产生此告警,当电压恢复到正常范围时,告警恢复。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x000000AB

严重

 

告警参数

参数名称

参数含义

arg1

告警相关的CPU的槽位号。

arg2

对应传感器的当前读数。

arg3

告警门限。

arg4

CPU的序列号。

arg5

BOM编码。

 

对系统的影响

可能导致BMC运行不稳定。

可能原因

主板故障。

处理步骤

                                步骤 1     更换服务器主板,查看告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     请联系技术支持工程师处理。

----结束

3.36 ALM-0x000000AD CPUVDDQAB电压读取失败(CPU,轻微告警)

告警解释

告警描述:

Failed to obtain data of the CPU arg1 VDDQ_AB voltage (SN: arg2, BN: arg3).

BMC V316及以上版本起,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

当读取CPU VDDQ_AB电压值失败时,产生此告警。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x000000AD

轻微

 

告警参数

参数名称

参数含义

arg1

告警相关的CPU的槽位号。

arg2

CPU的序列号。

arg3

BOM编码。

 

对系统的影响

无法正常监控电压,电压异常时无法及时告警。

可能原因

l     BMC模块异常。

l     主板故障。

处理步骤

                                步骤 1     重启BMC,检查告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     拔插电源线缆或拔插单板,检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     更换服务器主板,检查告警是否清除。

l      => 处理完毕

l      => 步骤4

                                步骤 4     请联系技术支持工程师处理。

----结束

3.37 ALM-0x000000AF CPUVDDQCD电压过高(CPU,严重告警)

告警解释

告警描述:

CPU arg1 VDDQ_CD voltage (arg2 V) exceeds the overvoltage threshold (arg3 V) (SN: arg4, BN: arg5).

BMC V316及以上版本起,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

当检测到CPU VDDQ_CD监测点当前电压高于高压门限,产生此告警,当电压恢复到正常范围时,告警恢复。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x000000AF

严重

 

告警参数

参数名称

参数含义

arg1

告警相关的CPU的槽位号。

arg2

对应传感器的当前读数。

arg3

告警门限。

arg4

CPU的序列号。

arg5

BOM编码。

 

对系统的影响

可能导致BMC运行不稳定。

可能原因

主板故障。

处理步骤

                                步骤 1     更换服务器主板,查看告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     请联系技术支持工程师处理。

----结束

3.38 ALM-0x000000B1 CPUVDDQCD电压过低(CPU,严重告警)

告警解释

告警描述:

CPU arg1 VDDQ_CD voltage (arg2 V) is lower than the undervoltage threshold (arg3 V) (SN: arg4, BN: arg5).

BMC V316及以上版本起,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

当检测到CPU VDDQ_CD监测点当前电压低于低压门限,产生此告警,当电压恢复到正常范围时,告警恢复。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x000000B1

严重

 

告警参数

参数名称

参数含义

arg1

告警相关的CPU的槽位号。

arg2

对应传感器的当前读数。

arg3

告警门限。

arg4

CPU的序列号。

arg5

BOM编码。

 

对系统的影响

可能导致BMC运行不稳定。

可能原因

主板故障。

处理步骤

                                步骤 1     更换服务器主板,查看告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     请联系技术支持工程师处理。

----结束

3.39 ALM-0x000000B3 CPUVDDQCD电压读取失败(CPU,轻微告警)

告警解释

告警描述:

Failed to obtain data of the CPU arg1 VDDQ_CD voltage (SN: arg2, BN: arg3).

BMC V316及以上版本起,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

当读取CPU VDDQ_CD电压值失败时,产生此告警。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x000000B3

轻微

 

告警参数

参数名称

参数含义

arg1

告警相关的CPU的槽位号。

arg2

CPU的序列号。

arg3

BOM编码。

 

对系统的影响

无法正常监控电压,电压异常时无法及时告警。

可能原因

l     BMC模块异常。

l     主板故障。

处理步骤

                                步骤 1     重启BMC,检查告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     拔插电源线缆或拔插单板,检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     更换服务器主板,检查告警是否清除。

l      => 处理完毕

l      => 步骤4

                                步骤 4     请联系技术支持工程师处理。

----结束

3.40 ALM-0x000000B5 CPUNVDDAVS电压过高(CPU,严重告警)

告警解释

告警描述:

CPU arg1 N_VDDAVS voltage (arg2 V) exceeds the overvoltage threshold (arg3 V) (SN: arg4, BN: arg5).

BMC V316及以上版本起,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

当检测到CPU N_VDDAVS监测点当前电压高于高压门限,产生此告警,当电压恢复到正常范围时,告警恢复。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x000000B5

严重

 

告警参数

参数名称

参数含义

arg1

告警相关的CPU的槽位号。

arg2

对应传感器的当前读数。

arg3

告警门限。

arg4

CPU的序列号。

arg5

BOM编码。

 

对系统的影响

可能导致BMC运行不稳定。

可能原因

主板故障。

处理步骤

                                步骤 1     更换服务器主板,查看告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     请联系技术支持工程师处理。

----结束

3.41 ALM-0x000000B7 CPUNVDDAVS电压过低(CPU,严重告警)

告警解释

告警描述:

CPU arg1 N_VDDAVS voltage (arg2 V) is lower than the undervoltage threshold (arg3 V) (SN: arg4, BN: arg5).

BMC V316及以上版本起,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

当检测到CPU N_VDDAVS监测点当前电压低于低压门限,产生此告警,当电压恢复到正常范围时,告警恢复。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x000000B7

严重

 

告警参数

参数名称

参数含义

arg1

告警相关的CPU的槽位号。

arg2

对应传感器的当前读数。

arg3

告警门限。

arg4

CPU的序列号。

arg5

BOM编码。

 

对系统的影响

可能导致BMC运行不稳定。

可能原因

主板故障。

处理步骤

                                步骤 1     更换服务器主板,查看告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     请联系技术支持工程师处理。

----结束

3.42 ALM-0x000000B9 CPUNVDDAVS电压读取失败(CPU,轻微告警)

告警解释

告警描述:

Failed to obtain data of the CPU arg1 N_VDDAVS voltage (SN: arg2, BN: arg3).

BMC V316及以上版本起,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

当读取CPU N_VDDAVS电压值失败时,产生此告警。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x000000B9

轻微

 

告警参数

参数名称

参数含义

arg1

告警相关的CPU的槽位号。

arg2

CPU的序列号。

arg3

BOM编码。

 

对系统的影响

无法正常监控电压,电压异常时无法及时告警。

可能原因

l     BMC模块异常。

l     主板故障。

处理步骤

                                步骤 1     重启BMC,检查告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     拔插电源线缆或拔插单板,检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     更换服务器主板,检查告警是否清除。

l      => 处理完毕

l      => 步骤4

                                步骤 4     请联系技术支持工程师处理。

----结束

3.43 ALM-0x03000037 电源模块电压异常(PSU,紧急告警)

告警解释

告警描述:

The input voltage of the PSU is abnormal, and the voltage of the standby PSU in N+R mode is not arg1 higher than that of the active PSU.

BMC检测到电源输入电压异常,N+R模式备用电源电压未高于主用电源电压时,产生此告警。

产生此告警的主体类型为:PSU

告警属性

告警ID

告警级别

可自动清除

0x03000037

紧急

 

告警参数

参数名称

参数含义

arg1

告警门限。

 

对系统的影响

影响系统供电,可能导致服务器掉电。

可能原因

l     电源输入故障。

l     电源线缆插错。

处理步骤

                                步骤 1     检查服务器是否同时存在其他电源相关告警。

l      => 步骤2

l      => 步骤3

                                步骤 2     按照告警处理建议清除其他电源告警后,检查本告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     检查电源线缆是否插错。

l      => 步骤4

l      => 步骤5

                                步骤 4     更换电源线缆,待服务器上电后,检查告警是否清除。

l      => 处理完毕

l      => 步骤5

                                步骤 5     请联系技术支持工程师处理。

----结束


4 看门狗告警

介绍服务器可能产生的看门狗告警。

4.1  ALM-0x2C000025 看门狗超时导致系统强制重启(System,严重告警)

4.2  ALM-0x2C000027 看门狗超时导致系统下电(System,严重告警)

4.3  ALM-0x2C000029 看门狗超时导致系统强制下电再上电(System,严重告警)

4.1 ALM-0x2C000025 看门狗超时导致系统强制重启(System,严重告警)

告警解释

告警描述:

The OS is forcibly reset due to the watchdog (arg1) timeout.

通过业务软件启动看门狗,在系统某阶段(timer user字段标示:BIOS POSTOS LoadSMS/OS阶段,告警中此字段依具体情况而定),看门狗超时溢出时,如果超时动作设为“hard reset”时,则产生此告警。

产生此告警的前提是业务软件启动看门狗。

产生此告警的主体类型为:System

告警属性

告警ID

告警级别

可自动清除

0x2C000025

严重

告警参数

参数名称

参数含义

arg1

系统启动的阶段,例如“BIOS FRB 2”、“BIOS/POST”、“OS Load”、“SMS/OS”、“OEM”。

对系统的影响

操作系统重启,可能导致服务器业务中断。

可能原因

l     告警产生在BIOS/POST阶段,为硬件异常,或BIOS启动异常。

l     告警产生在OS Load阶段,为业务系统启动异常。

l     告警产生在SMS/OS阶段,为业务软件异常。

处理步骤

                                步骤 1     关闭看门狗,重新启动服务器。

                                步骤 2     通过KVM查看系统启动过程,根据告警产生的不同阶段,做不同的处理。

1.     若告警发生在OS Load阶段,业务系统引导错误,可通过KVM查看业务系统错误打印,进行定位处理。

2.     若告警在SMS/OS阶段,则说明在业务系统中有软件进行了看门狗设置;进入业务系统,检查系统设置看门狗的软件是否异常或停止响应。

                                步骤 3     保存查询到的信息,请联系技术支持工程师处理。

----结束

4.2 ALM-0x2C000027 看门狗超时导致系统下电(System,严重告警)

告警解释

告警描述:

The OS is forcibly powered off due to the watchdog (arg1) timeout.

通过业务软件启动看门狗,在系统某阶段(timer user字段标示:BIOS POSTOS LoadSMS/OS阶段,告警中此字段依具体情况而定),看门狗超时溢出时,如果超时动作设为“power down”时,则产生此告警。

产生此告警的主体类型为:System

告警属性

告警ID

告警级别

可自动清除

0x2C000027

严重

告警参数

参数名称

参数含义

arg1

系统启动的阶段,例如“BIOS FRB 2”、“BIOS/POST”、“OS Load”、“SMS/OS”、“OEM”。

对系统的影响

操作系统下电,可能导致服务器业务中断。

可能原因

l     告警产生在BIOS/POST阶段,为硬件异常,或BIOS启动异常。

l     告警产生在OS Load阶段,为业务系统启动异常。

l     告警产生在SMS/OS阶段,为业务软件异常。

处理步骤

                                步骤 1     关闭看门狗,重新启动服务器。

                                步骤 2     通过KVM查看系统启动过程,根据告警产生的不同阶段,做不同的处理。

1.     若告警发生在OS Load阶段,业务系统引导错误,可通过KVM查看业务系统错误打印,进行定位处理。

2.     若告警在SMS/OS阶段,则说明在业务系统中有软件进行了看门狗设置;进入业务系统,检查系统设置看门狗的软件是否异常或停止响应。

                                步骤 3     保存查询到的信息,请联系技术支持工程师处理。

----结束

4.3 ALM-0x2C000029 看门狗超时导致系统强制下电再上电(System,严重告警)

告警解释

告警描述:

The OS is forcibly powered off and then on due to the watchdog (arg1) timeout.

通过业务软件启动看门狗,在系统某阶段(timer user字段标示:BIOS POSTOS LoadSMS/OS阶段,告警中此字段依具体情况而定),看门狗超时溢出时,如果超时动作设为“power cycle”时,则产生此告警。

产生此告警的主体类型为:System

告警属性

告警ID

告警级别

可自动清除

0x2C000029

严重

告警参数

参数名称

参数含义

arg1

系统启动的阶段,例如“BIOS FRB 2”、“BIOS/POST”、“OS Load”、“SMS/OS”、“OEM”。

对系统的影响

操作系统下电再上电,可能导致服务器业务中断。

可能原因

l     告警产生在BIOS/POST阶段,为硬件异常,或BIOS启动异常。

l     告警产生在OS Load阶段,为业务系统启动异常。

l     告警产生在SMS/OS阶段,为业务软件异常。

处理步骤

                                步骤 1     关闭看门狗,重新启动服务器。

                                步骤 2     通过KVM查看系统启动过程,根据告警产生的不同阶段,做不同的处理。

1.     若告警发生在OS Load阶段,业务系统引导错误,可通过KVM查看业务系统错误打印,进行定位处理。

2.     若告警在SMS/OS阶段,则说明在业务系统中有软件进行了看门狗设置;进入业务系统,检查系统设置看门狗的软件是否异常或停止响应。

                                步骤 3     保存查询到的信息,请联系技术支持工程师处理。

----结束


5 管理子系统告警

介绍服务器可能产生的管理子系统告警。

5.1  ALM-0x49000001 BMA建立转发映射表失败(BMA,轻微告警)

5.2  ALM-0x08000069 PCIe卡巡检失败(PCIe Card,严重告警)

5.3  ALM-0x08000005 PCIe标卡温度读取失败(PCIe Card,轻微告警)

5.4  ALM-0x00000023 CPU核心温度读取失败(CPU,轻微告警)

5.5  ALM-0x00000025 CPU VDDQ温度读取失败(CPU,轻微告警)

5.6  ALM-0x12000017 出风口温度读取失败(Chassis,轻微告警)

5.7  ALM-0x0D000005 网卡扣卡温度读取失败(NIC,轻微告警)

5.8  ALM-0x10000089 主板电子标签读取失败(Mainboard,轻微告警)

5.9  ALM-0x02000017 硬盘温度读取失败(Disk,轻微告警)

5.1 ALM-0x49000001 BMA建立转发映射表失败(BMA,轻微告警)

告警解释

告警描述:

iBMA failed to establish forward mapping table (arg1).

iBMA建立转发映射表失败时,产生此告警。

产生此告警的主体类型为:BMA

告警属性

告警ID

告警级别

可自动清除

0x49000001

轻微

告警参数

参数名称

参数含义

arg1

此告警触发的原因。

例如:

l     Failed to bind port 1.

l     Failed to bind port 1 and the port(s) is/are occupied.

对系统的影响

无法通过带内通道转发Trap消息。

可能原因

端口绑定失败或端口被占用。

处理步骤

                                步骤 1     检查端口是否被占用。

l      => 步骤2

l      => 步骤3

                                步骤 2     使用其他端口,检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     检查业务侧虚拟网口状态是否正常。包括连接状态是否LinkupIP地址是否有效。

l      => 步骤5

l      => 步骤4

                                步骤 4     重置业务侧虚拟网口,确保其IP地址有效且连接状态为Linkup状态,检查告警是否清除。

l      => 处理完毕

l      => 步骤5

                                步骤 5     请联系技术支持工程师处理。

----结束

5.2 ALM-0x08000069 PCIe卡巡检失败(PCIe Card,严重告警)

告警解释

告警描述:

The arg1 PCIe card arg2 (arg3) inspection failed.

PCIe卡巡检失败时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x08000069

严重

告警参数

参数名称

参数含义

arg1

PCIe标卡所在板卡,例如“GpuBoard”、“Riser”。

arg2

PCIe标卡的槽位号,例如“1”、“2”。

arg3

PCIe标卡名称,例如“FPGA”、“NIC”。

对系统的影响

BMC无法管理PCIe卡。

可能原因

l     I2CI2C over LAN通道故障。

l     PCIe卡故障。

处理步骤

                                步骤 1     重启板卡或者业务系统,检查告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     请尽快安排计划性维护,下电后检查该部件与其插槽是否存在损坏或接触不良现象。

l      => 步骤3

l      => 步骤4

                                步骤 3     重新安装产生告警的板卡,检查告警是否清除。

l      => 处理完毕

l      => 步骤4

                                步骤 4     更换产生告警的板卡,检查告警是否清除。

l      => 处理完毕

l      => 步骤5

                                步骤 5     请联系技术支持工程师处理。

----结束

5.3 ALM-0x08000005 PCIe标卡温度读取失败(PCIe Card,轻微告警)

告警解释

BMC V308之前版本,告警描述为:

Failed to obtain data of the arg1 arg2 arg3 temperature.

BMC V308及以上版本,告警描述为:

Failed to obtain data of the arg1 arg2 arg3 temperature. [arg4] [arg5]

BMC V316及以上版本,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

当读取PCIe标卡温度失败时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x08000005

轻微

告警参数

参数名称

参数含义

arg1

告警相关PCIe卡的位置,例如“GpuBoard”、“Riser”。

arg2

告警相关PCIe卡的槽位号,例如“1”、“2”。

arg3

告警相关PCIe卡的类型,例如“FPGA Chip”、“Hi1822 Optical Module”。

arg4

告警相关的附加描述,例如“Error Code”。

说明

BMC V308及以上版本支持此参数。

arg5

告警相关的故障码,例如“(7001)”。

说明

BMC V308及以上版本支持此参数。

对系统的影响

无法正常监控温度,温度异常时无法及时告警,影响风扇调速。

可能原因

传感器访问通道异常或传感器芯片失效。

处理步骤

                                步骤 1     重启BMC,检查告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     OS执行先下电后上电操作,检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     拔插电源线缆或拔插单板,检查告警是否清除。

l      => 处理完毕

l      => 步骤4

                                步骤 4     更换产生告警的PCIe卡,检查告警是否清除。

l      => 处理完毕

l      => 步骤5

                                步骤 5     请联系技术支持工程师处理。

----结束

5.4 ALM-0x00000023 CPU核心温度读取失败(CPU,轻微告警)

告警解释

告警描述:

Failed to obtain data of the CPU arg1 core temperature (SN: arg2, BN: arg3).

BMC V316及以上版本,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

当读取CPU核心温度失败时,产生此告警。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x00000023

轻微

告警参数

参数名称

参数含义

arg1

告警相关的CPU的槽位号。

arg2

CPU的序列号。

arg3

BOM编码。

对系统的影响

无法正常监控温度,温度异常时无法及时告警。

可能原因

CPU电压检测电路异常。

处理步骤

                                步骤 1     重启BMC,检查告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     拔插电源线缆或拔插单板,检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     更换服务器主板,检查告警是否清除。

l      => 处理完毕

l      => 步骤4

                                步骤 4     请联系技术支持工程师处理。

----结束

5.5 ALM-0x00000025 CPU VDDQ温度读取失败(CPU,轻微告警)

告警解释

告警描述:

Failed to obtain data of the CPU arg1 VDDQ temperature (SN: arg2, BN: arg3).

BMC V316及以上版本,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

当读取CPU VDDQ温度失败时,产生此告警。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x00000025

轻微

告警参数

参数名称

参数含义

arg1

告警相关的CPU的槽位号。

arg2

CPU的序列号。

arg3

BOM编码。

对系统的影响

无法正常监控温度,温度异常时无法及时告警。

可能原因

CPU电压检测电路异常。

处理步骤

                                步骤 1     重启BMC,检查告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     拔插电源线缆或拔插单板,检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     更换服务器主板,检查告警是否清除。

l      => 处理完毕

l      => 步骤4

                                步骤 4     请联系技术支持工程师处理。

----结束

5.6 ALM-0x12000017 出风口温度读取失败(Chassis,轻微告警)

告警解释

告警描述:

Failed to obtain data of the air outlet arg1 temperature.

出风口温度读取失败时,产生此告警。

产生此告警的主体类型为:Chassis

告警属性

告警ID

告警级别

可自动清除

0x12000017

轻微

告警参数

参数名称

参数含义

arg1

出风口的编号

对系统的影响

无法正常监控出风口温度,影响风扇调速功能。

可能原因

l     BMC异常。

l     出风口传感器所在部件故障。

处理步骤

                                步骤 1     登录BMCWeb界面或命令行。

登录方法请参考服务器BMC用户指南。

                                步骤 2     重启BMC

l     Web界面中,可通过“固件升级”界面的“重启BMC”实现重启操作。

l     命令行下,可通过ipmcset -d reset命令实现重启操作。

                                步骤 3     重启完成后,查看告警是否清除。

l      => 处理完毕

l      => 步骤4

                                步骤 4     检查告警是否清除。

l      => 处理完毕

l      => 步骤5

                                步骤 5     更换出风口传感器所在部件,检查告警是否清除。

部件更换方法请参考服务器用户指南中的“更换部件”章节。

l      => 处理完毕

l      => 步骤6

                                步骤 6     请联系技术支持工程师处理。

----结束

5.7 ALM-0x0D000005 网卡扣卡温度读取失败(NIC,轻微告警)

告警解释

告警描述:

Failed to obtain data of the NIC arg1 temperature.

当读取网卡扣卡温度失败时,产生此告警。

产生此告警的主体类型为:NIC

告警属性

告警ID

告警级别

可自动清除

0x0D000005

轻微

告警参数

参数名称

参数含义

arg1

告警相关网卡扣卡的编号。

对系统的影响

无法正常监控温度,温度异常时无法及时告警。

可能原因

l     BMC模块异常。

l     网卡扣卡故障。

处理步骤

                                步骤 1     重启BMC,检查告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     通过拔插电源线的方法将服务器彻底下电再上电,检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     更换网卡扣卡,检查告警是否清除。

l      => 处理完毕

l      => 步骤4

                                步骤 4     请联系技术支持工程师处理。

----结束

5.8 ALM-0x10000089 主板电子标签读取失败(Mainboard,轻微告警)

告警解释

告警描述:

Failed to obtain electronic label data of mainboard (BN: arg1).

BMC V316及以上版本,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

当读取主板电子标签失败时,产生此告警。

产生此告警的主体类型为:Mainboard

告警属性

告警ID

告警级别

可自动清除

0x10000089

轻微

告警参数

参数名称

参数含义

arg1

BOM编码。

对系统的影响

影响系统读取资产信息。

可能原因

l     BMC模块异常。

l     主板故障。

处理步骤

                                步骤 1     重启BMC,检查告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     更换主板,检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     请联系技术支持工程师处理。

----结束

5.9 ALM-0x02000017 硬盘温度读取失败(Disk,轻微告警)

告警解释

告警描述:

Failed to obtain data of the [arg1] disk arg2 temperature (SN: arg3, BN: arg4).

BMC V316及以上版本,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

当读取硬盘温度失败时,产生此告警。

产生此告警的主体类型为:Disk

告警属性

告警ID

告警级别

可自动清除

0x02000017

轻微

告警参数

参数名称

参数含义

arg1

告警相关的硬盘的位置,例如“FM”、“CMn”。

arg2

告警相关硬盘的槽位号。

arg3

硬盘的序列号。

arg4

BOM编码。

对系统的影响

无法正常监控温度,温度异常时无法及时告警。

可能原因

l     BMC访问硬盘的通道异常。

l     硬盘故障。

l     硬盘背板故障。

处理步骤

                                步骤 1     重启BMC,检查告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     通过拔插电源线的方法将服务器彻底下电再上电,检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     重新安装传感器所在硬盘背板上的线缆,检查告警是否清除。

l      => 处理完毕

l      => 步骤4

                                步骤 4     更换硬盘,检查告警是否清除。

l      => 处理完毕

l      => 步骤5

                                步骤 5     更换传感器所在的硬盘背板,检查告警是否清除。

l      => 处理完毕

l      => 步骤6

                                步骤 6     请联系技术支持工程师处理。

----结束


6 存储告警

介绍服务器可能产生的存储告警。

6.1  ALM-0x02000007 硬盘故障(Disk,严重告警)

6.2  ALM-0x02000009 硬盘预故障(Disk,轻微告警)

6.3  ALM-0x0200000B 硬盘RAID阵列失效(Disk,严重告警)

6.4  ALM-0x02000025 硬盘链路故障(Disk,严重告警)

6.5  ALM-0x02000027 硬盘状态异常(Disk,轻微告警)

6.6  ALM-0x02000029 硬盘有外部配置(Disk,轻微告警)

6.7  ALM-0x0200002B 硬盘链路异常(Disk,轻微告警)

6.8  ALM-0x0200002D 硬盘丢失(Disk,严重告警)

6.9  ALM-0x02000013 硬盘MCE/AER错误(Disk,紧急告警)

6.10  ALM-0x0200001D 硬盘剩余磨损率过低(Disk,严重告警)

6.11  ALM-0x0200002F 硬盘与RAID卡之间链路的PHY误码增长过快(Disk,严重告警)

6.12  ALM-0x02000031 硬盘与Expander控制器之间链路的PHY误码增长过快(Disk,严重告警)

6.13  ALM-0x2C000071 文件系统只读(System,严重告警)

6.1 ALM-0x02000007 硬盘故障(Disk,严重告警)

告警解释

告警描述:

The [arg1] disk arg2 failure (SN: arg3, BN: arg4).

BMC V316及以上版本,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

当硬盘出现异常或故障时,产生此告警。

产生此告警的主体类型为:Disk

SATADOMM.2硬盘也支持以上告警。

告警属性

告警ID

告警级别

可自动清除

0x02000007

严重

告警参数

参数名称

参数含义

arg1

告警相关的硬盘的位置,例如“FM”、“CMn”。

arg2

告警相关硬盘的槽位号。

arg3

硬盘的序列号。

arg4

BOM编码。

对系统的影响

可能导致系统停止响应或数据丢失。

可能原因

硬盘故障。

处理步骤

1.     更换产生告警的硬盘,查看告警是否清除。

      => 处理完毕

      => 2

2.     请联系技术支持工程师处理。

6.2 ALM-0x02000009 硬盘预故障(Disk,轻微告警)

告警解释

告警描述:

The [arg1] disk arg2 predictive failure (SN: arg3, BN: arg4).

BMC V316及以上版本,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

当硬盘的错误积累到阈值,可能导致硬盘故障时,产生此告警。

产生此告警的主体类型为:Disk

SATADOMM.2硬盘也支持以上告警。

告警属性

告警ID

告警级别

可自动清除

0x02000009

轻微

告警参数

参数名称

参数含义

arg1

告警相关的硬盘的位置,例如“FM”、“CMn”。

arg2

告警相关硬盘的槽位号。

arg3

硬盘的序列号。

arg4

BOM编码。

对系统的影响

硬盘可靠性降低,可能对操作系统存储性能、业务正常运行等造成影响。

可能原因

l     硬盘模式为只读。

l     硬盘SMART检测到的错误计数超过阈值。

l     硬盘剩余寿命不足(针对NVMe硬盘)。

处理步骤

                                步骤 1     产生该告警时,服务器可以正常使用。请选择合适的时间和环境更换硬盘,检查告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     请联系技术支持工程师处理。

----结束

6.3 ALM-0x0200000B 硬盘RAID阵列失效(Disk,严重告警)

告警解释

告警描述:

The [arg1] disk arg2 RAID array is invalid (SN: arg3, BN: arg4).

BMC V316及以上版本,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

当硬盘被拨出或故障,RAID阵列故障或异常时,产生此告警。

产生此告警的主体类型为:Disk

SATADOMM.2硬盘也支持以上告警。

告警属性

告警ID

告警级别

可自动清除

0x0200000B

严重

告警参数

参数名称

参数含义

arg1

告警相关的硬盘的位置,例如“FM”、“CMn”。

arg2

告警相关硬盘的槽位号。

arg3

硬盘的序列号。

arg4

BOM编码。

对系统的影响

RAID失效,会造成硬盘冗余度降低,或数据丢失,甚至导致系统停止响应。

可能原因

l     RAID阵列的硬盘被人为拔出。

l     RAID阵列的硬盘故障。

处理步骤

                                步骤 1     检查RAID中的硬盘是否被拔出。

l      => 步骤2

l      => 步骤3

                                步骤 2     将硬盘安装回原有槽位,检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     更换导致RAID失效的硬盘,查看告警是否清除。

更换硬盘的具体操作,请参考相关产品的用户指南手册。

l      => 处理完毕

l      => 步骤4

                                步骤 4     请联系技术支持工程师处理。

----结束

6.4 ALM-0x02000025 硬盘链路故障(Disk,严重告警)

告警解释

告警描述:

The arg1 arg2 arg3 link is faulty (SN: arg4, BN: arg5).

BMC V316及以上版本,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

当硬盘链路错误时,产生此告警。

产生此告警的主体类型为:Disk

告警属性

告警ID

告警级别

可自动清除

0x02000025

严重

告警参数

参数名称

参数含义

arg1

硬盘的位置,例如“FIO”。

arg2

硬盘的槽位号,例如“DISK1”。

arg3

硬盘的链路类型,例如“PCIe”。

arg4

硬盘的序列号。

arg5

BOM编码。

对系统的影响

可能导致系统停止响应或数据丢失。

可能原因

l     硬盘松动。

l     线缆连接错误、松动或故障。

l     硬盘背板或转接卡故障。

处理步骤

                                步骤 1     检查硬盘是否插好。

l      => 步骤3

l      => 步骤2

                                步骤 2     重新安装硬盘,检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     检查NVMe线缆或者SAS线缆连接是否正确。

详细的连接顺序请参考服务器用户指南。

l      => 步骤5

l      => 步骤4

                                步骤 4     按照正确顺序重新连接NVMe线缆或者SAS线缆,检查告警是否清除。

l      => 处理完毕

l      => 步骤5

                                步骤 5     更换NVMe线缆或者SAS线缆,检查告警是否清除。

l      => 处理完毕

l      => 步骤6

                                步骤 6     更换硬盘背板或转接卡,检查告警是否清除。

l      => 处理完毕

l      => 步骤7

                                步骤 7     更换CPU,检查告警是否清除。

l      => 处理完毕

l      => 步骤8

                                步骤 8     更换服务器主板,检查告警是否清除。

l      => 处理完毕

l      => 步骤9

                                步骤 9     请联系技术支持工程师处理。

----结束

6.5 ALM-0x02000027 硬盘状态异常(Disk,轻微告警)

告警解释

告警描述:

The [arg1] disk arg2 state is abnormal (SN: arg3, BN: arg4).

BMC V316及以上版本,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

当硬盘状态异常时,产生此告警。

产生此告警的主体类型为:Disk

SATADOMM.2硬盘也支持以上告警。

告警属性

告警ID

告警级别

可自动清除

0x02000027

轻微

告警参数

参数名称

参数含义

arg1

告警相关的硬盘的位置,例如“FM”、“CMn”。

arg2

告警相关硬盘的槽位号。

arg3

硬盘的序列号。

arg4

BOM编码。

对系统的影响

可能导致系统停止响应或数据丢失。

可能原因

l     对硬盘或RAID卡操作不当。

l     硬盘故障。

处理步骤

                                步骤 1     如果服务器同时存在硬盘故障告警,请先按照告警处理建议清除告警。

                                步骤 2     手动将硬盘的固件状态修改为“UNCONFIGURED GOOD”或“OFFLINE”,查看告警是否清除。

可以从BMC Web UI的“系统信息 > 存储 > 配置”中修改硬盘的固件状态。

l      => 步骤3

l      => 步骤4

                                步骤 3     更换产生告警的硬盘,查看告警是否清除。

更换硬盘的具体操作,请参考相关产品的用户指南手册。

l      => 处理完毕

l      => 步骤4

                                步骤 4     请联系技术支持工程师处理。

----结束

6.6 ALM-0x02000029 硬盘有外部配置(Disk,轻微告警)

告警解释

告警描述:

The [arg1] disk arg2 has foreign configuration (SN: arg3, BN: arg4).

BMC V316及以上版本,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

当硬盘有外部配置时,产生此告警。

产生此告警的主体类型为:Disk

SATADOMM.2硬盘也支持以上告警。

告警属性

告警ID

告警级别

可自动清除

0x02000029

轻微

告警参数

参数名称

参数含义

arg1

告警相关的硬盘的位置,例如“FM”、“CMn”。

arg2

告警相关硬盘的槽位号。

arg3

硬盘的序列号。

arg4

BOM编码。

对系统的影响

可能导致系统停止响应或数据丢失。

可能原因

外来硬盘已有逻辑关系。

处理步骤

                                步骤 1     清除或导入RAID配置,查看告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     请联系技术支持工程师处理。

----结束

6.7 ALM-0x0200002B 硬盘链路异常(Disk,轻微告警)

告警解释

告警描述:

The [arg1] disk arg2 link is abnormal (SN: arg3, BN: arg4).

BMC V316及以上版本,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

当硬盘链路异常时,产生此告警。

产生此告警的主体类型为:Disk

SATADOMM.2硬盘也支持以上告警。

告警属性

告警ID

告警级别

可自动清除

0x0200002B

轻微

告警参数

参数名称

参数含义

arg1

告警相关的硬盘的位置,例如“FM”、“CMn”。

arg2

告警相关硬盘的槽位号。

arg3

硬盘的序列号。

arg4

BOM编码。

对系统的影响

可能导致系统停止响应或数据丢失。

可能原因

l     SAS或者NVME线缆插错或线缆故障。

l     硬盘故障。

l     硬盘背板或转接卡故障。

处理步骤

                                步骤 1     在业务侧确认硬盘是否能识别。

l     如果不能识别,请更换硬盘。

l     如果能识别但无法点亮locate灯,请更换硬盘或SAS/NVMe线缆。

                                步骤 2     如果服务器同时存在SAS或者NVMe线缆告警,请按照告警处理建议消除告警。

                                步骤 3     更换硬盘背板或转接卡,查看告警是否清除。

l      => 处理完毕

l      => 步骤4

                                步骤 4     请联系技术支持工程师处理。

----结束

6.8 ALM-0x0200002D 硬盘丢失(Disk,严重告警)

告警解释

告警描述:

The [arg1] disk arg2is missing (SN: arg3, BN: arg4).

BMC V316及以上版本,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

当硬盘丢失时,产生此告警。

产生此告警的主体类型为:Disk

SATADOMM.2硬盘也支持以上告警。

告警属性

告警ID

告警级别

可自动清除

0x0200002D

严重

告警参数

参数名称

参数含义

arg1

告警相关的硬盘的位置,例如“FM”、“CMn”。

arg2

告警相关硬盘的槽位号。

arg3

硬盘的序列号。

arg4

BOM编码。

对系统的影响

可能导致系统停止响应或数据丢失。

可能原因

l     SAS线缆松动。

l     硬盘故障。

处理步骤

                                步骤 1     如果有两个及以上硬盘丢失告警,请检查SAS线缆是否松动。

l      => 步骤2

l      => 步骤3

                                步骤 2     重新连接SAS线缆,查看告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     更换产生告警的硬盘,查看告警是否清除。

l      => 处理完毕

l      => 步骤4

                                步骤 4     更换硬盘背板,查看告警是否清除。

l      => 处理完毕

l      => 步骤5

                                步骤 5     请联系技术支持工程师处理。

----结束

6.9 ALM-0x02000013 硬盘MCE/AER错误(Disk,紧急告警)

告警解释

告警描述:

The [arg1] disk arg2 triggered an uncorrectable error, arg3 (SN: arg4, BN: arg5).

BMC V316及以上版本,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

当硬盘触发了不可纠正错误时,产生此告警。

产生此告警的主体类型为:Disk

告警属性

告警ID

告警级别

可自动清除

0x02000013

紧急

告警参数

参数名称

参数含义

arg1

告警相关硬盘的位置,例如“front”、“rear”等。

arg2

告警相关硬盘的槽位号。

arg3

产生的不可纠正错误对应的故障码。

arg4

硬盘的序列号。

arg5

BOM编码。

对系统的影响

可能导致相关业务无法正常运行或数据丢失。

可能原因

l     硬盘故障。

l     硬盘与背板接触不良。

处理步骤

                                步骤 1     重新拔插硬盘,检查告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     更换产生告警的硬盘,检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     更换硬盘背板,查看告警是否清除。

l      => 处理完毕

l      => 步骤4

                                步骤 4     请联系技术支持工程师处理。

----结束

6.10 ALM-0x0200001D 硬盘剩余磨损率过低(Disk,严重告警)

告警解释

告警描述:

The arg1 disk arg2 remnant media wearout (arg3) is lower than the threshold (arg4) (SN: arg5, BN: arg6).

BMC V316及以上版本,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

硬盘当前剩余磨损率低于门限时,产生此告警。

产生此告警的主体类型为:Disk

告警属性

告警ID

告警级别

可自动清除

0x0200001D

严重

告警参数

参数名称

参数含义

arg1

告警相关硬盘的位置,例如“front”、“rear”等。

arg2

告警相关硬盘的名称。

arg3

对应传感器的当前读数。

arg4

告警门限。

arg5

硬盘的序列号。

arg6

BOM编码。

对系统的影响

硬盘剩余磨损率过低,继续使用可能导致系统停止响应或数据丢失。

可能原因

硬盘存储介质的平均擦写次数达到阈值。

处理步骤

                                步骤 1     更换硬盘,检查告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     请联系技术支持工程师处理。

----结束

6.11 ALM-0x0200002F 硬盘与RAID卡之间链路的PHY误码增长过快(Disk,严重告警)

告警解释

告警描述:

The PHY bit errors of the link between arg1 and arg2 increased too fast (SN: arg3, BN: arg4).

BMC V316及以上版本,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

数据在硬盘与RAID卡之间的链路上传输时,若检测到PHY误码增长过快,产生此告警。

不同服务器的Expander控制器所在部件不同,可能分布在硬盘背板、主板、GPU板等不同部件上。详细信息请参考各服务器的用户手册。

产生此告警的主体类型为:Disk

告警属性

告警ID

告警级别

可自动清除

0x0200002F

严重

 

告警参数

参数名称

参数含义

arg1

表示与硬盘通信的RAID卡,如“RAID Card1”。

arg2

表示告警相关的硬盘,如“Disk0”。

arg3

硬盘的序列号。

arg4

BOM编码。

 

对系统的影响

可能导致链路上的设备(如RAID卡、Expander控制器和硬盘)运行不稳定、系统停止响应或数据丢失。

可能原因

l     线缆未插稳或线缆连接错误。

l     线缆故障。

l     硬盘背板故障。

l     硬盘故障。

l     RAID卡故障。

处理步骤

                                步骤 1     按照正确的连接方式重新连接RAID卡与硬盘背板之间的线缆,检查告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     更换线缆,检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     更换硬盘,检查告警是否清除。

l      => 处理完毕

l      => 步骤4

                                步骤 4     更换硬盘背板,检查告警是否清除。

l      => 处理完毕

l      => 步骤5

                                步骤 5     更换RAID卡,检查告警是否清除。

l      => 处理完毕

l      => 步骤6

                                步骤 6     请联系技术支持工程师处理。

----结束

6.12 ALM-0x02000031 硬盘与Expander控制器之间链路的PHY误码增长过快(Disk,严重告警)

告警解释

告警描述:

The PHY bit errors of the link between arg1 (arg2arg3) and arg4 increased too fast (SN: arg5, BN: arg6).

BMC V316及以上版本,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

数据在硬盘与Expander控制器之间的链路上传输时,若检测到PHY误码增长过快,产生此告警。

不同服务器的Expander控制器所在部件不同,可能分布在硬盘背板、主板、GPU板等不同部件上。详细信息请参考各服务器的用户手册。

产生此告警的主体类型为:Disk

告警属性

告警ID

告警级别

可自动清除

0x02000031

严重

 

告警参数

参数名称

参数含义

arg1

表示告警相关的Expander控制器所在部件,如“Disk BP1”。

arg2

表示告警相关的Expander控制器类型,如“SAS Expander”。

arg3

表示告警相关的Expander控制器编号。

arg4

表示告警相关的硬盘,如“Disk0”。

arg5

硬盘的序列号。

arg6

BOM编码。

 

对系统的影响

可能导致链路上的设备(如RAID卡、Expander控制器和硬盘)运行不稳定、系统停止响应或数据丢失。

可能原因

l     线缆未插稳或线缆连接错误。

l     线缆故障。

l     Expander控制器所在部件故障。

l     硬盘故障。

处理步骤

                                步骤 1     按照正确的连接方式重新连接Expander控制器所在部件与硬盘之间的线缆,检查告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     更换线缆,检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     更换硬盘,检查告警是否清除。

l      => 处理完毕

l      => 步骤4

                                步骤 4     更换Expander控制器所在部件,检查告警是否清除。

l      => 处理完毕

l      => 步骤5

                                步骤 5     请联系技术支持工程师处理。

----结束

6.13 ALM-0x2C000071 文件系统只读(System,严重告警)

告警解释

告警描述:

File system (arg1) is read only.

当检测到服务器OS的文件系统处于只读状态时,产生此告警。

产生此告警的主体类型为:System

告警属性

告警ID

告警级别

可自动清除

0x2C000071

严重

 

告警参数

参数名称

参数含义

arg1

表示文件系统名称,如“/dev/mapper/cl-root”。

 

对系统的影响

可能导致相关业务无法正常运行。

可能原因

文件系统异常。

处理步骤

                                步骤 1     请联系技术支持工程师处理。

----结束


7 风扇告警

介绍服务器可能产生的风扇告警。

7.1  ALM-0x04000005 风扇冗余失效(Fan,严重告警)

7.2  ALM-0x04000007 风扇转速偏差大(Fan,严重告警)

7.1 ALM-0x04000005 风扇冗余失效(Fan,严重告警)

告警解释

告警描述:

Lost fan redundancy.

此告警不支持上报其序列号或BOM编码。

当检测到服务器的指定风扇模块不在位时,产生此告警。

产生此告警的主体类型为:Fan

告警属性

告警ID

告警级别

可自动清除

0x04000005

严重

告警参数

参数名称

参数含义

对系统的影响

影响服务器散热。

可能原因

l     风扇模块被拔出

l     风扇模块与主板接触不良

处理步骤

                                步骤 1     检查机箱是否存在风扇空槽位。

l      => 步骤2

l      => 步骤3

                                步骤 2     为空闲槽位插入风扇模块,检查告警是否清除。

l      => 处理完毕

l      => 步骤5

                                步骤 3     重新拔插风扇,检查告警是否清除。

l      => 处理完毕

l      => 步骤4

                                步骤 4     更换风扇模块,并查看告警是否清除。

l      => 处理完毕

l      => 步骤5

                                步骤 5     请联系技术支持工程师处理。

----结束

7.2 ALM-0x04000007 风扇转速偏差大(Fan,严重告警)

告警解释

告警描述:

Fan arg1 [arg2] failure or incorrect fan model (BN: arg3).

BMC V328及以上版本,主体类型为RAID CardPSU的告警分别支持上报各自的序列号和BOM编码,主体类型为Fan的告警支持上报BOM编码。

当检测到指定风扇模块型号不匹配或故障时,产生此告警。

产生此告警的主体类型为:Fan

告警属性

告警ID

告警级别

可自动清除

0x04000007

严重

告警参数

参数名称

参数含义

arg1

告警相关风扇模块的位置,例如“front”、“rear”等。

arg2

告警相关风扇模块的编号。

arg3

BOM编码。

对系统的影响

影响服务器散热。

可能原因

l     风扇模块故障。

l     风扇模块类型错误。

l     风扇背板故障。

处理步骤

                                步骤 1     将产生告警的风扇与正常风扇对换位置,检查告警是否随风扇迁移。

l      => 步骤2

l      => 步骤3

                                步骤 2     更换产生告警的风扇模块,并查看告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     更换风扇背板,并查看告警是否清除。

l      => 处理完毕

l      => 步骤4

                                步骤 4     请联系技术支持工程师处理。

----结束


8 内存告警

介绍服务器可能产生的内存告警。

8.1  ALM-0x2C00000D 系统POST检测到无内存(System,紧急告警)

8.2  ALM-0x01000015 内存配置错误(Memory,紧急告警)

8.3  ALM-0x01000017 DIMM MCE错误(Memory,紧急告警)

8.4  ALM-0x2C00004F 系统无可用内存(System,紧急告警)

8.5  ALM-0x01000057 内存初始化错误(Memory,严重告警)

8.6  ALM-0x01000059 内存配置错误(Memory,严重告警)

8.1 ALM-0x2C00000D 系统POST检测到无内存(System,紧急告警)

告警解释

告警描述:

No memory detected.

BIOS启动时,如果检测到无内存条、唯一的内存条故障、唯一的内存条位置错误时,产生此告警。

产生此告警的主体类型为:System

告警属性

告警ID

告警级别

可自动清除

0x2C00000D

紧急

告警参数

参数名称

参数含义

对系统的影响

操作系统无法正常启动。

可能原因

l     内存条非服务器兼容型号。

l     唯一的内存条因故障被BIOS隔离。

l     唯一的内存条安装位置错误。

l     内存插槽故障或存在异物导致信号异常。

处理步骤

                                步骤 1     检查服务器是否存在其他内存告警。

l      => 步骤2

l      => 步骤3

                                步骤 2     按照处理建议清除其他内存告警后,检查当前告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     确认服务器当前CPU型号、内存型号。

                                步骤 4     通过智能计算产品兼容性查询助手查询当前内存是否为服务器兼容的型号,且与当前CPU配套。

l      => 步骤6

l      => 步骤5

                                步骤 5     将当前内存更换为符合服务器兼容性及CPU要求的型号并保证安装位置正确。检查告警是否清除。

l      => 处理完毕

l      => 步骤7

                                步骤 6     更换同类型内存并保证安装位置正确,检查告警是否清除。

l      => 处理完毕

l      => 步骤7

                                步骤 7     更换服务器主板,检查告警是否清除。

l      => 处理完毕

l      => 步骤8

                                步骤 8     请联系技术支持工程师处理。

----结束

8.2 ALM-0x01000015 内存配置错误(Memory,紧急告警)

告警解释

告警描述:

[arg1] arg2 configuration error or training failed (SN: arg3, BN: arg4).

BMC V316及以上版本,此告警支持上报内存的BOM编码,BMC V561及以上版本,此告警支持上报内存的序列号。

BIOS启动时,如果检测到相应内存插法错误或者内存故障时,产生此告警。

DIMM的分布规则请参考相关产品用户指南手册中的“安装DIMM”章节。

产生此告警的主体类型为:Memory

告警属性

告警ID

告警级别

可自动清除

0x01000015

紧急

告警参数

参数名称

参数含义

arg1

告警相关内存板的槽位号。

arg2

告警相关内存丝印,或CPU槽位号和通道号。

l     内存丝印,例如“DIMM010B)”。

l     CPU槽位号及通道号

说明

不同型号的服务器,同一通道对应的内存数量不同。

内存对应的CPU槽位号及通道号,请查询各服务器的用户指南获取。

arg3

BOM编码。

arg4

内存的序列号。

对系统的影响

导致系统性能降低或系统无法正常启动。

可能原因

l     配置了不兼容的内存。

l     内存位置插错。

l     内存故障。

处理步骤

                                步骤 1     将服务器下电,查看内存型号。通过智能计算产品兼容性查询助手确认告警内存是否与服务器兼容。

l      => 步骤3

l      => 步骤2

                                步骤 2     将告警内存更换为服务器兼容的内存型号后,检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     将服务器下电,检查内存位置是否正确。

内存的分布规则请参考产品的用户指南。

l      => 步骤5

l      => 步骤4

                                步骤 4     按照正确的方法重新安装内存,查看告警是否清除。

l      => 处理完毕

l      => 步骤5

                                步骤 5     更换内存,查看告警是否清除。

l      => 处理完毕

l      => 步骤6

                                步骤 6     请联系技术支持工程师处理。

----结束

8.3 ALM-0x01000017 DIMM MCE错误(Memory,紧急告警)

告警解释

告警描述:

[arg1] arg2 triggered an uncorrectable error, arg3 (SN: arg4, BN: arg5).

BMC V316及以上版本,此告警支持上报内存的BOM编码,BMC V561及以上版本,此告警支持上报内存的序列号。

当内存触发了不可纠正的错误时,产生此告警。

产生此告警的主体类型为:Memory

告警属性

告警ID

告警级别

可自动清除

0x01000017

紧急

告警参数

参数名称

参数含义

arg1

告警相关内存板的槽位号。

arg2

告警相关内存丝印,或CPU槽位号和通道号。

l     内存丝印,例如“DIMM010B)”。

l     CPU槽位号及通道号

说明

不同型号的服务器,同一通道对应的内存数量不同。

内存对应的CPU槽位号及通道号,请查询各服务器的用户指南获取。

arg3

告警相关的错误码。

arg4

内存的序列号。

arg5

BOM编码。

对系统的影响

可能导致系统重启或停止响应。

可能原因

l     内存故障。

l     主板或内存板故障。

处理步骤

                                步骤 1     重新拔插产生告警的内存,检查告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     将产生告警的内存与正常内存互换位置,检查告警是否随内存迁移。

l      => 步骤3

l      => 步骤4

                                步骤 3     更换产生告警的内存,检查告警是否清除。

l      => 处理完毕

l      => 步骤4

                                步骤 4     更换内存所在的主板/内存板,检查告警是否清除。

l      => 处理完毕

l      => 步骤5

                                步骤 5     请联系技术支持工程师处理。

----结束

8.4 ALM-0x2C00004F 系统无可用内存(System,紧急告警)

告警解释

告警描述:

System has no available memory. Error code: arg1.

服务器启动过程中,当检测到无可用内存时,产生此告警。

产生此告警的主体类型为:System

告警属性

告警ID

告警级别

可自动清除

0x2C00004F

紧急

告警参数

参数名称

参数含义

arg1

告警相关的错误码

对系统的影响

导致操作系统无法正常启动。

可能原因

l     配置了不兼容的内存。

l     内存插法错误。

l     内存故障。

l     内存插槽故障或存在异物导致信号异常。

处理步骤

                                步骤 1     检查服务器是否同时存在其他的指定内存的告警。

l      => 步骤2

l      => 步骤3

                                步骤 2     按照告警处理建议清除其他内存告警后,查看本告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     将服务器下电,收集告警内存的具体型号。

                                步骤 4     通过智能计算产品兼容性查询助手查询告警内存是否符合服务器兼容性要求。

l      => 步骤5

l      => 步骤7

                                步骤 5     检查内存位置是否正确。

内存的分布规则请参考产品的用户指南。

l      => 步骤8

l      => 步骤6

                                步骤 6     按照正确的方法重新安装内存,服务器上电后查看告警是否清除。

l      => 处理完毕

l      => 步骤8

                                步骤 7     将告警内存更换为符合服务器兼容性的内存,服务器上电后查看告警是否清除。

更换内存的具体操作,请参考相关产品的用户指南手册。

l      => 处理完毕

l      => 步骤10

                                步骤 8     更换内存,服务器上电后检查告警是否清除。

l      => 处理完毕

l      => 步骤9

                                步骤 9     更换主板,服务器上电后检查告警是否清除。

l      => 处理完毕

l      => 步骤10

                             步骤 10     请联系技术支持工程师处理。

----结束

8.5 ALM-0x01000057 内存初始化错误(Memory,严重告警)

告警解释

告警描述:

[arg1] arg2 memory initialization error. Error code: 0xarg3 (SN: arg4, BN: arg5).

l     此告警支持上报内存的序列号和BOM编码。

服务器启动过程中检测到内存初始化错误时,产生此告警。

当某个内存产生此告警时,同Channel下的其他内存条也不可用。内存的分布情况请参考各服务器用户指南。

产生此告警的主体类型为:Memory

告警属性

告警ID

告警级别

可自动清除

0x01000057

严重

告警参数

参数名称

参数含义

arg1

告警相关内存板的槽位号。

arg2

告警相关内存丝印,或CPU槽位号和通道号。

l     内存丝印,例如“DIMM010B)”。

l     CPU槽位号及通道号

说明

不同型号的服务器,同一通道对应的内存数量不同。

内存对应的CPU槽位号及通道号,请查询各服务器的用户指南获取。

arg3

告警相关的错误码。

arg4

内存的序列号。

arg5

BOM编码。

对系统的影响

可能导致系统性能降低。

可能原因

l     内存故障。

l     内存插槽有异物导致信号异常。

处理步骤

当告警描述中体现了故障内存的丝印时:

1.     检查内存槽位是否存在异物或污垢。

      => 2

      => 3

2.     清理内存槽位并重新安装内存,服务器上电后检查告警会否清除。

      => 处理完毕

      => 3

3.     更换告警内存,服务器上电后检查告警会否清除。

      => 处理完毕

      => 4

4.     更换内存所在的主板或内存板,服务器上电后检查告警会否清除。

      => 处理完毕

      => 5

5.     请联系技术支持工程师处理。

当告警描述中不体现故障内存丝印,仅体现通道号时:

6.     更换内存所在的主板或内存板,服务器上电后检查告警会否清除。

      => 处理完毕

      => 7

7.     请联系技术支持工程师处理。

----结束

8.6 ALM-0x01000059 内存配置错误(Memory,严重告警)

告警解释

告警描述:

[arg1] arg2 memory configuration error. Error code: 0xarg3 (SN: arg4, BN: arg5).

l     此告警支持上报内存的序列号和BOM编码。

当服务器安装了不兼容的内存,或未按照正确的分布规则安装内存时,产生此告警。

DIMM的分布规则请参考相关产品用户指南手册中的“安装DIMM”章节。

产生此告警的主体类型为:Memory

告警属性

告警ID

告警级别

可自动清除

0x01000059

严重

告警参数

参数名称

参数含义

arg1

告警相关内存板的槽位号。

arg2

告警相关内存丝印,或CPU槽位号和通道号。

l     内存丝印,例如“DIMM010B)”。

l     CPU槽位号及通道号

说明

不同型号的服务器,同一通道对应的内存数量不同。

内存对应的CPU槽位号及通道号,请查询各服务器的用户指南获取。

arg3

告警相关的错误码。

arg4

内存的序列号。

arg5

BOM编码。

对系统的影响

可能导致系统性能降低。

可能原因

l     服务器配置了不兼容的内存。

l     服务器内存未按照正确的规则安装。

处理步骤

                                步骤 1     检查服务器是否同时存在其他的指定内存的告警。

l      => 步骤2

l      => 步骤3

                                步骤 2     按照告警处理建议清除其他内存告警后,检查本告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     将服务器下电,收集告警内存的具体型号。

                                步骤 4     通过智能计算产品兼容性查询助手查询告警内存是否符合服务器兼容性要求。

l      => 步骤5

l      => 步骤7

                                步骤 5     检查内存位置是否正确。

内存的分布规则请参考产品的用户指南。

l      => 步骤8

l      => 步骤6

                                步骤 6     按照正确的方法重新安装内存,服务器上电后查看告警是否清除。

l      => 处理完毕

l      => 步骤8

                                步骤 7     将告警内存更换为符合服务器兼容性的内存,服务器上电后查看告警是否清除。

更换内存的具体操作,请参考相关产品的用户指南手册。

l      => 处理完毕

l      => 步骤8

                                步骤 8     请联系技术支持工程师处理。

----结束


9 其他告警

介绍服务器可能产生的其他告警。

9.1  ALM-0x000000BB CPU内存通道故障(CPU,轻微告警)

9.2  ALM-0x0800005D PCIe卡自检失败(PCIe Card,严重告警)

9.3  ALM-0x08000061 PCIe卡产生不可恢复故障(PCIe Card,紧急告警)

9.4  ALM-0x08000063 PCIe卡光模块温度过高(PCIe Card,轻微告警)

9.5  ALM-0x08000089 PCIeMINI模块健康状态获取失败(PCIe Card,轻微告警)

9.6  ALM-0x0800008B PCIe卡降频(PCIe Card,轻微告警)

9.7  ALM-0x0800008D PCIe卡下电(PCIe Card,严重告警)

9.8  ALM-0x1A00002F Nand Flash寿命低于阈值(BMC,严重告警)

9.9  ALM-0x1A000031 Nand Flash预留块低于阈值(BMC,严重告警)

9.10  ALM-0x45000005 PCIe Retimer加载失败(PCIe Retimer,轻微告警)

9.11  ALM-0x00000073 CPU不在位(CPU,严重告警)

9.12  ALM-0x100000B1 板载网卡MCE/AER错误(Mainboard,紧急告警)

9.13  ALM-0x22000001 TPM自检失败(Security Module,轻微告警)

9.14  ALM-0x1000000D 主板RTC电池电压低(Mainboard,严重告警)

9.15  ALM-0x06000025 RAID扣卡控制器通信丢失(RAID Card,严重告警)

9.16  ALM-0x06000027 RAID扣卡控制器初始化异常(RAID Card,严重告警)

9.17  ALM-0x08000001 标准PCIeMCE/AER故障(PCIe Card,紧急告警)

9.18  ALM-0x08000007 PCIe标卡FRU数据读取失败(PCIe Card,轻微告警)

9.19  ALM-0x0800004B RAID标卡故障(PCIe Card,严重告警)

9.20  ALM-0x08000095 RAID标卡控制器通信丢失(PCIe Card,严重告警)

9.21  ALM-0x08000097 RAID标卡控制器初始化异常(PCIe Card,严重告警)

9.22  ALM-0x28000003 CPLD信号线连接异常(Cable,严重告警)

9.23  ALM-0x2C000031 系统错误(System,紧急告警)

9.24  ALM-0x0000001D CPU MCE/AER错误(CPU,紧急告警)

9.25  ALM-0x0D000001 网卡扣卡MCE/AER错误(Network Card,紧急告警)

9.26  ALM-0x2C000039 系统启动中断(System,紧急告警)

9.27  ALM-0x10000061 视频控制器故障(Mainboard,紧急告警)

9.28  ALM-0x10000093 PS/2USB键盘控制器故障(Mainboard,紧急告警)

9.29  ALM-0x10000013 单板硬件地址错误(Mainboard,严重告警)

9.30  ALM-0x10000015 主板CPLD自检状态(Mainboard,严重告警)

9.31  ALM-0x100000A9 主板时钟丢失(Mainboard,严重告警)

9.32  ALM-0x29000017 网卡光模块的功率异常(Port,严重告警)

9.33  ALM-0x29000027 网卡光模块速率不匹配(Port,严重告警)

9.34  ALM-0x12000019 右挂耳不在位(Chassis,轻微告警)

9.35  ALM-0x12000021 左挂耳不在位(Chassis,轻微告警)

9.36  ALM-0x1A00003D 许可证文件错误(BMC,严重告警)

9.37  ALM-0x08000087 PCIeMINI模块故障(PCIe Card,严重告警)

9.38  ALM-0x1A000023 证书过期或即将过期(BMC,轻微告警)

9.39  ALM-0x2800001F CPUHCCS连接失败(Cable,严重告警)

9.40  ALM-0x2C000073 系统总功耗过高(System,轻微告警)

9.1 ALM-0x000000BB CPU内存通道故障(CPU,轻微告警)

告警解释

告警描述:

The memory channel (arg1) of CPU arg2 is faulty (SN: arg3, BN: arg4).

BMC V316及以上版本,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

当系统检测到CPU内存通道内的内存存在CA奇偶校验错误时,产生此告警。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x000000BB

轻微

 

告警参数

参数名称

参数含义

arg1

告警相关的内存通道编号。

arg2

告警相关的CPU的槽位号。

arg3

CPU的序列号。

arg4

BOM编码。

 

对系统的影响

可能导致操作系统停止响应。

可能原因

l     内存未插稳。

l     内存故障。

l     内存插槽故障。

处理步骤

                                步骤 1     重新安装告警通道相关的所有内存,检查告警是否清除。

内存的分布情况请参考服务器用户指南。

l      => 处理完毕

l      => 步骤2

                                步骤 2     将告警通道内的所有内存,与正常通道的内存互换位置,确认告警是否会跟随内存迁移。

l      => 步骤3

l      => 步骤5

                                步骤 3     将告警通道内的内存逐一与正常内存互换位置,通过是否产生告警来确认故障内存位置。

                                步骤 4     更换故障内存后,检查告警是否清除。

l      => 处理完毕

l      => 步骤6

                                步骤 5     更换主板,检查告警是否清除。

l      => 处理完毕

l      => 步骤6

                                步骤 6     请联系技术支持工程师处理。

----结束

9.2 ALM-0x0800005D PCIe卡自检失败(PCIe Card,严重告警)

告警解释

告警描述:

Self-test failed on arg1 PCIe card arg2 (arg3). Error code: arg4

PCIe卡自检失败时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x0800005D

严重

 

告警参数

参数名称

参数含义

arg1

告警相关PCIe卡的位置,例如“FIO1”。

arg2

告警相关PCIe卡的槽位号,例如“1”、“2”。

arg3

告警相关PCIe卡的名称,例如“FPGA”、“SDI card”。

arg4

告警相关的故障码。

 

对系统的影响

导致PCIe卡运行不稳定,系统运行异常。

可能原因

PCIe卡故障。

处理步骤

                                步骤 1     更换产生告警的PCIe卡,检查告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     请联系技术支持工程师处理。

----结束

9.3 ALM-0x08000061 PCIe卡产生不可恢复故障(PCIe Card,紧急告警)

告警解释

告警描述:

Unrecoverable errors are detected on arg1 PCIe card arg2 (arg3). Error code: arg4

PCIe卡产生不可恢复的故障时,产生此告警。

产生此告警的主体类型为:PCIe Card

BMC V550及以上版本不再支持此告警。

告警属性

告警ID

告警级别

可自动清除

0x08000061

紧急

 

告警参数

参数名称

参数含义

arg1

告警相关PCIe卡的位置,例如“FIO1”。

arg2

告警相关PCIe卡的槽位号,例如“1”、“2”。

arg3

告警相关PCIe卡的名称,例如“FPGA”、“SDI card”。

arg4

告警相关的故障码。

 

对系统的影响

导致PCIe卡运行不稳定,系统运行异常。

可能原因

PCIe卡故障。

处理步骤

                                步骤 1     更换产生告警的PCIe卡,检查告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     请联系技术支持工程师处理。

----结束

9.4 ALM-0x08000063 PCIe卡光模块温度过高(PCIe Card,轻微告警)

告警解释

告警描述:

The [arg1] arg2 optical module [arg3] temperature (arg4 degrees C) exceeds the overtemperature threshold (arg5 degrees C).

当检测到PCIe卡光模块温度过高时,产生此告警,当温度恢复到正常范围内时,此告警恢复。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x08000063

轻微

 

告警参数

参数名称

参数含义

arg1

光模块所在PCIe卡的位置,例如“FIO”。

arg2

光模块所在PCIe卡的名称及槽位信息,例如“PCIe Card 3”。

arg3

光模块所在端口的编号,例如“1”、“2”。

arg4

对应传感器的当前读数。

arg5

告警门限。

 

对系统的影响

可能导致光模块相关业务无法正常运行。

可能原因

l     风扇模块故障。

l     环境温度过高。

l     进风口/出风口堵塞。

l     光模块故障。

处理步骤

                                步骤 1     检查服务器是否存在风扇告警。

l      => 步骤2

l      => 步骤3

                                步骤 2     更换风扇模块,检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     检查机房环境温度是否已超出设备运行环境要求。

l      => 步骤4

l      => 步骤5

                                步骤 4     将机房环境温度降低至设备运行环境要求的温度,5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤5

                                步骤 5     检查服务器进风口/出风口是否有异物堵塞。

l      => 步骤6

l      => 步骤7

                                步骤 6     清除异物,5min后检查告警是否清除。

l      => 处理完毕

l      => 步骤7

                                步骤 7     更换产生告警的光模块,检查告警是否清除。

l      => 处理完毕

l      => 步骤8

                                步骤 8     请联系技术支持工程师处理。

----结束

9.5 ALM-0x08000089 PCIeMINI模块健康状态获取失败(PCIe Card,轻微告警)

告警解释

告警描述:

Failed to obtain the health status of the arg1 PCIe card arg2 (arg3) MINI module. [arg4] [arg5]

PCIeMINI模块健康状态获取失败时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x08000089

轻微

告警参数

参数名称

参数含义

arg1

告警相关PCIe卡的位置,例如“GpuBoard”、“Riser”。

arg2

告警相关PCIe卡的槽位号,例如“1”、“2”。

arg3

告警相关PCIe卡的名称,例如“FPGA”、“NIC”。

arg4

告警相关的附加描述,例如“Error Code”。

arg5

告警相关的故障码,例如“(7168)”、“(7177)”。

对系统的影响

无法获知PCIeMINI模块的健康状态。

可能原因

PCIe卡获取MINI模块健康状态失败。

处理步骤

                                步骤 1     OS执行先下电后上电操作,检查告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     更换产生告警的PCIe卡,检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     请联系技术支持工程师处理。

----结束

9.6 ALM-0x0800008B PCIe卡降频(PCIe Card,轻微告警)

告警解释

告警描述:

The arg1 PCIe card arg2 (arg3) underclocking. [arg4] [arg5]

PCIe卡降频时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x0800008B

轻微

告警参数

参数名称

参数含义

arg1

告警相关PCIe卡的位置,例如“GpuBoard”、“Riser”。

arg2

告警相关PCIe卡的槽位号,例如“1”、“2”。

arg3

告警相关PCIe卡的名称,例如“FPGA”、“NIC”。

arg4

告警相关的附加描述,例如“Error Code”。

arg5

告警相关的故障码,例如“(7168)”、“(7177)”。

对系统的影响

可能导致PCIe卡性能下降。

可能原因

l     风扇模块故障。

l     环境温度过高。

l     进风口/出风口堵塞。

l     未安装导风罩。

l     散热器接触不良。

l     负载过高。

l     PCIe卡故障。

处理步骤

                                步骤 1     检查服务器是否同时存在进风口或出风口高温告警。

l      => 步骤2

l      => 步骤3

                                步骤 2     按照进风口/出风口高温告警的处理方法进行操作,检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     将服务器下电后,检查服务器内部的导风罩是否已正确安装。

l      => 步骤5

l      => 步骤4

                                步骤 4     正确安装导风罩后,将服务器上电,检查告警是否清除。

l      => 处理完毕

l      => 5

                                步骤 5     将服务器下电后,检查PCIe卡散热器是否安装正确。

l      => 步骤7

l      => 步骤6

                                步骤 6     正确安装PCIe卡散热器后,将服务器上电,检查告警是否清除。

l      => 处理完毕

l      => 步骤7

                                步骤 7     降低负载,检查告警是否清除。

l      => 处理完毕

l      => 步骤8

                                步骤 8     更换产生告警的PCIe卡,检查告警是否清除。

l      => 处理完毕

l      => 步骤9

                                步骤 9     请联系技术支持工程师处理。

----结束

9.7 ALM-0x0800008D PCIe卡下电(PCIe Card,严重告警)

告警解释

告警描述:

The arg1 PCIe card arg2 (arg3)  was powered off. [arg4] [arg5]

PCIe卡下电时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x0800008D

严重

告警参数

参数名称

参数含义

arg1

告警相关PCIe卡的位置,例如“GpuBoard”、“Riser”。

arg2

告警相关PCIe卡的槽位号,例如“1”、“2”。

arg3

告警相关PCIe卡的名称,例如“FPGA”、“NIC”。

arg4

告警相关的附加描述,例如“Error Code”。

arg5

告警相关的故障码,例如“(7168)”、“(7177)”。

对系统的影响

导致PCIe卡相关业务中断或系统无法响应。

可能原因

l     风扇模块故障。

l     环境温度过高。

l     进风口/出风口堵塞。

l     存在空槽位或间隔。

l     未安装导风罩。

l     散热器接触不良。

l     PCIe卡故障。

处理步骤

                                步骤 1     检查服务器是否同时存在进风口或出风口高温告警。

l      => 步骤2

l      => 步骤3

                                步骤 2     按照进风口/出风口高温告警的处理方法进行操作,检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     将服务器下电后,检查服务器内部的导风罩是否已正确安装。

l      => 步骤5

l      => 步骤4

                                步骤 4     正确安装导风罩后,将服务器上电,检查告警是否清除。

l      => 处理完毕

l      => 5

                                步骤 5     将服务器下电后,检查PCIe卡散热器是否安装正确。

l      => 步骤7

l      => 步骤6

                                步骤 6     正确安装PCIe卡散热器后,将服务器上电,检查告警是否清除。

l      => 处理完毕

l      => 步骤7

                                步骤 7     更换产生告警的PCIe卡,检查告警是否清除。

l      => 处理完毕

l      => 步骤8

                                步骤 8     请联系技术支持工程师处理。

----结束

9.8 ALM-0x1A00002F Nand Flash寿命低于阈值(BMC,严重告警)

告警解释

告警描述:

The service life of the NAND flash is less than arg1.

BMCNand Flash的寿命不足时,产生此告警。

产生此告警的主体类型为:BMC

BMC V296及以上版本支持此告警。

告警属性

告警ID

告警级别

可自动清除

0x1A00002F

严重

告警参数

参数名称

参数含义

arg1

Nand Flash的寿命阈值,例如“95”、“90”。

对系统的影响

可能导致BMC无法正常运行。

可能原因

BMCNand Flash的剩余寿命达到告警阈值。

处理步骤

                                步骤 1     更换服务器主板,检查告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     请联系技术支持工程师处理。

----结束

9.9 ALM-0x1A000031 Nand Flash预留块低于阈值(BMC,严重告警)

告警解释

告警描述:

The remaining reserved blocks of the NAND flash are less than arg1.

Nand Flash的剩余预留块阈值不足时,产生此告警。

产生此告警的主体类型为:BMC

BMC V296V369版本支持此告警。

告警属性

告警ID

告警级别

可自动清除

0x1A000031

严重

告警参数

参数名称

参数含义

arg1

Nand Flash可以使用的预留块阈值,例如“10”。

对系统的影响

可能导致BMC无法正常运行。

可能原因

Nand Flash可以使用的预留块低于阈值。

处理步骤

                                步骤 1     更换服务器主板,检查告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     请联系技术支持工程师处理。

----结束

9.10 ALM-0x45000005 PCIe Retimer加载失败(PCIe Retimer,轻微告警)

告警解释

告警描述:

Failed to load the arg1 Retimerarg2 EEPROM.

Retimer EEPROM加载失败时,产生此告警。

产生此告警的主体类型为:PCIe Retimer

告警属性

告警ID

告警级别

可自动清除

0x45000005

轻微

告警参数

参数名称

参数含义

arg1

Retimer的位置,例如“GpuBoard1”。

arg2

告警相关部件的ID,例如“1”、“2”。

对系统的影响

BMC无法将Retimer配置文件参数写入Retimer EEPROM中。

可能原因

l     BMC软件版本过旧。

l     Retimer所在部件异常。

l     Retimer EEPROM故障或无法读取配置文件。

处理步骤

                                步骤 1     更新BMC软件至最新版本,检查告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     更换Retimer芯片所在部件,检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     请联系技术支持工程师处理。

----结束

9.11 ALM-0x00000073 CPU不在位(CPU,严重告警)

告警解释

告警描述:

Failed to start the system. CPU arg1 was not detected (SN: arg2, BN: arg3).

BMC V316及以上版本,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

当系统无法启动,CPU不在位时,产生此告警。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x00000073

严重

告警参数

参数名称

参数含义

arg1

告警相关的CPU的槽位号。

arg2

CPU的序列号。

arg3

BOM编码。

对系统的影响

可能导致系统无法正常启动。

可能原因

l     CPU不在位。

l     CPU与底座接触不良。

l     主板故障。

处理步骤

                                步骤 1     检查产生告警的CPU是否在位。

l      => 步骤2

l      => 步骤3

                                步骤 2     检查产生告警的CPU插座是否完好。

l      => 步骤4

l      => 步骤6

                                步骤 3     将服务器下电后,安装CPU。将服务器上电后,检查告警是否清除。

l      => 步骤5

l      => 步骤4

                                步骤 4     将服务器下电后,将产生告警的CPU与其他CPU对调。将服务器上电后,检查告警是否清除。

l      => 步骤5

l      => 步骤6

                                步骤 5     检查系统是否能够正常启动。

l      => 处理完毕

l      => 步骤6

                                步骤 6     更换服务器主板,检查告警是否清除。

l      => 处理完毕

l      => 步骤7

                                步骤 7     请联系技术支持工程师处理。

----结束

9.12 ALM-0x100000B1 板载网卡MCE/AER错误(Mainboard,紧急告警)

告警解释

告警描述:

The LOM arg1 triggered an uncorrectable error, arg2 (BN: arg3).

BMC V316及以上版本,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

服务器板载网卡出现了不可纠正错误时,产生此告警。

产生此告警的主体类型为:Mainboard

告警属性

告警ID

告警级别

可自动清除

0x100000B1

紧急

告警参数

参数名称

参数含义

arg1

板载网卡编号。

arg2

告警相关的错误码。

arg3

BOM编码。

对系统的影响

可能导致网卡运行不稳定,系统运行异常。

可能原因

主板故障。

处理步骤

                                步骤 1     更换服务器主板,检查告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     请联系技术支持工程师处理。

----结束

9.13 ALM-0x22000001 TPM自检失败(Security Module,轻微告警)

告警解释

告警描述:

Trusted platform module(arg1) self-test failed.

可信赖平台模块自检失败时,产生此告警。

产生此告警的主体类型为:Security Module

告警属性

告警ID

告警级别

可自动清除

0x22000001

轻微

告警参数

参数名称

参数含义

arg1

可信赖平台模块的类型,包括“TPM”、“TCM”。

对系统的影响

可能影响可信赖平台模块的使用。

可能原因

可信赖平台模块故障。

处理步骤

                                步骤 1     更换可信赖平台模块,查看告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     请联系技术支持工程师处理。

----结束

9.14 ALM-0x1000000D 主板RTC电池电压低(Mainboard,严重告警)

告警解释

告警描述:

Low voltage of RTC battery on the mainboard (BN: arg1).

BMC V316及以上版本,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

当检测到主板上的RTC电池故障,或者电压不足时,产生此告警。

产生此告警的主体类型为:Mainboard

告警属性

告警ID

告警级别

可自动清除

0x1000000D

严重

告警参数

参数名称

参数含义

arg1

BOM编码。

对系统的影响

可能影响服务器时钟。

可能原因

主板电池故障或者电量低。

处理步骤

                                步骤 1     更换RTC电池,检查告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     请联系技术支持工程师处理。

----结束

9.15 ALM-0x06000025 RAID扣卡控制器通信丢失(RAID Card,严重告警)

告警解释

告警描述:

Communication between the BMC and arg2 RAID controller card arg1 failed (SN: arg3, BN: arg4).

BMC V328及以上版本,主体类型为RAID CardPSU的告警分别支持上报各自的序列号和BOM编码,主体类型为Fan的告警支持上报BOM编码。

RAID卡控制器通信丢失时,产生此告警。

产生此告警的主体类型为:RAID Card

告警属性

告警ID

告警级别

可自动清除

0x06000025

严重

告警参数

参数名称

参数含义

arg1

告警相关的RAID卡的槽位号。

arg2

IO模块或计算模块及其槽位号,例如“FM”、“CMn”。

arg3

RAID卡的序列号。

arg4

BOM编码。

对系统的影响

可能引起RAID卡运行不稳定或故障,甚至导致系统停止响应。

可能原因

l     RAID卡初始化异常。

l     RAID卡故障。

l     RAID卡对应的PCIe端口被禁用。

处理步骤

                                步骤 1     检查服务器是否存在0x280000010x060000050x06000027告警。如果存在,请先参照告警处理建议清除告警。

                                步骤 2     重启进入UEFI启动模式下的BIOS Device Manager,进入修复界面,选择“Repair the whole platform”进行修复,查看告警是否清除。

具体操作请参考或RAID控制卡用户指南对应型号RAID卡章节中的故障处理章节。

l      => 处理完毕

l      => 步骤3

                                步骤 3     BIOS中检查RAID扣卡对应的PCIe端口是否被禁用。

l      => 步骤4

l      => 步骤5

                                步骤 4     BIOS中使能RAID扣卡对应的PCIe端口并保存,重启OS后,检查告警是否清除。

l      => 处理完毕

l      => 步骤5

                                步骤 5     OS侧,排查RAID固件版本与RAID卡驱动版本是否配套。建议将RAID固件版本或RAID卡驱动版本升级为最新版本,查看告警是否清除。

l      => 处理完毕

l      => 步骤6

                                步骤 6     更换RAID卡,检查告警是否清除。

l      => 处理完毕

l      => 步骤7

                                步骤 7     请联系技术支持工程师处理。

----结束

9.16 ALM-0x06000027 RAID扣卡控制器初始化异常(RAID Card,严重告警)

告警解释

告警描述:

Initialization of arg2 RAID controller card arg1 is abnormal (SN: arg3, BN: arg4).

BMC V328及以上版本,主体类型为RAID CardPSU的告警分别支持上报各自的序列号和BOM编码,主体类型为Fan的告警支持上报BOM编码。

RAID卡控制器初始化异常时,产生此告警。

产生此告警的主体类型为:RAID Card

告警属性

告警ID

告警级别

可自动清除

0x06000027

严重

告警参数

参数名称

参数含义

arg1

告警相关的RAID卡的槽位号。

arg2

IO模块或计算模块及其槽位号,例如“FM”、“CMn”。

arg3

RAID卡的序列号。

arg4

BOM编码。

对系统的影响

可能导致系统无法正常启动。

可能原因

l     RAID卡故障。

l     主板故障。

处理步骤

                                步骤 1     插拔RAID卡,查看告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     更换RAID卡,查看告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     更换服务器主板,查看告警是否清除。

l      => 处理完毕

l      => 步骤4

                                步骤 4     请联系技术支持工程师处理。

----结束

9.17 ALM-0x08000001 标准PCIeMCE/AER故障(PCIe Card,紧急告警)

告警解释

告警描述:

The [arg1] PCIe card arg2 (arg3) triggered an uncorrectable error, arg4.

当检测到PCIe标卡触发不可纠正错误时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x08000001

紧急

告警参数

参数名称

参数含义

arg1

PCIe卡的位置,例如“front”、“rear”等。

arg2

PCIe卡的槽位号,例如“1”、“2”。

arg3

PCIe卡的类型,例如“M60 GPU”。

arg4

告警相关的错误码

对系统的影响

可能导致PCIe卡运行不稳定,甚至系统停止响应。

可能原因

l     PCIe标卡故障。

l     PCIe卡所连接的主板或PCIe Riser卡故障。

处理步骤

                                步骤 1     重新安装产生告警的PCIe卡,检查告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     更换PCIe卡,检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     更换PCIe卡所连接的主板或PCIe Riser卡,查告警是否清除。

l      => 处理完毕

l      => 步骤4

                                步骤 4     请联系技术支持工程师处理。

----结束

9.18 ALM-0x08000007 PCIe标卡FRU数据读取失败(PCIe Card,轻微告警)

告警解释

告警描述:

Failed to obtain electronic label data of the [arg1] PCIe card arg2 (arg3).

[arg1] PCIearg2 (arg3)电子标签数据读取失败时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x08000007

轻微

告警参数

参数名称

参数含义

arg1

PCIe卡的位置,例如“front”、“rear”等。

arg2

PCIe卡的槽位号,例如“1”、“2”。

arg3

PCIe卡的类型,例如“M60 GPU”。

对系统的影响

影响系统读取PCIe卡资产信息。

可能原因

资产信息损坏。

处理步骤

                                步骤 1     重启BMC,查看告警是否清除。

具体操作详见服务器BMC用户指南。

l      => 处理完毕。

l      => 步骤2

                                步骤 2     更换PCIe卡,查看告警是否清除。

更换的具体操作详见《SD100 V100R001 用户指南》。

l      => 处理完毕

l      => 步骤3

                                步骤 3     请联系技术支持工程师处理。

----结束

9.19 ALM-0x0800004B RAID标卡故障(PCIe Card,严重告警)

告警解释

告警描述:

The [arg1] PCIe card arg2 (arg3) is fault.

RAID标卡故障时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x0800004B

严重

告警参数

参数名称

参数含义

arg1

告警相关PCIe卡的位置,例如“front”、“inner”、“rear”等。

arg2

告警相关PCIe卡的槽位号。

arg3

此处仅为“RAID”。

对系统的影响

可能影响RAID卡相关业务,甚至导致系统停止响应。

可能原因

RAID卡故障。

处理步骤

若产生告警的RAID卡支持带外管理,且BMC版本为V328及以上。

1.     更换产生告警的RAID卡,查看告警是否清除。

     => 处理完毕

     => 2

2.     请联系技术支持工程师处理。

若产生告警的RAID卡不支持带外管理,或BMC版本为V328以下。

1.     重启进入UEFI启动模式下的BIOS Device Manager,进入修复界面,选择“Repair the whole platform”进行修复,查看告警是否清除。

具体操作请参考或RAID控制卡用户指南对应型号RAID卡章节中的故障处理章节。

     => 处理完毕

     => 2

2.     重新拔插RAID卡,查看告警是否清除。

     => 处理完毕

     => 3

3.     更换RAID卡,待服务器重新上电后,查看告警是否清除。

     => 处理完毕

     => 4

4.     请联系技术支持工程师处理。

9.20 ALM-0x08000095 RAID标卡控制器通信丢失(PCIe Card,严重告警)

告警解释

告警描述:

Communication between the BMC and [arg1] PCIe card arg2 (arg3) failed.

RAID标卡控制器通信丢失时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x08000095

严重

告警参数

参数名称

参数含义

arg1

告警相关PCIe卡的位置,例如“front”、“inner”、“rear”等。

arg2

告警相关PCIe卡的槽位号。

arg3

此处仅为“RAID”。

对系统的影响

可能引起RAID卡运行不稳定或故障,甚至导致系统停止响应。

可能原因

l     RAID卡初始化异常。

l     RAID卡故障。

l     RAID卡对应的PCIe端口被禁用。

处理步骤

                                步骤 1     检查服务器是否存在0x280000010x060000050x06000027告警。如果存在,请先参照告警处理建议清除告警。

                                步骤 2     重启进入UEFI启动模式下的BIOS Device Manager,进入修复界面,选择“Repair the whole platform”进行修复,查看告警是否清除。

具体操作请参考或RAID控制卡用户指南对应型号RAID卡章节中的故障处理章节。

l      => 处理完毕

l      => 步骤3

                                步骤 3     BIOS中检查RAID扣卡对应的PCIe端口是否被禁用。

l      => 步骤4

l      => 步骤5

                                步骤 4     BIOS中使能RAID扣卡对应的PCIe端口并保存,重启OS后,检查告警是否清除。

l      => 处理完毕

l      => 步骤5

                                步骤 5     OS侧,排查RAID固件版本与RAID卡驱动版本是否配套。建议将RAID固件版本或RAID卡驱动版本升级为最新版本,查看告警是否清除。

l      => 处理完毕

l      => 步骤6

                                步骤 6     更换RAID卡,检查告警是否清除。

l      => 处理完毕

l      => 步骤7

                                步骤 7     请联系技术支持工程师处理。

----结束

9.21 ALM-0x08000097 RAID标卡控制器初始化异常(PCIe Card,严重告警)

告警解释

告警描述:

Initialization of the [arg1] PCIe card arg2 (arg3) is abnormal.

RAID标卡控制器初始化异常时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x08000097

严重

告警参数

参数名称

参数含义

arg1

告警相关PCIe卡的位置,例如“front”、“inner”、“rear”等。

arg2

告警相关PCIe卡的槽位号。

arg3

此处仅为“RAID”。

对系统的影响

可能导致系统无法正常启动。

可能原因

l     RAID卡故障。

l     主板故障。

处理步骤

                                步骤 1     插拔RAID卡,查看告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     更换RAID卡,查看告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     更换服务器主板,查看告警是否清除。

l      => 处理完毕

l      => 步骤4

                                步骤 4     请联系技术支持工程师处理。

----结束

9.22 ALM-0x28000003 CPLD信号线连接异常(Cable,严重告警)

告警解释

告警描述:

Incorrect connection (signal cable arg1) between the mainboard and the arg2.

当主板与硬盘背板/PCIe Riser卡的信号线连接异常,产生此告警。

产生此告警的主体类型为:Cable

告警属性

告警ID

告警级别

可自动清除

0x28000003

严重

告警参数

参数名称

参数含义

arg1

PCIe Riser卡的线缆编号

arg2

硬盘背板或PCIe Riser卡,例如“disk backplane”、“PCIe riser card

对系统的影响

BMC无法获取硬盘背板/PCIe Riser信息,可能导致硬盘在位信息、PCIe卡在位信息、硬盘背板CPLD版本、PCIe Riser版本等无法正常显示。

可能原因

l     硬盘背板与主板连接异常。

l     PCIe Riser卡与主板连接异常。

处理步骤

                                步骤 1     检查硬盘背板或PCIe Riser卡的线缆连接是否正确。

详细的连接顺序请参考服务器用户指南。

l      => 步骤3

l      => 步骤2

                                步骤 2     按照正确顺序重新安装硬盘背板或PCIe Riser卡的线缆,检查告警是否清除。

l      => 处理完毕

l      => 步骤4

                                步骤 3     重新拔插硬盘背板或PCIe Riser卡的线缆,检查告警是否清除。

l      => 处理完毕

l      => 步骤4

                                步骤 4     更换硬盘背板或PCIe Riser卡的线缆,检查告警是否清除。

l      => 处理完毕

l      => 步骤5

                                步骤 5     更换服务器主板,检查告警是否清除。

l      => 处理完毕

l      => 步骤6

                                步骤 6     请联系技术支持工程师处理。

----结束

9.23 ALM-0x2C000031 系统错误(System,紧急告警)

告警解释

告警描述:

Critical system error. Analyze the alarm based on other events.

当操作系统产生致命错误时,产生此告警。

产生此告警的主体类型为:System

告警属性

告警ID

告警级别

可自动清除

0x2C000031

紧急

告警参数

参数名称

参数含义

-

-27000003

对系统的影响

操作系统异常,相关业务中断。

可能原因

操作系统异常。

处理步骤

                                步骤 1     请收集BMCOS的日志。

                                步骤 2     BMC日志请联系技术支持工程师处理。

                                步骤 3     OS日志请联系厂商技术支持分析定位。

----结束

9.24 ALM-0x0000001D CPU MCE/AER错误(CPU,紧急告警)

告警解释

告警描述:

CPU arg1 triggered an uncorrectable error, arg2 (SN: arg3, BN: arg4).

BMC V316及以上版本,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

业务系统运行时,当CPU出现如下任一错误时,产生此告警。

l     非内存镜像模式下,SMI2链路失效。

l     CPU执行错误的程序。

l     VMSE链路发生奇偶校验错误

l     内存控制器接收到带poison标签的数据。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x0000001D

紧急

告警参数

参数名称

参数含义

arg1

告警相关的CPU的槽位号。

arg2

告警相关的错误码。

arg3

CPU的序列号。

arg4

BOM编码。

对系统的影响

可能导致系统停止响应。

可能原因

l     CPU故障。

l     主板故障。

处理步骤

                                步骤 1     重新安装产生告警的CPU,检查告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     将产生告警的CPU与正常CPU互换位置,检查告警是否随CPU迁移。

l      => 步骤3

l      => 步骤4

                                步骤 3     更换产生告警的CPU,检查告警是否清除。

l      => 处理完毕

l      => 步骤5

                                步骤 4     更换主板,检查告警是否清除。

l      => 处理完毕

l      => 步骤5

                                步骤 5     请联系技术支持工程师处理。

----结束

9.25 ALM-0x0D000001 网卡扣卡MCE/AER错误(Network Card,紧急告警)

告警解释

告警描述:

The NIC triggered an uncorrectable error, arg1.

当管理软件检测到网卡扣卡已触发了不可纠正错误时,产生此告警。

产生此告警的主体类型为:Network Card

告警属性

告警ID

告警级别

可自动清除

0x0D000001

紧急

告警参数

参数名称

参数含义

arg1

告警相关的错误码。

对系统的影响

可能导致系统停止响应。

可能原因

l     网卡故障。

l     网卡插槽故障。

处理步骤

                                步骤 1     下电后检查该部件与其插槽是否存在损坏或接触不良现象。

l      => 步骤2

l      => 步骤3

                                步骤 2     重新安装产生告警的网卡扣卡,检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     更换产生告警的网卡扣卡,检查告警是否清除。

l      => 处理完毕

l      => 步骤4

                                步骤 4     更换主板,检查告警是否清除。

l      => 处理完毕

l      => 步骤5

                                步骤 5     请联系技术支持工程师处理。

----结束

9.26 ALM-0x2C000039 系统启动中断(System,紧急告警)

告警解释

告警描述:

System suspended during startup.

系统启动过程异常中断,无响应,产生此告警。

产生此告警的主体类型为:System

告警属性

告警ID

告警级别

可自动清除

0x2C000039

紧急

告警参数

参数名称

参数含义

对系统的影响

操作系统无法启动。

可能原因

l     服务器硬件故障。

l     操作系统异常。

处理步骤

                                步骤 1     分析当前告警列表,检查是否有相关部件告警并按照处理建议处理。

                                步骤 2     查看KVM截屏和系统串口日志记录,确定启动过程停止的阶段。

                                步骤 3     请联系技术支持工程师处理。

----结束

9.27 ALM-0x10000061 视频控制器故障(Mainboard,紧急告警)

告警解释

告警描述:

A video controller error is detected during system startup (BN: arg1).

BMC V316及以上版本,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

BIOS没有找到显示设备时,产生此告警。

产生此告警的主体类型为:Mainboard

告警属性

告警ID

告警级别

可自动清除

0x10000061

紧急

告警参数

参数名称

参数含义

arg1

BOM编码。

对系统的影响

连接到服务器的视频设备无法使用。

可能原因

显卡故障。

处理步骤

                                步骤 1     检查服务器是否配置了外接显卡。

l      => 步骤2

l      => 步骤3

                                步骤 2     拆除或更换新的与服务器匹配的外接显卡,检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     更换主板,查告警是否清除。

l      => 处理完毕

l      => 步骤4

                                步骤 4     请联系技术支持工程师处理。

----结束

9.28 ALM-0x10000093 PS/2USB键盘控制器故障(Mainboard,紧急告警)

告警解释

告警描述:

A PS/2 or USB keyboard controller error is detected during system startup (BN: arg1).

BMC V316及以上版本,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

当服务器PS/2USB设备不可用或故障时,产生此告警。

产生此告警的主体类型为:Mainboard

告警属性

告警ID

告警级别

可自动清除

0x10000093

紧急

告警参数

参数名称

参数含义

arg1

BOM编码。

对系统的影响

PS/2USB设备不可用。

可能原因

l     PS/2USB设备损坏。

l     服务器主板故障。

处理步骤

                                步骤 1     检查是否安装了外接键盘。

l      => 步骤2

l      => 步骤4

                                步骤 2     检查外接键盘是否故障。

l      => 步骤3

l      => 步骤4

                                步骤 3     更换外接键盘,查看告警是否清除。

l      => 处理完毕

l      => 步骤4

                                步骤 4     更换服务器主板,查看告警是否清除。

l      => 处理完毕

l      => 步骤5

                                步骤 5     请联系技术支持工程师处理。

----结束

9.29 ALM-0x10000013 单板硬件地址错误(Mainboard,严重告警)

告警解释

告警描述:

Incorrect hardware address (arg1 address) of the board (BN: arg2).

BMC V316及以上版本,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

获取到错误的单板硬件地址。

产生此告警的主体类型为:Mainboard

告警属性

告警ID

告警级别

可自动清除

0x10000013

严重

告警参数

参数名称

参数含义

arg1

单板硬件的地址。

arg2

BOM编码。

对系统的影响

可能导致管理系统内部通信异常,无法对服务器进行有效管理。

可能原因

l     单板未插稳。

l     主板故障。

处理步骤

                                步骤 1     重启BMC,检查告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     重新拔插单板,检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     更换服务器主板,检查告警是否清除。

l      => 处理完毕

l      => 步骤4

                                步骤 4     请联系技术支持工程师处理。

----结束

9.30 ALM-0x10000015 主板CPLD自检状态(Mainboard,严重告警)

告警解释

告警描述:

Abnormal mainboard CPLD self-check result (BN: arg1).

BMC V316及以上版本,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

主板CPLD自检结果异常时,产生此告警。

产生此告警的主体类型为:Mainboard

告警属性

告警ID

告警级别

可自动清除

0x10000015

严重

告警参数

参数名称

参数含义

arg1

BOM编码。

对系统的影响

可能导致服务器无法正常启动。

可能原因

主板故障。

处理步骤

                                步骤 1     重启BMC,检查告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     更换服务器主板,检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     请联系技术支持工程师处理。

----结束

9.31 ALM-0x100000A9 主板时钟丢失(Mainboard,严重告警)

告警解释

告警描述:

Mainboard arg1 clock arg2 signals lost (BN: arg3).

BMC V316及以上版本,主体类型为CPUDisk的告警分别支持上报各自的序列号和BOM编码,主体类型为MainboardMemory的告警分别支持上报BOM编码。

主板时钟丢失时,产生此告警。

产生此告警的主体类型为:Mainboard

告警属性

告警ID

告警级别

可自动清除

0x100000A9

严重

告警参数

参数名称

参数含义

arg1

主板上的时钟类型,例如“100MHz”、“156.25MHz”等。

arg2

时钟的编号。

arg3

BOM编码。

对系统的影响

影响系统信号,可能导致服务器无法正常启动或运行异常。

可能原因

主板故障。

处理步骤

                                步骤 1     更换服务器主板,待服务器上电后,检查告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     请联系技术支持工程师处理。

----结束

9.32 ALM-0x29000017 网卡光模块的功率异常(Port,严重告警)

告警解释

告警描述:

Abnormal Rx or Tx powers were detected on [arg2] arg3 on arg1.

网卡光模块的当前发送或接收功率有异常时,产生此告警。

产生此告警的主体类型为:Port

告警属性

告警ID

告警级别

可自动清除

0x29000017

严重

告警参数

参数名称

参数含义

arg1

告警相关网卡的名称,例如“NIC 1”、“PCIe Card 5”、“LOM”。

arg2

告警相关网卡的类型,例如“(NIC)”、“(FC)”。

arg3

网口号,例如“port 1”。

对系统的影响

可能导致网卡运行不稳定,业务网络异常。

可能原因

光模块故障。

处理步骤

                                步骤 1     更换产生告警的光模块,检查告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     请联系技术支持工程师处理。

----结束

9.33 ALM-0x29000027 网卡光模块速率不匹配(Port,严重告警)

告警解释

告警描述:

Network arg1 [arg2] arg3 optical module transmission speed does not match the speed supported by the NIC.

网卡光模块的速率与网卡支持的速率不匹配时,产生此告警。

产生此告警的主体类型为:Port

告警属性

告警ID

告警级别

可自动清除

0x29000027

严重

告警参数

参数名称

参数含义

arg1

告警相关网卡的名称,例如“NIC 1”、“PCIe Card 5”、“LOM”。

arg2

告警相关网卡的类型,例如“(NIC)”、“(FC)”。

arg3

网口号,例如“port 1”。

对系统的影响

导致业务网络异常。

可能原因

光模块故障。

处理步骤

                                步骤 1     更换产生告警的光模块,检查告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     请联系技术支持工程师处理。

----结束

9.34 ALM-0x12000019 右挂耳不在位(Chassis,轻微告警)

告警解释

告警描述:

Right mounting ear is not present.

服务器无法检测到右挂耳时,产生此告警。

产生此告警的主体类型为:Chassis

告警属性

告警ID

告警级别

可自动清除

0x12000019

轻微

告警参数

参数名称

参数含义

对系统的影响

l     无法获取进风口温度。

l     挂耳上的电源按钮失效。

l     挂耳上的UID按钮失效。

可能原因

l     右挂耳线缆未插稳。

l     右挂耳线缆故障。

l     右挂耳故障。

处理步骤

                                步骤 1     重新连接右挂耳线缆,保证其插稳后,检查告警是否清除。

右挂耳线缆的连接方法请参考服务器的用户指南。

l      => 处理完毕

l      => 步骤2

                                步骤 2     更换右挂耳线缆,检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     更换右挂耳,检查告警是否清除。

右挂耳的更换方法请参考服务器的用户指南。

l      => 处理完毕

l      => 步骤4

                                步骤 4     请联系技术支持工程师处理。

----结束

9.35 ALM-0x12000021 左挂耳不在位(Chassis,轻微告警)

告警解释

告警描述:

Left mounting ear is not present.

服务器无法检测到左挂耳时,产生此告警。

产生此告警的主体类型为:Chassis

告警属性

告警ID

告警级别

可自动清除

0x12000021

轻微

 

告警参数

参数名称

参数含义

-

-

 

对系统的影响

l     无法获取进风口温度。

l     挂耳上的电源按钮失效。

l     挂耳上的UID按钮失效。

可能原因

l     左挂耳线缆未插稳。

l     左挂耳线缆故障。

l     左挂耳故障。

处理步骤

                                步骤 1     重新连接左挂耳线缆,保证其插稳后,检查告警是否清除。

左挂耳线缆的连接方法请参考服务器的用户指南。

l      => 处理完毕

l      => 步骤2

                                步骤 2     更换左挂耳线缆,检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     更换左挂耳,检查告警是否清除。

左挂耳的更换方法请参考服务器的用户指南。

l      => 处理完毕

l      => 步骤4

                                步骤 4     请联系技术支持工程师处理。

----结束

9.36 ALM-0x1A00003D 许可证文件错误(BMC,严重告警)

告警解释

告警描述:

The BMC license is incorrect.

BMC初始化时检测到当前许可证文件错误时,产生此告警。

产生此告警的主体类型为:BMC

告警属性

告警ID

告警级别

可自动清除

0x1A00003D

严重

对系统的影响

影响BMC高级特性(SP特性及智能诊断数据收集特性)的正常使用。

可能原因

许可证文件错误。

处理步骤

导入正确的许可证文件

若需要使用BMC的高级功能,请按照如下步骤操作。

1.     联系技术支持,申请与服务器产品ESN一一对应的BMC许可证。

2.     将申请到的许可证文件导入BMC。检查告警是否清除。

      => 处理完毕

      => 3

3.     请联系技术支持工程师处理。

删除错误的许可证文件

若不需要使用BMC的高级功能,请按照如下步骤操作。

4.     删除当前许可证文件。检查告警是否清除。

      => 处理完毕

      => 5

5.     请联系技术支持工程师处理。

----结束

9.37 ALM-0x08000087 PCIeMINI模块故障(PCIe Card,严重告警)

告警解释

告警描述:

The MINI module of the arg1 PCIe card arg2 (arg3) is faulty. [arg4] [arg5]

PCIeMINI模块故障时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x08000087

严重

 

告警参数

参数名称

参数含义

arg1

PCIe标卡所在板卡,例如“GpuBoard”、“Riser”。

arg2

PCIe标卡的槽位号,例如“1”、“2”。

arg3

PCIe标卡名称,例如“DMINI”。

arg4

故障附加描述,例如“Error Code: 7168”。

arg5

其它故障附加描述。

 

对系统的影响

导致PCIe卡运行不稳定,系统运行异常。

可能原因

PCIe卡故障。

处理步骤

                                步骤 1     将服务器操作系统下电再上电,检查告警是否清除。

l      => 处理完毕

l      => 步骤2

                                步骤 2     更换产生告警的PCIe卡,检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     请联系技术支持工程师处理。

----结束

9.38 ALM-0x1A000023 证书过期或即将过期(BMC,轻微告警)

告警解释

告警描述:

arg1 certificate is about to expire or has expired.

BMC证书过期或即将过期时,产生此告警。

产生此告警的主体类型为:BMC

BMC V370及以上版本中,此告警级别为轻微。在其他版本中,此告警级别为正常。

告警属性

告警ID

告警级别

可自动清除

0x1A000023

轻微

 

告警参数

参数名称

参数含义

arg1

证书类型。

 

对系统的影响

证书过期后,相关功能将无法使用。

可能原因

证书已过期,或即将过期((BMC当前时间+30天) > 证书有效期截止日期)。

处理步骤

                                步骤 1     申请新证书。

                                步骤 2     导入新的证书,检查告警是否清除。

l      => 处理完毕

l      => 步骤3

                                步骤 3     请联系技术支持工程师处理。

----结束

9.39 ALM-0x2800001F CPUHCCS连接失败(Cable,严重告警)

告警解释

告警描述:

CPUarg1 HCCSarg2 link failed.

当检测到CPUHCCS通道与对端连接失败时,产生此告警。

产生此告警的主体类型为:Cable

告警属性

告警ID

告警级别

可自动清除

0x2800001F

严重

 

告警参数

参数名称

参数含义

arg1

告警相关的CPU的槽位号。

arg2

HCCS通道编号。

 

对系统的影响

可能导致系统性能降低。

可能原因

l     主板故障。

l     CPU故障。

处理步骤

                                步骤 1     将服务器下电后,检查CPU和底座是否存在损坏。

l      => 步骤2

l      => 步骤3

                                步骤 2     更换损坏的部件并将服务器上电后,检查告警是否清除。

l      => 处理完毕

l      => 若损坏部件为CPU底座,则跳转到步骤4;若损坏部件为CPU,则跳转到步骤5

                                步骤 3     重新安装CPU,保证其与底座接触良好,将服务器上电后,检查告警是否清除。

l      => 处理完毕

l      => 步骤4

                                步骤 4     更换告警CPU并将服务器上电后,检查告警是否清除。

l      => 处理完毕

l      => 步骤5

                                步骤 5     更换服务器主板,查看告警是否清除。

l      => 处理完毕

l      => 步骤6

                                步骤 6     请联系技术支持工程师处理。

----结束

9.40 ALM-0x2C000073 系统总功耗过高(System,轻微告警)

告警解释

告警描述:

The total power consumption (arg1 W) of the system exceeds the alarm threshold (arg2 W).

当检测到系统当前总功耗高于功耗过高告警阈值时,产生此告警。

产生此告警的主体类型为:System

告警属性

告警ID

告警级别

可自动清除

0x2C000073

轻微

 

告警参数

参数名称

参数含义

arg1

对应传感器的当前读数。

arg2

告警门限。

 

对系统的影响

服务器电量消耗超过预期。

可能原因

l     功耗过高告警阈值设置过低。

l     OS侧运行的业务过于繁忙。

处理步骤

                                步骤 1     将功耗过高告警阈值设置为更大的值。

                                步骤 2     停止OS侧不必要的业务,释放CPU和内存资源。

----结束


10 事件类告警

事件类告警为服务器的日常运行记录,不需要立即进行处理,在不影响服务器业务的情况下,可于业务量较少的时段进行定位处理。服务器支持的事件类告警如10-1所示。

表10-1 事件类告警列表

事件码

事件描述

影响/建议

0x00000015

CPU arg1 installed.

说明

arg1:表示CPU编号。

0x00000017

CPU arg1 removed.

说明

arg1:表示CPU编号。

影响:

l     CPU1产生此告警,会导致服务器操作系统无法启动。

l     若其它CPU产生此告警,会降低服务器性能。

建议:在合适的时间安装告警的CPU

0x0000001F

CPU arg1 Core arg2 isolated.

说明

l     arg1:表示CPU编号。

l     arg2:表示内核编号。

影响:降低CPU性能。

建议:在合适的时间更换告警的CPU

0x00000021

Faulty CPU arg1 isolated.

说明

arg1:表示CPU编号。

影响:可用CPU减少。

建议:在合适的时间更换告警的CPU

0x00000079

CPU arg1 health status degradation detected by PFAE.

说明

arg1:表示CPU编号。

影响:系统可靠性降低。

建议:

1.     尽快安排计划性维护,下电后检查该部件与其插槽是否存在损坏或接触不良现象。

2.     更换该部件并进一步观察。

3.     更换主板。

0x00000081

arg1 CPU arg2 is replaced from SNarg3 to SNarg4.

说明

l     arg1:表示告警相关内存板的槽位号。

l     arg2:表示告警相关内存丝印,或CPU槽位号和通道号。

l     内存丝印,例如,“DIMM020A)”、“DIMM010B)”。

l     CPU槽位号及通道号

不同型号的服务器,同一通道对应的内存数量不同。

l     arg3:表示更换前内存的SN

l     arg4:表示更换后内存的SN

0x0100000D

[Memory board arg1] arg2 memory correctable ECC.

说明

l     arg1:表示告警相关内存板的槽位号。

l     arg2:表示告警相关内存丝印,或CPU槽位号和通道号。

l     内存丝印,例如,“DIMM020A)”、“DIMM010B)”。

l     CPU槽位号及通道号

不同型号的服务器,同一通道对应的内存数量不同。

l     arg3:表示内存的SN

影响:降低系统性能。

0x0100000F

[Memory board arg1] arg2 installed.

说明

l     arg1:表示告警相关内存板的槽位号。

l     arg2:表示告警相关内存丝印,或CPU槽位号和通道号。

l     内存丝印,例如,“DIMM020A)”、“DIMM010B)”。

l     CPU槽位号及通道号

不同型号的服务器,同一通道对应的内存数量不同。

l     arg3:表示内存的SN

0x01000011

[Memory board arg1] arg2 removed.

说明

l     arg1:表示告警相关内存板的槽位号。

l     arg2:表示告警相关内存丝印,或CPU槽位号和通道号。

l     内存丝印,例如,“DIMM020A)”、“DIMM010B)”。

l     CPU槽位号及通道号

不同型号的服务器,同一通道对应的内存数量不同。

l     arg3:表示内存的SN

影响:降低系统性能。

建议:

1.     在告警的内存槽位安装内存。

2.     重新拔插告警内存。

3.     更换告警槽位的内存。

4.     更换主板或内存所在板卡。

0x0100002D

[arg1] arg2 health status degradation detected by PFAE.

说明

l     arg1:表示告警相关内存板的槽位号。

l     arg2:表示告警相关内存丝印,或CPU槽位号和通道号。

l     内存丝印,例如,“DIMM020A)”、“DIMM010B)”。

l     CPU槽位号及通道号

不同型号的服务器,同一通道对应的内存数量不同。

l     arg3:表示内存的SN

影响:系统可靠性降低。

建议:

1.     尽快安排计划性维护,下电后检查该部件与其插槽是否存在损坏或接触不良现象。

2.     更换该部件并进一步观察。

3.     更换主板。

0x01000041

arg1 arg2 is replaced from SN(arg3) to SN(arg4).

说明

l     arg1:表示告警相关内存板的槽位号。

l     arg2:表示告警相关内存丝印,或CPU槽位号和通道号。

l     内存丝印,例如,“DIMM020A)”、“DIMM010B)”。

l     CPU槽位号及通道号

不同型号的服务器,同一通道对应的内存数量不同。

l     arg3:表示更换前内存的SN

l     arg4:表示更换后内存的SN

-

0x02000003

The [arg1] disk arg2 installed.

说明

l     arg1:表示硬盘位置,包括“rear”、“front”。

l     arg2:表示硬盘槽位号。

0x02000005

The [arg1] disk arg2 removed.

说明

l     arg1:表示硬盘位置,包括“rear”、“front”。

l     arg2:表示硬盘槽位号。

0x0200000D

RAID rebuild starts at the [arg1] disk arg2.

说明

l     arg1:表示硬盘位置,包括“rear”、“front”。

l     arg2:表示硬盘槽位号。

0x0200000F

RAID rebuild at the [arg1] disk arg2 is stopped.

说明

l     arg1:表示硬盘位置,包括“rear”、“front”。

l     arg2:表示硬盘槽位号。

重构停止并不表示重构结果成功,仍需检查是否有硬盘和RAID卡相关告警。

l     如果无硬盘和RAID卡相关告警,表示重构结果成功。

l     如果有硬盘和RAID卡相关告警,表示重构结果失败。

0x0200001F

The [arg1] disk arg2 health status degradation detected by PFAE.

说明

l     arg1:表示硬盘位置,包括“rear”、“front”。

l     arg2:表示硬盘槽位号。

影响:系统可靠性降低。

建议:

1.     尽快安排计划性维护,下电后检查该部件与其插槽是否存在损坏或接触不良现象。

2.     更换该部件并进一步观察。

3.     更换主板。

0x02000023

The arg1 disk arg2 is replaced from SN(arg3) to SN(arg4).

说明

l     arg1:表示硬盘位置,包括“rear”、“front”。

l     arg2:表示硬盘槽位号。

l     arg3:表示更换前硬盘的SN

l     arg4:表示更换后硬盘的SN

-

0x02000033

The [arg1] disk arg2 disconnected temporarily.

说明

l     arg1:表示硬盘位置,包括“rear”、“front”。

l     arg2:表示硬盘槽位号。

-

0x03000003

PSU arg1 installed.

说明

arg1:表示电源模块槽位号。

0x03000005

PSU arg1 removed.

说明

arg1:表示电源模块槽位号。

影响:降低服务器电源冗余度。

0x04000001

Fan arg1 [arg2] installed.

说明

l     arg1:表示风扇模块槽位号。

l     arg2:表示风扇位置,包括“rear”、“front”。

0x04000003

Fan arg1 [arg2] removed.

说明

l     arg1:表示风扇模块槽位号。

l     arg2:表示风扇位置,包括“rear”、“front”。

影响:降低服务器风扇冗余度。

0x0800003D

The [arg1] PCIe card arg2 (RAID) BBU is absent.

说明

l     arg1:表示PCIe卡的位置,包括“front”、“inner”、“rear”。

l     arg2:表示PCIe卡的槽位号。

影响:PCIe RAIDCache功能失效。

建议:安装BBU

0x0800003F

The [arg1] PCIe card arg2 (RAID) BBU is present.

说明

l     arg1:表示PCIe卡的位置,包括“front”、“inner”、“rear”。

l     arg2:表示PCIe卡的槽位号。

0x0800005F

Recoverable errors are detected on arg1 PCIe card arg2 (arg3). Error code: arg4

说明

l     arg1:表示PCIe卡的位置,包括“front”、“inner”、“rear”。

l     arg2:表示PCIe卡的槽位号。

l     arg3:表示PCIe卡类型,例如“M60 GPU”。

l     arg4:表示对应的故障码。

0x08000065

arg1 arg2 [arg3] health status degradation detected by PFAE.

说明

l     arg1:表示PCIe卡的位置,包括“front”、“inner”、“rear”。

l     arg2:表示PCIe卡的槽位号。

l     arg3:表示PCIe卡类型,例如“PCIe Card”、“SDI Card”。

影响:系统可靠性降低。

建议:

1.     尽快安排计划性维护,下电后检查该部件与其插槽是否存在损坏或接触不良现象。

2.     更换该部件并进一步观察。

3.     更换主板。

0x0800008F

The arg1 PCIe card arg2 (arg3) arg4 chip was reset. [arg5] [arg6]

说明

l     arg1:表示承载PCIe卡的部件,包括“GpuBoard”、“Riser”。

l     arg2:表示PCIe卡的槽位号。

l     arg3:表示PCIe卡类型,例如“NIC”、“SDI”。

l     arg4:表示部件名称,例如“NetCard”、“TransformCard”。

l     arg5:表示告警相关的附加描述,例如“Error Code”

l     arg6:表示告警相关的故障码,例如“(7168)”“(7177)”

0x0F000001

PCIe riser card arg1 installed.

说明

arg1:表示PCIe Riser卡的槽位号。

0x0F000003

PCIe riser card arg1 removed.

说明

arg1:表示PCIe Riser卡的槽位号。

影响:PCIe卡相关业务中断。

0x100000C3

Failed to obtain the RTC Time on the mainboard.

影响:BMC侧日志时间不准确。

建议:

1.     重启BMC

2.     更换RTC时钟电池。

3.     如果以上两步仍然不能解决问题,更换主板。

0x100000CD

The LOM [arg1] health status degradation detected by PFAE.

说明

arg1:表示板载网卡的槽位号。

影响:系统可靠性降低。

建议:

1.     尽快安排计划性维护,下电后检查该部件与其插槽是否存在损坏或接触不良现象。

2.     更换该部件并进一步观察。

0x1A00000D

BMC is restarted after AC power supply is restored.

0x1A00000F

BMC event records are cleared.

0x1A000011

BMC event record has reached 90% space capacity.

影响:继续增长将会导致记录空间填满。

建议:清除事件记录。

0x1A00001B

BMC operation log has reached 90% space capacity.

影响:继续使用可能会导致操作日志空间填满、部分历史操作日志丢失。

建议:

1.     如果需要保存日志,请导出所需操作日志记录。

2.     建议开启日志远程syslog转储功能。

0x1A00001D

BMC security log has reached 90% space capacity.

影响:继续使用可能会导致安全日志空间填满、部分历史安全日志丢失。

建议:

1.     如果需要保存日志,请导出所需安全日志记录。

2.     建议开启日志远程syslog转储功能。

0x1A000021

BMC is reset and started.

0x1A000023

arg1 certificate is about to expire or has expired.

说明

l     arg1:表示证书类型。

l     BMC V370及以上版本中,此告警级别为轻微。在其他版本中,此告警级别为正常。

建议:导入新证书。

0x1A000025

Heartbeat signals between the BMC and the system management software(iBMA) are lost.

影响:带内管理监控信息无法获取或实时更新。

建议:重新安装iBMA

0x1A000029

BMC time is stepped by more than arg1 minutes.

说明

arg1:表示BMC跳变时长。

影响:可能导致BMC日志记录时间混乱。

建议:重启BMC

0x1A00002B

BMC failed to synchronize time with the NTP server.

影响:可能导致BMC系统时间不准确。

建议:

1.     检查NTP服务器配置是否正确。

2.     检查BMCNTP服务器之间网络是否连通。

3.     重启BMCNTP功能。

0x1A000039

The BMC license enters the grace period and can still be used. It will expire in arg1 days.

说明

arg1:表示宽限期剩余天数。

影响:可能会影响BMC高级特性的正常使用。

建议:

1.     安装有效的许可证。

2.     删除当前许可证。

0x1A00003B

The BMC license has expired.

影响:可能会影响BMC高级特性的正常使用。

建议:

1.     安装有效的许可证。

2.     删除当前许可证。

0x28000015

CPU arg1 QPI/UPI arg2 link health status degradation detected by PFAE.

说明

l     arg1:表示CPU编号。

l     arg2:表示QPI/UPI通道编号。

影响:系统可靠性降低。

建议:

1.     尽快安排计划性维护,下电后检查该部件与其插槽是否存在损坏或接触不良现象。

2.     更换该部件并进一步观察。

3.     更换主板。

0x29000001

arg1 [arg2] portarg3 disconnected.

说明

l     arg1:表示网卡形态。例如:

l     NIC N:以太网卡扣卡NN为扣卡槽位号)

l     PCIe Card NPCIe网卡标卡NN为扣卡槽位号)

l     LOM:板载网卡

l     arg2:表示网卡类型,例如“(NIC)”、“(FC)”。

l     arg3:表示网口编号。

影响:此网口相关业务中断。

建议:

1.     重新拔插网线。

2.     检查网线是否连接到对端设备。

3.     检查对端设备工作是否正常。

0x2C000001

The CPU usage (arg1) exceeds the threshold (arg2).

说明

l     arg1:表示当前CPU使用率。

l     arg2:表示CPU使用率阈值。

影响:降低系统性能。

建议:

1.     检查CPU占用率阈值是否设置过低。

2.     结束不必要的业务,释放CPU资源。

0x2C000003

The memory usage (arg1) exceeds the threshold (arg2).

说明

l     arg1:表示当前内存使用率

l     arg2:表示内存使用率阈值。

影响:降低系统性能。

建议:

1.     检查内存占用率阈值是否设置过低。

2.     结束不必要的业务,释放内存资源。

0x2C000009

ACPI is in the working state.

0x2C00000B

ACPI is in the soft-off state.

影响:服务器可能无法正常上电。

0x2C000063

The host was restarted by BMC arg1.

说明

arg1:表示重启原因,例如“due to an IERR diagnosis failure”“due to PCIe switch or retimer upgrade”

影响:服务器业务中断。

建议:尽快完成BMC重启。

0x2C00000F

The host was restarted due to unrecognized reason.

影响:可能导致服务器业务中断。

0x2C000011

The host was restarted by command.

影响:可能导致服务器业务中断。

0x2C000013

The host was restarted by power button.

影响:可能导致服务器业务中断。

0x2C000015

The host was restarted due to watchdog timeout.

影响:可能导致服务器业务中断。

0x2C000017

The host is restarted after being powered on (Power strategy is "Turn On").

影响:可能导致服务器业务中断。

0x2C000019

The host is restarted after being powered on (Power strategy is "Restore Previous State").

影响:可能导致服务器业务中断。

0x2C00001B

The OS cannot start without a boot device.

影响:服务器操作系统无法启动。

0x2C00001D

The OS cannot start without a bootable disk.

影响:服务器操作系统无法启动。

0x2C00001F

The OS cannot start because the PXE service is unavailable.

影响:服务器操作系统无法启动。

0x2C000021

The OS cannot start due to the invalid boot partition.

影响:服务器操作系统无法启动。

0x2C000023

The watchdog(arg1) timed out.

说明

arg1:表示看门狗类型,包括“BIOS FRB2”、“BIOS/POST”、“OS Load”、“SMS/OS”及“OEM”。

0x2C00002F

The server system crashes or is abnormally reset.

影响:服务器操作系统异常,相关业务中断。

0x2C000053

The hard disk partition (arg1) usage (arg2) exceeds the threshold (arg3).

说明

l     arg1:表示磁盘分区编号。

l     arg2:表示磁盘分区的当前使用率。

l     arg3:表示磁盘分区的使用率阈值。

影响:降低系统性能。

建议:

1.     检查磁盘分区占用率阈值是否设置过低。

2.     清理磁盘分区空间,释放磁盘分区资源。

0x2C000061

Network arg1 [arg2] arg3 bandwidth usage(arg4) exceeds the threshold (arg5).

说明

l     arg1:表示网卡形态。例如:

l     NIC N:以太网卡扣卡NN为扣卡槽位号)

l     PCIe Card NPCIe网卡标卡NN为扣卡槽位号)

l     LOM:板载网卡

l     arg2:表示网卡类型,例如“(NIC)”、“(FC)”。

l     arg3:表示网口编号。

l     arg4:表示当前带宽占用率。

l     arg5:表示带宽占用率阈值。

影响:可能导致此网卡网口丢包率增加,通信质量下降。

建议:

1.     检查是否存在异常发包业务,将其关闭。

2.     更换带宽更大的网卡。

3.     检查网络环境是否存在网络风暴。

0x31000001

The power button on the panel is pressed.

影响:服务器将下电。

0x31000003

The UID button on the panel is pressed.

 

新华三官网
联系我们