• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 关于我们

H3C UniServer R4960 G5 服务器 BMC 告警处理-6W100

01-正文

本章节下载  (1.55 MB)

01-正文

目  录

前言... 1

1 故障码处理... 1-1

2 告警简介... 2-1

2.1 告警信息简介... 2-1

2.2 告警内容说明... 2-2

3 温度告警... 3-1

3.1 ALM-0x00000003 CPU温度过高即将触发降频(CPU,严重告警)... 3-2

3.2 ALM-0x00000005 CPU VDDQ温度过高(CPU,轻微告警)... 3-4

3.3 ALM-0x00000007 CPU VRD温度过高(CPU,轻微告警)... 3-6

3.4 ALM-0x0000000F CPU过热关机(CPU,紧急告警)... 3-8

3.5 ALM-0x00000061 CPU VRD温度读取失败(CPU,轻微告警)... 3-10

3.6 ALM-0x0000006D CPU核心温度过高(CPU,轻微告警)... 3-11

3.7 ALM-0x01000001 CPU下挂内存温度过高(Memory,严重告警)... 3-13

3.8 ALM-0x0100003B 内存温度过高(Memory,轻微告警)... 3-15

3.9 ALM-0x0100003F 内存温度读取失败(Memory,轻微告警)... 3-17

3.10 ALM-0x02000015 硬盘温度过高(Disk,轻微告警)... 3-18

3.11 ALM-0x02000019 硬盘温度过高(Disk,严重告警)... 3-20

3.12 ALM-0x03000011 电源温度过高(PSU,严重告警)... 3-22

3.13 ALM-0x06000019 RAID扣卡BBU温度过高(RAID Card,轻微告警)... 3-24

3.14 ALM-0x08000003 PCIe卡温度过高(PCIe Card,轻微告警)... 3-26

3.15 ALM-0x08000009 PCIe标卡DIMM内存温度过高(PCIe Card,轻微告警)... 3-28

3.16 ALM-0x0800000D PCIe标卡CPU温度过高(PCIe Card,轻微告警)... 3-29

3.17 ALM-0x0800000F PCIe标卡CPU温度过高(PCIe Card,严重告警)... 3-31

3.18 ALM-0x0D000003 网卡扣卡温度过高(NIC,轻微告警)... 3-33

3.19 ALM-0x0D000017 光模块温度过高(NIC,轻微告警)... 3-34

3.20 ALM-0x0D000019 光模块温度读取失败(NIC,轻微告警)... 3-36

3.21 ALM-0x12000001 进风口温度过高(Chassis,轻微告警)... 3-38

3.22 ALM-0x12000003 进风口温度过高(Chassis,严重告警)... 3-40

3.23 ALM-0x12000009 出风口温度过高(Chassis,轻微告警)... 3-42

3.24 ALM-0x12000013 进风口温度读取失败(Chassis,轻微告警)... 3-43

3.25 ALM-0x1800000B 风扇背板缓起电路温度过高(FAN Backplane,严重告警)... 3-45

3.26 ALM-0x1A000041 BMC核心温度过高(BMC,轻微告警)... 3-46

3.27 ALM-0x24000009 CPU板缓起电路温度过高(CPU Board,严重告警)... 3-48

3.28 ALM-0x53000003 OCP器件温度过高一般告警(OCP Card,轻微告警)... 3-50

3.29 ALM-0x53000005 OCP器件温度读取失败(OCP Card,轻微告警)... 3-51

3.30 ALM-0x5D00000F 扩展板缓起电路温度过高(Expand Board,严重告警)... 3-53

4 电源告警... 4-1

4.1 ALM-0x0000008B CPU的VDDFIX电压过高(CPU,严重告警)... 4-2

4.2 ALM-0x0000008D CPU的VDDFIX电压过低(CPU,严重告警)... 4-4

4.3 ALM-0x0000008F CPU的VDDFIX电压读取失败(CPU,轻微告警)... 4-5

4.4 ALM-0x00000091 CPU的VDDAVS电压过高(CPU,严重告警)... 4-6

4.5 ALM-0x00000093 CPU的VDDAVS电压过低(CPU,严重告警)... 4-7

4.6 ALM-0x00000095 CPU的VDDAVS电压读取失败(CPU,轻微告警)... 4-8

4.7 ALM-0x000000A9 CPU的VDDQAB电压过高(CPU,严重告警)... 4-10

4.8 ALM-0x000000AB CPU的VDDQAB电压过低(CPU,严重告警)... 4-11

4.9 ALM-0x000000AD CPU的VDDQAB电压读取失败(CPU,轻微告警)... 4-12

4.10 ALM-0x000000AF CPU的VDDQCD电压过高(CPU,严重告警)... 4-13

4.11 ALM-0x000000B1 CPU的VDDQCD电压过低(CPU,严重告警)... 4-15

4.12 ALM-0x000000B3 CPU的VDDQCD电压读取失败(CPU,轻微告警)... 4-16

4.13 ALM-0x03000007 电源冗余失效(PSU,严重告警)... 4-17

4.14 ALM-0x03000009 电源故障(PSU,严重告警)... 4-18

4.15 ALM-0x0300000D 电源输入丢失(PSU,紧急告警)... 4-19

4.16 ALM-0x0300000F 电源风扇故障(PSU,严重告警)... 4-21

4.17 ALM-0x03000013 电源通讯异常(PSU,轻微告警)... 4-22

4.18 ALM-0x03000015 电源输出过压(PSU,严重告警)... 4-23

4.19 ALM-0x03000017 电源输出欠压或者无输出(PSU,严重告警)... 4-24

4.20 ALM-0x03000019 电源输出过流(PSU,严重告警)... 4-25

4.21 ALM-0x0300001B 电源输入过压(PSU,严重告警)... 4-26

4.22 ALM-0x0300001F 整机掉电(PSU,严重告警)... 4-27

4.23 ALM-0x03000037 电源模块电压异常(PSU,紧急告警)... 4-28

4.24 ALM-0x05000001 硬盘背板电源异常(Disk Backplane,严重告警)... 4-30

4.25 ALM-0x08000011 PCIe标卡电池电压过低(PCIe Card,轻微告警)... 4-31

4.26 ALM-0x08000013 PCIe标卡电压过低(PCIe Card,严重告警)... 4-32

4.27 ALM-0x08000015 PCIe标卡电压过高(PCIe Card,严重告警)... 4-33

4.28 ALM-0x08000017 PCIe标卡电压读取失败(PCIe Card,轻微告警)... 4-35

4.29 ALM-0x08000039 PCIe标卡BBU电压低(PCIe Card,严重告警)... 4-36

4.30 ALM-0x0800003B PCIe标卡BBU故障(PCIe Card,严重告警)... 4-37

4.31 ALM-0x0F000011 Riser卡电源故障(PCIe Riser,严重告警)... 4-38

4.32 ALM-0x2400000D CPU板电压过低(CPU Board,严重告警)... 4-40

4.33 ALM-0x2400000F CPU板电压过高(CPU Board,严重告警)... 4-41

4.34 ALM-0x24000011 CPU板电压读取失败(CPU Board,轻微告警)... 4-42

4.35 ALM-0x24000019 CPU板电源异常(CPU Board,严重告警)... 4-43

4.36 ALM-0x2900000F 网卡光模块电压异常(Port,严重告警)... 4-44

4.37 ALM-0x2C000007 系统异常下电(System,严重告警)... 4-45

4.38 ALM-0x2C00002B 上电超时(System,严重告警)... 4-50

4.39 ALM-0x2C000089 BIOS启动失败(System,正常告警)... 4-54

4.40 ALM-0x5D000001 扩展板电压过低 (Expand Board,严重告警)... 4-55

4.41 ALM-0x5D000003 扩展板电压过高 (Expand Board,严重告警)... 4-56

4.42 ALM-0x5D000005 扩展板电压读取失败(Expand Board,轻微告警)... 4-57

4.43 ALM-0x5D00000B 扩展板缓起电路电压过低(Expand Board,严重告警)... 4-59

5 看门狗告警... 5-1

5.1 ALM-0x2C000025 看门狗超时导致系统强制重启(System,严重告警)... 5-1

5.2 ALM-0x2C000027 看门狗超时导致系统下电(System,严重告警)... 5-2

5.3 ALM-0x2C000029 看门狗超时导致系统强制下电再上电(System,严重告警)... 5-4

6 管理子系统告警... 6-1

6.1 ALM-0x00000023 CPU核心温度读取失败(CPU,轻微告警)... 6-1

6.2 ALM-0x00000025 CPU VDDQ温度读取失败(CPU,轻微告警)... 6-3

6.3 ALM-0x02000017 硬盘温度读取失败(Disk,轻微告警)... 6-4

6.4 ALM-0x0600001B RAID扣卡BBU温度读取失败(RAID Card,轻微告警)... 6-5

6.5 ALM-0x08000005 PCIe标卡温度读取失败(PCIe Card,轻微告警)... 6-7

6.6 ALM-0x08000069 PCIe卡巡检失败(PCIe Card,严重告警)... 6-8

6.7 ALM-0x0D000005 网卡扣卡温度读取失败(NIC,轻微告警)... 6-10

6.8 ALM-0x12000017 出风口温度读取失败(Chassis,轻微告警)... 6-11

6.9 ALM-0x24000015 CPU板FRU数据读取失败(CPU Board,轻微告警)... 6-12

6.10 ALM-0x49000001 BMA建立转发映射表失败(BMA,轻微告警)... 6-13

6.11 ALM-0x5D000009 扩展板FRU数据读取失败(Expand Board,轻微告警)... 6-14

7 存储告警... 16

7.1 ALM-0x02000007 硬盘故障(Disk,严重告警)... 17

7.2 ALM-0x02000009 硬盘预故障(Disk,轻微告警)... 18

7.3 ALM-0x0200000B 硬盘RAID阵列失效(Disk,严重告警)... 19

7.4 ALM-0x02000013 硬盘MCE/AER错误(Disk,紧急告警)... 20

7.5 ALM-0x0200001D 硬盘剩余磨损率过低(Disk,严重告警)... 22

7.6 ALM-0x02000025 硬盘链路故障(Disk,严重告警)... 23

7.7 ALM-0x02000027 硬盘状态异常(Disk,轻微告警)... 25

7.8 ALM-0x02000029 硬盘有外部配置(Disk,轻微告警)... 26

7.9 ALM-0x0200002B 硬盘链路异常(Disk,轻微告警)... 27

7.10 ALM-0x0200002D 硬盘丢失(Disk,严重告警)... 29

7.11 ALM-0x0200002F 硬盘与RAID卡之间链路的PHY误码增长过快(Disk,严重告警)... 30

7.12 ALM-0x02000031 硬盘与Expander控制器之间链路的PHY误码增长过快(Disk,严重告警)... 32

7.13 ALM-0x2C000071 文件系统只读(System,严重告警)... 34

7.14 ALM-0x2C000075 RAID组阵列失效(System,严重告警)... 34

7.15 ALM-0x2C000079 系统侧证书过期(System,轻微告警)... 36

7.16 ALM-0x32000003 Expander通信故障(Expander,严重告警)... 37

7.17 ALM-0x32000005 Expander控制器与RAID卡之间链路的PHY误码增长过快(Expander,严重告警)... 38

7.18 ALM-0x32000007 Expander控制器之间链路的PHY误码增长过快(Expander,严重告警)... 40

8 风扇告警... 42

8.1 ALM-0x04000005 风扇冗余失效(Fan,严重告警)... 42

8.2 ALM-0x04000007 风扇转速偏差大(Fan,严重告警)... 43

9 内存告警... 45

9.1 ALM-0x01000015 内存配置错误(Memory,紧急告警)... 45

9.2 ALM-0x01000017 DIMM MCE错误(Memory,紧急告警)... 47

9.3 ALM-0x01000025 内存配置错误(Memory,紧急告警)... 48

9.4 ALM-0x01000057 内存初始化错误(Memory,严重告警)... 50

9.5 ALM-0x01000059 内存配置错误(Memory,严重告警)... 52

9.6 ALM-0x2C00000D 系统POST检测到无内存(System,紧急告警)... 54

9.7 ALM-0x2C00004B 内存配置错误(System,紧急告警)... 56

9.8 ALM-0x2C00004F 系统无可用内存(System,紧急告警)... 57

10 其他告警... 60

10.1 ALM-0x00000011 CPU自检失败(CPU,紧急告警)... 63

10.2 ALM-0x00000013 CPU配置错误(CPU,紧急告警)... 64

10.3 ALM-0x0000001D CPU MCE/AER错误(CPU,紧急告警)... 65

10.4 ALM-0x00000073 CPU不在位(CPU,严重告警)... 66

10.5 ALM-0x000000BB CPU内存通道故障(CPU,轻微告警)... 68

10.6 ALM-0x02000021 硬盘VPD信息读取失败(Disk,轻微告警)... 69

10.7 ALM-0x08000001 标准PCIe卡MCE/AER故障(PCIe Card,紧急告警)... 71

10.8 ALM-0x08000007 PCIe标卡FRU数据读取失败(PCIe Card,轻微告警)... 72

10.9 ALM-0x0800001B PCIe标卡硬件故障告警(PCIe Card,严重告警)... 73

10.10 ALM-0x0800001D PCIe标卡启动盘不在位告警(PCIe Card,严重告警)... 74

10.11 ALM-0x0800001F PCIe标卡内存故障(PCIe Card,严重告警)... 76

10.12 ALM-0x08000021 PCIe标卡固件初始化异常(PCIe Card,严重告警)... 77

10.13 ALM-0x08000023 PCIe标卡CPU初始化异常(PCIe Card,严重告警)... 78

10.14 ALM-0x08000025 PCIe标卡看门狗超时告警(PCIe Card,严重告警)... 79

10.15 ALM-0x08000041 PCIe标卡电源故障(PCIe Card,严重告警)... 81

10.16 ALM-0x0800004B RAID标卡故障(PCIe Card,严重告警)... 82

10.17 ALM-0x08000051 时钟失锁(PCIe Card,严重告警)... 84

10.18 ALM-0x08000053 DDR校准失败(PCIe Card,严重告警)... 85

10.19 ALM-0x08000055 DDR工作异常(PCIe Card,严重告警)... 86

10.20 ALM-0x08000057 PCIe链路异常(PCIe Card,严重告警)... 87

10.21 ALM-0x08000059 业务异常中断(PCIe Card,严重告警)... 88

10.22 ALM-0x0800005D PCIe卡自检失败(PCIe Card,严重告警)... 89

10.23 ALM-0x08000061 PCIe卡产生不可恢复故障(PCIe Card,紧急告警)... 90

10.24 ALM-0x08000063 PCIe卡光模块温度过高(PCIe Card,轻微告警)... 91

10.25 ALM-0x0800006F PCIe卡带宽降低(PCIe Card,轻微告警)... 93

10.26 ALM-0x08000073 PCIe卡部件不在位(PCIe Card,轻微告警)... 94

10.27 ALM-0x08000075 PCIe卡硬件信息获取失败(PCIe Card,轻微告警)... 96

10.28 ALM-0x08000077 PCIe卡功率读取失败(PCIe Card,轻微告警)... 97

10.29 ALM-0x08000079 PCIe卡固件自愈失败(PCIe Card,轻微告警)... 98

10.30 ALM-0x0800007B PCIe卡电压过高(PCIe Card,严重告警)... 99

10.31 ALM-0x0800007D PCIe卡电压过低(PCIe Card,严重告警)... 100

10.32 ALM-0x0800007F PCIe卡功率过高(PCIe Card,轻微告警)... 102

10.33 ALM-0x08000081 PCIe卡过流保护(PCIe Card,严重告警)... 103

10.34 ALM-0x08000083 PCIe卡过温保护(PCIe Card,严重告警)... 104

10.35 ALM-0x08000085 PCIe卡PCIeSwitch模块故障(PCIe Card,严重告警)... 106

10.36 ALM-0x08000087 PCIe卡MINI模块故障(PCIe Card,严重告警)... 107

10.37 ALM-0x08000089 PCIe卡MINI模块健康状态获取失败(PCIe Card,轻微告警)... 108

10.38 ALM-0x0800008B PCIe卡降频(PCIe Card,轻微告警)... 110

10.39 ALM-0x0800008D PCIe卡下电(PCIe Card,严重告警)... 112

10.40 ALM-0x08000095 RAID标卡控制器通信丢失(PCIe Card,严重告警)... 113

10.41 ALM-0x08000097 RAID标卡控制器初始化异常(PCIe Card,严重告警)... 115

10.42 ALM-0x080000A1 PCIe卡过流(PCIe Card,严重告警)... 117

10.43 ALM-0x080000A3 PCIe卡芯片状态异常(PCIe Card,严重告警)... 118

10.44 ALM-0x080000A5 PCIe卡初始化异常(PCIe Card,严重告警)... 119

10.45 ALM-0x080000A7 PCIe卡硬件器件故障轻微告警(PCIe Card,轻微告警)... 121

10.46 ALM-0x080000A9 PCIe卡硬件器件故障严重告警(PCIe Card,严重告警)... 122

10.47 ALM-0x080000AB PCIe卡电流过高(PCIe Card,严重告警)... 123

10.48 ALM-0x0D000001 网卡扣卡MCE/AER错误(Network Card,紧急告警)... 124

10.49 ALM-0x12000019 右挂耳不在位(Chassis,轻微告警)... 125

10.50 ALM-0x12000021 左挂耳不在位(Chassis,轻微告警)... 127

10.51 ALM-0x1200002f 前置硬盘背板不在位(Chassis,轻微告警)... 128

10.52 ALM-0x18000009 风扇背板CPLD自检状态失败(FAN Backplane,严重告警)... 130

10.53 ALM-0x1A000023 证书过期或即将过期(BMC,轻微告警)... 131

10.54 ALM-0x1A00002B 同步NTP服务器时间失败(BMC,正常告警)... 132

10.55 ALM-0x1A00003D 许可证文件错误(BMC,严重告警)... 133

10.56 ALM-0x1A000045 证书吊销列表过期(BMC,轻微告警)... 134

10.57 ALM-0x1A000047 不安全密码算法告警(BMC,轻微告警)... 135

10.58 ALM-0x1A000049 不安全协议告警(BMC,轻微告警)... 136

10.59 ALM-0x22000001 TPM自检失败(Security Module,轻微告警)... 137

10.60 ALM-0x24000007 CPU板时钟丢失(CPU Board,严重告警)... 138

10.61 ALM-0x24000013 CPU板CPLD自检异常(CPU Board,严重告警)... 139

10.62 ALM-0x2400001B CPU板RTC电池电压低(CPU Board,严重告警)... 140

10.63 ALM-0x28000003 CPLD信号线连接异常(Cable,严重告警)... 141

10.64 ALM-0x2800000F 风扇背板信号线缆连接异常(Cable,严重告警)... 143

10.65 ALM-0x2800001F CPU的HCCS连接失败(Cable,严重告警)... 144

10.66 ALM-0x28000031 UB线缆或连接器连接错误(Cable,严重告警)... 145

10.67 ALM-0x28000033 UB线缆不在位或连接器未插稳(Cable,严重告警)... 147

10.68 ALM-0x28000035 组件不支持(Cable,严重告警)... 148

10.69 ALM-0x28000037 组件不在位严重告警(Cable,严重告警)... 149

10.70 ALM-0x29000017 网卡光模块的功率异常(Port,严重告警)... 150

10.71 ALM-0x29000027 以太网卡光模块速率匹配告警(Port,严重告警)... 152

10.72 ALM-0x29000029 OAM链路检测连通性告警(Port,严重告警)... 153

10.73 ALM-0x2900002B OAM链路检测错包类告警(Port,严重告警)... 154

10.74 ALM-0x2C000031 系统错误(System,紧急告警)... 155

10.75 ALM-0x2C000037 CPU型号不一致(System,紧急告警)... 155

10.76 ALM-0x2C000039 系统启动中断(System,紧急告警)... 156

10.77 ALM-0x2C00005B 扩展板与硬盘背板配置不匹配(System,严重告警)... 157

10.78 ALM-0x2C000073 系统总功耗过高(System,轻微告警)... 158

10.79 ALM-0x2C00008b 产品自描述信息异常(System,严重告警)... 159

10.80 ALM-0x44000001 逻辑盘降级/部分降级/离线(Logical Drive,严重告警)... 160

10.81 ALM-0x53000001 OCP器件MCE/AER故障(OCP Card,严重告警)... 162

10.82 ALM-0x5300000B OCP器件CE类硬失效(OCP Card,轻微告警)... 163

10.83 ALM-0x5300000D OCP器件降带宽(OCP Card,轻微告警)... 164

10.84 ALM-0x5D000007 扩展板CPLD自检异常(Expand Board,严重告警)... 165

10.85 ALM-0x5D00000D 扩展板更换记录(Expand Board,正常告警)... 167

11 事件类告警... 168


前言

概述

本文档针对H3C UniServer R4960 G5 服务器iBMC的各类告警,从告警含义、对系统的影响、可能的原因、解决的步骤等方面进行详细的介绍。

本文档适用于以下型号主板:

l     S920S10

l     S920S10K

读者对象

本文档主要适用于以下人员:

l     技术支持工程师

l     维护工程师

符号约定

在本文中可能出现下列标志,它们所代表的含义如下。

符号

说明

表示如不避免则将会导致死亡或严重伤害的具有高等级风险的危害。

表示如不避免则可能导致死亡或严重伤害的具有中等级风险的危害。

表示如不避免则可能导致轻微或中度伤害的具有低等级风险的危害。

用于传递设备或环境安全警示信息。如不避免则可能会导致设备损坏、数据丢失、设备性能降低或其它不可预知的结果。

“须知”不涉及人身伤害。

对正文中重点信息的补充说明。

“说明”不是安全警示信息,不涉及人身、设备及环境伤害信息。

 

描述约定

鲲鹏服务器中,BMC、iBMC、HDM-KP含义相同,在不同界面中显示有所不同,本文档中统一描述为iBMC。

 


当服务器前面板的故障诊断数码管中显示故障码时,则表示服务器硬件出了故障,本节介绍如何处理这类故障。

背景信息

当服务器主要部件出现故障时,服务器的故障诊断数码管会显示对应的故障码,便于用户定位故障部件。故障诊断数码管一般安装在服务器的前面板上,详细的位置信息请参考各服务器用户指南。

操作步骤

                                步骤 1     登录服务器的iBMC的WebUI界面,查找对应的告警。

                                步骤 2     根据告警进行处理故障。

                                步骤 3     故障处理成功后,故障诊断数码管中的故障码将清除。

----结束

故障码参考

表1-1 故障码参考

模块

故障码

故障描述

-

---

设备运行正常

数码管

888

数码管无输入默认状态

说明

iBMC初始化暂未写入CPLD或iBMC异常时未写入数码管故障码场景。

CPU

C0N

说明

N表示CPU编号。

CPUN或外围器件异常或故障

内存

XYZ

说明

XYZ表示内存编号。

DIMMXYZ异常或故障

温度

A00

进风口温度超过服务器工作温度范围

A0N

说明

N表示CPU编号。

CPUN温度超过CPU工作温度范围

系统电源

U00

Standby电源异常

U10

非standby电源异常

UCN

说明

N表示CPU编号。

CPUN相关电源异常

P0N

说明

N表示电源模块编号。

电源模块N异常或故障

风扇

F0N

说明

N表示风扇模块编号。

风扇N异常或故障

CPU板

b01

CPU板电源异常

b05

I/O板异常

L01

线缆未插稳或连接错误

E01

CMOS电池异常

扩展板

b01

扩展板电源异常

硬盘

HXY

说明

XY表示前置、内置硬盘槽位号。

硬盘XY异常或故障

HAN

说明

N表示后置硬盘编号。

后置Hdd AN硬盘异常或故障

HbN

说明

N表示后置硬盘编号。

后置Hdd BN硬盘异常或故障

dXY

说明

XY表示后置硬盘槽位号。

后置Slot XY槽位硬盘异常或故障

板载网卡

n01

板载网卡异常或故障

PCIe卡

q0N

说明

N表示PCIe卡编号。

PCIe卡N异常或故障

硬盘背板

bP1

前置硬盘背板电源异常

bP2

内置硬盘背板电源异常

bP3

后置硬盘背板电源异常

备用电池单元

bb0

备用电池0异常


2 告警简介

对告警的内容、格式等相关信息进行介绍。

2.1  告警信息简介

简要地介绍告警信息。

2.2  告警内容说明

介绍告警的格式及说明信息。

2.1 告警信息简介

简要地介绍告警信息。

当设备发生故障或某些原因导致系统处于不正常的工作状态时,系统能够根据不同类型及不同模块出现的故障产生告警信息,同时生成日志信息。若配置了网管系统,则该告警信息会通过SNMP(Simple Network Management Protocol)协议向网管系统发送。设备能检测设备所处的环境,若超出设备正常工作的环境要求,会发出相应的告警信息。

事件和故障

告警按照对系统的影响又可分为:

l     事件

事件是指系统正常运行时记录下来的关键事件,一般对系统没有影响。

l     故障

故障是指可能影响系统的正常运行的告警。

查看告警方法

可以通过以下几种方式查看告警信息:

l     通过显示终端,进入iBMC管理软件的命令行,执行ipmcget -d healthevents命令查询当前的告警信息。

l     通过网管软件查看告警信息。

l     通过iBMC的Web管理界面查看告警信息。

告警级别

服务器产品的告警可分三个级别,按告警严重性分为:

l     轻微告警(Minor)

轻微告警不会对系统产生大的影响,需要尽快采取相应的措施,防止故障升级。

l     严重告警(Major)

严重告警将会对系统产生较大的影响,有可能中断部分系统的正常运行,导致业务中断。

l     紧急告警(Critical)

紧急告警可能会使单板下电,系统中断。需要马上采取相应的措施进行处理。

服务器系统的告警包含服务器系统所有部件的告警,当产生告警时,需要根据告警的参数信息来定位告警具体原因。

事件状态

告警事件的状态包含产生(Asserted)和恢复(Deasserted),且两者成对出现。在处理告警的过程中,只需要关注事件状态为产生(Asserted)的告警。当告警恢复时,事件描述记录内容与告警产生时的内容相同。

2.2 告警内容说明

介绍告警的格式及说明信息。

告警格式

l     在WebUI中,iBMC的告警信息包括如下参数:

     级别

     主体类型

     事件描述

     产生时间

     事件码

     处理建议

详细信息请参见WebUI的“当前告警”页面。

l     在CLI中,告警信息包含“产生时间”、“级别”、“事件码”、“状态”、“事件描述”。

告警信息说明

本文档从以下几个方面介绍告警:

l     告警解释

说明告警中的以下信息:

     告警描述

     告警代表的意义

     产生告警的主体

     告警部件的BOM编码及SN。

n     iBMC V383之前版本,告警描述中部件BOM编码的引导词为PN。

n     iBMC V383及以上版本,告警描述中部件BOM编码的引导词由PN改为BN。

n     iBMC V3.01.00.00及以上版本,告警描述中部件BOM编码的引导词为BN。

iBMC中出现的“disk”和“drive”为同义词,泛指所有硬盘。

l     告警属性

     告警ID:表示告警对应的16进制事件码。

     告警级别:表示告警对应故障对业务的影响程度。

     可自动清除:表示产生该告警的故障排除后,告警信息是否会自动清除。

l     告警参数

说明告警信息中各个字段的含义。

l     对系统的影响

说明产生此告警后,对系统所产生的影响。

l     可能原因

说明导致此告警产生的原因。

l     处理步骤

当出现此告警时,应该采取的解决方法和步骤。

告警处理建议中的处理步骤为服务器各型号通用处理步骤,如果无法执行,请跳过该步骤,继续执行下一步骤。


3 温度告警

介绍服务器可能产生的温度告警。

3.1  ALM-0x00000003 CPU温度过高即将触发降频(CPU,严重告警)

3.2  ALM-0x00000005 CPU VDDQ温度过高(CPU,轻微告警)

3.3  ALM-0x00000007 CPU VRD温度过高(CPU,轻微告警)

3.4  ALM-0x0000000F CPU过热关机(CPU,紧急告警)

3.5  ALM-0x00000061 CPU VRD温度读取失败(CPU,轻微告警)

3.6  ALM-0x0000006D CPU核心温度过高(CPU,轻微告警)

3.7  ALM-0x01000001 CPU下挂内存温度过高(Memory,严重告警)

3.8  ALM-0x0100003B 内存温度过高(Memory,轻微告警)

3.9  ALM-0x0100003F 内存温度读取失败(Memory,轻微告警)

3.10  ALM-0x02000015 硬盘温度过高(Disk,轻微告警)

3.11  ALM-0x02000019 硬盘温度过高(Disk,严重告警)

3.12  ALM-0x03000011 电源温度过高(PSU,严重告警)

3.13  ALM-0x06000019 RAID扣卡BBU温度过高(RAID Card,轻微告警)

3.14  ALM-0x08000003 PCIe卡温度过高(PCIe Card,轻微告警)

3.15  ALM-0x08000009 PCIe标卡DIMM内存温度过高(PCIe Card,轻微告警)

3.16  ALM-0x0800000D PCIe标卡CPU温度过高(PCIe Card,轻微告警)

3.17  ALM-0x0800000F PCIe标卡CPU温度过高(PCIe Card,严重告警)

3.18  ALM-0x0D000003 网卡扣卡温度过高(NIC,轻微告警)

3.19  ALM-0x0D000017 光模块温度过高(NIC,轻微告警)

3.20  ALM-0x0D000019 光模块温度读取失败(NIC,轻微告警)

3.21  ALM-0x12000001 进风口温度过高(Chassis,轻微告警)

3.22  ALM-0x12000003 进风口温度过高(Chassis,严重告警)

3.23  ALM-0x12000009 出风口温度过高(Chassis,轻微告警)

3.24  ALM-0x12000013 进风口温度读取失败(Chassis,轻微告警)

3.25  ALM-0x1800000B 风扇背板缓起电路温度过高(FAN Backplane,严重告警)

3.26  ALM-0x1A000041 BMC核心温度过高(BMC,轻微告警)

3.27  ALM-0x24000009 CPU板缓起电路温度过高(CPU Board,严重告警)

3.28  ALM-0x53000003 OCP器件温度过高一般告警(OCP Card,轻微告警)

3.29  ALM-0x53000005 OCP器件温度读取失败(OCP Card,轻微告警)

3.30  ALM-0x5D00000F 扩展板缓起电路温度过高(Expand Board,严重告警)

3.1 ALM-0x00000003 CPU温度过高即将触发降频(CPU,严重告警)

告警解释

告警描述:

CPU arg1 temperature is too high and will be underclocked (SN: arg2, BN: arg3).

iBMC V316及以上版本,主体类型为CPU、Disk的告警分别支持上报各自的序列号和BOM编码,主体类型为Memory的告警分别支持上报BOM编码。

当CPU温度过高可能触发降频时,CPU主动上报温度过高信号,iBMC检测到该信号后,产生此告警。

l     当BIOS为1.08之后版本时,在CPU温度恢复到正常范围后,此告警恢复。

l     当BIOS为1.08及之前版本时,需要待CPU频率恢复到正常规格后,且CPU温度在30分钟内维持在98°C以下,此告警方可恢复。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x00000003

严重

 

告警参数

参数名称

参数含义

arg1

CPU的槽位号。

arg2

CPU的序列号。

arg3

BOM编码。

对系统的影响

导致系统性能降低。

可能原因

l     环境温度过高。

l     进风口/出风口堵塞。

l     存在空槽位或间隔。

l     风扇模块故障。

l     未安装导风罩。

l     散热器接触不良或液冷装置故障。

l     CPU板故障。

处理步骤

                                步骤 1     检查服务器是否同时存在进风口或出风口高温告警。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     按照进风口/出风口高温告警的处理方法进行操作,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     检查服务器是否同时存在风扇告警。

l     是 => 步骤4

l     否 => 步骤5

                                步骤 4     按照风扇告警的处理方法进行操作,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     将服务器下电后,检查服务器内部的导风罩是否已正确安装。

l     是 => 步骤7

l     否 => 步骤6

                                步骤 6     正确安装导风罩后,将服务器上电,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤7

                                步骤 7     将服务器下电后,检查CPU散热器或液冷装置是否安装正确。

l     是 => 步骤9

l     否 => 步骤8

                                步骤 8     正确安装CPU散热器或液冷装置后,将服务器上电,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤9

                                步骤 9     更换CPU板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤10

                             步骤 10     请联系技术支持处理。

----结束

3.2 ALM-0x00000005 CPU VDDQ温度过高(CPU,轻微告警)

告警解释

告警描述:

CPU arg1 DIMMs VDDQ temperature (arg2 degrees C) exceeds the overtemperature threshold (arg3 degrees C) (SN: arg4, BN: arg5).

iBMC V316及以上版本,主体类型为CPU、Disk的告警分别支持上报各自的序列号和BOM编码,主体类型为Memory的告警分别支持上报BOM编码。

当检测到CPU的VDDQ温度高于轻微告警阈值时,产生此告警,当温度恢复到正常范围内时,此告警恢复。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x00000005

轻微

 

告警参数

参数名称

参数含义

arg1

CPU的槽位号。

arg2

对应传感器的当前读数。

arg3

告警门限。

arg4

CPU的序列号。

arg5

BOM编码。

对系统的影响

CPU板为CPU下挂内存供电的电源温度过高,会触发服务器自动下电。

可能原因

l     风扇模块故障。

l     环境温度过高。

l     进风口/出风口堵塞。

l     未安装导风罩。

l     CPU板故障。

处理步骤

                                步骤 1     检查服务器是否同时存在进风口或出风口高温告警。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     按照进风口/出风口高温告警的处理方法进行操作,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     检查服务器是否同时存在风扇告警。

l     是 => 步骤4

l     否 => 步骤5

                                步骤 4     按照风扇告警的处理方法进行操作,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     将服务器下电后,检查服务器内部的导风罩是否已正确安装。

l     是 => 步骤7

l     否 => 步骤6

                                步骤 6     正确安装导风罩后,将服务器上电,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤7

                                步骤 7     更换CPU板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤8

                                步骤 8     请联系技术支持处理。

----结束

3.3 ALM-0x00000007 CPU VRD温度过高(CPU,轻微告警)

告警解释

告警描述:

The CPU arg1 VRD temperature (arg2 degrees C) exceeds the overtemperature threshold (arg3 degrees C) (SN: arg4, BN: arg5).

iBMC V316及以上版本,主体类型为CPU、Disk的告警分别支持上报各自的序列号和BOM编码,主体类型为Memory的告警分别支持上报BOM编码。

当检测到CPU的VRD温度高于轻微告警阈值时,产生此告警,当温度恢复到正常范围内时,此告警恢复。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x00000007

轻微

 

告警参数

参数名称

参数含义

arg1

CPU的槽位号。

arg2

对应传感器的当前读数。

arg3

告警门限。

arg4

CPU的序列号。

arg5

BOM编码。

对系统的影响

CPU板为CPU供电的电源温度过高,会触发服务器自动下电。

可能原因

l     风扇模块故障。

l     环境温度过高。

l     进风口/出风口堵塞。

l     未安装导风罩。

l     CPU板故障。

处理步骤

                                步骤 1     检查服务器是否同时存在进风口或出风口高温告警。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     按照进风口/出风口高温告警的处理方法进行操作,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     检查服务器是否同时存在风扇告警。

l     是 => 步骤4

l     否 => 步骤5

                                步骤 4     按照风扇告警的处理方法进行操作,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     将服务器下电后,检查服务器内部的导风罩是否已正确安装。

l     是 => 步骤7

l     否 => 步骤6

                                步骤 6     正确安装导风罩后,将服务器上电,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤7

                                步骤 7     更换CPU板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤8

                                步骤 8     请联系技术支持处理。

----结束

3.4 ALM-0x0000000F CPU过热关机(CPU,紧急告警)

告警解释

iBMC V296之前版本,告警描述为:

CPU arg1 temperature is too high and the server will be powered off.

iBMC V296及以上版本,告警描述为:

The OS was shut down due to CPU arg1 overheating (SN: arg2, BN: arg3).

iBMC V316及以上版本,主体类型为CPU、Disk的告警分别支持上报各自的序列号和BOM编码,主体类型为Memory的告警分别支持上报BOM编码。

当检测到CPU温度过高,导致OS关机时,产生此告警。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x0000000F

紧急

 

告警参数

参数名称

参数含义

arg1

CPU的槽位号。

arg2

CPU的序列号。

arg3

BOM编码。

对系统的影响

导致系统异常下电。

可能原因

l     环境温度过高。

l     进风口/出风口堵塞。

l     存在空槽位或间隔。

l     风扇模块故障。

l     未安装导风罩。

l     散热器接触不良或液冷装置故障。

l     CPU板故障。

处理步骤

                                步骤 1     检查服务器是否同时存在进风口或出风口高温告警。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     按照进风口/出风口高温告警的处理方法进行操作,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     检查服务器是否同时存在风扇告警。

l     是 => 步骤4

l     否 => 步骤5

                                步骤 4     按照风扇告警的处理方法进行操作,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     将服务器下电后,检查服务器内部的导风罩是否已正确安装。

l     是 => 步骤7

l     否 => 步骤6

                                步骤 6     正确安装导风罩后,将服务器上电,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤7

                                步骤 7     将服务器下电后,检查CPU散热器或液冷装置是否安装正确。

l     是 => 步骤9

l     否 => 步骤8

                                步骤 8     正确安装CPU散热器或液冷装置后,将服务器上电,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤9

                                步骤 9     更换CPU板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤10

                             步骤 10     请联系技术支持工程师处理。

----结束

3.5 ALM-0x00000061 CPU VRD温度读取失败(CPU,轻微告警)

告警解释

告警描述:

Failed to obtain data of the CPU arg1 VRD temperature (SN: arg2, BN: arg3).

iBMC V316及以上版本,主体类型为CPU、Disk的告警分别支持上报各自的序列号和BOM编码,主体类型为Memory的告警分别支持上报BOM编码。

CPUarg1 VRD温度读取失败时,产生此告警。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x00000061

轻微

 

告警参数

参数名称

参数含义

arg1

CPU的槽位号。

arg2

CPU的序列号。

arg3

BOM编码。

对系统的影响

无法正常监控温度,温度异常时无法及时告警。

可能原因

CPU VRD电源芯片故障或访问通道故障。

处理步骤

                                步骤 1     重启iBMC,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     拔插电源线缆或拔插单板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     请联系技术支持处理。

----结束

3.6 ALM-0x0000006D CPU核心温度过高(CPU,轻微告警)

告警解释

告警描述:

The CPU arg1 core temperature (arg2 degrees C) exceeds the overtemperature threshold (arg3 degrees C) (SN: arg4, BN: arg5).

iBMC V316及以上版本,主体类型为CPU、Disk的告警分别支持上报各自的序列号和BOM编码,主体类型为Memory的告警分别支持上报BOM编码。

CPU核心温度高于门限温度时,产生此告警。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x0000006D

轻微

 

告警参数

参数名称

参数含义

arg1

CPU的槽位号。

arg2

对应传感器的当前读数。

arg3

告警门限。

arg4

CPU的序列号。

arg5

BOM编码。

对系统的影响

CPU核心温度过高会导致CPU性能下降,设备运行不稳定。

可能原因

CPU核心温度高于门限。

处理步骤

                                步骤 1     检查机房环境温度是否已超出设备运行环境要求。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     将机房环境温度降低至设备运行环境要求的温度,5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     检查服务器是否存在风扇模块告警。

l     是 => 步骤4

l     否 => 步骤5

                                步骤 4     更换产生告警的风扇模块,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     检查服务器进风口或出风口是否有异物堵塞。

l     是 => 步骤6

l     否 => 步骤7

                                步骤 6     清除异物,5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤7

                                步骤 7     更换服务器CPU板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤8

                                步骤 8     请联系技术支持处理。

----结束

3.7 ALM-0x01000001 CPU下挂内存温度过高(Memory,严重告警)

告警解释

告警描述:

Temperature of the DIMMs connected to CPU arg1 is too high.

此告警不支持上报其序列号或BOM编码。

当检测到特定CPU对应的内存温度过高时,产生此告警,当温度恢复到正常范围内时,此告警恢复。

产生此告警的主体类型为:Memory

告警属性

告警ID

告警级别

可自动清除

0x01000001

严重

 

告警参数

参数名称

参数含义

arg1

CPU的槽位号。

对系统的影响

温度过高会导致内存运行不稳定或故障,从而导致服务器性能降低。

可能原因

l     风扇模块故障。

l     环境温度过高。

l     进风口/出风口堵塞。

l     存在空槽位或间隔。

l     未安装导风罩。

l     内存故障。

处理步骤

                                步骤 1     检查服务器是否存在风扇模块告警。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     更换产生告警的风扇模块,5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     检查机房环境温度是否超出设备运行环境要求的温度。

l     是 => 步骤4

l     否 => 步骤5

                                步骤 4     将机房环境温度降低至设备运行环境要求的温度,5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     检查服务器进风口或出风口是否有异物堵塞。

l     是 => 步骤6

l     否 => 步骤7

                                步骤 6     清除异物,5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤7

                                步骤 7     检查服务器之间的空槽位或间隔是否已加假面板或挡板。

l     是 => 步骤9

l     否 => 步骤8

                                步骤 8     为服务器之间的空槽位或间隔安装假面板或挡板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤9

                                步骤 9     将服务器下电后,检查服务器内部的导风罩是否已正确安装。

l     是 => 步骤11

l     否 => 步骤10

                             步骤 10     正确安装导风罩后,将服务器上电,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤11

                             步骤 11     更换内存,待服务器上电后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤12

                             步骤 12     请联系技术支持处理。

----结束

3.8 ALM-0x0100003B 内存温度过高(Memory,轻微告警)

告警解释

告警描述:

The memory (arg1 arg2) temperature (arg3 degrees C) exceeds the overtemperature threshold (arg4 degrees C)(SN: arg5, BN: arg6).

iBMC V316及以上版本,此告警支持上报内存的序列号和BOM编码。

内存当前温度高于高温门限温度时,产生此告警,当温度恢复到正常范围内时,此告警恢复。

产生此告警的主体类型为:Memory

告警属性

告警ID

告警级别

可自动清除

0x0100003B

轻微

 

告警参数

参数名称

参数含义

arg1

CPU的槽位号。

arg2

内存丝印,例如“DIMM000”。

arg3

对应传感器的当前读数。

arg4

告警门限。

arg5

内存的序列号。

arg6

BOM编码。

对系统的影响

温度过高会导致内存运行不稳定或故障,从而导致服务器性能降低。

可能原因

l     风扇模块故障。

l     环境温度过高。

l     进风口/出风口堵塞。

l     存在空槽位或间隔。

l     未安装导风罩。

l     内存故障。

处理步骤

                                步骤 1     检查服务器是否存在风扇模块告警。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     更换产生告警的风扇模块,5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     检查机房环境温度是否超出设备运行环境要求的温度。

l     是 => 步骤4

l     否 => 步骤5

                                步骤 4     将机房环境温度降低至设备运行环境要求的温度,5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     检查服务器进风口或出风口是否有异物堵塞。

l     是 => 步骤6

l     否 => 步骤7

                                步骤 6     清除异物,5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤7

                                步骤 7     检查服务器之间的空槽位或间隔是否已加假面板或挡板。

l     是 => 步骤9

l     否 => 步骤8

                                步骤 8     为服务器之间的空槽位或间隔安装假面板或挡板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤9

                                步骤 9     将服务器下电后,检查服务器内部的导风罩是否已正确安装。

l     是 => 步骤11

l     否 => 步骤10

                             步骤 10     正确安装导风罩后,将服务器上电,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤11

                             步骤 11     更换内存,待服务器上电后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤12

                             步骤 12     请联系技术支持处理。

----结束

3.9 ALM-0x0100003F 内存温度读取失败(Memory,轻微告警)

告警解释

告警描述:

Failed to obtain data of the memory (arg1) temperature.

此告警不支持上报其序列号或BOM编码。

内存温度读取失败时,产生此告警。

产生此告警的主体类型为:Memory

告警属性

告警ID

告警级别

可自动清除

0x0100003F

轻微

 

告警参数

参数名称

参数含义

arg1

告警相关内存丝印,或CPU槽位号和通道号。

l     内存丝印,例如“DIMM010(B)”。

l     CPU槽位号及通道号

说明

不同型号的服务器,同一通道对应的内存数量不同。

对系统的影响

无法正常监控温度,温度异常时无法及时告警。

可能原因

iMU故障或访问通道异常。

处理步骤

                                步骤 1     重启iBMC,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     拔插电源线缆或拔插单板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     请联系技术支持处理。

----结束

3.10 ALM-0x02000015 硬盘温度过高(Disk,轻微告警)

告警解释

告警描述:

The [arg1] disk arg2 temperature (arg3 degrees C) exceeds the threshold (arg4 degrees C) (SN: arg5).

iBMC V316及以上版本,主体类型为CPU、Disk的告警分别支持上报各自的序列号和BOM编码,主体类型为Memory的告警分别支持上报BOM编码。

当检测到硬盘温度高于轻微告警阈值时,产生此告警,当温度恢复到正常范围内时,此告警恢复。

产生此告警的主体类型为:Disk

告警属性

告警ID

告警级别

可自动清除

0x02000015

轻微

 

告警参数

参数名称

参数含义

arg1

告警相关硬盘的位置,例如“front”、“rear”等。

arg2

告警相关硬盘的槽位号。

arg3

对应传感器的当前读数。

arg4

告警门限。

arg5

硬盘的序列号。

对系统的影响

可能导致硬盘运行不稳定或故障,系统停止响应或数据丢失。

可能原因

l     风扇模块故障。

l     环境温度过高。

l     进风口或出风口堵塞。

l     存在空槽位或间隔。

l     硬盘故障。

处理步骤

                                步骤 1     检查服务器是否存在风扇模块告警。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     更换产生告警的风扇模块,5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     检查机房环境温度是否超出设备运行环境要求的温度。

l     是 => 步骤4

l     否 => 步骤5

                                步骤 4     将机房环境温度降低至设备运行环境要求的温度,5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     检查服务器进风口或出风口是否有异物堵塞。

l     是 => 步骤6

l     否 => 步骤7

                                步骤 6     清除异物,5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤7

                                步骤 7     检查服务器之间的空槽位或间隔是否已加假面板或挡板。

l     是 => 步骤9

l     否 => 步骤8

                                步骤 8     为服务器之间的空槽位或间隔安装假面板或挡板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤9

                                步骤 9     更换硬盘,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤10

                             步骤 10     请联系技术支持处理。

----结束

3.11 ALM-0x02000019 硬盘温度过高(Disk,严重告警)

告警解释

告警描述:

The [arg1] disk arg2 temperature (arg3 degrees C) exceeds the threshold (arg4 degrees C) (SN: arg5).

iBMC V316及以上版本,主体类型为CPU、Disk的告警分别支持上报各自的序列号和BOM编码,主体类型为Memory的告警分别支持上报BOM编码。

当检测到硬盘的当前温度高于高温告警门限温度时,产生此告警,当温度恢复到正常范围内时,此告警恢复。

产生此告警的主体类型为:Disk

告警属性

告警ID

告警级别

可自动清除

0x02000019

严重

 

告警参数

参数名称

参数含义

arg1

告警相关硬盘的位置,例如“front”、“rear”等。

arg2

告警相关硬盘的槽位号。

arg3

对应传感器的当前读数。

arg4

告警门限。

arg5

硬盘的序列号。

对系统的影响

可能导致硬盘运行不稳定或故障,系统停止响应或数据丢失。

可能原因

l     风扇模块故障。

l     环境温度过高。

l     进风口或出风口堵塞。

l     硬盘故障。

处理步骤

                                步骤 1     检查服务器是否存在风扇模块告警。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     更换产生告警的风扇模块,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     检查机房环境温度是否已超出设备运行环境要求。

l     是 => 步骤4

l     否 => 步骤5

                                步骤 4     将机房环境温度降低至设备运行环境要求的温度,5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     检查服务器进风口或出风口是否有异物堵塞。

l     是 => 步骤6

l     否 => 步骤7

                                步骤 6     清除异物,5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤7

                                步骤 7     更换产生告警的硬盘,查看告警是否清除。

l     是 => 处理完毕

l     否 => 步骤8

                                步骤 8     请联系技术支持处理。

----结束

3.12 ALM-0x03000011 电源温度过高(PSU,严重告警)

告警解释

告警描述:

PSU arg1 is overtemperature (SN: arg2, BN: arg3).

iBMC V328及以上版本,主体类型为RAID Card、PSU的告警分别支持上报各自的序列号和BOM编码,主体类型为Fan的告警支持上报BOM编码。

当检测到电源模块温度过高时,产生此告警,当温度恢复到正常范围内时,此告警恢复。

产生此告警的主体类型为:PSU

告警属性

告警ID

告警级别

可自动清除

0x03000011

严重

 

告警参数

参数名称

参数含义

arg1

告警相关的电源模块的编号。

arg2

电源的序列号。

arg3

BOM编码。

对系统的影响

温度过高会影响电源寿命,从而影响系统供电,可能导致服务器下电,影响系统业务。

可能原因

l     风扇模块故障

l     环境温度过高

l     进风口/出风口堵塞

l     存在空槽位或间隔

l     电源模块内部风扇故障

处理步骤

                                步骤 1     检查服务器是否存在风扇模块告警。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     更换产生告警的风扇模块,5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     检查机房环境温度是否超出设备运行环境要求的温度。

l     是 => 步骤4

l     否 => 步骤5

                                步骤 4     将机房环境温度降低至设备运行环境要求的温度,5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     检查服务器进风口或出风口是否有异物堵塞。

l     是 => 步骤6

l     否 => 步骤7

                                步骤 6     清除异物,5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤7

                                步骤 7     检查服务器之间的空槽位或间隔是否已加假面板或挡板。

l     是 => 步骤9

l     否 => 步骤8

                                步骤 8     为服务器之间的空槽位或间隔安装假面板或挡板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤9

                                步骤 9     更换产生告警的电源模块,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤10

                             步骤 10     请联系技术支持处理。

----结束

3.13 ALM-0x06000019 RAID扣卡BBU温度过高(RAID Card,轻微告警)

告警解释

告警描述:

The arg4 RAID controller card arg1 BBU temperature (arg2 degrees C) exceeds the overtemperature threshold (arg3 degrees C) (SN: arg5, BN: arg6).

iBMC V328及以上版本,主体类型为RAID Card、PSU的告警分别支持上报各自的序列号和BOM编码,主体类型为Fan的告警支持上报BOM编码。

当检测到RAID扣卡电容的当前温度高于告警门限温度时,产生此告警,当温度恢复到正常范围内时,此告警恢复。

产生此告警的主体类型为:RAID Card

告警属性

告警ID

告警级别

可自动清除

0x06000019

轻微

 

告警参数

参数名称

参数含义

arg1

告警相关的RAID卡的槽位号。

arg2

对应传感器的当前读数。

arg3

告警门限。

arg4

前IO模块或计算模块及其槽位号,例如“FM”、“CMn”。

arg5

RAID卡的序列号。

arg6

BOM编码。

对系统的影响

温度过高会导致RAID卡运行异常,影响硬盘业务。

可能原因

l     风扇模块故障。

l     环境温度过高。

l     进风口/出风口堵塞。

l     未安装导风罩。

l     RAID扣卡电容故障。

处理步骤

                                步骤 1     检查风扇模块是否存在低转速告警。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     更换产生告警的风扇模块,5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     检查机房环境温度是否超出设备运行环境要求的温度。

l     是 => 步骤4

l     否 => 步骤5

                                步骤 4     将机房环境温度降低至设备运行环境要求的温度,5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     检查服务器进风口或出风口是否有异物堵塞。

l     是 => 步骤6

l     否 => 步骤7

                                步骤 6     清除异物,5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤7

                                步骤 7     检查服务器内部是否正确安装导风罩。

l     是 => 步骤9

l     否 => 步骤8

                                步骤 8     安装导风罩,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤9

                                步骤 9     更换RAID扣卡电容,待服务器上电后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤10

                             步骤 10     请联系技术支持处理。

----结束

3.14 ALM-0x08000003 PCIe卡温度过高(PCIe Card,轻微告警)

告警解释

告警描述:

The arg1 arg2 arg3 temperature (arg4 degrees C) exceeds the overtemperature threshold (arg5 degrees C).

当检测到PCIe卡的温度高于温度告警阈值时,产生此告警,当温度恢复到正常范围内时,此告警恢复。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x08000003

轻微

 

告警参数

参数名称

参数含义

arg1

PCIe卡的位置,例如“front”、“rear”等。

arg2

PCIe卡的槽位号,例如“1”、“2”。

arg3

PCIe卡的类型,例如“M60 GPU”。

arg4

对应传感器的当前读数。

arg5

告警门限。

对系统的影响

温度过高会导致PCIe设备运行不稳定或故障,从而引起系统运行异常。

可能原因

l     风扇模块故障。

l     环境温度过高。

l     进风口/出风口堵塞。

l     PCIe卡故障。

处理步骤

                                步骤 1     检查风扇模块是否存在低转速告警。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     更换产生告警的风扇模块,5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     检查机房环境温度是否超出设备运行环境要求的温度。

l     是 => 步骤4

l     否 => 步骤5

                                步骤 4     将机房环境温度降低至设备运行环境要求的温度。5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     检查服务器进风口或出风口是否有异物堵塞。

l     是 => 步骤6

l     否 => 步骤7

                                步骤 6     清除异物,5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤7

                                步骤 7     更换产生告警的PCIe卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤8

                                步骤 8     请联系技术支持处理。

----结束

3.15 ALM-0x08000009 PCIe标卡DIMM内存温度过高(PCIe Card,轻微告警)

告警解释

告警描述:

The [arg1] PCIe card arg2 (arg3) arg4 exceeds the overtemperature threshold.

PCIe标卡内DIMM温度过高时,产生此告警,当温度恢复到正常范围内时,此告警恢复。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x08000009

轻微

 

告警参数

参数名称

参数含义

arg1

PCIe卡的位置,例如“front”、“rear”等。

arg2

PCIe卡的槽位号,例如“1”、“2”。

arg3

PCIe卡的类型,例如“M60 GPU”。

arg4

PCIe卡上的内存的丝印,例如“DIMM00”、“DIMM10”等。

对系统的影响

温度过高会影响内存稳定性,导致PCIe性能降低。

可能原因

l     风扇模块故障。

l     环境温度过高。

l     进风口/出风口堵塞。

l     PCIe卡故障。

处理步骤

                                步骤 1     检查风扇模块是否存在低转速告警。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     更换产生告警的风扇模块,5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     检查机房环境温度是否超出设备运行环境要求的温度。

l     是 => 步骤4

l     否 => 步骤5

                                步骤 4     将机房环境温度降低至设备运行环境要求的温度。5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     检查服务器进风口或出风口是否有异物堵塞。

l     是 => 步骤6

l     否 => 步骤7

                                步骤 6     清除异物,5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤7

                                步骤 7     更换产生告警的PCIe卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤8

                                步骤 8     请联系技术支持处理。

----结束

3.16 ALM-0x0800000D PCIe标卡CPU温度过高(PCIe Card,轻微告警)

告警解释

告警描述:

The [arg1] PCIe card arg2 (arg3) CPU core temperature (arg4 degrees C) exceeds the overtemperature threshold (arg5 degrees C).

当检测到PCIe卡的CPU温度高于温度告警阈值时,产生此告警,当温度恢复到正常范围内时,此告警恢复。

产生此告警的主体类型为:PCIe Card。

告警属性

告警ID

告警级别

可自动清除

0x0800000D

轻微

 

告警参数

参数名称

参数含义

arg1

PCIe卡的位置,例如“front”、“rear”等。

arg2

PCIe卡的槽位号,例如“1”、“2”。

arg3

PCIe卡的类型,例如“M60 GPU”。

arg4

对应传感器的当前读数。

arg5

告警门限。

对系统的影响

可能导致PCIe卡运行不稳定或故障,系统运行异常。

可能原因

l     风扇模块故障。

l     环境温度过高。

l     进风口/出风口堵塞。

l     PCIe卡故障。

处理步骤

                                步骤 1     检查风扇模块是否存在低转速告警。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     更换产生告警的风扇模块,5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     检查机房环境温度是否超出设备运行环境要求的温度。

l     是 => 步骤4

l     否 => 步骤5

                                步骤 4     将机房环境温度降低至设备运行环境要求的温度。5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     检查服务器进风口或出风口是否有异物堵塞。

l     是 => 步骤6

l     否 => 步骤7

                                步骤 6     清除异物,5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤7

                                步骤 7     更换产生告警的PCIe卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤8

                                步骤 8     请联系技术支持处理。

----结束

3.17 ALM-0x0800000F PCIe标卡CPU温度过高(PCIe Card,严重告警)

告警解释

告警描述:

The [arg1] PCIe card arg2 (arg3) CPU core temperature (arg4 degrees C) exceeds the overtemperature threshold (arg5 degrees C).

当检测到PCIe卡的CPU温度高于温度告警阈值时,产生此告警,当温度恢复到正常范围内时,此告警恢复。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x0800000F

严重

 

告警参数

参数名称

参数含义

arg1

PCIe卡的位置,例如“front”、“rear”等。

arg2

PCIe卡的槽位号,例如“1”、“2”。

arg3

PCIe卡的类型,例如“M60 GPU”。

arg4

对应传感器的当前读数。

arg5

告警门限。

对系统的影响

可能导致PCIe卡运行不稳定或故障,系统运行异常。

可能原因

l     风扇模块故障。

l     环境温度过高。

l     进风口/出风口堵塞。

l     PCIe卡故障。

处理步骤

                                步骤 1     检查风扇模块是否存在低转速告警。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     更换产生告警的风扇模块,5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     检查机房环境温度是否超出设备运行环境要求的温度。

l     是 => 步骤4

l     否 => 步骤5

                                步骤 4     将机房环境温度降低至设备运行环境要求的温度。5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     检查服务器进风口或出风口是否有异物堵塞。

l     是 => 步骤6

l     否 => 步骤7

                                步骤 6     清除异物,5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤7

                                步骤 7     更换产生告警的PCIe卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤8

                                步骤 8     请联系技术支持处理。

----结束

3.18 ALM-0x0D000003 网卡扣卡温度过高(NIC,轻微告警)

告警解释

告警描述:

The NIC arg1 temperature (arg2 degrees C) exceeds the overtemperature threshold (arg3 degrees C).

当检测到网卡温度高于轻微告警阈值时,产生此告警,当温度恢复到正常范围内时,此告警恢复。

产生此告警的主体类型为:NIC

告警属性

告警ID

告警级别

可自动清除

0x0D000003

轻微

 

告警参数

参数名称

参数含义

arg1

告警相关网卡扣卡的编号。

arg2

对应传感器的当前读数。

arg3

告警门限。

对系统的影响

温度过高会导致网卡运行异常,影响网络业务。

可能原因

l     风扇模块故障

l     环境温度过高

l     进风口/出风口堵塞

l     网卡故障

处理步骤

                                步骤 1     检查是否存在风扇模块告警。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     更换产生告警的风扇模块,5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     检查机房环境温度是否超出设备运行环境要求的温度。

l     是 => 步骤4

l     否 => 步骤5

                                步骤 4     将机房环境温度降低至设备运行环境要求的温度。5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     检查服务器进风口或出风口是否有异物堵塞。

l     是 => 步骤6

l     否 => 步骤7

                                步骤 6     清除异物,5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤7

                                步骤 7     更换产生告警的网卡扣卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤8

                                步骤 8     请联系技术支持处理。

----结束

3.19 ALM-0x0D000017 光模块温度过高(NIC,轻微告警)

告警解释

告警描述:

The arg1 optical module [arg2] temperature (arg3 degrees C) exceeds the overtemperature threshold (arg4 degrees C).

当光模块当前温度高于告警门限温度时,产生此告警。

产生此告警的主体类型为:NIC

告警属性

告警ID

告警级别

可自动清除

0x0D000017

轻微

 

告警参数

参数名称

参数含义

arg1

光模块的位置,例如,“NIC”、“LOM”。

arg2

光模块的编号,例如,“1”、“2”。

arg3

对应传感器的当前读数。

arg4

告警门限。

 

对系统的影响

光模块温度异常,可能无法正常工作,影响风扇调速。

可能原因

l     服务器存在风扇告警。

l     机房环境温度已超出服务器设备运行环境要求。

l     服务器进风口/出风口有异物堵塞。

l     光模块故障。

处理步骤

                                步骤 1     检查是否存在风扇模块告警。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     更换产生告警的风扇模块,5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     检查机房环境温度是否超出设备运行环境要求的温度。

l     是 => 步骤4

l     否 => 步骤5

                                步骤 4     将机房环境温度降低至设备运行环境要求的温度。5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     检查服务器进风口或出风口是否有异物堵塞。

l     是 => 步骤6

l     否 => 步骤7

                                步骤 6     清除异物,5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤7

                                步骤 7     更换光模块,检查本节所述告警是否清除。

l     是 => 处理完毕

l     否 => 步骤8

                                步骤 8     请联系技术支持处理。

----结束

3.20 ALM-0x0D000019 光模块温度读取失败(NIC,轻微告警)

告警解释

告警描述:

Failed to obtain data of the arg1 optical module arg2 temperature. [arg3] [arg4]

当光模块温度读取失败时,产生此告警。

产生此告警的主体类型为:NIC

告警属性

告警ID

告警级别

可自动清除

0x0D000019

轻微

 

告警参数

参数名称

参数含义

arg1

光模块的位置,例如,“NIC”、“LOM”。

arg2

光模块的编号,例如,“1”、“2”。

arg3

故障码。

arg4

故障附加描述。

 

对系统的影响

无法正常监控光模块温度,影响风扇调速。

可能原因

M7获取光模块I2C访问链路通道异常或M7获取光模块温度异常。

处理步骤

                                步骤 1     重启iBMC,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     执行OS先下电后上电,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     拔插电源线缆或拔插单板,检查告警是否清除。。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     更换光模块,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     请联系技术支持处理。

----结束

3.21 ALM-0x12000001 进风口温度过高(Chassis,轻微告警)

告警解释

告警描述:

The air inlet temperature (arg1 degrees C) exceeds the overtemperature threshold (arg2 degrees C).

此告警不支持上报其序列号或BOM编码。

当检测到进风口温度高于轻微告警阈值时,产生此告警,当温度恢复到正常范围内时,此告警恢复。

产生此告警的主体类型为:Chassis

告警属性

告警ID

告警级别

可自动清除

0x12000001

轻微

 

告警参数

参数名称

参数含义

arg1

对应传感器的当前读数。

arg2

告警门限。

对系统的影响

进风口温度过高会影响器件性能,导致设备运行不稳定。

可能原因

l     环境温度过高。

l     进风口被堵住。

l     存在空槽位或间隔。

l     进风口传感器所在部件故障。

不同服务器上进风口传感器所在部件不同,部件的位置也不尽相同,详细信息请参考服务器用户指南。

处理步骤

                                步骤 1     检查机房环境温度是否已超出设备运行环境要求的温度。正常环境温度的建议值是不超过40摄氏度。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     利用机房内的空调、风扇等设备来降低机房内的温度(比如调低空调的温度,增大风扇的转速。如果空调设备不可用,可以打开门窗,增加机房内的通风),5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     检查设备所在机柜内的温度是否超出设备运行环境要求的温度。

l     是 => 步骤4

l     否 => 步骤5

                                步骤 4     清除机柜附近遮挡物保证机柜进风/出风通畅,5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     检查服务器进风口是否有异物堵塞。

l     是 => 步骤6

l     否 => 步骤7

                                步骤 6     清除异物,5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤7

                                步骤 7     检查服务器之间的空槽位或间隔是否已加假面板或挡板。

l     是 => 步骤9

l     否 => 步骤8

                                步骤 8     为服务器之间的空槽位或间隔安装假面板或挡板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤9

                                步骤 9     更换传感器所在部件,检查告警是否清除。

各服务器的进风口温度传感器所在部件请参见其用户指南的“传感器列表”章节。

更换方法请参考用户指南中的“更换部件”章节。

l     是=> 处理完毕

l     否 => 步骤10

                             步骤 10     请联系技术支持处理。

----结束

3.22 ALM-0x12000003 进风口温度过高(Chassis,严重告警)

告警解释

告警描述:

The air inlet temperature (arg1 degrees C) exceeds the overtemperature threshold (arg2 degrees C).

此告警不支持上报其序列号或BOM编码。

当检测到进风口温度高于严重告警阈值时,产生此告警,当温度恢复到正常范围内时,此告警恢复。

产生此告警的主体类型为:Chassis

告警属性

告警ID

告警级别

可自动清除

0x12000003

严重

 

告警参数

参数名称

参数含义

arg1

对应传感器的当前读数。

arg2

告警门限。

对系统的影响

进风口温度过高会影响器件性能,导致设备运行不稳定。

可能原因

l     环境温度过高。

l     进风口被堵住。

l     存在空槽位或间隔。

l     进风口传感器所在部件故障。

不同服务器上进风口传感器所在部件不同,部件的位置也不尽相同,详细信息请参考服务器用户指南。

处理步骤

                                步骤 1     检查机房环境温度是否已超出设备运行环境要求的温度。正常环境温度的建议值是不超过40摄氏度。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     利用机房内的空调、风扇等设备来降低机房内的温度(比如调低空调的温度,增大风扇的转速。如果空调设备不可用,可以打开门窗,增加机房内的通风),5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     检查设备所在机柜内的温度是否超出设备运行环境要求的温度。

l     是 => 步骤4

l     否 => 步骤5

                                步骤 4     清除机柜附近遮挡物保证机柜进风/出风通畅,5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     检查服务器进风口是否有异物堵塞。

l     是 => 步骤6

l     否 => 步骤7

                                步骤 6     清除异物,5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤7

                                步骤 7     检查服务器之间的空槽位或间隔是否已加假面板或挡板。

l     是 => 步骤9

l     否 => 步骤8

                                步骤 8     为服务器之间的空槽位或间隔安装假面板或挡板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤9

                                步骤 9     更换传感器所在部件,检查告警是否清除。

各服务器的进风口温度传感器所在部件请参见其用户指南的“传感器列表”章节。

更换方法请参考用户指南中的“更换部件”章节。

l     是=> 处理完毕

l     否 => 步骤10

                             步骤 10     请联系技术支持处理。

----结束

3.23 ALM-0x12000009 出风口温度过高(Chassis,轻微告警)

告警解释

告警描述:

The air outlet arg1 temperature (arg2 degrees C) exceeds the overtemperature threshold (arg3 degrees C).

当检测到出风口温度高于轻微告警阈值时,产生此告警,当温度恢复到正常范围内时,此告警恢复。

产生此告警的主体类型为:Chassis

告警属性

告警ID

告警级别

可自动清除

0x12000009

轻微

 

告警参数

参数名称

参数含义

arg1

出风口编号。

arg2

对应传感器的当前读数。

arg3

告警门限。

对系统的影响

出风口温度过高会影响器件性能,导致设备运行不稳定。

可能原因

l     环境温度过高。

l     进风口/出风口被堵住。

l     存在空槽位或间隔。

l     出风口传感器所在部件故障。

处理步骤

                                步骤 1     检查机房环境温度是否已超出设备运行环境要求的温度。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     将机房环境温度降低至设备运行环境要求的温度,5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     检查设备所在机柜内的温度是否超出设备运行环境要求的温度。

l     是 => 步骤4

l     否 => 步骤5

                                步骤 4     清除机柜附近遮挡物保证机柜进风/出风通畅,5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     检查服务器进风口或出风口是否有异物堵塞。

l     是 => 步骤6

l     否 => 步骤7

                                步骤 6     清除异物,5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤7

                                步骤 7     检查服务器之间的空槽位或间隔是否已加假面板或挡板。

l     是 => 步骤9

l     否 => 步骤8

                                步骤 8     为服务器之间的空槽位或间隔安装假面板或挡板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤9

                                步骤 9     请联系技术支持处理。

----结束

3.24 ALM-0x12000013 进风口温度读取失败(Chassis,轻微告警)

告警解释

告警描述:

Failed to obtain data of the air inlet temperature.

此告警不支持上报其序列号或BOM编码。

当读取进风口温度失败时,产生此告警。

产生此告警的主体类型为:Chassis

告警属性

告警ID

告警级别

可自动清除

0x12000013

轻微

 

告警参数

参数名称

参数含义

对系统的影响

无法正常监控温度,温度异常时无法及时告警。

可能原因

进风口传感器芯片失效或访问通道异常。

处理步骤

                                步骤 1     登录iBMC的Web界面或命令行。

登录方法请参考服务器iBMC用户指南。

                                步骤 2     重启iBMC。

l     Web界面中,可通过“固件升级”界面的“重启iBMC”实现重启操作。

l     命令行下,可通过ipmcset -d reset命令实现重启操作。

                                步骤 3     重启完成后,查看告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     插拔电源线缆或插拔单板,查看告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     更换扩展板,查看告警是否清除。

l     是 => 处理完毕

l     否 => 步骤6

                                步骤 6     请联系技术支持处理。

----结束

3.25 ALM-0x1800000B 风扇背板缓起电路温度过高(FAN Backplane,严重告警)

告警解释

告警描述:

System is forcibly shut down due to high temperature of the soft-start circuit arg1.

当检测到缓起电路温度过高强制系统下电时,产生此告警。

产生此告警的主体类型为:FAN Backplane

告警属性

告警ID

告警级别

可自动清除

0x1800000B

严重

 

告警参数

参数名称

参数含义

arg1

电压监测点,例如“V_VCC_12V0”、“V_VCC_12V1”。

对系统的影响

导致系统下电。

可能原因

l     环境温度过高。

l     进风口/出风口堵塞。

l     存在空槽位或间隔。

l     风扇模块故障。

l     风扇背板故障。

处理步骤

                                步骤 1     检查服务器是否同时存在进风口/出风口高温告警。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     按照进风口/出风口高温告警的处理建议清除告警后,检查本节所述告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     检查服务器是否同时存在风扇模块告警。

l     是 => 步骤4

l     否 => 步骤5

                                步骤 4     按照风扇模块告警的处理建议清除告警后,检查本节所述告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     更换产生告警的风扇背板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤6

                                步骤 6     请联系技术支持处理。

----结束

3.26 ALM-0x1A000041 BMC核心温度过高(BMC,轻微告警)

告警解释

告警描述:

The BMC core temperature (arg1 degrees C) exceeds the overtemperature threshold (arg2 degrees C).

当iBMC核心温度高于告警门限温度时,产生此告警。

产生此告警的主体类型为:BMC

告警属性

告警ID

告警级别

可自动清除

0x1A000041

轻微

 

告警参数

参数名称

参数含义

arg1

对应传感器的当前读数。

arg2

告警门限。

 

对系统的影响

iBMC核心温度过高会导致iBMC性能下降,设备运行不稳定。

可能原因

l     环境温度过高。

l     进风口或出风口有异物堵塞。

l     存在空槽位或间隔。

l     温度传感器所在部件故障。

处理步骤

                                步骤 1     检查风扇模块是否存在告警。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     更换产生告警的风扇模块,5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     检查机房环境温度是否超出设备运行环境要求的温度。

l     是 => 步骤4

l     否 => 步骤5

                                步骤 4     将机房环境温度降低至设备运行环境要求的温度。5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     检查服务器进风口或出风口是否有异物堵塞。

l     是 => 步骤6

l     否 => 步骤7

                                步骤 6     清除异物,5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤7

                                步骤 7     更换iBMC所在的部件,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤8

                                步骤 8     请联系技术支持处理。

----结束

3.27 ALM-0x24000009 CPU板缓起电路温度过高(CPU Board,严重告警)

告警解释

告警描述:

System is forcibly shut down due to high temperature of the soft-start circuit arg1.

服务器的CPU板缓起电路温度超过105°C,触发CPLD保护机制和服务器OS下电时,产生此告警。

产生此告警的主体类型为:CPU Board

告警属性

告警ID

告警级别

可自动清除

0x24000009

严重

 

告警参数

参数名称

参数含义

arg1

告警相关的CPU板所在计算模块的槽位号。

 

对系统的影响

可能导致系统下电,导致业务中断。

可能原因

l     环境温度过高。

l     进风口/出风口堵塞。

l     存在空槽位或间隔。

l     风扇模块故障。

l     CPU板故障。

处理步骤

                                步骤 1     检查风扇模块是否存在告警。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     更换产生告警的风扇模块,5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     检查机房环境温度是否超出设备运行环境要求的温度。

l     是 => 步骤4

l     否 => 步骤5

                                步骤 4     将机房环境温度降低至设备运行环境要求的温度。5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     检查服务器进风口或出风口是否有异物堵塞。

l     是 => 步骤6

l     否 => 步骤7

                                步骤 6     清除异物,5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤7

                                步骤 7     检查服务器之间是否存在空槽位或间隔。

l     是 => 步骤8

l     否 => 步骤9

                                步骤 8     为服务器之间的空槽位或间隔安装假面板或挡板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤9

                                步骤 9     更换CPU板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤10

                             步骤 10     请联系技术支持处理。

----结束

3.28 ALM-0x53000003 OCP器件温度过高一般告警(OCP Card,轻微告警)

告警解释

告警描述:

The [arg1] arg2 [arg3] temperature (arg4 degrees C) exceeds the overtemperature threshold (arg5 degrees C).

当OCP器件温度过高时,产生此告警。

产生此告警的主体类型为:OCP Card

告警属性

告警ID

告警级别

可自动清除

0x53000003

轻微

 

告警参数

参数名称

参数含义

arg1

告警相关的OCP卡的位置,如“OCP Card 1(MCX565M-CDAB)”。

arg2

告警相关的OCP卡的位置,如“OCP Card 2(MCX565M-CDAB)”。

arg3

告警相关的OCP卡的位置,如“OCP Card 3(MCX565M-CDAB)”。

arg4

对应传感器的当前读数。

arg5

告警门限。

 

对系统的影响

温度过高会导致OCP设备运行不稳定。如果告警一直存在,可能导致OCP卡相关业务无法正常运行。

可能原因

l     风扇故障

l     环境温度过高

l     服务器进风口/出风口堵塞

l     OCP卡故障

处理步骤

                                步骤 1     检查服务器是否存在风扇告警。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     更换风扇模块,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     检查机房环境温度是否已超出设备运行环境要求。

l     是 => 步骤4

l     否 => 步骤5

                                步骤 4     将机房环境温度降低至设备运行环境要求的温度,5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     检查服务器进风口/出风口是否有异物堵塞。

l     是 => 步骤6

l     否 => 步骤7

                                步骤 6     清除异物,5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤7

                                步骤 7     更换该部件并检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤8

                                步骤 8     请联系技术支持处理。

----结束

3.29 ALM-0x53000005 OCP器件温度读取失败(OCP Card,轻微告警)

告警解释

告警描述:

Failed to obtain data of the [arg1] arg2 arg3 temperature.

当OCP器件温度读取失败时,产生此告警。

产生此告警的主体类型为:OCP Card

告警属性

告警ID

告警级别

可自动清除

0x53000005

轻微

 

告警参数

参数名称

参数含义

arg1

告警相关的OCP卡的位置,如“OCP Card 1(MCX565M-CDAB)”。

arg2

告警相关的OCP卡的位置,如“OCP Card 2(MCX565M-CDAB)”。

arg3

Optical Module。

 

对系统的影响

无法正常监控温度,如果温度异常时无法及时告警,影响风扇调速。

可能原因

传感器访问通道异常或传感器芯片失效。

处理步骤

                                步骤 1     重启iBMC。

                                步骤 2     执行OS先下电后上电,观察告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     下电后重新插拔该部件,上电后观察告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     更换该部件并进一步观察告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     请联系技术支持处理。

----结束

3.30 ALM-0x5D00000F 扩展板缓起电路温度过高(Expand Board,严重告警)

告警解释

告警描述:

System is forcibly shut down due to high temperature of the soft-start circuit arg1.

当扩展板缓起电路温度过高强制系统下电时,产生此告警。

产生此告警的主体类型为:Expand Board

告警属性

告警ID

告警级别

可自动清除

0x5D00000F

严重

 

告警参数

参数名称

参数含义

arg1

电压监测点名称,例如“V_VCC_12V1”、“V_VCC_12V2”。

 

对系统的影响

可能导致系统异常下电。

可能原因

l     环境温度过高。

l     进风口/出风口堵塞。

l     存在空槽位或间隔。

l     风扇模块故障。

l     扩展板故障。

处理步骤

                                步骤 1     检查服务器是否同时存在进风口/出风口高温告警。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     按照进风口/出风口高温告警的处理建议清除告警后,检查本节所述告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     检查服务器是否同时存在风扇模块告警。

l     是 => 步骤4

l     否 => 步骤5

                                步骤 4     按照风扇模块告警的处理建议清除告警后,检查本节所述告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     更换扩展板,检查本节所述告警是否清除。

l     是 => 处理完毕

l     否 => 步骤6

                                步骤 6     请联系技术支持处理。

----结束


4 电源告警

介绍服务器可能产生的电源告警。

4.1  ALM-0x0000008B CPU的VDDFIX电压过高(CPU,严重告警)

4.2  ALM-0x0000008D CPU的VDDFIX电压过低(CPU,严重告警)

4.3  ALM-0x0000008F CPU的VDDFIX电压读取失败(CPU,轻微告警)

4.4  ALM-0x00000091 CPU的VDDAVS电压过高(CPU,严重告警)

4.5  ALM-0x00000093 CPU的VDDAVS电压过低(CPU,严重告警)

4.6  ALM-0x00000095 CPU的VDDAVS电压读取失败(CPU,轻微告警)

4.7  ALM-0x000000A9 CPU的VDDQAB电压过高(CPU,严重告警)

4.8  ALM-0x000000AB CPU的VDDQAB电压过低(CPU,严重告警)

4.9  ALM-0x000000AD CPU的VDDQAB电压读取失败(CPU,轻微告警)

4.10  ALM-0x000000AF CPU的VDDQCD电压过高(CPU,严重告警)

4.11  ALM-0x000000B1 CPU的VDDQCD电压过低(CPU,严重告警)

4.12  ALM-0x000000B3 CPU的VDDQCD电压读取失败(CPU,轻微告警)

4.13  ALM-0x03000007 电源冗余失效(PSU,严重告警)

4.14  ALM-0x03000009 电源故障(PSU,严重告警)

4.15  ALM-0x0300000D 电源输入丢失(PSU,紧急告警)

4.16  ALM-0x0300000F 电源风扇故障(PSU,严重告警)

4.17  ALM-0x03000013 电源通讯异常(PSU,轻微告警)

4.18  ALM-0x03000015 电源输出过压(PSU,严重告警)

4.19  ALM-0x03000017 电源输出欠压或者无输出(PSU,严重告警)

4.20  ALM-0x03000019 电源输出过流(PSU,严重告警)

4.21  ALM-0x0300001B 电源输入过压(PSU,严重告警)

4.22  ALM-0x0300001F 整机掉电(PSU,严重告警)

4.23  ALM-0x03000037 电源模块电压异常(PSU,紧急告警)

4.24  ALM-0x05000001 硬盘背板电源异常(Disk Backplane,严重告警)

4.25  ALM-0x08000011 PCIe标卡电池电压过低(PCIe Card,轻微告警)

4.26  ALM-0x08000013 PCIe标卡电压过低(PCIe Card,严重告警)

4.27  ALM-0x08000015 PCIe标卡电压过高(PCIe Card,严重告警)

4.28  ALM-0x08000017 PCIe标卡电压读取失败(PCIe Card,轻微告警)

4.29  ALM-0x08000039 PCIe标卡BBU电压低(PCIe Card,严重告警)

4.30  ALM-0x0800003B PCIe标卡BBU故障(PCIe Card,严重告警)

4.31  ALM-0x0F000011 Riser卡电源故障(PCIe Riser,严重告警)

4.32  ALM-0x2400000D CPU板电压过低(CPU Board,严重告警)

4.33  ALM-0x2400000F CPU板电压过高(CPU Board,严重告警)

4.34  ALM-0x24000011 CPU板电压读取失败(CPU Board,轻微告警)

4.35  ALM-0x24000019 CPU板电源异常(CPU Board,严重告警)

4.36  ALM-0x2900000F 网卡光模块电压异常(Port,严重告警)

4.37  ALM-0x2C000007 系统异常下电(System,严重告警)

4.38  ALM-0x2C00002B 上电超时(System,严重告警)

4.39  ALM-0x2C000089 BIOS启动失败(System,正常告警)

4.40  ALM-0x5D000001 扩展板电压过低 (Expand Board,严重告警)

4.41  ALM-0x5D000003 扩展板电压过高 (Expand Board,严重告警)

4.42  ALM-0x5D000005 扩展板电压读取失败(Expand Board,轻微告警)

4.43  ALM-0x5D00000B 扩展板缓起电路电压过低(Expand Board,严重告警)

4.1 ALM-0x0000008B CPU的VDDFIX电压过高(CPU,严重告警)

告警解释

告警描述:

CPU arg1 VDDFIX voltage (arg2 V) exceeds the overvoltage threshold (arg3 V) (SN: arg4, BN: arg5).

iBMC V316及以上版本起,主体类型为CPU、Disk的告警分别支持上报各自的序列号和BOM编码,主体类型为Memory的告警分别支持上报BOM编码。

当检测到CPU VDDFIX监测点当前电压高于高压门限,产生此告警,当电压恢复到正常范围时,告警恢复。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x0000008B

严重

 

告警参数

参数名称

参数含义

arg1

告警相关的CPU的槽位号。

arg2

对应传感器的当前读数。

arg3

告警门限。

arg4

CPU的序列号。

arg5

BOM编码。

 

对系统的影响

可能导致系统停止响应。

可能原因

CPU板故障。

处理步骤

                                步骤 1     更换服务器CPU板,查看告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

4.2 ALM-0x0000008D CPU的VDDFIX电压过低(CPU,严重告警)

告警解释

告警描述:

CPU arg1 VDDFIX voltage (arg2 V) is lower than the undervoltage threshold (arg3 V) (SN: arg4, BN: arg5).

iBMC V316及以上版本起,主体类型为CPU、Disk的告警分别支持上报各自的序列号和BOM编码,主体类型为Memory的告警分别支持上报BOM编码。

当检测到CPU VDDFIX监测点当前电压低于低压门限,产生此告警,当电压恢复到正常范围时,告警恢复。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x0000008D

严重

 

告警参数

参数名称

参数含义

arg1

告警相关的CPU的槽位号。

arg2

对应传感器的当前读数。

arg3

告警门限。

arg4

CPU的序列号。

arg5

BOM编码。

 

对系统的影响

可能导致系统停止响应。

可能原因

CPU板故障。

处理步骤

                                步骤 1     更换服务器CPU板,查看告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

4.3 ALM-0x0000008F CPU的VDDFIX电压读取失败(CPU,轻微告警)

告警解释

告警描述:

Failed to obtain data of the CPU arg1 VDDFIXvoltage (SN: arg2, BN: arg3).

iBMC V316及以上版本起,主体类型为CPU、Disk的告警分别支持上报各自的序列号和BOM编码,主体类型为Memory的告警分别支持上报BOM编码。

当读取CPU VDDFIX电压值失败时,产生此告警。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x0000008F

轻微

 

告警参数

参数名称

参数含义

arg1

告警相关的CPU的槽位号。

arg2

CPU的序列号。

arg3

BOM编码。

 

对系统的影响

可能导致系统停止响应。

可能原因

VRD电路异常。

处理步骤

                                步骤 1     重启iBMC,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     拔插电源线缆或拔插单板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     请联系技术支持处理。

----结束

4.4 ALM-0x00000091 CPU的VDDAVS电压过高(CPU,严重告警)

告警解释

告警描述:

CPU arg1 VDDAVS voltage (arg2 V) exceeds the overvoltage threshold (arg3 V) (SN: arg4, BN: arg5).

iBMC V316及以上版本起,主体类型为CPU、Disk的告警分别支持上报各自的序列号和BOM编码,主体类型为Memory的告警分别支持上报BOM编码。

当检测到CPU VDDAVS监测点当前电压高于高压门限,产生此告警,当电压恢复到正常范围时,告警恢复。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x00000091

严重

 

告警参数

参数名称

参数含义

arg1

告警相关的CPU的槽位号。

arg2

对应传感器的当前读数。

arg3

告警门限。

arg4

CPU的序列号。

arg5

BOM编码。

 

对系统的影响

可能导致系统停止响应。

可能原因

CPU板故障。

处理步骤

                                步骤 1     更换服务器CPU板,查看告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

4.5 ALM-0x00000093 CPU的VDDAVS电压过低(CPU,严重告警)

告警解释

告警描述:

CPU arg1 VDDAVS voltage (arg2 V) is lower than the undervoltage threshold (arg3 V) (SN: arg4, BN: arg5).

iBMC V316及以上版本起,主体类型为CPU、Disk的告警分别支持上报各自的序列号和BOM编码,主体类型为Memory的告警分别支持上报BOM编码。

当检测到CPU VDDAVS监测点当前电压低于低压门限,产生此告警,当电压恢复到正常范围时,告警恢复。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x00000093

严重

 

告警参数

参数名称

参数含义

arg1

告警相关的CPU的槽位号。

arg2

对应传感器的当前读数。

arg3

告警门限。

arg4

CPU的序列号。

arg5

BOM编码。

 

对系统的影响

可能导致系统停止响应。

可能原因

CPU板故障。

处理步骤

                                步骤 1     更换服务器CPU板,查看告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

4.6 ALM-0x00000095 CPU的VDDAVS电压读取失败(CPU,轻微告警)

告警解释

告警描述:

Failed to obtain data of the CPU arg1 VDDAVS voltage (SN: arg2, BN: arg3).

iBMC V316及以上版本起,主体类型为CPU、Disk的告警分别支持上报各自的序列号和BOM编码,主体类型为Memory的告警分别支持上报BOM编码。

当读取CPU VDDAVS电压值失败时,产生此告警。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x00000095

轻微

 

告警参数

参数名称

参数含义

arg1

告警相关的CPU的槽位号。

arg2

CPU的序列号。

arg3

BOM编码。

 

对系统的影响

可能导致系统停止响应。

可能原因

VRD电路异常。

处理步骤

                                步骤 1     重启iBMC,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     拔插电源线缆或拔插单板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     请联系技术支持处理。

----结束

4.7 ALM-0x000000A9 CPU的VDDQAB电压过高(CPU,严重告警)

告警解释

告警描述:

CPU arg1 VDDQ_AB voltage (arg2 V) exceeds the overvoltage threshold (arg3 V) (SN: arg4, BN: arg5).

iBMC V316及以上版本起,主体类型为CPU、Disk的告警分别支持上报各自的序列号和BOM编码,主体类型为Memory的告警分别支持上报BOM编码。

当检测到CPU VDDQ_AB监测点当前电压高于高压门限,产生此告警,当电压恢复到正常范围时,告警恢复。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x000000A9

严重

 

告警参数

参数名称

参数含义

arg1

告警相关的CPU的槽位号。

arg2

对应传感器的当前读数。

arg3

告警门限。

arg4

CPU的序列号。

arg5

BOM编码。

 

对系统的影响

可能导致系统停止响应。

可能原因

CPU板故障。

处理步骤

                                步骤 1     更换服务器CPU板,查看告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

4.8 ALM-0x000000AB CPU的VDDQAB电压过低(CPU,严重告警)

告警解释

告警描述:

CPU arg1 VDDQ_AB voltage (arg2 V) is lower than the undervoltage threshold (arg3 V) (SN: arg4, BN: arg5).

iBMC V316及以上版本起,主体类型为CPU、Disk的告警分别支持上报各自的序列号和BOM编码,主体类型为Memory的告警分别支持上报BOM编码。

当检测到CPU VDDQ_AB监测点当前电压低于低压门限,产生此告警,当电压恢复到正常范围时,告警恢复。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x000000AB

严重

 

告警参数

参数名称

参数含义

arg1

告警相关的CPU的槽位号。

arg2

对应传感器的当前读数。

arg3

告警门限。

arg4

CPU的序列号。

arg5

BOM编码。

 

对系统的影响

可能导致系统停止响应。

可能原因

CPU板故障。

处理步骤

                                步骤 1     更换服务器CPU板,查看告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

4.9 ALM-0x000000AD CPU的VDDQAB电压读取失败(CPU,轻微告警)

告警解释

告警描述:

Failed to obtain data of the CPU arg1 VDDQ_AB voltage (SN: arg2, BN: arg3).

iBMC V316及以上版本起,主体类型为CPU、Disk的告警分别支持上报各自的序列号和BOM编码,主体类型为Memory的告警分别支持上报BOM编码。

当读取CPU VDDQ_AB电压值失败时,产生此告警。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x000000AD

轻微

 

告警参数

参数名称

参数含义

arg1

告警相关的CPU的槽位号。

arg2

CPU的序列号。

arg3

BOM编码。

 

对系统的影响

可能导致系统停止响应。

可能原因

VRD电路异常。

处理步骤

                                步骤 1     重启iBMC,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     拔插电源线缆或拔插单板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     请联系技术支持处理。

----结束

4.10 ALM-0x000000AF CPU的VDDQCD电压过高(CPU,严重告警)

告警解释

告警描述:

CPU arg1 VDDQ_CD voltage (arg2 V) exceeds the overvoltage threshold (arg3 V) (SN: arg4, BN: arg5).

iBMC V316及以上版本起,主体类型为CPU、Disk的告警分别支持上报各自的序列号和BOM编码,主体类型为Memory的告警分别支持上报BOM编码。

当检测到CPU VDDQ_CD监测点当前电压高于高压门限,产生此告警,当电压恢复到正常范围时,告警恢复。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x000000AF

严重

 

告警参数

参数名称

参数含义

arg1

告警相关的CPU的槽位号。

arg2

对应传感器的当前读数。

arg3

告警门限。

arg4

CPU的序列号。

arg5

BOM编码。

 

对系统的影响

可能导致系统停止响应。

可能原因

CPU板故障。

处理步骤

                                步骤 1     更换服务器CPU板,查看告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

4.11 ALM-0x000000B1 CPU的VDDQCD电压过低(CPU,严重告警)

告警解释

告警描述:

CPU arg1 VDDQ_CD voltage (arg2 V) is lower than the undervoltage threshold (arg3 V) (SN: arg4, BN: arg5).

iBMC V316及以上版本起,主体类型为CPU、Disk的告警分别支持上报各自的序列号和BOM编码,主体类型为Memory的告警分别支持上报BOM编码。

当检测到CPU VDDQ_CD监测点当前电压低于低压门限,产生此告警,当电压恢复到正常范围时,告警恢复。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x000000B1

严重

 

告警参数

参数名称

参数含义

arg1

告警相关的CPU的槽位号。

arg2

对应传感器的当前读数。

arg3

告警门限。

arg4

CPU的序列号。

arg5

BOM编码。

 

对系统的影响

可能导致系统停止响应。

可能原因

CPU板故障。

处理步骤

                                步骤 1     更换服务器CPU板,查看告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

4.12 ALM-0x000000B3 CPU的VDDQCD电压读取失败(CPU,轻微告警)

告警解释

告警描述:

Failed to obtain data of the CPU arg1 VDDQ_CD voltage (SN: arg2, BN: arg3).

iBMC V316及以上版本起,主体类型为CPU、Disk的告警分别支持上报各自的序列号和BOM编码,主体类型为Memory的告警分别支持上报BOM编码。

当读取CPU VDDQ_CD电压值失败时,产生此告警。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x000000B3

轻微

 

告警参数

参数名称

参数含义

arg1

告警相关的CPU的槽位号。

arg2

CPU的序列号。

arg3

BOM编码。

 

对系统的影响

可能导致系统停止响应。

可能原因

VRD电路异常。

处理步骤

                                步骤 1     重启iBMC,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     拔插电源线缆或拔插单板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     请联系技术支持处理。

----结束

4.13 ALM-0x03000007 电源冗余失效(PSU,严重告警)

告警解释

告警描述:

Lost power supply redundancy.

此告警不支持上报其序列号或BOM编码。

当检测到在位电源模块数量小于设备第一次通电时在位电源模块数量时,产生此告警。

产生此告警的主体类型为:PSU

告警属性

告警ID

告警级别

可自动清除

0x03000007

严重

 

告警参数

参数名称

参数含义

对系统的影响

电源冗余失效,降低设备供电可靠性。

可能原因

l     服务器运行过程中电源模块被拔出。

l     服务器运行过程中电源模块松动。

l     电源模块故障。

处理步骤

                                步骤 1     检查是否有电源模块不在位。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     安装电源模块,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     重新拔插电源模块,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     更换电源模块,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     请联系技术支持处理。

----结束

4.14 ALM-0x03000009 电源故障(PSU,严重告警)

告警解释

告警描述:

PSU arg1 failure (SN: arg2, BN: arg3).

iBMC V328及以上版本,主体类型为RAID Card、PSU的告警分别支持上报各自的序列号和BOM编码,主体类型为Fan的告警支持上报BOM编码。

当检测到服务器电源模块输出电压不在正常范围内时,产生此告警。

产生此告警的主体类型为:PSU

告警属性

告警ID

告警级别

可自动清除

0x03000009

严重

 

告警参数

参数名称

参数含义

arg1

告警相关的电源模块的编号。

arg2

电源的序列号。

arg3

BOM编码。

对系统的影响

影响系统供电,可能导致系统异常下电。

可能原因

电源模块故障。

处理步骤

                                步骤 1     更换电源模块,查看告警是否清除。

更换电源模块的具体操作,请参考相关产品的用户指南。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

4.15 ALM-0x0300000D 电源输入丢失(PSU,紧急告警)

告警解释

告警描述:

The AC/DC input of PSU arg1 is lost or out-of-range (SN: arg2, BN: arg3).

iBMC V328及以上版本,主体类型为RAID Card、PSU的告警分别支持上报各自的序列号和BOM编码,主体类型为Fan的告警支持上报BOM编码。

当检测到电源模块在位,但供电中断时,上报此告警。

产生此告警的主体类型为:PSU

告警属性

告警ID

告警级别

可自动清除

0x0300000D

紧急

 

告警参数

参数名称

参数含义

arg1

告警相关的电源模块的编号。

arg2

电源的序列号。

arg3

BOM编码。

对系统的影响

可能导致服务器异常下电。

可能原因

l     电源线未连接或松动。

l     电源模块故障。

处理步骤

                                步骤 1     重新拔插电源线缆,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     更换电源线缆,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     更换电源模块,查看告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     请联系技术支持处理。

----结束

4.16 ALM-0x0300000F 电源风扇故障(PSU,严重告警)

告警解释

告警描述:

The fan of PSU arg1 is faulty (SN: arg2, BN: arg3).

iBMC V328及以上版本,主体类型为RAID Card、PSU的告警分别支持上报各自的序列号和BOM编码,主体类型为Fan的告警支持上报BOM编码。

当检测到电源模块的风扇故障时,产生此告警。

产生此告警的主体类型为:PSU

告警属性

告警ID

告警级别

可自动清除

0x0300000F

严重

 

告警参数

参数名称

参数含义

arg1

告警相关的电源模块的编号。

arg2

电源的序列号。

arg3

BOM编码。

对系统的影响

影响电源模块散热,可能导致电源模块故障,进而影响系统供电,导致系统异常下电。

可能原因

电源模块故障。

处理步骤

                                步骤 1     更换电源模块,查看告警是否清除。

更换电源模块的具体操作,请参考相关产品的用户指南。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

4.17 ALM-0x03000013 电源通讯异常(PSU,轻微告警)

告警解释

告警描述:

iBMC cannot communicate with PSU arg1 (SN: arg2, BN: arg3).

iBMC V328及以上版本,主体类型为RAID Card、PSU的告警分别支持上报各自的序列号和BOM编码,主体类型为Fan的告警支持上报BOM编码。

当iBMC与PSU通讯中断时,产生此告警。

产生此告警的主体类型为:PSU

告警属性

告警ID

告警级别

可自动清除

0x03000013

轻微

 

告警参数

参数名称

参数含义

arg1

告警相关的电源模块的编号。

arg2

电源的序列号。

arg3

BOM编码。

对系统的影响

无法对该电源管理。

可能原因

电源模块异常或通信链路异常。

处理步骤

                                步骤 1     如果电源背板与扩展板之间有线缆,检查线缆是否未插或松动。

l     是 => 步骤2

l     否 => 步骤5

                                步骤 2     重新连接线缆,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 3     重新插拔电源模块,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     更换电源模块,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     请联系技术支持处理。

----结束

4.18 ALM-0x03000015 电源输出过压(PSU,严重告警)

告警解释

告警描述:

Output overvoltage detected on PSU arg1 (SN: arg2, BN: arg3).

iBMC V328及以上版本,主体类型为RAID Card、PSU的告警分别支持上报各自的序列号和BOM编码,主体类型为Fan的告警支持上报BOM编码。

当电源模块输出过压时,产生此告警。

产生此告警的主体类型为:PSU

告警属性

告警ID

告警级别

可自动清除

0x03000015

严重

 

告警参数

参数名称

参数含义

arg1

告警相关的电源模块的编号。

arg2

电源的序列号。

arg3

BOM编码。

对系统的影响

影响系统供电,可能导致服务器异常下电。

可能原因

电源模块故障。

处理步骤

                                步骤 1     更换产生告警的电源模块,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

4.19 ALM-0x03000017 电源输出欠压或者无输出(PSU,严重告警)

告警解释

告警描述:

Output undervoltage or no output detected on PSU arg1 (SN: arg2, BN: arg3).

iBMC V328及以上版本,主体类型为RAID Card、PSU的告警分别支持上报各自的序列号和BOM编码,主体类型为Fan的告警支持上报BOM编码。

电源模块输出欠压或者无输出时,产生此告警。

产生此告警的主体类型为:PSU

告警属性

告警ID

告警级别

可自动清除

0x03000017

严重

 

告警参数

参数名称

参数含义

arg1

告警相关的电源模块的编号。

arg2

电源的序列号。

arg3

BOM编码。

对系统的影响

影响系统供电,可能导致服务器异常下电。

可能原因

电源模块故障。

处理步骤

                                步骤 1     更换产生告警的电源模块,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

4.20 ALM-0x03000019 电源输出过流(PSU,严重告警)

告警解释

告警描述:

Output overcurrent detected on PSU arg1 (SN: arg2, BN: arg3).

iBMC V328及以上版本,主体类型为RAID Card、PSU的告警分别支持上报各自的序列号和BOM编码,主体类型为Fan的告警支持上报BOM编码。

电源模块输出过流时,产生此告警。

产生此告警的主体类型为:PSU

告警属性

告警ID

告警级别

可自动清除

0x03000019

严重

 

告警参数

参数名称

参数含义

arg1

告警相关的电源模块的编号。

arg2

电源的序列号。

arg3

BOM编码。

对系统的影响

影响系统供电,可能导致服务器异常下电。

可能原因

l     电源输出侧短路。

l     电源背板短路。

处理步骤

                                步骤 1     更换电源模块,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     更换电源背板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     请联系技术支持处理。

----结束

4.21 ALM-0x0300001B 电源输入过压(PSU,严重告警)

告警解释

告警描述:

Input overvoltage detected on PSU arg1 (SN: arg2, BN: arg3).

iBMC V328及以上版本,主体类型为RAID Card、PSU的告警分别支持上报各自的序列号和BOM编码,主体类型为Fan的告警支持上报BOM编码。

当电源输入过压时,产生此告警。

产生此告警的主体类型为:PSU

告警属性

告警ID

告警级别

可自动清除

0x0300001B

严重

 

告警参数

参数名称

参数含义

arg1

告警相关的电源模块的编号。

arg2

电源的序列号。

arg3

BOM编码。

对系统的影响

影响系统供电,可能导致服务器异常下电。

可能原因

外部供电异常。

处理步骤

                                步骤 1     检查设备输入电压,保证输入电压在设备允许范围内。

                                步骤 2     重新连接电源,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     请联系技术支持处理。

----结束

4.22 ALM-0x0300001F 整机掉电(PSU,严重告警)

告警解释

告警描述:

Server power failure occurred at arg1. The power has been already restored.

此告警不支持上报其序列号或BOM编码。

整机异常下电,供电恢复正常后,上报该告警。

产生此告警的主体类型为:PSU

告警属性

告警ID

告警级别

可自动清除

0x0300001F

严重

 

告警参数

参数名称

参数含义

arg1

整机异常下电时间,格式为“YYYY-MM-DD HH:MM:SS ”。

对系统的影响

整机掉电,业务中断。

可能原因

外部供电失效。

处理步骤

                                步骤 1     检测机房的供电,重新连接电源,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

4.23 ALM-0x03000037 电源模块电压异常(PSU,紧急告警)

告警解释

告警描述:

The input voltage of the PSU is abnormal, and the voltage of the standby PSU in N+R mode is not arg1 higher than that of the active PSU.

当iBMC检测到电源输入电压异常,N+R模式备用电源电压未高于主用电源电压时,产生此告警。

产生此告警的主体类型为:PSU

告警属性

告警ID

告警级别

可自动清除

0x03000037

紧急

 

告警参数

参数名称

参数含义

arg1

告警门限。

 

对系统的影响

影响系统供电,可能导致服务器掉电。

可能原因

l     电源输入故障。

l     电源线缆插错。

处理步骤

                                步骤 1     检查服务器是否同时存在其他电源相关告警。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     按照告警处理建议清除其他电源告警后,检查本告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     检查电源线缆是否插错。

l     是 => 步骤4

l     否 => 步骤5

                                步骤 4     更换电源线缆,待服务器上电后,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     请联系技术支持处理。

----结束

4.24 ALM-0x05000001 硬盘背板电源异常(Disk Backplane,严重告警)

告警解释

告警描述:

Power supply to [arg1] disk backplane [arg2] failed (SN: arg3, BN: arg4).

iBMC V370及以上版本,此告警支持上报硬盘背板的序列号和BOM编码。

硬盘背板电源异常时,产生此告警。

产生此告警的主体类型为:Disk Backplane

告警属性

告警ID

告警级别

可自动清除

0x05000001

严重

 

告警参数

参数名称

参数含义

arg1

告警相关硬盘背板的位置,例如“rear”、“inner”和“front”。

arg2

告警相关的电源类型,例如“5V”、“12V”等。

arg3

硬盘背板的序列号。

arg4

BOM编码。

对系统的影响

硬盘背板电源异常会影响背板的正常使用,可能导致相关业务无法正常运行或数据丢失。

可能原因

l     硬盘背板电源线接触不良。

l     硬盘背板故障。

处理步骤

                                步骤 1     整机下电后,重新拔插硬盘背板上的线缆,待服务器重新上电后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     整机下电后,更换硬盘背板上的线缆,待服务器重新上电后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     整机下电后,更换硬盘背板,待服务器重新上电后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     请联系技术支持处理。

----结束

4.25 ALM-0x08000011 PCIe标卡电池电压过低(PCIe Card,轻微告警)

告警解释

告警描述:

The [arg1] PCIe card arg2 (arg3) voltage (arg4 V) at 3 V detection point is lower than the undervoltage threshold (arg5 V).

PCIe标卡的3V电池电压监测点当前电压低于低压门限时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x08000011

轻微

 

告警参数

参数名称

参数含义

arg1

PCIe卡的位置,例如“front”、“rear”等。

arg2

PCIe卡的槽位号,例如“1”、“2”。

arg3

PCIe卡的类型,例如“M60 GPU”。

arg4

对应传感器的当前读数。

arg5

告警门限。

对系统的影响

可能影响PCIe卡时钟。

可能原因

PCIe标卡电池电压过低或故障。

处理步骤

                                步骤 1     更换PCIe卡电池,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     更换PCIe卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     请联系技术支持处理。

----结束

4.26 ALM-0x08000013 PCIe标卡电压过低(PCIe Card,严重告警)

告警解释

告警描述:

The [arg1] PCIe card arg2 (arg3) voltage (arg4 V) at arg5 detection point is lower than the undervoltage threshold (arg6 V).

PCIe卡电压监测点当前电压低于低压门限时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x08000013

严重

 

告警参数

参数名称

参数含义

arg1

PCIe卡的位置,例如“front”、“rear”等。

arg2

PCIe卡的槽位号,例如“1”、“2”。

arg3

PCIe卡的类型,例如“M60 GPU”。

arg4

对应传感器的当前读数。

arg5

告警相关的电压监控点名称,例如“VCC 5V0”、“NBS 1V8”等。

arg6

告警门限。

对系统的影响

可能导致PCIe卡运行不稳定,系统运行异常。

可能原因

l     PCIe标卡故障。

l     PCIe标卡插槽故障。

处理步骤

                                步骤 1     通过重新拔插PCIe卡检查是否上电正常,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     更换PCIe卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     更换PCIe卡插槽所在的部件,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     请联系技术支持处理。

----结束

4.27 ALM-0x08000015 PCIe标卡电压过高(PCIe Card,严重告警)

告警解释

告警描述:

The [arg1] PCIe card arg2 (arg3) voltage (arg4 V) at arg5 detection point exceeds the overvoltage threshold (arg6 V).

PCIe卡电压监测点当前电压高于高压门限时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x08000015

严重

 

告警参数

参数名称

参数含义

arg1

PCIe卡的位置,例如“front”、“rear”等。

arg2

PCIe卡的槽位号,例如“1”、“2”。

arg3

PCIe卡的类型,例如“M60 GPU”。

arg4

对应传感器的当前读数。

arg5

告警相关的电压监控点名称,例如“VCC 5V0”、“NBS 1V8”等。

arg6

告警门限。

对系统的影响

可能导致PCIe卡运行不稳定,系统运行异常。

可能原因

l     PCIe标卡故障。

l     PCIe标卡插槽故障。

处理步骤

                                步骤 1     通过重新拔插PCIe卡检查是否上电正常,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     更换PCIe卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     更换PCIe卡插槽所在的部件,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     请联系技术支持处理。

----结束

4.28 ALM-0x08000017 PCIe标卡电压读取失败(PCIe Card,轻微告警)

告警解释

告警描述为:

Failed to obtain voltage of the arg4 detection point on the arg1 PCIe card arg2 (arg3). [arg5] [arg6]

PCIe卡电压读取失败时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x08000017

轻微

 

告警参数

参数名称

参数含义

arg1

PCIe卡的位置,例如“front”、“rear”等。

arg2

PCIe卡的槽位号,例如“1”、“2”。

arg3

PCIe卡的类型,例如“M60 GPU”。

arg4

电压监测点名称。

例如:

l     “3V3”、“0V95”

l     “VCC 5V0”

l     “NBS 1V8”、“NBS 0V9”、“AVS 0V9”

l     “DIMMA 0V6”、“DIMMB 0V6”

l     “FPGA 1V8”、“FPGA 1V2”、“FPGA 1V”

l     “DDR 1V2”、“DDR 2V5”

arg5

告警相关的附加描述,例如“Error Code”。

说明

iBMC V308及以上版本支持此参数。

arg6

告警相关的故障码,例如“(7176)”。

说明

iBMC V308及以上版本支持此参数。

对系统的影响

无法正常监控电压,电压异常时无法及时告警,可能会导致硬件自我保护功能失效。

可能原因

I2C通道异常或PCIe卡故障。

处理步骤

                                步骤 1     重启iBMC,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     拔插电源线缆或拔插单板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     更换PCIe卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     请联系技术支持处理。

----结束

4.29 ALM-0x08000039 PCIe标卡BBU电压低(PCIe Card,严重告警)

告警解释

告警描述:

The [arg1] PCIe card arg2 (arg3) BBU voltage is low.

当检测到PCIe标卡电池/超级电容电压低时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x08000039

严重

 

告警参数

参数名称

参数含义

arg1

PCIe卡的位置,例如“front”、“rear”等。

arg2

PCIe卡的槽位号,例如“1”、“2”。

arg3

PCIe卡的类型,例如“M60 GPU”。

对系统的影响

电池或超级电容电压出现异常,会影响数据的掉电保护功能,从而导致系统性能降低。

可能原因

PCIe标卡的电池或超级电容故障。

处理步骤

                                步骤 1     更换PCIe标卡的电池/超级电容,查看告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

4.30 ALM-0x0800003B PCIe标卡BBU故障(PCIe Card,严重告警)

告警解释

告警描述:

The [arg1] PCIe card arg2 (arg3) BBU is fault.

当PCIe标卡的BBU(iBBU或超级电容)出现内部错误时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x0800003B

严重

 

告警参数

参数名称

参数含义

arg1

PCIe卡的位置,例如“front”、“rear”等。

arg2

PCIe卡的槽位号,例如“1”、“2”。

arg3

PCIe卡的类型,例如“M60 GPU”。

对系统的影响

电池或超级电容电压出现异常,会影响数据的掉电保护功能,从而导致系统性能降低。

可能原因

PCIe标卡的电池或超级电容故障。

处理步骤

                                步骤 1     更换PCIe标卡的电池/超级电容,查看告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

4.31 ALM-0x0F000011 Riser卡电源故障(PCIe Riser,严重告警)

告警解释

告警描述:

PCIe riser card arg1 power failure (SN: arg2, BN: arg3).

iBMC V370及以上版本,此告警支持上报PCIe卡的序列号和BOM编码。

PCIe Riser卡的电源故障时,产生此告警。

产生此告警的主体类型为:PCIe Riser

告警属性

告警ID

告警级别

可自动清除

0x0F000011

严重

 

告警参数

参数名称

参数含义

arg1

PCIe Riser卡槽位号。例如“1”、“2”。

arg2

PCIe卡的序列号。

arg3

BOM编码。

对系统的影响

可能导致Riser卡上的PCIe设备运行不稳定,系统运行异常。

可能原因

PCIe Riser卡故障。

处理步骤

                                步骤 1     更换PCIe Riser卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

4.32 ALM-0x2400000D CPU板电压过低(CPU Board,严重告警)

告警解释

告警描述:

CPU board voltage (arg1 V) at arg2 detection point [arg3] is lower than the undervoltage threshold (arg4 V).

当CPU板电压低于低压门限电压时,产生此告警。

产生此告警的主体类型为:CPU Board

告警属性

告警ID

告警级别

可自动清除

0x2400000D

严重

 

告警参数

参数名称

参数含义

arg1

监测点的当前电压。

arg2

电压类型,例如“3.3V”、“5V”、“12V”。

arg3

监测点电压名称,例如“BCU_12V0_1”“BCU_VCC_3V3”等。

arg4

告警门限。

 

对系统的影响

可能导致系统停止响应。

可能原因

CPU板故障。

处理步骤

                                步骤 1     更换CPU板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

4.33 ALM-0x2400000F CPU板电压过高(CPU Board,严重告警)

告警解释

告警描述:

CPU board voltage (arg1 V) at arg2 detection point [arg3] exceeds the overvoltage threshold (arg4 V).

当CPU板电压高于高压门限电压时,产生此告警。

产生此告警的主体类型为:CPU Board

告警属性

告警ID

告警级别

可自动清除

0x2400000F

严重

 

告警参数

参数名称

参数含义

arg1

监测点的当前电压。

arg2

电压类型,例如“3.3V”、“5V”、“12V”。

arg3

监测点电压名称,例如“BCU_12V0_1”“BCU_VCC_3V3”等。

arg4

告警门限。

 

对系统的影响

可能导致系统停止响应。

可能原因

CPU板故障。

处理步骤

                                步骤 1     更换CPU板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

4.34 ALM-0x24000011 CPU板电压读取失败(CPU Board,轻微告警)

告警解释

告警描述:

Failed to obtain the voltage at arg1 detection point arg2 on the CPU board.

当CPU板电压读取失败时,产生此告警。

产生此告警的主体类型为:CPU Board

告警属性

告警ID

告警级别

可自动清除

0x24000011

轻微

 

告警参数

参数名称

参数含义

arg1

电压类型,例如“3.3V”、“5V”、“12V”。

arg2

监测点电压名称,例如“BCU_12V0_1”“BCU_VCC_3V3”等。

 

对系统的影响

可能导致系统停止响应。

可能原因

ADC电路异常。

处理步骤

                                步骤 1     重启iBMC,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     拔插电线缆,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     更换CPU板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     请联系技术支持处理。

----结束

4.35 ALM-0x24000019 CPU板电源异常(CPU Board,严重告警)

告警解释

告警描述:

The power supply arg1 on the CPU board is abnormal.

当检测到CPU板电源异常时,产生此告警。

产生此告警的主体类型为:CPU Board

告警属性

告警ID

告警级别

可自动清除

0x24000019

严重

 

告警参数

参数名称

参数含义

arg1

电压类型,例如“FAULT_VDDAVS_CPU1”、“FAULT_VDDAVS_CPU2”、“FAULT_VDDQ_AB_CPU1”、“FAULT_VDDQ_CD_CPU1”、“FAULT_VDDQ_AB_CPU2”、“FAULT_VDDQ_CD_CPU2”、“FAULT_VDDFIX_CPU1”、“FAULT_VDDFIX_CPU1”。

 

对系统的影响

影响系统供电,可能导致系统异常下电。

可能原因

CPU板故障。

处理步骤

                                步骤 1     更换CPU板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

4.36 ALM-0x2900000F 网卡光模块电压异常(Port,严重告警)

告警解释

告警描述:

Abnormal voltage (arg4V) was detected on [arg2] arg3 on arg1.

网卡光模块的当前电压异常时,产生此告警。

产生此告警的主体类型为:Port

告警属性

告警ID

告警级别

可自动清除

0x2900000F

严重

 

告警参数

参数名称

参数含义

arg1

告警相关网卡的名称,例如“NIC 1”、“PCIe Card 5”、“LOM”。

arg2

告警相关网卡的类型,例如“(NIC)”、“(FC)”。

arg3

网口号,例如“port 1”。

arg4

对应传感器的当前读数。

对系统的影响

可能导致网卡运行不稳定,业务网络异常。

可能原因

光模块异常。

处理步骤

                                步骤 1     更换产生告警的光模块,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

4.37 ALM-0x2C000007 系统异常下电(System,严重告警)

告警解释

告警描述:

The [arg1] power arg2 failure results abnormal power-off.

当电源故障导致系统异常下电时,产生此告警。

产生此告警的主体类型为:System

告警属性

告警ID

告警级别

可自动清除

0x2C000007

严重

 

告警参数

参数名称

参数含义

arg1

告警相关的电源编号,例如“LPM1”。

arg2

告警相关的电源子类名称,例如“STBY_5V0”等。

对系统的影响

导致系统异常下电。

可能原因

l     组件有电压跌落或组件故障。

l     外部供电异常。

l     电源异常。

处理步骤

                                步骤 1     检查外部供电是否满足服务器整机功耗要求。

l     是 => 步骤3

l     否 => 步骤2

                                步骤 2     调整机房环境,使外部供电满足服务器整机功耗要求,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     确认告警发生时所有电源的输入线缆是否松动。

l     是 => 步骤4

l     否 => 步骤5

                                步骤 4     重新插拔电源输入线缆,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     重新拔插电源线缆,或在机框内重新拔插服务器单板,使服务器彻底下电再上电,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤6

                                步骤 6     更换电源模块,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤7

                                步骤 7     更换可表4-1能涉及的部件,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤8

                                步骤 8     请联系技术支持处理。

----结束

参考信息

表4-1 参考信息

告警描述

可能涉及的部件

The power BCU_V_VCC_12V0_1 failure results abnormal power-off.

CPU板

The power EXU_V_VCC_12V0_1 failure results abnormal power-off.

扩展板

The power BCU_V_VCC_12V0_2 failure results abnormal power-off.

CPU板

The power EXU_V_VCC_12V0_2 failure results abnormal power-off.

扩展板

The power BCU_V_VCC_12V0_3 failure results abnormal power-off.

CPU板

The power EXU_V_VCC_12V0_3 failure results abnormal power-off.

扩展板

The power BCU_V_VCC_5V0 failure results abnormal power-off.

CPU板

The power EXU_V_VCC_5V0 failure results abnormal power-off.

扩展板

The power BCU_V_VCC_3V3 failure results abnormal power-off.

CPU板

The power EXU_V_VCC_3V3 failure results abnormal power-off.

扩展板

The power BCU_V_5V0_RESV failure results abnormal power-off.

l     CPU板

l     扩展板

The power BCU_V_3V3_RESV failure results abnormal power-off.

l     CPU板

l     扩展板

The power V_0V9_VDDAVS_CPU1 failure results abnormal power-off.

CPU板

The power V_0V9_VDDAVS_CPU2 failure results abnormal power-off.

CPU板

The power V_0V9_N_VDDAVS_CPU1 failure results abnormal power-off.

CPU板

The power V_0V9_N_VDDAVS_CPU2 failure results abnormal power-off.

CPU板

The power V_1V2_VDDQ_CPU1_AB failure results abnormal power-off.

CPU板

The power V_1V2_VDDQ_CPU1_CD failure results abnormal power-off.

CPU板

The power V_1V2_VDDQ_CPU2_AB failure results abnormal power-off.

CPU板

The power V_1V2_VDDQ_CPU2_CD failure results abnormal power-off.

CPU板

The power V_1V8_DVDD18 failure results abnormal power-off.

CPU板

The power V_2V5_VPP_CPU1_AB failure results abnormal power-off.

CPU板

The power V_2V5_VPP_CPU2_AB failure results abnormal power-off.

CPU板

The power V_0V8_VDD_FIX_CPU1 failure results abnormal power-off.

CPU板

The power V_0V8_VDD_FIX_CPU2 failure results abnormal power-off.

CPU板

The power V_1V2_HVCC_CPU1 failure results abnormal power-off.

CPU板

The power V_1V2_HVCC_CPU2 failure results abnormal power-off.

CPU板

The power V_0V6_VTT_CPU1_0 failure results abnormal power-off.

CPU板

The power V_0V6_VTT_CPU2_0 failure results abnormal power-off.

CPU板

The power V_0V8_DDR_VDD_CPU1 failure results abnormal power-off.

CPU板

The power V_0V8_DDR_VDD_CPU2 failure results abnormal power-off.

CPU板

The power V_2V5_VPP_CPU1_CD failure results abnormal power-off.

CPU板

The power V_2V5_VPP_CPU2_CD failure results abnormal power-off.

CPU板

The power V_0V6_VTT_CPU1_1 failure results abnormal power-off.

CPU板

The power V_0V6_VTT_CPU2_1 failure results abnormal power-off.

CPU板

The power V_0V6_VTT_CPU1_2 failure results abnormal power-off.

CPU板

The power V_0V6_VTT_CPU2_2 failure results abnormal power-off.

CPU板

The power V_0V6_VTT_CPU1_3 failure results abnormal power-off.

CPU板

The power V_0V6_VTT_CPU2_3 failure results abnormal power-off.

CPU板

The power BP_12V0 failure results abnormal power-off.

硬盘背板

The power BP_5V0_1 failure results abnormal power-off.

硬盘背板

The power BP_5V0_2 failure results abnormal power-off.

硬盘背板

The power BP_5V0_3 failure results abnormal power-off.

硬盘背板

The power BP_5V0_4 failure results abnormal power-off.

硬盘背板

The power EXU_V_12V_FLEXIO1 failure results abnormal power-off.

扩展板

The power EXU_V_12V_FLEXIO2 failure results abnormal power-off.

扩展板

The power FLEXIO1_POWER failure results abnormal power-off.

扩展板

The power FLEXIO2_POWER failure results abnormal power-off.

扩展板

The power EXU_V_12V_M.2 failure results abnormal power-off.

扩展板

 

4.38 ALM-0x2C00002B 上电超时(System,严重告警)

告警解释

告警描述:

The [arg1] power [arg2] failure results host power-on timed out.

电源故障导致系统上电超时,产生此告警。

产生此告警的主体类型为:System

告警属性

告警ID

告警级别

可自动清除

0x2C00002B

严重

 

告警参数

参数名称

参数含义

arg1

告警相关的电源编号,例如“LPM1”。

arg2

告警相关的电源子类名称,例如“STBY_5V0”等。

对系统的影响

导致系统无法正常启动。

可能原因

l     外部供电不满足服务器整机的功耗要求。

l     组件故障。

处理步骤

                                步骤 1     检查外部供电是否满足服务器整机功耗要求。

l     是 => 步骤3

l     否 => 步骤2

                                步骤 2     调整机房环境,使外部供电满足服务器整机功耗要求,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     通过拔插电源线缆或拔插单板,将服务器彻底下电再上电,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     根据表4-2更换可能涉及的部件,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     请联系技术支持处理。

----结束

参考信息

表4-2 参考信息

告警描述

可能涉及的部件

The power BCU_V_VCC_12V0_1 failure results host power-on timed out.

CPU板

The power EXU_V_VCC_12V0_1 failure results host power-on timed out.

扩展板

The power BCU_V_VCC_12V0_2 failure results host power-on timed out.

CPU板

The power EXU_V_VCC_12V0_2 failure results host power-on timed out.

扩展板

The power BCU_V_VCC_12V0_3 failure results host power-on timed out.

CPU板

The power EXU_V_VCC_12V0_3 failure results host power-on timed out.

扩展板

The power BCU_V_VCC_5V0 failure results host power-on timed out.

CPU板

The power EXU_V_VCC_5V0 failure results host power-on timed out.

扩展板

The power BCU_V_VCC_3V3 failure results host power-on timed out.

CPU板

The power EXU_V_VCC_3V3 failure results host power-on timed out.

扩展板

The power BCU_V_5V0_RESV failure results host power-on timed out.

CPU板

The power BCU_V_3V3_RESV failure results host power-on timed out.

CPU板

The power V_0V9_VDDAVS_CPU1 failure results host power-on timed out.

CPU板

The power V_0V9_VDDAVS_CPU2 failure results host power-on timed out.

CPU板

The power V_0V9_N_VDDAVS_CPU1 failure results host power-on timed out.

CPU板

The power V_0V9_N_VDDAVS_CPU2 failure results host power-on timed out.

CPU板

The power V_1V2_VDDQ_CPU1_AB failure results host power-on timed out.

CPU板

The powerV_1V2_VDDQ_CPU1_CD failure results host power-on timed out.

CPU板

The power V_1V2_VDDQ_CPU2_AB failure results host power-on timed out.

CPU板

The power V_1V2_VDDQ_CPU2_CD failure results host power-on timed out.

CPU板

The power V_1V8_DVDD18 failure results host power-on timed out.

CPU板

The power V_2V5_VPP_CPU1_AB failure results host power-on timed out.

CPU板

The power V_2V5_VPP_CPU2_AB failure results host power-on timed out.

CPU板

The power V_0V8_VDD_FIX_CPU1 failure results host power-on timed out.

CPU板

The power V_0V8_VDD_FIX_CPU2 failure results host power-on timed out.

CPU板

The power V_1V2_HVCC_CPU1 failure results host power-on timed out.

CPU板

The power V_1V2_HVCC_CPU2 failure results host power-on timed out.

CPU板

The power V_0V6_VTT_CPU1_0 failure results host power-on timed out.

CPU板

The power V_0V6_VTT_CPU2_0 failure results host power-on timed out.

CPU板

The power V_0V8_DDR_VDD_CPU1 failure results host power-on timed out.

CPU板

The power V_0V8_DDR_VDD_CPU2 failure results host power-on timed out.

CPU板

The power BP_12V0 failure results host power-on timed out.

硬盘背板

The power BP_5V0_1 failure results host power-on timed out.

硬盘背板

The power BP_5V0_2 failure results host power-on timed out.

硬盘背板

The power BP_5V0_3 failure results host power-on timed out.

硬盘背板

The power BP_5V0_4 failure results host power-on timed out.

硬盘背板

The power EXU_V_STBY_5V0 failure results host power-on timed out.

扩展板

The power EXU_V_12V_FLEXIO1 failure results host power-on timed out.

扩展板

The power EXU_V_12V_FLEXIO2 failure results host power-on timed out.

扩展板

The power EXU_V_3V3_FLEXIO1 failure results host power-on timed out.

扩展板

The power EXU_V_3V3_FLEXIO2 failure results host power-on timed out.

扩展板

The power FLEXIO1_POWER failure results host power-on timed out.

扩展板

The power FLEXIO2_POWER failure results host power-on timed out.

扩展板

The power EXU_V_12V_M.2 failure results host power-on timed out.

扩展板

The power EXU_V_12V_STBY_NCSI_CARD failure results host power-on timed out.

扩展板

The power EXU_V_3V3_STBY_BCU failure results host power-on timed out.

扩展板

The power BCU_V_STBY_3V3_RISER failure results host power-on timed out.

CPU板

The power BCU_V_STBY_1V8 failure results host power-on timed out.

CPU板

The power EXU_V_5V_TYPEC failure results host power-on timed out.

扩展板

The power EXU_V_3V3_STBY_RCI failure results host power-on timed out.

扩展板

The power EXU_V_3V3_STBY_LCI failure results host power-on timed out.

扩展板

The power V_2V5_VPP_CPU1_CD failure results host power-on timed out.

CPU板

The powerV_2V5_VPP_CPU2_CD failure results host power-on timed out.

CPU板

The power V_0V6_VTT_CPU1_1 failure results host power-on timed out.

CPU板

The power V_0V6_VTT_CPU2_1 failure results host power-on timed out.

CPU板

The power V_0V6_VTT_CPU1_2 failure results host power-on timed out.

CPU板

The power V_0V6_VTT_CPU2_1 failure results host power-on timed out.

CPU板

The power V_0V6_VTT_CPU1_3 failure results host power-on timed out.

CPU板

The power V_0V6_VTT_CPU2_1 failure results host power-on timed out.

CPU板

 

4.39 ALM-0x2C000089 BIOS启动失败(System,正常告警)

告警解释

告警描述:

The BIOS fails to start.

当检测到BIOS启动失败时,产生此告警。

产生此告警的主体类型为:System

告警属性

告警ID

告警级别

可自动清除

0x2C000089

正常

 

告警参数

参数名称

参数含义

-

-

 

对系统的影响

导致系统无法正常启动。

可能原因

l     BIOS Flash中文件损坏。

l     BIOS芯片异常。

l     外设故障。

处理步骤

                                步骤 1     重新升级BIOS,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

4.40 ALM-0x5D000001 扩展板电压过低 (Expand Board,严重告警)

告警解释

告警描述:

Expansion board voltage (arg1 V) at arg2 detection point [arg3] is lower than the undervoltage threshold (arg4 V).

当扩展板监测点当前电压低于低压门限电压时,产生此告警。

产生此告警的主体类型为:Expand Board

告警属性

告警ID

告警级别

可自动清除

0x5D000001

严重

 

告警参数

参数名称

参数含义

arg1

监测点的当前电压。

arg2

电压类型,例如“3.3V”、“5V”、“12V”。

arg3

监测点电压名称,例如“EXU_12V0_1”“EXU_VCC_5V0”。

arg4

告警门限。

 

对系统的影响

可能导致系统停止响应。

可能原因

扩展板故障。

处理步骤

                                步骤 1     更换扩展板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

4.41 ALM-0x5D000003 扩展板电压过高 (Expand Board,严重告警)

告警解释

告警描述:

Expansion board voltage (arg1 V) at arg2 detection point [arg3] exceeds the overvoltage threshold(arg4 V).

当扩展板监测点当前电压高于高压门限电压时,产生此告警。

产生此告警的主体类型为:Expand Board

告警属性

告警ID

告警级别

可自动清除

0x5D000003

严重

 

告警参数

参数名称

参数含义

arg1

监测点的当前电压。

arg2

电压类型,例如“3.3V”、“5V”、“12V”。

arg3

监测点电压名称,例如“EXU_12V0_1”“EXU_VCC_5V0”。

arg4

告警门限。

 

对系统的影响

可能导致系统停止响应。

可能原因

扩展板故障。

处理步骤

                                步骤 1     更换扩展板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

4.42 ALM-0x5D000005 扩展板电压读取失败(Expand Board,轻微告警)

告警解释

告警描述:

Failed to obtain the voltage at arg1 detection point arg2 on the expansion board.

当扩展板监测点电压读取失败时,产生此告警。

产生此告警的主体类型为:Expand Board

告警属性

告警ID

告警级别

可自动清除

0x5D000005

轻微

 

告警参数

参数名称

参数含义

arg1

电压类型,例如“3.3V”、“5V”、“12V”。

arg2

监测点电压名称,例如“EXU_12V0_1”“EXU_VCC_5V0”。

 

对系统的影响

可能导致系统停止响应。

可能原因

ADC电路异常。

处理步骤

                                步骤 1     重启iBMC,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     拔插电源线缆,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     更换扩展板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     请联系技术支持处理。

----结束

4.43 ALM-0x5D00000B 扩展板缓起电路电压过低(Expand Board,严重告警)

告警解释

告警描述:

Expansion board Soft-start circuit voltage at arg1 detection point is undervoltage.

当扩展板缓起电路电压监控点电压过低时,产生此告警。

产生此告警的主体类型为:Expand Board

告警属性

告警ID

告警级别

可自动清除

0x5D00000B

严重

 

告警参数

参数名称

参数含义

arg1

监测点电压名称,例如“EXU_12V0_1”、“EXU_12V0_2”、“EXU_12V0_3”。

 

对系统的影响

可能导致系统下电。

可能原因

扩展板故障。

处理步骤

                                步骤 1     更换扩展板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束


5 看门狗告警

介绍服务器可能产生的看门狗告警。

5.1  ALM-0x2C000025 看门狗超时导致系统强制重启(System,严重告警)

5.2  ALM-0x2C000027 看门狗超时导致系统下电(System,严重告警)

5.3  ALM-0x2C000029 看门狗超时导致系统强制下电再上电(System,严重告警)

5.1 ALM-0x2C000025 看门狗超时导致系统强制重启(System,严重告警)

告警解释

告警描述:

The OS is forcibly reset due to the watchdog (arg1) timeout.

通过业务软件启动看门狗,在系统某阶段(timer user字段标示:BIOS POST,OS Load或SMS/OS阶段,告警中此字段依具体情况而定),看门狗超时溢出时,如果超时动作设为“hard reset”时,则产生此告警。

产生此告警的前提是业务软件启动看门狗。

产生此告警的主体类型为:System

告警属性

告警ID

告警级别

可自动清除

0x2C000025

严重

 

告警参数

参数名称

参数含义

arg1

系统启动的阶段,例如“BIOS FRB 2”、“BIOS/POST”、“OS Load”、“SMS/OS”、“OEM”。

对系统的影响

操作系统重启,可能导致服务器业务中断。

可能原因

l     告警产生在BIOS/POST阶段,为硬件异常,或BIOS启动异常。

l     告警产生在OS Load阶段,为业务系统启动异常。

l     告警产生在SMS/OS阶段,为业务软件异常。

处理步骤

                                步骤 1     关闭看门狗,重新启动服务器。

                                步骤 2     通过KVM查看系统启动过程,根据告警产生的不同阶段,做不同的处理。

1.     若告警发生在BIOS/POST阶段,请登录iBMC WebUI,在“串口数据”页面下载串口数据。

2.     若告警发生在OS Load阶段,业务系统引导错误,可通过KVM查看业务系统错误打印,进行定位处理。

3.     若告警在SMS/OS阶段,则说明在业务系统中有软件进行了看门狗设置;进入业务系统,检查系统设置看门狗的软件是否异常或停止响应。

                                步骤 3     保存查询到的信息,请联系技术支持处理。

----结束

5.2 ALM-0x2C000027 看门狗超时导致系统下电(System,严重告警)

告警解释

告警描述:

The OS is forcibly powered off due to the watchdog (arg1) timeout.

通过业务软件启动看门狗,在系统某阶段(timer user字段标示:BIOS POST,OS Load或SMS/OS阶段,告警中此字段依具体情况而定),看门狗超时溢出时,如果超时动作设为“power down”时,则产生此告警。

产生此告警的主体类型为:System

告警属性

告警ID

告警级别

可自动清除

0x2C000027

严重

 

告警参数

参数名称

参数含义

arg1

系统启动的阶段,例如“BIOS FRB 2”、“BIOS/POST”、“OS Load”、“SMS/OS”、“OEM”。

对系统的影响

操作系统下电,可能导致服务器业务中断。

可能原因

l     告警产生在BIOS/POST阶段,为硬件异常,或BIOS启动异常。

l     告警产生在OS Load阶段,为业务系统启动异常。

l     告警产生在SMS/OS阶段,为业务软件异常。

处理步骤

                                步骤 1     关闭看门狗,重新启动服务器。

                                步骤 2     通过KVM查看系统启动过程,根据告警产生的不同阶段,做不同的处理。

1.     若告警发生在BIOS/POST阶段,请登录iBMC WebUI,在“串口数据”页面下载串口数据。

2.     若告警发生在OS Load阶段,业务系统引导错误,可通过KVM查看业务系统错误打印,进行定位处理。

3.     若告警在SMS/OS阶段,则说明在业务系统中有软件进行了看门狗设置;进入业务系统,检查系统设置看门狗的软件是否异常或停止响应。

                                步骤 3     保存查询到的信息,请联系技术支持处理。

----结束

5.3 ALM-0x2C000029 看门狗超时导致系统强制下电再上电(System,严重告警)

告警解释

告警描述:

The OS is forcibly powered off and then on due to the watchdog (arg1) timeout.

通过业务软件启动看门狗,在系统某阶段(timer user字段标示:BIOS POST,OS Load或SMS/OS阶段,告警中此字段依具体情况而定),看门狗超时溢出时,如果超时动作设为“power cycle”时,则产生此告警。

产生此告警的主体类型为:System

告警属性

告警ID

告警级别

可自动清除

0x2C000029

严重

 

告警参数

参数名称

参数含义

arg1

系统启动的阶段,例如“BIOS FRB 2”、“BIOS/POST”、“OS Load”、“SMS/OS”、“OEM”。

对系统的影响

操作系统下电再上电,可能导致服务器业务中断。

可能原因

l     告警产生在BIOS/POST阶段,为硬件异常,或BIOS启动异常。

l     告警产生在OS Load阶段,为业务系统启动异常。

l     告警产生在SMS/OS阶段,为业务软件异常。

处理步骤

                                步骤 1     关闭看门狗,重新启动服务器。

                                步骤 2     通过KVM查看系统启动过程,根据告警产生的不同阶段,做不同的处理。

1.     若告警发生在BIOS/POST阶段,请登录iBMC WebUI,在“串口数据”页面下载串口数据。

2.     若告警发生在OS Load阶段,业务系统引导错误,可通过KVM查看业务系统错误打印,进行定位处理。

3.     若告警在SMS/OS阶段,则说明在业务系统中有软件进行了看门狗设置;进入业务系统,检查系统设置看门狗的软件是否异常或停止响应。

                                步骤 3     保存查询到的信息,请联系技术支持处理。

----结束


6 管理子系统告警

介绍服务器可能产生的管理子系统告警。

6.1  ALM-0x00000023 CPU核心温度读取失败(CPU,轻微告警)

6.2  ALM-0x00000025 CPU VDDQ温度读取失败(CPU,轻微告警)

6.3  ALM-0x02000017 硬盘温度读取失败(Disk,轻微告警)

6.4  ALM-0x0600001B RAID扣卡BBU温度读取失败(RAID Card,轻微告警)

6.5  ALM-0x08000005 PCIe标卡温度读取失败(PCIe Card,轻微告警)

6.6  ALM-0x08000069 PCIe卡巡检失败(PCIe Card,严重告警)

6.7  ALM-0x0D000005 网卡扣卡温度读取失败(NIC,轻微告警)

6.8  ALM-0x12000017 出风口温度读取失败(Chassis,轻微告警)

6.9  ALM-0x24000015 CPU板FRU数据读取失败(CPU Board,轻微告警)

6.10  ALM-0x49000001 BMA建立转发映射表失败(BMA,轻微告警)

6.11  ALM-0x5D000009 扩展板FRU数据读取失败(Expand Board,轻微告警)

6.1 ALM-0x00000023 CPU核心温度读取失败(CPU,轻微告警)

告警解释

告警描述:

Failed to obtain data of the CPU arg1 core temperature (SN: arg2, BN: arg3).

iBMC V316及以上版本,主体类型为CPU、Disk的告警分别支持上报各自的序列号和BOM编码,主体类型为Memory的告警分别支持上报BOM编码。

当读取CPU核心温度失败时,产生此告警。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x00000023

轻微

 

告警参数

参数名称

参数含义

arg1

CPU的槽位号。

arg2

CPU的序列号。

arg3

BOM编码。

对系统的影响

无法正常监控温度,温度异常时无法及时告警。

可能原因

与ME通信故障,或ME异常。

处理步骤

                                步骤 1     重启iBMC,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     拔插电源线缆或拔插单板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     请联系技术支持处理。

----结束

6.2 ALM-0x00000025 CPU VDDQ温度读取失败(CPU,轻微告警)

告警解释

告警描述:

Failed to obtain data of the CPU arg1 VDDQ temperature (SN: arg2, BN: arg3).

iBMC V316及以上版本,主体类型为CPU、Disk的告警分别支持上报各自的序列号和BOM编码,主体类型为Memory的告警分别支持上报BOM编码。

当读取CPU VDDQ温度失败时,产生此告警。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x00000025

轻微

 

告警参数

参数名称

参数含义

arg1

CPU的槽位号。

arg2

CPU的序列号。

arg3

BOM编码。

对系统的影响

无法正常监控温度,温度异常时无法及时告警。

可能原因

传感器访问通道异常或传感器芯片失效。

处理步骤

                                步骤 1     重启iBMC,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     拔插电源线缆或拔插单板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     请联系技术支持处理。

----结束

6.3 ALM-0x02000017 硬盘温度读取失败(Disk,轻微告警)

告警解释

告警描述:

Failed to obtain data of the [arg1] disk arg2 temperature (SN: arg3, BN: arg4).

iBMC V316及以上版本,主体类型为CPU、Disk的告警分别支持上报各自的序列号和BOM编码,主体类型为Memory的告警分别支持上报BOM编码。

当读取硬盘温度失败时,产生此告警。

产生此告警的主体类型为:Disk

告警属性

告警ID

告警级别

可自动清除

0x02000017

轻微

 

告警参数

参数名称

参数含义

arg1

告警相关的硬盘的位置,例如“FM”、“CMn”。

arg2

告警相关硬盘的槽位号。

arg3

硬盘的序列号。

arg4

BOM编码。

对系统的影响

无法正常监控温度,温度异常时无法及时告警。

可能原因

l     iBMC访问硬盘的通道异常。

l     硬盘故障。

l     硬盘背板故障。

处理步骤

                                步骤 1     重启iBMC,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     通过拔插电源线的方法将服务器彻底下电再上电,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     重新安装传感器所在硬盘背板上的线缆,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     更换硬盘,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     更换传感器所在的硬盘背板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤6

                                步骤 6     请联系技术支持处理。

----结束

6.4 ALM-0x0600001B RAID扣卡BBU温度读取失败(RAID Card,轻微告警)

告警解释

告警描述:

Failed to obtain data of the arg2 RAID controller card arg1 BBU temperature (SN: arg3, BN: arg4).

iBMC V328及以上版本,主体类型为RAID Card、PSU的告警分别支持上报各自的序列号和BOM编码,主体类型为Fan的告警支持上报BOM编码。

当RAID扣卡BBU温度读取失败时,产生此告警。

产生此告警的主体类型为:RAID Card

告警属性

告警ID

告警级别

可自动清除

0x0600001B

轻微

 

告警参数

参数名称

参数含义

arg1

告警相关的RAID卡的槽位号。

arg2

前IO模块或计算模块及其槽位号,例如“FM”、“CMn”。

arg3

RAID卡的序列号。

arg4

BOM编码。

对系统的影响

无法正常监控温度,温度异常时无法及时告警。

可能原因

l     iBMC和RAID卡通信故障。

l     BBU故障。

处理步骤

                                步骤 1     重启iBMC,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     拔插电源线缆或拔插单板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     更换RAID卡电容,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     请联系技术支持处理。

----结束

6.5 ALM-0x08000005 PCIe标卡温度读取失败(PCIe Card,轻微告警)

告警解释

告警描述为:

Failed to obtain data of the arg1 arg2 arg3 temperature. [arg4] [arg5]

当读取PCIe标卡温度失败时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x08000005

轻微

 

告警参数

参数名称

参数含义

arg1

告警相关PCIe卡的位置,例如“GpuBoard”、“Riser”。

arg2

告警相关PCIe卡的槽位号,例如“1”、“2”。

arg3

告警相关PCIe卡的类型,例如“FPGA Chip”、“Hi1822 Optical Module”。

arg4

告警相关的附加描述,例如“Error Code”。

说明

iBMC V308及以上版本支持此参数。

arg5

告警相关的故障码,例如“(7001)”。

说明

iBMC V308及以上版本支持此参数。

对系统的影响

无法正常监控温度,温度异常时无法及时告警,影响风扇调速。

可能原因

传感器访问通道异常或传感器芯片失效。

处理步骤

                                步骤 1     重启iBMC,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     对OS执行先下电后上电操作,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     拔插电源线缆或拔插单板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     更换产生告警的PCIe卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     请联系技术支持处理。

----结束

6.6 ALM-0x08000069 PCIe卡巡检失败(PCIe Card,严重告警)

告警解释

告警描述:

The arg1 PCIe card arg2 (arg3) inspection failed.

PCIe卡巡检失败时,产生此告警。

产生此告警的主体类型为:PCIe Card

iBMC V296及以上版本支持此告警。

告警属性

告警ID

告警级别

可自动清除

0x08000069

严重

 

告警参数

参数名称

参数含义

arg1

PCIe标卡所在板卡,例如“GpuBoard”、“Riser”。

arg2

PCIe标卡的槽位号,例如“1”、“2”。

arg3

PCIe标卡名称,例如“FPGA”、“NIC”。

对系统的影响

iBMC无法管理PCIe卡。

可能原因

l     I2C或I2C over LAN通道故障。

l     PCIe卡故障。

处理步骤

                                步骤 1     重启板卡或者业务系统,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请尽快安排计划性维护,下电后检查该部件与其插槽是否存在损坏或接触不良现象。

l     是 => 步骤3

l     否 => 步骤4

                                步骤 3     重新安装产生告警的板卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     更换产生告警的板卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     请联系技术支持处理。

----结束

6.7 ALM-0x0D000005 网卡扣卡温度读取失败(NIC,轻微告警)

告警解释

告警描述:

Failed to obtain data of the NIC arg1 temperature.

当读取网卡扣卡温度失败时,产生此告警。

产生此告警的主体类型为:NIC

告警属性

告警ID

告警级别

可自动清除

0x0D000005

轻微

 

告警参数

参数名称

参数含义

arg1

告警相关网卡扣卡的编号。

对系统的影响

无法正常监控温度,温度异常时无法及时告警。

可能原因

l     iBMC模块异常。

l     网卡扣卡故障。

处理步骤

                                步骤 1     重启iBMC,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     通过拔插电源线的方法将服务器彻底下电再上电,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     更换网卡扣卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     请联系技术支持处理。

----结束

6.8 ALM-0x12000017 出风口温度读取失败(Chassis,轻微告警)

告警解释

告警描述:

Failed to obtain data of the air outlet arg1 temperature.

出风口温度读取失败时,产生此告警。

产生此告警的主体类型为:Chassis

告警属性

告警ID

告警级别

可自动清除

0x12000017

轻微

 

告警参数

参数名称

参数含义

arg1

出风口的编号

对系统的影响

无法正常监控出风口温度,影响风扇调速功能。

可能原因

出风口传感器芯片失效或访问通道异常。

处理步骤

                                步骤 1     登录iBMC的Web界面或命令行。

登录方法请参考服务器iBMC用户指南。

                                步骤 2     重启iBMC。

l     Web界面中,可通过“固件升级”界面的“重启iBMC”实现重启操作。

l     命令行下,可通过ipmcset -d reset命令实现重启操作。

                                步骤 3     重启完成后,查看告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     插拔电源线缆或插拔单板,查看告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     更换扩展板,查看告警是否清除。

l     是 => 处理完毕

l     否 => 步骤6

                                步骤 6     请联系技术支持处理。

----结束

6.9 ALM-0x24000015 CPU板FRU数据读取失败(CPU Board,轻微告警)

告警解释

告警描述:

Failed to obtain electronic label data of CPU board.

当CPU板电子标签数据读取失败时,产生此告警。

产生此告警的主体类型为:CPU Board

告警属性

告警ID

告警级别

可自动清除

0x24000015

轻微

 

告警参数

参数名称

参数含义

-

-

 

对系统的影响

影响系统读取资产信息。

可能原因

EEPROM或访问通道故障。

处理步骤

                                步骤 1     重启iBMC,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     更换CPU板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     请联系技术支持处理。

----结束

6.10 ALM-0x49000001 BMA建立转发映射表失败(BMA,轻微告警)

告警解释

告警描述:

iBMA failed to establish forward mapping table (arg1).

iBMA建立转发映射表失败时,产生此告警。

产生此告警的主体类型为:BMA

告警属性

告警ID

告警级别

可自动清除

0x49000001

轻微

 

告警参数

参数名称

参数含义

arg1

此告警触发的原因。

例如:

l     “Failed to bind port 1. ”

l     “Failed to bind port 1 and the port(s) is/are occupied. ”

对系统的影响

无法通过带内通道转发Trap消息。

可能原因

端口绑定失败或端口被占用。

处理步骤

                                步骤 1     检查端口是否被占用。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     使用其他端口,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     检查业务侧虚拟网口状态是否正常。包括连接状态是否Linkup,IP地址是否有效。

l     是 => 步骤5

l     否 => 步骤4

                                步骤 4     重置业务侧虚拟网口,确保其IP地址有效且连接状态为Linkup状态,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     请联系技术支持处理。

----结束

6.11 ALM-0x5D000009 扩展板FRU数据读取失败(Expand Board,轻微告警)

告警解释

告警描述:

Failed to obtain electronic label data of expansion board.

当扩展板电子标签数据读取失败时,产生此告警。

产生此告警的主体类型为:Expand Board

告警属性

告警ID

告警级别

可自动清除

0x5D000009

轻微

 

告警参数

参数名称

参数含义

-

-

 

对系统的影响

影响系统读取资产信息。

可能原因

EEPROM或访问通道故障。

处理步骤

                                步骤 1     重启iBMC,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     更换扩展板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     请联系技术支持处理。

----结束


7 存储告警

介绍服务器可能产生的存储告警。

7.1  ALM-0x02000007 硬盘故障(Disk,严重告警)

7.2  ALM-0x02000009 硬盘预故障(Disk,轻微告警)

7.3  ALM-0x0200000B 硬盘RAID阵列失效(Disk,严重告警)

7.4  ALM-0x02000013 硬盘MCE/AER错误(Disk,紧急告警)

7.5  ALM-0x0200001D 硬盘剩余磨损率过低(Disk,严重告警)

7.6  ALM-0x02000025 硬盘链路故障(Disk,严重告警)

7.7  ALM-0x02000027 硬盘状态异常(Disk,轻微告警)

7.8  ALM-0x02000029 硬盘有外部配置(Disk,轻微告警)

7.9  ALM-0x0200002B 硬盘链路异常(Disk,轻微告警)

7.10  ALM-0x0200002D 硬盘丢失(Disk,严重告警)

7.11  ALM-0x0200002F 硬盘与RAID卡之间链路的PHY误码增长过快(Disk,严重告警)

7.12  ALM-0x02000031 硬盘与Expander控制器之间链路的PHY误码增长过快(Disk,严重告警)

7.13  ALM-0x2C000071 文件系统只读(System,严重告警)

7.14  ALM-0x2C000075 RAID组阵列失效(System,严重告警)

7.15  ALM-0x2C000079 系统侧证书过期(System,轻微告警)

7.16  ALM-0x32000003 Expander通信故障(Expander,严重告警)

7.17  ALM-0x32000005 Expander控制器与RAID卡之间链路的PHY误码增长过快(Expander,严重告警)

7.18  ALM-0x32000007 Expander控制器之间链路的PHY误码增长过快(Expander,严重告警)

7.1 ALM-0x02000007 硬盘故障(Disk,严重告警)

告警解释

告警描述:

The [arg1] disk arg2 failure (SN: arg3, BN: arg4).

iBMC V316及以上版本,主体类型为CPU、Disk的告警分别支持上报各自的序列号和BOM编码,主体类型为Memory的告警分别支持上报BOM编码。

当硬盘出现异常或故障时,产生此告警。

产生此告警的主体类型为:Disk

SATADOM和M.2硬盘也支持以上告警。

告警属性

告警ID

告警级别

可自动清除

0x02000007

严重

 

告警参数

参数名称

参数含义

arg1

告警相关的硬盘的位置,例如“FM”、“CMn”。

arg2

告警相关硬盘的槽位号。

arg3

硬盘的序列号。

arg4

BOM编码。

对系统的影响

可能导致系统停止响应或数据丢失。

可能原因

硬盘故障。

处理步骤

                                步骤 1     更换产生告警的硬盘,查看告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

7.2 ALM-0x02000009 硬盘预故障(Disk,轻微告警)

告警解释

告警描述:

The [arg1] disk arg2 predictive failure (SN: arg3, BN: arg4).

iBMC V316及以上版本,主体类型为CPU、Disk的告警分别支持上报各自的序列号和BOM编码,主体类型Memory的告警分别支持上报BOM编码。

当硬盘的错误积累到阈值,可能导致硬盘故障时,产生此告警。

产生此告警的主体类型为:Disk

SATADOM和M.2硬盘也支持以上告警。

告警属性

告警ID

告警级别

可自动清除

0x02000009

轻微

 

告警参数

参数名称

参数含义

arg1

告警相关的硬盘的位置,例如“FM”、“CMn”。

arg2

告警相关硬盘的槽位号。

arg3

硬盘的序列号。

arg4

BOM编码。

对系统的影响

硬盘可靠性降低,可能对操作系统存储性能、业务正常运行等造成影响。

可能原因

l     硬盘模式为只读。

l     硬盘SMART检测到的错误计数超过阈值。

l     硬盘剩余寿命不足(针对NVMe硬盘)。

处理步骤

                                步骤 1     产生该告警时,服务器可以正常使用。请选择合适的时间和环境更换硬盘,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

7.3 ALM-0x0200000B 硬盘RAID阵列失效(Disk,严重告警)

告警解释

告警描述:

The [arg1] disk arg2 RAID array is invalid (SN: arg3, BN: arg4).

iBMC V316及以上版本,主体类型为CPU、Disk的告警分别支持上报各自的序列号和BOM编码,主体类型为Memory的告警分别支持上报BOM编码。

当硬盘被拨出或故障,RAID阵列故障或异常时,产生此告警。

产生此告警的主体类型为:Disk

SATADOM和M.2硬盘也支持以上告警。

告警属性

告警ID

告警级别

可自动清除

0x0200000B

严重

 

告警参数

参数名称

参数含义

arg1

告警相关的硬盘的位置,例如“FM”、“CMn”。

arg2

告警相关硬盘的槽位号。

arg3

硬盘的序列号。

arg4

BOM编码。

对系统的影响

RAID失效,会造成硬盘冗余度降低,或数据丢失,甚至导致系统停止响应。

可能原因

l     RAID阵列的硬盘被人为拔出。

l     RAID阵列的硬盘故障。

处理步骤

                                步骤 1     检查RAID中的硬盘是否被拔出。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     将硬盘安装回原有槽位,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     更换导致RAID失效的硬盘,查看告警是否清除。

更换硬盘的具体操作,请参考相关产品的用户指南。

硬盘更换后,请参考RAID控制卡 用户指南中“硬盘故障”章节进行恢复处理。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     请联系技术支持处理。

----结束

7.4 ALM-0x02000013 硬盘MCE/AER错误(Disk,紧急告警)

告警解释

告警描述:

The [arg1] disk arg2 triggered an uncorrectable error, arg3 (SN: arg4, BN: arg5).

iBMC V316及以上版本,主体类型为CPU、Disk的告警分别支持上报各自的序列号和BOM编码,主体类型为Memory的告警分别支持上报BOM编码。

当硬盘触发了不可纠正错误时,产生此告警。

产生此告警的主体类型为:Disk

告警属性

告警ID

告警级别

可自动清除

0x02000013

紧急

 

告警参数

参数名称

参数含义

arg1

告警相关硬盘的位置,例如“front”、“rear”等。

arg2

告警相关硬盘的槽位号。

arg3

产生的不可纠正错误对应的故障码。

arg4

硬盘的序列号。

arg5

BOM编码。

对系统的影响

可能导致相关业务无法正常运行或数据丢失。

可能原因

l     硬盘故障。

l     硬盘与背板接触不良。

处理步骤

                                步骤 1     重新拔插硬盘,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     更换产生告警的硬盘,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     更换硬盘背板,查看告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     请联系技术支持处理。

----结束

7.5 ALM-0x0200001D 硬盘剩余磨损率过低(Disk,严重告警)

告警解释

告警描述:

The arg1 disk arg2 remnant media wearout (arg3) is lower than the threshold (arg4) (SN: arg5, BN: arg6).

iBMC V316及以上版本,主体类型为CPU、Disk的告警分别支持上报各自的序列号和BOM编码,主体类型为Memory的告警分别支持上报BOM编码。

硬盘当前剩余磨损率低于门限时,产生此告警。

产生此告警的主体类型为:Disk

告警属性

告警ID

告警级别

可自动清除

0x0200001D

严重

 

告警参数

参数名称

参数含义

arg1

告警相关硬盘的位置,例如“front”、“rear”等。

arg2

告警相关硬盘的名称。

arg3

对应传感器的当前读数。

arg4

告警门限。

arg5

硬盘的序列号。

arg6

BOM编码。

对系统的影响

硬盘剩余磨损率过低,继续使用可能导致系统停止响应或数据丢失。

可能原因

硬盘存储介质的平均擦写次数达到阈值。

处理步骤

                                步骤 1     更换硬盘,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

7.6 ALM-0x02000025 硬盘链路故障(Disk,严重告警)

告警解释

告警描述:

The arg1 arg2 arg3 link is faulty (SN: arg4, BN: arg5).

iBMC V316及以上版本,主体类型为CPU、Disk的告警分别支持上报各自的序列号和BOM编码,主体类型为Memory的告警分别支持上报BOM编码。

当硬盘链路错误时,产生此告警。

产生此告警的主体类型为:Disk

告警属性

告警ID

告警级别

可自动清除

0x02000025

严重

 

告警参数

参数名称

参数含义

arg1

硬盘的位置,例如“FIO”。

arg2

硬盘的槽位号,例如“DISK1”。

arg3

硬盘的链路类型,例如“PCIe”。

arg4

硬盘的序列号。

arg5

BOM编码。

对系统的影响

可能导致系统停止响应或数据丢失。

可能原因

l     硬盘松动。

l     线缆连接错误、松动或故障。

l     硬盘背板或转接卡故障。

处理步骤

                                步骤 1     检查硬盘是否插好。

l     是 => 步骤3

l     否 => 步骤2

                                步骤 2     重新安装硬盘,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     检查NVMe线缆或者SAS线缆连接是否正确。

详细的连接顺序请参考服务器用户指南。

l     是 => 步骤5

l     否 => 步骤4

                                步骤 4     按照正确顺序重新连接NVMe线缆或者SAS线缆,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     更换NVMe线缆或者SAS线缆,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤6

                                步骤 6     更换硬盘背板或转接卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤7

                                步骤 7     更换服务器CPU板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤8

                                步骤 8     请联系技术支持处理。

----结束

7.7 ALM-0x02000027 硬盘状态异常(Disk,轻微告警)

告警解释

告警描述:

The [arg1] disk arg2 state is abnormal (SN: arg3, BN: arg4).

iBMC V316及以上版本,主体类型为CPU、Disk的告警分别支持上报各自的序列号和BOM编码,主体类型为Memory的告警分别支持上报BOM编码。

当硬盘状态异常时,产生此告警。

产生此告警的主体类型为:Disk

SATADOM和M.2硬盘也支持以上告警。

告警属性

告警ID

告警级别

可自动清除

0x02000027

轻微

 

告警参数

参数名称

参数含义

arg1

告警相关的硬盘的位置,例如“FM”、“CMn”。

arg2

告警相关硬盘的槽位号。

arg3

硬盘的序列号。

arg4

BOM编码。

对系统的影响

可能导致系统停止响应或数据丢失。

可能原因

l     对硬盘或RAID卡操作不当。

l     硬盘故障。

处理步骤

                                步骤 1     如果服务器同时存在硬盘故障告警,请先按照告警处理建议清除告警。

                                步骤 2     手动将硬盘的固件状态修改为“UNCONFIGURED GOOD”或“OFFLINE”,查看告警是否清除。

可以从iBMC Web UI的“系统信息 > 存储 > 配置”中修改硬盘的固件状态。

l     是 => 步骤3

l     否 => 步骤4

                                步骤 3     更换产生告警的硬盘,查看告警是否清除。

更换硬盘的具体操作,请参考相关产品的用户指南。

硬盘更换后,请参考RAID控制卡 用户指南中“硬盘故障”章节进行恢复处理。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     请联系技术支持处理。

----结束

7.8 ALM-0x02000029 硬盘有外部配置(Disk,轻微告警)

告警解释

告警描述:

The [arg1] disk arg2 has foreign configuration (SN: arg3, BN: arg4).

iBMC V316及以上版本,主体类型为CPU、Disk的告警分别支持上报各自的序列号和BOM编码,主体类型为Memory的告警分别支持上报BOM编码。

当硬盘有外部配置时,产生此告警。

产生此告警的主体类型为:Disk

SATADOM和M.2硬盘也支持以上告警。

告警属性

告警ID

告警级别

可自动清除

0x02000029

轻微

 

告警参数

参数名称

参数含义

arg1

告警相关的硬盘的位置,例如“FM”、“CMn”。

arg2

告警相关硬盘的槽位号。

arg3

硬盘的序列号。

arg4

BOM编码。

对系统的影响

可能导致系统停止响应或数据丢失。

可能原因

外来硬盘已有逻辑关系。

处理步骤

                                步骤 1     清除或导入RAID配置,查看告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

7.9 ALM-0x0200002B 硬盘链路异常(Disk,轻微告警)

告警解释

告警描述:

The [arg1] disk arg2 link is abnormal (SN: arg3, BN: arg4).

iBMC V316及以上版本,主体类型为CPU、Disk的告警分别支持上报各自的序列号和BOM编码,主体类型为Memory的告警分别支持上报BOM编码。

当硬盘链路异常时,产生此告警。

产生此告警的主体类型为:Disk

SATADOM和M.2硬盘也支持以上告警。

告警属性

告警ID

告警级别

可自动清除

0x0200002B

轻微

 

告警参数

参数名称

参数含义

arg1

告警相关的硬盘的位置,例如“FM”、“CMn”。

arg2

告警相关硬盘的槽位号。

arg3

硬盘的序列号。

arg4

BOM编码。

对系统的影响

可能导致系统停止响应或数据丢失。

可能原因

l     SAS或者NVME线缆插错或线缆故障。

l     硬盘故障。

l     硬盘背板或转接卡故障。

处理步骤

                                步骤 1     在业务侧确认硬盘是否能识别。

l     如果不能识别,请更换硬盘。

l     如果能识别但无法点亮locate灯,请更换硬盘或SAS/NVMe线缆。

                                步骤 2     如果服务器同时存在SAS或者NVMe线缆告警,请按照告警处理建议消除告警。

                                步骤 3     更换硬盘背板或转接卡,查看告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     请联系技术支持处理。

----结束

7.10 ALM-0x0200002D 硬盘丢失(Disk,严重告警)

告警解释

告警描述:

The [arg1] disk arg2is missing (SN: arg3, BN: arg4).

iBMC V316及以上版本,主体类型为CPU、Disk的告警分别支持上报各自的序列号和BOM编码,主体类型为Memory的告警分别支持上报BOM编码。

当硬盘丢失时,产生此告警。

产生此告警的主体类型为:Disk

SATADOM和M.2硬盘也支持以上告警。

告警属性

告警ID

告警级别

可自动清除

0x0200002D

严重

 

告警参数

参数名称

参数含义

arg1

告警相关的硬盘的位置,例如“FM”、“CMn”。

arg2

告警相关硬盘的槽位号。

arg3

硬盘的序列号。

arg4

BOM编码。

对系统的影响

可能导致系统停止响应或数据丢失。

可能原因

l     SAS线缆松动。

l     硬盘故障。

处理步骤

                                步骤 1     如果有两个及以上硬盘丢失告警,请检查SAS线缆是否松动。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     重新连接SAS线缆,查看告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     更换产生告警的硬盘,查看告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     更换硬盘背板,查看告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     请联系技术支持处理。

----结束

7.11 ALM-0x0200002F 硬盘与RAID卡之间链路的PHY误码增长过快(Disk,严重告警)

告警解释

告警描述:

The PHY bit errors of the link between arg1 and arg2 increased too fast (SN: arg3, BN: arg4).

iBMC V316及以上版本,主体类型为CPU、Disk的告警分别支持上报各自的序列号和BOM编码,主体类型为Memory的告警分别支持上报BOM编码。

数据在硬盘与RAID卡之间的链路上传输时,若检测到PHY误码增长过快,产生此告警。

不同服务器的Expander控制器所在部件不同,可能分布在硬盘背板、GPU板等不同部件上。详细信息请参考各服务器的用户指南。

产生此告警的主体类型为:Disk

告警属性

告警ID

告警级别

可自动清除

0x0200002F

严重

 

告警参数

参数名称

参数含义

arg1

表示与硬盘通信的RAID卡,如“RAID Card1”。

arg2

表示告警相关的硬盘,如“Disk0”。

arg3

硬盘的序列号。

arg4

BOM编码。

 

对系统的影响

可能导致链路上的设备(如RAID卡、Expander控制器和硬盘)运行不稳定、系统停止响应或数据丢失。

可能原因

l     线缆未插稳或线缆连接错误。

l     线缆故障。

l     硬盘背板故障。

l     硬盘故障。

l     RAID卡故障。

处理步骤

                                步骤 1     按照正确的连接方式重新连接RAID卡与硬盘背板之间的线缆,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     更换线缆,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     更换硬盘,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     更换硬盘背板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     更换RAID卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤6

                                步骤 6     请联系技术支持处理。

----结束

7.12 ALM-0x02000031 硬盘与Expander控制器之间链路的PHY误码增长过快(Disk,严重告警)

告警解释

告警描述:

The PHY bit errors of the link between arg1 (arg2arg3) and arg4 increased too fast (SN: arg5, BN: arg6).

iBMC V316及以上版本,主体类型为CPU、Disk的告警分别支持上报各自的序列号和BOM编码,主体类型为Memory的告警分别支持上报BOM编码。

数据在硬盘与Expander控制器之间的链路上传输时,若检测到PHY误码增长过快,产生此告警。

不同服务器的Expander控制器所在部件不同,可能分布在硬盘背板、GPU板等不同部件上。详细信息请参考各服务器的用户指南。

产生此告警的主体类型为:Disk

告警属性

告警ID

告警级别

可自动清除

0x02000031

严重

 

告警参数

参数名称

参数含义

arg1

表示告警相关的Expander控制器所在部件,如“Disk BP1”。

arg2

表示告警相关的Expander控制器类型,如“SAS Expander”。

arg3

表示告警相关的Expander控制器编号。

arg4

表示告警相关的硬盘,如“Disk0”。

arg5

硬盘的序列号。

arg6

BOM编码。

 

对系统的影响

可能导致链路上的设备(如RAID卡、Expander控制器和硬盘)运行不稳定、系统停止响应或数据丢失。

可能原因

l     线缆未插稳或线缆连接错误。

l     线缆故障。

l     Expander控制器所在部件故障。

l     硬盘故障。

处理步骤

                                步骤 1     按照正确的连接方式重新连接Expander控制器所在部件与硬盘之间的线缆,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     更换线缆,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     更换硬盘,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     更换Expander控制器所在部件,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     请联系技术支持处理。

----结束

7.13 ALM-0x2C000071 文件系统只读(System,严重告警)

告警解释

告警描述:

File system (arg1) is read only.

当检测到服务器OS的文件系统处于只读状态时,产生此告警。

产生此告警的主体类型为:System

告警属性

告警ID

告警级别

可自动清除

0x2C000071

严重

 

告警参数

参数名称

参数含义

arg1

表示文件系统名称,如“/dev/mapper/cl-root”。

 

对系统的影响

可能导致相关业务无法正常运行。

可能原因

文件系统异常。

处理步骤

                                步骤 1     请联系技术支持处理。

----结束

7.14 ALM-0x2C000075 RAID组阵列失效(System,严重告警)

告警解释

告警描述:

Failed RAID array detected.

当RAID组阵列失效时,产生此告警。

产生此告警的主体类型为:System

告警属性

告警ID

告警级别

可自动清除

0x2C000075

严重

 

告警参数

参数名称

参数含义

-

-

对系统的影响

可能导致系统停止响应或数据丢失。

可能原因

l     RAID组中有硬盘不在位。

l     硬盘故障。

处理步骤

                                步骤 1     排查环境上所有RAID组状态是否正常,对状态不正常的RAID组进行以下处理:

如果RAID组中有成员盘被拔出,重新安装成员盘,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

如果RAID组中成员盘仍在位,更换导致RAID组中失效的硬盘,检查告警是否清除。

更换硬盘的具体操作,请参考相关产品的用户指南。

硬盘更换后,请参考RAID控制卡 用户指南中“硬盘故障”章节进行恢复处理。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

7.15 ALM-0x2C000079 系统侧证书过期(System,轻微告警)

告警解释

告警描述:

arg1 certificate is about to expire or has expired, please check security logs for details.

当证书已过期或即将过期时,产生此告警。请查看安全日志获取详细信息。

产生此告警的主体类型为:System

告警属性

告警ID

告警级别

可自动清除

0x2C000079

轻微

 

告警参数

参数名称

参数含义

arg1

系统侧实体,例如BIOS

 

对系统的影响

与该证书相关的校验失败。

可能原因

相关对象系统的证书中有证书过期或即将过期,有关对象包括但不限于如下主体:

BIOS

处理步骤

                                步骤 1     导入新的证书,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     重启BIOS,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     请联系技术支持处理。

----结束

7.16 ALM-0x32000003 Expander通信故障(Expander,严重告警)

告警解释

告警描述:

Communication between arg1 and arg2 (arg3arg4) failed.

当检测到Expander控制器与RAID卡通信异常时,产生此告警。

不同服务器的Expander控制器所在部件不同,可能分布在硬盘背板、GPU板等不同部件上。详细信息请参考各服务器的用户指南。

产生此告警的主体类型为:Disk BackPlane

告警属性

告警ID

告警级别

可自动清除

0x32000003

严重

 

告警参数

参数名称

参数含义

arg1

表示与Expander控制器通信的RAID卡,如“RAID Card1”。

arg2

表示告警相关的Expander控制器所在部件,如“Disk BP1”。

arg3

表示告警相关的Expander控制器类型,如“SAS Expander”。

arg4

表示告警相关的Expander控制器编号。

 

对系统的影响

可能导致系统停止响应或数据丢失。

可能原因

l     线缆连接错误、松动或故障。

l     Expander控制器所在部件故障。

l     RAID卡故障。

处理步骤

                                步骤 1     按照正确的连接方式重新连接RAID卡与Expander控制器所在部件之间的线缆,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     更换线缆,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     更换Expander控制器所在部件,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     更换告警相关的RAID卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     请联系技术支持处理。

----结束

7.17 ALM-0x32000005 Expander控制器与RAID卡之间链路的PHY误码增长过快(Expander,严重告警)

告警解释

告警描述:

The PHY bit errors of the link between arg1 and arg2 (arg3arg4) increased too fast.

数据在RAID卡与Expander控制器之间的链路上传输时,若检测到PHY误码增长过快,产生此告警。

不同服务器的Expander控制器所在部件不同,可能分布在硬盘背板、GPU板等不同部件上。详细信息请参考各服务器的用户指南。

产生此告警的主体类型为:Disk BackPlane

告警属性

告警ID

告警级别

可自动清除

0x32000005

严重

 

告警参数

参数名称

参数含义

arg1

与Expander控制器通信的RAID卡,如“RAID Card1”。

arg2

Expander控制器所在部件,如“Disk BP1”。

arg3

Expander控制器类型,如“SAS Expander”。

arg4

Expander控制器编号。

 

对系统的影响

可能导致链路上的设备(如RAID卡、Expander控制器和硬盘)运行不稳定、系统停止响应或数据丢失。

可能原因

l     线缆连接错误、松动或故障。

l     Expander控制器所在部件故障。

l     RAID卡故障。

处理步骤

                                步骤 1     按照正确的连接方式重新连接RAID卡与Expander控制器所在部件之间的线缆,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     更换线缆,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     更换Expander控制器所在部件,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     更换告警相关的RAID卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     请联系技术支持处理。

----结束

7.18 ALM-0x32000007 Expander控制器之间链路的PHY误码增长过快(Expander,严重告警)

告警解释

告警描述:

The PHY bit errors of the link between arg1 (arg2arg3) and arg4 (arg5arg6) increased too fast.

数据在2个Expander控制器之间的链路上传输时,所检测到PHY误码增长过快,产生此告警。

不同服务器的Expander控制器所在部件不同,可能分布在硬盘背板、GPU板等不同部件上。详细信息请参考各服务器的用户指南。

产生此告警的主体类型为:Disk BackPlane

告警属性

告警ID

告警级别

可自动清除

0x32000007

严重

 

告警参数

参数名称

参数含义

arg1、arg4

表示告警相关的Expander控制器所在部件,如“GpuBoard”。

arg2、arg5

表示告警相关的Expander控制器类型,如“SAS Expander”。

arg3、arg6

表示告警相关的Expander序号信息。

 

对系统的影响

可能导致链路上的设备(如RAID卡、Expander控制器和硬盘)运行不稳定、系统停止响应或数据丢失。

可能原因

l     线缆未插稳或线缆连接错误。

l     线缆故障。

l     Expander控制器所在部件故障。

处理步骤

                                步骤 1     按照正确的连接方式重新连接Expander控制器所在部件之间的线缆,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     更换线缆,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     更换Expander控制器所在部件,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     请联系技术支持处理。

----结束


8 风扇告警

介绍服务器可能产生的风扇告警。

8.1  ALM-0x04000005 风扇冗余失效(Fan,严重告警)

8.2  ALM-0x04000007 风扇转速偏差大(Fan,严重告警)

8.1 ALM-0x04000005 风扇冗余失效(Fan,严重告警)

告警解释

告警描述:

Lost fan redundancy.

此告警不支持上报其序列号或BOM编码。

当检测到服务器的指定风扇模块不在位时,产生此告警。

产生此告警的主体类型为:Fan

告警属性

告警ID

告警级别

可自动清除

0x04000005

严重

告警参数

参数名称

参数含义

对系统的影响

影响服务器散热。

可能原因

l     风扇模块被拔出。

l     风扇模块与风扇背板接触不良。

处理步骤

                                步骤 1     检查机箱是否存在风扇空槽位。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     为空闲槽位插入风扇模块,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 3     重新拔插风扇,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     更换风扇模块,并查看告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     请联系技术支持处理。

----结束

8.2 ALM-0x04000007 风扇转速偏差大(Fan,严重告警)

告警解释

告警描述:

Fan arg1 [arg2] failure or incorrect fan model (BN: arg3).

iBMC V328及以上版本,主体类型为RAID Card、PSU的告警分别支持上报各自的序列号和BOM编码,主体类型为Fan的告警支持上报BOM编码。

当检测到指定风扇模块型号不匹配或故障时,产生此告警。

产生此告警的主体类型为:Fan

告警属性

告警ID

告警级别

可自动清除

0x04000007

严重

告警参数

参数名称

参数含义

arg1

告警相关风扇模块的位置,例如“front”、“rear”等。

arg2

告警相关风扇模块的编号。

arg3

BOM编码。

对系统的影响

影响服务器散热。

可能原因

l     风扇模块故障。

l     风扇模块类型错误。

l     风扇背板故障。

处理步骤

                                步骤 1     将产生告警的风扇与正常风扇对换位置,检查告警是否随风扇迁移。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     更换产生告警的风扇模块,并查看告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     更换风扇背板,并查看告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     请联系技术支持处理。

----结束


9 内存告警

介绍服务器可能产生的内存告警。

9.1  ALM-0x01000015 内存配置错误(Memory,紧急告警)

9.2  ALM-0x01000017 DIMM MCE错误(Memory,紧急告警)

9.3  ALM-0x01000025 内存配置错误(Memory,紧急告警)

9.4  ALM-0x01000057 内存初始化错误(Memory,严重告警)

9.5  ALM-0x01000059 内存配置错误(Memory,严重告警)

9.6  ALM-0x2C00000D 系统POST检测到无内存(System,紧急告警)

9.7  ALM-0x2C00004B 内存配置错误(System,紧急告警)

9.8  ALM-0x2C00004F 系统无可用内存(System,紧急告警)

9.1 ALM-0x01000015 内存配置错误(Memory,紧急告警)

告警解释

告警描述:

[arg1] arg2 configuration error or training failed (SN: arg3, BN: arg4).

iBMC V316及以上版本,此告警支持上报内存的BOM编码,iBMC V561及以上版本,此告警支持上报内存的序列号。

当BIOS启动时,如果检测到相应内存插法错误或者内存故障时,产生此告警。

DIMM的分布规则请参考相关产品用户指南中的“安装DIMM”章节。

产生此告警的主体类型为:Memory

告警属性

告警ID

告警级别

可自动清除

0x01000015

紧急

 

告警参数

参数名称

参数含义

arg1

告警相关内存板的槽位号。

arg2

告警相关内存丝印,或CPU槽位号和通道号。

l     内存丝印,例如“DIMM010(B)”。

l     CPU槽位号及通道号

说明

不同型号的服务器,同一通道对应的内存数量不同。

arg3

内存的序列号。

arg4

BOM编码。

对系统的影响

导致系统性能降低或系统无法正常启动。

可能原因

l     配置了不兼容的内存。

l     内存位置插错。

l     内存故障。

处理步骤

                                步骤 1     将服务器下电,查看内存型号。通过计算产品兼容性查询助手确认告警内存是否与服务器兼容。

l     是 => 步骤3

l     否 => 步骤2

                                步骤 2     将告警内存更换为服务器兼容的内存型号后,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     将服务器下电,检查内存位置是否正确。

内存的分布规则请参考产品的用户指南。

l     是 => 步骤5

l     否 => 步骤4

                                步骤 4     按照正确的方法重新安装内存,查看告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     更换内存,查看告警是否清除。

l     是 => 处理完毕

l     否 => 步骤6

                                步骤 6     请联系技术支持处理。

----结束

9.2 ALM-0x01000017 DIMM MCE错误(Memory,紧急告警)

告警解释

告警描述:

[arg1] arg2 triggered an uncorrectable error, arg3 (SN: arg4, BN: arg5).

iBMC V316及以上版本,此告警支持上报内存的BOM编码,iBMC V561及以上版本,此告警支持上报内存的序列号。

当内存触发了不可纠正的错误时,产生此告警。

产生此告警的主体类型为:Memory

告警属性

告警ID

告警级别

可自动清除

0x01000017

紧急

 

告警参数

参数名称

参数含义

arg1

告警相关内存板的槽位号。

arg2

告警相关内存丝印,或CPU槽位号和通道号。

l     内存丝印,例如“DIMM010(B)”。

l     CPU槽位号及通道号

说明

不同型号的服务器,同一通道对应的内存数量不同。

arg3

告警相关的错误码。

对系统的影响

可能导致系统重启或停止响应。

可能原因

l     内存故障。

l     CPU板内存条槽位故障。

处理步骤

                                步骤 1     下电后检查该部件与其插槽是否存在损坏或接触不良现象。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     重新连接该部件,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     更换产生告警的内存,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     请联系技术支持处理。

----结束

9.3 ALM-0x01000025 内存配置错误(Memory,紧急告警)

告警解释

告警描述:

[arg1] arg2 memory configuration error. Error code: arg3 (SN: arg4, BN: arg5).

当服务器安装了不兼容的内存,或未按照正确的分布规则安装内存时,产生此告警。

DIMM的分布规则请参考相关产品用户指南中的“安装DIMM”章节。

产生此告警的主体类型为:Memory

告警属性

告警ID

告警级别

可自动清除

0x01000025

紧急

 

告警参数

参数名称

参数含义

arg1

告警相关内存板的槽位号。

arg2

告警相关内存丝印,或CPU槽位号和通道号。

l     内存丝印,例如“DIMM010(B)”。

l     CPU槽位号及通道号

说明

不同型号的服务器,同一通道对应的内存数量不同。

arg3

告警相关的错误码。

对系统的影响

可能导致系统性能降低或系统无法正常启动。

可能原因

l     服务器配置了不兼容的内存。

l     服务器内存未按照正确的规则安装。

处理步骤

                                步骤 1     检查服务器是否同时存在其他的指定内存的告警。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     按照告警处理建议清除其他内存告警后,检查本告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     将服务器下电,收集告警内存的具体型号。

                                步骤 4     通过计算产品兼容性查询助手查询告警内存是否符合服务器兼容性要求。

l     是 => 步骤5

l     否 => 步骤7

                                步骤 5     检查内存位置是否正确。

内存的分布规则请参考产品的用户指南。

l     是 => 步骤8

l     否 => 步骤6

                                步骤 6     按照正确的方法重新安装内存,服务器上电后查看告警是否清除。

l     是 => 处理完毕

l     否 => 步骤8

                                步骤 7     将告警内存更换为符合服务器兼容性的内存,服务器上电后查看告警是否清除。

更换内存的具体操作,请参考相关产品的用户指南。

l     是 => 处理完毕

l     否 => 步骤8

                                步骤 8     请联系技术支持处理。

----结束

9.4 ALM-0x01000057 内存初始化错误(Memory,严重告警)

告警解释

告警描述:

[arg1] arg2 memory initialization error. Error code: 0xarg3 (SN: arg4, BN: arg5).

l     此告警支持上报内存的序列号和BOM编码。

l     V561及以上版本支持此告警。

服务器启动过程中检测到内存初始化错误时,产生此告警。

当某个内存产生此告警时,同Channel下的其他内存条也不可用。内存的分布情况请参考各服务器用户指南。

产生此告警的主体类型为:Memory

告警属性

告警ID

告警级别

可自动清除

0x01000057

严重

 

告警参数

参数名称

参数含义

arg1

告警相关内存板的槽位号。

arg2

告警相关内存丝印,或CPU槽位号和通道号。

l     内存丝印,例如“DIMM010(B)”。

l     CPU槽位号及通道号

说明

不同型号的服务器,同一通道对应的内存数量不同。

arg3

告警相关的错误码。

对系统的影响

可能导致系统性能降低。

可能原因

l     内存故障。

l     内存插槽有异物导致信号异常。

l     CPU故障。

处理步骤

当告警描述中体现了故障内存的丝印时:

1.     检查内存槽位是否存在异物或污垢。

     是 => 2

     否 => 3

2.     清理内存槽位并重新安装内存,服务器上电后检查告警会否清除。

     是 => 处理完毕

     否 => 3

3.     更换告警内存,服务器上电后检查告警会否清除。

     是 => 处理完毕

     否 => 4

4.     如告警信息中有指定内存板,请优先更换内存板,服务器上电后检查告警会否清除。

     是 => 处理完毕

     否 => 5

5.     更换内存所在的CPU板,服务器上电后检查告警会否清除。

     是 => 处理完毕

     否 => 6

6.     更换内存对应的CPU。

     是 => 处理完毕

     否 => 7

7.     请联系技术支持处理。

当告警描述中不体现故障内存丝印,仅体现通道号时:

8.     如告警信息中有指定内存板,请优先更换内存板,服务器上电后检查告警会否清除。

     是 => 处理完毕

     否 => 9

9.     更换内存所在的CPU板,服务器上电后检查告警会否清除。

     是 => 处理完毕

     否 => 10

10.     更换内存对应的CPU。

     是 => 处理完毕

否 => 11

11.     请联系技术支持处理。

----结束

9.5 ALM-0x01000059 内存配置错误(Memory,严重告警)

告警解释

告警描述:

[arg1] arg2 memory configuration error. Error code: 0xarg3 (SN: arg4, BN: arg5).

l     此告警支持上报内存的序列号和BOM编码。

l     iBMC V561及以上版本支持此告警。

当服务器安装了不兼容的内存,或未按照正确的分布规则安装内存时,产生此告警。

DIMM的分布规则请参考相关产品用户指南中的“安装DIMM”章节。

产生此告警的主体类型为:Memory

告警属性

告警ID

告警级别

可自动清除

0x01000059

严重

 

告警参数

参数名称

参数含义

arg1

告警相关内存板的槽位号。

arg2

告警相关内存丝印,或CPU槽位号和通道号。

l     内存丝印,例如“DIMM010(B)”。

l     CPU槽位号及通道号

说明

不同型号的服务器,同一通道对应的内存数量不同。

arg3

告警相关的错误码。

对系统的影响

可能导致系统性能降低。

可能原因

l     服务器配置了不兼容的内存。

l     服务器内存未按照正确的规则安装。

处理步骤

                                步骤 1     检查服务器是否同时存在其他的指定内存的告警。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     按照告警处理建议清除其他内存告警后,检查本告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     将服务器下电,收集告警内存的具体型号。

                                步骤 4     通过计算产品兼容性查询助手查询告警内存是否符合服务器兼容性要求。

l     是 => 步骤5

l     否 => 步骤7

                                步骤 5     检查内存位置是否正确。

内存的分布规则请参考产品的用户指南。

l     是 => 步骤8

l     否 => 步骤6

                                步骤 6     按照正确的方法重新安装内存,服务器上电后查看告警是否清除。

l     是 => 处理完毕

l     否 => 步骤8

                                步骤 7     将告警内存更换为符合服务器兼容性的内存,服务器上电后查看告警是否清除。

更换内存的具体操作,请参考相关产品的用户指南。

l     是 => 处理完毕

l     否 => 步骤8

                                步骤 8     请联系技术支持处理。

----结束

9.6 ALM-0x2C00000D 系统POST检测到无内存(System,紧急告警)

告警解释

告警描述:

No memory detected.

当BIOS启动时,如果检测到无内存条、唯一的内存条故障、唯一的内存条位置错误时,产生此告警。

产生此告警的主体类型为:System

告警属性

告警ID

告警级别

可自动清除

0x2C00000D

紧急

 

告警参数

参数名称

参数含义

对系统的影响

操作系统无法正常启动。

可能原因

l     内存条非服务器兼容型号。

l     内存插法错误。

l     内存故障。

l     内存插槽有异物导致信号异常。

处理步骤

                                步骤 1     检查服务器是否存在其他指定内存告警。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     按照处理建议清除其他内存告警后,检查当前告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     确认服务器当前内存型号及插法情况是否符合要求。

l     是 => 步骤7

l     否 => 步骤4

                                步骤 4     通过计算产品兼容性查询助手查询当前内存是否为服务器兼容的型号,且与当前CPU配套。

l     是 => 步骤6

l     否 => 步骤5

                                步骤 5     将当前内存更换为符合服务器兼容性及CPU要求的型号并保证安装位置正确。检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤6

                                步骤 6     重新安装内存并保证安装位置正确,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤7

                                步骤 7     更换同类型内存并保证安装位置正确,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤8

                                步骤 8     更换服务器CPU板,检查告警是否清除

l     是 => 处理完毕

l     否 => 步骤9

                                步骤 9     请联系技术支持处理。

----结束

9.7 ALM-0x2C00004B 内存配置错误(System,紧急告警)

告警解释

告警描述:

System memory configuration error. Error code: arg1.

当服务器检测到不兼容的内存,或未按照正确的分布规则安装内存时,产生此告警。

DIMM的分布规则请参考相关产品用户指南中的“安装DIMM”章节。

产生此告警的主体类型为:System

告警属性

告警ID

告警级别

可自动清除

0x2C00004B

紧急

 

告警参数

参数名称

参数含义

arg1

告警相关的错误码

对系统的影响

可能导致系统性能降低或系统无法正常启动。

可能原因

l     服务器配置了不兼容的内存。

l     服务器内存未按照正确的规则安装。

处理步骤

                                步骤 1     检查服务器是否同时存在其他的指定内存的告警。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     按照告警处理建议清除其他内存告警后,检查本告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     将服务器下电,收集告警内存的具体型号。

                                步骤 4     通过计算产品兼容性查询助手查询告警内存是否符合服务器兼容性要求。

l     是 => 步骤5

l     否 => 步骤7

                                步骤 5     检查内存位置是否正确。

内存的分布规则请参考产品的用户指南。

l     是 => 步骤8

l     否 => 步骤6

                                步骤 6     按照正确的方法重新安装内存,服务器上电后查看告警是否清除。

l     是 => 处理完毕

l     否 => 步骤8

                                步骤 7     将告警内存更换为符合服务器兼容性的内存,服务器上电后查看告警是否清除。

更换内存的具体操作,请参考相关产品的用户指南。

l     是 => 处理完毕

l     否 => 步骤8

                                步骤 8     请联系技术支持处理。

----结束

9.8 ALM-0x2C00004F 系统无可用内存(System,紧急告警)

告警解释

告警描述:

System has no available memory. Error code: arg1.

服务器启动过程中,当检测到无可用内存时,产生此告警。

产生此告警的主体类型为:System

告警属性

告警ID

告警级别

可自动清除

0x2C00004F

紧急

 

告警参数

参数名称

参数含义

arg1

告警相关的错误码

对系统的影响

导致操作系统无法正常启动。

可能原因

l     配置了不兼容的内存。

l     内存插法错误。

l     内存故障。

l     内存插槽故障或存在异物导致信号异常。

处理步骤

                                步骤 1     检查服务器是否同时存在其他的指定内存的告警。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     按照告警处理建议清除其他内存告警后,查看本告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     将服务器下电,收集告警内存的具体型号。

                                步骤 4     通过计算产品兼容性查询助手查询告警内存是否符合服务器兼容性要求。

l     是 => 步骤5

l     否 => 步骤6

                                步骤 5     检查内存位置是否正确。

内存的分布规则请参考产品的用户指南。

l     是 => 步骤8

l     否 => 步骤6

                                步骤 6     按照正确的方法重新安装内存,服务器上电后查看告警是否清除。

l     是 => 处理完毕

l     否 => 步骤8

                                步骤 7     将告警内存更换为符合服务器兼容性的内存,服务器上电后查看告警是否清除。

更换内存的具体操作,请参考相关产品的用户指南。

l     是 => 处理完毕

l     否 => 步骤10

                                步骤 8     更换内存,服务器上电后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤9

                                步骤 9     更换CPU板,服务器上电后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤10

                             步骤 10     请联系技术支持处理。

----结束


10 其他告警

介绍服务器可能产生的其他告警。

10.1  ALM-0x00000011 CPU自检失败(CPU,紧急告警)

10.2  ALM-0x00000013 CPU配置错误(CPU,紧急告警)

10.3  ALM-0x0000001D CPU MCE/AER错误(CPU,紧急告警)

10.4  ALM-0x00000073 CPU不在位(CPU,严重告警)

10.5  ALM-0x000000BB CPU内存通道故障(CPU,轻微告警)

10.6  ALM-0x02000021 硬盘VPD信息读取失败(Disk,轻微告警)

10.7  ALM-0x08000001 标准PCIe卡MCE/AER故障(PCIe Card,紧急告警)

10.8  ALM-0x08000007 PCIe标卡FRU数据读取失败(PCIe Card,轻微告警)

10.9  ALM-0x0800001B PCIe标卡硬件故障告警(PCIe Card,严重告警)

10.10  ALM-0x0800001D PCIe标卡启动盘不在位告警(PCIe Card,严重告警)

10.11  ALM-0x0800001F PCIe标卡内存故障(PCIe Card,严重告警)

10.12  ALM-0x08000021 PCIe标卡固件初始化异常(PCIe Card,严重告警)

10.13  ALM-0x08000023 PCIe标卡CPU初始化异常(PCIe Card,严重告警)

10.14  ALM-0x08000025 PCIe标卡看门狗超时告警(PCIe Card,严重告警)

10.15  ALM-0x08000041 PCIe标卡电源故障(PCIe Card,严重告警)

10.16  ALM-0x0800004B RAID标卡故障(PCIe Card,严重告警)

10.17  ALM-0x08000051 时钟失锁(PCIe Card,严重告警)

10.18  ALM-0x08000053 DDR校准失败(PCIe Card,严重告警)

10.19  ALM-0x08000055 DDR工作异常(PCIe Card,严重告警)

10.20  ALM-0x08000057 PCIe链路异常(PCIe Card,严重告警)

10.21  ALM-0x08000059 业务异常中断(PCIe Card,严重告警)

10.22  ALM-0x0800005D PCIe卡自检失败(PCIe Card,严重告警)

10.23  ALM-0x08000061 PCIe卡产生不可恢复故障(PCIe Card,紧急告警)

10.24  ALM-0x08000063 PCIe卡光模块温度过高(PCIe Card,轻微告警)

10.25  ALM-0x0800006F PCIe卡带宽降低(PCIe Card,轻微告警)

10.26  ALM-0x08000073 PCIe卡部件不在位(PCIe Card,轻微告警)

10.27  ALM-0x08000075 PCIe卡硬件信息获取失败(PCIe Card,轻微告警)

10.28  ALM-0x08000077 PCIe卡功率读取失败(PCIe Card,轻微告警)

10.29  ALM-0x08000079 PCIe卡固件自愈失败(PCIe Card,轻微告警)

10.30  ALM-0x0800007B PCIe卡电压过高(PCIe Card,严重告警)

10.31  ALM-0x0800007D PCIe卡电压过低(PCIe Card,严重告警)

10.32  ALM-0x0800007F PCIe卡功率过高(PCIe Card,轻微告警)

10.33  ALM-0x08000081 PCIe卡过流保护(PCIe Card,严重告警)

10.34  ALM-0x08000083 PCIe卡过温保护(PCIe Card,严重告警)

10.35  ALM-0x08000085 PCIe卡PCIeSwitch模块故障(PCIe Card,严重告警)

10.36  ALM-0x08000087 PCIe卡MINI模块故障(PCIe Card,严重告警)

10.37  ALM-0x08000089 PCIe卡MINI模块健康状态获取失败(PCIe Card,轻微告警)

10.38  ALM-0x0800008B PCIe卡降频(PCIe Card,轻微告警)

10.39  ALM-0x0800008D PCIe卡下电(PCIe Card,严重告警)

10.40  ALM-0x08000095 RAID标卡控制器通信丢失(PCIe Card,严重告警)

10.41  ALM-0x08000097 RAID标卡控制器初始化异常(PCIe Card,严重告警)

10.42  ALM-0x080000A1 PCIe卡过流(PCIe Card,严重告警)

10.43  ALM-0x080000A3 PCIe卡芯片状态异常(PCIe Card,严重告警)

10.44  ALM-0x080000A5 PCIe卡初始化异常(PCIe Card,严重告警)

10.45  ALM-0x080000A7 PCIe卡硬件器件故障轻微告警(PCIe Card,轻微告警)

10.46  ALM-0x080000A9 PCIe卡硬件器件故障严重告警(PCIe Card,严重告警)

10.47  ALM-0x080000AB PCIe卡电流过高(PCIe Card,严重告警)

10.48  ALM-0x0D000001 网卡扣卡MCE/AER错误(Network Card,紧急告警)

10.49  ALM-0x12000019 右挂耳不在位(Chassis,轻微告警)

10.50  ALM-0x12000021 左挂耳不在位(Chassis,轻微告警)

10.51  ALM-0x1200002f 前置硬盘背板不在位(Chassis,轻微告警)

10.52  ALM-0x18000009 风扇背板CPLD自检状态失败(FAN Backplane,严重告警)

10.53  ALM-0x1A000023 证书过期或即将过期(BMC,轻微告警)

10.54  ALM-0x1A00002B 同步NTP服务器时间失败(BMC,正常告警)

10.55  ALM-0x1A00003D 许可证文件错误(BMC,严重告警)

10.56  ALM-0x1A000045 证书吊销列表过期(BMC,轻微告警)

10.57  ALM-0x1A000047 不安全密码算法告警(BMC,轻微告警)

10.58  ALM-0x1A000049 不安全协议告警(BMC,轻微告警)

10.59  ALM-0x22000001 TPM自检失败(Security Module,轻微告警)

10.60  ALM-0x24000007 CPU板时钟丢失(CPU Board,严重告警)

10.61  ALM-0x24000013 CPU板CPLD自检异常(CPU Board,严重告警)

10.62  ALM-0x2400001B CPU板RTC电池电压低(CPU Board,严重告警)

10.63  ALM-0x28000003 CPLD信号线连接异常(Cable,严重告警)

10.64  ALM-0x2800000F 风扇背板信号线缆连接异常(Cable,严重告警)

10.65  ALM-0x2800001F CPU的HCCS连接失败(Cable,严重告警)

10.66  ALM-0x28000031 UB线缆或连接器连接错误(Cable,严重告警)

10.67  ALM-0x28000033 UB线缆不在位或连接器未插稳(Cable,严重告警)

10.68  ALM-0x28000035 组件不支持(Cable,严重告警)

10.69  ALM-0x28000037 组件不在位严重告警(Cable,严重告警)

10.70  ALM-0x29000017 网卡光模块的功率异常(Port,严重告警)

10.71  ALM-0x29000027 以太网卡光模块速率匹配告警(Port,严重告警)

10.72  ALM-0x29000029 OAM链路检测连通性告警(Port,严重告警)

10.73  ALM-0x2900002B OAM链路检测错包类告警(Port,严重告警)

10.74  ALM-0x2C000031 系统错误(System,紧急告警)

10.75  ALM-0x2C000037 CPU型号不一致(System,紧急告警)

10.76  ALM-0x2C000039 系统启动中断(System,紧急告警)

10.77  ALM-0x2C00005B 扩展板与硬盘背板配置不匹配(System,严重告警)

10.78  ALM-0x2C000073 系统总功耗过高(System,轻微告警)

10.79  ALM-0x2C00008b 产品自描述信息异常(System,严重告警)

10.80  ALM-0x44000001 逻辑盘降级/部分降级/离线(Logical Drive,严重告警)

10.81  ALM-0x53000001 OCP器件MCE/AER故障(OCP Card,严重告警)

10.82  ALM-0x5300000B OCP器件CE类硬失效(OCP Card,轻微告警)

10.83  ALM-0x5300000D OCP器件降带宽(OCP Card,轻微告警)

10.84  ALM-0x5D000007 扩展板CPLD自检异常(Expand Board,严重告警)

10.85  ALM-0x5D00000D 扩展板更换记录(Expand Board,正常告警)

10.1 ALM-0x00000011 CPU自检失败(CPU,紧急告警)

告警解释

告警描述:

CPU arg1 self-test failed (SN: arg2, BN: arg3).

iBMC V316及以上版本,主体类型为CPU、Disk的告警分别支持上报各自的序列号和BOM编码,主体类型为Memory的告警分别支持上报BOM编码。

系统启动过程中,当CPU自检失败时,产生此告警。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x00000011

紧急

 

告警参数

参数名称

参数含义

arg1

CPU的槽位号。

arg2

CPU的序列号。

arg3

BOM编码。

对系统的影响

操作系统无法正常启动。

可能原因

l     CPU故障。

l     CPU板故障。

处理步骤

                                步骤 1     更换CPU板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

10.2 ALM-0x00000013 CPU配置错误(CPU,紧急告警)

告警解释

告警描述:

CPU arg1 configuration error (SN: arg2, BN: arg3).

iBMC V316及以上版本,主体类型为CPU、Disk的告警分别支持上报各自的序列号和BOM编码,主体类型为Memory的告警分别支持上报BOM编码。

当CPU的IIO(Integrated I/O)单元发生致命错误时,产生此告警。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x00000013

紧急

 

告警参数

参数名称

参数含义

arg1

CPU的槽位号。

arg2

CPU的序列号。

arg3

BOM编码。

对系统的影响

操作系统无法正常启动。

可能原因

l     CPU型号不一致。

l     CPU故障。

l     CPU板故障。

处理步骤

                                步骤 1     保证CPU型号一致,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     更换CPU板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     请联系技术支持处理。

----结束

10.3 ALM-0x0000001D CPU MCE/AER错误(CPU,紧急告警)

告警解释

告警描述:

CPU arg1 triggered an uncorrectable error, arg2 (SN: arg3, BN: arg4).

业务系统运行时,当CPU出现如下任一错误时,产生此告警。

l     非内存镜像模式下,SMI2链路失效。

l     CPU执行错误的程序。

l     VMSE链路发生奇偶校验错误

l     内存控制器接收到带poison标签的数据。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x0000001D

紧急

 

告警参数

参数名称

参数含义

arg1

CPU的槽位号。

arg2

告警相关的错误码。

arg3

CPU的序列号。

arg4

BOM编码。

对系统的影响

可能导致系统停止响应。

可能原因

l     CPU故障。

l     CPU板故障。

处理步骤

                                步骤 1     下电后检查该部件与其插槽是否存在损坏或接触不良现象。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     重新安装产生告警的CPU板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     更换CPU板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     请联系技术支持处理。

----结束

10.4 ALM-0x00000073 CPU不在位(CPU,严重告警)

告警解释

告警描述:

Failed to start the system. CPU arg1 was not detected (SN: arg2, BN: arg3).

iBMC V316及以上版本,主体类型为CPU、Disk的告警分别支持上报各自的序列号和BOM编码,主体类型为Memory的告警分别支持上报BOM编码。

当系统无法启动,CPU不在位时,产生此告警。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x00000073

严重

 

告警参数

参数名称

参数含义

arg1

CPU的槽位号。

arg2

CPU的序列号。

arg3

BOM编码。

对系统的影响

可能导致系统无法正常启动。

可能原因

l     未安装CPU。

l     CPU插座接触不良。

l     CPU板故障。

处理步骤

                                步骤 1     检测CPU是否在位。

l     是 => 步骤3

l     否 => 步骤2

                                步骤 2     更换告警的CPU板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     请联系技术支持处理。

----结束

10.5 ALM-0x000000BB CPU内存通道故障(CPU,轻微告警)

告警解释

告警描述:

The memory channel (arg1) of CPU arg2 is faulty (SN: arg3, BN: arg4).

iBMC V316及以上版本,主体类型为CPU、Disk的告警分别支持上报各自的序列号和BOM编码,主体类型为Memory的告警分别支持上报BOM编码。

当系统检测到CPU内存通道内的内存存在CA奇偶校验错误时,产生此告警。

产生此告警的主体类型为:CPU

告警属性

告警ID

告警级别

可自动清除

0x000000BB

轻微

 

告警参数

参数名称

参数含义

arg1

告警相关的内存通道编号。

arg2

告警相关的CPU的槽位号。

arg3

CPU的序列号。

arg4

BOM编码。

 

对系统的影响

可能导致操作系统停止响应。

可能原因

l     内存连接松动或损坏。

l     内存故障。

l     CPU板故障。

处理步骤

                                步骤 1     下电后检查内存与其插槽是否存在损坏或接触不良现象。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     重新安装告警通道相关的所有内存,检查告警是否清除。

内存的分布情况请参考服务器用户指南。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     将告警通道内的所有内存,与正常通道的内存互换位置,确认告警是否会跟随内存迁移。

l     是 => 步骤4

l     否 => 步骤6

                                步骤 4     将告警通道内的内存逐一与正常内存互换位置,通过是否产生告警来确认故障内存位置。

                                步骤 5     更换故障内存后,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤7

                                步骤 6     更换CPU板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤7

                                步骤 7     请联系技术支持处理。

----结束

10.6 ALM-0x02000021 硬盘VPD信息读取失败(Disk,轻微告警)

告警解释

告警描述:

Failed to obtain data of the arg1 disk arg2 VPD information (SN: arg3).

iBMC V316及以上版本,主体类型为CPU、Disk的告警分别支持上报各自的序列号和BOM编码,主体类型为Memory的告警分别支持上报BOM编码。

硬盘VPD信息读取失败时,产生此告警。

产生此告警的主体类型为:Disk

告警属性

告警ID

告警级别

可自动清除

0x02000021

轻微

 

告警参数

参数名称

参数含义

arg1

硬盘的位置,例如“rear”。

arg2

硬盘的名称,例如“disk0”、“disk1”、“diskA1”、“diskB1”等。

arg3

硬盘的序列号。

对系统的影响

NVME硬盘无法被iBMC系统识别。

可能原因

l     硬盘与插槽存在损坏或接触不良现象。

l     硬盘故障。

l     硬盘背板故障。

处理步骤

                                步骤 1     重启iBMC,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     拔插电源线缆或拔插单板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     更换硬盘,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     更换硬盘背板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     请联系技术支持处理。

----结束

10.7 ALM-0x08000001 标准PCIe卡MCE/AER故障(PCIe Card,紧急告警)

告警解释

告警描述:

The [arg1] PCIe card arg2 (arg3) triggered an uncorrectable error, arg4.

当检测到PCIe标卡触发不可纠正错误时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x08000001

紧急

 

告警参数

参数名称

参数含义

arg1

PCIe卡的位置,例如“front”、“rear”等。

arg2

PCIe卡的槽位号,例如“1”、“2”。

arg3

PCIe卡的类型,例如“M60 GPU”。

arg4

告警相关的错误码

对系统的影响

可能导致PCIe卡运行不稳定,甚至系统停止响应。

可能原因

l     PCIe标卡故障。

l     CPU板故障。

处理步骤

                                步骤 1     下电后检查该部件与其插槽是否存在损坏或接触不良现象。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     重新安装产生告警的PCIe卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     更换PCIe卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     更换CPU板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     请联系技术支持处理。

----结束

10.8 ALM-0x08000007 PCIe标卡FRU数据读取失败(PCIe Card,轻微告警)

告警解释

告警描述:

Failed to obtain electronic label data of the [arg1] PCIe card arg2 (arg3).

PCIe卡电子标签数据读取失败时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x08000007

轻微

 

告警参数

参数名称

参数含义

arg1

PCIe卡的位置,例如“front”、“rear”等。

arg2

PCIe卡的槽位号,例如“1”、“2”。

arg3

PCIe卡的类型,例如“M60 GPU”。

对系统的影响

影响系统读取PCIe卡资产信息。

可能原因

资产信息损坏。

处理步骤

                                步骤 1     重启iBMC,查看告警是否清除。

l     是 => 处理完毕。

l     否 => 步骤2

                                步骤 2     更换PCIe卡,查看告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     请联系技术支持处理。

----结束

10.9 ALM-0x0800001B PCIe标卡硬件故障告警(PCIe Card,严重告警)

告警解释

告警描述:

A hardware fault (arg1) occurs in [arg2] PCIe card arg3 (arg4).

PCIe卡发生硬件故障时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x0800001B

严重

 

告警参数

参数名称

参数含义

arg1

硬件故障描述,例如“system power loss”、“core clock signal loss”等。

arg2

PCIe卡的位置,例如“front”、“rear”等。

arg3

PCIe卡的槽位号,例如“1”、“2”。

arg4

PCIe卡的类型,例如“M60 GPU”。

对系统的影响

可能导致PCIe卡设备工作异常或停止响应,从而引起系统运行异常。

可能原因

PCIe卡故障。

处理步骤

                                步骤 1     更换PCIe卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

10.10 ALM-0x0800001D PCIe标卡启动盘不在位告警(PCIe Card,严重告警)

告警解释

告警描述:

The [arg1] PCIe card arg2 (arg3) boot disk arg4 does not exist.

PCIe卡的启动盘不在位时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x0800001D

严重

 

告警参数

参数名称

参数含义

arg1

PCIe卡的位置,例如“front”、“rear”等。

arg2

PCIe卡的槽位号,例如“1”、“2”。

arg3

PCIe卡的类型,例如“M60 GPU”。

arg4

PCIe卡的启动盘,例如“M.2_1”、“M.2_2”等。

对系统的影响

可能导致PCIe卡无法正常启动。

可能原因

l     PCIe卡的启动盘不在位。

l     PCIe卡故障。

处理步骤

                                步骤 1     将服务器下电,拔出PCIe卡后,检查其启动盘是否满配。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     重新安装启动盘,将PCIe卡插回服务器并上电后,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 3     安装启动盘,将PCIe卡插回服务器并上电后,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     将告警PCIe卡更换为启动盘满配的PCIe卡后,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     请联系技术支持处理。

----结束

10.11 ALM-0x0800001F PCIe标卡内存故障(PCIe Card,严重告警)

告警解释

iBMC V312之前版本,告警描述:

The [arg1] PCIe card arg2 (arg3) arg4 is arg5.

iBMC V312及以上版本,告警描述:

The [arg1] PCIe card arg2 (arg3) arg4 is arg5. [arg6] [arg7]

PCIe卡发生内存故障时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x0800001F

严重

 

告警参数

参数名称

参数含义

arg1

PCIe卡的位置,例如“front”、“rear”等。

arg2

PCIe卡的槽位号,例如“1”、“2”。

arg3

PCIe卡的类型。

arg4

PCIe卡上的内存的丝印,例如“DIMM00”、“DIMM10”等。

arg5

内存故障的描述,例如“not detected”、“isolated”等。

arg6

告警相关的附加描述,例如“Error Code”。

说明

iBMC V312及以上版本支持此参数。

arg7

告警相关的故障码,例如“(7168)”。

说明

iBMC V312及以上版本支持此参数。

对系统的影响

可能导致PCIe卡的系统性能降低或系统无法正常启动。

可能原因

l     PCIe卡的内存不在位或被隔离。

l     PCIe卡故障。

处理步骤

                                步骤 1     更换PCIe卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

10.12 ALM-0x08000021 PCIe标卡固件初始化异常(PCIe Card,严重告警)

告警解释

iBMC V312之前版本,告警描述:

The [arg1] PCIe card arg2 (arg3) arg4 has a firmware initialization alarm [arg5].

iBMC V312及以上版本,告警描述:

The [arg1] PCIe card arg2 (arg3) arg4 has a firmware initialization alarm [arg5]. [arg6] [arg7]

PCIe卡固件初始化过程中出现异常时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x08000021

严重

 

告警参数

参数名称

参数含义

arg1

PCIe卡的位置,例如“front”、“rear”等。

arg2

PCIe卡的槽位号,例如“1”、“2”。

arg3

PCIe卡的类型,例如“M60 GPU”。

arg4

PCIe卡固件包含的模块,例如“CDR”、“MAC address”等。

arg5

产生异常的位置,例如“CDR0”、“Eth1”等。

arg6

告警相关的附加描述,例如“Error Code”。

说明

iBMC V312及以上版本支持此参数。

arg7

告警相关的故障码,例如“(7168)”。

说明

iBMC V312及以上版本支持此参数。

对系统的影响

可能导致PCIe卡的系统无法正常启动。

可能原因

PCIe卡固件如BIOS CRC/CDR/黑匣子内存模块/MAC地址等初始化过程中出现异常。

处理步骤

                                步骤 1     升级PCIe标卡软件版本至最新,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     更换PCIe标卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     请联系技术支持处理。

----结束

10.13 ALM-0x08000023 PCIe标卡CPU初始化异常(PCIe Card,严重告警)

告警解释

告警描述:

The [arg1] PCIe card arg2 (arg3) CPU arg4 has an initialization alarm.

PCIe卡CPU初始化过程中出现异常时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x08000023

严重

 

告警参数

参数名称

参数含义

arg1

PCIe卡的位置,例如“front”、“rear”等。

arg2

PCIe卡的槽位号,例如“1”、“2”。

arg3

PCIe卡的类型,例如“M60 GPU”。

arg4

产生异常的模块,例如“PCIe EP”、“L3 cache”等。

对系统的影响

可能导致PCIe卡的系统无法正常启动。

可能原因

PCIe卡故障。

处理步骤

                                步骤 1     更换PCIe卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

10.14 ALM-0x08000025 PCIe标卡看门狗超时告警(PCIe Card,严重告警)

告警解释

告警描述:

The [arg1] PCIe card arg2 (arg3) has a watchdog timeout alarm during arg4.

PCIe卡看门狗超时时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x08000025

严重

 

告警参数

参数名称

参数含义

arg1

PCIe卡的位置,例如“front”、“rear”等。

arg2

PCIe卡的槽位号,例如“1”、“2”。

arg3

PCIe卡的类型,例如“M60 GPU”。

arg4

系统的状态,例如“BIOS加载”、“OS加载”和“OS运行”。

对系统的影响

可能导致PCIe卡的系统重启。

可能原因

PCIe卡BIOS或系统软件没有在超时时间内将看门狗计数器清零。

处理步骤

                                步骤 1     对PCIe标卡的OS执行先下电再上电的操作后,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     升级PCIe标卡软件版本至最新,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     更换告警PCIe标卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     请联系技术支持处理。

----结束

10.15 ALM-0x08000041 PCIe标卡电源故障(PCIe Card,严重告警)

告警解释

告警描述为:

The [arg1] PCIe card arg2 (arg3) power failure. [arg4] [arg5]

PCIe卡电源故障时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x08000041

严重

 

告警参数

参数名称

参数含义

arg1

告警相关PCIe卡的位置,例如“GpuBoard”、“Riser”。

arg2

告警相关PCIe卡的槽位号,例如“1”、“2”。

arg3

告警相关PCIe卡的类型,例如“FPGA Chip”、“Hi1822 Optical Module”。

arg4

告警相关的附加描述,例如“Error Code”。

说明

iBMC V308及以上版本支持此参数。

arg5

告警相关的故障码,例如“(7001)”。

说明

iBMC V308及以上版本支持此参数。

对系统的影响

影响PCIe卡相关业务,可能导致系统运行异常。

可能原因

l     PCIe卡故障。

l     PCIe卡插槽故障。

处理步骤

                                步骤 1     重新安装PCIe卡,保证其与插槽的良好接触,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     更换产生告警的PCIe卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     更换PCIe卡插槽所在的部件,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     请联系技术支持处理。

----结束

10.16 ALM-0x0800004B RAID标卡故障(PCIe Card,严重告警)

告警解释

告警描述:

The [arg1] PCIe card arg2 (arg3) is fault.

当RAID标卡故障时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x0800004B

严重

 

告警参数

参数名称

参数含义

arg1

告警相关PCIe卡的位置,例如“front”、“inner”、“rear”等。

arg2

告警相关PCIe卡的槽位号。

arg3

此处仅为“RAID”。

对系统的影响

可能影响RAID卡相关业务,甚至导致系统停止响应。

可能原因

RAID卡故障。

处理步骤

若产生告警的RAID卡不支持带外管理。

1.     重新启动OS,查看告警是否清除。

     是=> 处理完毕

     否=> 2

2.     更换RAID卡,查看告警是否清除。

     是=> 处理完毕

     否=> 3

3.     更换RAID卡的BBU,查看告警是否清除。

     是=> 处理完毕

     否=> 4

4.     请联系技术支持处理。

若产生告警的RAID卡支持带外管理。

1.     重启进入UEFI启动模式下的BIOS Device Manager,进入修复界面,选择“Repair the whole platform”进行修复,查看告警是否清除。

具体操作请参考RAID控制卡用户指南对应型号RAID卡章节中的故障处理章节。

     是=> 处理完毕

     否=> 2

2.     重新拔插RAID卡,查看告警是否清除。

     是=> 处理完毕

     否=> 3

3.     更换RAID卡,待服务器重新上电后,查看告警是否清除。

     是=> 处理完毕

     否=> 4

4.     更换RAID卡的BBU,查看告警是否清除。

     是=> 处理完毕

     否=> 5

5.     请联系技术支持处理。

10.17 ALM-0x08000051 时钟失锁(PCIe Card,严重告警)

告警解释

告警描述:

The clock is out of lock on arg1 PCIe card arg2 (arg3). Error code: arg4

PCIe卡时钟失锁时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x08000051

严重

 

告警参数

参数名称

参数含义

arg1

告警相关PCIe卡的位置,例如“front”、“rear”等。

arg2

告警相关PCIe卡的槽位号,例如“1”、“2”。

arg3

告警相关PCIe卡的类型,当前仅为“FPGA”。

arg4

告警相关的错误码。

对系统的影响

可能导致PCIe卡运行不稳定,系统运行异常。

可能原因

DA200压缩卡硬件故障。

处理步骤

                                步骤 1     更换产生告警的DA200压缩卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

10.18 ALM-0x08000053 DDR校准失败(PCIe Card,严重告警)

告警解释

告警描述:

The DDR calibration failed on arg1 PCIe card arg2 (arg3). Error code: arg4

PCIe卡DDR校准失败时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x08000053

严重

 

告警参数

参数名称

参数含义

arg1

告警相关PCIe卡的位置,例如“front”、“rear”等。

arg2

告警相关PCIe卡的槽位号,例如“1”、“2”。

arg3

告警相关PCIe卡的类型,当前仅为“FPGA”。

arg4

告警相关的错误码。

对系统的影响

可能导致PCIe卡运行不稳定,系统运行异常。

可能原因

DA200压缩卡硬件故障。

处理步骤

                                步骤 1     更换产生告警的DA200压缩卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

10.19 ALM-0x08000055 DDR工作异常(PCIe Card,严重告警)

告警解释

告警描述:

The DDR on arg1 PCIe card arg2 (arg3) is malfunctioning. Error code: arg4

PCIe卡DDR工作异常时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x08000055

严重

 

告警参数

参数名称

参数含义

arg1

告警相关PCIe卡的位置,例如“front”、“rear”等。

arg2

告警相关PCIe卡的槽位号,例如“1”、“2”。

arg3

告警相关PCIe卡的类型,当前仅为“FPGA”。

arg4

告警相关的错误码。

对系统的影响

可能导致PCIe卡运行不稳定,系统运行异常。

可能原因

DA200压缩卡硬件故障。

处理步骤

                                步骤 1     更换产生告警的DA200压缩卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

10.20 ALM-0x08000057 PCIe链路异常(PCIe Card,严重告警)

告警解释

告警描述:

The link on arg1 PCIe card arg2 (arg3) is faulty. Error code: arg4

PCIe卡PCIe链路异常时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x08000057

严重

 

告警参数

参数名称

参数含义

arg1

告警相关PCIe卡的位置,例如“front”、“rear”等。

arg2

告警相关PCIe卡的槽位号,例如“1”、“2”。

arg3

告警相关PCIe卡的类型,当前仅为“FPGA”。

arg4

告警相关的错误码。

对系统的影响

可能导致PCIe卡运行不稳定,系统运行异常。

可能原因

DA200压缩卡硬件故障。

处理步骤

                                步骤 1     更换产生告警的DA200压缩卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

10.21 ALM-0x08000059 业务异常中断(PCIe Card,严重告警)

告警解释

告警描述:

Services on arg1 PCIe card arg2 (arg3) are interrupted. Error code: arg4

PCIe卡业务异常中断时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x08000059

严重

 

告警参数

参数名称

参数含义

arg1

告警相关PCIe卡的位置,例如“front”、“rear”等。

arg2

告警相关PCIe卡的槽位号,例如“1”、“2”。

arg3

告警相关PCIe卡的类型,当前仅为“FPGA”。

arg4

告警相关的错误码。

对系统的影响

可能导致PCIe卡运行不稳定,系统运行异常。

可能原因

DA200压缩卡硬件故障。

处理步骤

                                步骤 1     更换产生告警的DA200压缩卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

10.22 ALM-0x0800005D PCIe卡自检失败(PCIe Card,严重告警)

告警解释

告警描述:

Self-test failed on arg1 PCIe card arg2 (arg3). Error code: arg4

PCIe卡自检失败时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x0800005D

严重

 

告警参数

参数名称

参数含义

arg1

告警相关PCIe卡的位置,例如“FIO1”。

arg2

告警相关PCIe卡的槽位号,例如“1”、“2”。

arg3

告警相关PCIe卡的名称,例如“FPGA”、“SDI card”。

arg4

告警相关的故障码。

 

对系统的影响

导致PCIe卡运行不稳定,系统运行异常。

可能原因

PCIe卡故障。

处理步骤

                                步骤 1     更换产生告警的PCIe卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

10.23 ALM-0x08000061 PCIe卡产生不可恢复故障(PCIe Card,紧急告警)

告警解释

告警描述:

Unrecoverable errors are detected on arg1 PCIe card arg2 (arg3). Error code: arg4

PCIe卡产生不可恢复的故障时,产生此告警。

产生此告警的主体类型为:PCIe Card

iBMC V550及以上版本不再支持此告警。

告警属性

告警ID

告警级别

可自动清除

0x08000061

紧急

 

告警参数

参数名称

参数含义

arg1

告警相关PCIe卡的位置,例如“FIO1”。

arg2

告警相关PCIe卡的槽位号,例如“1”、“2”。

arg3

告警相关PCIe卡的名称,例如“FPGA”、“SDI card”。

arg4

告警相关的故障码。

 

对系统的影响

导致PCIe卡运行不稳定,系统运行异常。

可能原因

PCIe卡故障。

处理步骤

                                步骤 1     更换产生告警的PCIe卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

10.24 ALM-0x08000063 PCIe卡光模块温度过高(PCIe Card,轻微告警)

告警解释

告警描述:

The [arg1] arg2 optical module [arg3] temperature (arg4 degrees C) exceeds the overtemperature threshold (arg5 degrees C).

当检测到PCIe卡光模块温度过高时,产生此告警,当温度恢复到正常范围内时,此告警恢复。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x08000063

轻微

 

告警参数

参数名称

参数含义

arg1

光模块所在PCIe卡的位置,例如“FIO”。

arg2

光模块所在PCIe卡的名称及槽位信息,例如“PCIe Card 3”。

arg3

光模块所在端口的编号,例如“1”、“2”。

arg4

对应传感器的当前读数。

arg5

告警门限。

 

对系统的影响

可能导致光模块相关业务无法正常运行。

可能原因

l     风扇模块故障。

l     环境温度过高。

l     进风口/出风口堵塞。

l     光模块故障。

处理步骤

                                步骤 1     检查是否存在风扇告警。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     更换风扇模块,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     检查机房环境温度是否已超出设备运行环境要求。

l     是 => 步骤4

l     否 => 步骤5

                                步骤 4     将机房环境温度降低至设备运行环境要求的温度,5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     检查进风口/出风口是否有异物堵塞。

l     是 => 步骤6

l     否 => 步骤7

                                步骤 6     清除异物,5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤7

                                步骤 7     更换产生告警的光模块,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤8

                                步骤 8     请联系技术支持处理。

----结束

10.25 ALM-0x0800006F PCIe卡带宽降低(PCIe Card,轻微告警)

告警解释

告警描述:

The arg1 PCIe card arg2 arg3 bandwidth decreased.

PCIe卡带宽降低时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x0800006F

轻微

 

告警参数

参数名称

参数含义

arg1

PCIe标卡所在板卡,例如“GpuBoard”。

arg2

PCIe标卡的槽位号,例如“1”、“2”。

arg3

PCIe标卡名称,例如“SDI Card”。

对系统的影响

系统仍能正常运行,但可能会降低系统性能。

可能原因

PCIe标卡与插槽可能存在损坏或接触不良现象。

处理步骤

                                步骤 1     尽快安排计划性维护,待服务器下电后检查该部件与其插槽是否存在损坏或接触不良现象。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     重新安装产生告警的PCIe标卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     更换产生告警的PCIe标卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     更换PCIe标卡所在板卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     请联系技术支持处理。

----结束

10.26 ALM-0x08000073 PCIe卡部件不在位(PCIe Card,轻微告警)

告警解释

告警描述:

The arg1 PCIe card arg2 (arg3) arg4 is absent.

PCIe卡的部件不在位时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x08000073

轻微

 

告警参数

参数名称

参数含义

arg1

PCIe标卡所在板卡,例如“GpuBoard”、“Riser”。

arg2

PCIe标卡的槽位号,例如“1”、“2”。

arg3

PCIe标卡名称,例如“SDI”、“NIC”。

arg4

PCIe标卡的部件名称,例如“NetCard”、“TransformCard”。

对系统的影响

PCIe卡工作异常,可能影响业务功能。

可能原因

l     PCIe标卡的部件不在位。

l     电源线缆未正确连接。

处理步骤

                                步骤 1     检查PCIe标卡产生告警的部件是否在位。

l     是 => 步骤3

l     否 => 步骤2

                                步骤 2     安装PCIe标卡产生告警的部件,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     检查电源线缆是否正确连接。

l     是 => 步骤5

l     否 => 步骤4

                                步骤 4     正确连接电源线缆,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     更换产生告警的部件,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤6

                                步骤 6     请联系技术支持处理。

----结束

10.27 ALM-0x08000075 PCIe卡硬件信息获取失败(PCIe Card,轻微告警)

告警解释

告警描述:

Failed to obtain the hardware information about arg1 PCIe card arg2 (arg3). [arg4] [arg5]

PCIe卡硬件信息获取失败时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x08000075

轻微

 

告警参数

参数名称

参数含义

arg1

告警相关PCIe卡的位置,例如“GpuBoard”、“Riser”。

arg2

告警相关PCIe卡的槽位号,例如“1”、“2”。

arg3

告警相关PCIe卡的名称,例如“FPGA”、“NIC”。

arg4

告警相关的附加描述,例如“Error Code”。

arg5

告警相关的故障码,例如“(7168)”、“(7177)”。

对系统的影响

无法读取单板的PCB版本以及BOM编码。

可能原因

PCIe卡故障。

处理步骤

                                步骤 1     对OS执行先下电后上电操作,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     更换产生告警的PCIe卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     请联系技术支持处理。

----结束

10.28 ALM-0x08000077 PCIe卡功率读取失败(PCIe Card,轻微告警)

告警解释

告警描述:

Failed to obtain data of the arg1 PCIe card arg2 (arg3) power. [arg4] [arg5]

PCIe卡功率读取失败时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x08000077

轻微

 

告警参数

参数名称

参数含义

arg1

告警相关PCIe卡的位置,例如“GpuBoard”、“Riser”。

arg2

告警相关PCIe卡的槽位号,例如“1”、“2”。

arg3

告警相关PCIe卡的名称,例如“FPGA”、“NIC”。

arg4

告警相关的附加描述,例如“Error Code”。

arg5

告警相关的故障码,例如“(7168)”、“(7177)”。

对系统的影响

无法正常监控功率,影响过流保护。

可能原因

PCIe卡故障。

处理步骤

                                步骤 1     对OS执行先下电后上电操作,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     更换产生告警的PCIe卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     请联系技术支持处理。

----结束

10.29 ALM-0x08000079 PCIe卡固件自愈失败(PCIe Card,轻微告警)

告警解释

告警描述:

Firmware self-heal failed on arg1 PCIe card arg2 (arg3). [arg4] [arg5]

当PCIe卡故障时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x08000079

轻微

 

告警参数

参数名称

参数含义

arg1

承载PCIe卡的部件,包括“GpuBoard”、“Riser”。

arg2

PCIe卡的槽位号,例如“1”、“2”。

arg3

PCIe卡的类型,例如“NIC”、“FPGA”。

arg4

故障附加描述,例如“Error Code: 7168”、“Error Code: 7169”。

arg5

其它故障附加描述。

 

对系统的影响

PCIe固件无法完成自愈,影响PCIe卡相关业务功能。

可能原因

PCIe卡故障。

处理步骤

                                步骤 1     更换PCIe卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

10.30 ALM-0x0800007B PCIe卡电压过高(PCIe Card,严重告警)

告警解释

告警描述:

The arg1 PCIe card arg2 (arg3) voltage is too high. [arg4] [arg5]

PCIe卡电压过高时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x0800007B

严重

 

告警参数

参数名称

参数含义

arg1

告警相关PCIe卡的位置,例如“GpuBoard”、“Riser”。

arg2

告警相关PCIe卡的槽位号,例如“1”、“2”。

arg3

告警相关PCIe卡的名称,例如“FPGA”、“NIC”。

arg4

告警相关的附加描述,例如“Error Code”。

arg5

告警相关的故障码,例如“(7168)”、“(7177)”。

对系统的影响

可能导致PCIe卡运行不稳定或故障,系统运行异常。

可能原因

PCIe卡故障。

处理步骤

                                步骤 1     通过重新拔插PCIe卡检查是否上电正常,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     更换PCIe卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     更换PCIe卡插槽所在的部件,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     请联系技术支持处理。

----结束

10.31 ALM-0x0800007D PCIe卡电压过低(PCIe Card,严重告警)

告警解释

告警描述:

The arg1 PCIe card arg2 (arg3) voltage is too low. [arg4] [arg5]

PCIe卡电压过低时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x0800007D

严重

 

告警参数

参数名称

参数含义

arg1

告警相关PCIe卡的位置,例如“GpuBoard”、“Riser”。

arg2

告警相关PCIe卡的槽位号,例如“1”、“2”。

arg3

告警相关PCIe卡的名称,例如“FPGA”、“NIC”。

arg4

告警相关的附加描述,例如“Error Code”。

arg5

告警相关的故障码,例如“(7168)”、“(7177)”。

对系统的影响

可能导致PCIe卡运行不稳定或故障,系统运行异常。

可能原因

PCIe卡故障。

处理步骤

                                步骤 1     通过重新拔插PCIe卡检查是否上电正常,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     更换PCIe卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     更换PCIe卡插槽所在的部件,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     请联系技术支持处理。

----结束

10.32 ALM-0x0800007F PCIe卡功率过高(PCIe Card,轻微告警)

告警解释

告警描述:

The arg1 PCIe card arg2 (arg3) power (arg4W) is higher than the alarm upper threshold (arg5W).

PCIe卡电流过高时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x0800007F

轻微

 

告警参数

参数名称

参数含义

arg1

承载PCIe卡的部件,包括“GpuBoard”、“Riser”。

arg2

PCIe卡的槽位号。

arg3

PCIe卡的类型,例如“NIC”、“FPGA”。

arg4

PCIe卡当前功率。

arg5

功率告警门限。

 

对系统的影响

功率过高会导致PCIe设备运行不稳定。如果告警一直存在,可能导致PCIe卡相关业务无法正常运行。

可能原因

PCIe卡电流过高。

处理步骤

                                步骤 1     执行OS先下电后上电操作,观察告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

10.33 ALM-0x08000081 PCIe卡过流保护(PCIe Card,严重告警)

告警解释

告警描述:

The arg1 PCIe card arg2 (arg3) current exceeds the protection point. [arg4] [arg5]

PCIe卡电流超过过流保护点时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x08000081

严重

 

告警参数

参数名称

参数含义

arg1

告警相关PCIe卡的位置,例如“GpuBoard”、“Riser”。

arg2

告警相关PCIe卡的槽位号,例如“1”、“2”。

arg3

告警相关PCIe卡的名称,例如“FPGA”、“NIC”。

arg4

告警相关的附加描述,例如“Error Code”。

arg5

告警相关的故障码,例如“(7168)”、“(7177)”。

对系统的影响

可能导致PCIe卡运行不稳定或故障,系统运行异常。

可能原因

PCIe卡短路。

处理步骤

                                步骤 1     对OS执行先下电后上电操作,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     操作完成后,检查告警否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     请联系技术支持处理。

----结束

10.34 ALM-0x08000083 PCIe卡过温保护(PCIe Card,严重告警)

告警解释

告警描述:

The arg1 PCIe card arg2 arg3 temperature exceeds the protection point. [arg4] [arg5]

PCIe卡温度超过过热保护点时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x08000083

严重

 

告警参数

参数名称

参数含义

arg1

告警相关PCIe卡的位置,例如“GpuBoard”、“Riser”。

arg2

告警相关PCIe卡的槽位号,例如“1”、“2”。

arg3

告警相关PCIe卡的名称,例如“FPGA”、“NIC”。

arg4

告警相关的附加描述,例如“Error Code”。

arg5

告警相关的故障码,例如“(7168)”、“(7177)”。

对系统的影响

可能导致PCIe卡运行不稳定或故障,系统运行异常。

可能原因

l     环境温度过高。

l     风扇模块故障。

l     进风口或出风口堵塞。

l     存在空槽位或间隔。

处理步骤

                                步骤 1     检查服务器是否存在风扇告警。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     更换风扇模块,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     检查机房环境温度是否已超出设备运行环境要求。

l     是 => 步骤4

l     否 => 步骤5

                                步骤 4     将机房环境温度降低至设备运行环境要求的温度,5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     检查服务器进风口/出风口是否有异物堵塞。

l     是 => 步骤6

l     否 => 步骤7

                                步骤 6     清除异物,5min后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤7

                                步骤 7     检查服务器之间的空槽位或间隔是否已加假面板或挡板。

l     是 => 步骤9

l     否 => 步骤8

                                步骤 8     为服务器之间的空槽位或间隔安装假面板或挡板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤9

                                步骤 9     对OS执行先下电后上电操作,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤10

                             步骤 10     更换产生告警的PCIe卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤11

                             步骤 11     请联系技术支持处理。

----结束

10.35 ALM-0x08000085 PCIe卡PCIeSwitch模块故障(PCIe Card,严重告警)

告警解释

告警描述:

The PCIe switch module of the arg1 PCIe card arg2 (arg3) is faulty. [arg4] [arg5]

PCIe卡PCIeSwitch模块故障时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x08000085

严重

 

告警参数

参数名称

参数含义

arg1

告警相关PCIe卡的位置,例如“GpuBoard”、“Riser”。

arg2

告警相关PCIe卡的槽位号,例如“1”、“2”。

arg3

告警相关PCIe卡的名称,例如“FPGA”、“NIC”。

arg4

告警相关的附加描述,例如“Error Code”。

arg5

告警相关的故障码,例如“(7168)”、“(7177)”。

对系统的影响

导致PCIe卡运行不稳定,系统运行异常。

可能原因

PCIe卡故障。

处理步骤

                                步骤 1     对OS执行先下电后上电操作,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     更换产生告警的PCIe卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     请联系技术支持处理。

----结束

10.36 ALM-0x08000087 PCIe卡MINI模块故障(PCIe Card,严重告警)

告警解释

告警描述:

The MINI module of the arg1 PCIe card arg2 (arg3) is faulty. [arg4] [arg5]

PCIe卡MINI模块故障时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x08000087

严重

 

告警参数

参数名称

参数含义

arg1

PCIe标卡所在板卡,例如“GpuBoard”、“Riser”。

arg2

PCIe标卡的槽位号,例如“1”、“2”。

arg3

PCIe标卡名称,例如“DMINI”。

arg4

故障附加描述,例如“Error Code: 7168”。

arg5

其它故障附加描述。

 

对系统的影响

导致PCIe卡运行不稳定,系统运行异常。

可能原因

PCIe卡故障。

处理步骤

                                步骤 1     将服务器操作系统下电再上电,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     更换产生告警的PCIe卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     请联系技术支持处理。

----结束

10.37 ALM-0x08000089 PCIe卡MINI模块健康状态获取失败(PCIe Card,轻微告警)

告警解释

告警描述:

Failed to obtain the health status of the arg1 PCIe card arg2 (arg3) MINI module. [arg4] [arg5]

PCIe卡MINI模块健康状态获取失败时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x08000089

轻微

 

告警参数

参数名称

参数含义

arg1

告警相关PCIe卡的位置,例如“GpuBoard”、“Riser”。

arg2

告警相关PCIe卡的槽位号,例如“1”、“2”。

arg3

告警相关PCIe卡的名称,例如“FPGA”、“NIC”。

arg4

告警相关的附加描述,例如“Error Code”。

arg5

告警相关的故障码,例如“(7168)”、“(7177)”。

对系统的影响

无法获知PCIe卡MINI模块的健康状态。

可能原因

PCIe卡获取MINI模块健康状态失败。

处理步骤

                                步骤 1     对OS执行先下电后上电操作,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     更换产生告警的PCIe卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     请联系技术支持处理。

----结束

10.38 ALM-0x0800008B PCIe卡降频(PCIe Card,轻微告警)

告警解释

告警描述:

The arg1 PCIe card arg2 (arg3) underclocking. [arg4] [arg5]

PCIe卡降频时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x0800008B

轻微

 

告警参数

参数名称

参数含义

arg1

告警相关PCIe卡的位置,例如“GpuBoard”、“Riser”。

arg2

告警相关PCIe卡的槽位号,例如“1”、“2”。

arg3

告警相关PCIe卡的名称,例如“FPGA”、“NIC”。

arg4

告警相关的附加描述,例如“Error Code”。

arg5

告警相关的故障码,例如“(7168)”、“(7177)”。

对系统的影响

可能导致PCIe卡性能下降。

可能原因

l     风扇模块故障。

l     环境温度过高。

l     进风口/出风口堵塞。

l     未安装导风罩。

l     散热器接触不良。

l     负载过高。

l     PCIe卡故障。

处理步骤

                                步骤 1     检查服务器是否同时存在进风口或出风口高温告警。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     按照进风口/出风口高温告警的处理方法进行操作,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     将服务器下电后,检查服务器内部的导风罩是否已正确安装。

l     是 => 步骤5

l     否 => 步骤4

                                步骤 4     正确安装导风罩后,将服务器上电,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     将服务器下电后,检查PCIe卡散热器是否安装正确。

l     是 => 步骤7

l     否 => 步骤6

                                步骤 6     正确安装PCIe卡散热器后,将服务器上电,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤7

                                步骤 7     降低负载,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤8

                                步骤 8     更换产生告警的PCIe卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤9

                                步骤 9     请联系技术支持处理。

----结束

10.39 ALM-0x0800008D PCIe卡下电(PCIe Card,严重告警)

告警解释

告警描述:

The arg1 PCIe card arg2 (arg3) was powered off. [arg4] [arg5]

PCIe卡下电时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x0800008D

严重

 

告警参数

参数名称

参数含义

arg1

告警相关PCIe卡的位置,例如“GpuBoard”、“Riser”。

arg2

告警相关PCIe卡的槽位号,例如“1”、“2”。

arg3

告警相关PCIe卡的名称,例如“FPGA”、“NIC”。

arg4

告警相关的附加描述,例如“Error Code”。

arg5

告警相关的故障码,例如“(7168)”、“(7177)”。

对系统的影响

导致PCIe卡相关业务中断或系统无法响应。

可能原因

l     风扇模块故障。

l     环境温度过高。

l     进风口/出风口堵塞。

l     存在空槽位或间隔。

l     未安装导风罩。

l     散热器接触不良。

l     PCIe卡故障。

处理步骤

                                步骤 1     检查服务器是否同时存在进风口或出风口高温告警。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     按照进风口/出风口高温告警的处理方法进行操作,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     将服务器下电后,检查服务器内部的导风罩是否已正确安装。

l     是 => 步骤5

l     否 => 步骤4

                                步骤 4     正确安装导风罩后,将服务器上电,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     将服务器下电后,检查PCIe卡散热器是否安装正确。

l     是 => 步骤7

l     否 => 步骤6

                                步骤 6     正确安装PCIe卡散热器后,将服务器上电,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤7

                                步骤 7     更换产生告警的PCIe卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤8

                                步骤 8     请联系技术支持处理。

----结束

10.40 ALM-0x08000095 RAID标卡控制器通信丢失(PCIe Card,严重告警)

告警解释

告警描述:

Communication between the iBMC and [arg1] PCIe card arg2 (arg3) failed.

当RAID标卡控制器通信丢失时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x08000095

严重

 

告警参数

参数名称

参数含义

arg1

告警相关PCIe卡的位置,例如“front”、“inner”、“rear”等。

arg2

告警相关PCIe卡的槽位号。

arg3

此处仅为“RAID”。

对系统的影响

可能引起RAID卡运行不稳定或故障,甚至导致系统停止响应。

可能原因

l     RAID卡初始化异常。

l     RAID卡故障。

l     RAID卡的BBU故障。

l     RAID卡对应的PCIe端口被禁用。

处理步骤

                                步骤 1     检查服务器是否存在0x28000001、0x06000005或0x06000027告警。如果存在,请先参照告警处理建议清除告警。

                                步骤 2     重启进入UEFI启动模式,然后进入BIOS的“Device Manager”页签。

                                步骤 3     在“Device Manager”页签选择“Some drivers are not healthy”,然后选择“Repair the whole platform”进行修复,查看告警是否清除。

具体操作请参考RAID控制卡用户指南对应型号RAID卡章节中的故障处理章节。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     在BIOS中检查RAID扣卡对应的PCIe端口是否被禁用。

不同平台和版本的BIOS配置界面略有差别,详细操作方法请参考服务器对应的BIOS用户指南。

l     是 => 步骤5

l     否 => 步骤6

                                步骤 5     在BIOS中使能RAID扣卡对应的PCIe端口并保存,重启OS后,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤6

                                步骤 6     在OS侧,排查RAID固件版本与RAID卡驱动版本是否配套。建议将RAID固件版本或RAID卡驱动版本升级为最新版本,查看告警是否清除。

l     是 => 处理完毕

l     否 => 步骤7

                                步骤 7     更换RAID卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤8

                                步骤 8     更换RAID卡的BBU,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤9

                                步骤 9     请联系技术支持处理。

----结束

10.41 ALM-0x08000097 RAID标卡控制器初始化异常(PCIe Card,严重告警)

告警解释

告警描述:

Initialization of the [arg1] PCIe card arg2 (arg3) is abnormal.

当RAID标卡控制器初始化异常时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x08000097

严重

 

告警参数

参数名称

参数含义

arg1

告警相关PCIe卡的位置,例如“front”、“inner”、“rear”等。

arg2

告警相关PCIe卡的槽位号。

arg3

此处仅为“RAID”。

对系统的影响

可能导致系统无法正常启动。

可能原因

l     RAID卡故障。

l     Riser卡故障。

l     CPU板故障。

处理步骤

                                步骤 1     插拔RAID卡,查看告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     更换RAID卡,查看告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     更换Riser卡,查看告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     更换CPU板卡,查看告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     请联系技术支持处理。

----结束

10.42 ALM-0x080000A1 PCIe卡过流(PCIe Card,严重告警)

告警解释

告警描述:

The current (arg5 A) at the detection point arg4 of the [arg1] PCIe card arg2 (arg3) is higher than the overcurrent threshold (arg6 A).

当检测到PCIe卡电流监测点当前电流高于过流门限电流时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x080000A1

严重

 

告警参数

参数名称

参数含义

arg1

PCIe卡位置,例如“Riser”。

arg2

PCIe卡槽位号,例如“2”、“5”。

arg3

PCIe卡名称,例如“SDI V3”。

arg4

电流监测点名称,例如“cable”、“gold”。

arg5

电流监测点电流当前读数,例如“15”。

arg6

电流监测点电流阈值,例如“10”。

 

对系统的影响

电流过高会导致PCIe设备运行不稳定。如果告警一直存在,可能导致PCIe卡相关业务无法正常运行。

可能原因

l     PCIe卡输入电流过大。

l     PCIe卡故障。

处理步骤

                                步骤 1     检查服务器是否同时存在电源相关告警。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     按照告警处理建议清除相关电源告警后,检查本节所述告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     执行OS先下电后上电,待服务器上电后,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     更换产生告警的PCIe卡,待服务器上电后,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     请联系技术支持处理。

----结束

10.43 ALM-0x080000A3 PCIe卡芯片状态异常(PCIe Card,严重告警)

告警解释

告警描述:

The arg4 chip of the [arg1] PCIe card arg2 (arg3) is abnormal.

当检测到PCIe卡芯片状态异常时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x080000A3

严重

 

告警参数

参数名称

参数含义

arg1

PCIe卡位置,例如“Riser”。

arg2

PCIe卡槽位号,例如“2”、“5”。

arg3

PCIe卡名称,例如“SDI V3”。

arg4

PCIe卡芯片类型,例如“CPU”。

 

对系统的影响

可能导致PCIe卡相关业务无法正常运行。

可能原因

PCIe卡硬件器件故障。

处理步骤

                                步骤 1     更换产生告警的PCIe卡,待服务器上电后,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

10.44 ALM-0x080000A5 PCIe卡初始化异常(PCIe Card,严重告警)

告警解释

告警描述:

arg4 occurred during the initialization of the [arg1] PCIe card arg2 (arg3).

当检测到PCIe卡初始化异常时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x080000A5

严重

 

告警参数

参数名称

参数含义

arg1

PCIe卡位置,例如“Riser”。

arg2

PCIe卡槽位号,例如“2”、“5”。

arg3

PCIe卡名称,例如“SDI V3”。

arg4

PCIe卡芯片类型,例如“Drop Speed”、“Drop Lane”或“Unable Link”。

 

对系统的影响

可能导致PCIe卡相关业务无法正常运行或业务性能降低。

可能原因

l     Slimline线缆连接不稳。

l     PCIe卡的扩展卡故障。

处理步骤

                                步骤 1     检查PCIe卡线缆连接是否存在接触不良现象。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     重新插拔线缆,待服务器上电后,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     更换产生告警的PCIe卡,待服务器上电后,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     请联系技术支持处理。

----结束

10.45 ALM-0x080000A7 PCIe卡硬件器件故障轻微告警(PCIe Card,轻微告警)

告警解释

告警描述:

The arg4 of the [arg1] PCIe card arg2 (arg3) is faulty.

当检测到PCIe卡硬件器件故障时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x080000A7

轻微

 

告警参数

参数名称

参数含义

arg1

PCIe卡位置,例如“Riser”。

arg2

PCIe卡槽位号,例如“2”、“5”。

arg3

PCIe卡名称,例如“SDI V3”。

arg4

硬件器件名称,例如“Memory”、“CPU”、“Disk”、“Board Device”或“Network Hardware”。

 

对系统的影响

可能导致PCIe卡相关业务性能下降。

可能原因

PCIe卡硬件器件故障。

处理步骤

                                步骤 1     执行OS先下电后上电,待服务器上电后,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     更换产生告警的PCIe卡,待服务器上电后,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     请联系技术支持处理。。

----结束

10.46 ALM-0x080000A9 PCIe卡硬件器件故障严重告警(PCIe Card,严重告警)

告警解释

告警描述:

The arg4 of the [arg1] PCIe card arg2 (arg3) is faulty.

当检测到PCIe卡硬件器件故障时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x080000A9

严重

 

告警参数

参数名称

参数含义

arg1

PCIe卡位置,例如“Riser”。

arg2

PCIe卡槽位号,例如“2”、“5”。

arg3

PCIe卡名称,例如“SDI V3”。

arg4

硬件器件名称,例如“Memory”、“CPU”、“Disk”、“Board Device”或“Network Hardware”。

 

对系统的影响

可能导致PCIe卡相关业务无法正常运行。

可能原因

PCIe卡硬件器件故障。

处理步骤

                                步骤 1     更换产生告警的PCIe卡,待服务器上电后,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

10.47 ALM-0x080000AB PCIe卡电流过高(PCIe Card,严重告警)

告警解释

告警描述:

[arg1] PCIe card arg2 (arg3) is overcurrent. [arg4][arg5]

当检测到PCIe卡电流过高时,产生此告警。

产生此告警的主体类型为:PCIe Card

告警属性

告警ID

告警级别

可自动清除

0x080000AB

严重

 

告警参数

参数名称

参数含义

arg1

PCIe卡位置,例如“Riser”。

arg2

PCIe卡槽位号,例如“1”、“2”。

arg3

PCIe卡名称,例如“SDI V3”。

arg4

故障码,例如“Error code: 7596”。

arg5

故障码附加描述。

 

对系统的影响

电流过高会导致PCIe设备运行不稳定。如果告警一直存在,可能导致PCIe卡相关业务无法正常运行。

可能原因

PCIe卡电源故障。

处理步骤

                                步骤 1     对服务器执行OS先下电后上电后,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     更换产生告警的PCIe卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     请联系技术支持处理。

----结束

10.48 ALM-0x0D000001 网卡扣卡MCE/AER错误(Network Card,紧急告警)

告警解释

告警描述:

The NIC triggered an uncorrectable error, arg1.

当管理软件检测到网卡扣卡已触发了不可纠正错误时,产生此告警。

产生此告警的主体类型为:NIC

告警属性

告警ID

告警级别

可自动清除

0x0D000001

紧急

 

告警参数

参数名称

参数含义

arg1

告警相关的错误码。

对系统的影响

可能导致系统停止响应。

可能原因

l     网卡故障。

l     网卡插槽故障。

处理步骤

                                步骤 1     下电后检查该部件与其插槽是否存在损坏或接触不良现象。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     重新安装产生告警的网卡扣卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     更换产生告警的网卡扣卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     请联系技术支持处理。

----结束

10.49 ALM-0x12000019 右挂耳不在位(Chassis,轻微告警)

告警解释

告警描述:

Right mounting ear is not present.

服务器无法检测到右挂耳时,产生此告警。

产生此告警的主体类型为:Chassis

告警属性

告警ID

告警级别

可自动清除

0x12000019

轻微

 

告警参数

参数名称

参数含义

对系统的影响

l     无法获取进风口温度。

l     挂耳上的电源按钮失效。

l     挂耳上的UID按钮失效。

可能原因

l     右挂耳线缆未插稳。

l     右挂耳线缆故障。

l     右挂耳故障。

处理步骤

                                步骤 1     重新连接右挂耳线缆,保证其插稳后,检查告警是否清除。

右挂耳线缆的连接方法请参考服务器的用户指南。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     更换右挂耳线缆,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     更换右挂耳,检查告警是否清除。

右挂耳的更换方法请参考服务器的用户指南。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     请联系技术支持处理。

----结束

10.50 ALM-0x12000021 左挂耳不在位(Chassis,轻微告警)

告警解释

告警描述:

Left mounting ear is not present.

服务器无法检测到左挂耳时,产生此告警。

产生此告警的主体类型为:Chassis

告警属性

告警ID

告警级别

可自动清除

0x12000021

轻微

 

告警参数

参数名称

参数含义

-

-

 

对系统的影响

l     无法获取进风口温度。

l     挂耳上的电源按钮失效。

l     挂耳上的UID按钮失效。

可能原因

l     左挂耳线缆未插稳。

l     左挂耳线缆故障。

l     左挂耳故障。

处理步骤

                                步骤 1     重新连接左挂耳线缆,保证其插稳后,检查告警是否清除。

左挂耳线缆的连接方法请参考服务器的用户指南。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     更换左挂耳线缆,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     更换左挂耳,检查告警是否清除。

左挂耳的更换方法请参考服务器的用户指南。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     请联系技术支持处理。

----结束

10.51 ALM-0x1200002f 前置硬盘背板不在位(Chassis,轻微告警)

告警解释

告警描述:

The front disk backplane is absent.

当前置硬盘背板不在位时,产生此告警。

产生此告警的主体类型为:Chassis

告警属性

告警ID

告警级别

可自动清除

0x1200002f

轻微

 

告警参数

参数名称

参数含义

-

-

 

对系统的影响

无法安装前置硬盘或前置硬盘无法正常工作。

可能原因

l     前置硬盘背板未安装。

l     前置硬盘背板信号线缆未插或松动。

l     前置硬盘背板电源线缆未插或松动。

l     前置硬盘背板CPLD故障。

l     扩展板CPLD故障。

l     前置硬盘背板故障。

处理步骤

                                步骤 1     将服务器下电后,检查前置硬盘背板是否已安装。

l     是 => 步骤3

l     否 => 步骤2

                                步骤 2     正确安装前置硬盘背板后,将服务器上电,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     检查前置硬盘背板信号线缆是否未插或者松动。

l     是 => 步骤4

l     否 => 步骤5

                                步骤 4     重新连接前置硬盘背板信号线缆,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     检查前置硬盘背板电源线缆是否未插或者松动。

l     是 => 步骤6

l     否 => 步骤7

                                步骤 6     重新连接前置硬盘背板电源线缆,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤7

                                步骤 7     升级前置硬盘背板CPLD版本,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤8

                                步骤 8     升级扩展板CPLD版本,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤9

                                步骤 9     更换前置硬盘背板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤10

                             步骤 10     请联系技术支持处理。

----结束

10.52 ALM-0x18000009 风扇背板CPLD自检状态失败(FAN Backplane,严重告警)

告警解释

告警描述:

Abnormal fan backplane CPLD arg1 self-check result.

当风扇背板故障时,产生此告警。

产生此告警的主体类型为:FAN Backplane

告警属性

告警ID

告警级别

可自动清除

0x18000009

严重

 

告警参数

参数名称

2参数含义

arg1

风扇背板的编号。

 

对系统的影响

风扇背板无法正常工作。

可能原因

风扇背板故障。

处理步骤

                                步骤 1     更换风扇背板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

10.53 ALM-0x1A000023 证书过期或即将过期(BMC,轻微告警)

告警解释

告警描述:

arg1 certificate is about to expire or has expired.

iBMC证书过期或即将过期时,产生此告警。

产生此告警的主体类型为:BMC

在iBMC V370及以上版本中,此告警级别为轻微。在其他版本中,此告警级别为正常。

告警属性

告警ID

告警级别

可自动清除

0x1A000023

轻微

 

告警参数

参数名称

参数含义

arg1

证书类型。

 

对系统的影响

证书过期后,相关功能将无法使用。

可能原因

证书已过期,或即将过期((iBMC当前时间+30天) > 证书有效期截止日期)。

处理步骤

                                步骤 1     申请新证书。

                                步骤 2     导入新的证书,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     请联系技术支持处理。

----结束

10.54 ALM-0x1A00002B 同步NTP服务器时间失败(BMC,正常告警)

告警解释

告警描述:

iBMC failed to synchronize time with the NTP server.

iBMC同步NTP服务器时间失败时,产生此告警。

产生此告警的主体类型为:BMC

告警属性

告警ID

告警级别

可自动清除

0x1A00002B

正常

 

告警参数

参数名称

参数含义

-

-

 

对系统的影响

可能导致BMC系统时间不准确。

可能原因

l     NTP服务器配置不正确。

l     BMC和NTP服务器间网络不通。

处理步骤

                                步骤 1     检查NTP服务器配置是否正确。

l     是 => 步骤3

l     否 => 步骤2

                                步骤 2     重新配置NTP服务器,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     检查iBMC和NTP服务器之间网络是否连通。

l     是 => 步骤5

l     否 => 步骤4

                                步骤 4     重新连接iBMC和NTP服务器网络,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     重启iBMC的NTP功能,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤6

                                步骤 6     请联系技术支持处理。

----结束

10.55 ALM-0x1A00003D 许可证文件错误(BMC,严重告警)

告警解释

告警描述:

The iBMC license is incorrect.

iBMC初始化时检测到当前许可证文件错误时,产生此告警。

产生此告警的主体类型为:BMC

告警属性

告警ID

告警级别

可自动清除

0x1A00003D

严重

 

对系统的影响

影响iBMC高级特性(SP特性及智能诊断数据收集特性)的正常使用。

可能原因

许可证文件错误。

处理步骤

导入正确的许可证文件

若需要使用iBMC的高级功能,请按照如下步骤操作。

6.     申请与服务器产品ESN一一对应的iBMC许可证。

7.     将申请到的许可证文件导入iBMC。检查告警是否清除。

     是 => 处理完毕

     否 => 3

8.     请联系技术支持处理。

删除错误的许可证文件

若不需要使用iBMC的高级功能,请按照如下步骤操作。

9.     删除当前许可证文件。检查告警是否清除。

     是 => 处理完毕

     否 => 5

10.     请联系技术支持处理。

----结束

10.56 ALM-0x1A000045 证书吊销列表过期(BMC,轻微告警)

告警解释

告警描述:

arg1 is about to expire or has expired.

iBMC吊销列表已过期或即将过期时,产生此告警。

产生此告警的主体类型为:BMC

在iBMC V663及以上版本支持此告警。

告警属性

告警ID

告警级别

可自动清除

0x1A000045

轻微

 

告警参数

参数名称

参数含义

arg1

证书吊销列表类型。

 

对系统的影响

可能导致证书校验失败。

可能原因

iBMC证书吊销列表已过期或即将过期。

处理步骤

                                步骤 1     申请新证书吊销列表。

                                步骤 2     导入新的证书吊销列表,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     请联系技术支持工程师处理。

----结束

10.57 ALM-0x1A000047 不安全密码算法告警(BMC,轻微告警)

告警解释

告警描述:

The arg1 configuration in the system enables insecure cryptographic algorithm arg2.

当系统开启了不安全算法时,产生此告警。

产生此告警的主体类型为:BMC

告警属性

告警ID

告警级别

可自动清除

0x1A000047

轻微

 

告警参数

参数名称

参数含义

arg1

不安全密码算法的配置项,例如“SSHCiphers”、“具体的用户名”。

arg2

具体的不安全密码算法的列表,列表使用逗号分隔,例如“arcfour,arcfour128”。

 

对系统的影响

不安全算法会给系统造成安全风险。

可能原因

系统开启了不安全算法。

处理步骤

                                步骤 1     参见Redfish接口说明或用户指南,禁用不安全密码算法。

----结束

10.58 ALM-0x1A000049 不安全协议告警(BMC,轻微告警)

告警解释

告警描述:

Insecure protocol arg1 is enabled in the system.

当系统开启了不安全协议时,产生此告警。

产生此告警的主体类型为:BMC

告警属性

告警ID

告警级别

可自动清除

0x1A000049

轻微

 

告警参数

参数名称

参数含义

arg1

具体的协议描述,例如“TLS1.0”。

 

对系统的影响

不安全协议会给系统造成安全风险。

可能原因

系统开启了不安全协议。

处理步骤

                                步骤 1     参见Redfish接口说明或用户指南,禁用不安全协议。

----结束

10.59 ALM-0x22000001 TPM自检失败(Security Module,轻微告警)

告警解释

告警描述:

Trusted platform module(arg1) self-test failed.

可信赖平台模块自检失败时,产生此告警。

产生此告警的主体类型为:Security Module

告警属性

告警ID

告警级别

可自动清除

0x22000001

轻微

 

告警参数

参数名称

参数含义

arg1

可信赖平台模块的类型,包括“TPM”、“TCM”。

对系统的影响

可能影响可信赖平台模块的使用。

可能原因

可信赖平台模块故障。

处理步骤

                                步骤 1     更换可信赖平台模块,查看告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

10.60 ALM-0x24000007 CPU板时钟丢失(CPU Board,严重告警)

告警解释

告警描述:

CPU board arg1 arg2 clock signals lost.

CPU板时钟丢失时,产生此告警。

产生此告警的主体类型为:CPU Board

告警属性

告警ID

告警级别

可自动清除

0x24000007

严重

 

告警参数

参数名称

参数含义

arg1

告警相关CPU板编号。

arg2

时钟类型,例如“100MHz”。

 

对系统的影响

可能导致系统停止响应或无法正常启动。

可能原因

CPU板故障。

处理步骤

                                步骤 1     更换CPU板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

10.61 ALM-0x24000013 CPU板CPLD自检异常(CPU Board,严重告警)

告警解释

告警描述:

CPU board CPLD [arg1] self-check result is abnormal.

CPU板CPLD自检结果异常时,产生此告警。

产生此告警的主体类型为:CPU Board

告警属性

告警ID

告警级别

可自动清除

0x24000013

严重

 

告警参数

参数名称

参数含义

arg1

CPLD编号,例如“1”、“2”。

 

对系统的影响

可能导致服务器无法启动。

可能原因

CPU板故障。

处理步骤

                                步骤 1     重启iBMC,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     插拔电源线缆,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     更换CPU板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     请联系设备厂商技术支持处理。

----结束

10.62 ALM-0x2400001B CPU板RTC电池电压低(CPU Board,严重告警)

告警解释

告警描述:

Low voltage of RTC battery on the CPU board.

CPU板RTC电池电压过低时,产生此告警。

产生此告警的主体类型为:CPU Board

告警属性

告警ID

告警级别

可自动清除

0x2400001B

严重

 

告警参数

参数名称

参数含义

-

-

 

对系统的影响

可能影响服务器时钟。

可能原因

l     RTC电池故障或者电量低。

l     电压检测链路故障。

处理步骤

                                步骤 1     更换RTC电池,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     更换CPU板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     请联系设备厂商技术支持处理。

----结束

10.63 ALM-0x28000003 CPLD信号线连接异常(Cable,严重告警)

告警解释

告警描述:

Incorrect connection (signal cable arg1) between the CPU board and the arg2.

当CPU板与硬盘背板/PCIe Riser卡的信号线连接异常,产生此告警。

产生此告警的主体类型为:Cable

告警属性

告警ID

告警级别

可自动清除

0x28000003

严重

 

告警参数

参数名称

参数含义

arg1

PCIe Riser卡的线缆编号

arg2

硬盘背板或PCIe Riser卡,例如“disk backplane”、“PCIe riser card”

对系统的影响

导致iBMC无法管理相关部件。

可能原因

CPU板与此设备的信号线连接异常。

处理步骤

                                步骤 1     检查硬盘背板或PCIe Riser卡的线缆连接是否正确。

详细的连接顺序请参考服务器用户指南。

l     是 => 步骤3

l     否 => 步骤2

                                步骤 2     按照正确顺序重新安装硬盘背板或PCIe Riser卡的线缆,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 3     重新拔插硬盘背板或PCIe Riser卡的线缆,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     更换硬盘背板或PCIe Riser卡的线缆,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     请联系技术支持处理。

----结束

10.64 ALM-0x2800000F 风扇背板信号线缆连接异常(Cable,严重告警)

告警解释

告警描述:

Incorrect connection of the signal cable of the fan backplane.

风扇背板信号线缆连接异常。

产生此告警的主体类型为:Cable。

告警属性

告警ID

告警级别

可自动清除

0x2800000F

严重

 

告警参数

参数名称

参数含义

 

对系统的影响

风扇无法被正常管理。

可能原因

l     风扇背板线缆连接错误。

l     风扇背板线缆损坏。

处理步骤

                                步骤 1     检查风扇背板的信号线缆连接是否正确,重新插拔线缆,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     更换风扇背板的信号线缆,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     请联系技术支持处理。

----结束

10.65 ALM-0x2800001F CPU的HCCS连接失败(Cable,严重告警)

告警解释

告警描述:

CPUarg1 HCCSarg2 link failed.

当检测到CPU的HCCS通道与对端连接失败时,产生此告警。

产生此告警的主体类型为:Cable

告警属性

告警ID

告警级别

可自动清除

0x2800001F

严重

 

告警参数

参数名称

参数含义

arg1

告警相关的CPU的槽位号。

arg2

HCCS通道编号。

 

对系统的影响

可能导致系统性能降低。

可能原因

l     CPU故障。

l     CPU板故障。

处理步骤

                                步骤 1     下电后检查该部件与其插槽是否存在损坏或接触不良现象。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     下电后重新插拔该部件,并上电后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     更换CPU板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     请联系技术支持处理。

----结束

10.66 ALM-0x28000031 UB线缆或连接器连接错误(Cable,严重告警)

告警解释

告警描述:

Incorrect connection between the unit arg1 and connector arg2 of arg3.

当组件存在UB线缆或连接器连接错误时,产生此告警。

产生此告警的主体类型为:Cable

告警属性

告警ID

告警级别

可自动清除

0x28000031

严重

 

告警参数

参数名称

参数含义

arg1

基础计算组件高速端口对端所连接组件的UID信息+槽位信息,例如“0000001040302023940(IOUSlot1)”。

说明

槽位信息如:"IOUSlot1"、"FlexIO1",分别表示IO组件槽位1、灵活IO卡槽位1。

arg2

基础计算组件的名称,例如“BCU”。

arg3

基础计算组件高速连接器的描述信息,例如“CPU1 UBC1”。

 

对系统的影响

可能导致存储组件的部分硬盘、IO组件的部分标卡或灵活IO卡无法被系统识别到。

可能原因

l     线缆的连接顺序或位置存在错误。

l     连接器连接错误。

l     组件故障。

l     线缆故障。

处理步骤

                                步骤 1     检查线缆的连接顺序或位置存在错误。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     按照正确顺序重新连接UB线缆,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     检查连接器是否连接正确。

l     是 => 步骤5

l     否 => 步骤4

                                步骤 4     按照正确顺序重新连接连接器,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     更换组件,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤6

                                步骤 6     更换UB线缆,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤7

                                步骤 7     请联系技术支持处理。

----结束

10.67 ALM-0x28000033 UB线缆不在位或连接器未插稳(Cable,严重告警)

告警解释

告警描述:

The cable of unit arg1 is absent or the connector is not properly connected.

当组件存在UB线缆不在位或连接器未插稳时,产生此告警。

产生此告警的主体类型为:Cable

告警属性

告警ID

告警级别

可自动清除

0x28000033

严重

 

告警参数

参数名称

参数含义

arg1

基础计算组件高速端口对端所连接组件的UID信息+槽位信息,例如“0000001040302023940(IOUSlot1)”。

说明

槽位信息如:"IOUSlot1"、"FlexIO1",分别表示IO组件槽位1、灵活IO卡槽位1。

 

对系统的影响

可能导致存储组件的部分硬盘、IO组件的部分标卡或灵活IO卡无法被系统识别到。

可能原因

l     线缆未插或松动。

l     连接器没有插稳。

l     线缆故障。

l     组件故障。

处理步骤

                                步骤 1     检查UB线缆是否未插或松动。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     按照正确顺序重新连接UB线缆,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     重新插拔连接器模组,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     更换UB线缆,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤5

                                步骤 5     更换组件,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤6

                                步骤 6     请联系技术支持处理。

----结束

10.68 ALM-0x28000035 组件不支持(Cable,严重告警)

告警解释

告警描述:

The unit arg1 linked to connector arg2 of arg3 is not supported.

当连接到连接器的组件不支持时,产生此告警。

产生此告警的主体类型为:Cable

告警属性

告警ID

告警级别

可自动清除

0x28000035

严重

 

告警参数

参数名称

参数含义

arg1

基础计算组件高速端口对端所连接组件的UID信息,例如“0000001040302023940”。

arg2

基础计算组件高速连接器的描述信息,例如“CPU1 UBC1”,“NIC1(CPU1)”。

arg3

基础计算组件的名称,例如“BCU1”,“BCU2”。

 

对系统的影响

导致存储组件、IO组件或灵活IO卡无法被系统正确识别。

可能原因

服务器不支持该型号的组件。

处理步骤

                                步骤 1     将该组件更换成当前服务器所支持的型号,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

10.69 ALM-0x28000037 组件不在位严重告警(Cable,严重告警)

告警解释

告警描述:

Incorrect connection of the signal cable of the arg1.

当连接到连接器的组件不在位时,产生此告警。

产生此告警的主体类型为:Cable

告警属性

告警ID

告警级别

可自动清除

0x28000037

严重

 

告警参数

参数名称

参数含义

arg1

组件类型,例如“BCU“,“EXU“,“CLU“。

 

对系统的影响

导致组件无法正常管理。

可能原因

l     组件信号线缆连接错误。

l     线缆损坏。

处理步骤

                                步骤 1     检查组件的信号线缆连接是否正确。

l     是 => 步骤3

l     否 => 步骤2

                                步骤 2     正确连接组件的信号线缆,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     更换组件的信号线缆,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     请联系技术支持处理。

----结束

10.70 ALM-0x29000017 网卡光模块的功率异常(Port,严重告警)

告警解释

告警描述:

Abnormal Rx or Tx powers of optical module were detected on [arg2] arg3 on arg1.

网卡光模块的当前发送或接收功率有异常时,产生此告警。

产生此告警的主体类型为:Port

告警属性

告警ID

告警级别

可自动清除

0x29000017

严重

 

告警参数

参数名称

参数含义

arg1

告警相关网卡的名称,例如“NIC 1”、“PCIe Card 5”、“LOM”。

arg2

告警相关网卡的类型,例如“(NIC)”、“(FC)”。

arg3

网口号,例如“port 1”。

对系统的影响

可能导致网卡运行不稳定,业务网络异常。

可能原因

l     光模块未插入光纤。

l     光模块故障。

处理步骤

                                步骤 1     检查光纤是否插入光模块。

l     是 => 步骤3

l     否 => 步骤2

                                步骤 2     将光纤插入光模块,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     更换产生告警的光模块,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     请联系技术支持处理。

----结束

10.71 ALM-0x29000027 以太网卡光模块速率匹配告警(Port,严重告警)

告警解释

告警描述:

Network arg1 [arg2] arg3 optical module transmission speed does not match the speed supported by the NIC.

网卡光模块的速率与网卡支持的速率不匹配时,产生此告警。

产生此告警的主体类型为:Port

告警属性

告警ID

告警级别

可自动清除

0x29000027

严重

 

告警参数

参数名称

参数含义

arg1

告警相关网卡的名称,例如“NIC 1”、“PCIe Card 5”、“LOM”。

arg2

告警相关网卡的类型,例如“(NIC)”、“(FC)”。

arg3

网口号,例如“port 1”。

对系统的影响

导致业务网络异常。

可能原因

光模块故障。

处理步骤

                                步骤 1     更换产生告警的光模块,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

10.72 ALM-0x29000029 OAM链路检测连通性告警(Port,严重告警)

告警解释

告警描述:

OAM detected disconnection of the link to arg1 [arg2] arg3.

网卡OAM检测到链路链接异常时,产生此告警。

产生此告警的主体类型为:Port

告警属性

告警ID

告警级别

可自动清除

0x29000029

严重

 

告警参数

参数名称

参数含义

arg1

告警相关网卡的名称,例如“NIC 1”、“PCIe Card 5”、“LOM”。

arg2

告警相关网卡的类型,例如“(NIC)”、“(FC)”。

arg3

网口号,例如“port 1”。

对系统的影响

导致业务网络异常。

可能原因

网卡故障。

处理步骤

                                步骤 1     更换产生告警的网卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

10.73 ALM-0x2900002B OAM链路检测错包类告警(Port,严重告警)

告警解释

告警描述:

Error packets detected in the OAM check of the link to arg1 [arg2] arg3.

网络OAM检测到链路错包类告警时,产生此告警。

产生此告警的主体类型为:Port

告警属性

告警ID

告警级别

可自动清除

0x2900002B

严重

 

告警参数

参数名称

参数含义

arg1

告警相关网卡的名称,例如“NIC 1”、“PCIe Card 5”、“LOM”。

arg2

告警相关网卡的类型,例如“(NIC)”、“(FC)”。

arg3

网口号,例如“port 1”。

对系统的影响

导致业务网络异常。

可能原因

网卡故障。

处理步骤

                                步骤 1     更换产生告警的网卡,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

10.74 ALM-0x2C000031 系统错误(System,紧急告警)

告警解释

告警描述:

Critical system error. Analyze the alarm based on other events.

当操作系统产生致命错误时,产生此告警。

产生此告警的主体类型为:System

告警属性

告警ID

告警级别

可自动清除

0x2C000031

紧急

 

告警参数

参数名称

参数含义

-

-

 

对系统的影响

操作系统异常,相关业务中断。

可能原因

操作系统异常。

处理步骤

1.     请收集iBMC和OS的日志。

2.     iBMC日志请联系技术支持处理。

3.     OS日志请联系厂商技术支持分析定位。

10.75 ALM-0x2C000037 CPU型号不一致(System,紧急告警)

告警解释

告警描述:

Different CPU models detected during system startup.

当服务器CPU型号不一致时,产生此告警。

产生此告警的主体类型为:System

告警属性

告警ID

告警级别

可自动清除

0x2C000037

紧急

 

告警参数

参数名称

参数含义

对系统的影响

操作系统无法正常启动。

可能原因

CPU型号不一致。

处理步骤

                                步骤 1     保证CPU型号一致,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

10.76 ALM-0x2C000039 系统启动中断(System,紧急告警)

告警解释

告警描述:

System suspended during startup.

系统启动过程异常中断,无响应,产生此告警。

产生此告警的主体类型为:System

告警属性

告警ID

告警级别

可自动清除

0x2C000039

紧急

 

告警参数

参数名称

参数含义

对系统的影响

操作系统无法启动。

可能原因

l     服务器硬件故障。

l     操作系统异常。

处理步骤

                                步骤 1     分析当前告警列表,检查是否有相关部件告警并按照处理建议处理。

                                步骤 2     查看KVM截屏和系统串口日志记录,确定启动过程停止的阶段。

                                步骤 3     请联系技术支持处理。

----结束

10.77 ALM-0x2C00005B 扩展板与硬盘背板配置不匹配(System,严重告警)

告警解释

告警描述:

The Expansion board does not match the disk backplane.

服务器扩展板与硬盘背板不匹配时,产生此告警。

产生此告警的主体类型为:System

告警属性

告警ID

告警级别

可自动清除

0x2C00005B

严重

 

告警参数

参数名称

参数含义

对系统的影响

可能导致系统性能降低或系统无法正常启动。

可能原因

扩展板与硬盘背板型号不匹配。

处理步骤

                                步骤 1     更换硬盘背板,查看告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系技术支持处理。

----结束

10.78 ALM-0x2C000073 系统总功耗过高(System,轻微告警)

告警解释

告警描述:

The total power consumption (arg1 W) of the system exceeds the alarm threshold (arg2 W).

当检测到系统当前总功耗高于功耗过高告警阈值时,产生此告警。

产生此告警的主体类型为:System

告警属性

告警ID

告警级别

可自动清除

0x2C000073

轻微

 

告警参数

参数名称

参数含义

arg1

对应传感器的当前读数。

arg2

告警门限。

 

对系统的影响

服务器电量消耗超过预期。

可能原因

l     功耗过高告警阈值设置过低。

l     OS侧运行的业务过于繁忙。

处理步骤

                                步骤 1     将功耗过高告警阈值设置为更大的值。

                                步骤 2     停止OS侧不必要的业务,释放CPU和内存资源。

----结束

10.79 ALM-0x2C00008b 产品自描述信息异常(System,严重告警)

告警解释

告警描述:

The production description is incorrect.

产品自描述信息异常,产生此告警。

产生此告警的主体类型为:System

告警属性

告警ID

告警级别

可自动清除

0x2C00008b

严重

 

告警参数

参数名称

参数含义

 

对系统的影响

l     BMC管理功能异常。

l     BMC系统可能无法升级。

l     BMC界面产品名称或别名可能显示异常。

可能原因

l     产品自描述信息被篡改或损坏。

l     获取产品自描述信息的链路故障。

处理步骤

                                步骤 1     重新烧写PSR,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     请联系设备厂商技术支持处理。

----结束

10.80 ALM-0x44000001 逻辑盘降级/部分降级/离线(Logical Drive,严重告警)

告警解释

告警描述:

The logical drive arg1 under RAID card arg2 is arg3.

RAID卡下逻辑盘状态发生变化时,产生此告警。

产生此告警的主体类型为:Logical Drive

告警属性

告警ID

告警级别

可自动清除

0x44000001

严重

 

告警参数

参数名称

参数含义

arg1

逻辑盘的ID,例如“1”、“2”。

arg2

RAID卡的槽位号和位置,例如“1”、“PCIe Card 3 (RAID)”。

arg3

逻辑盘的状态,例如“degraded”、“partially degraded”或“offline”。

对系统的影响

可能导致系统停止响应或数据丢失。

可能原因

l     RAID卡中有成员盘不在位。

l     成员盘故障。

处理步骤

                                步骤 1     查检查RAID卡中是否有成员盘被拔出。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     重新安装成员盘,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     更换导致RAID失效的硬盘,查看告警是否清除。

更换硬盘的具体操作,请参考相关产品的用户指南。

硬盘更换后,请参考RAID控制卡 用户指南中“硬盘故障”章节进行恢复处理。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     请联系技术支持处理。

----结束

10.81 ALM-0x53000001 OCP器件MCE/AER故障(OCP Card,严重告警)

告警解释

告警描述:

The [arg1] arg2 arg3 triggered an uncorrectable error, arg4.

当OCP卡器件产生MCE/AER故障时,产生此告警。

产生此告警的主体类型为:OCP Card

告警属性

告警ID

告警级别

可自动清除

0x53000001

严重

 

告警参数

参数名称

参数含义

arg1

告警相关的OCP卡的位置,如“OCP Card 1(MCX565M-CDAB)”。

arg2

告警相关的OCP卡的位置,如“OCP Card 2(MCX565M-CDAB)”。

arg3

NIC卡。

arg4

错误码

 

对系统的影响

可能导致OCP器件运行不稳定,系统停止响应。

可能原因

l     OCP卡故障

l     扩展板故障

处理步骤

                                步骤 1     下电后检查该部件与其插槽是否存在损坏或接触不良现象,并重新插拔后,上电后检查告警是否消失。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     更换该部件并进一步观察告警是否消失。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     请联系技术支持处理。

----结束

10.82 ALM-0x5300000B OCP器件CE类硬失效(OCP Card,轻微告警)

告警解释

告警描述:

[arg1] arg2 [arg3]health status degradation detected by PFAE.

OCP卡健康状态降级时,产生此告警。

产生此告警的主体类型为:OCP Card

告警属性

告警ID

告警级别

可自动清除

0x5300000B

轻微

 

告警参数

参数名称

参数含义

arg1

告警相关的OCP卡的位置,如“OCP Card 1(MCX565M-CDAB)”。

arg2

告警相关的OCP卡的位置,如“OCP Card 2(MCX565M-CDAB)”。

arg3

告警相关的OCP卡的位置,如“OCP Card 3(MCX565M-CDAB)”。

 

对系统的影响

系统仍能正常运行,但可靠性有所降低。

可能原因

OCP卡与插槽可能存在损坏或接触不良现象。

处理步骤

                                步骤 1     尽快安排计划性维护,下电后检查该部件与其插槽是否存在损坏或接触不良现象。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     下电后重新插拔该部件,并上电后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     更换该部件,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     请联系技术支持处理。

----结束

10.83 ALM-0x5300000D OCP器件降带宽(OCP Card,轻微告警)

告警解释

告警描述:

The [arg1] OCP card arg2 [arg3] bandwidth decreased.

OCP卡宽带降低时,产生此告警。

产生此告警的主体类型为:OCP Card

告警属性

告警ID

告警级别

可自动清除

0x5300000D

轻微

 

告警参数

参数名称

参数含义

arg2

告警相关的OCP卡的位置,如“OCP Card 2(MCX565M-CDAB)”。

 

对系统的影响

系统仍能正常运行,但性能有所降低。

可能原因

OCP卡与插槽可能存在损坏或接触不良现象。

处理步骤

                                步骤 1     尽快安排计划性维护,下电后检查该部件与其插槽是否存在损坏或接触不良现象。

l     是 => 步骤2

l     否 => 步骤3

                                步骤 2     下电后重新插拔该部件,并上电后检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     更换该部件,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     请联系技术支持处理。

----结束

10.84 ALM-0x5D000007 扩展板CPLD自检异常(Expand Board,严重告警)

告警解释

告警描述:

Expansion board CPLD [arg1] self-check result is abnormal.

当扩展板CPLD自检结果异常时,产生此告警。

产生此告警的主体类型为:Expand Board

告警属性

告警ID

告警级别

可自动清除

0x5D000007

严重

 

告警参数

参数名称

参数含义

arg1

CPLD编号,例如“1”、“2”。

 

对系统的影响

可能导致服务器无法启动。

可能原因

扩展板故障。

处理步骤

                                步骤 1     重启iBMC,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤2

                                步骤 2     插拔电源线缆,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤3

                                步骤 3     更换扩展板,检查告警是否清除。

l     是 => 处理完毕

l     否 => 步骤4

                                步骤 4     请联系设备厂商技术支持处理。

----结束

10.85 ALM-0x5D00000D 扩展板更换记录(Expand Board,正常告警)

告警解释

告警描述:

Expansion board arg1 is replaced from SN(arg2) to SN(arg3)

当扩展板发生了更换时,产生此告警。

产生此告警的主体类型为:Expand Board

告警属性

告警ID

告警级别

可自动清除

0x5D00000D

正常

 

告警参数

参数名称

参数含义

arg1

扩展板槽位号。

arg2

更换前扩展板SN号。

arg3

更换后扩展板SN号。

 

对系统的影响

无。

可能原因

更换扩展板。

处理步骤

无。


11 事件类告警

事件类告警为服务器的日常运行记录,不需要立即进行处理,在不影响服务器业务的情况下,可于业务量较少的时段进行定位处理。服务器支持的事件类告警如表11-1所示。

表11-1 事件类告警列表

事件码

事件描述

影响/建议

0x00000015

CPU arg1 installed.

说明

arg1:表示CPU编号。

-

0x00000017

CPU arg1 removed.

说明

arg1:表示CPU编号。

影响:可能导致服务器系统崩溃。

0x0000001F

CPU arg1 Core arg2 isolated.

说明

l     arg1:表示CPU编号。

l     arg2:表示内核编号。

影响:降低CPU性能。

建议:更换CPU板。

0x00000021

Faulty CPU arg1 isolated.

说明

arg1:表示CPU编号。

影响:可用CPU减少。

建议:更换告警的CPU。

0x00000065

CPU arg1 arg2 voltage (arg3 V) is lower than the undervoltage threshold (arg4 V).

说明

l     arg1:表示CPU槽位号。

l     arg2:表示电压类型,例如“VCCIO”,“VPP”,“VCCP”,“VSA”,“VMCP”。

l     arg3:表示当前电压值

l     arg4:表示告警门限。

影响:影响系统稳定性,可能造成服务器无法响应。

建议:更换CPU板。

0x00000067

CPU arg1 arg2 voltage (arg3 V) exceeds the overvoltage threshold (arg4 V).

说明

l     arg1:表示CPU槽位号。

l     arg2:表示电压类型,例如“VCCIO”,“VPP”,“VCCP”,“VSA”,“VMCP”。

l     arg3:表示当前电压值

l     arg4:表示告警门限。

影响:影响系统稳定性,可能造成服务器无法响应。

建议:更换CPU板。

0x00000079

CPU arg1 health status degradation detected by PFAE.

说明

arg1:表示CPU编号。

影响:系统可靠性降低。

建议:

1、尽快安排计划性维护,下电后检查该部件与其插槽是否存在损坏或接触不良现象。

2、更换该部件并进一步观察。

3、更换CPU板。

0x0100000D

[Memory board arg1] arg2 memory correctable ECC.

说明

l     arg1:表示告警相关内存板的槽位号。

l     arg2:表示告警相关内存丝印,或CPU槽位号和通道号。

l     内存丝印,例如,“DIMM020(A)”、“DIMM010(B)”。

l     CPU槽位号及通道号

不同型号的服务器,同一通道对应的内存数量不同。

影响:降低系统性能。

0x0100000F

[Memory board arg1] arg2 installed.

说明

l     arg1:表示告警相关内存板的槽位号。

l     arg2:表示告警相关内存丝印,或CPU槽位号和通道号。

l     内存丝印,例如,“DIMM000(A)”、“DIMM010(B)”。

l     CPU槽位号及通道号

不同型号的服务器,同一通道对应的内存数量不同。

-

0x01000011

[Memory board arg1] arg2 removed.

说明

l     arg1:表示告警相关内存板的槽位号。

l     arg2:表示告警相关内存丝印,或CPU槽位号和通道号。

l     内存丝印,例如,“DIMM000(A)”、“DIMM010(B)”。

l     CPU槽位号及通道号

不同型号的服务器,同一通道对应的内存数量不同。

影响:降低系统性能。

建议:

1.     在告警的内存槽位安装内存。

2.     重新拔插告警内存。

3.     更换告警槽位的内存。

4.     更换CPU板。

0x0100002D

[arg1] arg2 health status degradation detected by PFAE.

说明

l     arg1:表示告警相关内存板的槽位号。

l     arg2:表示告警相关内存丝印,或CPU槽位号和通道号。

l     内存丝印,例如,“DIMM000(A)”、“DIMM010(B)”。

l     CPU槽位号及通道号

不同型号的服务器,同一通道对应的内存数量不同。

影响:系统可靠性降低。

建议:

1.     尽快安排计划性维护,下电后检查该部件与其插槽是否存在损坏或接触不良现象。

2.     更换该部件并进一步观察。

0x01000041

arg1 arg2 is replaced from SN(arg3) to SN(arg4).

说明

l     arg1:表示告警相关内存板的槽位号。

l     arg2:表示告警相关内存丝印,或CPU槽位号和通道号。

l     内存丝印,例如,“DIMM000(A)”、“DIMM010(B)”。

l     CPU槽位号及通道号

不同型号的服务器,同一通道对应的内存数量不同。

l     arg3:表示更换前内存的SN。

l     arg4:表示更换后内存的SN。

-

0x02000003

The [arg1] disk arg2 installed.

说明

l     arg1:表示硬盘位置,包括“rear”、“front”。

l     arg2:表示硬盘槽位号。

-

0x02000005

The [arg1] disk arg2 removed.

说明

l     arg1:表示硬盘位置,包括“rear”、“front”。

l     arg2:表示硬盘槽位号。

-

0x0200000D

RAID rebuild starts at the [arg1] disk arg2.

说明

l     arg1:表示硬盘位置,包括“rear”、“front”。

l     arg2:表示硬盘槽位号。

-

0x0200000F

RAID rebuild at the [arg1] disk arg2 is stopped.

说明

l     arg1:表示硬盘位置,包括“rear”、“front”。

l     arg2:表示硬盘槽位号。

重构停止并不表示重构结果成功,仍需检查是否有硬盘和RAID卡相关告警。

l     如果无硬盘和RAID卡相关告警,表示重构结果成功。

l     如果有硬盘和RAID卡相关告警,表示重构结果失败。

0x0200001F

The [arg1] disk arg2 health status degradation detected by PFAE.

说明

l     arg1:表示硬盘位置,包括“rear”、“front”。

l     arg2:表示硬盘槽位号。

影响:系统可靠性降低。

建议:

1.     尽快安排计划性维护,下电后检查该部件与其插槽是否存在损坏或接触不良现象。

2.     更换该部件并进一步观察。

0x02000023

The arg1 disk arg2 is replaced from SN(arg3) to SN(arg4).

说明

l     arg1:表示硬盘位置,包括“rear”、“front”。

l     arg2:表示硬盘槽位号。

l     arg3:表示更换前硬盘的SN。

l     arg4:表示更换后硬盘的SN。

-

0x02000033

The [arg1] disk arg2 disconnected temporarily.

说明

l     arg1:表示硬盘位置,包括“rear”、“front”。

l     arg2:表示硬盘槽位号。

-

0x03000003

PSU arg1 installed.

说明

arg1:表示电源模块槽位号。

-

0x03000005

PSU arg1 removed.

说明

arg1:表示电源模块槽位号。

影响:降低服务器电源冗余度。

0x0300001D

Low input voltage detected on PSU arg1.

说明

arg1:表示电源模块槽位号。

影响:输入电压偏低,电源即将无法供电。

0x03000021

High output voltage detected on PSU arg1.

说明

arg1:表示电源模块槽位号。

影响:电源输出电压偏高。

0x03000023

Low output voltage detected on PSU arg1.

说明

arg1:表示电源模块槽位号。

影响:电源输出电压偏低。

0x03000025

High output current detected on PSU arg1.

说明

arg1:表示电源模块槽位号。

影响:电源带载超额,电源即将无法供电。

0x03000027

High input voltage detected on PSU arg1.

说明

arg1:表示电源模块槽位号。

影响:输入电压偏高,电源即将无法供电。

0x03000029

High temperature detected on PSU arg1.

说明

arg1:表示电源模块槽位号。

影响:电源内部温度偏高,电源即将无法供电。

0x0300002B

Fan alarm detected on PSU arg1.

说明

arg1:表示电源模块槽位号。

影响:电源的风扇产生告警,电源即将无法供电。

0x03000043

PSU arg1 is replaced from SN(arg2) to SN(arg3).

说明

l     arg1:表示电源模块槽位号。

l     arg2:表示更换前电源模块的SN。

l     arg3表示更换后电源模块的SN。

-

0x04000001

Fan arg1 [arg2] installed.

说明

l     arg1:表示风扇模块槽位号。

l     arg2:表示风扇位置,包括“rear”、“front”。

-

0x04000003

Fan arg1 [arg2] removed.

说明

l     arg1:表示风扇模块槽位号。

l     arg2:表示风扇位置,包括“rear”、“front”。

影响:降低服务器风扇冗余度。

0x05000015

The disk backplane arg1 is replaced from SN(arg2) to SN(arg3).

说明

l     arg1:表示告警相关硬盘背板的槽位号。

l     arg2:表示更换前硬盘背板的SN。

l     arg3表示更换后硬盘背板的SN。

-

0x08000019

The [arg1] PCIe card arg2 (arg3) starting arg4.

说明

l     arg1:表示PCIe卡的位置,包括“front”、“inner”、“rear”。

l     arg2:表示PCIe卡的槽位号。

l     arg3:表示PCIe卡的类型,例如“M60 GPU”。

l     arg4:表示系统启动的阶段,包括“BIOS POST successful”、“OS load successful”。

-

0x0800003D

The [arg1] PCIe card arg2 (RAID) BBU is absent.

说明

l     arg1:表示PCIe卡的位置,包括“front”、“inner”、“rear”。

l     arg2:表示PCIe卡的槽位号。

影响:PCIe RAID卡Cache功能失效。

建议:安装BBU。

0x0800003F

The [arg1] PCIe card arg2 (RAID) BBU is present.

说明

l     arg1:表示PCIe卡的位置,包括“front”、“inner”、“rear”。

l     arg2:表示PCIe卡的槽位号。

-

0x0800005F

Recoverable errors are detected on arg1 PCIe card arg2 (arg3). Error code: arg4

说明

l     arg1:表示PCIe卡的位置,包括“front”、“inner”、“rear”。

l     arg2:表示PCIe卡的槽位号。

l     arg3:表示PCIe卡类型,例如“M60 GPU”。

l     arg4:表示对应的故障码。

-

0x08000065

arg1 arg2 [arg3] health status degradation detected by PFAE.

说明

l     arg1:表示PCIe卡的位置,包括“front”、“inner”、“rear”。

l     arg2:表示PCIe卡的槽位号。

l     arg3:表示PCIe卡类型,例如“PCIe Card”、“SDI Card”。

影响:系统可靠性降低。

建议:

1.     尽快安排计划性维护,下电后检查该部件与其插槽是否存在损坏或接触不良现象。

2.     更换该部件并进一步观察。

0x0800008F

The arg1 PCIe card arg2 (arg3) arg4 chip was reset. [arg5] [arg6]

说明

l     arg1:表示承载PCIe卡的部件,包括“GpuBoard”、“Riser”。

l     arg2:表示PCIe卡的槽位号。

l     arg3:表示PCIe卡类型,例如“NIC”、“SDI”。

l     arg4:表示部件名称,例如“NetCard”、“TransformCard”。

l     arg5:表示告警相关的附加描述,例如“Error Code”。

l     arg6:表示告警相关的故障码,例如“(7168)”、“(7177)”。

-

0x080000BD

arg1 is replaced from SN(arg2) to SN(arg3).

说明

l     arg1:表示告警相关PCIe卡的名称,例如“FPGA”、“NIC”。

l     arg2:表示更换前PCIe卡的SN。

l     arg3表示更换后PCIe卡的SN。

-

0x0D000007

The NIC arg1 health status degradation detected by PFAE.

说明

arg1:表示网卡的槽位号。

影响:系统可靠性降低。

建议:

1.     尽快安排计划性维护,下电后检查该部件与其插槽是否存在损坏或接触不良现象。

2.     更换该部件并进一步观察。

0x0D000015

The NIC arg1 is replaced from SN(arg2) to SN(arg3).

说明

l     arg1:表示NIC卡的槽位号。

l     arg2:表示更换前NIC卡的SN。

l     arg3表示更换后NIC卡的SN。

-

0x0F000001

PCIe riser card arg1 installed.

说明

arg1:表示PCIe Riser卡的槽位号。

-

0x0F000003

PCIe riser card arg1 removed.

说明

arg1:表示PCIe Riser卡的槽位号。

影响:PCIe卡相关业务中断。

0x0F000019

Riser Card arg1 is replaced from SN(arg2) to SN(arg3).

说明

l     arg1:表示告警相关Riser卡的槽位号。

l     arg2:表示更换前Riser卡的SN。

l     arg3表示更换后Riser卡的SN。

-

0x12000005

Chassis cover opened.

影响:不利于机箱散热及服务器部件保护。

建议:闭合机箱盖。

0x18000005

Fan backplane arg1 is replaced from SN(arg2) to SN(arg3).

说明

l     arg1:表示告警相关风扇背板的槽位号。

l     arg2:表示更换前风扇背板的SN。

l     arg3表示更换后风扇背板的SN。

-

0x1A00000D

iBMC is restarted after AC power supply is restored.

说明

AC电源恢复,iBMC启动完成后,已有告警将会被清除且不会产生清除事件。

0x1A00000F

iBMC event records are cleared.

-

0x1A000011

iBMC event record has reached 90% space capacity.

影响:继续增长将会导致记录空间填满。

建议:清除事件记录。

0x1A00001B

iBMC operation log has reached 90% space capacity.

影响:继续使用可能会导致操作日志空间填满、部分历史操作日志丢失。

建议:

1.     如果需要保存日志,请导出所需操作日志记录。

2.     建议开启日志远程syslog转储功能。

0x1A00001D

iBMC security log has reached 90% space capacity.

影响:继续使用可能会导致安全日志空间填满、部分历史安全日志丢失。

建议:

1.     如果需要保存日志,请导出所需安全日志记录。

2.     建议开启日志远程syslog转储功能。

0x1A000021

iBMC is reset and started.

-

0x1A000025

Heartbeat signals between the iBMC and the system management software(iBMA) are lost.

影响:带内管理监控信息无法获取或实时更新。

建议:重新安装iBMA。

0x1A000029

iBMC time is stepped by more than arg1 minutes.

说明

arg1:表示iBMC跳变时长。

影响:可能导致iBMC日志记录时间混乱。

建议:重启iBMC。

0x1A000039

The iBMC license enters the grace period and can still be used. It will expire in arg1 days.

说明

arg1:表示宽限期剩余天数。

影响:可能会影响BMC高级特性的正常使用。

建议:

1.     安装有效的许可证。

2.     删除当前许可证。

0x1A00003B

The iBMC license has expired.

影响:可能会影响BMC高级特性的正常使用。

建议:

1.     安装有效的许可证。

2.     删除当前许可证。

0x24000017

Failed to obtain the RTC Time on the CPU board.

影响:影响iBMC侧日志时间的准确性。

建议:

1.     重启iBMC。

2.     更换RTC时钟电池。

3.     更换CPU板。

0x2400000B

CPU Board arg1 is replaced from SN(arg2) to SN(arg3).

说明

l     arg1:表示告警相关CPU板的槽位号。

l     arg2:表示更换前CPU板的SN。

l     arg3表示更换后CPU板的SN。

-

0x28000015

CPU arg1 QPI/UPI arg2 link health status degradation detected by PFAE.

说明

l     arg1:表示CPU编号。

l     arg2:表示QPI/UPI通道编号。

影响:系统仍能正常运行,但可靠性有所降低。

建议:

1、尽快安排计划性维护,下电后检查该部件与其插槽是否存在损坏或接触不良现象。

2、更换该部件并进一步观察。

3、更换CPU板

0x29000001

arg1 [arg2] portarg3 disconnected.

说明

l     arg1:表示网卡形态。例如:

l     NIC N:以太网卡扣卡NN为扣卡槽位号)

l     PCIe Card N:PCIe网卡标卡NN为扣卡槽位号)

l     LOM:板载网卡

l     arg2:表示网卡类型,例如“(NIC)”、“(FC)”。

l     arg3:表示网口编号。

影响:此网口相关业务中断。

建议:

1.     重新拔插网线。

2.     检查网线是否连接到对端设备。

3.     检查对端设备工作是否正常。

0x2C000001

The CPU usage (arg1) exceeds the threshold (arg2).

说明

l     arg1:表示当前CPU使用率。

l     arg2:表示CPU使用率阈值。

影响:降低系统性能。

建议:

1.     检查CPU占用率阈值是否设置过低。

2.     结束不必要的业务,释放CPU资源。

0x2C000003

The memory usage (arg1) exceeds the threshold (arg2).

说明

l     arg1:表示当前内存使用率

l     arg2:表示内存使用率阈值。

影响:降低系统性能。

建议:

1.     检查内存占用率阈值是否设置过低。

2.     结束不必要的业务,释放内存资源。

0x2C000009

ACPI is in the working state.

-

0x2C00000B

ACPI is in the soft-off state.

影响:服务器可能无法正常上电。

0x2C00000F

The host was restarted due to unrecognized reason.

影响:可能导致服务器业务中断。

0x2C000011

The host was restarted by command.

影响:可能导致服务器业务中断。

0x2C000013

The host was restarted by power button.

影响:可能导致服务器业务中断。

0x2C000015

The host was restarted due to watchdog timeout.

影响:可能导致服务器业务中断。

0x2C000017

The host is restarted after being powered on (Power strategy is "Turn On").

影响:可能导致服务器业务中断。

0x2C000019

The host is restarted after being powered on (Power strategy is "Restore Previous State").

影响:可能导致服务器业务中断。

0x2C00001B

The OS cannot start without a boot device.

影响:服务器操作系统无法启动。

0x2C00001D

The OS cannot start without a bootable disk.

影响:服务器操作系统无法启动。

0x2C00001F

The OS cannot start because the PXE service is unavailable.

影响:服务器操作系统无法启动。

0x2C000021

The OS cannot start due to the invalid boot partition.

影响:服务器操作系统无法启动。

0x2C000023

The watchdog(arg1) timed out.

说明

arg1:表示看门狗类型,包括“BIOS FRB2”、“BIOS/POST”、“OS Load”、“SMS/OS”及“OEM”。

-

0x2C00002D

Power capping failed.

影响:服务器会自动关机或无法上电,导致业务中断。

建议:

1.     检查外部供电是否满足服务器整机功耗要求,若不满足,请调整。

2.     调高服务器整机功率封顶值。

0x2C00002F

The server system crashes or is abnormally reset.

影响:服务器操作系统异常,相关业务中断。

0x2C000061

Network arg1 [arg2] arg3 bandwidth usage(arg4) exceeds the threshold (arg5).

说明

l     arg1:表示网卡形态。例如:

l     NIC N:以太网卡扣卡NN为扣卡槽位号)

l     PCIe Card N:PCIe网卡标卡NN为扣卡槽位号)

l     LOM:板载网卡

l     arg2:表示网卡类型,例如“(NIC)”、“(FC)”。

l     arg3:表示网口编号。

l     arg4:表示当前带宽占用率。

l     arg5:表示带宽占用率阈值。

影响:可能导致此网卡网口丢包率增加,通信质量下降。

建议:

1.     检查是否存在异常发包业务,将其关闭。

2.     更换带宽更大的网卡。

3.     检查网络环境是否存在网络风暴。

0x2C000063

The host was restarted by BMC arg1.

说明

arg1:表示重启原因,例如“due to an IERR diagnosis failure”、“due to PCIe switch or retimer upgrade”。

影响:服务器业务中断。

建议:尽快完成iBMC重启。

0x2C000085

After the AC is powered on, the host is restarted because the SP information collection is completed.

-

0x31000001

The power button on the panel is pressed.

影响:服务器将下电。

0x31000003

The UID button on the panel is pressed.

-

 

不同款型规格的资料略有差异, 详细信息请向具体销售和400咨询。H3C保留在没有任何通知或提示的情况下对资料内容进行修改的权利!

新华三官网
联系我们