手册下载
H3C UIS 2000 G6 BMC 告警日志信息参考手册-5W100-整本手册.pdf (412.32 KB)
H3C UIS 2000 G6 BMC
告警日志信息参考手册
新华三技术有限公司
http://www.h3c.com
资料版本:5W100-20231102
Copyright © 2023新华三技术有限公司 版权所有,保留一切权利。
非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。
除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。
本文档中的信息可能变动,恕不另行通知。
目 录
2.1.1 Warning high threshold going high
2.1.2 Critical high threshold going high
2.2.1 Warning low threshold going low
2.2.2 Critical low threshold going low
2.2.3 Warning high threshold going high
2.2.4 Critical high threshold going high
2.4.3 Warning low threshold going low
2.5.1 General Chassis Intrusion
2.6.2 Processor Presence detected
2.6.3 Configuration Error – MCA-Spec errors
2.6.4 Configuration Error – MCA-UPI errors
2.6.5 Configuration Error – SpareCore errors
2.6.6 Configuration Error – IIO errors
2.7.3 Power Supply Failure detected
2.7.4 Power Supply Predictive Failure
2.7.5 Power Supply input lost (AC/DC)
2.7.6 Power Supply input lost or out-of-range
2.7.7 Power Supply input out-of-range - but present
2.7.8 Exceeded the upper minor threshold
2.7.9 Power Supply Inactive/standby state
2.8.2 Correctable ECC / other correctable memory error logging limit reached
2.11.3 Bus Uncorrectable Error
2.16 System Boot / Restart Initiated
2.18.1 Watchdog overflowAction:Timer expired
2.18.2 Watchdog overflowAction:Hard Reset
2.18.3 Watchdog overflowAction:Power Down
2.18.4 Watchdog overflowAction:Power Cycle
本文档主要介绍BMC告警日志的相关信息。
当设备发生故障或某些原因导致系统处于不正常的工作状态时,系统能够根据不同模块出现的故障产生告警,同时生成事件日志信息。用户获取到日志信息后,再通过日志信息中的相应字段在本文档中搜索定位到该日志信息,即可了解该日志信息的详细内容和处理建议,从而方便维护服务器的正常运行。
· 通过BMC Web页面获取:登录到BMC Web页面,单击[日志]菜单项,选择“一键收集”页签,进入一键收集页面,根据需要下载日志。
· 通过告警邮件获取:若用户已完成告警邮件的相关配置,可通过告警邮件获取设备告警信息。
· 通过第三方平台获取:若用户已完成SNMP的相关配置,实现了BMC与第三方管理平台对接,则可通过第三方管理平台获取设备告警信息。
· 通过Redfish事件订阅服务器获取:若用户已完成远程订阅服务器的配置,当触发告警时,Redfish会将接收到的告警信息上传到远程订阅服务器。
· 通过IPMI命令获取:通过IPMItool以命令行的方式访问BMC的IPMI接口,输入获取SEL日志的命令,可以获取事件日志信息。
服务器系统的告警包含服务器系统所有部件产生的告警,当产生告警时,需要根据告警信息来定位告警产生的具体原因,告警信息按严重性分为四个等级。
· 正常(OK):
服务器正常运行产生的事件日志,不影响服务器正常运行,无需处理。
· 轻微(Warning):
当前未对系统产生大影响,但可能存在一定风险和隐患,可对相关事件进行观察,必要时采取相应的措施,防止故障升级。
· 严重(Critical):
已对系统产生较大的影响,有可能中断系统或业务模块(计算、存储、通信、用户数据安全性)的正常运行,导致业务中断。
· 紧急(Fatal):
因出现系统处理单元能力严重下降、系统可用资源明显减少、业务处理能力严重下降、业务模块大面积中断、存储设备不可用等现象,导致(或极可能导致)服务器失效、系统宕机、业务数据丢失等情况出现的,需要立即进行处理的告警。
本文以表格的形式对告警日志信息进行介绍,各项的含义请参见表1-1。
表项 |
说明 |
举例 |
日志内容 |
显示日志信息的具体内容。 如出现多条内容一样的日志,可以通过上报的传感器类型来区分 |
Exceeded the upper major threshold.---Current reading:$1---Threshold reading:$2 |
参数解释 |
对日志中出现的参数进行解释,参数名称用“$数字”表示,如$1:XXXX |
· $1:电压传感器的当前读数 · $2:电压传感器的严重高压告警阈值 |
日志等级 |
日志等级 |
严重 |
举例 |
日志真实举例内容 |
Exceeded the upper major threshold.---Current reading:2.58---Threshold reading:2.56 |
日志说明 |
解释日志信息的含义和生成原因 |
整机输入电压高于严重级别的电压告警阈值,告警触发部件请参见BMC Web“事件日志”页面的传感器名称 |
处理建议 |
建议用户应采取哪些处理措施,对于建议措施无法解决的问题,请联系技术支持 |
1. 检查服务器外部供电环境是否处于正常状态,如果否,请检修外部供电环境问题;如果是,请执行下一步操作 2. 登录BMC Web页面确认电源模块是否处于正常状态,如果否,请更换电源模块;如果是,请执行下一步操作 3. 若问题仍然存在,请联系技术支持 |
本手册适用于以下产品:
· H3C UIS 2000 G6
日志内容 |
Warning high threshold going high. Reading=$1 Threshold=$2 |
参数解释 |
· $1:温度传感器的当前读数 · $2:温度传感器的轻微级别低温告警阈值 |
日志等级 |
轻微 |
举例 |
Warning high threshold going high. Reading=82 Threshold=80 |
日志说明 |
温度传感器检测到当前温度高于一般级别的高温告警阈值 |
处理建议 |
1. 请确认机房温度是否过高,如果是,请调整机房温度,如果否;请执行下一步操作 2. 确认服务器的入风口和出风口是否堵塞,如果是,请保持出风口和入风口通畅;如果否,请执行下一步操作 3. 登录BMC Web页面,进入“风扇”页面检查是否有风扇处于故障状态,如果是,请更换故障风扇;如果否,请执行下一步操作 4. 登录BMC Web页面,进入“风扇”页面确认风扇转速是否过低,如果是,请调整风扇转速模式或风扇档位;如果否,请执行下一步操作 5. 若问题仍然存在,请联系技术支持 |
日志内容 |
Critical high threshold going high. Reading=$1 Threshold=$2 |
参数解释 |
· $1:温度传感器的当前读数 · $2:温度传感器的严重级别高温告警阈值 |
日志等级 |
严重 |
举例 |
Critical high threshold going high. Reading=100 Threshold=90 |
日志说明 |
温度传感器检测到当前温度高于紧急级别的高温告警阈值 |
处理建议 |
1. 请确认机房温度是否过高,如果是,请调整机房温度;如果否,请执行下一步操作 2. 确认服务器的入风口和出风口是否堵塞,如果是,请保持出风口和入风口通畅;如果否,请执行下一步操作 3. 登录BMC Web页面,进入“风扇”页面检查是否有风扇处于故障状态,如果是,请更换故障风扇;如果否,请执行下一步操作 4. 登录BMC Web页面,进入“风扇”页面确认风扇转速是否过低,如果是,请调整风扇转速模式或风扇档位;如果否,请执行下一步操作 5. 若问题仍然存在,请联系技术支持 |
日志内容 |
Warning low threshold going low. Reading=$1 Threshold=$2 |
参数解释 |
· $1:电压传感器的当前读数 · $2:电压传感器的轻微级别低压告警阈值 |
日志等级 |
轻微 |
举例 |
Warning low threshold going low. Reading=2.58 Threshold=2.60 |
日志说明 |
整机输入电压低于轻微级别的电压告警阈值,告警触发部件请参见BMC Web“事件日志”页面的传感器名称 |
处理建议 |
1. 检查服务器外部供电环境是否处于正常状态,如果否,请检修外部供电环境问题;如果是,请执行下一步操作 2. 登录BMC Web页面确认电源模块是否处于正常状态,如果否,请更换电源模块;如果是,请执行下一步操作 3. 断电重启服务器查看告警是否解除,如果否,请执行下一步操作 4. 若问题仍然存在,请联系技术支持 |
日志内容 |
Critical low threshold going low. Reading=$1 Threshold=$2 |
参数解释 |
· $1:电压传感器的当前读数 · $2:电压传感器的严重级别低压告警阈值 |
日志等级 |
严重 |
举例 |
Critical low threshold going low. Reading=2.58 Threshold=2.60 |
日志说明 |
整机输入电压低于严重级别的电压告警阈值,告警触发部件请参见BMC Web“事件日志”页面的传感器名称 |
处理建议 |
1. 检查服务器外部供电环境是否处于正常状态,如果否,请检修外部供电环境问题;如果是,请执行下一步操作 2. 登录BMC Web页面确认电源模块是否处于正常状态,如果否,请更换电源模块;如果是,请执行下一步操作 3. 断电重启服务器查看告警是否解除,如果否,请执行下一步操作 4. 若问题仍然存在,请联系技术支持 |
日志内容 |
Warning high threshold going high.Reading=$1 Threshold=$2 |
参数解释 |
· $1:电压传感器的当前读数 · $2:电压传感器的轻微级别高压告警阈值 |
日志等级 |
轻微 |
举例 |
Warning high threshold going high. Reading=2.58 Threshold=2.56 |
日志说明 |
整机输入电压高于轻微级别的电压告警阈值,告警触发部件请参见BMC Web“事件日志”页面的传感器名称 |
处理建议 |
1. 检查服务器外部供电环境是否处于正常状态,如果否,请检修外部供电环境问题;如果是,请执行下一步操作 2. 登录BMC Web页面确认电源模块是否处于正常状态,如果否,请更换电源模块;如果是,请执行下一步操作 3. 断电重启服务器查看告警是否解除,如果否,请执行下一步操作 4. 若问题仍然存在,请联系技术支持 |
日志内容 |
Critical high threshold going high.Reading=$1 Threshold=$2 |
参数解释 |
· $1:电压传感器的当前读数 · $2:电压传感器的严重级别高压告警阈值 |
日志等级 |
严重 |
举例 |
Critical high threshold going high.. Reading=2.58 Threshold=2.56 |
日志说明 |
整机输入电压高于严重级别的电压告警阈值,告警触发部件请参见BMC Web“事件日志”页面的传感器名称 |
处理建议 |
1. 检查服务器外部供电环境是否处于正常状态,如果否,请检修外部供电环境问题;如果是,请执行下一步操作 2. 登录BMC Web页面确认电源模块是否处于正常状态,如果否,请更换电源模块;如果是,请执行下一步操作 3. 断电重启服务器查看告警是否解除,如果否,请执行下一步操作 4. 若问题仍然存在,请联系技术支持 |
日志内容 |
State Asserted,error code:$1 |
参数解释 |
· $1: 电源故障错误码 |
日志等级 |
严重 |
举例 |
State Asserted,error code: 6 |
日志说明 |
主板上存在部件电源故障 |
处理建议 |
1. 断电重启服务器查看告警是否解除 2. 若问题仍然存在,请联系技术支持 |
日志内容 |
Transition to Running |
参数解释 |
无 |
日志等级 |
正常 |
举例 |
Transition to Running |
日志说明 |
风扇处于在位状态 |
处理建议 |
1. 检查风扇是否在位 2. 重新安装风扇 3. 若问题仍然存在,请联系技术支持 |
日志内容 |
Transition to Off Line |
参数解释 |
无 |
日志等级 |
严重 |
举例 |
Transition to Off Line |
日志说明 |
风扇处于离线状态 |
处理建议 |
1. 如果风扇被移除,建议重新安装风扇 2. 请重新插拔风扇,确保风扇接触良好 3. 如果风扇状态传感器有故障报告,则风扇发生故障,建议更换风扇 4. 若问题仍然存在,请联系技术支持 |
日志内容 |
Warning low threshold going low. Reading=$1 Threshold=$2 |
参数解释 |
· $1:风扇转速传感器的当前读数 · $2:风扇转速传感器的轻微级别低压告警阈值 |
日志等级 |
轻微 |
举例 |
Warning low threshold going low. Reading=300 Threshold=500 |
日志说明 |
整机风扇转速低于轻微级别的转速告警阈值,告警触发请参见BMC Web“事件日志”页面的传感器名称 |
处理建议 |
1. 检查服务器风扇值是否处于正常状态,如果否,请重新插拔风扇;如果是,请执行下一步操作 2. 断电重启服务器查看告警是否解除,如果否,请执行下一步操作 3. 若问题仍然存在,请联系技术支持 |
日志内容 |
General Chassis Intrusion |
参数解释 |
无 |
日志等级 |
严重 |
举例 |
General Chassis Intrusion |
日志说明 |
在安装了开箱告警装置按钮的设备上,发生设备开箱事件 |
处理建议 |
1. 检查是否有人为打开机箱的操作 2. 检查机箱盖是否正确安装,必要时可打开机盖再关闭,确认日志是否消失 3. 检查开箱告警模块与挂耳连接是否正常 4. 若问题仍然存在,请联系技术支持 |
日志内容 |
Thermal Trip |
参数解释 |
无 |
日志等级 |
轻微 |
举例 |
Thermal Trip |
日志说明 |
当CPU过热时,触发该事件,可能会关机下电 如果单独报Thermal Trip,未报其他错误有可能是CPU负载急剧变化,散热策略来不及调整,导致短时间温度上升报异常 |
处理建议 |
1. 登录BMC Web页面,检查风扇状态是否正常 2. 插拔或者更换转速告警的风扇模块 3. 查看系统资源监控页签,查看系统业务量是否过大,关闭非紧急业务以降低业务承载 4. 检查环境温度是否过高,将服务器运行环境温度控制在其正常工作温度范围内 5. 检查入风口/出风口是否堵塞,移除阻塞物 6. 将服务器下电,检查CPU散热器是否接触不良,重新涂抹导热硅脂并安装散热器,然后上电 7. 若问题仍然存在,请联系技术支持 |
日志内容 |
Processor Presence detected |
参数解释 |
无 |
日志等级 |
正常 |
举例 |
Processor Presence detected |
日志说明 |
当主CPU不在位或者安装有误时会触发该事件解除日志 |
处理建议 |
1. 检查主CPU是否安装正确 2. 如主CPU故障,请更换CPU 3. 若问题仍然存在,请联系技术支持 |
日志内容 |
Configuration Error, $1, Bank Type: $2, Error Type: $3, Error Severity: $4 |
参数解释 |
· $1:Last Boot Error Flag · $2:Bank Type · $3:Error Type · $4:Error Severity |
日志等级 |
轻微 |
举例 |
Configuration Error, Last Boot Errr, Bank Type: 2, Error Type: Cache, Error Severity: Correctable Error. |
日志说明 |
CPU配置存在错误 |
处理建议 |
1. 检查主CPU是否安装正确 2. 如主CPU故障,请更换CPU 3. 若问题仍然存在,请联系技术支持 |
日志内容 |
Configuration Error, $1, Bank Type: $2, Lan Index: $3, Error Severity: $4. |
参数解释 |
· $1:Last Boot Error Flag · $2:Bank Type · $3:Lan Index · $4:Error Severity |
日志等级 |
轻微 |
举例 |
Configuration Error, Current Boot Error, Bank Type: UPI, Lan Index: 0, Error Severity: Correctable Error. |
日志说明 |
CPU配置存在错误 |
处理建议 |
1. 检查主CPU是否安装正确 2. 如主CPU故障,请更换CPU 3. 若问题仍然存在,请联系技术支持 |
日志内容 |
Configuration Error, Error Severity: $1, Failed core: $2. |
参数解释 |
$1:Error Severity $2:Failed core |
日志等级 |
轻微 |
举例 |
Configuration Error, Error Severity: Correctable Error, Failed core: 0. |
日志说明 |
CPU配置存在错误 |
处理建议 |
1. 检查主CPU是否安装正确 2. 如主CPU故障,请更换CPU 3. 若问题仍然存在,请联系技术支持 |
日志内容 |
Configuration Error, $1, Error Stack: $2, Error Type Code: $3. |
参数解释 |
· $1:Last Boot Error Flag · $2:Error Stack · $3:Error Type Code |
日志等级 |
轻微 |
举例 |
Configuration Error, Current Boot Error, Error Stack: 0, Error Type Code: 0. |
日志说明 |
CPU配置存在错误 |
处理建议 |
1. 确认CPU安装是否符合服务器用户指南中的安装准则,如果否,请重新正确安装CPU,如果是,请执行下一步 2. 若问题仍然存在,请联系技术支持 |
日志内容 |
Presence detected |
参数解释 |
无 |
日志等级 |
正常 |
举例 |
Presence detected |
日志说明 |
当检测到电源模块不在位 |
处理建议 |
1. 检查是否进行了拔出电源模块的操作 2. 检查电源模块是否安装正确 3. 若问题仍然存在,请联系技术支持 |
日志内容 |
Redundancy Lost |
参数解释 |
无 |
日志等级 |
严重 |
举例 |
Redundancy Lost |
日志说明 |
电源冗余失效 |
处理建议 |
1. 检查电源模块供电环境是否正常 2. 检查是否有电源模块被移除 3. 检查是否有电源模块和电源线缆接触不良 4. 检查是否存在电源相关故障告警日志,判断是否为电源故障 5. 若问题仍然存在,请联系技术支持 |
日志内容 |
Power Supply Failure detected |
参数解释 |
无 |
日志等级 |
严重 |
举例 |
Power Supply Failure detected |
日志说明 |
电源检测失败 |
处理建议 |
1. 检查电源模块的风扇是否停转 2. 重新拔插电源模块 3. 检查电源模块输入电压是否正常 4. 更换对应的电源模块 5. 若问题仍然存在,请联系技术支持 |
日志内容 |
Power Supply Predictive Failure |
参数解释 |
无 |
日志等级 |
轻微 |
举例 |
Power Supply Predictive Failure |
日志说明 |
电源模块内部产生轻微告警 |
处理建议 |
1. 检查电源模块的状态指示灯是否正常 2. 检查电源模块的风扇是否停转 3. 检查电源输入电压是否正常 4. 若问题仍然存在,请联系技术支持 |
日志内容 |
Power Supply input lost (AC/DC) |
参数解释 |
无 |
日志等级 |
严重 |
举例 |
Power Supply input lost (AC/DC) |
日志说明 |
交流/直流输入异常 |
处理建议 |
1. 确认所有电源线未损坏且连接正确 2. 确认所有电源模块都已正确安装 3. 检查电源模块的风扇是否停转 4. 确认电源输入正常 5. 若问题仍然存在,请联系技术支持 |
日志内容 |
Power Supply input lost or out-of-range |
参数解释 |
无 |
日志等级 |
严重 |
举例 |
Power Supply input out-of-range |
日志说明 |
电源模块在位,但供电中断或者超出阈值 |
处理建议 |
1. 检查是否有人为断电的操作 2. 检查电源模块输入电压是否正常 3. 检查电源线和电源模块是否安装正确 4. 重新拔插电源模块,确保电源接触良好 5. 检查电源模块的风扇是否停转 6. 若问题仍然存在,请联系技术支持 |
日志内容 |
Power Supply input out-of-range - but present |
参数解释 |
无 |
日志等级 |
严重 |
举例 |
Power Supply input out-of-range - but present |
日志说明 |
电源模块的输入电压过高或者过低 |
处理建议 |
1. 检查电源模块输入电压是否正常 2. 检查电源线和电源模块是否安装正确 3. 重新拔插电源模块,确保电源接触良好 4. 检查电源模块的风扇是否停转 5. 若问题仍然存在,请联系技术支持 |
日志内容 |
Exceeded the upper minor threshold. ---Current reading:$1---Threshold reading:$2 |
参数解释 |
· $1:当前读数 · $2:总功率告警阈值 |
日志等级 |
轻微 |
举例 |
Exceeded the upper minor threshold.---Current reading:2030---Threshold reading:493 |
日志说明 |
整机输入功率高于当前的总功率告警阈值 |
处理建议 |
1. 通过BMC Web页面检查阈值设置是否合理 2. 通过BMC Web页面检查服务器总功率是否过高 3. 检查电源总功率是否满足业务需求 4. 若问题仍然存在,请联系技术支持 |
日志内容 |
Power Supply Inactive/standby state |
参数解释 |
无 |
日志等级 |
正常 |
举例 |
Power Supply Inactive/standby state |
日志说明 |
电源退出冷备模式,当设置了备用电源的功能,如果当前设备的运行功率过高,备用电源会自动退出冷备份模式,给设备进行供电 |
处理建议 |
1. 通过BMC Web页面检查服务器总功率是否过高 2. 若问题仍然存在,请联系技术支持 |
日志内容 |
Correctable ECC, $1, Socket: $2, Channel: $3, DIMM: $4. |
参数解释 |
· $1:产生错误启动时间,Current Boot Error或Last Boot Error · $2:CPU编号 · $3:通道编号 · $4:内存控制器编号 |
日志等级 |
轻微 |
举例 |
Correctable ECC, Current Boot, Socket: 0, Channel: 1, DIMM: 1. |
日志说明 |
内存的可纠正错误,不直接影响系统正常运行 |
处理建议 |
无需处理 |
日志内容 |
Correctable ECC / other correctable memory error logging limit reached, $1, Socket: $2, Channel: $3, DIMM: $4. |
参数解释 |
· $1:产生错误启动时间,Current Boot Error或Last Boot Error · $2:CPU编号 · $3:通道编号 · $4:内存控制器编号 |
日志等级 |
轻微 |
举例 |
Correctable ECC / other correctable memory error logging limit reached, Current Boot, Socket: 0, Channel: 1, DIMM: 1. |
日志说明 |
触发可纠正ECC或者其他可纠正内存错误,不直接影响系统正常运行 |
处理建议 |
无需处理 |
日志内容 |
Uncorrectable ECC, $1, Socket: $2, Channel: $3, DIMM: $4. |
参数解释 |
· $1:产生错误启动时间,Current Boot Error或Last Boot Error · $2:CPU编号 · $3:通道编号 · $4:内存控制器编号 |
日志等级 |
严重 |
举例 |
Uncorrectable ECC, Current Boot, Socket: 0, Channel: 1, DIMM: 1. |
日志说明 |
发生了不可纠正的ECC或其他不可纠正的错误 |
处理建议 |
1. 检查当前环境温度或者湿度是否较高 2. 清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存 3. 若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板 4. 若问题仍然存在,建议更换内存 5. 若问题仍然存在,请联系技术支持 |
日志内容 |
Presence detected |
参数解释 |
无 |
日志等级 |
正常 |
举例 |
Presence detected |
日志说明 |
对应的传感器检测到需要监控的内存模块在位 |
处理建议 |
1. 在BIOS页面中检查服务器是否处于最小启动模式。如果处于服务器最小启动模式,设备可能会被BIOS隔离,导致BMC无法识别 2. 重新安装对应的内存,确保安装正确,金手指未被污染,内存插槽中无异物 3. 若问题仍然存在,请联系技术支持 |
日志内容 |
Drive Presence |
参数解释 |
无 |
日志等级 |
正常 |
举例 |
Drive Presence |
日志说明 |
硬盘在位事件,当事件状态为解除时,表示硬盘下线;当事件状态为触发时,表示硬盘上线。 |
处理建议 |
无需处理 |
日志内容 |
Drive Fault |
参数解释 |
无 |
日志等级 |
严重 |
举例 |
Drive Fault |
日志说明 |
对应槽位硬盘未被识别或硬盘状态为故障。 |
处理建议 |
1. 登录BMC Web页面查看硬盘信息,如果该槽位的硬盘不显示,首先确认硬盘安装是否到位 2. 插拔该硬盘确认硬盘是否能重新被识别。如插拔后仍不能被识别,则更换硬盘 3. 查看该硬盘状态是否为Unconfig Bad状态,尝试更改硬盘状态为Unconfig Good 4. 如果硬盘能识别且状态正常,继续查看对应硬盘信息中的丝印号与实际安装是否一致。如果不一致,请排查线缆连接是否正确 5. 如果多个槽位硬盘不显示,请排查线缆或硬盘背板是否有问题。若有问题请更换故障部件;若无问题则执行下一步 6. 检查硬盘灯是否正常,指示灯为橙色时说明硬盘故障;同时检查OS内对应硬盘能否正常识别及访问。若有问题请更换故障部件;若无问题则执行下一步 7. 检查所在存储控制卡是否处于异常状态。若有问题请更换故障部件;若无问题则执行下一步 8. 若问题仍然存在,请联系技术支持 |
日志内容 |
· Less than 15% of remaining lifespan, current drive has · reached $1 of its lifespan. |
参数解释 |
$1:硬盘寿命剩余百分比 |
日志等级 |
严重 |
举例 |
Less than 15% of remaining lifespan, current drive has reached 2%% of its lifespan. |
日志说明 |
当前硬盘寿命还剩2%低于严重告警15% |
处理建议 |
注意硬盘信息备份 |
日志内容 |
Log Area Reset/Cleared |
参数解释 |
无 |
日志等级 |
正常 |
举例 |
Log Area Reset/Cleared |
日志说明 |
清除所有事件日志后触发该事件日志 |
处理建议 |
无需处理 |
日志内容 |
PCI PERR, Bus: $1, Device: $2, Function: $3. |
参数解释 |
· $1:Bus Number · $2:Device Number · $3:Function Number |
日志等级 |
严重 |
举例 |
PCI PERR, Bus: 3, Device: 0, Function: 1. |
日志说明 |
CPU与PCIe设备进行交互时设备或链路存在PCI PERR错误 |
处理建议 |
1. 检查是否有拔卡动作 2. 如果没有拔卡动作,请检查指定槽位上的卡是否松动 3. 若问题仍然存在,请联系技术支持 |
日志内容 |
PCI SERR, Bus: $1, Device: $2, Function: $3. |
参数解释 |
· $1:Bus Number · $2:Device Number · $3:Function Number |
日志等级 |
严重 |
举例 |
PCI SERR, Bus: 3, Device: 0, Function: 1. |
日志说明 |
CPU与PCIe设备进行交互时设备或链路存在PCI SERR错误 |
处理建议 |
1. 检查是否有插卡动作 2. 如果没有插卡动作,请检查指定槽位上的卡是否松动 3. 若问题仍然存在,请联系技术支持 |
日志内容 |
Bus Uncorrectable Error, Bus: $1, Device: $2, Function: $3. |
参数解释 |
· $1:Bus Number · $2:Device Number · $3:Function Number |
日志等级 |
严重 |
举例 |
Bus Uncorrectable Error, Bus: 3, Device: 0, Function: 1. |
日志说明 |
CPU与PCIe设备进行交互时设备或链路存在不可纠正错误 |
处理建议 |
1. 若同一段时间存在多条同类错误,检查Riser等链路部件与主板连接情况 2. 重启服务器,检查日志是否依然上报 3. 根据slot号确定发生错误的PCIe设备 4. 如果发生错误的是PCIe外设,请执行以下操作: ¡ 检查PCIe设备是否正确插入 ¡ 检查PCIe设备金手指是否有污染 ¡ 将PCIe设备安装在另一个插槽中,检查该错误位于PCIe设备还是位于PCIe插槽 ¡ 如果错误位于PCIe设备,请更新PCIe设备固件和驱动程序 ¡ 如果错误位于PCIe插槽,请检查Riser卡等链路部件金手指是否有污染 ¡ 如问题依然存在,请更换备件 5. 如果发生错误的是板载设备,请执行以下操作: ¡ 更新固件和驱动程序以及BIOS版本 ¡ 更换主板 6. 若问题仍然存在,请检查PCIe设备所在链路部件 7. 若问题仍然存在,请联系技术支持 |
日志内容 |
Bus Correctable Error, Bus: $1, Device: $2, Function: $3. |
参数解释 |
· $1:Bus Number · $2:Device Number · $3:Function Number |
日志等级 |
严重 |
举例 |
Bus Correctable Error, Bus: 3, Device: 0, Function: 1. |
日志说明 |
CPU与PCIe设备进行交互时设备或链路存在可纠正错误 |
处理建议 |
1. 若同一段时间存在多条同类错误,检查Riser等链路部件与主板连接情况 2. 重启服务器,检查日志是否依然上报 3. 根据slot号确定发生错误的PCIe设备 4. 如果发生错误的是PCIe外设,请执行以下操作: ¡ 检查PCIe设备是否正确插入 ¡ 检查PCIe设备金手指是否有污染 ¡ 将PCIe设备安装在另一个插槽中,检查该错误位于PCIe设备还是位于PCIe插槽 ¡ 如果错误位于PCIe设备,请更新PCIe设备固件和驱动程序 ¡ 如果错误位于PCIe插槽,请检查Riser卡等链路部件金手指是否有污染 ¡ 如问题依然存在,请更换备件 5. 如果发生错误的是板载设备,请执行以下操作: ¡ 更新固件和驱动程序以及BIOS版本 ¡ 更换主板 6. 若问题仍然存在,请检查PCIe设备所在链路部件 7. 若问题仍然存在,请联系技术支持 |
日志内容 |
Bus Fatal Error, Bus: $1, Device: $2, Function: $3. |
参数解释 |
· $1:Bus Number · $2:Device Number · $3:Function Number |
日志等级 |
严重 |
举例 |
Bus Fatal Error, Bus: 3, Device: 0, Function: 1. |
日志说明 |
CPU与PCIe设备进行交互时设备或链路存在严重错误 |
处理建议 |
1. 若同一段时间存在多条同类错误,检查Riser等链路部件与主板连接情况 2. 重启服务器,检查日志是否依然上报 3. 根据slot号确定发生错误的PCIe设备 4. 如果发生错误的是PCIe外设,请执行以下操作: ¡ 检查PCIe设备是否正确插入 ¡ 检查PCIe设备金手指是否有污染 ¡ 将PCIe设备安装在另一个插槽中,检查该错误位于PCIe设备还是位于PCIe插槽 ¡ 如果错误位于PCIe设备,请更新PCIe设备固件和驱动程序 ¡ 如果错误位于PCIe插槽,请检查Riser卡等链路部件金手指是否有污染 ¡ 如问题依然存在,请更换备件 5. 如果发生错误的是板载设备,请执行以下操作: ¡ 更新固件和驱动程序以及BIOS版本 ¡ 更换主板 6. 若问题仍然存在,请检查PCIe设备所在链路部件 7. 若问题仍然存在,请联系技术支持 |
日志内容 |
Power Button pressed |
参数解释 |
无 |
日志等级 |
正常 |
举例 |
Power Button pressed |
日志说明 |
当按下设备前面板的实体电源按钮时,会产生该事件 |
处理建议 |
无需处理 |
日志内容 |
Initiated by power up |
参数解释 |
无 |
日志等级 |
正常 |
举例 |
Initiated by power up |
日志说明 |
系统开机触发,该事件日志的仅在支持BIOS_Boot_Up或BMC_Boot_Up传感器的服务器上显示 |
处理建议 |
1. 请通过其他日志确认事件日志触发原因和处理建议 2. 若问题仍然存在,请联系技术支持 |
日志内容 |
S0 / G0 "working" |
参数解释 |
无 |
日志等级 |
正常 |
举例 |
S0 / G0 "working" |
日志说明 |
S0 / G0表示系统处于正常工作状态,其中G(0-2)表示全局状态(G-States),S(0-5)表示睡眠状态(S-States) |
处理建议 |
无需处理 |
日志内容 |
S5 / G2 "soft-off" |
参数解释 |
无 |
日志等级 |
正常 |
举例 |
S5 / G2 "soft-off" |
日志说明 |
S5 / G2 表示软关机状态,此时不可运行应用程序和操作系统,除了主要的电源供电单元,基本上会关闭整个系统。功耗约等于零,如需重启系统,唤醒延迟时间比较长 |
处理建议 |
无需处理 |
日志内容 |
Timer expired , status only |
参数解释 |
无 |
日志等级 |
正常 |
举例 |
Timer expired , status only |
日志说明 |
看门狗超时溢出时,如果超时动作设为“无动作”,则产生此告警,产生此告警的前提是BIOS下启动看门狗 |
处理建议 |
1. 告警产生在BIOS启动阶段,为硬件异常或BIOS启动异常,检查事件日志中其它的相关错误,并执行日志中建议的操作 2. 告警产生在操作系统加载阶段,为操作系统启动异常,请确认操作系统启动环境是否出现异常,如果是,则修复系统启动环境;如果否,请执行第5步 3. 告警产生在操作系统运行阶段,为业务软件异常,检查操作系统中是否有更为详细的日志并根据具体问题进行处理 4. 在产生网络风暴的情况下,可能会导致看门狗超时,检查当前网络是否存在网络风暴,如果是,请处理网络异常;如果否,请执行下一步 5. 若问题仍然存在,请联系技术支持 |
日志内容 |
Hard Reset |
参数解释 |
无 |
日志等级 |
严重 |
举例 |
Hard Reset |
日志说明 |
通过BIOS启动看门狗,在系统某个阶段(由timer user字段来标示,比如BIOS POST、OS Load或SMS/OS阶段),看门狗超时溢出时,如果超时动作设为“重启”,则产生此告警 |
处理建议 |
1. 告警产生在BIOS启动阶段,为硬件异常或BIOS启动异常,检查事件日志中其它的相关错误,并执行日志中建议的操作 2. 告警产生在操作系统加载阶段,为操作系统启动异常,请确认操作系统启动环境是否出现异常,如果是,则修复系统启动环境;如果否,请执行第5步 3. 告警产生在操作系统运行阶段,为业务软件异常,检查操作系统中是否有更为详细的日志并根据具体问题进行处理 4. 在产生网络风暴的情况下,可能会导致看门狗超时,检查当前网络是否存在网络风暴,如果是,请处理网络异常;如果否,请执行下一步 5. 若问题仍然存在,请联系技术支持 |
日志内容 |
Power Down |
参数解释 |
无 |
日志等级 |
严重 |
举例 |
Power Down |
日志说明 |
通过BIOS启动看门狗,在系统某个阶段(由timer user字段来标示,比如BIOS POST、OS Load或SMS/OS阶段),看门狗超时溢出时,如果超时动作设为“关机”,则产生此告警,系统被强制下电,此时业务将被中断,未保存数据将丢失 |
处理建议 |
1. 告警产生在BIOS启动阶段,为硬件异常或BIOS启动异常,检查事件日志中其它的相关错误,并执行日志中建议的操作 2. 告警产生在操作系统加载阶段,为操作系统启动异常,请确认操作系统启动环境是否出现异常,如果是,则修复系统启动环境;如果否,请执行第5步 3. 告警产生在操作系统运行阶段,为业务软件异常,检查操作系统中是否有更为详细的日志并根据具体问题进行处理 4. 在产生网络风暴的情况下,可能会导致看门狗超时,检查当前网络是否存在网络风暴,如果是,请处理网络异常;如果否,请执行下一步 5. 若问题仍然存在,请联系技术支持 |
日志内容 |
Power Cycle |
参数解释 |
无 |
日志等级 |
严重 |
举例 |
Power Cycle |
日志说明 |
通过BIOS启动看门狗,在系统某个阶段(由timer user字段来标示,比如BIOS POST、OS Load或SMS/OS阶段),看门狗超时溢出时,如果超时动作设为“掉电重启”,则产生此告警 |
处理建议 |
1. 告警产生在BIOS启动阶段,为硬件异常或BIOS启动异常,检查事件日志中其它的相关错误,并执行日志中建议的操作 2. 告警产生在操作系统加载阶段,为操作系统启动异常,请确认操作系统启动环境是否出现异常,如果是,则修复系统启动环境;如果否,请执行第5步 3. 告警产生在操作系统运行阶段,为业务软件异常,检查操作系统中是否有更为详细的日志并根据具体问题进行处理 4. 在产生网络风暴的情况下,可能会导致看门狗超时,检查当前网络是否存在网络风暴,如果是,请处理网络异常;如果否,请执行下一步 5. 若问题仍然存在,请联系技术支持 |
表3-1 CPU起始编号说明
服务器名称 |
CPU起始编号 |
H3C UIS 2000 G6 |
CPU 0 |