• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 新华三人才研学中心
  • 关于我们

H3C服务器 故障处理手册-6W114

手册下载

H3C服务器 故障处理手册-6W114-整本手册.pdf  (22.20 MB)

  • 发布时间:2024/3/28 4:00:35
  • 浏览量:
  • 下载量:

H3C服务器

故障处理手册

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

资料版本:6W114-20240322

 

Copyright © 2020-2024新华三技术有限公司 版权所有,保留一切权利。

非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。

除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。

本文档中的信息可能变动,恕不另行通知。


 

1 安全··· 1-1

1.1 安全信息·· 1-1

1.1.1 运行安全·· 1-1

1.1.2 电气安全·· 1-1

1.1.3 电池安全·· 1-1

1.2 安全注意事项·· 1-2

1.3 静电防护·· 1-2

1.3.1 防止静电释放·· 1-2

1.3.2 防止静电释放的接地方法·· 1-2

1.4 设备标识·· 1-3

2 适用产品··· 2-1

3 故障处理流程··· 3-1

4 故障诊断前的准备工作··· 4-1

4.1 熟悉产品信息·· 4-1

4.2 准备软件工具·· 4-1

4.2.1 远程维护工具·· 4-1

4.2.2 阵列诊断工具·· 4-2

4.3 收集故障的症状信息·· 4-3

4.3.1 收集基本信息·· 4-3

4.3.2 对照故障信息检查清单自检·· 4-6

4.4 明确服务器最小化硬件配置·· 4-7

5 收集故障相关信息··· 5-1

5.1 准备硬件工具·· 5-1

5.2 收集操作系统日志·· 5-3

5.3 收集HDM SDS日志·· 5-4

5.4 收集HDM录屏信息·· 5-5

5.5 收集存储控制卡阵列配置信息(OS内)·· 5-6

5.5.1 PMC存储控制卡·· 5-6

5.5.2 LSI存储控制卡·· 5-10

5.6 收集存储控制卡阵列配置信息(OS外)·· 5-13

5.6.1 通过HDM收集(LSI存储控制卡)·· 5-13

5.6.2 通过BIOS收集(PMC存储控制卡)·· 5-14

5.6.3 通过BIOS收集(LSI存储控制卡)·· 5-20

5.7 收集存储控制卡阵列日志(OS内)·· 5-26

5.7.1 PMC存储控制卡·· 5-26

5.7.2 LSI存储控制卡·· 5-27

5.8 收集FC HBA卡日志·· 5-28

5.8.1 收集Qlogic FC HBA卡日志·· 5-28

5.8.2 收集Emulex FC HBA卡日志·· 5-30

5.9 收集GPU相关日志·· 5-45

5.9.1 常见的GPU故障收集方式·· 5-45

5.9.2 PCIe GPU FieldDiag现场诊断工具使用方法·· 5-46

5.9.3 HGX GPU FieldDiag现场诊断工具使用方法·· 5-48

5.10 收集网卡相关日志·· 5-50

5.10.1 Intel网卡日志收集·· 5-50

5.10.2 Mellanox网卡日志收集·· 5-55

5.10.3 BroadCom网卡日志收集·· 5-59

5.10.4 通用网卡日志收集·· 5-61

6 故障诊断定位··· 6-1

6.1 诊断原则·· 6-1

6.2 诊断通用思路·· 6-1

6.3 故障定位·· 6-3

6.3.1 通过指示灯定位故障·· 6-3

6.3.2 通过同时闪烁的挂耳指示灯定位故障·· 6-8

6.3.3 通过诊断面板上的故障代码定位故障·· 6-8

6.3.4 通过LCD可触摸智能管理模块定位故障·· 6-9

6.3.5 通过智能安全面板上的指示灯定位故障·· 6-10

6.4 故障诊断流程图·· 6-11

6.4.1 故障诊断流程图使用场景·· 6-11

6.4.2 通用诊断流程图·· 6-12

6.4.3 服务器硬件故障指示流程图·· 6-13

6.4.4 远程诊断流程图·· 6-15

6.4.5 开机故障流程图·· 6-15

6.4.6 POST故障流程图·· 6-16

6.4.7 操作系统引导故障流程图·· 6-18

6.4.8 iFIST故障流程图·· 6-19

6.4.9 存储控制卡故障流程图·· 6-21

6.4.10 存储控制卡的超级电容故障流程图·· 6-23

6.4.11 物理硬盘故障流程图·· 6-24

6.4.12 逻辑硬盘故障流程图·· 6-27

6.4.13 网卡故障流程图·· 6-28

6.4.14 GPU故障诊断流程图·· 6-30

6.4.15 串口&DSD模块故障诊断流程图·· 6-31

7 硬件类问题··· 7-1

7.1 常见硬件问题·· 7-1

7.1.1 新部件问题·· 7-1

7.1.2 第三方部件问题·· 7-1

7.1.3 部件/线缆连接松动·· 7-2

7.1.4 服务器自动关机·· 7-4

7.2 指示灯问题·· 7-5

7.2.1 指示灯不亮·· 7-5

7.2.2 Health指示灯闪烁告警·· 7-6

7.2.3 风扇故障导致Health指示灯闪烁·· 7-7

7.2.4 风扇指示灯闪烁·· 7-7

7.3 电源问题·· 7-8

7.3.1 电源模块状态指示灯灭·· 7-8

7.3.2 电源模块状态指示灯橙灯常亮或橙灯闪烁·· 7-9

7.3.3 电源模块状态指示灯绿色闪烁,服务器无法启动·· 7-10

7.3.4 电源模块风扇转速过快,噪声过大·· 7-10

7.3.5 HDM事件日志提示电源输入异常·· 7-11

7.3.6 HDM事件日志提示电源模块输入正常,输出异常·· 7-12

7.3.7 HDM事件日志提示电源模块冗余丢失·· 7-13

7.3.8 HDM事件日志提示电源模块“Vendor mismatch” 7-14

7.4 POST阶段问题·· 7-16

7.4.1 上电后显示No Signal 7-16

7.4.2 Early POST阶段挂死(不适用于Hygon CPU的服务器)·· 7-18

7.4.3 POST阶段挂死·· 7-19

7.4.4 POST阶段出现红屏异常信息打印·· 7-19

7.4.5 存储控制卡自检时卡住·· 7-20

7.5 PXE启动问题·· 7-21

7.5.1 PXE启动失败·· 7-21

7.5.2 PXE启动黑屏或打印错误信息,无法进入PXE环境·· 7-22

7.5.3 进入PXE环境后无法安装系统或安装过程中报错·· 7-28

7.6 硬盘问题·· 7-28

7.6.1 HDM提示硬盘Drive FaultOffline告警·· 7-29

7.6.2 HDM存储管理界面中全部硬盘无法识别·· 7-31

7.6.3 操作系统日志上报硬盘故障·· 7-32

7.6.4 操作系统无法识别硬盘·· 7-34

7.6.5 部分linux系统下发预知性移除NVMe命令时,硬盘Fault/UID指示灯橙灯不亮·· 7-35

7.6.6 部分linux系统下发点灯命令时,硬盘Fault/UID指示灯蓝灯亮,热拔插硬盘后蓝灯不灭·· 7-35

7.6.7 RHEL8.2系统下发点灯命令时,硬盘Fault/UID指示灯不亮·· 7-36

7.6.8 Ubuntu系统对下发点灯/预知性命令操作时,硬盘Fault/UID指示灯不亮·· 7-36

7.6.9 硬盘Fault/UID指示灯橙灯常亮或者闪烁·· 7-37

7.6.10 SSD硬盘达到使用寿命问题·· 7-37

7.6.11 PCH下无法识别SSD·· 7-38

7.6.12 HDM界面NVMe硬盘状态异常·· 7-38

7.6.13 安装全新NVMe硬盘无法识别·· 7-39

7.6.14 NVMe硬盘故障·· 7-41

7.6.15 硬盘中的数据无法访问·· 7-43

7.7 存储控制卡问题·· 7-44

7.7.1 更换存储控制卡注意事项·· 7-44

7.7.2 逻辑盘写缓存策略由Write Back变为Write Through· 7-44

7.7.3 PMC存储控制卡组建的逻辑盘状态为Not be Available· 7-45

7.7.4 Arcconf工具无法识别P460/H460系列存储控制卡·· 7-46

7.7.5 P460/H460系列存储控制卡的产品型号显示与实际不符·· 7-47

7.7.6 P430系列存储控制卡下逻辑盘中的成员盘出现蓝橙灯交替闪烁·· 7-47

7.7.7 存储控制卡在Legacy BIOS模式初始化阶段卡死·· 7-48

7.7.8 LSI存储控制卡切换至JBOD模式,操作系统安装过程中无法识别硬盘·· 7-49

7.7.9 Windows下手动更新LSI存储控制卡的驱动时提示驱动不适用·· 7-50

7.7.10 更换成员盘后,逻辑盘重建失败·· 7-51

7.7.11 更换存储控制卡后,原硬盘数据不可用·· 7-53

7.7.12 逻辑盘降级·· 7-53

7.7.13 逻辑盘故障·· 7-56

7.8 存储控制卡的超级电容问题·· 7-56

7.8.1 超级电容长期搁置后电量耗尽·· 7-56

7.8.2 超级电容配置错误·· 7-57

7.8.3 超级电容影响逻辑盘写缓存策略·· 7-58

7.9 风扇和散热问题·· 7-59

7.9.1 多个风扇噪音过大(高速)·· 7-59

7.9.2 风扇噪音太大(低速)·· 7-62

7.9.3 单个风扇接近全速转·· 7-62

7.9.4 所有在位风扇全速转·· 7-63

7.9.5 更换风扇后出现故障·· 7-65

7.9.6 温度过高导致服务器自动关机·· 7-65

7.9.7 液冷机型冷板告警·· 7-67

7.10 DRAM内存问题·· 7-69

7.10.1 内存安装准·· 7-69

7.10.2 内存安装位置错误告警·· 7-69

7.10.3 内存模式降级·· 7-70

7.10.4 POST检测到无可用内存(仅适用于Intel CPU的服务器)·· 7-73

7.10.5 POST检测到内存被禁用·· 7-74

7.10.6 POST检测到Training错误·· 7-76

7.10.7 POST检测到内存兼容性错误·· 7-78

7.10.8 内存出现可纠正错误·· 7-79

7.10.9 内存出现不可纠正错误·· 7-79

7.10.10 内存防伪认证失败·· 7-80

7.10.11 系统内存容量小于安装的物理内存容量·· 7-81

7.11 PMem内存问题(仅适用于Intel CPU的服务器) 7-83

7.11.1 PMem安装准则·· 7-83

7.11.2 PMem安装错误·· 7-83

7.11.3 已禁用PMem·· 7-85

7.11.4 操作系统中不显示PMem·· 7-86

7.12 CPU问题·· 7-86

7.12.1 CPU安装准则·· 7-86

7.12.2 CPU Configuration Error(仅适用于Intel CPU的服务器)·· 7-87

7.12.3 CPU出现MCA告警(仅适用于Intel CPU的服务器)·· 7-88

7.12.4 CPU出现MCA告警(仅适用于AMD CPUHygon CPU的服务器)·· 7-89

7.12.5 CPU温度过高告警·· 7-90

7.12.6 服务器启动进程挂死在UPI初始阶段(仅适用于Intel CPU的服务器)·· 7-90

7.12.7 系统空载时CPU负载率较高·· 7-91

7.12.8 CPU安全漏洞问题·· 7-93

7.13 加密模块问题·· 7-93

7.13.1 TPM/TCM发生故障或系统识别不到TPM/TCM·· 7-93

7.14 系统电池问题·· 7-95

7.14.1 系统电池电量不足或耗尽·· 7-95

7.15 主板问·· 7-95

7.15.1 主板故障·· 7-95

7.16 硬盘背板问题·· 7-96

7.16.1 硬盘无法被识别·· 7-96

7.17 智能挂耳问题·· 7-97

7.17.1 无法识别通过智能挂耳连接的设备·· 7-97

7.18 SD卡问题·· 7-99

7.18.1 SD卡无法被识别·· 7-99

7.18.2 操作系统无法从SD卡引导·· 7-101

7.19 USB设备问题·· 7-103

7.19.1 USB设备无法被识别·· 7-103

7.19.2 作系统无法从U盘引导·· 7-104

7.20 光驱问题·· 7-107

7.20.1 SATA光驱无法被识别·· 7-107

7.20.2 SATA光驱无法被识别(仅适用于AMD CPUHygon CPU的服务器)·· 7-108

7.21 GPU卡问题·· 7-109

7.21.1 GPU卡无法识别·· 7-109

7.21.2 图形未按预期显示·· 7-111

7.21.3 虚拟化业务场景下HDM出现GPU UCE故障·· 7-112

7.21.4 客户自采购GPU不识别问题·· 7-113

7.22 屏幕显示问题·· 7-114

7.22.1 服务器上电后屏幕黑屏超过60·· 7-114

7.22.2 服务器上电启动黑屏·· 7-115

7.22.3 显示器运行黑屏·· 7-115

7.22.4 显示器显示异常·· 7-116

7.22.5 显示器颜色不正常·· 7-116

7.22.6 显示器上出现移动的水平线·· 7-117

7.23 鼠标和键盘问题·· 7-117

7.23.1 操作系统无法识别鼠标或键盘·· 7-117

7.24 网卡问题·· 7-118

7.24.1 新安装的网卡无法正常工作·· 7-118

7.24.2 网卡端口不可见·· 7-120

7.24.3 网卡端口不通·· 7-122

7.24.4 网卡端口丢包/错包·· 7-124

7.24.5 网卡性能不达标·· 7-125

7.24.6 mLOM网卡故障·· 7-127

7.24.7 mLOM网卡可以识别但网络不通·· 7-128

7.24.8 FEC模式不一致导致网卡端口不通·· 7-128

7.25 FC HBA卡问题·· 7-134

7.25.1 存储设备无法识别FC HBA卡端口的WWPN· 7-134

7.25.2 存储设备已经识别FC HBA卡的端口WWPN但服务器端无法识别到LUN· 7-137

7.25.3 存储设备LUN多路径链路部分丢失·· 7-139

7.25.4 存储设备LUN读写性能低·· 7-140

7.26 PCIe卡问题·· 7-142

7.26.1 PCIe卡在BIOS下无法识别·· 7-142

7.26.2 PCIe卡故障报错·· 7-150

7.26.3 PCIe卡协商速率降速或协商带宽降低·· 7-151

7.27 线缆问题·· 7-153

7.27.1 线缆安装注意事项·· 7-153

7.27.2 多块连续硬盘报硬盘故障·· 7-154

8 软件类问题··· 8-1

8.1 操作系统问题·· 8-1

8.1.1 选择服务器兼容的操作系统·· 8-1

8.1.2 选择操作系统安装方式·· 8-1

8.1.3 操作系统安装时出错的问题·· 8-1

8.1.4 操作系统安装过程中出现硬盘识别问题·· 8-2

8.1.5 操作系统无法正常引导·· 8-4

8.1.6 操作系统启动时引导慢·· 8-6

8.1.7 操作系统下无法识别全部硬盘容量·· 8-6

8.1.8 操作系统运行过程中挂死·· 8-6

8.1.9 操作系统运行中出现异常重启·· 8-7

8.1.10 操作系统运行中操作系统日志中出现错误消息·· 8-7

8.1.11 安装应用程序或操作系统补丁后出现操作系统异常·· 8-8

8.1.12 更新操作系统·· 8-8

8.1.13 重新安装操作系统·· 8-8

8.2 应用软件类问题·· 8-9

8.2.1 软件僵死·· 8-9

8.2.2 更改软件设置后出错·· 8-10

8.2.3 安装新的应用程序后出错·· 8-10

8.3 BIOS问题·· 8-11

8.3.1 BIOS告警信息(适用于Intel CPU的服务器)·· 8-11

8.3.2 BIOS告警信息(适用于AMD CPU的服务器)·· 8-15

8.3.3 BIOS告警信息(适用于Hygon CPU的服务器)·· 8-17

8.4 HDM问题·· 8-17

8.4.1 固件镜像文件上传失败问题·· 8-17

8.4.2 HDM Web界面无法访问问题·· 8-18

8.4.3 配置文件导入失败问题·· 8-19

8.4.4 KVM链接无法打开问题·· 8-19

8.4.5 KVM使用异常问题·· 8-20

8.4.6 H5 KVM安装OS缓慢或失败·· 8-22

8.5 iFIST问题·· 8-24

8.5.1 服务器诊断时设备信息显示异常问题·· 8-24

8.5.2 服务器诊断功能无法诊断硬盘问题·· 8-24

8.5.3 iFIST启动失败问题·· 8-24

8.6 VROC问题·· 8-25

8.6.1 PCH板载软RAID中的逻辑盘数据丢失·· 8-25

8.6.2 操作系统无法识别PCH板载软RAID创建的逻辑盘·· 8-25

8.6.3 在板载NVMe RAID中将RAID1迁移至RAID5时迁移失败·· 8-26

8.6.4 RHEL系统下执行mdadm -C命令包含中括号[]时,无法正常识别双位盘序·· 8-26

8.6.5 在板载NVMe RAID中创建RAID失败·· 8-28

8.7 部件驱动和固件问题·· 8-28

9 版本升级··· 9-1

9.1 机架服务器版本升级配套资料·· 9-1

9.1.1 升级服务器的HDMBIOS· 9-1

9.1.2 升级部件的驱动和固件·· 9-2

9.1.3 配套资料内容简介·· 9-2

10 软件和配置工具··· 10-1

10.1 H3C服务器软件关系·· 10-1

10.2 BIOS· 10-2

10.2.1 查看开机自检码·· 10-2

10.2.2 导出BIOS Setup配置·· 10-2

10.2.3 启动到UEFI Shell 10-3

10.2.4 获取BIOS日志·· 10-5

10.3 HDM·· 10-7

10.3.1 功能介绍·· 10-7

10.3.2 通过HDM远程维护·· 10-8

10.4 UniSystem·· 10-8

10.5 iFIST· 10-9

10.6 HDM Redfish API 10-9

10.7 HDM IPMI 10-9

10.8 Arcconf 10-10

10.8.1 工具简介·· 10-10

10.8.2 主要功能·· 10-10

10.8.3 指导文档·· 10-10

10.9 StorCLI 10-10

10.9.1 工具简介·· 10-10

10.9.2 主要功能·· 10-11

10.9.3 指导文档·· 10-11

11 故障诊断相关资源··· 11-1

11.1 产品安装资源·· 11-1

11.2 产品配置资源·· 11-1

11.3 信息查询工具资源·· 11-1

11.4 告警日志信息查询资源·· 11-1

11.5 驱动和固件下载资源·· 11-2

 


1 安全

1.1  安全信息

操作服务器之前,请仔细了解以下安全信息。

1.1.1  运行安全

·     H3C授权人员或专业的服务器工程师才能运行该服务器。

·     请将服务器放在干净、平稳的工作台或地面上进行维护。

·     运行服务器前,请确保所有线缆均连接正确。

·     为确保服务器充分散热,请遵循如下操作准则:

¡     请勿阻塞服务器的通风孔。

¡     服务器的空闲槽位必须安装假面板,比如硬盘、风扇、PCIe卡、OCP网卡、电源模块的槽位。

¡     机箱盖、导风罩、空闲槽位假面板不在位的情况下,请不要运行服务器。

¡     维护热插拔部件时,请最大限度地减少机箱盖打开的时间。

·     为避免组件表面过热造成人身伤害,请确保设备和内部系统组件冷却后再操作。

·     当服务器与其他设备上下叠加安装在机柜中时,请确保两个设备之间留出垂直方向2mm以上的空隙。

1.1.2  电气安全

警告

服务器前面板上的开机/待机按钮不能彻底切断系统电源,此时部分电源和内部电路仍在工作,为避免人身伤害、触电或设备损坏,请将服务器完全断电,即先按下开机/待机按钮,待系统电源指示灯变为橙色后,拔下服务器上的所有电源线。

 

·     为避免人身伤害或服务器损坏,请务必使用随产品包装附带的电源线缆。

·     电源线缆只能用于配套的服务器,请勿在其他设备上使用。

·     为避免触电风险,在安装或拆卸任何非热插拔部件时,请先将设备下电。

1.1.3  电池安全

服务器主板上配置有系统电池;一般情况下,电池寿命为3年~5年。

当服务器不再自动显示正确的日期和时间时,需更换电池。更换电池时,请注意以下安全措施:

·     请勿尝试给电池充电。

·     请勿将电池置于60°C以上的环境中。

·     请勿拆卸/碾压/刺穿电池、使电池外部触点短路或将其投入火中/水中。

·     请将电池弃于专门的电池处理点,勿随垃圾一起丢弃。

1.2  安全注意事项

说明

为避免电源波动或临时断电对服务器造成影响,建议使用UPS为服务器供电。这种电源可防止服务器硬件因电涌和电压峰值的影响而受损,并且可在电源故障时确保服务器正常运行。

 

为避免人身伤害或设备损坏,操作服务器时,还需注意以下事项:

·     服务器必须安装在标准19英寸机柜中。

·     机柜的支撑脚要完全触地,且机柜的全部重量应由支撑脚承担。

·     当有多个机柜时,请将机柜连接在一起。

·     请做好机柜安装的部署工作,将最重的设备安装在机柜底部。安装顺序为从机柜底部到顶部,即优先安装最重的设备。

·     将服务器安装到机柜或从机柜中拉出时(尤其当服务器脱离滑道时),要求四个人协同工作,以平稳抬起服务器。当安装位置高于胸部时,则可能需要第五个人帮助调整服务器的方位。

·     每次只能从机柜中拉出一台设备,否则会导致机柜不稳固。

·     将服务器从机柜中拉出或推入前,请确保机柜稳固。

·     为确保充分散热,请在未使用的机柜位置安装假面板。

1.3  静电防护

1.3.1  防止静电释放

人体或其它导体释放的静电可能会损坏主板和对静电敏感的部件,由静电造成的损坏会缩短主板和部件的使用寿命。

为避免静电损害,请注意以下事项:

·     在运输和存储设备时,请将部件装入防静电包装中。

·     将静电敏感部件送达不受静电影响的工作区前,请将它们放在防静电包装中保管。

·     先将部件放置在防静电工作台上,然后再将其从防静电包装中取出。

·     在没有防静电措施的情况下,请勿触摸组件上的插针、线缆和电路元器件等静电敏感元件

1.3.2  防止静电释放的接地方法

在取放或安装部件时,用户可采取以下一种或多种接地方法以防止静电释放。

·     佩戴防静电腕带,并将腕带的另一端良好接地。请将腕带紧贴皮肤,且确保其能够灵活伸缩。

·     在工作区内,请穿上防静电服和防静电鞋,并佩戴防静电手套。

·     请使用导电的现场维修工具。

·     请使用防静电的可折叠工具垫和便携式现场维修工具包。

1.4  设备标识

为避免维护服务器过程中可能造成的任何伤害,请熟悉服务器上可能出现的安全标识。

表1-1 安全标识

图示

说明

警告

该标识表示存在危险电路或触电危险。所有维修工作应由H3C授权人员或专业的服务器工程师完成。

警告

为避免电击造成人身伤害,请勿打开符号标识部件。所有维护、升级和维修工作都应由H3C授权人员或专业的服务器工程师完成。

该标识表示存在触电危险。不允许用户现场维修此部件。用户任何情况下都不能打开此部位。

警告

为避免电击造成人身伤害,请勿打开符号标识部件。

该标识出现在RJ45接口上,表示该接口用于网络连接。

警告

为避免电击、起火或设备损坏,请勿将电话或电信设备接入该接口。

该标识表示存在高温表面或组件。如果触摸该表面或组件,可能会造成人身伤害。

警告

为避免组件表面过热造成人身伤害,请确保服务器和内部系统组件冷却后再操作。

该标识表示组件过重,已超出单人安全取放的正常重量。

警告

为避免人身伤害或设备损坏,请遵守当地关于职业健康与安全的要求,以及手动处理材料的指导。

电源或系统上的这些标识表示服务器由多个电源模块供电。

警告

为避免电击造成人身伤害,请先断开所有电源线缆,并确保服务器已完全断电。


2 适用产品

本手册主要适用于如下工程师:

·     现场技术支持与维护人员

·     负责服务器配置和维护的管理员

本手册适用于如下服务器。

·     H3C G6服务器

¡     H3C UniServer R3950 G6

¡     H3C UniServer R4300 G6

¡     H3C UniServer R4700 G6

¡     H3C UniServer R4700LE G6

¡     H3C UniServer R4900 G6

¡     H3C UniServer R4900 G6 Ultra

¡     H3C UniServer R4900LE G6 Ultra

¡     H3C UniServer R4950 G6

¡     H3C UniServer R5300 G6

¡     H3C UniServer R5350 G6

¡     H3C UniServer R5500 G6

¡     H3C UniServer R6700 G6

¡     H3C UniServer R6900 G6

·     H3C G5服务器

¡     H3C UniServer R4300 G5

¡     H3C UniServer R4330 G5

¡     H3C UniServer R4330 G5 H3

¡     H3C UniServer R4700 G5

¡     H3C UniServer R4700LC G5

¡     H3C UniServer R4900 G5

¡     H3C UniServer R4900LC G5

¡     H3C UniServer R4930 G5

¡     H3C UniServer R4930 G5 H3

¡     H3C UniServer R4930LC G5 H3

¡     H3C UniServer R4950 G5

¡     H3C UniServer R5300 G5

¡     H3C UniServer R5500 G5

¡     H3C UniServer R5500LC G5

¡     H3C UniServer R6900 G5

·     H3C G3服务器

¡     H3C UniServer R2700 G3

¡     H3C UniServer R2900 G3

¡     H3C UniServer R4300 G3

¡     H3C UniServer R4700 G3

¡     H3C UniServer R4900 G3

¡     H3C UniServer R5300 G3

¡     H3C UniServer R6700 G3

¡     H3C UniServer R6900 G3

¡     H3C UniServer R8900 G3


3 故障处理流程

说明

·     本文中展示的软件界面,以某个软件版本为准进行示例;由于软件会不定期更新,请以产品实际显示的软件界面为准。

·     为方便用户,本文中提供了部分第三方官网的信息下载路径;若路径发生变化,导致用户无法获取相关信息,请联系H3C技术支持。

 

本节主要介绍服务器故障处理的基本流程,包括故障处理准备、信息收集、诊断定位和故障处理等步骤。故障处理的指导思想是根据故障现象初步确定故障出现的所有可能的原因,并结合软硬件日志诊断及测试验证结果,最终找到问题根因,并采取对应措施解决问题。

图3-1 服务器故障处理流程

 

表3-1 故障处理流程说明

步骤

说明

准备工作

准备故障诊断和处理所需的软硬件工具和相关手册。详细信息请参见4 故障诊断前的准备工作

故障信息收集

·     收集故障现场信息,如现象描述、设备型号、操作系统及具体操作等。针对具体问题请联系技术支持,判断收集哪些类型的现场信息。

·     收集有助于故障诊断定位的相关日志信息。详细信息请参见5 收集故障相关信息

判断故障是否与产品相关

判断故障是否与产品相关。

·     如果是与产品相关的故障问题,请进一步定位故障原因。

·     如果是与产品无关的故障问题,即上层业务软件或操作系统产生的故障,建议优先联系业务软件或操作系统供应商处理。

故障诊断定位

基于收集到的故障信息,采用合适的故障定位方法找到故障根因。详细信息请参见6 故障诊断定位

故障处理

根据故障根因,确定并实施故障排除措施。具体故障问题的处理建议请参见7 硬件类问题8 软件类问题

联系技术支持

如果在故障处理过程中遇到难以确定或解决的问题,通过指导文档依旧无法解决,请联系技术工程师协助处理。

故障处理相关资源

故障处理过程中可能需要诊断工具或版本升级,可根据具体需求获取如下相关资源:

·     版本升级相关信息请参见9 版本升级

·     故障处理过程中可能用到的软件和配置工具请参见10 软件和配置工具

·     故障诊断过程中可能用到的相关资源请参见11 故障诊断相关资源


4 故障诊断前的准备工作

在开始故障诊断前,请做好相关准备工作。

4.1  熟悉产品信息

·     熟悉服务器产品知识;阅读产品配套资料,比如产品用户指南。

·     熟悉服务器上的安全标识。

·     熟悉服务器硬件架构。

·     熟悉服务器前后面板指示灯。

·     熟悉服务器上运行的系统。

·     熟悉服务器正常运行的物理环境要求。

·     熟悉硬件的常用操作,如上下电、部件更换。

·     熟悉软件的常用操作,如日志收集、固件升级。

·     熟悉维护服务器的流程。

·     熟悉服务器的操作系统兼容性、部件兼容性。

4.2  准备软件工具

4.2.1  远程维护工具

表4-1 远程维护工具

工具名称

工具简介

工具获取方式

HDM

H3C自主研发的服务器远程管理系统,提供Web界面为服务器提供直观便捷的配置查询接口,兼容服务器业界管理标准IPMISNMPRedfish,提供方便的远程维护手段

服务器出厂自带,如需更新可在H3C官网下载:

http://www.h3c.com/cn/Service/Document_Software/Software_Download/Server/

UniSystem

服务器批量管理软件,支持资源监控、告警监控、模块化配置及批量应用、固件和驱动的更新等功能

AE模块出厂自带,如需在其他环境部署或升级UniSystem可在H3C官网下载:

http://www.h3c.com/cn/Service/Document_Software/Software_Download/Server/

iFIST

内嵌在H3C自研服务器中的单机智能部署工具,支持RAID配置、OS自动安装、服务器诊断

服务器出厂自带,如需更新可在H3C官网下载:

http://www.h3c.com/cn/Service/Document_Software/Software_Download/Server/

REPO

REPO是一个固件和驱动安装文件的集合,用户可以使用REPO通过多种方式对固件和驱动进行安装或升级

可在H3C官网定制化或直接下载完整的REPO

·     http://www.h3c.com/cn/Service/Document_Software/Software_Download/Server/

·     http://supportrepo.h3c.com/repo.htm

hREST

hREST命令行工具主要基于HTTPs协议和RedfishRESTfulIPMI)接口协议,是一款便于用户管理服务器的客户端工具。用户可通过本工具的查询、设置等命令对服务器进行管理

可在H3C官网下载:

http://www.h3c.com/cn/Service/Document_Software/Software_Download/Server/

PuTTY

第三方远程访问工具,是一个TelnetSSH以及串行接口访问的软件,可用于远程登录操作系统及查看串口信息等

请自行获取,比如通过互联网下载

IPMItool

IPMItool提供一个简单的命令行界面,可用于通过服务器HDM提供的IPMI接口管理服务器,可以独立于操作系统来管理系统硬件组件,监视系统运行状况以及监视和管理系统环境

请自行获取,比如通过互联网下载

 

4.2.2  阵列诊断工具

表4-2 阵列诊断工具

工具名称

支持的存储控制卡

工具简介

工具获取方式

HDM

H3C服务器支持的所有存储控制卡(不包括PCH板载软RAID

通过带外管理,获取存储控制卡和硬盘的相关配置信息

请在如下链接中找到安装存储控制卡的服务器,下载相关固件包:

http://www.h3c.com/cn/Service/Document_Software/Software_Download/Server/

Arcconf

H3C服务器支持的所有PMC存储控制卡*

PMC存储控制卡*操作系统下的命令行管理工具,主要功能包括存储控制卡配置信息获取,逻辑盘的创建与删除、热备盘、扩容、日志收集等

请在如下链接中找到对应的存储控制卡,该工具包括在其固件包中:

http://www.h3c.com/cn/Service/Document_Software/Software_Download/Server/

Storcli64

存储控制卡型号:

·     RAID-LSI-9361-8i(1G)-A1-X

·     RAID-LSI-9361-8i(2G)-1-X

·     RAID-LSI-9460-8i(2G)

·     RAID-LSI-9460-8i(4G)

·     RAID-LSI-9460-16i(4G)

·     RAID-LSI-9560-LP-8i(4G)

·     RAID-LSI-9560-LP-16i

·     HBA-LSI-9440-8i

·     HBA-LSI-9500-8i

·     HBA-LSI-9500-16i

·     HBA-LSI-9540-8i

·     RAID-L460-M4

LSI存储控制卡*操作系统下的命令行管理工具。主要功能包括存储控制卡配置信息获取,逻辑盘的创建与删除、热备盘、扩容、日志收集等

请在如下链接中找到对应的存储控制卡,该工具包括在其固件包中:

http://www.h3c.com/cn/Service/Document_Software/Software_Download/Server/

PMC存储控制卡/LSI存储控制卡*:存储控制卡所属的厂商,可通过服务器兼容的部件查询工具进行查询

 

4.3  收集故障的症状信息

4.3.1  收集基本信息

建议用户参考4-3,收集服务器的基本信息。

表4-3 服务器基本信息

项目

说明

产品型号

举例:H3C UniServer R4300 G3

产品序列号

举例:210235A3THH19A000123

硬件配置

如果更改过CPU、内存、硬盘、存储控制卡等配置,请具体明确

操作系统和应用软件版本

请根据具体问题,判断是否需要收集操作系统和应用软件版本

HDMBIOS固件版本

举例:HDM-1.30.23BIOS-2.00.45

故障发生时间

举例:xxxxxxxxxxxxxx

故障现象

举例:黑屏

故障前的操作

举例:修改BIOS参数、修改HDM网络配置

故障后已采取的操作和结果

举例:插拔所有内存后,故障依旧存在

 

1. 产品序列号

产品序列号是可以唯一识别服务器的字符串组合,也是用户申请进一步技术支持的重要依据。产品序列号以“SN”开头,如4-1所示。

图4-1 产品序列号(示例)

 

2. 获取产品序列号

可通过如下三种方式获取产品序列号。

·     方式一:通过产品标签获取产品序列号

产品标签一般位于机箱右前面的顶部;或机箱的抽拉式资产标签上,抽出该标签即可查看对应的产品序列号。抽拉式资产标签的具体位置请参见对应产品的用户指南,4-2仅为示例。

图4-2 抽拉式资产标签的位置(示例)

 

·     方式二:通过HDM获取产品序列号

登录HDM Web界面,在“基本概况”页面可以查看产品序列号,如4-3所示;也可在“产品信息”页面中查看产品序列号,如4-4所示。

图4-3 在基本概况中查看产品序列号

 

图4-4 在产品信息中查看产品序列号

 

·     方式三;通过IPMI命令获取产品序列号

a.     通过互联网获取IPMI平台管理工具:IPMITOOL工具

b.     IPMITOOL工具中,通过获取主板FRU信息的命令“ipmitool.exe -I lanplus -H ip -U username -P password fru list fruid,查看产品序列号。

c.     其中各参数含义如下。

-     ipHDMIP地址。

-     usernameHDM账号的用户名。

-     passwordHDM账号的密码。

-     fruid:待查询产品主板的FRUid

图4-5 通过IPMI命令获取产品序列号

 

4.3.2  对照故障信息检查清单自检

故障处理前,请对照如下故障信息检查清单,进行自检并记录自检结果,同时收集相关信息。

表4-4 故障信息检查清单

故障信息检查清单

自检结果

服务器能否开机上电?如果无法开机上电,服务器前部面板的Health指示灯的状态、开机/待机按钮和系统电源指示灯是什么状态?

 

HDM是否能正常登录?是否能正常收集HDM SDS日志?

 

服务器开机后,HDM Web KVM远程控制台是否有显示?服务器连接显示器后,是否有显示?

 

服务器能否正常通过POST自检阶段?如果POST阶段挂起或重启,具体发生在哪个阶段?是否有红屏现象,服务器是否安装了规格外的部件?

 

服务器能否成功引导进入操作系统?如果不能,是否存在如下症状以及何时出现的该症状?

l     BIOS界面下找不到系统启动引导项(或者BIOS POST完成按F7找不到系统启动项)?

l     如果需要通过PXE启动,POST阶段完成后,按F7是否可以看到网卡启动引导项,是否可以正常进入PXE环境?

l     Grub引导失败?

l     操作系统启动找不到分区?

l     操作系统挂起或重启,屏幕可能会异常打印?

l     操作系统黑屏,键盘鼠标操作无响应?

l     操作系统蓝屏,需要重新启动操作系统?

l     操作系统紫屏?

l     键盘鼠标操作无响应?

l     服务器HDM事件日志中上报MCAMachine Check Architecture,硬件错误检测架构)类告警?MCA错误告警一般以MSMI/CATERR IERR/CATERR MCERR为标志性日志信息。

 

故障现象是否出现在安装操作系统后?

 

故障发生前,执行了哪些操作后出现该问题?

 

故障现象是否出现在添加/删除/修改了某些软件或硬件之后?

 

 

4.4  明确服务器最小化硬件配置

故障诊断过程中,可能需要用户将服务器降级到最小化硬件配置;最小化硬件配置仅包含引导服务器成功完成POST所需的部件。服务器的最小化硬件配置如4-5所示。

表4-5 服务器的最小化硬件配置

服务器型号

小化硬件配置

小化硬件配置说明

H3C UniServer R4300 G6

l     CPU1个,安装在CPU 1槽位

l     内存:1个,安装在CPU 1A0槽位

l     风扇:4个,满配

l     电源模块:1个,安装在电源模块任意槽位

/

H3C UniServer R4700 G6

l     CPU1个,安装在CPU 1槽位

l     内存:1个,安装在CPU 1A0槽位

l     风扇:8个,满配

l     电源模块:1个,安装在电源模块任意槽位

/

H3C UniServer R4700LE G6

l     CPU2个,满配

l     内存:2个,安装在A0槽位

l     风扇:无需配置

l     电源模块:1个,安装在电源模块任意槽位

/

H3C UniServer R4900 G6

l     CPU1个,安装在CPU 1槽位

l     内存:1个,安装在CPU 1A0槽位

l     风扇:4个,满配

l     电源模块:1个,安装在电源模块任意槽位

/

H3C UniServer R4900 G6 Ultra

l     CPU1个,安装在CPU 1槽位

l     内存:1个,安装在CPU 1A0槽位

l     风扇:4个,满配

l     电源模块:1个,安装在电源模块任意槽位

/

H3C UniServer R4900LE G6 Ultra

l     CPU2个,满配

l     内存:2个,安装在A0槽位

l     风扇:无需配置

l     电源模块:1个,安装在电源模块任意槽位

/

H3C UniServer R4950 G6

l     CPU2个,满配

l     内存:2个,安装在A0槽位

l     风扇:4个,满配

l     电源模块:1个,安装在电源模块任意槽位

/

H3C UniServer R5350 G6

l     CPU2个,满配

l     内存:2个,安装在A0槽位

l     风扇模块:4组,满配

l     电源模块:2个,安装在电源模块任意槽位

/

H3C UniServer R6700 G6

l     CPU1个,安装在CPU 1槽位

l     内存:1个,安装在CPU 1A0槽位

l     风扇:4个,满配

l     电源模块:1个,安装在电源模块任意槽位

/

H3C UniServer R6900 G6

l     CPU1个,安装在CPU 1槽位

l     内存:1个,安装在CPU 1A0槽位

l     风扇:4个,满配

l     电源模块:2个,安装在电源模块任意槽位

/

H3C UniServer R4300 G5

l     CPU1个,安装在CPU 1槽位

l     内存:1个,安装在CPU 1A0槽位

l     风扇:4个,满配

l     电源模块:1个,安装在电源模块任意槽位

/

H3C UniServer R4700 G5

l     CPU1个,安装在CPU 1槽位

l     内存:1个,安装在CPU 1A0槽位

l     风扇:7个,满配

l     电源模块:1个,安装在电源模块任意槽位

/

H3C UniServer R4700LC G5

l     CPU2个,满配

l     内存:2个,安装在A0槽位

l     风扇:7个,满配

l     电源模块:1个,安装在电源模块任意槽位

/

H3C UniServer R4900 G5

l     CPU1个,安装在CPU 1槽位

l     内存:1个,安装在CPU 1A0槽位

l     风扇:6个,满配

l     电源模块:1个,安装在电源模块任意槽位

/

H3C UniServer R4900LC G5

l     CPU2个,满配

l     内存:2个,安装在A0槽位

l     风扇:6个,满配

l     电源模块:1个,安装在电源模块任意槽位

/

H3C UniServer R4950 G5

l     CPU1个,安装在CPU 1槽位

l     内存:1个,安装在CPU 1D0槽位

l     风扇:6个,满配

l     电源模块:1个,安装在电源模块任意槽位

/

H3C UniServer R6900 G5

l     CPU1个,安装在CPU 1槽位

l     内存:1个,安装在CPU 1A0槽位

l     风扇模块:3个,安装在任意3个风扇模块槽位

l     电源模块:1个,安装在电源模块任意槽位

/

H3C UniServer R2700 G3

l     CPU1个,安装在CPU 1槽位

l     内存:1个,安装在A1槽位

l     风扇:4个,安装在Fan 3Fan 5Fan 6Fan 7槽位

l     电源模块:1个,安装在电源模块任意槽位

/

H3C UniServer R2900 G3

l     CPU1个,安装在CPU 1槽位

l     内存:1个,安装在A1槽位

l     风扇:4个,安装在Fan 2Fan 4Fan 5Fan 6槽位

l     电源模块:1个,安装在电源模块任意槽位

/

H3C UniServer R4300 G3

l     CPU1个,安装在CPU 1槽位

l     内存:1个,安装在A1槽位

l     风扇:4个,安装在Fan 1Fan 2Fan 3Fan 4槽位

l     电源模块:1个,安装在电源模块任意槽位

/

H3C UniServer R4700 G3

l     CPU1个,安装在CPU 1槽位

l     内存:1个,安装在A1槽位

l     风扇:4个,安装在Fan 4Fan 5Fan 6Fan 7槽位

l     电源模块:1个,安装在电源模块任意槽位

/

H3C UniServer R4900 G3

l     CPU1个,安装在CPU 1槽位

l     内存:1个,安装在A1槽位

l     风扇:4个,安装在Fan 3Fan 4Fan 5Fan 6槽位

l     电源模块:1个,安装在电源模块任意槽位

/

H3C UniServer R6700 G3

l     CPU1个,安装在CPU 1槽位

l     内存:1个,安装在A1槽位

l     风扇:6个,满配

l     电源模块:1个,安装在电源模块任意槽位

/

H3C UniServer R6900 G3

l     计算模块:1个,安装在计算模块1

l     PDB板:1个,安装在PDB板槽位

l     管理模块:1个,安装在管理模块槽位

l     CPU1个,安装在计算模块1CPU 1槽位

l     内存:1个,安装在计算模块1A1槽位

l     风扇模块:6个,满配

l     电源模块:1个,安装在电源模块任意槽位

/

H3C UniServer R8900 G3

l     计算模块:1个,安装在计算模块1或计算模块3位置(与管理模块和PDB板模块配置位置存在对应关系)

l     PDB板:1个,安装在PDB板模块槽位,与计算模块配置位置存在对应关系

l     管理模块:1个,安装在管理模块槽位,与计算模块配置位置存在对应关系

l     CPU1个,安装在计算模块内的CPU 1槽位

l     内存:1个,安装在A1槽位

l     风扇:3个,安装在计算模块上的风扇槽位

l     电源模块:1个,安装在已在位的PDB板模块上的电源模块任意槽位

l     计算模块1在位时,需要管理模块1PDB板模块1均在位。

l     计算模块3在位时,需要管理模块2PDB板模块2均在位。

H3C UniServer R4930 G5

l     CPU1个,安装在CPU 1槽位

l     内存:1个,安装在任意白槽

l     风扇:6个,满配

l     电源模块:1个,安装在电源模块任意槽位

/

H3C UniServer R4930 G5 H3

l     CPU1个,安装在CPU 1槽位

l     内存:1个,安装在任意白槽

l     风扇:6个,满配

l     电源模块:1个,安装在电源模块任意槽位

/

H3C UniServer R4930LC  G5 H3

l     CPU2,

l     内存:2个,安装在任意白槽

l     风扇:6个,满配

l     电源模块:1个,安装在电源模块任意槽位

/

H3C UniServer R4330 G5

l     CPU1个,安装在CPU 1槽位

l     内存:1个,安装在任意白槽

l     风扇:4个,满配

l     电源模块:1个,安装在电源模块任意槽位

/

H3C UniServer R4330 G5 H3

l     CPU1个,安装在CPU 1槽位

l     内存:1个,安装在任意白槽

l     风扇:4个,满配

l     电源模块:1个,安装在电源模块任意槽位

/

H3C UniServer R5300 G3

l     CPU2

l     内存:2个,安装在两个CPUA0槽位

l     风扇模块:满配

l     电源模块:2个,安装在电源模块任意槽位

/

H3C UniServer R5300 G5

l     CPU2

l     内存:2个,安装在两个CPUA0槽位

l     风扇模块:满配

l     电源模块:2个,安装在电源模块任意槽位

/

H3C UniServer R5500 G5

l     CPU2

l     内存:2个,安装在两个CPUA0槽位

l     风扇模块:满配

l     计算节点电源:1个,安装在任意槽位

/

l     最小化硬件配置中,各槽位的具体位置,请参见产品用户指南。

l     在最小化硬件配置基础上,如果需要配置其他部件,部件的安装准则请参见产品用户指南。


5 收集故障相关信息

5.1  准备硬件工具

服务器日常维护所使用的硬件工具,如5-1所示。

表5-1 硬件工具

图示

工具名称

工具说明

螺丝刀

用于拆装螺钉、更换系统电池等,一般包括:

·     T25 Torx星型螺丝刀

·     T30 Torx星型螺丝刀

·     T15 Torx星型螺丝刀

·     T10 Torx星型螺丝刀

·     一字螺丝刀

·     十字螺丝刀

浮动螺母安装条

用于牵引浮动螺母,使其安装在机柜的固定导槽孔位上

斜口钳

用于剪切绝缘套管、电缆扎线扣等

卷尺

用于测量距离

万用表

用于测量电阻、电压,检查电路

防静电腕带

用于操作服务器时使用

防静电手套

防静电服

梯子

用于高处作业

接口线缆(如网线、光纤)

用于服务器与外接网络互连

USB Type-C转接线和

USB WIFI模块(小米品牌)

用于外接第三方USB WIFI模块(小米品牌),提供WIFI热点

说明

服务器是否支持USB WIFI模块,请以实际情况为准。

串口线

用于访问串口,定位问题

显示终端(如PC

用于服务器显示

温度计/湿度计

用于监控机房温度、湿度,是否满足设备稳定运行环境

示波器

用于测量电压和时序

 

5.2  收集操作系统日志

说明

·     收集操作系统日志前,请先获取客户书面授权同意,再进行操作。

·     本文收集的操作系统日志仅用于判断硬件故障,操作系统层面的问题请咨询操作系统厂商。

 

操作系统日志的收集方法,如5-2所示。

表5-2 操作系统日志收集方法

操作系统类型

操作系统日志收集方法

Windows

·     无蓝屏现象时,请执行以下操作:

a.     在操作系统下单击[计算机/管理]菜单项,打开服务器管理器

b.     单击[工具/事件查看器]菜单项,打开事件查看器

c.     单击[Windows日志/系统/将所有事件另存为]菜单项,导出并保存日志文件

·     有蓝屏现象时,请执行以下操作:

a.     截屏或拍照保存蓝屏错误代码信息。

b.     重启后收集“C:\WINDOWS\Minidump\”路径下的全部文件

Linux

·     Linux系统有sosreport工具,请执行以下操作:

a.     root权限用户登录Linux的命令行终端。

b.     执行sosreport命令收集全部Linux日志。

c.     日志收集一般需要几分钟时间,完成后会在“/var/tmp”目录下生成以“sosreport-localhost-ID-YYYY-MM-DD@HH-MM-SS.tar.xz格式命名的日志文件。

·     Linux系统无sosreport工具,请执行以下操作:收集\var\log”及“/var/crash目录下的所有全部文件

VMware

·     无紫屏现象,可以在vSphere Web Client上选择[主机/管理/日志]后搜索“系统日志”并导出日志,也可以执行以下操作生成日志:

a.     root权限用户登录ESXi主机ESXi Server Console命令行

b.     执行vm-support命令收集全部VMware日志。

c.     日志收集一般需要几分钟时间,完成后会在“/var/tmp”目录下生成以“esxsupport-YYYY-MM-DD@HH-MM-SS.tgz格式命名的日志文件。

·     出现紫屏且客户已热重启系统的情况下,请执行以下操作:

a.     root权限用户登录ESXi主机ESXi Server Console命令行。

b.     执行vm-support命令收集全部VMware日志。

c.     日志收集一般需要几分钟时间,完成后会在“/var/tmp”目录下生成以“esxsupport-YYYY-MM-DD@HH-MM-SS.tgz”格式命名的日志文件。

·     出现紫屏且客户保留现场环境的情况下,请执行以下操作:

a.     截屏或者拍照保存紫屏信息。

b.     Alt+F12进入内存信息强制输出模式,然后按Alt+PageUpAlt+PageDown翻页,通过截屏或者拍照的形式保存问题出现的最后几屏日志。

c.     热重启系统后执行vm-support命令收集全部VMware日志。

d.     日志收集一般需要几分钟时间,完成后会在“/var/tmp”目录下生成以“esxsupport-YYYY-MM-DD@HH-MM-SS.tgz格式命名的日志文件。

其他操作系统的日志收集方法请联系技术支持。

 

5.3  收集HDM SDS日志

SDSSmart Diagnose System智能诊断系统日志包括服务器的日志信息包括事件日志、操作日志和内部日志等、硬件信息、故障诊断信息通过SDS日志可以了解服务器运行状态。

1. 操作步骤

(1)     登录HDM Web界面,具体操作请参见《HDM用户指南》。

(2)     进入一键收集页面,如5-1所示。

图5-1 一键收集

 

(3)     选择默认下载或全部下载SDS日志。

¡     默认下载:默认下载近30天的SDS日志。在“默认下载”栏中,自定义日志范围可点击右侧日历图标,输入起始时间和截止时间,可下载指定时间段内的SDS日志。

¡     全部下载:下载全部SDS日志。

(4)     (可选)在“新增联系人”栏,填写联系人信息,输入“姓名”、“电话”和“邮箱”信息。

(5)     单击<下载日志>按钮,开始下载日志,下载完成后,将.sds日志文件保存到本地,完成操作。

(6)     如需解析SDS日志,请联系技术支持。

2. 注意事项

·     不支持多用户同时下载SDS日志。

·     SDS日志记录的是UTC时间的日志,HDM的时间以NTP页面设置为准,下载SDS日志时会把HDM时间自动转换成UTC时间,两者之间可能存在时间差。

5.4  收集HDM录屏信息

当服务器操作系统发生崩溃、重启或关机时,HDM会自动录制事件发生前的录像。用户可以通过查看录制的视频,分析服务器操作系统崩溃、重启或关机的原因。通过HDM Web端的“录像回放”功能可以查看并下载已录制的视频。

1. 操作步骤

(1)     登录HDM Web界面,具体操作请参见《HDM用户指南》。

(2)     进入截屏&录像页面,如5-2所示。

图5-2 录像回放

 

(3)     单击目标视频,视频会在当前页面中播放。

(4)     视频加载完后,单击<下载>按钮,完成下载视频操作。

2. 注意事项

如果操作系统发生崩溃、重启或关机事件时,操作系统处于休眠状态,查看录像回放时会显示无信号。

5.5  收集存储控制卡阵列配置信息(OS内)

说明

PMC存储控制卡,指厂商为PMC的存储控制卡;LSI存储控制卡,指厂商为LSI的存储控制卡。存储控制卡所属的厂商可通过服务器兼容的部件查询工具进行查询。

 

5.5.1  PMC存储控制卡

PMC存储控制卡可通过PMC官方提供的Arcconf命令行工具进行配置信息收集。

·     Arcconf命令行工具的安装方法,请参见PMC官网的Arcconf使用手册。不同操作系统下,工具的安装方法不同。

·     Arcconf命令行工具的启动方法如下,不同操作系统下略有不同。但进入命令行界面后,命令操作完全一致,具体的命令行请参见PMC官网的Arcconf使用手册。

¡     Windows操作系统:用键盘输入WIN+R,在弹出的对话框中输入cmd进入Windows操作系统命令行界面,然后输入arcconf进入Arcconf命令行工具。

¡     Windows操作系统外:无需输入任何命令,Arcconf命令行工具默认开启。

说明

本章节以P430系列存储控制卡在Linux操作系统下为例,介绍如何收集存储控制卡的阵列配置信息。

 

1. 查看存储控制卡的状态、槽位和模式信息

·     命令

arcconf list

·     命令示例

[root@localhost ~]# ./arcconf list

Controllers found: 1

----------------------------------------------------------------------

Controller information

----------------------------------------------------------------------

   Controller ID                                  : Status, Slot, Mode, Name, SerialNumber, WWN

----------------------------------------------------------------------

   Controller 1 : Optimal, Slot 10, RAID (Expose RAW), PM8060-RAID , 70532000, 5D461FE170532000

2. 查看存储控制卡的详细信息(包括状态、模式、固件以及驱动版本等)

·     命令

arcconf getconfig controller_id AD

表5-3 参数说明

参数

参数说明

配置建议

controller_id

存储控制卡的ID

-

 

·     命令示例

[root@localhost ~]# ./arcconf getconfig 1 AD

Controllers found: 1

----------------------------------------------------------------------

Controller information

----------------------------------------------------------------------

   Controller Status                          : Optimal

   Controller Mode                            : RAID (Expose RAW)

   Channel description                        : SAS/SATA

   Controller Model                           : PM8060-RAID

   Controller Serial Number                   : 70532000

   Controller World Wide Name                 : 5D461FE170532000

   Controller Alarm                           : Enabled

   Temperature                                : 71 C/ 159 F (Normal)

   Installed memory                           : 2048 MB

  ......

   BIOS                                       : 7.16-0 (33456)

   Firmware                                   : 7.16-0 (33456)

   Driver                                     : 1.2-1 (41066)

   Boot Flash                                 : 7.16-0 (33456)

3. 查看存储控制卡下所有物理盘的信息

·     命令

arcconf getconfig controller_id PD disk_id

表5-4 参数说明

参数

参数说明

配置建议

controller_id

存储控制卡的ID

-

disk_id

物理盘的ID

选填参数,用于仅需查询具体某块硬盘信息的场景

 

·     命令示例

[root@localhost ~]# ./arcconf getconfig 1 PD

Controllers found: 1

----------------------------------------------------------------------

Physical Device information

----------------------------------------------------------------------

      Device #0

         Device is a Hard drive

         State                                : Online

         Block Size                           : 512 Bytes

         Supported                            : Yes

         Programmed Max Speed                 : SAS 12.0 Gb/s

         Transfer Speed                       : SAS 12.0 Gb/s

         Reported Channel,Device(T:L)         : 0,10(10:0)

         Reported Location                    : Enclosure 0, Slot 2(Connector 0, Connector 1)

         Reported ESD(T:L)                    : 2,0(0:0)

         Vendor                               : HGST

         Model                                : HUC101860CSS200

         Firmware                             : AA01

         Serial number                        : 0BG4667F

......

         Hardware Error Count                 : 0

         Medium Error Count                   : 0

         Parity Error Count                   : 0

         Link Failure Count                   : 0

         Aborted Command Count                : 0

         SMART Warning Count                  : 0

4. 查看存储控制卡下所有逻辑盘信息

·     命令

arcconf getconfig controller_id LD LD_id

表5-5 参数说明

参数

参数说明

配置建议

controller_id

存储控制卡的ID

-

LD_id

逻辑盘的ID

选填参数,用于仅需查询具体逻辑盘信息的场景

 

·     命令示例

[root@localhost ~]# ./arcconf getconfig 1 LD

Controllers found: 1

----------------------------------------------------------------------

Logical device information

----------------------------------------------------------------------

Logical Device number 0

   Logical Device name                        : LogicalDrv 0

   Block Size of member drives                : 512 Bytes

   RAID level                                 : 10

   Unique Identifier                          : 45D14933

   Status of Logical Device                   : Optimal

   Additional details                         : Initialized with Build/Clear

   Size                                       : 1014 MB

   Parity space                               : 1024 MB

   Stripe-unit size                           : 256 KB

   Interface Type                             : SAS/SATA

   Device Type                                : HDD

   Read-cache setting                         : Enabled

   Read-cache status                          : On

   Write-cache setting                        : Enabled

   Write-cache status                         : On

   Partitioned                                : No

   Protected by Hot-Spare                     : No

   Bootable                                   : Yes

   Failed stripes                             : No

   Power settings                             : Disabled

   --------------------------------------------------------

   Logical Device segment information

   --------------------------------------------------------

   Group 0, Segment 0                         : Present (572325MB, SAS, HDD, Enclosure:0, Slot:2)             0BG4667F

   Group 0, Segment 1                         : Present (1716957MB, SAS, HDD, Enclosure:0, Slot:5)         29L0A016FMCF

   Group 1, Segment 0                         : Present (3815447MB, SATA, HDD, Enclosure:0, Slot:7)             WJG00YXP

   Group 1, Segment 1                         : Present (3815447MB, SATA, HDD, Enclosure:0, Slot:8)             WJG00Z35

5. 查看存储控制卡下正在执行的所有任务(包括重建、擦除等)

·     命令

arcconf getstatus 1

·     命令示例

[root@localhost ~]# ./arcconf getstatus 1

Controllers found: 1

Logical Device Task:

   Logical Device                 : 0

   Task ID                        : 107

   Current operation              : Rebuild

   Status                         : In Progress

   Priority                       : High

   Percentage complete            : 0

Command completed successfully.

5.5.2  LSI存储控制卡

LSI存储控制卡可通过LSI官方提供的StorCLI命令行工具进行配置信息收集。

·     StorCLI命令行工具的安装方法,请参见LSI官网的StorCLI使用手册。不同操作系统下,工具的安装方法不同。

·     StorCLI命令行工具的启动方法如下,不同操作系统下略有不同。但进入命令行界面后,命令操作完全一致,具体的命令行请参见LSI官网的StorCLI使用手册。

¡     Windows操作系统:用键盘输入WIN+R,在弹出的对话框中输入cmd进入Windows操作系统命令行界面,然后输入storcli进入StorCLI命令行工具。

¡     Windows操作系统外:无需输入任何命令,StorCLI命令行工具默认开启。

说明

本章节以LSI 9460系列存储控制卡在Linux操作系统下为例,介绍如何收集存储控制卡的阵列配置信息。

 

1. 查看存储控制卡、系统内核、主机名等信息

·     命令

storcli64 show

·     命令示例

[root@localhost /]# /opt/MegaRAID/storcli/storcli64 show

CLI Version = 007.1017.0000.0000 May 10, 2019

Operating system = Linux 3.10.0-957.el7.x86_64

Status Code = 0

Status = Success

Description = None

 

Number of Controllers = 1

Host Name = localhost.localdomain

Operating System  = Linux 3.10.0-957.el7.x86_64

 

System Overview :

===============

 

--------------------------------------------------------------------

Ctl Model   Ports  PDs DGs DNOpt VDs VNOpt BBU sPR DS  EHS ASOs Hlth

--------------------------------------------------------------------

0 SAS3108    8      2       1     0         1     0          N/A  On  1&2   Y      3      Opt

2. 查看存储控制卡、物理盘、逻辑盘等详细信息

·     命令

storcli64 /controller_id show

表5-6 参数说明

参数

参数说明

配置建议

controller_id

存储控制卡的ID

-

 

·     命令示例

[root@localhost /]# /opt/MegaRAID/storcli/storcli64 /c0 show

CLI Version = 007.1017.0000.0000 May 10, 2019

Operating system = Linux 3.10.0-957.el7.x86_64

Controller = 0

Status = Success

Description = None

Product Name = SAS3108

FW Version = 4.660.00-8313

Driver Name = megaraid_sas

Driver Version = 07.705.02.00-rh1

Current Personality = RAID-Mode

Vendor Id = 0x1000

Device Id = 0x5D

SubVendor Id = 0x19E5

SubDevice Id = 0xD207

Host Interface = PCI-E

Device Interface = SAS-12G

Virtual Drives = 1

 

VD LIST :

=======

---------------------------------------------------------------

DG/VD TYPE  State Access Consist Cache Cac sCC       Size Name

---------------------------------------------------------------

0/0   RAID1 Optl  RW     Yes     RWTD  -   ON  110.827 GB

---------------------------------------------------------------

Physical Drives = 2

PD LIST :

=======

 

---------------------------------------------------------------------------------

EID:Slt DID State DG       Size Intf Med SED PI SeSz Model               Sp Type

---------------------------------------------------------------------------------

252:1     7 Onln   0 110.827 GB SATA SSD N   N  512B INTEL SSDSC2BB120G6 U  -

252:3     9 Onln   0 222.585 GB SATA SSD N   N  512B INTEL SSDSC2KB240G7 U  -

3. 查看所有逻辑盘状态、级别以及设置参数等信息

·     命令

storcli64 /controller_id/vall show all

表5-7 参数说明

参数

参数说明

配置建议

controller_id

存储控制卡的ID

-

 

·     命令示例

[root@localhost /]# /opt/MegaRAID/storcli/storcli64 /c0/vall show all

CLI Version = 007.1017.0000.0000 May 10, 2019

Operating system = Linux 3.10.0-957.el7.x86_64

Controller = 0

Status = Success

Description = None

 

 

Virtual Drives :

==============

---------------------------------------------------------------

DG/VD TYPE  State Access Consist Cache Cac sCC       Size Name

---------------------------------------------------------------

0/0   RAID1 Optl  RW     Yes     RWTD  -   ON  110.827 GB

PDs for VD 0 :

============

---------------------------------------------------------------------------------

EID:Slt DID State DG       Size Intf Med SED PI SeSz Model               Sp Type

---------------------------------------------------------------------------------

252:1     7 Onln   0 110.827 GB SATA SSD N   N  512B INTEL SSDSC2BB120G6 U  -

252:3     9 Onln   0 222.585 GB SATA SSD N   N  512B INTEL SSDSC2KB240G7 U  -

---------------------------------------------------------------------------------

VD0 Properties :

==============

Strip Size = 256 KB

Number of Blocks = 232421376

VD has Emulated PD = Yes

Span Depth = 1

Number of Drives Per Span = 2

Write Cache(initial setting) = WriteBack

Disk Cache Policy = Disk's Default

Encryption = None

Data Protection = Disabled

Active Operations = None

Exposed to OS = Yes

OS Drive Name = /dev/sda

Creation Date = 21-10-2020

Creation Time = 08:00:42 AM

Emulation type = default

Cachebypass size = Cachebypass-64k

Cachebypass Mode = Cachebypass Intelligent

Is LD Ready for OS Requests = Yes

SCSI NAA Id = 6c0079045c1759aa2722a72a08c76c57

4. 查看所有物理盘状态、槽位、容量等信息

·     命令

storcli64 /controller_id/eall/sall show

表5-8 参数说明

参数

参数说明

配置建议

controller_id

存储控制卡的ID

-

 

·     命令示例

[root@localhost /]# /opt/MegaRAID/storcli/storcli64 /c0/eall/sall show

CLI Version = 007.1017.0000.0000 May 10, 2019

Operating system = Linux 3.10.0-957.el7.x86_64

Controller = 0

Status = Success

Description = Show Drive Information Succeeded.

Drive Information :

=================

---------------------------------------------------------------------------------

EID:Slt DID State DG       Size Intf Med SED PI SeSz Model               Sp Type

---------------------------------------------------------------------------------

252:1     7 Onln   0 110.827 GB SATA SSD N   N  512B INTEL SSDSC2BB120G6 U  -

252:3     9 Onln   0 222.585 GB SATA SSD N   N  512B INTEL SSDSC2KB240G7 U  -

---------------------------------------------------------------------------------

5.6  收集存储控制卡阵列配置信息(OS外)

说明

PMC存储控制卡,指厂商为PMC的存储控制卡;LSI存储控制卡,指厂商为LSI的存储控制卡。存储控制卡所属的厂商可通过服务器兼容的部件查询工具进行查询。

 

5.6.1  通过HDM收集(LSI存储控制卡)

(1)     登录HDM Web界面,进入存储管理界面,选择RAID视图页签,进入RAID视图页面。

(2)     选择目标存储控制卡,查看相关信息,如5-3所示,通过该方式可查看存储控制卡型号、支持的RAID级别、超级电容的状态等信息。

说明

本章节以RAID-LSI-9361-8i系列存储控制卡为例进行介绍。

 

图5-3 存储控制卡配置信息

 

5.6.2  通过BIOS收集(PMC存储控制卡)

1. UEFI启动模式

说明

本章节以H460系列存储控制卡为例进行介绍。

 

(1)     服务器上电后,在BIOS启动界面,根据提示按下DeleteEsc(部分产品按DeleteF2进入如5-4所示的BIOS Setup界面。

图5-4 BIOS Setup界面

 

(2)     5-5,进入Advanced页签,并选择存储控制器(如:UN HBA H460-B2Enter

图5-5 选择存储控制器

 

 

(3)     进入5-6所示存储控制卡配置界面,选择Controller Information,按Enter

图5-6 存储控制卡配置界面

 

(4)     进入5-7所示界面,查看存储控制卡的基本信息,具体参数说明请参见5-9

图5-7 存储控制卡基本信息界面

 

表5-9 参数说明

参数

说明

Controller

产品标识

Device ID

设备标识

PCI Slot number

PCI槽位编号

PCI Address (Bus:Device:Funcition)

PCI地址(总线:设备:功能)

Hardware Revision

硬件版本

Serial Number

序列号

Firmware Version

固件版本

Firmware release date

固件发布日期

UEFI Driver Version

UEFI驱动程序版本

UEFI Driver release date

UEFI驱动程序发布日期

Controller Memory Module Size

存储控制卡模块大小

Controller Mode

存储控制卡模式

 

2. Legacy启动模式

说明

本章节以P430系列存储控制卡为例进行介绍。

 

(1)     服务器上电后,在BIOS启动过程中,出现如5-8所示界面后,按Ctrl+A

图5-8 BIOS启动过程中根据提示按Ctrl+A

 

(2)     进入如5-9所示载入界面,此处可查看存储控制卡的版本信息和基本状态信息。

图5-9 载入界面

 

(3)     进入5-10所示PMC RAID管理界面(操作选项说明请参见5-10选择Controller SettingsEnter

图5-10 PMC RAID管理界面

 

表5-10 操作选项说明

选项

概要说明

Logical Device Configuration

通过该选项可选择管理阵列、创建阵列、磁盘初始化/去初始化、擦除磁盘数据和设置启动项等操作。

Controller Settings

通过该选项可对存储控制卡进行设置,包括修改存储控制卡工作模式、恢复存储控制卡缺省配置等。

Disk Utilities

通过该选项可以选择格式化磁盘、定位磁盘位置等操作。

 

(4)     进入5-11所示界面,选择Controller Configuration,按Enter

图5-11 Controller Settings界面

 

(5)     进入5-12所示界面,即可查看存储控制卡的基本配置信息。

图5-12 Controller Configuration界面

 

5.6.3  通过BIOS收集(LSI存储控制卡)

1. UEFI启动模式

说明

本章节以RAID-LSI-9361-8i系列存储控制卡为例进行介绍。

 

(1)     服务器上电后,在BIOS启动界面,根据提示按下DeleteEsc(部分产品按DeleteF2)进入如5-13所示的BIOS Setup界面(部分产品进入Front界面,请选择Device Management,进入设备管理菜单)。请参考界面右下角的按键操作提示,以实现在界面中导航和修改设置。

图5-13 BIOS Setup界面

 

(2)     进入存储控制器管理界面。如5-14所示进入Advanced页签,并选择存储控制器(如:BROADCOM MegaRAID< MegaRAID 9560-8i 4GB >Enter

图5-14 Advanced界面

 

(3)     进入5-15所示界面,选择Main MenuEnter

图5-15 选择Main Menu

 

(4)     进入5-16所示页面,选择Virtual Drive Management,按Enter

图5-16 存储控制卡配置界面

 

(5)     进入5-17所示界面,可以看到已创建的RAID,选择需要查看的RAID,按Enter

图5-17 Vitrual Drive Management界面

 

(6)     进入5-18所示界面,选择View Associated Drives,按Enter,即可查看该RAID的详细信息(包括RAID名称、级别,所含磁盘信息等)。

图5-18 选择View Associated Drives

 

2. Legacy启动模式

说明

本章节以LSI-9361系列存储控制卡为例进行介绍。

 

(1)     BIOS启动过程中,出现如5-19所示界面后,按Ctrl+R

图5-19 BIOS启动过程中根据提示按Ctrl+R

 

(2)     5-20所示,在VD Mgmt界面选择待查看的逻辑磁盘,按Enter

图5-20 选择待查看的逻辑磁盘

 

(3)     即可查看该RAID的详细信息(包括RAID名称、级别,所含磁盘信息等),如5-21所示。

图5-21 查看RAID信息

 

5.7  收集存储控制卡阵列日志(OS内)

说明

PMC存储控制卡,指厂商为PMC的存储控制卡;LSI存储控制卡,指厂商为LSI的存储控制卡。存储控制卡所属的厂商可通过服务器兼容的部件查询工具进行查询。

 

·     仅支持在操作系统下,通过存储控制卡的管理工具,收集阵列日志。PMC官方推荐的存储控制卡管理工具为Arcconf命令行工具,LSI官方推荐的存储控制卡管理工具为StorCLI命令行工具。

·     不支持在操作系统外收集存储控制卡的阵列日志。

5.7.1  PMC存储控制卡

PMC存储控制卡可通过PMC官方提供的Arcconf命令行工具进行日志收集。

·     Arcconf命令行工具的安装方法,请参见PMC官网的Arcconf使用手册。不同操作系统下,工具的安装方法不同。

·     Arcconf命令行工具的启动方法如下,不同操作系统下略有不同。但进入命令行界面后,命令操作完全一致,具体的命令行请参见PMC官网的Arcconf使用手册。

¡     Windows操作系统:用键盘输入WIN+R,在弹出的对话框中输入cmd进入Windows操作系统命令行界面,然后输入arcconf进入Arcconf命令行工具。

¡     Windows操作系统外:无需输入任何命令,Arcconf命令行工具默认开启。

PMC存储控制卡阵列日志收集步骤如下。

(1)     进入Arcconf命令行工具,本文以进入Linux操作系统命令行工具为例。使用root权限用户登录Linux操作系统。

(2)     执行arcconf savesupportarchive命令收集PMC存储控制卡的阵列日志。

(3)     日志收集一般需要几分钟时间,完成后系统会自动在“/var/log”路径下下生成“Support”目录,如5-22所示,所有日志信息均保存在该目录下。

图5-22 收集PMC存储控制卡日志

 

(4)     如果有多张PMC存储控制卡,如5-23所示在“Support”目录下的各个目录中,会分别以各张存储控制卡的序号作为日志文件名称的前缀。

图5-23 查看多张PMC存储控制卡的日志保存目录

 

5.7.2  LSI存储控制卡

LSI存储控制卡可通过LSI官方提供的StorCLI命令行工具或者snapdump工具进行日志收集。

·     StorCLI命令行工具的安装方法,请参见LSI官网的StorCLI使用手册。不同操作系统下,工具的安装方法不同。

·     StorCLI命令行工具的启动方法如下,不同操作系统下略有不同。但进入命令行界面后,命令操作完全一致,具体的命令行请参见LSI官网的StorCLI使用手册。

¡     Windows操作系统:用键盘输入WIN+R,在弹出的对话框中输入cmd进入Windows操作系统命令行界面,然后输入storcli进入StorCLI命令行工具。

¡     Windows操作系统外:无需输入任何命令,StorCLI命令行工具默认开启。

LSI存储控制卡阵列日志收集步骤如下。

(1)     进入StorCLI命令行工具,本文以Linux操作系统为例进行介绍。Linux操作系统下,无需输入任何命令,StorCLI命令行工具默认开启。

(2)     5-24所示输入/opt/MegaRAID/storcli/storcli64  /c0  show all > storcli.showall命令,耐心等待后,会在“/opt/MegaRAID/storcli/文件夹下生成存储控制卡以及硬盘的相关信息并保存。

(3)     5-24所示输入/opt/MegaRAID/storcli/storcli64   /c0  show events > storcli.events命令,耐心等待后,会在“/opt/MegaRAID/storcli/文件夹下生成以事件形式记录的存储控制卡生命周期中的重要日志。

(4)     5-24所示输入/opt/MegaRAID/storcli/storcli64  /c0  show termlog > /opt/MegaRAID/storcli/storcli.termlog命令,耐心等待后,会在“/opt/MegaRAID/storcli/文件夹下生成操作系统启动全过程的日志并保存,可用于查询存储控制卡配置、物理盘信息、逻辑盘信息等。但是该日志在操作系统重启后会清空之前所有的记录,仅保留本次启动的日志。

(5)     5-24所示输入/opt/MegaRAID/storcli/storcli64   /c0  show alilog > storcli.alilog命令,耐心等待后,信息输出重定向到/opt/MegaRAID/storcli/storcli.alilog 并保存。

图5-24 收集LSI存储控制卡阵列日志

 

·     使用snapdump收集日志,命令请参考《H3C G6服务器 存储控制卡用户指南》的5.5.14章节。

5.8  收集FC HBA卡日志

5.8.1  收集Qlogic FC HBA卡日志

本章节介绍如下Qlogic FC HBA卡的日志收集方法。Qlogic FC HBA卡指生产厂家为QlogicFC HBA卡,目前包括如下型号:

·     FC-HBA-QLE2560-8Gb-1P-1

·     FC-HBA-QLE2562-8Gb-2P-1

·     FC-HBA-QLE2690-16Gb-1P-1

·     FC-HBA-QLE2692-16Gb-2P-1

·     FC-HBA-QLE2740-32Gb-1P

·     FC-HBA-QLE2742-32Gb-2P

当排查Qlogic FC HBA卡是否出现故障或判断故障原因时,可收集相关日志进行故障定位和分析。

1. 日志收集工具

Qlogic FC HBA卡日志收集工具,如5-11所示。需要注意的是,该工具仅用于日志信息收集,不会收集任何用户信息,也不会对业务造成影响。如需获取工具请联系技术支持。

表5-11 Qlogic FC HBA卡日志收集工具

操作系统

工具名称

Windows

qInfoHD_Windows---[date].exe

Linux

qla_linux-info.sh

VMware

qMwareHD--[date].exe

 

2. 日志收集方法(Windows操作系统)

需要通过执行脚本来收集日志信息。脚本工具获取、日志收集的方法,均请参见Marvell官网或联系技术支持

以下简单介绍日志的收集方法:

(1)     访问Marvell官网,下载脚本工具qInfoHD_Windows--[date].exe

(2)     右键单击已下载的脚本工具,选择“以管理员身份运行”,之后将开始收集对应的日志信息。

(3)     复制保存日志信息。

收集到的日志信息包含以下内容:

·     服务器相关信息:

¡     服务器制造商及型号

·     操作系统相关信息

¡     操作系统名称及版本

¡     正在运行的服务

¡     已安装的管理工具

¡     网络信息

¡     操作系统和应用程序事件日志

¡     (如已安装)VMware vCenter信息

·     FC HBA卡相关信息:

¡     已安装的适配器

-     FC适配器

-     光纤缓存适配器

-     聚合网络适配器

-     智能以太网适配器

-     iSCSI适配器

-     LiquidSecurity硬件安全模块

¡     已安装的驱动程序及版本信息

·     (如已配置)完整的博科交换机SupportSave日志信息

3. 日志收集方法(Linux操作系统)

·     需要通过执行脚本来收集日志信息。脚本工具获取、日志收集的方法,均请参见Marvell官网或联系技术支持。

·     如需获取debug日志信息,请参见Marvell官网或联系技术支持。

以下简单介绍日志的收集方法:

(1)     访问Marvell官网,下载脚本工具qla_linux_info.sh

(2)     将脚本上传至服务器操作系统,添加权限并执行如下命令。

(3)     # chmod +x qla_linux_info.sh

(4)     # ./qla_linux_info.sh

(5)     复制保存日志信息。

收集到的日志信息包含如下内容:

·     服务器相关信息:

¡     制造商及型号

¡     处理器的类型和数量

¡     BIOS的版本和发布日期

·     操作系统相关信息

¡     操作系统名称及版本

¡     IP地址信息

¡     操作系统日志

¡     当前运行的进程

·     FC HBA卡相关信息:

¡     SCSI信息

¡     QLE10000 FCA信息

¡     FC信息

¡     iSCSI信息

¡     已安装的驱动程序及版本

¡     QLogic产品的模块信息

¡     QLogic产品的子系统供应商ID信息

4. 日志收集方法(VMware操作系统)

需要通过执行脚本来收集日志信息。脚本工具获取、日志收集的方法,均请参见Marvell官网或联系技术支持

以下简单介绍日志的收集方法:

(1)     访问Marvell官网,下载脚本工具qMwareHD--[date].exe

(2)     右键单击已下载脚本工具,选择“以管理员身份运行”,然后选择“VMware Support Dump file (.tgz)”允许工具获取和解析VMware系统中的dump文件信息。

(3)     收集完成后,生成的日志信息文件将保存在VMware系统中的dump文件相同的目录中。

5.8.2  收集Emulex FC HBA卡日志

注意

使用Emulex FC HBA卡的日志收集工具OneCaptureFull Capture模式收集时,可能会停用该卡的端口,影响业务运行,故使用该工具运行该模式前请确保业务已切换至其他链路或业务已停止运行。

 

Emulex FC HBA卡出现故障时,请参照如下方法收集相关日志。

1. 日志收集工具

Emulex FC HBA卡的日志信息可以通过OneCapture工具进行收集,OneCapture工具可以在Broadcom官网下载。

图5-25 日志收集工具及下载链接

操作系统

工具

下载链接

Linux

OneCapture_Linux_<version>.tgz

https://www.broadcom.com/products/storage/fibre-channel-host-bus-adapters

Windows

OneCapture_<version>.zip

VMware

OneCapture_ESX_<version>.tgz

 

访问Broadcom官网,找到对应操作系统及版本的OneCapture工具下载链接,点击下载该版本OneCapture工具。

图5-26 下载对应版本的OneCapture工具

 

2. 支持的设备列表如下:

·     HBA-8Gb-LPe12000-1P-1

·     HBA-8Gb-LPe12002-2P-1

·     HBA-16Gb-LPe31000-1P-1

·     HBA-16Gb-LPe31002-2P-1

·     FC-HBA-LPe32000-32Gb-1P

·     FC-HBA-LPe32002-32Gb-2P

·     FC-HBA-LPe35000-LP-32Gb-1P

·     FC-HBA-LPe35002-LP-32Gb-2P

3. 日志收集工具Capture介绍

Emulex HBA Capture(或称为OneCapture)是一个收集操作系统、Emulex软件和Emulex适配器信息的设备驱动程序,可以使用这些收集到的信息来检查驱动的功能是否正常。Capture工具的详细使用方法及可获取的信息请参见官网用户指导https://docs.broadcom.com/doc/12399041

Emulex HBA Capture工具收集日志时,可以从BasicFullSafeMinimalCustom五种获取模式中选择其一,不同模式中的收集的日志信息和操作方法有所不同。

(1)     Basic Capture

Capture工具默认选择Basic Capture方式。通常,除非Broadcom技术支持指示使用其他类型,否则请使用该模式。

Basic Capture不会重置正在活动的适配器,也不会重新启动未使用的适配器。也就是说,该模式下所有适配器状态保持不变。如果可能中断业务,Basic Capture将不会立即启动固件dump

Basic Capture执行以下操作:

·     获取所有可用的配置文件和日志文件

·     获取现有的适配器中的dump文件(如果存在)

·     获取部分类型适配器上的闪存保留的dump文件(如果存在)

(2)     Full Capture

注意

在生成固件dump期间,Full Capture可能会重置适配器并导致业务中断。

 

Full Capture将执行以下操作:

·     获取所有可用的配置文件和日志文件

·     获取现有的适配器中的dump文件(如果存在)

·     获取部分类型适配器上的闪存保留的dump文件(如果存在)

·     对于部分类型适配器,将执行dump操作,生成dump文件

(3)     Safe Capture

Safe Capture收集所有可用的实时信息和已有的适配器dump文件,但不执行任何新的dump操作。任一适配器都不会中断I/O。如果面对不可中断I/O或要待收集信息的适配器是引导设备时,请使用此模式收集现有的日志和dump文件。

Safe Capture执行以下操作:

·     获取所有可用的配置文件和日志文件

·     获取现有的适配器中的dump文件(如果存在)

(4)     Minimal Capture

Minimal Capture将收集固件dump文件。如果时间紧迫,请使用此模式收集信息。

LinuxVMware操作系统支持最小获取。Solaris不支持此模式。在Windows中,可以通过自定义获取功能将数据收集限制为仅收集固件dump文件。

(5)     Custom Capture

Custom Capture允许用户从各种获取参数中选择所需的内容。可以在工具页面复选框列表中或使用CLI中的/Component参数选择要获取的组件。

4. Windows系统中的Capture工具使用方法(可视化工具)

注意

在运行Emulex HBA Capture工具之前,请先停用端口,以免造成业务影响。

 

使用GUI方式运行Emulex HBA Capture工具,请执行如下步骤:

(1)     官网下载OneCapture_<version>.zip文件。

(2)     解压缩文件。

(3)     运行OneCapture.exe文件。

说明

尽管您可以以普通用户身份运行Emulex HBA Capture工具,但为获得最佳效果,请以管理员或具有管理员特权的用户身份运行该工具。

 

(4)     以管理员身份运行Emulex HBA Capture工具,不需要任何特殊步骤。可以不受限制地查看所有输出文件。

a)     要以具有管理员特权的用户身份运行Emulex HBA Capture工具,GUI会提示您输入管理员用户名和密码。

b)     对于非管理员,GUI会提示您输入管理员用户名和密码。查看输出文件可能受到限制。在这种情况下,必须授予所需的用户访问输出文件夹的权限。通常,此文件夹位于\Users\Administrator\Documents\Emulex中。

(5)     从弹出窗口中,选择存储输出文件的位置。您可以保留默认路径或指定其他路径。

(6)     从下拉菜单中,选择要使用的Capture模式。您可以选择BasicSafeFullCustom。对于不同模式的区别请参见5.8.2  3. 日志收集工具Capture介绍

(7)     单击“OK”。如果选择了Full Capture模式,请选择待收集数据的适配器,然后单击“OK”。

图5-27 选择按照Full Capture模式收集的适配器

 

(8)     选择需要获取的特定项目。例如,在“Adapter Dump Informtion”下,您可以选择以下选项:

a)     Adapter Basic Information执行Basic Capture模式。

b)     HBA Resident Dump获取现有的dump文件。

c)     HBA Firmware Down生成并获取固件dump

d)     HBA FW Log为选定的适配器生成固件日志。(仅部分系列支持)

图5-28 选择获取时的参数

 

(9)     单击OKEmulex HBA Capture工具收集指定信息并将结果文件放置在指定的文件夹中。

图5-29 Capture Completed Successfully”对话框

 

a)     您可以展开Success Capture行以查看待获取的项目是否已成功获取。

b)     您可以展开HBA Firmware Down验证是否为每个请求的适配器都创建了.bin文件。

c)     您可以展开HBA Resident Dump确定是否获取了所有驻留dump文件。

d)     如果其中一行表明存在错误,则可以将鼠标悬停在该行上以查看与之相关的错误。星号表示未创建的文件。

(10)     单击“Output Folder”以打开存储输出文件的目录并退出Emulex HBA Capture,或单击“Close”退出Emulex HBA Capture

(11)     生成的日志文件详细信息请参见5.8.2  5. (6)日志文件说明

5. Windows系统中的Capture工具使用方法(CLI方式)

使用CLI方式运行Emulex HBA Capture工具,请执行如下步骤:

(1)     下载并解压OneCapture_<version>.zip文件。

(2)     cmd运行OneCapture.exe命令。您需要指定对应的参数信息。

说明

尽管您可以以普通用户身份运行Emulex HBA Capture工具,但为获得最佳效果,请以管理员或具有管理员特权的用户身份运行该工具。

 

(3)     以管理员身份运行Emulex HBA Capture工具,不需要任何特殊步骤。可以不受限制地查看所有输出文件。

a)     要以具有管理员特权的用户身份运行Emulex HBA Capture工具,请使用“以管理员身份运行”启动cmd,并输入管理员用户名和密码。可以不受限制地访问所有输出文件。

b)     对于非管理员,请使用“以管理员身份运行”启动cmd,然后输入管理员用户名和密码。查看输出文件可能受到限制。在这种情况下,必须授予所需的用户访问输出文件夹的权限。通常,此文件夹位于\Users\Administrator\Documents\Emulex中。

(4)     在命令行中,定义所需的Capture类型。以下CLI参数可用于定义所需的Capture类型

/? or /H or /help

显示有关命令用法和支持的参数的简要指南。

/L or /ListAdapters

列出发现的适配器。list参数显示每个适配器的适配器编号(01...),该编号在dump命令中用于指定/Adapters参数。

/Quiet or /Q

强制获取而不显示警告消息或提示。

/Directory=<OutputDirectory> or /D=<OutputDirectory>

指定Capture工具输出zip文件的目录。缺省为运行CLI的工作目录。

/Filename=<OutputFilename> or /N=<OutputFilename>

指定工具输出的zip文件时使用的文件名。缺省为OneCapture_Windows_<date-time>.zip

/BasicCapture or /B

指定为BasicCapture模式。

/SafeCapture or /S

指定为SafeCapture模式。

/FullCapture/F

指定为FullCapture模式,需要配合/Adapters参数。请注意此参数可以临时中断正在活动的适配器上的I/O,并且可以强制使正在活动适配器脱机,请确保不会影响业务时执行该操作。

/Adapters=<AdapterNumber | <list> | all>

仅与/FullCapture一起使用。此参数用于指定待获取日志信息的适配器编号。

/Components=< <component> | <list> > or /Components=< <component> | <list>>

默认情况下,Emulex HBA Capture工具收集多种类型的组件,例如驱动程序信息和磁盘信息。此参数用于指定需要获取的单个组件信息,而忽略其余所有组件。您可以指定单个组件或组件列表,并以逗号分隔。以下是可用组件的列表:

·     autopilot–预配置信息

·     disk–磁盘信息

·     driver–驱动信息

·     elxtrace–ELX跟踪信息

·     sestats–SEstats日志

·     system–系统信息

·     hba/attr–HBA属性

·     hba/fwlog-HBA固件日志

·     hba/info–HBA信息

·     hba/list–HBA列表

·     hba/residentdump–驻留的dump文件

·     mpio–MPIO信息

·     ehm/dumps–Emulex HBA Manager工具收集的dump文件

·     ehm/log–Emulex HBA Manager工具日志

·     ehm/nvme–NVMe信息

·     ehm/status–Emulex HBA Manager工具状态

·     win/event–Window事件日志

·     win/setup–Windows安装程序日志

示例:通过命令行指定为FullCapture模式并获取所有适配器参数信息,将输入文件命名为output.zip,并将其放置于C:\Capture\LP

OneCapture.exe  /FullCapture  /Adapters=ALL  /Directory=C:\Capture\LP  /FileName=output.zip

(5)     日志文件摘要

Capture工具在获取过程结束后会生成一个输出摘要文件。该文件显示应获取的关键项目的列表,以及获取是否成功,您可以通过此文件验证收集的输出是否有效。

图5-30 日志文件摘要

 

(6)     日志文件说明

Capture工具将创建一个包含所有获取的组件信息的zip文件。该zip文件名为OneCapture_Windows_<date-time>.zip

·     GUI:缺省输出目录为MyDocuments\Emulex

·     CLI:缺省为运行CLI的工作目录,可以通过/Directory参数修改输出目录,具体参见Windows命令行参数。

解压生成文件即可查看各组件信息,此外目录中包含OneCapture-<Operating_System>.html文件。

OneCapture-<Operating_System>.html是获取的组件的可导航目录。在浏览器中打开此文件时,可以浏览获取的组件信息。或者,您可以通过浏览目录中的文件直接检查获取的组件信息。

适配器dump文件放置在名为dump/CoreDump的目录中。通常,用户无需单独检查这些文件,可以将文件提供给技术支持用于进一步定位问题。

说明

请确保CoreDump目录中的适配器dump文件已成功创建。该文件对于正确的诊断至关重要。在将.zip文件发送给技术支持之前,您可以检查.zip文件中的组件文件。包含所有适配器列表的.txt文件也位于同一目录中,您可以通过此文件验证是否已包含对应的适配器信息。

 

6. Linux/Citrix/Solaris操作系统中的Capture工具使用方法

注意

在运行Emulex HBA Capture工具之前,请先停用端口,以免造成业务影响。

 

(1)     使用前准备

·     执行脚本需要具有root用户的可执行权限。

·     必须安装以下库文件才能运行Emulex HBA Capture工具:

¡     linuxvdso.so

¡     libstdc++.so

¡     libgcc_s.so

¡     libc.so

¡     libm.so

¡     libz.so

¡     libpci.so

¡     libpthread.so

¡     libnl.so

¡     librt.so

¡     libresolv.so

·     Emulex HBA Capture工具必须能够访问以下目录:

¡     /var/log/

¡     /sys/class/

¡     /proc/

¡     /etc/

¡     /boot/

¡     /usr/sbin/ocmanager/

·     在运行Emulex HBA Capture工具之前,请先停用端口。

(2)     操作步骤

说明

通过Capture生成dump文件时,若已修改Linux操作系统dump默认存放目录,则不会创建dump文件。

 

a)     root用户身份登录。

b)     通过SSH或其他方法将OneCapture_Linux_<version>.tgz工具上传到系统上,然后解压缩得到脚本OneCapture_Linux.sh文件。

c)     将脚本更改为可执行模式,例如:

chmod 777 OneCapture

d)     根据需求,确认对应参数,运行shell脚本。有关参数,请参见“LinuxCitrix CLI参数”。例如:

./OneCapture_Linux.sh --BasicCapture

e)     脚本执行时会显示脚本的进度,请确保脚本执行完成。

图5-31 脚本执行进度

 

f)     Emulex HBA Capture脚本完成信息收集后,将在其当前工作目录中创建一个压缩文件。打开该文件即可以查看获取到的信息。

(3)     日志文件说明

Emulex HBA Capture工具将创建一个包含所有获取到的组件信息的.tgz文件。该.tgz文件名为OneCapture_<Operating_System>_<date-time>.tgz。该文件放置在运行Emulex HBA Capture工具的工作目录中。

要检查输出的.tgz文件中的项目,请先将其解压缩。此操作将在当前工作目录中创建一个名为dump的目录。它还在当前工作目录中创建一个文件,称为OneCapture-<Operating_System>.html

OneCapture-<Operating_System>.html是获取的组件的可导航目录。在浏览器中打开此文件时,可以浏览获取的组件信息。或者,您可以通过浏览dump目录中的文件直接检查获取的组件信息。

适配器dump文件放置在名为dump/CoreDump的目录中。通常,用户无需单独检查这些文件,可以将文件提供给技术支持用于进一步定位问题。

说明

请确保CoreDump目录中的适配器dump文件已成功创建。该文件对于正确的诊断至关重要。在将.tgz文件发送给技术支持之前,您可以检查.tgz文件中的组件文件。包含所有适配器列表的.txt文件也位于同一目录中,您可以通过此文件验证是否已包含对应的适配器信息。

 

Emulex HBA Capture工具在获取过程结束时会生成一个输出摘要文件。该文件会显示应获取的关键项目的列表,以及获取是否成功,由此您可以验证收集的信息是否有效。

图5-32 输出摘要文件

 

(4)     脚本执行参数信息说明

-h--help

显示帮助文本。

-L--ListAdapters

列出发现的适配器。ListAdapters参数显示每个适配器的适配器号(01...),该数字在--Adapters参数的dump命令中使用。

说明

对于LPe12000系列适配器,适配器上的每个端口都显示为单独的适配器。因此,如果适配器有两个端口,则显示为两个适配器。

 

-Q--Quiet

强制获取而不显示警告消息或提示。

-X--NoCrashDump

不收集/ var / crash下的故障dump文件。

-B--BasicCapture

指定为BasicCapture获取模式。

-F--FullCapture

指定为FullCapture获取模式,请同时使用--FullCapture--Adapters参数。请注意此参数可以临时中断正在活动的适配器上的I/O,并且可以强制使正在活动适配器脱机,请确保不会影响业务时执行该操作。

-S--SafeCapture

指定为SafeCapture获取模式。

-M--MinimalCapture

指定为MinimalCapture获取模式,该参数可以和BasicCaptureFullCapture一起使用。可以通过MinimalCapture模式来获取以下项目:

¡     内核日志

¡     内核配置

¡     适配器信息

-A=<AdapterNumber | <list> | all> or --Adapters=<AdapterNumber | <list> | all>

仅与--FullCapture参数一起使用。此参数将对指定适配器执行dump操作。

(5)     脚本执行举例

·     BasicCapture获取模式下执行

./OneCapture_Linux.sh --BasicCapture

·     FullCapture获取模式下执行,指定获取2,3号适配器的dump文件

./OneCapture_Linux.sh --FullCapture --Adapters=2,3

·     FullCapture获取模式下执行,获取所有适配器的dump文件

./OneCapture_Linux.sh --FullCapture --Adapters=all

·     MinimalCapture获取模式下执行,快速获取所有适配器的dump文件。

./OneCapture_Linux.sh -A = All -M -F

7. VMware系统中的Capture工具使用方法

注意

在运行Emulex HBA Capture工具之前,请先停用端口,以免造成业务影响。

 

(1)     准备工作

VMware ESXi系统上运行Emulex HBA Capture实用程序之前,必须通过执行以下操作启用ESXi Shell

a.     ESXi系统主屏幕上按F2

b.     选择Troubleshooting Options

c.     选择Enable ESXi shell启用ESXi Shell

d.     在运行Emulex HBA Capture工具之前,请先停用端口,以免造成业务影响

(2)     运行日志收集脚本

ESXi系统上运行Emulex HBA Capture工具,请执行以下步骤:

a.     root用户身份登录。

b.     下载脚本文件压缩包OneCapture_ESX_<version>.tgz

c.     解压压缩包文件:tar -zxvf OneCapture_ESX_<version>.tgz

d.     在脚本放置目录中,键入以下命令以显示可用的目标卷:

./OneCapture_ESX.sh [-T | --ShowVolumes]

图5-33 显示可用的目标卷

 

e.     您可以通过键入[-V | --Volume] = volume_id参数来选择dump的目标卷,为了获得最佳效果,请指定较大的本地卷。

如果未发出-V参数,则会显示类似以下的消息。当您接受建议的目标卷时,键入Y

图5-34 建议目标卷

 

f.     使用指定的选项运行相应系统的Shell脚本,将同时显示脚本的执行进度。

图5-35 脚本的执行进度

 

(3)     日志文件说明

Emulex HBA Capture工具将创建一个压缩的tarball文件。该文件放置在指定的卷中。打开文件以查看信息。

(4)     日志文件摘要

Emulex HBA Capture工具在获取过程结束时会生成一个输出摘要文件。该文件显示应获取的关键项目的列表,以及获取是否成功,通过该文件您可以验证收集的输出是否有效。

图5-36 日志文件摘要

 

(5)     ESXi命令行参数说明

以下CLI参数可用于ESXi系统。

-h--help

显示帮助文本。

-T--ShowVolumes

列出可用的卷。用于判断哪些卷ID可以在-V--Volume参数中使用。

-V--Volume(可选)

指定dump文件存储的卷。为了获得最佳结果,请为dump文件指定较大的本地卷。如果未发出-V参数,则会显示一条消息,询问您是否要使用检测到的可用空间最大的卷。键入Y继续。

-L--ListAdapters

列出发现的适配器。ListAdapters参数显示每个适配器的适配器号(01...),该数字在--Adapters参数的dump命令中使用。

-Q--Quiet

强制获取而不显示警告消息或提示。

-B--BasicCapture

指定为BasicCapture模式。

-F--FullCapture

指定为FullCapture模式。请注意此参数可以临时中断正在活动的适配器上的I/O,并且可以强制使正在活动适配器脱机,请确保不会影响业务时执行该操作。

-S--SafeCapture

指定为SafeCapture模式。

-A= | all> or --Adapters= | all>

仅与--FullCapture参数一起使用。此参数将对指定适配器执行dump操作。

-SVM--SkipVMsupport

此选项使Capture工具跳过对vm-support数据的收集。

5.9  收集GPU相关日志

5.9.1  常见的GPU故障收集方式

表5-12 GPU故障信息收集方式

收集项

收集方法

收集内容

故障现象

整理现场情况,拍照或截图

现场情况的拍照或截图

SDS日志

·     HDM Web页面下收集

·     通过定制化运维工具盘Unitoolcollect_all_log功能

.sds.tar.gz格式的日志

delta FPGA日志

·     串口登录机器,记录i2c-test的打印情况

·     HDM2.70及其之后版本可使用ipmitool工具收集

·     i2c-test的打印结果,保存成txt

·     收集ipmi打印回显

系统日志

·     执行sosreport命令获取

·     进入/var/log文件目录,复制所有文件名包含messagesdmesg的文件及文件夹

·     sosreport

·     messagedmesg等文件

Nvidia-bug-report

操作系统下执行nvidia-bug-report.sh

nvidia-bug-report.log.gz

nvidia-smi信息

操作系统下执行命令获取:

·     nvidia-smi > nvidia_smi.log

·     nvidia-smi -a >nvidia_smi_a.log

·     nvidia_smi.log

·     nvidia_smi_a.log

FM服务运行状态、版本信息、服务日志

·     systemctl status nvidia-fabricmanager.service > FMstatus.log

·     journaltcl -u nvidia-fabricmanager >FMprocess.log

·     rpm -qa | grep -i nvidia

·     FMstatus.log

·     FMprocess.log

·     所有已安装的软件包

lspci信息

·     lspci -tv >> lspci.log

·     lspci -nnvvv >> lspci.log

·     lspci -xxxx >> lspci.log

以不同维度收集链路信息lspci.log

Fieldiag诊断工具

·     操作系统下执行 fieldiag命令获取

·     工具的logs目录下收集

Logs-xxx.tgz格式的日志

诊断日志文件

使用FieldDiag现场诊断工具,具体请参见5.9.2 

GPU FieldDiag现场诊断工具使用方法

·     GPU configuration information  

·     MODS version number 

 

5.9.2  PCIe GPU FieldDiag现场诊断工具使用方法

1. 工具介绍

·     FieldDiag工具是nvidia开发的现场诊断工具,当GPU报出硬件错误时,可用此工具进行诊断。针对不同类型的GPU工具不同,工具分为不同版本,此指导针对TelsaAmpere等通用型PCIe GPU(与HGX类型GPU使用工具版本不通用)。

·     不同的GPUFieldDiag工具中的执行测试项存在差别,工具运行时长也不同。

·     FieldDiag请访问Nvidia Nvonline官网或联系技术支持获取。

2. 环境要求

·     Linux kernel 2.6.16 or later (出于性能考虑,推荐使用2.6.29或更高版本的内核。该工具已经在内核2.6.162.6.35中进行了测试。)

·     如果系统中存在nouveau驱动,需进行拉黑

使用以下命令以下进入vim编辑页面按i进入编辑状态:

¡     vim /etc/modprobe.d/blacklist-nouveau.conf

添加两条语句:

¡     blacklist nouveau

¡     options nouveau modeset=0

使用以下命令查看是否添加成功:

¡     cat  /etc/modprobe.d/blacklist-nouveau.conf

将系统init文件进行备份:

¡     mv  /boot/initramfs-$(uname -r).img  /boot/initramfs-$(uname -r).img.bak

将系统init文件进行重组:

¡     dracut  -v  /boot/initramfs-$(uname -r).img  $(uname -r)

或者直接使用dracut -force命令,重启  reboot

查看系统通用驱动是否拉黑(未获取到任何信息即代表拉黑成功):

¡     lsmod |grep -i nouveau

3. 运行工具

(1)     关闭GPUMIG模式(可选,一部分GPU会存在MIG模式)

多实例图形处理器(MIG)模式,支持A100图形处理器。当运行FieldDiag时应该关闭。

使用命令:

¡     使用nvidia-smi查看MIG模式是否开启(Enable Disable

¡     nvidia-smi -i <GPU IDs> -mig 1(开启MIG模式)

¡     nvidia-smi -i <GPU IDs> -mig 0(关闭MIG模式)

执行命令后重启系统生效

(2)     新建文件夹,将FieldDiag工具包放置在文件夹下并解压,使用命令:

¡     mkdir FieldDiag

¡     cd FieldDiag

¡     tar –zvxf 629-INT18-UNIV-ALL.tgz

(3)     进入文件夹下,安装执行环境并加载工具模块

¡     FieldDiag目录下使用命令:

¡     ./install_module.sh  -i

¡     出现modprobe mods则说明模块加载成功,即可执行工具

(4)     执行FieldDiag工具,FieldDiag目录下使用命令

¡     ./FieldDiag

图5-37 FiledDiag目录下使用命令

 

工具执行时,界面会显示如下信息:

 “Running test X on GPU n - Y tests remaining  |=======  | Z %”

这里:

¡     X 是当前正在执行的测试号

¡     n GPU序列号

¡     Y 是剩余的测试项

¡     Z 是总体完成的百分比

: Running test 208 on GPU 0 - 118 tests remaining   |===========   | 64 %

测试完成后,如果测试完成,能看到打印测试结果PASSFAIL,且会在当前文件夹下生成诊断log,默认情况下,FieldDiag会生成一个二进制日志文件。

4. 运行结果解析

(1)     运行结果分类

诊断完成后,如果正常完成,error code将返回0shell。如果发生错误,它将返回1shell,如果需要重新测试,它将返回2。它还会在屏幕上打印“PASS”、“FAIL”或“RETEST

¡     PASS – 硬件诊断完成

¡     FAIL – 硬件诊断失败

¡     RETEST – 诊断的预检查部分硬件设置失败,出现一条描述问题的警告消息。根据预检查消息纠正问题,然后再次测试

图5-38 正常完成error code返回0

 

(2)     日志文件会包括如下信息

¡     GPU configuration information

¡     MODS version number

¡     MODS kernel driver version

¡     Linux kernel version

¡     ECC errors and retired pages

日志文件中没有客户数据、系统配置信息、系统上运行的进程,也没有来自MODS文件夹以外文件夹的数据。

(3)     日志文件名包含信息

日志文件名包含了基本的测试结果信息,以及被测单板的序列号:

FieldDiag_<PASS/FAIL/CONFIG>_<serial number>.log

5.9.3  HGX GPU FieldDiag现场诊断工具使用方法

1. 测试步骤

以下步骤以HGX H800 GPU为例,使用的是Fieldiag ISO镜像方式进行测试,此方式最为简便不依赖于系统。其他HGX步骤与此一致,但是测试使用的工具包不一样,请注意区分

(1)     在服务器KVM上挂载Fieldiag ISO镜像,以下以按Fieldiag ISO镜像为例。

 

(2)     BIOS Exit页面下选择镜像选项“Virtual CD-ROMPartition 1”并进入。

图5-39 选择Virtual CD-ROM

 

(3)     进入Fieldiag ISO系统,进入/mnt/nv/tiny目录下。

图5-40 进入Fieldiag ISO系统

 

(4)     因为此目录为只读目录无法进行测试,将629-24287-XXXX-FLD-39387.tgz拷贝至/root目录下。

图5-41 拷贝文件

 

(5)     进入root目录下,输入“tar -zxvf 629-24287-XXXX-FLD-39387.tgz”解压文件,并进入解压后的629文件夹,输入 ls”查看内容。

图5-42 解压文件

 

(6)     执行“./fieldiag.sh --sit --no_bmc”,--sit可以替换--level1--level2

2. 收集日志

测试完成后在629-24287-XXXX-FLD-38379目录下可看到一个logs的文件夹,日志文件名为logs-xxxxx.tgz(其中xxxx为测试时间)。

 

5.10  收集网卡相关日志

说明

Intel网卡,指厂商为Intel的网卡;Mellanox网卡,指厂商为Mellanox的网卡;BroadCom网卡,指厂商为BroadCom的网卡。网卡所属的厂商可通过服务器兼容的部件查询工具进行查询。对于厂商不属于上述范围的网卡,请参考通用网卡日志收集章节。

5.10.1  Intel网卡日志收集

本章节介绍如下Intel网卡的日志收集方法。Intel® Ethernet 800系列网卡支持对特定的模块生成固件日志,并且可以修改每种模块输出的详细程度,可用的详细级别为:

¡     0 = none

¡     1 = error

¡     2 = warning

¡     3 = normal

¡     4 = verbose

如果怀疑异常情况可能属于5-13中包含的事件类别,可以设置在固件日志中输出相应模块更多详细信息:

表5-13 异常情况对应的事件类别及模块

事件类别

模块

Initialization

·     Control

NVM

·     NVM

·     Authentication

·     VPD

I/O

·     I2C

·     SDP

·     MDIO

Link Management

·     Link Management

·     Link Control Technology

·     Link Topology Detection

Rx

·     Parser

·     Switch

·     ACL

·     Post

Tx

·     Scheduler

·     Tx Queue Management

AQ Interface

·     Admin Queue

·     HDMA

Manageability

·     Manageability

Protocols

·     LLDP

·     DCBx

Infrastructure

·     Watchdog

·     Task Dispatcher

·     General

·     IOSF

·     PF Registration

·     Module Versions

XLR

·     XLR

QoS

·     DCB

Diagnostics

·     SyncE

·     Health

TimeSync

·     Time Sync

注意

l     下文中日志收集方法仅适用于Intel® Ethernet 800系列网卡

 

2. 日志收集方法(Windows操作系统)

l     Windows系统中可以使用PowerShellIntel Ethernet cmdlets对固件日志进行配置

以下简单介绍日志的收集方法:

(1)     访问intel官网,下载Ethernet_cmdlets.zip,在系统中解压 ,双击Ethernet_Cmdlets.exe进行安装

(2)     PowerShell中使用如下命令来查看设备名称、可用的模块(Module)和详细程度(Level

C:\> Get-IntelEthernetLogConfig

图5-43 查看设备名称等

 

(3)     通过Set-IntelEthernetLogConfig来设置固件日志中包含的模块及详细程度,例如:

C:\> Set-IntelEthernetLogConfig -Name "Intel(R) Ethernet Network Adapter E810-XXV-2" -Module "Link Management" -Level "Verbose”

(4)     使用如下命令开始收集固件日志:

C:\> Start-IntelEthernetLog -Name "设备名"

    固件日志会被自动保存到下图所示路径中:

图5-44 收集固件日志

 

(5)     执行必要步骤复现问题

(6)     使用如下命令停止收集固件日志:

C:\> Stop-IntelEthernetLog

 

3. 日志收集方法(Linux操作系统)

·     ice 驱动程序会将固件日志以二进制格式生成,并打印到dmesg日志中,可以通过fwlog_events参数来设置固件日志中需要包含的模块信息,每种模块对应的fwlog_events取值情况如5-14所示:

表5-14 不同模块对应的fwlog_events取值情况

模块

fwlog_events

General

00000001  (Bit 0)

Control

 00000002  (Bit 1)

Link Management

 00000004  (Bit 2)

Link Topology Detection

 00000008  (Bit 3)

Link Control Technology

 00000010  (Bit 4)

I2C

 00000020  (Bit 5)

SDP

 00000040  (Bit 6)

MDIO

 00000080  (Bit 7)

Admin Queue

 00000100  (Bit 8)

Host DMA

 00000200  (Bit 9)

LLDP

 00000400  (Bit 10)

DCBx

 00000800  (Bit 11)

DCB

 00001000  (Bit 12)

XLR

 00002000  (Bit 13)

NVM

 00004000  (Bit 14)

Authentication

 00008000  (Bit 15)

VPD (Vital Product Data)

 00010000  (Bit 16)

IOSF (Intel OnChip System Fabric)

 00020000  (Bit 17)

Parser

 00040000  (Bit 18)

Switch

 00080000  (Bit 19)

Scheduler

 00100000  (Bit 20)

TX Queue Management

 00200000  (Bit 21)

ACL (Access Control List)

 00400000  (Bit 22)

Post

 00800000  (Bit 23)

Watchdog

 01000000  (Bit 24)

Task Dispatcher

 02000000  (Bit 25)

Manageability

 04000000  (Bit 26)

SyncE

 08000000  (Bit 27)

Health

 10000000  (Bit 28)

Time Sync

 20000000  (Bit 29)

PF Registration

 40000000  (Bit 30)

Module Version

 80000000  (Bit 31)

·     可以通过fwlog_level参数来定义每种模块输出日志的详细程度

注意

l     固件日志可能会超出dmesg缓冲区,在加载驱动程序收集固件日志之前,建议将已有的dmesg保存到其他文件中。

l     不支持在驱动已加载的情况下更改固件日志参数,必须重新加载驱动使得更改参数生效。

 

以下简单介绍日志的收集方法:

(1)     使用如下命令卸载驱动:

# rmmod ice

(2)     dmesg中的固件日志保存到文件:

# dmesg -w > firmware.log

(3)     使用如下命令加载驱动,并根据需要配置模块及输出详细程度:

# insmod ice.ko dyndbg="+p" fwlog_events=<bitmask> fwlog_level=<0-4>

(4)     执行必要步骤复现问题,固件日志将保存到firmware.log中。

(5)     日志收集完毕后,请移除驱动并重新加载,dmesg中的固件日志会继续保持禁用状态。

4. 日志收集方法(VMware操作系统)

l     vmware系统中,使用 esxcfg-module对固件日志进行配置,固件日志将会输出到dmesg中,且标签为FWLOG

以下简单介绍日志的收集方法:

(1)     通过如下命令启用固件日志,并指定模块(FWLogEvents)和输出详细程度(FWLogLevel):

# esxcfg-module icen -s 'FWLogEnable=1 FWLogEvents=<bitmask> FWLogLevel=<0-4>'

其中,FWLogEnable表示在指定PF上启用固件日志记录功能(0=禁用,1=启用),可以使用逗号分割每个PF的值,第一个值用于 PF0,第二个值用于 PF1

(2)     重启系统使配置生效。

(3)     系统重启后,执行必要步骤复现问题,固件日志将输出到dmesg日志中,可以通过如下命令将dmesg保存到firmware.log中:

# dmesg  > firmware.log

(4)     通过如下命令关闭固件日志输出:(重启后生效)

# esxcfg-module icen -s 'FWLogEnable=0 FWLogEvents=0 FWLogLevel=0'

5.10.2  Mellanox网卡日志收集

本章节介绍如下Mellanox网卡的日志收集方法。Mellanox网卡指生产厂家为Mellanox的标准以太网卡和智能网卡。对于智能网卡,除了收集Host下的日志外,还需要登录智能网卡的SOC系统收集日志,参照 6. 智能网卡日志收集方法(SOC内部

1. 区分方法

l     从外观区分:传统以太网卡只有光接口或者电接口,而智能网卡是除两个光接口之外还有一个RJ45管理口(下图是MBF2H332A示例,仅供参考);

图5-45 智能网卡形态

 

l     从网卡PN区分:智能网卡是MBF***Mellanox Bluefield),传统以太网卡是MCX***

图5-46 智能网卡PN

 

2. 日志收集工具

Mellanox网卡日志收集工具,如5-15所示。需要注意的是,该工具仅用于日志信息收集,不会收集任何用户信息,也不会对业务造成影响。如需获取工具请联系技术支持。

表5-15 Mellanox网卡日志收集工具

操作系统

工具名称

下载链接

Windows

MFT

https://network.nvidia.com/products/adapter-software/firmware-tools/

Linux

MFT

https://network.nvidia.com/products/adapter-software/firmware-tools/

VMware

MFT

https://network.nvidia.com/products/adapter-software/firmware-tools/

 

3. 日志收集方法(Windows操作系统)

前提:当前OS已经安装MFT工具和mellanox Driver

(1)     以管理员权限打开cmd,进入默认mft工具目录下,默认路径为:\Program Files\Mellanox\WinMFT,执行mst status 查看MST devices信息;

(2)     进入Mellanox驱动安装目录,默认路径为\Program Files\Mellanox\MlNX_WinOF2\DiagnosticTools\MLNX_System_Snapshot.exe,以管理员权限打开MLNX_System_Snapshot工具,点击Set target file设置日志保留路径及文件名,点击Generate System-Snapshot生成系统快照日志。

(3)     日志收集完成之后桌面提示snapshot file***created successfully

图5-47 Mellanox网卡日志收集成功

 

4. 日志收集方法(Linux操作系统)

前提:当前OS已经安装MFT工具和mellanox Driver

(1)     启动工具服务:执行mst start

(2)     查看MST devices信息:执行mst status

(3)     系统信息收集

通过 sysinfo 工具可以收集完整的系统信息,包含系统配置,网卡配置, FW 版本,驱动日志等,如果用户已经安装了完整的 OFED 包,则该工具已自动安装,存在于/usr/sbin/目录下,直接执行sysinfo-snapshot.py 脚本即可。如果没有 OFED 驱动,则可按如下方式下载后执行脚本:

·     git clone https://github.com/Mellanox/linux-sysinfo-snapshot.git

·     tar -zxvf sysinfo-snapshot-<version>.tgz

·     ./sysinfo-snapshot.py

脚本执行完成后会在/tmp 目录下生成日志包, 比如:sysinfo-snapshot-v3.6.5.5-localhost.localdomain-20230328-134721.tgz.

图5-48 通过sysinfo工具收集系统信息

 

(4)     网卡 dump 日志收集

在分析网卡故障时,通常需要连续抓取 3 次网卡 dump,间隔 15s,执行操作如下:

mst start  &  mst status

mstdump  <MST device>  > *** 1.dmp

mstdump  <MST device>  > *** 2.dmp

mstdump  <MST device>  > *** 3.dmp

tar –cvf  dumps.tar  mstdump *

图5-49 网卡dump日志收集

 

5. 日志收集方法(VMware操作系统)

以下简单介绍日志的收集方法:

前提:当前OS已经安装MFT工具和mellanox Driver

(1)     使用VMware系统自带的vm-support收集os下日志,收集完成之后会生成已esx-***.tgz文件,并显示保存路径。

图5-50 使用vm-support收集os下日志

 

(2)     收集 /var/log/vmkernel.log 日志。

图5-51 收集vmkernel.log日志

 

(3)     网卡 dump 日志收集

在分析网卡故障时,通常需要连续抓取 3 次网卡 dump,间隔15s,执行操作如下:

/opt/mellanox/bin/mst start

/opt/mellanox/bin/mst status

/opt/mellanox/bin/mstdump <MST device> > *** 1.dmp

/opt/mellanox/bin/mstdump <MST device> > *** 2.dmp

/opt/mellanox/bin/mstdump <MST device> > *** 3.dmp

tar -cvf dumps.tar mstdump*

图5-52 网卡dump日志收集

 

6. 智能网卡日志收集方法(SOC内部)

(1)     如果是配置Bluefield智能网卡的服务器,当遇到网卡故障的情况,除了收集Host服务器的sysinf-snapshot日志和dump日志外,还需要登录智能网卡的arm系统,使用sysinfo-snapshot.py脚本和mstdump收集arm系统下日志;

(2)     Host下执行ip addr add 192.168.100.1/30 dev tmfifo_net0给管理网口分配ip

(3)     执行ssh ubuntu@192.168.100.2使用ssh登录智能网卡arm系统,输入账号密码;

:上述使用的用户名ubuntu是以mellanox官方arm os的用户名为例。

图5-53 收集arm系统日志

 

(4)     日志收集方法与linux系统相同, 进入/usr/sbin/目录执行sysinfo-snapshot.py然后使用mstdump连续抓取 3 次网卡 dump,间隔 15s

5.10.3  BroadCom网卡日志收集

本章节介绍如下Broadcom网卡的日志收集方法。Broadcom网卡指生产厂家为Broadcom的以太网卡,脚本工具仅用于日志信息收集,不会收集任何用户信息,也不会对业务造成影响。

1. 日志收集方法(Windows操作系统)

需要通过执行脚本来收集日志信息。脚本工具获取、日志收集的方法,均请参见Broadcom官网或联系技术支持以下介绍日志的收集方法:

在复现时抓取以下日志(确保固件与驱动版本保持一致避免收集日志失败)

·     系统日志

在操作系统下单击[计算机/管理]菜单项,打开服务器管理器

单击[工具/事件查看器]菜单项,打开事件查看器

单击[Windows日志/系统/将所有事件另存为]菜单项,导出并保存日志文件

图5-54 Windows系统日志收集

 

·     利用固件升级工具收集coredump

¡     进入AutoUpgrade_windows_224.1.102.0b_H3C_V01a_20221215目录下执行bnxtnvm.exe listdev查看当前Broadcom网卡信息

图5-55 使用固件升级工具收集

 

¡     执行bnxtnvm.exe -dev=<ethx> coredump 在当前文件夹生成.core文件

图5-56 生成core文件

 

2. 日志收集方法(Linux操作系统)

需要通过执行脚本来收集日志信息。脚本工具获取、日志收集的方法,均请参见Broadcom官网或联系技术支持

以下简单的介绍日志的收集方法及操作截图:

在复现时抓取以下日志(确保固件与驱动版本保持一致避免收集日志失败)

·     dmesg 日志

¡     dmesg > dmesg.log

·     网卡固件驱动版本

¡     ethtool -i ens

·     网卡收发包

¡     ethtool -S ens

·     光模块信息

¡     ehtool -m ens

·     网卡物理地址信息

¡     ethtool -i ens| grep 'bus-info'

¡     lspci -s <bus> -vvv

·     利用固件升级工具收集coredump

¡     进入nvmUpgrade_222.1.68.0d_H3C_V2_20221109/utils目录下运行命令

¡     #chomd 777 -R *

¡     ./bnxtnvm -dev=ens5f0np0 coredump

图5-57 使用固件工具收集coredump

 

3. 日志收集方法(VMware操作系统)

需要通过执行脚本来收集日志信息。脚本工具获取、日志收集的方法,均请参见Broadcom官网或联系技术支持以下简单介绍日志的收集方法及操作截图:

在复现时抓取以下两个日志(确保固件与驱动版本保持一致避免收集日志失败)

·     VMware下设置命令“esxcfg-modules- s ‘debug=0x7FFFFFFF’  bnxtnet”,如5-54所示。

图5-58 执行脚本收集日志信息

 

·     dmesg 日志

利用固件升级工具收集coredump文件,进入nvmUpgrade_216.0.292.0a_esxi_v01_20200809/utils目录下运行命令:

¡     #chomd 777 -R *

¡     ./bnxtnvm -dev=vmnic0 coredump

5.10.4  通用网卡日志收集

通用网卡日志收集方法面向没有专有方法的网卡。对于Linux系统,如果无法使用sosreport工具收集日志,则需要按照收集网卡相关日志(Linux操作系统)章节操作。

1. 收集系统日志

请参考章节5.2 收集操作系统日志

2. 收集网卡相关日志(Linux操作系统)

收集网卡基本信息:

·     ip address > ip_address.log

·     ip -s link show > ip_link_show.log

·     ethtool “网口名” > ethtool.log

·     ethtool -m “网口名” > ethtool_m.log

·     ethtool -i  “网口名” > ethtool_i.log

·     ethtool -k “网口名” > ethtool_k.log

·     ethtool -S “网口名” > ethtool_S.log

·     ethtool -c “网口名” > ethtool_c.log

·     ethtool -x “网口名” > ethtool_x.log

·     ethtool --show-fec “网口名” > ethtool_fec.log

·     ethtool -a “网口名” > ethtool_a.log

·     tar -zcvf ethtool_log.tar.gz *.log


6 故障诊断定位

6.1  诊断原则

注意

·     现场对设备的所有操作,需提前知会客户,征得客户同意后再执行。

·     现场涉及对存储介质的操作,务必谨慎。请提前知会客户配合H3C工程师进行业务数据迁移或备份,确保无数据丢失风险后再执行。

 

故障诊断时,请遵循以下基本原则。

·     先诊断外部,后诊断内部。

诊断故障时,先排查外部环境因素,比如机房供电是否正常、网线电源线等外接线缆是否牢靠、对端设备是否正常、近期是否有人搬迁或操作过服务器等;然后再诊断设备内部因素,如硬件安装是否到位、操作系统运行是否正常。

·     先诊断整体,后诊断局部。

诊断故障时,先根据服务器的健康状态指示灯或登录HDM Web界面,了解服务器的整体健康状态,再结合故障现象和相关日志进一步定位具体的故障点。对于硬件无法识别、带宽降速或出现CRCCyclic Redundancy Check,循环冗余检查)校验错误等问题,先整体梳理硬件拓扑,列出所有可能的故障点,再确定方案,逐一排查。

·     先诊断主要问题,后诊断次要问题。

诊断故障时,优先定位客户关注且影响严重的问题;再诊断影响较小的问题。

·     先诊断高级别告警,后诊断低级别告警。

分析告警时,首先分析高级别告警,如紧急或严重告警;然后再分析低级别告警,如轻微告警。

·     硬件日志分析和操作系统日志分析相结合。

当通过分析硬件日志无法明确故障原因时,建议结合操作系统日志一起分析。

·     定位问题善用最小化测试、交叉测试方法。

对于如无法开机之类稳定复现的故障,可以使用“最小化测试法”、“交叉测试法”排查故障位置。

¡     最小化测试:参考4.4  明确服务器最小化硬件配置提供的最小化硬件配置进行测试,查看故障现象是否依旧存在。如果存在,可以再使用交叉测试法;如果不存在,则逐步安装其他部件,当故障再次出现时,就可以确定上一个安装的部件为故障点。

¡     交叉测试:使用正常部件逐一替换故障设备上的部件,查看故障现象是否依旧存在。当故障消失时,则表示被替换的部件为故障点。

6.2  诊断通用思路

(1)     故障处理准备。

a.     服务器工作环境确认。确保服务器供电充足,且物理环境满足设备稳定运行要求,包括空间和通风、温度、湿度、洁净度、高度和接地等。物理环境的具体要求,请参见产品用户指南。

b.     移除服务器上的第三方外接设备,包括光驱、U盘、移动硬盘等。

c.     参考4.2  准备软件工具准备好故障诊断所需的工具和软件。

(2)     参考5 收集故障相关信息收集故障相关的日志信息,并记录故障发生的时间、频率、报错截屏等信息。

(3)     登录HDM Web界面,查看服务器整体概况,如6-1所示。

图6-1 查看服务器整体概况

 

(4)     根据提示查看各个子系统状态,定位故障位置,如6-2所示。

图6-2 定位故障位置

 

(5)     查看HDM事件日志,进行故障初步诊断,如6-3所示。

图6-3 查看HDM事件日志

 

(6)     如果HDM事件日志提示硬件无法识别,请关闭操作系统,断开服务器电源,检查机箱内部各部件是否安装到位,连接器是否连接正常。

(7)     对于其他故障现象,请参考7 硬件类问题8 软件类问题进行故障处理。

(8)     若故障依旧无法解决,请收集HDM SDS日志,并记录详细故障信息(故障的时间、频率、报错截屏等),联系技术支持处理。收集HDM SDS日志的方法请参见5.3  收集HDM SDS日志

6.3  故障定位

6.3.1  通过指示灯定位故障

服务器上的指示灯包括:系统电源指示灯、Health指示灯、UID指示灯、电源模块指示灯、以太网接口指示灯、硬盘指示灯等。本章节介绍通过指示灯定位故障的操作流程和操作步骤。

指示灯位置请参见产品用户指南的前面板和后面板章节。

1. 操作流程

通过指示灯定位故障的流程如6-4示。

图6-4 指示灯故障定位流程

 

2. 操作步骤

(1)     查看服务器Health指示灯,确认服务器是否出现故障,Health指示灯的含义请参见服务器用户指南。对于大部分服务器,Health指示灯的含义如6-1所示。

表6-1 Health指示灯状态说明

Health指示灯状态

含义

绿灯常亮

系统状态正常或系统有轻微告警。此状态下,HDM Web界面中健康状态显示为“ 正常”

绿灯闪烁(4Hz

HDM正在初始化。此状态下,HDM Web界面中健康状态显示为“ 正常”

橙灯闪烁(1Hz

系统出现严重错误告警。此状态下,HDM Web界面中健康状态显示为“ 严重

红灯闪烁(1Hz

系统出现紧急错误告警。此状态下,HDM Web界面中健康状态显示为“ 紧急”

 

(2)     当系统出现严重错误告警或紧急错误告警时,请查看HDM事件日志确认故障位置,如6-5所示。

图6-5 查看HDM事件日志

 

(3)     结合指示灯现象,进一步定位故障,详细说明请参见6-2

表6-2 系统故障提示及处理说明

故障对象

指示灯状态

故障含义

处理步骤

处理器

l     Health指示灯:红色闪烁(1Hz

l     系统电源指示灯:橙色常亮

CPU出现严重故障

1.     检查CPU是否安装到位

2.     登录HDM Web界面,查看HDM事件日志中是否有CPU相关报错,并参考“7.12  CPU问题”处理

3.     若问题仍然存在,请联系技术支持

内存

l     Health指示灯:绿色常亮

l     系统电源指示灯:绿色常亮

一个或多个内存出现故障

1.     检查内存是否安装到位

2.     检查内存安装顺序是否符合内存安装准则,详细信息请参考产品用户指南

3.     登录HDM Web界面,查看HDM事件日志中是否有内存相关报错,并参考“7.10  DRAM内存问题处理”

4.     若问题仍然存在,请联系技术支持

l     Health指示灯:橙色闪烁(1Hz

l     系统电源指示灯:绿色常亮

一个或多个内存出现严重故障

系统温度

l     Health指示灯:绿色常亮

l     系统电源指示灯:绿色常亮

系统温度达到轻微级别

1.     检查设备所在的环境温度是否过高

2.     检查设备出风口或入风口是否被阻塞

3.     检查设备风扇数量是否满足要求、风扇运行是否正常

4.     若问题仍然存在,请联系技术支持

l     Health指示灯:橙色闪烁(1Hz

l     系统电源指示灯:绿色常亮

系统温度到达严重级别,服务器运行性能会显著下降

l     Health指示灯:红色闪烁(1Hz

l     系统电源指示灯:橙色常亮

系统温度到达紧急级别,服务器可能会自动关闭系统防止组件被损坏

风扇

l     Health指示灯:绿色常亮

l     系统电源指示灯:绿色常亮

一个风扇失效或被拔出

1.     检查风扇是否安装到位

2.     检查风扇安装顺序是否符合风扇安装准则,详细信息请参考产品用户指南

3.     检查风扇是否正常运行,如果异常请更换失效风扇

4.     若问题仍然存在,请联系技术支持

l     Health指示灯:红色闪烁(1Hz

l     系统电源指示灯:橙色常亮

两个及以上风扇失效或被拔出

电源

l     Health指示灯:红色闪烁(1Hz

l     系统电源指示灯:橙色常亮

可能存在如下情况:

·     电源模块故障

·     主板故障导致电源模块下电

1.     确认电源故障现象,并参考“7.3  电源问题”处理

2.     若问题仍然存在,请联系技术支持

l     Health指示灯:橙色闪烁(1Hz

l     系统电源指示灯:绿色常亮

可能存在如下情况:

·     备份电源模块已安装但未工作;

·     备份电源模块未通电

·     备份电源模块故障

l     Health指示灯:红色闪烁(1Hz

l     系统电源指示灯:绿色常亮

·     电源模块型号不一致

·     电源模块与服务器不兼容

SAS/SATA硬盘

l     Health指示灯:绿色常亮

l     硬盘Fault/UID指示灯(橙色/蓝色):橙色闪烁(0.5Hz

l     硬盘Present/Active指示灯(绿色):常亮/闪烁(4Hz

硬盘预告性故障报警

请及时更换硬盘

l     Health指示灯:绿色常亮

l     硬盘Fault/UID指示灯:灯灭

l     硬盘Present/Active指示灯:灯灭

硬盘未识别

1.     检查硬盘是否安装到位

2.     参考“6.4.11  物理硬盘故障流程图”处理

3.     若问题仍然存在,请联系技术支持

l     Health指示灯:橙色闪烁(1Hz

l     硬盘Fault/UID指示灯(橙色/蓝色):橙色常亮

l     硬盘Present/Active指示灯(绿色):常亮/闪烁(4Hz

硬盘出现故障

请立即更换硬盘

NVMe硬盘

l     Health指示灯:橙色闪烁(1Hz

l     硬盘Fault/UID指示灯(橙色/蓝色):橙色常亮

l     硬盘Present/Active指示灯(绿色):常亮/闪烁(4Hz

硬盘出现故障

请立即更换硬盘

l     Health指示灯:绿色常亮

l     硬盘Fault/UID指示灯:灯灭

l     硬盘Present/Active指示灯:灯灭

硬盘未识别

1.     检查硬盘是否安装到位

2.     参考“6.4.11  物理硬盘故障流程图”处理

3.     若问题仍然存在,请联系技术支持

OCP网卡

l     Health指示灯:绿色常亮

l     ATTN BUTTON指示灯:橙色常亮

l     OCP网卡POWER指示灯:灯灭

可能存在如下情况:

·     OCP网卡未安装到位

·     热插OCP网卡时,按下ATTN BUTTON按钮后,OCP网卡未正常上电

·     热拔OCP网卡时,按下ATTN BUTTON按钮后,系统10秒内未响应退卡指令

1.     检查OCP转接卡是否安装到位

2.     关闭操作系统中CPU/内存占用率高的软件,然后再次按下ATTN BUTTON按钮,检查系统是否正常响应

3.     请更换OCP网卡

4.     请重启操作系统

5.     若问题仍然存在,请联系技术支持

 

6.3.2  通过同时闪烁的挂耳指示灯定位故障

在发生电源子系统故障时,前面板挂耳上的以下指示灯将同时闪烁,不同的闪烁次数对应服务器受电源故障影响的子系统,具体对应关系如6-3所示。

·     Health指示灯

·     系统电源指示灯

·     UID指示灯

·     以太网接口指示灯(或OCP网卡以太网接口指示灯

表6-3 前面板挂耳指示灯电源故障说明(仅适用G3产品)

故障子系统

指示灯行为

主板

闪烁1

CPU

闪烁2

内存

闪烁3

Riser

闪烁4

FLOM

闪烁5

RAID扣卡/HBA扣卡

闪烁6

PCIe标卡

闪烁7

硬盘背板

闪烁8

电源模块

闪烁9

 

表6-4 前面板挂耳指示灯电源故障说明(仅适用G5/G6产品)

故障子系统

指示灯行为

主板

闪烁1

CPU

闪烁2

内存

闪烁3

Riser

闪烁5

硬盘背板

闪烁10

电源模块

闪烁11

 

6.3.3  通过诊断面板上的故障代码定位故障

说明

服务器是否支持诊断面板,请以实际情况为准。

 

用户可通过诊断面板,快速、准确地诊断发生故障的组件及其故障信息,同时结合HDM系统中的事件日志,即可获取该组件的详细故障信息,从而帮助用户快速排除故障,使服务器各组件和系统保持良好的运行状况。

诊断面板上的故障代码和故障指示灯,对应的故障项目相关信息,请参见产品用户指南的“诊断面板”章节。

说明

诊断面板同一时间只能显示一个组件的故障信息。当多个组件故障时,诊断面板以4秒为周期循环显示全部故障组件信息。

 

图6-6 诊断面板示例

 

(1):故障代码

(2):故障指示灯

 

6.3.4  通过LCD可触摸智能管理模块定位故障

说明

·     服务器是否支持LCD可触摸智能管理模块,请以实际情况为准。

·     不同版本的HDM适配的LCD固件版本不同,支持的功能也不完全一样,具体差异请以LCD显示屏界面实际显示为准。

 

通过LCD可触摸智能管理模块,用户可以查看服务器的常用信息、告警信息和实时监控信息,并执行以下操作。

·     设置HDM管理接口的网络信息

·     恢复默认管理员账号

·     重启LCD显示屏

如果LCD可触摸智能管理模块显示服务器产生告警信息,如6-7所示,可以登录HDM Web界面查看告警详情,并参考《HDM告警日志信息参考手册》排除故障,使服务器各组件和系统保持良好的运行状况。

LCD可触摸智能管理模块的安装方法和使用指导,请参见《LCD可触摸智能管理模块 用户指南》。

图6-7 LCD告警信息

 

6.3.5  通过智能安全面板上的指示灯定位故障

说明

服务器是否支持智能安全面板,请以实际情况为准。

 

智能安全面板的指示灯联动服务器健康状态,体现服务器的运行状态和健康信息,能够加快现场巡检和故障定位。智能安全面板指示灯具体含义,请参见产品用户指南的“智能安全面板指示灯”章节。

如果智能安全面板的指示灯显示服务器产生告警信息,可以登录HDM Web界面查看告警详情,并参考《HDM告警日志信息参考手册》排除故障,使服务器各组件和系统保持良好的运行状况。

图6-8 智能安全面板示例

 

6.4  故障诊断流程图

说明

故障诊断流程图提供了故障处理的思路;具体的故障定位和处理,还需结合文中其他信息,综合分析排查。

 

6.4.1  故障诊断流程图使用场景

介绍各流程图的使用场景,便于用户明确哪个流程图可以帮助用户解决问题。

表6-5 故障诊断流程图使用场景

流程图名称

使用场景

服务器硬件故障指示流程图

用于诊断HDM事件日志中出现告警事件或Health指示灯出现告警

远程诊断流程图

从远程位置诊断问题

开机故障流程图

用于诊断开机故障

POST故障流程图

用于诊断POST故障

操作系统引导故障流程图

用于诊断操作系统引导时出现的故障

iFIST故障流程图

用于诊断使用iFIST遇到的故障

存储控制卡故障流程图

用于诊断存储控制卡故障

存储控制卡的超级电容故障流程图

用于诊断存储控制卡超级电容出现的故障

物理硬盘故障流程图

用于诊断物理硬盘故障

逻辑硬盘故障流程图

用于诊断逻辑硬盘故障

网卡故障流程图

用于诊断网卡故障

GPU故障诊断流程图

用于诊断GPU相关故障

串口&DSD模块故障诊断流程图

用于诊断串口&DSD模块故障

通用诊断流程图

当故障现象或故障原因不明确时,建议使用通用诊断流程图进行故障诊断

 

6.4.2  通用诊断流程图

说明

当故障现象或故障原因不明确时,建议使用通用诊断流程图进行故障诊断。

 

图6-9 通用诊断流程图

 

·     开机故障诊断流程图,请参见6.4.5  开机故障流程图

·     POST故障诊断流程图,请参见6.4.6  POST故障流程图

·     存储控制卡故障诊断流程图,请参见6.4.9  存储控制卡故障流程图

·     物理硬盘故障诊断流程图,请参见6.4.11  物理硬盘故障流程图

·     逻辑硬盘故障诊断流程图,请参见6.4.12  逻辑硬盘故障流程图

·     操作系统引导故障诊断流程图,请参见6.4.7  操作系统引导故障流程图

·     网卡故障诊断流程图,请参见6.4.13  网卡故障流程图

·     GPU卡故障诊断流程图,请参见6.4.14  GPU故障诊断流程图

6.4.3  服务器硬件故障指示流程图

介绍服务器的硬件故障指示流程图。

1. 服务器硬件故障指示流程图

症状

·     服务器可以正常上电,但HDM事件日志中有告警事件。

·     服务器可以正常上电,但Health指示灯红灯或橙灯闪烁。

可能原因

·     未正确安装部件或部件存在故障。

·     服务器部件故障导致的冗余问题,例如风扇、电源。

·     服务器部件(比如风扇等)故障导致的温度过高。

处理步骤

说明

故障诊断前:

·     请务必收集HDM SDS日志,具体方法请参见5.3  收集HDM SDS日志

·     请确保安装的是服务器兼容的部件,服务器兼容的部件请通过服务器兼容的部件查询工具查询。

 

图6-10 服务器故障指示流程图

 

说明

·     开机故障流程请参见6.4.5  开机故障流程图

·     维护工具的获取请参见4.2  准备软件工具

·     更换或重新插拔故障部件的操作方法及注意事项,请参见产品用户指南。

·     部件运行状态指示灯含义,请参见产品用户指南。

 

6.4.4  远程诊断流程图

远程诊断排除服务器故障流程图,详见6-11

图6-11 远程诊断流程图

 

6.4.5  开机故障流程图

开机故障流程图如6-12所示。

图6-12 开机故障流程图

 

6.4.6  POST故障流程图

POST故障范围:

·     服务器未完成POST

·     服务器完成了POST,但是出现错误。

说明

·     开始尝试访问启动设备时,表示POST阶段完成。

·     Hygon CPU的服务器没有Early POST阶段。

 

POST故障流程图如6-13所示。

图6-13 POST故障流程图

 

6.4.7  操作系统引导故障流程图

1. 症状

服务器无法引导已安装的操作系统。

2. 可能原因

·     BIOS启动模式Boot mode)变化

·     服务器启动顺序变化。

·     操作系统相关数据损坏。

·     操作系统所在存储介质状态异常。

3. 处理步骤

注意

对存储介质数据的擦除、写入操作,需要明确告知客户操作影响,提示客户做好数据备份。

 

图6-14 操作系统引导故障流程图

 

6.4.8  iFIST故障流程图

iFIST启动失败故障的诊断流程图,详见6-15

说明

查看BIOS版本号,请登录HDM界面或进入BIOS POST界面查看。BIOSiFIST的版本配套关系,请查看iFIST版本说明书里的“版本配套表”。

 

图6-15 iFIST启动失败故障流程图

 

6.4.9  存储控制卡故障流程图

图6-16 存储控制卡故障流程图

 

图6-17 存储控制卡自检异常处理流程

 

表6-6 LSI IT/IRMR存储控制卡型号分类

LSI存储控制卡分类

型号

IT

·     HBA-LSI-9300-8i-A1-X

·     HBA-LSI-9400-16i

·     HBA-LSI-9500-8i

·     HBA-LSI-9500-16i

IR

·     HBA-LSI-9311-8i

MR

·     RAID-LSI-9361-8i(1G)-A1-X

·     RAID-LSI-9361-8i(2G)-1-X

·     RAID-LSI-9460-8i(2G)

·     RAID-LSI-9460-8i(4G)

·     RAID-LSI-9460-16i(4G)

·     HBA-LSI-9540-8i

·     RAID-LSI-9560-8i(4G)

·     RAID-LSI-9560-16i(8G)

·     HBA-LSI-9440-8i

·     RAID-L460-M4

 

6.4.10  存储控制卡的超级电容故障流程图

说明

·     PMC存储控制卡,指厂商为PMC的存储控制卡。LSI存储控制卡,指厂商为LSI的存储控制卡。存储控制卡所属的厂商可通过服务器兼容的部件查询工具进行查询。

·     HBA存储控制卡无超级电容,无需关注。

 

图6-18 存储控制卡的超级电容故障流程图

 

6.4.11  物理硬盘故障流程图

症状

·     硬盘不可用,例如硬盘指示灯均灭。

·     HDM事件日志中有硬盘告警事件。

可能原因

·     硬盘固件版本过低。

·     硬盘背板或者存储控制卡的线缆连接松动。

·     硬盘未安装到位或故障。

处理步骤

说明

故障诊断前:

·     请确保安装的是服务器兼容的硬盘、硬盘背板、存储控制卡及配套线缆,服务器兼容的硬盘、硬盘背板及存储控制卡请通过服务器兼容的部件查询工具查询。

·     了解硬盘指示灯故障情况,如6-7所示。

 

表6-7 硬盘指示灯故障情况

故障情况

硬盘类型

硬盘Fault/UID指示灯(橙色/蓝色)

硬盘Present/Active指示灯(绿色)

故障情况1

SAS/SATA硬盘

橙色闪烁(0.5Hz

常亮/闪烁(4Hz

故障情况2

SAS/SATA/NVMe硬盘

橙色常亮

常亮/闪烁(4Hz

故障情况3

SAS/SATA/NVMe硬盘

灯灭

灯灭

 

图6-19 物理硬盘故障流程图

 

 

说明

·     硬盘的最新固件请从官网获取。

·     HDM SDS日志收集方法,请参见5.3  收集HDM SDS日志;操作系统日志的收集方法,请参见5.2  收集操作系统日志;硬盘日志的收集方法,请联系技术支持。

 

6.4.12  逻辑硬盘故障流程图

图6-20 逻辑硬盘故障流程图

6.4.13  网卡故障流程图

图6-21 网卡故障流程图(上)

 

图6-22 网卡故障流程图(下)

 

6.4.14  GPU故障诊断流程图

图6-23 GPU故障诊断流程图

 

6.4.15  串口&DSD模块故障诊断流程图

图6-24 串口&DSD模块故障诊断流程图

是


7 硬件类问题

7.1  常见硬件问题

7.1.1  新部件问题

说明

新部件指扩容或更换部件时,安装到服务器上的部件。

 

1. 现象描述

安装新部件后,服务器无法正常启动或者部件无法正常工作。

2. 问题原因

·     服务器不兼容该部件。

·     该部件未安装到位。

·     该部件的固件或驱动版本过低。

·     该部件故障。

3. 处理步骤

(1)     确保服务器兼容该部件,兼容性可通过服务器兼容的部件查询工具查询。

(2)     确保部件和相关线缆均正确安装到位,线缆稳固无松动。且部件安装过程中,没有遗漏相关组件(比如线缆)。

(3)     检查系统能否识别该部件,并确保部件的固件和驱动,均更新为H3C官网最新版本。

(4)     将新部件安装到其他正常的服务器上,通过交叉验证的方法,检查新部件是否故障。

(5)     若问题现象为服务器无法正常启动,请将服务器降级到最小化硬件配置,确保服务器可以正常启动,然后再安装新部件进行测试。如果故障复现,说明新部件故障,请更换;否则说明新部件正常。服务器最小化硬件配置请参见4.4  明确服务器最小化硬件配置

(6)     若问题仍然存在,请联系技术支持。

7.1.2  第三方部件问题

说明

第三方部件指如下两种情况:

  部件不是在H3C购买的。

  部件在H3C购买,但和出现问题的服务器不兼容。服务器和部件的兼容性请通过服务器兼容的部件查询工具进行查询。

 

1. 现象描述

·     服务器无法识别第三方部件。

·     第三方部件无法正常工作。

2. 问题原因

无法直接确认。

3. 处理步骤

H3C购买的第三方部件问题不属于H3C维保范畴,请联系第三方设备厂家。

7.1.3  部件/线缆连接松动

1. 现象描述

·     服务器在BIOS POST阶段报错,报错示例如7-1所示。

图7-1 BIOS POST阶段出现内存报错

 

·     操作系统在启动阶段报错,报错示例如7-2所示。

图7-2 操作系统在启动阶段报错

 

·     HDM Web界面未显示该部件的信息。

·     操作系统下输入硬件识别命令,无法查看到该部件的信息。

¡     7-3所示,Linux操作系统下已识别到NVMe硬盘信息。

¡     7-4所示,Linux操作系统下未识别到NVMe硬盘信息。

图7-3 Linux操作系统下已识别到NVMe硬盘信息

 

图7-4 Linux操作系统下未识别到NVMe硬盘信息

 

2. 问题原因

·     部件或线缆连接松动。

·     部件金手指被氧化污染。

3. 处理步骤

说明

本处理步骤仅针对2. 问题原因。若无法解决问题,请排查其他方向的问题,比如BIOS版本、部件的固件和驱动软件等。BIOS、部件的固件和驱动软件的最新版本请前往H3C官网进行获取。

 

(1)     根据报错提示的部件信息,确保部件及线缆的接口完好、没有损坏。

(2)     检查部件的金手指是否有氧化污染。若有,可尝试用酒精擦拭金手指。

(3)     重新插拔部件和相关线缆,确保安装到位,线缆稳固、无松动。

(4)     若问题仍然存在,请联系技术支持。

7.1.4  服务器自动关机

1. 现象描述

服务器正常运行过程中自动关机。

2. 问题原因

·     服务器外部供电异常。

·     服务器被执行了关机操作。

·     服务器中部件温度过高。

·     服务器外部环境温度过高。

·     服务器智能挂耳异常。

·     硬件故障

·     软件异常

3. 处理步骤

(1)     如下7-5所示,在HDM Web界面的事件日志中,查看是否有供电异常的日志。若日志提示“Power Supply input lost (AC/DC)”,且无其他异常日志,请先检查服务器的外部供电是否正常。

图7-5 HDM提示服务器输入电源异常

 

(2)     7-6所示,在HDM Web界面事件日志查看是否有Power Button pressed”相关日志信息,该日志信息代表关机操作。若有,请根据7-1的日志含义确认是否人为触发了关机操作。

图7-6 Power Button pressed事件日志

 

表7-1 Power Button pressed相关日志说明

日志

含义

Power Button pressed ---Physical button ---Button pressed

通过物理开关下电服务器

Power Button pressed ---Virtual button ---Power cycle command

下电并重新开机

Power Button pressed ---Virtual button ---Power off command

强制下电

Power Button pressed ---Virtual button---Soft off command

正常下电

Reset Button pressed ---Virtual button ---Reset command

重启服务器

 

(3)     查看HDM事件日志,查看日志中是否有记录部件温度过高的报警信息,部件温度过高可能会导致服务器自动关机。若是,处理方法请参见《H3C服务器 HDM告警日志信息参考手册》;若否,则执行步骤(4)

(4)     检查并确保机房温度满足服务器的工作环境温度。机房温度过高可能会导致服务器自动关机,服务器的工作环境温度请参见产品用户指南。

(5)     请检查服务器的智能挂耳是否损坏,如损坏,请更换。服务器的开机/待机按钮位于智能挂耳上,若智能挂耳损坏,服务器可能会自动关机。

(6)     收集操作系统日志,并进行分析。

¡     分析DmesgMessage等日志是否有硬件异常告警信息,根据信息排查相应的硬件。

¡     分析是否有操作系统层或者业务层相关告警信息,如果存在相关告警信息请联系相关厂家。

(7)     确认现网服务器自动关机是否属于批量行为。若是,请检查服务器主机OS的兼容性、存储控制卡、网卡、GPUFC HBA卡等的固件与驱动版本,是否和当前操作系统兼容。兼容性可通过服务器OS兼容性查询工具进行查询。若是,请确保该部件的固件与驱动版本已升级至H3C官网最新版本;若否,请执行步骤(8)

(8)     若问题仍然存在,请联系技术支持。

7.2  指示灯问题

7.2.1  指示灯不亮

1. 现象描述

服务器上前后面板如下指示灯同时不亮,且HDM无法连接。

·     Health指示灯

·     系统电源指示灯

·     UID指示灯

·     以太网接口指示灯

·     所有硬盘指示灯

·     电源模块状态指示灯

·     风扇状态指示灯

2. 问题原因

·     服务器外部供电异常。

·     电源线缆连接松动。

·     电源模块未正确安装到位。

·     服务器电源模块故障。

·     服务器主板故障

·     风扇模块安装不到位。

3. 处理步骤

(1)     检查外部供电,确保外部供电正常。

(2)     检查风扇模块是否安装到位。

(3)     检查所有的电源线缆,重新安装电源线缆,确保线缆稳固无松动。对于R5500 G5服务器,还需要检查主板和PCIe switch板之间的线缆是否安装到位,确保线缆稳固无松动。

(4)     重新正确安装电源模块。若问题仍然存在,请执行步骤(5)

(5)     使用正常工作的同型号电源模块,进行交叉验证。

¡     若问题解决,说明原电源模块故障,请更换。

¡     若问题仍然存在,则说明主板出现故障,请联系技术支持。

7.2.2  Health指示灯闪烁告警

1. 现象描述

电源模块状态指示灯绿色常亮,但服务器Health指示灯出现橙色闪烁或红色闪烁,同时HDM Web下的事件日志中显示服务器中的某一部件或多个部件存在告警,7-7以主板故障举例。

图7-7 HDM Web下事件日志告警

 

说明

Health指示灯各状态含义:

·     绿灯常亮:系统状态正常或有轻微告警。

·     绿灯闪烁(4Hz):HDM正在初始化。

·     橙灯闪烁(1Hz):系统出现严重错误告警。

·     红灯闪烁(1Hz):系统出现紧急错误告警。

 

2. 问题原因

服务器中的某一部件或多个部件出现异常。

3. 处理步骤

(1)     根据HDM事件日志的告警信息,定位故障部件和故障原因,处理方法请参见《H3C服务器 HDM告警日志信息参考手册》。

(2)     若问题仍然存在,请收集HDM SDS日志,并联系技术支持。

7.2.3  风扇故障导致Health指示灯闪烁

1. 现象描述

服务器上的Health指示灯橙色闪烁(1Hz),同时HDM事件日志显示风扇告警信息,如7-8所示。

图7-8 HDM事件日志显示风扇告警信息

 

 

2. 问题原因

·     主板上对应的风扇接口异常。

·     风扇接口异常

·     该风扇未安装到位。

·     风扇异常

3. 故障处理步骤

(1)     检查并确保风扇接口完好无损坏。

(2)     重新安装该风扇,确保其正确安装到位。

(3)     使用正常工作的同型号风扇模块,进行交叉验证。

¡     若问题解决,则是原来的风扇模块存在故障,需要更换。

¡     若问题仍然存在,则说明主板上对应的风扇接口异常,请联系技术支持。

7.2.4  风扇指示灯闪烁

1. 现象描述

部分型号服务器风扇模块自身带有指示灯,如R5500 G5服务器,当风扇模块指示灯出现橙色闪烁,表示风扇模块故障或其连接线路出现故障。

2. 问题原因

·     风扇接口异常

·     该风扇未安装到位。

·     风扇异常

3. 处理步骤

(1)     检查并确保风扇接口完好无损坏。

(2)     重新安装该风扇,确保其安装到位。

(3)     使用正常工作的同型号风扇模块,进行交叉验证。

¡     若问题解决,则是原来的风扇模块存在故障,需要更换。

¡     若问题仍然存在,则说明主板上对应的风扇接口异常,对于R5500 G5服务器,还需要检查主板和PCIe switch板之间的线缆是否安装到位,确保线缆稳固无松动。如问题仍存在,请联系技术支持。

7.3  电源问题

电源模块的状态指示灯含义如7-2所示。

表7-2 电源模块状态指示灯说明

指示灯

指示灯含义

电源模块状态指示灯

·     绿灯常亮:电源模块工作正常或服务器处于待机状态未上电

·     绿灯闪烁(0.33Hz):电源模块处于备用电源模式,无功率输出

·     绿灯闪烁(2Hz):电源模块处于固件更新状态

·     橙灯常亮:

¡     电源模块出现严重故障

¡     该电源模块无输入,另一个电源模块输入正常

·     橙灯闪烁(1Hz):电源模块出现告警

·     灯灭:电源模块无输入,存在以下一种或两种情况:

¡     电源线缆连接故障

¡     外部供电系统断电

 

7.3.1  电源模块状态指示灯灭

1. 现象描述

电源模块状态指示灯灭。

2. 问题原因

·     电源模块外部供电异常,如外部电路故障、电源线缆损坏或供电电压超出规格范围。

·     电源线缆未正确安装,如电源线缆未插到位。

·     电源模块故障。

3. 处理步骤

(1)     检查外部供电是否正常,确认并解决外部供电问题。

(2)     检查电源模块的电源线缆是否完好、连接有无松动,如果有异常请更换电源线缆并重新连接。

(3)     更换电源模块,观察问题是否复现。

(4)     若问题依然存在,请联系技术支持确认主板问题。

7.3.2  电源模块状态指示灯橙灯常亮或橙灯闪烁

1. 现象描述

电源模块状态指示灯橙灯常亮或闪烁。

2. 问题原因

·     电源模块外部供电异常,如外部电路故障、电源线缆损坏或供电电压超出规格范围。

·     电源线未正确安装,如电源线未插到位。

·     电源模块的温度过高。

·     电源模块当前输入功率超出电源模块最大功率。

·     电源模块故障。

·     主板故障。

3. 处理步骤

(1)     检查外部供电是否正常,确认并解决外部供电问题。

(2)     检查电源模块的电源线缆是否完好、连接有无松动,如果有异常请更换电源线缆并重新连接。

(3)     7-9所示,登录HDM Web界面,查看电源温度传感器温度,参考阈值确认当前读数是否超过轻微告警阈值。是,则参考如下步骤改善电源散热环境,查看电源模块是否恢复正常;否,执行步骤(4)

a.     HDM Web界面,修改风扇调速模式以提高服务器散热能力。

b.     检查电源模块中的风扇是否存在异响,排除故障或阻塞。若存在异响,建议更换故障电源模块或清理风扇阻塞物后,查看电源模块是否恢复正常。

图7-9 查看电源模块的传感器温度

 

(4)     查看HDM Web界面,查看电源模块“当前总功率”是否已超出“总功率告警阈值”,若已超出则需要降低服务器功耗或更换更大功率的电源模块。

图7-10 查看电源模块的当前总功率

 

(5)     若问题依然存在,请联系技术支持确认主板问题。

7.3.3  电源模块状态指示灯绿色闪烁,服务器无法启动

1. 现象描述

电源模块状态指示灯绿色闪烁(1Hz),服务器无法启动,且服务器Health指示灯状态正常,没有出现橙灯闪烁(表示系统出现严重错误告警)或红灯闪烁(表示系统出现紧急错误告警)。

2. 问题原因

·     电源模块故障。

·     主板故障。

3. 处理步骤

(1)     将服务器下电,再重新上电启动,查看服务器能否正常启动。

(2)     更换电源模块,重新启动服务器。

(3)     若问题仍然存在,请联系技术支持确认主板问题。

7.3.4  电源模块风扇转速过快,噪声过大

1. 现象描述

服务器正常上电一段时间后,电源模块风扇一直维持高速运转,转速没有下降。

2. 问题原因

·     电源模块故障。

·     服务器功耗过高。

·     主板故障。

3. 处理步骤

(1)     检查并确保服务器工作环境温度符合要求,详细要求请参见服务器用户指南。

(2)     将服务器下电,重新安装电源模块,上电后检查电源模块风扇是否正常降速。若问题仍然存在,执行步骤(3)

(3)     更换电源模块,重新启动服务器。

(4)     若问题仍然存在,请联系技术支持。

7.3.5  HDM事件日志提示电源输入异常

1. 现象描述

电源模块在位且电源模块状态指示灯灭。如7-11所示,HDM Web界面中,电源当前状态显示有“严重”告警,故障描述为无输入。

图7-11 电源状态显示异常

 

2. 问题原因

·     电源模块外部供电异常,如外部电路故障、电源线缆损坏或供电电压超出规格范围。

·     电源线未正确安装,如电源线未插到位。

·     电源模块故障。

·     电源模块槽位故障。

3. 处理步骤

(1)     检查状态异常的电源模块外部供电是否正常,确认并解决外部供电问题。

(2)     检查电源模块的电源线缆是否完好、连接有无松动,如果有异常请更换电源线缆并重新连接。

(3)     重新正确安装电源模块。

(4)     查看HDM Web界面,若存在如下任意一条异常信息,请更换报错信息对应的电源模块,确认电源模块是否故障

¡     7-12所示,HDM事件日志中存在如下报错:

-     Power supply input lost (AC/DC)

-     Power supply input out-of-range - but present

-     Power supply predictive Failure

图7-12 查看电源模块事件日志(示例)

 

(5)     若问题依然存在,请联系技术支持确认主板问题。

7.3.6  HDM事件日志提示电源模块输入正常,输出异常

1. 现象描述

·     7-13所示,HDM Web界面中,电源显示为标黄状态。

·     HDM Web界面中,电源传感器页面状态为严重,当前读数显示“电源存在 侦测到电源故障”。

图7-13 电源状态输出异常

 

2. 问题原因

·     电源模块的温度过高。

·     电源模块故障。

·     电源模块当前输入功率超出电源模块最大功率。

3. 处理步骤

(1)     7-14所示,登录HDM Web界面,查看电源温度传感器温度,参考阈值确认当前读数是否超过轻微告警阈值。是,则参考如下步骤改善电源散热环境,查看电源模块是否恢复正常;否,执行步骤(2)

a.     HDM Web界面,修改风扇调速模式以提高服务器散热能力。

b.     检查电源模块中的风扇是否存在异响,排除故障或阻塞。若存在异响,建议更换故障电源模块或清理风扇阻塞物后,查看电源模块是否恢复正常。

图7-14 查看电源模块的传感器温度

 

(2)     查看HDM Web界面,在[电源管理/电源配置]页面,查看电源模块“当前总功率”是否已超出“总功率告警阈值”,若已超出则需要降低服务器功耗或更换更大功率的电源模块。

图7-15 查看电源模块的当前总功率

 

(3)     更换电源模块,观察现象是否仍然存在。若问题仍然存在,请联系技术支持。

7.3.7  HDM事件日志提示电源模块冗余丢失

1. 现象描述

7-16所示,传感器信息页面,查看“PSU Redundancy”状态为严重,当前读数显示“Power Redundancy Lost”。

图7-16 查看电源模块的传感器信息

 

2. 问题原因

·     电源模块外部供电异常,如外部电路故障或电源线缆损坏。

·     电源模块未正确安装。

·     电源模块故障。

·     HDM固件版本过低或配置异常。

·     电源模块槽位故障。

3. 处理步骤

(1)     检查电源模块的状态指示灯,若状态指示灯为橙色常亮或闪烁,请检查外部供电是否正常并重新连接电源线缆,查看电源模块是否恢复正常。

(2)     检查电源模块是否正确安装,如有异常,请重新正确安装电源模块,查看电源模块是否恢复正常。

(3)     检查电源模块的满配情况。如果没有满配,请升级HDM固件到最新版本,查看电源模块是否恢复正常。

(4)     更换电源模块,查看电源模块是否恢复正常。

(5)     若问题仍然存在,请联系技术支持检查主板问题。

7.3.8  HDM事件日志提示电源模块Vendor mismatch

1. 现象描述

·     7-17所示,HDM Web界面上,两个电源模块的电源状态均显示“输入正常,输出正常”,但是电源型号不一致。

·     7-18所示,HDM Web界面上,传感器信息页面,电源状态为轻微,当前读数显示“Presence detected Configuration error”。此时两个电源模块正常工作,状态指示灯绿色常亮。

·     7-19所示,HDM Web界面上,事件日志显示如下信息:

¡     Configuration error---Vendor mismatch

¡     Configuration error---Power supply rating mismatch

图7-17 电源模块型号不一致

 

图7-18 电源模块的传感器信息

 

图7-19 电源模块的事件日志

 

2. 问题原因

电源模块型号不一致。

3. 处理步骤

(1)     检查服务器上在位电源的型号是否一致。若在位电源型号不一致,则更换其中一个电源,确保服务器在位电源型号统一,刷新HDM电源信息页面,确认问题是否解决。

(2)     若在位电源型号一致或更换电源模块为统一型号后,问题仍然存在,请联系技术支持。

7.4  POST阶段问题

7.4.1  上电后显示No Signal

1. 现象描述

VGA显示器黑屏,KVM显示No Signal,如7-20所示。

图7-20 KVM显示No Signal

 

2. 问题原因

服务器硬件故障或BIOS固件损坏。

3. 处理步骤

(1)     登录HDM Web页面,查看事件日志中是否有硬件故障提示,如果有硬件错误提示,请排查硬件故障原因,处理方法请参见《H3C服务器 HDM告警日志信息参考手册》;若没有硬件错误信息提示,请执行步骤(2)

(2)     将服务器所连接电源断开,进行AC下电操作。拿掉主板纽扣电池后静置3分钟来清除CMOS(注意,清除CMOSBIOS将恢复缺省设置),CMOS清除后将纽扣电池装回原位置,重新进行AC上电操作,查看故障是否解决;若未解决执行步骤(3)

(3)     升级BIOSHDM版本查看问题是否解决,若未解决执行步骤(4)

(4)     执行最小化硬件测试,服务器最小化配置请参见4.4  明确服务器最小化硬件配置章节,如果服务器可以正常上电启动,请依次增加外接部件测试,直到找到故障点。如果最小化硬件测试仍然有问题,请联系技术支持。

7.4.2  Early POST阶段挂死(不适用于Hygon CPU的服务器)

1. 现象描述

在如7-21所示的Early POST阶段系统挂死,挂死后无信息或进行反复重启,无法进入启动阶段或BIOS Setup

图7-21 Early POST阶段

 

2. 问题原因

在系统启动过程中出现挂死或反复重启问题,可能的原因可初步根据挂死的位置来判断。

·     对于BIOS运行到UPI Initializing阶段发生重启或者挂死的现象,可能是由于主板上某一个CPU在安装时接触不良,导致多处理器之间的链路信号不稳定导致的。

·     对于BIOS运行到Memory Initializing阶段发生重启或者挂死的现象,可能由于内存安装不稳等导致的。

·     对于BIOS运行到PCI Device Enumerating阶段发生重启或者挂死的现象,一般是特定的PCIe卡分配不到需要的内存资源或中断资源引起的。

3. 处理步骤

(1)     Early POST阶段挂死后,确认并记录系统挂死的进度信息。

(2)     登录HDM Web页面,查看事件日志中是否有相应的故障日志信息,如有事件日志或传感器异常信息,根据日志信息进行故障设备排除。

(3)     根据Early POST界面最后一条打印,判断系统挂死的阶段。

·     系统挂死在“SPS Firmware Initializing”阶段或之前,请根据如下操作处理。

a.     请移除电源,移除CMOS电池后上电确认是否能正常启动。

b.     以上操作仍然无法正常启动,强制覆盖配置升级BIOS版本后重试。

·     系统挂死在“UPI Initializing”阶段,请根据如下操作处理。

a.     尝试先移除CPU2CPU3CPU4(如有),确认系统是否能正常启动,如仅CPU1 在位时系统仍然无法启动,更换CPU1后确认是否可正常启动,排除CPU故障。

b.     移除CPU时注意检查CPU插槽上是否存在污渍、针脚损坏。

c.     排除CPU故障后考虑主板故障,请更换主板后确认故障是否解除。

·     若系统挂死在“Memory Initializing”阶段,一般会在HDM[健康诊断/事件日志]页面上标示出故障内存的位置和故障原因,请参考对应的处理建议排除内存问题。如果不能排除故障,请联系技术支持。

·     系统挂死在“PCIe Initializing”阶段,请逐步移除PCIe设备或NVMe盘,确认是否存在PCIe设备故障。

(4)     如问题仍然存在或其它阶段出现的反复重启、挂死现象,请联系技术支持。

7.4.3  POST阶段挂死

1. 现象描述

系统上电后在BIOS POST界面挂死,无法进入启动项或BIOS Setup

2. 问题原因

在系统启动过程中,BIOS可能在如下阶段发生挂死:

·     CPU、内存、PCIe卡、硬盘、USB等硬件初始化故障引起的挂死。

·     BIOS配置选项引起的挂死。

·     非稳态升级BIOS版本引起的挂死。

3. 处理步骤

(1)     登录HDM页面,确认传感器是否提示存在设备故障,如果有故障提示,请按相应的处理建议排除故障。

(2)     无传感器故障时,将服务器所连接电源断开,进行AC下电操作,取下主板纽扣电池后静置3分钟来清除CMOSCMOS清除完后将纽扣电池装回原位置,重新进行AC上电操作,查看故障是否解决,若未解决执行步骤(3)

(3)     升级BIOSBMC版本查看问题是否解决,若未解决执行步骤(4)

(4)     确认服务器上是否存在USB设备,移除USB设备后重启确认故障是否解除。

(5)     确认服务器上是否存在SATA/SAS硬盘,逐步移除硬盘设备后重启确认是否故障解除,通过排查确认故障硬盘后解除故障。

(6)     执行最小化测试,服务器最小化配置请参见4.4  明确服务器最小化硬件配置章节,如果服务器可以正常上电启动,请依次增加外接部件测试,找到故障点。

(7)     若问题仍然存在,请联系技术支持。

7.4.4  POST阶段出现红屏异常信息打印

1. 现象描述

POST阶段出现红屏异常信息打印,如7-22所示。

图7-22 红屏异常信息

 

2. 问题原因

可能的问题原因包括:

·     软件故障,如PCIe Option ROM执行阶段出现调用异常

·     硬件设备接触故障,如NVMe硬盘接触故障导致POST阶段NVMe UEFI驱动执行调用异常导致POST阶段红屏打印。

3. 处理步骤

(1)     如启动POST页面出现红屏挂死,确认系统中是否存在NVMe或其他PCIe设备未安装牢固。

(2)     确认设备上是否存在存储控制卡,移除存储控制卡后重启确认故障是否排除。

(3)     若问题仍然存在,请联系技术支持。

7.4.5  存储控制卡自检时卡住

1. 现象描述

存储控制卡自检时卡住,登录HDM,进入开机自检码页面,如7-23所示,查看是否停在92

图7-23 开机自检码

 

2. 问题原因

出现存储控制卡自检时卡住,通常是由于在存储控制卡的Option ROM执行中出现了挂死。

3. 处理步骤

(1)     如出现问题前升级过存储控制卡固件,则检查存储控制卡与BIOS版本是否配套,如无法确认请联系技术支持。若有硬盘扩展板则重点关注硬盘扩展板与存储控制卡固件是否配套。排查后问题未解决,则执行步骤(2)

(2)     登录HDM Web页面,查看事件日志中是否有超级电容或硬盘故障等相关告警,如存在告警则更换相关部件。问题未解决,则执行步骤(3)

(3)     HDM中查看存储信息,确认物理盘信息是否准确。若存在物理盘信息对应不上的情况或者存在部分物理盘信息没有显示,则排查线缆、背板及相关硬盘是否存在故障。

(4)     确认逻辑盘状态是否正常。若不正常,则先查看是否有RAID成员盘异常,有则更换异常硬盘。若无RAID成员盘异常,则查看是否逻辑盘处于Offline状态,恢复为Online后再重新启动确认故障是否解决。

(5)     更换存储控制卡,查看问题是否解决。

(6)     若问题仍然存在,请联系技术支持。

7.5  PXE启动问题

7.5.1  PXE启动失败

1. 现象描述

7-24所示,PXE启动失败,提示无DHCP服务或服务异常。

图7-24 DHCP服务

 

2. 问题原因

网卡故障或业务PXE环境异常。

3. 处理步骤

(1)     进入BIOS SetupDriver Health页面检查并确保网卡驱动健康状态

(2)     检查PXE环境的DHCP服务器设置,例如DHCP服务是否启用、IP地址是否与PXE启动的服务器处于同一网段。如设置不正确,请重新设置DHCP服务器,并再次尝试PXE启动。如DHCP服务器正常,执行步骤(3)

(3)     通过交换机查看局域网内是否存在异常报文,如过多的ARP报文信息。如存在异常报文,请排查网络相关服务。如否,执行步骤(4)

(4)     若问题仍然存在,请联系技术支持。

7.5.2  PXE启动黑屏或打印错误信息,无法进入PXE环境

1. 现象描述

7-25所示,PXE启动黑屏或打印错误信息,无法进入PXE环境。

图7-25 PXE启用异常

 

2. 问题原因

·     网卡不支持PXE Boot功能。

·     BIOS SetupPXE功能或网口的PXE功能被禁用。

·     网卡Boot Protocol未设置为PXE方式,导致服务器无法从PXE启动。

·     Legacy模式下还可能由于不支持4GB以上地址空间映射导致部分网卡不可用,所以Legacy模式下,需要将Above 4GB Decoding设置为Disabled

·     网络环境中的PXE设备异常,或者连接PXE设备的链路异常,导致无法进入PXE

3. 处理步骤

(1)     查看官网上的网卡datasheet,确认该网卡是否支持PXE Boot。如果否,请更换一个支持PXE Boot的网卡。

(2)     进入BIOS Setup检查PXE相关功能是否已启用。

a.     进入Advanced页签下,如7-26所示,查看Network Configuration菜单页面,确认PXE功能是否开启。

图7-26 Advanced

 

b.     Network Configuration界面中确认IPv4 PXE SupportIPv6 PXE Support(如需使用IPv6)是否启用,如7-27所示。

图7-27 Network Stack Configuration界面

 

c.     PCIE NIC Configuration界面中确认网口的PXE功能是否开启,如7-28所示。如否,请将选项设置为Enabled

图7-28 Network PXE Control界面

 

(3)     如对BIOS设置有修改,请按F4保存修改并重启服务器使设置生效,确认故障是否解除。

(4)     服务器启动过程中,网卡自检时,按Ctrl+s进入网卡参数配置页面,确认Boot Protocol是否为PXE

a.     进入网卡的Option ROM配置页面,如7-29所示。

图7-29 网卡Option ROM配置页面

 

b.     根据MAC地址选择网口,如7-30所示。

图7-30 网卡端口选择

 

c.     选择MBA Configuration,如7-31所示

图7-31 MBA configuration

 

d.     配置该网口的Boot ProtocolPXE,如7-32所示。

图7-32 配置BootProtocol

 

(5)     Legacy模式下,在BIOS Setup下的Advanced页签,进入PCI Subsystem Settings菜单页面,如7-33所示。

图7-33 Advanced页面

 

(6)     Above 4GB Decoding选项设置为Disabled,如7-34所示。

图7-34 PCI Subsystem Settings页面

 

(7)     若问题仍然存在,请联系技术支持。

7.5.3  进入PXE环境后无法安装系统或安装过程中报错

1. 现象描述

进入PXE环境后无法安装系统,或安装过程中报错。

图7-35 PXE安装报错

 

2. 处理步骤

(1)     检查并确保网络环境正常。网络中断会导致系统镜像文件加载失败。

(2)     通过在本地挂载PXE服务器中的源镜像确认源镜像是否有损坏,源镜像损坏会导致安装系统失败。

(3)     如果安装过程中断在操作系统分区阶段,说明硬盘有残留的RAID信息。通过存储控制卡先对硬盘进行初始化,然后再执行去初始化,具体操作方式及步骤请参见《H3C服务器 存储控制卡用户指南》

(4)     若问题仍然存在,请联系技术支持。

7.6  硬盘问题

硬盘Fault/UID指示灯含义如7-37-47-5所示。

表7-3 SAS/SATA硬盘指示灯说明

硬盘Fault/UID指示灯(橙色/蓝色)

硬盘Present/Active指示灯(绿色)

说明

橙色闪烁(0.5Hz

常亮/闪烁(4Hz

硬盘预告性故障报警,请及时更换硬盘

橙色常亮

常亮/闪烁(4Hz

硬盘出现故障,请立即更换硬盘

蓝色常亮

常亮/闪烁(4Hz

硬盘状态正常,且被阵列管理工具选中

灯灭

闪烁(4Hz

硬盘在位,有数据读写操作或正在进行阵列迁移/重建

灯灭

常亮

硬盘在位,但没有数据读写操作

灯灭

灯灭

硬盘未安装到位

 

表7-4 NVMe硬盘指示灯说明

硬盘Fault/UID指示灯(橙色/蓝色)

硬盘Present/Active指示灯(绿色)

说明

橙色闪烁(0.5Hz

灯灭

硬盘已完成预知性热拔出流程,允许拔出硬盘

橙色闪烁(4Hz

灯灭

硬盘处于热插入过程

橙色常亮

常亮/闪烁(4Hz

硬盘出现故障,请立即更换硬盘

蓝色常亮

常亮/闪烁(4Hz

硬盘状态正常,且被阵列管理工具选中

灯灭

闪烁(4Hz

硬盘在位,有数据读写操作或正在进行阵列迁移/重建

灯灭

常亮

硬盘在位,但没有数据读写操作

灯灭

灯灭

硬盘未安装到位

仅在BIOSenable VMD且有NVMe VROC Key的情况下,支持对NVMe硬盘进行点灯操作

 

表7-5 E1.S硬盘指示灯说明

硬盘Fault/UID指示灯(橙色)

硬盘Present/Active指示灯(绿色)

说明

橙色闪烁(0.5Hz)

灯灭

硬盘已完成预知性热拔出流程,允许拔出

橙色闪烁(4Hz)

常亮/闪烁(4 Hz)

硬盘处于热插入过程或被阵列管理工具选中

橙色闪烁(0.5Hz)

常亮/闪烁(4 Hz)

硬盘预告性故障报警,请及时更换硬盘

橙色灯常亮

常亮/闪烁(4Hz

硬盘出现故障,请立即更换硬盘

灯灭

闪烁(4Hz

硬盘在位,有数据读写操作或正在进行阵列迁移/重建

灯灭

常亮

硬盘在位,但无数据读写操作

灯灭

灯灭

硬盘未安装到位

 

7.6.1  HDM提示硬盘Drive FaultOffline告警

1. 现象描述

·     7-36所示,HDM Web界面,事件日志提示硬盘Drive FaultOffline告警。

·     7-37所示,HDM Web界面,进入RAID视图页面,查看存储控制卡信息,发现故障硬盘状态异常。

图7-36 查看事件日志

 

 

图7-37 查看存储控制卡信息

 

2. 问题原因

·     HDMBIOS版本过低。

·     硬盘离线

·     硬盘本体故障

·     硬盘线缆、存储控制卡、硬盘背板以及硬盘扩展板未正确安装或者故障。

3. 处理步骤

(1)     确认OS或者BIOS下硬盘是否可以识别,如果两者任意一个可以识别,请升级HDMBIOSH3C官网最新版本,检查硬盘状态是否正常。若可以识别,则执行步骤(4);若不能识别,则执行步骤(2)

(2)     升级硬盘固件到官网最新版本,并根据硬盘类型排查硬盘问题。

¡     如果故障硬盘为直通盘,尝试重新插拔硬盘,查看异常状态能否解除。若重新插拔后故障仍然存在,则更换故障硬盘。

¡     如果故障硬盘在RAID组中,请根据逻辑盘的异常状态,进行如下操作来尝试恢复。

-     逻辑盘故障(Fail):此时逻辑盘中数据已无法读取,需要删除逻辑盘并重新创建逻辑盘。

-     逻辑盘降级(Degraded):PMC存储控制卡可以重新插拔硬盘尝试恢复;LSI存储控制卡可以HDM存储页面上切换物理硬盘状态Unconfigured BADUnconfigured Good尝试恢复。如果HDM上切换失败,可以在BIOS中尝试恢复。如果没有恢复,建议备份数据后,更换故障硬盘并重建逻辑盘。

-     逻辑盘离线(Offline):通过HDM强制逻辑盘Online恢复。

(3)     请通过交叉验证方法,依次排查硬盘线缆,硬盘背板、硬盘扩展板的链路问题。

(4)     若问题仍然存在,请联系技术支持。

7.6.2  HDM存储管理界面中全部硬盘无法识别

1. 现象描述

7-38所示,HDM Web界面中,存储控制卡信息中所有硬盘都无法识别。

图7-38 存储控制卡下硬盘无法识别

 

 

2. 问题原因

·     HDMBIOS软件版本过低。

·     硬盘固件版本过低。

·     硬盘扩展板固件版本过低。

·     存储控制卡、硬盘、硬盘背板、硬盘扩展板及其配套线缆未正确安装或者故障。

3. 处理步骤

(1)     确认OS或者BIOS下硬盘是否可以识别。如果两者任意一个可以识别,请升级HDMBIOS至当前H3C官网发布的最新版本;若无法识别,执行步骤(2)

(2)     升级硬盘固件到官网最新版本。如果存储控制卡连接了硬盘扩展板,请同步升级硬盘扩展板固件至H3C官网最新版本。

(3)     请通过交叉验证方法,依次排查存储控制卡、硬盘、硬盘背板、硬盘扩展板及其配套线缆的链路问题。若故障跟随某一部件出现,则更换该部件。

(4)     若问题仍然存在,请联系技术支持。

7.6.3  操作系统日志上报硬盘故障

1. 现象描述

操作系统日志上报硬盘本体故障,如“I/O error”、“Hardware Error”和“Medium Error”,如下示例。

[3296734.898693] sd 0:0:67:0: [sde] tag#46 FAILED Result: hostbyte=DID_ABORT driverbyte=DRIVER_OK

[3296734.898695] sd 0:0:67:0: [sde] tag#0 FAILED Result: hostbyte=DID_ABORT driverbyte=DRIVER_OK

[3296734.898701] sd 0:0:67:0: [sde] tag#0 CDB: Write(16) 8a 00 00 00 00 01 5d 46 ce d8 00 00 00 28 00 00

[3296734.898708] sd 0:0:67:0: [sde] tag#46 CDB: Write(16) 8a 00 00 00 00 00 00 00 08 00 00 00 00 08 00 00

[3296734.898711] blk_update_request: I/O error, dev sde, sector 5859888856

 

Mar  8 15:49:31 A07-R18-I9-5-5002500 kernel: sd 0:0:0:0: [sda] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE

Mar  8 15:49:31 A07-R18-I9-5-5002500 kernel: sd 0:0:0:0: [sda] Sense Key : Hardware Error [current]

Mar  8 15:49:31 A07-R18-I9-5-5002500 kernel: sd 0:0:0:0: [sda] Add. Sense: Internal target failure

Mar  8 15:49:31 A07-R18-I9-5-5002500 kernel: sd 0:0:0:0: [sda] CDB: Write(10) 2a 00 02 16 68 e0 00 00 10 00

Mar  8 15:49:31 A07-R18-I9-5-5002500 kernel: blk_update_request: critical target error, dev sda, sector 35023072

 

[206109.776549] blk_update_request: critical medium error, dev sdl, sector 10234104120

[206112.336004] sd 0:0:74:0: [sdl] tag#2 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE

[206112.336009] sd 0:0:74:0: [sdl] tag#2 Sense Key : Medium Error [current] [descriptor]

[206112.336011] sd 0:0:74:0: [sdl] tag#2 Add. Sense: Unrecovered read error

[206112.336013] sd 0:0:74:0: [sdl] tag#2 CDB: Read(16) 88 00 00 00 00 02 62 00 0d 00 00 00 00 08 00 00

2. 问题原因

·     硬盘坏道

·     存储控制卡与硬盘之间的链路异常,导致硬盘无法读写。

3. 处理步骤

(1)     收集硬盘的Smart信息,通过对比Smart信息中Serial numberHDM存储界面硬盘序列号确认硬盘槽位。

图7-39 收集硬盘的Smart信息

 

图7-40 HDM查看硬盘序列号

 

(2)     收集存储控制卡阵列日志、HDM SDS日志,结合之前收集的硬盘smart信息,联系技术支持进一步确认是否需要更换硬盘。

7.6.4  操作系统无法识别硬盘

1. 现象描述

操作系统无法识别硬盘。

2. 问题原因

·     硬盘背板供电异常。

·     硬盘安装不到位。

·     硬盘故障

·     硬盘在存储控制卡下未创建RAID或配置为直通盘。

·     存储控制卡驱动未安装或版本过低。

·     NVMe硬盘驱动未安装。

3. 处理步骤

(1)     确保硬盘安装到位。

(2)     查询硬盘Present/Active指示灯,指示灯常亮/闪烁,说明硬盘背板供电正常;否则,请通过交叉验证的方法,查看硬盘背板、硬盘电源线缆是否存在异常。

(3)     通过HDM或者BIOS下的存储控制卡管理界面,确认当前硬盘是否可以被存储控制卡识别。如果不能识别,执行步骤(4)。如果可以识别,执行步骤(5)

(4)     确认硬盘是否已创建RAID或配置为直通盘,创建RAID或配置为直通盘后,操作系统才能识别该硬盘。

(5)     确认存储控制卡的驱动版本,建议更新到H3C官网最新驱动版本。

(6)     若问题仍然存在,请联系技术支持。

7.6.5  部分linux系统下发预知性移除NVMe命令时,硬盘Fault/UID指示灯橙灯不亮

1. 现象描述

Enable VMD 时,RHEL7.6/RHEL8.0/SUSE15/ SUSE15SP1/ SUSE12SP4等系统下使用Echo 1命令预知性移除NVMe时, Fault/UID橙灯不亮。

2. 问题原因

使能VMD的时候,由ledmon控制点灯,但SUSE15等系统下缺少ledmon.service文件,导致无法对硬盘进行动态监控。

3. 处理步骤

(1)     /usr/lib/systemd/system路径下创建ledmon.service文件,对应内容如7-41

图7-41 Ledmon.service文件内容

 

(2)     手动启动ledmon.service服务,如7-42

图7-42 创建并启动ledmon.service服务

 

7.6.6  部分linux系统下发点灯命令时,硬盘Fault/UID指示灯蓝灯亮,热拔插硬盘后蓝灯不灭

1. 现象描述

Enable VMD 时,RHEL7.6/RHEL8.0/SUSE15/ SUSE15SP1/ SUSE12SP4等系统下发locate点灯命令时,出现硬盘Fault/UID指示灯蓝灯亮,热拔插硬盘后蓝灯不灭。

2. 问题原因

请参见7.6.5 

3. 处理步骤

请参见7.6.5 

7.6.7  RHEL8.2系统下发点灯命令时,硬盘Fault/UID指示灯不亮

1. 现象描述

Enable VMD 时, RHEL8.2系统下发点灯命令,Fault/UID指示灯蓝灯不亮。

2. 问题原因

RHEL8.2开机默认未开启ledmon.service动态监控服务

3. 处理步骤

手动开启ledmon.service服务,无需重启系统。以下提供两种开启ledmon.service服务的方法,请按需选择:

·     一次性开启服务,系统重启后失效:

systemctl start ledmon.service

·     设置开机自启服务,系统重启后仍有效:

Systemctl enable ledmon.service

Systemctl restart edmon.service

7.6.8  Ubuntu系统对下发点灯/预知性命令操作时,硬盘Fault/UID指示灯不亮

1. 现象描述

Enabled VMD时,Ubuntu系统对NVMe硬盘进行点灯和下发预知性命令操作时,硬盘Fault/UID指示灯不亮。

2. 问题原因

Ubuntu系统下无ledmon驱动包,导致缺少ledmon.service文件,从而无法对硬盘进行动态监控。。

3. 处理步骤

(1)     下载并安装ledmon驱动包。参考下载链接:

https://developer.aliyun.com/mirror/ubuntu?spm=a2c6h.13651102.0.0.3e221b11BLRJr7阿里源

(2)     安装后设置网络代理。步骤如下:

¡     编辑/etc/profile文件:

vim /etc/profile

¡     在结尾加上相关字段:

http_proxy=http://os:sitos@172.16.1.11:808

export http_proxy

¡     刷新/etc/profile文件,测试网络:

source /etc/profile && curl www.baidu.com

(3)     使用编辑器打开/etc/apt/sources.list文件并替换相关字段

¡     将默认的“http://archive.ubuntu.com/字段替换为“mirrors.aliyun.com

(4)     安装deb

sudo apt-get install XXX=版本号

(5)     查询已安装的版本:

dpkg -l ‘XXX’

7.6.9  硬盘Fault/UID指示灯橙灯常亮或者闪烁

1. 现象描述

服务器上硬盘橙灯常亮或者闪烁。

2. 问题原因

硬盘Fault/UID指示灯含义如7-37-4所示。

3. 处理步骤

(1)     通过硬盘Fault/UID指示灯位置,确认故障硬盘所在槽位号。

(2)     确认硬盘类型,并按照如下处理步骤进行排查,若仍然存在异常,执行步骤(3)

¡     若为SAS/SATA硬盘,请尝试重新插拔硬盘,确认是否可以恢复正常。

¡     若为NVMe硬盘,请根据硬盘Fault/UID指示灯判断处理方式。

-     硬盘Fault/UID指示灯橙色闪烁(0.5HZ)时,硬盘已完成预知性热拔出流程,允许拔出硬盘。

-     硬盘Fault/UID指示灯橙色闪烁(4HZ)时,无需处理。

-     硬盘Fault/UID指示灯橙色常亮,请尝试重新插拔硬盘,确认是否可以恢复正常。

(3)     做好业务数据备份工作后更换对应槽位硬盘。

(4)     若问题仍然存在,请联系技术支持。

7.6.10  SSD硬盘达到使用寿命问题

1. 现象描述

HDM Web界面上,SSD硬盘告警,SSD剩余寿命低于10%。如7-43所示,查看SSD剩余寿命。

图7-43 查看SSD剩余寿命

 

2. 问题原因

SSD硬盘长时间使用已达到使用寿命,即将不可使用,需要更换。

3. 处理步骤

(1)     备份业务数据,并更换SSD硬盘。

(2)     若问题仍然存在,请联系技术支持。

7.6.11  PCH下无法识别SSD

1. 现象描述

PCH提供的板载软RAID,无法识别SSD硬盘(包括SSD硬盘和M.2 SSD卡)。

2. 问题原因

·     SSD硬盘故障

·     SSD硬盘线缆破损或者未正常连接。

·     硬盘背板或者硬盘槽位故障。

·     SATA M.2 SSD转接卡和主板链路异常。

3. 处理步骤

(1)     检查SSD硬盘线缆是否安装到位,重新插拔线缆。

(2)     检查SSD硬盘线缆是否破损或异常,更换故障线缆。

(3)     将硬盘插入不同硬盘槽位验证是否硬盘背板故障。

(4)     检查SATA M.2 SSD转接卡和主板是否正常连接,确保链路正常。

(5)     更换SSD硬盘。

(6)     若问题仍然存在,请联系技术支持。

7.6.12  HDM界面NVMe硬盘状态异常

1. 现象描述

HDM Web界面上,[系统信息/硬件信息]菜单项中,显示NVMe硬盘状态异常,如备用空间低于阈值、子系统降级、缓存模块故障等。

2. 问题原因

·     硬盘外部散热异常,导致硬盘温度告警。

·     硬盘故障。

·     硬盘已达到使用寿命

3. 处理步骤

(1)     单击[系统管理/存储管理]菜单项,进入存储管理页面。单击物理视图页签,界面上将显示对应的NVMe硬盘信息。

图7-44 查看NVMe硬盘状态

 

¡     当出现状态显示异常、备用空间低于阈值、子系统降级、缓存模块故障情况时,通过物理槽位定位到故障硬盘位置,备份业务数据后更换故障的NVMe硬盘。

¡     当出现状态显示温度异常时,请检查对应服务器散热是否良好。如果服务器没有温度告警并且风扇运转正常,请检查环境温度;若服务器存在温度告警,请参考7.9  风扇和散热问题章节处理。

¡     当已使用寿命达到或超过100%,请停止使用该硬盘,并立即备份业务数据,更换该硬盘。

(2)     若问题仍然存在,请联系技术支持。

7.6.13  安装全新NVMe硬盘无法识别

1. 现象描述

服务器正常运行过程中,新安装NVMe硬盘,但操作系统无法识别该硬盘。

2. 问题原因

·     NVMe硬盘安装不到位或安装在不支持NVMe硬盘的插槽上。

·     NVMe硬盘的电源线缆、数据线缆破损或未正常连接。

·     NVMe SSD扩展卡没有安装在配套的Riser卡上

·     NVMe硬盘的数据线缆和NVMe SSD扩展卡未按照端口编码正确连接,错误连接会导致链路不通。

·     如果是G3机型,BIOS Setup页面PCI-E Port状态未设置成EnableAuto模式。

·     硬盘背板故障

·     硬盘背板CPLD固件版本过低。

3. 处理步骤

(1)     确认NVMe硬盘所在槽位,支持安装NVMe硬盘。该信息可通过产品用户指南查询。

(2)     确认NVMe硬盘的电源线缆、数据线缆完好无损、并正确连接。尤其是连接NVMe数据线缆时,线缆上的标签需要与硬盘背板、NVMe SSD扩展卡上的接口丝印一一对应,否则会导致链路不通。详细信息请参见产品用户指南。

(3)     确保NVMe SSD扩展卡安装在Riserx16插槽上。

(4)     BIOS Setup页面,选择Socket Configuration > IIO Configuration > Processor $1 Configuration > Processor $1 $2,确保PCI-E Port状态为EnabledAuto模式

图7-45 PCI-E Port设置

 

(5)     升级硬盘背板CPLD固件至H3C官网最新版本。

(6)     交叉验证,确认硬盘背板是否故障。如故障请更换。

(7)     若问题仍然存在,请联系技术支持。

注意

NVMe硬盘插拔时需要注意:

·     NVMe硬盘支持热插。插入硬盘时要匀速插入,过程中不能出现停顿,否则容易导致操作系统卡死或重启。

·     NVMe硬盘是否支持热拔和预知性热拔,与操作系统有关。两者的兼容性请通过OS兼容性查询工具查询。

·     不支持多个NVMe硬盘同时热插拔,建议间隔30秒以上,待操作系统识别到第一个硬盘信息后,再开始操作下一个硬盘。同时插入多个NVMe硬盘,容易导致操作系统无法识别硬盘。

 

7.6.14  NVMe硬盘故障

1. 现象描述

使用中的NVMe硬盘出现无法正常写入或读取数据的情况。

2. 问题原因

·     NVMe硬盘故障。

·     NVMe SSD扩展卡故障。

·     NVMe硬盘背板故障

·     NVMe硬盘相关线缆破损或未正常连接。

3. 处理步骤

(1)     检查NVMe硬盘的指示灯状态,排查硬盘是否故障。

¡     如果硬盘Fault/UID指示灯橙色常亮,说明硬盘故障,请更换硬盘。

¡     如果硬盘Fault/UID指示灯和硬盘Present/Active指示灯均不亮,说明硬盘未安装到位,请重新安装硬盘。

(2)     确认BIOS下,NVMe盘能否正常识别。能识别,请执行步骤(4);不能识别,请执行步骤(3)

图7-46 BIOSNVMe硬盘识别情况

 

(3)     确认NVMe硬盘的电源线缆、数据线缆完好无损、并正确连接。

(4)     确认NVMe SSD扩展卡是否存在故障。如7-47所示,以一种NVMe SSD扩展卡举例,如果扩展卡上的三个灯其中一个不亮,则表明该扩展卡故障。

图7-47 NVMe SSD扩展卡指示灯(示例)

 

(5)     交叉验证,依次排查硬盘背板、NVMe SSD扩展卡是否存在故障,并更换对应故障部件。

(6)     若问题仍然存在,请联系技术支持。

7.6.15  硬盘中的数据无法访问

1. 现象描述

7-48所示,操作系统中硬盘数据无法访问。

图7-48 硬盘数据无法访问

 

2. 问题原因

·     突然断电或异常关机导致文件系统错误。

·     硬盘故障。

3. 处理步骤

(1)     备份硬盘上的业务数据,确认文件系统是否正常并尝试修复文件系统。

(2)     收集操作系统日志及存储控制卡日志,通过日志确认硬盘是否故障,如果故障请更换硬盘。

(3)     若问题仍然存在,请联系技术支持。

7.7  存储控制卡问题

7.7.1  更换存储控制卡注意事项

更换存储控制卡时,新安装的存储控制卡和原存储控制卡的如下信息请务必保持一致,否则可能导致不可预估的故障发生。

·     存储控制卡型号。

·     BIOS启动模式。

·     存储控制卡的固件版本。

·     存储控制卡的驱动版本。

·     存储控制卡的工作模式。

·     Legacy BIOS模式下的第一启动项

7.7.2  逻辑盘写缓存策略由Write Back变为Write Through

1. 现象描述

连接了超级电容的存储控制卡组建成的逻辑盘,逻辑盘写缓存策略设定为Write Back(回写模式),但在使用过程中,逻辑盘写缓存策略却自动切换为Write Through(直写模式)。

2. 问题原因

·     超级电容与存储控制卡连接异常。

·     超级电容未完成充电。

·     超级电容故障。

出现上述任意情况时,超级电容的掉电保护功能失效,存储控制卡为保护缓存数据不丢失,将逻辑盘的写缓存策略由Write Back(回写模式)切换为Write Through(直写模式)。

3. 处理步骤

(1)     查看超级电容的状态。登录HDM Web界面,进入存储管理界面,选择目标存储控制卡,查看超级电容的状态,如7-49所示。

图7-49 存储控制卡配置信息

 

(2)     根据7-49中超级电容的状态,继续定位和处理,确保超级电容工作状态正常。

¡     超级电容状态:“不在位”,表示系统未识别到超级电容。

-     如果超级电容实际在位,请重新插拔超级电容及其线缆,确保线缆稳固无松动。如果继续显示不在位,说明该超级电容可能出现故障,请更换。

-     如果超级电容实际不在位,请将超级电容安装到位。

¡     超级电容状态:“充电中”表示超级电容正在充电过程中,用户无需任何操作,耐心等待,直至其状态显示为“充电完毕”。

¡     超级电容状态:“致命”、“过温”、“校准失败”或“异常”,表示超级电容故障,请更换。

(3)     超级电容工作状态显示为“充电完毕”后,逻辑盘的写缓存策略会自动由Write Through(直写模式)切换为Write Back(回写模式)。

(4)     若问题仍然存在,请联系技术支持。

7.7.3  PMC存储控制卡组建的逻辑盘状态为Not be Available

1. 现象描述

PMC存储控制卡组建的某个逻辑盘出现“Offline”、“Degraded”等严重故障,并且该存储控制卡下的其他逻辑盘状态变为Not be Available,用户无法操作任意逻辑盘,在操作系统下也无法为逻辑盘正确分配盘符

2. 问题原因

PMC存储控制卡下某个逻辑盘出现“Offline”、“Degraded”等严重故障,会导致存储控制卡工作状态异常,同时其他处于正常状态的逻辑盘状态均显示为Not be Available

3. 处理步骤

(1)     登录HDM Web界面,进入如7-50所示界面。

图7-50 物理盘管理

 

(2)     找到当前处于故障状态的硬盘,然后删除该硬盘组建成的逻辑盘,即可恢复其他Not be Available状态的逻辑盘

(3)     若问题仍然存在,请联系技术支持。

7.7.4  Arcconf工具无法识别P460/H460系列存储控制卡

1. 现象描述

服务器上安装了P460/H460系列存储控制卡。如7-51所示,通过Arcconf工具,执行./arcconf list命令查看存储控制卡状态时,返回Controllers found: 0,提示未识别到存储控制卡,但是实际上,存储控制卡并无任何异常。

图7-51 未识别到存储控制卡

 

2. 问题原因

·     Arcconf工具版本过低,无法兼容新版本的存储控制卡固件。

·     存储控制卡驱动版本过低,无法兼容新版本的存储控制卡固件。

3. 处理步骤

(1)     通过H3C官网获取存储控制卡最新的固件包中的Arcconf命令行工具。

(2)     将存储控制卡的驱动和固件版本,升级至H3C官网最新版本。

7.7.5  P460/H460系列存储控制卡的产品型号显示与实际不符

1. 现象描述

BIOS或操作系统上查询的存储控制卡产品型号,发现P460/H460系列存储控制卡的显示型号与实际型号不一致,如如7-52所示在操作系统下显示为SmartROC 3154-8i

图7-52 显示产品型号与实际不符

 

2. 问题原因

存储控制卡的Seeprom版本过低。早期Seeprom版本中采用第三方存储控制卡的默认产品型号,后期Seeprom版本经过修改,显示为P460H460这种正常的型号

3. 处理步骤

联系技术支持更新存储控制卡的Seeprom版本。

7.7.6  P430系列存储控制卡下逻辑盘中的成员盘出现蓝橙灯交替闪烁

1. 现象描述

P430系列存储控制卡直连硬盘背板(不经过硬盘扩展板),当逻辑盘出现异常、重建或者初始化时,对应所有成员盘的硬盘Fault/UID指示灯出现蓝橙色交替闪烁

2. 问题原因

·     逻辑盘的部分成员盘出现异常。

·     逻辑盘正在重建过程中。

·     逻辑盘正在初始化过程中。

3. 处理步骤

·     逻辑盘的部分成员盘出现异常

a.     HDM管理页面中,进入存储管理界面,选择RAID视图页签,进入RAID视图页面。

b.     选择目标存储控制卡下的目标逻辑盘,查看逻辑盘的状态,如果逻辑盘状态显示为“Degraded”,表明部分成员盘出现异常,针对该种情况导致的蓝橙灯闪烁,蓝橙灯闪烁的是正常硬盘,没有蓝橙灯闪烁的是故障硬盘,请更换所有故障硬盘。

·     逻辑盘正在重建过程中

a.     HDM管理页面中,进入存储管理界面,选择RAID视图页签,进入RAID视图页面。

b.     选择目标存储控制卡下的目标逻辑盘,查看逻辑盘的状态,如果逻辑盘状态显示为“Rebuilding”,表明逻辑盘正在重建过程中,针对该种情况导致的蓝橙灯闪烁,无需任何操作,等待其自动完成重建即可恢复正常。

·     逻辑盘正在初始化过程中

a.     HDM管理页面中,进入存储管理界面,选择RAID视图页签,进入RAID视图页面。

b.     选择目标存储控制卡下的目标逻辑盘,查看逻辑盘的状态,如果逻辑盘状态显示为“Zeroing”,表明逻辑盘正在初始化过程中,针对该种情况导致的蓝橙灯闪烁,无需任何操作,等待其初始化完成后即可恢复正常。

7.7.7  存储控制卡在Legacy BIOS模式初始化阶段卡死

1. 现象描述

服务器上电后,在BIOS启动界面(BIOS启动模式为Legacy),初始化LSI-9300LSI-9311系列存储控制卡时,出现如7-53所示现象,屏幕光标闪烁,但是界面卡死,无响应。

图7-53 光标闪烁且界面无响应

 

2. 问题原因

BIOS版本过低,导致存储控制卡固件与BIOS不兼容。

3. 处理步骤

(1)     进入HDM管理页面,将如7-54所示的下一次启动模式设置为UEFI

图7-54 设置下一次启动模式

 

(2)     重启服务器,在UEFIBIOS启动模式下,将存储控制卡的驱动和固件版本,升级至H3C官网最新版本。

7.7.8  LSI存储控制卡切换至JBOD模式,操作系统安装过程中无法识别硬盘

1. 现象描述

LSI存储控制卡的工作模式切换为JBOD模式后,安装操作系统过程中如7-55所示提示无法识别硬盘

图7-55 无法识别硬盘

 

2. 问题原因

LSI存储控制卡驱动版本过低,无法支持LSI存储控制卡新增的JBOD工作模式。

3. 处理步骤

前往H3C官网下载存储控制卡最新的固件版本和固件版本对应的软件驱动版本,然后更新该固件和软件驱动。

7.7.9  Windows下手动更新LSI存储控制卡的驱动时提示驱动不适用

1. 现象描述

LSI存储控制卡所在服务器安装了Windows操作系统,在操作系统内手动更新LSI存储控制卡的驱动时报错,如7-56所示提示无适配驱动

图7-56 无适配驱动

 

2. 问题原因

LSI存储控制卡早期的驱动(对应Windows操作系统),包括RAID ModeJBOD Mode两种驱动版本,Windows操作系统版本需要与LSI存储控制卡的驱动版本配套使用,否则Windows操作系统无法识别软件驱动

3. 处理步骤

将存储控制卡的驱动和固件版本,升级至H3C官网最新版本。

7.7.10  更换成员盘后,逻辑盘重建失败

1. 现象描述

逻辑盘降级状态下,更换故障成员盘后,逻辑盘重建失败。

2. 问题原因

更换的新成员盘异常

3. 处理步骤

(1)     检查并确保新成员盘的容量大于等于故障成员盘。若新成员盘容量小于故障成员盘,会导致逻辑盘重建失败。

(2)     检查并确保存储控制卡线缆连接正确、稳固无松动。

(3)     确认新成员盘能否被存储控制卡正常识别,查看方法如下。

¡     PMC存储控制卡:如7-57所示BIOS界面的BIOS Setup > Advanced > 存储控制卡型号 > Disk Utilities菜单中查看硬盘。

图7-57 查看新成员盘是否被PMC存储控制卡识别

 

¡     LSI存储控制卡:如7-58所示,BIOS界面的BIOS Setup > Advanced > 存储控制卡型号 > Main Menu > Drive Management菜单中查看硬盘。

图7-58 查看新成员盘是否被LSI存储控制卡识别

 

(4)     如果新成员盘无法被识别,请更换成员盘。

(5)     如果新成员盘可以识别,检查硬盘状态是否正常(即不能出现Failed/Unconfigured Bad等)。如不正常,请更换成员盘。如果如7-59所示显示正常(OptimalOnline),请手动重建逻辑盘。

图7-59 查看硬盘状态

 

(6)     若问题仍然存在,请联系技术支持。

7.7.11  更换存储控制卡后,原硬盘数据不可用

1. 现象描述

更换同型号存储控制卡后,发现原存储控制卡组建的RAID中的数据无法被识别和使用

2. 问题原因

更换后的存储控制卡的工作模式不为RAID模式,导致用户无法识别和使用含有RAID数据的硬盘

3. 处理步骤

(1)     将存储控制卡的模式切换为RAID模式,保存配置并重启服务器。

(2)     若问题仍然存在,请联系技术支持。

7.7.12  逻辑盘降级

1. 现象描述

HDM管理页面中,逻辑盘状态如7-60所示显示Degraded,表示冗余RAID级别的逻辑盘出现降级此时逻辑盘仍可正常使用。

图7-60 逻辑盘状态显示为Degraded

 

2. 问题原因

逻辑盘中的成员盘故障,导致逻辑盘状态由正常变为降级

3. 处理步骤

(1)     定位故障成员盘所在槽位。不同厂商的存储控制卡,定位方式略有不同,具体如下。

¡     PMC存储控制卡

7-61示,输入./arcconf getconfig controller_id LD可以看到Device 2,即Slot 2槽位为故障成员盘槽位。

图7-61 PMC存储控制卡获取故障成员盘槽位

 

¡     LSI存储控制卡

7-62所示,输入./storcli64 /c0 show events可以看到s1,即Slot 1槽位为故障成员盘槽位。

图7-62 LSI存储控制卡获取故障盘槽位

 

(2)     更换故障成员盘,更换后逻辑盘会自动重建。

7.7.13  逻辑盘故障

1. 现象描述

HDM管理页面中,逻辑盘状态如7-63所示显示Offline,表示逻辑盘出现故障,无法继续使用

图7-63 逻辑盘状态显示为Offline

 

2. 问题原因

·     RAID 0:逻辑盘中的任意成员盘故障。

·     其他冗余RAID级别:逻辑盘中的成员盘异常数量超过该RAID级别的容错范围。

3. 处理步骤

(1)     针对此状态的逻辑盘,数据无法恢复,进入HDM管理页面,定位并更换硬盘状态为“Failed”或“Offline”的故障成员盘。

(2)     删除故障成员盘所属的逻辑盘,然后重新组建逻辑盘。

(3)     若问题仍然存在,请联系技术支持。

7.8  存储控制卡的超级电容问题

7.8.1  超级电容长期搁置后电量耗尽

1. 现象描述

7-64所示,超级电容长期搁置后安装到服务器并上电,HDM Web界面,[信息/存储]菜单项,RAID视图页面显示超级电容充电中或异常。

图7-64 超级电容充电中

 

2. 问题原因

·     超级电容寿命到期。超级电容的寿命通常为3年~5年,寿命到期时,需要及时更换,否则会导致存储控制卡的数据掉电保护功能失效。

·     长时间未使用的超级电容会缓慢放电(这是一个正常现象),安装到服务器后开始自动充电。

3. 处理步骤

超级电容长期搁置后,请参考如下处理步骤处理。

·     HDM Web界面显示超级电容充电中,表示超级电容在自动充电,无需处理。

·     HDM Web界面显示超级电容异常,表示超级电容寿命到期,请更换超级电容。

7.8.2  超级电容配置错误

1. 问题现象

7-65所示,HDM Web界面,[信息/存储]菜单项,RAID视图页面显示超级电容不在位。

图7-65 超级电容显示不在位

 

2. 问题原因

超级电容型号和存储控制卡型号不匹配,比如超级电容是LSI的,存储控制卡是PMC的。

3. 处理步骤

·     请确保超级电容型号和存储控制卡型号匹配,具体请通过产品用户指南查询。

·     若问题依旧存在,请参见6.4.10  存储控制卡的超级电容故障流程图处理。

7.8.3  超级电容影响逻辑盘写缓存策略

1. 现象描述

存储控制卡无法识别超级电容,逻辑硬盘的Write Policy(写缓存策略),从Write Back(回写模式)自动切换为Write Through(直写模式)。

图7-66 BIOS下写缓存策略

 

2. 问题原因

超级电容出现异常,导致存储控制卡的数据掉电保护功能失效。为确保数据不丢失,存储控制卡自动调整逻辑硬盘的Write Policy(写缓存策略)。

3. 处理步骤

请参见6.4.10  存储控制卡的超级电容故障流程图处理。

7.9  风扇和散热问题

7.9.1  多个风扇噪音过大(高速)

1. 现象描述

多个风扇高转速运行时,噪音较大。

2. 问题原因

·     风扇调速模式选择不当。

·     服务器运行功耗过高。

·     HDMBIOS、主板CPLD固件版本过低。

·     风扇当前的安装规则,不符合系统要求的风扇安装准则。

·     其他风扇未安装到位,此时HDM Web界面下[信息/传感器信息/风扇]菜单项中显示风扇不在位信息,示意图如7-67所示。

图7-67 风扇未安装到位

 

·     服务器外部环境温度过高。

·     服务器通风环境不良。

·     风扇或机箱内存在异物。

·     风扇异常。

3. 处理步骤

(1)     检查并确保服务器工作环境温度符合要求,详细信息请参见服务器用户指南。

(2)     检查并确保服务器通风正常,出风口和入风口没有被异物阻塞。

(3)     检查并确保服务器机箱中没有异物、风扇没有被异物阻塞、风扇接口完好无损。

(4)     重新安装所有风扇,确保所有风扇均正确安装到位。

(5)     7-68所示,在HDM Web界面下,单击[风扇配置/调速模式]菜单项,选择以下两种方式进行调节。

¡     选择[最佳散热模式],此模式在确保服务器正常散热的前提下,风扇会以最低转速运转,此时噪音最小。

¡     选择[自定义]选项,降低风扇档位以提高静音效果。

图7-68 更改风扇调速模式

 

(6)     HDM Web界面下单击[电源配置]菜单项,查看设备当前总功率数值,如7-69所示。若设备当前总功率接近或者超过功率封顶值,请尝试减少业务运行,降低设备功耗,以降低风扇转数,若问题仍然存在,请执行步骤(7)

图7-69 查看设备当前功耗

 

(7)     HDMBIOS、主板CPLD固件版本均升级至H3C官网最新版本。

(8)     使用正常工作的同型号风扇,与原来所有风扇逐个进行交叉验证。

¡     若问题解决,则是原来的风扇存在故障,需要更换。

¡     若问题仍然存在,请联系技术支持。

7.9.2  风扇噪音太大(低速)

1. 现象描述

在位风扇低转速运行时,一个或者多个风扇噪音较大。

2. 问题原因

·     风扇异常。

·     机箱中存在异物

·     风扇内含有异物。

3. 处理步骤

(1)     检查并确保服务器机箱中没有异物、风扇没有被异物阻塞。

(2)     使用正常工作的同型号风扇,与原来所有风扇逐个进行交叉验证。

¡     若问题解决,则是原来的风扇存在故障,需要更换。

¡     若问题仍然存在,请联系技术支持。

7.9.3  单个风扇接近全速转

1. 现象描述

服务器运行时,多个在位风扇中某一个风扇以全速转或接近全转速状态运行。此时HDM Web界面下[信息/硬件信息/风扇]菜单项中显示单个风扇速率比等于或者接近100%,如7-70所示。

图7-70 单个风扇接近全转速

 

2. 问题原因

·     风扇异常

·     主板上对应的风扇接口异常。

3. 处理步骤

(1)     检查该风扇接口,确保其完好无损坏。

(2)     使用正常工作的同型号风扇,进行交叉验证。

¡     若问题解决,则是原来的风扇存在故障,需要更换。

¡     若问题仍然存在,则说明主板上对应的风扇接口异常,请联系技术支持。

7.9.4  所有在位风扇全速转

1. 现象描述

服务器运行时,所有在位风扇接近全速转。此时HDM Web界面下[信息/硬件信息/风扇]菜单项中显示在位风扇速率比等于或者接近100%,如7-71所示。

图7-71 在位风扇全转速

 

2. 问题原因

·     风扇调速模式选择不当。

·     服务器运行功耗过高。

·     HDMBIOS、主板CPLD固件版本过低。

·     风扇当前的安装规则,不符合系统要求的风扇安装准则。

·     风扇未安装到位。

·     风扇异常。

·     外部工作环境温度过高。

·     服务器通风环境不良。

·     机箱内存在异物。

3. 处理步骤

(1)     检查并确保机箱中没有异物、所有风扇接口完好无损。

(2)     重新安装所有风扇,确保所有风扇均正确安装到位。

(3)     检查并确保服务器通风正常,出风口和入风口没有被异物阻塞。

(4)     检查并确保服务器工作环境温度符合要求,详细信息请参见服务器用户指南。

(5)     7-72所示,在HDM Web界面下,单击[风扇配置/调速模式]菜单项,选择以下两种方式进行调节。

¡     选择[最佳散热模式],此模式在确保服务器正常散热的前提下,风扇会以最低转速运转。

¡     选择[自定义]选项,手动降低风扇档位以降低风扇转速。

图7-72 更改风扇调速模式

 

(6)     HDM Web界面中,单击[电源配置]菜单项,查看设备当前总功率数值,如7-73所示。若设备当前总功率接近或者超过功率封顶值,请尝试减少业务运行,降低设备功耗,以降低风扇转数,若问题仍然存在,请执行步骤(7)

图7-73 查看设备当前功耗

 

(7)     HDMBIOS、主板CPLD固件版本,均升级至H3C官网最新版本。

(8)     使用正常工作的同型号风扇,与原来所有风扇逐个进行交叉验证。

¡     若问题解决,则是原来的风扇存在故障,需要更换。

¡     若问题仍然存在,请联系技术支持。

7.9.5  更换风扇后出现故障

1. 现象描述

·     原风扇正常工作,将该风扇更换后,新风扇出现故障,比如无法运转、转速不正常等。

·     多个风扇更换后,其中有一个风扇故障,比如无法运转、转速不正常等。

2. 问题原因

·     服务器不兼容该风扇。

·     该风扇未安装到位。

·     风扇故障。

3. 处理步骤

(1)     请通过服务器兼容的部件查询工具进行查询,确保服务器兼容该风扇。

(2)     对于带有指示灯的风扇,请通过风扇故障指示灯判断定位风扇是否存在故障。

¡     若故障指示灯常亮,则说明风扇存在故障,请更换该风扇。

¡     若故障指示灯不亮,则执行步骤(3)

(3)     检查该风扇接口,确保其完好无损坏。

(4)     重新安装该风扇,确保该风扇已正确安装到位。

(5)     HDM Web界面下,通过[信息/传感器信息/风扇]菜单项,查看能否识别到该风扇

¡     若已识别到该风扇,但是仍无法正常工作,说明该风扇故障,请更换风扇。

¡     若未识别到该风扇,请执行步骤(6)

(6)     使用正常工作的同型号风扇,进行交叉验证。

¡     若问题解决,则是原来的风扇存在故障,需要更换。

¡     若问题仍然存在,请联系技术支持。

7.9.6  温度过高导致服务器自动关机

1. 现象描述

服务器运行过程中,出现突发性的自动关机。温度过高导致自动关机,是一种服务器保护机制。

2. 问题原因

·     外部工作环境温度过高。

·     服务器通风环境不良。

·     机箱中存在异物。

·     一个或多个风扇未安装到位。

·     风扇故障。

·     风扇当前的安装规则,不符合系统要求的风扇安装准则。

·     右侧智能挂耳上的温度传感器异常。

3. 故障处理步骤

(1)     检查并确保机箱中没有异物、所有风扇接口完好无损并已完全安装到位。

(2)     检查并确保服务器工作环境温度符合要求,详细信息请参见服务器用户指南。

(3)     检查并确保服务器通风正常,出风口和入风口没有被异物阻塞。

(4)     确保风扇安装规则,符合系统要求的风扇安装准则。风扇安装准则请参见产品用户指南。

(5)     7-74所示,在HDM Web界面下,单击风扇配置菜单项,选择以下两种方式进行调节。

¡     选择[强劲模式],此模式下,风扇的散热能力最强,能有效降低CPU等关键组件的温度。

¡     选择[自定义]选项,手动调节风扇档位至最高以提高散热效果。

图7-74 风扇调速模式

 

注意

通过[自定义]选项提高风扇档位以处理服务器温度过高而导致自动关机的故障仅为临时措施,具体故障定位及处理方法请进行以下操作步骤或联系技术支持。

 

(6)     HDM Web界面下,单击[系统管理/散热管理]菜单项,获取服务器各个部件的温度信息,如7-75所示,查看各部件的温度状态是否正常。

图7-75 服务器传感器信息

 

¡     若在温度传感器信息中发现某个部件的状态告警信息,CPU温度告警以7-76举例。此时请结合HDM Web事件日志的故障信息定位故障现象与原因,处理方法请参见《H3C服务器 HDM告警日志信息参考手册》。

图7-76 事件日志中发现CPU温度告警信息

 

¡     若在温度传感器信息中未发现任何告警信息,请执行步骤(7)

(7)     使用正常工作的同型号右侧挂耳,进行交叉验证。

¡     若问题解决,则是原来的右侧挂耳存在故障,需要更换。

¡     若问题仍然存在,请收集HDM SDS日志并联系技术支持。

7.9.7  液冷机型冷板告警

1. 现象描述

服务器运行时,HDM出现如下告警信息,液冷机型的冷板不在位,7-77所示,或者冷板漏液故障,如7-78所示。

图7-77 事件日志中发现冷板不在位告警信息

 

图7-78 事件日志中发现冷板漏液故障告警信息

 

2. 问题原因

对于冷板不在位告警:

·     如非液冷机型出现该告警,大概率为主板故障导致软件误识别。

·     液冷机型出现该告警,大概率冷板漏液检测线连接不到位,或漏液检测线故障。

对于冷板漏液故障告警:

·     如非液冷机型出现该告警,大概率为主板故障导致软件误识别。

·     液冷机型出现该告警,大概率冷板出现漏液,或漏液检测线故障。

3. 故障处理步骤

(1)     检查是否为液冷机型。

(2)     非液冷机型出现告警,请确认是否还有其他问题,请联系技术支持。

(3)     液冷机型出现告警,将服务器下电,检查CPU冷板的安装是否到位,主要检查漏液检测绳安装是否到位,同时检查是否有漏液发生。

(4)     若无漏液发生,漏液检测绳安装不到位,则调整漏液检测绳后安装好服务器,重新将服务器上电看故障是否解除;若有漏液发生,请勿再上电,请联系技术支持。

(5)     如问题无法解决,或有其他疑问,请联系技术支持。

 

7.10  DRAM内存问题

7.10.1  内存安装准则

1. 安装内存前

·     做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     检查内存金手指和插槽,确保金手指是否脱落、插槽中没有异物。

2. 取放内存时

·     务必仅拿住内存两侧的边缘,不要用多根手指紧握内存。

·     避免触摸内存两侧的颗粒、底部的金手指。

·     请勿弯折内存。

3. 安装内存时

·     内存不支持热插拔。

·     确保相应的CPU已安装到位。

·     不同规格(类型、容量、Rank、数据宽度、频率)的DRAM不支持混插,不同规格的DCPMM不支持混插。即一台服务器上配置的所有DRAM产品编码必须相同,所有DCPMM产品编码必须相同。

·     DRAMDCPMM尽量分布在不同的通道上,以提升内存访问带宽。

·     详细的内存安装准则,请参见产品用户指南。

7.10.2  内存安装位置错误告警

1. 现象描述

当系统中有可用内存,但部分内存出现安装位置错误时,服务器仍可继续运行。如7-79所示,当出现内存安装位置错误时,HDM的事件日志中告警信息为“System Firmware Error(POST Error)---Memory population enforcement mismatch,Please check the DIMM population rules.”。

图7-79 HDM内存安装位置错误告警

 

7-80所示,当出现内存安装位置错误时,BIOS界面会产生对应告警提示。

图7-80 BIOS界面内存安装位置错误告警

 

 

2. 问题原因

内存安装位置错误。

3. 处理步骤

(1)     根据HDM告警信息,确认出现问题的内存槽位。

(2)     参考服务器用户指南内存安装准则,重新安装内存进行交叉验证。

(3)     若问题仍然存在,请联系技术支持。

7.10.3  内存模式降级

1. 现象描述

·     7-81所示HDM Web界面,事件日志中提示内存模式降级,POST Error---Memory Ras Mode Degrade: Minor Code:0x03 Mirror degrade to independent mode”。

·     7-82所示,POST阶段,BIOS提示内存模式降级,“Mirror degrade to independent mode!”。

·     7-83所示,POST阶段,BIOS提示内存模式降级,“Patrol Scrub degrade to independent mode!”。

·     7-84所示,POST阶段,BIOS提示内存模式降级,“Lockstep degrade to independent mode!”。

图7-81 HDM提示内存模式降级(示例)

 

 

图7-82 BIOS提示内存ADDDC模式降级(示例)

 

图7-83 BIOS提示内存Patrol Scrub模式降级(示例)

 

图7-84 BIOS提示内存Lockstep模式降级(示例)

 

2. 问题原因

内存的实际安装规则,不符合该内存模式下,系统要求的内存安装规则。此时,系统会自动调整,使内存模式恢复为缺省内存模式:Independent Mode,从而不影响系统运行。

3. 处理步骤

(1)     调整内存的安装规则,使其符合该内存模式下,系统要求的内存安装准则。内存安装准则的详细信息,请参见产品用户指南。

(2)     若问题仍然存在,请联系技术支持。

7.10.4  POST检测到无可用内存(仅适用于Intel CPU的服务器)

1. 现象描述

·     7-85所示,POST阶段,BIOS提示无可用内存,挂死在POST阶段。

·     7-86所示HDM Web界面,事件日志出现告警,“System Firmware Error(POST Error)---No memory found

该现象在安装单根或较少数量内存时可能出现。

图7-85 BIOS界面提示无可用内存

 

 

图7-86 HDM无可用内存告警

 

2. 问题原因

·     服务器和内存型号不兼容。

·     内存安装位置错误,没有遵守内存安装准则。比如白色插槽不安装内存,而黑色插槽插安装内存,会导致对应内存通道中的所有内存被禁用。

·     硬件问题。比如内存接触不良,主板针脚及连接器损坏。

·     出现内存初始化错误。即在服务器启动阶段出现内存故障,此时会上报故障内存位置信息及错误类型。

·     BIOS版本和CPU型号不匹

3. 处理步骤

(1)     请通过兼容性系列查询工具检查内存及CPU是否符合服务器兼容性要求。

a.     通过服务器兼容的部件查询工具查询内存及CPU与服务器是否兼容。

b.     通过OS兼容性查询工具查询内存及CPU与服务器安装的操作系统是否兼容。

(2)     确保内存安装牢固、内存金手指没有弯曲,内存槽位中没有异物。

(3)     检查并调整内存的实际安装规则,使其符合系统要求的内存安装准则,比如内存对应的CPU是否在位、是否出现不同类型的内存混插。内存安装准则的详细信息,请参见产品用户指南。

(4)     更换所有在位内存。

(5)     (可选)若现场服务器型号为R4900 G6,请检查服务器BIOS版本与服务器安装的CPU型号是否兼容,BIOS-6.00.XX不支持CascadeLake CPU

(6)     检查处理器和主板针脚及内存插槽是否损坏。

(7)     若问题仍然存在,请联系技术支持。

7.10.5  POST检测到内存被禁用

1. 现象描述

·     7-87所示,HDM Web界面,事件日志提示内存被禁用。告警信息为Memory Device Disabled--- The rank is disabled---Location:CPU:1 CH:5 DIMM:E0 Rank:1”。

图7-87 HDM内存Device Disabled告警

 

2. 问题原因

·     内存故障。

·     BIOS中,内存对应的内存通道被设置为禁用状态。

3. 处理步骤

(1)     确认服务器所使用的CPU类型:

¡     对于Intel CPU服务器,如7-88所示,若HDM告警信息中出现Memory Device Disabled,说明内存对应的内存通道设置为禁用状态了。请登录BIOS下选择Socket Configuration >Memory Configuration >IMC Configuration,确认内存通道是否被禁用。

图7-88 BIOS将内存通道设置为启用状态

 

¡     对于AMD CPU服务器,请登录BIOS下选择Advanced> North Bridge >Socket 1 Information查看内存状态。如7-89所示,当有内存状态为Disabled时,请确认内存安装是否到位或者内存是否有故障。

图7-89 确认内存通道状态

 

(2)     若问题仍然存在,请联系技术支持

7.10.6  POST检测到Training错误

1. 现象描述

·     HDM Web界面,事件日志提示内存Faulty Parts Tracking故障时,内存的recevice enable信号无法调整出对应的时序,告警信息为Parity---Memory receive enable training failed---Location:CPU:1 CH:1 DIMM:A0 Rank:0”。

图7-90 HDM内存Receive Enable告警

 

·     HDM Web界面,事件日志提示内存Faulty Parts Tracking故障时,内存write leveling无法对应fly信号,时序不满足要求,告警信息为Parity---Timing error occurred during signal line adjustment for memory write leveling training---Location:CPU:1 CH:1 DIMM:A0 Rank:1”。

图7-91 HDM内存Write Leveling告警

 

·     HDM Web界面,事件日志提示内存Faulty Parts Tracking故障时,写方向的DQDQS无法调整出合理的时序,告警信息为Parity---Memory write DqDqs training failed---Location:CPU:1 CH:1 DIMM:A0 Rank:0”。

图7-92 HDM内存Write DqDqs告警

 

2. 问题原因

·     DIMM安装规则,不符合系统要求的内存安装准则。

·     内存金手指受到污染或沾灰。

·     内存故障。

·     主板内存槽位故障。

3. 处理步骤

(1)     检查内存金手指是否被氧化,内存槽位是否有异物或灰尘,如有异常,请清洁后再重新安装内存。

(2)     检查并调整内存的实际安装规则,使其符合系统要求的内存安装准则,比如内存对应的CPU是否在位、是否出现不同类型的内存混插。内存安装准则的详细信息,请参见产品用户指南。

(3)     根据HDM告警信息定位出异常内存的位置,将其与正常内存交叉验证。如果故障仍然存在,说明内存插槽故障,请更换主板;如果故障消失,说明内存故障,请更换内存。

(4)     若问题仍然存在,请联系技术支持。

7.10.7  POST检测到内存兼容性错误

1. 现象描述

7-93所示,HDM Web界面,事件日志提示内存兼容性错误,告警信息为“POST Error--- DIMM Compatible Error(0x01,0xED)”。

图7-93 HDM内存兼容性告警

 

7-94所示,RDIMMLRDIMM混插时,BIOS界面会产生对应告警提示。

图7-94 BIOS界面RDIMMLRDIMM混插告警

 

 

2. 问题原因

·     LRDIMMRDIMM混插

·     内存故障。

·     内存兼容性。

3. 处理步骤

(1)     根据HDM告警信息,确认出现问题的内存槽位。

(2)     请通过兼容性系列查询工具检查该内存是否符合服务器兼容性要求。若不符合兼容性要求,请更换内存。

a.     通过服务器兼容的部件查询工具查询内存与服务器是否兼容。

b.     通过OS兼容性查询工具查询内存与服务器安装的操作系统是否兼容。

(3)     参考服务器用户指南内存安装准则,重新安装内存。

(4)     若问题仍然存在,请联系技术支持。

7.10.8  内存出现可纠正错误

1. 现象描述

系统运行过程中出现内存可纠正错误告警,如7-95所示。需要注意的是,系统运行中,出现单个内存可纠正错误时,不会立刻产生告警。只有当单个内存的可纠正错误的数量达到设定的阈值后,HDM才会出现告警。

图7-95 内存可纠正错误告警

 

2. 问题原因

·     内存初始化阶段检测到可纠正错误。

·     内存运行阶段,检测到单个内存的可纠正错误次数达到阈值。

3. 处理步骤

不影响操作系统正常运行,无需处理。

7.10.9  内存出现不可纠正错误

1. 现象描述

如所示,系统运行过程中出现的内存不可纠正错误告警,可以精确到DIMM。此这时,系统会根据处理器对内存不可纠正错误的策略来决定处理方式,包括系统重启或挂死。

图7-96 系统运行中内存不可纠正错误告警

 

2. 问题原因

·     内存故障。

·     内存从属CPU或其底座故障。

·     主板内存槽位故障

3. 处理步骤

(1)     根据HDM Web界面,事件日志中内存故障告警提示信息,定位故障内存槽位。

(2)     将故障内存安装到其他内存通道,进行交叉验证。如果故障现象跟随内存出现,说明内存故障,请更换内存;如果故障依然在原内存插槽,请检查内存插槽,若有明显的损伤,说明内存插槽故障,请更换主板。

(3)     使用同型号CPU进行交叉验证,检查CPU及其底座是否存在故障。

¡     若故障跟随原有CPU,说明CPU故障,请更换。

¡     若故障跟随主板,说明CPU底座上的针脚损伤,请更换主板。

(4)     若问题仍然存在,请联系技术支持。

7.10.10  内存防伪认证失败

1. 现象描述

7-97所示,HDM Web界面上,事件日志显示内存未经过认证,告警信息为“Memory is not certified ---Last boot error-Location: CPU:1 MEM CTRL:1 CH:1 DIMM:1 A1”。

图7-97 内存防伪认证失败告警

 

2. 问题原因

该内存没有经过H3C认证。

3. 处理步骤

(1)     更换内存,确保内存经过H3C认证。

(2)     若问题仍然存在,请联系技术支持。

7.10.11  系统内存容量小于安装的物理内存容量

1. 现象描述

·     在操作系统下查看,发现内存总容量小于实际安装的物理内存总容量。

·     7-98所示,HDM Web界面上,查看内存总容量,发现小于实际安装的物理内存总容量。

图7-98 HDM内存信息查看界面

 

2. 问题原因

·     内存故障导致系统无法识别内存。

·     内存金手指接触不良,存在沾灰等现象。

·     服务器和内存型号不兼容。

·     BIOS下设置了内存模式为Mirror Mode Memory Rank Sparing

·     内存安装规则,不符合系统要求的内存安装准则。

·     主板故障。

3. 处理步骤

内存容量查看方式:

·     操作系统:

¡     Windows操作系统下,点击开始 > 运行,输入msinfo32,在弹出的页面查看内存容量。

¡     Linux操作系统下,可通过cat /proc/meminfo命令查看。

·     HDM

登录HDM Web界面,查看新安装内存的容量。具体操作请参见HDM联机帮助。

·     BIOS

¡     Intel CPU服务器:选择Socket Configuration页签 > Memory Configuration > Memory Topology,然后按Enter,即可查看新安装内存的容量。

¡     AMD CPU服务器:选择Advanced>North Bridge>Socket 1 Information Socket 2 Information,即可查看新安装内存的容量。

确认内存容量异常后,请按如下步骤进行处理:

(1)     HDM Web界面中显示的内存容量,与实际物理内存容量对比,定位出异常内存的位置。

(2)     将服务器下电,重新插拔异常内存,并尝试用酒精擦拭该内存的金手指。

(3)     检查并确保内存插槽正常,干净无异物

(4)     请通过兼容性系列查询工具检查该内存是否符合服务器兼容性要求。

a.     通过服务器兼容的部件查询工具查询内存与服务器是否兼容。

b.     通过OS兼容性查询工具查询内存与服务器安装的操作系统是否兼容。

(5)     检查BIOS中,是否设置了内存模式为Mirror Mode Memory Rank Sparing。这两种内存模式设置了内存冗余或备份,所以内存总容量小于物理内存总容量是正常的。

图7-99 BIOS中设置内存模式

 

(6)     检查并调整内存的实际安装规则,使其符合系统要求的内存安装准则,比如内存对应的CPU是否在位、是否出现不同类型的内存混插。内存安装准则的详细信息,请参见产品用户指南。

(7)     检查HDM的事件日志是否产生内存告警,根据告警信息定位和处理对应的内存问题。如有需要,请联系技术支持。

图7-100 HDM事件日志中的内存告警

 

7.11  PMem内存问题(仅适用于Intel CPU的服务器)

PMemPersistent memory,持久内存)包括DCPMM内存(即PMem 100)和PMem 200内存。

7.11.1  PMem安装准则

1. 安装内存前

·     做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     检查内存金手指和插槽,确保金手指没有弯曲、插槽中没有异物。

2. 取放内存时

·     务必仅拿住内存两侧的边缘,不要用多根手指紧握内存。

·     避免触摸内存两侧的颗粒、底部的金手指。

·     请勿弯折内存。

3. 安装内存时

·     内存不支持热插拔。

·     确保相应的CPU已安装到位。

·     不同规格(类型、容量、Rank、数据宽度、频率)的DRAM不支持混插,不同规格的PMem不支持混插。即一台服务器上配置的所有DRAM产品编码必须相同,所有PMem产品编码必须相同。

·     DRAMPMem尽量分布在不同的通道上,以提升内存访问带宽。

·     详细的内存安装准则,请参见产品用户指南。

7.11.2  PMem安装错误

1. 现象描述

·     BIOSPOST界面显示告警信息,如7-101所示。

图7-101 PMem内存插法错误告警(示例)

 

·     HDM中动态监视日志错误信息,如7-102所示。

图7-102 查看HDM健康日志(示例)

 

·     系统暂停或黑屏

2. 问题原因

·     在服务器上安装了数量不符合要求的PMem

·     在服务器上安装了不支持的DIMM

·     在服务器上安装了不同类型的DIMM

·     未在服务器按正确规则安装PMemDRAM

·     未在处理器1上安装至少一根DRAM

3. 处理步骤

(1)     根据PMem安装准则,排查PMem内存的安装是否完全符合内存安装准则。

(2)     卸下不符合安装规则的内存,重新安装。

(3)     若问题仍然存在,请联系技术支持。

7.11.3  已禁用PMem

1. 现象描述

BIOS POST界面提示某根PMem内存被禁用。

图7-103 PMem错误(示例)

 

2. 问题原因

·     在安装PMem时,不支持当前插法模式。

·     在服务器上更换了PMem,需要重新配置后才能使用。

·     PMem固件版本不一致。

3. 处理步骤

(1)     确认按照内存安装准则安装所有PMem,内存安装准则请参见产品用户指南。

(2)     服务器上更换了的PMem后,请先备份之前安装的PMem上所有的永久内存数据,并再重新创建目标配置。需要注意的是,目标配置创建过程将删除所选CPUPMem中存储的所有命名空间、区域和数据,请谨慎操作。

(3)     查看所有PMem的固件版本是否相同,查看位置如所示。如存在差异,请更新差异PMem的固件版本。如相同,请执行步骤(4)

图7-104 查看PMem固件版本号

 

(4)     若问题仍然存在,请联系技术支持。

7.11.4  操作系统中不显示PMem

1. 现象描述

操作系统中不显示PMem内存。

2. 问题原因

PMem中存在无法纠正的内存错误。

3. 处理步骤

(1)     将不显示的PMem更换为新的PMem内存,并更新到相同固件版本,保证所有PMem固件版本相同。

(2)     若问题仍然存在,请联系技术支持。

7.12  CPU问题

7.12.1  CPU安装准则

·     为避免损坏CPU或主板,只有H3C授权人员或专业的服务器工程师才能安装CPU

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     请确保CPU 1始终在位,否则服务器无法运行。

·     请确保同一服务器上安装的CPU型号相同。

·     为避免CPU底座中针脚损坏,请确保在未安装CPU的底座中安装了CPU底座盖片。

·     请检查CPU底座,确保针脚没有损坏。该针脚极为脆弱,容易损坏,请勿触摸;同时请保持针脚清洁,避免任何杂物掉落到CPU底座。

·     拆卸CPU底座盖片时佩戴的防静电手套容易触碰到CPU底座中的针脚,请格外小心。

7.12.2  CPU Configuration Error(仅适用于Intel CPU的服务器)

1. 现象描述

HDM Web界面中,出现CPU Configurantion Error事件日志告警。

·     告警中,若ErrorType显示“Fatal”,则为不可纠正错误,会引起服务器重启。比如“Configuration error---CPU core errors--ErrorType:Unknown--Fatal Error---Location: Processor:1 core MCA bank: integrated I/O controller”。

·     告警中,若ErrorType显示“Corrected/Correctable”,或不打印ErrorType字段,则为可纠正错误,不会引起服务器重启。比如“Configuration error---CPU core errors---Location: Processor:1 core MCA bank: integrated I/O controller”。

CPU Configurantion Error事件日志告警包括以下几种。

·     CPU UPI 错误

HDM Web界面,事件日志告警信息为“Configuration error ---CPU UPI errors ---Location: Processorr:$1  UPI port number:$2”。

·     VT-D错误

HDM Web界面,事件日志告警信息为“Configuration error ---Location: Processor:$1---IIO Stack number: $2  -- Current/Last Boot $3”。

·     CPU core错误

HDM Web界面,事件日志告警信息为“Configuration error ---CPU core errors --- ---Location: Processor:$1  core MCA bank: $2”。

2. 故障问题原因

·     网卡固件/驱动版本过低或和操作系统不兼容。

·     HDMBIOS版本过低。

·     服务器机房环境变化或者业务负载的波动,CPU为了适应并确保高速处理数据,进行参数矫正或者出现可纠正的错误报警,该情况属于正常现象,用户无需任何处理。

·     CPU故障。

·     CPU访问部件出现访问数据错误。部件包括内存、网卡、GPU卡、存储控制卡等。

3. 处理步骤

(1)     针对HDM事件日志中Cpu Configuration ErrorVT-D错误,先查看事件日志是否上报网卡的故障,若出现网卡故障,请按照如下步骤排查是否存在兼容性问题。若兼容则更新网卡固件及驱动到最新版本,若不兼容则更换网卡。

a.     通过服务器兼容的部件查询工具查询网卡与服务器是否兼容。

b.     通过OS兼容性查询工具查询网卡与服务器安装的操作系统是否兼容。

(2)     HDM事件日志中除VT-D错误外其他的Configuration Error,请查看问题时间点附近的HDM事件日志,确认服务器是否出现异常重启。

¡     若服务器发生异常重启,请联系技术支持。

¡     只有Configuration Error的告警,业务正常运行服务器并未发生重启,建议升级HDM1.11.35P02及以后版本,同时升级配套BIOS版本。BIOS配套版本,请参见HDM版本说明书。

7.12.3  CPU出现MCA告警(仅适用于Intel CPU的服务器)

1. 现象描述

当服务器上任一CPU出现不可纠正错误,CPU内部机制会使系统自动重启。所以看到的现象一般表现为系统异常重启,且这种错误通常是概率性的。

CPU相关的MCAMachine Check Architecture,硬件错误检测架构)告警如下:

·     MCA错误上报HDM Web界面,事件日志告警信息如7-105所示,MCA错误告警一般以MSMI/CATERR IERR/MCERR”为标志性日志信息。

图7-105 MCA告警日志

 

2. 问题原因

·     CPU故障。

IFU(instruction fetch unitCPU内部寻指令单元)DCU(data cache unitCPU内部L1级数据缓存单元)DTLB(data translation look-aside bufferCPU内部数据传输旁路缓存单元)PCU(power control unitCPU及周边IO的电源管理单元)IIO(integrated I/O controller,集成输入输出接口)CHA(coherency and home agent,数据一致性管理模块)UPI(ultra path interconnect,超级互联接口)异常均可产生MCA错误。

·     由于外部因素引起的CPU错误上报。

¡     部件硬件故障导致CPU访问出错,比如内存、PCIe卡、主板等异常,导致MCA故障上报。

¡     软件类访问引起的故障,例如网卡及存储控制卡驱动异常,导致CPU访问数据错误并上报MCA

3. 处理步骤

(1)     偶发性出现MCA告警,请联系技术支持。反复出现MCA告警,建议进行服务器最小化测试,服务器最小化配置请参见4.4  明确服务器最小化硬件配置章节。

¡     若问题复现,说明CPU、内存或主板部件故障,执行步骤(2)

¡     若问题没有复现,说明其他部件故障,如存储控制卡,请联系技术支持排查。

(2)     使用一颗同型号CPU进行CPU交叉验证。

¡     若发现故障跟随原CPU出现,说明该CPU故障,请更换CPU

¡     若故障不跟随原CPU出现,说明该CPU正常,请联系技术支持排查内存及主板部件问题。

7.12.4  CPU出现MCA告警(仅适用于AMD CPUHygon CPU的服务器)

1. 现象描述

当服务器上任一CPU出现不可纠正错误,CPU内部机制会使系统自动重启。所以看到的现象一般表现为系统异常重启,且这种错误通常是概率性的。

CPU相关的MCAMachine Check Architecture,硬件错误检测架构)告警有以下几种:

(1)     MCA错误上报HDM Web界面,事件日志告警信息如7-106所示,MCA错误告警一般以“Machine Check Exception”为标志性日志信息。

图7-106 MCA告警日志

图7-107  

(2)     XGMI错误。HDM Web界面,事件日志告警信息如7-108所示,此时传感器状态更改为紧急并上报一条状态日志。

图7-108 事件日志告警XGMI错误

 

2. 问题原因

·     CPU故障。如LSIFL2DEEXFPL3异常均可产生MCA错误。

·     由于外部因素引起的CPU错误上报。

¡     部件硬件故障导致CPU访问出错,比如内存、PCIe卡、主板等异常,导致MCA故障上报。

¡     软件类访问引起的故障,例如网卡及存储控制卡驱动异常,导致CPU访问数据错误并上报MCA

3. 处理步骤

(1)     偶发性出现MCA告警,请联系技术支持。反复出现MCA告警,建议进行服务器最小化测试,服务器最小化配置请参见4.4  明确服务器最小化硬件配置章节。

¡     若问题复现,说明CPU、内存或主板部件故障,执行步骤(2)

¡     若问题没有复现,说明其他部件故障,如存储控制卡,请联系技术支持排查。

(2)     使用一颗同型号CPU进行CPU交叉验证。

¡     若发现故障跟随原CPU出现,说明该CPU故障,请更换CPU

¡     若故障不跟随原CPU出现,说明该CPU正常,请联系技术支持排查内存及主板部件问题。

7.12.5  CPU温度过高告警

1. 现象描述

CPU温度过高,温度传感器感知到CPU实际温度超过设定的阈值,触发了HDM事件日志告警,。

·     Thermal trip告警。如7-109所示,CPU内核温度过高触发紧急告警,一般表现为操作系统关机。

图7-109 Thermal trip告警

 

2. 问题原因

·     HDM风扇模式设置不当或者风扇故障,导致服务器温度上升。

·     现场服务器运行环境温度超过规格温度。

·     CPU的业务量不稳定,时大时小,造成温度瞬间过高。

·     CPU或者温度传感器异常误告警。

·     服务器进出风口堵塞。

3. 处理步骤

(1)     HDM Web界面,[信息/传感器信息/风扇]菜单项,确认风扇状态是否正常。是则执行步骤(2),否则插拔或者更换异常的风扇模块。

(2)     更改风扇设置,提高静音等级以提高风扇转速。

(3)     查看系统业务量是否过大,关闭非紧急业务以降低业务承载。

(4)     检查服务器运行环境温度是否正常,将服务器运行环境温度控制在其正常工作温度范围内。服务器工作环境参数请参见产品用户指南。

(5)     检查进出风口是否堵塞,移除阻塞物。

(6)     将服务器下电,检查CPU散热器是否接触不良,重新涂抹导热硅脂后安装散热器并上电。

(7)     若问题仍然存在,请联系技术支持。

7.12.6  服务器启动进程挂死在UPI初始阶段(仅适用于Intel CPU的服务器)

1. 现象描述

·     7-110所示BIOS界面根据异常原因显示为UPI不匹配、CPU Stepping不匹配、CPU频率不匹配告警。

·     7-111所示,HDM Web界面,显示“UPI Topology mismatch is detected”。

图7-110 BIOSUPI不匹配告警(示例)

 

 

图7-111 HDMCPU不匹配告警

 

2. 问题原因

·     在位CPU型号不一致。

·     CPU故障。

3. 处理步骤

(1)     HDM Web界面,[信息/硬件信息/处理器]菜单项,确认CPU型号是否一致。若型号不一致,则更换CPU为一致型号;若型号一致,则执行步骤(2)

(2)     HDM Web界面,[信息/硬件信息/处理器]菜单项,检查是否有CPU不识别的情况。若不识别则重新安装对应CPU;若正常识别或重新安装后仍然无法识别,请联系技术支持。

7.12.7  系统空载时CPU负载率较高

1. 现象描述

服务器空载的情况下,CPU负载率较高。如7-112所示,服务器安装了CentOS 7.3操作系统,空载时系统卡顿,通过Linux内置的top命令查询CPU负载率,发现wawait)值过高。

图7-112 CPU负载率过高

 

2. 问题原因

·     存储控制卡PMC HBA-1000驱动版本过低。

·     其他未知原因。

3. 处理步骤

(1)     检查服务器上是否安装了产品型号为PMC HBA-1000的存储控制卡。是,则更新驱动到最新版本,更新示例请参见步骤7.12.7  3. (2);否,则联系技术支持。

(2)     示例:在CentOS 7.3操作系统下更新PMC HBA-1000存储控制卡驱动。

a.     检查存储控制卡驱动版本。通过cat /sys/module/aacraid/version命令modinfo aacraid可以查看

b.     H3C官网获取PMC HBA卡兼容的最新驱动版本,如7-113所示通过rpm命令完成驱动安装后,重启操作系统。

图7-113 rpm命令安装HBA卡驱动

 

c.     再次查看CPU负载率,观察是否恢复正常。若问题仍然存在,请联系技术支持。

图7-114 top命令查看CPU负载

 

7.12.8  CPU安全漏洞问题

1. 现象描述

漏洞扫描工具扫描到CPU存在安全漏洞问题。例如20181月,Intel开始处理“侧信道攻击”安全隐患漏洞。该漏洞导致当受到恶意攻击时,存在敏感数据泄露的隐患。自此,Intel不断探索相关潜在漏洞并持续更新微码,解决漏洞。

H3C会及时跟进Intel的微码更新,同步更新BIOS固件版本(包含Intel发布的微码版本)。

2. 问题原因

·     CPU微码缺陷

·     服务器遭到恶意攻击。

·     其他未知原因

3. 处理步骤

(1)     升级BIOSH3C官网最新版本。

(2)     安装操作系统最新版本补丁。补丁获取及其安装方法请参见当前操作系统官方网站。

(3)     升级浏览器到最新版本。

(4)     若问题仍然存在,请联系技术支持。

7.13  加密模块问题

7.13.1  TPM/TCM发生故障或系统识别不到TPM/TCM

1. 现象描述

·     BIOS Setup中检测到TPM不在位或不可启用

·     操作系统下检测到TPM异常或不可用。

2. 问题原因

·     TPM/TCM设备故障。

·     BIOS Setup中未正确配置TPM

·     没有设置正确的BIOS启动模式,Legacy模式下仅支持TPM 1.2运行模式,不支持TPM 2.0

·     针对TCM模块,未额外安装驱动程序。

3. 处理步骤

(1)     确认系统中TPM/TCM已安装到位。

(2)     启动进入BIOS Setup,确认TPM已经启用或TCM处于Active 状态。

(3)     在安装有TPM 2.0时,确认服务器启动模式为UEFI引导模式。

(4)     确认TPM的固件版本已经更新至最新,如7-115所示。

图7-115 查看TPM固件版本号

 

(5)     重新引导操作系统。基于所使用的操作系统发行版本,检查并确认TPM/TCM配置正常。

(6)     如使用TCM模块,请检查并确认TCM模块的驱动程序正常。

(7)     如操作系统中提示:“TPM已可使用,但功能有所缺失”,可能是由于TPM在未进行清除的情况下重新安装了系统,请执行以下操作。

说明

清除TPM会将其重置为无主状态。清除TPM可能会导致数据丢失。为避免数据丢失,请确保您拥有TPM保护或加密的任何数据的备份或恢复方法。

 

a.     清除TPM,完成TPM初始化流程

b.     检查BIOS Setup配置,确保相应的TPM配置正确

c.     如问题仍然存在,重新清除TPM并重新加载操作系统。

7.14  系统电池问题

7.14.1  系统电池电量不足或耗尽

1. 现象描述

HDM的传感器监测到系统电池电量不足或耗尽时,会产生“严重”告警,并上报一条HDM事件日志,如7-116所示。

图7-116 事件日志

 

2. 问题原因

系统电池电量不足或耗尽。

3. 处理步骤

(1)     将服务器安全下电。

(2)     使用防静电手套更换系统电池,更换步骤和注意事项请参见服务器用户指南中的“更换系统电池”章节。

(3)     将服务器安全上电,登录HDM Web界面,进入“事件日志”页面查看告警日志是否解除。

(4)     如果告警依然存在,请联系技术支持。

7.15  主板问题

7.15.1  主板故障

1. 现象描述

·     服务器无法正常工作,比如:无法启动、开机初始化卡死。

·     如下7-117所示,HDM Web界面,“事件日志”菜单项中显示主板存在告警事件。

图7-117 HDM Web中主板故障告警信息(示例)

 

2. 问题原因

主板出现故障。

3. 处理步骤

(1)     (可选)如果在服务器正常运行时进行了高危操作(例如:直接插拔非热插拔PCIe卡、强制下电等)而导致服务器无法启动,请先将服务器下电,拆卸主板上的系统电池,等待1分钟后,将系统电池重新安装到主板,然后将服务器上电。若故障仍然存在,请执行步骤(2)

(2)     HDM Web界面的[健康诊断/事件日志]菜单项中,检查除主板告警信息外,是否同时存在其他部件的告警信息,比如网卡、存储控制卡、电源模块、硬盘背板等部件。

¡     若存在其他部件的告警信息,请检查相应部件是否存在未安装到位的情况。

-     若存在,请将该部件重新安装到位,并确保线缆连接稳固、无误。

-     若不存在,请通过交叉验证的方法,确认故障是否由该部件引起。若故障跟随该部件,说明该部件故障,请更换;若故障不跟随该部件,说明故障与该部件无关,请继续定位,执行步骤(3)

¡     若不存在其他部件的告警信息,请执行步骤(3)

(3)     使用正常工作的同型号主板,进行交叉验证。

¡     若问题解决,说明原主板故障,请更换。

¡     若问题仍然存在,请收集HDM SDS日志,并联系技术支持。

7.16  硬盘背板问题

7.16.1  硬盘无法被识别

1. 现象描述

硬盘正常的情况下出现了如下现象:

·     部分或所有硬盘无法被BIOS正常识别。

·     HDM Web界面中无法显示部分或所有硬盘的信息。

·     7-118所示,硬盘背板上的电源指示灯不亮。需要注意的是,不同硬盘背板的电源指示灯所在位置和颜色可能有所不同,请以实际情况为准。

图7-118 硬盘背板电源指示灯位置(示例)

 

2. 问题原因

·     硬盘背板上的线缆未正确连接或未连接到位。

·     硬盘背板未正确安装到位。

·     硬盘背板故障。

·     硬盘扩展板上的线缆未正确连接或未连接到位。

·     硬盘扩展板未正确安装到位。

·     硬盘扩展板故障。

·     存储控制卡或NVMe SSD扩展卡端的线缆连接松动。

·     硬盘背板CPLD异常。

3. 处理步骤

(1)     (可选)通过HDM更新硬盘背板的CPLD版本。

(2)     检查并确保硬盘背板上的接口、背板连接到主板上的接口均完好无损坏。

(3)     检查并确保硬盘背板正确安装到位、相关线缆正确连接、稳固无松动。硬盘背板及其线缆的正确连接方法,请参见产品用户指南。

(4)     (可选)如果该故障硬盘背板与硬盘扩展板配合使用,请检查硬盘扩展板。

a.     确保硬盘扩展板正确安装到位、相关线缆正确连接、稳固无松动。硬盘扩展板及其线缆的正确连接方法,请参见产品用户指南。

b.     确保硬盘扩展板上的接口完好无损坏,扩展板与硬盘背板之间的接口正确连接、稳固无松动

c.     使用正常工作的同型号硬盘背板扩展板,进行交叉验证。若问题解决,说明硬盘扩展板故障,请更换;若问题仍然存在,说明该故障与硬盘扩展板无关,请执行步骤(5)

(5)     使用正常工作的同型号硬盘背板,进行交叉验证。

¡     若问题解决,说明原硬盘背板存在故障,请更换。

¡     若问题仍然存在,请联系技术支持。

7.17  智能挂耳问题

7.17.1  无法识别通过智能挂耳连接的设备

1. 现象描述

·     操作系统下识别不到通过智能挂耳上的USB接口或专用管理接口连接的设备(比如键盘、鼠标、U盘),无法进行设置和操作。

·     BIOS中识别不到通过智能挂耳上的USB接口或专用管理接口连接的设备(比如键盘、鼠标、U盘),无法进行设置和操作。

2. 问题原因

·     BIOS中未开启智能挂耳上的USB接口的功能,此时任何连接至智能挂耳上的设备将会被禁用。

·     外接设备故障。

·     挂耳线缆未正确安装到主板上或线缆连接松动。

·     挂耳故障。

·     主板上连接智能挂耳的IO接口故障。

3. 处理步骤

(1)     BIOS中开启智能挂耳上的USB接口的功能,本文以R4900 G3服务器为例。

a.     在服务器开机后,按Del或者Esc进入BIOS Setup界面,选择Platform Configuration > PCH-IO Configuration > Chipset USB ConfigurationUSB Per-connector Disable选项设置为Enabled,如7-119所示。

图7-119 BIOS Setup界面下将USB Per-connector Disable选项设置为EnabledR4900 G3

 

b.     将以下选项卡均设置为Enabled,表示已开启所有智能挂耳上的USB接口的功能。7-119所示。

-     Front Left Top USB Port 2.0 Capability前部左挂耳顶端USB 2.0功能配置)。

-     Front Right USB Port 2.0 Capability前部右挂耳USB 2.0功能配置)。

-     Front Right USB Port 3.0 Capability前部右挂耳USB 3.0功能配置)。

c.     F4保存设置,重启服务器,确保设置生效。

(2)     将接入的设备替换为正常工作的设备,进行交叉验证。

¡     若问题解决,说明该设备故障,请更换。

¡     若问题仍然存在,请执行步骤(3)

(3)     检查并确保挂耳正确安装到位,线缆正确安装到主板、且连接稳固无松动。

(4)     挂耳线缆连接到主板接口上,请检查并确保该接口针脚无异常。

(5)     使用正常工作的同型号挂耳,进行交叉验证。

¡     若问题解决,说明原挂耳故障,请更换。

¡     若问题仍然存在,请联系技术支持。

7.18  SD卡问题

7.18.1  SD卡无法被识别

1. 现象描述

SD卡无法被BIOS识别。

2. 问题原因

·     SD卡扩展模块未安装到位。

·     SD卡扩展模块上存在异物。

·     SD未安装到位。

·     SD卡故障

·     主板上SD卡槽位故障。

3. 处理步骤

(1)     检查SD卡扩展模块的安装情况。SD卡扩展模块没有安装到位会导致接触不良,从而无法被识别,此时请拆卸SD卡扩展模块,清理并确保SD卡扩展模块干净、无异物附着,再重新安装,并通过HDM Web界面查看SD卡扩展模块是否被识别。

¡     7-120所示,显示在位,说明该SD卡扩展模块已被识别,请执行步骤(2)

¡     7-121所示,显示不在位,说明该SD卡扩展模块依然未被识别,请使用正常工作的同型号SD卡扩展模块进行交叉验证。

-     SD卡卡槽状态显示为在位,则说明原SD卡扩展模块故障,需要更换。请执行步骤(2)继续确认SD卡的识别情况。

-     SD卡卡槽状态仍显示为不在位,则说明主板上SD卡槽位故障,请联系技术支持。

图7-120 HDM中显示SD卡扩展模块在位

 

图7-121 HDM中显示SD卡扩展模块不在位

 

(2)     请确保该SD卡能够被BIOS系统识别,查看是否被识别的操作步骤如下:

a.     在服务器开机后,按Del或者Esc进入BIOS Setup界面。

b.     7-122所示选择Advanced > USB Configuration,查看该SD是否已被识别(示例中名为CYP RAIDUSB RAID LUN)。若未被识别,请执行步骤(3)

图7-122 USB configuration选项卡下查看已识别到的SD

 

(3)     使用正常工作的SD卡,进行交叉验证。

¡     若问题解决,说明原SD卡故障,请更换。

¡     若问题仍然存在,请联系技术支持。

7.18.2  操作系统无法从SD卡引导

1.     现象描述

操作系统安装在SD卡上,服务器开机后操作系统无法从SD卡引导。

2.     问题原因

·     BIOS中,SD卡没有被设置为第一启动项。

·     SD卡中的操作系统被破坏。

·     SD故障

·     主板上SD卡槽位故障。

3.     处理步骤

(1)     请确保SD卡可以被正常识别。若未被正常识别,解决方法请参见7.18.1  SD卡无法被识别

(2)     服务器开机后,按F7进入Boot Menu界面,在该界面下查看SD卡是否存在以及是否为第一启动项。如7-123所示,表示Boot Menu界面下SD卡存在(“CYP RAIDUSB RAID LUN”表示SD卡),且为第一启动项。

图7-123 Boot Menu界面下查看SD

 

¡     如果SD卡存在,但不是第一启动项。请重启服务器,按Del或者Esc进入BIOS Setup界面,选择Boot > Fixed Boot Order Priorities > Boot Option #1,按下Enter,将SD卡作为第一启动项(SD卡属于Hard Disk启动项类别),如7-124所示。

图7-124 SD卡设置为第一启动项

 

¡     如果SD卡存在且为第一启动项但无法引导或者SD卡不存在,说明SD卡中的操作系统被破坏,请重新安装操作系统。

(3)     若问题仍然存在,说明主板上SD卡槽位故障,请联系技术支持。

7.19  USB设备问题

7.19.1  USB设备无法被识别

1. 现象描述

USB设备连接至服务器的任意USB接口上,均无法被BIOS或者操作系统识别。

说明

通过智能挂耳连接的USB设备无法被识别请参见7.17.1  无法识别通过智能挂耳连接的设备

 

2. 问题原因

·     USB设备故障。

·     BIOS下未开启服务器上的任意USB接口的功能,此时任何连接至这些接口上的USB设备将会被禁用。

·     主板上的USB接口故障。

3. 处理步骤

(1)     BIOS中开启服务器上所有USB接口的功能。(本文以R4900 G3为例)

a.     在服务器开机后,按Del或者Esc进入BIOS Setup界面,选择Platform Configuration > PCH-IO Configuration > Chipset USB ConfigurationUSB Per-connector Disable选项设置为Enabled,如7-125所示。

图7-125 BIOS Setup界面下将USB Per-connector Disable选项设置为Enabled

 

b.     将显示的所有USB接口选项卡均设置为Enabled,表示已开启服务器上所有USB接口逇功能。

c.     F4保存设置,重启服务器,确保设置生效。

(2)     将接入的该USB设备替换为正常工作USB设备,进行交叉验证。

¡     若问题解决,说明该USB设备故障,请更换。

¡     若问题仍然存在,说明主板上的USB接口故障,请联系技术支持。

7.19.2  操作系统无法从U盘引导

1. 现象描述

操作系统安装在U盘上,服务器开机后操作系统无法从U盘引导。

2. 问题原因

·     BIOS中未开启服务器上相应USB接口的功能,此时任何连接至该接口的USB将会被禁用。

·     U盘故障

·     U盘中的操作系统被破坏。

·     BIOS中,USB没有被设置为第一启动项。

·     主板上的USB接口故障

3. 处理步骤

(1)     BIOS Steup界面下开启USB接口的功能,具体请参见7.19.1  USB设备无法识别中的步骤7.19.1  3. (1)

(2)     请在正常运行的同型号服务器上进行验证,确保该U盘未出现故障且是可引导的。

(3)     请确保该U盘能够被BIOS系统识别,查看是否被识别的操作步骤如下:

a.     在服务器开机后,按Del或者Esc进入BIOS Setup界面

b.     选择Advanced > USB Configuration,查看该U盘是否已被识别,如7-126所示。若未被识别,请尝试连接其他USB接口或更换U盘。

图7-126 USB configuration选项卡下查看已识别到的USB

 

 

(4)     重启服务器后,按F7进入Boot Menu界面,在该界面下查看U盘是否存在以及是否为第一启动项,以下7-127举例,表示Boot Menu界面下U盘存在(“KingstonDataTraveler 3.0PMAPPartition 1”表示U盘),且为第一启动项。

图7-127 Boot Menu界面下查看U

 

¡     如果U盘存在,但不是第一启动项。请重启服务器,按Del或者Esc进入BIOS Setup界面,选择Boot > Fixed Boot Order Priorities > Boot Option #1,按下Enter,将U盘作为第一启动项(U盘属于Hard Disk启动项类别),如7-128所示。

图7-128 U盘设置为默认第一启动项

 

¡     如果U盘存在且为第一启动项但无法引导或者U盘不存在,说明U盘中的操作系统被破坏,请重新安装操作系统。

(5)     若问题仍然存在,则说明主板的USB接口存在故障,请联系技术支持。

7.20  光驱问题

说明

服务器是否支持光驱,请以实际情况为准。

 

7.20.1  SATA光驱无法被识别

1. 现象描述      

SATA光驱无法被BIOS/操作系统识别。

2. 问题原因

·     BIOS Setup界面sSATA Controller功能未开启。

·     光驱线缆或接口损坏、线缆连接松动导致链路异常。

·     主板上SATA接口的针脚弯曲。

·     光驱未正确安装或未安装到位。

·     光驱故障

3. 处理步骤

(1)     服务器开机后,按Del或者Esc进入BIOS Setup界面。在该界面下依次选择Platform Configuration -> PCH Configuration -> PCH sSATA Configuration,将sSATA Controller状态选项设置为Enabled状态,如7-129所示。设置完毕后,按F4进行保存并将服务器重启。

图7-129 sSATA Controller状态选项设置为Enabled状态

 

(2)     确保光驱线缆及接口均完好无损坏,主板上SATA接口的针脚未发生弯曲。

(3)     确保光驱线缆跟主板上SATA接口已正确连接并且稳固无松动。

(4)     请将该光驱替换为新光驱进行交叉验证,确认新光驱能否被正常识别:

¡     如果新光驱能被正常识别,则是该光驱存在故障,需要更换。

¡     如果新光驱仍未被正常识别,则该故障与该光驱无关,请联系技术支持。

7.20.2  SATA光驱无法被识别(仅适用于AMD CPUHygon CPU的服务器)

1. 现象描述      

SATA光驱无法被BIOS/操作系统识别。

4. 问题原因

·     BIOS Setup界面sSATA Controller功能未开启。

·     光驱线缆或接口损坏、线缆连接松动导致链路异常。

·     主板上SATA接口的针脚弯曲。

·     光驱未正确安装或未安装到位。

·     光驱故障

5. 处理步骤

(1)     服务器开机后,按Del或者Esc进入BIOS Setup界面。在该界面下依次选择Advanced->AMD CBS->FCH Common Options->SATA Configuration Options,将SATA Enable状态选项设置为Enabled状态,如7-130所示。设置完毕后,按F4进行保存并将服务器重启。

图7-130 SATA Configuration Options选项设置为Enabled状态

 

(2)     确保光驱线缆及接口均完好无损坏,主板上SATA接口的针脚未发生弯曲。

(3)     确保光驱线缆跟主板上SATA接口已正确连接并且稳固无松动。

(4)     请将该光驱替换为新光驱进行交叉验证,确认新光驱能否被正常识别:

¡     如果新光驱能被正常识别,则是该光驱存在故障,需要更换。

¡     如果新光驱仍未被正常识别,则该故障与该光驱无关,请联系技术支持。

7.21  GPU卡问题

7.21.1  GPU卡无法识别

1. 现场描述

GPU卡无法被操作系统识别。

2. 问题原因

·     GPU电源线缆与GPU卡不匹配。

·     GPURiser不匹配

·     RiserRiser卡插槽故障。

·     BIOS参数配置错误,导致操作系统无法识别GPU卡。

·     BIOS固件版本不支持此GPU卡。

·     GPU卡故障。

3. 处理步骤

(1)     请确保GPU电源线缆与GPU卡型号匹配。匹配关系可通过产品用户指南查询。

(2)     请确保GPU卡与Riser卡型号匹配。可通过产品用户指南查询配套关系。

(3)     NVIDIA GPU卡需在BIOS Setup > Advanced > PCI Subsystem settings中设置Above 4G Decoding的状态为Enabled若状态为Disabled会导致HDM及操作系统无法识别GPU卡。

图7-131 设置Above 4G Decoding参数

 

(4)     查看BIOS固件版本,版本过低可能会导致HDM及操作系统无法识别GPU卡,请升级至H3C官网最新BIOS固件版本,升级后再次确认能否正常识别。

图7-132 查看BIOS版本

 

(5)     交叉验证,分别确认Riser卡、Riser卡插槽以及GPU卡是否故障。若存在故障,请更换对应部件。

(6)     若问题仍然存在,请联系技术支持。

7.21.2  图形未按预期显示

1. 现场描述

图形未按预期显示。

2. 问题原因

·     服务器供电不足。

·     GPU电源线缆未连接。

·     服务器不支持该GPU

·     GPU卡故障或未安装到位。

3. 处理步骤

(1)     确保服务器中安装的电源模块所供应的电力及散热条件足以支持服务器配置。

(2)     (可选)如果GPU卡的功率超过75W,请确保已连接GPU卡电源线缆。

确认当前显示设备连接的是板载VGA接口还是GPU卡。如7-133所示,在BIOS界面中,进入BIOS Setup > Advanced >Platform Configuration > Miscellaneous Configuration > Miscellaneous Configuration界面。查看Active Video选项。

¡     Onboard Device表示服务器通过板载VGA接口进行界面显示

¡     PCIe Device表示服务器通过PCIe设备GPU卡进行界面显示

说明

GPU卡是否可通过外部接口连接,请以实际情况为准。

 

图7-133 Miscellaneous Configuration界面

 

(3)     如果服务器通过GPU卡进行图形显示,请确保服务器、操作系统均兼容该GPU卡。

a.     通过服务器兼容的部件查询工具查询GPU卡与服务器是否兼容。

b.     通过OS兼容性查询工具查询GPU卡与服务器安装的操作系统是否兼容。

(4)     如果服务器通过板载VGA接口进行图形显示,请确认线缆连接是否正常。若线缆正常,则排查主板问题;若线缆异常,则更换线缆。

(5)     遍历排查所有在位GPU卡,确保GPU卡安装到位。

(6)     交叉验证,确认所有在位GPU卡是否故障。若故障请更换。

(7)     若问题仍然存在,请联系技术支持。

7.21.3  虚拟化业务场景下HDM出现GPU UCE故障

1. 现象描述

虚拟化业务场景下出现宕机、卡顿等情况,同时HDM上报GPU UCE故障。

2. 适用机型

·     H3C UniServer R5300 G3

·     H3C UniServer R5300 G5

·     H3C UniServer R5500 G5

·     H3C UniServer R4900 G5

·     H3C UniServer R4700 G5

·     H3C UniServer R4900 G6 Ultra

·     H3C UniServer R4900 G6

·     H3C UniServer R4700 G6

·     H3C UniServer R5350 G6

·     H3C UniServer R5300 G6

·     H3C UniServer R5500 G6

3. 问题原因

GPU服务器未开启ACS CAP,导致服务器不支持虚拟化场景。

4. 处理步骤

(1)     确认ACS CAP能力是否已开启。

使用lspci -vt命令找到SWITCH PCIe链路,找到如7-134位置。

图7-134 找到SWITCH PCIe链路

 

使用lspci -vvv命令查看SWITCH芯片ACS状态,ACS Cap下的各状态为“+”,表示能力enabled,为“-”表示能力为disabled

图7-135 确认ACS CAP能力是否已开启

 

(2)     ACS CAP能力未开启,请确认产品型号和HDM版本并联系技术支持,不同型号开启ACS CAP方式有所不同。

7.21.4  客户自采购GPU不识别问题

1. 现象描述

OSGPU不识别,HDM上报PCIe设备不识别。

 

2. 适用机型

·     H3C UniServer R5300 G3 8GPU机型

·     H3C UniServer R5300 G5 8GPU机型

3. 问题原因

双宽GPU需要外加电源线,若从非我司渠道采购GPU和电源线,有可能将GPU转接板上保险丝烧毁,导致GPU不识别。

4. 处理步骤

(1)     通过我司标准渠道采购GPU和对应GPU的电源线。

(2)     保险丝如果已经烧毁,需要重新更换GPU节点板。

7.22  屏幕显示问题

7.22.1  服务器上电后屏幕黑屏超过60

1. 现场描述

服务器上电后,屏幕黑屏超过60

2. 问题原因

·     显示器电源线连接不良。

·     显示器、KVM设备和服务器之间线缆连接不良。

·     显示器进入休眠状态。

·     服务器不支持当前GPU卡。

·     GPU卡驱动版本过低。

·     Riser卡、GPU安装到位

·     服务器供电不足。

·     GPU电源线缆未连接。

3. 处理步骤

(1)     检查示器和服务器的线连接,若示器和服务器相应的指示灯亮表明接正确

(2)     检查示器和服务器之间的VGA线缆连接,认连接正确可靠;如果服务器和显示器之间通过KVM设备相连,请检查两者与KVM设备之间连接是否正确可靠。

(3)     交叉验证,确认示器功能正常,且在正常工作状态,未进入休眠模式。

(4)     如果服务器通过板载VGA接口进行图形显示,请确认线缆连接是否正常。若线缆正常,则排查主板问题;若线缆异常,则更换线缆。

(5)     如果服务器通过GPU卡进行界面显示,请确保服务器、操作系统均兼容该GPU卡。

a.     通过服务器兼容的部件查询工具查询GPU卡与服务器是否兼容。

b.     通过OS兼容性查询工具查询GPU卡与服务器安装的操作系统是否兼容。

(6)     升级GPU卡驱动版本到H3C官网最新版本。

(7)     确认服务器上的Riser卡和GPU卡安装到位,且供电符合要求。

(8)     若问题仍然存在,请联系技术支持。

7.22.2  服务器上电启动黑屏

1. 现场描述

服务器上电后,启动异常且黑屏

2. 问题原因

·     服务器外部供电不足。

·     内存安装位置错误。

·     服务器故障。

·     显示器故障。

3. 处理步骤

(1)     查本故障发生时服务器前面板指示灯(包括Health指示灯等)是否都不亮,同时HDM无法连接,如果是,请先按照7.2.1  指示灯不亮章节进行处理

(2)     观察服务器Health指示灯是否存在异常。若Health指示灯显示系统出现问题,请通过HDM查看系统运行状态。

(3)     请确保内存安装符合服务器的内存安装准则,安装准则请参见产品用户指南。错误的安装位置会导致服务器启动异常

(4)     采用交叉验证的方法,确认服务器或显示器是否故障。

¡     若故障现象跟随显示器出现,则更换显示器。

¡     若故障现象跟随服务器出现,请联系技术支持确认服务器问题。

7.22.3  显示器运行黑屏

1. 现场描述

·     将显示器连接到正在运行的服务器上,显示器黑屏。

·     服务器中的某些用程序时,显示器突然黑屏

2. 问题原因

·     显示器电源线连接不良或供电不符合要求。

·     显示器与服务器之间的VGA线缆连接不良

·     显示器亮度、对比度未正确设置。

·     显示器故障。

·     服务器故障。

3. 处理步骤

(1)     检查显示器的外部供电,确保供电正常,若显示器的指示灯亮则表明连接正确。

(2)     检查显示器和服务器之间的VGA线缆,确保连接正确可靠。

(3)     调节显示器的亮度和对比度,确认故障是否仍然存在。是,则执行步骤(4)

(4)     将服务器下电,然后重新上电,确认故障是否存在。是,则执行步骤(5)

(5)     采用交叉验证的方法,确认服务器或显示器是否故障。

¡     若故障现象跟随显示器出现,则更换显示器。

¡     若故障现象跟随服务器出现,请联系技术支持确认服务器问题。

7.22.4  显示器显示异常

1. 现场描述

显示器的屏幕图像抖动、滚动或扭曲。

2. 问题原因

·     示器与服务器之间的VGA线缆连接不良

·     显示器受强磁场设备干扰。

·     显示器故障。

·     服务器故障。

3. 处理步骤

(1)     检查显示器和服务器之间的VGA线缆,确保连接正确可靠。

(2)     检查周围环境,使显示器远离其他显示器或电源变压器等强磁场设备。

(3)     对服务器下电,然后重新对服务器上电,观察故障是否复现。服务器的上、下电详细操作请参见产品用户指南。

(4)     采用交叉验证的方法,确认服务器或显示器是否故障。

¡     若故障现象跟随显示器出现,则更换显示器。

¡     若故障现象跟随服务器出现,请联系技术支持确认服务器问题。

7.22.5  显示器颜色不正常

1. 现场描述

显示器上显示的视频或图片颜色不正常。

2. 问题原因

·     显示器的分辨率与服务器VGA接口的分辨率不兼容。

·     服务器和显示器之间的VGA线缆连接不良

·     显示器故障。

·     VGA线缆故障。

3. 处理步骤

(1)     确保显示器分辨率与服务器的VGA分辨率兼容。

(2)     检查显示器和服务器之间的VGA线缆,确保连接正确可靠

(3)     采用交叉验证的方法,确认显示器或VGA线缆是否故障。

¡     若故障跟随显示器出现,则更换显示器。

¡     若故障跟随VGA线缆出现,则更换VGA线缆。

(4)     若问题仍然存在,请联系技术支持。

7.22.6  显示器上出现移动的水平线

1. 现场描述

显示器上显示缓慢移动的水平线。

2. 问题原因

·     受强磁场设备干扰

·     显示器故障。

·     VGA线缆故障。

3. 处理步骤

(1)     检查周围环境,使显示器远离其他显示器或电源变压器等强磁场设备

(2)     采用交叉验证的方法,确认显示器或VGA线缆是否故障。

¡     若故障跟随显示器出现,则更换显示器。

¡     若故障跟随VGA线缆出现,则更换VGA线缆。

(3)     若问题仍然存在,请联系技术支持。

7.23  鼠标和键盘问题

7.23.1  操作系统无法识别鼠标或键盘

1. 现象描述

操作系统无法识别鼠标或键盘。

2. 问题原因

·     鼠标或键盘故障。

·     服务器上,连接鼠标或键盘的USB接口故障。

·     BIOS中未开启连接鼠标或键盘的USB接口配置功能,此时任何连接至该接口的USB设备将会被禁用。

·     未安装USB驱动。

3. 处理步骤

(1)     BIOS Steup界面下开启USB配置功能,具体请参见7.19  USB设备问题中的步骤7.19.1  3. (1)

(2)     使用正常工作的同型号鼠标或键盘,进行交叉验证。

¡     若问题解决,说明原鼠标或键盘故障,请更换。

¡     若问题仍然存在,请执行步骤(3)

(3)     服务器开机后,按Del或者Esc进入BIOS Setup界面,选择Advanced -> USB Configuration,查看USB Devices信息,检查相应设备是否在位,如7-136所示。若在位,请执行步骤(4);若不在位,请执行步骤(5)

图7-136 USB Devices栏目信息

 

(4)     检查并安装USB最新驱动。

(5)     若问题仍然存在,请联系技术支持。

7.24  网卡问题

说明

处理网卡故障前,请确保该网卡符合服务器及操作系统兼容性要求,请通过兼容性系列查询工具检查该网卡是否符合服务器兼容性要求。

 

7.24.1  新安装的网卡无法正常工作

1. 现象描述

新安装的网卡无法正常工作。

2. 问题原因

·     PCIe连接问题

·     网卡不兼容已安装的光模块,或光模块/线缆安装不到位。

·     网卡、线缆、光模块或其他部件如Riser等发生故障。

·     服务器硬件配置问题,如槽位不匹配、CPU不在位等。

·     网卡的固件或驱动版本过低。

·     网卡与服务器不兼容。

·     网卡的固件或驱动版本与操作系统不兼容。

3. 处理步骤

(1)     请通过兼容性系列查询工具检查该网卡是否符合服务器兼容性要求。

a.     通过服务器兼容的部件查询工具查询网卡与服务器是否兼容。

b.     通过OS兼容性查询工具查询网卡与服务器安装的操作系统是否兼容。

c.     若该网卡符合服务器兼容性要求,则进行步骤(2);否则请更换符合服务器兼容性要求的网卡。

(2)     进入BIOS在服务器启动过程中,根据提示按下DeleteEsc进入BIOS Setup界面。

(3)     确认网卡是否被BIOS识别,不同的启动模式下识别方式有所不同。

¡     UEFI启动模式:在Advanced页签查看是否有网卡配置项。

图7-137 UEFI模式下网卡配置项

 

¡     Legacy启动模式查看POST阶段是否有网卡打印信息。

图7-138 Legacy模式下POST阶段网卡打印信息

 

(4)     将网卡的固件和驱动升级为满足兼容性要求的H3C官网最新版本。若问题仍存在,则执行步骤(5)

(5)     若网卡能被BIOS识别,则继续以下步骤排查故障原因,否则请执行步骤(6)

¡     确保PCIe连接正常。

¡     检查金手指、插槽及接口的物理形态是否正常。

¡     若是支持NCSI功能的PCIe卡,需检查NCSI线缆与主板连接是否正常。

¡     检查网卡和光模块的兼容性。

¡     使用正常工作的光模块进行交叉验证。

¡     检查网卡的固件和驱动是否为H3C官网最新版本。

(6)     若网卡不能被BIOS识别,则表示网卡或槽位发生硬件故障,请交叉验证,定位故障部件并更换。

(7)     若问题仍然存在,请联系技术支持。

7.24.2  网卡端口不可见

1. 现象描述

操作系统下网卡端口不可见。

2. 问题原因

·     PCIe连接问题

·     网卡的固件或驱动版本过低。

·     网卡不兼容已安装的光模块,或光模块/线缆安装不到位。

·     网卡、线缆、光模块或其他部件如Riser等发生故障。

·     服务器硬件配置问题,如槽位不匹配、CPU不在位等。

3. 处理步骤

(1)     操作系统下查看网卡的PCI设备信息。如果操作系统下无法显示网卡的PCI设备信息,请执行步骤(2);如果系统下可显示网卡的PCI设备信息,但网卡端口不可见,请执行步骤(3)

¡     Linux操作系统

a.     执行“lspci | grep Eth”命令,查看网卡的PCI设备信息。

图7-139 Linux下查看PCI设备信息

 

b.     执行ifconfig -a”命令查看网卡端口(端口名称由OS命名规则决定),表示网卡的端口已被识别。

图7-140 查看网卡端口信息

 

¡     Windows操作系统

a.     7-141所示,打开“Network Connections”,可查看到网卡信息,则网卡已正常识别。

图7-141 Windows下查看网卡

 

b.     如果在“Network Connections”中看不到相应的网络适配器,则打开“Device Manager”。在“Network adaptersOther devices”中查看是否存在Ethernet ControllerUnknown device,如7-142所示

图7-142 查看设备管理

 

(2)     操作系统下无法显示网卡的PCI设备信息,请执行以下操作

a.     确保网卡的PCIe插槽所属的CPU在位。PCIe插槽和CPU的归属关系,请参见产品用户指南。

b.     服务器断电重启,确认问题是否必现。

c.     对换不同PCIe槽位和网卡,进行交叉验证,判断是否是网卡或PCIe槽位的问题。如果为某部件问题,请更换该部件。

d.     如果网卡支持NCSI功能,请确保NCSI线缆与主板连接正常。

(3)     操作系统下可显示网卡的PCI设备信息,但是无网卡端口显示,请执行以下操作

a.     确保网卡和光模块的兼容性符合要求。网卡和光模块的兼容性请联系技术支持确认,若兼容性不满足要求,请更换光模块。

b.     使用正常工作的光模块进行交叉验证。

c.     将网卡的固件和驱动升级为满足兼容性要求的H3C官网最新版本,检查更新过程中是否有报错以及操作系统日志是否存在驱动报错打印。

(4)     若问题仍然存在,请收集故障时的操作系统日志并联系技术支持。

7.24.3  网卡端口不通

1. 现象描述

网卡端口不通。

2. 问题原因

·     网络或上联交换机配置问题。

·     网卡不兼容已安装的光模块,或光模块/线缆安装不到位。

·     网卡、线缆、光模块或其他部件如Riser等发生故障。

·     网卡的固件或驱动版本过低。

3. 处理步骤

(1)     确保网卡接口状态指示灯状态正常,线缆连接正常。部分网卡接口状态指示灯含义请参见《H3C自研网卡 datasheet》,若其中未包含所需的网卡型号,请联系技术支持获取该网卡信息。

(2)     检查网卡和光模块的兼容性。网卡和光模块的兼容性请联系技术支持确认,若兼容性不满足要求,请更换光模块。

(3)     在操作系统中查看网卡端口状态、接口数量、工作速率、双工模式等参数信息,确保和上联交换机配置保持一致。

¡     Linux操作系统

-     执行“ifconfig <网卡端口>”命令,查看系统下的网卡端口状态,IP地址是否设置正确,如7-143中①所示;

-     执行“ethtool <网卡端口>”命令,查看网卡的工作速率和双工模式,确保和上联交换机配置保持一致,如7-143中②所示。

图7-143 Linux下查看网卡状态

 

¡     VMware操作系统

-     执行“esxcli network nic list命令,查看网卡信息

-     执行“esxcli network nic up -n vmnicX命令,使能网卡端口

-     执行“esxcli network nic get -n vmnicX命令,查看网卡端口状态、固件以及驱动版本

¡     Windows操作系统

a.     在桌面“计算机”图标右键,选择“管理”。

b.     进入管理界面,选择“设备管理器——网络适配器”。

c.     在设备管理器中找到网卡,点击右键,选择属性,即可查看网卡相关信息。

图7-144 Windows下查看网卡信息

 

(4)     检查是否因为网络相关配置,如操作系统下网卡端口的IP地址、VLANbonding以及上联交换机的端口配置等导致网卡端口不通。若确认为配置原因,则请修改相关配置,否则请执行步骤(5)

(5)     将网卡的固件和驱动升级为满足兼容性要求的最新版本。

(6)     交叉验证,排查是否为硬件问题,若为硬件问题,请更换故障硬件。

¡     检查是否为线缆或光模块故障。

¡     检查是否为PCIe槽位故障。

¡     检查是否为交换机故障。

¡     联系技术支持,确认网卡与交换机是否兼容。

(7)     若问题仍然存在,请收集故障时的操作系统日志并联系技术支持。

7.24.4  网卡端口丢包/错包

1. 现象描述

网卡端口工作过程中,出现丢包或错包现象。

2. 问题原因

·     网卡、线缆、光模块或交换机故障。

·     网卡的固件或驱动版本过低。

·     网卡的固件/驱动版本与操作系统不兼容。

·     业务流量引起的丢包/错包。

3. 处理步骤

(1)     检查丢包/错包计数是否为偶发事件,若为偶发事件可以忽略,否则请执行步骤(2)

(2)     检查并确保网卡的驱动和固件版本,可通过OS兼容性查询工具查询。

(3)     通过交叉验证的方法,排查是否存在硬件故障。

¡     使用其他正常工作的线缆或光模块,检查是否为线缆或光模块故障。若为线缆或光模块故障,请更换线缆或光模块。

¡     将网卡连接至其他正常工作的交换机端口,检查是否为交换机故障。若为交换机故障,请继续定位交换机的问题。

¡     将网卡安装至其他正常工作槽位,检查是否为网卡故障。若为网卡故障,则请更换网卡。若网卡在其他槽位可正常工作,则请联系技术支持,确认是否为对应槽位故障。

(4)     切换业务流量至其他网卡端口,排查是否与业务流量有关。若确认与业务流量有关,请继续定位业务流量的问题。

(5)     若问题依然存在,请收集如下信息并联系技术支持。

¡     收集操作系统日志。

¡     收集故丢包/错包信息,例如在Linux系统下执行ethtool -S <网卡端口>,查询网口收发包统计。

图7-145 查询网口收发包统计

 

7.24.5  网卡性能不达标

1. 现象描述

网卡性能不达标,如实际端口速率无法达到网卡规格等。

2. 问题原因

·     操作系统下的部分配置被修改,如各CPU CORE之间的网卡中断分布不均、网卡端口Buffer被修改等。

·     网卡的固件或驱动版本过低。

3. 处理步骤

(1)     更新网卡的固件和驱动版本至H3C官网最新版本。

(2)     在操作系统下检查问题是否由操作系统下的网卡配置引起,以Linux操作系统为例:

a.     系统下执行“cat /proc/interrupts | grep -i <网卡驱动名>”命令,查看网卡中断与CPU CORE的绑定关系,排查中断分布是否均匀。通常情况下,系统会自动平衡中断,负载较大时可能出现性能不达标的情况。故当出现分布不均匀或无法判断时,请联系技术支持获取具体的调整方式及策略;若分布均匀,请执行步骤b

图7-146 查看网卡中断是否分布均匀

 

b.     系统下执行“ethtool -g <网卡端口>”命令,排查是否修改过网卡端口Buffer。可执行“ethtool -G <rx/tx> <buffer size>”命令调整当前网卡的Buffer size默认为最小值,当出现性能瓶颈时,建议调大该参数值,具体的调整方式及策略请联系技术支持获取。若确认网卡端口Buffer无需调整,请执行步骤c

图7-147 查看网卡端口Buffer

 

c.     系统下执行“ethtool -k <网卡端口>”,查看是否修改过LROTSO等设置。可使用“ethtool -k <网卡端口> tso/lro on”命令开启这些参数,具体的调整方式及策略请联系技术支持获取。

图7-148 查看网卡端口LRO/TSO等设置

 

(3)     若问题依然存在,请收集操作系统日志并联系技术支持。

7.24.6  mLOM网卡故障

1. 现象描述

mLOM网卡出现硬件故障。

2. 问题原因

网卡硬件故障

3. 处理步骤

检查mLOM网卡电源灯是否绿色常亮,如7-149红圈所示,如果不亮,表示mLOM网卡故障,请更换。如果电源灯绿色常亮,则表示mLOM网卡未出现故障,请检查其他方面故障原因或联系技术支持。

图7-149 检查mLOM网卡电源灯是否绿色常亮

 

7.24.7  mLOM网卡可以识别但网络不通

1. 现象描述

mLOM网卡可以识别但网络不通。

2. 问题原因

·     mLOM网卡与交换机的兼容性问题。

·     mLOM网卡与服务器的兼容性问题。

3. 处理步骤

请先按照7.24.3  网卡端口不通操作步骤排查故障;若未能解决,请确认以下注意事项:

·     查看mLOM网卡和交换机的配置,万兆mLOM网卡无法兼容百兆交换机,需将网卡接入千兆或万兆交换机。

·     当服务器为R2900 G3R2700 G3机型时,不支持万兆mLOM网卡,需重新配置其他mLOM网卡。

若问题依然存在,请收集故障时的操作系统日志并联系技术支持。

7.24.8  FEC模式不一致导致网卡端口不通

1. 现象描述

网卡与交换机的FECForward Error Correction,前向纠错)模式不一致,网口无法link up

2. 问题原因

FEC的模式不同且无法成功协商,纠错的编解码方案不一致,需要手动设置网卡FEC模式(No-FECBase-R/FireCode FECRS-FEC),将网卡和交换机FEC修改为同一模式。

3. 处理步骤

(1)     查看网卡的FEC模式

¡     Linux 操作系统

执行“ethtool –show-fec <网卡端口>”命令,查看系统下的网卡FEC模式,如7-150所示。

图7-150 Linux下查看网口FEC模式

 

¡     Windows操作系统

-     Mellanox网卡

a)     安装mft工具,开启mst服务,执行mst start

b)     查看MST devices:执行mst status

c)     查看FEC模式,执行mlxlink -d <MST device> --show_fec,如7-151所示。

图7-151 Mellanox网卡Windows下查看网口FEC模式

 

-     Broadcom网卡

a)     进入工具所在目录,查看设备,执行bnxtnvm listdev

b)     查看网卡FEC模式,执行bnxtnvm -dev=<” Interface Name”> getoption=fwd_err_correct:0,如7-152所示。

图7-152 Broadcom网卡Windows下查看网口FEC模式

 

-     Intel网卡

a)     下载并安装Wired_driver

b)     下载并安装Wired_PROSet

c)     双击运行Intel(R) PROSet Adapter Configuration Utility,选择对应网口,查看FEC Mode

图7-153 Intel网卡Windows下查看网口FEC模式

 

¡     VMware操作系统

-     Mellanox网卡

a)     安装mft工具,开启mst服务,执行/opt/mellanox/bin/mst start

b)     查看MST devices:执行/opt/mellanox/bin/mst status

c)     查看FEC模式,执行/opt/mellanox/bin/mlxlink -d <MST device> --show_fec

图7-154 Mellanox网卡VMware下查看网口FEC模式

 

-     Broadcom网卡

a)     进入工具所在目录,给予工具权限,执行chmod 777 bnxtnvm

b)     查看设备,执行./bnxtnvm listdev

c)     查看网卡FEC模式,执行./bnxtnvm -dev=<Interface Name> getoption=fwd_err_correct:0,如7-155所示。

图7-155 Broadcom网卡VMware下查看网口FEC模式

 

-     Intel网卡(700800系列网卡)

a)     下载并安装intnetcli插件,执行esxcli software vib install -v /vmfs/volumes/datastore1/file.vib

b)     安装完成后重启系统;

c)     进入系统后,查看网口FEC模式,执行esxcli intnet fec list,如7-156

图7-156 Intel网卡VMware下查看网口FEC模式

 

(2)     修改网卡的FEC模式。

¡     Linux 操作系统

-     方法一:在rc.local中加入FEC配置(该方法重启后有效,推荐)。

a)     编辑/etc/rc.d/rc.local文件,执行vim /etc/rc.d/rc.local,写入ethtool --set-fec 网口名 encoding Base-R/off

b)     给予rc.local执行权限,执行chmod 777 /etc/rc.d/rc.local

c)     启动rc-local服务,执行systemctl start rc-localsystemctl enable rc-local

d)     重启服务器。

-     方法二:执行“ethtool –set-fec <网卡端口> encoding off/Base-R/rs/auto”命令,修改系统下的网卡FEC模式(该方法重启后不再生效)。

¡     Windows操作系统

-     Mellanox网卡

a)     安装mft工具,开启mst服务,执行mst start

b)     查看MST devices:执行mst status

c)     执行mlxlink -d <MST device> --fec NF/FC/RS/AU --fec_speed <speed>,修改FEC模式。

AUAutoNFNo-FECFCFireCode FECRSRS-FEC

d)     重新link up网口,执行mlxlink -d <dev> -a TG

-     Broadcom网卡

a)     进入BIOS->Advance->目标网口配置->Device Configuration Menu

b)     修改Link FEC选项Disable/CL74-Fire Code/ CL91-Reed Solomon/CL74&CL91-Both,保存BIOS配置。如7-157所示。

图7-157 Broadcom网卡BIOS下修改网口FEC模式

 

Disable – No-FecCL74 - Fire CodeFireCode FECCL91-Reed SolomonRS-FECCL74&CL91 – Both:支持FireCodeRS-FEC

-     Intel网卡

a)     下载并安装Wired_driver

b)     下载并安装Wired_PROSet

c)     双击运行Intel(R) PROSet Adapter Configuration Utility,选择对应网口,点击FEC Mode,修改Current Valuede,修改完成后点击Apply Changes按钮。

图7-158 Intel网卡windows下修改网口FEC模式

 

¡     VMware操作系统

-     Mellanox网卡

a)     安装mft工具,开启mst服务,执行/opt/mellanox/bin/mst start

b)     查看MST devices:执行/opt/mellanox/bin/mst status

c)     执行/opt/mellanox/bin/mlxlink -d <MST device> --fec NF/FC/RS/AU --fec_speed <speed>,修改FEC模式。

AUAutoNFNo-FECFCFireCode FECRSRS-FEC

d)     重新link up网口,执行/opt/mellanox/bin/mlxlink -d <dev> -a TG

-     Broadcom网卡

VMware修改方法同Windows系统。

-     Intel网卡

a)     下载并安装intnetcli插件,执行esxcli software vib install -v /vmfs/volumes/datastore1/file.vib

b)     安装完成后重启系统;

c)     进入系统后,修改网口FEC模式,执行esxcli intnet fec set -m <模式> -n <网口>

模式可以设置为:Auto-FEC, No-FEC, RS-FEC, FC-FEC/BASE-R

 

FEC配置工具下载:

-     Mellanox网卡工具

Mellanox网卡FEC配置工具,请见7-6

表7-6 Mellanox网卡FEC配置工具

操作系统

工具名称

下载链接

Windows

MFT

https://network.nvidia.com/products/adapter-software/firmware-tools/

VMware

MFT

https://network.nvidia.com/products/adapter-software/firmware-tools/

-     Broadcom网卡工具

见对应网卡的固件工具包,链接:

https://www.h3c.com/cn/BizPortal/DownLoadAccessory/DownLoadAccessoryFilt.aspx

-     Intel网卡工具

Intel网卡FEC配置工具,请见7-7

表7-7 Intel网卡FEC配置工具

操作系统

工具名称

下载链接

Windows

Wired_driverWired_PROSet

https://www.intel.cn/content/www/cn/zh/homepage.html

VMware

intnetcli

https://www.intel.cn/content/www/cn/zh/download/19380/intel-esxcli-plug-in-for-managing-intel-ethernet-network-adapters.html?wapkw=ESXCLI

 

7.25  FC HBA卡问题

7.25.1  存储设备无法识别FC HBA卡端口的WWPN

1. 现象描述

7-159所示,服务器上安装FC HBA卡,通过FC交换机连接存储设备。此时存储设备无法识别FC HBA卡端口的WWPN

图7-159 存储网络链路图

 

2. 问题原因

·     FC HBA卡的固件或驱动版本过低,或版本与操作系统不兼容。

·     FC HBA卡端口与存储设备不属于同一Zone

·     FC链路上的硬件发生故障,如FC HBA卡、线缆或光模块等。

·     存储设备侧与交换机之间的识别出现问题。

3. 处理步骤

(1)     检查并确保FC HBA卡上连的交换机端口UP

(2)     具体方法:登录交换机(本文以H3C交换机为例),通过display interface fc xxx brief命令查看端口状态。例如,显示接口FC1/0/1的概要信息。

<Sysname> display interface fc 1/0/1 brief

Brief information on FC interface(s):

Admin Mode: auto - auto; E - e port; F - f port; NP - n port proxy

Oper Mode: E - e port; F - f port; NP - n port proxy;

           TE - trunking e port; TF - trunking f port;

           TNP - trunking n port proxy

Interface  VSAN Admin Admin Oper Oper   Status SAN-Aggregation

                Mode  Trunk Mode Speed

                      Mode

Fc1/0/1    2    F     off   F    4G     UP     SAGG23

(3)     通过查询交换机能否识别FC HBA卡端口WWPN,判断FC HBA卡能否注册到交换机。

(4)     具体方法:登录交换机(本文以H3C交换机为例),通过display fc login命令查看节点注册的相关信息。例如,显示VSAN 1的节点注册的相关信息。

<Sysname> display fc login vsan 1

Interface VSAN FCID     Node WWN                Port WWN

Vfc1      1    0x010000 21:01:00:1b:32:a0:fa:18 21:01:00:1b:32:a0:fa:17

如果交换机可以识别FC HBA卡端口WWPN,则表示FC HBA卡已成功注册到交换机,请执行步骤(5)

如果交换机无法识别FC HBA卡端口的WWPN,则表示FC HBA卡没有成功注册到交换机,请执行以下步骤确认无法注册的具体原因。

a.     请确保FC HBA卡所在槽位,对应的CPU在位。对应关系请参见产品用户指南。

b.     通过HDM Web界面,检查能否看到FC HBA卡在位信息,如7-160所示

-     是,执行步骤7-160c

-     否,此时可能出现服务器部件故障,比如通过交叉验证的方式,检查FC HBA卡和对应槽位是否正常,更换出现故障的部件。

图7-160 确认HDM上的FC HBA卡在位信息

 

c.     检查并确保FC HBA卡到交换机的FC链路正常。比如通过交叉验证的方法,检查线缆、光模块是否存在故障

-     是,请更换线缆或光模块;

-     否,执行步骤d

d.     检查并确保FC HBA卡安装了与当前操作系统兼容的H3C官网最新驱动和固件版本。具体兼容的版本,可通过OS兼容性查询工具查询。

e.     对于多交换机连接的场景,检查交换机N_PortE_PortF_Port模式等是否正确,详细方法请参见交换机配置命令手册。

f.     若问题依然存在,请收集以下日志信息,并联系技术支持。

-     收集操作系统日志及FC HBA卡日志信息。

-     收集交换机日志信息,具体方法请参见交换机日志手册。

(5)     通过查询交换机能否识别存储设备WWPN,检查存储设备是否已注册到交换机,具体方式请参考步骤(3)中诊断FC HBA卡是否注册到交换机的方法。如存储设备已成功注册到交换机,则执行步骤(7);否则请执行步骤(6)

(6)     检查并确保存储设备到交换机的FC链路正常,比如通过交叉验证的方法,检查线缆、光模块是否存在故障。

-     是,请更换线缆或光模块;

-     否,执行步骤(7)

(7)     在交换机上执行对应命令,判断FC HBA卡端口与存储设备端口是否在同一个Zone。是,则执行步骤(8);否则通过交换机配置为同一个Zone。例如在博科交换机中执行zoneshow查询对应信息,具体操作如7-161所示,对于命令的详细信息请参见交换机命令手册。

图7-161 检查FC HBA卡端口与存储设备端口是否在同一个Zone

 

(8)     对于同厂家多交换机级联场景,检查Zone的配置是否一致,对于命令的详细信息请参见各厂家交换机命令手册。

(9)     若问题依然存在,请收集以下日志信息,并联系技术支持。

¡     收集操作系统日志及FC HBA卡日志信息。

¡     收集交换机日志信息,具体方法请参见交换机日志手册。

7.25.2  存储设备已经识别FC HBA卡的端口WWPN但服务器端无法识别到LUN

1. 现象描述

7-162所示,服务器上安装FC HBA卡,通过FC交换机连接存储设备。此时存储设备已经识别FC HBA卡的端口WWPN,但服务器端无法识别到LUN

图7-162 存储网络链路图

 

2. 问题原因

·     FC HBA卡的固件和驱动版本过低、或版本与操作系统不兼容。

·     操作系统未识别LUN,需要重新扫描FC链路。

·     存储设备异常

·     FC链路异常。

3. 处理步骤

(1)     检查并确保FC HBA卡安装了与当前操作系统兼容的驱动和固件版本。具体兼容的版本,可通过OS兼容性查询工具查询。

(2)     收集操作系统日志及FC HBA卡日志,在日志中查找FC HBA卡驱动打印的信息,查询是否存在链接建立及LUN识别相关的日志信息。

¡     若存在,则表示之前曾成功建立链接及识别LUN,此时可执行步骤(3)再次扫描并识别存储链路。

¡     若不存在,则表示未建立过链接,此时检查并确保FC HBA卡到交换机的FC链路正常。比如通过交叉验证的方法,检查线缆、光模块是否存在故障。如果确认问题与硬件链路相关,请更换对应故障硬件,确认问题是否仍存在。如果确认问题与硬件链路无关或更换后问题仍存在,请联系技术支持。

图7-163 查询链接建立及LUN识别相关的日志信息

 

(3)     执行命令echo 1 > /sys/class/fc_host/host<number>/issue_lip,重新扫描整个链路,其中number表示对应端口号,numberFC HBA端口的对应关系可通过操作系统日志中的“host#”确认。以7-164为例,可看到3b:00.0对应的fc_host number4

图7-164 numberFC HBA端口的对应关系

 

7-165所示,确定端口号后,执行命令重新扫描整个链路。之后检查服务器能否正常识别LUN

图7-165 重新扫描FC链路

 

(4)     如果以上步骤均无问题,则表明服务器侧处于正常状态,请联系存储设备厂商或OS厂商进一步排查存储设备测或OS应用层问题。如需服务侧配合进一步定位问题,请收集日志,并联系技术支持。

7.25.3  存储设备LUN多路径链路部分丢失

1. 现象描述

7-166所示,服务器上安装FC HBA卡,通过多个FC交换机创建多路径连接到存储设备。此时存储设备LUN多路径链路部分丢失。

图7-166 存储LUN多路径链路

2. 问题原因

·     FC HBA卡的固件和驱动版本过低、或版本与操作系统不兼容。

·     服务器操作系统中的多路径驱动异常。

·     交换机异常。

·     存储设备异常。

·     FC链路上的硬件发生故障,如FC HBA卡、线缆或光模块等。

3. 处理步骤

(1)     检查并确保FC HBA卡安装了与当前操作系统兼容的驱动和固件版本。具体兼容的版本,可通过OS兼容性查询工具查询。

(2)     在交换机侧查看统计信息,排查FC HBA卡到存储设备的FC链路是否出现误码,误码则说明FC链路异常,请执行步骤(3);否则请执行步骤(4)。例如在博科交换机中执行porterrshow查询对应信息:

¡     检查crc_err参数值:该值用于反馈数据帧CRC校验错误。若数据帧损坏,接收端会发现该值不一致,继而该报错值增长;若其值为0,则表示数据帧正常,否则表示链路中可能出现硬件故障。

¡     检查enc_out参数值:数据帧帧外编码错误造成的错误值累积,通常反映了线缆质量问题,或末端设备异常。此外,由于末端设备的重启带来的端口上下线也可能会引起enc_out的增长。若其值为0,则表示数据帧正常,否则表示链路中可能出现线缆故障。

7-167Port 0连接的FC链路为例,当crc_errenc_out参数值都为0,则表示FC链路中硬件正常,请执行步骤(4);否则表示FC链路中出现硬件故障,请执行步骤(3)

图7-167 排查HBA到存储设备的FC链路误码

 

(3)     若为FC链路硬件故障,请换对应故障硬件。比如通过交叉验证的方法,检查线缆、光模块是否存在故障。如果确认问题与该硬件相关,请更换对应故障硬件,之后确认问题是否仍存在。如果确认问题与硬件链路无关或更换后问题仍存在,请联系技术支持。

(4)     如果以上步骤均无问题,则表明服务器侧处于正常状态,请联系存储设备厂商或OS厂商进一步排查存储设备测或OS多路径驱动问题。如需服务侧配合进一步定位问题,请收集日志,并联系技术支持。

7.25.4  存储设备LUN读写性能低

1. 现象描述

7-168所示,服务器上安装FC HBA卡,通过FC交换机连接存储设备。此时存储设备LUN读写性能低。

图7-168 存储网络链路图

 

2. 问题原因

·     FC HBA卡的固件和驱动版本过低、或版本与操作系统不兼容。

·     服务器至存储设备的FC链路异常。

·     存储设备异常。

3. 处理步骤

(1)     检查并确保FC HBA卡安装了与当前操作系统兼容的驱动和固件版本。具体兼容的版本,可通过OS兼容性查询工具查询。

(2)     对比本地与远程的I/O性能,判断是否为FC链路导致存储设备LUN读写性能低。

a.     在服务器侧检查本地I/O延迟与并发数,与其他相同配置下的服务器I/O性能做对比,判断服务器的本地I/O是否达到性能要求。是,则表示本地I/O性能正常,请执行步骤7-169b;否则请联系技术支持,检查服务器本地I/O性能问题。

例如,在Linux操作系统下可以执行iostat命令检查以下参数值判断I/O性能:

-     r/s:每秒完成的读次数。

-     w/s:每秒完成的写次数。

-     await:平均每次I/O请求等待时间。

-     r_await:平均每次读请求等待时间。

-     w_await:平均每次写请求等待时间。

图7-169 检查io延迟与并发数

 

b.     在服务器侧操作系统上测试远程存储设备I/O性能,即从FC HBA卡端口到存储设备硬盘性能是否达到预估性能。将步骤a中本地的I/O性能与远程测试做对比,判断是否出现明显性能下降。是,则表示FC HBA卡到存储设备的链路出现问题,请执行步骤(3);否则请联系应用层技术支持,判断是否为应用问题导致性能下降。

例如,在Linux操作系统中通过执行dd命令测试不同块大小I/O性能,或通过文件拷贝形式测试大文件(100G)和小文件(100M)读写测试。

图7-170 测试FC HBA卡到硬盘性能是否达到I/O规格

 

(3)     在交换机侧查看统计信息,排查FC HBA卡到存储设备的FC链路是否出现误码,误码则说明FC链路异常,请执行步骤(4);否则请执行步骤(5)。例如在博科交换机中执行porterrshow查询对应信息:

¡     检查crc_err参数值:该值用于反馈数据帧CRC校验错误。若数据帧损坏,接收端会发现该值不一致,继而该报错值增长;若其值为0,则表示数据帧正常,否则表示链路中可能出现硬件故障。

¡     检查enc_out参数值:数据帧帧外编码错误造成的错误值累积,通常反映了线缆质量问题,或末端设备异常。此外,由于末端设备的重启带来的端口上下线也可能会引起enc_out的增长。若其值为0,则表示数据帧正常,否则表示链路中可能出现线缆故障。

7-171Port 0连接的FC链路为例,当crc_errenc_out参数值都为0,则表示FC链路中硬件正常,请执行步骤(5);否则表示FC链路中出现硬件故障,请执行步骤(4)

图7-171 排查HBA到存储设备的FC链路误码

 

(4)     若为FC链路硬件故障,请换对应故障硬件。比如通过交叉验证的方法,检查线缆、光模块是否存在故障。如果确认问题与该硬件相关,请更换对应故障硬件,之后确认问题是否仍存在。如果确认问题与硬件链路无关或更换后问题仍存在,请执行步骤(5)

(5)     检查存储设备侧是否出现性能下降。例如可使用交叉验证的方式,通过正常工作的服务器检查存储设备是否正常工作。如果存储设备侧出现问题,请联系存储设备厂商分析,否则请收集操作系统日志及FC HBA卡日志信息,并联系技术支持

7.26  PCIe卡问题

7.26.1  PCIe卡在BIOS下无法识别

1. 现象描述

PCIe卡在BIOS下无法识别。

2. 问题原因

·     PCIe卡不支持该服务器。

·     PCIe卡或者Riser卡的金手指氧化导致接触不良,或者Riser插槽底座存在灰尘异物

·     BIOS Setup界面的PCI-E Port状态值设置有误

·     PCIe卡本身存在硬件故障

·     Riser卡存在硬件故障

·     主板上的Riser槽位存在硬件故障

3. 处理步骤

(1)     通过部件兼容的服务器查询工具,查询该PCIe卡是否支持该服务器。

(2)     检查PCIe卡、Riser卡和主板之间是否安装连接正确;金手指和PCIe插槽之间是否接触良好;金手指是否被氧化污染,槽位中是否有灰尘等异物。金手指氧化造成的接触不良,可以通过橡皮擦拭金手指来解决;灰尘引起的接触不良,一般清除灰尘后即可解决。

图7-172 金手指正常(左),金手被氧化(右)

 

(3)     如果安装没有问题,进入BIOS Setup-> Advance->Socket Configuration->IIO Configuration中查看该卡的PCI-E Port状态值和PCI-E Port Link Status链接状态值。PCI-E Port Link Status链接状态值若显示为“Linked as xx”则表示链路已连通,如7-173所示;若显示为“Link Did Not Train”则表示链路未连通,如7-174所示。

图7-173 PCIe链路已连通

 

图7-174 PCIe链路未连通

 

a.     检查PCI-E Port状态:若PCI-E Port状态为Disabled,则会导致链路不通更改PCI-E Port状态Enabled或者Auto并保存退出,之后检查PCIe卡是否正常识别。

b.     当出现PCI-E Port状态为EnabledAuto而链路不通时,可能表示PCIe卡的固件版本和BIOS版本不适配导致无法识别,需要升级PCIe卡的固件至最新版本或者更新和PCIe卡适配的BIOS版本,PCIe卡的固件版本如7-175所示。

图7-175 PCIe卡固件版本

 

(4)     检查HDM事件日志。如果日志中描述信息出现“Interrupt, EventType: Discrete, Event: Bus uncorrectable error, Data2: xx, Data3:x Bus uncorrectable error---Slot  X---PCIE Name: XXX”字样,表明PCIe卡出现损坏故障,请更换PCIe卡。

图7-176 HDM查看事件日志

 

(5)     交叉验证,更换一个可正常工作的PCIe卡后,查看PCIe卡是否能够识别,如果仍然无法被识别,请检查Riser卡是否存在故障。

(6)     交叉验证,更换一个可正常工作的同型号Riser卡,查看PCIe卡是否能够识别以确认是否Riser卡故障。

(7)     如果确认PCIe卡和Riser卡都是正常的,则进入BIOS查看主板PCIe插槽是否存在故障。

a.     7-177所示,设置EFI Shell Boot选项为Enabled

图7-177 设置EFI Shell Boot选项

 

b.     重启生效后,按F7进入Boot Menu,选择UEFI:Built-in EFI Shell启动项,如7-178所示。

图7-178 选择UEFI:Built-in EFI Shell

 

c.     进入UEFI Shell界面。如7-179所示,通过help命令查看支持的Shell命令。

图7-179 UEFI Shell界面

 

d.     在当前页面输入命令smbiosview -t 9 -b查看插槽信息。如果无法查看到PCIe插槽信息,即说明插槽存在故障,请更换主板;如果能查看到PCIe插槽信息,说明插槽正常。

图7-180 EFI Shell界面

 

图7-181 插槽信息界面(PCIe slot 5插槽正常)

 

(8)     若问题依然存在,请联系技术支持。

7.26.2  PCIe卡故障报错

1. 现象描述

PCIe卡无法正常使用,且HDM的事件日志中,出现PCIe卡报错信息,可以精确到Slot,如7-182所示。

图7-182 HDM出现PCIe卡报错信息

 

2. 问题原因

·     PCIe卡存在硬件故障。

·     PCIe卡的固件或驱动版本过低。

3. 处理步骤

(1)     如果是新安装的PCIe卡,请检查该卡是否符合服务器兼容性要求。

a.     通过服务器兼容的部件查询工具查询该卡与服务器是否兼容。

b.     通过OS兼容性查询工具查询该卡与服务器安装的操作系统是否兼容。

c.     若该卡符合服务器兼容性要求,则进行步骤(2);否则请更换该卡。

(2)     登录H3C官网,下载并更新PCIe卡固件及驱动至最新版本。

(3)     如果更新驱动及固件后仍未解决问题,则更换其他正常工作PCIe卡,排查是否为PCIe卡故障。

(4)     若问题依然存在,请收集HDM SDS日志以及操作系统日志,并联系技术支持。

7.26.3  PCIe卡协商速率降速或协商带宽降低

1. 现象描述

查看HDM[系统信息]菜单项,单击PCIe设备页签,如7-183所示,界面显示PCIe卡的协商速率或协商带宽降低,与实际需求不符。

图7-183 查看PCIe卡信息

 

2. 问题原因

·     PCIe卡存在硬件故障。

·     PCIe卡连接的Slot槽位的链路带宽速率不符合带宽速率需求。

·     BIOS Setup界面的Link speed设置有误。

·     PCIe卡固件、驱动版本已过时、不匹配或发生故障。

3. 处理步骤

(1)     检查PCIe卡连接的Slot槽位的链路带宽是否满足PCIe卡的带宽需求。

a.     通过产品用户指南确认该slot槽位的链路带宽。

b.     通过服务器兼容的部件查询工具查询该PCIe卡的带宽和速率规格,确保Slot槽位链路带宽不低于PCIe卡的最低带宽需求。

(2)     若满足硬件需求,则进入BIOS Setup->Socket Configuration->IIO Configuration中查看该PCIe卡的Link Speed状态值和PCI-E Port Link Status链接状态值。

图7-184 BIOSPCIe卡的PCIe参数信息

 

a.     检查Link Speed状态:确保Link Speed状态Auto并保存。

b.     检查PCI-E Port Link status PCI-E Port Link speed状态值是否符合预期速率。若不符合预期速率则将Link Speed的当前状态值手动设置为预期速率。保存并重启后重新进入该界面检查此时Link Speed状态值是否符合预期。

图7-185 修改BIOS 界面下PCIe Link Speed信息

 

(3)     下载并更新PCIe卡固件及驱动至最新版本。

(4)     交叉验证PCIe卡是否出现故障,将该卡安装至可正常工作的槽位,检查其能否正常工作,若在其他槽位可正常工作,则执行步骤(5),否则请更换该PCIe卡。

(5)     交叉验证主板PCIe槽位或Riser卡是否出现故障,若确认为主板槽位故障或Riser卡故障,请更换故障部件,否则请执行步骤(6)

(6)     若问题依然存在,请联系技术支持。

7.27  线缆问题

7.27.1  线缆安装注意事项

1. 线缆安装原则

·     服务器只能使用本服务器附带的线缆,不能使用第三方线缆或其他服务器附带的线缆。

·     线缆仅适用于本服务器,不能使用在其他设备上。

·     新增部件时,请务必连接配套的线缆。比如安装了GPU卡,但没有连接配套的GPU卡电源线,会导致GPU无法正常使用。线缆的正确连接方法,请参见产品用户指南。

·     根据产品的配置要求,部件(比如存储控制卡、GPU卡)安装位置发生变更时,配套线缆也需要同步变更。需要注意的是:

¡     变更后,如果线缆长度不够,请联系技术支持,获取较长的线缆。

¡     线缆另一端连接的接口位置,可能需要变更,具体请参见产品用户指南。

·     安装或拆卸任何非热插拔部件及配套线缆时,请先将设备下电。

·     如果线缆自带标签不能充分区分各根线缆时,请通过增加工艺标签来标识线缆。

2. 线缆安装前注意事项

·     确保线缆及接口没有损坏。

·     确认线缆的安装位置,避免安装到错误的接口。

·     如果线缆连接器上有保护套,线缆连接前,请先移除保护套。

3. 线缆安装过程中注意事项

·     线缆走线请勿遮挡服务器的进出风口,否则会影响服务器散热。

·     线缆连接时,请缓缓将线缆插入接口中,避免用力过大而导致接口损坏。

·     请妥善走线,确保线缆不会被挤压。

·     线缆走线时,建议避开服务器上未倒圆或者未安装绝缘衬套边沿,同时不要用力拉扯连接器。

·     外部带有网状包裹的线缆在走线时,需注意机箱内部的蘑菇头,避免拉扯。

·     线缆不能走线到可插拔部件的上方,比如内存上方。

·     线缆走线不能阻碍其他部件的插拔,确保和机箱内任何组件没有干涉。

·     确保线缆走线清晰,并且有自己的固定空间,不会被机箱内结构件挤压或刮擦。当过多线缆同时使用线扣固定时,请适当调整线缆数量,避免过多线缆拉扯线扣,造成线扣脱落。

·     线缆过长时建议适当绑扎。当前不用的线缆,建议将其盘绕整理,用线扣固定。

·     硬盘线缆连接时,请确保数据线、电源线、信号线均安装到位。数据线缆连接时,听到咔嗒声,说明连接到位。

7.27.2  多块连续硬盘报硬盘故障

1. 现象描述

·     多块连续硬盘的硬盘Fault/UID指示灯橙色常亮,表示硬盘出现故障。硬盘指示灯的位置和含义,请参见产品用户指南。

·     7-186所示,HDM事件日志中显示多块连续硬盘的故障信息。

图7-186 HDM事件日志中显示多块连续硬盘的故障信息

 

 

2. 问题原因

·     采用了服务器不支持的硬盘相关线缆,包括数据线缆、电源线缆和信号线缆。比如:使用了第三方线缆或其他服务器附带的硬盘线缆。

·     硬盘线缆连接有误。

3. 处理步骤

(1)     检查并确保服务器使用了该服务器附带的硬盘相关线缆(数据线缆、电源线缆和信号线缆)。比如:通过查看线缆编码、接口形态,判断当前是否使用了第三方或其他服务器附带的线缆。

(2)     服务器上配置了多块硬盘背板时,请检查并确保各硬盘背板上的数据线缆、信号线缆均正确连接,不存在各硬盘背板之间的线缆交叉接反等现象。正确的线缆连接方法请参见产品用户指南。

(3)     若问题仍然存在,请联系技术支持。

 


8 软件类问题

8.1  操作系统问题

8.1.1  选择服务器兼容的操作系统

1. 现象描述

不确定待安装的操作系统是否和服务器兼容。

2. 处理步骤

(1)     通过OS兼容性查询工具,查询服务器兼容的操作系统、以及当前服务器上的部件和操作系统的兼容性。

(2)     如有其它问题,请联系技术支持。

8.1.2  选择操作系统安装方式

1. 现象描述

服务器支持哪些操作系统安装方式,如何选择合适的安装方式。

2. 处理步骤

请登录官网获取《操作系统安装指导》,了解服务器支持的操作系统安装方式、各种安装方式的使用场景,然后根据实际情况选择合适的安装方式。

8.1.3  操作系统安装时出错的问题

1. 现象描述

安装操作系统过程中出现无法安装等错误提示,导致安装失败,如8-18-2所示。

图8-1 操作系统安装时出错示例

 

图8-2 操作系统安装时出错示例

 

 

2. 问题原因

·     操作系统与服务器不兼容。

·     操作系统镜像文件损坏或被修改。

·     操作系统安装步骤不正确。

·     BIOS配置错误导致操作系统无法安装。

3. 处理步骤

(1)     参考8.1.1  选择服务器兼容的操作系统,确认服务器是否兼容该操作系统。

(2)     检查操作系统镜像文件是否完整,是否做过修改。

(3)     参考《操作系统安装指导》,检查操作系统的安装步骤是否正确。

(4)     参考《操作系统安装指导》中的“常见问题解答”章节,查看是否有相关操作指导。

(5)     确认BIOS是否做过特殊配置。如有,请尝试恢复BIOS出厂配置后重新安装操作系统。

(6)     若问题仍然存在,请向操作系统厂商获取技术支持。

8.1.4  操作系统安装过程中出现硬盘识别问题

1. 现象描述

操作系统安装系统过程中出现无法识别到硬盘、硬盘容量识别错误、选择安装位置后报错等问题,如8-38-4所示。

图8-3 无法识别硬盘示例图

 

图8-4 硬盘容量识别错误示例图

 

2. 问题原因

·     操作系统与服务器不兼容。

·     存储控制卡或硬盘未安装到位。

·     存储控制卡或硬盘的线缆连接异常。

·     存储控制卡或硬盘故障。

·     存储控制卡的RAID配置不正确。

·     存储控制卡未加载驱动程序,或驱动程序版本过低。

·     硬盘上有残留的RAID信息,导致RAID配置失败。

3. 处理步骤

(1)     参考8.1.1  选择服务器兼容的操作系统,确认服务器是否兼容该操作系统。

(2)     请确认存储控制卡和操作系统的目标存储介质(如:硬盘、M.2 SSD卡、SD卡等)已经正确安装到服务器。

(3)     检查目标存储设备的连接状态是否正常,是否存在线缆未连接、错接的情况。

(4)     检查HDM的存储页面或BIOS(仅UEFI模式)的Advanced页面,确认是否能正确识别到存储控制卡和目标存储设备,如果识别不到,请重新插拔或更换存储控制卡和目标存储设备。

(5)     检查存储控制卡的配置,包括存储控制卡的模式,RAID配置等。

(6)     确认存储控制卡型号和OS版本,检查是否加载了存储控制卡驱动。

(7)     将存储控制卡驱动升级到最新版本。

(8)     如果目标存储设备是硬盘,那么要检查硬盘上是否有残留的RAID信息。如有,尝试将硬盘格式化后重新配置RAID使用。

(9)     若问题仍然存在,请联系技术支持。

8.1.5  操作系统无法正常引导

1. 现象描述

操作系统安装完成,重启后无法进入操作系统。

可能表现为如下现象:

·     BIOSSave & Exit界面Boot Override选项下看不到启动项,如8-5所示。

图8-5 看不到启动项

 

·     操作系统引导时报错,如8-6所示。

图8-6 操作系统引导时报错

http://zhiliao.h3c.com/uploads/t/20200701/15935669742075.jpg

 

·     操作系统引导时卡死,如8-7所示

图8-7 操作系统引导时卡死

http://zhiliao.h3c.com/uploads/t/20201125/16062687899206.png

 

2. 问题原因

·     操作系统与服务器不兼容。

·     BIOS的启动模式发生变更。

·     BIOS中的服务器启动项不正确。

·     BIOS中的部分配置异常。

·     BIOS固件版本过低。

3. 处理步骤      

(1)     参考8.1.1  选择服务器兼容的操作系统,确认服务器是否兼容该操作系统。

(2)     确保BIOS的启动模式(包括UEFILegacy)与安装操作系统时的设置一致。

(3)     检查BIOS中的服务器启动项,确认操作系统所在存储设备已被设置为第一启动项。

(4)     确保服务器的BIOS已升级到最新版本。

(5)     如果环境中部署了另一台软硬件配置很接近,且正常运行的服务器。可以对比故障服务器与正常服务器的BIOS配置项,并参考正常服务器的BIOS设置修改故障服务器的BIOS配置项。

(6)     若问题仍然存在,请保存故障相关截图(如:启动时卡住的截图、BIOS中启动项设置截图等),收集HDM SDS日志,然后联系技术支持。

8.1.6  操作系统启动时引导慢

1. 现象描述

操作系统安装完成后重启,BIOS启动过程正常,操作系统能引导,但过程非常缓慢。

2. 问题原因

·     操作系统与服务器不兼容。

·     存储控制卡的驱动版本过低。

3. 处理步骤

(1)     参考8.1.1  选择服务器兼容的操作系统,确认服务器是否兼容该操作系统。

(2)     确保存储控制卡的驱动已升级到最新版本。

(3)     若问题仍然存在,请联系技术支持。

8.1.7  操作系统下无法识别全部硬盘容量

1. 现象描述

操作系统安装完成后能正常引导,但在操作系统下无法识别全部硬盘容量。

2. 问题原因

·     操作系统与服务器不兼容。

·     操作系统内核运行异常。

·     存储控制卡的驱动版本过低。

3. 处理步骤

(1)     参考8.1.1  选择服务器兼容的操作系统,确认服务器是否兼容该操作系统。

(2)     请确认存储控制卡配置的RAID级别。组建带有冗余功能的RAID后,逻辑硬盘的容量会小于物理硬盘的容量之和。

(3)     HDM的存储页面和BIOSUEFI模式)的Advanced页面中检查硬盘容量识别是否正确。如识别正确,请升级存储控制卡驱动;如不正确,请联系技术支持。

8.1.8  操作系统运行过程中挂死

1. 现象描述

服务器已上线稳定运行一段时间后,出现服务器上电情况下,操作系统无响应问题。

2. 问题原因

·     服务器的固件、驱动、系统内核版本或应用软件近期发生过变更,且新版本未正确安装。

·     操作系统内核、应用软件等运行异常。

·     服务器的硬件故障导致操作系统挂死。

3. 处理步骤

(1)     确认操作系统挂死时屏幕有无异常打印。若有,保存故障截图。重启后,收集操作系统日志,然后联系操作系统厂商分析定位;若无,则执行步骤(2)(6)

(2)     确认故障现象,包括:是否进入睡眠状态、系统是否能ping通、远程控制台和直连显示器是否能正常操作。

(3)     确认单台故障还是批量故障,时间是否有规律性。

(4)     确认近期是否进行过固件、驱动层面的变更。

(5)     确认近期是否进行过操作系统的内核版本变更、应用软件变更。

(6)     检查HDM中的传感器信息和事件日志有无异常。

¡     若有,收集步骤(2)(5)中确认的信息以及HDM SDS日志,然后联系技术支持。

¡     若无,请访问HDM Web界面,单击NMI控制栏的<执行动作>按钮,强制产生DUMP文件。重启后,收集步骤(2)(5)中确认的信息以及操作系统日志,然后联系操作系统厂商分析定位。

8.1.9  操作系统运行中出现异常重启

1. 现象描述

服务器已上线稳定运行一段时间后,出现操作系统异常重启。

2. 问题原因

·     服务器的固件、驱动、系统内核版本或应用软件近期发生过变更,且新版本未正确安装。

·     操作系统内核、应用软件等运行异常。

·     服务器的硬件故障导致操作异常重启。

3. 处理步骤

(1)     确认单台故障还是批量故障,时间是否有规律性。

(2)     确认近期是否进行过固件、驱动版本变更。

(3)     确认近期是否进行过操作系统的内核版本变更、应用软件变更。

(4)     检查HDM中的传感器信息和事件日志有无异常。

¡     若有,收集步骤(1)(3)中确认的信息以及HDM SDS日志,然后联系技术支持。

¡     若无,收集步骤(1)(3)中确认的信息以及操作系统日志,然后联系操作系统厂商分析定位。

8.1.10  操作系统运行中操作系统日志中出现错误消息

1. 现象描述

服务器已上线稳定运行一段时间,且操作系统运行正常,但系统日志中有错误消息。

2. 问题原因

·     服务器的固件、驱动、系统内核版本或应用软件近期发生过变更,且新版本未正确安装。

·     操作系统内核、应用软件等运行异常。

·     服务器的硬件故障导致操作系统挂死。

3. 处理步骤

(1)     检查HDM中的传感器信息和事件日志有无异常。

¡     若有,收集HDM SDS日志,然后联系技术支持。

¡     若无,记录操作系统日志中的错误信息,收集完整的操作系统日志,然后联系操作系统厂商分析定位。

8.1.11  安装应用程序或操作系统补丁后出现操作系统异常

1. 现象描述

服务器已上线稳定运行一段时间,在安装应用程序或操作系统补丁后出现操作系统异常,比如出现异常信息打印、系统挂死或异常重启等现象。

2. 问题原因

·     应用程序或操作系统补丁未正确安装。

·     服务器的硬件故障导致操作异常重启。

3. 处理步骤

(1)     检查HDM中的传感器信息和事件日志有无异常。

¡     若有,收集HDM SDS日志,然后联系技术支持。

¡     若无,记录系统提示的错误信息,收集操作系统日志,然后联系操作系统厂商分析定位。

8.1.12  更新操作系统

1. 现象描述

因业务需要,对操作系统版本进行内核版本升级。

2. 前提条件

在更新操作系统版本之前,需要查看操作系统厂商发布的更新包对应的版本说明书,确认更新方法。

3. 处理步骤

(1)     更新之前,对操作系统进行完全备份。

(2)     根据操作系统更新包对应的版本说明书中的指导更新操作系统。

(3)     检查部件驱动版本是否变更,建议从H3C官网下载并安装最新的部件驱动版本。

8.1.13  重新安装操作系统

1. 现象描述

操作系统故障后,如果经过排查无法解决问题,可以考虑重新安装操作系统。

2. 处理步骤

(1)     重新安装操作系统前,请先确认如下注意事项:

¡     确保服务器有足够的资源(处理器性能、内存大小和硬盘空间等)可以运行操作系统和应用软件。

¡     参考8.1.1  选择服务器兼容的操作系统,确认重新安装的操作系统版本满足服务器的兼容性要求。

¡     在待部署应用软件的官网查询软件要求的运行环境,确认重新安装的操作系统版本满足应用软件的兼容性要求。

¡     确保服务器的BIOSHDMCPLD固件升级到最新版本。关于升级BIOSHDMCPLD固件的详细说明,请参见《固件更新指导书》。

(2)     参考《操作系统安装指导》,重新安装操作系统。

8.2  应用软件类问题

说明

本节仅提供应用软件故障问题解决思路,对于具体的问题请先查询软件相关用户手册或咨询软件供应商,如需结合硬件信息定位故障原因,请联系技术支持。

 

8.2.1  软件僵死

1. 现象描述

应用软件僵死。

2. 问题原因

·     当前服务器的硬件配置无法满足软件运行需求。

·     该软件和操作系统存在兼容性问题。

·     该软件和服务器上安装的其他软件存在冲突。

·     服务器系统资源不足。

·     近期修改过服务器配置导致僵死。

·     服务器被病毒感染导致僵死。

3. 3.处理步骤

(1)     查看软件说明书,确认以下信息。

¡     当前服务器的硬件配置是否满足该软件运行需要。

¡     该软件与当前操作系统版本是否兼容。

¡     该软件是否与其他已安装软件存在冲突。

(2)     检查当前系统资源占用情况,关闭不必要的后台程序。

(3)     收集操作系统日志和应用软件日志,具体收集方法请参见5.2  收集操作系统日志或软件用户手册。

(4)     查看操作系统日志和应用软件日志是否有软件僵死的原因。

(5)     查看操作系统日志,寻找可能导致该软件僵死的配置修改项,尝试还原配置。

(6)     使用最新的病毒扫描程序,对服务器进行病毒查杀。

(7)     若问题仍未解决,建议向软件提供商寻求技术支持。

8.2.2  更改软件设置后出错

1. 现象描述

更改软件的设置后,系统运行出现异常。

2. 问题原因

操作系统不支持新的软件设置。

3. 处理步骤

(1)     查看软件说明书,确认是否存在类似问题和解决方案。

(2)     收集操作系统日志,具体收集方法请参见5.2  收集操作系统日志

(3)     分析操作系统日志确定修改项,尝试还原配置;若一次性修改了多个软件的设置,则每次还原一个设置项,以确定问题原因。

(4)     若问题依然存在,建议向软件提供商寻求技术支持。

8.2.3  安装新的应用程序后出错

1. 现象描述

安装了新的应用程序后,系统运行出现异常。

2. 问题原因

·     当前服务器的硬件配置无法满足该应用程序运行需求

·     该应用程序和操作系统存在兼容性问题。

·     该应用程序与服务器上原有的某些应用程序存在冲突。

·     该应用程序需要特殊的BIOS或操作系统设置。

·     系统资源分配不足。

3. 处理步骤

(1)     查看应用程序说明书,确认以下信息。

¡     当前服务器的硬件配置是否满足该应用程序运行需要。

¡     该应用程序与当前操作系统版本是否兼容。

¡     该应用程序是否与其他已安装应用程序存在冲突。

¡     是否需要特殊的BIOS设置,如需设置,具体方法请参见产品的BIOS用户指南。

¡     是否需要特殊的系统设置,如需设置请对特殊要求的系统设置进行修改。

(2)     检查当前系统资源占用情况,关闭不必要的后台程序。

(3)     收集操作系统日志,具体收集方法请参见5.2  收集操作系统日志

(4)     查看操作系统的操作日志,寻找问题出现的原因。

(5)     尝试重新安装该应用程序。

(6)     若问题依然存在,建议向应用程序提供商寻求技术支持。

8.3  BIOS问题

8.3.1  BIOS告警信息(适用于Intel CPU的服务器)

8-8所示,BIOS告警信息为出现在Early POST界面的告警打印,用户可根据这些告警信息知道目前出现的异常问题。2.00.XX版本BIOS提供的告警信息及对应的处理方式可在8-1查看,5.XX版本BIOS提供的告警信息及对应的处理方式可在8-2查看。

图8-8 Early POST界面告警示例

 

表8-1 POST告警打印及解释(适用于2.00.XX版本的BIOS

编号

部件

BIOS告警打印

故障情况及处理方式

1

内存

Invalid memory configuration.Please refer to memory population

rules in Server User Guide.- System Halted!"

无效的内存配置。

请查看服务器产品用户指南中的内存安装准则,并依照规则重新安装。

2

内存

LRDIMM and RDIMM are installed in the system.The system cannot have both types of DIMMs installed.

Please refer to memory population rules in Server User Guide.- System Halted!

不支持LRDIMMRDIMM混插, 内存插法错误导致系统挂死。

请查看用户指南中的内存安装准则,并依照规则重新安装。

3

内存

No memory is available or invalid memory configuration.

Please refer to memory population rules in Server User Guide.- System Halted!"

表示没插内存,或者插入的内存全部都故障不能用,相当于系统没找到内存。

请检查已安装的内存是否安装到位或更换内存。

4

内存

Memory Initializing... Some DIMMs fail Initialization,won't be available to OS!

由于一些内存出现初始化错误,OS无法使用该内存。

更换内存。

5

内存

Memory population rule error, Ranks should be placed in descending order in DIMM slots!

表示多Rank的内存插法不正确,需要降序插法。即大Rank内存先插。

可以在内存标签上查看Rank

6

内存

Lockstep | Rank spare degrade to independent mode!

Lockstep模式下的Rank Spare模式降级为independent模式。

请根据对应模式的DIMM插法要求重新插内存。

内存模式降级不影响启动。

7

内存

Lockstep | Mirror degrade to independent mode!

Lockstep模式下的镜像模式降级为independent模式。

请根据对应模式的DIMM插法要求重新插内存。

内存模式降级不影响启动。

8

内存

Lockstep | Partial mirror degrade to independent mode

Lockstep模式下的Partial Mirror模式降级为independent模式。

请根据对应模式的DIMM插法要求重新插内存。

内存模式降级不影响启动。

9

内存

Lockstep degrade to independent mode!

Lockstep模式降级为independent模式。

请根据对应模式的DIMM插法要求重新插内存。

内存模式降级不影响启动。

10

内存

Rank spare degrade to independent mode!

Rank Spare模式降级为independent模式。

请根据对应模式的DIMM插法要求重新插内存。

内存模式降级不影响启动。

11

内存

Mirror degrade to independent mode

镜像模式降级为independent模式

请根据对应模式的DIMM插法要求重新插内存。

内存模式降级不影响启动。

12

内存

Partial mirror degrade to independent mode!

Partial Mirror模式降级为independent模式。

请根据对应模式的DIMM插法要求重新插内存。

内存模式降级不影响启动。

13

显示

Warning: Early VGA will stop work, Due to CPU1 offboard video is active

Leacgy模式下,在CPU0以外的CPU接入外接显卡,VGA将不再显示Early POST界面。

14

UPI

UPI Topology mismatch is detected.

当服务器上的两个CPU类型不匹配时,POST界面会出现该告警。

需要更换为匹配的CPU

15

CPU

CPU Microcode mismatch is detected.

检测到CPUMicrocode不匹配。

需要更换为匹配的CPU

16

CPU

CPU Frequency mismatch is detected.

检测到CPU频率不匹配。

需要更换为匹配的CPU

17

CPU

CPU Frequency,Microcode mismatches are detected.

检测到CPU 频率和Microcode不匹配。需要更换为匹配的CPU

18

CPU

CPU Stepping mismatch is detected.

检测到CPU的步进不匹配。

需要更换为匹配的CPU

19

CPU

CPU Stepping,Microcode mismatches are detected.

检测到CPU的步进和Microcode不匹配。

需要更换为匹配的CPU

20

CPU

CPU Stepping,Frequency mismatches are detected.

检测到CPU的步进和频率不匹配。

需要更换为匹配的CPU

21

CPU

CPUStepping,Frequency,Microcode mismatches are detected.

检测到CPU的步进、频率和Microcode均不匹配。

需要更换为匹配的CPU

 

表8-2 POST告警打印及解释(适用于5.XX版本的BIOS

编号

部件

BIOS告警打印

故障情况及处理方式

1

内存

WARNING: Invalid DIMM configuration.

内存插法不满足要求。

请查看服务器产品用户指南中的内存安装准则,并依照规则重新安装。

2

内存

WARNING: Different DIMM types are detected. System halt occurred.

检测到不同类型的内存混插,内存插法错误导致系统挂死。

请查看用户指南中的内存安装准则,并依照规则重新安装。

3

内存

WARNING: No memory is available or memory configuration is invalid. System halt occurred.

表示没插内存,或者插入的内存全部都故障不能用,相当于系统没找到内存。

请检查已安装的内存是否安装到位或更换内存。

4

内存

WARNING: Some DIMMs are not initialized. Please review HDM event logs.

部分DIMM未初始化,请查看HDM事件日志确认故障内存位置并更换内存。

5

内存

WARNING: Memory Lockstep and Rank Sparing degraded to Independent mode.

Lockstep模式下的Rank Spare模式降级为independent模式。

请根据对应模式的DIMM插法要求重新插内存。

内存模式降级不影响启动。

6

内存

WARNING: Memory Lockstep and Mirror degraded to Independent mode.

Lockstep模式下的镜像模式降级为independent模式。

请根据对应模式的DIMM插法要求重新插内存。

内存模式降级不影响启动。

7

内存

WARNING: Memory Lockstep and Partial Mirror degraded to Independent mode.

Lockstep模式下的Partial Mirror模式降级为independent模式。

请根据对应模式的DIMM插法要求重新插内存。

内存模式降级不影响启动。

8

内存

WARNING: Memory Lockstep degraded to Independent mode.

Lockstep模式降级为independent模式。

请根据对应模式的DIMM插法要求重新插内存。

内存模式降级不影响启动。

9

内存

WARNING: Memory Rank Sparing degraded to Independent mode.

Rank Spare模式降级为independent模式。

请根据对应模式的DIMM插法要求重新插内存。

内存模式降级不影响启动。

10

内存

WARNING: Memory Mirror degraded to Independent mode.

镜像模式降级为independent模式

请根据对应模式的DIMM插法要求重新插内存。

内存模式降级不影响启动。

11

内存

WARNING: Memory Partial Mirror degraded to Independent mode.

Partial Mirror模式降级为independent模式。

请根据对应模式的DIMM插法要求重新插内存。

内存模式降级不影响启动。

12

内存

WARNING: Memory ADDDC degraded to Independent mode.

不支持内存ADDDC,仍然为independent模式启动

更换x8内存为x4内存

13

内存

WARNING: Memory SDDC degraded to Independent mode.

内存SDDC不支持,independent模式启动

请确认内存与CPU型号是否匹配

14

内存

WARNING: Memory mapping degraded.

内存映射降级

请查看服务器产品用户指南中的内存安装准则,并依照规则重新安装。

15

MCA

WARNING: Last boot MCE detected. Please review HDM logs.

检测到上一次启动检测到MCE错误,请检查HDM事件日志确认故障情况

16

UPI

WARNING: Mismatched UPI link option configuration.

当服务器上的两个CPU类型不匹配时,POST界面会出现该告警。

需要更换为匹配的CPU

17

UPI

WARNING: System is operating in KTI link low speed mode.

UPI链路工作在低速模式

检查BIOSUPI相关设置,如问题仍然出现,尝试更换主板

19

UPI

WARNING: CPU link training issue. Topology changed after reset.

UPI链路训练异常,重启后拓扑改变,尝试更换主板

20

UPI

WARNING: UPI resource allocation issue.

UPI资源分配不成功,尝试恢复BIOS默认配置并重启

21

UPI

WARNING: Mismatched UPI topology.

UPI拓扑不匹配,检查CPU安装的数量是否符合安装要求

22

PCIe

WARNING: Bandwidth or speed degrade detected for IIO port.

PCIe存在带宽或速度降级,检查PCIe卡的金手指接触情况以及安装是否正常

23

CPU

WARNING: CPU BIST detected core issue. Faulty cores have been disabled.

CPU BIST过程中检查到部分Core异常,且异常的Core已被禁用。

出现该告警后不影响系统正常启动,但部分Core不可用。

24

CPU

WARNING: Mismatched CPU microcode.

检测到CPUMicrocode不匹配。

需要更换为匹配的CPU

25

CPU

WARNING: Mismatched CPU frequency.

检测到CPU频率不匹配。

需要更换为匹配的CPU

26

CPU

WARNING: Mismatched CPU frequency and microcode.

检测到CPU 频率和Microcode不匹配。需要更换为匹配的CPU

27

CPU

WARNING: Mismatched CPU stepping.

检测到CPU的步进不匹配。

需要更换为匹配的CPU

28

CPU

WARNING: Mismatched CPU stepping and microcode.

检测到CPU的步进和Microcode不匹配。

需要更换为匹配的CPU

29

CPU

WARNING: Mismatched CPU stepping and frequency.

检测到CPU的步进和频率不匹配。

需要更换为匹配的CPU

30

CPU

WARNING: Mismatched CPU stepping, frequency, and microcode.

检测到CPU的步进、频率和Microcode均不匹配。

需要更换为匹配的CPU

31

BIOS

ERROR: BIOS flash firmware damaged. System halt occurred.

BIOS Flash固件损坏,且出现挂死。

请不要在BIOS启动过程中升级BIOS

出现该告警时,需要以强制覆盖方式重新升级BIOS固件

32

BIOS

WARNING: BIOS flash firmware damaged.

BIOS Flash固件损坏。

请不要在BIOS启动过程中升级BIOS

出现该告警时,需要以强制覆盖方式重新升级BIOS固件

33

HDM

WARNING: Cannot obtain configuration data from HDM.

未从HDM获取到配置数据,与HDM交互异常,请检查HDM状态或重启HDM

 

8.3.2  BIOS告警信息(适用于AMD CPU的服务器)

8-9所示,BIOS告警信息为出现在启动阶段的告警打印,用户可根据这些告警信息知道目前出现的异常问题。对于AMD CPU的服务器,BIOS提供的告警信息及对应的处理方式可在8-3查看。

图8-9 AMD BIOS启动阶段告警示例

 

表8-3 告警打印及解释(适用于AMD CPUBIOS

编号

部件

BIOS告警打印

故障情况及处理方式

1

HDM

WARNING: Cannot obtain configuration data from HDM

未从HDM获取到配置数据,与HDM交互异常,请检查HDM状态或重启HDM

2

HDM

WARNING: Cannot parse configuration data obtained from HDM

解析HDM配置数据失败,与HDM交互异常,

请检查HDM状态或重启HDM

3

内存

Memory PMU Training error at Socket %d, Board Channel %d (SoC Channel %d)

内存物理管理单元训练错误,请检查已安装的内存是否安装到位或更换内存

4

内存

Agesa Memory Test error at Socket %d, Board Channel %d (SoC Channel %d)

内存测试期间发生错误,导致内存测试停止,请检查已安装的内存是否安装到位或更换内存

5

内存

Mixed ECC and non-ECC DIMM in system at Socket %d, Board Channel %d (SoC Channel %d)

混合使用ECCnon-ECC的内存,更换ECCnon-ECC的内存使其与其他内存一致性(都具有ECC或都没有ECC)

6

CPU

CCD BIST error at Socket %d Die %d CCD %d

CPU内部CCD自测失败,请检查已安装CPU,并更换相应的CPU

7

BIOS

ERROR: BIOS flash firmware damaged. System halt occurred.

BIOS的版本损坏,可能导致系统挂死或重启,请重刷BIOS版本

8

BIOS

WARNING: BIOS flash firmware damaged.

BIOS的版本损坏,可能导致系统挂死或重启,请重刷BIOS版本

 

8.3.3  BIOS告警信息(适用于Hygon CPU的服务器)

8-10所示,BIOS告警信息为出现在启动阶段的告警打印,用户可根据这些告警信息知道目前出现的异常问题。对于Hygon CPU的服务器,BIOS提供的告警信息及对应的处理方式可在8-4查看。

图8-10 启动阶段BIOS告警示例

 

表8-4 告警打印及解释(适用于Hygon CPUBIOS

编号

部件

BIOS告警打印

故障情况及处理方式

1

USB

WARNING: No USB Keyboard Present

USB键盘无法识别,请重新安装USB键盘

2

CMOS

ERROR: CMOS BAD. Setup Data loaded default.

CMOS错误,Setup选项恢复默认值,请取下CMOS电池,重新安装

3

内存

Memory PMU training error at Socket:%d Channel:%d Dimm:%c%d

内存建链错误,请检查已安装的内存是否安装到位或更换内存

 

8.4  HDM问题

8.4.1  固件镜像文件上传失败问题 

1. 故障现象

固件镜像文件上传失败。

2. 可能原因

·     固件镜像文件和服务器型号不匹配。

·     有其他人在进行固件升级。

·     固件镜像文件损坏或被篡改。

·     网络通信异常导致上传固件镜像文件失败。

3. 处理步骤

(1)     在固件更新页面选择和固件镜像文件匹配的固件类型,若问题仍然存在,请执行步骤(2)

(2)     确认是否有其他人在升级固件。

¡     如果是,请等待升级流程结束后再上传固件镜像文件。

¡     如果否,请执行步骤(3)

(3)     H3C官网或H3C技术支持获取完整的固件镜像文件,再重新上传固件,若问题仍然存在,请执行步骤(4)

(4)     确认网络通信是否处于正常状态。

¡     如果是,请联系技术支持。

¡     如果否,请检查并恢复网络正常通信。

8.4.2  HDM Web界面无法访问问题

1. 故障现象

HDM Web界面无法正常访问。

2. 可能原因

·     HDM管理接口的IP地址HDM客户端的IP地址不在同一网段

·     HDM客户端的代理设置有问题。

·     HDM管理接口未连接网线或网络连接处于异常状态。

·     客户端的IP地址或MAC地址被HDM防火墙屏蔽。

·     HDM管理接口的IP地址冲突。

·     HTTPS服务端口号被修改。

3. 处理步骤

(1)     检查HDM客户端的IP地址和HDM管理接口的IP地址是否在同一网段。

¡     如果是,请执行步骤(2)

¡     如果否,请修改HDM客户端的网络配置。

(2)     检查HDM客户端是否设置了代理。

¡     如果设置了代理,请取消代理。

¡     如果否,请执行步骤(3)

(3)     检查HDM管理接口是否连接网线。

¡     如果是,请检查网络端口和网线是否处于正常状态。

-     如果是,请执行步骤(4)

-     如果否,请联系技术支持更换故障部件。

¡     如果否,请正确连接网线。

(4)     检查是否存在于HDM管理接口相同的IP地址。

¡     如果是,请修改HDM管理接口的IP地址。

¡     如果否,请执行步骤(4).

(5)     将显示器连接到服务器VGA接口,再把键盘和鼠标连接到服务器的USB接口,按下前面板上的开机/待机按钮,重启服务器后进入BIOS Setup,执行“恢复HDM默认配置”操作,具体操作请参见服务器的BIOS用户指南。

(6)     若问题仍然存在,请联系技术支持。

8.4.3  配置文件导入失败问题

1. 故障现象

配置文件导入失败。

2. 可能原因

·     配置文件类型和导入配置类型不匹配。

·     配置文件里存在不合法的选项值。

·     配置文件里的产品名称和被导入的服务器型号不一致。

·     导入配置过程中网络中断。

3. 处理步骤

(1)     在配置导入导出页面,选择和配置文件匹配的配置类型,若问题仍然存在,请执行步骤(2)

(2)     检查配置文件里的所有选项值是否合法。

¡     如果是,请执行步骤(3)

¡     如果否,请修改不合法的选项值。

(3)     检查配置文件里的产品名称,确保配置文件里的产品名称是否和被导入的服务器型号一致。

¡     如果是,请执行步骤(4)

¡     如果否,请更新配置文件,或选择和配置文件里的产品名称一致的服务器。

(4)     请检查是否存在配置依赖项问题,如果是其他配置文件,请直接执行步骤(5)

¡     如果是,请修改配置依赖项。

¡     如果否,请执行步骤(5)

(5)     确认导入过程中网络通信是否处于正常状态。

¡     如果是,请联系技术支持。

¡     如果否,请恢复网络正常通信。

8.4.4  KVM链接无法打开问题

1. 故障现象

KVM链接无法打开,导致无法访问KVM远程控制台。

2. 可能原因

·     已开启一个独占模式的KVM会话。

·     未开启KVM服务

·     HDM客户端未配置KVM环境。

·     HDM客户端代理设置问题。

·     网络通信问题。

3. 处理步骤

(1)     确认是否已开启一个独占模式的KVM会话。

¡     如果是,请关闭已开启的KVM会话。

¡     如果否,请执行步骤(2)

(2)     进入服务设置页面,如8-11所示,确认“KVM”服务是否处于开启状态。

¡     如果是,请执行步骤(3)

图8-11 服务配置

 

¡     如果否,请单击“操作”栏的<修改>按钮,开启KVM服务。

(3)     检查HDM客户端是否已正确配置KVM环境。

¡     如果是,请执行步骤(4)

¡     如果否,请正确配置KVM环境,具体操作请参见《HDM用户指南》的“远程控制台”章节。

(4)     检查HDM客户端是否设置了代理。

¡     如果是,请取消HDM客户端的代理。

¡     如果否,请执行步骤(5)

(5)     检查网络环境是否处于正常状态。

¡     如果是,请联系技术支持。

¡     如果否,确保网络通信正常。

8.4.5  KVM使用异常问题

1. 故障现象

能打开KVM会话,但在使用过程中出现以下异常现象。

·     KVM键盘鼠标使用异常。

·     KVM画面出现异常。

·     KVM挂载镜像文件失败。

·     通过KVM挂载OS镜像文件成功,安装OS缓慢或失败。

2. 可能原因

·     OS侧配置问题

·     网络通信问题

·     HDM配置问题

3. 处理步骤

·     KVM键盘鼠标使用异常。

a.     更换鼠标模式,选择体验最佳的鼠标模式。

b.     如使用的是直连服务器的键盘和鼠标,建议切换为HDM客户端直连的键盘和鼠标。

c.     若问题仍然存在,请联系技术支持。

·     KVM画面出现异常

a.     检查网络通信是否正常。

-     如果是,请执行步骤b

-     如果否,请恢复网络正常通信。

b.     建议调低服务器OS的分辨率,降低网络传输压力。

c.     若问题仍然存在,请联系技术支持。

·     KVM挂载镜像文件失败。

a.     进入服务配置页面,如8-12所示,确认“CD-Media”、“FD-Media”、“HD-Media”服务是否处于开启状态

-     如果是,请执行步骤b

图8-12 服务配置

 

-     如果否,请单击“操作”栏的<修改>按钮,开启服务。

b.     检查网络通信是否处于正常状态。

-     如果是,请联系技术支持。

-     如果否,请恢复网络正常通信。

·     通过KVM挂载OS镜像文件成功,安装OS缓慢或失败。

a.     检查网络通信是否处于正常状态。

-     如果是,请执行步骤b

-     如果否,请恢复网络正常通信。

b.     检查HDM客户端连接的是否是I350芯片的网卡的共享网口,且网络传输速率在1Gbps及以上。

-     如果是,请将HDM客户端环境的网卡属性设置成“100 Mbps全双工”模式,如8-13所示。

-     如果否,请执行步骤c

图8-13 设置网卡属性

 

c.     请将HDM客户端连接到服务器的专用网口,重新挂载镜像文件后,再安装OS

d.     若问题仍然存在,请联系技术支持。

8.4.6  H5 KVM安装OS缓慢或失败

1. 故障现象

通过H5 KVM挂载OS镜像文件成功,安装OS缓慢或失败。

2. 可能原因

·     网络通信问题

·     HDM配置问题

3. 处理步骤

(1)     检查网络通信是否处于正常状态。

¡     如果是,请执行步骤(2)

¡     如果否,请恢复网络正常通信。

(2)     确认当前H5 KVM会话是否为非加密模式。

¡     如果是,请执行步骤(3)

¡     如果否,请退出当前会话并启动非加密模式的H5 KVM,再重新安装OS

(3)     检查HDM客户端连接的是否是I350芯片的网卡的共享网口,且网络传输速率在1Gbps及以上。

¡     如果是,请将HDM客户端环境的网卡属性设置成“100 Mbps全双工”模式,如8-14所示。

¡     如果否,请执行步骤(4)

图8-14 设置网卡属性

 

(4)     请将HDM客户端连接到服务器的专用网口,重新挂载镜像文件后,再安装OS

(5)     若问题仍然存在,请联系技术支持。

8.5  iFIST问题

8.5.1  服务器诊断时设备信息显示异常问题

1. 现象描述

服务器的HDM版本低于1.30.11时,通过服务器诊断功能扫描设备信息时,发现部分模块如BIOSHDMFanPSUTemperature的信息与实际状态不符。

2. 问题原因

服务器诊断功能获取的信息来源于HDMSDS日志,如果HDM的版本低于1.30.11版本,诊断功能获取的是上一次下载的SDS日志,不具有实时性,才会出现与实际状态不符的问题。

3. 处理步骤

(1)     HDM页面执行“一键收集”操作,下载全部SDS日志,下载完成后,再重新扫描设备信息。

(2)     更新HDM1.30.12及以后的版本。

(3)     若问题仍然存在,请联系技术支持。

8.5.2  服务器诊断功能无法诊断硬盘问题

1. 现象描述

服务器诊断功能无法诊断逻辑盘的成员盘。

2. 问题原因

服务器诊断功能无法获取逻辑盘的成员盘的设备路径,所以无法对该硬盘进行诊断测试。

3. 处理步骤

(1)     确认逻辑盘中是否包含重要数据。

¡     如果是,请联系技术支持。

¡     如果否,删除逻辑盘后再重新开始服务器诊断操作,再执行步骤(2)

(2)     重新扫描设备信息后,选择硬盘进行诊断测试。

(3)     若问题仍然存在,请联系技术支持。

8.5.3  iFIST启动失败问题

1. 现象描述

iFIST软件启动失败

2. 问题原因

·     BIOS版本和当前iFIST版本不配套。

·     iFIST软件未正确安装。

3. 处理步骤

(1)     重启iFIST

(2)     更新BIOS固件版本,再重启iFIST。和iFIST配套的BIOS版本信息,请参见《iFIST版本说明书》中的“版本配套表”。

(3)     更新iFIST,具体操作请参见《iFIST用户指南》的“更新iFIST”章节。

(4)     若问题仍然存在,请联系技术支持。

8.6  VROC问题

8.6.1  PCH板载软RAID中的逻辑盘数据丢失

1. 现象描述

通过HDM升级BIOS固件,选择了“配置覆盖”或“强制覆盖”升级方式,升级完成后,PCH板载软RAID组建的逻辑盘中的数据丢失

2. 问题原因

PCH板载软RAID的缺省模式为AHCI。当选择“配置覆盖”或“强制覆盖”完成BIOS固件升级后,PCH恢复缺省设置,即PCH板载软RAID的模式恢复为AHCI,该模式无法识别逻辑盘,从而导致数据丢失

3. 处理步骤

(1)     手动将PCH板载软RAID的模式切换为RAID模式,保存配置并重启服务器。

(2)     如果重启后仍然无法识别RAID,则表示数据无法恢复,需重新配置RAID

8.6.2  操作系统无法识别PCH板载软RAID创建的逻辑盘

1. 现象描述

安装操作系统过程中,操作系统无法识别PCH板载软RAID创建的逻辑盘,所以无法对该逻辑盘进行分区操作

2. 问题原因

·     待安装操作系统与PCH板载软RAID不兼容。

·     逻辑盘中的成员盘含有残留数据,导致逻辑盘无法被识别

3. 处理步骤

(1)     确保待安装操作系统与PCH板载软RAID兼容,兼容性可通过OS兼容性查询工具查询。

(2)     在操作系统安装界面按下“Ctrl+Alt+F2”组合键切换至命令行界面,如8-15所示,输入dmsetup ls命令,查看PCH板载软RAID创建的逻辑盘中成员盘残留的逻辑卷信息,并记录逻辑卷的完整名称,如xxxx

图8-15 查看残留的逻辑卷信息

 

(3)     8-16所示输入dmsetup remove <逻辑卷名称>依次删除这些残留信息,然后输入reboot重启服务器,将操作系统重新安装即可识别。

图8-16 删除残留的逻辑卷信息

 

(4)     若问题仍然存在,请联系技术支持。

8.6.3  在板载NVMe RAID中将RAID1迁移至RAID5时迁移失败

1. 现象描述

如图所示,使用mdadm工具在板载NVMe RAID中,将RAID1迁移至RAID5出现错误导致迁移失败。

2. 问题原因

因为使用mdadm工具对NVMe进行写的操作会被SELinux阻塞,这是SELinux作为Linux系统下的安全子系统,为了保障系统安全会阻止、限制一些应用的行为。

3. 处理步骤

进行迁移、扩容前关闭SELinux。以下提供两种关闭SELinux的方法:

l     临时关闭SELinux:在grub界面加上内核参数"selinux=0"或在系统下执行命令“setenforce 0”,无需重启;由于是临时关闭,下次启用系统需要重新设置

l     永久关闭SELinux打开编辑/etc/selinux/configSELINUX=enforcing'行改成SELINUX=disabled'重启生效,下次启用系统时无需重新设置。

8.6.4  RHEL系统下执行mdadm -C命令包含中括号[]时,无法正常识别双位盘序

1. 现象描述

如图所示,RHEL系统下执行mdadm -C命令组建逻辑盘或container时,采用/dev/nvme[XX-XX]n1或者[XX,XX]格式时,无法正常识别双位盘序,如8-178-18所示。

图8-17 使用“[XX-XX]“通配创建容器异常

 

图8-18 使用“[XX,XX]“通配创建容器异常

 

2. 问题原因

Linux bash shell在通配符中规定,匹配中括号“[]”里面的数字时,在表示区间时只能是单位数字,不能使用双位数字。

3. 处理步骤

当出现双位盘符时可以分开书写,不使用“[]”通配,如8-19所示。

图8-19 不使用“[]“通配创建容器成功

 

8.6.5  在板载NVMe RAID中创建RAID失败

1. 现象描述

在板载NVMe RAID中创建RAID失败。

2. 问题原因

所创建的RAID级别等参数不在NVMe VROC Key支持范围,或创建的磁盘数量不在当前RAID级别支持范围等

3. 处理步骤

·     请确保创建的RAID级别等参数和NVMe VROC Key规格匹配、磁盘数量和RAID级别匹配。

·     具体请通过H3C服务器 存储控制卡用户指南》查询。

8.7  部件驱动和固件问题

获取部件的驱动和固件时,请关注如下注意事项。

1. 驱动和固件版本

请通过OS兼容性查询工具,查询该部件兼容某操作系统时,推荐使用的驱动和固件版本,并通过H3C官网下载。

2. HDM和固件的适配关系

HDM和固件的适配关系,请参见HDM版本说明书。

3. BIOS和固件的适配关系

BIOS和固件的适配关系,请参见BIOS版本说明书。

需要注意的是,如下MLOM网卡的固件集成在BIOS中,只能通过升级BIOS的方式来升级网卡的固件。

表8-5 固件集成在BIOS中的部件

部件类型

部件型号

MLOM网卡

NIC-10GE-2P-560F-L2

MLOM网卡

NIC-10GE-2P-560T-L2

MLOM网卡

NIC-GE-4P-360T-L3


9 版本升级

说明

升级前,请确认软件、固件和驱动的兼容性,详见对应的版本说明书。

 

通过升级服务器的软件固件和驱动版本,可以解决很多常见问题。

服务器支持升级的软件固件和驱动版本如9-1所示。

表9-1 服务器支持升级的软件固件和驱动

服务器类型

可升级的软件、固件和驱动

机架服务器

·     主机固件:HDMBIOSCPLD

·     部件的固件和驱动。部件包括:硬盘、硬盘背板、存储控制卡、网卡、GPU卡、FC HBA卡、电源模块等

 

9.1  机架服务器版本升级配套资料

说明

·     HDMBIOSUniSystemiFIST软件的配套手册是区分软件版本的,使用这类手册时,需要根据您所使用的软件版本,查看对应的手册和版本说明书。

·     本章节罗列的配套资料及其内容,可能随版本不定期更新,请以官网获取到的实际资料为准。

 

本章节介绍机架服务器升级版本时,可参考的配套资料。

9.1.1  升级服务器的HDMBIOS

1. 单机升级

·     主机软件版本说明书

·     固件更新指导书

·     服务器REPO使用指导书

2. 批量升级

·     主机软件版本说明书

·     服务器REPO使用指导书

·     UniSystem用户指南

·     UniSystem安装指导

·     UniSystem联机帮助

·     固件更新指导书

9.1.2  升级部件的驱动和固件

1. 单机升级

·     option驱动和固件版本说明书

·     服务器REPO使用指导

·     操作系统安装指导

2. 批量升级

·     option驱动和固件版本说明书

·     服务器REPO使用指导

·     UniSystem用户指南

·     UniSystem安装指导

·     UniSystem联机帮助

9.1.3  配套资料内容简介

表9-2 配套资料内容简介

手册名称

手册内容

主机软件版本说明书

介绍了服务器主机软件版本(HDMBIOS)的详细信息,包括如下内容:

·     版本信息

·     该版本与其他软件的版本配套关系

·     软硬件及操作变更情况

·     版本使用限制

·     版本升级方法

服务器REPO使用指导

用户在使用和维护服务器过程中,会按需升级固件和驱动

REPO是一个固件和驱动的合集,包括HDMBIOSCPLD、存储控制卡等部件的固件和驱动,本文介绍了通过REPO单台或批量升级固件和驱动的方法

固件更新指导书

用户在使用和维护服务器过程中,会按需升级固件版本。本文介绍了单台或批量升级HDMBIOSCPLDPSU等固件的方法

UniSystem用户指南

UniSystem是一款服务器管理工具,可以快速灵活地批量配置机架服务器、刀箱服务器和交换机。本文从面向任务的角度介绍了UniSystem的功能配置,包括如下内容:

·     批量管理服务器

·     批量安装操作系统

·     批量配置RAID

·     批量更新驱动和固件

·     克隆安装

·     刀箱和系统管理

UniSystem安装指导

UniSystem是一款服务器管理工具,可以快速灵活地批量配置机架服务器、刀箱服务器和交换机。本文介绍了UniSystem安装和使用的方法

UniSystem联机帮助

UniSystem是一款服务器管理工具,可以快速灵活地批量配置机架服务器、刀箱服务器和交换机。本文内嵌在UniSystem Web界面中,介绍了UniSystem每个Web界面可配置功能的相关信息

option驱动和固件版本说明书

介绍了服务器各类可扩容部件的驱动程序、固件版本的版本信息和升级方法

操作系统安装指导

介绍了服务器操作系统的安装方法及具体安装步骤,包含如下内容:

·     操作系统安装流程

·     常规模式安装操作系统

·     通过UniSystem安装操作系统

·     通过iFIST安装操作系统

·     部件驱动安装步骤


10 软件和配置工具

10.1  H3C服务器软件关系

H3C服务器软件之间的关系如10-1所示。

·     HDM对内与BIOSiFIST和各类部件(包括部件的固件)进行交互,实现对服务器的监控和管理;对外与各类管理工具、运维系统及用户进行交互。

·     BIOS引导OSiFIST启动,向HDM上报各类信息。

·     iFIST可以实现RAID配置、操作系统自动安装、关键硬件诊断功能。

·     FIST是服务器的批量管理工具,配合REPO支持对服务器的HDMBIOS、部件固件和驱动等进行批量升级。

·     U-CenterUniSystem等运维系统可以基于HDMFIST SMSiFIST对服务器进行批量监控管理

·     FIST SMS 是运行在服务器OS上的一个服务程序,主要用于支撑UniSystemHDM的部分功能。

图10-1 服务器软件关系

 

10.2  BIOS

BIOSBasic Input Output System,基本输入输出系统)固化在系统ROM中,是加载在服务器硬件系统上最基本的运行程序。BIOS在系统中位于服务器硬件和操作系统之间,用来初始化硬件,为操作系统运行做准备。

服务器故障时,可通过BIOS提供的以下方式定位或处理。

·     启动中出现异常,可以在HDM页面查看BIOS上报的开机自检码,对照HDM用户指南中对开机自检码的说明,确认故障问题。

·     通过BIOS Setup界面查看处理器、内存、接入的设备信息及选项配置。BIOS Setup选项配置信息可以通过HDM导出和查看。

·     启动到UEFI Shell命令行环境,H3C BIOS支持UEFI原生的Shell命令,可用于执行efi应用程序、加载efi设备驱动、引导操作系统等。

·     遇到不可处理的故障,需要联系技术支持时,可以通过连接BIOS串口或IPMI SOL功能收集BIOS日志。打开Debug模式可以获取更为详细的日志信息。

10.2.1  查看开机自检码

开机自检码包括BIOS启动中的各个阶段信息以及错误码信息,BIOS会向HDM上报自检码。当服务器启动过程中遇到异常时,可以查看如10-2所示的HDM中保存的开机自检码,协助分析POST故障原因。

对开机自检码的详细说明请参见HDM用户指南中的“开机自检码”章节。

图10-2 开机自检码

 

10.2.2  导出BIOS Setup配置

HDM支持导出BIOS选项的当前配置,如10-3所示。

服务器故障时,可以导出BIOS当前配置。再换用另一台正常机台,更新相同版本的BIOS,不修改任何BIOS选项,导出默认的BIOS Setup配置,与故障服务器BIOS配置对比,分析差异项,寻找可能的故障原因。

图10-3 导出BIOS配置

 

10.2.3  启动到UEFI Shell

BIOS内置了UEFI Shell命令行,可以在BIOS Setup中启用该功能。

(1)     10-4所示,设置EFI Shell Boot选项为Enabled

图10-4 设置EFI Shell Boot选项(示例)

 

 

(2)     重启生效后,按F7进入Boot Menu,选择UEFI:Built-in EFI Shell启动项,如10-5所示。

图10-5 选择UEFI:Built-in EFI Shell(示例)

 

(3)     进入UEFI Shell界面。如10-6所示,通过help命令查看支持的Shell命令。

图10-6 UEFI Shell界面(示例)

 

10.2.4  获取BIOS日志

1. 打开Debug模式

打开BIOSDebug模式可以获取更详细的BIOS日志,但会延长启动需要的时间,通常用于故障定位。

BIOSDebug模式默认关闭,如需设置可进入BIOS SetupAdvanced -> Miscellaneous Configuration界面,设置Debug Mode选项为Enabled,启用Debug模式,如10-710-8所示。

图10-7 设置Debug Mode选项-1

 

图10-8 设置Debug Mode选项-2

 

2. 收集BIOS日志

下面介绍收集BIOS日志的两种方式。

·     连接BIOS串口线(BIOS串口的位置请查看对应产品的用户指南),使用串口客户端工具,例如Putty,配置访问BIOS串口,在启动过程中保存BIOS日志。

·     通过IPMI SOL功能保存BIOS串口日志,命令如下:

ipmitool.exe –I lanplus –H { hdm_ip } –U { username } –P { password } sol activate > debug.txt

10.3  HDM

10.3.1  功能介绍

H3C设备管理系统(Hardware Device Management,以下简称HDM)是H3C自主研发的服务器远程管理系统。HDM兼容服务器业界管理标准IPMISNMPRedfish,支持键盘、鼠标和视频的重定向,文本控制台的重定向,串口重定向,远程虚拟媒体,高可靠的硬件监控和管理功能。HDM提供了丰富的特性。

·     丰富的管理接口

提供IPMI/HTTPS/SNMP/Redfish管理接口,满足多种方式的系统集成需求。

·     兼容IPMI1.5/IPMI2.0

提供标准的管理接口,可被标准管理系统集成。

·     基于Web界面的用户接口

可以通过简单的界面操作快速完成设置和查询任务。

·     支持Redfish管理接口

降低开发复杂性,易于实施、易于使用、易于扩展。

·     故障监控和诊断

故障监控和诊断,通过精准定位与诊断,指导运维人员快速解决问题,保障设备7*24小时高可靠运行。

·     虚拟KVM和虚拟媒体

提供方便的远程维护手段。

·     截屏与录像

通过截屏和录像可以快速分析系统崩溃的原因。

·     支持SDS

HDM SDS (Smart Diagnose System,智能诊断系统),是一个全生命周期的设备智能诊断系统,能够对服务器主要硬件发生的故障进行快速、精准的检测与诊断

·     支持DNS/LDAP/AD

域管理和目录服务,简化服务器管理网络。

·     RAID带外管理

支持RAID的带外监控和配置,提升了RAID配置效率和管理能力。

·     双镜像备份

提高系统的安全性,即使当前运行的软件完全崩溃,也可以从备份镜像启动。

·     设备资产管

资产信息管理的核心是采集部件的唯一编码,HDM通过读取FRUField Replace Unit,现场可更换单元)信息,采集服务器及相关部件的唯一编码,让资产盘点不再困难。

·     支持智能电源管理

功率封顶技术帮助管理员轻松提高部署密度;动态节能技术帮助您有效降低运营成本。

·     安全管理

从接入、账号、传输、存储四个维度保障服务器管理的安全。支持黑白名单(防火墙)、用户管理、接口服务管理和SSL等功能。

·     联合管理

联合实现小规模服务器的统一管理,降低了中小企业服务器运维管理的成本。

·     LCD液晶显示屏

部分机架服务器可选配3.5英寸可触摸LCD液晶显示屏,方便了服务器的临场巡检或维护。

10.3.2  通过HDM远程维护

下面介绍通过HDM远程处理服务器故障的通用思路:

(1)     登录到HDM Web界面,确认目前设备运行状态。在登录后的主页面查看以下整体概况信息:

¡     基本状态

¡     基本信息

¡     服务器电源

(2)     如果基本状态不正常,请检查是否存在事件日志告警或传感器状态异常。

(3)     检查已安装硬件的信息是否完整显示。

(4)     根据服务器实际故障的情况,执行以下操作(如有需要,可联系技术支持指导操作):

¡     恢复HDM出厂配置

¡     重启HDM

¡     更新HDMBIOSCPLDPSU固件

¡     导入或导出HDMBIOSRAID的配置

10.4  UniSystem

UniSystemH3C自主研发的服务器配套软件,可以快速灵活地配置服务器,智能地引导用户使用服务器,是一款智能的、可扩展的服务器管理工具。   

UniSystem可运行在PC机或服务器中,作为一款服务器批量管理维护工具,可帮助企业更好地对系统进行管理、监控、更新及信息查询,简化管理。

同时,作为AE模块的出厂内置软件,UniSystem不仅可以管理本地机箱,还能够管理网络中的其他机箱服务器、机架服务器、交换机等设备,适用于混合IT架构和集群式管理。

UniSystem主要支持以下功能(部分功能仅UniSystem服务端部署在AE模块时可用):

·     设备管理:UniSystem支持机箱、服务器、交换机多种设备的集中管理,包括添加设备,查看设备信息以及设备管理的常用操作。

·     模板管理:UniSystem的服务器管理使用以服务器配置模板为统一入口的模块化配置,为设备配置BIOSHDMRAIDOS等参数,帮助设备快速上线。

·     部署:部署功能包括机箱、服务器配置模板的批量应用及固件和驱动的更新,提升部署效率。

·     监控告警:通过告警转发等对服务器状态进行监控及告警,可以快速定位并及时处理故障,提高日常运维管理效率。

·     工具集:提供服务器使用过程中的常用工具。

·     系统设置:针对UniSystem服务端自身的系统设置及管理功能。

10.5  iFIST

iFISTintegrated Fast Intelligent Scalable Toolkit,集成化的快速智能可扩展工具集)是一款内嵌于服务器的单机智能部署工具,用户启动服务器并完成初始化工作之后,根据界面提示操作即可进入iFIST系统,无需用户安装。

iFIST提供简洁的用户界面,帮助客户完成RAID配置、操作系统自动安装、服务器诊断和下载日志功能。提供了一种新的配置RAID、安装操作系统的方式,满足用户对单台服务器进行本地管理的需求。

iFIST适用于单台服务器进行本地管理的情况。在无法远程登录HDM的情况下,也可以通过显示器、键盘、鼠标本地直连服务器登录iFIST进行部署,提供更为便利的带内部署服务器的途径。

10.6  HDM Redfish API

Redfish®是一种遵循DMTF组织定义的标准规范和架构。该标准基于RESTful架构,支持HTTP/HTTPs两种请求方式,每个Redfish请求都以UTF-8编码的JSON格式提交并返回一个资源结果。该标准具有降低开发复杂性,易于实施、易于使用而且提供了可扩展性优势,被称为“下一代数据中心管理标准”。

HDMHardware Device Management)是H3C自主研发的服务器远程管理系统,支持对通过Redfish API接口管理服务器。通过它可以实现简化服务器配置过程、查看服务器组件信息、监控服务器运行状况以及远程控制服务器等功能。

关于Redfish的技术介绍和接口文档说明请参见H3C官网上的H3C HDM Redfish参考手册》

10.7  HDM IPMI

IPMIIntelligent Platform Management Interface,智能平台管理接口)是一项应用于服务器管理系统的标准。IPMI 的主要特性是可独立于处理器、BIOS和操作系统,有助于对不同类型的服务器实施系统管理,使不同平台的集中管理成为可能。

IPMI管理平台中,BMCBaseboard Management Controller,基板管理控制器)是核心控制器,系统管理软件主要是通过和BMC通信来实现管理功能。

IPMI提供了一组应用于带外管理和监视的功能:

·     资产管理

·     故障监视

·     日志记录

·     恢复控制

HDM支持的IPMI命令,请参考H3C官网上的H3C HDM IPMI基础命令参考手册》

10.8  Arcconf

10.8.1  工具简介

PMC存储控制卡可通过PMC官方提供的Arcconf命令行工具进行配置信息收集。

·     Arcconf命令行工具的安装方法,请参见PMC官网的Arcconf使用手册。不同操作系统下,工具的安装方法不同。

·     Arcconf命令行工具的启动方法如下,不同操作系统下略有不同。但进入命令行界面后,命令操作完全一致,具体的命令行请参见PMC官网的Arcconf使用手册。

¡     Windows操作系统:用键盘输入WIN+R,在弹出的对话框中输入cmd进入Windows操作系统命令行界面,然后输入arcconf进入Arcconf命令行工具。

¡     Windows操作系统外:无需输入任何命令,Arcconf命令行工具默认开启。

10.8.2  主要功能

(1)     RAID创建与删除。

(2)     热备盘的创建与删除。

(3)     逻辑盘迁移、扩容。

(4)     通过点灯方式定位硬盘位置。

(5)     升级存储控制卡固件。

(6)     升级存储控制卡驱动。

(7)     收集存储控制卡的阵列日志。

10.8.3  指导文档

Arcconf命令行工具使用手册,包括如下获取方式:

·     联系H3C技术支持获取。

·     通过PMC官网获取。(官网下载路径可能会变化,有问题请联系H3C技术支持)

¡     https://storage.microsemi.com/en-us/downloads/

¡     https://storage.microsemi.com/en-us/support/raid/sas_raid/asr-3154-8i/

10.9  StorCLI

10.9.1  工具简介

LSI存储控制卡可通过LSI官方提供的StorCLI命令行工具进行日志收集。

·     StorCLI命令行工具的安装方法,请参见LSI官网的StorCLI使用手册。不同操作系统下,工具的安装方法不同。

·     StorCLI命令行工具的启动方法如下,不同操作系统下略有不同。但进入命令行界面后,命令操作完全一致,具体的命令行请参见LSI官网的StorCLI使用手册。

¡     Windows操作系统:用键盘输入WIN+R,在弹出的对话框中输入cmd进入Windows操作系统命令行界面,然后输入storcli进入StorCLI命令行工具。

¡     Windows操作系统外:无需输入任何命令,StorCLI命令行工具默认开启。

10.9.2  主要功能

(1)     RAID创建与删除。

(2)     热备盘的创建与删除。

(3)     逻辑盘迁移、扩容。

(4)     通过点灯方式定位硬盘位置。

(5)     升级存储控制卡固件。

(6)     升级存储控制卡软件驱动。

(7)     收集存储控制卡的阵列日志。

10.9.3  指导文档

StorCLI命令行工具使用手册,包括如下获取方式:

·     联系H3C技术支持获取。

·     通过LSI官网获取。(官网下载路径可能会变化,有问题请联系H3C技术支持)

¡     https://docs.broadcom.com/doc/pub-005110

¡     https://www.broadcom.com/products/storage/raid-controllers/megaraid-9460-8i

 


11 故障诊断相关资源

11.1  产品安装资源

1. 内容

·     服务器用户指南:介绍服务器产品的硬件结构、规格、安装和更换等信息。

·     拆卸和安装视频:介绍服务器相关硬件的拆卸和安装。

·     产品介绍视频:介绍服务器的整体信息。

2. 获取方式

访问H3C官网 >支持 > 文档中心 > 服务器。

11.2  产品配置资源

1. 内容

·     服务器软件用户指南:介绍服务器软件的功能和配置方法等信息。

·     软件配置视频:介绍服务器相关软件的配置方法。

2. 获取方式

访问H3C官网 >支持 > 文档中心 > 服务器。

11.3  信息查询工具资源

1. 内容

·     OS兼容性查询工具:查询服务器兼容的操作系统。

·     服务器兼容的部件查询工具:查询服务器部件和操作系统的兼容性。

·     部件兼容的服务器查询工具:查询部件兼容的所有服务器。

·     组网查询工具:查询刀片服务器中,Mezz网卡和互联模块的接口连接关系。

2. 获取方式

访问H3C官网 >支持 > 文档中心 > 服务器。

11.4  告警日志信息查询资源

1. 内容

介绍HDM的告警日志信息,包含日志的内容、参数介绍、等级、含义和处理建议等,为用户进行系统诊断和维护提供参考。

2. 获取方式

访问H3C官网 >支持 > 文档中心 > 服务器。

11.5  驱动和固件下载资源

1. 内容

·     服务器主机软件和固件版本、以及版本说明书。主机软件和固件包括:HDMBIOSCPLDUniSystemiFISTOM、互联模块等。

·     服务器中部件的驱动和固件版本、以及版本说明书。部件包括:硬盘、存储控制卡、网卡、GPU卡、FC HBA卡等。

2. 获取方式

访问H3C官网 >支持 > 软件下载 > 服务器。

新华三官网
联系我们