H3C服务器
故障处理手册
资料版本:6W114-20240322
Copyright © 2020-2024新华三技术有限公司 版权所有,保留一切权利。
非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。
除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。
本文档中的信息可能变动,恕不另行通知。
5.9.2 PCIe GPU FieldDiag现场诊断工具使用方法
5.9.3 HGX GPU FieldDiag现场诊断工具使用方法
7.3.8 HDM事件日志提示电源模块“Vendor mismatch”
7.4.2 Early POST阶段挂死(不适用于Hygon CPU的服务器)
7.5.2 PXE启动黑屏或打印错误信息,无法进入PXE环境
7.6.1 HDM提示硬盘Drive Fault或Offline告警
7.6.5 部分linux系统下发预知性移除NVMe命令时,硬盘Fault/UID指示灯橙灯不亮
7.6.6 部分linux系统下发点灯命令时,硬盘Fault/UID指示灯蓝灯亮,热拔插硬盘后蓝灯不灭
7.6.7 RHEL8.2系统下发点灯命令时,硬盘Fault/UID指示灯不亮
7.6.8 Ubuntu系统对下发点灯/预知性命令操作时,硬盘Fault/UID指示灯不亮
7.7.2 逻辑盘写缓存策略由Write Back变为Write Through
7.7.3 PMC存储控制卡组建的逻辑盘状态为Not be Available
7.7.4 Arcconf工具无法识别P460/H460系列存储控制卡
7.7.5 P460/H460系列存储控制卡的产品型号显示与实际不符
7.7.6 P430系列存储控制卡下逻辑盘中的成员盘出现蓝橙灯交替闪烁
7.7.7 存储控制卡在Legacy BIOS模式初始化阶段卡死
7.7.8 LSI存储控制卡切换至JBOD模式,操作系统安装过程中无法识别硬盘
7.7.9 Windows下手动更新LSI存储控制卡的驱动时提示驱动不适用
7.10.4 POST检测到无可用内存(仅适用于Intel CPU的服务器)
7.11 PMem内存问题(仅适用于Intel CPU的服务器)
7.12.2 CPU Configuration Error(仅适用于Intel CPU的服务器)
7.12.3 CPU出现MCA告警(仅适用于Intel CPU的服务器)
7.12.4 CPU出现MCA告警(仅适用于AMD CPU和Hygon CPU的服务器)
7.12.6 服务器启动进程挂死在UPI初始阶段(仅适用于Intel CPU的服务器)
7.13.1 TPM/TCM发生故障或系统识别不到TPM/TCM
7.20.2 SATA光驱无法被识别(仅适用于AMD CPU和Hygon CPU的服务器)
7.25.2 存储设备已经识别FC HBA卡的端口WWPN但服务器端无法识别到LUN
8.3.1 BIOS告警信息(适用于Intel CPU的服务器)
8.3.2 BIOS告警信息(适用于AMD CPU的服务器)
8.3.3 BIOS告警信息(适用于Hygon CPU的服务器)
8.6.2 操作系统无法识别PCH板载软RAID创建的逻辑盘
8.6.3 在板载NVMe RAID中将RAID1迁移至RAID5时迁移失败
8.6.4 RHEL系统下执行mdadm -C命令包含中括号[]时,无法正常识别双位盘序
操作服务器之前,请仔细了解以下安全信息。
· H3C授权人员或专业的服务器工程师才能运行该服务器。
· 请将服务器放在干净、平稳的工作台或地面上进行维护。
· 运行服务器前,请确保所有线缆均连接正确。
· 为确保服务器充分散热,请遵循如下操作准则:
¡ 请勿阻塞服务器的通风孔。
¡ 服务器的空闲槽位必须安装假面板,比如硬盘、风扇、PCIe卡、OCP网卡、电源模块的槽位。
¡ 机箱盖、导风罩、空闲槽位假面板不在位的情况下,请不要运行服务器。
¡ 维护热插拔部件时,请最大限度地减少机箱盖打开的时间。
· 为避免组件表面过热造成人身伤害,请确保设备和内部系统组件冷却后再操作。
· 当服务器与其他设备上下叠加安装在机柜中时,请确保两个设备之间留出垂直方向2mm以上的空隙。
服务器前面板上的“开机/待机”按钮不能彻底切断系统电源,此时部分电源和内部电路仍在工作,为避免人身伤害、触电或设备损坏,请将服务器完全断电,即先按下“开机/待机”按钮,待系统电源指示灯变为橙色后,拔下服务器上的所有电源线。
· 为避免人身伤害或服务器损坏,请务必使用随产品包装附带的电源线缆。
· 电源线缆只能用于配套的服务器,请勿在其他设备上使用。
· 为避免触电风险,在安装或拆卸任何非热插拔部件时,请先将设备下电。
服务器主板上配置有系统电池;一般情况下,电池寿命为3年~5年。
当服务器不再自动显示正确的日期和时间时,需更换电池。更换电池时,请注意以下安全措施:
· 请勿尝试给电池充电。
· 请勿将电池置于60°C以上的环境中。
· 请勿拆卸/碾压/刺穿电池、使电池外部触点短路或将其投入火中/水中。
· 请将电池弃于专门的电池处理点,勿随垃圾一起丢弃。
为避免电源波动或临时断电对服务器造成影响,建议使用UPS为服务器供电。这种电源可防止服务器硬件因电涌和电压峰值的影响而受损,并且可在电源故障时确保服务器正常运行。
为避免人身伤害或设备损坏,操作服务器时,还需注意以下事项:
· 服务器必须安装在标准19英寸机柜中。
· 机柜的支撑脚要完全触地,且机柜的全部重量应由支撑脚承担。
· 当有多个机柜时,请将机柜连接在一起。
· 请做好机柜安装的部署工作,将最重的设备安装在机柜底部。安装顺序为从机柜底部到顶部,即优先安装最重的设备。
· 将服务器安装到机柜或从机柜中拉出时(尤其当服务器脱离滑道时),要求四个人协同工作,以平稳抬起服务器。当安装位置高于胸部时,则可能需要第五个人帮助调整服务器的方位。
· 每次只能从机柜中拉出一台设备,否则会导致机柜不稳固。
· 将服务器从机柜中拉出或推入前,请确保机柜稳固。
· 为确保充分散热,请在未使用的机柜位置安装假面板。
人体或其它导体释放的静电可能会损坏主板和对静电敏感的部件,由静电造成的损坏会缩短主板和部件的使用寿命。
为避免静电损害,请注意以下事项:
· 在运输和存储设备时,请将部件装入防静电包装中。
· 将静电敏感部件送达不受静电影响的工作区前,请将它们放在防静电包装中保管。
· 先将部件放置在防静电工作台上,然后再将其从防静电包装中取出。
· 在没有防静电措施的情况下,请勿触摸组件上的插针、线缆和电路元器件等静电敏感元件。
在取放或安装部件时,用户可采取以下一种或多种接地方法以防止静电释放。
· 佩戴防静电腕带,并将腕带的另一端良好接地。请将腕带紧贴皮肤,且确保其能够灵活伸缩。
· 在工作区内,请穿上防静电服和防静电鞋,并佩戴防静电手套。
· 请使用导电的现场维修工具。
· 请使用防静电的可折叠工具垫和便携式现场维修工具包。
为避免维护服务器过程中可能造成的任何伤害,请熟悉服务器上可能出现的安全标识。
表1-1 安全标识
图示 |
说明 |
警告 |
该标识表示存在危险电路或触电危险。所有维修工作应由H3C授权人员或专业的服务器工程师完成。 |
为避免电击造成人身伤害,请勿打开符号标识部件。所有维护、升级和维修工作都应由H3C授权人员或专业的服务器工程师完成。 |
|
该标识表示存在触电危险。不允许用户现场维修此部件。用户任何情况下都不能打开此部位。 |
为避免电击造成人身伤害,请勿打开符号标识部件。 |
|
该标识出现在RJ45接口上,表示该接口用于网络连接。 |
为避免电击、起火或设备损坏,请勿将电话或电信设备接入该接口。 |
|
该标识表示存在高温表面或组件。如果触摸该表面或组件,可能会造成人身伤害。 |
为避免组件表面过热造成人身伤害,请确保服务器和内部系统组件冷却后再操作。 |
|
该标识表示组件过重,已超出单人安全取放的正常重量。 |
为避免人身伤害或设备损坏,请遵守当地关于职业健康与安全的要求,以及手动处理材料的指导。 |
|
电源或系统上的这些标识表示服务器由多个电源模块供电。 |
为避免电击造成人身伤害,请先断开所有电源线缆,并确保服务器已完全断电。 |
本手册主要适用于如下工程师:
· 现场技术支持与维护人员
· 负责服务器配置和维护的管理员
本手册适用于如下服务器。
· H3C G6服务器
¡ H3C UniServer R3950 G6
¡ H3C UniServer R4300 G6
¡ H3C UniServer R4700 G6
¡ H3C UniServer R4700LE G6
¡ H3C UniServer R4900 G6
¡ H3C UniServer R4900 G6 Ultra
¡ H3C UniServer R4900LE G6 Ultra
¡ H3C UniServer R4950 G6
¡ H3C UniServer R5300 G6
¡ H3C UniServer R5350 G6
¡ H3C UniServer R5500 G6
¡ H3C UniServer R6700 G6
¡ H3C UniServer R6900 G6
· H3C G5服务器
¡ H3C UniServer R4300 G5
¡ H3C UniServer R4330 G5
¡ H3C UniServer R4330 G5 H3
¡ H3C UniServer R4700 G5
¡ H3C UniServer R4700LC G5
¡ H3C UniServer R4900 G5
¡ H3C UniServer R4900LC G5
¡ H3C UniServer R4930 G5
¡ H3C UniServer R4930 G5 H3
¡ H3C UniServer R4930LC G5 H3
¡ H3C UniServer R4950 G5
¡ H3C UniServer R5300 G5
¡ H3C UniServer R5500 G5
¡ H3C UniServer R5500LC G5
¡ H3C UniServer R6900 G5
· H3C G3服务器
¡ H3C UniServer R2700 G3
¡ H3C UniServer R2900 G3
¡ H3C UniServer R4300 G3
¡ H3C UniServer R4700 G3
¡ H3C UniServer R4900 G3
¡ H3C UniServer R5300 G3
¡ H3C UniServer R6700 G3
¡ H3C UniServer R6900 G3
¡ H3C UniServer R8900 G3
· 本文中展示的软件界面,以某个软件版本为准进行示例;由于软件会不定期更新,请以产品实际显示的软件界面为准。
· 为方便用户,本文中提供了部分第三方官网的信息下载路径;若路径发生变化,导致用户无法获取相关信息,请联系H3C技术支持。
本节主要介绍服务器故障处理的基本流程,包括故障处理准备、信息收集、诊断定位和故障处理等步骤。故障处理的指导思想是根据故障现象初步确定故障出现的所有可能的原因,并结合软硬件日志诊断及测试验证结果,最终找到问题根因,并采取对应措施解决问题。
表3-1 故障处理流程说明
步骤 |
说明 |
准备工作 |
准备故障诊断和处理所需的软硬件工具和相关手册。详细信息请参见4 故障诊断前的准备工作。 |
故障信息收集 |
· 收集故障现场信息,如现象描述、设备型号、操作系统及具体操作等。针对具体问题请联系技术支持,判断收集哪些类型的现场信息。 |
判断故障是否与产品相关 |
判断故障是否与产品相关。 · 如果是与产品相关的故障问题,请进一步定位故障原因。 · 如果是与产品无关的故障问题,即上层业务软件或操作系统产生的故障,建议优先联系业务软件或操作系统供应商处理。 |
故障诊断定位 |
|
故障处理 |
|
联系技术支持 |
如果在故障处理过程中遇到难以确定或解决的问题,通过指导文档依旧无法解决,请联系技术工程师协助处理。 |
故障处理相关资源 |
故障处理过程中可能需要诊断工具或版本升级,可根据具体需求获取如下相关资源: |
在开始故障诊断前,请做好相关准备工作。
· 熟悉服务器产品知识;阅读产品配套资料,比如产品用户指南。
· 熟悉服务器上的安全标识。
· 熟悉服务器硬件架构。
· 熟悉服务器前后面板指示灯。
· 熟悉服务器上运行的系统。
· 熟悉服务器正常运行的物理环境要求。
· 熟悉硬件的常用操作,如上下电、部件更换。
· 熟悉软件的常用操作,如日志收集、固件升级。
· 熟悉维护服务器的流程。
· 熟悉服务器的操作系统兼容性、部件兼容性。
表4-1 远程维护工具
工具名称 |
工具简介 |
工具获取方式 |
HDM |
H3C自主研发的服务器远程管理系统,提供Web界面为服务器提供直观便捷的配置查询接口,兼容服务器业界管理标准IPMI、SNMP、Redfish,提供方便的远程维护手段 |
服务器出厂自带,如需更新可在H3C官网下载: http://www.h3c.com/cn/Service/Document_Software/Software_Download/Server/ |
UniSystem |
服务器批量管理软件,支持资源监控、告警监控、模块化配置及批量应用、固件和驱动的更新等功能 |
AE模块出厂自带,如需在其他环境部署或升级UniSystem可在H3C官网下载: http://www.h3c.com/cn/Service/Document_Software/Software_Download/Server/ |
iFIST |
内嵌在H3C自研服务器中的单机智能部署工具,支持RAID配置、OS自动安装、服务器诊断 |
服务器出厂自带,如需更新可在H3C官网下载: http://www.h3c.com/cn/Service/Document_Software/Software_Download/Server/ |
REPO |
REPO是一个固件和驱动安装文件的集合,用户可以使用REPO通过多种方式对固件和驱动进行安装或升级 |
可在H3C官网定制化或直接下载完整的REPO: · http://www.h3c.com/cn/Service/Document_Software/Software_Download/Server/ |
hREST |
hREST命令行工具主要基于HTTPs协议和Redfish(RESTful和IPMI)接口协议,是一款便于用户管理服务器的客户端工具。用户可通过本工具的查询、设置等命令对服务器进行管理 |
可在H3C官网下载: http://www.h3c.com/cn/Service/Document_Software/Software_Download/Server/ |
PuTTY |
第三方远程访问工具,是一个Telnet、SSH以及串行接口访问的软件,可用于远程登录操作系统及查看串口信息等 |
请自行获取,比如通过互联网下载 |
IPMItool |
IPMItool提供一个简单的命令行界面,可用于通过服务器HDM提供的IPMI接口管理服务器,可以独立于操作系统来管理系统硬件组件,监视系统运行状况以及监视和管理系统环境 |
请自行获取,比如通过互联网下载 |
表4-2 阵列诊断工具
工具名称 |
支持的存储控制卡 |
工具简介 |
工具获取方式 |
HDM |
H3C服务器支持的所有存储控制卡(不包括PCH板载软RAID) |
通过带外管理,获取存储控制卡和硬盘的相关配置信息 |
请在如下链接中找到安装存储控制卡的服务器,下载相关固件包: http://www.h3c.com/cn/Service/Document_Software/Software_Download/Server/ |
Arcconf |
H3C服务器支持的所有PMC存储控制卡* |
PMC存储控制卡*操作系统下的命令行管理工具,主要功能包括存储控制卡配置信息获取,逻辑盘的创建与删除、热备盘、扩容、日志收集等 |
请在如下链接中找到对应的存储控制卡,该工具包括在其固件包中: http://www.h3c.com/cn/Service/Document_Software/Software_Download/Server/ |
Storcli64 |
存储控制卡型号: · RAID-LSI-9361-8i(1G)-A1-X · RAID-LSI-9361-8i(2G)-1-X · RAID-LSI-9460-8i(2G) · RAID-LSI-9460-8i(4G) · RAID-LSI-9460-16i(4G) · RAID-LSI-9560-LP-8i(4G) · RAID-LSI-9560-LP-16i · HBA-LSI-9440-8i · HBA-LSI-9500-8i · HBA-LSI-9500-16i · HBA-LSI-9540-8i · RAID-L460-M4 |
LSI存储控制卡*操作系统下的命令行管理工具。主要功能包括存储控制卡配置信息获取,逻辑盘的创建与删除、热备盘、扩容、日志收集等 |
请在如下链接中找到对应的存储控制卡,该工具包括在其固件包中: http://www.h3c.com/cn/Service/Document_Software/Software_Download/Server/ |
PMC存储控制卡/LSI存储控制卡*:存储控制卡所属的厂商,可通过服务器兼容的部件查询工具进行查询 |
建议用户参考表4-3,收集服务器的基本信息。
项目 |
说明 |
产品型号 |
举例:H3C UniServer R4300 G3 |
产品序列号 |
举例:210235A3THH19A000123 |
硬件配置 |
如果更改过CPU、内存、硬盘、存储控制卡等配置,请具体明确 |
操作系统和应用软件版本 |
请根据具体问题,判断是否需要收集操作系统和应用软件版本 |
HDM和BIOS固件版本 |
举例:HDM-1.30.23、BIOS-2.00.45 |
故障发生时间 |
举例:xxxx年xx月xx日xx时xx分xx秒 |
故障现象 |
举例:黑屏 |
故障前的操作 |
举例:修改BIOS参数、修改HDM网络配置 |
故障后已采取的操作和结果 |
举例:插拔所有内存后,故障依旧存在 |
产品序列号是可以唯一识别服务器的字符串组合,也是用户申请进一步技术支持的重要依据。产品序列号以“SN”开头,如图4-1所示。
图4-1 产品序列号(示例)
可通过如下三种方式获取产品序列号。
· 方式一:通过产品标签获取产品序列号
产品标签一般位于机箱右前面的顶部;或机箱的抽拉式资产标签上,抽出该标签即可查看对应的产品序列号。抽拉式资产标签的具体位置请参见对应产品的用户指南,图4-2仅为示例。
图4-2 抽拉式资产标签的位置(示例)
· 方式二:通过HDM获取产品序列号
登录HDM Web界面,在“基本概况”页面可以查看产品序列号,如图4-3所示;也可在“产品信息”页面中查看产品序列号,如图4-4所示。
· 方式三;通过IPMI命令获取产品序列号
a. 通过互联网获取IPMI平台管理工具:IPMITOOL工具。
b. 在IPMITOOL工具中,通过获取主板FRU信息的命令“ipmitool.exe -I lanplus -H ip -U username -P password fru list fruid”,查看产品序列号。
c. 其中各参数含义如下。
- ip:HDM的IP地址。
- username:HDM账号的用户名。
- password:HDM账号的密码。
- fruid:待查询产品主板的FRUid。
图4-5 通过IPMI命令获取产品序列号
故障处理前,请对照如下故障信息检查清单,进行自检并记录自检结果,同时收集相关信息。
表4-4 故障信息检查清单
故障信息检查清单 |
自检结果 |
服务器能否开机上电?如果无法开机上电,服务器前部面板的Health指示灯的状态、开机/待机按钮和系统电源指示灯是什么状态? |
|
HDM是否能正常登录?是否能正常收集HDM SDS日志? |
|
服务器开机后,HDM Web KVM远程控制台是否有显示?服务器连接显示器后,是否有显示? |
|
服务器能否正常通过POST自检阶段?如果POST阶段挂起或重启,具体发生在哪个阶段?是否有红屏现象,服务器是否安装了规格外的部件? |
|
服务器能否成功引导进入操作系统?如果不能,是否存在如下症状以及何时出现的该症状? l BIOS界面下找不到系统启动引导项(或者BIOS POST完成按F7找不到系统启动项)? l 如果需要通过PXE启动,POST阶段完成后,按F7是否可以看到网卡启动引导项,是否可以正常进入PXE环境? l Grub引导失败? l 操作系统启动找不到分区? l 操作系统挂起或重启,屏幕可能会异常打印? l 操作系统黑屏,键盘鼠标操作无响应? l 操作系统蓝屏,需要重新启动操作系统? l 操作系统紫屏? l 键盘鼠标操作无响应? l 服务器HDM事件日志中上报MCA(Machine Check Architecture,硬件错误检测架构)类告警?MCA错误告警一般以MSMI/CATERR IERR/CATERR MCERR为标志性日志信息。 |
|
故障现象是否出现在安装操作系统后? |
|
故障发生前,执行了哪些操作后出现该问题? |
|
故障现象是否出现在添加/删除/修改了某些软件或硬件之后? |
|
故障诊断过程中,可能需要用户将服务器降级到最小化硬件配置;最小化硬件配置仅包含引导服务器成功完成POST所需的部件。服务器的最小化硬件配置如表4-5所示。
最小化硬件配置 |
最小化硬件配置说明 |
|
H3C UniServer R4300 G6 |
l CPU:1个,安装在CPU 1槽位 l 内存:1个,安装在CPU 1的A0槽位 l 风扇:4个,满配 l 电源模块:1个,安装在电源模块任意槽位 |
/ |
H3C UniServer R4700 G6 |
l CPU:1个,安装在CPU 1槽位 l 内存:1个,安装在CPU 1的A0槽位 l 风扇:8个,满配 l 电源模块:1个,安装在电源模块任意槽位 |
/ |
H3C UniServer R4700LE G6 |
l CPU:2个,满配 l 内存:2个,安装在A0槽位 l 风扇:无需配置 l 电源模块:1个,安装在电源模块任意槽位 |
/ |
H3C UniServer R4900 G6 |
l CPU:1个,安装在CPU 1槽位 l 内存:1个,安装在CPU 1的A0槽位 l 风扇:4个,满配 l 电源模块:1个,安装在电源模块任意槽位 |
/ |
H3C UniServer R4900 G6 Ultra |
l CPU:1个,安装在CPU 1槽位 l 内存:1个,安装在CPU 1的A0槽位 l 风扇:4个,满配 l 电源模块:1个,安装在电源模块任意槽位 |
/ |
H3C UniServer R4900LE G6 Ultra |
l CPU:2个,满配 l 内存:2个,安装在A0槽位 l 风扇:无需配置 l 电源模块:1个,安装在电源模块任意槽位 |
/ |
H3C UniServer R4950 G6 |
l CPU:2个,满配 l 内存:2个,安装在A0槽位 l 风扇:4个,满配 l 电源模块:1个,安装在电源模块任意槽位 |
/ |
H3C UniServer R5350 G6 |
l CPU:2个,满配 l 内存:2个,安装在A0槽位 l 风扇模块:4组,满配 l 电源模块:2个,安装在电源模块任意槽位 |
/ |
H3C UniServer R6700 G6 |
l CPU:1个,安装在CPU 1槽位 l 内存:1个,安装在CPU 1的A0槽位 l 风扇:4个,满配 l 电源模块:1个,安装在电源模块任意槽位 |
/ |
H3C UniServer R6900 G6 |
l CPU:1个,安装在CPU 1槽位 l 内存:1个,安装在CPU 1的A0槽位 l 风扇:4个,满配 l 电源模块:2个,安装在电源模块任意槽位 |
/ |
H3C UniServer R4300 G5 |
l CPU:1个,安装在CPU 1槽位 l 内存:1个,安装在CPU 1的A0槽位 l 风扇:4个,满配 l 电源模块:1个,安装在电源模块任意槽位 |
/ |
H3C UniServer R4700 G5 |
l CPU:1个,安装在CPU 1槽位 l 内存:1个,安装在CPU 1的A0槽位 l 风扇:7个,满配 l 电源模块:1个,安装在电源模块任意槽位 |
/ |
H3C UniServer R4700LC G5 |
l CPU:2个,满配 l 内存:2个,安装在A0槽位 l 风扇:7个,满配 l 电源模块:1个,安装在电源模块任意槽位 |
/ |
H3C UniServer R4900 G5 |
l CPU:1个,安装在CPU 1槽位 l 内存:1个,安装在CPU 1的A0槽位 l 风扇:6个,满配 l 电源模块:1个,安装在电源模块任意槽位 |
/ |
H3C UniServer R4900LC G5 |
l CPU:2个,满配 l 内存:2个,安装在A0槽位 l 风扇:6个,满配 l 电源模块:1个,安装在电源模块任意槽位 |
/ |
l CPU:1个,安装在CPU 1槽位 l 内存:1个,安装在CPU 1的D0槽位 l 风扇:6个,满配 l 电源模块:1个,安装在电源模块任意槽位 |
/ |
|
H3C UniServer R6900 G5 |
l CPU:1个,安装在CPU 1槽位 l 内存:1个,安装在CPU 1的A0槽位 l 风扇模块:3个,安装在任意3个风扇模块槽位 l 电源模块:1个,安装在电源模块任意槽位 |
/ |
H3C UniServer R2700 G3 |
l CPU:1个,安装在CPU 1槽位 l 内存:1个,安装在A1槽位 l 风扇:4个,安装在Fan 3、Fan 5、Fan 6、Fan 7槽位 l 电源模块:1个,安装在电源模块任意槽位 |
/ |
H3C UniServer R2900 G3 |
l CPU:1个,安装在CPU 1槽位 l 内存:1个,安装在A1槽位 l 风扇:4个,安装在Fan 2、Fan 4、Fan 5、Fan 6槽位 l 电源模块:1个,安装在电源模块任意槽位 |
/ |
H3C UniServer R4300 G3 |
l CPU:1个,安装在CPU 1槽位 l 内存:1个,安装在A1槽位 l 风扇:4个,安装在Fan 1、Fan 2、Fan 3、Fan 4槽位 l 电源模块:1个,安装在电源模块任意槽位 |
/ |
H3C UniServer R4700 G3 |
l CPU:1个,安装在CPU 1槽位 l 内存:1个,安装在A1槽位 l 风扇:4个,安装在Fan 4、Fan 5、Fan 6、Fan 7槽位 l 电源模块:1个,安装在电源模块任意槽位 |
/ |
H3C UniServer R4900 G3 |
l CPU:1个,安装在CPU 1槽位 l 内存:1个,安装在A1槽位 l 风扇:4个,安装在Fan 3、Fan 4、Fan 5、Fan 6槽位 l 电源模块:1个,安装在电源模块任意槽位 |
/ |
H3C UniServer R6700 G3 |
l CPU:1个,安装在CPU 1槽位 l 内存:1个,安装在A1槽位 l 风扇:6个,满配 l 电源模块:1个,安装在电源模块任意槽位 |
/ |
H3C UniServer R6900 G3 |
l 计算模块:1个,安装在计算模块1 l PDB板:1个,安装在PDB板槽位 l 管理模块:1个,安装在管理模块槽位 l CPU:1个,安装在计算模块1的CPU 1槽位 l 内存:1个,安装在计算模块1的A1槽位 l 风扇模块:6个,满配 l 电源模块:1个,安装在电源模块任意槽位 |
/ |
H3C UniServer R8900 G3 |
l 计算模块:1个,安装在计算模块1或计算模块3位置(与管理模块和PDB板模块配置位置存在对应关系) l PDB板:1个,安装在PDB板模块槽位,与计算模块配置位置存在对应关系 l 管理模块:1个,安装在管理模块槽位,与计算模块配置位置存在对应关系 l CPU:1个,安装在计算模块内的CPU 1槽位 l 内存:1个,安装在A1槽位 l 风扇:3个,安装在计算模块上的风扇槽位 l 电源模块:1个,安装在已在位的PDB板模块上的电源模块任意槽位 |
l 计算模块1在位时,需要管理模块1和PDB板模块1均在位。 l 计算模块3在位时,需要管理模块2和PDB板模块2均在位。 |
H3C UniServer R4930 G5 |
l CPU:1个,安装在CPU 1槽位 l 内存:1个,安装在任意白槽 l 风扇:6个,满配 l 电源模块:1个,安装在电源模块任意槽位 |
/ |
H3C UniServer R4930 G5 H3 |
l CPU:1个,安装在CPU 1槽位 l 内存:1个,安装在任意白槽 l 风扇:6个,满配 l 电源模块:1个,安装在电源模块任意槽位 |
/ |
H3C UniServer R4930LC G5 H3 |
l CPU:2个, l 内存:2个,安装在任意白槽 l 风扇:6个,满配 l 电源模块:1个,安装在电源模块任意槽位 |
/ |
H3C UniServer R4330 G5 |
l CPU:1个,安装在CPU 1槽位 l 内存:1个,安装在任意白槽 l 风扇:4个,满配 l 电源模块:1个,安装在电源模块任意槽位 |
/ |
H3C UniServer R4330 G5 H3 |
l CPU:1个,安装在CPU 1槽位 l 内存:1个,安装在任意白槽 l 风扇:4个,满配 l 电源模块:1个,安装在电源模块任意槽位 |
/ |
H3C UniServer R5300 G3 |
l CPU:2个 l 内存:2个,安装在两个CPU的A0槽位 l 风扇模块:满配 l 电源模块:2个,安装在电源模块任意槽位 |
/ |
H3C UniServer R5300 G5 |
l CPU:2个 l 内存:2个,安装在两个CPU的A0槽位 l 风扇模块:满配 l 电源模块:2个,安装在电源模块任意槽位 |
/ |
H3C UniServer R5500 G5 |
l CPU:2个 l 内存:2个,安装在两个CPU的A0槽位 l 风扇模块:满配 l 计算节点电源:1个,安装在任意槽位 |
/ |
l 最小化硬件配置中,各槽位的具体位置,请参见产品用户指南。 l 在最小化硬件配置基础上,如果需要配置其他部件,部件的安装准则请参见产品用户指南。 |
服务器日常维护所使用的硬件工具,如表5-1所示。
图示 |
工具名称 |
工具说明 |
螺丝刀 |
用于拆装螺钉、更换系统电池等,一般包括: · T25 Torx星型螺丝刀 · T30 Torx星型螺丝刀 · T15 Torx星型螺丝刀 · T10 Torx星型螺丝刀 · 一字螺丝刀 · 十字螺丝刀 |
|
|
浮动螺母安装条 |
用于牵引浮动螺母,使其安装在机柜的固定导槽孔位上 |
斜口钳 |
用于剪切绝缘套管、电缆扎线扣等 |
|
卷尺 |
用于测量距离 |
|
万用表 |
用于测量电阻、电压,检查电路 |
|
防静电腕带 |
用于操作服务器时使用 |
|
防静电手套 |
||
防静电服 |
||
梯子 |
用于高处作业 |
|
接口线缆(如网线、光纤) |
用于服务器与外接网络互连 |
|
USB Type-C转接线和 USB WIFI模块(小米品牌) |
用于外接第三方USB WIFI模块(小米品牌),提供WIFI热点 服务器是否支持USB WIFI模块,请以实际情况为准。 |
|
串口线 |
用于访问串口,定位问题 |
|
显示终端(如PC) |
用于服务器显示 |
|
温度计/湿度计 |
用于监控机房温度、湿度,是否满足设备稳定运行环境 |
|
示波器 |
用于测量电压和时序 |
· 收集操作系统日志前,请先获取客户书面授权同意,再进行操作。
· 本文收集的操作系统日志仅用于判断硬件故障,操作系统层面的问题请咨询操作系统厂商。
操作系统日志的收集方法,如表5-2所示。
操作系统类型 |
操作系统日志收集方法 |
Windows |
· 无蓝屏现象时,请执行以下操作: a. 在操作系统下单击[计算机/管理]菜单项,打开服务器管理器。 b. 单击[工具/事件查看器]菜单项,打开事件查看器。 c. 单击[Windows日志/系统/将所有事件另存为]菜单项,导出并保存日志文件。 · 有蓝屏现象时,请执行以下操作: a. 截屏或拍照保存蓝屏错误代码信息。 b. 重启后收集“C:\WINDOWS\Minidump\”路径下的全部文件。 |
Linux |
· Linux系统有sosreport工具,请执行以下操作: a. 以root权限用户登录Linux的命令行终端。 b. 执行sosreport命令收集全部Linux日志。 c. 日志收集一般需要几分钟时间,完成后会在“/var/tmp”目录下生成以“sosreport-localhost-ID-YYYY-MM-DD@HH-MM-SS.tar.xz”格式命名的日志文件。 · Linux系统无sosreport工具,请执行以下操作:收集“\var\log”及“/var/crash”目录下的所有全部文件。 |
VMware |
· 无紫屏现象,可以在vSphere Web Client上选择[主机/管理/日志]后搜索“系统日志”并导出日志,也可以执行以下操作生成日志: a. 以root权限用户登录ESXi主机ESXi Server Console命令行。 b. 执行vm-support命令收集全部VMware日志。 c. 日志收集一般需要几分钟时间,完成后会在“/var/tmp”目录下生成以“esxsupport-YYYY-MM-DD@HH-MM-SS.tgz”格式命名的日志文件。 · 出现紫屏且客户已热重启系统的情况下,请执行以下操作: a. 以root权限用户登录ESXi主机ESXi Server Console命令行。 b. 执行vm-support命令收集全部VMware日志。 c. 日志收集一般需要几分钟时间,完成后会在“/var/tmp”目录下生成以“esxsupport-YYYY-MM-DD@HH-MM-SS.tgz”格式命名的日志文件。 · 出现紫屏且客户保留现场环境的情况下,请执行以下操作: a. 截屏或者拍照保存紫屏信息。 b. 按Alt+F12进入内存信息强制输出模式,然后按Alt+PageUp或Alt+PageDown翻页,通过截屏或者拍照的形式保存问题出现的最后几屏日志。 c. 热重启系统后执行vm-support命令收集全部VMware日志。 d. 日志收集一般需要几分钟时间,完成后会在“/var/tmp”目录下生成以“esxsupport-YYYY-MM-DD@HH-MM-SS.tgz”格式命名的日志文件。 |
其他操作系统的日志收集方法请联系技术支持。 |
SDS(Smart Diagnose System,智能诊断系统)日志包括服务器的日志信息(包括事件日志、操作日志和内部日志等)、硬件信息、故障诊断信息,通过SDS日志可以了解服务器运行状态。
(1) 登录HDM Web界面,具体操作请参见《HDM用户指南》。
(2) 进入一键收集页面,如图5-1所示。
(3) 选择默认下载或全部下载SDS日志。
¡ 默认下载:默认下载近30天的SDS日志。在“默认下载”栏中,自定义日志范围可点击右侧日历图标,输入起始时间和截止时间,可下载指定时间段内的SDS日志。
¡ 全部下载:下载全部SDS日志。
(4) (可选)在“新增联系人”栏,填写联系人信息,输入“姓名”、“电话”和“邮箱”信息。
(5) 单击<下载日志>按钮,开始下载日志,下载完成后,将.sds日志文件保存到本地,完成操作。
(6) 如需解析SDS日志,请联系技术支持。
· 不支持多用户同时下载SDS日志。
· SDS日志记录的是UTC时间的日志,HDM的时间以NTP页面设置为准,下载SDS日志时会把HDM时间自动转换成UTC时间,两者之间可能存在时间差。
当服务器操作系统发生崩溃、重启或关机时,HDM会自动录制事件发生前的录像。用户可以通过查看录制的视频,分析服务器操作系统崩溃、重启或关机的原因。通过HDM Web端的“录像回放”功能可以查看并下载已录制的视频。
(1) 登录HDM Web界面,具体操作请参见《HDM用户指南》。
(2) 进入截屏&录像页面,如图5-2所示。
(3) 单击目标视频,视频会在当前页面中播放。
(4) 视频加载完后,单击<下载>按钮,完成下载视频操作。
如果操作系统发生崩溃、重启或关机事件时,操作系统处于休眠状态,查看录像回放时会显示无信号。
PMC存储控制卡,指厂商为PMC的存储控制卡;LSI存储控制卡,指厂商为LSI的存储控制卡。存储控制卡所属的厂商可通过服务器兼容的部件查询工具进行查询。
PMC存储控制卡可通过PMC官方提供的Arcconf命令行工具进行配置信息收集。
· Arcconf命令行工具的安装方法,请参见PMC官网的Arcconf使用手册。不同操作系统下,工具的安装方法不同。
· Arcconf命令行工具的启动方法如下,不同操作系统下略有不同。但进入命令行界面后,命令操作完全一致,具体的命令行请参见PMC官网的Arcconf使用手册。
¡ Windows操作系统:用键盘输入WIN+R,在弹出的对话框中输入cmd进入Windows操作系统命令行界面,然后输入arcconf进入Arcconf命令行工具。
¡ 除Windows操作系统外:无需输入任何命令,Arcconf命令行工具默认开启。
本章节以P430系列存储控制卡在Linux操作系统下为例,介绍如何收集存储控制卡的阵列配置信息。
· 命令
arcconf list
· 命令示例
[root@localhost ~]# ./arcconf list
Controllers found: 1
----------------------------------------------------------------------
Controller information
----------------------------------------------------------------------
Controller ID : Status, Slot, Mode, Name, SerialNumber, WWN
----------------------------------------------------------------------
Controller 1 : Optimal, Slot 10, RAID (Expose RAW), PM8060-RAID , 70532000, 5D461FE170532000
· 命令
arcconf getconfig controller_id AD
表5-3 参数说明
参数 |
参数说明 |
配置建议 |
controller_id |
存储控制卡的ID |
- |
· 命令示例
[root@localhost ~]# ./arcconf getconfig 1 AD
Controllers found: 1
----------------------------------------------------------------------
Controller information
----------------------------------------------------------------------
Controller Status : Optimal
Controller Mode : RAID (Expose RAW)
Channel description : SAS/SATA
Controller Model : PM8060-RAID
Controller Serial Number : 70532000
Controller World Wide Name : 5D461FE170532000
Controller Alarm : Enabled
Temperature : 71 C/ 159 F (Normal)
Installed memory : 2048 MB
......
BIOS : 7.16-0 (33456)
Firmware : 7.16-0 (33456)
Driver : 1.2-1 (41066)
Boot Flash : 7.16-0 (33456)
· 命令
arcconf getconfig controller_id PD disk_id
表5-4 参数说明
参数 |
参数说明 |
配置建议 |
controller_id |
存储控制卡的ID |
- |
disk_id |
物理盘的ID |
选填参数,用于仅需查询具体某块硬盘信息的场景 |
· 命令示例
[root@localhost ~]# ./arcconf getconfig 1 PD
Controllers found: 1
----------------------------------------------------------------------
Physical Device information
----------------------------------------------------------------------
Device #0
Device is a Hard drive
State : Online
Block Size : 512 Bytes
Supported : Yes
Programmed Max Speed : SAS 12.0 Gb/s
Transfer Speed : SAS 12.0 Gb/s
Reported Channel,Device(T:L) : 0,10(10:0)
Reported Location : Enclosure 0, Slot 2(Connector 0, Connector 1)
Reported ESD(T:L) : 2,0(0:0)
Vendor : HGST
Model : HUC101860CSS200
Firmware : AA01
Serial number : 0BG4667F
......
Hardware Error Count : 0
Medium Error Count : 0
Parity Error Count : 0
Link Failure Count : 0
Aborted Command Count : 0
SMART Warning Count : 0
· 命令
arcconf getconfig controller_id LD LD_id
表5-5 参数说明
参数 |
参数说明 |
配置建议 |
controller_id |
存储控制卡的ID |
- |
LD_id |
逻辑盘的ID |
选填参数,用于仅需查询具体逻辑盘信息的场景 |
· 命令示例
[root@localhost ~]# ./arcconf getconfig 1 LD
Controllers found: 1
----------------------------------------------------------------------
Logical device information
----------------------------------------------------------------------
Logical Device number 0
Logical Device name : LogicalDrv 0
Block Size of member drives : 512 Bytes
RAID level : 10
Unique Identifier : 45D14933
Status of Logical Device : Optimal
Additional details : Initialized with Build/Clear
Size : 1014 MB
Parity space : 1024 MB
Stripe-unit size : 256 KB
Interface Type : SAS/SATA
Device Type : HDD
Read-cache setting : Enabled
Read-cache status : On
Write-cache setting : Enabled
Write-cache status : On
Partitioned : No
Protected by Hot-Spare : No
Bootable : Yes
Failed stripes : No
Power settings : Disabled
--------------------------------------------------------
Logical Device segment information
--------------------------------------------------------
Group 0, Segment 0 : Present (572325MB, SAS, HDD, Enclosure:0, Slot:2) 0BG4667F
Group 0, Segment 1 : Present (1716957MB, SAS, HDD, Enclosure:0, Slot:5) 29L0A016FMCF
Group 1, Segment 0 : Present (3815447MB, SATA, HDD, Enclosure:0, Slot:7) WJG00YXP
Group 1, Segment 1 : Present (3815447MB, SATA, HDD, Enclosure:0, Slot:8) WJG00Z35
· 命令
arcconf getstatus 1
· 命令示例
[root@localhost ~]# ./arcconf getstatus 1
Controllers found: 1
Logical Device Task:
Logical Device : 0
Task ID : 107
Current operation : Rebuild
Status : In Progress
Priority : High
Percentage complete : 0
Command completed successfully.
LSI存储控制卡可通过LSI官方提供的StorCLI命令行工具进行配置信息收集。
· StorCLI命令行工具的安装方法,请参见LSI官网的StorCLI使用手册。不同操作系统下,工具的安装方法不同。
· StorCLI命令行工具的启动方法如下,不同操作系统下略有不同。但进入命令行界面后,命令操作完全一致,具体的命令行请参见LSI官网的StorCLI使用手册。
¡ Windows操作系统:用键盘输入WIN+R,在弹出的对话框中输入cmd进入Windows操作系统命令行界面,然后输入storcli进入StorCLI命令行工具。
¡ 除Windows操作系统外:无需输入任何命令,StorCLI命令行工具默认开启。
本章节以LSI 9460系列存储控制卡在Linux操作系统下为例,介绍如何收集存储控制卡的阵列配置信息。
· 命令
storcli64 show
· 命令示例
[root@localhost /]# /opt/MegaRAID/storcli/storcli64 show
CLI Version = 007.1017.0000.0000 May 10, 2019
Operating system = Linux 3.10.0-957.el7.x86_64
Status Code = 0
Status = Success
Description = None
Number of Controllers = 1
Host Name = localhost.localdomain
Operating System = Linux 3.10.0-957.el7.x86_64
System Overview :
===============
--------------------------------------------------------------------
Ctl Model Ports PDs DGs DNOpt VDs VNOpt BBU sPR DS EHS ASOs Hlth
--------------------------------------------------------------------
0 SAS3108 8 2 1 0 1 0 N/A On 1&2 Y 3 Opt
· 命令
storcli64 /controller_id show
表5-6 参数说明
参数 |
参数说明 |
配置建议 |
controller_id |
存储控制卡的ID |
- |
· 命令示例
[root@localhost /]# /opt/MegaRAID/storcli/storcli64 /c0 show
CLI Version = 007.1017.0000.0000 May 10, 2019
Operating system = Linux 3.10.0-957.el7.x86_64
Controller = 0
Status = Success
Description = None
Product Name = SAS3108
…
FW Version = 4.660.00-8313
Driver Name = megaraid_sas
Driver Version = 07.705.02.00-rh1
Current Personality = RAID-Mode
Vendor Id = 0x1000
Device Id = 0x5D
SubVendor Id = 0x19E5
SubDevice Id = 0xD207
Host Interface = PCI-E
Device Interface = SAS-12G
…
Virtual Drives = 1
VD LIST :
=======
---------------------------------------------------------------
DG/VD TYPE State Access Consist Cache Cac sCC Size Name
---------------------------------------------------------------
0/0 RAID1 Optl RW Yes RWTD - ON 110.827 GB
---------------------------------------------------------------
Physical Drives = 2
PD LIST :
=======
---------------------------------------------------------------------------------
EID:Slt DID State DG Size Intf Med SED PI SeSz Model Sp Type
---------------------------------------------------------------------------------
252:1 7 Onln 0 110.827 GB SATA SSD N N 512B INTEL SSDSC2BB120G6 U -
252:3 9 Onln 0 222.585 GB SATA SSD N N 512B INTEL SSDSC2KB240G7 U -
· 命令
storcli64 /controller_id/vall show all
表5-7 参数说明
参数 |
参数说明 |
配置建议 |
controller_id |
存储控制卡的ID |
- |
· 命令示例
[root@localhost /]# /opt/MegaRAID/storcli/storcli64 /c0/vall show all
CLI Version = 007.1017.0000.0000 May 10, 2019
Operating system = Linux 3.10.0-957.el7.x86_64
Controller = 0
Status = Success
Description = None
Virtual Drives :
==============
---------------------------------------------------------------
DG/VD TYPE State Access Consist Cache Cac sCC Size Name
---------------------------------------------------------------
0/0 RAID1 Optl RW Yes RWTD - ON 110.827 GB
…
PDs for VD 0 :
============
---------------------------------------------------------------------------------
EID:Slt DID State DG Size Intf Med SED PI SeSz Model Sp Type
---------------------------------------------------------------------------------
252:1 7 Onln 0 110.827 GB SATA SSD N N 512B INTEL SSDSC2BB120G6 U -
252:3 9 Onln 0 222.585 GB SATA SSD N N 512B INTEL SSDSC2KB240G7 U -
---------------------------------------------------------------------------------
VD0 Properties :
==============
Strip Size = 256 KB
Number of Blocks = 232421376
VD has Emulated PD = Yes
Span Depth = 1
Number of Drives Per Span = 2
Write Cache(initial setting) = WriteBack
Disk Cache Policy = Disk's Default
Encryption = None
Data Protection = Disabled
Active Operations = None
Exposed to OS = Yes
OS Drive Name = /dev/sda
Creation Date = 21-10-2020
Creation Time = 08:00:42 AM
Emulation type = default
Cachebypass size = Cachebypass-64k
Cachebypass Mode = Cachebypass Intelligent
Is LD Ready for OS Requests = Yes
SCSI NAA Id = 6c0079045c1759aa2722a72a08c76c57
· 命令
storcli64 /controller_id/eall/sall show
表5-8 参数说明
参数 |
参数说明 |
配置建议 |
controller_id |
存储控制卡的ID |
- |
· 命令示例
[root@localhost /]# /opt/MegaRAID/storcli/storcli64 /c0/eall/sall show
CLI Version = 007.1017.0000.0000 May 10, 2019
Operating system = Linux 3.10.0-957.el7.x86_64
Controller = 0
Status = Success
Description = Show Drive Information Succeeded.
Drive Information :
=================
---------------------------------------------------------------------------------
EID:Slt DID State DG Size Intf Med SED PI SeSz Model Sp Type
---------------------------------------------------------------------------------
252:1 7 Onln 0 110.827 GB SATA SSD N N 512B INTEL SSDSC2BB120G6 U -
252:3 9 Onln 0 222.585 GB SATA SSD N N 512B INTEL SSDSC2KB240G7 U -
---------------------------------------------------------------------------------
PMC存储控制卡,指厂商为PMC的存储控制卡;LSI存储控制卡,指厂商为LSI的存储控制卡。存储控制卡所属的厂商可通过服务器兼容的部件查询工具进行查询。
(1) 登录HDM Web界面,进入存储管理界面,选择RAID视图页签,进入RAID视图页面。
(2) 选择目标存储控制卡,查看相关信息,如图5-3所示,通过该方式可查看存储控制卡型号、支持的RAID级别、超级电容的状态等信息。
本章节以RAID-LSI-9361-8i系列存储控制卡为例进行介绍。
本章节以H460系列存储控制卡为例进行介绍。
(1) 服务器上电后,在BIOS启动界面,根据提示按下Delete或Esc(部分产品按Delete或F2)进入如图5-4所示的BIOS Setup界面。
(2) 如图5-5,进入Advanced页签,并选择存储控制器(如:UN HBA H460-B2),按Enter。
图5-5 选择存储控制器
(3) 进入图5-6所示存储控制卡配置界面,选择Controller Information,按Enter。
(4) 进入图5-7所示界面,查看存储控制卡的基本信息,具体参数说明请参见表5-9。
参数 |
说明 |
Controller |
产品标识 |
Device ID |
设备标识 |
PCI Slot number |
PCI槽位编号 |
PCI Address (Bus:Device:Funcition) |
PCI地址(总线:设备:功能) |
Hardware Revision |
硬件版本 |
Serial Number |
序列号 |
Firmware Version |
固件版本 |
Firmware release date |
固件发布日期 |
UEFI Driver Version |
UEFI驱动程序版本 |
UEFI Driver release date |
UEFI驱动程序发布日期 |
Controller Memory Module Size |
存储控制卡模块大小 |
Controller Mode |
存储控制卡模式 |
本章节以P430系列存储控制卡为例进行介绍。
(1) 服务器上电后,在BIOS启动过程中,出现如图5-8所示界面后,按Ctrl+A。
图5-8 BIOS启动过程中根据提示按Ctrl+A
(2) 进入如图5-9所示载入界面,此处可查看存储控制卡的版本信息和基本状态信息。
(3) 进入图5-10所示PMC RAID管理界面(操作选项说明请参见表5-10,选择Controller Settings,按Enter。
图5-10 PMC RAID管理界面
选项 |
概要说明 |
Logical Device Configuration |
通过该选项可选择管理阵列、创建阵列、磁盘初始化/去初始化、擦除磁盘数据和设置启动项等操作。 |
Controller Settings |
通过该选项可对存储控制卡进行设置,包括修改存储控制卡工作模式、恢复存储控制卡缺省配置等。 |
Disk Utilities |
通过该选项可以选择格式化磁盘、定位磁盘位置等操作。 |
(4) 进入图5-11所示界面,选择Controller Configuration,按Enter。
(5) 进入图5-12所示界面,即可查看存储控制卡的基本配置信息。
图5-12 Controller Configuration界面
本章节以RAID-LSI-9361-8i系列存储控制卡为例进行介绍。
(1) 服务器上电后,在BIOS启动界面,根据提示按下Delete或Esc(部分产品按Delete或F2)进入如图5-13所示的BIOS Setup界面(部分产品进入Front界面,请选择Device Management,进入设备管理菜单)。请参考界面右下角的按键操作提示,以实现在界面中导航和修改设置。
(2) 进入存储控制器管理界面。如图5-14所示,进入Advanced页签,并选择存储控制器(如:BROADCOM MegaRAID< MegaRAID 9560-8i 4GB >),按Enter。
(3) 进入图5-15所示界面,选择Main Menu,按Enter。
(4) 进入如图5-16所示页面,选择Virtual Drive Management,按Enter。
(5) 进入图5-17所示界面,可以看到已创建的RAID,选择需要查看的RAID,按Enter。
图5-17 Vitrual Drive Management界面
(6) 进入图5-18所示界面,选择View Associated Drives,按Enter,即可查看该RAID的详细信息(包括RAID名称、级别,所含磁盘信息等)。
图5-18 选择View Associated Drives
本章节以LSI-9361系列存储控制卡为例进行介绍。
(1) 在BIOS启动过程中,出现如图5-19所示界面后,按Ctrl+R。
图5-19 BIOS启动过程中根据提示按Ctrl+R
(2) 如图5-20所示,在VD Mgmt界面选择待查看的逻辑磁盘,按Enter。
(3) 即可查看该RAID的详细信息(包括RAID名称、级别,所含磁盘信息等),如图5-21所示。
PMC存储控制卡,指厂商为PMC的存储控制卡;LSI存储控制卡,指厂商为LSI的存储控制卡。存储控制卡所属的厂商可通过服务器兼容的部件查询工具进行查询。
· 仅支持在操作系统下,通过存储控制卡的管理工具,收集阵列日志。PMC官方推荐的存储控制卡管理工具为Arcconf命令行工具,LSI官方推荐的存储控制卡管理工具为StorCLI命令行工具。
· 不支持在操作系统外收集存储控制卡的阵列日志。
PMC存储控制卡可通过PMC官方提供的Arcconf命令行工具进行日志收集。
· Arcconf命令行工具的安装方法,请参见PMC官网的Arcconf使用手册。不同操作系统下,工具的安装方法不同。
· Arcconf命令行工具的启动方法如下,不同操作系统下略有不同。但进入命令行界面后,命令操作完全一致,具体的命令行请参见PMC官网的Arcconf使用手册。
¡ Windows操作系统:用键盘输入WIN+R,在弹出的对话框中输入cmd进入Windows操作系统命令行界面,然后输入arcconf进入Arcconf命令行工具。
¡ 除Windows操作系统外:无需输入任何命令,Arcconf命令行工具默认开启。
PMC存储控制卡阵列日志收集步骤如下。
(1) 进入Arcconf命令行工具,本文以进入Linux操作系统命令行工具为例。使用root权限用户登录Linux操作系统。
(2) 执行arcconf savesupportarchive命令收集PMC存储控制卡的阵列日志。
(3) 日志收集一般需要几分钟时间,完成后系统会自动在“/var/log”路径下下生成“Support”目录,如图5-22所示,所有日志信息均保存在该目录下。
图5-22 收集PMC存储控制卡日志
(4) 如果有多张PMC存储控制卡,如图5-23所示在“Support”目录下的各个目录中,会分别以各张存储控制卡的序号作为日志文件名称的前缀。
图5-23 查看多张PMC存储控制卡的日志保存目录
LSI存储控制卡可通过LSI官方提供的StorCLI命令行工具或者snapdump工具进行日志收集。
· StorCLI命令行工具的安装方法,请参见LSI官网的StorCLI使用手册。不同操作系统下,工具的安装方法不同。
· StorCLI命令行工具的启动方法如下,不同操作系统下略有不同。但进入命令行界面后,命令操作完全一致,具体的命令行请参见LSI官网的StorCLI使用手册。
¡ Windows操作系统:用键盘输入WIN+R,在弹出的对话框中输入cmd进入Windows操作系统命令行界面,然后输入storcli进入StorCLI命令行工具。
¡ 除Windows操作系统外:无需输入任何命令,StorCLI命令行工具默认开启。
LSI存储控制卡阵列日志收集步骤如下。
(1) 进入StorCLI命令行工具,本文以Linux操作系统为例进行介绍。Linux操作系统下,无需输入任何命令,StorCLI命令行工具默认开启。
(2) 如图5-24所示输入/opt/MegaRAID/storcli/storcli64 /c0 show all > storcli.showall命令,耐心等待后,会在“/opt/MegaRAID/storcli/”文件夹下生成存储控制卡以及硬盘的相关信息并保存。
(3) 如图5-24所示输入/opt/MegaRAID/storcli/storcli64 /c0 show events > storcli.events命令,耐心等待后,会在“/opt/MegaRAID/storcli/”文件夹下生成以事件形式记录的存储控制卡生命周期中的重要日志。
(4) 如图5-24所示输入/opt/MegaRAID/storcli/storcli64 /c0 show termlog > /opt/MegaRAID/storcli/storcli.termlog命令,耐心等待后,会在“/opt/MegaRAID/storcli/”文件夹下生成操作系统启动全过程的日志并保存,可用于查询存储控制卡配置、物理盘信息、逻辑盘信息等。但是该日志在操作系统重启后会清空之前所有的记录,仅保留本次启动的日志。
(5) 如图5-24所示输入/opt/MegaRAID/storcli/storcli64 /c0 show alilog > storcli.alilog命令,耐心等待后,信息输出重定向到/opt/MegaRAID/storcli/storcli.alilog 并保存。
图5-24 收集LSI存储控制卡阵列日志
· 使用snapdump收集日志,命令请参考《H3C G6服务器 存储控制卡用户指南》的5.5.14章节。
本章节介绍如下Qlogic FC HBA卡的日志收集方法。Qlogic FC HBA卡指生产厂家为Qlogic的FC HBA卡,目前包括如下型号:
· FC-HBA-QLE2560-8Gb-1P-1
· FC-HBA-QLE2562-8Gb-2P-1
· FC-HBA-QLE2690-16Gb-1P-1
· FC-HBA-QLE2692-16Gb-2P-1
· FC-HBA-QLE2740-32Gb-1P
· FC-HBA-QLE2742-32Gb-2P
当排查Qlogic FC HBA卡是否出现故障或判断故障原因时,可收集相关日志进行故障定位和分析。
Qlogic FC HBA卡日志收集工具,如表5-11所示。需要注意的是,该工具仅用于日志信息收集,不会收集任何用户信息,也不会对业务造成影响。如需获取工具请联系技术支持。
表5-11 Qlogic FC HBA卡日志收集工具
操作系统 |
工具名称 |
Windows |
qInfoHD_Windows---[date].exe |
Linux |
qla_linux-info.sh |
VMware |
qMwareHD--[date].exe |
需要通过执行脚本来收集日志信息。脚本工具获取、日志收集的方法,均请参见Marvell官网或联系技术支持。
以下简单介绍日志的收集方法:
(1) 访问Marvell官网,下载脚本工具qInfoHD_Windows--[date].exe。
(2) 右键单击已下载的脚本工具,选择“以管理员身份运行”,之后将开始收集对应的日志信息。
(3) 复制保存日志信息。
收集到的日志信息包含以下内容:
· 服务器相关信息:
¡ 服务器制造商及型号
· 操作系统相关信息:
¡ 操作系统名称及版本
¡ 正在运行的服务
¡ 已安装的管理工具
¡ 网络信息
¡ 操作系统和应用程序事件日志
¡ (如已安装)VMware vCenter信息
· FC HBA卡相关信息:
¡ 已安装的适配器
- FC适配器
- 光纤缓存适配器
- 聚合网络适配器
- 智能以太网适配器
- iSCSI适配器
- LiquidSecurity硬件安全模块
¡ 已安装的驱动程序及版本信息
· (如已配置)完整的博科交换机SupportSave日志信息
· 需要通过执行脚本来收集日志信息。脚本工具获取、日志收集的方法,均请参见Marvell官网或联系技术支持。
· 如需获取debug日志信息,请参见Marvell官网或联系技术支持。
以下简单介绍日志的收集方法:
(1) 访问Marvell官网,下载脚本工具qla_linux_info.sh。
(2) 将脚本上传至服务器操作系统,添加权限并执行如下命令。
(3) # chmod +x qla_linux_info.sh
(4) # ./qla_linux_info.sh
(5) 复制保存日志信息。
收集到的日志信息包含如下内容:
· 服务器相关信息:
¡ 制造商及型号
¡ 处理器的类型和数量
¡ BIOS的版本和发布日期
· 操作系统相关信息:
¡ 操作系统名称及版本
¡ IP地址信息
¡ 操作系统日志
¡ 当前运行的进程
· FC HBA卡相关信息:
¡ SCSI信息
¡ QLE10000 FCA信息
¡ FC信息
¡ iSCSI信息
¡ 已安装的驱动程序及版本
¡ QLogic产品的模块信息
¡ QLogic产品的子系统供应商ID信息
需要通过执行脚本来收集日志信息。脚本工具获取、日志收集的方法,均请参见Marvell官网或联系技术支持。
以下简单介绍日志的收集方法:
(1) 访问Marvell官网,下载脚本工具qMwareHD--[date].exe。
(2) 右键单击已下载脚本工具,选择“以管理员身份运行”,然后选择“VMware Support Dump file (.tgz)”允许工具获取和解析VMware系统中的dump文件信息。
(3) 收集完成后,生成的日志信息文件将保存在VMware系统中的dump文件相同的目录中。
使用Emulex FC HBA卡的日志收集工具OneCapture以Full Capture模式收集时,可能会停用该卡的端口,影响业务运行,故使用该工具运行该模式前请确保业务已切换至其他链路或业务已停止运行。
当Emulex FC HBA卡出现故障时,请参照如下方法收集相关日志。
Emulex FC HBA卡的日志信息可以通过OneCapture工具进行收集,OneCapture工具可以在Broadcom官网下载。
图5-25 日志收集工具及下载链接
操作系统 |
工具 |
下载链接 |
Linux |
OneCapture_Linux_<version>.tgz |
https://www.broadcom.com/products/storage/fibre-channel-host-bus-adapters |
Windows |
OneCapture_<version>.zip |
|
VMware |
OneCapture_ESX_<version>.tgz |
访问Broadcom官网,找到对应操作系统及版本的OneCapture工具下载链接,点击下载该版本OneCapture工具。
图5-26 下载对应版本的OneCapture工具
· HBA-8Gb-LPe12000-1P-1
· HBA-8Gb-LPe12002-2P-1
· HBA-16Gb-LPe31000-1P-1
· HBA-16Gb-LPe31002-2P-1
· FC-HBA-LPe32000-32Gb-1P
· FC-HBA-LPe32002-32Gb-2P
· FC-HBA-LPe35000-LP-32Gb-1P
· FC-HBA-LPe35002-LP-32Gb-2P
Emulex HBA Capture(或称为OneCapture)是一个收集操作系统、Emulex软件和Emulex适配器信息的设备驱动程序,可以使用这些收集到的信息来检查驱动的功能是否正常。Capture工具的详细使用方法及可获取的信息请参见官网用户指导https://docs.broadcom.com/doc/12399041。
Emulex HBA Capture工具收集日志时,可以从Basic、Full、Safe、Minimal和Custom五种获取模式中选择其一,不同模式中的收集的日志信息和操作方法有所不同。
(1) Basic Capture
Capture工具默认选择Basic Capture方式。通常,除非Broadcom技术支持指示使用其他类型,否则请使用该模式。
Basic Capture不会重置正在活动的适配器,也不会重新启动未使用的适配器。也就是说,该模式下所有适配器状态保持不变。如果可能中断业务,Basic Capture将不会立即启动固件dump。
Basic Capture执行以下操作:
· 获取所有可用的配置文件和日志文件
· 获取现有的适配器中的dump文件(如果存在)
· 获取部分类型适配器上的闪存保留的dump文件(如果存在)
(2) Full Capture
在生成固件dump期间,Full Capture可能会重置适配器并导致业务中断。
Full Capture将执行以下操作:
· 获取所有可用的配置文件和日志文件
· 获取现有的适配器中的dump文件(如果存在)
· 获取部分类型适配器上的闪存保留的dump文件(如果存在)
· 对于部分类型适配器,将执行dump操作,生成dump文件
(3) Safe Capture
Safe Capture收集所有可用的实时信息和已有的适配器dump文件,但不执行任何新的dump操作。任一适配器都不会中断I/O。如果面对不可中断I/O或要待收集信息的适配器是引导设备时,请使用此模式收集现有的日志和dump文件。
Safe Capture执行以下操作:
· 获取所有可用的配置文件和日志文件
· 获取现有的适配器中的dump文件(如果存在)
(4) Minimal Capture
Minimal Capture将收集固件dump文件。如果时间紧迫,请使用此模式收集信息。
仅Linux和VMware操作系统支持最小获取。Solaris不支持此模式。在Windows中,可以通过自定义获取功能将数据收集限制为仅收集固件dump文件。
(5) Custom Capture
Custom Capture允许用户从各种获取参数中选择所需的内容。可以在工具页面复选框列表中或使用CLI中的/Component参数选择要获取的组件。
在运行Emulex HBA Capture工具之前,请先停用端口,以免造成业务影响。
使用GUI方式运行Emulex HBA Capture工具,请执行如下步骤:
(1) 官网下载OneCapture_<version>.zip文件。
(2) 解压缩文件。
(3) 运行OneCapture.exe文件。
尽管您可以以普通用户身份运行Emulex HBA Capture工具,但为获得最佳效果,请以管理员或具有管理员特权的用户身份运行该工具。
(4) 以管理员身份运行Emulex HBA Capture工具,不需要任何特殊步骤。可以不受限制地查看所有输出文件。
a) 要以具有管理员特权的用户身份运行Emulex HBA Capture工具,GUI会提示您输入管理员用户名和密码。
b) 对于非管理员,GUI会提示您输入管理员用户名和密码。查看输出文件可能受到限制。在这种情况下,必须授予所需的用户访问输出文件夹的权限。通常,此文件夹位于\Users\Administrator\Documents\Emulex中。
(5) 从弹出窗口中,选择存储输出文件的位置。您可以保留默认路径或指定其他路径。
(6) 从下拉菜单中,选择要使用的Capture模式。您可以选择Basic、Safe、Full或Custom。对于不同模式的区别请参见5.8.2 3. 日志收集工具Capture介绍。
(7) 单击“OK”。如果选择了Full Capture模式,请选择待收集数据的适配器,然后单击“OK”。
图5-27 选择按照Full Capture模式收集的适配器
(8) 选择需要获取的特定项目。例如,在“Adapter Dump Informtion”下,您可以选择以下选项:
a) Adapter Basic Information执行Basic Capture模式。
b) HBA Resident Dump获取现有的dump文件。
c) HBA Firmware Down生成并获取固件dump。
d) HBA FW Log为选定的适配器生成固件日志。(仅部分系列支持)
图5-28 选择获取时的参数
(9) 单击“OK”。Emulex HBA Capture工具收集指定信息并将结果文件放置在指定的文件夹中。
图5-29 “Capture Completed Successfully”对话框
a) 您可以展开Success Capture行以查看待获取的项目是否已成功获取。
b) 您可以展开HBA Firmware Down验证是否为每个请求的适配器都创建了.bin文件。
c) 您可以展开HBA Resident Dump确定是否获取了所有驻留dump文件。
d) 如果其中一行表明存在错误,则可以将鼠标悬停在该行上以查看与之相关的错误。星号表示未创建的文件。
(10) 单击“Output Folder”以打开存储输出文件的目录并退出Emulex HBA Capture,或单击“Close”退出Emulex HBA Capture。
(11) 生成的日志文件详细信息请参见5.8.2 5. (6)日志文件说明。
使用CLI方式运行Emulex HBA Capture工具,请执行如下步骤:
(1) 下载并解压OneCapture_<version>.zip文件。
(2) 从cmd运行OneCapture.exe命令。您需要指定对应的参数信息。
尽管您可以以普通用户身份运行Emulex HBA Capture工具,但为获得最佳效果,请以管理员或具有管理员特权的用户身份运行该工具。
(3) 以管理员身份运行Emulex HBA Capture工具,不需要任何特殊步骤。可以不受限制地查看所有输出文件。
a) 要以具有管理员特权的用户身份运行Emulex HBA Capture工具,请使用“以管理员身份运行”启动cmd,并输入管理员用户名和密码。可以不受限制地访问所有输出文件。
b) 对于非管理员,请使用“以管理员身份运行”启动cmd,然后输入管理员用户名和密码。查看输出文件可能受到限制。在这种情况下,必须授予所需的用户访问输出文件夹的权限。通常,此文件夹位于\Users\Administrator\Documents\Emulex中。
(4) 在命令行中,定义所需的Capture类型。以下CLI参数可用于定义所需的Capture类型:
/? or /H or /help
显示有关命令用法和支持的参数的简要指南。
/L or /ListAdapters
列出发现的适配器。list参数显示每个适配器的适配器编号(0、1,...),该编号在dump命令中用于指定/Adapters参数。
/Quiet or /Q
强制获取而不显示警告消息或提示。
/Directory=<OutputDirectory> or /D=<OutputDirectory>
指定Capture工具输出zip文件的目录。缺省为运行CLI的工作目录。
/Filename=<OutputFilename> or /N=<OutputFilename>
指定工具输出的zip文件时使用的文件名。缺省为OneCapture_Windows_<date-time>.zip。
/BasicCapture or /B
指定为BasicCapture模式。
/SafeCapture or /S
指定为SafeCapture模式。
/FullCapture或/F
指定为FullCapture模式,需要配合/Adapters参数。请注意此参数可以临时中断正在活动的适配器上的I/O,并且可以强制使正在活动适配器脱机,请确保不会影响业务时执行该操作。
/Adapters=<AdapterNumber | <list> | all>
仅与/FullCapture一起使用。此参数用于指定待获取日志信息的适配器编号。
/Components=< <component> | <list> > or /Components=< <component> | <list>>
默认情况下,Emulex HBA Capture工具收集多种类型的组件,例如驱动程序信息和磁盘信息。此参数用于指定需要获取的单个组件信息,而忽略其余所有组件。您可以指定单个组件或组件列表,并以逗号分隔。以下是可用组件的列表:
· autopilot–预配置信息
· disk–磁盘信息
· driver–驱动信息
· elxtrace–ELX跟踪信息
· sestats–SEstats日志
· system–系统信息
· hba/attr–HBA属性
· hba/fwlog-HBA固件日志
· hba/info–HBA信息
· hba/list–HBA列表
· hba/residentdump–驻留的dump文件
· mpio–MPIO信息
· ehm/dumps–Emulex HBA Manager工具收集的dump文件
· ehm/log–Emulex HBA Manager工具日志
· ehm/nvme–NVMe信息
· ehm/status–Emulex HBA Manager工具状态
· win/event–Window事件日志
· win/setup–Windows安装程序日志
示例:通过命令行指定为FullCapture模式并获取所有适配器参数信息,将输入文件命名为output.zip,并将其放置于C:\Capture\LP。
OneCapture.exe /FullCapture /Adapters=ALL /Directory=C:\Capture\LP /FileName=output.zip
(5) 日志文件摘要
Capture工具在获取过程结束后会生成一个输出摘要文件。该文件显示应获取的关键项目的列表,以及获取是否成功,您可以通过此文件验证收集的输出是否有效。
图5-30 日志文件摘要
Capture工具将创建一个包含所有获取的组件信息的zip文件。该zip文件名为OneCapture_Windows_<date-time>.zip。
· GUI:缺省输出目录为MyDocuments\Emulex。
· CLI:缺省为运行CLI的工作目录,可以通过/Directory参数修改输出目录,具体参见Windows命令行参数。
解压生成文件即可查看各组件信息,此外目录中包含OneCapture-<Operating_System>.html文件。
OneCapture-<Operating_System>.html是获取的组件的可导航目录。在浏览器中打开此文件时,可以浏览获取的组件信息。或者,您可以通过浏览目录中的文件直接检查获取的组件信息。
适配器dump文件放置在名为dump/CoreDump的目录中。通常,用户无需单独检查这些文件,可以将文件提供给技术支持用于进一步定位问题。
请确保CoreDump目录中的适配器dump文件已成功创建。该文件对于正确的诊断至关重要。在将.zip文件发送给技术支持之前,您可以检查.zip文件中的组件文件。包含所有适配器列表的.txt文件也位于同一目录中,您可以通过此文件验证是否已包含对应的适配器信息。
在运行Emulex HBA Capture工具之前,请先停用端口,以免造成业务影响。
(1) 使用前准备
· 执行脚本需要具有root用户的可执行权限。
· 必须安装以下库文件才能运行Emulex HBA Capture工具:
¡ linuxvdso.so
¡ libstdc++.so
¡ libgcc_s.so
¡ libc.so
¡ libm.so
¡ libz.so
¡ libpci.so
¡ libpthread.so
¡ libnl.so
¡ librt.so
¡ libresolv.so
· Emulex HBA Capture工具必须能够访问以下目录:
¡ /var/log/
¡ /sys/class/
¡ /proc/
¡ /etc/
¡ /boot/
¡ /usr/sbin/ocmanager/
· 在运行Emulex HBA Capture工具之前,请先停用端口。
(2) 操作步骤
通过Capture生成dump文件时,若已修改Linux操作系统dump默认存放目录,则不会创建dump文件。
a) 以root用户身份登录。
b) 通过SSH或其他方法将OneCapture_Linux_<version>.tgz工具上传到系统上,然后解压缩得到脚本OneCapture_Linux.sh文件。
c) 将脚本更改为可执行模式,例如:
chmod 777 OneCapture
d) 根据需求,确认对应参数,运行shell脚本。有关参数,请参见“Linux,Citrix CLI参数”。例如:
./OneCapture_Linux.sh --BasicCapture
e) 脚本执行时会显示脚本的进度,请确保脚本执行完成。
图5-31 脚本执行进度
f) Emulex HBA Capture脚本完成信息收集后,将在其当前工作目录中创建一个压缩文件。打开该文件即可以查看获取到的信息。
(3) 日志文件说明
Emulex HBA Capture工具将创建一个包含所有获取到的组件信息的.tgz文件。该.tgz文件名为OneCapture_<Operating_System>_<date-time>.tgz。该文件放置在运行Emulex HBA Capture工具的工作目录中。
要检查输出的.tgz文件中的项目,请先将其解压缩。此操作将在当前工作目录中创建一个名为dump的目录。它还在当前工作目录中创建一个文件,称为OneCapture-<Operating_System>.html。
OneCapture-<Operating_System>.html是获取的组件的可导航目录。在浏览器中打开此文件时,可以浏览获取的组件信息。或者,您可以通过浏览dump目录中的文件直接检查获取的组件信息。
适配器dump文件放置在名为dump/CoreDump的目录中。通常,用户无需单独检查这些文件,可以将文件提供给技术支持用于进一步定位问题。
请确保CoreDump目录中的适配器dump文件已成功创建。该文件对于正确的诊断至关重要。在将.tgz文件发送给技术支持之前,您可以检查.tgz文件中的组件文件。包含所有适配器列表的.txt文件也位于同一目录中,您可以通过此文件验证是否已包含对应的适配器信息。
Emulex HBA Capture工具在获取过程结束时会生成一个输出摘要文件。该文件会显示应获取的关键项目的列表,以及获取是否成功,由此您可以验证收集的信息是否有效。
图5-32 输出摘要文件
(4) 脚本执行参数信息说明
-h或--help
显示帮助文本。
-L或--ListAdapters
列出发现的适配器。ListAdapters参数显示每个适配器的适配器号(0、1,...),该数字在--Adapters参数的dump命令中使用。
对于LPe12000系列适配器,适配器上的每个端口都显示为单独的适配器。因此,如果适配器有两个端口,则显示为两个适配器。
-Q或--Quiet
强制获取而不显示警告消息或提示。
-X或--NoCrashDump
不收集/ var / crash下的故障dump文件。
-B或--BasicCapture
指定为BasicCapture获取模式。
-F或--FullCapture
指定为FullCapture获取模式,请同时使用--FullCapture和--Adapters参数。请注意此参数可以临时中断正在活动的适配器上的I/O,并且可以强制使正在活动适配器脱机,请确保不会影响业务时执行该操作。
-S或--SafeCapture
指定为SafeCapture获取模式。
-M或--MinimalCapture
指定为MinimalCapture获取模式,该参数可以和BasicCapture或FullCapture一起使用。可以通过MinimalCapture模式来获取以下项目:
¡ 内核日志
¡ 内核配置
¡ 适配器信息
-A=<AdapterNumber | <list> | all> or --Adapters=<AdapterNumber | <list> | all>
仅与--FullCapture参数一起使用。此参数将对指定适配器执行dump操作。
(5) 脚本执行举例
· BasicCapture获取模式下执行
./OneCapture_Linux.sh --BasicCapture
· FullCapture获取模式下执行,指定获取2,3号适配器的dump文件
./OneCapture_Linux.sh --FullCapture --Adapters=2,3
· FullCapture获取模式下执行,获取所有适配器的dump文件
./OneCapture_Linux.sh --FullCapture --Adapters=all
· MinimalCapture获取模式下执行,快速获取所有适配器的dump文件。
./OneCapture_Linux.sh -A = All -M -F
在运行Emulex HBA Capture工具之前,请先停用端口,以免造成业务影响。
(1) 准备工作
在VMware ESXi系统上运行Emulex HBA Capture实用程序之前,必须通过执行以下操作启用ESXi Shell:
a. 在ESXi系统主屏幕上按F2。
b. 选择Troubleshooting Options。
c. 选择Enable ESXi shell启用ESXi Shell。
d. 在运行Emulex HBA Capture工具之前,请先停用端口,以免造成业务影响。
(2) 运行日志收集脚本
在ESXi系统上运行Emulex HBA Capture工具,请执行以下步骤:
a. 以root用户身份登录。
b. 下载脚本文件压缩包OneCapture_ESX_<version>.tgz。
c. 解压压缩包文件:tar -zxvf OneCapture_ESX_<version>.tgz。
d. 在脚本放置目录中,键入以下命令以显示可用的目标卷:
./OneCapture_ESX.sh [-T | --ShowVolumes]
图5-33 显示可用的目标卷
e. 您可以通过键入[-V | --Volume] = volume_id参数来选择dump的目标卷,为了获得最佳效果,请指定较大的本地卷。
如果未发出-V参数,则会显示类似以下的消息。当您接受建议的目标卷时,键入Y。
图5-34 建议目标卷
f. 使用指定的选项运行相应系统的Shell脚本,将同时显示脚本的执行进度。
图5-35 脚本的执行进度
(3) 日志文件说明
Emulex HBA Capture工具将创建一个压缩的tarball文件。该文件放置在指定的卷中。打开文件以查看信息。
(4) 日志文件摘要
Emulex HBA Capture工具在获取过程结束时会生成一个输出摘要文件。该文件显示应获取的关键项目的列表,以及获取是否成功,通过该文件您可以验证收集的输出是否有效。
图5-36 日志文件摘要
(5) ESXi命令行参数说明
以下CLI参数可用于ESXi系统。
-h或--help
显示帮助文本。
-T或--ShowVolumes
列出可用的卷。用于判断哪些卷ID可以在-V或--Volume参数中使用。
-V或--Volume(可选)
指定dump文件存储的卷。为了获得最佳结果,请为dump文件指定较大的本地卷。如果未发出-V参数,则会显示一条消息,询问您是否要使用检测到的可用空间最大的卷。键入Y继续。
-L或--ListAdapters
列出发现的适配器。ListAdapters参数显示每个适配器的适配器号(0、1,...),该数字在--Adapters参数的dump命令中使用。
-Q或--Quiet
强制获取而不显示警告消息或提示。
-B或--BasicCapture
指定为BasicCapture模式。
-F或--FullCapture
指定为FullCapture模式。请注意此参数可以临时中断正在活动的适配器上的I/O,并且可以强制使正在活动适配器脱机,请确保不会影响业务时执行该操作。
-S或--SafeCapture
指定为SafeCapture模式。
-A= | all> or --Adapters= | all>
仅与--FullCapture参数一起使用。此参数将对指定适配器执行dump操作。
-SVM或--SkipVMsupport
此选项使Capture工具跳过对vm-support数据的收集。
表5-12 GPU故障信息收集方式
收集项 |
收集方法 |
收集内容 |
故障现象 |
整理现场情况,拍照或截图 |
现场情况的拍照或截图 |
SDS日志 |
· HDM Web页面下收集 · 通过定制化运维工具盘Unitool的collect_all_log功能 |
.sds或.tar.gz格式的日志 |
delta FPGA日志 |
· 串口登录机器,记录i2c-test的打印情况 · HDM2.70及其之后版本可使用ipmitool工具收集 |
· i2c-test的打印结果,保存成txt · 收集ipmi打印回显 |
系统日志 |
· 执行sosreport命令获取 · 进入/var/log文件目录,复制所有文件名包含messages和dmesg的文件及文件夹 |
· sosreport · message、dmesg等文件 |
Nvidia-bug-report |
操作系统下执行nvidia-bug-report.sh |
nvidia-bug-report.log.gz |
nvidia-smi信息 |
操作系统下执行命令获取: · nvidia-smi > nvidia_smi.log · nvidia-smi -a >nvidia_smi_a.log |
· nvidia_smi.log · nvidia_smi_a.log |
FM服务运行状态、版本信息、服务日志 |
· systemctl status nvidia-fabricmanager.service > FMstatus.log · journaltcl -u nvidia-fabricmanager >FMprocess.log · rpm -qa | grep -i nvidia |
· FMstatus.log · FMprocess.log · 所有已安装的软件包 |
lspci信息 |
· lspci -tv >> lspci.log · lspci -nnvvv >> lspci.log · lspci -xxxx >> lspci.log |
以不同维度收集链路信息lspci.log |
Fieldiag诊断工具 |
· 操作系统下执行 fieldiag命令获取 · 工具的logs目录下收集 |
Logs-xxx.tgz格式的日志 |
诊断日志文件 |
使用FieldDiag现场诊断工具,具体请参见5.9.2 |
· GPU configuration information · MODS version number 等 |
· FieldDiag工具是nvidia开发的现场诊断工具,当GPU报出硬件错误时,可用此工具进行诊断。针对不同类型的GPU工具不同,工具分为不同版本,此指导针对Telsa、Ampere等通用型PCIe GPU(与HGX类型GPU使用工具版本不通用)。
· 不同的GPU在FieldDiag工具中的执行测试项存在差别,工具运行时长也不同。
· FieldDiag请访问Nvidia Nvonline官网或联系技术支持获取。
· Linux kernel 2.6.16 or later (出于性能考虑,推荐使用2.6.29或更高版本的内核。该工具已经在内核2.6.16到2.6.35中进行了测试。)
· 如果系统中存在nouveau驱动,需进行拉黑
使用以下命令以下进入vim编辑页面按i进入编辑状态:
¡ vim /etc/modprobe.d/blacklist-nouveau.conf
添加两条语句:
¡ blacklist nouveau
¡ options nouveau modeset=0
使用以下命令查看是否添加成功:
¡ cat /etc/modprobe.d/blacklist-nouveau.conf
将系统init文件进行备份:
¡ mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak
将系统init文件进行重组:
¡ dracut -v /boot/initramfs-$(uname -r).img $(uname -r)
或者直接使用dracut -force命令,重启 reboot
查看系统通用驱动是否拉黑(未获取到任何信息即代表拉黑成功):
¡ lsmod |grep -i nouveau
(1) 关闭GPU的MIG模式(可选,一部分GPU会存在MIG模式)
多实例图形处理器(MIG)模式,支持A100图形处理器。当运行FieldDiag时应该关闭。
使用命令:
¡ 使用nvidia-smi查看MIG模式是否开启(Enable Disable)
¡ nvidia-smi -i <GPU IDs> -mig 1(开启MIG模式)
¡ nvidia-smi -i <GPU IDs> -mig 0(关闭MIG模式)
执行命令后重启系统生效
(2) 新建文件夹,将FieldDiag工具包放置在文件夹下并解压,使用命令:
¡ mkdir FieldDiag
¡ cd FieldDiag
¡ tar –zvxf 629-INT18-UNIV-ALL.tgz
(3) 进入文件夹下,安装执行环境并加载工具模块
¡ 在FieldDiag目录下使用命令:
¡ ./install_module.sh -i
¡ 出现modprobe mods则说明模块加载成功,即可执行工具
(4) 执行FieldDiag工具,在FieldDiag目录下使用命令:
¡ ./FieldDiag
图5-37 在FiledDiag目录下使用命令
工具执行时,界面会显示如下信息:
“Running test X on GPU n - Y tests remaining |======= | Z %”
这里:
¡ X 是当前正在执行的测试号
¡ n 是GPU序列号
¡ Y 是剩余的测试项
¡ Z 是总体完成的百分比
如: Running test 208 on GPU 0 - 118 tests remaining |=========== | 64 %
测试完成后,如果测试完成,能看到打印测试结果PASS或FAIL,且会在当前文件夹下生成诊断log,默认情况下,FieldDiag会生成一个二进制日志文件。
(1) 运行结果分类
诊断完成后,如果正常完成,error code将返回0到shell。如果发生错误,它将返回1到shell,如果需要重新测试,它将返回2。它还会在屏幕上打印“PASS”、“FAIL”或“RETEST”
¡ PASS – 硬件诊断完成
¡ FAIL – 硬件诊断失败
¡ RETEST – 诊断的预检查部分硬件设置失败,出现一条描述问题的警告消息。根据预检查消息纠正问题,然后再次测试
图5-38 正常完成error code返回0
(2) 日志文件会包括如下信息
¡ GPU configuration information
¡ MODS version number
¡ MODS kernel driver version
¡ Linux kernel version
¡ ECC errors and retired pages
日志文件中没有客户数据、系统配置信息、系统上运行的进程,也没有来自MODS文件夹以外文件夹的数据。
(3) 日志文件名包含信息
日志文件名包含了基本的测试结果信息,以及被测单板的序列号:
FieldDiag_<PASS/FAIL/CONFIG>_<serial number>.log
以下步骤以HGX H800 GPU为例,使用的是Fieldiag ISO镜像方式进行测试,此方式最为简便不依赖于系统。其他HGX步骤与此一致,但是测试使用的工具包不一样,请注意区分
(1) 在服务器KVM上挂载Fieldiag ISO镜像,以下以按Fieldiag ISO镜像为例。
(2) 在BIOS Exit页面下选择镜像选项“Virtual CD-ROM,Partition 1”并进入。
图5-39 选择Virtual CD-ROM
(3) 进入Fieldiag ISO系统,进入/mnt/nv/tiny目录下。
图5-40 进入Fieldiag ISO系统
(4) 因为此目录为只读目录无法进行测试,将629-24287-XXXX-FLD-39387.tgz拷贝至/root目录下。
图5-41 拷贝文件
(5) 进入root目录下,输入“tar -zxvf 629-24287-XXXX-FLD-39387.tgz”解压文件,并进入解压后的629文件夹,输入 “ls”查看内容。
图5-42 解压文件
(6) 执行“./fieldiag.sh --sit --no_bmc”,--sit可以替换--level1或--level2。
测试完成后在629-24287-XXXX-FLD-38379目录下可看到一个logs的文件夹,日志文件名为logs-xxxxx.tgz(其中xxxx为测试时间)。
Intel网卡,指厂商为Intel的网卡;Mellanox网卡,指厂商为Mellanox的网卡;BroadCom网卡,指厂商为BroadCom的网卡。网卡所属的厂商可通过服务器兼容的部件查询工具进行查询。对于厂商不属于上述范围的网卡,请参考通用网卡日志收集章节。
本章节介绍如下Intel网卡的日志收集方法。Intel® Ethernet 800系列网卡支持对特定的模块生成固件日志,并且可以修改每种模块输出的详细程度,可用的详细级别为:
¡ 0 = none
¡ 1 = error
¡ 2 = warning
¡ 3 = normal
¡ 4 = verbose
如果怀疑异常情况可能属于表5-13中包含的事件类别,可以设置在固件日志中输出相应模块更多详细信息:
事件类别 |
模块 |
Initialization |
· Control |
NVM |
· NVM · Authentication · VPD |
I/O |
· I2C · SDP · MDIO |
Link Management |
· Link Management · Link Control Technology · Link Topology Detection |
Rx |
· Parser · Switch · ACL · Post |
Tx |
· Scheduler · Tx Queue Management |
AQ Interface |
· Admin Queue · HDMA |
Manageability |
· Manageability |
Protocols |
· LLDP · DCBx |
Infrastructure |
· Watchdog · Task Dispatcher · General · IOSF · PF Registration · Module Versions |
XLR |
· XLR |
QoS |
· DCB |
Diagnostics |
· SyncE · Health |
TimeSync |
· Time Sync |
l 下文中日志收集方法仅适用于Intel® Ethernet 800系列网卡。
l Windows系统中可以使用PowerShell和Intel Ethernet cmdlets对固件日志进行配置
以下简单介绍日志的收集方法:
(1) 访问intel官网,下载Ethernet_cmdlets.zip,在系统中解压 ,双击Ethernet_Cmdlets.exe进行安装
(2) 在PowerShell中使用如下命令来查看设备名称、可用的模块(Module)和详细程度(Level)
C:\> Get-IntelEthernetLogConfig
图5-43 查看设备名称等
(3) 通过Set-IntelEthernetLogConfig来设置固件日志中包含的模块及详细程度,例如:
C:\> Set-IntelEthernetLogConfig -Name "Intel(R) Ethernet Network Adapter E810-XXV-2" -Module "Link Management" -Level "Verbose”
(4) 使用如下命令开始收集固件日志:
C:\> Start-IntelEthernetLog -Name "设备名"
固件日志会被自动保存到下图所示路径中:
图5-44 收集固件日志
(5) 执行必要步骤复现问题
(6) 使用如下命令停止收集固件日志:
C:\> Stop-IntelEthernetLog
· ice 驱动程序会将固件日志以二进制格式生成,并打印到dmesg日志中,可以通过fwlog_events参数来设置固件日志中需要包含的模块信息,每种模块对应的fwlog_events取值情况如表5-14所示:
模块 |
fwlog_events |
General |
00000001 (Bit 0) |
Control |
00000002 (Bit 1) |
Link Management |
00000004 (Bit 2) |
Link Topology Detection |
00000008 (Bit 3) |
Link Control Technology |
00000010 (Bit 4) |
I2C |
00000020 (Bit 5) |
SDP |
00000040 (Bit 6) |
MDIO |
00000080 (Bit 7) |
Admin Queue |
00000100 (Bit 8) |
Host DMA |
00000200 (Bit 9) |
LLDP |
00000400 (Bit 10) |
DCBx |
00000800 (Bit 11) |
DCB |
00001000 (Bit 12) |
XLR |
00002000 (Bit 13) |
NVM |
00004000 (Bit 14) |
Authentication |
00008000 (Bit 15) |
VPD (Vital Product Data) |
00010000 (Bit 16) |
IOSF (Intel OnChip System Fabric) |
00020000 (Bit 17) |
Parser |
00040000 (Bit 18) |
Switch |
00080000 (Bit 19) |
Scheduler |
00100000 (Bit 20) |
TX Queue Management |
00200000 (Bit 21) |
ACL (Access Control List) |
00400000 (Bit 22) |
Post |
00800000 (Bit 23) |
Watchdog |
01000000 (Bit 24) |
Task Dispatcher |
02000000 (Bit 25) |
Manageability |
04000000 (Bit 26) |
SyncE |
08000000 (Bit 27) |
Health |
10000000 (Bit 28) |
Time Sync |
20000000 (Bit 29) |
PF Registration |
40000000 (Bit 30) |
Module Version |
80000000 (Bit 31) |
· 可以通过fwlog_level参数来定义每种模块输出日志的详细程度
l 固件日志可能会超出dmesg缓冲区,在加载驱动程序收集固件日志之前,建议将已有的dmesg保存到其他文件中。
l 不支持在驱动已加载的情况下更改固件日志参数,必须重新加载驱动使得更改参数生效。
以下简单介绍日志的收集方法:
(1) 使用如下命令卸载驱动:
# rmmod ice
(2) 将dmesg中的固件日志保存到文件:
# dmesg -w > firmware.log
(3) 使用如下命令加载驱动,并根据需要配置模块及输出详细程度:
# insmod ice.ko dyndbg="+p" fwlog_events=<bitmask> fwlog_level=<0-4>
(4) 执行必要步骤复现问题,固件日志将保存到firmware.log中。
(5) 日志收集完毕后,请移除驱动并重新加载,dmesg中的固件日志会继续保持禁用状态。
l 在vmware系统中,使用 esxcfg-module对固件日志进行配置,固件日志将会输出到dmesg中,且标签为FWLOG。
以下简单介绍日志的收集方法:
(1) 通过如下命令启用固件日志,并指定模块(FWLogEvents)和输出详细程度(FWLogLevel):
# esxcfg-module icen -s 'FWLogEnable=1 FWLogEvents=<bitmask> FWLogLevel=<0-4>'
其中,FWLogEnable表示在指定PF上启用固件日志记录功能(0=禁用,1=启用),可以使用逗号分割每个PF的值,第一个值用于 PF0,第二个值用于 PF1
(2) 重启系统使配置生效。
(3) 系统重启后,执行必要步骤复现问题,固件日志将输出到dmesg日志中,可以通过如下命令将dmesg保存到firmware.log中:
# dmesg > firmware.log
(4) 通过如下命令关闭固件日志输出:(重启后生效)
# esxcfg-module icen -s 'FWLogEnable=0 FWLogEvents=0 FWLogLevel=0'
本章节介绍如下Mellanox网卡的日志收集方法。Mellanox网卡指生产厂家为Mellanox的标准以太网卡和智能网卡。对于智能网卡,除了收集Host下的日志外,还需要登录智能网卡的SOC系统收集日志,参照 6. 智能网卡日志收集方法(SOC内部)。
l 从外观区分:传统以太网卡只有光接口或者电接口,而智能网卡是除两个光接口之外还有一个RJ45管理口(下图是MBF2H332A示例,仅供参考);
图5-45 智能网卡形态
l 从网卡PN区分:智能网卡是MBF***(Mellanox Bluefield),传统以太网卡是MCX***。
图5-46 智能网卡PN
Mellanox网卡日志收集工具,如表5-15所示。需要注意的是,该工具仅用于日志信息收集,不会收集任何用户信息,也不会对业务造成影响。如需获取工具请联系技术支持。
表5-15 Mellanox网卡日志收集工具
操作系统 |
工具名称 |
下载链接 |
Windows |
MFT |
https://network.nvidia.com/products/adapter-software/firmware-tools/ |
Linux |
MFT |
https://network.nvidia.com/products/adapter-software/firmware-tools/ |
VMware |
MFT |
https://network.nvidia.com/products/adapter-software/firmware-tools/ |
前提:当前OS已经安装MFT工具和mellanox Driver
(1) 以管理员权限打开cmd,进入默认mft工具目录下,默认路径为:\Program Files\Mellanox\WinMFT,执行mst status 查看MST devices信息;
(2) 进入Mellanox驱动安装目录,默认路径为:\Program Files\Mellanox\MlNX_WinOF2\DiagnosticTools\MLNX_System_Snapshot.exe,以管理员权限打开MLNX_System_Snapshot工具,点击Set target file设置日志保留路径及文件名,点击Generate System-Snapshot生成系统快照日志。
(3) 日志收集完成之后桌面提示snapshot file***created successfully。
图5-47 Mellanox网卡日志收集成功
前提:当前OS已经安装MFT工具和mellanox Driver。
(1) 启动工具服务:执行mst start;
(2) 查看MST devices信息:执行mst status;
(3) 系统信息收集
通过 sysinfo 工具可以收集完整的系统信息,包含系统配置,网卡配置, FW 版本,驱动日志等,如果用户已经安装了完整的 OFED 包,则该工具已自动安装,存在于/usr/sbin/目录下,直接执行sysinfo-snapshot.py 脚本即可。如果没有 OFED 驱动,则可按如下方式下载后执行脚本:
· git clone https://github.com/Mellanox/linux-sysinfo-snapshot.git
· tar -zxvf sysinfo-snapshot-<version>.tgz
· ./sysinfo-snapshot.py
脚本执行完成后会在/tmp 目录下生成日志包, 比如:sysinfo-snapshot-v3.6.5.5-localhost.localdomain-20230328-134721.tgz.
图5-48 通过sysinfo工具收集系统信息
(4) 网卡 dump 日志收集
在分析网卡故障时,通常需要连续抓取 3 次网卡 dump,间隔 15s,执行操作如下:
mst start & mst status
mstdump <MST device> > *** 1.dmp
mstdump <MST device> > *** 2.dmp
mstdump <MST device> > *** 3.dmp
tar –cvf dumps.tar mstdump *
图5-49 网卡dump日志收集
以下简单介绍日志的收集方法:
前提:当前OS已经安装MFT工具和mellanox Driver。
(1) 使用VMware系统自带的vm-support收集os下日志,收集完成之后会生成已esx-***.tgz文件,并显示保存路径。
图5-50 使用vm-support收集os下日志
(2) 收集 /var/log/vmkernel.log 日志。
图5-51 收集vmkernel.log日志
(3) 网卡 dump 日志收集
在分析网卡故障时,通常需要连续抓取 3 次网卡 dump,间隔15s,执行操作如下:
/opt/mellanox/bin/mst start
/opt/mellanox/bin/mst status
/opt/mellanox/bin/mstdump <MST device> > *** 1.dmp
/opt/mellanox/bin/mstdump <MST device> > *** 2.dmp
/opt/mellanox/bin/mstdump <MST device> > *** 3.dmp
tar -cvf dumps.tar mstdump*
图5-52 网卡dump日志收集
(1) 如果是配置Bluefield智能网卡的服务器,当遇到网卡故障的情况,除了收集Host服务器的sysinf-snapshot日志和dump日志外,还需要登录智能网卡的arm系统,使用sysinfo-snapshot.py脚本和mstdump收集arm系统下日志;
(2) Host下执行ip addr add 192.168.100.1/30 dev tmfifo_net0给管理网口分配ip;
(3) 执行ssh ubuntu@192.168.100.2使用ssh登录智能网卡arm系统,输入账号密码;
注:上述使用的用户名ubuntu是以mellanox官方arm os的用户名为例。
图5-53 收集arm系统日志
(4) 日志收集方法与linux系统相同, 进入/usr/sbin/目录执行sysinfo-snapshot.py,然后使用mstdump连续抓取 3 次网卡 dump,间隔 15s。
本章节介绍如下Broadcom网卡的日志收集方法。Broadcom网卡指生产厂家为Broadcom的以太网卡,脚本工具仅用于日志信息收集,不会收集任何用户信息,也不会对业务造成影响。
需要通过执行脚本来收集日志信息。脚本工具获取、日志收集的方法,均请参见Broadcom官网或联系技术支持。以下介绍日志的收集方法:
在复现时抓取以下日志(确保固件与驱动版本保持一致避免收集日志失败)
· 系统日志
在操作系统下单击[计算机/管理]菜单项,打开服务器管理器
单击[工具/事件查看器]菜单项,打开事件查看器。
单击[Windows日志/系统/将所有事件另存为]菜单项,导出并保存日志文件。
图5-54 Windows系统日志收集
· 利用固件升级工具收集coredump
¡ 进入AutoUpgrade_windows_224.1.102.0b_H3C_V01a_20221215目录下执行bnxtnvm.exe listdev查看当前Broadcom网卡信息
图5-55 使用固件升级工具收集
¡ 执行bnxtnvm.exe -dev=<ethx> coredump 在当前文件夹生成.core文件
图5-56 生成core文件
需要通过执行脚本来收集日志信息。脚本工具获取、日志收集的方法,均请参见Broadcom官网或联系技术支持。
以下简单的介绍日志的收集方法及操作截图:
在复现时抓取以下日志(确保固件与驱动版本保持一致避免收集日志失败)
· dmesg 日志
¡ dmesg > dmesg.log
· 网卡固件驱动版本
¡ ethtool -i ens
· 网卡收发包
¡ ethtool -S ens
· 光模块信息
¡ ehtool -m ens
· 网卡物理地址信息
¡ ethtool -i ens| grep 'bus-info'
¡ lspci -s <bus号> -vvv
· 利用固件升级工具收集coredump
¡ 进入nvmUpgrade_222.1.68.0d_H3C_V2_20221109/utils目录下运行命令
¡ #chomd 777 -R *
¡ ./bnxtnvm -dev=ens5f0np0 coredump
图5-57 使用固件工具收集coredump
需要通过执行脚本来收集日志信息。脚本工具获取、日志收集的方法,均请参见Broadcom官网或联系技术支持。以下简单介绍日志的收集方法及操作截图:
在复现时抓取以下两个日志(确保固件与驱动版本保持一致避免收集日志失败)
· VMware下设置命令“esxcfg-modules- s ‘debug=0x7FFFFFFF’ bnxtnet”,如图5-54所示。
· dmesg 日志
利用固件升级工具收集coredump文件,进入nvmUpgrade_216.0.292.0a_esxi_v01_20200809/utils目录下运行命令:
¡ #chomd 777 -R *
¡ ./bnxtnvm -dev=vmnic0 coredump
通用网卡日志收集方法面向没有专有方法的网卡。对于Linux系统,如果无法使用sosreport工具收集日志,则需要按照收集网卡相关日志(Linux操作系统)章节操作。
请参考章节5.2 收集操作系统日志
收集网卡基本信息:
· ip address > ip_address.log
· ip -s link show > ip_link_show.log
· ethtool “网口名” > ethtool.log
· ethtool -m “网口名” > ethtool_m.log
· ethtool -i “网口名” > ethtool_i.log
· ethtool -k “网口名” > ethtool_k.log
· ethtool -S “网口名” > ethtool_S.log
· ethtool -c “网口名” > ethtool_c.log
· ethtool -x “网口名” > ethtool_x.log
· ethtool --show-fec “网口名” > ethtool_fec.log
· ethtool -a “网口名” > ethtool_a.log
· tar -zcvf ethtool_log.tar.gz *.log
· 现场对设备的所有操作,需提前知会客户,征得客户同意后再执行。
· 现场涉及对存储介质的操作,务必谨慎。请提前知会客户配合H3C工程师进行业务数据迁移或备份,确保无数据丢失风险后再执行。
故障诊断时,请遵循以下基本原则。
· 先诊断外部,后诊断内部。
诊断故障时,先排查外部环境因素,比如机房供电是否正常、网线电源线等外接线缆是否牢靠、对端设备是否正常、近期是否有人搬迁或操作过服务器等;然后再诊断设备内部因素,如硬件安装是否到位、操作系统运行是否正常。
· 先诊断整体,后诊断局部。
诊断故障时,先根据服务器的健康状态指示灯或登录HDM Web界面,了解服务器的整体健康状态,再结合故障现象和相关日志进一步定位具体的故障点。对于硬件无法识别、带宽降速或出现CRC(Cyclic Redundancy Check,循环冗余检查)校验错误等问题,先整体梳理硬件拓扑,列出所有可能的故障点,再确定方案,逐一排查。
· 先诊断主要问题,后诊断次要问题。
诊断故障时,优先定位客户关注且影响严重的问题;再诊断影响较小的问题。
· 先诊断高级别告警,后诊断低级别告警。
分析告警时,首先分析高级别告警,如紧急或严重告警;然后再分析低级别告警,如轻微告警。
· 硬件日志分析和操作系统日志分析相结合。
当通过分析硬件日志无法明确故障原因时,建议结合操作系统日志一起分析。
· 定位问题善用最小化测试、交叉测试方法。
对于如无法开机之类稳定复现的故障,可以使用“最小化测试法”、“交叉测试法”排查故障位置。
¡ 最小化测试:参考4.4 明确服务器最小化硬件配置提供的最小化硬件配置进行测试,查看故障现象是否依旧存在。如果存在,可以再使用交叉测试法;如果不存在,则逐步安装其他部件,当故障再次出现时,就可以确定上一个安装的部件为故障点。
¡ 交叉测试:使用正常部件逐一替换故障设备上的部件,查看故障现象是否依旧存在。当故障消失时,则表示被替换的部件为故障点。
(1) 故障处理准备。
a. 服务器工作环境确认。确保服务器供电充足,且物理环境满足设备稳定运行要求,包括空间和通风、温度、湿度、洁净度、高度和接地等。物理环境的具体要求,请参见产品用户指南。
b. 移除服务器上的第三方外接设备,包括光驱、U盘、移动硬盘等。
c. 参考4.2 准备软件工具准备好故障诊断所需的工具和软件。
(2) 参考5 收集故障相关信息收集故障相关的日志信息,并记录故障发生的时间、频率、报错截屏等信息。
(3) 登录HDM Web界面,查看服务器整体概况,如图6-1所示。
(4) 根据提示查看各个子系统状态,定位故障位置,如图6-2所示。
(5) 查看HDM事件日志,进行故障初步诊断,如图6-3所示。
图6-3 查看HDM事件日志
(6) 如果HDM事件日志提示硬件无法识别,请关闭操作系统,断开服务器电源,检查机箱内部各部件是否安装到位,连接器是否连接正常。
(7) 对于其他故障现象,请参考7 硬件类问题和8 软件类问题进行故障处理。
(8) 若故障依旧无法解决,请收集HDM SDS日志,并记录详细故障信息(故障的时间、频率、报错截屏等),联系技术支持处理。收集HDM SDS日志的方法请参见5.3 收集HDM SDS日志。
服务器上的指示灯包括:系统电源指示灯、Health指示灯、UID指示灯、电源模块指示灯、以太网接口指示灯、硬盘指示灯等。本章节介绍通过指示灯定位故障的操作流程和操作步骤。
指示灯位置请参见产品用户指南的前面板和后面板章节。
通过指示灯定位故障的流程如图6-4所示。
(1) 查看服务器Health指示灯,确认服务器是否出现故障,Health指示灯的含义请参见服务器用户指南。对于大部分服务器,Health指示灯的含义如表6-1所示。
表6-1 Health指示灯状态说明
Health指示灯状态 |
含义 |
绿灯常亮 |
系统状态正常或系统有轻微告警。此状态下,HDM Web界面中健康状态显示为“ 正常” |
绿灯闪烁(4Hz) |
HDM正在初始化。此状态下,HDM Web界面中健康状态显示为“ 正常” |
橙灯闪烁(1Hz) |
|
红灯闪烁(1Hz) |
(2) 当系统出现严重错误告警或紧急错误告警时,请查看HDM事件日志确认故障位置,如图6-5所示。
图6-5 查看HDM事件日志
(3) 结合指示灯现象,进一步定位故障,详细说明请参见表6-2。
表6-2 系统故障提示及处理说明
故障对象 |
指示灯状态 |
故障含义 |
处理步骤 |
处理器 |
l Health指示灯:红色闪烁(1Hz) l 系统电源指示灯:橙色常亮 |
CPU出现严重故障 |
1. 检查CPU是否安装到位 2. 登录HDM Web界面,查看HDM事件日志中是否有CPU相关报错,并参考“7.12 CPU问题”处理 3. 若问题仍然存在,请联系技术支持 |
内存 |
l Health指示灯:绿色常亮 l 系统电源指示灯:绿色常亮 |
一个或多个内存出现故障 |
1. 检查内存是否安装到位 2. 检查内存安装顺序是否符合内存安装准则,详细信息请参考产品用户指南 3. 登录HDM Web界面,查看HDM事件日志中是否有内存相关报错,并参考“7.10 DRAM内存问题处理” 4. 若问题仍然存在,请联系技术支持 |
l Health指示灯:橙色闪烁(1Hz) l 系统电源指示灯:绿色常亮 |
一个或多个内存出现严重故障 |
||
系统温度 |
l Health指示灯:绿色常亮 l 系统电源指示灯:绿色常亮 |
系统温度达到轻微级别 |
1. 检查设备所在的环境温度是否过高 2. 检查设备出风口或入风口是否被阻塞 3. 检查设备风扇数量是否满足要求、风扇运行是否正常 4. 若问题仍然存在,请联系技术支持 |
l Health指示灯:橙色闪烁(1Hz) l 系统电源指示灯:绿色常亮 |
系统温度到达严重级别,服务器运行性能会显著下降 |
||
l Health指示灯:红色闪烁(1Hz) l 系统电源指示灯:橙色常亮 |
系统温度到达紧急级别,服务器可能会自动关闭系统防止组件被损坏 |
||
风扇 |
l Health指示灯:绿色常亮 l 系统电源指示灯:绿色常亮 |
一个风扇失效或被拔出 |
1. 检查风扇是否安装到位 2. 检查风扇安装顺序是否符合风扇安装准则,详细信息请参考产品用户指南 3. 检查风扇是否正常运行,如果异常请更换失效风扇 4. 若问题仍然存在,请联系技术支持 |
l Health指示灯:红色闪烁(1Hz) l 系统电源指示灯:橙色常亮 |
两个及以上风扇失效或被拔出 |
||
电源 |
l Health指示灯:红色闪烁(1Hz) l 系统电源指示灯:橙色常亮 |
可能存在如下情况: · 电源模块故障 · 主板故障导致电源模块下电 |
2. 若问题仍然存在,请联系技术支持 |
l Health指示灯:橙色闪烁(1Hz) l 系统电源指示灯:绿色常亮 |
可能存在如下情况: · 备份电源模块已安装但未工作; · 备份电源模块未通电 · 备份电源模块故障 |
||
l Health指示灯:红色闪烁(1Hz) l 系统电源指示灯:绿色常亮 |
· 电源模块型号不一致 · 电源模块与服务器不兼容 |
||
SAS/SATA硬盘 |
l Health指示灯:绿色常亮 l 硬盘Fault/UID指示灯(橙色/蓝色):橙色闪烁(0.5Hz) l 硬盘Present/Active指示灯(绿色):常亮/闪烁(4Hz) |
硬盘预告性故障报警 |
请及时更换硬盘 |
l Health指示灯:绿色常亮 l 硬盘Fault/UID指示灯:灯灭 l 硬盘Present/Active指示灯:灯灭 |
硬盘未识别 |
1. 检查硬盘是否安装到位 3. 若问题仍然存在,请联系技术支持 |
|
l Health指示灯:橙色闪烁(1Hz) l 硬盘Fault/UID指示灯(橙色/蓝色):橙色常亮 l 硬盘Present/Active指示灯(绿色):常亮/闪烁(4Hz) |
硬盘出现故障 |
请立即更换硬盘 |
|
NVMe硬盘 |
l Health指示灯:橙色闪烁(1Hz) l 硬盘Fault/UID指示灯(橙色/蓝色):橙色常亮 l 硬盘Present/Active指示灯(绿色):常亮/闪烁(4Hz) |
硬盘出现故障 |
请立即更换硬盘 |
l Health指示灯:绿色常亮 l 硬盘Fault/UID指示灯:灯灭 l 硬盘Present/Active指示灯:灯灭 |
硬盘未识别 |
1. 检查硬盘是否安装到位 3. 若问题仍然存在,请联系技术支持 |
|
OCP网卡 |
l Health指示灯:绿色常亮 l ATTN BUTTON指示灯:橙色常亮 l OCP网卡POWER指示灯:灯灭 |
可能存在如下情况: · OCP网卡未安装到位 · 热插OCP网卡时,按下ATTN BUTTON按钮后,OCP网卡未正常上电 · 热拔OCP网卡时,按下ATTN BUTTON按钮后,系统10秒内未响应退卡指令 |
1. 检查OCP转接卡是否安装到位 2. 关闭操作系统中CPU/内存占用率高的软件,然后再次按下ATTN BUTTON按钮,检查系统是否正常响应 3. 请更换OCP网卡 4. 请重启操作系统 5. 若问题仍然存在,请联系技术支持 |
在发生电源子系统故障时,前面板挂耳上的以下指示灯将同时闪烁,不同的闪烁次数对应服务器受电源故障影响的子系统,具体对应关系如表6-3所示。
· Health指示灯
· 系统电源指示灯
· UID指示灯
· 以太网接口指示灯(或OCP网卡以太网接口指示灯)
表6-3 前面板挂耳指示灯电源故障说明(仅适用G3产品)
故障子系统 |
指示灯行为 |
主板 |
闪烁1次 |
CPU |
闪烁2次 |
内存 |
闪烁3次 |
Riser卡 |
闪烁4次 |
FLOM卡 |
闪烁5次 |
RAID扣卡/HBA扣卡 |
闪烁6次 |
PCIe标卡 |
闪烁7次 |
硬盘背板 |
闪烁8次 |
电源模块 |
闪烁9次 |
表6-4 前面板挂耳指示灯电源故障说明(仅适用G5/G6产品)
故障子系统 |
指示灯行为 |
主板 |
闪烁1次 |
CPU |
闪烁2次 |
内存 |
闪烁3次 |
Riser卡 |
闪烁5次 |
硬盘背板 |
闪烁10次 |
电源模块 |
闪烁11次 |
服务器是否支持诊断面板,请以实际情况为准。
用户可通过诊断面板,快速、准确地诊断发生故障的组件及其故障信息,同时结合HDM系统中的事件日志,即可获取该组件的详细故障信息,从而帮助用户快速排除故障,使服务器各组件和系统保持良好的运行状况。
诊断面板上的故障代码和故障指示灯,对应的故障项目相关信息,请参见产品用户指南的“诊断面板”章节。
诊断面板同一时间只能显示一个组件的故障信息。当多个组件故障时,诊断面板以4秒为周期循环显示全部故障组件信息。
图6-6 诊断面板示例
(1):故障代码 |
(2):故障指示灯 |
· 服务器是否支持LCD可触摸智能管理模块,请以实际情况为准。
· 不同版本的HDM适配的LCD固件版本不同,支持的功能也不完全一样,具体差异请以LCD显示屏界面实际显示为准。
通过LCD可触摸智能管理模块,用户可以查看服务器的常用信息、告警信息和实时监控信息,并执行以下操作。
· 设置HDM管理接口的网络信息
· 恢复默认管理员账号
· 重启LCD显示屏
如果LCD可触摸智能管理模块显示服务器产生告警信息,如图6-7所示,可以登录HDM Web界面查看告警详情,并参考《HDM告警日志信息参考手册》排除故障,使服务器各组件和系统保持良好的运行状况。
LCD可触摸智能管理模块的安装方法和使用指导,请参见《LCD可触摸智能管理模块 用户指南》。
图6-7 LCD告警信息
服务器是否支持智能安全面板,请以实际情况为准。
智能安全面板的指示灯联动服务器健康状态,体现服务器的运行状态和健康信息,能够加快现场巡检和故障定位。智能安全面板指示灯具体含义,请参见产品用户指南的“智能安全面板指示灯”章节。
如果智能安全面板的指示灯显示服务器产生告警信息,可以登录HDM Web界面查看告警详情,并参考《HDM告警日志信息参考手册》排除故障,使服务器各组件和系统保持良好的运行状况。
图6-8 智能安全面板示例
故障诊断流程图提供了故障处理的思路;具体的故障定位和处理,还需结合文中其他信息,综合分析排查。
介绍各流程图的使用场景,便于用户明确哪个流程图可以帮助用户解决问题。
表6-5 故障诊断流程图使用场景
流程图名称 |
使用场景 |
用于诊断HDM事件日志中出现告警事件或Health指示灯出现告警 |
|
从远程位置诊断问题 |
|
用于诊断开机故障 |
|
用于诊断POST故障 |
|
用于诊断操作系统引导时出现的故障 |
|
用于诊断使用iFIST遇到的故障 |
|
用于诊断存储控制卡故障 |
|
用于诊断存储控制卡超级电容出现的故障 |
|
用于诊断物理硬盘故障 |
|
用于诊断逻辑硬盘故障 |
|
用于诊断网卡故障 |
|
用于诊断GPU相关故障 |
|
用于诊断串口&DSD模块故障 |
|
当故障现象或故障原因不明确时,建议使用通用诊断流程图进行故障诊断 |
当故障现象或故障原因不明确时,建议使用通用诊断流程图进行故障诊断。
图6-9 通用诊断流程图
· POST故障诊断流程图,请参见6.4.6 POST故障流程图。
· 存储控制卡故障诊断流程图,请参见6.4.9 存储控制卡故障流程图。
· 物理硬盘故障诊断流程图,请参见6.4.11 物理硬盘故障流程图。
· 逻辑硬盘故障诊断流程图,请参见6.4.12 逻辑硬盘故障流程图。
· 操作系统引导故障诊断流程图,请参见6.4.7 操作系统引导故障流程图。
· 网卡故障诊断流程图,请参见6.4.13 网卡故障流程图。
· GPU卡故障诊断流程图,请参见6.4.14 GPU故障诊断流程图。
介绍服务器的硬件故障指示流程图。
症状
· 服务器可以正常上电,但HDM事件日志中有告警事件。
· 服务器可以正常上电,但Health指示灯红灯或橙灯闪烁。
可能原因
· 未正确安装部件或部件存在故障。
· 服务器部件故障导致的冗余问题,例如风扇、电源。
· 服务器部件(比如风扇等)故障导致的温度过高。
处理步骤
图6-10 服务器故障指示流程图
· 更换或重新插拔故障部件的操作方法及注意事项,请参见产品用户指南。
· 部件运行状态指示灯含义,请参见产品用户指南。
远程诊断排除服务器故障流程图,详见图6-11。
开机故障流程图如图6-12所示。
POST故障范围:
· 服务器未完成POST。
· 服务器完成了POST,但是出现错误。
· 开始尝试访问启动设备时,表示POST阶段完成。
· Hygon CPU的服务器没有Early POST阶段。
POST故障流程图如图6-13所示。
图6-13 POST故障流程图
服务器无法引导已安装的操作系统。
· BIOS启动模式(Boot mode)变化。
· 服务器启动顺序变化。
· 操作系统相关数据损坏。
· 操作系统所在存储介质状态异常。
对存储介质数据的擦除、写入操作,需要明确告知客户操作影响,提示客户做好数据备份。
图6-14 操作系统引导故障流程图
iFIST启动失败故障的诊断流程图,详见图6-15。
查看BIOS版本号,请登录HDM界面或进入BIOS POST界面查看。BIOS和iFIST的版本配套关系,请查看iFIST版本说明书里的“版本配套表”。
图6-15 iFIST启动失败故障流程图
图6-16 存储控制卡故障流程图
图6-17 存储控制卡自检异常处理流程
表6-6 LSI IT/IR及MR存储控制卡型号分类
LSI存储控制卡分类 |
型号 |
IT |
· HBA-LSI-9300-8i-A1-X · HBA-LSI-9400-16i · HBA-LSI-9500-8i · HBA-LSI-9500-16i |
IR |
· HBA-LSI-9311-8i |
MR |
· RAID-LSI-9361-8i(1G)-A1-X · RAID-LSI-9361-8i(2G)-1-X · RAID-LSI-9460-8i(2G) · RAID-LSI-9460-8i(4G) · RAID-LSI-9460-16i(4G) · HBA-LSI-9540-8i · RAID-LSI-9560-8i(4G) · RAID-LSI-9560-16i(8G) · HBA-LSI-9440-8i · RAID-L460-M4 |
· PMC存储控制卡,指厂商为PMC的存储控制卡。LSI存储控制卡,指厂商为LSI的存储控制卡。存储控制卡所属的厂商可通过服务器兼容的部件查询工具进行查询。
· HBA存储控制卡无超级电容,无需关注。
症状
· 硬盘不可用,例如硬盘指示灯均灭。
· HDM事件日志中有硬盘告警事件。
可能原因
· 硬盘固件版本过低。
· 硬盘背板或者存储控制卡的线缆连接松动。
· 硬盘未安装到位或故障。
处理步骤
故障诊断前:
· 请确保安装的是服务器兼容的硬盘、硬盘背板、存储控制卡及配套线缆,服务器兼容的硬盘、硬盘背板及存储控制卡请通过服务器兼容的部件查询工具查询。
· 了解硬盘指示灯故障情况,如表6-7所示。
故障情况 |
硬盘类型 |
硬盘Fault/UID指示灯(橙色/蓝色) |
硬盘Present/Active指示灯(绿色) |
故障情况1 |
SAS/SATA硬盘 |
橙色闪烁(0.5Hz) |
常亮/闪烁(4Hz) |
故障情况2 |
SAS/SATA/NVMe硬盘 |
橙色常亮 |
常亮/闪烁(4Hz) |
故障情况3 |
SAS/SATA/NVMe硬盘 |
灯灭 |
灯灭 |
图6-19 物理硬盘故障流程图
· 硬盘的最新固件请从官网获取。
· HDM SDS日志收集方法,请参见5.3 收集HDM SDS日志;操作系统日志的收集方法,请参见5.2 收集操作系统日志;硬盘日志的收集方法,请联系技术支持。
图6-20 逻辑硬盘故障流程图
图6-21 网卡故障流程图(上)
图6-22 网卡故障流程图(下)
图6-23 GPU故障诊断流程图
图6-24 串口&DSD模块故障诊断流程图
新部件指扩容或更换部件时,安装到服务器上的部件。
安装新部件后,服务器无法正常启动或者部件无法正常工作。
· 服务器不兼容该部件。
· 该部件未安装到位。
· 该部件的固件或驱动版本过低。
· 该部件故障。
(1) 确保服务器兼容该部件,兼容性可通过服务器兼容的部件查询工具查询。
(2) 确保部件和相关线缆均正确安装到位,线缆稳固无松动。且部件安装过程中,没有遗漏相关组件(比如线缆)。
(3) 检查系统能否识别该部件,并确保部件的固件和驱动,均更新为H3C官网最新版本。
(4) 将新部件安装到其他正常的服务器上,通过交叉验证的方法,检查新部件是否故障。
(5) 若问题现象为服务器无法正常启动,请将服务器降级到最小化硬件配置,确保服务器可以正常启动,然后再安装新部件进行测试。如果故障复现,说明新部件故障,请更换;否则说明新部件正常。服务器最小化硬件配置请参见4.4 明确服务器最小化硬件配置。
(6) 若问题仍然存在,请联系技术支持。
• 部件在H3C购买,但和出现问题的服务器不兼容。服务器和部件的兼容性请通过服务器兼容的部件查询工具进行查询。
· 服务器无法识别第三方部件。
· 第三方部件无法正常工作。
无法直接确认。
非H3C购买的第三方部件问题不属于H3C维保范畴,请联系第三方设备厂家。
· 服务器在BIOS POST阶段报错,报错示例如图7-1所示。
图7-1 BIOS POST阶段出现内存报错
· 操作系统在启动阶段报错,报错示例如图7-2所示。
· HDM Web界面未显示该部件的信息。
· 操作系统下输入硬件识别命令,无法查看到该部件的信息。
¡ 如图7-3所示,Linux操作系统下已识别到NVMe硬盘信息。
¡ 如图7-4所示,Linux操作系统下未识别到NVMe硬盘信息。
图7-3 Linux操作系统下已识别到NVMe硬盘信息
图7-4 Linux操作系统下未识别到NVMe硬盘信息
· 部件或线缆连接松动。
· 部件金手指被氧化污染。
(1) 根据报错提示的部件信息,确保部件及线缆的接口完好、没有损坏。
(2) 检查部件的金手指是否有氧化污染。若有,可尝试用酒精擦拭金手指。
(3) 重新插拔部件和相关线缆,确保安装到位,线缆稳固、无松动。
(4) 若问题仍然存在,请联系技术支持。
服务器正常运行过程中自动关机。
· 服务器外部供电异常。
· 服务器被执行了关机操作。
· 服务器中部件温度过高。
· 服务器外部环境温度过高。
· 服务器智能挂耳异常。
· 硬件故障。
· 软件异常。
(1) 如下图7-5所示,在HDM Web界面的事件日志中,查看是否有供电异常的日志。若日志提示“Power Supply input lost (AC/DC)”,且无其他异常日志,请先检查服务器的外部供电是否正常。
图7-5 HDM提示服务器输入电源异常
(2) 如图7-6所示,在HDM Web界面的事件日志中,查看是否有“Power Button pressed”相关日志信息,该日志信息代表关机操作。若有,请根据表7-1的日志含义确认是否人为触发了关机操作。
表7-1 Power Button pressed相关日志说明
日志 |
含义 |
Power Button pressed ---Physical button ---Button pressed |
通过物理开关下电服务器 |
Power Button pressed ---Virtual button ---Power cycle command |
下电并重新开机 |
Power Button pressed ---Virtual button ---Power off command |
强制下电 |
Power Button pressed ---Virtual button---Soft off command |
正常下电 |
Reset Button pressed ---Virtual button ---Reset command |
重启服务器 |
(3) 查看HDM事件日志,查看日志中是否有记录部件温度过高的报警信息,部件温度过高可能会导致服务器自动关机。若是,处理方法请参见《H3C服务器 HDM告警日志信息参考手册》;若否,则执行步骤(4)。
(4) 检查并确保机房温度满足服务器的工作环境温度。机房温度过高可能会导致服务器自动关机,服务器的工作环境温度请参见产品用户指南。
(5) 请检查服务器的智能挂耳是否损坏,如损坏,请更换。服务器的开机/待机按钮位于智能挂耳上,若智能挂耳损坏,服务器可能会自动关机。
(6) 收集操作系统日志,并进行分析。
¡ 分析Dmesg、Message等日志是否有硬件异常告警信息,根据该信息排查相应的硬件。
¡ 分析是否有操作系统层或者业务层相关告警信息,如果存在相关告警信息请联系相关厂家。
(7) 确认现网服务器自动关机是否属于批量行为。若是,请检查服务器主机OS的兼容性、存储控制卡、网卡、GPU、FC HBA卡等的固件与驱动版本,是否和当前操作系统兼容。兼容性可通过服务器OS兼容性查询工具进行查询。若是,请确保该部件的固件与驱动版本已升级至H3C官网最新版本;若否,请执行步骤(8)。
服务器上前后面板如下指示灯同时不亮,且HDM无法连接。
· Health指示灯
· 系统电源指示灯
· UID指示灯
· 以太网接口指示灯
· 所有硬盘指示灯
· 电源模块状态指示灯
· 风扇状态指示灯
· 服务器外部供电异常。
· 电源线缆连接松动。
· 电源模块未正确安装到位。
· 服务器电源模块故障。
· 服务器主板故障。
· 风扇模块安装不到位。
(1) 检查外部供电,确保外部供电正常。
(2) 检查风扇模块是否安装到位。
(3) 检查所有的电源线缆,重新安装电源线缆,确保线缆稳固无松动。对于R5500 G5服务器,还需要检查主板和PCIe switch板之间的线缆是否安装到位,确保线缆稳固无松动。
(4) 重新正确安装电源模块。若问题仍然存在,请执行步骤(5)。
¡ 若问题解决,说明原电源模块故障,请更换。
¡ 若问题仍然存在,则说明主板出现故障,请联系技术支持。
电源模块状态指示灯绿色常亮,但服务器Health指示灯出现橙色闪烁或红色闪烁,同时HDM Web下的事件日志中显示服务器中的某一部件或多个部件存在告警,图7-7以主板故障举例。
图7-7 HDM Web下事件日志告警
Health指示灯各状态含义:
· 绿灯常亮:系统状态正常或有轻微告警。
· 绿灯闪烁(4Hz):HDM正在初始化。
· 橙灯闪烁(1Hz):系统出现严重错误告警。
· 红灯闪烁(1Hz):系统出现紧急错误告警。
服务器中的某一部件或多个部件出现异常。
(1) 根据HDM事件日志的告警信息,定位故障部件和故障原因,处理方法请参见《H3C服务器 HDM告警日志信息参考手册》。
(2) 若问题仍然存在,请收集HDM SDS日志,并联系技术支持。
服务器上的Health指示灯橙色闪烁(1Hz),同时HDM事件日志显示风扇告警信息,如图7-8所示。
图7-8 HDM事件日志显示风扇告警信息
· 主板上对应的风扇接口异常。
· 风扇接口异常
· 该风扇未安装到位。
· 该风扇异常。
(1) 检查并确保风扇接口完好无损坏。
(2) 重新安装该风扇,确保其正确安装到位。
(3) 使用正常工作的同型号风扇模块,进行交叉验证。
¡ 若问题解决,则是原来的风扇模块存在故障,需要更换。
¡ 若问题仍然存在,则说明主板上对应的风扇接口异常,请联系技术支持。
部分型号服务器风扇模块自身带有指示灯,如R5500 G5服务器,当风扇模块指示灯出现橙色闪烁,表示风扇模块故障或其连接线路出现故障。
· 风扇接口异常
· 该风扇未安装到位。
· 该风扇异常。
(1) 检查并确保风扇接口完好无损坏。
(2) 重新安装该风扇,确保其安装到位。
(3) 使用正常工作的同型号风扇模块,进行交叉验证。
¡ 若问题解决,则是原来的风扇模块存在故障,需要更换。
¡ 若问题仍然存在,则说明主板上对应的风扇接口异常,对于R5500 G5服务器,还需要检查主板和PCIe switch板之间的线缆是否安装到位,确保线缆稳固无松动。如问题仍存在,请联系技术支持。
电源模块的状态指示灯含义如表7-2所示。
指示灯 |
指示灯含义 |
电源模块状态指示灯 |
· 绿灯常亮:电源模块工作正常或服务器处于待机状态未上电 · 绿灯闪烁(0.33Hz):电源模块处于备用电源模式,无功率输出 · 绿灯闪烁(2Hz):电源模块处于固件更新状态 · 橙灯常亮: ¡ 电源模块出现严重故障 ¡ 该电源模块无输入,另一个电源模块输入正常 · 橙灯闪烁(1Hz):电源模块出现告警 · 灯灭:电源模块无输入,存在以下一种或两种情况: ¡ 电源线缆连接故障 ¡ 外部供电系统断电 |
电源模块状态指示灯灭。
· 电源模块外部供电异常,如外部电路故障、电源线缆损坏或供电电压超出规格范围。
· 电源线缆未正确安装,如电源线缆未插到位。
· 电源模块故障。
(1) 检查外部供电是否正常,确认并解决外部供电问题。
(2) 检查电源模块的电源线缆是否完好、连接有无松动,如果有异常请更换电源线缆并重新连接。
(3) 更换电源模块,观察问题是否复现。
(4) 若问题依然存在,请联系技术支持确认主板问题。
电源模块状态指示灯橙灯常亮或闪烁。
· 电源模块外部供电异常,如外部电路故障、电源线缆损坏或供电电压超出规格范围。
· 电源线未正确安装,如电源线未插到位。
· 电源模块的温度过高。
· 电源模块当前输入功率超出电源模块最大功率。
· 电源模块故障。
· 主板故障。
(1) 检查外部供电是否正常,确认并解决外部供电问题。
(2) 检查电源模块的电源线缆是否完好、连接有无松动,如果有异常请更换电源线缆并重新连接。
(3) 如图7-9所示,登录HDM Web界面,查看电源温度传感器温度,参考阈值确认当前读数是否超过轻微告警阈值。是,则参考如下步骤改善电源散热环境,查看电源模块是否恢复正常;否,执行步骤(4)。
a. 在HDM Web界面,修改风扇调速模式以提高服务器散热能力。
b. 检查电源模块中的风扇是否存在异响,排除故障或阻塞。若存在异响,建议更换故障电源模块或清理风扇阻塞物后,查看电源模块是否恢复正常。
(4) 查看HDM Web界面,查看电源模块“当前总功率”是否已超出“总功率告警阈值”,若已超出则需要降低服务器功耗或更换更大功率的电源模块。
图7-10 查看电源模块的当前总功率
(5) 若问题依然存在,请联系技术支持确认主板问题。
电源模块状态指示灯绿色闪烁(1Hz),服务器无法启动,且服务器Health指示灯状态正常,没有出现橙灯闪烁(表示系统出现严重错误告警)或红灯闪烁(表示系统出现紧急错误告警)。
· 电源模块故障。
· 主板故障。
(1) 将服务器下电,再重新上电启动,查看服务器能否正常启动。
(2) 更换电源模块,重新启动服务器。
(3) 若问题仍然存在,请联系技术支持确认主板问题。
服务器正常上电一段时间后,电源模块风扇一直维持高速运转,转速没有下降。
· 电源模块故障。
· 服务器功耗过高。
· 主板故障。
(1) 检查并确保服务器工作环境温度符合要求,详细要求请参见服务器用户指南。
(2) 将服务器下电,重新安装电源模块,上电后检查电源模块风扇是否正常降速。若问题仍然存在,执行步骤(3)。
(4) 若问题仍然存在,请联系技术支持。
电源模块在位且电源模块状态指示灯灭。如图7-11所示,HDM Web界面中,电源当前状态显示有“严重”告警,故障描述为无输入。
· 电源模块外部供电异常,如外部电路故障、电源线缆损坏或供电电压超出规格范围。
· 电源线未正确安装,如电源线未插到位。
· 电源模块故障。
· 电源模块槽位故障。
(1) 检查状态异常的电源模块外部供电是否正常,确认并解决外部供电问题。
(2) 检查电源模块的电源线缆是否完好、连接有无松动,如果有异常请更换电源线缆并重新连接。
(3) 重新正确安装电源模块。
(4) 查看HDM Web界面,若存在如下任意一条异常信息,请更换报错信息对应的电源模块,确认电源模块是否故障。
¡ 如图7-12所示,HDM事件日志中存在如下报错:
- Power supply input lost (AC/DC)。
- Power supply input out-of-range - but present。
- Power supply predictive Failure。
(5) 若问题依然存在,请联系技术支持确认主板问题。
· 如图7-13所示,HDM Web界面中,电源显示为标黄状态。
· HDM Web界面中,电源传感器页面状态为严重,当前读数显示“电源存在 侦测到电源故障”。
· 电源模块的温度过高。
· 电源模块故障。
· 电源模块当前输入功率超出电源模块最大功率。
(1) 如图7-14所示,登录HDM Web界面,查看电源温度传感器温度,参考阈值确认当前读数是否超过轻微告警阈值。是,则参考如下步骤改善电源散热环境,查看电源模块是否恢复正常;否,执行步骤(2)。
a. 在HDM Web界面,修改风扇调速模式以提高服务器散热能力。
b. 检查电源模块中的风扇是否存在异响,排除故障或阻塞。若存在异响,建议更换故障电源模块或清理风扇阻塞物后,查看电源模块是否恢复正常。
(2) 查看HDM Web界面,在[电源管理/电源配置]页面,查看电源模块“当前总功率”是否已超出“总功率告警阈值”,若已超出则需要降低服务器功耗或更换更大功率的电源模块。
图7-15 查看电源模块的当前总功率
(3) 更换电源模块,观察现象是否仍然存在。若问题仍然存在,请联系技术支持。
如图7-16所示,传感器信息页面,查看“PSU Redundancy”状态为严重,当前读数显示“Power Redundancy Lost”。
· 电源模块外部供电异常,如外部电路故障或电源线缆损坏。
· 电源模块未正确安装。
· 电源模块故障。
· HDM固件版本过低或配置异常。
· 电源模块槽位故障。
(1) 检查电源模块的状态指示灯,若状态指示灯为橙色常亮或闪烁,请检查外部供电是否正常并重新连接电源线缆,查看电源模块是否恢复正常。
(2) 检查电源模块是否正确安装,如有异常,请重新正确安装电源模块,查看电源模块是否恢复正常。
(3) 检查电源模块的满配情况。如果没有满配,请升级HDM固件到最新版本,查看电源模块是否恢复正常。
(4) 更换电源模块,查看电源模块是否恢复正常。
(5) 若问题仍然存在,请联系技术支持检查主板问题。
· 如图7-17所示,HDM Web界面上,两个电源模块的电源状态均显示“输入正常,输出正常”,但是电源型号不一致。
· 如图7-18所示,HDM Web界面上,传感器信息页面,电源状态为轻微,当前读数显示“Presence detected Configuration error”。此时两个电源模块正常工作,状态指示灯绿色常亮。
· 如图7-19所示,HDM Web界面上,事件日志显示如下信息:
¡ Configuration error---Vendor mismatch。
¡ Configuration error---Power supply rating mismatch。
图7-17 电源模块型号不一致
电源模块型号不一致。
(1) 检查服务器上在位电源的型号是否一致。若在位电源型号不一致,则更换其中一个电源,确保服务器在位电源型号统一,刷新HDM电源信息页面,确认问题是否解决。
(2) 若在位电源型号一致或更换电源模块为统一型号后,问题仍然存在,请联系技术支持。
VGA显示器黑屏,KVM显示No Signal,如图7-20所示。
图7-20 KVM显示No Signal
服务器硬件故障或BIOS固件损坏。
(1) 登录HDM Web页面,查看事件日志中是否有硬件故障提示,如果有硬件错误提示,请排查硬件故障原因,处理方法请参见《H3C服务器 HDM告警日志信息参考手册》;若没有硬件错误信息提示,请执行步骤(2)。
(2) 将服务器所连接电源断开,进行AC下电操作。拿掉主板纽扣电池后静置3分钟来清除CMOS(注意,清除CMOS后BIOS将恢复缺省设置),CMOS清除后将纽扣电池装回原位置,重新进行AC上电操作,查看故障是否解决;若未解决执行步骤(3)。
(3) 升级BIOS和HDM版本查看问题是否解决,若未解决执行步骤(4)。
(4) 执行最小化硬件测试,服务器最小化配置请参见4.4 明确服务器最小化硬件配置章节,如果服务器可以正常上电启动,请依次增加外接部件测试,直到找到故障点。如果最小化硬件测试仍然有问题,请联系技术支持。
在如图7-21所示的Early POST阶段系统挂死,挂死后无信息或进行反复重启,无法进入启动阶段或BIOS Setup。
在系统启动过程中出现挂死或反复重启问题,可能的原因可初步根据挂死的位置来判断。
· 对于BIOS运行到UPI Initializing阶段发生重启或者挂死的现象,可能是由于主板上某一个CPU在安装时接触不良,导致多处理器之间的链路信号不稳定导致的。
· 对于BIOS运行到Memory Initializing阶段发生重启或者挂死的现象,可能由于内存安装不稳等导致的。
· 对于BIOS运行到PCI Device Enumerating阶段发生重启或者挂死的现象,一般是特定的PCIe卡分配不到需要的内存资源或中断资源引起的。
(1) 在Early POST阶段挂死后,确认并记录系统挂死的进度信息。
(2) 登录HDM Web页面,查看事件日志中是否有相应的故障日志信息,如有事件日志或传感器异常信息,根据日志信息进行故障设备排除。
(3) 根据Early POST界面最后一条打印,判断系统挂死的阶段。
· 若系统挂死在“SPS Firmware Initializing”阶段或之前,请根据如下操作处理。
a. 请移除电源,移除CMOS电池后上电确认是否能正常启动。
b. 以上操作仍然无法正常启动,强制覆盖配置升级BIOS版本后重试。
· 若系统挂死在“UPI Initializing”阶段,请根据如下操作处理。
a. 尝试先移除CPU2、CPU3、CPU4(如有),确认系统是否能正常启动,如仅CPU1 在位时系统仍然无法启动,更换CPU1后确认是否可正常启动,排除CPU故障。
b. 移除CPU时注意检查CPU插槽上是否存在污渍、针脚损坏。
c. 排除CPU故障后考虑主板故障,请更换主板后确认故障是否解除。
· 若系统挂死在“Memory Initializing”阶段,一般会在HDM的[健康诊断/事件日志]页面上标示出故障内存的位置和故障原因,请参考对应的处理建议排除内存问题。如果不能排除故障,请联系技术支持。
· 若系统挂死在“PCIe Initializing”阶段,请逐步移除PCIe设备或NVMe盘,确认是否存在PCIe设备故障。
(4) 如问题仍然存在或其它阶段出现的反复重启、挂死现象,请联系技术支持。
系统上电后在BIOS POST界面挂死,无法进入启动项或BIOS Setup。
在系统启动过程中,BIOS可能在如下阶段发生挂死:
· CPU、内存、PCIe卡、硬盘、USB等硬件初始化故障引起的挂死。
· BIOS配置选项引起的挂死。
· 非稳态升级BIOS版本引起的挂死。
(1) 登录HDM页面,确认传感器是否提示存在设备故障,如果有故障提示,请按相应的处理建议排除故障。
(2) 无传感器故障时,将服务器所连接电源断开,进行AC下电操作,取下主板纽扣电池后静置3分钟来清除CMOS,CMOS清除完后将纽扣电池装回原位置,重新进行AC上电操作,查看故障是否解决,若未解决执行步骤(3)。
(3) 升级BIOS和BMC版本查看问题是否解决,若未解决执行步骤(4)。
(4) 确认服务器上是否存在USB设备,移除USB设备后重启确认故障是否解除。
(5) 确认服务器上是否存在SATA/SAS硬盘,逐步移除硬盘设备后重启确认是否故障解除,通过排查确认故障硬盘后解除故障。
(6) 执行最小化测试,服务器最小化配置请参见4.4 明确服务器最小化硬件配置章节,如果服务器可以正常上电启动,请依次增加外接部件测试,找到故障点。
(7) 若问题仍然存在,请联系技术支持。
POST阶段出现红屏异常信息打印,如图7-22所示。
可能的问题原因包括:
· 软件故障,如PCIe Option ROM执行阶段出现调用异常。
· 硬件设备接触故障,如NVMe硬盘接触故障导致POST阶段NVMe UEFI驱动执行调用异常导致POST阶段红屏打印。
(1) 如启动POST页面出现红屏挂死,确认系统中是否存在NVMe或其他PCIe设备未安装牢固。
(2) 确认设备上是否存在存储控制卡,移除存储控制卡后重启确认故障是否排除。
(3) 若问题仍然存在,请联系技术支持。
存储控制卡自检时卡住,登录HDM,进入开机自检码页面,如图7-23所示,查看是否停在92。
出现存储控制卡自检时卡住,通常是由于在存储控制卡的Option ROM执行中出现了挂死。
(1) 如出现问题前升级过存储控制卡固件,则检查存储控制卡与BIOS版本是否配套,如无法确认请联系技术支持。若有硬盘扩展板则重点关注硬盘扩展板与存储控制卡固件是否配套。排查后问题未解决,则执行步骤(2)。
(2) 登录HDM Web页面,查看事件日志中是否有超级电容或硬盘故障等相关告警,如存在告警则更换相关部件。问题未解决,则执行步骤(3)。
(3) 在HDM中查看存储信息,确认物理盘信息是否准确。若存在物理盘信息对应不上的情况或者存在部分物理盘信息没有显示,则排查线缆、背板及相关硬盘是否存在故障。
(4) 确认逻辑盘状态是否正常。若不正常,则先查看是否有RAID成员盘异常,有则更换异常硬盘。若无RAID成员盘异常,则查看是否逻辑盘处于Offline状态,恢复为Online后再重新启动确认故障是否解决。
(5) 更换存储控制卡,查看问题是否解决。
(6) 若问题仍然存在,请联系技术支持。
如图7-24所示,PXE启动失败,提示无DHCP服务或服务异常。
网卡故障或业务PXE环境异常。
(1) 进入BIOS Setup的Driver Health页面检查并确保网卡驱动健康状态。
(2) 检查PXE环境的DHCP服务器设置,例如DHCP服务是否启用、IP地址是否与PXE启动的服务器处于同一网段。如设置不正确,请重新设置DHCP服务器,并再次尝试PXE启动。如DHCP服务器正常,执行步骤(3)。
(3) 通过交换机查看局域网内是否存在异常报文,如过多的ARP报文信息。如存在异常报文,请排查网络相关服务。如否,执行步骤(4)。
如图7-25所示,PXE启动黑屏或打印错误信息,无法进入PXE环境。
图7-25 PXE启用异常
· 网卡不支持PXE Boot功能。
· BIOS Setup中PXE功能或网口的PXE功能被禁用。
· 网卡Boot Protocol未设置为PXE方式,导致服务器无法从PXE启动。
· Legacy模式下还可能由于不支持4GB以上地址空间映射导致部分网卡不可用,所以Legacy模式下,需要将Above 4GB Decoding设置为Disabled。
· 网络环境中的PXE设备异常,或者连接PXE设备的链路异常,导致无法进入PXE。
(1) 查看官网上的网卡datasheet,确认该网卡是否支持PXE Boot。如果否,请更换一个支持PXE Boot的网卡。
(2) 进入BIOS Setup检查PXE相关功能是否已启用。
a. 进入Advanced页签下,如图7-26所示,查看Network Configuration菜单页面,确认PXE功能是否开启。
b. 在Network Configuration界面中确认IPv4 PXE Support及IPv6 PXE Support(如需使用IPv6)是否启用,如图7-27所示。
图7-27 Network Stack Configuration界面
c. 在PCIE NIC Configuration界面中确认网口的PXE功能是否开启,如图7-28所示。如否,请将选项设置为Enabled。
(3) 如对BIOS设置有修改,请按F4保存修改并重启服务器使设置生效,确认故障是否解除。
(4) 服务器启动过程中,网卡自检时,按Ctrl+s进入网卡参数配置页面,确认Boot Protocol是否为PXE。
a. 进入网卡的Option ROM配置页面,如图7-29所示。
b. 根据MAC地址选择网口,如图7-30所示。
c. 选择MBA Configuration,如图7-31所示。
d. 配置该网口的Boot Protocol为PXE,如图7-32所示。
(5) Legacy模式下,在BIOS Setup下的Advanced页签,进入PCI Subsystem Settings菜单页面,如图7-33所示。
(6) 将Above 4GB Decoding选项设置为Disabled,如图7-34所示。
图7-34 PCI Subsystem Settings页面
(7) 若问题仍然存在,请联系技术支持。
进入PXE环境后无法安装系统,或安装过程中报错。
图7-35 PXE安装报错
(1) 检查并确保网络环境正常。网络中断会导致系统镜像文件加载失败。
(2) 通过在本地挂载PXE服务器中的源镜像确认源镜像是否有损坏,源镜像损坏会导致安装系统失败。
(3) 如果安装过程中断在操作系统分区阶段,说明硬盘有残留的RAID信息。通过存储控制卡先对硬盘进行初始化,然后再执行去初始化,具体操作方式及步骤请参见《H3C服务器 存储控制卡用户指南》
(4) 若问题仍然存在,请联系技术支持。
硬盘Fault/UID指示灯含义如表7-3、表7-4、表7-5所示。
表7-3 SAS/SATA硬盘指示灯说明
硬盘Fault/UID指示灯(橙色/蓝色) |
硬盘Present/Active指示灯(绿色) |
说明 |
橙色闪烁(0.5Hz) |
常亮/闪烁(4Hz) |
硬盘预告性故障报警,请及时更换硬盘 |
橙色常亮 |
常亮/闪烁(4Hz) |
硬盘出现故障,请立即更换硬盘 |
蓝色常亮 |
常亮/闪烁(4Hz) |
硬盘状态正常,且被阵列管理工具选中 |
灯灭 |
闪烁(4Hz) |
硬盘在位,有数据读写操作或正在进行阵列迁移/重建 |
灯灭 |
常亮 |
硬盘在位,但没有数据读写操作 |
灯灭 |
灯灭 |
硬盘未安装到位 |
表7-4 NVMe硬盘指示灯说明
硬盘Fault/UID指示灯(橙色/蓝色) |
硬盘Present/Active指示灯(绿色) |
说明 |
橙色闪烁(0.5Hz) |
灯灭 |
硬盘已完成预知性热拔出流程,允许拔出硬盘 |
橙色闪烁(4Hz) |
灯灭 |
硬盘处于热插入过程 |
橙色常亮 |
常亮/闪烁(4Hz) |
硬盘出现故障,请立即更换硬盘 |
蓝色常亮 |
常亮/闪烁(4Hz) |
硬盘状态正常,且被阵列管理工具选中 |
灯灭 |
闪烁(4Hz) |
硬盘在位,有数据读写操作或正在进行阵列迁移/重建 |
灯灭 |
常亮 |
硬盘在位,但没有数据读写操作 |
灯灭 |
灯灭 |
硬盘未安装到位 |
仅在BIOS下enable VMD且有NVMe VROC Key的情况下,支持对NVMe硬盘进行点灯操作 |
表7-5 E1.S硬盘指示灯说明
硬盘Fault/UID指示灯(橙色) |
硬盘Present/Active指示灯(绿色) |
说明 |
橙色闪烁(0.5Hz) |
灯灭 |
硬盘已完成预知性热拔出流程,允许拔出 |
橙色闪烁(4Hz) |
常亮/闪烁(4 Hz) |
硬盘处于热插入过程或被阵列管理工具选中 |
橙色闪烁(0.5Hz) |
常亮/闪烁(4 Hz) |
硬盘预告性故障报警,请及时更换硬盘 |
橙色灯常亮 |
常亮/闪烁(4Hz) |
硬盘出现故障,请立即更换硬盘 |
灯灭 |
闪烁(4Hz) |
硬盘在位,有数据读写操作或正在进行阵列迁移/重建 |
灯灭 |
常亮 |
硬盘在位,但无数据读写操作 |
灯灭 |
灯灭 |
硬盘未安装到位 |
· 如图7-36所示,HDM Web界面,事件日志提示硬盘Drive Fault或Offline告警。
· 如图7-37所示,HDM Web界面,进入RAID视图页面,查看存储控制卡信息,发现故障硬盘状态异常。
· HDM、BIOS版本过低。
· 硬盘离线。
· 硬盘本体故障。
· 硬盘线缆、存储控制卡、硬盘背板以及硬盘扩展板未正确安装或者故障。
(1) 确认OS或者BIOS下硬盘是否可以识别,如果两者任意一个可以识别,请升级HDM和BIOS至H3C官网最新版本,检查硬盘状态是否正常。若可以识别,则执行步骤(4);若不能识别,则执行步骤(2)。
(2) 升级硬盘固件到官网最新版本,并根据硬盘类型排查硬盘问题。
¡ 如果故障硬盘为直通盘,尝试重新插拔硬盘,查看异常状态能否解除。若重新插拔后故障仍然存在,则更换故障硬盘。
¡ 如果故障硬盘在RAID组中,请根据逻辑盘的异常状态,进行如下操作来尝试恢复。
- 逻辑盘故障(Fail):此时逻辑盘中数据已无法读取,需要删除逻辑盘并重新创建逻辑盘。
- 逻辑盘降级(Degraded):PMC存储控制卡可以重新插拔硬盘尝试恢复;LSI存储控制卡可以在HDM存储页面上切换物理硬盘状态由Unconfigured BAD至Unconfigured Good尝试恢复。如果HDM上切换失败,可以在BIOS中尝试恢复。如果没有恢复,建议备份数据后,更换故障硬盘并重建逻辑盘。
- 逻辑盘离线(Offline):通过HDM强制逻辑盘Online恢复。
(3) 请通过交叉验证方法,依次排查硬盘线缆,硬盘背板、硬盘扩展板的链路问题。
如图7-38所示,HDM Web界面中,存储控制卡信息中所有硬盘都无法识别。
· HDM、BIOS软件版本过低。
· 硬盘固件版本过低。
· 硬盘扩展板固件版本过低。
· 存储控制卡、硬盘、硬盘背板、硬盘扩展板及其配套线缆未正确安装或者故障。
(1) 确认OS或者BIOS下硬盘是否可以识别。如果两者任意一个可以识别,请升级HDM、BIOS至当前H3C官网发布的最新版本;若无法识别,执行步骤(2)。
(2) 升级硬盘固件到官网最新版本。如果存储控制卡连接了硬盘扩展板,请同步升级硬盘扩展板固件至H3C官网最新版本。
(3) 请通过交叉验证方法,依次排查存储控制卡、硬盘、硬盘背板、硬盘扩展板及其配套线缆的链路问题。若故障跟随某一部件出现,则更换该部件。
(4) 若问题仍然存在,请联系技术支持。
操作系统日志上报硬盘本体故障,如“I/O error”、“Hardware Error”和“Medium Error”,如下示例。
[3296734.898693] sd 0:0:67:0: [sde] tag#46 FAILED Result: hostbyte=DID_ABORT driverbyte=DRIVER_OK
[3296734.898695] sd 0:0:67:0: [sde] tag#0 FAILED Result: hostbyte=DID_ABORT driverbyte=DRIVER_OK
[3296734.898701] sd 0:0:67:0: [sde] tag#0 CDB: Write(16) 8a 00 00 00 00 01 5d 46 ce d8 00 00 00 28 00 00
[3296734.898708] sd 0:0:67:0: [sde] tag#46 CDB: Write(16) 8a 00 00 00 00 00 00 00 08 00 00 00 00 08 00 00
[3296734.898711] blk_update_request: I/O error, dev sde, sector 5859888856
Mar 8 15:49:31 A07-R18-I9-5-5002500 kernel: sd 0:0:0:0: [sda] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
Mar 8 15:49:31 A07-R18-I9-5-5002500 kernel: sd 0:0:0:0: [sda] Sense Key : Hardware Error [current]
Mar 8 15:49:31 A07-R18-I9-5-5002500 kernel: sd 0:0:0:0: [sda] Add. Sense: Internal target failure
Mar 8 15:49:31 A07-R18-I9-5-5002500 kernel: sd 0:0:0:0: [sda] CDB: Write(10) 2a 00 02 16 68 e0 00 00 10 00
Mar 8 15:49:31 A07-R18-I9-5-5002500 kernel: blk_update_request: critical target error, dev sda, sector 35023072
[206109.776549] blk_update_request: critical medium error, dev sdl, sector 10234104120
[206112.336004] sd 0:0:74:0: [sdl] tag#2 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[206112.336009] sd 0:0:74:0: [sdl] tag#2 Sense Key : Medium Error [current] [descriptor]
[206112.336011] sd 0:0:74:0: [sdl] tag#2 Add. Sense: Unrecovered read error
[206112.336013] sd 0:0:74:0: [sdl] tag#2 CDB: Read(16) 88 00 00 00 00 02 62 00 0d 00 00 00 00 08 00 00
· 硬盘坏道。
· 存储控制卡与硬盘之间的链路异常,导致硬盘无法读写。
(1) 收集硬盘的Smart信息,通过对比Smart信息中Serial number和HDM存储界面硬盘序列号确认硬盘槽位。
图7-39 收集硬盘的Smart信息
图7-40 HDM查看硬盘序列号
(2) 收集存储控制卡阵列日志、HDM SDS日志,结合之前收集的硬盘smart信息,联系技术支持进一步确认是否需要更换硬盘。
操作系统无法识别硬盘。
· 硬盘背板供电异常。
· 硬盘安装不到位。
· 硬盘故障。
· 硬盘在存储控制卡下未创建RAID或配置为直通盘。
· 存储控制卡驱动未安装或版本过低。
· NVMe硬盘驱动未安装。
(1) 确保硬盘安装到位。
(2) 查询硬盘Present/Active指示灯,指示灯常亮/闪烁,说明硬盘背板供电正常;否则,请通过交叉验证的方法,查看硬盘背板、硬盘电源线缆是否存在异常。
(3) 通过HDM或者BIOS下的存储控制卡管理界面,确认当前硬盘是否可以被存储控制卡识别。如果不能识别,执行步骤(4)。如果可以识别,执行步骤(5)。
(4) 确认硬盘是否已创建RAID或配置为直通盘,创建RAID或配置为直通盘后,操作系统才能识别该硬盘。
(5) 确认存储控制卡的驱动版本,建议更新到H3C官网最新驱动版本。
(6) 若问题仍然存在,请联系技术支持。
Enable VMD 时,RHEL7.6/RHEL8.0/SUSE15/ SUSE15SP1/ SUSE12SP4等系统下使用Echo 1命令预知性移除NVMe时, Fault/UID橙灯不亮。
使能VMD的时候,由ledmon控制点灯,但SUSE15等系统下缺少ledmon.service文件,导致无法对硬盘进行动态监控。
(1) 在/usr/lib/systemd/system路径下创建ledmon.service文件,对应内容如图7-41。
图7-41 Ledmon.service文件内容
(2) 手动启动ledmon.service服务,如图7-42。
图7-42 创建并启动ledmon.service服务
Enable VMD 时,RHEL7.6/RHEL8.0/SUSE15/ SUSE15SP1/ SUSE12SP4等系统下发locate点灯命令时,出现硬盘Fault/UID指示灯蓝灯亮,热拔插硬盘后蓝灯不灭。
请参见7.6.5 。
请参见7.6.5 。
Enable VMD 时, RHEL8.2系统下发点灯命令,Fault/UID指示灯蓝灯不亮。
RHEL8.2开机默认未开启ledmon.service动态监控服务。
手动开启ledmon.service服务,无需重启系统。以下提供两种开启ledmon.service服务的方法,请按需选择:
· 一次性开启服务,系统重启后失效:
systemctl start ledmon.service
· 设置开机自启服务,系统重启后仍有效:
Systemctl enable ledmon.service
Systemctl restart edmon.service
Enabled VMD时,Ubuntu系统对NVMe硬盘进行点灯和下发预知性命令操作时,硬盘Fault/UID指示灯不亮。
Ubuntu系统下无ledmon驱动包,导致缺少ledmon.service文件,从而无法对硬盘进行动态监控。。
(1) 下载并安装ledmon驱动包。参考下载链接:
https://developer.aliyun.com/mirror/ubuntu?spm=a2c6h.13651102.0.0.3e221b11BLRJr7阿里源
(2) 安装后设置网络代理。步骤如下:
¡ 编辑/etc/profile文件:
vim /etc/profile
¡ 在结尾加上相关字段:
http_proxy=http://os:sitos@172.16.1.11:808
export http_proxy
¡ 刷新/etc/profile文件,测试网络:
source /etc/profile && curl www.baidu.com
(3) 使用编辑器打开/etc/apt/sources.list文件并替换相关字段:
¡ 将默认的“http://archive.ubuntu.com/”字段替换为“mirrors.aliyun.com”
(4) 安装deb包:
sudo apt-get install XXX=版本号
(5) 查询已安装的版本:
dpkg -l ‘XXX’
服务器上硬盘橙灯常亮或者闪烁。
(1) 通过硬盘Fault/UID指示灯位置,确认故障硬盘所在槽位号。
(2) 确认硬盘类型,并按照如下处理步骤进行排查,若仍然存在异常,执行步骤(3)。
¡ 若为SAS/SATA硬盘,请尝试重新插拔硬盘,确认是否可以恢复正常。
¡ 若为NVMe硬盘,请根据硬盘Fault/UID指示灯判断处理方式。
- 硬盘Fault/UID指示灯橙色闪烁(0.5HZ)时,硬盘已完成预知性热拔出流程,允许拔出硬盘。
- 硬盘Fault/UID指示灯橙色闪烁(4HZ)时,无需处理。
- 硬盘Fault/UID指示灯橙色常亮,请尝试重新插拔硬盘,确认是否可以恢复正常。
(4) 若问题仍然存在,请联系技术支持。
HDM Web界面上,SSD硬盘告警,SSD剩余寿命低于10%。如图7-43所示,查看SSD剩余寿命。
图7-43 查看SSD剩余寿命
SSD硬盘长时间使用已达到使用寿命,即将不可使用,需要更换。
(1) 备份业务数据,并更换SSD硬盘。
(2) 若问题仍然存在,请联系技术支持。
PCH提供的板载软RAID,无法识别SSD硬盘(包括SSD硬盘和M.2 SSD卡)。
· SSD硬盘故障。
· SSD硬盘线缆破损或者未正常连接。
· 硬盘背板或者硬盘槽位故障。
· SATA M.2 SSD转接卡和主板链路异常。
(1) 检查SSD硬盘线缆是否安装到位,重新插拔线缆。
(2) 检查SSD硬盘线缆是否破损或异常,更换故障线缆。
(3) 将硬盘插入不同硬盘槽位验证是否硬盘背板故障。
(4) 检查SATA M.2 SSD转接卡和主板是否正常连接,确保链路正常。
(5) 更换SSD硬盘。
(6) 若问题仍然存在,请联系技术支持。
HDM Web界面上,[系统信息/硬件信息]菜单项中,显示NVMe硬盘状态异常,如备用空间低于阈值、子系统降级、缓存模块故障等。
· 硬盘外部散热异常,导致硬盘温度告警。
· 硬盘故障。
· 硬盘已达到使用寿命。
(1) 单击[系统管理/存储管理]菜单项,进入存储管理页面。单击物理视图页签,界面上将显示对应的NVMe硬盘信息。
图7-44 查看NVMe硬盘状态
¡ 当出现状态显示异常、备用空间低于阈值、子系统降级、缓存模块故障情况时,通过物理槽位定位到故障硬盘位置,备份业务数据后更换故障的NVMe硬盘。
¡ 当出现状态显示温度异常时,请检查对应服务器散热是否良好。如果服务器没有温度告警并且风扇运转正常,请检查环境温度;若服务器存在温度告警,请参考7.9 风扇和散热问题章节处理。
¡ 当已使用寿命达到或超过100%,请停止使用该硬盘,并立即备份业务数据,更换该硬盘。
(2) 若问题仍然存在,请联系技术支持。
服务器正常运行过程中,新安装NVMe硬盘,但操作系统无法识别该硬盘。
· NVMe硬盘安装不到位或安装在不支持NVMe硬盘的插槽上。
· NVMe硬盘的电源线缆、数据线缆破损或未正常连接。
· NVMe SSD扩展卡没有安装在配套的Riser卡上。
· NVMe硬盘的数据线缆和NVMe SSD扩展卡未按照端口编码正确连接,错误连接会导致链路不通。
· 如果是G3机型,BIOS Setup页面下PCI-E Port状态未设置成Enable或Auto模式。
· 硬盘背板故障。
· 硬盘背板CPLD固件版本过低。
(1) 确认NVMe硬盘所在槽位,支持安装NVMe硬盘。该信息可通过产品用户指南查询。
(2) 确认NVMe硬盘的电源线缆、数据线缆完好无损、并正确连接。尤其是连接NVMe数据线缆时,线缆上的标签需要与硬盘背板、NVMe SSD扩展卡上的接口丝印一一对应,否则会导致链路不通。详细信息请参见产品用户指南。
(3) 确保NVMe SSD扩展卡安装在Riser卡x16插槽上。
(4) BIOS Setup页面,选择Socket Configuration > IIO Configuration > Processor $1 Configuration > Processor $1 $2,确保PCI-E Port状态为Enabled或Auto模式。
图7-45 PCI-E Port设置
(5) 升级硬盘背板CPLD固件至H3C官网最新版本。
(6) 交叉验证,确认硬盘背板是否故障。如故障请更换。
(7) 若问题仍然存在,请联系技术支持。
NVMe硬盘插拔时需要注意:
· NVMe硬盘支持热插。插入硬盘时要匀速插入,过程中不能出现停顿,否则容易导致操作系统卡死或重启。
· NVMe硬盘是否支持热拔和预知性热拔,与操作系统有关。两者的兼容性请通过OS兼容性查询工具查询。
· 不支持多个NVMe硬盘同时热插拔,建议间隔30秒以上,待操作系统识别到第一个硬盘信息后,再开始操作下一个硬盘。同时插入多个NVMe硬盘,容易导致操作系统无法识别硬盘。
使用中的NVMe硬盘出现无法正常写入或读取数据的情况。
· NVMe硬盘故障。
· NVMe SSD扩展卡故障。
· NVMe硬盘背板故障。
· NVMe硬盘相关线缆破损或未正常连接。
(1) 检查NVMe硬盘的指示灯状态,排查硬盘是否故障。
¡ 如果硬盘Fault/UID指示灯橙色常亮,说明硬盘故障,请更换硬盘。
¡ 如果硬盘Fault/UID指示灯和硬盘Present/Active指示灯均不亮,说明硬盘未安装到位,请重新安装硬盘。
(2) 确认BIOS下,NVMe盘能否正常识别。能识别,请执行步骤(4);不能识别,请执行步骤(3)。
图7-46 BIOS下NVMe硬盘识别情况
(3) 确认NVMe硬盘的电源线缆、数据线缆完好无损、并正确连接。
(4) 确认NVMe SSD扩展卡是否存在故障。如图7-47所示,以一种NVMe SSD扩展卡举例,如果扩展卡上的三个灯其中一个不亮,则表明该扩展卡故障。
图7-47 NVMe SSD扩展卡指示灯(示例)
(5) 交叉验证,依次排查硬盘背板、NVMe SSD扩展卡是否存在故障,并更换对应故障部件。
(6) 若问题仍然存在,请联系技术支持。
如图7-48所示,操作系统中硬盘数据无法访问。
· 突然断电或异常关机导致文件系统错误。
· 硬盘故障。
(1) 备份硬盘上的业务数据,确认文件系统是否正常并尝试修复文件系统。
(2) 收集操作系统日志及存储控制卡日志,通过日志确认硬盘是否故障,如果故障请更换硬盘。
(3) 若问题仍然存在,请联系技术支持。
更换存储控制卡时,新安装的存储控制卡和原存储控制卡的如下信息请务必保持一致,否则可能导致不可预估的故障发生。
· 存储控制卡型号。
· BIOS启动模式。
· 存储控制卡的固件版本。
· 存储控制卡的驱动版本。
· 存储控制卡的工作模式。
· Legacy BIOS模式下的第一启动项。
连接了超级电容的存储控制卡组建成的逻辑盘,逻辑盘写缓存策略设定为Write Back(回写模式),但在使用过程中,逻辑盘写缓存策略却自动切换为Write Through(直写模式)。
· 超级电容与存储控制卡连接异常。
· 超级电容未完成充电。
· 超级电容故障。
出现上述任意情况时,超级电容的掉电保护功能失效,存储控制卡为保护缓存数据不丢失,将逻辑盘的写缓存策略由Write Back(回写模式)切换为Write Through(直写模式)。
(1) 查看超级电容的状态。登录HDM Web界面,进入存储管理界面,选择目标存储控制卡,查看超级电容的状态,如图7-49所示。
(2) 根据图7-49中超级电容的状态,继续定位和处理,确保超级电容工作状态正常。
¡ 超级电容状态:“不在位”,表示系统未识别到超级电容。
- 如果超级电容实际在位,请重新插拔超级电容及其线缆,确保线缆稳固无松动。如果继续显示不在位,说明该超级电容可能出现故障,请更换。
- 如果超级电容实际不在位,请将超级电容安装到位。
¡ 超级电容状态:“充电中”表示超级电容正在充电过程中,用户无需任何操作,耐心等待,直至其状态显示为“充电完毕”。
¡ 超级电容状态:“致命”、“过温”、“校准失败”或“异常”,表示超级电容故障,请更换。
(3) 超级电容工作状态显示为“充电完毕”后,逻辑盘的写缓存策略会自动由Write Through(直写模式)切换为Write Back(回写模式)。
(4) 若问题仍然存在,请联系技术支持。
PMC存储控制卡组建的某个逻辑盘出现“Offline”、“Degraded”等严重故障,并且该存储控制卡下的其他逻辑盘状态变为Not be Available,用户无法操作任意逻辑盘,在操作系统下也无法为逻辑盘正确分配盘符。
PMC存储控制卡下某个逻辑盘出现“Offline”、“Degraded”等严重故障,会导致存储控制卡工作状态异常,同时其他处于正常状态的逻辑盘状态均显示为Not be Available。
(1) 登录HDM Web界面,进入如图7-50所示界面。
(2) 找到当前处于故障状态的硬盘,然后删除该硬盘组建成的逻辑盘,即可恢复其他Not be Available状态的逻辑盘。
(3) 若问题仍然存在,请联系技术支持。
服务器上安装了P460/H460系列存储控制卡。如图7-51所示,通过Arcconf工具,执行./arcconf list命令查看存储控制卡状态时,返回Controllers found: 0,提示未识别到存储控制卡,但是实际上,存储控制卡并无任何异常。
· Arcconf工具版本过低,无法兼容新版本的存储控制卡固件。
· 存储控制卡驱动版本过低,无法兼容新版本的存储控制卡固件。
(1) 通过H3C官网获取存储控制卡最新的固件包中的Arcconf命令行工具。
(2) 将存储控制卡的驱动和固件版本,升级至H3C官网最新版本。
在BIOS或操作系统上查询的存储控制卡产品型号,发现P460/H460系列存储控制卡的显示型号与实际型号不一致,如如图7-52所示在操作系统下显示为SmartROC 3154-8i。
存储控制卡的Seeprom版本过低。早期Seeprom版本中采用第三方存储控制卡的默认产品型号,后期Seeprom版本经过修改,显示为P460或H460这种正常的型号。
联系技术支持更新存储控制卡的Seeprom版本。
P430系列存储控制卡直连硬盘背板(不经过硬盘扩展板),当逻辑盘出现异常、重建或者初始化时,对应所有成员盘的硬盘Fault/UID指示灯出现蓝橙色交替闪烁。
· 逻辑盘的部分成员盘出现异常。
· 逻辑盘正在重建过程中。
· 逻辑盘正在初始化过程中。
· 逻辑盘的部分成员盘出现异常
a. 在HDM管理页面中,进入存储管理界面,选择RAID视图页签,进入RAID视图页面。
b. 选择目标存储控制卡下的目标逻辑盘,查看逻辑盘的状态,如果逻辑盘状态显示为“Degraded”,表明部分成员盘出现异常,针对该种情况导致的蓝橙灯闪烁,蓝橙灯闪烁的是正常硬盘,没有蓝橙灯闪烁的是故障硬盘,请更换所有故障硬盘。
· 逻辑盘正在重建过程中
a. 在HDM管理页面中,进入存储管理界面,选择RAID视图页签,进入RAID视图页面。
b. 选择目标存储控制卡下的目标逻辑盘,查看逻辑盘的状态,如果逻辑盘状态显示为“Rebuilding”,表明逻辑盘正在重建过程中,针对该种情况导致的蓝橙灯闪烁,无需任何操作,等待其自动完成重建即可恢复正常。
· 逻辑盘正在初始化过程中
a. 在HDM管理页面中,进入存储管理界面,选择RAID视图页签,进入RAID视图页面。
b. 选择目标存储控制卡下的目标逻辑盘,查看逻辑盘的状态,如果逻辑盘状态显示为“Zeroing”,表明逻辑盘正在初始化过程中,针对该种情况导致的蓝橙灯闪烁,无需任何操作,等待其初始化完成后即可恢复正常。
服务器上电后,在BIOS启动界面(BIOS启动模式为Legacy),初始化LSI-9300或LSI-9311系列存储控制卡时,出现如图7-53所示现象,屏幕光标闪烁,但是界面卡死,无响应。
BIOS版本过低,导致存储控制卡固件与BIOS不兼容。
(1) 进入HDM管理页面,将如图7-54所示的下一次启动模式设置为UEFI。
(2) 重启服务器,在UEFI的BIOS启动模式下,将存储控制卡的驱动和固件版本,升级至H3C官网最新版本。
LSI存储控制卡的工作模式切换为JBOD模式后,安装操作系统过程中如图7-55所示提示无法识别硬盘。
LSI存储控制卡驱动版本过低,无法支持LSI存储控制卡新增的JBOD工作模式。
前往H3C官网下载存储控制卡最新的固件版本和固件版本对应的软件驱动版本,然后更新该固件和软件驱动。
LSI存储控制卡所在服务器安装了Windows操作系统,在操作系统内手动更新LSI存储控制卡的驱动时报错,如图7-56所示提示无适配驱动。
LSI存储控制卡早期的驱动(对应Windows操作系统),包括RAID Mode和JBOD Mode两种驱动版本,Windows操作系统版本需要与LSI存储控制卡的驱动版本配套使用,否则Windows操作系统无法识别软件驱动。
将存储控制卡的驱动和固件版本,升级至H3C官网最新版本。
逻辑盘降级状态下,更换故障成员盘后,逻辑盘重建失败。
更换的新成员盘异常。
(1) 检查并确保新成员盘的容量大于等于故障成员盘。若新成员盘容量小于故障成员盘,会导致逻辑盘重建失败。
(2) 检查并确保存储控制卡线缆连接正确、稳固无松动。
(3) 确认新成员盘能否被存储控制卡正常识别,查看方法如下。
¡ PMC存储控制卡:如图7-57所示,在BIOS界面的BIOS Setup > Advanced > 存储控制卡型号 > Disk Utilities菜单中查看硬盘。
图7-57 查看新成员盘是否被PMC存储控制卡识别
¡ LSI存储控制卡:如图7-58所示,在BIOS界面的BIOS Setup > Advanced > 存储控制卡型号 > Main Menu > Drive Management菜单中查看硬盘。
图7-58 查看新成员盘是否被LSI存储控制卡识别
(4) 如果新成员盘无法被识别,请更换成员盘。
(5) 如果新成员盘可以被识别,请检查硬盘状态是否为正常(即不能出现Failed/Unconfigured Bad等)。如不正常,请更换成员盘。如果如图7-59所示显示正常(Optimal或Online),请手动重建逻辑盘。
(6) 若问题仍然存在,请联系技术支持。
更换同型号存储控制卡后,发现原存储控制卡组建的RAID中的数据无法被识别和使用。
更换后的存储控制卡的工作模式不为RAID模式,导致用户无法识别和使用含有RAID数据的硬盘。
(1) 将存储控制卡的模式切换为RAID模式,保存配置并重启服务器。
(2) 若问题仍然存在,请联系技术支持。
在HDM管理页面中,逻辑盘状态如图7-60所示显示Degraded,表示冗余RAID级别的逻辑盘出现降级。此时逻辑盘仍可正常使用。
逻辑盘中的成员盘故障,导致逻辑盘状态由正常变为降级。
(1) 定位故障成员盘所在槽位。不同厂商的存储控制卡,定位方式略有不同,具体如下。
¡ PMC存储控制卡
如图7-61示,输入./arcconf getconfig controller_id LD,可以看到Device 2,即Slot 2槽位为故障成员盘槽位。
图7-61 PMC存储控制卡获取故障成员盘槽位
¡ LSI存储控制卡
如图7-62所示,输入./storcli64 /c0 show events,可以看到s1,即Slot 1槽位为故障成员盘槽位。
图7-62 LSI存储控制卡获取故障盘槽位
(2) 更换故障成员盘,更换后逻辑盘会自动重建。
在HDM管理页面中,逻辑盘状态如图7-63所示显示Offline,表示逻辑盘出现故障,无法继续使用。
图7-63 逻辑盘状态显示为Offline
· RAID 0:逻辑盘中的任意成员盘故障。
· 其他冗余RAID级别:逻辑盘中的成员盘异常数量超过该RAID级别的容错范围。
(1) 针对此状态的逻辑盘,数据无法恢复,进入HDM管理页面,定位并更换硬盘状态为“Failed”或“Offline”的故障成员盘。
(2) 删除故障成员盘所属的逻辑盘,然后重新组建逻辑盘。
(3) 若问题仍然存在,请联系技术支持。
如图7-64所示,超级电容长期搁置后安装到服务器并上电,HDM Web界面,[信息/存储]菜单项,RAID视图页面显示超级电容充电中或异常。
· 超级电容寿命到期。超级电容的寿命通常为3年~5年,寿命到期时,需要及时更换,否则会导致存储控制卡的数据掉电保护功能失效。
· 长时间未使用的超级电容会缓慢放电(这是一个正常现象),安装到服务器后开始自动充电。
超级电容长期搁置后,请参考如下处理步骤处理。
· HDM Web界面显示超级电容充电中,表示超级电容在自动充电,无需处理。
· HDM Web界面显示超级电容异常,表示超级电容寿命到期,请更换超级电容。
如图7-65所示,HDM Web界面,[信息/存储]菜单项,RAID视图页面显示超级电容不在位。
超级电容型号和存储控制卡型号不匹配,比如超级电容是LSI的,存储控制卡是PMC的。
· 请确保超级电容型号和存储控制卡型号匹配,具体请通过产品用户指南查询。
· 若问题依旧存在,请参见6.4.10 存储控制卡的超级电容故障流程图处理。
存储控制卡无法识别超级电容,逻辑硬盘的Write Policy(写缓存策略),从Write Back(回写模式)自动切换为Write Through(直写模式)。
图7-66 BIOS下写缓存策略
超级电容出现异常,导致存储控制卡的数据掉电保护功能失效。为确保数据不丢失,存储控制卡自动调整逻辑硬盘的Write Policy(写缓存策略)。
请参见6.4.10 存储控制卡的超级电容故障流程图处理。
多个风扇高转速运行时,噪音较大。
· 风扇调速模式选择不当。
· 服务器运行功耗过高。
· HDM、BIOS、主板CPLD固件版本过低。
· 风扇当前的安装规则,不符合系统要求的风扇安装准则。
· 其他风扇未安装到位,此时HDM Web界面下[信息/传感器信息/风扇]菜单项中显示风扇不在位信息,示意图如图7-67所示。
· 服务器外部环境温度过高。
· 服务器通风环境不良。
· 风扇或机箱内存在异物。
· 风扇异常。
(1) 检查并确保服务器工作环境温度符合要求,详细信息请参见服务器用户指南。
(2) 检查并确保服务器通风正常,出风口和入风口没有被异物阻塞。
(3) 检查并确保服务器机箱中没有异物、风扇没有被异物阻塞、风扇接口完好无损。
(4) 重新安装所有风扇,确保所有风扇均正确安装到位。
(5) 如图7-68所示,在HDM Web界面下,单击[风扇配置/调速模式]菜单项,选择以下两种方式进行调节。
¡ 选择[最佳散热模式],此模式在确保服务器正常散热的前提下,风扇会以最低转速运转,此时噪音最小。
¡ 选择[自定义]选项,降低风扇档位以提高静音效果。
(6) 在HDM Web界面下单击[电源配置]菜单项,查看设备当前总功率数值,如图7-69所示。若设备当前总功率接近或者超过功率封顶值,请尝试减少业务运行,降低设备功耗,以降低风扇转数,若问题仍然存在,请执行步骤(7)。
(7) 将HDM、BIOS、主板CPLD固件版本均升级至H3C官网最新版本。
(8) 使用正常工作的同型号风扇,与原来所有风扇逐个进行交叉验证。
¡ 若问题解决,则是原来的风扇存在故障,需要更换。
¡ 若问题仍然存在,请联系技术支持。
在位风扇低转速运行时,一个或者多个风扇噪音较大。
· 风扇异常。
· 机箱中存在异物。
· 风扇内含有异物。
(1) 检查并确保服务器机箱中没有异物、风扇没有被异物阻塞。
(2) 使用正常工作的同型号风扇,与原来所有风扇逐个进行交叉验证。
¡ 若问题解决,则是原来的风扇存在故障,需要更换。
¡ 若问题仍然存在,请联系技术支持。
服务器运行时,多个在位风扇中某一个风扇以全速转或接近全转速状态运行。此时HDM Web界面下[信息/硬件信息/风扇]菜单项中显示单个风扇速率比等于或者接近100%,如图7-70所示。
图7-70 单个风扇接近全转速
· 风扇异常。
· 主板上对应的风扇接口异常。
(1) 检查该风扇接口,确保其完好无损坏。
(2) 使用正常工作的同型号风扇,进行交叉验证。
¡ 若问题解决,则是原来的风扇存在故障,需要更换。
¡ 若问题仍然存在,则说明主板上对应的风扇接口异常,请联系技术支持。
服务器运行时,所有在位风扇接近全速转。此时HDM Web界面下[信息/硬件信息/风扇]菜单项中显示在位风扇速率比等于或者接近100%,如图7-71所示。
· 风扇调速模式选择不当。
· 服务器运行功耗过高。
· HDM、BIOS、主板CPLD固件版本过低。
· 风扇当前的安装规则,不符合系统要求的风扇安装准则。
· 风扇未安装到位。
· 风扇异常。
· 外部工作环境温度过高。
· 服务器通风环境不良。
· 机箱内存在异物。
(1) 检查并确保机箱中没有异物、所有风扇接口完好无损。
(2) 重新安装所有风扇,确保所有风扇均正确安装到位。
(3) 检查并确保服务器通风正常,出风口和入风口没有被异物阻塞。
(4) 检查并确保服务器工作环境温度符合要求,详细信息请参见服务器用户指南。
(5) 如图7-72所示,在HDM Web界面下,单击[风扇配置/调速模式]菜单项,选择以下两种方式进行调节。
¡ 选择[最佳散热模式],此模式在确保服务器正常散热的前提下,风扇会以最低转速运转。
¡ 选择[自定义]选项,手动降低风扇档位以降低风扇转速。
(6) HDM Web界面中,单击[电源配置]菜单项,查看设备当前总功率数值,如图7-73所示。若设备当前总功率接近或者超过功率封顶值,请尝试减少业务运行,降低设备功耗,以降低风扇转数,若问题仍然存在,请执行步骤(7)。
(7) 将HDM、BIOS、主板CPLD固件版本,均升级至H3C官网最新版本。
(8) 使用正常工作的同型号风扇,与原来所有风扇逐个进行交叉验证。
¡ 若问题解决,则是原来的风扇存在故障,需要更换。
¡ 若问题仍然存在,请联系技术支持。
· 原风扇正常工作,将该风扇更换后,新风扇出现故障,比如无法运转、转速不正常等。
· 多个风扇更换后,其中有一个风扇故障,比如无法运转、转速不正常等。
· 服务器不兼容该风扇。
· 该风扇未安装到位。
· 该风扇故障。
(1) 请通过服务器兼容的部件查询工具进行查询,确保服务器兼容该风扇。
(2) 对于带有指示灯的风扇,请通过风扇故障指示灯判断定位风扇是否存在故障。
¡ 若故障指示灯常亮,则说明风扇存在故障,请更换该风扇。
¡ 若故障指示灯不亮,则执行步骤(3)。
(4) 重新安装该风扇,确保该风扇已正确安装到位。
(5) 在HDM Web界面下,通过[信息/传感器信息/风扇]菜单项,查看能否识别到该风扇。
¡ 若已识别到该风扇,但是仍无法正常工作,说明该风扇故障,请更换风扇。
¡ 若未识别到该风扇,请执行步骤(6)。
¡ 若问题解决,则是原来的风扇存在故障,需要更换。
¡ 若问题仍然存在,请联系技术支持。
服务器运行过程中,出现突发性的自动关机。温度过高导致自动关机,是一种服务器保护机制。
· 外部工作环境温度过高。
· 服务器通风环境不良。
· 机箱中存在异物。
· 一个或多个风扇未安装到位。
· 风扇故障。
· 风扇当前的安装规则,不符合系统要求的风扇安装准则。
· 右侧智能挂耳上的温度传感器异常。
(1) 检查并确保机箱中没有异物、所有风扇接口完好无损并已完全安装到位。
(2) 检查并确保服务器工作环境温度符合要求,详细信息请参见服务器用户指南。
(3) 检查并确保服务器通风正常,出风口和入风口没有被异物阻塞。
(4) 确保风扇安装规则,符合系统要求的风扇安装准则。风扇安装准则请参见产品用户指南。
(5) 如图7-74所示,在HDM Web界面下,单击风扇配置菜单项,选择以下两种方式进行调节。
¡ 选择[强劲模式],此模式下,风扇的散热能力最强,能有效降低CPU等关键组件的温度。
¡ 选择[自定义]选项,手动调节风扇档位至最高以提高散热效果。
图7-74 风扇调速模式
通过[自定义]选项提高风扇档位以处理服务器温度过高而导致自动关机的故障仅为临时措施,具体故障定位及处理方法请进行以下操作步骤或联系技术支持。
(6) 在HDM Web界面下,单击[系统管理/散热管理]菜单项,获取服务器各个部件的温度信息,如图7-75所示,查看各部件的温度状态是否正常。
¡ 若在温度传感器信息中发现某个部件的状态告警信息,CPU温度告警以图7-76举例。此时请结合HDM Web事件日志的故障信息定位故障现象与原因,处理方法请参见《H3C服务器 HDM告警日志信息参考手册》。
图7-76 事件日志中发现CPU温度告警信息
¡ 若在温度传感器信息中未发现任何告警信息,请执行步骤(7)。
¡ 若问题解决,则是原来的右侧挂耳存在故障,需要更换。
¡ 若问题仍然存在,请收集HDM SDS日志并联系技术支持。
服务器运行时,HDM出现如下告警信息,液冷机型的冷板不在位,如图7-77所示,或者冷板漏液故障,如图7-78所示。
对于冷板不在位告警:
· 如非液冷机型出现该告警,大概率为主板故障导致软件误识别。
· 液冷机型出现该告警,大概率冷板漏液检测线连接不到位,或漏液检测线故障。
对于冷板漏液故障告警:
· 如非液冷机型出现该告警,大概率为主板故障导致软件误识别。
· 液冷机型出现该告警,大概率冷板出现漏液,或漏液检测线故障。
(1) 检查是否为液冷机型。
(2) 非液冷机型出现告警,请确认是否还有其他问题,请联系技术支持。
(3) 液冷机型出现告警,将服务器下电,检查CPU冷板的安装是否到位,主要检查漏液检测绳安装是否到位,同时检查是否有漏液发生。
(4) 若无漏液发生,漏液检测绳安装不到位,则调整漏液检测绳后安装好服务器,重新将服务器上电看故障是否解除;若有漏液发生,请勿再上电,请联系技术支持。
(5) 如问题无法解决,或有其他疑问,请联系技术支持。
· 做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。
· 检查内存金手指和插槽,确保金手指是否脱落、插槽中没有异物。
· 务必仅拿住内存两侧的边缘,不要用多根手指紧握内存。
· 避免触摸内存两侧的颗粒、底部的金手指。
· 请勿弯折内存。
· 内存不支持热插拔。
· 确保相应的CPU已安装到位。
· 不同规格(类型、容量、Rank、数据宽度、频率)的DRAM不支持混插,不同规格的DCPMM不支持混插。即一台服务器上配置的所有DRAM产品编码必须相同,所有DCPMM产品编码必须相同。
· DRAM和DCPMM尽量分布在不同的通道上,以提升内存访问带宽。
· 详细的内存安装准则,请参见产品用户指南。
当系统中有可用内存,但部分内存出现安装位置错误时,服务器仍可继续运行。如图7-79所示,当出现内存安装位置错误时,HDM的事件日志中告警信息为“System Firmware Error(POST Error)---Memory population enforcement mismatch,Please check the DIMM population rules.”。
图7-79 HDM内存安装位置错误告警
如图7-80所示,当出现内存安装位置错误时,BIOS界面会产生对应告警提示。
图7-80 BIOS界面内存安装位置错误告警
内存安装位置错误。
(1) 根据HDM告警信息,确认出现问题的内存槽位。
(2) 参考服务器用户指南内存安装准则,重新安装内存进行交叉验证。
(3) 若问题仍然存在,请联系技术支持。
· 如图7-81所示,HDM Web界面,事件日志中提示内存模式降级,“POST Error---Memory Ras Mode Degrade: Minor Code:0x03 Mirror degrade to independent mode”。
· 如图7-82所示,POST阶段,BIOS提示内存模式降级,“Mirror degrade to independent mode!”。
· 如图7-83所示,POST阶段,BIOS提示内存模式降级,“Patrol Scrub degrade to independent mode!”。
· 如图7-84所示,POST阶段,BIOS提示内存模式降级,“Lockstep degrade to independent mode!”。
图7-81 HDM提示内存模式降级(示例)
图7-82 BIOS提示内存ADDDC模式降级(示例)
图7-83 BIOS提示内存Patrol Scrub模式降级(示例)
图7-84 BIOS提示内存Lockstep模式降级(示例)
内存的实际安装规则,不符合该内存模式下,系统要求的内存安装规则。此时,系统会自动调整,使内存模式恢复为缺省内存模式:Independent Mode,从而不影响系统运行。
(1) 调整内存的安装规则,使其符合该内存模式下,系统要求的内存安装准则。内存安装准则的详细信息,请参见产品用户指南。
(2) 若问题仍然存在,请联系技术支持。
· 如图7-85所示,POST阶段,BIOS提示无可用内存,挂死在POST阶段。
· 如图7-86所示,HDM Web界面,事件日志出现告警,“System Firmware Error(POST Error)---No memory found”。
该现象在安装单根或较少数量内存时可能出现。
图7-85 BIOS界面提示无可用内存
图7-86 HDM无可用内存告警
· 服务器和内存型号不兼容。
· 内存安装位置错误,没有遵守内存安装准则。比如白色插槽不安装内存,而黑色插槽插安装内存,会导致对应内存通道中的所有内存被禁用。
· 硬件问题。比如内存接触不良,主板针脚及连接器损坏。
· 出现内存初始化错误。即在服务器启动阶段出现内存故障,此时会上报故障内存位置信息及错误类型。
· BIOS版本和CPU型号不匹配。
(1) 请通过兼容性系列查询工具检查内存及CPU是否符合服务器兼容性要求。
a. 通过服务器兼容的部件查询工具查询内存及CPU与服务器是否兼容。
b. 通过OS兼容性查询工具查询内存及CPU与服务器安装的操作系统是否兼容。
(2) 确保内存安装牢固、内存金手指没有弯曲,内存槽位中没有异物。
(3) 检查并调整内存的实际安装规则,使其符合系统要求的内存安装准则,比如内存对应的CPU是否在位、是否出现不同类型的内存混插。内存安装准则的详细信息,请参见产品用户指南。
(4) 更换所有在位内存。
(5) (可选)若现场服务器型号为R4900 G6,请检查服务器BIOS版本与服务器安装的CPU型号是否兼容,BIOS-6.00.XX不支持CascadeLake CPU。
(6) 检查处理器和主板针脚及内存插槽是否损坏。
(7) 若问题仍然存在,请联系技术支持。
· 如图7-87所示,HDM Web界面,事件日志提示内存被禁用。告警信息为“Memory Device Disabled--- The rank is disabled---Location:CPU:1 CH:5 DIMM:E0 Rank:1”。
图7-87 HDM内存Device Disabled告警
· 内存故障。
· BIOS中,内存对应的内存通道被设置为禁用状态。
(1) 确认服务器所使用的CPU类型:
¡ 对于Intel CPU服务器,如图7-88所示,若HDM告警信息中出现Memory Device Disabled,说明内存对应的内存通道设置为禁用状态了。请登录BIOS下选择Socket Configuration >Memory Configuration >IMC Configuration,确认内存通道是否被禁用。
图7-88 BIOS下将内存通道设置为启用状态
¡ 对于AMD CPU服务器,请登录BIOS下选择Advanced> North Bridge >Socket 1 Information查看内存状态。如图7-89所示,当有内存状态为Disabled时,请确认内存安装是否到位或者内存是否有故障。
(2) 若问题仍然存在,请联系技术支持。
· HDM Web界面,事件日志提示内存Faulty Parts Tracking故障时,内存的recevice enable信号无法调整出对应的时序,告警信息为“Parity---Memory receive enable training failed---Location:CPU:1 CH:1 DIMM:A0 Rank:0”。
图7-90 HDM内存Receive Enable告警
· HDM Web界面,事件日志提示内存Faulty Parts Tracking故障时,内存write leveling无法对应fly信号,时序不满足要求,告警信息为“Parity---Timing error occurred during signal line adjustment for memory write leveling training---Location:CPU:1 CH:1 DIMM:A0 Rank:1”。
图7-91 HDM内存Write Leveling告警
· HDM Web界面,事件日志提示内存Faulty Parts Tracking故障时,写方向的DQ和DQS无法调整出合理的时序,告警信息为“Parity---Memory write DqDqs training failed---Location:CPU:1 CH:1 DIMM:A0 Rank:0”。
图7-92 HDM内存Write DqDqs告警
· DIMM安装规则,不符合系统要求的内存安装准则。
· 内存金手指受到污染或沾灰。
· 内存故障。
· 主板内存槽位故障。
(1) 检查内存金手指是否被氧化,内存槽位是否有异物或灰尘,如有异常,请清洁后再重新安装内存。
(2) 检查并调整内存的实际安装规则,使其符合系统要求的内存安装准则,比如内存对应的CPU是否在位、是否出现不同类型的内存混插。内存安装准则的详细信息,请参见产品用户指南。
(3) 根据HDM告警信息定位出异常内存的位置,将其与正常内存交叉验证。如果故障仍然存在,说明内存插槽故障,请更换主板;如果故障消失,说明内存故障,请更换内存。
(4) 若问题仍然存在,请联系技术支持。
如图7-93所示,HDM Web界面,事件日志提示内存兼容性错误,告警信息为“POST Error--- DIMM Compatible Error(0x01,0xED)”。
图7-93 HDM内存兼容性告警
如图7-94所示,RDIMM和LRDIMM混插时,BIOS界面会产生对应告警提示。
图7-94 BIOS界面RDIMM和LRDIMM混插告警
(2) 请通过兼容性系列查询工具检查该内存是否符合服务器兼容性要求。若不符合兼容性要求,请更换内存。
a. 通过服务器兼容的部件查询工具查询内存与服务器是否兼容。
b. 通过OS兼容性查询工具查询内存与服务器安装的操作系统是否兼容。
系统运行过程中出现内存可纠正错误告警,如图7-95所示。需要注意的是,系统运行中,出现单个内存可纠正错误时,不会立刻产生告警。只有当单个内存的可纠正错误的数量达到设定的阈值后,HDM才会出现告警。
· 内存初始化阶段检测到可纠正错误。
· 内存运行阶段,检测到单个内存的可纠正错误次数达到阈值。
不影响操作系统正常运行,无需处理。
如所示,系统运行过程中出现的内存不可纠正错误告警,可以精确到DIMM。此这时,系统会根据处理器对内存不可纠正错误的策略来决定处理方式,包括系统重启或挂死。
· 内存故障。
· 内存从属CPU或其底座故障。
· 主板内存槽位故障。
(1) 根据HDM Web界面,事件日志中内存故障告警提示信息,定位故障内存槽位。
(2) 将故障内存安装到其他内存通道,进行交叉验证。如果故障现象跟随内存出现,说明内存故障,请更换内存;如果故障依然在原内存插槽,请检查内存插槽,若有明显的损伤,说明内存插槽故障,请更换主板。
(3) 使用同型号CPU进行交叉验证,检查CPU及其底座是否存在故障。
¡ 若故障跟随原有CPU,说明CPU故障,请更换。
¡ 若故障跟随主板,说明CPU底座上的针脚损伤,请更换主板。
(4) 若问题仍然存在,请联系技术支持。
如图7-97所示,HDM Web界面上,事件日志显示内存未经过认证,告警信息为“Memory is not certified ---Last boot error-Location: CPU:1 MEM CTRL:1 CH:1 DIMM:1 A1”。
该内存没有经过H3C认证。
(1) 更换内存,确保内存经过H3C认证。
(2) 若问题仍然存在,请联系技术支持。
· 在操作系统下查看,发现内存总容量小于实际安装的物理内存总容量。
· 如图7-98所示,HDM Web界面上,查看内存总容量,发现小于实际安装的物理内存总容量。
图7-98 HDM内存信息查看界面
· 内存故障导致系统无法识别内存。
· 内存金手指接触不良,存在沾灰等现象。
· 服务器和内存型号不兼容。
· BIOS下设置了内存模式为Mirror Mode 或Memory Rank Sparing。
· 内存安装规则,不符合系统要求的内存安装准则。
· 主板故障。
内存容量查看方式:
· 操作系统:
¡ Windows操作系统下,点击开始 > 运行,输入msinfo32,在弹出的页面查看内存容量。
¡ Linux操作系统下,可通过cat /proc/meminfo命令查看。
· HDM:
登录HDM Web界面,查看新安装内存的容量。具体操作请参见HDM联机帮助。
· BIOS:
¡ Intel CPU服务器:选择Socket Configuration页签 > Memory Configuration > Memory Topology,然后按Enter,即可查看新安装内存的容量。
¡ AMD CPU服务器:选择Advanced>North Bridge>Socket 1 Information (Socket 2 Information),即可查看新安装内存的容量。
确认内存容量异常后,请按如下步骤进行处理:
(1) 将HDM Web界面中显示的内存容量,与实际物理内存容量对比,定位出异常内存的位置。
(2) 将服务器下电,重新插拔异常内存,并尝试用酒精擦拭该内存的金手指。
(3) 检查并确保内存插槽正常,干净无异物。
(4) 请通过兼容性系列查询工具检查该内存是否符合服务器兼容性要求。
a. 通过服务器兼容的部件查询工具查询内存与服务器是否兼容。
b. 通过OS兼容性查询工具查询内存与服务器安装的操作系统是否兼容。
(5) 检查BIOS中,是否设置了内存模式为Mirror Mode 或Memory Rank Sparing。这两种内存模式设置了内存冗余或备份,所以内存总容量小于物理内存总容量是正常的。
图7-99 BIOS中设置内存模式
(6) 检查并调整内存的实际安装规则,使其符合系统要求的内存安装准则,比如内存对应的CPU是否在位、是否出现不同类型的内存混插。内存安装准则的详细信息,请参见产品用户指南。
(7) 检查HDM的事件日志是否产生内存告警,根据告警信息定位和处理对应的内存问题。如有需要,请联系技术支持。
图7-100 HDM事件日志中的内存告警
PMem(Persistent memory,持久内存)包括DCPMM内存(即PMem 100)和PMem 200内存。
· 做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。
· 检查内存金手指和插槽,确保金手指没有弯曲、插槽中没有异物。
· 不同规格(类型、容量、Rank、数据宽度、频率)的DRAM不支持混插,不同规格的PMem不支持混插。即一台服务器上配置的所有DRAM产品编码必须相同,所有PMem产品编码必须相同。
· DRAM和PMem尽量分布在不同的通道上,以提升内存访问带宽。
· BIOS的POST界面显示告警信息,如图7-101所示。
图7-101 PMem内存插法错误告警(示例)
· HDM中动态监视日志错误信息,如图7-102所示。
图7-102 查看HDM健康日志(示例)
(1) 根据PMem安装准则,排查PMem内存的安装是否完全符合内存安装准则。
(1) 确认按照内存安装准则安装所有PMem,内存安装准则请参见产品用户指南。
(2) 服务器上更换了的PMem后,请先备份之前安装的PMem上所有的永久内存数据,并再重新创建目标配置。需要注意的是,目标配置创建过程将删除所选CPU上PMem中存储的所有命名空间、区域和数据,请谨慎操作。
(3) 查看所有PMem的固件版本是否相同,查看位置如所示。如存在差异,请更新差异PMem的固件版本。如相同,请执行步骤(4)。
(1) 将不显示的PMem更换为新的PMem内存,并更新到相同固件版本,保证所有PMem固件版本相同。
· 为避免损坏CPU或主板,只有H3C授权人员或专业的服务器工程师才能安装CPU。
· 请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。
· 请确保CPU 1始终在位,否则服务器无法运行。
· 请确保同一服务器上安装的CPU型号相同。
· 为避免CPU底座中针脚损坏,请确保在未安装CPU的底座中安装了CPU底座盖片。
· 请检查CPU底座,确保针脚没有损坏。该针脚极为脆弱,容易损坏,请勿触摸;同时请保持针脚清洁,避免任何杂物掉落到CPU底座。
· 拆卸CPU底座盖片时佩戴的防静电手套容易触碰到CPU底座中的针脚,请格外小心。
HDM Web界面中,出现CPU Configurantion Error事件日志告警。
· 告警中,若ErrorType显示“Fatal”,则为不可纠正错误,会引起服务器重启。比如“Configuration error---CPU core errors--ErrorType:Unknown--Fatal Error---Location: Processor:1 core MCA bank: integrated I/O controller”。
· 告警中,若ErrorType显示“Corrected/Correctable”,或不打印ErrorType字段,则为可纠正错误,不会引起服务器重启。比如“Configuration error---CPU core errors---Location: Processor:1 core MCA bank: integrated I/O controller”。
CPU Configurantion Error事件日志告警包括以下几种。
· CPU UPI 错误
HDM Web界面,事件日志告警信息为“Configuration error ---CPU UPI errors ---Location: Processorr:$1 UPI port number:$2”。
· VT-D错误
HDM Web界面,事件日志告警信息为“Configuration error ---Location: Processor:$1---IIO Stack number: $2 -- Current/Last Boot $3”。
· CPU core错误
HDM Web界面,事件日志告警信息为“Configuration error ---CPU core errors --- ---Location: Processor:$1 core MCA bank: $2”。
· 网卡固件/驱动版本过低或和操作系统不兼容。
· HDM和BIOS版本过低。
· 服务器机房环境变化或者业务负载的波动,CPU为了适应并确保高速处理数据,进行参数矫正或者出现可纠正的错误报警,该情况属于正常现象,用户无需任何处理。
· CPU故障。
· CPU访问部件出现访问数据错误。部件包括内存、网卡、GPU卡、存储控制卡等。
(1) 针对HDM事件日志中Cpu Configuration Error的VT-D错误,先查看事件日志是否上报网卡的故障,若出现网卡故障,请按照如下步骤排查是否存在兼容性问题。若兼容则更新网卡固件及驱动到最新版本,若不兼容则更换网卡。
a. 通过服务器兼容的部件查询工具查询网卡与服务器是否兼容。
b. 通过OS兼容性查询工具查询网卡与服务器安装的操作系统是否兼容。
(2) HDM事件日志中除VT-D错误外其他的Configuration Error,请查看问题时间点附近的HDM事件日志,确认服务器是否出现异常重启。
¡ 若服务器发生异常重启,请联系技术支持。
¡ 若只有Configuration Error的告警,业务正常运行且服务器并未发生重启,建议升级HDM到1.11.35P02及以后版本,同时升级配套BIOS版本。BIOS配套版本,请参见HDM版本说明书。
当服务器上任一CPU出现不可纠正错误,CPU内部机制会使系统自动重启。所以看到的现象一般表现为系统异常重启,且这种错误通常是概率性的。
CPU相关的MCA(Machine Check Architecture,硬件错误检测架构)告警如下:
· MCA错误上报。HDM Web界面,事件日志告警信息如图7-105所示,MCA错误告警一般以“MSMI/CATERR IERR/MCERR”为标志性日志信息。
图7-105 MCA告警日志
· CPU故障。
IFU(instruction fetch unit,CPU内部寻指令单元)、DCU(data cache unit,CPU内部L1级数据缓存单元)、DTLB(data translation look-aside buffer,CPU内部数据传输旁路缓存单元)、PCU(power control unit,CPU及周边IO的电源管理单元)、IIO(integrated I/O controller,集成输入输出接口)、CHA(coherency and home agent,数据一致性管理模块)和UPI(ultra path interconnect,超级互联接口)异常均可产生MCA错误。
· 由于外部因素引起的CPU错误上报。
¡ 部件硬件故障导致CPU访问出错,比如内存、PCIe卡、主板等异常,导致MCA故障上报。
¡ 软件类访问引起的故障,例如网卡及存储控制卡驱动异常,导致CPU访问数据错误并上报MCA。
(1) 偶发性出现MCA告警,请联系技术支持。反复出现MCA告警,建议进行服务器最小化测试,服务器最小化配置请参见4.4 明确服务器最小化硬件配置章节。
¡ 若问题复现,说明CPU、内存或主板部件故障,执行步骤(2)。
¡ 若问题没有复现,说明其他部件故障,如存储控制卡,请联系技术支持排查。
(2) 使用一颗同型号CPU进行CPU交叉验证。
¡ 若发现故障跟随原CPU出现,说明该CPU故障,请更换CPU。
¡ 若故障不跟随原CPU出现,说明该CPU正常,请联系技术支持排查内存及主板部件问题。
当服务器上任一CPU出现不可纠正错误,CPU内部机制会使系统自动重启。所以看到的现象一般表现为系统异常重启,且这种错误通常是概率性的。
CPU相关的MCA(Machine Check Architecture,硬件错误检测架构)告警有以下几种:
(1) MCA错误上报。HDM Web界面,事件日志告警信息如图7-106所示,MCA错误告警一般以“Machine Check Exception”为标志性日志信息。
图7-106 MCA告警日志
(2) XGMI错误。HDM Web界面,事件日志告警信息如图7-108所示,此时传感器状态更改为紧急并上报一条状态日志。
· CPU故障。如LS、IF、L2、DE、EX、FP和L3异常均可产生MCA错误。
¡ 部件硬件故障导致CPU访问出错,比如内存、PCIe卡、主板等异常,导致MCA故障上报。
¡ 软件类访问引起的故障,例如网卡及存储控制卡驱动异常,导致CPU访问数据错误并上报MCA。
(1) 偶发性出现MCA告警,请联系技术支持。反复出现MCA告警,建议进行服务器最小化测试,服务器最小化配置请参见4.4 明确服务器最小化硬件配置章节。
¡ 若问题复现,说明CPU、内存或主板部件故障,执行步骤(2)。
¡ 若问题没有复现,说明其他部件故障,如存储控制卡,请联系技术支持排查。
(2) 使用一颗同型号CPU进行CPU交叉验证。
¡ 若发现故障跟随原CPU出现,说明该CPU故障,请更换CPU。
¡ 若故障不跟随原CPU出现,说明该CPU正常,请联系技术支持排查内存及主板部件问题。
CPU温度过高,温度传感器感知到CPU实际温度超过设定的阈值,触发了HDM事件日志告警,。
· Thermal trip告警。如图7-109所示,CPU内核温度过高触发紧急告警,一般表现为操作系统关机。
· HDM风扇模式设置不当或者风扇故障,导致服务器温度上升。
· 现场服务器运行环境温度超过规格温度。
· CPU的业务量不稳定,时大时小,造成温度瞬间过高。
· CPU或者温度传感器异常误告警。
· 服务器进出风口堵塞。
(1) HDM Web界面,[信息/传感器信息/风扇]菜单项,确认风扇状态是否正常。是则执行步骤(2),否则插拔或者更换异常的风扇模块。
(3) 查看系统业务量是否过大,关闭非紧急业务以降低业务承载。
(4) 检查服务器运行环境温度是否正常,将服务器运行环境温度控制在其正常工作温度范围内。服务器工作环境参数请参见产品用户指南。
(5) 检查进出风口是否堵塞,移除阻塞物。
(6) 将服务器下电,检查CPU散热器是否接触不良,重新涂抹导热硅脂后安装散热器并上电。
(7) 若问题仍然存在,请联系技术支持。
· 如图7-110所示,BIOS界面根据异常原因显示为UPI不匹配、CPU Stepping不匹配、CPU频率不匹配告警。
· 如图7-111所示,HDM Web界面,显示“UPI Topology mismatch is detected”。
图7-110 BIOS中UPI不匹配告警(示例)
图7-111 HDM中CPU不匹配告警
· 在位CPU型号不一致。
· CPU故障。
(1) HDM Web界面,[信息/硬件信息/处理器]菜单项,确认CPU型号是否一致。若型号不一致,则更换CPU为一致型号;若型号一致,则执行步骤(2)。
(2) HDM Web界面,[信息/硬件信息/处理器]菜单项,检查是否有CPU不识别的情况。若不识别则重新安装对应CPU;若正常识别或重新安装后仍然无法识别,请联系技术支持。
服务器空载的情况下,CPU负载率较高。如图7-112所示,服务器安装了CentOS 7.3操作系统,空载时系统卡顿,通过Linux内置的top命令查询CPU负载率,发现wa(wait)值过高。
图7-112 CPU负载率过高
· 存储控制卡PMC HBA-1000驱动版本过低。
· 其他未知原因。
(1) 检查服务器上是否安装了产品型号为PMC HBA-1000的存储控制卡。是,则更新驱动到最新版本,更新示例请参见步骤7.12.7 3. (2);否,则联系技术支持。
(2) 示例:在CentOS 7.3操作系统下更新PMC HBA-1000存储控制卡驱动。
a. 检查存储控制卡驱动版本。通过cat /sys/module/aacraid/version命令或modinfo aacraid可以查看。
b. 从H3C官网获取PMC HBA卡兼容的最新驱动版本,如图7-113所示通过rpm命令完成驱动安装后,重启操作系统。
图7-113 rpm命令安装HBA卡驱动
c. 再次查看CPU负载率,观察是否恢复正常。若问题仍然存在,请联系技术支持。
图7-114 top命令查看CPU负载
漏洞扫描工具扫描到CPU存在安全漏洞问题。例如2018年1月,Intel开始处理“侧信道攻击”安全隐患漏洞。该漏洞导致当受到恶意攻击时,存在敏感数据泄露的隐患。自此,Intel不断探索相关潜在漏洞并持续更新微码,解决漏洞。
H3C会及时跟进Intel的微码更新,同步更新BIOS固件版本(包含Intel发布的微码版本)。
· CPU微码缺陷。
· 服务器遭到恶意攻击。
· 其他未知原因。
(1) 升级BIOS到H3C官网最新版本。
(2) 安装操作系统最新版本补丁。补丁获取及其安装方法请参见当前操作系统官方网站。
(3) 升级浏览器到最新版本。
(4) 若问题仍然存在,请联系技术支持。
· BIOS Setup中检测到TPM不在位或不可启用。
· 操作系统下检测到TPM异常或不可用。
· TPM/TCM设备故障。
· BIOS Setup中未正确配置TPM。
· 没有设置正确的BIOS启动模式,Legacy模式下仅支持TPM 1.2运行模式,不支持TPM 2.0。
· 针对TCM模块,未额外安装驱动程序。
(1) 确认系统中TPM/TCM已安装到位。
(2) 启动进入BIOS Setup,确认TPM已经启用或TCM处于Active 状态。
(3) 在安装有TPM 2.0时,确认服务器启动模式为UEFI引导模式。
(4) 确认TPM的固件版本已经更新至最新,如图7-115所示。
图7-115 查看TPM固件版本号
(5) 重新引导操作系统。基于所使用的操作系统发行版本,检查并确认TPM/TCM配置正常。
(6) 如使用TCM模块,请检查并确认TCM模块的驱动程序正常。
(7) 如操作系统中提示:“TPM已可使用,但功能有所缺失”,可能是由于TPM在未进行清除的情况下重新安装了系统,请执行以下操作。
清除TPM会将其重置为无主状态。清除TPM可能会导致数据丢失。为避免数据丢失,请确保您拥有TPM保护或加密的任何数据的备份或恢复方法。
a. 清除TPM,完成TPM初始化流程。
b. 检查BIOS Setup配置,确保相应的TPM配置正确。
c. 如问题仍然存在,重新清除TPM并重新加载操作系统。
当HDM的传感器监测到系统电池电量不足或耗尽时,会产生“严重”告警,并上报一条HDM事件日志,如图7-116所示。
系统电池电量不足或耗尽。
(1) 将服务器安全下电。
(2) 使用防静电手套更换系统电池,更换步骤和注意事项请参见服务器用户指南中的“更换系统电池”章节。
(3) 将服务器安全上电,登录HDM Web界面,进入“事件日志”页面查看告警日志是否解除。
(4) 如果告警依然存在,请联系技术支持。
· 服务器无法正常工作,比如:无法启动、开机初始化卡死。
· 如下图7-117所示,HDM Web界面,“事件日志”菜单项中显示主板存在告警事件。
图7-117 HDM Web中主板故障告警信息(示例)
主板出现故障。
(1) (可选)如果在服务器正常运行时进行了高危操作(例如:直接插拔非热插拔PCIe卡、强制下电等)而导致服务器无法启动,请先将服务器下电,拆卸主板上的系统电池,等待1分钟后,将系统电池重新安装到主板,然后将服务器上电。若故障仍然存在,请执行步骤(2)。
(2) 在HDM Web界面的[健康诊断/事件日志]菜单项中,检查除主板告警信息外,是否同时存在其他部件的告警信息,比如网卡、存储控制卡、电源模块、硬盘背板等部件。
¡ 若存在其他部件的告警信息,请检查相应部件是否存在未安装到位的情况。
- 若存在,请将该部件重新安装到位,并确保线缆连接稳固、无误。
- 若不存在,请通过交叉验证的方法,确认故障是否由该部件引起。若故障跟随该部件,说明该部件故障,请更换;若故障不跟随该部件,说明故障与该部件无关,请继续定位,执行步骤(3)。
¡ 若不存在其他部件的告警信息,请执行步骤(3)。
¡ 若问题解决,说明原主板故障,请更换。
¡ 若问题仍然存在,请收集HDM SDS日志,并联系技术支持。
硬盘正常的情况下出现了如下现象:
· 部分或所有硬盘无法被BIOS正常识别。
· HDM Web界面中无法显示部分或所有硬盘的信息。
· 如图7-118所示,硬盘背板上的电源指示灯不亮。需要注意的是,不同硬盘背板的电源指示灯所在位置和颜色可能有所不同,请以实际情况为准。
· 硬盘背板上的线缆未正确连接或未连接到位。
· 硬盘背板未正确安装到位。
· 硬盘背板故障。
· 硬盘扩展板上的线缆未正确连接或未连接到位。
· 硬盘扩展板未正确安装到位。
· 硬盘扩展板故障。
· 存储控制卡或NVMe SSD扩展卡端的线缆连接松动。
· 硬盘背板CPLD异常。
(1) (可选)通过HDM更新硬盘背板的CPLD版本。
(2) 检查并确保硬盘背板上的接口、背板连接到主板上的接口均完好无损坏。
(3) 检查并确保硬盘背板正确安装到位、相关线缆正确连接、稳固无松动。硬盘背板及其线缆的正确连接方法,请参见产品用户指南。
(4) (可选)如果该故障硬盘背板与硬盘扩展板配合使用,请检查硬盘扩展板。
a. 确保硬盘扩展板正确安装到位、相关线缆正确连接、稳固无松动。硬盘扩展板及其线缆的正确连接方法,请参见产品用户指南。
b. 确保硬盘扩展板上的接口完好无损坏,扩展板与硬盘背板之间的接口正确连接、稳固无松动
c. 使用正常工作的同型号硬盘背板扩展板,进行交叉验证。若问题解决,说明硬盘扩展板故障,请更换;若问题仍然存在,说明该故障与硬盘扩展板无关,请执行步骤(5)。
¡ 若问题解决,说明原硬盘背板存在故障,请更换。
¡ 若问题仍然存在,请联系技术支持。
· 操作系统下识别不到通过智能挂耳上的USB接口或专用管理接口连接的设备(比如键盘、鼠标、U盘),无法进行设置和操作。
· BIOS中识别不到通过智能挂耳上的USB接口或专用管理接口连接的设备(比如键盘、鼠标、U盘),无法进行设置和操作。
· BIOS中未开启智能挂耳上的USB接口的功能,此时任何连接至智能挂耳上的设备将会被禁用。
· 外接设备故障。
· 挂耳线缆未正确安装到主板上或线缆连接松动。
· 挂耳故障。
· 主板上连接智能挂耳的IO接口故障。
(1) 在BIOS中开启智能挂耳上的USB接口的功能,本文以R4900 G3服务器为例。
a. 在服务器开机后,按Del或者Esc进入BIOS Setup界面,选择Platform Configuration > PCH-IO Configuration > Chipset USB Configuration,将USB Per-connector Disable选项设置为Enabled,如图7-119所示。
图7-119 在BIOS Setup界面下将USB Per-connector Disable选项设置为Enabled(R4900 G3)
b. 将以下选项卡均设置为Enabled,表示已开启所有智能挂耳上的USB接口的功能。如图7-119所示。
- Front Left Top USB Port 2.0 Capability(前部左挂耳顶端USB 2.0功能配置)。
- Front Right USB Port 2.0 Capability(前部右挂耳USB 2.0功能配置)。
- Front Right USB Port 3.0 Capability(前部右挂耳USB 3.0功能配置)。
c. 按F4保存设置,重启服务器,确保设置生效。
(2) 将接入的设备替换为正常工作的设备,进行交叉验证。
¡ 若问题解决,说明该设备故障,请更换。
¡ 若问题仍然存在,请执行步骤(3)。
(3) 检查并确保挂耳正确安装到位,线缆正确安装到主板、且连接稳固无松动。
(4) 挂耳线缆连接到主板接口上,请检查并确保该接口针脚无异常。
(5) 使用正常工作的同型号挂耳,进行交叉验证。
¡ 若问题解决,说明原挂耳故障,请更换。
¡ 若问题仍然存在,请联系技术支持。
SD卡无法被BIOS识别。
· SD卡扩展模块未安装到位。
· SD卡扩展模块上存在异物。
· SD卡未安装到位。
· SD卡故障。
· 主板上SD卡槽位故障。
(1) 检查SD卡扩展模块的安装情况。SD卡扩展模块没有安装到位会导致接触不良,从而无法被识别,此时请拆卸SD卡扩展模块,清理并确保SD卡扩展模块干净、无异物附着,再重新安装,并通过HDM Web界面查看SD卡扩展模块是否被识别。
¡ 如图7-120所示,显示在位,说明该SD卡扩展模块已被识别,请执行步骤(2)。
¡ 如图7-121所示,显示不在位,说明该SD卡扩展模块依然未被识别,请使用正常工作的同型号SD卡扩展模块进行交叉验证。
- 若SD卡卡槽状态显示为在位,则说明原SD卡扩展模块故障,需要更换。请执行步骤(2)继续确认SD卡的识别情况。
- 若SD卡卡槽状态仍显示为不在位,则说明主板上SD卡槽位故障,请联系技术支持。
图7-120 HDM中显示SD卡扩展模块在位
图7-121 HDM中显示SD卡扩展模块不在位
(2) 请确保该SD卡能够被BIOS系统识别,查看是否被识别的操作步骤如下:
a. 在服务器开机后,按Del或者Esc进入BIOS Setup界面。
b. 如图7-122所示,选择Advanced > USB Configuration,查看该SD卡是否已被识别(示例中名为CYP RAIDUSB RAID LUN)。若未被识别,请执行步骤(3)。
图7-122 USB configuration选项卡下查看已识别到的SD卡
(3) 使用正常工作的SD卡,进行交叉验证。
¡ 若问题解决,说明原SD卡故障,请更换。
¡ 若问题仍然存在,请联系技术支持。
操作系统安装在SD卡上,服务器开机后操作系统无法从SD卡引导。
· BIOS中,SD卡没有被设置为第一启动项。
· SD卡中的操作系统被破坏。
· SD卡故障。
· 主板上SD卡槽位故障。
(1) 请确保SD卡可以被正常识别。若未被正常识别,解决方法请参见7.18.1 SD卡无法被识别。
(2) 服务器开机后,按F7进入Boot Menu界面,在该界面下查看SD卡是否存在以及是否为第一启动项。如图7-123所示,表示Boot Menu界面下SD卡存在(“CYP RAIDUSB RAID LUN”表示SD卡),且为第一启动项。
图7-123 Boot Menu界面下查看SD卡
¡ 如果SD卡存在,但不是第一启动项。请重启服务器,按Del或者Esc进入BIOS Setup界面,选择Boot > Fixed Boot Order Priorities > Boot Option #1,按下Enter,将SD卡作为第一启动项(SD卡属于Hard Disk启动项类别),如图7-124所示。
图7-124 将SD卡设置为第一启动项
¡ 如果SD卡存在且为第一启动项但无法引导或者SD卡不存在,说明SD卡中的操作系统被破坏,请重新安装操作系统。
(3) 若问题仍然存在,说明主板上SD卡槽位故障,请联系技术支持。
USB设备连接至服务器的任意USB接口上,均无法被BIOS或者操作系统识别。
通过智能挂耳连接的USB设备无法被识别请参见7.17.1 无法识别通过智能挂耳连接的设备。
· USB设备故障。
· BIOS下未开启服务器上的任意USB接口的功能,此时任何连接至这些接口上的USB设备将会被禁用。
· 主板上的USB接口故障。
(1) 在BIOS中开启服务器上所有USB接口的功能。(本文以R4900 G3为例)
a. 在服务器开机后,按Del或者Esc进入BIOS Setup界面,选择Platform Configuration > PCH-IO Configuration > Chipset USB Configuration,将USB Per-connector Disable选项设置为Enabled,如图7-125所示。
图7-125 在BIOS Setup界面下将USB Per-connector Disable选项设置为Enabled
b. 将显示的所有USB接口选项卡均设置为Enabled,表示已开启服务器上所有USB接口逇功能。
c. 按F4保存设置,重启服务器,确保设置生效。
(2) 将接入的该USB设备替换为正常工作USB设备,进行交叉验证。
¡ 若问题解决,说明该USB设备故障,请更换。
¡ 若问题仍然存在,说明主板上的USB接口故障,请联系技术支持。
操作系统安装在U盘上,服务器开机后操作系统无法从U盘引导。
· BIOS中未开启服务器上相应USB接口的功能,此时任何连接至该接口的USB将会被禁用。
· U盘故障。
· U盘中的操作系统被破坏。
· BIOS中,USB没有被设置为第一启动项。
· 主板上的USB接口故障。
(1) 在BIOS Steup界面下开启USB接口的功能,具体请参见7.19.1 USB设备无法被识别中的步骤7.19.1 3. (1)。
(2) 请在正常运行的同型号服务器上进行验证,确保该U盘未出现故障且是可引导的。
(3) 请确保该U盘能够被BIOS系统识别,查看是否被识别的操作步骤如下:
a. 在服务器开机后,按Del或者Esc进入BIOS Setup界面。
b. 选择Advanced > USB Configuration,查看该U盘是否已被识别,如图7-126所示。若未被识别,请尝试连接其他USB接口或更换U盘。
图7-126 USB configuration选项卡下查看已识别到的USB
(4) 重启服务器后,按F7进入Boot Menu界面,在该界面下查看U盘是否存在以及是否为第一启动项,以下图7-127举例,表示Boot Menu界面下U盘存在(“KingstonDataTraveler 3.0PMAP,Partition 1”表示U盘),且为第一启动项。
图7-127 Boot Menu界面下查看U盘
¡ 如果U盘存在,但不是第一启动项。请重启服务器,按Del或者Esc进入BIOS Setup界面,选择Boot > Fixed Boot Order Priorities > Boot Option #1,按下Enter,将U盘作为第一启动项(U盘属于Hard Disk启动项类别),如图7-128所示。
图7-128 将U盘设置为默认第一启动项
¡ 如果U盘存在且为第一启动项但无法引导或者U盘不存在,说明U盘中的操作系统被破坏,请重新安装操作系统。
(5) 若问题仍然存在,则说明主板的USB接口存在故障,请联系技术支持。
服务器是否支持光驱,请以实际情况为准。
SATA光驱无法被BIOS/操作系统识别。
· BIOS Setup界面下的sSATA Controller功能未开启。
· 光驱线缆或接口损坏、线缆连接松动导致链路异常。
· 主板上SATA接口的针脚弯曲。
· 光驱未正确安装或未安装到位。
· 光驱故障。
(1) 服务器开机后,按Del或者Esc进入BIOS Setup界面。在该界面下依次选择Platform Configuration -> PCH Configuration -> PCH sSATA Configuration,将sSATA Controller状态选项设置为Enabled状态,如图7-129所示。设置完毕后,按F4进行保存并将服务器重启。
图7-129 sSATA Controller状态选项设置为Enabled状态
(2) 确保光驱线缆及接口均完好无损坏,主板上SATA接口的针脚未发生弯曲。
(3) 确保光驱线缆跟主板上SATA接口已正确连接并且稳固无松动。
(4) 请将该光驱替换为新光驱进行交叉验证,确认新光驱能否被正常识别:
¡ 如果新光驱能被正常识别,则是该光驱存在故障,需要更换。
¡ 如果新光驱仍未被正常识别,则该故障与该光驱无关,请联系技术支持。
· BIOS Setup界面下的sSATA Controller功能未开启。
(1) 服务器开机后,按Del或者Esc进入BIOS Setup界面。在该界面下依次选择Advanced->AMD CBS->FCH Common Options->SATA Configuration Options,将SATA Enable状态选项设置为Enabled状态,如图7-130所示。设置完毕后,按F4进行保存并将服务器重启。
图7-130 SATA Configuration Options选项设置为Enabled状态
(2) 确保光驱线缆及接口均完好无损坏,主板上SATA接口的针脚未发生弯曲。
(3) 确保光驱线缆跟主板上SATA接口已正确连接并且稳固无松动。
(4) 请将该光驱替换为新光驱进行交叉验证,确认新光驱能否被正常识别:
¡ 如果新光驱仍未被正常识别,则该故障与该光驱无关,请联系技术支持。
GPU卡无法被操作系统识别。
· GPU电源线缆与GPU卡不匹配。
· GPU卡与Riser卡不匹配。
· Riser卡或Riser卡插槽故障。
· BIOS参数配置错误,导致操作系统无法识别GPU卡。
· BIOS固件版本不支持此GPU卡。
· GPU卡故障。
(1) 请确保GPU电源线缆与GPU卡型号匹配。匹配关系可通过产品用户指南查询。
(2) 请确保GPU卡与Riser卡型号匹配。可通过产品用户指南查询配套关系。
(3) NVIDIA GPU卡需在BIOS Setup > Advanced > PCI Subsystem settings中设置Above 4G Decoding的状态为Enabled。若状态为Disabled会导致HDM及操作系统无法识别GPU卡。
图7-131 设置Above 4G Decoding参数
(4) 查看BIOS固件版本,版本过低可能会导致HDM及操作系统无法识别GPU卡,请升级至H3C官网最新BIOS固件版本,升级后再次确认能否正常识别。
图7-132 查看BIOS版本
(5) 交叉验证,分别确认Riser卡、Riser卡插槽以及GPU卡是否故障。若存在故障,请更换对应部件。
(6) 若问题仍然存在,请联系技术支持。
图形未按预期显示。
· 服务器供电不足。
· GPU卡电源线缆未连接。
· 服务器不支持该GPU卡。
· GPU卡故障或未安装到位。
(1) 确保服务器中安装的电源模块所供应的电力及散热条件足以支持服务器配置。
(2) (可选)如果GPU卡的功率超过75W,请确保已连接GPU卡电源线缆。
确认当前显示设备连接的是板载VGA接口还是GPU卡。如图7-133所示,在BIOS界面中,进入BIOS Setup > Advanced >Platform Configuration > Miscellaneous Configuration > Miscellaneous Configuration界面。查看Active Video选项。
¡ Onboard Device:表示服务器通过板载VGA接口进行界面显示。
¡ PCIe Device:表示服务器通过PCIe设备GPU卡进行界面显示。
GPU卡是否可通过外部接口连接,请以实际情况为准。
图7-133 Miscellaneous Configuration界面
(3) 如果服务器通过GPU卡进行图形显示,请确保服务器、操作系统均兼容该GPU卡。
a. 通过服务器兼容的部件查询工具查询GPU卡与服务器是否兼容。
b. 通过OS兼容性查询工具查询GPU卡与服务器安装的操作系统是否兼容。
(4) 如果服务器通过板载VGA接口进行图形显示,请确认线缆连接是否正常。若线缆正常,则排查主板问题;若线缆异常,则更换线缆。
(5) 遍历排查所有在位GPU卡,确保GPU卡安装到位。
(6) 交叉验证,确认所有在位GPU卡是否故障。若故障请更换。
(7) 若问题仍然存在,请联系技术支持。
虚拟化业务场景下出现宕机、卡顿等情况,同时HDM上报GPU UCE故障。
· H3C UniServer R5300 G3
· H3C UniServer R5300 G5
· H3C UniServer R5500 G5
· H3C UniServer R4900 G5
· H3C UniServer R4700 G5
· H3C UniServer R4900 G6 Ultra
· H3C UniServer R4900 G6
· H3C UniServer R4700 G6
· H3C UniServer R5350 G6
· H3C UniServer R5300 G6
· H3C UniServer R5500 G6
GPU服务器未开启ACS CAP,导致服务器不支持虚拟化场景。
(1) 确认ACS CAP能力是否已开启。
使用lspci -vt命令找到SWITCH PCIe链路,找到如图7-134位置。
使用lspci -vvv命令查看SWITCH芯片ACS状态,ACS Cap下的各状态为“+”,表示能力enabled,为“-”表示能力为disabled。
图7-135 确认ACS CAP能力是否已开启
(2) 若ACS CAP能力未开启,请确认产品型号和HDM版本并联系技术支持,不同型号开启ACS CAP方式有所不同。
OS下GPU不识别,HDM上报PCIe设备不识别。
· H3C UniServer R5300 G3 8GPU机型
· H3C UniServer R5300 G5 8GPU机型
双宽GPU需要外加电源线,若从非我司渠道采购GPU和电源线,有可能将GPU转接板上保险丝烧毁,导致GPU不识别。
(1) 通过我司标准渠道采购GPU和对应GPU的电源线。
(2) 保险丝如果已经烧毁,需要重新更换GPU节点板。
服务器上电后,屏幕黑屏超过60秒。
· 显示器电源线连接不良。
· 显示器、KVM设备和服务器之间线缆连接不良。
· 显示器进入休眠状态。
· 服务器不支持当前GPU卡。
· GPU卡驱动版本过低。
· Riser卡、GPU卡未安装到位。
· 服务器供电不足。
· GPU电源线缆未连接。
(1) 检查显示器和服务器的电源线连接,若显示器和服务器相应的指示灯亮则表明连接正确。
(2) 检查显示器和服务器之间的VGA线缆连接,确认连接正确可靠;如果服务器和显示器之间通过KVM设备相连,请检查两者与KVM设备之间连接是否正确可靠。
(3) 交叉验证,确认显示器功能正常,且在正常工作状态,未进入休眠模式。
(4) 如果服务器通过板载VGA接口进行图形显示,请确认线缆连接是否正常。若线缆正常,则排查主板问题;若线缆异常,则更换线缆。
(5) 如果服务器通过GPU卡进行界面显示,请确保服务器、操作系统均兼容该GPU卡。
a. 通过服务器兼容的部件查询工具查询GPU卡与服务器是否兼容。
b. 通过OS兼容性查询工具查询GPU卡与服务器安装的操作系统是否兼容。
(6) 升级GPU卡驱动版本到H3C官网最新版本。
(7) 确认服务器上的Riser卡和GPU卡安装到位,且供电符合要求。
(8) 若问题仍然存在,请联系技术支持。
服务器上电后,启动异常且黑屏。
· 服务器外部供电不足。
· 内存安装位置错误。
· 服务器故障。
· 显示器故障。
(1) 检查本故障发生时服务器前面板指示灯(包括Health指示灯等)是否都不亮,同时HDM无法连接,如果是,请先按照7.2.1 指示灯不亮章节进行处理。
(2) 观察服务器Health指示灯是否存在异常。若Health指示灯显示系统出现问题,请通过HDM查看系统运行状态。
(3) 请确保内存安装符合服务器的内存安装准则,安装准则请参见产品用户指南。错误的安装位置会导致服务器启动异常。
(4) 采用交叉验证的方法,确认服务器或显示器是否故障。
¡ 若故障现象跟随显示器出现,则更换显示器。
¡ 若故障现象跟随服务器出现,请联系技术支持确认服务器问题。
· 将显示器连接到正在运行的服务器上,显示器黑屏。
· 启动服务器中的某些应用程序时,显示器突然黑屏。
· 显示器电源线连接不良或供电不符合要求。
· 显示器与服务器之间的VGA线缆连接不良。
· 显示器亮度、对比度未正确设置。
· 显示器故障。
· 服务器故障。
(1) 检查显示器的外部供电,确保供电正常,若显示器的指示灯亮则表明连接正确。
(2) 检查显示器和服务器之间的VGA线缆,确保连接正确可靠。
(3) 调节显示器的亮度和对比度,确认故障是否仍然存在。是,则执行步骤(4)。
(4) 将服务器下电,然后重新上电,确认故障是否存在。是,则执行步骤(5)。
¡ 若故障现象跟随显示器出现,则更换显示器。
¡ 若故障现象跟随服务器出现,请联系技术支持确认服务器问题。
显示器的屏幕图像抖动、滚动或扭曲。
· 显示器与服务器之间的VGA线缆连接不良。
· 显示器受强磁场设备干扰。
· 显示器故障。
· 服务器故障。
(1) 检查显示器和服务器之间的VGA线缆,确保连接正确可靠。
(2) 检查周围环境,使显示器远离其他显示器或电源变压器等强磁场设备。
(3) 对服务器下电,然后重新对服务器上电,观察故障是否复现。服务器的上、下电详细操作请参见产品用户指南。
(4) 采用交叉验证的方法,确认服务器或显示器是否故障。
¡ 若故障现象跟随显示器出现,则更换显示器。
¡ 若故障现象跟随服务器出现,请联系技术支持确认服务器问题。
显示器上显示的视频或图片颜色不正常。
· 显示器的分辨率与服务器VGA接口的分辨率不兼容。
· 服务器和显示器之间的VGA线缆连接不良。
· 显示器故障。
· VGA线缆故障。
(1) 确保显示器分辨率与服务器的VGA分辨率兼容。
(2) 检查显示器和服务器之间的VGA线缆,确保连接正确可靠。
(3) 采用交叉验证的方法,确认显示器或VGA线缆是否故障。
¡ 若故障跟随显示器出现,则更换显示器。
¡ 若故障跟随VGA线缆出现,则更换VGA线缆。
(4) 若问题仍然存在,请联系技术支持。
显示器上显示缓慢移动的水平线。
· 受强磁场设备干扰。
· 显示器故障。
· VGA线缆故障。
(1) 检查周围环境,使显示器远离其他显示器或电源变压器等强磁场设备。
(2) 采用交叉验证的方法,确认显示器或VGA线缆是否故障。
¡ 若故障跟随显示器出现,则更换显示器。
¡ 若故障跟随VGA线缆出现,则更换VGA线缆。
(3) 若问题仍然存在,请联系技术支持。
操作系统无法识别鼠标或键盘。
· 鼠标或键盘故障。
· 服务器上,连接鼠标或键盘的USB接口故障。
· BIOS中未开启连接鼠标或键盘的USB接口配置功能,此时任何连接至该接口的USB设备将会被禁用。
· 未安装USB驱动。
(1) 在BIOS Steup界面下开启USB配置功能,具体请参见7.19 USB设备问题中的步骤7.19.1 3. (1)。
(2) 使用正常工作的同型号鼠标或键盘,进行交叉验证。
¡ 若问题解决,说明原鼠标或键盘故障,请更换。
¡ 若问题仍然存在,请执行步骤(3)。
(3) 服务器开机后,按Del或者Esc进入BIOS Setup界面,选择Advanced -> USB Configuration,查看USB Devices信息,检查相应设备是否在位,如图7-136所示。若在位,请执行步骤(4);若不在位,请执行步骤(5)。
(4) 检查并安装USB最新驱动。
处理网卡故障前,请确保该网卡符合服务器及操作系统兼容性要求,请通过兼容性系列查询工具检查该网卡是否符合服务器兼容性要求。
新安装的网卡无法正常工作。
· PCIe连接问题。
· 网卡不兼容已安装的光模块,或光模块/线缆安装不到位。
· 网卡、线缆、光模块或其他部件如Riser等发生故障。
· 服务器硬件配置问题,如槽位不匹配、CPU不在位等。
· 网卡的固件或驱动版本过低。
· 网卡与服务器不兼容。
· 网卡的固件或驱动版本与操作系统不兼容。
(1) 请通过兼容性系列查询工具检查该网卡是否符合服务器兼容性要求。
a. 通过服务器兼容的部件查询工具查询网卡与服务器是否兼容。
b. 通过OS兼容性查询工具查询网卡与服务器安装的操作系统是否兼容。
c. 若该网卡符合服务器兼容性要求,则进行步骤(2);否则请更换符合服务器兼容性要求的网卡。
(2) 进入BIOS。在服务器启动过程中,根据提示按下Delete或Esc进入BIOS Setup界面。
(3) 确认网卡是否被BIOS识别,不同的启动模式下识别方式有所不同。
¡ UEFI启动模式:在Advanced页签查看是否有网卡配置项。
图7-137 UEFI模式下网卡配置项
¡ Legacy启动模式:查看POST阶段是否有网卡打印信息。
图7-138 Legacy模式下POST阶段网卡打印信息
(4) 将网卡的固件和驱动升级为满足兼容性要求的H3C官网最新版本。若问题仍存在,则执行步骤(5)。
(5) 若网卡能被BIOS识别,则继续以下步骤排查故障原因,否则请执行步骤(6)。
¡ 确保PCIe连接正常。
¡ 检查金手指、插槽及接口的物理形态是否正常。
¡ 若是支持NCSI功能的PCIe卡,需检查NCSI线缆与主板连接是否正常。
¡ 检查网卡和光模块的兼容性。
¡ 使用正常工作的光模块进行交叉验证。
¡ 检查网卡的固件和驱动是否为H3C官网最新版本。
(6) 若网卡不能被BIOS识别,则表示网卡或槽位发生硬件故障,请交叉验证,定位故障部件并更换。
(7) 若问题仍然存在,请联系技术支持。
操作系统下网卡端口不可见。
· PCIe连接问题。
· 网卡的固件或驱动版本过低。
· 网卡不兼容已安装的光模块,或光模块/线缆安装不到位。
· 网卡、线缆、光模块或其他部件如Riser等发生故障。
· 服务器硬件配置问题,如槽位不匹配、CPU不在位等。
(1) 操作系统下查看网卡的PCI设备信息。如果操作系统下无法显示网卡的PCI设备信息,请执行步骤(2);如果系统下可显示网卡的PCI设备信息,但网卡端口不可见,请执行步骤(3)。
¡ Linux操作系统
a. 执行“lspci | grep Eth”命令,查看网卡的PCI设备信息。
图7-139 Linux下查看PCI设备信息
b. 执行“ifconfig -a”命令查看网卡端口(端口名称由OS命名规则决定),表示网卡的端口已被识别。
¡ Windows操作系统
a. 如图7-141所示,打开“Network Connections”,可查看到网卡信息,则网卡已正常识别。
图7-141 Windows下查看网卡
b. 如果在“Network Connections”中看不到相应的网络适配器,则打开“Device Manager”。在“Network adapters”的“Other devices”中查看是否存在Ethernet Controller或Unknown device,如图7-142所示。
(2) 操作系统下无法显示网卡的PCI设备信息,请执行以下操作:
a. 确保网卡的PCIe插槽所属的CPU在位。PCIe插槽和CPU的归属关系,请参见产品用户指南。
b. 服务器断电重启,确认问题是否必现。
c. 对换不同PCIe槽位和网卡,进行交叉验证,判断是否是网卡或PCIe槽位的问题。如果为某部件问题,请更换该部件。
d. 如果网卡支持NCSI功能,请确保NCSI线缆与主板连接正常。
(3) 操作系统下可显示网卡的PCI设备信息,但是无网卡端口显示,请执行以下操作:
a. 确保网卡和光模块的兼容性符合要求。网卡和光模块的兼容性请联系技术支持确认,若兼容性不满足要求,请更换光模块。
b. 使用正常工作的光模块进行交叉验证。
c. 将网卡的固件和驱动升级为满足兼容性要求的H3C官网最新版本,检查更新过程中是否有报错以及操作系统日志是否存在驱动报错打印。
(4) 若问题仍然存在,请收集故障时的操作系统日志并联系技术支持。
网卡端口不通。
· 网络或上联交换机配置问题。
· 网卡不兼容已安装的光模块,或光模块/线缆安装不到位。
· 网卡、线缆、光模块或其他部件如Riser等发生故障。
· 网卡的固件或驱动版本过低。
(1) 确保网卡接口状态指示灯状态正常,线缆连接正常。部分网卡接口状态指示灯含义请参见《H3C自研网卡 datasheet》,若其中未包含所需的网卡型号,请联系技术支持获取该网卡信息。
(2) 检查网卡和光模块的兼容性。网卡和光模块的兼容性请联系技术支持确认,若兼容性不满足要求,请更换光模块。
(3) 在操作系统中查看网卡端口状态、接口数量、工作速率、双工模式等参数信息,确保和上联交换机配置保持一致。
¡ Linux操作系统
- 执行“ifconfig <网卡端口>”命令,查看系统下的网卡端口状态,IP地址是否设置正确,如图7-143中①所示;
- 执行“ethtool <网卡端口>”命令,查看网卡的工作速率和双工模式,确保和上联交换机配置保持一致,如图7-143中②所示。
图7-143 Linux下查看网卡状态
¡ VMware操作系统
- 执行“esxcli network nic list”命令,查看网卡信息;
- 执行“esxcli network nic up -n vmnicX”命令,使能网卡端口;
- 执行“esxcli network nic get -n vmnicX”命令,查看网卡端口状态、固件以及驱动版本。
¡ Windows操作系统
a. 在桌面“计算机”图标右键,选择“管理”。
b. 进入管理界面,选择“设备管理器——网络适配器”。
c. 在设备管理器中找到网卡,点击右键,选择属性,即可查看网卡相关信息。
图7-144 Windows下查看网卡信息
(4) 检查是否因为网络相关配置,如操作系统下网卡端口的IP地址、VLAN、bonding以及上联交换机的端口配置等导致网卡端口不通。若确认为配置原因,则请修改相关配置,否则请执行步骤(5)。
(6) 交叉验证,排查是否为硬件问题,若为硬件问题,请更换故障硬件。
¡ 检查是否为线缆或光模块故障。
¡ 检查是否为PCIe槽位故障。
¡ 检查是否为交换机故障。
¡ 联系技术支持,确认网卡与交换机是否兼容。
(7) 若问题仍然存在,请收集故障时的操作系统日志并联系技术支持。
网卡端口工作过程中,出现丢包或错包现象。
· 网卡、线缆、光模块或交换机故障。
· 网卡的固件或驱动版本过低。
· 网卡的固件/驱动版本与操作系统不兼容。
· 业务流量引起的丢包/错包。
(1) 检查丢包/错包计数是否为偶发事件,若为偶发事件可以忽略,否则请执行步骤(2)。
(2) 检查并确保网卡的驱动和固件版本,可通过OS兼容性查询工具查询。
(3) 通过交叉验证的方法,排查是否存在硬件故障。
¡ 使用其他正常工作的线缆或光模块,检查是否为线缆或光模块故障。若为线缆或光模块故障,请更换线缆或光模块。
¡ 将网卡连接至其他正常工作的交换机端口,检查是否为交换机故障。若为交换机故障,请继续定位交换机的问题。
¡ 将网卡安装至其他正常工作槽位,检查是否为网卡故障。若为网卡故障,则请更换网卡。若网卡在其他槽位可正常工作,则请联系技术支持,确认是否为对应槽位故障。
(4) 切换业务流量至其他网卡端口,排查是否与业务流量有关。若确认与业务流量有关,请继续定位业务流量的问题。
(5) 若问题依然存在,请收集如下信息并联系技术支持。
¡ 收集操作系统日志。
¡ 收集故丢包/错包信息,例如在Linux系统下执行ethtool -S <网卡端口>,查询网口收发包统计。
图7-145 查询网口收发包统计
网卡性能不达标,如实际端口速率无法达到网卡规格等。
· 操作系统下的部分配置被修改,如各CPU CORE之间的网卡中断分布不均、网卡端口Buffer被修改等。
· 网卡的固件或驱动版本过低。
(1) 更新网卡的固件和驱动版本至H3C官网最新版本。
(2) 在操作系统下检查问题是否由操作系统下的网卡配置引起,以Linux操作系统为例:
a. 系统下执行“cat /proc/interrupts | grep -i <网卡驱动名>”命令,查看网卡中断与CPU CORE的绑定关系,排查中断分布是否均匀。通常情况下,系统会自动平衡中断,负载较大时可能出现性能不达标的情况。故当出现分布不均匀或无法判断时,请联系技术支持获取具体的调整方式及策略;若分布均匀,请执行步骤b。
图7-146 查看网卡中断是否分布均匀
b. 系统下执行“ethtool -g <网卡端口>”命令,排查是否修改过网卡端口Buffer。可执行“ethtool -G <rx/tx> <buffer size>”命令调整当前网卡的Buffer size,默认为最小值,当出现性能瓶颈时,建议调大该参数值,具体的调整方式及策略请联系技术支持获取。若确认网卡端口Buffer无需调整,请执行步骤c。
图7-147 查看网卡端口Buffer
c. 系统下执行“ethtool -k <网卡端口>”,查看是否修改过LRO,TSO等设置。可使用“ethtool -k <网卡端口> tso/lro on”命令开启这些参数,具体的调整方式及策略请联系技术支持获取。
图7-148 查看网卡端口LRO/TSO等设置
(3) 若问题依然存在,请收集操作系统日志并联系技术支持。
mLOM网卡出现硬件故障。
网卡硬件故障。
检查mLOM网卡电源灯是否绿色常亮,如图7-149红圈所示,如果不亮,表示mLOM网卡故障,请更换。如果电源灯绿色常亮,则表示mLOM网卡未出现故障,请检查其他方面故障原因或联系技术支持。
图7-149 检查mLOM网卡电源灯是否绿色常亮
mLOM网卡可以识别但网络不通。
· mLOM网卡与交换机的兼容性问题。
· mLOM网卡与服务器的兼容性问题。
请先按照7.24.3 网卡端口不通操作步骤排查故障;若未能解决,请确认以下注意事项:
· 查看mLOM网卡和交换机的配置,万兆mLOM网卡无法兼容百兆交换机,需将网卡接入千兆或万兆交换机。
· 当服务器为R2900 G3或R2700 G3机型时,不支持万兆mLOM网卡,需重新配置其他mLOM网卡。
若问题依然存在,请收集故障时的操作系统日志并联系技术支持。
网卡与交换机的FEC(Forward Error Correction,前向纠错)模式不一致,网口无法link up。
FEC的模式不同且无法成功协商,纠错的编解码方案不一致,需要手动设置网卡FEC模式(No-FEC,Base-R/FireCode FEC,RS-FEC),将网卡和交换机FEC修改为同一模式。
(1) 查看网卡的FEC模式
¡ Linux 操作系统
执行“ethtool –show-fec <网卡端口>”命令,查看系统下的网卡FEC模式,如图7-150所示。
图7-150 Linux下查看网口FEC模式
¡ Windows操作系统
- Mellanox网卡
a) 安装mft工具,开启mst服务,执行mst start;
b) 查看MST devices:执行mst status;
c) 查看FEC模式,执行mlxlink -d <MST device> --show_fec,如图7-151所示。
图7-151 Mellanox网卡Windows下查看网口FEC模式
- Broadcom网卡
a) 进入工具所在目录,查看设备,执行bnxtnvm listdev;
b) 查看网卡FEC模式,执行bnxtnvm -dev=<” Interface Name”> getoption=fwd_err_correct:0,如图7-152所示。
图7-152 Broadcom网卡Windows下查看网口FEC模式
- Intel网卡
a) 下载并安装Wired_driver;
b) 下载并安装Wired_PROSet;
c) 双击运行Intel(R) PROSet Adapter Configuration Utility,选择对应网口,查看FEC Mode。
图7-153 Intel网卡Windows下查看网口FEC模式
¡ VMware操作系统
- Mellanox网卡
a) 安装mft工具,开启mst服务,执行/opt/mellanox/bin/mst start;
b) 查看MST devices:执行/opt/mellanox/bin/mst status;
c) 查看FEC模式,执行/opt/mellanox/bin/mlxlink -d <MST device> --show_fec
图7-154 Mellanox网卡VMware下查看网口FEC模式
- Broadcom网卡
a) 进入工具所在目录,给予工具权限,执行chmod 777 bnxtnvm;
b) 查看设备,执行./bnxtnvm listdev;
c) 查看网卡FEC模式,执行./bnxtnvm -dev=<Interface Name> getoption=fwd_err_correct:0,如图7-155所示。
图7-155 Broadcom网卡VMware下查看网口FEC模式
- Intel网卡(700、800系列网卡)
a) 下载并安装intnetcli插件,执行esxcli software vib install -v /vmfs/volumes/datastore1/file.vib;
b) 安装完成后重启系统;
c) 进入系统后,查看网口FEC模式,执行esxcli intnet fec list,如图7-156。
图7-156 Intel网卡VMware下查看网口FEC模式
(2) 修改网卡的FEC模式。
¡ Linux 操作系统
- 方法一:在rc.local中加入FEC配置(该方法重启后有效,推荐)。
a) 编辑/etc/rc.d/rc.local文件,执行vim /etc/rc.d/rc.local,写入ethtool --set-fec 网口名 encoding Base-R/off;
b) 给予rc.local执行权限,执行chmod 777 /etc/rc.d/rc.local;
c) 启动rc-local服务,执行systemctl start rc-local和systemctl enable rc-local;
d) 重启服务器。
- 方法二:执行“ethtool –set-fec <网卡端口> encoding off/Base-R/rs/auto”命令,修改系统下的网卡FEC模式(该方法重启后不再生效)。
¡ Windows操作系统
- Mellanox网卡
a) 安装mft工具,开启mst服务,执行mst start;
b) 查看MST devices:执行mst status;
c) 执行mlxlink -d <MST device> --fec NF/FC/RS/AU --fec_speed <speed>,修改FEC模式。
AU:Auto;NF:No-FEC;FC:FireCode FEC;RS:RS-FEC。
d) 重新link up网口,执行mlxlink -d <dev> -a TG。
- Broadcom网卡
a) 进入BIOS->Advance->目标网口配置->Device Configuration Menu;
b) 修改Link FEC选项Disable/CL74-Fire Code/ CL91-Reed Solomon/CL74&CL91-Both,保存BIOS配置。如图7-157所示。
图7-157 Broadcom网卡BIOS下修改网口FEC模式
Disable – No-Fec;CL74 - Fire Code:FireCode FEC;CL91-Reed Solomon:RS-FEC;CL74&CL91 – Both:支持FireCode和RS-FEC。
- Intel网卡
a) 下载并安装Wired_driver;
b) 下载并安装Wired_PROSet;
c) 双击运行Intel(R) PROSet Adapter Configuration Utility,选择对应网口,点击FEC Mode,修改Current Valuede,修改完成后点击Apply Changes按钮。
图7-158 Intel网卡windows下修改网口FEC模式
¡ VMware操作系统
- Mellanox网卡
a) 安装mft工具,开启mst服务,执行/opt/mellanox/bin/mst start;
b) 查看MST devices:执行/opt/mellanox/bin/mst status;
c) 执行/opt/mellanox/bin/mlxlink -d <MST device> --fec NF/FC/RS/AU --fec_speed <speed>,修改FEC模式。
AU:Auto;NF:No-FEC;FC:FireCode FEC;RS:RS-FEC。
d) 重新link up网口,执行/opt/mellanox/bin/mlxlink -d <dev> -a TG。
- Broadcom网卡
VMware修改方法同Windows系统。
- Intel网卡
a) 下载并安装intnetcli插件,执行esxcli software vib install -v /vmfs/volumes/datastore1/file.vib;
b) 安装完成后重启系统;
c) 进入系统后,修改网口FEC模式,执行esxcli intnet fec set -m <模式> -n <网口>。
模式可以设置为:Auto-FEC, No-FEC, RS-FEC, 或FC-FEC/BASE-R
FEC配置工具下载:
- Mellanox网卡工具
Mellanox网卡FEC配置工具,请见表7-6。
表7-6 Mellanox网卡FEC配置工具
操作系统 |
工具名称 |
下载链接 |
Windows |
MFT |
https://network.nvidia.com/products/adapter-software/firmware-tools/ |
VMware |
MFT |
https://network.nvidia.com/products/adapter-software/firmware-tools/ |
- Broadcom网卡工具
见对应网卡的固件工具包,链接:
https://www.h3c.com/cn/BizPortal/DownLoadAccessory/DownLoadAccessoryFilt.aspx
- Intel网卡工具
Intel网卡FEC配置工具,请见表7-7。
表7-7 Intel网卡FEC配置工具
操作系统 |
工具名称 |
下载链接 |
Windows |
Wired_driver;Wired_PROSet |
https://www.intel.cn/content/www/cn/zh/homepage.html |
VMware |
intnetcli |
https://www.intel.cn/content/www/cn/zh/download/19380/intel-esxcli-plug-in-for-managing-intel-ethernet-network-adapters.html?wapkw=ESXCLI |
如图7-159所示,服务器上安装FC HBA卡,通过FC交换机连接存储设备。此时存储设备无法识别FC HBA卡端口的WWPN。
· FC HBA卡的固件或驱动版本过低,或版本与操作系统不兼容。
· FC HBA卡端口与存储设备不属于同一Zone。
· FC链路上的硬件发生故障,如FC HBA卡、线缆或光模块等。
· 存储设备侧与交换机之间的识别出现问题。
(1) 检查并确保FC HBA卡上连的交换机端口UP。
(2) 具体方法:登录交换机(本文以H3C交换机为例),通过display interface fc xxx brief命令查看端口状态。例如,显示接口FC1/0/1的概要信息。
<Sysname> display interface fc 1/0/1 brief
Brief information on FC interface(s):
Admin Mode: auto - auto; E - e port; F - f port; NP - n port proxy
Oper Mode: E - e port; F - f port; NP - n port proxy;
TE - trunking e port; TF - trunking f port;
TNP - trunking n port proxy
Interface VSAN Admin Admin Oper Oper Status SAN-Aggregation
Mode Trunk Mode Speed
Mode
Fc1/0/1 2 F off F 4G UP SAGG23
(3) 通过查询交换机能否识别FC HBA卡端口WWPN,判断FC HBA卡能否注册到交换机。
(4) 具体方法:登录交换机(本文以H3C交换机为例),通过display fc login命令查看节点注册的相关信息。例如,显示VSAN 1的节点注册的相关信息。
<Sysname> display fc login vsan 1
Interface VSAN FCID Node WWN Port WWN
Vfc1 1 0x010000 21:01:00:1b:32:a0:fa:18 21:01:00:1b:32:a0:fa:17
如果交换机可以识别FC HBA卡端口WWPN,则表示FC HBA卡已成功注册到交换机,请执行步骤(5)。
如果交换机无法识别FC HBA卡端口的WWPN,则表示FC HBA卡没有成功注册到交换机,请执行以下步骤确认无法注册的具体原因。
a. 请确保FC HBA卡所在槽位,对应的CPU在位。对应关系请参见产品用户指南。
b. 通过HDM Web界面,检查能否看到FC HBA卡在位信息,如图7-160所示。
- 是,执行步骤图7-160c;
- 否,此时可能出现服务器部件故障,比如通过交叉验证的方式,检查FC HBA卡和对应槽位是否正常,更换出现故障的部件。
图7-160 确认HDM上的FC HBA卡在位信息
c. 检查并确保FC HBA卡到交换机的FC链路正常。比如通过交叉验证的方法,检查线缆、光模块是否存在故障。
- 是,请更换线缆或光模块;
- 否,执行步骤d。
d. 检查并确保FC HBA卡安装了与当前操作系统兼容的H3C官网最新驱动和固件版本。具体兼容的版本,可通过OS兼容性查询工具查询。
e. 对于多交换机连接的场景,检查交换机N_Port、E_Port与F_Port模式等是否正确,详细方法请参见交换机配置命令手册。
f. 若问题依然存在,请收集以下日志信息,并联系技术支持。
- 收集操作系统日志及FC HBA卡日志信息。
- 收集交换机日志信息,具体方法请参见交换机日志手册。
(5) 通过查询交换机能否识别存储设备WWPN,检查存储设备是否已注册到交换机,具体方式请参考步骤(3)中诊断FC HBA卡是否注册到交换机的方法。如存储设备已成功注册到交换机,则执行步骤(7);否则请执行步骤(6)。
(6) 检查并确保存储设备到交换机的FC链路正常,比如通过交叉验证的方法,检查线缆、光模块是否存在故障。
- 是,请更换线缆或光模块;
- 否,执行步骤(7)。
(7) 在交换机上执行对应命令,判断FC HBA卡端口与存储设备端口是否在同一个Zone。是,则执行步骤(8);否则通过交换机配置为同一个Zone。例如在博科交换机中执行zoneshow查询对应信息,具体操作如图7-161所示,对于命令的详细信息请参见交换机命令手册。
图7-161 检查FC HBA卡端口与存储设备端口是否在同一个Zone
(8) 对于同厂家多交换机级联场景,检查Zone的配置是否一致,对于命令的详细信息请参见各厂家交换机命令手册。
(9) 若问题依然存在,请收集以下日志信息,并联系技术支持。
¡ 收集操作系统日志及FC HBA卡日志信息。
¡ 收集交换机日志信息,具体方法请参见交换机日志手册。
如图7-162所示,服务器上安装FC HBA卡,通过FC交换机连接存储设备。此时存储设备已经识别FC HBA卡的端口WWPN,但服务器端无法识别到LUN。
· FC HBA卡的固件和驱动版本过低、或版本与操作系统不兼容。
· 操作系统未识别LUN,需要重新扫描FC链路。
· 存储设备侧异常。
· FC链路异常。
(1) 检查并确保FC HBA卡安装了与当前操作系统兼容的驱动和固件版本。具体兼容的版本,可通过OS兼容性查询工具查询。
(2) 收集操作系统日志及FC HBA卡日志,在日志中查找FC HBA卡驱动打印的信息,查询是否存在链接建立及LUN识别相关的日志信息。
¡ 若存在,则表示之前曾成功建立链接及识别LUN,此时可执行步骤(3)再次扫描并识别存储链路。
¡ 若不存在,则表示未建立过链接,此时检查并确保FC HBA卡到交换机的FC链路正常。比如通过交叉验证的方法,检查线缆、光模块是否存在故障。如果确认问题与硬件链路相关,请更换对应故障硬件,确认问题是否仍存在。如果确认问题与硬件链路无关或更换后问题仍存在,请联系技术支持。
图7-163 查询链接建立及LUN识别相关的日志信息
(3) 执行命令echo 1 > /sys/class/fc_host/host<number>/issue_lip,重新扫描整个链路,其中number表示对应端口号,number与FC HBA端口的对应关系可通过操作系统日志中的“host#”确认。以图7-164为例,可看到3b:00.0对应的fc_host number为4。
图7-164 number与FC HBA端口的对应关系
如图7-165所示,确定端口号后,执行命令重新扫描整个链路。之后检查服务器能否正常识别LUN。
(4) 如果以上步骤均无问题,则表明服务器侧处于正常状态,请联系存储设备厂商或OS厂商进一步排查存储设备测或OS应用层问题。如需服务侧配合进一步定位问题,请收集日志,并联系技术支持。
如图7-166所示,服务器上安装FC HBA卡,通过多个FC交换机创建多路径连接到存储设备。此时存储设备LUN多路径链路部分丢失。
图7-166 存储LUN多路径链路
· FC HBA卡的固件和驱动版本过低、或版本与操作系统不兼容。
· 服务器操作系统中的多路径驱动异常。
· 交换机异常。
· 存储设备异常。
· FC链路上的硬件发生故障,如FC HBA卡、线缆或光模块等。
(1) 检查并确保FC HBA卡安装了与当前操作系统兼容的驱动和固件版本。具体兼容的版本,可通过OS兼容性查询工具查询。
(2) 在交换机侧查看统计信息,排查FC HBA卡到存储设备的FC链路是否出现误码,误码则说明FC链路异常,请执行步骤(3);否则请执行步骤(4)。例如在博科交换机中执行porterrshow查询对应信息:
¡ 检查crc_err参数值:该值用于反馈数据帧CRC校验错误。若数据帧损坏,接收端会发现该值不一致,继而该报错值增长;若其值为0,则表示数据帧正常,否则表示链路中可能出现硬件故障。
¡ 检查enc_out参数值:数据帧帧外编码错误造成的错误值累积,通常反映了线缆质量问题,或末端设备异常。此外,由于末端设备的重启带来的端口上下线也可能会引起enc_out的增长。若其值为0,则表示数据帧正常,否则表示链路中可能出现线缆故障。
以图7-167中Port 0连接的FC链路为例,当crc_err和enc_out参数值都为0,则表示FC链路中硬件正常,请执行步骤(4);否则表示FC链路中出现硬件故障,请执行步骤(3)。
图7-167 排查HBA到存储设备的FC链路误码
(3) 若为FC链路硬件故障,请换对应故障硬件。比如通过交叉验证的方法,检查线缆、光模块是否存在故障。如果确认问题与该硬件相关,请更换对应故障硬件,之后确认问题是否仍存在。如果确认问题与硬件链路无关或更换后问题仍存在,请联系技术支持。
(4) 如果以上步骤均无问题,则表明服务器侧处于正常状态,请联系存储设备厂商或OS厂商进一步排查存储设备测或OS多路径驱动问题。如需服务侧配合进一步定位问题,请收集日志,并联系技术支持。
如图7-168所示,服务器上安装FC HBA卡,通过FC交换机连接存储设备。此时存储设备LUN读写性能低。
· FC HBA卡的固件和驱动版本过低、或版本与操作系统不兼容。
· 服务器至存储设备的FC链路异常。
· 存储设备异常。
(1) 检查并确保FC HBA卡安装了与当前操作系统兼容的驱动和固件版本。具体兼容的版本,可通过OS兼容性查询工具查询。
(2) 对比本地与远程的I/O性能,判断是否为FC链路导致存储设备LUN读写性能低。
a. 在服务器侧检查本地I/O延迟与并发数,与其他相同配置下的服务器I/O性能做对比,判断服务器的本地I/O是否达到性能要求。是,则表示本地I/O性能正常,请执行步骤图7-169b;否则请联系技术支持,检查服务器本地I/O性能问题。
例如,在Linux操作系统下可以执行iostat命令检查以下参数值判断I/O性能:
- r/s:每秒完成的读次数。
- w/s:每秒完成的写次数。
- await:平均每次I/O请求等待时间。
- r_await:平均每次读请求等待时间。
- w_await:平均每次写请求等待时间。
图7-169 检查io延迟与并发数
b. 在服务器侧操作系统上测试远程存储设备I/O性能,即从FC HBA卡端口到存储设备硬盘性能是否达到预估性能。将步骤a中本地的I/O性能与远程测试做对比,判断是否出现明显性能下降。是,则表示FC HBA卡到存储设备的链路出现问题,请执行步骤(3);否则请联系应用层技术支持,判断是否为应用问题导致性能下降。
例如,在Linux操作系统中通过执行dd命令测试不同块大小I/O性能,或通过文件拷贝形式测试大文件(100G)和小文件(100M)读写测试。
图7-170 测试FC HBA卡到硬盘性能是否达到I/O规格
(3) 在交换机侧查看统计信息,排查FC HBA卡到存储设备的FC链路是否出现误码,误码则说明FC链路异常,请执行步骤(4);否则请执行步骤(5)。例如在博科交换机中执行porterrshow查询对应信息:
¡ 检查crc_err参数值:该值用于反馈数据帧CRC校验错误。若数据帧损坏,接收端会发现该值不一致,继而该报错值增长;若其值为0,则表示数据帧正常,否则表示链路中可能出现硬件故障。
¡ 检查enc_out参数值:数据帧帧外编码错误造成的错误值累积,通常反映了线缆质量问题,或末端设备异常。此外,由于末端设备的重启带来的端口上下线也可能会引起enc_out的增长。若其值为0,则表示数据帧正常,否则表示链路中可能出现线缆故障。
以图7-171中Port 0连接的FC链路为例,当crc_err和enc_out参数值都为0,则表示FC链路中硬件正常,请执行步骤(5);否则表示FC链路中出现硬件故障,请执行步骤(4)。
图7-171 排查HBA到存储设备的FC链路误码
(4) 若为FC链路硬件故障,请换对应故障硬件。比如通过交叉验证的方法,检查线缆、光模块是否存在故障。如果确认问题与该硬件相关,请更换对应故障硬件,之后确认问题是否仍存在。如果确认问题与硬件链路无关或更换后问题仍存在,请执行步骤(5)。
(5) 检查存储设备侧是否出现性能下降。例如可使用交叉验证的方式,通过正常工作的服务器检查存储设备是否正常工作。如果存储设备侧出现问题,请联系存储设备厂商分析,否则请收集操作系统日志及FC HBA卡日志信息,并联系技术支持。
PCIe卡在BIOS下无法识别。
· 该PCIe卡不支持该服务器。
· PCIe卡或者Riser卡的金手指氧化导致接触不良,或者Riser卡插槽底座存在灰尘异物。
· BIOS Setup界面的PCI-E Port状态值设置有误。
· PCIe卡本身存在硬件故障。
· Riser卡存在硬件故障。
· 主板上的Riser槽位存在硬件故障。
(1) 通过部件兼容的服务器查询工具,查询该PCIe卡是否支持该服务器。
(2) 检查PCIe卡、Riser卡和主板之间是否安装连接正确;金手指和PCIe插槽之间是否接触良好;金手指是否被氧化污染,槽位中是否有灰尘等异物。金手指氧化造成的接触不良,可以通过橡皮擦拭金手指来解决;灰尘引起的接触不良,一般清除灰尘后即可解决。
图7-172 金手指正常(左),金手被氧化(右)
(3) 如果安装没有问题,进入BIOS Setup-> Advance->Socket Configuration->IIO Configuration中查看该卡的PCI-E Port状态值和PCI-E Port Link Status链接状态值。PCI-E Port Link Status链接状态值若显示为“Linked as xx”则表示链路已连通,如图7-173所示;若显示为“Link Did Not Train”则表示链路未连通,如图7-174所示。
图7-173 PCIe链路已连通
图7-174 PCIe链路未连通
a. 检查PCI-E Port状态:若PCI-E Port状态为Disabled,则会导致链路不通。更改PCI-E Port状态为Enabled或者Auto并保存退出,之后检查PCIe卡是否正常识别。
b. 当出现PCI-E Port状态为Enabled或Auto而链路不通时,可能表示PCIe卡的固件版本和BIOS版本不适配导致无法识别,需要升级PCIe卡的固件至最新版本或者更新和PCIe卡适配的BIOS版本,PCIe卡的固件版本如图7-175所示。
图7-175 PCIe卡固件版本
(4) 检查HDM事件日志。如果日志中描述信息出现“Interrupt, EventType: Discrete, Event: Bus uncorrectable error, Data2: xx, Data3:x Bus uncorrectable error---Slot X---PCIE Name: XXX”字样,表明PCIe卡出现损坏故障,请更换PCIe卡。
图7-176 HDM查看事件日志
(5) 交叉验证,更换一个可正常工作的PCIe卡后,查看PCIe卡是否能够识别,如果仍然无法被识别,请检查Riser卡是否存在故障。
(6) 交叉验证,更换一个可正常工作的同型号Riser卡,查看PCIe卡是否能够识别以确认是否Riser卡故障。
(7) 如果确认PCIe卡和Riser卡都是正常的,则进入BIOS查看主板PCIe插槽是否存在故障。
a. 如图7-177所示,设置EFI Shell Boot选项为Enabled。
b. 重启生效后,按F7进入Boot Menu,选择UEFI:Built-in EFI Shell启动项,如图7-178所示。
图7-178 选择UEFI:Built-in EFI Shell
c. 进入UEFI Shell界面。如图7-179所示,通过help命令查看支持的Shell命令。
d. 在当前页面输入命令smbiosview -t 9 -b查看插槽信息。如果无法查看到PCIe插槽信息,即说明插槽存在故障,请更换主板;如果能查看到PCIe插槽信息,说明插槽正常。
图7-180 EFI Shell界面
图7-181 插槽信息界面(PCIe slot 5插槽正常)
(8) 若问题依然存在,请联系技术支持。
PCIe卡无法正常使用,且HDM的事件日志中,出现PCIe卡报错信息,可以精确到Slot,如图7-182所示。
图7-182 HDM出现PCIe卡报错信息
· PCIe卡存在硬件故障。
· PCIe卡的固件或驱动版本过低。
(1) 如果是新安装的PCIe卡,请检查该卡是否符合服务器兼容性要求。
a. 通过服务器兼容的部件查询工具查询该卡与服务器是否兼容。
b. 通过OS兼容性查询工具查询该卡与服务器安装的操作系统是否兼容。
c. 若该卡符合服务器兼容性要求,则进行步骤(2);否则请更换该卡。
(2) 登录H3C官网,下载并更新PCIe卡固件及驱动至最新版本。
(3) 如果更新驱动及固件后仍未解决问题,则更换其他正常工作PCIe卡,排查是否为PCIe卡故障。
(4) 若问题依然存在,请收集HDM SDS日志以及操作系统日志,并联系技术支持。
查看HDM[系统信息]菜单项,单击PCIe设备页签,如图7-183所示,界面显示PCIe卡的协商速率或协商带宽降低,与实际需求不符。
· PCIe卡存在硬件故障。
· PCIe卡连接的Slot槽位的链路带宽速率不符合带宽速率需求。
· BIOS Setup界面的Link speed设置有误。
· PCIe卡固件、驱动版本已过时、不匹配或发生故障。
(1) 检查PCIe卡连接的Slot槽位的链路带宽是否满足PCIe卡的带宽需求。
a. 通过产品用户指南确认该slot槽位的链路带宽。
b. 通过服务器兼容的部件查询工具查询该PCIe卡的带宽和速率规格,确保Slot槽位链路带宽不低于PCIe卡的最低带宽需求。
(2) 若满足硬件需求,则进入BIOS Setup->Socket Configuration->IIO Configuration中查看该PCIe卡的Link Speed状态值和PCI-E Port Link Status链接状态值。
图7-184 BIOS下PCIe卡的PCIe参数信息
a. 检查Link Speed状态:确保Link Speed状态为Auto并保存。
b. 检查PCI-E Port Link status 和PCI-E Port Link speed状态值是否符合预期速率。若不符合预期速率则将Link Speed的当前状态值手动设置为预期速率。保存并重启后重新进入该界面检查此时Link Speed状态值是否符合预期。
图7-185 修改BIOS 界面下PCIe Link Speed信息
(3) 下载并更新PCIe卡固件及驱动至最新版本。
(4) 交叉验证PCIe卡是否出现故障,将该卡安装至可正常工作的槽位,检查其能否正常工作,若在其他槽位可正常工作,则执行步骤(5),否则请更换该PCIe卡。
(5) 交叉验证主板PCIe槽位或Riser卡是否出现故障,若确认为主板槽位故障或Riser卡故障,请更换故障部件,否则请执行步骤(6)。
· 服务器只能使用本服务器附带的线缆,不能使用第三方线缆或其他服务器附带的线缆。
· 线缆仅适用于本服务器,不能使用在其他设备上。
· 新增部件时,请务必连接配套的线缆。比如安装了GPU卡,但没有连接配套的GPU卡电源线,会导致GPU无法正常使用。线缆的正确连接方法,请参见产品用户指南。
· 根据产品的配置要求,部件(比如存储控制卡、GPU卡)安装位置发生变更时,配套线缆也需要同步变更。需要注意的是:
¡ 变更后,如果线缆长度不够,请联系技术支持,获取较长的线缆。
¡ 线缆另一端连接的接口位置,可能需要变更,具体请参见产品用户指南。
· 安装或拆卸任何非热插拔部件及配套线缆时,请先将设备下电。
· 如果线缆自带标签不能充分区分各根线缆时,请通过增加工艺标签来标识线缆。
· 确保线缆及接口没有损坏。
· 确认线缆的安装位置,避免安装到错误的接口。
· 如果线缆连接器上有保护套,线缆连接前,请先移除保护套。
· 线缆走线请勿遮挡服务器的进出风口,否则会影响服务器散热。
· 线缆连接时,请缓缓将线缆插入接口中,避免用力过大而导致接口损坏。
· 请妥善走线,确保线缆不会被挤压。
· 线缆走线时,建议避开服务器上未倒圆或者未安装绝缘衬套边沿,同时不要用力拉扯连接器。
· 外部带有网状包裹的线缆在走线时,需注意机箱内部的蘑菇头,避免拉扯。
· 线缆不能走线到可插拔部件的上方,比如内存上方。
· 线缆走线不能阻碍其他部件的插拔,确保和机箱内任何组件没有干涉。
· 确保线缆走线清晰,并且有自己的固定空间,不会被机箱内结构件挤压或刮擦。当过多线缆同时使用线扣固定时,请适当调整线缆数量,避免过多线缆拉扯线扣,造成线扣脱落。
· 线缆过长时建议适当绑扎。当前不用的线缆,建议将其盘绕整理,用线扣固定。
· 硬盘线缆连接时,请确保数据线、电源线、信号线均安装到位。数据线缆连接时,听到咔嗒声,说明连接到位。
· 多块连续硬盘的硬盘Fault/UID指示灯橙色常亮,表示硬盘出现故障。硬盘指示灯的位置和含义,请参见产品用户指南。
· 如图7-186所示,HDM事件日志中显示多块连续硬盘的故障信息。
· 采用了服务器不支持的硬盘相关线缆,包括数据线缆、电源线缆和信号线缆。比如:使用了第三方线缆或其他服务器附带的硬盘线缆。
· 硬盘线缆连接有误。
(1) 检查并确保服务器使用了该服务器附带的硬盘相关线缆(数据线缆、电源线缆和信号线缆)。比如:通过查看线缆编码、接口形态,判断当前是否使用了第三方或其他服务器附带的线缆。
(2) 服务器上配置了多块硬盘背板时,请检查并确保各硬盘背板上的数据线缆、信号线缆均正确连接,不存在各硬盘背板之间的线缆交叉接反等现象。正确的线缆连接方法请参见产品用户指南。
(3) 若问题仍然存在,请联系技术支持。
不确定待安装的操作系统是否和服务器兼容。
(1) 通过OS兼容性查询工具,查询服务器兼容的操作系统、以及当前服务器上的部件和操作系统的兼容性。
(2) 如有其它问题,请联系技术支持。
服务器支持哪些操作系统安装方式,如何选择合适的安装方式。
请登录官网获取《操作系统安装指导》,了解服务器支持的操作系统安装方式、各种安装方式的使用场景,然后根据实际情况选择合适的安装方式。
安装操作系统过程中出现无法安装等错误提示,导致安装失败,如图8-1和图8-2所示。
· 操作系统与服务器不兼容。
· 操作系统镜像文件损坏或被修改。
· 操作系统安装步骤不正确。
· BIOS配置错误导致操作系统无法安装。
(1) 参考8.1.1 选择服务器兼容的操作系统,确认服务器是否兼容该操作系统。
(2) 检查操作系统镜像文件是否完整,是否做过修改。
(3) 参考《操作系统安装指导》,检查操作系统的安装步骤是否正确。
(4) 参考《操作系统安装指导》中的“常见问题解答”章节,查看是否有相关操作指导。
(5) 确认BIOS是否做过特殊配置。如有,请尝试恢复BIOS出厂配置后重新安装操作系统。
(6) 若问题仍然存在,请向操作系统厂商获取技术支持。
操作系统安装系统过程中出现无法识别到硬盘、硬盘容量识别错误、选择安装位置后报错等问题,如图8-3和图8-4所示。
· 操作系统与服务器不兼容。
· 存储控制卡或硬盘未安装到位。
· 存储控制卡或硬盘的线缆连接异常。
· 存储控制卡或硬盘故障。
· 存储控制卡的RAID配置不正确。
· 存储控制卡未加载驱动程序,或驱动程序版本过低。
· 硬盘上有残留的RAID信息,导致RAID配置失败。
(1) 参考8.1.1 选择服务器兼容的操作系统,确认服务器是否兼容该操作系统。
(2) 请确认存储控制卡和操作系统的目标存储介质(如:硬盘、M.2 SSD卡、SD卡等)已经正确安装到服务器。
(3) 检查目标存储设备的连接状态是否正常,是否存在线缆未连接、错接的情况。
(4) 检查HDM的存储页面或BIOS(仅UEFI模式)的Advanced页面,确认是否能正确识别到存储控制卡和目标存储设备,如果识别不到,请重新插拔或更换存储控制卡和目标存储设备。
(5) 检查存储控制卡的配置,包括存储控制卡的模式,RAID配置等。
(6) 确认存储控制卡型号和OS版本,检查是否加载了存储控制卡驱动。
(7) 将存储控制卡驱动升级到最新版本。
(8) 如果目标存储设备是硬盘,那么要检查硬盘上是否有残留的RAID信息。如有,尝试将硬盘格式化后重新配置RAID使用。
(9) 若问题仍然存在,请联系技术支持。
操作系统安装完成,重启后无法进入操作系统。
可能表现为如下现象:
· 在BIOS的Save & Exit界面,Boot Override选项下看不到启动项,如图8-5所示。
· 操作系统引导时报错,如图8-6所示。
· 操作系统引导时卡死,如图8-7所示
· 操作系统与服务器不兼容。
· BIOS的启动模式发生变更。
· BIOS中的服务器启动项不正确。
· BIOS中的部分配置异常。
· BIOS固件版本过低。
(1) 参考8.1.1 选择服务器兼容的操作系统,确认服务器是否兼容该操作系统。
(2) 确保BIOS的启动模式(包括UEFI和Legacy)与安装操作系统时的设置一致。
(3) 检查BIOS中的服务器启动项,确认操作系统所在存储设备已被设置为第一启动项。
(4) 确保服务器的BIOS已升级到最新版本。
(5) 如果环境中部署了另一台软硬件配置很接近,且正常运行的服务器。可以对比故障服务器与正常服务器的BIOS配置项,并参考正常服务器的BIOS设置修改故障服务器的BIOS配置项。
(6) 若问题仍然存在,请保存故障相关截图(如:启动时卡住的截图、BIOS中启动项设置截图等),收集HDM SDS日志,然后联系技术支持。
操作系统安装完成后重启,BIOS启动过程正常,操作系统能引导,但过程非常缓慢。
· 操作系统与服务器不兼容。
· 存储控制卡的驱动版本过低。
(1) 参考8.1.1 选择服务器兼容的操作系统,确认服务器是否兼容该操作系统。
(2) 确保存储控制卡的驱动已升级到最新版本。
(3) 若问题仍然存在,请联系技术支持。
操作系统安装完成后能正常引导,但在操作系统下无法识别全部硬盘容量。
· 操作系统与服务器不兼容。
· 操作系统内核运行异常。
· 存储控制卡的驱动版本过低。
(1) 参考8.1.1 选择服务器兼容的操作系统,确认服务器是否兼容该操作系统。
(2) 请确认存储控制卡配置的RAID级别。组建带有冗余功能的RAID后,逻辑硬盘的容量会小于物理硬盘的容量之和。
(3) 在HDM的存储页面和BIOS(UEFI模式)的Advanced页面中检查硬盘容量识别是否正确。如识别正确,请升级存储控制卡驱动;如不正确,请联系技术支持。
服务器已上线稳定运行一段时间后,出现服务器上电情况下,操作系统无响应问题。
· 服务器的固件、驱动、系统内核版本或应用软件近期发生过变更,且新版本未正确安装。
· 操作系统内核、应用软件等运行异常。
· 服务器的硬件故障导致操作系统挂死。
(1) 确认操作系统挂死时屏幕有无异常打印。若有,保存故障截图。重启后,收集操作系统日志,然后联系操作系统厂商分析定位;若无,则执行步骤(2)~(6)。
(2) 确认故障现象,包括:是否进入睡眠状态、系统是否能ping通、远程控制台和直连显示器是否能正常操作。
(3) 确认单台故障还是批量故障,时间是否有规律性。
(4) 确认近期是否进行过固件、驱动层面的变更。
(5) 确认近期是否进行过操作系统的内核版本变更、应用软件变更。
(6) 检查HDM中的传感器信息和事件日志有无异常。
¡ 若有,收集步骤(2)~(5)中确认的信息以及HDM SDS日志,然后联系技术支持。
¡ 若无,请访问HDM Web界面,单击NMI控制栏的<执行动作>按钮,强制产生DUMP文件。重启后,收集步骤(2)~(5)中确认的信息以及操作系统日志,然后联系操作系统厂商分析定位。
服务器已上线稳定运行一段时间后,出现操作系统异常重启。
· 服务器的固件、驱动、系统内核版本或应用软件近期发生过变更,且新版本未正确安装。
· 操作系统内核、应用软件等运行异常。
· 服务器的硬件故障导致操作异常重启。
(2) 确认近期是否进行过固件、驱动版本变更。
(3) 确认近期是否进行过操作系统的内核版本变更、应用软件变更。
(4) 检查HDM中的传感器信息和事件日志有无异常。
¡ 若有,收集步骤(1)~(3)中确认的信息以及HDM SDS日志,然后联系技术支持。
¡ 若无,收集步骤(1)~(3)中确认的信息以及操作系统日志,然后联系操作系统厂商分析定位。
服务器已上线稳定运行一段时间,且操作系统运行正常,但系统日志中有错误消息。
· 服务器的固件、驱动、系统内核版本或应用软件近期发生过变更,且新版本未正确安装。
· 操作系统内核、应用软件等运行异常。
· 服务器的硬件故障导致操作系统挂死。
(1) 检查HDM中的传感器信息和事件日志有无异常。
¡ 若有,收集HDM SDS日志,然后联系技术支持。
¡ 若无,记录操作系统日志中的错误信息,收集完整的操作系统日志,然后联系操作系统厂商分析定位。
服务器已上线稳定运行一段时间,在安装应用程序或操作系统补丁后出现操作系统异常,比如出现异常信息打印、系统挂死或异常重启等现象。
· 应用程序或操作系统补丁未正确安装。
· 服务器的硬件故障导致操作异常重启。
(1) 检查HDM中的传感器信息和事件日志有无异常。
¡ 若有,收集HDM SDS日志,然后联系技术支持。
¡ 若无,记录系统提示的错误信息,收集操作系统日志,然后联系操作系统厂商分析定位。
因业务需要,对操作系统版本进行内核版本升级。
在更新操作系统版本之前,需要查看操作系统厂商发布的更新包对应的版本说明书,确认更新方法。
(1) 更新之前,对操作系统进行完全备份。
(2) 根据操作系统更新包对应的版本说明书中的指导更新操作系统。
(3) 检查部件驱动版本是否变更,建议从H3C官网下载并安装最新的部件驱动版本。
操作系统故障后,如果经过排查无法解决问题,可以考虑重新安装操作系统。
(1) 重新安装操作系统前,请先确认如下注意事项:
¡ 确保服务器有足够的资源(处理器性能、内存大小和硬盘空间等)可以运行操作系统和应用软件。
¡ 参考8.1.1 选择服务器兼容的操作系统,确认重新安装的操作系统版本满足服务器的兼容性要求。
¡ 在待部署应用软件的官网查询软件要求的运行环境,确认重新安装的操作系统版本满足应用软件的兼容性要求。
¡ 确保服务器的BIOS、HDM和CPLD固件升级到最新版本。关于升级BIOS、HDM和CPLD固件的详细说明,请参见《固件更新指导书》。
(2) 参考《操作系统安装指导》,重新安装操作系统。
本节仅提供应用软件故障问题解决思路,对于具体的问题请先查询软件相关用户手册或咨询软件供应商,如需结合硬件信息定位故障原因,请联系技术支持。
应用软件僵死。
· 当前服务器的硬件配置无法满足软件运行需求。
· 该软件和操作系统存在兼容性问题。
· 该软件和服务器上安装的其他软件存在冲突。
· 服务器系统资源不足。
· 近期修改过服务器配置导致僵死。
· 服务器被病毒感染导致僵死。
(1) 查看软件说明书,确认以下信息。
¡ 当前服务器的硬件配置是否满足该软件运行需要。
¡ 该软件与当前操作系统版本是否兼容。
¡ 该软件是否与其他已安装软件存在冲突。
(2) 检查当前系统资源占用情况,关闭不必要的后台程序。
(3) 收集操作系统日志和应用软件日志,具体收集方法请参见5.2 收集操作系统日志或软件用户手册。
(4) 查看操作系统日志和应用软件日志是否有软件僵死的原因。
(5) 查看操作系统日志,寻找可能导致该软件僵死的配置修改项,尝试还原配置。
(6) 使用最新的病毒扫描程序,对服务器进行病毒查杀。
(7) 若问题仍未解决,建议向软件提供商寻求技术支持。
更改软件的设置后,系统运行出现异常。
操作系统不支持新的软件设置。
(1) 查看软件说明书,确认是否存在类似问题和解决方案。
(2) 收集操作系统日志,具体收集方法请参见5.2 收集操作系统日志。
(3) 分析操作系统日志确定修改项,尝试还原配置;若一次性修改了多个软件的设置,则每次还原一个设置项,以确定问题原因。
(4) 若问题依然存在,建议向软件提供商寻求技术支持。
安装了新的应用程序后,系统运行出现异常。
· 当前服务器的硬件配置无法满足该应用程序运行需求
· 该应用程序和操作系统存在兼容性问题。
· 该应用程序与服务器上原有的某些应用程序存在冲突。
· 该应用程序需要特殊的BIOS或操作系统设置。
· 系统资源分配不足。
(1) 查看应用程序说明书,确认以下信息。
¡ 当前服务器的硬件配置是否满足该应用程序运行需要。
¡ 该应用程序与当前操作系统版本是否兼容。
¡ 该应用程序是否与其他已安装应用程序存在冲突。
¡ 是否需要特殊的BIOS设置,如需设置,具体方法请参见产品的BIOS用户指南。
¡ 是否需要特殊的系统设置,如需设置请对特殊要求的系统设置进行修改。
(2) 检查当前系统资源占用情况,关闭不必要的后台程序。
(3) 收集操作系统日志,具体收集方法请参见5.2 收集操作系统日志。
(4) 查看操作系统的操作日志,寻找问题出现的原因。
(5) 尝试重新安装该应用程序。
(6) 若问题依然存在,建议向应用程序提供商寻求技术支持。
如图8-8所示,BIOS告警信息为出现在Early POST界面的告警打印,用户可根据这些告警信息知道目前出现的异常问题。2.00.XX版本BIOS提供的告警信息及对应的处理方式可在表8-1查看,5.XX版本BIOS提供的告警信息及对应的处理方式可在表8-2查看。
图8-8 Early POST界面告警示例
表8-1 POST告警打印及解释(适用于2.00.XX版本的BIOS)
编号 |
部件 |
BIOS告警打印 |
故障情况及处理方式 |
1 |
内存 |
Invalid memory configuration.Please refer to memory population rules in Server User Guide.- System Halted!" |
无效的内存配置。 请查看服务器产品用户指南中的内存安装准则,并依照规则重新安装。 |
2 |
内存 |
LRDIMM and RDIMM are installed in the system.The system cannot have both types of DIMMs installed. Please refer to memory population rules in Server User Guide.- System Halted! |
不支持LRDIMM和RDIMM混插, 内存插法错误导致系统挂死。 请查看用户指南中的内存安装准则,并依照规则重新安装。 |
3 |
内存 |
No memory is available or invalid memory configuration. Please refer to memory population rules in Server User Guide.- System Halted!" |
表示没插内存,或者插入的内存全部都故障不能用,相当于系统没找到内存。 请检查已安装的内存是否安装到位或更换内存。 |
4 |
内存 |
Memory Initializing... Some DIMMs fail Initialization,won't be available to OS! |
由于一些内存出现初始化错误,OS无法使用该内存。 更换内存。 |
5 |
内存 |
Memory population rule error, Ranks should be placed in descending order in DIMM slots! |
表示多Rank的内存插法不正确,需要降序插法。即大Rank内存先插。 可以在内存标签上查看Rank。 |
6 |
内存 |
Lockstep | Rank spare degrade to independent mode! |
Lockstep模式下的Rank Spare模式降级为independent模式。 请根据对应模式的DIMM插法要求重新插内存。 内存模式降级不影响启动。 |
7 |
内存 |
Lockstep | Mirror degrade to independent mode! |
Lockstep模式下的镜像模式降级为independent模式。 请根据对应模式的DIMM插法要求重新插内存。 内存模式降级不影响启动。 |
8 |
内存 |
Lockstep | Partial mirror degrade to independent mode |
Lockstep模式下的Partial Mirror模式降级为independent模式。 请根据对应模式的DIMM插法要求重新插内存。 内存模式降级不影响启动。 |
9 |
内存 |
Lockstep degrade to independent mode! |
Lockstep模式降级为independent模式。 请根据对应模式的DIMM插法要求重新插内存。 内存模式降级不影响启动。 |
10 |
内存 |
Rank spare degrade to independent mode! |
Rank Spare模式降级为independent模式。 请根据对应模式的DIMM插法要求重新插内存。 内存模式降级不影响启动。 |
11 |
内存 |
Mirror degrade to independent mode |
镜像模式降级为independent模式 请根据对应模式的DIMM插法要求重新插内存。 内存模式降级不影响启动。 |
12 |
内存 |
Partial mirror degrade to independent mode! |
Partial Mirror模式降级为independent模式。 请根据对应模式的DIMM插法要求重新插内存。 内存模式降级不影响启动。 |
13 |
显示 |
Warning: Early VGA will stop work, Due to CPU1 offboard video is active |
Leacgy模式下,在CPU0以外的CPU接入外接显卡,VGA将不再显示Early POST界面。 |
14 |
UPI |
UPI Topology mismatch is detected. |
当服务器上的两个CPU类型不匹配时,POST界面会出现该告警。 需要更换为匹配的CPU。 |
15 |
CPU |
CPU Microcode mismatch is detected. |
检测到CPU的Microcode不匹配。 需要更换为匹配的CPU。 |
16 |
CPU |
CPU Frequency mismatch is detected. |
检测到CPU频率不匹配。 需要更换为匹配的CPU。 |
17 |
CPU |
CPU Frequency,Microcode mismatches are detected. |
检测到CPU 频率和Microcode不匹配。需要更换为匹配的CPU。 |
18 |
CPU |
CPU Stepping mismatch is detected. |
检测到CPU的步进不匹配。 需要更换为匹配的CPU。 |
19 |
CPU |
CPU Stepping,Microcode mismatches are detected. |
检测到CPU的步进和Microcode不匹配。 需要更换为匹配的CPU。 |
20 |
CPU |
CPU Stepping,Frequency mismatches are detected. |
检测到CPU的步进和频率不匹配。 需要更换为匹配的CPU。 |
21 |
CPU |
CPUStepping,Frequency,Microcode mismatches are detected. |
检测到CPU的步进、频率和Microcode均不匹配。 需要更换为匹配的CPU。 |
表8-2 POST告警打印及解释(适用于5.XX版本的BIOS)
编号 |
部件 |
BIOS告警打印 |
故障情况及处理方式 |
1 |
内存 |
WARNING: Invalid DIMM configuration. |
内存插法不满足要求。 请查看服务器产品用户指南中的内存安装准则,并依照规则重新安装。 |
2 |
内存 |
WARNING: Different DIMM types are detected. System halt occurred. |
检测到不同类型的内存混插,内存插法错误导致系统挂死。 请查看用户指南中的内存安装准则,并依照规则重新安装。 |
3 |
内存 |
WARNING: No memory is available or memory configuration is invalid. System halt occurred. |
表示没插内存,或者插入的内存全部都故障不能用,相当于系统没找到内存。 请检查已安装的内存是否安装到位或更换内存。 |
4 |
内存 |
WARNING: Some DIMMs are not initialized. Please review HDM event logs. |
部分DIMM未初始化,请查看HDM事件日志确认故障内存位置并更换内存。 |
5 |
内存 |
WARNING: Memory Lockstep and Rank Sparing degraded to Independent mode. |
Lockstep模式下的Rank Spare模式降级为independent模式。 请根据对应模式的DIMM插法要求重新插内存。 内存模式降级不影响启动。 |
6 |
内存 |
WARNING: Memory Lockstep and Mirror degraded to Independent mode. |
Lockstep模式下的镜像模式降级为independent模式。 请根据对应模式的DIMM插法要求重新插内存。 内存模式降级不影响启动。 |
7 |
内存 |
WARNING: Memory Lockstep and Partial Mirror degraded to Independent mode. |
Lockstep模式下的Partial Mirror模式降级为independent模式。 请根据对应模式的DIMM插法要求重新插内存。 内存模式降级不影响启动。 |
8 |
内存 |
WARNING: Memory Lockstep degraded to Independent mode. |
Lockstep模式降级为independent模式。 请根据对应模式的DIMM插法要求重新插内存。 内存模式降级不影响启动。 |
9 |
内存 |
WARNING: Memory Rank Sparing degraded to Independent mode. |
Rank Spare模式降级为independent模式。 请根据对应模式的DIMM插法要求重新插内存。 内存模式降级不影响启动。 |
10 |
内存 |
WARNING: Memory Mirror degraded to Independent mode. |
镜像模式降级为independent模式 请根据对应模式的DIMM插法要求重新插内存。 内存模式降级不影响启动。 |
11 |
内存 |
WARNING: Memory Partial Mirror degraded to Independent mode. |
Partial Mirror模式降级为independent模式。 请根据对应模式的DIMM插法要求重新插内存。 内存模式降级不影响启动。 |
12 |
内存 |
WARNING: Memory ADDDC degraded to Independent mode. |
不支持内存ADDDC,仍然为independent模式启动 更换x8内存为x4内存 |
13 |
内存 |
WARNING: Memory SDDC degraded to Independent mode. |
内存SDDC不支持,independent模式启动 请确认内存与CPU型号是否匹配 |
14 |
内存 |
WARNING: Memory mapping degraded. |
内存映射降级 请查看服务器产品用户指南中的内存安装准则,并依照规则重新安装。 |
15 |
MCA |
WARNING: Last boot MCE detected. Please review HDM logs. |
检测到上一次启动检测到MCE错误,请检查HDM事件日志确认故障情况 |
16 |
UPI |
WARNING: Mismatched UPI link option configuration. |
当服务器上的两个CPU类型不匹配时,POST界面会出现该告警。 需要更换为匹配的CPU。 |
17 |
UPI |
WARNING: System is operating in KTI link low speed mode. |
UPI链路工作在低速模式 检查BIOS内UPI相关设置,如问题仍然出现,尝试更换主板 |
19 |
UPI |
WARNING: CPU link training issue. Topology changed after reset. |
UPI链路训练异常,重启后拓扑改变,尝试更换主板 |
20 |
UPI |
WARNING: UPI resource allocation issue. |
UPI资源分配不成功,尝试恢复BIOS默认配置并重启 |
21 |
UPI |
WARNING: Mismatched UPI topology. |
UPI拓扑不匹配,检查CPU安装的数量是否符合安装要求 |
22 |
PCIe |
WARNING: Bandwidth or speed degrade detected for IIO port. |
PCIe存在带宽或速度降级,检查PCIe卡的金手指接触情况以及安装是否正常 |
23 |
CPU |
WARNING: CPU BIST detected core issue. Faulty cores have been disabled. |
CPU BIST过程中检查到部分Core异常,且异常的Core已被禁用。 出现该告警后不影响系统正常启动,但部分Core不可用。 |
24 |
CPU |
WARNING: Mismatched CPU microcode. |
检测到CPU的Microcode不匹配。 需要更换为匹配的CPU。 |
25 |
CPU |
WARNING: Mismatched CPU frequency. |
检测到CPU频率不匹配。 需要更换为匹配的CPU。 |
26 |
CPU |
WARNING: Mismatched CPU frequency and microcode. |
检测到CPU 频率和Microcode不匹配。需要更换为匹配的CPU。 |
27 |
CPU |
WARNING: Mismatched CPU stepping. |
检测到CPU的步进不匹配。 需要更换为匹配的CPU。 |
28 |
CPU |
WARNING: Mismatched CPU stepping and microcode. |
检测到CPU的步进和Microcode不匹配。 需要更换为匹配的CPU。 |
29 |
CPU |
WARNING: Mismatched CPU stepping and frequency. |
检测到CPU的步进和频率不匹配。 需要更换为匹配的CPU。 |
30 |
CPU |
WARNING: Mismatched CPU stepping, frequency, and microcode. |
检测到CPU的步进、频率和Microcode均不匹配。 需要更换为匹配的CPU。 |
31 |
BIOS |
ERROR: BIOS flash firmware damaged. System halt occurred. |
BIOS Flash固件损坏,且出现挂死。 请不要在BIOS启动过程中升级BIOS。 出现该告警时,需要以强制覆盖方式重新升级BIOS固件 |
32 |
BIOS |
WARNING: BIOS flash firmware damaged. |
BIOS Flash固件损坏。 请不要在BIOS启动过程中升级BIOS。 出现该告警时,需要以强制覆盖方式重新升级BIOS固件 |
33 |
HDM |
WARNING: Cannot obtain configuration data from HDM. |
未从HDM获取到配置数据,与HDM交互异常,请检查HDM状态或重启HDM |
如图8-9所示,BIOS告警信息为出现在启动阶段的告警打印,用户可根据这些告警信息知道目前出现的异常问题。对于AMD CPU的服务器,BIOS提供的告警信息及对应的处理方式可在表8-3查看。
图8-9 AMD BIOS启动阶段告警示例
表8-3 告警打印及解释(适用于AMD CPU的BIOS)
编号 |
部件 |
BIOS告警打印 |
故障情况及处理方式 |
1 |
HDM |
WARNING: Cannot obtain configuration data from HDM |
未从HDM获取到配置数据,与HDM交互异常,请检查HDM状态或重启HDM |
2 |
HDM |
WARNING: Cannot parse configuration data obtained from HDM |
解析HDM配置数据失败,与HDM交互异常, 请检查HDM状态或重启HDM |
3 |
内存 |
Memory PMU Training error at Socket %d, Board Channel %d (SoC Channel %d) |
内存物理管理单元训练错误,请检查已安装的内存是否安装到位或更换内存 |
4 |
内存 |
Agesa Memory Test error at Socket %d, Board Channel %d (SoC Channel %d) |
内存测试期间发生错误,导致内存测试停止,请检查已安装的内存是否安装到位或更换内存 |
5 |
内存 |
Mixed ECC and non-ECC DIMM in system at Socket %d, Board Channel %d (SoC Channel %d) |
混合使用ECC和non-ECC的内存,更换ECC或non-ECC的内存使其与其他内存一致性(都具有ECC或都没有ECC) |
6 |
CPU |
CCD BIST error at Socket %d Die %d CCD %d |
CPU内部CCD自测失败,请检查已安装CPU,并更换相应的CPU |
7 |
BIOS |
ERROR: BIOS flash firmware damaged. System halt occurred. |
BIOS的版本损坏,可能导致系统挂死或重启,请重刷BIOS版本 |
8 |
BIOS |
WARNING: BIOS flash firmware damaged. |
BIOS的版本损坏,可能导致系统挂死或重启,请重刷BIOS版本 |
如图8-10所示,BIOS告警信息为出现在启动阶段的告警打印,用户可根据这些告警信息知道目前出现的异常问题。对于Hygon CPU的服务器,BIOS提供的告警信息及对应的处理方式可在表8-4查看。
图8-10 启动阶段BIOS告警示例
表8-4 告警打印及解释(适用于Hygon CPU的BIOS)
编号 |
部件 |
BIOS告警打印 |
故障情况及处理方式 |
1 |
USB |
WARNING: No USB Keyboard Present |
USB键盘无法识别,请重新安装USB键盘 |
2 |
CMOS |
ERROR: CMOS BAD. Setup Data loaded default. |
CMOS错误,Setup选项恢复默认值,请取下CMOS电池,重新安装 |
3 |
内存 |
Memory PMU training error at Socket:%d Channel:%d Dimm:%c%d |
内存建链错误,请检查已安装的内存是否安装到位或更换内存 |
固件镜像文件上传失败。
· 固件镜像文件和服务器型号不匹配。
· 有其他人在进行固件升级。
· 固件镜像文件损坏或被篡改。
· 网络通信异常导致上传固件镜像文件失败。
(1) 在固件更新页面选择和固件镜像文件匹配的固件类型,若问题仍然存在,请执行步骤(2)。
¡ 如果是,请等待升级流程结束后再上传固件镜像文件。
¡ 如果否,请执行步骤(3)。
(3) 从H3C官网或H3C技术支持获取完整的固件镜像文件,再重新上传固件,若问题仍然存在,请执行步骤(4)。
¡ 如果是,请联系技术支持。
¡ 如果否,请检查并恢复网络正常通信。
HDM Web界面无法正常访问。
· HDM管理接口的IP地址与HDM客户端的IP地址不在同一网段。
· HDM客户端的代理设置有问题。
· HDM管理接口未连接网线或网络连接处于异常状态。
· 客户端的IP地址或MAC地址被HDM防火墙屏蔽。
· HDM管理接口的IP地址冲突。
· HTTPS服务端口号被修改。
(1) 检查HDM客户端的IP地址和HDM管理接口的IP地址是否在同一网段。
¡ 如果是,请执行步骤(2)。
¡ 如果否,请修改HDM客户端的网络配置。
(2) 检查HDM客户端是否设置了代理。
¡ 如果设置了代理,请取消代理。
¡ 如果否,请执行步骤(3)。
(3) 检查HDM管理接口是否连接网线。
¡ 如果是,请检查网络端口和网线是否处于正常状态。
- 如果是,请执行步骤(4)。
- 如果否,请联系技术支持更换故障部件。
¡ 如果否,请正确连接网线。
(4) 检查是否存在于HDM管理接口相同的IP地址。
¡ 如果是,请修改HDM管理接口的IP地址。
¡ 如果否,请执行步骤(4).
(5) 将显示器连接到服务器VGA接口,再把键盘和鼠标连接到服务器的USB接口,按下前面板上的开机/待机按钮,重启服务器后进入BIOS Setup,执行“恢复HDM默认配置”操作,具体操作请参见服务器的BIOS用户指南。
(6) 若问题仍然存在,请联系技术支持。
配置文件导入失败。
· 配置文件类型和导入配置类型不匹配。
· 配置文件里存在不合法的选项值。
· 配置文件里的产品名称和被导入的服务器型号不一致。
· 导入配置过程中网络中断。
(1) 在配置导入导出页面,选择和配置文件匹配的配置类型,若问题仍然存在,请执行步骤(2)。
¡ 如果是,请执行步骤(3)。
¡ 如果否,请修改不合法的选项值。
(3) 检查配置文件里的产品名称,确保配置文件里的产品名称是否和被导入的服务器型号一致。
¡ 如果是,请执行步骤(4)。
¡ 如果否,请更新配置文件,或选择和配置文件里的产品名称一致的服务器。
(4) 请检查是否存在配置依赖项问题,如果是其他配置文件,请直接执行步骤(5)。
¡ 如果是,请修改配置依赖项。
¡ 如果否,请执行步骤(5)。
¡ 如果是,请联系技术支持。
¡ 如果否,请恢复网络正常通信。
KVM链接无法打开,导致无法访问KVM远程控制台。
· 已开启一个独占模式的KVM会话。
· 未开启KVM服务。
· HDM客户端未配置KVM环境。
· HDM客户端代理设置问题。
· 网络通信问题。
(1) 确认是否已开启一个独占模式的KVM会话。
¡ 如果是,请关闭已开启的KVM会话。
¡ 如果否,请执行步骤(2)。
(2) 进入服务设置页面,如图8-11所示,确认“KVM”服务是否处于开启状态。
¡ 如果是,请执行步骤(3)。
¡ 如果否,请单击“操作”栏的<修改>按钮,开启KVM服务。
(3) 检查HDM客户端是否已正确配置KVM环境。
¡ 如果是,请执行步骤(4)。
¡ 如果否,请正确配置KVM环境,具体操作请参见《HDM用户指南》的“远程控制台”章节。
(4) 检查HDM客户端是否设置了代理。
¡ 如果是,请取消HDM客户端的代理。
¡ 如果否,请执行步骤(5)。
¡ 如果是,请联系技术支持。
¡ 如果否,确保网络通信正常。
能打开KVM会话,但在使用过程中出现以下异常现象。
· KVM键盘鼠标使用异常。
· KVM画面出现异常。
· KVM挂载镜像文件失败。
· 通过KVM挂载OS镜像文件成功,安装OS缓慢或失败。
· OS侧配置问题
· 网络通信问题
· HDM配置问题
· KVM键盘鼠标使用异常。
a. 更换鼠标模式,选择体验最佳的鼠标模式。
b. 如使用的是直连服务器的键盘和鼠标,建议切换为HDM客户端直连的键盘和鼠标。
c. 若问题仍然存在,请联系技术支持。
· KVM画面出现异常。
a. 检查网络通信是否正常。
- 如果是,请执行步骤b。
- 如果否,请恢复网络正常通信。
b. 建议调低服务器OS的分辨率,降低网络传输压力。
c. 若问题仍然存在,请联系技术支持。
· KVM挂载镜像文件失败。
a. 进入服务配置页面,如图8-12所示,确认“CD-Media”、“FD-Media”、“HD-Media”服务是否处于开启状态。
- 如果是,请执行步骤b。
- 如果否,请单击“操作”栏的<修改>按钮,开启服务。
- 如果是,请联系技术支持。
- 如果否,请恢复网络正常通信。
· 通过KVM挂载OS镜像文件成功,安装OS缓慢或失败。
a. 检查网络通信是否处于正常状态。
- 如果是,请执行步骤b。
- 如果否,请恢复网络正常通信。
b. 检查HDM客户端连接的是否是I350芯片的网卡的共享网口,且网络传输速率在1Gbps及以上。
- 如果是,请将HDM客户端环境的网卡属性设置成“100 Mbps全双工”模式,如图8-13所示。
- 如果否,请执行步骤c。
c. 请将HDM客户端连接到服务器的专用网口,重新挂载镜像文件后,再安装OS。
d. 若问题仍然存在,请联系技术支持。
通过H5 KVM挂载OS镜像文件成功,安装OS缓慢或失败。
· 网络通信问题
· HDM配置问题
(1) 检查网络通信是否处于正常状态。
¡ 如果是,请执行步骤(2)。
¡ 如果否,请恢复网络正常通信。
(2) 确认当前H5 KVM会话是否为非加密模式。
¡ 如果是,请执行步骤(3)。
¡ 如果否,请退出当前会话并启动非加密模式的H5 KVM,再重新安装OS。
(3) 检查HDM客户端连接的是否是I350芯片的网卡的共享网口,且网络传输速率在1Gbps及以上。
¡ 如果是,请将HDM客户端环境的网卡属性设置成“100 Mbps全双工”模式,如图8-14所示。
¡ 如果否,请执行步骤(4)。
(4) 请将HDM客户端连接到服务器的专用网口,重新挂载镜像文件后,再安装OS。
(5) 若问题仍然存在,请联系技术支持。
服务器的HDM版本低于1.30.11时,通过服务器诊断功能扫描设备信息时,发现部分模块如BIOS、HDM、Fan、PSU、Temperature的信息与实际状态不符。
服务器诊断功能获取的信息来源于HDM的SDS日志,如果HDM的版本低于1.30.11版本,诊断功能获取的是上一次下载的SDS日志,不具有实时性,才会出现与实际状态不符的问题。
(1) 在HDM页面执行“一键收集”操作,下载全部SDS日志,下载完成后,再重新扫描设备信息。
服务器诊断功能无法诊断逻辑盘的成员盘。
服务器诊断功能无法获取逻辑盘的成员盘的设备路径,所以无法对该硬盘进行诊断测试。
(1) 确认逻辑盘中是否包含重要数据。
¡ 如果是,请联系技术支持。
¡ 如果否,删除逻辑盘后再重新开始服务器诊断操作,再执行步骤(2)。
(3) 若问题仍然存在,请联系技术支持。
iFIST软件启动失败。
· BIOS版本和当前iFIST版本不配套。
· iFIST软件未正确安装。
(1) 重启iFIST。
(2) 更新BIOS固件版本,再重启iFIST。和iFIST配套的BIOS版本信息,请参见《iFIST版本说明书》中的“版本配套表”。
(3) 更新iFIST,具体操作请参见《iFIST用户指南》的“更新iFIST”章节。
(4) 若问题仍然存在,请联系技术支持。
通过HDM升级BIOS固件,选择了“配置覆盖”或“强制覆盖”升级方式,升级完成后,PCH板载软RAID组建的逻辑盘中的数据丢失。
PCH板载软RAID的缺省模式为AHCI。当选择“配置覆盖”或“强制覆盖”完成BIOS固件升级后,PCH恢复缺省设置,即PCH板载软RAID的模式恢复为AHCI,该模式无法识别逻辑盘,从而导致数据丢失。
(1) 手动将PCH板载软RAID的模式切换为RAID模式,保存配置并重启服务器。
(2) 如果重启后仍然无法识别RAID,则表示数据无法恢复,需重新配置RAID。
安装操作系统过程中,操作系统无法识别PCH板载软RAID创建的逻辑盘,所以无法对该逻辑盘进行分区操作。
· 待安装操作系统与PCH板载软RAID不兼容。
· 逻辑盘中的成员盘含有残留数据,导致逻辑盘无法被识别。
(1) 确保待安装操作系统与PCH板载软RAID兼容,兼容性可通过OS兼容性查询工具查询。
(2) 在操作系统安装界面按下“Ctrl+Alt+F2”组合键切换至命令行界面,如图8-15所示,输入dmsetup ls命令,查看PCH板载软RAID创建的逻辑盘中成员盘残留的逻辑卷信息,并记录逻辑卷的完整名称,如xxxx。
(3) 如图8-16所示输入dmsetup remove <逻辑卷名称>依次删除这些残留信息,然后输入reboot重启服务器,将操作系统重新安装即可识别。
(4) 若问题仍然存在,请联系技术支持。
如图所示,使用mdadm工具在板载NVMe RAID中,将RAID1迁移至RAID5出现错误导致迁移失败。
因为使用mdadm工具对NVMe进行写的操作会被SELinux阻塞,这是SELinux作为Linux系统下的安全子系统,为了保障系统安全会阻止、限制一些应用的行为。
进行迁移、扩容前关闭SELinux。以下提供两种关闭SELinux的方法:
l 临时关闭SELinux:在grub界面加上内核参数"selinux=0"或在系统下执行命令“setenforce 0”,无需重启;由于是临时关闭,下次启用系统需要重新设置。
l 永久关闭SELinux:打开编辑/etc/selinux/config,将SELINUX=enforcing'行改成SELINUX=disabled'重启生效,下次启用系统时无需重新设置。
如图所示,RHEL系统下执行mdadm -C命令组建逻辑盘或container时,采用/dev/nvme[XX-XX]n1或者[XX,XX]格式时,无法正常识别双位盘序,如图8-17和图8-18所示。
图8-17 使用“[XX-XX]“通配创建容器异常
图8-18 使用“[XX,XX]“通配创建容器异常
Linux bash shell在通配符中规定,匹配中括号“[]”里面的数字时,在表示区间时只能是单位数字,不能使用双位数字。
当出现双位盘符时可以分开书写,不使用“[]”通配,如图8-19所示。
图8-19 不使用“[]“通配创建容器成功
在板载NVMe RAID中创建RAID失败。
所创建的RAID级别等参数不在NVMe VROC Key支持范围,或创建的磁盘数量不在当前RAID级别支持范围等。
· 请确保创建的RAID级别等参数和NVMe VROC Key规格匹配、磁盘数量和RAID级别匹配。
· 具体请通过《H3C服务器 存储控制卡用户指南》查询。
获取部件的驱动和固件时,请关注如下注意事项。
请通过OS兼容性查询工具,查询该部件兼容某操作系统时,推荐使用的驱动和固件版本,并通过H3C官网下载。
HDM和固件的适配关系,请参见HDM版本说明书。
BIOS和固件的适配关系,请参见BIOS版本说明书。
需要注意的是,如下MLOM网卡的固件集成在BIOS中,只能通过升级BIOS的方式来升级网卡的固件。
表8-5 固件集成在BIOS中的部件
部件类型 |
部件型号 |
MLOM网卡 |
NIC-10GE-2P-560F-L2 |
MLOM网卡 |
NIC-10GE-2P-560T-L2 |
MLOM网卡 |
NIC-GE-4P-360T-L3 |
升级前,请确认软件、固件和驱动的兼容性,详见对应的版本说明书。
通过升级服务器的软件、固件和驱动版本,可以解决很多常见问题。
服务器支持升级的软件、固件和驱动版本如表9-1所示。
表9-1 服务器支持升级的软件、固件和驱动
服务器类型 |
可升级的软件、固件和驱动 |
机架服务器 |
· 主机固件:HDM、BIOS和CPLD · 部件的固件和驱动。部件包括:硬盘、硬盘背板、存储控制卡、网卡、GPU卡、FC HBA卡、电源模块等 |
· HDM、BIOS、UniSystem、iFIST软件的配套手册是区分软件版本的,使用这类手册时,需要根据您所使用的软件版本,查看对应的手册和版本说明书。
· 本章节罗列的配套资料及其内容,可能随版本不定期更新,请以官网获取到的实际资料为准。
本章节介绍机架服务器升级版本时,可参考的配套资料。
· 主机软件版本说明书
· 固件更新指导书
· 服务器REPO使用指导书
· 主机软件版本说明书
· 服务器REPO使用指导书
· UniSystem用户指南
· UniSystem安装指导
· UniSystem联机帮助
· 固件更新指导书
· option驱动和固件版本说明书
· 服务器REPO使用指导
· 操作系统安装指导
· option驱动和固件版本说明书
· 服务器REPO使用指导
· UniSystem用户指南
· UniSystem安装指导
· UniSystem联机帮助
手册名称 |
手册内容 |
主机软件版本说明书 |
介绍了服务器主机软件版本(HDM、BIOS)的详细信息,包括如下内容: · 版本信息 · 该版本与其他软件的版本配套关系 · 软硬件及操作变更情况 · 版本使用限制 · 版本升级方法 |
服务器REPO使用指导 |
用户在使用和维护服务器过程中,会按需升级固件和驱动 REPO是一个固件和驱动的合集,包括HDM、BIOS、CPLD、存储控制卡等部件的固件和驱动,本文介绍了通过REPO单台或批量升级固件和驱动的方法 |
固件更新指导书 |
用户在使用和维护服务器过程中,会按需升级固件版本。本文介绍了单台或批量升级HDM、BIOS、CPLD和PSU等固件的方法 |
UniSystem用户指南 |
UniSystem是一款服务器管理工具,可以快速灵活地批量配置机架服务器、刀箱服务器和交换机。本文从面向任务的角度介绍了UniSystem的功能配置,包括如下内容: · 批量管理服务器 · 批量安装操作系统 · 批量配置RAID · 批量更新驱动和固件 · 克隆安装 · 刀箱和系统管理 |
UniSystem安装指导 |
UniSystem是一款服务器管理工具,可以快速灵活地批量配置机架服务器、刀箱服务器和交换机。本文介绍了UniSystem安装和使用的方法 |
UniSystem联机帮助 |
UniSystem是一款服务器管理工具,可以快速灵活地批量配置机架服务器、刀箱服务器和交换机。本文内嵌在UniSystem Web界面中,介绍了UniSystem每个Web界面可配置功能的相关信息 |
option驱动和固件版本说明书 |
介绍了服务器各类可扩容部件的驱动程序、固件版本的版本信息和升级方法 |
操作系统安装指导 |
介绍了服务器操作系统的安装方法及具体安装步骤,包含如下内容: · 操作系统安装流程 · 常规模式安装操作系统 · 通过UniSystem安装操作系统 · 通过iFIST安装操作系统 · 部件驱动安装步骤 |
H3C服务器软件之间的关系如图10-1所示。
· HDM对内与BIOS、iFIST和各类部件(包括部件的固件)进行交互,实现对服务器的监控和管理;对外与各类管理工具、运维系统及用户进行交互。
· BIOS引导OS与iFIST启动,向HDM上报各类信息。
· iFIST可以实现RAID配置、操作系统自动安装、关键硬件诊断功能。
· FIST是服务器的批量管理工具,配合REPO支持对服务器的HDM、BIOS、部件固件和驱动等进行批量升级。
· U-Center、UniSystem等运维系统可以基于HDM、FIST SMS和iFIST对服务器进行批量监控管理。
· FIST SMS 是运行在服务器OS上的一个服务程序,主要用于支撑UniSystem和HDM的部分功能。
BIOS(Basic Input Output System,基本输入输出系统)固化在系统ROM中,是加载在服务器硬件系统上最基本的运行程序。BIOS在系统中位于服务器硬件和操作系统之间,用来初始化硬件,为操作系统运行做准备。
服务器故障时,可通过BIOS提供的以下方式定位或处理。
· 启动中出现异常,可以在HDM页面查看BIOS上报的开机自检码,对照HDM用户指南中对开机自检码的说明,确认故障问题。
· 通过BIOS Setup界面查看处理器、内存、接入的设备信息及选项配置。BIOS Setup选项配置信息可以通过HDM导出和查看。
· 启动到UEFI Shell命令行环境,H3C BIOS支持UEFI原生的Shell命令,可用于执行efi应用程序、加载efi设备驱动、引导操作系统等。
· 遇到不可处理的故障,需要联系技术支持时,可以通过连接BIOS串口或IPMI SOL功能收集BIOS日志。打开Debug模式可以获取更为详细的日志信息。
开机自检码包括BIOS启动中的各个阶段信息以及错误码信息,BIOS会向HDM上报自检码。当服务器启动过程中遇到异常时,可以查看如图10-2所示的HDM中保存的开机自检码,协助分析POST故障原因。
对开机自检码的详细说明请参见HDM用户指南中的“开机自检码”章节。
HDM支持导出BIOS选项的当前配置,如图10-3所示。
服务器故障时,可以导出BIOS当前配置。再换用另一台正常机台,更新相同版本的BIOS,不修改任何BIOS选项,导出默认的BIOS Setup配置,与故障服务器BIOS配置对比,分析差异项,寻找可能的故障原因。
BIOS内置了UEFI Shell命令行,可以在BIOS Setup中启用该功能。
(1) 如图10-4所示,设置EFI Shell Boot选项为Enabled。
图10-4 设置EFI Shell Boot选项(示例)
(2) 重启生效后,按F7进入Boot Menu,选择UEFI:Built-in EFI Shell启动项,如图10-5所示。
图10-5 选择UEFI:Built-in EFI Shell(示例)
(3) 进入UEFI Shell界面。如图10-6所示,通过help命令查看支持的Shell命令。
图10-6 UEFI Shell界面(示例)
打开BIOS的Debug模式可以获取更详细的BIOS日志,但会延长启动需要的时间,通常用于故障定位。
BIOS的Debug模式默认关闭,如需设置可进入BIOS Setup的Advanced -> Miscellaneous Configuration界面,设置Debug Mode选项为Enabled,启用Debug模式,如图10-7和图10-8所示。
下面介绍收集BIOS日志的两种方式。
· 连接BIOS串口线(BIOS串口的位置请查看对应产品的用户指南),使用串口客户端工具,例如Putty,配置访问BIOS串口,在启动过程中保存BIOS日志。
· 通过IPMI SOL功能保存BIOS串口日志,命令如下:
ipmitool.exe –I lanplus –H { hdm_ip } –U { username } –P { password } sol activate > debug.txt
H3C设备管理系统(Hardware Device Management,以下简称HDM)是H3C自主研发的服务器远程管理系统。HDM兼容服务器业界管理标准IPMI、SNMP、Redfish,支持键盘、鼠标和视频的重定向,文本控制台的重定向,串口重定向,远程虚拟媒体,高可靠的硬件监控和管理功能。HDM提供了丰富的特性。
· 丰富的管理接口
提供IPMI/HTTPS/SNMP/Redfish管理接口,满足多种方式的系统集成需求。
· 兼容IPMI1.5/IPMI2.0
提供标准的管理接口,可被标准管理系统集成。
· 基于Web界面的用户接口
可以通过简单的界面操作快速完成设置和查询任务。
· 支持Redfish管理接口
降低开发复杂性,易于实施、易于使用、易于扩展。
· 故障监控和诊断
故障监控和诊断,通过精准定位与诊断,指导运维人员快速解决问题,保障设备7*24小时高可靠运行。
· 虚拟KVM和虚拟媒体
提供方便的远程维护手段。
· 截屏与录像
通过截屏和录像可以快速分析系统崩溃的原因。
· 支持SDS
HDM SDS (Smart Diagnose System,智能诊断系统),是一个全生命周期的设备智能诊断系统,能够对服务器主要硬件发生的故障进行快速、精准的检测与诊断。
· 支持DNS/LDAP/AD
域管理和目录服务,简化服务器管理网络。
· RAID带外管理
支持RAID的带外监控和配置,提升了RAID配置效率和管理能力。
· 双镜像备份
提高系统的安全性,即使当前运行的软件完全崩溃,也可以从备份镜像启动。
· 设备资产管理
资产信息管理的核心是采集部件的唯一编码,HDM通过读取FRU(Field Replace Unit,现场可更换单元)信息,采集服务器及相关部件的唯一编码,让资产盘点不再困难。
· 支持智能电源管理
功率封顶技术帮助管理员轻松提高部署密度;动态节能技术帮助您有效降低运营成本。
· 安全管理
从接入、账号、传输、存储四个维度保障服务器管理的安全。支持黑白名单(防火墙)、用户管理、接口服务管理和SSL等功能。
· 联合管理
联合实现小规模服务器的统一管理,降低了中小企业服务器运维管理的成本。
· LCD液晶显示屏
部分机架服务器可选配3.5英寸可触摸LCD液晶显示屏,方便了服务器的临场巡检或维护。
下面介绍通过HDM远程处理服务器故障的通用思路:
(1) 登录到HDM Web界面,确认目前设备运行状态。在登录后的主页面查看以下整体概况信息:
¡ 基本状态
¡ 基本信息
¡ 服务器电源
(2) 如果基本状态不正常,请检查是否存在事件日志告警或传感器状态异常。
(3) 检查已安装硬件的信息是否完整显示。
(4) 根据服务器实际故障的情况,执行以下操作(如有需要,可联系技术支持指导操作):
¡ 恢复HDM出厂配置
¡ 重启HDM
¡ 更新HDM、BIOS、CPLD、PSU固件
¡ 导入或导出HDM、BIOS和RAID的配置
UniSystem是H3C自主研发的服务器配套软件,可以快速灵活地配置服务器,智能地引导用户使用服务器,是一款智能的、可扩展的服务器管理工具。
UniSystem可运行在PC机或服务器中,作为一款服务器批量管理维护工具,可帮助企业更好地对系统进行管理、监控、更新及信息查询,简化管理。
同时,作为AE模块的出厂内置软件,UniSystem不仅可以管理本地机箱,还能够管理网络中的其他机箱服务器、机架服务器、交换机等设备,适用于混合IT架构和集群式管理。
UniSystem主要支持以下功能(部分功能仅UniSystem服务端部署在AE模块时可用):
· 设备管理:UniSystem支持机箱、服务器、交换机多种设备的集中管理,包括添加设备,查看设备信息以及设备管理的常用操作。
· 模板管理:UniSystem的服务器管理使用以服务器配置模板为统一入口的模块化配置,为设备配置BIOS、HDM、RAID、OS等参数,帮助设备快速上线。
· 部署:部署功能包括机箱、服务器配置模板的批量应用及固件和驱动的更新,提升部署效率。
· 监控告警:通过告警转发等对服务器状态进行监控及告警,可以快速定位并及时处理故障,提高日常运维管理效率。
· 工具集:提供服务器使用过程中的常用工具。
· 系统设置:针对UniSystem服务端自身的系统设置及管理功能。
iFIST(integrated Fast Intelligent Scalable Toolkit,集成化的快速智能可扩展工具集)是一款内嵌于服务器的单机智能部署工具,用户启动服务器并完成初始化工作之后,根据界面提示操作即可进入iFIST系统,无需用户安装。
iFIST提供简洁的用户界面,帮助客户完成RAID配置、操作系统自动安装、服务器诊断和下载日志功能。提供了一种新的配置RAID、安装操作系统的方式,满足用户对单台服务器进行本地管理的需求。
iFIST适用于单台服务器进行本地管理的情况。在无法远程登录HDM的情况下,也可以通过显示器、键盘、鼠标本地直连服务器登录iFIST进行部署,提供更为便利的带内部署服务器的途径。
Redfish®是一种遵循DMTF组织定义的标准规范和架构。该标准基于RESTful架构,支持HTTP/HTTPs两种请求方式,每个Redfish请求都以UTF-8编码的JSON格式提交并返回一个资源结果。该标准具有降低开发复杂性,易于实施、易于使用而且提供了可扩展性优势,被称为“下一代数据中心管理标准”。
HDM(Hardware Device Management)是H3C自主研发的服务器远程管理系统,支持对通过Redfish API接口管理服务器。通过它可以实现简化服务器配置过程、查看服务器组件信息、监控服务器运行状况以及远程控制服务器等功能。
关于Redfish的技术介绍和接口文档说明请参见H3C官网上的《H3C HDM Redfish参考手册》。
IPMI(Intelligent Platform Management Interface,智能平台管理接口)是一项应用于服务器管理系统的标准。IPMI 的主要特性是可独立于处理器、BIOS和操作系统,有助于对不同类型的服务器实施系统管理,使不同平台的集中管理成为可能。
在IPMI管理平台中,BMC(Baseboard Management Controller,基板管理控制器)是核心控制器,系统管理软件主要是通过和BMC通信来实现管理功能。
IPMI提供了一组应用于带外管理和监视的功能:
· 资产管理
· 故障监视
· 日志记录
· 恢复控制
HDM支持的IPMI命令,请参考H3C官网上的《H3C HDM IPMI基础命令参考手册》。
PMC存储控制卡可通过PMC官方提供的Arcconf命令行工具进行配置信息收集。
· Arcconf命令行工具的安装方法,请参见PMC官网的Arcconf使用手册。不同操作系统下,工具的安装方法不同。
· Arcconf命令行工具的启动方法如下,不同操作系统下略有不同。但进入命令行界面后,命令操作完全一致,具体的命令行请参见PMC官网的Arcconf使用手册。
¡ Windows操作系统:用键盘输入WIN+R,在弹出的对话框中输入cmd进入Windows操作系统命令行界面,然后输入arcconf进入Arcconf命令行工具。
¡ 除Windows操作系统外:无需输入任何命令,Arcconf命令行工具默认开启。
(1) RAID创建与删除。
(2) 热备盘的创建与删除。
(3) 逻辑盘迁移、扩容。
(4) 通过点灯方式定位硬盘位置。
(5) 升级存储控制卡固件。
(6) 升级存储控制卡驱动。
(7) 收集存储控制卡的阵列日志。
Arcconf命令行工具使用手册,包括如下获取方式:
· 联系H3C技术支持获取。
· 通过PMC官网获取。(官网下载路径可能会变化,有问题请联系H3C技术支持)
¡ https://storage.microsemi.com/en-us/downloads/
¡ https://storage.microsemi.com/en-us/support/raid/sas_raid/asr-3154-8i/
LSI存储控制卡可通过LSI官方提供的StorCLI命令行工具进行日志收集。
· StorCLI命令行工具的安装方法,请参见LSI官网的StorCLI使用手册。不同操作系统下,工具的安装方法不同。
· StorCLI命令行工具的启动方法如下,不同操作系统下略有不同。但进入命令行界面后,命令操作完全一致,具体的命令行请参见LSI官网的StorCLI使用手册。
¡ Windows操作系统:用键盘输入WIN+R,在弹出的对话框中输入cmd进入Windows操作系统命令行界面,然后输入storcli进入StorCLI命令行工具。
¡ 除Windows操作系统外:无需输入任何命令,StorCLI命令行工具默认开启。
(1) RAID创建与删除。
(2) 热备盘的创建与删除。
(3) 逻辑盘迁移、扩容。
(4) 通过点灯方式定位硬盘位置。
(5) 升级存储控制卡固件。
(6) 升级存储控制卡软件驱动。
(7) 收集存储控制卡的阵列日志。
StorCLI命令行工具使用手册,包括如下获取方式:
· 联系H3C技术支持获取。
· 通过LSI官网获取。(官网下载路径可能会变化,有问题请联系H3C技术支持)
¡ https://docs.broadcom.com/doc/pub-005110
¡ https://www.broadcom.com/products/storage/raid-controllers/megaraid-9460-8i
· 服务器用户指南:介绍服务器产品的硬件结构、规格、安装和更换等信息。
· 拆卸和安装视频:介绍服务器相关硬件的拆卸和安装。
· 产品介绍视频:介绍服务器的整体信息。
访问H3C官网 >支持 > 文档中心 > 服务器。
· 服务器软件用户指南:介绍服务器软件的功能和配置方法等信息。
· 软件配置视频:介绍服务器相关软件的配置方法。
访问H3C官网 >支持 > 文档中心 > 服务器。
· OS兼容性查询工具:查询服务器兼容的操作系统。
· 服务器兼容的部件查询工具:查询服务器部件和操作系统的兼容性。
· 部件兼容的服务器查询工具:查询部件兼容的所有服务器。
· 组网查询工具:查询刀片服务器中,Mezz网卡和互联模块的接口连接关系。
访问H3C官网 >支持 > 文档中心 > 服务器。
介绍HDM的告警日志信息,包含日志的内容、参数介绍、等级、含义和处理建议等,为用户进行系统诊断和维护提供参考。
访问H3C官网 >支持 > 文档中心 > 服务器。
· 服务器主机软件和固件版本、以及版本说明书。主机软件和固件包括:HDM、BIOS、CPLD、UniSystem、iFIST、OM、互联模块等。
· 服务器中部件的驱动和固件版本、以及版本说明书。部件包括:硬盘、存储控制卡、网卡、GPU卡、FC HBA卡等。
访问H3C官网 >支持 > 软件下载 > 服务器。