• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 关于我们

H3C UniServer R5500 G5服务器 Baseboard故障处理手册-6W101

手册下载

H3C UniServer R5500 G5服务器 Baseboard故障处理手册-6W101-整本手册.pdf  (5.90 MB)

  • 发布时间:2024/8/17 5:16:23
  • 浏览量:
  • 下载量:

H3C UniServer R5500 G5服务器 Baseboard

故障处理手册

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

资料版本:6W101-20240815

 

Copyright © 2024新华三技术有限公司 版权所有,保留一切权利。

非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。

除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。

本文档中的信息可能变动,恕不另行通知。



1 SXM4 GPU故障处理

1.1  概述

1.1.1  使用场景

本章节主要介绍H3C UniServer R5500 G5服务器HGX A800 8-GPU组件中单个SXM4发生故障时的处理方法。

1.1.2  故障处理流程

本节主要介绍SXM4故障处理的基本流程,包括故障信息收集、确认故障SXM4位置、确认SXM4型号、更换故障SXM4和固件更新等步骤。故障处理的指导思想是根据故障现象初步确定故障出现的可能的原因,并结合软硬件日志诊断及测试验证结果,最终确定故障GPU,并采取对应措施解决问题。

图1-1 SXM4故障处理流程


1.2  故障定位

1.2.1  操作场景

说明

·     HGX A800 8-GPU组件包含8GPU,其中每个GPU对应一个SXM4,本手册介绍当GPU故障时,定位并更换对应SXM4的操作步骤。

·     除本章节提到的故障类型可单独更换SXM4,其他故障类型均需更换整个组件。

 

本章节介绍当单个SXM4故障时,进行故障定位的方法。

1.2.2  故障现象

·     进入HDM系统管理,在“系统信息”选项中查看PCIe设备中GPU设备显示为7个。

·     OS下执行命令“nvidia-smi”时,回显内容中GPU设备数量显示为7个。

1.2.3  诊断步骤

1. 故障信息收集

(1)     在操作系统下查看lspci -vt信息。

¡     如果1SWITCH下存在2GPU,代表正常。如1-2所示。

图1-2 正常lspci topo-1

 

¡     如果1SWITCH下只有1GPU,则代表异常,如1-3所示。

图1-3 丢失一个GPUlspci topo

 

(2)     明确部分GPU丢失后,在当前环境下获取GPU组件内部的FPGAField Programmable Gate Arrays,可编程阵列逻辑)信息

说明

HDM_V100R001B05D058 2.70版本开始支持IPMI命令读取FPGA数据

 

查看单个GPU power good状态,执行如下命令ipmitool -H HDM IP地址 -U HDM用户名 -P HDM密码 -I lanplus raw 0x36 0x0b 0xa2 0x63 0x00 0x65 0x19正常反馈结果为:a2 63 00 04 00 00 00 ff ff 00 00

如果反馈结果中对应的ff ff处内容与正常反馈结果不一致,则代表GPU组件异常,通过此处结果也能读出具体是哪个GPUPower good异常。ff ff换算16进制为二进制后是1111 1111 1111 11111为正常,0为异常,从右往左数的前八位数依次代表GPU1~8。例如:返回值为ff bf时,换算为二进制即为1111 1111 1011 1111,从右往左数为第七位,即GPU7Power good异常HDM页面上显示为slot7不在位

(3)     建议重启系统或者在下电状态下插拔GPU组件。注意观察连接器是否存在明显物理损坏的情况。如果连接器受损,需要更换整个GPU组件。

(4)     建议重启系统或者在下电状态下插拔GPU组件后,再次收集GPU组件的FPGA信息,以确认丢失的是同一个GPU而不是随机掉卡的情况。

2. 确认故障GPU位置

现场进行Fieldiag测试后,查看该路径下的文件:\logs-20220607-111901\logs-20220607-111901\run.log

1-4所示,其中不同的SN的总数为7,可以根据文件中的SN号与实际GPU上的SN号对应。其中,可以在文件中找到SNGPU,是无故障GPU;无法在文件中找到的那个GPU,即为有问题的GPU

图1-4 log文件

 

GPU丢失时,可以先通过HDM上显示的丢失GPU的槽位号来确认故障GPU的物理槽位。为避免HDM出现位置误报而导致GPU错换,可以根据Fieldiag结果中的SN与物理槽位上SN二次核对,以确定故障GPU的槽位。

其中,HDM中的PCIe槽位号与物理GPU槽位的对应关系如下1-1所示。

表1-1 HDMPCIe槽位号与物理GPU槽位对应关系(仅适用于风冷)

HDMPCIe槽位号

物理GPU槽位

1

GPU1

2

GPU2

3

GPU3

4

GPU4

5

GPU5

6

GPU6

7

GPU7

8

GPU8

 

物理GPU槽位位置关系如下1-5所示。

图1-5 物理GPU槽位位置关系示意图

 

3. 确认故障GPU型号

在经过之前的判断后,单个SXM4可能存在三种型号:PG506 40GBPG506 80GB,和PG510 80GB,处理方式分别如下:

·     PG506 40GB:不涉及单个SXM4更换,直接更换GPU组件。

·     PG506 80GB:更换型号为PG506 80GB的单个SXM4

·     PG510 80GB:更换型号为PG510 80GB的单个SXM4

如何根据Fieldiag Log内容判断SXM4型号

在解压后的文件包中找到skucheck文件夹,然后打开文件夹中的skucheck.log文件。如果内容中有PG506则更换为相应的PG506备件;如果内容中有PG510,则更换为相应的PG510备件。

图1-6 Fieldiag Log

 

如何判断故障SXM440G还是80G

HDM页面查看GPU件的信息可以判断SXM4的容量。以HGX A800 8-GPU组件为例,在HDM页面查看GPU组件产品名称后缀40G还是80G可进行判断。

图1-7 查看GPU组件信息

 

通过以上的方法,就可以确定是否需要更换单个SXM4以及需要更换的型号。


 

1.3  更换SXM4

说明

本章节以更换风冷SXM4举例。更换液冷SXM4时,请先拆卸漏液检测传感器线缆,其余步骤操作逻辑与风冷基本相同,不再赘述。

 

1.3.1  操作场景

完成故障定位后,确认需要更换SXM4

1.3.2  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     请提前准备好需要的工具:T10螺丝刀1把,对长度无要求;PH2螺丝刀1把,建议螺丝刀净长不小于150mm

·     更换部件前,请检查是否已拆除机箱两侧的运输螺钉,确保拆除后,才能拉出GPU模块。

1.3.3  更换步骤

注意

·     请务必保留备件SXM4包材。SXM4更换后,故障SXM4需使用备件SXM4包材包装返厂。

·     SXM4连接器针脚较脆弱,更换过程中请勿碰撞连接器针脚,防止造成连接器损坏。

 

1. 拆卸SXM4

(1)     将服务器下电。

(2)     拆卸所有电源。

(3)     拆卸GPU组件

a.     按下GPU组件两侧解锁按钮。

图1-8 解锁按钮

 

b.     23人合力将GPU组件缓缓拉出并托住,之后放置于平稳工作台。

(4)     拆卸工字型固定架。

a.     使用T10螺丝刀,移除固定架上的4颗固定螺钉。

图1-9 拆卸螺钉

 

b.     将固定架向上抬起,使其脱离GPU组件。

图1-10 拆卸固定架

 

(5)     拆卸SXM4

a.     拆卸SXM4两侧的塑料挡板。双手拇指向外轻抠塑料挡板上方缝隙,垂直向上提起塑料挡板。

图1-11 拆卸SXM4两侧的塑料挡板


b.     使用PH2螺丝刀,对角依次拧开SXM4上的4颗绿色松不脱螺钉。

注意

·     拆卸松不脱螺钉前请注意观察,仅拆卸4颗绿色松不脱螺钉,银色带弹簧的螺钉不要拆除,否则可能导致GPU损坏。

·     请务必对角拧开SXM4上的螺钉,否则可能导致GPU受应力损坏。

 

图1-12 拆卸螺钉

 

c.     SXM4向上提起,使其脱离GPU组件。

注意

拆卸下的SXM4,请将连接器向上放置在平稳工作台上,避免将连接器向下放置,损坏底部连接器。

 

图1-13 拆卸SXM4

 

2. 安装SXM4

(1)     安装SXM4

a.     确认要更换的新SXM4SN码,进行记录,以便后续更新固件时使用。SN码位置如1-14所示。

图1-14 SN码位置

 

b.     SXM4底部2个导向销对准GPU组件底板的导向孔,向下放置在GPU组件底板上。

图1-15 安装SXM4

 

c.     使用PH2螺丝刀,对角依次拧紧SXM4上的4颗绿色松不脱螺钉。

注意

请务必对角拧紧SXM4上的螺钉,否则可能导致GPU受应力损坏。

 

图1-16 固定松不脱螺钉

 

d.     安装SXM4两侧的塑料挡板。将塑料挡板分别卡入SXM4两侧固定槽位。

图1-17 安装SXM4两侧的塑料挡板

 

(2)     安装工字型固定架。

a.     将固定架向下放置在GPU组件中。

图1-18 安装固定架

 

b.     使用T10螺丝刀拧紧4颗固定螺钉。

图1-19 安装螺钉

 

(3)     安装GPU组件23人合力将GPU组件抬起并沿水平方向缓缓推入节点槽位中,并闭合扳手

(4)     安装所有电源。

(5)     将服务器上电。


2 Baseboard更换指导

2.1  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     请提前准备好需要的工具:T15螺丝刀,建议螺丝刀净长不小于150mm

·     更换部件前,请检查是否已拆除机箱两侧的运输螺钉,确保拆除后,才能拉出GPU模块。

2.2  更换Baseboard

1. 拆卸Baseboard

(1)     SXM4拆卸前请记录其所在位置顺序,SXM4全部拆卸后即可拆卸Baseboard,拆卸SXM4的具体操作步骤请参见1.3  1. 拆卸SXM4

(2)     SXM4全部拆卸后请使用T15螺丝刀移除固定架上的2颗螺钉,拆卸Baseboard上的黑色隔板,如2-1所示。

图2-1 Baseboard黑色隔板的螺钉安装/拆卸位置

 

(3)     使用T15螺丝刀拆除Baseboard上的16颗螺钉,螺钉位置如2-2所示,拆卸完成后Baseboard与外部插框将脱离,拆卸下的部件请妥善保管以备部件安装时再次使用。

图2-2 Baseboard的螺钉安装/拆卸位置

 

2. 安装Baseboard

(1)     Baseboard置于外部插框后,使用T15螺丝刀拧紧Baseboard上的16颗螺钉,螺钉位置如2-2所示。

(2)     Baseboard安装后,请将之前拆卸下的黑色隔板对准Baseboard上的螺钉位置,使用T15螺丝刀拧紧固定架上的2颗螺钉,如2-22-1所示,

图2-3 Baseboard黑色隔板的固定螺钉

 

(3)     按照SXM4拆卸前记录的位置顺序逐个安装SXM4,具体操作步骤请参见1.3  2. 安装SXM4


3 固件更新

3.1  更换故障SXM4

3.1.1  操作场景

本章节旨在指导工程师在更换故障SXM4后,更新其固件版本,以确保与其他SXM4固件版本保持一致。

3.1.2  准备工作

1. 准备含Fieldiag系统环境的U

说明

HGX-A800 40G80G使用同一fieldiag工具,请注意使用最新发布的版本。

 

准备116G或以上的含Fieldiag系统环境的U盘。

图3-1 Fieldiag系统环境的U

 

2. 风扇配置

在电源满配状态下,记录客户的风扇调速模式后,将其调整为强劲模式。

图3-2 风扇配置界面

 

3. BIOS设置

记录当前BIOSBoot mode select模式后,将BIOS设置为UEFI模式。

图3-3 BIOS设置界面

 

4. IOMMUSR-IOV设置

记录客户的IOMMUSR-IOV设置,然后将IOMMU设置为Disable,并把SR-IOV设置为Enable

·     针对AMD主板需检查事项。

¡     需要在BIOS下运行Fieldiag,并将IOMMU设置为Disable,同时将SR-IOV设置为Enable

-     IOMMU的具体设置方法如下:Advanced > AMD CBS > NBIO Common Options > IOMMU [Disable]

图3-4 IOMMU设置界面

 

-     SR-IOV的具体设置方法如下:Advanced > PCI Subsystem Settings > SR-IOV Support [Enable]

图3-5 SR-IOV设置界面

 

·     针对Intel主板需检查事项。

¡     需要在BIOS下运行Fieldiag,并将SR-IOV设置为EnableSR-IOV的具体设置方法如下:Advanced > PCI Subsystem Settings > SR-IOV Support [Enable]

图3-6 SR-IOV设置界面

 

¡     设置完成后,保存所有设置的操作方法如下3-7

图3-7 设置保存界面

 

3.1.3  更新步骤

(1)     将包含Fieldiag系统环境的U盘插入服务器,按F7键选择启动项后,选择从U盘启动。

图3-8 进入U盘启动界面

 

(2)     选择U盘选项“UEFI:SanDiskPartition 1”,进入U盘小系统。

图3-9 选择U盘选项

 

图3-10 进入U盘小系统

 

(3)     输入“ls”显示当前路径下文件,如下3-11所示。

图3-11 查看当前路径下文件

 

(4)     输入“tar zxf 629-23587-XXXX-FLD-34246.tgz”解压文件,然后进入解压后的629文件夹,输入“ls”查看内容。

图3-12 查看文件夹内容

 

(5)     执行./fieldiag.sh --sit --no_bmc”,1015分钟后,将会生成日志

图3-13 生成日志

 

 

(6)     打印出日志,查看对应的实物SN对应的bus号:1f_00.0。也可以执行后,查看对应日志cat fieldiag.log,结果也是如3-14所示。

图3-14 查看日志

 

(7)     执行#./nvflash -v打印所有设备的信息

图3-15 设备信息界面

 

对于HGX-A800,输出信息中GPU Device ID 0x20BD,代表40GBGPU Device ID0x20B2时,代表风冷80GBGPU Device ID0x20F3时,代表液冷80GB。。

InfoROM Version中,G510代表SXM4的型号为PG510G506代表SXM4的型号为PG506。获取到bus号:1f_00.0对应的index<6>

图3-16 查看型号信息

 

(8)     在当前目录,执行以下内容:

#关闭GPUNVSwitchSPI Flash写保护

##关闭FPGAGPUSPI Flash写保护,对应的IPMI命令

ipmitool  raw 0x36 0x0b 0xa2 0x63 0x00 0x7f 0x0B 0xc0 0x00 0x06 0x5c 0x04 0xb4 0xa0 0x00 0x80

ipmitool  raw 0x36 0x0b 0xa2 0x63 0x00 0x7f 0x0B 0xc0 0x00 0x06 0x5c 0x04 0xb4 0xa1 0x00 0x80

##关闭GPUGPUSPI Flash写保护,对应的IPMI命令

ipmitool  raw 0x36 0x0b 0xa2 0x63 0x00 0x7f 0x07 0x98 0x00 0x06 0x5c 0x04 0x17 0x01 0x5a 0x80

ipmitool  raw 0x36 0x0b 0xa2 0x63 0x00 0x7f 0x07 0x99 0x00 0x06 0x5c 0x04 0x17 0x01 0x5a 0x80

ipmitool  raw 0x36 0x0b 0xa2 0x63 0x00 0x7f 0x07 0x9a 0x00 0x06 0x5c 0x04 0x17 0x01 0x5a 0x80

ipmitool  raw 0x36 0x0b 0xa2 0x63 0x00 0x7f 0x07 0x9b 0x00 0x06 0x5c 0x04 0x17 0x01 0x5a 0x80

ipmitool  raw 0x36 0x0b 0xa2 0x63 0x00 0x7f 0x07 0x88 0x00 0x06 0x5c 0x04 0x17 0x01 0x5a 0x80

ipmitool  raw 0x36 0x0b 0xa2 0x63 0x00 0x7f 0x07 0x89 0x00 0x06 0x5c 0x04 0x17 0x01 0x5a 0x80

ipmitool  raw 0x36 0x0b 0xa2 0x63 0x00 0x7f 0x07 0x8a 0x00 0x06 0x5c 0x04 0x17 0x01 0x5a 0x80

ipmitool  raw 0x36 0x0b 0xa2 0x63 0x00 0x7f 0x07 0x8b 0x00 0x06 0x5c 0x04 0x17 0x01 0x5a 0x80

(9)     导出正常GPU的固件,如:导出正常未更换的GPU固件版本92.00.8E.00.01 <9>,命令如下:

#./nvflash -i 9 -b test9.rom,固件名自定义为test9.rom

图3-17 获取原GPU固件

 

图3-18 查看固件信息

 

将导出的正常<9>GPU固件test9.rom,刷新导入到新更换的<6>GPU上,可以使用以下命令:#./nvflash -i 6 test9.rom

图3-19 更新固件

 

(10)     输入reboot后,重启服务器。

图3-20 重启服务器

 

(11)     再次进入U盘系统,执行命令“cd /var/diags/629-23587-XXXX-FLD-34246”进入目录。

图3-21 进入U盘系统目录

 

(12)     执行命令“./nvflash –v”,确认index <6> GPU固件版本和index <9> GPU固件版本已更新一致

图3-22 确认固件已更新

 

(13)     恢复客户的风扇调速模式BIOSBoot mode select模式IOMMUSR-IOV设置模式。

3.2  更换baseboard后固件更新

3.2.1  操作场景

本章节旨在指导工程师在更换故障baseboard后,更新固件版本,以确保模组可正常使用,以HGX-A100 40G为例进行介绍。

3.2.2  准备工作

1. 准备固件升级包

说明:因模组升级步骤复杂,所以升级时使用livecd包进行升级,易操作。

2. 进行风扇配置及BIOS设置

此章节请参见3.1.2  2. 风扇配置

3.2.3  固件升级

(1)     获取所需升级固件的livecd

说明

HGX-A100若更换baseboard需升级至22.07版本固件才可使用,选择livecd包时须选择22.07固件版本。

 

(2)     livecd iso文件挂载至KVM并重启进入BIOS3-23所示,红色框选内容为livecd启动项,单击即可进入

图3-23 livecd启动项

 

(3)     进入页面3-24所示。

图3-24 进入页面

(4)     进入livecd iso系统中,进入后3-25所示。

图3-25 进入livecd iso系统

 

(5)     固件升级。进入系统后,如3-26所示,可自行选择升级方式,也可以不做任何操作等待自动升级。

说明

第一步输入“a表示使用命令行进行升级,第二步输入b”表示进行强制升级(输入a”则表示待升级版本若比当前版本高才会升级,否则会跳过升级)。

 

图3-26 固件升级

 

(6)     升级成功后如3-27所示。Total fail update项不为0,则需要查看失败原因。

图3-27 升级成功

 

(7)     AC重启。全部升级后进行AC重启

(8)     升级完成后进行版本查询,输入sudo ./nvflash --version命令查看PEX880xx(含 PEX88064PEX880088)版本

图3-28 输入sudo ./nvflash --version命令

 

(9)     输入sudo ./nvflash --version | egrep -i "20b0|20be|20bf"命令查看GPU的版本,如3-29所示。

图3-29 输入sudo ./nvflash --version | egrep -i "20b0|20be|20bf"命令

 

(10)     输入sudo ./nvflash --version | egrep -i "1af1|1ae8|1af8"命令查看NVSwitch的版本,如3-30所示。

图3-30 输入sudo ./nvflash --version | egrep -i "1af1|1ae8|1af8"命令

 

(11)     查看CECFPGA的版本查询CECFPGA版本号IPMI命令如下注意升级完成后需要断电重启才能成功:

ipmitool -H 192.2.0.99 -I lanplus -U admin -P Password@_ raw 0x36 0x0b 0xa2 0x63 0x00 0x7d 0x00

返回值a2 63 00 34 2e 30 2e 34 2e 30 32 00 00 00 00 00,其中34 2e 30”表示CEC版本,版本4.0;“34 2e 30 32”表示FPGA版本,版本4.02

 

新华三官网
联系我们