手册下载
H3C UniServer R5500 G6服务器 Baseboard
故障处理手册
资料版本:6W101-20240815
Copyright © 2024 新华三技术有限公司 版权所有,保留一切权利。
非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。
除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。
本文档中的信息可能变动,恕不另行通知。
目 录
本章节主要介绍H3C UniServer R5500 G6服务器HGX H800 8-GPU组件中单个SXM5发生故障时的处理方法,其他如H20等GPU亦可参见此章节处理。
本节主要介绍SXM5故障处理的基本流程,包括故障信息收集、确认故障SXM5位置、更换故障SXM5和固件更新等步骤。故障处理的指导思想是根据故障现象初步确定可能出现故障的原因,并结合软硬件日志诊断及测试验证结果,最终确定故障GPU,并采取相应措施解决问题。
图1-1 SXM5故障处理流程
· HGX H800 8-GPU组件包含8个GPU,其中每个GPU对应一个SXM5,本手册介绍当GPU故障时,定位并更换对应SXM5的操作步骤。
· 除本章节提到的故障类型可单独更换SXM5,其他故障类型均需更换HGX H800 8-GPU组件。
本章节介绍当单个SXM5故障时,进行故障定位的方法。
· 进入HDM系统管理,在“系统信息”选项中查看PCIe设备中GPU设备显示为7个。
· OS下执行命令“nvidia-smi”时,回显内容中GPU设备数量显示为7个。
R5500 G6服务器在4 Port配置下,1个Switch下存在2个GPU;8 Port配置下,1个Switch下存在1个GPU。当GPU发生故障时,在操作系统下查看到的lspci -vt信息里会缺少一个GPU信息。
以4 Port配置为例,故障信息收集方法如下:
(1) 操作系统下查看lspci -vt信息。
¡ 如果1个Switch下存在2个GPU,代表正常。如图1-2所示。
¡ 如果1个Switch下只有1个GPU,则代表异常,如图1-3所示。
图1-3 丢失一个GPU的lspci topo
(2) 建议在重启系统或者下电状态下插拔GPU组件时,注意观察连接器是否存在明显物理损坏的情况。如果连接器受损,需要更换整个GPU组件。
(3) 建议重启系统或者在下电状态下插拔GPU组件后,再次收集GPU组件显示信息,以确认丢失的是同一个GPU而不是随机掉卡的情况。
现场进行Fieldiag测试后,在log目录下查看结果日志中的run.log文件。
如图1-4所示,其中不同的SN总数为7,可以根据文件中的SN号与实际GPU上的SN号对应。其中,可以在文件中找到SN的GPU,是无故障GPU;无法在文件中找到的那个GPU,即为有故障的GPU。
图1-4 log文件
当GPU丢失时,可以先通过HDM上显示的丢失GPU的槽位号来确认故障GPU的物理槽位。为避免HDM出现位置误报而导致GPU错换,可以根据Fieldiag结果中的SN与物理槽位上的SN进行二次核对,以确定故障GPU的槽位。
其中,HDM中的PCIe槽位号与物理GPU槽位的对应关系如下表1-1所示。
表1-1 HDM中PCIe槽位号与物理GPU槽位对应关系
|
HDM中PCIe槽位号 |
物理GPU槽位 |
|
1 |
GPU1 |
|
2 |
GPU2 |
|
3 |
GPU3 |
|
4 |
GPU4 |
|
5 |
GPU5 |
|
6 |
GPU6 |
|
7 |
GPU7 |
|
8 |
GPU8 |
物理GPU槽位位置关系如下图1-5所示。
图1-5 物理GPU槽位位置关系示意图

·
完成故障定位后,确认需要更换SXM5。
· 请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。
· 请提前准备好需要的工具:T10螺丝刀1把,对长度无要求;T15螺丝刀1把,建议螺丝刀净长不小于150mm。
· 更换部件前,请检查是否已拆除机箱两侧的运输螺钉,确保拆除后,才能拉出GPU模块。
· 请务必保留备件SXM5包材。SXM5更换后,故障SXM5需使用备件SXM5包材包装返厂。
· SXM5连接器针脚较脆弱,更换过程中请勿碰撞连接器针脚,防止造成连接器损坏。
(1) 将服务器下电。
(2) 拆卸所有电源。
(3) 拆卸GPU组件。
a. 按下GPU组件两侧解锁按钮。
图1-6 解锁按钮

b. 2~3人合力将GPU组件缓缓拉出并托住,之后放置于平稳工作台。
(4) 拆卸工字型固定架。
a. 使用T10螺丝刀,移除固定架上的4颗固定螺钉。
图1-7 拆卸螺钉

b. 将固定架向上抬起,使其脱离GPU组件。
图1-8 拆卸固定架

(5) 拆卸SXM5。
a. 拆卸SXM5顶部的塑料盖板。手指沿盖板凹槽处,垂直向上提起塑料盖板。
图1-9 拆卸SXM5顶部的塑料盖板

b. 使用T15螺丝刀,对角依次拧开SXM5上的4颗绿色松不脱螺钉。
· 拆卸松不脱螺钉前请注意观察,仅拆卸4颗绿色松不脱螺钉,银色带弹簧的螺钉不要拆除,否则可能导致GPU损坏。
· 请务必对角拧开SXM5上的螺钉,否则可能导致GPU受应力损坏。
图1-10 拆卸螺钉

c. 将SXM5向上提起,使其脱离GPU组件。
拆卸下的SXM5,请将连接器向上放置在平稳工作台上,避免将连接器向下放置,损坏底部连接器。
图1-11 拆卸SXM5

(1) 安装SXM5。
a. 确认要更换的新SXM5的SN码,进行记录,以便后续更新固件时使用。SN码位置如图1-12所示。
图1-12 SN码位置

b. 将SXM5底部2个导向销对准GPU组件底板的导向孔,向下放置在GPU组件底板上。
图1-13 安装SXM5

c. 使用T15螺丝刀,对角依次拧紧SXM5上的4颗绿色松不脱螺钉。
请务必对角拧紧SXM5上的螺钉,否则可能导致GPU受应力损坏。
图1-14 固定松不脱螺钉

d. 安装SXM5顶部的塑料盖板。将塑料盖板垂直向下卡入SXM5上方的固定槽位。
图1-15 安装SXM5顶部的塑料盖板

(2) 安装工字型固定架。
a. 将固定架向下放置在GPU组件中。
图1-16 安装固定架

b. 使用T10螺丝刀拧紧4颗固定螺钉。
图1-17 固定螺钉

(3) 安装GPU组件。2~3人合力将GPU组件抬起并沿水平方向缓缓推入节点槽位中,并闭合扳手。
(4) 安装所有电源。
(5) 将服务器上电。
完成故障定位后,确认需要更换SXM5。
· 请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。
· 请提前准备好需要的工具:T10螺丝刀1把、T15螺丝刀1把,对长度无要求。
· 更换部件前,请检查是否已拆除机箱两侧的运输螺钉,确保拆除后,才能拉出GPU模块。
· 请务必保留备件SXM5包材。SXM5更换后,故障SXM5需使用备件SXM5包材包装返厂。
· SXM5连接器针脚较脆弱,更换过程中请勿碰撞连接器针脚,防止造成连接器损坏。
(1) 将服务器下电。
(2) 断开GPU节点和CPU节点之间的漏液检测绳。
图1-18 断开漏液检测绳
(3) 为避免拆装GPU模块时,GPU模块误撞到电源模块,建议提前拆卸GPU模块相邻的电源模块。
(4) 拆卸GPU节点。
a. 按下GPU节点两侧解锁按钮。
b. 2~3人合力将GPU节点缓缓拉出并托住,之后放置于平稳工作台。
(5) 拆卸GPU节点固定支架。使用T10螺丝刀,移除GPU节点后部固定架上的4颗固定螺钉和GPU节点顶部托盘上的4颗固定螺钉,使固定支架和托盘脱离GPU节点。
(6) 拆卸GPU节点板上的提手横梁。向下按压提手横梁下部的弹簧销,然后向外平移横梁,使其脱离垂直支架。
(7) 拆卸GPU液冷模块。
a. 拧开故障GPU一侧的液冷模块上的所有松不脱螺钉,如图1-19所示。
图1-19 拆卸故障GPU对应的液冷模块
b. 向上翻起GPU液冷模块。
(8) 清理残存的导热硅脂。用异丙醇擦拭布将GPU顶部有硅脂的地方清理干净,确保表面整洁干净。
(9) 拆卸SXM5。
a. 使用T15螺丝刀,对角依次拧开SXM5上的4颗绿色松不脱螺钉。
请务必对角拧开SXM5上的螺钉,否则可能导致GPU受应力损坏。
图1-20 拆卸螺钉
b. 将SXM5向上提起,使其脱离GPU组件。拆卸下的SXM5,请将连接器向上放置在平稳工作台上,避免将连接器向下放置,损坏底部连接器。
(1) 安装SXM5。
a. 确认要更换的新SXM5的SN码,进行记录,以便后续更新固件时使用。SN码位置如图1-21所示。
图1-21 SN码位置
b. 将SXM5底部2个导向销对准GPU组件底板的导向孔,向下放置在GPU组件底板上。
c. 使用T15螺丝刀,对角依次拧紧SXM5上的4颗绿色松不脱螺钉。
请务必对角拧紧SXM5上的螺钉,否则可能导致GPU受应力损坏。
图1-22 固定松不脱螺钉
(2) 在GPU液冷模块上涂抹导热硅脂。操作前,请确保散热器表面已清理干净,无残存导热硅脂。
(3) 安装GPU液冷模块。
a. 将GPU液冷模块上的螺孔,对准GPU组件上的导向销,将液冷模块向下放置在GPU底座上。
b. 依次拧紧液冷模块上的松不脱螺钉。
(4) 安装GPU节点板上的提手横梁。将提手横梁对准并插入垂直支架上的插槽,向内平移横梁,使其安装到位。
(5) 安装固定支架。将固定架向下放置于GPU节点中,并使用T10螺丝刀拧紧位于GPU节点后部的4颗固定螺钉以及顶部托盘上的4颗固定螺钉。
(6) 安装GPU节点。2~3人合力将GPU节点抬起并沿水平方向缓缓推入节点槽位中,并闭合扳手。
(7) 安装拆卸的电源。
(8) 连接GPU节点和CPU节点之间的漏液检测线。
(9) 将服务器上电。
本章节主要介绍H3C UniServer R5500 G6服务器HGX H800 8-GPU组件中Baseboard的更换方法,其他如H20等GPU亦可参见此章节处理。
· 请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。
· 请提前准备好需要的工具:T10螺丝刀1把,对长度无要求;PH2螺丝刀1把,建议螺丝刀净长不小于150mm。
· 更换部件前,请检查是否已拆除机箱两侧的运输螺钉,确保拆除后,才能拉出GPU模块。
SXM5拆卸前请记录其所在位置顺序,SXM5全部拆卸后即可拆卸Baseboard,拆卸SXM5的具体操作步骤请参见1.3.3 1. 拆卸SXM5,本节不赘述。
Baseboard安装后,按照SXM5拆卸前记录的位置顺序逐个安装SXM5,具体操作步骤请参见1.3.3 2. 安装SXM5,本节不赘述。
SXM5拆卸前请记录其所在位置顺序,SXM5全部拆卸后即可拆卸Baseboard,拆卸SXM5的具体操作步骤请参见1.4.3 1. 拆卸SXM5,本节不赘述。使用T15螺丝刀拆除Baseboard上的17颗螺钉,螺钉位置如图2-1所示,拆卸完成后Baseboard与外部插框将脱离,拆卸下的部件请妥善保管以备部件安装时再次使用。
图2-1 Baseboard的螺钉安装/拆卸位置
将Baseboard置于外部插框后,使用T15螺丝刀拧紧Baseboard上的16颗螺钉,螺钉位置如图2-1所示。Baseboard安装后,按照SXM5拆卸前记录的位置顺序逐个安装SXM5,具体操作步骤请参见1.4.3 2. 安装SXM5,本节不赘述。
本章节旨在指导工程师在更换故障SXM5后,更新其固件版本,以确保与其他SXM5固件版本保持一致。
准备待升级的固件文件。
图3-1 准备待升级的固件文件
在电源满配状态下,记录当前风扇调速模式后,将其设置为强劲模式。
图3-2 风扇配置界面
记录当前BIOS的Boot mode select模式后,将BIOS设置为UEFI模式。
图3-3 BIOS设置界面
(1) GPU组件支持带外升级固件,可在HDM页面进行固件升级
(2) 进入HDM页面,此次需要升级GPU组件的固件包以及PCIe Retimer版本,需进行两次升级。
a. 进入HDM>固件&软件>固件更新页面,上传待更新的固件包,升级GPU组件。
图3-4 固件更新页面
图3-5 升级固件
b. 由于GPU组件固件包中的PCIe Retimer版本性能并非最佳,需要使用独立的PCIe Retimer固件升级包来升级PCIe Retimer版本。
图3-6 升级PCIe Retimer版本
(3) 完成固件升级后,通过AC下电来使固件生效。
固件生效后,查询固件版本配套信息确认固件已升级成功。
(1) 可通过HDM页面直接查看GPU配套版本,进入HDM>固件&软件>固件清单页面。
图3-7 固件清单页面
(2) 使用IPMI命令带外获取GPU配套版本信息,步骤及命令如下:
¡ 使用IPMI命令:ipmitool.exe –I lanplus –H 192.2.1.18 –U admin –P Password@_ raw 0x36 0x26 0x63 0x00 0x12 0x00,带外获取HMC版本信息。其中,“192.2.1.18”为HDM的IP地址,“admin”为HDM用户名,“Password@_”为HDM密码,这三个参数可根据实际情况进行替换。
图3-8 获取HMC版本信息
转换为ACSII码后为实际版本信息HGX-22.10-1-rc34。
图3-9 实际版本信息
¡ 使用IPMI命令:ipmitool.exe –I lanplus –H 192.2.1.18 –U admin –P Password@_ raw 0x36 0x26 0xA2 0x63 0x00 0x12 0x01,带外获取FPGA版本信息。其中,“192.2.1.18”为HDM的IP地址,“admin”为HDM用户名,“Password@_”为HDM密码,这三个参数可根据实际情况进行替换。
图3-10 获取FPGA版本信息
转换为ACSII码后为实际版本信息2.11。
图3-11 实际版本信息
¡ 使用IPMI命令:ipmitool.exe –I lanplus –H 192.2.1.18 –U admin –P Password@_ raw 0x36 0x26 0xA2 0x63 0x00 0x12 0x02,带外获取GPU固件版本信息。其中,“192.2.1.18”为HDM的IP地址,“admin”为HDM用户名,“Password@_”为HDM密码,这三个参数可根据实际情况进行替换。
图3-12 获取GPU固件版本信息
转换为ACSII码后为实际版本信息96.00.61.00.0B。
图3-13 实际版本信息
¡ 使用IPMI命令:ipmitool.exe –I lanplus –H 192.2.1.18 –U admin –P Password@_ raw 0x36 0x26 0xA2 0x63 0x00 0x12 0x03,带外获取NVSwitch版本信息。其中,“192.2.1.18”为HDM的IP地址,“admin”为HDM用户名,“Password@_”为HDM密码,这三个参数可根据实际情况进行替换。
图3-14 获取NVSwitch版本信息
转换为ACSII码后为实际版本信息96.10.35.00.01。
图3-15 实际版本信息
¡ 使用IPMI命令:ipmitool.exe –I lanplus –H 192.2.1.18 –U admin –P Password@_ raw 0x36 0x26 0xA2 0x63 0x00 0x12 0x04,带外获取PCIe Switch版本信息。其中,“192.2.1.18”为HDM的IP地址,“admin”为HDM用户名,“Password@_”为HDM密码,这三个参数可根据实际情况进行替换。
图3-16 获取PCIe Switch版本信息
转换为ACSII码后为实际版本信息1.7.5F。
图3-17 实际版本信息
¡ 使用IPMI命令:ipmitool.exe –I lanplus –H 192.2.1.18 –U admin –P Password@_ raw 0x36 0x26 0xA2 0x63 0x00 0x12 0x05,带外获取PCIe Retimer版本信息。其中,“192.2.1.18”为HDM的IP地址,“admin”为HDM用户名,“Password@_”为HDM密码,这三个参数可根据实际情况进行替换。
图3-18 获取PCIe Retimer版本信息
转换为ACSII码后为实际版本信息2.7.8。
图3-19 实际版本信息
