• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 关于我们

H3C UniServer R5500 G6服务器Baseboard故障处理手册-6W101

手册下载

H3C UniServer R5500 G6服务器Baseboard故障处理手册-6W101-整本手册.pdf  (4.34 MB)

  • 发布时间:2024/8/17 5:15:33
  • 浏览量:
  • 下载量:

H3C UniServer R5500 G6服务器 Baseboard

故障处理手册

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

资料版本:6W101-20240815

 

Copyright © 2024 新华三技术有限公司 版权所有,保留一切权利。

非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。

除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。

本文档中的信息可能变动,恕不另行通知。



1 SXM5 GPU故障处理

1.1  概述

1.1.1  使用场景

本章节主要介绍H3C UniServer R5500 G6服务器HGX H800 8-GPU组件中单个SXM5发生故障时的处理方法,其他如H20GPU亦可参见此章节处理。

1.1.2  故障处理流程

本节主要介绍SXM5故障处理的基本流程,包括故障信息收集、确认故障SXM5位置、更换故障SXM5和固件更新等步骤。故障处理的指导思想是根据故障现象初步确定可能出现故障的原因,并结合软硬件日志诊断及测试验证结果,最终确定故障GPU,并采取相应措施解决问题。

图1-1 SXM5故障处理流程

 


1.1.3   

1.2  故障定位

1.2.1  操作场景

说明

·     HGX H800 8-GPU组件包含8GPU,其中每个GPU对应一个SXM5,本手册介绍当GPU故障时,定位并更换对应SXM5的操作步骤。

·     除本章节提到的故障类型可单独更换SXM5,其他故障类型均需更换HGX H800 8-GPU组件。

 

本章节介绍当单个SXM5故障时,进行故障定位的方法。

1.2.2  故障现象

·     进入HDM系统管理,在“系统信息”选项中查看PCIe设备中GPU设备显示为7个。

·     OS下执行命令“nvidia-smi”时,回显内容中GPU设备数量显示为7个。

1.2.3  诊断步骤

1. 故障信息收集

R5500 G6服务器在4 Port配置下,1Switch下存在2GPU8 Port配置下,1Switch下存在1GPU。当GPU发生故障时,在操作系统下查看到的lspci -vt信息里会缺少一个GPU信息。

4 Port配置为例,故障信息收集方法如下:

(1)     操作系统下查看lspci -vt信息。

¡     如果1Switch下存在2GPU,代表正常。如1-2所示。

图1-2 正常lspci topo-1

 

¡     如果1Switch下只有1GPU,则代表异常,如1-3所示。

图1-3 丢失一个GPUlspci topo

 

(2)     建议在重启系统或者下电状态下插拔GPU组件时,注意观察连接器是否存在明显物理损坏的情况。如果连接器受损,需要更换整个GPU组件。

(3)     建议重启系统或者在下电状态下插拔GPU组件后,再次收集GPU组件显示信息,以确认丢失的是同一个GPU而不是随机掉卡的情况。

2. 确认故障GPU位置

现场进行Fieldiag测试后,在log目录下查看结果日志中的run.log文件。

1-4所示,其中不同的SN总数为7,可以根据文件中的SN号与实际GPU上的SN号对应。其中,可以在文件中找到SNGPU,是无故障GPU;无法在文件中找到的那个GPU,即为有故障的GPU

图1-4 log文件

 

GPU丢失时,可以先通过HDM上显示的丢失GPU的槽位号来确认故障GPU的物理槽位。为避免HDM出现位置误报而导致GPU错换,可以根据Fieldiag结果中的SN与物理槽位上的SN进行二次核对,以确定故障GPU的槽位。

其中,HDM中的PCIe槽位号与物理GPU槽位的对应关系如下1-1所示。

表1-1 HDMPCIe槽位号与物理GPU槽位对应关系

HDMPCIe槽位号

物理GPU槽位

1

GPU1

2

GPU2

3

GPU3

4

GPU4

5

GPU5

6

GPU6

7

GPU7

8

GPU8

 

物理GPU槽位位置关系如下1-5所示。

图1-5 物理GPU槽位位置关系示意图


·      

1.3  更换SXM5(风冷)

1.3.1  操作场景

完成故障定位后,确认需要更换SXM5

1.3.2  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     请提前准备好需要的工具:T10螺丝刀1把,对长度无要求;T15螺丝刀1把,建议螺丝刀净长不小于150mm

·     更换部件前,请检查是否已拆除机箱两侧的运输螺钉,确保拆除后,才能拉出GPU模块。

1.3.3  更换步骤

注意

·     请务必保留备件SXM5包材。SXM5更换后,故障SXM5需使用备件SXM5包材包装返厂。

·     SXM5连接器针脚较脆弱,更换过程中请勿碰撞连接器针脚,防止造成连接器损坏。

 

1. 拆卸SXM5

(1)     将服务器下电。

(2)     拆卸所有电源。

(3)     拆卸GPU组件

a.     按下GPU组件两侧解锁按钮。

图1-6 解锁按钮

 

b.     23人合力将GPU组件缓缓拉出并托住,之后放置于平稳工作台。

(4)     拆卸工字型固定架。

a.     使用T10螺丝刀,移除固定架上的4颗固定螺钉。

图1-7 拆卸螺钉

 

 

b.     将固定架向上抬起,使其脱离GPU组件。

图1-8 拆卸固定架

 

(5)     拆卸SXM5

a.     拆卸SXM5顶部的塑料盖板。手指沿盖板凹槽处,垂直向上提起塑料盖板。

图1-9 拆卸SXM5顶部的塑料盖板

 

b.     使用T15螺丝刀,对角依次拧开SXM5上的4颗绿色松不脱螺钉。

注意

·     拆卸松不脱螺钉前请注意观察,仅拆卸4颗绿色松不脱螺钉,银色带弹簧的螺钉不要拆除,否则可能导致GPU损坏。

·     请务必对角拧开SXM5上的螺钉,否则可能导致GPU受应力损坏。

 

图1-10 拆卸螺钉

 

c.     SXM5向上提起,使其脱离GPU组件。

注意

拆卸下的SXM5,请将连接器向上放置在平稳工作台上,避免将连接器向下放置,损坏底部连接器。

 

图1-11 拆卸SXM5

 

2. 安装SXM5

(1)     安装SXM5

a.     确认要更换的新SXM5SN码,进行记录,以便后续更新固件时使用。SN码位置如1-12所示。

图1-12 SN码位置

 

b.     SXM5底部2个导向销对准GPU组件底板的导向孔,向下放置在GPU组件底板上。

图1-13 安装SXM5

 

c.     使用T15螺丝刀,对角依次拧紧SXM5上的4颗绿色松不脱螺钉。

注意

请务必对角拧紧SXM5上的螺钉,否则可能导致GPU受应力损坏。

 

图1-14 固定松不脱螺钉

 

d.     安装SXM5顶部的塑料盖板。将塑料盖板垂直向下卡入SXM5上方的固定槽位。

图1-15 安装SXM5顶部的塑料盖板

 

(2)     安装工字型固定架。

a.     将固定架向下放置在GPU组件中。

图1-16 安装固定架

 

b.     使用T10螺丝刀拧紧4颗固定螺钉。

图1-17 固定螺钉

 

(3)     安装GPU组件23人合力将GPU组件抬起并沿水平方向缓缓推入节点槽位中,并闭合扳手

(4)     安装所有电源。

(5)     将服务器上电。

1.4  更换SXM5(液冷)

1.4.1  操作场景

完成故障定位后,确认需要更换SXM5

1.4.2  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     请提前准备好需要的工具:T10螺丝刀1把、T15螺丝刀1把,对长度无要求。

·     更换部件前,请检查是否已拆除机箱两侧的运输螺钉,确保拆除后,才能拉出GPU模块。

1.4.3  更换步骤

注意

·     请务必保留备件SXM5包材。SXM5更换后,故障SXM5需使用备件SXM5包材包装返厂。

·     SXM5连接器针脚较脆弱,更换过程中请勿碰撞连接器针脚,防止造成连接器损坏。

 

1. 拆卸SXM5

(1)     将服务器下电。

(2)     断开GPU节点和CPU节点之间的漏液检测绳。

图1-18 断开漏液检测绳

 

(3)     为避免拆装GPU模块时,GPU模块误撞到电源模块,建议提前拆卸GPU模块相邻的电源模块

(4)     拆卸GPU节点

a.     按下GPU节点两侧解锁按钮。

b.     23人合力将GPU节点缓缓拉出并托住,之后放置于平稳工作台。

(5)     拆卸GPU节点固定支架。使用T10螺丝刀,移除GPU节点后部固定架上的4颗固定螺钉和GPU节点顶部托盘上的4颗固定螺钉,使固定支架和托盘脱离GPU节点。

(6)     拆卸GPU节点板上的提手横梁。向下按压提手横梁下部的弹簧销,然后向外平移横梁,使其脱离垂直支架。

(7)     拆卸GPU液冷模块。

a.     拧开故障GPU一侧的液冷模块上的所有松不脱螺钉,如1-19所示

图1-19 拆卸故障GPU对应的液冷模块

 

b.     向上翻起GPU液冷模块

(8)     清理残存的导热硅脂。用异丙醇擦拭布将GPU顶部有硅脂的地方清理干净,确保表面整洁干净。

(9)     拆卸SXM5

a.     使用T15螺丝刀,对角依次拧开SXM5上的4颗绿色松不脱螺钉。

注意

请务必对角拧开SXM5上的螺钉,否则可能导致GPU受应力损坏。

 

图1-20 拆卸螺钉

 

b.     SXM5向上提起,使其脱离GPU组件。拆卸下的SXM5,请将连接器向上放置在平稳工作台上,避免将连接器向下放置,损坏底部连接器。

2. 安装SXM5

(1)     安装SXM5

a.     确认要更换的新SXM5SN码,进行记录,以便后续更新固件时使用。SN码位置如1-21所示。

图1-21 SN码位置

 

b.     SXM5底部2个导向销对准GPU组件底板的导向孔,向下放置在GPU组件底板上。

c.     使用T15螺丝刀,对角依次拧紧SXM5上的4颗绿色松不脱螺钉。

注意

请务必对角拧紧SXM5上的螺钉,否则可能导致GPU受应力损坏。

 

图1-22 固定松不脱螺钉

 

(2)     GPU液冷模块上涂抹导热硅脂。操作前,请确保散热器表面已清理干净,无残存导热硅脂。

(3)     安装GPU液冷模块。

a.     GPU液冷模块上的螺孔,对准GPU组件上的导向销,将液冷模块向下放置在GPU底座上

b.     依次拧紧液冷模块上的松不脱螺钉

(4)     安装GPU节点板上的提手横梁。将提手横梁对准并插入垂直支架上的插槽,向内平移横梁,使其安装到位。

(5)     安装固定支架。将固定架向下放置于GPU节点中,并使用T10螺丝刀拧紧位于GPU节点后部的4颗固定螺钉以及顶部托盘上的4颗固定螺钉

(6)     安装GPU节点23人合力将GPU节点抬起并沿水平方向缓缓推入节点槽位中,并闭合扳手

(7)     安装拆卸的电源。

(8)     连接GPU节点和CPU节点之间的漏液检测线。

(9)     将服务器上电

 


2 Baseboard更换指导

2.1  操作场景

本章节主要介绍H3C UniServer R5500 G6服务器HGX H800 8-GPU组件中Baseboard的更换方法,其他如H20GPU亦可参见此章节处理。

2.2  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     请提前准备好需要的工具:T10螺丝刀1把,对长度无要求;PH2螺丝刀1把,建议螺丝刀净长不小于150mm

·     更换部件前,请检查是否已拆除机箱两侧的运输螺钉,确保拆除后,才能拉出GPU模块。

2.3  更换Baseboard(风冷)

1. 拆卸Baseboard

SXM5拆卸前请记录其所在位置顺序,SXM5全部拆卸后即可拆卸Baseboard,拆卸SXM5的具体操作步骤请参见1.3.3  1. 拆卸SXM5,本节不赘述。

2. 安装Baseboard

Baseboard安装后,按照SXM5拆卸前记录的位置顺序逐个安装SXM5,具体操作步骤请参见1.3.3  2. 安装SXM5,本节不赘述。

2.4  更换Baseboard(液冷)

1. 拆卸Baseboard

SXM5拆卸前请记录其所在位置顺序,SXM5全部拆卸后即可拆卸Baseboard,拆卸SXM5的具体操作步骤请参见1.4.3  1. 拆卸SXM5,本节不赘述。使用T15螺丝刀拆除Baseboard上的17颗螺钉,螺钉位置如2-1所示,拆卸完成后Baseboard与外部插框将脱离,拆卸下的部件请妥善保管以备部件安装时再次使用。

图2-1 Baseboard的螺钉安装/拆卸位置

 

2. 安装Baseboard

Baseboard置于外部插框后,使用T15螺丝刀拧紧Baseboard上的16颗螺钉,螺钉位置如2-1所示。Baseboard安装后,按照SXM5拆卸前记录的位置顺序逐个安装SXM5,具体操作步骤请参见1.4.3  2. 安装SXM5,本节不赘述。

 


3 固件更新

3.1  操作场景

本章节旨在指导工程师在更换故障SXM5后,更新其固件版本,以确保与其他SXM5固件版本保持一致。

3.2  准备工作

1. 准备SXM5固件签名包

准备待升级的固件文件。

图3-1 准备待升级的固件文件

 

2. 风扇配置

在电源满配状态下,记录当前风扇调速模式后,将其设置为强劲模式。

图3-2 风扇配置界面

 

3. BIOS设置

记录当前BIOSBoot mode select模式后,将BIOS设置为UEFI模式。

图3-3 BIOS设置界面

 

3.3  固件更新步骤

1. 固件升级

(1)     GPU组件支持带外升级固件,可在HDM页面进行固件升级

(2)     进入HDM页面,此次需要升级GPU组件的固件包以及PCIe Retimer版本,需进行两次升级。

a.     进入HDM>固件&软件>固件更新页面,上传待更新的固件包,升级GPU组件。

图3-4 固件更新页面

 

图3-5 升级固件

 

b.     由于GPU组件固件包中的PCIe Retimer版本性能并非最佳,需要使用独立的PCIe Retimer固件升级包来升级PCIe Retimer版本

图3-6 升级PCIe Retimer版本

 

(3)     完成固件升级后,通过AC下电来使固件生效。

2. 确认固件升级成功

固件生效后,查询固件版本配套信息确认固件已升级成功。

(1)     可通过HDM页面直接查看GPU配套版本,进入HDM>固件&软件>固件清单页面。

图3-7 固件清单页面

 

(2)     使用IPMI命令带外获取GPU配套版本信息,步骤及命令如下:

¡     使用IPMI命令ipmitool.exe –I lanplus –H 192.2.1.18 –U admin –P Password@_ raw 0x36 0x26 0x63 0x00 0x12 0x00带外获取HMC版本信息。其中,“192.2.1.18”为HDMIP地址,“admin”为HDM用户名,“Password@_”为HDM密码,这三个参数可根据实际情况进行替换。

图3-8 获取HMC版本信息

 

转换为ACSII码后为实际版本信息HGX-22.10-1-rc34

图3-9 实际版本信息

 

¡     使用IPMI命令:ipmitool.exe –I lanplus –H 192.2.1.18 –U admin –P Password@_ raw 0x36 0x26 0xA2 0x63 0x00 0x12 0x01,带外获取FPGA版本信息。其中,“192.2.1.18”为HDMIP地址,“admin”为HDM用户名,“Password@_”为HDM密码,这三个参数可根据实际情况进行替换。

图3-10 获取FPGA版本信息

 

转换为ACSII码后为实际版本信息2.11

图3-11 实际版本信息

 

¡     使用IPMI命令:ipmitool.exe –I lanplus –H 192.2.1.18 –U admin –P Password@_ raw 0x36 0x26 0xA2 0x63 0x00 0x12 0x02,带外获取GPU固件版本信息。其中,“192.2.1.18”为HDMIP地址,“admin”为HDM用户名,“Password@_”为HDM密码,这三个参数可根据实际情况进行替换。

图3-12 获取GPU固件版本信息

 

转换为ACSII码后为实际版本信息96.00.61.00.0B

图3-13 实际版本信息

¡     使用IPMI命令:ipmitool.exe –I lanplus –H 192.2.1.18 –U admin –P Password@_ raw 0x36 0x26 0xA2 0x63 0x00 0x12 0x03,带外获取NVSwitch版本信息。其中,“192.2.1.18”为HDMIP地址,“admin”为HDM用户名,“Password@_”为HDM密码,这三个参数可根据实际情况进行替换。

图3-14 获取NVSwitch版本信息

 

转换为ACSII码后为实际版本信息96.10.35.00.01

图3-15 实际版本信息

¡     使用IPMI命令:ipmitool.exe –I lanplus –H 192.2.1.18 –U admin –P Password@_ raw 0x36 0x26 0xA2 0x63 0x00 0x12 0x04,带外获取PCIe Switch版本信息。其中,“192.2.1.18”为HDMIP地址,“admin”为HDM用户名,“Password@_”为HDM密码,这三个参数可根据实际情况进行替换。

图3-16 获取PCIe Switch版本信息

 

转换为ACSII码后为实际版本信息1.7.5F

图3-17 实际版本信息

¡     使用IPMI命令:ipmitool.exe –I lanplus –H 192.2.1.18 –U admin –P Password@_ raw 0x36 0x26 0xA2 0x63 0x00 0x12 0x05,带外获取PCIe Retimer版本信息。其中,“192.2.1.18”为HDMIP地址,“admin”为HDM用户名,“Password@_”为HDM密码,这三个参数可根据实际情况进行替换。

图3-18 获取PCIe Retimer版本信息

 

转换为ACSII码后为实际版本信息2.7.8

图3-19 实际版本信息

 

新华三官网
联系我们