• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 关于我们

H3C UniServer R5300 G5服务器 用户指南-6W112

01-正文

本章节下载 01-正文  (14.62 MB)

01-正文

目 

1 安全

1.1 安全信息

1.1.1 运行安全

1.1.2 电气安全

1.1.3 电池安全

1.2 安全注意事项

1.3 静电防护

1.3.1 防止静电释放

1.3.2 防止静电释放的接地方法

1.4 设备标识

2 认识服务器

2.1 简介

2.2 规格参数

2.2.1 产品规格

2.2.2 技术参数

2.3 GPU配置方案

2.4 部件

2.5 前面板

2.5.1 服务器前面板组件

2.5.2 指示灯和按钮

2.5.3 接口

2.6 后面板

2.6.1 后面板组件

2.6.2 后面板指示灯

2.6.3 接口

2.7 GPU计算模块

2.7.1 GPU计算模块类型

2.7.2 GPU节点板布局

2.8 主板

2.8.1 主板布局

2.8.2 系统维护开关

2.8.3 DIMM插槽

2.9 硬盘

2.9.1 硬盘配置

2.9.2 硬盘编号

2.9.3 硬盘指示灯

2.10 硬盘背板

2.10.1 12LFF硬盘背板(8SAS/SATA+4NVMe)

2.10.2 24LFF硬盘背板(16SAS/SATA+8UniBay)

2.11 风扇模块

2.12 服务器B/D/F信息

2.13 部件安装准则及相关信息

2.13.1 CPU

2.13.2 内存

2.13.3 SAS/SATA硬盘

2.13.4 NVMe硬盘

2.13.5 存储控制卡及掉电保护模块

2.13.6 NVMe VROC模块

2.13.7 GPU卡

2.13.8 NVLink Bridge模块

2.13.9 网卡

2.13.10 SATA M.2 SSD卡

2.13.11 电源模块

2.13.12 风扇模块

3 安装和拆卸R5300 G5

3.1 安装流程

3.2 安装规划

3.2.1 机柜要求

3.2.2 服务器的空气流动方向

3.2.3 温度和湿度要求

3.2.4 高度要求

3.2.5 腐蚀性气体浓度限值要求

3.2.6 洁净度要求

3.2.7 接地要求

3.2.8 存放要求

3.3 工具准备

3.4 安装服务器

3.4.1 (可选)安装滑道

3.4.2 安装服务器

3.4.3 (可选)安装理线架

3.5 连接外部线缆

3.5.1 连接鼠标、键盘和VGA接口线缆

3.5.2 连接网线

3.5.3 连接USB接口

3.5.4 连接电源线缆

3.5.5 固定线缆

3.5.6 布线指导

3.6 拆卸服务器

4 上电和下电

4.1 上电

4.1.1 操作场景

4.1.2 前提条件

4.1.3 操作步骤

4.2 下电

4.2.1 操作场景

4.2.2 前提条件

4.2.3 操作步骤

5 配置服务器

5.1 配置流程

5.2 上电启动

5.3 设置BIOS

5.3.1 设置服务器启动顺序

5.3.2 设置BIOS密码

5.4 配置RAID

5.5 安装操作系统和驱动程序

5.5.1 安装操作系统

5.5.2 安装驱动程序

5.6 更新固件

6 更换部件

6.1 可更换的部件

6.2 常用操作

6.2.1 拆卸和安装机箱盖

6.2.2 拆卸和安装各模块槽位假面板

6.3 更换智能安全面板

6.3.1 更换场景

6.3.2 准备工作

6.3.3 更换步骤

6.4 更换SAS/SATA硬盘

6.4.1 更换场景

6.4.2 准备工作

6.4.3 更换步骤

6.5 扩容NVMe硬盘

6.5.1 准备工作

6.5.2 安装步骤

6.5.3 确认工作

6.6 更换NVMe硬盘

6.6.1 更换场景

6.6.2 准备工作

6.6.3 更换步骤

6.6.4 确认工作

6.7 更换GPU卡

6.7.1 更换场景

6.7.2 准备工作

6.7.3 更换步骤

6.8 更换HGX 4-GPU模块

6.8.1 更换场景

6.8.2 准备工作

6.8.3 更换步骤

6.9 更换标准PCIe网卡

6.9.1 更换场景

6.9.2 准备工作

6.9.3 更换标准PCIe网卡

6.10 更换OCP网卡

6.10.1 更换场景

6.10.2 准备工作

6.10.3 更换OCP网卡

6.11 更换OCP转接模块

6.11.1 更换场景

6.11.2 准备工作

6.11.3 更换步骤

6.12 更换存储控制卡及其掉电保护模块

6.12.1 操作场景

6.12.2 准备工作

6.12.3 更换Mezz存储控制卡及其掉电保护模块

6.12.4 更换标准存储控制卡及其掉电保护模块

6.13 更换SATA M.2 SSD卡

6.13.1 更换场景

6.13.2 准备工作

6.13.3 更换步骤

6.14 更换NVMe VROC模块

6.14.1 更换场景

6.14.2 准备工作

6.14.3 更换步骤

6.15 更换CPU

6.15.1 更换场景

6.15.2 准备工作

6.15.3 更换步骤

6.15.4 确认工作

6.16 更换内存

6.16.1 更换场景

6.16.2 准备工作

6.16.3 更换步骤

6.16.4 确认工作

6.17 更换硬盘背板

6.17.1 更换场景

6.17.2 准备工作

6.17.3 更换步骤

6.18 安装24LFF硬盘扩展模块

6.18.1 应用场景

6.18.2 安装步骤

6.19 更换电源转接板

6.19.1 更换场景

6.19.2 准备工作

6.19.3 更换步骤

6.20 更换CPU主板

6.20.1 更换场景

6.20.2 准备工作

6.20.3 更换步骤

6.21 更换GPU节点板

6.21.1 更换场景

6.21.2 准备工作

6.21.3 更换4GPU、8GPU和16GPU节点板

6.21.4 更换HGX 4-GPU模块节点板

6.22 更换系统电池

6.22.1 更换场景

6.22.2 准备工作

6.22.3 更换步骤

6.23 更换电源模块

6.23.1 更换场景

6.23.2 准备工作

6.23.3 更换步骤

6.24 更换风扇模块

6.24.1 更换场景

6.24.2 准备工作

6.24.3 更换步骤

6.25 更换智能挂耳

6.25.1 更换场景

6.25.2 准备工作

6.25.3 更换步骤

6.26 更换坦克链

6.26.1 更换场景

6.26.2 更换步骤

6.27 安装加密模块

6.27.1 TPM/TCM简介

6.27.2 开启TPM/TCM功能流程

6.27.3 准备工作

6.27.4 安装TPM/TCM模块

7 内部布线

7.1 内部布线要求

7.1.1 使用场景

7.1.2 注意事项

7.2 连接硬盘线缆

7.2.1 12LFF硬盘配置

7.2.2 24LFF硬盘配置

7.3 连接GPU计算模块线缆

7.3.1 连接4GPU-HPC线缆

7.3.2 连接8GPU-AI串联线缆

7.3.3 连接8GPU-AI并联线缆

7.3.4 连接8GPU-HPC线缆

7.3.5 连接16GPU线缆

7.3.6 连接HGX 4-GPU模块线缆

7.4 连接GPU卡电源线缆

7.4.1 连接4GPU/8GPU电源线缆

7.4.2 连接HGX 4-GPU模块电源线缆

7.5 连接超级电容线缆

7.5.1 连接Mezz存储控制卡的超级电容线缆

7.5.2 连接标准存储控制卡的超级电容线缆

7.6 连接MultiHost OCP转接模块线缆

7.7 连接智能挂耳线缆

8 日常维护指导

8.1 维护基本原则

8.2 维护工具

8.3 维护操作

8.3.1 任务列表

8.3.2 查看服务器监控指示灯

8.3.3 监测机房温度和湿度

8.3.4 检查线缆

8.3.5 查看服务器状态

8.3.6 收集服务器日志

8.3.7 升级服务器固件

8.4 故障定位

 


1 安全

1.1  安全信息

为了避免操作过程中对人和设备造成伤害,请在操作前,仔细阅读产品相关安全信息。实际操作中,包括但不限于本文描述的安全信息。

1.1.1  运行安全

·     H3C授权人员或专业的服务器工程师才能运行该服务器。

·     请将服务器放在干净、平稳的工作台或地面上进行维护。

·     运行服务器前,请确保所有线缆均连接正确。

·     为确保服务器充分散热,请遵循如下操作准则:

¡     请勿阻塞服务器的通风孔。

¡     服务器的空闲槽位必须安装假面板,比如硬盘、风扇、PCIe卡、电源模块的槽位。

¡     机箱盖、导风罩、空闲槽位假面板不在位的情况下,请不要运行服务器。

¡     维护热插拔部件时,请最大限度地减少机箱盖打开的时间。

·     为避免组件表面过热造成人身伤害,请确保设备和内部系统组件冷却后再操作。

·     当服务器与其他设备上下叠加安装在机柜中时,请确保两个设备之间留出垂直方向2mm以上的空隙。

·     请保持设备清洁、无尘,请勿将设备放置在潮湿的地方,也不要让液体进入设备。

·     搬运或放置设备时,请勿用力过猛。请确保搬运设备过程中用力均匀缓慢。

1.1.2  电气安全

警告

前面板上的“开机/待机”按钮不能彻底切断系统电源,此时部分电源和内部电路仍在工作,为避免人身伤害、触电或设备损坏,请将服务器完全断电,即先按下“开机/待机”按钮,当系统电源指示灯变为橙色常亮时,将服务器上的所有电源线拔出。

 

·     为避免人身伤害或服务器损坏,请使用随机附带的电源线缆。

·     电源线缆只能用于配套的服务器,请勿在其他设备上使用。

·     为避免触电风险,在安装或拆卸任何非热插拔部件时,请先将设备下电。

1.1.3  电池安全

服务器管理模块上配置有系统电池,一般情况下,电池寿命为3~5年。

当服务器不再自动显示正确的日期和时间时,需更换电池。更换电池时,请注意以下安全措施:

·     请勿尝试给电池充电。

·     请勿将电池置于60°C以上的环境中。

·     请勿拆卸/碾压/刺穿电池、使电池外部触点短路或将其投入火中/水中。

·     请将电池弃于专门的电池处理点,勿随垃圾一起丢弃。

1.2  安全注意事项

说明

为避免电源波动或临时断电对服务器造成影响,建议使用UPS为服务器供电。这种电源可防止服务器硬件因电涌和电压峰值的影响而受损,并且可在电源故障时确保服务器正常运行。

 

为避免人身伤害或设备损坏,操作服务器时,还需注意以下事项:

·     服务器必须安装在标准19英寸机柜中。

·     机柜的支撑脚要完全触地,且机柜的全部重量应由支撑脚承担。

·     当有多个机柜时,请将机柜连接在一起。

·     请做好机柜安装的部署工作,将最重的设备安装在机柜底部。安装顺序为从机柜底部到顶部,即优先安装最重的设备。

·     将服务器安装到机柜或从机柜中拉出时(尤其当服务器脱离滑道时),要求四个人协同工作,以平稳抬起服务器。当安装位置高于胸部时,则可能需要第五个人帮助调整服务器的方位。

·     每次只能从机柜中拉出一台设备,否则会导致机柜不稳固。

·     将服务器从机柜中拉出或推入前,请确保机柜稳固。

·     为确保充分散热,请在未使用的机柜位置安装假面板。

1.3  静电防护

1.3.1  防止静电释放

人体或其它导体释放的静电可能会损坏对静电敏感的部件,由静电造成的损坏会缩短部件的使用寿命。

为避免静电损害,请注意以下事项:

·     在运输和存储设备时,请将部件装入防静电包装中。

·     将静电敏感部件送达不受静电影响的工作区前,请将它们放在防静电包装中保管。

·     先将部件放置在防静电工作台上,然后再将其从防静电包装中取出。

·     在没有防静电措施的情况下,请勿触摸组件上的插针、线缆和电路元器件等静电敏感元件。

1.3.2  防止静电释放的接地方法

在取放或安装部件时,用户可采取以下一种或多种接地方法以防止静电释放。

·     佩戴防静电腕带,并将腕带的另一端良好接地。请将腕带紧贴皮肤,且确保其能够灵活伸缩。

·     在工作区内,请穿上防静电服和防静电鞋,并佩戴防静电手套。

·     请使用导电的现场维修工具。

·     请使用防静电的可折叠工具垫和便携式现场维修工具包。

1.4  设备标识

为避免维护服务器过程中可能造成的任何伤害,请熟悉服务器上可能出现的安全标识。

表1-1 安全标识

图示

说明

警告

该标识表示存在危险电路或触电危险。所有维修工作应由H3C授权人员或专业的服务器工程师完成。

警告

为避免电击造成人身伤害,请勿打开符号标识部件。所有维护、升级和维修工作都应由H3C授权人员或专业的服务器工程师完成。

该标识表示存在触电危险。不允许用户现场维修此部件。用户任何情况下都不能打开此部位。

警告

为避免电击造成人身伤害,请勿打开符号标识部件。

该标识表示存在高温表面或组件。如果触摸该表面或组件,可能会造成人身伤害。

警告

为避免组件表面过热造成人身伤害,请确保服务器和内部系统组件冷却后再操作。

该标识表示组件过重,已超出单人安全取放的正常重量。

警告

为避免人身伤害或设备损坏,请遵守当地关于职业健康与安全的要求,以及手动处理材料的指导。

电源或系统上的这些标识表示服务器由多个电源模块供电。

警告

为避免电击造成人身伤害,请先断开所有电源线缆,并确保服务器已完全断电。

 

关于安全的更多信息,请参见《H3C室内安装类设备运行环境要求》。


2 认识服务器

说明

·     本手册为产品通用资料。对于定制化产品,请用户以产品实际情况为准。

·     本手册中,所有部件的型号都做了简化(比如删除前缀和后缀)。比如内存型号DDR4-3200-16G-2Rx8-R,代表用户可能看到的以下型号:UN-DDR4-3200-16G-2Rx8-R、UN-DDR4-3200-16G-2Rx8-R-F、UN-DDR4-3200-16G-2Rx8-R-S。

·     本服务器支持三种机型,差异内容将通过不同的章节介绍,未标明则表示该章节对于三种机型都适用。

·     手册图片仅供参考,具体请以实物为准。

 

2.1  简介

H3C UniServer R5300 G5系列服务器(以下简称服务器)是H3C自主研发的、基于Intel Whitley平台Ice Lake系列CPU的4U两路GPU服务器。该服务器适用于虚拟化、高性能计算(HPC)、内存计算、数据库、深度学习和超大规格并行训练等计算密集型场景,具有计算性能高、功耗低、扩展性强和可靠性高等特点,易于管理和部署,可满足高性能超大规模并行训练应用。

服务器的外观如图2-1所示。

图2-1 服务器外观

 

服务器包括3种机型,每种机型支持的最大GPU配置请参见表2-1

表2-1 服务器机型说明

机型

GPU配置

4GPU机型

最多支持4张全高全长双宽GPU

8GPU机型

最多支持8张全高全长双宽GPU

16GPU机型

支持16张半高半长单宽GPU卡和4个PCIe3.0插槽,最多支持20张半高半长单宽GPU

HGX 4-GPU模块机型

最多支持安装1HGX 4-GPU模块

每种机型支持的详细GPU配置方案,请参见2.3  GPU配置方案

 

2.2  规格参数

介绍服务器的产品规格和技术参数。

2.2.1  产品规格

表2-2 产品规格

功能特性

说明

GPU

·     16GPU机型节点板:

¡     最多支持20张NVIDIA Telsa T4 GPU卡

¡     最多支持20张NVIDIA L4 24G GPU卡

¡     最多支持20张NVIDIA A2 GPU卡

¡     最多支持20张NVIDIA A2 WithoutCEC GPU卡

·     8GPU机型节点板:

¡     最多支持8张NVIDIA Telsa T4 GPU卡

¡     最多支持8张NVIDIA L4 24G GPU卡

¡     最多支持8张NVIDIA A2 GPU卡

¡     最多支持8张NVIDIA A10 GPU卡

¡     最多支持8张NVIDIA A30 GPU卡

¡     最多支持8张NVIDIA A40 GPU卡

¡     最多支持8张NVIDIA A800 GPU卡

¡     最多支持8张BR BR106C GPU卡

¡     最多支持8张Lynxi HP300 GPU卡

¡     最多支持8张Hygon DCU Z100L卡

¡     最多支持8张HUAWEI Atlas 300V卡

¡     最多支持8张BIREN BR106B GPU卡

¡     最多支持8张NVIDIA L40 48G GPU卡

¡     最多支持8张Iluvatar CoreX BI-V100卡

¡     最多支持8张HUAWEI Atlas 300T Pro卡

¡     最多支持8张HUAWEI Atlas 300I DUO卡

¡     最多支持8张NVIDIA A2 WithoutCEC GPU卡

¡     最多支持8张NVIDIA A30 WithoutCEC GPU卡

¡     最多支持8张NVIDIA A40 WithoutCEC GPU卡

¡     最多支持8张NVIDIA Quadro A6000 GPU卡

¡     最多支持8张Cambricon MLU370-X8 GPU卡

¡     最多支持8张Iluvatar CoreX ZhiKai 100 MR-V100 GPU卡

·     4GPU机型节点板:

¡     最多支持4张NVIDIA A30 GPU卡

¡     最多支持4张NVIDIA A800 GPU卡

¡     最多支持4张NVIDIA L40 48G GPU卡

·     HGX 4-GPU模块机型节点板:

¡     最多支持1个NVIDIA HGX 4-GPU模块

HGX 4-GPU模块

·     内部集成4张NVIDIA GPU,单张GPU卡相比传统PCIe接口GPU性能有较大提升

·     内部通过NVLink技术实现4张GPU卡的数据全互联,GPU业务可以在HGX 4-GPU模块内直接互联通信,无需经过PCIe Switch或CPU,使其性能得到极大提升

NVLink Bridge模块

通过连接相邻的两张A800 GPU,实现显存和性能扩展

处理器

·     最多支持2路Intel Whitley Ice Lake CPU

¡     单颗CPU最大支持功耗290W

¡     最高主频支持3.1GHz

¡     单颗CPU缓存最高支持60MB

¡     CPU集成内存控制器,支持8个内存通道

¡     CPU集成PCIe控制器,支持PCIe4.0,单颗CPU提供64PCIe Lanes

¡     采用4UPI总线互联,每路传输速率可达10.4GT/s

·     处理器相关具体信息请参见服务器兼容的部件查询工具

内存

最多可支持32根DDR4内存

存储控制模块

l     板载VROC阵列控制器

l     高性能存储控制卡

l     NVMe VROC模块

芯片组

支持Intel C621A Lewisburg 芯片组

网络接口

l     板载1个1Gbit/s HDM专用网络接口

l     1OCP网卡插槽,可以选配OCP3.0网卡,OCP 3.0网卡支持NCSI功能

集成显卡

显卡芯片集成在BMC管理芯片中,芯片型号为AST2500,提供64MB显存,支持的最大分辨率是1920 x 1200@60Hz (32bpp)

其中:

·     关于分辨率:

¡     1920 x 1200:表示横向有1920个像素列;纵向有1200个像素列

¡     60Hz:表示刷新率,每秒60次屏幕刷新

¡     32bpp:表示色彩位数。色彩位数越高,表现的色彩越丰富

·     仅在安装与操作系统版本配套的显卡驱动后,集成显卡才能支持1920 x 1200像素的最大分辨率,否则只能支持操作系统的默认分辨率。

·     前后VGA接口同时连接显示器时,仅连接前面板VGA接口的显示器会显示

I/O端口

·     支持6个USB 3.0接口(主板2个,前面板2个,后面板2个)

·     内置2x8 SlimSAS接口、4x8 LP SlimSAS接口、5x16 LP SlimSAS接口

·     1RJ45 HDM专用网络接口(后面板)

·     支持2VGA接口(前面板1个,后面板1个)

·     支持1BIOS串口(后面板)

·     支持1HDM专用管理接口(前面板)

扩展插槽

·     主板:支持1Mezz存储控制卡专用插槽和1OCP3.0网卡专用插槽

·     8GPU机型节点板:最多支持12PCIe4.0可用插槽

·     16GPU机型节点板:最多支持20PCIe3.0可用插槽

·     HGX 4-GPU模块机型节点板:最多支持2PCIe4.0可用插槽

光驱

支持外置USB光驱

管理

·     支持HDM无代理管理工具(带独立管理端口)

·     支持H3C iFIST/UniSystem管理软件

·     支持64M本地显存

·     支持可选U-Center数据中心管理平台

安全性

·     支持安全机箱

·     支持TCM/TPM安全模块

·     支持双因素认证

电源

支持4个热插拔电源模块,支持N+N冗余

认证

通过CQCSEPACE EMCCE RoHSFCC EMCICESVCCI等认证

 

2.2.2  技术参数

表2-3 技术参数

类别

项目

说明

物理参数

尺寸(高xx深)

不含安全面板与挂耳:174.8mm x 447.0mm x 807mm

含安全面板:174.8mm x 447.0mm x 829mm

最大重量

63.9kg

功耗

不同配置下的功耗参数不同,具体信息请参见服务器功耗查询工具

环境参数

温度

工作环境温度:5°C~35°C

说明

服务器部分配置下支持的最高工作环境温度会有所降低,具体请参见附录A中的“工作环境温度规格”章节。

贮存环境温度:-40°C~65°C

湿度

·     工作环境湿度:10%85%(无冷凝)

·     贮存环境湿度:10%90%(无冷凝)

海拔高度

·     工作环境高度:-60m3000m(海拔高于900m时,每升高100m,规格最高温度降低0.33°C

·     贮存环境高度:-60m~5000m

 

2.3  GPU配置方案

服务器包括6种GPU配置方案,以满足不同应用场景的需求,GPU模块的详细信息请参见2.7  GPU计算模块

1. 4GPU机型

·     4GPU-HPC

适合大多数的HPC应用,适用于CPU和GPU卡频繁通信的场景且在这种场景下CPU负载均衡。该GPU配置方案最多支持4张全高全长双宽GPU卡,4张GPU卡从属于2个CPU,如图2-2所示。该GPU配置方案线缆连接方式请参见7.3.1  连接4GPU-HPC线缆

图2-2 4GPU-HPC示意图

001-拓扑图_画板 1

 

2. 8GPU机型

·     8GPU-AI串联

主要用于对GPU的运算速率要求较高的AI场景。该GPU配置方案最多支持8张全高全长双宽GPU卡,8张GPU卡从属于1个CPU,如图2-3所示。该GPU配置方案线缆连接方式请参见7.3.2  连接8GPU-AI串联线缆

图2-3 8GPU-AI串联示意图

 

·     8GPU-AI并联

主要用于对带宽要求较高的AI场景。该GPU配置方案最多支持8张全高全长双宽GPU卡,8张GPU卡从属于1个CPU,如图2-4所示。该GPU配置方案线缆连接方式请参见7.3.3  连接8GPU-AI并联线缆

图2-4 8GPU-AI并联示意图

 

·     8GPU-HPC

适合大多数的HPC应用,适用于CPU和GPU卡频繁通信的场景且在这种场景下CPU负载均衡。该GPU配置方案最多支持8张全高全长双宽GPU卡,8张GPU卡从属于2个CPU,如图2-5所示。该GPU配置方案线缆连接方式请参见7.3.4  连接8GPU-HPC线缆

图2-5 8GPU-HPC示意图

 

3. 16GPU机型

适合推理场景。该GPU配置方案支持16张半高半长单宽GPU卡和4个PCIe3.0插槽,最多支持20张半高半长单宽GPU卡,20张GPU卡从属于2个CPU,如图2-6所示。该GPU配置方案线缆连接方式请参见7.3.5  连接16GPU线缆

图2-6 16GPU-HPC示意图

 

4. HGX 4-GPU模块机型

适用于深度学习,高性能计算等多种加速计算场景。该GPU配置方案支持1个HGX 4-GPU模块,集成在模块中的4张GPU卡从属于2个CPU,如图2-7所示。该GPU配置方案线缆连接方式请参见7.3.6  连接HGX 4-GPU模块线缆

图2-7 HGX 4-GPU模块-HPC示意图

 

2.4  部件

介绍服务器各部件含义。

图2-8 4GPU、8GPU和16GPU机型服务器部件

 

表2-4 4GPU、8GPU和16GPU机型服务器部件说明

序号

名称

说明

1

机箱盖

-

2

系统电池

为系统时钟供电,确保系统日期和时间正确

3

GPU电源转接板

安装在主板的通流铜柱上,为GPU计算模块供电

4

SATA M.2 SSD卡

为服务器提供数据存储介质

5

Mezz存储控制卡

一种存储控制卡,仅支持安装到主板上的Mezz存储控制卡插槽

6

主板

服务器最重要的部件之一,用于安装CPU、内存和风扇等,集成了服务器的基础元器件,包括BIOS芯片、PCIe插槽等

7

电源模块

为服务器运行提供电力转换功能。电源模块支持热插拔,支持N+N冗余

8

OCP转接模块

用于安装OCP网卡

9

OCP网卡

一种网卡,安装在机箱后部,可以在不打开机箱盖的情况下进行安装和更换

10

NVMe VROC模块

NVMe VROC模块用于激活NVMe硬盘阵列特性,配合VMD技术实现NVMe硬盘阵列功能

11

加密模块

用于为服务器提供加密服务,提高服务器数据安全性

12

GPU稳定架

帮助固定在位的GPU,提升GPU的稳定性

13

标准PCIe网卡

一种网卡,支持安装到标准PCIe槽位

14

存储控制卡

SAS/SATA硬盘提供RAID支持,具有RAID配置、RAID扩容等功能,支持在线升级RAID卡固件、远程设置

15

GPU卡

为服务器提供图像处理和人工智能等计算服务

16

GPU节点板

GPU节点板经过GPU电源转接板进行供电,当GPU计算模块被抽出时,GPU节点板将断电

17

GPU扩展笼

用于安装GPU节点板,安装了GPU节点板的扩展笼统称GPU计算模块

18

机箱

机箱将所有部件集中到一起

19

智能挂耳

用于将服务器固定到机柜,其中右侧挂耳中集成了前面板I/O组件,左侧挂耳带VGAUSB 3.0接口

20

硬盘背板

为硬盘供电并提供数据传输通道,本文以服务器前部配置的24LFF硬盘背板为例

21

硬盘

为服务器提供数据存储介质,支持热插拔。产品支持SSD、HDD硬盘,支持多种硬盘接口类型,如SAS、SATA、M.2、PCIe等

22

风扇笼

用于安装风扇模块

23

风扇模块

为服务器散热提供动力,支持热插拔,支持N+1冗余

24

超级电容

用于在系统意外掉电时为存储控制卡上的Flash卡供电,实现存储控制卡上数据的掉电保护

25

内存

用于暂时存放CPU中的运算数据,以及与硬盘等外部存储设备交换的数据,产品支持DDR4、PMem200内存

26

导风罩

为CPU散热器和内存提供散热风道,同时为超级电容提供安装位置。

27

CPU散热器

用于为CPU散热

28

CPU

集成内存控制器和PCIe控制器,为服务器提供强大的数据处理功能,产品仅支持Intel CPU

29

CPU夹持片

用于将CPU固定到散热器

 

图2-9 HGX 4-GPU模块机型服务器部件

 

表2-5 HGX 4-GPU模块机型服务器部件说明

序号

名称

说明

1

机箱盖

-

2

系统电池

为系统时钟供电,确保系统日期和时间正确

3

GPU电源转接板

安装在主板的通流铜柱上,为GPU计算模块供电

4

SATA M.2 SSD卡

为服务器提供数据存储介质

5

Mezz存储控制卡

一种存储控制卡,仅支持安装到主板上的Mezz存储控制卡插槽

6

主板

服务器最重要的部件之一,用于安装CPU、内存和风扇等,集成了服务器的基础元器件,包括BIOS芯片、PCIe插槽等

7

电源模块

为服务器运行提供电力转换功能。电源模块支持热插拔,支持N+N冗余

8

OCP转接模块

用于安装OCP网卡

9

OCP网卡

一种网卡,安装在机箱后部,可以在不打开机箱盖的情况下进行安装和更换

10

NVMe VROC模块

NVMe VROC模块用于激活NVMe硬盘阵列特性,配合VMD技术实现NVMe硬盘阵列功能

11

加密模块

用于为服务器提供加密服务,提高服务器数据安全性

12

GPU稳定架

帮助固定在位的GPU,提升GPU的稳定性

13

GPU导风罩

为GPU模块提供散热风道

14

标准PCIe网卡

一种网卡,支持安装到标准PCIe槽位

15

存储控制卡

SAS/SATA硬盘提供RAID支持,具有RAID配置、RAID扩容等功能,支持在线升级RAID卡固件、远程设置

16

HGX 4-GPU模块

内部集成4张NVIDIA  GPU,为服务器提供图像处理和人工智能等计算服务

17

GPU节点板

GPU节点板经过GPU电源转接板进行供电,当GPU计算模块被抽出时,GPU节点板将断电

18

GPU扩展笼

用于安装GPU节点板,安装了GPU节点板的扩展笼统称GPU计算模块

19

机箱

机箱将所有部件集中到一起

20

智能挂耳

用于将服务器固定到机柜,其中右侧挂耳中集成了前面板I/O组件,左侧挂耳带VGAUSB 3.0接口

21

硬盘背板

为硬盘供电并提供数据传输通道

22

硬盘

为服务器提供数据存储介质,支持热插拔

23

风扇笼

用于安装风扇模块

24

风扇模块

为服务器散热提供动力,支持热插拔,支持N+1冗余

25

超级电容

用于在系统意外掉电时为存储控制卡上的Flash卡供电,实现存储控制卡上数据的掉电保护

26

内存

用于暂时存放CPU中的运算数据,以及与硬盘等外部存储设备交换的数据

27

导风罩

为CPU散热器和内存提供散热风道,同时为超级电容提供安装位置

28

CPU散热器

用于为CPU散热

29

CPU

集成内存控制器和PCIe控制器,为服务器提供强大的数据处理功能

30

CPU夹持片

用于将CPU固定到散热器

 

2.5  前面板

介绍前面板上的组件、指示灯含义和接口用途。

2.5.1  服务器前面板组件

图2-10 前面板-24LFF硬盘

 

表2-6 前面板-24LFF硬盘组件说明

编号

说明

1

USB 3.0接口

2

可选SAS/SATA硬盘或NVMe硬盘

3

SAS/SATA硬盘

4

抽拉式资产标签

5

HDM专用管理接口

6

USB 3.0接口

7

VGA接口

 

图2-11 前面板-12LFF硬盘

 

表2-7 前面板-12LFF硬盘组件说明

编号

说明

1

USB 3.0接口

2

NVMe硬盘

3

SAS/SATA硬盘

4

抽拉式资产标签

5

HDM专用管理接口

6

USB 3.0接口

7

VGA接口

 

2.5.2  指示灯和按钮

图2-12 前面板指示灯和按钮

 

表2-8 前面板指示灯说明

编号

说明

状态

1

开机/待机按钮和系统电源指示灯

·     绿灯常亮:系统已启动

·     绿灯闪烁(1Hz):系统正在开机

·     橙灯常亮:系统处于待机状态

·     灯灭:未通电

2

OCP网卡以太网接口指示灯

·     绿灯常亮:OCP 3.0网卡上任一网口连接状态正常

·     绿灯闪烁(1Hz):OCP 3.0网卡上任一网口有数据收发

·     灯灭:OCP 3.0网卡上全部网口均未使用

3

Health指示灯

·     绿灯常亮:系统状态正常或有轻微告警

·     绿灯闪烁(4Hz):HDM正在初始化

·     橙灯闪烁(1Hz):系统出现严重错误告警

·     红灯闪烁(1Hz):系统出现紧急错误告警

4

UID按钮/指示灯

·     蓝灯常亮:UID指示灯被激活。UID指示灯可通过以下任意方法被激活

¡     UID按钮被按下

¡     通过HDM开启UID指示灯

·     蓝灯闪烁:

¡     1Hz:系统正在被HDM远程管理或正在通过HDM带外方式升级固件,请勿下电

¡     4Hz:HDM正在重启(长按UID按钮/指示灯8秒及以上可重启HDM)

·     灯灭:UID指示灯未激活

·     如果Health指示灯显示系统出现问题,请通过HDM查看系统运行状态。

·     系统电源指示灯灭的原因可能有:没有接通电源、未安装电源模块、电源模块故障或系统电源指示灯线缆未连接。

 

2.5.3  接口

表2-9 前面板接口

接口名称

类型

用途

VGA接口

DB15

·     用于连接显示终端,如显示器或KVM设备

USB接口

USB 3.0

用于连接USB设备,以下情况下需要使用该接口:

·     连接U盘

·     连接USB键盘或鼠标

·     安装操作系统时,连接USB光驱

HDM专用管理接口

Type-C

通过Type-C转USB转接线,转接USB Wi-Fi模块或U盘

 

2.6  后面板

介绍服务器后面板上的组件、指示灯含义和接口用途。

2.6.1  后面板组件

1. 4GPU计算模块

图2-13 后面板组件-4GPU计算模块

 

表2-10 后面板组件-4GPU计算模块说明

编号

说明

1

4GPU计算模块

2

电源模块4

3

电源模块3

4

VGA接口

5

可选OCP 3.0网卡(slot 5)

6

HDM专用网络接口(1Gb/s,RJ45,缺省IP地址:192.168.1.2/24)

7

USB 3.0接口(2个)

8

BIOS串口

9

电源模块2

10

电源模块1

11

抽拉式资产标签

 

2. 8GPU计算模块

图2-14 后面板组件-8GPU计算模块

 

表2-11 后面板组件-8GPU计算模块说明

编号

说明

1

8GPU计算模块

2

电源模块4

3

电源模块3

4

VGA接口

5

可选OCP 3.0网卡(slot 5)

6

HDM专用网络接口(1Gb/s,RJ45,缺省IP地址:192.168.1.2/24)

7

USB 3.0接口(2个)

8

BIOS串口

9

电源模块2

10

电源模块1

11

抽拉式资产标签

 

3. 16GPU计算模块

图2-15 后面板组件-16GPU计算模块

 

表2-12 后面板组件-16GPU计算模块说明

编号

说明

1

16GPU计算模块

2

电源模块4

3

电源模块3

4

VGA接口

5

可选OCP 3.0网卡(slot 5)

6

HDM专用网络接口(1Gb/s,RJ45,缺省IP地址:192.168.1.2/24)

7

USB 3.0接口(2个)

8

BIOS串口

9

电源模块2

10

电源模块1

11

抽拉式资产标签

 

4. HGX 4-GPU模块计算模块

图2-16 后面板组件-HGX 4-GPU模块计算模块

 

 

表2-13 后面板组件- HGX 4-GPU模块计算模块说明

编号

说明

1

HGX 4-GPU模块计算模块

2

电源模块4

3

电源模块3

4

VGA接口

5

可选OCP 3.0网卡(slot 5)

6

HDM专用网络接口(1Gb/s,RJ45,缺省IP地址:192.168.1.2/24)

7

USB 3.0接口(2个)

8

BIOS串口

9

电源模块2

10

电源模块1

11

抽拉式资产标签

 

2.6.2  后面板指示灯

图2-17 后面板指示灯

 

表2-14 后面板指示灯说明

编号

说明

说明

1

电源模块1状态指示灯

·     绿灯常亮:电源模块工作正常

·     绿灯闪烁(1Hz):电源模块输入正常,系统处于待机状态未上电

·     绿灯闪烁(0.33Hz):电源模块处于备用电源模式,无功率输出

·     绿灯闪烁(2Hz):电源模块处于固件更新状态

·     橙灯常亮:

¡     电源模块出现严重故障

¡     该电源模块无输入,另一个电源模块输入正常

·     橙灯闪烁(1Hz):电源模块出现告警

·     灯灭:电源模块无输入,存在以下一种或两种情况:

¡     电源线缆连接故障

¡     外部供电系统断电

2

电源模块2状态指示灯

8

电源模块3状态指示灯

9

电源模块4状态指示灯

3

ATTN BUTTON按钮和指示灯

指示灯含义及说明,详见表2-15

4

OCP网卡POWER指示灯

5

UID指示灯

·     蓝灯常亮:UID指示灯被激活。UID指示灯可通过以下方法之一被激活:

¡     UID按钮被按下

¡     通过HDM开启UID指示灯

·     蓝灯闪烁:

¡     1Hz:系统正在被HDM远程管理或正在通过HDM带外方式升级固件,请勿下电

¡     4Hz:HDM正在重启(长按UID按钮/指示灯8秒及以上可重启HDM)

·     灯灭:UID指示灯未激活

6

以太网接口连接状态指示灯

·     绿色常亮:网口链路已经连通

·     灯灭:网口链路没有连通

7

以太网接口数据传输状态指示灯

·     绿色闪烁(1Hz):网口正在接收或发送数据

·     灯灭:网口没有接收或发送数据

 

表2-15 OCP网卡指示灯说明

ATTN BUTTON指示灯(橙色)

POWER指示灯(绿色)

说明

常亮

灯灭

OCP网卡异常或未安装到位

闪烁(1Hz

灯灭

·     服务器处于待机状态

·     服务器处于开机过程

·     按ATTN BUTTON先热拔出OCP网卡,再热插入同类型的OCP网卡后(服务器正常运行状态)

灯灭

闪烁(1.5Hz

OCP网卡处于上电或下电过程

灯灭

常亮

OCP网卡正常运行

灯灭

灯灭

OCP网卡已下电

 

2.6.3  接口

表2-16 后面板接口

接口名称

类型

用途

HDM专用网络接口

RJ45

用于登录HDM管理界面,进行服务器管理

USB接口

USB 3.0

用于连接USB设备,以下情况下需要使用该接口:

·     连接U盘

·     连接USB键盘或鼠标

·     安装操作系统时,连接USB光驱

VGA接口

DB15

用于连接显示终端,如显示器或KVM设备

BIOS串口

RJ45

·     服务器网络故障,远程连接服务器失败时,可通过连接服务器的BIOS串口,登录服务器进行故障定位

·     用于加密狗、短信猫等应用

电源接口

标准单相电源接头

用于连接电源模块和外部供电系统,为设备供电

 

2.7  GPU计算模块

介绍如下内容:

·     服务器支持的GPU计算模块类型。

·     每种GPU计算模块节点板(简称GPU节点板)布局。

2.7.1  GPU计算模块类型

服务器4款机型分别支持不同的GPU计算模块:4GPU计算模块、8GPU计算模块、16GPU计算模块和HGX 4-GPU模块计算模块。

·     4GPU计算模块:最多支持安装4张全高全长双宽GPU卡和2张标准半长单宽PCIe卡。

·     8GPU计算模块:最多支持安装8张全高全长双宽GPU卡和4张标准半长单宽PCIe卡。

·     16GPU计算模块:支持安装16张半高半长单宽GPU卡和4张标准半长单宽PCIe卡或最多20张半高半长单宽GPU卡。

·     HGX 4-GPU模块计算模块:最多支持安装1个HGX 4-GPU模块和2张标准半长单宽PCIe卡

2.7.2  GPU节点板布局

介绍4种GPU节点板布局。

1. 4GPU节点板布局

图2-18 4GPU节点板布局

 

表2-17 4GPU节点板布局说明

编号

说明

1

从右到左依次为PCIe 4.0 x16 slot 9~12

2

LP SlimSAS接口N2 0(PCIe4.0 x8)

3

LP SlimSAS接口N2 1(PCIe4.0 x8)

4

PCIe4.0 x16 slot 2

5

PCIe4.0 x16 slot 1

6

GPU电源接口(4个)

7

LP SlimSAS接口N1(PCIe4.0 x16)

8

LP SlimSAS接口N3(PCIe4.0 x16)

9

LP SlimSAS接口N7(PCIe4.0 x16)

10

LP SlimSAS接口N5(PCIe4.0 x16)

11

LP SlimSAS接口N6(PCIe4.0 x16)

12

GPU节点AUX接口

·     PCIe4.0 x16含义如下:

¡     PCIe4.0:第四代信号速率。

¡     x16:总线带宽。

 

表2-18 4GPU节点板的槽位CPU从属关系

槽位号

4GPU-HPC方案从属CPU

Slot 1

CPU2

Slot 2

CPU2

Slot 9

CPU1

Slot 10

CPU1

Slot 11

CPU2

Slot 12

CPU2

 

2. 8GPU节点板布局

图2-19 8GPU节点板布局

 

表2-19 8GPU节点板布局说明

编号

说明

1

PCIe4.0 x16 slot 4

2

PCIe4.0 x16 slot 3

3

从右到左依次为PCIe 4.0 x16 slot 7~14

4

PCIe4.0 x16 slot 2

5

PCIe4.0 x16 slot 1

6

GPU电源接口(8个)

7

LP SlimSAS接口N1(PCIe4.0 x16)

8

LP SlimSAS接口N3(PCIe4.0 x16)

9

LP SlimSAS接口N2(PCIe4.0 x16)

10

LP SlimSAS接口N4(PCIe4.0 x16)

11

LP SlimSAS接口N5(PCIe4.0 x16)

12

LP SlimSAS接口N6(PCIe4.0 x16)

13

GPU节点AUX接口

·     PCIe4.0 x16含义如下:

¡     PCIe4.0:第四代信号速率。

¡     x16:总线带宽。

 

表2-20 8GPU节点板的槽位CPU从属关系

槽位号

8GPU-AI串联方案从属CPU

8GPU-AI并联方案从属CPU

8GPU-HPC方案从属CPU

Slot 1

CPU1

CPU2

CPU1

Slot 2

CPU2

CPU1

CPU1

Slot 3

CPU2

CPU2

CPU2

Slot 4

CPU1

CPU1

CPU2

Slot 7

CPU1

CPU1

CPU1

Slot 8

CPU1

CPU1

CPU1

Slot 9

CPU1

CPU1

CPU1

Slot 10

CPU1

CPU1

CPU1

Slot 11

CPU1

CPU1

CPU2

Slot 12

CPU1

CPU1

CPU2

Slot 13

CPU1

CPU1

CPU2

Slot 14

CPU1

CPU1

CPU2

 

3. 16GPU节点板布局

图2-20 16GPU节点板布局

 

表2-21 16GPU节点板布局说明

编号

说明

1

PCIe3.0 x16 slot 4

2

PCIe3.0 x16 slot 3

3

从右到左依次为PCIe3.0 x16 slot 722

4

PCIe3.0 x16 slot 2

5

PCIe3.0 x16 slot 1

6

LP SlimSAS接口N1(PCIe3.0 x16,从属CPU 1)

7

LP SlimSAS接口N3(PCIe3.0 x16,从属CPU 1)

8

LP SlimSAS接口N5(PCIe3.0 x16,从属CPU 2)

9

LP SlimSAS接口N6(PCIe3.0 x16,从属CPU 2)

10

GPU节点AUX接口

·     PCIe3.0 x16含义如下:

¡     PCIe3.0:第三代信号速率。

¡     x16:总线带宽。

 

表2-22 16GPU节点板的槽位CPU从属关系

槽位号

从属CPU

Slot 1

CPU1

Slot 2

CPU1

Slot 3

CPU2

Slot 4

CPU2

Slot 7

CPU1

Slot 8

CPU1

Slot 9

CPU1

Slot 10

CPU1

Slot 11

CPU1

Slot 12

CPU1

Slot 13

CPU1

Slot 14

CPU1

Slot 15

CPU2

Slot 16

CPU2

Slot 17

CPU2

Slot 18

CPU2

Slot 19

CPU2

Slot 20

CPU2

Slot 21

CPU2

Slot 22

CPU2

 

4. HGX 4-GPU模块节点板布局

图2-21 HGX 4-GPU模块节点板布局

 

 

表2-23 HGX 4-GPU模块节点板布局说明

编号

说明

1

PCIe4.0 x16 slot 2

2

PCIe4.0 x16 slot 1

3

x16 LP SlimSAS接口N7(PCIe4.0 x16,从属CPU 2)

4

GPU电源接口

·     PCIe4.0 x16含义如下:

¡     PCIe4.0:第四代信号速率。

¡     x16:总线带宽。

 

表2-24 HGX 4-GPU模块节点板的槽位CPU从属关系

槽位号

从属CPU

Slot 1

CPU2

Slot 2

CPU2

 

2.8  主板

介绍服务器主板布局和主板上的组件含义。

2.8.1  主板布局

图2-22 主板布局

 

表2-25 主板布局说明

序号

含义

丝印

1

OCP转接模块插槽

OCP RISER CONN

2

内置USB 3.0接口(2个)

-

3

Mezz存储控制卡插槽

MEZZ CARD

4

电源铜柱安装孔1

-

5

LP SlimSAS接口M1(PCIe4.0 x16,从属CPU 1)

PCIE M1

6

SlimSAS接口1(x8 SATA)

SATA PORT1

7

SlimSAS接口(x8 SAS)

SAS PORT

8

LP SlimSAS接口M3(PCIe4.0 x16,从属CPU 1)

PCIE M3

9

前面板I/O接口

RIGHT EAR

10

前部硬盘背板电源接口3

BP PWR3

11

LP SlimSAS接口A1/A2(PCIe4.0 x8,从属CPU 1)

NVME-A1/A2

12

LP SlimSAS接口A3/A4(PCIe4.0 x8,从属CPU 1)

NVME-A3/A4

13

前部硬盘背板电源接口2

BP PWR2

14

LP SlimSAS接口B1/B2(PCIe4.0 x8,从属CPU 2)

NVME-B1/B2

15

LP SlimSAS接口B3/B4(PCIe4.0 x8,从属CPU 2)

NVME-B3/B4

16

前部硬盘背板电源接口1

BP PWR1

17

前部硬盘背板AUX接口

BP AUX

18

开箱检测模块、前部VGA、USB 3.0接口和HDM专用管理接口

LEFT EAR

19

GPU计算模块AUX接口

MB AUX

20

LP SlimSAS接口M5(PCIe4.0 x16,从属CPU 2)

PCIE M5

21

LP SlimSAS接口M7(PCIe4.0 x16,从属CPU 2)

PCIE M7

22

LP SlimSAS接口M6(PCIe4.0 x16,从属CPU 2)

PCIE M6

23

电源铜柱安装孔2

-

24

系统电池

-

25

NVMe VROC模块接口

NVME RAID KEY

26

SATA M.2 SSD卡接口(2个)

M.2-1和M.2-2

27

TPM/TCM插槽

-

X

系统维护开关

-

PCIe4.0 x8含义如下:

·     PCIe4.0:第四代信号速率。

·     x8:总线带宽。

 

2.8.2  系统维护开关

系统维护开关有8个拨码,如图2-23所示。

图2-23 系统维护开关

R6700-G3_047

 

通过系统维护开关,可解决以下问题,具体请参见表2-26。系统维护开关的具体位置请参见2.8.1  主板布局

·     忘记HDM登录用户名或密码,无法登录HDM。

·     忘记BIOS密码,无法进入BIOS。

·     需要恢复BIOS缺省设置。

表2-26 系统维护开关说明

位置

含义(缺省均为OFF)

注意事项

1

OFF = 登录HDM时,需要输入用户名和密码

ON = 登录HDM时,需要输入缺省用户名和密码

位置1为ON时,可永久通过缺省用户名和缺省密码登录HDM。建议完成操作后,重新将位置1调整为OFF。

5

OFF = 正常启动服务器

ON = 恢复BIOS缺省设置

服务器关机状态下,将位置5调整到ON状态,然后再调整到OFF状态,最后启动服务器,BIOS即可恢复缺省设置。

注意

当开关5调整为ON状态后,服务器将无法启动。所以,请在开关5调整为ON状态前,停止正在运行的业务并确保服务器已关机,否则可能造成业务数据丢失。

6

OFF = 正常启动服务器

ON = 启动服务器时清除BIOS的所有密码

位置6为ON时,每次启动服务器均会清除BIOS的所有密码。建议BIOS密码设置完成后,重新将位置6调整为OFF。

2,3,4,7,8

预留

 

2.8.3  DIMM插槽

DIMM插槽布局如图2-24所示,A0、B0…H0,A1、B1…H1表示内存插槽号。DIMM的具体安装准则请参见2.13.2  内存

图2-24 内存插槽编号

 

2.9  硬盘

介绍如下内容:

·     服务器支持的典型硬盘配置。

·     每种硬盘配置所需的存储控制卡配置和线缆连接方法。

·     所有硬盘配置对应的硬盘编号。

·     硬盘指示灯的含义。

2.9.1  硬盘配置

服务器支持多种不同的硬盘配置,可供用户灵活选择,具体硬盘配置如表2-27

表2-27 服务器硬盘配置说明

硬盘配置

硬盘具体配置

存储控制卡配置和主板SlimSAS接口连线方式

线缆连接方法

12LFF

8LFF SATA硬盘+ 4LFF NVMe硬盘

VROC板载软RAID。同时,硬盘背板上的SlimSAS接口需要连接到主板上的SlimSAS接口

7.2.1  12LFF硬盘配置

8LFF SAS/SATA硬盘 + 4LFF NVMe硬盘

Mezz存储控制卡或标准存储控制卡。同时,硬盘背板上的SlimSAS接口需要连接到主板上的SlimSAS接口

24LFF

16LFF SAS/SATA硬盘 + 8LFF UniBay硬盘

Mezz存储控制卡或标准存储控制卡。同时,配置Mezz存储控制卡时,硬盘背板上的SlimSAS接口需要连接到主板上的SlimSAS接口;配置标准存储控制卡时,硬盘背板上的SlimSAS接口需要连接到标准存储控制卡上的SlimSAS接口

7.2.2  24LFF硬盘配置

20LFF SAS/SATA硬盘 + 4LFF UniBay硬盘

·     HGX 4-GPU模块机型仅支持12LFF硬盘配置,8GPU和16GPU机型两种硬盘配置均支持。

·     硬盘配置不同,SAS/SATA硬盘和NVMe硬盘的安装位置也不同,详细信息请参见2.5.1  服务器前面板组件

·     UniBay硬盘:SAS/SATA HDD/SSD硬盘或NVMe硬盘。

·     硬盘槽位的具体信息请参见2.9.2  硬盘编号

 

2.9.2  硬盘编号

硬盘编号,即硬盘的物理槽位号,用于指示硬盘位置,与服务器前后面板上的丝印完全一致。

硬盘的物理编号和硬盘在软件(HDM、BIOS)上显示编号的对应关系,请参见附录C 硬盘槽位号对应关系表。

图2-25 12LFF硬盘编号

 

图2-26 24LFF硬盘编号

 

2.9.3  硬盘指示灯

服务器支持SAS/SATA硬盘和NVMe硬盘。硬盘通过硬盘指示灯指示硬盘状态。硬盘指示灯位置如图2-27所示。

图2-27 硬盘指示灯

(1):硬盘Fault/UID指示灯

(2):硬盘Present/Active指示灯

 

SAS/SATA硬盘支持热插拔,指示灯含义请参见表2-28

表2-28 SAS/SATA硬盘指示灯说明

硬盘Fault/UID指示灯(橙色/蓝色)

硬盘Present/Active指示灯(绿色)

说明

橙色灯闪烁(0.5Hz

常亮/闪烁(4Hz

硬盘预告性故障报警,请及时更换硬盘

橙色灯常亮

常亮/闪烁(4Hz

硬盘出现故障,请立即更换硬盘

蓝色灯常亮

常亮/闪烁(4Hz

硬盘状态正常,且被阵列管理工具选中

灯灭

闪烁(4Hz

硬盘在位,有数据读写操作或正在进行阵列迁移/重建

灯灭

常亮

硬盘在位,但没有数据读写操作

灯灭

灯灭

硬盘未安装到位

 

NVMe硬盘支持预知性热拔和热插拔,指示灯含义请参见表2-29

表2-29 NVMe硬盘指示灯说明

硬盘Fault/UID指示灯(橙色/蓝色)

硬盘Present/Active指示灯(绿色)

说明

橙色灯闪烁(0.5Hz)

灯灭

硬盘已完成预知性热拔出流程,允许拔出硬盘

橙色灯闪烁(4Hz)

灯灭

硬盘处于热插入过程

橙色灯常亮

常亮/闪烁(4Hz)

硬盘出现故障,请立即更换硬盘

蓝色灯常亮

常亮/闪烁(4Hz)

硬盘状态正常,且被阵列管理工具选中

灯灭

闪烁(4Hz)

硬盘在位,有数据读写操作或正在进行阵列迁移/重建

灯灭

常亮

硬盘在位,但无数据读写操作

灯灭

灯灭

硬盘未安装到位

 

2.10  硬盘背板

介绍服务器支持的硬盘背板,包括:背板的组件、背板支持的硬盘类型和数量。

·     硬盘背板按支持的硬盘类型分类,可以分为SAS/SATA硬盘背板、UniBay硬盘背板、硬盘背板(X SAS/SATA+Y UniBay)。

¡     SAS/SATA硬盘背板:所有硬盘槽位仅支持SAS/SATA硬盘。

¡     UniBay硬盘背板:所有硬盘槽位同时支持SAS/SATA硬盘和NVMe硬盘。

¡     硬盘背板(X SAS/SATA+Y UniBay):所有硬盘槽位均支持SAS/SATA硬盘,部分硬盘槽位支持NVMe硬盘。

-     X:仅支持SAS/SATA硬盘的槽位数量。

-     Y:同时支持SAS/SATA硬盘和NVMe硬盘的槽位数量。

说明

·     UniBay硬盘背板和硬盘背板(X SAS/SATA+Y UniBay)只有在同时连接了SAS/SATA数据线缆和NVMe数据线缆时,才能同时支持两种类型的硬盘。

·     UniBay硬盘背板和硬盘背板(X SAS/SATA+Y UniBay)实际支持的SAS/SATA硬盘和NVMe硬盘数量,与布线方案有关,请以实际情况为准。

 

2.10.1  12LFF硬盘背板(8SAS/SATA+4NVMe)

12LFF硬盘背板安装在机箱前部,最多支持12个3.5英寸硬盘,包括8个SAS/SATA硬盘和4个NVMe硬盘。背板组件说明如图2-28所示。

图2-28 12LFF硬盘背板

 

表2-30 12LFF硬盘背板组件说明

编号

说明

丝印

1

SlimSAS接口2(PCIe3.0 x8),支持NVMe硬盘(对应硬盘编号9)

NVMe2

2

SlimSAS接口1(PCIe3.0 x8),支持NVMe硬盘(对应硬盘编号8)

NVMe1

3

电源接口2

PWR2

4

电源接口1

PWR1

5

电源接口3

PWR3

6

AUX接口

AUX

7

x8 Mini-SAS-HD接口1(控制该背板前8个槽位上的SAS/SATA硬盘)

SAS PORT1

8

SlimSAS接口3(PCIe3.0 x8),支持NVMe硬盘(对应硬盘编号10)

NVMe3

9

x4 Mini-SAS-HD接口2

SAS PORT2

10

SlimSAS接口4(PCIe3.0 x8),支持NVMe硬盘(对应硬盘编号11)

NVMe4

·     PCIe3.0 x8含义如下:

¡     PCIe3.0:第三代信号速率。

¡     x8:总线带宽。

·      硬盘编号,请参见2.9.2  硬盘编号

 

2.10.2  24LFF硬盘背板(16SAS/SATA+8UniBay)

24LFF硬盘背板安装在机箱前部,最多支持24个3.5英寸硬盘,包括16个SAS/SATA硬盘和8个SAS/SATA/NVMe硬盘。硬盘背板集成了Expander扩展芯片,可以通过一个x8 Mini-SAS-HD接口管理24个SAS/SATA硬盘。背板组件说明如图2-29所示。

图2-29 24LFF硬盘背板

 

表2-31 24LFF硬盘背板组件说明

编号

说明

丝印

1

电源接口1

PWR1

2

AUX接口

AUX1

3

x8 Mini-SAS-HD接口(控制该背板上所有的SAS/SATA硬盘)

SAS PORT

4

电源接口2

PWR2

5

电源接口3

PWR3

6

SlimSAS接口B3/B4(PCIe3.0 x8),支持NVMe硬盘(对应硬盘编号22和23)

NVMe-B3/B4

7

SlimSAS接口B1/B2(PCIe3.0 x8),支持NVMe硬盘(对应硬盘编号20和21)

NVMe- B1/B2

8

SlimSAS接口A1/A2(PCIe3.0 x8),支持NVMe硬盘(对应硬盘编号18和19)

NVMe-A1/A2

9

SlimSAS接口A3/A4(PCIe3.0 x8),支持NVMe硬盘(对应硬盘编号16和17)

NVMe-A3/A4

·     PCIe3.0 x8含义如下:

¡     PCIe3.0:第三代信号速率。

¡     x8:总线带宽。

·      硬盘编号,请参见2.9.2  硬盘编号

 

2.11  风扇模块

服务器最多支持4组热插拔风扇模块,每组风扇模块由2个风扇组成,风扇模块布局如图2-30所示。服务器支持风扇单转子失效冗余。

服务器支持可变的风扇速度,即风扇会根据系统实际温度调整转速。转速策略上兼顾了系统散热和系统噪音,使系统的散热和噪音达到最优。

说明

POST期间和操作系统运行过程中,如果系统检测到监控点温度达到紧急阈值,HDM会将服务器系统正常关机。如果系统检测到CPU等关键模块温度超过最高门限值时,服务器将直接关机。监控点的实际温度和紧急阈值可通过HDM Web界面查看,具体方法请参见HDM联机帮助。

 

图2-30 风扇布局

 

2.12  服务器B/D/F信息

服务器的B/D/F信息随着PCIe卡配置的变化可能会发生改变,用户可通过如下途径获取服务器的B/D/F信息:

·     BIOS串口日志:如已收集串口日志,可通过搜索关键词“dumpiio”,查询到服务器的B/D/F信息。

·     UEFI Shell:用户可通过pci命令获取服务器的B/D/F,pci命令具体使用方法可通过help pci命令获取。

·     操作系统下获取,不同操作系统下,获取方式会有所不同,具体方法如下:

¡     Linux操作系统下:可通过"lspci -vvv"命令获取服务器的B/D/F信息。

¡     Windows操作系统下:安装pciutils软件包后,使用"lspci"命令获取服务器的B/D/F信息。

说明

·     如果操作系统没有默认支持"lspci -vvv"命令,可通过yum源获取、安装pci-utils软件包后支持。

·     Windows操作系统非本产品推荐操作系统。

 

¡     VMware操作系统下:VMware操作系统默认支持"lspci"命令,用户可直接通过"lspci"命令获取。

2.13  部件安装准则及相关信息

本章节介绍各个模块的安装准则。

2.13.1  CPU

1. CPU安装准则

·     服务器上的CPU必须满配。

·     为避免损坏CPU或主板,只限H3C授权人员或专业的服务器工程师安装CPU。

·     请确保同一服务器上安装的CPU型号相同。

·     CPU产品型号后缀为U,代表此CPU仅支持单路运行。CPU产品型号后缀请参见2. CPU产品型号后缀的含义

·     为避免CPU底座中针脚损坏,请确保在未安装CPU的底座中安装了CPU盖片。

·     为防止人体静电损坏电子组件,请在操作前佩戴防静电腕带,并将防静电腕带的另一端良好接地。

2. CPU产品型号后缀的含义

若CPU产品型号是:UN-CPU-INTEL-8360Y-S,那么它的后缀为“Y”(简称CPU产品型号后缀)。服务器支持的CPU产品型号可通过服务器兼容的部件查询工具查询。

Intel Ice LakeCPU产品型号后缀含义如表2-32

表2-32 Intel Ice Lake CPU产品型号后缀说明

CPU产品型号后缀

后缀含义

后缀说明

N

NFV Optimized

支持NFV场景优化

T

High Tcase

支持高温度规格

U

Single Socket

仅支持单路运行

V

SaaS Optimized SKU for orchestration efficiency targeting high density,lower power VM environment(70% CPU utilization)

SaaS场景优化,针对高密度、低功耗虚拟机应用

P

laaS optimized SKU for orchestration efficiency targeting higher frequency for VM Markets(70% CPU utilization)

IaaS场景优化,针对更高主频的虚拟机应用

Y

Speed Select Technology – Performance Profile

支持英特尔SST技术,可配置内核数量和内核频率

S

Max SGX enclave size SKUs(512GB)

最大SGX enclave安全容器(512GB)

Q

Liquid cooling(Temperature Inlet to cold plate = 40℃,ICX TTV Ψca (case-to-fluid inlet resistance)=0.06℃/W)

液冷专用CPU型号

M

Media Processing Optimized

媒体处理场景优化

本表提供的信息仅供参考,具体内容以Intel官网资料为准。

 

2.13.2  内存

内存,又称DIMM,DIMM包括DDR4和PMem 200两类内存,其中DDR4又包括LRDIMM和RDIMM。

1. 内存基本概念

(1)     DDR4和PMem 200

说明

PMem 200的标签含义、功能及优势等,请参见《H3C服务器 PMem 200用户指南》。

 

·     DDR4是最为常见的内存类型。服务器系统意外掉电时,DDR4中的数据会丢失。

·     PMem 200具有如下两个特点。

¡     相比于DDR4,PMem 200具有更大的单根内存容量。

¡     PMem 200(如Barlow Pass)具有数据掉电保护功能。服务器系统意外掉电时,PMem 200中的数据不会丢失。

(2)     RDIMM和LRDIMM

·     RDIMM提供了地址奇偶校验保护功能。

·     LRDIMM可为系统提供更大的容量和带宽。

(3)     Rank

内存的RANK数量通常为1、2、4、8,一般简写为1R/SR、2R、4R、8R,或者Single-Rank、Dual-Rank、Quad-Rank、8-Rank。

·     1R DIMM具有一组内存芯片,在DIMM中写入或读取数据时,将会访问这些芯片。

·     2R DIMM相当于一个模块中包含两个1R DIMM,但每次只能访问一个Rank。

·     4R DIMM相当于一个模块中包含两个2R DIMM,但每次只能访问一个Rank。

·     8R DIMM相当于一个模块中包含两个4R DIMM,但每次只能访问一个Rank。

在内存中写入或读取数据时,服务器内存控制子系统将在内存中选择正确的Rank。

(4)     内存规格

可通过内存上的标签确定内存的规格。

图2-31 内存标识

 

表2-33 内存标识说明

编号

说明

定义

1

容量

·     8GB

·     16GB

·     32GB等

2

Rank数量

·     1R = Rank数量为1

·     2R = Rank数量为2

·     4R = Rank数量为4

·     8R = Rank数量为8

3

数据宽度

·     x4 = 4位

·     x8 = 8位

4

内存代数

DDR4

5

内存等效速度

·     2133P:2133MHz

·     2400T:2400MHz

·     2666V:2666MHz

·     2933Y:2933MHz

·     3200AA:3200MHz

6

内存类型

·     R = RDIMM

·     L = LRDIMM

 

2. 内存模式

服务器支持通过以下内存模式来保护内存中的数据。

说明

Independent Mode为缺省内存模式,在BIOS界面上无该配置选项。

 

·     Independent Mode

·     Mirror Mode

Independent Mode

标准ECC可纠正1位内存错误、检测多位内存错误,当标准ECC检测到多位错误时,会通报给服务器并使服务器停止运行。独立模式可避免服务器出现多位内存错误,同时可纠正一位或四位内存错误(当错误均位于内存上相同的DDR4时)。独立模式具有更强大的保护功能,可以纠正某些标准ECC无法纠正从而导致服务器停机的内存错误。

Mirror Mode

使用系统内存的一部分来做镜像,提高系统稳定性,以防出现无法纠正的内存错误而导致服务器停机,当检测到内存通道中发生无法纠正的错误时,服务器会从镜像内存中获取数据,镜像模式是通道级别的内存模式,如CH2为CH1的镜像,CH3为CH2的镜像,CH1为CH3的镜像。

3. 安装准则

服务器支持2路CPU,每路CPU支持8个通道,每个通道支持2根内存,即服务器支持32根内存。服务器支持仅配置DDR4,也支持混配PMem 200和DDR4。

当内存非满配时,请在对应空槽位安装内存假面板。

说明

仅当同时满足以下条件时,内存的工作频率可达到3200MHz:

·     使用支持的最高内存频率为3200MHz的CPU。

·     使用最高频率为3200MHz的DIMM。

·     配置DIMM的通道均仅配置一根DIMM。

 

内存和CPU的兼容性

内存和CPU的兼容性,如表2-34所示。

表2-34 内存和CPU的兼容性

CPU类型

CPU兼容的内存类型@频率

单颗CPU支持的最大内存容量(包含DDR4和PMem)

Intel Ice Lake

·     RDIMM @3200MHz

·     PMem 200 @3200MHz

6TB

 

内存运行频率

说明

内存频率、CPU支持的最高内存频率,均可以通过服务器兼容的部件查询工具查询。在查询工具中,内存频率通过“内存条”部件名称进行查询;CPU支持的最高内存频率通过“处理器”部件名称进行查询。

 

·     服务器中内存的运行频率,等于内存频率、CPU支持的最高内存频率两种中较小的值。比如:内存频率为2933MHz,CPU支持的最高内存频率为3200MHz,则内存的运行频率为2933MHz。

·     1DPC(DIMM Per Channel,每个通道中配置的内存数量)或2DPC,均不会影响内存运行频率。

仅配置DDR4时的内存安装准则

·     确保相应的CPU已安装到位。

·     在同一台服务器上优先配置相同编码相同规格(类型、容量、Rank、频率等)的DDR4内存,产品编码信息请通过官网服务器兼容的部件查询工具进行查询。如涉及部件扩容或故障需替换成其他规格的内存时,请联系技术支持确认。

·     除上述准则外,不同内存模式还有各自特定的准则,具体请参见表2-35。需要注意的是,当实际内存安装不满足这些特定准则时,无论用户配置了何种内存模式,系统均会自动降级并使用缺省的Independent Mode。

表2-35 不同内存模式的特定安装准则

内存模式

特定安装准则

Independent Mode(缺省)

·     遵循一般的内存安装准则,如图2-32图2-33所示。

Mirror Mode

·     确保每个CPU至少安装2根内存。

·     遵循一般的内存安装准则,如图2-32图2-33所示。需要注意的是,该模式不支持一般内存安装准则中不推荐的内存配置。

 

说明

图2-32图2-33(内存安装准则)中:

·     ”和橙色行表示推荐的内存安装准则,“*”表示不推荐的内存安装准则。

·     灰显的内存槽位(如F1)表示黑色的内存槽位,非灰显(如F0)的表示白色的内存槽位

 

图2-32 2路CPU DDR4内存安装准则(一)

图2-33 2路CPU DDR4内存安装准则(二)

 

混配PMem 200和DDR4时的内存安装准则

·     确保相应的CPU已安装到位。

·     请确保安装的PMem 200,未在其他产品上使用过,否则可能会造成安装后无法使用。

·     同一台服务器上配置的所有DDR4产品编码必须相同且配置的所有PMem 200产品编码也必须相同。产品编码信息请通过服务器兼容的部件查询工具查询。

·     PMem支持对应的工作模式,需分别满足对应的准则:

¡     支持AD工作模式时,需满足要求:单颗CPU下配置的内存容量(DDR4和PMem的总容量)≤单颗CPU可支持的最大内存容量(DDR4和PMem的总容量),单颗CPU可支持的最大内存容量(DDR4和PMem的总容量)如表2-34所示。

¡     支持MM工作模式时,需同时满足如下要求:

-     每颗CPU下配置的内存容量(DDR4和PMem的总容量)≤单颗CPU可支持的最大内存容量(DDR4和PMem的总容量)。

-     每颗CPU配置的DDR和PMem的容量配比需限制在1:4~1:16。

-     在BIOS中,将NUMA选项设置为Enabled状态。

¡     PMem与DDR不同容量配比支持的工作模式以及工作模式的配置方式,请参见PMem 200 用户指南及附录。

说明

图2-34图2-35(内存安装准则)中,灰显的内存槽位(如F1)表示黑色的内存槽位,非灰显(如F0)的表示白色的内存槽位。

 

图2-34 2路CPU PMem 200和DDR4内存安装准则(一)

 

图2-35 2路CPU PMem 200和DDR4内存安装准则(二)

2.13.3  SAS/SATA硬盘

注意

·     一个硬盘属于多个RAID的情况会使后期维护变得复杂,并影响RAID的性能。

·     HDD硬盘如果被频繁插拔,且插拔时间间隔小于30秒,可能会导致该硬盘无法被系统识别。

 

·     SAS/SATA硬盘在如下情况支持热插拔:

¡     通过存储控制卡控制的SAS/SATA硬盘,在进入BIOS或操作系统后,支持热插拔操作。

¡     通过板载VROC阵列控制器控制的SATA硬盘,只有在进入操作系统后,才支持热插拔操作。

·     建议用户安装没有RAID信息的硬盘。

·     请确保组建同一RAID的所有硬盘类型相同,否则会因硬盘性能不同而造成RAID性能下降或者无法创建RAID。即同时满足如下两点。

¡     所有硬盘均为SAS或SATA硬盘。

¡     所有硬盘均为HDD或SSD硬盘。

·     建议组建同一RAID的所有硬盘容量相同。当硬盘容量不同时,系统以最小容量的硬盘为准,即将所有硬盘容量都视为最小容量。

2.13.4  NVMe硬盘

·     建议用户安装没有RAID信息的硬盘。

·     建议组建同一RAID的所有硬盘容量相同。当硬盘容量不同时,系统以最小容量的硬盘为准,即将所有硬盘容量都视为最小容量。对于容量较大的硬盘,其多余容量无法用于配置当前RAID,也无法用于配置其他RAID。

·     NVMe硬盘支持热插。插入硬盘时要匀速插入,过程中不能出现停顿,否则容易导致操作系统卡死或重启。

·     NVMe硬盘是否支持热拔和预知性热拔,与操作系统有关。两者的兼容关系,可通过OS兼容性查询工具查询。

·     不支持多个NVMe硬盘同时热插拔,建议间隔30秒以上,待操作系统识别到第一个硬盘信息后,再开始操作下一个硬盘。同时插入多个NVMe硬盘,容易导致操作系统无法识别硬盘。

2.13.5  存储控制卡及掉电保护模块

1. 存储控制卡简介

根据存储控制卡在服务器中的安装位置,将其分为三类,详细信息如表2-36所示。

表2-36 存储控制卡说明

类型

存储控制卡型号

安装位置

是否支持掉电保护功能

安装方法

板载VROC阵列控制器

VROC板载软RAID

缺省内嵌于服务器主板PCH中,无需用户安装

不支持

不涉及

Mezz存储控制卡

RAID-P4408-Mf-8i-2GB-1

直接安装到主板的Mezz存储控制卡插槽

支持,内置Flash,需选配BAT-PMC-R5300-G3超级电容

请参见6.12.3  更换Mezz存储控制卡及其掉电保护模块

标准存储控制卡

HBA-LSI-9300-8i-A1-X

安装到GPU节点板上的PCIe插槽

不支持

请参见6.12.4  更换标准存储控制卡及其掉电保护模块

RAID-LSI-9361-8i(1G)-A1

支持,独立Flash,需选配BAT-LSI-R5300-G3掉电保护模块

RAID-LSI-9361-8i(2G)-1

支持,独立Flash,需选配BAT-LSI-R5300-G3掉电保护模块

RAID-LSI-9460-8i(4G)

支持,内置Flash,需选配BAT-LSI-G3超级电容

·     支持掉电保护的存储控制卡必须与对应的掉电保护模块或超级电容配合使用。

·     Mezz存储控制卡插槽在主板的具体位置请参见2.8.1  主板布局

 

板载VROC阵列控制器规格信息如表2-37所示,其他存储控制卡规格信息请查询服务器兼容的部件查询工具

表2-37 板载VROC阵列控制器规格

项目

板载VROC阵列控制器

端口数

8个内置SATA接口

连接器类型

主板上提供1个x8 SlimSAS连接器

端口特性

支持6.0Gb/s SATA 3.0接口,支持对应硬盘热插拔

PCIe接口

PCIe3.0 x4位宽

RAID级别

RAID 0/1/5/10

位置

内嵌在主板的PCH上

缓存

掉电保护模块

不支持

超级电容接口

固件升级

随BIOS升级

 

2. 掉电保护模块

掉电保护模块是一个总称,包含Flash卡和超级电容。Flash卡有两种,一种需要安装到存储控制卡上;另一种内嵌在存储控制卡上,无需用户安装。

服务器系统意外掉电时,超级电容可为Flash卡供电20秒以上,在此期间,缓存数据会从存储控制卡的DDR存储器传输到Flash卡中。由于Flash卡是非易失性存储介质,故可实现缓存数据的永久保存或者保存到服务器系统上电,存储控制卡检索到这些数据为止。

说明

安装超级电容后,可能会出现电量不足,此时无需采取任何措施,服务器上电后,内部电路会自动为超级电容充电并启用超级电容。关于超级电容的状态,通过HDM或BIOS可以查看。

 

超级电容寿命到期注意事项:

·     超级电容的寿命通常为3年~5年。

·     超级电容寿命到期时,可能导致超级电容异常,系统通过如下方式告警:

¡     对于PMC超级电容,HDM界面中的Flash卡状态会显示为“异常”+“状态码”,可通过解析状态码了解超级电容异常的原因,具体请参见HDM联机帮助。

¡     对于LSI超级电容,HDM界面中的Flash卡状态会显示为“异常”。

¡     HDM会生成SDS日志记录,SDS日志的查看方法请参见HDM联机帮助。

·     超级电容寿命到期时,需要及时更换,否则会导致存储控制卡的数据掉电保护功能失效。

说明

更换寿命到期的超级电容后,请检查存储控制卡的逻辑盘缓存状态,若存储控制卡的逻辑盘缓存被关闭,则需要重新开启逻辑盘缓存的相关配置以启用掉电保护功能,具体配置方法请参见HDM联机帮助。

 

3. 安装准则

·     服务器仅支持配置单张标准存储控制卡,安装准则如下:

¡     请确保服务器上配置的所有存储控制卡的厂家相同(PMC和LSI),服务器支持的存储控制卡及对应厂家请参见服务器兼容的部件查询工具。

¡     对于4GPU机型,标准存储控制卡仅支持安装到slot 2,slot位置详见2.6.1  1. 4GPU计算模块

¡     对于8GPU机型和16GPU机型,标准存储控制卡仅支持安装到slot 3,slot位置详见2.6.1  2. 8GPU计算模块2.6.1  3. 16GPU计算模块

¡     对于HGX 4-GPU模块机型,标准存储控制卡仅支持安装到slot 1,slot位置详见2.6.1  4. HGX 4-GPU模块计算模块。slot 2未安装PCIe卡时,slot 1提供x16带宽;slot 1和slot 2均安装PCIe卡时,2个slot均提供x8带宽。

·     支持掉电保护功能的存储控制卡必须与对应的掉电保护模块或超级电容配合使用。

说明

当配置标准存储控制卡时,为使安装标准存储控制卡的槽位可用,需要连接对应的线缆,详细信息请参见7.3  连接GPU计算模块线缆

 

2.13.6  NVMe VROC模块

介绍服务器支持的NVMe VROC模块及规格信息,如表2-38所示。

表2-38 NVMe VROC模块规格

型号

说明

支持的RAID级别

NVMe-VROC-Key-S

NVMe VROC模块标准版,支持任意品牌的NVMe硬盘

RAID 0/1/10

NVMe-VROC-Key-P

NVMe VROC模块高级版,支持任意品牌的NVMe硬盘

RAID 0/1/5/10

NVMe-VROC-Key-i

NVMe VROC模块Intel版,仅支持Intel NVMe硬盘

RAID 0/1/5/10

 

2.13.7  GPU

1. 简介

服务器支持的GPU卡如表2-39所示。服务器与兼容GPU卡的详细信息,请参见服务器兼容的部件查询工具

表2-39 GPU卡说明

GPU卡型号

适配的GPU计算模块类型

电源线缆

GPU-T4-F

16GPU计算模块

GPU-L4-24GB

GPU-A2-16G

GPU-A2-16GB-NoCEC

GPU-T4-F

8GPU计算模块

GPU-L4-24GB

GPU-A2-16G

GPU-HP300-32GB

GPU-Atlas 300V-24GB

GPU-A2-16GB-NoCEC

GPU-A10-24G-MP

0404A1ND

GPU-MR-V100-32G

GPU-L40-48GB

0404A25T

GPU-A800-80G

0404A1K0

GPU-BR106B-32GB

GPU-BR106C-32GB

GPU-Z100L-32GB

GPU-Atlas 300T Pro-16GB

GPU-MLU370-X8-48GB

GPU-A30-24G

GPU-A40-48G-DW

GPU-BI-V100-32G-DW

GPU-A6000-48GB

GPU-A30-24GB-NoCEC

GPU-A40-48GB-NoCEC

GPU-Atlas 300I DUO-48GB

0404A21Y

GPU-A30-24G

4GPU计算模块

0404A1K0

GPU-A800-80G

GPU-L40-48GB

0404A25T

HGX 4-GPU模块(40GB)

HGX 4-GPU模块计算模块

0404A1K1

HGX 4-GPU模块(80GB)

·     部分GPU无法支持适配机型的所有配置,具体请参见附录A中的“工作环境温度规格”章节。

·     为避免造成GPU卡损坏,请务必使用GPU卡自带的或相同编码的电源线缆。

·     GPU线缆连接方法请参见7.4  连接GPU卡电源线缆

 

·     配置4GPU计算模块时服务器支持最多4张GPU卡。

·     配置8GPU计算模块时服务器支持最多8张GPU卡。

·     配置16GPU计算模块时服务器支持最多20张GPU卡。

·     配置HGX 4-GPU模块计算模块时,服务器支持1个HGX 4-GPU模块。

¡     HGX 4-GPU模块集成4张NVIDIA GPU卡,,单张GPU卡相比传统PCIe接口GPU性能有较大提升。

¡     HGX 4-GPU模块使用NVLink全互联技术,实现4张GPU卡的数据互联,使其性能得到极大提升。HGX 4-GPU模块NVLink全互联技术示意图如图2-36所示。

图2-36 HGX 4-GPU模块NVLink全互联技术示意图

 

2. 安装准则

·     配置4GPU计算模块时,支持安装4张GPU卡,GPU的安装槽位为:slot9、slot10、slot11、slot12。

·     配置8GPU计算模块时,最多支持安装8张GPU卡,GPU的安装顺序依次为:slot7、slot8、slot9、slot10、slot11、slot12、slot13、slot14。

·     配置16GPU计算模块时,最多支持安装20张GPU卡,GPU的安装顺序依次为:slot7、slot8、slot9、slot10、slot11、slot12、slot13、slot14、slot15、slot16、slot17、slot18、slot19、slot20、slot21、slot22、slot1、slot2、slot3、slot4。

·     配置HGX 4-GPU模块计算模块时,支持安装1个HGX 4-GPU模块。

GPU计算模块槽位的具体位置请参见2.7  GPU计算模块

2.13.8  NVLink Bridge模块

1. 简介

NVLink是世界首项高速GPU互连技术,与传统的PCIe系统解决方案相比,能为多GPU系统提供更快速的带宽性能。两张A800 GPU卡通过NVLink Bridge模块连接后,可以不经过CPU而直接通信,不仅获得了高速带宽,而且释放了CPU的压力。NVLink技术能够为服务器提供更高效的性能扩展,从而满足更大的视觉计算工作负载需求。

图2-37 NVLink GPU互连技术

 

2. 安装准则

相邻的两张A800 GPU卡上,支持选配三个NVLink Bridge模块,以提升这两张GPU卡的性能。建议按照slot7-slot8、slot9-slot10、slot11-slot12、slot13-slot14槽位安装且相邻槽位间必须同时选配三个NVLink Bridge模块,其他任何情况的交叉互联和低配的互联都无法提升GPU卡性能,甚至影响GPU卡正常工作。

2.13.9  网卡

服务器支持OCP3.0网卡和标准PCIe网卡。

1. OCP网卡安装准则

·     OCP网卡通过OCP转接模块安装到服务器,OCP转接模块必须安装到主板上的OCP转接模块插槽,插槽的具体位置请参见图2-22

·     若配置支持MultiHost功能的网卡,必须搭配支持MultiHost功能的OCP转接模块使用,否则不支持MultiHost功能。

·     OCP网卡支持热插拔,支持热插拔的操作系统,请通过OS兼容性查询工具查询。需要注意的是:

¡     对于支持OCP网卡热插拔的操作系统:

-     仅服务器上电前已经安装在位的OCP网卡,支持热插拔操作;同时,热插拔操作的OCP网卡必须同型号。若要更换不同型号的OCP网卡,请在服务器下电后进行更换。

-     服务器上电前未安装在位的OCP网卡,不支持热插操作;此时,请先将服务器下电,然后再安装OCP网卡,最后启动服务器。

¡     对于不支持OCP网卡热插拔的操作系统。请先将服务器下电,然后再更换OCP网卡,最后启动服务器。

2. 标准PCIe网卡安装准则

·     4GPU机型中标准PCIe网卡必须安装在GPU计算模块上的PCIe slot 1~2,各slot的具体位置请参见2.6.1  1. 4GPU计算模块

表2-40 4GPU计算模块上标准PCIe网卡的安装准则

标准PCIe网卡配置数量(张)

Slot 1

Slot 2

1

×

2

·     √表示建议安装标准PCIe网卡的槽位。

·     ×表示不建议安装标准PCIe网卡的槽位。

·     当配置Multihost OCP网卡时,仅支持slot 2槽位安装标准PCIe网卡。

·     如需使GPU计算模块上对应的slot可用,需要连接对应的线缆,不同应用场景线缆连接方法不同,详细信息请参见7.3.1  连接4GPU-HPC线缆

 

·     8GPU机型中标准PCIe网卡必须安装在GPU计算模块上的PCIe slot 1~4,各slot的具体位置请参见2.6.1  2. 8GPU计算模块

·     配置8GPU计算模块时,标准PCIe网卡的安装准则的详细信息请参见表2-41

表2-41 8GPU计算模块上标准PCIe网卡的安装准则

标准PCIe网卡配置数量(张)

Slot 1

Slot 2

Slot 3

Slot 4

1

×

×

×

2

×

×

3

×

4

·     √表示建议安装标准PCIe网卡的槽位。

·     ×表示不建议安装标准PCIe网卡的槽位。

·     如需使GPU计算模块上对应的slot可用,需要连接对应的线缆,不同应用场景线缆连接方法不同,详细信息请参见7.3.2  连接8GPU-AI串联线缆7.3.3  连接8GPU-AI并联线缆7.3.4  连接8GPU-HPC线缆

 

·     16GPU机型中标准PCIe网卡必须安装在GPU计算模块上的PCIe slot 1~4,各slot的具体位置请参见2.6.1  3. 16GPU计算模块

·     配置16GPU计算模块时,标准PCIe网卡的安装准则的详细信息请参见表2-42

表2-42 16GPU计算模块上标准PCIe网卡的安装准则

标准PCIe网卡配置数量(张)

Slot 1

Slot 2

Slot 3

Slot 4

1

×

×

×

2

×

×

3

×

4

·     √表示建议安装标准PCIe网卡的槽位。

·     ×表示不建议安装标准PCIe网卡的槽位。

·     当PCIe slot 1~4已安装GPU卡时,则可以安装标准PCIe网卡的slot编号按表格中的准则顺延。若全部slot均已安装GPU卡时,则服务器不再支持标准PCIe网卡。

·     如需使GPU计算模块上对应的slot可用,需要连接对应的线缆,详细信息请参见7.3.5  连接16GPU线缆

 

·     HGX 4-GPU模块机型中标准PCIe网卡必须安装在GPU计算模块上的PCIe slot 1~2,2个slot的具体位置请参见2.6.1  4. HGX 4-GPU模块计算模块

·     配置HGX 4-GPU模块计算模块时,,标准PCIe网卡的安装准则的详细信息请参见表2-43

表2-43 HGX 4-GPU模块计算模块上标准PCIe网卡的安装准则

标准PCIe网卡配置数量(张)

Slot 1

Slot 2

1

×

2

·     √表示建议安装标准PCIe网卡的槽位。

·     ×表示不建议安装标准PCIe网卡的槽位。

·     仅使用1个slot时,标准PCIe网卡必须安装在slot 1,此时slot 1提供x16的带宽。

·     同时使用2个slot时,2个slot均提供x8的带宽。

·     如需使GPU计算模块上对应的slot可用,需要连接对应的线缆,详细信息请参见7.3.6  连接HGX 4-GPU模块线缆

 

 

2.13.10  SATA M.2 SSD

为确保SATA M.2 SSD卡配置RAID时的可靠性,建议安装2张相同型号的SATA M.2 SSD卡。

2.13.11  电源模块

说明

电源模块的规格信息,请参见各电源模块的电源手册。

 

·     请确保服务器上安装的所有电源模块型号相同。HDM会对电源模块型号匹配性进行检查,如果型号不匹配将提示严重告警错误。

·     电源模块支持热插拔。

·     请勿使用第三方电源模块,否则可能会导致硬件损坏。

·     服务器支持N+N电源模块冗余。

·     当电源模块温度超过正常工作温度,电源将自动关闭,当温度恢复到正常范围后,电源将会自动开启。

·     电源模块与空开的适配关系:型号为DPS-2400EB B的电源模块,采用快熔型20A保险丝(I2t=72A²sec),为避免电源模块故障导致前级空开跳闸,使用时请注意电源模块与空开的适配关系:空开与电源模块保险丝配合存在同时断开的概率,空开的电流规格越大误触发概率越低。建议选择电流规格较大的空开,如:施耐德厂家的IC65N C63A型号、ABB厂家的S201M-C63或S202M C63 DC 2P型号空开等。

2.13.12  风扇模块

说明

风扇模块的规格信息,请参见各风扇模块的风扇手册。

 

·     风扇模块必须满配,即4个风扇模块必须同时在位。

·     服务器支持N+1风扇冗余,即支持单风扇失效冗余。


3 安装和拆卸R5300 G5

介绍安装和拆卸服务器的操作方法。

3.1  安装流程

服务器安装流程如图3-1所示。

图3-1 安装流程

 

3.2  安装规划

在安装服务器前,请先规划和准备满足设备正常运行的物理环境,包括空间和通风、温度、湿度、洁净度、高度和接地等。

3.2.1  机柜要求

机箱高4U,深度800mm,对机柜的要求如下:

·     标准19英寸机柜。

·     建议机柜深度1200mm及以上。不同深度机柜的安装限制如表3-1所示,建议技术支持人员现场工勘,排除潜在问题。

表3-1 不同深度机柜的安装限制

机柜深度

安装限制

1000mm

·     不支持安装H3C CMA。

·     如配置H3C滑道,可能存在滑道与PDU相互干涉的风险,需工勘确认是否可调整PDU的安装位置或配置合适尺寸的PDU。如不能满足,则建议使用托盘等其他的固定方式。

·     机箱后部需预留60mm走线空间。

1100mm

如安装H3C CMA,需确认CMA不会与机柜后部PDU干涉,否则请更换更大深度尺寸的机柜或者调整PDU的安装位置。

1200mm

需确认H3C CMA不会与机柜后部PDU、线缆等相互干涉,否则请调整PDU的安装位置。

 

·     机柜前方孔条距离机柜前门大于50mm。

·     服务器在1200mm机柜中的安装建议,请参考图3-2

图3-2 服务器在1200mm机柜中的安装建议(机柜俯视图)

机柜尺寸建议与要求

(1):机柜深度,建议1200mm

(2):机柜前方孔条与机柜前门间距,大于50mm

·     建议PDU采用向后直出线的方式,以免与机箱之间产生干涉。

·     若PDU采用侧向出线的方式,建议技术支持人员现场工勘,确认PDU是否会与机箱后部相互干涉。

服务器相关尺寸参数

(3):机柜前方孔条与机箱后端(含电源后部拉手,图中未展示)间距,为830mm

(4):机箱深度(含挂耳),为830mm

(5):机柜前方孔条与CMA后端间距,为970mm

(6):机柜前方孔条与滑道后端间距,为880mm

 

3.2.2  服务器的空气流动方向

服务器的空气流动方向如图3-3所示。

图3-3 服务器机箱风道示意图

 

(1):机箱进风方向

(2):机箱出风方向

 

3.2.3  温度和湿度要求

为确保服务器正常工作,机房内需维持一定的温度和湿度。关于服务器环境温度和湿度要求,请参见2.2.2  技术参数

3.2.4  高度要求

为确保服务器正常工作,对机房的高度有一定要求,详细信息请参2.2.2  技术参数

3.2.5  腐蚀性气体浓度限值要求

1. 腐蚀性气体简介

腐蚀性气体可与设备内部的金属材料发生化学反应,不仅会腐蚀金属部件,加速设备老化,还容易导致设备故障。常见腐蚀性气体种类及来源如表3-2所示。

表3-2 常见腐蚀性气体种类及来源

种类

主要来源

H2S(硫化氢)

地热排出物、微生物活动、石油制造业、木材腐蚀和污水处理等

SO2(二氧化硫)、SO3(三氧化硫)

煤燃烧、石油产品、汽车废气、熔炼矿石、硫酸制造业和烟草燃烧等

S(硫磺)

铸工车间和硫磺制造业等

HF(氟化氢)

化肥制造业、铝制造业、陶瓷制造业、钢铁制造业、电子设备制造业和矿物燃烧等

NOx(氮氧化物)

汽车尾气、石油燃烧、微生物活动和化学工业等

NH3(氨气)

微生物活动、污水、肥料制造业和地热排出物等

CO(一氧化碳)

燃烧、汽车尾气、微生物活动和树木腐烂等

Cl2(氯气)、ClO2(二氧化氯)

氯制造业、铝制造业、锌制造业和废物分解等

HCl(氯化氢酸)

汽车尾气、燃烧、森林火灾和海洋的过程聚合物燃烧等

HBr(氢溴酸)、HI(氢碘酸)

汽车尾气等

O3(臭氧)

大气光化学过程(大部分包括一氧化氮和过氧氢化合物)等

CnHn(烷烃)

汽车尾气、烟草燃烧、动物排泄物、污水和树木腐烂等

 

2. 数据中心机房腐蚀性气体浓度限值要求

数据中心机房内腐蚀性气体浓度限值建议满足ANSI/ISA 71.4标准中的腐蚀性气体G1等级要求,对应的铜测试片腐蚀产物厚度增长速率应低于300 Å/月,银测试片腐蚀产物厚度增长速率应低于200 Å/月。

说明

Å(埃)是表示长度的单位符号,1 Å等于100亿分之1米。

 

为满足G1等级的铜/银测试片腐蚀速率要求,数据中心机房内腐蚀性气体浓度建议值如表3-3所示。

表3-3 数据中心机房腐蚀性气体浓度要求

气体

浓度(ppb)

H2S(硫化氢)

<3

SO2(二氧化硫),SO3(三氧化硫)

<10

Cl2(氯气)

<1

NOx(氮氧化物)

<50

HF(氟化氢)

<1

NH3(氨)

<500

O3(臭氧)

<2

 

说明

·     表3-3中的ppb(part per billion)是表示浓度的单位符号,1ppb表示10亿分之1的体积比。

·     表3-3中腐蚀性气体浓度限值是基于数据中心机房相对湿度<50%及组内气体交互反应的结果。如果数据中心机房相对湿度每增加10%,则气体腐蚀等级相应增加1级。

 

由于产品受机房腐蚀性气体影响存在一定的差异性,各产品对机房腐蚀性气体浓度的具体要求请参见该产品的安装指导。

3. 非数据中心机房腐蚀性气体浓度限值要求

非数据中心机房内腐蚀性气体浓度限值建议满足IEC 60721-3-3:2002化学活性物质3C2等级的要求,如表3-4所示。

表3-4 非数据中心机房内腐蚀性气体浓度要求

腐蚀性气体类别

平均值(mg/m3

最大值(mg/m3

SO2(二氧化硫)

0.3

1.0

H2S(硫化氢)

0.1

0.5

Cl2(氯气)

0.1

0.3

HCI(氯化氢)

0.1

0.5

HF(氟化氢)

0.01

0.03

NH3(氨气)

1.0

3.0

O3(臭氧)

0.05

0.1

NOx(氮氧化物)

0.5

1.0

 

说明

表3-4中的平均值为机房环境中腐蚀性气体的典型控制限值,一般情况下不建议超过该值要求。最大值是限值或峰值,每天达到限值的时间不超过30min。

 

由于产品受机房腐蚀性气体影响存在一定的差异性,各产品对机房腐蚀性气体浓度的具体要求请参见该产品的安装指导。

4. 措施和建议

为达到上述要求,可对机房采取如下措施:

·     机房尽量避免建在腐蚀性气体浓度较高的地方。

·     机房不得与下水、排污、竖井、化粪池等管道相通,机房外部也应远离此类管道,机房入风口应背对这类污染源。

·     机房装修使用环保材料,应避免使用含硫、含氯的保温棉、橡胶垫、隔音棉等有机材料,同时含硫较多的石膏板也应避免使用。

·     柴油、汽油机应单独放置,禁止与设备同处一个机房内;燃油机位于机房外部时,排风方向应在机房下风处,并远离空调进风口。

·     蓄电池应单独隔离放置,禁止和电子信息设备放在同一个房间;

·     定期请专业公司进行监测和维护。

3.2.6  洁净度要求

室内灰尘落在机体上,可能造成静电吸附,使金属接插件或金属接点接触不良,不但会影响设备使用寿命,而且容易引起通信故障。

1. 数据中心机房洁净度要求

数据中心机房内灰尘含量建议满足ISO 14644-1 8等级洁净度要求,具体要求见表3-5

表3-5 数据中心机房灰尘含量要求

灰尘粒子直径

含量

备注

≥5μm

≤29300粒/m3

机房不应产生锌晶须粒子

≥1μm

≤832000粒/m3

≥0.5μm

≤3520000粒/m3

 

由于产品受灰尘粒子影响存在一定的差异性,各产品对灰尘粒子含量的具体要求请参见该产品的安装指导。

2. 非数据中心机房洁净度要求

非数据中心机房内灰尘粒子(直径≥0.5μm)的含量建议满足GB 50174-2017标准要求,即小于等于17600000粒/m3

由于产品受灰尘粒子影响存在一定的差异性,各产品对灰尘粒子含量的具体要求请参见该产品的安装指导。

3. 措施和建议

为达到上述要求,可对机房采取如下措施:

·     机房远离污染源,工作人员禁止在机房内吸烟、饮食。

·     建议门、窗加防尘橡胶条密封,窗户建议装双层玻璃并严格密封。

·     地面、墙面、顶面采用不起尘的材料,应刷无光涂料,不要刷易粉化的涂料,避免粉尘脱落。

·     经常打扫机房,保持机房整洁,并每月定期清洗机柜防尘网。

·     相关人员进入机房前应穿好防静电工作服、戴好鞋套,保持鞋套、防静电工作服清洁,经常更换。

3.2.7  接地要求

良好的接地系统是服务器稳定可靠运行的基础,是服务器防雷击、抗干扰、防静电及安全的重要保障。服务器通过供电系统的接地线缆接地,用户无需额外连接接地线缆。

3.2.8  存放要求

·     HDD硬盘断电存放时间建议小于6个月。

·     SSD、M.2卡等存储介质,断电存放时间建议小于3个月,长期断电可能存在数据丢失的风险。

·     当服务器整机、HDD/SSD/M.2卡等存储介质需要断电存放3个月及以上时,建议每3个月至少上电运行一次,每次上电运行时间不少于2小时。服务器上电和下电的操作方法请参见4 上电和下电

3.3  工具准备

在安装、使用和维护服务器时,需准备以下工具和设备。

表3-6 工具要求

图示

名称

说明

T25 Torx星型螺丝刀

用于智能挂耳上的松不脱螺钉

T30 Torx星型螺丝刀

用于CPU散热器上的松不脱螺钉

T15 Torx星型螺丝刀(随服务器发货)

用于PCIe卡的固定螺钉、机箱运输螺钉与机箱内的松不脱螺钉等

T10 Torx星型螺丝刀(随服务器发货)

用于智能挂耳的固定螺钉等

一字螺丝刀

用于更换CPU等

十字螺丝刀

用于通流铜柱的固定螺钉等

浮动螺母安装条

用于牵引浮动螺母,使其安装在机柜的固定导槽孔位上

斜口钳

用于剪切绝缘套管等

卷尺

用于测量距离

万用表

用于测量电阻、电压,检查电路

防静电腕带

用于操作服务器时使用

防静电手套

防静电服

梯子

用于高处作业

接口线缆(如网线、光纤)

用于服务器与外接网络互连

 

Type-C转USB连接线,转接USB Wi-Fi模块或U盘

·     外接第三方USB Wi-Fi模块时,可通过移动端上的HDM Mobile客户端访问HDM界面

·     外接U盘时,可在HDM界面下载SDS日志存储到U盘

说明

服务器是否支持USB Wi-Fi模块,请以实际情况为准

显示终端(如PC)

用于服务器显示

温度计/湿度计

用于监控机房温度、湿度,是否满足设备稳定运行环境

示波器

用于测量电压和时序

 

3.4  安装服务器

介绍安装服务器的操作方法。

3.4.1  (可选)安装滑道

如果选购了滑轨,请将滑轨中的外轨安装到机柜,内轨安装到服务器。具体方法请参见滑轨附带的文档。

3.4.2  安装服务器

说明

·     机箱两侧各有一颗运输螺钉,用于固定GPU计算模块,防止运输过程中GPU计算模块松脱。

·     安装服务器或要拉出GPU计算模块维护机箱内部部件时,需拆除运输螺钉后才能通过内部滑轨滑动并拉出GPU计算模块。

 

(1)     拆卸机箱两侧的运输螺钉,请根据机箱上的标识确认运输螺钉的具体位置,如图3-4所示。

图3-4 拆卸机箱两侧运输螺钉

 

(2)     如图3-5所示,将服务器推入机柜。具体方法请参见滑轨附带的文档。

图3-5 将服务器推入机柜

Orch_136.png

 

(3)     固定服务器。如图3-6所示,将服务器两侧挂耳紧贴机柜方孔条,打开智能挂耳的锁扣,用螺丝刀拧紧里面的松不脱螺钉。

图3-6 拧紧智能挂耳上的松不脱螺钉

R170_047.png

 

3.4.3  (可选)安装理线架

如果已配置理线架,请安装。具体方法请参见理线架附带的文档。

3.5  连接外部线缆

介绍服务器外部线缆的连接方法。

3.5.1  连接鼠标、键盘和VGA接口线缆

1. 操作场景

在对服务器进行BIOS、HDM、iFIST、RAID以及进入操作系统等操作和配置时,可能需要连接鼠标、键盘和显示终端。

服务器可提供2个DB15 VGA接口,用来连接显示终端。

·     前面板可提供1个VGA接口。

·     后面板提供1个VGA接口。

注意

前后面板上的2个VGA接口不支持同时使用。

 

服务器未提供标准的PS2鼠标、键盘接口,您可通过前面板和后面板的USB接口,连接鼠标和键盘。根据鼠标、键盘的接口类型不同,连接方法有两种:

·     直接连接USB鼠标和键盘,连接方法与一般的USB线缆相同。

·     通过USB转PS2线缆连接PS2鼠标和键盘。

2. 操作步骤

(1)     如图3-7所示,将视频线缆的一端插入服务器的VGA接口,并通过插头两侧的螺钉固定。

图3-7 连接VGA接口

R170_048.png

 

(2)     将视频线缆的另一端插入显示终端的VGA接口,并通过插头两侧的螺钉固定。

(3)     如图3-8所示,将USB转PS2线缆的USB接口一端插入服务器的USB接口,另一端的PS2接口分别连接到鼠标和键盘。

图3-8 连接USB转PS2线缆

R170_048-USB转接线.png

 

3.5.2  连接网线

1. 操作场景

·     通过以太网接口搭建服务器的网络环境。

·     通过HDM专用网络接口,登录HDM管理界面进行服务器管理。

·     网络不通或网线长度不适合时,更换网线。

2. 操作步骤

(1)     确定服务器上的网络接口。

·     通过网卡上的以太网接口将服务器接入网络。

·     通过以下接口之一登录HDM进行设备管理。

¡     HDM专用网络接口,HDM专用网络接口的具体位置请参见2.6.1  后面板组件

¡     (可选)HDM共享网络接口。如果配置了OCP网卡,可通过OCP网卡的HDM共享网络接口登录HDM进行设备管理。

(2)     确定网线型号。

请确保网线导通(使用网线测试仪),网线型号与替换下的网线型号一致或兼容。

(3)     为网线编号。

·     网线编号应与替换下的网线相同。

·     建议使用统一规格的标签。在标签上分别填写本端设备和对端设备的名称、编号。

(4)     连接网线。如图3-9所示,将网线一端连接到服务器的以太网接口,另一端连接对端设备。

图3-9 连接网线

 

(5)     检查网线连通性。

服务器上电后,可使用ping命令检查网络通信是否正常。如果通信不正常,请交叉测试网线或检查网线接头是否插紧。

(6)     绑扎网线,具体请参见3.5.5  固定线缆

3.5.3  连接USB接口

1. 操作场景

服务器最多提供6个USB接口:

·     4个位于前、后面板,用于连接经常插拔的USB设备。

·     2个位于内部,用于连接不经常插拔的USB设备。

以下情况需要连接USB接口:

·     服务器上电后,需要键盘和鼠标进行系统操作和设置。

·     通过连接USB设备传输数据或安装操作系统。

2. 操作注意事项

·     确保USB设备功能正常。

·     确保已将需要的数据拷贝到USB设备中。

3. 操作步骤

说明

·     USB接口支持热插拔。

·     建议用户使用H3C认证的USB设备。对于其他品牌的USB设备,不保证一定兼容。

 

(1)     (可选)如果用户要连接内部USB接口,请拆卸机箱盖,具体请参见6.2.1  1. 拆卸机箱盖

(2)     连接USB设备。内部USB接口所在位置请参见2.8.1  主板布局

(3)     (可选)如果已拆卸机箱盖,请安装,具体请参见6.2.1  2. 安装机箱盖

(4)     检查服务器能否识别USB设备。如果无法识别,请下载并安装USB设备的驱动程序;安装后如果仍然无法识别,请更换其他USB设备。

3.5.4  连接电源线缆

1. 操作注意事项

·     为避免人身伤害或设备损坏,请使用配套的电源线缆。

·     连接电源线缆前,请确保服务器和各个部件已安装完毕。

2. 操作步骤

(1)     如图3-10所示,将电源线缆一端插入服务器后面板上的电源模块插口。

图3-10 连接电源线缆

R390X_033

 

(2)     将电源线缆另一端插入外部供电系统,如机柜的交流插线板。

(3)     为防止电源线缆意外断开,请固定电源线缆。

a.     (可选)当线扣离电源模块太近时,会导致电源线缆无法放入线扣中。此时请将线扣上的锁扣掰开,同时滑动线扣,如图3-11中①和②所示。

图3-11 向后滑动线扣

R390X_034

 

b.     如图3-12中①和②所示,将线扣两端掰开,打开线扣。

c.     如图3-12中③和④所示,将电源线缆放入线扣中,并合上线扣。

图3-12 固定电源线缆

R390X_035

 

d.     如图3-13所示,将线扣向前滑动,直到固定住电源线缆插头。

图3-13 固定电源线缆插头

 

3.5.5  固定线缆

完成所有布线后,可通过如下两种方法固定线缆。

1. 方法一:将线缆固定到理线架

具体方法请参见理线架附带的文档。

2. 方法二:使用线缆绑扎带将线缆固定到机柜滑道

说明

·     线缆绑扎带可以安装在左侧或右侧机柜滑道上,建议用户安装在左侧,以便更好的进行线缆管理。

·     在一个机柜中使用多个线缆绑扎带时,请交错排列绑扎带的位置,比如从上向下看时绑扎带彼此相邻,这种布置有利于滑道的滑动。

 

(1)     将线缆与机柜滑道贴紧。

(2)     用线缆绑扎带固定线缆。如图3-14中①和②所示,将线缆绑扎带的末端穿过扣带,使绑扎带的多余部分和扣带朝向滑道外部。

图3-14 将线缆固定到机柜滑道

Orch_140.png

 

3.5.6  布线指导

·     所有线缆在走线时,请勿遮挡服务器的进出风口,否则会影响服务器散热。

·     确保线缆连接时无交叉现象,便于端口识别和线缆的插拔。

·     确保所有线缆都进行了有效标识,使用标签书写正确的名词,便于检索。

·     当前不需要装配的线缆,建议将其盘绕整理,绑扎在机柜的合适位置。

·     为避免触电、火灾或设备损坏,请不要将电话或通信设备连接到服务器的RJ45以太网接口。

·     使用理线架时,每条线缆要保持松弛,以免从机柜中拉出服务器时损坏线缆。

3.6  拆卸服务器

介绍拆卸服务器的操作方法。

(1)     将服务器下电,具体步骤请参见4.2  下电

(2)     断开所有外部线缆。

(3)     从机柜中拉出服务器。

图3-15所示,打开智能挂耳上的锁扣,用螺丝刀拧松里面的松不脱螺钉,并沿滑轨将服务器从机柜中缓缓拉出。

图3-15 从机柜中拉出服务器

Orch_135.png

 

(4)     将服务器放在干净、平稳的防静电工作台或地面上,进行部件安装、更换和设备维护。


4 上电和下电

介绍服务器的上电和下电方法。

说明

在服务器连接了外部数据存储设备的组网中,请确保服务器是第一个下电且最后一个恢复上电的设备。该方法可确保服务器上电时,不会误将外部数据存储设备标记为故障设备。

 

4.1  上电

介绍服务器的上电方法。

4.1.1  操作场景

·     服务器安装完毕,上电运行。

·     服务器维护完毕,重新上电运行。

4.1.2  前提条件

·     服务器及内部部件已经安装完毕。

·     服务器已连接外部供电系统。

·     服务器关机后,如果需要立刻执行开机操作,为确保服务器内部各部件能正常工作,建议关机后等待30秒以上(确保HDD硬盘彻底静止、各电子部件彻底掉电),再执行开机操作。

4.1.3  操作步骤

根据场景不同,有四种上电方式。

1. 方式一:通过前面板上的开机/待机按钮为服务器上电

按下服务器前面板上的开机/待机按钮,使服务器上电。

此时服务器退出待机状态,电源向服务器正常供电。当系统电源指示灯由橙色常亮变为绿色闪烁,最后变为绿色常亮时,表明服务器完成上电。系统电源指示灯的具体位置请参见图2-17

2. 方式二:通过HDM Web界面的电源管理为服务器上电

(1)     登录HDM Web界面,具体步骤请参见产品的HDM用户指南。

(2)     单击[系统管理/电源管理]菜单项,进入电源管理页面。

(3)     单击“开机”按钮,完成操作。

3. 方式三:通过HDM Web界面的远程控制台为服务器上电

(1)     登录HDM Web界面,具体步骤请参见产品的HDM用户指南。

(2)     登录远程控制台,为服务器上电,具体方法请参见HDM联机帮助。

4. 方式四:服务器自动上电

通过以下方法之一开启服务器自动上电功能后,服务器一旦连接外部供电系统,会自动上电。

·     通过HDM Web开启服务器自动上电功能。

a.     登录HDM Web界面,具体步骤请参见产品的固件更新指导书。

b.     单击[电源管理/电源配置]菜单项,选择AC恢复配置页签,进入AC恢复配置页面。

c.     选中“总是开启”,单击<保存>按钮,完成设置。

·     通过BIOS开启服务器自动上电功能。

d.     进入BIOS,具体步骤请参见产品的BIOS用户指南。

e.     选择Server Mgmt页签 > AC Restore Settings,按Enter。

f.     选择Always Power On,按Enter,然后按F4保存设置,完成操作。

4.2  下电

介绍服务器的下电方法。

4.2.1  操作场景

·     维护服务器。

·     服务器需要搬迁。

4.2.2  前提条件

·     下电前,请确保所有数据已提前保存。

·     下电后,所有业务将终止,因此下电前请确保服务器的所有业务已经停止或者迁移到其他服务器上。

4.2.3  操作步骤

根据场景不同,有四种下电方式。

1. 方式一:通过关闭操作系统为服务器下电

(1)     将显示器、鼠标和键盘连接到服务器,关闭服务器操作系统。

(2)     断开服务器与外部供电系统之间的电源线缆。

2. 方式二:通过前面板上的开机/待机按钮为服务器下电

·     服务器正常关机流程

a.     按下服务器前面板上的开机/待机按钮,使服务器下电。

b.     等系统电源指示灯变为橙色常亮时,断开服务器与外部供电系统之间的电源线缆。

·     服务器非正常关机流程

c.     按住服务器前面板上的开机/待机按钮5秒以上,使服务器下电。

说明

采用该方式,应用程序和操作系统为非正常关闭。当应用程序停止响应时,可采用这种方式。

 

d.     断开服务器与外部供电系统之间的电源线缆。

3. 方式三:通过HDM Web界面的电源管理为服务器下电

(1)     HDM Web界面中操作的具体步骤请参见HDM联机帮助。

(2)     断开设备与外部供电系统之间的电源线缆。

4. 方式四:通过HDM Web界面的远程控制台为服务器下电

(1)     HDM Web界面和远程控制台中操作的具体步骤请参见HDM联机帮助。

(2)     断开设备与外部供电系统之间的电源线缆。

 


5 配置服务器

介绍服务器安装完毕后,对其进行软件配置的过程。

5.1  配置流程

服务器配置流程如图5-1所示。

图5-1 服务器配置流程

 

5.2  上电启动

(1)     服务器的上电操步骤请参见4.1  上电

(2)     上电启动后,请检查服务器前面板的Health指示灯是否正常,正常状态为绿色常亮。关于Health指示灯的详细说明,请参见2.5.2  指示灯和按钮

5.3  设置BIOS

说明

BIOS Setup界面可能会不定期更新,请以产品实际显示界面为准。

 

介绍如何设置服务器启动顺序和BIOS密码。

5.3.1  设置服务器启动顺序

用户可以根据需要修改服务器的启动顺序。缺省启动顺序和启动顺序的修改方法,请参见产品的BIOS用户指南。

5.3.2  设置BIOS密码

BIOS密码包括开机密码和BIOS Setup的管理员密码、用户密码。缺省情况下,系统没有设置任何密码。

为防止未授权人员设置和修改服务器的BIOS系统配置,请您同时设置BIOS Setup的管理员密码和用户密码,并确保两者密码不相同。

设置BIOS Setup的管理员密码和用户密码后,进入系统时,必须输入管理员密码或用户密码。

·     当输入的密码为管理员密码时,获取的BIOS权限为管理员权限。

·     当输入的密码为用户密码时,获取的BIOS权限为用户权限。

BIOS Setup的管理员权限和用户权限的区别以及管理员密码和用户密码的具体设置方法,请参见产品的BIOS用户指南。

5.4  配置RAID

存储控制卡型号不同,支持的RAID级别和配置RAID的方法会有所不同,详细信息请参见产品的存储控制卡用户指南。

5.5  安装操作系统和驱动程序

介绍如何安装操作系统和驱动程序。

5.5.1  安装操作系统

服务器兼容Linux多种类型的操作系统,详细信息请参见OS兼容性查询工具

安装操作系统的具体方法,请参见产品的操作系统安装指导。

5.5.2  安装驱动程序

服务器安装新硬件后,如果操作系统中没有该硬件的驱动程序,则该硬件无法使用。

安装驱动程序的具体方法,请参见产品的操作系统安装指导。

说明

更新驱动程序之前,请备份原驱动程序,以防止更新失败而导致对应硬件无法使用。

 

5.6  更新固件

说明

更新固件时,请注意软硬件版本之间的配套要求,详细信息请参见软件版本说明书。

 

介绍如何更新固件。

用户可通过UniSystem或HDM更新以下固件,具体方法请参见产品的固件更新指导书。

·     HDM

·     BIOS

·     CPLD

·     BPCPLD

·     PFRCPLD

·     OCPCPLD

·     PSU

·     GPUFPGA


6 更换部件

介绍服务器有哪些可更换部件,以及部件更换的详细操作步骤。

说明

·     更换多个部件时,请阅读所有部件的更换方法并确定相似更换步骤,以便简化更换过程。

·     本节包含了更换部件和扩容部件的操作,当两者操作步骤差异较大时,会分别进行介绍。当两者操作步骤相似时,仅介绍更换部件操作步骤;如果用户参考更换部件操作步骤进行扩容时,请提前拆卸部件假面板。

 

6.1  可更换的部件

各部件更换的具体方法请参见部件安装&更换视频,服务器可更换部件如下:

·     智能安全面板(6.3  更换智能安全面板

·     SAS/SATA硬盘(6.4  更换SAS/SATA硬盘

·     NVMe硬盘(6.5  扩容NVMe硬盘6.6  更换NVMe硬盘

·     GPU卡(6.7  更换GPU卡

·     HGX 4-GPU模块(6.8  更换HGX 4-GPU模块

·     标准PCIe网卡(6.9  更换标准PCIe网卡

·     OCP网卡(6.10  更换OCP网卡

·     OCP转接模块6.11  更换OCP转接模块

·     存储控制卡及其掉电保护模块(6.12  更换存储控制卡及其掉电保护模块

·     SATA M.2 SSD卡(6.13  更换SATA M.2 SSD卡

·     NVMe VROC模块(6.14  更换NVMe VROC模块

·     CPU(6.15  更换CPU

·     内存(6.16  更换内存

·     硬盘背板(6.17  更换硬盘背板

·     安装24LFF硬盘扩展模块(6.18  安装24LFF硬盘扩展模块

·     电源转接板(6.19  更换电源转接板

·     CPU主板(6.20  更换CPU主板

·     GPU节点板(6.21  更换GPU节点板

·     系统电池(6.22  更换系统电池

·     电源模块(6.23  更换电源模块

·     风扇模块(6.24  更换风扇模块

·     智能挂耳(6.25  更换智能挂耳

·     坦克链(6.26  更换坦克链

·     加密模块(6.27  安装加密模块

6.2  常用操作

6.2.1  拆卸和安装机箱盖

1. 拆卸机箱盖

(1)     如果机箱盖已上锁,请使用T15 Torx星型螺丝刀将箱盖扳手上的螺钉逆时针旋转90°到解锁标识,使其解锁。

(2)     按下机箱盖扳手并向上掰起,此时机箱盖会自动向机箱后方滑动。

(3)     向上抬起机箱盖,使其脱离机箱。

2. 安装机箱盖

(1)     请确保机箱盖扳手处于打开状态。按下扳手上的按钮并将扳手向上掰起。

(2)     安装机箱盖。

a.     将机箱盖水平向下放置,使机箱盖扳手上的孔对准机箱中的定位销。

b.     闭合机箱盖扳手,机箱盖会自动滑到闭合位置。

c.     (可选)如果需要为机箱盖上锁,请使用T15 Torx星型螺丝刀将机箱盖扳手上的螺钉顺时针旋转90°到锁定标识,锁定机箱盖。

6.2.2  拆卸和安装各模块槽位假面板

1. 操作场景

扩容以下模块时,需要拆卸对应的假面板;拆除模块后,需要安装对应的假面板:

·     硬盘

·     OCP网卡

·     电源模块

·     PCIe卡

2. 准备工作

请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

3. 操作步骤

表6-1 安装和拆卸所有模块假面板步骤

项目

操作步骤

拆卸步骤

安装步骤

硬盘假面板

相向按住假面板上的按钮,同时向外拉假面板

将假面板沿槽位推入

OCP网卡假面板

捏住假面板上的凸起,然后向外拉出假面板

将假面板水平推入槽位

电源模块假面板

将假面板水平向外拉出

TOP字样朝上,将假面板水平推入槽位

PCIe卡假面板

移除假面板的固定螺钉,将假面板向上提起

将假面板沿槽位插入,然后用螺钉固定假面板

 

6.3  更换智能安全面板

介绍如何更换智能安全面板。

6.3.1  更换场景

·     智能安全面板故障。

·     智能安全面板阻碍其他部件的维护操作。

6.3.2  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     更换部件前,请检查插槽或连接器,确保针脚没有损坏(比如针脚弯曲、连接器上有异物)。

·     智能安全面板支持热插拔。

6.3.3  更换步骤

1. 拆卸智能安全面板

(1)     用钥匙将面板解锁。插入钥匙,按压钥匙的同时,沿顺时针方向将钥匙旋转90°。

注意

请勿在未按压钥匙的情况下,强行旋转钥匙,否则会导致锁损坏。

 

(2)     按下面板一侧的解锁按钮,同时将面板一侧向外拉。

(3)     将面板另一侧向外拉,拆卸完毕。

2. 安装智能安全面板

(1)     将面板一侧卡在机箱上。

(2)     按住面板上的按钮,同时将面板另一侧固定到机箱。

(3)     用钥匙锁住面板。向内按压钥匙的同时,沿逆时针方向将钥匙旋转90°,然后拔出钥匙。

注意

请勿在未按压钥匙的情况下,强行旋转钥匙,否则会导致锁损坏。

 

6.4  更换SAS/SATA硬盘

介绍如何更换硬盘。

6.4.1  更换场景

·     硬盘故障。

·     更换空间已满的硬盘。

·     更换其他型号的硬盘。

6.4.2  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     更换部件前,请检查插槽或连接器,确保针脚没有损坏(比如针脚弯曲、连接器上有异物)。

·     明确待更换硬盘在服务器中的安装位置。

·     明确待更换硬盘所属RAID信息。如果用户更换其他型号的硬盘或空间已满的硬盘,且待更换硬盘所属RAID无冗余功能,请提前备份RAID中的数据。

·     了解硬盘安装准则,具体请参见2.13.3  SAS/SATA硬盘

6.4.3  更换步骤

说明

·     通过存储控制卡控制的SAS/SATA硬盘,在进入BIOS或操作系统后,支持热插拔操作。

·     通过板载VROC阵列控制器控制的SATA硬盘,只有在进入操作系统后,才支持热插拔操作。

 

1. 拆卸SAS/SATA硬盘

(1)     通过硬盘的指示灯状态确认硬盘状态,判断其是否可以拆卸。指示灯详细信息请参见2.9.3  硬盘指示灯

(2)     拆卸硬盘。按下硬盘面板按钮,硬盘扳手会自动打开,然后从硬盘槽位中拔出硬盘。对于HDD硬盘,硬盘扳手自动打开后,先将硬盘向外拔出3cm,使硬盘脱机;然后等待至少30s,硬盘完全停止转动后,再将硬盘从槽位中拔出。

(3)     拆卸硬盘支架。移除硬盘支架上的所有固定螺钉,并将硬盘从硬盘支架上移除。

2. 安装SAS/SATA硬盘

说明

建议用户安装没有RAID信息的硬盘。

 

(1)     安装硬盘到硬盘支架。先将四颗固定螺钉固定到四个螺孔中,然后依次拧紧螺钉。

(2)     安装硬盘。将硬盘推入硬盘槽位,直到推不动为止,然后闭合硬盘扳手。

(3)     (可选)如果新安装的硬盘中有RAID信息,请清除。

(4)     当存储控制卡检测到新硬盘后,请根据实际情况确认是否进行RAID配置,详细信息请参见产品的存储控制卡用户指南。

3. 确认工作

可通过以下一种或多种方法判断硬盘工作状态,以确保硬盘更换成功。

·     登录HDM Web界面,查看配置RAID后的硬盘容量等信息是否正确。具体方法请参见HDM联机帮助。

·     根据硬盘指示灯状态,确认硬盘是否正常工作。指示灯详细信息请参见2.9.3  硬盘指示灯

·     通过BIOS查看硬盘容量等信息是否正确。配置RAID的方法不同,BIOS下查看硬盘信息的具体方法也有所不同,详细信息请参见产品的存储控制卡用户指南。

·     进入操作系统后,查看硬盘容量等信息是否正确。

6.5  扩容NVMe硬盘

介绍如何扩容NVMe硬盘。

6.5.1  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     更换部件前,请检查插槽或连接器,确保针脚没有损坏(比如针脚弯曲、连接器上有异物)。

·     明确待更换硬盘在服务器中的安装位置。

·     明确待更换硬盘所属RAID信息。如果用户更换其他型号的硬盘或空间已满的硬盘,且待更换硬盘所属RAID无冗余功能,请提前备份RAID中的数据。

·     了解硬盘安装准则,具体请参见2.13.4  NVMe硬盘

6.5.2  安装步骤

说明

部分操作系统下NVMe硬盘支持热插操作,详细信息请查看OS兼容性查询工具

 

(1)     (可选)拆卸安全面板。解锁安全面板并将安全面板移出。

(2)     安装硬盘到硬盘支架。先将四颗固定螺钉固定到四个螺孔中,然后依次拧紧螺钉。

(3)     安装NVMe硬盘。

·     当NVMe硬盘支持热插操作时,详细操作方法请参见NVMe硬盘在线更换操作指导。

·     当NVMe硬盘不支持热插操作时,请执行步骤(4)(6)

(4)     请将服务器下电,具体参见4.2  下电

(5)     将硬盘推入硬盘槽位,然后闭合硬盘扳手。

(6)     (可选)安装安全面板。将安全面板一侧卡在机箱上,然后将另一侧固定到机箱并使用钥匙锁住面板。

6.5.3  确认工作

可通过以下一种或多种方法判断NVMe硬盘工作状态,以确保NVMe硬盘安装成功。

·     登录HDM Web界面,查看NVMe硬盘容量等信息是否正确。具体方法请参见HDM联机帮助。

·     根据NVMe硬盘指示灯状态,确认NVMe硬盘是否正常工作。指示灯详细信息请参见2.9.3  硬盘指示灯

·     通过BIOS查看NVMe硬盘容量等信息是否正确。详细信息请参见产品的BIOS用户指南。

·     进入操作系统后,查看NVMe硬盘容量等信息是否正确。

6.6  更换NVMe硬盘

介绍如何更换NVMe硬盘。

6.6.1  更换场景

·     硬盘故障。

·     更换空间已满的硬盘。

·     更换其他型号的硬盘。

6.6.2  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     更换部件前,请检查插槽或连接器,确保针脚没有损坏(比如针脚弯曲、连接器上有异物)。

·     明确待更换硬盘在服务器中的安装位置。

·     明确待更换硬盘所属RAID信息。如果用户更换其他型号的硬盘或空间已满的硬盘,且待更换硬盘所属RAID无冗余功能,请提前备份RAID中的数据。

·     了解硬盘安装准则,具体请参见2.13.4  NVMe硬盘

6.6.3  更换步骤

说明

·     部分操作系统下NVMe硬盘支持热插入和预知性热拔,,具体请参见NVMe硬盘在线更换操作指导。

·     在不支持NVMe硬盘热拔和预知性热拔的操作系统下,如需更换正常的NVMe硬盘,请先将服务器下电,具体参见4.2  下电

 

1. 拆卸NVMe硬盘

(1)     通过OS兼容性查询工具,查询NVMe硬盘在操作系统下是否支持热拔或者预知性热拔。

¡     均不支持,请将服务器下电,具体步骤请参见4.2  下电;然后,请执行步骤(2)(3)

¡     支持,拆卸NVMe硬盘的详细操作方法请参见NVMe硬盘在线更换操作指导。

(2)     拆卸NVMe硬盘。按下硬盘面板按钮,硬盘扳手会自动打开,然后从硬盘槽位中拔出硬盘。

(3)     拆卸硬盘支架。移除硬盘支架上的所有固定螺钉,并将硬盘从硬盘支架上移除。

2. 安装NVMe硬盘

(1)     请判断是否通过预知性热拔或者热拔的方式,拔出的NVMe硬盘。

¡     是,安装硬盘的详细操作方法请参见NVMe硬盘在线更换操作指导。

¡     否,请执行步骤(2)(3)

(2)     安装硬盘到硬盘支架。先将四颗固定螺钉固定到四个螺孔中,然后依次拧紧螺钉。

(3)     安装NVMe硬盘。

a.     (可选)拆卸硬盘假面板。

b.     按下硬盘面板按钮,硬盘扳手会自动打开。

c.     将硬盘推入槽位,直到推不动为止。

d.     闭合硬盘扳手,直到听见咔哒一声。

6.6.4  确认工作

可通过以下一种或多种方法判断NVMe硬盘工作状态,以确保NVMe硬盘安装成功。

·     登录HDM Web界面,查看NVMe硬盘容量等信息是否正确。具体方法请参见HDM联机帮助。

·     根据NVMe硬盘指示灯状态,确认NVMe硬盘是否正常工作。指示灯详细信息请参见2.9.3  硬盘指示灯

·     通过BIOS查看NVMe硬盘容量等信息是否正确。详细信息请参见产品的BIOS用户指南。

·     进入操作系统后,查看NVMe硬盘容量等信息是否正确。

6.7  更换GPU

介绍如何更换GPU卡。

6.7.1  更换场景

·     GPU卡故障。

·     更换其他型号的GPU卡。

·     GPU卡阻碍其他部件维护。

6.7.2  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     更换部件前,请检查插槽或连接器,确保针脚没有损坏(比如针脚弯曲、连接器上有异物)。

·     了解GPU卡安装准则,具体请参见2.13.7  GPU卡

6.7.3  更换步骤

1. 拆卸GPU

(1)     将服务器下电。具体步骤请参见4.2  下电

(2)     拆卸机箱盖。具体步骤请参见6.2.1  1. 拆卸机箱盖

(3)     拆卸GPU卡。

a.     (可选)若GPU卡配置了NVLink Bridge模块,请先拆卸NVLink Bridge模块,然后安装GPU卡上的NVLink Bridge接口保护盖。

b.     (可选)若GPU卡上连接有电源线缆,请断开线缆与GPU卡的连接。

c.     拆卸GPU卡。移除GPU卡的固定螺钉,然后将GPU卡从PCIe插槽中拔出。

d.     移除节点板上连接的GPU卡电源线缆。

2.  安装GPU

(1)     (可选)若GPU卡附带有固定片,请将固定片安装到GPU卡上。使固定片上的螺钉孔和GPU卡上的螺钉孔对齐,然后用螺钉将固定片固定到GPU卡上。

(2)     (可选)若GPU卡需要配置NVLink Bridge模块,请先拆卸 GPU卡上的NVLink Bridge接口保护盖,以便后续安装NVLink Bridge模块。

(3)     安装GPU卡到服务器。

a.     (可选)若GPU卡配有电源线缆,根据电源线缆上的标签,将GPU卡电源线缆的其中一端连接到节点板上的电源接口。

b.     沿PCIe插槽插入GPU卡,对于装有固定片的GPU卡,在安装时需要确保固定片对准中间支架上的固定片插槽。

c.     拧紧GPU卡的固定螺钉。

d.     (可选)若GPU卡配有电源线缆,根据电源线缆上的标签,将GPU卡电源线缆的另一端连接到GPU卡上的电源接口。

e.     (可选)若GPU卡需要配置NVLink Bridge模块,请将NVLink Bridge模块接口对准相邻两张GPU卡的NVLink Bridge接口后向下按入。

(4)     安装机箱盖。具体步骤请参见6.2.1  2. 安装机箱盖

(5)     将服务器上电。具体步骤请参见4.1  上电

6.8  更换HGX 4-GPU模块

介绍如何更换HGX 4-GPU模块模块。

6.8.1  更换场景

·     HGX 4-GPU模块故障。

·     HGX 4-GPU模块阻碍其他部件维护。

6.8.2  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     更换部件前,请检查插槽或连接器,确保针脚没有损坏(比如针脚弯曲、连接器上有异物)。

·     更换部件前,请检查是否已拆除机箱两侧的运输螺钉,确保拆除后,才能拉出计算模块。

6.8.3  更换步骤

1. 拆卸HGX 4-GPU模块

(1)     将服务器下电。具体步骤请参见4.2  下电

(2)     拆卸服务器。具体步骤请参见3.6  拆卸服务器

(3)     拆卸机箱盖。具体步骤请参见6.2.1  1. 拆卸机箱盖

(4)     拆卸HGX 4-GPU模块导风罩。向上提起HGX 4-GPU模块导风罩,使其脱离计算模块。

(5)     拉出计算模块。

a.     解锁计算模块。按下计算模块的解锁按钮,扳手会自动弹出。

b.     拉出计算模块。向上掰起扳手,然后将计算模块向服务器后方拉出,直至锁定。

(6)     拆卸中间支架。

a.     (可选)若有线缆穿过中间支架的走线孔,阻碍了中间支架的拆卸,请先将线缆移除。

b.     拧开中间支架的所有松不脱螺钉,然后向上抬起支架。

(7)     断开HGX 4-GPU模块和GPU节点板上连接的所有线缆。

(8)     拆卸HGX 4-GPU模块。

a.     拆卸计算模块上的理线支架。

b.     (可选)拆卸后面板假面板。

c.     拧开HGX 4-GPU模块前、后各一颗松不脱螺钉。

d.     向后水平拉动HGX 4-GPU模块至定位柱顶部,然后向上提起。

2. 安装HGX 4-GPU模块

(1)     安装HGX 4-GPU模块。

a.     将HGX 4-GPU模块对准节点板的定位柱,GPU模块槽位对准节点板定位柱放入后,沿水平方向缓缓推入节点槽位,直至安装到位使节点板上的定位柱与GPU模块槽位固定。

b.     使用T15螺丝刀拧紧HGX 4-GPU模块前、后各一颗松不脱螺钉。

c.     (可选)安装后部假面板。

d.     安装计算模块上的理线支架。

(2)     连接HGX 4-GPU模块和GPU节点板上的所有线缆。

(3)     安装中间支架。

a.     使支架两侧的导向孔对准计算模块上的导向销,将支架放入槽位,并拧紧支架的松不脱螺钉。

b.     (可选)将之前移除线缆,重新穿过中心支架的走线孔。

(4)     安装HGX 4-GPU模块导风罩。将导风罩的边沿紧贴HGX 4-GPU模块,垂直向下放入槽位至固定。

(5)     安装机箱盖。具体步骤请参见6.2.1  2. 安装机箱盖

(6)     安装服务器。具体步骤请参见3.4  安装服务器

(7)     将服务器上电。具体步骤请参见4.1  上电

6.9  更换标准PCIe网卡

介绍如何更换标准PCIe网卡。

6.9.1  更换场景

·     标准PCIe网卡故障。

·     更换其他型号的标准PCIe网卡。

6.9.2  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     更换部件前,请检查插槽或连接器,确保针脚没有损坏(比如针脚弯曲、连接器上有异物)。

·     了解网卡安装准则,具体请参见2.13.9  网卡

6.9.3  更换标准PCIe网卡

1. 拆卸标准PCIe网卡

(1)     将服务器下电。具体步骤请参见4.2  下电

(2)     拆卸机箱盖。具体步骤请参见6.2.1  1. 拆卸机箱盖

(3)     拆卸标准PCIe网卡。移除网卡的固定螺钉,向上拔出网卡,使其脱离PCIe插槽。

2. 安装标准PCIe网卡

(1)     安装标准PCIe网卡到服务器。沿PCIe插槽插入网卡,并用螺钉固定。

(2)     安装机箱盖。具体步骤请参见6.2.1  2. 安装机箱盖

(3)     将服务器上电。具体步骤请参见4.1  上电

6.10  更换OCP网卡

介绍如何更换OCP网卡。

6.10.1  更换场景

·     OCP网卡故障。

·     更换其他型号的OCP网卡。

6.10.2  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     更换部件前,请检查插槽或连接器,确保针脚没有损坏(比如针脚弯曲、连接器上有异物)。

·     了解网卡安装准则,具体请参见2.13.9  网卡

6.10.3  更换OCP网卡

说明

·     服务器支持OCP网卡预知性热插拔,具体操作请参见附录B。

·     本节仅介绍在服务器下电后更换OCP网卡步骤。

 

1. 拆卸OCP网卡

(1)     (可选)将服务器下电,具体步骤请参见4.2  下电

(2)     (可选)断开OCP网卡上的连接的所有外部线缆。

(3)     拆卸OCP网卡。

a.     按下OCP转接模块上的ATTN BUTTON按钮,等待服务器后面板上的POWER指示灯和ATTN BUTTON指示灯均变成灯灭。

说明

·     POWER指示灯从绿色闪烁变成灯灭的时长约为10秒。

·     OCP转接模块上的ATTN BUTTON按钮和POWER指示灯位置及含义请参见2.6.2  后面板指示灯

 

b.     拧开OCP网卡的松不脱螺钉,然后将OCP网卡从槽位中拔出。

2. 安装OCP网卡

(1)     安装OCP网卡。

a.     将OCP网卡推入槽位,然后拧紧网卡上的松不脱螺钉。

b.     按下OCP转接模块上的ATTN BUTTON按钮,此时服务器后面板上的POWER指示灯会从绿色闪烁变为绿色常亮。

(2)     (可选)连接OCP网卡上已断开的线缆。

(3)     (可选)将服务器上电。具体步骤请参见4.1  上电

(4)     (可选)OCP网卡支持NCSI特性,可设置HDM共享网络接口。缺省情况下,OCP网卡上的Port1接口为HDM共享网络接口。用户可通过HDM Web界面,将其他接口设置为HDM共享网络接口,详细信息请参见HDM联机帮助。需要注意的是,同一时间,仅支持将服务器的一个网口设置为HDM共享网络接口。

6.11  更换OCP转接模块

介绍如何更换OCP转接模块。

6.11.1  更换场景

OCP转接模块故障。

6.11.2  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     更换部件前,请检查插槽或连接器,确保针脚没有损坏(比如针脚弯曲、连接器上有异物)。

·     更换部件前,请检查是否已拆除机箱两侧的运输螺钉,确保拆除后,才能拉出计算模块。

6.11.3  更换步骤

1. 拆卸OCP转接模块

(1)     将服务器下电。具体步骤请参见4.2  下电

(2)     拆卸服务器。具体步骤请参见3.6  拆卸服务器

(3)     拆卸所有电源模块。按下电源模块弹片的同时,握持电源模块后部的拉手将电源模块从槽位中拔出。

(4)     (可选)如果安装了OCP网卡,请拆卸OCP网卡。拧开OCP网卡的松不脱螺钉,然后将OCP网卡从槽位中拔出。

(5)     拆卸机箱盖。具体步骤请参见6.2.1  1. 拆卸机箱盖

(6)     (可选)如果已安装标准存储控制卡,请拆卸标准存储控制卡,并断开标准存储控制卡上的所有线缆。

(7)     完全拉出计算模块。

a.     半拉出计算模块。按下计算模块的解锁按钮,扳手会自动弹出。向上掰起扳手,然后将计算模块向服务器后方拉出,直至锁定。

b.     断开计算模块的坦克链与机箱之间的连接。拧开坦克链机箱端的松不脱螺钉,然后将坦克链固定扣向机箱前方滑动,使坦克链从机箱壁上解锁。

c.     断开坦克链线缆。断开坦克链中连接到CPU主板的所有线缆。

d.     完全拉出计算模块。将计算模块两壁的固定弹片向中心拉出,同时继续将计算模块向后拉出,直至达到计算模块可以拉出的最大行程。

(8)     (可选)拆卸超级电容。

(9)     拆卸导风罩。向上提起导风罩,使其脱离机箱。

(10)     拆卸所有内存。

(11)     拆卸所有CPU。

(12)     安装CPU底座上的盖片。向下放置盖片,然后按压盖片两个对角,使其固定在CPU底座上。

(13)     拆卸所有电源转接板。

(14)     拆卸系统电池。

(15)     拆卸Mezz存储控制卡。

(16)     拆卸所有SATA M.2 SSD卡。

(17)     拆卸所有风扇模块。

(18)     拆卸风扇笼。

a.     解锁风扇笼。向上翻起螺钉的弹片,握持弹片沿逆时针方向将固定螺钉旋转180°,以解锁固定螺钉。通过该方法,依次解锁风扇笼的三个固定螺钉。

b.     向上抬起风扇笼,使其脱离机箱。

(19)     断开主板上连接的所有线缆。

(20)     拆卸机箱两侧挡线板。

a.     将开箱检测模块线缆从挡线板中移出。

b.     同时掰开挡线板的两个固定扣,并向上提起挡线板。

(21)     (可选)若前部硬盘背板上的线缆会阻碍主板拆卸,请将阻碍操作的线缆从硬盘背板上断开,并移出机箱。

(22)     拆卸主板。

a.     拧开主板上的松不脱螺钉。

b.     (可选)移除或整理阻碍主板拆卸的线缆。

c.     (可选)整理坦克链,避免坦克链阻碍主板拆卸。

d.     拆卸主板。由于主板上的部分接口(如USB接口、网口)嵌入在机箱中,需要将主板向机箱前方拉出一段距离,再向上抬起主板。

(23)     拆卸OCP转接模块。移除OCP转接卡上的所有固定螺钉,然后将转接卡向上抬起,使其脱离服务器。

2. 安装OCP转接模块

(1)     安装OCP转接模块。将OCP转接模块安装到OCP转接模块插槽上,然后拧紧转接模块的固定螺钉。

(2)     安装主板。

a.     将主板缓缓向下放置到机箱中,并向机箱后方推入,使主板上的接口(如USB接口、网口)嵌入到位。

b.     拧紧主板上的松不脱螺钉。

c.     将移除的线缆连接到原位置。

d.     整理坦克链,使坦克链向机箱前方伸直,以免推回计算模块时造成阻碍。

(3)     安装机箱两侧挡线板。将挡线板的两个固定扣,对准机箱壁的两个固定位点。使挡线板紧贴机箱壁向下滑动,直至挡线板固定在机箱壁上。

(4)     连接主板上的所有线缆。

(5)     安装风扇笼。

a.     将风扇笼向下放入槽位。

b.     固定风扇笼。握持弹片,向下按压的同时沿顺时针方向将螺钉旋转180°,以拧紧固定螺钉。通过该方法,依次拧紧风扇笼的三个固定螺钉。

c.     翻下所有固定螺钉的弹片。

(6)     安装所有风扇模块。握持风扇提手,将风扇向下放入槽位。

(7)     安装SATA M.2 SSD卡。

(8)     安装Mezz存储控制卡。

(9)     安装系统电池。

(10)     安装所有电源转接板。

(11)     拆卸CPU底座上盖片。握持盖片,然后向上拿起盖片。

(12)     安装CPU和散热器。

(13)     安装所有内存。

(14)     安装导风罩。将导风罩的边沿紧贴固定支架,垂直向下放入槽位,直至导风罩两端固定。

(15)     (可选)安装超级电容。

(16)     推回计算模块。

a.     缓缓用力推回计算模块到半程位置。

b.     连接坦克链线缆。将断开的坦克链线缆重新连接至主板。

c.     连接坦克链。将坦克链的固定扣连接到机箱侧壁的固定位点,并向机箱后方滑动,使其固定,然后拧紧坦克链的松不脱螺钉。

d.     完全推回计算模块,并闭合扳手,以锁定计算模块。

(17)     (可选)安装标准存储控制卡。重新连接线缆到标准存储控制卡,并将标准存储控制卡安装到计算模块。

(18)     安装机箱盖。具体步骤请参见6.2.1  2. 安装机箱盖

(19)     (可选)安装已拆卸的OCP网卡,将OCP网卡推入槽位,并拧紧网卡上的松不脱螺钉。

(20)     安装已拆卸的电源模块,先摆正电源模块,此时电源模块上的风扇位于电源模块左侧。将电源模块推入槽位,直到听见咔哒一声。

(21)     安装服务器。具体步骤请参见3.4  安装服务器

(22)     将服务器上电。具体步骤请参见4.1  上电

6.12  更换存储控制卡及其掉电保护模块

介绍如何更换标准存储控制卡及其掉电保护模块。

6.12.1  操作场景

·     存储控制卡故障。

·     更换其他型号的存储控制卡。

·     存储控制卡阻碍其他部件的维护操作。

·     掉电保护模块故障。

·     掉电保护模块阻碍其他部件的维护操作。

6.12.2  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     更换部件前,请检查插槽或连接器,确保针脚没有损坏(比如针脚弯曲、连接器上有异物)。

·     更换为相同型号的存储控制卡,请明确待更换存储控制卡及BIOS信息。

¡     存储控制卡在服务器中的位置以及线缆连接方法。

¡     存储控制卡的型号、工作模式、固件版本。

¡     明确BIOS的启动模式。

¡     明确Legacy启动模式下存储控制卡的第一启动项设置。

·     更换为其他型号的存储控制卡,请提前备份待更换的存储控制卡所控制的硬盘中的数据并清除RAID配置信息。

·     更换部件前,请检查是否已拆除机箱两侧的运输螺钉,确保拆除后,才能拉出计算模块。

·     了解存储控制卡及其掉电保护模块安装准则,具体请参见2.13.5  存储控制卡及掉电保护模块

6.12.3  更换Mezz存储控制卡及其掉电保护模块

1. 拆卸Mezz存储控制卡及其掉电保护模块

(1)     将服务器下电。具体步骤请参见4.2  下电

(2)     拆卸服务器。具体步骤请参见3.6  拆卸服务器

(3)     拆卸机箱盖。具体步骤请参见6.2.1  1. 拆卸机箱盖

(4)     拉出计算模块。

a.     解锁计算模块。按下计算模块的解锁按钮,扳手会自动弹出。

b.     拉出计算模块。向上掰起扳手,然后将计算模块向服务器后方拉出,直至锁定。

(5)     断开Mezz存储控制卡上连接的超级电容线缆。

(6)     (可选)若需要更换超级电容及其固定座,请拆卸。

a.     拆卸超级电容。向外掰开固定座上的固定卡扣,从槽位中取出超级电容,并将超级电容以及超级电容上连接的线缆一同移出机箱。

b.     拆卸超级电容固定座。向上掰开固定座中央的弹片,同时水平滑动固定座使其从导风罩上解锁,然后将其取出。

(7)     拆卸导风罩。向上提起导风罩,使其脱离机箱。

(8)     拆卸Mezz存储控制卡。

a.     断开存储控制卡上的所有线缆。

b.     拧开Mezz存储控制卡上的所有松不脱螺钉,然后将存储控制卡向上抬起,使其脱离槽位。

2. 安装Mezz存储控制卡及其掉电保护模块

(1)     安装Mezz存储控制卡。

a.     连接存储控制卡线缆。

b.     沿Mezz存储控制卡插槽插入存储控制卡,并拧紧存储控制卡上的所有松不脱螺钉。

(2)     安装导风罩。将导风罩的边沿紧贴固定支架,垂直向下放入槽位,直至导风罩两端固定。

(3)     (可选)安装超级电容及其固定座。

a.     安装超级电容固定座。沿着导风罩上的两个卡槽,将超级电容固定座水平推入,直至固定。

b.     连接超级电容转接线缆。

c.     安装超级电容。将超级电容一端先放入固定座,然后向外掰开固定座上的固定卡扣,并将电容的另一端放入固定座。

(4)     推回计算模块。缓缓用力推回计算模块,并闭合扳手,以锁定计算模块。

(5)     安装机箱盖。具体步骤请参见6.2.1  2. 安装机箱盖

(6)     安装服务器。具体步骤请参见3.4  安装服务器

(7)     将服务器上电。具体步骤请参见4.1  上电

6.12.4  更换标准存储控制卡及其掉电保护模块

1. 拆卸标准存储控制卡及其掉电保护模块

(1)     将服务器下电。具体步骤请参见4.2  下电

(2)     拆卸机箱盖。具体步骤请参见6.2.1  1. 拆卸机箱盖

(3)     拆卸标准存储控制卡。

a.     拆卸存储控制卡。移除存储控制卡的固定螺钉,向上拔出存储控制卡,使其脱离槽位。

b.     断开存储控制卡上连接的所有线缆,然后将其移出机箱。

(4)     (可选)若需要更换标准存储控制卡上的Flash卡,请拆卸。移除Flash卡的固定螺钉,然后将Flash卡从槽位中拔出。

(5)     (可选)若需要更换超级电容,请先拉出计算模块。

a.     解锁计算模块。按下计算模块的解锁按钮,扳手会自动弹出。

b.     拉出计算模块。向上掰起扳手,然后将计算模块向服务器后方拉出,直至锁定。

(6)     (可选)若需要更换超级电容及其固定座,请拆卸。

a.     拆卸超级电容。向外掰开固定座上的固定卡扣,从槽位中取出超级电容,并将超级电容以及超级电容上连接的线缆一同移出机箱。

b.     拆卸超级电容固定座。向上掰开固定座中央的弹片,同时水平滑动固定座使其从导风罩上解锁,然后将其取出。

2. 安装标准存储控制卡及其掉电保护模块

(1)     (可选)安装超级电容及其固定座。

a.     安装超级电容固定座。沿着导风罩上的两个卡槽,将超级电容固定座水平推入,直至固定。

b.     连接超级电容转接线缆。

c.     安装超级电容。将超级电容一端先放入固定座,然后向外掰开固定座上的固定卡扣,并将电容的另一端放入固定座。

(2)     (可选)推回计算模块。缓缓用力推回计算模块,并闭合扳手,以锁定计算模块。

(3)     (可选)安装Flash卡到标准存储控制卡。对准控制卡上的插槽,向下缓缓用力插入Flash卡,并用螺钉固定。

(4)     安装标准存储控制卡到计算模块。

a.     连接存储控制卡上的所有线缆。

b.     沿PCIe插槽插入存储控制卡,并用螺钉固定。

(5)     安装机箱盖。具体步骤请参见6.2.1  2. 安装机箱盖

(6)     将服务器上电。具体步骤请参见4.1  上电

6.13  更换SATA M.2 SSD

介绍如何更换SATA M.2 SSD卡。

6.13.1  更换场景

·     SATA M.2 SSD卡故障。

·     更换其他型号的SATA M.2 SSD卡。

6.13.2  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     更换部件前,请检查插槽或连接器,确保针脚没有损坏(比如针脚弯曲、连接器上有异物)。

·     更换部件前,请检查是否已拆除机箱两侧的运输螺钉,确保拆除后,才能拉出计算模块。

·     了解SATA M.2 SSD卡安装准则,具体请参见2.13.10  SATA M.2 SSD卡

6.13.3  更换步骤

1. 拆卸SATA M.2 SSD卡

(1)     将服务器下电,具体步骤请参见4.2  下电

(2)     拆卸服务器。具体步骤请参见3.6  拆卸服务器

(3)     拆卸机箱盖。具体步骤请参见6.2.1  1. 拆卸机箱盖

(4)     (可选)如果已安装标准存储控制卡,请拆卸标准存储控制卡,并断开标准存储控制卡上的所有线缆。

(5)     拉出计算模块。

a.     解锁计算模块。按下计算模块的解锁按钮,扳手会自动弹出。

b.     拉出计算模块。向上掰起扳手,然后将计算模块向服务器后方拉出,直至锁定。

(6)     拆卸SATA M.2 SSD卡。按下SATA M.2 SSD卡的固定锁扣,卡的一端会自动弹起,然后将SATA M.2 SSD卡从插槽中拔出。

2. 安装SATA M.2 SSD卡

(1)     安装SATA M.2 SSD卡。将SATA M.2 SSD卡插入主板的SATA M.2 SSD卡插槽,然后将翘起的一端向下按压,锁扣会自动将SATA M.2 SSD卡固定。

(2)     推回计算模块。缓缓用力推回计算模块,并闭合扳手,以锁定计算模块。

(3)     (可选)安装标准存储控制卡。重新连接线缆到标准存储控制卡,并将标准存储控制卡安装到计算模块。

(4)     安装机箱盖。具体步骤请参见6.2.1  2. 安装机箱盖

(5)     安装服务器。具体步骤请参见3.4  安装服务器

(6)     将服务器上电。具体步骤请参见4.1  上电

6.14  更换NVMe VROC模块

介绍如何更换NVMe VROC模块。

6.14.1  更换场景

·     NVMe VROC模块故障。

·     更换其他型号的NVMe VROC模块。

6.14.2  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     更换部件前,请检查插槽或连接器,确保针脚没有损坏(比如针脚弯曲、连接器上有异物)。

·     更换部件前,请检查是否已拆除机箱两侧的运输螺钉,确保拆除后,才能拉出计算模块。

·     了解NVMe VROC模块安装准则,具体请参见2.13.6  NVMe VROC模块

6.14.3  更换步骤

1. 拆卸NVMe VROC模块

(1)     将服务器下电,具体步骤请参见4.2  下电

(2)     拆卸服务器。具体步骤请参见3.6  拆卸服务器

(3)     拆卸机箱盖。具体步骤请参见6.2.1  1. 拆卸机箱盖

(4)     (可选)如果已安装标准存储控制卡,请拆卸标准存储控制卡,并断开标准存储控制卡上的所有线缆。

(5)     拉出计算模块。

a.     解锁计算模块。按下计算模块的解锁按钮,扳手会自动弹出。

b.     拉出计算模块。向上掰起扳手,然后将计算模块向服务器后方拉出,直至锁定。

(6)     拆卸NVMe VROC模块。将手指伸入模块的指环中,然后捏住模块两侧向上拔出模块。

2. 安装NVMe VROC模块

(1)     安装NVMe VROC模块。对准主板的NVMe VROC模块接口,向下缓缓用力插入模块。

(2)     推回计算模块。缓缓用力推回计算模块,并闭合扳手,以锁定计算模块。

(3)     (可选)安装标准存储控制卡。重新连接线缆到标准存储控制卡,并将标准存储控制卡安装到计算模块。

(4)     安装机箱盖。具体步骤请参见6.2.1  2. 安装机箱盖

(5)     安装服务器。具体步骤请参见3.4  安装服务器

(6)     将服务器上电。具体步骤请参见4.1  上电

6.15  更换CPU

介绍如何更换CPU。

6.15.1  更换场景

·     CPU故障。

·     更换其他型号的CPU。

6.15.2  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     更换部件前,请检查插槽或连接器,确保针脚没有损坏(比如针脚弯曲、连接器上有异物)。

·     更换部件前,请检查是否已拆除机箱两侧的运输螺钉,确保拆除后,才能拉出计算模块。

·     了解CPU安装准则,具体请参见2.13.1  CPU

6.15.3  更换步骤

注意

·     为避免损坏CPU或主板,只限H3C授权人员或专业的服务器工程师更换CPU。

·     请确保同一服务器上安装的CPU型号相同。

·     为避免CPU底座中针脚损坏,请确保在未安装CPU的底座中安装了CPU盖片。

·     不同CPU适配的散热器可能不同,但是CPU更换方法类似。

·     为防止人体静电损坏电子组件,请在操作前佩戴防静电腕带,并将腕带的另一端良好接地。

 

1. 拆卸CPU

(1)     将服务器下电。具体步骤请参见4.2  下电

(2)     拆卸服务器。具体步骤请参见3.6  拆卸服务器

(3)     拆卸机箱盖。具体步骤请参见6.2.1  1. 拆卸机箱盖

(4)     (可选)如果已安装标准存储控制卡,请拆卸标准存储控制卡,并断开标准存储控制卡上的所有线缆。

(5)     拉出计算模块。

a.     解锁计算模块。按下计算模块的解锁按钮,扳手会自动弹出。

b.     拉出计算模块。向上掰起扳手,然后将计算模块向服务器后方拉出,直至锁定。

(6)     拆卸导风罩。向上提起导风罩,使其脱离机箱。

(7)     拆卸带有CPU的散热器。

a.     依次拧开散热器上的四颗松不脱螺钉。

b.     扳动散热器上的四个丝扣,使其解锁。

c.     向上提起散热器,使其脱离服务器。

注意

CPU底座中的针脚极为脆弱,容易损坏。为避免该针脚损坏而导致更换主板,请勿触摸针脚。

 

(8)     拆卸CPU。

a.     向上扳起扳手,使CPU的一端翘起。

b.     捏住CPU两侧,使其脱离夹持片。

(9)     拆卸夹持片。

a.     松开夹持片的四个角。将夹持片一角和其对角上的固定弹片向外掰开,夹持片另一角和其对角上的固定弹片向内推入。

b.     将夹持片向上抬起,使其脱离散热器。

(10)     清理残存的导热硅脂。用异丙醇擦拭布将CPU顶部和散热器表面清理干净,确保表面整洁干净。

2. 安装CPU

(1)     安装夹持片到散热器。

a.     闭合夹持片上的扳手。

注意

请确保夹持片上的扳手处于闭合状态,否则可能造成CPU无法安装到位。

 

b.     使夹持片上带有三角形标记的一角和散热器上带有缺口的一角对齐,向下放置并按压夹持片,直到听见咔哒提示音,夹持片的四个角和散热器的四个角已紧紧相扣。

(2)     在散热器上涂抹导热硅脂。用导热硅脂注射器将导热硅脂挤出0.6ml,然后采用五点法将导热硅脂均匀地涂抹在散热器表面。

注意

操作前,请确保散热器表面已清理干净,无残存导热硅脂。

 

(3)     安装CPU到夹持片。

注意

拿取CPU时,请小心夹持CPU的边缘,勿碰触CPU底面的触点,避免损坏CPU。

 

a.     斜置CPU,使CPU上带有三角形标记的一角和夹持片上带有三角形标记的一角对齐,同时将CPU一端卡到夹持片一端的卡扣,2个拇指顶住散热器一端,同时将CPU另一侧向拇指端用力推并向下放置CPU。

b.     向外掰开夹持片四周的卡扣,直到卡扣卡住CPU,使CPU安装到位。

(4)     将带有CPU和夹持片的散热器安装到服务器。

注意

请务必将随CPU发货的条码标签,粘贴到散热器侧面,覆盖散热器上原有条码标签,否则H3C将无法提供该CPU的后续保修服务。

 

a.     使夹持片上的三角形和CPU底座上带有缺口的一角对齐,散热器上的4个螺钉孔对准CPU底座上的4个导向销,将散热器向下放置在CPU底座上。

b.     扳动4个丝扣到锁定位置,以锁定带有CPU的散热器。

c.     使用T30 Torx星型螺丝刀,拧紧散热器上的4颗松不脱螺钉。

注意

请将螺丝刀扭矩调节到0.9N·m(8in-lbs),否则可能会造成CPU接触不良或者损坏CPU底座中的针脚。

 

(5)     安装导风罩。将导风罩的边沿紧贴固定支架,垂直向下放入槽位,直至导风罩两端固定。

(6)     推回计算模块。缓缓用力推回计算模块,并闭合扳手,以锁定计算模块。

(7)     (可选)安装标准存储控制卡。重新连接线缆到标准存储控制卡,并将标准存储控制卡安装到计算模块。

(8)     安装机箱盖。具体步骤请参见6.2.1  2. 安装机箱盖

(9)     安装服务器。具体步骤请参见3.4  安装服务器

(10)     将服务器上电。具体步骤请参见4.1  上电

6.15.4  确认工作

登录HDM Web界面,查看更换后的CPU工作状态是否正常。具体操作请参见HDM联机帮助。

6.16  更换内存

介绍如何更换内存。

6.16.1  更换场景

·     内存故障。

·     更换其他型号的内存。

·     内存阻碍其他部件维护。

6.16.2  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     更换部件前,请检查插槽或连接器,确保针脚没有损坏(比如针脚弯曲、连接器上有异物)。

·     更换部件前,请检查是否已拆除机箱两侧的运输螺钉,确保拆除后,才能拉出计算模块。

·     了解内存安装准则,具体请参见2.13.2  内存

6.16.3  更换步骤

1. 拆卸内存

注意

拆卸和安装内存或内存假面板前,请务必确认两侧固定夹已打开,未打开状态下强行插拔可能会导致内存槽位针脚损坏。

 

(1)     将服务器下电。具体步骤请参见4.2  下电

(2)     拆卸服务器。具体步骤请参见3.6  拆卸服务器

(3)     拆卸机箱盖。具体步骤请参见6.2.1  1. 拆卸机箱盖

(4)     (可选)如果已安装标准存储控制卡,请拆卸标准存储控制卡,并断开标准存储控制卡上的所有线缆。

(5)     拉出计算模块。

a.     解锁计算模块。按下计算模块的解锁按钮,扳手会自动弹出。

b.     拉出计算模块。向上掰起扳手,然后将计算模块向服务器后方拉出,直至锁定。

(6)     拆卸导风罩。向上提起导风罩,使其脱离机箱。

(7)     拆卸内存。打开内存固定夹,向上取出内存并放入防静电包装袋。

2. 安装内存

(1)     安装内存。从防静电包装袋中取出待安装的内存,将内存的缺口与插槽的缺口对齐,垂直向下均匀用力将内存插入槽中,此时固定夹会自动锁住。

说明

内存插槽的结构设计可以确保正确安装。将内存插入插槽时如果感觉很费力,则可能安装不正确,此时请将内存调换方向后再次插入。

 

(2)     安装导风罩。将导风罩的边沿紧贴固定支架,垂直向下放入槽位,直至导风罩两端固定。

(3)     推回计算模块。缓缓用力推回计算模块,并闭合扳手,以锁定计算模块。

(4)     (可选)安装标准存储控制卡。重新连接线缆到标准存储控制卡,并将标准存储控制卡安装到计算模块。

(5)     安装机箱盖。具体步骤请参见6.2.1  2. 安装机箱盖

(6)     安装服务器。具体步骤请参见3.4  安装服务器

(7)     将服务器上电。具体步骤请参见4.1  上电

6.16.4  确认工作

请通过以下任意方式查看显示的内存容量与实际是否一致。

·     操作系统:

Linux操作系统下,可通过cat /proc/meminfo命令查看。

·     HDM:

登录HDM Web界面,查看内存容量。具体操作请参见HDM联机帮助。

·     BIOS:

选择Socket Configuration页签 > Memory Configuration > Memory Topology,然后按Enter,即可查看内存容量。

如果显示的内存容量与实际不一致,请重新插拔或安装内存。需要注意的是,当内存的内存模式为Mirror Mode时,操作系统下显示的内存容量比实际内存容量小属于正常情况。

6.17  更换硬盘背板

介绍如何更换硬盘背板。

6.17.1  更换场景

硬盘背板故障。

6.17.2  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     更换部件前,请检查插槽或连接器,确保针脚没有损坏(比如针脚弯曲、连接器上有异物)。

6.17.3  更换步骤

1. 拆卸硬盘背板

(1)     将服务器下电。具体步骤请参见4.2  下电

(2)     拆卸服务器。具体步骤请参见3.6  拆卸服务器

(3)     (可选)拆卸所有前部假面板。使用细工具(如尖头镊子)穿过假面板右侧的散热孔,将假面板右侧撬起,然后顺势将假面板取出。

(4)     拆卸待更换硬盘背板上的所有硬盘。按下硬盘面板按钮,硬盘扳手自动打开,然后从槽位中拔出硬盘。

(5)     拆卸机箱盖。具体步骤请参见6.2.1  1. 拆卸机箱盖

(6)     拆卸所有风扇模块。向上翻起风扇模块的提手,握住提手将风扇模块向上提出,使其脱离服务器。

(7)     拆卸风扇笼。

a.     解锁风扇笼。向上翻起螺钉的弹片,握持弹片沿逆时针方向将固定螺钉旋转180°,以解锁固定螺钉。通过该方法,依次解锁风扇笼的三个固定螺钉。

b.     向上抬起风扇笼,使其脱离机箱。

(8)     拆卸硬盘背板。

a.     断开硬盘背板上的所有线缆。

b.     拧开硬盘背板上的松不脱螺钉。

c.     向上提起硬盘背板使其从机箱上解锁,然后将硬盘背板取出。

2. 安装硬盘背板

(1)     安装硬盘背板。

a.     将硬盘背板放入槽位,然后向下滑动硬盘背板,使其固定在机箱上。

b.     然后拧紧背板上的松不脱螺钉。

c.     连接硬盘背板上的所有线缆。

(2)     安装已拆卸的所有硬盘。

(3)     安装风扇笼。

a.     将风扇笼向下放入槽位。

b.     固定风扇笼。握持弹片,向下按压的同时沿顺时针方向将螺钉旋转180°,以拧紧固定螺钉。通过该方法,依次拧紧风扇笼的三个固定螺钉。

c.     翻下所有固定螺钉的弹片。

(4)     安装已拆卸的所有风扇模块。握持风扇提手,将风扇向下放入槽位。

(5)     安装机箱盖。具体步骤请参见6.2.1  2. 安装机箱盖

(6)     安装硬盘。将硬盘推入硬盘槽位,直到推不动为止,然后闭合硬盘扳手。

(7)     安装服务器。具体步骤请参见3.4  安装服务器

(8)     将服务器上电。具体步骤请参见4.1  上电

6.18  安装24LFF硬盘扩展模块

6.18.1  应用场景

从12LFF硬盘配置扩容为24LFF硬盘配置。

6.18.2  安装步骤

(1)     将服务器下电。具体步骤请参见4.2  下电

(2)     拆卸服务器。具体步骤请参见3.6  拆卸服务器

(3)     拆卸所有前部假面板。使用细工具(如尖头镊子)穿过假面板右侧的散热孔,将假面板右侧撬起,然后顺势将假面板取出。

(4)     拆卸所有硬盘。解锁硬盘扳手,然后将硬盘从槽位中拔出。

(5)     拆卸机箱盖。具体步骤请参见6.2.1  1. 拆卸机箱盖

(6)     拆卸所有风扇模块。向上翻起风扇模块的提手,握住提手将风扇模块向上提出,使其脱离服务器。

(7)     拆卸风扇笼。

a.     解锁风扇笼。向上翻起螺钉的弹片,握持弹片沿逆时针方向将固定螺钉旋转180°,以解锁固定螺钉。通过该方法,依次解锁风扇笼的三个固定螺钉。

b.     向上抬起风扇笼,使其脱离机箱。

(8)     拆卸12LFF硬盘背板。

a.     断开硬盘背板上的所有线缆。

b.     拧开硬盘背板上的松不脱螺钉。

c.     向上提起硬盘背板使其从机箱上解锁,然后将硬盘背板取出。

(9)     安装24LFF硬盘扩展板。

a.     将硬盘背板放入槽位,然后向下滑动硬盘背板,使其固定在机箱上。

b.     然后拧紧背板上的松不脱螺钉。

c.     连接硬盘背板上的所有线缆。

(10)     安装风扇笼。

a.     将风扇笼向下放入槽位。

b.     固定风扇笼。握持弹片,向下按压的同时沿顺时针方向将螺钉旋转180°,以拧紧固定螺钉。通过该方法,依次拧紧风扇笼的三个固定螺钉。

c.     翻下所有固定螺钉的弹片。

(11)     安装已拆卸的所有风扇模块。握持风扇提手,将风扇向下放入槽位。

(12)     安装机箱盖。具体步骤请参见6.2.1  2. 安装机箱盖

(13)     安装硬盘。将硬盘推入硬盘槽位,直到推不动为止,然后闭合硬盘扳手。

(14)     安装机箱盖。具体步骤请参见6.2.1  2. 安装机箱盖

(15)     安装服务器。具体步骤请参见3.4  安装服务器

(16)     将服务器上电。具体步骤请参见4.1  上电

6.19  更换电源转接

介绍如何更换电源转接板。

6.19.1  更换场景

电源转接板故障。

6.19.2  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     更换部件前,请检查插槽或连接器,确保针脚没有损坏(比如针脚弯曲、连接器上有异物)。

·     更换部件前,请检查是否已拆除机箱两侧的运输螺钉,确保拆除后,才能拉出计算模块。

6.19.3  更换步骤

1. 拆卸电源转接板

(1)     将服务器下电。具体步骤请参见4.2  下电

(2)     拆卸服务器。具体步骤请参见3.6  拆卸服务器

(3)     拆卸机箱盖。具体步骤请参见6.2.1  1. 拆卸机箱盖

(4)     (可选)如果已安装标准存储控制卡,请拆卸标准存储控制卡,并断开标准存储控制卡上的所有线缆。

(5)     拉出计算模块。

a.     解锁计算模块。按下计算模块的解锁按钮,扳手会自动弹出。

b.     拉出计算模块。向上掰起扳手,然后将计算模块向服务器后方拉出,直至锁定。

(1)     拆卸电源转接板。

a.     移除电源转接板的所有固定螺钉。

b.     向上提起电源转接板,使其脱离服务器。

2. 安装电源转接板

(23)     安装电源转接板。将电源转接板水平放置到电源转接板槽位上,并用螺钉固定。

(24)     推回计算模块。缓缓用力推回计算模块,并闭合扳手,以锁定计算模块。

(25)     (可选)安装标准存储控制卡。重新连接线缆到标准存储控制卡,并将标准存储控制卡安装到计算模块。

(26)     安装机箱盖。具体步骤请参见6.2.1  2. 安装机箱盖

(27)     安装服务器。具体步骤请参见3.4  安装服务器

(28)     将服务器上电。具体步骤请参见4.1  上电

6.20  更换CPU主板

介绍如何更换CPU主板。

6.20.1  更换场景

CPU主板故障。

6.20.2  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     更换部件前,请检查插槽或连接器,确保针脚没有损坏(比如针脚弯曲、连接器上有异物)。

·     更换部件前,请检查是否已拆除机箱两侧的运输螺钉,确保拆除后,才能拉出计算模块。

6.20.3  更换步骤

1. 拆卸主板

(1)     将服务器下电。具体步骤请参见4.2  下电

(2)     拆卸服务器。具体步骤请参见3.6  拆卸服务器

(3)     拆卸所有电源模块。按下电源模块弹片的同时,握持电源模块后部的拉手将电源模块从槽位中拔出。

(4)     (可选)如果安装了OCP网卡,请拆卸OCP网卡。拧开OCP网卡的松不脱螺钉,然后将OCP网卡从槽位中拔出。

(5)     拆卸机箱盖。具体步骤请参见6.2.1  1. 拆卸机箱盖

(6)     (可选)如果已安装标准存储控制卡,请拆卸标准存储控制卡,并断开标准存储控制卡上的所有线缆。

(7)     完全拉出计算模块。

a.     半拉出计算模块。按下计算模块的解锁按钮,扳手会自动弹出。向上掰起扳手,然后将计算模块向服务器后方拉出,直至锁定。

b.     断开计算模块的坦克链与机箱之间的连接。拧开坦克链机箱端的松不脱螺钉,然后将坦克链固定扣向机箱前方滑动,使坦克链从机箱壁上解锁。

c.     断开坦克链线缆。断开坦克链中连接到CPU主板的所有线缆。

d.     完全拉出计算模块。将计算模块两壁的固定弹片向中心拉出,同时继续将计算模块向后拉出,直至达到计算模块可以拉出的最大行程。

(8)     (可选)拆卸超级电容。

(9)     拆卸导风罩。向上提起导风罩,使其脱离机箱。

(10)     拆卸所有内存。

(11)     拆卸所有CPU。

(12)     安装CPU底座上的盖片。向下放置盖片,然后按压盖片两个对角,使其固定在CPU底座上。

(13)     拆卸所有电源转接板。

(14)     拆卸系统电池。

(15)     拆卸Mezz存储控制卡。

(16)     拆卸所有SATA M.2 SSD卡。

(17)     拆卸所有风扇模块。

(18)     拆卸风扇笼。

a.     解锁风扇笼。向上翻起螺钉的弹片,握持弹片沿逆时针方向将固定螺钉旋转180°,以解锁固定螺钉。通过该方法,依次解锁风扇笼的三个固定螺钉。

b.     向上抬起风扇笼,使其脱离机箱。

(19)     断开主板上连接的所有线缆。

(20)     拆卸机箱两侧挡线板。

a.     将开箱检测模块线缆从挡线板中移出。

b.     同时掰开挡线板的两个固定扣,并向上提起挡线板。

(21)     (可选)若前部硬盘背板上的线缆会阻碍主板拆卸,请将阻碍操作的线缆从硬盘背板上断开,并移出机箱。

(22)     拆卸主板。

a.     拧开主板上的松不脱螺钉。

b.     (可选)移除或整理阻碍主板拆卸的线缆。

c.     (可选)整理坦克链,避免坦克链阻碍主板拆卸。

d.     拆卸主板。由于主板上的部分接口(如USB接口、网口)嵌入在机箱中,需要将主板向机箱前方拉出一段距离,再向上抬起主板。

(23)     拆卸所有通流铜柱。翻转主板,移除主板底部的通流铜柱固定螺钉,以拆卸通流铜柱。

2. 安装主板

(1)     将拆卸的所有通流铜柱安装到新主板。将通流铜柱一端紧贴主板上的方孔,在主板反面用螺钉固定通流铜柱。

(2)     安装主板。

a.     将主板缓缓向下放置到机箱中,并向机箱后方推入,使主板上的接口(如USB接口、网口)嵌入到位。

b.     拧紧主板上的松不脱螺钉。

c.     将移除的线缆连接到原位置。

d.     整理坦克链,使坦克链向机箱前方伸直,以免推回计算模块时造成阻碍。

(3)     安装机箱两侧挡线板。将挡线板的两个固定扣,对准机箱壁的两个固定位点。使挡线板紧贴机箱壁向下滑动,直至挡线板固定在机箱壁上。

(4)     连接主板上的所有线缆。

(29)     安装风扇笼。

a.     将风扇笼向下放入槽位。

b.     固定风扇笼。握持弹片,向下按压的同时沿顺时针方向将螺钉旋转180°,以拧紧固定螺钉。通过该方法,依次拧紧风扇笼的三个固定螺钉。

c.     翻下所有固定螺钉的弹片。

(30)     安装所有风扇模块。握持风扇提手,将风扇向下放入槽位。

(31)     安装SATA M.2 SSD卡。

(32)     安装Mezz存储控制卡。

(33)     安装系统电池。

(34)     安装所有电源转接板。

(35)     拆卸CPU底座上盖片。握持盖片,然后向上拿起盖片。

(36)     安装CPU和散热器。

(37)     安装所有内存。

(38)     安装导风罩。将导风罩的边沿紧贴固定支架,垂直向下放入槽位,直至导风罩两端固定。

(39)     (可选)安装超级电容。

(40)     推回计算模块。

d.     缓缓用力推回计算模块到半程位置。

e.     连接坦克链线缆。将断开的坦克链线缆重新连接至主板。

f.     连接坦克链。将坦克链的固定扣连接到机箱侧壁的固定位点,并向机箱后方滑动,使其固定,然后拧紧坦克链的松不脱螺钉。

g.     完全推回计算模块,并闭合扳手,以锁定计算模块。

(41)     (可选)安装标准存储控制卡。重新连接线缆到标准存储控制卡,并将标准存储控制卡安装到计算模块。

(42)     安装机箱盖。具体步骤请参见6.2.1  2. 安装机箱盖

(43)     (可选)安装已拆卸的OCP网卡,将OCP网卡推入槽位,并拧紧网卡上的松不脱螺钉。

(44)     安装已拆卸的电源模块,先摆正电源模块,此时电源模块上的风扇位于电源模块左侧。将电源模块推入槽位,直到听见咔哒一声。

(45)     安装服务器。具体步骤请参见3.4  安装服务器

(46)     将服务器上电。具体步骤请参见4.1  上电

6.21  更换GPU节点板

GPU节点板位于GPU计算模块内部,节点板上包含多个PCIe插槽,用于支持GPU卡、存储控制卡、和网卡等部件。本节介绍更换GPU节点板的详细步骤。

6.21.1  更换场景

GPU节点板故障。

6.21.2  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     更换部件前,请检查插槽或连接器,确保针脚没有损坏(比如针脚弯曲、连接器上有异物)。

6.21.3  更换4GPU、8GPU和16GPU节点板

1. 拆卸4GPU、8GPU和16GPU节点板

(1)     将服务器下电。具体步骤请参见4.2  下电

(2)     拆卸服务器。具体步骤请参见3.6  拆卸服务器

(3)     拆卸机箱盖。具体步骤请参见6.2.1  1. 拆卸机箱盖

(4)     拆卸GPU计算模块上的所有PCIe卡。

(5)     拆卸中间支架。

a.     (可选)若有线缆穿过中间支架的走线孔,阻碍了中间支架的拆卸,请先将线缆移除。

b.     拧开中间支架的所有松不脱螺钉,然后向上抬起支架。

(6)     断开GPU节点板上连接的所有线缆。

(7)     断开坦克链与计算模块的连接。拧开坦克链的松不脱螺钉,然后将坦克链固定扣向机箱前方滑动,使坦克链从计算模块上解锁。

(8)     拆卸GPU节点板。

a.     (可选)拆卸节点板上的小挡风板。移除小挡风板的固定螺钉,然后向上抬起小挡风板。请妥善保管已拆卸的小挡风板,以备后续使用。

b.     移除节点板的所有固定螺钉,然后向上抬起节点板,使其脱离计算模块。

2. 安装4GPU、8GPU和16GPU节点板

(1)     安装节点板。

a.     使节点板上的导向孔对准计算模块内的导向销,将节点板放入槽位,并用螺钉固定。

b.     (可选)安装小挡风板。使用螺钉将已拆卸的小挡风板重新固定到新的节点板上。

(2)     连接坦克链。将坦克链的固定扣连接到计算模块的固定位点,并向机箱后方滑动,使其固定,然后拧紧坦克链的松不脱螺钉。

(3)     连接GPU节点板上的所有线缆。

(4)     安装中间支架。

a.     使支架两侧的导向孔对准计算模块上的导向销,将支架放入槽位,并拧紧支架的松不脱螺钉。

b.     (可选)将之前移除线缆,重新穿过中心支架的走线孔。

(5)     安装计算模块上已拆卸的所有PCIe卡。若服务器配置了标准存储控制卡,则对应的线缆需要穿过中间支架的走线孔,再连接至标准存储控制卡。

(6)     安装机箱盖。具体步骤请参见6.2.1  2. 安装机箱盖

(7)     安装服务器。具体步骤请参见3.4  安装服务器

(8)     将服务器上电。具体步骤请参见4.1  上电

6.21.4  更换HGX 4-GPU模块节点板

1. 拆卸HGX 4-GPU模块节点板

(1)     将服务器下电。具体步骤请参见4.2  下电

(2)     拆卸服务器。具体步骤请参见3.6  拆卸服务器

(3)     拆卸机箱盖。具体步骤请参见6.2.1  1. 拆卸机箱盖

(4)     拆卸HGX 4-GPU模块导风罩。向上提起HGX 4-GPU模块导风罩,使其脱离计算模块。

(5)     拆卸中间支架。

a.     (可选)若有线缆穿过中间支架的走线孔,阻碍了中间支架的拆卸,请先将线缆移除。

b.     拧开中间支架的所有松不脱螺钉,然后向上抬起支架。

(6)     拆卸GPU计算模块上的所有PCIe卡。

(7)     断开HGX 4-GPU模块和GPU节点板上连接的所有线缆。

(8)     拆卸HGX 4-GPU模块。具体步骤请参见6.8.3  1. 拆卸HGX 4-GPU

(9)     拆卸HGX 4-GPU模块节点板。移除节点板的所有固定螺钉,然后向上抬起节点板,使其脱离计算模块。

2. 安装HGX 4-GPU模块节点板

(1)     安装HGX 4-GPU模块节点板。使节点板上的导向孔对准计算模块内的导向销,将节点板放入槽位,并用螺钉固定。

(2)     安装HGX 4-GPU模块。具体步骤请参见6.8.3  2. 安装HGX 4-GPU模块

(3)     连接HGX 4-GPU模块和GPU节点板上的所有线缆。

(4)     安装中间支架。

a.     使支架两侧的导向孔对准计算模块上的导向销,将支架放入槽位,并拧紧支架的松不脱螺钉。

b.     (可选)将之前移除线缆,重新穿过中心支架的走线孔。

(5)     安装计算模块上已拆卸的所有PCIe卡。

(6)     安装HGX 4-GPU模块导风罩。将导风罩的边沿紧贴HGX 4-GPU模块,垂直向下放入槽位至固定。

(7)     安装机箱盖。具体步骤请参见6.2.1  2. 安装机箱盖

(8)     安装服务器。具体步骤请参见3.4  安装服务器

(9)     将服务器上电。具体步骤请参见4.1  上电

6.22  更换系统电池

介绍如何更换系统电池。

6.22.1  更换场景

缺省情况下,服务器主板上已配置系统电池(型号为Panasonic BR2032)。一般情况下,系统电池寿命为3至5年。

出现以下情况时,请更换系统电池。建议用户选择的电池型号为Panasonic BR2032。

·     电池故障。

·     电池电力消耗完毕,服务器不再自动显示正确的日期和时间。

说明

电池故障或电力消耗完毕,会导致BIOS恢复为缺省设置。更换电池后,如有需要,请重新设置BIOS,具体方法请参见产品的BIOS用户指南。

 

6.22.2  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     更换部件前,请检查插槽或连接器,确保针脚没有损坏(比如针脚弯曲、连接器上有异物)。

·     更换部件前,请检查是否已拆除机箱两侧的运输螺钉,确保拆除后,才能拉出计算模块。

6.22.3  更换步骤

1. 拆卸系统电池

(1)     将服务器下电。具体步骤请参见4.2  下电

(2)     拆卸服务器。具体步骤请参见3.6  拆卸服务器

(3)     拆卸机箱盖。具体步骤请参见6.2.1  1. 拆卸机箱盖

(4)     (可选)如果已安装标准存储控制卡,请拆卸标准存储控制卡,并断开标准存储控制卡上的所有线缆。

(5)     拉出计算模块。

a.     解锁计算模块。按下计算模块的解锁按钮,扳手会自动弹出。

b.     拉出计算模块。向上掰起扳手,然后将计算模块向服务器后方拉出,直至锁定。

(6)     拆卸系统电池。向上轻掰电池的同时,将电池从槽位中取出。

说明

拆卸下来的系统电池,请弃于专门的电池处理点,勿随垃圾一起丢弃。

 

2. 安装系统电池

(1)     安装系统电池。保持电池“+”极面向上,“﹣”极面向下,然后将电池按入槽位中。

(2)     推回计算模块。缓缓用力推回计算模块,并闭合扳手,以锁定计算模块。

(3)     (可选)安装标准存储控制卡。重新连接线缆到标准存储控制卡,并将标准存储控制卡安装到计算模块。

(4)     安装机箱盖。具体步骤请参见6.2.1  2. 安装机箱盖

(5)     安装服务器。具体步骤请参见3.4  安装服务器

(6)     将服务器上电。具体步骤请参见4.1  上电

6.23  更换电源模块

介绍如何更换电源模块。

6.23.1  更换场景

·     电源模块故障。

·     更换其他型号的电源模块。

6.23.2  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     更换部件前,请检查插槽或连接器,确保针脚没有损坏(比如针脚弯曲、连接器上有异物)。

·     了解电源模块安装准则,具体请参见2.13.11  电源模块

说明

电源模块的规格信息,请参见各电源模块的电源手册。

 

6.23.3  更换步骤

1. 拆卸电源模块

电源模块支持热插拔,当服务器配置的电源模块满足供电冗余,且服务器后部有足够空间可供更换电源模块时,请从步骤(3)开始执行,否则请从步骤(1)开始执行。

(1)     将服务器下电。具体步骤请参见4.2  下电

(2)     拆卸服务器。具体步骤请参见3.6  拆卸服务器

(3)     断开需更换电源的电源线缆。

·     对于固定方式为线扣的电源模块:

a.     将线扣上的锁扣掰开,同时向外滑动线扣。

b.     将线扣一端掰开,打开线扣,然后将电源线缆从线扣中取出。

c.     从电源线缆插口中拔出电源线缆。

·     对于固定方式为魔术贴的电源模块:

a.     松开线缆上缠绕的魔术贴。

b.     从电源线缆插口中拔出电源线缆。

(4)     (可选)如果已配置CMA,请拆卸电源模块侧的CMA(理线架在不同安装方向下的安装和拆卸方法相同),以确保电源模块维护空间充足。

a.     拆卸理线架前,请先断开待更换电源模块线缆,并在保持服务器工作所需线缆正常连接的情况下将可能影响电源模块拆装的线缆从理线架的线篮中取出。

b.     在电源模块侧,按住CMA连接件的按钮同时向外拔出连接件以腾出拆装空间。

(5)     拆卸电源模块。按下电源模块解锁弹片的同时,握持电源模块后部的拉手将电源模块从槽位中拉出。

2. 安装电源模块

说明

当服务器电源模块非满配时,请将电源模块安装到之前拆卸的电源模块槽位上。

 

(1)     安装电源模块。

a.     (可选)拆卸电源模块假面板。

b.     先摆正电源模块,此时电源模块上的风扇位于电源模块左侧。

c.     将电源模块推入槽位,直到听见咔哒一声。

(2)     (可选)如果已拆卸CMA,请安装。

(3)     (可选)如果已拆卸服务器,请安装。具体步骤请参见3.4  安装服务器

(4)     (可选)如果已断开电源线缆,请连接。

(5)     (可选)如果服务器已下电,请将其上电。具体步骤请参见4.1  上电

6.24  更换风扇模块

介绍如何更换风扇模块。

6.24.1  更换场景

风扇模块故障。

6.24.2  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     更换部件前,请检查插槽或连接器,确保针脚没有损坏(比如针脚弯曲、连接器上有异物)。

6.24.3  更换步骤

1. 拆卸风扇模块

(1)     风扇模块支持热插拔,当服务器上方有足够空间可供更换风扇时,请从步骤(4)开始执行,否则请从步骤(2)开始执行。

(2)     将服务器下电。具体步骤请参见4.2  下电

(3)     拆卸服务器。具体步骤请参见3.6  拆卸服务器

(4)     拆卸机箱盖。具体步骤请参见6.2.1  1. 拆卸机箱盖

(5)     拆卸风扇模块。向上翻起风扇模块的提手,握住提手将风扇模块拔出。

2. 安装风扇模块

注意

风扇模块热拔出后,请在30s内将待安装的风扇模块热插入到槽位,否则可能会造成器件过温损坏或者引起服务器过温下电。

 

(1)     安装风扇模块。将风扇模块垂直向下放入槽位,并闭合提手。

(2)     安装机箱盖。具体步骤请参见6.2.1  2. 安装机箱盖

(3)     (可选)如果已拆卸服务器,请安装。具体步骤请参见3.4  安装服务器

(4)     (可选)如果已断开电源线缆,请连接。具体步骤请参见3.5.4  连接电源线缆

(5)     (可选)如果服务器已下电,请将其上电。具体步骤请参见4.1  上电

6.25  更换智能挂耳

介绍如何更换智能挂耳。

6.25.1  更换场景

·     智能挂耳故障。

·     集成在智能挂耳中的组件故障。

6.25.2  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     更换部件前,请检查插槽或连接器,确保针脚没有损坏(比如针脚弯曲、连接器上有异物)。

6.25.3  更换步骤

说明

服务器两侧智能挂耳的更换方法相同,本文以一侧为例,介绍智能挂耳的更换步骤。

 

1. 拆卸智能挂耳

(1)     将服务器下电。具体步骤请参见4.2  下电

(2)     拆卸服务器。具体步骤请参见3.6  拆卸服务器

(3)     拆卸机箱盖。具体步骤请参见6.2.1  1. 拆卸机箱盖

(4)     拆卸所有风扇模块。向上翻起风扇模块的提手,握住提手将风扇模块向上提出,使其脱离服务器。

(5)     拆卸风扇笼。

a.     解锁风扇笼。向上翻起螺钉的弹片,握持弹片沿逆时针方向将固定螺钉旋转180°,以解锁固定螺钉。通过该方法,依次解锁风扇笼的三个固定螺钉。

b.     向上抬起风扇笼,使其脱离机箱。

(6)     (可选)拆卸开箱检测模块。若拆卸的是左侧智能挂耳(面向服务器前部),请先拆卸开箱检测模块。

a.     移除开箱检测模块固定支架的固定螺钉,然后从机箱壁上取下固定支架。

b.     从固定支架上取出开箱检测模块。

c.     将开箱检测模块的线缆从挡线板中移出。

(7)     从主板上断开智能挂耳线缆。

(8)     拆卸机箱外壁的线缆保护盖。

a.     移除保护盖的所有固定螺钉。

b.     将线缆保护盖向下滑动,然后取下。

(9)     拆卸智能挂耳。

a.     移除智能挂耳的所有固定螺钉。

b.     将智能挂耳上的所有线缆从线缆固定夹中取出。

c.     取下智能挂耳,并将挂耳上连接的线缆一同移出机箱。

2. 安装智能挂耳

(1)     安装智能挂耳。

a.     将智能挂耳的线缆从机箱壁上的走线孔送入机箱,并将处于机箱外侧的线缆固定到线缆固定夹中。

b.     将智能挂耳紧贴机箱安装到挂耳槽位中,并用螺钉固定。

(2)     安装线缆保护盖。

a.     将线缆保护盖一端卡入槽位,然后紧贴机箱壁向上滑动,使其固定在机箱上。

b.     拧紧线缆保护盖的所有固定螺钉。

(3)     连接挂耳线缆到主板。

(4)     (可选)安装已拆卸的开箱检测模块。

a.     将开箱检测模块的线缆移入挡线板。

b.     将开箱检测模块嵌入开箱检测模块固定支架。

c.     对准固定支架上的导向孔与机箱上导向销,将固定支架装到机箱上,然后用螺钉固定。

(5)     安装风扇笼。

a.     将风扇笼向下放入槽位。

b.     固定风扇笼。握持弹片,向下按压的同时沿顺时针方向将螺钉旋转180°,以拧紧固定螺钉。通过该方法,依次拧紧风扇笼的三个固定螺钉。

c.     翻下所有固定螺钉的弹片。

(6)     安装已拆卸的所有风扇模块。握持风扇提手,将风扇向下放入槽位。

(7)     安装机箱盖。具体步骤请参见6.2.1  2. 安装机箱盖

(8)     安装服务器。具体步骤请参见3.4  安装服务器

(9)     将服务器上电。具体步骤请参见4.1  上电

6.26  更换坦克链

介绍如何更换坦克链。

6.26.1  更换场景

坦克链故障。

6.26.2  更换步骤

1. 拆卸坦克链

(1)     将服务器下电。具体步骤请参见4.2  下电

(2)     拆卸服务器。具体步骤请参见3.6  拆卸服务器

(3)     拆卸机箱盖。具体步骤请参见6.2.1  1. 拆卸机箱盖

(4)     拆卸中间支架。

a.     (可选)若有线缆穿过中间支架的走线孔,阻碍了中间支架的拆卸,请先将线缆移除。

b.     拧开中间支架的所有松不脱螺钉,然后向上抬起支架。

(5)     断开坦克链与计算模块的连接。拧开坦克链的松不脱螺钉,然后将坦克链固定扣向机箱前方滑动,使坦克链从计算模块上解锁。

(6)     拆卸坦克链。

a.     拧开坦克链与机箱连接的松不脱螺钉,然后将坦克链固定扣向机箱后方滑动,使坦克链从计算模块上解锁。

b.     打开坦克链的所有锁扣,将固定的线缆从坦克链中取出。

2. 安装坦克链

(1)     连接坦克链。

a.     将需要固定的线缆理入坦克链中,扣上所有锁扣。

b.     将坦克链的固定扣连接到机箱的固定位点,并向机箱前方滑动,使其固定,然后拧紧坦克链的松不脱螺钉。

(2)     连接坦克链与计算模块。将坦克链的固定扣连接到计算模块的固定位点,并向机箱后方滑动,使其固定,然后拧紧坦克链的松不脱螺钉。

(3)     安装中间支架。

a.     使支架两侧的导向孔对准计算模块上的导向销,将支架放入槽位,并拧紧支架的松不脱螺钉。

b.     (可选)将之前移除线缆,重新穿过中心支架的走线孔。

(4)     安装机箱盖。具体步骤请参见6.2.1  2. 安装机箱盖

(5)     安装服务器。具体步骤请参见3.4  安装服务器

(6)     将服务器上电。具体步骤请参见4.1  上电

6.27  安装加密模块

加密模块包含TPM和TCM。本节介绍TPM/TCM的详细安装步骤,以及如何开启TPM/TCM功能。

6.27.1  TPM/TCM简介

·     TPM/TCM是内置在主板上的微芯片,拥有独立的处理器和存储单元,用于存储加密信息(如密钥),为服务器提供加密和安装认证服务。TPM需要与驱动器加密技术配合使用,如Microsoft Windows BitLocker驱动器加密技术,BitLocker使用TPM帮助保护Windows操作系统和用户数据,并确保服务器中的数据即使在无人参与、丢失或被盗的情况下也不会被篡改,关于BitLocker的更多信息,请访问Microsoft网站(http://www.microsoft.com)。

·     TPM/TCM模块是可信计算平台的硬件模块,为可信计算平台提供密码运算功能,具有受保护的存储空间。

6.27.2  开启TPM/TCM功能流程

开启TPM/TCM功能的流程如图6-1所示。

图6-1 开启TPM/TCM功能流程

 

6.27.3  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     更换部件前,请检查插槽或连接器,确保针脚没有损坏(比如针脚弯曲、连接器上有异物)。

·     更换部件前,请检查是否已拆除机箱两侧的运输螺钉,确保拆除后,才能拉出计算模块。

6.27.4  安装TPM/TCM模块

1. 安装步骤

(1)     将服务器下电。具体步骤请参见4.2  下电

(2)     拆卸服务器。具体步骤请参见3.6  拆卸服务器

(3)     拆卸机箱盖。具体步骤请参见6.2.1  1. 拆卸机箱盖

(4)     (可选)如果已安装标准存储控制卡,请拆卸标准存储控制卡,并断开标准存储控制卡上的所有线缆。

(5)     拉出计算模块。

a.     解锁计算模块。按下计算模块的解锁按钮,扳手会自动弹出。

b.     拉出计算模块。向上掰起扳手,然后将计算模块向服务器后方拉出,直至锁定。

(6)     安装TPM/TCM模块。

a.     将TPM/TCM模块安装到TPM/TCM模块插槽。

b.     按住模块连接器上方,对准模块上的销钉孔,向下插入销钉。

c.     对准销钉上的铆钉孔,向下缓缓用力插入铆钉。

(7)     推回计算模块。缓缓用力推回计算模块,并闭合扳手,以锁定计算模块。

(8)     (可选)安装标准存储控制卡。重新连接线缆到标准存储控制卡,并将标准存储控制卡安装到计算模块。

(9)     安装机箱盖。具体步骤请参见6.2.1  2. 安装机箱盖

(10)     安装服务器。具体步骤请参见3.4.2  安装服务器

(11)     将服务器上电。具体步骤请参见4.1  上电

2. 在BIOS中开启TPM/TCM功能

(1)     进入BIOS,具体步骤请参见产品的BIOS用户指南。

(2)     服务器缺省开启支持TPM/TCM功能,在BIOS中开启或禁用TPM/TCM功能的具体方法请参见产品的BIOS用户指南。

(3)     登录HDM Web界面,查看TPM/TCM模块工作状态是否正常。详细信息请参见HDM联机帮助。

3. 在操作系统中设置加密技术

在操作系统中设置加密技术的详细信息请参见操作系统提供的加密技术文档。

有关Microsoft Windows BitLocker驱动器加密技术的详细信息,请访问Microsoft网站(http://technet.microsoft.com/en-us/library/cc732774.aspx)获取。开启BitLocker驱动器加密技术时,系统会自动生成恢复密钥,您可将该密钥打印或保存到外部存储设备中。系统启动过程中,当BitLocker检测到系统完整性受损或软硬件变更时,数据访问将处于锁定状态,需要用户手动输入该恢复密钥。为确保安全性,保管恢复密钥过程中请注意:

·     为避免恢复密钥丢失,请将密钥保存到多个外部存储设备(例如U盘)中,形成备份。

·     请勿将恢复密钥保存到加密硬盘中。

4. 安装后注意事项

·     禁止拆卸已安装的TPM/TCM模块。一旦安装后,TPM/TCM模块就会成为主板的永久组成部分。

·     为确保信息安全,安装或更换其他部件时,仅用户可以开启TPM/TCM功能或输入恢复密钥,H3C技术人员不能执行上述操作。

·     更换主板时,请勿从主板上拆卸TPM/TCM模块。当用户需要更换主板或更换TPM/TCM模块时,H3C技术人员将提供新的TPM/TCM模块和备用主板。

·     试图从主板上拆卸已安装的TPM/TCM模块,可能会毁坏或损伤TPM/TCM固定铆钉。一旦发现铆钉毁坏或损伤,管理员应认为系统已受损,请采取适当的措施确保系统数据的完整性。

·     H3C对于因TPM/TCM模块使用不当而导致无法访问数据的问题不承担任何责任。更多操作说明请参见操作系统提供的加密技术文档。

·     禁止用户自行拆卸TPM/TCM模块,否则可能会毁坏或损伤TPM/TCM模块的固定铆钉,从而导致系统受损。

·     当您怀疑TPM/TCM模块故障时,请拆卸带有故障TPM/TCM模块的主板,并联系H3C技术人员更换主板和TPM/TCM模块。


7 内部布线

介绍服务器中各部件的线缆连接方法。

7.1  内部布线要求

7.1.1  使用场景

服务器内部布线图,可应用于如下场景:

·     扩容或更换部件后,指导线缆连接。

·     线缆松动或脱落,指导线缆复位。

·     线缆保护套破损或线缆故障,指导线缆更换。

7.1.2  注意事项

服务器内部布线时,请关注如下事项:

·     连接服务器各部件的线缆时,请妥善走线,确保线缆不会被挤压。

·     线缆不能走线到可插拔部件的上方,比如内存上方。

·     线缆走线不能阻碍其他部件的插拔,和机箱内任何组件没有干涉。

·     确保线缆走线清晰,并且有自己的固定空间,不会被机箱内结构件挤压或刮擦。

·     线缆走线时,尽量不要拉扯连接器。

·     当过多线缆同时使用线扣固定时,请适当调整线缆数量,避免过多线缆拉扯线扣,造成线扣脱落。

·     线缆过长时建议适当绑扎。当前不用的线缆,建议将其盘绕整理,用线扣固定。

·     硬盘数据线缆连接时,听到咔嗒声,说明连接到位。

·     如果线缆连接器上有保护套,线缆连接前,请先移除保护套。

·     如果线缆自带标签不能充分区分各根线缆时,可通过增加工艺标签来标识线缆。

7.2  连接硬盘线缆

7.2.1  12LFF硬盘配置

1. 连接8LFF SAS/SATA硬盘数据线缆

·     配置一:8LFF SAS/SATA硬盘连接到Mezz存储控制卡,数据线缆连接方法如图7-1所示。

图7-1 12LFF硬盘背板连接到Mezz存储控制卡

 

 

表7-1 12LFF硬盘背板连接到Mezz存储控制卡连线说明

线缆编号

线缆编码

硬盘背板丝印

主板丝印

-

0404A1JS

SAS PORT1

SAS PORT

 

·     配置二:8LFF SATA硬盘连接到主板上的SlimSAS接口,线缆连接方法如图7-2所示。

图7-2 12LFF硬盘背板连接到板载VROC阵列控制器

 

 

表7-2 12LFF硬盘背板连接到板载VROC阵列控制卡连线说明

线缆编号

线缆编码

硬盘背板丝印

主板丝印

-

0404A1JW

SAS PORT1

SATA PORT1

 

·     配置三:8LFF SAS/SATA硬盘连接到标准存储控制卡,数据线缆连接方法如图7-3所示。

图7-3 12LFF硬盘背板连接到标准存储控制卡

 

 

表7-3 12LFF硬盘背板连接到标准存储控制卡连线说明

线缆编号

线缆编码

硬盘背板丝印

标准存储控制卡

-

0404A183

SAS PORT1

HBA/RAID SAS PORT

 

2. 连接4LFF NVMe硬盘数据线缆

4LFF NVMe硬盘数据线缆连接方法如图7-4所示。

图7-4 连接4LFF NVMe硬盘数据线缆

 

表7-4 4LFF NVMe硬盘数据线缆连线说明

线缆编号

线缆编码

硬盘背板丝印

主板上丝印

1

3

0404A1JU

NVMe1

NVME-A1/A2

4

NVMe2

2

5

NVMe3

NVME-A3/A4

6

NVMe4

 

3. 连接电源线缆

电源线的连接方法如图7-5所示。

图7-5 连接12LFF硬盘电源线缆

 

表7-5 电源线缆连线说明

线缆编号

线缆编码

硬盘背板丝印

主板丝印

1

0404A167

PWR1

BP PWR2

2

PWR2

BP PWR3

3

PWR3

BP PWR1

 

4. 连接AUX信号线缆

AUX信号线的连接方法如图7-6所示。

图7-6 连接12LFF硬盘AUX信号线缆

 

表7-6 12LFF硬盘AUX信号线缆连线说明

线缆编号

线缆编码

硬盘背板丝印

主板丝印

-

0404A16N

AUX

BP AUX

 

7.2.2  24LFF硬盘配置

1. 连接24LFF SAS/SATA硬盘数据线缆

·     配置一:24LFF SAS/SATA硬盘数据线缆连接到Mezz存储控制卡上,线缆连接方法如图7-7所示。

图7-7 连接24LFF SAS/SATA硬盘数据线缆到Mezz存储控制卡

 

表7-7 24LFF SAS/SATA硬盘数据线缆到Mezz存储控制卡连线说明

线缆编号

线缆编码

硬盘背板丝印

主板丝印

-

0404A1JS

SAS PORT

SAS PORT

 

·     配置二:24LFF SAS/SATA硬盘数据线缆连接到标准存储控制卡上,线缆连接方法如图7-8所示。

图7-8 连接24LFF SAS/SATA硬盘数据线缆到标准存储控制卡

 

表7-8 24LFF SAS/SATA硬盘数据线缆到标准存储控制卡连线说明

线缆编号

线缆编码

硬盘背板丝印

标准存储卡

-

0404A183

SAS PORT

HBA/RAID SAS PORT

 

2. 连接8LFF NVMe硬盘数据线缆

8LFF NVMe硬盘数据线缆连接方法如图7-9所示。

图7-9 连接8LFF NVMe硬盘数据线缆

 

表7-9 8LFF NVMe数据线缆连线说明

线缆编号

线缆编码

硬盘背板丝印

主板丝印

1

0404A1JV

NVMe-A3/A4

NVMe-A3/A4

2

NVMe-A1/A2

NVMe-A1/A2

3

0404A166

NVMe-B1/B2

NVMe-B1/B2

4

NVMe-B3/B4

NVMe-B3/B4

 

3. 连接4LFF NVMe硬盘数据线缆

4LFF NVMe硬盘数据线缆连接方法如图7-10所示。

图7-10 连接4LFF NVMe硬盘数据线缆

表7-10 4LFF NVMe数据线缆连线说明

线缆编号

线缆编码

硬盘背板丝印

主板丝印

1

0404A166

NVMe-B1/B2

NVMe-B1/B2

2

NVMe-B3/B4

NVMe-B3/B4

 

4GPU机型与其他机型不同,其4LFF NVMe硬盘数据线缆连接方法如图7-11所示。

图7-11 连接4LFF NVMe硬盘数据线缆

 

表7-11 4LFF NVMe数据线缆连接说明

线缆编号

线缆编码

硬盘背板丝印

主板丝印

1

0404A1JV

NVMe-A3/A4

NVMe-A3/A4

2

NVMe-A1/A2

NVMe-A1/A2

 

4. 连接电源线缆

电源线的连接方法如图7-12所示。

图7-12 连接硬盘电源线缆

 

表7-12 电源线缆连线说明

线缆编号

线缆编码

硬盘背板丝印

主板丝印

1

0404A167

PWR1

BP PWR1

2

PWR2

BP PWR2

3

PWR3

BP PWR3

 

5. 连接AUX信号线缆

AUX信号线的连接方法如图7-13所示。

图7-13 连接AUX信号线缆

 

表7-13 AUX信号线缆连线说明

线缆编号

线缆编码

硬盘背板丝印

主板丝印

-

0404A16N

AUX1

BP AUX

 

7.3  连接GPU计算模块线缆

7.3.1  连接4GPU-HPC线缆

HPC场景下4GPU计算模块的数据和AUX信号线缆的连接对应关系如表7-14所示。

图7-14 连接4GPU-HPC数据和AUX信号线缆


表7-14 4GPU计算模块线缆连线说明

线缆编号

线缆编码

主板丝印

4GPU节点板丝印

线缆连接作用

1

0404A16Q

MB AUX

GPU AUX

传输GPU AUX信号

2

0404A16C

PCIE M6

PCIe N6

PCIe高速信号连接

3

0404A16C

PCIE M7

PCIe N7

PCIe高速信号连接

4

0404A1W5

PCIE M5

PCIe N5

PCIe高速信号连接

5

0404A16L

PCIE M3

PCIe N3

PCIe高速信号连接

6

0404A1W4

PCIE M1

PCIe N1

PCIe高速信号连接

7

0404A1X5

NVMe-B3/B4

PCIe N2 1

PCIe高速信号连接

8

0404A1X4

NVMe-B1/B2

PCIe N2 0

PCIe高速信号连接

 

7.3.2  连接8GPU-AI串联线缆

AI串联场景下8GPU计算模块的数据和AUX信号线缆的连接方法如图7-15所示。

图7-15 连接8GPU-AI串联数据和AUX信号线缆

 

表7-15 8GPU计算模块线缆连线说明

线缆编号

线缆编码

主板丝印

8GPU节点板丝印

线缆连接作用

1

0404A16Q

MB AUX

GPU AUX

传输GPU AUX信号

2

0404A16L

PCIE M6

PCIe N6

使PCIe slot3可用

3

0404A16E

PCIE M5

PCIe N2

使PCIe slot2可用

4

0404A16L

PCIE M1

PCIe N1

使PCIe slot1可用

5

0404A16C

PCIE M3

PCIe N3

使GPU卡可用

6

0404A16J

-

PCIe N4

连接到

PCIe N5

使GPU卡可用

 

7.3.3  连接8GPU-AI并联线缆

AI并联场景下8GPU计算模块的数据和AUX信号线缆的连接方法如图7-16所示。

图7-16 连接8GPU-AI并联数据和AUX信号线缆

 

表7-16 8GPU计算模块线缆连线说明

线缆编号

线缆编码

主板丝印

8GPU节点板丝印

线缆连接作用

1

0404A16Q

MB AUX

GPU AUX

传输GPU AUX信号

2

0404A16L

PCIE M6

PCIe N6

使PCIe slot3可用

3

0404A16C

PCIE M3

PCIe N3

使GPU卡可用

4

0404A16E

PCIE M1

PCIe N5

使GPU卡可用

5

0404A1JT

PCIE M5

PCIe N1

使GPU卡可用

6

0404A16K

-

PCIe N2

连接到

PCIe N4

使GPU卡可用

 

7.3.4  连接8GPU-HPC线缆

HPC场景下,8GPU计算模块的数据线缆和AUX信号线缆的连接方法如图7-17所示。

图7-17 连接8GPU-HPC数据和AUX信号线缆

表7-17 8GPU计算模块线缆连线说明

线缆编号

线缆编码

主板丝印

8GPU节点板丝印

线缆连接作用

1

0404A16Q

MB AUX

GPU AUX

传输GPU AUX信号

2

0404A16L

PCIE M6

PCIe N6

使PCIe slot3可用

3

0404A16C

PCIE M5

PCIe N5

使GPU卡可用

4

0404A16L

PCIE M1

PCIe N1

使PCIe slot1可用

5

0404A16C

PCIE M3

PCIe N3

使GPU卡可用

6

0404A16K

-

PCIe N2

连接到

PCIe N4

使PCIe slot 2可用

 

7.3.5  连接16GPU线缆

16GPU计算模块的数据线缆的连接方法如所示。

图7-18 连接16GPU数据和AUX信号线缆

 

表7-18 16GPU计算模块线缆连线说明

线缆编号

线缆编码

主板丝印

16GPU节点板丝印

线缆连接作用

1

0404A16Q

MB AUX

GPU AUX

传输GPU信号

2

0404A16C

PCIE M5

PCIe N5

使slot15-18和slot4可用

3

0404A16L

PCIE M1

PCIe N1

使slot7-10和slot2可用

4

0404A1NP

PCIE M3

PCIe N3

使slot11-14和slot1可用

5

0404A16L

PCIE M6

PCIe N6

使slot19-22和slot3可用

 

7.3.6  连接HGX 4-GPU模块线缆

HGX 4-GPU模块计算模块的数据线缆的连接方法如图7-19所示。

图7-19 连接HGX 4-GPU模块数据线缆

 

表7-19 HGX 4-GPU模块计算模块线缆的连接位置对应关系

线缆编号

线缆编码

主板丝印

HGX 4-GPU模块节点板丝印

线缆连接作用

1

0404A1K2

PCIE M1

PCIe N1

使GPU模块可用

2

PCIE M3

PCIe N3

使GPU模块可用

3

PCIE M5

PCIe N5

使GPU模块可用

4

PCIE M6

PCIe N6

使GPU模块可用

5

0404A1JY

PCIE M7

PCIe N7

为PCIe slot 1和PCIe slot 2提供高速资源

 

7.4  连接GPU卡电源线缆

7.4.1  连接4GPU/8GPU电源线缆

GPU卡电源线缆需要连接到对应的GPU节点板上对应的电源接口,本文以GPU卡安装到8GPU机型节点板slot 14为例。

图7-20 连接GPU卡电源线缆

GPU卡电源线缆(线缆编码请参见2.13.7  1. 简介

 

7.4.2  连接HGX 4-GPU模块电源线缆

HGX 4-GPU模块电源线缆需要连接到GPU节点板上对应的电源接口,线缆连接方法如图7-21所示。

图7-21 连接HGX 4-GPU模块电源线缆

HGX 4-GPU模块电源线缆(0404A1K1)

 

7.5  连接超级电容线缆

7.5.1  连接Mezz存储控制卡的超级电容线缆

超级电容需安装在导风罩上的超级电容盒内,线缆连接方法如图7-22所示。

图7-22 连接Mezz存储控制卡的超级电容线缆

 

7.5.2  连接标准存储控制卡的超级电容线缆

超级电容需安装在导风罩上的超级电容盒内,线缆连接方法如图7-23所示。

图7-23 连接标准存储控制卡的超级电容线缆

 

7.6  连接MultiHost OCP转接模块线缆

安装MultiHost OCP转接模块时,线缆连接方式如图7-24所示。

图7-24 连接MultiHost OCP转接模块线缆

MultiHost OCP转接模块线缆(0404A1NH)

 

7.7  连接智能挂耳线缆

智能挂耳线缆包含:前面板I/O组件线缆、VGA和USB 3.0接口线缆,线缆连接方法如图7-25所示。

图7-25 连接智能挂耳线缆

(1):前面板I/O组件线缆(2150A0GU)

(2):VGA和USB 3.0接口线缆(2150A0GU)

 


8 日常维护指导

介绍服务器的日常维护方法。

8.1  维护基本原则

·     服务器所在机房应保持整洁,温度和湿度符合服务器运行要求,机房内不放置无关设备和物品。

·     定期通过HDM检查服务器的健康状态,如果不健康,则需要立即检查并排除故障。

·     了解操作系统和应用软件最近的更新情况,并根据需求更新软件。

·     制定可靠的备份计划。

¡     根据服务器的运行情况,定时备份数据。

¡     如果数据频繁改变则需随时备份。

¡     定时检查备份以确保数据保存正确。

·     现场保留一定数量的备件,以便部件出现故障时可及时更换。备件使用后,请及时补充。

·     为方便解决组网方面的问题,请保存最新的网络拓扑图。

8.2  维护工具

维护服务器需要以下工具:

·     通过温湿度计监控服务器运行环境。

·     通过HDM和UniSystem监控服务器运行状态。

8.3  维护操作

介绍服务器的日常维护任务操作和操作方法。

8.3.1  任务列表

日常维护任务如表8-1所示。

表8-1 日常维护任务

任务

所需工具

查看服务器监控指示灯

/

监测机房温度和湿度

温湿度计

检查线缆

/

查看服务器状态

/

收集服务器日志

/

升级服务器固件

/

8.3.2  查看服务器监控指示灯

检查服务器前后面板上的所有指示灯状态是否正常。关于指示灯的详细说明,请参见2.5.2  指示灯和按钮2.6.2  后面板指示灯

8.3.3  监测机房温度和湿度

请使用温湿度计测量机房温度和湿度,确保温湿度控制在服务器的工作范围内。关于服务器工作和贮存环境温湿度要求,请参见2.2.2  技术参数

8.3.4  检查线缆

检查通信线缆、电源线缆连接是否正常。

1. 注意事项

·     插拔线缆时,请勿用力过猛。

·     请勿扭曲或拉扯线缆。

·     合理布线,具体请参见3.5.6  布线指导

·     连接线缆时,请检查接口方向正确后再插入。

2. 检查标准

·     线缆类型正确。

·     连接正确、牢固,长度合适。

·     线缆无老化,连接点无扭曲、无腐蚀。

8.3.5  查看服务器状态

查看服务器各子系统基本状态的具体操作请参见HDM联机帮助的“基本状态”章节。

8.3.6  收集服务器日志

收集服务器日志信息的具体操作请参见《HDM用户指南》的“一键收集”章节。

8.3.7  升级服务器固件

升级服务器HDM、BIOS、CPLD等部件固件版本的具体操作请参见《H3C服务器 固件更新指导书》。

8.4  故障定位

具体故障定位方法请参见故障处理手册。

不同款型规格的资料略有差异, 详细信息请向具体销售和400咨询。H3C保留在没有任何通知或提示的情况下对资料内容进行修改的权利!

新华三官网
联系我们