• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 关于我们

H3C UniServer R5300 G6服务器 用户指南-6W106

01-正文

本章节下载 01-正文  (15.71 MB)

01-正文

 

1 安全··· 1-1

1.1 安全信息·· 1-1

1.1.1 运行安全·· 1-1

1.1.2 电气安全·· 1-1

1.1.3 电池安全·· 1-1

1.2 安全注意事项·· 1-2

1.3 静电防护·· 1-2

1.3.1 防止静电释放·· 1-2

1.3.2 防止静电释放的接地方法·· 1-2

1.4 设备标识·· 1-3

2 认识服务器··· 2-1

2.1 简介·· 2-1

2.2 规格参数·· 2-2

2.2.1 产品规格·· 2-2

2.2.2 技术参数·· 2-3

2.3 GPU配置方案·· 2-4

2.3.1 4GPU直通机型·· 2-4

2.3.2 8GPU直通机型·· 2-4

2.3.3 8GPU Switch机型·· 2-5

2.3.4 8GPU Switch双上行机型·· 2-7

2.4 部件·· 2-8

2.5 前面板·· 2-9

2.5.1 服务器前面板组件·· 2-10

2.5.2 指示灯和按钮·· 2-11

2.5.3 接口·· 2-13

2.6 后面板·· 2-13

2.6.1 后面板组件·· 2-14

2.6.2 后面板指示灯·· 2-17

2.6.3 接口·· 2-18

2.7 GPU计算模块·· 2-18

2.7.1 GPU计算模块类型·· 2-19

2.7.2 GPU节点板布局·· 2-19

2.8 主板·· 2-25

2.8.1 主板布局·· 2-26

2.8.2 系统维护开关·· 2-28

2.8.3 DIMM插槽·· 2-29

2.9 硬盘·· 2-30

2.9.1 硬盘编号·· 2-30

2.9.2 硬盘指示灯·· 2-30

2.10 硬盘背板·· 2-31

2.10.1 12LFF硬盘背板(4SAS/SATA+8UniBay·· 2-32

2.10.2 24LFF硬盘背板(16SAS/SATA+8UniBay·· 2-33

2.11 LCD可触摸智能管理模块·· 2-34

2.12 中置Riser·· 2-35

2.13 风扇模块·· 2-35

2.14 服务器B/D/F信息·· 2-36

2.15 部件安装准则及相关信息·· 2-37

2.15.1 CPU· 2-37

2.15.2 内存·· 2-38

2.15.3 SAS/SATA硬盘·· 2-41

2.15.4 NVMe硬盘·· 2-42

2.15.5 服务器管理模块·· 2-42

2.15.6 存储控制卡及掉电保护模块·· 2-43

2.15.7 GPU·· 2-46

2.15.8 网卡·· 2-46

2.15.9 SATA M.2 SSD·· 2-48

2.15.10 电源模块·· 2-48

2.15.11 风扇模块·· 2-48

3 安装和拆卸服务器··· 3-1

3.1 安装流程·· 3-1

3.2 安装规划·· 3-1

3.2.1 机柜要求·· 3-1

3.2.2 服务器的空气流动方向·· 3-3

3.2.3 温度和湿度要求·· 3-3

3.2.4 高度要求·· 3-3

3.2.5 腐蚀性气体浓度限值要求·· 3-3

3.2.6 洁净度要求·· 3-6

3.2.7 接地要求·· 3-6

3.2.8 存放要求·· 3-7

3.3 工具准备·· 3-7

3.4 安装服务器·· 3-9

3.4.1 (可选)安装滑道·· 3-9

3.4.2 安装服务器·· 3-9

3.4.3 (可选)安装理线架·· 3-10

3.5 连接外部线缆·· 3-10

3.5.1 连接鼠标、键盘和VGA接口线缆·· 3-10

3.5.2 连接网线·· 3-12

3.5.3 连接USB接口·· 3-13

3.5.4 连接电源线缆·· 3-13

3.5.5 固定线缆·· 3-15

3.5.6 布线指导·· 3-16

3.6 拆卸服务器·· 3-16

4 上电和下电··· 4-1

4.1 上电·· 4-1

4.1.1 操作场景·· 4-1

4.1.2 前提条件·· 4-1

4.1.3 操作步骤·· 4-1

4.2 下电·· 4-2

4.2.1 操作场景·· 4-2

4.2.2 前提条件·· 4-2

4.2.3 操作步骤·· 4-2

5 配置服务器··· 5-1

5.1 配置流程·· 5-1

5.2 上电启动·· 5-1

5.3 设置BIOS· 5-2

5.3.1 设置服务器启动顺序·· 5-2

5.3.2 设置BIOS密码·· 5-2

5.4 配置RAID·· 5-2

5.5 安装操作系统和驱动程序·· 5-2

5.5.1 安装操作系统·· 5-2

5.5.2 安装驱动程序·· 5-2

5.6 更新固件·· 5-3

6 更换部件··· 6-1

6.1 可更换的部件·· 6-1

6.2 常用操作·· 6-2

6.2.1 拆卸和安装机箱盖·· 6-2

6.2.2 拆卸和安装各模块槽位假面板·· 6-2

6.3 更换智能安全面板·· 6-3

6.3.1 更换场景·· 6-3

6.3.2 准备工作·· 6-3

6.3.3 更换步骤·· 6-3

6.4 更换SAS/SATA硬盘·· 6-3

6.4.1 更换场景·· 6-3

6.4.2 准备工作·· 6-4

6.4.3 更换步骤·· 6-4

6.5 扩容NVMe硬盘·· 6-5

6.5.1 准备工作·· 6-5

6.5.2 安装步骤·· 6-5

6.5.3 确认工作·· 6-5

6.6 更换NVMe硬盘·· 6-6

6.6.1 更换场景·· 6-6

6.6.2 准备工作·· 6-6

6.6.3 更换步骤·· 6-6

6.6.4 确认工作·· 6-7

6.7 更换GPU·· 6-7

6.7.1 更换场景·· 6-7

6.7.2 准备工作·· 6-7

6.7.3 更换步骤·· 6-8

6.8 更换标准PCIe网卡·· 6-8

6.8.1 更换场景·· 6-8

6.8.2 准备工作·· 6-9

6.8.3 更换标准PCIe网卡·· 6-9

6.9 更换OCP网卡·· 6-9

6.9.1 更换场景·· 6-9

6.9.2 准备工作·· 6-9

6.9.3 更换OCP网卡·· 6-9

6.10 更换OCP转接模块·· 6-10

6.10.1 更换场景·· 6-10

6.10.2 准备工作·· 6-10

6.10.3 更换步骤·· 6-11

6.11 更换中置Riser·· 6-11

6.11.1 更换场景·· 6-11

6.11.2 准备工作·· 6-11

6.11.3 更换步骤·· 6-12

6.12 更换标准存储控制卡及其掉电保护模块·· 6-12

6.12.1 操作场景·· 6-12

6.12.2 准备工作·· 6-12

6.12.3 更换步骤·· 6-13

6.13 更换SATA M.2 SSD·· 6-14

6.13.1 更换场景·· 6-14

6.13.2 准备工作·· 6-14

6.13.3 更换步骤·· 6-14

6.14 更换CPU· 6-14

6.14.1 更换场景·· 6-15

6.14.2 准备工作·· 6-15

6.14.3 更换步骤·· 6-15

6.14.4 确认工作·· 6-17

6.15 更换内存·· 6-17

6.15.1 更换场景·· 6-17

6.15.2 准备工作·· 6-17

6.15.3 更换步骤·· 6-18

6.15.4 确认工作·· 6-18

6.16 更换硬盘背板·· 6-19

6.16.1 更换场景·· 6-19

6.16.2 准备工作·· 6-19

6.16.3 更换步骤·· 6-19

6.17 更换CPU主板·· 6-20

6.17.1 更换场景·· 6-20

6.17.2 准备工作·· 6-20

6.17.3 更换步骤·· 6-20

6.18 更换服务器管理模块·· 6-21

6.18.1 更换场景·· 6-22

6.18.2 准备工作·· 6-22

6.18.3 更换步骤·· 6-22

6.19 更换GPU节点板·· 6-23

6.19.1 更换场景·· 6-23

6.19.2 准备工作·· 6-23

6.19.3 更换GPU节点板·· 6-24

6.20 更换NVMe VROC模块·· 6-24

6.20.1 更换场景·· 6-24

6.20.2 准备工作·· 6-24

6.20.3 更换步骤·· 6-24

6.21 更换系统电池·· 6-25

6.21.1 更换场景·· 6-25

6.21.2 准备工作·· 6-25

6.21.3 更换步骤·· 6-25

6.22 更换电源模块·· 6-26

6.22.1 更换场景·· 6-26

6.22.2 准备工作·· 6-26

6.22.3 更换步骤·· 6-26

6.23 更换风扇模块·· 6-27

6.23.1 更换场景·· 6-27

6.23.2 准备工作·· 6-27

6.23.3 更换步骤·· 6-28

6.24 扩容LCD可触摸智能管理模块·· 6-28

6.24.1 准备工作·· 6-28

6.24.2 操作步骤·· 6-28

6.25 更换LCD可触摸智能管理模块·· 6-29

6.25.1 更换场景·· 6-29

6.25.2 准备工作·· 6-29

6.25.3 更换步骤·· 6-29

6.26 更换智能挂耳·· 6-30

6.26.1 更换场景·· 6-30

6.26.2 准备工作·· 6-30

6.26.3 更换步骤·· 6-30

6.27 安装加密模块·· 6-31

6.27.1 TPM/TCM简介·· 6-31

6.27.2 开启TPM/TCM功能流程·· 6-31

6.27.3 准备工作·· 6-32

6.27.4 安装TPM/TCM模块·· 6-32

7 内部布线··· 7-1

7.1 内部布线要求·· 7-1

7.1.1 使用场景·· 7-1

7.1.2 注意事项·· 7-1

7.2 连接硬盘线缆·· 7-1

7.2.1 12LFF硬盘配置·· 7-1

7.2.2 24LFF硬盘配置·· 7-8

7.3 连接GPU计算模块线缆·· 7-13

7.3.1 连接4GPU直通线缆·· 7-13

7.3.2 连接8GPU直通线缆·· 7-14

7.3.3 连接8GPU-AI串联线缆·· 7-16

7.3.4 连接8GPU-AI并联线缆·· 7-17

7.3.5 连接8GPU-HPC线缆·· 7-18

7.3.6 连接8GPU Switch双上行线缆·· 7-19

7.4 连接OCP转接模块线缆·· 7-20

7.4.1 8GPU Switch· 7-20

7.4.2 8GPU直通·· 7-21

7.4.3 4GPU直通·· 7-22

7.4.4 8GPU Switch双上行·· 7-24

7.5 连接GPU卡电源线缆·· 7-25

7.6 连接超级电容线缆·· 7-27

7.6.1 连接中置Riser卡的超级电容线缆·· 7-27

7.6.2 连接标准存储控制卡的超级电容线缆·· 7-27

7.7 连接智能挂耳线缆·· 7-28

7.8 连接温感线缆·· 7-29

7.9 连接LCD可触摸智能管理模块线缆·· 7-30

8 日常维护指导··· 8-1

8.1 维护基本原则·· 8-1

8.2 维护工具·· 8-1

8.3 维护操作·· 8-1

8.3.1 任务列表·· 8-1

8.3.2 查看服务器监控指示灯·· 8-2

8.3.3 监测机房温度和湿度·· 8-2

8.3.4 检查线缆·· 8-2

8.3.5 查看服务器状态·· 8-2

8.3.6 收集服务器日志·· 8-2

8.3.7 升级服务器固件·· 8-2

8.4 故障定位·· 8-2

 


1 安全

1.1  安全信息

为了避免操作过程中对人和设备造成伤害,请在操作前,仔细阅读产品相关安全信息。实际操作中,包括但不限于本文描述的安全信息。

1.1.1  运行安全

·     H3C授权人员或专业的服务器工程师才能运行该服务器。

·     请将服务器放在干净、平稳的工作台或地面上进行维护。

·     运行服务器前,请确保所有线缆均连接正确。

·     为确保服务器充分散热,请遵循如下操作准则:

¡     请勿阻塞服务器的通风孔。

¡     服务器的空闲槽位必须安装假面板,比如硬盘、风扇、PCIe卡、电源模块的槽位。

¡     机箱盖、导风罩、空闲槽位假面板不在位的情况下,请不要运行服务器。

¡     维护热插拔部件时,请最大限度地减少机箱盖打开的时间。

·     为避免组件表面过热造成人身伤害,请确保设备和内部系统组件冷却后再操作。

·     当服务器与其他设备上下叠加安装在机柜中时,请确保两个设备之间留出垂直方向2mm以上的空隙。

·     请保持设备清洁、无尘,请勿将设备放置在潮湿的地方,也不要让液体进入设备。

·     搬运或放置设备时,请勿用力过猛。请确保搬运设备过程中用力均匀缓慢。

1.1.2  电气安全

警告

前面板上的开机/待机按钮不能彻底切断系统电源,此时部分电源和内部电路仍在工作,为避免人身伤害、触电或设备损坏,请将服务器完全断电,即先按下开机/待机按钮,当系统电源指示灯灯灭后,将服务器上的所有电源线拔出。

 

·     为避免人身伤害或服务器损坏,请使用随机附带的电源线缆。

·     电源线缆只能用于配套的服务器,请勿在其他设备上使用。

·     为避免触电风险,在安装或拆卸任何非热插拔部件时,请先将设备下电。

1.1.3  电池安全

服务器管理模块上配置有系统电池,一般情况下,电池寿命为35年。

当服务器不再自动显示正确的日期和时间时,需更换电池。更换电池时,请注意以下安全措施:

·     请勿尝试给电池充电。

·     请勿将电池置于60°C以上的环境中。

·     请勿拆卸/碾压/刺穿电池、使电池外部触点短路或将其投入火中/水中。

·     请将电池弃于专门的电池处理点,勿随垃圾一起丢弃。

1.2  安全注意事项

说明

为避免电源波动或临时断电对服务器造成影响,建议使用UPS为服务器供电。这种电源可防止服务器硬件因电涌和电压峰值的影响而受损,并且可在电源故障时确保服务器正常运行。

 

为避免人身伤害或设备损坏,操作服务器时,还需注意以下事项:

·     服务器必须安装在标准19英寸机柜中。

·     机柜的支撑脚要完全触地,且机柜的全部重量应由支撑脚承担。

·     当有多个机柜时,请将机柜连接在一起。

·     请做好机柜安装的部署工作,将最重的设备安装在机柜底部。安装顺序为从机柜底部到顶部,即优先安装最重的设备。

·     将服务器安装到机柜或从机柜中拉出时(尤其当服务器脱离滑道时),要求四个人协同工作,以平稳抬起服务器。当安装位置高于胸部时,则可能需要第五个人帮助调整服务器的方位。

·     每次只能从机柜中拉出一台设备,否则会导致机柜不稳固。

·     将服务器从机柜中拉出或推入前,请确保机柜稳固。

·     为确保充分散热,请在未使用的机柜位置安装假面板。

1.3  静电防护

1.3.1  防止静电释放

人体或其它导体释放的静电可能会损坏对静电敏感的部件,由静电造成的损坏会缩短部件的使用寿命。

为避免静电损害,请注意以下事项:

·     在运输和存储设备时,请将部件装入防静电包装中。

·     将静电敏感部件送达不受静电影响的工作区前,请将它们放在防静电包装中保管。

·     先将部件放置在防静电工作台上,然后再将其从防静电包装中取出。

·     在没有防静电措施的情况下,请勿触摸组件上的插针、线缆和电路元器件等静电敏感元件

1.3.2  防止静电释放的接地方法

在取放或安装部件时,用户可采取以下一种或多种接地方法以防止静电释放。

·     佩戴防静电腕带,并将腕带的另一端良好接地。请将腕带紧贴皮肤,且确保其能够灵活伸缩。

·     在工作区内,请穿上防静电服和防静电鞋,并佩戴防静电手套。

·     请使用导电的现场维修工具。

·     请使用防静电的可折叠工具垫和便携式现场维修工具包。

1.4  设备标识

为避免维护服务器过程中可能造成的任何伤害,请熟悉服务器上可能出现的安全标识。

表1-1 安全标识

图示

说明

警告

该标识表示存在危险电路或触电危险。所有维修工作应由H3C授权人员或专业的服务器工程师完成。

警告

为避免电击造成人身伤害,请勿打开符号标识部件。所有维护、升级和维修工作都应由H3C授权人员或专业的服务器工程师完成。

该标识表示存在触电危险。不允许用户现场维修此部件。用户任何情况下都不能打开此部位。

警告

为避免电击造成人身伤害,请勿打开符号标识部件。

该标识表示存在高温表面或组件。如果触摸该表面或组件,可能会造成人身伤害。

警告

为避免组件表面过热造成人身伤害,请确保服务器和内部系统组件冷却后再操作。

该标识表示组件过重,已超出单人安全取放的正常重量。

警告

为避免人身伤害或设备损坏,请遵守当地关于职业健康与安全的要求,以及手动处理材料的指导。

电源或系统上的这些标识表示服务器由多个电源模块供电。

警告

为避免电击造成人身伤害,请先断开所有电源线缆,并确保服务器已完全断电。

 

关于安全的更多信息,请参见《H3C室内安装类设备运行环境要求》。


2 认识服务器

说明

·     本手册为产品通用资料。对于定制化产品,请用户以产品实际情况为准。

·     本手册中,所有部件的型号都做了简化(比如删除前缀和后缀)。比如内存型号DDR5-4800-32G-1Rx4,代表用户可能看到的以下型号:UN-DDR5-4800-32G-1Rx4-RUN-DDR5-4800-32G-1Rx4-FUN-DDR5-4800-32G-1Rx4-S

·     本服务器支持四种机型,差异内容将通过不同的章节介绍,未标明则表示该章节对于四种机型都适用。

·     手册图片仅供参考,具体请以实物为准。

 

2.1  简介

H3C UniServer R5300 G6系列服务器(以下简称服务器)是H3C基于Intel新一代Eagle Stream平台自主研发的4U两路,面向异构计算与人工智能的高性能GPU服务器。该产品具有性能卓越、重塑架构、扩展性强和可靠性高等特点,可应用于深度学习模型训练、深度学习推理、高性能计算、数据分析等多种应用场景。

服务器的外观如2-1所示。

图2-1 服务器外观

 

 

服务器包括4种机型,每种机型支持的最大GPU配置请参见2-1

表2-1 服务器机型说明

机型

GPU配置

4GPU直通机型

最多支持4张全高全长双宽GPU

8GPU Switch机型

最多支持8全高全长双宽GPU

8GPU直通机型

最多支持8全高全长双宽GPU

8GPU Switch双上行机型

最多支持8全高全长双宽GPU

每种机型支持的详细GPU配置方案,请参见GPU配置方案

 

2.2  规格参数

介绍服务器的产品规格和技术参数。

2.2.1  产品规格

表2-2 产品规格

功能特性

说明

GPU

·     8GPU Switch节点板:最多支持8张双宽GPU

·     8GPU Switch双上行节点板:最多支持8张双宽GPU

·     8GPU直通节点板:最多支持8张双宽GPU

·     4GPU直通机型节点板:最多支持4张双宽GPU

处理器

·     最多支持2Intel Eagle Stream CPU

¡     单颗CPU最大支持功耗350W

¡     最高主频支持3.6GHz

¡     单颗CPU缓存最高支持300MB

¡     CPU集成内存控制器,支持16个内存通道

¡     CPU集成PCIe控制器,支持PCIe5.0单颗CPU提供80PCIe Lanes

¡     采用4UPI总线互联,每路传输速率可达16GT/s

·     处理器相关具体信息请参见服务器兼容的部件查询工具

内存

最多可支持32DDR5内存速率最高支持5600MT/s支持RDIMM双路处理器最大容量12TB

存储控制模块

·     板载SATA控制器

·     板载NVMe控制器

·     高性能存储控制卡

·     NVMe VROC模块

网络接口

·     板载11Gbit/s HDM专用网络接口

·     1OCP网卡插槽,可以选配OCP3.0网卡,OCP 3.0网卡支持NCSI功能

集成显卡

显卡芯片集成在BMC管理芯片中,芯片型号为AST2600,支持的最大分辨率是1920 x 1200@60Hz (32bpp)

其中:

·     关于分辨率:

¡     1920 x 1200:表示横向有1920个像素列;纵向有1200个像素列

¡     60Hz:表示刷新率,每秒60次屏幕刷新

¡     32bpp:表示色彩位数。色彩位数越高,表现的色彩越丰富

·     仅在安装与操作系统版本配套的显卡驱动后,集成显卡才能支持1920 x 1200像素的最大分辨率,否则只能支持操作系统的默认分辨率

·     前后VGA接口同时连接显示器时,仅连接前面板VGA接口的显示器会显示

I/O端口

·     支持3USB 3.0接口和2USB 2.0接口(主板1个,前面板2个,后面板2个)

·     支持23MCIO接口

·     1RJ45 HDM专用网络接口(后面板)

·     支持2VGA接口(前面板1个,后面板1个)

·     支持1HDM专用管理接口(前面板)

扩展插槽

·     主板:支持1OCP3.0网卡专用插槽

·     8GPU Switch机型节点板:最多支持12PCIe5.0可用插槽

·     8GPU直通机型节点板:最多支持10PCIe5.0可用插槽

·     8GPU Switch双上行机型节点板:最多支持12PCIe5.0可用插槽

·     4GPU直通机型节点板:最多支持6PCIe5.0可用插槽

光驱

支持外置USB光驱

管理

·     支持HDM无代理管理工具(带独立管理端口)

·     支持H3C iFIST/UniSystem管理软件

·     支持64M本地显存

·     支持可选U-Center数据中心管理平台

安全性

·     支持安全机箱

·     支持TCM/TPM安全模块

·     支持双因素认证

风扇

支持4组热插拔风扇模块,支持N+1冗余

电源

支持4个热插拔电源模块,支持N+N冗余

认证

通过CQCSEPACE EMCCE RoHSFCCISEDVCCI等认证

 

2.2.2  技术参数

表2-3 技术参数

类别

项目

说明

物理参数

尺寸(高xx深)

不含安全面板与挂耳:174.8mm x 447mm x 828mm

含安全面板:174.8mm x 447mm x 856mm

最大重量

65kg

功耗

不同配置下的功耗参数不同,具体信息请参见服务器功耗查询工具

环境参数

温度

工作环境温度:5°C35°C

说明

服务器部分配置下支持的最高工作环境温度会有所降低,具体请参见附录A中的工作环境温度规格章节。

贮存环境温度:-40°C65°C

湿度

·     工作环境湿度:10%85%(无冷凝)

·     贮存环境湿度:10%90%(无冷凝)

海拔高度

·     工作环境高度:-60m3000m海拔高于900m每升高100m,规格最高温度降低0.33°C

·     贮存环境高度:-60m5000m

 

2.3  GPU配置方案

服务器包括6GPU配置方案,以满足不同应用场景的需求,GPU模块的详细信息请参见GPU计算模块

2.3.1  4GPU直通机型

适合大多数的HPC应用,适用于CPUGPU卡频繁通信的场景且在这种场景下CPU负载均衡, GPUCPU间无需通过PCIe Switch通信,并发带宽高。该GPU配置方案最多支持4张全高全长双宽GPU卡,4GPU卡从属于2CPU,如图2-2所示。该GPU配置方案线缆连接方式请参见连接4GPU直通线缆

图2-2 4GPU-HPC示意图

 

2.3.2  8GPU直通机型

适合大多数的HPC应用,适用于CPUGPU卡频繁通信的场景且在这种场景下CPU负载均衡, GPUCPU间无需通过PCIe Switch通信,并发带宽高。该GPU配置方案最多支持8张全高全长双宽GPU卡,8GPU卡从属于2CPU,如图2-3所示。该GPU配置方案线缆连接方式请参见连接8GPU直通线缆

图2-3 8GPU-HPC示意图

 

2.3.3  8GPU Switch机型

·     8GPU-AI串联

主要用于对GPU的运算速率要求较高的AI场景。该GPU配置方案最多支持8张全高全长双宽GPU卡,8GPU卡从属于1CPU,如图2-4所示。该GPU配置方案线缆连接方式请参见连接8GPU-AI串联线缆

图2-4 8GPU-AI串联示意图

 

·     8GPU-AI并联

主要用于对带宽要求较高的AI场景。该GPU配置方案最多支持8张全高全长双宽GPU卡,8GPU卡从属于1CPU,如图2-5所示。该GPU配置方案线缆连接方式请参见连接8GPU-AI并联线缆

图2-5 8GPU-AI并联示意图

 

·     8GPU-HPC

适合大多数的HPC应用,适用于CPUGPU卡频繁通信的场景且在这种场景下CPU负载均衡。该GPU配置方案最多支持8张全高全长双宽GPU卡,8GPU卡从属于2CPU,如图2-6所示。该GPU配置方案线缆连接方式请参见连接8GPU-HPC线缆

图2-6 8GPU-HPC示意图

2.3.4  8GPU Switch双上行机型

GPU配置方案专为重视大模型训练与推理的HPC应用设计,强调单机性能的推理场景将使用以太网连接,无需通过PCIe Switch直出网卡,从而实现更高的上行带宽。此方案支持最多8张全高全长双宽GPU卡,这些GPU卡均由2CPU管理,确保处理能力和效率,如图2-7所示,该GPU配置方案线缆连接方式请参见连接8GPU Switch双上行线缆

图2-7 8GPU Switch双上行示意图

 

 

2.4  部件

介绍服务器各部件含义。

图2-8 服务器部件

 

表2-4 服务器部件说明

序号

名称

说明

1

机箱盖

-

2

SATA M.2 SSD

为服务器提供数据存储介质

3

GPU

为服务器提供图像处理和人工智能等计算服务

4

OCP网卡

一种网卡,安装在机箱后部,可以在不打开机箱盖的情况下进行安装和更换

5

标准PCIe网卡

一种网卡,支持安装到标准PCIe槽位

6

OCP转接模块

用于安装OCP网卡

7

GPU节点板

可以扩容GPU卡和PCIe卡,提供更多配置选择,从而提升整机的图像处理能力和计算性能

8

机箱

机箱将所有部件集中到一起

9

智能挂耳

用于将服务器固定到机柜,其中右侧挂耳中集成了前面板I/O组件,左侧挂耳带VGAUSB 3.0接口

10

LCD可触摸智能管理模块

用于查看服务器的基本信息、实时监控信息及故障信息,并可快速、准确地诊断发生故障的组件及其故障信息,同时结合HDM系统中的事件日志,即可获取该组件的详细故障信息,从而快速排除故障,使服务器各组件和系统保持良好的运行状况

11

硬盘背板

为硬盘供电并提供数据传输通道,本文以服务器前部配置的12LFF硬盘背板为例

12

硬盘

为服务器提供数据存储介质,支持热插拔。产品支持SSDHDD硬盘,支持多种硬盘接口类型,如SASSATAM.2PCIe

13

风扇笼

用于安装风扇模块

14

风扇模块

为服务器散热提供动力,支持热插拔,支持N+1冗余

15

超级电容

用于在系统意外掉电时为存储控制卡上的Flash卡供电,实现存储控制卡上数据的掉电保护

16

超级电容固定座

用于将超级电容固定到机箱

17

CPU散热器

用于为CPU散热

18

CPU夹持片

用于将CPU固定到散热器

19

CPU

集成内存控制器和PCIe控制器,为服务器提供强大的数据处理功能

20

导风罩

CPU散热器和内存提供散热风道,同时为超级电容提供安装位置。

21

CPU底座盖片

CPU底座上未安装CPU时使用,为CPU底座上的针脚提供保护功能。

22

内存

用于暂时存放CPU中的运算数据,以及与硬盘等外部存储设备交换的数据。产品支持DDR5内存

23

NVMe VROC模块

NVMe VROC模块用于激活NVMe硬盘阵列特性,配合VMD技术实现NVMe硬盘阵列功能

24

主板

服务器最重要的部件之一,用于安装CPU、内存和风扇等,集成了服务器的基础元器件,包括BIOS芯片、PCIe插槽等

25

存储控制卡

SAS/SATA硬盘提供RAID支持,具有RAID配置、RAID扩容等功能,支持在线升级RAID卡固件、远程设置

26

中置Riser

转接卡,存储控制卡可通过该卡安装到服务器

27

系统电池

为系统时钟供电,确保系统日期和时间正确

28

加密模块

用于为服务器提供加密服务,提高服务器数据安全性

29

服务器管理模块

为服务器提供各类IO接口及HDM带外管理功能

30

电源模块

为服务器运行提供电力转换功能。电源模块支持热插拔,支持N+N冗余

 

2.5  前面板

介绍服务器前面板上的组件、指示灯含义和接口用途。

2.5.1  服务器前面板组件

图2-9 前面板-24LFF硬盘

 

表2-5 前面板-24LFF硬盘组件说明

编号

说明

1

USB 3.0接口

2

可选LCD可触摸智能管理模块

3

SAS/SATA硬盘

4

可选SAS/SATA硬盘或NVMe硬盘

5

抽拉式资产标签

6

HDM专用管理接口

7

USB 2.0接口

8

VGA接口

 

图2-10 前面板-12LFF硬盘

 

表2-6 前面板-12LFF硬盘组件说明

编号

说明

1

USB 3.0接口

2

可选LCD可触摸智能管理模块

3

可选SAS/SATA硬盘或NVMe硬盘

4

SAS/SATA硬盘

5

抽拉式资产标签

6

HDM专用管理接口

7

USB 2.0接口

8

VGA接口

 

2.5.2  指示灯和按钮

1. 前面板指示灯和按钮

图2-11 前面板指示灯和按钮

 

表2-7 前面板指示灯说明

编号

说明

状态

1

开机/待机按钮和系统电源指示灯

·     绿灯常亮:系统已启动

·     绿灯闪烁(1Hz):系统正在开机

·     橙灯常亮:系统处于待机状态

·     灯灭:未通电

2

OCP网卡以太网接口指示灯

·     绿灯常亮:OCP 3.0网卡上,网口连接状态正常

·     绿灯闪烁(1Hz)OCP 3.0网卡上,网口有数据收发

·     灯灭:OCP 3.0网卡上,网口均未使用

3

Health指示灯

·     绿灯常亮:系统状态正常或有轻微告警

·     绿灯闪烁(4Hz):HDM正在初始化

·     橙灯闪烁(1Hz):系统出现严重错误告警

·     红灯闪烁(1Hz):系统出现紧急错误告警

4

UID按钮/指示灯

·     蓝灯常亮:UID指示灯被激活。UID指示灯可通过以下任意方法被激活

¡     UID按钮被按下

¡     通过HDM开启UID指示灯

·     蓝灯闪烁:

¡     1Hz:系统正在被HDM远程管理或正在通过HDM带外方式升级固件,请勿下电

¡     4HzHDM正在重启(长按UID按钮/指示灯8秒及以上可重启HDM

·     灯灭:UID指示灯未激活

·     如果Health指示灯显示系统出现问题,请通过HDM查看系统运行状态。

·     系统电源指示灯灭的原因可能有:没有接通电源、未安装电源模块、电源模块故障或系统电源指示灯线缆未连接。

 

2. 智能安全面板指示灯

智能安全面板的指示灯支持联动服务器健康状态,体现服务器的运行状态和健康信息,能够加快现场巡检和故障定位。智能安全面板指示灯效果支持自定义设置,缺省的指示灯效果如表2-8所示。

图2-12 智能安全面板

 

表2-8 智能安全面板指示灯说明

描述

氛围灯状态

待机阶段

Standby

白灯常亮

启动阶段

Post阶段

白灯从中间向两侧逐个点亮,体现Post进度百分比

Post完成

白灯从中间向两侧流动效果三次

运行阶段

正常状态

白灯呼吸(0.2Hz亮度渐变),开启灯珠的数量表示负载轻重,随着整机负载功耗增加从中间向两侧点亮的灯珠逐渐增多,不同负载点亮的灯珠数量占比:

·     空负载(10%以下)

·     轻负载(10%50%

·     中负载(50%80%

·     重负载(80%以上)

预告警

白灯呼吸(1Hz亮度渐变)

严重错误

橙灯闪烁(1Hz

紧急错误

红灯闪烁(1Hz

远程管理

系统处在远程管理或HDM正在进行带外固件升级,请勿下电

所有白灯闪烁(1Hz

HDM正在重启

部分白灯闪烁(1Hz

 

2.5.3  接口

表2-9 前面板接口

接口名称

类型

用途

VGA接口

DB15

·     用于连接显示终端,如显示器或KVM设备

USB接口

USB 3.0/2.0

用于连接USB设备,以下情况下需要使用该接口:

·     连接U

·     连接USB键盘或鼠标

·     安装操作系统时,连接USB光驱

HDM专用管理接口

Type-C

通过Type-CUSB转接线,转接USB Wi-Fi模块或U

 

2.6  后面板

介绍服务器后面板上的组件、指示灯含义和接口用途。

2.6.1  后面板组件

1. 4GPU直通计算模块

图2-13 后面板组件-4GPU直通计算模块

 

表2-10 后面板组件-4GPU直通计算模块说明

编号

说明

1

4GPU直通计算模块

2

电源模块4

3

电源模块3

4

VGA接口

5

可选OCP 3.0网卡(slot 5

6

USB 3.0接口(2个)

7

HDM专用网络接口(1Gb/sRJ45,缺省IP地址:192.168.1.2/24

8

电源模块2

9

电源模块1

10

抽拉式资产标签

 

2. 8GPU直通计算模块

图2-14 后面板组件-8GPU直通计算模块

 

表2-11 后面板组件-8GPU直通计算模块说明

编号

说明

1

8GPU直通计算模块

2

电源模块4

3

电源模块3

4

VGA接口

5

可选OCP 3.0网卡(slot 5

6

USB 3.0接口(2个)

7

HDM专用网络接口(1Gb/sRJ45,缺省IP地址:192.168.1.2/24

8

电源模块2

9

电源模块1

10

抽拉式资产标签

 

3. 8GPU Switch计算模块/8GPU Switch双上行计算模块

图2-15 后面板组件-8GPU Switch计算模块/8GPU Switch双上行计算模块

 

表2-12 后面板组件-8GPU Switch计算模块/8GPU Switch双上行计算模块说明

编号

说明

1

8GPU Switch计算模块/8GPU Switch双上行计算模块

2

电源模块4

3

电源模块3

4

VGA接口

5

可选OCP 3.0网卡(slot 5

6

USB 3.0接口(2个)

7

HDM专用网络接口(1Gb/sRJ45,缺省IP地址:192.168.1.2/24

8

电源模块2

9

电源模块1

10

抽拉式资产标签

 

2.6.2  后面板指示灯

图2-16 后面板指示灯

 

表2-13 后面板指示灯说明

编号

说明

说明

1

电源模块1状态指示灯

·     绿灯常亮:电源模块工作正常

·     绿灯闪烁(0.33Hz):电源模块处于备用电源模式,无率输出

·     绿灯闪烁(2Hz):电源模块处于固件更新状态

·     橙灯常亮:

¡     电源模块出现严重故障

¡     该电源模块无输入,另一个电源模块输入正常

·     橙灯闪烁(1Hz):电源模块出现告警

·     灯灭:电源模块无输入,存在以下一种或两种情况:

¡     电源线缆连接故障

¡     外部供电系统断电

2

电源模块2状态指示灯

8

电源模块3状态指示灯

9

电源模块4状态指示灯

3

ATTN BUTTON按钮和指示灯

指示灯含义及说明,详见表2-14

4

OCP网卡POWER指示灯

5

UID指示灯

·     蓝灯常亮:UID指示灯被激活。UID指示灯可通过以下方法之一被激活:

¡     UID按钮被按下

¡     通过HDM开启UID指示灯

·     蓝灯闪烁:

¡     1Hz:系统正在被HDM远程管理或正在通过HDM带外方式升级固件,请勿下电

¡     4HzHDM正在重启(长按UID按钮/指示灯8秒及以上可重启HDM

·     灯灭:UID指示灯未激活

6

以太网接口连接状态指示灯

·     绿色常亮:网口链路已经连通

·     灯灭:网口链路没有连通

7

以太网接口数据传输状态指示灯

·     绿色闪烁(1Hz):网口正在接收或发送数据

·     灯灭:网口没有接收或发送数据

 

表2-14 OCP网卡指示灯说明

ATTN BUTTON指示灯(橙色)

POWER指示灯(绿色)

说明

常亮

灯灭

OCP网卡异常或未安装到位

闪烁(1Hz

灯灭

·     服务器处于待机状态

·     服务器处于开机过程

·     ATTN BUTTON先热拔出OCP网卡,再热插入同类型的OCP网卡后(服务器正常运行状态)

灯灭

闪烁(1.5Hz

OCP网卡处于上电或下电过程

灯灭

常亮

OCP网卡正常运行

灯灭

灯灭

OCP网卡已下电

 

2.6.3  接口

表2-15 后面板接口

接口名称

类型

用途

HDM专用网络接口

RJ45

用于登录HDM管理界面,进行服务器管理

USB接口

USB 3.0

用于连接USB设备,以下情况下需要使用该接口:

·     连接U

·     连接USB键盘或鼠标

·     安装操作系统时,连接USB光驱

VGA接口

DB15

用于连接显示终端,如显示器或KVM设备

电源接口

标准单相电源接头

用于连接电源模块和外部供电系统,为设备供电

 

2.7  GPU计算模块

介绍如下内容:

·     服务器支持的GPU计算模块类型。

·     每种GPU计算模块节点板(简称GPU节点板)布局。

2.7.1  GPU计算模块类型

服务器4款机型分别支持不同的GPU计算模块:4GPU直通计算模块、8GPU直通计算模块、8GPU Switch计算模块和8GPU Switch双上行计算模块。

·     4GPU直通计算模块:支持安装4张全高全长双宽GPU卡和2张标准半长/全长单宽或1张全高全长双宽PCIe卡。

·     8GPU直通计算模块:支持安装8张全高全长双宽GPU卡和2张标准半长单宽或1张全高全长双宽PCIe

·     8GPU Switch计算模块:支持安装8张全高全长双宽GPU卡和4张标准半长/全高全长单宽或2张全高全长双宽PCIe卡。

·     8GPU Switch双上行计算模块:支持安装8张全高全长双宽GPU卡和4张标准半长/全高全长单宽或2张全高全长双宽PCIe卡。

2.7.2  GPU节点板布局

介绍4GPU节点板布局。

1. 4GPU直通节点板布局

图2-17 4GPU直通节点板布局

 

表2-16 4GPU直通节点板布局说明

编号

含义

丝印

1

从右到左依次为MCIO接口slot 9-Aslot 12-A

SLOT9-ASLOT12-A

2

从右到左依次为PCIe 5.0 x16 slot 912

PCIe X16 SLOT9/GPU3PCIe X16 SLOT12/GPU6

3

MCIO接口slot 3-A

SLOT3-A

4

PCIe5.0 x16 slot  3

PCIe X16 SLOT3/IO3

5

MCIO接口slot 1-A

SLOT1-A

6

PCIe5.0 x16 slot 1

PCIe X16 SLOT1/IO1

7

GPU计算模块电源接口1

PWR1

8

GPU计算模块电源接口2

PWR2

9

从右到左依次为MCIO接口slot 9-Cslot 12-C

SLOT9-CSLOT12-C

10

MCIO接口slot 3-C

SLOT3-C

11

MCIO接口slot 1-C

SLOT1-C

·     PCIe5.0 x16含义如下:

¡     PCIe5.0:第代信号速率。

¡     x16总线带宽。

 

表2-17 4GPU直通节点板的槽位CPU从属关系

槽位号

4GPU-HPC方案从属CPU

Slot 1

CPU1

Slot 3

CPU2

Slot 9

CPU1

Slot 10

CPU1

Slot 11

CPU2

Slot 12

CPU2

 

2. 8GPU直通节点板布局

图2-18 8GPU直通节点板布局

 

表2-18 8GPU直通节点板布局说明

编号

说明

丝印

1

从右到左依次为MCIO接口slot 7-Bslot 8-Aslot 14-A(观察者位于服务器前方)

SLOT7-BSLOT8-ASLOT14-A

2

从右到左依次为PCIe 5.0 x16 slot 714

PCIe X16 SLOT7/GPU1PCIe X16 SLOT14/GPU8

3

MCIO接口slot 3-A

SLOT3-A

4

PCIe5.0 x16 slot  3

PCIe X16 SLOT3/IO3

5

MCIO接口slot 1-A

SLOT1-A

6

PCIe5.0 x16 slot 1

PCIe X16 SLOT1/IO1

7

从右到左依次为MCIO接口slot 7-Cslot 14-C(观察者位于服务器前方)

SLOT7-CSLOT14-C

8

GPU计算模块电源接口1

PWR1

9

MCIO接口slot 1-C

SLOT1-C

10

MCIO接口slot 3-C

SLOT3-C

11

GPU计算模块电源接口2

PWR2

·     PCIe5.0 x16含义如下:

¡     PCIe5.0:第代信号速率。

¡     x16总线带宽。

 

表2-19 8GPU直通节点板的槽位CPU从属关系

槽位号

8GPU-HPC方案从属CPU

Slot 1

CPU1

Slot 3

CPU2

Slot 7

CPU1

Slot 8

CPU1

Slot 9

CPU1

Slot 10

CPU1

Slot 11

CPU2

Slot 12

CPU2

Slot 13

CPU2

Slot 14

CPU2

 

3. 8GPU Switch节点板布局

图2-19 8GPU Switch节点板布局

表2-20 8GPU Switch节点板布局说明

编号

说明

丝印

1

从右到左依次为PCIe 5.0 x16 slot 714

PCIe X16 SLOT7/GPU1PCIe X16 SLOT14/GPU8

2

从右到左依次为PCIe 5.0 x16 slot 14

PCIe X16 SLOT1/IO1PCIe X16 SLOT4/IO4

3

GPU计算模块电源接口1

PWR1

4

MCIO接口SW0-P0-A

SW0-P0-A

5

MCIO接口SW0-P0-C

SW0-P0-C

6

MCIO接口SW0-P1-A

SW0-P1-A

7

MCIO接口SW0-P1-C

SW0-P1-C

8

GPU计算模块电源接口3/4

PWR3/PWR4

9

GPU计算模块电源接口2

PWR2

10

MCIO接口slot 4-A

SLOT4-A

11

MCIO接口slot 1-A

SLOT1-A

12

MCIO接口slot 1-C

SLOT1-C

13

MCIO接口slot 2-B

SLOT2-B

14

MCIO接口SW1-C

SW1-C

15

MCIO接口SW1-A

SW1-A

16

MCIO接口slot 2-D

SLOT2-D

17

MCIO接口slot 4-C

SLOT4-C

·     PCIe5.0 x16含义如下:

¡     PCIe5.0:第代信号速率。

¡     x16总线带宽。

·     根据PCB版本不同,8号接口可能不存在,请根据实际情况为准。

 

表2-21 8GPU Switch节点板的槽位CPU从属关系

槽位号

8GPU-AI串联方案从属CPU

8GPU-AI并联方案从属CPU

8GPU-HPC方案从属CPU

Slot 1

CPU1

CPU1

CPU1

Slot 2

CPU1

CPU1

CPU1

Slot 3

CPU1

CPU1

CPU2

Slot 4

CPU2

CPU2

CPU2

Slot 7

CPU1

CPU1

CPU1

Slot 8

CPU1

CPU1

CPU1

Slot 9

CPU1

CPU1

CPU1

Slot 10

CPU1

CPU1

CPU1

Slot 11

CPU1

CPU1

CPU2

Slot 12

CPU1

CPU1

CPU2

Slot 13

CPU1

CPU1

CPU2

Slot 14

CPU1

CPU1

CPU2

 

4. 8GPU Switch双上行节点板布局

图2-20 8GPU Switch双上行节点板布局

表2-22 8GPU Switch双上行节点板布局说明

编号

说明

丝印

1

从右到左依次为PCIe 5.0 x16 slot 714

PCIe X16 SLOT7/GPU1PCIe X16 SLOT14/GPU8

2

从右到左依次为PCIe 5.0 x16 slot 14

PCIe X16 SLOT1/IO1PCIe X16 SLOT4/IO4

3

GPU计算模块电源接口1

PWR1

4

MCIO接口SW0-P0-A

SW0-P0-A

5

MCIO接口SW0-P0-C

SW0-P0-C

6

MCIO接口SW0-P1-A

SW0-P1-A

7

MCIO接口SW0-P1-C

SW0-P1-C

8

MCIO接口SW1-P1-A

SW1-P1-A

9

MCIO接口SW1-P1-C

SW1-P1-C

10

GPU计算模块电源接口3/4

PWR3/PWR4

11

GPU计算模块电源接口2

PWR2

12

MCIO接口slot4-A

SLOT4-A

13

MCIO接口slot1-A

SLOT1-A

14

MCIO接口slot1-C

SLOT1-C

15

MCIO接口slot2-B

SLOT2-B

16

MCIO接口slot2-D

SLOT2-D

17

MCIO接口slot3-C

SLOT3-C

18

MCIO接口slot3-A

SLOT3-A

19

MCIO接口SW0-x8

SW0-x8

20

MCIO接口SW1-P0-C

SW1-P0-C

21

MCIO接口SW1-P0-A

SW1-P0-A

22

MCIO接口SW1-x8

SW1-x8

23

MCIO接口slot4-C

SLOT4-C

·     PCIe5.0 x16含义如下:

¡     PCIe5.0:第代信号速率。

¡     x16总线带宽。

 

表2-23 8GPU Switch节点板的槽位CPU从属关系

槽位号

8GPU Switch双上行方案从属CPU

Slot 1

CPU1

Slot 2

CPU1

Slot 3

CPU2

Slot 4

CPU2

Slot 7

CPU1

Slot 8

CPU1

Slot 9

CPU1

Slot 10

CPU1

Slot 11

CPU2

Slot 12

CPU2

Slot 13

CPU2

Slot 14

CPU2

 

2.8  主板

介绍服务器主板布局和主板上的组件含义。

2.8.1  主板布局

图2-21 主板布局

 

 

表2-24 主板布局说明

序号

含义

丝印

1

服务器管理模块插槽

BMC CON

2

SATA/PCIe M.2 SSD卡接口(2个)

M.2 SSD1M.2 SSD2

3

TPM/TCM插槽

TPM

4

面板I/O接口

RIGHT EAR

5

SlimSAS接口1x4 SATA

SATA PORT1

6

SlimSAS接口3x4 SATA

SATA PORT3

7

SlimSAS接口2x4 SATA

SATA PORT2

8

GPU计算模块电源接口1

SW PWR1

9

GPU电源接口1

GPU PWR1

10

MCIO接口C1-P0A(从属于CPU 1

C1-P0A

11

LCD可触摸智能管理模块接口

DIAG LCD

12

MCIO接口C1-P4A(从属于CPU 1

C1-P4A

13

硬盘背板电源接口4

PWR4

14

MCIO接口C1-P4C(从属于CPU 1

C1-P4C

15

MCIO接口C1-P3C(从属于CPU 1

C1-P3C

16

MCIO接口C1-P3A(从属于CPU 1

C1-P3A

17

硬盘背板AUX接口2

AUX2

18

硬盘背板电源接口3

PWR3

19

硬盘背板电源接口2

PWR2

20

硬盘背板AUX接口1

AUX1

21

MCIO接口C2-P4A(从属于CPU 2

C2-P4A

22

MCIO接口C2-P4C(从属于CPU 2

C2-P4C

23

MCIO接口C2-P3C(从属于CPU 2

C2-P3C

24

硬盘背板电源接口2

PWR2

25

MCIO接口C2-P3A(从属于CPU 2

C2-P3A

26

MCIO接口C2-P2C(从属于CPU 2

C2-P2C

27

GPU计算模块电源接口2

SW PWR2

28

GPU电源接口8

GPU PWR8

29

系统电池

-

30

开箱检测模块、前部VGAUSB 3.0接口和HDM专用管理接口

LEFT EAR

31

MCIO接口C2-DMI(从属于CPU 2

C2-DMI

32

GPU电源接口7

GPU PWR7

33

NVMe VROC模块接口

NVMe RAID KEY

34

中置RAID转接板电源接口

PWR

35

GPU电源接口6

GPU PWR6

36

内置USB 2.0接口

INTERNAL USB2.0

37

GPU电源接口5

GPU PWR5

38

OCP 3.0网卡AUX接口

OCP AUX

39

OCP 3.0网卡电源接口

OCP PWR

40

NCSI接口

NCSI

41

GPU电源接口4

GPU PWR4

42

GPU电源接口3

GPU PWR3

43

GPU电源接口2

GPU PWR2

44

MCIO接口C1-P0C(从属于CPU 1

C1-P0C

45

MCIO接口C1-P1D(从属于CPU 1

C1-P1D

46

MCIO接口C1-P1B(从属于CPU 1

C1-P1B

47

MCIO接口C2-P2A(从属于CPU 1

C1-P2A

48

MCIO接口C1-P2C(从属于CPU 1

C1-P2C

49

GPU电源接口9

GPU PWR9

50

GPU电源接口10

GPU PWR10

51

MCIO接口C2-P0A(从属于CPU 2

C2-P0A

52

MCIO接口C2-P0C(从属于CPU 2

C2-P0C

53

MCIO接口C2-P1D(从属于CPU 2

C2-P1D

54

MCIO接口C2-P1B(从属于CPU 2

C2-P1B

55

MCIO接口C2-P2A(从属于CPU 2

C2-P2A

X

系统维护开关

MAINTENANCE SW

 

2.8.2  系统维护开关

系统维护开关有8个拨码,如图2-22所示。

图2-22 系统维护开关

R6700-G3_047

 

通过系统维护开关,可解决以下问题,具体请参见表2-25。系统维护开关的具体位置请参见主板布局

·     忘记HDM登录用户名或密码,无法登录HDM

·     忘记BIOS密码,无法进入BIOS

·     需要恢复BIOS缺省设置。

表2-25 系统维护开关说明

位置

含义(缺省均为OFF

注意事项

1

OFF = 登录HDM时,需要输入用户名和密码

ON = 登录HDM时,需要输入缺省用户名和密码

位置1ON时,可永久通过缺省用户名和缺省密码登录HDM。建议完成操作后,重新将位置1调整为OFF

5

OFF = 正常启动服务器

ON = 恢复BIOS缺省设置

服务器关机状态下,将位置5调整到ON状态,然后再调整到OFF状态,最后启动服务器,BIOS即可恢复缺省设置。

注意

当开关5调整为ON状态后,服务器将无法启动。所以,请在开关5调整为ON状态前,停止正在运行的业务并确保服务器已关机,否则可能造成业务数据丢失。

6

OFF = 正常启动服务器

ON = 启动服务器时清除BIOS的所有密码

位置6ON时,每次启动服务器均会清除BIOS的所有密码。建议BIOS密码设置完成后,重新将位置6调整为OFF

2,3,4,7,8

预留

 

2.8.3  DIMM插槽

DIMM插槽布局如图2-23所示,A0B0…H0表示内存插槽号。DIMM的具体安装准则请参见内存

图2-23 内存插槽编号

 

2.9  硬盘

介绍如下内容:

·     所有硬盘配置对应的硬盘编号(硬盘编号

·     硬盘指示灯的含义(硬盘指示灯

2.9.1  硬盘编号

硬盘编号,即硬盘的物理槽位号,用于指示硬盘位置,与服务器前后面板上的丝印完全一致。

硬盘的物理编号和硬盘在软件(HDMBIOS)上显示编号的对应关系,请参见附录C 硬盘槽位号对应关系表。

图2-24 24LFF硬盘编号

 

图2-25 12LFF硬盘编号

 

 

2.9.2  硬盘指示灯

服务器支持SAS/SATA硬盘和NVMe硬盘。硬盘通过硬盘指示灯指示硬盘状态。硬盘指示灯位置如2-26所示。

图2-26 硬盘指示灯

(1):硬盘Fault/UID指示灯

(2):硬盘Present/Active指示灯

 

SAS/SATA硬盘支持热插拔,指示灯含义请参见表2-26

表2-26 SAS/SATA硬盘指示灯说明

硬盘Fault/UID指示灯(橙色/蓝色)

硬盘Present/Active指示灯(绿色)

说明

橙色灯闪烁(0.5Hz

常亮/闪烁(4Hz

硬盘预告性故障报警,请及时更换硬盘

橙色灯常亮

常亮/闪烁(4Hz

硬盘出现故障,请立即更换硬盘

蓝色灯常亮

常亮/闪烁(4Hz

硬盘状态正常,且被阵列管理工具选中

灯灭

闪烁(4Hz

硬盘在位,有数据读写操作或正在进行阵列迁移/重建

灯灭

常亮

硬盘在位,但没有数据读写操作

灯灭

灯灭

硬盘未安装到位

 

NVMe硬盘支持预知性热拔和热插拔,指示灯含义请参见表2-27

表2-27 NVMe硬盘指示灯说明

硬盘Fault/UID指示灯(橙色/蓝色)

硬盘Present/Active指示灯(绿色)

说明

橙色灯闪烁(0.5Hz)

灯灭

硬盘已完成预知性热拔出流程,允许拔出硬盘

橙色灯闪烁(4Hz)

灯灭

硬盘处于热插入过程

橙色灯常亮

常亮/闪烁(4Hz)

硬盘出现故障,请立即更换硬盘

蓝色灯常亮

常亮/闪烁(4Hz)

硬盘状态正常,且被阵列管理工具选中

灯灭

闪烁(4Hz)

硬盘在位,有数据读写操作或正在进行阵列迁移/重建

灯灭

常亮

硬盘在位,但无数据读写操作

灯灭

灯灭

硬盘未安装到位

 

2.10  硬盘背板

介绍服务器支持的硬盘背板,包括:背板的组件、背板支持的硬盘类型和数量。

·     硬盘背板按支持的硬盘类型分类,可以分为SAS/SATA硬盘背板、UniBay硬盘背板硬盘背板(X SAS/SATA+Y UniBay)。

¡     SAS/SATA硬盘背板:所有硬盘槽位仅支持SAS/SATA硬盘。

¡     UniBay硬盘背板:所有硬盘槽位同时支持SAS/SATA硬盘和NVMe硬盘。

¡     硬盘背板(X SAS/SATA+Y UniBay:所有硬盘槽位均支持SAS/SATA硬盘,部分硬盘槽位支持NVMe硬盘。

-     X:仅支持SAS/SATA硬盘的槽位数量。

-     Y:同时支持SAS/SATA硬盘和NVMe硬盘的槽位数量。

说明

·     UniBay硬盘背板和硬盘背板(X SAS/SATA+Y UniBay)只有在同时连接了SAS/SATA数据线缆和NVMe数据线缆时,才能同时支持两种类型的硬盘。

·     UniBay硬盘背板和硬盘背板(X SAS/SATA+Y UniBay实际支持的SAS/SATA硬盘和NVMe硬盘数量,与布线方案有关,请以实际情况为准。

 

2.10.1  12LFF硬盘背板4SAS/SATA+8UniBay

12LFF硬盘背板(型号:BP-12LFF-R5300-G6)安装在机箱前部,最多支持123.5英寸硬盘,包括4SAS/SATA硬盘和8SAS/SATA/NVMe硬盘。背板组件说明如图2-27所示。

图2-27 12LFF硬盘背板

 

表2-28 12LFF硬盘背板组件说明

编号

说明

丝印

1

MCIO接口A3PCIe5.0 x4),支持NVMe硬盘(对应硬盘编号9

NVMe-A3

2

x4 SlimSAS接口

SATA PORT2

3

MCIO接口B1/B2PCIe5.0 x8),支持NVMe硬盘(对应硬盘编号67

NVMe-B1/B2

4

电源接口

PWR

5

AUX接口

AUX

6

x8 SlimSAS接口

SAS/SATA PORT1

7

MCIO 接口B3/B4PCIe5.0 x8),支持NVMe硬盘(对应硬盘编号45

NVMe-B3/B4

8

MCIO接口A4PCIe5.0 x4),支持NVMe硬盘(对应硬盘编号8

NVMe-A4

9

MCIO接口A1/A2PCIe5.0 x8),支持NVMe硬盘(对应硬盘编号1011

NVMe-A1/A2

·     PCIe5.0 x8含义如下

¡     PCIe5.0:第代信号速率。

¡     x8总线带宽

·     硬盘编号,请参见硬盘编号

 

2.10.2  24LFF硬盘背板16SAS/SATA+8UniBay

24LFF盘背板(BP-24LFF-R5300-G6安装在机箱前部,最多支持243.5英寸硬盘,包括16SAS/SATA硬盘和8SAS/SATA/NVMe硬盘。硬盘背板集成了Expander扩展芯片,可以通过一个x8 SlimSAS接口管理24SAS/SATA硬盘。背板组件说明如图2-28所示。

图2-28 24LFF硬盘背板

表2-29 24LFF硬盘背板组件说明

编号

说明

丝印

1

x8 SlimSAS接口

SAS PORT

2

MCIO接口1PCIe5.0 x8),支持NVMe硬盘(对应硬盘编号01

NVMe1

3

MCIO接口4PCIe5.0 x8),支持NVMe硬盘(对应硬盘编号67

NVMe4

4

MCIO接口2PCIe5.0 x8),支持NVMe硬盘(对应硬盘编号23

NVMe2

5

电源接口2

PWR2

6

MCIO接口3PCIe5.0 x8),支持NVMe硬盘(对应硬盘编号45

NVMe3

7

电源接口1

PWR1

·     PCIe5.0 x8含义如下

¡     PCIe5.0:第代信号速率。

¡     x8总线带宽

·     硬盘编号,请参见硬盘编号

 

2.11  LCD可触摸智能管理模块

LCD可触摸智能管理模块的外观如图2-29所示,组件说明如表2-30所示。

通过LCD可触摸智能管理模块,用户可查看服务器的基本信息、实时监控信息及故障信息,并可快速、准确地诊断发生故障的组件及其故障信息,同时结合HDM系统中的事件日志,即可获取该组件的详细故障信息,从而帮助用户快速排除故障,使服务器各组件和系统保持良好的运行状况。

详细信息请参见《LCD可触摸智能管理模块用户指南》。

图2-29 LCD可触摸智能管理模块

LCD_001

 

表2-30 LCD可触摸智能管理模块组件说明

序号

名称

说明

1

Mini-USB接口

用于LCD可触摸智能管理模块固件升级

2

LCD可触摸智能管理模块线缆

用于连接延长线缆,通过延长线缆连接至服务器上的LCD可触摸智能管理模块接口,接口位置请参见主板布局

3

LCD可触摸智能管理模块外壳

用于保护和固定LCD显示屏

4

LCD显示屏

用于服务器的基本信息、实时监控信息及故障等信息的显示

配置LCD可触摸智能管理模块时,请同时选配相关线缆,线缆编码及连接方式请参见连接LCD可触摸智能管理模块线缆

 

2.12  中置Riser

介绍服务器支持的中置Riser卡上的组件含义。

图2-30 中置Riser

 

表2-31 中置Riser卡组件说明

编号

说明

1

x8 MCIO接口

2

电源接口

3

PCIe5.0 x8 slot 1

PCIe5.0 x8含义如下:

·     PCIe5.0:第代信号速率。

·     x8总线带宽。

 

2.13  风扇模块

注意

严禁自行设定风扇转速,风扇长时间高转会极大的影响风扇使用寿命。

 

服务器最多支持4组热插拔风扇模块,每组风扇模块由2个风扇组成,风扇模块布局如图2-31所示。

服务器支持可变的风扇速度,即风扇会根据系统实际温度调整转速。转速策略上兼顾了系统散热和系统噪音,使系统的散热和噪音达到最优。

 

图2-31 风扇布局

 

2.14  服务器B/D/F信息

服务器的B/D/F信息可能会随着PCIe卡配置的调整而发生变化,用户可通过如下途径获取服务器的B/D/F信息:

·     BIOS串口日志:如已收集串口日志,可通过搜索关键词“dumpiio”,查询到服务器的B/D/F信息。

·     UEFI Shell:用户可通过pci命令获取服务器的B/D/Fpci命令具体使用方法可通过help pci命令获取。

·     操作系统下获取,不同操作系统下,获取方式会有所不同,具体方法如下:

¡     Linux操作系统下:可通过"lspci -vvv"命令获取服务器的B/D/F信息。

¡     Windows操作系统下:安装pciutils软件包后使用"lspci"命令获取服务器的B/D/F信息。

说明

·     如果操作系统没有默认支持"lspci -vvv"命令,可通过yum源获取、安装pci-utils软件包后支持。

·     Windows操作系统非本产品推荐操作系统。

 

¡     VMware操作系统下:VMware操作系统默认支持"lspci"命令,用户可直接通过"lspci"命令获取。

2.15  部件安装准则及相关信息

本章节介绍各个模块的安装准则。

2.15.1  CPU

1. CPU安装准则

·     服务器上的CPU必须满配。

·     为避免损坏CPU或主板,只限H3C授权人员或专业的服务器工程师安装CPU

·     请确保同一服务器上安装的CPU型号相同。

·     为避免CPU底座中针脚损坏,请确保在未安装CPU的底座中安装了CPU盖片。

·     为防止人体静电损坏电子组件,请在操作前佩戴防静电腕带,并将防静电腕带的另一端良好接地。

·     为防止在拆卸过程中由于CPU散热器温度过高导致烫伤,请在操作前做好热防护。

2. CPU产品型号后缀含义

CPU产品型号UN-CPU-INTEL-8490H的后缀为“H”(简称CPU产品型号后缀)。服务器支持的CPU产品型号可通过服务器兼容的部件查询工具查询。

Intel Eagle Stream CPU产品型号后缀含义如2-32所示

表2-32 Intel Eagle Stream CPU产品型号后缀说明

CPU产品型号后缀

后缀含义

后缀说明

P

Cloud – IaaS

IaaS场景优化,针对更高主频的虚拟机应用

V

Cloud – SaaS

SaaS场景优化,针对高密度、低功耗虚拟机应用

M

Media Transcode

媒体处理场景优化

H

DB and Analytics

数据库和分析优化

N

Network/5G/Edge(High TPT/Low Latency)

支持网络/5G/Edge(高吞吐量/低延迟)业务

S

Storage & HCI

支持存储和超融合架构

T

Long-life Use/High Tcase

支持高寿命使用/高温度规格

U

1-Socket

仅支持单路运行

Q

Liquid cooling

液冷专用CPU型号

本表提供的信息仅供参考,具体内容以Intel官网资料为准。

 

2.15.2  内存

内存,又称DIMM,服务器支持的内存为DDR5内存。

1. 内存基本概念

(1)     DDR5

服务器支持DDR5 RDIMM类型的内存,可提供地址奇偶校验保护功能。在服务器系统意外掉电时,DDR5中的数据会丢失。

(2)     Rank

内存RANK数量通常为1248,一般简写为1R/SR2R4R8R,或者Single-RankDual-RankQuad-Rank8-Rank

·     1R DIMM具有一组内存芯片,在DIMM中写入或读取数据时,将会访问这些芯片。

·     2R DIMM相当于一个模块中包含两个1R DIMM,但每次只能访问一个Rank

·     4R DIMM相当于一个模块中包含两个2R DIMM,但每次只能访问一个Rank

·     8R DIMM相当于一个模块中包含两个4R DIMM,但每次只能访问一个Rank

在内存中写入或读取数据时,服务器内存控制子系统将在内存中选择正确的Rank

(3)     内存规格

可通过内存上的标签确定内存的规格。不同DDR代系之间,其内存标签所表示的含义类似,本文以DDR5内存为例,介绍标签中各字符所指代的含义。

图2-32 内存标识

 

表2-33 内存标识说明

编号

说明

定义

1

容量

·     8GB

·     16GB

·     32GB

2

Rank数量

·     1R = Rank数量为1

·     2R = Rank数量为2

·     4R = Rank数量为4

·     8R = Rank数量为8

3

数据宽度

·     x4 = 4

·     x8 = 8

4

内存代数

DDR5

5

内存等效速度

4800B4800MT/s

6

内存类型

·     R = RDIMM

·     L = LRDIMM

 

2. 内存模式

服务器支持通过以下内存模式来保护内存中的数据。

说明

Independent Mode为缺省内存模式,在BIOS界面上无该配置选项。

 

·     Independent Mode(缺省)

·     Mirror Mode

Independent Mode

标准ECC可纠正1位内存错误、检测多位内存错误,当标准ECC检测到多位错误时,会通报给服务器并使服务器停止运行。独立模式下配合其他内存RAS技术可纠正一位或四位内存错误(当错误均位于内存上相同的DDR5颗粒时)。因而独立模式具有更强大的保护功能,可以纠正某些标准ECC无法纠正从而导致服务器停机的内存错误。

Mirror Mode

使用系统内存的一部分来做镜像,提高系统稳定性,以防出现无法纠正的内存错误而导致服务器停机,当检测到内存通道中发生无法纠正的错误时,服务器会从镜像内存中获取数据,镜像模式支持全镜像和部分镜像;全镜像模式下使用系统内存的一半作为镜像内存;部分镜像模式下可灵活的配置镜像模式内存容量。

3. 安装准则

服务器支持2CPU,每路CPU支持8个通道,每个通道支持2根内存,即服务器支持32根内存。服务器支持仅配置DDR5内存。

当内存非满配时,请在对应空槽位安装内存假面板。

内存和CPU的兼容性

内存和CPU的兼容性,如表2-34所示。

表2-34 内存和CPU的兼容性

CPU类型

CPU兼容的内存类型@速率

单颗CPU支持的最大内存容量

Sapphire Rapids

DDR5 @4800MT/s

6TB

Emerald Rapids

DDR5 @5600MT/s

4TB

 

内存运行速率

说明

内存速率、CPU支持的最高内存速率,均可以通过服务器兼容的部件查询工具查询。在查询工具中,内存速率通过“内存条”部件名称进行查询;CPU支持的最高内存速率通过“处理器”部件名称进行查询。

 

服务器中内存的运行速率,等于内存速率、CPU支持的最高内存速率两种中较小的值。比如:内存速率为4400MT/sCPU支持的最高内存速率为4800MT/s,则内存的运行速率为4400MT/s

另外,不同DPCDIMM Per Channel,每个通道中配置的内存数量)配置也会影响服务器的内存实际运行速率,具体如2-35所示:

表2-35 不同DPC配置下的内存实际运行速率

CPU类型

DDR5内存速率

DPC配置

内存实际运行速率

Sapphire Rapids

4800MT/s

1DPC

4800MT/s

2DPC

4400MT/s

Emerald Rapids

5600MT/s

1DPC

5600MT/s

2DPC

4400MT/s

 

仅配置DDR5时的内存安装准则

·     确保相应的CPU已安装到位。

·     在同一台服务器上优先配置相同编码相同规格(类型、容量、Rank速率等)的DDR5内存,产品编码信息请通过官网服务器兼容的部件查询工具进行查询。如涉及部件扩容或故障需替换成其他规格的内存时,请联系技术支持确认。

·     除上述准则外,不同内存模式还有各自特定的准则,具体请参见表2-36。需要注意的是,当实际内存安装不满足这些特定准则时,无论用户配置了何种内存模式,系统均会使用缺省的Independent Mode

表2-36 不同内存模式的特定安装准则

内存模式

特定安装准则

Independent Mode(缺省)

遵循一般的内存安装准则,具体如下:

·     2CPU在位时请按照图2-33图2-34进行配置。

Mirror Mode

·     2CPU在位时,仅16DIMMs32DIMMs配置下支持该模式。

·     2CPU在位时请按照图2-33图2-34进行配置。

 

说明

图2-33图2-34中,灰显的内存槽位(如D1)表示黑色的内存槽位,非灰显(如D0)的表示白色的内存槽位。

图2-33 2CPU内存配置指导(一)

 

图2-34 2CPU内存配置指导(二)

 

2.15.3  SAS/SATA硬盘

注意

·     一个硬盘属于多个RAID的情况会使后期维护变得复杂,并影响RAID的性能。

 

·     SAS/SATA硬盘在如下情况支持热插拔:

¡     通过存储控制卡控制的SAS/SATA硬盘,在进入BIOS或操作系统后,支持热插拔操作。

·     建议用户安装没有RAID信息的硬盘。

·     请确保组建同一RAID的所有硬盘类型相同,否则会因硬盘性能不同而造成RAID性能下降或者无法创建RAID。即同时满足如下两点:

¡     所有硬盘均为SASSATA硬盘。

¡     所有硬盘均为HDDSSD硬盘。

·     建议组建同一RAID的所有硬盘容量相同。当硬盘容量不同时,系统以最小容量的硬盘为准,即将所有硬盘容量都视为最小容量。

·     SAS/SATA硬盘的热插拔间隔建议大于30秒,否则可能导致该硬盘无法被系统识别。

2.15.4  NVMe硬盘

·     建议用户安装没有RAID信息的硬盘。

·     建议组建同一RAID的所有硬盘容量相同。当硬盘容量不同时,系统以最小容量的硬盘为准,即将所有硬盘容量都视为最小容量。对于容量较大的硬盘,其多余容量无法用于配置当前RAID,也无法用于配置其他RAID

·     NVMe硬盘是否支持热拔和预知性热拔,与操作系统有关。两者的兼容关系,可通过OS兼容性查询工具查询。

·     NVMe硬盘的热插拔间隔建议大于30秒,否则可能导致该硬盘无法被系统识别。

2.15.5  服务器管理模块

服务器管理模块安装在主板的服务器管理模块插槽中,可为服务器提供各类IO接口及HDM带外管理功能。

图2-35 服务器管理模块

 

表2-37 服务器管理模块说明

编号

说明

1

VGA接口

2

USB3.0接口(2个)

3

HDM专用网络接口

4

UID指示灯

5

HDM串口

6

风扇控制接口

7

iFIST扣卡

8

NCSI接口

 

2.15.6  存储控制卡及掉电保护模块

1. 存储控制卡简介

存储控制详细信息表2-38所示。

表2-38 存储控制卡说明

类型

存储控制卡型号

安装位置

是否支持掉电保护功能

安装方法

板载VROC阵列控制器

VROC板载软RAID

缺省内嵌于服务器主板PCH中,无需用户安装

不支持

不涉及

标准存储控制卡

RAID-LSI-9560-LP-8i-4GB

安装到中置Riser卡或GPU节点板上的PCIe插槽

支持,内置Flash需选配BAT-LSI-G3-A超级电容

参见更换标准存储控制卡及其掉电保护模块

RAID-P460-B2

支持,内置Flash需选配BAT-PMC-G3-2U超级电容

支持掉电保护的存储控制卡必须与对应的掉电保护模块或超级电容配合使用。

 

板载VROC阵列控制器规格信息如2-39所示,其他存储控制卡规格信息请查询服务器兼容的部件查询工具

表2-39 板载VROC阵列控制器规格

型号

项目

板载VROC阵列控制器

端口数

16个内置SATA接口

连接器类型

主板上提供3x4SlimSAS连接器

端口特性

支持6.0Gb/s SATA 3.0接口,支持对应硬盘热插拔

PCIe接口

PCIe2.0 x4位宽

RAID级别

RAID 0/1/5/10

位置/尺寸

位置:内嵌在主板的PCH

缓存

Flash

掉电保护

不支持

超级电容接口

固件升级

BIOS升级

 

2. 掉电保护模块

掉电保护模块是一个总称,包含Flash卡和超级电容。Flash卡有两种,一种需要安装到存储控制卡上;另一种内嵌在存储控制卡上,无需用户安装。

服务器系统意外掉电时,超级电容可为Flash卡供电20秒以上,在此期间,缓存数据会从存储控制卡的DDR存储器传输到Flash卡中。由于Flash卡是非易失性存储介质,故可实现缓存数据的永久保存或者保存到服务器系统上电,存储控制卡检索到这些数据为止。

说明

安装超级电容后,可能会出现电量不足,此时无需采取任何措施,服务器上电后,内部电路会自动为超级电容充电并启用超级电容。关于超级电容的状态,通过HDMBIOS可以查看。

 

超级电容寿命到期注意事项:

·     超级电容的寿命通常为3年~5年。

·     超级电容寿命到期时,可能导致超级电容异常,系统通过如下方式告警:

¡     对于PMC超级电容,HDM界面中的Flash卡状态会显示为“异常”+“状态码”,可通过解析状态码了解超级电容异常的原因,具体请参见HDM2联机帮助。

¡     对于LSI超级电容,HDM界面中的Flash卡状态会显示为“异常”。

¡     HDM会生成SDS日志记录,SDS日志的查看方法请参见HDM2联机帮助。

·     超级电容寿命到期时,需要及时更换,否则会导致存储控制卡的数据掉电保护功能失效。

说明

更换寿命到期的超级电容后,请检查存储控制卡的逻辑盘缓存状态,若存储控制卡的逻辑盘缓存被关闭,则需要重新开启逻辑盘缓存的相关配置以启用掉电保护功能,具体配置方法请参见HDM2联机帮助。

 

3. 安装准则

·     服务器仅支持配置单张标准存储控制卡,安装准则如下:

¡     请确保服务器上配置的所有存储控制卡的厂家相同(PMCLSI),服务器支持的存储控制卡及对应厂家请参见服务器兼容的部件查询工具

¡     配置8GPU Switch8GPU Switch双上行节点板时,标准存储控制卡支持安装到中置Riser卡上或slot 4。如果配置了中置Riser,则标准存储控制卡必须配置到中置Riser卡上,slot位置详见中置RiserGPU节点板布局

¡     配置4GPU8GPU直通节点板时,标准存储控制卡支持安装到中置Riser卡上或slot 3。如果配置了中置Riser,则标准存储控制卡必须配置到中置Riser卡上,slot位置详见中置RiserGPU节点板布局

·     支持掉电保护功能的存储控制卡必须与对应的掉电保护模块或超级电容配合使用。

·     存储控制卡适配的掉电保护模块或者超级电容的适配关系如表2-40所示。

表2-40 存储控制卡与超级电容适配关系

存储控制卡型号

掉电保护模块/超级电容型号

超级电容安装位置

RAID-LSI-9560-LP-8i-4GB

BAT-LSI-G3-A

导风罩上的超级电容槽位或机箱后部的超级电容槽位

RAID-P460-B2

BAT-PMC-G3-2U

 

2.15.7  GPU

1. 简介

服务器支持的GPU卡如2-41所示。服务器与兼容GPU卡的详细信息,请参见服务器兼容的部件查询工具

表2-41 GPU卡说明

GPU卡型号

适配GPU节点板

电源线缆

GPU-A10-24G

8GPU Switch节点板、8GPU直通节点板、4GPU直通节点板

0404A2CY

GPU-HP280-64GB

8GPU Switch节点板

0404A2CY

GPU-L40-48GB

8GPU Switch节点板、8GPU直通节点板、4GPU直通节点板

0404A223

GPU-BI-V150-64GB

8GPU Switch节点板

0404A22C

GPU-A30-24GB

8GPU Switch节点板、8GPU直通节点板、4GPU直通节点板

0404A22C

GPU-MTT-S4000-48GB

8GPU Switch节点板(仅支持AI并联拓扑)

0404A2F8

GPU-C500-64GB

8GPU Switch节点板(仅支持AI并联拓扑)

0404A2BX

GPU卡(0231AL4D

8GPU Switch节点板、8GPU直通节点板、4GPU直通节点板

0404A223

GPU卡(0231AKCL

8GPU Switch节点板、8GPU直通节点板、4GPU直通节点板

0404A22C

GPU卡(0231AMGC

8GPU Switch节点板、8GPU直通节点板、4GPU直通节点板

0404A223

GPU卡(0231ANF4

8GPU Switch节点板、8GPU直通节点板、4GPU直通节点板、8GPU Switch双上行节点板

0404A223

GPU卡(0231APKW

8GPU直通节点板

0404A223

 

2. 安装准则

·     配置4GPU直通计算模块时,支持安装4GPU卡,GPU的安装顺序依次为:slot9slot10slot11slot12

·     配置8GPU Switch8GPU Switch双上行8GPU直通计算模块时,支持安装8GPU卡,GPU的安装顺序依次为:slot7slot8slot9slot10slot11slot12slot13slot14

GPU计算模块槽位的具体位置请参见GPU计算模块

2.15.8  网卡

服务器支持OCP3.0网卡和标准PCIe网卡。

1. OCP网卡安装准则

·     OCP网卡通过OCP转接模块安装到服务器,OCP转接模块必须安装到主板上的OCP转接模块插槽,插槽的具体位置请参见2-21

·     OCP网卡支持热插拔,支持热插拔的操作系统,请通过OS兼容性查询工具查询。需要注意的是:

¡     对于支持OCP网卡热插拔的操作系统:

-     仅服务器上电前已经安装在位的OCP网卡,支持热插拔操作;同时,热插拔操作的OCP网卡必须同型号。若要更换不同型号的OCP网卡,请在服务器下电后进行更换。

-     服务器上电前未安装在位的OCP网卡,不支持热插操作;此时,请先将服务器下电,然后再安装OCP网卡,最后启动服务器。

¡     对于不支持OCP网卡热插拔的操作系统。请先将服务器下电,然后再更换OCP网卡,最后启动服务器。

2. 标准PCIe网卡安装准则

·     4GPU/8GPU直通机型中标准PCIe网卡必须安装在GPU计算模块上的PCIe slot 1PCIe slot 3,各slot的具体位置请参见GPU节点板布局

表2-42 4GPU/8GPU直通计算模块上标准PCIe网卡的安装准则

标准PCIe网卡配置数量(张)

Slot 1

Slot 3

1

×

2

·     √表示建议安装标准PCIe网卡的槽位。

·     ×表示不建议安装标准PCIe网卡的槽位。

·     如需使GPU计算模块上对应的slot可用,需要连接对应的线缆,不同应用场景线缆连接方法不同,详细信息请参见连接4GPU直通线缆连接8GPU直通线缆

 

·     8GPU Switch/8GPU Switch双上行机型中标准PCIe网卡必须安装在GPU计算模块上的PCIe slot 14,各slot的具体位置请参见GPU节点板布局

·     配置8GPU Switch/8GPU Switch双上行计算模块时,标准PCIe网卡的安装准则的详细信息请参见2-43

表2-43 8GPU Switch/8GPU Switch双上行计算模块上标准PCIe网卡的安装准则

标准PCIe网卡配置数量(张)

Slot 1

Slot 2

Slot 3

Slot 4

1

×

×

×

2

×

×

3

×

4

·     √表示建议安装标准PCIe网卡的槽位。

·     ×表示不建议安装标准PCIe网卡的槽位。

·     如需使GPU计算模块上对应的slot可用,需要连接对应的线缆,不同应用场景线缆连接方法不同,详细信息请参见连接8GPU-AI串联线缆连接8GPU-AI并联线缆连接8GPU-HPC线缆连接8GPU Switch双上行线缆

 

2.15.9  SATA M.2 SSD

·     为确保SATA M.2 SSD卡配置RAID时的可靠性,建议安装2张相同型号的SATA M.2 SSD卡。

·     SATA M.2 SSD卡建议用于安装操作系统。

2.15.10  电源模块

说明

电源模块的规格信息,请参见各电源模块的电源手册。

 

·     请确保服务器上安装的所有电源模块型号相同。HDM会对电源模块型号匹配性进行检查,如果型号不匹配将提示严重告警错误。

·     电源模块支持热插拔。

·     请勿使用第三方电源模块,否则可能会导致硬件损坏。

·     服务器支持N+N电源模块冗余。

·     当电源模块温度超过正常工作温度,电源将自动关闭,当温度恢复到正常范围后,电源将会自动开启。

·     电源模块与空开的适配关系:型号为DPS-2400EB B的电源模块,采用快熔型20A保险丝(I2t=72A²sec),为避免电源模块故障导致前级空开跳闸,使用时请注意电源模块与空开的适配关系:空开与电源模块保险丝配合存在同时断开的概率,空开的电流规格越大误触发概率越低。建议选择电流规格较大的空开,如:施耐德厂家的IC65N C32A型号、ABB厂家的S201M-C32S202M C32 DC 2P型号空开等。

2.15.11  风扇模块

说明

风扇模块的规格信息,请参见各风扇模块的风扇手册。

 

·     服务器上电前,风扇模块必须满配,即4个风扇模块必须同时在位。

·     服务器支持N+1风扇冗余,即支持单风扇失效冗余。


3 安装和拆卸服务器

介绍安装和拆卸服务器的操作方法。

3.1  安装流程

服务器安装流程如图3-1所示。

图3-1 安装流程

 

3.2  安装规划

在安装服务器前,请先规划和准备满足设备正常运行的物理环境,包括空间和通风、温度、湿度、洁净度、高度和接地等。

3.2.1  机柜要求

机箱高4U,深度846mm,对机柜的要求如下:

·     标准19英寸机柜

·     建议机柜深度1200mm及以上。不同深度机柜的安装限制如表3-1所示,建议技术支持人员现场工勘,排除潜在问题。

表3-1 不同深度机柜的安装限制

机柜深度

安装限制

1000mm

·     不支持安装H3C CMA

·     如配置H3C滑道,可能存在滑道与PDU相互干涉的风险,需工勘确认是否可调整PDU的安装位置或配置合适尺寸的PDU。如不能满足,则建议使用托盘等其他的固定方式。

·     机箱后部需预留60mm走线空间。

1100mm

如安装H3C CMA,需确认CMA不会与机柜后部PDU干涉,否则请更换更大深度尺寸的机柜或者调整PDU的安装位置。

1200mm

需确认H3C CMA不会与机柜后部PDU、线缆等相互干涉,否则请调整PDU的安装位置。

 

·     机柜前方孔条距离机柜前门大于50mm

·     服务器在1200mm机柜中的安装建议,请参考图3-2

图3-2 服务器在1200mm机柜中的安装建议(机柜俯视图)

机柜尺寸建议与要求

(1):机柜深度,建议1200mm

(2):机柜前方孔条与机柜前门间距,大于50mm

 

·     建议PDU采用向后直出线的方式,以免与机箱之间产生干涉。

·     PDU采用侧向出线的方式,建议技术支持人员现场工勘,确认PDU是否会与机箱后部相互干涉。

 

服务器相关尺寸参数

 

(3):机柜前方孔条与机箱后端(含电源后部拉手,图中未展示)间距,为838mm

(4):机箱深度(含挂耳),为846mm

 

(5):机柜前方孔条与CMA后端间距,为984mm

(6):机柜前方孔条与滑道后端间距,为862mm

 

 

3.2.2  服务器的空气流动方向

服务器的空气流动方向如3-3所示。

图3-3 服务器机箱风道示意图

 

(1):机箱进风方向

(2):机箱出风方向

 

3.2.3  温度和湿度要求

为确保服务器正常工作,机房内需维持一定的温度和湿度。关于服务器环境温度和湿度要求,请参见2.2.2  技术参数

3.2.4  高度要求

为确保服务器正常工作,对机房的高度有一定要求,详细信息请参技术参数

3.2.5  腐蚀性气体浓度限值要求

1. 腐蚀性气体简介

腐蚀性气体可与设备内部的金属材料发生化学反应,不仅会腐蚀金属部件,加速设备老化,还容易导致设备故障。常见腐蚀性气体种类及来源如表3-2所示。

表3-2 常见腐蚀性气体种类及来源

种类

主要来源

H2S(硫化氢)

地热排出物、微生物活动、石油制造业、木材腐蚀和污水处理等

SO2(二氧化硫)、SO3(三氧化硫)

煤燃烧、石油产品、汽车废气、熔炼矿石、硫酸制造业和烟草燃烧等

S(硫磺)

铸工车间和硫磺制造业等

HF(氟化氢)

化肥制造业、铝制造业、陶瓷制造业、钢铁制造业、电子设备制造业和矿物燃烧

NOx(氮氧化物)

汽车尾气、石油燃烧、微生物活动和化学工业等

NH3(氨气)

微生物活动、污水、肥料制造业和地热排出物

CO(一氧化碳)

燃烧、汽车尾气、微生物活动和树木腐烂等

Cl2(氯气)、ClO2(二氧化氯)

氯制造业、铝制造业、锌制造业和废物分解等

HCl(氯化氢酸)

汽车尾气、燃烧、森林火灾和海洋的过程聚合物燃烧等

HBr(氢溴酸)、HI(氢碘酸)

汽车尾气等

O3(臭氧)

大气光化学过程(大部分包括一氧化氮和过氧氢化合物)

CnHn(烷烃)

汽车尾气、烟草燃烧、动物排泄物、污水和树木腐烂等

 

2. 数据中心机房腐蚀性气体浓度限值要求

数据中心机房内腐蚀性气体浓度限值建议满足ANSI/ISA 71.4标准中的腐蚀性气体G1等级要求,对应的铜测试片腐蚀产物厚度增长速率应低于300 Å/月,银测试片腐蚀产物厚度增长速率应低于200 Å/月。

说明

Å(埃)是表示长度的单位符号,1 Å等于100亿分之1米。

 

为满足G1等级的铜/银测试片腐蚀速率要求,数据中心机房内腐蚀性气体浓度建议值如3-3所示。

表3-3 数据中心机房腐蚀性气体浓度要求

气体

浓度ppb

H2S(硫化氢)

3

SO2(二氧化硫),SO3(三氧化硫)

10

Cl2(氯气)

1

NOx(氮氧化物)

50

HF(氟化氢)

1

NH3(氨)

500

O3(臭氧)

2

 

说明

·     表3-3中的ppbpart per billion)是表示浓度的单位符号,1ppb表示10亿分之1的体积比。

·     表3-3中腐蚀性气体浓度限值是基于数据中心机房相对湿度<50%及组内气体交互反应的结果。如果数据中心机房相对湿度每增加10%,则气体腐蚀等级相应增加1级。

 

由于产品受机房腐蚀性气体影响存在一定的差异性,各产品对机房腐蚀性气体浓度的具体要求请参见该产品的安装指导。

3. 非数据中心机房腐蚀性气体浓度限值要求

非数据中心机房内腐蚀性气体浓度限值建议满足IEC 60721-3-3:2002化学活性物质3C2等级的要求,如3-4所示。

表3-4 非数据中心机房内腐蚀性气体浓度要求

腐蚀性气体类别

平均值(mg/m3

最大值(mg/m3

SO2(二氧化硫)

0.3

1.0

H2S(硫化氢)

0.1

0.5

Cl2(氯气)

0.1

0.3

HCI(氯化氢)

0.1

0.5

HF(氟化氢)

0.01

0.03

NH3(氨气)

1.0

3.0

O3(臭氧)

0.05

0.1

NOx(氮氧化物)

0.5

1.0

 

说明

表3-4中的平均值为机房环境中腐蚀性气体的典型控制限值,一般情况下不建议超过该值要求。最大值是限值或峰值,每天达到限值的时间不超过30min

 

由于产品受机房腐蚀性气体影响存在一定的差异性,各产品对机房腐蚀性气体浓度的具体要求请参见该产品的安装指导。

4. 措施和建议

为达到上述要求,可对机房采取如下措施:

·     机房尽量避免建在腐蚀性气体浓度较高的地方。

·     机房不得与下水、排污、竖井、化粪池等管道相通,机房外部也应远离此类管道,机房入风口应背对这类污染源。

·     机房装修使用环保材料,应避免使用含硫、含氯的保温棉、橡胶垫、隔音棉等有机材料,同时含硫较多的石膏板也应避免使用。

·     柴油、汽油机应单独放置,禁止与设备同处一个机房内;燃油机位于机房外部时,排风方向应在机房下风处,并远离空调进风口。

·     蓄电池应单独隔离放置,禁止和电子信息设备放在同一个房间。

·     定期请专业公司进行监测和维护。

3.2.6  洁净度要求

室内灰尘落在机体上,可能造成静电吸附,使金属接插件或金属接点接触不良,不但会影响设备使用寿命,而且容易引起通信故障。

1. 数据中心机房洁净度要求

数据中心机房内灰尘含量建议满足ISO 14644-1 8等级洁净度要求,具体要求见3-5

表3-5 数据中心机房灰尘含量要求

灰尘粒子直径

含量

备注

5μm

29300/m3

机房不应产生锌晶须粒子

1μm

832000/m3

0.5μm

3520000/m3

 

由于产品受灰尘粒子影响存在一定的差异性,各产品对灰尘粒子含量的具体要求请参见该产品的安装指导。

2. 非数据中心机房洁净度要求

非数据中心机房内灰尘粒子(直径≥0.5μm)的含量建议满足GB 50174-2017标准要求,即小于等于17600000/m3

由于产品受灰尘粒子影响存在一定的差异性,各产品对灰尘粒子含量的具体要求请参见该产品的安装指导。

3. 措施和建议

为达到上述要求,可对机房采取如下措施:

·     机房远离污染源,工作人员禁止在机房内吸烟、饮食。

·     建议门、窗加防尘橡胶条密封,窗户建议装双层玻璃并严格密封。

·     地面、墙面、顶面采用不起尘的材料,应刷无光涂料,不要刷易粉化的涂料,避免粉尘脱落。

·     经常打扫机房,保持机房整洁,并每月定期清洗机柜防尘网。

·     相关人员进入机房前应穿好防静电工作服、戴好鞋套,保持鞋套、防静电工作服清洁,经常更换。

3.2.7  接地要求

良好的接地系统是服务器稳定可靠运行的基础,是服务器防雷击、抗干扰、防静电及安全的重要保障。服务器通过供电系统的接地线缆接地,用户无需额外连接接地线缆。

3.2.8  存放要求

·     HDD硬盘断电存放时间建议小于6个月。

·     SSDM.2卡等存储介质,断电存放时间建议小于3个月,长期断电可能存在数据丢失的风险。

·     当服务器整机、HDD/SSD/M.2卡等存储介质需要断电存放3个月及以上时,建议每3个月至少上电运行一次,每次上电运行时间不少于2小时。服务器上电和下电的操作方法请参见上电和下电

3.3  工具准备

在安装、使用和维护服务器时,需准备以下工具和设备。

表3-6 工具要求

图示

名称

说明

T25 Torx星型螺丝刀

用于智能挂耳上的松不脱螺钉

T30 Torx星型螺丝刀

用于CPU散热器上的松不脱螺钉

T15 Torx星型螺丝刀(随服务器发货)

用于PCIe卡的固定螺钉,机箱内的松不脱螺钉等

T10 Torx星型螺丝刀(随服务器发货)

用于智能挂耳的固定螺钉等

一字螺丝刀

用于更换CPU

十字螺丝刀

用于通流铜柱的固定螺钉等

浮动螺母安装条

用于牵引浮动螺母,使其安装在机柜的固定导槽孔位上

斜口钳

用于剪切绝缘套管等

卷尺

用于测量距离

万用表

用于测量电阻、电压,检查电路

防静电腕带

用于操作服务器时使用

防静电手套

防静电服

梯子

用于高处作业

接口线缆(如网线、光纤)

用于服务器与外接网络互连

Type-CUSB连接线,转接USB Wi-Fi模块或U

·     外接第三方USB Wi-Fi模块时,可通过移动端上的HDM Mobile客户端访问HDM界面

·     外接U盘时,可在HDM界面下载SDS日志存储到U

说明

服务器是否支持USB Wi-Fi模块,请以实际情况为准

显示终端(如PC

用于服务器显示

温度计/湿度计

用于监控机房温度、湿度,是否满足设备稳定运行环境

示波器

用于测量电压和时序

 

3.4  安装服务器

介绍安装服务器的操作方法。

3.4.1  (可选)安装滑道

如果选购了滑轨,请将滑轨中的外轨安装到机柜,内轨安装到服务器。具体方法请参见滑轨附带的文档。

3.4.2  安装服务器

(1)     图3-4所示,将服务器推入机柜。具体方法请参见滑轨附带的文档。

图3-4 服务器推入机柜

Orch_136.png

 

(2)     固定服务器。图3-5所示,将服务器两侧挂耳紧贴机柜方孔条,打开智能挂耳的锁扣,用螺丝刀拧紧里面的松不脱螺钉。

图3-5 拧紧智能挂耳上的松不脱螺钉

R170_047.png

 

3.4.3  (可选)安装理线架

如果已配置理线架,请安装。具体方法请参见理线架附带的文档。

3.5  连接外部线缆

介绍服务器外部线缆的连接方法。

3.5.1  连接鼠标、键盘和VGA接口线缆

1. 操作场景

在对服务器进行BIOSHDMiFISTRAID以及进入操作系统等操作和配置时,可能需要连接鼠标、键盘和显示终端。

服务器可提供2DB15 VGA接口,用来连接显示终端。

·     前面板可提供1VGA接口。

·     后面板提供1VGA接口。

注意

前后面板上的2VGA接口不支持同时使用。

 

服务器未提供标准的PS2鼠标、键盘接口,您可通过前面板和后面板的USB接口,连接鼠标和键盘。根据鼠标、键盘的接口类型不同,连接方法有两种:

·     直接连接USB鼠标和键盘,连接方法与一般的USB线缆相同。

·     通过USBPS2线缆连接PS2鼠标和键盘。

2. 操作步骤

(1)     图3-6所示,将视频线缆的一端插入服务器VGA接口,并通过插头两侧的螺钉固定

图3-6 连接VGA接口

R170_048.png

 

(2)     将视频线缆的另一端插入显示终端的VGA接口,并通过插头两侧的螺钉固定。

(3)     图3-7所示,将USBPS2线缆的USB接口一端插入服务器USB接口,另一端的PS2接口分别连接到鼠标和键盘。

图3-7 连接USBPS2线缆

R170_048-USB转接线.png

 

3.5.2  连接网线

1. 操作场景

·     通过以太网接口搭建服务器的网络环境。

·     通过HDM专用网络接口,登录HDM管理界面进行服务器管理。

·     网络不通或网线长度不适合时,更换网线。

2. 操作步骤

(1)     确定服务器上的网络接口。

¡     通过网卡上的以太网接口将服务器接入网络。

¡     通过以下接口之一登录HDM进行设备管理。

-     HDM专用网络接口,HDM专用网络接口的具体位置请参见2.6.1  后面板组件

-     (可选)HDM共享网络接口。如果配置了OCP网卡,可通过OCP网卡的HDM共享网络接口登录HDM进行设备管理。

(2)     确定网线型号。

请确保网线导通(使用网线测试仪),网线型号与替换下的网线型号一致或兼容。

(3)     为网线编号。

¡     网线编号应与替换下的网线相同。

¡     建议使用统一规格的标签。在标签上分别填写本端设备和对端设备的名称、编号。

(4)     连接网线。如图3-8所示,将网线一端连接到服务器的以太网接口,另一端连接对端设备。

图3-8 连接网线

 

(5)     检查网线连通性。

服务器上电后,可使用ping命令检查网络通信是否正常。如果通信不正常,请交叉测试网线或检查网线接头是否插紧。

(6)     绑扎网线,具体请参见固定线缆

3.5.3  连接USB接口

1. 操作场景

服务器最多提供6USB接口:

·     4个位于前、后面板,用于连接经常插拔的USB设备。

·     2个位于内部,用于连接不经常插拔的USB设备。

以下情况需要连接USB接口:

·     服务器上电后,需要键盘和鼠标进行系统操作和设置。

·     通过连接USB设备传输数据或安装操作系统。

2. 操作注意事项

·     确保USB设备功能正常。

·     确保已将需要的数据拷贝到USB设备中。

3. 操作步骤

说明

·     USB接口支持热插拔。

·     建议用户使用H3C认证的USB设备。对于其他品牌的USB设备,不保证一定兼容。

 

(1)     (可选)如果用户要连接内部USB接口,请拆卸机箱盖,具体请参见拆卸和安装机箱盖

(2)     连接USB设备。内部USB接口所在位置请参见主板布局

(3)     (可选)如果已拆卸机箱盖,请安装,具体请参见拆卸和安装机箱盖

(4)     检查服务器能否识别USB设备。如果无法识别,请下载并安装USB设备的驱动程序;安装后如果仍然无法识别,请更换其他USB设备。

3.5.4  连接电源线缆

1. 操作注意事项

·     为避免人身伤害或设备损坏,请使用配套的电源线缆。

·     连接电源线缆前,请确保服务器和各个部件已安装完毕。

2. 操作步骤

(1)     图3-9所示,将电源线缆一端插入服务器后面板上的电源模块插口。

图3-9 连接电源线缆

R390X_033

 

(2)     将电源线缆另一端插入外部供电系统,如机柜的交流插线板。

(3)     为防止电源线缆意外断开,请固定电源线缆。

a.     (可选)当线扣离电源模块太近时,会导致电源线缆无法放入线扣中。此时请将线扣上的锁扣掰开,同时滑动线扣,如3-10中①和②所示

图3-10 向后滑动线扣

R390X_034

 

b.     图3-11中①和②所示,将线扣两端掰开,打开线扣。

c.     3-11中③和④所示,将电源线缆放入线扣中,并合上线扣。

图3-11 固定电源线缆

R390X_035

 

d.     图3-12所示,将线扣向前滑动,直到固定住电源线缆插头。

图3-12 固定电源线缆插头

 

3.5.5  固定线缆

完成所有布线后,可通过如下两种方法固定线缆。

1. 方法一:将线缆固定到理线架

具体方法请参见理线架附带的文档。

2. 方法二:使用线缆绑扎带将线缆固定到机柜滑道

说明

·     线缆绑扎带可以安装在左侧或右侧机柜滑道上,建议用户安装在左侧,以便更好的进行线缆管理。

·     在一个机柜中使用多个线缆绑扎带时,请交错排列绑扎带的位置,比如从上向下看时绑扎带彼此相邻,这种布置有利于滑道的滑动。

 

(1)     将线缆与机柜滑道贴紧。

(2)     用线缆绑扎带固定线缆。如图3-13①和②所示,将线缆绑扎带的末端穿过扣带,使绑扎带的多余部分和扣带朝向滑道外部。

图3-13 将线缆固定到机柜滑道

Orch_140.png

 

3.5.6  布线指导

·     所有线缆在走线时,请勿遮挡服务器的进出风口,否则会影响服务器散热。

·     确保线缆连接时无交叉现象,便于端口识别和线缆的插拔。

·     确保所有线缆都进行了有效标识,使用标签书写正确的名词,便于检索。

·     当前不需要装配的线缆,建议将其盘绕整理,绑扎在机柜的合适位置。

·     为避免触电、火灾或设备损坏,请不要将电话或通信设备连接到服务器的RJ45以太网接口。

·     使用理线架时,每条线缆要保持松弛,以免从机柜中拉出服务器时损坏线缆。

3.6  拆卸服务器

介绍拆卸服务器的操作方法。

(1)     将服务器下电,具体步骤请参见下电

(2)     断开所有外部线缆。

(3)     从机柜中拉出服务器。

3-14所示,打开智能挂耳上的锁扣,用螺丝刀拧松里面的松不脱螺钉,并沿滑轨将服务器从机柜中缓缓拉出。

图3-14 从机柜中拉出服务器

Orch_135.png

 

(4)     将服务器放在干净、平稳的防静电工作台或地面上,进行部件安装、更换和设备维护。


4 上电和下电

介绍服务器的上电和下电方法。

说明

在服务器连接了外部数据存储设备的组网中,请确保服务器是第一个下电且最后一个恢复上电的设备。该方法可确保服务器上电时,不会误将外部数据存储设备标记为故障设备。

 

4.1  上电

介绍服务器的上电方法。

4.1.1  操作场景

·     服务器安装完毕,上电运行。

·     服务器维护完毕,重新上电运行。

4.1.2  前提条件

·     服务器及内部部件已经安装完毕。

·     服务器已连接外部供电系统。

·     服务器关机后,如果需要立刻执行开机操作,为确保服务器内部各部件能正常工作,建议关机后等待30秒以上(确保HDD硬盘彻底静止、各电子部件彻底掉电),再执行开机操作。

4.1.3  操作步骤

根据场景不同,有四种上电方式。

1. 方式一:通过前面板上的开机/待机按钮为服务器上电

按下服务器前面板上的开机/待机按钮,使服务器上电。

此时服务器退出待机状态,电源向服务器正常供电。当系统电源指示灯由橙色常亮变为绿色闪烁,最后变为绿色常亮时,表明服务器完成上电。系统电源指示灯的具体位置请参见后面板指示灯

2. 方式二:通过HDM Web界面的电源管理为服务器上电

(1)     登录HDM Web界面,具体步骤请参见HDM2用户指南。

(2)     单击[系统管理/电源管理]菜单项,选择设备上下电页签。

(3)     单击“开机”按钮,完成操作。

3. 方式三:通过HDM Web界面的远程控制台为服务器上电

(1)     登录HDM Web界面,具体步骤请参见HDM2用户指南。

(2)     登录远程控制台,为服务器上电,具体方法请参见HDM2联机帮助。

4. 方式四:服务器自动上电

通过以下方法之一开启服务器自动上电功能后,服务器一旦连接外部供电系统,会自动上电。

·     通过HDM Web开启服务器自动上电功能。

a.     登录HDM Web界面,具体步骤请参见HDM2用户指南。

b.     单击[电源管理/电源配置]菜单项,选择设备上下电页签,进入AC恢复配置页面。

c.     选中“总是开启”,单击<保存>按钮,完成设置。

·     通过BIOS开启服务器自动上电功能。

d.     进入BIOS,具体步骤请参见产品的BIOS用户指南。

e.     选择Server页签 > AC Restore Settings,按Enter

f.     选择Always Power On,按Enter,然后按F4保存设置,完成操作。

4.2  下电

介绍服务器的下电方法。

4.2.1  操作场景

·     维护服务器。

·     服务器需要搬迁。

4.2.2  前提条件

·     下电前,请确保所有数据已提前保存。

·     下电后,所有业务将终止,因此下电前请确保服务器的所有业务已经停止或者迁移到其他服务器上。

4.2.3  操作步骤

根据场景不同,有四种下电方式。

1. 方式一:通过关闭操作系统为服务器下电

(1)     将显示器、鼠标和键盘连接到服务器,关闭服务器操作系统。

(2)     断开服务器与外部供电系统之间的电源线缆。

2. 方式二:通过前面板上的开机/待机按钮为服务器下电

·     服务器正常关机流程

a.     按下服务器前面板上的开机/待机按钮,使服务器下电。

b.     等系统电源指示灯变为橙色常亮时,断开服务器与外部供电系统之间的电源线缆。

·     服务器非正常关机流程

c.     按住服务器前面板上的开机/待机按钮5秒以上,使服务器下电。

说明

采用该方式,应用程序和操作系统为非正常关闭。当应用程序停止响应时,可采用这种方式。

 

d.     断开服务器与外部供电系统之间的电源线缆。

3. 方式三:通过HDM Web界面的电源管理为服务器下电

(1)     登录HDM Web界面,具体步骤请参见HDM2用户指南。

(2)     单击[系统管理/电源管理]菜单项,选择设备上下电页签。

(3)     单击“正常关机”按钮,完成操作。

(4)     断开服务器与外部供电系统之间的电源线缆。

4. 方式四:通过HDM Web界面的远程控制台为服务器下电

(1)     HDMWeb界面中的具体步骤请参见HDM2联机帮助。

(2)     断开服务器与外部供电系统之间的电源线缆。

 


5 配置服务器

介绍服务器安装完毕后,对其进行软件配置的过程。

5.1  配置流程

服务器配置流程如5-1所示。

图5-1 服务器配置流程

 

5.2  上电启动

(1)     服务器的上电操作步骤请参见上电

(2)     上电启动后,请检查服务器前面板的Health指示灯是否正常,正常状态为绿色常亮。关于Health指示灯的详细说明,请参见指示灯和按钮

5.3  设置BIOS

说明

BIOS Setup界面可能会不定期更新,请以产品实际显示界面为准。

 

介绍如何设置服务器启动顺序和BIOS密码。

5.3.1  设置服务器启动顺序

用户可以根据需要修改服务器的启动顺序。缺省启动顺序和启动顺序的修改方法,请参见产品的BIOS用户指南

5.3.2  设置BIOS密码

BIOS密码包括开机密码和BIOS Setup的管理员密码、用户密码。缺省情况下,系统没有设置任何密码。

为防止未授权人员设置和修改服务器的BIOS系统配置,请您同时设置BIOS Setup的管理员密码和用户密码,并确保两者密码不相同。

设置BIOS Setup的管理员密码和用户密码后,进入系统时,必须输入管理员密码或用户密码。

·     当输入的密码为管理员密码时,获取的BIOS权限为管理员权限。

·     当输入的密码为用户密码时,获取的BIOS权限为用户权限。

BIOS Setup的管理员权限和用户权限的区别以及管理员密码和用户密码的具体设置方法,请参见产品的BIOS用户指南。

BIOS密码的具体设置方法,请参见产品的BIOS用户指南。

5.4  配置RAID

存储控制卡型号不同,支持的RAID级别和配置RAID的方法会有所不同,详细信息请参见产品的存储控制卡用户指南。

5.5  安装操作系统和驱动程序

介绍如何安装操作系统和驱动程序。

5.5.1  安装操作系统

服务器兼容WindowsLinux多种类型的操作系统,详细信息请参见OS兼容性查询工具

安装操作系统的具体方法,请参见产品的操作系统安装指导。

5.5.2  安装驱动程序

服务器安装新硬件后,如果操作系统中没有该硬件的驱动程序,则该硬件无法使用。

安装驱动程序的具体方法,请参见产品的操作系统安装指导。

说明

更新驱动程序之前,请备份原驱动程序,以防止更新失败而导致对应硬件无法使用。

 

5.6  更新固件

说明

更新固件时,请注意软硬件版本之间的配套要求,详细信息请参见软件版本说明书。

 

介绍如何更新固件。

用户可通过UniSystemHDM更新以下固件,具体方法请参见产品的固件更新指导书

·     HDM

·     BIOS

·     CPLD

·     BPCPLD

·     PFRCPLD

·     OCPCPLD

·     PSU

·     GPUFPGA


6 更换部件

介绍服务器有哪些可更换部件,以及部件更换的详细操作步骤。

说明

·     更换多个部件时,请阅读所有部件的更换方法并确定相似更换步骤,以便简化更换过程。

·     本节包含了更换部件和扩容部件的操作,当两者操作步骤差异较大时,会分别进行介绍。当两者操作步骤相似时,仅介绍更换部件操作步骤;如果用户参考更换部件操作步骤进行扩容时,请提前拆卸部件假面板。

 

6.1  可更换的部件

服务器可更换部件如下:

·     智能安全面板

·     SAS/SATA硬盘

·     NVMe硬盘

·     GPU

·     标准PCIe网卡

·     OCP网卡

·     OCP转接模块

·     中置Riser

·     存储控制卡及其掉电保护模块

·     SATA M.2 SSD

·     CPU

·     内存

·     硬盘背板

·     CPU主板

·     GPU节点板

·     服务器管理模块

·     NVMe VROC模块

·     系统电池

·     电源模块

·     风扇模块

·     LCD可触摸智能管理模块

·     智能挂耳

·     加密模块

6.2  常用操作

6.2.1  拆卸和安装机箱盖

1. 拆卸机箱盖

(1)     如果机箱盖已上锁,请使用T15 Torx星型螺丝刀将箱盖扳手上的螺钉逆时针旋转90°到解锁标识,使其解锁。

(2)     按下机箱盖扳手并向上掰起,此时机箱盖会自动向机箱后方滑动。

(3)     向上抬起机箱盖,使其脱离机箱。

2. 安装机箱盖

(1)     请确保机箱盖扳手处于打开状态。按下扳手上的按钮并将扳手向上掰起。

(2)     安装机箱盖。

a.     将机箱盖水平向下放置,使机箱盖扳手上的孔对准机箱中的定位销。

b.     闭合机箱盖扳手,机箱盖会自动滑到闭合位置。

c.     (可选)如果需要为机箱盖上锁,请使用T15 Torx星型螺丝刀将机箱盖扳手上的螺钉顺时针旋转90°到锁定标识,锁定机箱盖。

6.2.2  拆卸和安装各模块槽位假面板

1. 操作场景

扩容以下模块时,需要拆卸对应的假面板;拆除模块后,需要安装对应的假面板:

·     硬盘

·     OCP网卡

·     电源模块

·     PCIe

2. 准备工作

请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

3. 操作步骤

表6-1 安装和拆卸所有模块假面板步骤

项目

操作步骤

拆卸步骤

安装步骤

硬盘假面板

相向按住假面板上的按钮,同时向外拉假面板

将假面板沿槽位推入

OCP网卡假面板

捏住假面板上的凸起,然后向外拉出假面板

将假面板水平推入槽位

电源模块假面板

将假面板水平向外拉出

TOP字样朝上,将假面板水平推入槽位

PCIe卡假面板

解除假面板的固定,将假面板向上提起

将假面板沿槽位插入,然后完成固定

 

6.3  更换智能安全面板

介绍如何更换智能安全面板。

6.3.1  更换场景

·     智能安全面板故障。

·     智能安全面板阻碍其他部件的维护操作。

6.3.2  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     更换部件前,请检查插槽或连接器,确保针脚没有损坏(比如针脚弯曲、连接器上有异物)。

·     智能安全面板支持热插拔。

6.3.3  更换步骤

1. 拆卸智能安全面板

(1)     用钥匙将面板解锁。插入钥匙,按压钥匙的同时,沿顺时针方向将钥匙旋转90°

注意

请勿在未按压钥匙的情况下,强行旋转钥匙,否则会导致锁损坏。

 

(2)     按下面板一侧的解锁按钮,同时将面板一侧向外拉。

(3)     将面板另一侧向外拉,拆卸完毕。

2. 安装智能安全面板

(1)     将面板一侧卡在机箱上。

(2)     按住面板上的按钮,同时将面板另一侧固定到机箱。

(3)     用钥匙锁住面板。向内按压钥匙的同时,沿逆时针方向将钥匙旋转90°,然后拔出钥匙。

注意

请勿在未按压钥匙的情况下,强行旋转钥匙,否则会导致锁损坏。

 

6.4  更换SAS/SATA硬盘

介绍如何更换硬盘。

6.4.1  更换场景

·     硬盘故障。

·     更换空间已满的硬盘。

·     更换其他型号的硬盘。

6.4.2  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     更换部件前,请检查插槽或连接器,确保针脚没有损坏(比如针脚弯曲、连接器上有异物)。

·     明确待更换硬盘在服务器中的安装位置。

·     明确待更换硬盘所属RAID信息。如果用户更换其他型号的硬盘或空间已满的硬盘,且待更换硬盘所属RAID无冗余功能,请提前备份RAID中的数据。

·     了解硬盘安装准则,具体请参见SAS/SATA硬盘

6.4.3  更换步骤

说明

·     通过存储控制卡控制的SAS/SATA硬盘,在进入BIOS或操作系统后,支持热插拔操作。

·     通过板载VROC阵列控制器控制的SATA硬盘,只有在进入操作系统后,才支持热插拔操作。

 

1. 拆卸SAS/SATA硬盘

(1)     通过硬盘的指示灯状态确认硬盘状态,判断其是否可以拆卸。指示灯详细信息请参见硬盘指示灯

(2)     拆卸硬盘。按下硬盘面板按钮,硬盘扳手会自动打开,然后从硬盘槽位中拔出硬盘。对于HDD硬盘,硬盘扳手自动打开后,先将硬盘向外拔出3cm,使硬盘脱机;然后等待至少30s,硬盘完全停止转动后,再将硬盘从槽位中拔出。

(3)     拆卸硬盘支架。移除硬盘支架上的所有固定螺钉,并将硬盘从硬盘支架上移除。

2. 安装SAS/SATA硬盘

说明

建议用户安装没有RAID信息的硬盘。

 

(1)     安装硬盘到硬盘支架。先将四颗固定螺钉固定到四个螺孔中,然后依次拧紧螺钉。

(2)     安装硬盘。将硬盘推入硬盘槽位,直到推不动为止,然后闭合硬盘扳手。

(3)     (可选)如果新安装的硬盘中有RAID信息,请清除。

(4)     当存储控制卡检测到新硬盘后,请根据实际情况确认是否进行RAID配置,详细信息请参见产品的存储控制卡用户指南。

3. 确认工作

可通过以下一种或多种方法判断硬盘工作状态,以确保硬盘更换成功。

·     登录HDM Web界面,查看配置RAID后的硬盘容量等信息是否正确。具体方法请参见HDM2联机帮助。

·     根据硬盘指示灯状态,确认硬盘是否正常工作。指示灯详细信息请参见硬盘指示灯

·     通过BIOS查看硬盘容量等信息是否正确。配置RAID的方法不同,BIOS下查看硬盘信息的具体方法也有所不同,详细信息请参见产品的存储控制卡用户指南。

·     进入操作系统后,查看硬盘容量等信息是否正确。

6.5  扩容NVMe硬盘

介绍如何扩容NVMe硬盘。

6.5.1  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     更换部件前,请检查插槽或连接器,确保针脚没有损坏(比如针脚弯曲、连接器上有异物)。

·     明确待更换硬盘在服务器中的安装位置。

·     明确待更换硬盘所属RAID信息。如果用户更换其他型号的硬盘或空间已满的硬盘,且待更换硬盘所RAID无冗余功能,请提前备份RAID的数据。

·     了解硬盘安装准则,具体请参见NVMe硬盘

6.5.2  安装步骤

说明

部分操作系统下NVMe硬盘支持热插操作,详细信息请查看OS兼容性查询工具

 

(1)     (可选)拆卸安全面板。解锁安全面板并将安全面板移出。

(2)     安装硬盘到硬盘支架。先将四颗固定螺钉固定到四个螺孔中,然后依次拧紧螺钉。

(3)     安装NVMe硬盘。

¡     NVMe硬盘支持热插操作时,详细操作方法请参见NVMe硬盘在线更换操作指导。

¡     NVMe硬盘不支持热插操作时,请执行步骤(4)(6)

(4)     请将服务器下电,具体参见下电

(5)     将硬盘推入硬盘槽位,然后闭合硬盘扳手。

(6)     (可选)安装安全面板。将安全面板一侧卡在机箱上,然后将另一侧固定到机箱并使用钥匙锁住面板。

6.5.3  确认工作

可通过以下一种或多种方法判断NVMe硬盘工作状态,以确保NVMe硬盘安装成功。

·     登录HDM Web界面,查看NVMe硬盘容量等信息是否正确。具体方法请参见HDM2联机帮助。

·     根据NVMe硬盘指示灯状态,确认NVMe硬盘是否正常工作。指示灯详细信息请参见硬盘指示灯

·     通过BIOS查看NVMe硬盘容量等信息是否正确。详细信息请参见产品的BIOS用户指南。

·     进入操作系统后,查看NVMe硬盘容量等信息是否正确。

6.6  更换NVMe硬盘

介绍如何更换NVMe硬盘。

6.6.1  更换场景

·     硬盘故障。

·     更换空间已满的硬盘。

·     更换其他型号的硬盘。

6.6.2  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     更换部件前,请检查插槽或连接器,确保针脚没有损坏(比如针脚弯曲、连接器上有异物)。

·     明确待更换硬盘在服务器中的安装位置。

·     明确待更换硬盘所属RAID信息。如果用户更换其他型号的硬盘或空间已满的硬盘,且待更换硬盘所属RAID无冗余功能,请提前备份RAID中的数据。

·     了解硬盘安装准则,具体请参见NVMe硬盘

6.6.3  更换步骤

说明

·     部分操作系统下NVMe硬盘支持热插入和预知性热拔,,具体请参见NVMe硬盘在线更换操作指导。

·     在不支持NVMe硬盘热拔和预知性热拔的操作系统下,如需更换正常的NVMe硬盘,请先将服务器下电,具体参见下电

 

1. 拆卸NVMe硬盘

(1)     通过OS兼容性查询工具,查询NVMe硬盘在操作系统下是否支持热拔或者预知性热拔。

¡     均不支持,请将服务器下电,具体步骤请参见下电;然后,请执行步骤(2)(3)

¡     支持,拆卸NVMe硬盘的详细操作方法请参见NVMe硬盘在线更换操作指导。

(2)     拆卸NVMe硬盘。按下硬盘面板按钮,硬盘扳手会自动打开,然后从硬盘槽位中拔出硬盘。

(3)     拆卸硬盘支架。移除硬盘支架上的所有固定螺钉,并将硬盘从硬盘支架上移除。

2. 安装NVMe硬盘

(1)     请判断是否通过预知性热拔或者热拔的方式,拔出的NVMe硬盘。

¡     是,安装硬盘的详细操作方法请参见NVMe硬盘在线更换操作指导。

¡     否,请执行步骤(2)(3)

(2)     安装硬盘到硬盘支架。先将四颗固定螺钉固定到四个螺孔中,然后依次拧紧螺钉。

(3)     安装NVMe硬盘。

a.     (可选)拆卸硬盘假面板。

b.     按下硬盘面板按钮,硬盘扳手会自动打开。

c.     将硬盘推入槽位,直到推不动为止。

d.     闭合硬盘扳手,直到听见咔哒一声。

6.6.4  确认工作

可通过以下一种或多种方法判断NVMe硬盘工作状态,以确保NVMe硬盘安装成功。

·     登录HDM Web界面,查看NVMe硬盘容量等信息是否正确。具体方法请参见HDM2联机帮助。

·     根据NVMe硬盘指示灯状态,确认NVMe硬盘是否正常工作。指示灯详细信息请参见硬盘指示灯

·     通过BIOS查看NVMe硬盘容量等信息是否正确。详细信息请参见产品的BIOS用户指南。

·     进入操作系统后,查看NVMe硬盘容量等信息是否正确。

6.7  更换GPU

介绍如何更换GPU卡。

6.7.1  更换场景

·     GPU卡故障

·     更换其他型号的GPU卡。

·     GPU卡阻碍其他部件维护。

6.7.2  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     更换部件前,请检查插槽或连接器,确保针脚没有损坏(比如针脚弯曲、连接器上有异物)。

·     了解GPU卡安装准则,具体请参见GPU

6.7.3  更换步骤

说明

满配GPU状态下,更换单个GPU时,需要同时拆卸其相邻的一张GPU卡,才能有足够空间插拔主板上对应的GPU电源线缆。

 

1. 拆卸GPU

(1)     将服务器下电。具体步骤请参见下电

(2)     拆卸机箱盖具体步骤请参见拆卸和安装机箱盖

(3)     拆卸GPU卡。

a.     (可选)若GPU卡配置了NVLink Bridge模块,请先拆卸NVLink Bridge模块,然后安装GPU卡上的NVLink Bridge接口保护盖。

b.     断开GPU卡上连接的电源线缆。

c.     拆卸GPU卡。将GPU卡从PCIe插槽中拔出。

d.     (可选)移除节点板上连接的GPU卡电源线缆。

2.  安装GPU

(1)     (可选)若GPU卡附带有固定片,请将固定片安装到GPU卡上。使固定片上的螺钉孔和GPU卡上的螺钉孔对齐,然后用螺钉将固定片固定到GPU卡上。

(2)     (可选)若GPU卡需要配置NVLink Bridge模块,请先拆卸 GPU卡上的NVLink Bridge接口保护盖,以便后续安装NVLink Bridge模块。

(3)     安装GPU卡到服务器。

a.     (可选)根据电源线缆上的标签,将GPU卡电源线缆的其中一端连接到节点板上的电源接口。

b.     沿PCIe插槽插入GPU卡。

c.     根据电源线缆上的标签,将GPU卡电源线缆的另一端连接到GPU卡上的电源接口。

d.     (可选)若GPU卡需要配置NVLink Bridge模块,请将NVLink Bridge模块接口对准相邻两张GPU卡的NVLink Bridge接口后向下按入。

(4)     安装机箱盖。具体步骤请参见拆卸和安装机箱盖

(5)     将服务器上电。具体步骤请参见上电

6.8  更换标准PCIe网卡

介绍如何更换标准PCIe网卡。

6.8.1  更换场景

·     标准PCIe网卡故障。

·     更换其他型号的标准PCIe网卡。

6.8.2  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     更换部件前,请检查插槽或连接器,确保针脚没有损坏(比如针脚弯曲、连接器上有异物)。

·     了解网卡安装准则,具体请参见网卡

6.8.3  更换标准PCIe网卡

1. 拆卸标准PCIe网卡

(1)     将服务器下电。具体步骤请参见下电

(2)     拆卸机箱盖。具体步骤请参见拆卸和安装机箱盖

(3)     拆卸标准PCIe网卡。将网卡解除固定后,向上拔出网卡,使其脱离PCIe插槽。

2. 安装标准PCIe网卡

(1)     安装标准PCIe网卡到服务器。沿PCIe插槽插入网卡,并完成固定。

(2)     安装机箱盖。具体步骤请参见拆卸和安装机箱盖

(3)     将服务器上电。具体步骤请参见上电

6.9  更换OCP网卡

介绍如何更换OCP网卡。

6.9.1  更换场景

·     OCP网卡故障。

·     更换其他型号的OCP网卡。

6.9.2  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     更换部件前,请检查插槽或连接器,确保针脚没有损坏(比如针脚弯曲、连接器上有异物)。

·     了解网卡安装准则,具体请参见网卡

6.9.3  更换OCP网卡

说明

·     服务器支持OCP网卡预知性热插拔,具体操作请参见附录B

·     本节仅介绍在服务器下电后更换OCP网卡步骤。

 

1. 拆卸OCP网卡

(1)     (可选)将服务器下电,具体步骤请参见下电

(2)     (可选)断开OCP网卡上的连接的所有外部线缆。

(3)     拆卸OCP网卡。

a.     按下OCP转接模块上的ATTN BUTTON按钮,等待服务器后面板上的POWER指示灯和ATTN BUTTON指示灯均变成灯灭。

说明

·     POWER指示灯从绿色闪烁变成灯灭的时长约为10秒。

·     OCP转接模块上的ATTN BUTTON按钮和POWER指示灯位置及含义请参见后面板指示灯

 

b.     拧开OCP网卡的松不脱螺钉,然后将OCP网卡从槽位中拔出。

2. 安装OCP网卡

(1)     安装OCP网卡

a.     OCP网卡推入槽位,然后拧紧网卡上的松不脱螺钉。

b.     按下OCP转接模块上的ATTN BUTTON按钮,此时服务器后面板上的POWER指示灯会从绿色闪烁变为绿色常亮。

(2)     (可选)连接OCP网卡上已断开的线缆。

(3)     (可选)将服务器上电。具体步骤请参见上电

(4)     (可选)OCP网卡支持NCSI特性,可设置HDM共享网络接口。缺省情况下,OCP网卡上的Port1接口为HDM共享网络接口。用户可通过HDM Web界面,将其他接口设置为HDM共享网络接口,详细信息请参见HDM2联机帮助。需要注意的是,同一时间,仅支持将服务器的一个网口设置为HDM共享网络接口。

6.10  更换OCP转接模块

介绍如何更换OCP转接模块。

6.10.1  更换场景

OCP转接模块故障。

6.10.2  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     更换部件前,请检查插槽或连接器,确保针脚没有损坏(比如针脚弯曲、连接器上有异物)。

6.10.3  更换步骤

1. 拆卸OCP转接模块

(1)     将服务器下电。具体步骤请参见下电

(2)     拆卸服务器。具体步骤请参见拆卸服务器

(3)     (可选)如果安装了OCP网卡,请拆卸OCP网卡。拧开OCP网卡的松不脱螺钉,然后将OCP网卡从槽位中拔出。

(4)     拆卸机箱盖。具体步骤请参见拆卸和安装机箱盖

(5)     断开GPU计算模块上的所有线缆。

(6)     拆卸GPU节点板上的所有部件,如:网卡、存储控制卡、GPU等。

(7)     拆卸GPU节点板。

(8)     拆卸OCP转接模块。移除OCP转接卡上的所有固定螺钉,然后将转接卡向上抬起,使其脱离服务器。

2. 安装OCP转接模块

(1)     安装OCP转接模块。将OCP转接模块安装到OCP转接模块插槽上,然后拧紧转接模块的固定螺钉。

(2)     安装GPU节点板。

(3)     安装从GPU节点板上已拆卸的所有部件,如:网卡、存储控制卡、GPU等。

(5)     连接GPU计算模块上的所有线缆。

(6)     安装机箱盖。具体步骤请参见拆卸和安装机箱盖

(7)     (可选)安装已拆卸的OCP网卡,OCP网卡推入槽位,并拧紧网卡上的松不脱螺钉

(8)     安装服务器。具体步骤请参见安装服务器

(9)     将服务器上电。具体步骤请参见上电

6.11  更换中置Riser

介绍如何更换中置Riser卡。

6.11.1  更换场景

·     Riser卡故障。

·     存储控制卡故障。

·     安装其他型号的存储控制卡。

6.11.2  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     更换部件前,请检查插槽或连接器,确保针脚没有损坏(比如针脚弯曲、连接器上有异物)。

·     了解中置Riser卡安装准则,具体请参见存储控制卡及掉电保护模块

6.11.3  更换步骤

1. 拆卸中置Riser

(1)     将服务器下电。具体步骤请参见下电

(2)     拆卸服务器。具体步骤请参见拆卸服务器

(3)     拆卸机箱盖。具体步骤请参见拆卸和安装机箱盖

(4)     断开中置Riser卡连接在主板上的所有线缆。

(5)     拆卸带有存储控制卡的中置Riser卡。拧开转接板和机箱固定的一颗松不脱螺钉,将Riser卡从机箱内取出。

(6)     拆卸中置Riser卡上的存储控制卡。移除存储控制卡上的固定螺钉,然后将存储控制卡从插槽中拔出。

(7)     断开存储控制卡上的MiniSAS线缆。

2. 安装中置Riser

(1)     连接存储控制卡上的MiniSAS线缆。

(2)     安装存储控制卡到中置Riser卡上。沿PCIe插槽插入存储控制卡,然后用螺钉固定。

(3)     安装中置Riser卡到机箱侧壁。将中置Riser卡放在机箱侧壁对应位置,然后拧紧松不脱螺钉,将中置Riser卡固定到机箱侧壁。

(4)     连接中置Riser卡到主板上的所有线缆。

(5)     安装机箱盖。具体步骤请参见拆卸和安装机箱盖

(6)     安装服务器。具体步骤请参见安装服务器

(7)     将服务器上电。具体步骤请参见上电

6.12  更换标准存储控制卡及其掉电保护模块

介绍如何更换标准存储控制卡及其掉电保护模块。

6.12.1  操作场景

·     存储控制卡故障。

·     更换其他型号的存储控制卡。

·     存储控制卡阻碍其他部件的维护操作。

·     掉电保护模块故障。

·     掉电保护模块阻碍其他部件的维护操作。

6.12.2  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     更换部件前,请检查插槽或连接器,确保针脚没有损坏(比如针脚弯曲、连接器上有异物)。

·     更换为相同型号的存储控制卡,请明确待更换存储控制卡及BIOS信息。

¡     存储控制卡在服务器中的位置以及线缆连接方法。

¡     存储控制卡的型号、工作模式、固件版本。

¡     明确BIOS的启动模式。

¡     明确Legacy启动模式下存储控制卡的第一启动项设置。

·     更换为其他型号的存储控制卡,请提前备份待更换的存储控制卡所控制的硬盘中的数据并清除RAID配置信息。

·     了解存储控制卡及其掉电保护模块安装准则,具体请参见存储控制卡及掉电保护模块

6.12.3  更换步骤

1. 拆卸标准存储控制卡及其掉电保护模块

(1)     将服务器下电。具体步骤请参见下电

(2)     拆卸服务器。具体步骤请参见拆卸服务器

(3)     拆卸机箱盖。具体步骤请参见拆卸和安装机箱盖

(4)     拆卸标准存储控制卡。

a.     拆卸存储控制卡。将存储控制卡解除固定,向上拔出存储控制卡,使其脱离槽位

b.     断开存储控制卡上连接的所有线缆,然后将其移出机箱。

(5)     (可选)若需要更换标准存储控制卡上的Flash卡,请拆卸。移除Flash卡的固定螺钉,然后将Flash卡从槽位中拔出。

(6)     (可选)如果标准存储控制卡上已配置掉电保护模块或超级电容,请拆卸。

a.     拆卸Flash卡。移除Flash卡上的固定螺钉,然后拔出Flash卡。

b.     拆卸超级电容。向外掰开电容的固定卡扣,同时将电容从槽位中取出。

c.     拆卸超级电容固定座。向上掰开固定座底部的卡扣,同时从槽位中拉出固定座。

2. 安装标准存储控制卡及其掉电保护模块

(1)     (可选)安装超级电容及固定座

a.     安装超级电容固定座。将固定座水平向下放入机箱,然后沿箭头方向滑动,直到听见咔哒一声。

b.     连接超级电容转接线缆到超级电容一端。

c.     安装超级电容到固定座。斜置电容,将电容一端与固定座一端对齐,同时向外掰开固定座上的卡扣,将电容另一端放入固定座,通过卡扣将电容固定。

(2)     (可选)如果已配置掉电保护模块中Flash卡,请安装。

a.     将随掉电保护模块附带的螺柱安装到存储控制卡。

b.     安装Flash卡到标准存储控制卡。使Flash卡上的两个螺孔对准控制卡上的2个螺柱,向下插入Flash卡,并用螺钉固定。

(3)     安装标准存储控制卡到计算模块。

a.     连接存储控制卡上的所有线缆。

b.     沿PCIe插槽插入存储控制卡,并完成固定。

(4)     安装机箱盖。具体步骤请参见拆卸和安装机箱盖

(5)     安装服务器。具体步骤请参见安装服务器

(6)     将服务器上电。具体步骤请参见上电

6.13  更换SATA M.2 SSD

介绍如何更换SATA M.2 SSD卡。

6.13.1  更换场景

·     SATA M.2 SSD卡故障。

·     更换其他型号的SATA M.2 SSD卡。

6.13.2  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     更换部件前,请检查插槽或连接器,确保针脚没有损坏(比如针脚弯曲、连接器上有异物)。

·     了解SATA M.2 SSD卡安装准则,具体请参见SATA M.2 SSD

6.13.3  更换步骤

1. 拆卸SATA M.2 SSD

(1)     将服务器下电,具体步骤请参见下电

(2)     拆卸服务器。具体步骤请参见拆卸服务器

(3)     拆卸机箱盖。具体步骤请参见拆卸和安装机箱盖

(4)     断开GPU节点板上的所有线缆。

(5)     拆卸GPU节点板上的所有部件,如:网卡、存储控制卡、GPU等。

(6)     拆卸GPU节点板。

(7)     拆卸SATA M.2 SSD卡。按下SATA M.2 SSD卡的固定锁扣,卡的一端会自动弹起,然后将SATA M.2 SSD卡从插槽中拔出。

2. 安装SATA M.2 SSD

(1)     安装SATA M.2 SSD。将SATA M.2 SSD卡插入主板的SATA M.2 SSD卡插槽,然后将翘起的一端向下按压,锁扣会自动将SATA M.2 SSD卡固定

(2)     安装GPU节点板。

(3)     安装从GPU节点板上已拆卸的所有部件,如:网卡、存储控制卡、GPU等。

(4)     连接GPU节点板上的所有线缆。

(5)     安装机箱盖具体步骤请参见拆卸和安装机箱盖

(6)     安装服务器。具体步骤请参见安装服务器

(7)     将服务器上电。具体步骤请参见上电

6.14  更换CPU

介绍如何更换CPU

6.14.1  更换场景

·     CPU故障。

·     更换其他型号的CPU

6.14.2  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     更换部件前,请检查插槽或连接器,确保针脚没有损坏(比如针脚弯曲、连接器上有异物)。

·     了解CPU安装准则,具体请参见CPU

6.14.3  更换步骤

注意

·     为避免损坏CPU或主板,只限H3C授权人员或专业的服务器工程师更换CPU

·     请确保同一服务器上安装的CPU型号相同。

·     为避免CPU底座中针脚损坏,请确保在未安装CPU的底座中安装了CPU盖片。

·     不同CPU适配的散热器可能不同,但是CPU更换方法类似。

·     为防止人体静电损坏电子组件,请在操作前佩戴防静电腕带,并将腕带的另一端良好接地。

 

1. 拆卸CPU

(1)     将服务器下电。具体步骤请参见下电

(2)     拆卸服务器。具体步骤请参见拆卸服务器

(3)     (可选)拆卸OCP网卡。

(4)     拆卸机箱盖。具体步骤请参见拆卸和安装机箱盖

(5)     (可选)拆卸中置Riser卡。

(6)     拆卸导风罩。

(7)     拆卸所有风扇模块。

(8)     拆卸风扇笼。将风扇笼两侧的扳手向上掰起,然后向上提起风扇笼,使其脱离服务器。

(9)     拆卸带有CPU的散热器。

a.     依次拧开散热器上的四颗松不脱螺钉

b.     扳动散热器上的四个丝扣,使其解锁。

c.     向上提起散热器,使其脱离服务器。

注意

CPU底座中的针脚极为脆弱,容易损坏。为避免该针脚损坏而导致更换主板,请勿触摸针脚。

 

(10)     拆卸CPU

a.     向上扳起扳手,使CPU的一端翘起。

b.     捏住CPU两侧,使其脱离夹持片。

(11)     拆卸夹持片。

a.     松开夹持片的四个角。将夹持片一角和其对角上的固定弹片向外掰开,夹持片另一角和其对角上的固定弹片向内推入。

b.     将夹持片向上抬起,使其脱离散热器。

(12)     清理残存的导热硅脂。用异丙醇擦拭布将CPU顶部和散热器表面清理干净,确保表面整洁干净。

2. 安装CPU

(1)     安装夹持片到散热器。

a.     闭合夹持片上的扳手。

注意

请确保夹持片上的扳手处于闭合状态,否则可能造成CPU无法安装到位。

 

b.     使夹持片上带有三角形标记的一角和散热器上带有缺口的一角对齐,向下放置并按压夹持片,直到听见咔哒提示音,夹持片的四个角和散热器的四个角已紧紧相扣。

(2)     在散热器上涂抹导热硅脂。用导热硅脂注射器将导热硅脂挤出0.6ml,然后采用五点法将导热硅脂均匀地涂抹在散热器表面。

注意

操作前,请确保散热器表面已清理干净,无残存导热硅脂。

 

(3)     安装CPU到夹持片。

注意

拿取CPU时,请小心夹持CPU的边缘,勿碰触CPU底面的触点,避免损坏CPU

 

a.     斜置CPU,使CPU上带有三角形标记的一角和夹持片上带有三角形标记的一角对齐,同时将CPU一端卡到夹持片一端的卡扣,2个拇指顶住散热器一端,同时将CPU另一侧向拇指端用力推并向下放置CPU

b.     向外掰开夹持片四周的卡扣,直到卡扣卡住CPU,使CPU安装到位。

(4)     将带有CPU和夹持片的散热器安装到服务器。

注意

请务必将随CPU发货的条码标签,粘贴到散热器侧面,覆盖散热器上原有条码标签,否则H3C将无法提供该CPU的后续保修服务。

 

a.     使夹持片上的三角形和CPU底座上带有缺口的一角对齐,散热器上的4个螺钉孔对准CPU底座上的4个导向销,将散热器向下放置在CPU底座上。

b.     扳动4个丝扣到锁定位置,以锁定带有CPU的散热器。

c.     使用T30 Torx星型螺丝刀,拧紧散热器上的4颗松不脱螺钉。

注意

请将螺丝刀扭矩调节到0.9N·m8in-lbs),否则可能会造成CPU接触不良或者损坏CPU底座中的针脚。

 

(5)     安装风扇笼。向下放置风扇笼,然后闭合风扇笼两侧的扳手。

(6)     安装风扇。

(7)     安装导风罩。

(8)     (可选)安装拆卸下的中置Riser卡。

(5)     安装机箱盖。具体步骤请参见拆卸和安装机箱盖

(6)     (可选)安装已拆卸的OCP网卡。

(9)     安装服务器。具体步骤请参见安装服务器

(10)     连接电源线缆。

(11)     将服务器上电。具体步骤请参见上电

6.14.4  确认工作

登录HDM Web界面,查看更换后的CPU工作状态是否正常。具体操作请参见HDM2联机帮助。

6.15  更换内存

介绍如何更换内存。

6.15.1  更换场景

·     内存故障。

·     更换其他型号的内存

·     内存阻碍其他部件维护。

6.15.2  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     更换部件前,请检查插槽或连接器,确保针脚没有损坏(比如针脚弯曲、连接器上有异物)。

·     了解内存安装准则,具体请参见内存

6.15.3  更换步骤

注意

拆卸和安装内存或内存假面板前,请务必确认两侧固定夹已打开,未打开状态下强行插拔可能会导致内存槽位针脚损坏。

 

1. 拆卸内存

(1)     将服务器下电。具体步骤请参见下电

(2)     拆卸服务器。具体步骤请参见拆卸服务器

(3)     拆卸机箱盖。具体步骤请参见拆卸和安装机箱盖

(4)     (可选)拆卸中置Riser卡。具体步骤请参见中置Riser

(5)     拆卸导风罩。

(6)     拆卸内存。打开内存插槽两侧的固定夹向上取出内存并放入防静电包装袋

注意

为避免内存或主板损坏,拆卸内存前,请确保服务器正常下电并且断开电源线缆20秒以上。

 

2. 安装内存

(1)     安装内存。先调整内存,使内存底边的缺口与插槽上的缺口对齐,然后均匀用力将内存沿插槽竖直插入,此时固定夹会自动锁住。请确保固定夹已锁住内存且咬合紧密

说明

内存插槽的结构设计可以确保正确安装。将内存插入插槽时如果感觉很费力,则可能安装不正确,此时请将内存调换方向后再次插入。

 

(2)     安装导风罩。

(3)     (可选)安装中置Riser卡。具体步骤请参见中置Riser

(4)     安装机箱盖。具体步骤请参见拆卸和安装机箱盖

(5)     安装服务器。具体步骤请参见安装服务器

(6)     将服务器上电。具体步骤请参见上电

6.15.4  确认工作

请通过以下任意方式查看显示的内存容量与实际是否一致。

·     操作系统:

Linux操作系统下,可通过cat /proc/meminfo命令查看。

·     HDM

登录HDM Web界面,查看内存容量。具体操作请参见HDM2联机帮助。

·     BIOS

选择Socket Configuration页签 > Memory Configuration > Memory Topology,然后按Enter,即可查看内存容量。

如果显示的内存容量与实际不一致,请重新插拔或安装内存。需要注意的是,当内存的内存模式为Mirror Mode,操作系统下显示的内存容量比实际内存容量小属于正常情况。

6.16  更换硬盘背板

介绍如何更换硬盘背板。

6.16.1  更换场景

硬盘背板故障。

6.16.2  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     更换部件前,请检查插槽或连接器,确保针脚没有损坏(比如针脚弯曲、连接器上有异物)。

6.16.3  更换步骤

1. 拆卸硬盘背板

(1)     将服务器下电。具体步骤请参见下电

(2)     拆卸服务器。具体步骤请参见拆卸服务器

(3)     (可选)拆卸所有前部假面板。使用细工具(如尖头镊子)穿过假面板右侧的散热孔,将假面板右侧撬起,然后顺势将假面板取出。

(4)     拆卸待更换硬盘背板上的所有硬盘。按下硬盘面板按钮,硬盘扳手自动打开,然后从槽位中拔出硬盘。

(5)     拆卸机箱盖。具体步骤请参见拆卸和安装机箱盖

(6)     拆卸所有风扇模块。向上翻起风扇模块的提手,握住提手将风扇模块向上提出,使其脱离服务器。

(7)     拆卸风扇笼。将风扇笼两侧的扳手向上掰起,然后向上提起风扇笼,使其脱离服务器。

(8)     拆卸硬盘背板。

a.     断开硬盘背板上的所有线缆。

b.     拧开硬盘背板上的松不脱螺钉。

c.     向上提起硬盘背板,使其脱离服务器。

2. 安装硬盘背板

(1)     安装硬盘背板。

a.     将背板向下放入槽位。

b.     然后拧紧背板上的松不脱螺钉。

c.     连接硬盘背板上的所有线缆。

(2)     安装风扇笼。向下放置风扇笼,然后闭合风扇笼两侧的扳手。

(3)     安装已拆卸的所有风扇模块。握持风扇提手,将风扇向下放入槽位。

(4)     安装机箱盖。具体步骤请参见拆卸和安装机箱盖

(5)     安装硬盘。将硬盘推入硬盘槽位,直到推不动为止,然后闭合硬盘扳手。

(6)     安装服务器。具体步骤请参见安装服务

(7)     将服务器上电。具体步骤请参见上电

6.17  更换CPU主板

介绍如何更换CPU主板。

6.17.1  更换场景

CPU主板故障。

6.17.2  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     更换部件前,请检查插槽或连接器,确保针脚没有损坏(比如针脚弯曲、连接器上有异物)。

6.17.3  更换步骤

1. 拆卸主板

(1)     ‍将服务器下电。具体步骤请参见下电

(2)     拆卸服务器。具体步骤请参见拆卸服务器

(3)     拆卸所有电源模块。按下电源模块弹片的同时,握持电源模块后部的拉手将电源模块从槽位中拔出。

(4)     (可选)拆卸OCP网卡。

(5)     拆卸机箱盖。具体步骤请参见拆卸和安装机箱盖

(6)     (可选)拆卸中置Riser卡。

(7)     拆卸导风罩。

(8)     拆卸所有风扇模块。

(9)     拆卸风扇笼。将风扇笼两侧的扳手向上掰起,然后向上提起风扇笼,使其脱离服务器。

(10)     断开GPU节点板上的所有线缆。

(11)     拆卸GPU节点板上的所有部件,如:网卡、存储控制卡、GPU等。

(12)     拆卸GPU节点板。

(13)     断开主板上的所有线缆。

(14)     拆卸GPU固定架。向上提起GPU固定架使其脱离机箱。

(15)     拆卸机箱侧壁的档线板。

(16)     拆卸主板上的所有部件,比如内存和CPU等。

(17)     安装CPU保护盖。

(18)     拆卸主板。

a.     拧开主板上的松不脱螺钉。

b.     通过主板提手向机箱前部轻推主板,直至主板与服务器管理模块相互分离,再慢慢抬起使其脱离机箱。

2. 安装主板

(1)     ‍安装主板。

a.     通过主板提手将主板缓缓向下放置到机箱中,在将主板上的服务器管理模块插槽对准服务器管理模块的接口位置后,利用主板提手向机箱后方轻推,使服务器管理模块上的接口嵌入到主板的插槽中。

说明

为确保主板安装到位,建议用户完成上述步骤后,通过主板提手向上抬起主板,观察主板是否能抬动,如果抬不动,说明主板已安装到位。

 

b.     拧紧主板上的松不脱螺钉。

(2)     拆卸CPU底座上盖片。握持盖片,然后向上拿起盖片。

(3)     安装从主板上已拆卸的所有部件,比如内存和CPU等。

(4)     安装GPU固定架。将GPU固定架对准定位销,缓缓放下直至完全固定。

(5)     安装机箱侧壁的档线板。

(6)     连接主板上断开的所有线缆。

(7)     安装GPU节点板。

(8)     安装GPU节点板上的所有部件,如:网卡、存储控制卡、GPU等。

(9)     安装GPU节点板上的所有线缆。

(10)     安装风扇笼。向下放置风扇笼,然后闭合风扇笼两侧的扳手。

(11)     安装风扇。

(12)     安装导风罩。

(13)     (可选)安装拆卸下的中置Riser卡。

(13)     安装机箱盖。具体步骤请参见卸和安装机箱盖

(14)     (可选)安装已拆卸的OCP网卡。

(15)     安装已拆卸的电源模块,先摆正电源模块,此时电源模块上的风扇位于电源模块左侧。将电源模块推入槽位,直到听见咔哒一声。

(16)     安装服务器。具体步骤请参见安装服务器

(17)     将服务器上电。具体步骤请参见上电

6.18  更换服务器管理模块

介绍如何服务器管理模块。

6.18.1  更换场景

服务器管理模块故障。

6.18.2  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     更换部件前,请检查插槽或连接器,确保针脚没有损坏(比如针脚弯曲、连接器上有异物)。

·     了解硬盘安装准则,具体请参见服务器管理模块

6.18.3  更换步骤

1. 拆卸服务器管理模块

(1)     ‍‍将服务器下电。具体步骤请参见下电

(2)     拆卸服务器。具体步骤请参见拆卸服务器

(3)     拆卸OCP网卡。

(4)     拆卸所有电源模块。

(5)     拆卸机箱盖。具体步骤请参见拆卸和安装机箱盖

(6)     (可选)拆卸中置Riser卡。

(7)     拆卸导风罩

(8)     拆卸风扇。

(9)     拆卸风扇笼。将风扇笼两侧的扳手向上掰起,然后向上提起风扇笼,使其脱离服务器。

(10)     断开主板上的所有线缆。

(11)     拆卸GPU固定架。向上提起GPU固定架使其脱离机箱。

(12)     拆卸机箱侧壁的档线板。

(13)     拆卸主板上的所有部件,比如内存和CPU等。

(14)     安装CPU保护盖。

(15)     拆卸主板。

a.     拧开主板上的松不脱螺钉。

b.     通过主板提手向机箱前部轻推主板,直至主板与服务器管理模块相互分离,再慢慢抬起使其脱离机箱。

(16)     拆卸服务器管理模块。向机箱前部轻推服务器管理模块,使内嵌在机箱后部的接口完全脱离服务器,向上提起服务器管理模块,直至脱离服务器。

2. 安装服务器管理模块

(1)     ‍‍安装服务器管理模块。将服务器管理模块向下放置到机箱后方指定位置,直至模块上的接口已完全内嵌在机箱后部。

(2)     安装主板。

a.     通过主板提手将主板缓缓向下放置到机箱中,在将主板上的服务器管理模块插槽对准服务器管理模块的接口位置后,利用主板提手向机箱后方轻推,使服务器管理模块上的接口嵌入到主板的插槽中。

说明

为确保主板安装到位,建议用户完成上述步骤后,通过主板提手向上抬起主板,观察主板是否能抬动,如果抬不动,说明主板已安装到位。

 

b.     拧紧主板上的松不脱螺钉。

(3)     拆卸CPU底座上盖片。握持盖片,然后向上拿起盖片。

(4)     安装从主板上已拆卸的所有部件,比如内存和CPU等。

(5)     安装GPU固定架。将GPU固定架对准定位销,缓缓放下直至完全固定。

(6)     安装机箱侧壁的档线板。

(7)     连接主板上断开的所有线缆。

(8)     安装GPU节点板。

(9)     安装GPU节点板上的所有部件,如:网卡、存储控制卡、GPU等。

(10)     安装GPU节点板上的所有线缆。

(11)     安装风扇笼。向下放置风扇笼,然后闭合风扇笼两侧的扳手。

(12)     安装风扇。

(13)     安装导风罩。

(14)     (可选)安装拆卸下的中置Riser卡。

(15)     安装机箱盖。具体步骤请参见拆卸和安装机箱盖

(16)     安装OCP网卡。

(17)     安装所有电源模块。

(18)     安装服务器。具体步骤请参见安装服务器

(18)     连接电源线缆。

(19)     将服务器上电。具体步骤请参见上电

6.19  更换GPU节点板

GPU节点板位于GPU计算模块内部,节点板上包含多个PCIe插槽,用于支持GPU卡、存储控制卡、和网卡等部件。本节介绍更换GPU节点板的详细步骤。

6.19.1  更换场景

GPU节点板故障。

6.19.2  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     更换部件前,请检查插槽或连接器,确保针脚没有损坏(比如针脚弯曲、连接器上有异物)。

6.19.3  更换GPU节点板

1. 拆卸GPU直通节点板

(1)     将服务器下电。具体步骤请参见下电

(2)     拆卸服务器。具体步骤请参见拆卸服务器

(3)     拆卸机箱盖。具体步骤请参见拆卸和安装机箱盖

(4)     拆卸GPU节点板上的所有部件,如:网卡、存储控制卡、GPU等。

(5)     断开GPU节点板上连接的所有线缆。

(6)     拆卸GPU固定架。向上提起GPU固定架使其脱离机箱。

(7)     拆卸GPU节点板。移除节点板的所有固定螺钉,然后向上抬起节点板,使其脱离计算模块。

2. 安装GPU直通节点板

(1)     安装节点板。将节点板放入槽位,并用螺钉固定。

(2)     安装GPU固定架。将GPU固定架对准定位销,缓缓放下直至完全固定。

(3)     连接GPU节点板上的所有线缆。

(4)     安装GPU节点板上已拆卸的所有部件,如:网卡、存储控制卡、GPU等。

(5)     安装机箱盖。具体步骤请参见拆卸和安装机箱盖

(6)     安装服务器。具体步骤请参见安装服务器

(7)     将服务器上电。具体步骤请参见上电

6.20  更换NVMe VROC模块

6.20.1  更换场景

·     NVMe VROC模块故障。

·     更换其他型号的NVMe VROC模块。

6.20.2  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     更换部件前,请检查插槽或连接器,确保针脚没有损坏(比如针脚弯曲、连接器上有异物)。

6.20.3  更换步骤

1. 拆卸NVMe VROC模块

(1)     将服务器下电。具体步骤请参见下电

(2)     拆卸服务器。具体步骤请参见拆卸服务器

(3)     拆卸机箱盖。具体步骤请参见拆卸和安装机箱盖

(4)     拆卸NVMe VROC模块。将手指伸进NVMe VROC模块的指环中,捏住模块两侧,然后缓缓用力向上拔出模块。

2. 安装NVMe VROC模块

(1)     安装NVMe VROC模块。对准主板上的NVMe VROC模块接口,向下缓缓用力插入NVMe VROC模块。

(2)     安装机箱盖。具体步骤请参见拆卸和安装机箱盖

(3)     安装服务器。具体步骤请参见安装服务器

(4)     将服务器上电。具体步骤请参见上电

(5)     NVMe硬盘配置RAID,具体方法请参见产品的BIOS用户指南。

6.21  更换系统电池

介绍如何更换系统电池。

6.21.1  更换场景

缺省情况下,服务器主板上已配置系统电池(型号为Panasonic BR2032)。一般情况下,系统电池寿命为35年。

出现以下情况时,请更换系统电池。建议用户选择的电池型号为Panasonic BR2032

·     电池故障。

·     电池电力消耗完毕,服务器不再自动显示正确的日期和时间。

说明

电池故障或电力消耗完毕,会导致BIOS恢复为缺省设置。更换电池后,如有需要,请重新设置BIOS,具体方法请参见产品的BIOS用户指南。

 

6.21.2  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     更换部件前,请检查插槽或连接器,确保针脚没有损坏(比如针脚弯曲、连接器上有异物)。

6.21.3  更换步骤

1. 拆卸系统电池

(1)     将服务器下电。具体步骤请参见下电

(2)     拆卸服务器。具体步骤请参见拆卸服务器

(3)     拆卸机箱盖。具体步骤请参见拆卸和安装机箱盖

(4)     断开GPU节点板上的所有线缆。

(5)     拆卸GPU节点板上的所有部件,如:网卡、存储控制卡、GPU等。

(6)     拆卸GPU节点板。

(7)     拆卸系统电池。向上轻掰电池的同时,将电池从槽位中取出。

说明

拆卸下来的系统电池,请弃于专门的电池处理点,勿随垃圾一起丢弃。

 

2. 安装系统电池

(1)     安装系统电池。保持电池“+”极面向上,“﹣”极面向下,然后将电池按入槽位中。

(2)     安装GPU节点板。

(3)     安装从GPU节点板上已拆卸的所有部件,如:网卡、存储控制卡、GPU等。

(7)     连接GPU节点板上的所有线缆。

(4)     安装机箱盖。具体步骤请参见拆卸和安装机箱盖

(5)     安装服务器。具体步骤请参见安装服务器

(6)     将服务器上电。具体步骤请参见上电

6.22  更换电源模块

介绍如何更换电源模块。

6.22.1  更换场景

·     电源模块故障

·     更换其他型号的电源模块。

6.22.2  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     更换部件前,请检查插槽或连接器,确保针脚没有损坏(比如针脚弯曲、连接器上有异物)。

·     了解电源模块安装准则,具体请参见电源模块

说明

电源模块的规格信息,请参见各电源模块的电源手册。

 

6.22.3  更换步骤

1. 拆卸电源模块

电源模块支持热插拔,当服务器配置的电源模块满足供电冗余,且服务器后部有足够空间可供更换电源模块时,请从步骤(3)开始执行,否则请从步骤(1)开始执行。

(1)     将服务器下电。具体步骤请参见下电

(2)     拆卸服务器。具体步骤请参见拆卸服务器

(3)     对于固定方式为线扣的电源模块,根据以下步骤断开需更换电源的电源线缆:

a.     将线扣上的锁扣掰开,同时向外滑动线扣。

b.     将线扣一端掰开,打开线扣,然后将电源线缆从线扣中取出。

c.     从电源线缆插口中拔出电源线缆。

(4)     对于固定方式为魔术贴的电源模块,根据以下步骤断开需更换电源的电源线缆:

a.     松开线缆上缠绕的魔术贴。

b.     从电源线缆插口中拔出电源线缆。

(5)     (可选)如果已配CMA,请拆卸电源模块侧的CMA(理线架在不同安装方向下的安装和拆卸方法相同),以确保电源模块维护空间充足。

a.     拆卸理线架前,请先断开待更换电源模块线缆,并在保持服务器工作所需线缆正常连接的情况下将可能影响电源模块拆装的线缆从理线架的线篮中取出。

b.     在电源模块侧,按住CMA连接件的按钮同时向外拔出连接件以腾出拆装空间。

(6)     拆卸电源模块。按下电源模块解锁弹片的同时,握持电源模块后部的拉手将电源模块从槽位中拉出。

2. 安装电源模块

说明

当服务器电源模块非满配时,请将电源模块安装到之前拆卸的电源模块槽位上。

 

(1)     ‍安装电源模块。

a.     (可选)拆卸电源模块假面板。

b.     先摆正电源模块,此时电源模块上的风扇位于电源模块左侧。

c.     将电源模块推入槽位,直到听见咔哒一声。

(2)     (可选)如果已拆卸CMA,请安装。

(3)     (可选)如果已拆卸服务器,请安装。具体步骤请参见安装服务器

(4)     (可选)如果已断开电源线缆,请连接。

(5)     (可选)如果服务器已下电,请将其上电。具体步骤请参见上电

6.23  更换风扇模块

介绍如何更换风扇模块。

6.23.1  更换场景

风扇模块故障。

6.23.2  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     更换部件前,请检查插槽或连接器,确保针脚没有损坏(比如针脚弯曲、连接器上有异物)。

6.23.3  更换步骤

1. 拆卸风扇模块

(1)     风扇模块支持热插拔,当服务器上方有足够空间可供更换风扇时,请从步骤(4)开始执行,否则请从步骤(2)开始执行。

(2)     将服务器下电。具体步骤请参见下电

(3)     拆卸服务器。具体步骤请参见拆卸服务器

(4)     拆卸机箱盖。具体步骤请参见安装和拆卸服务器

(5)     拆卸风扇模块。向上翻起风扇模块的提手,握住提手将风扇模块拔出。

2. 安装风扇模块

注意

风扇模块热拔出后,请在30s内将待安装的风扇模块热插入到槽位,否则可能会造成器件过温损坏或者引起服务器过温下电。

 

(1)     安装风扇模块。将风扇模块垂直向下放入槽位,并闭合提手。

(2)     安装机箱盖。具体步骤请参见安装和拆卸服务器

(3)     (可选)如果已拆卸服务器,请安装。具体步骤请参见安装服务器

(4)     (可选)如果已断开电源线缆,请连接。具体步骤请参见连接电源线缆

(5)     (可选)如果服务器已下电,请将其上电。具体步骤请参见上电

6.24  扩容LCD可触摸智能管理模块

介绍如何扩容LCD可触摸智能管理模块。

6.24.1  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     安装部件前,请检查插槽或连接器,确保针脚没有损坏(比如针脚弯曲、连接器上有异物)。

6.24.2  操作步骤

(1)     将服务器下电。具体步骤请参见下电

(2)     拆卸服务器。具体步骤请参见拆卸服务器

(3)     拆卸机箱盖。具体步骤请参见拆卸和安装机箱盖

(4)     拆卸风扇笼。向上掰起风扇笼两侧扳手,然后向上提起风扇笼,使其脱离服务器。

(5)     拆卸待安装槽位上的硬盘或硬盘假面板

(6)     安装LCD可触摸智能管理模块

a.     连接LCD可触摸智能管理模块转接线缆。

b.     LCD可触摸智能管理模块推入槽位,直到推不动为止。

c.     连接LCD可触摸智能管理模块线缆到主板上的LCD可触摸智能管理模块接口。

(7)     安装风扇笼。向下放置风扇笼,然后闭合风扇笼两侧的扳手。

(8)     安装机箱盖。具体步骤请参见拆卸和安装机箱盖

(9)     安装服务器。具体步骤请参见安装服务器

(10)     连接电源线缆,具体步骤请参见连接电源线缆

(11)     将服务器上电。具体步骤请参见上电

6.25  更换LCD可触摸智能管理模块

介绍如何更换LCD可触摸智能管理模块。

6.25.1  更换场景

·     LCD可触摸智能管理模块故障。

·     LCD可触摸智能管理模块阻碍其他组件维护。

6.25.2  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     更换部件前,请检查插槽或连接器,确保针脚没有损坏(比如针脚弯曲、连接器上有异物)。

6.25.3  更换步骤

1. 拆卸LCD可触摸智能管理模块

(1)     将服务器下电。具体步骤请参见下电

(2)     断开电源线缆。

(3)     拆卸服务器。具体步骤请参见拆卸服务器

(4)     拆卸机箱盖。具体步骤请参见拆卸和安装机箱盖

(5)     拆卸风扇笼。将风扇笼两侧的扳手向上掰起,然后向上提起风扇笼,使其脱离服务器。

(6)     拆卸LCD可触摸智能管理模块。

a.     断开连接到主板上的LCD可触摸智能管理模块转接线缆。

b.     使用一字螺丝刀或镊子按住LCD可触摸智能管理模块解锁弹片,然后将LCD可触摸智能管理模块从槽位中拔出。

2. 安装LCD可触摸智能管理模块

(1)     安装LCD可触摸智能管理模块

a.     连接LCD可触摸智能管理模块转接线缆。

b.     LCD可触摸智能管理模块推入槽位,直到推不动为止。

c.     连接LCD可触摸智能管理模块线缆到主板上的LCD可触摸智能管理模块接口

(2)     安装风扇笼。向下放置风扇笼,然后闭合风扇笼两侧的扳手。

(3)     安装机箱盖。具体步骤请参见拆卸和安装机箱盖

(4)     安装服务器。具体步骤请参见安装服务器

(5)     连接电源线缆。

(6)     将服务器上电。具体步骤请参见上电

6.26  更换智能挂耳

介绍如何更换智能挂耳。

6.26.1  更换场景

·     智能挂耳故障

·     集成在智能挂耳中的组件故障。

6.26.2  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     更换部件前,请检查插槽或连接器,确保针脚没有损坏(比如针脚弯曲、连接器上有异物)。

6.26.3  更换步骤

说明

服务器两侧智能挂耳的更换方法相同,本文以一侧为例,介绍智能挂耳的更换步骤。

 

1. 拆卸智能挂耳

(1)     将服务器下电。具体步骤请参见下电

(2)     拆卸服务器。具体步骤请参见拆卸服务器

(3)     拆卸机箱盖。具体步骤请参见拆卸和安装机箱盖

(4)     拆卸所有风扇模块。向上翻起风扇模块的提手,握住提手将风扇模块向上提出,使其脱离服务器。

(5)     拆卸风扇笼。将风扇笼两侧的扳手向上掰起,然后向上提起风扇笼,使其脱离服务器。

(2)     (可选)拆卸开箱检测模块。若拆卸的是左侧智能挂耳(面向服务器前部),请先拆卸开箱检测模块。从机箱壁固定支架上取出开箱检测模块。

(6)     从主板上断开智能挂耳线缆。

(7)     拆卸机箱外壁的线缆保护盖。

a.     移除保护盖的所有固定螺钉。

b.     将线缆保护盖向下滑动,然后取下。

(8)     拆卸智能挂耳。

a.     移除智能挂耳的所有固定螺钉。

b.     将智能挂耳上的所有线缆从线缆固定夹中取出。

c.     取下智能挂耳,并将挂耳上连接的线缆一同移出机箱。

2. 安装智能挂耳

(1)     安装智能挂耳。

a.     将智能挂耳的线缆从机箱壁上的走线孔送入机箱,并将处于机箱外侧的线缆固定到线缆固定夹中。

b.     将智能挂耳紧贴机箱安装到挂耳槽位中,并用螺钉固定。

(2)     安装线缆保护盖。

a.     将线缆保护盖一端卡入槽位,然后紧贴机箱壁向上滑动,使其固定在机箱上。

b.     拧紧线缆保护盖的所有固定螺钉。

(3)     连接挂耳线缆到主板。

(3)     (可选)安装已拆卸的开箱检测模块。将开箱检测模块嵌入开箱检测模块固定支架。

(4)     安装风扇笼。向下放置风扇笼,然后闭合风扇笼两侧的扳手。

(5)     安装已拆卸的所有风扇模块。握持风扇提手,将风扇向下放入槽位。

(6)     安装机箱盖。具体步骤请参见拆卸和安装机箱盖

(7)     安装服务器。具体步骤请参见安装服务器

(8)     服务器上电。具体步骤请参见上电

6.27  安装加密模块

加密模块包含TPMTCM。本节介绍TPM/TCM的详细安装步骤,以及如何开启TPM/TCM功能。

6.27.1  TPM/TCM简介

·     TPM/TCM是内置在主板上的微芯片,拥有独立的处理器和存储单元,用于存储加密信息(如密钥),为服务器提供加密和安装认证服务。TPM需要与驱动器加密技术配合使用,如Microsoft Windows BitLocker驱动器加密技术,BitLocker使用TPM帮助保护Windows操作系统和用户数据,并确保服务器中的数据即使在无人参与、丢失或被盗的情况下也不会被篡改,关于BitLocker的更多信息,请访问Microsoft网站(http://www.microsoft.com)

·     TPM/TCM模块是可信计算平台的硬件模块,为可信计算平台提供密码运算功能,具有受保护的存储空间。

6.27.2  开启TPM/TCM功能流程

开启TPM/TCM功能的流程如图6-1所示。

图6-1 开启TPM/TCM功能流程

 

6.27.3  准备工作

·     请提前做好防静电措施:穿上防静电工作服;正确佩戴防静电腕带并良好接地;去除身体上携带的易导电物体(如首饰、手表)。

·     更换部件前,请检查插槽或连接器,确保针脚没有损坏(比如针脚弯曲、连接器上有异物)。

6.27.4  安装TPM/TCM模块

1. 安装步骤

(1)     将服务器下电。具体步骤请参见下电

(2)     拆卸服务器。具体步骤请参见拆卸服务器

(3)     拆卸机箱盖。具体步骤请参见拆卸和安装机箱盖

(4)     断开GPU节点板上的所有线缆。

(5)     拆卸GPU节点板上的所有部件,如:网卡、存储控制卡、GPU等。

(6)     拆卸GPU节点板。

(7)     安装TPM/TCM模块。

a.     TPM/TCM模块安装到TPM/TCM模块插槽。

b.     按住模块连接器上方,对准模块上的销钉孔,向下插入销钉。

c.     对准销钉上的铆钉孔,向下缓缓用力插入铆钉。

(8)     安装GPU节点板。

(9)     安装从GPU节点板上已拆卸的所有部件,如:网卡、存储控制卡、GPU等。

(10)     连接GPU节点板上的所有线缆。

(11)     安装机箱盖。具体步骤请参见拆卸和安装机箱盖

(12)     安装服务器。具体步骤请参见安装服务器

(13)     将服务器上电。具体步骤请参见上电

2. BIOS中开启TPM/TCM功能

(1)     进入BIOS,具体步骤请参见产品的BIOS用户指南。

(2)     服务器缺省开启支持TPM/TCM功能,在BIOS中开启或禁用TPM/TCM功能的具体方法请参见产品的BIOS用户指南。

(3)     登录HDM Web界面,查看TPM/TCM模块工作状态是否正常。详细信息请参见HDM2联机帮助。

3. 在操作系统中设置加密技术

在操作系统中设置加密技术的详细信息请参见操作系统提供的加密技术文档。

有关Microsoft Windows BitLocker驱动器加密技术的详细信息,请访问Microsoft网站(http://technet.microsoft.com/en-us/library/cc732774.aspx)获取。开启BitLocker驱动器加密技术时,系统会自动生成恢复密钥,您可将该密钥打印或保存到外部存储设备中。系统启动过程中,当BitLocker检测到系统完整性受损或软硬件变更时,数据访问将处于锁定状态,需要用户手动输入该恢复密钥。为确保安全性,保管恢复密钥过程中请注意:

·     为避免恢复密钥丢失,请将密钥保存到多个外部存储设备(例如U盘)中,形成备份。

·     请勿将恢复密钥保存到加密硬盘中。

4. 安装后注意事项

·     禁止拆卸已安装的TPM/TCM模块。一旦安装后,TPM/TCM模块就会成为主板的永久组成部分。

·     为确保信息安全,安装或更换其他部件时,仅用户可以开启TPM/TCM功能或输入恢复密钥,H3C技术人员不能执行上述操作。

·     更换主板时,请勿从主板上拆卸TPM/TCM模块。当用户需要更换主板或更换TPM/TCM模块时,H3C技术人员将提供新的TPM/TCM模块和备用主板。

·     试图从主板上拆卸已安装的TPM/TCM模块,可能会毁坏或损伤TPM/TCM固定铆钉。一旦发现铆钉毁坏或损伤,管理员应认为系统已受损,请采取适当的措施确保系统数据的完整性。

·     H3C对于因TPM/TCM模块使用不当而导致无法访问数据的问题不承担任何责任。更多操作说明请参见操作系统提供的加密技术文档。

·     禁止用户自行拆卸TPM/TCM模块,否则可能会毁坏或损伤TPM/TCM模块的固定铆钉,从而导致系统受损。

·     当您怀疑TPM/TCM模块故障时,请拆卸带有故障TPM/TCM模块的主板,并联系H3C技术人员更换主板和TPM/TCM模块。


7 内部布线

介绍服务器中各部件的线缆连接方法。

7.1  内部布线要求

7.1.1  使用场景

服务器内部布线图,可应用于如下场景:

·     扩容或更换部件后,指导线缆连接。

·     线缆松动或脱落,指导线缆复位。

·     线缆保护套破损或线缆故障,指导线缆更换。

7.1.2  注意事项

服务器内部布线时,请关注如下事项:

·     连接服务器各部件的线缆时,请妥善走线,确保线缆不会被挤压。

·     线缆不能走线到可插拔部件的上方,比如内存上方。

·     线缆走线不能阻碍其他部件的插拔,和机箱内任何组件没有干涉。

·     确保线缆走线清晰,并且有自己的固定空间,不会被机箱内结构件挤压或刮擦。

·     线缆走线时,尽量不要拉扯连接器。

·     当过多线缆同时使用线扣固定时,请适当调整线缆数量,避免过多线缆拉扯线扣,造成线扣脱落。

·     线缆过长时建议适当绑扎。当前不用的线缆,建议将其盘绕整理,用线扣固定。

·     硬盘数据线缆连接时,听到咔嗒声,说明连接到位。

·     如果线缆连接器上有保护套,线缆连接前,请先移除保护套。

·     如果线缆自带标签不能充分区分各根线缆时,可通过增加工艺标签来标识线缆。

7.2  连接硬盘线缆

7.2.1  12LFF硬盘配置

1. 连接SAS/SATA硬盘数据线缆

·     配置一:SAS/SATA硬盘连接到板载SATA,数据线缆连接方法如图7-2所示。

图7-1 SAS/SATA硬盘连接到板载SATA

 

表7-1 12LFF硬盘背板连接到板载SATA说明

线缆编号

线缆编码

硬盘背板丝印

主板丝印

1

0404A24V

SATA PORT2

SATA PORT3

2

0404A24U

SAS/SATA PORT1

SATA PORT1

3

SATA PORT2

 

·     配置二: SAS/SATA硬盘连接到M.2卡,数据线缆连接方法如图7-2所示。

图7-2 12LFF硬盘背板连接到M.2

 

表7-2 12LFF硬盘背板连接到M.2卡说明

线缆编号

线缆编码

硬盘背板丝印

主板丝印

-

0404A24U

SAS/SATA PORT1

SATA PORT2

SATA PORT3

 

·     配置三: SATA硬盘连接到标准存储控制卡,线缆连接方法如图7-3所示。

图7-3 12LFF硬盘背板连接到标准存储控制卡

 

 

表7-3 12LFF硬盘背板连接到板标准存储控制卡说明

线缆编号

线缆编码

硬盘背板丝印

存储控制卡丝印

主板丝印

1

0404A22P

SAS/SATA PORT1

C0

-

2

0404A1XB

-

PWR

PWR5

3

0404A22Q

PCIe X8

-

C2-DMI

 

2. 连接NVMe硬盘数据线缆

·     8 GPU Switch4GPU直通NVMe硬盘数据线缆连接方法,如图7-4所示。

图7-4 连接NVMe硬盘数据线缆

 

 

表7-4 NVMe硬盘数据线缆连线说明

线缆编号

线缆编码

硬盘背板丝印

主板上丝印

1

0404A22Q

NVME-A1/A2

C1-P3A

2

0404A24H

NVME-A3

C1-P3C

3

NVME-A4

4

0404A250

NVME-B1/B2

C2-P3A

5

0404A250

NVME-B3/B4

C2-P3C

 

·     8 GPU直通NVMe硬盘数据线缆连接方法,如图7-5所示。

图7-5 连接NVMe硬盘数据线缆

  

 

表7-5 NVMe硬盘数据线缆连线说明

线缆编号

线缆编码

硬盘背板丝印

主板上丝印

1

0404A24R

NVME-A1/A2

C2-P1B

2

0404A24Y

NVME-A3

C2-P1D

3

NVME-A4

 

3. 连接电源线缆

电源线的连接方法如图7-6所示。

图7-6 连接12LFF硬盘电源线缆

 

 

表7-6 电源线缆连线说明

线缆编号

线缆编码

硬盘背板丝印

主板丝印

-

0404A22B

PWR

PWR1

 

4. 连接AUX信号线缆

AUX信号线的连接方法如图7-7所示。

图7-7 连接12LFF硬盘AUX信号线缆

 

表7-7 12LFF硬盘AUX信号线缆连线说明

线缆编号

线缆编码

硬盘背板丝印

主板丝印

-

0404A1WV

AUX

AUX1

 

7.2.2  24LFF硬盘配置

1. 连接SAS/SATA硬盘数据线缆

24LFF硬盘背板连接到标准存储控制卡,线缆连接方法如图7-8所示。

图7-8 连接24LFF硬盘背板连接到标准存储控制卡

 

表7-8 24LFF硬盘背板连接到板标准存储控制卡连线说明

线缆编号

线缆编码

硬盘背板丝印

存储控制卡丝印

主板丝印

1

0404A24M

SAS PORT1

C0

-

2

0404A22Q

-

PCIe X8

C2-DMI

3

0404A1XB

-

PWR

PWR5

 

2. 连接NVMe硬盘数据线缆

·     8 GPU Switch4GPU直通NVMe硬盘数据线缆连接方法,如图7-9所示。

图7-9 连接8 GPU Switch4GPU直通NVMe硬盘数据线缆

 

表7-9 8 GPU Switch4GPU直通NVMe硬盘数据线缆连线说明

线缆编号

线缆编码

硬盘背板丝印

主板上丝印

1

0404A24G

NVME PORT1

C1-P3A

2

0404A24N

NVME PORT4

C2-P3C

3

0404A24N

NVME PORT3

C2-P3A

4

0404A24G

NVME PORT2

C1-P3C

 

·     8 GPU直通NVMe硬盘数据线缆连接方法,如图7-10所示。

图7-10 连接8 GPU直通NVMe硬盘数据线缆

 

表7-10 8 GPU直通NVMe硬盘数据线缆连线说明

线缆编号

线缆编码

硬盘背板丝印

主板上丝印

1

0404A24Q

NVME PORT1

C2-P1B

2

0404A24Q

NVME PORT2

C2-P1D

 

3. 连接电源线缆

电源线的连接方法如图7-11所示。

图7-11 连接24LFF硬盘电源线缆

 

表7-11 电源线缆连线说明

线缆编号

线缆编码

硬盘背板丝印

主板上丝印

1

0404A22B

PWR1

PWR1

2

0404A221

PWR2

PWR3

3

PWR2

 

4. 连接AUX信号线缆

AUX信号线的连接方法如图7-12所示。

图7-12 连接24LFF硬盘AUX信号线缆

 

表7-12 24LFF硬盘AUX信号线缆连线说明

线缆编号

线缆编码

硬盘背板丝印

主板丝印

-

0404A1QW

AUX

AUX1

 

7.3  连接GPU计算模块线缆

7.3.1  连接4GPU直通线缆

HPC场景下4GPU计算模块的数据和电源线缆的连接对应关系如表7-13所示。

图7-13 连接4GPU直通数据和电源线缆


表7-13 4GPU直通计算模块线缆连线说明

线缆编号

线缆编码

主板丝印

4GPU直通节点板丝印

1

0404A236

SW PWR2

PWR2

2

0404A1X1

C2-P2C

SLOT3-C

3

0404A1X1

C2-P2A

SLOT3-A

4

0404A1QH

C2-P1B

SLOT12-C

5

0404A1X1

C2-P1D

SLOT12-A

6

0404A1QH

C2-P0C

SLOT11-C

7

0404A1X1

C2-P0A

SLOT11-A

8

0404A1QH

C1-P2C

SLOT1-C

9

0404A1X1

C1-P2A

SLOT1-A

10

0404A1QH

C1-P1B

SLOT10-C

11

0404A1X1

C1-P1D

SLOT10-A

12

0404A1QH

C1-P0C

SLOT9-C

13

0404A1X1

C1-P0A

SLOT9-A

14

0404A236

SW PWR1

PWR1

 

7.3.2  连接8GPU直通线缆

HPC场景下8GPU直通计算模块的数据和电源线缆的连接对应关系如表7-13所示。

图7-14 连接8GPU直通互联数据和电源线缆

 

表7-14 8GPU直通计算模块线缆连线说明

线缆编号

线缆编码

主板丝印

8GPU直通节点板丝印

1

0404A222

C2-P3A

SLOT14-A

2

0404A222

C2-P3C

SLOT14-C

3

0404A1PU

C2-P4C

SLOT13-C

4

0404A24X

C2-P4A

SLOT13-A

5

0404A24W

C1-P3A

SLOT7-B

6

0404A222

C1-P3C

SLOT7-C

7

0404A222

C1-P4C

SLOT8-C

8

0404A222

C1-P4A

SLOT8-A

9

0404A1QH

C2-P2C

SLOT12-C

10

0404A1X1

C2-P2A

SLOT12-A

11

0404A1QH

C2-P1B

SLOT3-C

12

0404A1X1

C2-P1D

SLOT3-A

13

0404A1QH

C2-P0C

SLOT11-C

14

0404A1X1

C2-P0A

SLOT11-A

15

0404A1QH

C1-P2C

SLOT10-C

16

0404A1X1

C1-P2A

SLOT10-A

17

0404A1QH

C1-P1B

SLOT1-C

18

0404A1X1

C1-P1D

SLOT1-A

19

0404A1QH

C1-P0C

SLOT9-C

20

0404A1X1

C1-P0A

SLOT9-A

21

0404A236

SW PWR1

PWR1

22

0404A236

SW PWR2

PWR2

 

7.3.3  连接8GPU-AI串联线缆

AI串联场景下8GPU Switch计算模块的数据和电源线缆的连接方法如图7-15所示。

图7-15 连接8GPU-AI串联数据和电源线缆

 

表7-15 8GPU-AI串联线缆连线说明

线缆编号

线缆编码

主板丝印

8GPU节点板丝印

1

0404A22S

SW PWR2

PWR2

2

0404A1QH

C2-P1B

SLOT4-C

3

0404A1X1

C2-P1D

SLOT4-A

4

0404A22E

-

SW0-P1-CSW1-A

5

0404A22E

-

SW0-P1-ASW1-C

6

0404A1QH

C1-P2C

SLOT1-C

7

0404A1X1

C1-P2A

SLOT1-A

8

0404A1XC

C1-P1B

SLOT2-B

9

0404A1XF

C1-P1D

SLOT2-D

10

0404A227

C1-P0C

SW0-P0-C

11

0404A227

C1-P0A

SW0-P0-A

12

0404A22S

SW PWR1

PWR1

 

7.3.4  连接8GPU-AI并联线缆

AI并联场景下8GPU Switch计算模块的数据和电源线缆的连接方法如图7-16所示。

图7-16 连接8GPU-AI并联数据和电源线缆

 

表7-16 8GPU-AI并联线缆连线说明

线缆编号

线缆编码

主板丝印

8GPU节点板丝印

1

0404A22S

SW PWR2

PWR2

2

0404A1QH

C2-P1B

SLOT4-C

3

0404A1X1

C2-P1D

SLOT4-A

4

0404A21W

-

SW0-P1-CSLOT2-D

5

0404A21W

-

SW0-P1-ASLOT2-B

6

0404A1QH

C1-P2C

SLOT1-C

7

0404A1X1

C1-P2A

SLOT1-A

8

0404A226

C1-P1B

SW1-C

9

0404A22D

C1-P1D

SW1-A

10

0404A227

C1-P0C

SW0-P0-C

11

0404A227

C1-P0A

SW0-P0-A

12

0404A22S

SW PWR1

PWR1

 

7.3.5  连接8GPU-HPC线缆

HPC场景下,8GPU Switch计算模块的数据线缆和电源线缆的连接方法如图7-17所示。

图7-17 连接8GPU-HPC数据和电源线缆

 

表7-17 8GPU-HPC线缆连线说明

线缆编号

线缆编码

主板丝印

8GPU节点板丝印

1

0404A22S

SW PWR2

PWR2

2

0404A1QH

C2-P1B

SLOT4-C

3

0404A1X1

C2-P1D

SLOT4-A

4

0404A220

C2-P0C

SW1-C

5

0404A226

C2-P0A

SW1-A

6

0404A21W

-

SW0-P1-CSLOT2-D

7

0404A21W

-

SW0-P1-ASLOT2-B

8

0404A1QH

C1-P2C

SLOT1-C

9

0404A1X1

C1-P2A

SLOT1-A

10

0404A227

C1-P0C

SW0-P0-C

11

0404A227

C1-P0A

SW0-P0-A

12

0404A22S

SW PWR1

PWR1

 

7.3.6  连接8GPU Switch双上行线缆

8GPU Switch双上行场景下,8GPU Switch双上行计算模块的数据线缆和电源线缆的连接方法如图7-18所示。

图7-18 连接8GPU Switch双上行数据和电源线缆

 

 

表7-18 8GPU Switch双上行线缆连线说明

线缆编号

线缆编码

主板丝印

8GPU Switch双上行节点板丝印

1

0404A201

C2-P4C

SLOT4-A

2

0404A1Q1

C2-P4A

SLOT4-C

3

0404A24X

C1-P4C

SLOT1-C

4

0404A2D6

C1-P4A

SLOT1-A

5

0404A220

C2-P1B

SW1-P0-C

6

0404A220

C2-P1D

SW1-P0-A

7

0404A2D9

C2-P0C

SW1-P1-C

8

0404A2D9

C2-P0A

SW1-P1-A

9

0404A220

C1-P2C

SLOT2-B

10

0404A220

C1-P2A

SLOT2-D

11

0404A2D9

C1-P1B

SW0-P1-C

12

0404A2D9

C1-P1D

SW0-P1-A

13

0404A220

C2-P2A

SLOT3-A

14

0404A1X1

C2-P2C

SLOT3-C

15

0404A227

C1-P0C

SW0-P0-C

16

0404A227

C1-P0A

SW0-P0-A

 

7.4  连接OCP转接模块线缆

7.4.1  8GPU Switch

1. Singlehost OCP转接模块

使用Singlehost OCP转接模块时,线缆连接方式如图7-19所示。

图7-19 连接Singlehost OCP转接模块线缆

 

 

表7-19 Singlehost OCP转接模块线缆连线说明

线缆编号

线缆编码

主板丝印

OCP转接板丝印

1

0404A22A

C2-P2C

PCIE X8-A

2

0404A22A

C2-P2A

PCIE X8-C

3

0404A20P

AUX

OCP AUX

4

0404A1X6

PWR

OCP PWR

 

2. Multihost OCP转接模块

使用Multihost OCP转接模块时,线缆连接方式如图7-20所示。

图7-20 连接Multihost OCP转接模块线缆

 

 

表7-20 Multihost OCP转接模块线缆连线说明

线缆编号

线缆编码

主板丝印

OCP转接板丝印

1

0404A22A

C2-P2C

PCIE X8-A

2

0404A1PU

C1-P4A

PCIE X8-C

3

0404A20P

AUX

OCP AUX

4

0404A1X6

PWR

OCP PWR

 

7.4.2  8GPU直通

1. Singlehost OCP转接模块

使用Singlehost OCP转接模块时,线缆连接方式如图7-21所示。

图7-21 Singlehost OCP转接模块线缆连线说明

 

表7-21 Singlehost OCP转接模块线缆连线说明

线缆编号

线缆编码

主板丝印

OCP转接板丝印

1

0404A20R

C1-P1B

J1 PCIE X8-A

2

0404A20R

C1-P1D

J2 PCIE X8-C

3

0404A20P

AUX

OCP AUX

4

0404A1X6

PWR

OCP PWR

 

7.4.3  4GPU直通

1. Singlehost OCP转接模块

使用Singlehost OCP转接模块时,线缆连接方式如图7-22所示。

图7-22 Singlehost OCP转接模块线缆连线说明

 

表7-22 Singlehost OCP转接模块线缆连线说明

线缆编号

线缆编码

主板丝印

OCP转接板丝印

1

0404A201

C2-P4C

PCIE X8-C

2

0404A201

C2-P4A

PCIE X8-A

3

0404A20P

AUX

OCP AUX

4

0404A1X6

PWR

OCP PWR

 

2. Multihost OCP转接模块

安装Multihost OCP转接模块时,线缆连接方式如图7-23所示。

图7-23 连接Multihost OCP转接模块线

 

表7-23 Multihost OCP转接模块线缆连线说明

线缆编号

线缆编码

主板丝印

OCP转接板丝印

1

0404A201

C2-P4A

PCIE X8-A

2

0404A1PU

C1-P4A

PCIE X8-C

3

0404A20P

AUX

OCP AUX

4

0404A1X6

PWR

OCP PWR

 

7.4.4  8GPU Switch双上行

1. Singlehost OCP转接模块

使用Singlehost OCP转接模块时,线缆连接方式如所示。

图7-24 Singlehost OCP转接模块线缆连线说明

 

 

表7-24 Singlehost OCP转接模块线缆连线说明

线缆编号

线缆编码

主板丝印

OCP转接板丝印

1

0404A24X

C1-P3A

PCIE X8-A

2

0404A24X

C1-P3C

PCIE X8-C

3

0404A20P

AUX

OCP AUX

4

0404A1X6

PWR

OCP PWR

 

7.5  连接GPU卡电源线缆

GPU卡电源线缆需要连接到对应的GPU节点板上对应的电源接口,本文以GPU卡安装到8GPU Switch机型节点板slot 9为例。

图7-25 连接GPU卡电源线缆

GPU卡电源线缆(线缆编码请参见2.15.7  1. 简介

 

电源线缆接口S标记端连接GPU卡上的电源接口,M标记端连接主板上的电源接口,如图7-26所示。

图7-26 GPU卡电源线缆

 

GPU卡安装的节点板槽位和主板电源接口对应关系,如表7-25所示。

表7-25 GPU卡安装槽位和主板电源接口对应关系

GPU节点板丝印

主板丝印

PCIe X16 SLOT7/GPU1

GPU PWR1

PCIe X16 SLOT8/GPU2

GPU PWR2

PCIe X16 SLOT9/GPU3

GPU PWR3

PCIe X16 SLOT10/GPU4

GPU PWR4

PCIe X16 SLOT11/GPU5

GPU PWR5

PCIe X16 SLOT12/GPU6

GPU PWR6

PCIe X16 SLOT13/GPU7

GPU PWR7

PCIe X16 SLOT14/GPU8

GPU PWR8

 

7.6  连接超级电容线缆

7.6.1  连接中置Riser卡的超级电容线缆

超级电容需安装在导风罩上的超级电容盒内,线缆连接方法如图7-27所示。

图7-27 连接中置Riser卡的超级电容线缆

 

7.6.2  连接标准存储控制卡的超级电容线缆

超级电容需安装在导风罩上的超级电容盒内,线缆连接方法如图7-28所示。

图7-28 连接标准存储控制卡的超级电容线缆

 

7.7  连接智能挂耳线缆

智能挂耳线缆包含:前面板I/O组件线缆、VGAUSB 2.0接口线缆,线缆连接方法如图7-29所示。

图7-29 连接智能挂耳线缆

(1): VGAUSB 2.0接口线缆(0404A251

(2):前面板I/O组件线缆(0404A1TW

 

7.8  连接温感线缆

温感线缆连接方法如图7-30所示。

图7-30 连接温感线缆

表7-26 温感线缆连线说明

线缆编号

线缆编码

主板丝印

硬盘背板丝印

-

0404A235

SENSOR#

参考图示走线放置在机箱内部前面板处

 

7.9  连接LCD可触摸智能管理模块线缆

图7-31 连接LCD可触摸智能管理模块线缆

表7-27 LCD可触摸智能管理模块线缆连线说明

编号

线缆类型

线缆编码

线缆描述

-

信号线缆

0404A1SA

LCD可触摸智能管理模块连接至主板(DIAG LCD)的信号线缆

 

 

 


8 日常维护指导

8.1  维护基本原则

·     服务器所在机房应保持整洁,温度和湿度符合服务器运行要求,机房内不放置无关设备和物品。

·     定期通过HDM检查服务器的健康状态,如果不健康,则需要立即检查并排除故障。

·     了解操作系统和应用软件最近的更新情况,并根据需求更新软件。

·     制定可靠的备份计划。

¡     根据服务器的运行情况,定时备份数据。

¡     如果数据频繁改变则需随时备份。

¡     定时检查备份以确保数据保存正确。

·     现场保留一定数量的备件,以便部件出现故障时可及时更换。备件使用后,请及时补充。

·     为方便解决组网方面的问题,请保存最新的网络拓扑图。

 

8.2  维护工具

维护服务器需要以下工具:

·     通过温湿度计监控服务器运行环境。

·     通过HDMUniSystem监控服务器运行状态。

 

8.3  维护操作

介绍服务器的日常维护任务操作和操作方法。

8.3.1  任务列表

日常维护任务如表8-1所示。

表8-1 日常维护任务

任务

所需工具

查看服务器监控指示灯

/

监测机房温度和湿度

温湿度计

检查线缆

/

 

8.3.2  查看服务器监控指示灯

检查服务器前后面板上的所有指示灯状态是否正常。关于指示灯的详细说明,请参见指示灯和按钮后面板指示灯

8.3.3  监测机房温度和湿度

请使用温湿度计测量机房温度和湿度,确保温湿度控制在服务器的工作范围内。关于服务器工作和贮存环境温湿度要求,请参见技术参数

8.3.4  检查线缆

检查通信线缆、电源线缆连接是否正常。

1. 注意事项

·     插拔线缆时,请勿用力过猛。

·     请勿扭曲或拉扯线缆。

·     合理布线,具体请参见布线指导

·     连接线缆时,请检查接口方向正确后再插入。

·     拔出线缆时,请勿直接抓住线缆施力,而是抓住连接器施力。

2. 检查标准

·     线缆类型正确。

·     连接正确、牢固,长度合适。

·     线缆无老化,连接点无扭曲、无腐蚀。

8.3.5  查看服务器状态

查看服务器各子系统基本状态的具体操作请参见HDM2联机帮助的“基本状态”章节。

8.3.6  收集服务器日志

收集服务器日志信息的具体操作请参见HDM2用户指南的“一键收集”章节。

8.3.7  升级服务器固件

升级服务器HDMBIOSCPLD等部件固件版本的具体操作请参见《H3C服务器 固件更新指导书》。

8.4  故障定位

具体故障定位方法请参见故障处理手册。

不同款型规格的资料略有差异, 详细信息请向具体销售和400咨询。H3C保留在没有任何通知或提示的情况下对资料内容进行修改的权利!

新华三官网
联系我们