H3C UIS超融合一体机

部件更换配置指导

资料版本：5W106-20240123

非经本公司书面许可，任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部，并不得以任何形式传播。

除新华三技术有限公司的商标外，本手册中出现的其它公司的商标、产品标识及商品名称，由各自权利人拥有。

本文档中的信息可能变动，恕不另行通知。

2.2.1 通过硬盘槽位号查询硬盘在操作系统下对应的盘符·· 8

2.2.2 通过分区和挂载判断硬盘类型·· 12

2.4.3 缓存加速盘更换-journal加速SSD·· 37

2.4.4 缓存加速盘更换-flashcache加速SSD·· 39

2.4.5 缓存加速盘更换-Scache加速SSD/NVMe· 40

2.5 一键巡检检查是否更换成功·· 42

3.2.12 启动共享存储池，恢复业务·· 49

3.3.7 启动共享存储池，恢复业务·· 53

3.4 一键巡检检查是否更换成功·· 53

3.5 授权变更·· 54

1 概述

本文主要是针对UIS一体机硬件设备出现故障时，更换硬件方法的配置指导。主要包括更换网卡、硬盘等部件的操作方法。

1.1 适用范围及注意事项

使用本文档时，请关注如下事项。

· 本文档中所述操作均存在一定风险，可能会损坏已有环境。因此本文档仅适用于H3C服务工程师以及具备相应资质和技术水平的工程师。

· 本文档主要介绍集群节点部件更换过程中软件侧的相关操作，具体的硬件安装拆卸方法请参见对应服务器机型的用户指南。

· 由于产品版本升级或其他原因，本文档内容会不定期进行更新，如需获取最新版本，请联系技术支持。

· 由于产品版本升级或其他原因，产品界面和功能参数可能会变化，请以产品的实际支持情况为准。

· 根据本文档执行部件更换操作前，建议先参考《H3C UIS超融合管理平台巡检配置指导》手册，对现场进行巡检并记录相关信息。

· 进行某些部件更换时（如CPU、主板和网卡），可能会使设备的硬件信息变更，从而导致产品的授权失效。请联系技术支持提交授权变更申请，更改授权绑定的硬件设备信息。

· 本文档中介绍的阵列卡相关操作方法仅适用于H3C服务器，其他品牌服务器的阵列卡操作方法请联系相应厂家获取。

1.2 部件更换工具列表

部件更换所需要的工具列表如表1所示。

表1 部件更换工具列表

图示	名称	说明
	T25 Torx星型螺丝刀	用于智能挂耳上的松不脱螺钉（一字螺丝刀也可用于该螺钉）
	T30 Torx星型螺丝刀	用于CPU散热器上的松不脱螺钉
	T15 Torx星型螺丝刀（随服务器发货）	用于CPU主板上的固定螺钉等
	T10 Torx星型螺丝刀（随服务器发货）	用于拆卸智能挂耳固定螺钉等
	一字螺丝刀	用于更换系统电池等
	十字螺丝刀	用于硬盘支架的固定螺钉等
	防静电腕带	用于操作服务器时使用
	防静电手套
	防静电服

1.3 部件更换注意事项

更换部件时，请注意如下事项：

· 更换部件时，优先使用同构部件，即新旧部件BOM相同，型号规格完全相同。仅当无法获取到同构部件时，联系技术支持使用异构部件进行更换。

· 部件更换是在已有可靠性基础上进行部件更换，如果现有的可靠性机制无法保证业务无损，则建议提前预警。

· 在进行更换硬件操作时，严禁从UIS系统中删除主机。

2 更换热插拔部件

UIS支持换盘向导功能，支持的软件版本、一体机型号和操作步骤可参考2.1章节。支持换盘向导时，“节点管理”页面有<更换硬盘>按钮，不支持时，则无该按钮。

· 如果使用UIS 2000 G3系列一体机，硬盘更换的方法请参考《H3C UIS 2000 G3系列超融合一体机操作配置指导》手册中的“UIS2000 G3 故障盘监测及更换”章节。

· 不支持换盘向导的版本或一体机型号，请参考2.2-2.5章节进行硬盘更换。

2.1 使用换盘向导更换硬盘

某些服务器（如R4900，其他支持在线更换硬盘的主机型号请参考兼容性列表）安装了E0716P03及之后版本的UIS软件时支持使用换盘向导更换磁盘，除主机型号外，磁盘需满足下列要求。如果需要更换NVMe缓存盘，需要先正常关机后更换硬盘，再在换盘向导中进行更换操作。

表2 更换磁盘的场景要求

维护对象	具体情形	插拔要求	容量要求	接口要求	插槽要求
SATA或SAS接口的数据盘、缓存盘	槽位不变，更换磁盘	可带电拔插，对业务无要求	新盘容量不小于原盘容量	新盘接口类型与原盘保持一致	无
SATA或SAS接口的数据盘、缓存盘	磁盘和槽位同时更换	可带电拔插，对业务无要求	新盘容量不小于原盘容量	新盘接口类型与原盘保持一致	无

(1) 确认槽位信息。请根据所用一体机的硬件手册，确认硬盘的槽位信息，使其与界面中显示的位置信息对应。

(2) 选择顶部“存储”页签，选择左侧的节点管理，进入存储节点管理界面。首先选择需要更换硬盘的主机节点，单击<同步磁盘>按钮，避免因为未同步导致的异常。

(3) 同步完成后，界面上显示了故障节点，选择故障节点可以看到该节点下故障的硬盘。故障盘的槽位为5。此时可以手动点亮故障盘的磁盘灯，辅助定位故障磁盘的位置。

(4) 进入机房，拔下槽位5故障盘，插入新盘。然后再次回到软件界面。单击<同步磁盘>按钮和<刷新>按钮，直到识别到新盘，新盘的盘符可能发生变化，但是新盘的槽位号和原故障盘是保持一致的。

如果新盘中存在已有分区，应先清理分区。在系统后台执行后台sgdisk -o /dev/sdd（sdd为坏盘的盘符，需根据实际坏盘的盘符进行调整）命令，清理分区。

(5) 选中计划更换的故障盘，单击<更换磁盘>按钮。

(6) 在跳转界面先选中故障盘。此时盘可能只有一些残留信息了，看不到原来的完整信息，但是只能选择到被单击换盘的数据盘，因此此处就直接选择唯一可选的那块盘。

(7) 然后选择插入的新盘。注意查看新盘的容量，类型信息是否正确，槽位号是否正确。

(8) 选择完成后，单击<下一步>按钮。

(9) 单击<完成>按钮，系统会自动开始换盘任务。

(10) 单击<完成>后，打开任务台查看进度，等待换盘任务完成。

(11) 当换盘任务完成，单击存储节点和磁盘的<刷新>按钮可以看到存储节点和硬盘均显示为正常了。

2.2 判断硬盘类型

硬盘类型分为系统盘、journal加速SSD、flashcache加速SSD、Scache加速SSD/NVMe以及数据盘几种类型。若更换硬盘时对硬盘类型不明确，请参考本章节进行判断。

2.2.1 通过硬盘槽位号查询硬盘在操作系统下对应的盘符

· 如果已知待更换硬盘槽位号，但不知道硬盘在操作系统下的盘符，请参考本章节进行查询。

· 如果已知在操作系统下的盘符，请跳过本章节。

· 某些情况下硬盘彻底故障，会导致阵列完全离线，这种情形下系统下无法查询到盘符。若无法查询到盘符、又不知道待更换硬盘是什么类型，请联系技术服务获取帮助。

· 不同阵列卡型号的查询方法不同，请参考对应章节。

1. PMC阵列卡（PM8060）

(1) 首先查询阵列卡编号。执行arcconf list命令，输出信息中的Controller ID代表阵列卡编号。如图所示，查询到阵列卡编号为1。

(2) 执行arcconf getconfig 1 ld命令（1为步骤1中查到的阵列卡编号），找到对应slot号的硬盘的Logical Device number。如图所示，查询到槽位号为Enclosure 0，Slot 6的硬盘对应的Logical Device Number为7。

(3) 执行lsscsi命令，前面方括号中的4位数字中的第3位即为Logical Device Number，末尾的/dev/sdx表示此逻辑阵列在系统下对应的盘符。如图所示，查询到Logical Device Number为4的逻辑阵列，其在操作系统下对应的盘符为sde。

2. PMC阵列卡（P460）

(1) 首先查询阵列卡编号。执行arcconf list命令，输出信息中的Controller ID代表阵列卡编号。如图所示，查询到阵列卡编号为1。

(2) 执行arcconf getconfig 1 ld命令（1为上一步中查到的阵列卡编号），找到对应slot号的硬盘的Logical Device number和Disk Name。如图所示，查询到槽位号为Enclosure 0，Slot 6的硬盘对应的Logical Device Number为8，其对应的Disk Name即为操作系统下的盘符sdi。

3. LSI阵列卡

(1) 首先查询阵列卡编号，执行/opt/MegaRAID/storcli/storcli64 show命令，输出信息中的“Ctl”下方的数字代表阵列卡编号。如图所示，查询到阵列卡编号为0。

(2) 执行/opt/MegaRAID/storcli/storcli64 /c0 /vall show all命令（0为上一步中查询到的阵列卡编号），找到对应slot号的硬盘的Virtual Drive编号。如图所示，查询到槽位号为Enclosure 252，Slot 2的硬盘对应的Virtual Drive为3。

4. HP SSA阵列卡

(1) 首先查询阵列卡编号，执行ssacli ctrl all show命令，输出信息中的Slot号代表阵列卡编号。如图所示，查询到阵列卡编号为1。

(2) 执行ssacli ctrl slot=x physicaldrive all show detail命令，显示物理盘slot号与逻辑阵列的对应关系。如图所示，1I:2:2对应的逻辑阵列为array A。

(3) 执行ssacli ctrl slot=x logicaldrive all show detail命令，显示对应的逻辑阵列编号和系统下盘符的对应关系。如图表示array A对应sda。

2.2.2 通过分区和挂载判断硬盘类型

1. 系统盘

执行lsblk命令，查看结果。有挂载到“/”的分区的磁盘为系统盘。如图sda为系统盘。

2. journal加速SSD

仅UIS 6.0版本会有journal加速SSD，UIS 6.5及以上版本不存在journal加速SSD。

执行lsblk命令，查看结果。journal加速SSD的第一个分区大小为15MB或16MB，其余的多个分区大小相同，且分区没有挂载。如图所示，sdf为journal加速SSD。

3. flashcache加速SSD

· UIS 6.0版本

执行lsblk命令，查看结果。flashcache加速SSD的第一个分区大小为15MB或16MB，其余的多个分区大小相同，且分区下有较长的uuid，其后显示挂载路径/var/lib/ceph/osd/ceph-x（x为osd编号）。如图所示，sdo为flashcache加速SSD。

· UIS 6.5及以上版本

执行lsblk命令，查看结果。flashcache加速SSD的第一个分区大小为15MB或16MB，其余的多个分区大小相同，且分区下有较长的uuid，其后没有挂载。如图sdo为flashcache加速SSD。

4. Scache加速SSD/NVMe

SSD盘给HDD盘做缓存加速以及NVMe盘给SSD盘做缓存加速两种情况的查询方法一致，仅盘符处存在区别。

(1) 执行lsblk命令。存在一个固定为2G的磁盘分区，以及另外两个被拆分的缓存分区，即为Scache加速缓存SSD，如本例中的sdd。

sdd 8:48 0 447.1G 0 disk

├─sdd2 8:50 0 132G 0 part

├─sdd3 8:51 0 66G 0 part

├─sdd1 8:49 0 16M 0 part

└─sdd4 8:52 0 2G 0 part

(2) 再执行fdisk-l命令，可以看到查询信息如下，可确认sdd为缓存加速分区。

[root@E0721P03Node1 ~]# fdisk -l /dev/sdd

WARNING: fdisk GPT support is currently new, and therefore in an experimental phase. Use at your own discretion.

# Start End Size Type Name

1 2048 34815 16M unknown scache default HDD

2 34816 276858879 132G unknown Flashcache

3 276858880 415270911 66G unknown ceph block.db

4 415270912 419465215 2G unknown ceph block.wal

5. 数据盘

(1) 执行lsblk命令，查看结果，查询信息与下图sdf类似的即为数据盘，可以看到对应的OSD编号。

(2) 如果无法找到故障盘，则需要执行mount|grep sdg（sdg指故障盘盘符）命令，可以查看OSD编号。

[root@cvknode1 ~]# mount |grep sdg

/dev/sdg1 on /var/lib/ceph/osd/ceph-2 type xfs (rw,noatime,attr2,inode64,noquota)

sdg 8:96 1 1.8T 0 disk

├─sdg1 8:97 1 100M 0 part /var/lib/ceph/osd/ceph-2

└─sdg2 8:98 1 1.8T 0 part

(3) 执行ceph osd tree命令，确认OSD2的状态处于DOWN，即可定位故障的数据盘。

[root@cvknode1 ~]# ceph osd tree

ID CLASS WEIGHT TYPE NAME STATUS REWEIGHT PRI-AFF

-10 0 root maintain

-9 7.84584 root diskpool_ssd

-11 7.84584 rack rack0.diskpool_ssd

-15 5.22926 host cvknode1.diskpool_ssd

2 ssd 1.74309 osd.2 down 1.00000 1.00000

5 ssd 1.74309 osd.5 up 1.00000 1.00000

6 ssd 1.74309 osd.6 up 1.00000 1.00000

-7 0.87219 host cvknode2.diskpool_ssd

1 ssd 0.43610 osd.1 up 1.00000 1.00000

4 ssd 0.43610 osd.4 up 1.00000 1.00000

2.3 操作前检查

进行换盘操作前，请务必执行本章的所有检查项，确认符合前置条件后，再进行更换硬盘操作。

2.3.1 检查集群健康状态

(1) 登录UIS管理页面，在“存储”页面，确认存储健康度为100%。若集群健康度不为100%，请等待集群自动恢复或排除故障后再操作。若等待一段时间仍然没有恢复进度，请联系技术支持。

图1 确认存储健康度

(2) 在集群中任意节点后台执行watch ceph –s命令持续观察集群健康状态，正常情况下状态为Health_OK。观察一分钟左右，确认健康状态正常。若健康状态不为Health_OK，请联系技术支持进行确认。

图2 后台确认集群健康状态

2.3.2 检查集群业务压力

1. 检查iostat 状态

使用ssh登录至到集群中所有主机的后台。执行iostat -x 1命令，持续观察所有节点的CPU使用率和磁盘压力。该命令每秒会刷新输出iostat，建议每台主机观察2 min左右。

· 空闲的CPU %idle应该在40以上。

· %util（磁盘IO繁忙度）需在40%以下。

· svctm（平均每次IO请求的处理时间）需在20以下(单位为ms)。

· await（平均IO等待时间）和 r_await（平均读操作等待时间），以及w_await（平均写操作等待时间）需在20以下（单位为ms）。

如果偶有超过上限的情况，属于正常现象，但如果持续保持在上限以上，则需要等待业务压力变小或暂停部分业务，直到集群业务压力满足条件。

图3 iostat输出

2. 检查内存使用率

执行free –m命令检查内存使用率。内存使用率需要在80%以下。

内存使用率为第一行的used值与内存总容量的比值。

图4 内存使用情况