• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 关于我们

H3C UIS超融合管理平台 扩容与缩容配置指导-5W111

手册下载

H3C UIS超融合管理平台 扩容与缩容配置指导-5W111-整本手册.pdf 82 | 代理商+代理商星级工程师+H3C员工   (2.56 MB)

  • 发布时间:2025/3/12 19:36:11
  • 浏览量:
  • 下载量:

H3C UIS超融合产品

扩容与缩容配置指导

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

资料版本:5W111-20250122

Copyright © 2025 新华三技术有限公司 版权所有,保留一切权利。

非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。

除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。

本文档中的信息可能变动,恕不另行通知。



1 简介

当集群的计算、存储资源不足或有闲置时,UIS超融合管理平台提供扩容、缩容操作,用户可以根据实际业务需求对集群中的计算和存储资源进行扩容或缩容,达到合理利用资源、优化系统运行的目的。

2 扩容配置指导

当集群的计算或存储剩余可用资源不足时,可以通过以下方式进行扩容:

·     集群增加新主机(可扩容计算主机资源、存储主机资源或同时扩容计算资源和存储资源)。

·     集群已有主机增加新磁盘(只扩容存储资源)。

·     将集群主机的数据盘更换为更大容量的数据盘(只扩容存储资源)。

扩容前,管理员需要规划好待增加主机的CPU个数,确保UIS LicenseCAS License、分布式存储License剩余可管理的CPU个数满足要求。若现有License不满足要求,需要先申请足够的License,再进行扩容。

2.1  集群主机扩容

2.1.1  使用限制

为集群增加新主机来进行扩容有如下使用限制:

·     建议扩容主机的CPU、内存型号与集群中已有主机的配置保持一致。

·     计算虚拟化场景只支持增加纯计算节点。

·     扩容主机数量小于3台时,要求扩容主机的磁盘配置必须和集群中已有主机的磁盘配置相同,包括磁盘类型、数量、转速和容量。此时扩容主机的磁盘可以直接加入原硬盘池,但需要保证主机加入同一硬盘池的硬盘数量差不能超过1

·     扩容主机数量大于等于3台时,建议扩容主机的磁盘配置和集群中已有主机的磁盘配置相同,包括磁盘类型、数量、转速和容量。如果扩容主机和集群中已有主机磁盘配置不一致,那么也需保证扩容主机之间的磁盘配置一致。此时建议新建一个硬盘池,将扩容主机的硬盘加入到新建的硬盘池中。

以增加新主机的方式进行存储集群扩容时,待增加的主机需满足以下要求:

·     扩容主机安装软件的版本和厂商品牌必须与超融合管理平台一致,扩容主机的主机型号,CPU类型以及RAID卡型号必须符合版本兼容性列表的要求。此时需注意不同RAID卡主机上的磁盘不能加入同一个硬盘池。

·     新增主机与已有主机对于“一键换盘(即设备管理)”功能的支持情况需要一致。可在主机后台执行devmgr_check_dev_type命令,查看是否支持该功能,如下所示返回“False”则表示不支持。如果原有主机与待新增的主机对于设备管理的支持情况有差异,请参考关闭“设备管理”功能章节进行处理后再扩容。

[root@cvknode11 ~]# devmgr_check_dev_type

cat: /etc/.onekey: No such file or directory

{'for_install': False, 'x10000_type': 'UIS R390X G2', 'for_DM_ONEstor': False, 'is_X10000': False}

 'for_DM_ONEstor': False

·     不支持x86ARM架构的主机混合扩容。

·     管理网、业务网、存储内网和存储外网各网络规划的网卡物理接口数量、复用关系需要与UIS初始化部署时各网络的规划一致。

·     请检查待增加主机各raid卡的缓存状态,如果与集群中已有主机的raid卡缓存状态不符,则需要将raid卡缓存状态修改至与已有主机一致。

说明

查看和修改主机raid卡缓存状态的方法,请查看《H3C UIS标准版超融合管理平台 开局指导》中的硬盘缓存相应章节。

 

2.1.2  注意事项

·     扩容操作会触发数据平衡,导致集群性能降低,建议在业务量小的情况下执行该操作。

·     将已安装UIS软件的服务器管理网、业务网、存储网配置好(与现有集群节点相应网络在同一网段),保证各个网络层面能通。

·     扩容存储节点后,系统会根据存储节点的数量自动调节相应的监控节点数量,无需手动操作。

·     待添加的节点自身必须是没有ceph分区且不是其他集群内的节点。下面两图分别是sd*ceph分区和有ceph分区的状态显示。

¡     未被使用节点:sd*ceph分区。

 

¡     已被使用的节点:sd*ceph分区。

 

2.1.3  主机扩容操作流程

流程

步骤

说明

扩容准备

·     扩容集群进行巡检操作。

·     准备需扩容的UIS一体机或其他兼容UIS软件的服务器

·     安装UIS软件(可选)

·     配置网络

·     在扩容前,建议先对扩容集群进行巡检操作,避免集群潜在的故障、错误或性能问题导致扩容失败。

·     用户在扩容前,需要准备扩容所需数量的UIS一体机或其他兼容UIS软件的服务器。如使用UIS一体机进行扩容,则无需单独安装UIS软件;如使用兼容的服务器进行扩容,则需要安装UIS软件,具体方法请参考《H3C UIS超融合管理平台 安装部署指导》。

·     在准备好已安装UIS软件的服务器后,需规划管理网、业务网、存储网(超融合架构含存储内网、存储外网),此处规划需要与扩容集群相符。具体请参见《H3C UIS超融合管理平台 安装部署指导》。

·     需配置新增服务器的管理网,使其可以被现有管理平台发现。

扩容授权

_

UIS超融合管理平台是按照物理CPU数量授权的,在进行扩容操作时,需先对License进行扩容,使授权数量与扩容后的物理CPU数量相同,具体方法请参见如下手册:

·     本地授权请参见《H3C UIS Manager本地授权 License使用指南》。

·     UIS E0885P02及之后版本支持License Server远程授权,远程授权方法请参见《H3C 软件产品远程授权License使用指南》。

扩容操作

_

在管理平台中添加需扩容的主机。

 

2.1.4  融合集群主机扩容操作步骤

1. 增加硬盘池(可选)

注意

扩容主机数量大于等于3台,且扩容主机的磁盘配置与集群中已有主机的磁盘配置不一致时(包括磁盘类型、数量、转速、容量),在执行主机发现之前,请先增加一个硬盘池,用于集群添加主机时,将扩容主机的磁盘加入到这个新的硬盘池中。

 

(1)     登录UIS超融合管理平台,选择顶部“存储”页签。单击左侧导航树[硬盘池管理]菜单项,进入硬盘池列表页面。

图1 硬盘池列表页面

 

(2)     单击<增加>按钮,弹出增加硬盘池对话框,配置相关参数,单击<确定>按钮完成操作。

图2 增加硬盘池

 

表1 参数说明

参数名称

参数说明

硬盘池名称

新建硬盘池的名称。

服务类型

硬盘池提供的存储服务类型,包括块存储、文件存储、文件存储-数据池、文件存储-元数据池、对象存储、对象存储-数据池、对象存储-元数据池。

恢复策略

数据平衡时,存储数据流量中用于数据平衡的流量速率高度,从高到低的顺序为优先重构>自适应>优先业务。

配置方式

硬盘池的配置方式决定了在使用该硬盘池的数据池中创建的块设备占用存储空间的分配方式以及容量是否能够超配。硬盘池创建完成后,配置方式不能修改,请根据实际情况进行选择。

·     厚配置:在此类型硬盘池中,创建块设备时就为该块设备分配最大容量的存储空间。在使用该类型硬盘池的数据池中创建块设备时,设置的容量不能超过数据池的可用容量。

·     精简配置:此类型硬盘池中,块设备占用存储空间的容量是按需分配的。在使用该类型硬盘池的数据池中创建块设备时,设置的容量可以超过数据池的可用容量。

部署方式

硬盘池的部署方式,包括闪存加速、全SSD

·     闪存加速:设置为闪存加速时,数据盘可选择HDDSSD-AHCISSD-NVMe盘,缓存盘可选择为SCMSSD-AHCISSD-NVMe,缓存盘可选择类型会根据数据盘类型发生变化。

·     SSD:数据盘可选择SSD-AHCISSD-NVMe盘,无读/写缓存加速盘,提供高性能的存储服务。

数据盘类型

用于存储数据的硬盘的类型,只有符合所选类型的硬盘才可以添加至该硬盘池中。

缓存盘类型

设置缓存数据的硬盘类型,只有符合所选类型的硬盘才可以添加至该硬盘池中。当数据盘设置为HDD时,缓存盘只能设置为SSD-AHCISSD-NVMe;当数据盘设置为SSD-AHCI时,缓存盘只能设置为SCMSSD-NVMe;当数据盘设置为SSD-NVMe时,缓存盘只能设置为SCM

缓存盘比

设置一块缓存盘最多可以对应几块数据盘。SSD-AHCI缓存盘建议设置为1~10SSD-NVMe缓存盘建议设置为1~20。设置了缓存盘比之后,硬盘池中可添加数据盘数量会受到缓存盘数量限制。

缓存保护级别

缓存保护级别分一般和高级两种。当部署方式选择闪存加速时可以配置此参数。

·     一般:硬盘池内的存储节点以RAID 0方式将缓存及元数据存储至缓存盘。

·     高级:硬盘池内的存储节点以RAID 1方式将缓存及元数据存储至缓存盘。目前仅部分型号(如R4900 G3)的物理主机支持高级级别,详细支持情况请参见相应规格文档中的说明。

 

2. 主机发现

(1)     选择顶部“主机”页签,进入主机管理信息页面。单击<主机发现>按钮,进入主机发现信息页面。单击图标,扫描主机。

图3 主机发现信息页面

 

(2)     在扫描出来的主机列表中勾选目标主机,单击操作列图标,弹出自定义配置对话框。

图4 自定义配置对话框

 

表2 增加主机参数说明表

参数名称

参数说明

网卡配置模板

该功能用于批量添加主机的场景。开启该功能后,当前主机的网络配置将作为模板,自动下发到其他待加入的主机上,从而达到快速配置各主机网络参数的目的。要使用此功能,须保证其他待加入集群的主机与此模板主机有相同名称且处于活动状态的物理接口,且各物理接口速率应满足对应网络的最低配置要求。例如,开启网卡配置模板功能的主机A的配置为管理网eth0,业务网eth1,存储内外网复用eth2eth3,则其他待加入集群的主机上也必须存在eth0eth1eth2eth3四个活动状态的物理接口,且eth0eth1的速率需大于等于1000Mbpseth2eth3的速率需大于等于10000Mbps。对于不满足条件的主机,需要手工指定各网络使用的物理接口。

纯计算主机

开启后,主机将作为纯计算主机加入集群,不能作为存储节点加入存储集群。

纯存储主机

开启后,主机将作为纯存储主机加入集群,不提供计算虚拟化能力。

IP地址

主机各网络的IP地址若不单独指定,则采取自动分配原则,在各网络设置的起始IP的基础上依次加1。管理网起始IP分配给管理节点。主机的业务网无需配置IP地址。

物理接口

主机管理网、存储内网、存储外网所使用的物理接口必须配置。业务网所使用的物理接口选配。若未配置业务网的物理接口,则在初始化完成后,主机上不会自动创建业务网络类型的虚拟交换机,需手工在UIS超融合管理平台中添加。

 

注意

配置主机管理网、业务网、存储内网和存储外网使用的物理接口时,若当前配置的主机各网络物理接口的复用关系与已配置的主机不一致,则会导致其他已配置主机的配置失效,需重新进行配置。例如:对于已配置的主机A,其管理网和业务网分别单独使用eth0eth1,存储内网和存储外网复用eth2eth3。当配置主机B时,管理网和业务网复用eth0,存储内外网复用eth1eth2。与主机A相比,主机B的存储内外网仍复用两个物理接口,但管理网与业务网复用了同一个物理接口,复用关系发生了变化。配置完主机B后,主机A的配置将失效,需重新配置。

 

(3)     在图4所示页面中单击图标,弹出选择物理接口对话框,依次配置主机管理网、业务网、存储内网和存储外网使用的物理接口。

图5 选择物理接口

 

表3 主要参数说明

参数名称

参数说明

链路聚合模式

物理接口之间的链路聚合方式,包括静态链路聚合和动态链路聚合。当此参数设置为“动态链路聚合”时,物理交换机侧需要开启LACP(链路聚合控制协议)。选择多个物理接口时,才显示此参数。

负载分担模式

物理接口之间的负载分担模式,包括高级负载分担、基本负载分担和主备负载分担。选择多个物理接口时,才显示此参数。

·     高级负载分担:根据转发报文的以太网类型、IP报文协议、源IP地址、目的IP地址、源端口和目的端口进行负载分担。推荐使用高级负载分担。

·     基本负载分担:根据转发报文的源MAC地址和VLAN Tag进行负载分担。

·     主备负载分担:根据物理接口主备进行负载分担。主接口出现故障时,自动使用备接口进行网络流量的处理。当链路聚合模式为“静态链路聚合”时,此参数才可选。

物理接口

主机管理网、存储内网、存储外网所使用的物理接口必须配置。业务网所使用的物理接口选配。若未配置业务网的物理接口,则在初始化完成后,主机上不会自动创建业务网络类型的虚拟交换机,需手工在UIS超融合管理平台中添加。

 

(4)     配置完成后单击<确定>按钮返回主机发现信息页面,单击<添加到集群>按钮,弹出主机配置确认对话框。

注意

手动填写主机IP地址前,需要先确认IP地址是否已被使用或存在冲突。

 

图6 主机配置确认对话框

 

(5)     确认主机的相关配置,确认完成后,单击<确定>按钮,弹出配置主机对话框。

图7 配置主机

 

(6)     待主机配置完成后,自动弹出选择磁盘对话框。将主机上的磁盘加入指定的硬盘池。

注意

·     扩容主机数量大于等于3台,且扩容主机的磁盘配置与集群中已有主机的磁盘配置不一致时(包括磁盘类型、数量、转速、容量),需将扩容主机的磁盘加入到新增的硬盘池中。

·     需要保证加入硬盘池的硬盘无分区,硬盘缓存设置正确。

 

图8 选择磁盘

 

(7)     单击<下一步>按钮进入选择磁盘-主机页面,单击图标,修改主机的角色,并确认主机加入硬盘池的数据盘和缓存盘。

图9 选择磁盘-主机

 

(8)     选择“硬盘池”页签,查看不同硬盘池中,各个主机的数据盘和缓存盘信息。

图10 选择磁盘-硬盘池页签

 

(9)     确认无误后,单击<完成>按钮完成操作。

2.1.5  多角色集群主机扩容操作步骤

1. 扩容纯计算节点主机

(1)     单击顶部“主机”页签,进入主机管理信息页面。单击<主机发现>按钮,进入主机发现页面,单击图标扫描主机。

 

(2)     在扫描出来的主机列表中勾选目标主机,单击操作列图标,弹出自定义配置对话框。单击开启纯计算主机按钮。

 

(3)     单击图标配置扩容主机管理网、业务网、存储外网的物理接口。

 

(4)     配置完成后单击<确定>按钮返回主机发现页面,单击<添加到集群>按钮,弹出主机配置确认对话框。

 

(5)     确认主机的相关配置,确认完成后,单击<确定>按钮,开始增加主机。

 

(6)     增加主机完成后,可在主机管理页面查看到该扩容主机。

 

2. 扩容纯存储节点主机

扩容主机数量大于等于3台,且扩容主机的磁盘配置与集群中已有主机的磁盘配置不一致时(包括磁盘类型、数量、转速、容量),在执行主机发现之前,请先增加一个硬盘池,用于集群添加主机时,将扩容主机的磁盘加入到这个新的硬盘池中。增加硬盘池的操作步骤请参见融合集群主机扩容操作步骤

(1)     选择顶部“主机”页签,进入主机管理页面。单击<主机发现>按钮,进入主机发现页面,单击图标扫描主机。

 

(2)     在扫描出来的主机列表中勾选目标主机,单击操作列 图标,弹出自定义配置对话框。单击按钮开启纯存储主机。

 

(3)     单击图标配置扩容主机管理网、业务网、存储内网、存储外网的物理接口。

 

(4)     配置完成后单击<确定>按钮返回主机信息发现页面,单击<添加到集群>按钮,弹出主机配置确认对话框。

 

(5)     确认主机的相关配置之后,单击<确定>按钮,开始增加主机。

 

(6)     若主机上存在已分区的磁盘,需要将该磁盘分区清理才能进行下一步操作。

 

(7)     待磁盘清理完成后,自动弹出选择磁盘对话框,将主机上的磁盘加入指定的硬盘池。

 

(8)     单击<下一步>按钮,进入选择磁盘-主机页面,单击图标,可修改扩容主机的角色(默认为存储节点,添加后集群会自动根据存储节点个数增加监控节点个数),并确认主机加入硬盘池的数据盘和缓存盘。

 

(9)     确认无误后,单击<完成>按钮。增加主机完成后,可在主机管理页面查看到该扩容主机。

 

2.1.6  两节点扩容三节点操作步骤

UIS系统为两节点集群时,扩容时情况较为特殊,此时系统在集群外为存储集群添加了一个外部监控节点,为双机热备添加了外部的高级仲裁节点或简易Ping方式的两个仲裁IP地址,扩容后需要考虑外部监控节点和仲裁节点的处理,并按需更改存储集群的副本数,提高存储集群的高可用性。

1. 开启数据平衡

添加主机前,需要开启原先集群存储节点数据平衡,开启数据平衡后,两节点扩容三节点时会自动进行数据平衡,添加主机后系统会自动删除外部监控节点,将添加的主机作为外部监控节点。

 

2. 添加主机

注意

添加主机完成后,需要进行双机热备仲裁节点和数据池副本数的处理,此时请不要在新主机上进行新增虚拟机和添加共享存储等业务操作,等待外部监控节点和双机热备仲裁节点处理完成后再进行业务操作。

 

(1)     单击顶部“主机”页签,选择左侧[主机管理]菜单项,进入主机管理页面,单击[主机发现]按钮。发现主机。

 

(2)     单击[主机发现]按钮,进入扫描主机页面,单击图标,发现主机。

 

(3)     勾选目标主机,单击操作列的图标,配置其管理网、存储内外网接口。

 

(4)     单击[添加到集群]按钮,将主机加入集群。

(5)     弹出主机配置对话框,可自定义设置主机参数。

 

(6)     系统配置主机。

 

(7)     主机成功添加到集群之后,选择主机磁盘加入到硬盘池中(主机扩容时需满足各主机加入硬盘池的数据盘数相差不大于1的限制)。

 

(8)     单击<下一步>按钮,确认主机加入硬盘池的硬盘信息和机架信息。

说明

主机角色选择“存储节点“或存储和监控节点”加入集群后,系统都会自动删除外部监控节点,将新添加的节点作为新的监控节点。

 

 

(9)     单击<完成>按钮,系统启动增加存储和监控节点任务,可在任务台中查看进度。

 

(10)     添加主机成功之后,系统会自动删除外部的监控节点。

 

(11)     在存储-监控节点管理页面,可查看到系统有三个监控节点,外部监控节点已被替换为新添加的主机。

 

3. 双机仲裁节点处理

根据原先集群双机热备采用的仲裁方式,可分为如下两种场景:

·     高级仲裁:如果原先集群双机热备采用的是高级仲裁方式,在扩容到三节点后,建议将外部的高级仲裁节点变更为添加的主机。

·     简易ping方式:若原先集群双机热备采用的仲裁方式是简易ping方式,此时,可不对外部的仲裁IP地址进行更换。

替换外部高级仲裁节点的操作步骤如下:

(1)     在双机热备管理页面,确认当前双机热备主、备、仲裁节点状态正常。如状态异常,请先联系技术支持解决异常后再进行操作。

 

(2)     登录主节点后台,修改/etc/cmsd/cmsd.xml配置文件,将原先高级仲裁节点的IP地址和主机名替换为当前新添加节点的IP地址和主机名,保存退出即可。

 

(3)     在主节点后台执行crm status命令,查看当前双机热备的状态,此时显示仲裁节点异常。

 

(4)     在主节点后台执行双机恢复脚本,恢复双机热备,执行命令:/opt/bin/ms_recovery.sh controller 10.125.36.72 h3c.com!

说明

命令格式为:ms_recovery.sh controller [controller_ip] [controller_password]controller为指定脚本修改参数类型,[controller_ip]为替换的新节点IP[controller_password]为替换的新节点主机密码,密码中包含&#@等特殊字符时,需要加单引号,否则无法正确识别密码。

 

(5)     双机恢复脚本执行完成后,需要在主节点上马上重启cmsd服务,执行命令:service cmsd restart

注意

执行完恢复脚本之后,若没有及时在主节点上重启cmsd服务,由于系统原因会进行主备切换并造成原先的主节点双机状态异常,且主备切换期间UIS前台页面无法登录。解决方法是在主备切换后,登录双机状态异常的节点后台重启cmsd服务即可,重启cmsd服务命令:service cmsd restart

 

(6)     等待双机热备服务启动成功,等待一段时间之后重新登录UIS超融合管理平台,此时双机热备恢复正常,仲裁节点已替换为新添加的节点。

 

4. 修改副本数

两节点扩容主机到三节点后,用户可根据实际需求将当前存储集群的的副本数从2副本修改为3副本,增加存储集群的高可用。其操作步骤如下:

说明

·     修改副本数会触发大量数据平衡,导致集群性能降低,建议在业务量小的情况执行该操作。

·     修改副本数前需评估修改之后存储容量是否满足使用需求。

 

(1)     UIS存储集群概要界面查看存储集群Handy VIP,通过VIP登录存储集群后台。

(2)     执行命令:ceph osd pool ls detail,查询需要修改副本数的数据池。

 

(3)     执行以下命令,修改副本数,将上一步骤中查询到的所有数据池的副本数都修改为3

 

(4)     执行如下命令登录数据库,不同版本登录数据库的命令有所不同,请根据实际情况进行选择。

¡     E0750*E080*系列版本执行命令:sudo -u postgres psql calamari

¡     E088*系列版本请执行命令:mariadbsql -ucalamari -p27HbZwr*g calamari

(5)     在数据库中查看需要修改的数据池,表中所列的数据池都需要修改。

 

(6)     修改数据池的replicate_numsize参数,执行如下命令(以修改“.diskpool_hdd.rbd”为例):

update op_cluster_pool set replicate_num='3' where pool_name='.diskpool_hdd.rbd';

update op_cluster_pool set size='3' where pool_name='.diskpool_hdd.rbd';

 

(7)     修改完成后,查看当前数据库,.diskpool_hdd.rbd数据池的副本数已修改为3

 

(8)     以同样的方式完成表中所有数据池副本数的修改。

 

(9)     修改完成后,等待一段时间,登录UIS超融合管理平台,可查看到当前存储集群的所有数据池的副本数全部为3,新增数据池,可设置副本数为3

 

说明

·     更改副本数之后,存储集群上的硬盘池和数据池处于亚健康状态,可能是正在进行数据平衡,是正常现象,若长时间不恢复,请联系技术支持处理。

·     修改副本数之后系统会进行数据平衡,请数据平衡完成后再进行下方的修改最小副本数操作,数据平衡是否完成可执行ceph -s命令查看。

 

5. 修改最小副本数

修改副本数完成之后,建议将最小副本数从1修改为2,进一步增加存储集群的高可用。

(1)     UIS存储集群概要界面查看存储集群Handy VIP,通过VIP登录存储集群后台。

(2)     执行命令:ceph osd pool ls detail,查询存储集群中的数据池。

(3)     执行如下命令,将存储集群中所有数据池的最小副本数修改为2

ceph osd pool set 池名 min_size 需要调整的最小副本数

(4)     执行如下命令登录数据库,不同版本登录数据库的命令有所不同,请根据实际情况进行选择。

¡     E0750*E080*系列版本执行命令:sudo -u postgres psql calamari

¡     E088*系列版本请执行命令:mariadbsql -ucalamari -p27HbZwr*g calamari

(5)     在数据库中查看需要修改的数据池,表中所列的数据池都需要修改。

 

(6)     修改数据池的min_size参数,执行如下命令(以修改“.diskpool_hdd.rbd”为例):

update op_cluster_pool set min_size='2' where pool_name='.diskpool_hdd.rbd';

(7)     修改完成后,查看当前数据库,.diskpool_hdd.rbd数据池的最小副本数已修改为2

(8)     以同样的方式完成表中所有数据池最小副本数的修改。

(9)     修改完成后,等待一段时间,登录UIS超融合管理平台,可查看到当前存储集群的所有数据池的最小副本数已经修改为2

2.2  集群主机增加新磁盘

2.2.1  使用限制

集群主机增加新磁盘时,要求扩容磁盘的类型、转速、容量和主机已有磁盘保持一致。

2.2.2  注意事项

·     禁止在业务量大的时候执行扩容操作,此时IO压力过大会导致文件系统访问超时。

·     新增的磁盘需配置RAID(扩容NVMe盘时禁止对其做RAID)后才能加入到集群中,且扩容节点硬盘必须与原集群节点的硬盘容量和数量等规格一致。

2.2.3  增加新磁盘操作步骤

当主机上有新增磁盘时,系统会自动扫描发现新增的磁盘,此时需要操作员在UIS超融合管理平台中手工将磁盘加入到硬盘池中。

说明

若扩容硬盘无法加入原先环境硬盘池,可新创建一个能增加扩容硬盘的硬盘池,将其加入新硬盘池进行扩容。如何创建新硬盘池请查看软件产品内的联机帮助。

 

(1)     选择顶部“存储”页签。单击左侧导航树[节点管理]菜单项,进入存储节点列表页面。

图11 存储节点列表页面

 

(2)     选择目标存储节点,在磁盘列表中选择未使用或未配置的磁盘,单击操作列图标,弹出选择硬盘池对话框。

图12 选择硬盘池对话框

 

(3)     选择磁盘待加入的目标硬盘池,单击<确定>按钮。若所选硬盘池有缓存盘,则还需选择所添加磁盘对应的缓存盘。之后单击<确定>按钮,完成操作。

(4)     UIS支持向硬盘池中批量添加数据盘或缓存盘,可在“存储”页签的硬盘池管理页面,单击待扩容硬盘池操作列的图标,在弹出的选择磁盘对话框中批量添加硬盘。

 

2.2.4  失败处理

如果磁盘扩容失败无法自动回退,需要自动清理残留,可以采用如下清理方法。

针对每一个残留的osd,在对应的节点后台依次执行以下命令:

(1)     执行systemctl stop [email protected]命令,关闭自动挂载硬盘服务防止手动卸载后再次挂载。

说明

本节中的命令都以删除osd.0为例,实际情形下请根据待删除osdid号进行修改。

 

(2)     执行umount /var/lib/ceph/osd/ceph-0命令,手动卸载挂载的硬盘,避免进程占用导致该盘无法删除。

说明

umount /var/lib/ceph/osd/ceph-0命令可能会出现失败的情况,这是因为osd存在服务自动拉起的机制,需要重新执行systemctl stop [email protected]命令。

 

(3)     执行rm -rf /var/lib/ceph/osd/ceph-0命令,删除挂载点目录。

(4)     执行ceph osd out 0命令,将id0osd移出集群。

(5)     执行ceph osd down 0命令,将id0osd离线,不再参与IO操作。

(6)     执行ceph osd rm 0命令,删除id0osd

(7)     执行ceph osd crush remove osd.0命令,删除crush map中的osd.0

(8)     执行ceph auth del osd.0命令,删除osd.0认证密钥。

(9)     若集群配置了flashcache缓存加速则执行以下命令来清除osd.0的缓存加速:

ceph-disk rmfcache --fastremove --fcache28c81f-e89d-487d-9585-6da -- /dev/sd*(假定fcache28c81f-e89d-487d-9585-6daosd.0对应的flashcache uuid

(10)     若集群采用了元数据分离部署,需依次执行以下命令:

¡     执行cat /var/lib/ceph/osd/ceph-0/block.db_uuid命令,查看osd元数据对应的uuid号,假定输出为d737d16d-e97e-48a7-8c4c-2f58e904c7f5

¡     执行readlink -f /dev/disk/by-partuuid/d737d16d-e97e-48a7-8c4c-2f58e904c7f5命令,找到uuid号对应的盘符,假定输出为/dev/sdf2

¡     执行parted -s /dev/sdf rm 2命令,删除该盘符对应的分区2

¡     执行cat /var/lib/ceph/osd/ceph-0/block.wal_uuid命令,查看osd wal数据对应的uuid,假定输出为a87efe76-de8b-4a4b-95a4-d65174c68b3d

¡     执行readlink -f /dev/disk/by-partuuid/a87efe76-de8b-4a4b-95a4-d65174c68b3d命令,根据uuid号找到对应的盘符,假定输出为/dev/sdf5

¡     执行parted -s /dev/sdf rm 5命令,删除该盘符对应的分区5

(11)     执行ceph-disk zap /dev/sd*命令sd*osd对应逻辑盘符),清除硬盘分区。

2.3  主机硬盘容量扩容

2.3.1  适用场景

主机更换硬盘进行扩容仅适用于不重装系统,对节点数据盘进行更换扩容的情况。UIS内置的分布式存储要求同一个硬盘池中不同节点的数据盘大小一致,更换硬盘进行扩容操作时需要将硬盘池内所有节点的数据盘都进行更换。更换前需要先将主机从集群中删除。

2.3.2  注意事项

·     为了不影响业务的正常运行,在删除主机前,需迁移虚拟机、移除待删除存储节点的数据/存储资源。

·     操作会涉及到数据迁移,导致集群性能降低,因此应选择业务量小的时间段操作,避免因集群压力过大,影响业务正常运行。

·     删除主机前确保集群健康度100%,无异常告警。

 

·     当集群中主机数量为3时,不允许删除主机。删除主机后的集群应该满足最小3节点的要求。

·     删除主机时,需保证删除后该主机所在节点池的副本数小于等于节点池主机个数,否则无法删除。

·     进行删除主机操作前,需要保证PG状态正常,否则无法操作。

 

·     集群中需删除的主机不处于维护模式。

·     删除主机时,需保证管理网、业务网、存储网(超融合架构中分为存储内网和存储外网)等各个网络层面能通。

·     待删除主机所在的硬盘池容量使用率大于等于85%时,不能执行删除操作。

·     该方法只支持一次操作一个节点,待数据平衡完毕之后操作下一个。

·     同时更换多块数据盘或删除多块数据盘再添加同样数量的数据盘,会导致最后一块数据盘的缓存分区创建失败,此时请联系技术支持解决。

2.3.3  硬盘扩容操作步骤

(1)     单击顶部“主机”页签,选择左侧导航树的[主机管理]菜单项,选中对应的主机,进入该主机概要页面。单击<…更多操作>按钮,选择弹出下拉框的“删除主机”选项。

 

(2)     确保已经删除该主机对应的数据盘RAID。登录对应节点的后台,使用lsblk命令可以查看所有磁盘信息。例如,下图就是查看到的主机数据盘为sdb,sdc,sdd,sde

 

注意

如果存在数据盘的RAID未删除,则需要手动删除RAID后再进行后续操作。注意,不要误删系统盘RAID

 

(3)     拔出旧盘,插入新盘,并使用RAID管理工具对单块磁盘作RAID0操作,之后使用lsblk命令检验,查看是否所有数据盘均能被识别。

(4)     添加主机到集群中,通过主机发现方式添加主机。

(5)     等待数据平衡。

说明

若数据量大,数据平衡会消耗大量时间,建议停止业务后进行操作。

 

(6)     查看告警信息或者输入ceph-s命令,确认集群健康度为100%之后,再对其它主机重复1-5步更换硬盘的操作。

3 缩容配置指导

当集群的计算或存储资源有闲置时,可以通过以下方式进行缩容,释放硬件资源:

·     集群主机缩容(同时缩容计算资源和存储资源)。

·     硬盘缩容(将主机硬盘更换为容量更小的硬盘,只缩容存储资源)。

3.1  集群主机缩容

3.1.1  注意事项

·     不支持缩容管理节点、仲裁节点和子集群Handy节点。

·     缩容前确保集群健康度100%,无异常告警。删除主机需逐台操作,删除后需等待一段时间,待集群健康度100%后再进行下台主机的删除操作。

 

·     集群初始化时,会设置存储集群的元数据副本数(初始化时如存储节点数为2,则元数据副本数为2;如存储节点数为3,则元数据副本数为3;如存储节点数大于等于4,则元数据副本数为4),扩容或缩容主机数量时元数据副本数不会发生变化,缩容时须确保存储集群主机数量大于元数据副本数,否则无法执行主机缩容操作。

·     删除主机时需保证删除后,该主机所在节点池的副本数小于等于节点池主机个数,否则无法删除。

·     进行缩容操作前,需要保证PG状态正常,否则无法操作。

 

·     集群中待删除主机的数据平衡模式处于开启状态。

 

·     业务上线后,缩容操作会触发数据平衡,导致集群性能降低,建议在离线的情况下执行缩容,如果有在线缩容的需求,请联系技术支持。

·     进行缩容操作时,需保证管理网、业务网、存储网(超融合架构中分为存储内网和存储外网)等各个网络正常。

·     待删除主机所在的硬盘池容量使用率大于等于85%时,不能执行删除操作。

3.1.2  集群主机缩容操作流程

流程

步骤

描述

缩容准备

·     迁移虚拟机

·     暂停待删除主机的存储池

·     将虚拟机从将删除的主机迁移至其他主机中,以免影响相关的业务。

·     暂停待删除主机的存储池,以确保数据完整性和系统稳定性。

缩容操作

·     删除对象网关(可选)

·     删除主机

先删除主机上的对象网关(如有),然后再到管理平台上删除主机。

缩容授权

_

UIS是按照管理平台内物理CPU数量授权的,在进行缩容操作后,可联系技术支持,以释放多余的授权。

 

3.1.3  缩容准备

1. 迁移虚拟机

将待删除主机的虚拟机迁移到其他节点。

2. 暂停被删除节点的存储池

(1)     单击顶部“主机”页签,在左侧[主机管理]菜单项下选择待删除主机,进入主机概要页面。

(2)     单击“存储”页签,进入主机存储管理页面。

 

(3)     单击存储池操作列的图标,暂停待删除主机的所有存储池,确保所有存储池处于不活动状态。

 

3.1.4  融合集群主机缩容操作步骤

说明

若待删除的主机上存在对象网关,需要先删除主机上的对象网关,再执行删除主机操作。若不存在对象网关,请直接执行删除主机操作步骤。

 

1. 删除对象网关(可选)

(1)     单击顶部“存储”页签,选择左侧[对象存储/对象管理]菜单项,再单击“高可用对象组”页签,进入高可用对象组管理页面。

(2)     单击待删除主机所在的高可用对象组,进入对象网关主机管理页面,选择目标主机,单击上方的<删除>按钮,在弹出页面单击<确定>按钮,在高可用对象组中删除对象网关主机。

 

(3)     单击“对象网关”页签,进入对象网关管理页面,选择待删除主机上的对象网关,单击上方的<删除>按钮,删除对象网关。

 

2. 删除主机

(1)     单击顶部“主机”页签,选择左侧导航树的[主机管理]菜单项,选中对应的主机,进入该主机概要页面。单击<…更多操作>按钮,选择弹出下拉框的“删除主机”选项。

 

(2)     删除主机之后,等待集群健康度100%之后才能开始删除其它主机。

3.1.5  多角色集群主机缩容操作步骤

1. 缩容纯计算节点主机

(1)     单击顶部“主机”页签,选择左侧导航树的[主机管理]菜单项,选中对应的主机,进入该主机概要页面。单击<…更多操作>按钮,选择弹出下拉框的“删除主机”选项。

 

(2)     弹出提示框,单击<确认>按钮,完成删除操作。删除主机之后,等待集群健康度100%之后才能开始删除其它主机。

 

2. 缩容纯存储节点

说明

若待删除的主机上创建了对象网关,需要先删除主机上的对象网关,再执行删除主机操作。删除主机上对象网关的操作步骤请参见删除对象网关章节。

 

(1)     单击顶部“主机”页签,选择左侧导航树的[主机管理]菜单项,选中对应的主机,进入该主机概要页面。单击<…更多操作>按钮,选择弹出下拉框的“删除主机”选项。

 

(2)     弹出提示框后,单击<确认>按钮。删除主机之后,等待集群健康度100%之后才能开始删除其它主机。

 

3.2  硬盘缩容

3.2.1  注意事项

·     删除硬盘后需要确保同一集群下不同主机的硬盘数量差不大于一。

·     删除硬盘需逐个操作,删除后需等待一段时间,待集群健康度100%后再进行下一块硬盘的删除。

·     集群中需缩容硬盘的主机不处于维护模式。

·     业务上线后,缩容操作会触发数据重新平衡,导致集群性能降低,建议在离线的情况下执行缩容,如果有在线缩容的需求,请联系技术支持。

·     进行缩容操作时,需保证管理网、业务网、存储网(超融合架构中分为存储内网和存储外网)等各个网络层面能通。

·     主机中的硬盘所在的硬盘池容量使用率大于等于85%,则不能执行删除操作。

3.2.2  硬盘缩容操作步骤

(1)     单击顶部“存储”页签,选择左侧导航树[存储管理/节点管理]菜单项,进入存储节点页面。

(2)     选中目标存储节点,在下方的磁盘列表中,选择未配置的磁盘,单击操作列的图标,弹出操作确认对话框。

 

(3)     单击<确定>按钮,完成操作。

4 附录

4.1  使用HDM配置RAID

扩容与缩容过程中,更换硬盘或新增硬盘需要配置RAID后才能加入集群,而在运维过程中,维护人员可能会直接使用HDM进行RAID配置,然而配置RAID的默认参数可能不符合UIS超融合管理平台的要求,导致磁盘加入集群失败或产生告警。因此,本章节提供HDM上配置RAID的操作方法以及一些参数配置要求,以便维护人员能够通过HDM进行RAID配置。

说明

·     不同的HDM软件版本RAID配置界面可能不一致,此时请根据实际情况进行配置。

·     HDM界面配置RAID需要HDM软件支持,若不支持,请在UIS超融合管理平台存储管理界面或服务器BIOS界面为磁盘配置RAID

 

4.1.1  P460/P4408控制卡配置RAID

(1)     登录服务器HDM管理软件,进入存储管理页面。

(2)     单击<创建逻辑盘>按钮,进入创建逻辑盘页面。

注意

创建逻辑盘页面的加速策略参数默认为Controller CacheUIS超融合场景需要设置为IO Bypass,其它参数可根据实际情况进行配置。

 

 

(3)     单击<确定>按钮完成操作。

4.1.2  lsi9361/lsi9460/lsi9560控制卡配置RAID

(1)     登录服务器HDM管理软件,进入存储管理页面。

(2)     单击<创建逻辑磁盘>按钮,进入创建逻辑磁盘页面。

注意

创建逻辑磁盘页面的部分参数建议配置如下,其余参数使用缺省值即可。

·     RAID级别:RAID0。数据盘只允许配置RAID0,且要求单盘RAID0,禁止选择多个磁盘做RAID0

·     读策略:建议配置为No read ahead

·     写策略:SSD磁盘建议配置为Write throughHDD磁盘建议配置为Write back

·     IO策略:建议配置为Direct

·     物理盘缓存策略:建议配置为Disable

 

 

(3)     单击<确定>按钮,完成操作。

4.1.3  lsi9440/lsi9540 HBA卡配置RAID

lsi9440/lsi9540 HBA卡要求数据盘开启JBOD,数据盘开启JBOD的操作步骤如下:

(1)     登录服务器HDM管理软件,进入存储管理页面。

(2)     选中需要创建RAID的磁盘,在弹出磁盘信息页面中将其状态改为“JBOD”。

 

(3)     单击<确定>按钮,完成操作。

 

4.2  关闭“设备管理”功能

设备管理是用于提供硬盘更换功能的后台功能模块,不同版本、主机之间可能存在差异,在扩容或创建集群时需要保证集群内所有主机对“设备管理”功能的支持情况一致,若不一致,可能会出现磁盘无法识别的故障。

4.2.1  原集群不支持“设备管理”,新主机支持“设备管理”

如果集群中原有主机不支持设备管理,需要关闭待扩容主机的设备管理功能,再进行扩容。

(1)     查询当前主机的配套UIS-ONEStor版本。执行cat /etc/onestor_external_version命令,查看返回结果。例如:

[root@Acvknode3 bin]# cat /etc/onestor_external_version

ONEStor-E3339

Release date 2023.04.10

(2)     关闭待增加主机的设备管理功能。不同的UIS-ONEStor版本,操作方法有差异,参考如下。

¡     R21xx版本:执行sed -i 's/\$result/false/g' /opt/h3c/sbin/check_raid_support命令,然后执行check_raid_support命令,检查返回结果为“False”即可。

¡     E33xx版本:在待新增的主机中执行如下命令。

sed -i '/for_install/s/True/False/g' /opt/h3c/sbin/devmgr_check_dev_type

chkconfig --del devmgrd

devmgrcli stop

rm -f /opt/h3c/lib/python2.7/site-packages/ipc_protocol.py*

rm -f /usr/lib/python2.7/ipc_protocol.py*

¡     E5xxx版本,在待新增的主机中执行如下命令:

sed -i '/for_install/s/True/False/g' /opt/h3c/sbin/devmgr_check_dev_type

chkconfig --del devmgrd

devmgrcli stop

rm -f /opt/h3c/lib/python2.7/site-packages/ipc_protocol.py*

rm -f /usr/lib/python2.7/ipc_protocol.py*

rm  -f /opt/h3c/lib/python3.9/site-packages/ipc_protocol.py*

rm –f /usr/lib/python3.9/ ipc_protocol.py*

(3)     关闭设备管理功能后需要清理“op_cluster_disk”数据库表,参考命令如下:

¡     R21xxE33xx系列版本执行如下命令:

sudo -u postgres psql calamari

delete from op_cluster_disk

¡     E5xxx系列版本执行如下命令:

mariadbsql -ucalamari -p27HbZwr*g calamari

delete from op_cluster_disk

 

4.2.2  原集群支持“设备管理”,新主机不支持“设备管理”

如果集群中原有主机支持设备管理,待新增的主机不支持,则需要关闭原集群所有主机的设备管理功能,再进行扩容。

(1)     查询当前主机的配套UIS-ONEStor版本。执行cat /etc/onestor_external_version命令,查看返回结果。例如:

[root@Acvknode3 bin]# cat /etc/onestor_external_version

ONEStor-E3339

Release date 2023.04.10

(2)     关闭原有主机的设备管理功能。不同的UIS-ONEStor版本,操作方法有差异,参考如下。

¡     R21xx版本:执行sed -i 's/\$result/false/g' /opt/h3c/sbin/check_raid_support命令,然后执行check_raid_support命令,检查返回结果为“False”即可。

¡     E33xx版本:

在原有的管理节点主机,执行如下命令。

sed -i '/for_install/s/True/False/g' /opt/h3c/sbin/devmgr_check_dev_type

chkconfig --del devmgrd

devmgrcli stop

rm -f /opt/h3c/lib/python2.7/site-packages/ipc_protocol.py*

rm -f /usr/lib/python2.7/ipc_protocol.py*

supervisorctl restart all

systemctl restart diamond.service

在原有的非管理节点的主机中,执行如下命令。

sed -i '/for_install/s/True/False/g' /opt/h3c/sbin/devmgr_check_dev_type

chkconfig --del devmgrd

devmgrcli stop

rm -f /opt/h3c/lib/python2.7/site-packages/ipc_protocol.py*

rm -f /usr/lib/python2.7/ipc_protocol.py*

¡     E5xxx版本:

在原有的管理节点主机,执行如下命令。

sed -i '/for_install/s/True/False/g' /opt/h3c/sbin/devmgr_check_dev_type

chkconfig --del devmgrd

devmgrcli stop

rm -f /opt/h3c/lib/python2.7/site-packages/ipc_protocol.py*

rm -f /usr/lib/python2.7/ipc_protocol.py*

rm  -f  /opt/h3c/lib/python3.9/site-packages/ipc_protocol.py*

rm –f /usr/lib/python3.9/ ipc_protocol.py*

supervisorctl restart all

systemctl restart diamond.service

在原有的非管理节点的主机中,执行如下命令。

sed -i '/for_install/s/True/False/g' /opt/h3c/sbin/devmgr_check_dev_type

chkconfig --del devmgrd

devmgrcli stop

rm -f /opt/h3c/lib/python2.7/site-packages/ipc_protocol.py*

rm -f /usr/lib/python2.7/ipc_protocol.py*

rm  -f  /opt/h3c/lib/python3.9/site-packages/ipc_protocol.py*

rm –f /usr/lib/python3.9/ ipc_protocol.py*

(3)     关闭设备管理功能后需要清理“op_cluster_disk”数据库表,参考命令如下:

¡     R21xxE33xx系列版本执行如下命令:

sudo -u postgres psql calamari

delete from op_cluster_disk

¡     E5xxx系列版本执行如下命令:

mariadbsql -ucalamari -p27HbZwr*g calamari

delete from op_cluster_disk

 

4.2.3  版本升级时关闭设备管理

若是在升级过程中,经脚本校验确认当前环境不支持设备管理,可执行如下方法在升级前手动关闭设备管理模块,操作前可执行cat /etc/onestor_external_version命令查看具体的UIS-ONEStor版本号。

1. R21xx版本关闭设备管理模块方法

(1)     升级前需要关闭主机的设备管理功能。执行vim /opt/h3c/sbin/check_raid_support命令。然后将“for_DM_ONEstor”和“for install”的返回结果由true修改为false

(2)     关闭设备管理功能后需要清理“op_cluster_disk”数据库表,命令如下:

sudo -u postgres psql calamari

delete from op_cluster_disk

说明

R21xx版本升级到E33xx版本的升级场景中,系统可能会重新下发opt/h3c/sbin/devmgr_check_dev_type脚本,若是在升级过程中发现设备管理相关问题报错,可查看是否有opt/h3c/sbin/devmgr_check_dev_type脚本,如有则执行如下命令:

sed -i '/for_install/s/True/False/g' /opt/h3c/sbin/devmgr_check_dev_type

 

2. E33xx版本关闭设备管理模块的方法

(1)     升级前需要关闭主机的设备管理功能。执行vim /opt/h3c/sbin/devmgr_check_dev_type命令。然后将“for_DM_ONEstor”和“for install”的返回结果由true修改为false

(2)     关闭设备管理功能后需要清理“op_cluster_disk”数据库表,参考命令如下:

sudo -u postgres psql calamari

delete from op_cluster_disk

3. E5xxx版本关闭设备管理模块的方法

(1)     升级前需要关闭主机的设备管理功能。执行vim /opt/h3c/sbin/devmgr_check_dev_type命令。然后将“for_DM_ONEstor”和“for install”的返回结果由true修改为false

(2)     关闭设备管理功能后需要清理“op_cluster_disk”数据库表,参考命令如下:

mariadbsql -ucalamari -p27HbZwr*g calamari

delete from op_cluster_disk

 

 

新华三官网
联系我们