• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 关于我们

H3C百业灵犀ModelBuilder使能平台 安装部署指导-E0303-5W100

01-正文

本章节下载 01-正文  (3.01 MB)

01-正文

1 概述

1.1  简介

H3C使能平台(LinSeer Hub)采用软硬件一体化的全方位高性能交互开发模式。平台为用户提供了AI作业的调度、模型训练、模型评估、模型推理、在线推理服务等功能,同时为了辅助用户管理开发资源,也提供了AI资产、AI资源管理等功能。为解决部署难的问题,平台提供基础软硬件集群环境的一键自动部署的功能。通过使能平台,用户可以实现对资源的统一监管、对作业的调度与监控、训练数据可视化、工程化的模型开发管理,满足用户的不同业务场景的开发需求。

1.2  适用范围

本手册适用于H3C使能平台ModelBuilder的安装部署操作。

2 部署说明

2.1  部署规划

2.1.1  支持操作系统

表2-1 支持的操作系统列表

厂商

版本

管理节点

计算节点

Ubuntu

Ubuntu Server 22.04

H3C

H3CNingOS V3 24.03

 

说明

版本下载链接:

https://old-releases.ubuntu.com/releases/22.04/ubuntu-22.04-live-server-amd64.iso

选取以上推荐操作系统镜像安装可能会存在依赖冲突问题,可以考虑删除冲突的依赖尝试解决,如果仍无法解决,请选择推荐的操作系统。

 

2.1.2  服务器配置说明

表2-2 管理节点硬件配置要求

指标项

最低配置

推荐配置

机器数量

1台

3台

CPU架构

x86-64(Intel64/AMD64)

x86-64(Intel64/AMD64)

CPU内核

≥32核、2.0Ghz主频及以上

每台节点≥96核、2.0Ghz主频及以上

内存

64G及以上内存

256G及以上内存

网卡

1个千兆网卡

1个万兆及以上网卡

磁盘

≥1T硬盘

≥1T硬盘

 

表2-3 计算节点硬件配置要求

指标项

最低配置

推荐配置

机器数量

1台

2台(支持扩展)

CPU架构

x86-64(Intel64/AMD64)

x86-64(Intel64/AMD64)

CPU内核

≥32核、2.0Ghz主频及以上

每台节点≥48核、2.0Ghz主频及以上

内存

128GB内存(根据业务需求确定)

256GB及以上内存(根据业务需求确定)

磁盘

≥3T硬盘(根据业务需求确定)

≥3T硬盘(根据业务需求确定)

网卡

1个万兆及以上网卡

1个万兆及以上网卡
1个100G及以上RDMA网卡

 

表2-4 存储要求

指标项

最低配置

推荐配置

管理集群共享存储系统盘(NFS协议)

存放系统数据(约40G)以及镜像仓库数据(根据用户业务情况判断),需要根据用户镜像进行合理设置

存放系统数据(约40G)以及镜像仓库数据(根据用户业务情况判断),需要根据用户镜像进行合理设置

业务集群共享存储

根据业务规模,用户自己指定,支持NFS和CX存储

根据业务规模,用户自己指定,支持NFS和CX存储

 

注意

为了保证业务正常,业务集群使用的存储请勿和管理集群公用。

 

2. 客户端配置需求

用户不需要安装客户端软件,使用浏览器即可访问使能ModelBuilder。推荐使用的浏览器为Google Chrome 92+及以上版本。所有操作需要在root用户下进行。

3. 磁盘划分规划

根据不同的业务量和不同的服务器配置需求进行不同的磁盘RAID和分区规划。

表2-5 磁盘划分规划

名称

容量

挂载点

文件系统

boot

2G

/boot

ext4

root

980G(根据业务需求划分)

/

ext4

 

说明

boot分区容量固定。通常为2G。

root分区容量可根据系统实际大小适当调整。

目前使能平台安装管理集群不需要使用管理节点本地存储,预留是为以后升级考虑。

 

4. IP地址规划

表2-6 IP地址规划表

IP地址规划

作业

备注

Master节点1 IP

为安装了操作系统的Master节点分配的IP地址

必选项(单机部署模式只需要一个Master节点)

加入同一集群的所有Master节点的IP地址必须处于同一网段

Master节点2 IP

为安装了操作系统的Master节点分配的IP地址

Master节点3 IP

为安装了操作系统的Master节点分配的IP地址

北向管理虚IP

部署的管理集群使用

必选项,集群北向管理虚IP必须在Master节点所处的网段内

北向业务虚IP

部署的业务使用(一个业务集群需分配一个业务集群虚IP)

必选项,集群北向业务虚IP必须在Master节点所处的网段内

 

2.1.3  集群时钟同步

为了保障集群节点间进程、服务、及网络通信、IO等时间一致性,需要保障集群(管理集群和业务集群)时钟的一致性。

若数据中心集群内部有其他系统平台与H3C使能ModelBuilder关联,比如存储系统平台,需要数据中心集群内部时钟保持一致性,此时可以考虑选择集群内使用统一时钟服务器。

1. 集群内时钟一致性

集群主节点,默认作为使能ModelBuilder集群时钟服务器,集群的从节点,以及计算节点会去同步该主节点时间;使能ModelBuilder集群在安装部署完成后,自动完成时钟同步及配置。

如需调整时钟服务器:

在浏览器中输入使能ModelBuilder集群主节点的登录地址,进入Matrix登录页面。

登录地址格式为:https://ip_address:8443/matrix/ui,例如:https://172.16.101.200:8443/matrix/ui。

使能ModelBuilder默认使用内置时钟服务器,可修改为外置服务器,如图2-1所示。

图2-1 调整时钟服务器

标题: fig:

 

从集群节点执行如下命令,查看chrony服务运行状态和时钟同步信息,如图2-2所示。

systemctl status chronyd.service

chronyc sources -v

chronyc tracking

date -R

图2-2 查看chrony服务运行状态和时钟同步信息

标题: fig:

 

备注:已知chrony 3.2版本存在bug,在Ubuntu 20.04系统下无法正常进行时间同步,如上图所示;可以升级至chrony 3.5版本,与使能ModelBuilder集群节点进行时钟同步。对应操作系统的的chrony版本可自行下载。

Ubuntu 20.04系统下无法正常进行时间同步,如图2-3

图2-3 无法正常进行时间同步

标题: fig:

 

2. 数据中心集群统一时钟服务器配置

该方式采用数据中心统一时钟服务器,H3C使能ModelBuilder以及涉及到的所有节点(包含共享存储系统平台)均同步该时钟服务器的时间。

首先,数据中心统一时钟服务器chrony服务运行正常,最好可以联网同步外部时钟,允许集群内部网段节点同步。

数据中心统一时钟服务器mu01配置信息,如图2-4

图2-4 数据中心统一时钟服务器mu01配置信息

标题: fig:

 

其他集群节点chrony服务配置信息,如图2-5

图2-5 其他集群节点chrony服务配置信息

标题: fig:

 

其他集群节点chrony服务配置信息,如图2-6

图2-6 其他集群节点chrony服务配置信息

标题: fig:

 

示例中10.99.232.233为mu01时钟服务器的IP地址。

集群节点执行如下命令,查看chrony服务运行状态和时钟同步信息:

systemctl status chronyd.service

chronyc sources -v

chronyc tracking

date -R

说明

每个集群节点需安装chrony服务,在每个节点的chrony配置文件chrony.conf中配置,数据中心统一时钟服务器作为时间源,重启chrony服务以使配置生效。

 

使用如下命令,可以立即调整系统时钟,使其与时钟服务器同步。

chronyc makestep

该命令用于系统启动时或者系统时钟有显著偏差时。

说明

Ubuntu系统chrony服务的配置文件为/etc/chrony/chrony.conf。

NingOS系统为/etc/chrony.conf。

 

使用如下命令修改系统时区。

timedatectl set-timezone Asia/Shanghai

修改系统时区,如图2-7

图2-7 修改系统时区

标题: fig:

 

数据中心统一时钟服务器,若可联网推荐配置使用的时钟服务器:

·     cn.pool.ntp.org

·     ntp.aliyun.com

·     ntp.tencent.com

·     time.apple.com

·     time.windows.com

·     asia.pool.ntp.org

2.2  部署包说明

2.2.1  安装包详情

表2-7 安装包详情

安装包

安装包名称

安装包功能说明

获取方式

使能平台Modelbuilder安装包

LinseerHub-Modelbuilder-EXXXX.zip

主安装包

由H3C提供

 

2.2.2  辅助安装包

辅助安装包中包含部分操作系统的GPU插件,网卡插件,一些针对操作系统、驱动部署和网卡等的常用工具、测试工具以及补丁包等。安装包仅提供部分工具,作为辅助。

表2-8 辅助安装包

安装包

安装包名称

安装包功能说明

获取方式

辅助安装工具包

tools.zip

辅助安装工具包

请联系H3C工作人员获取

 

2.2.3  依赖安装包说明

表2-9 依赖安装包

安装包

安装包名称

安装包功能说明

获取方式

Matrix安装包

Matrix-V100R001B01D014SP03-x86_64.zip

依赖安装包

请联系H3C工作人员获取

 

说明

使能ModelBuilder部署包与节点所在操作系统强相关,请确认好操作系统,选择对应的安装包。

 

3 安装部署

图3-1 安装部署流程

标题: fig:

 

图3-2 卸载流程

标题: fig:

 

3.2  部署前准备(重要)

3.2.1  安装操作系统

安装操作系统的详细介绍,请参见《H3C使能ModelBuilder适配的操作系统安装指导》。

如系统时间与北京时间相差过大,安装完操作系统后,请按如下步骤操作:

(1)     执行date -s '09/29/2022 09:45:40'命令,同步北京时间。

(2)     执行hwclock -w命令同步系统时间至硬件,防止重启系统后时间会改变。

注意

·     Matrix安装前必须保证操作系统时间正常,如安装完Matrix之后修改操作系统时间,会导致Matrix集群异常。

·     如遇到时区不一致,请修改一致,否则会导致监控时间不一致问题,影响使用。(sudo timedatectl set-timezone Asia/Shanghai)

 

3.2.2  检查节点是否已经加入某个集群

查看节点/etc/hosts文件内容,如果文件内容如图3-3,则很有可能节点已经加入到某个集群中。

图3-3 /etc/hosts文件内容

标题: fig:

 

此时可以登录到对应的IP查看是否已安装产品,并查看是否在产品中创建集群。情况如下:

·     产品已安装,且有集群,集群中有节点,节点均正常。

·     如果要使用的节点为某集群的worker节点,在集群的详情页面上删除集群的节点。删除节点前请查看节点设计的资源组,如果节点在某个资源中,请先删除,如果资源组为所要删除的节点建立,请删除资源组。

·     如果要使用的节点为某集群的master节点,需要删除此集群模式以释放节点。删除集群前,请删除集群关联的资源组。

¡     如果要使用的节点为产品管理集群的节点,需要先删除产品管理的集群的节点,再删除集群。

¡     删除集群后,切换系统管理员,删除不需要继续纳管的节点后,卸载产品(linctl uninstall service)。

·     产品未安装,请登录https://[matrix-node1对应的IP]:8443。

注意

如果遇到节点异常,或者集群中节点无法释放,可以登录对应的Matrix页面,进行删除和释放。

 

3.2.3  安装unzip

安装包解压需要安装unzip命令,请根据操作系统的情况自行安装。

3.2.4  备份重要文件和清理安装环境

请备份重要文件,包括但不限于/etc/hosts、/etc/profile以及~/.bashrc等文件。检查/etc/hosts,/etc/profile以及~/.bashrc等文件,如果发现以下情况,请按照手册说明清理遗留数据。

·     打开/etc/hosts,如果有以下信息,请清除。

图3-4 打开/etc/hosts

标题: fig:

 

·     打开/etc/profile,如果有以下信息,请清除。

图3-5 打开/etc/profile

标题: fig:

 

·     打开~/.bashrc,如果有以下信息,请清除。

图3-6 打开~/.bashrc

标题: fig:

 

·     清除历史helm包记录,需要清除管理节点和计算节点(如有)。

rm -f /data/chartmuseum/*

3.2.5  麒麟操作系统

如果使用麒麟操作系统,由于操作系统本身的内核版本较低,需要替换安装包中的linctl文件。

替换方法:解压安装包后,需要替换的文件路径为,解压安装包得到的目录下的./LinseerHub-Modelbuilder-EXXXX/linctl/linctl。

3.2.6  准备Matrix安装包(后面可用安装脚本加参数完成)

管理集群安装时,不需要单独安装Marix。业务集群安装时,需要手动自行安装Matrix。

联系新华三工作人员,获取Matrix安装包,安装包名称Matrix-V100R001B01D014SP03-x86_64.zip。

3.2.7  【计算节点】安装Matrix

说明

GPU驱动、网卡驱动可能依赖一些基础的安装包,为了简化驱动安装过程,建议先安装Matrix依赖,再进行驱动的安装。期间如果驱动安装有依赖问题,请先解决依赖。

 

计算节点在被加入系统使用前,需要安装Matrix,安装Matrix的方式请参见附录(示例不代表所有版本Matrix安装步骤)。

3.2.8  【计算节点】安装GPU驱动

根据GPU卡类型,选择合适的驱动进行安装。示例参考见附录(示例不代表所有的驱动安装步骤)。

3.2.9  【计算节点】安装模组驱动

根据模组类型,选择合适的驱动进行安装。示例参考见附录(示例不代表所有的驱动安装步骤)。

3.2.10  【计算节点】安装网卡驱动

根据网卡类型,选择合适的驱动进行安装。示例参考见附录(示例不代表所有的驱动安装步骤)。

针对RoCE自动化参数网配置,请查看附录RoCE自动化参数网配置指导。

3.2.11  管理集群组件分离部署方式(后面可用安装脚本加参数完成)

目前完整的包一键部署后,会完整部署全部组件,包括中间件、Base组件以及数据、开发、训练以及评估业务相关组件。

·     如果要独立安装Base组件,请删除如下四个安装包,然后进行安装。

./LinseerHub-Modelbuilder-EXXXX/model-builder/train-manager-*.zip

./LinseerHub-Modelbuilder-EXXXX/model-builder/visualizer-*.zip

./LinseerHub-Modelbuilder-EXXXX/model-builder/dev-lab-*.zip

./LinseerHub-Modelbuilder-EXXXX/model-builder/evaluation-*.zip

·     或者安装时执行bash install -b

如果要增量安装训练相关组件,使用如下命令进行安装,安装后菜单自动注册。

linctl install component --path [安装包路径]

注意

当前版本暂不支持业务组件卸载,强行卸载业务组件,会导致相应业务不可用。

 

3.3  管理集群部署

3.3.1  安装包准备

·     将使能平台的安装包及MD5文件上传至预安装的管理集群管理节点的服务器上,如果是多管理节点部署,只需要将安装包上传到其中一台管理节点上即可。

·     检查安装包的MD5值,并校验。校验方法:将安装包和MD5文件放在同一个目录下,在此目录下,输入md5sum -c md5File,显示类似如下信息表示成功。

标题: fig:

 

·     解压压缩包到任意目录

·     进入到LinseerHub-Modelbuilder-EXXXX目录,安装包内容列表如表3-1

表3-1 安装包内容

安装包

子安装包

说明

大小

config.ini

-

安装配置文件

~

install.sh

-

安装脚本

~

init

initial-configure-1.0.0.zip

~

linctl

linctl

linctl 使能平台安装工具目录

约10M

version.list

-

安装包版本列表

~

base

license-api-X.X.X.zip

base安装包目录,主要在管理集群上安装使用

约2G

jobhandler-1.0.0.zip

storage-manage-1.0.0.zip

monitor-1.0.0.zip

cluster-manager-1.0.0.zip

frontend-1.0.0.zip

user-management-1.0.0.zip

file-management-1.0.0.zip

business

business-jobhandler-1.0.0.zip

business安装包目录,主要在业务集群上安装使用

约2.4G

ingress-nginx-1.0.0.zip

kubeflow-1.0.0.zip

business-init-1.0.0.zip

volcano-1.0.0.zip

gpu-operator-v24.6.0.zip

storage-watcher-1.0.0.zip

business-prometheus-1.0.0.zip

model-builder

-

model-builder 安装包目录,主要存放训练业务组件安装包

~

dependency

deploy-kylin-linux-advanced-serverv10_3.02.02.zip(麒麟OS V10需要)

dependency安装包目录,主要存放使能平台安装过程中依赖的安装包

约2G

deploy-ubuntu22.04_3.02.02.zip(ubuntu 22.04需要)

deploy-ningosv3_3.02.02.zip(NingOS需要)

middleware

kong-ingress-1.0.0.zip

middleware 安装包目录,主要存放中间件安装包

约2G

prometheus-1.0.0.zip

harbor-1.0.0.zip

redis-ha-1.0.0.zip

rocketmq-1.0.0.zip

postgresql-1.0.0.zip

 

·     将3.2.6  准备Matrix安装包(后面可用安装脚本加参数完成)的Matrix安装包放到./LinseerHub-Modelbuilder-EXXXX/dependency目录下。

3.3.2  安装管理集群

·     首先确定要配置管理集群的节点不在其他集群中。

·     安装前配置:执行安装脚本前,需要先配置config.ini文件,用来声明集群的北向IP,管理节点,存储等信息。配置文件如下:

[general]

# A northbound virtual IP is required to access the cluster.  (集群北向IP设置)

northern_vip: 10.0.0.0

 

# Management cluster related configurations (集群管理节点配置,如果是多管理节点,需要打开[master2] [master3] 的enable开关,并且配置对应节点的IP、用户名和密码)

# Single manager: just fill in the [master1] configuration

# Three manager: need to fill in the [master1] [master2] [master3] configuration

[master1]

hostip: 10.0.0.1

username: root

password: ssh_pwd

 

# Three manager: fill in the following two node parameters (only three manager are supported)

[master2]

# Three manager: ensure `enable` to true

enable: false

hostip: 10.0.0.2

username: root

password: ssh_pwd

 

[master3]

# Three manager: ensure `enable` to true

enable: false

hostip: 10.0.0.3

username: root

password: ssh_pwd

 

# Storage related configuration (配置管理集群使用的共享存储)

# Store platform-related logs, mirrors, databases and other persistent files

[storage]

# Support type: nfs

type: nfs

nfs.hostip: 10.0.0.4

nfs.path: /share

 

 

# Install related policy configurations.

# if uninterrupted is false, the installation will stop immediately if there is an error that causes the current component installation to fail.

# else uninterrupted  is true, it will continue to install components even if errors occur, until the number of failed components exceeds the fail_count (default is 3).

[strategy]

uninterrupted: true  #设置安装策略,值为true,不中断安装,当失败组件达 failed_count 时,停止安装

failed_count: 3  #失败组件预置设置

·     安装部署

¡     如果只安装Base组件,已经将Matrix安装包放到对应位置,执行如下脚本:

bash  install.sh -b

¡     如果只安装Base组件 ,没有将Matrix安装包放到对应位置,执行如下脚本:

bash  install.sh -b  -d ${Matrix_package_path}

¡     如果安装Base组件 + ModelBuilder组件 ,已经将Matrix安装包放到对应位置,执行如下脚本:

bash  install.sh

¡     如果安装Base组件 + ModelBuilder组件 ,没有将Matrix安装包放到对应位置,执行如下脚本:

bash  install.sh  -d ${Matrix_package_path}

进行部署。整个部署过程约40min~60min,部署组件越多时间越久。多集群部署时间有可能会增加。

注意

如果过程中部署失败,需要手动卸载已经安装的组件,再次安装。或者重新安装操作系统后,再次安装。

当部署的配置uninterrupted为true的时候,允许部署组件有一定程度的出错(failed_count个数)。此时执行linctl list component可以查看到当时失败的组件,可以通过kubectl相关命令查看组件实际运行状态,以及可通过页面功能进行组件异常判断。

 

1. 部署后验证

安装完成以后,可以使用linctl等相关命令,查看安装包情况。具体操作如下:

(1)     使环境变量生效。

source /etc/profile或者重新打开一个终端。

(2)     执行linctl list component,输出如图3-7

图3-7 执行linctl list component

标题: fig:

 

3.3.3  管理集群卸载

注意

卸载管理集群前,请注意备份自己的重要数据,同时卸载租户管理员的所有集群和卸载集群挂载的存储。

 

1. 方法1

使用安装包中uninstall.sh脚本卸载。

bash uninstall.sh

2. 方法2

进入到管理节点,执行linctl  uninstall service。

卸载当前管理节点上的服务。使用此方法卸载后,需要自己清理/etc/hosts、/etc/profile以及~/.bashrc等多余的遗留环境变量。

另外:多管理节点的情况需要在其他管理节点进入到/opt/matrix/目录,执行bash uninstall.sh

3.3.4  管理集群重装

注意

重装管理集群前,请注意备份自己的重要数据,同时卸载租户管理员的所有集群。

 

(1)     卸载管理集群前,请先检查平台中是否有集群,以及管理集群中是否有其他节点。如有,请先删除业务集群。删除顺序为:删除集群资源组->删除集群节点->卸载集群挂载的存储->删除集群->系统管理员删除节点。

(2)     进入到管理节点,执行linctl uninstall service卸载当前管理节点上的服务。多管理节点的情况需要在其他管理节点进入到/opt/matrix/目录,执行bash uninstall.sh。

(3)     进入/opt/目录,删除matrix文件夹。

(4)     进入/tmp/目录,清除目录内容。

(5)     恢复/etc/hosts、/etc/profile以及~/.bashrc等文件。

(6)     清除使用的管理节点共享目录中的内容。

(7)     删除/etc/linctl文件夹。

(8)     重新执行管理集群的安装。

3.3.5  管理集群组件独立卸载和安装(涉及到初始化的升级需要使用此方法)

说明

涉及到初始化的升级包含:数据库的重新注册,数据库中预置内容的更新,消息队列TOPIC的更新等。

 

通过linctl list component查看组件安装信息,找到组件对应的名称和版本。

图3-8 查看组件安装信息

标题: fig:

 

找到需要卸载的组件包,如:frontend,执行如下命令。

linctl uninstall component --name frontend --version  v1.0.21

执行如下命令来进行安装。

linctl install component --path  /path/to/install_dir (--path 指定组件安装包位置)

3.3.6  管理集群组件增量部署方式

如果要增量安装训练相关组件,使用如下命令进行安装,安装后菜单自动注册。

linctl install component --path [安装包路径]

注意

当前版本暂不支持业务组件卸载,强行卸载业务组件,会导致相应业务不可用。

 

3.4  业务集群部署

3.4.1  业务集群安装

业务集群安装需要在安装完使能平台后,经算力卡、存储、网络的资源在系统管理员上纳管后,在租户管理员进行集群创建。

1. 系统管理员增加节点

系统管理员通过服务器管理来进行服务器节点的增加、删除、上下架等操作。注意:如果使用GPU服务器,务必选择加速卡类型,否则影响GPU服务器的使用。

图3-9 系统管理员增加节点

标题: fig:

 

2. 系统管理员存储管理

系统管理员的存储管理用于管理租户的存储,可以新增、删除、编辑、上下架存储以及查看存储详情。

图3-10 系统管理员存储管理

标题: fig:

 

以上操作,详见使能平台用户手册。

系统管理员添加完服务器和存储以后,进入租户管理员进行业务集群的创建。

3. 租户管理员创建集群

注意

集群安装前,计算节点需要安装好Matrix服务,参见4.1  安装Matrix,安装Matrix。

 

集群管理用于管理租户创建的集群,点击左侧导航栏的集群管理进入集群管理页面。在集群管理功能中,可以新增集群和删除集群,可以根据集群名称或ID搜索集群,还可以根据特定条件来搜索集群。可以对集群添加节点、查看集群日志以及查看集群详情等操作。查看集群详情中可以查看集群ID、名称、节点数(包括成功节点数/总节点数)、CPU架构、集群状态、描述和新增时间。

图3-11 租户管理员创建集群

标题: fig:

 

新增集群

点击集群管理的新增按钮标题: fig:进入集群创建页面。页面如下:

图3-12 新增集群

标题: fig:

 

新增集群需要填写集群名称、集群访问IP、集群架构和集群描述。以及选择集群的管理节点和工作节点。其中:

·     集群名称【必填】:自定义的集群名称。

·     集群访问IP【必填】:同网段未被占用的IP。

·     集群架构【必填】:X86_64或者ARM的CPU架构。

·     描述【非必填】:集群描述。

·     管理节点信息【必填】:点击管理节点信息后的添加节点标题: fig:按钮,弹出可用的节点,选择对应节点进行节点的添加,此处添加的节点为业务集群的管理节点。

注意

管理集群节点和已经使用的的节点不可以添加到新的集群。

 

图3-13 服务器列表

标题: fig:

 

·     工作节点信息【必填】:点击工作节点信息后的添加节点标题: fig:按钮,弹出可用的节点,选择对应节点进行节点的添加,此处添加的节点为业务集群的工作节点。

集群建立好以后,会在集群管理的列表中展示出刚刚建立的集群。

图3-14 集群管理

标题: fig:

 

添加节点

点击集群列表中需要添加节点的集群右侧操作栏的<添加节点>按钮,跳转到集群节点的添加界面,点击标题: fig:按钮,进行工作节点的添加。

注意

管理集群节点和已经使用的的节点不可以添加到新的集群。

 

图3-15 添加节点

标题: fig:

 

查看集群详情

点击集群列表中的<详情>按钮,进入集群详情页面,集群详情包括基本信息、节点信息、系统服务三大部分。

·     基本信息包含集群名称、集群访问IP、架构和描述的展示。

·     节点信息包含集群节点信息列表,在此列表中可以移除节点。

·     系统服务包括需要部署在业务集群上的应用部署包的状态,如kubeflow、volcano等。

图3-16 集群详情

标题: fig:

 

以上操作,详见使能平台用户手册。

 

4 附录

4.1  安装Matrix

不同的操作系统安装Matrix的方式大致相同,管理集群的各个节点不需要单独安装Matrix,业务集群节点需要先安装Matrix后,再进行业务集群的节点加入工作。

Matrix安装包在LinseerHub-Modelbuilder-EXXXX.zip中的dependency目录中,目录包含文件如下。

标题: fig:

 

deploy-ningosv33.02.02.zip针对NingOS V3操作系统,deploy-ubuntu22.043.02.02.zip针对Ubuntu 22.04操作系统。

4.1.1  NingOS操作系统Matrix安装

(1)     解压压缩包 deploy-ningosv3_3.02.02.zip 到 /opt 目录,执行unzip ./deploy-ningosv3_3.02.02.zip -d /opt。

(2)     拷贝Matrix-V100R001B01D014SP03-x86_64.zip包到/opt/deploy-ningosv3/matrixDependency,执行cp Matrix-V100R001B01D014SP03-x86_64.zip /opt/deploy-ningosv3/matrixDependency。

(3)     进入/opt/deploy-ningosv3/matrixDependency目录,执行bash install.sh

(4)     完成进度完成后,执行如下命令查看matrix服务是否成功:systemctl status matrix。

(5)     如果安装未成功,请根据日志查看未成功的原因,日志目录:/var/log/matrix-diag/Matrix/Matrix/matrix.log

4.1.2  Ubuntu操作系统Matrix安装

(1)     解压压缩包 deploy-ningosv3_3.02.02.zip到/opt目录,执行unzip ./deploy-ningosv3_3.02.02.zip -d /opt。

(2)     拷贝Matrix-V100R001B01D014SP03-x86_64.zip包到/opt/deploy-ningosv3/matrixDependency,执行cp Matrix-V100R001B01D014SP03-x86_64.zip /opt/deploy-ningosv3/matrixDependency。

(3)     进入/opt/deploy-ningosv3/matrixDependency目录,执行bash install.sh。

(4)     完成进度完成后,执行如下命令查看matrix服务是否成功:systemctl status matrix。

(5)     如果安装未成功,请根据日志查看未成功的原因,日志目录:/var/log/matrix-diag/Matrix/Matrix/matrix.log。

4.2  GPU节点禁用nouveau驱动

(1)     执行echo 'blacklist nouveau' >> /etc/modprobe.d/blacklist.conf。

(2)     执行cat /etc/modprobe.d/blacklist.conf验证是否出现blacklist nouveau,如图4-1所示。

图4-1 验证出现blacklist nouveau

标题: fig:

 

(3)     如果echo命令无法使用,则输入vi /etc/modprobe.d/blacklist.conf在最后一行添加blacklist nouveau。

(4)     执行sudo update-initramfs -u使禁用生效。

(5)     重启该节点。

(6)     重启之后输入lsmod | grep nouveau ,若没有返回值,则nouveau驱动禁用成功。

4.3  安装IB驱动(业务集群计算节点可选)

注意

此章节仅供参考,具体安装方式请根据实际情况决定。

 

1. 驱动安装包列表

如果节点中装有IB/RoCE网卡,则需要安装IB/RoCE驱动。

表4-1 IB/RoCE驱动安装包

安装包

安装包名称

安装包功能说明

获取方式

IB/RoCE驱动安装包

deploy-rdma.zip

用于安装集群中所有节点的IB/RoCE驱动

由H3C提供,在tools.zip包

 

2. 驱动安装前准备

(1)     获取tools.zip安装,解压tools.zip。

(2)     上传IB驱动包deploy-rdma.zip到节点任意目录,如:/opt目录。

(3)     执行unzip deploy-rdma.zip,解压deploy-rdma.zip,目前系统文件夹有:Ubuntu20.04、Ubuntu22.04、H3Linux、Rocky86,根据操作系统类型选择相应文件夹下的驱动文件。

(4)     已经安装Matrix。

3. Ubuntu20.04.4操作系统安装IB驱动

(1)     防止操作系统自动升级,执行以下命令。

sed -i "s/1/0/g" /etc/apt/apt.conf.d/10periodic

sed -i "s/1/0/g" /etc/apt/apt.conf.d/20auto-upgrades

(2)     解压ibubuntu2004.zip,执行unzip ibubuntu2004.zip。

(3)     安装ib依赖,执行cd ./ib-test和dpkg -i -R ./。

(4)     安装ib驱动,执行以下命令。

tar -zxvf MLNX_OFED_LINUX-5.7-1.0.2.0-ubuntu20.04-x86_64.tgz

cd MLNX_OFED_LINUX-5.7-1.0.2.0-ubuntu20.04-x86_64

./mlnxofedinstall --add-kernel-support

(5)     启动opensm和opensmd服务。

(6)     执行systemctl restart opensm和systemctl restart opensmd。

4. Ubuntu22.04操作系统安装IB驱动

(1)     防止操作系统自动升级,执行以下命令。

sed -i "s/1/0/g" /etc/apt/apt.conf.d/10periodic

sed -i "s/1/0/g" /etc/apt/apt.conf.d/20auto-upgrades

(2)     解压ibubun2204.tar.gz,执行tar -zxvf ibubun2204.tar.gz进行解压操作。

(3)     安装ib依赖,执行cd ./ib2和dpkg -i -R ./。

(4)     安装ib驱动,执行以下命令。

tar -zxvf MLNX_OFED_LINUX-5.8-2.0.3.0-ubuntu22.04-x86_64.tgz

cd MLNX_OFED_LINUX-5.8-2.0.3.0-ubuntu22.04-x86_64

./mlnxofedinstall --add-kernel-support

(5)     启动opensm和opensmd服务。

(6)     执行systemctl restart opensm和systemctl restart opensmd。

5. NingOS操作系统安装IB驱动

(1)     解压ib_h3linux.zip包,执行unzip ib_h3linux.zip。

(2)     安装ib依赖,执行rpm -Uvh --force --nodeps ./ib_dep/*.rpm。

(3)     安装ib驱动。

mkdir ./mnt

mount -o ro,loop ./MLNX_OFED_LINUX-5.8-2.0.3.0-H3Linux2.0.2SP01.iso ./mnt

安装ib驱动,执行cd ./mnt和./mlnxofedinstall。

(4)     启动opensm和opensmd服务,执行systemctl restart opensm和systemctl restart opensmd。

(5)     重启openibd和network服务。

systemctl restart openibd.service

systemctl enable openibd.service

systemctl restart network

shutdown -r now

说明

安装驱动之后,ip a | grep 【IB/RoCE网卡名称】,这里是ens1f0,查看返回结果,网卡名后面可能会多一个np0,(也可能是其他内容)。

IB/RoCE网卡需要配置IP,注意节点中只能有一个网关。

 

在roce模式下(roce交换机)需要配置roce网卡的IP:

(6)     在/etc/netplan/00-installer-config.yaml中对应的IB/RoCE网卡名后面补充上面多出的内容。

(7)     修改完之后保存,退出。

(8)     输入netplan apply,应用修改内容。图4-2是ens1f0网卡修改后的截图。

图4-2 修改ens1f0网卡

标题: fig:

 

6. 验证IB/RoCE驱动是否安装成功

输入ibstat,如果网卡状态显示active,则为驱动安装成功,如图4-3所示。

图4-3 验证IB/RoCE驱动是否安装成功

 

注意

如果使用 RoCE自动化参数网,请参见4.3.2  RoCE自动化参数网配置指导

 

4.3.2  RoCE自动化参数网配置指导

1. 原理说明

RoCE自动化,提供自动录入网卡IP功能,保证容器内高性能网卡IP不会冲突,利用了macvlan和dhcp-cni等功能。

2. 配置步骤

(1)     配置RoCE交换机,为每个参数网口配置dhcp-server,可以导入SE提供的语句,或者自己手动配置dhcp-server的网关,网段范围。

(2)     保证每台worker节点(拥有高性能网卡的机器)高性能网卡名称一致,需要修改网卡名称;在Ubuntu系统中,网卡的名称默认是以en开头的,例如enp2s0、enp3s0等。而某些情况下需要将网卡名称改为eth0、eth1等,以便在网络设备的配置中使用。RoCE场景需要区分存储网和参数网,主要方案是通过网卡名称进行区分,修改网卡名称具体的方法如下:

¡     解压tools.zip文件,从tools文件夹根据操作系统找到对应脚本h3cnic.sh,执行h3cnic.sh脚本(bash h3cnic.sh) ,将参数网卡名称变成h3c开头。

¡     查询是否有文件夹/etc/rc.local,如没有创建文件夹,同时将h3cnic.sh文件放入/etc/rc.local。

¡     如果h3cnic.sh脚本无法正常识别参数网卡,需要管理员手动执行命令将参数网卡名称更换成h3cnic1、h3cnic2、h3cnic3名称,具体命令如下,同时需要将下面命令放入/etc/rc.local文件中。

ip link set dev ens1 down

ifconfig ens1 down

ip link set ens1 name h3cnic1

ip link set dev h3cnic1 up

ifconfig h3cnic1 up

 

 

ip link set dev ens2 down

ifconfig ens2 down

ip link set ens1 name h3cnic2

ip link set dev h3cnic2 up

ifconfig h3cnic2 up

图4-4 配置步骤

标题: fig:

 

(3)     安装结束之后可能会显示固件升级失败,无需处理,不影响驱动安装。

4.4  安装显卡驱动(业务集群计算节点需要)

注意

此章节仅供参考,具体安装方式请根据实际情况决定。

 

4.4.1  驱动安装包列表

AI计算节点安装GPU驱动,需要安装如下安装包。

表4-2 驱动安装包列表

安装包

名称

用途

获取方式

GPU驱动安装包

gpu-driver.zip

用于安装集群中所有AI计算节点的GPU驱动

由H3C提供,在tools.zip包

GPU模组依赖包

gpu_module.zip(ubuntu 22.04)

用于安装集群中所有AI计算节点的GPU模组依赖,配置默认支持H20,驱动版本550

由H3C提供,在tools.zip包

 

4.4.2  GPU驱动版本兼容列表

GPU驱动版本兼容列表。此处,以英伟达NVIDIA GPU相关信息 (gpu-operator v24.6.0)为例。

表4-3 GPU驱动版本兼容列表

确认项

版本信息

备注

NVIDIA GPU Driver

550.54.15 (recommended)

nvidia驱动

 

4.4.3  驱动安装前准备

(1)     上传gpu-driver.zip、lib.zip到计算节点任意目录,如:opt目录。

(2)     解压gpu-driver.zip,执行unzip gpu-driver.zip。

(3)     解压gpumodule.zip,执行unzip gpumodule.zip。

(4)     根据计算节点的操作系统进入对应的文件目录,如图4-5所示,目前系统文件目录有:ubuntu22(Ubuntu22.04系统对应的文件目录)。

图4-5 文件目录

标题: fig:

 

(5)     在AI计算节点配置环境变量(任何目录下都可以)。

export DEBIAN_FRONTEND=nointeractive

注意

在纳管计算节点前,安装GPU驱动依赖包,如果遇到如下失败提示,请删除冲突的依赖包后,重新安装。

标题: fig:

 

 

4.4.4  根据不同的系统选择GPU驱动安装步骤

1. 当系统为Ubuntu22.04

(1)     安装gpu驱动相关deb包。

a.     进入安装位置。

cd /opt/gpu-driver/nvidia/ubuntu22/deb/driver

b.     安装驱动。

dpkg -i *

(2)     安装GPU驱动。

a.     设置环境变量。

echo "export TERM=xterm" >> /etc/profile

b.     环境变量生效。

source /etc/profile

c.     进入nvidia驱动安装位置。

cd /opt/gpu-driver/nvidia/

d.     nvidia驱动安装文件赋予可执行权限。

chmod 777 NVIDIA-Linux-x86_64-525.60.13.run

e.     执行驱动安装文件安装nvidia驱动。

./NVIDIA-Linux-x86_64-525.60.13.run --disable-nouveau –silent

f.     检查nvidia驱动是否安装成功,正常显示图4-6信息,即安装成功。

nvidia-smi

g.     确定下mig是否开启,如果开启,执行关闭mig操作。

nvidia-smi -mig 0

图4-6 状态信息

标题: fig:

 

(3)     安装fabricmanager(如该GPU有模组需要安装fabricmanager这个组件)。

a.     进入安装位置。

cd /opt/gpu-driver/nvidia/ubuntu22/deb/fabricManager

b.     安装fabricmanager组件。

dpkg -I *

c.     设置开机自启。

systemctl enable nvidia-fabricmanager

d.     启动fabricmanager服务。

systemctl start nvidia-fabricmanager

2. 当系统为NingOS

(1)     添加软连接。

ln -s /sbin/ldconfig /sbin/ldconfig.real

(2)     安装h3clinux依赖。

cd /opt/gpu-driver/nvidia/h3clinux/rpm

rpm -i kernel-devel-5.10.0-136.12.0.86.4.hl202.x86_64.rpm

(3)     安装gpu驱动。

a.     设置环境变量。

echo "export TERM=xterm" >> /etc/profile

b.     环境变量生效。

source /etc/profile

c.     进入nvidia驱动安装位置。

cd /opt/gpu-driver/nvidia/

d.     nvidia驱动安装文件赋予可执行权限。

chmod 777 NVIDIA-Linux-x86_64-525.60.13.run

e.     执行驱动安装文件安装nvidia驱动。

./NVIDIA-Linux-x86_64-525.60.13.run --disable-nouveau --silent

f.     检查nvidia驱动是否安装成功,正常显示图4-7信息,即安装成功。

nvidia-smi

g.     执行关闭mig操作,防止mig默认开启。

nvidia-smi -mig 0

图4-7 状态信息

标题: fig:

 

(4)     安装fabricmanager(模组需要安装fabricmanager这个组件)。

a.     进入安装位置。

cd /opt/gpu-driver/nvidia/h3clinux/fabricManager

b.     安装fabricmanager组件。

rpm -i nvidia-fabric-manager-525.60.13-1.x86_64.rpm

c.     设置开机自启。

systemctl enable nvidia-fabricmanager

d.     启动fabricmanager服务。

systemctl start nvidia-fabricmanager

4.4.5  激活GPU Direct rdma

(1)     判断系统是否存在nvidia_peermem。

lsmod | grep peer

(2)     如果不存在nvidia_peermem则需要激活。

modprobe nvidia-peermem

4.5  部署常见问题

4.5.1  安装过程中报”Exception: 检查SSH连通性失败, 请确保在配置文件内输入正确的SSH配置”

解决方案:

(1)     请检查config.ini 中的服务器账号和密码配置是否正确,请确定对应的服务器可以ssh登录。

(2)     另外如果在使用ssh命令登录服务器时报如下错误:“Load key "/root/.ssh/idrsa": error in libcrypto”,请删除:/root/.ssh/idrsa,重新生成is_rsa。

命令参考:ssh-keygen -m PEM -t rsa -b 4096 -f /root/.ssh/id_rsa。

(3)     验证ssh,命令参考:ssh-keygen -y -f /root/.ssh/id_rsa。

(4)     验证正确的信息后,再执行bash install.sh。

4.5.2  安装完Matrix后,安装组件包时报错

标题: fig:

 

解决方案,重新安装全部组件:

(1)     执行source /etc/profile。

(2)     执行linctl  list component,查看安装组件的情况,卸载已经安装的组件。

图4-8 查看安装组件的情况

标题: fig:

 

(3)     如图4-8的initial-configure组件卸载命令如下。

linctl uninstall component  --name initial-configure --version 1.0.0

(4)     删除linseerhub相关的namespace。

kubectl delete ns linseerhub-base

kubectl delete ns linseerhub-middleware

kubectl delete ns linseerhub-training

注意

删除已有的namespace 可能会带来其他不可预估影响,非必要不要进行这个操作。

 

(5)     执行linctl install component   --all --path  /path/to/install_dir (--path 指定安装包目录,即 :LinseerHub-ModelBuilder-* 的路径)。

4.5.3  组件包安装过程中报错停止

(1)     根据报错信息,解决问题(如网络问题导致的失败)。

(2)     执行linctl list component,查看安装组件的情况。

图4-9 查看安装组件的情况

标题: fig:

 

(3)     对比安装目录,使用linctl install component --path /path/to/component.zip(组件包的安装路径),对组件包一一安装。

4.5.4  节点迟迟无法加入到集群

(1)     请检查节点是否有问题,如存储是否超过80%。

(2)     请检查此节点不在某个集群里。

4.5.5  部署完之后,各种服务在pending 或者重启

请检查POD状态,主要从资源满足度方向查找问题。

4.5.6  其他可能导致安装失败的原因

遗留的/root/.ssh/kownhosts有可能导致安装部署的失败,清除/root/.ssh/kownhosts重新部署。

4.5.7  组件svc多副本修改

(1)     使用kubectl edit svc -A -n命名空间svc名称编辑svc。

(2)     修改副本数字段,保存。

4.5.8  harbor 同步规则设置,扩展harbor高可用

(1)     登录vip:8099,账号为:admin,密码:Harbor12345。

(2)     进入到“系统管理”->“复制管理”。点击“新建规则”,创建复制规则。

4.6  平台运维命令行工具使用说明

linctl命令用于平台的日常部署、升级、卸载等运维部署工作。

1. 初始化平台服务

root@test:~# linctl init service

2. 查询平台服务状态

root@test:~# linctl status service

3. 卸载平台

root@test:~# linctl uninstall service

4. 安装组件

root@test:~# linctl install component --path [component path]

5. 安装所有组件

root@test:~# linctl install component --all --path [component path]

6. 升级组件

root@test:~# linctl upgrade component --path [component path]

7. 查看组件列表

root@test:~# linctl list component

8. 卸载组件

root@test:~# linctl uninstall component --name [component name] --version [component version]

4.7  暴力卸载后如何清除残留数据

首先,暴力卸载会产生不可预知问题,导致系统发生不可预知错误,请按照卸载流程进行卸载。

4.7.1  需要重新安装,不保留历史数据

可直接清除管理集群配置的共享存储路径下的数据,或者更换空的共享存储路径进行安装。

删除原共享存储路径下的数据前,可以先备份历史数据。

路径为安装时配置的路径,如下段代码所示。

Storage related configuration (配置管理集群使用的共享存储)

Store platform-related logs, mirrors, databases and other persistent files

[storage]

Support type: nfs

type: nfs

nfs.hostip: 10.0.0.4

nfs.path: /share

4.7.2  最大程度保留数据,清除无用数据,修复系统。

修复系统需要登录系统的数据库,过程比较复杂。请联系H3C工程师修复。

4.7.3  业务集群安装后,不显示节点卡数

安装好业务集群后,如果GPU卡数总数显示为0。发现此现象,有可能的原因是:对应的Operator安装问题,驱动问题。可以做以下尝试。

(1)     通过集群管理中的系统服务,删除对应的GPU Operator后,重新安装。

图4-10 系统服务

标题: fig:

 

(2)     使用系统中对应operator的版本匹配的GPU驱动。

如:Nvidia官网可以查看如下连接https://docs.nvidia.com/datacenter/cloud-native/gpu-operator/24.6.0/platform-support.html,查看对应的推荐的GPU驱动。

不同款型规格的资料略有差异, 详细信息请向具体销售和400咨询。H3C保留在没有任何通知或提示的情况下对资料内容进行修改的权利!

新华三官网
联系我们