• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 关于我们

H3C服务器 GPU共享模式典型配置-6W101

手册下载

H3C服务器 GPU共享模式典型配置-6W101-整本手册.pdf  (4.61 MB)

  • 发布时间:2023/12/8 23:21:21
  • 浏览量:
  • 下载量:

H3C服务器

GPU共享模式典型配置

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Copyright © 2023 新华三技术有限公司 版权所有,保留一切权利。

非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。

除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。

本文档中的信息可能变动,恕不另行通知。

 

1 简介··· 1-3

1.1 共享模式介绍·· 1-3

1.2 适配机型·· 1-3

1.3 适配GPU· 1-3

2 GPU共享模式··· 2-4

2.1 组网需求·· 2-4

2.2 配置思路·· 2-4

2.3 使用版本·· 2-5

2.4 配置注意事项·· 2-5

2.5 配置步骤·· 2-5

2.5.1 配置BIOS参数·· 2-5

2.5.2 Host安装和基础配置·· 2-7

2.5.3 虚拟机安·· 2-15

2.5.4 vCenter安装及配置·· 2-19

2.5.5 添加GPU到虚拟机·· 2-32

2.5.6 安装vGPU驱动·· 2-35

2.6 验证配置·· 2-38

 


1 简介

本文档介绍H3C服务器的GPU共享模式典型配置举例。

1.1  共享模式介绍

1-1所示,GPU共享模式是指在同一张GPU卡上运行多个任务,可以看作每个虚拟机都拥有了自己的GPU。通过该技术可以有效提高GPU资源利用率,使集群中可以运行更多任务,减少任务对资源的抢占。

图1-1 共享模式示意图

 

1.2  适配机型

本文中介绍的典型配置,适用于以下机型:

·     H3C Uniserver R5300 G6

·     H3C Uniserver R5350 G6

·     H3C Uniserver R5300 G5

1.3  适配GPU

本文中介绍的典型配置,适用于以下GPU

·     GPU-T4

·     GPU-A30-24G

·     GPU-A30-24GB-NoCEC

2 GPU共享模式

2.1  组网需求

2-1所示,R5300 G5服务器上安装了Centos 8.2系统,并配置了2NVIDIA Tesla T4 GPU。基于VMware系统,将主机GPU共享至虚拟机进行使用,主机和虚拟机都可查看已分配vGPU的状态。

图2-1 共享模式组网图

 

2.2  配置思路

(1)     为了提升虚拟机的性能,允许虚拟机直接访问I/O设备,需要使能服务器的虚拟化技术和Access Control Services

(2)     BIOS中开启IOMMU功能,使操作系统支持共享。

(3)     物理显卡必须支持NVIDIA GRID vGPU解决方案。

(4)     创建虚拟机并将GPU设备添加到虚拟机。

(5)     为了使虚拟机可以正常使用GPU,需要在虚拟机系统中安装vGPU驱动。

2.3  使用版本

本举例使用如下版本进行配置和验证:

表2-1 使用的机型和版本

项目

型号或版本

机型

R5300 G5

HDM版本

2.80

BIOS版本

5.34

服务器GPU配置方案

8GPU-HPC

GPU类型

NVIDIA Tesla T4 16G GPU

GPU驱动版本

470.82

vGPU驱动版本

470.82.01

物理机操作系统

VMware 7.0U2

虚拟机操作系统

Centos 8.2

vCenter版本

vCenter 7.0U2

 

2.4  配置注意事项

·     使用vCenter管理VMware系统和虚拟机,vCenter版本需和VMware版本一致或高于VMware系统版本

·     vGPU添加至虚拟机后需将VMware系统的UEFI的安全引导关闭。

2.5  配置步骤

2.5.1  配置BIOS参数

(1)     登录服务器的BIOS Setup界面。

(2)     使能共享技术:Intel平台使能VT-dAMD平台使能IOMMU

·     Intel平台使能方法:在BIOSAdvanced > Socket Configuration > IIO Configuration界面中,将Intel® VT for Directed I/O设置为Enable,如2-2所示。

图2-2 VT-d选项

 

·     AMD平台的使能方法:在BIOSAdvanced > AMD CBS > NBIO Common Options界面中,将IOMMU设置为Enable,如2-3所示。

图2-3 IOMMU选项

 

(3)     使能Access Control Services

a.     BIOSAdvanced > Socket Configuration > IIO Configuration界面中,Ctrl+Shift+F8,打开BIOS下的隐藏项。

b.     IIO Configuration下的PCIe Access Control Services选项设置Enable

图2-4 使能ACS

 

2.5.2  Host安装和基础配置

1. Host安装

挂载镜像进行系统安装,进入启动项后根据提示默认安装即可。

图2-5 系统安装

 

2. 系统设置

(1)     进入系统主页,选择Troubleshooting Options,进入其设置界面,如2-6所示。

 

a.     2-6所示,开启Shell功能。

图2-6 开启Shell功能

 

b.     2-7所示,开启SSH功能。

图2-7 开启SSH功能

 

(2)     配置静态IP

a.     返回系统主页,选择Configure Management Network2-8所示。

图2-8 配置静态IP

 

b.     2-9所示,选择IPv4 Configuretion

图2-9 选择IPv4 Configuretion

 

c.     2-10所示,设置相关参数,使系统可以通过SSH登录。

图2-10 设置参数

 

(3)     2-11所示,保存退出后,重启系统。

图2-11 重启系统

 

3. 安装GPU驱动

(1)     GPU驱动拷贝进系统,下载驱动时注意驱动适用系统,VMware系统每个系统版本所使用的驱动不一致。

图2-12 GPU驱动拷贝进系统

 

(2)     2-13所示,使用图示命令进行驱动安装。

图2-13 安装驱动

 

(3)     安装成功后使用nvidia-smi查看GPU回显信息正常,如2-14所示。

图2-14 查看GPU回显信息

 

2.5.3  虚拟机安装

1. 创建虚拟机

(1)     将需要安装的虚拟机镜像传入进VMware系统中,此处以Centos8.2为例,使用最开始配置的IP登录VMware系统的页面,如2-15所示。

图2-15 登录VMware系统

 

 

(2)     2-16所示,选择Virtual Machines-Create/Register VM

图2-16 选择Virtual Machines-Create/Register VM

 

(3)     2-17所示,进入以下页面,选择Create a new virtual machine

图2-17 选择Create a new virtual machine

 

(4)     2-18所示,填写虚拟机名称,选择要安装的虚拟机类型及版本。

图2-18 填写虚拟机信息

 

(5)     2-19所示,选择虚拟机安装的位置,可根据实际情况进行选择。

图2-19 选择虚拟机安装位置

 

(6)     配置虚拟机,由于是使用ISO镜像安装,需要将CD/DVD Drive1改为Datastore ISO file,请选择已传入系统中需要安装的镜像,如2-20所示。

图2-20 配置虚拟机

 

(7)     查看已选的配置信息是否正确无误,无问题后点击Finish进行安装。

2. 进入多用户模式

(1)     进入虚拟机后,在系统中执行systemctl set-default multi-user.target命令,进入多用户模式。

图2-21 进入多用户模式

01-拉黑操作-多用户模式

 

(2)     执行reboot命令,重启操作系统使配置生效。

3. 禁用自带驱动

(1)     依次执行如下命令,对自带驱动进行禁用操作。

echo "blacklist nouveau" >>/etc/modprobe.d/blacklist-nouveau.conf

echo "options nouveau modeset=0" >>/etc/modprobe.d/blacklist-nouveau.conf

mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak

dracut -v /boot/initramfs-$(uname -r).img $(uname -r)

图2-22 禁用自带驱动

02-拉黑操作-拉黑自带驱动

 

(2)     执行reboot命令,重启操作系统使配置生效。

2.5.4  vCenter安装及配置

vCenter是用于管理ESXi主机的管理平台,利用vCenter可以提供如HAVmotion等功能。vCenter推荐安装在虚拟化环境中。vCenter可以安装在Wndows服务器上,也可以使用OVA模版安装。本次介绍的是通过官方的OVA模版来安装。

安装分为两个阶段,第一阶段是部署vCenter7.0U2到现有的ESXi上,第二阶段是完成vCenter7.0U2的安装。

1. 安装第一阶段

(1)     VMware官网下载与系统版本一致或高于已安装主机系统的vCenter版本并进行安装,在vsca-ui-installer > win32里,双击Installer,选择Install,如2-23所示。

图2-23 安装vCenter

 

(2)     2-24所示,勾选接受许可。

图2-24 勾选接受许可

 

(3)     2-25所示,输入VMware ESXi的地址以及账号密码,地址为我们在Host系统配置中配置的静态IP。这里使用ESXi作为部署目标,即vCenter将部署到该台ESXi上。

图2-25 输入地址及账号密码

 

(4)     2-26所示,创建vCenterroot密码。其中,密码设置复杂度要求较高,请根据界面提示设置满足条件的密码,在第二阶段配置会使用到该密码。

图2-26 创建root密码

 

(5)     2-27所示,根据实际情况,选择主机和虚拟机的数量。

图2-27 选择主机和虚拟机数量

 

(6)     2-28所示,选择安装位置,这里选择安装在VMware系统。

图2-28 选择安装位置

 

(7)     2-29所示,配置vCenter IP地址

图2-29 配置IP地址

 

(8)     2-30所示,确认第一阶段的参数,无问题后点击FINISH

图2-30 确认参数信息

 

(9)     2-31所示,第一阶段安装完成,点击CONTINUE,进如第二阶段部署。

图2-31 第一阶段安装完成

 

2. 安装第二阶段

(1)     2-32所示,进入第二阶段配置,选择设置vCenter Server

图2-32 设置vCenter Server

 

(2)     2-33所示,填写vCenter Server配置的相关参数信息。

图2-33 填写配置参数信息

 

(3)     2-34所示,配置SSO参数。

图2-34 配置SSO参数

 

(4)     2-35所示,配置CEIP,确认加入相关提升计划。

图2-35 配置CEIP

 

(5)     2-36所示,确认配置参数无问题,点击“完成”,开始部署。

图2-36 确认配置参数

 

(6)     2-37所示,页面弹出安装完成提示框,完成vCenter Server部署。

图2-37 完成部署

 

3. 配置vCenter

(1)     2-38所示,安装完成后,参考安装第二阶段部署完成提示信息,进入vCenter Server入门界面。输入用户名和密码,登录vCenter

图2-38 登录vCenter

 

(2)     2-39所示,在vCenter里选择新建数据中心。

图2-39 新建数据中心

 

(3)     2-40所示,创建数据中心名称:Datacenter

图2-40 创建数据中心名称

 

(4)     2-41所示,Datacenter选择添加主机

图2-41 添加主机

 

(5)     将之前已经安装好的VMware添加到vCenter中。

a.     2-42所示,输入要添加至vCenter的主机IP

图2-42 输入要添加至vCenter的主机IP

 

b.     2-43所示,输入主机连接的详细信息,包含用户名和密码。

图2-43 输入主机连接的详细信息

 

c.     2-44所示,确认主机摘要信息。

图2-44 确认主机摘要信息

 

d.     2-45所示,向主机分配许可证。

图2-45 向主机分配许可证。

 

e.     2-46所示,禁用锁定模式。

图2-46 禁用锁定模式

 

f.     2-47所示,确认虚拟机位置。

图2-47 确认虚拟机位置

 

g.     2-48所示,确认主机信息。

图2-48 确认主机信息

 

(6)     2-49所示,查看主机和集群中主机状态显示“已连接”,表示已成功添加VMware

图2-49 成功添加VMware

 

2.5.5  添加GPU到虚拟机

(1)     2-50所示,登录进vCenter,查看到创建的虚拟机显示正常。

图2-50 查看虚拟机状态

 

(2)     2-51所示,选择对应的主机,在配置选项下选择“主机图形”,进入编辑主机图形设置页面,点击右上角的“编辑”,将默认图形类型设置项改为“直接共享”。

图2-51 配置选项

 

(3)     设置完成后重启主机,待主机重新启动后,进入Centos8,选择“编辑设置”,如2-52所示。

图2-52 编辑设置

 

(4)     2-53所示,选择“添加新设备”中的“PCI设备”。

图2-53 添加新设备

 

(5)     2-54所示,加入新的PCI设备,选择NVIDIA GRID vGPU配置文件。其中,有多种可选的配置文件,此处以图片中的为例,选择grid_t4-8q配置文件。

图2-54 选择配置文件

 

2.5.6  安装vGPU驱动

1. 驱动安装

(1)     vGPU驱动程序上传至虚拟机。在编辑设置中添加CD/DVD介质,将驱动文件转化为ISO镜像文件传递进主机中进行挂载,如2-55所示。

图2-55 挂载驱动文件

 

(2)     2-56所示,执行命令./NVIDIA-Linux-x86_64-470.02.01-grid.run安装驱动程序。

图2-56 安装驱动程序

 

2. (可选)安装依赖文件

(1)     如果虚拟机的系统中缺少依赖文件,安装驱动时会出现如2-57所示报错信息。

图2-57 安装驱动时报错

16-2

 

(2)     2-58所示,查看/var/log/路径中的nvidia-installer.log文件。

图2-58 查看NVIDIA安装日志

17-0

 

(3)     2-59所示,确认当前系统安装GPU驱动缺少的依赖文件。

图2-59 确认缺少的依赖文件

17

 

(4)     2-60所示,执行yum命令,依次安装缺少的依赖文件。如虚拟机已联网,系统可自动下载软件包;如虚拟机未联网,请配置本地的yum源。

图2-60 安装依赖文件

19

 

(5)     2-61所示,再次安装GPU驱动,直至安装完成。

图2-61 安装GPU驱动

22

 

2.6  验证配置

2-62所示,在虚拟机系统中执行nvidia-smi命令,查看GPU信息,能看到GPU已被虚拟机识别。

图2-62 查看GPU信息

新华三官网
联系我们