手册下载
H3C服务器 GPU共享模式典型配置-6W101-整本手册.pdf (4.61 MB)
H3C服务器
GPU共享模式典型配置
Copyright © 2023 新华三技术有限公司 版权所有,保留一切权利。
非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。
除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。
本文档介绍H3C服务器的GPU共享模式典型配置举例。
如图1-1所示,GPU共享模式是指在同一张GPU卡上运行多个任务,可以看作每个虚拟机都拥有了自己的GPU。通过该技术可以有效提高GPU资源利用率,使集群中可以运行更多任务,减少任务对资源的抢占。

本文中介绍的典型配置,适用于以下机型:
· H3C Uniserver R5300 G6
· H3C Uniserver R5350 G6
· H3C Uniserver R5300 G5
本文中介绍的典型配置,适用于以下GPU:
· GPU-T4
· GPU-A30-24G
· GPU-A30-24GB-NoCEC
如图2-1所示,R5300 G5服务器上安装了Centos 8.2系统,并配置了2张NVIDIA Tesla T4 GPU。基于VMware系统,将主机GPU共享至虚拟机进行使用,主机和虚拟机都可查看已分配vGPU的状态。

(1) 为了提升虚拟机的性能,允许虚拟机直接访问I/O设备,需要使能服务器的虚拟化技术和Access Control Services。
(2) 在BIOS中开启IOMMU功能,使操作系统支持共享。
(3) 物理显卡必须支持NVIDIA GRID vGPU解决方案。
(4) 创建虚拟机并将GPU设备添加到虚拟机。
(5) 为了使虚拟机可以正常使用GPU,需要在虚拟机系统中安装vGPU驱动。
本举例使用如下版本进行配置和验证:
表2-1 使用的机型和版本
|
型号或版本 |
|
|
机型 |
R5300 G5 |
|
HDM版本 |
2.80 |
|
BIOS版本 |
5.34 |
|
服务器GPU配置方案 |
8GPU-HPC |
|
GPU类型 |
NVIDIA Tesla T4 16G GPU |
|
GPU驱动版本 |
470.82 |
|
vGPU驱动版本 |
470.82.01 |
|
物理机操作系统 |
VMware 7.0U2 |
|
虚拟机操作系统 |
Centos 8.2 |
|
vCenter版本 |
vCenter 7.0U2 |
· 使用vCenter管理VMware系统和虚拟机,vCenter版本需和VMware版本一致或高于VMware系统版本。
· 将vGPU添加至虚拟机后需将VMware系统的UEFI的安全引导关闭。
(1) 登录服务器的BIOS Setup界面。
(2) 使能共享技术:Intel平台使能VT-d,AMD平台使能IOMMU。
· Intel平台使能方法:在BIOS的Advanced > Socket Configuration > IIO Configuration界面中,将Intel® VT for Directed I/O设置为Enable,如图2-2所示。
· AMD平台的使能方法:在BIOS的Advanced > AMD CBS > NBIO Common Options界面中,将IOMMU设置为Enable,如图2-3所示。
(3) 使能Access Control Services。
a. 在BIOS的Advanced > Socket Configuration > IIO Configuration界面中,按Ctrl+Shift+F8,打开BIOS下的隐藏项。
b. 将IIO Configuration下的PCIe Access Control Services选项设置为Enable。
图2-4 使能ACS
挂载镜像进行系统安装,进入启动项后根据提示默认安装即可。
图2-5 系统安装
(1) 进入系统主页,选择Troubleshooting Options,进入其设置界面,如图2-6所示。
a. 如图2-6所示,开启Shell功能。
b. 如图2-7所示,开启SSH功能。
(2) 配置静态IP。
a. 返回系统主页,选择Configure Management Network,如图2-8所示。
b. 如图2-9所示,选择IPv4 Configuretion。
c. 如图2-10所示,设置相关参数,使系统可以通过SSH登录。
(3) 如图2-11所示,保存退出后,重启系统。
(1) 将GPU驱动拷贝进系统,下载驱动时注意驱动适用系统,VMware系统每个系统版本所使用的驱动不一致。
图2-12 将GPU驱动拷贝进系统
(2) 如图2-13所示,使用图示命令进行驱动安装。
(3) 安装成功后,使用nvidia-smi查看GPU回显信息正常,如图2-14所示。
图2-14 查看GPU回显信息
(1) 将需要安装的虚拟机镜像传入进VMware系统中,此处以Centos8.2为例,使用最开始配置的IP登录VMware系统的页面,如图2-15所示。
(2) 如图2-16所示,选择Virtual Machines-Create/Register VM。
图2-16 选择Virtual Machines-Create/Register VM
(3) 如图2-17所示,进入以下页面,选择Create a new virtual machine。
图2-17 选择Create a new virtual machine
(4) 如图2-18所示,填写虚拟机名称,选择要安装的虚拟机类型及版本。
(5) 如图2-19所示,选择虚拟机安装的位置,可根据实际情况进行选择。
(6) 配置虚拟机,由于是使用ISO镜像安装,需要将CD/DVD Drive1改为Datastore ISO file,请选择已传入系统中需要安装的镜像,如图2-20所示。
(7) 查看已选的配置信息是否正确无误,无问题后点击Finish进行安装。
(1) 进入虚拟机后,在系统中执行systemctl set-default multi-user.target命令,进入多用户模式。
图2-21 进入多用户模式
(2) 执行reboot命令,重启操作系统使配置生效。
(1) 依次执行如下命令,对自带驱动进行禁用操作。
echo "blacklist nouveau" >>/etc/modprobe.d/blacklist-nouveau.conf
echo "options nouveau modeset=0" >>/etc/modprobe.d/blacklist-nouveau.conf
mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak
dracut -v /boot/initramfs-$(uname -r).img $(uname -r)
图2-22 禁用自带驱动
(2) 执行reboot命令,重启操作系统使配置生效。
vCenter是用于管理ESXi主机的管理平台,利用vCenter可以提供如HA、Vmotion等功能。vCenter推荐安装在虚拟化环境中。vCenter可以安装在Wndows服务器上,也可以使用OVA模版安装。本次介绍的是通过官方的OVA模版来安装。
安装分为两个阶段,第一阶段是部署vCenter7.0U2到现有的ESXi上,第二阶段是完成vCenter7.0U2的安装。
(1) 在VMware官网下载与系统版本一致或高于已安装主机系统的vCenter版本并进行安装,在vsca-ui-installer > win32里,双击Installer,选择Install,如图2-23所示。
(2) 如图2-24所示,勾选接受许可。
(3) 如图2-25所示,输入VMware ESXi的地址以及账号密码,地址为我们在Host系统配置中配置的静态IP。这里使用ESXi作为部署目标,即vCenter将部署到该台ESXi上。
(4) 如图2-26所示,创建vCenter的root密码。其中,密码设置复杂度要求较高,请根据界面提示设置满足条件的密码,在第二阶段配置会使用到该密码。
(5) 如图2-27所示,根据实际情况,选择主机和虚拟机的数量。
(6) 如图2-28所示,选择安装位置,这里选择安装在VMware系统。
(7) 如图2-29所示,配置vCenter IP地址。
(8) 如图2-30所示,确认第一阶段的参数,无问题后点击FINISH。
(9) 如图2-31所示,第一阶段安装完成,点击CONTINUE,进如第二阶段部署。
(1) 如图2-32所示,进入第二阶段配置,选择设置vCenter Server。
(2) 如图2-33所示,填写vCenter Server配置的相关参数信息。
(3) 如图2-34所示,配置SSO参数。
(4) 如图2-35所示,配置CEIP,确认加入相关提升计划。
(5) 如图2-36所示,确认配置参数无问题,点击“完成”,开始部署。
(6) 如图2-37所示,页面弹出安装完成提示框,完成vCenter Server部署。

(1) 如图2-38所示,安装完成后,参考安装第二阶段部署完成提示信息,进入vCenter Server入门界面。输入用户名和密码,登录vCenter。
(2) 如图2-39所示,在vCenter里选择新建数据中心。
(3) 如图2-40所示,创建数据中心名称:Datacenter。
(4) 如图2-41所示,在Datacenter下选择添加主机。
(5) 将之前已经安装好的VMware添加到vCenter中。
a. 如图2-42所示,输入要添加至vCenter的主机IP。
图2-42 输入要添加至vCenter的主机IP
b. 如图2-43所示,输入主机连接的详细信息,包含用户名和密码。
c. 如图2-44所示,确认主机摘要信息。
d. 如图2-45所示,向主机分配许可证。
e. 如图2-46所示,禁用锁定模式。
f. 如图2-47所示,确认虚拟机位置。
g. 如图2-48所示,确认主机信息。
(6) 如图2-49所示,查看主机和集群中主机状态显示“已连接”,表示已成功添加VMware。
(1) 如图2-50所示,登录进vCenter,查看到创建的虚拟机显示正常。
(2) 如图2-51所示,选择对应的主机,在配置选项下选择“主机图形”,进入编辑主机图形设置页面,点击右上角的“编辑”,将默认图形类型设置项改为“直接共享”。
(3) 设置完成后重启主机,待主机重新启动后,进入Centos8,选择“编辑设置”,如图2-52所示。
(4) 如图2-53所示,选择“添加新设备”中的“PCI设备”。
(5) 如图2-54所示,加入新的PCI设备,选择NVIDIA GRID vGPU配置文件。其中,有多种可选的配置文件,此处以图片中的为例,选择grid_t4-8q配置文件。
(1) 将vGPU驱动程序上传至虚拟机。在编辑设置中添加CD/DVD介质,将驱动文件转化为ISO镜像文件传递进主机中进行挂载,如图2-55所示。
(2) 如图2-56所示,执行命令./NVIDIA-Linux-x86_64-470.02.01-grid.run,安装驱动程序。
(1) 如果虚拟机的系统中缺少依赖文件,安装驱动时会出现如图2-57所示报错信息。
(2) 如图2-58所示,查看/var/log/路径中的nvidia-installer.log文件。
图2-58 查看NVIDIA安装日志
(3) 如图2-59所示,确认当前系统安装GPU驱动缺少的依赖文件。
(4) 如图2-60所示,执行yum命令,依次安装缺少的依赖文件。如虚拟机已联网,系统可自动下载软件包;如虚拟机未联网,请配置本地的yum源。
(5) 如图2-61所示,再次安装GPU驱动,直至安装完成。
如图2-62所示,在虚拟机系统中执行nvidia-smi命令,查看GPU信息,能看到GPU已被虚拟机识别。
