智能资源调度支持将同一集群内的不同主机上的物理GPU资源添加到一个GPU资源池中,将多个实现同一类业务的虚拟机加入到一个业务虚拟机组中;当业务虚拟机组中的虚拟机启动或者重启时,系统根据虚拟机使用GPU资源的策略自动分配和释放GPU资源。
目前支持GPU、vGPU两种类型的资源池。
GPU类型的资源池用于GPU直通,GPU直通是通过VT-d技术,将物理GPU透传给某一个虚拟机,使虚拟机能够完全拥有物理GPU的资源与性能,满足行业用户对应用系统的性能要求。
vGPU类型的资源池,是将虚拟vGPU资源分配给虚拟机使用。
基于GPU资源池虚拟化技术的集群具有如下特点:
当业务虚拟机需要进行非编任务时,从GPU资源池中动态选择一个空闲的GPU资源给该虚拟机;当业务虚拟机所在宿主机中没有可用的GPU资源,而其他主机存在闲置的GPU资源时,虚拟机自动迁移到其他主机,并使用该主机上的GPU显卡资源。
当业务虚拟机完成非编任务时,关闭虚拟机,则虚拟机自动将GPU资源释放到GPU资源池中,供其他虚拟机使用。
整个过程实现了完全自动化的管理,是一种按需分配与回收、自动弹性扩展的云服务。
图-1 GPU资源池动态调度