虚拟化教程 (4) : NVIDIA vGPU 软硬件选型指南


Vincent
发布于 2024-07-28 / 98 阅读 / 0 评论 /
虚拟化教程 (4) : NVIDIA vGPU 软硬件选型指南 NVIDIA vGPU 解决方案能够将 NVIDIA GPU 的强大功能带入虚拟桌面、应用程序和工作站,加速图形和计算,使在家办公或在任何地方工作的创意和技术专业人员能够访问虚拟化工作空间。 完整的 NVIDIA vGPU 方案包含 G

虚拟化教程 (4) : NVIDIA vGPU 软硬件选型指南

NVIDIA vGPU 解决方案能够将 NVIDIA GPU 的强大功能带入虚拟桌面、应用程序和工作站,加速图形和计算,使在家办公或在任何地方工作的创意和技术专业人员能够访问虚拟化工作空间。

完整的 NVIDIA vGPU 方案包含 GPU 硬件与 vGPU 软件,将 GPU 硬件与 vGPU 软件解耦,能够使用户定期从软件的更新功能中受益,同时也为 IT 部门提供灵活性,以满足不同环境中用户的特定需求。

那么,如何选择能满足用户工作负载要求的 NVIDIA GPU 和虚拟化软件的组合方案呢?

今天我们从 vGPU 的许可类型、软件版本、支持的虚拟化平台、物理 GPU、虚拟机 vGPU Profile 等方面来介绍 NVIDIA vGPU 的软硬件选型指南,以帮助您选择适合不同工作负载的虚拟化软件和 GPU。

vGPU 许可类型的选择

NVIDIA vGPU 目前包含三种许可类型,NVIDIA Virtual Applications (vApp)、NVIDIA Virtual PC (vPC)、NVIDIA RTX Virtual Workstation (vWS),原来的 NVIDIA Virtual Compute Server (vCS) 已合并至 NVIDIA AI Enterprise (NVAIE) 软件套件中,本篇不做阐述。那么,在日常的虚拟化应用场景中,如何选择合适的 vGPU 许可类型呢?

1 vApp

vApp 即 NVIDIA Virtual Applications(NVIDIA 虚拟应用程序)软件,专为应用程序流和远程桌面共享主机 (RDSH) 工作负载而设计。

2 vPC

vPC 即 NVIDIA Virtual PC(NVIDIA 虚拟 PC)软件,专为知识工作者 VDI 工作负载而设计,可加速以下软件和应用设备:

  • 办公生产力应用程序,如 Office 软件

  • 流媒体视频

  • Windows OS

  • 多显示器

  • 高分辨率显示器

  • 2D 电子设计自动化 (EDA)

3 vWS

vWS 即 NVIDIA RTX Virtual Workstation(NVIDIA RTX 虚拟工作站)软件,专为专业图形工作负载而设计,主要优势有:

  • RTX Enterprise 平台驱动程序和 ISV 认证

  • 支持 NVIDIA® CUDA® 工具包和 OpenCL

  • 更高分辨率的显示器

  • 具有大量帧缓冲区的 vGPU 配置文件

NVIDIA RTX vWS 可加速专业设计和可视化应用程序,例如:

  • Autodesk Revit

  • Dassault Systèmes CATIA

  • Esri ArcGIS Pro

  • Maya

  • Petrel

  • SolidWorks

  • ...

NVIDIA vGPU 软件版本及虚拟化平台的推荐

历经十多个版本的迭代更新,NVIDIA vGPU 软件已经更新到最新的 vGPU 16 版本,目前仍在支持的 NVIDIA vGPU 软件版本有 NVIDIA vGPU software 13、NVIDIA vGPU software 15 和 NVIDIA vGPU software 16,其各自的 EOL 日期如下:

考虑到使用日期和售后支持等方面,推荐使用 vGPU 16 版本。

vGPU 16.2 版本为例,其支持的系统和虚拟化产品如下,用户可以根据现有的虚拟化平台进行选择。

1 Citrix Hypervisor

2 Microsoft Azure Stack HCI

3 Microsoft Windows Server

4 Red Hat Enterprise Linux with KVM

5 Ubuntu with KVM

6 VMware vSphere ESXi

7 Nutanix AHV

该版本的 NVIDIA vGPU 软件支持 Nutanix AHV,基于 Linux 的 KVM 虚拟机管理程序。

更多版本的支持产品,可参阅:

https://docs.nvidia.com/grid/docs.nvidia.com/grid/

未在列表中的、基于 Linux KVM 开发的其他虚拟化平台,需要和厂家确认是否兼容适配 vGPU 软件,建议实际测试,确定是否可以正常安装部署。

物理 GPU 的选择

NVIDIA vGPU 软件需要在具备 NVIDIA GPU 的平台上运行。vGPU 通过 time-sliced(时间切分)的方式共享 GPU 引擎,包括图形 (3D)、视频编解码引擎等,不同的 GPU 具备不同的规格,用户可以根据性能、成本和显存大小等因素选择合适的 GPU。针对目前仍在支持的虚拟 GPU 软件版本,支持的 GPU 有:

查看完整列表:

NVIDIA® Virtual GPU Software Supported GPUsdocs.nvidia.com/grid/gpus-supported-by-vgpu.html

虚拟机 vGPU Profile 的设定

可用 vGPU Profile 配置文件,在虚拟化教程 (2)虚拟化教程 (3)中介绍许可类型功能特性时有提到,包括 vWS 的 1Q/2Q/../48Q,vPC 的 1B/2B,vApp 的 1A/2A/.../48A,可以将其认为是给虚拟机分配的显存大小。

经常有用户会问:如何去设定 vGPU Profile,才能满足当下的应用场景和业务需求?

大致可以从以下三个方向去考虑:

首先,反推法,先确定当下使用的物理 GPU 型号,以及支持应用程序或业务工作负载所需的显存大小,再反推应该怎么去划分。

其次,可以根据具体的应用程序官方推荐的 GPU 和显存大小等硬件需求,来进行具体的 vGPU 文件的配置和显存划分。

最后,正向测试方法,比如设计类用户,考虑到运行模型大小以及复杂程度的不同,可以通过一些工具或寻求供应商来评估,获取 POC 支持和优化的方案。这里推荐两个工具:

1 GPU Profiler

GPU Profiler(GitHub 上可下载)是一个常用的工具,可以实时记录资源在虚拟机上执行工作负载时的利用率。该工具通常在 POC 阶段帮助调整虚拟环境大小,以确保可接受的性能。GPU Profiler 可以在具有各种 vGPU 配置文件的单个 VM 上运行。可以获取以下指标:

  • 帧缓冲区

  • GPU 利用率

  • vCPU

  • 内存

  • 视频编码

  • 视频解码

2 NVIDIA System Management Interface (nvidia-smi)

NVIDIA vGPU Manager 提供监控功能,让 IT 人员能够了解更好地利用 NVIDIA vGPU 的各种引擎的使用情况,包括帧缓冲区、编解码器等都可以通过命令行界面工具 nvidia-smi 进行监控和记录,并可以在 Hypervisor 或者虚拟机内进行访问。

适用于虚拟化工作负载的 NVIDIA vGPU 解决方案推荐

NVIDIA 虚拟化解决方案与基于当下 NVIDIA Ada Lovelace 和 Ampere 架构的 GPU 配合使用时,可提供巨大的灵活性和性能,从而满足当今企业不断变化的工作负载和组织需求。

▲ 推荐 vGPU 软硬件方案

如上图所示,如果追求最大限度地提高虚拟化工作负载的性能,可以考虑性能优化的 GPU,如果考虑到成本因素,则可以选择高性价比的 GPU。

当然,除了 NVIDIA 数据中心 GPU 之外,还有很多其他 GPU 支持虚拟化,包括 NVIDIA RTX™ 专业图形卡系列:NVIDIA RTX™ 5880 Ada Generation、NVIDIA RTX™ 5000 Ada Generation、NVIDIA RTX™ A5000 等。用户可根据具体需求,选择合适的 GPU 和软件。

*与NVIDIA产品相关的图片或视频(完整或部分)的版权均归NVIDIA Corporation所有。