Windows安装CUDA、Pytorch、TensorFlow
1、查询当前显卡算力是否支持CUDA
https://developer.nvidia.cn/cuda-gpus
2、更新本机显卡驱动至最新版本
可以手动下载驱动安装,也可以通过GeForce Experience更新
3、查询本机显卡的驱动版本
命令行输入以下命令
nvidia-smi
4、查询匹配的CUDA版本
https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html#title-resolved-issues
5、确认要安装的Pytorch、TensorFlow版本,并找到对应的CUDA、cudnn版本
Pytorch:https://pytorch.org/get-started/previous-versions/
TensorFlow:https://www.tensorflow.org/install/source_windows?hl=zh-cn
6、下载对应版本的CUDA
https://developer.nvidia.com/cuda-toolkit-archive
7、下载对应版本的cudnn
https://developer.nvidia.cn/rdp/cudnn-archive
8、安装多版本CUDA
注意区分安装文件夹
9、安装对应的cudnn
将cudnn的bin、include、lib三个文件夹覆盖至对应版本的CUDA安装文件目录下
10、配置环境变量
将对应版本的CUDA安装目录添加到环境变量中
11、重启电脑
12、测试环境变量
nvcc -v
set cuda
进入CUDA安装目录下的\extras\demo_suite\文件夹
运行.\bandwidthTest.exe和.\deviceQuery.exe
出现Result = PASS结果则验证通过
12、切换CUDA版本
修改环境变量中CUDA_PATH的值,并将Path中对应CUDA版本的路径移动至最前以便优先加载
13、安装Pytorch并验证
conda install pytorch==2.3.1 torchvision==0.18.1 torchaudio==2.3.1 pytorch-cuda=12.1 -c pytorch -c nvidia
import torch
print(torch.cuda.is_available())
print(torch.cuda.device_count())
print(torch.version.cuda)
14、安装TensorFlow并验证
pip install --upgrade tensorflow-gpu==2.6.0
python -c "import tensorflow as tf;print(tf.reduce_sum(tf.random.normal([1000, 1000])))"
import os
os.environ['TF_CPP_MIN_LOG_LEVEL'] = '0'
import tensorflow as tf
# 检查TensorFlow版本
print("TensorFlow version:", tf.__version__)
# 检查GPU是否可用
print("Is GPU available:", tf.test.is_gpu_available())
print("Is CUDA available:", tf.test.is_built_with_cuda())
print("the GPU device name is:", tf.test.gpu_device_name())
print(tf.config.list_physical_devices('GPU'))
15、#LInux 安装NCCL(windows不支持NCCL安装和使用)
NCCL 安装
nccl官网: https://developer.nvidia.com/nccl/nccl-legacy-downloads
进入官网,根据CUDA版本选择nccl版本,以Ubuntu 18.04 cuda11.6版本为例
根据安装步骤,先安装网络,再安装nccl
Network Installer for Ubuntu20.04
$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-keyring_1.0-1_all.deb
$ sudo dpkg -i cuda-keyring_1.0-1_all.deb
$ sudo apt-get update
Network Installer for Ubuntu18.04
$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/cuda-keyring_1.0-1_all.deb
$ sudo dpkg -i cuda-keyring_1.0-1_all.deb
$ sudo apt-get update
Network Installer for RedHat/CentOS 8
$ sudo dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo
Network Installer for RedHat/CentOS 7
$ sudo yum-config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel7/x86_64/cuda-rhel7.repo
then run the following command to installer NCCL:
For Ubuntu: sudo apt install libnccl2=2.12.12-1+cuda11.6 libnccl-dev=2.12.12-1+cuda11.6
For RHEL/Centos: sudo yum install libnccl-2.12.12-1+cuda11.6 libnccl-devel-2.12.12-1+cuda11.6 libnccl-static-2.12.12-1+cuda11.6
16、安装ONNX Runtime
确定ONNX Runtime对应CUDA的版本,选择版本并安装
pip install onnxruntime-gpu==1.18.0