Ubuntu18.04搭建深度学习环境(RTX3090+cuda+anconda3+Pytorch)
1.显卡驱动安装
1.1 查看显卡驱动
lspci | grep -i nvidia
可以看到,查看到的显卡型号名称是一个十六进制数字代码。接下来将得到的十六进制数字代码,带入网址中查询具体显卡型号: http://pci-ids.ucw.cz/mods/PC/10de?action=help?help=pci
得到最终的显卡型号:
1.2 显卡驱动下载
官网:NVIDIA
选择你的硬软件信息,搜索驱动程序。比如我是Ubuntu18.04系统、显卡是RTX 3090,选择好后开始搜索。
点击“开始搜索”后,页面下方会显示“驱动程序搜索结果”,选择第一个驱动版本为530.41的驱动,下载。
1.3 安装驱动
1.3.1 安装相关工具
确定你的安装环境是否有相关工具,若是没有可安装下面方法安装。
sudo apt-get install gcc
sudo apt-get install vim
sudo apt install lightdm
sudo apt install make
1.3.2 禁用Ubuntu自带驱动
- 编辑配置文件:
sudo vim /etc/modprobe.d/blacklist.conf
- 跳至最后一行添加:
blacklist nouveau options nouveau modeset=0
- 完成后执行:
sudo update-initramfs -u
- 重启电脑后打开命令行执行:
lsmod | grep nouveau
如果没有信息输出,那么禁用nouveau驱动成功
1.3.3 关闭桌面模式
- 按“Ctrl+Alt+F1”进入命令行(或者使用命令:
sudo telinit 3
),输入用户名和密码登录 , - 禁用X-Window图形界面服务:
sudo service lightdm stop 或 sudo /etc/init.d/lightdm stop
报错:
Failed to stop lightdm.service:Unit lightdm.service not loaded.
解决办法:
sudo apt-get install lightdm,并在弹出界面选择lightdm,然后执行sudo service lightdm stop
1.3.4 卸载自带驱动
sudo apt-get remove --purge nvidia*
sudo apt-get --purge remove xserver-xorg-video-nouveau
1.3.5 执行安装命令
# 给驱动run文件赋予执行权限:
sudo chmod a+x NVIDIA-Linux-x86_64-530.41.03.run
# 安装驱动
sudo https://zhuanlan.zhihu.com/p/NVIDIA-Linux-x86_64-530.41.03.run -no-x-check -no-nouveau-check -no-opengl-files
参数说明:
-no-x-check
:安装时关闭X服务-no-nouveau-check
:安装时禁用nouveau-no-opengl-files
:仅安装驱动,不安装OpenGL等文件
情况说明:
1.
The distribution-provided pre-install script failed! Are you sure you want to continue?
“Yes”
2.
Would you like to register the kernel module souces with DKMS? This will allow DKMS to automatically build a new module, if you install a different kernel later?
“No”
3.
Nvidia’s 32-bit compatibility libraries?
“No”
4.
Would you like to run the nvidia-xconfigutility to automatically update your x configuration so that the NVIDIA x driver will be used when you restart x? Any pre-existing x confile will be backed up.
“Yes”,此项选No也可以
安装完成后打开X图形界面服务:sudo service lightdm start
或 sudo /etc/init.d/lightdm start
验证:输入nvidia-smi
查看驱动信息
1.3.6 卸载显卡驱动
- 进入驱动文件目录(runfile安装):
sudo https://zhuanlan.zhihu.com/p/NVIDIA-Linux-x86_64-470.74.run --uninstall
- 清除NVIDIA和配置文件(ppa源安装):
sudo apt-get purge --remove nvidia*
1.3.7切换显卡
sudo lshw -c display # 查看当前使用的nvidia驱动程序
sudo sudo apt install nvidia-prime # 安装nvidia-prime
sudo prime-select query # 查看当前显卡
sudo prime-select intel # 设置Intel显卡
sudo prime-select nvidia # 设置NVIDIA显卡
1.4.踩坑
1.4.1 安装驱动后重启无法进入系统
重启驱动后无法进入图形界面,可以进入命令界面,查看lightdm状态,发现
查看桌面管理器是否是lightdm:cat /etc/X11/default-display-manager
查看lightdm状态:systemctl status lightdm
切换lightdm和gdm
sudo service lightdm stop
sudo dpkg-reconfigure gdm3
sudo service gdm start
解决办法
cd /etc/X11
mv xorg.conf xorg.conf.bak
reboot
也可参考:https://blog.csdn.net/m0_67402914/article/details/126597754
如果尝试多种方法都无法解决,就重装系统,这个是终极大法,重装后再安装,可能一遍就成功了,我的就是
1.4.2 Error: An NVIDIA kernel ‘nvidia-drm’ appears to already be loaded in your kernel.
解决办法
1. 获得超级用户权限
sudo -i
2.
进入无窗口界面
sudo systemctl isolate multi-user.target
卸载系统的nvidia驱动
sudo modprobe -r nvidia-drm
sudo modprobe -r nvidia_modeset
3. 重装 NVIDIA 驱动
sh https://zhuanlan.zhihu.com/p/NVIDIA-Linux-x86_64-XX.sh
4. 进入图形界面
sudo systemctl start graphical.target
5. 重新启动
sudo reboot
1.4.3 开机之后,没有图形界面,也无法使用命令窗口界面。
参考:https://blog.csdn.net/m0_67402914/article/details/126597754
1.4.4【NVIDIA】显卡报错:NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver
原因:系统内核升级了,导致新版本内核和原来显卡驱动不匹配
解决办法:
- 查看nvidia版本号
bash ll /usr/src/
2. 安装dkms
bash sudo apt-get install dkms
3. 执行
bash sudo dkms install -m nvidia -v 520.56.06
2. 安装CUDA
2.1 下载对应版本的CUDA
通过命令nvidia-smi
查看cuda版本,然后安装对应版本的CUDA Toolkit,理论上不高于cuda版本的都可以,这里本机的cuda版本是11.8,因此选择11.8版本的安装
链接:https://developer.nvidia.com/cuda-toolkit-archive
根据自身系统选择合适的安装包
将页面的命令输入命令行,下载、安装cuda
wget https://developer.download.nvidia.com/compute/cuda/12.1.0/local_installers/cuda_12.1.0_530.30.02_linux.run
2.2 安装CUDA
安装:
sudo sh cuda_12.1.0_530.30.02_linux.run
输入accept:
这里我们需要注意,CUDA在这里会默认帮我们安装驱动,由于我们已经安装好 NVIDIA驱动,第一行需要取消安装(我们不建议使用 CUDA 默认安装驱动,可能会出现一系列问题)
点击空格,取消安装驱动,然后选择install
完成安装:
安装之后,我们进入 usr/local 目录,可以看到已经有了 cuda 和 cuda-11.8 两个文件夹,已经通过软链接的方式将 cuda11.8 配置为默认使用 cuda 了
2.3 配置环境
打开环境变量配置文件
vim ~/.bashrc
在文件最下面加三行,保存
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-11.8/lib64
export PATH=$PATH:/usr/local/cuda-11.8/bin
export CUDA_HOME=$CUDA_HOME:/usr/local/cuda-11.8
激活配置文件
source ~/.bashrc
测试CUDA是否安装成功
nvcc -V
正确输出即代表 CUDA 安装配置完成
3. 安装cuDNN
下载链接:https://developer.nvidia.com/rdp/cudnn-download
下载tar.xz文件,下载文件需要账号,可以自己注册一个或者去网上找别人分享的账号
解压缩:
tar -xvf cudnn-linux-x86_64-8.8.1.3_cuda11-archive.tar.xz
进入加压后的目录:
复制文件
sudo cp include/cudnn.h /usr/local/cuda/include/
sudo cp lib/libcudnn* /usr/local/cuda/lib64/
sudo chmod a+r /usr/local/cuda/include/cudnn.h
sudo chmod a+r /usr/local/cuda/lib64/libcudnn*
注意一下:cudnn8.0以上会将版本信息更新到cudnn_version.h文件中,也需要将这个文件复制,否则验证的时候会没有反应
sudo cp include/cudnn_version.h /usr/local/cuda/include/
验证是否安装成功:
cat /usr/local/cuda/include/cudnn_version.h | grep CUDNN_MAJOR -A 2
出现如下信息即成功
4.安装Anaconda
4.1 下载安装包
进入 Anaconda 官网选择对应 Linux 平台下载安装包:Anaconda
若是查找历史版本,则可以访问下方链接:
https://
repo.anaconda.com/archi
ve/
https://
mirrors.tuna.tsinghua.edu.cn
/anaconda/archive/
4.2 安装
sudo bash Anaconda3-2023.03-Linux-x86_64.sh
4.2.1按回车键
4.2.2 许可协议
许可协议其实蛮长的,会有多页。如果没看到让你输入的地方,并且末行显示--More--
,可以按Z
键翻页,或者按Q
跳到最后,输入yes,并按回车键
4.2.3 修改安装路径
Anaconda的安装位置默认会在执行用户的home目录下的anaconda3目录中,如果是要给服务器的全部用户安装的话,建议改成公共的位置(如果安装时没有添加-u,目录如果存在会报错)。下面我是给改成安装在/usr/anaconda3下了。
4.2.4 初始化
询问是否初始化conda的环境,直接输入yes
安装完成。
安装完成后,若是我们发现依然无法识别 conda 命令,那是因为环境变量文件配置了,但没有激活,执行以下命令激活环境变量配置文件
source ~/.bashrc
4.2.5 配置环境变量
因为anaconda3安装在/usr/anaconda3目录下,不同的用户需要配置一下环境变量,才能正常使用
修改.bashrc文件:
vim ~/.bashrc
在最后一行添上:
export PATH=/usr/anaconda3/bin:$PATH
让命令生效:
source ~/.bashrc
或者执行下方命令(根据实际情况修改bin之前的目录):
/usr/anaconda3/bin/conda init bash
5. 安装pytorch
下载路径:Pytorch
根据命令下载安装程序
安装成功后,进入python环境,输入
import torch
print(torch.cuda.is_available())
print(torch.__version__)
print(torch.version.cuda)
print(torch.backends.cudnn.version())
输出结果:
2024最新激活全家桶教程,稳定运行到2099年,请移步至置顶文章:https://sigusoft.com/99576.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。 文章由激活谷谷主-小谷整理,转载请注明出处:https://sigusoft.com/10878.html