abstract:记录在远程服务器跑代码遇到的问题和常用的命令行语句
story:公用服务器上改代码,显存爆炸后差点把同门进程给鲨了,故作此文以记录
查看GPU状态
nvidia-smi:
关注这几个点:
-
上半张表:GPU信息
- Memory-Usage:显存
- Volatile GPU-Util:GPU利用率
-
下半张表:进程信息
- PID:进程号(你会发现1152339进程占了两张卡)
- xorg:Linux的图形化驱动,不用管
-
GPU0上1152339进程占了11个G,这就是我显存炸掉的罪魁祸首!我的进程需要的显存大于24-11=13G,自动卡退了 这个进程是谁的呢?
进程
kill -9 1152339
- 强行杀死进程
ps -u -p 1152339
- 看看这个进程是谁的
ps -ef | grep 1152339
- 搜索所有含有“1152339”名字的进程,并显示完整信息
- 还可以
ps -ef | grep yourusername,查看和你有关的所有进程