abstract:记录在远程服务器跑代码遇到的问题和常用的命令行语句
story:公用服务器上改代码,显存爆炸后差点把同门进程给鲨了,故作此文以记录

查看GPU状态

nvidia-smi:

gpu 关注这几个点:

  • 上半张表:GPU信息

    • Memory-Usage:显存
    • Volatile GPU-Util:GPU利用率
  • 下半张表:进程信息

    • PID:进程号(你会发现1152339进程占了两张卡)
    • xorg:Linux的图形化驱动,不用管
  • GPU0上1152339进程占了11个G,这就是我显存炸掉的罪魁祸首!我的进程需要的显存大于24-11=13G,自动卡退了 这个进程是谁的呢?

进程

kill -9 1152339

  • 强行杀死进程

ps -u -p 1152339

  • 看看这个进程是谁的

ps -ef | grep 1152339

  • 搜索所有含有“1152339”名字的进程,并显示完整信息
  • 还可以ps -ef | grep yourusername,查看和你有关的所有进程