SingularityとSlurmの実践例

  • SingularityとSlurmとは
  • MNIST 実践

SingularityとSlurmとは

MNIST 実践

  • 実際に Singularity と Slurm を使ったサンプルを実行する
  • pytorch を使った MNIST の学習プログラムを実行してみます

下準備

  • SSH で amane に接続します
  • pytorch のイメージをpullします
    • singularity pull docker://pytorch/pytorch:latest!
  • MNIST の exsample をホームディレクトリにcloneします
    • git clone https://github.com/pytorch/examples.git

学習

  • Slurm で Job を投下
    • sbatch mnist.sbatch
#!/bin/bash
#SBATCH --job-name mnist 
#SBATCH --output %x-%j.log
#SBATCH --error %x-%j.err
#SBATCH --nodes 1
#SBATCH --cpus-per-task 8
#SBATCH --gpus tesla:1
#SBATCH --time 05:00

date
singularity exec --nv pytorch_latest.sif python examples/mnist/main.py
date

確認

  • 学習の進捗は #SBATCH --output で指定したファイルに吐き出されます
    • tail -f mnist-100.log などで確認できます
  • エラーは #SBATCH --error で指定したファイルに吐き出されます
    • cat mnist-100.err などで確認できます

コメント:画像を中央に配置する centerコマンドを有効に