GPU稼働状況

Share on:

さくらGPUサーバ: [ ざっくり確認 ]

6月に入った辺りから利用希望者が出始めて、お試し的にやった学生や、実際に研究の一環として一度の実行に長時間(1回あたり1週間以上?)要するような利用まで出てきました。GPUの稼働率(GPUと内部メモリ)と、GPUの稼働率とをグラフ化するとこんな感じになりました。

横軸のメモリは、1単位あたり10分。10分刻みでvmstat, nvidia-smiで稼働状況を記録。
縦軸は、稼働率(100%上限)です。

GPUはTesla P100。青い線がGPU稼働率で、オレンジがGPUメモリの稼働率。

CPUは緑色で、E5-2623V3 (3.0GHz, 4C/8H)が16個搭載されてます。これがフル稼働で100%。

これを眺めると、2パターンの利用があって、
(1) 700手前までの前半は、GPU 50% (メモリ15%) ぐらいで稼働し続けていた。
(2) 後半は、CPUだけで70%強稼働し続けていた。
らしい。

(2)でGPU使われていないのが不思議なんですが、学生に確認する限りでは pip で tensorflow-gpu をインストールしたらしいし、実際 pip list で確認してもそうなってるらしい。ので、インストールの仕方によっては gpu 版入れてたつもりでも、GPU使わないことがあるらしい。あらまぁ。