Diary/2017-12-12
GTC2017
聴講に.
VOLTAアーキテクチャでスレッド毎にPCが付くっていうことの
意味がよくわかってなかった,ということがよくわかった.
同じワープの別スレッドが同じサイクルに別のインストラクションを実行できる,わけではなく,
分岐したパス間での同期がちゃんと取れるようになった.
これで,Starvation Freeアルゴリズムがかけるようになるとのこと.
GPUマシンで遊ぶ
組み立てたGPUマシンにTensorFlowなどいれて遊んでみる.
知ってたけど速い!!
Tensorflowの手書き認識サンプルのLeNetでは,
CPUでは,95.8ms/iterationで,合計13分48秒かかるのに対し,
GPUを使うと,GPU:4.2ms/iterationで,合計は39秒に.
RNNなseq2seq/translate.pyでも,
CPUのstep-timeが0.52〜0.54秒なのに対して,
GPUのstep-timeは0.12〜0.14と5倍弱の高速化.