昨日のCUDAの続報。900万要素の配列の平均とSDを求める。CPUで53msec, GPUの場合、CUDAの初期化とメモリ確保に35msec, 転送に20msec, 計算に 4.5msecとかえって遅い。しかし二回ループさせると、初期化が不要になるので大逆転である。
-
-
@fadis_ いえ、GPUへのメモリ転送を含めても、計算(Thrust での copy と reduce)はCPUより速いのです。最初に GPU を初期化するところが滅茶苦茶遅いのが不思議です。 -
@biochem_fan CUDAのカーネル起動自体は速いんで、Thrustさんが遅延評価してるんじゃないかと思います - 3 more replies
New conversation -
Loading seems to be taking a while.
Twitter may be over capacity or experiencing a momentary hiccup. Try again or visit Twitter Status for more information.