昨日のCUDAの続報。900万要素の配列の平均とSDを求める。CPUで53msec, GPUの場合、CUDAの初期化とメモリ確保に35msec, 転送に20msec, 計算に 4.5msecとかえって遅い。しかし二回ループさせると、初期化が不要になるので大逆転である。
-
-
.
@fadis_ Thrust 使って (1) device_vector を size 指定で確保 (2) copy でデータ転送 (3) reduce で計算 となっていて、(1)-(3)をデータを変えて何度も繰り返すと、一回目の(1)だけ異様に遅い状況です。 -
@biochem_fan 必要になるまでCUDAデバイスの初期化をやっていないのでは疑惑 - 1 more reply
New conversation -
Loading seems to be taking a while.
Twitter may be over capacity or experiencing a momentary hiccup. Try again or visit Twitter Status for more information.