gcc(少なくとも4.7まで それ以降は未確認)のベクタエクステンションはコードが要求した要素数とプロセッサのSIMDレジスタの幅が一致していると確かに速いんだけど、そうでない場合1要素づつ計算した方が速いような酷いコードを吐くんだよな…
@enogu それとは別にまるでSIMDのようだけど実は1要素づつ計算する実装でも良い64bit幅のVFPがあって、それとは別に128bit幅でSIMDで整数と浮動小数を計算するNEONがあって、それと名前は同じだけど仕様が全く違うARMv8版NEONがある
-
-
@fadis_ NEONってそういう風に使うものだったんだ… -
@enogu いままでどういう使い方を… - 1 more reply
New conversation -
Loading seems to be taking a while.
Twitter may be over capacity or experiencing a momentary hiccup. Try again or visit Twitter Status for more information.