With the numbers of parameters and step sizes in current deep networks, how often does gradient descent wind up going uphill?
-
-
Vastauksena käyttäjälle @pmddomingos
To truly test this, you’d need to measure the val loss (over the whole validation dataset) at each step, which would be quite slow (usually done once-every-1000-steps ish) But my guess is a high % of all steps are downhill. Optimization becomes *easier* with more params.
2 vastausta 0 uudelleentwiittausta 0 tykkäystä -
Vastauksena käyttäjälle @abhi_venigalla
No, over the training minibatch. And more parameters make the gradient’s linear approximation worse.
1 vastaus 0 uudelleentwiittausta 2 tykkäystä
Vastauksena käyttäjille @pmddomingos ja @abhi_venigalla
And even if a sizable fraction of steps is uphill, that’s already pretty shocking.
17.01 - 23. jouluk. 2021
0 vastausta
0 uudelleentwiittausta
0 tykkäystä
Lataaminen näyttää kestävän hetken.
Twitter saattaa olla ruuhkautunut tai ongelma on muuten hetkellinen. Yritä uudelleen tai käy Twitterin tilasivulla saadaksesi lisätietoja.