To truly test this, you’d need to measure the val loss (over the whole validation dataset) at each step, which would be quite slow (usually done once-every-1000-steps ish) But my guess is a high % of all steps are downhill. Optimization becomes *easier* with more params.
-
-
-
(Might try to actually measure this and get back to you…)
Keskustelun loppu
Uusi keskustelu -
-
-
Not enough that it would make folks use line searches when doing gradient descent. ;)
Kiitos. Käytämme tätä aikajanasi parantamiseen. KumoaKumoa
-
Lataaminen näyttää kestävän hetken.
Twitter saattaa olla ruuhkautunut tai ongelma on muuten hetkellinen. Yritä uudelleen tai käy Twitterin tilasivulla saadaksesi lisätietoja.