With the numbers of parameters and step sizes in current deep networks, how often does gradient descent wind up going uphill?
-
-
And even if a sizable fraction of steps is uphill, that’s already pretty shocking.
Kiitos. Käytämme tätä aikajanasi parantamiseen. KumoaKumoa
-
Lataaminen näyttää kestävän hetken.
Twitter saattaa olla ruuhkautunut tai ongelma on muuten hetkellinen. Yritä uudelleen tai käy Twitterin tilasivulla saadaksesi lisätietoja.