Gradient descent is a local optimum that we've fallen into:https://arxiv.org/abs/2012.00152
-
-
Vastauksena käyttäjälle @pmddomingos
Pedro, any opinion on this paper? It seems to be at odds with your conclusion somewhat:https://arxiv.org/abs/2011.14522
1 vastaus 0 uudelleentwiittausta 1 tykkäys
Vastauksena käyttäjälle @nicolaisucks
My results are for finite width, and the path kernel and the NTK are different things.
16.05 - 9. jouluk. 2020
0 vastausta
0 uudelleentwiittausta
2 tykkäystä
Lataaminen näyttää kestävän hetken.
Twitter saattaa olla ruuhkautunut tai ongelma on muuten hetkellinen. Yritä uudelleen tai käy Twitterin tilasivulla saadaksesi lisätietoja.