https://arxiv.org/abs/2001.04413 Cool theory paper presenting a problem that: - can be efficiently learned by SGD with a DenseNet with x^2 nonlin, - cannot be efficiently learned by any kernel method, including NTK.
20:18 - 16. sij 2020.
1 reply
75 proslijeđenih tweetova
363 korisnika označavaju da im se sviđa
Čini se da učitavanje traje već neko vrijeme.
Twitter je možda preopterećen ili ima kratkotrajnih poteškoća u radu. Pokušajte ponovno ili potražite dodatne informacije u odjeljku Status Twittera.