How would this perform compared to training a new network with the same architecture?
-
-
-
Well, this paper discovers the architecture instead of requiring knowledge of it. But also, my hunch is that the kind of self-distillation technique you suggest would not converge to the real weights in a multi layer perceptron. It is a very nonlinear problem.
Kraj razgovora
Novi razgovor -
-
-
This is awesome work!
Hvala. Twitter će to iskoristiti za poboljšanje vaše vremenske crte. PoništiPoništi
-
-
-
@guillefix Check this out!Hvala. Twitter će to iskoristiti za poboljšanje vaše vremenske crte. PoništiPoništi
-
Čini se da učitavanje traje već neko vrijeme.
Twitter je možda preopterećen ili ima kratkotrajnih poteškoća u radu. Pokušajte ponovno ili potražite dodatne informacije u odjeljku Status Twittera.