It’s remarkable that, in many applications, deep networks with random hidden-layer weights already do quite well. Gradient descent just adds the finishing touches.
-
-
Thats interesting. So, the aporoximation is coming from the randomness of weights combined with activation functions (ReLU ?) or randomness in the target function itself, or combination of both ?
Kiitos. Käytämme tätä aikajanasi parantamiseen. KumoaKumoa
-
Lataaminen näyttää kestävän hetken.
Twitter saattaa olla ruuhkautunut tai ongelma on muuten hetkellinen. Yritä uudelleen tai käy Twitterin tilasivulla saadaksesi lisätietoja.