Gradient descent is just a convex optimizer. By definition, it can't solve hard problems. (Fitting the data means nothing; memorization is enough for that.) If GD is part of an AI system, the intelligence must be somewhere else.
Because it isn’t. The unreasonable effectiveness is in the data, and that article has been written.
-
-
Kiitos. Käytämme tätä aikajanasi parantamiseen. KumoaKumoa
-
Lataaminen näyttää kestävän hetken.
Twitter saattaa olla ruuhkautunut tai ongelma on muuten hetkellinen. Yritä uudelleen tai käy Twitterin tilasivulla saadaksesi lisätietoja.
