Gradient descent is just a convex optimizer. By definition, it can't solve hard problems. (Fitting the data means nothing; memorization is enough for that.) If GD is part of an AI system, the intelligence must be somewhere else.
-
-
If you agree to not confuse motivation of gradient descent with what it can express under different conditions :) (e.g. in presence of multiple learners, partial non differentiability, overparametrisation). Both tweets make painful simplifications :)
Kiitos. Käytämme tätä aikajanasi parantamiseen. KumoaKumoa
-
Lataaminen näyttää kestävän hetken.
Twitter saattaa olla ruuhkautunut tai ongelma on muuten hetkellinen. Yritä uudelleen tai käy Twitterin tilasivulla saadaksesi lisätietoja.