We won’t find intelligence at the bottom of gradient descent.
-
-
Vastauksena käyttäjälle @pmddomingos
You have a problem with gradient descent?
1 vastaus 0 uudelleentwiittausta 1 tykkäys -
Vastauksena käyttäjälle @mohammadalyoune
Yes, it’s an extremely inefficient way to learn.
6 vastausta 0 uudelleentwiittausta 21 tykkäystä -
Vastauksena käyttäjille @pmddomingos ja @mohammadalyoune
Do you have an alternative approach to learning that is more efficient than gradient-based optimization?
9 vastausta 2 uudelleentwiittausta 53 tykkäystä -
Genetic Algorithms?
1 vastaus 0 uudelleentwiittausta 0 tykkäystä -
Certainly not. Gradient-based optimization beats gradient-free any day. Genetic algos are a particular instance of gradient-free algorithms.
1 vastaus 0 uudelleentwiittausta 7 tykkäystä -
You seem to be missing a lot here. Saying that anything that is not gradient descent is gradient-free optimization and therefore worse is not valid reasoning. Crossover is not local search, evolution is a multiagent game, etc., etc.
2 vastausta 0 uudelleentwiittausta 10 tykkäystä -
Give me a non-gradient-based method that produce decent results in a reasonable amount of time on, say, ImageNet, LibriSpeech, whatever NLP benchmark you want. 1/2
1 vastaus 0 uudelleentwiittausta 8 tykkäystä -
Vastauksena käyttäjille @ylecun, @pmddomingos ja
Local or not local, swarm or not swarm, the things you mention are just particular ways to do gradient-free optimization.
2 vastausta 0 uudelleentwiittausta 4 tykkäystä -
To paraphrase Ulam, using a term like "gradient-free optimization" is like referring to the bulk of zoology as the study of trunk-free animals. GD is fast per step, but extremely inefficient at extracting information from examples. (Nearest-neighbor is better at that!)
2 vastausta 0 uudelleentwiittausta 1 tykkäys
What you're doing is like arguing a billion years ago that bacteria were the apex of evolution. (They search for food by concentration gradient descent - do you have a better option?) You'll doubtless be proved right in the short term, but (very) wrong in the long term.
-
-
Vastauksena käyttäjille @pmddomingos, @ylecun ja
Even GD's speed advantage is predicated on the unfair advantage of GPUs, and less than it seems given how overparameterized models have to be to overcome local optima - which nonconvex optimizers don't. (E.g., https://homes.cs.washington.edu/~pedrod/papers/iclr18.pdf …)
0 vastausta 1 uudelleentwiittaus 5 tykkäystäKiitos. Käytämme tätä aikajanasi parantamiseen. KumoaKumoa
-
Lataaminen näyttää kestävän hetken.
Twitter saattaa olla ruuhkautunut tai ongelma on muuten hetkellinen. Yritä uudelleen tai käy Twitterin tilasivulla saadaksesi lisätietoja.