The problem with reinforcement learning is that if rewards are sparse and delayed, it's too hard; and if they're not, supervised learning will do.
-
-
Vastauksena käyttäjälle @pmddomingos
It can sometimes be tricky to give supervised examples to robots. Its easier if they “explore” the environment themselves. Don’t you think?
1 vastaus 0 uudelleentwiittausta 2 tykkäystä
Vastauksena käyttäjälle @apoorvaish
Rewards are supervision, which takes us back to my original tweet.
12.32 - 5. syysk. 2021
0 vastausta
0 uudelleentwiittausta
4 tykkäystä
Lataaminen näyttää kestävän hetken.
Twitter saattaa olla ruuhkautunut tai ongelma on muuten hetkellinen. Yritä uudelleen tai käy Twitterin tilasivulla saadaksesi lisätietoja.