There is a line of research involving intrinsic reward/motivation for the learning agent. Any opinion on that?
-
-
Hvala. Twitter će to iskoristiti za poboljšanje vaše vremenske crte. PoništiPoništi
-
-
-
사람의 컨트롤없이 올바른학습효과패턴으로 진행되어져야할부분이 많을텐데 예를든 언어이해 활용외에도 여러가지 정보나 데이터들로 파악되는 사람들마다의 안좋은요소들까지 포함돼 결과적인것들에 많이 영향을주게되는건아닐까 관련분야내용들에서도 다뤄서 그런 생각도 하게되기도하고(๑’ᴗ’)/
Hvala. Twitter će to iskoristiti za poboljšanje vaše vremenske crte. PoništiPoništi
-
-
-
we are perhaps, some team'es behind on schedule, let's hurry, appli alliance or alli with germans, french nations nationals, swedish, norweigen, swiss toot, denmark also perhaps of, long live the king'es of
Hvala. Twitter će to iskoristiti za poboljšanje vaše vremenske crte. PoništiPoništi
-
-
-
@firoozye Regarding reward hacking, this approach suggests an auxiliary reward function to use successful trajectories.Hvala. Twitter će to iskoristiti za poboljšanje vaše vremenske crte. PoništiPoništi
-
Čini se da učitavanje traje već neko vrijeme.
Twitter je možda preopterećen ili ima kratkotrajnih poteškoća u radu. Pokušajte ponovno ili potražite dodatne informacije u odjeljku Status Twittera.