Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Aceasta ar putea fi lucrarea mea preferată a anului🤯
Rich Sutton susține că metodele actuale de RL nu ne vor duce la învățare continuă pentru că nu se bazează pe cunoștințele anterioare, fiecare implementare începe de la zero.
Cercetătorii din Elveția introduc Meta-RL, care ar putea descifra acest cod. Optimizează între episoade cu un obiectiv meta-learning, care apoi îi stimulează pe agenți să exploreze mai întâi și apoi să exploateze. Și apoi reflectez asupra eșecurilor anterioare pentru viitoarele runde de agenți.
Rezultate incredibile și o lectură incredibilă a unui articol per ansamblu.
Autori: @YulunJiang @LiangzeJ @DamienTeney @Michael_D_Moor @mariabrbic

Limită superioară
Clasament
Favorite
