Tämä saattaa olla vuoden suosikkiartikkelini🤯 Rich Sutton väittää, että nykyiset RL-menetelmät eivät johda jatkuvaan oppimiseen, koska ne eivät perustu aiempaan tietoon, jokainen käyttöönotto alkaa alusta. Sveitsiläiset tutkijat esittelevät Meta-RL:n, joka saattaa murtaa tämän koodin. Optimoi jaksojen välillä meta-oppimistavoitteella, joka kannustaa agentteja tutkimaan ensin ja sitten hyödyntämään. Ja sitten pohdi aiempia epäonnistumisia tulevissa agenttiajoissa. Uskomattomat tulokset ja uskomaton artikkelin lukukokemus kokonaisuudessaan. Kirjoittajat: @YulunJiang @LiangzeJ @DamienTeney @Michael_D_Moor @mariabrbic