Đây có thể là bài báo yêu thích của tôi trong năm nay🤯 Rich Sutton tuyên bố rằng các phương pháp RL hiện tại sẽ không đưa chúng ta đến việc học liên tục vì chúng không tích lũy kiến thức trước đó, mỗi lần triển khai đều bắt đầu từ đầu. Các nhà nghiên cứu ở Thụy Sĩ giới thiệu Meta-RL có thể giải mã điều đó. Tối ưu hóa qua các tập phim với một mục tiêu học meta, điều này sau đó khuyến khích các tác nhân khám phá trước và sau đó khai thác. Và sau đó phản ánh về những thất bại trước đó cho các lần chạy tác nhân trong tương lai. Kết quả đáng kinh ngạc và bài đọc tuyệt vời của một bài báo tổng thể. Tác giả: @YulunJiang @LiangzeJ @DamienTeney @Michael_D_Moor @mariabrbic