🚀LLM можуть навчатися безпосередньо на вербальному зворотному зв'язку — скалярні винагороди не потрібні! 😥Скалярні винагороди стискають багатий зворотний зв'язок — «зайвий, але правильний» проти «стислий, але з помилками» може дорівнювати 0,8 💡Ми пропонуємо вивчити Feedback-Conditional Policy (FCP) – надзвичайно масштабовану парадигму!