🚀 Các LLM có thể học trực tiếp từ phản hồi bằng lời nói — không cần phần thưởng số! 😥 Phần thưởng số nén phản hồi phong phú — "thừa nhưng đúng" so với "ngắn gọn nhưng đầy lỗi chính tả" có thể đều là 0.8 💡 Chúng tôi đề xuất học Chính sách Điều kiện Phản hồi (FCP), một mô hình cực kỳ có thể mở rộng!