🚀يمكن لطلاب LLM التعلم مباشرة من التعليقات اللفظية - لا حاجة إلى مكافآت عددية! 😥تضغط المكافآت العددية على ردود الفعل الغنية - "زائدة عن الحاجة ولكنها صحيحة" مقابل "موجزة ولكن مليئة بالأخطاء المطبعية" قد يكون كلاهما 0.8 💡نقترح تعلم سياسة الملاحظات الشرطية (FCP) ، وهو نموذج قابل للتطوير للغاية!