🚀LLMs 可以直接從口頭反饋中學習——不需要標量獎勵! 😥標量獎勵壓縮了豐富的反饋——「冗餘但正確」與「簡潔但錯字連篇」可能都是 0.8 💡我們提出學習反饋條件策略(FCP),這是一個極具可擴展性的範式!