🚀LLM dapat belajar langsung dari umpan balik verbal — tidak perlu hadiah skalar! 😥Hadiah skalar mengompres umpan balik yang kaya— "berlebihan tetapi benar" vs "ringkas tetapi penuh kesalahan ketik" mungkin keduanya 0,8 💡Kami mengusulkan untuk mempelajari Kebijakan Bersyarat Umpan Balik (FCP), paradigma yang sangat terukur!