🚀LLMs 可以直接从口头反馈中学习——不需要标量奖励! 😥标量奖励压缩了丰富的反馈——“冗余但正确”与“简洁但错字连篇”可能都是 0.8 💡我们提议学习反馈条件策略(FCP),这是一种极具可扩展性的范式!