🚀LLMは口頭でのフィードバックから直接学習でき、スカラー報酬は必要ありません。 😥スカラー報酬は豊富なフィードバックを圧縮します — 「冗長だが正しい」と「簡潔だがタイプミスだらけ」はどちらも 0.8 になる可能性があります 💡非常にスケーラブルなパラダイムであるフィードバック条件付きポリシー(FCP)を学ぶことを提案します。