Die Menschen wollen oder brauchen das nicht
Dennoch bemühen sich xAI, Meta und jetzt OpenAI alle, es zu entwickeln.
Das ist wahrscheinlich eine schlechte Sache für die Menschheit. Macht es nicht.
Das ist irgendwie das, was ich verwenden möchte, um Modelle zu trainieren, wenn es so klingt, wie es klingt - Du möchtest sagen: "Nein, rufe eine asynchrone Methode nicht so auf, das wird x y z Probleme verursachen" oder so etwas, und es lernt, aber ich muss mich damit beschäftigen, um zu sehen, ob das wirklich das ist?
🚀LLMs können direkt aus verbalen Rückmeldungen lernen – keine skalaren Belohnungen erforderlich!
😥Skalare Belohnungen komprimieren reichhaltige Rückmeldungen – „redundant, aber korrekt“ vs. „prägnant, aber voller Tippfehler“ könnten beide 0,8 sein.
💡Wir schlagen vor, die Feedback-Conditional Policy (FCP) zu lernen, ein extrem skalierbares Paradigma!