Die Wette liegt auf dem Aufbau eines kontinuierlichen Lernsystems. Was bedeutet das? Cursors Update ist ein funktionierendes Beispiel. Neue Daten kommen herein, das System weiß, wie es die wertvollsten Proben filtern kann. Es nutzt dann RL/andere Algorithmen, um einen Checkpoint bereitzustellen, der mit den genannten Daten trainiert wurde.
Pratyush Ranjan Tiwari
Pratyush Ranjan Tiwari23. Aug. 2025
Wir stellen ein besseres Rezept zur Sammlung von Post-Training-Daten bei der Verwendung von GRPO vor. Die Sammlung von Proben von Experten ist teuer, die Budgets für Annotationen sind begrenzt. Welche Beispiele sind es tatsächlich wert, dafür zu bezahlen? Wir stellen fest, dass die Fokussierung auf schwierige Proben zu einer Verbesserung von 30-40 % führt. 1/7
Jede Komponente muss zunächst sorgfältig untersucht werden, um einen Meta-Algorithmus zu erstellen, der ein solches System betreiben kann. Während eines Trainingslaufs kann er bewerten, ob er den Lauf basierend auf frühen Anzeichen fortsetzen oder stoppen soll. Dazu werden Erkenntnisse aus Hunderten von Läufen in ein solches System integriert.
Diese Arbeitslinie startet diesen Prozess für Problemlösungen mit überprüfbaren Belohnungen. Da dies die "stabilste" Einstellung ist, um eine einfache Pipeline für das Lernen aufzubauen. Die nächsten Grenzen wären LLM-als-Richter und langfristige, verzögerte Belohnungseinstellungen.
940