Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Banger-Papier von NVIDIA.
Das Training von allgemeinen Denkmodellen mit RL ist kompliziert.
Verschiedene Bereiche haben extrem unterschiedliche Antwortlängen und Verifizierungszeiten. Mathematik verwendet schnelle symbolische Verifizierung. Code erfordert langsame ausführungsgestützte Verifizierung. Alignment benötigt Belohnungsmodellwerte.
Das Mischen all dieser heterogenen Eingaben macht die Infrastruktur komplex, verlangsamt das Training und erschwert das Tuning der Hyperparameter.
Diese neue Forschung führt Cascade RL ein, ein Framework, das Modelle sequenziell über verschiedene Bereiche trainiert, anstatt alles zusammen zu mischen. Zuerst RLHF für Alignment, dann anweisungsfolgendes RL, dann Mathematik-RL, dann Code-RL, dann Software-Engineering-RL.
Dieser sequenzielle Ansatz ist resistent gegen katastrophales Vergessen. Im RL generiert das Modell seine eigenen Erfahrungen, sodass alte Verhaltensweisen erhalten bleiben, wenn sie belohnungsrelevant bleiben. Im Gegensatz zum überwachten Lernen, bei dem frühere Daten verschwinden, optimiert RL die kumulative Belohnung, anstatt genaue Ziele zu erreichen.
RLHF, als Vorstufe, steigert tatsächlich die Denkfähigkeit weit über die bloße Optimierung von Vorlieben hinaus, indem es Wortfülle und Wiederholungen reduziert. Nachfolgende bereichsspezifische RL-Phasen verschlechtern selten die frühere Leistung und können sie sogar verbessern.
Hier sind die Ergebnisse:
Ihr 14B-Modell übertrifft seinen eigenen SFT-Lehrer, DeepSeek-R1-0528 (671B), auf LiveCodeBench v5/v6/Pro. Nemotron-Cascade-8B erreicht 71,1 % auf LiveCodeBench v6, vergleichbar mit DeepSeek-R1-0528 bei 73,3 %, obwohl es 84x kleiner ist. Das 14B-Modell erzielte eine Silbermedaille-Leistung bei IOI 2025.
Sie zeigen auch, dass einheitliche Denkmodelle sowohl im Denk- als auch im Nicht-Denk-Modus effektiv arbeiten können, wodurch die Lücke zu spezialisierten Denkmodellen geschlossen wird, während alles in einem einzigen Modell bleibt.
Papier:
Lerne, effektive KI-Agenten in unserer Akademie zu bauen:

Top
Ranking
Favoriten
