Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Kleine Modelle können auch gute Denker sein.
Hier ist das Problem und die vorgeschlagene Lösung:
Kleine Modelle schneiden oft schlechter ab, wenn man sie mit SFT auf Lehrer-CoT-Spuren trainiert.
Dieses Papier macht das Scheitern an der Verteilungsmisalignment fest und führt das Reverse Speculative Decoding (RSD) ein: Während der Spurenerzeugung schlägt der Lehrer Tokens vor, aber der Schüler akzeptiert nur Tokens, die unter seiner eigenen Verteilung ausreichend wahrscheinlich sind.
Das Ergebnis sind schülerfreundliche Spuren, die die Korrektheit bewahren und gleichzeitig die Überraschung von Schritt zu Schritt handhabbar halten.
RSD verwendet Ablehnungssampling, um korrekte, ausgerichtete Spuren auszuwählen und kombiniert sie mit UPFT-Präfixen für ungelöste Elemente: trainiere vollständige Spuren, wo RSD eine korrekte Lösung findet, und trainiere die ersten 128 Tokens, wo dies nicht der Fall ist.
Bei der Anwendung auf Qwen3-0.6B verschlechtert die direkte Destillation von s1K-1.1-Denkspur-Daten die durchschnittliche Leistung um 20,5 %, während dasselbe Modell, das auf RSD-generierten Denkspuren trainiert wurde, bedeutende Verbesserungen von 4,9 % erzielt.
Papier:

Top
Ranking
Favoriten