Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Kleine modellen kunnen ook goede redeneerders zijn.
Hier is het probleem en de voorgestelde oplossing:
Kleine modellen worden vaak slechter wanneer je ze SFT op leraars CoT-sporen.
Dit artikel wijst de mislukking toe aan distributionele misalignement en introduceert Reverse Speculative Decoding (RSD): tijdens de generatie van sporen stelt de leraar tokens voor, maar de student accepteert alleen tokens die voldoende waarschijnlijk zijn onder zijn eigen distributie.
Het resultaat zijn studentvriendelijke sporen die de correctheid behouden terwijl de stap-voor-stap verrassing beheersbaar blijft.
RSD gebruikt afwijzingssampling om correcte, uitgelijnde sporen te selecteren en koppelt dit aan UPFT-prefixen voor onopgeloste items: train volledige sporen waar RSD een correcte oplossing vindt en train de eerste 128 tokens waar dat niet het geval is.
Wanneer toegepast op Qwen3-0.6B, degradeert directe distillatie van s1K-1.1 redeneertracegegevens de gemiddelde prestatie met 20,5%, terwijl hetzelfde model dat is getraind op RSD-gegeneerde redeneertraces betekenisvolle verbeteringen van 4,9% behaalt.
Paper:

Boven
Positie
Favorieten