Små modeller kan også være gode resonnere. Her er problemet og den foreslåtte løsningen: Små modeller blir ofte verre når du SFT dem på lærerens CoT-spor. Denne artikkelen fester feilen på distribusjonsfeiljustering og introduserer omvendt spekulativ dekoding (RSD): under sporgenerering foreslår læreren tokens, men eleven aksepterer bare tokens som er tilstrekkelig sannsynlige under sin egen distribusjon. Resultatet er studentvennlige spor som bevarer korrektheten samtidig som de holder trinn-til-steg overraskende håndterbare. RSD bruker avvisningssampling til å velge riktige, justerte sporinger og parer det med UPFT-prefikser for uløste elementer: tren fullstendige sporinger der RSD finner en riktig løsning, og tren de første 128 tokenene der den ikke gjør det. Når det brukes på Qwen3-0.6B, forringer direkte destillasjon av s1K-1.1 resonneringssporingsdata gjennomsnittlig ytelse med 20.5 %, mens den samme modellen trent på RSD-genererte resonneringsspor oppnår meningsfulle forbedringer på 4.9 %. Papir: