Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Små modeller kan også være gode resonnere.
Her er problemet og den foreslåtte løsningen:
Små modeller blir ofte verre når du SFT dem på lærerens CoT-spor.
Denne artikkelen fester feilen på distribusjonsfeiljustering og introduserer omvendt spekulativ dekoding (RSD): under sporgenerering foreslår læreren tokens, men eleven aksepterer bare tokens som er tilstrekkelig sannsynlige under sin egen distribusjon.
Resultatet er studentvennlige spor som bevarer korrektheten samtidig som de holder trinn-til-steg overraskende håndterbare.
RSD bruker avvisningssampling til å velge riktige, justerte sporinger og parer det med UPFT-prefikser for uløste elementer: tren fullstendige sporinger der RSD finner en riktig løsning, og tren de første 128 tokenene der den ikke gjør det.
Når det brukes på Qwen3-0.6B, forringer direkte destillasjon av s1K-1.1 resonneringssporingsdata gjennomsnittlig ytelse med 20.5 %, mens den samme modellen trent på RSD-genererte resonneringsspor oppnår meningsfulle forbedringer på 4.9 %.
Papir:

Topp
Rangering
Favoritter