Små modeller kan också vara bra på att resonera. Här är problemet och den föreslagna lösningen: Små modeller blir ofta värre när du soft dem på lärarens CoT-spår. Den här uppsatsen kopplar felet till fördelningsfel och introducerar omvänd spekulativ avkodning (RSD): under spårgenerering föreslår läraren tokens, men eleven accepterar bara tokens som är tillräckligt sannolika enligt dess egen fördelning. Resultatet är studentvänliga spår som bevarar korrektheten samtidigt som de håller steg-för-steg-överraskningar hanterbara. RSD använder avvisningssampling för att välja korrekta, justerade spårningar och parar ihop dem med UPFT-prefix för olösta objekt: träna fullständiga spårningar där RSD hittar en korrekt lösning och träna de första 128 token där den inte gör det. När den tillämpas på Qwen3-0.6B försämrar direkt destillation av s1K-1.1 resonemangsspårdata den genomsnittliga prestandan med 20,5 %, medan samma modell tränad på RSD-genererade resonemangsspår uppnår meningsfulla förbättringar på 4,9 %. Papper: