Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Små modeller kan också vara bra på att resonera.
Här är problemet och den föreslagna lösningen:
Små modeller blir ofta värre när du soft dem på lärarens CoT-spår.
Den här uppsatsen kopplar felet till fördelningsfel och introducerar omvänd spekulativ avkodning (RSD): under spårgenerering föreslår läraren tokens, men eleven accepterar bara tokens som är tillräckligt sannolika enligt dess egen fördelning.
Resultatet är studentvänliga spår som bevarar korrektheten samtidigt som de håller steg-för-steg-överraskningar hanterbara.
RSD använder avvisningssampling för att välja korrekta, justerade spårningar och parar ihop dem med UPFT-prefix för olösta objekt: träna fullständiga spårningar där RSD hittar en korrekt lösning och träna de första 128 token där den inte gör det.
När den tillämpas på Qwen3-0.6B försämrar direkt destillation av s1K-1.1 resonemangsspårdata den genomsnittliga prestandan med 20,5 %, medan samma modell tränad på RSD-genererade resonemangsspår uppnår meningsfulla förbättringar på 4,9 %.
Papper:

Topp
Rankning
Favoriter