Modelele mici pot fi, de asemenea, bune raționamente. Iată problema și soluția propusă: Modelele mici se înrăutățesc adesea atunci când le SFT pe urmele CoT ale profesorilor. Această lucrare pune eșecul pe nealinierea distribuțională și introduce decodarea speculativă inversă (RSD): în timpul generării urmelor, profesorul propune token-uri, dar elevul acceptă doar token-uri care sunt suficient de probabile sub propria sa distribuție. Rezultatul sunt urme prietenoase cu studenții, care păstrează corectitudinea, păstrând în același timp surprinderea pas cu pas gestionabilă. RSD folosește eșantionarea respingerii pentru a selecta urme corecte, aliniate și le asociază cu prefixe UPFT pentru elementele nerezolvate: antrenați urme complete acolo unde RSD găsește o soluție corectă și antrenați primele 128 de tokenuri acolo unde nu. Când este aplicată la Qwen3-0.6B, distilarea directă a datelor de raționament s1K-1.1 degradează performanța medie cu 20,5%, în timp ce același model antrenat pe urme de raționament generate de RSD obține îmbunătățiri semnificative de 4,9%. Hârtie: