Małe modele mogą być również dobrymi rozumującymi. Oto problem i proponowane rozwiązanie: Małe modele często działają gorzej, gdy są trenowane na śladach CoT nauczyciela. Ten artykuł przypisuje porażkę niezgodności rozkładów i wprowadza Odwrócone Spekulacyjne Dekodowanie (RSD): podczas generowania śladów nauczyciel proponuje tokeny, ale uczeń akceptuje tylko te tokeny, które są wystarczająco prawdopodobne w jego własnym rozkładzie. Wynikiem są przyjazne dla ucznia ślady, które zachowują poprawność, jednocześnie utrzymując zaskoczenie na każdym kroku na rozsądnym poziomie. RSD wykorzystuje próbkowanie odrzucające do wyboru poprawnych, zgodnych śladów i łączy je z prefiksami UPFT dla nierozwiązanych elementów: trenuj pełne ślady, gdzie RSD znajduje poprawne rozwiązanie, i trenuj pierwsze 128 tokenów, gdzie go nie znajduje. Gdy zastosowano to do Qwen3-0.6B, bezpośrednia destylacja danych śladów rozumowania s1K-1.1 pogarsza średnią wydajność o 20,5%, podczas gdy ten sam model trenowany na śladach rozumowania generowanych przez RSD osiąga znaczące poprawy o 4,9%. Artykuł: