Modelos pequenos também podem ser bons raciocinadores. Aqui está o problema e a solução proposta: Modelos pequenos geralmente pioram quando você os SFT em traços CoT de professores. Este artigo atribui a falha ao desalinhamento distribucional e introduz a Decodificação Especulativa Reversa (RSD): durante a geração de rastreamento, o professor propõe tokens, mas o aluno só aceita tokens que são suficientemente prováveis em sua própria distribuição. O resultado são traços amigáveis ao aluno que preservam a correção, mantendo a surpresa passo a passo gerenciável. O RSD usa amostragem de rejeição para selecionar rastreamentos corretos e alinhados e emparelhá-los com prefixos UPFT para itens não resolvidos: treine rastreamentos completos onde o RSD encontra uma solução correta e treine os primeiros 128 tokens onde não. Quando aplicado a Qwen3-0,6B, a destilação direta de dados de rastreamento de raciocínio s1K-1.1 degrada o desempenho médio em 20,5%, enquanto o mesmo modelo treinado em traços de raciocínio gerados por RSD alcança melhorias significativas de 4,9%. Papel: