Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Modelos pequenos também podem ser bons raciocinadores.
Aqui está o problema e a solução proposta:
Modelos pequenos geralmente pioram quando você os SFT em traços CoT de professores.
Este artigo atribui a falha ao desalinhamento distribucional e introduz a Decodificação Especulativa Reversa (RSD): durante a geração de rastreamento, o professor propõe tokens, mas o aluno só aceita tokens que são suficientemente prováveis em sua própria distribuição.
O resultado são traços amigáveis ao aluno que preservam a correção, mantendo a surpresa passo a passo gerenciável.
O RSD usa amostragem de rejeição para selecionar rastreamentos corretos e alinhados e emparelhá-los com prefixos UPFT para itens não resolvidos: treine rastreamentos completos onde o RSD encontra uma solução correta e treine os primeiros 128 tokens onde não.
Quando aplicado a Qwen3-0,6B, a destilação direta de dados de rastreamento de raciocínio s1K-1.1 degrada o desempenho médio em 20,5%, enquanto o mesmo modelo treinado em traços de raciocínio gerados por RSD alcança melhorias significativas de 4,9%.
Papel:

Melhores
Classificação
Favoritos