Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Modelos pequenos também podem ser bons raciocinadores.
Aqui está o problema e a solução proposta:
Modelos pequenos muitas vezes pioram quando você os treina com rastros de CoT do professor.
Este artigo atribui a falha ao desalinhamento distributivo e introduz a Decodificação Especulativa Reversa (RSD): durante a geração de rastros, o professor propõe tokens, mas o aluno aceita apenas tokens que são suficientemente prováveis sob sua própria distribuição.
O resultado são rastros amigáveis ao aluno que preservam a correção enquanto mantêm a surpresa passo a passo gerenciável.
A RSD utiliza amostragem por rejeição para selecionar rastros corretos e alinhados e os emparelha com prefixos UPFT para itens não resolvidos: treina rastros completos onde a RSD encontra uma solução correta e treina os primeiros 128 tokens onde não encontra.
Quando aplicada ao Qwen3-0.6B, a destilação direta de dados de rastros de raciocínio s1K-1.1 degrada o desempenho médio em 20,5%, enquanto o mesmo modelo treinado em rastros de raciocínio gerados pela RSD alcança melhorias significativas de 4,9%.
Artigo:

Top
Classificação
Favoritos