Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Les petits modèles peuvent également être de bons raisonneurs.
Voici le problème et la solution proposée :
Les petits modèles se dégradent souvent lorsqu'on les entraîne avec des traces CoT de l'enseignant.
Cet article attribue l'échec à un désalignement distributionnel et introduit le Reverse Speculative Decoding (RSD) : lors de la génération de traces, l'enseignant propose des tokens, mais l'élève n'accepte que les tokens qui sont suffisamment probables selon sa propre distribution.
Le résultat est des traces adaptées aux élèves qui préservent la justesse tout en maintenant la surprise étape par étape à un niveau gérable.
Le RSD utilise l'échantillonnage par rejet pour sélectionner des traces correctes et alignées et les associe à des préfixes UPFT pour les éléments non résolus : entraîner des traces complètes où le RSD trouve une solution correcte et entraîner les 128 premiers tokens où il ne le fait pas.
Lorsqu'il est appliqué à Qwen3-0.6B, la distillation directe des données de traces de raisonnement s1K-1.1 dégrade la performance moyenne de 20,5 %, tandis que le même modèle entraîné sur des traces de raisonnement générées par RSD obtient des améliorations significatives de 4,9 %.
Article :

Meilleurs
Classement
Favoris