Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Los modelos pequeños también pueden ser buenos razonadores.
Aquí está el problema y la solución propuesta:
Los modelos pequeños a menudo empeoran cuando los SFT en los rastros de CoT del maestro.
Este artículo atribuye el fracaso a la desalineación distributiva e introduce la decodificación especulativa inversa (RSD): durante la generación de trazas, el profesor propone tokens, pero el estudiante solo acepta tokens que son suficientemente probables bajo su propia distribución.
El resultado son trazas amigables para los estudiantes que preservan la corrección mientras mantienen manejable la represalia paso a paso.
RSD utiliza el muestreo de rechazo para seleccionar seguimientos correctos y alineados y lo empareja con prefijos UPFT para elementos no resueltos: entrene seguimientos completos donde RSD encuentre una solución correcta y entrene los primeros 128 tokens donde no lo hace.
Cuando se aplica a Qwen3-0.6B, la destilación directa de los datos de seguimiento de razonamiento s1K-1.1 degrada el rendimiento promedio en un 20,5 %, mientras que el mismo modelo entrenado en seguimientos de razonamiento generados por RSD logra mejoras significativas del 4,9 %.
Papel:

Populares
Ranking
Favoritas