Los modelos pequeños también pueden ser buenos razonadores. Aquí está el problema y la solución propuesta: Los modelos pequeños a menudo empeoran cuando los entrenas con trazas de CoT del profesor. Este artículo atribuye el fallo a la desalineación distributiva e introduce la Decodificación Especulativa Inversa (RSD): durante la generación de trazas, el profesor propone tokens, pero el estudiante solo acepta tokens que son suficientemente probables bajo su propia distribución. El resultado son trazas amigables para el estudiante que preservan la corrección mientras mantienen la sorpresa paso a paso manejable. RSD utiliza muestreo por rechazo para seleccionar trazas correctas y alineadas y las empareja con prefijos de UPFT para elementos no resueltos: entrena trazas completas donde RSD encuentra una solución correcta y entrena los primeros 128 tokens donde no lo hace. Cuando se aplica a Qwen3-0.6B, la destilación directa de datos de trazas de razonamiento s1K-1.1 degrada el rendimiento promedio en un 20.5%, mientras que el mismo modelo entrenado con trazas de razonamiento generadas por RSD logra mejoras significativas del 4.9%. Artículo: