Un artículo impresionante de NVIDIA. Entrenar modelos de razonamiento de propósito general con RL es complicado. Diferentes dominios tienen longitudes de respuesta y tiempos de verificación muy diferentes. Las matemáticas utilizan verificación simbólica rápida. El código requiere verificación basada en ejecución lenta. La alineación necesita puntuaciones de modelos de recompensa. Mezclar todos estos prompts heterogéneos hace que la infraestructura sea compleja, ralentiza el entrenamiento y dificulta la sintonización de hiperparámetros. Esta nueva investigación introduce Cascade RL, un marco que entrena modelos secuencialmente a través de dominios en lugar de mezclar todo junto. Primero RLHF para alineación, luego RL de seguimiento de instrucciones, luego RL de matemáticas, luego RL de código, luego RL de ingeniería de software. Este enfoque secuencial es resistente al olvido catastrófico. En RL, el modelo genera su propia experiencia, por lo que los comportamientos antiguos permanecen si siguen siendo relevantes para la recompensa. A diferencia del aprendizaje supervisado, donde los datos anteriores desaparecen, RL optimiza la recompensa acumulativa en lugar de ajustarse a objetivos exactos. RLHF, como un paso previo, en realidad mejora la capacidad de razonamiento mucho más allá de la mera optimización de preferencias al reducir la verbosidad y la repetición. Las etapas de RL específicas de dominio posteriores rara vez degradan el rendimiento anterior y pueden incluso mejorarlo. Aquí están los resultados: Su modelo de 14B supera a su propio profesor SFT, DeepSeek-R1-0528 (671B), en LiveCodeBench v5/v6/Pro. Nemotron-Cascade-8B logra un 71.1% en LiveCodeBench v6, comparable a DeepSeek-R1-0528 con un 73.3% a pesar de ser 84 veces más pequeño. El modelo de 14B logró un rendimiento de medalla de plata en IOI 2025. También demuestran que los modelos de razonamiento unificados pueden operar de manera efectiva tanto en modos de pensamiento como en modos no pensantes, cerrando la brecha con modelos de pensamiento dedicados mientras mantienen todo en un solo modelo. Artículo: Aprende a construir agentes de IA efectivos en nuestra academia: