Отличная работа от NVIDIA. Обучение универсальных моделей рассуждений с помощью RL сложно. Разные области имеют совершенно разные длины ответов и времена проверки. Математика использует быструю символическую проверку. Код требует медленной проверки на основе выполнения. Выравнивание нуждается в оценках модели вознаграждения. Смешивание всех этих гетерогенных подсказок усложняет инфраструктуру, замедляет обучение и затрудняет настройку гиперпараметров. Это новое исследование вводит Cascade RL, структуру, которая обучает модели последовательно по областям, а не смешивает все вместе. Сначала RLHF для выравнивания, затем RL для следования инструкциям, затем математический RL, затем кодовый RL, затем RL для программной инженерии. Этот последовательный подход устойчив к катастрофическому забыванию. В RL модель генерирует свой собственный опыт, поэтому старые поведения сохраняются, если они остаются актуальными для вознаграждения. В отличие от контролируемого обучения, где предыдущие данные исчезают, RL оптимизирует накопительное вознаграждение, а не подгоняет точные цели. RLHF, как предварительный шаг, на самом деле значительно повышает способность к рассуждению, выходя за рамки простой оптимизации предпочтений, уменьшая многословие и повторения. Последующие этапы специфического для области RL редко ухудшают ранние результаты и могут даже улучшить их. Вот результаты: Их модель 14B превосходит своего собственного учителя SFT, DeepSeek-R1-0528 (671B), на LiveCodeBench v5/v6/Pro. Nemotron-Cascade-8B достигает 71.1% на LiveCodeBench v6, что сопоставимо с DeepSeek-R1-0528 на уровне 73.3%, несмотря на то, что она в 84 раза меньше. Модель 14B достигла серебряной медали на IOI 2025. Они также демонстрируют, что унифицированные модели рассуждений могут эффективно работать как в режиме мышления, так и в нем, сокращая разрыв с специализированными моделями мышления, сохраняя при этом все в одной модели. Статья: Научитесь создавать эффективные AI-агенты в нашей академии: