Гучна стаття від NVIDIA. Навчання універсальних моделей мислення за допомогою RL є складним. Різні домени мають дуже різну довжину відповідей і час перевірки. Математика використовує швидку символічну перевірку. Код потребує повільної перевірки на основі виконання. Узгодження потребує оцінок моделі винагороди. Поєднання всіх цих гетерогенних підказок ускладнює інфраструктуру, уповільнює навчання і ускладнює налаштування гіперпараметрів. Це нове дослідження вводить Cascade RL — фреймворк, який навчає моделі послідовно в різних доменах, а не змішує все разом. Спочатку RLHF для вирівнювання, потім RL з виконанням інструкцій, потім математичний RL, потім код RL, потім програмна інженерія RL. Цей послідовний підхід стійкий до катастрофічного забуття. У RL модель генерує власний досвід, тому старі поведінки залишаються, якщо вони залишаються релевантними для винагороди. На відміну від навчання під наглядом, де попередні дані зникають, RL оптимізує накопичену винагороду, а не підбирає точні цілі. RLHF, як попередній крок, фактично підвищує здатність до мислення далеко за межі простої оптимізації вподобань, зменшуючи багатослівність і повторення. Наступні стадії RL, специфічні для домену, рідко погіршують ранню продуктивність і навіть можуть її покращити. Ось результати: Їхня модель 14B перевершує власного викладача SFT, DeepSeek-R1-0528 (671B), на LiveCodeBench v5/v6/Pro. Nemotron-Cascade-8B досягає 71,1% на LiveCodeBench v6, що порівнянно з DeepSeek-R1-0528 із 73,3%, незважаючи на те, що у 84 рази менша. Модель 14B здобула срібні медалі на IOI 2025. Вони також демонструють, що уніфіковані моделі мислення можуть ефективно працювати як у режимах мислення, так і в немисленні, скорочуючи розрив за допомогою спеціалізованих моделей мислення, зберігаючи все в єдиній моделі. Стаття: Навчіться створювати ефективних AI-агентів у нашій академії: