Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Отличная работа от NVIDIA.
Обучение универсальных моделей рассуждений с помощью RL сложно.
Разные области имеют совершенно разные длины ответов и времена проверки. Математика использует быструю символическую проверку. Код требует медленной проверки на основе выполнения. Выравнивание нуждается в оценках модели вознаграждения.
Смешивание всех этих гетерогенных подсказок усложняет инфраструктуру, замедляет обучение и затрудняет настройку гиперпараметров.
Это новое исследование вводит Cascade RL, структуру, которая обучает модели последовательно по областям, а не смешивает все вместе. Сначала RLHF для выравнивания, затем RL для следования инструкциям, затем математический RL, затем кодовый RL, затем RL для программной инженерии.
Этот последовательный подход устойчив к катастрофическому забыванию. В RL модель генерирует свой собственный опыт, поэтому старые поведения сохраняются, если они остаются актуальными для вознаграждения. В отличие от контролируемого обучения, где предыдущие данные исчезают, RL оптимизирует накопительное вознаграждение, а не подгоняет точные цели.
RLHF, как предварительный шаг, на самом деле значительно повышает способность к рассуждению, выходя за рамки простой оптимизации предпочтений, уменьшая многословие и повторения. Последующие этапы специфического для области RL редко ухудшают ранние результаты и могут даже улучшить их.
Вот результаты:
Их модель 14B превосходит своего собственного учителя SFT, DeepSeek-R1-0528 (671B), на LiveCodeBench v5/v6/Pro. Nemotron-Cascade-8B достигает 71.1% на LiveCodeBench v6, что сопоставимо с DeepSeek-R1-0528 на уровне 73.3%, несмотря на то, что она в 84 раза меньше. Модель 14B достигла серебряной медали на IOI 2025.
Они также демонстрируют, что унифицированные модели рассуждений могут эффективно работать как в режиме мышления, так и в нем, сокращая разрыв с специализированными моделями мышления, сохраняя при этом все в одной модели.
Статья:
Научитесь создавать эффективные AI-агенты в нашей академии:

Топ
Рейтинг
Избранное
