Как более эффективно обучать небольшие модели рассуждений? Это проблема, с которой сталкиваются многие разработчики ИИ. Тонкая настройка с использованием RL, как правило, достигает плато, особенно для моделей 1–2B. Я думаю, что DeepSearch предлагает действительно чистый подход. Он берет идею поиска Монте-Карло (MCTS) на этапе вывода и переносит ее в цикл обучения. Этот сдвиг открывает лучшие возможности для исследования и более эффективного обучения. Вот мои заметки из статьи: Цикл включает четыре ключевые идеи: Поиск во время обучения: Вместо того чтобы проводить поиск только на этапе тестирования, MCTS выполняется во время обучения RL. Локальный селектор UCT ранжирует братьев и сестер, в то время как глобальный оценщик границы выбирает многообещающие листья по всему дереву на основе значения родителя, энтропии и глубины. Обучение как на победах, так и на уверенных ошибках: Если правильное решение не найдено, модель все равно учится, контролируя уверенный неверный путь (ошибки с наименьшей энтропией). Правильные пути остаются неотрицательными во время обновлений, что помогает с распределением кредитов на уровне шагов. Стабилизация RL с помощью Tree-GRPO: Они уточняют цели в стиле PPO с помощью значений q на уровне узлов, нормализации только по среднему и стратегии мягкого обрезания. Это предотвращает взрывы вознаграждений, сохраняя информативность градиентов. Сохранение эффективности: Чтобы сократить ненужные вычисления, DeepSearch фильтрует до жесткого подмножества задач, кэширует решения после их проверки и пропускает полный поиск, когда ответ уже известен. Все эти улучшения приводят к сильным результатам. DeepSearch-1.5B достигает 62.95% на бенчмарках AIME/AMC, обгоняя топовую базу Nemotron, используя всего ~330 GPU-часов. Для сравнения, обычное обучение RL достигает более низкого плато даже с 1,800+ GPU-часами. Статья: Я думаю, что эта статья предлагает практический рецепт для преодоления плато в небольших моделях рассуждений: • Перенести поиск в обучение, а не только в вывод • Контролировать как правильные, так и неверные пути • Использовать глобальную приоритизацию для более умного исследования • Кэшировать и фильтровать, чтобы поддерживать высокую эффективность