Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Як ефективніше тренувати маленькі моделі міркувань? Це проблема, з якою стикаються багато розробників штучного інтелекту. Тонке налаштування RL, в цілому, має тенденцію до плато, особливо це стосується моделей 1-2В. Я вважаю, що DeepSearch пропонує дійсно чистий підхід. Він бере ідею пошуку дерева Монте-Карло (MCTS) на виведенні та переміщує її в цикл навчання. Цей зсув відкриває доступ до кращого дослідження та ефективнішого навчання. Ось мої нотатки з газети: Цикл включає в себе чотири ключові ідеї: Пошук під час тренування: Замість того, щоб виконувати пошук лише під час тестування, MCTS виконується під час тренування RL. Місцевий селектор UCT ранжує братів і сестер, тоді як глобальний бомбардир вибирає перспективні листя по всьому дереву на основі батьківського значення, ентропії та глибини. Навчання як на перемогах, так і на впевнених помилках: якщо правильне рішення не знайдено, модель все одно навчається, контролюючи впевнений неправильний шлях (помилки з найнижчим рівнем ентропії). Правильні шляхи залишаються невід'ємними під час оновлень, що допомагає з поетапним призначенням кредитів. Стабілізація RL за допомогою Tree-GRPO: вони уточнюють цілі в стилі PPO за допомогою q-значень на рівні вузлів, нормалізації лише середнього значення та стратегії м'якого відсікання. Це дозволяє уникнути нагородних вибухів, зберігаючи при цьому інформативність градієнтів. Залишаючись ефективним: щоб скоротити марні обчислення, DeepSearch фільтрує складну підмножину проблем, кешує рішення після їх перевірки та пропускає повний пошук, коли відповідь уже відома. Всі ці поліпшення призводять до високих результатів. DeepSearch-1.5B досягає 62,95% за тестами AIME/AMC, перевершуючи найвищий базовий рівень Nemotron, використовуючи лише ~330 годин графічного процесора. Для порівняння, звичайні тренувальні плато RL знижуються навіть при 1,800+ годин GPU. Папір: Я думаю, що ця стаття пропонує практичний рецепт подолання плато в невеликих міркуваннях ЛМ: • Переводьте пошук у навчання, а не лише в умовивід • Контролюйте як правильні, так і неправильні шляхи • Використовуйте глобальну пріоритезацію, щоб досліджувати розумніше • Кеш і фільтр для підтримки високої ефективності

Найкращі

Рейтинг

Вибране