Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Випуск мого репозиторію GRPO v2: nano-grpo-reasoning-gym
дві великі зміни (1) ця повністю реалізує навчальний стек grpo з простого коду pytorch/very simple python - але тепер розширено на використання vLLM, ядра liger та інших оптимізацій, які значно прискорюють навчання моделей
(2) Він побудований на основі репозиторію Reasoning Gym - і створений виключно для тренування та оцінки в цих середовищах міркувань
Мені дуже подобається писати речі з нуля, щоб отримати хорошу інтуїцію щодо того, як все працює, а також багато моїх наукових інтересів пов'язані з виконанням дивних/дрібних речей у процесі навчання, і я вважаю, що це набагато простіше робити на простішому коді
мій попередній репозиторій був створений з тим же наміром - але, щоб зробити його максимально простим, у мене не було жодних оптимізацій - тому, хоча було надзвичайно легко змінити речі, він був дуже повільним і непрактичним для більш серйозних тренувальних запусків
Як і багато людей, я став більше цікавитися тим, як моделі можуть вчитися в різних середовищах - Reasoning Gym надає гарний стандартизований набір завдань для експериментів з цим. Репозиторій дозволяє легко змішувати різні завдання на міркування, тренуватися на одних, eval на інших
Для мене це про швидку, але просту пісочницю для перевірки ідей. Для інших може бути корисно зрозуміти, як GRPO/VLLM/Liger працюють на практиці, або як відправна точка для власних експериментів
Ось перший забіг - тренування на leg_counting + family_relationships, eval на тих + coin_flip
Всі евали виконуються з імовірнісним pass@1 по 5 завершень за кожну задачу, все одно шумно, звичайно.
Кількість ніг отримує +20% продуктивності, сімейні стосунки + 35%, підкидання монети (+8%? Може просто шум?)
Посилання на Github нижче




Найкращі
Рейтинг
Вибране

