Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Випуск мого репозиторію GRPO v2: nano-grpo-reasoning-gym дві великі зміни (1) ця повністю реалізує навчальний стек grpo з простого коду pytorch/very simple python - але тепер розширено на використання vLLM, ядра liger та інших оптимізацій, які значно прискорюють навчання моделей (2) Він побудований на основі репозиторію Reasoning Gym - і створений виключно для тренування та оцінки в цих середовищах міркувань Мені дуже подобається писати речі з нуля, щоб отримати хорошу інтуїцію щодо того, як все працює, а також багато моїх наукових інтересів пов'язані з виконанням дивних/дрібних речей у процесі навчання, і я вважаю, що це набагато простіше робити на простішому коді мій попередній репозиторій був створений з тим же наміром - але, щоб зробити його максимально простим, у мене не було жодних оптимізацій - тому, хоча було надзвичайно легко змінити речі, він був дуже повільним і непрактичним для більш серйозних тренувальних запусків Як і багато людей, я став більше цікавитися тим, як моделі можуть вчитися в різних середовищах - Reasoning Gym надає гарний стандартизований набір завдань для експериментів з цим. Репозиторій дозволяє легко змішувати різні завдання на міркування, тренуватися на одних, eval на інших Для мене це про швидку, але просту пісочницю для перевірки ідей. Для інших може бути корисно зрозуміти, як GRPO/VLLM/Liger працюють на практиці, або як відправна точка для власних експериментів Ось перший забіг - тренування на leg_counting + family_relationships, eval на тих + coin_flip Всі евали виконуються з імовірнісним pass@1 по 5 завершень за кожну задачу, все одно шумно, звичайно. Кількість ніг отримує +20% продуктивності, сімейні стосунки + 35%, підкидання монети (+8%? Може просто шум?) Посилання на Github нижче

Найкращі

Рейтинг

Вибране