Lanzamiento de mi repositorio GRPO v2: nano-grpo-reasoning-gym Dos grandes cambios (1) Este implementa completamente la pila de entrenamiento GRPO desde solo PyTorch / código Python muy simple, pero ahora se extiende para usar vLLM, el kernel de Liger y otras optimizaciones que hacen que sea mucho más rápido entrenar modelos (2) Está construido sobre el repositorio de Reasoning Gym, y está construido únicamente en mente para entrenar y evaluar en estos entornos de razonamiento Realmente me gusta escribir cosas desde cero para tener una buena intuición de cómo funcionan las cosas, y también muchos de mis intereses de investigación implican hacer cosas raras / pequeñas en el proceso de entrenamiento, y me resulta mucho más fácil hacerlo en código más simple mi repositorio anterior se creó con la misma intención, pero para mantenerlo simple en última instancia, no tenía ninguna optimización, por lo que, si bien era extremadamente fácil cambiar las cosas, era muy lento y poco práctico para carreras de entrenamiento más serias como mucha gente, me he interesado más en cómo los modelos pueden aprender en múltiples entornos: el gimnasio de razonamiento proporciona un buen conjunto estandarizado de tareas para experimentar con esto. El repositorio facilita la combinación de diferentes tareas de razonamiento, entrenar en algunas, evaluar otras Para mí, se trata de tener una caja de arena rápida pero simple para probar ideas. Para otros, puede ser útil comprender cómo funcionan GRPO / VLLM / LIGER en la práctica, o como punto de partida para sus propios experimentos Aquí hay una primera carrera: entrenamiento en leg_counting + family_relationships, evaluación en esos + coin_flip Todas las evaluaciones se realizan con pass@1 probabilísticos para 5 finalizaciones por problema, todavía ruidosas por supuesto. El recuento de piernas obtiene +20% de rendimiento, la relación familiar + 35%, el lanzamiento de moneda (+8%? ¿Quizás solo ruido?) Enlace de Github a continuación