DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

lanzando mi repositorio grpo v2: nano-grpo-reasoning-gym dos grandes cambios (1) este implementa completamente la pila de entrenamiento grpo solo con pytorch/código python muy simple - pero ahora se ha ampliado para usar vLLM, el núcleo liger y otras optimizaciones que hacen que sea mucho más rápido entrenar modelos (2) está construido sobre el repositorio reasoning gym - y está diseñado únicamente para entrenar y evaluar en estos entornos de razonamiento realmente me gusta escribir cosas desde cero para tener una buena intuición de cómo funcionan las cosas, y también muchos de mis intereses de investigación implican hacer cosas raras/pequeñas en el proceso de entrenamiento, y me resulta mucho más fácil hacerlo en código más simple mi repositorio anterior fue construido con la misma intención - pero para mantenerlo en última instancia simple, realmente no tenía ninguna optimización - así que aunque era extremadamente fácil cambiar las cosas, era muy lento e impráctico para entrenamientos más serios como muchas personas, me he vuelto más interesado en cómo los modelos pueden aprender en múltiples entornos - reasoning gym proporciona un buen conjunto estandarizado de tareas para experimentar con esto. el repositorio facilita mezclar diferentes tareas de razonamiento, entrenar en algunas, evaluar en otras para mí, esto se trata de tener un sandbox rápido pero simple para probar ideas. para otros, podría ser útil entender cómo funcionan grpo/vllm/liger en la práctica, o como un punto de partida para sus propios experimentos aquí hay una primera ejecución - entrenando en conteo de piernas + relaciones familiares, evaluando en esos + lanzamiento de moneda Todas las evaluaciones se realizan con probabilidades pass@1 para 5 completaciones por problema, sigue siendo ruidoso, por supuesto. El conteo de piernas obtiene un +20% de rendimiento, la relación familiar + 35%, lanzamiento de moneda (+8%? ¿Quizás solo ruido?) Enlace de Github a continuación

Parte superior

Clasificación

Favoritos