Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
lanzando mi repositorio grpo v2: nano-grpo-reasoning-gym
dos grandes cambios (1) este implementa completamente la pila de entrenamiento grpo solo con pytorch/código python muy simple - pero ahora se ha ampliado para usar vLLM, el núcleo liger y otras optimizaciones que hacen que sea mucho más rápido entrenar modelos 
(2) está construido sobre el repositorio reasoning gym - y está diseñado únicamente para entrenar y evaluar en estos entornos de razonamiento
realmente me gusta escribir cosas desde cero para tener una buena intuición de cómo funcionan las cosas, y también muchos de mis intereses de investigación implican hacer cosas raras/pequeñas en el proceso de entrenamiento, y me resulta mucho más fácil hacerlo en código más simple
mi repositorio anterior fue construido con la misma intención - pero para mantenerlo en última instancia simple, realmente no tenía ninguna optimización - así que aunque era extremadamente fácil cambiar las cosas, era muy lento e impráctico para entrenamientos más serios
como muchas personas, me he vuelto más interesado en cómo los modelos pueden aprender en múltiples entornos - reasoning gym proporciona un buen conjunto estandarizado de tareas para experimentar con esto. el repositorio facilita mezclar diferentes tareas de razonamiento, entrenar en algunas, evaluar en otras
para mí, esto se trata de tener un sandbox rápido pero simple para probar ideas. para otros, podría ser útil entender cómo funcionan grpo/vllm/liger en la práctica, o como un punto de partida para sus propios experimentos
aquí hay una primera ejecución - entrenando en conteo de piernas + relaciones familiares, evaluando en esos + lanzamiento de moneda
Todas las evaluaciones se realizan con probabilidades pass@1 para 5 completaciones por problema, sigue siendo ruidoso, por supuesto.
El conteo de piernas obtiene un +20% de rendimiento, la relación familiar + 35%, lanzamiento de moneda (+8%? ¿Quizás solo ruido?)
Enlace de Github a continuación




Parte superior
Clasificación
Favoritos

