Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Lanzamiento de mi repositorio GRPO v2: nano-grpo-reasoning-gym
Dos grandes cambios (1) Este implementa completamente la pila de entrenamiento GRPO desde solo PyTorch / código Python muy simple, pero ahora se extiende para usar vLLM, el kernel de Liger y otras optimizaciones que hacen que sea mucho más rápido entrenar modelos 
(2) Está construido sobre el repositorio de Reasoning Gym, y está construido únicamente en mente para entrenar y evaluar en estos entornos de razonamiento
Realmente me gusta escribir cosas desde cero para tener una buena intuición de cómo funcionan las cosas, y también muchos de mis intereses de investigación implican hacer cosas raras / pequeñas en el proceso de entrenamiento, y me resulta mucho más fácil hacerlo en código más simple
mi repositorio anterior se creó con la misma intención, pero para mantenerlo simple en última instancia, no tenía ninguna optimización, por lo que, si bien era extremadamente fácil cambiar las cosas, era muy lento y poco práctico para carreras de entrenamiento más serias
como mucha gente, me he interesado más en cómo los modelos pueden aprender en múltiples entornos: el gimnasio de razonamiento proporciona un buen conjunto estandarizado de tareas para experimentar con esto. El repositorio facilita la combinación de diferentes tareas de razonamiento, entrenar en algunas, evaluar otras
Para mí, se trata de tener una caja de arena rápida pero simple para probar ideas. Para otros, puede ser útil comprender cómo funcionan GRPO / VLLM / LIGER en la práctica, o como punto de partida para sus propios experimentos
Aquí hay una primera carrera: entrenamiento en leg_counting + family_relationships, evaluación en esos + coin_flip
Todas las evaluaciones se realizan con pass@1 probabilísticos para 5 finalizaciones por problema, todavía ruidosas por supuesto.
El recuento de piernas obtiene +20% de rendimiento, la relación familiar + 35%, el lanzamiento de moneda (+8%? ¿Quizás solo ruido?)
Enlace de Github a continuación




Populares
Ranking
Favoritas

