RL er så følsom for numeriske tall, sist gang torch kompilering gjorde noen løp krasj nå vllm v1
Mika Senghaas
Mika Senghaas12. aug., 11:23
Å gå fra VLLM V0 til V1 gjorde at vår asynkrone RL-trening krasjet! Les hvordan vi fikset det Vi migrerte nylig fra V0 til V1 som en del av en større refaktorering av Prime-RL for å gjøre den enklere å bruke, mer effektiv og naturlig asynkron. Vi bekreftet riktig treningsdynamikk på mange løp i mindre skala, men møtte en vegg da vi prøvde å reprodusere et løp i større skala som gikk uten problemer før refaktoreringen. Nærmere bestemt vil trening av DeepSeek-R1-Distill-Qwen-1.5B på matematiske problemer med én sving fra vårt INTELLECT-2 matematiske datasett i 8k-kontekst med to-trinns forsinkelse utenfor policyen krasje fatalt omtrent 400 trinn inn i treningen
6,58K