Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

samsja
Ledende forskning ved @PrimeIntellect
Ser ut til at andre mennesker konvergerer til å bruke vllm v1 logprob for viktighetsforholdet for å fikse stabilitetsproblemet.
Jeg tror jeg har ptsd fra denne typen rl-krasj

Zichen Liu2 timer siden
Med bare noen få linjer med kode løste Fengs (@fengyao1909) foreslåtte løsning – å bruke viktighetssampling på atferdspolicyen – treningsustabiliteten i mitt tilfelle (havre). Jeg tror resultatet kan generaliseres til andre RL-rammeverk også. Flott arbeid, Feng!

383
Jeg ansetter forskningsingeniør ved @PrimeIntellect
Vi bygger en åpen kildekode agi labs og leter etter rå talent. Vi bryr oss ikke om din tidligere stillingstittel.
Alle i forskerteamet er fullstack, vi bygger infrastruktur og ser også på data. Hvis du har et sweet spot for system, forsterkende læring, data eller skaleringsjuss, vil du bli servert massevis av utfordringer å løse
83,1K
Tekstbase deklarativt system vil vinne, det er på tide å finne opp datamaskinen på nytt

samsja17. aug., 08:09
Kanskje llm + nixos vil redde linux ved å gjøre brukeren 10 ganger kraftigere ved å ha en datamaskin agi koblet til operativsystemet. Tenk deg bare å spørre "kan du installere markøren og flytte alle vscode-innstillingene mine til den"
I mellomtiden vil macOS-brukere fortsatt bruke musen til å laste ned og konfigurere alt manuelt
En så kortsiktig visjon å ønske å trene en visjonsmodell til å gjøre klikk for meg, trenger å redesigne alt for agi
2,16K
Kanskje llm + nixos vil redde linux ved å gjøre brukeren 10 ganger kraftigere ved å ha en datamaskin agi koblet til operativsystemet. Tenk deg bare å spørre "kan du installere markøren og flytte alle vscode-innstillingene mine til den"
I mellomtiden vil macOS-brukere fortsatt bruke musen til å laste ned og konfigurere alt manuelt
En så kortsiktig visjon å ønske å trene en visjonsmodell til å gjøre klikk for meg, trenger å redesigne alt for agi

samsja17. aug., 07:46
Er ikke Nixos sluttspillet av sandkasse for LLM?
10,58K
RL er så følsom for numeriske tall, sist gang torch kompilering gjorde noen løp krasj nå vllm v1

Mika Senghaas12. aug., 11:23
moving from vllm v0 to v1 made our async rl training crash! read how we fixed it
we recently migrated from v0 to v1 as part of a larger refactor of prime-rl to make it easier-to-use, more performant and naturally async. we confirmed correct training dynamics on many smaller-scale runs, but hit a wall when trying to reproduce a larger scale run that ran without problems prior to the refactor. Specifically, training DeepSeek-R1-Distill-Qwen-1.5B on single-turn math problems from our INTELLECT-2 math dataset at 8k context with two-step off-policy delay would crash fatally roughly 400 steps into the training

6,74K
Topp
Rangering
Favoritter
Trendende onchain
Trendende på X
Nylig toppfinansiering
Mest lagt merke til