DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

DeepSeek R1 zou wel eens de eerste keer kunnen zijn dat het exacte artefact drie verschillende technische rapporten heeft gekregen – origineel, *Nature* artikel en een volledige herziening. Veel technieken worden hier uitgelegd, infra, prompts… Maar de grootste winnaar? @TheZvi! Ze *zijn* zich er inderdaad van bewust dat veiligheid een ding is.

Op 31 januari heeft @EpochAIResearch een schatting gemaakt van de kosten van RL die in R1 zijn gegaan. Sinds het Nature-artikel wisten we dat dit 3x het totale budget was. Hoe precies verkeerd? - Aangenomen Batch = 1024 & Groepsgrootte = 64, zoals in DeepSeekMath. Echt: B=512, G=16. - slechts 1700 stappen voor R1.

@EpochAIResearch natuurlijk @EgeErdil2 is goed gekalibreerd en epistemisch voorzichtig, dus hij wist precies wat er waarschijnlijk zou gebeuren

@EpochAIResearch @EgeErdil2 Ik denk dat wat Ege verkeerd deed, was onderschatten dat ze heel duidelijk waren dat het niet succesvol was op kleine modellen (ze delen nu meer details; r1-lite-preview was waarschijnlijk Qwen2.5-32B). Ergo V3 was veel efficiënter in het gebruik van voorbeelden. Een meta-niveau prior is interessanter. Waren ze achterop?

871

Boven

Positie

Favorieten