Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DeepSeek R1 zou wel eens de eerste keer kunnen zijn dat het exacte artefact drie verschillende technische rapporten heeft gekregen – origineel, *Nature* artikel en een volledige herziening. Veel technieken worden hier uitgelegd, infra, prompts… Maar de grootste winnaar? @TheZvi! Ze *zijn* zich er inderdaad van bewust dat veiligheid een ding is.


7 jan, 15:39
Het paper van DeepSeek-R1 is 2 dagen geleden bijgewerkt, uitgebreid van 22 pagina's naar 86 pagina's en met een aanzienlijke hoeveelheid detail toegevoegd.
De nieuwe inhoud behandelt onderwerpen zoals de zelf-evolutie van DeepSeek-R1-Zero, evaluatie van DeepSeek-R1, verdere analyse en distillatie van DeepSeek-R1.
DeepSeek-R1: Het stimuleren van redeneercapaciteit in LLM's via versterkend leren
Paper:


Op 31 januari heeft @EpochAIResearch een schatting gemaakt van de kosten van RL die in R1 zijn gegaan. Sinds het Nature-artikel wisten we dat dit 3x het totale budget was. Hoe precies verkeerd?
- Aangenomen Batch = 1024 & Groepsgrootte = 64, zoals in DeepSeekMath. Echt: B=512, G=16.
- slechts 1700 stappen voor R1.


@EpochAIResearch natuurlijk @EgeErdil2 is goed gekalibreerd en epistemisch voorzichtig, dus hij wist precies wat er waarschijnlijk zou gebeuren

@EpochAIResearch @EgeErdil2 Ik denk dat wat Ege verkeerd deed, was onderschatten dat ze heel duidelijk waren dat het niet succesvol was op kleine modellen (ze delen nu meer details; r1-lite-preview was waarschijnlijk Qwen2.5-32B). Ergo V3 was veel efficiënter in het gebruik van voorbeelden.
Een meta-niveau prior is interessanter. Waren ze achterop?


871
Boven
Positie
Favorieten
