DeepSeek R1 zou wel eens de eerste keer kunnen zijn dat het exacte artefact drie verschillende technische rapporten heeft gekregen – origineel, *Nature* artikel en een volledige herziening. Veel technieken worden hier uitgelegd, infra, prompts… Maar de grootste winnaar? @TheZvi! Ze *zijn* zich er inderdaad van bewust dat veiligheid een ding is.
机器之心 JIQIZHIXIN
机器之心 JIQIZHIXIN7 jan, 15:39
Het paper van DeepSeek-R1 is 2 dagen geleden bijgewerkt, uitgebreid van 22 pagina's naar 86 pagina's en met een aanzienlijke hoeveelheid detail toegevoegd. De nieuwe inhoud behandelt onderwerpen zoals de zelf-evolutie van DeepSeek-R1-Zero, evaluatie van DeepSeek-R1, verdere analyse en distillatie van DeepSeek-R1. DeepSeek-R1: Het stimuleren van redeneercapaciteit in LLM's via versterkend leren Paper:
Op 31 januari heeft @EpochAIResearch een schatting gemaakt van de kosten van RL die in R1 zijn gegaan. Sinds het Nature-artikel wisten we dat dit 3x het totale budget was. Hoe precies verkeerd? - Aangenomen Batch = 1024 & Groepsgrootte = 64, zoals in DeepSeekMath. Echt: B=512, G=16. - slechts 1700 stappen voor R1.
@EpochAIResearch natuurlijk @EgeErdil2 is goed gekalibreerd en epistemisch voorzichtig, dus hij wist precies wat er waarschijnlijk zou gebeuren
@EpochAIResearch @EgeErdil2 Ik denk dat wat Ege verkeerd deed, was onderschatten dat ze heel duidelijk waren dat het niet succesvol was op kleine modellen (ze delen nu meer details; r1-lite-preview was waarschijnlijk Qwen2.5-32B). Ergo V3 was veel efficiënter in het gebruik van voorbeelden. Een meta-niveau prior is interessanter. Waren ze achterop?
871