Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DeepSeek R1 könnte das erste Mal sein, dass das genaue Artefakt drei verschiedene technische Berichte erhalten hat – den Originalbericht, den *Nature*-Artikel und eine vollständige Überarbeitung. Viele Techniken werden hier erklärt, Infrastruktur, Aufforderungen… Aber der größte Gewinner? @TheZvi! Sie *sind* sich tatsächlich bewusst, dass Sicherheit ein Thema ist.


7. Jan., 15:39
Das Papier von DeepSeek-R1 wurde vor 2 Tagen aktualisiert, von 22 Seiten auf 86 Seiten erweitert und enthält eine erhebliche Menge an Details.
Der neue Inhalt behandelt Themen wie die Selbstentwicklung von DeepSeek-R1-Zero, die Bewertung von DeepSeek-R1, weitere Analysen und die Destillation von DeepSeek-R1.
DeepSeek-R1: Anreize für die Denkfähigkeit in LLMs durch Verstärkungslernen
Papier:


Am 31. Januar hat @EpochAIResearch eine Schätzung der Kosten für RL abgegeben, die in R1 eingeflossen sind. Seit dem Nature-Papier wussten wir, dass dies das Dreifache des Gesamtbudgets war. Falsch wie genau?
- Angenommene Batchgröße = 1024 & Gruppengröße = 64, wie in DeepSeekMath. Tatsächlich: B=512, G=16.
- nur 1700 Schritte für R1.


@EpochAIResearch natürlich @EgeErdil2 ist gut kalibriert und epistemisch vorsichtig, sodass er genau wusste, was wahrscheinlich passieren wird.

@EpochAIResearch @EgeErdil2 Ich denke, was Ege falsch gemacht hat, ist, zu unterschätzen, dass sie sehr klar waren, dass es bei kleinen Modellen nicht erfolgreich war (sie teilen jetzt mehr Details; r1-lite-preview war wahrscheinlich Qwen2.5-32B). Ergo war V3 viel effizienter im Umgang mit Proben.
Ein meta-level Vorwissen ist interessanter. Waren sie im Rückstand?


720
Top
Ranking
Favoriten
