Så du väljer döden
Att svara på objektnivå @TheZvi Tekniskt sett kan DSA vara ett stort steg som gör Gemini-skala kontexter trivialt billiga, även för tidigare generationers modeller. Varningar: - vi är inte säkra på *om* det skalar till 1M+ (men V3.2 exp≥V3.1 trots identisk förträning, och V3.2>> exp, så mycket sannolikt ja) - Vi är inte säkra på hur den kan tränas utan att bootstrappa från tät uppmärksamhet. Kanske vet DeepSeek det. Jag tror inte att V4 kommer att använda DSA, det kallas uttryckligen en prototyp. I värsta fall är det också klokt att förträna med full uppmärksamhet => förlänga => sparsifiera, du tar mer kostnad i förträning för permanent billigare inferens. - Kimis KDA eller Qwens GDN+ eller något liknande kan vara ännu bättre än DSA+/NSA+ Med dessa förbehåll är detta inte en dubbelt så stor prisminskning, jag är sarkastisk. Snarare 10 gånger. Sparsam uppmärksamhet som inte försämras är en ganska stor grej. När det gäller hastighet är det en tom punkt ur modellperspektivet. DeepSeek är inte intresserade av att leverera den bästa produkten. De serveras med stora satser från H800/Ascends. Du kan sätta den på amerikansk hårdvara och få 60-150 t/s, eller på Cerebras och få GLM-liknande 1000 t/s, utan att det kostar mycket mer. Denna arkitektur är i grunden snabb (ytlig, billig uppmärksamhet), det är bara det att DeepSeek levererar den långsamt. När det gäller frontier intelligence säger jag att dessa «usemaxing»-fördelar med frontier – främst agentisk kodning, men du kan täcka fler domäner på samma sätt – är ett resultat av beräkningskostnader på RL-steg och iteration genom syntetiska miljöer. De har receptet. De rapporterar att ≈10 % av förberedelsekostnaden går åt på Speciale. Det blir ≈ 600 000 dollar. Grok 4 använde enligt uppgift 100 % av Grok 3, eller tiotusentals miljoner. Det har uppenbarligen varit väldigt ineffektivt med Grok, men jag tror att DeepSeek lätt kan gå till 100%, receptet är känt. De vill troligen inte slösa bort det på en föråldrad bas, eftersom de påpekar att det fortfarande är kunskapsflaskhals. Jag tycker den lättsamma inställningen till IMO-klassad matteprestation (eller att zero-shotta Erdos-problem till den grad att den mänskliga lösaren säger «ja, det är i princip min lösning») är rolig. Skulle vi inte alla förvänta oss AGI från oberoende matematikforskning? Eller är det bara kodning nu? Faktum är att det är den mest intressanta förmågan för att uppskatta starthastigheter. Men oansett, jag tror själv på långsam start, självförbättring kommer att stöta på logistiska problem oavsett var vi börjar. Det största bidraget här, som jag sagt, är att de tillkännager tron att de i grunden har löst träningen av gränsöverskridande LLM:er i slutet av 2025 som ett forskningsprogram, och kan nå den nuvarande västerländska nivån eller längre bara genom att lägga in mer beräkning (plus mindre justeringar kring token-effektivitet). I teorin kan deras tillkännagivande om att satsa på större träning i slutändan tolkas som «och det är vad vi gör nu». Men det återstår att se.
@TheZvi > trots identisk förträning och efter utbildning, korrigering
4,16K