Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Så du velger døden

Å svare på objektnivå @TheZvi
Teknisk sett kan DSA være et stort sprang som gjør Gemini-skala kontekster trivielt billige, selv for tidligere generasjoners modeller. Advarsler:
- vi er ikke sikre på *om* det skalerer til 1M+ (men V3.2 exp≥V3.1 til tross for identisk fortrening, og V3.2>> exp, så det er svært sannsynlig ja)
- Vi er ikke sikre på hvordan den kan trenes uten å bli bootstrappet av tett oppmerksomhet. Kanskje DeepSeek vet det. Jeg tror ikke V4 vil bruke DSA, det kalles eksplisitt en prototype. I verste fall er det også fornuftig å forhåndstrene med full oppmerksomhet => utvide => sparsifisere, du koster mer i fortrening for permanent billigere slutning.
- Kimis KDA eller Qwens GDN+ eller noe lignende kan være enda bedre enn DSA+/NSA+
Bortsett fra disse forbeholdene, dette er ikke en dobbelt prisreduksjon, jeg er sarkastisk. Mer som 10 ganger. Tynn oppmerksomhet som ikke forringes er en ganske stor sak.
Når det gjelder hastighet, er det et tomt poeng fra modellperspektivet. DeepSeek er ikke interessert i å levere det beste produktet. De serverer med store batcher fra H800s/Ascends. Du kan sette det på amerikansk maskinvare og få 60-150 t/s, eller på Cerebras og få GLM-lignende 1000 t/s, uten å sprenge kostnaden. Denne arkitekturen er iboende rask (grunn, billig oppmerksomhet), det er bare det at DeepSeek betjener den sakte.
Når det gjelder frontier intelligence, sier jeg at disse «usemaxing»-fordelene med frontier – hovedsakelig agentisk koding, men du kan dekke flere domener på samme måte – er et resultat av beregningsbruk på RL-steg og iterasjon gjennom syntetiske miljøer. De har oppskriften. De rapporterer at ≈10 % av forberedelseskostnadene går til Speciale. Det blir ≈ 600 000 dollar. Grok 4 brukte angivelig 100 % av Grok 3, eller tihundrevis av millioner. Det har tydeligvis vært veldig ineffektivt med Grok, men jeg tror DeepSeek lett kan gå til 100 %, oppskriften er kjent. De ønsker sannsynligvis ikke å kaste det bort på en utdatert base, da de påpeker at det fortsatt er kunnskapsflaskehals.
Jeg synes den lettsindige holdningen til IMO-nivå matteprestasjoner (eller å nullskyte Erdos-oppgaver til det nivået at den menneskelige løseren sier «ja, det er egentlig min løsning») er morsom. Skulle vi ikke alle forvente AGI fra uavhengig matematikkforskning? Eller er det bare koding nå? Sannsynligvis er det den mest interessante funksjonen for å estimere starthastigheter. Men uansett, jeg tror selv på sakte oppstart, selvforbedring vil støte på logistiske problemer uansett hvor vi starter.
Hovedbidraget her, som jeg har sagt, er at de kunngjør troen på at de i bunn og grunn har løst opplæringen av LLM-er fra slutten av 2025 som et forskningsprogram, og kan nå dagens vestlige nivå eller videre bare ved å tilføre mer datakraft (pluss små justeringer rundt token-effektivitet). I teorien kan deres kunngjøring om å satse på større opplæring til slutt tolkes som «og det er det vi gjør nå». Men det gjenstår å se.
@TheZvi > til tross for identisk fortrening
og korrigering etter trening
4,18K
Topp
Rangering
Favoritter

