Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Deci alegi moartea

Să răspundă la nivelul obiectului @TheZvi
Din punct de vedere tehnic, DSA ar putea fi un salt major care face ca contextele la scară Gemini să fie trivial ieftine, chiar și pentru modelele din generațiile anterioare. Limitări:
- nu suntem siguri *dacă* scalează la 1M+ (dar V3.2 exp≥V3.1 deși preantrenamentul este identic, și V3.2>> exp, deci foarte probabil da)
- Nu suntem siguri cum poate fi antrenat fără să fie bootstrap din atenția densă. Poate DeepSeek știe. Cred că V4 nu va folosi DSA, se numește explicit prototip. În cel mai rău caz, este de asemenea înțelept să te preantrenezi cu atenție maximă => extinde => sparsify, plătești mai mult preantrenamentul pentru o inferență permanent mai ieftină.
- KDA de la Kimi sau GDN+ de la Qwen sau ceva de genul acesta ar putea fi chiar mai bun decât DSA+/NSA+
Modulo aceste avertismente, nu este o reducere de preț de două ori, sunt sarcastic. Mai degrabă de 10 ori. Atenția rară care nu se degradează este o problemă destul de importantă.
În ceea ce privește viteza, este un punct gol din perspectiva modelului. DeepSeek nu este interesată să ofere cel mai bun produs. Se servesc cu loturi masive de la H800/Ascends. Poți să-l pui pe hardware american și să obții 60-150 t/s, sau pe Cerebra și să obții 1000 t/s ca GLM, fără să ridici costul. Această arhitectură este inerent rapidă (atenție superficială, ieftină), doar că DeepSeek o servește încet.
Despre frontier intelligence, spun că aceste avantaje de «usemaxing» ale frontierei – în principal codarea agentică, dar poți acoperi mai multe domenii în același mod – sunt un produs al cheltuielilor de calcul pe pașii RL și al iterării prin medii sintetice. Au rețeta. Ei raportează ≈10% din costul de pre-pregătire cheltuit pentru Speciale. Asta înseamnă ≈600.000$. Se spune că Grok 4 a folosit 100% din Grok 3, adică zeci de sute de milioane. Este clar că a fost foarte ineficient cu Grok, dar cred că DeepSeek ar putea ajunge ușor la 100%, rețeta este cunoscută. Probabil nu vor să o irosească pe o bază învechită, deoarece observă că rămâne blocată de cunoștințe.
Mi se pare amuzantă atitudinea relaxată față de performanța matematică de nivel meu (sau rezolvarea problemelor Erdos la nivelul în care solutorul uman spune «da, asta e practic soluția mea»). Nu ar fi trebuit să ne așteptăm cu toții la AGI din cercetarea matematică independentă? Sau este doar programare acum? Probabil, aceasta este cea mai interesantă capacitate pentru estimarea vitezei la decolare. Dar, oricum, eu cred în decolarea lentă, auto-îmbunătățirea va întâmpina probleme logistice oriunde am începe.
Contribuția principală aici, așa cum am spus, este că ei anunță convingerea că, fundamental, au rezolvat instruirea LLM-urilor frontier de la sfârșitul lui 2025 ca program de cercetare și ar putea ajunge la nivelul actual occidental sau dincolo de el doar prin investirea mai multor calcule (plus ajustări minore legate de eficiența tokenului). Teoretic, anunțul lor de a trece la instruire la scară largă poate fi interpretat ca «și asta facem acum». Dar asta rămâne de văzut.
@TheZvi > în ciuda antrenamentului prealabil identic
și post-antrenament, corectare
4,18K
Limită superioară
Clasament
Favorite

