Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
więc wybierasz śmierć

Aby odpowiedzieć na poziomie obiektu @TheZvi
Technicznie, DSA może być dużym skokiem, który sprawia, że konteksty na poziomie Gemini są trywialnie tanie, nawet dla modeli z poprzednich generacji. Zastrzeżenia:
- nie jesteśmy pewni *czy* skaluje się do 1M+ (ale V3.2 exp≥V3.1 pomimo identycznego wstępnego treningu, a V3.2>> exp, więc bardzo prawdopodobne, że tak)
- nie jesteśmy pewni, jak można go trenować bez bootstrappingu z gęstej uwagi. Może DeepSeek wie. Myślę, że V4 nie użyje DSA, jest wyraźnie nazywane prototypem. W najgorszym przypadku sensowne jest również wstępne trenowanie z pełną uwagą => rozszerzenie => sparsifikacja, ponosisz większe koszty w wstępnym treningu dla trwale tańszego wnioskowania.
- Kimi's KDA lub Qwen's GDN+ lub coś innego może być nawet lepsze niż DSA+/NSA+
Pomijając te zastrzeżenia, to nie jest redukcja ceny o 2x, żartuję. Raczej 10x. Rzadka uwaga, która nie pogarsza się, to dość duża sprawa.
Jeśli chodzi o szybkość, to jest to pusta kwestia z perspektywy modelu. DeepSeek nie jest zainteresowany dostarczaniem najlepszego produktu. Obsługują z masowymi partiami z H800s/Ascends. Możesz to uruchomić na amerykańskim sprzęcie i uzyskać 60-150 t/s, lub na Cerebras i uzyskać GLM-owe 1000 t/s, nie zwiększając kosztów. Ta architektura jest z natury szybka (płytka, tania uwaga), po prostu DeepSeek serwuje ją wolno.
Jeśli chodzi o inteligencję na granicy, mówię, że te «usemaxing» zalety granicy – głównie kodowanie agentowe, ale możesz pokryć więcej dziedzin w ten sam sposób – są produktem wydatków obliczeniowych na kroki RL i iterowanie przez syntetyczne środowiska. Mają przepis. Raportują, że ≈10% kosztów wstępnego treningu wydano na Speciale. To ≈600K$. Grok 4 rzekomo wykorzystał 100% Grok 3, lub dziesiątki-setki milionów. Wyraźnie było to bardzo nieefektywne z Grok, ale myślę, że DeepSeek mógłby łatwo przejść do 100%, przepis jest znany. Prawdopodobnie nie chcą marnować tego na przestarzałą bazę, ponieważ zauważają, że pozostaje ona ograniczona wiedzą.
Uważam, że beztroskie podejście do wydajności matematycznej na poziomie IMO (lub zero-shotting problemów Erdos do poziomu, na którym ludzki rozwiązywacz mówi «tak, to zasadniczo moje rozwiązanie») jest zabawne. Czy nie wszyscy mieliśmy oczekiwać AGI z niezależnych badań matematycznych? Czy to tylko kodowanie teraz. Można argumentować, że to najbardziej interesująca zdolność do szacowania prędkości startu. Ale cokolwiek, sam wierzę w powolny start, samodoskonalenie napotka problemy logistyczne, niezależnie od tego, gdzie zaczynamy.
Głównym wkładem tutaj, jak już powiedziałem, jest to, że ogłaszają wiarę, że zasadniczo rozwiązali trening granicznych LLM-ów na koniec 2025 roku jako program badawczy i mogliby osiągnąć obecny poziom zachodni lub go przekroczyć, po prostu wlewając więcej obliczeń (plus drobne poprawki dotyczące efektywności tokenów). Teoretycznie ich ogłoszenie o przyjrzeniu się większemu treningowi w końcu można interpretować jako «i to jest to, co robimy teraz». Ale to pozostaje do zobaczenia.
@TheZvi > pomimo identycznego wstępnego treningu
i treningu po, korekta
3,29K
Najlepsze
Ranking
Ulubione

