Yani ölümü seçiyorsun
Nesne seviyesinde yanıt vermek @TheZvi Teknik olarak, DSA, önceki nesil modeller için bile Gemini ölçeği bağlamları çok ucuz hale getiren büyük bir sıçrama olabilir. Uyarılar: - 1M+ olarak ölçeklenip ölçeklemediğinden emin değiliz (ama V3.2 deneyimi≥V3.1, aynı ön eğitim olmasına rağmen V3.2 deneyimi, V3.2>> deneyimi, yani büyük ihtimalle evet) - yoğun dikkatten bootstrap olmadan nasıl eğitilebileceğinden emin değiliz. Belki DeepSeek biliyordur. Bence V4 DSA kullanmaz, bu açıkça prototip olarak adlandırılıyor. En kötü durumda, tam dikkatle önceden eğitim yapmak da mantıklıdır => uzatmak => seyrekleştirmek, kalıcı olarak daha ucuz çıkarım için önceden eğitimde daha fazla maliyet harcarsınız. - Kimi'nin KDA'sı veya Qwen'in GDN+ gibi bir şeyi, DSA+/NSA+'dan bile daha iyi olabilir Bu uyarılara göre bu iki kat fiyat indirimi değil, alaycı bir şekilde konuşuyorum. Daha çok 10 kat. Zayıflamayan seyrek dikkat oldukça büyük bir mesele. Hız açısından, model açısından boş bir nokta. DeepSeek, en iyi ürünü sunmakla ilgilenmiyor. H800/Ascend'lerden büyük partilerle servis ediyorlar. Amerikan donanımına takıp 60-150 t/s alabilirsiniz, ya da Cerebras'a takıp GLM benzeri 1000 t/s alabilirsiniz, maliyeti büyütmeden. Bu mimari doğası gereği hızlı (yüzeysel, ucuz dikkat), sadece DeepSeek bunu yavaş hizmet ediyor. Sınır zekası konusunda, sınırın bu «maxing' avantajlarının – esas olarak ajanik kodlama, ama aynı şekilde daha fazla alanı kapsayabilirsiniz – gerçek yaşam alanına yapılan harcamaların ve sentetik ortamlarda yineleme işleminin bir ürünü. Tarifi onlarda var. Ön eğitim maliyetinin %10'unun Speciale'ye harcandığını ≈ bildiriyorlar. Bu ≈600 bin dolar. Grok 4'ün Grok 3'ün %100'ünü, yani on yüz milyonlarca kullandığı bildirildi. Grok ile açıkça çok verimsiz oldu ama bence DeepSeek %100'e kolayca ulaşabilir, tarif biliniyor. Muhtemelen bunu eski bir temele harcamak istemiyorlar, çünkü hâlâ bilgi darboğazı olduğunu belirtiyorlar. Bence benim seviyemdeki matematik performansına (ya da insan çözücünün 'evet, aslında benim çözümüm' dediği seviyeye kadar Erdos problemlerini sıfır atış yapma) konusundaki hafif tavrını komik buluyorum. Hepimizin bağımsız matematik araştırmalarından AGI beklememiz gerekmiyor muydu? Yoksa şimdi sadece kodlama mı yapıyor? Tahmin etmek için en ilginç özellik bu. Ama neyse, ben yavaş kalkışa inanıyorum, kendini geliştirme nereden başlarsak başlayalım, lojistik sorunlarla karşılaşacak. Buradaki ana katkı, dediğim gibi, temelde 2025 sonu sınır LLM'lerinin eğitimini bir araştırma programı olarak çözdüklerine inanıyorlar ve sadece daha fazla hesaplama (ve token verimliliği konusunda küçük ayarlamalar) mevcut Batı seviyesine veya ötesine ulaşabileceklerine inanıyorlar. Teoride, sonunda daha büyük ölçekli eğitime geçeceklerini açıklamaları «ve şu anda yaptığımız bu» şeklinde yorumlanabilir. Ama bu henüz belli değil.
@TheZvi > aynı ön eğitim olmasına rağmen ve eğitim sonrası düzeltme
3,3K