Yeni gönderi: nanochat mini dizisi v1 LLM'leri düşünmenin doğru yolu, tek bir belirli model için değil, tek bir kadran (harcamak istediğiniz hesaplama) tarafından kontrol edilen bir aile modeli için optimize etmenizin ve monoton derecede daha iyi sonuçlar elde etmesidir. Bu, ölçeklendirme yasalarını dikkatli bir şekilde araştırmanıza olanak tanır ve nihayetinde "büyük koşu" için ödeme yaptığınızda ekstrapolasyonun işe yarayacağına ve paranızın iyi harcanacağına dair güven sağlar. Nanochat'in ilk halka açık sürümünde odağım tüm LLM boru hattını tüm aşamalarıyla birlikte çalıştıran uçtan uca boru hattı oldu. Şimdi, birkaç kez YOLO yaptıktan sonra, hızlıca geçtiğim bazı kısımları detaylandırmak için geri dönüyorum; tabii ki ön eğitimle başlıyorum; ki bu hem hesaplama açısından ağır hem de bu modellerde zeka ve bilginin temeli olarak kritik öneme sahip. Bazı hiperparametreleri yerel olarak ayarladıktan sonra, FLOP'un bütçesini düzelten birkaç modeli süpürdüm. (Her FLOP hedefi için küçük bir modeli uzun süre veya büyük bir modeli kısa süreliğine eğitebilirsiniz.) Nanochat'in çok güzel ölçeklendirme yasalarına uyduğu ortaya çıktı, temelde Chinchilla kağıt grafiklerini yeniden üretiyor: Bu da Chinchilla'dan bu hikayenin sadece küçük bir versiyonu: Çok önemli ve cesaret verici bir şekilde, N (parametreler) ve D (tokenlar) üzerindeki üstüstlenim ~=0.5'te eşittir, yani tıpkı Chinchilla gibi model boyutunu token eğitim horizonlarıyla ilişkilendiren tek (hesaplamadan bağımsız) bir sabit elde ederiz. Chinchilla'da bu 20 olarak ölçüldü. Nanochat'te 8 gibi görünüyor! Hesaplama optimal modelleri eğitebildikten sonra, d10'dan d20'ye kadar bir mini seri çıkardım; bunlar nanochat boyutları ve 8XH100 düğümünde gradyan birikimi olmadan 2**19 ~= 0.5M parti boyutları yapabiliyor. Her model boyutu için güzel, iterekt olmayan eğitim grafikleri elde ediyoruz. Sonra eğlenceli olan kısım, bu mini seri v1'i GPT-2 ve GPT-3 mini serileriyle ilişkilendirmek, böylece doğru yolda olduğumuzu bilmek. Doğrulama kaybının birçok sorunu var ve karşılaştırılanamaz olduğu için bunun yerine CORE puanını (DCLM makalesinden) kullanıyorum. GPT-2 için hesapladım ve GPT-3 için tahmin ettim, bu da nanochat'i güzelce ve aynı ölçekte koymamızı sağlıyor: Bu mini dizinin toplam maliyeti sadece ~$100 (~4 saat, 8XH100 ile birlikte). Bu deneyler bize her şeyin oldukça iyi çalıştığına ve daha fazla ödeme yaparsak (düğmeyi çevirirsek) giderek daha iyi modeller elde ettiğimize dair güven veriyor. Özet: Optimal miniserileri hesaplamayı eğitebilir ve onları GPT-2/3 ile objektif CORE puanlarıyla ilişkilendirebiliriz, ancak daha fazla iyileştirme arzu edilir ve gereklidir. Örneğin, GPT-2'yi eşleştirmek şu anda ~$500 gerektiriyor, ama bence daha fazla işle 100$< yapmak mümkün olmalı. Daha detaylı tam gönderi burada: Tüm ayar ve kod master'a yönlendiriliyor ve insanlar bunları scaling_laws .sh ve mini seriler .sh bash scriptlerle yeniden üretebiliyor.