Wszyscy dążą do ultra-rzadkich MoEs Jeśli weźmiemy mapę drogową Alibaba jako punkt odniesienia To 10T parametrów (z 1% aktywacji, 100B aktywnych) i trenowane na 100 bilionach tokenów przy 30% MFU będzie wymagać 6 * 10e25 FLOPs Można to wytrenować w 58 dni na klastrze 20K H200 (300 mln USD za sprzęt, jeśli kupisz, lub 60 mln USD, jeśli wynajmiesz)