Toată lumea urmărește MoE-uri ultra-rare Dacă luăm foaia de parcurs Alibaba ca reper Apoi parametrii 10T (cu 1% activare, 100B activ) și antrenarea pe 100 de trilioane de tokenuri la 30% MFU vor necesita 6 * 10e25 FLOP-uri Poate fi antrenat în 58 de zile pe un cluster H200 de 20.000 (300 milioane de dolari hardware dacă cumperi sau 60 milioane dacă închiriezi)