Tutti stanno puntando su MoE ultra-sottili Se prendiamo la roadmap di Alibaba come base Allora 10T di parametri (con l'1% di attivazione, 100B attivi) e addestrati su 100 trilioni di token con il 30% di MFU richiederanno 6 * 10e25 FLOPs Può essere addestrato in 58 giorni su un cluster H200 da 20K ($300M in hardware se compri o $60M se affitti)