Tout le monde opte pour des MoEs ultra-rapides Si nous prenons la feuille de route d'Alibaba comme référence Alors 10T de paramètres (avec 1% d'activation, 100B actifs) et entraînés sur 100 trillions de tokens à 30% de MFU nécessiteront 6 * 10e25 FLOPs Cela peut être entraîné en 58 jours sur un cluster H200 de 20K (300M $ en matériel si vous achetez ou 60M $ si vous louez)