Iedereen gaat voor ultra-sparse MoEs Als we de Alibaba-routekaart als basis nemen Dan vereisen 10T parameters (met 1% activatie, 100B actief) en getraind op 100 triljoen tokens bij 30% MFU 6 * 10e25 FLOPs Het kan in 58 dagen worden getraind op een 20K H200-cluster ($300M aan hardware als je koopt of $60M als je huurt)