Все стремятся к ультра-редким MoE Если мы возьмем дорожную карту Alibaba за основу То 10 трлн параметров (с 1% активации, 100 млрд активных) и обученные на 100 трлн токенов при 30% MFU потребуют 6 * 10e25 FLOPs Их можно обучить за 58 дней на кластере H200 с 20K ($300M за оборудование, если купить, или $60M, если арендовать)