Всі прагнуть ультра-стриманих MoE Якщо взяти дорожню карту Alibaba як основу Тоді 10T параметрів (з 1% активацією, 100B активністю) і навчені на 100 трильйонах токенів при 30% MFU вимагатимуть 6 * 10e25 FLOP Його можна тренувати за 58 днів на кластері H200 на 20 тисяч (300 мільйонів доларів за обладнання, якщо купуєш, або 60 мільйонів доларів, якщо орендуєш).