Semua orang memilih MoE yang sangat jarang Jika kita mengambil peta jalan Alibaba sebagai dasar Kemudian parameter 10T (dengan aktivasi 1%, 100B aktif) dan dilatih pada 100 Triliun token pada 30% MFU akan membutuhkan 6 * 10e25 FLOP Itu dapat dilatih dalam 58 hari pada cluster H200 20K ($300 juta dalam perangkat keras jika Anda membeli atau $60 juta jika Anda menyewa)