Alle gehen auf ultra-sparse MoEs Wenn wir den Alibaba-Fahrplan als Basis nehmen Dann erfordern 10T Parameter (mit 1% Aktivierung, 100B aktiv) und trainiert auf 100 Billionen Tokens bei 30% MFU 6 * 10e25 FLOPs Es kann in 58 Tagen auf einem 20K H200-Cluster trainiert werden (300 Millionen Dollar für Hardware, wenn man kauft oder 60 Millionen Dollar, wenn man mietet)