Я думаю, ми не розуміємо поведінку таких великих MoE (особливо з просунутими архітектурами після DSMoE). Але ми знаємо, що масштабування добре — 0,8% навіть при ≈28 млрд загалом. І стають можливими розумні способи експлуатувати скупість, що виходить за межі «дрібної зерна». Я вважаю, що 1% при 10T — це *консервативно*.