Я думаю, что мы не понимаем поведение таких больших MoE (особенно с продвинутыми архитектурами post-DSMoE). Но мы знаем, что масштабирование хорошо с 0,8% даже при ≈28B в целом. И умные способы использования разреженности за пределами "более тонкого" становятся возможными. Я считаю, что 1% при 10T - это *консервативно*.