Myślę, że nie rozumiemy zachowania tak dużych MoE (szczególnie w przypadku zaawansowanych architektur post-DSMoE). Ale wiemy, że skalowanie jest dobre przy 0,8% nawet przy ≈28B całkowitych. A sprytne sposoby wykorzystania rzadkości poza "finer grain" stają się możliwe. Mówię, że 1% przy 10T jest *konserwatywne*.