Jag tror att vi inte förstår beteendet hos så stora MoE:er (särskilt med avancerade post-DSMoE-arkitekturer). Men vi vet att skalningen är bra med 0,8 % även på totalt ≈28 miljarder. Och smarta sätt att utnyttja gleshet bortom "finare korn" blir möjliga. Jag säger att 1 % vid 10 T är *konservativt*.