Ich denke, wir verstehen das Verhalten solcher großen MoEs (insbesondere bei fortgeschrittenen post-DSMoE-Architekturen) nicht. Aber wir wissen, dass Skalierung mit 0,8 % selbst bei ≈28B insgesamt gut ist. Und clevere Möglichkeiten, die Sparsamkeit über "feinere Granularität" hinaus auszunutzen, werden möglich. Ich sage, 1 % bei 10T ist *konservativ*.