Cred că nu înțelegem comportamentul unor astfel de MoE-uri mari (în special cu arhitecturi avansate post-DSMoE). Dar știm că scalarea este bună, cu 0,8% chiar și la ≈28 miliarde în total. Și devin posibile modalități ingenioase de a exploata raritatea dincolo de "granulația mai fină". Eu spun că 1% la 10T este *conservator*.