Tôi nghĩ rằng chúng ta không hiểu hành vi của những MoE lớn như vậy (đặc biệt là với các kiến trúc post-DSMoE tiên tiến). Nhưng chúng ta biết rằng việc mở rộng là tốt với 0,8% ngay cả khi tổng cộng ≈28B. Và những cách thông minh để khai thác tính thưa thớt ngoài "cấp độ tinh vi hơn" trở nên khả thi. Tôi nói 1% ở 10T là *bảo thủ*.