Mô hình tư duy Kimi K2 với 1 triệu tham số mới hoạt động tốt trên 2 M3 Ultras ở định dạng gốc - không mất chất lượng! Mô hình đã được huấn luyện nhận thức lượng tử (qat) ở int4. Tại đây, nó đã tạo ra ~3500 token với tốc độ 15 token/giây sử dụng pipeline-parallelism trong mlx-lm:
Nó đã tạo ra một trò chơi không gian xâm lược hoàn toàn chức năng mà không gặp vấn đề gì. Nó chỉ sử dụng vài trăm token suy nghĩ và tổng cộng 3500, điều này khá tốt.
328,12K