Model Kimi K2 Thinking parameter 1 Triliun baru berjalan dengan baik pada 2 M3 Ultras dalam format aslinya - tidak ada kehilangan kualitas! Modelnya adalah quantization aware trained (qat) di int4. Di sini menghasilkan ~3500 token pada 15 toks/detik menggunakan pipeline-parallelism di mlx-lm:
Itu menghasilkan game penyerbu ruang angkasa yang berfungsi penuh tidak masalah. Itu hanya menggunakan beberapa ratus token berpikir dan 3500 secara keseluruhan yang cukup bagus.
328,02K