Yeni 1 Trilyon parametreli Kimi K2 Thinking modeli, yerel formatında 2 M3 Ultra'da iyi çalışıyor - kalite kaybı yok! Model, int4'te niceleme bilinçli eğitilmiş (qat) idi. Burada mlx-lm'de boru hattı paralelliğini kullanarak 15 tok/sn'de ~3500 token üretti:
Tamamen işlevsel bir uzay istilacıları oyunu üretti, sorun değil. Sadece birkaç yüz düşünme jetonu ve toplamda 3500 kullandı ki bu oldukça güzel.
328,13K