Das neue Kimi K2 Thinking-Modell mit 1 Billion Parametern läuft gut auf 2 M3 Ultras in seinem nativen Format - kein Qualitätsverlust! Das Modell wurde quantisierungsbewusst trainiert (qat) bei int4. Hier wurden ~3500 Tokens mit 15 toks/sec unter Verwendung von Pipeline-Parallelismus in mlx-lm generiert:
Es wurde ein voll funktionsfähiges Space Invaders-Spiel ohne Probleme generiert. Es verwendete nur ein paar hundert Denk-Token und insgesamt 3500, was ziemlich schön ist.
328,03K