Het nieuwe Kimi K2 Thinking-model met 1 triljoen parameters draait goed op 2 M3 Ultras in zijn oorspronkelijke formaat - geen kwaliteitsverlies! Het model is kwantisatie-bewust getraind (qat) op int4. Hier genereerde het ~3500 tokens met 15 toks/sec met behulp van pipeline-parallelisme in mlx-lm:
Het genereerde een volledig functioneel space invaders-spel zonder problemen. Het gebruikte slechts een paar honderd denk-tokens en in totaal 3500, wat best mooi is.
328,13K