Den nya Kimi K2 Thinking-modellen med 1 biljon parametrar fungerar bra på 2 M3 Ultras i sitt ursprungliga format - ingen kvalitetsförlust! Modellen var quantization aware trained (qat) vid int4. Här genererade den ~3500 tokens vid 15 toks/sek med hjälp av pipeline-parallellism i mlx-lm:
Det genererade ett fullt fungerande Space Invaders-spel utan problem. Det använde bara några hundra tänkande tokens och 3500 totalt vilket är ganska trevligt.
750