Den nye 1 billioner parameter Kimi K2 Thinking-modellen kjører godt på 2 M3 Ultras i sitt opprinnelige format - uten tap av kvalitet! Modellen var kvantiseringsbevisst trent (qat) ved int4. Her genererte den ~3500 tokener ved 15 toks/sek ved bruk av pipeline-parallellitet i mlx-lm:
Det genererte et fullt funksjonelt space invaders-spill ikke noe problem. Den brukte bare noen få hundre tenketokens og 3500 totalt, noe som er ganske fint.
328,03K