Il nuovo modello di pensiero Kimi K2 con 1 trilione di parametri funziona bene su 2 M3 Ultras nel suo formato nativo - nessuna perdita di qualità! Il modello è stato addestrato consapevolmente alla quantizzazione (qat) a int4. Qui ha generato ~3500 token a 15 tok/sec utilizzando il parallelismo della pipeline in mlx-lm:
Ha generato un gioco di space invaders completamente funzionante senza problemi. Ha utilizzato solo un paio di centinaia di token di pensiero e 3500 in totale, il che è piuttosto bello.
328,06K