Le nouveau modèle de pensée Kimi K2 avec 1 trillion de paramètres fonctionne bien sur 2 M3 Ultras dans son format natif - aucune perte de qualité ! Le modèle a été entraîné en tenant compte de la quantification (qat) à int4. Ici, il a généré ~3500 tokens à 15 toks/sec en utilisant le pipeline-parallélisme dans mlx-lm :
Il a généré un jeu d'invasion spatiale entièrement fonctionnel sans problème. Il n'a utilisé que quelques centaines de jetons de réflexion et 3500 au total, ce qui est plutôt agréable.
328,12K