O novo modelo de pensamento Kimi K2 com 1 trilhão de parâmetros funciona bem em 2 M3 Ultras no seu formato nativo - sem perda de qualidade! O modelo foi treinado com consciência de quantização (qat) em int4. Aqui, gerou ~3500 tokens a 15 toks/seg usando paralelismo de pipeline em mlx-lm:
Gerou um jogo de space invaders totalmente funcional sem problemas. Usou apenas algumas centenas de tokens de pensamento e 3500 no total, o que é bastante bom.
721