O novo modelo Kimi K2 Thinking de 1 trilhão de parâmetros funciona bem em 2 M3 Ultras em seu formato nativo - sem perda de qualidade! O modelo foi treinado com reconhecimento de quantização (qat) em int4. Aqui, ele gerou ~ 3500 tokens a 15 toks / s usando paralelismo de pipeline em mlx-lm:
Ele gerou um jogo de invasores espaciais totalmente funcional sem problemas. Ele usou apenas algumas centenas de tokens de pensamento e 3500 no total, o que é muito bom.
761