Uusi 1 biljoonan parametrin Kimi K2 Thinking -malli toimii hyvin 2 M3 Ultralla alkuperäisessä muodossaan - ei laadun heikkenemistä! Malli oli kvantisointitietoinen koulutettu (qat) int4:ssä. Tässä se tuotti ~3500 tokenia nopeudella 15 toks/s käyttämällä pipeline-parallelismia mlx-lm:ssä:
Se loi täysin toimivan space invaders -pelin ilman ongelmia. Se käytti vain muutamaa sataa ajattelumerkkiä ja kaiken kaikkiaan 3500, mikä on varsin mukavaa.
746