Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
O explicație rapidă a diferenței dintre antrenamentul conștient de cuantificare (QAT), cum ar fi Kimi K2, și antrenamentul de precizie scăzută (să zicem FP4). Iată o imagine a modului în care arată operațiunea de atac pentru fiecare.
Antrenamentul QAT este în mare parte o optimizare a inferenței pentru a reduce latența (adică token-per-secundă pentru decodarea în loturi mici). Randamentul general este probabil mai mic decât utilizarea directă a bf16 sau fp8, deoarece în timpul antrenamentului aveți o cuantificare + decuantificare suplimentară înainte de fiecare gemm.
Antrenamentul de joasă precizie (de exemplu, FP4) cuantifică atât greutățile, cât și activările și nu se decuantifică înainte de matmuls. Dacă este făcut corect, randamentul ar trebui să crească foarte mult. Ideea este de a accelera gemmele folosind intrări de precizie mai mică.

Limită superioară
Clasament
Favorite

