Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Szybkie wyjaśnienie różnicy między treningiem świadomym kwantyzacji (QAT), takim jak Kimi K2, a treningiem o niskiej precyzji (powiedzmy FP4). Oto obrazek ilustrujący, jak wygląda operacja forward dla każdego z nich.
Trening QAT to głównie optymalizacja wnioskowania mająca na celu zmniejszenie opóźnienia (tj. tokenów na sekundę przy dekodowaniu małych partii). Całkowita przepustowość prawdopodobnie będzie niższa niż w przypadku bezpośredniego użycia bf16 lub fp8, ponieważ podczas treningu masz dodatkowe kwantyzowanie i dekwantyzowanie przed każdym gemm.
Trening o niskiej precyzji (np. FP4) kwantyzuje zarówno wagi, jak i aktywacje i nie dekwantyzuje przed matmulami. Jeśli zostanie to zrobione prawidłowo, przepustowość powinna znacznie wzrosnąć. Cały sens polega na przyspieszeniu gemmów poprzez użycie niższej precyzji wejść.

Najlepsze
Ranking
Ulubione

