Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Rychlé vysvětlení rozdílu mezi tréninkem s vědomím kvantizace (QAT), jako je Kimi K2, a tréninkem s nízkou přesností (řekněme FP4). Zde je obrázek toho, jak předsunutá operace vypadá pro každou z nich.
Trénink QAT je většinou inferenční optimalizace za účelem snížení latence (tj. tokenů za sekundu pro dekódování malých dávek). Celková propustnost je pravděpodobně nižší než při přímém použití bf16 nebo fp8, protože během tréninku máte před každým gemm navíc kvantizovat+dekvantizovat.
Trénink s nízkou přesností (např. FP4) kvantifikuje jak váhy, tak aktivace a nedekvantizuje před matmuly. Pokud se to udělá správně, propustnost by se měla hodně zvýšit. Smyslem je urychlit gemmy použitím vstupů s nižší přesností.

Top
Hodnocení
Oblíbené

