DApp Store | Centrum Web3 pro události a hry

Populární témata

Rychlé vysvětlení rozdílu mezi tréninkem s vědomím kvantizace (QAT), jako je Kimi K2, a tréninkem s nízkou přesností (řekněme FP4). Zde je obrázek toho, jak předsunutá operace vypadá pro každou z nich. Trénink QAT je většinou inferenční optimalizace za účelem snížení latence (tj. tokenů za sekundu pro dekódování malých dávek). Celková propustnost je pravděpodobně nižší než při přímém použití bf16 nebo fp8, protože během tréninku máte před každým gemm navíc kvantizovat+dekvantizovat. Trénink s nízkou přesností (např. FP4) kvantifikuje jak váhy, tak aktivace a nedekvantizuje před matmuly. Pokud se to udělá správně, propustnost by se měla hodně zvýšit. Smyslem je urychlit gemmy použitím vstupů s nižší přesností.

Top

Hodnocení

Oblíbené