Skutečnou výhrou z možnosti trénovat model s parametry 1T s rozpočtem "na provázek" není úspora nákladů.
Je to zvýšení efektivity, které vám umožní pohybovat se rychleji a zvýšit rychlost iterace. Dávejte pozor na svah.
Co si pamatuji, nejlepší modely hlubokého učení pocházejí z laboratoří, které se iterují nejrychleji.
Rychlé vysvětlení rozdílu mezi tréninkem s vědomím kvantizace (QAT), jako je Kimi K2, a tréninkem s nízkou přesností (řekněme FP4). Zde je obrázek toho, jak předsunutá operace vypadá pro každou z nich.
Trénink QAT je většinou inferenční optimalizace za účelem snížení latence (tj. tokenů za sekundu pro dekódování malých dávek). Celková propustnost je pravděpodobně nižší než při přímém použití bf16 nebo fp8, protože během tréninku máte před každým gemm navíc kvantizovat+dekvantizovat.
Trénink s nízkou přesností (např. FP4) kvantifikuje jak váhy, tak aktivace a nedekvantizuje před matmuly. Pokud se to udělá správně, propustnost by se měla hodně zvýšit. Smyslem je urychlit gemmy použitím vstupů s nižší přesností.