Nowa praca z @aldrmv @angeloskath i @GrangierDavid: Trening z uwzględnieniem kwantyzacji optymalnej dla obliczeń @aldrmv stworzył prawo skalowania, które może odpowiedzieć na wiele przydatnych pytań, w tym: - Przy danym budżecie tokenów, ile treningu powinno być pełną precyzją, a ile z uwzględnieniem kwantyzacji? - Przy danym budżecie pamięci, jaka jest optymalna kwantyzacja? - Jak zmienia się ułamek treningu z uwzględnieniem kwantyzacji w miarę zwiększania liczby tokenów treningowych?