Kemenangan nyata dari mampu melatih model parameter 1T dengan anggaran "tali sepatu" bukanlah penghematan biaya.
Ini adalah peningkatan efisiensi yang memungkinkan Anda bergerak lebih cepat dan meningkatkan kecepatan iterasi Anda. Perhatikan kemiringan.
Sejak saya ingat, model pembelajaran mendalam terbaik berasal dari laboratorium yang melakukan iterasi tercepat.
Penjelasan singkat tentang perbedaan antara pelatihan sadar kuantisasi (QAT), seperti Kimi K2, dan pelatihan presisi rendah (katakanlah FP4). Berikut adalah gambar seperti apa operasi maju untuk masing-masing.
Pelatihan QAT sebagian besar merupakan pengoptimalan inferensi untuk mengurangi latensi (yaitu token-per-detik untuk decoding batch kecil). Throughput keseluruhan kemungkinan lebih rendah daripada menggunakan bf16 atau fp8 secara langsung karena selama pelatihan Anda memiliki kuantisasi + dekuantisasi ekstra sebelum setiap gemm.
Pelatihan presisi rendah (misalnya FP4) mengukur bobot dan aktivasi dan tidak mendekuantisasi sebelum matmul. Jika dilakukan dengan benar, throughput akan meningkat pesat. Intinya adalah untuk mempercepat permata dengan menggunakan input presisi yang lebih rendah.