Beberapa karya baru dengan @aldrmv @angeloskath dan @GrangierDavid: Pelatihan Komputasi Sadar Kuantisasi Optimal @aldrmv membangun undang-undang penskalaan yang dapat menjawab banyak pertanyaan berguna, termasuk: - Untuk anggaran token tertentu, berapa banyak pelatihan yang harus diperhatikan dengan previsi penuh vs kuantisasi? - Untuk anggaran memori tertentu, berapa kuantisasi yang optimal? - Bagaimana fraksi pelatihan sadar kuantisasi berubah saat Anda meningkatkan token pelatihan?