Einige neue Arbeiten mit @aldrmv @angeloskath und @GrangierDavid: Compute-Optimale Quantisierungsbewusste Ausbildung @aldrmv hat ein Skalierungsgesetz entwickelt, das viele nützliche Fragen beantworten kann, einschließlich: - Für ein gegebenes Token-Budget, wie viel Training sollte vollständige Vorhersage vs. quantisierungsbewusst sein? - Für ein gegebenes Speicherbudget, was ist die optimale Quantisierung? - Wie ändert sich der Anteil des quantisierungsbewussten Trainings, wenn Sie die Trainings-Token erhöhen?