@aldrmv @angeloskathと@GrangierDavidに関するいくつかの新しい作業: Compute-Optimal 量子化対応トレーニング @aldrmv、次のような多くの有用な質問に答えることができるスケーリング法則を構築しました。 - 特定のトークン予算について、どの程度のトレーニングを完全なプリビジョンと量子化を意識する必要がありますか? - 特定のメモリ バジェットに対して、最適な量子化はどれくらいですか? - トレーニングトークンを増やすと、量子化を意識したトレーニングの割合はどのように変化しますか?