与 @aldrmv @angeloskath 和 @GrangierDavid 的一些新工作: 计算最优量化感知训练 @aldrmv 建立了一个缩放法则,可以回答许多有用的问题,包括: - 对于给定的令牌预算,完全预见与量化感知的训练应该各占多少? - 对于给定的内存预算,最佳的量化是什么? - 随着训练令牌的增加,量化感知训练的比例如何变化?