Algum trabalho novo com @aldrmv @angeloskath e @GrangierDavid: Treinamento Consciente de Quantização Ótima @aldrmv construiu uma lei de escalonamento que pode responder a muitas perguntas úteis, incluindo: - Para um determinado orçamento de tokens, quanto do treinamento deve ser de previsão total vs consciente de quantização? - Para um determinado orçamento de memória, qual é a quantização ótima? - Como a fração de treinamento consciente de quantização muda à medida que você aumenta os tokens de treinamento?