A verdadeira vitória de conseguir treinar um modelo de 1T de parâmetros com um orçamento "apertado" não é a economia de custos. É o ganho de eficiência que permite que você se mova mais rápido e aumente sua velocidade de iteração. Preste atenção à inclinação. Desde que me lembro, os melhores modelos de deep learning vêm dos laboratórios que iteram mais rápido.