Der eigentliche Gewinn, ein 1T-Parameter-Modell mit einem "Schnürsenkel"-Budget trainieren zu können, liegt nicht in den Kosteneinsparungen. Es ist der Effizienzgewinn, der es dir ermöglicht, schneller zu arbeiten und deine Iterationsgeschwindigkeit zu erhöhen. Achte auf die Steigung. So lange ich mich erinnern kann, kommen die besten Deep-Learning-Modelle aus den Laboren, die am schnellsten iterieren.