Stilles Merklearning in Transformern Das ist eines der faszinierendsten Papiere, die ich diese Woche gelesen habe. Lass mich erklären: Es wird argumentiert, dass Verlustkurven darüber irreführen können, was ein Modell lernt. Der Standardansatz zur Überwachung des Trainings von neuronalen Netzwerken stützt sich auf den Verlust als primäres Fortschrittsmaß. Wenn der Verlust flach ist, passiert nichts. Wenn der Verlust sinkt, findet Lernen statt. Aber diese Annahme bricht bei algorithmischen Aufgaben zusammen. Diese neue Forschung hat Transformatoren auf zehn grundlegenden algorithmischen Aufgaben trainiert und "stille Merkmale" entdeckt: interne Repräsentationen, die sich entwickeln, während der Verlust stagnierend erscheint. Sie stellen fest, dass Modelle zwischenzeitliche Rechenschritte lange bevor diese Schritte die Ausgabeleistung verbessern, lernen. Übertragungsbits in der Addition, Warteschlangenmitgliedschaft in BFS, partielle Produkte in der Multiplikation. Diese Merkmale treten während längerer Plateaus auf und kombinieren sich dann plötzlich, um die Aufgabe zu lösen. Die Forscher untersuchten interne Repräsentationen in der binären Arithmetik (Addition, Multiplikation), Graphalgorithmen (BFS, kürzester Weg, topologische Sortierung, MST) und Sequenzoptimierung (maximales Teilarray, Aktivitätsauswahl). Sechs Aufgaben zeigten klare zwei-phasige Übergänge: verlängerte Stagnation gefolgt von abrupten Leistungsgewinnen. Ablationsexperimente bestätigten die Kausalität. Das Entfernen von Übertragungsmerkmalen aus einem 64-Bit-Additionsmodell führte zu einem Rückgang der Genauigkeit um 75,1 %. Das Abtragen der Warteschlangenmitgliedschaft in BFS senkte die Genauigkeit um 43,6 %. Algorithmische Aufgaben erfordern mehrere Subroutinen, die zusammen funktionieren. Einzelne korrekte Komponenten reduzieren den Verlust nicht, bis alle Teile übereinstimmen. Modelle akkumulieren latente Fähigkeiten unter flachen Verlustkurven. Es scheint, dass der Kreuzentropieverlust ein unvollständiges Diagnosewerkzeug ist. Substantielles internes Lernen kann stattfinden, während die Metriken stagnierend erscheinen. Dies motiviert reichhaltigere Überwachungswerkzeuge über Verlustkurven hinaus. 🔖 (Lesezeichen setzen) Papier: