- Verallgemeinerung ist nur ein Algorithmus. - (Feedback) Transformer können jeden Algorithmus durch GD lernen. Hauptfrage: Mit welchen Trainingsdaten? Mein Glaube: Wenn man Transformer mit RL auf richtig ausgewählten Problemen trainiert, werden Verallgemeinerungsfähigkeiten entstehen und sich erheblich verbessern.