- La generalizzazione è solo un algoritmo. - (Feedback) I Transformers possono apprendere qualsiasi algoritmo attraverso GD. Domanda principale: Su quali dati di addestramento? La mia convinzione: Quando si addestrano i transformers con RL su problemi selezionati correttamente, le capacità di generalizzazione emergeranno e miglioreranno significativamente.