- La généralisation n'est qu'un algorithme. - (Retour) Les Transformers peuvent apprendre n'importe quel algorithme grâce à la GD. Question principale : Sur quelles données d'entraînement ? Ma conviction : Lorsque l'on entraîne des transformers avec du RL sur des problèmes correctement sélectionnés, des capacités de généralisation émergeront et s'amélioreront considérablement.